最新 最热

谷歌让机器人充当大语言模型的手和眼,一个任务拆解成16个动作一气呵成

机器之心报道编辑:张倩、蛋酱大模型在机器人领域找到了用武之地。「我把饮料撒了,你能帮我一下吗?」这是我们日常生活中再正常不过的一句求助语。听到这句话,你的家人或朋友往往会不假思索地递给你一块抹布、几张纸巾或直...

2022-05-10
1

中文文本纠错模型

中文文本纠错任务是一项NLP基础任务,其输入是一个可能含有语法错误的中文句子,输出是一个正确的中文句子。语法错误类型很多,有多字、少字、错别字等,目前最常见的错误类型是错别字。...

2022-05-10
0

基于神经网络的智能对话系统(一)——介绍

开发一个智能对话系统1,不仅模仿人类对话,而且回答有关电影明星的最新新闻到爱因斯坦相对论等主题的问题,并完成旅行计划等复杂任务,是目前运行时间最长的目标之一。 AI。直到最近,目标一直难以捉摸。然而,现在,我们正在学术...

2022-05-10
1

Drools使用dsl语言

DSL == Domain Specific Language 以贴近业务领域的方式,即以类自然语言的方式来构造软件,使得我们不用花费太多精力就能看懂代码所对应的业务含义 。 它是创建规则语言的一种方式,致力于解决我们的问题域 。 DSL相当...

2022-05-09
1

[源码解析] 模型并行分布式训练Megatron (2) --- 整体架构

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。...

2022-05-09
0

[源码解析] 模型并行分布式训练Megatron (1) --- 论文 & 基础

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。...

2022-05-09
1

[源码分析] Facebook如何训练超大模型---(1)

我们在前文介绍过,微软 ZeRO 可以对一个万亿参数模型可以使用 8 路模型并行、64 路管道并行和 8 路数据并行在 4,096 个 NVIDIA A100 GPU 上进行扩展。

2022-05-09
1

认知系列3: 看看资深研发工程师的思维模式

同一个世界,同一个问题,每个人站到的角度不一样,看到的东西不一样,得出的结论不一样,采取的行动不一样,最终的结果不一样。

2022-05-09
0

Meta开源1750亿参数GPT-3,打脸OpenAI?网友点评:GPT-4都要来了

---- 新智元报道  编辑:LRS【新智元导读】OpenAI的GPT-3已发布两年,但还是只听说过,没见过。最近Meta复现了一遍GPT-3,改名OPT,把代码、权重、部署都开源了出来,并且还更环保,碳足迹仅为原版七分之一。2020年,OpenAI放出了...

2022-05-09
0

如何提升推荐系统的可解释性?京东智能推荐卖点技术全解析

导读:京东智能商客之推荐卖点是基于NLP的产品,目前已广泛地助力和赋能于京东商城的各个平台。今天和大家分享一下自然语言处理如何在工业界落地实现。主要围绕以下5个方面展开:...

2022-05-07
0