nlp_字节宝

中国程序员人数将增长50%，过半500强都要卖软件，边缘应用程序增长8倍丨IDC预测下一个五年

发布之前，IDC中国副总裁兼首席分析师武连峰先讲了讲2020年的宏观政经环境，依然不那么乐观，贸易摩擦成为新常态，中欧技术合作曲曲折折，WTO作用日趋减弱。...

io it nlp vr

2019-12-19

不太一样的科学家宋睿华，与小冰一起做有趣的研究

相较于「科学家都忙着看论文、做实验以及写论文」的一般认知，爱看综艺、生活中不能没有娱乐的宋睿华显得有些「不太一样」。

nlp 论文

2019-12-18

新一代海量数据搜索引擎 TurboSearch 来了！

本文作者：sololzluo，腾讯 AI Lab 开发工程师一. TurboSearch 简介 AI Lab 多年一直在搜索领域进行深耕和积累，继搜搜网页搜索之后，陆续服务于微信搜一搜（公众号文章、朋友圈、视频）、应用宝搜索、地图搜索、音乐搜索、视频...

nlp 搜索索引

2019-12-03

编故事神器的完整版代码来了！但OpenAI难保证不被滥用

时隔九月，OpenAI终于放出了旗下最强NLP模型GPT-2模型的完整代码，包含15亿参数。

gpt nlp

2019-11-11

海量中文语料上预训练ALBERT模型：参数更少，效果更好

1）词嵌入向量参数的因式分解 Factorized embedding parameterization

layer nlp sharing

2019-10-28

回顾NLP必会Gensim

Gensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型算法，支持流式训练，并提供了诸如相似度计算，信息检索等...

Python gensim models nlp vector

2019-10-17

带你读论文丨8篇论文梳理BERT相关模型进展与反思

BERT 自从在 arXiv 上发表以来获得了很大的成功和关注，打开了 NLP 中 2-Stage 的潘多拉魔盒。随后涌现了一大批类似于“BERT”的预训练（pre-trained）模型，有引入 BERT 中双向上下文信息的广义自回归模型 XLNet，也有改进 BE...

mask nlp permutation token

2019-09-12

注意力机制不能提高模型可解释性？不，你这篇论文搞错了

注意力机制在 NLP 系统中起着重要作用，尤其是对于循环神经网络（RNN）模型。那么注意力模块提供的中间表征能否解释模型预测的推理过程，进而帮助人们了解模型的决策过程呢？近期，很多研究人员对这个话题产生了浓厚的兴趣。一篇...

lstm nlp token

2019-09-10

英语和汉语谁更高效？17大主流语言测试结果：没有优劣之分，带宽都是每秒39bit

首先，不同语种的说话速度差异很大。有研究证明，意大利人语速最快，每秒能说9个音节；而德国人语速最慢，每秒只能说5~6个音节。

bit nlp 语音

2019-09-09

读8篇论文，梳理BERT相关模型进展与反思

【导读】BERT 自从在 arXiv 上发表以来获得了很大的成功和关注，打开了 NLP 中 2-Stage 的潘多拉魔盒。随后涌现了一大批类似于“BERT”的预训练（pre-trained）模型，有引入 BERT 中双向上下文信息的广义自回归模型 XLNet，也...

mask nlp permutation task token