引言
你真的了解NLP吗?本文主要是对当前自然语言处理领域的主要研究内容进行了梳理,共包含五个部分:NLP概述、NLP相关技术分类、NLP研究人员分布、NLP的应用、NLP的发展趋势。该篇文章能够帮助刚刚入坑NLP的小伙伴尽快找到自己的定位,同时也能协助已经在坑中挣扎多年的小伙伴看清该领域的全貌。
资料整理不易,帮作者点个在看吧,谢谢~
正文开始
1
NLP概述
1、什么是NLP ?
NLP是自然语言处理(Natural Language Processing)的英文缩写,它是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。通俗的来讲就是:让计算机理解我们的语言。
2、如何才能让计算机理解自然语言?
自然语言的理解和分析是一个层次化的过程,为了更好体现语言的构成,一些语言学家便把这个过程分为语音分析、词法分析、句法分析、语义分析和语用分析。举个形象的例子就可以很好的理解这个过程:例如,计算机通过麦克风接受到外界的语音,那么他首先要识别出是语音而不是外界的噪声,接着将接收到的语音进行分割,分成一些词语,对这些词语进行分析,然后根据接受到的词语分析句子的意思,在得到句子的意思后,需要让计算机理解这句话到底是什么意思,最后进一步分析,这个人为什么会这么说,是不是生气了,这就是语用分析。
3、如何才能衡量计算机理解自然语言的程度呢?
普遍认为采用图灵试验可以判断计算机是否理解了某种自然语言,具体的判别标准有以下几条: 第一, 问答, 机器人能正确回答输入文本中的有关问题; 第二, 文摘生成, 机器有能力生成输入文本的摘要; 第三, 释义, 机器能用不同的词语和句型来复述其输入的文本; 第四, 翻译, 机器具有把一种语言翻译成另一种语言的能力。
4、自然语言处理(NLP)的发展历程?
NLP的发展主要经历了三个阶段。
第一阶段:1950 年图灵提出了著名的“图灵测试” ,这一般被认为是自然语言处理思想的开端,20 世纪 50 年代到 70 年代自然语言处理主要采用基于规则的方法,研究人员们认为自然语言处理的过程和人类学习认知一门语言的过程是类似的,所以大量的研究员基于这个观点来进行研究,这时的自然语言处理停留在理性主义思潮阶段,以基于规则的方法为代表。
第二阶段:70 年代以后随着互联网的高速发展,丰富的语料库成为现实以及硬件不断更新完善,自然语言处理思潮由理性主义向经验主义过渡,基于统计的方法逐渐代替了基于规则的方法。
第三阶段:从 2008 年到现在,在图像识别和语音识别领域的成果激励下, 人们也逐渐开始引入深度学习来做自然语言处理研究, 由最初的词向量到 2013 年 word2vec, 将深度学习与自然语言处理的结合推向了高潮, 并在机器翻译、问答系统、阅读理解等领域取得了一定成功。
5、我国NLP的发展状况?
20世纪90年代以后,中国NLP研究高速发展,呈现出商业化、创新化的特征。
主要的研究内容为:基础性研究(消除歧义、语法形式化等)、应用型研究(信息检索、文本分类、机器翻译等)、语音和文本是两类研究重点、但是智能检索类研究近年逐渐升温。
研究周期:技术开发周期较短(1-3)年、语言资源库搭建较为困难(10年左右)。
国家扶持力度:国家自然科学基金、社会科学基金、863项目、973项目等。
NLP在相关行业中的发展?
微软亚洲研究院:
• 语音翻译:2017年全面采用神经网络机器翻译 • 机器翻译:将知识图谱纳入神经网络机器翻译规划语言理解的过程中 • 人机对话:小冰小娜进展极大
Google:
• 机器翻译:2017年宣布实现完全基于attention的transformer网络架构 • 知识图谱:自动挖掘新知识的准确程度、文本中命名实体的识别等技术处于领先地位 • 语音识别:2012年将神经网络应用于这一领域
Facebook:
• 机器翻译:2017年使用全新的卷积神经网络进行翻译,以9倍于以往循环神经网络的速度实现了当时最高的准确率 • 文本处理:基于2016年发布的FastText, 开发了有效的方法和轻量级工具 • 语音识别:2018年初开发了wav2letter,这是一个简单高效的端到端自动语音识别(ASR)系统
百度:
• 机器翻译: 发布了世界上首个线上神经网络翻译系统,并获得2015年度国家科技进步奖
阿里巴巴:
• 电商平台中构建知识图谱实现智能导购 • 全网用户兴趣挖掘 • 客服场景中打造机器人客服
腾讯:
• 机器翻译:2017年翻译君上线“同声传译” 新功能 • 基于文智API可以实现搜索、推荐、舆情、挖掘等功能 • AI Lab研究领域包括计算机视觉、语音识别、自然语言处理、机器学习等
京东:
• 京东AI开放平台: 由模型定制化平台和在线服务模块构成,在线服务模块包括计算机视觉、语音交互、自然语言处理和机器学习等 • 合作机构:南京大学、斯坦福大学等院校
科大讯飞:
• 2017年, 晓译翻译机1.0plus将神经网络翻译系统由在线系统转化为离线系统 • 2015年在由美国国家标准技术研究院组织的机器翻译大赛中取得全球第一的成绩
2
NLP相关技术分类
1、 基础技术
词法分析:词性标注和词义标注。
句法分析:判断句子的句法结构和成分,明确各成分的相互关系
语义分析:根据句子的句法结构和句子中每个实词的词义推导出来能够反映 这个句子意义的某种形式化表示
语用分析:人对语言的具体运用,是对自然语言的深层理解。
篇章分析:对段落和整篇文章进行理解和分析
2、NLP应用技术
机器翻译:通过特定的计算机程序将一种书写形式或声音形式的自然语言,翻译成另一种书写形式或声音形式的自然语言。
信息检索:从相关文档集合中查找用户所需信息的过程。
情感分析:通过计算技术对文本的主客观性、观点、情绪、极性的挖掘和分析,对文本的情感倾向做出分类判断。
自动问答:利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。
自动文摘:运用计算机技术,依据用户需求从源文本中提取最重要的信息内容,进行精简、提炼和总结,最后生成一个精简版本。
社会计算:在互联网的环境下,以现代信息技术为手段,以社会科学理论为指导,帮助人们分析社会关系,挖掘社会知识,协助社会沟通,研究社会规律,破解社会难题。
信息抽取:从文本中抽取出特定的事实信息。这些被抽取出来的信息通常以结构化的形式直接存入数据库,可以供用户查询及进一步分析使用,为之后构建知识库、智能问答等提供数据支撑。
3、关于NLP应用技术的论文整理(最近更新~)
「自然语言处理(NLP)」自然语言生成(NLG)论文速递(一)
「自然语言处理(NLP)」自然语言生成(NLG)论文速递(二)
(含源码)「自然语言处理(NLP)」Question Answering(QA)论文整理(一)
「自然语言处理(NLP)」神经机器翻译(NMT)论文整理(一)
(部分含源码)「自然语言处理(NLP)」Word Embedding/Representation论文整理(一)
... ...
3
NLP研究人员分布
1、全球学者分布概况
从国家来看:美国自然语言处理(NLP)研究学者聚集最多;英国、德国、加拿大和意大利紧随其后。
从地区看来:美国东部是自然语言处理(NLP)人才的集中地;西欧、美国西部等其它先进地区也吸引了大量研究者。
2、华人学者分布概况
• 自然语言处理领域中华人专家在中国最多,美国次之。 • 从地区来看,中国大陆是自然语言处理华人人才的最主要聚集地,尤其是北京、哈尔滨及东南沿海地区等具有自然语言处理学术基础的地区。 • 美国东部和西部等其他地区排在其后。
3、关于NLP研究人员
作者整理了一份全球NLP专家的列表清单,大家有兴趣可以查看一下。
收藏!!「自然语言处理(NLP)」全球学术界”巨佬“信息大盘点(一)!
收藏!!「自然语言处理(NLP)」全球学术界”巨佬“信息大盘点(二)!
收藏!!「自然语言处理(NLP)」全球学术界”巨佬“信息大盘点(三)!
收藏!!「自然语言处理(NLP)」全球学术界”巨佬“信息大盘点(四)!
收藏!!「自然语言处理(NLP)」学术界全球知名学者教授信息大盘点(全)!
最后你还可以回复:NLP巨佬 获取完整PDF版
4
NLP的应用
1、知识图谱
• 语义搜索: 利用建立大规模知识库对搜索关键词和文档内容进行 语义标注,改善搜索结果,如谷歌、百度等在搜索结果中嵌入知识图谱。 • 知识问答: 基于知识库的问答,通过对提问句子的语义分析,在将其解析为结构化的询问,在已有的知识库中获取答案。
• 基于知识的大数据分析决策: 一般起到辅助决策作用。Netflix公司利用其订阅用户的注册信息以及观看行为构建的知识图谱来决定《纸牌屋》 拍摄。
2、机器翻译
• 科大讯飞:晓译翻译机1.0plus将世界上最先进的神经网络翻译系统优化为离线系统。
• 阿里巴巴:2017年初正式上线自主开发的神经网络翻译系统。 • 腾讯:2017年翻译君上线同声传译新功能。 • 搜狗:2017年乌镇世界互联网大会上展示机器同传技术;2018年上线翻译宝,在硬件领域开始探索。
3、聊天机器人
• 概念: 能通过聊天app、聊天窗口或语音唤醒app进行交流的计算机程序,是被用来解决客户问题的智能数字化助手 • 特点: 成本低、高效且持续工作 • 对话机器人: Siri、小娜等 • 智能问答系统: 电商网站的应用如京东客服jimi等
4、文本分类
• 根据文档的内容或者属性,将大量的文档归到一个或多个类别的过程
• 垃圾电子邮件检测 • 门户网站每天产生的信息分繁杂多,文本分类技术尤为重要
5、搜索引擎
• 涉及技术: 词义消歧、句法分析、指代消解等。 • 功能: 不单单是帮助用户找到答案,还能帮助用户找到所求,连接人与实体世界的服务。 • 基本模式: 自动化地聚合足够多的内容,对之进行解析、处理和组织,响应用户的搜索请求找到对应结果返回。
6、推荐系统
起源:1992年Goldberg提出的Tapestry, 这是一个个性化邮件推荐系统,第一次提出了协同过滤的思想技术 技术:数据、算法、人机交互、数据挖掘技术、信息检索技术以及计算统计学等 应用:音乐电影的推荐、电子商务产品推荐、个性化阅读、社交网络好友推荐等场景。
7、NLP应用文章整理(最近更新~)
(含源码!)「Fun Paper」见过语音翻译,但你见过嘴型翻译吗?
(含源码!)「自然语言处理(NLP)」社交媒体舆论防控(RP-DNN)
内含源码!「自然语言处理(NLP)」广告点击量率预测
AAAI 2020「自然语言处理(NLP)论文」影响文本简化因素分析???
AAAI 2020「自然语言处理(NLP)」【哈尔滨工业大学】多任务自监督学习文本顺滑
AAAI 2020「自然语言处理(NLP)」【上海交大】 阅读理解(DCMN 模型)
(含源码!)「自然语言处理(NLP)」【卡内基梅隆大学 & 微软】会话响应生成!!
「自然语言处理(NLP)」【Borealis AI】跨域文本连贯生成神经网络模型!!
「自然语言处理(NLP)」【爱丁堡大学】基于实体模型的数据文本生成!!
「自然语言处理(NLP)」CTRL:16.3亿个参数的条件转换语言模型
... ...
5
NLP未来发展趋势
文本理解与推理:浅层分析向深度理解迈进。Google等公司已经推出了以阅读理解作为深入探索自然语言理解的平台
对话机器人:实用化、场景化。最初的语音助手可以听得到但是听不懂,之后的对话机器人可以听得懂但是实用性却不强,现在对话机器人更多的是和场景。
结合NLP 行业:与专业领域深度结合。 医疗、金融、教育和司法领域。 学习模式:先验语言知识与深度学习结合直接的深度学习是直接的端到端,人为贡献的知识在深度学习中所占的比重大幅度减小 文本情感分析:事实性文本到情感文本。情感文本分析更受重视,并且在商业和政府舆情上可以得到很好地应用。2017年新浪微舆情和哈工大推出“情绪地图”。