第一章 行业概况
自然语言处理定义
自然语言处理是通过构建算法使计算机自动分析、表征人类自然语言的学科。自然语言处理是计算机理解和生成自然语言的过程,自然语言处理技术使计算机具有识别、分析、理解和生成自然语言文本(包括字、词、句和篇章)的能力。
自然语言处理机制涉及自然语言理解和自然语言生成两个流程:(1)自然语言理解:计算机理解自然语言文本的思想和意图;(2)自然语言生成:计算机用自然语言文本表述思想和意图。
自然语言理解和分析是一个层次化过程,从词法分析、句法分析、语义分析到语用语境分析层层递进:(1)词法分析:分析词汇的各个词素,从中获得语言学信息;(2)句法分析:分析句子和短语的结构,识别各词语、短语在句中的作用以及相互间的关系;(3)语义分析:找出词义、结构意义及词与结构结合的意义,确定语言所表达的真正含义;(4)语用语境分析:分析语言所存在的外界环境对语言使用者所产生的影响。
自然语言处理环节
(1)词法分析
词法分析的主要任务是词性标注和词义标注。词性是词汇的基本属性,词性标注是在给定句子中判断并标注各词的词性,而兼类词和未登录词的词性复杂难以确定,标注兼类词与未登录词的词性是词法分析的重要任务。词义标注是在具体语境中明确各词的词义,如多义词拥有多种意义,但在具体语境中表达的意义是可确定的。在不同的具体语境中解决多义词的义项问题是词义标注的重点。
(2)句法分析
句法分析的基本任务是确定句子的语法结构或句子中词汇间的依存关系,包括确定语言的语法体系,明确符合语法规则的句子的语法结构以及通过分析语言单位内成分间的依存关系推导句子的句法结构。
(3)语义分析
语义分析通过建立有效的模型使计算机系统能对各个语言单位(包括词汇、句子和篇章等)进行自动语义分析,从而理解自然语言文本的真实语义。根据理解对象的语言单位不同,可将语义分析分为词汇级语义分析、句子级语义分析以及篇章级语义分析。词汇级语义分析关注如何获取或区别单词的语义,句子级语义分析关注整个句子所表达的语义,篇章级语义分析研究篇章文本的内在结构以及理解篇章文本内语言单元(句子、从句或段落)间的语义关系。
(4)语用语境分析
语用指人对语言的具体运用,自然语言用语与语境、语言使用者的知识涵养、言语行为、想法和表达意图密切相关。语用分析是计算机在情景语境和文化语境中研究分析语言使用者的表达用意。
自然语言处理技术应用
随着人工智能的深入发展,自然语言处理需求不断提升,众多类型智能应用需要自然语言处理技术帮助其实现智能化,如(1)文本领域的搜索引擎、信息检索、机器翻译、自动摘要、文本分类、意见挖掘、舆情分析、自动判卷系统、信息过滤和垃圾邮件处理等应用;(2)语音领域的语音助手、智能客服、聊天机器人、自动问答、智能解说和智能远程教学与答疑等应用均需自然语言处理技术理解或生成自然语言。
① 自动问答
自动问答应用涉及自然语言的词法、句法、语义等分析问题,是自然语言理解与生成技术应用的集中体现。自动问答系统能自动回答用户提出的问题,反馈给用户基于自然语言表述的答案,不再是简单的基于关键词匹配排序的文档列表,系统在生成答案的操作中需要正确理解用户所提出的问题,抽取用户问题中的关键信息,进而检索语料库或知识库,将可匹配的最佳答案用自然语言的形式反馈给用户,完成自动问答任务。
② 信息检索
信息检索是计算机自主从文档集合中查找用户所需信息的过程。信息检索系统将信息标引、描述以及组织整理后存在于数据库中,将用户输入的检索关键词与数据库中信息的标引词匹配,实现用户的信息检索要求。信息检索要求计算机理解用户输入的自然语言信息,自动将自然语言信息与数据库中的标引信息进行比对,以达成检索任务。如谷歌搜索引擎可通过理解用户输入的自然语言关键词,反馈给用户一个检索目标页面列表,用户可在列表中选择能够满足自己信息需求的页面加以浏览。因为搜索引擎无法通过简单的关键词表达体会用户真正的查询意图,只能将所有可能满足用户需求的结果集合以列表的形式提供给用户。
③ 情感分析
情感分析(意见挖掘),是计算机系统自主对文本的情感倾向(如主观/客观,积极/消极,喜欢/讨厌等)进行挖掘和分析的过程。情感分析能帮助商家自动处理用户评论,将分析过的评论按照排序规则进行展示,帮助商家获得广告营销效果,如淘宝、天猫等电商平台、携程、爱彼迎等旅游住宿平台的商家在评论区可设置自动置顶反映积极情绪的用户评论,置后部分反映负面信息的用户评论,达到吸引用户眼球的效果。商家还可通过分析用户发布的信息了解用户喜好,实现精准营销,如新浪微博上的零售商可根据用户发表的微博,微话题等内容了解用户的个人喜好,为用户定制性的推送优惠及新品信息。
第二章 产业链与商业模式
2.1 产业链分析
自然语言处理产业链上游市场主体为基础资源提供商,包括硬件供应商(如芯片供应商、服务器供应商和存储供应商等)和软件供应商(如云服务供应商和数据库供应商等);中游市场由自然语言处理算法供应商、自然语言处理解决方案供应商以及自然语言处理应用供应商组成,负责为下游需求端提供服务;下游市场主体为各类型用户,包括企业用户和个人用户,企业用户涉及金融、医疗、教育、出行服务、互联网服务等领域,个人用户则为最终消费者。
图:中国自然语言处理产业链
产业链上游
自然语言处理产业链上游市场由基础资源供应商组成,涉及网络设备、服务器、芯片、存储、云服务、数据库等软、硬件供应商,负责为自然语言处理技术和产品开发商提供必要的资源支持。
(1)芯片供应商
现阶段,行业内尚未出现专门用于自然语言处理运算的芯片,核心数据处理芯片CPU无法执行自然语言处理结构化运算,目前适用于自然语言处理的芯片类型有GPU、FPGA、ASIC和DSP。
GPU解决浮点运算、数据并行计算问题优势明显,可提供高密度运算能力,解决大量数据元素并行问题。但GPU芯片功耗大,依托于X86架构服务器而运行,成本高昂,不适用于广泛的自然语言处理产品方案的开发,在自然语言处理与传统行业数字化进程结合加深的趋势下,采用GPU作为自然语言处理运算芯片的方案不具备成本优势,小型自然语言处理应用项目负担不起高昂成本。
FPGA具有可编程性,设计者可根据需要的逻辑功能对FPGA电路进行快速烧录,从而改变其出厂设计,灵活性强。但FPGA的设计布线相对固定,各种型号的FPGA芯片逻辑资源相对固定,选定了型号即决定了芯片的逻辑资源上限,无法随意增加运算能力。
ASIC芯片的运算能力强、规模量产成本低,全定制设计需要设计者完成所有电路的设计,开发周期长,时间成本高昂,主要适用于量大、对运算能力要求较高、开发周期较长的领域。
DSP内有控制单元、运算单元、各种寄存器以及存储单元,其外围还可以连接若干存储器和一定数量的外部设备,有软、硬件的全面功能,本身是一个微型计算机,运算能力强、速度快、体积小,而且采用软件编程具有高度的灵活性。但目前DSP的性能并未通过实践验证,也未生产出可以与GPU相匹敌的芯片器件,商业化应用仍在研发过程中。
为满足自然语言处理等人工智能的发展需求,部分针对深度学习的芯片,如TPU、NPU、DPU和BPU等相继面世,但受场景以及性能限制,专用的人工智能芯片发展尚未成熟。目前自然语言处理运算的最佳芯片方案仍以GPU为主导。
(2)云服务供应商
云服务供应商为自然语言处理研发企业提供基础设施平台,解决自然语言处理技术研发厂商的数据存储、运算以及调用问题。由于性价比、部署方式等因素,自然语言处理研发企业较多选用公有云服务。
目前,公有云服务供应商有:①通过云服务产业链资源优势拓展至公有云服务行业的企业,如电信运营商,网络设备制造商,IDC厂商等,此类企业拥有较强的资金实力,加上本身处在公有云产业链上游,基础设施方面优势明显;②大型互联网企业,如亚马逊,腾讯、阿里巴巴等,此类企业资金实力雄厚,客户认可度高,设施齐备、技术成熟,具备发展公有云业务的有利条件;③传统的软件企业,如Microsoft、Oracle、金蝶等,此类企业的软件产品的市场认可度高,技术积累丰厚,客户资源丰富,有利于向公有云市场拓展。除此之外,行业中存在不少新兴的创业公司,如青云、Ucloud、七牛云等。
(3)数据
数据是人工智能发展的基石,海量数据为训练人工智能提供原材料。近年来,由学术及研究机构承担建设的公共数据集不断丰富,数据质量不断提高,利于人工智能企业提高智能模型的准确度。例如,可运用于自然语言处理训练的数据集类型不断丰富,维基百科语料库、斯坦福大学问答数据集、亚马孙美食评论集、康奈尔电影对话语料库、经济新闻相关文章等语言集合相继建成,内容覆盖媒体用语、网络用语、电影用语、政府用语等众多自然语言应用场景,有助于自然语言处理研发企业优化用于处理不同领域自然语言的模型的准确度。
产业链中游
自然语言处理产业链中游市场主体主要有自然语言处理算法提供商、解决方案提供商以及应用产品开发商。目前中国的自然语言处理厂商较多集研发算法、解决方案以及应用产品功能于一身,厂商自主研发自然语言处理算法,形成一整套自然语言处理关键技术方案,并将自主研发的自然语言处理算法以及技术方案内嵌于自有应用产品体系中,典型代表有百度、阿里巴巴和腾讯。
百度自然语言处理算法研究覆盖面广,涉及深度问答、阅读理解、智能写作、对话系统、机器翻译、语义计算、语言分析、知识挖掘等自然语言处理细分领域。百度积累了解决问句理解、答案抽取、观点分析与聚合等环节的一整套深度问答技术方案,目前已将该套技术方案应用于百度搜索引擎、百度手机浏览器、百度翻译、百度语音助手、小度机器人等多个产品中。百度在自然语言篇章理解方面,形成篇章结构分析、主体分析、内容标签、情感分析等关键技术,且该类关键技术已在百度搜索、百度信息流、糯米等产品中实现应用。阿里巴巴开展自然语言处理技术研究主要为旗下产品服务,如阿里巴巴在其电商平台中构建知识图谱实现智能导购,对电商用户进行兴趣挖掘实现精准营销,在蚂蚁金融、淘宝卖家等客服场景中实现机器人提供客服服务,在跨境电商业务中采用机器翻译服务进行商家商品信息翻译、广告词翻译以及买家采购需求翻译等。
产业链下游
自然语言处理产业链下游市场主体为各类型用户,包括企业用户和个人用户。企业用户主要购买行业应用,如智能客服产品、舆情分析产品、文本分类产品等,帮助企业用户提升业务处理的智能化水平。目前的B端市场是自然语言处理厂商竞争的焦点,部分应用产品(如智能客服、舆情分析产品等)尝试了商业化运作,市场反馈良好,但众多细分领域市场发展并未成熟,市场空间仍待挖掘。个人用户主要使用手机语音助手、机器翻译软件、信息检索以及互联网搜索等服务。个人用户使用的自然语言处理技术应用产品较多是自然语言处理厂商免费提供的,自然语言处理厂商普遍未在C端市场开发清晰的商业模式。
2.2 商业模式分析
模式一:生态构建者——全产业链生态 场景应用作为突破口
以互联网公司为主,长期投资基础设施和技术,同时以场景应用作为流量入口,积累应用,成为主导的应用平台,将成为人工智能生态构建者(如Google、Amazon、Facebook、阿里云等)。
关键成功因素:大量计算能力投入,积累海量优质多维度数据,建立算法平台、通用技术平台和应用平台,以场景应用为入口,积累用户。
模式二:技术算法驱动者——技术层 场景应用作为突破口
以软件公司为主,深耕算法平台和通用技术平台,同时以场景应用作为流量入口,逐渐建立应用平台(如Microsoft、IBMWatson等)。
关键成功因素:深耕算法和通用技术,建立技术优势,同时以场景应用为入口,积累用户。
模式三:应用聚焦者——场景应用
以创业公司和传统行业公司为主,基于场景或行业数据,开发大量细分场景应用。
关键成功因素:掌握细分市场数据,选择合适的场景构建应用,建立大量多维度的场景应用,抓住用户;同时,与互联网公司合作,有效结合传统商业模式和人工智能。
模式四:垂直领域先行者——杀手级应用 逐渐构建垂直领域生态
以垂直领域先行者为主,在垂直领域依靠杀手级应用(如出行场景应用、面部识别应用等)积累大量用户和数据,并深耕该领域的通用技术和算法,成为垂直领域的颠覆者(如滴滴出行、旷视科技等)。
关键成功因素:在应用较广泛且有海量数据的场景能率先推出杀手级应用,从而积累用户,成为该垂直行业的主导者;通过积累海量数据,逐步向应用平台、通用技术、基础算法拓展。
模式五:基础设施提供者——从基础设施切入,并向产业链下游拓展
以芯片或硬件等基础设施公司为主,从基础设施切入,提高技术能力,向数据、算法等产业链上游拓展。
关键成功因素:开发具有智能计算能力的新型芯片,如图像、语音识别芯片等,拓展芯片的应用场景;在移动智能设备、大型服务器、无人机(车),机器人等设备、设施上广泛集成运用,提供更加高效、低成本的运算能力、服务,与相关行业进行深度整合。
2.3 政策监管
法律法规
我国在人工智能领域密集出台相关法律法规及政策,可以看出在世界主要大国纷纷在人工智能领域出台国家战略,抢占人工智能时代制高点的环境下,中国政府把人工智能上升到国家战略的决心。
图:中国人工智能行业最新政策
行业自律
国际化标准化组织(ISO)于2017年成立人工智能委员会,负责涵盖算法偏见、隐私保护等领域的标准研制工作。电气和电子工程师协会(IEEE)在2017年提出了“人权、福祉、问责、透明、慎用”的五项原则,已成为国际上最具影响的AI伦理原则之一。在学术界,牛津大学、剑桥大学和Open AI公司等7家机构于2018年共同发布《人工智能的恶意使用:预测、预防和缓解》,分析了人工智能可能带来的安全威胁并提出应对建议。在企业界,微软、谷歌、IBM等科技企业制定了人工智能开发的伦理原则,脸书也在2019年初联合慕尼黑工业大学建立了AI伦理研究所。
2019年2月,国家新一代人工智能治理专业委员会成立,并于6月发布了《新一代人工智能治理原则——发展负责任的人工智能》,旨在“更好地协调发展与治理的关系,确保人工智能安全可靠可控,推动经济、社会及生态可持续发展”。同年4月,国家人工智能标准化总体组发布了《人工智能伦理风险分析报告》,提出“人类根本利益原则”和“责任原则”。2019年5月,由科技部和北京市政府指导成立的北京智源人工智能研究院成立了人工智能伦理与安全研究中心,并联合北大、清华、中科院、新一代人工智能产业技术创新战略联盟(发起成员包括百度、阿里、腾讯、华为等)和其他学术机构及产业组织共同发布《人工智能北京共识》,提出了人工智能研发、使用和治理应遵循的“有益于人类命运共同体的构建和社会发展”的15条原则。2019年8月,深圳人工智能行业协会与旷视科技、科大讯飞等数十家企业联合发布《新一代人工智能行业自律公约》。百度、腾讯等主要科技企业也提出了企业自身的AI伦理准则;旷视科技还在制定准则的基础上,成立了人工智能道德委员会,以推动“可持续、负责任、有价值的人工智能生态”。
第三章 技术发展
表:自然语言处理重要科研进展
3.1 自然语言处理的范式迁移
范式是建模一类任务的通用框架。过去几年随着神经网络架构逐渐向Transformer统一以及大规模预训练模型的普及,大多数自然语言处理(NLP)任务的建模已经收敛到几种主流的范式。
任务定义和目标
NLP任务中广泛使用的范式归为以下7类,即分类(Class)、匹配(Matching)、序列标注(Seq Lab)、阅读理解(MRC)、序列到序列(Seq2Seq)、序列到动作序列(Seq2ASeq)和语言模型((M)LM)。
具体的范式描述如下:
分类范式(Class)为文本指定预定义的标签。文本分类通常将文本输入一个基于深度神经网络的编码器来提取特征,然后将其输入一个浅层分类器来预测标签,如