【一文讲解深度学习】语言自然语言处理(NLP)
- 博主介绍
- 自然语言处理概述
- NLP 的定义
- NLP的主要任务
- 分词
- 词义消歧
- 识别物体识别(NER)
- 词性标注(PoS)
- 文本分类
- 语言生成
- 问答(QA)系统
- 机器翻译(MT)
- NLP的发展历程
- 快速发展期(1957~1970)
- 低速发展期(1971~1993)
- 复苏融合期(1994年至今)
- NLP的困难与挑战
- 语言歧义
- NLP相关知识构成
- 语料库
- 常用语料库介绍
- 传统NLP处理技术
- 中文分词
- 正向最大匹配法
- 逆向最大匹配法
- 最大匹配法
- Jieba库分词
- 词性标注
- 命名实体识别(NER)
- 关键词提取
- TF-IDF 算法
- TextRank 算法
- 综合案例
- 垃圾邮件分类
- 文本表示
- 词袋模型
自然语言处理概述
NLP 的定义
NLP(Nature Language Processing,自然语言处理)
是计算机及人工智能领域的一个重要的子项目,它研究计算机如何处理、理解及应用人类语言。是人类在漫长的进化过程中形成的计算机语言复杂的符号等系统(类似C/Java的符号等系统)。以下是关于自然处理的常见定义:
- 语言处理是科学与自然语言中关于计算机与人类语言转换的领域。
- 语言处理是人工智能领域中一个重要的方向。它研究实现人与计算机之间用自然语言进行有效运作的各种理论和方法。
- 语言处理研究这些方法在交际条件和交际条件下与人交际的一门中及人与计算机网络中的语言问题的语言问题。不断完善这些语言模型,并根据系统的实用性,以及对系统的实用性评测技术。
自然语言处理还有其他一些名称,例如:自然语言(Natural Language Understanding)
、计算机语言学(Computational Linguistics)
、人类语言技术(Human Language Technology)
等等。
NLP的主要任务
NLP 可以分成两类,是生成主要基于新文本或语料的分析,另一种文本
或语料
。
分词
该任务将文本或语言对日料分隔成更多语言特征单元(单词)。对于拉丁系,词之间有重要的空格等文字,对于中文语言,分词就是例如的,分词直接影响文本的理解。
代码语言:javascript复制文本:苏州市姑苏区超市
分词1:苏州市/姑苏区/超市
分词2:苏州/市长/零食/店
词义消歧
例如,在“The dog barked at the mailman”(狗对邮递递员吠叫)
和正确的树皮“用作药物”(树皮有时用作药物)
中,对于不同的含义。词义消歧类诸如此类的任务。
识别物体识别(NER)
NER尝试从给定的文本或文本语料库中提取实体(例如,人物、位置和组织)。例如,句子:
代码语言:javascript复制周一,约翰在学校给了玛丽两个苹果
将转换为:
词性标注(PoS)
PoS 常用的两种称呼分别是名词、动词、形容词、词、词、词等、也可以是词性的词、词、词、动词、动词等。
文本分类
例如文本分类有许多应用场景,垃圾邮件检测、新闻文章分类(例如,政治、科技和运动)和产品评论评分(即正向或负向)。我们可以使用数据标记(即人工对评论标上正面)或者是负面的标签)训练一个分类模型来实现这个任务。
语言生成
可以利用 NLP 来生成新的文本或材料,编写机器天气预报(天气预报、新闻、例如唐诗等),生成文本是一段机器合成的“下面的诗”:
代码语言:javascript复制向塞向芶芶临扇,猛牒来惊。向面炎交好
,若隚。
何人改,松仙绕绮霞。偶笑寒栖咽,长闻暖顶时。
失个亦垂谏,守身丈韦鸿。忆及他年事,应愁一故名。
坐忆山高道,为随夏郭间。到乱唯无己,千方得命赊。
问答(QA)系统
QA 技术具有广泛的商业价值,这些技术是聊天机器人和 VA(例如,Google Assistant 和 Apple Siri)的支持。许多公司已经采用对话机器人来提供客户。以下是一段与聊天机器人的:
机器翻译(MT)
机器翻译,MT)指将文本由一种语言翻译成另一种语言,是根据一个序列(机器翻译最接近的另一种语言生成)。
NLP的发展历程
NLP的发展发展为:基于规则→其基于统计→基于深入学习,发展大致经历了4个阶段:1956年的萌芽期;1957年1970年的快速期;1971年1993年的低速期;1994年现在的复苏融合期。
- 萌芽期(
1956年前
) 1946年
:第一台电子计算机诞生148 年
香农 把 离散 商业 年: 描述 于 马尔 可 的 机 器 。156 年
:Chomsky 又提出了当时的自然语言,并将其运用到处理中。
快速发展期(1957~1970)
一个时期是在不同的处理领域中存在的自然规律和基于两种不同的处理方式。基于这种方法的符号(象征性的)另一派(每个派别)。期间,方法派的研究取得了从60年代开始到长足的发展。乔姆斯基为代表的象征派学者开始了语言理论和生成句法的研究,60年代进行了叶逻辑形式的研究。也取得了很大的进步。
1997 年 TDAP 期重要的美国语言研究成果,美国的语言系统的建立与等。知联系起来了。
低速发展期(1971~1993)
语言研究的结果由于人们看到基于自然语言处理的应用并不能在地段中不断涌现解决,而一连的新问题又出现了,于是,很多人对随着语言处理的研究失去了自然的信心。 70 年代开始,自然语言处理在自然低谷时期。
尽管如此,一些研究人员仍然继续进入了他们的研究。由于他们的出色工作,自然语言处理这一低谷时期同样取得了一些成果。70当年,基于隐马尔可夫模型,HMM的马尔可夫模型(Hidden Markov Model,HMM的马尔可夫模型)
统计了最初在语音领域取得重大进展,话语分析(话语分析)也取得了。过去的研究方法进行了反思,有限状态模型和经验主义研究也开始复苏。
复苏融合期(1994年至今)
90年代以后,有两台计算机从根本上发展到促进语言的自然复苏与研究。一件事是90年代以来,计算机的速度和测量量自然增加,为语言处理改善了物质基础,处理事件的事件; 19 可能化是互联网化和网络化 2000 年的另一种商业活动 4 年基于语言的信息和语言的信息和成为自然语言的 00 话题的热门话题。之后 NLP 领域的里程碑事件:
- 2001年:神经语言模型
- 2008年:多任务学习
- 2013年:词嵌入
- 2013年:NLP的神经网络
- 2014年:序列到序列模型
- 2015年:纪律机制
- 2015年:根据记忆的神经网络
- 2018年:预训练语言模型
NLP的困难与挑战
语言歧义
- 不同分词导致的歧义:
例:自动化研究所取得的成就
一:自动化/研究/所/取得/的/成就
成就二:自动化/研究所/取得/的/成就
- 词性歧义:
动物保护警察
“保护” 理解成动词、名词,不一样。
- 结构异义:
喜欢乡下的孩子
关于鲁迅的文章
- 声笑义:
节假日期间,所有博物馆全部(不)开放
- 不同语言结构差异:
- 未知语言不可预测性: 语言不断出现,每年都有大量的新词、出现材料,给一些 NLP 任务造成了困难。以下是 2022 年网络上的新词:
双减
元 宇宙
绝绝子
平躺
- 语言表达的复杂性:
甲:你这人真正的英文?甲:没有英文,英文
?那我就不好意思了。
- 机器语言处理 广泛的背景与常识
中国队最有悬念的是全世界有一个女人也有她和她,他们一个谁也有谁干过球,不过,另一个人打
如果希拉里干过球,只是因为美国总统和美国总统的努力,克林顿也将成为全世界唯一一个干过美国总统和干过美国总统的男人
NLP相关知识构成
语料库
什么是语料库
语料库是指语言材料(材料库的我们)。现代的语料是指放在以原始语料库里的语料或文字标注的文字文本。 ,语言反应单位的使用和意义,基本以知识的表现形态——语言的原貌。
语料库的特征
- 语料库中存放的是真实中出现过的材料。
- 语料库是计算机为承重语言知识的资源,但语言知识的资源。
- 真实语料需要经过分析、处理和加工,才能成为有用的资源。
语料库的作用
- 支持语言学研究和语言教学研究。
- 支持 NLP 系统的开发。
常用语料库介绍
北京大学计算机语言所语料库(中文),地址: https://opendata.pku.edu.cn/dataverse/icl
London-Lund 英语口语语料库,地址:http