版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/github_39655029/article/details/97036419
前言
- 定义 自然语言处理即NLP是一门交叉学科,包含语音和语言处理、人类语言技术、计算语言学以及语音识别与合成等。
- 应用场景
- 会话代理(对话系统)
- 机器翻译
- 基于网络的问答系统
- 拼写校正
- 语法检查
- 信息抽取
- 词义排歧
1.1 语音与语言处理中的知识
- 语音学与音系学 关于语言语音的知识。
- 形态学 关于词的有意义的组成成分的知识。
- 句法学 关于词与词之间结构结构关系的知识。
- 语义学 关于意义的知识。
- 语用学 关于意义与说话人的目的和意图之间关系的知识。
- 话语学 关于比一个单独的话段更大的语言单位的知识。
1.2 歧义
- 消歧方法
- 词类标注
- 词义排歧
- 词汇排歧
- 句法排歧
1.3 模型与算法
- 几个重要部分
- 状态机器模型 即形式模型,应该包括状态、状态间的转移以及输入表示等,其变体有确定的有限状态自动机、非确定的有限状态自动机和有限状态转录机。
- 形式规则系统模型 即陈述性模型,其中最重要的有正则语法、正则关系、上下文无关语法、特征增益语法以及这些语法相应的概率语法变体。
- 基于逻辑的模型 一阶逻辑即谓词演算,以及诸如运算、特征结构、语义基元等相关形式化方法。
- 概率模型 状态机器使用概率论来提升,从而成为加权自动机,或马尔可夫模型。
- 向量空间模型 实质是通过表示输入假定的状态空间来进行搜索。对弈涉及状态机的非概率的任务,使用深度优先搜索之类的图算法,而对于具有概率的任务,则使用最佳优先搜索算法和A*搜索算法等试探性算法的变体,同时依靠动态规划算法来提高计算的可循环性。
- 分类器 将一个单独客体指派到一个单独类别中。
- 序列模型 对一个客体序列进行分类,将其排到一个类别序列中。
- 算法
- 动态规划的状态空间搜索算法
- 分类器算法
- 期望最大化(EM)算法
1.6 语音和语言处理简史
语音和语言处理包括一系列性质不同而又彼此交叉的学科:语言学中的计算语言学、计算机科学中的自然语言处理、电子工程中的语音识别、心理学中的计算心理语言学。
1.6.1 基础研究:1940s&1950s
自动机的研究和概率模型或信息论模型研究引起人们注意。
1.6.2 两大阵营:1957~1970
- 符号派
- 随机派
1.6.3 四个范型:1970~1983
- 随机范型
- 基于逻辑的范型
- 自然语言理解范型
- 话语模型范型
1.6.6 机器学习的兴起:2000~2008
- 建立带标记语料库的趋势
- 统计机器学习的趋势
- 高性能计算机系统发展的趋势