第1章 导论

2019-09-09 17:16:14 浏览数 (1)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/github_39655029/article/details/97036419

前言

  • 定义 自然语言处理即NLP是一门交叉学科,包含语音和语言处理、人类语言技术、计算语言学以及语音识别与合成等。
  • 应用场景
    • 会话代理(对话系统)
    • 机器翻译
    • 基于网络的问答系统
    • 拼写校正
    • 语法检查
    • 信息抽取
    • 词义排歧

1.1 语音与语言处理中的知识

  • 语音学与音系学 关于语言语音的知识。
  • 形态学 关于词的有意义的组成成分的知识。
  • 句法学 关于词与词之间结构结构关系的知识。
  • 语义学 关于意义的知识。
  • 语用学 关于意义与说话人的目的和意图之间关系的知识。
  • 话语学 关于比一个单独的话段更大的语言单位的知识。

1.2 歧义

  • 消歧方法
  • 词类标注
  • 词义排歧
  • 词汇排歧
  • 句法排歧

1.3 模型与算法

  • 几个重要部分
    • 状态机器模型 即形式模型,应该包括状态、状态间的转移以及输入表示等,其变体有确定的有限状态自动机、非确定的有限状态自动机和有限状态转录机。
    • 形式规则系统模型 即陈述性模型,其中最重要的有正则语法、正则关系、上下文无关语法、特征增益语法以及这些语法相应的概率语法变体。
    • 基于逻辑的模型 一阶逻辑即谓词演算,以及诸如运算、特征结构、语义基元等相关形式化方法。
    • 概率模型 状态机器使用概率论来提升,从而成为加权自动机,或马尔可夫模型。
    • 向量空间模型 实质是通过表示输入假定的状态空间来进行搜索。对弈涉及状态机的非概率的任务,使用深度优先搜索之类的图算法,而对于具有概率的任务,则使用最佳优先搜索算法和A*搜索算法等试探性算法的变体,同时依靠动态规划算法来提高计算的可循环性。
    • 分类器 将一个单独客体指派到一个单独类别中。
    • 序列模型 对一个客体序列进行分类,将其排到一个类别序列中。
  • 算法
    • 动态规划的状态空间搜索算法
    • 分类器算法
    • 期望最大化(EM)算法

1.6 语音和语言处理简史

语音和语言处理包括一系列性质不同而又彼此交叉的学科:语言学中的计算语言学、计算机科学中的自然语言处理、电子工程中的语音识别、心理学中的计算心理语言学

1.6.1 基础研究:1940s&1950s

自动机的研究和概率模型信息论模型研究引起人们注意。

1.6.2 两大阵营:1957~1970

  • 符号派
  • 随机派

1.6.3 四个范型:1970~1983

  • 随机范型
  • 基于逻辑的范型
  • 自然语言理解范型
  • 话语模型范型

1.6.6 机器学习的兴起:2000~2008

  • 建立带标记语料库的趋势
  • 统计机器学习的趋势
  • 高性能计算机系统发展的趋势

0 人点赞