第一章 绪论
目录
第一章 绪论
1.1问题的提出
1.2基本概念
1.3 HLT的产生和发展
1.4 研究内容
按照应用目标划分,广义上包括:
1.5 基本问题和主要困难
1.6 基本研究方法
1.7 研究现状
绝大多数问题都没有得到彻底解决!
1.8 课程内容
1.1问题的提出
任意时间、任意地点、任意语言的自由通讯无时无刻不在改变着人们的思维方式和生活方式 1.语言是思维的载体,是人类交流思想、表达情感最自然、最直接、最方便的工具 2.人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上 3.2008年1月中国互联网络信息中心(CNNIC)发布的《第21次中国互联网络发展状况统计报告》表明,中国互联网上有87.8%的网页内容是文本表示的 4.面对文本大数据,我们面临怎样的机遇和挑战?
网络信息检索市场前景广阔
1.全世界网页数量正以指数速率增长
2.中文网页检索的最高准确率不足40%
随着社会全球化时代的到来,机器翻译市场潜力巨大
如何让计算机能够自动或半自动地理解自然语言文本,懂得人的意图和心声?
如何让计算机实现海量语言文本的自动处理、挖掘和有效利用,满足不同用户的各种需求,实现个性化信息服务?
自然语言处理的诞生Natural Language Processing,NLP
1.2基本概念
语言学vs语音学
自然语言理解 vs. 自然语言处理vs. 计算语言学vs. 中文信息处理
定义1-1:语言学(linguistics)
语言学是指对语言的科学研究。
研究语言的本质、结构和发展规律的科学。
语音和文字是语言的两个基本属性。
定义1-2:语音学(phonetics)
研究人类发音特点,特别是语音发音特点,并提出各种语音描述、分类和转写方法的科学。
包括: (1)发音语音学(articulatory phonetics),研究发音器官如何产Th语音;(2)声学语音学(acousticphonetics),研究口耳之间传递语音的物理属性;(3)听觉语音学(auditory phonetics), 研究人通过耳、听觉神经和大脑对语音的知觉反应。
问题:
语言学究竟是一门独立的学科还是应视为语言学的一个分支呢?
复数的语言科学。
定义1-3:计算语言学(Computational Linguistics)
通过建立形式化的计算模型来分析、理解和Th成自然语言的学科,是人工智能和语言学的分支学科。计算语言学是典型的交叉学科,其研究常常涉及计算机科学、语言学、数学等多个学科的知识。与内容接近的学科自然语言处理相比较,计算语言学更加侧重基础理论和方法的研究。
定义1-4:自然语言理解(Natural Language Understanding, NLU)
自然语言理解是探索人类自身语言能力和语言思维活动的本质,研究模仿人类语言认知过程的自然语言处理方法和实现技术的一门学科。它是人工智能早期研究的领域之一,是一门在语言学、计算机科学、认知科学、信息论和数学等多学科基础上形成的交叉学科。
关于“理解”的标准
如何判断计算机系统的智能?
计算机系统的表现(act)如何?反应(react)如何?相互作用(interact )如何?
与有意识的个体(人)比较如何?——图灵测试
定义1-5: 自然语言处理(Natural Language Processing, NLP)
自然语言处理是研究如何利用计算机技术对语言文本(句子、篇章或话语等)进行处理和加工的一门学科,研究内容包括对词法、句法、 语义和语用等信息的识别、分类、提取、转换和Th成等各种处理方法和实现技术。
三个不同的语系
屈折语(fusional language/ inflectional language): 用词的形态变化表示语法关系,如英语、法语等。
黏着语(agglutinative language): 词内有专门表示语法意义的附加成分,词根或词干与附加成分的结合不紧密,如日语、韩语、土耳其语等。
孤立语(analytic language)(分析语, isolatinglanguage): 形态变化少,语法关系靠词序和虚词表示,如汉语。
定义1-6:中文信息处理(Chinese Information Processing)
针对中文的自然语言处理技术。
近几年来,自然语言处理技术迅速发展成为一门相对独立的学科,倍受关注,而且该技术不断与语音技术相互渗透和结合形成新的研究分支,因此,很多人在谈到“计算语言学”、“自然语言处理”或“自然语言理解”这些术语时,往往默认为同一个概念。甚至有专著[刘颖,2002]干脆直接解释为:计算语言学也称自然语言处理或自然语言理解。
人类语言技术(Human Language Technology,HLT)
自然语言理解(natural language understanding, NLU)是人工智能最重要的研究方向之一,是当今“人工智能皇冠上的明珠”。
计算语言学(Computational Linguistics, CL)
1960S, 形成相对独立的学科。1962 年国际计算语言学学会(ACL)成立,1965年国际计算语言学委员会(ICCL)成立,1966年“计算语言学”首次出现在美国国家科学院ALPAC报告里。
自然语言处理(Natural Language Processing, NLP)
1980S,面向计算机网络和移动通信,从系统实现和语言工程的角度开展语言信息处理方法的研究。专门针对中文的语言信息技术研究称为中文信息处理。
1.3 HLT的产生和发展
从第一台计算机产生开始到
曲折的发展历程:
1960S 中期之前:萌芽期
1960S 中期到1970S 中后期:步履维艰
1966年美国科学院发表 ALPAC报告
1970S 中后期到1980S 后期:复苏
1980S至2010左右:快速发展
2010至今:繁荣时期
1.4 研究内容
按照应用目标划分,广义上包括:
- 机器翻译 (Machine translation, MT):实现一种语言到另一种语言的自动翻译。
- 应用:文献翻译、网页辅助浏览等。
- 信息检索 (Information retrieval):信息检索也称情报检索,就是利用计算机系统从大量文档中找到符合用户需要的相关信息。
- 自动文摘 (Automatic summarization / Automatic abstracting):将原文档的主要内容或某方面的信息自动提取出
- 来,并形成原文档的摘要或缩写。
- 观点挖掘 (Opinion mining) 。
- 应用:电子图书管理、情报获取等。
- 问答系统 (Question-answering system):
- 通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的回答。问答技术有时与语音技术和多模态输入/输出技术,以及人机交互技术等相结合,构成人机对话系统 (man-computer dialogue system)。
- 社区问答(Community Question Answering, CQA) 百度知道:用户群体智慧 IBM Watson 自动问答系统
- 信息过滤(Information filtering):通过计算机系统自动识别和过滤那些满足特定条件的文档信息。
- 信息抽取(Information extraction):从指定文档中或者海量文本中抽取出用户感兴趣的信息。 实体关系抽取 (entity relation extraction)。 社会网络 (social network)
- 文档分类(Document categorization):文档分类也叫文本自动分类 (Text categorization /classification) 或信息分类(Informationcategorization /classification),其目的就是利用计算机系统对大量的文档按照一定的分类标准(例如,根据主题或内容划分等)实现自动归类。 情感分类(Sentimental classification) 应用:图书管理、情报获取、网络内容监控等。
- 文字编辑和自动校对(Automatic proofreading):对文字拼写、用词、甚至语法、文档格式等进行自动检查、校对和编排。
应用:排版、印刷和书籍编撰等。
- 语言教学(Language teaching) 文字识别(Character recognition)
语音识别 (automatic speech recognition, ASR):将输入语音信号自动转换成书面文字。
应用:文字录入、人机通讯、语音翻译等等。
困难:大量存在的同音词、近音词、集外词、口音等等。
文语转换/ 语音合成 (text-to-speech synthesis):将书面文本自动转换成对应的语音表征。
应用:朗读系统、人机语音接口等等。
说话人识别/认同/验证 (speaker recognition/identification/ verification):对一言语样品做声学分析,依此推断(确定或验证)说话人的身份。
应用:信息安全、防伪等等。
1.5 基本问题和主要困难
归纳起来,NLU 所面临的挑战:
普遍存在的不确定性:词法、句法、语义、语用和语音各个层面
未知语言现象的不可预测性:新的词汇、新的术语、新的语义和语法无处不在
始终面临的数据不充分性:有限的语言集合永远无法涵盖开放的语言现象
语言知识表达的复杂性:语义知识的模糊性和错综复杂的关联性难以用常规方法有效地描述,为语义计算带来了极大的困难
机器翻译中映射单元的不对等性:词法表达不相同、句法结构不一致、语义概念不对等