点击上方的“小小白AI”,选择“关注”
重磅知识,第一时间送达
引言
好几天没有写关于自然语言处理方面的内容,实在抱歉,不过还是感谢大家支持。今天给大家分享一下关于中文自然语言处理的一些基础知识,希望能够帮你快点“入坑”。
本文概述
本次推文主要讲述中文自然语言处理的基础,分词、词性标注、命名实体识别,以及深度学习为什么可以实现中文自然语言处理。
一、中文自然语言处理基础
自然语言处理中最基础的任务就是分词、词性标注以及命名实体识别识别。
分词,它是中文自然语言处理中最重要的基础性工作。即将未经过处理的自然语言文本划分成词语的序列。其中英文是通过空格作为分隔符,与英文不同,中文需要以以每个汉字为基本单位,词语之间没有明显的区分标识。因此需要将汉字的序列进行划分,从而转变成单词序列。常见的分词工具有:jieba分词、哈工大分词工具、PyNLPIR分词工具等。
词性的标注:完成分词之后,需要给每个分词配一个词性。关于词性就是我们通常说的,这个词是名词、还是动词、还是介词等。词性标注的意义在于,在知道一个词的词性后往往可以判断出该词附近可能出现的词的词性。比如“城管打人了。”这句话,人称代词后面往往跟着一个动词,所以说对词性的标注对于自然语言处理具有很大的作用。
命名实体识别:它是指从自然语言文本中发现例如人名、地名以及机构名的专有名词的过程。比如,对于一个智能客服来说,在输入的自然语言文中找出其包含的命名实体是最基本的前提条件,只有这样,智能客服才能根据关键字给予答案进行回答。所以说,命名实体识别对文本分类,信息检索等任务的性能提升具有至关重要的作用。对于命名实体的识别的结果,一般都是根据分词与词性标注的结果作为输入得到的。
分词、词性标注以及命名实体识别之间有着很强的关联性,比如,虽然分词往往作为词性标注的前置任务,但是在有些情况下词性信息又可以对分词构成知道作用。同时词性和命名实体识别也是紧密关联的,比如命名实体不可能是动词或者形容词。
二、传统机器学习在NLP上的局限性
传统机器学习在自然语言处理(NLP)方面上的局限性:
第一、传统的自然语言处理模型需要使用大量的语言学知识来进行手工构造特征,并且这些特征通常是对应具体的应用,不具有广泛的适用性。
第二、在传统的自然语言处理模型中,通常分词、词性标注以及命名实体识别这个认为是采用“管道”结构进行的,即先进行分词,再根据分词的结果进行词性的标注,最后根据分词和词性标注的结果进行命名实体识别,这样就忽略了分词、词性标注以及命名实体识别之间的紧密联系,这样就会产生错误传播的问题。
三、深度学习在NLP上的可用性
深度学习在自然语言处理方面上的适用性。
首先深度学习可以通过构造模型来自动学习用于解决自然语言处理领域的问题所需要的特征,其次在自然语言处理领域,无标签数据可以被轻易地大量获得,这就是深度学习的优势,最后在解决关联性问题方面,深度学习可以在特征提取层面构建统一的模型,并通过多任务学习的方法在模型中对其相关性进行建模,从而获得更好的性能。
国外的很多自然语言处理算法做的都很好,国外的英语模型能否直接用到中文的自然语言处理方面来呢?答案是不可以的。比如一本书,如果用英语单词表示这本书的内容,需要一个80000个英文单词的字典,但是如果用中文单词表示这本书的内容,可能只需要4000个汉字的字典。由此可见,对于同一的一本书的内容,英语词典的维度更高,这是因为中文单词虽然字典维度低,但是一个字多个意思的情况非常的突出,更重要是的,汉语中隐含着复杂的单词组合关系,由于语言本身的特性,用于英文的自然语言处理的深度学习模型往往不需要非常多的隐藏层,因此如果对于中文自然语言处理套用英文的方法得到中文自然语言处理模型的是非常不合理的。
四、下期预看
下次推文,将具体介绍深度学习的特点及基本方法,包括深度学习的优势,以及一些具体的深度学习模型在中英文自然语言处理中的应用等。好今天就到这,明天见:)。
重磅知识,第一时间送达