现在大语言模型大热,一会儿语言模型一会儿自然语言处理的一下容易搞不清楚,这里的“语言”又和语言学有什么关系,这篇就来捋一捋。
首先学科划分来说,语言学是语言学,大语言模型和自然语言处理则属于人工智能学,第一个概念是一个学科,第二、三个概念属于另一个学科。
大语言模型严格来说和自然语言处理不是“与”的关系,也即不是并列关系。自然语言处理是研究如何用人工智能的方式来处理文本内容,方式有很多,其中有一种叫“语言模型”的方式。
语言模型”和语言学可以说没关系也可以说有关系。从人工智能的角度来看,语言模型与其说是一种模型,不如说是一种用于训练模型的预测任务。简单来说,是根据给定一串文本要求模型预测下一个词,或者在一串文本中间挖走一个词要求模型做完形填空。模型通过不断迭代提升预测性能。
那大语言模型是什么呢?大语言模型同样是采用”语言模型“的方式训练模型,所不同的是语言模型的规模可大可小,规模大的叫“大语言模型”。为什么要把规模大的语言模型单拎出来起个名字呢?因为现在普遍认为大语言模型不仅仅只是规模大,而且还有”涌现能力“。这是小规模语言模型所不具备的能力。
大语言模型和自然语言处理的关系这就说清楚了,那语言学又做了什么呢?我觉得是提供了思路。
前面我们说语言模型是一种训练任务,方法不复杂,很多人工智能的模型也是这样,算法本身学起来并不复杂,但是我们应该多问一句:那背后的意义是什么呢?
是语言学的分布式表示假说。
我们使用语言模型,是希望模型能够学到文本的语义。但语义可是个抽象的概念,到底指的是什么,又该怎么才能学到呢?
这就用到了语言学的分布式表示(Distributed Representation)假说。此分布式非彼分布式,现在文献对分布式表示的源头有两种说法,一说是19世纪的英国语言学家Firth,一说是20世纪的美国语言学家。
究竟是哪位,或者这两位是不是有学术继承关系,还得请学语言学的同学来回答。有一点是清楚的,是语言学家提出了分布式表示的假说。
语义到底是什么,现在没有公论,大家都得靠猜,所以叫”假说“。分布式表示的假说是这么猜的:单独一个词本身是没有”语义“可言的,它的语义需要上下文来赋予。更直观点就是,如果两个词的上下文相似,则这两个词有类似的语义。
词的语义和词的上下文统计分布有关,可以用上下文分布来表示,所以叫”分布式表示“。这也就是为什么语言模型可以用预测任务让模型学会词的语义表示。
当然,最后还得说一句,这是对”语义到底是什么“的很多种猜想中的一种,问题本身没有定律,只不过人工智能一向只管效果不管论证,实践用得不错,就一直用了。