有句话叫:中文博大精深。
做自然语言处理(NLP)工作的同学对这几个字可能更加深有体会。自然语言,从字面意思上很好理解,就是我们平时在生活中常用的表达方式,常说的“讲人话”就是这个意思,举个例子:
一个人驼背,用自然语言会说:我背有点驼,而用非自然语言(文绉绉)则变成了:我的背部呈弯曲状。
这些话我们人很好懂,但是计算机不懂,它只懂二进制的 0 和 1。再加上中文语言错综复杂,没有什么规律可循,且同样的文字在不同语境下会有不同含义,要想让电脑正确理解就更困难了,比如:
“冬天能穿多少穿多少,夏天能穿多少穿多少”
之所以说让计算机“理解”中文很困难,是因为有时候我们自己都难以理解中文是什么意思,不信来试试这八级中文,你能到几级。
从上世纪 50 年代开始,人们就致力于搭建一种人类语言和计算机语言之间交流的工具,它就是自然语言处理,英文名叫:Natural Language Processing,简称 NLP。它是计算机科学领域与人工智能领域中的一个重要方向。NLP 技术实现原理很复杂,简单说的话就是先理解文本意思,再进行处理之后给出结果。光这个“理解”就要用到分词、提取关键词、词性标注等等技术。如今我们在用的微信语音转文字、百度翻译、天猫精灵这些背后都用到了 NLP 的技术。
你觉得自然语言处理难么?
最近其他文章:
1024,送最Geek的程序员礼物!
到底什么是元宇宙