统计自然语言处理-基础知识

2019-07-31 16:44:52 浏览数 (1)

基础知识
数学基础

数学我工作这几年时间,基本把之前学的忘光了(虽然学的也不咋地!?)。但做数据,最重要的就是清晰的思路!而数学,大概就是训练人的逻辑性很好的途径吧。好了,开始本周的读书分享! 数学这一章,我也就贝叶斯有点印象,别的,我都不认识了,哈哈!

数学的重要性毋庸置疑,但事实上在工作中,很少有机会去研究数学。尤其是作为像地理信息系统这样的应用学科。作为从业者,能将数学、物理、计算机等基础学科的研究成果当作工具拿来用,能用好就行了(说实话,我是真的学不会啊!)。说到这里,不得不感谢像pandas、numpy这些python库的作者们,由于他们的存在,才允许我在工作中,一个import就可以导入相关的功能,来实现复杂计算,比如最小二乘、期望、方差……只要有需求,在已有库中总能找得到!

由于看不懂,我就先略过,看后面的内容了(如果有哪位大佬对这些内容比较了解,希望可以给我科普下)!

语言学基础

语言学与数学相比,更接地气一点!语言嘛,就是我们平常说的话,这东西说简单也简单,我们每天都通过语言来交流、来沟通;但是说复杂也复杂,毕竟,同样的词语,在不同的语境下,往往有着不同的含义。

按照书中所讲,语言学家们将词语进行了分类,但那是语言学家们使用的,更接地气的是词性!但词性粒度较粗,所以语料库语言学家们使用了粒度更细的分类方法!

词语的含义

语言就是这么复杂的东西,想基于语义做一些产品,绝绕不过语言学的坑!还好,有许多国内外的案例可以借鉴!

基于语料库的工作

通过对数学与语言学的简单了解,就可以开始了解在语料库的工作中要用到的一些工具了。首先,是计算机,然后,见下图吧!

要处理文本,正则表达式绝对是个好用的工具!但事实上,针对复杂的情况,我们有更好的选择,比如说:NLTK,结巴,等优秀的工具或方法可供选择!

总结

第二周了,又读了点书,继续努力!

0 人点赞