基础知识
数学基础
数学我工作这几年时间,基本把之前学的忘光了(虽然学的也不咋地!?)。但做数据,最重要的就是清晰的思路!而数学,大概就是训练人的逻辑性很好的途径吧。好了,开始本周的读书分享! 数学这一章,我也就贝叶斯有点印象,别的,我都不认识了,哈哈!
数学的重要性毋庸置疑,但事实上在工作中,很少有机会去研究数学。尤其是作为像地理信息系统这样的应用学科。作为从业者,能将数学、物理、计算机等基础学科的研究成果当作工具拿来用,能用好就行了(说实话,我是真的学不会啊!)。说到这里,不得不感谢像pandas、numpy这些python库的作者们,由于他们的存在,才允许我在工作中,一个import就可以导入相关的功能,来实现复杂计算,比如最小二乘、期望、方差……只要有需求,在已有库中总能找得到!
由于看不懂,我就先略过,看后面的内容了(如果有哪位大佬对这些内容比较了解,希望可以给我科普下)!
语言学基础
语言学与数学相比,更接地气一点!语言嘛,就是我们平常说的话,这东西说简单也简单,我们每天都通过语言来交流、来沟通;但是说复杂也复杂,毕竟,同样的词语,在不同的语境下,往往有着不同的含义。
按照书中所讲,语言学家们将词语进行了分类,但那是语言学家们使用的,更接地气的是词性!但词性粒度较粗,所以语料库语言学家们使用了粒度更细的分类方法!
词语的含义
语言就是这么复杂的东西,想基于语义做一些产品,绝绕不过语言学的坑!还好,有许多国内外的案例可以借鉴!
基于语料库的工作
通过对数学与语言学的简单了解,就可以开始了解在语料库的工作中要用到的一些工具了。首先,是计算机,然后,见下图吧!
要处理文本,正则表达式绝对是个好用的工具!但事实上,针对复杂的情况,我们有更好的选择,比如说:NLTK,结巴,等优秀的工具或方法可供选择!
总结
第二周了,又读了点书,继续努力!