词汇获取
一成不变的词库意义不大,只有保持动态更新,保持数据的时效性,这样个的词库才有意义。
评价方法
靠谱的数据评价方法非常重要,但这些应该有专人来做,毕竟,专业的人做专业的事情嘛!
动词子范畴
附着歧义
选择倾向
选择倾向,类似固定搭配。但在中文语境下,问题又复杂了许多,比如说:“吃亏”,你能说亏是个食物?当然了,书中的说法很严谨,人家说的是大部分,不是绝对的。
语义相似性
如何给一个词定词性,时间很难的事情,不然的话那些标注好的词库就不会收费那么贵了。一条条结构化的数据都是花了心血做的,哪能说给就给。
获取词汇的作用
一个词条,平均需要半个小时,这样的数据能不贵?这样想来,我拆分并处理(定地名级别)了那么多的数据,那是多么大的工作量啊。按照小时工的标准那产值也大了去了。
自然语言处理这本书读下来的感觉
到现在为止,虽然中间也停更了几周(或者是更新不及时)。但总体来讲,还是坚持到现在了,书也读了了一半。我最开始看这本书的时候,基础部分有很多地方看着都很有意思,但后面的章节越来越枯燥。不是说这本书不好,我相信这本书绝对是自然语言统计与处理的经典,书中的公式与算法什么的绝对是干货,但实在是太干了,啃不下来啊。这本书越往后读,越觉得跟我的工作离得越远。但转念一想,如果书读下来都像网络小说一样,读起来觉得很爽,不用动啥脑子,那这书也没啥读的价值了。难读的书读下去,对自己来说,记下来的都是知识储备,就算记不下来,养成读书的习惯也是好的。写写画画,粗略读一读,有意思的就先记下来。