深度学习框架下中文需要分词吗?

2022-05-31 20:41:05 浏览数 (1)

你面对的几乎所有的问题都充斥着各种无关的信息;如果你能挑出主要矛盾,你就能更清楚地知道你需要做什么。 ——香农

论文地址:https://arxiv.org/pdf/1905.05526.pdf

今天听了李纪为博士的分享,本次分享内容来自香侬科技最近刚刚在NLP领域国际顶级会议ACL2019上投中的一篇文章。

李纪为,香侬科技创始人,斯坦福大学计算机学院历史上第一个三年获得博士学位的人。作为人工智能领域的青年创业者,去年入选福布斯中国“30位30岁以下精英榜”。在剑桥大学学者Marek Rei发布的自然语言处理 2012-2016 年顶级会议作者统计中,李纪为以14 篇顶级会议论文第一作者的数据排名第一。

在深度学习框架下中文到底需不需要分词?

长期以来,中文分词在NLP的研究中一直受到广泛关注,“字”是句子的最小单元,但是“词”具有完整的语义功能,大多数“词”都是多个“字”组合在一起。导致人为习惯性的认为“词”包含了更多语义信息,表现形式肯定好,分词成了很多中文NLP任务的第一步。但是,这只是以人的思维来觉得“词”的表现肯定优于“字”的表现,对神经网络而言未必。

那么基于深度学习神经网络框架下的NLP任务中,到底是“字”好还是“词”好?有没有分词的必要?单独“字”、“字”和“词”结合,单独“词”的NLP问题进行了探讨。

分词和不分词的优缺点

  • 分词可能会分错,这样后续训练会有误导作用。
  • 词数据稀疏问题不可避免地导致过拟合,而且大量的OOV限制了模型的学习能力。
  • 字缺少语义信息,词能够保证两个字直接的顺序,因为两个字颠倒顺序可能就完全不同的意思了。

基于以上,利用四个中文NLP任务(语言建模、机器翻译、句子匹配、文本分类)探究“词”级别和“字”级别的表现,“字”级别的表现几乎总是优于“词”级别的表现。

探讨

  • 时间复杂度的问题,“字”级别量大,“词”级别的词典中词汇更多,时间复杂度上哪个更快?
  • 做NLP任务时,先基于“字”试试,说不定会有意外的收获。

就简单总结到这吧,想了解细节建议读paper。

0 人点赞