知乎上有人提问:GitHub 上有哪些有趣的关于 NLP 的Python项目?
先来说说什么是NLP?
自然语言处理(NLP)的重点是使计算机能够理解和处理人类语言。计算机擅长处理结构化数据,如电子表格;然而,我们写或说的很多信息都是非结构化的。
自然语言处理的目标是使计算机能够理解非结构化文本并从中提取有意义的信息。多亏了spaCy和NLTK等开源库,我们只需几行Python代码就可以实现许多NLP技术。
说到Github上的NLP项目,这里强烈推荐一个36.9K star的仓库:「funNLPPublic」
https://github.com/fighting41love/funNL
这是一个中文NLP项目,作者声称是NLP民工的乐园: 几乎最全的中文NLP资源库
我仔细看了该项目资源的结构,主要是分为各类行业词库、语料库、分词处理工具、语义判别工具、正则应用工具、NLP开源算法、行业技术报告、各种NLP处理框架等等
凡是中文领域NLP沾边的地方,作者通通汇总了相关资源,对初学者来说是不错的一个检索仓库。
虽然看起来比较乱,作者没有去做详细的归类,但良心在于很全,能让你轻松地玩转各种nlp知识,也不失趣味。
下面分别举例一些资源,供大家参考,详细的可以去github仓里自行查找
行业词库、语料库(IT、汽车、医学、动物、财经、法律等)
NLP论文、行业报告
PDF文档处理
语音处理工具
行业应用场景
nlp框架和工具
当然上述案例只是该项目的一小部分,我看了下总共有将近400个NLP资源,非常全。
其他关于NLP的好项目也很多,比如NLP-progress、HanLP、spaCy、jina等等,大家可以自己去探索下。