HMM描述的是已知量和未知量的一个联合概率分布,属于generative model,而CRF则是建模条件概率,属于discriminative model;且CRF特征更加丰富,可通过自定义特征函数来增加特征信息,CRF能建模的信息应该包括HMM的状态转移、数...
gensim是一个Python的自然语言处理库,能够将文档根据TF-IDF,LDA,LSI等模型转换成向量模式,此外,gensim还实现了word2vec,能够将单词转换为词向量。
教程地址:http://www.showmeai.tech/tutorials/36
近日,由南通大学信息科学技术学院、南通大学智能信息技术研究中心的王理教授为通讯作者在Briefing in Bioinformatics杂志发表了其团队最新研究成果:该作者提出了“S2DV”方法,这是一个用于对小分子药物进行表示学习的方...
自然语言是一套用来表达含义的复杂系统,词是表义的基本单元。而我们要考虑是如何构造词向量来表示词。把词映射为实数域向量的技术称为词嵌入。...
Distributed Representations of Words and Phrases and their Compositionality
文本扩增(Text Augmentation)现在大部分人都在用,因为它可以帮助提升文本分类的效果,具体来说常用的方法包括但不限于:替换、删除、增加。一般来说文本扩增都会使得最终的性能更好,少部分情况下会更差。你或许可能想过是因...