最新 最热

NLP 基础之分词、向量化、词性标注

HMM描述的是已知量和未知量的一个联合概率分布,属于generative model,而CRF则是建模条件概率,属于discriminative model;且CRF特征更加丰富,可通过自定义特征函数来增加特征信息,CRF能建模的信息应该包括HMM的状态转移、数...

2022-06-15
0

关于Excel表操作-通过gensim实现模糊匹配

gensim是一个Python的自然语言处理库,能够将文档根据TF-IDF,LDA,LSI等模型转换成向量模式,此外,gensim还实现了word2vec,能够将单词转换为词向量。

2022-05-19
0

王理团队开发大规模小分子预训练方法“S2DV”用于抗HBV药物研发

近日,由南通大学信息科学技术学院、南通大学智能信息技术研究中心的王理教授为通讯作者在Briefing in Bioinformatics杂志发表了其团队最新研究成果:该作者提出了“S2DV”方法,这是一个用于对小分子药物进行表示学习的方...

2022-03-25
0

词嵌入

自然语言是一套用来表达含义的复杂系统,词是表义的基本单元。而我们要考虑是如何构造词向量来表示词。把词映射为实数域向量的技术称为词嵌入。...

2022-03-13
0

认识word2vec

Distributed Representations of Words and Phrases and their Compositionality

2021-12-28
0

文本数据扩增时,哪些单词(不)应该被选择?

文本扩增(Text Augmentation)现在大部分人都在用,因为它可以帮助提升文本分类的效果,具体来说常用的方法包括但不限于:替换、删除、增加。一般来说文本扩增都会使得最终的性能更好,少部分情况下会更差。你或许可能想过是因...

2021-12-21
0