文本相似比较

2018-04-08 12:07:56 浏览数 (1)

大家好,我是数说君,这篇文章是想跟大家讨教一下。

如果有两段简单文本,如何比较它们的相似度?这里我们就假设是英文,不存在中文的分词问题,文本就类似于:

text1 = 'hello, I am shushuo jun'

text2 = 'hi, wo ye shi shushuo jun'

目前比较容易实现的,是计算出每个文本的词向量,然后将两列词向量进行比较,计算出相似度,实现比较简单,就不上code了。我在python中,计算出上面的text1和text2的相似度是51%。

但问题是:

这样的比较是以词为单位的,词稍微变一变,结果就差别很大,比如jeccica和jeccika很相似,但在比较时会认为这是两个完全不同的词。以上面的两段文本为例,我稍微变一下

text1 = 'hello, I am shushuo jun'

text2 = 'hi, wo ye shi shushuoo jun'

计算出来的相似度是38%,可以想象,完全一样的两句话,如果我将其中一句的每个词后面都加一个字母i,看起来明明很相像,计算出来的相似度却是0,这不科学啊。。。

因此在这里请教大家,有没有更好的文本比较方法,可以在下面评论区留言,也可以单独私我,求指导~~

0 人点赞