大家好,我是数说君,这篇文章是想跟大家讨教一下。
如果有两段简单文本,如何比较它们的相似度?这里我们就假设是英文,不存在中文的分词问题,文本就类似于:
text1 = 'hello, I am shushuo jun'
text2 = 'hi, wo ye shi shushuo jun'
目前比较容易实现的,是计算出每个文本的词向量,然后将两列词向量进行比较,计算出相似度,实现比较简单,就不上code了。我在python中,计算出上面的text1和text2的相似度是51%。
但问题是:
这样的比较是以词为单位的,词稍微变一变,结果就差别很大,比如jeccica和jeccika很相似,但在比较时会认为这是两个完全不同的词。以上面的两段文本为例,我稍微变一下
text1 = 'hello, I am shushuo jun'
text2 = 'hi, wo ye shi shushuoo jun'
计算出来的相似度是38%,可以想象,完全一样的两句话,如果我将其中一句的每个词后面都加一个字母i,看起来明明很相像,计算出来的相似度却是0,这不科学啊。。。
因此在这里请教大家,有没有更好的文本比较方法,可以在下面评论区留言,也可以单独私我,求指导~~