基于重合度的相似度算法

本文将分析用Cosin算法和欧拉距离来计算文本相似度时存在的问题,更一般的,将阐述用向量内积的方法来计算相似度存在的弊端,Cosin算法就是一种基于向量内积的算法。最后将给出一个全新的相似度计算算法,并通过一些简单例子比较这些相似度计算算法的性能。

在计算文本之间的相似度时,一般的做法是先把文[......]

Read more