基于重合度的相似度算法

本文将分析用Cosin算法和欧拉距离来计算文本相似度时存在的问题,更一般的,将阐述用向量内积的方法来计算相似度存在的弊端,Cosin算法就是一种基于向量内积的算法。最后将给出一个全新的相似度计算算法,并通过一些简单例子比较这些相似度计算算法的性能。

在计算文本之间的相似度时,一般的做法是先把文[......]

Read more

用python统计单词出现频率

用python的字典数据结构可以很方便地用来统计一篇文章的每个单词出现的频率。在文本相似度计算中,就经常需要用到一个单词在文章中的出现频率,进而可以根据两篇文章共有单词在相应文章中的频率比较,来计算相似度。python的强大功能在很大程度上依赖于字典这种数据结构。字典是一种可变的数据结构,和列表相似[......]

Read more