基于重合度的相似度算法
本文将分析用Cosin算法和欧拉距离来计算文本相似度时存在的问题,更一般的,将阐述用向量内积的方法来计算相似度存在的弊端,Cosin算法就是一种基于向量内积的算法。最后将给出一个全新的相似度计算算法,并通过一些简单例子比较这些相似度计算算法的性能。
在计算文本之间的相似度时,一般的做法是先把文[......]
Read more本文将分析用Cosin算法和欧拉距离来计算文本相似度时存在的问题,更一般的,将阐述用向量内积的方法来计算相似度存在的弊端,Cosin算法就是一种基于向量内积的算法。最后将给出一个全新的相似度计算算法,并通过一些简单例子比较这些相似度计算算法的性能。
在计算文本之间的相似度时,一般的做法是先把文[......]
Read more用python的字典数据结构可以很方便地用来统计一篇文章的每个单词出现的频率。在文本相似度计算中,就经常需要用到一个单词在文章中的出现频率,进而可以根据两篇文章共有单词在相应文章中的频率比较,来计算相似度。python的强大功能在很大程度上依赖于字典这种数据结构。字典是一种可变的数据结构,和列表相似[......]
Read more趁着感冒的借口就在电子阅览室,玩起了电脑,顺便写了写这些天断断续续看的《A Programmer's Guide to Data Mining》里面的内容。这本书还在连载中,不过不知道什么时候会再出新的篇章了。现在为止只有六章可以下载。但是还是要说,写得真心不错,强烈推荐。
第一章只是做一个概[......]
Read more