分类决策树(python实现)

决策树是一个简单易用的机器学习算法,具有很好的实用性。在风险评估、数据分类、专家系统中都能见到决策树的身影。决策树其实是一系列的if-then规则的集合,它有可读性良好,分类速度快等优点。

我们可以把决策树看成是一些if-then规则的集合,在每一层树上根据属性的值判断走势,知道遇到叶节点,叶[......]

Read more

双数组字典树实现

双数组字典树是一种特殊的字典树,由两个数组组成:base和check,base数组用来描述节点之间的状态转移关系,说通俗点,就是用来寻址的,check数组用来保存一个状态节点的父节点,在节点之间建立连接关系。base和check数组的大小一般很难预先知道,因为它还跟数据之间的组织关系有关,以不同顺序[......]

Read more

逆向最大匹配分词算法

中文分词是所有中文信息处理的基础。在数据挖掘、搜索引擎、自然语言处理等领域都起着至关重要的作用。中文分词算法大概可以分为三类:正向最大匹配、逆向最大匹配以及基于统计概率模型的算法。这篇博文讲的就是逆向最大匹配分词算法。其实正向最大匹配和逆向最大匹配算法类似。逆向最大匹配算法虽然简单,但在处理一些语句[......]

Read more




用python统计单词出现频率

用python的字典数据结构可以很方便地用来统计一篇文章的每个单词出现的频率。在文本相似度计算中,就经常需要用到一个单词在文章中的出现频率,进而可以根据两篇文章共有单词在相应文章中的频率比较,来计算相似度。python的强大功能在很大程度上依赖于字典这种数据结构。字典是一种可变的数据结构,和列表相似[......]

Read more

用python统计文章单词数

之前就听说python在科学计算上有优势。这个优势来自于python语言的各种模块,加上python是一种按行输入执行的语言,在运行速度上也没话说。python里的列表、字典、集合等数据结构在数据挖掘和自然语言处理中使用很方便。下面就用python来统计一篇文章的长度,以及这篇文章中只出现一次的单词[......]

Read more