分类决策树(python实现)
决策树是一个简单易用的机器学习算法,具有很好的实用性。在风险评估、数据分类、专家系统中都能见到决策树的身影。决策树其实是一系列的if-then规则的集合,它有可读性良好,分类速度快等优点。
我们可以把决策树看成是一些if-then规则的集合,在每一层树上根据属性的值判断走势,知道遇到叶节点,叶[......]
Read more决策树是一个简单易用的机器学习算法,具有很好的实用性。在风险评估、数据分类、专家系统中都能见到决策树的身影。决策树其实是一系列的if-then规则的集合,它有可读性良好,分类速度快等优点。
我们可以把决策树看成是一些if-then规则的集合,在每一层树上根据属性的值判断走势,知道遇到叶节点,叶[......]
Read more双数组字典树是一种特殊的字典树,由两个数组组成:base和check,base数组用来描述节点之间的状态转移关系,说通俗点,就是用来寻址的,check数组用来保存一个状态节点的父节点,在节点之间建立连接关系。base和check数组的大小一般很难预先知道,因为它还跟数据之间的组织关系有关,以不同顺序[......]
Read more中文分词是所有中文信息处理的基础。在数据挖掘、搜索引擎、自然语言处理等领域都起着至关重要的作用。中文分词算法大概可以分为三类:正向最大匹配、逆向最大匹配以及基于统计概率模型的算法。这篇博文讲的就是逆向最大匹配分词算法。其实正向最大匹配和逆向最大匹配算法类似。逆向最大匹配算法虽然简单,但在处理一些语句[......]
Read more之前用maxent进行中文分词,发现效果不是特别理想,所以又实验了下用CRF来进行中文分词。
这里先简单介绍下什么是CRF(条件随机场):
Read moreintroduction
Conditional random fields (CRFs) are a probabilistic framewo[......]
由于太久没用过ubuntu系统了,陌生了不少,所以在安装maxent的过程中绕了不少弯路。不过现在回过头想想还是挺简单的:./configure、make、sudo su、make install,再进入到子目录python下,执行python setup.py install。最重要的还是要仔细看[......]
Read more这里是我用到的数据,一共两个数据集,一个是training data: irisTrain.txt ,还有一个是testing data: irisTest.txt。先用第一个训练数据进行训练,生成分类器,然后再用分类器对测试数据进行分类。上面的数据记录的是关于一种叫做鸢尾的花的各种属性:sepal[......]
Read more用python的字典数据结构可以很方便地用来统计一篇文章的每个单词出现的频率。在文本相似度计算中,就经常需要用到一个单词在文章中的出现频率,进而可以根据两篇文章共有单词在相应文章中的频率比较,来计算相似度。python的强大功能在很大程度上依赖于字典这种数据结构。字典是一种可变的数据结构,和列表相似[......]
Read more之前就听说python在科学计算上有优势。这个优势来自于python语言的各种模块,加上python是一种按行输入执行的语言,在运行速度上也没话说。python里的列表、字典、集合等数据结构在数据挖掘和自然语言处理中使用很方便。下面就用python来统计一篇文章的长度,以及这篇文章中只出现一次的单词[......]
Read more