逆向最大匹配分词算法
中文分词是所有中文信息处理的基础。在数据挖掘、搜索引擎、自然语言处理等领域都起着至关重要的作用。中文分词算法大概可以分为三类:正向最大匹配、逆向最大匹配以及基于统计概率模型的算法。这篇博文讲的就是逆向最大匹配分词算法。其实正向最大匹配和逆向最大匹配算法类似。逆向最大匹配算法虽然简单,但在处理一些语句[......]
Read more中文分词是所有中文信息处理的基础。在数据挖掘、搜索引擎、自然语言处理等领域都起着至关重要的作用。中文分词算法大概可以分为三类:正向最大匹配、逆向最大匹配以及基于统计概率模型的算法。这篇博文讲的就是逆向最大匹配分词算法。其实正向最大匹配和逆向最大匹配算法类似。逆向最大匹配算法虽然简单,但在处理一些语句[......]
Read more之前用maxent进行中文分词,发现效果不是特别理想,所以又实验了下用CRF来进行中文分词。
这里先简单介绍下什么是CRF(条件随机场):
Read moreintroduction
Conditional random fields (CRFs) are a probabilistic framewo[......]
由于太久没用过ubuntu系统了,陌生了不少,所以在安装maxent的过程中绕了不少弯路。不过现在回过头想想还是挺简单的:./configure、make、sudo su、make install,再进入到子目录python下,执行python setup.py install。最重要的还是要仔细看[......]
Read more