利用条件随机场工具CRF完成中文分词
之前用maxent进行中文分词,发现效果不是特别理想,所以又实验了下用CRF来进行中文分词。
这里先简单介绍下什么是CRF(条件随机场):
Read moreintroduction
Conditional random fields (CRFs) are a probabilistic framewo[......]
之前用maxent进行中文分词,发现效果不是特别理想,所以又实验了下用CRF来进行中文分词。
这里先简单介绍下什么是CRF(条件随机场):
Read moreintroduction
Conditional random fields (CRFs) are a probabilistic framewo[......]
由于太久没用过ubuntu系统了,陌生了不少,所以在安装maxent的过程中绕了不少弯路。不过现在回过头想想还是挺简单的:./configure、make、sudo su、make install,再进入到子目录python下,执行python setup.py install。最重要的还是要仔细看[......]
Read more之所以把这两道题放到一起,是因为这两道题是同一种题型,我把它们叫做“穿越题”。解这种题型的题目,关键是要用穿越的思想。一般这种题目,如果不能想进去的话,会感觉无从下手,可一旦想进去,就会发现题目太简单了。
解1852时,关键是要看出,就算两只蚂蚁相遇各自会朝相反方向移动,但如果我们假设相遇的蚂[......]
Read more这里是我用到的数据,一共两个数据集,一个是training data: irisTrain.txt ,还有一个是testing data: irisTest.txt。先用第一个训练数据进行训练,生成分类器,然后再用分类器对测试数据进行分类。上面的数据记录的是关于一种叫做鸢尾的花的各种属性:sepal[......]
Read more用python的字典数据结构可以很方便地用来统计一篇文章的每个单词出现的频率。在文本相似度计算中,就经常需要用到一个单词在文章中的出现频率,进而可以根据两篇文章共有单词在相应文章中的频率比较,来计算相似度。python的强大功能在很大程度上依赖于字典这种数据结构。字典是一种可变的数据结构,和列表相似[......]
Read more之前就听说python在科学计算上有优势。这个优势来自于python语言的各种模块,加上python是一种按行输入执行的语言,在运行速度上也没话说。python里的列表、字典、集合等数据结构在数据挖掘和自然语言处理中使用很方便。下面就用python来统计一篇文章的长度,以及这篇文章中只出现一次的单词[......]
Read more我认为 Ligaya Turmelle 的关于SQL联合(join)语句的帖子对于新手开发者来说是份很好的材料。SQL 联合语句好像是基于集合的,用韦恩图来解释咋一看是很自然而然的。不过正如在她的帖子的回复中所说的,在测试中我发现韦恩图并不是十分的匹配SQL联合语法。
不过我还是喜欢这个观点,[......]
Read more下面这些建议都是我在《The Google Resume:How to prepare for a career and land a job at Apple,Microsoft,Google,or any Top Tech Company》(中文名比较俗:《金领简历 敲开苹果、微软、谷歌的大门》[......]
Read more