早教吧 育儿知识 作业答案 考试题库 百科 知识分享

lucene分词lucene中文分词用什么方法最好?MMSEG4JMMSEG4J基于Java的开源中文分词组件,提供lucene和solr接口1、mmseg4j用Chih-HaoTsai的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的Tok

题目详情
lucene 分词
lucene中文分词 用什么方法最好?
MMSEG4J
MMSEG4J 基于Java的开源中文分词组件,提供lucene和solr 接口 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用.2、MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配.Complex 加了四个规则过虑.官方说:词语的正确识别率达到了 98.41%.mmseg4j 已经实现了这两种分词算法.
经过本人查阅 为了和Lucene很好的结合使用 建议能采用MMSEG4J作为中文分词组件
▼优质解答
答案和解析
ICTCLAS 中科院做的 效果巨棒
如 runbaike所说的客户数的问题 只要加userDic 没有解决不了了
完全可以按照你的需要把某些词分出来
不过在lucene中用ICTCLAS有点小难度
其次就推荐IK了 最新的3.2版本对lucene3.x的集成效果蛮不错 而且也支持用户词典了