早教吧作业答案频道 -->其他-->
lucene分词lucene中文分词用什么方法最好?MMSEG4JMMSEG4J基于Java的开源中文分词组件,提供lucene和solr接口1、mmseg4j用Chih-HaoTsai的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的Tok
题目详情
lucene 分词
lucene中文分词 用什么方法最好?
MMSEG4J
MMSEG4J 基于Java的开源中文分词组件,提供lucene和solr 接口 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用.2、MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配.Complex 加了四个规则过虑.官方说:词语的正确识别率达到了 98.41%.mmseg4j 已经实现了这两种分词算法.
经过本人查阅 为了和Lucene很好的结合使用 建议能采用MMSEG4J作为中文分词组件
lucene中文分词 用什么方法最好?
MMSEG4J
MMSEG4J 基于Java的开源中文分词组件,提供lucene和solr 接口 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用.2、MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配.Complex 加了四个规则过虑.官方说:词语的正确识别率达到了 98.41%.mmseg4j 已经实现了这两种分词算法.
经过本人查阅 为了和Lucene很好的结合使用 建议能采用MMSEG4J作为中文分词组件
▼优质解答
答案和解析
ICTCLAS 中科院做的 效果巨棒
如 runbaike所说的客户数的问题 只要加userDic 没有解决不了了
完全可以按照你的需要把某些词分出来
不过在lucene中用ICTCLAS有点小难度
其次就推荐IK了 最新的3.2版本对lucene3.x的集成效果蛮不错 而且也支持用户词典了
如 runbaike所说的客户数的问题 只要加userDic 没有解决不了了
完全可以按照你的需要把某些词分出来
不过在lucene中用ICTCLAS有点小难度
其次就推荐IK了 最新的3.2版本对lucene3.x的集成效果蛮不错 而且也支持用户词典了
看了lucene分词lucene中...的网友还看了以下:
#include"stdio.h"main();{inta,m;scanf("%d",&a);swi 2020-03-31 …
已知函数fx=in(-x²-mx+1)在[m,m+1]有意义,则实数m的取值范围?画了图,除了h( 2020-04-27 …
求教英语若干题,QAQ辩音1.r{ea}dbr{ea}d()2.st{u}dentb{ui}ldi 2020-05-20 …
下列哪一个关键码序列不符合堆的定义?下列哪一个关键码序列不符合堆的定义?(C)A.a、c、d、g、 2020-05-22 …
关于x的方程m(x+h)2+k=0(m,h,k均为常数,m≠0)的解是x1=﹣3,x2=2,则程m 2020-06-12 …
找出下列各组单词中画线部分的发音不属于同一类的选项()1.br(ea)d2.h(ea)d3.m(e 2020-07-09 …
一元一次方程填空和应用T!填空:1、在梯形面积公式S=1/2(a+b)h中.已知S、a、h,则b= 2020-07-31 …
“鸡兔同笼”问题解法我自己做的,不知能否更精简:毕竟VB越精简越实用PrivateSubFormcl 2020-11-01 …
下列有关物质所含元素质量比的数值正确的是A.水(H2O)m(H):m(O)=1:8B.乙炔(C2H2 2020-12-02 …
“卡西尼”号土星探测器在离土星表面高h的圆形轨道上飞行,环绕n周飞行时间为t,土星半径为R,已知引力 2020-12-16 …