默认的Solr没有中文分词功能,而Paoding则是能兼容Lucene的中文分词工具,但是目前Paoding的版本只能兼容lucene3。还好有大神已经给出了解决方法,参考:http://www.oschina.net/code/snippet_259382_14635,此方法兼容到Solr4.2.1。
但是直接使用的时候,会报NullPointer异常,需要修改一下文件,去掉toString(),src/net/paoding/analysis/ext/PaodingAnalyzerSolrFactory.java:
public void init(Map<String, String> args) { super.init(args); setMode(args.get("mode")); }
然后把Lucene4.2.1的jar包复制到paoding的lib目录下(lucene-core-4.2.1.jar,lucene-memory-4.2.1.jar,lucene-analyzers-common-4.2.1.jar,lucene-highlighter-4.2.1.jar),并把lucene3.0的jar包删除。因为Lucene4和Lucene3不能完全兼容,Paoding源码里的example已经不能用了,所以在build的时候需要把它们排除掉(修改build.xml,把带有examples的行都删除)。
使用Paoding的时候,还要指定词库,方法是修改src下的paoding-dic-home.properties文件,将paoding.dic.home设成词典路径。
开始编译吧
ant build
现在已经生成paoding-analysis.jar了,我们还要把它添加到Solr中。
首先需要做的是,把paoding-analysis.jar添加到Solr的example/webapps/solr.war/WEB-INF/lib/中。
然后修改Solr example的schema文件solr/collection1/conf/schema.xml,找到name=”text_general”这个fieldType,将其中tokenizer对应之class换为(index和query之下class都要换)net.paoding.analysis.ext.PaodingAnalyzerSolrFactory。
大功告成,重启Solr吧
修改之后的代码在github上https://github.com/wylazy/paoding
后记:
IKAnalyzer是一个比较活跃的中文分词工具,比Paoding更新要快一些,而且已经支持Solr4.2.1了。配置方法也更简单,只需要修改solr.war就行了。
1.将ik-analyzer-2012ff-u1.jar复制到WEB-INF/lib目录下
2.将IKAnalyzer.cfg.xml和stopword.dic复制到WEB-INF/classes/目录下
3.修改solr/collection1/conf/schema.xml,让其使用IK作为分词工具
<fieldType name="text_general" class="solr.TextField"> <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/> <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/> </fieldType>
相关推荐
solr导入Ik分词专用。
Solr5.4的中文分词库,解压拷贝到Solr5.4.0的WEB-INF目录下即可,如非默认数据保存路径,要修改web.xml文件
包含内容:IKAnalyzer中文分词器V2012使用手册.pdf;机械词汇大全【官方推荐】;深蓝词库转换.exe;中文分词词库打包50万词汇;IKAnalyzer-5.0.jar
solr 源码 + IK 分词器 + zookeeper。
绝对可以用哈,我工程都在用,所以放心的使用,积分也不高的就5分
solr7.3.1种需要的中文IK分词器,其中包括IK分词的jar和配置文件还有mmseg4j
solr6.0的中文分词也支持solr5.x,IKAnalyzer.jar和配置文件
支持solr5.5 solr6.0中IK分词需要的资料
solr5 中文分词
solr安装ik分词器将jar复制到solr\WEB-INF\lib 中 具体使用:https://mp.csdn.net/postedit
Solr的ik分词以及mysql-connector-java-8.0.11,没积分call我,我发给你
solr6的中文分词器ik-analyzer-solr-6.0.jar,在solr上亲测可用
solr cloud6.x.x 都可以用,solr的拼音分词
solr-ik中文分词器资源包,包括ext.dic,,IKAnalyzer.cfg.xml,,ik-analyzer-solr5-5.x.jar,,managed-schema,,solr-analyzer-ik-5.1.0.jar,,stopword.dic
solr中文分词器
solr7.2.1,IK分词jar包,使用Solr进行Ik分词的时候需要使用该jar包
solr 中文查询分词器,把一串字符分作多个词语进行查询
Solr6.5 IK分词器
solr 中文分词
solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0