Solr4.2.1中文分词 -

ipjmc

浏览: 702751 次
性别:
来自: 北京

最近访客更多访客>>

ledong

u012363178

constp

wenrisheng

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Solr4.2.1中文分词

博客分类：

搜索

solr paoding lucene

默认的Solr没有中文分词功能，而Paoding则是能兼容Lucene的中文分词工具，但是目前Paoding的版本只能兼容lucene3。还好有大神已经给出了解决方法，参考：http://www.oschina.net/code/snippet_259382_14635，此方法兼容到Solr4.2.1。

但是直接使用的时候，会报NullPointer异常，需要修改一下文件，去掉toString()，src/net/paoding/analysis/ext/PaodingAnalyzerSolrFactory.java：

 public void init(Map<String, String> args) {
        super.init(args);
        setMode(args.get("mode"));
    }

然后把Lucene4.2.1的jar包复制到paoding的lib目录下（lucene-core-4.2.1.jar，lucene-memory-4.2.1.jar，lucene-analyzers-common-4.2.1.jar，lucene-highlighter-4.2.1.jar），并把lucene3.0的jar包删除。因为Lucene4和Lucene3不能完全兼容，Paoding源码里的example已经不能用了，所以在build的时候需要把它们排除掉（修改build.xml，把带有examples的行都删除）。

使用Paoding的时候，还要指定词库，方法是修改src下的paoding-dic-home.properties文件，将paoding.dic.home设成词典路径。

开始编译吧

ant build

现在已经生成paoding-analysis.jar了，我们还要把它添加到Solr中。

首先需要做的是，把paoding-analysis.jar添加到Solr的example/webapps/solr.war/WEB-INF/lib/中。

然后修改Solr example的schema文件solr/collection1/conf/schema.xml，找到name=”text_general”这个fieldType，将其中tokenizer对应之class换为(index和query之下class都要换)net.paoding.analysis.ext.PaodingAnalyzerSolrFactory。

大功告成，重启Solr吧

修改之后的代码在github上https://github.com/wylazy/paoding

后记：

IKAnalyzer是一个比较活跃的中文分词工具，比Paoding更新要快一些，而且已经支持Solr4.2.1了。配置方法也更简单，只需要修改solr.war就行了。

1.将ik-analyzer-2012ff-u1.jar复制到WEB-INF/lib目录下

2.将IKAnalyzer.cfg.xml和stopword.dic复制到WEB-INF/classes/目录下

3.修改solr/collection1/conf/schema.xml，让其使用IK作为分词工具

    <fieldType name="text_general" class="solr.TextField">
      <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
      <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
    </fieldType>

0
顶

2
踩

分享到：

使用Tornado和Redis构建简易聊天室 | WebAppContext（嵌入Jetty学习三）

2013-04-29 20:20
浏览 2343
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Solr4.2.1中文分词

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Solr4.2.1中文分词

评论

发表评论

相关推荐

最近访客更多访客>>