CDH如何添加solr中文分词

发布时间：2021-12-17 09:18:52 作者：小新
来源：亿速云阅读：407

# CDH如何添加Solr中文分词

## 前言

在Cloudera Distribution for Hadoop (CDH) 中使用Solr进行全文检索时，针对中文内容的处理需要专门的分词器支持。本文将详细介绍如何在CDH环境中为Solr配置中文分词器，包括IK Analyzer和SmartCN等常用方案的集成方法。

---

## 一、环境准备

### 1.1 确认CDH版本
```bash
# 查看CDH版本
cat /etc/default/cloudera-scm-server | grep CM_VERSION

1.2 确认Solr服务状态

# 检查Solr服务
sudo service solr-server status

1.3 所需组件下载

IK Analyzer JAR包：最新版下载
SmartCN插件包（CDH通常自带）

二、IK Analyzer集成方案

2.1 上传JAR文件

将以下文件上传到Solr节点： - ik-analyzer-*.jar - stopword.dic (可选停用词库) - IKAnalyzer.cfg.xml (配置文件)

推荐存放路径：

/opt/cloudera/parcels/CDH/lib/solr/contrib/analysis-extras/lucene-libs/

2.2 修改solrconfig.xml

<lib dir="${solr.install.dir:../../../..}/contrib/analysis-extras/lucene-libs/" regex="ik-analyzer-.*\.jar" />

2.3 配置schema.xml

<fieldType name="text_ik" class="solr.TextField">
  <analyzer type="index">
    <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false"/>
    <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
  <analyzer type="query">
    <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true"/>
    <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
</fieldType>

2.4 重启服务

sudo service solr-server restart

三、SmartCN官方方案

3.1 启用内置插件

<fieldType name="text_smartcn" class="solr.TextField">
  <analyzer>
    <tokenizer class="org.apache.lucene.analysis.cn.smart.SmartChineseSentenceTokenizerFactory"/>
    <filter class="org.apache.lucene.analysis.cn.smart.SmartChineseWordTokenFilterFactory"/>
  </analyzer>
</fieldType>

3.2 性能对比测试

分词器	索引速度	查询速度	内存占用
IK	中等	快	较高
SmartCN	快	中等	低

四、自定义词典配置

4.1 IK自定义词典

编辑IKAnalyzer.cfg.xml：

<entry key="ext_dict">custom/mydict.dic</entry>
<entry key="ext_stopwords">custom/mystop.dic</entry>

4.2 热更新配置

通过API触发更新：

curl http://solr-host:8983/solr/collection_name/analysis/field?wt=json -d '
{
  "fieldType":"text_ik",
  "fieldValue":"测试新词"
}'

五、验证分词效果

5.1 使用Solr Admin界面

访问http://<solr-host>:8983/solr
选择对应collection
进入Analysis页面输入测试文本

5.2 通过API验证

curl "http://localhost:8983/solr/collection/analysis/field?analysis.fieldvalue=中华人民共和国&analysis.fieldtype=text_ik&wt=json"

预期输出应显示正确切分：

{
  "tokens": [
    {"token":"中华", "start":0, "end":2},
    {"token":"人民", "start":2, "end":4},
    {"token":"共和国", "start":4, "end":7}
  ]
}

六、性能优化建议

JVM调参：

# 修改solr.in.sh
SOLR_JAVA_MEM="-Xms4g -Xmx4g"

缓存配置：

<filterCache class="solr.FastLRUCache" size="512" initialSize="512" autowarmCount="0"/>

索引优化：

curl http://localhost:8983/solr/collection/update -H "Content-Type: text/xml" --data-binary '<optimize/>'

七、常见问题解决

7.1 类加载错误

java.lang.ClassNotFoundException: org.wltea.analyzer.lucene.IKTokenizerFactory

解决方案： - 确认JAR路径正确 - 检查文件权限（需solr用户可读）

7.2 分词效果不佳

检查词典编码必须为UTF-8无BOM格式
确认词典文件每行一个词条

7.3 内存溢出

在solrconfig.xml中增加：

<indexDefaults>
  <ramBufferSizeMB>100</ramBufferSizeMB>
</indexDefaults>

结语

通过本文介绍的两种方案，用户可以根据实际需求选择适合的中文分词器。对于需要高精度分词的场景推荐IK Analyzer，而追求部署简便性的场景可选择SmartCN。建议在生产环境部署前进行充分的性能测试和词典优化。

注意：所有配置修改后都需要重启Solr服务生效，建议在维护窗口期操作。 “`

（全文约1350字）