elasticsearch中如何使用ik中文分词器

发布时间：2021-07-30 17:23:52 作者：Leah
来源：亿速云阅读：190

# Elasticsearch中如何使用IK中文分词器

## 前言

在大数据时代，全文搜索引擎已成为处理海量文本数据的核心工具。作为其中的佼佼者，Elasticsearch凭借其分布式架构、高性能和易扩展性获得了广泛应用。然而，当面对中文文本处理时，Elasticsearch默认的分词器往往表现不佳，这就需要引入专门的中文分词解决方案。

IK分词器（IK Analyzer）是目前Elasticsearch中最受欢迎的中文分词插件之一。它由medcl开发并维护，具有词库丰富、分词准确度高、支持自定义词典等特点。本文将详细介绍如何在Elasticsearch中安装、配置和使用IK分词器，并通过实际案例展示其应用效果。

## 一、IK分词器概述

### 1.1 什么是IK分词器

IK Analyzer是一个开源的、基于Java语言开发的中文分词工具包。它最初是为Lucene设计的，后来被移植到Elasticsearch中作为插件使用。IK分词器采用"正向迭代最细粒度切分算法"（即细粒度切分）和"智能分词"（即智能切分）两种分词模式，能够较好地处理中文文本。

### 1.2 IK分词器的主要特点

- **多分词模式**：支持smart和max_word两种分词模式
- **扩展性好**：支持自定义词典和停用词词典
- **高性能**：采用高效的词典结构和分词算法
- **兼容性强**：支持多种Elasticsearch版本
- **维护活跃**：开源社区持续更新和维护

### 1.3 IK与其它中文分词器的对比

| 分词器 | 优点 | 缺点 |
|--------|------|------|
| IK | 分词准确度高，支持自定义词典 | 对新词识别有限 |
| Jieba | 新词识别能力强 | 内存占用较高 |
| HanLP | 功能全面，支持多种NLP任务 | 配置复杂，资源消耗大 |
| Paoding | 极简设计，速度快 | 功能较少，已停止维护 |

## 二、安装IK分词器

### 2.1 环境准备

在安装IK分词器前，请确保已满足以下条件：

1. 已安装Java运行环境（JDK 8或以上版本）
2. 已安装Elasticsearch（建议使用7.x或8.x版本）
3. 具备Elasticsearch插件管理权限

### 2.2 安装方法

IK分词器可以通过以下三种方式安装：

#### 方法一：使用elasticsearch-plugin命令行安装

```bash
# 进入Elasticsearch安装目录
cd /path/to/elasticsearch

# 安装指定版本的IK分词器
bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.16.2/elasticsearch-analysis-ik-7.16.2.zip

方法二：手动下载安装

从GitHub Release页面下载对应版本的zip包
在Elasticsearch的plugins目录下创建ik文件夹
解压zip包到ik目录
重启Elasticsearch服务

方法三：使用Docker安装

FROM elasticsearch:7.16.2
RUN bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.16.2/elasticsearch-analysis-ik-7.16.2.zip

2.3 验证安装

安装完成后，可以通过以下方式验证IK分词器是否安装成功：

# 查看已安装的插件列表
bin/elasticsearch-plugin list

# 预期输出应包含：
analysis-ik

或者通过API检查：

curl -X GET "localhost:9200/_cat/plugins?v"

三、配置IK分词器

3.1 基本配置

IK分词器安装后，默认已经包含了主词典（main.dic）、量词词典（quantifier.dic）和停用词词典（stopword.dic）。这些词典位于config/analysis-ik/目录下。

3.2 自定义词典配置

为了提升分词效果，我们通常需要添加自定义词典：

在config/analysis-ik/目录下创建自定义词典文件，如custom.dic
编辑IKAnalyzer.cfg.xml文件，添加自定义词典配置：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
    <comment>IK Analyzer 扩展配置</comment>
    <!-- 用户可以在这里配置自己的扩展字典 -->
    <entry key="ext_dict">custom.dic</entry>
    <!-- 用户可以在这里配置自己的扩展停止词字典-->
    <entry key="ext_stopwords">stopword.dic</entry>
</properties>

每行添加一个词语，保存文件
重启Elasticsearch使配置生效

3.3 热更新词典配置

对于生产环境，重启服务可能不可行，IK分词器支持词典热更新：

修改IKAnalyzer.cfg.xml：

<entry key="remote_ext_dict">http://your-server.com/custom.dic</entry>
<entry key="remote_ext_stopwords">http://your-server.com/stopword.dic</entry>

词典文件需要满足以下要求：
- 存放在Web服务器可访问的位置
- 文件编码为UTF-8
- 修改后需要更新文件的最后修改时间（可通过touch命令实现）

四、使用IK分词器

4.1 创建索引时指定IK分词器

PUT /my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "ik_analyzer": {
          "type": "custom",
          "tokenizer": "ik_max_word"
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "content": {
        "type": "text",
        "analyzer": "ik_max_word",
        "search_analyzer": "ik_smart"
      }
    }
  }
}

4.2 测试分词效果

可以使用_analyzeAPI测试分词效果：

GET /_analyze
{
  "analyzer": "ik_max_word",
  "text": "中华人民共和国国歌"
}

响应结果：

{
  "tokens" : [
    {
      "token" : "中华人民共和国",
      "start_offset" : 0,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "中华人民",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "中华",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "华人",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "人民共和国",
      "start_offset" : 2,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 4
    },
    {
      "token" : "人民",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 5
    },
    {
      "token" : "共和国",
      "start_offset" : 4,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 6
    },
    {
      "token" : "共和",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 7
    },
    {
      "token" : "国歌",
      "start_offset" : 7,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 8
    }
  ]
}

4.3 两种分词模式对比

IK分词器提供两种分词模式：

ik_smart：智能切分，粒度较粗

GET /_analyze
{
 "analyzer": "ik_smart",
 "text": "中华人民共和国国歌"
}

结果：

{
 "tokens" : [
   {
     "token" : "中华人民共和国",
     "start_offset" : 0,
     "end_offset" : 7,
     "type" : "CN_WORD",
     "position" : 0
   },
   {
     "token" : "国歌",
     "start_offset" : 7,
     "end_offset" : 9,
     "type" : "CN_WORD",
     "position" : 1
   }
 ]
}

ik_max_word：最细粒度切分
```
GET /_analyze
{
 "analyzer": "ik_max_word",
 "text": "中华人民共和国国歌"
}
```
结果：如前文所示，会输出所有可能的词语组合

4.4 实际搜索示例

PUT /news
{
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "ik_max_word",
        "search_analyzer": "ik_smart"
      },
      "content": {
        "type": "text",
        "analyzer": "ik_max_word"
      }
    }
  }
}

POST /news/_doc/1
{
  "title": "华为发布新款手机",
  "content": "华为技术有限公司今日在北京发布了最新款旗舰手机，搭载了自主研发的鸿蒙操作系统。"
}

POST /news/_doc/2
{
  "title": "智能手机市场分析",
  "content": "最新市场研究报告显示，全球智能手机出货量在第三季度同比增长了15%。"
}

# 搜索示例
GET /news/_search
{
  "query": {
    "match": {
      "content": "华为手机"
    }
  }
}

五、高级应用与优化

5.1 同义词处理

IK分词器可以结合Elasticsearch的同义词功能实现更智能的搜索：

PUT /synonym_test
{
  "settings": {
    "analysis": {
      "filter": {
        "my_synonym": {
          "type": "synonym",
          "synonyms": [
            "华为, huawei",
            "手机, 智能手机, 移动电话"
          ]
        }
      },
      "analyzer": {
        "ik_synonym": {
          "type": "custom",
          "tokenizer": "ik_max_word",
          "filter": ["my_synonym"]
        }
      }
    }
  }
}

5.2 拼音搜索支持

结合拼音分词器(pinyin)可以实现拼音搜索：

安装拼音分词器插件
创建包含拼音分析的索引：

PUT /pinyin_test
{
  "settings": {
    "analysis": {
      "analyzer": {
        "pinyin_analyzer": {
          "tokenizer": "my_pinyin"
        }
      },
      "tokenizer": {
        "my_pinyin": {
          "type": "pinyin",
          "keep_first_letter": true,
          "keep_separate_first_letter": false,
          "keep_full_pinyin": true,
          "keep_original": true,
          "limit_first_letter_length": 16,
          "lowercase": true
        }
      }
    }
  }
}

5.3 性能优化建议

合理选择分词模式：
- 索引时使用ik_max_word确保所有可能词语都被索引
- 搜索时使用ik_smart提高搜索精度和性能
控制字段长度：
- 对于长文本字段，设置index_options为offsets而非默认的positions可以节省空间
合理使用n-gram：
- 对于短文本如商品名称，可以结合edge_ngram提高前缀搜索效率
词典优化：
- 定期清理无用词汇
- 将高频词放在词典前面

六、常见问题与解决方案

6.1 分词不准确问题

问题现象：某些专业术语或新词被错误拆分

解决方案： 1. 将这些词语添加到自定义词典中 2. 更新词典后确保重启服务或触发热更新

6.2 插件版本兼容性问题

问题现象：插件安装后Elasticsearch无法启动

解决方案： 1. 确保下载的IK分词器版本与Elasticsearch版本完全匹配 2. 检查日志文件中的错误信息 3. 必要时重新编译插件

6.3 内存占用过高问题

问题现象：使用大量自定义词典后内存占用显著增加

解决方案： 1. 优化词典大小，移除不必要词汇 2. 考虑使用更高效的词典结构 3. 增加JVM堆内存

6.4 热更新不生效问题

问题现象：词典文件已更新但分词效果未改变

解决方案： 1. 确保词典文件URL可访问 2. 检查文件编码是否为UTF-8 3. 修改文件后更新最后修改时间 4. 检查Elasticsearch日志是否有相关错误

七、总结

IK中文分词器是Elasticsearch处理中文文本的利器，通过本文的介绍，我们了解了：

IK分词器的基本特性和安装方法
如何配置和使用自定义词典
两种分词模式的区别和适用场景
实际应用中的最佳实践
高级功能和性能优化技巧
常见问题的解决方案

正确配置和使用IK分词器可以显著提升Elasticsearch的中文搜索体验。随着业务的扩展，持续优化词典和分词策略将是提升搜索质量的关键。建议定期分析搜索日志，发现新词和用户搜索习惯，不断完善分词系统。

附录

A. 参考资源

B. 推荐工具

分词效果测试工具：Kibana Dev Tools
词典管理工具：Elasticsearch-head插件
性能监控工具：Elasticsearch Monitoring

C. 版本更新说明

本文基于Elasticsearch 7.x版本和IK分词器7.16.2版本编写，其他版本可能存在差异。 “`