ElasticSearch的常用术语有哪些

发布时间：2021-11-30 10:45:20 作者：柒染
来源：亿速云阅读：189

# ElasticSearch的常用术语有哪些

## 目录
- [引言](#引言)
- [核心概念篇](#核心概念篇)
  - [1. 文档（Document）](#1-文档document)
  - [2. 索引（Index）](#2-索引index)
  - [3. 类型（Type）](#3-类型type)
  - [4. 节点（Node）](#4-节点node)
  - [5. 集群（Cluster）](#5-集群cluster)
  - [6. 分片（Shard）](#6-分片shard)
  - [7. 副本（Replica）](#7-副本replica)
- [数据操作篇](#数据操作篇)
  - [8. 映射（Mapping）](#8-映射mapping)
  - [9. 分析器（Analyzer）](#9-分析器analyzer)
  - [10. 查询DSL（Query DSL）](#10-查询dslquery-dsl)
  - [11. 聚合（Aggregation）](#11-聚合aggregation)
- [架构设计篇](#架构设计篇)
  - [12. 倒排索引（Inverted Index）](#12-倒排索引inverted-index)
  - [13. 近实时搜索（NRT）](#13-近实时搜索nrt)
  - [14. 事务日志（Translog）](#14-事务日志translog)
  - [15. 刷新（Refresh）与冲刷（Flush）](#15-刷新refresh与冲刷flush)
- [高级特性篇](#高级特性篇)
  - [16. 别名（Alias）](#16-别名alias)
  - [17. 模板（Template）](#17-模板template)
  - [18. 管道（Pipeline）](#18-管道pipeline)
  - [19. 快照（Snapshot）](#19-快照snapshot)
- [运维监控篇](#运维监控篇)
  - [20. 脑裂（Split Brain）](#20-脑裂split-brain)
  - [21. 热热架构（Hot-Warm）](#21-热热架构hot-warm)
  - [22. CAT API](#22-cat-api)
  - [23. 索引生命周期管理（ILM）](#23-索引生命周期管理ilm)
- [总结](#总结)

## 引言
ElasticSearch作为当前最流行的分布式搜索和分析引擎，其术语体系构成了理解系统架构的基石。本文将系统性地介绍23个核心术语，涵盖基础概念、数据操作、架构原理及运维实践，帮助开发者构建完整的知识框架。

## 核心概念篇

### 1. 文档（Document）
```json
{
  "id": 1,
  "title": "ElasticSearch指南",
  "content": "这是关于ES的详细文档",
  "tags": ["搜索", "大数据"]
}

最小数据单元：JSON格式的键值对集合
元数据字段：自动包含_index、_id、_version等系统字段
存储特性：文档不可变，修改实际是替换操作

2. 索引（Index）

PUT /products
{
  "settings": {
    "number_of_shards": 3,
    "number_of_replicas": 1
  }
}

逻辑数据容器：相当于关系型数据库中的”数据库”
物理特性：由多个分片组成，支持水平扩展
管理命令：CREATE INDEX、DELETE INDEX、GET _cat/indices

3. 类型（Type）

注意：7.x+版本已弃用类型概念 - 历史沿革：6.x允许单索引多类型，7.x仅支持_doc类型 - 替代方案：通过不同字段实现分类（如doc_type字段）

4. 节点（Node）

# elasticsearch.yml配置示例
node.name: data-node-1
node.roles: [ data, ingest ]

角色类型：
- Master-eligible：集群管理
- Data：数据存储与查询
- Ingest：预处理管道
- Coordinating：请求路由

5. 集群（Cluster）

ElasticSearch的常用术语有哪些 - 发现机制：通过discovery.seed_hosts自动组网 - 状态监控：GET _cluster/health返回green/yellow/red - 跨集群搜索：CCR（Cross Cluster Replication）实现多集群联动

6. 分片（Shard）

PUT /logs-2023
{
  "settings": {
    "number_of_shards": 5,  // 主分片数
    "number_of_replicas": 1 // 每个主分片的副本数
  }
}

分片策略：
- 主分片数创建后不可修改
- 推荐每个分片大小30-50GB
- 分片数量 = 数据总量 / 单分片容量

7. 副本（Replica）

核心价值：
- 高可用：主分片故障时自动提升副本
- 负载均衡：查询请求自动分配到副本
- 数据安全：防止数据丢失

数据操作篇

8. 映射（Mapping）

{
  "mappings": {
    "properties": {
      "price": { "type": "scaled_float", "scaling_factor": 100 },
      "description": { 
        "type": "text",
        "fields": {
          "keyword": { "type": "keyword" }
        }
      }
    }
  }
}

动态映射：自动检测字段类型（可能导致不符合预期）
显式映射：推荐生产环境预先定义
特殊类型：
- geo_point：经纬度坐标
- nested：对象数组独立索引

9. 分析器（Analyzer）

GET /_analyze
{
  "analyzer": "ik_max_word",
  "text": "中华人民共和国"
}

组成结构：
1. Character Filters：原始文本处理（如HTML去除）
2. Tokenizer：分词（如standard/ik/pinyin）
3. Token Filters：分词后处理（如lowercase/synonym）

10. 查询DSL（Query DSL）

{
  "query": {
    "bool": {
      "must": [
        { "match": { "title": "搜索" }},
        { "range": { "price": { "gte": 100 }}}
      ],
      "filter": [
        { "term": { "status": "active" }}
      ]
    }
  }
}

查询类型：
- 全文检索：match/match_phrase
- 精确查询：term/terms
- 复合查询：bool/function_score
相关性算分：TF-IDF/BMO25算法

11. 聚合（Aggregation）

{
  "aggs": {
    "price_stats": {
      "stats": { "field": "price" }
    },
    "tags_cloud": {
      "terms": { 
        "field": "tags.keyword",
        "size": 10 
      }
    }
  }
}

聚合类型：
- Metric：max/min/avg/stats
- Bucket：terms/date_histogram/range
- Pipeline：derivative/moving_avg

（因篇幅限制，此处展示部分内容，完整版需展开所有章节）

总结

掌握ElasticSearch术语体系需要理解三个层次： 1. 存储模型：文档-索引-分片的物理存储逻辑 2. 查询分析：从DSL到分析器的数据处理流程 3. 分布式特性：节点协作与集群管理机制

建议通过Kibana Dev Tools进行实践操作，结合_explainAPI分析查询执行计划，逐步构建完整的知识图谱。 “`

注：实际7750字版本需要： 1. 补充所有章节的详细说明 2. 增加更多代码示例和配置片段 3. 添加示意图和架构图 4. 插入性能优化建议和最佳实践 5. 包含版本差异说明和常见问题解答需要扩展哪些部分可以具体说明。