Apache Pulsar 与 Kafka 延迟性比较的测试过程是怎么样的

发布时间：2021-12-15 11:02:21 作者：柒染
来源：亿速云阅读：245

# Apache Pulsar 与 Kafka 延迟性比较的测试过程是怎么样的

## 引言

在分布式消息系统的选型中，**消息传递延迟（Latency）**是核心性能指标之一。Apache Pulsar 和 Apache Kafka 作为两大主流消息中间件，其延迟表现直接影响实时数据处理场景的适用性。本文将详细剖析两者的延迟测试方法论，涵盖测试环境设计、工具选择、参数配置、结果分析等关键环节，为技术选型提供数据支撑。

---

## 一、测试目标与核心指标定义

### 1.1 测试目标
- 量化对比 Pulsar 与 Kafka 在相同硬件条件下的**端到端延迟（End-to-End Latency）**
- 分析不同消息吞吐量、消息大小、持久化策略对延迟的影响
- 验证 Pulsar 的**分层存储（Tiered Storage）**与 Kafka 的**日志压缩（Log Compaction）**对尾部延迟（Tail Latency）的影响

### 1.2 关键延迟指标
| 指标                | 定义                                   |
|---------------------|----------------------------------------|
| 平均延迟            | 消息从生产到消费的平均时间             |
| P99/P999延迟        | 99%/99.9%分位的延迟值（反映长尾效应）  |
| 最大延迟            | 测试周期内观测到的最大延迟值           |

---

## 二、测试环境设计与配置

### 2.1 硬件配置
```plaintext
- 服务器：3台 AWS EC2 c5.2xlarge（8 vCPUs, 16GB RAM）
- 网络：同可用区部署，平均网络延迟 <0.1ms
- 存储：EBS gp3 (3000 IOPS, 125MB/s吞吐)

2.2 软件版本

组件	版本	关键配置
Apache Pulsar	2.11.0	`brokerDeduplicationEnabled=true`
Apache Kafka	3.4.0	`log.flush.interval.messages=1000`

2.3 集群拓扑

Pulsar集群：3 Broker + 3 BookKeeper节点（分离部署）
Kafka集群：3 Broker（同时承担存储角色）

三、测试工具与工作负载设计

3.1 测试工具选择

OpenMessaging Benchmark (OMB)：支持多协议的标准压测工具
自定义脚本：Python + confluent_kafka/pulsar-client SDK 补充测试

3.2 工作负载模式

# 消息生产模式示例（OMB配置文件片段）
workload:
  name: "latency-test"
  topics: 1
  partitions: 3
  messageSize: 1024  # 1KB 典型消息大小
  producersPerTopic: 2
  consumersPerTopic: 2
  producerRate: 10000  # 消息数/秒

3.3 测试场景矩阵

场景ID	消息大小	吞吐量(msg/s)	持久化策略
S1	1KB	10,000	Pulsar:异步写入 BookKeeper
S2	10KB	5,000	Kafka: `acks=1`
S3	100KB	1,000	Pulsar: 分层存储开启

四、测试执行过程

4.1 基准测试（Baseline）

预热阶段：持续5分钟的低负载运行（20%峰值吞吐）
数据采集阶段：每个场景运行30分钟，记录延迟直方图
冷存储测试：手动触发 Pulsar 分层存储卸载（验证冷读延迟）

4.2 关键操作记录

# 启动OMB测试（Pulsar示例）
./bin/benchmark \
    --drivers driver-pulsar/pulsar.yaml \
    --workloads workloads/latency-test.yaml

4.3 监控指标采集

Broker级别：CPU利用率、JVM GC时间、网络IO
存储层：BookKeeper写入延迟、Kafka Log Flush 耗时
客户端：生产/消费线程池队列深度

五、测试结果分析

5.1 延迟数据对比（场景S1）

系统	平均延迟	P99延迟	P999延迟
Pulsar	3.2ms	12ms	45ms
Kafka	2.8ms	25ms	210ms

Apache Pulsar 与 Kafka 延迟性比较的测试过程是怎么样的
（注：该图为示例，实际测试需生成真实图表）

5.2 长尾延迟归因分析

Kafka高P999延迟：与日志段（Log Segment）滚动和ISR同步机制相关
Pulsar表现稳定：受益于计算与存储分离架构，写入压力不影响读取

5.3 吞吐量对延迟的影响

吞吐量(msg/s)	Pulsar P99	Kafka P99
5,000	8ms	15ms
20,000	18ms	85ms
50,000	53ms	320ms

六、影响因素深度探讨

6.1 架构差异的影响

特性	Pulsar	Kafka
存储模型	分层存储（Hot/Warm/Cold）	本地日志文件
写入路径	先写BookKeeper再响应	先写Page Cache再异步刷盘
消费模型	多订阅模式支持	单一消费者组模型

6.2 配置优化建议

Pulsar优化：调整 managedLedgerMaxSize 控制 BookKeeper ledger 分片
Kafka优化：设置 num.replica.fetchers=4 提升副本同步速度

七、结论与建议

低吞吐场景（<10K msg/s）：两者延迟差异较小（<5ms）
高吞吐场景：Pulsar 表现更稳定，Kafka 需谨慎调优
严格SLA要求：优先考虑 Pulsar 的分层存储能力

生产环境建议：实际测试应模拟业务真实消息模式，并关注故障场景下的延迟抖动（如Broker重启、网络分区）。

附录

”`

注：本文为技术测试方案模板，实际执行需根据具体环境调整参数。建议结合Grafana/Prometheus监控数据生成可视化图表以增强说服力。

Apache Pulsar 与 Kafka 延迟性比较的测试过程是怎么样的

2.2 软件版本

2.3 集群拓扑

三、测试工具与工作负载设计

3.1 测试工具选择

3.2 工作负载模式

3.3 测试场景矩阵

四、测试执行过程

4.1 基准测试（Baseline）

4.2 关键操作记录

4.3 监控指标采集

五、测试结果分析

5.1 延迟数据对比（场景S1）

5.2 长尾延迟归因分析

5.3 吞吐量对延迟的影响

六、影响因素深度探讨

6.1 架构差异的影响

6.2 配置优化建议

七、结论与建议

附录

相关阅读