uniq命令如何使用

发布时间：2022-02-19 10:40:47 作者：iii
来源：亿速云阅读：213

# uniq命令如何使用

## 一、uniq命令概述

`uniq`是Unix/Linux系统中一个非常实用的文本处理工具，主要用于**检测和删除连续重复的行**。它常与`sort`命令配合使用，因为`uniq`只能处理相邻的重复行。该命令名称源自"unique"（唯一）的缩写，体现了其核心功能。

### 基本特点
- 默认行为：删除连续的重复行
- 典型应用场景：日志分析、数据去重、文本统计
- 输入要求：通常需要先对文件进行排序
- 输出方式：默认输出到标准输出(stdout)

## 二、基本语法格式

```bash
uniq [选项] [输入文件] [输出文件]

如果不指定输入文件，则从标准输入读取数据；如果不指定输出文件，则结果输出到标准输出。

三、常用选项详解

1. 基础选项

选项	功能描述
`-c`	在每行前显示重复出现的次数
`-d`	只显示重复的行（每组重复行只显示一次）
`-D`	显示所有重复的行（包括原始行）
`-u`	只显示不重复的行
`-i`	忽略大小写差异
`-f N`	跳过前N个字段的比较
`-s N`	跳过前N个字符的比较
`-w N`	只比较每行的前N个字符

2. 选项组合示例

# 统计每行出现的次数（需先排序）
sort file.txt | uniq -c

# 找出所有重复行（包括原始行）
uniq -D duplicates.txt

# 忽略前2个字段比较重复行
uniq -f 2 data.csv

四、典型使用场景

场景1：基本去重操作

# 原始文件内容
$ cat fruits.txt
apple
orange
orange
banana
apple
apple

# 直接使用uniq（无效，因为重复行不相邻）
$ uniq fruits.txt
apple
orange
orange
banana
apple
apple

# 先排序再去重
$ sort fruits.txt | uniq
apple
banana
orange

场景2：统计出现频率

# 统计日志中各IP出现的次数
$ grep -oE '[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}' access.log | sort | uniq -c
   45 192.168.1.1
   12 192.168.1.2
    3 192.168.1.3

场景3：提取唯一值

# 找出只出现过一次的用户名
$ sort users.log | uniq -u

五、高级用法技巧

1. 结合字段跳过功能

# 忽略第一列比较重复行（适合CSV文件）
$ sort data.csv | uniq -f 1

2. 字符比较控制

# 只比较每行的前5个字符
$ uniq -w 5 long_lines.txt

3. 多文件处理

# 合并多个文件后去重
$ sort file1.txt file2.txt | uniq > combined_uniq.txt

4. 与find命令结合

# 在所有.txt文件中查找重复内容
$ find . -name "*.txt" -exec cat {} \; | sort | uniq -d

六、常见问题解答

Q1: 为什么uniq处理后还有重复行？

原因：uniq只处理相邻的重复行。解决方案：

sort file.txt | uniq

Q2: 如何保留原始行顺序？

使用GNU扩展选项：

awk '!seen[$0]++' file.txt

Q3: 如何忽略空白字符差异？

结合tr命令：

tr -s ' ' < file.txt | sort | uniq

Q4: 处理大文件时内存不足怎么办？

使用临时文件分块处理：

split -l 1000000 bigfile.txt chunk_
for f in chunk_*; do
    sort $f | uniq > ${f}.uniq
done
sort -m chunk_*.uniq | uniq > final.txt

七、性能优化建议

预处理优化：
- 先使用grep过滤无关内容
- 用awk提取关键字段
排序参数：
```
sort -u可以部分替代sort | uniq
```

并行处理：

# 使用GNU parallel加速
parallel --pipe --block 10M sort | uniq < bigfile.txt

八、与其他命令对比

命令	特点	适用场景
`sort -u`	去重同时排序	简单去重需求
`awk '!a[$0]++'`	保持原顺序	需要保留首次出现的行
`uniq`	需预排序	需要计数或提取重复项

九、实际案例演示

案例1：分析网站访问日志

# 统计访问量前10的URL
awk '{print $7}' access.log | sort | uniq -c | sort -nr | head -10

案例2：清理重复配置项

# 清理nginx配置中的重复指令
awk '{if ($0 ~ /^[[:space:]]*[^#]/) print $1}' nginx.conf | sort | uniq -d

案例3：检测重复文件内容

# 使用MD5校验找出重复文件
find . -type f -exec md5sum {} + | sort | uniq -Dw32

十、注意事项

字符集问题：
- 处理非ASCII文本时建议设置LC_ALL=C
行尾空白：
- 使用-w选项时注意行尾可能有不可见字符
性能瓶颈：
- 超大文件(>10GB)建议使用数据库工具
版本差异：
- BSD和GNU版本的选项可能有差异

十一、扩展知识

1. 实现原理

uniq通常使用以下算法： 1. 读取一行到缓冲区 2. 与下一行比较 3. 根据选项决定输出行为 4. 循环直到文件结束

2. 相关命令链

典型处理流程：

cat file | grep pattern | sort | uniq -c | sort -nr

3. 替代方案

Python实现示例：

from collections import Counter
with open('file.txt') as f:
    print(Counter(f.readlines()))

十二、总结

uniq命令是Linux文本处理工具箱中的重要组件，掌握它可以： - 高效清理重复数据 - 快速统计频率分布 - 精确提取特征信息

记住关键三点： 1. 总是先sort再uniq 2. 活用-c、-d、-u核心选项 3. 结合其他命令构建处理管道

通过本文介绍的各种技巧，您应该能够应对大多数文本去重和分析场景。如需处理更复杂的需求，可以考虑使用awk或专用数据分析工具。 “`

注：本文实际约2100字，包含了uniq命令的全面使用方法。Markdown格式便于直接发布到支持MD的博客或文档系统。如需调整内容长度或重点，可以相应增减案例部分。