常用监控命令总结

发布时间：2020-06-04 04:17:18 作者：不懂真人
来源：网络阅读：460

很早就想写一下，但最近太忙了，还要准备下CET-4悲催的日子...哈哈...

先写点，慢慢写吧...

一：

A：ps -l 查看属于自己这次登录的PID与相关信息列出来(只与自己的bash有关)

常用监控命令总结

F：代表这个进程标志（process flags），说明这个进程的权限，常见号码有：

1，若为4表示此进程的权限为root；

2，若为1则表示此子进程仅可进行复制（fork）而无法执行（exec）；

S：代表这个进程的状态（STAT),主要的状态有：

R（Running）：该进程正在运行中；

S（Sleep）：该进程目前正在睡眠状态（idle），但可以被唤醒（signal）；

D：不可被唤醒的状态，通常这个进程可能在等待I/O的情况（ex>打印）；

T：停止状态（stop），可能是在工作控制（后台暂停）或出错（traced）状态；

Z（Zombie）：“僵尸”状态，该进程已经终止但却无法被删除至内存外。

UID/PID/PPID:代表此进程被该UID所拥有的/进程的PID号码/此进程的父进程PID号码。

C：代表CPU使用率，单位为百分比。

PRI/IN：Priority/Nice的缩写，代表此进程被CPU所执行的优先级，数值越小代表此进程越快被CPU执行。

ADDR/SZ/WCHAN:都与内存有关，ADDR是kernel function,指出该进程在内存的哪个部分，如果是个running的进程，一般会显示“—”。SZ代表此进程用掉多少内存。WCHAN表示目前进程是否在运行中，同样，若为“—”表示正在运行中。

TTY：登录者的终端位置，若为远程登录使用动态终端接口（pts/n）。

TIME:使用CPU的时间，注意，是此进程实际花费CPU运行的时间，而不是系统时间。

CMD:就是command的缩写，造成此程序的触发进程的命令为何。

B: ps aux 查看系统所有进程数据(静态)

常用监控命令总结

USER:该进程属于哪个用户账号的；

PID:该进程的进程标识符；

%CPU:该进程使用掉的CPU资源百分比；

%MEM：该进程所占用的物理内存百分比；

VSZ:该进程所占用的虚拟内存量（KB）；

RSS:该进程所占用的固定的内存量（KB）；

TTY：该进程在哪个终端机上面运行，若与终端机无关则显示？另外，tty1~tty6是本机上面的登录者程序，若为pts/0等的，则表示为由网络连接进主机的进程；

STAT:该进程目前的状态，状态显示与ps -l的S标识相同（R/S/T/Z）；

TIME:该进程实际使用CPU的时间；

COMMAND:该进程的实际命令。

二：top (动态)

常用监控命令总结

统计信息区前五行是系统整体的统计信息。

第一行是任务队列信息，同 uptime 命令的执行结果。其内容如下：
02:44:02                    当前时间
up 21 days ,2:12           开机到目前为止所经过的时间
3 users                     当前登录用户数
0.56, 0.23, 0.32            系统负载，即任务队列的平均长度。三个数值分别为1分钟、5分钟、15分钟前到现在的平均值。

第二行为进程信息，内容如下：
Tasks: 113 total       进程总数
1 running               正在运行的进程数
112sleeping             睡眠的进程数
0 stopped               停止的进程数
0 zombie                僵尸进程数

第三行为CPU信息，当有多个CPU时，这些内容可能会超过两行。内容如下：
Cpu(s): 0.0%us                   用户空间占用CPU百分比
0.0% sy                          内核空间占用CPU百分比
0.0% ni                          用户进程空间内改变过优先级的进程占用CPU百分比
0.0% id                          空闲CPU百分比
0.0% wa                          等待输入输出(IO)的CPU时间百分比
0.0% hi                          cpu处理硬件中断的时间；
0.0% si                          cpu处理软中断的时间；

0.0% st 在虚拟环境下，处理其他作业系统占用的 cpu 时间

第四行为内存信息，内容如下：
Mem: 1034872k total          物理内存总量
974264k used                 使用的物理内存总量
60608k free                  空闲内存总量
226140k buffers              用作内核缓存的内存量

第五行为SWAP信息
Swap: 1534072k total      交换区总量
0used                     使用的虚拟内存总量
1534072k free             空闲交换区总量
548268k cached            缓冲的交换区总量。

第六行往后是进程列表，常见的这几列的意义分别为：
PID(进程号)， USER（运行用户），PR（优先级），NI（任务nice值），VIRT（虚拟内存用量），RES（物理内存用量）， SHR（共享内存用量），S（进程状态），%CPU（CPU占用比），%MEM（内存占用比），TIME+（累计CPU占用时间)。

除了这些信息之外，top还提供了很多命令能帮我们更好的解读这些信息，例如按”M”键可以按内存用量进行排序；

按”P”可以按CPU使用量进行排序，这样一来对于分析系统瓶颈很有帮助；此外，按“f”可以进入交互页面，选择指定的列显示；

”r”可以改变一个进程的nice值；”k”可以向一个进程发信号；

”z”可以使用彩色显示。进程信息区统计信息区域的下方显示了各个进程的详细信息。

首先来认识一下各列的含义。
序号    列名    含义
a    PID       进程id
b    PPID      父进程id
c    RUSER     Real user name
d    UID       进程所有者的用户id
e    USER      进程所有者的用户名
f    GROUP     进程所有者的组名
g    TTY       启动进程的终端名。不是从终端启动的进程则显示为 ?
h    PR        优先级
i    NI        nice值。负值表示高优先级，正值表示低优先级
j    P         最后使用的CPU，仅在多CPU环境下有意义
k    %CPU     上次更新到现在的CPU时间占用百分比
l    TIME     进程使用的CPU时间总计，单位秒
m    TIME+    进程使用的CPU时间总计，单位1/100秒
n    %MEM     进程使用的物理内存百分比
o    VIRT     进程使用的虚拟内存总量，单位kb。VIRT=SWAP+RES
p    SWAP     进程使用的虚拟内存中，被换出的大小，单位kb。
q    RES      进程使用的、未被换出的物理内存大小，单位kb。RES=CODE+DATA
r    CODE     可执行代码占用的物理内存大小，单位kb
s    DATA     可执行代码以外的部分(数据段+栈)占用的物理内存大小，单位kb
t    SHR      共享内存大小，单位kb
u    nFLT     页面错误次数
v    nDRT     最后一次写入到现在，被修改过的页面数。
w    S        进程状态。
x    COMMAND 命令名/命令行
y    WCHAN    若该进程在睡眠，则显示睡眠中的系统函数名
z    Flags    任务标志，参考 sched.h
             D=不可中断的睡眠状态
             R=运行
             S=睡眠
             T=跟踪/停止
             Z=僵尸进程

默认情况下仅显示比较重要的 PID、USER、PR、NI、VIRT、RES、SHR、S、% CPU、%MEM、TIME+、COMMAND 列。可以通过下面的快捷键来更改显示内容。
更改显示内容通过 f 键可以选择显示的内容。按 f 键之后会显示列的列表，按 a-z 即可显示或隐藏对应的列，最后按回车键确定。

三：last 列出目前与过去登入系统的用户相关信息。

参　　数：
　　- R: 省略 hostname 的栏位

－n：指定输出记录的条数。

－f file：指定用文件file作为查询用的log文件。

－t tty：只显示指定的虚拟控制台上登录情况。

－h 节点：只显示指定的节点上的登录情况。

－i IP：只显示指定的IP上登录的情况。

－1：用IP来显示远端地址。

－y：显示记录的年、月、日。

－ID：知道查询的用户名。

－x:显示系统关闭、用户登录和退出的历史。

补充说明：单独执行last指令，它会读取/var/log/wtmp，并把该给文件的内容记录的登入系统的用户名单全部显示出来。

last用了显示用户登录情况,以下是直接显示固定行数的记录

常用监控命令总结

四：free

常用监控命令总结

free -m 大小以M来显示

常用监控命令总结

说明：

第1行：
total 内存总数: 1034872
used 已经使用的内存数: 973820
free 空闲的内存数: 161502
shared 当前已经废弃不用，总是0
buffers 内存数: 226260
cached 内存数: 548892

第2行：
-/+ buffers/cache的意思相当于：
-buffers/cache 的内存数：198668 (等于第1行的 used - buffers - cached)
+buffers/cache 的内存数: 836204(等于第1行的 free + buffers + cached)

第3行：
total 交换分区总数: 1534072
used 已经使用的: 0
free 空闲的数: 1534072

五：Linux iostat监测IO状态

1，iostat 无参数

常用监控命令总结

以上显示分为上下两个部分，上半部分显示CPU的信息，下面的数据显示存储设备的相关数据，它的数据意义如下：
tps：平均每秒钟的传送次数，与数据传输“次数”相关，非容量
kB_read/s：启动到现在的平均读取单位
kB_wrtn/s：启动到现在的平均写入单位
kB_read：启动到现在总共读出来的文件单位
kB_wrtn：启动到现在总共写入的文件单位

2，iostat -d -k 1 2

参数 -d 表示，显示设备（磁盘）使用状态；-k某些使用block为单位的列强制使用Kilobytes为单位；1 2表示，数据显示每隔1秒刷新一次，共显

示10次。

常用监控命令总结

tps：该设备每秒的传输次数（Indicate the number of transfers per second that were issued to the device.）。“一次传输”意思是“一

次I/O请求”。多个逻辑请求可能会被合并为“一次I/O请求”。“一次传输”请求的大小是未知的。

kB_read/s：每秒从设备（drive expressed）读取的数据量；kB_wrtn/s：每秒向设备（drive expressed）写入的数据量；kB_read：读取的总数据

量；kB_wrtn：写入的总数量数据量；这些单位都为Kilobytes。

上面的例子中，我们可以看到磁盘sda以及它的各个分区的统计数据，当时统计的磁盘总TPS是39.29，下面是各个分区的TPS。（因为是瞬间值，所

以总TPS并不严格等于各个分区TPS的总和）

3，-x 参数

使用-x参数我们可以获得更多统计信息。

常用监控命令总结

rrqm/s：每秒这个设备相关的读取请求有多少被Merge了（当系统调用需要读取数据的时候，VFS将请求发到各个FS，如果FS发现不同的读取请求读

取的是相同Block的数据，FS会将这个请求合并Merge）；wrqm/s：每秒这个设备相关的写入请求有多少被Merge了。

rsec/s：每秒读取的扇区数；wsec/：每秒写入的扇区数。r/s：The number of read requests that were issued to the device per second；

w/s：The number of write requests that were issued to the device per second；

await：每一个IO请求的处理的平均时间（单位是微秒）。这里可以理解为IO的响应时间，一般地系统IO响应时间应该低于5ms，如果大于10ms就比

较大了。

%util：在统计时间内所有处理IO时间，除以总共统计时间。例如，如果统计间隔1秒，该设备有0.8秒在处理IO，而0.2秒闲置，那么该设备的%

util = 0.8/1 = 80%，所以该参数暗示了设备的繁忙程度。一般地，如果该参数是100%表示设备已经接近满负荷运行了（当然如果是多磁盘，即

使%util是100%，因为磁盘的并发能力，所以磁盘使用未必就到了瓶颈）。

4，-c 参数

iostat还可以用来获取cpu部分状态值：

常用监控命令总结

5，常见用法

iostat -d -k 1 10          #查看TPS和吞吐量信息
iostat -d -x -k 1 10      #查看设备使用率（%util）、响应时间（await）
iostat -c 1 10               #查看cpu状态

第六:vmstat

常用监控命令总结

rocs
r 列表示运行和等待cpu时间片的进程数，如果长期大于1，说明cpu不足，需要增加cpu。
b 列表示在等待资源的进程数，比如正在等待I/O、或者内存交换等。

memory
swpd 切换到内存交换区的内存数量(k表示)。如果swpd的值不为0，或者比较大，比如超过了100m，只要si、so的值长期为0，系统性能还是正常
free 当前的空闲页面列表中内存数量(k表示)
buff 作为buffer cache的内存数量，一般对块设备的读写才需要缓冲。
cache: 作为page cache的内存数量，一般作为文件系统的cache，如果cache较大，说明用到cache的文件较多，如果此时IO中bi比较小，说明文件系统效率比较好。

swap
si 由内存进入内存交换区数量。
so由内存交换区进入内存数量。

IO
bi 从块设备读入数据的总量（读磁盘）（每秒kb）。
bo 块设备写入数据的总量（写磁盘）（每秒kb）
这里我们设置的bi+bo参考值为1000，如果超过1000，而且wa值较大应该考虑均衡磁盘负载，可以结合iostat输出来分析。

system 显示采集间隔内发生的中断数
in 列表示在某一时间间隔中观测到的每秒设备中断数。
cs列表示每秒产生的上下文切换次数，如当 cs 比磁盘 I/O 和网络信息包速率高得多，都应进行进一步调查。

cpu 表示cpu的使用状态
us 列显示了用户方式下所花费 CPU 时间的百分比。us的值比较高时，说明用户进程消耗的cpu时间多，但是如果长期大于50%，需要考虑优化用户的程序。
sy 列显示了内核进程所花费的cpu时间的百分比。这里us + sy的参考值为80%，如果us+sy 大于 80%说明可能存在CPU不足。
wa 列显示了IO等待所占用的CPU时间的百分比。这里wa的参考值为30%，如果wa超过30%，说明IO等待严重，这可能是磁盘大量随机访问造成的，也可能磁盘或者磁盘访问控制器的带宽瓶颈造成的(主要

是块操作)。
id 列显示了cpu处在空闲状态的时间百分比
st 在虚拟环境下，处理其他作业系统占用的 cpu 时间

第七：mpstat

常用监控命令总结

%user 在internal时间段里，用户态的CPU时间（%），不包含 nice值为负进程 (usr/total)*100
%nice 在internal时间段里，nice值为负进程的CPU时间（%）   (nice/total)*100
%sys 在internal时间段里，核心时间（%）   (system/total)*100
%iowait 在internal时间段里，硬盘IO等待时间（%） (iowait/total)*100
%irq 在internal时间段里，硬中断时间（%）      (irq/total)*100
%soft 在internal时间段里，软中断时间（%）    (softirq/total)*100
%steal在虚拟环境下，处理其他作业系统占用的 cpu 时间
%idle 在internal时间段里，CPU除去等待磁盘IO操作外的因为任何原因而空闲的时间闲置时间（%）(idle/total)*100
%intr/s 在internal时间段里，每秒CPU接收的中断的次数intr/total)*100

常用监控命令总结

相关阅读