Linux教程網 >> Linux基礎 >> Linux教程 >> Linux性能監控 - CPU、Memory、IO、Network

Linux性能監控 - CPU、Memory、IO、Network

日期：2017/2/28 13:55:08 编辑：Linux教程

一、CPU

良好狀態指標

CPU利用率：User Time <= 70%，System Time <= 35%，User Time + System Time <= 70%。

上下文切換：與CPU利用率相關聯，如果CPU利用率狀態良好，大量的上下文切換也是可以接受的。

可運行隊列：每個處理器的可運行隊列<=3個線程。

監控工具

vmstat

$ vmstat 1

先看一個字段能對齊的：

下面的是別人服務器的情況：

procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------

r b swpd free buff cache si so bi bo in cs us sy id wa st

14 0 140 2904316 341912 3952308 0 0 0 460 1106 9593 36 64 1 0 0

17 0 140 2903492 341912 3951780 0 0 0 0 1037 9614 35 65 1 0 0

20 0 140 2902016 341912 3952000 0 0 0 0 1046 9739 35 64 1 0 0

17 0 140 2903904 341912 3951888 0 0 0 76 1044 9879 37 63 0 0 0

16 0 140 2904580 341912 3952108 0 0 0 0 1055 9808 34 65 1 0 0

重要參數：

r，run queue，可運行隊列的進程數，這些進程都是可運行狀態，只不過CPU暫時不可用。

b，被blocked的進程數，正在等待IO請求。

in，interrupts，被處理過的中斷數。

cs，context switch，系統上正在做上下文切換的數目。

us，用戶占用CPU的百分比。

sys，內核和中斷占用CPU的百分比。

id，CPU完全空閒的百分比。

上例可得：

sy高us低，以及高頻度的上下文切換（cs），說明應用程序進行了大量的系統調用。

這台4核機器的r應該在12個以內，現在r在14個線程以上，此時CPU負荷很重。

查看某個進程占用的CPU資源

$ while :; do ps -eo pid,ni,pri,pcpu,psr,comm | grep 'db_server_login'; sleep 1; done

PID NI PRI %CPU PSR COMMAND

28577 0 23 0.0 0 db_server_login

28578 0 23 0.0 3 db_server_login

28579 0 23 0.0 2 db_server_login

28581 0 23 0.0 2 db_server_login

28582 0 23 0.0 3 db_server_login

28659 0 23 0.0 0 db_server_login

……

二、Memory

良好狀態指標

swap in （si） == 0，swap out （so） == 0

應用程序可用內存/系統物理內存 <= 70%

監控工具

vmstat

$ vmstat 1

procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------

r b swpd free buff cache si so bi bo in cs us sy id wa st

0 3 252696 2432 268 7148 3604 2368 3608 2372 288 288 0 0 21 78 1

0 2 253484 2216 228 7104 5368 2976 5372 3036 930 519 0 0 0 100 0

0 1 259252 2616 128 6148 19784 18712 19784 18712 3821 1853 0 1 3 95 1

1 2 260008 2188 144 6824 11824 2584 12664 2584 1347 1174 14 0 0 86 0

2 1 262140 2964 128 5852 24912 17304 24952 17304 4737 2341 86 10 0 0 4

重要參數：

swpd，已使用的 SWAP 空間大小，KB 為單位。

free，可用的物理內存大小，KB 為單位。

buff，物理內存用來緩存讀寫操作的buffer大小，KB 為單位。

cache，物理內存用來緩存進程地址空間的 cache 大小，KB 為單位。

si，數據從 SWAP 讀取到 RAM（swap in）的大小，KB 為單位；

so，數據從 RAM 寫到 SWAP（swap out）的大小，KB 為單位。

上例可得：

物理可用內存 free 基本沒什麼顯著變化，swapd逐步增加，說明最小可用的內存始終保持在 256MB(物理內存大小) * 10％ = 2.56MB 左右，當髒頁達到10％的時候就開始大量使用swap。

free

$ free -m

total used free shared buffers cached

Mem: 8111 7185 926 0 243 6299

-/+ buffers/cache: 643 7468

Swap: 8189 0 8189

三、磁盤IO

良好狀態指標

iowait % < 20%

提高命中率的一個簡單方式就是增大文件緩存區面積，緩存區越大預存的頁面就越多，命中率也越高。

Linux 內核希望能盡可能產生次缺頁中斷（從文件緩存區讀），並且能盡可能避免主缺頁中斷（從硬盤讀），這樣隨著次缺頁中斷的增多，文件緩存區也逐步增大，直到系統只有少量可用物理內存的時候 Linux 才開始釋放一些不用的頁。

監控工具

查看物理內存和文件緩存情況

$ cat /proc/meminfo

MemTotal: 8182776 kB

MemFree: 3053808 kB

Buffers: 342704 kB

Cached: 3972748 kB

這台服務器總共有 8GB 物理內存（MemTotal），3GB 左右可用內存（MemFree），343MB左右用來做磁盤緩存（Buffers），4GB左右用來做文件緩存區（Cached）。

sar

$ sar -d 2 3

Linux 2.6.9-42.ELsmp (webserver) 11/30/2008 _i686_ (8 CPU)

11:09:33 PM DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util

11:09:35 PM dev8-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

11:09:35 PM DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util

11:09:37 PM dev8-0 1.00 0.00 12.00 12.00 0.00 0.00 0.00 0.00

11:09:37 PM DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util

11:09:39 PM dev8-0 1.99 0.00 47.76 24.00 0.00 0.50 0.25 0.05

Average: DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util

Average: dev8-0 1.00 0.00 19.97 20.00 0.00 0.33 0.17 0.02

重要參數：

await表示平均每次設備I/O操作的等待時間（以毫秒為單位）。

svctm表示平均每次設備I/O操作的服務時間（以毫秒為單位）。

%util表示一秒中有百分之幾的時間用於I/O操作。

如果svctm的值與await很接近，表示幾乎沒有I/O等待，磁盤性能很好，如果await的值遠高於svctm的值，則表示I/O隊列等待太長，系統上運行的應用程序將變慢。

如果%util接近100%，表示磁盤產生的I/O請求太多，I/O系統已經滿負荷的在工作，該磁盤可能存在瓶頸。

四、Network IO

對於UDP

良好狀態指標

接收、發送緩沖區沒有長時間等待處理的網絡包。

監控工具

netstat

對於UDP服務，查看所有監聽的UDP端口的網絡情況

$ watch netstat -lunp

Proto Recv-Q Send-Q Local Address Foreign Address State PID/Program name

udp 0 0 0.0.0.0:64000 0.0.0.0:* -

udp 0 0 0.0.0.0:38400 0.0.0.0:* -

udp 0 0 0.0.0.0:38272 0.0.0.0:* -

udp 0 0 0.0.0.0:36992 0.0.0.0:* -

udp 0 0 0.0.0.0:17921 0.0.0.0:* -

udp 0 0 0.0.0.0:11777 0.0.0.0:* -

udp 0 0 0.0.0.0:14721 0.0.0.0:* -

udp 0 0 0.0.0.0:36225 0.0.0.0:* -

RecvQ、SendQ為0，或者沒有長時間大於0的數值是比較正常的。

對於UDP服務，查看丟包情況（網卡收到了，但是應用層沒有處理過來造成的丟包）

$ watch netstat -su

Udp:

278073881 packets received

4083356897 packets to unknown port received.

2474435364 packet receive errors

1079038030 packets sent

packet receive errors 這一項數值增長了，則表明在丟包。

對於TCP

良好狀態指標

對於TCP而言，不會出現因為緩存不足而存在丟包的事，因為網絡等其他原因，導致丟了包，協議層也會通過重傳機制來保證丟的包到達對方。

所以，tcp而言更多的專注重傳率。

監控工具

# cat /proc/net/snmp | grep Tcp:

Tcp: RtoAlgorithm RtoMin RtoMax MaxConn ActiveOpens PassiveOpens AttemptFails EstabResets CurrEstab InSegs OutSegs RetransSegs InErrs OutRsts

Tcp: 1 200 120000 -1 105112 76272 620 23185 6 2183206 2166093 550 6 968812

重傳率 = RetransSegs / OutSegs

至於這個值在多少范圍內，算ok的，得看具體的業務了。

業務側更關注的是響應時間。

Linux教程

硬盤主引導記錄MBR結構詳解

硬盤

基於Kickstart自動化安裝CentOS實踐

Linux 按任意鍵繼續而不必等回車

Linux入門教程(精華基礎版)（87）

Linux入門教程(精華基礎版)（123）

Linux負載均衡軟件LVS配置篇

Linux RAID 配置和 LVM 分區配置

Linux重定向及nohup不輸出的方法

Ubuntu下安裝音樂標簽編輯軟件Kid3 3.1

Linux教程網

linux 基礎知識學習（七）

1、創建一個10G分區，並格式為ext4文件系統；(1) 要求其block大小為2048, 預

靜態方法和實例化方法的區別

通過nfs服務掛載根文件系統

在 FC5下面如何開啟 HTTP？

讓Linux懂得為你開門—LINUX系統的自動作業控制

Linux下Squid代理服務器的架設與維護(二)

ubuntu下安裝美化Fcitx輸入法

Ubuntu 14.04安裝Matlab2012a過程

Android開發中網絡請求的壓縮 ── GZip的使用

Linux基礎知識 Linux入門 Linux技術 Linux教程 Linux服務器關於Linux

文章推荐

理解Linux的啟動過程（一）

　　從按下PC電源，到出現熟悉的bas

使用easy

Facebook代碼審核工具Phabricator使用指南——Audit

Linux上安裝weblogic12C（靜默安裝）

热点聚焦

Linux不能成為廉價的替代品

Windows 下使用 Vagrant 來管理 Linux 虛機開發環境

Linux 環境下運行STS時出現must be available in order to run STS

Ubuntu下使用3D桌面提高工作效率的經驗

Ubuntu 11.10 安裝 Gnome 3.2 是如此容易

Linux學習筆記（一）——認識linux和主機

紅旗Linux6.0桌面版系統自帶游戲（圖）

Linux sed常規用法小結

如何實現yum源的創建

送給linux愛好者的幾句忠言