您现在的位置： Linux教程網 >> UnixLinux > >> Linux編程 >> Linux編程

Perf -- Linux下的系統性能調優工具，第 1 部分應用程序調優的使用和示例

Perf Event 是一款隨 Linux 內核代碼一同發布和維護的性能診斷工具，由內核社區維護和發展。Perf 不僅可以用於應用程序的性能統計分析，也可以應用於內核代碼的性能統計和分析。得益於其優秀的體系結構設計，越來越多的新功能被加入 Perf，使其已經成為一個多功能的性能統計工具集。在第一部分，將介紹 Perf 在應用程序開發上的應用。

Perf 簡介

Perf 是用來進行軟件性能分析的工具。

通過它，應用程序可以利用 PMU，tracepoint 和內核中的特殊計數器來進行性能統計。它不但可以分析指定應用程序的性能問題 (per thread)，也可以用來分析內核的性能問題，當然也可以同時分析應用代碼和內核，從而全面理解應用程序中的性能瓶頸。

最初的時候，它叫做 Performance counter，在 2.6.31 中第一次亮相。此後他成為內核開發最為活躍的一個領域。在 2.6.32 中它正式改名為 Performance Event，因為 perf 已不再僅僅作為 PMU 的抽象，而是能夠處理所有的性能相關的事件。

使用 perf，您可以分析程序運行期間發生的硬件事件，比如 instructions retired ，processor clock cycles 等；您也可以分析軟件事件，比如 Page Fault 和進程切換。

這使得 Perf 擁有了眾多的性能分析能力，舉例來說，使用 Perf 可以計算每個時鐘周期內的指令數，稱為 IPC，IPC 偏低表明代碼沒有很好地利用 CPU。Perf 還可以對程序進行函數級別的采樣，從而了解程序的性能瓶頸究竟在哪裡等等。Perf 還可以替代 strace，可以添加動態內核 probe 點，還可以做 benchmark 衡量調度器的好壞。。。

人們或許會稱它為進行性能分析的“瑞士軍刀”，但我不喜歡這個比喻，我覺得 perf 應該是一把世間少有的倚天劍。

金庸筆下的很多人都有對寶刀的癖好，即便本領低微不配擁有，但是喜歡，便無可奈何。我恐怕正如這些人一樣，因此進了酒館客棧，見到相熟或者不相熟的人，就要興沖沖地要講講那倚天劍的故事。

背景知識

有些背景知識是分析性能問題時需要了解的。比如硬件 cache；再比如操作系統內核。應用程序的行為細節往往是和這些東西互相牽扯的，這些底層的東西會以意想不到的方式影響應用程序的性能，比如某些程序無法充分利用 cache，從而導致性能下降。比如不必要地調用過多的系統調用，造成頻繁的內核 / 用戶切換。等等。方方面面，這裡只是為本文的後續內容做一些鋪墊，關於調優還有很多東西，我所不知道的比知道的要多的多。

性能相關的處理器硬件特性，PMU 簡介

當算法已經優化，代碼不斷精簡，人們調到最後，便需要斤斤計較了。cache 啊，流水線啊一類平時不大注意的東西也必須精打細算了。

硬件特性之 cache

內存讀寫是很快的，但還是無法和處理器的指令執行速度相比。為了從內存中讀取指令和數據，處理器需要等待，用處理器的時間來衡量，這種等待非常漫長。Cache 是一種 SRAM，它的讀寫速率非常快，能和處理器處理速度相匹配。因此將常用的數據保存在 cache 中，處理器便無須等待，從而提高性能。Cache 的尺寸一般都很小，充分利用 cache 是軟件調優非常重要的部分。

硬件特性之流水線，超標量體系結構，亂序執行

提高性能最有效的方式之一就是並行。處理器在硬件設計時也盡可能地並行，比如流水線，超標量體系結構以及亂序執行。

處理器處理一條指令需要分多個步驟完成，比如先取指令，然後完成運算，最後將計算結果輸出到總線上。在處理器內部，這可以看作一個三級流水線，如下圖所示：

圖 1. 處理器流水線

指令從左邊進入處理器，上圖中的流水線有三級，一個時鐘周期內可以同時處理三條指令，分別被流水線的不同部分處理。

超標量（superscalar）指一個時鐘周期發射多條指令的流水線機器架構，比如 Intel 的 Pentium 處理器，內部有兩個執行單元，在一個時鐘周期內允許執行兩條指令。

此外，在處理器內部，不同指令所需要的處理步驟和時鐘周期是不同的，如果嚴格按照程序的執行順序執行，那麼就無法充分利用處理器的流水線。因此指令有可能被亂序執行。

上述三種並行技術對所執行的指令有一個基本要求，即相鄰的指令相互沒有依賴關系。假如某條指令需要依賴前面一條指令的執行結果數據，那麼 pipeline 便失去作用，因為第二條指令必須等待第一條指令完成。因此好的軟件必須盡量避免這種代碼的生成。

硬件特性之分支預測

分支指令對軟件性能有比較大的影響。尤其是當處理器采用流水線設計之後，假設流水線有三級，當前進入流水的第一條指令為分支指令。假設處理器順序讀取指令，那麼如果分支的結果是跳轉到其他指令，那麼被處理器流水線預取的後續兩條指令都將被放棄，從而影響性能。為此，很多處理器都提供了分支預測功能，根據同一條指令的歷史執行記錄進行預測，讀取最可能的下一條指令，而並非順序讀取指令。

分支預測對軟件結構有一些要求，對於重復性的分支指令序列，分支預測硬件能得到較好的預測結果，而對於類似 switch case 一類的程序結構，則往往無法得到理想的預測結果。

上面介紹的幾種處理器特性對軟件的性能有很大的影響，然而依賴時鐘進行定期采樣的 profiler 模式無法揭示程序對這些處理器硬件特性的使用情況。處理器廠商針對這種情況，在硬件中加入了 PMU 單元，即 performance monitor unit。

PMU 允許軟件針對某種硬件事件設置 counter，此後處理器便開始統計該事件的發生次數，當發生的次數超過 counter 內設置的值後，便產生中斷。比如 cache miss 達到某個值後，PMU 便能產生相應的中斷。

捕獲這些中斷，便可以考察程序對這些硬件特性的利用效率了。

Tracepoints

Tracepoint 是散落在內核源代碼中的一些 hook，一旦使能，它們便可以在特定的代碼被運行到時被觸發，這一特性可以被各種 trace/debug 工具所使用。Perf 就是該特性的用戶之一。

假如您想知道在應用程序運行期間，內核內存管理模塊的行為，便可以利用潛伏在 slab 分配器中的 tracepoint。當內核運行到這些 tracepoint 時，便會通知 perf。

Perf 將 tracepoint 產生的事件記錄下來，生成報告，通過分析這些報告，調優人員便可以了解程序運行時期內核的種種細節，對性能症狀作出更准確的診斷。

更多詳情見請繼續閱讀下一頁的精彩內容： http://www.linuxidc.com/Linux/2015-02/112912p2.htm

上一篇文章： Linux沙箱(2): seccomp sandbox
下一篇文章： Linux-2.6.21 pi futex關鍵數據結構關系圖及lock流程

Linux編程

提高Linux系統性能加速網絡應用程序

Linux上經常使用的應用程序集合

Linux應用程序開發示例：LED燈定時閃爍

Linux之Linux使用示例

在 linux 下使用 CMake 構建應用程序

Linux系統性能分析工具的使用

在linux下使用CMake構建應用程序

Linux應用程序基礎，linux應用程序

Linux編程

SHELL編程

PERL編程

Perf -- Linux下的系統性能調優工具，第 1 部分 應用程序調優的使用和示例

Perf 簡介

背景知識

性能相關的處理器硬件特性，PMU 簡介

硬件特性之 cache

硬件特性之流水線，超標量體系結構，亂序執行

圖 1. 處理器流水線

硬件特性之分支預測

Tracepoints

Linux編程

Perf -- Linux下的系統性能調優工具，第 1 部分應用程序調優的使用和示例