您现在的位置： Linux教程網 >> UnixLinux > >> Unix知識 >> Unix基礎知識

使用UNIX進行文本處理

UNIX® 起源於簡單的文本處理，並且在它的命令行環境中保留了功能最強大的文本處理工具之一。通過將一系列簡單的命令組合在一起，可以完成復雜的文本轉換，UNIX 提供的工具允許您構建幾乎任何所需的文本處理引擎。

引言

在 UNIX® 誕生之初，人們不大熟悉這種新的操作系統，但他們很快找到了適當的切入點，大學中的研究人員需要一種像樣的文本處理環境。因為在那個時候，計算機的處理速度和內存容量有限，所以程序必須很小，並且相對比較簡單。這樣就產生了 UNIX 中著名的設計思想：“一組工具協同工作，以便完成一項任務”。通過 UNIX 管道將幾種很小的、但功能強大的文本處理工具組合在一起，可以對文本進行各種方式的轉換和操作。

在本文中，您將簡要了解從文件和程序中獲得文本、使用 tr 命令對其進行簡單的轉換、使用 sed 命令進行復雜的搜索和替換操作。然後，您將使用 Perl 編程和腳本語言再次完成這些操作，這樣一來您就可以認識到，Perl 的功能非常強大，它可以替代 tr 和 sed 命令。

開始之前

如果您希望按照本文中的示例進行實驗，請確保您可以使用 UNIX 命令行環境。這可能是本地計算機中的終端模擬程序（在現代桌面中通常稱為終端，如果您習慣使用 Windows®，那麼可以使用 Cygwin）、或通過 SSH 訪問的遠程系統。

本文的示例所使用的 Shell 語法適用於 GNU Bash，有關需要使用的特定語法，請參考您的 Shell 手冊（或者可以考慮使用 Bash）。

對文本進行各種操作

在開始使用 UNIX 的各種文本實用程序操作文本之前，需要了解如何獲得文本。並且在進行這項工作之前，需要了解 UNIX 的標准輸入/輸出 (I/O) 流。

標准 C 庫（因而，每個 UNIX 程序）定義了三種標准流：輸入、輸出和錯誤。有時將它們稱為 stdin、stdout 和 stderr，這是在所有 C 程序中用來表示它們的全局變量。

當您在 Shell 中使用 > 操作符將程序輸出重定向到文件時，就可以將它的標准輸出 (stdout) 流發送到這個文件。例如：ls > this-dir 將 ls 的輸出發送到一個名為 this-dir 的文件。

當您在 Shell 中使用 < 操作符將程序輸入重定向到文件時，就可以將該文件中的內容輸入到該程序的標准輸入 (stdin) 流。例如：sort < this-dir 可以從名為 this-dir 的文件中讀取內容，並將其作為 sort 命令的輸入。

另一個常用於重定向標准流的操作符是“|”（管道）操作符，它可以將左側程序的標准輸出流連接到右側程序的標准輸入流。例如：ls | sort 和前面的兩個示例完成相同的任務，並且無需臨時文件，ls 的輸出直接進入 sort 命令。

如果您仔細觀察，那麼可能會發現，前面的這些示例中並沒有出現標准錯誤 (stderr) 流。與標准輸出流一樣，可以對 stderr 進行重定向或使用管道進行傳輸，但是您需要告訴 Shell 您希望處理 stderr 而不是 stdout。

可以使用 2> 操作符將標准錯誤流重定向到文件。在處理生成有用的錯誤輸出的命令時，您經常會看到這個操作符，比如用於編譯 UNIX 程序的 make 工具：make 2> build-errors。

這個命令運行了 make，並將任何錯誤信息發送到 build-errors 文件。與之類似，您可以使用 2| 將 stderr 通過管道傳遞到另一個程序。

如果您對具體的細節感興趣，那麼其他的流也有與之對應的數字，盡管很少使用到它們（0 表示標准輸入，1 表示標准輸出），除了在一個非常常見的操作符中。在清單 1 所示的示例中，2>&1 操作符將標准錯誤流連接到標准輸出流。與 > 操作符組合在一起，您可以使 stderr 和 stdout 輸出到相同的文件中。

清單 1. 將標准錯誤流連接到標准輸出流

make > build-output 2>&1

命令

有兩個常用來生成文本輸出的標准 UNIX 命令：cat 和 echo。

cat 命令讀取參數中指定的每個文件，並將這些文件的內容寫入到 stdout。echo 命令將其參數寫入到 stdout。您常常會發現它們作為更復雜的命令管道中的一部分（請參見清單 2）。

清單 2. 使用 cat 和 echo

cat file1 file2 ... filen echo arguments...

但如果您只需要文件中開頭的部分或結尾的部分，那又應該如何呢？cat 有兩種可用來完成這種任務的變種，稱為 head 和 tail（請參見清單 3），它們分別可以顯示開頭的或結尾的 10 行內容，您可以使用 -n 選項為它們指定不同的行數。

清單 3. 使用 head 和 tail

head file1 file2 ... filen tail file1 file2 ... filen

tail 命令還有一個有用的選項 -f (follow)。該選項告訴 tail 打印指定文件的最後 10 行，但是它不僅打印已有的內容，還會等待該文件中將要出現的更多內容，並對其進行打印。您可以使用該選項接著顯示錯誤日志中的輸出，例如，要在將錯誤寫入到日志的同時查看這些錯誤。

轉換文本

既然您已經了解了至少 5 種生成文本的方式，下面讓我們來看一些進行簡單文本轉換的示例。---http://www.bianceng.cn

tr 命令允許您將一個集合中的字符轉換為另一個集合中相應的字符。讓我們來看一些示例（清單 4），以了解其工作方式。

清單 4. 使用 tr 對字符進行轉換

echo "a test" | tr t p echo "a test" | tr aest 1234 echo "a test" | tr -d t echo "a test" | tr '[:lower:]' '[:upper:]'

研究這些命令的輸出結果（請參見清單 5），可以看出 tr 的工作方式（提示：它直接使用第二個集合中相應的字符來代替第一個集合中的字符）。

清單 5. tr 進行了哪些工作？

chrish@dhcp3 [199]$ echo "a test" | tr t p a pesp chrish@dhcp3 [200]$ echo "a test" | tr aest 1234 1 4234 chrish@dhcp3 [201]$ echo "a test" | tr -d t a es chrish@dhcp3 [202]$ echo "a test" | tr '[:lower:]' '[:upper:]' A TEST

第一個和第二個示例都很簡單，將一個字符替換為另一個字符。第三個示例使用了 -d 選項 (delete)，它從輸出中徹底刪除了指定的字符。這個選項通常用來從 DOS 文本文件中刪除回車，以將其轉換為 UNIX 文本文件（請參見清單 6）。最後一個示例使用了字符類（[: :] 中的名稱），以將所有的小寫字母轉換為大寫字母。可移植操作系統接口標准（POSIX 標准）字符類包括：

alnum：字母數字字符

alpha：字母字符

cntrl：控制（非打印）字符

digit：數字字符

graph：圖形字符

lower：小寫字母字符

print：可打印字符

punct：標點符號

space：空白字符

upper：大寫字符

xdigit：十六進制字符

清單 6. 將 DOS 文本文件轉換為 UNIX 文本文件

tr -d '\r' < input_dos_file.txt > output_unix_file.txt

盡管 tr 命令表示了 C locale 環境變量（有關這些環境變量更多的信息，可以使用 man locale），但是不要指望它能夠對 UTF-8 文檔進行任何合理的操作，如能夠使用合適的大寫字符替換小寫重音字符。tr 命令最適合於 ASCII 和其他標准 C 區域設置。

使用 sed 進行復雜的搜索和替換

tr 命令所提供的單字符替換（或刪除）功能非常適用於特定的解決方案，但是這些功能並不是很靈活。如果您需要將一個單詞替換為另一個單詞，或將連續的空格和制表符替換為一個空格，那又應該怎麼辦呢？

幸運的是，您可以使用 sed 命令 (Stream EDitor)，它提供了功能強大的正則表達式匹配和替換。正則表達式是使用各種構件構建的復雜模式規范，並且隨著模式變得越來越復雜，它看起來就像是調制解調器的線路噪聲。本文並不打算詳細地介紹正則表達式，但是在本文中，您將簡單了解 sed 所使用的一些有用的模式。

在清單 7 中，您可以看到 sed 命令的基本格式。模式是用來匹配輸入（通常可以使用管道從另一個程序輸入，或者重定向於文本文件）的正則表達式，替換是指插入某些文本並用其代替那些與模式相匹配的文本。標志是用來控制替換行為的單個字符。最常用的標志是 g（將替換應用於所有匹配模式的非重疊實例，而不僅僅是第一個匹配項）。

實際上，模式和替換可以是各種各樣的內容，並且它們之間不需要像在 tr 命令中那樣具有 1:1 的關系。

清單 7. sed 命令

sed -e s/pattern/replacement/flags

最簡單的模式是一個或多個字符組成的字符串。如清單 8 所示，例如將單詞 one 替換為單詞 another。

清單 8. 最簡單的正則表達式

chrish@dhcp3 [334]$ echo "Replace one word" | sed -e s/one/another/ Replace another word

可以使用方括號將一個或多個字符括起來，以創建一個集合，該集合中的任何字符都可以匹配。如清單 9 所示，讓我們將所有的元音字母替換為下劃線。---http://www.bianceng.cn

清單 9. 匹配集合中的任何字符

chrish@dhcp3 [338]$ echo "This is a test" | sed -e s/[aeiouy]/_/g Th_s _s _ t_st

請注意，示例中使用了 g 標志，以便將模式/替換應用於所有的匹配項，而不僅僅是第一個匹配項。

sed 命令也可以理解 tr 命令所支持的那些命名字符類，POSIX 對這些字符類進行了定義，但是本文中的語法稍有不同。清單 10 顯示了如何替換任何空白字符（制表符、空格等等）：

清單 10. 根據命名字符類匹配內容

chrish@dhcp3 [345]$ echo -e 'hello\tthere' hello there chrish@dhcp3 [346]$ echo -e 'hello\tthere' | sed -e 's/[[:space:]]/, /' hello, there

echo 命令的 -e 標志用來告訴該命令擴展 C 風格的轉義字符，在本示例中，它會把\t轉換為制表符。

您還可以使用“.”（點號）匹配任何單個的字符。如果您需要處理一些略有變化的數據，或者包含難以進行轉義的特殊字符的數據，那麼使用這個符號是非常方便的。例如，在匹配引號時，我經常使用 .，所以我不需要在 Shell 中對引號進行轉義。清單 11 顯示了一個正則表達式初學者在使用這個模式時出現的問題。

清單 11. 這可能並不是想要的結果

chrish@dhcp3 [339]$ echo "This is a test" | sed -e s/./_/g ______________

既然您已經了解了這些非常基本的內容，下面介紹一些附加模式修飾符，要使用高級正則表達式，您現在還可以使用 -E 選項代替 -e。? 字符表示匹配前面模式元素的零個或一個實例，* 字符表示匹配前面元素的零個或多個實例。+ 字符表示匹配一個或多個前面的元素。^ 字符匹配行首，而 $ 則匹配行尾。清單 12 顯示了實際應用中的情況。

清單 12. 實際應用中的多個匹配項

chrish@dhcp3 [356]$ echo "hellooooo" | sed -E 's/o?$/_/g' helloooo_ chrish@dhcp3 [357]$ echo "hellooooo" | sed -E 's/o*$/_/g' hell_ chrish@dhcp3 [358]$ echo "hellooooo" | sed -E 's/o+$/_/g' hell_

如果使用圓括號將模式元素括起來，您可以在替換字符串中使用匹配的內容。這些元素稱為組，它們使得正則表達式搜索和替換操作的功能變得非常強大，但是卻很難理解。例如，在清單 13 中，您匹配一個或多個 l (el) 字符，並且後面跟著零個或多個 o 字符。依次使用第二組和第一組中的內容對其進行替換，實際上是對它們進行交換。請注意這個模式中各個組的引用方法，即反斜槓加上該組的序號。

清單 13. 匹配組

chrish@dhcp3 [361]$ echo "hellooooo" | sed -E 's/(l+)(o*)$/\2\1/g' heoooooll

通過在大括號中指定匹配的數目，您可以匹配特定數目的模式。例如，模式 o{2} 將匹配兩個（僅僅兩個）o 字符。

對了，還有最後一個內容，通過使用\字符對其進行轉義，您可以在模式中使用這些特殊字符的字面內容（即作為其本身）。

將其組合在一起

既然已經向您介紹了一些非常簡單的正則表達式，那麼讓我們來嘗試一些有用的內容。給定 ls -l（文件長清單）的輸出，您將從中提取權限信息、大小和名稱。清單 14 顯示了要進行處理的 ls -l 輸出示例。

清單 14. ls -l 的典型輸出

chrish@dhcp3 [365]$ ls -l | tail drwx------　 3 chrish　　wheel　 102 Jun 14 21:38 gsrvdir501 drwxr-xr-x　 2 chrish　　wheel　　68 Jun 16 16:01 hsperfdata_chrish drwxr-xr-x　 3 root　　　wheel　 102 Jun 14 23:38 hsperfdata_root -rw-r--r--　 1 root　　　wheel　 531 Jun 14 10:17 illustrator_activation.plist -rw-r--r--　 1 root　　　wheel　 531 Jun 14 10:10 indesign_activation.plist -rw-------　 1 nobody　　wheel　　24 Jun 16 16:01 objc_sharing_ppc_4294967294 -rw-------　 1 chrish　　wheel　 132 Jun 16 23:50 objc_sharing_ppc_501 -rw-------　 1 security　wheel　　24 Jun 16 10:04 objc_sharing_ppc_92 -rw-r--r--　 1 root　　　wheel　 531 Jun 14 10:05 photoshop_activation.plist -rw-r--r--　 1 root　　　wheel　 928 Jun 14 10:17 serialinfo.plist

正如您所看到的，這裡一共有 7 列：

權限

鏈接的數目

屬主

組

大小

最後的修改時間

名稱

讓我們來建立一些正則表達式，以匹配其中的每一列：

.([r-][w-][x-]){3}—權限（使用 . 匹配第一個字符，因為它可能是幾個不同的特殊字符中的任何一個。）

[[:digit:]]+—鏈接的數目

[A-Za-z0-9_\-\.]+ -—屬主（您還可以使用這個模式進行組匹配。）

[[:digit:]]+—大小

.{3} [0-9 ]{2} [0-9 ][0-9]:[0-9][0-9]—修改時間（您可以對這個模式進行一些簡化，因為所有的文件都在 6 月份進行的修改，所以您可以確切地指定月份的名稱。）

.+$—名稱（在這些內容之後，您需要匹配所有的字符，直到行尾。）

在上述模式之間，必須使用 [[:space:]]+ 對它們進行連接，因為您並不知道這些列之間究竟是使用空格或制表符，還是兩者的組合進行分隔。您還需要將權限、大小和名稱放到組中，以便可以在替換中使用它們。如清單 15 所示，正則表達式很快就變得難以理解。

清單 15. 完成後的正則表達式實在難以理解！

(.([r-][w-][x-]){3})[[:space:]]+[[:digit:]]+[[:space:]]+([A-Za-z0-9_\-\.] +[[:space:]]+){2}([[:digit:]]+)[[:space:]]+.{3} [0-9 ]{2} [0-9 ][0-9]:[0-9][0-9][[:space:]]+(.+)$

如果您仔細研究這個可怕的正則表達式模式，您將發現 5 個組：

完整的權限塊

權限塊中最後匹配的 rwx 組

組（該模式的屬主/組部分中最後匹配的內容）

大小

名稱

在清單 16 中，您將更改 ls -l 的輸出以顯示文件名、權限和大小。

清單 16. 對輸出進行重組

chrish@dhcp3 [382]$ ls -l | tail | sed -E 's/(.([r-][w-][x-]){3})[[:space:]]+[[:digit:]]+[[:space:]]+([A-Za-z0-9_\-\. ]+[[:space:]]+){2}([[:digit:]]+)[[:space:]]+.{3} [0-9 ]{2} [0-9 ][0-9]:[0-9][0-9][[:space:]]+(.+)$/\5 (\1) has \4 bytes of data/' gsrvdir501 (drwx------) has 102 bytes of data hsperfdata_chrish (drwxr-xr-x) has 68 bytes of data hsperfdata_root (drwxr-xr-x) has 102 bytes of data illustrator_activation.plist (-rw-r--r--) has 531 bytes of data indesign_activation.plist (-rw-r--r--) has 531 bytes of data objc_sharing_ppc_4294967294 (-rw-------) has 24 bytes of data objc_sharing_ppc_501 (-rw-------) has 132 bytes of data objc_sharing_ppc_92 (-rw-------) has 24 bytes of data photoshop_activation.plist (-rw-r--r--) has 531 bytes of data serialinfo.plist (-rw-r--r--) has 928 bytes of data

成功了！您已經完成了對輸出結果的轉換。

使用 Perl 完成相應的工作

Perl 編程和腳本語言（請參見參考資料部分）的功能非常強大，通常可用來取代前面介紹的 tr 和 sed 命令。通常可以在命令行中直接輸入簡短的 Perl 程序，有時它可以完成比 tr 或 sed 命令行更多的操作。

Perl 的 -p 選項告訴它讀取和處理標准輸入中的每行內容，並將結果打印到標准輸出。-e 選項允許您在命令行中指定一個 Perl 表達式（實際上是一個程序）。

清單 17 顯示了如何使用 Perl 完成清單 5 中的示例。

清單 17. 使用 Perl 完成 tr 的工作

chrish@dhcp3 [248]$ echo a test | perl -p -e 'tr/t/p/;' a pesp chrish@dhcp3 [249]$ echo a test | perl -p -e 'tr/aest/1234/;' 1 4234 chrish@dhcp3 [250]$ echo a test | perl -p -e 'tr/t//d;' a es chrish@dhcp3 [251]$ echo a test | perl -p -e 'tr/a-z/A-Z/;' A TEST

Perl 的 tr 語句具有不同的語法，它更像 sed 的搜索和替換表達式。另請注意，您在最後一個示例中指定了小寫和大寫字符的范圍。

Perl 中的正則表達式支持非常優秀，並且上面的 sed 示例可以作為有效的 Perl 語句正常工作。清單 18 使用 Perl 顯示了清單 16 中的 ls -l 示例，除了 Perl 命令行語法之外，不需要對其他的內容進行更改。

清單 18. 使用 Perl 重組 ls 的輸出

chrish@dhcp3 [384]$ ls -l | tail | perl -p -e 's/(.([r-][w-][x-]){3})[[:space:]]+[[:digit:]]+[[:space:]]+([A-Za-z0-9_\-\.] +[[:space:]]+){2}([[:digit:]]+)[[:space:]]+.{3} [0-9 ]{2} [0-9 ][0-9]:[0-9][0-9][[:space:]]+(.+)$/\5 (\1) has \4 bytes of data/' gsrvdir501 (drwx------) has 102 bytes of data hsperfdata_chrish (drwxr-xr-x) has 68 bytes of data hsperfdata_root (drwxr-xr-x) has 102 bytes of data illustrator_activation.plist (-rw-r--r--) has 531 bytes of data indesign_activation.plist (-rw-r--r--) has 531 bytes of data objc_sharing_ppc_4294967294 (-rw-------) has 24 bytes of data objc_sharing_ppc_501 (-rw-------) has 132 bytes of data objc_sharing_ppc_92 (-rw-------) has 24 bytes of data photoshop_activation.plist (-rw-r--r--) has 531 bytes of data serialinfo.plist (-rw-r--r--) has 928 bytes of data

這樣做的優點在於，您可以使用 sed 或 Perl 完善正則表達式，並且在只包含其中某一個的系統中，您仍然可以它們。使用 Perl，您可以獲得全方位的編程結構，可以充分地利用它們進行更復雜的文本處理。

總結

使用像 sed 和 Perl 這樣功能強大的工具，以及神奇的正則表達式，您可以直接通過 UNIX 命令行輕松地完成復雜的文本處理任務。這使得您可以有效地將多個命令組合在一起，以正確地完成文本處理工作。

Unix基礎知識