翻譯領域不乏讓人摸不著頭腦的詞匯,比如“句柄”、“套接字”、“魯棒性”。當然,“正則表達式”也屬於這一類詞匯。我剛接觸正則表達式的時候,對這個名詞感到非常迷惑。深入了解之後,才突然明白,原來所謂的 regular expression, 其實就是“有規律、有模式的字符串”而已。



正則表達式入門容易,精通卻難。本文並不打算挑戰此項任務,如果你希望系統地學習正則表達式,請一定閱讀 Jeffrey Friedl 的著作 精通正則表達式。



grep 命令可以完成簡單的文本搜索任務。

先來准備一份文本材料,把 grep 的幫助頁保存為文本文件:

  1. >mangrep| col -b > grephelp.txt

下面,我想檢索 grephelp.txt 文件中所有包含 "find" 這個單詞的文本行:

  1. >grep"find" grephelp.txt
  2. Tofind all occurrences of the word `patricia' in a file:
  3. To find all occurrences of the pattern `.Pp' at the beginning of a line:
  4. To find all lines in a file which do not contain the words `foo'or

我希望匹配到的文本使用不同的顏色顯示,可以添加 --color 選項,默認的顏色是紅色。

  1. >grep--color "find" grephelp.txt

我希望在匹配結果中顯示文件名和行號,使用 -H 選項可以顯示文件名,使用 -n 選項可以顯示行號:

  1. >grep-H -n --color "find" grephelp.txt
  2. grephelp.txt:252:Tofind all occurrences of the word `patricia' in a file:
  3. grephelp.txt:256: To find all occurrences of the pattern `.Pp' at the beginning of a line:
  4. grephelp.txt:265: To find all lines in a file which do not contain the words `foo'or

很多時候,我們需要知道匹配行前後的上下文。-A-B 這兩個選項會是你的好朋友。-A n 表示顯示匹配行以及其後的 n 行;-B n 表示顯示匹配行以及之前的 n 行。現在,我們在匹配行的前後分別額外顯示兩行:

  1. >grep-A 2-B 2-H -n --color "find" grephelp.txt
  2. grephelp.txt-250-
  3. grephelp.txt-251-EXAMPLES
  4. grephelp.txt:252:Tofind all occurrences of the word `patricia' in a file:
  5. grephelp.txt-253-
  6. grephelp.txt-254- $ grep 'patricia' myfile
  7. --
  8. --
  9. grephelp.txt-254- $ grep 'patricia' myfile
  10. grephelp.txt-255-
  11. grephelp.txt:256: To find all occurrences of the pattern `.Pp' at the beginning of a line:
  12. grephelp.txt-257-
  13. grephelp.txt-258- $ grep '^\.Pp' myfile
  14. --
  15. --
  16. grephelp.txt-263- match any character.
  17. grephelp.txt-264-
  18. grephelp.txt:265: To find all lines in a file which do not contain the words `foo'or
  19. grephelp.txt-266-`bar':
  20. grephelp.txt-267-

如果需要查找所有不包含 "find" 的文本行,該怎麼做呢?很簡單,使用 -v 選項即可。

grep 還有兩個變體,egrep 和 fgrep。相對於僅支持基本正則模式(BREs)的 grep 來說,egrep 支持擴展正則模式(EREs),因而檢索能力更為強大;fgrep 是所有三個工具中速度最快的一個,因為它完全不支持正則模式。

其實,我更喜歡一個叫做 ack 的工具。



tr 命令可以完成簡單的字符轉換任務。例如,可以通過 tr 把 grephelp.txt 文件轉換為全文大寫:

  1. >cat grephelp.txt |tr'[:lower:]''[:upper:]'

簡而言之,tr 的工作就是把第一個集合中的字符轉換為第二個集合中的相應的字符。常用的字符集合有下面這些:

  • [:alnum:]:字母數字
  • [:alpha:]:字母
  • [:cntrl:] :控制字符
  • [:digit:]:數字
  • [:graph:]: 圖形字符
  • [:lower:]:小寫字母
  • [:print:]:可打印字符
  • [:punct:]:標點符號
  • [:space:]:空白字符
  • [:upper:]:大寫字母
  • [:xdigit:]:十六進制數字

tr 命令的應用場景非常受限,如果希望進行更加靈活的模式替換,我們還有 sed(也就是 stream editor,流編輯器)。

把文件中所有的 "find" 文本替換為 "search":

  1. >sed"s/find/search/g" grephelp.txt

這條命令中,s 表示執行“替換操作”,/find/search/ 表示把 "find" 替換為 "search",g 表示對一行中所有的匹配進行替換。sed 默認把處理結果打印到標准輸出,我們可以通過重定向把處理結果轉儲到一個新文件中,或者使用選項 -i 把結果直接寫回原文件(有風險,需謹慎):

  1. >sed-i "s/find/search/g" grephelp.txt

把文件中所有的數字 n 替換為 "--n--" 的形式��

  1. >sed-E "s/([0-9]+)/--\1--/g" grephelp.txt

選項 -E 表示在處理過程中使用擴展的正則模式(EREs),替換命令中的 \1 表示引用正則表達式的第一個捕獲分組。請注意,-E 這個選項只在 Mac OS X 系統和 FreeBSD 系統上有效,其他 Unix 系統需要使用另一個等效的選項 -r

sed 的功能遠不止這一些,篇幅所限,不可能詳細講解 sed 的用法。如果希望學習更多,請移步這篇文章。


  1. >cat-n sonnet116.txt
  2. 1Let me not to the marriage of true minds
  3. 2Admit impediments.Loveisnot love
  4. 3Which alters when it alteration finds,
  5. 4Or bends with the remover to remove:
  6. 5 O,no! it is an ever-fix`ed mark,
  7. 6 O, no! it is an ever-fix`ed mark,
  8. 7That looks on tempests andis never shaken;
  9. 8Itis the star to every wand'ring bark,
  10. 9 Whose worth's unknown, although his heighth be taken.
  11. 10Love's not Time's fool, though rosy lips and cheeks
  12. 11Love's not Time's fool, though rosy lips and cheeks
  13. 12Love's not Time's fool, though rosy lips and cheeks
  14. 13Within his bending sickle's compass come;
  15. 14 Love alters not with his brief hours and weeks,
  16. 15 But bears it out even to the edge of doom:
  17. 16 If this be error and upon me proved,
  18. 17 I never writ, nor no man ever loved.

這是莎士比亞的一首十四行詩,只可惜第5行和第10行有重復(而且第10行重復了3次)。怎麼查看文本中重復的行呢?uniq 命令可以幫助你。

  1. >uniq-d sonnet116.txt
  2. O,no! it is an ever-fix`ed mark,
  3. Love's not Time's fool, though rosy lips and cheeks

選項 -d 表示僅輸出重復的行。如果需要去重,使用不帶選項的 uniq 命令就可以了:

  1. >uniq sonnet116.txt
  2. Let me not to the marriage of true minds
  3. Admit impediments.Loveisnot love
  4. Which alters when it alteration finds,
  5. Or bends with the remover to remove:
  6. O,no! it is an ever-fix`ed mark,
  7. That looks on tempests and is never shaken;
  8. It is the star to every wand'ring bark,
  9. Whose worth's unknown, although his heighth be taken.
  10. Love's not Time's fool, though rosy lips and cheeks
  11. Within his bending sickle's compass come;
  12. Love alters not with his brief hours and weeks,
  13. But bears it out even to the edge of doom:
  14. If this be error and upon me proved,
  15. I never writ, nor no man ever loved.

想要查看每一行究竟重復了多少次?沒問題,使用選項 -c

  1. >uniq-c sonnet116.txt
  2. 1Let me not to the marriage of true minds
  3. 1Admit impediments.Loveisnot love
  4. 1Which alters when it alteration finds,
  5. 1Or bends with the remover to remove:
  6. 2 O,no! it is an ever-fix`ed mark,
  7. 1 That looks on tempests and is never shaken;
  8. 1 It is the star to every wand'ring bark,
  9. 1 Whose worth's unknown, although his heighth be taken.
  10. 3 Love's not Time's fool, though rosy lips and cheeks
  11. 1 Within his bending sickle's compass come;
  12. 1 Love alters not with his brief hours and weeks,
  13. 1 But bears it out even to the edge of doom:
  14. 1 If this be error and upon me proved,
  15. 1 I never writ, nor no man ever loved.



  1. >cat report.txt
  2. March,19
  3. June,50
  4. February,17
  5. May,18
  6. August,16
  7. April,31
  8. May,18
  9. July,26
  10. January,24
  11. August,16


  1. >sort report.txt
  2. April,31
  3. August,16
  4. August,16
  5. February,17
  6. January,24
  7. July,26
  8. June,50
  9. March,19
  10. May,18
  11. May,18

選項 -u (表示 unique)可以在排序結果中去除重復行:

  1. >sort-u report.txt
  2. April,31
  3. August,16
  4. February,17
  5. January,24
  6. July,26
  7. June,50
  8. March,19
  9. May,18

能不能按照月份排序呢?選項 -M (表示 month-sort)可以幫助我們:

  1. >sort-u -M report.txt
  2. January,24
  3. February,17
  4. March,19
  5. April,31
  6. May,18
  7. June,50
  8. July,26
  9. August,16


  1. >sort-u -t','-k2 report.txt
  2. August,16
  3. February,17
  4. May,18
  5. March,19
  6. January,24
  7. July,26
  8. April,31
  9. June,50

上面的例子中,選項 -t',' 表示以逗號為分隔符對文本進行列分割;-k2 表示對第2列進行排序。


  1. >sort-u -r -t','-k2 report.txt
  2. June,50
  3. April,31
  4. July,26
  5. January,24
  6. March,19
  7. May,18
  8. February,17
  9. August,16


wc 命令用來完成文本統計工作,通過使用不同的選項,它可以統計文件中的字節數(-c),字符數(-m),單詞數(-w)與行數(-l)。

例如,查看 grephelp.txt 這個文件總共有多少個單詞:

  1. >wc-w grephelp.txt
  2. 1571 grephelp.txt

查看 sonnet116.txt 這個文件總共有多少不重復的行(廢話,十四行詩當然是有14行):

  1. >uniq sonnet116.tx6 |wc-l
  2. 14

你還應該試試 Awk 與 Perl

如果上面介紹的工具仍然不能滿足你,也許你需要火力更強的武器。試試 Awk 與 Perl 吧。

Awk 也是一款上古神器,它的年齡可能和 sed 不相上下。Awk 可謂是專門為了文本處理而生,它的語法和特性非常適合用於操縱文本和生成報表。如需學習,請參考 這篇文章,你會喜歡上它的。

長久以來,Perl 背負了“只寫語言”的惡名。實際上,只要處理得當,用 Perl 一樣可以寫出模塊清晰的、容易閱讀和理解的代碼。根據我的經驗,使用 Perl 的場合 80% 以上與文本處理有關。Perl 內置的正則表達式支持可能是所有語言中最好的,再加上簡潔緊湊的語法以及便利的操作符,這些特性幫助 Perl 成了文本處理領域當仁不讓的霸主。

