您现在的位置： Linux教程網 >> UnixLinux > >> Unix知識 >> 關於Unix

吸引C和Java程序員目光的Perl5.6

Perl 解釋器初學者馬上就會發現 Perl 中似乎沒有任何編譯器。事實上，Perl 腳本大多是由 Perl 解釋器直接運行的，例如 UNIX 系統下的 "Perl"、DOS/ Windows 下的 "perl.exe" 就是 Perl 解釋器。而在 MacOS 中則不需要這些解釋器。您可以試試看如何運行 Perl
　　Perl 解釋器
　　初學者馬上就會發現 Perl 中似乎沒有任何編譯器。事實上，Perl 腳本大多是由 Perl 解釋器直接運行的，例如 UNIX 系統下的 "Perl"、DOS/Windows 下的 "perl.exe" 就是 Perl 解釋器。而在 MacOS 中則不需要這些解釋器。您可以試試看如何運行 Perl 腳本。首先在您的操作系統上啟動相應的 Perl 解釋器，或是在 MacOS 系統中直接運行。在大多數系統中，文件尾標志（UNIX 系統中為 Control-D）用來表示用戶輸入結束。因此在 UNIX 系統中，下面這個腳本將能得到 "5+6" 的計算結果：
　　
　　從最簡單的 Perl 程序入手
　　
　　> perl
　　(Perl is waiting for user input here, because no script name is given)
　　print 5+6
　　You press Control-D here
　　11　
　　
　　可以看到 Perl 解釋器運行了這個只有一行的腳本程序，並輸入該表達式的計算結果 11。
　　
　　Perl 解釋器有許多選項。例如，-e 選項表示將命令行的輸入作為腳本文件來執行，因此上面的腳本例子也可以這樣實現：在命令行輸入 perl -e'print 5+6'（注意，要用單引號將命令括起來）。而 -i 選項則類似於通過一個過濾器，允許在文件中不同的位置進行編輯。-n 和 -p 選項能讓程序員打開或關閉輸出。-w 選項與 C/C++ 中的 "-Wall" 編譯選項類似，都能夠對程序中潛在問題給出警告信息，但與 -Wall 不同的是，-w 功能在程序運行時也是被激活的。
　　
　　速度和 Benchmark
　　人們常常拿 Perl 與 C/C++ 比較，並抱怨 Perl 運行速度不夠快。某些時候這的確是事實，但是並非永遠如此。我建議您在認為 C 或 C++ 更快之前，使用 Benchmark 模塊試試看 (perldoc Benchmark)。此外，Perl 能很方便地與 C/C++ 代碼或庫連接，且某些 Perl 內置函數並不比 C 代碼慢，如排序或打印等。這裡再次提醒您在堅信 C/C++ 比較快之前，先使用一下 Benchmark 模塊。
　　
　　要記住，過早的優化往往是錯誤的根源。如果您在 Perl 中寫了一個原型，並用其他語言來重寫是沒有問題的。原型意味著能夠方便地開發。
　　
　　與 Java 相比而言，Perl 也能夠很好地工作。Perl 不象 Java 那樣擅長於線程，但它的 Tk GUI 界面工具箱卻比 Java 的 Swing GUI 庫要好。並且 Java 代碼總是能夠連接到 Perl 程序中，反之亦然。因此，有時您可以通過某種程度上的結合，使得程序在兩方面都做得很好。
　　
　　異常、編譯和文檔
　　Perl 通過 CPAN 中的模塊或是其內置函數 eval() 來拋出異常。就好像在 C++ 或 Java 中通過 try/catch 代碼塊來處理異常一樣，eval 函數能處理某個代碼段或某個字符串操作的異常。
　　
　　事實上，Perl 程序在運行之前還是需要編譯的，只是和 C/C++/Java 的編譯方式不相同。在設計和效果上，它和 Java 的字節解釋過程很相似。關於編譯的更詳盡內容，可以參閱 "perldoc perlrun" 和 "perldoc perlclearcase/" target="_blank" >cc" 文檔。
　　
　　可用 POD 格式來將文檔嵌入 Perl 程序。這種文檔嵌入方式比 Javadoc 格式（僅適合於 API 文檔)要通用，但比不上 C/C++/Java 的注釋。
　　
　　即使和 C、C++ 或 Java 比較起來，Perl 程序也不算是一種結構性強的語言。例如，BEGIN 語句塊會被首先執行，但它可以在程序中多次說明。定義、變量和函數體可以在程序的任意位置出現，Perl 所提供地強大功能可以最好地滿足這種隨意性。
　　
　　由於這種松散結構、嵌入的注釋、以及為追求方便而導致的令人混淆的語句，使得書寫 Perl 程序更像是在寫一封英文信件。
　　
　　Perl 的容錯能力
　　Perl 比 C/C++/Java 更能容忍一些模糊地寫法。例如可以用逗號來分隔語句或函數的參數：
　　
　　語句之間或函數參數之間的分隔符
　　
　　print 'Hello', ' ', 'there.', "\n";　　 # print "Hello there\n"
　　
　　foreach (1..10)
　　{
　　 my $i;
　　 $i = $_ * 2, print "$i\n";　　　　　　 # print evens from 2 to 20
　　}
　　
　　Perl 能盡最大可能地消除這些語句可能引起的歧義。當然，有些時候仍有無法解決的歧義（在這一點上，Perl 就象英語一樣）。
　　
　　Perl 中另一個容易引起歧義的地方在於：變量經常會被隱含使用。例如，"print" 語句缺省時會打印 $_ 變量的值。在其他一些含混的語句操作中，$_ 變量也是它們的缺省值，這就造成了一種混亂。例如：
　　
　　隱含使用變量
　　
　　$_ = "hello";
　　s/hello/hi/;　　　　　　　　　　　　　　# $_ is "hi" now
　　print;　　　　　　　　　　　　　　　　　# prints "hi"　
　　
　　這裡你可以看到，使用缺省變量能讓編程方便簡潔。也就是說，Perl 和英語類似，通過某種模糊性來簡化表達式。
　　
　　一項任務多種實現
　　(There's more than one way to do it ,TMTOWTDI)
　　所有的語言在解決問題時都有自己的方法。在 C 裡面，for() 循環是在一定范圍內重復的最好方法；在 Java 裡，靜態函數的調用是直接通過類而不是某個實例。
　　
　　但對於同一件事情，Perl 至少有兩種解決方法。TMTOWTDI 原則就是 Perl 的座右銘，各種處理上的差異在 Perl 編程中是深受鼓勵的。
　　
　　下面來看一個打印數組元素的例子。所有的表達方法都達到同一目的。
　　
　　打印數組元素
　　
　　print foreach @array;
　　
　　foreach (@array) {print};
　　
　　map {print} @array;
　　
　　print @array;　
　　
　　要理解以上這些代碼的唯一途徑就是掌握所有 Perl 的語法。不要擔心哪種方法才是正確的，因為實現同一目標總是有多種正確的方法。考慮這些不同的表達方式，您可以更深刻體會 Perl 的這個座右銘。
　　
　　另外，雖然一個任務的實現有多種方法，但這並不意味著所有方法都是正確的。通常情況下，更有可能寫出的是一些錯誤代碼。為了保證代碼的正確性，最好盡量使用那些 Perl 內置的函數，而較少使用自己所編寫的函數，並且注意證明並記錄這些不那麼顯然的方法。
　　
　　正則表達式
　　如果沒有初始化，正則表達式很有可能造成一片混亂。大多數人都相信正則表達式是由 Kalahari bushmen 發明的，它滲透到了大學的計算機科學編程的所有方面。
　　
　　Perl 的正則表達式是從 shell 腳本程序以及 awk/grep 工具中繼承而來的。但它的能力卻遠遠超出了原來的模型。
　　
　　基礎的正則表達式是非常容易書寫的，但難以讀懂。例如 "con\w+" 和 "contra"、"contrary" 匹配，但與 "pro" 或 "con" 都不匹配。然而在 Perl 5.6.0 中，正則表達式被固化了。Unicode 字符集、模式內任意代碼操作、flag toggles、條件表達式以及其他特征都被添加到正則表達式庫中。
　　
　　對於初學者的一個最好的建議就是：首先學習最基本的正則表達式（參閱資料部分，或 "perldoc perlre" 參考手冊），稍後才進一步學習那些復雜的高級特性。由於正則表達式必須全寫在一起，中間沒有辦法添加注釋，這就讓它們成為所有 Perl 代碼中最難讀懂的一部分。因此建議大家書寫已成型的代碼。
　　
　　在 C/C++/Java 中正則表達式屬於外部的函數包，但 Perl 是目前最佳的正則表達式搜索和代換工具。在極少數情況下，它可能會比純 C 程序慢一些，但對於那些純粹面向正則表達式的問題，Perl 依然是您首選的工具。
　　
　　標量、數組和哈希散列
　　和 C、C++、Java 中變量不同的是，Perl 的變量的類型是由其名字決定的,並且會自動初始化成相應類型。這一點讓 Perl 初學者覺得很不習慣，但它非常地直觀而易於理解。
　　
　　筆者推薦使用 "use strict"。通過它可以保證變量在使用之前聲明，從而避免打字錯誤等引起的程序錯誤。
　　
　　如果沒有做到這一點，則有可能遇到下面這樣的問題：
　　
　　一個常見的打字錯誤
　　
　　$i = 5;
　　print $j;　　　　　　　　　　　　　　　 # print $i
　　
　　
　　此例子中，程序員本來要打印變量 i 的值，結果卻敲成了 j。Perl 並不會覺得這段代碼有什麼問題，它會繼續執行打印語句，顯示 $j 的值即什麼都沒有。有些時候，Perl 的自動生成對象的確很有用，但以我的經驗來說，最好還是用 "use strict" 來關掉這一自動功能，從而避免上述問題。
　　
　　Perl 變量可以是標量 (scalars)、數組 (arrays)或哈希散列 (hashes，又叫做關聯數組)。（事實上，Perl 中有多種數據類型，但是程序員並不會直接面對它們。）此外也可以是引用，通常它們也是一種標量類型。其中標量名稱以 "$" 開頭，數組名以 "@" 開頭，而散列則以 "%" 開頭。
　　
　　標量是 Perl 中最簡單的數據類型。每個標量都有唯一的值，或者是字符串或者是引用。在必要的時候，字符串和數字可以互相轉化。這常讓初學者覺得欣喜異常。看一下這個例子：
　　
　　標量
　　
　　$i = "hi there";
　　print 1+$i;　　　　　　　　　　　　　　 # prints 1
　　
　　其中標量 $i 的值是字符串 "hi there"，它對應的數值為 0。因此 1 + "hi there" 的值為 1，程序運行結果為 1。
　　
　　不過這並不意味著 Perl 解釋器在對某個標量分別考慮其字符串類型和數字類型。事實上，在內存中只是一個含有某個值的標量。如果在數值運算的語句中（如加法），這個標量值就轉化成數值形式；如果在字符串操作語句中（例如打印），則以字符串形式執行。但無論以什麼形式運算，該標量變量實質上只有一個值。
　　
　　未定義的標量的值為 "undef"。如果在 C/C++/Java 程序中，您可以將其他值與 null 比較，但在 Perl 中卻不能拿任何東西來與 "undef" 做比較。可用這樣使用 defined() 函數：
　　
　　Use of the 'defined()' function
　　
　　$i = "hi there";
　　print $i if defined $i;　　　　　　　　 # prints "hi there"
　　undef $i;　　　　　　　　　　　　　　　 # set $i to be undef
　　print $i if defined $i;　　　　　　　　 # prints nothing　
　　
　　數組實質上就是一組標量。如果需要，數組大小可以自動改變，有點象 Java 中的 Vector 類。C 和 C++ 中沒有與 Perl 數組類型相當的東西，但它們也有一些提供類似功能的庫（如 STL）。數組的一個有趣特性在於，數組的標量數值等於它的元素個數：
　　
　　數組中的元素個數
　　
　　@a = ("hi there", "nowhere");
　　print scalar @a;　　　　　　　　　　　　# prints 2
　　push @a, "hello";　　　　　　　　　　　 # add "hello" at the end
　　print scalar @a;　　　　　　　　　　　　# prints 3　
　　
　　散列與數組類似，但裡面的標量並不是按照位置排序的，而是通過另一個標量（必須是唯一值）來進行索引。例如一個用 social security number 作索引的名字列表就是一個散列。將某個鍵值插入到散列後，該散列會自動擴展。散列與 Java 中的 HashMap 和 Hashtable 類很相似。
　　
　　引用類型其實也是標量，它們類似於 C 語言中的指針，能夠指向任何東西。這就允許 Perl 生成一個散列的數組、數組的散列、散列的散列、或是數組的數組（多維數組）。有多種方法來獲得引用所指向的內容，或者直接使用引用的名字、或者使用 "->" 操作符。引用是一個涉及范圍非常廣的問題，可以參考 "perldoc perlref" 參考文檔來獲得更多相關信息。
　　
　　C 和 C++ 只有一些固定類型的標量。當程序員要使用數組或哈希散列時，不得不去使用鉤子 (hoop) 或是 STL 等外部庫。
　　
　　Java 中有相當於 Perl 裡數組或散列功能的類庫，但它們在 Java 語言中並不是那麼直接。比如說要對散列上所有元素做操作所需要的時間大約是 Perl 的三倍。
　　
　　對散列中所有元素進行操作的 Java 代碼
　　
　　import java.util.Enumeration;
　　import java.util.Hashtable;
　　
　　Hashtable hi = new Hashtable();
　　// fill in hi's values
　　
　　// we can use an Iterator, still a lot of typing
　　for (Enumeration enum = hi.elements();
　　　　 enum.hasMoreElements();)
　　{
　　 Object o = enum.nextElement();
　　 // do something with o
　　}　
　　
　　對散列中所有元素進行操作的 Perl 代碼
　　
　　# note that this even includes the definition and initialization of
　　# the hash, and still is more compact than the Java code!
　　
　　%hash = { a => "hi", b => "hello" };
　　
　　foreach (values %hash)
　　{
　　 # do something with $_
　　}
　　
　　Perl 的缺憾
　　Perl 缺少 C、C++ 和 Java 中的許多特性，但它畢竟是一門完全不同的語言。這幾種語言中甚至有許多特性是互相矛盾的。例如 Java 只支持單一繼承，而 C++ 則可以有多個父類。這種有沖突的情況下當然不可能繼承所有語言的特性，Perl 有它自己處理問題的方法。
　　
　　由於 Perl 程序能夠被連接到 C 的庫中（事實上，這也就是 Perl 應用廣泛的原因之一），這就使得幾乎沒有任何 C 或 C++ 能做而 Perl 不能的事情。
　　
　　與 C 和 C++ 相比而言，Perl 有時欠缺的是運行速度。這的確是一個問題，但是通過良好的編程算法以及 Perl 內置函數的使用，就能夠克服這一缺點。
　　
　　Perl 還不能直接使用 C 和 C++ 的庫。必須通過不同的模塊和綁定，才能夠將這些庫中的常量以及函數功能轉化成適應 Perl 的樣子。這就會導致開發和程序運行的速度降低。但由於 CPAN 庫中發布了大量這些方面的模塊，因此這個問題並不是那麼難以解決，
　　
　　在訓練編程技巧方面，Perl 並不象 C 和 C++ 那樣深入人心。它是一門年輕的語言，雖然很受歡迎，但並未被人們普遍接受。然而，大多數的 UNIX 系統上都安裝了 Perl，且其他的操作系統也都支持 Perl。
　　
　　Perl 支持單一繼承或多繼承、封裝以及多態，但這僅僅是通過外部模塊或程序員的協同來實現的。也就是說，Perl 語言本身並沒有嚴格的面向對象編程規則，需要程序員自己來實現面向對象。這一點有好也有壞，這就要取決於程序員或項目本身了。
　　
　　Perl 的線程以及統一字符編碼（Unicode）支持遠遠落後於 Java，也稍微次於 C/C++。Java 從最開始設計就支持線程和 Unicode，而 C/C++ 則比 Perl 擁有更多的時間來調整這方面的正確支持。在 Perl 中，對線程和 Unicode 的支持仍處於起步階段，但 5.6.0 之後的穩定版本發布之後這一點將得到改觀。
　　
　　Perl 的優勢
　　對於 C/C++/Java 程序員而言，Perl 在某些方面的優勢是無價的。例如正則表達式在 Perl 中的實現是輕而易舉的，但在 C、C++ 或 Java 中實現起來卻很麻煩。隱含的函數聲明、不嚴格的語法、以及象日用文檔似的程序結構使得 Perl 更具吸引力。
　　
　　Perl 並不適合於所有人。它需要讀者去適應，卻接受它的所有缺點和優點。我們並不是覺得 Perl 酷才采用它，而是因為它的確是一種非常好的工具。如果在解決某個問題時使用其他語言更合適，那麼就應該放棄 Perl。一個好程序員的手頭總是有好幾種有用的工具。
　　
　　Perl 有一些小的不足，但那些不知疲憊的程序員會忽略掉這些缺點。如果的確需要線程和 Unicode 支持，或是嚴格的面向對象編程，那麼你只好根據這些需要來選擇其他更合適的語言了。
　　
　　Perl 是一門通用的靈活的語言，可以象膠水一樣將其他許多不同的模型粘合起來。它能夠實現任何過程或函數的算法。通常情況下，Perl 會大大減少開發的時間，因為它對某些常見的任務（例如對散列表中的所有元素做操作）只需要少量的代碼。最重要的是，Perl 編程總是相當於一個有趣的學習過程。

上一篇文章：功能豐富的Perl：編寫說英語的Perl程序
下一篇文章：提供更好的安全性、電話支持和隱私保護

關於Unix

吸引 C 和 Java 程序員目光的 Perl 5.6

C++程序員如何轉Java

初識C++：最簡單的C++程序

C/C++程序員面試內功題

Linux C/C++(或標准C++或標准C)編程雜記

C/C++ 有趣的程序

從 C/C++ 程序調用 Java 代碼

使用GProf來優化你的C/C++程序