您现在的位置： Linux教程網 >> UnixLinux > >> Linux基礎 >> Linux技術

Linux折騰記（十七）：適合數值計算的語言需要具備什麼樣的特色

　　2015年1月，我繼續徜徉在數值計算的世界。這段時間裡，我抽空看了Python科學計算和數值分析方面的書，也仔細研讀了Octave的用戶手冊，甚至連古老的Fortran、新興的R語言我都去逐一了解。對於數值計算的庫，我了解了一下Boost的uBLAS，以前也用過OpenCV，當然，了解最多的還是Python中的NumPy、SciPy和pandas。

　　前幾篇隨筆搞了不少工具論，所以今天我就專門來論一論編程語言。我的這個Linux江湖系列是一會兒方法論一會兒工具論，每過一段時間也談談編程語言。今天談的內容是我對適合做數值計算的編程語言的一些看法，主要是一些思路方面的東西，不評論具體語言的優劣。另外，我是想到哪兒寫到哪兒，如果有什麼不對的地方歡迎大家指正。

一、元組和數組

　　如果數值計算僅僅只是兩個標量之間的加減乘除，那就不需要我在這裡浪費口舌了。向量啊、矩陣啊、多維數組啊什麼，才是數值計算真正的主角。所以，適合做數值計算的編程語言必須有一個好的方式表示數組，特別是多維數組。哪種方式好呢？是這樣：

復制代碼代碼如下:
int a[m][n][k];

還是這樣：

復制代碼代碼如下:
int a[m,n,k];

　　看似沒有什麼差別，但是如果你想獲取數組a的形狀呢？比如這樣：

復制代碼代碼如下:
？ = a.shape();

或者再更進一步，想改變數組a的形狀呢？比如這樣：

復制代碼代碼如下:
a.reshape(?);

　　在上面的代碼中，“?”究竟應該用什麼代替呢？

　　如果讓我給出答案，我會說：要用元組。很多編程語言中都有元組的概念，比如Python。元組就是用逗號隔開的幾個值，可以加圓括號，也可以不加。我覺得加上圓括號後可讀性更好。比如(a,b)是元組，(3,4,5)也是元組。如果寫成[3,4,5]那就是數組了，在Python中，也稱之為列表。不過Python的列表功能比數組要強大，因為數組只能保存同一種數據類型的值，而列表可以保存任何對象。數組一般情況下不能動態改變長度，而列表可以。Octave語言中使用cell array這個術語來表示可以保存不同類型對象的容器。Octave中的數組和矩陣是可以動態改變長度的。C語言的數組沒有動態改變長度這個功能，而如果使用C++的話，則必須使用vector<>模板類。

　　我認為，一個好的編程語言必須要有“元組”這個一個概念，必須能夠用好大括號、中括號和小括號。在有沒有元組這個問題上，很多語言做得不好，C語言沒有，C++也沒有，Java沒有，C#這個有很多新功能的語言也沒有，不要告訴我有Tuple<>模板類可以用，那個真的沒有語言內置的元組功能好。在能不能用好大中小括號這個問題上，C語言就做得不好。你看它不管是初始化數組，還是初始化struct，都是用大括號。而Python和JSON就做得很好嘛，初始化數組用中括號，初始化對象或字典的時候采用大括號。如果加上小括號表示元組，那就齊活兒了。

　　數值計算可以針對標量、一維數組、二維數組以及n維數組進行。數組可以如下組織，如下圖：

　　元組最大的用途就是可以用來表示數組的形狀了。比如一維數組的形狀為(n,)，請注意其中的逗號不能省略。二維數組的形狀(m,n)，三維數組的形狀(m,n,k)，依次類推。另外，元組可以用來對數組中的元素進行索引。比如：

復制代碼代碼如下:
a = [ [1,2,3,4], [5,6,7,8], [9,10,11,12], [13,14,15,16] ];b = a[2,3,3];

　　元組還有一個很大的用途，那就是可以讓一個函數返回多個值。C語言在這個方面是做得比較丑陋的，如果一個函數要返回多個值，只能給這個函數傳指針或者多重指針作為參數，C++可以傳引用，C#更加畫蛇添足，專門有一個out關鍵字用來修飾函數的參數。微軟你真是的，你既然能想到out，你就不能想到元組嗎？常見的例子，比如meshgrid()函數可以同時初始化兩個數組，peak()函數可以同時初始化三個數組。你看它們用元組多方便：

復制代碼代碼如下:
(xx, yy) = meshgrid(x, y);(xx, yy, zz) = peak();

　　另外，元組還可以這樣用，比如交換兩個變量的值：

復制代碼代碼如下:
(a,b) = (b,a);

二、數組初始化

　　在數值計算中，數組的初始化也是非常重要的一環。如果像C語言這樣寫：

復制代碼代碼如下:
int a[100] = {1, 2, 3, 4, ... , 100};

估計很多人是要罵娘的。這樣寫：

復制代碼代碼如下:
for(int i=0; i<100; i++){ a[i] = i+1;}

也不優雅。我只是想初始化一個數組而已，怎麼就非得要寫一個循環呢？如果是二維數組呢，就得兩層循環，三維數組就得三層。真的是太鬧心了。

　　另外，如前所述，我也不喜歡在初始化數組的時候用大括號。我覺得中括號就是為數組而生。比如這樣：

復制代碼代碼如下:
a = [1, 2, 3, 4];

這就是一個一維數組，但是如果這樣寫：

復制代碼代碼如下:
a = [ [1, 2, 3, 4] ];

就是一個行向量。如果寫成這樣：

復制代碼代碼如下:
a = [ [1], [2], [3], [4] ];

那麼這就是一個列向量，如下圖：

　　當然，上面的示例只有四個數字，這麼寫一寫無可厚非。如果是很多數字呢？或者很多維的數組呢？這時就必須得用到很多初始化函數了，而且這些初始化函數最好能接受元組作為參數來決定數組的形狀。比如這樣：

復制代碼代碼如下:
a = xrange( 1, 60, (3,4,5) ); //用1到60的數字初始化一個3*4*5的數組
b = randn ( (3, 4, 5) ); //用隨機數初始化一個3*4*5的數組

　　其它的初始化函數還有linspace()、logspace()、ones()、zeros()、eyes()等等。這些函數還可以配合reshape()使用，比如這樣：

復制代碼代碼如下:
c = linspace(0, 2*pi, 60).reshape(3, 4, 5);

　　在所有的這些初始化中，元組都是重要的組成部分。

三、range和切片

　　其實，range除了可以是一個函數，還可以更省點兒事，像這樣寫：

復制代碼代碼如下:
r = 0:10:2; //0,2,4,6,8,10
s = 11:0:-3; //11,8,5,2

　　在某些語言中，也把這個功能叫切片。其實就是“:”的靈活運用，有標點符號可以用當然不能浪費嘛。使用切片，只需要指定起始值、終止值和步長，就可以獲得一個數字序列。

　　但是，“:”最大的用途並不是用來對數組進行初始化，而是對數組進行索引。比如，a是一個三維數組，可以通過切片來獲取其中的一部分數據。見下面的代碼：

復制代碼代碼如下:
a = range(1, 60).reshape(3, 4, 5); // a是一個三維數組
b = a[1, 2:3, 1:4]; // b是一個二維數組，其值為[ [12, 13, 14, 15], [17, 18, 19, 20]]

　　切片除了可以指定起始值和終止值外，也可以指定步長。當然，也可以只用一個單獨的“:”，代表取這一整個軸。關於軸的概念，可以看我前面的圖片。見下面這樣的代碼：

復制代碼代碼如下:
a = range(1, 60).reshape(3, 4, 5); // a是一個三維數組
b = a[1, :, :]; // b的值為二維數組[[1,2,3,4,5], [6,7,8,9,10], [11,12, 13, 14, 15], [16,17, 18, 19, 20]]

四、不寫循環

　　在對多維數組進行加減乘除的時候，如果使用傳統的像C這樣的語言，則避免不了要寫循環。比如要計算兩個多維數組的加法，不得不寫這樣的代碼：

復制代碼代碼如下:
m = 10;
n = 20;
k = 30;
a = randn(m, n, k); //形狀為(m, n, k)的三維數組，初始化為隨機值
b = randn(m, n, k); //形狀為(m, n, k)的三維數組，初始化為隨機值
for(int i=0; i<m; i++){
for(int j=0; j<n; j++){
for(int p=0; p<k; p++){
c[i, j, p] = a[i, j, p] + b[i, j, p];
}
}
}

　　上面的代碼當然遠不如下面這樣的代碼簡潔：

復制代碼代碼如下:
C = A + B;

　　所以不寫循環基本上就成了所有數值計算語言的標准配置。Matlab和Octave是這樣，NumPy是這樣，R語言也是這樣。C++也在追求這樣，因為C++中有運算符重載的功能，所以可以對矩陣類重載加減乘除運算符。但是C++中運算符的基礎設施有缺陷，比如它沒有乘方運算符（冪運算符），在Octave和NumPy中，都可以這樣計算$x^y$：x**y。但是在C++中，只有使用函數power(x, y)。不要想^運算符，它是一個位運算符，所以取冪只有使用**了。另外，多維數組運算還有特例，比如二維數組之間加減乘除，既可以是逐元素的加減乘除，也可以是矩陣的加減乘除。向量計算也有特例，既可以是逐元素加減乘除，也可能是向量內積（點乘）。如果正好是長度為3的向量，還可以計算叉乘。這些運算符都需要重新定義，所以雖然C++有重載運算符的機制，但是因為這些運算符完全超越了C++的基礎設施，所以C++也沒有辦法寫得很優雅。

　　不寫循環還有一個優點，那就是可以對運算速度進行優化。優化是編譯器或解釋器的責任，寫數值計算程序的人可以完全不用費心。編譯器或解釋器可采取的優化方式有可能是利用SSE等多媒體指令集，也可能是發揮多核CPU的多線程優勢，甚至是使用GPGPU計算都有可能。如果用戶非要寫成C語言那樣的循環，而他又不會內聯匯編或OpenMP的話，那麼就談不上什麼運算速度的優化了。

五、廣播

　　不寫循環，直接把兩個多維數組進行加減乘除當然省事。但是如果兩個數組的形狀不一樣呢？比如一個二維數組加一個行向量，或一個二維數組加一個列向量，甚至是數組加減乘除一個標量，會出現什麼情況呢？

　　不用擔心，在面向數值計算的語言中，一般都有“廣播”這樣一個特性。當兩個數組的形狀不一樣時，形狀比較小的那個往往可以在長度為1的維度上進行廣播。如下圖：

六、奇異索引

　　Fancy indexing，有的書上翻譯成花式索引，但我認為叫奇異索引比較好。它就是指一個低維的數組，可以使用高維的數組進行索引，最後得到的結果是一個高維的數組。如果索引中含有切片，可能會得到一個更高維度的數組作為結果。

　　這個概念理解起來比較難。特別是再配合切片使用，更加增加其復雜性。所謂一圖勝千言，先看普通索引的情況：

　　前面提到，對多維數組進行索引的時候需要用到元組，元組的長度等同於數組的維數。對於普通索引而言，元組的各個部分要麼是整數，要麼是切片。而對於奇異索引而言，索引元組的各個組成部分都可能是多維數組或者切片。如果是多維數組，則最後得到的數組的形狀和索引數組的形狀相同，如果配合切片，則可能得到更高維的數組。如下圖：

七、函數調用

　　編程語言發展這麼多年，一直在進化，也一直在相互靠攏。對於一個編程語言來說，是應該面向過程還是面向對象？是靜態類型還是動態類型？這些都是值得思考的地方。但是在函數調用方面，有一些思想倒是可以學習。

　　在C語言這樣比較古老的語言中，對於函數的參數來說，只有位置參數一種。也就是說，像一個函數傳遞參數的時候，只能正確的參數放到正確的位置，而且參數的個數必須和函數定義的相同。這是最原始的函數調用思想。

　　緊接著，在某些編程語言如Java、C#中，有了可選參數這個概念。但是可選參數要放到參數列表的最後面，而且必須提供默認值。當調用函數時如果指定了這個參數，則使用調用時指定的值，否則使用默認值。

　　但是我覺得適合數值計算的語言必須還得更進一步，提供關鍵字參數的功能。什麼是關鍵字參數呢？比如對數據進行繪圖的時候，需要指定線型、標簽、標題等各種屬性，可以這樣調用函數：

復制代碼代碼如下:
plot(x, y, marker="*", color="r", line, title="...", legend="...", xlabel="...", ylabel="...");

　　每一個參數調用的時候都可以指定它的名字，這樣我們就不用去死記各個參數的位置，是不是很方便呢？

八、生態環境

　　對於一門編程語言而言，生態壞境很重要。在數值計算領域更是如此。因為很多數值計算的庫都是專業的人士寫給專業人士看的，比如物理專業的寫物理領域的算法，氣象專業的寫氣象專業的算法，所以不大可能有一個全面的官方的，像C或C++這樣一個由ANSI定義的庫。

　　廣泛接受開源社區的貢獻是一個比較好的辦法。Perl是這樣，Python也是這樣，新興的R語言也是這樣。Perl有CPAN，Python有PyPI，R語言也有CRAN。至於Matlab，那更是有各種各樣的工具包。

　　OK，就寫這麼多吧，還有其它的一些什麼特色，我想到後再隨時更新此文。

　　另外，本文中所有的圖片都是在Ubuntu中使用Inkscape矢量圖軟件繪制而成。

上一篇文章： Linux折騰記（十八）：同一個硬盤上安裝多個Linux發行版及Fedora 21初體驗
下一篇文章： Linux折騰記（十六）：數值計算和符號計算

Linux技術

Linux教程(1)-什麼是Linux

Linux該裝在什麼樣的分區上？

Linux探索之旅什麼是Linux？

Linux折騰記（十七）：適合數值計算的語言需要具備什麼樣的特色

Linux折騰記（十六）：數值計算和符號計算

Linux折騰記（一）：玩轉Linux系統的方法論

linux數值計算

Linux教程：Linux如何分區？Linux分區命令是什麼？