Pig是Apache的一個開源項目,用於簡化MapReduce的開發。研究了一段時間,略有心得。系廢話不多說,我們直接步入實際測試。
Pig的運行有兩種模式,本地單擊模式和集群模式。我目前只是測試學習,是為了檢驗Pig的運行流程以及學習語法,沒必要使用分布式模式,分布式模式下也都是大同小異的。
我的環境:
1. 系統: Ubuntu 12.04 64位
2. JDK:Oracle JDK1.7.0_15
3. Pig:0.9.2
和Apache其他項目一樣,安裝Pig都很簡單,解壓到系統任意目錄,設置環境變量就能使用。
export PIG_HOME=path
export PATH=$PATH:$PIG_HOME/bin
設置環境變量後注銷後登錄或者打開終端輸入:source /etc/profile 使新加入的環境變量生效 最後在終端中輸入:pig -version,正常應該出現如下字樣
Warning: $Hadoop_HOME is deprecated.
Apache Pig version 0.9.2 (r1232772)
compiled Jan 18 2012, 07:57:19
到這裡Pig的安裝算是成功了。(當然如果不成功檢查你的JDK安裝及環境變量是否正確) 現在你可以輸入:
pig -x local
進入一個外殼程序。
學習Hadoop一般的入門都是Oreilly的《《Hadoop權威指南》》中文版,其中測試MapReduce的第一個程序就是統計一個文本文件中單詞出現的次數。Pig是為了簡化MapReduce開發的,肯定也是能實現這個的。我以這個為例,寫一個測試的例子。
相關鏈接:Hadoop權威指南(中文第2版)PDF http://www.linuxidc.com/Linux/2012-07/65972.htm
我准備了一個文件,文件名為:nie.txt 裡邊是一片普通的英文文章,比較長,大約52KB。