Hadoop有三種模式 單機模式、偽分布模式和完全分布模式
這裡先簡單介紹單機模式 ,默認情況下,Hadoop被配置成一個非分布式模式,獨立運行JAVA進程,適合開始做調試工作。
Hadoop 網址http://hadoop.apache.org/
下載地址:http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.0.2-alpha/hadoop-2.0.2-alpha.tar.gz
下載的版本是hadoop-2.0.2-alpha
安裝前確定java安裝 略
一、拷貝到/usr/local 解壓hadoop
cp hadoop-2.0.2-alpha.tar.gz /usr/local
cd /usr/local
tar -zxvf hadoop-2.0.2-alpha.tar.gz
目錄結構和配置文件這裡就 省略()
二、修改配置文件 hadoop-env.sh
Hadoop的配置文件都在 hadoop-2.0.2-alpha/etc/hadoop下,由於默認情況下是單機模式,一般不用做修改就可以直接做第三步測試實例,下面只是安裝實際情況修改。
1、在hadoop中配置JAVA_HOME
默認的是export JAVA_HOME=${JAVA_HOME} 如果原來在環境變量中配置過,就可用使用默認的,不需修改
export JAVA_HOME=/opt/java
/opt/java 也就是jdk安裝的路徑
2、修改java虛擬機的類存
原來啟動JVM時配置的最大內存是128m,當運行hadoop的一些自帶的實例會報內存溢出,其實這裡是可以修改內存大小
如果不需要也不必修改。
export HADOOP_CLIENT_OPTS="-Xmx128m $HADOOP_CLIENT_OPTS"
export HADOOP_CLIENT_OPTS="-Xmx512m $HADOOP_CLIENT_OPTS"
三、運行實例 Hello Hadoop
切換到該安裝目錄下,建立要上傳到hadoop的兩個文件 test1.txt、test2.txt
mkdir input
cd input
echo "hello world" > test1.txt
echo "hello hadoop" > test2.txt
cd ..
運行hadoop自帶的wordcount實例可以統計一批文本文件中單詞出現的次數
$bin/hadoop jar /usr/local/hadoop-2.0.2-alpha/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.0.2-alpha.jar wordcount input output
查看結果
$cat output/*
hadoop 1
hello 2
world 1