您现在的位置： Linux教程網 >> UnixLinux > >> Linux綜合 >> 學習Linux

實戰CentOS系統部署Hadoop集群服務

導讀Hadoop是一個由Apache基金會所開發的分布式系統基礎架構，Hadoop實現了一個分布式文件系統（Hadoop Distributed File System），簡稱HDFS。HDFS有高容錯性特點，並且設計用來部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）來訪問應用程序的數據，適合那些有著超大數據集（large data set）的應用程序；HDFS放寬了（relax）POSIX的要求，可以以流的形式訪問（streaming access）文件系統中的數據。

HDFS架構圖
一、Hadoop框架簡介
Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS為海量的數據提供了存儲，則MapReduce為海量的數據提供了計算。
HDFS(Hadoop Distribution File System)，稱為Hadoop分布式文件系統，主要特點：
HDFS最小以64MB的數據塊存儲文件，相比其他文件系統中的4KB~32KB分塊大得多。
HDFS在時延的基礎上對吞吐量進行了優化，它能夠高效處理了對大文件的讀請求流，但不擅長對眾多小文件的定位請求
HDFS對普通的“一次寫入，多次讀取”的工作負載進行了優化。
每個存儲節點運行著一個稱為DataNode的進程，它管理著相應主機上的所有數據塊。這些存儲節點都由一個稱為NameNode的主進程來協調，該進程運行於一台獨立進程上。
與磁盤陣列中設置物理冗余來處理磁盤故障或類似策略不同，HDFS使用副本來處理故障，每個由文件組成的數據塊存儲在集群眾的多個節點，HDFS的NameNode不斷監視各個DataNode發來的報告。
1、MapReduce工作原理
客戶端，提交MapReduce作業；jobtracker，協調作業的運行，jobtracker是一個java應用程序，它的主類是JobTracker；tasktracker。運行作業劃分後的任務，tasktracker是一個java應用程序，TaskTracker是主類。
2、Hadoop優點
Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平台。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點：
高可靠性：Hadoop按位存儲和處理數據的能力值得人們信賴。
高擴展性：Hadoop是在可用的計算機集簇間分配數據並完成計算任務的，這些集簇可以方便地擴展到數以千計的節點中。
高效性：Hadoop能夠在節點之間動態地移動數據，並保證各個節點的動態平衡，因此處理速度非常快。
高容錯性：Hadoop能夠自動保存數據的多個副本，並且能夠自動將失敗的任務重新分配。
低成本：與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比，hadoop是開源的，項目的軟件成本因此會大大降低。
Hadoop帶有用Java語言編寫的框架，因此運行在 Linux 生產平台上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫，比如 C++。
Hadoop官網：http://hadoop.apache.org/
二、先決條件
保持Hadoop集群每個節點配置環境一致，安裝java，配置ssh。
實驗環境：
Platform：xen vm
OS: CentOS 6.8
Software: hadoop-2.7.3-src.tar.gz, jdk-8u101-linux-x64.rpm
HostnameIP AddressOS versionHadoop roleNode rolelinux-node1192.168.0.89CentOS 6.8Masternamenodelinux-node2192.168.0.90CentOS 6.8Slavedatenodelinux-node3192.168.0.91CentOS 6.8Slavedatenodelinux-node4192.168.0.92CentOS 6.8Slavedatenode
#把需要的軟件包下載下來上傳到集群的各個節點上
三、集群的構架和安裝1、Hosts文件設置
#Hadoop集群中的每個節點的hosts文件都需要修改
[root@linux-node1 ~]# cat /etc/hosts127.0.0.1 localhost localhost.localdomain linux-node1192.168.0.89 linux-node1192.168.0.90 linux-node2192.168.0.91 linux-node3192.168.0.92 linux-node4
2、安裝java
#提前把下載好的JDK（rpm包）上傳到服務器上，然後安裝
rpm -ivh jdk-8u101-linux-x64.rpmexport JAVA_HOME=/usr/java/jdk1.8.0_101/export PATH=$JAVA_HOME/bin:$PATH# java -versionjava version "1.8.0_101"Java(TM) SE Runtime Environment (build 1.8.0_101-b13)Java HotSpot(TM) 64-Bit Server VM (build 25.101-b13, mixed mode)
3、安裝hadoop
#創建hadoop用戶，設置使用sudo
[root@linux-node1 ~]# useradd hadoop && echo hadoop | passwd --stdin hadoop[root@linux-node1 ~]# echo "hadoopALL=(ALL) NOPASSWD:ALL" >> /etc/sudoers[root@linux-node1 ~]# su - hadoop[hadoop@linux-node1 ~]$ cd /usr/local/src/[hadoop@linux-node1src]$wget http://apache.fayea.com/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz[hadoop@linux-node1 src]$ sudo tar zxvf hadoop-2.7.3.tar.gz -C /home/hadoop/ && cd /home/hadoop[hadoop@linux-node1 home/hadoop]$ sudo mv hadoop-2.7.3/ hadoop[hadoop@linux-node1 home/hadoop]$ sudo chown -R hadoop:hadoop hadoop/
#將hadoop的二進制目錄添加到PATH變量，並設置HADOOP_HOME環境變量
[hadoop@linux-node1 home/hadoop]$ export HADOOP_HOME=/home/hadoop/hadoop/[hadoop@linux-node1 home/hadoop]$ export PATH=$HADOOP_HOME/bin:$PATH
4、創建hadoop相關目錄
[hadoop@linux-node1 ~]$ mkdir -p /home/hadoop/dfs/{name,data}[hadoop@linux-node1 ~]$ mkdir -p /home/hadoop/tmp
#節點存儲數據備份目錄
sudo mkdir -p /data/hdfs/{name,data}sudo chown -R hadoop:hadoop /data/
#上述操作需在hadoop集群的每個節點都操作
5、SSH配置
#設置集群主節點免密碼登陸其他節點
[hadoop@linux-node1 ~]$ ssh-keygen -t rsa[hadoop@linux-node1 ~]$ ssh-copy-id [email protected][hadoop@linux-node1 ~]$ ssh-copy-id [email protected][hadoop@linux-node1 ~]$ ssh-copy-id [email protected]
#測試ssh登錄
6、修改hadoop的配置文件
文件位置：/home/hadoop/hadoop/etc/hadoop，文件名稱：hadoop-env.sh、yarn-evn.sh、slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、 yarn-site.xml
（1）配置hadoop-env.sh文件
#在hadoop安裝路徑下，進入hadoop/etc/hadoop/目錄並編輯hadoop-env.sh，修改JAVA_HOME為JAVA的安裝路徑
[hadoop@linux-node1 home/hadoop]$ cd hadoop/etc/hadoop/[hadoop@linux-node1 hadoop]$ egrep JAVA_HOME hadoop-env.sh# The only required environment variable is JAVA_HOME. All others are# set JAVA_HOME in this file, so that it is correctly defined on#export JAVA_HOME=${JAVA_HOME}export JAVA_HOME=/usr/java/jdk1.8.0_101/
（2）配置yarn.sh文件
指定yran框架的java運行環境，該文件是yarn框架運行環境的配置文件，需要修改JAVA_HOME的位置。
[hadoop@linux-node1 hadoop]$ grep JAVA_HOME yarn-env.sh# export JAVA_HOME=/home/y/libexec/jdk1.6.0/export JAVA_HOME=/usr/java/jdk1.8.0_101/
（3）配置slaves文件
指定DataNode數據存儲服務器，將所有的DataNode的機器的主機名寫入到此文件中，如下：
[hadoop@linux-node1 hadoop]$ cat slaveslinux-node2linux-node3linux-node4
Hadoop 3種運行模式
本地獨立模式：Hadoop的所有組件，如NameNode，DataNode，Jobtracker，Tasktracker都運行在一個java進程中。
偽分布式模式：Hadoop的各個組件都擁有一個單獨的Java虛擬機，它們之間通過網絡套接字通信。
完全分布式模式：Hadoop分布在多台主機上，不同的組件根據工作性質的不同安裝在不通的Guest上。
#配置完全分布式模式
（4）修改core-site.xml文件，添加紅色區域的代碼，注意藍色標注的內容
<configuration><property><name>fs.default.name</name><value>hdfs://linux-node1:9000</value></property><property><name>io.file.buffer.size</name><value>131072</value></property><property><name>hadoop.tmp.dir</name><value>file:/home/hadoop/tmp</value><description>Abase for other temporary directories.</description></property></configuration>
（5）修改hdfs-site.xml文件
<configuration><property><name>dfs.namenode.secondary.http-address</name><value>linux-node1:9001</value><description># 通過web界面來查看HDFS狀態 </description></property><property><name>dfs.namenode.name.dir</name><value>file:/home/hadoop/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/home/hadoop/dfs/data</value></property><property><name>dfs.replication</name><value>2</value><description># 每個Block有2個備份</description></property><property><name>dfs.webhdfs.enabled</name><value>true</value></property></configuration>
（6）修改mapred-site.xml
這個是mapreduce任務的配置，由於hadoop2.x使用了yarn框架，所以要實現分布式部署，必須在mapreduce.framework.name屬性下配置為yarn。mapred.map.tasks和mapred.reduce.tasks分別為map和reduce的任務數。
[hadoop@linux-node1 hadoop]$ cp mapred-site.xml.template mapred-site.xml<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>linux-node1:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>linux-node1:19888</value></property></configuration>
（7）配置節點yarn-site.xml
#該文件為yarn架構的相關配置
<?xml version="1.0"?><configuration><property><name>mapred.child.java.opts</name><value>-Xmx400m</value></property></configuration><?xml version="1.0"?><configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</value></property><property><name>yarn.resourcemanager.address</name><value>linux-node1:8032</value></property><property><name>yarn.resourcemanager.scheduler.address</name><value>linux-node1:8030</value></property><property><name>yarn.resourcemanager.resource-tracker.address</name><value>linux-node1:8031</value></property><property><name>yarn.resourcemanager.admin.address</name><value>linux-node1:8033</value></property><property><name>yarn.resourcemanager.webapp.address</name><value>linux-node1:8088</value></property><property><name>yarn.nodemanager.resource.memory-mb</name><value>8192</value></property></configuration>
7、復制hadoop到其他節點
scp -r /home/hadoop/hadoop/ 192.168.0.90:/home/hadoop/scp -r /home/hadoop/hadoop/ 192.168.0.91:/home/hadoop/scp -r /home/hadoop/hadoop/ 192.168.0.92:/home/hadoop/
8、在linux-node1使用hadoop用戶初始化NameNode
/home/hadoop/hadoop/bin/hdfs namenode –format
#echo $?#sudo yum –y install tree# tree /home/hadoop/dfs
9、啟動hadoop
/home/hadoop/hadoop/sbin/start-dfs.sh/home/hadoop/hadoop/sbin/stop-dfs.sh
#namenode節點上面查看進程
ps aux | grep --color namenode
#DataNode上面查看進程
ps aux | grep --color datanode

10、啟動yarn分布式計算框架
[hadoop@linux-node1 .ssh]$ /home/hadoop/hadoop/sbin/start-yarn.sh starting yarn daemons

#NameNode節點上查看進程
ps aux | grep --color resourcemanager
#DataNode節點上查看進程
ps aux | grep --color nodemanager
注：start-dfs.sh和start-yarn.sh這兩個腳本可用start-all.sh代替
/home/hadoop/hadoop/sbin/stop-all.sh/home/hadoop/hadoop/sbin/start-all.sh
11、啟動jobhistory服務，查看mapreduce狀態
#在NameNode節點上
[hadoop@linux-node1 ~]$ /home/hadoop/hadoop/sbin/mr-jobhistory-daemon.sh start historyserverstarting historyserver, logging to /home/hadoop/hadoop/logs/mapred-hadoop-historyserver-linux-node1.out
12、查看HDFS分布式文件系統狀態
/home/hadoop/hadoop/bin/hdfs dfsadmin –report
#查看文件塊組成，一個文件由那些塊組成
/home/hadoop/hadoop/bin/hdfs fsck / -files -blocks
13、web頁面查看hadoop集群狀態
查看HDFS狀態：http://192.168.0.89:50070/

查看Hadoop集群狀態：http://192.168.0.89:8088/
本文原創地址：http://www.linuxprobe.com/centos-deploy-hadoop-cluster.html ‎

http://xxxxxx/Linuxjc/1184698.html TechArticle

上一篇文章： redis和memcached的區別
下一篇文章： Hadoop集群中Hbase的介紹、安裝、使用

學習Linux

實戰CentOS系統部署Hadoop集群服務

實戰Centos系統部署Codis集群服務

CentOS 7 部署RabbitMQ 服務

CentOS：設置系統級代理（轉），centos

Windows 10 安裝雙系統 CentOS 7，雙系統centos

CentOS修改服務器系統時間，centos修改服務器

CentOS系統服務優化

CentOS 6,7系統服務管理

相關文章

CentOS 6系統服務詳解

CentOS 6.5 x86_64 系統定制自動化部署

CentOS 7 部署saltstack服務

CentOS 7 部署RabbitMQ 服務

CentOS 7.2 部署Rsync服務

CentOS 7.2 部署Redis服務

CentOS(7.x64位) 安裝Redis3.2 並設置為系統服務

CentOS 6,7系統服務管理

CentOS 7添加自定義系統服務

CentOS 6.5 部署Unison雙向同步服務

CentOS 6的系統啟動流程，centos啟動流程

CentOS上部署JAVA服務

Linux軟件

Linux桌面

Linux內核

Linux嵌入式

Linux安裝

Linux命令

Ubuntu Linux

Red hat Linux

Linux資訊

紅旗Linux

學習Linux