歡迎來到Linux教程網
Linux教程網
Linux教程網
Linux教程網
Linux教程網 >> Linux基礎 >> 關於Linux >> 001潛入大數據Hadoop框架的世界

001潛入大數據Hadoop框架的世界

日期:2017/3/1 12:07:38   编辑:關於Linux

我的大數據初步學習路線圖

了解雲計算技術 學習Hadoop基礎概念 hadoop HDFS文件系統的特征 什麼是Map/Reduce Mapreduce 整個工作機制圖 Hadoop mapper類的閱讀 Mapreduce shuffle和排序 java處理海量數據 運用python數據分析

課題:雲計算和大數據技術與應用
講座人:杜宇健 (清華大學自動化系博士,中國移動研究院,技術總監)
昨天下午去聽講座,我坐在第二排,會上到了學生提問環節,作為全場唯一一個提問的學生,我問了一些很基礎很細節的問題:
“杜老師您好!對於大數據初學者,我現在只懂得在ClouderaManager操作,用web 界面建立集群,用用wordcount,統計下單詞這些。您有哪些具體的學習建議能讓初學者更好地入門?”

“進行服務器的部署這些只是基本的工作,會看看數據圖表還不夠,最重要的是你要懂得它的運行機制,這是你要學習的地方,”會下還和杜老師問了”研究大數據應該用什麼開發語言?“python,當然是用python!”“另外linux這些要多學學。”

雲計算和大數據技術與應用vczhuam/ydPDtcShorHjvd21xKGisLTQ6LXEzfjC57fDzsqjrCC9+Mjrv8nF5NbDtcS8xsvj18rUtLmyz+2z2KOo18rUtLD8wKjN+MLno6y3/s7xxvejrLTmtKKjrNOm08PI7bz+o6y3/s7xo6mjrNXi0KnXytS0xNy5u7G7v+zL2czhuamjrNa70OjNtsjrutzJ2bXEudzA7bmk1/ejrLvy0+u3/s7xuanTpsnMvfjQ0Lrcydm1xL27u6WhozxiciAvPg0K1Ma8xsvj1qez1tPDu6fU2sjO0uLOu9bDoaLKudPDuPfW1tbVtsu78cih06bTw7f+zvGhozxiciAvPg0KPHN0cm9uZz4jSGFkb29wtcS7+bShuMXE7iM8L3N0cm9uZz48YnIgLz4NCkhhZG9vcLXEv/K83NfuusvQxLXEyei8xr7NysejukhERlO6zU1hcFJlZHVjZaGjSERGU86quqPBv7XEyv2+3czhuanBy7TmtKKjrNTyTWFwUmVkdWNlzqq6o8G/tcTK/b7dzOG5qcHLvMbL46GjR29vZ2xlIMLbzsTAz8j9xqogR0ZTLCBNYXBSZWR1Y2UsIEJpZ1RhYmxlo6zS/beiwctIYWRvb3C1xLP2z9a3otW5o6xIREZTvs3Kx0dvb2dsZSBHRlPOxLz+z7XNs7XEv6rUtMq1z9ahozxiciAvPg0KSGFkb29wIMrH1+7K3Lu20621xNTaIEludGVybmV0IMnPttQ8ZW0+y9HL97nYvPzX1r340NDE2sjdt9bA4DwvZW0+tcS5pL7fo6y1q8v80rK/ydLUveK+9tDttuDSqsfzvKu088nsy/XQ1LXEzsrM4qGjPC9wPg0KPHA+PHN0cm9uZz5IYWRvb3DJ+sysz7XNszwvc3Ryb25nPjxiciAvPg0KPGltZyBhbHQ9"這裡寫圖片描述" src="http://www.2cto.com/uploadfile/Collfiles/20160425/20160425091056372.jpg" title="\" />
1.Common
一組分布式文件系統和通用I/O的組件與接口(序列化,java PRC 和持續化數據結構)
2. HDFS文件系統
分布式文件系統,運行於大型商用機集群。
3.Avro
一種支持高效,跨語言的RPC以及永久存儲數據的序列化系統
4.MaprReduce
分布式數據處理模型和執行環境,運行於大型商用機集群。采用無共享大規模集群系統。
5.Pig
一種數據流語言和運行環境,用檢索非常大的數據集。pig運行再MapReduce和HDFS的集群上。
6.Hive
一個分布式,按列存儲的數據倉庫。hive管理HDFS中存儲的數據,並提供基於SQL的查詢語言(由運行時引擎翻譯成Maoreduce作業)用於查詢數據。
7.Hbase
一個分布式,按列存儲的數據倉庫。Hbase使用HDFS做為底層存儲,同時支持MapReduce的批量式計算和點查詢(隨機讀取)
8.ZooKeeper
一個分布式、可用性高的協調服務。ZooKeeper 提供分布式鎖之類的基本服務用於構建分布式應用。
9.Sqoop
在數據庫和HDFS之間高效傳輸數據的工具

雲計算是大數據的承載主體,未來發展的趨勢還是很迅猛。

什麼是Openstack?
這裡寫圖片描述
OpenStack是一個雲平台管理的項目,它不是一個軟件。這個項目由幾個主要的組件組合起來完成一些具體的工作。
OpenStack是一個旨在為公共及私有雲的建設與管理提供軟件的開源項目,OpenStack被公認作為基礎設施即服務(簡稱IaaS)資源的通用前端。
OpenStack是IaaS(基礎設施即服務)組件,讓任何人都可以自行建立和提供雲端運算服務.
openstack是用做雲計算的一個平台,或則一個解決方案。它是雲計算一個重要組成部分。先隊openstack有個感性的認識,可以用web訪問的平台。
(2)openstack組件。
這裡寫圖片描述
大家都知道阿裡雲平台,百度雲平台,而阿裡雲平台據傳說就是對openstack的二次開發。對於二次開發相信只要接觸過軟件的都會明白這個概念。不明白的自己網上去查一下。也就是說openstack,可以搭建雲平台,什麼雲平台,公有雲,私有雲。現在百度在招聘的私有雲工程師,應該就是這方面的人才。
(3)openstack自身都包含什麼
以下是5個OpenStack的重要構成部分:
l Nova – 計算服務
l Swift – 存儲服務
l Glance – 鏡像服務
l Keystone – 認證服務
l Horizon – UI服務

接下裡在慢慢了解openstack基本架構。

什麼是Docker?

Docker 是一個開源的應用容器引擎,讓開發者可以打包他們的應用以及依賴包到一個可移植的容器中,然後發布到任何流行的 Linux 機器上,也可以實現虛擬化。
Docker並不是全能的,設計之初也不是KVM之類虛擬化手段的替代品,簡單總結幾點:
Docker是基於Linux 64bit的,無法在32bit的linux/Windows/unix環境下使用
LXC是基於cgroup等linux kernel功能的,因此container的guest系統只能是linux base的
隔離性相比KVM之類的虛擬化方案還是有些欠缺,所有container公用一部分的運行庫
網絡管理相對簡單,主要是基於namespace隔離
cgroup的cpu和cpuset提供的cpu功能相比KVM的等虛擬化方案相比難以度量(所以dotcloud主要是按內存收費)
docker對disk的管理比較有限
container隨著用戶進程的停止而銷毀,container中的log等用戶數據不便收集

要求的基本能力

1.進行服務器間的配網
2.熟練搭建集群環境,能夠運行單詞統計的示例程序首先。
3.給hadoop集群增加刪減節點
4.熟悉hadoop的生態環境
5.學習java處理海量數據
6.運用python進行數據分析

Copyright © Linux教程網 All Rights Reserved