首頁(yè)技術(shù)文章正文

大數(shù)據(jù)的Hadoop是什么,Hadoop的主要發(fā)展過(guò)程

更新時(shí)間:2020-10-16 來(lái)源:黑馬程序員 瀏覽量:

  

  很多同學(xué)都不了解大數(shù)據(jù)的Hadoop是什么,Hadoop的出現(xiàn)是由于現(xiàn)代科技的飛速發(fā)展,傳統(tǒng)數(shù)據(jù)的存儲(chǔ)容量、讀寫(xiě)速度、計(jì)算效率等越來(lái)越無(wú)法滿足用戶的需求,為了解決這些問(wèn)題,Google提出了三個(gè)處理大數(shù)據(jù)的技術(shù)手段,分別是:

  l MapReduce::Google的MapReduce開(kāi)源分布式并行計(jì)算框架

  l BigTable:一個(gè)大型的分布式數(shù)據(jù)庫(kù)

  l GFS:Google的分布式文件系統(tǒng)

  上述三大技術(shù)可以說(shuō)是革命性的技術(shù),具體表現(xiàn)在:

  (1) 成本降低、能用PC機(jī),就不用大型機(jī)和高端存儲(chǔ)。

  (2) 軟件容錯(cuò)硬件故障視為常態(tài),通過(guò)軟件保證可靠性。

  (3) 簡(jiǎn)化并行分布式計(jì)算,無(wú)須控制節(jié)點(diǎn)同步和數(shù)據(jù)交換。

  在2003至2004年,Google陸續(xù)公布了部分GFS和MapReduce思想的細(xì)節(jié),Nutch的創(chuàng)始人Doug Cutting受到啟發(fā),用了若干年時(shí)間實(shí)現(xiàn)了DFS和MapReduce機(jī)制,使Nutch性能飆升。

  2005年,Hadoop作為L(zhǎng)ucene子項(xiàng)目Nutch的一部分正式被引入Apache基金會(huì),隨后又從Nutch中剝離,成為一套完整獨(dú)立的軟件,起名為Hadoop。據(jù)說(shuō),Hadoop這個(gè)名字來(lái)源于創(chuàng)始人Doug Cutting兒子的毛絨玩具大象,因此,Hadoop的Logo形象如圖1所示。

1602830519979_111.jpg

  圖1 Hadoop Logo

  目前,Hadoop已經(jīng)正式成為Apache頂級(jí)開(kāi)源項(xiàng)目,儼然已經(jīng)成為大數(shù)據(jù)處理技術(shù)的核心地位。下面我們回顧一下近10年來(lái)Hadoop的主要發(fā)展歷程。

  · 2008年1月,Hadoop成為Apache頂級(jí)項(xiàng)目。

  · 2008年6月,Hadoop的第一個(gè)SQL框架——Hive成為了Hadoop的子項(xiàng)目。

  · 2009年7月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成為Hadoop項(xiàng)目的獨(dú)立子項(xiàng)目。

  · 2009年7月 ,Avro 和 Chukwa 成為Hadoop新的子項(xiàng)目。

  · 2010年5月 ,Avro脫離Hadoop項(xiàng)目,成為Apache頂級(jí)項(xiàng)目。

  · 2010年5月 ,HBase脫離Hadoop項(xiàng)目,成為Apache頂級(jí)項(xiàng)目。

  · 2010年9月,Hive脫離Hadoop,成為Apache頂級(jí)項(xiàng)目。

  · 2010年9月,Pig脫離Hadoop,成為Apache頂級(jí)項(xiàng)目。

  · 2010年-2011年,擴(kuò)大的Hadoop社區(qū)忙于建立大量的新組件(Crunch,Sqoop,F(xiàn)lume,Oozie等)來(lái)擴(kuò)展Hadoop的使用場(chǎng)景和可用性。

  · 2011年1月,ZooKeeper 脫離Hadoop,成為Apache頂級(jí)項(xiàng)目。

  · 2011年12月,Hadoop1.0.0版本發(fā)布,標(biāo)志著Hadoop已經(jīng)初具生產(chǎn)規(guī)模。

  · 2012年5月,Hadoop 2.0.0-alpha版本發(fā)布,這是Hadoop-2.x系列中第一個(gè)(alpha)版本。與之前的Hadoop-1.x系列相比,Hadoop-2.x版本中加入了YARN,YARN成為了Hadoop的子項(xiàng)目。

  · 2012年10月,Impala加入Hadoop生態(tài)圈。

  · 2013年10月,Hadoop2.0.0版本發(fā)布,標(biāo)志著Hadoop正式進(jìn)入MapReduce v2.0時(shí)代。

  · 2014年2月,Spark開(kāi)始代替MapReduce成為Hadoop的默認(rèn)執(zhí)行引擎,并成為Apache頂級(jí)項(xiàng)目。

  · 2017年12月,繼Hadoop3.0.0的四個(gè)Alpha版本和一個(gè)Beta版本后,第一個(gè)可用的Hadoop 3.0.0版本發(fā)布。


猜你喜歡:

虛擬機(jī)安裝教程:同一臺(tái)電腦上構(gòu)建多個(gè)Linux虛擬機(jī)環(huán)境

Kafka是什么?kafka有什么優(yōu)點(diǎn)?

什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘前景怎么樣?

分享到:
在線咨詢 我要報(bào)名
和我們?cè)诰€交談!