簡(jiǎn)述MapTask工作原理

更新時(shí)間:2021-12-06 來(lái)源:黑馬程序員瀏覽量:

MapTask作為MapReduce工作流程的前半部分，它主要經(jīng)歷了5個(gè)階段,分別是Read階段、Map階段、Collect階段、Spill階段和Combine階段，如下圖所示。

1638779143474_MapTask工作原理.jpg

關(guān)于MapTask這5個(gè)階段的相關(guān)介紹如下:

(1) Read階段: MapTask通過(guò)用戶編寫(xiě)的RecordReader，從輸人的InputSplit中解析出一個(gè)個(gè)key/value。

(2) Map階段：將解析出的key/value交給用戶編寫(xiě)的map()函數(shù)處理，并產(chǎn)生一系列新的key/value。

(3) Collect階段：在用戶編寫(xiě)的map()函數(shù)中，數(shù)據(jù)處理完成后，一般會(huì)調(diào)用outputCollector.collct()輸出結(jié)果，在該麗數(shù)內(nèi)部，它會(huì)將生成的key/value分片(通過(guò)調(diào)用partitioner)，并寫(xiě)入一個(gè)環(huán)形內(nèi)存緩沖區(qū)中。

(4) Spill階段：即“溢寫(xiě)”，當(dāng)環(huán)形緩沖區(qū)滿后，MapReduce會(huì)將數(shù)據(jù)寫(xiě)到本地磁盤(pán)上，生成一個(gè)臨時(shí)文件。需要注意的是，將數(shù)據(jù)寫(xiě)人本地磁盤(pán)前，先要對(duì)數(shù)據(jù)進(jìn)行一次本地排序，并在必要時(shí)對(duì)數(shù)據(jù)進(jìn)行合并、壓縮等操作。

(5) Combine階段：當(dāng)所有數(shù)據(jù)處理完成以后，MapTask會(huì)對(duì)所有臨時(shí)文件進(jìn)行一次合并，以確保最終只會(huì)生成一個(gè)數(shù)據(jù)文件。

MapReduce的工作流程是怎樣的？

MapReduce中Maper組件用法介紹

黑馬程序員python+大數(shù)據(jù)培訓(xùn)課程

上一篇：MapReduce核心思想【圖文介紹】 下一篇：ReduceTask工作原理：ReduceTask工作過(guò)程有哪幾個(gè)階段？