九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
大數(shù)據(jù)學習路線分享MapReduce全流程總結(jié)

大數(shù)據(jù)學習路線分享MapReduce全流程總結(jié),首先,MapReduce是什么?干什么用的?

MapReduce是一個基于yarn的分布式、離線、并行的計算框架,主要職責是處理海量數(shù)據(jù)集,是Hadoop生態(tài)圈中一個非常重要的一個工具,所以MapReduce是大數(shù)據(jù)學習的一個很關(guān)鍵的知識點,需要大家好好掌握!

MapReduce其中包含許多組件,但最主要的還是Job提交和Map、Reduce的全流程這兩個部分,學習中只要把握好這兩條主線理清楚細節(jié)串成一個知識體系,那么MapReduce的學習就會得心應手了。關(guān)于Job作業(yè)的提交流程在Hadoop權(quán)威指南這本書上有相當詳細的步驟解析和圖示說明,那么這次總結(jié)主要關(guān)于MapReduce過程中海量數(shù)據(jù)是怎么被提取并在MapTask和ReduceTask中被處理,以及其中涉及運用的組件,讓我們一起來看看吧。

點擊添加圖片描述(最多60個字)

上面的圖從整體上描述了整個MapRduce流程,大致分為五個步驟

1、input(map端讀取分片數(shù)據(jù))--->2、Map處理--->3、shuffle過程--->4、reduce處理--->5、output(reduce端輸出處理結(jié)果)現(xiàn)在我們一步步來分析解釋這個過程。注:MP的整個過程中數(shù)據(jù)結(jié)構(gòu)為:key-value

1、 Map端讀取數(shù)據(jù)

a、在讀取之前,客戶端會對數(shù)據(jù)進行切片處理,分片機制如下,一個分片對應一個map,可調(diào)整客戶端的塊大小,minSize,maxSize改變map數(shù)量,minSize默認值是1,maxSize默認是long的最大值

b、如下圖所示,先對數(shù)據(jù)進行TextInputFormat格式化,然后lineRecordReader循環(huán)調(diào)用

nextKeyValue、getCurrentKey、getCurrentValue等方法將數(shù)據(jù)以<K,V>形式獲取到MapTask

c、切片讀取細節(jié):每次讀取都往下多讀取一行(第一個切片);下一個切片永遠拋棄第一行;最后一個切片不能多讀一行

點擊添加圖片描述(最多60個字)

2、 Map處理

a、在Map端,調(diào)用我們按照業(yè)務邏輯編寫的map()方法,每一行調(diào)用一次map()方法對數(shù)據(jù)進行處理,有且僅有一次,分別在調(diào)用map方法前調(diào)用setup()方法和在在調(diào)用map方法后調(diào)用cleanup()方法

在這個階段,數(shù)據(jù)會被分解成一個個<K,V>形式的鍵值對

b、在這個階段,可以有一個combiner過程,將數(shù)據(jù)進行局部整合(當數(shù)據(jù)量太大時),combiner能調(diào)用

3、 shuffle過程:是指數(shù)據(jù)從Map端輸出到Reduce端輸入這中間對數(shù)據(jù)的操作過程(數(shù)據(jù)分區(qū)、排序、緩存)

a、輸出從map端輸出后,會進入到outputCollector,一個數(shù)據(jù)收集器,然后由數(shù)據(jù)收集器將數(shù)據(jù)傳進一個有20%保留區(qū)的環(huán)形緩沖區(qū)(一般是100M)

b、當數(shù)據(jù)在環(huán)形緩沖區(qū)溢出時,會有一個spiller溢出器,在溢出器中會將數(shù)據(jù)調(diào)用getPartition(k,v,num)方法分區(qū),然后根據(jù)hashcode在分區(qū)內(nèi)進行快速排序,之后將數(shù)據(jù)發(fā)往Reduce

4、 reduce處理

a、經(jīng)過shuffle過程處理的數(shù)據(jù),是分區(qū)并排序的index索引文件,而reducetask框架從文件中讀取一個key傳遞給reduce方法,同時傳一個value迭代器

b、Value迭代器的hasnext方法會判斷文件中的下一個key是否是傳入時的key(如果是,則返回該value,如果不是,則停止,轉(zhuǎn)而調(diào)用下一個key)

c、看起來的效果,reducetask是將數(shù)據(jù)事先分組,每組調(diào)用一次reduce方法(其實不是)

d、reducetask處理完后,將所有分區(qū)文件進行歸并排序生成大文件輸出(默認輸出到hdfs)

e、

點擊添加圖片描述(最多60個字)

5、 output(reduce端輸出處理結(jié)果)

對數(shù)據(jù)進行TextOutputFormat處理,然后lineRecordWritor循環(huán)調(diào)用

nextKeyValue、getCurrentKey、getCurrentValue,輸出到外部文件系統(tǒng)(hdfs)

以上就是mapreduce對數(shù)據(jù)處理的全流程,這個階段的代碼比較簡單,只要把邏輯和數(shù)據(jù)處的思路和方向把握好,寫代碼也就手到擒來了

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
MapReduce與Yarn 的詳細工作流程分析
MapReduce 框架原理
【概念】詳解MapReduce原理
Hadoop學習之路(十四)MapReduce的核心運行機制
Hadoop | In Programming We Trust
hadoop 的MapReduce原理和學習心得
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服