InputFormat接口的定義代碼如何設(shè)置？

更新時間:2020-11-04 來源:黑馬程序員瀏覽量:

　　InputFormat主要用于描述輸入數(shù)據(jù)的格式，它提供以下兩個功能：

　　數(shù)據(jù)切分：按照某個策略將輸入數(shù)據(jù)切分成若干個分片(split)，以便確定MapTask個數(shù)以及對應(yīng)的分片(split)。

　　·為Mapper提供輸入數(shù)據(jù)：給定某個分片(split)，將其解析成一個一個的key/value鍵值對。

　　· Hadoop自帶了一個 InputFormat接口，該接口的定義代碼如下所示：

public abstract class InputFormat<K, V> {

     public abstract List<InputSplit> getSplits(JobContext context

               ) throws IOException, InterruptedException;

     public abstract RecordReader<K,V>createRecordReader(InputSplit split,

                     TaskAttemptContext context

               ) throws IOException, InterruptedException;

  }

　　從上述代碼可以看出，InputFormat接口定義了getSplits()和createRecordReader()兩個方法，其中，getSplits()方法負(fù)責(zé)將文件切分為多個分片(split)，createRecordReader()方法負(fù)責(zé)創(chuàng)建RecordReader對象，用來從分片中讀取數(shù)據(jù)。下面，我們主要對getSplits()方法進(jìn)行介紹。 getSplits()方法主要實現(xiàn)了邏輯切片機(jī)制。其中，切片的大小splitSize是由3個值確定的，即minSize、maxSize和blockSize。 minSize：splitSize的最小值，由參數(shù)mapred.min.split.size確定，可在mapred-site.xml中進(jìn)行配置，默認(rèn)為1MB。 maxSize：splitSize的最大值，由參數(shù)mapreduce.jobtracker.split.metainfo.maxsize確定，可在mapred-site.xml中進(jìn)行設(shè)置，默認(rèn)值為10MB。 blockSize：HDFS中文件存儲塊的大小，由參數(shù)dfs.block,size確定，可在hdf-site.xml中進(jìn)行修改，默認(rèn)為128MB。

猜你喜歡：

　MapReduce中Maper組件用法介紹【黑馬程序員】

　Spark的集群安裝部署