Shell命令可以很方便地操作HBase數(shù)據(jù)庫,例如創(chuàng)建、刪除及修改表、向表中添加數(shù)據(jù)、列出表中的相關信息等操作。不過當使用Shell命令行操作HBase時,首先需要進入HBase Shell交互界面,通過一系列Shell命令操作HBase,接下來,通過一張表列舉一些操作HBase表常見的Shell命令。查看全文>>
在HDFS分布式文件系統(tǒng)中,NameNode是系統(tǒng)的核心節(jié)點,它存儲了各類元數(shù)據(jù)信息,并負責管理文件系統(tǒng)的命名空間和客戶端對文件的訪問。但是,在Hadoop1.0版本中,NameNode只有一個,一旦這個NameNode發(fā)生故障,就會導致整個Hadoop集群不可用,也就是發(fā)生了單點故障問題。 為了解決單點故障問題,Hadoop2.0中的HDFS中增加了對高可用的支持。查看全文>>
Combiner組件是MapReduce程序中的一種重要的組件,如果想自定義Combiner,我們需要繼承Reducer類,并且重寫reduce()方法。接下來,我們針對詞頻統(tǒng)計案例編寫一個Combiner組件,演示如何創(chuàng)建和使用Combiner組件查看全文>>
MapReduce程序的運行模式主要有兩種:本地運行模式和集群運行模式,集群運行模式只需要將MapReduce程序打成Jar包上傳至集群即可,比較簡單,這里不再贅述。下面我們以詞頻統(tǒng)計為例,講解如何將MapReduce程序設置為在本地運行模式。查看全文>>
InputFormat主要用于描述輸入數(shù)據(jù)的格式,它提供數(shù)據(jù)切分和為Mapper提供輸入數(shù)據(jù)兩個功能。 Hadoop自帶了一個 InputFormat接口,該接口的定義代碼如下所示查看全文>>
MapReduce程序會根據(jù)輸入的文件產(chǎn)生多個map任務。Hadoop提供的Mapper類是實現(xiàn)Map任務的一個抽象基類,該基類提供了一個map()方法,默認情況下,Mapper類中的map()方法是沒有做任何處理的。查看全文>>