HBase分布式數(shù)據(jù)庫(kù)最重要的就是存儲(chǔ)數(shù)據(jù),下面,從四個(gè)方面詳細(xì)介紹HBase的物理存儲(chǔ)。查看全文>>
隨著互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模的不斷增大,對(duì)文件存儲(chǔ)系統(tǒng)提出了更高的要求,需要更大的容量、更好的性能以及安全性更高的文件存儲(chǔ)系統(tǒng),與傳統(tǒng)分布式文件系統(tǒng)一樣,HDFS分布式文件系統(tǒng)也是通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連,但也有傳統(tǒng)分布式文件系統(tǒng)的優(yōu)點(diǎn)和缺點(diǎn)。查看全文>>
Spark可以從Hadoop支持的任何存儲(chǔ)源中加載數(shù)據(jù)去創(chuàng)建RDD,包括本地文件系統(tǒng)和HDFS等文件系統(tǒng)。我們通過(guò)Spark中的SparkContext對(duì)象調(diào)用textFile()方法加載數(shù)據(jù)創(chuàng)建RDD。這里以Linux本地系統(tǒng)和HDFS分布式文件系統(tǒng)為例,講解如何創(chuàng)建RDD。查看全文>>
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、隨時(shí)間變化的,但信息本身相對(duì)穩(wěn)定的數(shù)據(jù)集合,它用于支持企業(yè)或組織的決策分析處理,基于數(shù)據(jù)倉(cāng)庫(kù)的定義,數(shù)據(jù)倉(cāng)庫(kù)此處有四個(gè)特點(diǎn):查看全文>>
Sqoop是Apache旗下的一款開(kāi)源工具,該項(xiàng)目開(kāi)始于2009年,最早是作為Hadoop的一個(gè)第三方模塊存在,后來(lái)為了讓使用者能夠快速部署,也為了讓開(kāi)發(fā)人員能夠更快速的迭代開(kāi)發(fā),并在2013年,獨(dú)立成為Apache的一個(gè)頂級(jí)開(kāi)源項(xiàng)目。查看全文>>
Hadoop是由Java語(yǔ)言開(kāi)發(fā)的,Hadoop集群的使用依賴于Java環(huán)境,因此在安裝Hadoop集群前,需要先安裝并配置好JDK。 接下來(lái),就在前面規(guī)劃的Hadoop集群主節(jié)點(diǎn)hadoop01機(jī)器上分步驟演示,如何安裝和配置JDK,具體如下。查看全文>>