Zookeeper集群的配置一共分為5步,首先要修改Zookeeper的配置文件,進入Zookeeper解壓目錄下的conf目錄,復(fù)制配置文件zoo_sample.cfg并重命名為zoo.cfg,具體命令如下:查看全文>>
Spark可以通過并行集合創(chuàng)建RDD。即從一個已經(jīng)存在的集合、數(shù)組上,通過SparkContext對象調(diào)用parallelize()方法創(chuàng)建RDD。查看全文>>
創(chuàng)建SparkSession對象可以通過“SparkSession.builder().getOrCreate()”方法獲取,但當我們使用Spark-Shell編寫程序時,Spark-Shell客戶端會默認提供了一個名為“sc”的SparkContext對象和一個名為“spark”的SparkSession對象,因此我們可以直接使用這兩個對象查看全文>>
DataFrame是一種以RDD為基礎(chǔ)的分布式數(shù)據(jù)集,因此DataFrame可以完成RDD的絕大多數(shù)功能,在開發(fā)使用時,也可以調(diào)用方法將RDD和DataFrame進行相互轉(zhuǎn)換。查看全文>>
Spark作為開源項目,外部開發(fā)人員可以針對項目需求自行擴展Catalyst優(yōu)化器的功能。要想很好地支持SQL,就需要完成解析(Parser)、優(yōu)化(Optimizer)、執(zhí)行(Execution)三大過程。Catalyst優(yōu)化器在執(zhí)行計劃生成和優(yōu)化的工作時候,它離不開自己內(nèi)部的五大組件,具體介紹如下所示。查看全文>>
掌握了YARN的體系結(jié)構(gòu)后,接下來看一下YARN的工作流程,具體如下:查看全文>>