ORC和Parquet這兩種儲(chǔ)存格式的優(yōu)點(diǎn)是什么

更新時(shí)間:2021-05-27 來源:黑馬程序員瀏覽量:

1577370495235_學(xué)IT就到黑馬程序員.gif

ORC和Parquet都是高性能的存儲(chǔ)方式，這兩種存儲(chǔ)格式總會(huì)帶來存儲(chǔ)和性能上的提升。

1.Parquet

（1）Parquet支持嵌套的數(shù)據(jù)模型，類似于Protocol Buffers，每一個(gè)數(shù)據(jù)模型的schema包含多個(gè)字段，每一個(gè)字段有三個(gè)屬性：重復(fù)次數(shù)、數(shù)據(jù)類型和字段名，重復(fù)次數(shù)可以是以下三種：required(只出現(xiàn)1次)，repeated(出現(xiàn)0次或多次)，optional(出現(xiàn)0次或1次)。每一個(gè)字段的數(shù)據(jù)類型可以分成兩種： group(復(fù)雜類型)和primitive(基本類型)。

（2）Parquet中沒有Map、Array這樣的復(fù)雜數(shù)據(jù)結(jié)構(gòu)，但是可以通過repeated和group組合來實(shí)現(xiàn)的。

（3）由于Parquet支持的數(shù)據(jù)模型比較松散，可能一條記錄中存在比較深的嵌套關(guān)系，如果為每一條記錄都維護(hù)一個(gè)類似的樹狀結(jié)可能會(huì)占用較大的存儲(chǔ)空間，因此Dremel論文中提出了一種高效的對于嵌套數(shù)據(jù)格式的壓縮算法：Striping/Assembly算法。通過Striping/Assembly算法，parquet可以使用較少的存儲(chǔ)空間表示復(fù)雜的嵌套格式，并且通常Repetition level和Definition level都是較小的整數(shù)值，可以通過RLE算法對其進(jìn)行壓縮，進(jìn)一步降低存儲(chǔ)空間。

Parquet文件是以二進(jìn)制方式存儲(chǔ)的，是不可以直接讀取和修改的，Parquet文件是自解析的，文件中包括該文件的數(shù)據(jù)和元數(shù)據(jù)。

2.ORC

（1）ORC文件是自描述的，它的元數(shù)據(jù)使用Protocol Buffers序列化，并且文件中的數(shù)據(jù)盡可能的壓縮以降低存儲(chǔ)空間的消耗；

（2）和Parquet類似，ORC文件也是以二進(jìn)制方式存儲(chǔ)的，所以是不可以直接讀取，ORC文件也是自解析的，它包含許多的元數(shù)據(jù)，這些元數(shù)據(jù)都是同構(gòu)ProtoBuffer進(jìn)行序列化的；

1622107663499_ORC和Parquet1.jpg

（3）ORC會(huì)盡可能合并多個(gè)離散的區(qū)間盡可能的減少I/O次數(shù)；

（4）ORC中使用了更加精確的索引信息，使得在讀取數(shù)據(jù)時(shí)可以指定從任意一行開始讀取，更細(xì)粒度的統(tǒng)計(jì)信息使得讀取ORC文件跳過整個(gè)row group，ORC默認(rèn)會(huì)對任何一塊數(shù)據(jù)和索引信息使用ZLIB壓縮，因此ORC文件占用的存儲(chǔ)空間也更??；

（5）在新版本的ORC中也加入了對Bloom Filter的支持，它可以進(jìn)一步提升謂詞下推的效率，在Hive 1.2.0版本以后也加入了對此的支持。

猜你喜歡：

什么是單繼承？Python中單繼承的語法格式是怎樣的？

Python JsonPath解析json的方法

相比Hive，Spark處理數(shù)據(jù)的速度為什么更快？

黑馬程序員Python+大數(shù)據(jù)開發(fā)培訓(xùn)

上一篇：如何定義和調(diào)用Python中的函數(shù)？ 下一篇：Django如何給客戶端推送消息？App推送如何實(shí)現(xiàn)？