HDFS支持的文件格式_第1頁(yè)
HDFS支持的文件格式_第2頁(yè)
HDFS支持的文件格式_第3頁(yè)
HDFS支持的文件格式_第4頁(yè)
HDFS支持的文件格式_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

朱佳目錄0102確定正確文件格式的標(biāo)準(zhǔn)HDFS支持的文件格式確定正確文件格式的標(biāo)準(zhǔn)1確定正確文件格式的標(biāo)準(zhǔn)文件格式的靈活性:一些文件格式能很好地支持隨著時(shí)間的推移模式的演變。如果預(yù)計(jì)會(huì)添加或刪除數(shù)據(jù)字段,以該文件格式可以讀取歷史數(shù)據(jù)而無(wú)須修改代碼,則這就是最好的格式。在理想情況下,應(yīng)該能夠讀取所有歷史數(shù)據(jù),即使模式已隨時(shí)間更改,也無(wú)須重寫(xiě)代碼。壓縮能力:當(dāng)使用大文件時(shí),需要警惕需要的磁盤(pán)存儲(chǔ)。如果文件大小為10GB,由于每個(gè)文件將被復(fù)制3次,故實(shí)際上需要30GB的磁盤(pán)存儲(chǔ)來(lái)存儲(chǔ)該文件。顯然,任何可以節(jié)省磁盤(pán)存儲(chǔ)空間的事情都是一件大好事情。確定正確文件格式的標(biāo)準(zhǔn)可分割性:如果Hadoop可以從文件中的任何特定點(diǎn)讀取數(shù)據(jù),則該文件被認(rèn)為是可拆分的。如果Hadoop無(wú)法在文件中的任意點(diǎn)開(kāi)始處理文件,那么該文件是不可拆分的。性能:壓縮數(shù)據(jù)對(duì)性能有明顯影響,需要在此上下文中區(qū)分出寫(xiě)入和讀取性能。一些文件格式對(duì)于讀取壓縮數(shù)據(jù)表現(xiàn)得很好,但是提供較低的寫(xiě)入性能。文件大?。喝缜八?,使用大型可拆分文件是有利的,因?yàn)樾∥募焕诟咝幚?。確定正確文件格式的標(biāo)準(zhǔn)與處理工具的兼容性:選擇文件格式的關(guān)鍵標(biāo)準(zhǔn)是格式與Hadoop環(huán)境中使用的各種工具(如Hive和Pig)的兼容性。Hadoop組件支持多種數(shù)據(jù)格式,如文本文件、SequenceFiles和RC。例如,Hive可以將數(shù)據(jù)加載到Text、Parquet、Avro、RC和SequenceFile格式文件。HDFS支持的文件格式2HDFS支持的文件格式Hadoop支持多種數(shù)據(jù)存儲(chǔ)格式。可以在SQL語(yǔ)句中明確指定使用某種格式,例如STOREDASPARQUETFILE或使用已安裝的接口(如Avro)。下面簡(jiǎn)要回顧Hadoop支持的數(shù)據(jù)格式。文本文件和二進(jìn)制格式:文本文件是默認(rèn)的存儲(chǔ)格式,它是以分隔形式存儲(chǔ)的數(shù)據(jù),每條記錄使用單獨(dú)的行,使用記錄界定新行。HDFS支持的文件格式SequenceFiles:SequenceFiles提供用于存儲(chǔ)二進(jìn)制鍵/值對(duì)的持久數(shù)據(jù)結(jié)構(gòu)。這些文件是基于行的,并且經(jīng)常被MapReduce作業(yè)用來(lái)在它們之間傳輸數(shù)據(jù)。SequenceFiles支持拆分,即使是壓縮數(shù)據(jù)。SequenceFiles用作存儲(chǔ)小文件的容器。RC文件和ORC文件:RC文件和ORC文件是高效的二進(jìn)制格式,這種文件以列格式存儲(chǔ)數(shù)據(jù)具有很多優(yōu)點(diǎn)。RC文件是一種高性能的平面文件存儲(chǔ)格式,以二進(jìn)制鍵/值對(duì)的形式存儲(chǔ)數(shù)據(jù)。HDFS支持的文件格式Parquet文件格式:Parquet提供了一種支持編碼模式和高效壓縮的列式存儲(chǔ)格式,從而提供更高的查詢性能。Parquet支持Snappy和gzip壓縮格式。Avro文件:Avro是較受歡迎的Hadoop存儲(chǔ)格式之一。Avro使用AvroSerDes可以輕松地表示復(fù)雜的數(shù)據(jù)存儲(chǔ)。在許多方面,Avro類(lèi)似于序列文件。雖然Se

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論