版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
朱佳目錄0102確定正確文件格式的標(biāo)準(zhǔn)HDFS支持的文件格式確定正確文件格式的標(biāo)準(zhǔn)1確定正確文件格式的標(biāo)準(zhǔn)文件格式的靈活性:一些文件格式能很好地支持隨著時(shí)間的推移模式的演變。如果預(yù)計(jì)會(huì)添加或刪除數(shù)據(jù)字段,以該文件格式可以讀取歷史數(shù)據(jù)而無(wú)須修改代碼,則這就是最好的格式。在理想情況下,應(yīng)該能夠讀取所有歷史數(shù)據(jù),即使模式已隨時(shí)間更改,也無(wú)須重寫(xiě)代碼。壓縮能力:當(dāng)使用大文件時(shí),需要警惕需要的磁盤(pán)存儲(chǔ)。如果文件大小為10GB,由于每個(gè)文件將被復(fù)制3次,故實(shí)際上需要30GB的磁盤(pán)存儲(chǔ)來(lái)存儲(chǔ)該文件。顯然,任何可以節(jié)省磁盤(pán)存儲(chǔ)空間的事情都是一件大好事情。確定正確文件格式的標(biāo)準(zhǔn)可分割性:如果Hadoop可以從文件中的任何特定點(diǎn)讀取數(shù)據(jù),則該文件被認(rèn)為是可拆分的。如果Hadoop無(wú)法在文件中的任意點(diǎn)開(kāi)始處理文件,那么該文件是不可拆分的。性能:壓縮數(shù)據(jù)對(duì)性能有明顯影響,需要在此上下文中區(qū)分出寫(xiě)入和讀取性能。一些文件格式對(duì)于讀取壓縮數(shù)據(jù)表現(xiàn)得很好,但是提供較低的寫(xiě)入性能。文件大?。喝缜八?,使用大型可拆分文件是有利的,因?yàn)樾∥募焕诟咝幚?。確定正確文件格式的標(biāo)準(zhǔn)與處理工具的兼容性:選擇文件格式的關(guān)鍵標(biāo)準(zhǔn)是格式與Hadoop環(huán)境中使用的各種工具(如Hive和Pig)的兼容性。Hadoop組件支持多種數(shù)據(jù)格式,如文本文件、SequenceFiles和RC。例如,Hive可以將數(shù)據(jù)加載到Text、Parquet、Avro、RC和SequenceFile格式文件。HDFS支持的文件格式2HDFS支持的文件格式Hadoop支持多種數(shù)據(jù)存儲(chǔ)格式。可以在SQL語(yǔ)句中明確指定使用某種格式,例如STOREDASPARQUETFILE或使用已安裝的接口(如Avro)。下面簡(jiǎn)要回顧Hadoop支持的數(shù)據(jù)格式。文本文件和二進(jìn)制格式:文本文件是默認(rèn)的存儲(chǔ)格式,它是以分隔形式存儲(chǔ)的數(shù)據(jù),每條記錄使用單獨(dú)的行,使用記錄界定新行。HDFS支持的文件格式SequenceFiles:SequenceFiles提供用于存儲(chǔ)二進(jìn)制鍵/值對(duì)的持久數(shù)據(jù)結(jié)構(gòu)。這些文件是基于行的,并且經(jīng)常被MapReduce作業(yè)用來(lái)在它們之間傳輸數(shù)據(jù)。SequenceFiles支持拆分,即使是壓縮數(shù)據(jù)。SequenceFiles用作存儲(chǔ)小文件的容器。RC文件和ORC文件:RC文件和ORC文件是高效的二進(jìn)制格式,這種文件以列格式存儲(chǔ)數(shù)據(jù)具有很多優(yōu)點(diǎn)。RC文件是一種高性能的平面文件存儲(chǔ)格式,以二進(jìn)制鍵/值對(duì)的形式存儲(chǔ)數(shù)據(jù)。HDFS支持的文件格式Parquet文件格式:Parquet提供了一種支持編碼模式和高效壓縮的列式存儲(chǔ)格式,從而提供更高的查詢性能。Parquet支持Snappy和gzip壓縮格式。Avro文件:Avro是較受歡迎的Hadoop存儲(chǔ)格式之一。Avro使用AvroSerDes可以輕松地表示復(fù)雜的數(shù)據(jù)存儲(chǔ)。在許多方面,Avro類(lèi)似于序列文件。雖然Se
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- (新版)中職創(chuàng)新創(chuàng)效創(chuàng)業(yè)競(jìng)賽考試題庫(kù)500題(含答案)
- 助力員工成長(zhǎng)的計(jì)劃與目標(biāo)
- 水務(wù)行業(yè)的科技創(chuàng)新研究計(jì)劃
- 學(xué)期目標(biāo)與職責(zé)分工明確計(jì)劃
- 數(shù)字化時(shí)代品牌營(yíng)銷(xiāo)的未來(lái)趨勢(shì)計(jì)劃
- 房地產(chǎn)行業(yè)安全風(fēng)險(xiǎn)管控計(jì)劃
- 培養(yǎng)幼兒團(tuán)隊(duì)合作精神的方法計(jì)劃
- 房地產(chǎn)行業(yè)品牌宣傳策略計(jì)劃
- 制定年度目標(biāo)的實(shí)施方案計(jì)劃
- 【人教版】pep六年級(jí)英語(yǔ)下全冊(cè)教案(表格版)
- 九年級(jí)化學(xué)上冊(cè)(滬教版2024)新教材解讀課件
- 2024年陜西西安市自來(lái)水有限公司招聘筆試參考題庫(kù)含答案解析
- 靜脈血液標(biāo)本采集指南
- 跌倒-墜床不良事件魚(yú)骨圖分析
- 小學(xué)主題班會(huì)課件《食品安全教育》(共41張PPT)通用版
- 日本光電MEK7222KSOP文件
- PPT圖標(biāo)素材大全
- 國(guó)家計(jì)委計(jì)價(jià)格[2002]1980號(hào)文件
- 某化工技改工程地基基礎(chǔ)施工方案
- 譯林版英語(yǔ)四 上 Project 1 A profile
- picc置管前評(píng)估
評(píng)論
0/150
提交評(píng)論