海量數(shù)據(jù)常用處理方法_第1頁
海量數(shù)據(jù)常用處理方法_第2頁
海量數(shù)據(jù)常用處理方法_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

精選優(yōu)質(zhì)文檔-----傾情為你奉上精選優(yōu)質(zhì)文檔-----傾情為你奉上專心---專注---專業(yè)專心---專注---專業(yè)精選優(yōu)質(zhì)文檔-----傾情為你奉上專心---專注---專業(yè)海量數(shù)據(jù)常用處理方法處理海量數(shù)據(jù)是大數(shù)據(jù)工程師必備技能,通過對(duì)PB級(jí)別的數(shù)據(jù)進(jìn)行挖掘與分析發(fā)掘出有價(jià)值的信息,為企業(yè)或政府做出正確決策提供依據(jù),是十分必要的一項(xiàng)工作,以下是常用的海量數(shù)據(jù)處理方法!1.BloomfilterBloomfilter是一種二進(jìn)制向量數(shù)據(jù)結(jié)構(gòu),具有很好的空間效率和時(shí)間效率,可用來檢測(cè)一個(gè)元素是否屬于一個(gè)集合。該方法的優(yōu)點(diǎn)是它的插入和查詢時(shí)間都是常數(shù),并且它查詢?cè)貐s不保存元素本身,因此,具有良好的安全性,但因其算法的原因,其正確率稍低,可以確定不存在數(shù)據(jù)一定不存在,確定存在的數(shù)據(jù)不一定存在,適合對(duì)低錯(cuò)誤率可以容忍的場(chǎng)合。2.HashHash即散列函數(shù),其是一種將任意長(zhǎng)度的消息壓縮到某一固定長(zhǎng)度的消息摘要的函數(shù),根據(jù)處理需求的不同,有不同的Hash函數(shù),針對(duì)字符串、整數(shù)、排列也具有相應(yīng)的Hash方法,常用的Hash構(gòu)造方法有直接尋址法、數(shù)字分析法、平方取中法、折疊法、隨機(jī)數(shù)法以及除留余數(shù)法等。3.BitMapBitMap是使用數(shù)組來表示某些數(shù)據(jù)是否存在的方法,可對(duì)數(shù)據(jù)進(jìn)行快速查找、判斷和刪除操作,一般來說數(shù)據(jù)范圍是int的10倍以下,Bloom可以看做是對(duì)BitMap的擴(kuò)展。4.堆堆是計(jì)算機(jī)科學(xué)中的一種特殊的數(shù)據(jù)結(jié)構(gòu)的統(tǒng)稱,統(tǒng)稱是一個(gè)可以被看做一顆樹的數(shù)組對(duì)象,其原理是先從待找的n個(gè)數(shù)字中找出前k個(gè)建成小頂堆,然后依次讀后面的元素并與小頂堆的堆頂進(jìn)行比較,如果當(dāng)前元素小或相等,則繼續(xù)讀后面的元素;如果當(dāng)前的元素大,則用當(dāng)前元素替換堆頂元素,然后調(diào)整小頂堆。最大堆求前k小,最小堆求前k大,雙堆,求中位數(shù)。5.雙層桶雙層桶不是一種數(shù)據(jù)結(jié)構(gòu),而是一種算法思想,類似于分治思想。因?yàn)樵胤秶艽?,不能利用直接尋址表,所以通過多次劃分,逐步確定范圍,然后最后在一個(gè)可以接受的范圍內(nèi)進(jìn)行。雙層桶法一般適用于尋找第k個(gè)大的數(shù),尋找中位數(shù)、尋找不重復(fù)或重復(fù)的數(shù)字。6.數(shù)據(jù)庫優(yōu)化法海量數(shù)據(jù)都被存儲(chǔ)在數(shù)據(jù)庫中,如何從數(shù)據(jù)庫中提取有用信息就需要用到數(shù)據(jù)庫優(yōu)化法,常見的數(shù)據(jù)庫優(yōu)化方法有數(shù)據(jù)分區(qū)、索引、緩存機(jī)制、分批處理、優(yōu)化查詢語句、使用采樣數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘等。7.倒排索引倒排索引是目前搜索引擎公司對(duì)搜索引擎最常用的存儲(chǔ)方式,被用來存儲(chǔ)在全文搜索下某個(gè)單詞在一個(gè)文檔或者一組文檔中的存儲(chǔ)位置的映射。在處理復(fù)雜的多關(guān)鍵字時(shí),可在倒排表中完成查詢的并、交等邏輯運(yùn)算,得到結(jié)果后再對(duì)結(jié)果進(jìn)行存取,這樣把記錄的查詢轉(zhuǎn)換為地址集合的運(yùn)算,不必對(duì)每個(gè)記錄隨機(jī)存取,從而提高查找速度。8.外排序外排序是對(duì)大文件的排序,由于內(nèi)存限制,不能一下子把所有的待排內(nèi)容都讀到內(nèi)存中進(jìn)行排序,需要在內(nèi)存和外部存儲(chǔ)器之間進(jìn)行多次數(shù)據(jù)交換才能達(dá)到對(duì)整個(gè)文件進(jìn)行排序的目的,常用的外排序法是歸并排序法,即首先生成若干個(gè)子文件,分別對(duì)這些子文件進(jìn)行排序,然后對(duì)這些子文件進(jìn)行多次歸并,使得有序的歸并段主鍵擴(kuò)大,最后在外存上形成整個(gè)文件的單一歸并段。外排序適用于大數(shù)據(jù)的排序以及去重,但外排序的缺陷是回消耗大量的IO,效率不高。9.Trie樹Trie樹是一種用于快速字符串檢索的多叉樹結(jié)果,原理是利用字符串的公共前綴來減少空間開銷。經(jīng)常被搜索引擎系統(tǒng)用于文件詞頻統(tǒng)計(jì)。優(yōu)點(diǎn)是:最大限度地減少無謂的字符串比較,查詢效率比散列表高。適合用于數(shù)據(jù)量大,重復(fù)多,但是數(shù)據(jù)種類小可以放入內(nèi)存的情況。10.MapReduceMapReduce是云計(jì)算的核心技術(shù)之一,是一種簡(jiǎn)化并行計(jì)算的分布式編

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論