數(shù)據(jù)分析師常見的10道面試題及解答_第1頁
數(shù)據(jù)分析師常見的10道面試題及解答_第2頁
數(shù)據(jù)分析師常見的10道面試題及解答_第3頁
數(shù)據(jù)分析師常見的10道面試題及解答_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

首先是這一天,并且是的日志中的IP取出來,逐個寫入到一個大文件中。注找出那個頻率最大的IP,即為所求??梢钥紤]采用“分而治之”的思想,按照IPHash(IP)24值,把海量IP日志分別到1024個小文件中。這樣,每個小文件最多包含4MB個IP地址;IP地址;1024IP,再依據(jù)常規(guī)的排序算法得到總體上IP;1-255字節(jié)。熱門。),請你統(tǒng)計最熱門的10個查詢串,要求使用的內(nèi)存過1G。典型的TopK算法,還是在這篇文章里頭有所闡述,O(N)Hash表完成統(tǒng)計(之前寫TopK,時間復(fù)雜度為N‘logK,即,借助堆結(jié)構(gòu),我們可以在log量級的時間內(nèi)查找和調(diào)整/移動。因此一個K(該10)300Query,分別和根元素進(jìn)行對比所以,我們最終的時間復(fù)雜度是:O(N)+N’*O(logK),(N1000萬,N300萬)。ok,,1M100個詞。1M。對每個小文件,統(tǒng)計每個文件中出現(xiàn)的詞以及相應(yīng)的頻率(trie樹/hash_map50005000queryquery的頻度排序。1:順序10個文件,按照hash(query)的結(jié)果將query寫入到另外10個文件(記為)1G(hash函數(shù)是隨機(jī)的)。出現(xiàn)的次數(shù)。利用快速/堆/歸并排序按照出現(xiàn)次數(shù)進(jìn)行排序。將排序好的query和對應(yīng)的query_cout10個排好序的文件(記為)。2:queryquery,一式的架構(gòu)來處理(MapReduce),最后再進(jìn)行合并。5a、b50urlurl644G,讓你找出a、b文件共同的url?15G×64=320G4G。所以遍歷文件a,對每個url求取hash(url)00,然后根據(jù)所取得的值將url分別到對應(yīng)的小文件不可能有相同的url1000url即可。求每對小文件中相同的url時,可以把其中一個小文件的url到hash_set中。然后urlhash_set中,如果是,那么就是共同url,存到文件里面就可以了。2Bloomfilter,4G340BloomfilterBLOG12-Bitmap(2bit,00表示不存在,01表示出現(xiàn)一次,10表示多次,11無意義)2^32*2bit=1GB2.5億Bitmap0001,0110,10保持不變。所描完事后,bitmap01的整數(shù)輸出即可。740unsignedint的整數(shù),沒排過序的,然后再給一個40億個數(shù)當(dāng)中?2^3240億多,所以給定一個數(shù)可能在,也可能不在其中;4032位的二進(jìn)制來表示最為最為次最為次最為并將這兩類分別寫入到兩個文件中,其中一個文件中數(shù)的個數(shù)<=10億,而另一個>=10以此類推,就可以找到了,O(logn)2完。位圖法比較適合于這種情況,它的做法是按照集合中最大元素max創(chuàng)建一個長度為max+115就給51了,法類似于位圖的處理方法故稱位圖法。它的運(yùn)算次數(shù)的情況為2N。如果已知數(shù)組的最1hash,然后求模映射為小文件,求出每個小文件中重復(fù)次數(shù)最多的一個,搜索二叉樹/樹等來進(jìn)行統(tǒng)計次數(shù)。然后就是取出前N個出現(xiàn)次數(shù)最多的數(shù)據(jù)了,可以2題提到的堆機(jī)制完成。(le表示單詞的平準(zhǔn)長度)10個詞,可以用堆來實(shí)現(xiàn),前面

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論