大數(shù)據(jù)工具概覽_第1頁
大數(shù)據(jù)工具概覽_第2頁
大數(shù)據(jù)工具概覽_第3頁
大數(shù)據(jù)工具概覽_第4頁
大數(shù)據(jù)工具概覽_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)(shj)工具概覽昭遠(yuǎn) calio第一頁,共三十三頁。我是誰?微博:calio郵箱(yuxing):github: calio第二頁,共三十三頁。處理(chl)收集(shuj)計(jì)算(j sun)展現(xiàn)挖掘大數(shù)據(jù)處理的一般過程抽取抓取索引查詢數(shù)據(jù)分析搜索第三頁,共三十三頁。我們(w men)的產(chǎn)品第四頁,共三十三頁。我們(w men)的做法收集:網(wǎng)頁(wn y)埋點(diǎn)+web server日志收集處理:自定義的ETL腳本計(jì)算:hadoop+實(shí)時(shí)處理引擎+mysql挖掘:自定義的hadoop任務(wù)展現(xiàn):amcharts第五頁,共三十三頁。收集(shuj)工具第六頁,共三十三頁。收集(shuj)工具

2、第七頁,共三十三頁。Needlebase從多種數(shù)據(jù)源獲取數(shù)據(jù)網(wǎng)頁,xml,csv文件合并,復(fù)制和清洗(qngx)數(shù)據(jù)生成自定義視圖第八頁,共三十三頁。編寫代碼來自動(dòng)化抓取公共網(wǎng)站支持ruby,python,php社區(qū)(sh q)特性:有很多別人寫好的開放程序第九頁,共三十三頁。處理(chl)工具第十頁,共三十三頁。Hadoop Google MapReduce架構(gòu)的克隆,最初由Doug Cutting開發(fā),Yahoo!是最大的奉獻(xiàn)者運(yùn)行在跨機(jī)器(j q)的集群上巨大的相關(guān)工具生態(tài)圈第十一頁,共三十三頁。計(jì)算(j sun)工具第十二頁,共三十三頁。計(jì)算(j sun)工具第十三頁,共三十三頁。開源

3、的關(guān)系(gun x)型數(shù)據(jù)庫(kù)管理系統(tǒng)成熟的系統(tǒng),相關(guān)資料較多在大數(shù)據(jù)環(huán)境下需要做sharding第十四頁,共三十三頁。Hadoop Google MapReduce架構(gòu)的克隆,最初(zuch)由Doug Cutting開發(fā),Yahoo!是最大的奉獻(xiàn)者運(yùn)行在跨機(jī)器的集群上巨大的相關(guān)工具生態(tài)圈第十五頁,共三十三頁。開源版本的Google BigTable底層使用HDFS存儲(chǔ)與hadoop完美結(jié)合(jih)多客戶端分布式訪問第十六頁,共三十三頁。hadoop數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)使用SQL來編寫Hadoop任務(wù)延遲(ynch)較高,不能替代實(shí)時(shí)數(shù)據(jù)庫(kù)第十七頁,共三十三頁。展現(xiàn)(zhnxin)工具第十八頁,共三

4、十三頁。展現(xiàn)(zhnxin)工具第十九頁,共三十三頁。圖形編程語言積累了大量的庫(kù),例如(lr)和文檔processing.js: processing的js實(shí)現(xiàn)第二十頁,共三十三頁。第二十一頁,共三十三頁。d3.jsjavascript框架,前身(qinshn)為Protovis包含了全量的易用可視化組件提供高層次接口第二十二頁,共三十三頁。第二十三頁,共三十三頁。Fusion Tables提供(tgng)類似電子表格的在線數(shù)據(jù)存儲(chǔ)根據(jù)地理信息可視化數(shù)據(jù)第二十四頁,共三十三頁。第二十五頁,共三十三頁。數(shù)據(jù)挖掘工具(gngj)第二十六頁,共三十三頁。數(shù)據(jù)挖掘工具(gngj)Mahout scik

5、its.learn 第二十七頁,共三十三頁。通用機(jī)器學(xué)習(xí)算法在海量數(shù)據(jù)之上運(yùn)行絕大局部代碼是基于Hadoop編寫(binxi)的分布式作業(yè)內(nèi)嵌了很多算法來實(shí)現(xiàn)通常的任務(wù),比方聚類、分類、基于用戶行為的物品推薦,識(shí)別頻繁共現(xiàn)的屬性第二十八頁,共三十三頁。python機(jī)器學(xué)習(xí)工具標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)技術(shù)的高層(o cn)接口實(shí)驗(yàn)和快速原型實(shí)現(xiàn)第二十九頁,共三十三頁。處理(chl)收集(shuj)計(jì)算(j sun)展現(xiàn)挖掘大數(shù)據(jù)處理的一般過程抽取抓取索引查詢數(shù)據(jù)分析搜索第三十頁,共三十三頁。昭遠(yuǎn)微博:calio郵箱(yuxing):github: calioThank You!第三十一頁,共三十三頁。9、

6、人的價(jià)值,在招收(zhoshu)誘惑的一瞬間被決定。2022/9/12022/9/1Thursday, September 1, 202210、低頭要有勇氣,抬頭要有低氣。2022/9/12022/9/12022/9/19/1/2022 10:27:20 PM11、人總是珍惜為得到。2022/9/12022/9/12022/9/1Sep-2201-Sep-2212、人亂于心,不寬余請(qǐng)。2022/9/12022/9/12022/9/1Thursday, September 1, 202213、生氣是拿別人做錯(cuò)的事來懲罰自己。2022/9/12022/9/12022/9/12022/9/19/1/

7、202214、抱最大的希望,作最大的努力。01 九月 20222022/9/12022/9/12022/9/115、一個(gè)人炫耀什么,說明他內(nèi)心缺少什么。九月 222022/9/12022/9/12022/9/19/1/202216、業(yè)余生活要有意義,不要越軌。2022/9/12022/9/101 September 202217、一個(gè)人即使已登上頂峰,也仍要自強(qiáng)不息。2022/9/12022/9/12022/9/12022/9/1謝謝(xi xie)收看 第三十二頁,共三十三頁。內(nèi)容(nirng)總結(jié)大數(shù)據(jù)工具概覽。github: calio。收集:網(wǎng)頁埋點(diǎn)+web server日志收集。計(jì)算:hadoop+實(shí)時(shí)處理引擎+mysql。從多種數(shù)據(jù)源獲取數(shù)據(jù)網(wǎng)頁,xml,csv文件。支持(zhch)ruby,pyt

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論