




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Google云計(jì)算應(yīng)用場(chǎng)景分析主要內(nèi)容 Google云計(jì)算技術(shù)框架 應(yīng)用場(chǎng)景分析1:Google網(wǎng)站流量分析 應(yīng)用場(chǎng)景分析2:Google搜索Google云計(jì)算的技術(shù)架構(gòu) Google的云計(jì)算應(yīng)用均依賴于四個(gè)基礎(chǔ)組件 分布式文件存儲(chǔ),GFS 并行數(shù)據(jù)處理模型MapReduce 分布式鎖Chubby 結(jié)構(gòu)化數(shù)據(jù)表BigTableGoogle云計(jì)算的技術(shù)架構(gòu) 組件調(diào)用關(guān)系分析Google云計(jì)算的技術(shù)架構(gòu) Chubby的作用 為GFS提供鎖服務(wù),選擇Master節(jié)點(diǎn);記錄Master的相關(guān)描述信息 通過(guò)獨(dú)占鎖記錄Chunk Server的活躍情況 為BigTable提供鎖服務(wù),記錄子表元信息(如子表
2、文件信息、子表分配信息、子表服務(wù)器信息) 記錄MapReduce的任務(wù)信息 為第三方提供鎖服務(wù)與文件存儲(chǔ)Google云計(jì)算的技術(shù)架構(gòu) GFS的作用 存儲(chǔ)BigTable的子表文件 為第三方應(yīng)用提供大尺寸文件存儲(chǔ)功能 文件讀操作流程 API與Master通信,獲取文件元信息 根據(jù)指定的讀取位置和讀取長(zhǎng)度,API發(fā)起并發(fā)操作,分別從若干ChunkServer上讀取數(shù)據(jù) API組裝所得數(shù)據(jù),返回結(jié)果Google云計(jì)算的技術(shù)架構(gòu) BigTable的作用 為Google云計(jì)算應(yīng)用(或第三方應(yīng)用)提供數(shù)據(jù)結(jié)構(gòu)化存儲(chǔ)功能 類似于數(shù)據(jù)庫(kù) 為應(yīng)用提供簡(jiǎn)單數(shù)據(jù)查詢功能(不支持聯(lián)合查詢) 為MapReduce提供數(shù)
3、據(jù)源或數(shù)據(jù)結(jié)果存儲(chǔ)Google云計(jì)算的技術(shù)架構(gòu) BigTable的存儲(chǔ)與服務(wù)請(qǐng)求的響應(yīng) 劃分為子表存儲(chǔ),每個(gè)子表對(duì)應(yīng)一個(gè)子表文件,子表文件存儲(chǔ)于GFS之上 BigTable通過(guò)元數(shù)據(jù)組織子表 每個(gè)子表都被分配給一個(gè)子表服務(wù)器 一個(gè)子表服務(wù)器可同時(shí)分配多個(gè)子表 子表服務(wù)器負(fù)責(zé)對(duì)外提供服務(wù),響應(yīng)查詢請(qǐng)求Tablet 1: , rootbigtabletablet1,Tablet 2: , rootbigtabletablet2,Tablet 3: , rootbigtabletablet3,Tablet 4: , rootbigtabletablet4,Google云計(jì)算的技術(shù)架構(gòu) MapRedu
4、ce的作用 對(duì)BigTable中的數(shù)據(jù)進(jìn)行并行計(jì)算處理(如統(tǒng)計(jì)、歸類等) 使用BigTable或GFS存儲(chǔ)計(jì)算結(jié)果應(yīng)用場(chǎng)景分析1Google網(wǎng)站流量分析 Google Analytics 免費(fèi)的企業(yè)級(jí)網(wǎng)絡(luò)分析解決方案 幫助企業(yè)了解網(wǎng)站流量和營(yíng)銷效果 能以靈活的方式(各類報(bào)表)查看并分析流量數(shù)據(jù)應(yīng)用場(chǎng)景分析1Google網(wǎng)站流量分析應(yīng)用場(chǎng)景分析1Google網(wǎng)站流量分析 基本功能 統(tǒng)計(jì)網(wǎng)站的基本數(shù)據(jù),包括會(huì)話、綜合瀏覽量、點(diǎn)擊量和字節(jié)流量等等 分析網(wǎng)站頁(yè)面關(guān)注度,幫助企業(yè)調(diào)整或增刪頁(yè)面 分析用戶瀏覽路徑,優(yōu)化頁(yè)面布局 分析用戶訪問(wèn)來(lái)源鏈接,提高廣告投資回報(bào) 分析用戶訪問(wèn)環(huán)境(如OS和Explor
5、er),幫助美化頁(yè)面應(yīng)用場(chǎng)景分析1Google網(wǎng)站流量分析 應(yīng)用的特征 海量數(shù)據(jù) 需要存儲(chǔ)海量的用戶行為數(shù)據(jù)(如點(diǎn)擊時(shí)間、位置等) 海量用戶 需要為任意多的網(wǎng)站提供流量分析 技術(shù)路線 使用BigTable存儲(chǔ)和檢索數(shù)據(jù),使用MapReduce統(tǒng)計(jì)數(shù)據(jù)應(yīng)用場(chǎng)景分析1Google網(wǎng)站流量分析 BigTable中的表設(shè)計(jì) 原始點(diǎn)擊數(shù)據(jù)表 行鍵:點(diǎn)擊時(shí)間 列鍵:網(wǎng)站URL、網(wǎng)站名稱、用戶IP地址、來(lái)源URL、目標(biāo)URL 目前尺寸約200TB200910101210112009101012101220091010121013URL標(biāo)題IP地址來(lái)源URL目標(biāo)URL應(yīng)用場(chǎng)景分析1Google網(wǎng)站流量分析 B
6、igTable中的表設(shè)計(jì) 統(tǒng)計(jì)數(shù)據(jù)表 行鍵:網(wǎng)站URL(倒排) 列鍵:點(diǎn)擊次數(shù)(如記錄最近一個(gè)月每日的訪問(wèn)次數(shù)等)、頁(yè)面關(guān)注度(如記錄網(wǎng)站頁(yè)面的訪問(wèn)比率)、來(lái)源網(wǎng)站(如記錄TOP10)、目標(biāo)網(wǎng)站(如記錄TOP10) 每個(gè)列中記錄的內(nèi)容是字符串,Analytics在查詢后需要解析字符串獲得統(tǒng)計(jì)結(jié)果 可根據(jù)統(tǒng)計(jì)內(nèi)容的增多增加新的列 目前尺寸約20TB應(yīng)用場(chǎng)景分析1Google網(wǎng)站流量分析 業(yè)務(wù)流程分析原始點(diǎn)擊數(shù)據(jù)表統(tǒng)計(jì)數(shù)據(jù)表應(yīng)用場(chǎng)景分析1Google網(wǎng)站流量分析 基礎(chǔ)設(shè)施應(yīng)用服務(wù)器集群BigTable集群1BigTable集群2GFS集群Chubby集群MapReduce集群應(yīng)用場(chǎng)景分析1Goog
7、le網(wǎng)站流量分析 數(shù)據(jù)采集 數(shù)據(jù)來(lái)源 頁(yè)面內(nèi)嵌腳本 點(diǎn)擊行為腳本 應(yīng)用服務(wù)器獲取到數(shù)據(jù)后,存入BigTable應(yīng)用場(chǎng)景分析1Google網(wǎng)站流量分析 數(shù)據(jù)采集 數(shù)據(jù)存儲(chǔ)流程向BigTable中寫(xiě)入點(diǎn)擊信息尋找子表服務(wù)器向內(nèi)存臨時(shí)子表寫(xiě)入信息(含排序)如超過(guò)閾值則存儲(chǔ)為子表文件GFS:存儲(chǔ)子表文件子表合并、壓縮應(yīng)用場(chǎng)景分析1Google網(wǎng)站流量分析 數(shù)據(jù)處理 例如,統(tǒng)計(jì)網(wǎng)站(如)過(guò)去一周網(wǎng)頁(yè)訪問(wèn)比例 數(shù)據(jù)處理流程數(shù)據(jù)查詢MapReduce操作數(shù)據(jù)存儲(chǔ)點(diǎn)擊數(shù)據(jù)表統(tǒng)計(jì)數(shù)據(jù)表GFS應(yīng)用場(chǎng)景分析1Google網(wǎng)站流量分析 數(shù)據(jù)處理:MapReduce Map操作 假設(shè)過(guò)去一周查詢結(jié)果文件在GFS中包含M
8、個(gè)Chunk,那么Master尋找M個(gè)空閑的Worker,分別處理這M個(gè)Chunk,得到每個(gè)網(wǎng)站中頁(yè)面的訪問(wèn)次數(shù)com.xxx, com.yyy, com.zzz, 應(yīng)用場(chǎng)景分析1Google網(wǎng)站流量分析 數(shù)據(jù)處理:MapReduce 自動(dòng)排序 對(duì)M個(gè)中間結(jié)果進(jìn)行排序com.xxx, com.yyy, com.zzz, com.yyy, com.xxx, com.zzz, com.xxx, com.xxx, com.yyy, com.yyy, com.zzz, com.zzz, 應(yīng)用場(chǎng)景分析1Google網(wǎng)站流量分析 數(shù)據(jù)處理:MapReduce Reduce操作 假設(shè)得到該網(wǎng)站含N個(gè)網(wǎng)站,那
9、么可以分配N臺(tái)Worker分別處理單個(gè)網(wǎng)站的數(shù)據(jù)com.xxx, com.xxx, com.yyy, com.yyy, com.zzz, com.zzz, com.xxx, com.yyy, com.zzz, 應(yīng)用場(chǎng)景分析1Google網(wǎng)站流量分析 數(shù)據(jù)處理 寫(xiě)入數(shù)據(jù) 應(yīng)用程序?qū)⒎治鼋Y(jié)果寫(xiě)入統(tǒng)計(jì)數(shù)據(jù)表com.xxx, com.yyy, com.zzz, 應(yīng)用場(chǎng)景分析1Google網(wǎng)站流量分析 數(shù)據(jù)查詢 從數(shù)據(jù)統(tǒng)計(jì)表中查詢行 獲取對(duì)應(yīng)列的數(shù)據(jù),解析,得到并展示最終結(jié)果 數(shù)據(jù)處理是定期的,非實(shí)時(shí)響應(yīng)查詢應(yīng)用場(chǎng)景分析2Google搜索 Google搜索的總體業(yè)務(wù)流程 數(shù)據(jù)采集: Spider 數(shù)據(jù)整
10、理 生成各類子表,如音樂(lè)表、生活搜索表、學(xué)術(shù)搜索表等 壓縮數(shù)據(jù)表,清洗失效數(shù)據(jù) 數(shù)據(jù)檢索應(yīng)用場(chǎng)景分析2Google搜索 數(shù)據(jù)采集 通過(guò)若干Spider在網(wǎng)絡(luò)上搜集數(shù)據(jù) 使用BigTable存儲(chǔ)數(shù)據(jù) 行鍵:倒排的URL 列鍵:網(wǎng)站名稱、語(yǔ)言、HTML描述、圖片、鏈接 時(shí)間戳:記錄不同時(shí)刻的網(wǎng)頁(yè)快照應(yīng)用場(chǎng)景分析2Google搜索 數(shù)據(jù)采集 Spider可能的數(shù)據(jù)處理流程Spider獲取到網(wǎng)頁(yè)數(shù)據(jù)從Chubby的元數(shù)據(jù)中找到該URL所處的子表從子表服務(wù)器中尋找對(duì)應(yīng)的行如果該行不存在,則插入新的行讀取網(wǎng)頁(yè)內(nèi)容列,比較新舊數(shù)據(jù)增加時(shí)間戳,標(biāo)識(shí)新數(shù)據(jù)若當(dāng)前時(shí)間戳超過(guò)指定數(shù)目,刪除最舊內(nèi)容處理完畢存在對(duì)應(yīng)行
11、對(duì)應(yīng)行鍵不存在數(shù)據(jù)未變化數(shù)據(jù)發(fā)生變化應(yīng)用場(chǎng)景分析2Google搜索 數(shù)據(jù)整理 Google搜索包括多個(gè)子類 生活搜索:租房、車票、酒店等 資訊搜索:熱門新聞、分類新聞等 學(xué)術(shù)搜索:學(xué)術(shù)論文 定期計(jì)算網(wǎng)站評(píng)價(jià)數(shù)據(jù) 例如PageRank的計(jì)算具有統(tǒng)一的數(shù)據(jù)來(lái)源使用不同的表存儲(chǔ)數(shù)據(jù)可能使用MapReduce定期刷新數(shù)據(jù)應(yīng)用場(chǎng)景分析2Google搜索 數(shù)據(jù)整理(Google學(xué)術(shù)搜索)應(yīng)用場(chǎng)景分析2Google搜索 數(shù)據(jù)整理(Google學(xué)術(shù)搜索) 數(shù)據(jù)抽取 尋找包含學(xué)術(shù)(論文)信息的網(wǎng)頁(yè)數(shù)據(jù),并結(jié)構(gòu)化存儲(chǔ) 學(xué)術(shù)(論文)信息抽?。ǚ治鰠⒖嘉墨I(xiàn)、摘要等) 可能的技術(shù)方案:MapReduce+BigTabl
12、e 數(shù)據(jù)統(tǒng)計(jì) 基于抽取的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析(如分析被引用次數(shù)等) 可能的技術(shù)方案MapReduce+BigTable 學(xué)術(shù)信息BigTable 行鍵:論文標(biāo)題 列鍵:作者、主題詞、摘要、參考文獻(xiàn)、期刊信息、被引用次數(shù)、下載鏈接應(yīng)用場(chǎng)景分析2Google搜索 數(shù)據(jù)整理(Google學(xué)術(shù)搜索) 如何使用MapReduce抽取數(shù)據(jù)?生成抽取目標(biāo)(URL)文件將目標(biāo)文件分割為M塊尋找M個(gè)Worker分別做Map處理查詢網(wǎng)站的網(wǎng)頁(yè)數(shù)據(jù)是否包含論文描述信息抽取論文描述信息,輸出按論文標(biāo)題將輸出排序?qū)⒄撐拿枋鲂畔⒋嫒隑igTable尋找若干Worker做Reduce處理應(yīng)用場(chǎng)景分析2Google搜索 數(shù)據(jù)整理
13、(Google學(xué)術(shù)搜索) 如何獲取論文統(tǒng)計(jì)數(shù)據(jù)(如論文引用次數(shù)) 分析論文信息表,二次MapReduce論文A, 參考文獻(xiàn): 論文B, 論文C, 論文D論文B, 參考文獻(xiàn): 論文Q, 論文C, 論文A論文C, 參考文獻(xiàn): 論文D, 論文H, 論文A論文F, 參考文獻(xiàn): 論文A, 論文C論文E, 參考文獻(xiàn): 論文S, 論文A, 論文D論文S, 參考文獻(xiàn): 論文E, 論文F 應(yīng)用場(chǎng)景分析2Google搜索 數(shù)據(jù)整理(Google學(xué)術(shù)搜索) 如何獲取論文統(tǒng)計(jì)數(shù)據(jù)(如論文引用次數(shù)) 歸納排序 應(yīng)用場(chǎng)景分析2Google搜索 數(shù)據(jù)整理(Google學(xué)術(shù)搜索) 如何獲取論文統(tǒng)計(jì)數(shù)據(jù)(如論文引用次數(shù)) Reduce操作應(yīng)用場(chǎng)景分析2Google搜索 數(shù)據(jù)檢索 有可能采用MapRedu
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45169-2025增材制造金屬制件殘余應(yīng)力聲束控制法
- GB/T 45142-2025海洋溢油污染生態(tài)修復(fù)監(jiān)測(cè)和效果評(píng)估技術(shù)指南
- GB/T 45221-2025化學(xué)品EASZY試驗(yàn)利用轉(zhuǎn)基因tg(cyp19a1b:GFP)斑馬魚(yú)胚胎通過(guò)雌激素受體檢測(cè)內(nèi)分泌活性物質(zhì)
- 鄉(xiāng)村地基出售合同范本
- 2025年鐵嶺考貨運(yùn)從業(yè)資格證
- 2025年永州貨運(yùn)從業(yè)資格證怎么考試
- 加工合同范本道客
- 買車庫(kù)出售合同范本
- it購(gòu)銷合同范本
- 醫(yī)院業(yè)務(wù)合同范本
- 部編高教版2023·職業(yè)模塊 中職語(yǔ)文 2.《寧夏閩寧鎮(zhèn):昔日干沙灘今日金沙灘》 課件
- 心肺復(fù)蘇術(shù)課件2024新版
- 安全環(huán)保職業(yè)健康法律法規(guī)清單2024年
- 秒的認(rèn)識(shí) 完整版PPT
- 創(chuàng)新藥產(chǎn)業(yè)鏈研究培訓(xùn)框架
- 燃?xì)鈽I(yè)務(wù)代辦授權(quán)書(shū)模板
- (完整PPT)半導(dǎo)體物理與器件物理課件
- 大音希聲話古韻——古琴曲《流水》課件
- 《中國(guó)人閱讀書(shū)目(三)——中國(guó)初中生基礎(chǔ)閱讀書(shū)目-導(dǎo)賞手冊(cè)》新書(shū)簡(jiǎn)介2014.8.14 (1)
- 智利國(guó)家英文介紹PPT精選文檔
- 金蝶K3 Cloud 產(chǎn)品安裝指南
評(píng)論
0/150
提交評(píng)論