版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、百度第三代Spider背后的萬億量級實(shí)時(shí)數(shù)據(jù)處理系統(tǒng)大綱搜索引擎與Spider3.0Tera的模型與架構(gòu)系統(tǒng)構(gòu)建中的經(jīng)驗(yàn)與教訓(xùn)未來工作演講題目姓名搜 索 引 擎互聯(lián)網(wǎng)與搜索引擎Internet搜 索 引 擎SpiderPageRank正排計(jì)算正排計(jì)算倒排計(jì)算倒排計(jì)算檢索系統(tǒng)檢索系統(tǒng)搜索引擎與SpiderInternet快速、全面地采集全網(wǎng)數(shù)據(jù)中文互聯(lián)網(wǎng)與百度Spider Spider每天處理提鏈: 100億 * 120 = 1.2萬億條萬億條 網(wǎng)頁總數(shù):100萬億 有價(jià)值網(wǎng)頁: 10萬億 每天新增: 100億 超鏈接數(shù): 120 條/網(wǎng)頁Hadoop時(shí)代的百度Spider超鏈庫(HDFS)挖掘
2、(MR)調(diào)度(MR)回灌(MR)入庫(MR)抓取頁面解析網(wǎng)頁庫Hadoop的問題 線性擴(kuò)展問題 時(shí)效性問題 近10輪MR過程,耗時(shí)兩天 解決:必須流式處理 1000億鏈接處理 - 500臺服務(wù)器 10萬億鏈接處理 - 5萬臺 解決:必須增量處理百度第三代Spider流式計(jì)算系統(tǒng)海量數(shù)據(jù)庫Tera(超鏈、網(wǎng)頁、DNS、策略詞典)抓取頁面解析調(diào)度鏈接打分挖掘?qū)崟r(shí)處理的核心 數(shù)據(jù)是本質(zhì) 來源是數(shù)據(jù) 產(chǎn)出也是數(shù)據(jù) 中間狀態(tài) 一條新鏈接的價(jià)值誰說了算? 站點(diǎn)&路徑深度 前鏈&錨文本 一張網(wǎng)頁變化 觸發(fā)上百條鏈接屬性更新Spider3.0的實(shí)時(shí)數(shù)據(jù)處理 全量數(shù)據(jù) 10萬億條 100PB 每
3、一條隨時(shí)都可能更新 每天新抓網(wǎng)頁 100億 觸發(fā)1萬億條鏈接更新 每秒屬性更新 1億次 隨機(jī)讀&隨機(jī)寫 全局調(diào)度 站點(diǎn)&主域壓力受控 虛擬主機(jī)運(yùn)營商壓力受控我們的解決方案 海量實(shí)時(shí)數(shù)據(jù)庫Tera 分布式、可擴(kuò)展 萬億萬億記錄數(shù),百百PB容量,億級億級QPS讀寫 全局有序表 支持區(qū)間訪問,方便統(tǒng)計(jì) 自動負(fù)載均衡 互聯(lián)網(wǎng)熱點(diǎn)頻發(fā),業(yè)務(wù)迭代迅速 多版本、表格快照 歷史數(shù)據(jù)分析、業(yè)務(wù)數(shù)據(jù)回滾 其他特性 列存儲、分布式事務(wù)1471016241t21471018236t41471019766t6天宮二號t4神州十一t631t51471018372t214710193827t81471020
4、1432t10G20峰會t2金磚會議t1020t731t12Tera的表是三維的TimeRowcom.abc.www/com.def.www/CrawlTimePageColumnWeight1471016241t21471018236t41471019766t6天宮二號t4神州十一t631t51471018372t214710193827t814710201432t10G20峰會t2金磚會議t1020t731t12按行行 切分成多區(qū)間(Tablet)TimeColumnRowcom.abc.www/com.def.www/CrawlTimePageWeightTablet2Tablet3Ta
5、blet1MasterBFSSSTLOGSSTSSTLOGSSTMasterMasterTabletServerTabletCache創(chuàng)建、更新表Tera架構(gòu)Client/SDK數(shù)據(jù)讀寫TabletServerTabletCache 先寫內(nèi)存再寫Log,文件全部持久化在分布式文件系統(tǒng)上。 LOG: Write-ahead log,正常情況下只寫不讀,用于容災(zāi)。 SST: 內(nèi)存Dump或Compaction產(chǎn)生的靜態(tài)文件,只讀不改。Tera給我們帶來了什么? 海量數(shù)據(jù)隨時(shí)、隨處可用 PB級的內(nèi)存,統(tǒng)一的地址空間 百PB級存儲,不用擔(dān)心持久化 億級QPS的吞吐承載 毫秒級的延遲對比HBase 相同
6、點(diǎn) Bigtable數(shù)據(jù)模型 開源 不同點(diǎn) 可用性 解決了區(qū)間熱點(diǎn)問題 99.9% - 99.99% 性能、延遲 C+實(shí)現(xiàn),沒有GC問題 Locality Group支持 擴(kuò)展性 數(shù)百臺-數(shù)千臺快速負(fù)載均衡 分裂快 50ms 通過文件引用實(shí)現(xiàn) 敢分裂 很好地處理碎片問題 熱點(diǎn)過后,快速合并回來Tablet0Tablet1Tablet2Tablet4Tablet3Tablet5能快速合并,才敢分裂 區(qū)間快速遷移 50ms Powered by BFS 區(qū)間快速合并 僅元數(shù)據(jù)變更 代價(jià)小, 時(shí)間短(200ms) 全自動 無人工干預(yù)熱點(diǎn)問題根本解決 分布式文件系統(tǒng) 表面上:實(shí)現(xiàn)了快速分裂與遷移 本質(zhì)
7、是:天然將請求打散到數(shù)千節(jié)點(diǎn)連續(xù)區(qū)間1SST1SST2SST3SST N.DataNode1DataNode2DataNode3DataNode N.百度文件系統(tǒng)百度文件系統(tǒng)連續(xù)區(qū)間N.面向?qū)崟r(shí)應(yīng)用的百度文件系統(tǒng) 元數(shù)據(jù)可用性 無NameNode單點(diǎn) 基于Raft的分布式集群 文件可用性 多數(shù)據(jù)中心副本放置 快速副本恢復(fù) 高吞吐、低延遲 C+實(shí)現(xiàn) 針對讀寫長尾優(yōu)化 單機(jī) 1.1GB/S讀寫吞吐網(wǎng)絡(luò)通信框架Sofa-pbrpc集群調(diào)度系統(tǒng)Galaxy分布式數(shù)據(jù)庫Tera分布式文件系統(tǒng)BFS分布式計(jì)算框架Shuttle分布式協(xié)調(diào)服務(wù)Nexus工業(yè)實(shí)踐 分層設(shè)計(jì) 分工、復(fù)用 問題最好解決一次 一處解
8、決多處受益The Baidu StackApps(Spider/Index/Search)工業(yè)實(shí)踐 可用性設(shè)計(jì) 硬件&軟件故障不可避免 假設(shè)有MTBF是30年的機(jī)器 搭建一個(gè)1萬臺的集群 每12天壞一臺 降低故障恢復(fù)時(shí)間 可用性 = (總時(shí)間 - 故障數(shù) * 恢復(fù)時(shí)間) / 總時(shí)間 HBase 幾分鐘 Tera 幾秒鐘工業(yè)實(shí)踐 低延遲設(shè)計(jì) Backup Requests 2ms后發(fā)送備份讀請求到第二個(gè)副本 如果一個(gè)被響應(yīng)了,Cancel掉另外一個(gè) 99.9分位延遲降低80% 慎用自動GC的語言 實(shí)時(shí)處理, 大量小請求,頻繁觸發(fā)STW 服務(wù)無響應(yīng) 不必要的failoverTera在百度發(fā)展2013.7原型系統(tǒng)2014.1V1.0DNS緩存2015.6V2.0超鏈數(shù)據(jù)庫2016.8V2.5全量網(wǎng)頁數(shù)據(jù)存儲場景描述數(shù)據(jù)規(guī)模天級讀寫DNS信息存儲站點(diǎn)I
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度學(xué)校教師學(xué)生國際交流與合作聘用合同3篇
- 二零二五年度信息技術(shù)產(chǎn)品軟件售后服務(wù)合同書模板2篇
- 2025年度個(gè)人法律咨詢委托書范本4篇
- 二零二五年度廚房電氣設(shè)備安裝與維護(hù)承包協(xié)議4篇
- 2025版實(shí)習(xí)合同模板:實(shí)習(xí)期間解約與補(bǔ)償3篇
- 二零二五版舊機(jī)動車交易車輛售后配件供應(yīng)合同3篇
- 2025版實(shí)習(xí)期員工勞動合同-實(shí)習(xí)期間合同解除與續(xù)簽3篇
- 二零二五年度商業(yè)寫字樓租賃合同樣本
- 二零二五年度外語翻譯公司兼職外教資源合作與管理合同
- 2025版投資框架協(xié)議模板下載與投資法律法規(guī)咨詢3篇
- 反騷擾政策程序
- 運(yùn)動技能學(xué)習(xí)與控制課件第十一章運(yùn)動技能的練習(xí)
- 射頻在疼痛治療中的應(yīng)用
- 四年級數(shù)學(xué)豎式計(jì)算100道文檔
- “新零售”模式下生鮮電商的營銷策略研究-以盒馬鮮生為例
- 項(xiàng)痹病辨證施護(hù)
- 職業(yè)安全健康工作總結(jié)(2篇)
- 懷化市數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)發(fā)展概況及未來投資可行性研究報(bào)告
- 07FD02 防空地下室電氣設(shè)備安裝
- 教師高中化學(xué)大單元教學(xué)培訓(xùn)心得體會
- 彈簧分離問題經(jīng)典題目
評論
0/150
提交評論