電信大規(guī)模數(shù)據(jù)處理需求及實踐_第1頁
電信大規(guī)模數(shù)據(jù)處理需求及實踐_第2頁
電信大規(guī)模數(shù)據(jù)處理需求及實踐_第3頁
電信大規(guī)模數(shù)據(jù)處理需求及實踐_第4頁
電信大規(guī)模數(shù)據(jù)處理需求及實踐_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、中國電信大規(guī)模數(shù)據(jù)處理需求中國電信大規(guī)模數(shù)據(jù)處理需求及應用實踐及應用實踐中國電信廣州研究院中國電信廣州研究院201020106 62目錄v電信面臨的海量數(shù)據(jù)處理問題v云計算大規(guī)模分布式處理平臺v云計算分布式技術應用實踐3背景全面數(shù)據(jù)時代海量電信海量電信運營數(shù)據(jù)運營數(shù)據(jù)海量互聯(lián)海量互聯(lián)網(wǎng)數(shù)據(jù)網(wǎng)數(shù)據(jù)計費數(shù)據(jù)計費數(shù)據(jù)網(wǎng)頁網(wǎng)頁用戶賬戶數(shù)據(jù)用戶賬戶數(shù)據(jù)網(wǎng)絡流量數(shù)據(jù)網(wǎng)絡流量數(shù)據(jù)安全數(shù)據(jù)安全數(shù)據(jù)音頻音頻圖片圖片每用戶每年產(chǎn)生150kB計費信息,1000萬用戶每年10TB,實際上往往50TB以上,在100TB100TB左右視頻視頻p 一個地市運營商,每天產(chǎn)生24億條話單記錄,約1TB,一年約350TBp 用戶

2、數(shù)據(jù)p ChinaNet骨干網(wǎng),每天產(chǎn)生10TBnetflow流量p 截至2009年互聯(lián)網(wǎng)有336億個網(wǎng)頁,每個網(wǎng)頁28.6KB,約1PBp 海量數(shù)據(jù)時代,我們疲于收集的是蘊含信息的海量數(shù)據(jù)時代,我們疲于收集的是蘊含信息的“財富財富”還是占據(jù)存儲空間和處理還是占據(jù)存儲空間和處理能力的能力的“垃圾垃圾”?4背景電信系統(tǒng)vs互聯(lián)網(wǎng)系統(tǒng)計費計費系系統(tǒng)統(tǒng)客客戶關戶關系管理系系管理系統(tǒng)統(tǒng)經(jīng)經(jīng)分系分系統(tǒng)統(tǒng)搜索引擎搜索引擎社交社交網(wǎng)絡網(wǎng)絡門戶網(wǎng)門戶網(wǎng)站站5互聯(lián)網(wǎng)公司互聯(lián)網(wǎng)公司應對措施應對措施推出基于mapreduce的云計算技術架構,30萬臺服務器,為搜索等互聯(lián)網(wǎng)應用提供海量存儲和處理能力領導Hadoop開

3、源云計算架構,部署生產(chǎn)集群/科研集群,提供個性化、反垃圾郵件等服務每天80-90TB,部署Hadoop集群,2250臺機器,貢獻HIVE等數(shù)據(jù)分析工具每天500TB,部署Hadop集群,1100臺機器,海量數(shù)據(jù)存儲和分布式計算基于mapreduce開發(fā)分布式處理平臺,啟動阿拉丁計劃,搜索“暗網(wǎng)”信息背景業(yè)界主要應對措施中國移動大云中國移動大云(BigCloud)(BigCloud)p 基于X86架構的大規(guī)模服務器集群+MapReduce云計算分布式技術逐漸成為業(yè)界趨勢p 基于并行計算的數(shù)據(jù)挖掘、機器學習方法逐漸成為主流的數(shù)據(jù)分析方法p 開源Hadoop云計算架構被廣泛用于構建企業(yè)大規(guī)模服務器機

4、群,提供大規(guī)模存儲和計算能力p 云計算分布式技術與數(shù)據(jù)倉庫技術相結合,主要用于數(shù)據(jù)分析工作,不適合于實時事務操作 構建中國電信大規(guī)模分布式處理平臺,為電信應用和互聯(lián)網(wǎng)應用提供海量數(shù)據(jù)存儲和并行計算能力6目錄v電信面臨的海量數(shù)據(jù)處理問題v云計算大規(guī)模分布式處理平臺v云計算分布式技術應用實踐7分布式服務引擎(DSE)vDSE定義:中國電信PaaS云計算平臺,利用云計算分布式技術解決海量數(shù)據(jù)分析處理問題,并將一系列基于數(shù)據(jù)分析和信息處理的基礎服務抽象成公共模塊提供給用戶,簡化用戶應用的開發(fā)周期。v能力定位:面向億兆級數(shù)據(jù)規(guī)模的系統(tǒng)v功能定位:電信應用的核,互聯(lián)網(wǎng)應用的組件v設計定位:抽象公共基礎服務

5、,簡化應用開發(fā)SOAPSOAPRESTRESTHTTPHTTPCLCLI I海量存海量存儲儲及分布式及分布式計計算服算服務務基基礎礎能力能力(數(shù)數(shù)據(jù)分析、信息據(jù)分析、信息處處理)理)服服務務能力能力(搜索、位置、分(搜索、位置、分類類)基基礎礎平臺服平臺服務務DSEDSE運營運營管理系管理系統(tǒng)統(tǒng)互互聯(lián)網(wǎng)應聯(lián)網(wǎng)應用用開發(fā)開發(fā)者者電電信信應應用用開發(fā)開發(fā)者者OSS/BSSOSS/BSS互互聯(lián)網(wǎng)應聯(lián)網(wǎng)應用用移移動動互互聯(lián)網(wǎng)聯(lián)網(wǎng)應應用用物物聯(lián)網(wǎng)應聯(lián)網(wǎng)應用用科科學計學計算算8DSE-技術架構分布式數(shù)據(jù)庫分布式文件系統(tǒng)任務分解及調度緩存服務硬件平臺硬件平臺分布式平臺分布式平臺基礎能力層基礎能力層(數(shù)據(jù)分析

6、、(數(shù)據(jù)分析、信息處理)信息處理)內(nèi)容分類及過濾搜索服務位置服務服務能力層服務能力層(信息服務)(信息服務)ONS系統(tǒng)EPC查詢流量分析可視檢索餐飲搜索行為分析應用層應用層熱點播報行業(yè)資訊配置調度監(jiān)控接入郵件服務單點登錄賬號服務平臺平臺服務服務運營運營管理管理關系型/分布式數(shù)據(jù)庫查詢引擎統(tǒng)計分析聚類關聯(lián)分析圖表服務分類預測數(shù)據(jù)獲取特征提取快速索引文本處理可視處理內(nèi)容分發(fā)9DSE-能力定義10DSE應用科學計算v 科學計算任務特點:個案性質,對計算、存儲、網(wǎng)絡等基礎資源具有臨時、大量、突發(fā)需求v 使用平臺的基礎能力:通過DSE開放的存儲接口和計算接口,將科研計算任務部署運行到DSE平臺上,分享平

7、臺的大規(guī)模處理能力,按需獲取所需的計算資源。DSE存儲接口圖表服務MapReduce計算接口自服務站點編寫編寫MapRMapReduceeduce計計算任務算任務上傳上傳數(shù)據(jù)數(shù)據(jù)定制資定制資源,啟源,啟動任務動任務層現(xiàn)結層現(xiàn)結果,釋果,釋放資源放資源11DSE應用-互聯(lián)網(wǎng)信息應用v互聯(lián)網(wǎng)信息類應用:產(chǎn)生或使用大量信息,如垂直搜索、新聞資訊、社交網(wǎng)絡、音/視頻應用v特點:海量數(shù)據(jù)處理需求、大規(guī)模用戶請求v基于DSE的功能模塊組建互聯(lián)網(wǎng)應用,調用DSE信息服務簡化應用開發(fā)基礎數(shù)據(jù)分析模塊、基礎信息處理模塊v把應用運行在DSE平臺DSE提供Web服務集群,滿足大規(guī)模用戶請求信息檢索信息檢索信息層現(xiàn)信

8、息層現(xiàn)數(shù)據(jù)抓取數(shù)據(jù)抓取信息處理信息處理數(shù)數(shù)據(jù)分析據(jù)分析數(shù)數(shù)據(jù)整理據(jù)整理互聯(lián)網(wǎng)信息應用互聯(lián)網(wǎng)信息應用互互聯(lián)網(wǎng)數(shù)聯(lián)網(wǎng)數(shù)據(jù)據(jù)電電信信運營數(shù)運營數(shù)據(jù)據(jù)IPIP地址地址庫庫用用戶數(shù)戶數(shù)據(jù)據(jù)流量流量數(shù)數(shù)據(jù)據(jù)網(wǎng)頁數(shù)網(wǎng)頁數(shù)據(jù)據(jù)評論數(shù)評論數(shù)據(jù)據(jù)圖圖像像數(shù)數(shù)據(jù)據(jù)音音視頻數(shù)視頻數(shù)據(jù)據(jù)12DSE應用-移動互聯(lián)網(wǎng)應用v 移動互聯(lián)網(wǎng)應用特點: 受終端處理性能限制,計算任務在服務器端運行,適合“云+端”形式v DSE能力 海量存儲能力,滿足移動終端數(shù)據(jù)的接續(xù)性 大規(guī)模分布式處理能力,滿足計算需求 高速的互聯(lián)網(wǎng)和3G網(wǎng)絡帶寬,滿足應用的網(wǎng)絡需求v 應用模式: Web+Widget模式,開發(fā)個性化互聯(lián)網(wǎng)服務DSEDSE平臺平臺

9、移移動動互互聯(lián)網(wǎng)聯(lián)網(wǎng)應應用用開發(fā)開發(fā)者者上上網(wǎng)網(wǎng)本本PCPCMIDMID手機手機開發(fā)開發(fā)/ /部署部署應應用用訪問應訪問應用用Browse/WidBrowse/Widgetget13DSE應用-電信應用系統(tǒng)v電信數(shù)據(jù)分級事務型/操作型數(shù)據(jù)系統(tǒng):動態(tài)實時數(shù)據(jù),關系數(shù)據(jù)庫,一致性、實時性要求分析型數(shù)據(jù)系統(tǒng):靜態(tài)歷史數(shù)據(jù),數(shù)據(jù)倉庫,離線分析、深度挖掘,決策vDSE提供大規(guī)模并行計算能力,適合對歷史數(shù)據(jù)作離線分析v應用模式:提供分布式數(shù)據(jù)倉庫存儲歷史數(shù)據(jù)提供基于MapReduce的數(shù)據(jù)總結方法、統(tǒng)計分析方法、數(shù)據(jù)挖掘方法數(shù)據(jù)抓取數(shù)據(jù)抓取/數(shù)據(jù)推送數(shù)據(jù)推送數(shù)據(jù)分析(統(tǒng)計分析、數(shù)據(jù)挖掘)數(shù)據(jù)分析(統(tǒng)計分析

10、、數(shù)據(jù)挖掘)電信運營數(shù)據(jù)(網(wǎng)管數(shù)據(jù)、流量數(shù)據(jù)、用戶數(shù)據(jù)電信運營數(shù)據(jù)(網(wǎng)管數(shù)據(jù)、流量數(shù)據(jù)、用戶數(shù)據(jù))Hbase數(shù)據(jù)庫數(shù)據(jù)庫MySQL數(shù)據(jù)庫數(shù)據(jù)庫HDFS文件系統(tǒng)文件系統(tǒng)開發(fā)開發(fā)者者14DSE應用-物聯(lián)網(wǎng)v 物聯(lián)網(wǎng):通過電子標簽(RFID)、傳感器、二維碼等技術和設備,將物體與互聯(lián)網(wǎng)等各類網(wǎng)絡相連,實現(xiàn)物與物、物與人之間的信息交互v 互聯(lián)網(wǎng)支撐系統(tǒng):ONS、EPC查詢超大規(guī)模的存儲和計算能力,高速的網(wǎng)絡帶寬海量數(shù)據(jù)分析能力v 互聯(lián)網(wǎng)應用系統(tǒng):大規(guī)模的數(shù)據(jù)查詢請求物物聯(lián)網(wǎng)聯(lián)網(wǎng)網(wǎng)絡網(wǎng)絡物物聯(lián)網(wǎng)應聯(lián)網(wǎng)應用系用系統(tǒng)統(tǒng)( (數(shù)數(shù)據(jù)采集、交互、據(jù)采集、交互、傳傳送送) )物物聯(lián)網(wǎng)聯(lián)網(wǎng)信息支撐系信息支撐系統(tǒng)統(tǒng)(

11、數(shù)數(shù)據(jù)分析、據(jù)分析、查詢響應查詢響應)DSEDSE平臺平臺HDFSHDFSMapReduceMapReduceMySQLMySQLHBaseHBase用用戶戶15DSE應用-IPv4/IPv6應用遷移v IPv6網(wǎng)絡內(nèi)容匱乏,CP/SP缺乏遷移動力v 構建具有雙棧能力的應用遷移和內(nèi)容分發(fā)平臺,同時為IPv4和IPv6用戶提供服務v DSE提供海量存儲和分布式計算能力16目錄v電信面臨的海量數(shù)據(jù)處理問題v云計算大規(guī)模分布式處理平臺v云計算分布式技術應用實踐17分布式處理平臺工作進展1718應用實踐之一:NetFlow流量分析19應用實踐之一:Netflow流量分析19Cluster sizeRe

12、cords processed in 5 minutes11355970058322984010164147740Map reduceMap reduce天然適合大型網(wǎng)絡的天然適合大型網(wǎng)絡的NetflowNetflow流量分析和挖掘流量分析和挖掘20應用實踐之二:可視搜索21應用實踐之三:美食搜索v 系統(tǒng)目標 利用互聯(lián)網(wǎng)大量點評信息為用戶提供快速的消費決策v 核心技術 海量信息抓取,過濾 情感分類,點評摘要2122應用實踐之三:美食搜索2222226.6.關注趨勢圖關注趨勢圖7.7.關注情感趨勢圖關注情感趨勢圖2.2.按關注重點自動分類按關注重點自動分類1.1.評論摘要評論摘要3.3.評論摘要

13、:按正面情感評論摘要:按正面情感4.4.評論摘要:按負面情感評論摘要:按負面情感5.5.評論摘要:按中立情感評論摘要:按中立情感23應用實踐之四:行業(yè)資訊v 系統(tǒng)目標 從互聯(lián)網(wǎng)實施抓取最新的行業(yè)資訊,為企業(yè)內(nèi)部人員提供IPv6、移動網(wǎng)、云計算等專題的最新技術信息和新聞v 核心技術 定向抓取、自動去重、話題分類智能抽取規(guī)則定向抓取智能信息抽取關鍵詞分類去重處理去噪處理定制關鍵字推送數(shù)據(jù)互聯(lián)網(wǎng)Cinlab平臺24應用實踐之四:行業(yè)資訊25應用實踐之五:熱點播報系統(tǒng)2626評論詳情評論詳情新聞詳情新聞詳情應用實踐之五:熱點播報系統(tǒng)數(shù)據(jù)通信研究部數(shù)據(jù)通信研究部訪問門戶訪問門戶PCPC用戶用戶訪問門戶訪問門戶手機終端手機終端新聞詳情新聞詳情評論詳情評論詳情地頭社地頭社27應用實踐之六:IPv4/I

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論