大數(shù)據(jù)與云計算黃哲學_第1頁
大數(shù)據(jù)與云計算黃哲學_第2頁
大數(shù)據(jù)與云計算黃哲學_第3頁
大數(shù)據(jù)與云計算黃哲學_第4頁
大數(shù)據(jù)與云計算黃哲學_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)與云計算:

--信息技術發(fā)展的新紀元

黃哲學博士深圳大學特聘教授大數(shù)據(jù)技術與應用研究所所長大綱大數(shù)據(jù)與云計算云計算大數(shù)據(jù)平臺與技術創(chuàng)新大數(shù)據(jù)平臺產業(yè)化與應用案例什么是大數(shù)據(jù)對數(shù)據(jù)的使用者來講,如果數(shù)據(jù)集超出了使用者所擁有的信息處理和分析的能力,就給使用者帶來了大數(shù)據(jù)問題大數(shù)據(jù)V特征Volume數(shù)據(jù)規(guī)模大Velocity數(shù)據(jù)變化數(shù)據(jù)快Variety數(shù)據(jù)屬性復雜Value價值大數(shù)據(jù)的特點并不只是數(shù)據(jù)規(guī)模大數(shù)據(jù)的量呈現(xiàn)指數(shù)增長2009年至2020年將增加44倍數(shù)據(jù)的體量從0.8zettabytes增加到35ZB生成和采集的數(shù)據(jù)將按指數(shù)增長根據(jù)麥肯錫預計美國超過1000雇員的公司,平均每個公司存有200TB的數(shù)據(jù),很多行業(yè)的公司,如銀行、電訊、互聯(lián)網、政府部門等,平均存儲的數(shù)據(jù)超過1個PB。大數(shù)據(jù)的多樣性Variety不同的數(shù)據(jù)格式,數(shù)據(jù)類型和數(shù)據(jù)結構文本、數(shù)字、圖像、音頻、視頻、時間序列、社會媒體數(shù)據(jù)、高維矩陣數(shù)據(jù)等靜態(tài)數(shù)據(jù)vs.流數(shù)據(jù)同一個應用可以生成和采集不同類型的數(shù)據(jù)為了提取知識盡可能多地綜合不同類型的相關數(shù)據(jù)大數(shù)據(jù)的速度Velocity數(shù)據(jù)的采集速度的加快導致處理時間都需要有相應的提高在線數(shù)據(jù)分析(OnlineDataAnalytics)決策的延誤

商機的消失實例網上營銷(E-Promotions):基于用戶當前的位置和過往的交易數(shù)據(jù)預測用戶的喜好在合適的時間和地點發(fā)送用戶感興趣的產品和店鋪健康監(jiān)控(Healthcaremonitoring):利用穿戴式的傳感器監(jiān)控用戶的生理和活動數(shù)據(jù)及時提供需要的醫(yī)療服務大數(shù)據(jù)的價值(Value)未來大數(shù)據(jù)的產業(yè)規(guī)模將會至少以萬億美元來進行衡量,大數(shù)據(jù)將會給信息技術領域帶來一個新的增長點。美國醫(yī)療保健每年產值達3000億美金每年生產率增長約0.7%制造業(yè)最多可節(jié)省50%的產品研發(fā)、組裝成本最多可節(jié)約7%的營運資金美國零售業(yè)凈利率增長可能高達60%+每年生產率增長0.5-1.0%歐洲公共部門管理每年2500億歐元每年生產率增長約0.7%全球個人定位數(shù)據(jù)1000億+的服務供應商收入為終端用戶帶來高達7000億美的價值大數(shù)據(jù)的產生數(shù)據(jù)的發(fā)展和創(chuàng)新將不再是如何生成和采集數(shù)據(jù)具備對采集的數(shù)據(jù)進行管理、分析、總結、可視化展示和知識發(fā)現(xiàn)的能力已經成為新的挑戰(zhàn)社會媒體網絡(每個人都在產生數(shù)據(jù))科學儀器

(采集不同類型的數(shù)據(jù))移動終端

(個人地理信息數(shù)據(jù))傳感器網絡(測量不同類型的數(shù)據(jù))大數(shù)據(jù)的技術挑戰(zhàn)存儲–分布式、低成本傳輸–能力、成本處理–集成、融合、處理分析–能力、效率挖掘–方法、能力、技術、平臺應用能耗互聯(lián)網與電訊行業(yè)需求某互聯(lián)網公司100多在線游戲,4億在線游戲用戶在線系統(tǒng)記錄每個游戲用戶在線玩游戲的詳細數(shù)據(jù),包括游戲、時間、動作、結果等,TB級數(shù)據(jù)分析需求:用戶行分類與預測,用戶行為客戶群劃分用戶挽留、用戶獎勵和級別提升某電信公司深度包檢測(DPI)大數(shù)據(jù)分析,研究客戶互聯(lián)網行為模型,流量分析,數(shù)據(jù)套餐設計百萬人口城市,每天數(shù)據(jù)量TB級云計算云計算是一種新的大規(guī)模分布式計算模式通過網絡和資源虛擬技術,實現(xiàn)計算及存儲資源集中管理,面向用戶提供服務云計算可以解決目前計算機使用的諸多問題,是計算技術發(fā)展的一個新的里程碑2023/2/412傳統(tǒng)計算機的問題

使用成本高資源分散資源不足資源浪費高能耗環(huán)境污染云計算的優(yōu)點

成本低易于普及可擴展能力高節(jié)能環(huán)保

云計算的五個基本特征按需自助服務(On-demandself-service)廣泛的網絡接入(Broadnetworkaccess)資源池(Resourcepooling)快速彈性化(Rapidelasticity)可度量的服務(MeasuredService)2023/2/413云環(huán)境(ACloud)云指的是一個遙遠的計算環(huán)境,這個環(huán)境是用來為計算環(huán)境外的用戶提供可擴展和可度量的計算資源。用戶可能不知道具體的云環(huán)境在哪里。如用戶在深圳,云環(huán)境可能在內蒙古。2023/2/414云環(huán)境的計算資源物理服務器—CPU,內存,外存(磁盤、磁帶)虛擬服務器—CPU,內存,外存軟件服務

(應用)2023/2/415物理服務器虛擬服務器軟件服務虛擬化是云計算的核心技術虛擬化技術可以將一個物理服務器當作多個虛擬服務器使用,多個用戶共享物理服務器的資源,但用戶對虛擬服務器的體驗是獨立的計算機。用戶不需要了解物理服務器虛擬服務器的運行由物理服務器統(tǒng)一管理和維護,虛擬機用戶不需要維護。當某虛擬機用戶需求變化時,物理服務器的資源可以自動擴展。2023/2/416彈性化和可擴展性彈性化是云計算的重要特征,計算資源彈性化可以使云環(huán)境的計算能力隨著用戶需求變化而增加或減少。水平擴展向外擴展Scaleout—增加資源向內收縮Scalein—減少資源垂直擴展向上擴展Scaleup—提升CPU和內存向下收縮Scaledown–降低CPU和內存2023/2/417云服務器面向服務ServiceOrientation云計算的獨特特征是服務導向或面向服務,就是將計算和存儲資源作為服務供用戶使用服務的收費方式是誰使用誰付錢,例如:付使用存儲服務的費用付使用CPU的費用付使用數(shù)據(jù)庫軟件的費用用戶不擁有這些資源,因此不需維護它們2023/2/418云計算的三種基本服務模式云設施服務CloudInfrastructureasaService(IaaS)云平臺服務CloudPlatformasaService(PaaS)軟件作為服務CloudSoftwareasaService(SaaS)2023/2/419云計算架構CloudArchitecture2023/2/420虛擬化計算服務ComputingService存儲服務StorageServiceDBMSMapReduceGoogleAppEngineCRMERPCAD/CAMPOSWindowsAzureInfrastructureasaService(IaaS)PlatformasaService(PaaS)SoftwareasaService(SaaS)物理資源云服務應用的部署模型公有云Publiccloud私有云Privatecloud社區(qū)云Communitycloud混合云Hybridcloud2023/2/421大綱大數(shù)據(jù)與云計算云計算大數(shù)據(jù)平臺與技術創(chuàng)新大數(shù)據(jù)平臺產業(yè)化與應用案例挑戰(zhàn)性的技術問題數(shù)據(jù)融合(fusion)數(shù)據(jù)集成(integration)挑戰(zhàn)病人健康醫(yī)療數(shù)據(jù)沒有有效的數(shù)據(jù)集成就不能進行有效的綜合數(shù)據(jù)分析挑戰(zhàn)性的科學問題成千上萬個屬性超高維問題百萬以上甚至超億個記錄混合數(shù)據(jù)類型缺省值/噪聲相關性問題UnbalanceSubspacepropertyUninformativeness12nn-1n-2n-3n-4f1f2f3f4f5…大數(shù)據(jù)集的挑戰(zhàn)(BigDataMatrix)超高維數(shù)據(jù)聚類算法研究對屬性變量做分組歸并,產生組變量對組變量和屬性變量分層加權重擴展軟子空間聚類算法EWKM,在聚類過程中自動計算組變量權重值和屬性變量權重值最后得到以組變量為主的子空間聚類結果組變量相當于在高空看數(shù)據(jù),大輪廓清晰屬性變量相當于在低空看數(shù)據(jù),細節(jié)清晰組變量屬性變量SRF:基于MapReduce大數(shù)據(jù)隨機森林算法Layer寬度優(yōu)先、大規(guī)模分層建樹策略大數(shù)據(jù)隨機森林算法研究成果屬性加權抽樣隨機森林算法,用于超高維數(shù)據(jù)分類,平均精度提高20%。與澳大利亞聯(lián)邦稅務總局數(shù)據(jù)挖掘首席科學家GrahamWilliams合作,將隨機森林算法用于ATO繳稅分類建模。分布式高可擴展隨機森林分類算法,實現(xiàn)了對千萬個客戶記錄、千個變量、100GB規(guī)模數(shù)據(jù)的建模能力。將分布式隨機森林算法發(fā)布到國際著名的統(tǒng)計分析平臺R系統(tǒng)上,擴大國際影響力。研究成果國際化推廣研究成果國際化應用隨機森林模型并行化實現(xiàn)屬性加權抽樣隨機森林模型云計算與大數(shù)據(jù)分析數(shù)據(jù)挖掘是從數(shù)據(jù)中發(fā)現(xiàn)知識的方法和過程,是解決各種科學和應用問題的重要手段由于數(shù)據(jù)的快速增長,傳統(tǒng)的數(shù)據(jù)挖掘技術和軟件正面臨極大的瓶頸銀行:人民銀行征信系統(tǒng)收錄了自然人6.4億人的信貸記錄金融:南方基金公司有近1000萬客戶資料需要分析電訊:廣東中國移動每天產生2TB通話記錄數(shù)據(jù)零售:Wal-Mart每天產生2.6億個交易記錄,其數(shù)據(jù)中心存儲4PB的交易數(shù)據(jù)互聯(lián)網:Amazon有5900萬活躍客戶,超過42TB的客戶數(shù)據(jù)2023/2/428云計算的優(yōu)點是處理海量數(shù)據(jù)的能力,為大數(shù)據(jù)挖掘提供了新的計算平臺云計算海量數(shù)據(jù)處理的核心技術2023/2/429虛擬文件系統(tǒng)數(shù)據(jù)劃分GFS(Google)HDFS(Hadoop)MapReduce編程模型算法編程Map和Reduce兩個基本操作大規(guī)模分布計算可擴展性運行時系統(tǒng)程序運行負載平衡任務調度容錯MapReduce編程模型主節(jié)點節(jié)點節(jié)點節(jié)點節(jié)點節(jié)點用戶編程文件文件文件文件文件輸出輸出文件劃分Map運算Reduce運算結果輸出程序寫成Map和Reduce兩步運算1.

Map統(tǒng)計單個文本詞頻2.

Reduce綜合所有文本的詞頻(Map)(Reduce)MapReduce

管道式運算2023/2/431MRMRMRMRK-均值聚類對象分簇MapReduceMRMRMRMRMRMRMRMR輸出輸入?????收斂?重新計算簇中心點基于云計算的大數(shù)據(jù)分析平臺區(qū)域智能數(shù)據(jù)中心區(qū)域智能數(shù)據(jù)中心支持多種終端訪問以區(qū)域性智能數(shù)據(jù)中心及高速互聯(lián)網為基礎設施以互聯(lián)網服務體系為架構以大數(shù)據(jù)存儲、處理、挖掘和交互式可視化分析等關鍵技術為支撐通過多樣化移動智能終端及移動互聯(lián)網為用戶提供數(shù)據(jù)存儲、管理及分析服務。關鍵技術云計算引擎高性能海量數(shù)據(jù)挖掘算法庫工作流引擎支撐海量數(shù)據(jù)處理、挖掘與分析運算提供海量復雜數(shù)據(jù)處理、分析與挖掘高可擴展算法數(shù)據(jù)處理分析流程圖形化設計數(shù)據(jù)處理分析流程自動執(zhí)行資源調度及優(yōu)化OpenAPI提供數(shù)據(jù)挖掘平臺與第三方應用系統(tǒng)的擴展接口支撐海量數(shù)據(jù)存儲與管理云存儲大數(shù)據(jù)分析平臺云計算大數(shù)據(jù)挖掘平臺110臺服務器,840CPU核,550TB存儲容量構建云計算大數(shù)據(jù)挖掘平臺,具備TB級數(shù)據(jù)存儲、處理與分析能力,為大數(shù)據(jù)挖掘技術與系統(tǒng)開發(fā)和測試提供實驗支撐環(huán)境。數(shù)據(jù)庫:MySQL5.0商用版云存儲:Hadoop、Casendral數(shù)據(jù)挖掘軟件:Alphaminer、R平臺規(guī)模軟件環(huán)境平臺功能大數(shù)據(jù)云存儲與管理分布式并行數(shù)據(jù)挖掘任務執(zhí)行可視化數(shù)據(jù)分析執(zhí)行引擎云計算數(shù)據(jù)挖掘算法庫基于MapReduce模型,實現(xiàn)了11個常用數(shù)據(jù)挖掘算法分布式并行化。K-MeansK-ModesW-K-MeansEWKM聚類算法DecisionTreeRandomForestsLDA分類算法LogisticRegressionRandomForestRegression回歸算法FP-Growth關聯(lián)規(guī)則部分算法的測試性能已達到TB級數(shù)據(jù)的處理能力。K-Means算法性能數(shù)據(jù)規(guī)模:1TB,1千萬條數(shù)據(jù)*1萬維執(zhí)行效率:初始10個聚類中心,一次迭代時間約30分鐘RandomForests算法性能數(shù)據(jù)規(guī)模:110GB,1千萬條數(shù)據(jù)*1千維執(zhí)行效率:建立20棵樹約36分鐘針對傳統(tǒng)數(shù)據(jù)挖掘算法不能處理大數(shù)據(jù)的挑戰(zhàn),開發(fā)基于云計算的高可擴展并行數(shù)據(jù)挖掘算法庫,突破TB級數(shù)據(jù)處理瓶頸。大數(shù)據(jù)處理流程--醫(yī)保數(shù)據(jù)案例1型糖尿病性神經炎(原始記錄)糖尿病性神經炎(ICD國際疾病分類標準)內分泌,營養(yǎng)和代謝疾?。↖CD國際疾病分類標準)疾病匹配疾病分類疾病分類在線數(shù)據(jù)分析通過儀表盤圖形化的KPI指標支持全局的運營表現(xiàn)和局部細節(jié)的鉆取分析快速了解業(yè)務運營的各項指標實施獲取告警信息定制化的應用開發(fā)移動終端上的商務智能分析平臺系統(tǒng)框架基于瀏覽器的BI分析平臺基于智能移動終端的BI分析平臺海量數(shù)據(jù)可視化大數(shù)據(jù)分析與挖掘平臺智能數(shù)據(jù)中心基于WEB的數(shù)據(jù)分析流程設計工具基于WEBD數(shù)據(jù)管理工具創(chuàng)新點:與搜索引擎區(qū)別主要功能海量數(shù)據(jù)分析海量信息檢索處理對象各類型海量數(shù)據(jù)網頁任務目標挖掘新知識、分類模型等已有信息的查詢與集成應用目標智能決策支持信息查詢核心技術機器學習、數(shù)據(jù)挖掘、分布式計算網頁爬蟲、索引、快速查詢應用領域新興領域(互聯(lián)網、移動互聯(lián)網、電子商務、醫(yī)藥研發(fā)、氣象預測)教育、軍事、情報、互聯(lián)網vs.大數(shù)據(jù)分析平臺搜索引擎創(chuàng)新點:與云服務區(qū)別主要功能海量數(shù)據(jù)存儲與分析服務云服務處理對象各類型海量數(shù)據(jù)PaaS,SaaS應用任務目標挖掘新知識、分類模型等提供低成本計算服務應用目標智能決策支持支持中小企業(yè)IT應用相互關系應用云計算技術提供數(shù)據(jù)分析服務支撐數(shù)據(jù)分析服務vs.云服務平臺大數(shù)據(jù)分析平臺創(chuàng)新點:與傳統(tǒng)BI區(qū)別應用模式互聯(lián)網服務解決方案軟件解決方案技術支撐智能數(shù)據(jù)中心、互聯(lián)網大型BI軟件及昂貴硬件服務器擴展性彈性擴展擴展性差TOC按需付費解決方案,價格昂貴,成本極高應用領域新興領域(互聯(lián)網、移動互聯(lián)網、電子商務)傳統(tǒng)領域(金融、保險、電信、零售)適用性大型企業(yè)(BI私有云)中小企業(yè)(BISaaS)大型企業(yè)vs.BIServiceBIRuntimeBIServerVisualization傳統(tǒng)BI大數(shù)據(jù)分析平臺大綱大數(shù)據(jù)與云計算云計算大數(shù)據(jù)平臺與技術創(chuàng)新大數(shù)據(jù)平臺產業(yè)化與應用案例大數(shù)據(jù)信息服務產業(yè)鏈金融傳統(tǒng)應用領域新型應用領域互聯(lián)網智慧城市電子商務現(xiàn)代物流制造零售通信智能電網大數(shù)據(jù)信息服務業(yè)的機遇大數(shù)據(jù)是新興技術和戰(zhàn)略性產業(yè),各國都處在同一起跑線,原始創(chuàng)新機遇大;我國數(shù)據(jù)資源豐富,應用需求巨大,有條件實現(xiàn)跨越性發(fā)展,走在世界前列大數(shù)據(jù)分析平臺產業(yè)化大數(shù)據(jù)分析平臺技術及產業(yè)化優(yōu)勢:降低企業(yè)應用成本,技術積累和專業(yè)化服務,培育新的大數(shù)據(jù)分析和信息服務產業(yè)。孵化面向不同行業(yè)的專業(yè)咨詢公司、大數(shù)據(jù)分析公司和信息服務公司。電信大數(shù)據(jù)分析案例MBB數(shù)據(jù)及預處理MBB(MobileBroadband)數(shù)據(jù)通過移動互聯(lián)網訪問網絡的日志數(shù)據(jù),該數(shù)據(jù)為運行商的原始數(shù)據(jù)。2進制編碼,有標準的協(xié)議,需要根據(jù)協(xié)議進行解碼。規(guī)模大,一個中等規(guī)模的城市每天產生數(shù)TB的MBB數(shù)據(jù)MBB數(shù)據(jù)預處理根據(jù)MBB數(shù)據(jù)協(xié)議進行解碼,一般由設備供應商提供。解碼后得到的數(shù)據(jù)payload字段是二進制編碼,其他字段都是文本。Payload是應用程序在互聯(lián)網上的傳輸協(xié)議,每個協(xié)議都有具體的格式。對該部分內容的解析叫做DPI(DeepPacketInspection)。MBB數(shù)據(jù)格式(小部分屬性)AAL514bytesOuterIP20bytesOuter

UDP8bytesGTPU8bytesInnerIP20bytesInnerTCP20bytesPayload1400bytesMBB數(shù)據(jù)重要字段解釋序號名稱意義1srcip外層源IP2dstip外層目的IP3type_idstring業(yè)務類型,如Streaming,Web_Browsing等4service_id服務類型,如PPStream,HTTP等5detail_id詳情,如PPStream_UDP,HTTP等6imsi國際移動用戶識別碼,儲存在SIM卡中,可用于區(qū)別移動用戶的有效信息7imei國際移動裝備辨識碼,用于識別每臺手機8rnc_id基站編號9cell_id小區(qū)編號10setup_timeRNC建立時間11access_timeRNC連接時間12quit_timeRNC斷開時間13terminal終端用戶上網位置和行為分析抽象數(shù)據(jù)模型(U,L,A)U

-

IMEI和IMSI共同標示一個用戶L

-

通過小區(qū)編號cell_id標識A

-

通過詳情detail_id作為用戶的行為標識用戶上網位置和行為分析(續(xù)1)LocationgroupsActiongroupsLocation_group6302953122620502Action_group11PPStreamSkype_IMIcecastAction_group12POP3KooWoIMAPLocation_group7452531697118746Action_group69158_VChatHTTPTongDaXinAction_group7POP3_SSLIMAP_SSLPPVA_Control_dataγδη結果展示地點組和行為組的關系在地點主題1,用戶的行為主題主要集中在行為主題6某個地點組對應某個行為組的概率分布,其中列代表地點組,行代表行為組,顏色越深表示概率值越大,顏色越淺表示概率值越小

基于位置的推薦模型基于位置的行為推薦當用戶出現(xiàn)在某個地方,推薦可能感興趣的k個應用k精度139%542%1054%1569%2070%2571%3084%算法準確率貝葉斯網絡62.0%決策樹32.9%模型預測準確度與k的關系其他方法預測準確度當k取到15以上,我們的方法比傳統(tǒng)的分類方法具有更高的推薦預測準確率電力行業(yè)大數(shù)據(jù)分析案例智能電網大數(shù)據(jù)自動化數(shù)據(jù)采集裝置在智能電網中大量采用東莞大工業(yè)的電力用戶達兩萬多家每十五分鐘采集電壓、電流、功率等數(shù)據(jù)每月平均數(shù)據(jù)量達85GB用電行為模式的客戶分群選取客戶不同維度的數(shù)據(jù)進行客戶分群日周月用電模式用戶行業(yè)背景用戶地理信息用戶電力設備信息地區(qū)宏觀經濟數(shù)據(jù)通過對客戶分群,獲取用戶不同的用電模式工作日雙班制,三班制,四班制周末長短周輪休夜間用電高峰行業(yè)間用電模式比較不同地區(qū)不同行業(yè)用電模式比較節(jié)假日及用電模式趨勢預測用戶行業(yè)背景用電模式用戶地理信息電力用戶客戶分群用戶類型分布行業(yè)類別總計金屬制品業(yè)3456通信設備、計算機及其他電子設備制造業(yè)2983塑料制品業(yè)2918紡織服裝、鞋、帽制造業(yè)1682電氣機械及器材制造業(yè)1393紡織業(yè)1147橡膠制品業(yè)1123家具制造業(yè)971造紙及紙制品業(yè)926工藝品及其他制造業(yè)874文教體育用品制造業(yè)866皮革、毛皮、羽毛(絨)及其制品業(yè)840通用設備制造業(yè)833專用設備制造業(yè)826印刷業(yè)和記錄媒介的復制745非金屬礦物制品業(yè)514行業(yè)類別總計化學原料及化學制品制造業(yè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論