大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展課件_第1頁(yè)
大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展課件_第2頁(yè)
大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展課件_第3頁(yè)
大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展課件_第4頁(yè)
大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展課件_第5頁(yè)
已閱讀5頁(yè),還剩83頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展汪東升wds@清華大學(xué)

大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展汪東升引言早在20世紀(jì),瑞士心理學(xué)家榮格就發(fā)現(xiàn)了《易經(jīng)》筮法中蘊(yùn)涵的一種不同于因果原理的普遍聯(lián)系法則,這同大數(shù)據(jù)技術(shù)的復(fù)雜相關(guān)性有著相似的地方。2012年3月,奧巴馬政府宣布投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,并且定義為“未來的新石油”,希望增強(qiáng)政府收集、分析和萃取海量數(shù)據(jù)的能力。2引言早在20世紀(jì),瑞士心理學(xué)家榮格就發(fā)現(xiàn)了《易經(jīng)》筮法中蘊(yùn)涵大數(shù)據(jù)挖掘與利用尿布&啤酒—沃爾瑪在美國(guó),一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國(guó)的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們?cè)谫I尿布后又隨手帶回了他們喜歡的啤酒。智能交通---交通蝴蝶效應(yīng)英國(guó)布里斯托爾大學(xué)埃迪·威爾遜博士的一項(xiàng)研究結(jié)果顯示,適當(dāng)條件下,一名司機(jī)急剎車或超車可能引發(fā)一場(chǎng)“交通海嘯”,受影響路段長(zhǎng)達(dá)80公里。GOOGLE提前一個(gè)月預(yù)測(cè)電影上映首周的票房收入,準(zhǔn)確度高達(dá)94%根據(jù)麥肯錫的估計(jì),如果零售商能夠充分發(fā)揮大數(shù)據(jù)的優(yōu)勢(shì),其營(yíng)運(yùn)利潤(rùn)率就會(huì)有年均60%的增長(zhǎng)空間,生產(chǎn)效率將會(huì)實(shí)現(xiàn)年均0.5%~1%的增長(zhǎng)幅度。3大數(shù)據(jù)挖掘與利用尿布&啤酒—沃爾瑪3關(guān)于大數(shù)據(jù)4沒有標(biāo)準(zhǔn)的定義…“BigData”isdatawhosescale,diversity,andcomplexityrequirenewarchitecture,techniques,algorithms,andanalyticstomanageitandextractvalueandhiddenknowledgefromit…關(guān)于大數(shù)據(jù)4沒有標(biāo)準(zhǔn)的定義…計(jì)算模型發(fā)展以人為本!計(jì)算模型發(fā)展以人為本!66技術(shù)演進(jìn)歷史揭示未來是大數(shù)據(jù)驅(qū)動(dòng)的智慧型經(jīng)濟(jì)模式技術(shù)演進(jìn)歷史揭示未來是大數(shù)據(jù)驅(qū)動(dòng)的智慧型經(jīng)濟(jì)模式大數(shù)據(jù)的特點(diǎn)8Bankingand

SecuritiesCommunications,MediaandServicesEducationGovernmentHealthcare

ProvidersInsuranceManufacturingandNaturalResourcesRetailTransportationUtilitiesWholesaleTradeVolume

ofDataVelocity

ofDataVariety

ofDataUnderutilized

"DarkData"Potentialbigdataopportunityoneachdimensionis:Veryhot(comparedwithotherindustries)HotModerateLowVerylow(comparedwithotherindustries)大數(shù)據(jù)的3V特性之于存儲(chǔ)Volume---經(jīng)濟(jì)存儲(chǔ)Velocity---層次存儲(chǔ)Variety---策略存儲(chǔ)大數(shù)據(jù)的特點(diǎn)8Bankingand

SecuritiesBigData:3V’s9BigData:3V’s94V特性104V特性10Sina的抑郁癥研究11存在抑郁傾向的微博用戶與普通用戶發(fā)博時(shí)間有明顯差異,這部分人群發(fā)博高峰在23點(diǎn),其夜間活躍度比普通用戶平均約高出30%。該群體微博關(guān)鍵詞為:死、抑郁癥、生命、痛苦、自殺。有60%為女性,40%為男性,女性比例比男性略高Sina的抑郁癥研究11存在抑郁傾向的微博用戶與普通用戶發(fā)博大數(shù)據(jù)之于色情業(yè)12大數(shù)據(jù)之于色情業(yè)12陳坤VS黃曉明:用大數(shù)據(jù)解讀大明星13陳坤VS黃曉明:用大數(shù)據(jù)解讀大明星13知其然而不知其所以然《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》關(guān)注“是什么(關(guān)聯(lián))”,而不是“為什么(因果)”“龍王”蕭勁騰,83.3%–2012年7月21日,北京演唱會(huì)–8月8日,上海演唱會(huì)50年最大臺(tái)風(fēng)–10月31日,紐約,颶風(fēng)“桑迪”–11月5日,天津演唱會(huì)雨太大延期14知其然而不知其所以然14科學(xué)研究的第四范式科學(xué)實(shí)驗(yàn)理論科學(xué)(開普勒定律牛頓定律…)計(jì)算科學(xué)大數(shù)據(jù)完整的科學(xué)研究周期數(shù)據(jù)采集數(shù)據(jù)整理數(shù)據(jù)分析和數(shù)據(jù)可視化。15科學(xué)研究的第四范式科學(xué)實(shí)驗(yàn)151616數(shù)據(jù)處理的變遷OLTP:OnlineTransactionProcessing(DBMSs)OLAP:OnlineAnalyticalProcessing(DataWarehousing)RTAP:Real-TimeAnalyticsProcessing(BigDataArchitecture&technology)17數(shù)據(jù)處理的變遷OLTP:OnlineTransactio大數(shù)據(jù)的源頭Socialmediaandnetworks(allofusaregeneratingdata)Scientificinstruments(collectingallsortsofdata)Mobiledevices(trackingallobjectsallthetime)Sensortechnologyandnetworks(measuringallkindsofdata)TheprogressandinnovationisnolongerhinderedbytheabilitytocollectdataBut,bytheabilitytomanage,analyze,summarize,visualize,anddiscoverknowledgefromthecollecteddatainatimelymannerandinascalablefashion18大數(shù)據(jù)的源頭Socialmediaandnetwork生產(chǎn)/消費(fèi)數(shù)據(jù)模型發(fā)生了變化…OldModel:Fewcompaniesaregeneratingdata,allothersareconsumingdataNewModel:allofusaregeneratingdata,andallofusareconsumingdata19生產(chǎn)/消費(fèi)數(shù)據(jù)模型發(fā)生了變化…OldModel:FewIDC公司發(fā)布的數(shù)字宇宙研究報(bào)告稱:全球信息總量每?jī)赡昃蜁?huì)增長(zhǎng)一倍,2011年全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量為1.8ZB(1021)。IDC認(rèn)為,到下一個(gè)十年(2020年),全球所有IT部門擁有服務(wù)器的總量將會(huì)比現(xiàn)在多出10倍,所管理的數(shù)據(jù)將會(huì)比現(xiàn)在多出50倍。預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量2011年企業(yè)創(chuàng)造、采集、管理和儲(chǔ)存信息的成本已經(jīng)下降到2005年的1/6,而同期企業(yè)關(guān)于數(shù)據(jù)的總投資自2005年以來卻反而上升了50%。數(shù)據(jù)成本的下降助推了數(shù)據(jù)量的增長(zhǎng),而新的數(shù)據(jù)源和數(shù)據(jù)采集技術(shù)的出現(xiàn)則大大增加了未來數(shù)據(jù)的類型,數(shù)據(jù)類型的增加導(dǎo)致現(xiàn)有數(shù)據(jù)空間維度增加,極大地增加了未來大數(shù)據(jù)的復(fù)雜度。20IDC公司發(fā)布的數(shù)字宇宙研究報(bào)告稱:全球信息總量每?jī)赡昃蜁?huì)增超越BI-Ad-hocqueryingandreporting-Dataminingtechniques-Structureddata,typicalsources-Smalltomid-sizedatasets-Optimizationsandpredictiveanalytics-Complexstatisticalanalysis-Alltypesofdata,andmanysources-Verylargedatasets-Moreofareal-time21超越BI-Ad-hocqueryingandrepo大數(shù)據(jù)分析的價(jià)值Bigdataismorereal-timeinnaturethantraditionalDWapplicationsTraditionalDWarchitectures(e.g.Exadata,Teradata)arenotwell-suitedforbigdataappsSharednothing,massivelyparallelprocessing,scaleoutarchitecturesarewell-suitedforbigdataapps22大數(shù)據(jù)分析的價(jià)值Bigdataismorereal-大數(shù)據(jù)的挑戰(zhàn)TheBottleneckisintechnologyNewarchitecture,algorithms,techniquesareneededAlsointechnicalskillsExpertsinusingthenewtechnologyanddealingwithbigdata23大數(shù)據(jù)的挑戰(zhàn)TheBottleneckisintec利用用戶”行為指紋”創(chuàng)造新商機(jī)用戶在線的每一次點(diǎn)擊,每一次評(píng)論,每一個(gè)視頻點(diǎn)播,就是大數(shù)據(jù)的典型來源?;ヂ?lián)網(wǎng)企業(yè)之所以取得令人矚目的成績(jī),其核心的本質(zhì)就是包括用戶網(wǎng)絡(luò)操作的大數(shù)據(jù),進(jìn)行記錄和分析,形成用戶“行為指紋”,從而洞悉用戶的潛在的、真實(shí)的需求,形成預(yù)判。這是傳統(tǒng)企業(yè)花費(fèi)重金都難以企及的夢(mèng)想。所有傳統(tǒng)的產(chǎn)品公司都只能淪為這種新型用戶平臺(tái)級(jí)公司的附庸。利用用戶”行為指紋”創(chuàng)造新商機(jī)用戶在線的每一次點(diǎn)擊,每一次評(píng)大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫(kù)進(jìn)行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集海量交互數(shù)據(jù):源于Facebook、Twitter、LinkedIn及其他來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄CDR、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸ManageFileTransfer協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等。可以預(yù)測(cè)未來。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計(jì)用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開放源碼、在商品硬件群中運(yùn)行的ApacheHadoop。大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)海量交易26262727Gartner2013年技術(shù)成熟度曲線28BDGartner2013年技術(shù)成熟度曲線28BD2013年技術(shù)成熟度曲線解讀大數(shù)據(jù)正在由過熱期轉(zhuǎn)向低谷期物聯(lián)網(wǎng)將成為新的熱點(diǎn)話題云計(jì)算、內(nèi)存分析和企業(yè)3D打印日益成熟292013年技術(shù)成熟度曲線解讀29Gartner總結(jié)2014年十大科技趨勢(shì)-第一、移動(dòng)設(shè)備的多樣性和管理

Gartner暗示從現(xiàn)在起直到2018年,自發(fā)形成的“自帶設(shè)備”辦公(BYOD)引發(fā)種類繁多的移動(dòng)設(shè)備層出不窮,不同的用戶環(huán)境和交互模式將導(dǎo)致“任一設(shè)備、任一地點(diǎn)”的戰(zhàn)略無法實(shí)現(xiàn)。引發(fā)的新問題便是企業(yè)如何針對(duì)自帶設(shè)備制定新的政策,以便平衡好靈活性與保密和隱私需求。第二、移動(dòng)應(yīng)用和應(yīng)用程序第三、萬物互聯(lián)(InternetofEverything)互聯(lián)網(wǎng)的四個(gè)基本應(yīng)用模型分別為管理、貨幣化、操作和擴(kuò)展。這些模型可以應(yīng)用于任何人、物、信息和場(chǎng)所,因此,“物聯(lián)網(wǎng)”終將會(huì)被“萬物互聯(lián)”所取代。第四、混合云和IT成為服務(wù)經(jīng)紀(jì)人

Gartner暗示個(gè)人云和外部私有云服務(wù)整合勢(shì)在必行。第五、云/客戶端架構(gòu)第六、個(gè)人云時(shí)代個(gè)人云技術(shù)的發(fā)展將導(dǎo)致設(shè)備向服務(wù)轉(zhuǎn)移。在此情況下,設(shè)備的特性將不再重要,個(gè)人云數(shù)據(jù)可以在多種設(shè)備上訪問,并將會(huì)取代傳統(tǒng)設(shè)備所具有的部分功能。第七、軟件定義一切第八、Web-scaleIT。第九、智能機(jī)器第十、3D打印

30Gartner總結(jié)2014年十大科技趨勢(shì)-第一、移動(dòng)設(shè)備的多Gartner發(fā)布2014年及未來十大預(yù)測(cè)

數(shù)字產(chǎn)業(yè)革命數(shù)字業(yè)務(wù)

到2020年,數(shù)字化帶來的勞動(dòng)力縮減將導(dǎo)致社會(huì)不穩(wěn)定,數(shù)個(gè)成熟經(jīng)濟(jì)體也將需要新經(jīng)濟(jì)模型。短期關(guān)注點(diǎn):到2014年底,將會(huì)出現(xiàn)更大規(guī)模的“占領(lǐng)華爾街”型的運(yùn)動(dòng),意味著社會(huì)動(dòng)蕩將開始推動(dòng)政治討論。

到2017年,80%的消費(fèi)者將收集、追蹤和交易其個(gè)人信息,以實(shí)現(xiàn)成本節(jié)約、方便以及定制化。短期關(guān)注點(diǎn):到2014年,基于Kickstarter的個(gè)人數(shù)據(jù)的拍賣數(shù)量將以三位數(shù)增長(zhǎng)。

到2020年,企業(yè)和政府將無法保護(hù)75%的敏感數(shù)據(jù),并會(huì)取消保密等級(jí),允許大范圍人群/公眾訪問。短期關(guān)注點(diǎn):到2015年,至少會(huì)出現(xiàn)一個(gè)斯諾登或維基泄密事件,意味著企業(yè)和政府對(duì)于他們不能保護(hù)所有敏感信息這一事實(shí)的情況呈上升趨勢(shì)。

企業(yè)和政府存儲(chǔ)和使用的數(shù)據(jù)量在大規(guī)模地增加,要保護(hù)所有這些數(shù)據(jù)是不現(xiàn)實(shí)的。相比較承擔(dān)保護(hù)所有數(shù)據(jù)這一無底的任務(wù),企業(yè)和政府會(huì)更專注于保護(hù)其中一小部分,并且要保護(hù)得很好。智能機(jī)器物聯(lián)網(wǎng)

在當(dāng)代社會(huì),物聯(lián)網(wǎng)結(jié)合了機(jī)器、人類和商業(yè)之間的互聯(lián)。讓“參與”這個(gè)詞成為真正有價(jià)值的資產(chǎn)。2020年,從可穿戴設(shè)備獲取的消費(fèi)者數(shù)據(jù)將推動(dòng)來自全球1000強(qiáng)的5%的銷售。短期關(guān)注點(diǎn):到到2015年,分享消費(fèi)者數(shù)據(jù)的智能手機(jī)應(yīng)用數(shù)量將增長(zhǎng)兩倍,意味著想要獲取消費(fèi)者個(gè)人數(shù)據(jù)的營(yíng)銷人員或所有者的數(shù)目在增加。五年內(nèi),消費(fèi)者可穿戴產(chǎn)品將變得更加先進(jìn),他們可以捕捉用戶所見,甚至通過生物響應(yīng)進(jìn)行傾聽或感知。31Gartner發(fā)布2014年及未來十大預(yù)測(cè)

數(shù)字產(chǎn)業(yè)革命31智慧城市保增長(zhǎng)智慧電網(wǎng)智能交通智慧金融智慧通訊食品安全醫(yī)療保障水源水質(zhì)智能樓宇公共安全工作就業(yè)政府服務(wù)指揮中心保民生保穩(wěn)定---IBM智慧城市保增長(zhǎng)智慧電網(wǎng)智能交通智慧金融智慧通訊食品安全醫(yī)療保3333云計(jì)算-物聯(lián)網(wǎng)-大數(shù)據(jù)“云”、“物”的核心是“大數(shù)據(jù)”云計(jì)算—計(jì)算/業(yè)務(wù)模式物聯(lián)網(wǎng)—應(yīng)用模式大數(shù)據(jù)—財(cái)富、資產(chǎn)隱性貨幣34商業(yè)模式驅(qū)動(dòng)應(yīng)用需求驅(qū)動(dòng)云計(jì)算-物聯(lián)網(wǎng)-大數(shù)據(jù)“云”、“物”的核心是“大數(shù)據(jù)”34商35353636分析技術(shù):數(shù)據(jù)處理:自然語(yǔ)言處理技術(shù)統(tǒng)計(jì)和分析:A/Btest;topN排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類模型預(yù)測(cè):預(yù)測(cè)模型;機(jī)器學(xué)習(xí);建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫(kù);NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存儲(chǔ);分布式文件系統(tǒng)等計(jì)算結(jié)果展現(xiàn):云計(jì)算;標(biāo)簽云;關(guān)系圖等一些相關(guān)技術(shù)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù):海量數(shù)據(jù)的查詢、統(tǒng)計(jì)、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存儲(chǔ)不利于檢索、查詢和存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化存儲(chǔ)按照非結(jié)構(gòu)化存儲(chǔ)解決方案:Hadoop(MapReduce技術(shù))流計(jì)算(twitter的storm和yahoo!的S4)數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存數(shù)據(jù)管理數(shù)據(jù)分析與挖掘分析技術(shù):一些相關(guān)技術(shù)存儲(chǔ)解決方案:數(shù)據(jù)采集數(shù)據(jù)儲(chǔ)存數(shù)據(jù)管理大數(shù)據(jù)大機(jī)會(huì)大挑戰(zhàn)Big

data,

big

analysisGreat

challenges,

most

opportunities

Big

store,

parallel

computingSafety

is

more

important……

38大數(shù)據(jù)大機(jī)會(huì)大挑戰(zhàn)Bigdata,biganaly大數(shù)據(jù)帶來的問題核心技術(shù)人才數(shù)據(jù)科學(xué)家工程師統(tǒng)計(jì)學(xué)人才(小樣本概率統(tǒng)計(jì))數(shù)據(jù)挖掘人才(多變量統(tǒng)計(jì))信息資源保護(hù)意識(shí)的缺失造成的極大安全隱患—國(guó)家安全大數(shù)據(jù)利用的不開放性會(huì)帶來新的壟斷和社會(huì)資源浪費(fèi)數(shù)據(jù)共享大數(shù)據(jù)對(duì)思維方式、商業(yè)模式、個(gè)人的影響大數(shù)據(jù)時(shí)代的個(gè)人隱私39大數(shù)據(jù)帶來的問題核心技術(shù)394V的再次解讀Volume---數(shù)據(jù)的高效管理存儲(chǔ)&壓縮Velocity---1s界限數(shù)據(jù)的高效組織管理Variety多樣性

組合運(yùn)用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)來尋找問題的答案,是成功進(jìn)行預(yù)測(cè)分析的基礎(chǔ)。但只有利用全部可用數(shù)據(jù)構(gòu)建一幅完整的圖景,才有可能做出精確預(yù)測(cè)Varacity誠(chéng)信大數(shù)據(jù)時(shí)代成立的基本假定是“基本數(shù)據(jù)是準(zhǔn)確、可靠、值得信賴的,來龍去脈清楚,并且具有一致性404V的再次解讀Volume---數(shù)據(jù)的高效管理存儲(chǔ)&壓縮4建議和意見自然科學(xué)研究、環(huán)境保護(hù)、生物醫(yī)藥研究、教育以及國(guó)家安全等領(lǐng)域才是大數(shù)據(jù)技術(shù)突破的重點(diǎn)建立數(shù)據(jù)生態(tài)系統(tǒng)政府--引領(lǐng)者和催化劑科研院所-機(jī)構(gòu)-企業(yè)-政府制定法律法規(guī)建立開放數(shù)據(jù)共享平臺(tái)(組織)-數(shù)據(jù)慈善事業(yè)商業(yè)模式-鼓勵(lì)企業(yè)為社會(huì)效益而分享和使用數(shù)據(jù)(搜索社會(huì)網(wǎng)絡(luò)—免費(fèi)—行為指紋—價(jià)值)鼓勵(lì)發(fā)展技術(shù)基礎(chǔ)設(shè)施和訓(xùn)練個(gè)人分析大數(shù)據(jù)的能力公共數(shù)據(jù):人口普查醫(yī)療衛(wèi)生記錄稅收支出設(shè)施數(shù)據(jù)由公共部門保護(hù)的的敏感群眾的不記名數(shù)據(jù)眾包數(shù)據(jù)開放數(shù)據(jù)共享平臺(tái)隱私標(biāo)準(zhǔn)和安全個(gè)性化數(shù)據(jù)數(shù)據(jù)共享激勵(lì)機(jī)制退出人力資本41建議和意見自然科學(xué)研究、環(huán)境保護(hù)、生物醫(yī)藥研究、教育以及國(guó)家引用專家的話從國(guó)家高度重視未來大數(shù)據(jù)的作用,盡早制定國(guó)家大數(shù)據(jù)研究與產(chǎn)業(yè)發(fā)展規(guī)劃。充分考慮統(tǒng)籌物聯(lián)網(wǎng)、云計(jì)算以及智慧城市建設(shè)的發(fā)展趨勢(shì),加強(qiáng)頂層設(shè)計(jì),統(tǒng)籌相關(guān)政策。明確大數(shù)據(jù)產(chǎn)業(yè)發(fā)展方向。在扶持大數(shù)據(jù)在電商企業(yè)應(yīng)用的同時(shí),更要大力支持大數(shù)據(jù)在基礎(chǔ)科學(xué)研究、國(guó)防以及若干關(guān)鍵領(lǐng)域的應(yīng)用研究,通過加大大數(shù)據(jù)的應(yīng)用提高各行各業(yè)的能力和水平。加強(qiáng)大數(shù)據(jù)的關(guān)鍵技術(shù)研究,確保我國(guó)未來在該領(lǐng)域的控制能力,逐步擺脫我國(guó)長(zhǎng)期以來在信息化建設(shè)的各個(gè)方面都受制于人的被動(dòng)局面。尤其要密切關(guān)注國(guó)內(nèi)大數(shù)據(jù)產(chǎn)業(yè)的市場(chǎng)動(dòng)態(tài),分析未來發(fā)展趨勢(shì),加強(qiáng)應(yīng)對(duì)措施。著力培育國(guó)內(nèi)IT企業(yè)的大數(shù)據(jù)產(chǎn)業(yè)發(fā)展環(huán)境,從政府采購(gòu)、財(cái)稅金融以及人才開發(fā)等方面制定積極的促進(jìn)措施,支持國(guó)內(nèi)IT企業(yè)在大數(shù)據(jù)領(lǐng)域的研究開發(fā)與投資建設(shè)的積極性和主動(dòng)性。42引用專家的話從國(guó)家高度重視未來大數(shù)據(jù)的作用,盡早制定國(guó)家大數(shù)

謝謝(本ppt部分?jǐn)?shù)據(jù)和圖片選自網(wǎng)絡(luò))43謝謝43演講完畢,謝謝觀看!演講完畢,謝謝觀看!大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展汪東升wds@清華大學(xué)

大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展汪東升引言早在20世紀(jì),瑞士心理學(xué)家榮格就發(fā)現(xiàn)了《易經(jīng)》筮法中蘊(yùn)涵的一種不同于因果原理的普遍聯(lián)系法則,這同大數(shù)據(jù)技術(shù)的復(fù)雜相關(guān)性有著相似的地方。2012年3月,奧巴馬政府宣布投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,并且定義為“未來的新石油”,希望增強(qiáng)政府收集、分析和萃取海量數(shù)據(jù)的能力。46引言早在20世紀(jì),瑞士心理學(xué)家榮格就發(fā)現(xiàn)了《易經(jīng)》筮法中蘊(yùn)涵大數(shù)據(jù)挖掘與利用尿布&啤酒—沃爾瑪在美國(guó),一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國(guó)的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們?cè)谫I尿布后又隨手帶回了他們喜歡的啤酒。智能交通---交通蝴蝶效應(yīng)英國(guó)布里斯托爾大學(xué)埃迪·威爾遜博士的一項(xiàng)研究結(jié)果顯示,適當(dāng)條件下,一名司機(jī)急剎車或超車可能引發(fā)一場(chǎng)“交通海嘯”,受影響路段長(zhǎng)達(dá)80公里。GOOGLE提前一個(gè)月預(yù)測(cè)電影上映首周的票房收入,準(zhǔn)確度高達(dá)94%根據(jù)麥肯錫的估計(jì),如果零售商能夠充分發(fā)揮大數(shù)據(jù)的優(yōu)勢(shì),其營(yíng)運(yùn)利潤(rùn)率就會(huì)有年均60%的增長(zhǎng)空間,生產(chǎn)效率將會(huì)實(shí)現(xiàn)年均0.5%~1%的增長(zhǎng)幅度。47大數(shù)據(jù)挖掘與利用尿布&啤酒—沃爾瑪3關(guān)于大數(shù)據(jù)48沒有標(biāo)準(zhǔn)的定義…“BigData”isdatawhosescale,diversity,andcomplexityrequirenewarchitecture,techniques,algorithms,andanalyticstomanageitandextractvalueandhiddenknowledgefromit…關(guān)于大數(shù)據(jù)4沒有標(biāo)準(zhǔn)的定義…計(jì)算模型發(fā)展以人為本!計(jì)算模型發(fā)展以人為本!506技術(shù)演進(jìn)歷史揭示未來是大數(shù)據(jù)驅(qū)動(dòng)的智慧型經(jīng)濟(jì)模式技術(shù)演進(jìn)歷史揭示未來是大數(shù)據(jù)驅(qū)動(dòng)的智慧型經(jīng)濟(jì)模式大數(shù)據(jù)的特點(diǎn)52Bankingand

SecuritiesCommunications,MediaandServicesEducationGovernmentHealthcare

ProvidersInsuranceManufacturingandNaturalResourcesRetailTransportationUtilitiesWholesaleTradeVolume

ofDataVelocity

ofDataVariety

ofDataUnderutilized

"DarkData"Potentialbigdataopportunityoneachdimensionis:Veryhot(comparedwithotherindustries)HotModerateLowVerylow(comparedwithotherindustries)大數(shù)據(jù)的3V特性之于存儲(chǔ)Volume---經(jīng)濟(jì)存儲(chǔ)Velocity---層次存儲(chǔ)Variety---策略存儲(chǔ)大數(shù)據(jù)的特點(diǎn)8Bankingand

SecuritiesBigData:3V’s53BigData:3V’s94V特性544V特性10Sina的抑郁癥研究55存在抑郁傾向的微博用戶與普通用戶發(fā)博時(shí)間有明顯差異,這部分人群發(fā)博高峰在23點(diǎn),其夜間活躍度比普通用戶平均約高出30%。該群體微博關(guān)鍵詞為:死、抑郁癥、生命、痛苦、自殺。有60%為女性,40%為男性,女性比例比男性略高Sina的抑郁癥研究11存在抑郁傾向的微博用戶與普通用戶發(fā)博大數(shù)據(jù)之于色情業(yè)56大數(shù)據(jù)之于色情業(yè)12陳坤VS黃曉明:用大數(shù)據(jù)解讀大明星57陳坤VS黃曉明:用大數(shù)據(jù)解讀大明星13知其然而不知其所以然《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》關(guān)注“是什么(關(guān)聯(lián))”,而不是“為什么(因果)”“龍王”蕭勁騰,83.3%–2012年7月21日,北京演唱會(huì)–8月8日,上海演唱會(huì)50年最大臺(tái)風(fēng)–10月31日,紐約,颶風(fēng)“桑迪”–11月5日,天津演唱會(huì)雨太大延期58知其然而不知其所以然14科學(xué)研究的第四范式科學(xué)實(shí)驗(yàn)理論科學(xué)(開普勒定律牛頓定律…)計(jì)算科學(xué)大數(shù)據(jù)完整的科學(xué)研究周期數(shù)據(jù)采集數(shù)據(jù)整理數(shù)據(jù)分析和數(shù)據(jù)可視化。59科學(xué)研究的第四范式科學(xué)實(shí)驗(yàn)156016數(shù)據(jù)處理的變遷OLTP:OnlineTransactionProcessing(DBMSs)OLAP:OnlineAnalyticalProcessing(DataWarehousing)RTAP:Real-TimeAnalyticsProcessing(BigDataArchitecture&technology)61數(shù)據(jù)處理的變遷OLTP:OnlineTransactio大數(shù)據(jù)的源頭Socialmediaandnetworks(allofusaregeneratingdata)Scientificinstruments(collectingallsortsofdata)Mobiledevices(trackingallobjectsallthetime)Sensortechnologyandnetworks(measuringallkindsofdata)TheprogressandinnovationisnolongerhinderedbytheabilitytocollectdataBut,bytheabilitytomanage,analyze,summarize,visualize,anddiscoverknowledgefromthecollecteddatainatimelymannerandinascalablefashion62大數(shù)據(jù)的源頭Socialmediaandnetwork生產(chǎn)/消費(fèi)數(shù)據(jù)模型發(fā)生了變化…OldModel:Fewcompaniesaregeneratingdata,allothersareconsumingdataNewModel:allofusaregeneratingdata,andallofusareconsumingdata63生產(chǎn)/消費(fèi)數(shù)據(jù)模型發(fā)生了變化…OldModel:FewIDC公司發(fā)布的數(shù)字宇宙研究報(bào)告稱:全球信息總量每?jī)赡昃蜁?huì)增長(zhǎng)一倍,2011年全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量為1.8ZB(1021)。IDC認(rèn)為,到下一個(gè)十年(2020年),全球所有IT部門擁有服務(wù)器的總量將會(huì)比現(xiàn)在多出10倍,所管理的數(shù)據(jù)將會(huì)比現(xiàn)在多出50倍。預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量2011年企業(yè)創(chuàng)造、采集、管理和儲(chǔ)存信息的成本已經(jīng)下降到2005年的1/6,而同期企業(yè)關(guān)于數(shù)據(jù)的總投資自2005年以來卻反而上升了50%。數(shù)據(jù)成本的下降助推了數(shù)據(jù)量的增長(zhǎng),而新的數(shù)據(jù)源和數(shù)據(jù)采集技術(shù)的出現(xiàn)則大大增加了未來數(shù)據(jù)的類型,數(shù)據(jù)類型的增加導(dǎo)致現(xiàn)有數(shù)據(jù)空間維度增加,極大地增加了未來大數(shù)據(jù)的復(fù)雜度。64IDC公司發(fā)布的數(shù)字宇宙研究報(bào)告稱:全球信息總量每?jī)赡昃蜁?huì)增超越BI-Ad-hocqueryingandreporting-Dataminingtechniques-Structureddata,typicalsources-Smalltomid-sizedatasets-Optimizationsandpredictiveanalytics-Complexstatisticalanalysis-Alltypesofdata,andmanysources-Verylargedatasets-Moreofareal-time65超越BI-Ad-hocqueryingandrepo大數(shù)據(jù)分析的價(jià)值Bigdataismorereal-timeinnaturethantraditionalDWapplicationsTraditionalDWarchitectures(e.g.Exadata,Teradata)arenotwell-suitedforbigdataappsSharednothing,massivelyparallelprocessing,scaleoutarchitecturesarewell-suitedforbigdataapps66大數(shù)據(jù)分析的價(jià)值Bigdataismorereal-大數(shù)據(jù)的挑戰(zhàn)TheBottleneckisintechnologyNewarchitecture,algorithms,techniquesareneededAlsointechnicalskillsExpertsinusingthenewtechnologyanddealingwithbigdata67大數(shù)據(jù)的挑戰(zhàn)TheBottleneckisintec利用用戶”行為指紋”創(chuàng)造新商機(jī)用戶在線的每一次點(diǎn)擊,每一次評(píng)論,每一個(gè)視頻點(diǎn)播,就是大數(shù)據(jù)的典型來源?;ヂ?lián)網(wǎng)企業(yè)之所以取得令人矚目的成績(jī),其核心的本質(zhì)就是包括用戶網(wǎng)絡(luò)操作的大數(shù)據(jù),進(jìn)行記錄和分析,形成用戶“行為指紋”,從而洞悉用戶的潛在的、真實(shí)的需求,形成預(yù)判。這是傳統(tǒng)企業(yè)花費(fèi)重金都難以企及的夢(mèng)想。所有傳統(tǒng)的產(chǎn)品公司都只能淪為這種新型用戶平臺(tái)級(jí)公司的附庸。利用用戶”行為指紋”創(chuàng)造新商機(jī)用戶在線的每一次點(diǎn)擊,每一次評(píng)大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫(kù)進(jìn)行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集海量交互數(shù)據(jù):源于Facebook、Twitter、LinkedIn及其他來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄CDR、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸ManageFileTransfer協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等。可以預(yù)測(cè)未來。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計(jì)用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開放源碼、在商品硬件群中運(yùn)行的ApacheHadoop。大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)海量交易70267127Gartner2013年技術(shù)成熟度曲線72BDGartner2013年技術(shù)成熟度曲線28BD2013年技術(shù)成熟度曲線解讀大數(shù)據(jù)正在由過熱期轉(zhuǎn)向低谷期物聯(lián)網(wǎng)將成為新的熱點(diǎn)話題云計(jì)算、內(nèi)存分析和企業(yè)3D打印日益成熟732013年技術(shù)成熟度曲線解讀29Gartner總結(jié)2014年十大科技趨勢(shì)-第一、移動(dòng)設(shè)備的多樣性和管理

Gartner暗示從現(xiàn)在起直到2018年,自發(fā)形成的“自帶設(shè)備”辦公(BYOD)引發(fā)種類繁多的移動(dòng)設(shè)備層出不窮,不同的用戶環(huán)境和交互模式將導(dǎo)致“任一設(shè)備、任一地點(diǎn)”的戰(zhàn)略無法實(shí)現(xiàn)。引發(fā)的新問題便是企業(yè)如何針對(duì)自帶設(shè)備制定新的政策,以便平衡好靈活性與保密和隱私需求。第二、移動(dòng)應(yīng)用和應(yīng)用程序第三、萬物互聯(lián)(InternetofEverything)互聯(lián)網(wǎng)的四個(gè)基本應(yīng)用模型分別為管理、貨幣化、操作和擴(kuò)展。這些模型可以應(yīng)用于任何人、物、信息和場(chǎng)所,因此,“物聯(lián)網(wǎng)”終將會(huì)被“萬物互聯(lián)”所取代。第四、混合云和IT成為服務(wù)經(jīng)紀(jì)人

Gartner暗示個(gè)人云和外部私有云服務(wù)整合勢(shì)在必行。第五、云/客戶端架構(gòu)第六、個(gè)人云時(shí)代個(gè)人云技術(shù)的發(fā)展將導(dǎo)致設(shè)備向服務(wù)轉(zhuǎn)移。在此情況下,設(shè)備的特性將不再重要,個(gè)人云數(shù)據(jù)可以在多種設(shè)備上訪問,并將會(huì)取代傳統(tǒng)設(shè)備所具有的部分功能。第七、軟件定義一切第八、Web-scaleIT。第九、智能機(jī)器第十、3D打印

74Gartner總結(jié)2014年十大科技趨勢(shì)-第一、移動(dòng)設(shè)備的多Gartner發(fā)布2014年及未來十大預(yù)測(cè)

數(shù)字產(chǎn)業(yè)革命數(shù)字業(yè)務(wù)

到2020年,數(shù)字化帶來的勞動(dòng)力縮減將導(dǎo)致社會(huì)不穩(wěn)定,數(shù)個(gè)成熟經(jīng)濟(jì)體也將需要新經(jīng)濟(jì)模型。短期關(guān)注點(diǎn):到2014年底,將會(huì)出現(xiàn)更大規(guī)模的“占領(lǐng)華爾街”型的運(yùn)動(dòng),意味著社會(huì)動(dòng)蕩將開始推動(dòng)政治討論。

到2017年,80%的消費(fèi)者將收集、追蹤和交易其個(gè)人信息,以實(shí)現(xiàn)成本節(jié)約、方便以及定制化。短期關(guān)注點(diǎn):到2014年,基于Kickstarter的個(gè)人數(shù)據(jù)的拍賣數(shù)量將以三位數(shù)增長(zhǎng)。

到2020年,企業(yè)和政府將無法保護(hù)75%的敏感數(shù)據(jù),并會(huì)取消保密等級(jí),允許大范圍人群/公眾訪問。短期關(guān)注點(diǎn):到2015年,至少會(huì)出現(xiàn)一個(gè)斯諾登或維基泄密事件,意味著企業(yè)和政府對(duì)于他們不能保護(hù)所有敏感信息這一事實(shí)的情況呈上升趨勢(shì)。

企業(yè)和政府存儲(chǔ)和使用的數(shù)據(jù)量在大規(guī)模地增加,要保護(hù)所有這些數(shù)據(jù)是不現(xiàn)實(shí)的。相比較承擔(dān)保護(hù)所有數(shù)據(jù)這一無底的任務(wù),企業(yè)和政府會(huì)更專注于保護(hù)其中一小部分,并且要保護(hù)得很好。智能機(jī)器物聯(lián)網(wǎng)

在當(dāng)代社會(huì),物聯(lián)網(wǎng)結(jié)合了機(jī)器、人類和商業(yè)之間的互聯(lián)。讓“參與”這個(gè)詞成為真正有價(jià)值的資產(chǎn)。2020年,從可穿戴設(shè)備獲取的消費(fèi)者數(shù)據(jù)將推動(dòng)來自全球1000強(qiáng)的5%的銷售。短期關(guān)注點(diǎn):到到2015年,分享消費(fèi)者數(shù)據(jù)的智能手機(jī)應(yīng)用數(shù)量將增長(zhǎng)兩倍,意味著想要獲取消費(fèi)者個(gè)人數(shù)據(jù)的營(yíng)銷人員或所有者的數(shù)目在增加。五年內(nèi),消費(fèi)者可穿戴產(chǎn)品將變得更加先進(jìn),他們可以捕捉用戶所見,甚至通過生物響應(yīng)進(jìn)行傾聽或感知。75Gartner發(fā)布2014年及未來十大預(yù)測(cè)

數(shù)字產(chǎn)業(yè)革命31智慧城市保增長(zhǎng)智慧電網(wǎng)智能交通智慧金融智慧通訊食品安全醫(yī)療保障水源水質(zhì)智能樓宇公共安全工作就業(yè)政府服務(wù)指揮中心保民生保穩(wěn)定---IBM智慧城市保增長(zhǎng)智慧電網(wǎng)智能交通智慧金融智慧通訊食品安全醫(yī)療保7733云計(jì)算-物聯(lián)網(wǎng)-大數(shù)據(jù)“云”、“物”的核心是“大數(shù)據(jù)”云計(jì)算—計(jì)算/業(yè)務(wù)模式物聯(lián)網(wǎng)—應(yīng)用模式大數(shù)據(jù)—財(cái)富、資產(chǎn)隱性貨幣78商業(yè)模式驅(qū)動(dòng)應(yīng)用需求驅(qū)動(dòng)云計(jì)算-物聯(lián)網(wǎng)-大數(shù)據(jù)“云”、“物”的核心是“大數(shù)據(jù)”34商79358036分析技術(shù):數(shù)據(jù)處理:自然語(yǔ)言處理技術(shù)統(tǒng)計(jì)和分析:A/Btest;topN排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類模型預(yù)測(cè):預(yù)測(cè)模型;機(jī)器學(xué)習(xí);建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫(kù);NoSQL;SQ

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論