版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)技術(shù)領(lǐng)域
若干關(guān)鍵問題西北大學(xué)信息科學(xué)與技術(shù)學(xué)院陳莉教授/博導(dǎo)2023/1/13NWU智能信息處理研究所2風(fēng)云變幻中……題序
何為大數(shù)據(jù)(BIGDATA)?
Verylargedata?Massivedata?Bigdata?2023/1/13NWU智能信息處理研究所4大數(shù)據(jù)(BigData)超大規(guī)模數(shù)據(jù)?海量數(shù)據(jù)?“verylarge”大?還是“big”大?——相對(duì)于當(dāng)時(shí)的CPU和存儲(chǔ)技術(shù)水平,均指數(shù)據(jù)規(guī)模很大“超大規(guī)模數(shù)據(jù)庫”(VLDB)這個(gè)詞是20世紀(jì)70年代中期出現(xiàn)的。VLDB會(huì)議1975年發(fā)起。數(shù)百萬條記錄即超大規(guī)?!昂A繑?shù)據(jù)”則是21世紀(jì)初出現(xiàn)的詞,越來越多的應(yīng)用建立在多源數(shù)據(jù)集成基礎(chǔ)之上時(shí),數(shù)據(jù)規(guī)模急劇擴(kuò)大,數(shù)據(jù)類型由關(guān)系數(shù)據(jù),到非結(jié)構(gòu)化的、半結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是指在獲得數(shù)據(jù)之前無法預(yù)知其結(jié)構(gòu)的數(shù)據(jù),如文本、圖像、視頻等。包含數(shù)千萬個(gè)文檔、數(shù)百萬張照片或者工程設(shè)計(jì)圖的數(shù)據(jù)集很平常,關(guān)系數(shù)據(jù)庫無法有效管理這些數(shù)據(jù),如何快速訪問數(shù)據(jù)成為核心挑戰(zhàn)。以Hadoop為代表的分布式文件系統(tǒng)和MapReduce計(jì)算框架應(yīng)運(yùn)而生2008年9月《科學(xué)》(Science)雜志發(fā)表了一篇文章“BigData:ScienceinthePetabyteEra”,“大數(shù)據(jù)”這個(gè)詞開始傳播所謂大數(shù)據(jù),泛指規(guī)模達(dá)到幾百TB,甚至PB級(jí)的數(shù)據(jù),廣泛出現(xiàn)在科學(xué)研究,Web集成、多媒體等諸多領(lǐng)域中大數(shù)據(jù)是伴隨數(shù)據(jù)獲取技術(shù)的發(fā)展,Web2.0、WSN(傳感網(wǎng))和CPS(物聯(lián)網(wǎng))等應(yīng)用的快速普及而提出的概念2023/1/13NWU智能信息處理研究所5從歷史的視角——“超大規(guī)模數(shù)據(jù)”指表示和處理的是GB級(jí)別的數(shù)據(jù),主要研究關(guān)系數(shù)據(jù)模型的高效實(shí)現(xiàn)技術(shù)、事務(wù)管理與故障恢復(fù)技術(shù)、索引與查詢優(yōu)化技術(shù)等,創(chuàng)建了一套關(guān)系數(shù)據(jù)庫的理論與技術(shù)體系,已在商業(yè)上取得了成功?!昂A繑?shù)據(jù)”指表示和處理的數(shù)據(jù)是TB級(jí)的數(shù)據(jù),主要研究各種非結(jié)構(gòu)化數(shù)據(jù)的有效管理、多數(shù)據(jù)源的集成問題。涉及如何統(tǒng)一表達(dá)非結(jié)構(gòu)化數(shù)據(jù),如何實(shí)現(xiàn)基于語義的非結(jié)構(gòu)化數(shù)據(jù)的集成和檢索,如何解決與應(yīng)用緊密相關(guān)的功能與數(shù)據(jù)管理系統(tǒng)融合等問題。我國(guó)“核心電子器件、高端通用芯片及基礎(chǔ)軟件產(chǎn)品”(“核高基”)科技重大專項(xiàng)也將非結(jié)構(gòu)化數(shù)據(jù)管理作為需要重點(diǎn)突破的關(guān)鍵技術(shù)加以重點(diǎn)支持。
“大數(shù)據(jù)”指表示和處理的數(shù)據(jù)是PB級(jí)別及其以上的數(shù)據(jù)。大數(shù)據(jù)并非單指數(shù)據(jù)量之大。如果說海量數(shù)據(jù)主要從存儲(chǔ)角度考慮問題,則大數(shù)據(jù)除了數(shù)據(jù)存儲(chǔ),還包括數(shù)據(jù)處理、感知等。
2023/1/13NWU智能信息處理研究所6大數(shù)據(jù)形成于……用電子顯微鏡重建大腦中的突觸網(wǎng)絡(luò),1立方毫米大腦的圖像數(shù)據(jù)就超過1PB據(jù)IDC統(tǒng)計(jì),2011年全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量為1.8ZB(1021),其中75%來自于個(gè)人(主要是圖片、視頻和音樂),遠(yuǎn)遠(yuǎn)超過人類有史以來所有印刷材料的數(shù)據(jù)總量(200PB)谷歌公司通過大規(guī)模集群和MapReduce軟件,每個(gè)月處理的數(shù)據(jù)量超過400PB百度每天大約要處理幾十PB數(shù)據(jù)Facebook注冊(cè)用戶超過10億,每月上傳的照片超過10億張,每天生成300TB以上的日志數(shù)據(jù)淘寶網(wǎng)會(huì)員超過3.7億,在線商品超過8.8億,每天交易數(shù)千萬筆,產(chǎn)生約20TB數(shù)據(jù);雅虎的總存儲(chǔ)容量超過100PB每個(gè)人類基因數(shù)據(jù):300GB~700GB;基因定位和分析所需時(shí)間:1000+機(jī)時(shí):1000個(gè)基因分析需要114年各類移動(dòng)設(shè)備產(chǎn)生了大量的大數(shù)據(jù);傳感網(wǎng)和物聯(lián)網(wǎng)的蓬勃發(fā)展形成大數(shù)據(jù)集合各城市的視頻監(jiān)控每時(shí)每刻都在采集巨量的流媒體數(shù)據(jù)勞斯萊斯公司對(duì)全世界數(shù)以萬計(jì)的飛機(jī)引擎進(jìn)行實(shí)時(shí)監(jiān)控,每年傳送PB量級(jí)的數(shù)據(jù)……
數(shù)據(jù)形成的過程:被動(dòng)產(chǎn)生——主動(dòng)產(chǎn)生——自動(dòng)產(chǎn)生2023/1/13NWU智能信息處理研究所7移動(dòng)互聯(lián)網(wǎng):即時(shí)通迅微信是騰訊公司推出免費(fèi)即時(shí)通訊服務(wù)的聊天軟件。可以通過手機(jī)、平板、網(wǎng)頁快速發(fā)送語音、視頻、圖片和文字。微信提供公眾平臺(tái)、朋友圈、消息推送等功能,用戶可以通過搖一搖、搜索號(hào)碼、附近的人、掃二維碼方式添加好友和關(guān)注公眾平臺(tái),同時(shí)微信幫將內(nèi)容分享給好友以及將用戶看到的精彩內(nèi)容分享到微信朋友圈。
2023/1/13NWU智能信息處理研究所8表1存儲(chǔ)容量單位2023/1/13NWU智能信息處理研究所9表2
9GBDVD光盤/1TB2.5寸硬盤保存1.8ZB數(shù)據(jù)比較
1.8ZB數(shù)據(jù)如果用9GB的DVD盤來保存,疊加起來的高度超過26萬公里,大約是地球到月球距離的2/3;如果用1TB的2.5寸磁盤保存,疊加起來的高度超過1.7萬公里,接近地球周長(zhǎng)的一半;
每位美國(guó)人每分鐘寫3條Twitter微博,不停地寫2.6976萬年;
事實(shí)上,多數(shù)磁盤的容量可能還不到1TB,存儲(chǔ)這些數(shù)據(jù)的磁盤是十分驚人的數(shù)字。2023/1/13NWU智能信息處理研究所10大數(shù)據(jù)的概念定義1
大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。——維基百科
Bigdatausuallyincludesdatasetswithsizesbeyondtheabilityofcommonly-usedsoftwaretoolstocapture,curate,manage,andprocessthedatawithinatolerableelapsedtime.——Wiki2022/12/31NWU智能信息處處理研究所所11大數(shù)據(jù)定義2———“3V””BigDataarehigh-volume,high-velocity,and/orhigh-varietyinformationassetsthatrequirenewformsofprocessingtoenableenhanceddecisionmaking,insightdiscoveryandprocessoptimization.———Gartner大數(shù)據(jù)指:Volume(規(guī)模大,數(shù)數(shù)據(jù)已從TB級(jí)別躍躍升至PB級(jí)別)+Variety(類型多,從從普通的文字字、視頻、圖圖片到逐漸增增多的地理位位置信息等,,類型紛繁,,已無規(guī)律可可循)+Velocity(變化快,即即時(shí)處理成為為趨勢(shì))——IBM2022/12/31NWU智能信息處理理研究所12大數(shù)據(jù)定義3當(dāng)數(shù)據(jù)的規(guī)模和性能要要求成為數(shù)據(jù)管理理分析系統(tǒng)的的重要設(shè)計(jì)和決決定因素時(shí),這樣的數(shù)數(shù)據(jù)就被稱為為大數(shù)據(jù)。不是簡(jiǎn)單地以以數(shù)據(jù)規(guī)模來來界定大數(shù)據(jù)據(jù),要考慮數(shù)數(shù)據(jù)查詢與分分析的復(fù)雜程程度以目前計(jì)算機(jī)機(jī)硬件的發(fā)展展水平看針對(duì)簡(jiǎn)單查詢(如關(guān)鍵字搜搜索),數(shù)據(jù)據(jù)量為TB至PB級(jí)級(jí)時(shí)可稱為大數(shù)數(shù)據(jù)針對(duì)復(fù)雜查詢(如數(shù)據(jù)挖掘掘),數(shù)據(jù)量量為GB至TB級(jí)級(jí)時(shí)即可稱為大大數(shù)據(jù)2022/12/31NWU智能信息處理理研究所13大數(shù)據(jù)定義4大數(shù)據(jù)有兩個(gè)個(gè)不同于傳統(tǒng)統(tǒng)數(shù)據(jù)集的基基本特征:1.大數(shù)據(jù)不一定定存儲(chǔ)于固定定的數(shù)據(jù)庫,,而是分布在在不同的網(wǎng)絡(luò)絡(luò)空間;2.大數(shù)據(jù)以半結(jié)結(jié)構(gòu)化或非結(jié)結(jié)構(gòu)化數(shù)據(jù)為為主,具有較較高的復(fù)雜性性。2022/12/31NWU智能信息處理理研究所14大數(shù)據(jù)定義5-7為了更經(jīng)濟(jì)地地從高頻率獲獲取的、大容容量的、不同同結(jié)構(gòu)和類型型的數(shù)據(jù)中獲獲取價(jià)值,而而設(shè)計(jì)的新一一代架構(gòu)和技技術(shù)?!狪DC大數(shù)據(jù)——““4V”觀觀點(diǎn)一Volume+Variety+Velocity+Value(創(chuàng)造價(jià)值)大數(shù)據(jù)——““4V”觀觀點(diǎn)二Volume+Variety+Velocity+Value(價(jià)值密度低,,以視頻為例例,在連續(xù)不不間斷監(jiān)控過過程中,有用用的數(shù)據(jù)也許許只有一兩秒秒)2022/12/31NWU智能信息處理理研究所15主要內(nèi)容數(shù)據(jù)科學(xué)與大大數(shù)據(jù)大數(shù)據(jù)的主要要研究領(lǐng)域大數(shù)據(jù)技術(shù)主主要研究?jī)?nèi)容容大數(shù)據(jù)技術(shù)的的若干關(guān)鍵問問題2014年大大數(shù)據(jù)十大發(fā)發(fā)展趨勢(shì)預(yù)測(cè)測(cè)一、數(shù)據(jù)科學(xué)學(xué)與大數(shù)據(jù)數(shù)據(jù)科學(xué)是關(guān)關(guān)于數(shù)據(jù)的科科學(xué)——旨在研究數(shù)據(jù)的各各種類型、狀狀態(tài)、屬性及及變化形式和和變化規(guī)律,,揭示自然界界和人類行為為現(xiàn)象和規(guī)律律,亦稱數(shù)據(jù)據(jù)學(xué)。2022/12/31NWU智能信息處理理研究所17數(shù)據(jù)科學(xué)與第第四范式2007年美美國(guó)總統(tǒng)科學(xué)學(xué)技術(shù)顧問委委員會(huì)(President’sCouncilofAdvisorsonScienceandTechnology,PCAST)的報(bào)報(bào)告以及英國(guó)國(guó)e-Science計(jì)計(jì)劃前首席科科學(xué)家托尼·海(TonyHey))的著作《第四范式::數(shù)據(jù)密集型型科學(xué)發(fā)現(xiàn)》》(TheFourthParadigm::DataintensiveScientificDiscovery)都揭示出出數(shù)據(jù)分析已經(jīng)成為繼實(shí)驗(yàn)、理論和計(jì)算之后的第四種種科學(xué)發(fā)現(xiàn)基基礎(chǔ),成為產(chǎn)產(chǎn)生經(jīng)濟(jì)價(jià)值值的新源泉。。2022/12/31NWU智能信息處理理研究所18數(shù)據(jù)科學(xué)(DataScience)圖靈獎(jiǎng)獲得者者JimGray:2007年在在演講中提出出“數(shù)據(jù)密集集型科學(xué)發(fā)現(xiàn)現(xiàn)(Data-IntensiveScientificDiscovery)”將成成為科學(xué)研究究的第四范式式實(shí)驗(yàn)科學(xué)理論科學(xué)計(jì)算科學(xué)數(shù)據(jù)科學(xué)卡耐基·梅隆隆大學(xué)等相繼繼提出了“數(shù)數(shù)據(jù)密集型超超級(jí)計(jì)算(dataintensivesupercomputing)””和“數(shù)據(jù)據(jù)密集型可擴(kuò)擴(kuò)展計(jì)算(dataintensivescalablecomputing)”的的概念世界著名存儲(chǔ)儲(chǔ)技術(shù)公司EMC:提出出了“DataScience””的概念,““DataScienceteamswillbecomethedrivingforceforsuccesswithbigdataanalytics””李國(guó)杰院士::“數(shù)據(jù)科學(xué)學(xué)”研究的對(duì)對(duì)象是什么??計(jì)算機(jī)科學(xué)學(xué)是關(guān)于算法法的科學(xué),而而數(shù)據(jù)科學(xué)是關(guān)關(guān)于數(shù)據(jù)的科科學(xué)——數(shù)據(jù)據(jù)學(xué)“數(shù)據(jù)科學(xué)””成為一個(gè)個(gè)新興的研究究領(lǐng)域——2012年大數(shù)據(jù)成成為熱點(diǎn)2022/12/31NWU智能能信信息息處處理理研研究究所所19數(shù)據(jù)據(jù)科科學(xué)學(xué)研研究究的的基基本本框框架架“大數(shù)數(shù)據(jù)據(jù)””
大數(shù)據(jù)(Bigdata)是指無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合?!S基百科大數(shù)數(shù)據(jù)據(jù)4V特征征VolumeVolumeVarietyVolume模態(tài)多樣VeracityVolume真?zhèn)坞y辨VelocityVolume速度極快體量巨大文本視頻圖片音頻到2020年,數(shù)據(jù)總量達(dá)40ZB,人均5.2TB分享的內(nèi)容條目超過25億個(gè)/天,增加數(shù)據(jù)超過500TB/天202022/12/31NWU智能能信信息息處處理理研研究究所所20212022/12/31NWU智能能信信息息處處理理研研究究所所21大數(shù)數(shù)據(jù)據(jù)與與常常規(guī)規(guī)數(shù)數(shù)據(jù)據(jù)常規(guī)規(guī)數(shù)數(shù)據(jù)據(jù)范圍圍廣廣模態(tài)態(tài)多多增長(zhǎng)長(zhǎng)快快關(guān)聯(lián)聯(lián)繁繁數(shù)據(jù)據(jù)規(guī)規(guī)模模較較小小模態(tài)態(tài)屬屬性性受受限限增長(zhǎng)長(zhǎng)速速度度較較慢慢關(guān)聯(lián)聯(lián)相相對(duì)對(duì)簡(jiǎn)簡(jiǎn)單單稠密密與與稀稀疏疏共共存存冗余余與與缺缺失失并并在在動(dòng)態(tài)態(tài)與與靜靜態(tài)態(tài)互互現(xiàn)現(xiàn)顯式式與與隱隱藏藏均均有有特性性問題題描述述與與存存儲(chǔ)儲(chǔ)的的挑挑戰(zhàn)戰(zhàn)分析析與與理理解解的的挑挑戰(zhàn)戰(zhàn)挖掘掘與與預(yù)預(yù)測(cè)測(cè)的的挑挑戰(zhàn)戰(zhàn)挑戰(zhàn)戰(zhàn)大數(shù)數(shù)據(jù)據(jù)應(yīng)用用目目標(biāo)標(biāo)相對(duì)對(duì)比比較較明明確確數(shù)據(jù)據(jù)結(jié)結(jié)構(gòu)構(gòu)相相對(duì)對(duì)比比較較簡(jiǎn)簡(jiǎn)單單時(shí)序序長(zhǎng)長(zhǎng)持續(xù)續(xù)時(shí)時(shí)間間較較短短處理理方方法法通通常常為為模模型型化化、、參參數(shù)數(shù)化化2022/12/31NWU智能能信信息息處處理理研研究究所所22美國(guó)國(guó)的的大大數(shù)數(shù)據(jù)據(jù)規(guī)規(guī)劃劃—大數(shù)數(shù)據(jù)據(jù)上上升升為為國(guó)國(guó)家家意意志志2012年年3月月29日日,,美美國(guó)國(guó)聯(lián)聯(lián)邦邦政政府府整整合合6個(gè)個(gè)部部門門宣宣布布2億億美美元元的的“BigDataResearchandDevelopmentInitiative””促進(jìn)進(jìn)采采集集、、存存儲(chǔ)儲(chǔ)、、維維護(hù)護(hù)、、管管理理、、分分析析和和共共享享海海量量數(shù)數(shù)據(jù)據(jù)的的核核心心技技術(shù)術(shù);;利用用以以上上技技術(shù)術(shù)來來加加速速科科學(xué)學(xué)與與工工程程發(fā)發(fā)現(xiàn)現(xiàn)的的步步伐伐,,強(qiáng)強(qiáng)化化國(guó)國(guó)家家安安全全,,改改變變教教育育和和學(xué)學(xué)習(xí)習(xí);;培養(yǎng)養(yǎng)開開發(fā)發(fā)和和使使用用大大數(shù)數(shù)據(jù)據(jù)技技術(shù)術(shù)的的人人力力資資源源。。CoreTechnologiesforAdvancingBigDataScience&EngineeringDatatoDecisions1000GenomesProjectDataAvailableonCloudScientificDiscoveryThroughAdvancedComputingBigDataforEarthSystemScienceXDATA2022/12/31NWU智能能信信息息處處理理研研究究所所23美國(guó)國(guó)政政府府六六個(gè)個(gè)部部門門啟啟動(dòng)動(dòng)的的“大數(shù)數(shù)據(jù)據(jù)研研究究與與發(fā)發(fā)展展計(jì)計(jì)劃劃”,絕絕大大多多數(shù)數(shù)研研究究項(xiàng)項(xiàng)目目都都是是應(yīng)應(yīng)對(duì)對(duì)大大數(shù)數(shù)據(jù)據(jù)帶帶來來的的技技術(shù)術(shù)挑挑戰(zhàn)戰(zhàn)國(guó)防防部部高高級(jí)級(jí)研研究究計(jì)計(jì)劃劃局局((DARPA))的的大大數(shù)數(shù)據(jù)據(jù)研研究究項(xiàng)項(xiàng)目目包包括括:多尺尺度度異異常常檢檢測(cè)測(cè)項(xiàng)項(xiàng)目目,,旨在在解解決決大大規(guī)規(guī)模模數(shù)數(shù)據(jù)據(jù)集集的的異異常常檢檢測(cè)測(cè)和和特特征征化化;網(wǎng)網(wǎng)絡(luò)絡(luò)內(nèi)內(nèi)部部威威脅脅計(jì)計(jì)劃劃,,旨在在通通過過分分析析傳傳感感器器和和其其他他來來源源的的信信息息,,進(jìn)進(jìn)行行網(wǎng)網(wǎng)絡(luò)絡(luò)威威脅脅和和非非常常規(guī)規(guī)戰(zhàn)戰(zhàn)爭(zhēng)爭(zhēng)行行為為的的自自動(dòng)動(dòng)識(shí)識(shí)別別;MachineReading項(xiàng)項(xiàng)目目,,旨旨在在實(shí)現(xiàn)現(xiàn)人人工工智智能能的的應(yīng)應(yīng)用用和和發(fā)發(fā)展展學(xué)學(xué)習(xí)習(xí)系系統(tǒng)統(tǒng),對(duì)對(duì)自自然然文文本本進(jìn)進(jìn)行行知知識(shí)識(shí)插插入入。能源源部部((DOE))的的大大數(shù)數(shù)據(jù)據(jù)研研究究項(xiàng)項(xiàng)目目包包括括:機(jī)器器學(xué)學(xué)習(xí)習(xí)、、數(shù)數(shù)據(jù)據(jù)流流的的實(shí)實(shí)時(shí)時(shí)分分析析、、非非線線性性隨隨機(jī)機(jī)的的數(shù)數(shù)據(jù)據(jù)縮縮減減技技術(shù)術(shù)和和可可擴(kuò)擴(kuò)展展的的統(tǒng)統(tǒng)計(jì)計(jì)分分析析技技術(shù)術(shù)。生物物和和環(huán)環(huán)境境研研究究計(jì)計(jì)劃劃的的目目標(biāo)標(biāo)是大大氣氣輻輻射射測(cè)測(cè)量量等等氣氣候候研研究究設(shè)設(shè)施施;;系統(tǒng)統(tǒng)生生物物學(xué)學(xué)知知識(shí)識(shí)庫庫項(xiàng)項(xiàng)目目是是對(duì)微微生生物物、、植植物物等等生生物物群群落落功功能能的的數(shù)數(shù)據(jù)據(jù)驅(qū)驅(qū)動(dòng)動(dòng)的的預(yù)預(yù)測(cè)測(cè)。國(guó)家家人人文文基基金金會(huì)會(huì)((NEH))項(xiàng)項(xiàng)目目包包括括:分析析大大數(shù)數(shù)據(jù)據(jù)的的變變化化對(duì)對(duì)人人文文社社會(huì)會(huì)科科學(xué)學(xué)的的影影響響,如如數(shù)數(shù)字字化化的的書書籍籍和和報(bào)報(bào)紙紙數(shù)數(shù)據(jù)據(jù)庫庫,,從從網(wǎng)網(wǎng)絡(luò)絡(luò)搜搜索索,,傳傳感感器器和和手手機(jī)機(jī)記記錄錄交交易易數(shù)數(shù)據(jù)據(jù)。。國(guó)家家科科學(xué)學(xué)基基金金會(huì)會(huì)((NSF))的的大大數(shù)數(shù)據(jù)據(jù)項(xiàng)項(xiàng)目目的的重重點(diǎn)點(diǎn)也也是是圍圍繞繞突突破破關(guān)關(guān)鍵鍵技技術(shù)術(shù),,包包括括:從大量量、、多多樣樣、、分分散散和和異異構(gòu)構(gòu)的的數(shù)數(shù)據(jù)據(jù)集集中中提提取取有有用用信信息息的的核核心心技技術(shù)術(shù);開發(fā)發(fā)一一種種以統(tǒng)統(tǒng)一一的的理理論論框框架架為為原原則則的的統(tǒng)統(tǒng)計(jì)計(jì)方方法法和和可可伸伸縮縮的的網(wǎng)網(wǎng)絡(luò)絡(luò)模模型型算算法法,,以以區(qū)別別適適合合隨隨機(jī)機(jī)性性網(wǎng)網(wǎng)絡(luò)絡(luò)的的方方法法。242022/12/31NWU智能能信信息息處處理理研研究究所所24歐盟的的大數(shù)數(shù)據(jù)規(guī)規(guī)劃——基礎(chǔ)設(shè)設(shè)施是是先導(dǎo)導(dǎo)Horizon2020-TheFrameworkProgrammeforResearchandInnovation面向大大數(shù)據(jù)據(jù)的數(shù)數(shù)據(jù)信信息化化基礎(chǔ)礎(chǔ)設(shè)施施(E-Infrastructure))是優(yōu)優(yōu)先資資助領(lǐng)領(lǐng)域GRDI2020-GlobalResearchDataInfrastructures建立針針對(duì)科科研大大數(shù)據(jù)據(jù)的基基礎(chǔ)設(shè)設(shè)施,,實(shí)現(xiàn)現(xiàn)數(shù)據(jù)據(jù)管理理系統(tǒng)統(tǒng)、數(shù)數(shù)字?jǐn)?shù)數(shù)據(jù)圖圖書館館、研研究圖圖書館館、數(shù)數(shù)據(jù)工工具和和研究究團(tuán)體體的整整合FP7Call8IntelligentInformationManagement-BigData預(yù)算5千萬萬歐元元,2012-1-17截止止目標(biāo)::提升發(fā)發(fā)現(xiàn)、、分析析、開開采、、使用用大數(shù)數(shù)據(jù)及及其基基礎(chǔ)設(shè)設(shè)施的的能力力通過對(duì)對(duì)大數(shù)數(shù)據(jù)收收集與與分析析創(chuàng)造造更大大價(jià)值值探索基基于大大規(guī)模?;ヂ?lián)聯(lián)數(shù)據(jù)據(jù)資源源與專專用基基礎(chǔ)設(shè)設(shè)施的的新型型科學(xué)學(xué)研究究面向大大數(shù)據(jù)據(jù)的人人力資資源開開發(fā)2022/12/31NWU智能信信息處處理研研究所所25大數(shù)據(jù)據(jù)涉及及諸多多不同同的領(lǐng)領(lǐng)域天文氣象基因醫(yī)學(xué)經(jīng)濟(jì)物理其他領(lǐng)域用戶生成數(shù)據(jù)DeepWeb數(shù)據(jù)多模態(tài)內(nèi)容數(shù)據(jù)網(wǎng)絡(luò)與關(guān)系數(shù)據(jù)2022/12/31NWU智能信信息處處理研研究所所26大數(shù)據(jù)據(jù)的價(jià)價(jià)值科研價(jià)價(jià)值圖靈獎(jiǎng)獎(jiǎng)得主主、數(shù)數(shù)據(jù)庫庫技術(shù)術(shù)奠基基人JimGray認(rèn)認(rèn)為數(shù)數(shù)據(jù)驅(qū)驅(qū)動(dòng)的的研究究將是是第四四種科科學(xué)研研究范范式”TheFourthParadigm:Data-IntensiveScientificDiscovery”大數(shù)據(jù)據(jù)已為為多個(gè)個(gè)不同同學(xué)科科的科科學(xué)研研究工工作提提供了了寶貴貴機(jī)遇遇經(jīng)濟(jì)價(jià)價(jià)值麥肯錫錫全球球研究究院::大數(shù)數(shù)據(jù)可可為世世界經(jīng)經(jīng)濟(jì)創(chuàng)創(chuàng)造巨巨大價(jià)價(jià)值,,提高高企業(yè)業(yè)和公公共部部門的的生產(chǎn)產(chǎn)率和和競(jìng)爭(zhēng)爭(zhēng)力,,并為為消費(fèi)費(fèi)者創(chuàng)創(chuàng)造巨巨大的的經(jīng)濟(jì)濟(jì)利益益著名Gartner公司司:到到2015年,,采用用大數(shù)數(shù)據(jù)和和海量量信息息管理理的公公司將將在各各項(xiàng)財(cái)財(cái)務(wù)指指標(biāo)上上,超超過未未做準(zhǔn)準(zhǔn)備的的競(jìng)爭(zhēng)爭(zhēng)對(duì)手手20%工業(yè)價(jià)價(jià)值分析使使用::揭示示隱藏藏其中中的信信息,,例如如零售售業(yè)中中對(duì)門門店銷銷售、、地理理和社社會(huì)信信息的的分析析能提提升對(duì)對(duì)客戶戶的理理解二次開開發(fā)::創(chuàng)造造出新新產(chǎn)品品和服服務(wù)。。例如如Facebook通過結(jié)結(jié)合大大量用用戶信信息,,定制制出高高度個(gè)個(gè)性化化的用用戶體體驗(yàn),,并創(chuàng)創(chuàng)造出出一種種新的的廣告告模式式社會(huì)價(jià)值例如:2009年年淘寶網(wǎng)推推出淘寶CPI來反映網(wǎng)絡(luò)絡(luò)購物的消消費(fèi)趨勢(shì)和和價(jià)格動(dòng)態(tài)態(tài)其他價(jià)值…DataisthenextIntelInside.Thefuturebelongstothecompaniesandpeoplethatturndataintoproducts.----著名出版公公司O‘Reilly的創(chuàng)始人TimO‘Reilly大數(shù)據(jù)處理理技術(shù)的主主要推動(dòng)者者IBM、Oracle、微軟軟、谷歌、、亞馬遜、、Facebook等跨國(guó)巨頭是是發(fā)展大數(shù)數(shù)據(jù)處理技技術(shù)的主要要推動(dòng)者;;IBM投資160億美元進(jìn)進(jìn)行了30次與大數(shù)數(shù)據(jù)有關(guān)的的收購,促促使其業(yè)績(jī)績(jī)穩(wěn)定高速速增長(zhǎng)。2012年年,IBM股價(jià)突破破200美美元大關(guān),,3年之內(nèi)內(nèi)翻了3倍倍;IBM成為全球數(shù)數(shù)學(xué)博士的的最大雇主主,數(shù)學(xué)家家正在將其其數(shù)據(jù)分析析的才能應(yīng)應(yīng)用于石油油勘探、醫(yī)醫(yī)療健康等等各個(gè)領(lǐng)域域;華爾街早已開始招招聘精通數(shù)數(shù)據(jù)分析的的天文學(xué)家家和理論數(shù)數(shù)學(xué)家來設(shè)設(shè)計(jì)金融產(chǎn)產(chǎn)品;eBay通過數(shù)據(jù)挖挖掘可以精精確計(jì)算出出廣告中的的每一個(gè)關(guān)關(guān)鍵字為公公司帶來的的回報(bào)。通通過對(duì)廣告告投放的優(yōu)優(yōu)化,2007年以以來eBay產(chǎn)品銷銷售的廣告告費(fèi)降低了了99%,,而頂級(jí)賣賣家占總銷銷售額的百百分比卻上上升至32%;目前推動(dòng)大大數(shù)據(jù)研究究的動(dòng)力主主要是企業(yè)業(yè)經(jīng)濟(jì)效益益,巨大的的經(jīng)濟(jì)利益益驅(qū)使大企企業(yè)不斷擴(kuò)擴(kuò)大數(shù)據(jù)處處理規(guī)模。。應(yīng)用價(jià)值佐佐證美國(guó)印地安安那大學(xué)和和英國(guó)曼徹徹斯特大學(xué)學(xué)的學(xué)者通通過提取Twitter上的非結(jié)結(jié)構(gòu)化數(shù)據(jù)據(jù)分析公眾眾情緒,再再將情緒曲曲線與道瓊瓊斯工業(yè)指指數(shù)進(jìn)行對(duì)對(duì)照分析,,發(fā)現(xiàn)可以以提前3~4天預(yù)測(cè)測(cè)股市大盤盤走勢(shì)。基于此,他他們已經(jīng)推推出了歐洲洲第一只基基于社交媒媒體的對(duì)沖沖基金;英國(guó)的科學(xué)學(xué)家根據(jù)Twitter的數(shù)據(jù)來來跟蹤流感感的爆發(fā)?;谟脩魬舭l(fā)布信息息中的關(guān)鍵鍵詞,如“我頭痛”,并結(jié)合用用戶的發(fā)布布地點(diǎn),按按區(qū)域與英英國(guó)衛(wèi)生部部的官方數(shù)數(shù)據(jù)進(jìn)行比比較,最終終建立起一一個(gè)預(yù)測(cè)模模型。2012年年初的瑞士士達(dá)沃斯論論壇上,一一份題為《《大數(shù)據(jù),,大影響》》(BigData,BigImpact)的報(bào)告告宣稱,數(shù)據(jù)已經(jīng)成成為一種新新的經(jīng)濟(jì)資資產(chǎn)類別,,就像貨幣幣或黃金一一樣?!度A爾街日日?qǐng)?bào)》在文文章《科技技變革即將將引領(lǐng)新的的經(jīng)濟(jì)繁榮榮》中更是是大膽預(yù)測(cè)測(cè):“我們?cè)俅翁幪幱谌龍?chǎng)宏宏大技術(shù)變變革的開端端,他們可可能足以匹匹敵20世世紀(jì)的那場(chǎng)場(chǎng)變革,這這三場(chǎng)變革革的震中都都在美國(guó),,他們分別別是大數(shù)據(jù)據(jù)、智能制制造和無線線網(wǎng)絡(luò)革命命?!?9學(xué)術(shù)界對(duì)大大數(shù)據(jù)的關(guān)關(guān)注2012年1月,NaturePhysics上出版??癈omplexity”特別指出大數(shù)據(jù)為科科學(xué)研究,,特別是復(fù)復(fù)雜性科學(xué)學(xué)的研究提提供了史無無前例的機(jī)機(jī)遇2008年,Nature出版??癇igData”從互聯(lián)網(wǎng)技技術(shù)、互聯(lián)聯(lián)網(wǎng)經(jīng)濟(jì)學(xué)學(xué)、超級(jí)計(jì)計(jì)算、環(huán)境境科學(xué)、生生物醫(yī)藥等等多個(gè)方面面介紹了大數(shù)據(jù)所帶帶來的技術(shù)術(shù)挑戰(zhàn)2011年,Science刊登專刊““DealingwithData”討論了數(shù)據(jù)洪流((Datadeluge)所帶來的的挑戰(zhàn),也特別指指出倘若能能夠更有效效地組織和和使用這些些數(shù)據(jù),人人們將得到到更多的機(jī)機(jī)會(huì)發(fā)揮科科學(xué)技術(shù)對(duì)對(duì)社會(huì)發(fā)展展的巨大推推動(dòng)作用2012年4月,歐洲信信息學(xué)與數(shù)數(shù)學(xué)研究協(xié)協(xié)會(huì)會(huì)刊ERCIMNews上出版專刊刊“BigData”討論了大數(shù)數(shù)據(jù)時(shí)代的的數(shù)據(jù)管理理、數(shù)據(jù)密密集型研究究的創(chuàng)新數(shù)數(shù)據(jù)庫技術(shù)術(shù)等問題,,并介紹了了歐洲科研研機(jī)構(gòu)開展展的研究活活動(dòng)和取得得的創(chuàng)新性性進(jìn)展2022/12/31NWU智能信息處處理研究所所29302022/12/31NWU智能信息處處理研究所所30大數(shù)據(jù)會(huì)議議/Workshop學(xué)術(shù)會(huì)議工業(yè)會(huì)議2022/12/31NWU智能信息處處理研究所所31國(guó)內(nèi)現(xiàn)狀2012年年2月14日工信部部發(fā)布的物物聯(lián)網(wǎng)“十二五”規(guī)劃中,,信息處理理技術(shù)作為四項(xiàng)項(xiàng)關(guān)鍵技技術(shù)創(chuàng)新新工程之之一已經(jīng)經(jīng)被提出出來,其其中包括括了海量數(shù)據(jù)據(jù)存儲(chǔ)、、數(shù)據(jù)挖挖掘、圖圖像視頻頻智能分分析——大數(shù)據(jù)的的重要組組成部分分;另外三三項(xiàng)關(guān)鍵鍵技術(shù)創(chuàng)創(chuàng)新工程程,包括括信息感知知技術(shù)、信息傳輸輸技術(shù)、信息安全全技術(shù),也都與與大數(shù)據(jù)據(jù)密切相相關(guān)973立立項(xiàng)(2013)::大數(shù)據(jù)據(jù)計(jì)算的的基礎(chǔ)研研究;面面向三元元空間的的感知、、認(rèn)知和和智能控控制863立立項(xiàng)(2013)::面向大大數(shù)據(jù)先先進(jìn)存儲(chǔ)儲(chǔ)結(jié)構(gòu)及及關(guān)鍵技技術(shù);面面向大數(shù)數(shù)據(jù)的智智能存儲(chǔ)儲(chǔ)體系結(jié)結(jié)構(gòu)及關(guān)關(guān)鍵技術(shù)術(shù)和模型型框架;;海量WEB數(shù)數(shù)據(jù)提取取分析和和管理系系統(tǒng)平臺(tái)臺(tái)開發(fā)NSFC:F02大大數(shù)據(jù)據(jù)管理與與分析F03::大數(shù)據(jù)據(jù)技術(shù)與與應(yīng)用中中的挑戰(zhàn)戰(zhàn)性科學(xué)學(xué)問題二、大數(shù)數(shù)據(jù)的主主要研究究領(lǐng)域科學(xué)—技術(shù)—工程—應(yīng)用2022/12/31NWU智能信息息處理研研究所33大數(shù)據(jù)的的主要研研究領(lǐng)域域大數(shù)據(jù)科科學(xué):旨在發(fā)發(fā)現(xiàn)和驗(yàn)驗(yàn)證大數(shù)數(shù)據(jù)的規(guī)規(guī)律及其其與自然然和社會(huì)會(huì)活動(dòng)之之間的關(guān)關(guān)系。大數(shù)據(jù)工工程:指大數(shù)數(shù)據(jù)的規(guī)規(guī)劃、建建設(shè)、運(yùn)運(yùn)營(yíng)、管管理的系系統(tǒng)工程程。大數(shù)據(jù)應(yīng)應(yīng)用:針對(duì)不不同行業(yè)業(yè)與領(lǐng)域域業(yè)務(wù)需需求,展展開數(shù)據(jù)據(jù)特征與與業(yè)務(wù)特特征的研研究,進(jìn)進(jìn)行大數(shù)數(shù)據(jù)應(yīng)用用分類與與技術(shù)需需求分析析,構(gòu)建建從“需求分析析——業(yè)務(wù)模型型——數(shù)據(jù)模型型——數(shù)據(jù)采集集——數(shù)據(jù)分析析——總結(jié)反饋饋——數(shù)據(jù)分析析”的全生命命周期應(yīng)應(yīng)用模型型。大數(shù)據(jù)技技術(shù):旨在從從各種各各樣類型型的數(shù)據(jù)據(jù)中,快快速獲得得有價(jià)值值信息的的技術(shù)。。大數(shù)據(jù)技技術(shù)將被被設(shè)計(jì)用用于在成本可可承受((economically)的條件件下,通通過非常??焖伲ǎ╲elocity)的采集集、發(fā)發(fā)現(xiàn)和分分析,從從大量的的(volumes)、多類類別(variety)的數(shù)據(jù)據(jù)中提取取價(jià)值((value),將是是IT領(lǐng)域新一一代的技技術(shù)架構(gòu)構(gòu)和相關(guān)關(guān)技術(shù)。。大數(shù)據(jù)研研究的三三個(gè)關(guān)鍵鍵問題在“數(shù)據(jù)據(jù)科學(xué)””領(lǐng)域,,大數(shù)據(jù)管管理及處處理能力力已經(jīng)成成為大數(shù)數(shù)據(jù)技術(shù)術(shù)研究的的關(guān)鍵。由于數(shù)據(jù)據(jù)的異質(zhì)質(zhì)異構(gòu)、、無結(jié)構(gòu)構(gòu)及不可可信等特特征,大數(shù)據(jù)管理和分分析研究究需要解解決可表示、、可處理理和可靠性三個(gè)關(guān)鍵鍵問題。。關(guān)鍵問題題——可可表示問問題例如,互互聯(lián)網(wǎng)中中的數(shù)據(jù)據(jù)具有異異質(zhì)、異異構(gòu)、無無結(jié)構(gòu)發(fā)發(fā)展趨勢(shì)勢(shì);非結(jié)構(gòu)化化數(shù)據(jù)在在互聯(lián)網(wǎng)網(wǎng)大數(shù)據(jù)據(jù)中占有有的比例例大幅增增加;美國(guó)弗雷雷斯特研研究公司司Forrester)分析析師在2010年《政政府今天天所面臨臨的挑戰(zhàn)戰(zhàn)》報(bào)告告中預(yù)計(jì)計(jì):“數(shù)據(jù)將會(huì)會(huì)在今后后的5年年內(nèi)增加加8倍,,其中非非結(jié)構(gòu)化化數(shù)據(jù)在在各組織織機(jī)構(gòu)的的數(shù)據(jù)中中所占份份額超過過70%到80%,并并且這些些非結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù)的增長(zhǎng)長(zhǎng)速度是是結(jié)構(gòu)化化數(shù)據(jù)的的10~50倍倍”。從數(shù)據(jù)管管理的角角度看,,非結(jié)構(gòu)化化數(shù)據(jù)很很難按照照統(tǒng)一的的模型進(jìn)進(jìn)行分析析處理,,比結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù)處理難難得多。因此,如何有效效地表示示這些非非結(jié)構(gòu)化化數(shù)據(jù)成成為首要要問題??商幚韱枂栴}———數(shù)據(jù)規(guī)模模急劇擴(kuò)擴(kuò)張,遠(yuǎn)遠(yuǎn)遠(yuǎn)超越越現(xiàn)有計(jì)計(jì)算機(jī)處處理能力力圖靈獎(jiǎng)獲獲得者吉吉姆·格格雷(JimGray)和和IDC公司曾曾預(yù)測(cè),,全球數(shù)據(jù)據(jù)量每18個(gè)月月翻一番番。目前全球球數(shù)據(jù)的的存儲(chǔ)和處處理能力力已遠(yuǎn)落后后于數(shù)據(jù)據(jù)的增長(zhǎng)長(zhǎng)幅度。。例如,淘寶網(wǎng)每每日新增增的交易易數(shù)據(jù)達(dá)達(dá)10TB;eBay分析平平臺(tái)日處處理數(shù)據(jù)據(jù)量高達(dá)達(dá)100PB,超過了了美國(guó)納納斯達(dá)克克交易所所全天的的數(shù)據(jù)處處理量;;沃爾瑪是是最早利利用大數(shù)數(shù)據(jù)分析析并因此此受益的的企業(yè)之之一,曾曾創(chuàng)造了了“啤酒酒與尿布布”的經(jīng)經(jīng)典商業(yè)業(yè)案例?!,F(xiàn)在沃沃爾瑪每小時(shí)處處理100萬件件交易,,將有大大約2.5PB的數(shù)據(jù)據(jù)存入數(shù)數(shù)據(jù)庫,,此數(shù)據(jù)據(jù)量是美美國(guó)國(guó)會(huì)會(huì)圖書館館的167倍;微軟花了了20年年,耗費(fèi)費(fèi)數(shù)百萬萬美元完完成的Office拼寫檢檢查功能能,谷歌歌公司則則利用大大量統(tǒng)計(jì)計(jì)數(shù)據(jù)直直接分析析實(shí)現(xiàn)??商幚韱枂栴}———數(shù)據(jù)處理理需求的的多樣化化逐漸顯顯現(xiàn)相比支撐撐單業(yè)務(wù)務(wù)類型的的數(shù)據(jù)處處理業(yè)務(wù)務(wù),公共共數(shù)據(jù)處處理平臺(tái)臺(tái)需要處處理的大大數(shù)據(jù)涉涉及在線/離離線、線線性/非非線性,,流數(shù)據(jù)據(jù)和圖數(shù)數(shù)據(jù)等多多種復(fù)雜雜混合計(jì)計(jì)算方式式。例如,2011年Facebook首度公公開其新新數(shù)據(jù)處處理分析析平臺(tái)PUMA,通過對(duì)對(duì)數(shù)據(jù)多多處理環(huán)環(huán)節(jié)區(qū)分分優(yōu)化,,相比之之前單純純采用Hadoop和和Hive進(jìn)行行處理的的技術(shù),,數(shù)據(jù)分析析周期從從2天降降到10秒之內(nèi)內(nèi),效率率提高數(shù)數(shù)萬倍。手段:云計(jì)算、、高性能能計(jì)算、、大數(shù)據(jù)據(jù)分析處處理技術(shù)術(shù)等可靠性問問題———大數(shù)據(jù)的的可靠性性,既需需要數(shù)據(jù)據(jù)清洗、、去冗等等技術(shù)提提取有價(jià)價(jià)值數(shù)據(jù)據(jù),實(shí)現(xiàn)現(xiàn)數(shù)據(jù)質(zhì)量量高效管管理;也涉及及實(shí)現(xiàn)對(duì)對(duì)數(shù)據(jù)的的安全訪問問和隱私私保護(hù),是大數(shù)數(shù)據(jù)可靠靠性的關(guān)關(guān)鍵需求求?;ヂ?lián)網(wǎng)開開放性,,使大數(shù)數(shù)據(jù)在數(shù)數(shù)據(jù)輸入入時(shí)的質(zhì)質(zhì)量確保保和數(shù)據(jù)據(jù)輸出時(shí)時(shí)的隱私私保護(hù)面面臨考驗(yàn)驗(yàn)?;ヂ?lián)網(wǎng)的的數(shù)據(jù)采采集和發(fā)發(fā)布更靈靈活,容容易將各各種類型型的不確確定數(shù)據(jù)據(jù)大量引引入系統(tǒng)統(tǒng),造成成數(shù)據(jù)中中含有各各種各樣樣的錯(cuò)誤誤和誤差差,體現(xiàn)現(xiàn)為數(shù)據(jù)不正確、、不精確、不不完全、過時(shí)時(shí)陳舊或者重重復(fù)冗余。據(jù)高德納公司司(Gartner)統(tǒng)統(tǒng)計(jì),在全球財(cái)富1000強(qiáng)公司司中有超過25%的公司司關(guān)鍵數(shù)據(jù)不不正確或不精精確;在美國(guó)企業(yè)中有有1%~30%的公司數(shù)數(shù)據(jù)存在各類類錯(cuò)誤和誤差差,僅就醫(yī)療數(shù)數(shù)據(jù)而言,有有13.6%~81%的的關(guān)鍵數(shù)據(jù)遺遺缺或陳舊;;數(shù)據(jù)是企業(yè)降降低成本、損損失和增加收收入不可或缺缺的工具。英國(guó)BT公司司(BritishTelecom)因使用用數(shù)據(jù)質(zhì)量工工具而創(chuàng)造的的企業(yè)效益每每年高達(dá)6億億英鎊。用戶在享受數(shù)數(shù)據(jù)價(jià)值的同同時(shí),也面臨日益嚴(yán)重重的安全威脅脅和隱私風(fēng)險(xiǎn)險(xiǎn)。趨勢(shì)科技稱2011年為為數(shù)據(jù)泄露年年,國(guó)內(nèi)CSDN網(wǎng)站被曝曝600萬用用戶的數(shù)據(jù)庫庫信息數(shù)據(jù)保保護(hù)不妥,導(dǎo)導(dǎo)致用戶密碼碼泄露。據(jù)安安全機(jī)構(gòu)統(tǒng)計(jì)計(jì),此次隱私私信息泄露涉涉及5000萬互聯(lián)網(wǎng)用用戶。著名社會(huì)網(wǎng)絡(luò)絡(luò)Facebook的Beacon廣告系統(tǒng)可可以追蹤到5500萬用用戶在其他網(wǎng)網(wǎng)站的活動(dòng),,嚴(yán)重威脅用用戶隱私信息息。2022/12/31NWU智能信息處理理研究所39大數(shù)據(jù)技術(shù)的的研究面臨挑戰(zhàn)數(shù)據(jù)規(guī)模導(dǎo)致致難以應(yīng)對(duì)的的存儲(chǔ)量和計(jì)計(jì)算量數(shù)據(jù)規(guī)模導(dǎo)致致傳統(tǒng)算法失失效大數(shù)據(jù)復(fù)雜的的數(shù)據(jù)關(guān)聯(lián)性性導(dǎo)致高復(fù)雜雜度的計(jì)算基本原則應(yīng)用需求為導(dǎo)導(dǎo)向領(lǐng)域交叉為橋橋梁計(jì)算技術(shù)為支支撐通過并行計(jì)算算、分布式處處理以及集群群計(jì)算技術(shù)來來實(shí)現(xiàn)大數(shù)據(jù)據(jù)量處理及多多機(jī)分布式并并行處理,以以滿足應(yīng)用的的需求。Allmodelsarewrong,andincreasinglyyoucansucceedwithoutthem.2022/12/31NWU智能信息處理理研究所40核心——南京大學(xué)黃宜宜華教授2022/12/31NWU智能信息處理理研究所41行業(yè)應(yīng)用開發(fā)發(fā)層行業(yè)應(yīng)用系統(tǒng)統(tǒng)和服務(wù)大數(shù)據(jù)應(yīng)用開開發(fā)環(huán)境和工工具大數(shù)據(jù)應(yīng)用和和服務(wù)集成框框架和接口大數(shù)據(jù)應(yīng)用測(cè)測(cè)試環(huán)境和工工具大數(shù)據(jù)應(yīng)用發(fā)發(fā)布和運(yùn)行環(huán)環(huán)境2022/12/31NWU智能信信息處處理研研究所所42應(yīng)用算算法/技術(shù)術(shù)層研研究社會(huì)網(wǎng)網(wǎng)絡(luò)排名與與推薦薦系統(tǒng)統(tǒng)個(gè)性化化推薦技技術(shù)商業(yè)智智能媒體分分析檢檢索Web挖掘掘與搜搜索3維建建模與與科學(xué)學(xué)計(jì)算算可視視化生物多多樣性性信息息學(xué)自然語語言處處理其他2022/12/31NWU智能信信息處處理研研究所所43社會(huì)網(wǎng)網(wǎng)絡(luò)社團(tuán)發(fā)發(fā)現(xiàn)(CommunityDetection)網(wǎng)絡(luò)絡(luò)建建模模(NetworkModeling)中心心分分析析和和影影響響力力建建模模(CentralityAnalysisandInfluenceModeling)分類類推推薦薦(ClassificationandRecommendation)隱私私安安全全(Privacy,SpamandSecurity)等等2022/12/31NWU智能能信信息息處處理理研研究究所所44排名名與與推推薦薦系系統(tǒng)統(tǒng)常規(guī)規(guī)排排名名(Ranking)多樣樣性性排排名名(DiversifiedRanking)基于于內(nèi)內(nèi)容容的的推推薦薦(Content-basedRecommendation)基于于標(biāo)標(biāo)簽簽的的推推薦薦(Tag-basedRecommendation)協(xié)同同過過濾濾推推薦薦(CollaborativeFilteringRecommendation)………2022/12/31NWU智能信息息處理研研究所45多媒體分分析檢索索大規(guī)模圖圖像檢索索(ImageRetrieval)大規(guī)模圖圖像分類類(ImageClassification)目標(biāo)檢測(cè)測(cè)(ObjectRecognition)視頻異常常行為檢檢測(cè)(AbnormalEventDetection)……2022/12/31NWU智能信息息處理研研究所46WEB搜搜索與數(shù)數(shù)據(jù)挖掘掘深度Web搜索索(DeepWebSearch,精確化、、智能化化、綜合合化信息息搜索)頁面分類類(DocumentClassification)頁面聚類類(DocumentCluster)網(wǎng)頁摘要要(DocumentAutomaticSummarization)場(chǎng)景引擎擎:將用戶行行為抽象象為與具具體業(yè)務(wù)務(wù)相關(guān)聯(lián)聯(lián)的場(chǎng)景景……2022/12/31NWU智能信信息處處理研研究所所47自然語語言處處理機(jī)器翻翻譯(MachineTranslation)情感分分析(SentimentAnalysis)輿情分分析(PublicOpinionAnalysis)智能輸輸入(SmartInput)問答系系統(tǒng)(QA)……2022/12/31NWU智能信信息處處理研研究所所48三維建建模與與大數(shù)數(shù)據(jù)可可視化化計(jì)算算地質(zhì)建建模與與分析析(GeologicalModelingandAnalysis)電影渲渲染(MovieRendering)大規(guī)模模數(shù)據(jù)據(jù)可視視化計(jì)計(jì)算與與分析析(ScaleVisualAnalytics)……2022/12/31NWU智能信息處處理研究所所49基礎(chǔ)算法/技術(shù)層研研究大數(shù)據(jù)并行行化機(jī)器學(xué)學(xué)習(xí)和數(shù)據(jù)據(jù)挖掘算法法研究大數(shù)據(jù)處理理并行化學(xué)學(xué)習(xí)和挖掘掘算法不同并行模模型下并行行化學(xué)習(xí)和和挖掘算法法并行化機(jī)器器學(xué)習(xí)和數(shù)數(shù)據(jù)挖掘工工具和平臺(tái)臺(tái)研究表明:基于大數(shù)數(shù)據(jù)集的機(jī)機(jī)器學(xué)習(xí)會(huì)會(huì)取得更好好的學(xué)習(xí)效效果,這已已是目前機(jī)機(jī)器學(xué)習(xí)領(lǐng)領(lǐng)域的共識(shí)識(shí)。機(jī)器學(xué)習(xí)和和數(shù)據(jù)挖掘掘算法分類(Classification)大規(guī)模支持持向量機(jī)(LargeScaleSVM)神經(jīng)網(wǎng)絡(luò)(NeuralNetwork)與深度度計(jì)算樸素貝葉斯斯(Na?veBayes)決策樹(DecisionTrees)聚類(Clustering)關(guān)聯(lián)規(guī)則挖挖掘……參數(shù)估計(jì)(ParametersEstimation)高維度數(shù)據(jù)據(jù)降維(DimensionReduction)集成學(xué)習(xí)(EnsembleLearning)大圖數(shù)據(jù)算算法圖聚類圖分類/圖劃分圖模式匹配配(子圖同同構(gòu)、最大大公共子圖圖…)2022/12/31NWU智能信息處處理研究所所50四、大數(shù)據(jù)據(jù)技術(shù)若干干關(guān)鍵問題題大數(shù)據(jù)獲取取、表示及及傳輸領(lǐng)域應(yīng)用/服務(wù)需求求/計(jì)算模模型并行架構(gòu)與與計(jì)算平臺(tái)臺(tái)集群多核核GPU及其集成成云計(jì)算算技術(shù)并行編程模模型與計(jì)算算框架MapReduceBSP并行計(jì)計(jì)算框架大數(shù)據(jù)存儲(chǔ)儲(chǔ)技術(shù)預(yù)處理索索引查詢數(shù)數(shù)據(jù)表示示與存儲(chǔ)管管理DFS大數(shù)據(jù)智能能處理技術(shù)術(shù)機(jī)器學(xué)習(xí)與與數(shù)據(jù)挖掘掘基礎(chǔ)算法法和應(yīng)用2022/12/31NWU智能信息處處理研究所所512022/12/31NWU智能能信信息息處處理理研研究究所所52大數(shù)數(shù)據(jù)據(jù)獲獲取取獲取取極極為為困困難難———大數(shù)數(shù)據(jù)據(jù)在在國(guó)國(guó)家家企企業(yè)業(yè)和和社社會(huì)會(huì)層層面面成成為為重重要要的的戰(zhàn)戰(zhàn)略略資資源源;;數(shù)數(shù)據(jù)據(jù)成成為為新新的的戰(zhàn)戰(zhàn)略略制制高高點(diǎn)點(diǎn),,是是人人們們搶搶奪奪的的新新焦焦點(diǎn)點(diǎn);;數(shù)數(shù)據(jù)據(jù)不不斷斷成成為為機(jī)機(jī)構(gòu)構(gòu)的的資資產(chǎn)產(chǎn),,成成為為提提升升機(jī)機(jī)構(gòu)構(gòu)和和公公司司競(jìng)競(jìng)爭(zhēng)爭(zhēng)力力的的有有力力武武器器建立立多多個(gè)個(gè)領(lǐng)領(lǐng)域域的的數(shù)數(shù)據(jù)據(jù)共共享享平平臺(tái)臺(tái),包包括括氣氣象象、、地地震震、、林林業(yè)業(yè)、、農(nóng)農(nóng)業(yè)業(yè)、、海海洋洋、、人人口口與與健健康康、、地地球球系系統(tǒng)統(tǒng)科科學(xué)學(xué)數(shù)數(shù)據(jù)據(jù)等等,,數(shù)數(shù)據(jù)據(jù)共共享享應(yīng)應(yīng)擴(kuò)擴(kuò)展展到到企企業(yè)業(yè)層層面面需要要學(xué)學(xué)科科間間的的交交叉叉融融合合———增強(qiáng)強(qiáng)學(xué)學(xué)科科內(nèi)內(nèi)、、學(xué)學(xué)科科之之間間以以及及學(xué)學(xué)術(shù)術(shù)界界與與工工業(yè)業(yè)界界之之間間的的合合作作與與交交流流等新型型數(shù)數(shù)據(jù)據(jù)源源———互聯(lián)聯(lián)網(wǎng)網(wǎng)、、云云計(jì)計(jì)算算和和物物聯(lián)聯(lián)網(wǎng)網(wǎng)的的迅迅猛猛發(fā)發(fā)展展,,無無所所不不在在的的移移動(dòng)動(dòng)設(shè)設(shè)備備、、RFID、、無無線線傳傳感感器器每每分分每每秒秒都都在在產(chǎn)產(chǎn)生生數(shù)數(shù)據(jù)據(jù),,數(shù)數(shù)以以億億計(jì)計(jì)用用戶戶的的互互聯(lián)聯(lián)網(wǎng)網(wǎng)服服務(wù)務(wù)時(shí)時(shí)刻刻在在產(chǎn)產(chǎn)生生巨巨量量的的交交互互數(shù)數(shù)據(jù)據(jù)數(shù)據(jù)據(jù)所所有有權(quán)權(quán),,既既是是技技術(shù)術(shù)問問題題,,也也有有法法理理問問題題解決決途途徑徑———保護(hù)護(hù)多多方方利利益益的的前前提提下下解解決決數(shù)數(shù)據(jù)據(jù)共共享享問問題題隨處處可可見見的的攝攝像像頭頭、、傳傳感感器器、、GPS定位位等等設(shè)設(shè)備備,,會(huì)會(huì)感感知知人人們們的的位位置置等等信信息息,,借借助助大大數(shù)數(shù)據(jù)據(jù)分分析析技技術(shù)術(shù)可可以以輕輕易易獲獲得得其其行行蹤蹤規(guī)規(guī)律律,,給給人人們們生生活活帶帶來來威威脅脅;;“云云””的的經(jīng)經(jīng)濟(jì)濟(jì)性性,,推推動(dòng)動(dòng)了了海海量量并并行行處處理理破破解解密密碼碼的的可可能能性性;;“云云””商商云云集集,,使使人人們們寄寄希希望望于于他他們們是是道道德德圣圣人人,,否否則則損損失失將將是是災(zāi)災(zāi)害害性性的的??!2022/12/31NWU智能信息處理理研究所53大數(shù)據(jù)表示關(guān)系數(shù)據(jù)庫曾曾經(jīng)是萬能的的關(guān)系數(shù)據(jù)模型醫(yī)院信息管理系統(tǒng)(HIS)臨床信息系統(tǒng)(CIS)醫(yī)學(xué)影像信息系統(tǒng)(PACS)ICU監(jiān)護(hù)系統(tǒng)電子病歷遠(yuǎn)程健康監(jiān)護(hù)平臺(tái)用藥管理系統(tǒng)虛擬醫(yī)院2022/12/31NWU智能信息處理理研究所54大數(shù)據(jù)表示——新型數(shù)據(jù)模型型研究關(guān)系模型無法法表達(dá)非結(jié)構(gòu)構(gòu)化數(shù)據(jù)的復(fù)復(fù)雜結(jié)構(gòu)面向?qū)ο竽P托蛯⒕哂邢嗤o靜態(tài)結(jié)構(gòu)、動(dòng)動(dòng)態(tài)行為和約約束條件的對(duì)對(duì)象抽象為一一類。能夠根根據(jù)客觀世界界的本來面貌貌描述各種對(duì)對(duì)象,能夠表表達(dá)對(duì)象間各各種復(fù)雜關(guān)系系。但缺乏堅(jiān)實(shí)的理理論基礎(chǔ),并并且實(shí)現(xiàn)復(fù)雜雜分層式數(shù)據(jù)模模型基于語義描述述、底層特征征和原始數(shù)據(jù)據(jù),但不能很好地表表達(dá)各類非結(jié)結(jié)構(gòu)化數(shù)據(jù)的的各組成部分分的關(guān)系以及及各類數(shù)據(jù)之之間的關(guān)系需要建立一種種將非結(jié)構(gòu)化化數(shù)據(jù)的文本本描述性信息息與特征等信信息整體表達(dá)達(dá),并且能夠夠描述各種非非結(jié)構(gòu)化數(shù)據(jù)據(jù)的統(tǒng)一的新新型數(shù)據(jù)模型型(如ResourceDescriptionFramework,RDF研究)2022/12/31NWU智能信息處理理研究所55大數(shù)據(jù)存儲(chǔ)云計(jì)算技術(shù)是是最理想的解解決方案???2022/12/31NWU智能信信息處處理研研究所所56并行架架構(gòu)與與計(jì)算算平臺(tái)臺(tái)技術(shù)術(shù)共享內(nèi)內(nèi)存架架構(gòu)技技術(shù)多核+GPU分布式式內(nèi)存存架構(gòu)構(gòu)技術(shù)術(shù)集群混合式式架構(gòu)構(gòu)技術(shù)術(shù)集群+多核核集群+GPU大數(shù)據(jù)據(jù)應(yīng)用用/云云計(jì)算算支撐撐平臺(tái)臺(tái)技術(shù)術(shù)云計(jì)算算架構(gòu)構(gòu)及其其平臺(tái)臺(tái)研究究云存儲(chǔ)儲(chǔ)技術(shù)術(shù)并行計(jì)計(jì)算系系統(tǒng)可可靠性性及容容錯(cuò)恢恢復(fù)技技術(shù)數(shù)據(jù)訪訪問隱隱私保保護(hù)和和安全全技術(shù)術(shù)目前國(guó)國(guó)際上上學(xué)術(shù)術(shù)界和和工業(yè)業(yè)界主主要從從系統(tǒng)統(tǒng)軟件件、體體系結(jié)結(jié)構(gòu)、、分布布式系系統(tǒng)等等方面面進(jìn)行行了改改進(jìn)和和優(yōu)化化!內(nèi)存數(shù)數(shù)據(jù)庫庫及編編譯器器優(yōu)化化等技技術(shù)增加內(nèi)內(nèi)存、、增加加處理理器、、協(xié)處處理器器和增增加I/O通道MapReduce或Hadoop架構(gòu)2022/12/31NWU智能信息息處理研研究所57并行編程程模型與與計(jì)算框框架研究究MapReduce應(yīng)應(yīng)用及改改進(jìn)Hadoop性性能優(yōu)化化MapReduce并并行計(jì)算算框架改改進(jìn)MapReduce在在不同架架構(gòu)上的的實(shí)現(xiàn)((如眾核核、GPU等))BSP((bulksynchronizedparallel))基于BSP模型型的并行行處理框框架大圖數(shù)據(jù)據(jù)并行處處理框架架研究:基于圖劃劃分的分分布式存存儲(chǔ)pregel(Google)Trinity(微微軟)CUDA,MPI,OpenMP提升可編編程性定制式并并行計(jì)算算框架混合式并并行計(jì)算算模型和和框架2022/12/31NWU智能信息息處理研研究所58大數(shù)據(jù)存存儲(chǔ)技術(shù)術(shù)研究大數(shù)據(jù)預(yù)預(yù)處理技技術(shù)研究究大數(shù)據(jù)采采集與傳傳輸清洗過濾濾和質(zhì)量量管理技技術(shù)研究究壓縮技術(shù)術(shù)研究大數(shù)據(jù)索索引和查查詢技術(shù)術(shù)研究靜態(tài)記錄錄型索引引技術(shù)流式/增增量式記記錄型索索引技術(shù)術(shù)大數(shù)據(jù)表表的高效效關(guān)系型型操作并行化查查詢技術(shù)術(shù)圖數(shù)據(jù)表表示與查查詢技術(shù)術(shù)靜態(tài)圖數(shù)數(shù)據(jù)的表表示、存存儲(chǔ)和查查詢流式/增增量式圖圖數(shù)據(jù)的的表示、、存儲(chǔ)與與查詢查詢語言言接口與與技術(shù)SQL./NoSQL查詢語語言接口口并行查詢?cè)儓?zhí)行機(jī)機(jī)制混合式數(shù)數(shù)據(jù)表示示及存儲(chǔ)儲(chǔ)機(jī)制研研究存儲(chǔ)管理理模型研研究數(shù)據(jù)表示示與查詢?cè)兊燃夹g(shù)術(shù)分布式數(shù)數(shù)據(jù)庫技技術(shù)Hbase性能能優(yōu)化查詢與索索引技術(shù)術(shù)分布式存存儲(chǔ)技術(shù)術(shù)分布式文文件系統(tǒng)統(tǒng)HDFS系統(tǒng)優(yōu)優(yōu)化2022/12/31NWU智能信息息處理研研究所59大數(shù)據(jù)處處理技術(shù)術(shù)并行機(jī)器器學(xué)習(xí)/數(shù)據(jù)挖挖掘算法法研究分類算法法SVM;;NN;;GA;;EA;;……聚類算法法關(guān)聯(lián)發(fā)現(xiàn)現(xiàn)參數(shù)估計(jì)計(jì)高維度數(shù)數(shù)據(jù)降維維大圖數(shù)據(jù)據(jù)挖掘算算法:圖圖聚類,,圖分類類,圖模模式匹配配等………集成學(xué)習(xí)習(xí)深度學(xué)習(xí)習(xí)……“大數(shù)據(jù)據(jù)+簡(jiǎn)簡(jiǎn)單模模型”??2022/12/31NWU智能信息息處理研研究所60大圖數(shù)據(jù)據(jù)挖掘算算法圖查詢::復(fù)雜對(duì)對(duì)象識(shí)別別、社交交網(wǎng)絡(luò)和和WEB網(wǎng)絡(luò)、、生物數(shù)數(shù)據(jù)分析析、軟件件代碼剽剽竊檢測(cè)測(cè);子圖查詢?cè)儯耗劬圩訄D查查詢、極極大團(tuán)、、n-極極大團(tuán)、、n-宗宗派、K-極大大核圖聚類::預(yù)處理理、數(shù)據(jù)據(jù)挖掘圖分類::預(yù)處理理、數(shù)據(jù)據(jù)挖掘圖模式匹匹配:應(yīng)應(yīng)用于生生物學(xué)、、生物化化學(xué)、警警覺、圖圖像和視視頻、模模式匹配配等;圖圖同構(gòu)、、子圖同同構(gòu)、最最大公共共子圖算算法、近近似算法法(傳播播算法、、譜算法法、優(yōu)化化算法等等);靜靜態(tài)圖匹匹配或動(dòng)動(dòng)態(tài)圖匹匹配等2022/12/31NWU智能信息息處理研研究所61社會(huì)計(jì)算算研究?jī)?nèi)內(nèi)容2022/12/31NWU智能信息處處理研究所所62社會(huì)計(jì)算研研究?jī)?nèi)容2022/12/31NWU智能信息處處理研究所所63群體智慧2022/12/31NWU智能信息處處理研究所所64群體智慧2022/12/31NWU智能信息處理理研究所65群體智慧2022/12/31NWU智能信息處理理研究所66群體智慧社會(huì)計(jì)算的由由來社會(huì)計(jì)算微博——話題跟蹤?輿輿情分析?情情感挖掘?微博數(shù)據(jù)處理理技術(shù)研究微博(微信)數(shù)據(jù)分析及分分析軟件研發(fā)發(fā)是又一熱點(diǎn)點(diǎn)。(從運(yùn)營(yíng)角度度:如監(jiān)測(cè)用用戶粘度、規(guī)規(guī)模、活躍度度、流量等信信息;聽眾數(shù)數(shù)、轉(zhuǎn)播數(shù)、、轉(zhuǎn)發(fā)率、平平均評(píng)論次數(shù)數(shù);發(fā)布微博博的方式:網(wǎng)網(wǎng)頁、手機(jī)、、客戶端;用用戶的背景資資料分析,地地域、年齡、、性別、學(xué)歷歷、職業(yè)、行2022/12/31NWU智能信信息處處理研研究所所71例:數(shù)數(shù)字腳腳印與與城市市計(jì)算算隨著感感知、、計(jì)算算、通通訊技技術(shù)的的日新新月異異,記記錄人人類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)培訓(xùn)合作計(jì)劃
- 2024出租車租賃經(jīng)營(yíng)合同企業(yè)租賃經(jīng)營(yíng)合同
- 2024室內(nèi)裝飾設(shè)計(jì)合同書樣本
- 軟件外包合同樣本
- 社區(qū)停車位租賃合同范本
- 賣房代理合同格式
- 公司貸款償還合同范例
- 專業(yè)攝影合作協(xié)議書模板
- 房屋租賃合同安全協(xié)議
- 房屋權(quán)益合法轉(zhuǎn)讓合同樣本
- 工程建設(shè)監(jiān)理收費(fèi)標(biāo)準(zhǔn)(發(fā)改價(jià)格【2007】670號(hào))
- 特殊感染手術(shù)處理流程
- (正式版)HGT 3655-2024 紫外光(UV)固化木器涂料
- 大學(xué)生就業(yè)指導(dǎo)-求職材料準(zhǔn)備與面試技巧課件
- 化學(xué)品管理的安全防護(hù)與個(gè)體防護(hù)
- 大學(xué)生職業(yè)生涯規(guī)劃無人機(jī)林業(yè)
- 企業(yè)風(fēng)險(xiǎn)管理中的政府政策變動(dòng)管理風(fēng)險(xiǎn)及其應(yīng)對(duì)措施
- 標(biāo)準(zhǔn)齒輪主要參數(shù)及其計(jì)算課件
- 大學(xué)生職業(yè)生涯規(guī)劃書軟件技術(shù)
- 2022中小學(xué)高級(jí)教師任職資格評(píng)審講課答辯題目及答案
- 針刺傷標(biāo)準(zhǔn)預(yù)防
評(píng)論
0/150
提交評(píng)論