大數(shù)據(jù)計(jì)算:理論、實(shí)踐與標(biāo)準(zhǔn)化_第1頁(yè)
大數(shù)據(jù)計(jì)算:理論、實(shí)踐與標(biāo)準(zhǔn)化_第2頁(yè)
大數(shù)據(jù)計(jì)算:理論、實(shí)踐與標(biāo)準(zhǔn)化_第3頁(yè)
大數(shù)據(jù)計(jì)算:理論、實(shí)踐與標(biāo)準(zhǔn)化_第4頁(yè)
大數(shù)據(jù)計(jì)算:理論、實(shí)踐與標(biāo)準(zhǔn)化_第5頁(yè)
已閱讀5頁(yè),還剩48頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)計(jì)算:理論、實(shí)踐與標(biāo)準(zhǔn)化大數(shù)據(jù)計(jì)算:理論、實(shí)踐與標(biāo)準(zhǔn)化內(nèi)容提要內(nèi)容提要 對(duì)大數(shù)據(jù)的理解 背景 大數(shù)據(jù)計(jì)算的“3-I”挑戰(zhàn) 大數(shù)據(jù)計(jì)算研究:北航初步實(shí)踐理論方面:大數(shù)據(jù)計(jì)算的基礎(chǔ)理論擴(kuò)展系統(tǒng)方面:多核I/O棧的性能優(yōu)化系統(tǒng)方面:高時(shí)效計(jì)算平臺(tái)應(yīng)用方面:基于社會(huì)網(wǎng)絡(luò)的突發(fā)事件檢測(cè) 大數(shù)據(jù)的標(biāo)準(zhǔn)化:W3C的實(shí)踐 開(kāi)放數(shù)據(jù) W3C的Data Activity 小結(jié)3網(wǎng)絡(luò)信息空間大數(shù)據(jù) 規(guī)模巨大,快速變化4Chomolungma 8,800m1PB data in DVD:25km1ZB=1PB106Airplane15,000m社會(huì)網(wǎng)絡(luò)4 Micro-blogger Provider inChi

2、na:800M Users, 200M tweetseveryday, 20M+ Photos.互聯(lián)網(wǎng)搜索Baidu:1PB log data per Day.Handling 1000PBGoogle:Processing 20PB dataeverydayIDC統(tǒng)計(jì)及預(yù)測(cè)Data doubled every 18 monthsData in CyberspaceIDC Report :2009: 0.8ZB2012: 2.7 ZB2020(E): 35ZB大數(shù)據(jù)中廣泛提到的“4V”特性5VolumeIn PB or EBDistributed dataVarietyHeterogeneou

3、sSemi-structuredor unstructuredValue Biz opportunity Sensitive DataVelocityDynamic ChangesUpdated constantlyWikipedialarge and complex datasets, which is quite difficult toprocess using existing data management tools, andtraditional data processing applicationsData Deluge大數(shù)據(jù)的挑戰(zhàn)真實(shí)世界樣本數(shù)據(jù)知識(shí)統(tǒng)計(jì)學(xué)的采樣方法統(tǒng)計(jì)分布

4、假設(shè)檢驗(yàn)等總體Population大數(shù)據(jù)的挑戰(zhàn)真實(shí)世界樣本數(shù)據(jù)統(tǒng)計(jì)學(xué)的采樣方法統(tǒng)計(jì)分布假設(shè)檢驗(yàn)等總體Population問(wèn)題相關(guān)的采日志,傳感設(shè)備攝像頭,社會(huì)網(wǎng)絡(luò)周姑娘的人預(yù)處理挖掘,學(xué)習(xí)知識(shí)基于模型的預(yù)測(cè)總體Population多源大數(shù)據(jù)集樣數(shù)據(jù)新的計(jì)算理論和算法設(shè)計(jì)方法大規(guī)模分布式計(jì)算基礎(chǔ)設(shè)施新的統(tǒng)計(jì)理論和數(shù)學(xué)工具?大數(shù)據(jù)的挑戰(zhàn)真實(shí)世界樣本數(shù)據(jù)統(tǒng)計(jì)學(xué)的采樣方法統(tǒng)計(jì)分布假設(shè)檢驗(yàn)等總體Population問(wèn)題相關(guān)的采樣數(shù)據(jù)新的計(jì)算理論和算法設(shè)計(jì)方法大規(guī)模分布式計(jì)算基礎(chǔ)設(shè)施新的統(tǒng)計(jì)理論和數(shù)學(xué)工具?日志,傳感設(shè)備攝像頭,社會(huì)網(wǎng)絡(luò)周姑娘的人數(shù)據(jù)質(zhì)量?糾偏?如何讓數(shù)據(jù)集代表總體?知識(shí)基于 挖掘,學(xué)習(xí)模

5、型的預(yù)測(cè)如何從數(shù)據(jù)中尋找知識(shí)并用于預(yù)測(cè)總體Population預(yù)處理多源大數(shù)據(jù)集重采樣?降維?如何將大數(shù)據(jù)變小大數(shù)據(jù)的計(jì)算特征3個(gè)IAvoid exactresult to reducecostInexact butacceptableResultsInexact非精確Datasets areinexact: Noisy,Erros.Target are inexact.Eg. to find themacro trends.4-V用戶強(qiáng)交互性跨多通道快大數(shù)據(jù)的計(jì)算特征3個(gè)IData arrivescontinueslyOnline/RealtimeprocessingHard to get

6、anStatic View ofDataBatch/Full datais not enoughInexact非精確Incremental增量用戶強(qiáng)交互性跨多通道快4-V973大數(shù)據(jù)的計(jì)算特征3個(gè)IFeatures of Big Data ComputingInexact非精確Incremental增量Inductive歸納性Multi-sourceDatasetsReferencesbetweenDatasetsUse the datacorrelations toadjust the errorsTransferLearning用戶強(qiáng)交互性跨多通道快4-VEXPTIME-hard, und

7、ecidable12數(shù)據(jù) Good: PTIME Bad: NP-Hard Ugly: PSPACE-hard, or大數(shù)據(jù)難解問(wèn)題大數(shù)據(jù)易解問(wèn)題大數(shù)據(jù)研究的幾個(gè)問(wèn)題 問(wèn)題1: 大數(shù)據(jù)計(jì)算有“新的”理論問(wèn)題嗎?計(jì)算問(wèn)題算法不可判定問(wèn)題難解問(wèn)題可判定問(wèn)題易解問(wèn)題近似算法(in PTIME)大數(shù)據(jù)研究的幾個(gè)問(wèn)題 問(wèn)題2: Hadoop(或MapReduce)是否是數(shù)據(jù)處理所必須的? 不同的計(jì)算需求,不同的用戶場(chǎng)景,不同的算法設(shè)計(jì)思想13MapReduce (OSDI 2004)分布式的數(shù)據(jù)處理方式MR顯然不是唯一的解決方案增量計(jì)算:Percolator by Google (OSDI 2010)新

8、的算法設(shè)計(jì)思想 重采樣 查詢保持的數(shù)據(jù)壓縮 Partial evaluation and distributedprocessing Top-k 查詢和可終止計(jì)算 增量性3I大數(shù)據(jù)研究的幾個(gè)問(wèn)題 問(wèn)題3: 如何讓計(jì)算更加“可操作”? 領(lǐng)域相關(guān)的計(jì)算特征分析 數(shù)據(jù)模式,數(shù)據(jù)動(dòng)態(tài)特征, 查詢的特征, 通用 vs. 專用 領(lǐng)域相關(guān)的知識(shí)及其利用 數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方法 分布式系統(tǒng)離線計(jì)算Offline/在線計(jì)算Online批處理/增量處理/流式處理內(nèi)存計(jì)算新器件帶來(lái)的新機(jī)會(huì)14內(nèi)容提要內(nèi)容提要 對(duì)大數(shù)據(jù)的理解 背景 大數(shù)據(jù)計(jì)算的“3-I”挑戰(zhàn) 大數(shù)據(jù)計(jì)算研究:北航初步實(shí)踐理論方面:大數(shù)據(jù)計(jì)算的基礎(chǔ)理

9、論擴(kuò)展系統(tǒng)方面:多核I/O棧的性能優(yōu)化系統(tǒng)方面:高時(shí)效計(jì)算平臺(tái)應(yīng)用方面:基于社會(huì)網(wǎng)絡(luò)的突發(fā)事件檢測(cè) 大數(shù)據(jù)的標(biāo)準(zhǔn)化:W3C的實(shí)踐 開(kāi)放數(shù)據(jù) W3C的Data Activity 小結(jié)1516973大數(shù)據(jù)國(guó)際研究中心(RCBD)International Research Centre on BigData (Founded in Sept 2012)http:/ U.U. EdinburghHKUSTU.PennsylvaniaBaidu17973大數(shù)據(jù)研究計(jì)劃 大數(shù)據(jù)的計(jì)算理論 (2014-2018) 科技部973計(jì)劃支持 共8家單位參與 主要關(guān)注大數(shù)據(jù)計(jì)算的特征、理論、分布式系統(tǒng)等18WP1

10、. Data Model andUnderstanding(Semantic/Visulization)WP2.ComputingComplexity Theory andAlgorithms DesignWP4.Data Mining and Analyzing for Big DataWP3.Energy Efficient Distributed Data Processing973大數(shù)據(jù)研究計(jì)劃WP5.Pilot Applications(Social Data, Internet Search Engine Data)部分初步的研究進(jìn)展 理論和算法 大數(shù)據(jù)易解類問(wèn)題(BD-Tract

11、able) 分布式系統(tǒng) 多核I/O的性能優(yōu)化 高時(shí)效性的計(jì)算平臺(tái) 圖模式匹配及分布式算法 大數(shù)據(jù)應(yīng)用 基于社會(huì)網(wǎng)絡(luò)的突發(fā)事件檢測(cè)1920BD-tractable queries: queries feasible on big dataBD-Tractable with Preprocessing 當(dāng)數(shù)據(jù)量大時(shí),多項(xiàng)式時(shí)間的查詢也變得無(wú)法處理Polynomial time queries become intractable on big data 我們需要回答一個(gè)查詢?cè)诳紤]了數(shù)據(jù)量后(大數(shù)據(jù))是否仍是易解(feasible)NP and beyondPTIMEBD-tractablenotB

12、D-tractable21BD-Tractable with Preprocessing How do we dealing with SQL querys on a largeDATABASE? Scan through all the records? NO! Using Index to get better query performance! B-Tree index, from O(n) to O(logn) Query Optimizations! Two steps of computing Set up the “index”: preprocessing Doing que

13、ry on the “index”22BD-Tractable with PreprocessingA class Q of queries is BD-tractable if there exists a PTIME preprocessingfunction such thatfor any database D on which queries of Q are defined,all queries Q QBD-tractable queries are feasible on big dataD = (D) hence D is of polynomial size for pos

14、sible rewriting defined on D, Q(D) can be computed by evaluatingparallel logk(|D|, |Q|)15 seconds when D is of 1 PB instead of 1.99 days18 seconds when D is of 1 EB rather than 5.28 yearsD(D)Q1(D)Q2(D)。Does it work? If a linear scan of D could be done in log(|D|) time:多核平臺(tái)的I/O可擴(kuò)展性問(wèn)題 Background Many

15、core architecture Increase computing capability by increasing corenumber Server Consolidation: Place multiple independentworkloads within a single server for higherresource utilization, including data processingworkload. Multiple Virtualization approaches: Full System Virtualization: Xen, KVM, VMWar

16、e Lightweight container: Open VZ, vserver, LinuxContainer23The sharing of I/O stackcontainercontainercontainerNamespace virtualizationVirtual file systemhost file systemDriverHard DrivesPCIe-PCMPCIe-flashOS-level virtualization (e.g., OpenVZ)Can it be still neglectedmight lead to scalabilityissues o

17、n many coresThe interference is usuallymasked by the slowhardware performance onfast devices?24多核平臺(tái)的I/O可擴(kuò)展性問(wèn)題 Scalability Issue within shared I/O stack多核平臺(tái)的I/O可擴(kuò)展性問(wèn)題25Scalability bottleneck becomes a dominant factor in the performance of virtualizedenvironments on a RAM diskMultiLanes 面向多核的高效可擴(kuò)展存儲(chǔ) 面

18、向數(shù)據(jù)處理節(jié)點(diǎn)多容器間性能干擾 已有研究:如何細(xì)粒度劃分和調(diào)度硬件,提供好的性能隔離 在多核快速存儲(chǔ)平臺(tái),共享的I/O軟件棧造成競(jìng)爭(zhēng)嚴(yán)重,可擴(kuò)展性差 解決方案:面向多核的高效、可擴(kuò)展的隔離數(shù)據(jù)I/O軟件棧 為每個(gè)容器提供完全隔離的數(shù)據(jù)I/O軟件棧:切分的虛擬文件系統(tǒng)和設(shè)備 設(shè)計(jì)實(shí)現(xiàn)的挑戰(zhàn) 高效性:最小化處理數(shù)據(jù)I/O的干擾開(kāi)銷 可擴(kuò)展性:在不可擴(kuò)展的宿主機(jī)文件系統(tǒng)上,實(shí)現(xiàn)數(shù)據(jù)處理能力的擴(kuò)展MultiLanesBaselineMySQL on Ext3FAST 2014高時(shí)效計(jì)算平臺(tái) CEP、數(shù)據(jù)流應(yīng)用對(duì)高時(shí)效性計(jì)算的需求 大規(guī)模神經(jīng)網(wǎng)絡(luò)/KnowledgeGraph/PageRank計(jì)算:整個(gè)

19、是一個(gè)大網(wǎng)絡(luò),實(shí)效性要求高 Realtime(時(shí)) Quality / Cost balance (效) Freshness(時(shí)效) 時(shí)效計(jì)算與傳統(tǒng)離線計(jì)算等往往是一個(gè)業(yè)務(wù)的不同環(huán)節(jié),需要“整合” 資源利用率、動(dòng)態(tài)調(diào)節(jié)增加時(shí)效的可能方法 大量的內(nèi)存Cache Memcache、RamCloud 內(nèi)存與計(jì)算節(jié)點(diǎn)的關(guān)系 Share All, or Share Nothing 數(shù)據(jù)流驅(qū)動(dòng) 流式結(jié)構(gòu) 特定應(yīng)用場(chǎng)景的軟硬結(jié)合,F(xiàn)PGA硬件輔助 算法層面 增量算法分布式的圖模式匹配 Graph patter matching Providing evaluation algorithms andoptim

20、izations for graph simulation in adistributed setting29分布式圖計(jì)算的算法庫(kù)30最短路徑/距離(靜態(tài)、動(dòng)態(tài))圖模擬/強(qiáng)模擬流式Hotspot檢測(cè)圖數(shù)據(jù)庫(kù)分布式計(jì)算集群和框架(Hadoop, Spark)31社會(huì)網(wǎng)絡(luò)的突發(fā)事件檢測(cè) 社會(huì)網(wǎng)絡(luò)數(shù)據(jù)反映了現(xiàn)實(shí)生活 基于社會(huì)網(wǎng)絡(luò)數(shù)據(jù)的突發(fā)事件檢測(cè)Population TrendsEvent 期望的特點(diǎn) 語(yǔ)法上: streaming processing, realtime,scalable 語(yǔ)義上: Early detection. Ranking, Story tellingand event a

21、nalysis 流式數(shù)據(jù)圖式數(shù)據(jù)內(nèi)存計(jì)算分布式存儲(chǔ)高效分析與處理數(shù)據(jù)特征:分析方法?系統(tǒng)特征:處理技術(shù)?實(shí)時(shí)檢測(cè)實(shí)時(shí)性:檢測(cè)時(shí)機(jī)?有效性:主題及關(guān)聯(lián)性?數(shù)據(jù)獲取突發(fā)事件檢測(cè)增量聚類、異常檢測(cè)、圖處理、數(shù)據(jù)查詢等算法流式數(shù)據(jù)技術(shù)事件深度分析(用戶、傳播)應(yīng)用面臨挑戰(zhàn)問(wèn)題問(wèn)題:如何從海量、動(dòng)態(tài)數(shù)據(jù)中快速檢測(cè)突發(fā)事件?社會(huì)網(wǎng)絡(luò)數(shù)據(jù)融合突發(fā)事件事件深度分析檢測(cè)(用戶、傳播)增量聚類、異常檢測(cè)內(nèi)存流式圖彈性實(shí)時(shí)計(jì)算處理索引分布式存儲(chǔ)34數(shù)據(jù)源應(yīng)用算法技術(shù)面臨挑戰(zhàn)問(wèn)題系統(tǒng)效率 實(shí)時(shí)監(jiān)測(cè)實(shí)時(shí)性:信息秒級(jí)傳播數(shù)據(jù)量:具有突發(fā)特征多元輸入、噪音過(guò)濾多元性:時(shí)間地點(diǎn)人物數(shù)據(jù)質(zhì)量:稀疏性與噪音多維溯源、關(guān)聯(lián)分析多維

22、分析:反應(yīng)不同側(cè)面事件關(guān)聯(lián):互為因果關(guān)系突發(fā)事件檢測(cè)基于情緒 Motion plays important role in social media How to detect theuser motion throughthe weibo text?35Work done by Prof. Ke Xu &Prof. Junjie Wu BeihangUniversity.突發(fā)事件檢測(cè)基于情緒 Classification 95 motion icons selected from 1000 icons Use the text with motion icons as the tra

23、iningsets36突發(fā)事件檢測(cè)基于情緒 Abnormal event detection Mood Searchhttp:/3738突發(fā)事件檢測(cè)基于關(guān)鍵詞的聯(lián)合出現(xiàn) Localized, Distributed, Stream ProcessingLocalizedFeature ExtractionGraph CommunityDetectionLocalizedAnomaly DetectionData PreprocessingCo-occurrence GraphBuildingAnalytical PreprocessingWord-Pair Co-occuranceMatrix

24、, Say NO.WordCo-occcurance Frequency array is the key elementWordWord Pair FrequencyWordWordEvent 1Event 2WordRing: 實(shí)時(shí)事件檢測(cè)系統(tǒng)39微博搜索實(shí)時(shí)微博實(shí)時(shí)熱點(diǎn)事件預(yù)警地域熱點(diǎn)Ring: 實(shí)時(shí)事件檢測(cè)系統(tǒng) 統(tǒng)計(jì)、事件檢測(cè)及場(chǎng)景還原40事41SanxiaFujian合肥地震Ring: 實(shí)時(shí)事件檢測(cè)系統(tǒng) 追蹤一個(gè)事件的產(chǎn)生、發(fā)展過(guò)程 案例:地震 四川地震 件 (2014.7.15-2014.7.30)Single EventTweet Forwarding轉(zhuǎn)發(fā):四川身邊事原創(chuàng):四川同

25、城會(huì)MotionsRing: 實(shí)時(shí)事件檢測(cè)系統(tǒng) 追蹤一個(gè)事件的產(chǎn)生、發(fā)展過(guò)程 案例:地震事件 (2014.7.15-2014.7.30) 子事件檢測(cè)與關(guān)聯(lián)分析 Timeline: Reason-Result Analysis Drill Down: Get sub-event view.42Ring: 實(shí)時(shí)事件檢測(cè)系統(tǒng) 分布式爬蟲(chóng) From April 2014 10M Tweets per day 分布式系統(tǒng)支持 Distributed in-memory computing platform Distributed elastic indexing 核心算法 Event detection

26、 Realtime statistics43內(nèi)容提要內(nèi)容提要 對(duì)大數(shù)據(jù)的理解 背景 大數(shù)據(jù)計(jì)算的“3-I”挑戰(zhàn) 大數(shù)據(jù)計(jì)算研究:北航初步實(shí)踐理論方面:大數(shù)據(jù)計(jì)算的基礎(chǔ)理論擴(kuò)展系統(tǒng)方面:多核I/O棧的性能優(yōu)化系統(tǒng)方面:高時(shí)效計(jì)算平臺(tái)應(yīng)用方面:基于社會(huì)網(wǎng)絡(luò)的突發(fā)事件檢測(cè) 大數(shù)據(jù)的標(biāo)準(zhǔn)化:W3C的實(shí)踐 開(kāi)放數(shù)據(jù) W3C的Data Activity 小結(jié)442014: Web誕生25周年 Web 25周年 1989 Tim Berners Lee, Technical Report45W3C: 國(guó)際萬(wàn)維網(wǎng)聯(lián)盟 成立于1994年,近400家會(huì)員單位 全球四總部,約80名全職員工,制定Web領(lǐng)域的技術(shù)標(biāo)準(zhǔn)

27、 Open, Royalty Free 開(kāi)放Web平臺(tái) HTML5系列 多語(yǔ)言 WAI 服務(wù)更多行業(yè)移動(dòng)互聯(lián)網(wǎng)數(shù)字電視電子出版Web支付車載平臺(tái)46 W3C China Host () 2006年設(shè)立辦事處, 2013年設(shè)立W3C中國(guó)總部 36家會(huì)員單位(約占全球會(huì)員總數(shù)十分之一),成為互聯(lián)網(wǎng)產(chǎn)業(yè)與標(biāo)準(zhǔn)的橋梁 ChineseW3C 中國(guó)開(kāi)放數(shù)據(jù)與數(shù)據(jù)標(biāo)準(zhǔn)化 數(shù)據(jù)是Web上的資源 Data on the Web Tim B-Lee的四條規(guī)則 (2006) 使用URI作為“事物”的代表 使用HTTP URIs幫助用戶查找 當(dāng)用戶訪問(wèn)

28、一個(gè)URI時(shí),通過(guò)RDF*, SPARQL提供更多信息 包括指向其他URI的鏈接,幫助用戶發(fā)現(xiàn)更多信息 /DesignIssues/LinkedData.html W3C在語(yǔ)義網(wǎng) (Semantic Web)的努力48開(kāi)放數(shù)據(jù)與數(shù)據(jù)標(biāo)準(zhǔn)化 開(kāi)放互聯(lián):評(píng)價(jià)數(shù)據(jù)的5星準(zhǔn)則 數(shù)據(jù)在Web上開(kāi)放 數(shù)據(jù)以機(jī)器可讀的結(jié)構(gòu)化數(shù)據(jù)格式公開(kāi) 采用開(kāi)放格式 數(shù)據(jù)可以通過(guò)開(kāi)放格式由第三方引用 數(shù)據(jù)與第三方數(shù)據(jù)交叉引用以提供更多上下文49LDP:Linked Data Platform(互聯(lián)數(shù)據(jù)平臺(tái)) LDP希望提供一個(gè)數(shù)據(jù)資源互聯(lián)的網(wǎng)絡(luò) 類比Web Page構(gòu)成的網(wǎng)絡(luò) 2014.6.

29、19 Linked Data Platform CR50容器容器客戶端容器圖查詢W3C的數(shù)據(jù)標(biāo)準(zhǔn)計(jì)劃 W3C在關(guān)注越來(lái)越多的Web數(shù)據(jù) 2013年11月設(shè)立: Information & Knowledge Domain(INK) 技術(shù)領(lǐng)域 Data Formats: XML, CSV on the Web, GeospatialData Data Semantics: RDFa, RDF Data Shapes Data APIs for Web Apps: Web Storage Linked Data Platform: LDP, e-Government Data Securi

30、ty & Privacy: Privacy Protection Use Cases: Data on the Web Best Practice Applications: Social Web, Government Linking Data51APIs for Web Apps: Web Storage52歡迎RDFa, RDF DataW3C的數(shù)據(jù)標(biāo)準(zhǔn)計(jì)劃 W3C在關(guān)注越來(lái)越多的Web數(shù)據(jù) 2013年11月設(shè)立: Information & Knowledge Domain(INK) 技術(shù)領(lǐng)域 Data Formats: XML, CSV on the Web, Geo

31、spatialData Data Semantics: 您的關(guān)注和參與 Shapes Data提供標(biāo)準(zhǔn)化需求、案例,定義基于 Linked Data Platform: LDP, e-Government Data Security & Privacy: Privacy Protection Use Cases: Data on the Web Best Practice Applications: Social Web, Government Linking Data內(nèi)容提要內(nèi)容提要 對(duì)大數(shù)據(jù)的理解 背景 大數(shù)據(jù)計(jì)算的“3-I”挑戰(zhàn) 大數(shù)據(jù)計(jì)算研究:北航初步實(shí)踐理論方面:大數(shù)據(jù)計(jì)算的

32、基礎(chǔ)理論擴(kuò)展系統(tǒng)方面:多核I/O棧的性能優(yōu)化系統(tǒng)方面:高時(shí)效計(jì)算平臺(tái)應(yīng)用方面:基于社會(huì)網(wǎng)絡(luò)的突發(fā)事件檢測(cè) 大數(shù)據(jù)的標(biāo)準(zhǔn)化:W3C的實(shí)踐 開(kāi)放數(shù)據(jù) W3C的Data Activity 小結(jié)53小結(jié) 大數(shù)據(jù)計(jì)算: 從4V到3I特征 非精確:Inexact 增量:Incremental 遞歸性:Inductive 大數(shù)據(jù):交叉學(xué)科 應(yīng)用驅(qū)動(dòng)的垂直整合 理論、算法、分布式系統(tǒng)、挖掘和機(jī)器學(xué)習(xí) 開(kāi)放數(shù)據(jù)與標(biāo)準(zhǔn)化 開(kāi)放數(shù)據(jù)的“五星”分類 開(kāi)放數(shù)據(jù)、數(shù)據(jù)格式、數(shù)據(jù)語(yǔ)義的標(biāo)準(zhǔn)化有助于建造更豐富的大數(shù)據(jù)應(yīng)用生態(tài)環(huán)境54致謝 Part of the slides borrowed fromProf. Wenfei Fan at RCBD,Prof. Ke Xu at NLSDE, Beihang UniversityProf. Shuai Ma, Dr. Jianxi

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論