大數(shù)據(jù)的處理和分析 計算機(jī)科學(xué)導(dǎo)論_第1頁
大數(shù)據(jù)的處理和分析 計算機(jī)科學(xué)導(dǎo)論_第2頁
大數(shù)據(jù)的處理和分析 計算機(jī)科學(xué)導(dǎo)論_第3頁
大數(shù)據(jù)的處理和分析 計算機(jī)科學(xué)導(dǎo)論_第4頁
大數(shù)據(jù)的處理和分析 計算機(jī)科學(xué)導(dǎo)論_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)的處理和分析計算機(jī)科學(xué)導(dǎo)論第十講計算機(jī)科學(xué)技術(shù)學(xué)院陳意 yiyun/yiyun/課 程 內(nèi) 容課程內(nèi)容圍繞學(xué)科理論體系中的模型理論, 程序理論和計算理論1. 模型理論關(guān)心的問題 給定模型M,哪些問題可以由模型M解決;如何比較模型的表達(dá)能力2. 程序理論關(guān)心的問題給定模型M,如何用模型M解決問題包括程序設(shè)計范型、程序設(shè)計語言、程序設(shè)計、形式語義、類型論、程序驗證、程序分析等3. 計算理論關(guān)心的問題給定模型M和一類問題, 解決該類問題需多少資源2 本次講座與這些內(nèi)容關(guān)系不大講 座 提 綱大數(shù)據(jù)的魅力數(shù)據(jù)挖掘、大數(shù)據(jù)、大數(shù)據(jù)案例、大數(shù)據(jù)的特點大數(shù)據(jù)時代的思維變革樣

2、本和全體、精確性和混雜性、因果關(guān)系和相關(guān)關(guān)系大數(shù)據(jù)的處理幾種主要處理方式、MapReduce編程模型大數(shù)據(jù)的分析關(guān)鍵技術(shù)概述、PageRank初步3數(shù)據(jù)挖掘數(shù)據(jù)挖掘的定義1. 從數(shù)據(jù)中提取出隱含的、過去未知的、有價值的潛在信息2. 從大量數(shù)據(jù)或者數(shù)據(jù)庫中提取有用信息的科學(xué)相關(guān)概念:知識發(fā)現(xiàn)1. 數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程中的一步2. 粗略看:數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘數(shù)據(jù)后處理預(yù)處理: 將未加工輸入數(shù)據(jù)轉(zhuǎn)換為適合處理的形式后處理: 如可視化, 便于從不同視角探查挖掘結(jié)果大數(shù)據(jù)的魅力4數(shù)據(jù)挖掘典型事例:購物籃分析顧客一次購買商品 1面包、黃油、尿布、牛奶 2咖啡、糖、小甜餅、鮭魚 3面包、黃油、咖啡、尿布、

3、牛奶、雞蛋 4面包、黃油、鮭魚、雞 5雞蛋、面包、黃油 6鮭魚、尿布、牛奶 7面包、茶葉、糖、雞蛋 8咖啡、糖、雞、雞蛋 9面包、尿布、牛奶、鹽10茶葉、雞蛋、小甜餅、尿布、牛奶大數(shù)據(jù)的魅力5數(shù)據(jù)挖掘典型事例:購物籃分析顧客一次購買商品 1面包、黃油、尿布、牛奶 2咖啡、糖、小甜餅、鮭魚 3面包、黃油、咖啡、尿布、牛奶、雞蛋 4面包、黃油、鮭魚、雞 5雞蛋、面包、黃油 6鮭魚、尿布、牛奶 7面包、茶葉、糖、雞蛋 8咖啡、糖、雞、雞蛋 9面包、尿布、牛奶、鹽10茶葉、雞蛋、小甜餅、尿布、牛奶經(jīng)關(guān)聯(lián)分析,可發(fā)現(xiàn)顧客經(jīng)常同時購買的商品:尿布牛奶大數(shù)據(jù)的魅力6大數(shù)據(jù)大數(shù)據(jù),或稱海量數(shù)據(jù),指所涉及的數(shù)據(jù)

4、量規(guī)模巨大到無法通過人工,在合理時間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息例如: Google每天有來自全球30億條搜索指令 每天都有成千上萬的人通過Google搜索信息,從出游的路線和耗時、治療某種疾病的方法和某研究方向的最新學(xué)術(shù)資料,各式各樣的搜索要求都有 這樣的搜索引擎無疑極大地方便了人們的生活和工作大數(shù)據(jù)的魅力7大數(shù)據(jù)大數(shù)據(jù),或稱海量數(shù)據(jù),指所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息這一系列搜索數(shù)據(jù)從側(cè)面顯示出搜索這些信息的人的本身情況,比如他們的想法、需求、憂慮等非常有價值的信息如果這些搜索數(shù)據(jù)能準(zhǔn)確地反映人們的

5、生活和工作狀況,那么就有可能利用這些信息來察覺商業(yè)趨勢、避免疾病擴(kuò)散、打擊犯罪、測定實時交通路況和預(yù)測選舉結(jié)果等大數(shù)據(jù)的魅力8大數(shù)據(jù)大數(shù)據(jù),或稱海量數(shù)據(jù),指所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息與小數(shù)據(jù)集的比較: 在總數(shù)據(jù)量相同的情況下,與個別分析獨(dú)立的小型數(shù)據(jù)集相比,將各個小型數(shù)據(jù)集合并后進(jìn)行大數(shù)據(jù)分析可得出許多額外的信息和數(shù)據(jù)關(guān)聯(lián)性這正是大型數(shù)據(jù)集盛行的原因數(shù)據(jù)挖掘則是探討用以解析大數(shù)據(jù)的方法大數(shù)據(jù)的魅力9大數(shù)據(jù)案例谷歌預(yù)測冬季流感的傳播2008年11月谷歌啟動“谷歌流感趨勢”(Google Flu Trends, GFT) 項

6、目GFT項目把5000萬個美國人最頻繁檢索的詞項與美國疾病預(yù)防控制中心告知的2003年2008年季節(jié)性流感傳播期間的數(shù)據(jù)進(jìn)行比較,以確定相關(guān)檢索詞項為測試這些檢索詞項的使用頻率與流感在時間和空間上傳播之間的聯(lián)系,GFT共處理了4.5億個不同的數(shù)學(xué)模型大數(shù)據(jù)的魅力10大數(shù)據(jù)案例谷歌預(yù)測冬季流感的傳播為測試這些檢索詞項的使用頻率與流感在時間和空間上傳播之間的聯(lián)系,GFT共處理了4.5億個不同的數(shù)學(xué)模型在把得出的預(yù)測與2007年和2008年疾病預(yù)防控制中心記錄的實際流感病例進(jìn)行對比后,GFT的軟件發(fā)現(xiàn)了45個檢索詞項的組合把這些檢索詞項用于一個特定的數(shù)學(xué)模型后,其預(yù)測與官方數(shù)據(jù)相關(guān)性高達(dá)97%大數(shù)據(jù)

7、的魅力11大數(shù)據(jù)案例谷歌預(yù)測冬季流感的傳播2009年谷歌把研究成果發(fā)表在自然雜志上,這篇引人注目的論文令公共衛(wèi)生官員和計算機(jī)科學(xué)家感到震驚文章不僅預(yù)測了流感在全美的傳播,而且具體到特定的地區(qū)和州并且預(yù)測非常及時,不像疾病預(yù)防控制中心的信息會有一兩周的延遲(因為人們從患病到求醫(yī)會滯后,信息從醫(yī)院傳到疾控中心也需要時間,疾控中心每周只進(jìn)行一次數(shù)據(jù)匯總)信息滯后兩周對一種飛速傳播的疾病是致命的大數(shù)據(jù)的魅力12大數(shù)據(jù)案例谷歌預(yù)測冬季流感的傳播在論文發(fā)表后的幾周內(nèi),出現(xiàn)了一種稱為甲型H1N1的新流感病毒,它在短短幾周內(nèi)迅速傳播開來,全球的公共衛(wèi)生機(jī)構(gòu)都擔(dān)心一場致命的流行病即將來襲這時,與習(xí)慣性滯后的官方

8、數(shù)據(jù)相比,谷歌的預(yù)測是一個更有效、更及時的指示標(biāo),公共衛(wèi)生機(jī)構(gòu)的官員因此獲得了非常有價值的數(shù)據(jù)信息谷歌的方法不需要分發(fā)口腔試紙和聯(lián)系醫(yī)生,因為它是建立在大數(shù)據(jù)的基礎(chǔ)之上大數(shù)據(jù)的魅力13大數(shù)據(jù)的魅力大數(shù)據(jù)案例谷歌預(yù)測冬季流感的傳播這是當(dāng)今社會所獨(dú)有的一種新型能力:以一種前所未有的方式,通過對海量數(shù)據(jù)的分析,獲得巨大價值的產(chǎn)品和服務(wù),或深刻的洞見大數(shù)據(jù)不僅會變革公共衛(wèi)生,也會變革商業(yè)、變革思維,改變政府與民眾關(guān)系的方法, ,開啟重大的時代轉(zhuǎn)型14大數(shù)據(jù)的魅力大數(shù)據(jù)案例谷歌預(yù)測冬季流感的傳播2013年2月,GFT再次上頭條,不是因為什么新的成就,而是因2013年1月,美國流感發(fā)生率達(dá)到峰值,GFT事

9、先的估計比實際數(shù)據(jù)高兩倍造成這種結(jié)果的原因: 大數(shù)據(jù)傲慢(Big Data Hubris):認(rèn)為自己擁有的數(shù)據(jù)是總體,可以完全取代科學(xué)抽樣基礎(chǔ)上形成的傳統(tǒng)小數(shù)據(jù),而非作為后者的補(bǔ)充 還有搜索算法變化等原因大數(shù)據(jù)運(yùn)用的典范GFT的失敗并不能夠抹滅大數(shù)據(jù)本身的價值15大數(shù)據(jù)的魅力大數(shù)據(jù)的特點體量巨大(Volume) 數(shù)據(jù)集合的規(guī)模不斷擴(kuò)大,已從GB(1024MB)到TB(1024GB)再到PB級,甚至已經(jīng)開始以EB和ZB來計數(shù) 至今,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB 未來10年,全球大數(shù)據(jù)將增加50倍,管理數(shù)據(jù)倉庫的服務(wù)器的數(shù)量將增加10倍16大數(shù)據(jù)的魅力大數(shù)據(jù)的特點種類繁多(Varie

10、ty) 數(shù)據(jù)種類繁多,并且被分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù) 半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),包括網(wǎng)絡(luò)日志、傳感器數(shù)據(jù)、音頻、視頻、圖片、地理位置信息等,占有量越來越大,已遠(yuǎn)遠(yuǎn)超過結(jié)構(gòu)化數(shù)據(jù)17大數(shù)據(jù)的魅力大數(shù)據(jù)的特點價值密度低(Value) 數(shù)據(jù)總體的價值巨大,但價值密度很低 以視頻為例,在長達(dá)數(shù)小時連續(xù)不斷的視頻監(jiān)控中,有用數(shù)據(jù)可能僅一二秒 另一極端是各個數(shù)據(jù)都有貢獻(xiàn),但單個數(shù)據(jù)價值很低18大數(shù)據(jù)的魅力大數(shù)據(jù)的特點速度快(Velocity) 數(shù)據(jù)往往以數(shù)據(jù)流的形式動態(tài)快速地產(chǎn)生,具有很強(qiáng)的時效性 用戶只有把握好對數(shù)據(jù)流的掌控才能有效利用這些數(shù)據(jù) 例如,一天之內(nèi)需要審查500萬起潛在的貿(mào)易欺詐

11、案件;需要分析5億條日實時呼叫的詳細(xì)記錄,以預(yù)測客戶的流失率19大數(shù)據(jù)時代的思維變革數(shù)據(jù)采集和數(shù)據(jù)處理技術(shù)已經(jīng)發(fā)生了翻天覆地的變化,人們的思維和方法要跟得上這個變化大數(shù)據(jù)時代的精髓在于人們分析信息時的三個轉(zhuǎn)變,這些轉(zhuǎn)變將改變?nèi)藗儧Q策的制定和對表象的理解20大數(shù)據(jù)時代的思維變革變革一 更多: 不是隨機(jī)樣本, 而是全體數(shù)據(jù)1. 隨機(jī)抽樣:用最少的數(shù)據(jù)獲得最多的信息過去由于獲取和分析全體數(shù)據(jù)的困難,抽樣調(diào)查是一種常用統(tǒng)計分析方法。它根據(jù)隨機(jī)原則從總體中抽取部分實際數(shù)據(jù)進(jìn)行調(diào)查,并運(yùn)用概率估計方法,根據(jù)樣本數(shù)據(jù)推算總體相應(yīng)的數(shù)量指標(biāo)抽樣分析的精確性隨抽樣隨機(jī)性的增加而提高,與樣本數(shù)量的增加關(guān)系不大。抽

12、樣隨機(jī)性高時,分析的精度能達(dá)到把全體作為樣本調(diào)查時的97%樣本選擇的隨機(jī)性比樣本數(shù)量更重要21大數(shù)據(jù)時代的思維變革變革一 更多: 不是隨機(jī)樣本, 而是全體數(shù)據(jù)1. 隨機(jī)抽樣:用最少的數(shù)據(jù)獲得最多的信息 抽樣分析的成功依賴于抽樣的隨機(jī)性,但實現(xiàn)抽樣的隨機(jī)性非常困難當(dāng)想了解更深層次的細(xì)分領(lǐng)域的情況時,隨機(jī)抽樣方法不一定有效,即在宏觀領(lǐng)域起作用的方法在微觀領(lǐng)域可能失去了作用隨機(jī)抽樣需要嚴(yán)密的安排和執(zhí)行,人們只能從抽樣數(shù)據(jù)中得出事先設(shè)計好的問題的結(jié)果22大數(shù)據(jù)時代的思維變革變革一 更多: 不是隨機(jī)樣本, 而是全體數(shù)據(jù)2. 全體數(shù)據(jù):用全體數(shù)據(jù)可對數(shù)據(jù)進(jìn)行深度探討流感趨勢預(yù)測分析了整個美國幾十億條互聯(lián)網(wǎng)

13、檢索記錄,使得它能提高微觀層面分析的準(zhǔn)確性,甚至能夠推測某個特定城市的流感狀況信用卡詐騙需通過觀察異常情況來識別,這只有在掌握所有的數(shù)據(jù)時才能做到社會科學(xué)是被“樣本=全體”撼動得最厲害的一門學(xué)科。這門學(xué)科過去非常依賴于樣本分析、研究和調(diào)查問卷。當(dāng)記錄下人們的平常狀態(tài),就不用擔(dān)心在做研究和調(diào)查問卷時存在的偏見了23大數(shù)據(jù)時代的思維變革變革二 更雜:不是精確性, 而是混雜性 對小數(shù)據(jù)而言,最基本和最重要的要求就是減少錯誤,保證質(zhì)量。因為收集的數(shù)據(jù)較少,應(yīng)確保每個數(shù)據(jù)盡量精確,以保證分析結(jié)果的準(zhǔn)確性允許不精確數(shù)據(jù)是大數(shù)據(jù)的一個亮點, 而非缺點。因為放松了容錯的標(biāo)準(zhǔn),就可以掌握更多數(shù)據(jù);而掌握大量新型

14、數(shù)據(jù)時,精確性就不那么重要了例如,與服務(wù)器處理投訴時的數(shù)據(jù)進(jìn)行比較,用語音識別系統(tǒng)識別呼叫中心接到的投訴會產(chǎn)生不太準(zhǔn)確的結(jié)果, 但它有助于把握事情的大致情況不精確的大量新型數(shù)據(jù)能幫助掌握事情發(fā)展趨勢24大數(shù)據(jù)時代的思維變革變革二 更雜:不是精確性, 而是混雜性執(zhí)迷于精確性是信息缺乏時代的產(chǎn)物,大數(shù)據(jù)時代要求重新審視精確性的優(yōu)劣,如果將傳統(tǒng)的思維模式運(yùn)用于數(shù)字化、網(wǎng)絡(luò)化的21世紀(jì),就會錯過重要信息,失去做更多事情,創(chuàng)造出更好結(jié)果的機(jī)會另一方面,需要與數(shù)據(jù)增加引起的各種混亂(數(shù)據(jù)格式不一致,數(shù)據(jù)錯誤率增加等)做斗爭。錯誤并不是大數(shù)據(jù)的固有特性,但可能是長期存在并需要去處理的現(xiàn)實問題25大數(shù)據(jù)時代的

15、思維變革變革三 更好: 不是因果關(guān)系, 而是相關(guān)關(guān)系1. 因果關(guān)系與相關(guān)關(guān)系因果關(guān)系是指一個事件是另一個事件的結(jié)果相關(guān)關(guān)系是指兩個事件的發(fā)生存在某個規(guī)律與通過邏輯推理研究因果關(guān)系不同,大數(shù)據(jù)研究通過對巨量數(shù)據(jù)做統(tǒng)計性的搜索、比較、聚類、分析和歸納,尋找事件(或數(shù)據(jù))之間的相關(guān)性一般來說,統(tǒng)計學(xué)無法檢驗邏輯上的因果關(guān)系也許正因為統(tǒng)計方法不致力于尋找真正的原因, 才促進(jìn)數(shù)據(jù)挖掘和大數(shù)據(jù)技術(shù)在商業(yè)領(lǐng)域廣泛應(yīng)用26大數(shù)據(jù)時代的思維變革變革三 更好: 不是因果關(guān)系, 而是相關(guān)關(guān)系2. 相關(guān)關(guān)系幫助捕捉現(xiàn)在和預(yù)測未來如果A和B經(jīng)常一起發(fā)生,則只需注意到B發(fā)生了, 就可以預(yù)測A也發(fā)生了故障經(jīng)常是慢慢出現(xiàn)的,

16、通過收集所有數(shù)據(jù),可預(yù)先捕捉到事物要出故障的信號。如把發(fā)動機(jī)的嗡嗡聲、引擎過熱等異常情況與正常情況對比,就能知道什么地方將出毛病,及時更換或修復(fù)過去需先有想法,然后收集數(shù)據(jù)來測試想法的可行性,現(xiàn)在可以對大數(shù)據(jù)進(jìn)行相關(guān)關(guān)系分析知道機(jī)票是否會飛漲、哪些詞項最能顯示流感的傳播27大數(shù)據(jù)時代的思維變革變革三 更好: 不是因果關(guān)系, 而是相關(guān)關(guān)系3. 大數(shù)據(jù)改變?nèi)祟愄剿魇澜绲姆椒ㄔ絹碓蕉嗟氖挛锊粩嗟財?shù)據(jù)化,將拓展人類的視野,使得人們可從大量的數(shù)據(jù)中,發(fā)現(xiàn)隱藏在其中的自然規(guī)律、社會規(guī)律和經(jīng)濟(jì)規(guī)律當(dāng)網(wǎng)頁變成數(shù)據(jù),谷歌具備了令人大跌眼鏡的全文搜索能力,在幾個毫秒之內(nèi),就能讓人們檢索世界上幾乎所有的網(wǎng)頁當(dāng)方位變

17、成數(shù)據(jù),每個人都能借助GPS 快速到達(dá)目的地28大數(shù)據(jù)時代的思維變革變革三 更好: 不是因果關(guān)系, 而是相關(guān)關(guān)系3. 大數(shù)據(jù)改變?nèi)祟愄剿魇澜绲姆椒ó?dāng)情緒變成數(shù)據(jù),人們甚至根據(jù)大家快樂與否判斷股市的漲跌上述這些不同的數(shù)據(jù)可歸結(jié)為幾類相似的數(shù)學(xué)模型,從而使得“數(shù)據(jù)科學(xué)”(應(yīng)用數(shù)據(jù)學(xué)習(xí)知識的學(xué)科)成為一門具備普遍適用的學(xué)科生物信息學(xué)、計算社會學(xué)、天體信息學(xué)、電子工程、金融學(xué)、經(jīng)濟(jì)學(xué)等學(xué)科,都依賴數(shù)據(jù)科學(xué)的發(fā)展29大數(shù)據(jù)的處理大數(shù)據(jù)處理的幾種主要方式 海量數(shù)據(jù)的處理對于當(dāng)前的技術(shù)來說是一種極大的挑戰(zhàn),目前大數(shù)據(jù)的主要處理形式如下:靜態(tài)數(shù)據(jù)的批量處理 數(shù)據(jù)體量巨大、精度高、價值密度低 利用批量數(shù)據(jù),挖掘

18、合適的模式(數(shù)據(jù)的結(jié)構(gòu)、屬性、聯(lián)系和約束的描述)、得出具體的含義、制定明智的決策、做出有效的應(yīng)對措施、實現(xiàn)業(yè)務(wù)目標(biāo) 用于社交網(wǎng)絡(luò)、電子商務(wù)、搜索引擎等30大數(shù)據(jù)的處理大數(shù)據(jù)處理的幾種主要方式 海量數(shù)據(jù)的處理對于當(dāng)前的技術(shù)來說是一種極大的挑戰(zhàn),目前大數(shù)據(jù)的主要處理形式如下:在線數(shù)據(jù)的實時流式處理 日志數(shù)據(jù)、傳感器數(shù)據(jù)、Web數(shù)據(jù)等 數(shù)據(jù)連續(xù)不斷、來源眾多、格式復(fù)雜、物理順序不一、價值密度低 流式挖掘、實時分析、 應(yīng)用于智能交通、環(huán)境監(jiān)控、災(zāi)難預(yù)警、金融銀行等還有在線數(shù)據(jù)的交互處理、圖數(shù)據(jù)處理31大數(shù)據(jù)的處理MapReduce編程模型是批量數(shù)據(jù)處理的一種常用編程模型,源于函數(shù)式編程語言的兩個高階函

19、數(shù):map和reducemap(f1, x1, , xn) = f1(x1), , f1(xn)f1作用于n個變元的計算可以并行reduce(f2, y1, , yn) = f2( f2(f2(y1, y2), y3), , yn)若二元函數(shù)f2是有交換律和結(jié)合率的運(yùn)算,則f2作用于n個變元的計算也可以適當(dāng)并行兩者的復(fù)合: reduce(f2, map(f1, x1, , xn) MapReduce源于此,但更加一般32MapReduce編程模型MapReduce是一種比較專用的并行編程模型,面向大數(shù)據(jù)集上的可并行化的問題Map完成過濾或分類,例如,它把數(shù)據(jù)集中所有的人按姓氏分成若干隊列,每個

20、姓氏一個隊列; Reduce完成概括總結(jié)操作,例如,計算各姓氏隊列中的人數(shù),產(chǎn)生按姓氏的人口比例MapReduce可以在并行計算機(jī)、計算機(jī)集群和計算機(jī)網(wǎng)格上實現(xiàn)大數(shù)據(jù)的處理33MapReduce編程模型計算過程如圖所示程序員只需編寫Map和Reduce函數(shù)1. Map任務(wù)執(zhí)行Map函數(shù)的多個任務(wù)并行執(zhí)行每個Map任務(wù)把文件塊轉(zhuǎn)換成“鍵-值”(key-value)對序列大數(shù)據(jù)的處理Map任務(wù)Reduce任務(wù)按鍵分組輸出文件輸入文件塊鍵-值對 (k, v)鍵及所有值(k, v, w, )34MapReduce編程模型2. 按鍵組合其處理方式與兩個函數(shù)無關(guān)把“鍵-值”對序列組成“鍵-值表”對序列把各

21、“鍵-值表”對分發(fā)給Reduce任務(wù)按鍵組合由主控程序完成大數(shù)據(jù)的處理Map任務(wù)Reduce任務(wù)按鍵分組輸出文件輸入文件塊鍵-值對 (k, v)鍵及所有值(k, v, w, )35MapReduce編程模型3. Reduce任務(wù)執(zhí)行Reduce函數(shù)的多個任務(wù)并行執(zhí)行每個Reduce任務(wù)把“鍵-值表”對中的值以某種方式組合,轉(zhuǎn)換成“鍵-值”對輸出大數(shù)據(jù)的處理Map任務(wù)Reduce任務(wù)按鍵分組輸出文件輸入文件塊鍵-值對 (k, v)鍵及所有值(k, v, w, )36當(dāng)矩陣很大時,可用MapReduce實現(xiàn)矩陣運(yùn)算。對于分塊乘:1. Map任務(wù)計算兩塊的乘,用結(jié)果在Z中的位置作為鍵2. Reduc

22、e任務(wù)按鍵值來分別累加Map任務(wù)的結(jié)果bn大數(shù)據(jù)的處理X:Y:Z:37當(dāng)矩陣很大時,可用MapReduce實現(xiàn)矩陣運(yùn)算。對于分塊乘:1. Map任務(wù)計算兩塊的乘,用結(jié)果在Z中的位置作為鍵2. Reduce任務(wù)按鍵值來分別累加Map任務(wù)的結(jié)果bn大數(shù)據(jù)的處理X:Y:Z:38bn大數(shù)據(jù)的處理X:Y:Z:當(dāng)矩陣很大時,可用MapReduce實現(xiàn)矩陣運(yùn)算。對于分塊乘:1. Map任務(wù)計算兩塊的乘,用結(jié)果在Z中的位置作為鍵2. Reduce任務(wù)按鍵值來分別累加Map任務(wù)的結(jié)果39bn大數(shù)據(jù)的處理X:Y:Z:當(dāng)矩陣很大時,可用MapReduce實現(xiàn)矩陣運(yùn)算。對于分塊乘:1. Map任務(wù)計算兩塊的乘,用結(jié)果

23、在Z中的位置作為鍵2. Reduce任務(wù)按鍵值來分別累加Map任務(wù)的結(jié)果40當(dāng)矩陣很大時,可用MapReduce實現(xiàn)矩陣運(yùn)算。對于分塊乘:1. Map任務(wù)計算兩塊的乘,用結(jié)果在Z中的位置作為鍵2. Reduce任務(wù)按鍵值來分別累加Map任務(wù)的結(jié)果bn大數(shù)據(jù)的處理X:Y:Z:41bn大數(shù)據(jù)的處理X:Y:Z:當(dāng)矩陣很大時,可用MapReduce實現(xiàn)矩陣運(yùn)算。對于分塊乘:1. Map任務(wù)計算兩塊的乘,用結(jié)果在Z中的位置作為鍵2. Reduce任務(wù)按鍵值來分別累加Map任務(wù)的結(jié)果42bn大數(shù)據(jù)的處理X:Y:Z:當(dāng)矩陣很大時,可用MapReduce實現(xiàn)矩陣運(yùn)算。對于分塊乘:1. Map任務(wù)計算兩塊的乘,

24、用結(jié)果在Z中的位置作為鍵2. Reduce任務(wù)按鍵值來分別累加Map任務(wù)的結(jié)果43大數(shù)據(jù)分析的關(guān)鍵技術(shù)要挖掘大數(shù)據(jù)的大價值,必須對大數(shù)據(jù)進(jìn)行內(nèi)容上的分析與計算深度學(xué)習(xí)和知識計算是大數(shù)據(jù)分析的基礎(chǔ)深度學(xué)習(xí) 大數(shù)據(jù)的出現(xiàn)提供了使用復(fù)雜(而不是簡單或淺層)的模型來有效地表征和解釋數(shù)據(jù)的機(jī)會 深度學(xué)習(xí)就是利用層次化的架構(gòu)學(xué)習(xí)出對象在不同層次上的表達(dá) (例:降低語音識別錯誤率) 近幾年,深度學(xué)習(xí)在語音、圖像和自然語言理解等應(yīng)用領(lǐng)域取得重大進(jìn)展大數(shù)據(jù)的分析44大數(shù)據(jù)分析的關(guān)鍵技術(shù)要挖掘大數(shù)據(jù)的大價值,必須對大數(shù)據(jù)進(jìn)行內(nèi)容上的分析與計算深度學(xué)習(xí)和知識計算是大數(shù)據(jù)分析的基礎(chǔ)知識計算 要對大數(shù)據(jù)進(jìn)行高端分析,就

25、需要從大數(shù)據(jù)中抽取出有價值的知識 并將其構(gòu)建成可支持查詢、分析和計算的知識庫 涉及知識庫的構(gòu)建、多源知識的融合和知識庫的更新、知識的復(fù)用大數(shù)據(jù)的分析45大數(shù)據(jù)的分析大數(shù)據(jù)分析的關(guān)鍵技術(shù)要挖掘大數(shù)據(jù)的大價值,必須對大數(shù)據(jù)進(jìn)行內(nèi)容上的分析與計算社會計算 是現(xiàn)代計算技術(shù)與社會科學(xué)之間的交叉學(xué)科 它是指面向社會活動、社會過程、社會結(jié)構(gòu)、社會組織和社會功能的計算理論和方法 在線社會計算包括在線社會網(wǎng)絡(luò)的結(jié)構(gòu)分析、信息傳播模型以及信息內(nèi)容的分析、建模與挖掘等46大數(shù)據(jù)的分析大數(shù)據(jù)分析的關(guān)鍵技術(shù)要挖掘大數(shù)據(jù)的大價值,必須對大數(shù)據(jù)進(jìn)行內(nèi)容上的分析與計算可視化 可視化不僅可對數(shù)據(jù)分析的結(jié)果進(jìn)行更有效的展示,而且

26、在大數(shù)據(jù)的分析過程中發(fā)揮重要作用 不同于傳統(tǒng)的信息可視化,大數(shù)據(jù)可視化的最大挑戰(zhàn)源自其數(shù)據(jù)規(guī)模 如何提出新的可視化方法,它能夠幫助人們分析大規(guī)模、高維度、多來源、動態(tài)演化的信息,并輔助作出實時的決策47大數(shù)據(jù)的分析PageRank初步PageRank(網(wǎng)頁排名)通過對網(wǎng)絡(luò)浩瀚的超鏈接關(guān)系的分析來確定一個頁面的等級Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票,B頁面從A頁面的投票能得多少分還與A頁面的等級有關(guān)一個頁面的PageRank,由所有給它投票的頁面的數(shù)量和重要性,經(jīng)過迭代計算得到這項技術(shù)使得Google成為第一個能夠戰(zhàn)勝作弊者的搜索引擎。當(dāng)然,與作弊者之間的斗爭永遠(yuǎn)不會停

27、止48大數(shù)據(jù)的分析PageRank初步1. 早期搜索引擎與詞項作弊搜索引擎:詞項出現(xiàn)在網(wǎng)頁頭部比在普通正文的得分高、詞項在網(wǎng)頁中出現(xiàn)的次數(shù)越多得分越高作弊者:在自己的網(wǎng)頁上增加熱門詞項, 如movie, 并重復(fù)很多次,以提高與movie的相關(guān)性。詞項movie在該網(wǎng)頁上的顏色與背景色一樣,以掩蓋作弊者的不道德行為49大數(shù)據(jù)的分析PageRank初步2. Google的對策使用PageRank技術(shù)來模擬Web漫游者的行為:他們從隨機(jī)頁面出發(fā),每次從當(dāng)前網(wǎng)頁隨機(jī)地選擇出鏈前行,該過程可以迭代多次。最終,較多漫游者訪問的網(wǎng)頁則重要性較高。在決定查詢應(yīng)答順序時,Google把重要頁面放在前面在判斷網(wǎng)頁

28、內(nèi)容時, 不僅考慮網(wǎng)頁上出現(xiàn)的詞項,還考慮有鏈接指向該網(wǎng)頁的網(wǎng)頁中所使用的詞項50大數(shù)據(jù)的分析PageRank初步3. 最簡單的PageRank舉例PageRank:網(wǎng)頁集實數(shù),值越大則網(wǎng)頁越重要定義網(wǎng)頁的Web遷移矩陣M來描述隨機(jī)漫游者的下一步訪問行為例:從A出發(fā),以1/3的概率訪問B、C和D,訪問A的概率為0 0 1/2 1 01/3 0 0 1/21/3 0 0 1/21/3 1/2 0 0A B C DM =ABCD51大數(shù)據(jù)的分析PageRank初步3. 最簡單的PageRank舉例隨機(jī)漫游者位置的概率分布可通過一個n維向量v來描述,每個分量表示處于相應(yīng)網(wǎng)頁的概率例(續(xù)):假定處于各網(wǎng)頁的初始概率相等Mkv是隨機(jī)漫游者k步后的概率分布向量ABCD 0 1/2 1 01/3 0 0 1/21/3 0 0 1/21/3 1/2 0 0A B C DM =1/41/41/41/4v52大數(shù)據(jù)的分析PageRank初步3. 最簡單的PageRank舉例在Web網(wǎng)頁鏈接圖滿足一定的條件下,概率分布向量將逼近一個極

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論