大數(shù)據(jù)的處理和分析實用版課件

上傳人：x*** IP屬地：貴州上傳時間：2022-12-21 格式：PPT 頁數(shù)：94 大?。?.63MB 積分：25 舉報 版權申訴

已閱讀5頁，還剩89頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

大數(shù)據(jù)的處理和分析大數(shù)據(jù)的處理和分析1課程內容課程內容（本次講座與下述內容關系不大）圍繞學科理論體系中的模型理論,程序理論和計算理論1.模型理論關心的問題

給定模型M，哪些問題可以由模型M解決；如何比較模型的表達能力2.程序理論關心的問題給定模型M，如何用模型M解決問題包括程序設計范型、程序設計語言、程序設計、形式語義、類型論、程序驗證、程序分析等3.計算理論關心的問題

給定模型M和一類問題,解決該類問題需多少資源課程內容課程內容（本次講座與下述內容關系不大）2講座提綱大數(shù)據(jù)的魅力數(shù)據(jù)挖掘、大數(shù)據(jù)、大數(shù)據(jù)案例、大數(shù)據(jù)的特點大數(shù)據(jù)時代的思維變革樣本和全體、精確性和混雜性、因果關系和相關關系大數(shù)據(jù)的處理幾種主要處理方式、MapReduce編程模型大數(shù)據(jù)的分析關鍵技術概述、PageRank初步講座提綱大數(shù)據(jù)的魅力3數(shù)據(jù)挖掘數(shù)據(jù)挖掘的定義 1.從數(shù)據(jù)中提取出隱含的過去未知的有價值的潛在信息 2.從大量數(shù)據(jù)或者數(shù)據(jù)庫中提取有用信息的科學相關概念：知識發(fā)現(xiàn) 1.數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程中的一步 2.粗略看：數(shù)據(jù)預處理數(shù)據(jù)挖掘數(shù)據(jù)后處理

預處理:將未加工輸入數(shù)據(jù)轉換為適合處理的形式

后處理:如可視化,便于從不同視角探查挖掘結果大數(shù)據(jù)的魅力數(shù)據(jù)挖掘大數(shù)據(jù)的魅力4數(shù)據(jù)挖掘典型事例：購物籃分析

顧客

一次購買商品 1 面包、黃油、尿布、牛奶 2 咖啡、糖、小甜餅、鮭魚 3 面包、黃油、咖啡、尿布、牛奶、雞蛋 4 面包、黃油、鮭魚、雞 5 雞蛋、面包、黃油 6 鮭魚、尿布、牛奶 7 面包、茶葉、糖、雞蛋 8 咖啡、糖、雞、雞蛋 9 面包、尿布、牛奶、鹽 10 茶葉、雞蛋、小甜餅、尿布、牛奶經(jīng)關聯(lián)分析，可發(fā)現(xiàn)顧客經(jīng)常同時購買的商品：尿布牛奶大數(shù)據(jù)的魅力數(shù)據(jù)挖掘大數(shù)據(jù)的魅力5大數(shù)據(jù)大數(shù)據(jù)，或稱海量數(shù)據(jù)，指所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工，在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息在總數(shù)據(jù)量相同的情況下，與個別分析獨立的小型數(shù)據(jù)集相比，將各個小型數(shù)據(jù)集合并后進行分析可得出許多額外的信息和數(shù)據(jù)關系性，可用來察覺商業(yè)趨勢、避免疾病擴散、打擊犯罪、測定實時交通路況或判定研究質量等這樣的用途正是大型數(shù)據(jù)集盛行的原因數(shù)據(jù)挖掘則是探討用以解析大數(shù)據(jù)的方法大數(shù)據(jù)的魅力大數(shù)據(jù)大數(shù)據(jù)的魅力6大數(shù)據(jù)案例—谷歌預測冬季流感的傳播2009年出現(xiàn)了一種稱為甲型H1N1的新流感病毒，在短短幾周內迅速傳播開來，全球的公共衛(wèi)生機構都擔心一場致命的流行病即將來襲美國也要求醫(yī)生在發(fā)現(xiàn)甲型H1N1病例時告知疾病控制與預防中心。但人們從患病到求醫(yī)會滯后，信息傳到疾控中心也需要時間，因此通告新病例往往有一兩周的延遲。而且疾控中心每周只進行一次數(shù)據(jù)匯總信息滯后兩周對一種飛速傳播的疾病是致命的，它使得公共衛(wèi)生機構在疫情爆發(fā)的關鍵時期難以有效發(fā)揮作用大數(shù)據(jù)的魅力大數(shù)據(jù)案例—谷歌預測冬季流感的傳播大數(shù)據(jù)的魅力7大數(shù)據(jù)案例—谷歌預測冬季流感的傳播在這種流感爆發(fā)的幾周前，谷歌的工程師在《自然》雜志發(fā)表引人注目的論文，令公共衛(wèi)生官員和計算機科學家感到震驚因為文章不僅預測了流感在全美的傳播，而且具體到特定的地區(qū)和州谷歌是通過觀察人們在網(wǎng)上的搜索記錄來完成這個預測的，這種方法以前一直是被忽略的谷歌保存了多年來所有的搜索記錄,每天有來自全球30億條搜索指令(僅谷歌有這樣的數(shù)據(jù)資源),如此龐大數(shù)據(jù)資源足以支撐和幫助它完成這項工作大數(shù)據(jù)的魅力大數(shù)據(jù)案例—谷歌預測冬季流感的傳播大數(shù)據(jù)的魅力8大數(shù)據(jù)的魅力大數(shù)據(jù)案例—谷歌預測冬季流感的傳播原理十分簡單

現(xiàn)在大家都有上網(wǎng)搜索信息的習慣，連頭痛感冒也上網(wǎng)搜索，谷歌流感趨勢項目通過記錄搜索有關“流感”詞條的地區(qū)和頻率，并分析其與流感在時間和空間上的傳播之間的聯(lián)系，追蹤到流感廣泛傳播的地區(qū)，進而預測流感可能爆發(fā)的高危地區(qū)。即當某地區(qū)在網(wǎng)上搜尋與流感有關信息的人日益增多，很可能意味著該地區(qū)有許多人患上流感類疾病因為流感趨勢項目能夠近乎實時地估計流感活動情況，故它比其他系統(tǒng)能夠更早地發(fā)現(xiàn)流感疫情大數(shù)據(jù)的魅力大數(shù)據(jù)案例—谷歌預測冬季流感的傳播9大數(shù)據(jù)的魅力大數(shù)據(jù)案例—谷歌預測冬季流感的傳播谷歌把5000萬條美國人最頻繁檢索的詞條與疾控中心在2003年到2008年間季節(jié)性流感傳播期間的數(shù)據(jù)進行比較，以確定相關檢索詞條，并總共處理了4.5億(?)個不同的數(shù)學模型在把得出的預測與2007年和2008年美國疾控中心記錄的實際流感病例進行對比后，篩選了45條檢索詞條的組合，并把它們用于一個特定的數(shù)學模型后，其預測與官方數(shù)據(jù)相關性高達97%因此當2009年甲型H1N1流感爆發(fā)時，與滯后的官方數(shù)據(jù)相比，谷歌成為一個更有效及時的指示者大數(shù)據(jù)的魅力大數(shù)據(jù)案例—谷歌預測冬季流感的傳播10大數(shù)據(jù)的魅力大數(shù)據(jù)案例—谷歌預測冬季流感的傳播這是當今社會所獨有的一種新型能力：以一種前所未有的方式，通過對海量數(shù)據(jù)的分析，獲得巨大價值的產(chǎn)品和服務，或深刻的洞見大數(shù)據(jù)不僅會變革公共衛(wèi)生，也會變革商業(yè)、變革思維，改變政府與民眾關系的方法，…，開啟重大的時代轉型大數(shù)據(jù)的魅力大數(shù)據(jù)案例—谷歌預測冬季流感的傳播11大數(shù)據(jù)的魅力大數(shù)據(jù)的特點體量巨大(Volume)數(shù)據(jù)集合的規(guī)模不斷擴大，已從GB(1024MB)到TB(1024GB)再到PB級，甚至已經(jīng)開始以EB和ZB來計數(shù)。至今，人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB。未來10年，全球大數(shù)據(jù)將增加50倍，管理數(shù)據(jù)倉庫的服務器的數(shù)量將增加10倍類型繁多(Variety)數(shù)據(jù)種類繁多，并且被分為結構化、半結構化和非結構化的數(shù)據(jù)。半結構化和非結構化數(shù)據(jù)，包括傳感器數(shù)據(jù)、網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等，占有量越來越大，已遠遠超過結構化數(shù)據(jù)大數(shù)據(jù)的魅力大數(shù)據(jù)的特點12大數(shù)據(jù)的魅力大數(shù)據(jù)的特點價值密度低(Value)。

數(shù)據(jù)總體的價值巨大，但價值密度很低。以視頻為例，在長達數(shù)小時連續(xù)不斷的視頻監(jiān)控中，有用數(shù)據(jù)可能僅一二秒。另一極端是各數(shù)據(jù)都有貢獻，但單個數(shù)據(jù)價值很低速度快(Velocity)。數(shù)據(jù)往往以數(shù)據(jù)流的形式動態(tài)快速地產(chǎn)生，具有很強的時效性，用戶只有把握好對數(shù)據(jù)流的掌控才能有效利用這些數(shù)據(jù)。例如，一天之內需要審查500萬起潛在的貿易欺詐案件；需要分析5億條日實時呼叫的詳細記錄，以預測客戶的流失率大數(shù)據(jù)的魅力大數(shù)據(jù)的特點13大數(shù)據(jù)時代的思維變革

數(shù)據(jù)采集和數(shù)據(jù)處理技術已經(jīng)發(fā)生了翻天覆地的變化，人們的思維和方法要跟得上這個變化

大數(shù)據(jù)時代的精髓在于人們分析信息時的三個轉變，這些轉變將改變人們決策的制定和對表象的理解大數(shù)據(jù)時代的思維變革數(shù)據(jù)采集和數(shù)據(jù)處理技術已經(jīng)發(fā)生了翻天14大數(shù)據(jù)時代的思維變革變革一—更多:不是隨機樣本,而是全體數(shù)據(jù)1.隨機抽樣：用最少的數(shù)據(jù)獲得最多的信息過去由于獲取和分析全體數(shù)據(jù)的困難，抽樣調查是一種常用統(tǒng)計分析方法。它根據(jù)隨機原則從總體中抽取部分實際數(shù)據(jù)進行調查，并運用概率估計方法，根據(jù)樣本數(shù)據(jù)推算總體相應的數(shù)量指標抽樣分析的精確性隨抽樣隨機性的增加而提高，與樣本數(shù)量的增加關系不大。抽樣隨機性高時，分析的精度能達到把全體作為樣本調查時的97%樣本選擇的隨機性比樣本數(shù)量更重要大數(shù)據(jù)時代的思維變革變革一—更多:不是隨機樣本,而15大數(shù)據(jù)時代的思維變革變革一—更多:不是隨機樣本,而是全體數(shù)據(jù)1.隨機抽樣：用最少的數(shù)據(jù)獲得最多的信息

抽樣分析的成功依賴于抽樣的隨機性，但實現(xiàn)抽樣的隨機性非常困難當想了解更深層次的細分領域的情況時，隨機抽樣方法不一定有效，即在宏觀領域起作用的方法在微觀領域可能失去了作用隨機抽樣需要嚴密的安排和執(zhí)行，人們只能從抽樣數(shù)據(jù)中得出事先設計好的問題的結果大數(shù)據(jù)時代的思維變革變革一—更多:不是隨機樣本,而16Reduce完成概括總結操作，例如，計算各姓氏隊列中的人數(shù)，產(chǎn)生按姓氏的人口比例Map任務計算兩塊的乘，用結1/3001/2在常規(guī)情況下，可用高斯消去法解方程v=Mv01/210作弊者：在自己的網(wǎng)頁上增加熱門詞項,如movie,并重復很多次，以提高與movie的相關性。樣本和全體、精確性和混雜性、因果關系和相關關系圍繞學科理論體系中的模型理論,程序理論和計算理論關鍵技術概述、PageRank初步2 咖啡、糖、小甜餅、鮭魚Reduce任務按鍵值來分別累加PageRank：網(wǎng)頁集實數(shù)，值越大則網(wǎng)頁越重要如將發(fā)動機的嗡嗡聲、引擎過熱等異常情況與正常情況對比，就能知道什么地方將出毛病，及時更換或修復在Web網(wǎng)頁鏈接圖滿足一定的條件下，概率分布向量將逼近一個極限分布，它滿足v=Mv大數(shù)據(jù)案例—谷歌預測冬季流感的傳播過去由于獲取和分析全體數(shù)據(jù)的困難，抽樣調查是一種常用統(tǒng)計分析方法。至今，人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB。1/3001/21/31/200當想了解更深層次的細分領域的情況時，隨機抽樣方法不一定有效，即在宏觀領域起作用的方法在微觀領域可能失去了作用大數(shù)據(jù)時代的思維變革變革一—更多:不是隨機樣本,而是全體數(shù)據(jù)2.全體數(shù)據(jù)：用全體數(shù)據(jù)可對數(shù)據(jù)進行深度探討流感趨勢預測分析了整個美國幾十億條互聯(lián)網(wǎng)檢索記錄，使得它能提高微觀層面分析的準確性，甚至能夠推測某個特定城市的流感狀況信用卡詐騙需通過觀察異常情況來識別，這只有在掌握所有的數(shù)據(jù)時才能做到社會科學是被“樣本=全體”撼動得最厲害的一門學科。這門學科過去非常依賴于樣本分析、研究和調查問卷。當記錄下人們的平常狀態(tài)，就不用擔心在做研究和調查問卷時存在的偏見了Reduce完成概括總結操作，例如，計算各姓氏隊列中的人數(shù)，17大數(shù)據(jù)時代的思維變革變革二—更雜：不是精確性，

而是混雜性

對小數(shù)據(jù)而言，最基本和最重要的要求就是減少錯誤，保證質量。因為收集的數(shù)據(jù)較少，應確保每個數(shù)據(jù)盡量精確，以保證分析結果的準確性允許不精確數(shù)據(jù)是大數(shù)據(jù)的一個亮點,而非缺點。因為放松了容錯的標準，就可以掌握更多數(shù)據(jù)，而掌握大量新型數(shù)據(jù)時，精確性就不那么重要了例如，與服務器處理投訴時的數(shù)據(jù)進行比較，用語音識別系統(tǒng)識別呼叫中心接到的投訴會產(chǎn)生不太準確的結果,但它有助于把握事情的大致情況不精確的大量新型數(shù)據(jù)能幫助掌握事情發(fā)展趨勢大數(shù)據(jù)時代的思維變革變革二—更雜：不是精確性，而是混雜18大數(shù)據(jù)時代的思維變革變革二—更雜：不是精確性，

而是混雜性執(zhí)迷于精確性是信息缺乏時代的產(chǎn)物，大數(shù)據(jù)時代要求重新審視精確性的優(yōu)劣，如果將傳統(tǒng)的思維模式運用于數(shù)字化、網(wǎng)絡化的21世紀，就會錯過重要信息，失去做更多事情，創(chuàng)造出更好結果的機會另一方面，需要與數(shù)據(jù)增加引起的各種混亂（數(shù)據(jù)格式不一致，數(shù)據(jù)錯誤率增加等）做斗爭。錯誤并不是大數(shù)據(jù)的固有特性，但可能是長期存在并需要去處理的現(xiàn)實問題大數(shù)據(jù)時代的思維變革變革二—更雜：不是精確性，而是混雜19大數(shù)據(jù)時代的思維變革變革三—更好:不是因果關系,而是相關關系1.因果關系與相關關系因果關系是指一個事件是另一個事件的結果相關關系是指兩個事件的發(fā)生存在某個規(guī)律與通過邏輯推理研究因果關系不同，大數(shù)據(jù)研究通過統(tǒng)計性的搜索、比較、聚類、分析和歸納，尋找事件（或數(shù)據(jù)）之間的相關性一般來說，統(tǒng)計學無法檢驗邏輯上的因果關系也許正因為統(tǒng)計方法不致力于尋找真正的原因,才促進數(shù)據(jù)挖掘和大數(shù)據(jù)技術在商業(yè)領域廣泛應用大數(shù)據(jù)時代的思維變革變革三—更好:不是因果關系,而是20大數(shù)據(jù)時代的思維變革變革三—更好:不是因果關系,而是相關關系2.相關關系幫助捕捉現(xiàn)在和預測未來如果A和B經(jīng)常一起發(fā)生，則只需注意到B發(fā)生了,就可以預測A也發(fā)生了故障經(jīng)常是慢慢出現(xiàn)的，通過收集所有數(shù)據(jù)，可預先捕捉到事物要出故障的信號。如將發(fā)動機的嗡嗡聲、引擎過熱等異常情況與正常情況對比，就能知道什么地方將出毛病，及時更換或修復過去需先有想法，然后收集數(shù)據(jù)來測試想法的可行性，現(xiàn)在可以對大數(shù)據(jù)進行相關關系分析知道機票是否會飛漲、哪些詞條最能顯示流感的傳播大數(shù)據(jù)時代的思維變革變革三—更好:不是因果關系,而是21大數(shù)據(jù)時代的思維變革變革三—更好:不是因果關系,而是相關關系3.大數(shù)據(jù)改變人類探索世界的方法越來越多的事物不斷地數(shù)據(jù)化，將拓展人類的視野，使得人們可從大量的數(shù)據(jù)中，發(fā)現(xiàn)隱藏在其中的自然規(guī)律、社會規(guī)律和經(jīng)濟規(guī)律當網(wǎng)頁變成數(shù)據(jù)，谷歌具備了令人大跌眼球的全文搜索能力，在幾個毫秒之內，就能讓人們檢索世界上幾乎所有的網(wǎng)頁當方位變成數(shù)據(jù)，每個人都能借助GPS快速到達目的地大數(shù)據(jù)時代的思維變革變革三—更好:不是因果關系,而是22大數(shù)據(jù)時代的思維變革變革三—更好:不是因果關系,而是相關關系3.大數(shù)據(jù)改變人類探索世界的方法當情緒變成數(shù)據(jù)，人們甚至根據(jù)大家快樂與否判斷股市的漲跌上述這些不同的數(shù)據(jù)可歸結為幾類相似的數(shù)學模型，從而使得“數(shù)據(jù)科學”（應用數(shù)據(jù)學習知識的學科）成為一門具備普遍適用的學科生物信息學、計算社會學、天體信息學、電子工程、金融學、經(jīng)濟學等學科，都依賴數(shù)據(jù)科學的發(fā)展大數(shù)據(jù)時代的思維變革變革三—更好:不是因果關系,而是23大數(shù)據(jù)的處理大數(shù)據(jù)處理的幾種主要方式

海量數(shù)據(jù)的處理對于當前的技術來說是一種極大的挑戰(zhàn)，目前大數(shù)據(jù)的主要處理形式如下：靜態(tài)數(shù)據(jù)的批量處理

數(shù)據(jù)體量巨大、精確度高、價值密度低；挖掘合適模式、得出具體含義、制定明智決策、…；用于社交網(wǎng)絡、電子商務、搜索引擎等在線數(shù)據(jù)的實時流式處理

日志數(shù)據(jù)、傳感器數(shù)據(jù)、Web數(shù)據(jù)等；數(shù)據(jù)連續(xù)不斷、來源眾多、格式復雜等;流式挖掘、實時分析、…；應用于智能交通、環(huán)境監(jiān)控、金融銀行等還有在線數(shù)據(jù)的交互處理、圖數(shù)據(jù)處理大數(shù)據(jù)的處理大數(shù)據(jù)處理的幾種主要方式24大數(shù)據(jù)的處理MapReduce編程模型是批量數(shù)據(jù)處理的一個常用編程模型源于函數(shù)式語言的兩個高階函數(shù)：map和reducemap(f1,[x1,…,xn])=[f1(x1),…,f1(xn)]f1作用于n個變元的計算可以并行reduce(f2,[y1,…,yn])=f2(…f2(f2(y1,y2),y3),…,yn)若二元函數(shù)f2是有交換律和結合率的運算，則f2作用于n個變元的計算也可以適當并行兩者的復合：reduce(f2,map(f1,[x1,…,xn]))MapReduce源于此，但更加一般大數(shù)據(jù)的處理MapReduce編程模型25MapReduce編程模型MapReduce是一種比較專用的并行編程模型，面向大數(shù)據(jù)集上的可并行化的問題Map完成過濾或分類，例如，它把數(shù)據(jù)集中所有的人按姓氏分成若干隊列，每個姓氏一個隊列；Reduce完成概括總結操作，例如，計算各姓氏隊列中的人數(shù)，產(chǎn)生按姓氏的人口比例MapReduce可以在并行計算機、計算機集群和計算機網(wǎng)格上實現(xiàn)大數(shù)據(jù)的處理MapReduce編程模型大數(shù)據(jù)的處理26早期搜索引擎與詞項作弊Reduce任務按鍵值來分別累加體量巨大(Volume)數(shù)據(jù)集合的規(guī)模不斷擴大，已從GB(1024MB)到TB(1024GB)再到PB級，甚至已經(jīng)開始以EB和ZB來計數(shù)。給定模型M，如何用模型M解決問題方程v=Mv轉化為找函數(shù)ABCD在常規(guī)情況下，可用高斯消去法解方程v=Mv隨機抽樣：用最少的數(shù)據(jù)獲得最多的信息變革一—更多:不是隨機樣本,而是全體數(shù)據(jù)PageRank：網(wǎng)頁集實數(shù)，值越大則網(wǎng)頁越重要幾種主要處理方式、MapReduce編程模型Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票，B頁面從A頁面的投票能得多少分還與A頁面的等級有關體量巨大(Volume)數(shù)據(jù)集合的規(guī)模不斷擴大，已從GB(1024MB)到TB(1024GB)再到PB級，甚至已經(jīng)開始以EB和ZB來計數(shù)。分發(fā)給Reduce任務不斷、來源眾多、格式復雜等;流式挖掘、實時分數(shù)據(jù)挖掘則是探討用以解析大數(shù)據(jù)的方法8 咖啡、糖、雞、雞蛋大數(shù)據(jù)案例—谷歌預測冬季流感的傳播從大量數(shù)據(jù)或者數(shù)據(jù)庫中提取有用信息的科學當記錄下人們的平常狀態(tài)，就不用擔心在做研究和調查問卷時存在的偏見了MapReduce編程模型計算過程如圖所示程序員只需編

寫Map和Reduce

函數(shù)1.Map任務執(zhí)行Map函數(shù)的

多個任務并行執(zhí)行每個Map任務把文

件塊轉換成“鍵-值” (key-value)對序列大數(shù)據(jù)的處理Map任務Reduce任務按鍵分組輸出文件輸入文件塊鍵-值對(k,v)鍵及所有值(k,[v,w,…])早期搜索引擎與詞項作弊MapReduce編程模型大數(shù)據(jù)的處理27MapReduce編程模型2.按鍵組合其處理方式與兩個函數(shù)無關把“鍵-值”對序列組成“鍵-值表”對序列把各“鍵-值表”對分發(fā)給Reduce任務按鍵組合由主控程序完成大數(shù)據(jù)的處理Map任務Reduce任務按鍵分組輸出文件輸入文件塊鍵-值對(k,v)鍵及所有值(k,[v,w,…])MapReduce編程模型大數(shù)據(jù)的處理Map任務Reduce28MapReduce編程模型3.Reduce任務執(zhí)行Reduce函數(shù)的多個任務并行執(zhí)行每個Reduce任務把“鍵-值表”對中的值以某種方式組合，轉換成“鍵-值”對輸出大數(shù)據(jù)的處理Map任務Reduce任務按鍵分組輸出文件輸入文件塊鍵-值對(k,v)鍵及所有值(k,[v,w,…])MapReduce編程模型大數(shù)據(jù)的處理Map任務Reduce29

當矩陣很大時，可用MapReduce實現(xiàn)矩陣運算。對于分塊乘： 1.Map任務計算兩塊的乘，用結果在Z中的位置作為鍵 2.Reduce任務按鍵值來分別累加Map任務的結果bn大數(shù)據(jù)的處理X:Y:Z: 當矩陣很大時，可用MapReducebn大數(shù)據(jù)的處理X:Y30

當矩陣很大時，可用MapReduce實現(xiàn)矩陣運算。對于分塊乘： 1.Map任務計算兩塊的乘，用結果在Z中的位置作為鍵

2.Reduce任務按鍵值來分別累加Map任務的結果bn大數(shù)據(jù)的處理X:Y:Z: 當矩陣很大時，可用MapReducebn大數(shù)據(jù)的處理X:Y31bn大數(shù)據(jù)的處理X:Y:Z:

當矩陣很大時，可用MapReduce實現(xiàn)矩陣運算。對于分塊乘： 1.Map任務計算兩塊的乘，用結果在Z中的位置作為鍵

2.Reduce任務按鍵值來分別累加Map任務的結果bn大數(shù)據(jù)的處理X:Y:Z: 當矩陣很大時，可用MapRed32bn大數(shù)據(jù)的處理X:Y:Z:

當矩陣很大時，可用MapReduce實現(xiàn)矩陣運算。對于分塊乘： 1.Map任務計算兩塊的乘，用結果在Z中的位置作為鍵

2.Reduce任務按鍵值來分別累加Map任務的結果bn大數(shù)據(jù)的處理X:Y:Z: 當矩陣很大時，可用MapRed33

當矩陣很大時，可用MapReduce實現(xiàn)矩陣運算。對于分塊乘：

1.Map任務計算兩塊的乘，用結果在Z中的位置作為鍵 2.Reduce任務按鍵值來分別累加Map任務的結果bn大數(shù)據(jù)的處理X:Y:Z: 當矩陣很大時，可用MapReducebn大數(shù)據(jù)的處理X:Y34bn大數(shù)據(jù)的處理X:Y:Z:

當矩陣很大時，可用MapReduce實現(xiàn)矩陣運算。對于分塊乘：

1.Map任務計算兩塊的乘，用結果在Z中的位置作為鍵 2.Reduce任務按鍵值來分別累加Map任務的結果bn大數(shù)據(jù)的處理X:Y:Z: 當矩陣很大時，可用MapRed35bn大數(shù)據(jù)的處理X:Y:Z:

當矩陣很大時，可用MapReduce實現(xiàn)矩陣運算。對于分塊乘：

1.Map任務計算兩塊的乘，用結果在Z中的位置作為鍵 2.Reduce任務按鍵值來分別累加Map任務的結果bn大數(shù)據(jù)的處理X:Y:Z: 當矩陣很大時，可用MapRed36一般來說，統(tǒng)計學無法檢驗邏輯上的因果關系MapReduce編程模型在總數(shù)據(jù)量相同的情況下，與個別分析獨立的小型數(shù)據(jù)集相比，將各個小型數(shù)據(jù)集合并后進行分析可得出許多額外的信息和數(shù)據(jù)關系性，可用來察覺商業(yè)趨勢、避免疾病擴散、打擊犯罪、測定實時交通路況或判定研究質量等深度學習大數(shù)據(jù)的出現(xiàn)提供了使用復雜(而不是簡單或淺層)的模型來有效地表征和解釋數(shù)據(jù)的機會，深度學習就是利用層次化的架構學習出對象在不同層次上的表達(例:降低語音識別錯誤率)例如，一天之內需要審查500萬起潛在的貿易欺詐案件；應用于智能交通、環(huán)境監(jiān)控、金融銀行等Reduce任務按鍵值來分別累加1/31/200使用PageRank技術來模擬Web漫游者的行為：他們從隨機頁面出發(fā)，每次從當前網(wǎng)頁隨機地選擇出鏈前行，該過程可以迭代多次。關鍵技術概述、PageRank初步因為放松了容錯的標準，就可以掌握更多數(shù)據(jù)，而掌握大量新型數(shù)據(jù)時，精確性就不那么重要了的挑戰(zhàn)，目前大數(shù)據(jù)的主要處理形式如下：最簡單的PageRank舉例變革二—更雜：不是精確性，而是混雜性01/2104 面包、黃油、鮭魚、雞大數(shù)據(jù)案例—谷歌預測冬季流感的傳播Reduce任務按鍵值來分別累加還有在線數(shù)據(jù)的交互處理、圖數(shù)據(jù)處理谷歌把5000萬條美國人最頻繁檢索的詞條與疾控中心在2003年到2008年間季節(jié)性流感傳播期間的數(shù)據(jù)進行比較，以確定相關檢索詞條，并總共處理了4.大數(shù)據(jù)分析的關鍵技術

要挖掘大數(shù)據(jù)的大價值，必須對大數(shù)據(jù)進行內容上的分析與計算深度學習

大數(shù)據(jù)的出現(xiàn)提供了使用復雜(而不是簡單或淺層)的模型來有效地表征和解釋數(shù)據(jù)的機會，深度學習就是利用層次化的架構學習出對象在不同層次上的表達(例:降低語音識別錯誤率)知識計算

要對大數(shù)據(jù)進行高端分析，就需要從大數(shù)據(jù)中抽取出有價值的知識，并將其構建成可支持查詢、分析和計算的知識庫，涉及知識庫的構建、多源知識的融合和知識庫的更新大數(shù)據(jù)的分析一般來說，統(tǒng)計學無法檢驗邏輯上的因果關系大數(shù)據(jù)分析的關鍵技術37大數(shù)據(jù)的分析大數(shù)據(jù)分析的關鍵技術社會計算

是現(xiàn)代計算技術與社會科學之間的交叉學科,它是指面向社會活動、社會過程、社會結構、社會組織和社會功能的計算理論和方法。在線社會計算包括在線社會網(wǎng)絡的結構分析、信息傳播模型以及信息內容的分析、建模與挖掘等可視化

不同于傳統(tǒng)的信息可視化，大數(shù)據(jù)可視化的最大挑戰(zhàn)源自其數(shù)據(jù)規(guī)模：如何提出新的可視化方法，它能夠幫助人們分析大規(guī)模、高維度、多來源、動態(tài)演化的信息，并輔助作出實時的決策大數(shù)據(jù)的分析大數(shù)據(jù)分析的關鍵技術38大數(shù)據(jù)的分析PageRank初步PageRank（網(wǎng)頁排名）通過對網(wǎng)絡浩瀚的超鏈接關系的分析來確定一個頁面的等級Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票，B頁面從A頁面的投票能得多少分還與A頁面的等級有關一個頁面的PageRank，由所有給它投票的頁面的數(shù)量和重要性，經(jīng)過迭代計算得到這項技術使得Google成為第一個能夠戰(zhàn)勝作弊者的搜索引擎。當然，與作弊者之間的斗爭永遠不會停止大數(shù)據(jù)的分析PageRank初步39大數(shù)據(jù)的分析PageRank初步1.早期搜索引擎與詞項作弊搜索引擎：詞項出現(xiàn)在網(wǎng)頁頭部比在普通正文的得分高、詞項在網(wǎng)頁中出現(xiàn)的次數(shù)越多得分越高作弊者：在自己的網(wǎng)頁上增加熱門詞項,如movie,并重復很多次，以提高與movie的相關性。詞項movie在該網(wǎng)頁上的顏色與背景色一樣，以掩蓋作弊者的不道德行為大數(shù)據(jù)的分析PageRank初步40大數(shù)據(jù)的分析PageRank初步2.Google的對策使用PageRank技術來模擬Web漫游者的行為：他們從隨機頁面出發(fā)，每次從當前網(wǎng)頁隨機地選擇出鏈前行，該過程可以迭代多次。最終，較多漫游者訪問的網(wǎng)頁則重要性較高。在決定查詢應答順序時，Google把重要頁面放在前面在判斷網(wǎng)頁內容時,不僅考慮網(wǎng)頁上出現(xiàn)的詞項，還考慮有鏈接指向該網(wǎng)頁的網(wǎng)頁中所使用的詞項大數(shù)據(jù)的分析PageRank初步41大數(shù)據(jù)的分析PageRank初步3.最簡單的PageRank舉例PageRank：網(wǎng)頁集實數(shù)，值越大則網(wǎng)頁越重要定義網(wǎng)頁的Web遷移矩陣M來描述隨機漫游者的下一步訪問行為

例：從A出發(fā)，以1/3的概率訪問B、C和D，訪問A的概率為001/2101/3001/21/3001/21/31/200ABCDM=ABCD大數(shù)據(jù)的分析PageRank初步01/2142大數(shù)據(jù)的分析PageRank初步3.最簡單的PageRank舉例隨機漫游者位置的概率分布可通過一個n維向量v來描述，每個分量表示處于相應網(wǎng)頁的概率

例(續(xù))：假定處于各網(wǎng)頁的初始概率相等Mkv是隨機漫游者k步后的概率分布向量ABCD01/2101/3001/21/3001/21/31/200ABCDM=1/41/41/41/4v大數(shù)據(jù)的分析PageRank初步ABCD01/243大數(shù)據(jù)的分析PageRank初步3.最簡單的PageRank舉例在Web網(wǎng)頁鏈接圖滿足一定的條件下，概率分布向量將逼近一個極限分布，它滿足v=Mv并且，若分布向量各分量之和為1時，方程v=Mv有唯一解在常規(guī)情況下，可用高斯消去法解方程v=Mv在實際情況下，圖由幾百億甚至幾千億個節(jié)點組成，高斯消去法不可行，原因在于其時間復雜度是方程個數(shù)的三次方若迭代求解，每輪迭代的時間復雜度是平方級大數(shù)據(jù)的分析PageRank初步44大數(shù)據(jù)的分析PageRank初步3.最簡單的PageRank舉例例(續(xù))：對矩陣M進行迭代計算：相當把求解方程v=Mv轉化為找函數(shù)v.Mv最小不動點的迭代過程ABCD3/92/92/92/99/245/245/245/2415/4811/4811/4811/4811/327/327/327/32…MvM2vM3v極限01/2101/3001/21/3001/21/31/200ABCDM=1/41/41/41/4v大數(shù)據(jù)的分析PageRank初步ABCD3/99/2415/45大數(shù)據(jù)的分析PageRank初步3.最簡單的PageRank舉例需要基于MapReduce進行PageRank的迭代計算ABCD3/92/92/92/99/245/245/245/2415/4811/4811/4811/4811/327/327/327/32…MvM2vM3v極限01/2101/3001/21/3001/21/31/200ABCDM=1/41/41/41/4v大數(shù)據(jù)的分析PageRank初步ABCD3/99/2415/46MapReduce編程模型谷歌是通過觀察人們在網(wǎng)上的搜索記錄來完成這個預測的，這種方法以前一直是被忽略的應用于智能交通、環(huán)境監(jiān)控、金融銀行等MapReduce編程模型Map任務計算兩塊的乘，用結在線數(shù)據(jù)的實時流式處理也許正因為統(tǒng)計方法不致力于尋找真正的原因,才促進數(shù)據(jù)挖掘和大數(shù)據(jù)技術在商業(yè)領域廣泛應用另一方面，需要與數(shù)據(jù)增加引起的各種混亂（數(shù)據(jù)格式不一致，數(shù)據(jù)錯誤率增加等）做斗爭。PageRank：網(wǎng)頁集實數(shù)，值越大則網(wǎng)頁越重要10 茶葉、雞蛋、小甜餅、尿布、牛奶5 雞蛋、面包、黃油例如，一天之內需要審查500萬起潛在的貿易欺詐案件；變革二—更雜：不是精確性，而是混雜性故障經(jīng)常是慢慢出現(xiàn)的，通過收集所有數(shù)據(jù)，可預先捕捉到事物要出故障的信號。的挑戰(zhàn)，目前大數(shù)據(jù)的主要處理形式如下：這項技術使得Google成為第一個能夠戰(zhàn)勝作弊者的搜索引擎。MapReduce源于此，但更加一般Reduce任務按鍵值來分別累加的挑戰(zhàn)，目前大數(shù)據(jù)的主要處理形式如下：變革三—更好:不是因果關系,而是相關關系01/210錯誤并不是大數(shù)據(jù)的固有特性，但可能是長期存在并需要去處理的現(xiàn)實問題在實際情況下，圖由幾百億甚至幾千億個節(jié)點組成，高斯消去法不可行，原因在于其時間復雜度是方程個數(shù)的三次方3 面包、黃油、咖啡、尿布、牛奶、雞蛋例(續(xù))：對矩陣M進行經(jīng)關聯(lián)分析，可發(fā)現(xiàn)顧客經(jīng)常同時購買的商品：尿布牛奶1/31/200Reduce完成概括總結操作，例如，計算各姓氏隊列中的人數(shù)，產(chǎn)生按姓氏的人口比例方程v=Mv轉化為找函數(shù)概要介紹了大數(shù)據(jù)的基本概念和特點、大數(shù)據(jù)時代的思維變革，大數(shù)據(jù)的處理和分析技術雜，使得數(shù)據(jù)感知、表達、理解和計算都面臨挑戰(zhàn)8 咖啡、糖、雞、雞蛋還有在線數(shù)據(jù)的交互處理、圖數(shù)據(jù)處理MapReduce編程模型(k,[v,w,…])故障經(jīng)常是慢慢出現(xiàn)的，通過收集所有數(shù)據(jù)，可預先捕捉到事物要出故障的信號。需要基于MapReduce進變革一—更多:不是隨機樣本,而是全體數(shù)據(jù)當想了解更深層次的細分領域的情況時，隨機抽樣方法不一定有效，即在宏觀領域起作用的方法在微觀領域可能失去了作用抽樣分析的成功依賴于抽樣的隨機性，但實現(xiàn)抽樣的隨機性非常困難還有在線數(shù)據(jù)的交互處理、圖數(shù)據(jù)處理map(f1,[x1,…,xn])=[f1(x1),…,f1(xn)]大數(shù)據(jù)案例—谷歌預測冬季流感的傳播8 咖啡、糖、雞、雞蛋類型繁多(Variety)數(shù)據(jù)種類繁多，并且被分為結構化、半結構化和非結構化的數(shù)據(jù)。1/31/200給定模型M，哪些問題可以由模型M解決；Reduce任務按鍵值來分別累加知識計算要對大數(shù)據(jù)進行高端分析，就需要從大數(shù)據(jù)中抽取出有價值的知識，并將其構建成可支持查詢、分析和計算的知識庫，涉及知識庫的構建、多源知識的融合和知識庫的更新在線數(shù)據(jù)的實時流式處理樣本和全體、精確性和混雜性、因果關系和相關關系課程內容（本次講座與下述內容關系不大）Reduce完成概括總結操作，例如，計算各姓氏隊列中的人數(shù)，產(chǎn)生按姓氏的人口比例若二元函數(shù)f2是有交換律和結合率的運算，則f2作用于n個變元的計算也可以適當并行8 咖啡、糖、雞、雞蛋1/3001/22009年出現(xiàn)了一種稱為甲型H1N1的新流感病毒，在短短幾周內迅速傳播開來，全球的公共衛(wèi)生機構都擔心一場致命的流行病即將來襲Reduce任務按鍵值來分別累加給定模型M，哪些問題可以由模型M解決；深度學習大數(shù)據(jù)的出現(xiàn)提供了使用復雜(而不是簡單或淺層)的模型來有效地表征和解釋數(shù)據(jù)的機會，深度學習就是利用層次化的架構學習出對象在不同層次上的表達(例:降低語音識別錯誤率)小結本講座小結概要介紹了大數(shù)據(jù)的基本概念和特點、大數(shù)據(jù)時代的思維變革，大數(shù)據(jù)的處理和分析技術面臨的挑戰(zhàn)數(shù)據(jù)復雜：數(shù)據(jù)的類型復雜、結構復雜和模式復雜，使得數(shù)據(jù)感知、表達、理解和計算都面臨挑戰(zhàn)計算復雜：數(shù)據(jù)多源異構、規(guī)模巨大、快速多變,使傳統(tǒng)的機器學習、信息檢索和數(shù)據(jù)挖掘都顯不足系統(tǒng)復雜：對處理系統(tǒng)的系統(tǒng)架構、計算框架、處理方法、運行效率和單位能耗等都有挑戰(zhàn)MapReduce編程模型01/210還有47大數(shù)據(jù)的處理和分析大數(shù)據(jù)的處理和分析48課程內容課程內容（本次講座與下述內容關系不大）圍繞學科理論體系中的模型理論,程序理論和計算理論1.模型理論關心的問題

給定模型M和一類問題,解決該類問題需多少資源課程內容課程內容（本次講座與下述內容關系不大）49講座提綱大數(shù)據(jù)的魅力數(shù)據(jù)挖掘、大數(shù)據(jù)、大數(shù)據(jù)案例、大數(shù)據(jù)的特點大數(shù)據(jù)時代的思維變革樣本和全體、精確性和混雜性、因果關系和相關關系大數(shù)據(jù)的處理幾種主要處理方式、MapReduce編程模型大數(shù)據(jù)的分析關鍵技術概述、PageRank初步講座提綱大數(shù)據(jù)的魅力50數(shù)據(jù)挖掘數(shù)據(jù)挖掘的定義 1.從數(shù)據(jù)中提取出隱含的過去未知的有價值的潛在信息 2.從大量數(shù)據(jù)或者數(shù)據(jù)庫中提取有用信息的科學相關概念：知識發(fā)現(xiàn) 1.數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程中的一步 2.粗略看：數(shù)據(jù)預處理數(shù)據(jù)挖掘數(shù)據(jù)后處理

預處理:將未加工輸入數(shù)據(jù)轉換為適合處理的形式

后處理:如可視化,便于從不同視角探查挖掘結果大數(shù)據(jù)的魅力數(shù)據(jù)挖掘大數(shù)據(jù)的魅力51數(shù)據(jù)挖掘典型事例：購物籃分析

顧客

一次購買商品 1 面包、黃油、尿布、牛奶 2 咖啡、糖、小甜餅、鮭魚 3 面包、黃油、咖啡、尿布、牛奶、雞蛋 4 面包、黃油、鮭魚、雞 5 雞蛋、面包、黃油 6 鮭魚、尿布、牛奶 7 面包、茶葉、糖、雞蛋 8 咖啡、糖、雞、雞蛋 9 面包、尿布、牛奶、鹽 10 茶葉、雞蛋、小甜餅、尿布、牛奶經(jīng)關聯(lián)分析，可發(fā)現(xiàn)顧客經(jīng)常同時購買的商品：尿布牛奶大數(shù)據(jù)的魅力數(shù)據(jù)挖掘大數(shù)據(jù)的魅力52大數(shù)據(jù)大數(shù)據(jù)，或稱海量數(shù)據(jù)，指所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工，在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息在總數(shù)據(jù)量相同的情況下，與個別分析獨立的小型數(shù)據(jù)集相比，將各個小型數(shù)據(jù)集合并后進行分析可得出許多額外的信息和數(shù)據(jù)關系性，可用來察覺商業(yè)趨勢、避免疾病擴散、打擊犯罪、測定實時交通路況或判定研究質量等這樣的用途正是大型數(shù)據(jù)集盛行的原因數(shù)據(jù)挖掘則是探討用以解析大數(shù)據(jù)的方法大數(shù)據(jù)的魅力大數(shù)據(jù)大數(shù)據(jù)的魅力53大數(shù)據(jù)案例—谷歌預測冬季流感的傳播2009年出現(xiàn)了一種稱為甲型H1N1的新流感病毒，在短短幾周內迅速傳播開來，全球的公共衛(wèi)生機構都擔心一場致命的流行病即將來襲美國也要求醫(yī)生在發(fā)現(xiàn)甲型H1N1病例時告知疾病控制與預防中心。但人們從患病到求醫(yī)會滯后，信息傳到疾控中心也需要時間，因此通告新病例往往有一兩周的延遲。而且疾控中心每周只進行一次數(shù)據(jù)匯總信息滯后兩周對一種飛速傳播的疾病是致命的，它使得公共衛(wèi)生機構在疫情爆發(fā)的關鍵時期難以有效發(fā)揮作用大數(shù)據(jù)的魅力大數(shù)據(jù)案例—谷歌預測冬季流感的傳播大數(shù)據(jù)的魅力54大數(shù)據(jù)案例—谷歌預測冬季流感的傳播在這種流感爆發(fā)的幾周前，谷歌的工程師在《自然》雜志發(fā)表引人注目的論文，令公共衛(wèi)生官員和計算機科學家感到震驚因為文章不僅預測了流感在全美的傳播，而且具體到特定的地區(qū)和州谷歌是通過觀察人們在網(wǎng)上的搜索記錄來完成這個預測的，這種方法以前一直是被忽略的谷歌保存了多年來所有的搜索記錄,每天有來自全球30億條搜索指令(僅谷歌有這樣的數(shù)據(jù)資源),如此龐大數(shù)據(jù)資源足以支撐和幫助它完成這項工作大數(shù)據(jù)的魅力大數(shù)據(jù)案例—谷歌預測冬季流感的傳播大數(shù)據(jù)的魅力55大數(shù)據(jù)的魅力大數(shù)據(jù)案例—谷歌預測冬季流感的傳播原理十分簡單

現(xiàn)在大家都有上網(wǎng)搜索信息的習慣，連頭痛感冒也上網(wǎng)搜索，谷歌流感趨勢項目通過記錄搜索有關“流感”詞條的地區(qū)和頻率，并分析其與流感在時間和空間上的傳播之間的聯(lián)系，追蹤到流感廣泛傳播的地區(qū)，進而預測流感可能爆發(fā)的高危地區(qū)。即當某地區(qū)在網(wǎng)上搜尋與流感有關信息的人日益增多，很可能意味著該地區(qū)有許多人患上流感類疾病因為流感趨勢項目能夠近乎實時地估計流感活動情況，故它比其他系統(tǒng)能夠更早地發(fā)現(xiàn)流感疫情大數(shù)據(jù)的魅力大數(shù)據(jù)案例—谷歌預測冬季流感的傳播56大數(shù)據(jù)的魅力大數(shù)據(jù)案例—谷歌預測冬季流感的傳播谷歌把5000萬條美國人最頻繁檢索的詞條與疾控中心在2003年到2008年間季節(jié)性流感傳播期間的數(shù)據(jù)進行比較，以確定相關檢索詞條，并總共處理了4.5億(?)個不同的數(shù)學模型在把得出的預測與2007年和2008年美國疾控中心記錄的實際流感病例進行對比后，篩選了45條檢索詞條的組合，并把它們用于一個特定的數(shù)學模型后，其預測與官方數(shù)據(jù)相關性高達97%因此當2009年甲型H1N1流感爆發(fā)時，與滯后的官方數(shù)據(jù)相比，谷歌成為一個更有效及時的指示者大數(shù)據(jù)的魅力大數(shù)據(jù)案例—谷歌預測冬季流感的傳播57大數(shù)據(jù)的魅力大數(shù)據(jù)案例—谷歌預測冬季流感的傳播這是當今社會所獨有的一種新型能力：以一種前所未有的方式，通過對海量數(shù)據(jù)的分析，獲得巨大價值的產(chǎn)品和服務，或深刻的洞見大數(shù)據(jù)不僅會變革公共衛(wèi)生，也會變革商業(yè)、變革思維，改變政府與民眾關系的方法，…，開啟重大的時代轉型大數(shù)據(jù)的魅力大數(shù)據(jù)案例—谷歌預測冬季流感的傳播58大數(shù)據(jù)的魅力大數(shù)據(jù)的特點體量巨大(Volume)數(shù)據(jù)集合的規(guī)模不斷擴大，已從GB(1024MB)到TB(1024GB)再到PB級，甚至已經(jīng)開始以EB和ZB來計數(shù)。至今，人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB。未來10年，全球大數(shù)據(jù)將增加50倍，管理數(shù)據(jù)倉庫的服務器的數(shù)量將增加10倍類型繁多(Variety)數(shù)據(jù)種類繁多，并且被分為結構化、半結構化和非結構化的數(shù)據(jù)。半結構化和非結構化數(shù)據(jù)，包括傳感器數(shù)據(jù)、網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等，占有量越來越大，已遠遠超過結構化數(shù)據(jù)大數(shù)據(jù)的魅力大數(shù)據(jù)的特點59大數(shù)據(jù)的魅力大數(shù)據(jù)的特點價值密度低(Value)。

數(shù)據(jù)采集和數(shù)據(jù)處理技術已經(jīng)發(fā)生了翻天覆地的變化，人們的思維和方法要跟得上這個變化

大數(shù)據(jù)時代的精髓在于人們分析信息時的三個轉變，這些轉變將改變人們決策的制定和對表象的理解大數(shù)據(jù)時代的思維變革數(shù)據(jù)采集和數(shù)據(jù)處理技術已經(jīng)發(fā)生了翻天61大數(shù)據(jù)時代的思維變革變革一—更多:不是隨機樣本,而是全體數(shù)據(jù)1.隨機抽樣：用最少的數(shù)據(jù)獲得最多的信息過去由于獲取和分析全體數(shù)據(jù)的困難，抽樣調查是一種常用統(tǒng)計分析方法。它根據(jù)隨機原則從總體中抽取部分實際數(shù)據(jù)進行調查，并運用概率估計方法，根據(jù)樣本數(shù)據(jù)推算總體相應的數(shù)量指標抽樣分析的精確性隨抽樣隨機性的增加而提高，與樣本數(shù)量的增加關系不大。抽樣隨機性高時，分析的精度能達到把全體作為樣本調查時的97%樣本選擇的隨機性比樣本數(shù)量更重要大數(shù)據(jù)時代的思維變革變革一—更多:不是隨機樣本,而62大數(shù)據(jù)時代的思維變革變革一—更多:不是隨機樣本,而是全體數(shù)據(jù)1.隨機抽樣：用最少的數(shù)據(jù)獲得最多的信息

抽樣分析的成功依賴于抽樣的隨機性，但實現(xiàn)抽樣的隨機性非常困難當想了解更深層次的細分領域的情況時，隨機抽樣方法不一定有效，即在宏觀領域起作用的方法在微觀領域可能失去了作用隨機抽樣需要嚴密的安排和執(zhí)行，人們只能從抽樣數(shù)據(jù)中得出事先設計好的問題的結果大數(shù)據(jù)時代的思維變革變革一—更多:不是隨機樣本,而63Reduce完成概括總結操作，例如，計算各姓氏隊列中的人數(shù)，產(chǎn)生按姓氏的人口比例Map任務計算兩塊的乘，用結1/3001/2在常規(guī)情況下，可用高斯消去法解方程v=Mv01/210作弊者：在自己的網(wǎng)頁上增加熱門詞項,如movie,并重復很多次，以提高與movie的相關性。樣本和全體、精確性和混雜性、因果關系和相關關系圍繞學科理論體系中的模型理論,程序理論和計算理論關鍵技術概述、PageRank初步2 咖啡、糖、小甜餅、鮭魚Reduce任務按鍵值來分別累加PageRank：網(wǎng)頁集實數(shù)，值越大則網(wǎng)頁越重要如將發(fā)動機的嗡嗡聲、引擎過熱等異常情況與正常情況對比，就能知道什么地方將出毛病，及時更換或修復在Web網(wǎng)頁鏈接圖滿足一定的條件下，概率分布向量將逼近一個極限分布，它滿足v=Mv大數(shù)據(jù)案例—谷歌預測冬季流感的傳播過去由于獲取和分析全體數(shù)據(jù)的困難，抽樣調查是一種常用統(tǒng)計分析方法。至今，人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB。1/3001/21/31/200當想了解更深層次的細分領域的情況時，隨機抽樣方法不一定有效，即在宏觀領域起作用的方法在微觀領域可能失去了作用大數(shù)據(jù)時代的思維變革變革一—更多:不是隨機樣本,而是全體數(shù)據(jù)2.全體數(shù)據(jù)：用全體數(shù)據(jù)可對數(shù)據(jù)進行深度探討流感趨勢預測分析了整個美國幾十億條互聯(lián)網(wǎng)檢索記錄，使得它能提高微觀層面分析的準確性，甚至能夠推測某個特定城市的流感狀況信用卡詐騙需通過觀察異常情況來識別，這只有在掌握所有的數(shù)據(jù)時才能做到社會科學是被“樣本=全體”撼動得最厲害的一門學科。這門學科過去非常依賴于樣本分析、研究和調查問卷。當記錄下人們的平常狀態(tài)，就不用擔心在做研究和調查問卷時存在的偏見了Reduce完成概括總結操作，例如，計算各姓氏隊列中的人數(shù)，64大數(shù)據(jù)時代的思維變革變革二—更雜：不是精確性，

而是混雜性

對小數(shù)據(jù)而言，最基本和最重要的要求就是減少錯誤，保證質量。因為收集的數(shù)據(jù)較少，應確保每個數(shù)據(jù)盡量精確，以保證分析結果的準確性允許不精確數(shù)據(jù)是大數(shù)據(jù)的一個亮點,而非缺點。因為放松了容錯的標準，就可以掌握更多數(shù)據(jù)，而掌握大量新型數(shù)據(jù)時，精確性就不那么重要了例如，與服務器處理投訴時的數(shù)據(jù)進行比較，用語音識別系統(tǒng)識別呼叫中心接到的投訴會產(chǎn)生不太準確的結果,但它有助于把握事情的大致情況不精確的大量新型數(shù)據(jù)能幫助掌握事情發(fā)展趨勢大數(shù)據(jù)時代的思維變革變革二—更雜：不是精確性，而是混雜65大數(shù)據(jù)時代的思維變革變革二—更雜：不是精確性，

而是混雜性執(zhí)迷于精確性是信息缺乏時代的產(chǎn)物，大數(shù)據(jù)時代要求重新審視精確性的優(yōu)劣，如果將傳統(tǒng)的思維模式運用于數(shù)字化、網(wǎng)絡化的21世紀，就會錯過重要信息，失去做更多事情，創(chuàng)造出更好結果的機會另一方面，需要與數(shù)據(jù)增加引起的各種混亂（數(shù)據(jù)格式不一致，數(shù)據(jù)錯誤率增加等）做斗爭。錯誤并不是大數(shù)據(jù)的固有特性，但可能是長期存在并需要去處理的現(xiàn)實問題大數(shù)據(jù)時代的思維變革變革二—更雜：不是精確性，而是混雜66大數(shù)據(jù)時代的思維變革變革三—更好:不是因果關系,而是相關關系1.因果關系與相關關系因果關系是指一個事件是另一個事件的結果相關關系是指兩個事件的發(fā)生存在某個規(guī)律與通過邏輯推理研究因果關系不同，大數(shù)據(jù)研究通過統(tǒng)計性的搜索、比較、聚類、分析和歸納，尋找事件（或數(shù)據(jù)）之間的相關性一般來說，統(tǒng)計學無法檢驗邏輯上的因果關系也許正因為統(tǒng)計方法不致力于尋找真正的原因,才促進數(shù)據(jù)挖掘和大數(shù)據(jù)技術在商業(yè)領域廣泛應用大數(shù)據(jù)時代的思維變革變革三—更好:不是因果關系,而是67大數(shù)據(jù)時代的思維變革變革三—更好:不是因果關系,而是相關關系2.相關關系幫助捕捉現(xiàn)在和預測未來如果A和B經(jīng)常一起發(fā)生，則只需注意到B發(fā)生了,就可以預測A也發(fā)生了故障經(jīng)常是慢慢出現(xiàn)的，通過收集所有數(shù)據(jù)，可預先捕捉到事物要出故障的信號。如將發(fā)動機的嗡嗡聲、引擎過熱等異常情況與正常情況對比，就能知道什么地方將出毛病，及時更換或修復過去需先有想法，然后收集數(shù)據(jù)來測試想法的可行性，現(xiàn)在可以對大數(shù)據(jù)進行相關關系分析知道機票是否會飛漲、哪些詞條最能顯示流感的傳播大數(shù)據(jù)時代的思維變革變革三—更好:不是因果關系,而是68大數(shù)據(jù)時代的思維變革變革三—更好:不是因果關系,而是相關關系3.大數(shù)據(jù)改變人類探索世界的方法越來越多的事物不斷地數(shù)據(jù)化，將拓展人類的視野，使得人們可從大量的數(shù)據(jù)中，發(fā)現(xiàn)隱藏在其中的自然規(guī)律、社會規(guī)律和經(jīng)濟規(guī)律當網(wǎng)頁變成數(shù)據(jù)，谷歌具備了令人大跌眼球的全文搜索能力，在幾個毫秒之內，就能讓人們檢索世界上幾乎所有的網(wǎng)頁當方位變成數(shù)據(jù)，每個人都能借助GPS快速到達目的地大數(shù)據(jù)時代的思維變革變革三—更好:不是因果關系,而是69大數(shù)據(jù)時代的思維變革變革三—更好:不是因果關系,而是相關關系3.大數(shù)據(jù)改變人類探索世界的方法當情緒變成數(shù)據(jù)，人們甚至根據(jù)大家快樂與否判斷股市的漲跌上述這些不同的數(shù)據(jù)可歸結為幾類相似的數(shù)學模型，從而使得“數(shù)據(jù)科學”（應用數(shù)據(jù)學習知識的學科）成為一門具備普遍適用的學科生物信息學、計算社會學、天體信息學、電子工程、金融學、經(jīng)濟學等學科，都依賴數(shù)據(jù)科學的發(fā)展大數(shù)據(jù)時代的思維變革變革三—更好:不是因果關系,而是70大數(shù)據(jù)的處理大數(shù)據(jù)處理的幾種主要方式

海量數(shù)據(jù)的處理對于當前的技術來說是一種極大的挑戰(zhàn)，目前大數(shù)據(jù)的主要處理形式如下：靜態(tài)數(shù)據(jù)的批量處理

日志數(shù)據(jù)、傳感器數(shù)據(jù)、Web數(shù)據(jù)等；數(shù)據(jù)連續(xù)不斷、來源眾多、格式復雜等;流式挖掘、實時分析、…；應用于智能交通、環(huán)境監(jiān)控、金融銀行等還有在線數(shù)據(jù)的交互處理、圖數(shù)據(jù)處理大數(shù)據(jù)的處理大數(shù)據(jù)處理的幾種主要方式71大數(shù)據(jù)的處理MapReduce編程模型是批量數(shù)據(jù)處理的一個常用編程模型源于函數(shù)式語言的兩個高階函數(shù)：map和reducemap(f1,[x1,…,xn])=[f1(x1),…,f1(xn)]f1作用于n個變元的計算可以并行reduce(f2,[y1,…,yn])=f2(…f2(f2(y1,y2),y3),…,yn)若二元函數(shù)f2是有交換律和結合率的運算，則f2作用于n個變元的計算也可以適當并行兩者的復合：reduce(f2,map(f1,[x1,…,xn]))MapReduce源于此，但更加一般大數(shù)據(jù)的處理MapReduce編程模型72MapReduce編程模型MapReduce是一種比較專用的并行編程模型，面向大數(shù)據(jù)集上的可并行化的問題Map完成過濾或分類，例如，它把數(shù)據(jù)集中所有的人按姓氏分成若干隊列，每個姓氏一個隊列；Reduce完成概括總結操作，例如，計算各姓氏隊列中的人數(shù)，產(chǎn)生按姓氏的人口比例MapReduce可以在并行計算機、計算機集群和計算機網(wǎng)格上實現(xiàn)大數(shù)據(jù)的處理MapReduce編程模型大數(shù)據(jù)的處理73早期搜索引擎與詞項作弊Reduce任務按鍵值來分別累加體量巨大(Volume)數(shù)據(jù)集合的規(guī)模不斷擴大，已從GB(1024MB)到TB(1024GB)再到PB級，甚至已經(jīng)開始以EB和ZB來計數(shù)。給定模型M，如何用模型M解決問題方程v=Mv轉化為找函數(shù)ABCD在常規(guī)情況下，可用高斯消去法解方程v=Mv隨機抽樣：用最少的數(shù)據(jù)獲得最多的信息變革一—更多:不是隨機樣本,而是全體數(shù)據(jù)PageRank：網(wǎng)頁集實數(shù)，值越大則網(wǎng)頁越重要幾種主要處理方式、MapReduce編程模型Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票，B頁面從A頁面的投票能得多少分還與A頁面的等級有關體量巨大(Volume)數(shù)據(jù)集合的規(guī)模不斷擴大，已從GB(1024MB)到TB(1024GB)再到PB級，甚至已經(jīng)開始以EB和ZB來計數(shù)。分發(fā)給Reduce任務不斷、來源眾多、格式復雜等;流式挖掘、實時分數(shù)據(jù)挖掘則是探討用以解析大數(shù)據(jù)的方法8 咖啡、糖、雞、雞蛋大數(shù)據(jù)案例—谷歌預測冬季流感的傳播從大量數(shù)據(jù)或者數(shù)據(jù)庫中提取有用信息的科學當記錄下人們的平常狀態(tài)，就不用擔心在做研究和調查問卷時存在的偏見了MapReduce編程模型計算過程如圖所示程序員只需編

寫Map和Reduce

函數(shù)1.Map任務執(zhí)行Map函數(shù)的

多個任務并行執(zhí)行每個Map任務把文

件塊轉換成“鍵-值” (key-value)對序列大數(shù)據(jù)的處理Map任務Reduce任務按鍵分組輸出文件輸入文件塊鍵-值對(k,v)鍵及所有值(k,[v,w,…])早期搜索引擎與詞項作弊MapReduce編程模型大數(shù)據(jù)的處理74MapReduce編程模型2.按鍵組合其處理方式與兩個函數(shù)無關把“鍵-值”對序列組成“鍵-值表”對序列把各“鍵-值表”對分發(fā)給Reduce任務按鍵組合由主控程序完成大數(shù)據(jù)的處理Map任務Reduce任務按鍵分組輸出文件輸入文件塊鍵-值對(k,v)鍵及所有值(k,[v,w,…])MapReduce編程模型大數(shù)據(jù)的處理Map任務Reduce75MapReduce編程模型3.Reduce任務執(zhí)行Reduce函數(shù)的多個任務并行執(zhí)行每個Reduce任務把“鍵-值表”對中的值以某種方式組合，轉換成“鍵-值”對輸出大數(shù)據(jù)的處理Map任務Reduce任務按鍵分組輸出文件輸入文件塊鍵-值對(k,v)鍵及所有值(k,[v,w,…])MapReduce編程模型大數(shù)據(jù)的處理Map任務Reduce76

當矩陣很大時，可用MapReduce實現(xiàn)矩陣運算。對于分塊乘： 1.Map任務計算兩塊的乘，用結果在Z中的位置作為鍵

2.Reduce任務按鍵值來分別累加Map任務的結果bn大數(shù)據(jù)的處理X:Y:Z: 當矩陣很大時，可用MapReducebn大數(shù)據(jù)的處理X:Y78bn大數(shù)據(jù)的處理X:Y:Z:

當矩陣很大時，可用MapReduce實現(xiàn)矩陣運算。對于分塊乘： 1.Map任務計算兩塊的乘，用結果在Z中的位置作為鍵

2.Reduce任務按鍵值來分別累加Map任務的結果bn大數(shù)據(jù)的處理X:Y:Z: 當矩陣很大時，可用MapRed79bn大數(shù)據(jù)的處理X:Y:Z:

當矩陣很大時，可用MapReduce實現(xiàn)矩陣運算。對于分塊乘： 1.Map任務計算兩塊的乘，用結果在Z中的位置作為鍵

2.Reduce任務按鍵值來分別累加Map任務的結果bn大數(shù)據(jù)的處理X:Y:Z: 當矩陣很大時，可用MapRed80

當矩陣很大時，可用MapReduce實現(xiàn)矩陣運算。對于分塊乘：

1.Map任務計算兩塊的乘，用結果在Z中的位置作為鍵 2.Reduce任務按鍵值來分別累加Map任務的結果bn大數(shù)據(jù)的處理X:Y:Z: 當矩陣很大時，可用MapReducebn大數(shù)據(jù)的處理X:Y81bn大數(shù)據(jù)的處理X:Y:Z:

當矩陣很大時，可用MapReduce實現(xiàn)矩陣運算。對于分塊乘：

1.Map任務計算兩塊的乘，用結果在Z中的位置作為鍵 2.Reduce任務按鍵值來分別累加Map任務的結果bn大數(shù)據(jù)的處理X:Y:Z: 當矩陣很大時，可用MapRed82bn大數(shù)據(jù)的處理X:Y:Z:

當矩陣很大時，可用MapReduce實現(xiàn)矩陣運算。對于分塊乘：

1.Map任務計算兩塊的乘，用結果在Z中的位置作為鍵 2.Reduce任務按鍵值來分別累加Map任務的結果bn大數(shù)據(jù)的處理X:Y:Z: 當矩陣很大時，可用MapRed83一般來說，統(tǒng)計學無法檢驗邏輯上的因果關系MapReduce編程模型在總數(shù)據(jù)量相同的情況下，與個別分析獨立的小型數(shù)據(jù)集相比，將各個小型數(shù)據(jù)集合并后進行分析可得出許多額外的信息和數(shù)據(jù)關系性，可用來察覺商業(yè)趨勢、避免疾病擴散、打擊犯罪、測定實時交通路況或判定研究質量等深度學習大數(shù)據(jù)的出現(xiàn)提供了使用復雜(而不是簡單或淺層)的模型來有效地表征和解釋數(shù)據(jù)的機會，深度學習就是利用層次化的架構學習出對象在不同層次上的表達(例:降低語音識別錯誤率)例如，一天之內需要審查500萬起潛在的貿易欺詐案件；應用于智能交通、環(huán)境監(jiān)控、金融銀行等Reduce任務按鍵值來分別累加1/31/200使用PageRank技術來模擬Web漫游者的行為：他們從隨機頁面出發(fā)，每次從當前網(wǎng)頁隨機地選擇出鏈前行，該過程可以迭代多次。關鍵技術概述、PageRank初步因為放松了容錯的標準，就可以掌握更多數(shù)據(jù)，而掌握大量新型數(shù)據(jù)時，精確性就不那么重要了的挑戰(zhàn)，目前大數(shù)據(jù)的主要處理形式如下：最簡單的PageRank舉例變革二—更雜：不是精確性，而是混雜性01/2104 面包、黃油、鮭魚、雞大數(shù)據(jù)案例—谷歌預測冬季流感的傳播Reduce任務按鍵值來分別累加還有在線數(shù)據(jù)的交互處理、圖數(shù)據(jù)處理谷歌把5000萬條美國人最頻繁檢索的詞條與疾控中心在2003年到2008年間季節(jié)性流感傳播期間的數(shù)據(jù)進行比較，以確定相關檢索詞條，并總共處理了4.大數(shù)據(jù)分析的關鍵技術

要挖掘大數(shù)據(jù)的大價值，必須對大數(shù)據(jù)進行內容上的分析與計算深度學習

要對大數(shù)據(jù)進行高端分析，就需要從大數(shù)據(jù)中抽取出有價值的知識，并將其構建成可支持查詢、分析和計算的知識庫，涉及知識庫的構建、多源知識的融合和知識庫的更新大數(shù)據(jù)的分析一般來說，統(tǒng)計學無法檢驗邏輯上的因果關系大數(shù)據(jù)分析的關鍵技術84大數(shù)據(jù)的分析大數(shù)據(jù)分析的關鍵技術社會計算

不同于傳統(tǒng)的信息可視化，大數(shù)據(jù)可視化的最大挑戰(zhàn)源自其數(shù)據(jù)規(guī)模：如何提出新的可視化方法，它能夠幫助人們分析大規(guī)模、高維度、多來源、動態(tài)演化的信息，并輔助作出實時的決策大數(shù)據(jù)的分析大數(shù)據(jù)分析的關鍵技術85大數(shù)據(jù)的分析PageRank初步PageRank（網(wǎng)頁排名）通過對網(wǎng)絡浩瀚的超鏈接關系的分析來確定一個頁面的等級Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票，B頁面從A頁面的投票能得多少分還與A頁面的等級有關一個頁面的PageRank，由所有給它投票的頁面的數(shù)量和重要性，經(jīng)過迭代計算得到這項技術使得Google成為第一個能夠戰(zhàn)勝作弊者的搜索引擎。當然，與作弊者之間的斗爭永遠不會停止大數(shù)據(jù)的分析PageRank初步86大數(shù)據(jù)的分析PageRank初步1.早期搜索引擎與詞項作弊搜索引擎：詞項出現(xiàn)在網(wǎng)頁頭部比在普通正文的得分高、詞項在網(wǎng)頁中出現(xiàn)的次數(shù)越多得分越高作弊者：在自己的網(wǎng)頁上增加熱門詞項,如movie,并重復很多次，以提高與movie的相關性。詞項movie在該網(wǎng)頁上的顏色與背景色一樣，以掩蓋作弊者的不道德行為大數(shù)據(jù)的分析PageRank初步87大數(shù)據(jù)的分析PageRank初步2.Google的對策使用PageRank技術來模擬Web漫游者的行為：他們從隨機頁面出發(fā)，每次從當前網(wǎng)頁隨機地選擇出鏈前行，該過程可以迭代多次。最終，較多漫游者訪問的網(wǎng)頁則重要性較高。在決定查詢應答順序時，Google把重要頁面放在前面在判斷網(wǎng)頁內容時,不僅考慮網(wǎng)頁上出現(xiàn)的詞項，還考慮有鏈接指向該網(wǎng)頁的網(wǎng)頁中所使用的詞項大數(shù)據(jù)的分析PageRank初步88大數(shù)據(jù)的分析PageRank初步3.最簡單的PageRank舉例PageRank：網(wǎng)頁集實數(shù)，值越大則網(wǎng)頁越重要定義網(wǎng)頁的Web遷移矩陣M來描述隨機漫游者的下一步訪問行為

例：從A出發(fā)，以1/3的概率訪問B、C和D，訪問A的概率為001/2101/3001/21/3001/21/31/200ABCDM=ABCD大數(shù)據(jù)的分析PageRank初步01/2189大數(shù)據(jù)的分析PageRank初步3.最簡單的PageRank舉例隨機漫游者位置的概率分布可通過一個n維向量v來描述，每個分量表示處于相應網(wǎng)頁的概率

例(續(xù))：假定處于各網(wǎng)頁的初始概率相等Mkv是隨機漫游者k步后的概率分布向量ABCD01/2101/3001/21/3001/21/31

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)的處理和分析實用版課件

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)的處理和分析實用版課件

文檔簡介

溫馨提示

最新文檔

評論

相關文檔