大數(shù)據(jù)及其相關新興技術-(-)課件_第1頁
大數(shù)據(jù)及其相關新興技術-(-)課件_第2頁
大數(shù)據(jù)及其相關新興技術-(-)課件_第3頁
大數(shù)據(jù)及其相關新興技術-(-)課件_第4頁
大數(shù)據(jù)及其相關新興技術-(-)課件_第5頁
已閱讀5頁,還剩119頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)及其相關新興技術

BigDataandIt’sRelatedEmergingTechnologies2014年8月陳國良深圳大學計算機與軟件學院Version1:07/2013...Version8:08/2014大數(shù)據(jù)及其相關新興技術

BigDataandIt’1摘要:大數(shù)據(jù)、物聯(lián)網(wǎng)和云計算是新一代信息技術發(fā)展中的華彩樂章。物聯(lián)網(wǎng)使成千上萬的網(wǎng)絡傳感器嵌入到現(xiàn)實世界中,云計算為物聯(lián)網(wǎng)產(chǎn)生的海量數(shù)據(jù)提供了存儲空間和在線處理,而大數(shù)據(jù)則讓海量數(shù)據(jù)產(chǎn)生了價值。本報告,首先介紹大數(shù)據(jù)世界和大數(shù)據(jù)潮流;其次講解什么是大數(shù)據(jù)和大數(shù)據(jù)的一般處理流程;接著介紹產(chǎn)生大數(shù)據(jù)來源之一的物聯(lián)網(wǎng)的產(chǎn)生、發(fā)展及其系統(tǒng)架構;然后講述大數(shù)據(jù)與云計算的關系和兩者的異同點;最后在簡介高性能計算與高性能計算機的基礎上,闡述了在大數(shù)據(jù)面前高性能計算本身所面臨的技術挑戰(zhàn)等。2摘要:2目錄大數(shù)據(jù)浪潮洶涌澎湃1.1大數(shù)據(jù)世界1.2大數(shù)據(jù)潮流1.3什么是大數(shù)據(jù)1.4變革思維研究大數(shù)據(jù)1.5大數(shù)據(jù)的價值1.6大數(shù)據(jù)的管理1.7大數(shù)據(jù)時代的產(chǎn)業(yè)界情況大數(shù)據(jù)引領社會、經(jīng)濟和科技發(fā)展2.1大數(shù)據(jù)對國家社會的作用2.2大數(shù)據(jù)推動國民經(jīng)濟發(fā)展2.3大數(shù)據(jù)促進科技發(fā)展2.4大數(shù)據(jù)應用及實例大數(shù)據(jù)的處理流程3.1大數(shù)據(jù)的采集與預處理3.2大數(shù)據(jù)的傳輸3.3大數(shù)據(jù)的存儲3.4大數(shù)據(jù)的處理3.5大數(shù)據(jù)的展現(xiàn)大數(shù)據(jù)與物聯(lián)網(wǎng)4.1物聯(lián)網(wǎng)4.2物聯(lián)網(wǎng)的發(fā)展歷程4.3大數(shù)據(jù)與物聯(lián)網(wǎng)大數(shù)據(jù)與云計算5.1什么是云計算5.2大數(shù)據(jù)與云計算的關系5.3大數(shù)據(jù)與云計算的不同點高性能計算與高性能計算機6.1什么是高性能計算6.2高性能計算機系統(tǒng)舉例6.3高性能計算應用高性能計算面臨大數(shù)據(jù)的挑戰(zhàn)7.1計算模型的轉變7.2系統(tǒng)結構的轉變7.3編程模型的轉變7.4應用方式的轉變7.5其他方面的轉變結論8.1從量變到質變8.2各領風騷十數(shù)年3目錄大數(shù)據(jù)浪潮洶涌澎湃31、大數(shù)據(jù)浪潮洶涌澎湃1.1大數(shù)據(jù)世界網(wǎng)絡連接的世界涌現(xiàn)出大數(shù)據(jù)互聯(lián)網(wǎng)和社交網(wǎng)產(chǎn)生的數(shù)據(jù):現(xiàn)代網(wǎng)絡社會中,人們在通過電子郵件、維基、微博、博客、娛樂節(jié)目、網(wǎng)上購物、銀行交易、股票數(shù)據(jù)等進行互動和交易,每個人在分享網(wǎng)上數(shù)據(jù)的同時,又在不斷制造數(shù)據(jù)。無線移動互聯(lián)網(wǎng)絡產(chǎn)生的數(shù)據(jù):移動智能終端接入互聯(lián)網(wǎng)就形成了移動互聯(lián)網(wǎng),它雖兼具了通信網(wǎng)之“隨時、隨地、隨身”和互聯(lián)網(wǎng)之“共享、開放、交互”的優(yōu)勢,但仍面臨著海量數(shù)據(jù)通信對網(wǎng)絡帶寬帶來的巨大負擔;而移動互聯(lián)網(wǎng)的無線接入網(wǎng)絡使得數(shù)據(jù)流量劇增,迫使網(wǎng)絡運營商不斷增加基站數(shù)和進一步挖掘頻譜利用率;網(wǎng)絡應用和服務的多元化使得傳統(tǒng)的微觀小尺度(分組級和數(shù)據(jù)幀級)的業(yè)務規(guī)律分析無法從宏觀上描述業(yè)務特征規(guī)律。物聯(lián)網(wǎng)上采集和觀測數(shù)據(jù):在遍布全球各地的移動傳感器、無線傳感器、空間遙感器、射頻識讀器和攝像、照相機等各種采集和觀測數(shù)據(jù)設備,都在時時、處處捕獲大量諸如位置數(shù)據(jù)、傳感數(shù)據(jù)、衛(wèi)星圖像數(shù)據(jù)、氣象數(shù)據(jù)等。社會發(fā)布的信息數(shù)據(jù):現(xiàn)代社會中,政府、企事業(yè)、行業(yè)等機關部門都不斷地向社會發(fā)布政務信息、公共服務信息、衛(wèi)生保健信息、社會保險信息、科技教育信息、安全預警信息、金融服務信息、證據(jù)投資信息等數(shù)據(jù)。41、大數(shù)據(jù)浪潮洶涌澎湃1.1大數(shù)據(jù)世界41、大數(shù)據(jù)浪潮洶涌澎湃大科學工程產(chǎn)生了大數(shù)據(jù)*大型強子碰撞(LHC:LargeHadronCollider)試驗:美國大數(shù)據(jù)研究計劃中專門列出尋找希格斯粒子(被稱為“上帝粒子”)的LHC實驗。據(jù)說至少要1萬億個事例中才可能找出一個希格斯粒子。在發(fā)生碰撞時,LHC檢測器(Detector)在一秒鐘內能捕獲到其臨近0.4億(40million)個快照。當LHC試驗時,約有1.5億個傳感器(Sensor)每秒傳遞數(shù)據(jù)0.4億次,大約每秒近6.0億碰撞。如果所有的傳感器數(shù)據(jù)均記錄在LHC中,則在重復之前每天將近有500EB(E=1018)數(shù)據(jù)流量,幾乎是世界上所有其他資源的200倍。*希格斯粒子以2013年諾貝爾獎獲主之一現(xiàn)年84歲的英國科學家彼得·希格斯命名。他在1964年曾預言玻色子粒子的存在。時隔50年之后,被總部設在瑞士日內瓦的歐洲核子研究中心LHC實驗項目所證實。因為諾貝爾獎至多3人分享,所以歐洲核子研究中心參與發(fā)現(xiàn)這種粒子的數(shù)以千計的研究人員就成了無名英雄了。*參與“上帝粒子”項目的28歲小伙子,計昊爽,合肥廬江人,畢業(yè)于中國科學技術大學,后去美國威斯康辛大學讀博士。他是歐洲核子研究組織(CERN)團隊成員,他在計算和實驗證明出“上帝粒子”存在功不可沒。他首次計算得到了5倍西格瑪(Sigma)的顯著度,有99.9999%的可信度表明了該粒子的存在。這在科學界被認為已經(jīng)證明了上帝粒子的存在。斯隆數(shù)字天空勘探(SDSS:SloanDigitalSkySurvey)計劃:從2008年開始收集天文數(shù)據(jù),并且每晚以200GB的速率繼續(xù)收集,到2012年,SDSS已積累了超過140TB的信息?;驕y序:2013年全球至少有30萬個人類個體基因組被全部或部分測序,這就意味著將會產(chǎn)生30Pb的序列數(shù)據(jù),至少需要相當150PB的存儲和分析計算能力。51、大數(shù)據(jù)浪潮洶涌澎湃大科學工程產(chǎn)生了大數(shù)據(jù)51、大數(shù)據(jù)浪潮洶涌澎湃新技術新應用催生的大數(shù)據(jù)新技術:傳感技術、新型通信技術、物聯(lián)網(wǎng)技術等高速發(fā)展,讓人們感知的東西很多;人與人、人與機器、機器與機器時刻都在互聯(lián)互動;新的獲取、搜索、發(fā)現(xiàn)和分析工具更使人們獲得更豐富的數(shù)據(jù)。新應用:物聯(lián)網(wǎng)(使成千上萬的網(wǎng)絡傳感器嵌入到現(xiàn)實世界中)和云計算(為海量數(shù)據(jù)提供了存儲空間和在線處理)等新型應用更使得數(shù)據(jù)激增。大數(shù)據(jù)發(fā)展的主要推動力大數(shù)據(jù)推動者是企業(yè)界:企業(yè)界的經(jīng)濟效益推動了大數(shù)據(jù)的發(fā)展。IBM、Oracle、微軟、谷歌、亞馬遜、Facebook等跨國巨頭是大數(shù)據(jù)處理技術的主要推動者。O’Reilly公司斷言:數(shù)據(jù)是下一個“IntelInside”,未來屬于將數(shù)據(jù)轉換成產(chǎn)品的公司和人們。大數(shù)據(jù)主要消費者是網(wǎng)民:近年來大數(shù)據(jù)驟增主要還是來自人們的日常生活(圖片、視頻、音樂等),特別是互聯(lián)網(wǎng)公司的服務。傳感網(wǎng)和物聯(lián)網(wǎng)等相關技術催生了大數(shù)據(jù)的蓬勃發(fā)展。61、大數(shù)據(jù)浪潮洶涌澎湃新技術新應用催生的大數(shù)據(jù)61、大數(shù)據(jù)浪潮洶涌澎湃1.2大數(shù)據(jù)潮流大數(shù)據(jù)時代大數(shù)據(jù)的價值21世紀數(shù)據(jù)的價值有可能等同于20世紀的石油,但石油資源會不斷耗盡,而數(shù)據(jù)會隨應用不斷增長,呈“無限增長”的趨勢。信息經(jīng)濟早期,數(shù)據(jù)只作為一種“資源”;后來人們逐漸把它視為一種“資產(chǎn)”;而現(xiàn)今數(shù)據(jù)卻成了一種“能力”,是企業(yè)的核心競爭力。大數(shù)據(jù)成了國際業(yè)界熱門話題21世紀是個數(shù)據(jù)為王的時代,每個人都必須“用數(shù)據(jù)說話”,誰擁有了數(shù)據(jù),誰就有了話語權。大數(shù)據(jù)是繼云計算、物聯(lián)網(wǎng)之后的IT界又一次顛覆性技術變革。2012年世界經(jīng)濟論壇發(fā)布了“BigData,BigImpact”的報告,闡述了大數(shù)據(jù)對農(nóng)業(yè)、金融、醫(yī)療、健康、教育等發(fā)展帶來了新機遇。71、大數(shù)據(jù)浪潮洶涌澎湃1.2大數(shù)據(jù)潮流71、大數(shù)據(jù)浪潮洶涌澎湃大數(shù)據(jù)研究計劃美國“大數(shù)據(jù)研發(fā)創(chuàng)新”計劃計劃概況:2012年3月,美國Obama政府宣布了“BigDataResearch

andDevelopmentInitiative”計劃,探討如何利用大數(shù)據(jù)分析來應對政府所面臨的一些重大問題。該計劃由跨6個部門的84個大數(shù)據(jù)項目組成,總投資共$200million(2億美元)。計劃目的:通過抽取知識和洞察大而復雜的數(shù)據(jù),改進工作能力;通過創(chuàng)新,加速科學和工程發(fā)現(xiàn)的步伐;增強國家安全和改觀國民教育現(xiàn)狀與面貌等。計劃落實實施:除了投放2億美元資金外,政府希望工業(yè)界、大學、非盈利企事業(yè)單位加入聯(lián)邦政府,利用大數(shù)據(jù)所提供的機遇??偨y(tǒng)號召:“allhandsondeck”(各就各位,全體出場),共同努力。在此形勢下,美國有些公司已為大學提供大數(shù)據(jù)方面的研究項目與資金;大學已開設大數(shù)據(jù)的課程,為培養(yǎng)下一代“數(shù)據(jù)科學家”做準備等。日本“新ICT戰(zhàn)略研究”計劃計劃發(fā)起:2012年7月日本推出“新ICT戰(zhàn)略研究計劃”,在新一輪IT振興計劃中日本政府把大數(shù)據(jù)發(fā)展作為國家層面戰(zhàn)略提出。這是日本新啟動的2011年大地震一度擱置的政府ICT戰(zhàn)略研究。計劃關注點:所推出的新的綜合戰(zhàn)略“活力ICT日本”,“提升日本競爭力,大數(shù)據(jù)應用不可缺少”,重點在大數(shù)據(jù)的應用所需的云計算、傳感器、社會化媒體等智能技術開發(fā),大數(shù)據(jù)將為新醫(yī)療技術開發(fā)、交通擁堵的緩解等帶來方便和貢獻。81、大數(shù)據(jù)浪潮洶涌澎湃大數(shù)據(jù)研究計劃81、大數(shù)據(jù)浪潮洶涌澎湃英國“聚焦大數(shù)據(jù)和節(jié)能計算”計劃做好準備:英國認為自己為大數(shù)據(jù)革命做好了準備,英國把大數(shù)據(jù)看作是自己的優(yōu)勢,政府加大對大數(shù)據(jù)等IT技術的投入,并帶動企業(yè)對該領域的投資。資金投入:英國政府宣稱投資6億英鎊科學資金,并計劃在未來兩年內在大數(shù)據(jù)和節(jié)能計算研究投資1.89億英鎊。政府把大量的資金投入到計算基礎設施,用以捕捉并分析通過開放式數(shù)據(jù)革命獲得的數(shù)據(jù)流,帶動企業(yè)投入更多的資金。我國大數(shù)據(jù)論壇及研究計劃在2013年:中國計算機學會率先于2013年成立“大數(shù)據(jù)專業(yè)委員會”,李國杰院士任主任。在2011~2014年:2013年3月國家自然基金委在上海舉行規(guī)模浩大的“大數(shù)據(jù)雙清論壇”。中國分別舉辦了第一屆(2011年)和第二屆(2012年)“大數(shù)據(jù)世界論壇”。IT時代周刊等舉辦了“大數(shù)據(jù)2012論壇”,中國計算機學會舉辦了“CNCC2012大數(shù)據(jù)論壇”。國家自然科學基金委,2014年立項重點和重大項目“大數(shù)據(jù)技術和應用中的挑戰(zhàn)性科學問題”研究,擬從10個方向中選擇資助8個重點項目。國家科技部,863計劃信息技術領域2015年備選項目包括超級計算機、大數(shù)據(jù)、云計算、信息安全、第五代移動通信系統(tǒng)(5G)等。91、大數(shù)據(jù)浪潮洶涌澎湃英國“聚焦大數(shù)據(jù)和節(jié)能計算”計劃91、大數(shù)據(jù)浪潮洶涌澎湃Gartner預測大數(shù)據(jù)的發(fā)展周期2011年:大數(shù)據(jù)進入技術導入期(Trigger),呈上升發(fā)展趨勢;同時大數(shù)據(jù)預測分析等相關技術已較為成熟,而云計算、內存數(shù)據(jù)庫管理和社會分析等也處于期望膨脹期(InflatedExpectation)。2012年:大數(shù)據(jù)已進入井噴期(Inflated),處于接近高峰期,同時大數(shù)據(jù)相關預測分析、云計算、內存數(shù)據(jù)庫管理、社會分析等技術已逐步發(fā)展且趨于成熟。導入上脹低落回升穩(wěn)定101、大數(shù)據(jù)浪潮洶涌澎湃Gartner預測大數(shù)據(jù)的發(fā)展周期導入1、大數(shù)據(jù)浪潮洶涌澎湃2013年:大數(shù)據(jù)帶動了數(shù)據(jù)科學的研究熱潮和相關使能技術的興起。111、大數(shù)據(jù)浪潮洶涌澎湃2013年:大數(shù)據(jù)帶動了數(shù)據(jù)科學的研究1、大數(shù)據(jù)浪潮洶涌澎湃1.3什么是大數(shù)據(jù)認識大數(shù)據(jù)大數(shù)據(jù)一般來源于網(wǎng)絡用戶、網(wǎng)絡應用、智能終端、政府、企業(yè)和個人,所以大數(shù)據(jù)包含了互動數(shù)據(jù)、交易數(shù)據(jù)和觀測數(shù)據(jù)等。所謂大數(shù)據(jù)(BigData)就是指用目前常用的軟件工具無法在容許的時間(可接受的時間)內進行獲取、存儲、管理和分析等的數(shù)據(jù)集(Datasets)。數(shù)據(jù)之所以稱為大數(shù)據(jù),首先是因為其量大(LargeQuantity),而量大對不同的領域的界定也不同;目前,大數(shù)據(jù)一般典型范圍為幾十TB(T=1012)到PB(PB=1015),將來會更大。大數(shù)據(jù)的4V定義

大數(shù)據(jù)可按其大容量、快速率、多樣性和高價值等4個“V”進行定義如下:Volume(AmountofData):大容量

(主要體現(xiàn)數(shù)據(jù)存儲量大和計算量大)Velocity(SpeedofDatain&out):快速率

(主要指數(shù)據(jù)更新、增長速度快,數(shù)據(jù)存儲、傳輸、處理速度快)Variety(RangeofDataTypes&Sources):多樣性

(包括結構化的原數(shù)據(jù)庫表格數(shù)據(jù)和半結構化、非結構化的文本、視頻、圖像等信息)Value(UsefulnessofData):高價值

(大海撈針,“在大數(shù)據(jù)困難面前,不被利用就是成本”)121、大數(shù)據(jù)浪潮洶涌澎湃1.3什么是大數(shù)據(jù)121、大數(shù)據(jù)浪潮洶涌澎湃處理大數(shù)據(jù)的基本原理數(shù)據(jù)量的巨大(本身也包含著數(shù)據(jù)大小變化范圍大)使得數(shù)據(jù)無法集中存儲和必須使用并行與分布計算技術。數(shù)據(jù)的快速,使得數(shù)據(jù)到達速率快和輸出結果快,這就需要實時處理和快速決策。數(shù)據(jù)的多樣性,數(shù)據(jù)結構化、非結構化、半結構化甚至不可預知的結構使得數(shù)據(jù)難以統(tǒng)一表達、處理系統(tǒng)極其復雜。大數(shù)據(jù)的價值彌足珍貴,但大數(shù)據(jù)的價值密度低,在浩瀚的大數(shù)據(jù)海洋中,如何挖掘有用的東西,似如“大海撈針”!利用好大數(shù)據(jù)的價值并非易事!大數(shù)據(jù)的研究大體上包含數(shù)據(jù)獲取、存儲、傳輸、分析、管理與應用等諸多方面,顯然涉及到物理、材料、電子、計算機、通信、數(shù)學、統(tǒng)計、信息管理以及各應用行業(yè),不是單一學科能解決的問題,需要多學科交叉綜合研究!大數(shù)據(jù)的4層技術架構基礎層:橫向可擴展存儲和計算平臺;虛擬化、網(wǎng)絡化的分布式架構。管理層:并行、分布式管理平臺;結構化和非結構化的統(tǒng)一管理。分析層:基于統(tǒng)計學的數(shù)據(jù)挖掘和機器學習算法;分析和解釋數(shù)據(jù),提供自動服務。應用層:提供實時決策;內置預測能力。131、大數(shù)據(jù)浪潮洶涌澎湃處理大數(shù)據(jù)的基本原理131、大數(shù)據(jù)浪潮洶涌澎湃大數(shù)據(jù)所帶來的技術挑戰(zhàn)大數(shù)據(jù)存儲與管理:雖然大數(shù)據(jù)價值稀疏,但保留它還是非常有價值的!解決大數(shù)據(jù)的存儲問題首先是對其進行去重和壓縮;其次是降低副本比,提高存儲效率和降低存儲成本。傳統(tǒng)IT系統(tǒng)到大數(shù)據(jù)系統(tǒng)的過渡:在現(xiàn)有的數(shù)據(jù)軟/硬件平臺基礎上做漸進式改進;大數(shù)據(jù)分析要平民化;大數(shù)據(jù)應用要直觀、易用和網(wǎng)絡化。大數(shù)據(jù)分析:需要革命性理論和新算法;不能抽樣分析,要全數(shù)據(jù)聚合分析;以計算為中心轉移到以數(shù)據(jù)為中心;系統(tǒng)架構應分布式和并行化兼顧;將結構化數(shù)據(jù)的分析方法、工具與新興的非結構化數(shù)據(jù)方法、工具相結合;提供數(shù)據(jù)實時分析能力;云計算是提高大數(shù)據(jù)分析能力的一種可行方案等。大數(shù)據(jù)安全:發(fā)展信息安全技術;加強技術保護;提高全民信息安全意識;完善信息安全政策和流程;完備信息安全標準等。大數(shù)據(jù)的興起催生了數(shù)據(jù)科學:數(shù)據(jù)科學可簡單理解為預測分析和數(shù)據(jù)挖掘,是統(tǒng)計分析和機器學習技術的結合,相關方法包括回歸分析、關聯(lián)規(guī)則、優(yōu)化技術和仿真建模。大數(shù)據(jù)所帶來的威脅無處不在的“第三只眼”和大數(shù)據(jù)的二次利用會使人們惶恐不安,威脅公眾的隱私,傷害人類的自由和尊嚴。運用大數(shù)據(jù)預測來判斷和懲罰人類潛在行為,會給社會和人類帶來不公和無法彌補的損傷。數(shù)據(jù)的質量不高、數(shù)據(jù)的不客觀性、數(shù)據(jù)分析中的差錯等所導致的人們對數(shù)據(jù)的執(zhí)迷和崇拜,形成了數(shù)據(jù)獨裁是可怕的,應引以為戒!141、大數(shù)據(jù)浪潮洶涌澎湃大數(shù)據(jù)所帶來的技術挑戰(zhàn)141、大數(shù)據(jù)浪潮洶涌澎湃1.4變革思維研究大數(shù)據(jù)數(shù)據(jù)的獲取不能依靠隨機采樣進行分析,采樣無法揭示細節(jié)信息,不能期望像小數(shù)據(jù)時代那樣,可用最少的數(shù)據(jù)獲得最多的信息。大數(shù)據(jù)時代要利用盡可能多的全樣數(shù)據(jù),收集與某事物相關的所有的數(shù)據(jù)。數(shù)據(jù)的分析在大數(shù)據(jù)時代,分析如此之多的數(shù)據(jù),不能熱衷于追求精確性,也無法實現(xiàn)精確性。須知,大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的精確復雜算法會更有效。數(shù)據(jù)的解釋大數(shù)據(jù)時代,無需緊緊盯著事物之間為什么的因果關系,要側重尋找事物之間是什么的相關關系。知道“是什么”是大數(shù)據(jù)從業(yè)人員急需的,知道“為什么”可容后讓科學家們去分析。數(shù)據(jù)的處理面對數(shù)據(jù)紛繁雜亂的局面,要接受處理大數(shù)據(jù)無理論、無模型的理念與現(xiàn)實。不能避免數(shù)據(jù)紛繁多樣、優(yōu)劣共存的混雜性,要容忍模糊性和不精確性的處理方法。不建立新模型,沒有統(tǒng)一的理論和機械式的證明,科學也可以照樣進步。151、大數(shù)據(jù)浪潮洶涌澎湃1.4變革思維研究大數(shù)據(jù)151、大數(shù)據(jù)浪潮洶涌澎湃1.5大數(shù)據(jù)的價值數(shù)據(jù)的用途數(shù)據(jù)的基本用途:數(shù)據(jù)的分析、處理和使用提供定量可信的科學依據(jù)。數(shù)據(jù)不限于特定用途:數(shù)據(jù)可以為同一目的而多次重復使用,它也可以用于不同目的。數(shù)據(jù)的潛在價值數(shù)據(jù)的再利用:對收集、處理和使用過的數(shù)據(jù),存儲下來備以后再利用。數(shù)據(jù)的重組:對數(shù)據(jù)而言,將多個數(shù)據(jù)集進行重組總和的價值比單個總和的價值更大。數(shù)據(jù)的可擴展:將相同數(shù)據(jù)集設計成可擴展的各種潛在的二次用途。數(shù)據(jù)的折舊:所收集的數(shù)據(jù),做盡可能多的和盡可能長的時間保存,以便再次用于相同或類似的用途。數(shù)據(jù)的開放:特別是“開放政府數(shù)據(jù)”,供全民使用,更廣泛地服務于社會。大數(shù)據(jù)的商業(yè)價值大數(shù)據(jù)掌控公司的發(fā)展:掌握大數(shù)據(jù),多渠道獲取擁有大數(shù)據(jù),巧妙地挖掘大數(shù)據(jù)的價值,使數(shù)據(jù)能優(yōu)化生產(chǎn)和服務,甚至催生新的行業(yè),便會使公司大放異彩。大數(shù)據(jù)決定企業(yè)的競爭力:大數(shù)據(jù)是企業(yè)的雙刃劍——因大數(shù)據(jù)誕生了很多公司,也倒閉破產(chǎn)了很多公司。在激烈的競爭中,所有行業(yè)均存在著威脅、挑戰(zhàn)、轉型與機遇!161、大數(shù)據(jù)浪潮洶涌澎湃1.5大數(shù)據(jù)的價值161、大數(shù)據(jù)浪潮洶涌澎湃1.6大數(shù)據(jù)的管理隱私保護對大數(shù)據(jù)的使用進行正規(guī)評測和正確引導,將隱私保護的責任從民眾轉移到數(shù)據(jù)使用者,讓他(她)們對自己的行為負責。設立數(shù)據(jù)隱私保護模式,將數(shù)據(jù)的使用權從收集數(shù)據(jù)進行“個人許可”的擁有者轉移到承擔責任的數(shù)據(jù)使用者(他們是數(shù)據(jù)二級應用的受益者)。公正評判在大數(shù)據(jù)時代,有了大數(shù)據(jù)我們可以預測人的行為,這很容易誘使我們依據(jù)預測行為進行評判。在大數(shù)據(jù)時代,在利用“客觀”數(shù)據(jù)進行預測評判時,要考慮個人動因,而個人可以而且應該為他們的實際行為而不是傾向負責。反對數(shù)據(jù)壟斷大亨我們應借鑒當年的鐵路和鋼鐵等強盜大亨,防止他們壟斷一切。反對數(shù)據(jù)壟斷大亨,就可以將大數(shù)據(jù)的不利影響得到控制,相應的法律、法規(guī)支持不可缺少。反對對數(shù)據(jù)的執(zhí)迷和崇拜所形成的數(shù)據(jù)獨裁!171、大數(shù)據(jù)浪潮洶涌澎湃1.6大數(shù)據(jù)的管理171、大數(shù)據(jù)浪潮洶涌澎湃1.7大數(shù)據(jù)時代的產(chǎn)業(yè)界情況傳統(tǒng)IT巨頭(IBM、微軟、惠普、Oracle等)通過“硬件+軟件+數(shù)據(jù)”整合平臺,向用戶提供大數(shù)據(jù)完備的基礎設施和服務,實現(xiàn)“處理-存儲-網(wǎng)絡設備-軟件-應用”,即所謂“大數(shù)據(jù)一體機”。通過并購大數(shù)據(jù)分析企業(yè),迅速增強大數(shù)據(jù)分析實力和擴展市場份額。但依賴廠商自身原有技術優(yōu)勢和收購整合不同公司,不能從根本上突破大數(shù)據(jù)發(fā)展的關鍵核心技術和實現(xiàn)對大數(shù)據(jù)各個領域的覆蓋。商務智能廠商(SAS,Teradata等)長期專注行業(yè)(銀行、電信等)智能數(shù)據(jù)分析,技術實力強,產(chǎn)品線豐富,行業(yè)業(yè)務精。在大數(shù)據(jù)時代,這些廠商在原有結構化數(shù)據(jù)處理的同時,開始加大在可擴展計算、內存計算、庫內分析、實時流處理和非結構化數(shù)據(jù)處理等方面的投入。這些廠商憑借在以往數(shù)據(jù)建模和分析方面的長期積累,雖處于行業(yè)領導地位,但面臨大數(shù)據(jù),它們的諸多產(chǎn)品性能仍跟不上大數(shù)據(jù)的需求。互聯(lián)網(wǎng)公司(Google、Facebook、阿里巴巴、百度、騰訊等)這些公司基于自身應用平臺、龐大的用戶群、海量用戶信息以及互聯(lián)網(wǎng)處理平臺,可提供精確營銷、個性化推介等商務活動。在大數(shù)據(jù)時代,催生了大數(shù)據(jù)分布式處理軟件框架Hadoop:包括分布式文件系統(tǒng)HDFS,并行編程框架Map-Reduce,數(shù)據(jù)倉庫工具Hive和大數(shù)據(jù)分析平臺Pig等。國內阿里巴巴推出“淘寶指數(shù)”,用于商家指導生產(chǎn)、制定價格和控制庫存;百度從數(shù)據(jù)、工具和應用三個層面規(guī)劃大數(shù)據(jù)時代的企業(yè)戰(zhàn)略;騰訊通過大數(shù)據(jù)挖掘社會網(wǎng)絡中的商業(yè)價值等。大數(shù)據(jù)的“春秋戰(zhàn)國”目前,世界上各企業(yè)產(chǎn)業(yè)界正處于群雄并行的“大數(shù)據(jù)春秋時期”。可以預計,今后的五至十年,大數(shù)據(jù)領域將會聚集成若干個核心企業(yè)、公司和典型應用的“大數(shù)據(jù)戰(zhàn)國時代”。181、大數(shù)據(jù)浪潮洶涌澎湃1.7大數(shù)據(jù)時代的產(chǎn)業(yè)界情況182、大數(shù)據(jù)引領社會、經(jīng)濟和科技的發(fā)展2.1大數(shù)據(jù)對國家社會的作用增強國家安全通過海量數(shù)據(jù)挖掘出高價值的軍事情報。通過海量數(shù)據(jù)的分析迅速布置軍事行動。通過海量數(shù)據(jù)處理實現(xiàn)軍事決策自動化、精準化和快速化。促進政府開發(fā)數(shù)據(jù)開放:通過數(shù)據(jù)開放,可為政府決策提供真實數(shù)據(jù)。世界上不少國家已推出各自國家的公共數(shù)據(jù)庫開放網(wǎng)站,網(wǎng)站數(shù)據(jù)庫公布的數(shù)據(jù)不受私人或國家部門的限制?;跀?shù)據(jù)驅動的政府決策:利用“基于實證的事實”可更加有效、更加開放、更加負責地引導政府前進,而不是“意識形態(tài)”,也不是利益集團對政府決策施加影響。使用大數(shù)據(jù)可以提升公共服務的透明度,通過數(shù)據(jù)模塊等形式,輔助公共服務部門更好地發(fā)現(xiàn)需求、提升績效、降低運營開支成本等。提高政策預見性和響應性利用互聯(lián)網(wǎng)、社交網(wǎng)和手機信息等,對社會輿論、失業(yè)率、疾病爆發(fā)、天氣預報、股票走勢等,進行:情緒分析趨勢預測分析早期預警192、大數(shù)據(jù)引領社會、經(jīng)濟和科技的發(fā)展2.1大數(shù)據(jù)對國家社會2、大數(shù)據(jù)引領社會、經(jīng)濟和科技的發(fā)展2.2大數(shù)據(jù)推動國民經(jīng)濟發(fā)展人類社會的三次浪潮給人類社會帶來了巨大深刻的影響,極大地推動了人類社會經(jīng)濟的發(fā)展農(nóng)業(yè)社會工業(yè)社會信息社會大數(shù)據(jù)是第三次浪潮的華彩樂章,在新一代信息技術發(fā)展中:物聯(lián)網(wǎng):使成千上萬的網(wǎng)絡傳感器嵌入到現(xiàn)實世界中。云計算:使物聯(lián)網(wǎng)產(chǎn)生的海量數(shù)據(jù)提供了存儲空間和在線處理變得可能。大數(shù)據(jù):則讓海量數(shù)據(jù)產(chǎn)生價值,使數(shù)據(jù)成為寶貴“資產(chǎn)”。大數(shù)據(jù)產(chǎn)生大價值大數(shù)據(jù)所催生的硬件、軟件及服務市場產(chǎn)生了巨大的價值。通過大數(shù)據(jù)推動的相關行業(yè)(制造業(yè)、醫(yī)療業(yè)、零售業(yè)等)產(chǎn)生巨大的價值。202、大數(shù)據(jù)引領社會、經(jīng)濟和科技的發(fā)展2.2大數(shù)據(jù)推動國民經(jīng)2、大數(shù)據(jù)引領社會、經(jīng)濟和科技的發(fā)展2.3大數(shù)據(jù)促進科技發(fā)展科學發(fā)現(xiàn)的“第四范型”(TheFourthParadigm)2007年,圖靈獎得主JimGray曾在美國國家科學研究會發(fā)表演講,指出:第一范型-實驗科學:幾千年前憑經(jīng)驗描述自然現(xiàn)象。第二范型-理論科學:過去幾百年靠理論分析(牛頓定律、麥克斯韋方程式等)研究自然規(guī)律。第三范型-計算科學:過去幾十年用計算機仿真模擬復雜現(xiàn)象。第四范型-數(shù)據(jù)密集型科學:基于大規(guī)模數(shù)據(jù)獲取、分析、處理的科學發(fā)現(xiàn)。大數(shù)據(jù)引領互聯(lián)網(wǎng)技術創(chuàng)新大數(shù)據(jù)的快速率:促使互聯(lián)網(wǎng)行業(yè)推出諸如流式處理、實時計算、內存計算等技術。大數(shù)據(jù)的大容量:促使互聯(lián)網(wǎng)公司構造分布式架構,利用大量廉價的服務器與存儲器來應付大數(shù)據(jù)集,并靈活進行彈性部署。大數(shù)據(jù)的多樣性:促使互聯(lián)網(wǎng)公司采用非關系型數(shù)據(jù)庫技術,不斷強化對日益增加的非結構化數(shù)據(jù)的駕馭能力。212、大數(shù)據(jù)引領社會、經(jīng)濟和科技的發(fā)展2.3大數(shù)據(jù)促進科技發(fā)2、大數(shù)據(jù)引領社會、經(jīng)濟和科技的發(fā)展2.4大數(shù)據(jù)應用及實例應用場合(UseCases):政府運作(國家檔案管理,人口普查,政府發(fā)布的信息…)國防安全(軍事情報,軍事決策,軍事行動…)社會民生(社會網(wǎng)絡,淘寶網(wǎng),支付寶…)健康醫(yī)療(疾病檔案,流行病傳播,遠程醫(yī)療…)商業(yè)金融(商業(yè)新聞,投資風險,股票走勢…)地球海洋(地震預報,檢測冰川雪崩,風暴潮海嘯預報…)能源環(huán)境(能源挖掘與利用,消耗與再生,能源與環(huán)境…)大科學工程(大型強子LHC,斯隆數(shù)字天空勘探,基因測序…)…大數(shù)據(jù)來源網(wǎng)絡服務器日志數(shù)據(jù)(WebServersLogs)互聯(lián)網(wǎng)點擊流數(shù)據(jù)(InternetClickstreamData)社會媒體發(fā)布(SocialMedialActivityReports)移動呼叫記錄(Mobile-phoneCallRecords)傳感器或IOT設備捕獲信息(InformationCapturedbySensorsorIODDevices)大數(shù)據(jù)實例中國互聯(lián)網(wǎng)數(shù)據(jù)中心統(tǒng)計:淘寶網(wǎng)同時每天在線商品數(shù)已超過8億件,平均出售4.8萬件/分鐘。Facebook網(wǎng)站上每天的評論達32億條,新上傳照片3億張/天。Youtube每天頁面瀏覽數(shù)達20億次,上傳15萬部電影/周;上傳83萬部視頻/天。新浪微博注冊用戶超過3億,用戶發(fā)布超過1億條微博/天。大數(shù)據(jù)有多大?2011年時,全球數(shù)據(jù)規(guī)模約1.8ZB(Z=1021),可以填滿575個32GB的ipad,它們如果當磚頭使用,可以修建2座中國長城。到2020年,全求數(shù)據(jù)規(guī)模將達40ZB,可以修建45座中國長城。222、大數(shù)據(jù)引領社會、經(jīng)濟和科技的發(fā)展2.4大數(shù)據(jù)應用及實例3、大數(shù)據(jù)處理流程3.1大數(shù)據(jù)的采集與預處理網(wǎng)絡采集的大數(shù)據(jù)互聯(lián)網(wǎng)上系統(tǒng)日志信息的采集。互聯(lián)網(wǎng)上非結構化數(shù)據(jù)的采集。采集數(shù)據(jù)的觀測設備傳感器:無線傳感器、移動傳感器、空間傳感器。射頻識讀器(RFID)。攝像機、照相機等。采集數(shù)據(jù)的ETL預處理技術數(shù)據(jù)提?。‥xtraction):通過接口設備從分布的、異構的數(shù)據(jù)源中提取數(shù)據(jù)。數(shù)據(jù)轉換(Transformation):將提取的數(shù)據(jù)轉換成業(yè)務需要的目標數(shù)據(jù)結構并實現(xiàn)匯總。數(shù)據(jù)加載(Loading):將轉換和匯總后的數(shù)據(jù)加載到目標數(shù)據(jù)庫或相應的文件存儲系統(tǒng)中。233、大數(shù)據(jù)處理流程3.1大數(shù)據(jù)的采集與預處理233、大數(shù)據(jù)處理流程3.2大數(shù)據(jù)的傳輸(1)加速海量數(shù)據(jù)近實時傳輸(near-realtimedelivery)的關鍵在于研發(fā)超高速的交換與傳輸設備。傳輸介質寬帶接入銅退光進:光纖以石英材質為主,具有綠色和寬帶的優(yōu)勢,可進一步提升大數(shù)據(jù)傳輸所需要的帶寬。有線與無線結合:無線可為基站和終端間構筑泛在網(wǎng)絡;有線光纖可為基站和城域間提供高效傳輸平臺。傳輸設備光電結合:電子屬于費米子,電處理在邏輯和緩存等功能上具有優(yōu)勢;光子屬于玻色子,光處理在高速并行傳輸和交叉上具有優(yōu)勢,所以兩者結合有可能應對大容量節(jié)點交換的需求。傳輸與交換相結合:使用光聯(lián)網(wǎng)可將單純的傳輸功能集成到節(jié)點設備中去,利于網(wǎng)絡規(guī)劃和運維。傳輸協(xié)議多復用方式:使用光纖接入可從時分發(fā)展到時分、波分和頻發(fā)等多復用方式。電路與分組相結合:前者利于大粒度數(shù)據(jù)流;后者利于小粒度數(shù)據(jù)流,兩者結合大大有利于減少功耗和成本。243、大數(shù)據(jù)處理流程3.2大數(shù)據(jù)的傳輸243、大數(shù)據(jù)處理流程(2)數(shù)據(jù)增長速度超過通信能力的增長,單純依賴物理層技術的提升無法滿足大數(shù)據(jù)的需求。物理層:超大規(guī)模集成電路、高速路由器/交換機、全光網(wǎng)絡、4G/5G…等等面臨著物理極限。網(wǎng)絡結構與核心協(xié)議:30多年基本沒有太大的變化——IP設計的初始理念是用戶少、設備貴、流量小、應用簡單,確立了簡單清晰的網(wǎng)絡結構;當物聯(lián)網(wǎng)和社交網(wǎng)的出現(xiàn)和發(fā)展,迫使IP網(wǎng)絡架構不斷“打補丁”,結果弄得“雜亂臃腫”。存在的問題:不能充分利用帶寬而效率低;難以有效支持多徑路由而不靈活;無法進行統(tǒng)一的流量管理。253、大數(shù)據(jù)處理流程(2)數(shù)據(jù)增長速度超過通信能力的增長,單3、大數(shù)據(jù)處理流程(3)軟件定義網(wǎng)絡(SoftwareDefinedNetwork,SDN,由斯坦福大學提出)是解決大數(shù)據(jù)傳輸?shù)挠行Х椒āDN的核心思想:其核心技術OpenFlow將網(wǎng)絡設備控制面(ControlPlane)與數(shù)據(jù)傳輸面(ForwardingandDataPlane)分離開來。控制面:決定網(wǎng)絡設備中路由表的內容,即路由算法。數(shù)據(jù)面:決定網(wǎng)絡設備如何對數(shù)據(jù)包進行轉發(fā),即轉發(fā)表本身。SDN的意義:可實現(xiàn)網(wǎng)絡流量的靈活控制——路由算法可以運行在與網(wǎng)絡設備獨立的節(jié)點上(SDN控制器),以實現(xiàn)集中式路由算法控制。SDN的優(yōu)點:可有效利用空閑帶寬,提高帶寬利用率;可靈活利用多條路徑進行數(shù)據(jù)傳輸;易于對數(shù)據(jù)傳輸進行有效管理。SDN的問題:集中式的SDN控制器存在單節(jié)點失效問題和網(wǎng)絡可擴展性問題;SDN包含多個物理和邏輯層面,含有大量的異構設備和協(xié)議,管理很復雜;這種全新的架構在基礎理論、網(wǎng)絡協(xié)議、路由算法、網(wǎng)絡安全等方面有大量亟待解決的問題。263、大數(shù)據(jù)處理流程(3)軟件定義網(wǎng)絡(SoftwareD3、大數(shù)據(jù)處理流程3.3大數(shù)據(jù)的存儲新型存儲技術要研發(fā)高密度、低功耗、速度快、非易失的新型存儲器件,要研究固態(tài)存儲陣列和大容量混合存儲技術,要研究高性能、大容量、低延遲、高可靠的I/O存儲技術。新型存儲結構直接連接存儲(DAS,Direct-AttachedStorage)結構:通過總線適配器將硬盤等存儲介質直接連到主機上。大數(shù)據(jù)從業(yè)人員不喜歡慢速昂貴的共享的外存,而希望不同形式的,包括固態(tài)硬盤(SSD,SolidStateDisk)、埋置在并行處理節(jié)點內的高容量SATA(SerialAdvancedTechnologyAttachment)磁盤等。智能化分布存儲結構:大數(shù)據(jù)不可能集中存儲,要構建智能化的分布式存儲結構。改變傳統(tǒng)“啞存儲設備”的觀點,可將部分公共數(shù)據(jù)處理和管理任務下移至存儲設備,達到數(shù)據(jù)就地、就近處理,充分利用存儲設備的處理能力,減輕網(wǎng)絡傳輸?shù)膲毫Α?73、大數(shù)據(jù)處理流程3.3大數(shù)據(jù)的存儲273、大數(shù)據(jù)處理流程新型存儲級內存(SCM,StorageClassMemory):它是將SCM設計成整個存儲系統(tǒng)的一部分,而非作為虛擬內存交換區(qū)域和外存補充,使得計算不僅僅存在傳統(tǒng)的內存Memory上,同時也在SCM存儲設備上。大數(shù)據(jù)分布、容錯、列存儲通過分布式實時列存儲可對數(shù)據(jù)統(tǒng)一進行結構化存儲管理,避免了傳統(tǒng)數(shù)據(jù)存儲方式的關聯(lián)查詢。分布式存儲主從控制模式:主節(jié)點存元數(shù)據(jù),且負責接收請求并應答;從節(jié)點負責存數(shù)據(jù)。冗余存儲:為可靠起見,文件塊被復制到三個不同的存儲位置。用列存儲代替行存儲:將記錄按行排序、按列存儲,將相同字段數(shù)據(jù)作為一個列族而聚合存儲之。去重和壓縮:研究表明,應用數(shù)據(jù)近75%是副本,原本只占25%,降低副本是提高存儲效率的首要因素。283、大數(shù)據(jù)處理流程新型存儲級內存(SCM,StorageC3、大數(shù)據(jù)處理流程3.4大數(shù)據(jù)的處理大數(shù)據(jù)的管理在線事務處理OLTP(OnLineTransactionProcessing)數(shù)據(jù)加載:將多個OLTP系統(tǒng)通過ETL工具將其中的數(shù)據(jù)導入到一個或多個數(shù)據(jù)倉庫中,以滿足高吞吐量和實時分析的需求。并發(fā)查詢:NoSQL是對不同于傳統(tǒng)關系數(shù)據(jù)庫的數(shù)據(jù)庫管理系統(tǒng)的總稱,它不使用SQL作為查詢語言(SQL是結構化的查詢語言,它接收記錄條目<Records>集作為輸入,輸出也是條目集)。區(qū)別于傳統(tǒng)關系數(shù)據(jù)庫的按行存儲,NoSQL支持列存數(shù)據(jù)庫按列存儲。在線分析處理OLAP(OnLineAnalysisProcessing)大規(guī)模并行數(shù)據(jù)庫:是無共享數(shù)據(jù)庫,可以有效提高查詢效率和平臺的可擴展性,主要用在數(shù)據(jù)倉庫和大規(guī)模分析處理應用中。分布式大規(guī)模批處理(MapReduce):它是一個支持非結構化大數(shù)據(jù)分析的分布式編程模型。MR來源于函數(shù)式編程語言LISP中兩個高階函數(shù)Map和Reduce。Map被用來遍歷輸入數(shù)據(jù),并進行劃分,再以Key/Value對方式輸出中間結果;然后這些中間結果按Key的取值聚集到Reducer上執(zhí)行Reduce操作,產(chǎn)生最終計算結果。293、大數(shù)據(jù)處理流程3.4大數(shù)據(jù)的處理293、大數(shù)據(jù)處理流程大數(shù)據(jù)的挖掘定義:從大量、隨機的、不完整的、有噪聲的、模糊的數(shù)據(jù)中,提取隱含的事先不知道的,但有潛在應用價值的信息和知識的過程。數(shù)據(jù)挖掘的一般步驟:數(shù)據(jù)篩選:從目標數(shù)據(jù)中提取與分析相關的數(shù)據(jù)。數(shù)據(jù)預處理:清除目標數(shù)據(jù)中的噪聲或不一致的數(shù)據(jù)。數(shù)據(jù)變換:將已預處理的數(shù)據(jù)統(tǒng)一成適合挖掘的格式。數(shù)據(jù)挖掘:從變換后的數(shù)據(jù)中,使用智能方法提取數(shù)據(jù)模式。評估與展現(xiàn):識別真正有用的模式并進行可視化展現(xiàn)。大數(shù)據(jù)挖掘的幾個階段:數(shù)據(jù)預處理階段:包括數(shù)據(jù)準備,數(shù)據(jù)提取,數(shù)據(jù)預處理和數(shù)據(jù)變換等。數(shù)據(jù)挖掘階段:包括確定挖掘目標,選擇合適的挖掘算法,從數(shù)據(jù)庫中提取用戶感興趣的知識。數(shù)據(jù)評估與展示階段:包括對發(fā)現(xiàn)的模式(知識)評估,向用戶呈現(xiàn)所挖掘的知識等。新型挖掘技術:大數(shù)據(jù)的異構性、非確定性、關聯(lián)性、結構不一致性、稀疏泛分布性、數(shù)據(jù)流動性、動態(tài)變化性等復雜因素需要研究諸如迭代性和探索性分析等新型數(shù)據(jù)挖掘技術。例如,Hive是在Hadoop之上的,管理和查詢結構化數(shù)據(jù),可完成PB級數(shù)據(jù)的挖掘。303、大數(shù)據(jù)處理流程大數(shù)據(jù)的挖掘303、大數(shù)據(jù)處理流程大數(shù)據(jù)的分析大數(shù)據(jù)的描述分析關聯(lián)分析(AssociationAnalysis):是從給定的數(shù)據(jù)中發(fā)現(xiàn)頻繁出現(xiàn)的模式(關聯(lián)規(guī)則),其形式表達為X=>

Y,即“數(shù)據(jù)庫中滿足條件的X的記錄多半也滿足條件Y”。聚類分析(ClusteringAnalysis):是將數(shù)據(jù)對象劃分成多個類或簇,使之同簇中對象有較高的相似度。離群點分析(OutlierAnalysis):分析數(shù)據(jù)集合中那些與絕大多數(shù)數(shù)據(jù)特性或模型不一致的數(shù)據(jù)對象(稱之為離群點,Outlier)。演化分析(EvolutionAnalysis):其目的是挖掘隨時間變化的數(shù)據(jù)對象的變化規(guī)律和趨勢,并對其建模。大數(shù)據(jù)的實時分析庫內分析:數(shù)據(jù)分析在數(shù)據(jù)庫內可以即時完成,這樣既節(jié)省時間又提高了安全性。內存計算:在服務器的主存中處理分析數(shù)據(jù)。流處理:實時處理新數(shù)據(jù)和更新數(shù)據(jù)庫。連續(xù)計算:對數(shù)據(jù)進行連續(xù)查詢、邊計算邊以流的形式輸出之。集成多種學習算法:包括人工智能有關的機器學習算法、A/BTest法、分類/聚類算法、學習與演化算法、識別和預測算法、監(jiān)督與非監(jiān)督學習算法等。313、大數(shù)據(jù)處理流程大數(shù)據(jù)的分析313、大數(shù)據(jù)處理流程(4)大數(shù)據(jù)信息處理平臺高通量計算結構:改變傳統(tǒng)的以計算為中心的高性能(HP,HighPerformance)計算結構為以數(shù)據(jù)為中心的高通量(HT,HighThroughput)計算結構。高通量計算結構特別適合于來自Web服務的大量面向網(wǎng)絡的日志(Log)信息的處理。端云協(xié)同計算系統(tǒng):該系統(tǒng)在終端低層硬件上集成多種異構并行的計算設施,將其與虛擬化的云計算網(wǎng)絡構成端云協(xié)同的大數(shù)據(jù)信息處理計算平臺。高性能云計算(HighPerformanceCloudComputing)數(shù)據(jù)中心基礎設施:普及型高性能計算機(PHPC,PopularHighPerformanceComputing)可以應對大數(shù)據(jù)應用中數(shù)據(jù)量大(Volume)和處理速度要求高(Velocity)等方面的挑戰(zhàn)。323、大數(shù)據(jù)處理流程(4)大數(shù)據(jù)信息處理平臺323、大數(shù)據(jù)處理流程大數(shù)據(jù)分布式處理軟件架構:HadoopHadoop的優(yōu)點:它是一種能處理PB級數(shù)據(jù)應用程序的分布式計算平臺,其優(yōu)點是:高可靠性:能自動保存多個副本的存儲數(shù)據(jù),可自動將失敗的任務重新分配處理。高可擴展性:Hadoop可在機群間分配數(shù)據(jù)和完成計算,機群可以方便地擴展數(shù)以千計的節(jié)點。高效性:Hadoop可在節(jié)點間移動數(shù)據(jù),保證負載動態(tài)平衡,以實現(xiàn)快速高效處理。Hadoop的組成:Hadoop的組成元素如下:分布式文件系統(tǒng)HDFS:其架構由一個Namenode節(jié)點(提供元數(shù)據(jù)服務)和多個Datanode節(jié)點(為HDFS提供存儲塊)組成的Master-Slave架構,Datanode在在Namenode的調度下進行數(shù)據(jù)的創(chuàng)建、刪除和復制。HDFS內部通信基于標準的TCP/IP協(xié)議。MapReduce并行編程框架:其中Map把輸入分解成Key/Value對;Reduce把Key/Value合并成最終的輸出,而對Key/Value的操作是可以并行完成的。數(shù)據(jù)倉庫工具Hive:它提供了一系列工具用來進行數(shù)據(jù)提取、轉換、加載(ETL);定義了類SQL的HQL查詢語言,供用戶查詢數(shù)據(jù);提供通過Web瀏覽器WUI用戶接口來訪問Hive。Hive將元數(shù)據(jù)(包括表名、表列、分區(qū)屬性等)存儲在數(shù)據(jù)庫中,可用HQL進行查詢等。大數(shù)據(jù)分析平臺Pig:提供類SQL的PigLatin語言,將請求轉換成一系列優(yōu)化后的MapReduce運算;Pig為海量數(shù)據(jù)并行計算提供簡單的編程接口,用戶可通過Python或者Javascript編寫Java程序。333、大數(shù)據(jù)處理流程大數(shù)據(jù)分布式處理軟件架構:Hadoop333、大數(shù)據(jù)處理流程大數(shù)據(jù)工具軟件:Ysmart&RCFileYSmart(YetanotherSql-to-MApReduceTranslator):SQL-to-MapReduce高效翻譯器將用類SQL說明性語言描述的某一“運算”(Operation)翻譯成MapReduce的“作業(yè)”(Job)的步驟:識別“運算”的主句(如Join);主句中的每一“運算”生成相應MR的“作業(yè)”(如joinop→joinMRjob);將諸如選擇、投影等其他運算加入相應的MR作業(yè)中。為了提高SQL-to-MR翻譯的性能,對于一個SQL-like的提問,首先要轉換成原語MR作業(yè);其次進行相關性識別;再歸并相關的MR作業(yè);最后Ysmart被集成到數(shù)據(jù)倉庫Hive中。RCFile(RecordColumnarFile):高效數(shù)據(jù)存放結構RCFile是Facebook公司數(shù)據(jù)分析系統(tǒng)中的標準數(shù)據(jù)存儲結構,該結構集行存儲和列存儲的優(yōu)點為一體,在MR環(huán)境下的大數(shù)據(jù)分析中扮演重要角色。在Hadoop系統(tǒng)中,常用文件存儲格式有:支持文本的TextFile和支持二進制的SequenceFile,它們都是按行存儲的;Facebook工程師們將來自Web服務器的大量日志(Log)數(shù)據(jù)經(jīng)由數(shù)據(jù)加載器,按列存儲的方式存入數(shù)據(jù)倉庫中。343、大數(shù)據(jù)處理流程大數(shù)據(jù)工具軟件:Ysmart&RCFi3、大數(shù)據(jù)處理流程HDFS塊內RCFile方式的存儲示例:首先將關系表劃分成若干個行組(RowGroup);在一個行組內,將原關系表中的數(shù)據(jù)按逐列存放之。如此可確保同一行的數(shù)據(jù)位于同一節(jié)點;同時與傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)存儲結構相比,RCFile能更有效地滿足基于MR的數(shù)據(jù)倉庫的快速加載、加速處理提問、高效利用存儲空間等需求。353、大數(shù)據(jù)處理流程HDFS塊內RCFile方式的存儲示例:33、大數(shù)據(jù)處理流程3.5大數(shù)據(jù)的展現(xiàn)數(shù)據(jù)可視化的定義:將數(shù)據(jù)處理的結果(圖片、表格、映射關系等)以簡單、友好、易用的圖形化、智能化、可視化形式呈現(xiàn)給用戶。數(shù)據(jù)可視化模式時間趨勢的可視化離散型數(shù)據(jù)可視化:常見的有柱狀圖及其變形。連續(xù)型數(shù)據(jù)可視化:常見的有線型圖(LineChart)或時間線型圖(TimeLineChart),在小間隔時間步和大數(shù)據(jù)范圍內畫出擬合曲線展示連續(xù)變化趨勢。利用線性回歸方程的最小平方函數(shù)來描繪自變量和因變量之間的關系曲線函數(shù)??臻g趨勢的可視化點數(shù)據(jù)可視化:根據(jù)地理元素特性、特點和地圖有機結合起來,再使用Delaunay三角剖分算法將相近的點用不重復的三角形連接在一起。區(qū)域數(shù)據(jù)可視化:根據(jù)數(shù)據(jù)的特性(例如高、中、低等),對不同的區(qū)域進行著色,可直觀地體現(xiàn)出區(qū)域數(shù)據(jù)的不同。363、大數(shù)據(jù)處理流程3.5大數(shù)據(jù)的展現(xiàn)363、大數(shù)據(jù)處理流程數(shù)據(jù)可視化工具簡單型:常見的有Microsoft

Excel、AppleiWorkNumbers、GoogleSpreadsheets等。編程型:常見的有Flash/ActionScript、Processing、R和D3.js等。大數(shù)據(jù)的處理及可視化技術小結使用分布式文件系統(tǒng)(例如HDFS)存儲海量非結構化數(shù)據(jù)。使用Hadoop的MR框架處理海量非結構化數(shù)據(jù);將結果存儲到數(shù)據(jù)倉庫中。將結構化和半結構化的數(shù)據(jù),經(jīng)ETL存儲到數(shù)據(jù)倉庫中。使用機群或分布式架構對大數(shù)據(jù)進行分析、處理和生成可視化結果。對于實時性要求較高的數(shù)據(jù)分析,可采用流處理方式,在數(shù)據(jù)存儲之前就完成分析并生成可視化結果。373、大數(shù)據(jù)處理流程數(shù)據(jù)可視化工具374、大數(shù)據(jù)與物聯(lián)網(wǎng)4.1物聯(lián)網(wǎng)物聯(lián)網(wǎng)定義、特征與技術基礎物聯(lián)網(wǎng)(InternetofThings,IOT)定義:通過裝置在物體上的各種信息傳感設備(如RFID、紅外傳感器、GPS、激光掃描器等等)賦予物體智能,并通過接口與互聯(lián)網(wǎng)相連而形成的一個物品與物品相連的巨大分布式協(xié)同網(wǎng)絡。物聯(lián)網(wǎng)三大特征:它具有普通對象設備化,自治終端互聯(lián)化和普適服務智能化三個重要特征。物聯(lián)網(wǎng)技術基礎物聯(lián)網(wǎng)的發(fā)展得益于傳感器和射頻識讀(RFID)技術:當物品附以傳感器或標以RFID后,人們便可主動獲取、處理和控制數(shù)據(jù)。物聯(lián)網(wǎng)的核心網(wǎng)絡是互聯(lián)網(wǎng)和電信網(wǎng);物聯(lián)網(wǎng)與互聯(lián)網(wǎng)、移動通信網(wǎng)、無線傳感器等有密切的關系。物聯(lián)網(wǎng)本身具有智能得益于網(wǎng)絡終端設備從“機”到“物”,這些物品賦予了終端設備的智能。物聯(lián)網(wǎng)的四層體系結構模型感知識別層:包含智能設備,GPS,RFID,傳感器等。網(wǎng)絡構建層:包括無線個域網(wǎng)、局域網(wǎng)、城域網(wǎng)、廣域網(wǎng),Internet互聯(lián)網(wǎng),移動通信網(wǎng)等。管理服務層:包括數(shù)據(jù)中心,搜索引擎,數(shù)據(jù)挖掘,智能決策,信息安全等。綜合應用層:諸如智能物流,智能交通,精細農(nóng)業(yè),安全環(huán)保,醫(yī)療保健等。384、大數(shù)據(jù)與物聯(lián)網(wǎng)4.1物聯(lián)網(wǎng)384、大數(shù)據(jù)與物聯(lián)網(wǎng)4.2物聯(lián)網(wǎng)的發(fā)展歷程互聯(lián)網(wǎng)及其應用擴展互聯(lián)網(wǎng)的誕生、成長和發(fā)展互聯(lián)網(wǎng)誕生于20世紀60年代末和70年代初,最初是一個ARPANET?;ヂ?lián)網(wǎng)于20世紀90年代發(fā)展成為公眾互聯(lián)網(wǎng)。到了21世紀初發(fā)展為全球互聯(lián)網(wǎng)?;ヂ?lián)網(wǎng)的應用擴展:早期以傳輸文件、電子郵件應用為主的“計算機與計算機”互聯(lián)。近期以萬維網(wǎng)、電子商務、視頻點播、在線游戲和社交網(wǎng)等應用的“人與人”交互?,F(xiàn)代以物品跟蹤、環(huán)境感知、自動識別、智能信息管理等應用的“物與物”相聯(lián)。無線寬帶網(wǎng)使物聯(lián)網(wǎng)消除了接入設備位置限制無線寬帶消除接入設備位置限制,節(jié)省傳輸介質和成本,覆蓋范圍廣闊,傳輸速度快,獲取信息方便等無線寬帶技術(無線局域網(wǎng)WiFi,無線城域網(wǎng)WiMAX等)勢必在物聯(lián)網(wǎng)時代扮演重要角色。394、大數(shù)據(jù)與物聯(lián)網(wǎng)4.2物聯(lián)網(wǎng)的發(fā)展歷程394、大數(shù)據(jù)與物聯(lián)網(wǎng)移動通信網(wǎng)使物聯(lián)網(wǎng)實現(xiàn)了無所不在的感知一個完整的物聯(lián)網(wǎng)系統(tǒng)是由前(終)端信息生成、中間傳輸網(wǎng)絡和后端應用平臺所組成。如果將信息終端(如RFID等)都局限在固定網(wǎng)絡中,則無法實現(xiàn)無所不在的感知識別,要采用第三代移動通信網(wǎng)絡(3G),實現(xiàn)“全面、隨時、隨地”傳輸信息。低速網(wǎng)絡協(xié)議更適合于物聯(lián)網(wǎng)場景在物聯(lián)網(wǎng)中,網(wǎng)絡中的設備不可能像互聯(lián)網(wǎng)中的個人計算機、PDA等那樣通過路由器、交換機等級聯(lián)起來使用了高速網(wǎng)絡協(xié)議;而要采用適應于物聯(lián)網(wǎng)中那些計算能力較低、速度較慢、通信半徑較小和能量消耗低的傳感器設備的低速網(wǎng)絡協(xié)議(如藍牙、紅外等)。404、大數(shù)據(jù)與物聯(lián)網(wǎng)移動通信網(wǎng)使物聯(lián)網(wǎng)實現(xiàn)了無所不在的感知404、大數(shù)據(jù)與物聯(lián)網(wǎng)4.3大數(shù)據(jù)與物聯(lián)網(wǎng)物聯(lián)網(wǎng)釀成了大數(shù)據(jù)各種傳感器(移動的、無線的、空間的等)采集了大量的數(shù)據(jù)。各種觀測設備(射頻識讀器、攝像機和照相機等)捕獲了大量的數(shù)據(jù)。物聯(lián)網(wǎng)感知識別數(shù)據(jù)的設備自動產(chǎn)生數(shù)據(jù)的感知設備射頻識別技術(RFID):RFID系統(tǒng)一般由閱讀器(即封裝在一起的接收器、傳送器和微處理器)、天線(用于傳遞標簽和閱讀器之間的射頻信號)和標簽(其原理和條形碼相似,內部存有唯一的編碼,附著在物體上,用來標識目標對象)三部分組成。無線傳感器:包括傳感器(光傳感器、溫度傳感器、二氧化碳傳感器等)、微處理器(片內集成了內存、閃存、A/D轉換器、數(shù)字I/O等)和無線通信芯片(如常用的符合IEEE802.15物理層協(xié)議規(guī)范的低功耗通信芯片)以及供能裝置電池。人工生成數(shù)據(jù)的聯(lián)網(wǎng)電子產(chǎn)品智能信息設備:包括傳統(tǒng)智能設備(如個人計算機、個人數(shù)字助理PDA等)和新一代智能設備(如車載設備、數(shù)字標牌、醫(yī)療設備、智能電視、智能手機等)。定位系統(tǒng):包括GPS、蜂窩基站定位、無線室內環(huán)境定位和一些諸如A-GPS(輔助GPS)和無線AP(無線接入點)等新興定位系統(tǒng)。大數(shù)據(jù)技術使物聯(lián)網(wǎng)采集的數(shù)據(jù)產(chǎn)生了價值物聯(lián)網(wǎng)使成千上萬的傳感器嵌入到了現(xiàn)實世界中。物聯(lián)網(wǎng)采集的數(shù)據(jù)通過存儲處理后,使得海量的大數(shù)據(jù)產(chǎn)生了價值,使數(shù)據(jù)變成了“資產(chǎn)”。414、大數(shù)據(jù)與物聯(lián)網(wǎng)4.3大數(shù)據(jù)與物聯(lián)網(wǎng)415、大數(shù)據(jù)與云計算5.1什么是云計算基本概念云計算模式:用戶終端通過互聯(lián)網(wǎng)向“云”提出服務請求;“云”收到服務請求后,組織計算資源和存儲資源,對請求進行處理;然后將處理的結果通過網(wǎng)絡返回給用戶。云計算的定義:云計算是提供便捷的、通過互聯(lián)網(wǎng)訪問一個可定制的、能夠快速部署的IT資源(包括網(wǎng)絡、服務器、存儲、應用服務等)共享池能力的、按使用量付費的計算服務模式。云計算的核心技術:云計算利用分布式計算和虛擬資源管理等技術,通過互聯(lián)網(wǎng)將分散的IT資源集中起來形成共享資源池,并以動態(tài)按需、按量向用戶提供服務。云計算四層體系架構物理層:包括支持系統(tǒng)運行的計算設備、存儲設備及其他硬件設備等。虛擬層:包括虛擬主機、虛擬存儲、虛擬網(wǎng)絡等虛擬設備。管理層:包括用戶管理、資源管理、安全管理等。業(yè)務層:包括IaaS服務、PaaS服務、SaaSQL服務等。云計算關鍵技術存儲技術:分布式和冗余存儲方式(如Hadoop的分布式文件系統(tǒng)HDFS)。管理技術:如谷歌公司的BigTable數(shù)據(jù)管理技術采用了列存儲方式。編程模式:云計算采用類似于Map-Reduce的編程模式。425、大數(shù)據(jù)與云計算5.1什么是云計算425、大數(shù)據(jù)與云計算5.2大數(shù)據(jù)與云計算的關系兩者的側重點不同大數(shù)據(jù)側重于“數(shù)據(jù)”的采集、分析挖掘、數(shù)據(jù)的存儲能力。云計算側重于“計算”,關注IT基礎架構、數(shù)據(jù)處理計算能力。兩者相輔相成若沒有大數(shù)據(jù)的沉淀,則云計算的計算能力再強大也難以找到用武之地。若沒有云計算的處理能力,則大數(shù)據(jù)的信息沉淀再豐富,也終究只是鏡花水月。兩者優(yōu)勢互補利用云計算的強大計算能力,則可迅速處理大數(shù)據(jù),即時提供服務。通過大數(shù)據(jù)的業(yè)務需求,則可為云計算落地找到更多的實際應用。云計算為大數(shù)據(jù)提供彈性可擴展的存儲和高效的數(shù)據(jù)并行處理能力;云計算為大數(shù)據(jù)提供了有力的工具和途徑,大數(shù)據(jù)為云計算提供了很有價值的用武之地。435、大數(shù)據(jù)與云計算5.2大數(shù)據(jù)與云計算的關系435、大數(shù)據(jù)與云計算大數(shù)據(jù)根植于云計算云計算技術:包括虛擬化技術、平臺管理技術、MR編程技術、海量數(shù)據(jù)存儲技術、海量數(shù)據(jù)管理技術等。大數(shù)據(jù)關鍵技術:MR編程技術、海量數(shù)據(jù)存儲技術、海量數(shù)據(jù)管理技術。結論:云計算中的海量數(shù)據(jù)存儲、管理技術和MR編程技術都是大數(shù)據(jù)的技術基礎。兩者的相同點均為數(shù)據(jù)的存儲和處理服務。都需要占用大量的存儲資源和計算資源。都要用到海量數(shù)據(jù)存儲技術、海量數(shù)據(jù)管理技術和Mapreduce并行編程技術。445、大數(shù)據(jù)與云計算大數(shù)據(jù)根植于云計算445、大數(shù)據(jù)與云計算5.3大數(shù)據(jù)和云計算的不同點不同點大數(shù)據(jù)云計算出現(xiàn)背景現(xiàn)有數(shù)據(jù)處理技術不能勝任社交網(wǎng)絡、物聯(lián)網(wǎng)中的大量異構數(shù)據(jù)基于互聯(lián)網(wǎng)的相關服務日益豐富和頻繁主要目的充分挖掘海量數(shù)據(jù)中的信息通過互聯(lián)網(wǎng)更好地調用、擴展和管理計算及存儲資源和能力研究對象數(shù)據(jù)IT資源、能力和應用推動力量來自于從事數(shù)據(jù)存儲與處理的軟件廠商和擁有大量數(shù)據(jù)的企業(yè)來自于生產(chǎn)計算及存儲設備的廠商和擁有計算和存儲資源的企業(yè)帶來價值發(fā)現(xiàn)數(shù)據(jù)中的價值節(jié)省IT的部署成本455、大數(shù)據(jù)與云計算5.3大數(shù)據(jù)和云計算的不同點不同點大數(shù)據(jù)6、高性能計算與高性能計算機6.1什么是高性能計算高性能計算的含義高性能計算,簡稱HPC(highPerformanceComputing),泛指計算速度快、計算量大、效率高等的運算。HPC主要包括向量計算、并行計算、分布式計算、網(wǎng)格計算、效用計算等。高性能與并行密切相關:欲達到高性能,則應采用并行,運用了并行,必可達到高性能。高性能計算的戰(zhàn)略地位HPC是一個國家綜合國力的體現(xiàn)。HPC是支撐國家實力持續(xù)發(fā)展和確保國防安全的關鍵技術之一。一些重大挑戰(zhàn)問題(大飛機設計、全球氣候預測、人類基因、油藏模擬、海洋環(huán)流、藥物設計、超導材料等)都離不開HPC。466、高性能計算與高性能計算機6.1什么是高性能計算466、高性能計算與高性能計算機高性能計算的度量高性能計算的千進位量綱HPC主要采用峰值速度(單CPU速度×CPU數(shù)目,單位是每秒百萬次浮點運算,即MFlops)、Linpack實測速度(求解高階線性方程組的基準測試程序,單位是MFlops)和性能/功耗比(Flops/W)等來度量。前綴縮寫基冪含意數(shù)值KiloK103Thousand千MegaM106Million兆,百萬GigaG109Billion千兆,10億TeraT1012Trillion垓,萬億PetaP1015Quadrillion千萬億ExaE1018Quitillion百億億Flops:每秒所執(zhí)行的浮點運算次數(shù)(Floating-pointoperationspersecond)目前的PC機運算速度通常在GFlops量級,高性能計算機運算速度通常在TFlops至PFlops量級。476、高性能計算與高性能計算機高性能計算的度量前綴縮寫基冪含意6、高性能計算與高性能計算機6.2高性能計算機系統(tǒng)舉例美國:曾經(jīng)是超級計算機霸主的2008年和2009年兩年奪冠的IBMRoadrunner(走鵑)中國:曾在2010年11月排在世界第一的TH-1A(天河一號)486、高性能計算與高性能計算機6.2高性能計算機系統(tǒng)舉例486、高性能計算與高性能計算機日本:2011年11月曾排在世界第一的K-Computer(京計算機)496、高性能計算與高性能計算機日本:2011年11月曾排在世界6、高性能計算與高性能計算機近幾年來Top1的機器2001年,為IBMASCIWHITE,LINPACK峰值為12TFLOPS,處理器數(shù)目為8192。2002年—2004年上半年,為NECEarth-Simulator,LINPACK峰值為40TFLOPS,處理器數(shù)目為5120。2004年下半年—2007年11月,為IBMBlueGene,LINPACK峰值為478TFLOPS,處理器數(shù)目為212992。2008年6月,為IBMRoadrunner(走鵑),LINPACK峰值為1.026PFLOPS,處理器核數(shù)目為122400。2009年6月,為IBMRoadrunner(走鵑),LINPACK峰值為1.105PFLOPS,處理器核數(shù)目為129600。2009年11月-2010年6月,為Jaguar,峰值為1.759PFLOPS,處理器核數(shù)目為224162。2010年11月,為TH-1A,峰值為2.566PFLOPS,處理器核數(shù)目為186368。2011年6月-11月,為Kcomputer,峰值為10.51PFLOPS,處理器核數(shù)目為705024。2012年6月,為Sequoia,峰值為16.325PFLOPS,處理器核數(shù)目為1572864。2012年11月,為Titan,峰值為17.59PFLOPS,處理器核數(shù)目為560640。2013年11月,為Tianhe-2,峰值為33.86PFLOPS,處理器核數(shù)目為3120000。506、高性能計算與高性能計算機近幾年來Top1的機器506、高性能計算與高性能計算機6.3高性能計算的應用從傳統(tǒng)的應用到新興應用過去:物理和工程科學是計算和計算機科學應用驅動者。現(xiàn)今:像生物科學(從基于實驗發(fā)展為基于計算、從個體研究發(fā)展為跨學科研究、從注意數(shù)值技術發(fā)展為生物醫(yī)學計算方法等)等是計算和計算機科學的受益者。將來:社會科學和人文科學則是計算和計算機科學的主要消費者。傳統(tǒng)的科學與工程計算科學工程計算的共性:在過去20年,計算物理是應用的主要驅動力,這類應用具有如下共同特點:應用程序常常由定義在R3×t子空間的一組PDE所描述。多物理模擬的不同物理區(qū)域的計算方法各不相同。很多應用均主要集中在大學和研究所。研究側重點離散化PDE及其相應的線性/非線性方程的求解。強調并行機的速度和問題求解精度。很少關心相關的I/O操作。516、高性能計算與高性能計算機6.3高性能計算的應用516、高性能計算與高性能計算機并行化方法與編程模型并行化方法:最常使用區(qū)域分解法。編程模型:最常使用數(shù)據(jù)并行。與社會相關的新興應用新應用的共性:最近幾年,與社會相關的應用急劇增加與傳統(tǒng)的計算應用分享市場空間,其共性是:應用問題常常由圖來定義,而不是離散的R3空間。計算過程中的交互常是全局性的,而不是通過邊界來交換信息的。新出現(xiàn)的應用,無相應的使用經(jīng)驗和成熟的軟件。很多應用常集中在與社會相關的國計民生方面。研究側重點建立誠信機制:包括硬件、軟件、人機界面、安全協(xié)議的使用等。巨量的數(shù)據(jù),而不是科學計算,將是此類應用的主要處理對象,I/O是最為關心的。數(shù)據(jù)的安全、屬主、管理等帶來一系列技術、法律和人道等問題。526、高性能計算與高性能計算機并行化方法與編程模型527、高性能計算面臨大數(shù)據(jù)的挑戰(zhàn)7.1計算模型的轉變:從Scale-up到Scale-out傳統(tǒng)的高性能(HighPerformance)并行處理模型基于“Scale-up”所謂機器的性能(Performance)是指:機器能做計算的能力(Capability,Abilitytodocomputation)。所謂“Scale-up”意思是指:在并行系統(tǒng)中,利用增多處理器的數(shù)目而維持機器性能(即計算能力)的提高。大數(shù)據(jù)使用的是高通量(HighThroughput)并行處理模型“Scale-out”所謂吞吐量(Throughput)是指:穿過系統(tǒng)(進程)的數(shù)據(jù)項(Items)的數(shù)目(Amountofnumberofitems)。所謂“Scale-out”意思是指:在分布式系統(tǒng)中,利用連續(xù)不斷地加入低成本的計算和存儲節(jié)點而維持系統(tǒng)吞吐率的增加。537、高性能計算面臨大數(shù)據(jù)的挑戰(zhàn)7.1計算模型的轉變:從Sc7、高性能計算面臨大數(shù)據(jù)的挑戰(zhàn)7.2系統(tǒng)結構的轉變:從HP到HT傳統(tǒng)的高性能計算使用大規(guī)模并行處理結構大規(guī)模并行處理(MPP:MassivelyParallelProcessing)系統(tǒng)結構MPP特點處理器節(jié)點采用商用微處理器。系統(tǒng)中有物理上分布的存儲系統(tǒng)。處理器節(jié)點間采用定制的高帶寬、低延遲的互連網(wǎng)絡。整個系統(tǒng)擴充到成千上萬乃至更多的處理器。547、高性能計算面臨大數(shù)據(jù)的挑戰(zhàn)7.2系統(tǒng)結構的轉變:從HP7、高性能計算面臨大數(shù)據(jù)的挑戰(zhàn)大數(shù)據(jù)處理利用高通量分布處理結構分布自治的工作站機群(COW:ClusterofWorkstations)系統(tǒng)結構機群的特點每個節(jié)點是一臺獨立自治的PC機或服務器工作站等。各節(jié)點之間通過標準商用或低成本的網(wǎng)絡(千兆位以太網(wǎng)等)連接。整個系統(tǒng)可包含成百上千乃至更多的服務器。為適應大數(shù)據(jù)需要,系統(tǒng)中需配置不同形式的諸如固態(tài)存儲器(SSD)和高容量的SATA硬盤等磁盤陣列。557、高性能計算面臨大數(shù)據(jù)的挑戰(zhàn)大數(shù)據(jù)處理利用高通量分布處理結7.3編程模型的轉變:從BSP到MR大規(guī)模并行編程常使用大同步并行模型大同步并行(BSP:BulkSynchronousParallel)計算模型計算步驟

在BSP模型中,計算是由一系列超步(Supperstep)組成,在每一個超步中,首先各個處理器(或進程)均各自執(zhí)行自己的局部計算;然后通過接收/發(fā)送施行全局通信;最后施行路障同步。如此重復直至完成計算。7、高性能計算面臨大數(shù)據(jù)的挑戰(zhàn)567.3編程模型的轉變:從BSP到MR7、高性能計算面臨大數(shù)7、高性能計算面臨大數(shù)據(jù)的挑戰(zhàn)大數(shù)據(jù)并行處理常使用映射-歸約引擎映射-歸約(MR:Map-Reduce)

大數(shù)據(jù)處理引擎:實際上是一種先“分”后“合”的數(shù)據(jù)處理方式。右圖所示,采用MapReduce來統(tǒng)計集合形狀數(shù)量:①先把任務分配到兩個節(jié)點上分別并行統(tǒng)計,②把結果匯總,得到最終結果。處理作業(yè)(Job)步驟:

在MR中,一個作業(yè)(Job)被提交給主節(jié)點(Masternode),由其將任務(Tasks)指派給各個工作節(jié)點(Workernodes),進行分布并行處理:即經(jīng)過“Map”將存儲在DFS中的海量數(shù)據(jù)分割成若干部分,由各個工作節(jié)點并行處理;經(jīng)“Reduce”把各工作節(jié)點處理后的結果,進行匯總寫入到輸出DFS中去。577、高性能計算面臨大數(shù)據(jù)的挑戰(zhàn)大數(shù)據(jù)并行處理常使用映射-歸約7、高性能計算面臨大數(shù)據(jù)的挑戰(zhàn)7.4應用方式的轉變高性能計算(HPC)的應用應用對象(用戶):基本上是從事科學研究的大型工程計算的科學家和工程師們。應用模式:高性能計算(HPC)運營模式基本上是采用向計算中心事先預約,獨占計算資源,分時使用,統(tǒng)一付費的傳統(tǒng)科學工程計算模式。大數(shù)據(jù)處理的應用應用對象(用戶):大都是廣大的大數(shù)據(jù)分析從業(yè)人員。應用模式:大數(shù)據(jù)處理的運營模式是從業(yè)人員通過互聯(lián)網(wǎng)絡,對基于云計算的基礎設施(存儲和計算資源等)施行資源租用、即用即約、虛擬占用、按量付費的云計算運營模式。587、高性能計算面臨大數(shù)據(jù)的挑戰(zhàn)7.4應用方式的轉變587、高性能計算面臨大數(shù)據(jù)的挑戰(zhàn)7.5其他方面的轉變計算模式的轉變以計算為中心轉向以數(shù)據(jù)為中心:傳統(tǒng)的高性能計算主要以計算為中心,著重研究算法以及復雜性;而大數(shù)據(jù)時代除了研究計算外,更重要的是要研究計算對象,即數(shù)據(jù)的復雜性。以離線批處理計算轉向實時流計算:大規(guī)模科學工程計算往往是采用離線批處理集中計算方式;而大數(shù)據(jù)時代通常采用在其生命周期內呈現(xiàn)的一連串連續(xù)變化數(shù)據(jù)的實時流計算模式。數(shù)據(jù)存儲的轉變從集中式存儲轉向分布式存儲:傳統(tǒng)的高性能計算,數(shù)據(jù)通常集中存儲在磁盤、磁帶等外部存儲器中;而大數(shù)據(jù)時代文件系統(tǒng)往往存儲在不同層次的分布式存儲器中。從以行存儲轉向以列存儲:傳統(tǒng)的高性能計算,存儲在關系數(shù)據(jù)庫中的文件將記錄按行排序存儲;而大數(shù)據(jù)時代,將文件記錄的相同字段作為一個列簇而聚合存儲。597、高性能計算面臨大數(shù)據(jù)的挑戰(zhàn)7.5其他方面的轉變598、結論8.1物聯(lián)網(wǎng)(IOT)、大數(shù)據(jù)(BD)、云計算(CC)生態(tài)鏈 [注]: ①IOT通過采集與捕獲產(chǎn)生了BD;

②BD為CC找到了更多的實際應用;

③CC為BD提供了彈性可擴展的存儲和并行處理能力;

④BD使IOT產(chǎn)生了大價值;

云計算與高性能計算是一對出生時被分開的“雙胞胎”;云計算改變了高性能計算的運營模式;兩者結合(高性能云計算)則變成了“超常雙人”。8.2“各領風騷十數(shù)年”

計算科學是隨著時間快速變化的學科:從串行計算→并行計算→分布式計算→網(wǎng)絡計算→網(wǎng)格效用計算→云計算等。各個計算學科,不是各領風騷“數(shù)百年”,可能只是“十數(shù)年”!計算機各學科的出現(xiàn)與變化:“制無美惡,期于適時;變無遲速,要在當可?!保▏缽停簯椃ù罅x)現(xiàn)在“大數(shù)據(jù)浪潮席卷全球”,“大數(shù)據(jù)潮流浩浩蕩蕩”,大數(shù)據(jù)時代已經(jīng)到來了。我們要“順乎時代之潮流”不斷學習新知識,與時俱進,跟上時代之步伐!計算機事業(yè)永遠是年輕人的天下,大數(shù)據(jù)對年輕的一代而言,既是挑戰(zhàn)更是機遇,“無限風光在險峰”!IOTBDCCHPC①②③④⑤608、結論8.1物聯(lián)網(wǎng)(IOT)、大數(shù)據(jù)(BD)、云計算(C謝謝!

懇請大家批評指正!61謝謝!

懇請大家批評指正!61

1、用愛心來做事,用感恩的心做人。

2、人永遠在追求快樂,永遠在逃避痛苦。

3、有多大的思想,才有多大的能量。

4、人的能量=思想+行動速度的平方。

5、勵志是給人快樂,激勵是給人痛苦。

6、成功者絕不給自己軟弱的借口。

7、你只有一定要,才一定會得到。

8、決心是成功的開始。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論