




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
廈門大學計算機科學系2015年版
第一章大數(shù)據(jù)概述
(PPT版本號:2015年6月第1.0版)
《大數(shù)據(jù)技術(shù)原理與應用》/post/bigdata溫馨提示:編輯幻燈片母版,可以修改每頁PPT的廈大?;蘸偷撞课淖謴B門大學計算機科學系提綱1.1大數(shù)據(jù)時代1.2大數(shù)據(jù)概念1.3大數(shù)據(jù)的影響1.4大數(shù)據(jù)的應用1.5大數(shù)據(jù)關(guān)鍵技術(shù)1.6大數(shù)據(jù)計算模式1.7大數(shù)據(jù)產(chǎn)業(yè)1.8大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關(guān)系歡迎訪問《大數(shù)據(jù)技術(shù)原理與應用》教材官方網(wǎng)站:/post/bigdata本PPT是如下教材的配套講義:21世紀高等教育計算機規(guī)劃教材《大數(shù)據(jù)技術(shù)原理與應用——概念、存儲、處理、分析與應用》(2015年6月第1版)廈門大學林子雨編著,人民郵電出版社ISBN:978-7-115-39287-9提綱1.1大數(shù)據(jù)時代歡迎訪問《大數(shù)據(jù)技術(shù)原理與應用》教材官1.1大數(shù)據(jù)時代1.1大數(shù)據(jù)時代1.1.1第三次信息化浪潮根據(jù)IBM前首席執(zhí)行官郭士納的觀點,IT領(lǐng)域每隔十五年就會迎來一次重大變革信息化浪潮發(fā)生時間標志解決問題代表企業(yè)第一次浪潮1980年前后個人計算機信息處理Intel、AMD、IBM、蘋果、微軟、聯(lián)想、戴爾、惠普等第二次浪潮1995年前后互聯(lián)網(wǎng)信息傳輸雅虎、谷歌、阿里巴巴、百度、騰訊等第三次浪潮2010年前后物聯(lián)網(wǎng)、云計算和大數(shù)據(jù)信息爆炸將涌現(xiàn)出一批新的市場標桿企業(yè)表1-1三次信息化浪潮1.1.1第三次信息化浪潮根據(jù)IBM前首席執(zhí)行官郭士納的觀點1.1.2信息科技為大數(shù)據(jù)時代提供技術(shù)支撐圖1-1存儲價格隨時間變化情況1.存儲設備容量不斷增加1.1.2信息科技為大數(shù)據(jù)時代提供技術(shù)支撐圖1-1存儲價格1.1.2信息科技為大數(shù)據(jù)時代提供技術(shù)支撐圖1-3CPU晶體管數(shù)目隨時間變化情況2.CPU處理能力大幅提升
1.1.2信息科技為大數(shù)據(jù)時代提供技術(shù)支撐圖1-3CPU晶1.1.2信息科技為大數(shù)據(jù)時代提供技術(shù)支撐圖1-4網(wǎng)絡帶寬隨時間變化情況3.網(wǎng)絡帶寬不斷增加1.1.2信息科技為大數(shù)據(jù)時代提供技術(shù)支撐圖1-4網(wǎng)絡帶寬1.1.3數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時代的來臨圖1-5數(shù)據(jù)產(chǎn)生方式的變革1.1.3數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時代的來臨圖1-5數(shù)1.1.4大數(shù)據(jù)的發(fā)展歷程階段時間內(nèi)容第一階段:萌芽期上世紀90年代至本世紀初隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫技術(shù)的逐步成熟,一批商業(yè)智能工具和知識管理技術(shù)開始被應用,如數(shù)據(jù)倉庫、專家系統(tǒng)、知識管理系統(tǒng)等。第二階段:成熟期本世紀前十年Web2.0應用迅猛發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生,傳統(tǒng)處理方法難以應對,帶動了大數(shù)據(jù)技術(shù)的快速突破,大數(shù)據(jù)解決方案逐漸走向成熟,形成了并行計算與分布式系統(tǒng)兩大核心技術(shù),谷歌的GFD和MapReduce等發(fā)數(shù)據(jù)技術(shù)受到追捧,Hadoop平臺開始大行其道第三階段:大規(guī)模應用期2010年以后大數(shù)據(jù)應用滲透各行各業(yè),數(shù)據(jù)驅(qū)動決策,信息社會智能化程度大幅提高表1-2大數(shù)據(jù)發(fā)展的三個階段1.1.4大數(shù)據(jù)的發(fā)展歷程階段時間內(nèi)容第一階段:萌芽期上世1.2大數(shù)據(jù)概念1.2大數(shù)據(jù)概念1.2.1 數(shù)據(jù)量大根據(jù)IDC作出的估測,數(shù)據(jù)一直都在以每年50%的速度增長,也就是說每兩年就增長一倍(大數(shù)據(jù)摩爾定律)人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當于之前產(chǎn)生的全部數(shù)據(jù)量預計到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,相較于2010年,數(shù)據(jù)量將增長近30倍1.2.1 數(shù)據(jù)量大根據(jù)IDC作出的估測,數(shù)據(jù)一直都在以每年1.2.2 數(shù)據(jù)類型繁多大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的10%的結(jié)構(gòu)化數(shù)據(jù),存儲在數(shù)據(jù)庫中90%的非結(jié)構(gòu)化數(shù)據(jù),它們與人類信息密切相關(guān)非結(jié)構(gòu)化數(shù)據(jù)類型多樣郵件、視頻、微博位置信息、鏈接信息手機呼叫、網(wǎng)頁點擊“長微博”1.2.2 數(shù)據(jù)類型繁多大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的1.2.3 處理速度快從數(shù)據(jù)的生成到消耗,時間窗口非常小,可用于生成決策的時間非常少1秒定律:這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同1.2.3 處理速度快從數(shù)據(jù)的生成到消耗,時間窗口非常小,可1.2.4 價值密度低
價值密度低,商業(yè)價值高
以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒,但是具有很高的商業(yè)價值1.2.4 價值密度低 價值密度低,商業(yè)價值高1.3大數(shù)據(jù)的影響大數(shù)據(jù)對科學研究、思維方式和社會發(fā)展都具有重要而深遠的影響。在科學研究方面,大數(shù)據(jù)使得人類科學研究在經(jīng)歷了實驗、理論、計算三種范式之后,迎來了第四種范式——數(shù)據(jù)在思維方式方面,大數(shù)據(jù)具有“全樣而非抽樣、效率而非精確、相關(guān)而非因果”等三大顯著特征,完全顛覆了傳統(tǒng)的思維方式在社會發(fā)展方面,大數(shù)據(jù)決策逐漸成為一種新的決策方式,大數(shù)據(jù)應用有力促進了信息技術(shù)與各行業(yè)的深度融合,大數(shù)據(jù)開發(fā)大大推動了新技術(shù)和新應用的不斷涌現(xiàn)在就業(yè)市場方面,大數(shù)據(jù)的興起使得數(shù)據(jù)科學家成為熱門職業(yè)在人才培養(yǎng)方面,大數(shù)據(jù)的興起,將在很大程度上改變中國高校信息技術(shù)相關(guān)專業(yè)的現(xiàn)有教學和科研體制1.3大數(shù)據(jù)的影響大數(shù)據(jù)對科學研究、思維方式和社會發(fā)展都具有1.4大數(shù)據(jù)的應用大數(shù)據(jù)無處不在,包括金融、汽車、零售、餐飲、電信、能源、政務、醫(yī)療、體育、娛樂等在內(nèi)的社會各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡1.4大數(shù)據(jù)的應用大數(shù)據(jù)無處不在,包括金融、汽車、零售、餐飲1.5大數(shù)據(jù)關(guān)鍵技術(shù)表1-5大數(shù)據(jù)技術(shù)的不同層面及其功能技術(shù)層面功能數(shù)據(jù)采集利用ETL工具將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等,抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎;或者也可以把實時采集的數(shù)據(jù)作為流計算系統(tǒng)的輸入,進行實時處理分析數(shù)據(jù)存儲和管理利用分布式文件系統(tǒng)、數(shù)據(jù)倉庫、關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、云數(shù)據(jù)庫等,實現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲和管理數(shù)據(jù)處理與分析利用分布式并行編程模型和計算框架,結(jié)合機器學習和數(shù)據(jù)挖掘算法,實現(xiàn)對海量數(shù)據(jù)的處理和分析;對分析結(jié)果進行可視化呈現(xiàn),幫助人們更好地理解數(shù)據(jù)、分析數(shù)據(jù)數(shù)據(jù)隱私和安全在從大數(shù)據(jù)中挖掘潛在的巨大商業(yè)價值和學術(shù)價值的同時,構(gòu)建隱私數(shù)據(jù)保護體系和數(shù)據(jù)安全體系,有效保護個人隱私和數(shù)據(jù)安全1.5大數(shù)據(jù)關(guān)鍵技術(shù)表1-5大數(shù)據(jù)技術(shù)的不同層面及其功能技1.6大數(shù)據(jù)計算模式大數(shù)據(jù)計算模式解決問題代表產(chǎn)品批處理計算針對大規(guī)模數(shù)據(jù)的批量處理MapReduce、Spark等流計算針對流數(shù)據(jù)的實時計算Storm、S4、Flume、Streams、Puma、DStream、SuperMario、銀河流數(shù)據(jù)處理平臺等圖計算針對大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等查詢分析計算大規(guī)模數(shù)據(jù)的存儲管理和查詢分析Dremel、Hive、Cassandra、Impala等表1-3大數(shù)據(jù)計算模式及其代表產(chǎn)品1.6大數(shù)據(jù)計算模式大數(shù)據(jù)計算模式解決問題代表產(chǎn)品批處理計算1.7大數(shù)據(jù)產(chǎn)業(yè)大數(shù)據(jù)產(chǎn)業(yè)是指一切與支撐大數(shù)據(jù)組織管理和價值發(fā)現(xiàn)相關(guān)的企業(yè)經(jīng)濟活動的集合產(chǎn)業(yè)鏈環(huán)節(jié)包含內(nèi)容IT基礎設施層包括提供硬件、軟件、網(wǎng)絡等基礎設施以及提供咨詢、規(guī)劃和系統(tǒng)集成服務的企業(yè),比如,提供數(shù)據(jù)中心解決方案的IBM、惠普和戴爾等,提供存儲解決方案的EMC,提供虛擬化管理軟件的微軟、思杰、SUN、Redhat等數(shù)據(jù)源層大數(shù)據(jù)生態(tài)圈里的數(shù)據(jù)提供者,是生物大數(shù)據(jù)(生物信息學領(lǐng)域的各類研究機構(gòu))、交通大數(shù)據(jù)(交通主管部門)、醫(yī)療大數(shù)據(jù)(各大醫(yī)院、體檢機構(gòu))、政務大數(shù)據(jù)(政府部門)、電商大數(shù)據(jù)(淘寶、天貓、蘇寧云商、京東等電商)、社交網(wǎng)絡大數(shù)據(jù)(微博、微信、人人網(wǎng)等)、搜索引擎大數(shù)據(jù)(百度、谷歌等)等各種數(shù)據(jù)的來源數(shù)據(jù)管理層包括數(shù)據(jù)抽取、轉(zhuǎn)換、存儲和管理等服務的各類企業(yè)或產(chǎn)品,比如分布式文件系統(tǒng)(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、數(shù)據(jù)庫和數(shù)據(jù)倉庫(Oracle、MySQL、SQLServer、HBase、GreenPlum等)數(shù)據(jù)分析層包括提供分布式計算、數(shù)據(jù)挖掘、統(tǒng)計分析等服務的各類企業(yè)或產(chǎn)品,比如,分布式計算框架MapReduce、統(tǒng)計分析軟件SPSS和SAS、數(shù)據(jù)挖掘工具Weka、數(shù)據(jù)可視化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等數(shù)據(jù)平臺層包括提供數(shù)據(jù)分享平臺、數(shù)據(jù)分析平臺、數(shù)據(jù)租售平臺等服務的企業(yè)或產(chǎn)品,比如阿里巴巴、谷歌、中國電信、百度等數(shù)據(jù)應用層提供智能交通、智慧醫(yī)療、智能物流、智能電網(wǎng)等行業(yè)應用的企業(yè)、機構(gòu)或政府部門,比如交通主管部門、各大醫(yī)療機構(gòu)、菜鳥網(wǎng)絡、國家電網(wǎng)等1.7大數(shù)據(jù)產(chǎn)業(yè)大數(shù)據(jù)產(chǎn)業(yè)是指一切與支撐大數(shù)據(jù)組織管理和價值1.8大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關(guān)系云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表了IT領(lǐng)域最新的技術(shù)發(fā)展趨勢,三者相輔相成,既有聯(lián)系又有區(qū)別1.8大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關(guān)系云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表1.8.1云計算云計算實現(xiàn)了通過網(wǎng)絡提供可伸縮的、廉價的分布式計算能力,用戶只需要在具備網(wǎng)絡接入條件的地方,就可以隨時隨地獲得所需的各種IT資源圖1-7云計算的服務模式和類型1.云計算概念1.8.1云計算云計算實現(xiàn)了通過網(wǎng)絡提供可伸縮的、廉價的分布1.8.1云計算云計算關(guān)鍵技術(shù)包括:虛擬化、分布式存儲、分布式計算、多租戶等2.云計算關(guān)鍵技術(shù)1.8.1云計算云計算關(guān)鍵技術(shù)包括:虛擬化、分布式存儲、分布1.8.1云計算云計算數(shù)據(jù)中心是一整套復雜的設施,包括刀片服務器、寬帶網(wǎng)絡連接、環(huán)境控制設備、監(jiān)控設備以及各種安全裝置等數(shù)據(jù)中心是云計算的重要載體,為云計算提供計算、存儲、帶寬等各種硬件資源,為各種平臺和應用提供運行支撐環(huán)境3.云計算數(shù)據(jù)中心1.8.1云計算云計算數(shù)據(jù)中心是一整套復雜的設施,包括刀片服1.8.1云計算政務云上可以部署公共安全管理、容災備份、城市管理、應急管理、智能交通、社會保障等應用,通過集約化建設、管理和運行,可以實現(xiàn)信息資源整合和政務資源共享,推動政務管理創(chuàng)新,加快向服務型政府轉(zhuǎn)型教育云可以有效整合幼兒教育、中小學教育、高等教育以及繼續(xù)教育等優(yōu)質(zhì)教育資源,逐步實現(xiàn)教育信息共享、教育資源共享及教育資源深度挖掘等目標中小企業(yè)云能夠讓企業(yè)以低廉的成本建立財務、供應鏈、客戶關(guān)系等管理應用系統(tǒng),大大降低企業(yè)信息化門檻,迅速提升企業(yè)信息化水平,增強企業(yè)市場競爭力醫(yī)療云可以推動醫(yī)院與醫(yī)院、醫(yī)院與社區(qū)、醫(yī)院與急救中心、醫(yī)院與家庭之間的服務共享,并形成一套全新的醫(yī)療健康服務系統(tǒng),從而有效地提高醫(yī)療保健的質(zhì)量4.云計算應用1.8.1云計算政務云上可以部署公共安全管理、容災備份、城市1.8.1云計算云計算產(chǎn)業(yè)作為戰(zhàn)略性新興產(chǎn)業(yè),近些年得到了迅速發(fā)展,形成了成熟的產(chǎn)業(yè)鏈結(jié)構(gòu),產(chǎn)業(yè)涵蓋硬件與設備制造、基礎設施運營、軟件與解決方案供應商、基礎設施即服務(IaaS)、平臺即服務(PaaS)、軟件即服務(SaaS)、終端設備、云安全、云計算交付/咨詢/認證等環(huán)節(jié)圖1-8云計算產(chǎn)業(yè)鏈5.云計算產(chǎn)業(yè)1.8.1云計算云計算產(chǎn)業(yè)作為戰(zhàn)略性新興產(chǎn)業(yè),近些年得到了1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)是物物相連的互聯(lián)網(wǎng),是互聯(lián)網(wǎng)的延伸,它利用局部網(wǎng)絡或互聯(lián)網(wǎng)等通信技術(shù)把傳感器、控制器、機器、人員和物等通過新的方式聯(lián)在一起,形成人與物、物與物相聯(lián),實現(xiàn)信息化和遠程管理控制1.物聯(lián)網(wǎng)概念圖1-9物聯(lián)網(wǎng)體系架構(gòu)1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)是物物相連的互聯(lián)網(wǎng),是互聯(lián)網(wǎng)的延伸,它1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)中的關(guān)鍵技術(shù)包括識別和感知技術(shù)(二維碼、RFID、傳感器等)、網(wǎng)絡與通信技術(shù)、數(shù)據(jù)挖掘與融合技術(shù)等2.物聯(lián)網(wǎng)關(guān)鍵技術(shù)圖1-10矩陣式二維碼圖1-11采用RFID芯片的公交卡圖1-12不同類型的傳感器1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)中的關(guān)鍵技術(shù)包括識別和感知技術(shù)(二維碼1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)已經(jīng)廣泛應用于智能交通、智慧醫(yī)療、智能家居、環(huán)保監(jiān)測、智能安防、智能物流、智能電網(wǎng)、智慧農(nóng)業(yè)、智能工業(yè)等領(lǐng)域,對國民經(jīng)濟與社會發(fā)展起到了重要的推動作用3.物聯(lián)網(wǎng)應用1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)已經(jīng)廣泛應用于智能交通、智慧醫(yī)療、智能1.8.2物聯(lián)網(wǎng)完整的物聯(lián)網(wǎng)產(chǎn)業(yè)鏈主要包括核心感應器件提供商、感知層末端設備提供商、網(wǎng)絡提供商、軟件與行業(yè)解決方案提供商、系統(tǒng)集成商、運營及服務提供商等六大環(huán)節(jié)圖1-8物聯(lián)網(wǎng)產(chǎn)業(yè)鏈4.物聯(lián)網(wǎng)產(chǎn)業(yè)1.8.2物聯(lián)網(wǎng)完整的物聯(lián)網(wǎng)產(chǎn)業(yè)鏈主要包括核心感應器件提供商1.8.3大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關(guān)系云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表了IT領(lǐng)域最新的技術(shù)發(fā)展趨勢,三者既有區(qū)別又有聯(lián)系圖1-9大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)之間的關(guān)系1.8.3大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關(guān)系云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)本章小結(jié)本章介紹了大數(shù)據(jù)技術(shù)的發(fā)展歷程,并指出信息科技的不斷進步為大數(shù)據(jù)時代提供了技術(shù)支撐,數(shù)據(jù)產(chǎn)生方式的變革促成了大數(shù)據(jù)時代的來臨大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)類型繁多、處理速度快、價值密度低等特點,統(tǒng)稱“4V”。大數(shù)據(jù)對科學研究、思維方式、社會發(fā)展、就業(yè)市場和人才培養(yǎng)等方面,都產(chǎn)生了重要的影響,深刻理解大數(shù)據(jù)的這些影響,有助于我們更好把握學習和應用大數(shù)據(jù)的方向大數(shù)據(jù)在金融、汽車、零售、餐飲、電信、能源、政務、醫(yī)療、體育、娛樂等在內(nèi)的社會各行各業(yè)都得到了日益廣泛的應用,深刻地改變著我們的社會生產(chǎn)和日常生活大數(shù)據(jù)并非單一的數(shù)據(jù)或技術(shù),而是數(shù)據(jù)和大數(shù)據(jù)技術(shù)的綜合體。大數(shù)據(jù)技術(shù)主要包括數(shù)據(jù)采集、數(shù)據(jù)存儲和管理、數(shù)據(jù)處理與分析、數(shù)據(jù)安全和隱私保護等幾個層面的內(nèi)容大數(shù)據(jù)產(chǎn)業(yè)包括IT基礎設施層、數(shù)據(jù)源層、數(shù)據(jù)管理層、數(shù)據(jù)分析層、數(shù)據(jù)平臺層和數(shù)據(jù)應用層,在不同層面,都已經(jīng)形成了一批引領(lǐng)市場的技術(shù)和企業(yè)本章最后介紹了云計算和物聯(lián)網(wǎng)的概念和關(guān)鍵技術(shù),并闡述了大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)三者之間的區(qū)別與聯(lián)系本章小結(jié)本章介紹了大數(shù)據(jù)技術(shù)的發(fā)展歷程,并指出信息科技的不斷主講教師和助教主講教師:林子雨單位:廈門大學計算機科學系數(shù)據(jù)庫實驗室2013級碩士研究生(導師:林子雨)E-mail:caiminxing@126.com助教:蔡珉星歡迎訪問《大數(shù)據(jù)技術(shù)原理與應用——概念、存儲、處理、分析與應用》教材官方網(wǎng)站:/post/bigdata主講教師和助教主講教師:林子雨單位:廈門大學計算機科學系數(shù)據(jù)DepartmentofComputerScience,XiamenUniversity,June,2015DepartmentofComputerScience廈門大學計算機科學系2015年版
第一章大數(shù)據(jù)概述
(PPT版本號:2015年6月第1.0版)
《大數(shù)據(jù)技術(shù)原理與應用》/post/bigdata溫馨提示:編輯幻燈片母版,可以修改每頁PPT的廈大校徽和底部文字廈門大學計算機科學系提綱1.1大數(shù)據(jù)時代1.2大數(shù)據(jù)概念1.3大數(shù)據(jù)的影響1.4大數(shù)據(jù)的應用1.5大數(shù)據(jù)關(guān)鍵技術(shù)1.6大數(shù)據(jù)計算模式1.7大數(shù)據(jù)產(chǎn)業(yè)1.8大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關(guān)系歡迎訪問《大數(shù)據(jù)技術(shù)原理與應用》教材官方網(wǎng)站:/post/bigdata本PPT是如下教材的配套講義:21世紀高等教育計算機規(guī)劃教材《大數(shù)據(jù)技術(shù)原理與應用——概念、存儲、處理、分析與應用》(2015年6月第1版)廈門大學林子雨編著,人民郵電出版社ISBN:978-7-115-39287-9提綱1.1大數(shù)據(jù)時代歡迎訪問《大數(shù)據(jù)技術(shù)原理與應用》教材官1.1大數(shù)據(jù)時代1.1大數(shù)據(jù)時代1.1.1第三次信息化浪潮根據(jù)IBM前首席執(zhí)行官郭士納的觀點,IT領(lǐng)域每隔十五年就會迎來一次重大變革信息化浪潮發(fā)生時間標志解決問題代表企業(yè)第一次浪潮1980年前后個人計算機信息處理Intel、AMD、IBM、蘋果、微軟、聯(lián)想、戴爾、惠普等第二次浪潮1995年前后互聯(lián)網(wǎng)信息傳輸雅虎、谷歌、阿里巴巴、百度、騰訊等第三次浪潮2010年前后物聯(lián)網(wǎng)、云計算和大數(shù)據(jù)信息爆炸將涌現(xiàn)出一批新的市場標桿企業(yè)表1-1三次信息化浪潮1.1.1第三次信息化浪潮根據(jù)IBM前首席執(zhí)行官郭士納的觀點1.1.2信息科技為大數(shù)據(jù)時代提供技術(shù)支撐圖1-1存儲價格隨時間變化情況1.存儲設備容量不斷增加1.1.2信息科技為大數(shù)據(jù)時代提供技術(shù)支撐圖1-1存儲價格1.1.2信息科技為大數(shù)據(jù)時代提供技術(shù)支撐圖1-3CPU晶體管數(shù)目隨時間變化情況2.CPU處理能力大幅提升
1.1.2信息科技為大數(shù)據(jù)時代提供技術(shù)支撐圖1-3CPU晶1.1.2信息科技為大數(shù)據(jù)時代提供技術(shù)支撐圖1-4網(wǎng)絡帶寬隨時間變化情況3.網(wǎng)絡帶寬不斷增加1.1.2信息科技為大數(shù)據(jù)時代提供技術(shù)支撐圖1-4網(wǎng)絡帶寬1.1.3數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時代的來臨圖1-5數(shù)據(jù)產(chǎn)生方式的變革1.1.3數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時代的來臨圖1-5數(shù)1.1.4大數(shù)據(jù)的發(fā)展歷程階段時間內(nèi)容第一階段:萌芽期上世紀90年代至本世紀初隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫技術(shù)的逐步成熟,一批商業(yè)智能工具和知識管理技術(shù)開始被應用,如數(shù)據(jù)倉庫、專家系統(tǒng)、知識管理系統(tǒng)等。第二階段:成熟期本世紀前十年Web2.0應用迅猛發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生,傳統(tǒng)處理方法難以應對,帶動了大數(shù)據(jù)技術(shù)的快速突破,大數(shù)據(jù)解決方案逐漸走向成熟,形成了并行計算與分布式系統(tǒng)兩大核心技術(shù),谷歌的GFD和MapReduce等發(fā)數(shù)據(jù)技術(shù)受到追捧,Hadoop平臺開始大行其道第三階段:大規(guī)模應用期2010年以后大數(shù)據(jù)應用滲透各行各業(yè),數(shù)據(jù)驅(qū)動決策,信息社會智能化程度大幅提高表1-2大數(shù)據(jù)發(fā)展的三個階段1.1.4大數(shù)據(jù)的發(fā)展歷程階段時間內(nèi)容第一階段:萌芽期上世1.2大數(shù)據(jù)概念1.2大數(shù)據(jù)概念1.2.1 數(shù)據(jù)量大根據(jù)IDC作出的估測,數(shù)據(jù)一直都在以每年50%的速度增長,也就是說每兩年就增長一倍(大數(shù)據(jù)摩爾定律)人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當于之前產(chǎn)生的全部數(shù)據(jù)量預計到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,相較于2010年,數(shù)據(jù)量將增長近30倍1.2.1 數(shù)據(jù)量大根據(jù)IDC作出的估測,數(shù)據(jù)一直都在以每年1.2.2 數(shù)據(jù)類型繁多大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的10%的結(jié)構(gòu)化數(shù)據(jù),存儲在數(shù)據(jù)庫中90%的非結(jié)構(gòu)化數(shù)據(jù),它們與人類信息密切相關(guān)非結(jié)構(gòu)化數(shù)據(jù)類型多樣郵件、視頻、微博位置信息、鏈接信息手機呼叫、網(wǎng)頁點擊“長微博”1.2.2 數(shù)據(jù)類型繁多大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的1.2.3 處理速度快從數(shù)據(jù)的生成到消耗,時間窗口非常小,可用于生成決策的時間非常少1秒定律:這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同1.2.3 處理速度快從數(shù)據(jù)的生成到消耗,時間窗口非常小,可1.2.4 價值密度低
價值密度低,商業(yè)價值高
以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒,但是具有很高的商業(yè)價值1.2.4 價值密度低 價值密度低,商業(yè)價值高1.3大數(shù)據(jù)的影響大數(shù)據(jù)對科學研究、思維方式和社會發(fā)展都具有重要而深遠的影響。在科學研究方面,大數(shù)據(jù)使得人類科學研究在經(jīng)歷了實驗、理論、計算三種范式之后,迎來了第四種范式——數(shù)據(jù)在思維方式方面,大數(shù)據(jù)具有“全樣而非抽樣、效率而非精確、相關(guān)而非因果”等三大顯著特征,完全顛覆了傳統(tǒng)的思維方式在社會發(fā)展方面,大數(shù)據(jù)決策逐漸成為一種新的決策方式,大數(shù)據(jù)應用有力促進了信息技術(shù)與各行業(yè)的深度融合,大數(shù)據(jù)開發(fā)大大推動了新技術(shù)和新應用的不斷涌現(xiàn)在就業(yè)市場方面,大數(shù)據(jù)的興起使得數(shù)據(jù)科學家成為熱門職業(yè)在人才培養(yǎng)方面,大數(shù)據(jù)的興起,將在很大程度上改變中國高校信息技術(shù)相關(guān)專業(yè)的現(xiàn)有教學和科研體制1.3大數(shù)據(jù)的影響大數(shù)據(jù)對科學研究、思維方式和社會發(fā)展都具有1.4大數(shù)據(jù)的應用大數(shù)據(jù)無處不在,包括金融、汽車、零售、餐飲、電信、能源、政務、醫(yī)療、體育、娛樂等在內(nèi)的社會各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡1.4大數(shù)據(jù)的應用大數(shù)據(jù)無處不在,包括金融、汽車、零售、餐飲1.5大數(shù)據(jù)關(guān)鍵技術(shù)表1-5大數(shù)據(jù)技術(shù)的不同層面及其功能技術(shù)層面功能數(shù)據(jù)采集利用ETL工具將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等,抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎;或者也可以把實時采集的數(shù)據(jù)作為流計算系統(tǒng)的輸入,進行實時處理分析數(shù)據(jù)存儲和管理利用分布式文件系統(tǒng)、數(shù)據(jù)倉庫、關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、云數(shù)據(jù)庫等,實現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲和管理數(shù)據(jù)處理與分析利用分布式并行編程模型和計算框架,結(jié)合機器學習和數(shù)據(jù)挖掘算法,實現(xiàn)對海量數(shù)據(jù)的處理和分析;對分析結(jié)果進行可視化呈現(xiàn),幫助人們更好地理解數(shù)據(jù)、分析數(shù)據(jù)數(shù)據(jù)隱私和安全在從大數(shù)據(jù)中挖掘潛在的巨大商業(yè)價值和學術(shù)價值的同時,構(gòu)建隱私數(shù)據(jù)保護體系和數(shù)據(jù)安全體系,有效保護個人隱私和數(shù)據(jù)安全1.5大數(shù)據(jù)關(guān)鍵技術(shù)表1-5大數(shù)據(jù)技術(shù)的不同層面及其功能技1.6大數(shù)據(jù)計算模式大數(shù)據(jù)計算模式解決問題代表產(chǎn)品批處理計算針對大規(guī)模數(shù)據(jù)的批量處理MapReduce、Spark等流計算針對流數(shù)據(jù)的實時計算Storm、S4、Flume、Streams、Puma、DStream、SuperMario、銀河流數(shù)據(jù)處理平臺等圖計算針對大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等查詢分析計算大規(guī)模數(shù)據(jù)的存儲管理和查詢分析Dremel、Hive、Cassandra、Impala等表1-3大數(shù)據(jù)計算模式及其代表產(chǎn)品1.6大數(shù)據(jù)計算模式大數(shù)據(jù)計算模式解決問題代表產(chǎn)品批處理計算1.7大數(shù)據(jù)產(chǎn)業(yè)大數(shù)據(jù)產(chǎn)業(yè)是指一切與支撐大數(shù)據(jù)組織管理和價值發(fā)現(xiàn)相關(guān)的企業(yè)經(jīng)濟活動的集合產(chǎn)業(yè)鏈環(huán)節(jié)包含內(nèi)容IT基礎設施層包括提供硬件、軟件、網(wǎng)絡等基礎設施以及提供咨詢、規(guī)劃和系統(tǒng)集成服務的企業(yè),比如,提供數(shù)據(jù)中心解決方案的IBM、惠普和戴爾等,提供存儲解決方案的EMC,提供虛擬化管理軟件的微軟、思杰、SUN、Redhat等數(shù)據(jù)源層大數(shù)據(jù)生態(tài)圈里的數(shù)據(jù)提供者,是生物大數(shù)據(jù)(生物信息學領(lǐng)域的各類研究機構(gòu))、交通大數(shù)據(jù)(交通主管部門)、醫(yī)療大數(shù)據(jù)(各大醫(yī)院、體檢機構(gòu))、政務大數(shù)據(jù)(政府部門)、電商大數(shù)據(jù)(淘寶、天貓、蘇寧云商、京東等電商)、社交網(wǎng)絡大數(shù)據(jù)(微博、微信、人人網(wǎng)等)、搜索引擎大數(shù)據(jù)(百度、谷歌等)等各種數(shù)據(jù)的來源數(shù)據(jù)管理層包括數(shù)據(jù)抽取、轉(zhuǎn)換、存儲和管理等服務的各類企業(yè)或產(chǎn)品,比如分布式文件系統(tǒng)(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、數(shù)據(jù)庫和數(shù)據(jù)倉庫(Oracle、MySQL、SQLServer、HBase、GreenPlum等)數(shù)據(jù)分析層包括提供分布式計算、數(shù)據(jù)挖掘、統(tǒng)計分析等服務的各類企業(yè)或產(chǎn)品,比如,分布式計算框架MapReduce、統(tǒng)計分析軟件SPSS和SAS、數(shù)據(jù)挖掘工具Weka、數(shù)據(jù)可視化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等數(shù)據(jù)平臺層包括提供數(shù)據(jù)分享平臺、數(shù)據(jù)分析平臺、數(shù)據(jù)租售平臺等服務的企業(yè)或產(chǎn)品,比如阿里巴巴、谷歌、中國電信、百度等數(shù)據(jù)應用層提供智能交通、智慧醫(yī)療、智能物流、智能電網(wǎng)等行業(yè)應用的企業(yè)、機構(gòu)或政府部門,比如交通主管部門、各大醫(yī)療機構(gòu)、菜鳥網(wǎng)絡、國家電網(wǎng)等1.7大數(shù)據(jù)產(chǎn)業(yè)大數(shù)據(jù)產(chǎn)業(yè)是指一切與支撐大數(shù)據(jù)組織管理和價值1.8大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關(guān)系云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表了IT領(lǐng)域最新的技術(shù)發(fā)展趨勢,三者相輔相成,既有聯(lián)系又有區(qū)別1.8大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的關(guān)系云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表1.8.1云計算云計算實現(xiàn)了通過網(wǎng)絡提供可伸縮的、廉價的分布式計算能力,用戶只需要在具備網(wǎng)絡接入條件的地方,就可以隨時隨地獲得所需的各種IT資源圖1-7云計算的服務模式和類型1.云計算概念1.8.1云計算云計算實現(xiàn)了通過網(wǎng)絡提供可伸縮的、廉價的分布1.8.1云計算云計算關(guān)鍵技術(shù)包括:虛擬化、分布式存儲、分布式計算、多租戶等2.云計算關(guān)鍵技術(shù)1.8.1云計算云計算關(guān)鍵技術(shù)包括:虛擬化、分布式存儲、分布1.8.1云計算云計算數(shù)據(jù)中心是一整套復雜的設施,包括刀片服務器、寬帶網(wǎng)絡連接、環(huán)境控制設備、監(jiān)控設備以及各種安全裝置等數(shù)據(jù)中心是云計算的重要載體,為云計算提供計算、存儲、帶寬等各種硬件資源,為各種平臺和應用提供運行支撐環(huán)境3.云計算數(shù)據(jù)中心1.8.1云計算云計算數(shù)據(jù)中心是一整套復雜的設施,包括刀片服1.8.1云計算政務云上可以部署公共安全管理、容災備份、城市管理、應急管理、智能交通、社會保障等應用,通過集約化建設、管理和運行,可以實現(xiàn)信息資源整合和政務資源共享,推動政務管理創(chuàng)新,加快向服務型政府轉(zhuǎn)型教育云可以有效整合幼兒教育、中小學教育、高等教育以及繼續(xù)教育等優(yōu)質(zhì)教育資源,逐步實現(xiàn)教育信息共享、教育資源共享及教育資源深度挖掘等目標中小企業(yè)云能夠讓企業(yè)以低廉的成本建立財務、供應鏈、客戶關(guān)系等管理應用系統(tǒng),大大降低企業(yè)信息化門檻,迅速提升企業(yè)信息化水平,增強企業(yè)市場競爭力醫(yī)療云可以推動醫(yī)院與醫(yī)院、醫(yī)院與社區(qū)、醫(yī)院與急救中心、醫(yī)院與家庭之間的服務共享,并形成一套全新的醫(yī)療健康服務系統(tǒng),從而有效地提高醫(yī)療保健的質(zhì)量4.云計算應用1.8.1云計算政務云上可以部署公共安全管理、容災備份、城市1.8.1云計算云計算產(chǎn)業(yè)作為戰(zhàn)略性新興產(chǎn)業(yè),近些年得到了迅速發(fā)展,形成了成熟的產(chǎn)業(yè)鏈結(jié)構(gòu),產(chǎn)業(yè)涵蓋硬件與設備制造、基礎設施運營、軟件與解決方案供應商、基礎設施即服務(IaaS)、平臺即服務(PaaS)、軟件即服務(SaaS)、終端設備、云安全、云計算交付/咨詢/認證等環(huán)節(jié)圖1-8云計算產(chǎn)業(yè)鏈5.云計算產(chǎn)業(yè)1.8.1云計算云計算產(chǎn)業(yè)作為戰(zhàn)略性新興產(chǎn)業(yè),近些年得到了1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)是物物相連的互聯(lián)網(wǎng),是互聯(lián)網(wǎng)的延伸,它利用局部網(wǎng)絡或互聯(lián)網(wǎng)等通信技術(shù)把傳感器、控制器、機器、人員和物等通過新的方式聯(lián)在一起,形成人與物、物與物相聯(lián),實現(xiàn)信息化和遠程管理控制1.物聯(lián)網(wǎng)概念圖1-9物聯(lián)網(wǎng)體系架構(gòu)1.8.2物聯(lián)網(wǎng)物聯(lián)網(wǎng)是物物相連的互聯(lián)網(wǎng),是互聯(lián)網(wǎng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 各類廣告合同范本
- 廠房噴漆合同范本
- 俱樂部管理合同范本
- 廚師和飯店合同范本
- 動物園籠舍承包合同范本
- 合伙禮盒合同范本
- 合同范本購銷合同寫
- 合同范本服務承包
- 合同范本模板銷售
- 寫網(wǎng)購合同范本
- 排水管道施工組織設計排水管道施工組織設計排水施工排水管道施工施工設計
- 人工智能科普教育活動方案設計
- 2024未來會議:AI與協(xié)作前沿趨勢白皮書
- 2024年廣東普通專升本《公共英語》完整版真題
- 國家中長期科技發(fā)展規(guī)劃(2021-2035)
- 中國民族音樂的宮庭音樂
- 單原子催化劑的合成與應用
- 水利工程施工驗收規(guī)范對工程監(jiān)理單位的要求
- 五年級上冊小數(shù)乘除練習300道及答案
- 《新概念英語第二冊》電子書、單詞、筆記、練習冊(附答案)匯編
- Midea美的F50-22DE5(HEY)電熱水器說明書
評論
0/150
提交評論