新一代信息技術(shù)導(dǎo)論-第4章-大數(shù)據(jù)時(shí)代變革_第1頁(yè)
新一代信息技術(shù)導(dǎo)論-第4章-大數(shù)據(jù)時(shí)代變革_第2頁(yè)
新一代信息技術(shù)導(dǎo)論-第4章-大數(shù)據(jù)時(shí)代變革_第3頁(yè)
新一代信息技術(shù)導(dǎo)論-第4章-大數(shù)據(jù)時(shí)代變革_第4頁(yè)
新一代信息技術(shù)導(dǎo)論-第4章-大數(shù)據(jù)時(shí)代變革_第5頁(yè)
已閱讀5頁(yè),還剩61頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

新一代信息技術(shù)導(dǎo)論第四章大數(shù)據(jù)時(shí)代變革學(xué)習(xí)任務(wù)了解大數(shù)據(jù)的概念、大數(shù)據(jù)行業(yè)的應(yīng)用;熟悉大數(shù)據(jù)的影響、大數(shù)據(jù)產(chǎn)業(yè);了解大數(shù)據(jù)的關(guān)鍵技術(shù)。23知識(shí)目標(biāo)大數(shù)據(jù)的概念和影響大數(shù)據(jù)產(chǎn)業(yè)和行業(yè)應(yīng)用大數(shù)據(jù)的關(guān)鍵技術(shù)01能力目標(biāo)掌握大數(shù)據(jù)行業(yè)應(yīng)用了解大數(shù)據(jù)影響內(nèi)容熟悉大數(shù)據(jù)關(guān)鍵技術(shù)內(nèi)容02學(xué)習(xí)目標(biāo)4.1大數(shù)據(jù)的概念4大數(shù)據(jù)時(shí)代背景資料:1.大數(shù)據(jù)時(shí)代大數(shù)據(jù)時(shí)代的到來(lái):

第三次信息化浪潮涌動(dòng),大數(shù)據(jù)時(shí)代全面開(kāi)啟。人類社會(huì)信息科技的發(fā)展為大數(shù)據(jù)時(shí)代的到來(lái)提供了技術(shù)支撐,而數(shù)據(jù)產(chǎn)生方式的變革是促進(jìn)大數(shù)據(jù)時(shí)代到來(lái)至關(guān)重要的因素。5三次信息化浪潮第一次信息化浪潮:1980年前后,個(gè)人計(jì)算機(jī)(PC)開(kāi)始普及,使得計(jì)算機(jī)走入企業(yè)和千家萬(wàn)戶,大大提高了社會(huì)生產(chǎn)力,也使人類迎來(lái)了第一次信息化浪潮,Intel、IBM、蘋(píng)果、微軟、聯(lián)想等企業(yè)是這個(gè)時(shí)期的標(biāo)志。6三次信息化浪潮第二次信息化浪潮:

在1995年前后,人類開(kāi)始全面進(jìn)入互聯(lián)網(wǎng)時(shí)代,互聯(lián)網(wǎng)的普及把世界變成“地球村”,每個(gè)人都可以自由徜徉于信息的海洋,由此,人類迎來(lái)了第二次信息化浪潮,這個(gè)時(shí)期也締造了雅虎、谷歌、阿里巴巴、百度等互聯(lián)網(wǎng)巨頭。7三次信息化浪潮第三次信息化浪潮:

時(shí)隔15年,在2010年前后,云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)的快速發(fā)展,拉開(kāi)了第三次信息化浪潮的大幕,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),也必將涌現(xiàn)出一批新的市場(chǎng)標(biāo)桿企業(yè)。

未來(lái)會(huì)出現(xiàn)什么樣的巨頭公司大家可以想象一下?82.大數(shù)據(jù)的技術(shù)支撐信息科技需要解決信息存儲(chǔ)、信息傳輸和信息處理3個(gè)核心問(wèn)題,人類社會(huì)在信息科技領(lǐng)域的不斷進(jìn)步,為大數(shù)據(jù)時(shí)代的到來(lái)提供了技術(shù)支撐。9大數(shù)據(jù)的技術(shù)支撐信息存儲(chǔ)-存儲(chǔ)設(shè)備容量不斷增加10大數(shù)據(jù)的技術(shù)支撐信息傳輸-網(wǎng)絡(luò)帶寬不斷增加11大數(shù)據(jù)的技術(shù)支撐信息存儲(chǔ)-CPU處理能力大幅提升12數(shù)據(jù)產(chǎn)生方式的三個(gè)階段數(shù)據(jù)產(chǎn)生方式的變革,是促成大數(shù)據(jù)時(shí)代來(lái)臨的重要因素??傮w而言,人類社會(huì)的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了3個(gè)階段:運(yùn)營(yíng)式系統(tǒng)階段、用戶原創(chuàng)內(nèi)容階段和感知式系統(tǒng)階段。13數(shù)據(jù)產(chǎn)生方式的三個(gè)階段運(yùn)營(yíng)式系統(tǒng)階段在這個(gè)階段,數(shù)據(jù)的產(chǎn)生方式是被動(dòng)的,只有當(dāng)實(shí)際的企業(yè)業(yè)務(wù)發(fā)生時(shí),才會(huì)產(chǎn)生新的記錄并存入數(shù)據(jù)庫(kù)。比如,對(duì)于股市交易系統(tǒng)而言,只有當(dāng)發(fā)生一筆股票交易時(shí),才會(huì)有相關(guān)記錄生成。14數(shù)據(jù)產(chǎn)生方式的三個(gè)階段用戶原創(chuàng)內(nèi)容階段以Wiki、博客、微博、微信等自服務(wù)模式為主,強(qiáng)調(diào)自服務(wù),大量上網(wǎng)用戶本身就是內(nèi)容的生成者,尤其是隨著移動(dòng)互聯(lián)網(wǎng)和智能手機(jī)終端的普及,人們更是可以隨時(shí)隨地使用手機(jī)發(fā)微博、傳照片,數(shù)據(jù)量開(kāi)始急劇增加。15數(shù)據(jù)產(chǎn)生方式的三個(gè)階段感知式系統(tǒng)階段物聯(lián)網(wǎng)中包含大量傳感器,如溫度傳感器、濕度傳感器、壓力傳感器、位移傳感器、光電傳感器等,視頻監(jiān)控?cái)z像頭也是物聯(lián)網(wǎng)的重要組成部分。物聯(lián)網(wǎng)中的這些設(shè)備,每時(shí)每刻都在自動(dòng)產(chǎn)生大量數(shù)據(jù),與Web2.0時(shí)代的人工數(shù)據(jù)產(chǎn)生方式相比,物聯(lián)網(wǎng)中的自動(dòng)數(shù)據(jù)產(chǎn)生方式,將在短時(shí)間內(nèi)生成更密集、更大量的數(shù)據(jù),使得人類社會(huì)迅速步入“大數(shù)據(jù)時(shí)代”。163.大數(shù)據(jù)的概念什么是大數(shù)據(jù)?173.大數(shù)據(jù)的概念

隨著大數(shù)據(jù)時(shí)代的到來(lái),“大數(shù)據(jù)”已經(jīng)成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。關(guān)于“什么是大數(shù)據(jù)”這個(gè)問(wèn)題,大家比較認(rèn)可關(guān)于大數(shù)據(jù)的“4V”說(shuō)法。大數(shù)據(jù)的4個(gè)“V”,或者說(shuō)是大數(shù)據(jù)的4個(gè)特點(diǎn),包含4個(gè)層面:數(shù)據(jù)量大(Volume)、數(shù)據(jù)類型繁多(Variety)、處理速度快(Velocity)和價(jià)值密度低(Value)。18數(shù)據(jù)量大19根據(jù)IDC作出的估測(cè),數(shù)據(jù)一直都在以每年50%的速度增長(zhǎng),也就是說(shuō)每?jī)赡昃驮鲩L(zhǎng)一倍(大數(shù)據(jù)摩爾定律)人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,相較于2010年,數(shù)據(jù)量將增長(zhǎng)近30倍數(shù)據(jù)類型繁多20大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的10%的結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫(kù)中90%的非結(jié)構(gòu)化數(shù)據(jù),它們與人類信息密切相關(guān)數(shù)據(jù)類型繁多21科學(xué)研究–基因組–LHC加速器–地球與空間探測(cè)企業(yè)應(yīng)用–Email、文檔、文件–應(yīng)用日志–交易記錄Web1.0數(shù)據(jù)–文本–圖像–視頻Web2.0數(shù)據(jù)–查詢?nèi)罩?點(diǎn)擊流–Twitter/Blog/SNS–Wiki處理速度快22從數(shù)據(jù)的生成到消耗,時(shí)間窗口非常小,可用于生成決策的時(shí)間非常少1秒定律:這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同價(jià)值密度低23

價(jià)值密度低,商業(yè)價(jià)值高

以視頻為例,連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒,但是具有很高的商業(yè)價(jià)值4.大數(shù)據(jù)的影響244.大數(shù)據(jù)的影響25

在科學(xué)研究方面,大數(shù)據(jù)使得人類科學(xué)研究在經(jīng)歷了實(shí)驗(yàn)、理論、計(jì)算3種范式之后,迎來(lái)了第四種范式——數(shù)據(jù);在思維方式方面,大數(shù)據(jù)具有“全樣而非抽樣、效率而非精確、相關(guān)而非因果”三大顯著特征,完全顛覆了傳統(tǒng)的思維方式;在社會(huì)發(fā)展方面,大數(shù)據(jù)決策逐漸成為一種新的決策方式,大數(shù)據(jù)應(yīng)用有力促進(jìn)了信息技術(shù)與各行業(yè)的深度融合,大數(shù)據(jù)開(kāi)發(fā)大大推動(dòng)了新技術(shù)和新應(yīng)用的不斷涌現(xiàn);在就業(yè)市場(chǎng)方面,大數(shù)據(jù)的興起使得數(shù)據(jù)科學(xué)家成為熱門人才;在人才培養(yǎng)方面,大數(shù)據(jù)的興起將在很大程度上改變我國(guó)高校信息技術(shù)相關(guān)專業(yè)的現(xiàn)有教學(xué)和科研體制。大數(shù)據(jù)對(duì)科學(xué)研究的影響26

圖靈獎(jiǎng)獲得者、著名數(shù)據(jù)庫(kù)專家JimGray博士觀察并總結(jié)人類自古以來(lái),在科學(xué)研究上,先后歷經(jīng)了實(shí)驗(yàn)、理論、計(jì)算和數(shù)據(jù)四種范式大數(shù)據(jù)對(duì)思維方式的影響27維克托·邁爾·舍恩伯格在《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》一書(shū)中明確指出,大數(shù)據(jù)時(shí)代最大的轉(zhuǎn)變就是思維方式的3種轉(zhuǎn)變:全樣而非抽樣、效率而非精確、相關(guān)而非因果。大數(shù)據(jù)對(duì)社會(huì)發(fā)展的影響28大數(shù)據(jù)將會(huì)對(duì)社會(huì)發(fā)展產(chǎn)生深遠(yuǎn)的影響,具體表現(xiàn)在以下幾個(gè)方面:大數(shù)據(jù)決策成為一種新的決策方式;大數(shù)據(jù)應(yīng)用促進(jìn)信息技術(shù)與各行業(yè)的深度融合;大數(shù)據(jù)開(kāi)發(fā)推動(dòng)新技術(shù)和新應(yīng)用的不斷涌現(xiàn)。大數(shù)據(jù)對(duì)就業(yè)市場(chǎng)的影響29

大數(shù)據(jù)的興起使得數(shù)據(jù)科學(xué)家成為熱門人才。2010年的時(shí)候,在高科技勞動(dòng)力市場(chǎng)上還很難見(jiàn)到數(shù)據(jù)科學(xué)家的頭銜,但此后,數(shù)據(jù)科學(xué)家逐漸發(fā)展成為市場(chǎng)上最熱門的職位之一,具有廣闊發(fā)展前景,并代表著未來(lái)的發(fā)展方向。大數(shù)據(jù)對(duì)人才培養(yǎng)的影響

大數(shù)據(jù)的興起將在很大程度上改變中國(guó)高校信息技術(shù)相關(guān)專業(yè)的現(xiàn)有教學(xué)和科研體制。一方面,數(shù)據(jù)科學(xué)家是一個(gè)需要掌握統(tǒng)計(jì)、數(shù)學(xué)、機(jī)器學(xué)習(xí)、可視化、編程等多方面知識(shí)的復(fù)合型人才,在中國(guó)高?,F(xiàn)有的學(xué)科和專業(yè)設(shè)置中,上述專業(yè)知識(shí)分布在數(shù)學(xué)、統(tǒng)計(jì)和計(jì)算機(jī)等多個(gè)學(xué)科中,任何一個(gè)學(xué)科都只能培養(yǎng)某個(gè)方向的專業(yè)人才,無(wú)法培養(yǎng)全面掌握數(shù)據(jù)科學(xué)相關(guān)知識(shí)的復(fù)合型人才。另一方面,數(shù)據(jù)科學(xué)家需要大數(shù)據(jù)應(yīng)用實(shí)戰(zhàn)環(huán)境,在真正的大數(shù)據(jù)環(huán)境中不斷學(xué)習(xí)、實(shí)踐并融會(huì)貫通,將自身技術(shù)背景與所在行業(yè)業(yè)務(wù)需求進(jìn)行深度融合,從數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,但是目前大多數(shù)高校還不具備這種培養(yǎng)環(huán)境,不僅缺乏大規(guī)?;A(chǔ)數(shù)據(jù),也缺乏對(duì)領(lǐng)域業(yè)務(wù)需求的理解。305.大數(shù)據(jù)的應(yīng)用31

大數(shù)據(jù)真的太神奇了,真的可以讓改變一個(gè)企業(yè)的運(yùn)營(yíng)嗎?答案是肯定的。大數(shù)據(jù)目前是當(dāng)下最火熱的詞了,你要是不知道大數(shù)據(jù)這個(gè)概念,都不好意思在眾人面前開(kāi)口了。電視媒體對(duì)于體育愛(ài)好者,追蹤電視播放的最新運(yùn)動(dòng)賽事幾乎是一件不可能的事情,因?yàn)橛谐^(guò)上百個(gè)賽事在8000多個(gè)電視頻道播出。32社交網(wǎng)絡(luò)數(shù)據(jù)基礎(chǔ)設(shè)施工程部高級(jí)主管Ghosh描繪的LinkedIn數(shù)據(jù)構(gòu)建圖,其中就包括hadoop戰(zhàn)略部署。33醫(yī)療行業(yè)SetonHealthcare是采用IBM最新沃森技術(shù)醫(yī)療保健內(nèi)容分析預(yù)測(cè)的首個(gè)客戶。該技術(shù)允許企業(yè)找到大量病人相關(guān)的臨床醫(yī)療信息,通過(guò)大數(shù)據(jù)處理,更好地分析病人的信息。34保險(xiǎn)行業(yè)保險(xiǎn)行業(yè)并非技術(shù)創(chuàng)新的指示燈,然而MetLife保險(xiǎn)公司已經(jīng)投資3億美金建立一個(gè)新式系統(tǒng),其中的第一款產(chǎn)品是一個(gè)基于MongoDB的應(yīng)用程序,它將所有客戶信息放在同一個(gè)地方。35其他行業(yè)專業(yè)籃球隊(duì)會(huì)通過(guò)搜集大量數(shù)據(jù)來(lái)分析賽事情況,然而他們還在為這些數(shù)據(jù)的整理和實(shí)際意義而發(fā)愁。通過(guò)分析這些數(shù)據(jù),可否找到兩三個(gè)制勝法寶,或者至少能保證球隊(duì)獲得高分?Krossover公司正致力于此。智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端,也就是所謂的智能電表。在德國(guó),為了鼓勵(lì)利用太陽(yáng)能,會(huì)在家庭安裝太陽(yáng)能,除了賣電給你,當(dāng)你的太陽(yáng)能有多余電的時(shí)候還可以買回來(lái)。通過(guò)電網(wǎng)收集每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來(lái)的這些數(shù)據(jù)可以用來(lái)預(yù)測(cè)客戶的用電習(xí)慣等,從而推斷出在未來(lái)2~3個(gè)月時(shí)間里,整個(gè)電網(wǎng)大概需要多少電。36其他行業(yè)印度有一檔非常受歡迎的電視節(jié)目Satyamevjayate,該節(jié)目整理并分析社會(huì)民眾關(guān)于爭(zhēng)議話題的各種意見(jiàn),包括女性墮胎、種姓歧視和虐待兒童等社會(huì)熱點(diǎn)問(wèn)題,并使用這些數(shù)據(jù)來(lái)推進(jìn)政治改革。在洛杉磯開(kāi)過(guò)車的人一定都經(jīng)歷過(guò)那里噩夢(mèng)般的交通擁堵情況。目前政府在I-10和I-110州際公路上建立了一條了收費(fèi)的快速通道。政府可通過(guò)大數(shù)據(jù)引導(dǎo)駕駛?cè)藛T在該通道上的行駛情況,保證交通暢通。當(dāng)問(wèn)起汽車的制造過(guò)程,大多數(shù)人腦子里隨即浮現(xiàn)的是各種生產(chǎn)裝配流水線和制造機(jī)器。然而在福特,在產(chǎn)品的研發(fā)設(shè)計(jì)階段,大數(shù)據(jù)就已經(jīng)對(duì)汽車的部件和功能產(chǎn)生了重要影響。37其他行業(yè)我們的某個(gè)客戶,是一家領(lǐng)先的專業(yè)時(shí)裝零售商,通過(guò)當(dāng)?shù)氐陌儇浬痰辍⒕W(wǎng)絡(luò)及其郵購(gòu)目錄業(yè)務(wù)為客戶提供服務(wù)。公司希望向客戶提供差異化服務(wù)。許多人通過(guò)Facebook更新個(gè)人狀態(tài)、分享圖片以及他們“喜歡”的內(nèi)容。奧巴馬的總統(tǒng)競(jìng)選運(yùn)動(dòng)也通過(guò)使用社交網(wǎng)絡(luò)的各種數(shù)據(jù)功能完成了競(jìng)選。MailChimp的核心業(yè)務(wù)是提供電子郵件服務(wù),它在一年內(nèi)為大約300萬(wàn)用戶發(fā)送了350億封郵件。不過(guò)真正能體現(xiàn)MailChimp未來(lái)價(jià)值的則是該公司對(duì)這些郵件數(shù)據(jù)的處理和分析。音樂(lè)元數(shù)據(jù)公司Gracenote收到來(lái)自蘋(píng)果公司的神秘忠告,建議其購(gòu)買更多的服務(wù)器。Gracenote照做了,而后蘋(píng)果推出iTunes和iPod,Gracenote從而成為了元數(shù)據(jù)的帝國(guó)。384.2大數(shù)據(jù)處理的關(guān)鍵技術(shù)39

從數(shù)據(jù)分析全流程的角度,大數(shù)據(jù)技術(shù)主要包括數(shù)據(jù)采集與預(yù)處理、數(shù)據(jù)存儲(chǔ)和管理、數(shù)據(jù)處理與分析、數(shù)據(jù)安全和隱私保護(hù)等幾個(gè)層面的內(nèi)容數(shù)據(jù)采集與預(yù)處理利用ETL工具將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù),如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等,抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ);也可以利用日志采集工具(如Flume、Kafka等)把實(shí)時(shí)采集的數(shù)據(jù)作為流計(jì)算系統(tǒng)的輸入,進(jìn)行實(shí)時(shí)處理分析。40數(shù)據(jù)存儲(chǔ)與管理利用分布式文件系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)、NoSQL數(shù)據(jù)庫(kù)、云數(shù)據(jù)等,實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲(chǔ)和管理。41數(shù)據(jù)處理與分析利用分布式并行編程模式和計(jì)算框架,結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的處理和分析;對(duì)分析結(jié)果進(jìn)行可視化呈現(xiàn),幫助人們更好地理解數(shù)據(jù)、分析數(shù)據(jù)。42數(shù)據(jù)安全與隱私保護(hù)在從大數(shù)據(jù)中挖掘潛在的巨大商業(yè)價(jià)值和學(xué)術(shù)價(jià)值的同時(shí),構(gòu)建隱私數(shù)據(jù)保護(hù)體系和數(shù)據(jù)安全體系,有效保護(hù)個(gè)人隱私和數(shù)據(jù)安全。431.大數(shù)據(jù)關(guān)鍵技術(shù)需要指出的是,大數(shù)據(jù)技術(shù)是許多技術(shù)的一個(gè)集合體,這些技術(shù)也并非全部都是新生事物,諸如關(guān)系數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)采集、ETL、OLAP、數(shù)據(jù)挖掘、數(shù)據(jù)隱私和安全、數(shù)據(jù)可視化等技術(shù)是已經(jīng)發(fā)展多年的技術(shù),在大數(shù)據(jù)時(shí)代得到不斷補(bǔ)充、完善、提高后又有了新的升華,也可以視為大數(shù)據(jù)技術(shù)的一個(gè)組成部分。

442.大數(shù)據(jù)計(jì)算模式45

所謂大數(shù)據(jù)計(jì)算形式,即依據(jù)大數(shù)據(jù)的不同數(shù)據(jù)特征和計(jì)算特征,從多樣性的大數(shù)據(jù)計(jì)算問(wèn)題和需求中提煉并樹(shù)立的各種高層籠統(tǒng)或模型。例如,MapReduce是一個(gè)并行計(jì)算系統(tǒng),加州大學(xué)伯克利分校著名的Spark系統(tǒng)中的“散布內(nèi)存籠統(tǒng)RDD”,CMU著名的圖計(jì)算系統(tǒng)GraphLab中的“圖并行籠統(tǒng)”

等。典型的計(jì)算機(jī)模式依據(jù)大數(shù)據(jù)處置多樣性的需求和以上不同的特征維度,目前呈現(xiàn)了多種典型和重要的大數(shù)據(jù)計(jì)算形式。46大數(shù)據(jù)計(jì)算模式解決問(wèn)題代表產(chǎn)品批處理計(jì)算針對(duì)大規(guī)模數(shù)據(jù)的批量處理MapReduce、Spark等流計(jì)算針對(duì)流數(shù)據(jù)的實(shí)時(shí)計(jì)算Storm、S4、Flume、Streams、Puma、DStream、SuperMario、銀河流數(shù)據(jù)處理平臺(tái)等圖計(jì)算針對(duì)大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)處理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等查詢分析計(jì)算大規(guī)模數(shù)據(jù)的存儲(chǔ)管理和查詢分析Dremel、Hive、Cassandra、Impala等MapReduce由于MapReduce主要合適于停滯大數(shù)據(jù)線下批處置,在面向低延遲和具有復(fù)雜數(shù)據(jù)關(guān)系和復(fù)雜計(jì)算的大數(shù)據(jù)問(wèn)題時(shí)有很大的不順應(yīng)性。大數(shù)據(jù)處理的問(wèn)題復(fù)雜多樣,單一的計(jì)算模式是無(wú)法滿足不同類型的計(jì)算需求的,MapReduce其實(shí)只是大數(shù)據(jù)計(jì)算模式中的一種,它代表了針對(duì)大規(guī)模數(shù)據(jù)的批量處理技術(shù)。

47批處理計(jì)算批處理計(jì)算主要解決針對(duì)大規(guī)模數(shù)據(jù)的批量處理,也是我們?nèi)粘?shù)據(jù)分析工作中非常常見(jiàn)的一類數(shù)據(jù)處理需求。Spark是一個(gè)針對(duì)超大數(shù)據(jù)集合的低延遲的集群分布式計(jì)算系統(tǒng),比MapReduce快許多。Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,還可以優(yōu)化迭代工作負(fù)載。48流計(jì)算流數(shù)據(jù)也是大數(shù)據(jù)分析中的重要數(shù)據(jù)類型。流數(shù)據(jù)(或數(shù)據(jù)流)是指在時(shí)間分布和數(shù)量上無(wú)限的一系列動(dòng)態(tài)數(shù)據(jù)集合體,數(shù)據(jù)的價(jià)值隨著時(shí)間的流逝而降低,因此必須采用實(shí)時(shí)計(jì)算的方式給出秒級(jí)響應(yīng)。49目前業(yè)內(nèi)已涌現(xiàn)出許多的流計(jì)算框架與平臺(tái):第一類是商業(yè)級(jí)的流計(jì)算平臺(tái),包括IBMInfoSphereStreams等;第二類是開(kāi)源流計(jì)算框架,包括TwitterStorm、Yahoo!S4、SparkStreaming等;第三類是公司為支持自身業(yè)務(wù)開(kāi)發(fā)的流計(jì)算框架,如Facebook使用Puma和HBase相結(jié)合來(lái)處理實(shí)時(shí)數(shù)據(jù),百度開(kāi)發(fā)了通用實(shí)時(shí)流數(shù)據(jù)計(jì)算系統(tǒng)DStream,淘寶開(kāi)發(fā)了通用流數(shù)據(jù)實(shí)時(shí)計(jì)算系統(tǒng)——銀河流數(shù)據(jù)處理平臺(tái)。圖計(jì)算在大數(shù)據(jù)時(shí)代,許多大數(shù)據(jù)都是以大規(guī)模圖或網(wǎng)絡(luò)的形式呈現(xiàn),如社交網(wǎng)絡(luò)、傳染病傳播途徑、交通事故對(duì)路網(wǎng)的影響等,此外,許多非圖結(jié)構(gòu)的大數(shù)據(jù)也常常會(huì)被轉(zhuǎn)換為圖模型后再進(jìn)行處理分析。50Pregel主要用于圖遍歷、最短路徑、PageRank計(jì)算等。其他代表性的圖計(jì)算產(chǎn)品還包括:Facebook針對(duì)Pregel的開(kāi)源實(shí)現(xiàn)Giraph;Spark下的GraphX;

圖數(shù)據(jù)處理系統(tǒng)PowerGraph等。查詢分析針對(duì)超大規(guī)模數(shù)據(jù)的存儲(chǔ)管理和查詢分析,需要提供實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的響應(yīng),才能很好地滿足企業(yè)經(jīng)營(yíng)管理需求。51谷歌公司開(kāi)發(fā)的Dremel是一種可擴(kuò)展的、交互式的實(shí)時(shí)查詢系統(tǒng),用于只讀嵌套數(shù)據(jù)的分析。4.3大數(shù)據(jù)產(chǎn)業(yè)2018年,對(duì)于中國(guó)大數(shù)據(jù)產(chǎn)業(yè)而言,是一個(gè)具有重要標(biāo)志的年份。如果將2018年之前視為中國(guó)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的起步期,那么,2018年,中國(guó)大數(shù)據(jù)產(chǎn)業(yè)則真正進(jìn)入了快速發(fā)展期。政策、技術(shù)和市場(chǎng)等多重利好因素疊加,為中國(guó)大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展提供了難得的歷史性機(jī)遇,協(xié)同推動(dòng)了產(chǎn)業(yè)的發(fā)展壯大。

52未來(lái)發(fā)展

隨著中國(guó)新一輪的智慧城市和工業(yè)互聯(lián)網(wǎng)建設(shè)的持續(xù)推進(jìn),智能終端和傳感器的快速增長(zhǎng)將會(huì)拉動(dòng)前端化大數(shù)據(jù)分析應(yīng)用,并在技術(shù)端和應(yīng)用端開(kāi)啟大數(shù)據(jù)企業(yè)的新機(jī)遇。在技術(shù)端,如何在算力有限的情況下,持續(xù)剪裁并優(yōu)化模型和算法,保障終端的計(jì)算需求;設(shè)計(jì)適用的網(wǎng)絡(luò)通信協(xié)議,保障終端數(shù)據(jù)的高效傳輸;完善嵌入式芯片和板卡等硬件設(shè)計(jì),提升芯片的并行處理能力,降低功耗,成為大數(shù)據(jù)企業(yè)在新一輪競(jìng)爭(zhēng)中制勝的關(guān)鍵。而在應(yīng)用端,前端化大數(shù)據(jù)分析技術(shù)則有助于拓展工業(yè)和智慧城市等領(lǐng)域的應(yīng)用市場(chǎng),提升諸如工業(yè)設(shè)備維護(hù)、基礎(chǔ)設(shè)施監(jiān)測(cè)、城市安防和交通管理等應(yīng)用場(chǎng)景的分析處理效率,創(chuàng)造了大量新市場(chǎng)機(jī)遇。53大數(shù)據(jù)產(chǎn)業(yè)鏈54大數(shù)據(jù)產(chǎn)業(yè)鏈大數(shù)據(jù)產(chǎn)業(yè)是指一切與支撐大數(shù)據(jù)組織管理和價(jià)值發(fā)現(xiàn)相關(guān)的企業(yè)經(jīng)濟(jì)活動(dòng)的集合。大數(shù)據(jù)產(chǎn)業(yè)包括IT基礎(chǔ)設(shè)施層、數(shù)據(jù)源層、數(shù)據(jù)管理層、數(shù)據(jù)分析層、數(shù)據(jù)平臺(tái)層和數(shù)據(jù)應(yīng)用層。

55IT基礎(chǔ)設(shè)施層包括提供硬件、軟件、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施以及提供咨詢、規(guī)劃和系統(tǒng)集成服務(wù)的企業(yè),比如,提供數(shù)據(jù)中心解決方案的IBM、惠普和戴爾等,提供存儲(chǔ)解決方案的EMC,提供虛擬化管理軟件的微軟、思杰、SUN、Redhat等。56數(shù)據(jù)源層大數(shù)據(jù)生態(tài)圈里的數(shù)據(jù)提供者,是生物(生物信息學(xué)領(lǐng)域的各類研究

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論