物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實踐(第2版)課件 第1、2章-物聯(lián)網(wǎng)與產(chǎn)業(yè)發(fā)展、-大數(shù)據(jù)處理技術(shù)的發(fā)展_第1頁
物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實踐(第2版)課件 第1、2章-物聯(lián)網(wǎng)與產(chǎn)業(yè)發(fā)展、-大數(shù)據(jù)處理技術(shù)的發(fā)展_第2頁
物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實踐(第2版)課件 第1、2章-物聯(lián)網(wǎng)與產(chǎn)業(yè)發(fā)展、-大數(shù)據(jù)處理技術(shù)的發(fā)展_第3頁
物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實踐(第2版)課件 第1、2章-物聯(lián)網(wǎng)與產(chǎn)業(yè)發(fā)展、-大數(shù)據(jù)處理技術(shù)的發(fā)展_第4頁
物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實踐(第2版)課件 第1、2章-物聯(lián)網(wǎng)與產(chǎn)業(yè)發(fā)展、-大數(shù)據(jù)處理技術(shù)的發(fā)展_第5頁
已閱讀5頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實踐IoT

BigDataProcessingTechnologyandPractice物聯(lián)網(wǎng)與產(chǎn)業(yè)發(fā)展物聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展1物聯(lián)網(wǎng)與大數(shù)據(jù)2物聯(lián)網(wǎng)產(chǎn)業(yè)的機遇與挑戰(zhàn)3PARTONE1物聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展師傅領(lǐng)進門,學(xué)藝在自身。------中國諺語1.1物聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展當(dāng)前,新一代信息通信技術(shù),包括移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算和大數(shù)據(jù),正引領(lǐng)全球科技革命和產(chǎn)業(yè)變革。物聯(lián)網(wǎng)應(yīng)用蓬勃發(fā)展,與傳統(tǒng)領(lǐng)域融合深入,重點領(lǐng)域包括M2M通信、智能汽車等。各國政府積極制定戰(zhàn)略,如美國的制造業(yè)復(fù)興、德國的工業(yè)4.0、中國的制造強國計劃,推動全球物聯(lián)網(wǎng)和大數(shù)據(jù)迅速增長。中國在物聯(lián)網(wǎng)領(lǐng)域也采取重要措施,如《中國制造2025》和《智能制造發(fā)展規(guī)劃》,強調(diào)信息化與工業(yè)化深度融合,推動物聯(lián)網(wǎng)和新技術(shù)應(yīng)用。1.1.1傳感器與智能硬件傳感器與智能硬件產(chǎn)業(yè)是物聯(lián)網(wǎng)產(chǎn)業(yè)的重要組成部分,其是與物聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展同步快速發(fā)展的。消費者物聯(lián)網(wǎng)設(shè)備包括可穿戴設(shè)備、智能家居產(chǎn)品、無人機、無人駕駛汽車等。除了面向消費者的物聯(lián)網(wǎng)設(shè)備之外,產(chǎn)業(yè)物聯(lián)網(wǎng)連接數(shù)在總的物聯(lián)網(wǎng)總連接數(shù)中的占比將提速。其中智慧工業(yè)、智慧交通、智慧健康、智慧能源等領(lǐng)域?qū)⒆钣锌赡艹蔀楫a(chǎn)業(yè)物聯(lián)網(wǎng)連接數(shù)增長最快的領(lǐng)域。傳感器在賦予手機和物聯(lián)網(wǎng)產(chǎn)品更強大功能方面發(fā)揮關(guān)鍵作用,傳感器通常由敏感元件和轉(zhuǎn)換元件組成,將檢測感受到的信息轉(zhuǎn)化為電信號,廣泛用于各個領(lǐng)域的感知和控制。1.1.2物聯(lián)網(wǎng)服務(wù)平臺隨著物聯(lián)網(wǎng)產(chǎn)業(yè)的增長,物聯(lián)網(wǎng)服務(wù)平臺提供了端到端物聯(lián)網(wǎng)云服務(wù),幫助制造商打造物聯(lián)網(wǎng)產(chǎn)品。預(yù)測顯示到2025年,物聯(lián)網(wǎng)平臺、應(yīng)用和服務(wù)的收入將占據(jù)物聯(lián)網(wǎng)總收入的67%。多家知名科技公司如蘋果、華為等都推出了物聯(lián)網(wǎng)平臺或套件,中國移動、阿里巴巴、華為等公司在物聯(lián)網(wǎng)領(lǐng)域也取得了顯著進展,連接數(shù)和提供的應(yīng)用不斷增加。物聯(lián)網(wǎng)服務(wù)平臺在不同行業(yè),尤其是車聯(lián)網(wǎng)領(lǐng)域,具有巨大市場潛力,可以改善交通管理和提供智能化的車輛服務(wù)。1.1.3工業(yè)4.0與CPS美國工業(yè)的發(fā)展德國工業(yè)的發(fā)展美國與德國工業(yè)發(fā)展的異同日本工業(yè)4.0的發(fā)展美國工業(yè)的發(fā)展2006年美國提出了虛擬網(wǎng)絡(luò)-實體物理系統(tǒng)或者信息物理系統(tǒng)(CPS:Cyber-PhysicalSystem)的概念。2010年美國總統(tǒng)奧巴馬簽署了《美國制造業(yè)促進法案》,提出運用數(shù)字制造和人工智能等未來科技重構(gòu)美國的制造業(yè)優(yōu)勢。2012年2月美國國家科技委員會發(fā)布了《先進制造業(yè)國家戰(zhàn)略計劃》報告,將促進先進制造業(yè)發(fā)展提高到了國家戰(zhàn)略層面2012年11月美國通用電氣公司(簡稱GE)發(fā)布《工業(yè)互聯(lián)網(wǎng)——打破智慧與機器的邊界》報告,開始向全世界推廣工業(yè)互聯(lián)網(wǎng)模式。CPS將物聯(lián)網(wǎng)和互聯(lián)網(wǎng)與制造業(yè)的融合做出綜合性的概括,并將此項技術(shù)體系作為新一代技術(shù)革命的突破點。汽車、飛機、船舶、電梯、機床以及生產(chǎn)線等,都可以存在于虛擬和實體兩個世界,在虛擬世界中將實體的狀態(tài)以及實體之間的關(guān)系透明化.虛擬世界中代表實體狀態(tài)和相互關(guān)系的模型和計算結(jié)果能夠精確地指導(dǎo)實體的活動,從而使實體的活動相互協(xié)調(diào)優(yōu)化.德國工業(yè)的發(fā)展2011年工業(yè)4.0的概念首次在德國漢諾威工業(yè)博覽會上第一次提出。2013年正式發(fā)布了“工業(yè)4.0實施建議”,拉開了全球范圍內(nèi)推進第四次工業(yè)革命的序幕?!肮I(yè)4.0”的核心就是信息物聯(lián)網(wǎng)和服務(wù)互聯(lián)網(wǎng)與制造業(yè)的融合創(chuàng)新?!肮I(yè)4.0”會將智能技術(shù)和網(wǎng)絡(luò)投入到工業(yè)應(yīng)用中,從而進一步鞏固德國作為生產(chǎn)地以及制造設(shè)備供應(yīng)國和IT業(yè)務(wù)解決方案供應(yīng)國的領(lǐng)先地位。美國與德國工業(yè)發(fā)展的異同美國與德國面對制造業(yè)未來雖然提出的概念不同,但“工業(yè)4.0”與CPS本質(zhì)上是異曲同工的,其戰(zhàn)略核心是:制造智能化?!肮I(yè)4.0”與CPS目標(biāo)在于通過物聯(lián)網(wǎng)、信息通訊技術(shù)與大數(shù)據(jù)分析,把不同設(shè)備通過數(shù)據(jù)交互連接到一起,讓工廠內(nèi)部、工廠之間都能成為一個整體,在自動化之上,形成制造的智能化。第四次工業(yè)革命主要是指通過物聯(lián)網(wǎng)和信息物理系統(tǒng)技術(shù),將制造業(yè)向智能化轉(zhuǎn)型,實現(xiàn)集中式控制向分散式增強型控制的基本模式轉(zhuǎn)變,最終建立一個高度靈活的個性化和數(shù)字化的產(chǎn)品與服務(wù)生產(chǎn)模式。物聯(lián)網(wǎng)、互聯(lián)網(wǎng)服務(wù)以及大數(shù)據(jù)是“工業(yè)4.0”的基礎(chǔ)。美國與德國工業(yè)發(fā)展的異同德國工業(yè)4.0的戰(zhàn)略意圖:(1)對抗美國互聯(lián)網(wǎng)產(chǎn)業(yè)從“信息”領(lǐng)域加速進入“物理”業(yè)務(wù)領(lǐng)域的影響。(2)工業(yè)4.0希望用“信息物理系統(tǒng)”升級“智能工廠”中的“生產(chǎn)設(shè)備”,使生產(chǎn)設(shè)備因信息物理系統(tǒng)而獲得智能。(3)工業(yè)4.0戰(zhàn)略的推進也是德國在日本、中國等國的制造業(yè)快速趕超的背景下保持國際競爭力的重大舉措。日本工業(yè)4.0的發(fā)展2015年1月,日本政府公布了《機器人新戰(zhàn)略》,該戰(zhàn)略首先列舉了歐美與中國的技術(shù)趕超,互聯(lián)網(wǎng)企業(yè)向傳統(tǒng)機器人產(chǎn)業(yè)的涉足,而給機器人產(chǎn)業(yè)環(huán)境帶來了劇變。2021年,我國政府十五部門印發(fā)《“十四五”機器人產(chǎn)業(yè)發(fā)展規(guī)劃》指出,新一代信息技術(shù)、生物技術(shù)、新能源、新材料和機器人技術(shù)的深度融合,機器人產(chǎn)業(yè)迎來升級換代、跨越發(fā)展的窗口期。未來五年,我國要突破若干核心技術(shù)、實現(xiàn)制造業(yè)機器人密度翻番。這些變化,將使機器人開始應(yīng)用大數(shù)據(jù)實現(xiàn)自律化,使機器人之間的協(xié)同實現(xiàn)網(wǎng)絡(luò)化,物聯(lián)網(wǎng)時代也將隨之真正到來。PARTTWO2物聯(lián)網(wǎng)與大數(shù)據(jù)大數(shù)據(jù)的產(chǎn)生近年來,隨著互聯(lián)網(wǎng)的飛速發(fā)展,特別是隨著電子商務(wù)、社交網(wǎng)絡(luò)、移動互聯(lián)網(wǎng)以及多種傳感器的廣泛應(yīng)用,以數(shù)量龐大、種類眾多、時效性強為特征的非結(jié)構(gòu)化數(shù)據(jù)不斷涌現(xiàn),數(shù)據(jù)的重要性愈發(fā)凸顯。傳統(tǒng)的數(shù)據(jù)存儲、處理和分析技術(shù)難以有效應(yīng)對這些大量的非結(jié)構(gòu)化信息,大數(shù)據(jù)的概念應(yīng)運而生。大數(shù)據(jù)的提出2008年9月,《自然(Nature)》刊登了一個名為“BigData”的專輯,首次提出了大數(shù)據(jù)(BigData)概念。2011年5月,EMC舉辦了主題為“云計算相遇大數(shù)據(jù)”的大會。2011年6月麥肯錫全球研究所發(fā)布研究報告——《大數(shù)據(jù):下一個前沿——創(chuàng)新、競爭和生產(chǎn)力》,提出了“大數(shù)據(jù)時代”的到來。2012年5月聯(lián)合國“全球脈沖”計劃發(fā)布《大數(shù)據(jù)開發(fā):機遇與挑戰(zhàn)》報告,闡述了大數(shù)據(jù)帶來的機遇、挑戰(zhàn)以及大數(shù)據(jù)的應(yīng)用。大數(shù)據(jù)的定義大數(shù)據(jù):是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)從宏觀世界角度來講,大數(shù)據(jù)是融合物理世界、信息空間和人類社會三元世界的紐帶從社會經(jīng)濟角度來講,大數(shù)據(jù)是第二經(jīng)濟的核心關(guān)鍵支撐“第二經(jīng)濟的概念是由美國經(jīng)濟學(xué)家Auther在2011年提出的,他指出由處理器、鏈接器、傳感器、執(zhí)行器以及運行在其上的經(jīng)濟活動形成了人們熟知的物理經(jīng)濟(第一經(jīng)濟)之外的第二經(jīng)濟(不是虛擬經(jīng)濟)。第二經(jīng)濟的本質(zhì)是為第一經(jīng)濟附著一個“神經(jīng)層”,使國民經(jīng)濟活動能夠變得智能化。據(jù)Gartner預(yù)測,未來幾年內(nèi),傳感和移動設(shè)備將更深入延伸至我們的日常生活,導(dǎo)致數(shù)據(jù)爆發(fā)。另根據(jù)相關(guān)研究統(tǒng)計,物聯(lián)網(wǎng)中產(chǎn)生的來自傳感器的數(shù)據(jù)逐步超越互聯(lián)網(wǎng)的數(shù)據(jù)量,如果算上工業(yè)企業(yè)自動化生產(chǎn)線及設(shè)備上的運行數(shù)據(jù),特別是隨著工業(yè)4.0推進而帶來的數(shù)據(jù)爆炸,物聯(lián)網(wǎng)數(shù)據(jù)的量更是呈現(xiàn)幾何級數(shù)增長。可以說,未來人們談到或研究“大數(shù)據(jù)”,無疑物聯(lián)網(wǎng)將是主要的數(shù)據(jù)來源。PARTTHREE3物聯(lián)網(wǎng)產(chǎn)業(yè)的機遇與挑戰(zhàn)物聯(lián)網(wǎng)產(chǎn)業(yè)面臨的挑戰(zhàn)物聯(lián)網(wǎng)市場的增長帶來許多好處,方便人們的生活以及企業(yè)的生產(chǎn)、提高效率和降低成本。但同時也面臨著不少的挑戰(zhàn):碎片化問題安全性和隱私保護問題資源受限問題物聯(lián)網(wǎng)產(chǎn)業(yè)面臨的挑戰(zhàn):碎片化“碎片化”原指完整的東西破成諸多零塊。我們現(xiàn)在更多地通過網(wǎng)絡(luò)傳媒了解信息,信息內(nèi)容更加分散,完整的信息被各式各樣的分類分解為信息片段。由于終端產(chǎn)品種類繁多,同樣的功能可以由不同種類的產(chǎn)品來實現(xiàn),其終端呈現(xiàn)碎片化。因此相對于互聯(lián)網(wǎng),物聯(lián)網(wǎng)相呈現(xiàn)出更加碎片化的趨勢。物聯(lián)網(wǎng)產(chǎn)業(yè)面臨的挑戰(zhàn):安全性和隱私保護隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展擴大,物聯(lián)網(wǎng)安全問題面臨的安全威脅呈現(xiàn)多樣化、網(wǎng)絡(luò)攻擊越發(fā)猖獗。物聯(lián)網(wǎng)安全問題的出現(xiàn)可能會導(dǎo)致數(shù)據(jù)泄露、網(wǎng)絡(luò)癱瘓等多種后果。業(yè)界通過安全標(biāo)準(zhǔn)化、安全保障及隱私保護新技術(shù)等多個方面的手段應(yīng)對此問題。加密通信技術(shù)、安全通信技術(shù)、訪問控制技術(shù)等。加強安全管理,嚴格管理對設(shè)備、數(shù)據(jù)的訪問權(quán)限。完善物聯(lián)網(wǎng)相關(guān)法律、制定專項安全規(guī)章制度等來規(guī)范物聯(lián)網(wǎng)產(chǎn)業(yè)。物聯(lián)網(wǎng)產(chǎn)業(yè)面臨的挑戰(zhàn):資源受限物聯(lián)網(wǎng)設(shè)備受限于電池壽命物聯(lián)網(wǎng)的通信環(huán)境受限于物理環(huán)境條件的限制物聯(lián)網(wǎng)終端設(shè)備的計算能力受限于其自身有限的硬件條件…緩解方法:低功耗硬件通信技術(shù)云邊協(xié)同計算技術(shù)物聯(lián)網(wǎng)操作系統(tǒng)與數(shù)據(jù)庫物聯(lián)網(wǎng)操作系統(tǒng)提供各種物聯(lián)網(wǎng)軟硬件資源的管理功能,為用戶和開發(fā)者提供統(tǒng)一的開發(fā)接口,具有巨大的發(fā)展?jié)摿?。物?lián)網(wǎng)操作系統(tǒng)使物聯(lián)網(wǎng)設(shè)備能夠在有限的內(nèi)存帶寬、數(shù)據(jù)量和處理能力的嚴格參數(shù)內(nèi)通過全球網(wǎng)絡(luò)與云服務(wù)進行交互。物聯(lián)網(wǎng)操作系統(tǒng)架構(gòu)示意圖物聯(lián)網(wǎng)操作系統(tǒng)與數(shù)據(jù)庫一部分物聯(lián)網(wǎng)操作系統(tǒng)通過對智能手機、PC操作系統(tǒng)的改造而成。例如:Windows物聯(lián)網(wǎng)操作系統(tǒng)Google發(fā)布的Brillo操作系統(tǒng)物聯(lián)網(wǎng)操作系統(tǒng)與數(shù)據(jù)庫一部分物聯(lián)網(wǎng)操作系統(tǒng)以傳統(tǒng)嵌入式操作系統(tǒng)為基礎(chǔ),在其上改造以適應(yīng)物聯(lián)網(wǎng)設(shè)備的連接及通信等需求。例如:Mbed操作系統(tǒng)Contiki操作系統(tǒng)物聯(lián)網(wǎng)操作系統(tǒng)與數(shù)據(jù)庫一部分物聯(lián)網(wǎng)操作系統(tǒng)面向特定的產(chǎn)業(yè)研發(fā)定制化的操作系統(tǒng)。例如:鴻蒙操作系統(tǒng)物聯(lián)網(wǎng)操作系統(tǒng)與數(shù)據(jù)庫目前各式各樣的物聯(lián)網(wǎng)操作系統(tǒng)才剛剛推出,還并未成熟,未來還存在很大的變數(shù)。無論傳感網(wǎng)還是智能硬件,不可避免面臨著數(shù)據(jù)管理問題,傳感器數(shù)據(jù)庫、微小型數(shù)據(jù)庫也正在進入人們的視野。隨著物聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展,相信會形成一定的規(guī)范與市場需求。物聯(lián)網(wǎng)大數(shù)據(jù)未來,物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)將超過當(dāng)今互聯(lián)網(wǎng)數(shù)據(jù)作為大數(shù)據(jù)的主要來源。什么是物聯(lián)網(wǎng)大數(shù)據(jù)?物聯(lián)網(wǎng)技術(shù)的發(fā)展將和大數(shù)據(jù)技術(shù)緊密結(jié)合起來,將成萬上億計的傳感器嵌入到現(xiàn)實世界的各種設(shè)備中,獲取來自傳感器的數(shù)據(jù)。物聯(lián)網(wǎng)大數(shù)據(jù)處理與應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)處理是指:將成萬上億計的傳感器嵌入到現(xiàn)實世界的各種設(shè)備中,獲取來自傳感器的數(shù)據(jù),對其進行智能化的處理、分析,挖掘出物聯(lián)網(wǎng)大數(shù)據(jù)在單個物聯(lián)網(wǎng)設(shè)備及傳感器條件下完全不同的價值,從而提供更加深化、智能、貼近于用戶的產(chǎn)品及服務(wù)。物聯(lián)網(wǎng)大數(shù)據(jù)的應(yīng)用:智慧城市、智慧醫(yī)療、智能家居、工業(yè)生產(chǎn)等物聯(lián)網(wǎng)與大數(shù)據(jù)結(jié)合中的挑戰(zhàn)數(shù)據(jù)類型多樣:數(shù)據(jù)類型多樣使得一個應(yīng)用往往既要處理結(jié)構(gòu)化數(shù)據(jù),同時還要處理文本、視頻、語音等非結(jié)構(gòu)化數(shù)據(jù),這對現(xiàn)有數(shù)據(jù)庫系統(tǒng)來說難以應(yīng)付。及時響應(yīng):在許多應(yīng)用中,數(shù)據(jù)是實時變化的,用戶對數(shù)據(jù)處理響應(yīng)速度及數(shù)據(jù)處理實時性的需求是關(guān)鍵因素,如何正確、及時地處理連續(xù)不斷的海量數(shù)據(jù)面臨很大的挑戰(zhàn)數(shù)據(jù)的不確定性:噪聲廣泛存在于原始數(shù)據(jù)的采集過程之中,是無法避免的客觀因素引起的。但追求高數(shù)據(jù)質(zhì)量是對大數(shù)據(jù)的一項重要要求,最好的數(shù)據(jù)清理方法也難以消除某些數(shù)據(jù)固有的不確定性。如何應(yīng)對大數(shù)據(jù)帶來的上述困難和挑戰(zhàn)?各大互聯(lián)網(wǎng)企業(yè)及學(xué)術(shù)界近幾年推出了各種不同類型的大數(shù)據(jù)處理編程框架、系統(tǒng)等,使大數(shù)據(jù)分析技術(shù)也得到迅速發(fā)展,已逐漸被廣泛應(yīng)用于不同的行業(yè)和領(lǐng)域。例如:Hadoop框架spark框架THANKS

FOR

YOUR

WATCHINGLoremIpsumDolorSitErElitLamet,ConsectetaurCilliumAdipisicingPecu,SedDoEiusmodTemporIncididuntUtLaboreEtDoloreMagnaAliqua.Thankyou物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實踐InternetofThings

BigDataprocessingTechnologyandPractice大數(shù)據(jù)處理技術(shù)的發(fā)展大數(shù)據(jù)存儲和管理技術(shù)1大數(shù)據(jù)計算技術(shù)2大數(shù)據(jù)分析技術(shù)3人工智能研究的基本內(nèi)容4人工智能的主要應(yīng)用和研究領(lǐng)域5PARTONE1大數(shù)據(jù)存儲和管理技術(shù)師傅領(lǐng)進門,學(xué)藝在自身。------中國諺語大數(shù)據(jù)存儲和管理技術(shù)大數(shù)據(jù)每年都在激增龐大的信息量,加上已有的歷史數(shù)據(jù)信息,對整個業(yè)界的數(shù)據(jù)存儲、處理帶來了很大的機遇與挑戰(zhàn)。對于大數(shù)據(jù)的存儲,存在以下問題和挑戰(zhàn):容量問題延遲問題安全問題靈活性...大數(shù)據(jù)存儲和管理技術(shù)數(shù)據(jù)在存儲設(shè)備上以數(shù)據(jù)塊的形式存儲,人們對物理數(shù)據(jù)進行直接訪問和查詢文件系統(tǒng)以文件為單位對數(shù)據(jù)進行訪問和管理數(shù)據(jù)庫在文件系統(tǒng)上增加了一個抽象層,用戶可以根據(jù)數(shù)據(jù)模型對文件中的數(shù)據(jù)進行記錄級新增、截取、更新、刪除等操作傳統(tǒng)的數(shù)據(jù)存儲和管理技術(shù):與傳統(tǒng)的單機版文件系統(tǒng)及數(shù)據(jù)庫不同,對于大數(shù)據(jù)的存儲和管理,由于數(shù)據(jù)規(guī)模巨大,必須將數(shù)據(jù)存儲在多個機器中,并且在多臺機器中共享這些數(shù)據(jù)。這時,就需要采用新的文件系統(tǒng)技術(shù)。面向大數(shù)據(jù)的文件系統(tǒng)在多臺機器中存儲與共享數(shù)據(jù):以手工的方式共享文件FTP技術(shù)被用來共享文件網(wǎng)絡(luò)文件系統(tǒng)(NetworkFileSystem,NFS),最初的分布式文件系統(tǒng)分布式文件系統(tǒng)搭建在傳統(tǒng)文件系統(tǒng)之上,它必須允許用戶在企業(yè)內(nèi)部網(wǎng)上的任一計算機上訪問自己的文件,程序可以像對待本地文件一樣存儲和訪問遠程文件。為了達到此效果,分布式文件系統(tǒng)必須解決一些基本問題。這些問題包括:1).程序如何尋址遠程文件,像對待本地文件一樣訪問遠程文件?2).元數(shù)據(jù)管理問題3).一致性問題4).并發(fā)文件更新問題上世紀(jì)八十年代出現(xiàn)的網(wǎng)絡(luò)文件系統(tǒng)主要解決思路是實現(xiàn)客戶端和文件(存儲)服務(wù)器的交互問題。在緩存和一致性管理方面,Sun公司的網(wǎng)絡(luò)文件系統(tǒng)NFS采用了簡單的弱一致性方式:對于緩存的數(shù)據(jù),客戶端周期性(30秒)去詢問服務(wù)器,查詢文件被最后修改的時間,如果本地緩存數(shù)據(jù)的時間早于該時間,則讓本地緩存數(shù)據(jù)無效,下次讀取數(shù)據(jù)時就去服務(wù)器獲取最新的數(shù)據(jù)。服務(wù)器對外提供統(tǒng)一的命名空間(目錄樹),存儲服務(wù)器節(jié)點之間不共享存儲空間,每個服務(wù)器存儲不同目錄子樹的方式實現(xiàn)擴展。網(wǎng)絡(luò)文件系統(tǒng)的服務(wù)器之間缺乏負載均衡和容錯機制,不同服務(wù)器之間的存儲空間也不能得以均衡利用,可靠性差,文件(存儲)服務(wù)器的可擴展性問題十分突出:每個存儲服務(wù)器所支持的存儲容量局限于SCSI總線的限制而難以擴展。網(wǎng)絡(luò)文件系統(tǒng)90年代,存儲區(qū)域網(wǎng)(StorageAreaNetwork,SAN)成為解決存儲系統(tǒng)可擴展性的最有效的途徑。SAN是用網(wǎng)絡(luò)取代SCSI總線,從而使存儲系統(tǒng)的容量與性能的可擴展性都得以極大提高。在SAN網(wǎng)絡(luò)中,可以接入多個存儲節(jié)點,每個節(jié)點都對外提供I/O通道,在寫入數(shù)據(jù)時,服務(wù)器端可以并行寫入到多個存儲節(jié)點中,從而顯著提高I/O吞吐量。早期的SAN主要用于集群計算系統(tǒng)中。存儲區(qū)域網(wǎng)分布式集群文件系統(tǒng)分布式集群文件系統(tǒng):在傳統(tǒng)文件系統(tǒng)基礎(chǔ)上,每臺計算機各自提供自己的存儲空間,并各自協(xié)調(diào)管理所有計算機節(jié)點中的文件,節(jié)點通過前端網(wǎng)絡(luò)發(fā)送請求讀寫數(shù)據(jù)。典型代表Google文件系統(tǒng)GFS雅虎工程師開發(fā)了HDFSGlusterFS、Ceph、Lustre、MooseFS等分布式集群文件系統(tǒng)HDFS對大文件采用分塊存儲,非常適合在以計算為主和超大文件存儲的應(yīng)用環(huán)境下,支持對大文件的每一塊進行獨立地計算處理。HDFS可以在集群內(nèi)進行文件塊的移動遷移,將文件塊遷移到計算空閑的機器上,以充分利用CPU計算資源,加快數(shù)據(jù)處理速度。同時,分塊導(dǎo)致了文件難以修改數(shù)據(jù)。Ceph的主要目標(biāo)是設(shè)計成可輕松擴展到數(shù)PB容量、基于POSIX、沒有單點故障、對多種工作負載提供高性能的訪問。目前Ceph支持OpenStack、CloudStack、OpenNebula、Hadoop等。GlusterFS是完全與POSIX標(biāo)準(zhǔn)兼容的分布式集群文件系統(tǒng)。分布式內(nèi)存文件系統(tǒng)Tachyon可以在集群里以訪問內(nèi)存的速度來訪問存在tachyon里的文件Tachyon是框架在分布式文件存儲和各種計算框架之間的一種中間件主要職責(zé)是將那些不需要落地到普通文件系統(tǒng)里的文件,落地到分布式內(nèi)存文件系統(tǒng)中,來達到共享內(nèi)存、提高效率,同時可以達到減少內(nèi)存冗余、GC時間等的目的面向大數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng):并行數(shù)據(jù)庫是指那些在無共享的體系結(jié)構(gòu)中進行數(shù)據(jù)庫操作的數(shù)據(jù)庫系統(tǒng)。這些系統(tǒng)大部分采用了關(guān)系數(shù)據(jù)模型并且支持SQL語句查詢,但為了能夠并行執(zhí)行SQL的查詢操作,系統(tǒng)中采用了兩個關(guān)鍵技術(shù):關(guān)系表的水平劃分:根據(jù)某種策略將關(guān)系表中的元組分布到集群中的不同節(jié)點上,這些節(jié)點上的表結(jié)構(gòu)是一樣的,這樣就可以對元組并行處理SQL查詢的分區(qū)執(zhí)行:首先為SQL查詢生成總的執(zhí)行計劃,再拆分成能夠在各個節(jié)點上獨立執(zhí)行的子計劃。在執(zhí)行時,每個節(jié)點將中間結(jié)果發(fā)送到某一特定節(jié)點進行聚集產(chǎn)生最終結(jié)果。并行數(shù)據(jù)庫優(yōu)點:擁有較高的性能和可用性缺點:沒有較好的可伸縮性;系統(tǒng)的容錯性較差只適合小規(guī)模集群,以及資源需求相對固定的應(yīng)用程序NoSQL數(shù)據(jù)管理系統(tǒng)由于傳統(tǒng)關(guān)系數(shù)據(jù)庫(Oracle、MSSQLServer和MySQL等)不擅長處理模式不確定性的數(shù)據(jù)、使傳統(tǒng)關(guān)系數(shù)據(jù)庫表結(jié)構(gòu)變得復(fù)雜和對事務(wù)管理的嚴格要求嚴重影響了系統(tǒng)在分布式環(huán)境下的可用性和可伸縮性等原因,出現(xiàn)了NoSQL數(shù)據(jù)管理系統(tǒng)。NoSQL(NotOnlySQL)數(shù)據(jù)存儲和管理系統(tǒng)是指那些非關(guān)系型的、分布式的、不保證遵循ACID原則的數(shù)據(jù)存儲系統(tǒng),并分為key-value存儲、文檔數(shù)據(jù)庫和圖數(shù)據(jù)庫這3類。根據(jù)CAP定理,對于分布式系統(tǒng)來說,系統(tǒng)的一致性(consistency,C)、可用性(availability,A)和分區(qū)容錯性(partitiontolerance,P)三者是不可能同時實現(xiàn)的,任何設(shè)計高明的分布式系統(tǒng)只能同時保障其中的兩個性質(zhì)。如以上的NoSQL數(shù)據(jù)庫中,Cassandra,Dynamo滿足CAP定理中的AP;BigTable,MongoDB滿足CP;而關(guān)系數(shù)據(jù)庫,如MySQL和Postgres滿足AC。NoSQL數(shù)據(jù)管理系統(tǒng)NoSQL典型地遵循BASE原則,更加強調(diào)讀寫效率、數(shù)據(jù)容量以及系統(tǒng)可擴展性.NoSQL數(shù)據(jù)庫一般只支持簡單的key/value接口,只支持根據(jù)惟一的鍵值(key)定義在一個數(shù)據(jù)項上的讀寫操作。支持事務(wù)的分布式NoSQL--FoundationDB優(yōu)點:相對于復(fù)雜的關(guān)系數(shù)據(jù)庫系統(tǒng),其主要優(yōu)點在于其查詢速度快、支持大規(guī)模數(shù)據(jù)存儲且支持高并發(fā),非常適合只需要通過主鍵進行簡單查詢的應(yīng)用場景。缺點:它本身沒有任何表示約束和關(guān)系的機制,因此數(shù)據(jù)完整性的保障完全依賴客戶程序本身;由于目前出現(xiàn)了很多NoSQL數(shù)據(jù)存儲系統(tǒng)的產(chǎn)品或工具,但由于缺乏統(tǒng)一標(biāo)準(zhǔn),彼此之間兼容性差等。NewSQL數(shù)據(jù)管理系統(tǒng)NewSQL能夠提供SQL數(shù)據(jù)庫的質(zhì)量保證,也能提供NoSQL數(shù)據(jù)庫的可擴展性。VoltDB是NewSQL的實現(xiàn)之一,其開發(fā)公司的CTO宣稱,它們的系統(tǒng)使用NewSQL的方法處理事務(wù)的速度比傳統(tǒng)數(shù)據(jù)庫系統(tǒng)快45倍。VoltDB可以擴展到39個機器上,在300個CPU內(nèi)核中每分鐘處理1600萬事務(wù),其所需的機器數(shù)比Hadoop集群要少很多。NewSQL的出現(xiàn):2012年Google在OSDI上發(fā)表了Spanner的論文,2013年在SIGMOD發(fā)表了F1的論文。這兩篇論文讓業(yè)界第一次看到了關(guān)系模型和NoSQL的擴展性在超龐大集群規(guī)模上融合的可能性。這種可擴展、高性能的SQL數(shù)據(jù)庫被稱為NewSQL,其中“New”用來表明與傳統(tǒng)關(guān)系型數(shù)據(jù)庫系統(tǒng)的區(qū)別。PARTTWO2大數(shù)據(jù)計算技術(shù)批處理計算模式

批量數(shù)據(jù)三大特征數(shù)據(jù)體量巨大數(shù)據(jù)精確度高數(shù)據(jù)價值密度低大數(shù)據(jù)的批處理系統(tǒng)適用于先存儲后計算,實時性要求不高,同時數(shù)據(jù)的準(zhǔn)確性和全面性更為重要的場景。批處理計算模式批量數(shù)據(jù)處理適合大型、相對成熟的作業(yè),但可能浪費時間,因為處理結(jié)果與預(yù)期差異大。MapReduce編程模型在批處理計算中廣泛應(yīng)用,因為它具有良好的性價比、易于使用和可伸縮性。離線批處理計算模式適用于靜態(tài)數(shù)據(jù),但對于實時性要求高的應(yīng)用不夠強大,因為它有一些局限性,如中間數(shù)據(jù)傳輸難以優(yōu)化、任務(wù)重啟開銷大等。交互式查詢計算模式數(shù)據(jù)查詢和分析是迭代的交互過程,對實時性要求高,大數(shù)據(jù)環(huán)境下需要改進響應(yīng)時間,引入索引和內(nèi)存計算等手段,如Spark和Dremel系統(tǒng)。Spark系統(tǒng):是高效的開源集群計算系統(tǒng),利用內(nèi)存快速處理數(shù)據(jù),比Hadoop快10倍~100倍,兼容Hadoop存儲API,支持交互式查詢。Dremel系統(tǒng):交互式數(shù)據(jù)分析系統(tǒng),處理PB級數(shù)據(jù),秒級響應(yīng),嵌套數(shù)據(jù)模型適合大規(guī)模數(shù)據(jù)和相關(guān)查詢,結(jié)合Web搜索技術(shù),能夠?qū)崿F(xiàn)并發(fā)執(zhí)行查詢。流處理計算模式流處理計算的現(xiàn)狀流處理計算的方式流處理的應(yīng)用流處理計算的現(xiàn)狀流數(shù)據(jù)具有持續(xù)到達、規(guī)模大且速度快等特點,通常不會對所有數(shù)據(jù)進行永久化存儲,而基本在內(nèi)存中完成。流數(shù)據(jù)處理方式更多地依賴于內(nèi)存中設(shè)計巧妙的概要數(shù)據(jù)結(jié)構(gòu)。在云計算和大數(shù)據(jù)環(huán)境下面臨新的挑戰(zhàn),流處理仍舊是研究熱點。物聯(lián)網(wǎng)領(lǐng)域由于大量實時產(chǎn)生的感知數(shù)據(jù),也對流處理計算模式有廣泛的需求。流處理計算的方式流處理兩種典型的處理方式:真正的流處理方式:計算是針對一條新的記錄進行一次。

(例如Storm,其響應(yīng)時間可以達毫秒級。)微批處理方式:將流數(shù)據(jù)分為很多小的片段,針對每個片段進行一次處理。(例如SparkStreaming,響應(yīng)時間難以達到毫秒級。)流處理的應(yīng)用Twitter的Storm系統(tǒng)

Storm是一套分布式、可靠、可容錯的用于處理流數(shù)據(jù)的系統(tǒng)。其流式處理作業(yè)被分發(fā)至不

同類型的組件,每個組件負責(zé)一項簡單的、特定的處理任務(wù)。Storm提供了簡單的類似于MapReduce的編程模型,降低了實時處理的復(fù)雜性。它也具有擁有良好的水平擴展能力,其流式計算過程是在多個線程、進程和服務(wù)器之間并行進行的。Linkedin的Samza系統(tǒng)

Samza與Kafka的關(guān)系可以類比MapReduce與HDFS的關(guān)系。Samza系統(tǒng)由3個層次組成,包括流式數(shù)據(jù)層(Kafka)、執(zhí)行層(YARN)、處理層(SamzaAPI).一個Samza任務(wù)的輸入與輸出均是流。

Samza使用Kafka來保證所有消息都會按照寫入分區(qū)的順序進行處理,絕對不會丟失任何消息。SparkStreaming系統(tǒng)

SparkStreaming是SparkAPI的一個擴展,它并不會像Storm那樣一次一個地處理數(shù)據(jù)流,而是在處理前按時間間隔預(yù)先將其切分為一段一段的微批處理作業(yè)。大數(shù)據(jù)實時處理的架構(gòu):Lambda及KappaLambda架構(gòu)是由Storm的作者NathanMarz提出的一個實時大數(shù)據(jù)處理框架。Lambda架構(gòu)將大數(shù)據(jù)系統(tǒng)構(gòu)建為多個層次。

理想狀態(tài)下,任何數(shù)據(jù)訪問都可以通過對數(shù)據(jù)的直接查詢獲取,但是,若數(shù)據(jù)達到相當(dāng)大的一個級別(例如PB),且還需要支持實時查詢時,就需要耗費非常龐大的資源。大數(shù)據(jù)實時處理的架構(gòu):Lambda及Kappa

在Lambda架構(gòu)中,實現(xiàn)batchview的部分被稱之為批處理層(Batchlayer)。主要包含兩個職責(zé):

存儲主數(shù)據(jù)集(不變的持續(xù)增長的數(shù)據(jù)集)

針對這個主數(shù)據(jù)集進行預(yù)運算

大數(shù)據(jù)實時處理的架構(gòu):Lambda及Kappa加速層只處理最近的數(shù)據(jù),它會在接收到新數(shù)據(jù)時,進行一種增量的計算。

大數(shù)據(jù)實時處理的架構(gòu):Lambda及Kappa

針對Lambda架構(gòu)的缺點,LinkedIn的工程師JayKreps提出了應(yīng)對大數(shù)據(jù)實時處理的另外一種方式,即Kappa架構(gòu)。

在Kappa架構(gòu)中,流處理系統(tǒng)來處理輸入的數(shù)據(jù),流處理系統(tǒng)的輸出直接進入數(shù)服務(wù)層,而應(yīng)用直接從服務(wù)層獲取查詢結(jié)果。也就是說Kappa只有兩層:實時處理層和服務(wù)層。大數(shù)據(jù)實時處理的架構(gòu):Lambda及Kappa

在Kappa架構(gòu)中,不需要對數(shù)據(jù)的處理開發(fā)和維護兩套不同的系統(tǒng),因此系統(tǒng)復(fù)雜度減少了。

但是,由于Kappa架構(gòu)去掉了批處理層,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論