互聯(lián)網(wǎng)大數(shù)據(jù)文獻(xiàn)綜述_第1頁(yè)
互聯(lián)網(wǎng)大數(shù)據(jù)文獻(xiàn)綜述_第2頁(yè)
互聯(lián)網(wǎng)大數(shù)據(jù)文獻(xiàn)綜述_第3頁(yè)
互聯(lián)網(wǎng)大數(shù)據(jù)文獻(xiàn)綜述_第4頁(yè)
互聯(lián)網(wǎng)大數(shù)據(jù)文獻(xiàn)綜述_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

互聯(lián)網(wǎng)大數(shù)據(jù)文獻(xiàn)綜述互聯(lián)網(wǎng)大數(shù)據(jù)文獻(xiàn)綜述大數(shù)據(jù)分析的趨勢(shì)亮點(diǎn)大數(shù)據(jù)分析中的當(dāng)前的最先進(jìn)技術(shù)的概述。大數(shù)據(jù)分析的規(guī)模和應(yīng)用前景趨勢(shì)。在硬件上的現(xiàn)況和未來(lái)的發(fā)展趨勢(shì),如何幫助我們解決大規(guī)模數(shù)據(jù)集。討論目前采用的軟件技術(shù)和未來(lái)趨勢(shì),以解決大數(shù)據(jù)分析應(yīng)用。關(guān)鍵詞:大數(shù)據(jù)分析數(shù)據(jù)中心分布式系統(tǒng)摘要:大數(shù)據(jù)分析是并行的分布式系統(tǒng)未來(lái)的主要應(yīng)用之一。數(shù)據(jù)倉(cāng)庫(kù)目前應(yīng)用的規(guī)模已經(jīng)超過(guò)EB級(jí),并且其規(guī)模還在不斷增長(zhǎng)。當(dāng)數(shù)據(jù)集和相關(guān)應(yīng)用程序超出了他們的規(guī)模,給這些的構(gòu)成要求和軟件開(kāi)發(fā)方法的考慮帶來(lái)了重大挑戰(zhàn)。數(shù)據(jù)集通常是分布式,它們的大小和安全考慮到分布式技術(shù)來(lái)得到保證。數(shù)據(jù)經(jīng)常駐留在不同的平臺(tái)上計(jì)算,對(duì)網(wǎng)絡(luò)能力,容錯(cuò)性,安全性和訪問(wèn)控制的考慮是在許多應(yīng)用中的關(guān)鍵。在其他應(yīng)用程序中,分析任務(wù)的截止時(shí)間主要與數(shù)據(jù)質(zhì)量有關(guān)。對(duì)于大多數(shù)新興應(yīng)用程序,數(shù)據(jù)驅(qū)動(dòng)的模型和方法,能夠大規(guī)模操作的方法,到目前還未找到。即使知道可以縮放的方法,驗(yàn)證結(jié)果又是一個(gè)重大的問(wèn)題。硬件平臺(tái)的特性和軟件堆棧從根本上影響數(shù)據(jù)分析。在這篇文章中,我們提供了一個(gè)概述的最先進(jìn)的硬件和軟件的趨勢(shì)在大數(shù)據(jù)分析應(yīng)用程序前景的應(yīng)用。引言隨著互聯(lián)網(wǎng)關(guān)鍵的技術(shù)的發(fā)展,計(jì)算作為一個(gè)實(shí)用程序的設(shè)想在上世紀(jì)90年代中期開(kāi)始形成。在網(wǎng)格計(jì)算時(shí)代的早期人們通常認(rèn)為硬件作為主要資源。網(wǎng)格計(jì)算技術(shù)專(zhuān)注于分享、選擇和聚合各種各樣的地理上分布的資源。這些資源包括超級(jí)計(jì)算機(jī)、存儲(chǔ)和其他設(shè)備,用來(lái)解決在科學(xué)、工程和商業(yè)的大規(guī)模計(jì)算密集型問(wèn)題。這些框架的一個(gè)關(guān)鍵特性是他們的支持透明跨域管理和資源管理能力?!皵?shù)據(jù)即資源”的概念被普及在p2p系統(tǒng)。Napster、Gnutella,和BitTorrent允許節(jié)點(diǎn)共享多媒體數(shù)據(jù)內(nèi)容通常直接彼此以分散的方式。這這些框架強(qiáng)調(diào)互操作性和動(dòng)態(tài)性,降低成本,資源共享特定的溝通和協(xié)作,聚集。然而,在這些平臺(tái)上,匿名,隱私問(wèn)題和擴(kuò)展性問(wèn)題的考慮是次要的。最近,云計(jì)算環(huán)境的可靠性、服務(wù)的健壯性被(通常的訪問(wèn)來(lái)自客戶機(jī)的瀏覽器)來(lái)自于客戶端,大規(guī)模生產(chǎn)的移動(dòng)設(shè)備和通用計(jì)算機(jī)的訪問(wèn)檢驗(yàn)。云計(jì)算的服務(wù)觀念概述為“基礎(chǔ)架構(gòu)即服務(wù)”(云計(jì)算資源在云中可用),數(shù)據(jù)即服務(wù)(數(shù)據(jù)在云中可用)和軟件即服務(wù)(訪問(wèn)程序在云中執(zhí)行)。從服務(wù)提供者的角度來(lái)看這提供了相當(dāng)大的好處(在硬件和管理的成本降低),整體資源的利用率,以及更好的客戶端接口。云環(huán)境的計(jì)算底層通常依賴(lài)于高效和彈性的數(shù)據(jù)中心架構(gòu),基于虛擬化的計(jì)算和存儲(chǔ)技術(shù),高效利用商品硬件組件。目前的數(shù)據(jù)中心通常規(guī)模為成千上萬(wàn)的節(jié)點(diǎn),計(jì)算在云計(jì)算中經(jīng)??缭蕉鄠€(gè)數(shù)據(jù)節(jié)點(diǎn)。新興的基于云的環(huán)境與分布式數(shù)據(jù)中心托管的大型數(shù)據(jù)倉(cāng)庫(kù),同時(shí)也為分析提供強(qiáng)力的處理有效的并行/分布式算法的需要。潛在的社會(huì)經(jīng)濟(jì)效益的大數(shù)據(jù)分析,與多樣性的應(yīng)用提出是很大的挑戰(zhàn),在本文的其他部分我們重點(diǎn)強(qiáng)調(diào)數(shù)據(jù)分析問(wèn)題的規(guī)模和范圍。我們描述了常用的硬件平臺(tái)上執(zhí)行分析應(yīng)用的相關(guān)情況,并考慮存儲(chǔ),處理,網(wǎng)絡(luò)和能量。然后,我們專(zhuān)注于應(yīng)用程序,即虛擬化技術(shù),運(yùn)行時(shí)系統(tǒng)/執(zhí)行環(huán)境和編程的軟件基礎(chǔ)模型。我們?cè)诙鄻有詳?shù)據(jù)分析的應(yīng)用中,對(duì)健康和人類(lèi)福利進(jìn)行計(jì)算機(jī)建模與模擬得出一個(gè)簡(jiǎn)短的結(jié)論。1.1數(shù)據(jù)分析的規(guī)模和范圍最近保守的研究估計(jì),在2008年世界上的企業(yè)服務(wù)器系統(tǒng)已經(jīng)能處理了9.57×10^21字節(jié)的數(shù)據(jù)。這一數(shù)字預(yù)計(jì)將從這基礎(chǔ)上每?jī)赡攴艘环?。舉一個(gè)例子,沃爾瑪?shù)姆?wù)器每過(guò)一個(gè)小時(shí)就要處理超過(guò)一百萬(wàn)客戶交易,這些信息插入到數(shù)據(jù)庫(kù),存儲(chǔ)超過(guò)2.5PB的數(shù)據(jù)與167座國(guó)會(huì)圖書(shū)館的書(shū)籍?dāng)?shù)量相當(dāng)。在歐洲核子研究中心的大型強(qiáng)子對(duì)撞機(jī)每年將產(chǎn)生大約15千兆字節(jié)的數(shù)據(jù),足以填滿超過(guò)170萬(wàn)個(gè)雙層DVD。每天,Facebook產(chǎn)生近500TB的用戶日志數(shù)據(jù)和數(shù)百萬(wàn)TB的圖像數(shù)據(jù)。每分鐘,在YouTube有100小時(shí)的視頻被上傳,有135000小時(shí)的視頻被觀看。每一秒,有超過(guò)28000個(gè)多媒體(MMS)消息被發(fā)送。在2012大約4600萬(wàn)的移動(dòng)應(yīng)用程序被下載了,每一個(gè)應(yīng)用程序收集到更多的數(shù)據(jù)。推特的服務(wù)上有超過(guò)5億5000萬(wàn)的活躍用戶,他們每秒鐘產(chǎn)生9100條推特。eBay系統(tǒng)每一天處理超過(guò)100PB的數(shù)據(jù)。在其他領(lǐng)域,波音噴氣發(fā)動(dòng)機(jī)每運(yùn)轉(zhuǎn)30分鐘能產(chǎn)生10TB的操作信息。其中,如果每一天有25000的航班,僅僅數(shù)據(jù)傳感器和機(jī)器生產(chǎn)的足跡信息的數(shù)據(jù),在橫渡一次大西洋將產(chǎn)生幾百TB的數(shù)據(jù)。這些例子只是驚鴻一瞥,來(lái)自不同數(shù)據(jù)源的生態(tài)系統(tǒng)的數(shù)據(jù)集在迅速擴(kuò)張。結(jié)構(gòu)化數(shù)據(jù)(例如,金融,電子醫(yī)學(xué)記錄,政府統(tǒng)計(jì)),半結(jié)構(gòu)化數(shù)據(jù)(例如,文本,微博,電子郵件),非結(jié)構(gòu)化(例如,音頻和視頻),和實(shí)時(shí)數(shù)據(jù)(如網(wǎng)絡(luò)痕跡,一般的監(jiān)測(cè)日志)。如果有組織和適當(dāng)?shù)姆治龅脑挘羞@些應(yīng)用都有可能提供寶貴的見(jiàn)解。在當(dāng)今廣泛公認(rèn)需要有效分析的大型數(shù)據(jù)集的應(yīng)用程序。這些應(yīng)用包括醫(yī)療保健分析(例如,個(gè)性化基因組學(xué)),業(yè)務(wù)流程優(yōu)化,和社會(huì)網(wǎng)絡(luò)為基礎(chǔ)的建議。然而,預(yù)測(cè)表明數(shù)據(jù)增長(zhǎng)將在很大程度上超過(guò)了可預(yù)見(jiàn)的成本改善,密度的存儲(chǔ)技術(shù),來(lái)處理它可用的計(jì)算能力和相關(guān)的能源熵。例如,在2002和2009之間數(shù)據(jù)流量增長(zhǎng)了56倍,相比,相應(yīng)的計(jì)算能力的增加是16倍(主要是跟蹤穆?tīng)柕姆桑?。相比之下?998至2005數(shù)據(jù)中心的規(guī)模的增長(zhǎng)是每年173%。這些趨勢(shì)推斷,大概需要13年對(duì)于計(jì)算能力的增加才能滿足需求。然而,能源效率并不是像預(yù)期在同一時(shí)間內(nèi)增加25倍。這產(chǎn)生幾乎40倍的嚴(yán)重的不匹配的增加在數(shù)據(jù)分析能源足跡上。負(fù)載特性。大數(shù)據(jù)工作負(fù)載的全面研究,可以幫助他們理解對(duì)硬件和軟件設(shè)計(jì)的影響。由數(shù)值計(jì)算的“七個(gè)小矮人”,MEHUL,Shah等。試圖定義一組“數(shù)據(jù)小矮人”即關(guān)鍵數(shù)據(jù)處理內(nèi)核用來(lái)提供當(dāng)前和未來(lái)的數(shù)據(jù)中心的負(fù)載特性的報(bào)道。在2010年借鑒一組廣泛的負(fù)載特性,他們建立了一套分類(lèi)尺寸(響應(yīng)時(shí)間,訪問(wèn)模式,工作組,數(shù)據(jù)類(lèi)型,讀與寫(xiě),處理復(fù)雜度),并得出結(jié)論,五個(gè)工作負(fù)載模型可以令人滿意的覆蓋以數(shù)據(jù)為中心的工作負(fù)載:(一)在PB級(jí)規(guī)模的分布式排序,(二)在內(nèi)存中的索引搜索,(三)推薦系統(tǒng),具有較高的處理負(fù)載和規(guī)則的通信模式,(四)順序訪問(wèn)為基礎(chǔ)的數(shù)據(jù)復(fù)制(五)視頻上傳和流交互應(yīng)答率的服務(wù)器。在聯(lián)機(jī)分析處理(OLAP)的工作負(fù)載可以表示為(1)、(3)、(4)的組合、在線事務(wù)處理(OLTP)的工作量只能部分捕獲,在未來(lái)可能需要另一個(gè)類(lèi)別,在內(nèi)存索引和查詢支持捕獲一些這些負(fù)載特性的方面,但工作集因?yàn)樘蠖荒芊旁趦?nèi)存中。1.2.設(shè)計(jì)考慮在未來(lái),大的規(guī)模、范圍和性質(zhì)(負(fù)載特性)的大數(shù)據(jù)分析應(yīng)用,能獨(dú)立的分別對(duì)硬件系統(tǒng),軟件系統(tǒng)和架構(gòu)設(shè)計(jì)提供有趣的見(jiàn)解。對(duì)硬件的影響。數(shù)據(jù)訪問(wèn)模式和訪問(wèn)數(shù)據(jù)的頻率(冷與熱數(shù)據(jù))可以驅(qū)動(dòng)未來(lái)的內(nèi)存層次結(jié)構(gòu)的優(yōu)化:數(shù)據(jù)一般為熱數(shù)據(jù);但是隨著時(shí)間的推移,它變成了歸檔,冷的數(shù)據(jù),最適合存儲(chǔ)在NVM中。然而,有顯著的例外的周期性或客戶流失的訪問(wèn)模式(季節(jié)相關(guān)主題,名人的標(biāo)題),和熱龐大的數(shù)據(jù)集(比較基因組計(jì)算)應(yīng)加以考慮。此外,潛在的維度之間的相關(guān)性出現(xiàn)能對(duì)硬件堆棧的進(jìn)行預(yù)測(cè):一個(gè)視頻,由于存在多種格式或語(yǔ)言字幕,結(jié)果有許多版本,這些可以離線生成和存儲(chǔ)(因此需要足夠的存儲(chǔ))或動(dòng)態(tài)生成(代碼轉(zhuǎn)換和翻譯調(diào)控)數(shù)據(jù)給數(shù)據(jù)中心,或是在用戶的設(shè)備上(客戶端計(jì)算)帶來(lái)計(jì)算壓力。另外,可能要重新考慮相對(duì)優(yōu)先級(jí)的進(jìn)展,在處理器設(shè)計(jì)的性能的考慮在當(dāng)前的子系統(tǒng)的I/O之上。存在這樣一種替代的極端,一種選擇將是考慮一個(gè)可能的“版本”:層次結(jié)構(gòu)的計(jì)算支持?jǐn)?shù)據(jù)存儲(chǔ)的元素,而不是今天的設(shè)計(jì)存儲(chǔ)層次結(jié)構(gòu)為計(jì)算元素服務(wù)。逐漸瓦解現(xiàn)有的存儲(chǔ)層次結(jié)構(gòu)的平滑過(guò)渡,這樣進(jìn)一步提供節(jié)省能源消耗。了解工作負(fù)載也能在硬件識(shí)別可能會(huì)用于直接執(zhí)行特殊用途處理單元。圖形處理器、現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA),專(zhuān)業(yè)化的特定應(yīng)用集成電路(ASIC),和專(zhuān)用的視頻編碼器/解碼器都是值得考慮的。這樣的硬件加速器大大減少能源消耗,與通用處理相比較。這些可以集成在芯片上,導(dǎo)致的以數(shù)據(jù)為中心的家族是非對(duì)稱(chēng)處理器。對(duì)軟件的影響。軟件系統(tǒng)、存儲(chǔ)和計(jì)算的需要為了迎合一個(gè)相當(dāng)大的問(wèn)題:數(shù)據(jù)規(guī)模的空間、工作負(fù)載的性質(zhì)和其他應(yīng)用程序的需求,像一致性、可用性和分區(qū)容忍。大數(shù)據(jù)規(guī)模需求高度可擴(kuò)展的分布式存儲(chǔ)系統(tǒng)能夠適應(yīng)大量的數(shù)據(jù),有效率的入口和出口的機(jī)制;Apache的Flume就是這樣的有利于數(shù)據(jù)收集的系統(tǒng)。此外,這些存儲(chǔ)系統(tǒng)應(yīng)該支持高效查詢的內(nèi)存緩存和其他OLTP工作負(fù)載;即使HDFS最近增加了支持緩存。不同工作負(fù)載需求各種各樣的計(jì)算特點(diǎn)引擎,流式處理更多的在線數(shù)據(jù)的查詢與事務(wù)支持。大數(shù)據(jù)分析通常允許對(duì)其定量的輸出放寬精度約束,從而影響算法設(shè)計(jì)。隨機(jī)的算法應(yīng)用原始的、

昂貴的計(jì)算內(nèi)核和最后犧牲精度(數(shù)據(jù)可證明的界限尺寸/精度權(quán)衡)。能源意識(shí)到計(jì)算內(nèi)核可以減少能源足跡的分析計(jì)算,同時(shí)保留性能與最小精度退化

(能源/精度權(quán)衡)。2.數(shù)據(jù)分析的硬件平臺(tái)我們現(xiàn)在考慮當(dāng)前數(shù)據(jù)分析的硬件平臺(tái),以及這些平臺(tái)將來(lái)如何發(fā)展。2.1內(nèi)存/存儲(chǔ)在傳統(tǒng)的系統(tǒng)設(shè)計(jì),磁盤(pán)用于數(shù)據(jù)持久化和DRAM內(nèi)存更快的訪問(wèn)/磁盤(pán)緩存。然而傳統(tǒng)磁盤(pán)有移動(dòng)的部件,很大程度上制約了他們的一生和建立對(duì)其訪問(wèn)的時(shí)間界限。另一方面,DRAM芯片需要靜態(tài)刷新電路獨(dú)立消費(fèi)能源判斷是否有數(shù)據(jù)讀/寫(xiě)活動(dòng)。非易失性存儲(chǔ)器(NVM)技術(shù)能解決這些缺點(diǎn),并有望在未來(lái)設(shè)計(jì)發(fā)揮重大作用。有幾個(gè)以數(shù)據(jù)為中心的NVM應(yīng)用程序[的建議?;贔lash的應(yīng)用可以公開(kāi)為塊存儲(chǔ)通過(guò)串行連接SCSI(SAS)和串行先進(jìn)技術(shù)附件(SATA)或PCIExpress接口甚至結(jié)合解散匯總內(nèi)存提供降低成本效益解決方案。其他類(lèi)型的非易失性存儲(chǔ)器如相變存儲(chǔ)器(PCRAM)和憶阻器已提出將集成作為字節(jié)尋址的內(nèi)存在芯片上的存儲(chǔ)器總線或直接堆放(3D堆)。非易失性存儲(chǔ)器也可以用于實(shí)現(xiàn)額外的緩存層次,或更換持久存儲(chǔ),從而用于各級(jí)促進(jìn)減緩內(nèi)存崩潰的內(nèi)存類(lèi)型。這些建議的共同點(diǎn)是穩(wěn)定的轉(zhuǎn)變用于持久性數(shù)據(jù)存儲(chǔ)的內(nèi)存接口,理由是性能與簡(jiǎn)化。移動(dòng)計(jì)算更接近數(shù)據(jù)也受到許多大型數(shù)據(jù)管理任務(wù)的一般結(jié)構(gòu),隨后產(chǎn)生相關(guān)框架。例如在經(jīng)常使用的MapReduce范式中,數(shù)據(jù)被分區(qū)在可用的節(jié)點(diǎn)和任務(wù)計(jì)劃,這樣配置與數(shù)據(jù)操作的數(shù)量有關(guān)。任務(wù)和相關(guān)數(shù)據(jù)的搭配也很注重節(jié)約能源。最近的毫微級(jí)儲(chǔ)存方案主張計(jì)算與持久性數(shù)據(jù)存儲(chǔ)的搭配。這是讓人想起過(guò)去的想法,活躍存儲(chǔ),增強(qiáng)磁盤(pán)控制器處理特殊計(jì)算任務(wù),是當(dāng)時(shí)應(yīng)用程序范圍有限的原始提案。從進(jìn)化的角度來(lái)看,磁盤(pán)仍然具有很高的成本。因此,他們不太可能完全被取代在之后的一段時(shí)間。NVM技術(shù)應(yīng)被視為近期未來(lái)設(shè)計(jì)的有吸引力的組成部分。在這方面,我們還應(yīng)該考慮到變化的應(yīng)用將引發(fā)在總體的軟件的棧的變化。例如,當(dāng)前的文件系統(tǒng)是在以毫秒的延遲優(yōu)化。NVMs提供延遲減少約三個(gè)數(shù)量級(jí)在這段時(shí)間(微秒)。有的建議基于閃存的固態(tài)硬盤(pán)(SSD)支持key-value存儲(chǔ)抽象,有利于它的工作負(fù)載。還有其他人建議固態(tài)硬盤(pán)作為傳統(tǒng)硬盤(pán)的緩存組織(混合設(shè)計(jì))。理想情況下NVMs應(yīng)該暴露在的持久性指令集級(jí)別(ISA),操作系統(tǒng)可以使用他們有效(例如,通過(guò)重新設(shè)計(jì)的部件,承擔(dān)記憶波動(dòng)或提供給上層,放置檔案資料節(jié)能NVM模塊API。)的數(shù)據(jù)。另一方面,持久的記憶能力將降低分離性;可以通過(guò)持久的內(nèi)存交換解決這個(gè)問(wèn)題。從算法的角度設(shè)計(jì)和相關(guān)的數(shù)據(jù)結(jié)構(gòu),non-volatility可以推動(dòng)替代,優(yōu)化設(shè)計(jì)和索引的實(shí)現(xiàn)結(jié)構(gòu),鍵值存儲(chǔ)數(shù)據(jù)庫(kù)和文件系統(tǒng),所有大數(shù)據(jù)分析的主要組件。2.2網(wǎng)絡(luò)資源對(duì)于數(shù)據(jù)分析主要考慮設(shè)計(jì)標(biāo)準(zhǔn)通信協(xié)議棧的鏈路,網(wǎng)絡(luò)和傳輸層的設(shè)計(jì)與互操作性的不同的技術(shù)和制造商的組件。在這個(gè)設(shè)計(jì)中鏈路層是不可靠的,因此擁塞或不可靠的通信信道會(huì)造成數(shù)據(jù)包丟失。為了補(bǔ)救,傳輸層在最后要求讓步傳播,從而影響帶寬。然而,一個(gè)典型的數(shù)據(jù)中心網(wǎng)絡(luò)環(huán)境是完全不同的廣域網(wǎng)。首先,它的信道可以被認(rèn)為是無(wú)損的,這一假設(shè)應(yīng)該理想地反映在它實(shí)現(xiàn)的流動(dòng)機(jī)制。在一個(gè)單一的行政控制下,它大多是均勻的,所以向后兼容已經(jīng)部署的協(xié)議不是問(wèn)題。負(fù)載平衡器和應(yīng)用程序代理從外部通信所以沒(méi)有單獨(dú)的內(nèi)部交通與常規(guī)TCP公平性問(wèn)題。在排隊(duì)的情況下,往返時(shí)間(RTT)可小于250微秒。應(yīng)用程序同時(shí)需要非常高的帶寬和非常低的延遲。此外,很少有統(tǒng)計(jì)復(fù)用,所以一個(gè)流可以主導(dǎo)一個(gè)特定的路徑。數(shù)據(jù)中心網(wǎng)絡(luò)中的一個(gè)特殊性能瓶頸是在許多大型網(wǎng)絡(luò)應(yīng)用程序廣泛使用的分區(qū)/總設(shè)計(jì)模式:從更高層次的應(yīng)用程序的請(qǐng)求被分解成塊,并在較低層的代理聚集,查看這些代理的反應(yīng),然后匯總產(chǎn)生的結(jié)果。由此可見(jiàn),數(shù)據(jù)以傳回多對(duì)一的方式遍歷一個(gè)瓶頸環(huán)節(jié)。隨著并發(fā)者數(shù)量的增加,吞吐量的應(yīng)用水平在接收時(shí)比容量低幾個(gè)數(shù)量級(jí)。例如,這可能發(fā)生在MapReduce工作的shuffle階段,當(dāng)中間的鍵-值對(duì)多映射轉(zhuǎn)移到適當(dāng)?shù)膔educers。最近的一個(gè)變種TCP,TCP數(shù)據(jù)中心(DCTCP),解決了這個(gè)Fork-Join網(wǎng)絡(luò)交通結(jié)構(gòu),利用工程變更協(xié)議在大多數(shù)商品交換中實(shí)現(xiàn)的擴(kuò)展,允許端到端的網(wǎng)絡(luò)擁塞通知丟棄數(shù)據(jù)包。相反,未來(lái)的性能問(wèn)題可能會(huì)帶動(dòng)開(kāi)關(guān)設(shè)備的定制。注意,處理特定網(wǎng)絡(luò)的缺點(diǎn)的細(xì)節(jié)與選擇的協(xié)議基本上是相關(guān)的。這個(gè)基本的競(jìng)爭(zhēng)者是以太網(wǎng)和無(wú)線帶寬。無(wú)線帶寬是一種能量比例網(wǎng)絡(luò),這個(gè)屬性讓這種技術(shù)的優(yōu)勢(shì),因?yàn)槟茉葱适且粋€(gè)主要的設(shè)計(jì)目標(biāo)在未來(lái)數(shù)據(jù)中心。預(yù)計(jì)這兩個(gè)選項(xiàng)將在即將到來(lái)的未來(lái)會(huì)成為應(yīng)用程序?yàn)榛A(chǔ)。關(guān)于互連技術(shù),光學(xué)和電氣光學(xué)設(shè)計(jì)有著顯著的優(yōu)點(diǎn)。然而,由于光電轉(zhuǎn)換代表能源效率的瓶頸,我們的目標(biāo)是使用一個(gè)全光開(kāi)關(guān)結(jié)構(gòu)。這種轉(zhuǎn)變將被首先消除了網(wǎng)絡(luò)接口控制器(NIC),所以網(wǎng)絡(luò)處理器將直接對(duì)話;同樣也可以使光成為處理到內(nèi)存的路徑,最近發(fā)布的第一個(gè)平行光收發(fā)模塊原型具有每秒傳輸一個(gè)TB信息能力,由IBM清楚地識(shí)別大數(shù)據(jù)分析作為目標(biāo)市場(chǎng),強(qiáng)調(diào)設(shè)備的能源效率。英特爾還計(jì)劃推出一個(gè)成本有效的光學(xué)互連的雷電接口電纜(已準(zhǔn)備在蘋(píng)果產(chǎn)品中使用)。作為一種混合電/光開(kāi)關(guān)的一個(gè)例子,太陽(yáng)神是一個(gè)體系結(jié)構(gòu)有顯著減少的,布線,成本和功耗的開(kāi)關(guān)元件。它是一個(gè)二級(jí)多根樹(shù)的開(kāi)關(guān)和核心交換機(jī),其中的核心包括傳統(tǒng)的電分組交換機(jī)和微機(jī)電系統(tǒng)為基礎(chǔ)的光電路開(kāi)關(guān)。包括電氣交換機(jī)的原因是需要處理在聚集的交通需求之間的不同對(duì)突發(fā)性證明:支持這一類(lèi)型的交通所需的(光)電路的數(shù)目將是禁止的,和電分組交換將是可取的。2.3大數(shù)據(jù)分析中的能量問(wèn)題能量均衡是云計(jì)算的一個(gè)重要目標(biāo)系統(tǒng)和組件。大多數(shù)數(shù)據(jù)中心操作超過(guò)一半的峰值負(fù)載,雖然它們的效率最大化在峰值負(fù)載。能量比例意味著功率消耗與負(fù)載之間一個(gè)線性關(guān)系。這是可以實(shí)現(xiàn)的明確地使用能量比例的設(shè)備,或僅為計(jì)算過(guò)程中絕對(duì)必要的組件。更具體地說(shuō),工作整合通常適用于粗—像單個(gè)服務(wù)器機(jī)器一樣的細(xì)粒度組件,這種方法的適用性很大程度上取決于類(lèi)型的計(jì)算:批量處理產(chǎn)生理想的功率減少但在線或并行應(yīng)用程序不允許這樣的能量?jī)?chǔ)蓄計(jì)劃。請(qǐng)注意能量相稱(chēng)性不是名義上的光網(wǎng)絡(luò)技術(shù)的特點(diǎn)(靜態(tài)激光功率消費(fèi))。然而,能量?jī)?yōu)化與系統(tǒng)在更大的部署中更容易節(jié)省電力,特別是在輸送電子設(shè)備之前的能量,管道移動(dòng)或存儲(chǔ)數(shù)據(jù)處理。冷卻功率交付在大多數(shù)情況下,適合于能源的設(shè)計(jì)和實(shí)施。安德烈等人因子數(shù)據(jù)中心的效率為三個(gè)計(jì)算設(shè)備,服務(wù)器的能源轉(zhuǎn)換,執(zhí)行計(jì)電子元件的效率,和計(jì)算的本身。盡管第三項(xiàng)是最相關(guān)的我們的討論,前兩個(gè)因素每瓦特“生產(chǎn)性”消耗2.2瓦的能量。以一個(gè)更整體的方法來(lái)優(yōu)化第三項(xiàng)。巴利加等人??紤]優(yōu)化能源消費(fèi)在全球云系統(tǒng)首先分析能耗概況的運(yùn)輸,儲(chǔ)存,并在各種存儲(chǔ)即服務(wù)繪制場(chǎng)景服務(wù)器,軟件作為一種服務(wù),和處理作為一個(gè)云計(jì)算服務(wù)方面。在一個(gè)更細(xì)的粒度下,已經(jīng)提出了減少CPU的功耗:如動(dòng)態(tài)電壓和頻率縮放(DVFS),關(guān)閉功能單元的選擇(占到大約三分之一的能量到硬件子系統(tǒng))。然而,靜態(tài)功耗和性能要求的基本被限制。能源方面的考慮促使不對(duì)稱(chēng)設(shè)計(jì)建議(專(zhuān)業(yè)芯片多處理器,多核處理器);hardavellas等人。[42]填充一個(gè)大的,多樣化的應(yīng)用程序特定的異構(gòu)內(nèi)核的骰子,可以動(dòng)態(tài)禁用所有,但最適用于特定的應(yīng)用程序的核心(導(dǎo)致在黑暗的硅點(diǎn)),可以達(dá)到峰值性能和能源效率。3.虛擬化技術(shù)的虛擬化是一個(gè)云部署背后的關(guān)鍵的概念來(lái)協(xié)調(diào)軟件和硬件之間的天然鴻溝。它的基本組成部分是虛擬機(jī)監(jiān)控器(VMM),一個(gè)軟件抽象層,使分區(qū)的底層硬件平臺(tái)成一個(gè)或多個(gè)虛擬機(jī)[80]。最重要的是(i)應(yīng)該運(yùn)行未修改現(xiàn)有的軟件在每個(gè)虛擬機(jī),(ii)優(yōu)勢(shì)指令的子集必須直接在處理器上執(zhí)行(iii)VMM在系統(tǒng)資源的完全控制(經(jīng)典虛擬化)。虛擬化是在20世紀(jì)60年代末主機(jī)上下文的技術(shù)開(kāi)發(fā),最初,高性價(jià)比的機(jī)器隨后的增殖,分享,取決于虛擬化資源的需要,抓住存在,在某種程度上,現(xiàn)代的硬件本身不支持這種模式。然而,它提供的優(yōu)點(diǎn),特別是在可靠性,安全和管理硬件成為一個(gè)池資源,以運(yùn)行任意服務(wù)的需求,使其使用以數(shù)據(jù)為中心,大數(shù)據(jù)分析的多租戶環(huán)境中尤為重要。具體而言,VMM提供的虛擬機(jī)的封裝,從而有利于負(fù)載均衡的任務(wù),虛擬機(jī)器復(fù)制,儲(chǔ)存和運(yùn)輸,暫停/恢復(fù)方案,硬件和軟件/配置故障處理。此外,VMM虛擬墻之間提供隔離多臺(tái)虛擬機(jī)的多個(gè)虛擬機(jī)的多路復(fù)用同樣的硬件變得透明,從而產(chǎn)生了戲劇性的成本效益。安全性和可靠性的優(yōu)點(diǎn)自然遵循由于故障是由于程序錯(cuò)誤或安全妥協(xié)是孤立于其它的虛擬機(jī),問(wèn)題不宣傳機(jī)器執(zhí)行相同的VMM下。所有硬件子系統(tǒng)(中央處理器、內(nèi)存、輸入/輸出、網(wǎng)絡(luò)等)都可以在原則上進(jìn)行虛擬化。目前,CPU虛擬化相對(duì)成熟,其次有趣的改進(jìn)是,虛擬內(nèi)存管理單元(MMU)的創(chuàng)新和研究的建議,I/O子系統(tǒng)和網(wǎng)絡(luò)。如果它支持直接執(zhí)行基本的VMM技術(shù)的CPU架構(gòu)是虛擬的,虛擬機(jī)在真實(shí)的機(jī)器上執(zhí)行;但是VMM有CPU的極限控制。這通常是通過(guò)運(yùn)行虛擬機(jī)的特權(quán)和非特權(quán)在CPU的特權(quán)模式的代碼和保留VMM的特權(quán)模式執(zhí)行;當(dāng)虛擬機(jī)試圖執(zhí)行特權(quán)操作CPU陷入VMM,從而模擬它的更新虛擬機(jī)狀態(tài)。然而,無(wú)處不在的x86架構(gòu)不提供安全透明的所有特權(quán)操作語(yǔ)義的陷阱。因此,各種技術(shù)已被提出。在半虛擬化的操作系統(tǒng)(OS)在虛擬機(jī)執(zhí)行修補(bǔ)與設(shè)計(jì)適當(dāng)?shù)娜〈翘摂M操作,虛擬化的等價(jià)物。然而,改變操作系統(tǒng)的源代碼也可能由于許可問(wèn)題,它可能產(chǎn)生的不兼容。一個(gè)替代的方法,二進(jìn)制翻譯器運(yùn)行非虛擬,特權(quán)的部分動(dòng)態(tài)補(bǔ)丁“offending”指令,同時(shí)保留在高速緩存塊的優(yōu)化目的的翻譯。內(nèi)存管理,VMM

維護(hù)

每個(gè)虛擬機(jī)的內(nèi)存管理數(shù)據(jù)結(jié)構(gòu),其影子頁(yè)表的影子。VMM

更新操作系統(tǒng)的變化反映出這些結(jié)構(gòu),并建立映射到實(shí)際的頁(yè)面在硬件內(nèi)存中。這里的挑戰(zhàn)包括使

VMM

利用高效分頁(yè)進(jìn)出和跨多個(gè)虛擬機(jī),由一個(gè)單一的

VMM

監(jiān)測(cè)共享相同的物理頁(yè)面的操作系統(tǒng)的內(nèi)部狀態(tài)。此共享將均勻池

(在用軟件配置)

的虛擬機(jī)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論