互聯(lián)網(wǎng)大數(shù)據(jù)文獻(xiàn)綜述_第1頁(yè)
互聯(lián)網(wǎng)大數(shù)據(jù)文獻(xiàn)綜述_第2頁(yè)
互聯(lián)網(wǎng)大數(shù)據(jù)文獻(xiàn)綜述_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

互聯(lián)網(wǎng)大數(shù)據(jù)文獻(xiàn)綜述大數(shù)據(jù)分析的趨勢(shì)亮點(diǎn)大數(shù)據(jù)分析中的當(dāng)前的最先進(jìn)技術(shù)的概述?;ヂ?lián)網(wǎng)大數(shù)據(jù)文獻(xiàn)綜述大數(shù)據(jù)分析的規(guī)模和應(yīng)用前景趨勢(shì)。在硬件上的現(xiàn)況和未來(lái)的發(fā)展趨勢(shì),如何幫助我們解決大規(guī)模數(shù)據(jù)集。討論目前采用的軟件技術(shù)和未來(lái)趨勢(shì),以解決大數(shù)據(jù)分析應(yīng)用。關(guān)鍵詞:大數(shù)據(jù)分析數(shù)據(jù)中心分布式系統(tǒng)摘要:大數(shù)據(jù)分析是并行的分布式系統(tǒng)未來(lái)的主要應(yīng)用之一。數(shù)據(jù)倉(cāng)庫(kù)目前應(yīng)用的規(guī)模已經(jīng)超過(guò)EB級(jí),并且其規(guī)模還在不斷增長(zhǎng)。當(dāng)數(shù)據(jù)集和相關(guān)應(yīng)用程序超出了他們的規(guī)模給這些的構(gòu)成要求和軟件開發(fā)方法的考慮帶來(lái)了重大挑戰(zhàn)。數(shù)據(jù)集通常是分布式,它們的大小和安全考慮到分布式技術(shù)來(lái)得到保證。數(shù)據(jù)經(jīng)常駐留在不同的平臺(tái)上計(jì)算,對(duì)網(wǎng)絡(luò)能力,容錯(cuò)性,安全性和訪問控制的考慮是在許多應(yīng)用中的關(guān)鍵。在其他應(yīng)用程序中,分析任務(wù)的截止時(shí)間主要與數(shù)據(jù)質(zhì)量有關(guān)。對(duì)于大多數(shù)新興應(yīng)用程序,數(shù)據(jù)驅(qū)動(dòng)的模型和方法,能夠大規(guī)模操作的方法,到目前還未找到。即使知道可以縮放的方法,驗(yàn)證結(jié)果又是一個(gè)重大的問題。硬件平臺(tái)的特性和軟件堆棧從根本上影響數(shù)據(jù)分析。在這篇文章中,我們提供了一個(gè)概述的最先進(jìn)的硬件和軟件的趨勢(shì)在大數(shù)據(jù)分析應(yīng)用程序前景的應(yīng)用。引言隨著互聯(lián)網(wǎng)關(guān)鍵的技術(shù)的發(fā)展,計(jì)算作為一個(gè)實(shí)用程序的設(shè)想在上世紀(jì)90年代中期開始形成。在網(wǎng)格計(jì)算時(shí)代的早期人們通常認(rèn)為硬件作為主要資源。網(wǎng)格計(jì)算技術(shù)專注于分享、選擇和聚合各種各樣的地理上分布的資源。這些資源包括超級(jí)計(jì)算機(jī)、存儲(chǔ)和其他設(shè)備,用來(lái)解決在科學(xué)、工程和商業(yè)的大規(guī)模計(jì)算密互聯(lián)網(wǎng)大數(shù)據(jù)文獻(xiàn)綜述集型問題。這些框架的一個(gè)關(guān)鍵特性是他們的支持透明跨域管理和資源管理能力。"數(shù)據(jù)即資源”的概念被普及在p2p系統(tǒng)。Napster、Gnutella,和BitTorrent允許節(jié)點(diǎn)共享多媒體數(shù)據(jù)內(nèi)容通常直接彼此以分散的方式。這這些框架強(qiáng)調(diào)互操作性和動(dòng)態(tài)性,降低成本,資源共享特定的溝通和協(xié)作,聚集。然而,在這些平臺(tái)上,匿名,隱私問題和擴(kuò)展性問題的考慮是次要的。最近,云計(jì)算環(huán)境的可靠性、服務(wù)的健壯性被(通常的訪問來(lái)自客戶機(jī)的瀏覽器)來(lái)自于客戶端,大規(guī)模生產(chǎn)的移動(dòng)設(shè)備和通用計(jì)算機(jī)的訪問檢驗(yàn)。云計(jì)算的服務(wù)觀念概述為“基礎(chǔ)架構(gòu)即服務(wù)”(云計(jì)算資源在云中可用),數(shù)據(jù)即服務(wù)(數(shù)據(jù)在云中可用)和軟件即服務(wù)(訪問程序在云中執(zhí)行)。從服務(wù)提供者的角度來(lái)看這提供了相當(dāng)大的好處(在硬件和管理的成本降低),整體資源的利用率,以及更好的客戶端接口。云環(huán)境的計(jì)算底層通常依賴于高效和彈性的數(shù)據(jù)中心架構(gòu),基于虛擬化的計(jì)算和存儲(chǔ)技術(shù),高效利用商品硬件組件。目前的數(shù)據(jù)中心通常規(guī)模為成千上萬(wàn)的節(jié)點(diǎn),計(jì)算在云計(jì)算中經(jīng)??缭蕉鄠€(gè)數(shù)據(jù)節(jié)點(diǎn)。新興的基于云的環(huán)境與分布式數(shù)據(jù)中心托管的大型數(shù)據(jù)倉(cāng)庫(kù),同時(shí)也為分析提供強(qiáng)力的處理有效的并行/分布式算法的需要。潛在的社會(huì)經(jīng)濟(jì)效益的大數(shù)據(jù)分析,與多樣性的應(yīng)用提出是很大的挑戰(zhàn),在本文的其他部分我們重點(diǎn)強(qiáng)調(diào)數(shù)據(jù)分析問題的規(guī)模和范圍。我們描述了常用的硬件平臺(tái)上執(zhí)行分析應(yīng)用的相關(guān)情況,并考慮存儲(chǔ),處理,網(wǎng)絡(luò)和能量。然后,我們專注于應(yīng)用程序,即虛擬化技術(shù),運(yùn)行時(shí)系統(tǒng)/執(zhí)行環(huán)境和編程的軟件基礎(chǔ)模型。我們?cè)诙鄻有詳?shù)據(jù)分析的應(yīng)用中,對(duì)健康和人類福利進(jìn)行計(jì)算機(jī)建模與模擬得出一個(gè)簡(jiǎn)短的結(jié)論。1.1數(shù)據(jù)分析的規(guī)模和范圍最近保守的研究估計(jì),在2021年世界上的企業(yè)服務(wù)器系統(tǒng)已經(jīng)能處理了互聯(lián)網(wǎng)大數(shù)據(jù)文獻(xiàn)綜述9.57X10"21字節(jié)的數(shù)據(jù)。這一數(shù)字預(yù)計(jì)將從這基礎(chǔ)上每?jī)赡攴艘环Ee一個(gè)例子,沃爾瑪?shù)姆?wù)器每過(guò)一個(gè)小時(shí)就要處理超過(guò)一百萬(wàn)客戶交易,這些信息插入到數(shù)據(jù)庫(kù),存儲(chǔ)超過(guò)2.5PB的數(shù)據(jù)與167座國(guó)會(huì)圖書館的書籍?dāng)?shù)量相當(dāng)。在歐洲核子研究中心的大型強(qiáng)子對(duì)撞機(jī)每年將產(chǎn)生大約15千兆字節(jié)的數(shù)據(jù),足以填滿超過(guò)170萬(wàn)個(gè)雙層DVD。每天,Facebook產(chǎn)生近500TB的用戶日志數(shù)據(jù)和數(shù)百萬(wàn)TB的圖像數(shù)據(jù)。每分鐘,在YouTube有100小時(shí)的視頻被上傳,有135000小時(shí)的視頻被觀看。每一秒,有超過(guò)28000個(gè)多媒體(MMS)消息被發(fā)送。在2021大約4600萬(wàn)的移動(dòng)應(yīng)用程序被下載了,每一個(gè)應(yīng)用程序收集到更多的數(shù)據(jù)。推特的服務(wù)上有超過(guò)5億5000萬(wàn)的活躍用戶,他們每秒鐘產(chǎn)生9100條推特。eBay系統(tǒng)每一天處理超過(guò)100PB的數(shù)據(jù)。在其他領(lǐng)域,波音噴氣發(fā)動(dòng)機(jī)每運(yùn)轉(zhuǎn)30分鐘能產(chǎn)生10TB的操作信息。其中,如果每一天有25000的航班,僅僅數(shù)據(jù)傳感器和機(jī)器生產(chǎn)的足跡信息的數(shù)據(jù),在橫渡一次大西洋將產(chǎn)生幾百TB的數(shù)據(jù)。這些例子只是驚鴻一瞥,來(lái)自不同數(shù)據(jù)源的生態(tài)系統(tǒng)的數(shù)據(jù)集在迅速擴(kuò)張。結(jié)構(gòu)化數(shù)據(jù)(例如,金融,電子醫(yī)學(xué)記錄,政府統(tǒng)計(jì)),半結(jié)構(gòu)化數(shù)據(jù)(例如,文本,微博,電子郵件),非結(jié)構(gòu)化(例如,音頻和視頻),和實(shí)時(shí)數(shù)據(jù)(如網(wǎng)絡(luò)痕跡,一般的監(jiān)測(cè)日志)。如果有組織和適當(dāng)?shù)姆治龅脑挘羞@些應(yīng)用都有可能提供寶貴的見解。在當(dāng)今廣泛公認(rèn)需要有效分析的大型數(shù)據(jù)集的應(yīng)用程序。這些應(yīng)用包括醫(yī)療保健分析(例如,個(gè)性化基因組學(xué)),業(yè)務(wù)流程優(yōu)化,和社會(huì)網(wǎng)絡(luò)為基礎(chǔ)的建議。然而,預(yù)測(cè)表明數(shù)據(jù)增長(zhǎng)將在很大程度上超過(guò)了可預(yù)見的成本改善,密度的存儲(chǔ)技術(shù),來(lái)處理它可用的計(jì)算能力和相關(guān)的能源熵。例如,在2002和2021之間數(shù)據(jù)流量增長(zhǎng)了56倍,相比,相應(yīng)的計(jì)算能力的增加是16倍(主互聯(lián)網(wǎng)大數(shù)據(jù)文獻(xiàn)綜述要是跟蹤穆爾的法律)。相比之下,1998至2021數(shù)據(jù)中心的規(guī)模的增長(zhǎng)是每年173%。這些趨勢(shì)推斷,大概需要13年對(duì)于計(jì)算能力的增加才能滿足需求。然而,能源效率并不是像預(yù)期在同一時(shí)間內(nèi)增加25倍。這產(chǎn)生幾乎40倍的嚴(yán)重的不匹配的增加在數(shù)據(jù)分析能源足跡上。負(fù)載特性。大數(shù)據(jù)工作負(fù)載的全面研究,可以幫助他們理解對(duì)硬件和軟件設(shè)計(jì)的影響。由數(shù)值計(jì)算的“七個(gè)小矮人”,MEHUL,Shah等。試圖定義一組“數(shù)據(jù)小矮人”即關(guān)鍵數(shù)據(jù)處理內(nèi)核用來(lái)提供當(dāng)前和未來(lái)的數(shù)據(jù)中心的負(fù)載特性的報(bào)道。在2021年借鑒一組廣泛的負(fù)載特性,他們建立了一套分類尺寸(響應(yīng)時(shí)間,訪問模式,工作組,數(shù)據(jù)類型,讀與寫,處理復(fù)雜度),并得出結(jié)論,五個(gè)工作負(fù)載模型可以令人滿意的覆蓋以數(shù)據(jù)為中心的工作負(fù)載:(一)在PB級(jí)規(guī)模的分布式排序,(二)在內(nèi)存中的索引搜索,(三)推薦系統(tǒng),具有較高的處理負(fù)載和規(guī)則的通信模式,(四)順序訪問為基礎(chǔ)的數(shù)據(jù)復(fù)制(五)視頻上傳和流交互應(yīng)答率的服務(wù)器。在聯(lián)機(jī)分析處理(OLAP)的工作負(fù)載可以表示為(1)、(3)、(4)的組合、在線事務(wù)處理(OLTP)的工作量只能部分捕獲,在未來(lái)可能需要另一個(gè)類別,在內(nèi)存索引和查詢支持捕獲一些這些負(fù)載特性的方面,但工作集因?yàn)樘蠖荒芊旁趦?nèi)存中。1.2.設(shè)計(jì)考慮在未來(lái),大的規(guī)模、范圍和性質(zhì)(負(fù)載特性)的大數(shù)據(jù)分析應(yīng)用,能獨(dú)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論