




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
附錄附錄是對(duì)于一些不宜放在正文中,但又直接反映完成工作的成果內(nèi)容。如圖紙、實(shí)驗(yàn)數(shù)據(jù)、計(jì)算機(jī)程序等材料附于畢業(yè)設(shè)計(jì)之后,附錄所包含的材料是畢業(yè)設(shè)計(jì)的重要組成部分。A外文翻譯—原文2000實(shí)詞以上。部分附錄是對(duì)于一些不宜放在正文中,但又直接反映完成工作的成果內(nèi)容。如圖紙、實(shí)驗(yàn)數(shù)據(jù)、計(jì)算機(jī)程序等材料附于畢業(yè)設(shè)計(jì)之后,附錄所包含的材料是畢業(yè)設(shè)計(jì)的重要組成部分。2000實(shí)詞以上。Hadoop權(quán)威指南數(shù)據(jù)!數(shù)據(jù)標(biāo)題應(yīng)該簡(jiǎn)短、明確、有概括性。標(biāo)題字?jǐn)?shù)要適當(dāng),不宜超過(guò)標(biāo)題應(yīng)該簡(jiǎn)短、明確、有概括性。標(biāo)題字?jǐn)?shù)要適當(dāng),不宜超過(guò)20個(gè)字。如果有些細(xì)節(jié)必須放進(jìn)標(biāo)題,可以分成主標(biāo)題和副標(biāo)題。我們生活在數(shù)據(jù)時(shí)代。不容易測(cè)量存儲(chǔ)的電子數(shù)據(jù)總量,但國(guó)際數(shù)據(jù)中心的一項(xiàng)估計(jì)顯示,“數(shù)字宇宙”的大小為4.4兆字節(jié)。2013年,預(yù)計(jì)到2020年將增長(zhǎng)10倍,達(dá)到44澤塔字節(jié)。1Zettabyte是1021。字節(jié),或相當(dāng)于1000字節(jié)、100萬(wàn)字節(jié)或10億字節(jié)兆字節(jié)。對(duì)于世界上的每個(gè)人來(lái)說(shuō),這不僅僅是一個(gè)磁盤(pán)驅(qū)動(dòng)器。大量的數(shù)據(jù)來(lái)自許多來(lái)源??紤]以下內(nèi)容:?紐約證券交易所每天產(chǎn)生約4-5兆字節(jié)的數(shù)據(jù)。?Facebook擁有超過(guò)2400億張照片,以每月7千兆字節(jié)的速度增長(zhǎng)。?祖?zhèn)骶W(wǎng)站,系譜網(wǎng)站,存儲(chǔ)大約10千兆字節(jié)的數(shù)據(jù)。?Internet存檔存儲(chǔ)大約18.5千兆字節(jié)的數(shù)據(jù)。?瑞士日內(nèi)瓦附近的大型強(qiáng)子對(duì)撞機(jī)產(chǎn)生約30千兆字節(jié)的能量。此外還有大量數(shù)據(jù)。但是你可能會(huì)想它對(duì)自己有何影響。大部分?jǐn)?shù)據(jù)被鎖定在最大的網(wǎng)頁(yè)內(nèi)容里面(如搜索引擎)或者是金融和科學(xué)機(jī)構(gòu),對(duì)不對(duì)?是不是所謂的"大數(shù)據(jù)"的出現(xiàn)會(huì)影響到較小的組織或個(gè)人?我認(rèn)為是這樣的。以照片為例,我妻子的祖父是一個(gè)狂熱的攝影愛(ài)好者,并且他成人之后,幾乎一直都在拍照片。他的所有照片(中等格式、幻燈片和35mm膠片),在掃描成高解析度照片時(shí),占了大約10GB的空間。相比之下,我家去年一年用數(shù)碼相機(jī)拍攝的照片就占用了5GB的空間。我家產(chǎn)生照片數(shù)據(jù)的速度是我妻子祖父的35倍!并且,隨著拍攝更多的照片變得越來(lái)越容易,這個(gè)速度還在增加中。更常見(jiàn)的情況是,個(gè)人數(shù)據(jù)的產(chǎn)生量正在快速地增長(zhǎng)。微軟研究院的MyLifeBits項(xiàng)目顯示,在不久的將來(lái),個(gè)人信息檔案將可能成為普遍現(xiàn)象。MyLifeBits是這樣的一個(gè)實(shí)驗(yàn):一個(gè)人與外界的聯(lián)系(電話、郵件和文件)被抓取和存儲(chǔ)供以后訪問(wèn)。收集的數(shù)據(jù)包括每分鐘拍攝的照片等,導(dǎo)致整個(gè)數(shù)據(jù)量達(dá)到每月1GB的大小。當(dāng)存儲(chǔ)成本下降到使其可以存儲(chǔ)連續(xù)的音頻和視頻時(shí),服務(wù)于未來(lái)MyLifeBits項(xiàng)目的數(shù)據(jù)量將是現(xiàn)在的許多倍。個(gè)人數(shù)據(jù)的增長(zhǎng)的確是大勢(shì)所趨,但更重要的是,計(jì)算機(jī)所產(chǎn)生的數(shù)據(jù)可能比人所產(chǎn)生的數(shù)據(jù)更大。機(jī)器日志、RFID讀取器、傳感器網(wǎng)絡(luò)、車載GPS和零售交易數(shù)據(jù)等,這些都會(huì)促使"數(shù)據(jù)之山越來(lái)越高"。公開(kāi)發(fā)布的數(shù)據(jù)量也在逐年增加。作為組織或企業(yè),再也不能只管理自己的數(shù)據(jù),未來(lái)的成功在很大程度上取決于它是否能從其他組織的數(shù)據(jù)中提取出價(jià)值。這方面的先鋒(如亞馬遜網(wǎng)絡(luò)服務(wù)器、I或者)的公共數(shù)據(jù)集,它們的存在就在于促進(jìn)"信息共享",任何人都可以共享并自由(或以AWS平臺(tái)的形式,或以適度的價(jià)格)下載和分析這些數(shù)據(jù)。不同來(lái)源的信息混合處理后會(huì)帶來(lái)意外的效果和至今難以想像的應(yīng)用。以A項(xiàng)目為例,這是一個(gè)研究Flickr網(wǎng)站上天體愛(ài)好者群中新照片的項(xiàng)目。它分析每一張上傳的照片,并確定它是天空的哪一部分,或者是否是有趣的天體,如恒星或者星系。雖然這只是一個(gè)帶實(shí)驗(yàn)性質(zhì)的新服務(wù),但是它顯示了數(shù)據(jù)(這里特指攝影照片)的可用性并且被用來(lái)進(jìn)行某些活動(dòng)(圖像分析),而這些活動(dòng)很多時(shí)候并不是數(shù)據(jù)創(chuàng)建者預(yù)先能夠想像到的。有句話是這么說(shuō)的:"算法再好,通常也難敵更多的數(shù)據(jù)。"意思是說(shuō)對(duì)于某些問(wèn)題(譬如基于既往偏好生成的電影和音樂(lè)推薦),不論你的算法有多么猛,它們總是會(huì)在更多的數(shù)據(jù)面前無(wú)能為力(更不用說(shuō)沒(méi)有優(yōu)化過(guò)的算法了)?,F(xiàn)在,我們有一個(gè)好消息和一個(gè)壞消息。好消息是有海量數(shù)據(jù)!壞消息是我們正在為存儲(chǔ)和分析這些數(shù)據(jù)而奮斗不息。問(wèn)題很簡(jiǎn)單:多年來(lái)硬盤(pán)存儲(chǔ)容量快速增加的同時(shí),訪問(wèn)速度--數(shù)據(jù)從硬盤(pán)讀取的速度--卻未能與時(shí)俱進(jìn)。1990年,一個(gè)普通的硬盤(pán)驅(qū)動(dòng)器可存儲(chǔ)1370MB的數(shù)據(jù)并擁有4.4MB/s的傳輸速度,所以,只需五分鐘的時(shí)間就可以讀取整個(gè)磁盤(pán)的數(shù)據(jù)。20年過(guò)去了,1TB級(jí)別的磁盤(pán)驅(qū)動(dòng)器是很正常的,但是數(shù)據(jù)傳輸?shù)乃俣葏s在100MB/s左右。所以它需要花兩個(gè)半小時(shí)以上的時(shí)間讀取整個(gè)驅(qū)動(dòng)器的數(shù)據(jù)。從一個(gè)驅(qū)動(dòng)器上讀取所有的數(shù)據(jù)需要很長(zhǎng)的時(shí)間,寫(xiě)甚至更慢。一個(gè)很簡(jiǎn)單的減少讀取時(shí)間的辦法是同時(shí)從多個(gè)磁盤(pán)上讀取數(shù)據(jù)。試想一下,我們擁有100個(gè)磁盤(pán),每個(gè)存儲(chǔ)百分之一的數(shù)據(jù)。如果它們并行運(yùn)行,那么不到兩分鐘我們就可以讀完所有的數(shù)據(jù)。只使用一個(gè)磁盤(pán)的百分之一似乎很浪費(fèi)。但是我們可以存儲(chǔ)100個(gè)數(shù)據(jù)集,每個(gè)1TB,并讓它們共享磁盤(pán)的訪問(wèn)。我們可以想像,此類系統(tǒng)的用戶會(huì)很高興看到共享訪問(wèn)可以縮短分析時(shí)間,并且,從統(tǒng)計(jì)角度來(lái)看,他們的分析工作會(huì)分散到不同的時(shí)間點(diǎn),所以互相之間不會(huì)有太多干擾。盡管如此,現(xiàn)在更可行的是從多個(gè)磁盤(pán)并行讀寫(xiě)數(shù)據(jù)。第一個(gè)需要解決的問(wèn)題是硬件故障。一旦開(kāi)始使用多個(gè)硬件設(shè)施,其中一個(gè)會(huì)出故障的概率是非常高的。避免數(shù)據(jù)丟失的常見(jiàn)做法是復(fù)制:通過(guò)系統(tǒng)保存數(shù)據(jù)的冗余副本,在故障發(fā)生時(shí),可以使用數(shù)據(jù)的另一份副本。這就是冗余磁盤(pán)陣列的工作方式。Hadoop的文件系統(tǒng)HDFS(HadoopDistributedFilesystem)也是一個(gè)例子,雖然它采取的是另一種稍有不同的方法,詳見(jiàn)后文描述。第二個(gè)問(wèn)題是大部分分析任務(wù)需要通過(guò)某種方式把數(shù)據(jù)合并起來(lái),即從一個(gè)磁盤(pán)讀取的數(shù)據(jù)可能需要和另外99個(gè)磁盤(pán)中讀取的數(shù)據(jù)合并起來(lái)才能使用。各種不同的分布式系統(tǒng)能夠組合多個(gè)來(lái)源的數(shù)據(jù),但是如何保證正確性是一個(gè)非常難的挑戰(zhàn)。MapReduce提供了一個(gè)編程模型,其抽象出上述磁盤(pán)讀寫(xiě)的問(wèn)題,將其轉(zhuǎn)換為計(jì)算一個(gè)由成對(duì)鍵/值組成的數(shù)據(jù)集。這種模型的具體細(xì)節(jié)將在后面的章節(jié)討論。但是目前討論的重點(diǎn)是,這個(gè)計(jì)算由兩部分組成:Map和Reduce。這兩者的接口就是"整合"之地。就像HDFS一樣,MapReduce是內(nèi)建可靠性這個(gè)功能的。簡(jiǎn)而言之,Hadoop提供了一個(gè)穩(wěn)定的共享存儲(chǔ)和分析系統(tǒng)。存儲(chǔ)由HDFS實(shí)現(xiàn),分析由MapReduce實(shí)現(xiàn)??v然Hadoop還有其他功能,但這些功能是它的核心所在。
附錄B外文翻譯—譯文部分Data!Weliveinthedataage.It’snoteasytomeasurethetotalvolumeofdatastoredelec‐tronically,butanIDCestimateputthesizeofthe“digitaluniverse”at4.4zettabytesin2013andisforecastingatenfoldgrowthby2020to44zettabytes.1Azettabyteis1021bytes,orequivalentlyonethousandexabytes,onemillionpetabytes,oronebillionterabytes.That’smorethanonediskdriveforeverypersonintheworld.Thisfloodofdataiscomingfrommanysources.Considerthefollowing:2?TheNewYorkStockExchangegeneratesabout4?5terabytesofdataperday.?Facebookhostsmorethan240billionphotos,growingat7petabytespermonth.?A,thegenealogysite,storesaround10petabytesofdata.?TheInternetArchivestoresaround18.5petabytesofdata.?TheLargeHadronCollidernearGeneva,Switzerland,producesabout30petabytesofdataperyear.Sothere’salotofdataoutthere.Butyouareprobablywonderinghowitaffectsyou.Mostofthedataislockedupinthelargestwebproperties(likesearchengines)orinscientificorfinancialinstitutions,isn’tit?Doestheadventofbigdataaffectsmallerorganizationsorindividuals?Iarguethatitdoes.Takephotos,forexample.Mywife’sgrandfatherwasanavidpho‐tographerandtookphotographsthroughouthisadultlife.Hisentirecorpusofmedium-format,slide,and35mmfilm,whenscannedinathighresolution,occupiesaround10gigabytes.Comparethistothedigitalphotosmyfamilytookin2008,whichtakeupabout5gigabytesofspace.Myfamilyisproducingphotographicdataat35timestheratemywife’sgrandfather’sdid,andtherateisincreasingeveryyearasitbecomeseasiertotakemoreandmorephotos.Moregenerally,thedigitalstreamsthatindividualsareproducingaregrowingapace.MicrosoftResearch’sMyLifeBitsprojectgivesaglimpseofthearchivingofpersonalinformationthatmaybecomecommonplaceinthenearfuture.MyLifeBitswasanex‐perimentwhereanindividual’sinteractions—phonecalls,emails,documents—werecapturedelectronicallyandstoredforlateraccess.Thedatagatheredincludedaphototakeneveryminute,whichresultedinanoveralldatavolumeof1gigabytepermonth.Whenstoragecostscomedownenoughtomakeitfeasibletostorecontinuousaudioandvideo,thedatavolumeforafutureMyLifeBitsservicewillbemanytimesthat.Thetrendisforeveryindividual’sdatafootprinttogrow,butperhapsmoresignificantly,theamountofdatageneratedbymachinesasapartoftheInternetofThingswillbeevengreaterthanthatgeneratedbypeople.Machinelogs,RFIDreaders,sensornet‐works,vehicleGPStraces,retailtransactions—allofthesecontributetothegrowingmountainofdata.Thevolumeofdatabeingmadepubliclyavailableincreaseseveryyear,too.Organiza‐tionsnolongerhavetomerelymanagetheirowndata;successinthefuturewillbedictatedtoalargeextentbytheirabilitytoextractvaluefromotherorganizations’data.InitiativessuchasPublicDataSetsonAmazonWebServicesandIexisttofosterthe“informationcommons,”wheredatacanbefreely(orforamodestprice)sharedforanyonetodownloadandanalyze.Mashupsbetweendifferentinformationsourcesmakeforunexpectedandhithertounimaginableapplications.Take,forexample,theAproject,whichwatchestheAstrometrygrouponFlickrfornewphotosofthenightsky.Itanalyzeseachimageandidentifieswhichpartoftheskyitisfrom,aswellasanyinterestingcelestialbodies,suchasstarsorgalaxies.Thisprojectshowsthekindsofthingsthatarepossiblewhendata(inthiscase,taggedphotographicimages)ismadeavailableandusedforsomething(imageanalysis)thatwasnotanticipatedbythecreator.Ithasbeensaidthat“moredatausuallybeatsbetteralgorithms,”whichistosaythatforsomeproblems(suchasrecommendingmoviesormusicbasedonpastpreferences),howeverfiendishyouralgorithms,oftentheycanbebeatensimplybyhavingmoredata(andalesssophisticatedalgorithm).3Thegoodnewsisthatbigdataishere.Thebadnewsisthatwearestrugglingtostoreandanalyzeit.Theproblemissimple:althoughthestoragecapacitiesofharddriveshaveincreasedmassivelyovertheyears,accessspeeds—therateatwhichdatacanbereadfromdrives—havenotkeptup.Onetypicaldrivefrom1990couldstore1,370MBofdataandhadatransferspeedof4.4MB/s,4soyoucouldreadallthedatafromafulldriveinaroundfiveminutes.Over20yearslater,1-terabytedrivesarethenorm,butthetransferspeedisaround100MB/s,soittakesmorethantwoandahalfhourstoreadallthedataoffthedisk.Thisisalongtimetoreadalldataonasingledrive—andwritingisevenslower.Theobviouswaytoreducethetimeistoreadfrommultipledisksatonce.Imagineifwehad100drives,eachholdingonehundredthofthedata.Workinginparallel,wecouldreadthedatainundertwominutes.Usingonlyonehundredthofadiskmayseemwasteful.Butwecanstore100datasets,eachofwhichis1terabyte,andprovidesharedaccesstothem.Wecanimaginethattheusersofsuchasystemwouldbehappytoshareaccessinreturnforshorteranalysistimes,andstatistically,thattheiranalysisjobswouldbelikelytobespreadovertime,sotheywouldn’tinterferewitheachothertoomuch.There’smoretobeingabletoreadandwritedatainparalleltoorfrommultipledisks,though.Thefirstproblemtosolveishardwarefailure:assoonasyoustartusingmanypiecesofhardware,thechancethatonewillfailisfairlyhigh.Acommonwayofavoidingdatalossisthroughreplication:redundantcopiesofthedataarekeptbythesystemsothatintheeventoffailure,thereisanothercopyavailable.ThisishowRAIDworks,forinstance,althoughHadoop’sfilesystem,theHadoopDistributedFilesystem(HDFS),takesaslightlydifferentapproach,asyoushallseela
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2021-2026年中國(guó)廢氣處理行業(yè)市場(chǎng)深度分析及投資戰(zhàn)略研究報(bào)告
- 中國(guó)咖啡壺行業(yè)市場(chǎng)深度評(píng)估及投資戰(zhàn)略規(guī)劃報(bào)告
- 2024-2025學(xué)年高中英語(yǔ)Module5CloningSectionⅤ知能演練輕松闖關(guān)含解析外研版選修6
- 2021-2026年中國(guó)教育機(jī)器人行業(yè)市場(chǎng)供需格局及行業(yè)前景展望報(bào)告
- 2024-2025學(xué)年高中語(yǔ)文第三單元第8課咬文嚼字練習(xí)含解析新人教版必修5
- 2024-2025學(xué)年高中地理課下能力提升九旅游規(guī)劃含解析新人教版選修3
- 2025年淋浴房項(xiàng)目可行性研究報(bào)告
- 年產(chǎn)3600噸橡膠骨架材料技改項(xiàng)目環(huán)境影響報(bào)告表
- 2021-2026年中國(guó)補(bǔ)中益氣丸市場(chǎng)全面調(diào)研及行業(yè)投資潛力預(yù)測(cè)報(bào)告
- 中國(guó)女式上衣大衣項(xiàng)目投資可行性研究報(bào)告
- 英語(yǔ)演講-機(jī)器人發(fā)展
- 黃河流域生態(tài)保護(hù)和高質(zhì)量發(fā)展知識(shí)競(jìng)賽試題及答案(共52題)
- 1、1~36號(hào)元素電子排布式、排布圖
- advantrol-pro v2.70學(xué)習(xí)版系統(tǒng)組態(tài)使用手冊(cè)
- 職業(yè)院校技能大賽沙盤(pán)模擬企業(yè)經(jīng)營(yíng)賽項(xiàng)規(guī)程
- 國(guó)網(wǎng)新聞宣傳與企業(yè)文化管理專責(zé)題庫(kù)匯總-下(判斷、簡(jiǎn)答題)
- 職業(yè)衛(wèi)生調(diào)查表
- GB/T 11982.1-2005聚氯乙烯卷材地板第1部分:帶基材的聚氯乙烯卷材地板
- GB/T 10046-2018銀釬料
- GB 4094-2016汽車操縱件、指示器及信號(hào)裝置的標(biāo)志
- 小兒急性喉炎-課件
評(píng)論
0/150
提交評(píng)論