版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
MapReduceandCloudComputing的實(shí)用學(xué)習(xí)課件第1頁/共62頁MapReduce第2頁/共62頁ImperativeProgrammingIncomputerscience,imperativeprogrammingisaprogrammingparadigmthatdescribescomputationintermsofstatementsthatchangeaprogramstate.第3頁/共62頁DeclarativeProgrammingIncomputerscience,declarativeprogrammingisaprogrammingparadigmthatexpressesthelogicofacomputationwithoutdescribingitscontrolflow第4頁/共62頁FunctionalLanguagemapflst:(’a->’b)->(’alist)->(’blist)把f作用在輸入list的每個元素上,輸出一個新的list.foldfx0lst:('a*'b->'b)->'b->('alist)->'b
把f作用在輸入list的每個元素和一個累加器元素上,f返回下一個累加器的值第5頁/共62頁FromFunctionalLanguageViewmapflst:(’a->’b)->(’alist)->(’blist)把f作用在輸入list的每個元素上,輸出一個新的list.foldfx0lst:('a*'b->'b)->'b->('alist)->'b
把f作用在輸入list的每個元素和一個累加器元素上,f返回下一個累加器的值Functional運(yùn)算不修改數(shù)據(jù),總是產(chǎn)生新數(shù)據(jù)map和reduce具有內(nèi)在的并行性Map可以完全并行Reduce在f運(yùn)算滿足結(jié)合律時,可以亂序并發(fā)執(zhí)行Reducefoldl:(a[a]a)第6頁/共62頁Examplefunfoo(l:intlist)=sum(l)+mul(l)+length(l)funsum(lst)=foldl(fn(x,a)=>x+a)0lstfunmul(lst)=foldl(fn(x,a)=>x*a)1lstfunlength(lst)=foldl(fn(x,a)=>1+a)0lst第7頁/共62頁MapReduceis…“MapReduceisaprogrammingmodelandanassociatedimplementationforprocessingandgeneratinglargedatasets.”[1]J.DeanandS.Ghemawat,"MapReduce:SimplifiedDataProcessingonLargeClusters,"inOsdi,2004,pp.137-150.第8頁/共62頁FromParallelComputingViewMapReduce是一種并行編程模型theessenceisasinglefunctionthatexecutesinparallelonindependentdatasets,withoutputsthatareeventuallycombinedtoformasingleorsmallnumberofresults.f是一個map算子
mapf(x:xs)=fx:mapfxsg是一個reduce算子
reducegy(x:xs)=reduceg(gyx)xshomomorphicskeletons第9頁/共62頁MapreduceFramework第10頁/共62頁TypicalproblemsolvedbyMapReduce讀入數(shù)據(jù):
key/value
對的記錄格式數(shù)據(jù)Map:從每個記錄里extractsomethingmap(in_key,in_value)->list(out_key,intermediate_value)處理inputkey/valuepair輸出中間結(jié)果key/valuepairsShuffle:混排交換數(shù)據(jù)把相同key的中間結(jié)果匯集到相同節(jié)點(diǎn)上Reduce:aggregate,summarize,filter,etc.reduce(out_key,list(intermediate_value))->list(out_value)歸并某一個key的所有values,進(jìn)行計算輸出合并的計算結(jié)果(usuallyjustone)輸出結(jié)果第11頁/共62頁ShuffleImplementation第12頁/共62頁P(yáng)artitionandSortGroupPartitionfunction:hash(key)%reducernumberGroupfunction:sortbykey第13頁/共62頁WordFrequenciesinWebpages輸入:onedocumentperrecord用戶實(shí)現(xiàn)map
function,輸入為key=documentURLvalue=documentcontentsmap輸出(potentiallymany)key/valuepairs.對document中每一個出現(xiàn)的詞,輸出一個記錄<word,“1”>第14頁/共62頁Examplecontinued:MapReduce運(yùn)行系統(tǒng)(庫)把所有相同key的記錄收集到一起(shuffle/sort)用戶實(shí)現(xiàn)reduce
function對一個key對應(yīng)的values計算求和sumReduce輸出<key,sum>
第15頁/共62頁InvertedIndex第16頁/共62頁BuildInvertedIndexMap:<doc#,word>?[<word,doc-num>]Reduce:<word,[doc1,doc3,...]>?<word,“doc1,doc3,…”>第17頁/共62頁BuildindexInput:webpagedataMapper:<url,documentcontent><term,docid,locid>Shuffle&Sort:SortbytermReducer:<term,docid,locid>*<term,<docid,locid>*>Result:Globalindexfile,canbesplitbydocidrange第18頁/共62頁QuizPageRankAlgorithmClusteringAlgorithmRecommendationAlgorithm串行算法表述算法的核心公式、步驟描述和說明輸入數(shù)據(jù)表示、核心數(shù)據(jù)結(jié)構(gòu)MapReduce下的實(shí)現(xiàn):map,reduce如何寫各自的輸入和輸出是什么第19頁/共62頁StoriesoftheCloud…第20頁/共62頁APictureisWorth…第21頁/共62頁TheInformationFactoriesGoogleplexserversnumber450,000,accordingtothelowestestimate200petabytesofharddiskstoragefourpetabytesofRAMTohandlethecurrentloadof100millionqueriesaday,input-outputbandwidthmustbeintheneighborhoodof3petabitspersecond第22頁/共62頁TheSupercomputerthatConnectsEverythingandEveryoneLARRYPAGE:And,actually,theultimatesearchengine,whichwouldunderstand,youknow,exactlywhatyouwantedwhenyoutypedinaquery,anditwouldgiveyoutheexactrightthingback,incomputersciencewecallthatartificialintelligence.Thatmeansitwouldbesmart,andwe'realongwaysfromhavingsmartcomputers.
第23頁/共62頁ThePrototype(1995)第24頁/共62頁EarlyGoogleSystem第25頁/共62頁Spring2000Design第26頁/共62頁Late2000Design第27頁/共62頁Spring2001Design第28頁/共62頁EmptyGoogleCluster第29頁/共62頁ThreeDaysLater…第30頁/共62頁AgeofDataCentersHigh-endMainFmodityPCCluster性價比高,scaleoutBut可靠性差Scalein可靠性高第31頁/共62頁第32頁/共62頁HighCapabilitySystemSC58325832Gigaflops7776GigabytesECCmemory9726-core64-bitnodes29162GByte/sfabriclinksabout1microsecondMPIlatency1088-lanePCI-Express18KW1Cabinet第33頁/共62頁Millicomputers2007第34頁/共62頁Millicomputers2008第35頁/共62頁Guessesfor2010??第36頁/共62頁P(yáng)ackagingComparisonsin1U第37頁/共62頁CloudComputing“Thedesktopisdead.WelcometotheInternet
cloud,wheremassivefacilitiesacrosstheglobewillstoreallthedatayou'lleveruse.”第38頁/共62頁WhatisCloudComputing?Firstwritedownyourownopinionabout“cloudcomputing”,whateveryouthoughtaboutinyourmind.Question:What?Who?Why?How?Prosandcons?Themostimportantquestionis:Whatistherelationwithme?第39頁/共62頁CloudComputingis…NosoftwareaccesseverywherebyInternetpower--Large-scaledataprocessingAppealforstartupsCostefficiency實(shí)在是太方便了SoftwareasplatformConsSecurityDatalock-inSaaSPaaSUtilityComputing第40頁/共62頁SoftwareasaService(SaaS)amodelofsoftwaredeploymentwherebyaproviderlicensesanapplicationtocustomersforuseasaserviceondemand.第41頁/共62頁P(yáng)latformasaService(PaaS)對于開發(fā)WebApplication和Services,PaaS提供了一整套基于Internet的,從開發(fā),測試,部署,運(yùn)營到維護(hù)的全方位的集成環(huán)境。特別它從一開始就具備了Multi-tenantarchitecture,用戶不需要考慮多用戶并發(fā)的問題,而由platform來解決,包括并發(fā)管理,擴(kuò)展性,失效恢復(fù),安全。
第42頁/共62頁UtilityComputing“pay-as-you-go”好比讓用戶把電源插頭插在墻上,你得到的電壓和Microsoft得到的一樣,只是你用得少,payless;utilitycomputing的目標(biāo)就是讓計算資源也具有這樣的服務(wù)能力,用戶可以使用500強(qiáng)公司所擁有的計算資源,只是uselesspayless。這是cloudcomputing的一個重要方面
第43頁/共62頁CloudComputingis…第44頁/共62頁KeyCharacteristicsillusionofinfinitecomputingresourcesavailableondemand;eliminationofanup-frontcommitmentbyCloudusers;創(chuàng)業(yè)啟動花費(fèi)abilitytopayforuseofcomputingresourcesonashort-termbasisasneeded。小時間片的billing,報告指出utilitycomputing在這一點(diǎn)上的實(shí)踐是失敗的verylargedatacenterslarge-scalesoftwareinfrastructureoperationalexpertise第45頁/共62頁Whynow?verylarge-scaledatacenter的實(shí)踐,因?yàn)樾碌募夹g(shù)趨勢和Business模式pay-as-you-gocomputing
第46頁/共62頁KeyPlayersAmazonWebServicesGoogleAppEngineMicrosoftWindowsAzure第47頁/共62頁KeyApplicationsMobileInteractiveapplications,TimO’Reilly相信未來是屬于能夠?qū)崟r對用戶提供信息的服務(wù)。Mobile必定是關(guān)鍵。而后臺在datacenter中運(yùn)行是很自然的模式,特別是那些mashup融合類型的服務(wù)。Parallelbatchprocessing。大規(guī)模數(shù)據(jù)處理使用CloudComputing技術(shù)很自然,MapReduce,Hadoop在這里起到重要作用。這里,數(shù)據(jù)移入/移出cloud是很大的開銷,Amazon開始嘗試hostlargepublicdatasetsforfree。Theriseofanalytics。數(shù)據(jù)庫應(yīng)用中transactionbased應(yīng)用還在增長,而analytics的應(yīng)用增長迅速。數(shù)據(jù)挖掘,用戶行為分析等應(yīng)用的巨大推動。Extensionofcompute-intensivedesktopapplication。計算密集型的任務(wù),說matlab,mathematica都有了cloudcomputing的擴(kuò)展,woo~第48頁/共62頁CloudComputing=SilverBullet?Google文檔在3月7日發(fā)生了大批用戶文件外泄事件。美國隱私保護(hù)組織就此提請政府對Google采取措施,使其加強(qiáng)云計算產(chǎn)品的安全性。ProblemofDataLock-in第49頁/共62頁Challenges第50頁/共62頁SomeotherVoicesIt’sstupidity.It’sworsethanstupidity:it’samarketinghypecampaign.Somebodyissayingthisisinevitable—andwheneveryouhearsomebodysayingthat,it’sverylikelytobeasetofbusinessescampaigningtomakeittrue.RichardStallman,quotedinTheGuardian,September29,2008TheinterestingthingaboutCloudComputingisthatwe’veredefinedCloudComputingtoincludeeverythingthatwealreadydo....Idon’tunderstandwhatwewoulddodifferentlyinthelightofCloudComputingotherthanchangethewordingofsomeofourads.LarryEllison,quotedintheWallStreetJournal,September26,2008第51頁/共62頁What’smatterwithME?!Whatyouwanttodowith1000pcs,oreven100,000pcs?第52頁/共62頁Cloudiscoming…第53頁/共62頁CloudComputingInitiativeGoogleandIBMteamoncloudcomputinginitiativeforuniversities(2007-1008)provideseveralhundredcomputersaccessthroughtheInternettotestparallelprogrammingprojectsTheideafortheprogramfromGoogleseniorsoftwareengineerChristopheBiscigliaGoogleCodeUniversity第54頁/共62頁M45:OpenAcademicClustersCollaborationwithMajorResearchUniversitiesFosteropenresearchFocusonlarge-scale,highlyparallelcomputingSeedFacility:DatacenterinaBox(DiB)500nodes,4000cores,3TBRAM,1.5PBdiskHighbandwidthconnectiontoInternetLocatedonYahoo!corporatecampusRunsYahoo!/ApacheGridStackCarnegieMellonUniversityisInitialPartnerPublicAnnouncement11/12/07第55頁/共62頁SummaryMapReduceDistributedProgrammingModelIt’sfun!InfrastructureCloudcomputingImagination!第56頁/共62頁Readings[1]J.D.a.S.Ghemawat,"MapReduce:SimplifiedDataProcessingonLargeClusters,"inOsdi,2004,pp.137-150.第57頁/共62頁Resources[Ghemawat,2004] J.D.a.S.Ghemawat,"MapReduce:SimplifiedDataProcessingonLargeClusters,"inOsdi,2004,pp.137-150.[Gruber,2006] F.C.a.J.D.a.S.G.a.W.C.H.a.D.A.W.a.M.B.a.T.C.a.A.F.a
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2023年國家能源集團(tuán)陜西電力有限公司集團(tuán)系統(tǒng)內(nèi)招聘筆試真題
- 2024年礦用提升設(shè)備項(xiàng)目立項(xiàng)申請報告
- 病例報告和臨床研究報告
- 2024年新型電子時間繼電器項(xiàng)目立項(xiàng)申請報告
- 玻璃彈性墊片施工方案
- 版畫研學(xué)課程設(shè)計
- 愛國3d模型課程設(shè)計
- 濱河公園景觀研究報告
- 濱州瀝青施工方案
- 泵站設(shè)備應(yīng)急搶修方案
- 保健按摩師(高級)技能理論考試題庫(含答案)
- 2024冶金等工業(yè)企業(yè)較大以上安全風(fēng)險目錄
- 公民科學(xué)素質(zhì)大賽參考試題庫600題(含答案)
- 期中模擬檢測(1-4單元)(試題)(含答案)-2024-2025學(xué)年四年級上冊數(shù)學(xué)北師大版
- 餐飲服務(wù)課件 學(xué)習(xí)任務(wù)3 西餐宴會服務(wù)
- 初級會計實(shí)務(wù)題庫(613道)
- 初中七年級主題班會:如何管理好自己的時間(課件)
- 2024-2030年全球及中國岸電行業(yè)發(fā)展現(xiàn)狀與未來前景預(yù)測報告
- GB 5920-2024汽車和掛車光信號裝置及系統(tǒng)
- 高中地理人教版(2019)必修第一冊 全冊教案
- 萬達(dá)入職性格在線測評題
評論
0/150
提交評論