第二屆全國高校云計算應用創(chuàng)新大賽宣講PPT_第1頁
第二屆全國高校云計算應用創(chuàng)新大賽宣講PPT_第2頁
第二屆全國高校云計算應用創(chuàng)新大賽宣講PPT_第3頁
第二屆全國高校云計算應用創(chuàng)新大賽宣講PPT_第4頁
第二屆全國高校云計算應用創(chuàng)新大賽宣講PPT_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第二屆全國高校云計算應用創(chuàng)新大賽宣講cloud東南大學2015年11月云的世界等你來贏!云計算(Cloud Computing) 越來越受到人們的關注,短短的幾年時間產(chǎn)生巨大的影響力為什么云計算促使云計算產(chǎn)生的因素- 低硬件利用率提高了硬件和勞動力成本- 日益復雜的中間件安裝時間長,配置復雜,操作系統(tǒng)要求。環(huán)境切換,人工參與大大增加問題的產(chǎn)生概率- 資源負荷高點和低點差距日益加大。云計算案例(1)IBM公司計劃將分散在各個研究院的資源系統(tǒng)(如服務器、存儲)整合,為公司內(nèi)部所使用IBM公司構建了IBM Research Compute Cloud(RC2)該系統(tǒng)為科研人員提供了共享計算和存儲資源

2、的平臺RC2是公司內(nèi)部的私有云平臺美國國家檔案館公布1993-2001年希拉里作為第一夫人期間的白宮日程檔案低質(zhì)量的PDF需要被轉換成可檢索的文件格式華盛頓郵報現(xiàn)有的計算能力轉換1頁要30min,喪失新聞時效性Amazon EC2同時使用200個虛擬服務器案例,每個服務器的單頁平均處理時間都縮短為一分鐘,并在9小時內(nèi)將所有的檔案轉換完畢,以最快的速度將這些第一手資料呈現(xiàn)給讀者只需支付144.62美元云計算案例(2)紐約時報打算將其自1851年以來的1100萬份報道轉變成可搜索的數(shù)字化文檔用傳統(tǒng)轉換技術方法,這項工作可能要數(shù)月才能完成租用亞馬遜的云計算服務,使用基于云計算的開源軟件Hadoop,

3、耗時僅一天云計算案例(3)Giftag是與好友分享購物清單的Web2.0應用以插件形式安裝在瀏覽器上一經(jīng)推出便廣泛流行,服務器不堪重負遷移到Google App Engine平臺 通過GAE可伸縮的計算性能來響應用戶請求實現(xiàn)初創(chuàng)應用向穩(wěn)定、持續(xù)增長的服務過渡云計算案例(4)哈根達斯需要一個CRM解決方案讓分布在世界各地的員工進行溝通協(xié)作可根據(jù)不同的需求進行靈活配置通過Salesforce CRM在不到6個月上線無需構建自己的計算中心云計算案例(5)云計算機遇與挑戰(zhàn)云計算帶來的產(chǎn)業(yè)變革新的商業(yè)模式:計算資源的采購,獲取,交付的變革;新的創(chuàng)新平臺:突破硬件限制,可充分利用網(wǎng)絡能力。云計算技術將使得

4、中小企業(yè)的成本大大降低?!霸啤弊屆總€普通人都能以極低的成本接觸到頂尖的IT技術。新的軟件標準新的合作流程:不受地理限制的合作平臺;云計算帶來的IT革命資源的合理利用,提高運算效率;快速的資源交付,提高軟件開發(fā)測試速度;標準的傳輸和協(xié)議,服務提供和訪問標準化;易于復制,快速擴展容量。云計算支撐辦公用戶在家完成文檔編輯用戶在公司可以繼續(xù)編輯數(shù)據(jù)加密數(shù)據(jù)備份云服務器云存儲將用戶的數(shù)據(jù)存儲在云端,讓用戶何時何地都可以訪問云儲存的高可用性讓用戶的數(shù)據(jù)更加安全云存儲按照用戶使用的容量進行收費,按需使用,節(jié)約成本電子商務云端存儲基于云的文檔處理云服務器云端代碼托管分析您的廚房數(shù)據(jù)云端虛擬主機云計算正在改變我

5、們生活的方方面面云計算的定義“云計算是一種商業(yè)計算模式和信息服務模式,它能夠?qū)討B(tài)伸縮的虛擬化資源通過互聯(lián)網(wǎng)以服務的方式提供給用戶。”維基百科“云計算包括互聯(lián)網(wǎng)上各種服務形式的應用以及數(shù)據(jù)中心提供這些服務的軟硬件設施?!辈死朴嬎惆灼霸朴嬎闶且环N共享的網(wǎng)絡交付信息服務的模式,云服務的使用者看到的只有服務本身,而不用關心相關基礎設施的具體實現(xiàn)。” IBM云計算機遇與挑戰(zhàn)云計算帶來的產(chǎn)業(yè)變革新的商業(yè)模式:計算資源的采購,獲取,交付的變革新的創(chuàng)新平臺:突破硬件限制,可充分利用網(wǎng)絡能力。云計算技術將使得中小企業(yè)的成本大大降低?!霸啤弊屆總€普通人都能以極低的成本接觸到頂尖的IT技術新的軟件標準新的

6、合作流程:不受地理限制的合作平臺云計算帶來的IT革命資源的合理利用,提高運算效率快速的資源交付,提高軟件開發(fā)測試速度標準的傳輸和協(xié)議,服務提供和訪問標準化易于復制,快速擴展容量IaaSPaaSSaaSIaaS:以基礎設施形式提供服務(如虛擬機)PaaS:以平臺形式提供服務(如Web托管,大數(shù)據(jù)處理平臺)SaaS:以軟件形式提供服務(如云網(wǎng)盤,在線Office)云計算的典型使用場景與層次劃分云的發(fā)展- IaaS, PaaS, SaaS NetworkingStorageServersVirtualizationO/SMiddlewareRuntimeDataApplications傳統(tǒng)環(huán)境Net

7、workingStorageServersVirtualizationO/SMiddlewareRuntimeDataApplicationsPlatformas a ServiceNetworkingStorageServersVirtualizationO/SMiddlewareRuntimeDataApplicationsSoftwareas a ServiceNetworkingStorageServersVirtualizationMiddlewareRuntimeDataApplicationsInfrastructureas a ServiceO/SIaaS: Cut IT ex

8、pense and complexity through a cloud enabled data centerPaaS: Accelerate time to market with cloud platform servicesSaaS: Gain immediate access with business solutions on cloudInnovate business models by becoming a cloud service provider云的發(fā)展- IaaS, PaaS, SaaS云到底在哪里?云計算的主要特征(外部)數(shù)據(jù)在云端:不怕丟失,不必備份,可以任意點的

9、恢復軟件在云端:不必下載自動升級無所不在的計算:在任何時間,任意地點,任何設備登錄后就可以進行計算服務無限強大的計算:具有無限空間的,無限速度The Cloud is typically a large data-centerAnd very different from a PC云計算的主要特征(應用)IT能力以服務的方式交付資源池自動化管理與快速交付彈性擴展按使用量計費使用者自助服務開放的訪問接口虛擬化技術大數(shù)據(jù)存儲與管理技術大數(shù)據(jù)處理技術云計算的主要技術IaaS相關技術什么是虛擬化?虛擬化就是把物理資源轉變?yōu)檫壿嬌峡梢怨芾淼馁Y源,以打破物理結構之間的壁壘所有的資源都透明地運行在各種各樣的

10、物理平臺上,資源的管理都將按邏輯方式進行,完全實現(xiàn)資源的自動化分配CPU網(wǎng)絡服務器存儲應用桌面操作系統(tǒng)為什么需要虛擬化技術?虛擬化前:每臺主機一個操作系統(tǒng)軟件硬件緊密耦合應用程序之間相互干擾系統(tǒng)的資源利用率低硬件成本高且不夠靈活虛擬化后:打破了操作系統(tǒng)和硬件的緊耦合通過虛擬機提供資源,實現(xiàn)故障隔離各虛擬機之間軟件相互獨立虛擬機獨立于硬件, 能在任何硬件上運行虛擬化與云計算虛擬化技術可用于資源管理,提升資源利用率,降低能耗,是云計算的關鍵技術。虛擬化技術使得不同用戶的應用運行在同一個服務器資源上,卻可以保證不同用戶數(shù)據(jù)的隔離。虛擬化技術使得虛擬機能夠在底層服務器發(fā)生故障,自動遷移到其他狀態(tài)良好的

11、服務器上,甚至整個數(shù)據(jù)中心發(fā)生災難,都能夠?qū)崿F(xiàn)快速恢復。虛擬化技術使得用戶的系統(tǒng)配置需求能夠快速獲得滿足,不同配置的VM(資源+OS+App)能夠自動部署到資源池上。云計算IaaS是通過互聯(lián)網(wǎng)請求和配置VM的(例如需要能夠運行Windows Server 2003和Oracle DB,要求500G硬盤,CPU為3GHZ),如果不采用虛擬化,需要人工去尋找特定的服務器(x86)以及相應的配置,并且進行安裝部署虛擬化技術使得用戶的VM能夠?qū)崿F(xiàn)動態(tài)彈性變更,而不需要預先預測容量需求云計算IaaS服務的一大特色正是用戶可以在互聯(lián)網(wǎng)彈性變更資源需求X虛擬化在云計算中的開源實現(xiàn)OpenStackOpenS

12、tack是由Rackspace和NASA共同開發(fā)的云計算平臺,幫助服務商和企業(yè)內(nèi)部實現(xiàn)類似于Amazon EC2和S3的云基礎架構服務(IaaS)OpenStack能做什么將海量計算資源以虛擬機形式提供給用戶管理云服務,查看運行和計費情況創(chuàng)建和存儲用戶應用的自定義鏡像,并通過這些鏡像啟動、監(jiān)控和終止實例管理云計算資源,能夠配置和操作網(wǎng)絡、存儲等基礎架構PaaS相關技術云環(huán)境下大數(shù)據(jù)處理Hadoop數(shù)據(jù)文件(由數(shù)據(jù)塊構成)數(shù)據(jù)并行作業(yè)(由子任務構成)數(shù)據(jù)分析應用計算節(jié)點云計算工作流(由作業(yè)構成)PigLatinJavaSQLXMLSCOPEIaaS編程接口數(shù)據(jù)并行作業(yè)執(zhí)行引擎分布式文件系統(tǒng)Paa

13、SMR編程模式及Hadoop的實現(xiàn)方式什么是MapReduce?MapReduce是Google公司提出的一種面向大規(guī)模海量數(shù)據(jù)處理的高性能并行計算平臺和軟件編程框架,是目前最為成功和最易于使用的大規(guī)模海量數(shù)據(jù)并行處理技術,廣泛應用于搜索引擎(文檔倒排索引,網(wǎng)頁鏈接圖分析與頁面排序等)、Web日志分析、文檔分析處理、機器學習、機器翻譯等各種大規(guī)模數(shù)據(jù)并行計算應用領域。MR編程模式及Hadoop的實現(xiàn)方式MapReduce計算流程Input split shuffle output 讀入數(shù)據(jù): key/value 對的記錄格式數(shù)據(jù)Map: 從每個記錄里extract somethingmap (

14、in_key, in_value) - list(out_key, intermediate_value) 處理input key/value pair 輸出中間結果key/value pairsShuffle: 混排交換數(shù)據(jù)把相同key的中間結果匯集到相同節(jié)點上Reduce: aggregate, summarize, filter, etc.reduce (out_key, list(intermediate_value) - list(out_value) 歸并某一個key的所有values,進行計算輸出合并的計算結果 (usually just one) 輸出結果MR編程模式及Hado

15、op的實現(xiàn)方式Google MapReduce并行處理的基本過程 Cite from Dean and Ghemawat (OSDI 2004)有一個待處理的大數(shù)據(jù),被劃分為大小相同的數(shù)據(jù)塊(如64MB),及與此相應的用戶作業(yè)程序系統(tǒng)中有一個負責調(diào)度的主節(jié)點(Master),以及數(shù)據(jù)Map和Reduce工作節(jié)點(Worker)MR編程模式及Hadoop的實現(xiàn)方式Google MapReduce并行處理的基本過程 Cite from Dean and Ghemawat (OSDI 2004)3.用戶作業(yè)程序提交給主節(jié)點4.主節(jié)點為作業(yè)程序?qū)ふ液团鋫淇捎玫腗ap節(jié)點,并將程序傳送給map節(jié)點 5.

16、主節(jié)點也為作業(yè)程序?qū)ふ液团鋫淇捎玫腞educe節(jié)點,并將程序傳送給Reduce節(jié)點 MR編程模式及Hadoop的實現(xiàn)方式Google MapReduce并行處理的基本過程 Cite from Dean and Ghemawat (OSDI 2004)6.主節(jié)點啟動每個Map節(jié)點執(zhí)行程序,每個map節(jié)點盡可能讀取本地或本機架的數(shù)據(jù)進行計算 7.每個Map節(jié)點處理讀取的數(shù)據(jù)塊,并做一些數(shù)據(jù)整理工作(combining, sorting等)并將中間結果存放在本地;同時通知主節(jié)點計算任務完成并告知中間結果數(shù)據(jù)存儲位置 MR編程模式及Hadoop的實現(xiàn)方式Google MapReduce并行處理的基本過

17、程 Cite from Dean and Ghemawat (OSDI 2004)8.主節(jié)點等所有Map節(jié)點計算完成后,開始啟動Reduce節(jié)點運行;Reduce節(jié)點從主節(jié)點所掌握的中間結果數(shù)據(jù)位置信息,遠程讀取這些數(shù)據(jù)9.Reduce節(jié)點計算結果匯總輸出到一個結果文件即獲得整個處理結果MR編程模式及Hadoop的實現(xiàn)方式案例:單詞記數(shù)問題(Word Count)給定一個巨大的文本(如1TB),如何計算單詞出現(xiàn)的數(shù)目?MR編程模式及Hadoop的實現(xiàn)方式使用MapReduce求解該問題定義Map和Reduce函數(shù)MR編程模式及Hadoop的實現(xiàn)方式使用MapReduce求解該問題Step 1:

18、 自動對文本進行分割MR編程模式及Hadoop的實現(xiàn)方式使用MapReduce求解該問題Step 2:在分割之后的每一對進行用戶定義的Map進行處理,再生成新的對MR編程模式及Hadoop的實現(xiàn)方式使用MapReduce求解該問題Step 3:對輸出的結果集歸攏、排序shuffle(系統(tǒng)自動完成)MR編程模式及Hadoop的實現(xiàn)方式使用MapReduce求解該問題Step 4:通過Reduce操作生成最后結果MR編程模式及Hadoop的實現(xiàn)方式圖計算編程模式及實現(xiàn)方式297億網(wǎng)頁297億網(wǎng)頁Facebook 14億用戶700PB 人類基因分布式圖計算數(shù)據(jù)量大計算復雜+主控節(jié)點計算節(jié)點1計算節(jié)點

19、2計算節(jié)點3計算節(jié)點4網(wǎng)絡需要分布式的處理方式基于Spark的圖存儲dabacb314256數(shù)據(jù)圖GVIDLabelID1a2a3d4b5c6bSrcIDDestID14411331155125525445244326點集文件(Vertices)邊集文件(Edges)基于Spark的分布式處理處理結果VerticesRowRowEdgesRowRowRowRow點集文件邊集文件并行處理將文件分塊,存儲于多個計算節(jié)點內(nèi)存Join操作class Graph V, E def Graph(vertices: Table (Id, V) , edges: Table (Id, Id, E) )/ Ta

20、ble Views -def vertices: Table (Id, V) def edges: Table (Id, Id, E) def triplets: Table (Id, V), (Id, V), E) / Transformations -def reverse: GraphV, Edef subgraph(pV: (Id, V) = Boolean, pE: EdgeV,E = Boolean): GraphV,Edef mapV(m: (Id, V) = T ): GraphT,E def mapE(m: EdgeV,E = T ): GraphV,T/ Joins -de

21、f joinV(tbl: Table (Id, T): Graph(V, T), E def joinE(tbl: Table (Id, Id, T): GraphV, (E, T)/ Computation -def mrTriplets(mapF: (EdgeV,E) = List(Id, T), reduceF: (T, T) = T): GraphT, ESpark上關于圖的操作Spark的例子(尋找最大的年齡)為每個用戶找年齡最大的關注者val followerAge = graph.aggNbrs( e = e.src.age, / MapF max(_, _), / Reduce

22、F InEdges).verticesaggNbrs函數(shù):根據(jù)鄰居頂點的信息,更新每個頂點的屬性516歲75歲19歲23歲30歲42歲ID:2ID:3ID:1ID:4ID:6ID:7子圖匹配應用搜索引擎生物信息化學分析圖像識別查詢圖數(shù)據(jù)圖子圖匹配問題子圖匹配任務就是在一張大圖G中找出與給定的查詢圖 q 同構的所有子圖,并輸出這些同構子圖。數(shù)據(jù)圖由“點集文件”和“邊集文件”表示,并存儲于分布式環(huán)境中。abcddabacb1423314256數(shù)據(jù)圖G查詢圖q參考思路(步驟1-將查詢圖分解成若干子圖)abcd1423查詢圖qabcabcbcd將查詢圖分解成若干子圖參考思路(步驟2-匹配查詢圖的子圖)

23、abcabcbcddabacb314256數(shù)據(jù)圖Gabc145bac245acb256bac254abc145dbc534查詢圖的子圖初始的匹配結果參考思路(步驟3-獲取最終結果)abc145bac245acb256bac254abc145dbc534Join的中間結果dbc534a1a2dbc345a2dbc345dbc534a1初始的匹配結果兩個最終結果云計算的典型應用云計算在AMS-02項目中的應用阿爾法磁譜儀航天飛機重110噸外掛燃料筒重756噸兩個固體火箭推進器重1,142噸共計2,008噸AMS重7.5噸2011年5月16日上午8:56分奮進號發(fā)射升空云計算在AMS-02項目中的應

24、用Huntsville, AL數(shù)據(jù)中心(地區(qū)SOC)數(shù)據(jù)存儲數(shù)據(jù)服務數(shù)據(jù)分析數(shù)據(jù)重建蒙特卡羅數(shù)據(jù)生產(chǎn)東南大學國際空間站上的AMS數(shù)據(jù)中繼衛(wèi)星RWTHCIEMATMilano監(jiān)控中心AMS飛行狀態(tài)監(jiān)測監(jiān)控中心AMS飛行狀態(tài)監(jiān)測和控制數(shù)據(jù)中心(SOC)數(shù)據(jù)重建數(shù)據(jù)分析數(shù)據(jù)分發(fā)和協(xié)調(diào)蒙特卡羅數(shù)據(jù)生產(chǎn)CERNJSC太空粒子束TDRSMSFC馬歇爾宇航中心KU波段AMS Scientific Operation Center云計算在AMS-02項目中的應用AMS數(shù)據(jù)存儲及管理、數(shù)據(jù)重建、蒙特卡洛仿真及物理分析等云計算在AMS-02項目中的應用根據(jù)AMS數(shù)據(jù)處理需求,東南大學于2011年建成了擁有3500

25、核(峰值計算能力達37萬億次)和500TB存儲的云計算平臺,部署了Openstack以及Hadoop等云計算軟件實現(xiàn)了三大核心子系統(tǒng)資源管理系統(tǒng)任務調(diào)度系統(tǒng)數(shù)據(jù)管理系統(tǒng)完成了相應的應用部署蒙特卡洛仿真數(shù)據(jù)重建物理分析60東南大學AMS-SOC建設數(shù)據(jù)來源:AMS-02官方統(tǒng)計網(wǎng)站 http:/ams.cern.ch/ProdPlot/index.php東南大學AMS-SOC最新進展61四年多來,東南大學為AMS實驗進行了大量的數(shù)據(jù)處理SEU東南大學產(chǎn)生的AMS數(shù)據(jù)量東南大學為AMS貢獻的計算量原始數(shù)據(jù)141TB,蒙特卡洛仿真數(shù)據(jù)372TB,重建數(shù)據(jù)190TB,東南大學處理AMS實驗數(shù)據(jù)總量達7

26、03TB.東南大學計算量達157萬CPU小時,在六家AMS-SOC地區(qū)中心排行第一.AMS實驗最新進展62 2013年2月17日,在美國科學促進會AAAS上丁肇中教授首次宣布將會發(fā)表AMS實驗的第一批關于暗物質(zhì)的成果。AMS實驗的第一批成果:分析了250億個初級宇宙射線,確認了680萬個電子及其反粒子正電子(約40多萬個)的事件。日內(nèi)瓦時間2013年4月3號下午17:00在CERN宣布第二屆全國高校云計算創(chuàng)新應用大賽第二屆全國高校云計算應用創(chuàng)新大賽本屆大賽由教育部科技發(fā)展中心主辦,東南大學計算機科學與工程學院、中南大學信息科學與工程學院聯(lián)合承辦,ACM南京分會、焦點科技股份有限公司協(xié)辦的全國性

27、賽事。本次大賽分為創(chuàng)意賽、技能賽及命題賽。本次大賽面向全國所有高校研究生以及本科生,以團隊形式參加比賽,每團隊由一名隊長,三名隊員以及一名指導老師組成。允許研究生本科生混合組隊。大賽官網(wǎng) /contest/創(chuàng)意賽充分發(fā)揮創(chuàng)造力和動手能力,自主設計與云計算理念相關的應用系統(tǒng);著重突出趣味性、創(chuàng)新性與實用性。 創(chuàng)意賽的范圍較廣,任何同云計算理念掛鉤的idea都可以大數(shù)據(jù)、物聯(lián)網(wǎng)、基于云的圖片處理方案、智能家居、醫(yī)療、環(huán)保、制造業(yè)、移動互聯(lián)網(wǎng),車載網(wǎng)等方面均可以作為本題的入手點。技能賽題目一:基于 Hadoop Map-Reduce的日志統(tǒng)計分析 電商公司越來重視接口訪問日志的利用,從文件里邊可以獲

28、取到的訪問性能、訪問頻率、訪問來源,統(tǒng)計有以下意義:能夠快速獲取接口訪問性是否下降,或者頻率異常結合公司的訪問量,可以預估舉行促銷活動時需要增加機器數(shù)接口修改后,是否出現(xiàn)波動等現(xiàn)實生活中的很多關系,例如社交網(wǎng)絡、互聯(lián)網(wǎng)網(wǎng)頁超鏈關系、語義網(wǎng)、生物作用網(wǎng)絡等,都可以用離散數(shù)學中的圖加以描述并進行分析現(xiàn)實世界產(chǎn)生的圖數(shù)據(jù)規(guī)模越來越大。Facebook的社交網(wǎng)絡目前已經(jīng)包括至少9億日?;钴S用戶,每個用戶平均有130個朋友。大規(guī)模的圖分析任務需利用分布式計算系統(tǒng)進行并行處理子圖匹配是圖分析中的一個基礎操作,被廣泛應用于蛋白相互作用網(wǎng)絡分析、知識庫、程序分析等應用中。本題目希望選手利用Spark平臺并行化子圖匹配算法,使子圖匹配操作能高效地在大規(guī)模圖數(shù)據(jù)集上完成技能賽題目二:基于Spark的同構子圖查詢命題賽題目一:基于云端的在線教育系統(tǒng)近年來,在線公開課、在線直播、微課、慕

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論