云計算大數(shù)據(jù)關鍵技術與應用_第1頁
云計算大數(shù)據(jù)關鍵技術與應用_第2頁
云計算大數(shù)據(jù)關鍵技術與應用_第3頁
云計算大數(shù)據(jù)關鍵技術與應用_第4頁
云計算大數(shù)據(jù)關鍵技術與應用_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、云計算&大數(shù)據(jù)關鍵技術與應用目 錄云計算&大數(shù)據(jù)技術架構(gòu)虛擬化技術12分布式數(shù)據(jù)處理技術海量數(shù)據(jù)存儲技術34大數(shù)據(jù)技術應用實例5云計算運營兩大陣營云計算產(chǎn)品的生態(tài)系統(tǒng)基礎硬件層虛擬化軟件存儲軟件Swift網(wǎng)絡軟件虛擬化和基礎軟件層Glance基礎架構(gòu)及服務層應用層商用軟件開源軟件虛擬桌面海量數(shù)據(jù)處理4大數(shù)據(jù)分析面臨的主要技術問題云計算技術用于處理大數(shù)據(jù)High performance 高并發(fā)讀寫高并發(fā)、實時動態(tài)獲取和更新數(shù)據(jù)Huge Storage 海量數(shù)據(jù)的高效率存儲訪問和智能分析類似SNS網(wǎng)站,海量用戶信息的高效率實時存儲和查詢High Scalability & High Availab

2、ility 高可擴展性和高可用性需要擁有快速橫向擴展能力、提供7*24小時不間斷服務阿里大數(shù)據(jù)狀況淘寶主站(2011年):30億店鋪、寶貝瀏覽10億計的在線寶貝數(shù)千萬量級交易筆數(shù)數(shù)據(jù)產(chǎn)品(2011年) :50G統(tǒng)計匯總結(jié)果千萬量級數(shù)據(jù)查詢請求平均20.8ms的響應時間數(shù)據(jù)來源:阿里相關技術介紹ppt阿里技術架構(gòu)總覽數(shù)據(jù)來源:阿里相關技術介紹ppt騰訊大數(shù)據(jù)狀況數(shù)據(jù)來源:2012-12-1趙偉 HIVE在騰訊分布式數(shù)據(jù)倉庫實踐分享騰訊技術架構(gòu)數(shù)據(jù)來源:2012-12-1趙偉 HIVE在騰訊分布式數(shù)據(jù)倉庫實踐分享百度大數(shù)據(jù)狀況數(shù)據(jù)來源: 2011年百度云計算總工程師林仕鼎講座百度云計算總體介紹數(shù)據(jù)

3、來源: 2012.10 百度楊毅講座百度的下一代計算系統(tǒng)百度技術架構(gòu)數(shù)據(jù)來源: 2011年百度云計算總工程師林仕鼎講座百度云計算總體介紹海量結(jié)構(gòu)化數(shù)據(jù)存儲系統(tǒng)(SQL)分布式文件系統(tǒng)海量非結(jié)構(gòu)化數(shù)據(jù)存儲系統(tǒng)(SQL)機器學習大數(shù)據(jù)應用機器學習分布式文件系統(tǒng)海量數(shù)據(jù)存儲大規(guī)模計算智能分析大數(shù)據(jù)技術架構(gòu)-模型分布式并行計算系統(tǒng)數(shù)據(jù)挖掘語義搜索HIVEPig!ZooKeeper分布式文件系統(tǒng)海量數(shù)據(jù)存儲大規(guī)模計算智能分析算法大數(shù)據(jù)技術架構(gòu)-典型開源實現(xiàn)目 錄云計算&大數(shù)據(jù)技術架構(gòu)虛擬化技術12分布式數(shù)據(jù)處理技術海量數(shù)據(jù)存儲技術34大數(shù)據(jù)技術應用實例大數(shù)據(jù)技術應用實例56虛擬化技術通過虛擬化技術可實現(xiàn)

4、軟件應用與底層硬件相隔離,它包括將單個資源劃分成多個虛擬資源的裂分模式,也包括將多個資源整合成一個虛擬資源的聚合模式虛擬化軟件實現(xiàn)對硬件的抽象,資源的分配、調(diào)度和管理,虛擬機與宿主操作系統(tǒng)及多個虛擬機間的隔離等功能,目前典型的實現(xiàn)(基本成為事實標準)有:Citrix XenVMware ESX ServerMicrosoft Hype-VRedhat KVM網(wǎng)絡虛擬化存儲虛擬化桌面虛擬化計算虛擬化計算虛擬化技術Container1Container2Container3Guest OSGuest OSGuest OSVM 1VM 2VM 3虛擬硬件虛擬硬件虛擬硬件Virtual Machine

5、 MonitorHypervisor or Standard Host OSHardwareStandard Host OSHardware操作系統(tǒng)虛擬化層HypervisorOS Virtualization硬件虛擬化(Hypervisors)虛擬硬件訪問創(chuàng)建多個虛擬硬件實例宿主操作系統(tǒng)及每個Guest必須為完整操作系統(tǒng)VMware ESXi, Microsoft Hyper-V操作系統(tǒng)虛擬化(Containers)虛擬操作系統(tǒng)訪問創(chuàng)建多個虛擬操作系統(tǒng)實例物理服務器擁有單個、標準的OS 內(nèi)核VMware workstation,Sun Solaris Containers, OpenVZ網(wǎng)絡

6、虛擬化:軟件定義網(wǎng)絡SDN(Software Defined Network)SDN是一種新興的控制與轉(zhuǎn)發(fā)分離并直接可編程的網(wǎng)絡架構(gòu)傳統(tǒng)網(wǎng)絡設備緊耦合的網(wǎng)絡架構(gòu)被拆分成應用、控制、轉(zhuǎn)發(fā)三層分離的架構(gòu)??刂乒δ鼙晦D(zhuǎn)移到了服務器上,上層應用、底層轉(zhuǎn)發(fā)設施被抽象成多了邏輯實體網(wǎng)絡虛擬化-VxLan實現(xiàn)虛擬機的跨網(wǎng)絡遷移虛擬可擴展VLAN(Virtual Extensible VLAN,VXLAN)標準將創(chuàng)建一個邏輯網(wǎng)絡(或擴展VLAN),支持地理分散的數(shù)據(jù)中心之間實現(xiàn)遠距離虛擬機(VM)遷移。VXLAN最終會實現(xiàn)多租戶云網(wǎng)絡所需要的遠距離分割支持思科與VMware已經(jīng)合作將VXLAN標準整合到產(chǎn)品中

7、,但是這個由思科、VMware、Arista網(wǎng)絡、Broadcom公司、Citrix系統(tǒng)和紅帽等公司共同制定的VXLAN草案仍然有待互聯(lián)網(wǎng)工程工作小組(IETF)標準化。云計算基礎設施管理技術云計算資源規(guī)模龐大,服務器數(shù)量眾多并分布在不同的地點,同時運行著數(shù)百種應用,如何有效的管理這些服務器,保證整個系統(tǒng)提供不間斷的服務是巨大的挑戰(zhàn)。云計算系統(tǒng)的平臺管理技術能夠使大量的服務器協(xié)同工作,方便的進行業(yè)務部署和開通,快速發(fā)現(xiàn)和恢復系統(tǒng)故障,通過自動化、智能化的手段實現(xiàn)大規(guī)模系統(tǒng)的可靠運營常用的開源VIMOpenStackCloudStackOpenNebulaEucalyptusC (Cloudst

8、ack)DeltaCloudCleverOpenStack簡介OpenStack是由Rackspace和NASA共同開發(fā)的云計算平臺,幫助服務商和企業(yè)內(nèi)部實現(xiàn)類似于Amazon EC2和S3的云基礎架構(gòu)服務(IaaS)。用Python語言編寫大型用戶:NASA加拿大半官方機構(gòu)CANARIE網(wǎng)絡的DAIR項目Rackspace Cloud惠普云(使用Ubuntu Linux)MercadoLibre的IT基礎設施云,現(xiàn)以Openstack管理超過60000臺服務器OpenStack 社區(qū)目 錄云計算&大數(shù)據(jù)技術架構(gòu)虛擬化技術12分布式數(shù)據(jù)處理技術海量數(shù)據(jù)存儲技術34大數(shù)據(jù)技術應用實例5Googl

9、e分布式處理架構(gòu)Google云計算應用組件調(diào)用關系分析分布式文件系統(tǒng)分布式計算模型分布式文件系統(tǒng)-Google文件系統(tǒng)(GFS)Google48%MSN19%Yahoo33%客戶端客戶端客戶端互為備份管理節(jié)點GFS主節(jié)點GFS主節(jié)點C0C1C2C5數(shù)據(jù)結(jié)點1C0C2C5數(shù)據(jù)結(jié)點NC1C5數(shù)據(jù)結(jié)點2客戶端客戶端客戶端客戶端客戶端客戶端C1分布式文件系統(tǒng)- HDFS基本結(jié)構(gòu)采用主從架構(gòu),由一個Namenode和若干個Datanode組成Namenode: 負責管理名字空間與客戶端訪問Datanode: 管理附帶的存儲,存儲文件的block一個文件分成多個block,Block是HDFS最小存儲與分

10、配單位,分布存儲,典型塊大小為64MB或128MB一個block被復制存放于多個datanodeHDFS在Yahoo安裝了14PB的在線磁盤分布式文件系統(tǒng)- GlusterFS分布式文件系統(tǒng)- LustreMDS: Metadata Server, 元數(shù)據(jù)管理器,管理名字空間和文件對象映射OSS:Object Storage Server,I/O服務器MDT:Metadata Target, MDS的本地磁盤存儲OST:Object Storage Target,OSS的本地磁盤存儲OSTMDT分布式文件系統(tǒng)-寫入性能比較來源:中科院深圳先進技術研究院 熊文,喻之斌,須成忠的論文幾個常見分布式

11、文件系統(tǒng)特征分析和性能對比(集成技術2012年11月)分布式文件系統(tǒng)-讀取性能比較來源:中科院深圳先進技術研究院 熊文,喻之斌,須成忠的論文幾個常見分布式文件系統(tǒng)特征分析和性能對比(集成技術2012年11月)分布式計算模型-概述待處理數(shù)據(jù)量巨大短時間處理如何進行并行分布式計算?如何分發(fā)待處理數(shù)據(jù)?如何處理分布式計算中的錯誤?MapReduce模型Google 公司的核心計算模型分布式計算模型- MapReduce一個軟件架構(gòu),是一種處理海量數(shù)據(jù)的并行編程模式,用于大規(guī)模數(shù)據(jù)集(通常大于100TB)的并行運算適合要求: 待處理的數(shù)據(jù)集可以分解成許多小的數(shù)據(jù)集,而且每一個小數(shù)據(jù)集都可以完全并行地進

12、行處理。MapReduce實現(xiàn)了Map和Reduce兩個功能Map把一個函數(shù)應用于集合中的所有成員,然后返回一個基于這個處理的結(jié)果集Reduce對結(jié)果集進行分類和歸納Map()和 Reduce() 兩個函數(shù)可能會并行運行計算流程分布式計算模型- MapReduce提供數(shù)據(jù)的存儲訪問、數(shù)據(jù)塊劃分、計算節(jié)點調(diào)度管理、數(shù)據(jù)通信、結(jié)果收集、容錯處理、負載均衡、性能優(yōu)化等JobTracker:主結(jié)點接受用戶提交的MR job分派map任務和reduce任務監(jiān)管tasks和tasktrackers,重新執(zhí)行失效任務一般情況應該把JobTracker部署在單獨的機器上TaskTracker:任務的調(diào)度多個運

13、行于多個節(jié)點的slaver服務,一個Datanode節(jié)點一個。 按照jobtracker的要求執(zhí)行map或者reduce任務管理存儲,傳輸中間結(jié)果分布式計算模型- MapReduce任務執(zhí)行狀態(tài)更新Shuffle & Sort單詞記數(shù)問題(Word Count)(Hadoop自帶例子)給定一個巨大的文本(如1TB),如何計算單詞出現(xiàn)的數(shù)目?MapReduce示例Step 1: 自動對文本進行分割MapReduce示例Step 2:在分割之后的每一對進行用戶定義的Map進行處理,再生成新的對MapReduce示例Map類:編程實現(xiàn)Hadoop Mapper接口的Map方法Step 3:對輸出的結(jié)

14、果集歸攏、排序(系統(tǒng)自動完成)MapReduce示例Step 4:通過Reduce操作生成最后結(jié)果MapReduce示例Reduce類:編程實現(xiàn)Hadoop Reduce接口的Reduce方法目 錄云計算&大數(shù)據(jù)技術架構(gòu)虛擬化技術12分布式數(shù)據(jù)處理技術海量數(shù)據(jù)存儲技術34大數(shù)據(jù)技術應用實例51. Volume2. Variety3. value4. Velocity結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)如今的數(shù)據(jù)類型早已不是單一的文本形式,訂單、日志、音頻,能力提出了更高的要求沙里淘金,價值密度低以視頻為例,一部一小時的視頻,在連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。如何通過強大的

15、機器算法更迅速地完成數(shù)據(jù)的價值“提純”是目前大數(shù)據(jù)洶涌背景下亟待解決的難題實時獲取需要的信息大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)最顯著的特征。如今已是ZB時代,在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合大數(shù)據(jù)的特點數(shù)據(jù)量巨大全球在2010 年正式進入ZB 時代,IDC預計到2020 年,全球?qū)⒖偣矒碛?5ZB 的數(shù)據(jù)量1PB數(shù)據(jù)相當于50%的全美學術研究圖書館藏書資訊內(nèi)容。而到2012年為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,全人類歷史上說過的所有話的數(shù)據(jù)量大約是5EB。存儲原理數(shù)據(jù)庫存儲數(shù)據(jù)庫以行、列的二維表的形式存

16、儲數(shù)據(jù)以一維字符串的方式存儲到磁盤行式存儲按行來序列化并追加到磁盤列式存儲按行來序列化并追加到磁盤列族CAP理論分布式數(shù)據(jù)系統(tǒng)的CAP原理的三要素:一致性(Consistency) 可用性(Availability) 分區(qū)容忍性(Partition tolerance)CAP原理:在分布式系統(tǒng)中,這三個要素最多只能同時實現(xiàn)兩點,不可能三者兼顧對于分布式數(shù)據(jù)系統(tǒng),分區(qū)容忍性是基本要求對于大多數(shù)web應用,犧牲一致性而換取高可用性,是目前多數(shù)分布式數(shù)據(jù)庫產(chǎn)品的方向。NoSQL的兩個核心模型Google的BigTable BigTable提出了一種很有趣的數(shù)據(jù)模型,它將各列數(shù)據(jù)進行排序存儲。數(shù)據(jù)值按

17、范圍分布在多臺機器,數(shù)據(jù)更新操作有嚴格的一致性保證。Amazon的Dynamo Dynamo使用的是另外一種分布式模型。Dynamo的模型更簡單,它將數(shù)據(jù)按key進行hash存儲。其數(shù)據(jù)分片模型有比較強的容災性,因此它實現(xiàn)的是相對松散的弱一致性:最終一致性。NoSQL技術分類Key-value一個Key對應一個Value,能提供非??斓牟樵兯俣?、大的數(shù)據(jù)存放量和高并發(fā)操作,非常適合通過主鍵對數(shù)據(jù)進行查詢和修改等操作Redis BerkeleyDB Kyoto Cabinet/ Tycoon列式存儲 按列存儲數(shù)據(jù),最大的特點是方便存儲結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),方便做數(shù)據(jù)壓縮,對針對某一列或者某幾列的

18、查詢有非常大的IO優(yōu)勢 Hbase Cassandra 文檔結(jié)構(gòu)結(jié)構(gòu)和Key-value非常相似,也是一個Key對應一個Value,但是這個Value主要以JSON或者XML等格式的文檔來進行存儲,是有語義的??梢詫δ承┳侄谓⑺饕?,實現(xiàn)關系數(shù)據(jù)庫的某些功能。MongoDB CouchDB圖式存儲 以圖論為基礎Neo4J簡介Bigtable是一個分布式的結(jié)構(gòu)化數(shù)據(jù)存儲系統(tǒng),它被設計用來處理海量數(shù)據(jù):通常是分布在數(shù)千臺普通服務器上的PB級的數(shù)據(jù)。Google的很多項目使用Bigtable存儲數(shù)據(jù),包括Web索引、Google Earth、Google Finance等。數(shù)據(jù)模型Bigtable是

19、一個稀疏的、分布式的、持久化存儲的多維度排序Map。Map的索引是行關鍵字、列關鍵字以及時間戳;Map中的每個value都是一個未經(jīng)解析的byte數(shù)組NoSQLBigTable特點適合大規(guī)模海量數(shù)據(jù),PB級數(shù)據(jù); 分布式、并發(fā)數(shù)據(jù)處理,效率極高; 易于擴展,支持動態(tài)伸縮; 適用于廉價設備; 適合于讀操作,不適合寫操作;不適用于傳統(tǒng)關系數(shù)據(jù)庫;簡介Hadoop Database,HBase是Google Bigtable的開源實現(xiàn),是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術可在廉價PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。數(shù)據(jù)模型類似Google Bigta

20、ble利用GFS作為其文件存儲系統(tǒng),HBase利用Hadoop HDFS作為其文件存儲系統(tǒng);Google運行MapReduce來處理Bigtable中的海量數(shù)據(jù),HBase同樣利用Hadoop MapReduce來處理HBase中的海量數(shù)據(jù);Google Bigtable利用 Chubby作為協(xié)同服務,HBase利用Zookeeper作為對應。NoSQLHbase底層數(shù)據(jù)存儲基于HDFS高可用,高性能列存儲,多版本百億行百萬列上萬個版簡介:一個開源的使用C語言編寫、支持網(wǎng)絡、可基于內(nèi)存也可持久化的key-value存儲系統(tǒng),僅有一萬行代碼。從2010年3月15日起,Redis的開發(fā)工作由VMw

21、are主持。NoSQLRedis速度快:C語言、數(shù)據(jù)加載到內(nèi)存持久化:數(shù)據(jù)保存到內(nèi)存的同時,還可以同步到磁盤上數(shù)據(jù)結(jié)構(gòu):支持五種數(shù)據(jù)結(jié)構(gòu)支持多語言:諸如C,PHP,java,Perl,Ruby,Python等主從復制:支持簡單的主從復制,官方提供數(shù)據(jù),Slave在21秒完成了對Amazon網(wǎng)站10G key set 的復制相比memcached的優(yōu)勢:value類型更豐富數(shù)據(jù)操作方法更多可將內(nèi)存數(shù)據(jù)持久化最初由Facebook開發(fā),用于儲存收件箱等簡單格式數(shù)據(jù)集Google BigTable的數(shù)據(jù)模型與Amazon Dynamo的完全分布式的架構(gòu)于一身Facebook于2008將 Cassan

22、dra 開源,此后,由于Cassandra良好的可擴放性,被Digg、Twitter等知名Web 2.0網(wǎng)站所采納,成為了一種流行的分布式結(jié)構(gòu)化數(shù)據(jù)存儲方案NoSQLCassandra特點模式靈活 :使用Cassandra,像文檔存儲,你不必提前解決記錄中的字段。你可以在系統(tǒng)運行時隨意的添加或移除字段。這是一個驚人的效率提升,特別是在大型部署上。 真正的可擴展性 :Cassandra是純粹意義上的水平擴展。為給集群添加更多容量,可以指向另一臺電腦。你不必重啟任何進程,改變應用查詢,或手動遷移任何數(shù)據(jù)。多數(shù)據(jù)中心識別 :你可以調(diào)整你的節(jié)點布局來避免某一個數(shù)據(jù)中心起火,一個備用的數(shù)據(jù)中心將至少有每

23、條記錄的完全復制。介于關系數(shù)據(jù)庫和非關系數(shù)據(jù)庫之間,是非關系數(shù)據(jù)庫當中功能最豐富,最像關系數(shù)據(jù)庫的支持的數(shù)據(jù)結(jié)構(gòu)非常松散,是類似json的bjson格式,可以存儲比較復雜的數(shù)據(jù)類型支持的查詢語言非常強大,其語法有點類似于面向?qū)ο蟮牟樵冋Z言,幾乎可以實現(xiàn)類似關系數(shù)據(jù)庫單表查詢的絕大部分功能,而且還支持對數(shù)據(jù)建立索引。NoSQLMongoDB主要特點文檔型:存儲在集合中的文檔,被存儲為鍵-值對的形式。鍵用于唯一標識一個文檔,為字符串類型,而值則可以是各種復雜的文件類型。面向集合存儲:易存儲對象類型的數(shù)據(jù),包括文檔內(nèi)嵌對象及數(shù)組。模式自由:無需知道存儲數(shù)據(jù)的任何結(jié)構(gòu)定義,支持動態(tài)查詢、完全索引,可輕易查詢文檔中內(nèi)嵌的對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論