版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù)時代的數(shù)據(jù)庫11云計算概念提出2Hadoop的發(fā)展歷史3Hadoop的核心技術MapReduce4Hadoop核心技術數(shù)據(jù)庫Hbase5其它NoSQL數(shù)據(jù)庫23大數(shù)據(jù)特性4V特性Volume(數(shù)據(jù)量大)Variety(種類多)Value(價值密度低,商業(yè)價值高Velocity(處理速度快)對傳統(tǒng)數(shù)據(jù)庫的挑戰(zhàn)4用一個實例來理解云計算512345開發(fā)人員部署代碼,上傳數(shù)據(jù)庫結構和數(shù)據(jù),并進行必要的測試,之后運維人員開通網(wǎng)站運行期間,企業(yè)需要雇傭專門人員負責服務器和網(wǎng)絡的維護,定期備份數(shù)據(jù)等日常工作購買數(shù)據(jù)庫服務器來部署后臺數(shù)據(jù)庫配置網(wǎng)站的域名等工作購買應用服務器來部署這個網(wǎng)站云計算所需解決的問題
——假設某家企業(yè)開發(fā)一個旅游網(wǎng)站數(shù)據(jù)量6云計算所需解決的問題
——假設某家企業(yè)開發(fā)一個旅游網(wǎng)站企業(yè)需要待解決的問題1、購買新的服務器2、增加更多的運維成員3、購買和安裝設備都是需要時間的,可能在此期間整個網(wǎng)站出現(xiàn)響應減慢,經(jīng)常出錯、導致大量的客戶流失4、淡季的時候,訪問量低,剛購買的服務器又成為資源的浪費成本效益怎樣解決這個問題呢?7云計算所需解決的問題
——假設某家企業(yè)開發(fā)一個旅游網(wǎng)站
引入云計算,它可以從根本上解決這個問題,因為云計算是通過互聯(lián)網(wǎng)將共享的硬件軟件資源按需提供給使用者,所有的設備都是由云計算服務商維護,這樣無論是專業(yè)的軟件開發(fā)商,還是最終的客服,都可以將全部精力集中于業(yè)務領域,而無須考慮硬件維護、容災等運維問題,無形之中也為企業(yè)節(jié)省了成本、提高了經(jīng)濟效益…………8何為云計算?(理解1)
云計算,其實就是把所有的計算應用和信息資源都用互聯(lián)網(wǎng)連接起來,供個人和企業(yè)用戶隨時訪問、分享、管理和使用,相關的資源可以通過全球任何一個服務器和數(shù)據(jù)中心來提取的技術。9何為云計算?(理解2)
是通過網(wǎng)絡將龐大的計算處理程序自動分拆成無數(shù)個較小的子程序,再由多部服務器所組成的龐大系統(tǒng)搜索、計算分析之后將處理結果回傳給用戶。通過這項技術,遠程的服務供應商可以在數(shù)秒之內,達成處理數(shù)以千萬計甚至億計的信息,達到和“超級電腦”同樣強大性能的網(wǎng)絡服務。10網(wǎng)絡計算發(fā)展展趨勢2012云格(Gloud=Grid+Cloud)1995集群計算原理:指令層次的并行1998網(wǎng)格計算原理:任務并行1999對等計算原理:數(shù)據(jù)并行2007云計算原理:位層次的并行(可處理長字節(jié))網(wǎng)格技術:主主要解決分布布在不同機構構的各種信息息資源的共享享問題云計算:主要要解決計算力力和存儲空間間的集中共享享使用問題。。11為什么云計算算如此流行特別是NoSQL---非關系型數(shù)據(jù)據(jù)庫12那么云計算數(shù)數(shù)據(jù)庫是怎樣樣提出的呢??數(shù)據(jù)量1、關系數(shù)據(jù)庫庫高并發(fā)讀寫速速度慢2、關系數(shù)據(jù)庫庫支撐容量有限限------類似Facebook、Twitter這樣的SNS網(wǎng)站,用戶每天產(chǎn)生生海量的用戶戶動態(tài),每月月會產(chǎn)生幾億條條用戶動態(tài),,對于關系型型數(shù)據(jù)庫庫來說說,在在一張數(shù)數(shù)億條條記錄錄的表表里面進進行SQL查詢,,效率率是極極其低低下乃至不不可忍忍受的的。3、關系系數(shù)據(jù)據(jù)庫擴展性性差4、數(shù)據(jù)日日趨龐龐大,無論論是入入庫和和查詢詢,都出現(xiàn)現(xiàn)性能能瓶頸頸5、用戶戶的應應用和和分析析結果果呈整整合趨趨勢,,對實時性性和響響應時時間要要求越越來越越高Nosql13關系數(shù)數(shù)據(jù)庫庫與Hadoop分布式式系統(tǒng)統(tǒng)的比較—————為何云云計算算數(shù)據(jù)據(jù)采用用Hadoop分布式式系統(tǒng)統(tǒng)14云計算算的核心技技術15云計算算提出出——hadoop思想用很多多小型型PC機來代代替大大型服服務器器16云計算算核心心技術術——hadoop子項目目家族族數(shù)據(jù)倉倉庫工工具,,可以以看成成是從從SQL到Map-Reduce的映射射器ZooKeeper用于協(xié)協(xié)調分分布Avro數(shù)據(jù)序序列化化工具具,用于支支持大大批量量數(shù)據(jù)據(jù)交換換的應應用。。支持持二進進制序序列化化方式式,可可以便便捷,,快速速地處處理大大量數(shù)數(shù)據(jù)Chukwa在Hadoop之上的的數(shù)據(jù)據(jù)采集集與分分析框框架、、主主要進進行日日志采采集和和分析析Pig可以看17云計算算核心心技術術——英特爾爾hadoop發(fā)行版版組件件SQL-to-HDFS工具,利用用jdbc連接關關系形形數(shù)據(jù)據(jù)庫如連接接Oracle要安裝裝:ojdbc6.jar如連接接My-Sql要安裝裝:mysql-connector18云計算算核心心技術術——hadoop的發(fā)展展歷史史2004年,Google發(fā)表論論文,,向全世界界介紹紹了MapReduce。2005年初,,為了了支持持Nutch搜索引引擎項項目,,Nutch
2006年1月,DougCutting加入雅虎,Yahoo!提供一個專門的團隊和資源將Hadoop發(fā)展成一個可在網(wǎng)絡上運行的系統(tǒng)。2007年,百度開始使用Hadoop做離線處理,目前差不多80%的Hadoop集群用作日志處理。2007年,中國移動開始在“大云”研究中使用Hadoop技術,規(guī)模超過1000臺。2008年,淘寶開始投入研究基于Hadoop的系統(tǒng)——云梯,并將其用于處理電子商務相關數(shù)據(jù)。云梯1的總容量大概為9.3PB,包含了1100臺機器,每天處理約18000道作業(yè),掃描500TB數(shù)據(jù)。
19云計算算核心心技術術——hadoop的發(fā)展展歷史史2008年7月,Hadoop打破1TB數(shù)據(jù)排序序基準測試試記錄。。Yahoo!的一個Hadoop集群用209秒完成1TB數(shù)據(jù)的排排序,比比上一年年的紀錄錄保持者者保持的的297秒快了將將近90秒。2009年5月,Yahoo的團隊使使用Hadoop對1TB的數(shù)據(jù)進進行排序序只花了62秒時間。2010年5月,IBM提供了基基于Hadoop的大數(shù)據(jù)據(jù)分析軟軟件——InfoSphereBigInsights,包括基基礎版和和企業(yè)版版。2011年8月,Cloudera公布了一項有有益于合合作伙伴伴生態(tài)系系統(tǒng)的計計劃——創(chuàng)建一個個生態(tài)系統(tǒng)統(tǒng),以便硬硬件供應應商、軟軟件供應應商以及及系統(tǒng)集集成商可可以一起起探索如如何使用用Hadoop更好的洞洞察數(shù)據(jù)據(jù)。2011年8月,Dell與Cloudera聯(lián)合推出出Hadoop解決方案案——ClouderaEnterprise。20Hadoop框架云計算核核心技術術1、管理文文件系統(tǒng)統(tǒng)的命名名空間記錄每個個文件數(shù)數(shù)據(jù)塊在在各個Datanode上的位置置和副本本信息2、協(xié)調客客戶端對對文件的的訪問3、記錄命命名空間間內的改改動或空空間本身身屬性的的改動4、Namenode使用事務務日志記記錄HDFS元數(shù)據(jù)的的變化。。使用映映像文件件存儲文文件系統(tǒng)統(tǒng)的命名名空間,,包括文文件映射射,文件件屬性等等1、負責所所在物理理節(jié)點的的存儲管管理2、一次寫寫入,多多次讀取取3、文件由由數(shù)據(jù)塊塊組成,,典型的的塊大小小是64MB4、數(shù)據(jù)塊塊盡量散散布道各各個節(jié)點點21——分布式文文件系統(tǒng)統(tǒng)(HDFS)/MapReduce原理云計算核核心技術術MAPReduce22云計算核核心技術術——MapReduce編程模型型23Example:CountingWordsMap()?Input<filename,filetext>Parsesfileandemits<word,count>pairseg.<”hello”,1>Reduce()?Sumsvaluesforthesamekeyandemits<word,TotalCount>eg.<”hello”,(3527)>=><””hello””,17>24云計算核核心技術術——Hbase數(shù)據(jù)庫的的基本概概念1、HBase是一個分布式的、面向列的的開源數(shù)數(shù)據(jù)庫,來自Google論文“Bigtable:一個結構化數(shù)數(shù)據(jù)的分分布式存存儲系統(tǒng)統(tǒng)”2、HBase不同于一一般的關關系數(shù)據(jù)據(jù)庫,它是一個個適合于于非結構化化數(shù)據(jù)存存儲的數(shù)數(shù)據(jù)庫.另一個不不同的是是HBase基于列的而不是是基于行行的模式式25——Hbase邏輯模型云計算核核心技術術1、以表的的形式存存放數(shù)據(jù)據(jù)2、表由行行與列組組成,每每個列屬屬于某個個列族,,由行和和列確定定的存儲儲單元稱稱為元素素3、每個元元素保存存了同一一份數(shù)據(jù)據(jù)的多個個版本,,由時間戳來標識區(qū)區(qū)分限定符,,列名Key值天生面向向時間查查詢的數(shù)數(shù)據(jù)庫26——Hbase物理模型型云計算核核心技術術Hmaster管理元數(shù)數(shù)據(jù)(表表分區(qū)、、管理該該分區(qū)的的RegionServer)RegionSer通過過client讀寫寫數(shù)數(shù)據(jù)據(jù)Hbase的所所有有數(shù)數(shù)據(jù)據(jù)((Hlog和Hfile)均均存存儲儲到到HDFS上災難難分分析析一個個列列簇簇27云計計算算核核心心技技術術———行式式數(shù)數(shù)據(jù)據(jù)庫庫與與列列式式數(shù)數(shù)據(jù)據(jù)庫庫理理解解281、對對應應每每次次數(shù)據(jù)據(jù)操操作作的的時時間間,可可由由系統(tǒng)統(tǒng)自自動動生生成成,也也可可以以由由用用戶戶顯式式的的賦賦值值2、Hbase支持持兩兩種種數(shù)數(shù)據(jù)據(jù)版版本本回回收收方方式式::A、每個個數(shù)數(shù)據(jù)據(jù)單單元元,,只只存存儲儲指指定定個個數(shù)數(shù)的的最新新版版本本B、保存存指定定時時間間長長度度的版版本本((例例如如7天))3、常常見見的的客客戶戶端端時時間間查查詢詢::““某個個時時刻刻起起的的最最新新數(shù)數(shù)據(jù)據(jù)”或或““給我我全全部部版版本本的的數(shù)數(shù)據(jù)據(jù)”。。云計計算算核核心心技技術術———Hba29云計計算算核核心心技技術術———Hba1、Hbase適合合大量量插插入入同時時又又有讀讀取取的情情況況2、Hbase的瓶頸頸是硬盤盤傳傳輸輸速速度度3、Oracle的瓶頸頸是硬盤盤尋尋道道時時間間4、Hbase很適合合尋尋找找按按照照時時間間排排序序topn的場場景景30云計計算算核核心心技技術術———Hbase場景景案案列列::瀏瀏覽覽歷歷史史31云計計算算的的核心心技技術術在現(xiàn)現(xiàn)實實應應用用注意意::下下面面實實例例大大部部分分摘摘錄錄于于2012年hadoop與大大數(shù)數(shù)據(jù)據(jù)技技術術大大會會該會會議議舉舉行行時間間::2012年11月30日-12月1日在在北北京京該會會議議權權威威級級別別::32------應用用之之一一HadoopinTelecom云計計算算核核心心技技術術載波波的的優(yōu)優(yōu)化化用戶戶的的分分割割瞬間間查查詢詢3G用戶戶數(shù)數(shù)量量的的記記錄錄33云計計算算核核心心技技術術------應用用之之二二HadoopinSmartCity罰單單信息息流流處處理理34云計計算算核核心心技技術術------應用用之之三三阿里里云云““云云梯梯””集集群群發(fā)發(fā)展展淘寶寶的的搜搜索索引引擎擎能能夠夠對對數(shù)十十億億的商商品品數(shù)數(shù)據(jù)據(jù)進進行行實時時搜搜索索,另另外外還還擁擁有有自自主主研研發(fā)發(fā)的的文件件存存儲儲系系統(tǒng)統(tǒng)和緩緩存存系系統(tǒng)統(tǒng),以以及及Java中間間件件和和消消息息中中間間件件系系統(tǒng)統(tǒng),,這這一一切切組組成成了了一個個龐龐大大的的電電子子商商務務操操作作系系統(tǒng)統(tǒng)。35云計計算算核核心心技技術術------應用用之之三三阿里里云云““云云梯梯””數(shù)數(shù)據(jù)據(jù)平平臺臺框框架架36云計計算算核核心心技技術術------應用用之之三三百度度數(shù)數(shù)據(jù)據(jù)倉倉庫庫框框架架DW37云計計算算核核心心技技術術HADOOP------數(shù)據(jù)據(jù)存存入入和和抽抽取取每小小時時移移動動數(shù)數(shù)十十TB的交易易數(shù)數(shù)據(jù)、、交交互互數(shù)數(shù)據(jù)據(jù)和和流流數(shù)數(shù)據(jù)據(jù)38全球球領領先先的的獨獨立立企企業(yè)業(yè)數(shù)數(shù)據(jù)據(jù)集集成成軟軟件件提提供供商商云計計算算核核心心技技術術----應用用五五大數(shù)數(shù)據(jù)據(jù)是是云云計計算算的的兩兩大大核核心心內內容容之之一一39云計計算算核核心心技技術術全世界權威IT咨詢公司研究究報告預測KB,MB,GB、TB,PB、EB、ZB、YB、BB1ZB=1.153*1018KB40一、大數(shù)據(jù)存儲管理和索引查詢問題二、Hadoop性能優(yōu)化問題三、圖數(shù)據(jù)并并行計算模型型和框架四、并行化機器學習和數(shù)據(jù)挖掘算法五、社會網(wǎng)絡分析六、排名和推推薦七、Web信息挖掘和檢索八、媒體分析析檢索九、自然語言處理理十、大數(shù)據(jù)可視化計算與分析云計算核心技技術當今數(shù)據(jù)熱點研究的十個問題::----數(shù)據(jù)分析發(fā)展展趨勢系統(tǒng)層基礎算法應用算法應用技術41Hadoop----發(fā)展形勢hadoop42BerkeleyBDAS平臺43NoSQL數(shù)據(jù)庫基礎理論CAP理論與一致性性模型數(shù)據(jù)存儲模型型與數(shù)據(jù)庫Key-valueDBColumn-orientedDBDocument-orientedDBGraphDB…44CAP理論強一致性(Consistency)系統(tǒng)在執(zhí)行某某操作后仍處處于一致的狀狀態(tài)??捎眯裕ˋvailability)每一個操作能夠在在一定時間內內返回結果,,如果超時則則被認為不可可用。分區(qū)容錯性((Partitiontolerance)在網(wǎng)絡分區(qū)((被劃分成孤孤立的區(qū)域))的情況下仍仍可接受請求求。45/101多副本數(shù)據(jù)一一致性模型強一致性無論更新在哪哪個副本上進進行,之后的的所有操作都都能獲得更新新的數(shù)據(jù)。弱一致性用戶讀到某一一操作對系統(tǒng)統(tǒng)的更新需要要一段時間最終一致性保證用戶最終終能夠讀到某一操作作對系統(tǒng)的更更新46/10147應用場景:內容緩存,,主要用于處處理大量數(shù)據(jù)據(jù)的高訪問負負載,也用于于一些日志系系統(tǒng)。優(yōu)點:查找迅迅速缺點:數(shù)據(jù)無無結構,通常常只被當做字字符串或二進進制數(shù)據(jù)48Java實現(xiàn)的開源key-value數(shù)據(jù)庫特征數(shù)據(jù)自動冗余余備份于多個個結點上數(shù)據(jù)分區(qū)存儲儲單點故障對整整個系統(tǒng)透明明支持復雜數(shù)據(jù)據(jù)類型的序列列化將數(shù)據(jù)項進行行版本化,出出現(xiàn)故障時最最大限度保證證數(shù)據(jù)的完整整性49開源項目,源源代碼采用了了Apache2.0的使用許可特征自動將在線數(shù)數(shù)據(jù)遷移到低低延遲的存儲儲介質的技術術(內存,固固態(tài)硬盤,磁磁盤)可選的寫操作作一一異步,,同步(基于于復制,持久久化)多線程低鎖爭爭用盡可能使用異異步處理自動實現(xiàn)重復復數(shù)據(jù)刪除動態(tài)再平衡現(xiàn)現(xiàn)有集群通過把數(shù)據(jù)復復制到多個集集群單元和支支持快速失敗敗轉移來提供供系統(tǒng)的高可可用性。5051應用場景:分布式文件件系統(tǒng)優(yōu)點:查找迅迅速,可擴展展性強,更容容易進行分布布式擴展缺點:功能相相對有限525354最初由Facebook開發(fā),用于儲儲存收件箱等等簡單格式數(shù)數(shù)據(jù),集GoogleBigTable的數(shù)據(jù)模型與與AmazonDynamo的完全分布式式的架構于一身Facebook于2008將Cassandra開源,此后,,由于Cassandra良好的可擴放放性,被Digg、Twitter等知名Web2.0網(wǎng)站所采納,,成為了一種種流行的分布布式結構化數(shù)數(shù)據(jù)存儲方案案。主要特征:模式靈活:使用Cassandra,像文檔存儲儲,你不必提提前解決記錄錄中的字段。。真正的可擴展展性:Cassandra是純粹意義上上的水平擴展展。為給集群群添加更多容容量,可以指指向另一臺電電腦。你不必必重啟任何進進程,改變應應用查詢,或或手動遷移任任何數(shù)據(jù)。分布式寫操作作:有可以在任何何地方任何時時間集中讀或或寫任何數(shù)據(jù)據(jù)。并且不會會有任何單點點失敗。列表數(shù)據(jù)結構構:在混合模式可可以將超級列列添加到5維。對于每個個用戶的索引引,這是非常常方便的。55應用場景:web應用等優(yōu)點:數(shù)據(jù)要要求不嚴格,,不需要預先先定義結構缺點:查詢能能力不高,缺缺乏統(tǒng)一的查查詢語法56可以通過JavaScriptObjectNotation(JSON)API訪問“Couch”=“ClusterOfUnreliableCommodityHardware””,目標具有高高度可伸縮性性,提供了高高可用性和高高可靠性,即即使運行在容容易出現(xiàn)故障障的硬件上也也是如此特點CouchDB是分布式的數(shù)數(shù)據(jù)庫,他可可以把存儲系系統(tǒng)分布到n臺物理的節(jié)點點上面,并且且很好的協(xié)調調和同步節(jié)點點之間的數(shù)據(jù)據(jù)讀寫一致性CouchDB是面向文檔的的數(shù)據(jù)庫,存存儲半結構化化的數(shù)據(jù)CouchDB支持RESTAPI,可以讓用戶戶使用JavaScript來操作CouchDB數(shù)據(jù)庫,也可可以用JavaScript編寫查詢語句句,用AJAX技術結合CouchDB開發(fā)出來的CMS系統(tǒng)會簡單方便57工作原理CouchDB構建在強大的的B+樹儲存引擎之上上。這種引擎擎負責對CouchDB中的數(shù)據(jù)進行行排序,并提提供一種能夠夠在對數(shù)均攤攤時間內執(zhí)行行搜索、插入入和刪除操作作的機制。數(shù)據(jù)庫的結構構獨立于模式式,依賴于使用視視圖創(chuàng)建文檔檔之間的任意意關系,使用Map/Reduce計算這些視圖圖的結果在CouchDB中沒有鎖機制制,它使用的的是多版本并并發(fā)性控制((Multiversionconcurrencycontrol,MVCC)58特點介于關系數(shù)據(jù)庫和非關系數(shù)據(jù)據(jù)庫之間的產(chǎn)產(chǎn)品,是非關關系數(shù)據(jù)庫當當中功能最豐豐富,最像關關系數(shù)據(jù)庫的的支持的數(shù)據(jù)結結構非常松散散,是類似json的bson格式,因此可可以存儲比較較復雜的數(shù)據(jù)據(jù)類型支持的查詢語語言非常強大大,其語法有有點類似于面面向對象的查查詢語言,幾幾乎可以實現(xiàn)現(xiàn)類似關系數(shù)數(shù)據(jù)庫單表查查詢的絕大部部分功能,而而且還支持對對數(shù)據(jù)建立索索引59技術特點面向集合存儲,易易存儲對象類類型的數(shù)據(jù)。。模式自由。支持動態(tài)查詢。支持完全索
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024環(huán)保材料研發(fā)生產(chǎn)銷售合同
- 2024碼頭環(huán)保建設項目環(huán)境影響評價合同3篇
- 二零二五年度個人租車合同車輛事故責任界定范本3篇
- 2025年度4K8K高清視頻制作服務合同3篇
- 2025年度消防設施檢測與維修保養(yǎng)合同模板3篇
- 2024水電工程環(huán)境保護與生態(tài)移民安置合同3篇
- 藥品活動方案合同范本
- 2025年氣體制劑機械項目提案報告模范
- 2025年奧硝唑藥物項目申請報告模板
- 2025年智能化配電與電控裝置項目申請報告模稿
- 2024廣東煙草專賣局校園招聘筆試管理單位遴選500模擬題附帶答案詳解
- 孕產(chǎn)婦高危五色管理(醫(yī)學講座培訓課件)
- 幼兒體適能培訓
- 2024房地產(chǎn)合同更名申請表
- 病例報告表(樣板)
- 2024年低壓電工資格考試必考題庫及答案(共415題)
- 定金協(xié)議書范文范本簡單一點
- 劉潤年度演講2024
- 《漢書》導讀學習通超星期末考試答案章節(jié)答案2024年
- 初三第一學期沖刺中考期末家長會
- 2022海康威視DS-VM11S-B系列服務器用戶手冊V1.1
評論
0/150
提交評論