版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)時(shí)代的數(shù)據(jù)庫(kù)11云計(jì)算概念提出2Hadoop的發(fā)展歷史3Hadoop的核心技術(shù)MapReduce4Hadoop核心技術(shù)數(shù)據(jù)庫(kù)Hbase5其它NoSQL數(shù)據(jù)庫(kù)23大數(shù)據(jù)特性4V特性Volume(數(shù)據(jù)量大)Variety(種類(lèi)多)Value(價(jià)值密度低,商業(yè)價(jià)值高Velocity(處理速度快)對(duì)傳統(tǒng)數(shù)據(jù)庫(kù)的挑戰(zhàn)4用一個(gè)實(shí)例來(lái)理解云計(jì)算512345開(kāi)發(fā)人員部署代碼,上傳數(shù)據(jù)庫(kù)結(jié)構(gòu)和數(shù)據(jù),并進(jìn)行必要的測(cè)試,之后運(yùn)維人員開(kāi)通網(wǎng)站運(yùn)行期間,企業(yè)需要雇傭?qū)iT(mén)人員負(fù)責(zé)服務(wù)器和網(wǎng)絡(luò)的維護(hù),定期備份數(shù)據(jù)等日常工作購(gòu)買(mǎi)數(shù)據(jù)庫(kù)服務(wù)器來(lái)部署后臺(tái)數(shù)據(jù)庫(kù)配置網(wǎng)站的域名等工作購(gòu)買(mǎi)應(yīng)用服務(wù)器來(lái)部署這個(gè)網(wǎng)站云計(jì)算所需解決的問(wèn)題
——假設(shè)某家企業(yè)開(kāi)發(fā)一個(gè)旅游網(wǎng)站數(shù)據(jù)量6云計(jì)算所需解決的問(wèn)題
——假設(shè)某家企業(yè)開(kāi)發(fā)一個(gè)旅游網(wǎng)站企業(yè)需要待解決的問(wèn)題1、購(gòu)買(mǎi)新的服務(wù)器2、增加更多的運(yùn)維成員3、購(gòu)買(mǎi)和安裝設(shè)備都是需要時(shí)間的,可能在此期間整個(gè)網(wǎng)站出現(xiàn)響應(yīng)減慢,經(jīng)常出錯(cuò)、導(dǎo)致大量的客戶流失4、淡季的時(shí)候,訪問(wèn)量低,剛購(gòu)買(mǎi)的服務(wù)器又成為資源的浪費(fèi)成本效益怎樣解決這個(gè)問(wèn)題呢?7云計(jì)算所需解決的問(wèn)題
——假設(shè)某家企業(yè)開(kāi)發(fā)一個(gè)旅游網(wǎng)站
引入云計(jì)算,它可以從根本上解決這個(gè)問(wèn)題,因?yàn)樵朴?jì)算是通過(guò)互聯(lián)網(wǎng)將共享的硬件軟件資源按需提供給使用者,所有的設(shè)備都是由云計(jì)算服務(wù)商維護(hù),這樣無(wú)論是專業(yè)的軟件開(kāi)發(fā)商,還是最終的客服,都可以將全部精力集中于業(yè)務(wù)領(lǐng)域,而無(wú)須考慮硬件維護(hù)、容災(zāi)等運(yùn)維問(wèn)題,無(wú)形之中也為企業(yè)節(jié)省了成本、提高了經(jīng)濟(jì)效益…………8何為云計(jì)算?(理解1)
云計(jì)算,其實(shí)就是把所有的計(jì)算應(yīng)用和信息資源都用互聯(lián)網(wǎng)連接起來(lái),供個(gè)人和企業(yè)用戶隨時(shí)訪問(wèn)、分享、管理和使用,相關(guān)的資源可以通過(guò)全球任何一個(gè)服務(wù)器和數(shù)據(jù)中心來(lái)提取的技術(shù)。9何為云計(jì)算?(理解2)
是通過(guò)網(wǎng)絡(luò)將龐大的計(jì)算處理程序自動(dòng)分拆成無(wú)數(shù)個(gè)較小的子程序,再由多部服務(wù)器所組成的龐大系統(tǒng)搜索、計(jì)算分析之后將處理結(jié)果回傳給用戶。通過(guò)這項(xiàng)技術(shù),遠(yuǎn)程的服務(wù)供應(yīng)商可以在數(shù)秒之內(nèi),達(dá)成處理數(shù)以千萬(wàn)計(jì)甚至億計(jì)的信息,達(dá)到和“超級(jí)電腦”同樣強(qiáng)大性能的網(wǎng)絡(luò)服務(wù)。10網(wǎng)絡(luò)計(jì)算發(fā)展展趨勢(shì)2012云格(Gloud=Grid+Cloud)1995集群計(jì)算原理:指令層次的并行1998網(wǎng)格計(jì)算原理:任務(wù)并行1999對(duì)等計(jì)算原理:數(shù)據(jù)并行2007云計(jì)算原理:位層次的并行(可處理長(zhǎng)字節(jié))網(wǎng)格技術(shù):主主要解決分布布在不同機(jī)構(gòu)構(gòu)的各種信息息資源的共享享問(wèn)題云計(jì)算:主要要解決計(jì)算力力和存儲(chǔ)空間間的集中共享享使用問(wèn)題。。11為什么云計(jì)算算如此流行特別是NoSQL---非關(guān)系型數(shù)據(jù)據(jù)庫(kù)12那么云計(jì)算數(shù)數(shù)據(jù)庫(kù)是怎樣樣提出的呢??數(shù)據(jù)量1、關(guān)系數(shù)據(jù)庫(kù)庫(kù)高并發(fā)讀寫(xiě)速速度慢2、關(guān)系數(shù)據(jù)庫(kù)庫(kù)支撐容量有限限------類(lèi)似Facebook、Twitter這樣的SNS網(wǎng)站,用戶每天產(chǎn)生生海量的用戶戶動(dòng)態(tài),每月月會(huì)產(chǎn)生幾億條條用戶動(dòng)態(tài),,對(duì)于關(guān)系型型數(shù)據(jù)庫(kù)來(lái)說(shuō),,在一張數(shù)億條記記錄的表里面進(jìn)行SQL查詢,效率是是極其低下乃至不可忍受受的。3、關(guān)系數(shù)據(jù)庫(kù)庫(kù)擴(kuò)展性差4、數(shù)據(jù)日趨龐大大,無(wú)論是入庫(kù)庫(kù)和查詢,都出現(xiàn)性能瓶瓶頸5、用戶的應(yīng)用用和分析結(jié)果果呈整合趨勢(shì)勢(shì),對(duì)實(shí)時(shí)性和響應(yīng)應(yīng)時(shí)間要求越越來(lái)越高Nosql13關(guān)系數(shù)據(jù)庫(kù)與Hadoop分布式系統(tǒng)的的比較————為何云計(jì)算數(shù)數(shù)據(jù)采用Hadoop分布式系統(tǒng)14云計(jì)算的核心技術(shù)15云計(jì)算提出——hadoop思想用很多小型PC機(jī)來(lái)代替大型型服務(wù)器16云計(jì)算核心技技術(shù)——hadoop子項(xiàng)目家族數(shù)據(jù)倉(cāng)庫(kù)工具具,可以看成成是從SQL到Map-Reduce的映射器ZooKeeper用于協(xié)調(diào)分布布式系統(tǒng)上的的各種服務(wù),,應(yīng)用場(chǎng)景、、實(shí)現(xiàn)Namenode自動(dòng)切換Avro數(shù)據(jù)序列化工工具,用于支持大批批量數(shù)據(jù)交換換的應(yīng)用。支支持二進(jìn)制序序列化方式,,可以便捷,,快速地處理理大量數(shù)據(jù)Chukwa在Hadoop之上的數(shù)據(jù)采采集與分析框框架、主要要進(jìn)行日志采采集和分析Pig可以看做hadoop的客戶端軟件件,可以連接接到hadoop集群進(jìn)行數(shù)據(jù)據(jù)分析工作17云計(jì)算核心技技術(shù)——英特爾hadoop發(fā)行版組件SQL-to-HDFS工具,利用jdbc連接關(guān)系形數(shù)數(shù)據(jù)庫(kù)如連接Oracle要安裝:ojdbc6.jar如連接My-Sql要安裝:mysql-connector18云計(jì)算核心技技術(shù)——hadoop的發(fā)展歷史2004年,Google發(fā)表論文,向向全世界介紹了了MapReduce。2005年初,為了支支持Nutch搜索引擎項(xiàng)目目,Nutch的開(kāi)發(fā)者基于于Google發(fā)布的MapReduce報(bào)告,在Nutch上開(kāi)發(fā)了一個(gè)個(gè)可工作的MapReduce應(yīng)用。2006年1月,DougCutting加入雅虎,Yahoo!提供一個(gè)專門(mén)門(mén)的團(tuán)隊(duì)和資資源將Hadoop發(fā)展成一個(gè)可可在網(wǎng)絡(luò)上運(yùn)運(yùn)行的系統(tǒng)。2007年,百度開(kāi)始使用用Hadoop做離線處理,,目前差不多多80%的Hadoop集群用作日志志處理。2007年,中國(guó)移動(dòng)開(kāi)始始在“大云”研究中使用Hadoop技術(shù),規(guī)模超過(guò)1000臺(tái)。2008年,淘寶開(kāi)始投入入研究基于Hadoop的系統(tǒng)——云梯,并將其其用于處理電子商務(wù)相關(guān)數(shù)據(jù)。云云梯1的總?cè)萘看蟾鸥艦?.3PB,包含了1100臺(tái)機(jī)器,每天天處理約18000道作業(yè),掃描描500TB數(shù)據(jù)。19云計(jì)算核心技技術(shù)——hadoop的發(fā)展歷史2008年7月,Hadoop打破1TB數(shù)據(jù)排序基準(zhǔn)測(cè)試記錄錄。Yahoo!的一個(gè)Hadoop集群用209秒完成1TB數(shù)據(jù)的排序,,比上一年的的紀(jì)錄保持者者保持的297秒快了將近90秒。2009年5月,Yahoo的團(tuán)隊(duì)使用Hadoop對(duì)1TB的數(shù)據(jù)進(jìn)行排排序只花了62秒時(shí)間。2010年5月,IBM提供了基于Hadoop的大數(shù)據(jù)分析析軟件——InfoSphereBigInsights,包括基礎(chǔ)版版和企業(yè)版。。2011年8月,Cloudera公布了一項(xiàng)有益于于合作伙伴生生態(tài)系統(tǒng)的計(jì)計(jì)劃——?jiǎng)?chuàng)建一個(gè)生態(tài)態(tài)系系統(tǒng)統(tǒng),以以便便硬硬件件供供應(yīng)應(yīng)商商、、軟軟件件供供應(yīng)應(yīng)商商以以及及系系統(tǒng)統(tǒng)集集成成商商可可以以一一起起探探索索如如何何使使用用Hadoop更好好的的洞洞察察數(shù)數(shù)據(jù)據(jù)。。2011年8月,,Dell與Cloudera聯(lián)合合推推出出Hadoop解決決方方案案———ClouderaEnterprise。20Hadoop框架架云計(jì)計(jì)算算核核心心技技術(shù)術(shù)1、管管理理文文件件系系統(tǒng)統(tǒng)的的命命名名空空間間記錄錄每每個(gè)個(gè)文文件件數(shù)數(shù)據(jù)據(jù)塊塊在在各各個(gè)個(gè)Datanode上的的位位置置和和副副本本信信息息2、協(xié)協(xié)調(diào)調(diào)客客戶戶端端對(duì)對(duì)文文件件的的訪訪問(wèn)問(wèn)3、記記錄錄命命名名空空間間內(nèi)內(nèi)的的改改動(dòng)動(dòng)或或空空間間本本身身屬屬性性的的改改動(dòng)動(dòng)4、Namenode使用用事事務(wù)務(wù)日日志志記記錄錄HDFS元數(shù)數(shù)據(jù)據(jù)的的變變化化。。使使用用映映像像文文件件存存儲(chǔ)儲(chǔ)文文件件系系統(tǒng)統(tǒng)的的命命名名空空間間,,包包括括文文件件映映射射,,文文件件屬屬性性等等1、負(fù)負(fù)責(zé)責(zé)所所在在物物理理節(jié)節(jié)點(diǎn)點(diǎn)的的存存儲(chǔ)儲(chǔ)管管理理2、一一次次寫(xiě)寫(xiě)入入,,多多次次讀讀取取3、文文件件由由數(shù)數(shù)據(jù)據(jù)塊塊組組成成,,典典型型的的塊塊大大小小是是64MB4、數(shù)數(shù)據(jù)據(jù)塊塊盡盡量量散散布布道道各各個(gè)個(gè)節(jié)節(jié)點(diǎn)點(diǎn)21———分布布式式文文件件系系統(tǒng)統(tǒng)(HDFS)/MapReduce原理理云計(jì)計(jì)算算核核心心技技術(shù)術(shù)MAPReduce22云計(jì)計(jì)算算核核心心技技術(shù)術(shù)———MapReduce編程程模模型型23Example:CountingWordsMap()?Input<filename,filetext>Parsesfileandemits<word,count>pairseg.<””hello””,1>Reduce()?Sumsvaluesforthesamekeyandemits<word,TotalCount>eg.<””hello””,(3527)>=><””hello””,17>24云計(jì)計(jì)算算核核心心技技術(shù)術(shù)———Hbase數(shù)據(jù)據(jù)庫(kù)庫(kù)的的基基本本概概念念1、HBase是一一個(gè)個(gè)分布布式式的、、面向向列列的的開(kāi)開(kāi)源源數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù),來(lái)來(lái)自自Google論文文““Bigtable:一一個(gè)個(gè)結(jié)構(gòu)構(gòu)化化數(shù)數(shù)據(jù)據(jù)的的分分布布式式存存儲(chǔ)儲(chǔ)系系統(tǒng)統(tǒng)”2、HBase不同同于于一一般般的的關(guān)關(guān)系系數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù),它是是一一個(gè)個(gè)適適合合于于非結(jié)結(jié)構(gòu)構(gòu)化化數(shù)數(shù)據(jù)據(jù)存存儲(chǔ)儲(chǔ)的的數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù).另一一個(gè)個(gè)不不同同的的是是HBase基于于列列的而而不不是是基基于于行行的的模模式式25———Hbase邏輯輯模型型云計(jì)計(jì)算算核核心心技技術(shù)術(shù)1、以以表表的的形形式式存存放放數(shù)數(shù)據(jù)據(jù)2、表表由由行行與與列列組組成成,,每每個(gè)個(gè)列列屬屬于于某某個(gè)個(gè)列列族族,,由由行行和和列列確確定定的的存存儲(chǔ)儲(chǔ)單單元元稱稱為為元元素素3、每每個(gè)個(gè)元元素素保保存存了了同同一一份份數(shù)數(shù)據(jù)據(jù)的的多多個(gè)個(gè)版版本本,,由由時(shí)間間戳戳來(lái)標(biāo)標(biāo)識(shí)識(shí)區(qū)區(qū)分分限定定符符,,列列名名Key值天生生面面向向時(shí)時(shí)間間查查詢?cè)兊牡臄?shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)26———Hbase物理理模模型型云計(jì)計(jì)算算核核心心技技術(shù)術(shù)Hmaster管理理元元數(shù)數(shù)據(jù)據(jù)((表表分分區(qū)區(qū)、、管管理理該該分分區(qū)區(qū)的的RegionServer)RegionServer負(fù)責(zé)責(zé)Region數(shù)據(jù)據(jù)的的存存儲(chǔ)儲(chǔ)和和讀讀取取通過(guò)過(guò)client讀寫(xiě)寫(xiě)數(shù)數(shù)據(jù)據(jù)Hbase的所所有有數(shù)數(shù)據(jù)據(jù)((Hlog和Hfile)均均存存儲(chǔ)儲(chǔ)到到HDFS上,,HDFS將文文件件劃劃分分為為64MB的block,并并存存儲(chǔ)儲(chǔ)多多個(gè)個(gè)副副本本災(zāi)難難分分析析一個(gè)個(gè)列列簇簇27云計(jì)計(jì)算算核核心心技技術(shù)術(shù)———行式式數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)與與列列式式數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)理理解解281、對(duì)對(duì)應(yīng)應(yīng)每每次次數(shù)據(jù)據(jù)操操作作的的時(shí)時(shí)間間,可可由由系統(tǒng)統(tǒng)自自動(dòng)動(dòng)生生成成,也也可可以以由由用用戶戶顯式式的的賦賦值值2、Hbase支持持兩兩種種數(shù)數(shù)據(jù)據(jù)版版本本回回收收方方式式::A、每個(gè)個(gè)數(shù)數(shù)據(jù)據(jù)單單元元,,只只存存儲(chǔ)儲(chǔ)指指定定個(gè)個(gè)數(shù)數(shù)的的最新新版版本本B、保存存指定定時(shí)時(shí)間間長(zhǎng)長(zhǎng)度度的版版本本((例例如如7天))3、常常見(jiàn)見(jiàn)的的客客戶戶端端時(shí)時(shí)間間查查詢?cè)儯海骸啊澳硞€(gè)個(gè)時(shí)時(shí)刻刻起起的的最最新新數(shù)數(shù)據(jù)據(jù)”或或““給我我全全部部版版本本的的數(shù)數(shù)據(jù)據(jù)”。。云計(jì)計(jì)算算核核心心技技術(shù)術(shù)———Hbase特點(diǎn)點(diǎn)與與BigTable思想想29云計(jì)計(jì)算算核核心心技技術(shù)術(shù)———Hbase和Oracle比較較1、Hbase適合大量插插入同時(shí)又又有讀取取的情況況2、Hbase的瓶頸是硬盤(pán)傳傳輸速速度3、Oracle的瓶頸是硬盤(pán)尋尋道時(shí)時(shí)間4、Hbase很適合尋尋找按按照時(shí)時(shí)間排排序topn的場(chǎng)景景30云計(jì)算算核心心技術(shù)術(shù)——Hbase場(chǎng)景案案列::瀏覽覽歷史史31云計(jì)算算的核心技技術(shù)在現(xiàn)實(shí)實(shí)應(yīng)用用注意::下面面實(shí)例例大部部分摘摘錄于于2012年hadoop與大數(shù)數(shù)據(jù)技技術(shù)大大會(huì)該會(huì)議議舉行行時(shí)間::2012年11月30日-12月1日在北北京該會(huì)議議權(quán)威威級(jí)別別:32------應(yīng)用之之一HadoopinTelecom云計(jì)算算核心心技術(shù)術(shù)載波的的優(yōu)化化用戶的的分割割瞬間查查詢3G用戶數(shù)數(shù)量的的記錄錄33云計(jì)算算核心心技術(shù)術(shù)------應(yīng)用之之二HadoopinSmartCity罰單信息流流處理理34云計(jì)算算核心心技術(shù)術(shù)------應(yīng)用之之三阿里云云“云云梯””集群群發(fā)展展淘寶的的搜索索引擎擎能夠夠?qū)?shù)十億億的商品品數(shù)據(jù)據(jù)進(jìn)行行實(shí)時(shí)搜搜索,另外外還擁?yè)碛凶宰灾餮醒邪l(fā)的的文件存存儲(chǔ)系系統(tǒng)和緩存存系統(tǒng)統(tǒng),以及及Java中間件件和消消息中中間件件系統(tǒng)統(tǒng),這這一切切組成成了一個(gè)龐龐大的的電子子商務(wù)務(wù)操作作系統(tǒng)統(tǒng)。35云計(jì)算算核心心技術(shù)術(shù)------應(yīng)用之之三阿里云云“云云梯””數(shù)據(jù)據(jù)平臺(tái)臺(tái)框架架36云計(jì)算算核心心技術(shù)術(shù)------應(yīng)用之之三百度數(shù)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)框框架DW37云計(jì)算算核心心技術(shù)術(shù)HADOOP------數(shù)據(jù)存存入和和抽取取每小時(shí)時(shí)移動(dòng)動(dòng)數(shù)十十TB的交易數(shù)數(shù)據(jù)、交交互數(shù)數(shù)據(jù)和和流數(shù)數(shù)據(jù)38全球領(lǐng)領(lǐng)先的的獨(dú)立立企業(yè)業(yè)數(shù)據(jù)據(jù)集成成軟件件提供供商云計(jì)算算核心心技術(shù)術(shù)----應(yīng)用五五大數(shù)據(jù)據(jù)是云云計(jì)算算的兩兩大核核心內(nèi)內(nèi)容之之一39云計(jì)算算核心心技術(shù)術(shù)----應(yīng)用五五大數(shù)據(jù)據(jù)是云云計(jì)算算的兩兩大核核心內(nèi)內(nèi)容之之一全世界界權(quán)威威IT咨詢公公司研研究報(bào)報(bào)告預(yù)預(yù)測(cè)KB,MB,GB、TB,PB、EB、ZB、YB、BB1ZB=1.153*1018KB40一、大大數(shù)據(jù)據(jù)存儲(chǔ)管管理和索引查查詢問(wèn)題二、Hadoop性能優(yōu)優(yōu)化問(wèn)題三、圖圖數(shù)據(jù)據(jù)并行行計(jì)算算模型型和框框架四、并并行化化機(jī)器學(xué)學(xué)習(xí)和數(shù)據(jù)挖挖掘算法五、社會(huì)網(wǎng)網(wǎng)絡(luò)分析六、排排名和和推薦薦七、Web信息挖掘和和檢索索八、媒媒體分分析檢檢索九、自然語(yǔ)語(yǔ)言處處理十、大大數(shù)據(jù)據(jù)可視化化計(jì)算與與分析析云計(jì)算算核心心技術(shù)術(shù)當(dāng)今數(shù)數(shù)據(jù)熱點(diǎn)研研究的十個(gè)個(gè)問(wèn)題題:----數(shù)據(jù)分分析發(fā)發(fā)展趨趨勢(shì)系統(tǒng)層層基礎(chǔ)算算法應(yīng)用算算法應(yīng)用技技術(shù)41Hadoop----發(fā)展形形勢(shì)hadoop42BerkeleyBDAS平臺(tái)43NoSQL數(shù)據(jù)庫(kù)庫(kù)基礎(chǔ)理理論CAP理論與與一致致性模模型數(shù)據(jù)存存儲(chǔ)模模型與與數(shù)據(jù)據(jù)庫(kù)Key-valueDBColumn-orientedDBDocument-orientedDBGraphDB…44CAP理論強(qiáng)一致致性((Consistency)系統(tǒng)在在執(zhí)行行某操操作后后仍處處于一一致的的狀態(tài)態(tài)。可用性性(Availability)每一個(gè)操作作能夠夠在一一定時(shí)時(shí)間內(nèi)內(nèi)返回回結(jié)果果,如如果超超時(shí)則則被認(rèn)認(rèn)為不不可用用。分區(qū)容容錯(cuò)性性(Partitiontolerance)在網(wǎng)絡(luò)絡(luò)分區(qū)區(qū)(被被劃分分成孤孤立的的區(qū)域域)的的情況況下仍仍可接接受請(qǐng)請(qǐng)求。。45/101多副本本數(shù)據(jù)據(jù)一致致性模模型強(qiáng)一致致性無(wú)論更更新在在哪個(gè)個(gè)副本本上進(jìn)進(jìn)行,,之后后的所所有操操作都都能獲獲得更更新的的數(shù)據(jù)據(jù)。弱一致致性用戶讀讀到某某一操操作對(duì)對(duì)系統(tǒng)統(tǒng)的更更新需需要一一段時(shí)時(shí)間最終一一致性性保證用用戶最最終能能夠讀到某某一操操作對(duì)對(duì)系統(tǒng)統(tǒng)的更更新46/10147應(yīng)用場(chǎng)場(chǎng)景:內(nèi)容容緩存存,主主要用用于處處理大大量數(shù)數(shù)據(jù)的的高訪訪問(wèn)負(fù)負(fù)載,,也用用于一一些日日志系系統(tǒng)。。優(yōu)點(diǎn)::查找找迅速速缺點(diǎn)::數(shù)據(jù)據(jù)無(wú)結(jié)結(jié)構(gòu),,通常常只被被當(dāng)做做字符符串或或二進(jìn)進(jìn)制數(shù)數(shù)據(jù)48Java實(shí)現(xiàn)的的開(kāi)源源key-value數(shù)據(jù)庫(kù)庫(kù)特征數(shù)據(jù)自自動(dòng)冗冗余備備份于于多個(gè)個(gè)結(jié)點(diǎn)點(diǎn)上數(shù)據(jù)分分區(qū)存存儲(chǔ)單點(diǎn)故故障對(duì)對(duì)整個(gè)個(gè)系統(tǒng)統(tǒng)透明明支持復(fù)復(fù)雜數(shù)數(shù)據(jù)類(lèi)類(lèi)型的的序列列化將數(shù)據(jù)據(jù)項(xiàng)進(jìn)進(jìn)行版版本化化,出出現(xiàn)故故障時(shí)時(shí)最大大限度度保證證數(shù)據(jù)據(jù)的完完整性性49開(kāi)源項(xiàng)項(xiàng)目,,源代代碼采采用了了Apache2.0的使用用許可可特征自動(dòng)將將在線線數(shù)據(jù)據(jù)遷移移到低低延遲遲的存存儲(chǔ)介介質(zhì)的的技術(shù)術(shù)(內(nèi)內(nèi)存,,固態(tài)態(tài)硬盤(pán)盤(pán),磁磁盤(pán)))可選的的寫(xiě)操操作一一一異異步,,同步步(基基于復(fù)復(fù)制,,持久久化)多線程低低鎖爭(zhēng)用用盡可能使使用異步步處理自動(dòng)實(shí)現(xiàn)現(xiàn)重復(fù)數(shù)數(shù)據(jù)刪除除動(dòng)態(tài)再平平衡現(xiàn)有有集群通過(guò)把數(shù)數(shù)據(jù)復(fù)制制到多個(gè)個(gè)集群?jiǎn)螁卧椭еС挚焖偎偈∞D(zhuǎn)轉(zhuǎn)移來(lái)提提供系統(tǒng)統(tǒng)的高可可用性。。5051應(yīng)用場(chǎng)景景:分布式式文件系系統(tǒng)優(yōu)點(diǎn):查查找迅速速,可擴(kuò)擴(kuò)展性強(qiáng)強(qiáng),更容容易進(jìn)行行分布式式擴(kuò)展缺點(diǎn):功功能相對(duì)對(duì)有限525354最初由Facebook開(kāi)發(fā),用用于儲(chǔ)存存收件箱箱等簡(jiǎn)單單格式數(shù)數(shù)據(jù),集集GoogleBigTable的數(shù)據(jù)模模型與AmazonDynamo的完全分分布式的的架構(gòu)于于一身Facebook于2008將Cassandra開(kāi)源,此此后,由由于Cassandra良好的可可擴(kuò)放性性,被Digg、Twitter等知名Web2.0網(wǎng)站所采采納,成成為了一一種流行行的分布布式結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù)存儲(chǔ)方方案。主要特征征:模式靈活活:使用Cassandra,像文檔檔存儲(chǔ),,你不必必提前解解決記錄錄中的字字段。真正的可可擴(kuò)展性性:Cassandra是純粹意意義上的的水平擴(kuò)擴(kuò)展。為為給集群群添加更更多容量量,可以以指向另另一臺(tái)電電腦。你你不必重重啟任何何進(jìn)程,,改變應(yīng)應(yīng)用查詢?cè)?,或手手?dòng)遷移移任何數(shù)數(shù)據(jù)。分布式寫(xiě)寫(xiě)操作:有可以在在任何地地方任何何時(shí)間集集中讀或或?qū)懭魏魏螖?shù)據(jù)。。并且不不會(huì)有任任何單點(diǎn)點(diǎn)失敗。。列表數(shù)據(jù)據(jù)結(jié)構(gòu):在混合模模式可以以將超級(jí)級(jí)列添加加到5維。對(duì)于于每個(gè)用用戶的索索引,這這是非常常方便的的。55應(yīng)用場(chǎng)景景:web應(yīng)用等優(yōu)點(diǎn):數(shù)數(shù)據(jù)要求求不嚴(yán)格格,不需需要預(yù)先先定義結(jié)結(jié)構(gòu)缺點(diǎn):查查詢能力力不高,,缺乏統(tǒng)統(tǒng)一的查查詢語(yǔ)法法56可以通過(guò)過(guò)JavaScriptObjectNotation(JSON)API訪問(wèn)“Couch””=“ClusterOfUnreliableCommodityHardware”,目標(biāo)具具有高度度可伸縮縮性,提提供了高高可用性性和高可可靠性,,即使運(yùn)運(yùn)行在容容易出現(xiàn)現(xiàn)故障的的硬件上上也是如此特點(diǎn)CouchDB是分布式式的數(shù)據(jù)據(jù)庫(kù),他他可以把把存儲(chǔ)系系統(tǒng)分布布到n臺(tái)物理的的節(jié)點(diǎn)上上面,并并且很好好的協(xié)調(diào)調(diào)和同步步節(jié)點(diǎn)之之間的數(shù)數(shù)據(jù)讀寫(xiě)寫(xiě)一致性CouchDB是面向文文檔的數(shù)數(shù)據(jù)庫(kù),,存儲(chǔ)半半結(jié)構(gòu)化化的數(shù)據(jù)據(jù)CouchDB支持RESTAPI,可以讓讓用戶使使用JavaScript來(lái)操作CouchDB數(shù)據(jù)庫(kù),,也可以以用JavaScript編寫(xiě)查詢?cè)冋Z(yǔ)句,用AJAX技術(shù)結(jié)合合CouchDB開(kāi)發(fā)出來(lái)來(lái)的CMS系統(tǒng)會(huì)簡(jiǎn)單方方便57工作原理理CouchDB構(gòu)建在強(qiáng)強(qiáng)大的B+樹(shù)儲(chǔ)存引擎擎之上。。這種引引擎負(fù)責(zé)責(zé)對(duì)CouchDB中的數(shù)據(jù)據(jù)進(jìn)行排排序,并并提供一一種能夠夠在對(duì)數(shù)數(shù)均攤時(shí)時(shí)間內(nèi)執(zhí)執(zhí)行搜索索、插入入和刪除除操作的的機(jī)制。數(shù)據(jù)庫(kù)的的結(jié)構(gòu)獨(dú)獨(dú)立于模模式,依賴于使使用視圖圖創(chuàng)建文文檔之間間的任意意關(guān)系,使用Map/Reduce計(jì)算這些些視圖的的結(jié)果在CouchDB中沒(méi)有鎖鎖機(jī)制,,它使用用的是多多版本并并發(fā)性控控制(Multiversionconcurrencycontrol,MVCC)58特點(diǎn)介于關(guān)系數(shù)據(jù)據(jù)庫(kù)和非關(guān)系系數(shù)據(jù)庫(kù)庫(kù)之間的的產(chǎn)品,,是非關(guān)關(guān)系數(shù)據(jù)據(jù)庫(kù)當(dāng)中中功能最最豐富,,最像關(guān)關(guān)系數(shù)據(jù)據(jù)庫(kù)的支持的數(shù)數(shù)據(jù)結(jié)構(gòu)構(gòu)非常松松散,是是類(lèi)似json的bson格式,因因此可以以存儲(chǔ)比比較復(fù)雜雜的數(shù)據(jù)據(jù)類(lèi)型支持的查查詢語(yǔ)言言非常強(qiáng)強(qiáng)大,其其語(yǔ)法有有點(diǎn)類(lèi)似似于面向向?qū)ο蟮牡牟樵冋Z(yǔ)語(yǔ)言,幾幾乎可
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 石河子大學(xué)《運(yùn)動(dòng)生理學(xué)》2021-2022學(xué)年第一學(xué)期期末試卷
- million的用法和搭配
- 石河子大學(xué)《田徑教學(xué)訓(xùn)練理論與實(shí)踐》2021-2022學(xué)年第一學(xué)期期末試卷
- 石河子大學(xué)《葡萄酒工藝學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 石河子大學(xué)《果蔬加工貯運(yùn)學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 石河子大學(xué)《村鎮(zhèn)規(guī)劃》2023-2024學(xué)年第一學(xué)期期末試卷
- 沈陽(yáng)理工大學(xué)《永磁電機(jī)》2023-2024學(xué)年期末試卷
- 沈陽(yáng)理工大學(xué)《體育》2023-2024學(xué)年第一學(xué)期期末試卷
- 沈陽(yáng)理工大學(xué)《內(nèi)部控制》2023-2024學(xué)年期末試卷
- 沈陽(yáng)理工大學(xué)《機(jī)械制造技術(shù)基礎(chǔ)》2022-2023學(xué)年第一學(xué)期期末試卷
- 餐廳小票打印模板
- 腹脹護(hù)理課件
- 【時(shí)代峰峻公司“養(yǎng)成系”偶像的營(yíng)銷(xiāo)策略研究案例報(bào)告8700字(論文)】
- 水稻栽培技術(shù)-水稻常規(guī)栽培技術(shù)
- 常見(jiàn)營(yíng)養(yǎng)相關(guān)慢性疾病的營(yíng)養(yǎng)指導(dǎo)
- 標(biāo)準(zhǔn)報(bào)價(jià)單模板(二)
- 《mc入門(mén)教程》課件
- 物理化學(xué)實(shí)驗(yàn)B智慧樹(shù)知到課后章節(jié)答案2023年下北京科技大學(xué)
- 建筑大師林徽因智慧樹(shù)知到課后章節(jié)答案2023年下濰坊工程職業(yè)學(xué)院
- 塔里木盆地主要地震反射波組的說(shuō)明
- 初中英語(yǔ)教學(xué)經(jīng)驗(yàn)交流PPT教學(xué)課件
評(píng)論
0/150
提交評(píng)論