版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 大數(shù)據(jù)存儲(chǔ)技術(shù)研究1.背景介紹 大數(shù)據(jù)已成為當(dāng)前社會(huì)各界關(guān)注的焦點(diǎn)。從一般意義上講,大數(shù)據(jù)是指無(wú)法在可容忍的時(shí)間內(nèi),用現(xiàn)有信息技術(shù)和軟硬件工具對(duì)其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。近年來(lái),大數(shù)據(jù)的飆升主要來(lái)自人們的日常生活,特別是互聯(lián)網(wǎng)公司的服務(wù)。據(jù)著名的國(guó)際數(shù)據(jù)公司(IDC)的統(tǒng)計(jì),2011年全球被創(chuàng)建和復(fù)制的數(shù)據(jù)總量為1.8ZB(1ZB=1021B),其中75%來(lái)自于個(gè)人(主要是圖片、視頻和音樂(lè)),遠(yuǎn)遠(yuǎn)超過(guò)人類(lèi)有史以來(lái)所有印刷材料的數(shù)據(jù)總量(200PB,1PB=1015B)。 然而,與大數(shù)據(jù)計(jì)算相關(guān)的基礎(chǔ)研究,諸如大數(shù)據(jù)的感知與表示、組織與存儲(chǔ)、計(jì)算架構(gòu)與體系、模式發(fā)現(xiàn)與效應(yīng)分
2、析等,目前還沒(méi)有成體系的理論成果。對(duì)于大數(shù)據(jù)計(jì)算體系的研究,一方面,需要關(guān)注大數(shù)據(jù)如何存儲(chǔ),提供一種高效的數(shù)據(jù)存儲(chǔ)平臺(tái);另一方面,為了應(yīng)對(duì)快速并高效可靠地處理大數(shù)據(jù)的挑戰(zhàn),需要建立大數(shù)據(jù)的計(jì)算模式以及相關(guān)的優(yōu)化機(jī)制。2.相關(guān)工作 為了應(yīng)對(duì)數(shù)據(jù)處理的壓力,過(guò)去十年間在數(shù)據(jù)處理技術(shù)領(lǐng)域有了很多的創(chuàng)新和發(fā)展。除了面向高并發(fā)、短事務(wù)的OLTP內(nèi)存數(shù)據(jù)庫(kù)外(Altibase, Timesten),其他的技術(shù)創(chuàng)新和產(chǎn)品都是面向數(shù)據(jù)分析的,而且是大規(guī)模數(shù)據(jù)分析的,也可以說(shuō)是大數(shù)據(jù)分析的。 在這些面向數(shù)據(jù)分析的創(chuàng)新和產(chǎn)品中,除了基于Hadoop環(huán)境下的各種NoSQL外,還有一類(lèi)是基于Shared Nothin
3、g架構(gòu)的面向結(jié)構(gòu)化數(shù)據(jù)分析的新型數(shù)據(jù)庫(kù)產(chǎn)品(可以叫做NewSQL),如:Greenplum(EMC收購(gòu)),Vertica(HP 收購(gòu)),Asterdata(TD 收購(gòu)),以及南大通用在國(guó)內(nèi)開(kāi)發(fā)的GBase 8a MPP Cluster等。目前可以看到的類(lèi)似開(kāi)源和商用產(chǎn)品達(dá)到幾十個(gè),而且還有新的產(chǎn)品不斷涌出。一個(gè)有趣的現(xiàn)象是這些新的數(shù)據(jù)庫(kù)廠商多數(shù)都還沒(méi)有10年歷史,而且發(fā)展好的基本都被收購(gòu)了。收購(gòu)這些新型數(shù)據(jù)庫(kù)廠商的公司,比如EMC、HP,都希望通過(guò)收購(gòu)新技術(shù)和產(chǎn)品進(jìn)入大數(shù)據(jù)處理市場(chǎng),是新的玩家。SAP除了收購(gòu)Sybase外,自己開(kāi)發(fā)了一款叫HANA的新產(chǎn)品,這是一款基于內(nèi)存、面向數(shù)據(jù)分析的內(nèi)存
4、數(shù)據(jù)庫(kù)產(chǎn)品。 這類(lèi)新的分析型數(shù)據(jù)庫(kù)產(chǎn)品的共性主要是: 架構(gòu)基于大規(guī)模分布式計(jì)算(MPP);硬件基于X86 PC 服務(wù)器;存儲(chǔ)基于服務(wù)器自帶的本地硬盤(pán);操作系統(tǒng)主要是Linux;擁有極高的橫向擴(kuò)展能力(scale out)和內(nèi)在的故障容錯(cuò)能力和數(shù)據(jù)高可用保障機(jī)制;能大大降低每TB數(shù)據(jù)的處理成本,為“大數(shù)據(jù)”處理提供技術(shù)和性價(jià)比支撐。 總的來(lái)看,數(shù)據(jù)處理技術(shù)進(jìn)入了一個(gè)新的創(chuàng)新和發(fā)展高潮,機(jī)會(huì)很多。這里的主要原因是一直沿用了30年的傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)遇到了技術(shù)瓶頸,而市場(chǎng)和用戶的需求在推動(dòng)著技術(shù)的創(chuàng)新,并為此創(chuàng)造了很多機(jī)會(huì)。在大數(shù)據(jù)面前,越來(lái)越多的用戶愿意嘗試新技術(shù)和新產(chǎn)品,不那么保守了,因?yàn)榇蠹议_(kāi)始清
5、晰地看到傳統(tǒng)技術(shù)的瓶頸,選擇新的技術(shù)才有可能解決他們面臨的新問(wèn)題。3.核心技術(shù)1.大數(shù)據(jù)重復(fù)數(shù)據(jù)刪除技術(shù) 在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的體量和增長(zhǎng)速度大大超過(guò)了以往,其中重復(fù)數(shù)據(jù)也在不斷增大。國(guó)際數(shù)據(jù)公司通過(guò)研究發(fā)現(xiàn)在數(shù)字世界中有近75的數(shù)據(jù)是重復(fù)的,企業(yè)戰(zhàn)略集團(tuán)(EnterpriseStrategyGroup,ESG)指出在備份和歸檔存儲(chǔ)系統(tǒng)中數(shù)據(jù)的冗余度超過(guò)90。因此,高效的重復(fù)數(shù)據(jù)刪除技術(shù)(ClusterDeduplica-tion)成為縮減數(shù)據(jù)占用空間并降低成本的關(guān)鍵。然而,由于這項(xiàng)技術(shù)是計(jì)算密集型和讀寫(xiě)(I/O)密集型的技術(shù),特別是重復(fù)刪除運(yùn)算相當(dāng)消耗運(yùn)算資源,要進(jìn)行大量的讀寫(xiě)處理,因此現(xiàn)有系
6、統(tǒng)在存取性能方面還存在很多問(wèn)題需要解決。在大數(shù)據(jù)存儲(chǔ)環(huán)境中,將集群重復(fù)數(shù)據(jù)刪除技術(shù)有效地融入分布式集群存儲(chǔ)架構(gòu)中,可使存儲(chǔ)系統(tǒng)在數(shù)據(jù)存儲(chǔ)過(guò)程中對(duì)重復(fù)冗余數(shù)據(jù)進(jìn)行在線去重,并在存儲(chǔ)性能、存儲(chǔ)效率以及去重率等方面得到優(yōu)化。2.具有重復(fù)數(shù)據(jù)刪除功能的分布式存儲(chǔ)架構(gòu) 通過(guò)設(shè)計(jì)并實(shí)現(xiàn)具有重復(fù)數(shù)據(jù)刪除功能的分布式文件系統(tǒng),可使其具備高去重率、高可擴(kuò)展性、高吞吐率等特征。分布式重復(fù)數(shù)據(jù)刪除系統(tǒng)的架構(gòu)包括客戶端、元數(shù)據(jù)服務(wù)器和數(shù)據(jù)服務(wù)器三部分(見(jiàn)圖1)。客戶端主要提供集群重復(fù)數(shù)據(jù)刪除系統(tǒng)對(duì)外的交互接口,并在所提供的文件操作接口中實(shí)現(xiàn)基于重復(fù)數(shù)據(jù)刪除的存儲(chǔ)邏輯和對(duì)數(shù)據(jù)的預(yù)處理,如數(shù)據(jù)塊的劃分與“指紋”的提取。元
7、數(shù)據(jù)服務(wù)器實(shí)現(xiàn)了對(duì)元數(shù)據(jù)存儲(chǔ)、集群的管理與維護(hù),包括管理在數(shù)據(jù)存儲(chǔ)過(guò)程中整個(gè)會(huì)話,保存與管理分布式文件系統(tǒng)中的元數(shù)據(jù),管理和維護(hù)系統(tǒng)存儲(chǔ)狀況,指導(dǎo)數(shù)據(jù)路由并滿足系統(tǒng)存儲(chǔ)的負(fù)載均衡。 數(shù)據(jù)服務(wù)器主要負(fù)責(zé)數(shù)據(jù)去重引擎以及數(shù)據(jù)的存儲(chǔ)和管理。數(shù)據(jù)服務(wù)器通過(guò)網(wǎng)絡(luò)與客戶端進(jìn)行通信,響應(yīng)客戶端的讀寫(xiě)請(qǐng)求,通過(guò)網(wǎng)絡(luò)與元數(shù)據(jù)服務(wù)器異步更新數(shù)據(jù)服務(wù)器的數(shù)據(jù)接收狀況以及節(jié)點(diǎn)存儲(chǔ)狀況。當(dāng)接收到客戶端的寫(xiě)請(qǐng)求時(shí),數(shù)據(jù)服務(wù)器接收數(shù)據(jù)并在節(jié)點(diǎn)內(nèi)進(jìn)行冗余數(shù)據(jù)的去重。 網(wǎng)絡(luò)通信模塊可提供一種能夠在客戶端與分布式文件系統(tǒng)各節(jié)點(diǎn)間進(jìn)行通信的有效機(jī)制,通過(guò)遠(yuǎn)程過(guò)程調(diào)用交換元數(shù)據(jù)和少量控制信息,通過(guò)流套接口(streamsocket)
8、網(wǎng)絡(luò)傳輸大量的數(shù)據(jù)與指紋信息。3.數(shù)據(jù)路由策略 基于單節(jié)點(diǎn)內(nèi)的局部去重,即在一個(gè)節(jié)點(diǎn)內(nèi)對(duì)數(shù)據(jù)進(jìn)行去重,確保存儲(chǔ)環(huán)境中系統(tǒng)的整體性能和存儲(chǔ)帶寬。需要強(qiáng)調(diào)的是,數(shù)據(jù)的存儲(chǔ)位置是關(guān)鍵,原因在于數(shù)據(jù)路由位置直接影響數(shù)據(jù)的去重率;根據(jù)數(shù)據(jù)的相似性以及數(shù)據(jù)局部性的相關(guān)理論,基于超塊的高效局部相似路由算法可確保全局?jǐn)?shù)據(jù)去重的可靠性。 在數(shù)據(jù)路由粒度方面,超塊(SuperBlock)是對(duì)上傳數(shù)據(jù)通過(guò)分塊算法,如可變分塊(Content-DefinedChunk-ing,CDC)、固定分塊(Fixed-SizedPartition,F(xiàn)SP),進(jìn)行分塊后(見(jiàn)圖2),由連續(xù)的幾個(gè)小分塊拼接成大的局部塊。文件由連續(xù)的
9、超塊組成,并將超塊作為數(shù)據(jù)路由的單位,發(fā)送到選定的節(jié)點(diǎn)中進(jìn)行節(jié)點(diǎn)內(nèi)的冗余數(shù)據(jù)去重。在數(shù)據(jù)去重方面,數(shù)據(jù)相似是指節(jié)點(diǎn)中已有超塊與新來(lái)的超塊之間的相似度,Jaccard距離可用于衡量?jī)蓚€(gè)超塊的相似度。通過(guò)有狀態(tài)的局部相似路由算法,實(shí)現(xiàn)數(shù)據(jù)的路由。4.大數(shù)據(jù)編碼優(yōu)化技術(shù) 基于糾刪碼的數(shù)據(jù)冗余技術(shù)是不同于多副本技術(shù)的另外一種容災(zāi)策略,其基本思想是:通過(guò)糾刪碼算法對(duì)k個(gè)原始數(shù)據(jù)塊進(jìn)行數(shù)據(jù)編碼,得到m個(gè)糾刪碼塊,并將這k+m個(gè)數(shù)據(jù)塊存到不同的數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)中,以此建立容災(zāi)機(jī)制。當(dāng)k+m個(gè)元素中任意的不多于m個(gè)元素出錯(cuò)(包括數(shù)據(jù)和冗余出錯(cuò))時(shí),均可通過(guò)對(duì)應(yīng)的重構(gòu)算法恢復(fù)出原來(lái)的k塊數(shù)據(jù)。這種方法具有冗余度低、
10、磁盤(pán)利用率高等特點(diǎn)。 相較于多副本策略,在大數(shù)據(jù)存儲(chǔ)平臺(tái)中利用糾刪碼建立容災(zāi)機(jī)制,對(duì)存儲(chǔ)空間和網(wǎng)絡(luò)帶寬的需求有所降低,但是由于引進(jìn)了糾刪碼計(jì)算,因此對(duì)糾刪碼編碼的計(jì)算速度提出了要求。最有效的辦法就是減少糾刪碼計(jì)算過(guò)程的異或次數(shù)。 目前的調(diào)度算法都是啟發(fā)式的,如CSHR、UBER-CSHR、X-Sets等。用這些算法對(duì)一個(gè)柯西矩陣求取調(diào)度時(shí),各自得到的調(diào)度都無(wú)法保證是所有調(diào)度方法中最優(yōu)的,并且柯西矩陣配置參數(shù)(k,m,w)通過(guò)組合會(huì)得到個(gè)柯西矩陣,究竟哪一個(gè)矩陣會(huì)產(chǎn)生較好的調(diào)度,目前為止尚無(wú)規(guī)律可循。針對(duì)該問(wèn)題,為了提高數(shù)據(jù)編碼效率,我們提出了關(guān)于糾刪碼求取調(diào)度組合的選擇框架思想。該框架基于現(xiàn)有
11、技術(shù)提供了一種高效的數(shù)據(jù)編碼方案優(yōu)化調(diào)度方案。此方案能為柯西矩陣配置參數(shù)(k,m,w)選擇出具有高編碼效率的柯西矩陣和相應(yīng)的調(diào)度,以用于大數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)編碼。該選擇框架(見(jiàn)圖3)包括如下三部分。 1.首先準(zhǔn)備柯西矩陣。根據(jù)多種生成柯西矩陣的算法生成柯西矩陣集合M0,M1,Mt-1。考慮到更新性能(柯西矩陣中“1”的個(gè)數(shù)越少越好),盡量選擇“1”個(gè)數(shù)較少的柯西矩陣。 2.對(duì)第1步準(zhǔn)備好的柯西矩陣求取調(diào)度組合。對(duì)每個(gè)柯西矩陣運(yùn)行多種求取調(diào)度組合的啟發(fā)式算法之后,得出各自最好的柯西矩陣和調(diào)度組合(M,S),具體結(jié)果為(M0,S0),(M1,S1),(Mt-1,St-1)。 3.從第2步的結(jié)果中,選出
12、所有調(diào)度組合中異或操作次數(shù)最少的,得到能使編碼性能最高的柯西矩陣和調(diào)度組合(Mbest,Sbest)。整體的選擇框架描述如圖4所示。4.實(shí)驗(yàn)實(shí)驗(yàn)要求:MySQL數(shù)據(jù)庫(kù)操作Student學(xué)生表NameEnglishMathComputerzhangsan698677lisi5510088根據(jù)上面給出的表格,利用MySQL設(shè)計(jì)出student學(xué)生表格;設(shè)計(jì)完后,用select語(yǔ)句輸出所有的相關(guān)信息,并給出截圖;查詢zhangsan的Computer成績(jī),并給出截圖;修改lisi的Math成績(jī),改為95.給出截圖.2.詳細(xì)過(guò)程在數(shù)據(jù)庫(kù)test中創(chuàng)建表grade,Name,English,Math,C
13、omputer分別為表的四個(gè)字段,其中Name為主鍵。mySql語(yǔ)句:create table grade (Name varchar(100) not null,English int not null,Math int not null,Computer int not null,primary key (Name);截圖: b) 插入數(shù)據(jù)并查看數(shù)據(jù)表內(nèi)容mySql語(yǔ)句:insert into gradevalues(;zhangsan;,69,86,77),(;lisi;,55,100,88); 截圖:mySql語(yǔ)句:select * from grade;截圖:c) 查詢zhangsa
14、n的Computer成績(jī)mySql語(yǔ)句:select Computer from grade where Name=zhangsan; 截圖:d) 修改lisi的Math成績(jī),改為95mySql語(yǔ)句:update grade set Math=95 where Name=lisi; 截圖:HBase數(shù)據(jù)庫(kù)操作Student學(xué)生表 namescoreEnglishMathComputerzhangsan698677lisi5510088根據(jù)上面給出的表格,用Hbase Shell模式設(shè)計(jì)student學(xué)生表格。設(shè)計(jì)完后,用scan指令瀏覽表的相關(guān)信息,給出截圖。查詢zhangsan的Comput
15、er成績(jī),給出截圖。修改lisi的Math成績(jī),改為95,給出截圖。2. 詳細(xì)過(guò)程 a) 創(chuàng)建數(shù)據(jù)表Student表有兩個(gè)列族:name, score。Score 列族有三個(gè)列:English,Math, Computer。DDL語(yǔ)句:create ;student;,;name;,;score;截圖:b) 插入數(shù)據(jù)并查看數(shù)據(jù)表內(nèi)容DML語(yǔ)句:插入:put ;student;,;zhangsan;,;score:English;,;69;put ;student;,;zhangsan;,;score:Math;,;86;put ;student;,;zhangsan;,;score:Compu
16、ter;,;77;put ;student;,;lisi;,;score:Computer;,;88;put ;student;,;lisi;,;score:Math;,;100;put ;student;,;lisi;,;score:English;,;55;scan ;student;截圖:c) 查詢zhangsan 的Computer成績(jī),DDL語(yǔ)句:get ;student;,;zhangsan;,;score:Computer; 截圖:d) 修改lisi的Math成績(jī),改為95DDL語(yǔ)句:put ;student;,;lisi;,;score:Math;,;95; 截圖:MongoD
17、B數(shù)據(jù)庫(kù)操作Student文檔如下:“name”: “zhangsan”,“score”: “English”: 69,“Math”: 86,“Computer”: 77“name”: “l(fā)isi”,“score”: “English”: 55,“Math”: 100,“Computer”: 88根據(jù)上面給出的文檔,用Mongo shell設(shè)計(jì)出student集合.設(shè)計(jì)完后,用find()方法輸出兩個(gè)學(xué)生的信息,給出截圖;b) 用find函數(shù)查詢zhangsan的所有成績(jī)(只顯示score列),給出截圖。c) 修改lisi的Math成績(jī),改為95,給出截圖。2. 詳細(xì)過(guò)程a) 創(chuàng)建數(shù)據(jù)庫(kù)和集合
18、創(chuàng)建數(shù)據(jù)庫(kù)grade:Mongo語(yǔ)句:use grade截圖:創(chuàng)建集合student:Mongo語(yǔ)句:db.createCollection(;student;)截圖:b) 插入數(shù)據(jù)并查看集合內(nèi)容定義數(shù)據(jù):Mongo語(yǔ)句:s = _id:1,;name;: ;zhangsan;,;score;: ;english;: ;69;, ;math;: ;86;, ;compuer;: ;77;,_id:2,;name;: ;lisi;,;score;: ;english;: ;55;,;math;: ;100;, ;compuer;: ;88;注釋:如果不添加_id字段,mongodb會(huì)默認(rèn)分配id。截圖:注釋:上圖緊隨這條Mongo語(yǔ)句后面的是,shell自動(dòng)在終端上輸出的該數(shù)據(jù)結(jié)構(gòu)。 插入數(shù)據(jù):Mongo語(yǔ)句:db.student.insert(s)截圖:查看集合:Mongo語(yǔ)句:db.student.find()截圖:c) 用fin
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 沈陽(yáng)理工大學(xué)《材料工程測(cè)試技術(shù)》2021-2022學(xué)年第一學(xué)期期末試卷
- 光伏組件銷(xiāo)售合同范本
- 果園分包合同書(shū)模板
- 合同編第十九條法條解讀
- 2024上海市電視廣播廣告發(fā)布合同(示范文本版)
- 2024化妝品品牌加盟合同
- 2024建筑委托合同協(xié)議
- 沈陽(yáng)理工大學(xué)《Java程序設(shè)計(jì)基礎(chǔ)》2021-2022學(xué)年期末試卷
- 2024表演場(chǎng)地租賃合同范本
- 2024開(kāi)店雙方入股合同協(xié)議范文
- 譯林版一年級(jí)上冊(cè)英語(yǔ)全冊(cè)課件
- 中小學(xué)德育工作指南考核試題及答案
- 凈現(xiàn)值NPV分析和總結(jié)
- 國(guó)網(wǎng)基建各專業(yè)考試題庫(kù)大全-質(zhì)量專業(yè)-中(多選題匯總)
- LTC流程介紹完整版
- 飼料加工系統(tǒng)粉塵防爆安全規(guī)程
- 一年級(jí)上冊(cè)美術(shù)課件-第11課-花兒寄深情-▏人教新課標(biāo)
- 植物的象征意義
- 夏商周考古課件 第5章 西周文化(1、2節(jié))
- 二年級(jí)上冊(cè)美術(shù)教案-7. 去遠(yuǎn)航 -冀教版
- 裝配圖畫(huà)法及要求課件
評(píng)論
0/150
提交評(píng)論