基于海量數(shù)據(jù)的數(shù)據(jù)庫模型優(yōu)化研究_第1頁
基于海量數(shù)據(jù)的數(shù)據(jù)庫模型優(yōu)化研究_第2頁
基于海量數(shù)據(jù)的數(shù)據(jù)庫模型優(yōu)化研究_第3頁
基于海量數(shù)據(jù)的數(shù)據(jù)庫模型優(yōu)化研究_第4頁
基于海量數(shù)據(jù)的數(shù)據(jù)庫模型優(yōu)化研究_第5頁
免費預(yù)覽已結(jié)束,剩余51頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、分類號:TP392密級:公開代碼: 1 0 1 2 7 :題目:基于海量數(shù)據(jù)的數(shù)據(jù)庫模型優(yōu)化研究號:200802055學(xué)作者: 計算機應(yīng)用技術(shù)_專 業(yè)名 稱:2011 年 06 月 17 日基于海量數(shù)據(jù)的數(shù)據(jù)庫模型優(yōu)化研究題目:作者: : 內(nèi)科技大學(xué)指 導(dǎo)教師:教授協(xié)助指導(dǎo)教師:提交日期:2011 年 06 月 17 日學(xué)位授予:內(nèi)科 技 大 學(xué)基于海量數(shù)據(jù)的數(shù)據(jù)庫模型優(yōu)化研究Research of Optimization of the Database MMassive DataBased on:指導(dǎo)教師:內(nèi)科技大學(xué)信息包頭 014010,中國Candidaiang YingSupervi

2、sor:Xing Dong-xuSchool of Information EngineeringInner Mongolia University of Science and TechnologyBaotou 014010,P.R.CHINA獨創(chuàng) 性說明本人鄭重:所呈交的是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,內(nèi)中不包含其他人已經(jīng)或撰寫的研究成果,也不包含為獲得科技大學(xué)或其他教育機構(gòu)的學(xué)位或所使用過的材料。與我一同工作的表示了謝意。對本做的任何貢獻(xiàn)均已在中做了明確的說明并簽名: 日期:_關(guān)于使用的說明本人完全了解內(nèi)科技大學(xué)有關(guān)保留、使

3、用的規(guī)定,即:學(xué)校以保留送交的復(fù)印件,允許被查閱和借閱;學(xué)校可的全部或部分內(nèi)容,可以采用影印、縮印或其他保存。(的在后應(yīng)遵循此規(guī)定)簽名:導(dǎo)師簽名: 日期:摘要網(wǎng)絡(luò)高速發(fā)展的今天,數(shù)據(jù)傳輸和量越來越大,海量數(shù)據(jù)庫系統(tǒng)應(yīng)運而生,如何將有限的物理空間高效的利用起來,成為目前研究數(shù)據(jù)庫的學(xué)者們探討的首要問題。因此,海量數(shù)據(jù)的管理,海量數(shù)據(jù)庫的優(yōu)化就成了值得研究的突出課題。而目前的海量數(shù)據(jù)庫模式大部分是在原有的小量數(shù)據(jù)庫模式上面進(jìn)行改造,這樣就產(chǎn)生了很多弊端和不適應(yīng),一些新興的數(shù)據(jù)庫模式,特別是大型企業(yè)的數(shù)據(jù)庫模式也只是將數(shù)據(jù)簡單的壓縮,使得所的數(shù)據(jù)不全,不適合如全球地理信息系統(tǒng)、氣象系統(tǒng)、系統(tǒng)以及一

4、些有這連續(xù)性、微量變化、時間敏感性的一些數(shù)據(jù)庫系統(tǒng)。這樣的數(shù)據(jù)庫系統(tǒng)用現(xiàn)有的數(shù)據(jù)庫性。模式會產(chǎn)生如下問題:數(shù)據(jù)冗余度大、精確度差、計算繁瑣、查詢有局限針對以上問題,提出了新型的數(shù)據(jù)庫模式,建立基態(tài)庫將原有的數(shù)據(jù)庫冗余度大大減小。建立增量庫使的數(shù)據(jù)連續(xù)、詳細(xì)并且計算簡單。建立歷史庫使得只能一個月實時數(shù)據(jù)的系統(tǒng),目前了 2 年之內(nèi)的信息。文章通過對近幾年關(guān)于海量數(shù)據(jù)庫的研究,結(jié)合了一些海量數(shù)據(jù)庫的存儲模式,并對其進(jìn)行分析與研究,將原有的數(shù)據(jù)庫模式與現(xiàn)代海量數(shù)據(jù)庫的模式進(jìn)行對比以及分析利弊,提出先進(jìn)的數(shù)據(jù)庫布局模式動態(tài)-增量數(shù)據(jù)庫模式。在此模式的基礎(chǔ)上,提出適合動態(tài)-增量庫模式的算法和備份策略。文章

5、在 Windows Xp 系統(tǒng)下運用 JBuilder 開發(fā)工具 Sqlserver2003 數(shù)據(jù)庫以全球臺網(wǎng)到的全球信號為基礎(chǔ)數(shù)據(jù)對數(shù)據(jù)庫模型進(jìn)行反復(fù)實驗和改良。建立了以動態(tài)-增量模型為基礎(chǔ)的數(shù)據(jù)庫體系,并在動態(tài)-增量數(shù)據(jù)庫模型的基礎(chǔ)上研究適合其特點的儲模式的優(yōu)化設(shè)計。結(jié)構(gòu)和優(yōu)化算法。實現(xiàn)了海量數(shù)據(jù)庫存關(guān)鍵字:海量數(shù)據(jù);優(yōu)化;數(shù)據(jù)模型IAbstractWith the radevelopment of network, daransmisand storage capacity areing larger and larger. A sea of database storage syste

6、ms have emerged as thetimes require and how to utilize the limited physical memory storage space effectivelyhase a critical problem facing many database researchers. Therefore, themanagement of seas of data and optimization of masses of databases has been anoutstanding task. However, most of the pre

7、sent database storage patterns are reformed based on the existing small database schema, which cause many drawbacks andinadaptability. For exle, some emerging database schemas in large entrise justsimply compact data and store them. This will resulthepletion of data storage.At the same time, this wi

8、ll not meet the requirement of database systemch as GlobalGeography Information System, Meteorological System, Seismic System and somesystems with continuity, slight change and time sensitivity. There are many problems inthe existing database storage ms. These systemst use the existing databasestora

9、ge ms can cause some problems including:Large data redundancy, Lowaccuracy, Complicated calculation and Limiion of query.To solve the problems above, a new type of database storage mode was proedin this study. The original se library database was built to grey reduce theredundancy of original databa

10、se and the establishment of incremental library was conducted to make the stored data continuous, detailed and easy to calculate. The historical database was founded to extend storage time of data from one month to twoyears.his work, multitudes of research p combination of storage patterns of hugeca

11、refully. With the comparison and thers on database were investigated with thedatabaset were studied andyzedadvantages and disadvantages of storagepatterns of the existing databases and modern magnanimous databases considered, an advanced database layout mode, namely dynamic-incremental database stor

12、age mode (DIDSM) was presented and the algorithm and backup strategy were sought for DIDSM based on this storage mode. JBuilder development tool Sqlserver2003 was run in the environment Windows XP Operating System to pro s collected seismic signals in global seismic networks with repeated experiment

13、s and improvements. A databasestorage system based on dynamic-incremental mode was established. Also, thecharacteristics ofernal storage structure and optimization algorithms were studiedaccordingly on the basis of DIDSM, achieving the optimization design of magnanimousdatabase storage mode.Keywords

14、:massive data; optimization; data mII目錄摘要IAbstractII1 緒論.- 1 -1.1 選題的目的和意義.- 1 -相關(guān)概念介紹2數(shù)據(jù)庫系統(tǒng)模式的概念2Oracle 數(shù)據(jù)庫模式結(jié)構(gòu)2國內(nèi)外研究現(xiàn)狀41.3.1 地理信息海量數(shù)據(jù)庫模式41.3.2 商業(yè)海量數(shù)據(jù)庫模式71.3.3 其他關(guān)于地理信息的數(shù)據(jù)庫模型102 海量數(shù)據(jù)庫模式相關(guān)技術(shù)14海量數(shù)據(jù)14海量數(shù)據(jù)庫系統(tǒng)14連接池技術(shù)15連接池原理152.2.2 連接池的. 15DBHDP 算法16算法研究背景162.3.2 問題描述.- 19 -2.3.3 DBHDP 算法202.4 算法性能分析和相關(guān)的

15、定義223 動態(tài)-增量數(shù)據(jù)庫模式26內(nèi)容簡介26狀態(tài)基態(tài)庫273.1.2 增量庫.- 27 -3.1.3 歷史庫27數(shù)據(jù)庫的建立27基態(tài)庫的建立27增量庫的建立29歷史庫的建立30數(shù)據(jù)冗余31查詢效率的提高32實驗測試及結(jié)果分析364.1 實驗環(huán)境36- 1 -4.2與分析364.3 通用的海量數(shù)據(jù)庫性能測試系統(tǒng)39結(jié)論41參 考 文 獻(xiàn)42在學(xué)研究成果46致謝47- 2 -1 緒論1.1 選題的目的和意義比如說個階段:部門,從計算機的應(yīng)用以及和海量數(shù)據(jù)的處理方面可以分為以下幾20 世紀(jì)末的原始處理階段:主要為人工運算,在分析預(yù)報處理階段大部分還是以手工操作為主,地磁方面用 k 量板人力和物力

16、浪費相當(dāng)大。只是手工整理好的資料進(jìn)行人工手打輸入,整理成冊。階段說明:極大地浪費人力物力,資料有人工誤差。到了九十年代中期基本擺脫原始處理階段:九十年代中期,隨著計算機的慢慢普及,世界計算機的發(fā)展與各界的研究,地震預(yù)報分析數(shù)據(jù)的處理從原始的處理階段衍生到了局域網(wǎng)階段。大大提高了數(shù)據(jù)的準(zhǔn)確性、合理性以及批量利用率。使得在系統(tǒng)內(nèi)的數(shù)據(jù)自成一體。使得對數(shù)據(jù)的處理有了連續(xù)性。讓階段說明:在研究對批量數(shù)據(jù)有據(jù)可循,有法可依。系統(tǒng)達(dá)到了自成一體的數(shù)據(jù)階段。儀器代表:mf360 大型計算機。九十年代中期,隨著廣域網(wǎng)的誕生,階段。系統(tǒng)數(shù)據(jù)處理也上升到了廣域網(wǎng)處理九十年代中期為計算機的快速發(fā)展時期,日新月異,隨

17、著飛速的發(fā)展,也給系統(tǒng)的海量資料處理帶來了。廣域網(wǎng)的產(chǎn)生,讓資料世界化、公開化。在任何一個系統(tǒng)的計算機中,可以觀察世界范圍內(nèi)的原始資料。使得預(yù)報的研究有了突飛猛進(jìn)的發(fā)展。徹底擺脫了人工服務(wù)階段。階段說明:雖然數(shù)據(jù)資料與世界接軌,但是在數(shù)據(jù)造成很大的誤差。由于信息發(fā)展日新月異此階段沒有具體的代表儀器。方面還很,人工21 世紀(jì)初開始海量數(shù)據(jù)的處理開始成為各位專業(yè)化,進(jìn)入了海量綜合數(shù)據(jù)管理階段。研究的重點。隨著海量數(shù)據(jù)處理海量綜合數(shù)據(jù)管理系統(tǒng)階段目前還停留在初步實施階段,發(fā)展還不夠成熟,主要任務(wù)是利用計算機網(wǎng)絡(luò)、web 技術(shù)、海量信息處理技術(shù)、數(shù)據(jù)挖掘等現(xiàn)代大型數(shù)據(jù)庫處理技術(shù)來實現(xiàn)部門數(shù)據(jù)庫的海量綜

18、合數(shù)據(jù)管理系統(tǒng)的構(gòu)建。綜上所述,我國的信息管理系統(tǒng)在“十一五”期間,還處于運用數(shù)據(jù)- 1 -庫管理系統(tǒng)的業(yè)務(wù)流程模式,并且這一模式還只是初步形成。這樣不成海量數(shù)據(jù)題:模式在省級局實行時,數(shù)據(jù)的和處理,一般情況下會存在以下問1、數(shù)據(jù)庫隨著數(shù)據(jù)量的增多以及變化的需求出現(xiàn)了瓶頸(只能的數(shù)據(jù));2、數(shù)據(jù)庫查詢效率慢;一個月之內(nèi)3、查詢歷史數(shù)據(jù)非常慢有時候根本查不到(一個月以外的根本查不到);4、數(shù)據(jù)庫所的信息冗余大;為了解決以上問題,提出了適合具有時間敏感性、空間敏感性、數(shù)據(jù)量大、連續(xù)性等特點的數(shù)據(jù)庫模式的“動態(tài)-增量”數(shù)據(jù)庫模式。1.2 相關(guān)概念介紹1.2.1 數(shù)據(jù)庫系統(tǒng)模式的概念在數(shù)據(jù)模型中有“型

19、”(T)和“值”的概念。型是指對某一類數(shù)據(jù)的結(jié)構(gòu)和屬性的說明,值是型的一個具體賦值2。1.2.2 Oracle 數(shù)據(jù)庫模式結(jié)構(gòu)實驗數(shù)據(jù)庫為 Oracle 數(shù)據(jù)庫,因此對 Oracle 數(shù)據(jù)庫的模式結(jié)構(gòu)進(jìn)行詳細(xì)、系統(tǒng)的介紹。一個完整的 Oracle 數(shù)據(jù)庫系統(tǒng),主要包括數(shù)據(jù)庫和實例兩大部分,而要想熟練的應(yīng)用 Oracle 數(shù)據(jù)庫,首先要能描述 Oracle 大概的體系結(jié)構(gòu)并且能夠熟練的連接到 Oracle 數(shù)據(jù)庫3。圖 1.1 為 Oracle 數(shù)據(jù)庫的體系結(jié)構(gòu)。圖 1.1 描述了 Oracle的體系結(jié)構(gòu),包括 Oracle 服務(wù)器(Oracle數(shù)據(jù)庫server)它由 Oracle 實例與數(shù)據(jù)

20、庫組成。應(yīng)用 Oracle 數(shù)據(jù)庫,首先安裝數(shù)據(jù)庫,它具有打開數(shù)據(jù)庫、數(shù)據(jù)庫的完整性等功能。所謂的實例,它是用來訪問一個 Oracle 數(shù)據(jù)庫,并且總是打開一個或者僅僅打開一個數(shù)據(jù)庫(一個實例只能打開一個數(shù)據(jù)庫),如果想打開兩個數(shù)據(jù)庫必須用兩個實例,它由內(nèi)存、繼承結(jié)構(gòu)組成。內(nèi)存是由共享池、數(shù)據(jù)緩沖池、java 池、大池組成,而繼承包括PMON,SMON, DBWR,LGWR, CKPT 等。數(shù)據(jù)庫由數(shù)據(jù)文件、控制文件、以及 redolog 文件組成。數(shù)據(jù)文件所的為用戶數(shù)據(jù)信息,控制文件負(fù)責(zé)有關(guān)數(shù)據(jù)庫的控制命令信息,redo log 實現(xiàn)當(dāng)數(shù)據(jù)庫事件發(fā)生錯誤時可以還原到原來的狀態(tài),它的功能是把對

21、數(shù)據(jù)庫的任何改變動態(tài)的記下來。SGA(System Global Area)內(nèi)存結(jié)構(gòu)由- 2 -共享池、數(shù)據(jù)緩沖區(qū)、redo log 組件、java 工具、大池工具組成。其中大池工具不是很常用。java工具與Overview of Primary ComponentsServer pros圖 1.1 Oracle 數(shù)據(jù)庫的體系結(jié)構(gòu)連接和會話:當(dāng)程序連接到數(shù)據(jù)庫時,就要向 Oracle 發(fā)送相應(yīng)的請求,例如:用戶進(jìn)程(usros)、Server 進(jìn)程、實例、數(shù)據(jù)庫。這個過程在數(shù)據(jù)庫中表現(xiàn)為一個會話被創(chuàng)建,同時有一個 Servros 它與用戶進(jìn)程一一對應(yīng),代表 user 的進(jìn)數(shù)據(jù)庫打交道。其過程如

22、圖 1.2 Oracle 數(shù)據(jù)庫連接過程所示:ServrosConnection establishedSescreatedUsrosDatabase user圖 1.2 Oracle 數(shù)據(jù)庫連接過程- 3 -Oracle serverPassword filesArchived Log filesDatafilesControl filesRedo log filesDatabaseParameter filesInstanceShare PoolSGALibrary CacheDatabase Buffer CacheRedo Log BufferData Dictionary Cache

23、Java PoolLagoolPMON SMON DBWR LGWR CKPT Others1.3 國內(nèi)外研究現(xiàn)狀1.3.1 地理信息海量數(shù)據(jù)庫模式1、與時空有關(guān)的數(shù)據(jù)模型定義GIS4:該模型將一個物體從時間,空間和物體屬性入手進(jìn)行描述。描述范圍廣泛,具有針對性,其中對時間進(jìn)行描述的意義就是該事物發(fā)生的具體時刻,如得到內(nèi)巴彥浩特臺的一個,時刻為年月日點分 51 秒,ml=2.2 在數(shù)據(jù)方面時間的描述為:1984-2-29 22:15:51 對空間的描述則為巴彥浩特臺,對屬性的描述為 ml=2.2。時空 GIS 是建立在人工智能、GIS、時態(tài)數(shù)據(jù)庫等基礎(chǔ)上的綜合型應(yīng)用性技術(shù)。2、時空數(shù)據(jù)模型的發(fā)

24、展歷程J F Fries 和 Giederhold 將時態(tài)對象的處理在當(dāng)時的醫(yī)療系統(tǒng)中并進(jìn)行了的廣泛應(yīng)用5。1977 年 Thrift 提出了 GIS 的概念,并成為 GIS 的創(chuàng)立人。Morrison 和 Basoglu 于 1978 年將 GIS 突破了理論層面,設(shè)計了最早的 GIS(historical GIS)6。工作重點:時態(tài)數(shù)據(jù)庫查詢語言和時態(tài)歷史數(shù)據(jù)庫等方面的研究。理論方面,J Ben Zvi(1982)、S Ginsburg(1983) 和 J Cliford(1982)三位學(xué)者分別在非第一范式時態(tài)數(shù)據(jù)庫、對象歷史模型和關(guān)系型歷史數(shù)據(jù)庫方面所進(jìn)行的具有很強的代表性的開創(chuàng)性時空數(shù)

25、據(jù)模型研究7。1992 年 Langran 撰寫了關(guān)于 TGIS 一本專著,著作的名字叫做地理信息系統(tǒng)中的時間8。1994 年 Bill Hibbard 和 Dave Santek 提出和建立 5D 數(shù)據(jù)模型;1995年 Hazelton 提出了 4DGIS 的理論9;1996 年至 1998 年 Gadia 和提出了時態(tài)元素(temporal element)和時態(tài)賦值(temporal assignment)的概念,即在第一范式的基礎(chǔ)上加入了時間參照,使之成為時態(tài)屬性,建立了時態(tài)模型;1997 年 Langran以實時變化的空間數(shù)據(jù)的角度為基礎(chǔ),提出了支持文件系統(tǒng)的四種參照模型10,分別是

26、基態(tài)修正、時空立方體、快照序列和時空復(fù)合等四種時態(tài)數(shù)據(jù)模型。在過去的十一五階段,對于數(shù)據(jù)的處理還有很多之處,就目錄而言,許多省、市還有很多的差異,首先是內(nèi)容格式不,對于年代久遠(yuǎn)的數(shù)據(jù)程度有很多異議,數(shù)據(jù)的程度從 1990 年開始步入正軌化,這也證明了,計算機的發(fā)展與之前的工作有重要的意義。讓很大程度上增加了自信心,的成績是有目共睹的。但是還有很多,從時空海量數(shù)據(jù)方面來看,國內(nèi)的研究重要局限在時間與空間的迭代差異上,而國外的研究則相對多樣一些,主要有地理原胞、多智能研究方面取得了很大的成就。值得學(xué)習(xí)和應(yīng)用。- 4 -從地理建模方面看,全面系統(tǒng)的對位置、屬性、空間、關(guān)系、分析、質(zhì)量控制方面的不確定

27、性進(jìn)行了詳細(xì)的處理與研究,對動態(tài)實時數(shù)據(jù)有很大的效果。所謂動態(tài)模型對應(yīng)動態(tài)事物,對不定的數(shù)據(jù),根據(jù)其變換規(guī)律建立了與之相適應(yīng)的模型。對于我國學(xué)者而言,在過去的五年里研究成果也是非常讓尊敬的。他們提出了地學(xué)信息圖譜的概念。所謂地學(xué)信息圖譜就是根據(jù)目前說有的地質(zhì)勘探,把相關(guān)的地形地貌繪制成圖譜的形式。通過圖形的形式將時間、空間、屬性三個特點相結(jié)合從而更直觀的一個地點的地形地貌和近億年之內(nèi)發(fā)生的地質(zhì)變化。給對地質(zhì)方面的研究創(chuàng)造了良好的基礎(chǔ)。將一些容易或容易產(chǎn)生變換的特殊地點進(jìn)行重點追蹤與觀察。使得的源。(1)國內(nèi)產(chǎn)生了 mapsis預(yù)報工作更有目的性。節(jié)省了大量的人力物力資Mapsis的引進(jìn)與應(yīng)用從

28、速報、預(yù)報、地質(zhì)資料查詢等各個方面入手,使目前資料匯總方面的工作基本上轉(zhuǎn)入了正規(guī)化。當(dāng)處理一個關(guān)于的數(shù)據(jù)資料時,不必用若干年前的老尺子、老方法只需要輕輕的滑動鼠標(biāo),鍵入數(shù)據(jù)就可以得到想要的知識與圖像。遠(yuǎn)離了過去一張張圖紙的呆板處理方式。(2)地理空間和時間信息化標(biāo)準(zhǔn)從出臺的地理空間和時間信息化標(biāo)準(zhǔn)15一書里可以清楚的認(rèn)識到地理信息已經(jīng)成為了一個標(biāo)準(zhǔn)化的應(yīng)用理念,地理信息由為重要,地球當(dāng)中,作為萬物之首人類,必須了解所生存的空間。這樣才能避免一些不必要的。例如,一些大自然的,生物的變遷、物種的遷移等。雖然地理信息數(shù)據(jù)已經(jīng)標(biāo)準(zhǔn)化,但是其標(biāo)準(zhǔn)只是他的數(shù)據(jù)的內(nèi)容模式上面有一個具體的標(biāo)準(zhǔn),也就是在實際當(dāng)

29、中,新增數(shù)據(jù)與歷史數(shù)據(jù)的格式標(biāo)準(zhǔn)化了,使得國內(nèi)與國外的數(shù)據(jù)能夠在相互接近的模式方面還有很大的出入。上達(dá)到互惠互利的效果。但就網(wǎng)絡(luò)高速發(fā)展的今天,數(shù)據(jù)傳輸和量越來越大,海量數(shù)據(jù)庫系統(tǒng)應(yīng)運而生,如何將有限的物理空間高效的利用起來,成為目前研究數(shù)據(jù)庫的學(xué)者們探討的首要問題。因此,海量數(shù)據(jù)的管理,海量數(shù)據(jù)庫的優(yōu)化就成了值得研究的突出課題。而目前的海量數(shù)據(jù)庫模式大部分是在原有的小量數(shù)據(jù)庫模式上面進(jìn)行改造,這樣就產(chǎn)生了很多弊端和不適應(yīng),一些新興的數(shù)據(jù)庫模式,特別是大型企業(yè)的數(shù)據(jù)庫模式也只是將數(shù)據(jù)簡單的壓縮,使得所的數(shù)據(jù)不全,不適合如全球地理信息系統(tǒng)、氣象系統(tǒng)、系統(tǒng)以及一些有這連續(xù)性、微量變化、時間敏感性的

30、一些數(shù)據(jù)庫系統(tǒng)。這樣的數(shù)據(jù)庫系統(tǒng)用現(xiàn)有的數(shù)據(jù)庫如下問題:數(shù)據(jù)冗余度大、精確度差、計算繁瑣、查詢有局限性。模式會產(chǎn)生- 5 -針對以上問題,提出了新型的數(shù)據(jù)庫模式,建立基態(tài)庫將原有的數(shù)據(jù)庫冗余度大大減小。建立增量庫使的數(shù)據(jù)連續(xù)、詳細(xì)并且計算簡單。建立歷史庫使得只能一個月實時數(shù)據(jù)的系統(tǒng),目前了 2 年之內(nèi)的信息。的研究,結(jié)合了一些海量數(shù)據(jù)庫的文章通過對近幾年關(guān)于海量數(shù)據(jù)庫模式,并對其進(jìn)行分析與研究,將原有的數(shù)據(jù)庫模式與現(xiàn)代海量數(shù)據(jù)庫的模式進(jìn)行對比以及分析利弊,提出先進(jìn)的數(shù)據(jù)庫布局模式動態(tài)-增量數(shù)據(jù)庫模式。在此模式的基礎(chǔ)上,提出適合動態(tài)-增量庫模式的算法和備份策略。文章在 Windows Xp 系統(tǒng)

31、下運用 JBuilder 開發(fā)工具 Sqlserver2003 數(shù)據(jù)庫以全球臺網(wǎng)到的全球信號為基礎(chǔ)數(shù)據(jù)對數(shù)據(jù)庫模型進(jìn)行反復(fù)實驗和改良。建立了以動態(tài)-增量模型為基礎(chǔ)的數(shù)據(jù)庫體系,并在動態(tài)-增量數(shù)據(jù)庫模型的基礎(chǔ)上研究適合其特點的計。結(jié)構(gòu)和優(yōu)化算法。實現(xiàn)了海量數(shù)據(jù)庫模式的優(yōu)化設(shè)3、特點時空 GIS 是一種計算機系統(tǒng)(簡稱 TGIS)16,它繼承了傳統(tǒng)地理信息系統(tǒng)的空間特性又加入了時間特性。(1)時間與空間并存即能準(zhǔn)確的事物的空間狀態(tài),又能反映其變化規(guī)律與過傳統(tǒng)的GIS 相比較,TGIS 操作的對象是時間信息,更具有時間特點,并且對時態(tài)數(shù)據(jù)做了專門的處理,使時間與空間和諧并存。而傳統(tǒng)的 GIS 只是了

32、對象一個時刻的信息,沒有進(jìn)行相關(guān)與時態(tài)的專門處理,因此它只能反映當(dāng)前時態(tài),歷史和未來則無能為力17。(2)時間上連續(xù)性,空間上對應(yīng)性顯而易見,客觀事物的發(fā)展規(guī)律都是緊密相連的,想要正確事物的發(fā)展?fàn)顟B(tài),必須有連續(xù)的時間與準(zhǔn)確的空間,TGIS 在系統(tǒng)中增加對時間維度的分析、表達(dá)能力,歷史分析與趨勢分析的功能,也是時空 GIS 的獨特之處。(3)時間與空間緊密相連TGIS 最重要的特點之一是它能表達(dá)事物和對象的發(fā)展變化過程以及規(guī)律。時間、空間以及屬性表述為地理實例和地理表象本身所擁有的基本屬性,它是表現(xiàn)地理實例的現(xiàn)狀和變化的組成成分。對空間地理實例的以上三個特征的研究出發(fā)點的差異,將相其分為:側(cè)重空

33、間和屬性 的比較老舊的 GIS;側(cè)重屬性和時間的關(guān)于時態(tài)的數(shù)據(jù)庫;側(cè)重空間和時間的圖形動畫以及以全部設(shè)計到的現(xiàn)代全能型 GIS 的領(lǐng)域18。- 6 -1.3.2 商業(yè)海量數(shù)據(jù)庫模式商業(yè)海量數(shù)據(jù)庫模式19,文章以 2011 年 4 月 16 日電信業(yè)海量數(shù)據(jù)庫中的數(shù)據(jù)庫系統(tǒng)為例子。想要在較短的時間內(nèi)在幾千億條話單數(shù)據(jù)中找到用戶想要的數(shù)據(jù)是商業(yè)海量數(shù)據(jù)庫模式所追求的。但是用普通的分區(qū)、列存、集群、并行查詢、索引、壓縮等各種技術(shù)來進(jìn)行優(yōu)化處理已經(jīng)滿足不了商業(yè)信息的突飛猛進(jìn)的發(fā)展趨勢,那么有一個最優(yōu)的海量數(shù)據(jù)庫模式就能更好的將這些現(xiàn)有的技術(shù)系統(tǒng)高效的結(jié)合起來,達(dá)到最優(yōu)的效果。這才是數(shù)據(jù)庫數(shù)據(jù)如何壓縮:

34、優(yōu)化的趨勢。壓縮的主要目的不是減少空間占用,而是提高查詢性能,CPU 平均處理帶寬3.6GB/秒(7000 萬行/秒/核),I/O 平均處理帶寬 300MB/秒,通過壓縮I/O 帶寬,實現(xiàn) CPU 與 I/O 處理均衡,提高查詢性能。具體流程圖見圖 1.3。用戶查詢通用壓縮規(guī)則壓縮通用壓縮用戶查詢圖 1.3 壓縮流程圖使用通用壓縮算產(chǎn)生以下問題:LZMA:CPU 處理帶寬太低;壓縮比 18.9:1,速度 171MB/秒/核(折算后)CPU 處理帶寬 I/O 處理帶寬 5.7GB/秒;LZOP:壓縮率太低;991MB/秒,壓縮比 7.2:1,處理帶寬 2.2GB/秒;速度 891Mb/秒/核(折

35、算后)CPU 處理帶寬 2.4GB/秒,I/O- 7 -圖 1.41.6規(guī)則;企業(yè)對壓縮的要求20壓縮率不低于 15:1,CPU 處理帶寬不低于 5GB/秒;關(guān)于索引21:對于查詢率較高的數(shù)據(jù)選擇適當(dāng)?shù)乃饕?,選擇傳統(tǒng)索引,空間占用大,忽略不計,成本高,對裝載速度影響大。對索引的要求:占用空間對壓縮率貢獻(xiàn)可開銷對裝載速度無明顯影響,選擇率接近于數(shù)據(jù)的實際選擇率,遠(yuǎn)快于表掃描。為了解決以上問題,在和圖 1.6。以及編碼方面遵循了三條規(guī)則,見圖1.4、圖1.5圖 1.4規(guī)則 1圖 1.5規(guī)則 2- 8 -112011TTGW 000312TTGW 000113TTGW 000114TTGW 0001

36、15TTGW 000116TTGW 000117TTGW 000118TTGW 000119TTGW 000120TTGW 0010圖 1.6規(guī)則 31、傳統(tǒng)索引的:成本高,對數(shù)據(jù)裝載速度影響極大。2、先建模式下:索引需要同步,隨機影響性能,過無法引入壓縮。3、后建模式下:需要大規(guī)模的排序,創(chuàng)建成本高。4、空間占用大:以 B 樹為例,二元組,按照鍵值順序排列,按列壓縮,ROWID 隨機性強,難以被壓縮,整體空間成本6 字節(jié),分片索引。5、技術(shù)要點:將表按照一定行數(shù)據(jù)劃分成多個數(shù)據(jù)包,為每個壓縮包建立各列的摘要信息(如最大值、最小值),所有數(shù)據(jù)包上的屬于特定列的全部摘要信息,該列的分片索引22利

37、用摘要信息,來判定對應(yīng)的數(shù)據(jù)包中是否包含滿足特定的查詢條件的行,如確定不存在這樣的行,則整個數(shù)據(jù)包無需被解壓。這樣每個數(shù)據(jù)包就可以無須后續(xù)成本的自動生成。主要優(yōu)點:(1)索引在每個數(shù)據(jù)包生成之后即自動生成,無后續(xù)成本;(2)摘要信息空間占用小,通常被索引數(shù)據(jù)的 1/10;(3)采用合適的摘要信息,可以實現(xiàn)接近于傳統(tǒng)索引的過濾效果;- 9 -6、KSTORE 主要技術(shù)特性:數(shù)據(jù)壓縮,高壓縮比、高性能,對應(yīng)用完全透明。支持行列混合,水平分區(qū),支持多種方式的分區(qū)策略,支持二級分區(qū),支持并行查詢和智能化分區(qū)過濾,高可靠性,支持多粒度備份恢復(fù),提供并行備份恢復(fù)支持,支持與 Veritas、HACMP、H

38、eartBeat 等第的集成。行業(yè)特色:分級、插值更新、數(shù)據(jù)自動。其它特性:支持?jǐn)?shù)據(jù)庫集群(使用神通 CLUSTERWARE),物化視圖、位圖索引、數(shù)據(jù)管理。綜上所述類似這樣的管理模式與方法,對于企業(yè)以查詢?yōu)橹鞯挠脩舨僮魇潜容^實用的,將其運用到以時間、空間為主要要求的數(shù)據(jù)如、氣象、地理信息系統(tǒng)方面就會產(chǎn)生很多問題。存在:1、數(shù)據(jù)庫隨著數(shù)據(jù)的增多以及變化的需求出現(xiàn)了瓶頸;2、數(shù)據(jù)庫查詢效率慢;3、查詢歷史數(shù)據(jù)非常慢有時候根本查不到;4、所得到的空間數(shù)據(jù)與時間數(shù)據(jù)無法聯(lián)系;5、看不到事務(wù)發(fā)展的漸進(jìn)過程。解決問題的方法:在時空數(shù)據(jù)模型發(fā)展的基礎(chǔ)上,提出了一種基于狀態(tài)變化增量的面象的時空數(shù)據(jù)模型,將時

39、空數(shù)據(jù)分為狀態(tài)基態(tài)庫、增量屬性庫、歷史屬性庫三部分,利用屬性標(biāo)識符表示數(shù)據(jù)對象在各部分庫中的存在與否,進(jìn)而對操作語言進(jìn)行基于動態(tài)數(shù)據(jù)模型的擴展。這樣的模型對于海量數(shù)據(jù)可以達(dá)到提高查詢效率減少冗余的效果,并針對“狀態(tài)-增量”數(shù)據(jù)庫系統(tǒng)進(jìn)行系統(tǒng)算法的匹配性改良。1.3.3 其他關(guān)于地理信息的數(shù)據(jù)庫模型國內(nèi)、外關(guān)于地理信息的數(shù)據(jù)庫模型當(dāng)前還處于發(fā)展階段,所形成的數(shù)據(jù)庫系統(tǒng)還相當(dāng)不成熟,下面介紹以下比較典型的關(guān)于地理信息的數(shù)據(jù)庫模型。1、側(cè)重于時空的立方體數(shù)據(jù)庫模型被稱為地理信息數(shù)據(jù)庫模型之父的 Hagertrand 首先提出了時空立方體數(shù)據(jù)庫模型。雖然后人又對它有了進(jìn)一步的改造,但是 Hagertr

40、and 的獨到見解與其敏銳的思- 10 -考與觀察能力都是可敬可佩的。時空立方體數(shù)據(jù)庫模型23用二維的坐標(biāo)軸描述平面的空間,同時在二維坐標(biāo)軸上加上一維時間軸形成一個類似于立方體的模型,當(dāng)物體在時間和空間上有變化時就會得到相應(yīng)的狀態(tài)立方體截面。2、側(cè)重于時間屬性的快照序列數(shù)據(jù)庫模型它是當(dāng)時實現(xiàn)簡單應(yīng)用范圍最廣的具有空間與時間雙特點的數(shù)據(jù)庫模式,它將空間上的元素看成一個特殊的平面,把空間上的元素,按照時間的發(fā)展想拍快照一樣形成一系列連續(xù)的數(shù)據(jù)組,用以描述它的空間元素在時間方向上的發(fā)展范到,雖然,快照序列模型24能簡單的不附帶復(fù)雜算法的圍。固然,就可以事務(wù)在時間軸上發(fā)展的連續(xù)過程,但是由于重復(fù)空間上

41、的元素,就可以知道它的冗余量是現(xiàn)在受的。尤其是在信息系統(tǒng)上面,由于空間上同一個點的突變所產(chǎn)生的()在敏感儀器上回產(chǎn)生上億條,這樣,連續(xù)拍空間上的同一個點,它的冗余也將會是上億條網(wǎng)絡(luò)高速發(fā)展的今天,數(shù)據(jù)傳輸和。量越來越大,海量數(shù)據(jù)庫系統(tǒng)應(yīng)運而生,如何將有限的物理空間高效的利用起來,成為目前研究數(shù)據(jù)庫的學(xué)者們探討的首要問題。因此,海量數(shù)據(jù)的管理,海量數(shù)據(jù)庫的優(yōu)化就成了值得研究的突出課題。而目前的海量數(shù)據(jù)庫模式大部分是在原有的小量數(shù)據(jù)庫模式上面進(jìn)行改造,這樣就產(chǎn)生了很多弊端和不適應(yīng),一些新興的數(shù)據(jù)庫模式,特別是大型企業(yè)的數(shù)據(jù)庫模式也只是將數(shù)據(jù)簡單的壓縮,使得所的數(shù)據(jù)不全,不適合如全球地理信息系統(tǒng)、氣

42、象系統(tǒng)、系統(tǒng)以及一些有這連續(xù)性、微量變化、時間敏感性的一些數(shù)據(jù)庫系統(tǒng)。這樣的數(shù)據(jù)庫系統(tǒng)用現(xiàn)有的數(shù)據(jù)庫如下問題:數(shù)據(jù)冗余度大、精確度差、計算繁瑣、查詢有局限性。模式會產(chǎn)生針對以上問題,提出了新型的數(shù)據(jù)庫模式,建立基態(tài)庫將原有的數(shù)據(jù)庫冗余度大大減小。建立增量庫使的數(shù)據(jù)連續(xù)、詳細(xì)并且計算簡單。建立歷史庫使得只能一個月實時數(shù)據(jù)的系統(tǒng),目前了 2 年之內(nèi)的信息。的研究,結(jié)合了一些海量數(shù)據(jù)庫的文章通過對近幾年關(guān)于海量數(shù)據(jù)庫模式,并對其進(jìn)行分析與研究,將原有的數(shù)據(jù)庫模式與現(xiàn)代海量數(shù)據(jù)庫的模式進(jìn)行對比以及分析利弊,提出先進(jìn)的數(shù)據(jù)庫布局模式動態(tài)-增量數(shù)據(jù)庫模式。在此模式的基礎(chǔ)上,提出適合動態(tài)-增量庫模式的算法和

43、備份策略。文章在 Windows Xp 系統(tǒng)下運用 JBuilder 開發(fā)工具 Sqlserver2003 數(shù)據(jù)庫以全球臺網(wǎng)到的全球信號為基礎(chǔ)數(shù)據(jù)對數(shù)據(jù)庫模型進(jìn)行反復(fù)實驗和改良。建立了以動態(tài)-增量模型為基礎(chǔ)的數(shù)據(jù)庫體系,并在動態(tài)-增量數(shù)據(jù)庫模型的基礎(chǔ)上研- 11 -究適合其特點的計。結(jié)構(gòu)和優(yōu)化算法。實現(xiàn)了海量數(shù)據(jù)庫模式的優(yōu)化設(shè)3、基態(tài)修正模型底圖疊加模型25,主要如下:當(dāng)一個事物的時候,先查找跟此事物類似的物理量,如新增加一條實時地理信息,先找到與之相鄰一個時刻的地理信息,將其拍照,找到臨界點后將需要新增加的實時地理信息在路徑上嚴(yán)格疊加到其后方,這樣一層一層的疊加,達(dá)到地理信息與時間信息相對應(yīng)

44、的效果。優(yōu)點:能處理時間與空間的關(guān)系并且計算程序簡單。缺點:冗余大,其獲取數(shù)據(jù)的過必須要進(jìn)行一系列的疊加等操作,比較適合于柵格模型,但是對于單純具有大小和方向的(矢量)模型效率就相對較低。而基態(tài)修正模型則是在底層疊加模型的基礎(chǔ)上,同理也是先找到要增加信息的臨界信息,也就是基態(tài)信息,將與基態(tài)信息由差異的內(nèi)容下來,就成為修正信息并且建立好基態(tài)與修正的修正關(guān)系。這樣就形成了基態(tài)修正模型。優(yōu)點:空間軸上的重復(fù)的平面問題被克服掉了,減少了數(shù)據(jù)冗余,節(jié)約了計算機有限的硬件空間;缺點:計算程序相對底層疊加模型有所復(fù)雜。4、時空元素模型時空元素模型把空間元素加上時空。之后 這種方法應(yīng)用于空間之上,在把這個空間

45、上得元素分配到每個集合之中。這樣減少了大量的冗余以及算法的復(fù)雜度,但是離散的元素所表示的離散的空間,不能表示事物沿時間軸進(jìn)行變化的過程,僅僅能了時空中的一個個不相鄰的圓球體。對四種模型的優(yōu)缺點進(jìn)行對比,形成表 1.1 所示:- 12 -表 1.1 所闡述的為時空立方體模型、快照序列模型、基態(tài)修正模型、時空對象模型,總結(jié)了以上模型的優(yōu)點與缺點。表 1.1 四種模型的優(yōu)缺點- 13 -4 種模型優(yōu)勢劣勢概括優(yōu)點和缺點時空立方體模型能夠明顯表達(dá)時間關(guān)系數(shù)據(jù)增加的時候,立方體模型的運算方法也會跟著相應(yīng)的增 加,這是非??膳?的,不適宜村粗海量數(shù)據(jù)對于這幾種數(shù)據(jù)模型,可以清楚的知道,對于簡單的數(shù)據(jù)在時間

46、語義要求比較高的數(shù)據(jù)庫中可以使用時空立方體模型,而對于數(shù)據(jù)量大變化小的可以用快照序列模型或者基態(tài)修正模型,但是對于變化大且海量的民政系統(tǒng)數(shù)據(jù)使用這些模型是不適合的。快照序列模型清楚的 了時間與空間的關(guān)系并且計算方法簡單浪費了 空間,數(shù)據(jù)一層一層的疊加即使數(shù)據(jù) 空間理想大其 海量數(shù)據(jù)時所需要的算法邏輯也是龐大的。基態(tài)修正模型減少空間負(fù)擔(dān),基態(tài)模型數(shù)量很大基態(tài)修正類如果一個變化小的數(shù)據(jù)類型是可以勝任的,如果 每秒鐘都有微量變化的數(shù)據(jù)時,數(shù)據(jù)庫會使機器不工作。時空對象模型達(dá)到時間和空間的數(shù)據(jù)同時進(jìn)行出路,形象而真比較適合柵格模型,其雖然明確的表示出其矢量的大小方向以及發(fā)展歷程,但是計算復(fù)雜多樣,運算

47、細(xì)枝末節(jié),只適合特別的幾個數(shù)據(jù)如如理模型數(shù)據(jù)等。2 海量數(shù)據(jù)庫模式相關(guān)技術(shù)2.1 海量數(shù)據(jù)2.1.1 海量數(shù)據(jù)庫系統(tǒng)海量數(shù)據(jù)庫系統(tǒng),先介紹一下數(shù)據(jù)庫系統(tǒng),數(shù)據(jù)庫系統(tǒng)就是通過數(shù)據(jù)庫管理把相應(yīng)的數(shù)據(jù)庫串聯(lián)的、有條理的聯(lián)系到一起的體系。是為了適應(yīng)人們處理數(shù)據(jù)的需要而建立起來的系統(tǒng)性機構(gòu)。1、優(yōu)點海量數(shù)據(jù)具有構(gòu)造好,數(shù)據(jù)的共享性好,數(shù)據(jù)的獨立性好,數(shù)據(jù)粒度小,數(shù)據(jù)管理系統(tǒng),為用戶提供了友好的接口。 數(shù)據(jù)庫系統(tǒng)的和基礎(chǔ)是數(shù)據(jù)模型,現(xiàn)有的數(shù)據(jù)庫系統(tǒng)均是基于某種數(shù)據(jù)模型的。 數(shù)據(jù)庫系統(tǒng)的是數(shù)據(jù)庫管理系統(tǒng)。2、數(shù)據(jù)模式(1)層次模型:層次模型就是各個模型之間有那種等級順序,具有一定的結(jié)構(gòu)化,例如每家的那種家譜

48、,上面的第一層就是祖輩,以下可以是父親、母親、叔叔和嬸嬸。特點是其特點是有且只有一個根結(jié)點,除根結(jié)點以外,所有結(jié)點有且只有一個父親結(jié)點。相當(dāng)于有一個父親節(jié)點,有很多個孩子節(jié)點。這樣就具有層次分明的感覺,給人以一目了然的方式。(2)網(wǎng)狀模型:用有向圖結(jié)構(gòu)表示實體類型及實體間聯(lián)系的數(shù)據(jù)結(jié)構(gòu)模型稱為網(wǎng)狀模型;用網(wǎng)絡(luò)結(jié)構(gòu)表示實體類型及其實體之間聯(lián)系的模型。顧名思義,一個事物和另外的幾個都有聯(lián)系 這樣一張網(wǎng)狀圖。網(wǎng)狀模型的數(shù)據(jù)結(jié)構(gòu)主要有以下兩個特征: 一個是允許一個以上的節(jié)點無雙親,另一個是一個節(jié)點可以有多于一個的雙親。(3)關(guān)系模型:關(guān)系模型其基礎(chǔ)是關(guān)系型數(shù)據(jù)庫,即的是關(guān)系而非事物。事物與事物之間的關(guān)

49、系是實時變換的而關(guān)系模型則是穩(wěn)定不變的。所以要在變量的基礎(chǔ)上建立穩(wěn)定的模型,找到其相對穩(wěn)定的點著手。關(guān)系模型具有結(jié)構(gòu)簡單、關(guān)系運算模式設(shè)計理論等特點。關(guān)系模型其實表示的是一個表格的狀態(tài),在這個表格中可以進(jìn)行各種的操作。3、用戶對數(shù)據(jù)庫系統(tǒng)的過程- 14 -用戶對數(shù)據(jù)庫系統(tǒng)的過程是數(shù)據(jù)庫管理系統(tǒng)的,也是建立數(shù)據(jù)庫管理系統(tǒng)的根本。一個實用的數(shù)據(jù)庫管理系統(tǒng)的建立是與用戶對數(shù)據(jù)庫系統(tǒng)的過程相對應(yīng)的。如何使用戶對數(shù)據(jù)庫系統(tǒng)的過程檢點、準(zhǔn)確化是建立數(shù)據(jù)庫系統(tǒng)所要考慮的首要問題之一。2.2 連接池技術(shù)2.2.1 連接池原理是:連接復(fù)用,建立一個數(shù)據(jù)庫連接池以及一套連接使用、分配、管理策略,來達(dá)到連接的高效以

50、及安全復(fù)用。并且避免了數(shù)據(jù)庫連接頻繁建立、關(guān)閉的開銷節(jié)省了資源。連接池27主要由三部分組成:連接池的建立、連接池中連接的使用管理、連接池的關(guān)閉。其原理如圖 2.1 所示:連接池回連接一個圖 2.1 連接池工作原理2.2.2 連接池的之所以在“動態(tài)增量”數(shù)據(jù)庫模型的實踐當(dāng)中要用到連接池技術(shù),原因在于“動態(tài)-增量”數(shù)據(jù)庫模型當(dāng)中有動態(tài)數(shù)據(jù)庫、增量數(shù)據(jù)庫、歷史數(shù)據(jù)庫三個基態(tài)- 15 -Servlet,beans,sql 等操作庫,要達(dá)到三個數(shù)據(jù)庫有條理的、并發(fā)的、多數(shù)據(jù)庫同時服務(wù),就要用到連接池技術(shù)。使用的如表 2.1 連接池技術(shù)所示:表 2.1 連接池技術(shù)技術(shù)名稱目的具體實現(xiàn)一個多線程的環(huán)境事務(wù)并

51、發(fā)連接管理服務(wù)有多線程環(huán)境下,必須要保證連接更大的通用性管理自身數(shù)據(jù)的一致synchronized性和連接數(shù)據(jù)的一致性connectionPools,通過同接DataSource多數(shù)據(jù)庫服務(wù)池不同的數(shù)將連接池看做定義類,建立連接bind(String據(jù)庫一個類name,ConnectionParamparam)2.3 DBHDP 算法2.3.1 算法研究背景目前海量數(shù)據(jù)在數(shù)據(jù)庫操作當(dāng)中已經(jīng)成為一個難點,通常會把一個大型的數(shù)據(jù)庫分成若干個小型數(shù)據(jù)庫,把里面的海量信息分別在不同的磁盤或者硬盤當(dāng)中,這些不同類型的設(shè)備之間的通訊以及數(shù)據(jù)的布局常常是隨機制定的,為了提高效率,增強不同小型數(shù)據(jù)庫之間的通訊

52、效率,需要一種能夠適應(yīng)規(guī)模變化、合理高效的數(shù)據(jù)庫布局算法, DBHDP(database andconsistenshing-aware data placement)算法將 CCHDP 算法與最優(yōu)化問題算法模式相結(jié)合,引入少量的數(shù)據(jù)庫設(shè)備,極大的減少了空間。理論和實踐證明,DBHDP 算法可以按照設(shè)備中數(shù)據(jù)的優(yōu)先級高低進(jìn)行數(shù)據(jù)信息的分配,能夠適應(yīng)一定量的設(shè)備的增加或者減少的操作,在規(guī)模發(fā)上變化時遷移最少的數(shù)據(jù)量,并且可以快速的定位數(shù)據(jù),對空間的消耗較少。數(shù)據(jù)庫海量優(yōu)化問題已經(jīng)成為數(shù)據(jù)庫領(lǐng)域的難點,要使得優(yōu)化,不僅要有一個高效的數(shù)據(jù)庫模式還要有一個高效的數(shù)據(jù)布局模式。就布局模式來- 16 -講

53、,hash28的一致性是目前同步算法里最具有代表性的。該機制假象數(shù)據(jù)庫系統(tǒng)所的數(shù)據(jù)均為一致的,能夠虛擬出多個虛擬的網(wǎng)絡(luò)設(shè)備,其中可以進(jìn)行一定的設(shè)定,并且設(shè)定一個的參數(shù) a 和設(shè)備數(shù)目 n。數(shù)據(jù)庫中的數(shù)據(jù)與設(shè)備常常是不相容的,因此就布局方面會造成很大的麻煩。接下來 Brinkmann 等人針對異構(gòu)問題進(jìn)行了不斷的研究29,使得異構(gòu)環(huán)境的數(shù)據(jù)進(jìn)行轉(zhuǎn)換從而適應(yīng)一致的 hash。其主要是,將所有的設(shè)備根據(jù)其剩余空間的數(shù)量進(jìn)行分層,因此每一層設(shè)備的剩余量是相同的,雖然按照設(shè)備其轉(zhuǎn)換后的數(shù)據(jù)庫系統(tǒng)符合一致的 hash,但是如果數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)發(fā)生遷移或增刪,那么所有的層次關(guān)系將天壤之別,計算機將重新計算

54、整個數(shù)據(jù)庫系統(tǒng),這樣就是日常工作復(fù)雜到無法進(jìn)行。針對這一問題Schindelhauer 等人又進(jìn)入了更深一步的研究如何計算數(shù)據(jù)距離的一種方法被叫做 Hash 距離方法。該種方法有自己的優(yōu)點和一些缺點,優(yōu)點是該種方法的適應(yīng)能力很強的,在數(shù)據(jù)的發(fā)布過對數(shù)方法雖然解決了數(shù)據(jù)的遷移問題,擬設(shè)備,使得計算時間過長并且占用遷移數(shù)據(jù)的量是比較大的。線性方法和就線性方法而言,它要引入相當(dāng)多得虛空間。又有外國的研究學(xué)者提出了一種在數(shù)據(jù)的集群間分配數(shù)據(jù)的心得方法,算法解決了子集群在設(shè)備之間的遷移和分配問題,但是當(dāng)數(shù)據(jù)有批量減少時,甚至除去一個設(shè)備時,計算機系統(tǒng)就會重新安排新的集群關(guān)系,并重新計算一次,也就是說當(dāng)數(shù)

55、據(jù)有批量增加或減少時,計算機會將整個數(shù)據(jù)庫系統(tǒng)重新計算一遍,就好比一所學(xué)校增加了一個班,那么校長就要把所有的班重新分配,這樣每隔一段時間隨著新數(shù)據(jù)的不斷增加,系統(tǒng)就要重劃一遍。浪費了時間和空間。Honicky 等人提出在多個異構(gòu)的子集群間公平的分布數(shù)據(jù)31。算法可以保證數(shù)據(jù)在集群的設(shè)備間按照其權(quán)重均勻的分布。在集群增加時,遷移的數(shù)據(jù)量是最優(yōu)的。但是當(dāng)刪除集群時,系統(tǒng)的數(shù)據(jù)需要全部重新進(jìn)行組織。浪費了時間和空間。后來,Honicky等人對其在文獻(xiàn)32中算法進(jìn)行改造升級, 研究并設(shè)計新的算法族 RUSH33,但是整體算法族在刪除或者增加單一的的設(shè)備時適應(yīng)能力非常的不好. Will 等人在先前的基礎(chǔ)

56、上進(jìn)行進(jìn)一步的創(chuàng)新和優(yōu)化,提出了面向單個用戶能夠控制的數(shù)據(jù)布局的新算法,叫做 CRUSH。目前應(yīng)用在許多成系統(tǒng)設(shè)38例如 Ceph 系統(tǒng),用戶能夠的根據(jù)相應(yīng)的容量針對四種不相同的備進(jìn)行相應(yīng)的組合,定義布局策略。然而相應(yīng)的布局規(guī)則是最底層必須使用標(biāo)準(zhǔn)的 hash 機制,因為當(dāng)設(shè)備數(shù)量發(fā)生相應(yīng)的變化的時候就需要再重新組織全部數(shù)據(jù)來滿足變化的要求,該算法不能夠的適應(yīng)單個機器的添加和被刪除的情況。某些已經(jīng)相對成系統(tǒng)如 Lustre,NASD,GPFS,Panasas 等使用模擬隨機段或系統(tǒng)在者以設(shè)備為基本的可用性容量的啟發(fā)式來分配現(xiàn)有的數(shù)據(jù)34。這些- 17 -相應(yīng)的設(shè)備集合發(fā)生變化時,一般都不會將數(shù)

57、據(jù)再重新遷移,來確保數(shù)據(jù)再次公平的分布,因此它們的適應(yīng)性相對較差。 Pannasas 系統(tǒng)接著又使用了一種平衡機制的方式,通過修改遷移數(shù)據(jù)的匹配表來重新發(fā)布數(shù)據(jù)35。該方法的缺點是在數(shù)據(jù)定位的過大,大量消耗了系統(tǒng)的時間或者系統(tǒng)的需要查找大量的匹配表,工作量是非常的空間,浪費了大量的資源。 緊接著國內(nèi)又有一些大學(xué)對該算法進(jìn)行了仔細(xì)的研究,例如,湖南省的國防科技大學(xué)、的、的華技大學(xué)和中國等都在數(shù)據(jù)發(fā)布方面做了一定的研究。并積累了一些相關(guān)的工作經(jīng)驗。文獻(xiàn)36提出了一種新的數(shù)據(jù)布局算法,該算法是基于動態(tài)數(shù)據(jù)區(qū)間的基礎(chǔ)上進(jìn)行的,主要研究的是空間效應(yīng)和時間效應(yīng)。文獻(xiàn)37提出了一種通過查詢數(shù)據(jù)表來定位數(shù)據(jù)的

58、方法,其缺點是在查詢的過花費的時間比較大。文獻(xiàn)38中方法的缺點是沒有對數(shù)據(jù)分布過的時間和適應(yīng)性的分析。文獻(xiàn)39首次提出了一種有效的數(shù)據(jù)布局的新算法,其缺點是適應(yīng)性能和公平性能比較差。文章的 CCHDP 算法是人的基礎(chǔ)上進(jìn)行總結(jié)和實驗分析的基礎(chǔ)上提出來的,主要是在一些聚類算法和 HASH 算法的基礎(chǔ)上進(jìn)行的。該方法的:首先使用一定的算法對于數(shù)據(jù)的權(quán)重進(jìn)行劃分,使他們具有的權(quán)重小于一個事先設(shè)定好的閥值 a,閥值 a 的取值范圍0,1之間。閥值 a 的作用主要是為了避免在使用 HASH 算法時引入大量的虛擬設(shè)備,目的是為了節(jié)省大量的空間,避免浪費資源。在聚類算法完成之后,根據(jù)類權(quán)重的不同劃分不同的小

59、區(qū)間,在為每個等價類分配不同的小區(qū)間,使得區(qū)間內(nèi)的數(shù)據(jù)和類是一一的關(guān)系,從而能保證每個類中的數(shù)據(jù)公平的分配。與文獻(xiàn)36、文獻(xiàn)37相比較,能夠很大程度的減少一些空間的容量,減少資源浪費,能保證使用一致性的 HASH 算法能將數(shù)據(jù)公平的分配到等價類中的設(shè)備上。但是有的時候因為等價類中設(shè)備的權(quán)重差異很小的情況下,在使用過必須引入一定的虛擬設(shè)備,否則使用一致性的 HASH 算法將會浪費空間。引進(jìn)虛擬設(shè)備的優(yōu)點是單數(shù)據(jù)的量發(fā)生變化時,數(shù)據(jù)遷移量就等于理論上的遷移量。與文獻(xiàn)39、文獻(xiàn)40相比數(shù)據(jù)遷移的量是較少的。除此之外,CCHDP 算法的 范圍比較廣泛,適合于任意異構(gòu)的設(shè)備的集合。CCHDP 聚類算法與

60、文獻(xiàn)40相比具有更好的靈活性,因為文獻(xiàn)40在使用過要求每個集群的設(shè)備必須是一致的,否則無法使用該方法。然而,CCHDP 這個新的算法要求再使用的過所有的標(biāo)準(zhǔn)都是一致的,主要被應(yīng)用到一些數(shù)據(jù)庫信息的更新操作上,因為它定位數(shù)據(jù)時所需要的時間只與類的數(shù)目相關(guān),遠(yuǎn)遠(yuǎn)小于文獻(xiàn)39定位數(shù)據(jù)所需要的時間。但是這種算法在應(yīng)用數(shù)據(jù)庫當(dāng)中仍然有很多,首先數(shù)據(jù)的布局要求其對查詢修改和增加的數(shù)據(jù)有一個優(yōu)先級,為了提高數(shù)據(jù)- 18 -庫的使用效率,在 CCHDP 的基礎(chǔ)讓綜合數(shù)據(jù)庫系統(tǒng)的特征,以及從高效的角度考慮引入優(yōu)先級參數(shù)提出了 DBHDP 算法,更試用于數(shù)據(jù)庫系統(tǒng)。2.3.2 問題描述首先把海量數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng)抽

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論