人大金倉KingbaseES列式數(shù)據(jù)庫技術(shù)概述_第1頁
人大金倉KingbaseES列式數(shù)據(jù)庫技術(shù)概述_第2頁
人大金倉KingbaseES列式數(shù)據(jù)庫技術(shù)概述_第3頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

金倉列式數(shù)據(jù)庫技術(shù)概述一、概述OLAPI/O,這些特點使其成為構(gòu)建數(shù)據(jù)倉庫的理想架構(gòu)。KingbaseESKingbaseES執(zhí)行引擎接收優(yōu)化器生成的執(zhí)行計劃,按照計劃通過存取接口操作數(shù)據(jù)、進行計算并返回結(jié)果。存儲引擎提供可靠、可擴展的存儲功能,定義了數(shù)據(jù)在內(nèi)存和磁盤上的組織方式;同時為執(zhí)行引擎提供高效的存取接口來操作數(shù)據(jù)。在KingbaseES中:列執(zhí)行引擎可以使用列存儲引擎;用。多引擎方式帶來如下好處:例如當(dāng)在列存儲表上做結(jié)果集很大并包含大多數(shù)列的連接時,列執(zhí)行引擎就沒有優(yōu)勢,而且會額外存儲中間結(jié)果的位置信息。這時使用行執(zhí)行引擎就更合適;OLAP、OLTP列執(zhí)行引擎列執(zhí)行引擎列存儲行存儲優(yōu)化器行執(zhí)行引擎二、技術(shù)特點下面介紹一下KingbaseES的列存儲、執(zhí)行引擎使用到的技術(shù)。如圖中的Customer表,行存儲數(shù)據(jù)庫中將數(shù)據(jù)按行存儲在磁盤上:101259797SMITHJUNO892375862CHINPOMONA318370701HANDUCHICAGO101259797SMITHJUNO892375862CHINPOMONA318370701HANDUCHICAGO列式存儲則將同一列的數(shù)據(jù)存儲在一起:101259797892375862318370701SMITHCHINHANDUJUNOPOMONACHICAGO101259797892375862318370701SMITHCHINHANDUJUNOPOMONACHICAGO在磁盤上的組織方式如上圖,可以看出,這種按列組織的存儲方式可以帶來最顯著的好處,就是當(dāng)操作只涉及較少列時相比行存儲需要更少的I/O,例如:OLAP在少量列上的更新操作。KingbaseES式的存儲方式是為了達(dá)到如下效果:壓整個列數(shù)據(jù);便于建立稀疏索引,更好地過濾查詢中不涉及的數(shù)據(jù)。數(shù)據(jù)壓縮并不是列式數(shù)據(jù)庫的專項技術(shù),行存儲數(shù)據(jù)也可以使用數(shù)據(jù)壓縮來減少數(shù)據(jù)量。但是列存儲的數(shù)據(jù)同一列的數(shù)據(jù)存儲在一起,數(shù)據(jù)間的相似度更高,具有的熵值更小。按照數(shù)據(jù)壓縮理論,無損編碼的效果在熵值小的數(shù)據(jù)上效果更好。KingbaseES10:1~40:1。數(shù)據(jù)壓縮可以帶來更少的存儲空間占用,對于海量數(shù)據(jù)存儲來說很重要。I/O/CPU但是在目前的CPUCPUI/O下是值得的。在海量數(shù)據(jù)中,使用傳統(tǒng)行存儲使用的稠密索引會帶來問題:為了適應(yīng)各種即席查詢,管理員需要在很多列或列的組合上建立索引,而索引本身占用的空間巨大,管理復(fù)雜。KingbaseES65536中,每個數(shù)據(jù)段對應(yīng)一個索引項。索引中的信息包括(以數(shù)值型數(shù)據(jù)為例):該數(shù)據(jù)段中的數(shù)據(jù)最小值、最大值;中;該數(shù)據(jù)段中數(shù)據(jù)的統(tǒng)計信息,如數(shù)據(jù)的和。這樣索引所占的空間就會很少。如下圖,TPC-H@SF=10part數(shù)據(jù)、壓縮后的數(shù)據(jù)和在全部列上使用稀疏索引占用的空間比例如下圖所示:數(shù)據(jù)量對比(單位KB)數(shù)據(jù)量對比(單位KB)23663225000020000015000010000050000250431400原始數(shù)據(jù)壓縮數(shù)據(jù)索引可以看出,稀疏索引的存儲空間占用是非常少的,所以可以在全部的數(shù)據(jù)上建立稀疏索引,也減少了索引的管理的復(fù)雜性。于聚集函數(shù)的計算。舉例如下:part(p_partkeyint,p_sizeint索引內(nèi)容如下:查詢SELECTavg(p_size)FROMpartWHEREp_partkey>65536;23avg完成。OLAPI/OKingbaseES舉一個查詢的例子說明兩者的差異:selecto_year,sum(caseselecto_year,sum(casewhennation='BRAZIL'thenvolumeelse0end)/sum(volume)asmkt_sharefrom(selectextract(yearfromo_orderdate)aso_year,l_extendedprice*(1-l_discount)asvolume,n2.n_nameasnationfrompart,supplier,lineitem,orders,customer,nationn1,nationn2,regionwherep_partkey=l_partkeyands_suppkey=l_suppkeyandl_orderkey=o_orderkeyando_custkey=c_custkeyandc_nationkey=n1.n_nationkeyandn1.n_regionkey=r_regionkeyandr_name='AMERICA'ands_nationkey=n2.n_nationkeyando_orderdatebetweendate'1995-01-01'anddate'1996-12-31'andp_type='ECONOMYANODIZEDSTEEL')asall_nationsgroupbyo_yearordero_year;這個查詢要統(tǒng)計某兩年內(nèi)某種零件在某個國家的市場份額情況,注意其中的lineitem表,記錄了全部訂單項,假設(shè)包含6000萬條元組。lineitem在這個查詢中需要順序掃描,但連接后大約有25000條元組輸出,從下圖的對比可以看出,使用延時物化可以大大減少l_extendedpricel_discount(這兩列符合條件的值不是均勻分布在全部數(shù)據(jù)段中的情況下)。60000000600000005000000040000000300000002000000010000000延時物化提前物化0i tp ue cn it _e llOLAPI/O、解壓縮開銷,增加執(zhí)行效率

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論