數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘第3章數(shù)據(jù)存儲(chǔ)_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘第3章數(shù)據(jù)存儲(chǔ)_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘第3章數(shù)據(jù)存儲(chǔ)_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘第3章數(shù)據(jù)存儲(chǔ)_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘第3章數(shù)據(jù)存儲(chǔ)_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第 3 章 數(shù)據(jù)存儲(chǔ)第 3 章 數(shù)據(jù)存儲(chǔ)n3.13.1 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型3.1.1 3.1.1 數(shù)據(jù)倉(cāng)庫(kù)的概念模型數(shù)據(jù)倉(cāng)庫(kù)的概念模型3.1.2 3.1.2 數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型3.1.3 3.1.3 數(shù)據(jù)倉(cāng)庫(kù)的物理模型數(shù)據(jù)倉(cāng)庫(kù)的物理模型n3.23.2 元數(shù)據(jù)存儲(chǔ)元數(shù)據(jù)存儲(chǔ)n3.33.3 數(shù)據(jù)集市數(shù)據(jù)集市n3.43.4 大數(shù)據(jù)存儲(chǔ)技術(shù)大數(shù)據(jù)存儲(chǔ)技術(shù)是對(duì)現(xiàn)實(shí)世界數(shù)據(jù)特征的是對(duì)現(xiàn)實(shí)世界數(shù)據(jù)特征的抽象抽象表達(dá)表達(dá),是用來描述數(shù)據(jù)的一組概念和定義。,是用來描述數(shù)據(jù)的一組概念和定義。在信息管理中需在信息管理中需要將現(xiàn)實(shí)世界的事物轉(zhuǎn)換為信息世界的數(shù)據(jù)才能對(duì)信息進(jìn)行要將現(xiàn)實(shí)

2、世界的事物轉(zhuǎn)換為信息世界的數(shù)據(jù)才能對(duì)信息進(jìn)行處理與管理,這就需要依靠數(shù)據(jù)模型作為這種轉(zhuǎn)換的橋梁。處理與管理,這就需要依靠數(shù)據(jù)模型作為這種轉(zhuǎn)換的橋梁?,F(xiàn)實(shí)世界中的客觀對(duì)象抽象為概念模型現(xiàn)實(shí)世界中的客觀對(duì)象抽象為概念模型然后把概念模型轉(zhuǎn)化為數(shù)據(jù)倉(cāng)庫(kù)支持的數(shù)據(jù)模型然后把概念模型轉(zhuǎn)化為數(shù)據(jù)倉(cāng)庫(kù)支持的數(shù)據(jù)模型其轉(zhuǎn)化過程如下:其轉(zhuǎn)化過程如下:概念模型概念模型邏輯模型邏輯模型物理模型物理模型數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)過程 數(shù)據(jù)模型的三級(jí)抽象數(shù)據(jù)模型的三級(jí)抽象現(xiàn)實(shí)世界現(xiàn)實(shí)世界概念世界概念世界邏輯世界邏輯世界計(jì)算機(jī)世界計(jì)算機(jī)世界信用信用特性特性屬性屬性列(字段、列(字段、數(shù)據(jù)項(xiàng))數(shù)據(jù)項(xiàng))張三張三個(gè)體個(gè)體實(shí)體實(shí)體記錄記錄客戶

3、客戶整體整體同質(zhì)總體同質(zhì)總體表文件表文件客戶與產(chǎn)品客戶與產(chǎn)品整體間聯(lián)系整體間聯(lián)系異質(zhì)總體異質(zhì)總體數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)概念模型概念模型邏輯模型邏輯模型物理模型物理模型現(xiàn)實(shí)世界現(xiàn)實(shí)世界第一級(jí)抽象第一級(jí)抽象第二級(jí)抽象第二級(jí)抽象第三級(jí)抽象第三級(jí)抽象分類:分類:概念模型概念模型邏輯模型邏輯模型物理模型物理模型特征:特征:內(nèi)容:描述了數(shù)據(jù)、及其之間的關(guān)系內(nèi)容:描述了數(shù)據(jù)、及其之間的關(guān)系形式:反映了數(shù)據(jù)的組織與管理形式:反映了數(shù)據(jù)的組織與管理用途:用途:(數(shù)據(jù)倉(cāng)庫(kù))系統(tǒng)建設(shè)中的數(shù)據(jù)信息藍(lán)圖(數(shù)據(jù)倉(cāng)庫(kù))系統(tǒng)建設(shè)中的數(shù)據(jù)信息藍(lán)圖(數(shù)據(jù)倉(cāng)庫(kù))系統(tǒng)建設(shè)的核心(數(shù)據(jù)倉(cāng)庫(kù))系統(tǒng)建設(shè)的核心業(yè)務(wù)人員與業(yè)務(wù)人員與ITIT人員溝通的語(yǔ)

4、言和工具人員溝通的語(yǔ)言和工具 概念模型概念模型描述的是從客觀世界到主觀認(rèn)識(shí)的映射,描述的是從客觀世界到主觀認(rèn)識(shí)的映射,它是用于我們?yōu)橐欢ǖ哪繕?biāo)設(shè)計(jì)系統(tǒng)、收集信息而服務(wù)它是用于我們?yōu)橐欢ǖ哪繕?biāo)設(shè)計(jì)系統(tǒng)、收集信息而服務(wù)的一個(gè)的一個(gè)概念性概念性工具。工具。 進(jìn)行概念模型設(shè)計(jì)所要完成的工作有:進(jìn)行概念模型設(shè)計(jì)所要完成的工作有: 界定系統(tǒng)邊界界定系統(tǒng)邊界,即進(jìn)行任務(wù)和環(huán)境評(píng)估、需求收集和分,即進(jìn)行任務(wù)和環(huán)境評(píng)估、需求收集和分析,了解用戶迫切需要解決的問題及解決這些問題所需析,了解用戶迫切需要解決的問題及解決這些問題所需要的信息,要對(duì)現(xiàn)有數(shù)據(jù)庫(kù)中的內(nèi)容有一個(gè)完整而清晰要的信息,要對(duì)現(xiàn)有數(shù)據(jù)庫(kù)中的內(nèi)容有一個(gè)

5、完整而清晰的認(rèn)識(shí)。的認(rèn)識(shí)。 確定主要的主題域及其內(nèi)容確定主要的主題域及其內(nèi)容,即要確定系統(tǒng)所包含的主,即要確定系統(tǒng)所包含的主題域,然后對(duì)每一個(gè)主題域的公共碼鍵、主題域之間的題域,然后對(duì)每一個(gè)主題域的公共碼鍵、主題域之間的聯(lián)系、充分代表主題的屬性組進(jìn)行較為明確的描述。聯(lián)系、充分代表主題的屬性組進(jìn)行較為明確的描述。 數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)可以采用兩種方法:數(shù)據(jù)倉(cāng)庫(kù)的概念模型設(shè)計(jì)可以采用兩種方法: E-R模型模型和和面向?qū)ο竺嫦驅(qū)ο蟮姆治龇椒ā5姆治龇椒ā?E-R圖圖任務(wù)和任務(wù)和環(huán)境評(píng)估環(huán)境評(píng)估需求的收需求的收集和分析集和分析主題選取,主題選取,確定主題間關(guān)系確定主題間關(guān)系主題內(nèi)主題內(nèi)容描述容描述E

6、-R圖圖對(duì)主題的選擇進(jìn)行調(diào)整對(duì)主題的選擇進(jìn)行調(diào)整例:例:假設(shè)有商品、客戶和供應(yīng)商三個(gè)實(shí)體。假設(shè)有商品、客戶和供應(yīng)商三個(gè)實(shí)體。 客戶有如下屬性:客戶有如下屬性:客戶固有信息客戶固有信息客戶購(gòu)物信息客戶購(gòu)物信息 供應(yīng)商有如下屬性組:供應(yīng)商有如下屬性組:供應(yīng)商固有信息供應(yīng)商固有信息供應(yīng)商品信息供應(yīng)商品信息 商品有如下屬性:商品有如下屬性:商品固有信息商品固有信息商品庫(kù)存信息商品庫(kù)存信息商品銷售信息商品銷售信息商品采購(gòu)信心商品采購(gòu)信心供應(yīng)商供應(yīng)商商品商品客戶客戶日期日期供應(yīng)商號(hào)供應(yīng)商號(hào)供應(yīng)商固供應(yīng)商固有信息有信息供應(yīng)商供應(yīng)商品信息品信息日期日期客戶號(hào)客戶號(hào)客戶購(gòu)客戶購(gòu)物信息物信息客戶固客戶固有信息有信

7、息日期日期商品號(hào)商品號(hào)商品固商品固有信息有信息商品庫(kù)商品庫(kù)存信息存信息商品銷商品銷售信息售信息商品采商品采購(gòu)信息購(gòu)信息供應(yīng)供應(yīng)購(gòu)買購(gòu)買長(zhǎng)方形:長(zhǎng)方形:實(shí)體實(shí)體橢圓形:橢圓形:實(shí)體的屬性組實(shí)體的屬性組菱形:菱形:實(shí)體之間的聯(lián)系實(shí)體之間的聯(lián)系 面向?qū)ο蟮姆治龇椒嫦驅(qū)ο蟮姆治龇椒ú捎妹嫦驅(qū)ο蠓椒ㄟM(jìn)行概念模型設(shè)計(jì)時(shí),采用面向?qū)ο蠓椒ㄟM(jìn)行概念模型設(shè)計(jì)時(shí),E-RE-R模型模型中的實(shí)體轉(zhuǎn)化為面向?qū)ο笙到y(tǒng)中的中的實(shí)體轉(zhuǎn)化為面向?qū)ο笙到y(tǒng)中的類類,E-RE-R模型中實(shí)模型中實(shí)體的屬性對(duì)應(yīng)面向?qū)ο笙到y(tǒng)中類的體的屬性對(duì)應(yīng)面向?qū)ο笙到y(tǒng)中類的屬性屬性,E-RE-R模型中模型中實(shí)體間的關(guān)系表現(xiàn)為面向?qū)ο笙到y(tǒng)中實(shí)體間的關(guān)系

8、表現(xiàn)為面向?qū)ο笙到y(tǒng)中類間的關(guān)系類間的關(guān)系。需求分析需求分析選擇類選擇類確定類間關(guān)系確定類間關(guān)系描述類屬性、動(dòng)作描述類屬性、動(dòng)作對(duì)類的選擇進(jìn)行調(diào)整對(duì)類的選擇進(jìn)行調(diào)整類常用的圖形表示方法是類常用的圖形表示方法是類表類表,類之間存在三種,類之間存在三種關(guān)系:關(guān)系:繼承繼承、包含包含和和關(guān)聯(lián)關(guān)聯(lián)。汽車汽車屬性:屬性:顏色顏色類型類型動(dòng)作:動(dòng)作:行駛()行駛()類名類名類的屬性集合類的屬性集合類的動(dòng)作集合類的動(dòng)作集合面向?qū)ο蟮姆治龇椒嫦驅(qū)ο蟮姆治龇椒ń煌üぞ呓煌üぞ咂嚻囕喆喆疖嚮疖噷W(xué)校學(xué)校學(xué)生學(xué)生教師教師教師教師學(xué)生學(xué)生教教/學(xué)學(xué)繼承關(guān)系包含關(guān)系關(guān)聯(lián)關(guān)系邏輯模型是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中主題的邏輯實(shí)現(xiàn),從

9、邏輯模型是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中主題的邏輯實(shí)現(xiàn),從支持支持決策的角度決策的角度去定義數(shù)據(jù)實(shí)體去定義數(shù)據(jù)實(shí)體,更適合大量復(fù)雜查詢更適合大量復(fù)雜查詢。通常有兩種邏輯模型表示法:通常有兩種邏輯模型表示法:星型模型星型模型和和雪花模型雪花模型 分析主題域,定義邏輯模型分析主題域,定義邏輯模型 數(shù)據(jù)粒度的層次劃分?jǐn)?shù)據(jù)粒度的層次劃分 確定數(shù)據(jù)分割策略確定數(shù)據(jù)分割策略 增加導(dǎo)出字段增加導(dǎo)出字段進(jìn)行邏輯模型設(shè)計(jì)所要完成的主要工作有:進(jìn)行邏輯模型設(shè)計(jì)所要完成的主要工作有:部門維部門鍵總公司分公司代理處產(chǎn)品維時(shí)間鍵產(chǎn)品名稱產(chǎn)品描述產(chǎn)品銷售產(chǎn)品質(zhì)量地域維地域鍵國(guó)家省份城市時(shí)間維時(shí)間鍵年季度月日事實(shí)表銷售數(shù)量銷售金額地域鍵時(shí)間

10、鍵部門鍵產(chǎn)品鍵部門維部門鍵總公司分公司代理處產(chǎn)品維時(shí)間鍵產(chǎn)品名稱產(chǎn)品描述產(chǎn)品銷售產(chǎn)品質(zhì)量地域維地域鍵國(guó)家鍵省份鍵城市鍵時(shí)間維時(shí)間鍵年季節(jié)月日事實(shí)表總公司分公司代理處地域鍵時(shí)間鍵部門鍵產(chǎn)品鍵國(guó)家維國(guó)家鍵國(guó)家名稱省份維省份鍵省份名稱城市維城市鍵城市名稱屬性屬性星型模型星型模型雪花模型雪花模型數(shù)據(jù)總量數(shù)據(jù)總量多多少少可讀性可讀性容易容易差差表個(gè)數(shù)表個(gè)數(shù)少少多多查詢速度查詢速度快快慢慢冗余度冗余度高高低低對(duì)實(shí)時(shí)表的情況對(duì)實(shí)時(shí)表的情況增加寬度增加寬度字段比較少,冗余底字段比較少,冗余底擴(kuò)展性擴(kuò)展性差差好好 數(shù)據(jù)粒度層次劃分?jǐn)?shù)據(jù)粒度層次劃分高度綜合級(jí)高度綜合級(jí)輕度綜合級(jí)輕度綜合級(jí)當(dāng)前綜合級(jí)當(dāng)前綜合級(jí)早期細(xì)

11、節(jié)級(jí)早期細(xì)節(jié)級(jí)多級(jí)數(shù)據(jù)組織結(jié)構(gòu)多級(jí)數(shù)據(jù)組織結(jié)構(gòu)每月電話呼叫信息每月電話呼叫信息每天電話呼叫信息每天電話呼叫信息電話呼叫情況信息電話呼叫情況信息電話呼叫明細(xì)信息電話呼叫明細(xì)信息 直接存儲(chǔ)細(xì)節(jié)數(shù)據(jù)并定期在細(xì)節(jié)數(shù)據(jù)基礎(chǔ)上進(jìn)行數(shù)據(jù)綜合直接存儲(chǔ)細(xì)節(jié)數(shù)據(jù)并定期在細(xì)節(jié)數(shù)據(jù)基礎(chǔ)上進(jìn)行數(shù)據(jù)綜合 從數(shù)據(jù)裝載之后,所有細(xì)節(jié)數(shù)據(jù)都將保留在數(shù)據(jù)倉(cāng)庫(kù)中從數(shù)據(jù)裝載之后,所有細(xì)節(jié)數(shù)據(jù)都將保留在數(shù)據(jù)倉(cāng)庫(kù)中 存儲(chǔ)期限(存儲(chǔ)期限(510年)到了之后,才會(huì)導(dǎo)到后備設(shè)備(如磁帶)中年)到了之后,才會(huì)導(dǎo)到后備設(shè)備(如磁帶)中 對(duì)于細(xì)節(jié)數(shù)據(jù)只保留近期的數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中,當(dāng)對(duì)于細(xì)節(jié)數(shù)據(jù)只保留近期的數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中,當(dāng)保留周期保留周期到達(dá)時(shí),

12、將距離當(dāng)前較遠(yuǎn)的數(shù)據(jù)導(dǎo)出到磁盤上,從而為新的到達(dá)時(shí),將距離當(dāng)前較遠(yuǎn)的數(shù)據(jù)導(dǎo)出到磁盤上,從而為新的數(shù)據(jù)騰出空間。數(shù)據(jù)騰出空間。 數(shù)據(jù)倉(cāng)庫(kù)中只保留在細(xì)節(jié)數(shù)據(jù)保留周期內(nèi)的數(shù)據(jù),對(duì)于這個(gè)數(shù)據(jù)倉(cāng)庫(kù)中只保留在細(xì)節(jié)數(shù)據(jù)保留周期內(nèi)的數(shù)據(jù),對(duì)于這個(gè)周期之后的信息,數(shù)據(jù)倉(cāng)庫(kù)只保留其綜合數(shù)據(jù)周期之后的信息,數(shù)據(jù)倉(cāng)庫(kù)只保留其綜合數(shù)據(jù)。數(shù)據(jù)粒度數(shù)據(jù)粒度層次劃分層次劃分 要接受的分析類型要接受的分析類型粒度層次粒度層次越高越高,就,就越不能越不能進(jìn)行細(xì)節(jié)分析進(jìn)行細(xì)節(jié)分析 可接受的最低粒度可接受的最低粒度粒度劃分策略一定要保證數(shù)據(jù)的粒度確實(shí)能夠滿足用戶的決粒度劃分策略一定要保證數(shù)據(jù)的粒度確實(shí)能夠滿足用戶的決策分析需要。策分

13、析需要。 能存儲(chǔ)數(shù)據(jù)的存儲(chǔ)容量能存儲(chǔ)數(shù)據(jù)的存儲(chǔ)容量若存儲(chǔ)容量有限,則只能采用較高粒度的數(shù)據(jù)粒度劃分策略若存儲(chǔ)容量有限,則只能采用較高粒度的數(shù)據(jù)粒度劃分策略必須用雙重粒度且需認(rèn)真設(shè)計(jì)20,000,00010,000,000最好使用雙重粒度10,000,0001,000,000如使用單一粒度,需認(rèn)真設(shè)計(jì)1,000,000100,000單一粒度,設(shè)計(jì)簡(jiǎn)單100,00010,000數(shù)據(jù)粒度策略5年內(nèi)數(shù)據(jù)量(行)1年內(nèi)數(shù)據(jù)量(行)Inmon的數(shù)據(jù)粒度策略的數(shù)據(jù)粒度策略 數(shù)據(jù)數(shù)據(jù)分割分割的的概念概念:將邏輯上統(tǒng)一的數(shù)據(jù)分散到各自:將邏輯上統(tǒng)一的數(shù)據(jù)分散到各自的物理單元中去以便能分別處理,提高數(shù)據(jù)處理效的物

14、理單元中去以便能分別處理,提高數(shù)據(jù)處理效率,數(shù)據(jù)分割后的數(shù)據(jù)單元稱為率,數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片分片。 數(shù)據(jù)分割的數(shù)據(jù)分割的標(biāo)準(zhǔn)標(biāo)準(zhǔn):可按日期、地域、業(yè)務(wù)領(lǐng)域或按:可按日期、地域、業(yè)務(wù)領(lǐng)域或按多個(gè)分割標(biāo)準(zhǔn)的組合。多個(gè)分割標(biāo)準(zhǔn)的組合。 數(shù)據(jù)分割的數(shù)據(jù)分割的目的目的:便于進(jìn)行數(shù)據(jù)的重構(gòu)、索引、重:便于進(jìn)行數(shù)據(jù)的重構(gòu)、索引、重組、恢復(fù)組、恢復(fù)數(shù)據(jù)分割策略數(shù)據(jù)分割策略 數(shù)據(jù)量的大小數(shù)據(jù)量的大小:數(shù)據(jù)量較小,可以不進(jìn)行分割,或只用單一標(biāo)準(zhǔn)數(shù)據(jù)量較小,可以不進(jìn)行分割,或只用單一標(biāo)準(zhǔn)進(jìn)行分割進(jìn)行分割。數(shù)據(jù)量很大,應(yīng)當(dāng)采用多重標(biāo)準(zhǔn)的組合來較細(xì)致地分?jǐn)?shù)據(jù)量很大,應(yīng)當(dāng)采用多重標(biāo)準(zhǔn)的組合來較細(xì)致地分割數(shù)據(jù)割數(shù)據(jù)

15、 數(shù)據(jù)分析處理的實(shí)際情況數(shù)據(jù)分析處理的實(shí)際情況:數(shù)據(jù)分割是跟數(shù)據(jù)分析處理的對(duì)象數(shù)據(jù)分割是跟數(shù)據(jù)分析處理的對(duì)象緊密聯(lián)系的。緊密聯(lián)系的。 簡(jiǎn)單易行簡(jiǎn)單易行:選擇用于數(shù)據(jù)分割的標(biāo)準(zhǔn)應(yīng)當(dāng)是自然的、易于實(shí)施的選擇用于數(shù)據(jù)分割的標(biāo)準(zhǔn)應(yīng)當(dāng)是自然的、易于實(shí)施的 與粒度的劃分策略相統(tǒng)一與粒度的劃分策略相統(tǒng)一:同一粒度層次上的數(shù)據(jù)需要進(jìn)行分同一粒度層次上的數(shù)據(jù)需要進(jìn)行分割時(shí),應(yīng)當(dāng)按照劃分粒度層次時(shí)使用的標(biāo)準(zhǔn)進(jìn)行分割割時(shí),應(yīng)當(dāng)按照劃分粒度層次時(shí)使用的標(biāo)準(zhǔn)進(jìn)行分割 數(shù)據(jù)的穩(wěn)定性數(shù)據(jù)的穩(wěn)定性:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)追加頻率不同,有的快,有數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)追加頻率不同,有的快,有的慢,將不同變化頻度的數(shù)據(jù)放在不同的表中進(jìn)行更新

16、處理的慢,將不同變化頻度的數(shù)據(jù)放在不同的表中進(jìn)行更新處理 數(shù)據(jù)分割考慮的因素?cái)?shù)據(jù)分割考慮的因素 導(dǎo)出字段是在原始數(shù)據(jù)的基礎(chǔ)上進(jìn)行總結(jié)或計(jì)導(dǎo)出字段是在原始數(shù)據(jù)的基礎(chǔ)上進(jìn)行總結(jié)或計(jì)算而生成的數(shù)據(jù)算而生成的數(shù)據(jù) 這些數(shù)據(jù)可以在以后的應(yīng)用中直接利用,避免這些數(shù)據(jù)可以在以后的應(yīng)用中直接利用,避免了重復(fù)計(jì)算了重復(fù)計(jì)算增加導(dǎo)出字段增加導(dǎo)出字段進(jìn)行邏輯模型設(shè)計(jì)所要完成的主要工作有:進(jìn)行邏輯模型設(shè)計(jì)所要完成的主要工作有:確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)確定數(shù)據(jù)的索引策略確定數(shù)據(jù)的索引策略確定數(shù)據(jù)的存儲(chǔ)策略確定數(shù)據(jù)的存儲(chǔ)策略存儲(chǔ)分配優(yōu)化存儲(chǔ)分配優(yōu)化物理模型是邏輯模型在數(shù)據(jù)倉(cāng)庫(kù)中的具體實(shí)現(xiàn)。物理模型是邏輯模型在

17、數(shù)據(jù)倉(cāng)庫(kù)中的具體實(shí)現(xiàn)。 數(shù)據(jù)倉(cāng)庫(kù)中包含巨量數(shù)據(jù),為了提高數(shù)據(jù)的訪問效率數(shù)據(jù)倉(cāng)庫(kù)中包含巨量數(shù)據(jù),為了提高數(shù)據(jù)的訪問效率和可靠性,必須認(rèn)真選擇數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)。對(duì)于數(shù)據(jù)存和可靠性,必須認(rèn)真選擇數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)。對(duì)于數(shù)據(jù)存儲(chǔ)問題的解決,有兩種可選的方式:儲(chǔ)問題的解決,有兩種可選的方式:分布存儲(chǔ)方式分布存儲(chǔ)方式和和集集中存儲(chǔ)方式中存儲(chǔ)方式。數(shù)據(jù)分布式存儲(chǔ)方式數(shù)據(jù)分布式存儲(chǔ)方式:數(shù)據(jù)分布式存儲(chǔ)是采用磁盤陣數(shù)據(jù)分布式存儲(chǔ)是采用磁盤陣列在多個(gè)節(jié)點(diǎn)間分布的方式來存儲(chǔ)數(shù)據(jù)。列在多個(gè)節(jié)點(diǎn)間分布的方式來存儲(chǔ)數(shù)據(jù)。集中式數(shù)據(jù)存儲(chǔ)方式:集中式數(shù)據(jù)存儲(chǔ)方式: 數(shù)據(jù)集中存儲(chǔ)是將現(xiàn)有的數(shù)據(jù)集中存儲(chǔ)是將現(xiàn)有的SAN或或NAS系統(tǒng)作

18、為服務(wù)器的存儲(chǔ)部分。系統(tǒng)作為服務(wù)器的存儲(chǔ)部分。 確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu) 確定索引策略確定索引策略在數(shù)據(jù)倉(cāng)庫(kù)中由于數(shù)據(jù)量很大,需要對(duì)數(shù)據(jù)的存取在數(shù)據(jù)倉(cāng)庫(kù)中由于數(shù)據(jù)量很大,需要對(duì)數(shù)據(jù)的存取路徑進(jìn)行仔細(xì)設(shè)計(jì)和選擇,建立專用的復(fù)雜的索引,路徑進(jìn)行仔細(xì)設(shè)計(jì)和選擇,建立專用的復(fù)雜的索引,以獲得最高的存取效率。常見的索引技術(shù)有:以獲得最高的存取效率。常見的索引技術(shù)有: BTreeBTree索引索引 位索引技術(shù)位索引技術(shù) 標(biāo)識(shí)技術(shù)標(biāo)識(shí)技術(shù) 廣義索引廣義索引 連接索引連接索引表的歸并表的歸并分割表的存放分割表的存放按列存儲(chǔ)按列存儲(chǔ) 確定數(shù)據(jù)存儲(chǔ)策略確定數(shù)據(jù)存儲(chǔ)策略存儲(chǔ)分配優(yōu)化是解決諸如數(shù)據(jù)塊大小、

19、緩沖區(qū)單元大存儲(chǔ)分配優(yōu)化是解決諸如數(shù)據(jù)塊大小、緩沖區(qū)單元大小和個(gè)數(shù)同系統(tǒng)配置相關(guān)的問題,通常不同的數(shù)據(jù)倉(cāng)庫(kù)小和個(gè)數(shù)同系統(tǒng)配置相關(guān)的問題,通常不同的數(shù)據(jù)倉(cāng)庫(kù)廠商都會(huì)根據(jù)其產(chǎn)品的應(yīng)用實(shí)例給出推薦的配置參數(shù),廠商都會(huì)根據(jù)其產(chǎn)品的應(yīng)用實(shí)例給出推薦的配置參數(shù),設(shè)計(jì)人員可以參考這些數(shù)據(jù),系統(tǒng)配置還要在系統(tǒng)維護(hù)設(shè)計(jì)人員可以參考這些數(shù)據(jù),系統(tǒng)配置還要在系統(tǒng)維護(hù)過程中根據(jù)實(shí)際情況過程中根據(jù)實(shí)際情況( (數(shù)據(jù)的增長(zhǎng)速度、用戶查詢的數(shù)量數(shù)據(jù)的增長(zhǎng)速度、用戶查詢的數(shù)量和額度和額度) )進(jìn)行調(diào)整。進(jìn)行調(diào)整。 存儲(chǔ)分配優(yōu)化存儲(chǔ)分配優(yōu)化第 3 章 數(shù)據(jù)存儲(chǔ)n3.13.1 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型n3.23.2

20、元數(shù)據(jù)存儲(chǔ)元數(shù)據(jù)存儲(chǔ)3.2.1 3.2.1 元數(shù)據(jù)的概念元數(shù)據(jù)的概念3.2.2 3.2.2 元數(shù)據(jù)的分類方法元數(shù)據(jù)的分類方法3.2.3 3.2.3 元數(shù)據(jù)的管理元數(shù)據(jù)的管理3.2.4 3.2.4 元數(shù)據(jù)的作用元數(shù)據(jù)的作用n3.33.3 數(shù)據(jù)集市數(shù)據(jù)集市n3.43.4 大數(shù)據(jù)存儲(chǔ)技術(shù)大數(shù)據(jù)存儲(chǔ)技術(shù)就是數(shù)據(jù)的數(shù)據(jù),用于建立、管就是數(shù)據(jù)的數(shù)據(jù),用于建立、管理、維護(hù)和使用數(shù)據(jù)倉(cāng)庫(kù)。元數(shù)據(jù)管理是企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的關(guān)理、維護(hù)和使用數(shù)據(jù)倉(cāng)庫(kù)。元數(shù)據(jù)管理是企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵組建,貫穿與建立數(shù)據(jù)倉(cāng)庫(kù)的整個(gè)過程。鍵組建,貫穿與建立數(shù)據(jù)倉(cāng)庫(kù)的整個(gè)過程。數(shù)據(jù)從哪里來數(shù)據(jù)從哪里來流通多長(zhǎng)時(shí)間流通多長(zhǎng)時(shí)間更新頻率是多大更新頻

21、率是多大數(shù)據(jù)的含義是什么數(shù)據(jù)的含義是什么數(shù)據(jù)已經(jīng)進(jìn)行了哪些計(jì)算、轉(zhuǎn)換和篩選數(shù)據(jù)已經(jīng)進(jìn)行了哪些計(jì)算、轉(zhuǎn)換和篩選例:每張數(shù)碼照片都包含例:每張數(shù)碼照片都包含EXIF信息,就是用來描述數(shù)碼圖片信息,就是用來描述數(shù)碼圖片的元數(shù)據(jù)。按照的元數(shù)據(jù)。按照Exif 2.1標(biāo)準(zhǔn),其中主要包含這樣一些信息標(biāo)準(zhǔn),其中主要包含這樣一些信息Image Description 圖像描述、來源圖像描述、來源 指設(shè)備名指設(shè)備名Artist 作者作者 有些相機(jī)可以輸入使用者的名字有些相機(jī)可以輸入使用者的名字 Make 生產(chǎn)者生產(chǎn)者 指產(chǎn)品生產(chǎn)廠家指產(chǎn)品生產(chǎn)廠家 Model 型號(hào)型號(hào) 指設(shè)備型號(hào)指設(shè)備型號(hào)Orientation方

22、向方向 有的相機(jī)支持,有的不支持有的相機(jī)支持,有的不支持 Software軟件軟件 顯示固件顯示固件Firmware版本版本 DateTime日期和時(shí)間日期和時(shí)間 基礎(chǔ)元數(shù)據(jù):基礎(chǔ)元數(shù)據(jù):基礎(chǔ)數(shù)據(jù)是指數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中基礎(chǔ)數(shù)據(jù)是指數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中所有的數(shù)據(jù)源、數(shù)據(jù)集市、數(shù)據(jù)倉(cāng)庫(kù)和應(yīng)用所有的數(shù)據(jù)源、數(shù)據(jù)集市、數(shù)據(jù)倉(cāng)庫(kù)和應(yīng)用中的數(shù)據(jù)中的數(shù)據(jù)。 數(shù)據(jù)處理元數(shù)據(jù):數(shù)據(jù)處理元數(shù)據(jù):數(shù)據(jù)處理元數(shù)據(jù)是數(shù)據(jù)倉(cāng)數(shù)據(jù)處理元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中與數(shù)據(jù)處理過程緊密相關(guān)的元數(shù)據(jù)庫(kù)系統(tǒng)中與數(shù)據(jù)處理過程緊密相關(guān)的元數(shù)據(jù),它包括數(shù)據(jù)加載、清理、更新、分析和管,它包括數(shù)據(jù)加載、清理、更新、分析和管理信息。理信息。按元數(shù)據(jù)的類型分類按

23、元數(shù)據(jù)的類型分類 概念元數(shù)據(jù)概念元數(shù)據(jù):應(yīng)用系統(tǒng)、預(yù)定義查詢和分析應(yīng)用應(yīng)用系統(tǒng)、預(yù)定義查詢和分析應(yīng)用相關(guān)的信息相關(guān)的信息 邏輯元數(shù)據(jù)邏輯元數(shù)據(jù):應(yīng)用數(shù)學(xué)語(yǔ)言的描述,它從某種程應(yīng)用數(shù)學(xué)語(yǔ)言的描述,它從某種程度是概念元數(shù)據(jù)的更深層次的描述度是概念元數(shù)據(jù)的更深層次的描述 物理元數(shù)據(jù)物理元數(shù)據(jù):關(guān)于數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)的最底層信息,關(guān)于數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)的最底層信息,包括事務(wù)規(guī)則、包括事務(wù)規(guī)則、SQL編碼、關(guān)系索引文件和分析編碼、關(guān)系索引文件和分析應(yīng)用代碼應(yīng)用代碼等等按按抽象層次抽象層次分類分類 管理元數(shù)據(jù)管理元數(shù)據(jù):是存儲(chǔ)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)技術(shù)細(xì)節(jié)的:是存儲(chǔ)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),用于開發(fā)和管理數(shù)據(jù)倉(cāng)庫(kù)。包

24、括:數(shù)據(jù),用于開發(fā)和管理數(shù)據(jù)倉(cāng)庫(kù)。包括: 數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述 匯總用的算法匯總用的算法 有操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的映射有操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的映射 用戶元數(shù)據(jù):用戶元數(shù)據(jù):從最終用戶角度描述數(shù)據(jù)倉(cāng)庫(kù)包括:從最終用戶角度描述數(shù)據(jù)倉(cāng)庫(kù)包括: 如何連接數(shù)據(jù)倉(cāng)庫(kù)如何連接數(shù)據(jù)倉(cāng)庫(kù) 可以訪問數(shù)據(jù)倉(cāng)庫(kù)的哪些數(shù)據(jù)可以訪問數(shù)據(jù)倉(cāng)庫(kù)的哪些數(shù)據(jù) 數(shù)據(jù)來自哪一個(gè)源系統(tǒng)數(shù)據(jù)來自哪一個(gè)源系統(tǒng)按按用戶角度用戶角度分類分類 工具元數(shù)據(jù)工具元數(shù)據(jù):指由指由ETL(數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)(數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)裝載)組件、數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)工具等產(chǎn)生的元數(shù)據(jù)據(jù)裝載)組件、數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)工具等產(chǎn)生的元數(shù)據(jù) 資源元數(shù)據(jù)

25、資源元數(shù)據(jù):指由操作系統(tǒng)、數(shù)據(jù)集市、數(shù)據(jù)庫(kù)和指由操作系統(tǒng)、數(shù)據(jù)集市、數(shù)據(jù)庫(kù)和數(shù)據(jù)字典生成的元數(shù)據(jù)數(shù)據(jù)字典生成的元數(shù)據(jù) 外部數(shù)據(jù):外部數(shù)據(jù):指的是從本地?cái)?shù)據(jù)倉(cāng)庫(kù)系統(tǒng)以外的其他指的是從本地?cái)?shù)據(jù)倉(cāng)庫(kù)系統(tǒng)以外的其他系統(tǒng)輸入的元數(shù)據(jù)。如業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)。系統(tǒng)輸入的元數(shù)據(jù)。如業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)。元數(shù)據(jù)來源元數(shù)據(jù)來源分類分類元數(shù)據(jù)管理功能元數(shù)據(jù)管理功能:數(shù)據(jù)的抽取數(shù)據(jù)的抽取數(shù)據(jù)建模數(shù)據(jù)建模數(shù)據(jù)存儲(chǔ)數(shù)據(jù)存儲(chǔ)數(shù)據(jù)展示數(shù)據(jù)展示元數(shù)據(jù)管理實(shí)現(xiàn)方法:元數(shù)據(jù)管理實(shí)現(xiàn)方法:集中式的元數(shù)據(jù)知識(shí)庫(kù)集中式的元數(shù)據(jù)知識(shí)庫(kù)分布式元數(shù)據(jù)知識(shí)庫(kù)分布式元數(shù)據(jù)知識(shí)庫(kù)+標(biāo)準(zhǔn)的元數(shù)據(jù)交換格式標(biāo)準(zhǔn)的元數(shù)據(jù)交換格式元數(shù)據(jù)管理工具元數(shù)據(jù)管

26、理工具元數(shù)據(jù)管理元數(shù)據(jù)管理數(shù)據(jù)抽取工具:數(shù)據(jù)抽取工具:*DataStage*Decision Base*Extract前端展現(xiàn)工具:前端展現(xiàn)工具:*Bo*Brio*cognos*DSS Agent建模工具:建模工具:*Erwin*Power Designer*Rose元數(shù)據(jù)存儲(chǔ)工具:元數(shù)據(jù)存儲(chǔ)工具:*Repository*MetaStage*WCC元數(shù)據(jù)是進(jìn)行數(shù)據(jù)集成所必需的元數(shù)據(jù)是進(jìn)行數(shù)據(jù)集成所必需的元數(shù)據(jù)定義的語(yǔ)義層可以幫助最終用戶理解數(shù)元數(shù)據(jù)定義的語(yǔ)義層可以幫助最終用戶理解數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。元數(shù)據(jù)是保證數(shù)據(jù)質(zhì)量的關(guān)鍵。元數(shù)據(jù)是保證數(shù)據(jù)質(zhì)量的關(guān)鍵。元數(shù)據(jù)可以支持需求變化。元

27、數(shù)據(jù)可以支持需求變化。第 3 章 數(shù)據(jù)存儲(chǔ)n3.13.1 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型n3.23.2 元數(shù)據(jù)存儲(chǔ)元數(shù)據(jù)存儲(chǔ)n3.33.3 數(shù)據(jù)集市數(shù)據(jù)集市3.3.1 3.3.1 數(shù)據(jù)集市的概念數(shù)據(jù)集市的概念3.3.2 3.3.2 數(shù)據(jù)集市的類型數(shù)據(jù)集市的類型3.3.3 3.3.3 企業(yè)級(jí)數(shù)據(jù)集市結(jié)構(gòu)企業(yè)級(jí)數(shù)據(jù)集市結(jié)構(gòu)n3.43.4 大數(shù)據(jù)存儲(chǔ)技術(shù)大數(shù)據(jù)存儲(chǔ)技術(shù) 靈活性:靈活性:要求數(shù)據(jù)倉(cāng)庫(kù)能夠滿足所有最終用戶的需求,但是各個(gè)要求數(shù)據(jù)倉(cāng)庫(kù)能夠滿足所有最終用戶的需求,但是各個(gè)部門業(yè)務(wù)不同,需求側(cè)重點(diǎn)不同,且需求也是不斷變化的。這就部門業(yè)務(wù)不同,需求側(cè)重點(diǎn)不同,且需求也是不斷變化的。這就要求

28、數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的數(shù)據(jù)具有充分的靈活性,以適應(yīng)各類用戶的要求數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的數(shù)據(jù)具有充分的靈活性,以適應(yīng)各類用戶的查詢和分析查詢和分析 性能:性能:最終用戶對(duì)信息檢索要求是高性能的,即越快越好最終用戶對(duì)信息檢索要求是高性能的,即越快越好 數(shù)據(jù)倉(cāng)庫(kù)開發(fā)周期長(zhǎng)數(shù)據(jù)倉(cāng)庫(kù)開發(fā)周期長(zhǎng) 數(shù)據(jù)集市是一種小型的部門級(jí)的數(shù)據(jù)倉(cāng)庫(kù),主要面向部數(shù)據(jù)集市是一種小型的部門級(jí)的數(shù)據(jù)倉(cāng)庫(kù),主要面向部門級(jí)業(yè)務(wù),并且只面向某個(gè)特定的主題,是為滿足特定門級(jí)業(yè)務(wù),并且只面向某個(gè)特定的主題,是為滿足特定用戶(一般是部門級(jí)別的)的需求而建立的一種分析型用戶(一般是部門級(jí)別的)的需求而建立的一種分析型環(huán)境。環(huán)境。 投資規(guī)模比較小,更關(guān)注在數(shù)據(jù)

29、中構(gòu)建復(fù)雜的業(yè)務(wù)規(guī)則投資規(guī)模比較小,更關(guān)注在數(shù)據(jù)中構(gòu)建復(fù)雜的業(yè)務(wù)規(guī)則來支持功能強(qiáng)大的分析來支持功能強(qiáng)大的分析 常稱為常稱為“小數(shù)據(jù)倉(cāng)庫(kù)小數(shù)據(jù)倉(cāng)庫(kù)”或或“部門級(jí)數(shù)據(jù)倉(cāng)庫(kù)部門級(jí)數(shù)據(jù)倉(cāng)庫(kù)” 數(shù)據(jù)集市的定義數(shù)據(jù)集市的定義 單純用數(shù)據(jù)量大小來區(qū)分?jǐn)?shù)據(jù)集市和數(shù)據(jù)倉(cāng)庫(kù)單純用數(shù)據(jù)量大小來區(qū)分?jǐn)?shù)據(jù)集市和數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)集市容易建立數(shù)據(jù)集市容易建立 數(shù)據(jù)集市容易升級(jí)到數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市容易升級(jí)到數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)集市的誤區(qū)數(shù)據(jù)集市的誤區(qū)從屬型數(shù)據(jù)集市的數(shù)據(jù)來自于企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù),是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的子從屬型數(shù)據(jù)集市的數(shù)據(jù)來自于企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù),是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的子集。各數(shù)據(jù)集市中數(shù)據(jù)的組織、格式和結(jié)構(gòu)在整個(gè)系統(tǒng)中保持一致一般為

30、集。各數(shù)據(jù)集市中數(shù)據(jù)的組織、格式和結(jié)構(gòu)在整個(gè)系統(tǒng)中保持一致一般為那些訪問數(shù)據(jù)倉(cāng)庫(kù)十分頻繁的關(guān)鍵業(yè)務(wù)部門建立從屬型數(shù)據(jù)集市,這樣可那些訪問數(shù)據(jù)倉(cāng)庫(kù)十分頻繁的關(guān)鍵業(yè)務(wù)部門建立從屬型數(shù)據(jù)集市,這樣可以更好地提高查詢反應(yīng)速度。以更好地提高查詢反應(yīng)速度。數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市數(shù)據(jù)集市從從屬屬型型數(shù)數(shù)據(jù)據(jù)集集市市從屬型數(shù)據(jù)集市從屬型數(shù)據(jù)集市獨(dú)立型數(shù)據(jù)集市,是指它的數(shù)據(jù)直接來源于各操作數(shù)據(jù)環(huán)境,當(dāng)獨(dú)立型數(shù)據(jù)集市,是指它的數(shù)據(jù)直接來源于各操作數(shù)據(jù)環(huán)境,當(dāng)為各個(gè)部門建立相關(guān)數(shù)據(jù)集市后,這些數(shù)據(jù)集市之間相互獨(dú)立,可為各個(gè)部門建立相關(guān)數(shù)據(jù)集市后,這些數(shù)據(jù)集市之間相互獨(dú)立,可能具有不同的數(shù)據(jù)存儲(chǔ)類型。能

31、具有不同的數(shù)據(jù)存儲(chǔ)類型。獨(dú)獨(dú)立立型型數(shù)數(shù)據(jù)據(jù)集集市市數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)集市數(shù)據(jù)集市獨(dú)立型數(shù)據(jù)集市獨(dú)立型數(shù)據(jù)集市 數(shù)據(jù)集市與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別數(shù)據(jù)集市與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別第 3 章 數(shù)據(jù)存儲(chǔ)n3.13.1 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型n3.23.2 元數(shù)據(jù)存儲(chǔ)元數(shù)據(jù)存儲(chǔ)n3.33.3 數(shù)據(jù)集市數(shù)據(jù)集市n3.43.4 大數(shù)據(jù)存儲(chǔ)技術(shù)大數(shù)據(jù)存儲(chǔ)技術(shù)數(shù)據(jù)量增加TBTBPBPBZBZBEBEB根據(jù)根據(jù)IDC IDC 監(jiān)測(cè),人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級(jí)監(jiān)測(cè),人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級(jí)增長(zhǎng),大約每?jī)赡攴环?,這個(gè)速度在增長(zhǎng),大約每?jī)赡攴环?,這個(gè)速度在2020 2020 年之年之前會(huì)繼續(xù)保持下去。這意味著人

32、類在最近兩年產(chǎn)前會(huì)繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長(zhǎng)半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長(zhǎng) 這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠(yuǎn)遠(yuǎn)超越了目前人力所能處這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇理的范疇 大數(shù)據(jù)時(shí)代正在來臨大數(shù)據(jù)時(shí)代正在來臨體量Volume多樣性Variety價(jià)值 Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長(zhǎng)的超大規(guī)模和增長(zhǎng) 占總數(shù)據(jù)量

33、的占總數(shù)據(jù)量的8090%8090% 比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快1010倍到倍到5050倍倍 是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的1010倍到倍到5050倍倍大數(shù)據(jù)的大數(shù)據(jù)的異構(gòu)和多樣性異構(gòu)和多樣性 很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù))很多不同形式(文本、圖像、視頻、機(jī)器數(shù)據(jù)) 無(wú)模式或者模式不明顯無(wú)模式或者模式不明顯 不連貫的語(yǔ)法或句義不連貫的語(yǔ)法或句義 大量的不相關(guān)信息大量的不相關(guān)信息 對(duì)未來趨勢(shì)與模式的可預(yù)測(cè)分析對(duì)未來趨勢(shì)與模式的可預(yù)測(cè)分析 深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能VsVs傳統(tǒng)商務(wù)傳統(tǒng)商務(wù)智能智能( (咨詢、報(bào)告等)咨詢、報(bào)告等)實(shí)時(shí)分析

34、實(shí)時(shí)分析而非批量式分析而非批量式分析 數(shù)據(jù)輸入、處理與丟棄數(shù)據(jù)輸入、處理與丟棄 立竿見影而非事后見效立竿見影而非事后見效 數(shù)據(jù)庫(kù)管理系統(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng)層次數(shù)據(jù)庫(kù)層次數(shù)據(jù)庫(kù)網(wǎng)狀數(shù)據(jù)庫(kù)網(wǎng)狀數(shù)據(jù)庫(kù)關(guān)系數(shù)據(jù)庫(kù)關(guān)系數(shù)據(jù)庫(kù) 上一層記錄類型和下一層記錄類型的聯(lián)系是1:N聯(lián)系,容易產(chǎn)生數(shù)據(jù)冗余 不能表達(dá)含有多對(duì)多關(guān)系的復(fù)雜結(jié)構(gòu),容易引起數(shù)據(jù)不一致 數(shù)據(jù)庫(kù)管理系統(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng)層次數(shù)據(jù)庫(kù)層次數(shù)據(jù)庫(kù)網(wǎng)狀數(shù)據(jù)庫(kù)網(wǎng)狀數(shù)據(jù)庫(kù)關(guān)系數(shù)據(jù)庫(kù)關(guān)系數(shù)據(jù)庫(kù) 數(shù)據(jù)量越大,結(jié)構(gòu)越復(fù)雜,不利于用戶掌握數(shù)據(jù)量越大,結(jié)構(gòu)越復(fù)雜,不利于用戶掌握 用戶必須了解系統(tǒng)存儲(chǔ)結(jié)構(gòu)的細(xì)節(jié),加重了編程的負(fù)擔(dān)用戶必須了解系統(tǒng)存儲(chǔ)結(jié)構(gòu)的細(xì)節(jié),加重了編程的負(fù)擔(dān) 數(shù)據(jù)庫(kù)管理系統(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng)層次數(shù)據(jù)庫(kù)層次數(shù)據(jù)庫(kù)網(wǎng)狀數(shù)據(jù)庫(kù)網(wǎng)狀數(shù)據(jù)庫(kù)關(guān)系數(shù)據(jù)庫(kù)關(guān)系數(shù)據(jù)庫(kù)行式存儲(chǔ) 數(shù)據(jù)存放在數(shù)據(jù)文件內(nèi) 數(shù)據(jù)文件的基本組成單位:塊/頁(yè) 塊內(nèi)結(jié)構(gòu):塊頭、數(shù)據(jù)區(qū)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論