數(shù)據(jù)庫新技術(shù)概述課件_第1頁
數(shù)據(jù)庫新技術(shù)概述課件_第2頁
數(shù)據(jù)庫新技術(shù)概述課件_第3頁
數(shù)據(jù)庫新技術(shù)概述課件_第4頁
數(shù)據(jù)庫新技術(shù)概述課件_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第10章數(shù)據(jù)庫新技術(shù)概述 本章要點(diǎn)分布式數(shù)據(jù)庫的概念、特點(diǎn)和體系結(jié)構(gòu)面向?qū)ο髷?shù)據(jù)庫的理論和實(shí)現(xiàn)方法數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)挖掘技術(shù)銻店損終賬矩記西蓮闖甩昂議貴紅日龐榆橢改懾白黑揭泄痕創(chuàng)逸蜀怎顴集第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第1頁,共41頁。 新一代的數(shù)據(jù)庫技術(shù)主要體現(xiàn)在以下幾個方面: (1) 整體系統(tǒng)方面,相對傳統(tǒng)數(shù)據(jù)庫而言,在數(shù)據(jù)模型及其語言、事務(wù)處理與執(zhí)行模型、數(shù)據(jù)庫邏輯組織與物理存儲等各個方面,都集成了新的技術(shù)、工具和機(jī)制。屬于這類數(shù)據(jù)庫新技術(shù)的有:面向?qū)ο髷?shù)據(jù)庫(Object-Orient Database),主動數(shù)據(jù)庫(Active Database),

2、實(shí)時數(shù)據(jù)庫(Real-Time Database)。 (2) 體系結(jié)構(gòu)方面,不改變數(shù)據(jù)庫基本原理,而是在系統(tǒng)的體系結(jié)構(gòu)方面采用和集成了新的技術(shù)。屬于這方面的數(shù)據(jù)庫新技術(shù)有:分布式數(shù)據(jù)庫(Distributed Database),并行數(shù)據(jù)庫(Parallel Database),數(shù)據(jù)倉庫(Data Warehouse)。 (3) 應(yīng)用方面,以特定應(yīng)用領(lǐng)域的需要為出發(fā)點(diǎn),在某些方面采用和引入一些非傳統(tǒng)數(shù)據(jù)庫技術(shù),加強(qiáng)系統(tǒng)對有關(guān)應(yīng)用的支撐能力。 屬于這類的數(shù)據(jù)庫新技術(shù)有:鴦碴默否渝披彼骯齡猖毗驢朔最示獻(xiàn)莉退圃扳財湍屬譴逸賣熬瑞藉郴稻分第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/202

3、2第2頁,共41頁。工程數(shù)據(jù)庫(Engineering Database),支持CAD、CAM、CIMS等應(yīng)用領(lǐng)域,空間數(shù)據(jù)庫(Spatial Database),包括地理數(shù)據(jù)庫(Geographic Database),支持地理信息系統(tǒng)(GIS)的應(yīng)用,科學(xué)與統(tǒng)計數(shù)據(jù)庫(Scientific and Statistic Database),支持統(tǒng)計數(shù)據(jù)中的應(yīng)用,超文檔數(shù)據(jù)庫(Hyperdocument Database),包括多媒體數(shù)據(jù)庫(Multimedia Database)。整挪陶條堂寨酣熟砷埃陰篇呼稠落盆腐菱角眉照遁克嗆布贍話胎朗疹邁窿第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述

4、7/29/2022第3頁,共41頁。10.1分布式數(shù)據(jù)庫10.1.1 分布式數(shù)據(jù)庫系統(tǒng)的概念 分布式數(shù)據(jù)庫系統(tǒng)中數(shù)據(jù)庫的數(shù)據(jù)存儲在物理上分布在計算機(jī)網(wǎng)絡(luò)的不同計算機(jī)中,系統(tǒng)中每一臺計算機(jī)被稱為一個結(jié)點(diǎn)(或場地)。在邏輯上是屬于同一個系統(tǒng)。其一般結(jié)構(gòu)如圖10-1所示。圖10-1 分布式數(shù)據(jù)庫系統(tǒng)邪肢甥露誨辰眺添堿桶舶隴僚霍綿眩床械猛全訝癡睬紀(jì)瞳能逗贊眺使手唾第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第4頁,共41頁。服務(wù)器1服務(wù)器2服務(wù)器3數(shù)據(jù)庫1數(shù)據(jù)庫2數(shù)據(jù)庫3服務(wù)器4數(shù)據(jù)庫4計算機(jī)網(wǎng) 絡(luò)局部應(yīng)用1局部應(yīng)用3局部應(yīng)用2局部應(yīng)用4全局應(yīng)用 圖10-1 分布式數(shù)據(jù)庫系統(tǒng)鴛酚

5、聰揀杠睫蟬證岔賭凍語喊淖忻糧訟省戈痙羞裂蘸慶舟佛爛零仿葫租憋第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第5頁,共41頁。10.1.2 分布式數(shù)據(jù)庫系統(tǒng)的特點(diǎn) 分布式數(shù)據(jù)庫系統(tǒng)主要有如下幾個特點(diǎn): (1) 數(shù)據(jù)的物理分布性。 (2) 數(shù)據(jù)的邏輯整體性。 (3) 結(jié)點(diǎn)的自主性。 數(shù)據(jù)獨(dú)立性。適當(dāng)增加數(shù)據(jù)冗余。全局的一致性、可串行性和可恢復(fù)性。10.1.3 分布式數(shù)據(jù)庫系統(tǒng)的體系結(jié)構(gòu) 集中式數(shù)據(jù)庫系統(tǒng)具有三級模式結(jié)構(gòu),分布式數(shù)據(jù)庫系統(tǒng)應(yīng)該由若干個局部數(shù)據(jù)模式加上一個全局?jǐn)?shù)據(jù)模式構(gòu)成。全局?jǐn)?shù)據(jù)模式用來協(xié)調(diào)各局部數(shù)據(jù)模式,使之成為一個整體的模式結(jié)構(gòu)。圖為分布式數(shù)據(jù)庫系統(tǒng)模式結(jié)構(gòu)的

6、一個參考模型?;郾胃罱阋K紗嚼認(rèn)泡矚器當(dāng)依飲郡龜黎渙晤幢森華朱帆參棄顆鉑莖幀氧第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第6頁,共41頁。圖10-2 分布式數(shù)據(jù)庫系統(tǒng)的模式結(jié)構(gòu)琺腫果鴉柳菩溫浴沏剎焚芽產(chǎn)旭納駭韶金饑掐霄牢哮疹梁競答守館募迭微第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第7頁,共41頁。 (1)全局外模式:是全局應(yīng)用的用戶視圖,是全局概念模式的子集。 (2)全局概念模式:是對分布式數(shù)據(jù)庫中全體數(shù)據(jù)的邏輯結(jié)構(gòu)和特征的描述,它不考慮數(shù)據(jù)分布的物理地點(diǎn)和分布細(xì)節(jié),使得數(shù)據(jù)如同沒有分布一樣。通常采用關(guān)系模型。 (3)分片模式:每一個全局關(guān)系可

7、以分為若干不相交的部分,每一部分稱為一個片段(Fragment)。分片模式定義片段以及全局關(guān)系到片段的映像。這種映像是一對多的,一個全局關(guān)系可對應(yīng)多個片段,而一個片段指來自一個全局關(guān)系。 數(shù)據(jù)分片的方法有: 水平分片:是指按一定的條件將關(guān)系按行(水平方向)分為若干個不相交的子集,每個子集為關(guān)系的一個片段。 垂直分片:是指將關(guān)系按列(垂直方向)分為若干子集。氏冶寶蘇弟攔訪努剝欄猖蛛真絨沒翌蹬屑茶嚇旗刺療礦磁化蒲粥濃杭樓豺第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第8頁,共41頁。 垂直分片的諸片段必須能夠重構(gòu)原來的全局關(guān)系,即可以用連接的方法恢復(fù)原關(guān)系,因此垂直分片的諸片

8、段通常都包含關(guān)系的碼。 導(dǎo)出分片:是指導(dǎo)出水平分片,即水平分片的條件不是本身屬性的條件而是其他關(guān)系的屬性的條件。 混合分片:是指按上述三種分片方式得到的片段繼續(xù)按另一種方式分片。如先水平分片再垂直分片,或先垂直分片再水平分片。 不管使用哪種分片方式,都應(yīng)保證滿足以下條件: 完備性: 不相交性: 可重構(gòu)性: (4) 分布模式:用來描述片段到不同結(jié)點(diǎn)間的映象,即各個片段的物理存放位置。獻(xiàn)錯哦哺罰斯倚揭藉弄般很廉吸男找透蓑蛔緊跡忠硯希彎斟檸舀嘉殼漏外第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第9頁,共41頁。10.1.4 分布式數(shù)據(jù)庫系統(tǒng)的發(fā)展前景 分布式數(shù)據(jù)庫興起與20世紀(jì)

9、70年代,經(jīng)過20多年的發(fā)展,分布式數(shù)據(jù)庫系統(tǒng)已發(fā)展得相當(dāng)成熟,其應(yīng)用領(lǐng)域涵蓋了OLTP應(yīng)用、分布式計算、互聯(lián)網(wǎng)上的應(yīng)用以及數(shù)據(jù)倉庫的應(yīng)用中。隨著計算機(jī)網(wǎng)絡(luò)的廣泛普及,新的應(yīng)用都體現(xiàn)了開放性和分布性的特點(diǎn)。從簡單的數(shù)據(jù)系統(tǒng)全球連網(wǎng)查詢,逐漸地轉(zhuǎn)向更具有分布式數(shù)據(jù)庫系統(tǒng)特色的應(yīng)用環(huán)境。因此,在當(dāng)前基于網(wǎng)絡(luò),具有分布性、開放性特點(diǎn)的應(yīng)用環(huán)境下,分布式數(shù)據(jù)庫系統(tǒng)將具有更好的發(fā)展前景和更廣泛的應(yīng)用領(lǐng)域。朝嫩形鴻枯宵玩湘芥閨拼伴摳齊各婪還拎侗腹虜今膚階塑插漾掉電溝賬仆第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第10頁,共41頁。10.2 面向?qū)ο髷?shù)據(jù)庫 面向?qū)ο蟮臄?shù)據(jù)庫系統(tǒng)(Ob

10、ject Oriented Database System,簡稱OODBS)是數(shù)據(jù)庫技術(shù)與面向?qū)ο蟪绦蛟O(shè)計方法相結(jié)合而產(chǎn)生的數(shù)據(jù)庫系統(tǒng)。10.2.1 面向?qū)ο髷?shù)據(jù)模型 面向?qū)ο髷?shù)據(jù)模型(Object-Oriented Data Model,簡稱O-O Data Model)是一種可擴(kuò)充的數(shù)據(jù)模型。在該數(shù)據(jù)模型中,數(shù)據(jù)模型是可擴(kuò)充的,即用戶可根據(jù)需要,自己定義新的數(shù)據(jù)類型及相應(yīng)的約束和操作。(1)對象 客觀世界中任何一個事物都可以看成一個對象(或者說,客觀世界是由千千萬萬個對象組成的,它們之間通過一定的渠道相互聯(lián)系)。如學(xué)校、一個班級、軍隊中的一個團(tuán)、一個連都是對象。疑烈擁元幣態(tài)帝異豫樞獄購?fù)碣|(zhì)

11、史癱藐座敦魏厘牙倔慶休繹崗臭釩熄雇另第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第11頁,共41頁。一個對象包括以下幾個部分:屬性集合 所有屬性合起來構(gòu)成了對象數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)。每一個對象都有自己的狀態(tài)、組成和特性,稱為對象的屬性。屬性可能是一個單值或值的集合,也可能是其他對象,即對象的嵌套,并且這種嵌套可以繼續(xù)下去,從而組成各種復(fù)雜的對象。 每個對象有惟一的對象標(biāo)識(OID:Object Identity),一個對象的OID是獨(dú)立于屬性值的,在系統(tǒng)中是唯一不變的。方法集合 方法是對象的行為特性。方法的定義包含兩個部分:一是方法的接口,包括方法的名稱、參數(shù)和結(jié)果類型;二是方

12、法的實(shí)現(xiàn)部分,它是一段程序編碼,以實(shí)現(xiàn)方法的功能,即對象操作的算法。岡訟滑瓢琵濟(jì)爺切稽粗意坷湊湃正艦沈奢鳳恢蟬夫申褒跺怔燼紉堵挎錢岡第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第12頁,共41頁。消息集合 消息是對象向外提供的界面,消息由對象接收和響應(yīng)。(2)類和實(shí)例 有一些對象是具有相同的結(jié)構(gòu)和特性的。類代表了某一批對象的共性和特征。每個對象都屬于一個類型,對象的類型就是類。類是對象的抽象,而對象是類的具體實(shí)例(Instance)。一個類中的所有對象其特性必須相同,即具有相同的屬性、響應(yīng)相同的消息、使用相同的方法。(3)類的繼承 一個新類可以通過對已有類進(jìn)行修改或擴(kuò)充某

13、些特性來滿足新類的要求,而這些特性并不和類的所有成員相關(guān)。從一個類繼承定義的新類,將繼承已有類的所有方法和屬性,并且可以添加新的方法和屬性。新類被稱為已有類的子類或派生類,已有類稱為父類或基類。式汀涅際擻獰囊湯耪旱材獸韓滅略昨溯婦并碌佬喉蘿佰喪發(fā)譽(yù)煤掃頹綠之第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第13頁,共41頁。 若一個子類只能繼承一個父類的特性,叫做單繼承;若一個子類能繼承多個父類的特性,叫做多重繼承。 例如,學(xué)校模型中有教職工和學(xué)生兩個類,其中教職工中又可分為教師類和行政人員類,所有教師有專業(yè)這一屬性,行政人員有行政級別屬性,它們是教職工的兩個子類。 同時教職

14、工和學(xué)生也具有某些相似的屬性,如都有身份證號碼、姓名、性別、年齡等,可以把它們看成是人的子類。其中在職研究生同時繼承了教職工和學(xué)生的特性,這種情況成為多重繼承。其類層次結(jié)構(gòu)如圖10-4所示。圖10-4 學(xué)校數(shù)據(jù)庫的類層次結(jié)構(gòu)圖咆或計揮長顯瘩粉瞅溉軍班跌它害嘻奴后蔣環(huán)無擇跟蛾熒甲涸獻(xiàn)欺膛探氦第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第14頁,共41頁。10.2.2 面向?qū)ο髷?shù)據(jù)庫建模 本節(jié)介紹面向?qū)ο髷?shù)據(jù)庫的模型描述工具ODL(對象定義語言),它是CORBA(公共對象請求代理程序體系結(jié)構(gòu))的一個組件。 ODL與具體的OODBMS無關(guān),和E-R圖一樣,是建立數(shù)據(jù)庫概念模型的

15、工具,也可以向DBMS支持的數(shù)據(jù)模型轉(zhuǎn)化,如圖10-5所示?,F(xiàn)實(shí)世界OODBMSODL抽象對象數(shù)據(jù)模式圖10-5 數(shù)據(jù)庫建模和實(shí)現(xiàn)的過程(1)ODL的類說明在對象的定義中主要包括以下幾個部分:關(guān)鍵字 Interface(接口)。類的名字。類的特性表,可以是屬性、 聯(lián)系、 方法。猴啊墻機(jī)汽殊卑魯蕭朝筒廳結(jié)間瘤奶眶敲債墳衙凹螢徘狄阮釜戶單瑣子倪第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第15頁,共41頁。 所以,ODL類說明的最簡單形式是:Interface ;(2)ODL中屬性的說明 屬性是類的一種最簡單的特性。例10.1 利用ODL描述學(xué)生(student)類,語句如下

16、:interface student /student是一個類attribute string sno; /屬性sno,其類型是stringattribute string name; /屬性name,其類型是stringattribute integer age;/屬性age,類型是整型attribute enum sextype male,female sex; /屬性sex,其類型是枚舉型;臉及篇很濤腳非撤鄂酋燴辜且貴潞裙蚜意廈絢糊存霄愉質(zhì)惟鬃劇幀皮遺渡第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第16頁,共41頁。 這是student類的說明,任何一個studen

17、t對象在這幾個屬性上均對應(yīng)一個分量。該例中的屬性均是原子的,事實(shí)上屬性類型可以是結(jié)構(gòu)、集合、聚集等復(fù)雜類型。例10.2 給出類college的ODL描述,有屬性name(學(xué)院名)、president(負(fù)責(zé)人)、 address(地址),其中address是一個結(jié)構(gòu),包括樓層和房間號: interface college attribute string name; attribute string president; attribute struct Addr string room,string flooraddress; ODL中的原子類型有: 整型(integer)、 浮點(diǎn)型(floa

18、t)、 字符(char)、 字符串(string)、 布爾型(boolean)和枚舉型(enum)。 復(fù)雜類型可以是集合、列表、數(shù)組和結(jié)構(gòu)等。纓蓬婆瑪燦山菩尼梢寓難歡轉(zhuǎn)烷享夫銹毅晶蹲作彼枝匪皿覽廬悅暇煙舌錐第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第17頁,共41頁。(3)ODL中的聯(lián)系 為了得到對象與同類或不同類的其他對象的連接方式,需要在類的定義中說明類與類之間的聯(lián)系。如學(xué)生類與學(xué)院類之間有聯(lián)系,一個學(xué)生對象總與某個學(xué)院對象有關(guān)系(從屬關(guān)系)。在student類說明中,可用下面的ODL語句表示這種聯(lián)系:Relationship college studyin; 該語

19、句說明在student類中的每個對象,都有一個對college對象的引用,引用名為studyin。(4)ODL中的類的繼承 假設(shè)類B是類A的子類,那么在定義類B時,可以在后加上:A,說明類B是類A的子類, 并可繼承類A的所有特性。例10.4 定義類postgraduate(研究生)為student的子類。娟抿伸頰玖壩嘛瑚曰擊鯉苦銜榨糕站阻巢憑嗅起脂的愈纏怕咖研寬嘲踴竭第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第18頁,共41頁。 interface postgraduate: student /類postgraduate是類student的子類Relationship

20、college member /所有的postgraduate對象都有一個聯(lián)系member,表/示該研究生屬于一個學(xué)院,并且一名研究生只屬于一個學(xué)院; 在多重繼承時,特性名之間可能會發(fā)生沖突。 如兩個或多個超類可能有同名的屬性或聯(lián)系,而這些特性的類型可能不同。 在ODL中提供以下幾種機(jī)制來建立解決多重繼承產(chǎn)生的沖突:指出超類特性的多個定義中哪一個用于子類;在子類中,對于有相同名字的另一個特性給一個新的名字;在子類中重新定義一個或多個超類中已定義的某些特性。(5)ODL中方法的說明 類的另一個特性是方法,方法是與類相關(guān)的函數(shù)。 類中的每一個對象都能引用方法,同一方法可用于多個類,這是面向?qū)ο笳Z言

21、的特點(diǎn)。方法說明中主要有方法名、方法的楞胚通節(jié)秘菊雍牌屈諄噸曾腫鄉(xiāng)篙謝慕倘訊更區(qū)嶼毯色橫砌護(hù)釀羨睡回筐第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第19頁,共41頁。輸入/輸出類型說明等。而方法的實(shí)際代碼是用宿主語言寫的,代碼本身不是ODL的一部分。調(diào)用方法時,可能會引起異常,即出現(xiàn)異?;蚍窍M那闆r,這種情況一般應(yīng)由某個函數(shù)來處理(相當(dāng)于出錯處理)。在ODL的方法說明中,提供關(guān)鍵字raises(引發(fā)),在括號里列出異常處理列表。例10.5 類student的擴(kuò)充定義,增加了方法的說明: interface student (key name) attribute str

22、ing sno; attribute string name; attribute integer age; attribute enum sextype male,female sex; Relationship college studyin Inverse college: owns;熄敝片潑危潭爽糕蔗靡蟬資像傻紐她扭佰功女創(chuàng)豆膠哆傀綱打昔匙香寐硯第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第20頁,共41頁。 Relationship set joins Inverse item: joinby; String Departname( ) raises(nodep

23、artFound) Otheritem(in item,out set)raise(noitemin); 第一個方法是Departname,該函數(shù)將產(chǎn)生一字符串型的返回值。 第二個方法是Otheritem,該函數(shù)沒有任何返回值,其輸入?yún)?shù)類型為item,輸出參數(shù)為student的對象集合。(6)E-R模型向面向?qū)ο髷?shù)據(jù)模型的轉(zhuǎn)換 當(dāng)建立了現(xiàn)實(shí)世界的E-R模型以后,可將其轉(zhuǎn)換為OO模型。轉(zhuǎn)換時,可按照以下的步驟進(jìn)行: 將E-R模型中的每個實(shí)體集生成一個類,實(shí)體集的屬性轉(zhuǎn)換為類的屬性。 將E-R模型中具有ISA聯(lián)系的實(shí)體集生成的類之間建立類/子類關(guān)系。藉宿促賣道莉玩狄廳杏舀亦涵呸伙疏舅再菩齊木瑪脈

24、盜糧耙漚壓遙奎差燃第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第21頁,共41頁。 在轉(zhuǎn)換得到的類中加入聯(lián)系的說明: 對原E-R模型中有一對一聯(lián)系的實(shí)體集,在其生成的類中,都加入聯(lián)系說明,說明其和另一個類中的一個對象有關(guān)。 對原E-R模型中有一對多聯(lián)系的實(shí)體集,在一方生成的類中,加入聯(lián)系說明,說明其和另一個類中的對象集合有關(guān); 在多方生成的類中,加入聯(lián)系說明,說明其和另一個類中的一個對象有關(guān)。 對原E-R模型中有多對多聯(lián)系的實(shí)體集,在其生成的類中,都加入聯(lián)系說明,說明其和另一個類中的對象集合有關(guān)。10.2.3 對象-關(guān)系數(shù)據(jù)庫 一個對象關(guān)系數(shù)據(jù)庫系統(tǒng)必須滿足兩個條件:一是

25、支持一核心的面向?qū)ο髷?shù)據(jù)模型;二是支持傳統(tǒng)數(shù)據(jù)庫系統(tǒng)所有的數(shù)據(jù)庫特征。 對象-關(guān)系數(shù)據(jù)庫系統(tǒng)就是按照這樣的目標(biāo)將關(guān)系數(shù)據(jù)庫宿眉延粘愧壩醛嘎撞福循撫絨馱簇外癱措鯉聶檢匆喚疏肖醉茸略寥吮掀愁第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第22頁,共41頁。系統(tǒng)與面向?qū)ο髷?shù)據(jù)庫系統(tǒng)兩方面的特征相結(jié)合。對象-關(guān)系數(shù)據(jù)庫系統(tǒng)除了具有原來關(guān)系數(shù)據(jù)庫的各種特點(diǎn)外,還應(yīng)該提供以下特點(diǎn): (1)擴(kuò)充數(shù)據(jù)類型 允許用戶自己定義數(shù)據(jù)類型、函數(shù)和操作符,而且這些新的數(shù)據(jù)類型、函數(shù)和操作符一經(jīng)定義將存放在數(shù)據(jù)庫管理系統(tǒng)核心中,如同基本數(shù)據(jù)類型一樣可供所有用戶共享。 (2)支持復(fù)雜對象 能夠在SQL中

26、支持復(fù)雜對象。復(fù)雜對象是指由多種基本數(shù)據(jù)類型或用戶自定義的數(shù)據(jù)類型構(gòu)成的對象。(3)支持繼承的概念 能夠支持子類、超類的概念,支持繼承與派生的概念,支持單繼承與多重繼承,支持重載。(4)提供通用的規(guī)則系統(tǒng) 能夠提供強(qiáng)大而通用的規(guī)則系統(tǒng),如規(guī)則中的事件和瘓咽灼債絲蹋搬暇褒通球抄陶盡讀歹碳裹么嚇答坊疑溺贍鵝省蓋糕蛻纏拙第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第23頁,共41頁。動作可以是任意的SQL語句,可以使用用戶自定義的函數(shù)、規(guī)則能夠被繼承等。 實(shí)現(xiàn)對象-關(guān)系數(shù)據(jù)庫系統(tǒng),可以采用方法: 從頭開發(fā)對象-關(guān)系數(shù)據(jù)庫系統(tǒng)。這種方法費(fèi)時費(fèi)力,一般不采用。 在現(xiàn)有的關(guān)系型數(shù)據(jù)庫

27、系統(tǒng)基礎(chǔ)上進(jìn)行擴(kuò)展。擴(kuò)展方法有五種: (1)對關(guān)系型數(shù)據(jù)庫系統(tǒng)核心進(jìn)行擴(kuò)充,逐漸增加對象特性。 (2)不修改現(xiàn)有的關(guān)系型數(shù)據(jù)庫系統(tǒng)核心,而是在現(xiàn)有關(guān)系型數(shù)據(jù)庫系統(tǒng)外面加上一個包裝層,由包裝層提供對象-關(guān)系型應(yīng)用編程接口。 (3)將現(xiàn)有的關(guān)系型數(shù)據(jù)庫系統(tǒng)與其他廠商的對象-關(guān)系型數(shù)據(jù)庫系統(tǒng)連接在一起,使現(xiàn)有的關(guān)系型數(shù)據(jù)庫系統(tǒng)直接而迅速地具有了對象-關(guān)系特征。弱嘴獻(xiàn)不體抨喝趣甫佃怎錄潰稅揍要芥牌傳擺碴勿蕾摧每氧咬奏玲靈芋積第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第24頁,共41頁。 (4)將現(xiàn)有的面向?qū)ο笮蛿?shù)據(jù)庫系統(tǒng)與其他廠商的對象-關(guān)系型數(shù)據(jù)庫系統(tǒng)連接,使現(xiàn)有的面向?qū)ο笮?/p>

28、數(shù)據(jù)庫系統(tǒng)直接而迅速地具有了對象-關(guān)系特征。 (5)擴(kuò)充現(xiàn)有的面向?qū)ο蟮臄?shù)據(jù)庫系統(tǒng),使之成為對象-關(guān)系型數(shù)據(jù)庫系統(tǒng)。割煎領(lǐng)央嘎卒隧換壁倦芳逛詫侮昧急蔭菠措活拍薔碧頹朗刻撇而秦售播簡第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第25頁,共41頁。10.3 數(shù)據(jù)倉庫10.3.1數(shù)據(jù)倉庫的定義與特征 數(shù)據(jù)倉庫涉及在關(guān)系數(shù)據(jù)庫中存儲數(shù)據(jù)和處理這些數(shù)據(jù),使數(shù)據(jù)成為查詢和決策支持分析的更加有效的工具。換句話說,數(shù)據(jù)倉庫是一種把收集的各種數(shù)據(jù)轉(zhuǎn)變成有商業(yè)價值的信息的技術(shù)。 目前,數(shù)據(jù)庫應(yīng)用主要有兩類:聯(lián)機(jī)事務(wù)處理和分析型處理。 聯(lián)機(jī)事務(wù)處理(OLTP)注重數(shù)據(jù)庫的完整性、安全性以及高可

29、用性。與OLTP不同,分析型處理主要用于管理人員的決策分析,通過對大量數(shù)據(jù)(特別是歷史數(shù)據(jù))的綜合、統(tǒng)計和分析得出有利于企業(yè)的決策信息。這種分析查詢,一般需要訪問大量的數(shù)據(jù)和花費(fèi)相對多的時間才能完成。而數(shù)據(jù)倉庫和聯(lián)機(jī)分析處理(OLAP)等技術(shù)能夠從多個數(shù)據(jù)源收集數(shù)據(jù),提供用戶進(jìn)行決策分析。幸攘沈刪計喊釣域貢齲爵拄霜玄朽傍激硼悍耳罷澎謹(jǐn)魏瑚舀移瘤棋試曹能第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第26頁,共41頁。 數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatil

30、e)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。對于數(shù)據(jù)倉庫的概念我們可以從兩個層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是對多個異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。 根據(jù)數(shù)據(jù)倉庫概念的含義,數(shù)據(jù)倉庫擁有以下四個特征: (1)面向主題。 (2)集成的。 (3)相對穩(wěn)定的。 (4)反映歷史變化。膘語胃陡莢紅索速綽兢竹揉汰烈脆撾叉憾契拾劃丁樟慣鴛擬撕圓返帝陷弟第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第27頁,共4

31、1頁。10.3.2 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu) 一個數(shù)據(jù)倉庫一般來說包含以下7個主要組成部分: (1)數(shù)據(jù)源 (2)數(shù)據(jù)抽取、轉(zhuǎn)換和裝載工具 (3)數(shù)據(jù)建模工具。 (4)核心存儲。 (5)數(shù)據(jù)倉庫的目標(biāo)數(shù)據(jù)庫。 (6)前端數(shù)據(jù)訪問和分析工具。 (7)數(shù)據(jù)倉庫管理工具。 數(shù)據(jù)倉庫的體系結(jié)構(gòu)如圖10-6所示:翔望商按壇霧粟吐躁去錠須雪甭危據(jù)耙貢槍笆步滋末彌瞄撻皚裸助嫡肋拎第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第28頁,共41頁。數(shù)據(jù)庫數(shù)據(jù)文件其它數(shù)據(jù)源數(shù)據(jù)倉庫管理工具專用多維數(shù)據(jù)庫管理系統(tǒng)用戶查詢工具數(shù)據(jù)抽取轉(zhuǎn)換工具核 心倉 儲數(shù)據(jù)建模工具關(guān)系型數(shù)據(jù)庫管理系統(tǒng)標(biāo)準(zhǔn)c/s工具

32、報 表工 具DSS/EIS工具分析工具圖10-6 數(shù)據(jù)倉庫體系結(jié)構(gòu)勛媳空誣偽醉塵烘峭隱悸腮慘篙鄧芭銥勢瘓拂癌吼遲奢似助纖客抿瘩漿木第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第29頁,共41頁。10.3.3 數(shù)據(jù)倉庫的數(shù)據(jù)庫模式 數(shù)據(jù)倉庫的基本組成是事實(shí)表和維表。這些組件能夠用于不同的設(shè)計中,比較流行的有星型模式和雪花模式。(1)事實(shí)表 事實(shí)表(Fact Table)是數(shù)據(jù)倉庫中存儲歷史商務(wù)數(shù)據(jù)的表。它們包含描述特定事件或業(yè)務(wù)的信息和數(shù)據(jù)的匯總。(2)維表 維表( Dimension Table)用于提煉事實(shí)表中所包含的數(shù)據(jù),或者更詳細(xì)地描述它。因此,數(shù)據(jù)類型一般是字符數(shù)

33、據(jù)。事實(shí)表和維表之間的關(guān)系由事實(shí)表到維表上的外碼約束。一般地,一個事實(shí)表的主碼由多部分組成,主碼的每一部分是它周圍維表的外碼。 與事實(shí)表不同,維表中的數(shù)據(jù)時常需要得到更新。 但是它僅需要在一個地方即維表中進(jìn)行修改,而不是在可能存在許多行的事實(shí)表中進(jìn)行修改。囤扮黍祿基壯撮姨幼宙莽瞧氈隕房囚蛆送求組鍺蜀冒懼稗珠墮楔壁形鄭滁第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第30頁,共41頁。(3)數(shù)據(jù)庫模式 在數(shù)據(jù)倉庫的建模技術(shù)中,常用的有星型模式和雪花模式。下面介紹星型模式和雪花模式中事實(shí)表和維表的關(guān)聯(lián)方式。 星型模式 雪花模式10.3.4 數(shù)據(jù)倉庫工具 數(shù)據(jù)倉庫工具是數(shù)據(jù)倉庫系

34、統(tǒng)的一個重要組成部分,主要有數(shù)據(jù)抽取和轉(zhuǎn)換工具和前端數(shù)據(jù)訪問和分析工具。(1)數(shù)據(jù)抽取和轉(zhuǎn)換工具 傳統(tǒng)的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)也許不能全面滿足對數(shù)據(jù)抽取和轉(zhuǎn)換的功能需要,數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計人員可以根據(jù)具體的需要選擇合適的數(shù)據(jù)抽取和轉(zhuǎn)換工具,與數(shù)據(jù)庫管理系統(tǒng)相結(jié)合,全面實(shí)施數(shù)據(jù)抽取和轉(zhuǎn)換。京砂材遙錢享厘躁斜澇卷挽躥嚨蠶癢輕門糯售哮盯座始耍穗扔日撅彼掙知第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第31頁,共41頁。(2)前端數(shù)據(jù)訪問和分析工具 目前市場上能獲得的數(shù)據(jù)訪問和分析工具種類繁多,主要有關(guān)系型查詢工具、關(guān)系型數(shù)據(jù)的多維視圖工具、DSS/EIS軟件包和客戶機(jī)/服務(wù)器工

35、具等四大類。 關(guān)系型查詢工具 關(guān)系型數(shù)據(jù)的多維視圖工具 DSS/EIS工具 客戶機(jī)/服務(wù)器工具儉瑰掛賀碾紊射鞋債互笑譏廚扁洞梭拽太矽卑唯喉尾暫蚌碾撒悍撇刪謎讕第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第32頁,共41頁。10.4 數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)挖掘(Data Mining)是指對數(shù)據(jù)進(jìn)行深入地研究,從超大型數(shù)據(jù)庫(VLDB)或數(shù)據(jù)倉庫中發(fā)現(xiàn)事先未注意到的,但是潛在有用的信息和知識,它綜合了人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)等技術(shù),是應(yīng)用數(shù)據(jù)倉庫進(jìn)行決策支持的關(guān)鍵技術(shù)。數(shù)據(jù)倉庫、OLAP和數(shù)據(jù)挖掘是作為三種獨(dú)立的信息處理技術(shù)出現(xiàn)的,用數(shù)據(jù)倉庫存儲和組織數(shù)據(jù),數(shù)據(jù)的分析由OLA

36、P集中完成,數(shù)據(jù)挖掘則致力于知識的自動發(fā)現(xiàn)??克幙θ呓O景盆接腕喧初勤灰勤用濱立策喲簡膊寇婆膚稈攢猩蝴蔫唯榔第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第33頁,共41頁。10.4.1 數(shù)據(jù)挖掘的主要功能數(shù)據(jù)挖掘的主要功能如下:(1)分類 是指將數(shù)據(jù)映射到預(yù)先定義好的群組或類。分類算法要求分析對象的屬性、特征,以建立不同的類別來描述事物。例如銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,以確定對新申請貸款的客戶是否批準(zhǔn)或確定信用風(fēng)險。(2)聚類 一般是指將數(shù)據(jù)劃分或分割成相交或不相交的群組的過程。聚類合分類很相似,只不過聚類中的類別沒有事先定義而是由數(shù)據(jù)決定的。例如將貸款

37、申請人分為高信用度申請者,中信用度申請者,低信用度申請者等。歹琳般盡超烘舷貨芭斯條害型拋繪實(shí)墅腆吐杉菩訟捎摟早猾野卻膳斡墮堂第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第34頁,共41頁。(3)匯總 是指將數(shù)據(jù)映射到具有簡單描述的子集中。匯總從數(shù)據(jù)庫中抽取或者得到有代表性的信息,也可以得到一些總結(jié)性信息,匯總有時也被稱為特征化或泛化。(4)關(guān)聯(lián)規(guī)則和序列模式的發(fā)現(xiàn) 關(guān)聯(lián)是某種事物發(fā)生時其他事物跟著會發(fā)生的這樣一種聯(lián)系。例如每天買大米的人也有可能買紙巾,可能性有多大,可以通過關(guān)聯(lián)的支持度和可信度來描述。與關(guān)聯(lián)不同,序列是一種縱向的聯(lián)系。例如所有買了圓珠筆的人,一個月后又有3

38、0%的人買筆芯,70%的人又買新的圓珠筆。(5)預(yù)測 把握分析對象發(fā)展的規(guī)律,對未來的趨勢做出預(yù)見。例如對未來股市行情的判斷。(6)偏差的檢測 數(shù)據(jù)庫中的數(shù)據(jù)存在者很多異常的情況,通過對數(shù)據(jù)的分析發(fā)現(xiàn)少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因,即為偏差的檢測。婁愁锨哆推檀擱籃巴嗽獵較拘沽謙店峽弊鱗幌擒就縷榜治尼朝睜特煤俄草第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第35頁,共41頁。10.4.2 數(shù)據(jù)挖掘的方法及工具(1)傳統(tǒng)統(tǒng)計方法 抽樣技術(shù):我們面對的是大量的數(shù)據(jù),對所有的數(shù)據(jù)進(jìn)行分析是不可能的也是沒有必要的,就要在理論的指導(dǎo)下進(jìn)行合理的抽樣。 多元統(tǒng)計分析:因子分析

39、,聚類分析等。 統(tǒng)計預(yù)測方法:如回歸分析,時間序列分析等。(2)可視化技術(shù):用圖表等方式把數(shù)據(jù)特征用直觀地表述出來,如直方圖等,這其中運(yùn)用的許多描述統(tǒng)計的方法??梢暬夹g(shù)面對的一個難題是高維數(shù)據(jù)的可視化。(3)決策樹:利用一系列規(guī)則劃分,建立樹狀圖,可用于分類和預(yù)測。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。(4)神經(jīng)網(wǎng)絡(luò):模擬人的神經(jīng)元功能,經(jīng)過輸入層,隱藏層,輸出層等,對數(shù)據(jù)進(jìn)行調(diào)整、計算,最后得到結(jié)果,用于分類和回歸。瑚荔惋信繁朱敷柄鈉揩鞘溯垃蔭擔(dān)介棋岡賺船尸鑷番田埔伍聾岔硅論蛀汞第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第36頁,共41頁。

40、 (5)遺傳算法:基于自然進(jìn)化理論,模擬基因聯(lián)合、突變、選擇等過程的一種優(yōu)化技術(shù)。 (6)關(guān)聯(lián)規(guī)則挖掘算法:關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)之間存在關(guān)系的規(guī)則,形式為“A1A2AnB1B2Bn”。一般分為兩個步驟:求出大數(shù)據(jù)項集和用大數(shù)據(jù)項集產(chǎn)生關(guān)聯(lián)規(guī)則。 除了以上的常用方法外,還有粗集方法,模糊集合方法,Bayesian Belief Netords,最鄰近算法(K Nearest Neighbors (KNN))等。10.4.3 數(shù)據(jù)挖掘的實(shí)施步驟 實(shí)施數(shù)據(jù)挖掘的一般的步驟如下,如圖10-7所示:問題理解和提出數(shù)據(jù)準(zhǔn)備數(shù)據(jù)整理建立模型評價和解釋圖10-7 數(shù)據(jù)挖掘的一般步驟巡固釋置還撂砧祿潰慧褐劫勢級飾躲恿楚庸琺瞧冒呢彝疾根售雍演蝦朵天第10章數(shù)據(jù)庫新技術(shù)概述第10章數(shù)據(jù)庫新技術(shù)概述7/29/2022第37頁,共41頁。(1)問題理解和提出 在開始數(shù)據(jù)挖掘之前最基礎(chǔ)的就是理解數(shù)據(jù)和實(shí)際的業(yè)務(wù)問題,在這個基礎(chǔ)之上提出問題,對目標(biāo)有明確的定義。(2)數(shù)據(jù)準(zhǔn)備

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論