E134現(xiàn)代數(shù)據(jù)管理技術(shù)綜述_第1頁
E134現(xiàn)代數(shù)據(jù)管理技術(shù)綜述_第2頁
E134現(xiàn)代數(shù)據(jù)管理技術(shù)綜述_第3頁
E134現(xiàn)代數(shù)據(jù)管理技術(shù)綜述_第4頁
E134現(xiàn)代數(shù)據(jù)管理技術(shù)綜述_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 研究生課程論文 Course Paper論文編號 Paper No: E2002134撰寫日期 Date: 2003-08-15現(xiàn) 代 數(shù) 據(jù) 管 理 技 術(shù) 綜 述A Survey of Modern Data Management Technologies張志林 ZhangZhiLin(計算機及信息工程學(xué)院 計算機技術(shù) 2002級 學(xué)號:E2002134)論文類型Paper Type: 課程總結(jié) Summary of Course Content論及主題 Subjects Covered: 關(guān)系數(shù)據(jù)庫 Relational Databases 對象-關(guān)系數(shù)據(jù)庫 Object-Relati

2、onal Databases Web/XML數(shù)據(jù)管理 Web/XML Data Management 數(shù)據(jù)倉庫與聯(lián)機分析處理 Data Warehousing & OLAP 數(shù)據(jù)挖掘與知識發(fā)現(xiàn) Data Mining & Knowledge Discovery課程名稱 Course:現(xiàn)代數(shù)據(jù)管理技術(shù) Modern Data Management課程性質(zhì) Course No:研究生專業(yè)課 Graduate Course 0824M04學(xué) 分 數(shù) Credits:2主講教師 Instructor:許卓明 XU Zhuo-ming開設(shè)學(xué)院 College:計算機及信息工程學(xué)院 Com

3、puters & Information Engineering開設(shè)時間 Semester:20032004學(xué)年第一學(xué)期 Spring, 2003河 海 大 學(xué)現(xiàn) 代 數(shù) 據(jù) 管 理 技 術(shù) 綜 述張志林(計算機及信息工程學(xué)院 計算機技術(shù) 2002級 E2002134)Email:摘 要:隨著網(wǎng)絡(luò)技術(shù)和軟件技術(shù)的飛速發(fā)展,關(guān)系數(shù)據(jù)庫從1970年發(fā)展至今,功能日趨完善。本文從對傳統(tǒng)數(shù)據(jù)庫技術(shù)的回顧開始,逐步對目前數(shù)據(jù)庫應(yīng)用中所采用的主要的幾種數(shù)據(jù)管理技術(shù)進行了簡要論述,并對這些技術(shù)的優(yōu)缺點進行簡單分析。關(guān)鍵詞:數(shù)據(jù)管理;XML;數(shù)據(jù)倉庫;OLAP;數(shù)據(jù)挖掘;語義萬維網(wǎng)A Survey o

4、f Modern Data Management TechnologiesZhang Zhi Lin(E2002134, College of Computers & Information Engineering, Hohai University, Nanjing, China)Email:Abstract:With the rapid development of the network and software technology, the relational databases are gradually mature from 1970 to now. From the

5、 beginning of traditional databases looked back, this article discusses some main data management technologies in modern database application and analyses their virtues and disadvantages.Key words: Data Warehousing; XML; OLAP; Data Mining; Semantic Web1 引言1在眾多的計算機應(yīng)用中,有一類重要的計算機應(yīng)用,叫做數(shù)據(jù)密集型應(yīng)用(data inten

6、sive applications)。數(shù)據(jù)管理的主要任務(wù)有: 數(shù)據(jù)組織(organization) 數(shù)據(jù)存儲(storage) 數(shù)據(jù)訪問/檢索/查詢(access/retrival/query) 數(shù)據(jù)更新/維護(updating/maintenance) 數(shù)據(jù)安全(security) 數(shù)據(jù)管理只要有以下3個特點:1、涉及的數(shù)據(jù)量大,一般需要存放在輔助存儲器中,內(nèi)存中只能暫存其中很小的一部分;2、數(shù)據(jù)不隨程序的結(jié)束而消失,而需長期保留在計算機系統(tǒng)中,這種數(shù)據(jù)稱為持久數(shù)據(jù)(persistent data)3、數(shù)據(jù)為多個應(yīng)用程序所共享,甚至在一個單位或更大范圍內(nèi)共享(shared data)。2 傳

7、統(tǒng)數(shù)據(jù)庫技術(shù)回顧2.1 文件系統(tǒng)()早期的數(shù)據(jù)管理都采用文件系統(tǒng)()。在文件系統(tǒng)中,數(shù)據(jù)按其內(nèi)容、結(jié)構(gòu)和用途組成若干命名的文件。但經(jīng)事實證明,文件系統(tǒng)存在著明顯的缺點,其中包括:l 編寫應(yīng)用程序很不方便。l 文件的設(shè)計很難滿足多種應(yīng)用程序的不同要求,數(shù)據(jù)冗余往往是不可變面。l 文件結(jié)構(gòu)的每個修改將導(dǎo)致應(yīng)用程序的修改,應(yīng)用程序的維護工作量很大。l 文件系統(tǒng)一般不支持對文件的并發(fā)訪問(concurrent access)。l 由于數(shù)據(jù)缺少統(tǒng)一管理,在數(shù)據(jù)的結(jié)構(gòu)、編碼、表示格式、命名以及輸出格式等方面不容易做到規(guī)范化,標準化。2.2 數(shù)據(jù)庫管理系統(tǒng) (DBMS)世界上第一個數(shù)據(jù)庫管理系統(tǒng)是上世紀60

8、年代開發(fā)出來的,自上世紀80年代以來關(guān)系數(shù)據(jù)庫(RDBMS)一直是數(shù)據(jù)庫的主流產(chǎn)品。采用DBMS的主要優(yōu)點有l(wèi) 提供專門的數(shù)據(jù)庫語言(DL),數(shù)據(jù)的邏輯形式與物理形式分離,數(shù)據(jù)查詢操縱是高度的非過程化。l 它盡可能的避免了數(shù)據(jù)沉冗,保持了數(shù)據(jù)的高度一致性。數(shù)據(jù)的獨立性,可維護。l 數(shù)據(jù)共享高,支持并發(fā)訪問l 保證數(shù)據(jù)的安全性,具備了數(shù)據(jù)恢復(fù)的能力。隨著社會的發(fā)展和計算機應(yīng)用的日益深入,關(guān)系數(shù)據(jù)庫逐漸暴露其缺點,主要表現(xiàn)在以下幾個方面。l 數(shù)據(jù)類型有限,關(guān)系數(shù)據(jù)庫只提供其內(nèi)部所定義的有限的幾種基本數(shù)據(jù)類型。新的應(yīng)用需要靈活的類型機制,數(shù)據(jù)庫管理系統(tǒng)應(yīng)該能夠支持用戶定義適合自己應(yīng)用的數(shù)據(jù)類型。l

9、關(guān)系數(shù)據(jù)庫的表達能力有限,關(guān)系數(shù)據(jù)庫的基本結(jié)構(gòu)是二維表,是一種平面結(jié)構(gòu),無法表達更復(fù)雜的結(jié)構(gòu)模式和有效處理復(fù)雜的對象。l 關(guān)系數(shù)據(jù)庫不支持用戶自定義的或系統(tǒng)可擴充的函數(shù)或運算。關(guān)系數(shù)據(jù)庫能處理的運算只有常用的算數(shù)、邏輯、字符串、位串、時間等的運算和一些比較運算以及少許聚集函數(shù),超出此范圍,只有交給應(yīng)用程序去處理,嚴重影響了數(shù)據(jù)庫的性能。l 缺少全系統(tǒng)唯一的、不依賴于屬性值、類似于對象標識符(OID)的標識符。關(guān)系數(shù)據(jù)庫是按屬性值選取數(shù)據(jù)的,是按數(shù)據(jù)的內(nèi)容來訪問數(shù)據(jù)。但是在訪問復(fù)雜對象的內(nèi)部結(jié)構(gòu)時,這種聯(lián)想式訪問顯得低效和不易理解。2.3 什么是對象關(guān)系數(shù)據(jù)庫為了克服關(guān)系數(shù)據(jù)庫的弱點,人們開始探

10、索關(guān)系數(shù)據(jù)庫的改進之路。對象數(shù)據(jù)庫的發(fā)展促使人們研究關(guān)系數(shù)據(jù)庫與對象數(shù)據(jù)庫結(jié)合的問題,使得各主要關(guān)系數(shù)據(jù)庫先后實現(xiàn)了程度不等的對象化,拓寬了其應(yīng)用面。這種數(shù)據(jù)庫就是對象關(guān)系數(shù)據(jù)庫(ORDBMS)。2.4 對象類型對象關(guān)系數(shù)據(jù)庫保留了表的結(jié)構(gòu)及其有關(guān)的語句。為了支持對象數(shù)據(jù)模型,它又定義了一些面向?qū)ο蟮臄?shù)據(jù)類型。在對象關(guān)系數(shù)據(jù)庫中,類型具有類的特征,可以看成類。每個類型可擁有若干實例或?qū)ο?。每個對象具有一個由系統(tǒng)生成的、唯一的對象標識符。在新定義的類型中,最基本的是行類型(row type)。其它類型可看成它的特例和補充。2.4.1 行類型行類型定義如下:CREATE ROW TYPE (row

11、 type name)(<component declarations>)表面上看,行類型和表的定義差不多,每個對象相當于表中的一行,但它們有本質(zhì)的差別:l 表中的行由主鍵值來識別,而行類型的對象用系統(tǒng)生成的、唯一的OID來識別。l 表中的屬性受第一范式約束,不能是元組、集合或其他非預(yù)定義的類型。而行類型不受此約束。l 表通過連接運算才能引用其他元組中的屬性,而行類型可以直接通過OID引用其他對象。但是行類型和表一樣,只有四種隱含的操作:插入對象(INSERT)、刪除對象(DELETE)、修改對象(UPDATE)、查詢對象(SELECT)。2.4.2 抽象數(shù)據(jù)類型抽象數(shù)據(jù)類型定義如

12、下:CREATE TYPE(type name) (列出所有屬性名極其類型, 定義該類型的=和<函數(shù), 定義該類型所有的函數(shù)(方法)在上述定義中,定義該類型的=和<函數(shù)是選項,屬性部分的定義與行類型相同。抽象數(shù)據(jù)類型的函數(shù)部分有三種通用的、隱含的函數(shù):l 構(gòu)造函數(shù):用來生成一個屬性等于給定值的ADT對象,其格式如下, (ADT名)(<擬生成對象的屬性值>)l 觀察函數(shù):用于讀取屬性值。l 刪改函數(shù):用于刪除或修改對。除此以外,每個抽象函數(shù)類型還可以定義各自的函數(shù),又可分為如下2類:l 內(nèi)函數(shù) 這類函數(shù)就定義在CREATE TYPE語句中,其格式為: FUNCTION&l

13、t;函數(shù)名>(<參數(shù)及其類型>)RETURNS<返回類型>; <變量說明> BEGIN <函數(shù)體> END 內(nèi)函數(shù)一般用來定義比較短小的方法。l 外函數(shù) 外函數(shù)只在CREATE TYPE語句中留有調(diào)用說明,函數(shù)的實現(xiàn)部分置于類型定義語句之外。外函數(shù)的說明格式為: DECLARE EXTENAL FUNCTION(signature) LANGUAGE<language name>; 增加了抽象數(shù)據(jù)類型后,上面所提到的關(guān)系數(shù)據(jù)庫的幾個缺點都可以克服。3 XML數(shù)據(jù)管理33.1 什么是XMLXML是(Extensible Marku

14、p Language)是以通用標準標記語言SGML(the Standard generalized Markup Language)為基礎(chǔ),針對萬維網(wǎng)的需要,發(fā)展而成的一個簡化版本。XML技術(shù)自出現(xiàn)以來,發(fā)展非常迅速,在許多領(lǐng)域內(nèi)得到廣泛的支持而有著廣闊的應(yīng)用前景。例如電子數(shù)據(jù)交換、電子商務(wù)等等更是把XML作為一種基礎(chǔ)性、支柱性的技術(shù)來看待。隨著應(yīng)用的擴展,XML也增加了一些數(shù)據(jù)處理和數(shù)據(jù)交換所需的內(nèi)容。3.2 XML文檔的語法組成XML文檔由標記和內(nèi)容組成。XML中共有六種標記:元素(elements),屬性(attributes),實體引用(entity references),注釋(c

15、omments),處理指令(processing instructions)和CDATA段(CDATA sections)。其中,元素是標記的最常見的形式,由尖括號分隔,和人們熟悉的HTML中的標記看起來沒什么兩樣。大多數(shù)元素標識它所包含的內(nèi)容的性質(zhì)。3.3 XML在數(shù)據(jù)管理中的應(yīng)用近年來,XML日益受到各界的重視,這主要是由于它有廣泛的用途和重要的應(yīng)用前景,其主要用途可概括為:3.3.1 數(shù)據(jù)交換l 辦公和事物數(shù)據(jù)交換。l 科學(xué)數(shù)據(jù)交換。l 電子商務(wù)數(shù)據(jù)交換。3.3.2 半結(jié)構(gòu)化數(shù)據(jù)的描述與管理XML為半結(jié)構(gòu)化數(shù)據(jù)提供了一個標準化的數(shù)據(jù)模型和語言,再加上萬維網(wǎng)這樣一個廣闊的舞臺,使其迅速地從

16、研究走向?qū)嵱谩?.3.3 異構(gòu)數(shù)據(jù)集成異構(gòu)數(shù)據(jù)集成是當今數(shù)據(jù)管理中經(jīng)常出現(xiàn)的問題。常用的辦法是用包裝器將各種異構(gòu)數(shù)據(jù)包裝成統(tǒng)一界面。用XML作為統(tǒng)一界面有其優(yōu)點。首先,隨著XML的廣泛應(yīng)用,將會出現(xiàn)大量的、日益增多的XML文檔,選用XML作為統(tǒng)一界面更有利。其次XML既可用于結(jié)構(gòu)化的數(shù)據(jù)交換,也可用于半結(jié)構(gòu)化數(shù)據(jù)交換。3.4 XML文檔關(guān)系模式的生成(DTD法)有了DTD圖,不難自動生成相應(yīng)的關(guān)系模式,一般在生成時,采用如下的規(guī)則:l 根元素不從屬其他元素,單獨構(gòu)成一個單元組關(guān)系;l 可以多次出現(xiàn)的元素構(gòu)成一個關(guān)系,元素的每次出現(xiàn)相當于關(guān)系的一個元祖。l 元素的屬性仍當做該元素所對應(yīng)元祖的屬性

17、。l 只有text的子元素可以當做其雙親元素的屬性處理。 l 每個元祖由系統(tǒng)賦給惟一的標識符ID,作為該元祖的主健,對有序的元祖,要增加序號(order)屬性。4 數(shù)據(jù)倉庫與聯(lián)機分析處理4.1 數(shù)據(jù)倉庫專為決策服務(wù)的數(shù)據(jù)庫系統(tǒng)稱為數(shù)據(jù)倉庫。數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時間相關(guān)的、不可修改的數(shù)據(jù)集合。與其他數(shù)據(jù)庫應(yīng)用不同的是,數(shù)據(jù)倉庫是以讀為主的數(shù)據(jù)庫系統(tǒng)。4.1.1 數(shù)據(jù)倉庫產(chǎn)生背景決策是很普遍的社會活動,決策支持系統(tǒng)(DSS)是輔助決策者決策的計算機信息系統(tǒng)。只有擁有充分、可信、合乎決策需要的數(shù)據(jù),決策支持系統(tǒng)才能發(fā)揮作用,數(shù)據(jù)是決策的基礎(chǔ)。和面向日常操作和運行的數(shù)據(jù)庫

18、不同,用于決策的數(shù)據(jù)庫有以下特點:l 多為總結(jié)性數(shù)據(jù)。l 不但有當前數(shù)據(jù),還有歷史數(shù)據(jù),以便分析變化趨勢,進行決策。l 決策需要多方面的數(shù)據(jù),不但需要本單位數(shù)據(jù),也需要其它單位數(shù)據(jù),甚至社會公眾數(shù)據(jù)。l 數(shù)據(jù)與決策的主題有關(guān)部門,不同決策需要不同數(shù)據(jù)。l 決策數(shù)據(jù)不一定及時更新,可以定時刷新或按需刷新。4.1.2 數(shù)據(jù)倉庫框架下圖是數(shù)據(jù)倉庫示意圖。最左邊是數(shù)據(jù)源,包括數(shù)據(jù)庫和非數(shù)據(jù)庫數(shù)據(jù)源。數(shù)據(jù)源一般是異構(gòu)的,通過網(wǎng)絡(luò)相連。數(shù)據(jù)倉庫可以通過ODBC之類的機制以及各種異構(gòu)多數(shù)據(jù)源訪問技術(shù),訪問各種數(shù)據(jù)源,從數(shù)據(jù)源選取決策所需的數(shù)據(jù)。但是由于各數(shù)據(jù)庫是為各自的應(yīng)用而建立的,數(shù)據(jù)管理手段,甚至硬件都

19、可能不同,在編碼、命令、數(shù)據(jù)類型、和語義等方面不可避免地會有沖突。為了把各數(shù)據(jù)源的數(shù)據(jù)集成為數(shù)據(jù)倉庫的數(shù)據(jù),必須按照數(shù)據(jù)倉庫的統(tǒng)一要求進行必要的變換。不但要集成數(shù)據(jù),還要集成數(shù)據(jù)的數(shù)據(jù),即元數(shù)據(jù)。異構(gòu)數(shù)據(jù)的集成是很繁瑣的工作,各個數(shù)據(jù)倉庫的數(shù)據(jù)源未必相同,在建立數(shù)據(jù)倉庫時必須按照各自的情況分別解決。數(shù)據(jù)經(jīng)必要的變換后,就可以加載到數(shù)據(jù)倉庫中。加載過程實際上相當于數(shù)據(jù)的一次全掃描,可以利用這個機會對數(shù)據(jù)進行必要的處理,例如完整性約束檢查、排序、簇集、聚集函數(shù)計算、建立索引等。綜上,整個數(shù)據(jù)倉庫的建設(shè)按照其不同性質(zhì),把它分為三個截然不同的部分,分別是:源數(shù)據(jù)、數(shù)據(jù)準備、以及數(shù)據(jù)呈現(xiàn)?,F(xiàn)在講的最多的

20、OLAP分析和決策支持等,都是屬于數(shù)據(jù)呈現(xiàn)的部分。當前數(shù)據(jù)倉庫的核心仍是RDBMS管理下的一個數(shù)據(jù)庫系統(tǒng)。ORACLEDB2文件系統(tǒng)HTML文件抽取變換加載刷新元數(shù)據(jù)決策數(shù)據(jù)OLAP服務(wù)器OLAP服務(wù)器查詢分析報表數(shù)據(jù)挖掘圖形用戶接口決策者數(shù)據(jù)倉庫框架示意圖4.1.3 數(shù)據(jù)倉庫的基本數(shù)據(jù)模式數(shù)據(jù)倉庫從各數(shù)據(jù)源抽取決策所需的數(shù)據(jù)并且經(jīng)過必要的變換后,還需按一定的數(shù)據(jù)模式組織這些數(shù)據(jù)。數(shù)據(jù)模式的設(shè)計要便于進一步處理,要有利于提高處理效率。在設(shè)計數(shù)據(jù)模型時,要盡可能刪去與決策無關(guān)的內(nèi)容,壓縮數(shù)據(jù)量。l 星型連接1) 事實表:位于星型連接的中央,它是被大量載入數(shù)據(jù)的實體。2) 維表:周圍的其它實體。3

21、) 在很多情況下:文本數(shù)據(jù)與數(shù)值數(shù)據(jù)是分離開的。l 雪花模式雪花模式實際上是星形模式的規(guī)范化形式。用雪花模式表示,可以節(jié)省存儲空間,但在訪問維表時,要多做連接操作。4.1.4 數(shù)據(jù)倉庫的基本操作維表是決策所須的原始數(shù)據(jù),數(shù)據(jù)倉庫應(yīng)在維表的基礎(chǔ)上計算出決策所須的各種總結(jié)數(shù)據(jù)。作為一種數(shù)據(jù)庫系統(tǒng),數(shù)據(jù)倉庫主要以SQL語言及其聚集函數(shù)為基礎(chǔ),經(jīng)適當擴充,根據(jù)事實表和維表提供的原始數(shù)據(jù),計算出種種總結(jié)數(shù)據(jù)。l 基本聚集函數(shù)SQL語言提供五種聚集函數(shù):SUM,COUNT,AVG,MAX和MIN。由于聚集函數(shù)的計算很浪費時間,在數(shù)據(jù)倉庫中常常把這些計算結(jié)果當作實視圖保存起來。l 立方體操作事實表是個多維表

22、,每個元組可用多維空間的一個點或單元表示。如果每維再加一個值A(chǔ)LL,則可以在多維空間中表示各種實視圖。4.2 聯(lián)機分析處理(OLAP)聯(lián)機分析處理已經(jīng)成為當今RDBMS不可缺少的功能。它的主要功能是管理決策所需的總結(jié)數(shù)據(jù),而總結(jié)數(shù)據(jù)一般都以實視圖的形式出現(xiàn)在數(shù)據(jù)倉庫中。在數(shù)據(jù)倉庫這樣的大型數(shù)據(jù)庫系統(tǒng)中,查詢、維護的速度是關(guān)鍵問題。為了提高性能,除了采用并行處理外,還得在數(shù)據(jù)組織、查詢策略、索引技術(shù)等方面采取有效措施。4.2.1 聯(lián)機分析處理(OLAP)的實現(xiàn)聯(lián)機分析處理(OLAP)有多種實現(xiàn)方法,根據(jù)存儲數(shù)據(jù)的方式不同可以分為ROLAP、MOLAP。ROLAP表示基于關(guān)系數(shù)據(jù)庫的OLAP實現(xiàn)(

23、Relational OLAP)。以關(guān)系數(shù)據(jù)庫為核心,以關(guān)系型結(jié)構(gòu)進行多維數(shù)據(jù)的表示和存儲。ROLAP將多維數(shù)據(jù)庫的多維結(jié)構(gòu)劃分為兩類表:一類是事實表,用來存儲數(shù)據(jù)和維關(guān)鍵字;另一類是維表,即對每個維至少使用一個表來存放維的層次、成員類別等維的描述信息。維表和事實表通過主關(guān)鍵字和外關(guān)鍵字聯(lián)系在一起,形成了"星型模式"。對于層次復(fù)雜的維,為避免冗余數(shù)據(jù)占用過大的存儲空間,可以使用多個表來描述,這種星型模式的擴展稱為"雪花模式"。MOLAP表示基于多維數(shù)據(jù)組織的OLAP實現(xiàn)(Multidimensional OLAP)。以多維數(shù)據(jù)組織方式為核心,也就是說,M

24、OLAP使用多維數(shù)組存儲數(shù)據(jù)。多維數(shù)據(jù)在存儲中將形成"立方塊(Cube)"的結(jié)構(gòu),在MOLAP中對"立方塊"的"旋轉(zhuǎn)"、"切塊"、"切片"是產(chǎn)生多維數(shù)據(jù)報表的主要技術(shù)。5 數(shù)據(jù)挖掘與知識發(fā)現(xiàn)5.1 什么是數(shù)據(jù)挖掘隨著數(shù)據(jù)庫技術(shù)的不斷發(fā)展及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,數(shù)據(jù)庫中存儲的數(shù)據(jù)量急劇增大,在大量的數(shù)據(jù)背后隱藏著許多重要的信息,如果能把這些信息從數(shù)據(jù)庫中抽取出來,將為企業(yè)創(chuàng)造很多潛在的利潤。數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in

25、 Database,KDD),是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價值的信息或模式,它是數(shù)據(jù)庫研究中的一個很有應(yīng)用價值的新領(lǐng)域,融合了數(shù)據(jù)庫、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)等多個領(lǐng)域的理論和技術(shù)。5.2 數(shù)據(jù)挖掘的基本方法數(shù)據(jù)挖掘方法有多種,其中比較典型的有關(guān)聯(lián)分析、序列挖掘、分類分析、聚類分析等。5.2.1 關(guān)聯(lián)分析關(guān)聯(lián)分析,即利用關(guān)聯(lián)規(guī)則進行數(shù)據(jù)挖掘。在數(shù)據(jù)挖掘研究領(lǐng)域,對于關(guān)聯(lián)分析的研究開展得比較深入,關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,它能發(fā)現(xiàn)數(shù)據(jù)庫中形如"90%的顧客在一次購買活動中購買商品A的同時購買商品B"之類的知識。5.2

26、.2 序列挖掘序列挖掘分析和關(guān)聯(lián)分析相似,其目的也是為了挖掘數(shù)據(jù)之間的聯(lián)系,但序列挖掘分析的側(cè)重點在于分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫中形如"在某一段時間內(nèi),顧客購買商品A,接著購買商品B,而后購買商品C,即序列ABC出現(xiàn)的頻度較高"之類的知識,序列模式分析描述的問題是:在給定交易序列數(shù)據(jù)庫中,每個序列是按照交易時間排列的一組交易集,挖掘序列函數(shù)作用在這個交易序列數(shù)據(jù)庫上,返回該數(shù)據(jù)庫中出現(xiàn)的高頻序列。在進行序列模式分析時,同樣也需要由用戶輸入最小置信度C和最小支持度S。5.2.3 分類分析設(shè)有一個數(shù)據(jù)庫和一組具有不同特征的類別(標記),該數(shù)據(jù)庫中的每一個記錄都賦予一個類別的標記,這樣的數(shù)據(jù)庫稱為示例數(shù)據(jù)庫或訓(xùn)練集。分類分析就是通過分析示例數(shù)據(jù)庫中的數(shù)據(jù),為每個類別做出準確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個分類規(guī)則對其它數(shù)據(jù)庫中的記錄進行分類。舉一個簡單的例子,信用卡公司的數(shù)據(jù)庫中保存著各持卡人的記錄,公司根據(jù)信譽程度,已將持卡人記錄分成三類:良好、一般、較差,并且類別標記已賦給了各個記錄。分類分析就是分析該數(shù)據(jù)庫

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論