數(shù)據(jù)挖掘系統(tǒng)

上傳人：y*** IP屬地：天津上傳時(shí)間：2021-12-09 格式：DOCX 頁數(shù)：4 大?。?7.29KB 積分：15 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第一部分?jǐn)?shù)據(jù)挖掘的基礎(chǔ)知識一、數(shù)據(jù)、信息、知識與智慧人類的各項(xiàng)活動(dòng)都是基于人類的智慧和知識，即對外部世界的觀察和了解，做出正確的判斷和決策以及采取正確的行動(dòng)，而數(shù)據(jù)僅僅是人們用各種工具和手段觀察外部世界所得到的原始材料，它本身沒有任何意義。從數(shù)據(jù)到知識再到智慧，需要經(jīng)過分析加工處理精煉的過程。(1) 數(shù)據(jù)是原材料，它只是描述發(fā)生了什么事，并不能構(gòu)成決策或行動(dòng)的可靠基礎(chǔ)。(2) 通過對數(shù)據(jù)進(jìn)行分析找出其中的關(guān)系，賦予數(shù)據(jù)以某種意義和關(guān)聯(lián)，這就形成所謂信息。信息雖然給出了數(shù)據(jù)中一些有一定意義的東西，但它往往和人們需要完成的任務(wù)沒有直接的聯(lián)系，也還不能作為判斷、決策和行動(dòng)的依據(jù)。(3) 對信

2、息進(jìn)行再加工，即進(jìn)行更深入的歸納分析，方能獲得更有用的信息，即知識。而所謂知識，可定義為“信息塊中的一組邏輯聯(lián)系，其關(guān)系是通過上下文或過程的貼近度發(fā)現(xiàn)的”。從信息中理解其模式，即形成知識。在大量知識積累基礎(chǔ)上，總結(jié) 出原理和法則，就形成所謂智慧。二、數(shù)據(jù)挖掘的定義與流程OLAP ( On Line Analytical processing )是一種進(jìn)行實(shí)時(shí)分析和產(chǎn)生相應(yīng)報(bào)表的在線分析工具，允許用戶以交互方式瀏覽數(shù)據(jù)倉庫(data warehousing,它是為了便于分析針對特定主題(subject-oriented)的集成化的、時(shí)變的(time-variant)即提供存貯 510年或更長時(shí)

3、間的數(shù)據(jù)，這些數(shù)據(jù)一旦存入就不再發(fā)生變化)內(nèi)容，并對其中數(shù)據(jù)進(jìn)行多維分析，且能及時(shí)地從變化和不太完整的數(shù)據(jù)中提取出與企業(yè)經(jīng)營活動(dòng)密切相關(guān)的信息。OLAP是數(shù)據(jù)分析手段的一大進(jìn)步，以往的分析工具所能得到的報(bào)告結(jié)果只能回答“什么”(what),而OLAP的分析結(jié)果能回答“為什么”(why)。但OLAP分析過程是建立在對用戶深藏在數(shù)據(jù)中的某種知識有預(yù)感的和假設(shè)的前提下，由用戶指導(dǎo)的信息分析與知識發(fā)現(xiàn)過程。對于數(shù)據(jù)倉庫中埋藏的豐富的、不為用戶所知的有用信息和知識，就需要有基于計(jì)算機(jī)與信息技術(shù)的智能化自動(dòng)工具，來幫助挖掘隱藏在數(shù)據(jù)中的各類知識。這類工具不應(yīng)基于用戶假設(shè)，而應(yīng)能自身生成多種假設(shè)；再用數(shù)據(jù)

4、倉庫(或大型數(shù)據(jù)庫)中的數(shù)據(jù)進(jìn)行檢驗(yàn)或驗(yàn)證；然后返回用戶最有價(jià)值的檢驗(yàn)結(jié)果。此外這類工具還應(yīng)能適應(yīng)現(xiàn)實(shí)世界中數(shù)據(jù)的多種特性(即量大、含噪音、不完整、動(dòng)態(tài)、稀疏性、異質(zhì)、非線性等)。數(shù)據(jù)挖掘，又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn) (Knowledge Discovery from Database，簡稱KDD ), 它是一個(gè)從大量數(shù)據(jù)中抽取挖掘出未知的，有價(jià)值的模式或規(guī)律等知識的復(fù)雜過程。數(shù)據(jù)挖掘的全過程包括：數(shù)據(jù)清洗(data clearning),其作用就是清除數(shù)據(jù)噪音和與挖掘主題明顯無關(guān)的數(shù)據(jù)；數(shù)據(jù)集成(data integration),其作用就是將來自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)組合到一起；數(shù)據(jù)轉(zhuǎn)換(d

5、ata transformation ),其作用就是將數(shù)據(jù)轉(zhuǎn)換為易于數(shù)據(jù)挖掘的數(shù)據(jù)存儲形式；數(shù)據(jù)挖掘(data mining ),它是知識挖掘的一個(gè)基本步驟，其作用就是利用智能方法挖掘數(shù)據(jù)模式或規(guī)律知識；模式評估(pattern evaluation)，其作用就是根據(jù)一定評估標(biāo)準(zhǔn)( interesting measures)從挖掘結(jié)果篩選出有意義的模式知識；知識表示(knowledge presentation)其作用就是利用可視化和知識表達(dá)技術(shù)，向用戶展示所挖掘出的相關(guān)知識。三、數(shù)據(jù)挖掘與其它計(jì)算機(jī)工具的區(qū)別KDD和機(jī)器學(xué)習(xí)都是從數(shù)據(jù)中提取知識，那么兩者有什么區(qū)別呢？KDD是從現(xiàn)實(shí)世界

6、中存在的一些具體數(shù)據(jù)中提取知識，這些數(shù)據(jù)在KDD出現(xiàn)之前早已存在；而機(jī)器學(xué)習(xí)所使用的數(shù)據(jù)是專門為機(jī)器學(xué)習(xí)而特別準(zhǔn)備的數(shù)據(jù)，這些數(shù)據(jù)在現(xiàn)實(shí)世界中也許毫無意義。由于KDD使用的數(shù)據(jù)來自實(shí)際的數(shù)據(jù)庫，而且所要處理的數(shù)據(jù)量可能很大，因此 KDD中的學(xué)習(xí)算法的效率和可擴(kuò)充性就顯得尤為重要；此外，KDD所處理的數(shù)據(jù)由于來自現(xiàn)實(shí)世界，數(shù)據(jù)的完整性、一致性和正確性都很難保證，如何將這些數(shù)據(jù)加工成學(xué)習(xí)算法可以接收的數(shù)據(jù)？也是數(shù)據(jù)挖掘研究與開發(fā)時(shí)需要進(jìn)行深入研究的問題；再者， KDD可以利用目前數(shù)據(jù)庫所取得的研究成果來加快學(xué)習(xí)過程，提高學(xué)習(xí)效率。最后一點(diǎn)就是，由于KDD處理的數(shù)據(jù)來自于實(shí)際的數(shù)據(jù)庫，而與這些數(shù)據(jù)

7、庫有關(guān)的還有其他一些背景知識，這些背景知識的合理運(yùn)用也會提高學(xué)習(xí)算法的效率。KDD與數(shù)據(jù)庫報(bào)表工具有什么區(qū)別？數(shù)據(jù)庫報(bào)表制作工具是將數(shù)據(jù)庫中的某些數(shù)據(jù)抽取出來，經(jīng)過一些數(shù)學(xué)運(yùn)算，最終以特定的格式呈現(xiàn)給用戶，而KDD則是對數(shù)據(jù)背后隱藏的特征和趨勢進(jìn)行分析，最終給出關(guān)于數(shù)據(jù)的總體特征和發(fā)展趨勢。報(bào)表工具也許能夠給出上學(xué)期考試未通過及成績優(yōu)秀的學(xué)生的有關(guān)情況。但它不能找出那些考試未通過及成績優(yōu)秀的學(xué)生在哪些方面有些什么不同的特征，而數(shù)據(jù)挖掘通過對相關(guān)數(shù)據(jù)的分析，以發(fā)現(xiàn)影響學(xué)生成績的各種因素，就可以給出兩者之間的差別。數(shù)據(jù)挖掘與OLAP有何區(qū)別呢？ OLAP是由用戶驅(qū)動(dòng)的，一般是由分析人員預(yù)先設(shè)定一

8、些假設(shè)，然后使用 OLAP工具去幫助驗(yàn)證這些假設(shè)，它提供了可使分析人員很方便地進(jìn)行數(shù)據(jù)分析的手段；而數(shù)據(jù)挖掘則是通過對數(shù)據(jù)的分析來自動(dòng)產(chǎn)生一些假設(shè)，人們可以在這些假設(shè)的基礎(chǔ)上更有效地進(jìn)行決策。四、數(shù)據(jù)挖掘功能及知識類型概念描述：定性與對比一個(gè)概念常常是對一個(gè)包含大量數(shù)據(jù)的數(shù)據(jù)集合總體情況的概述。如對一個(gè)商店所售電腦基本情況的概述總結(jié)就會獲得所售電腦基本情況的一個(gè)整體概念(如：基本上為PIII以上的兼容機(jī))。對含有大量數(shù)據(jù)的數(shù)據(jù)集合進(jìn)行概述性( summarized)的總結(jié)并獲得簡明(concise)、準(zhǔn)確(precise)的描述，這種描述就稱為概念描述( concept descripti

9、on )。獲得概念描述的方法主要有以下兩種：(1)利用更為廣義的屬性，對所分析數(shù)據(jù)進(jìn)行概要總結(jié)( data characterization )；其中被分析的數(shù)據(jù)就稱為目標(biāo)數(shù)據(jù)集(target class);(2 )對兩類所分析的數(shù)據(jù)特點(diǎn)進(jìn)行對比并對對比結(jié)果給出概要性總結(jié)(data discrimination );而其中兩類被分析的數(shù)據(jù)集分別被稱為目標(biāo)數(shù)據(jù)集和對比數(shù)據(jù)集 (contrasting class)。數(shù)據(jù)概要總結(jié)(data characterization)就是利用數(shù)據(jù)描述屬性中更廣義的(屬性)內(nèi)容對其進(jìn)行歸納描述。其中被分析的數(shù)據(jù)，常?？梢酝ㄟ^簡單的數(shù)據(jù)庫查詢來獲得。如：對

10、我校的講師情況進(jìn)行概要總結(jié)(給出概念描述)。數(shù)據(jù)概要總結(jié)通常都用更廣義的關(guān)系表(generalization relations )或特征才苗述規(guī)貝U ( characteristic rules)來加以輸出表示。在數(shù)據(jù)集對比概要總結(jié)中所使用的挖掘方法與單一數(shù)據(jù)集概要總結(jié)所使用的方法基本相同；其結(jié)果輸出形式也很類似，只是對比概要總結(jié)加入了對比描述因子以幫助區(qū)分目標(biāo)數(shù) 據(jù)集與對比數(shù)據(jù)集的對比情況。對比數(shù)據(jù)概要總結(jié)的輸出結(jié)果也常常采用表格形式或?qū)Ρ纫?guī)則形式(discriminate rules )來加以描述；關(guān)聯(lián)分析關(guān)聯(lián)分析（association analysis）就是從給定的數(shù)據(jù)集發(fā)現(xiàn)頻繁出

11、現(xiàn)的項(xiàng)集模式知識（又稱為關(guān)聯(lián)規(guī)則，association rules）。關(guān)聯(lián)分析廣泛用于市場營銷、事務(wù)分析等應(yīng)用領(lǐng)域。通常關(guān)聯(lián)規(guī)則具有：XnY形式，即“A,aAaL八氣-BaB2八L Bn ” ；其中A（i w1,K ,m）和Bj（j 1,K ,n）均為屬性一值（屬性=值）形式。關(guān)聯(lián)規(guī)則Xn Y表示"數(shù)據(jù)庫中的滿足 X中條件的記錄（tuples）也一定滿足 Y中的條件"。分類與預(yù)測分類（classification ）就是找出一組能夠描述數(shù)據(jù)集合典型特征的模型（或函數(shù)），以便能夠分類識別未知數(shù)據(jù)的歸屬或類別（class）,即將未知事例映射到某種離散類別之一。分（其類別歸

12、屬已知）中學(xué)習(xí)獲類模型（或函數(shù)）可以通過分類挖掘算法從一組訓(xùn)練樣本數(shù)據(jù) 得。其中主要的表示方法有：分mathematical formulae ）和彳申經(jīng)網(wǎng)分類挖掘所獲的分類模型可以采用多種形式加以描述輸出。類規(guī)則（IF-THEN ）、決策樹（decision trees）、數(shù)學(xué)公式（絡(luò)。,如一個(gè)銀行客戶的信用等需要預(yù)測某數(shù)值屬性的值（連續(xù)數(shù)值），也包括有限離散而使用分類來表分類通常用于預(yù)測未知數(shù)據(jù)實(shí)例的歸屬類別（有限離散值）級是屬于A級、B級還是C級。但在一些情況下，這樣的分類就被稱為預(yù)測（predication）。盡管預(yù)測既包括連續(xù)數(shù)值的預(yù)測，值的分類；但一般還是使用預(yù)測（pred

13、ication ）來表示對連續(xù)數(shù)值的預(yù)測；示對有限離散值的預(yù)測。聚類分析聚類分析（clustering analysis）與分類預(yù)測方法明顯不同之處在于，后者所學(xué)習(xí)獲取分類預(yù)測模型所使用的數(shù)據(jù)是已知類別歸屬（class-labeled data）,屬于有教師監(jiān)督學(xué)習(xí)方法；而聚類分析（無論是在學(xué)習(xí)還是在歸類預(yù)測時(shí)）所分析處理的數(shù)據(jù)均是無（事先確定）類別歸屬，類別歸屬標(biāo)志在聚類分析處理的數(shù)據(jù)集中是不存在的。究其原因很簡單，它們原來就不存在，因此聚類分析屬于無教師監(jiān)督學(xué)習(xí)方法。聚類分析中，首先需要根據(jù)“各聚集（ clusters）內(nèi)部數(shù)據(jù)對象間的相似度最大化；而各聚集（clusters）對象

14、間相似度最小化”的基本聚類分析原則，以及度量數(shù)據(jù)對象之間相似度的計(jì)算公式，將聚類分析的數(shù)據(jù)對象劃分為若干組（groups）。因此一個(gè)組中數(shù)據(jù)對象間的相似度要比不同組數(shù)據(jù)對象間的相似度要大。每一個(gè)聚類分析所獲得的組就可以視為是一個(gè)同類別歸屬的數(shù)據(jù)對象集合，更進(jìn)一步從這些同類別數(shù)據(jù)集，又可以通過分類學(xué)習(xí)獲得相應(yīng)的分類預(yù)測模型（規(guī)則）。此外通過反復(fù)不斷地對所獲得的聚類組進(jìn)行聚類分析，還可獲得初始數(shù)據(jù)集合的一個(gè)層次結(jié)構(gòu)模型。異類分析一個(gè)數(shù)據(jù)庫中的數(shù)據(jù)一般不可能都符合分類預(yù)測或聚類分析所獲得的模型。那些不符合大多數(shù)數(shù)據(jù)對象所構(gòu)成的規(guī)律（模型）的數(shù)據(jù)對象就被稱為異類（ outlier）。之前許多數(shù)據(jù)

15、挖掘方法都在正式進(jìn)行數(shù)據(jù)挖掘之前就將這些異類作為噪聲或意外而將其排除在數(shù)據(jù)挖掘的分析處理范圍之內(nèi)。但在一些應(yīng)用場合，如各種商業(yè)欺詐行為的自動(dòng)檢測，小概率發(fā)生的事件（數(shù)據(jù)）往往比經(jīng)常發(fā)生的事件（數(shù)據(jù)）更有挖掘價(jià)值。對異類數(shù)據(jù)的分析處理通常就稱為異類挖掘。數(shù)據(jù)中的異類可以利用數(shù)理統(tǒng)計(jì)方法分析獲得，即利用已知數(shù)據(jù)所獲得的概率統(tǒng)計(jì)分布模型，或利用相似度計(jì)算所獲得的相似數(shù)據(jù)對象分布，分析確認(rèn)異類數(shù)據(jù)。而偏離檢測就是從數(shù)據(jù)已有或期望值中找出某些關(guān)鍵測度顯著的變化。演化分析數(shù)據(jù)演化分析（evolution analysis）就是對隨時(shí)間變化的數(shù)據(jù)對象的變化規(guī)律和趨勢進(jìn)行建模描述。這一建模手段包括：

16、概念描述、對比概念描述、關(guān)聯(lián)分析、分類分析、時(shí)間相關(guān)數(shù) 據(jù)（time-related）分析（這其中又包括：時(shí)序數(shù)據(jù)分析、序列或周期模式匹配，以及基于相似性的數(shù)據(jù)分析）五、數(shù)據(jù)挖掘結(jié)果的評估問題一：一個(gè)模式有價(jià)值的因素是什么？答：（1）易于用戶理解；（2）對新數(shù)據(jù)或測試數(shù)據(jù)能夠確定有效程度；（3）具有潛在價(jià)值；（4）新奇的。一個(gè)有價(jià)值的模式就是知識。此外還有一些評價(jià)模式價(jià)值的客觀標(biāo)準(zhǔn)，這些標(biāo)準(zhǔn)是基于所挖掘出模式的結(jié)構(gòu)或統(tǒng)計(jì)特征。例如對于關(guān)聯(lián)規(guī)則的一個(gè)客觀評價(jià)標(biāo)準(zhǔn)就是支持率（support）,它表示滿足相應(yīng)關(guān)聯(lián)規(guī)則的事務(wù)記錄占總記錄數(shù)的比率；盡管客觀評價(jià)方法能夠幫助識別一些有意義的模式知識，

17、但也仍然需要結(jié)合一些主觀評價(jià)措施方可有效反映用戶的需求和興趣。例如商場主觀對描述常在商場購買商品顧客的特征模型很感興趣；而對商場雇員的表現(xiàn)特征模型卻興趣不大。再者許多根據(jù)客觀評價(jià)標(biāo)準(zhǔn)是有價(jià)值的模式知識卻只是普通的常識知識（實(shí)際無價(jià)值）。主觀價(jià)值評估標(biāo)準(zhǔn)是建立在用戶對數(shù)據(jù)的信念基礎(chǔ)上，這些評估標(biāo)準(zhǔn)基于所發(fā)現(xiàn)模式是否是意外的或與用戶信念相左，或能夠提供決策支持而確定的。而意料之中模式是有價(jià)值的則是指它能夠幫助確認(rèn)用戶想要認(rèn)可的一個(gè)假設(shè)。問題二：一個(gè)數(shù)據(jù)挖掘算法能否產(chǎn)生所有有價(jià)值的模式（知識）？即指數(shù)據(jù)挖掘算法的完全性。答：期望數(shù)據(jù)挖掘算法能夠產(chǎn)生所有可能模式是不現(xiàn)實(shí)的。實(shí)際上一個(gè)（模式

18、）搜索方法可以利用有趣性評價(jià)標(biāo)準(zhǔn)來幫助縮小模式的搜索范圍。因此通常只需要保證挖掘算法的完全性就可以了。關(guān)聯(lián)規(guī)則的挖掘算法就是這樣的一個(gè)例子。問題三：一個(gè)數(shù)據(jù)挖掘算法能否只產(chǎn)生有價(jià)值的模式（知識）？這也是數(shù)據(jù)挖掘算法的一個(gè)最優(yōu)化問題。一般當(dāng)然希望數(shù)據(jù)挖掘算法僅挖掘有價(jià)值的模式（知識），但這是一個(gè)較為棘手的最優(yōu)化高效搜索問題，至今尚沒有好的解決方法。評估所挖掘模式的趣味性（interestingness）標(biāo)準(zhǔn)對于有效挖掘出具有應(yīng)用價(jià)值數(shù)據(jù)挖掘的模式知識是十分重要的。這些標(biāo)準(zhǔn)可以直接幫助指導(dǎo)挖掘算法獲取有實(shí)際應(yīng)用價(jià)值的模式知識，以及有效摒棄無意義的模式。更為重要的是這些模式評估標(biāo)準(zhǔn)將積極指導(dǎo)整個(gè)知識發(fā) 現(xiàn)過程，通過及時(shí)消除無前途的搜索路徑，提高挖掘的有效性。六、數(shù)據(jù)挖掘系統(tǒng)分類根據(jù)所挖掘的數(shù)據(jù)庫進(jìn)行分類：如果按數(shù)據(jù)模型進(jìn)行分類，就會有關(guān)系類型、事務(wù)類型、面向?qū)ο箢愋汀ο箨P(guān)系類型和數(shù)據(jù)倉庫類型等數(shù)據(jù)挖掘系統(tǒng)。如果按照所處理數(shù)據(jù)類型進(jìn)行劃分，就會有空間數(shù)據(jù)類型、時(shí)序數(shù)據(jù)類型、文本類型和多媒體類型等數(shù)據(jù)挖掘系統(tǒng)，或互聯(lián)網(wǎng)挖掘系統(tǒng)。其他的系統(tǒng)類型還包括：異構(gòu)數(shù)據(jù)挖掘系統(tǒng)和歷史數(shù)據(jù)挖掘系統(tǒng)。根據(jù)所挖掘的知識進(jìn)行分類：

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘系統(tǒng)

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)挖掘系統(tǒng)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔