數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)教案PPT(6-10章)_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)教案PPT(6-10章)_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)教案PPT(6-10章)_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)教案PPT(6-10章)_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)教案PPT(6-10章)_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 E-MAIL:BXXHSSINA.COM數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)Electronic Commerce夏火松E-MAIL:BXXHSSINA.COMvIstitute Of MIS And LMS,wuse (Istitute Of MIS And LMS,wuse () ) E-MAIL:BXXHSSINA.COM第6章 數(shù)據(jù)挖掘基本算法本章內(nèi)容:v6.1 分類規(guī)則挖掘分類規(guī)則挖掘v6.2 預(yù)測分析與趨勢分析規(guī)則預(yù)測分析與趨勢分析規(guī)則v6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法數(shù)據(jù)挖掘的關(guān)聯(lián)算法v6.4 數(shù)據(jù)挖掘的聚類算法數(shù)據(jù)挖掘的聚類算法v6.5 數(shù)據(jù)挖掘的統(tǒng)計(jì)分析算法數(shù)據(jù)挖掘的統(tǒng)計(jì)分析算法v6.6 數(shù)據(jù)

2、挖掘的品種優(yōu)化算法數(shù)據(jù)挖掘的品種優(yōu)化算法v6.7 數(shù)據(jù)挖掘的進(jìn)化算法數(shù)據(jù)挖掘的進(jìn)化算法 E-MAIL:BXXHSSINA.COM6.1 分類規(guī)則挖掘分類規(guī)則挖掘6.1.1分類與估值分類與估值 1 分類為了理解事物特征并做出預(yù)測使用歷史數(shù)據(jù)建立一個(gè)分類模型(即分類器)的過程 。應(yīng)用于信用卡系統(tǒng)中的信用分級(jí)、市場調(diào)查、療效診斷、尋找店址等 實(shí)踐應(yīng)用參照課本 E-MAIL:BXXHSSINA.COM6.1 分類規(guī)則挖掘分類規(guī)則挖掘 6.1.1分類與估值分類與估值 2 估值 估值(estimation)與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定的數(shù)

3、目,估值的量是不確定的。 3 分類方法與步驟 方法:決策樹歸納、貝葉斯分類、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)。還有K-最臨近分類、基于案例的推理、遺傳算法、粗糙集和模糊集方法。步驟:模型創(chuàng)建、模型使用 E-MAIL:BXXHSSINA.COM6.1 分類規(guī)則挖掘分類規(guī)則挖掘v6.1.1分類與估值分類與估值4 評(píng)估分類方法評(píng)估分類方法要考慮的指標(biāo):預(yù)測準(zhǔn)確率、速度、創(chuàng)建速度、使用速度、魯棒性、處理噪聲和丟失值、伸縮性、對(duì)磁盤駐留數(shù)據(jù)的處理能力、可解釋性、對(duì)模型的可理解程度、規(guī)則好壞的評(píng)價(jià)、決策樹的大小和分類規(guī)則的簡明性。 E-MAIL:BXXHSSINA.COM6.1 分類規(guī)則挖掘分類規(guī)則挖掘6.1.2 決

4、策樹父節(jié)點(diǎn)子節(jié)點(diǎn)子節(jié)點(diǎn)葉節(jié)點(diǎn)子節(jié)點(diǎn)子節(jié)點(diǎn)子節(jié)點(diǎn)根節(jié)點(diǎn)圖6.1 一般決策樹結(jié)構(gòu)葉節(jié)點(diǎn)父節(jié)點(diǎn) E-MAIL:BXXHSSINA.COM6.1 分類規(guī)則挖掘分類規(guī)則挖掘6.1.2 決策樹1決策樹的構(gòu)造過程ID3算法應(yīng)用如下:)(log21pipmii)(log21pipmii)(log21pipmii)(log21pipmii),.,1(1)/).21(smjjsImjssmjjsjs)(log21pipmii信息量計(jì)算公式:I(s1,s2,sm)=- (6.1)其中,pi為si占整個(gè)類別的概率利用屬性A劃分當(dāng)前樣本集合所需要的信息(熵)的計(jì)算公式為:E(A)= (6.2)信息增益公式:Gain(A

5、)= I(s1,s2,sm)-E(A) (6.3)例如:一個(gè)銷售的顧客數(shù)據(jù)庫(訓(xùn)練樣本集合),對(duì)購買計(jì)算機(jī)的人員進(jìn)行分類:字段為:(年齡(取值:40);收入(高,中,低);學(xué)生否(Y,N);信用(一般,很好);購買計(jì)算機(jī)否(Y,N)記錄為14個(gè),具體數(shù)據(jù)如下:X1=(30, 高,N, 一般,N);X2=(40, 中,N, 一般,Y)X5=(40, 低,Y, 一般,Y);X6=(40, 低,Y, 很好,N)X7=(30-40, 低,Y, 高,Y);X8=(30, 中,N, 一般,N)X9=(40, 中,Y, 一般,Y)X11=(40,中,N, 很好,N) E-MAIL:BXXHSSINA.COM

6、6.1 分類規(guī)則挖掘分類規(guī)則挖掘6.1.2 決策樹1決策樹的構(gòu)造過程決策樹的構(gòu)造過程決策樹的構(gòu)造算法: 決策樹的構(gòu)造算法可通過訓(xùn)練集T完成,其中T=,而x=(a1,a2,an)為一個(gè)訓(xùn)練實(shí)例,它有n個(gè)屬性,分別列于屬性表(A1,A2,An)中,其中ai表示屬性Ai的取值。CjC=C1,C2,Cm為x的分類結(jié)果。從屬性表中選擇屬性Ai作為分類屬性;若屬性Ai的取值有ki個(gè),則將T劃分為ki個(gè)子集,T1,Tki,其中Tij=|T,且x的屬性取值A(chǔ)為第i個(gè)值;接下來從屬性表中刪除屬性Ai;對(duì)于每一個(gè)Tij(1jK1),令T=Tij;如果屬性表非空,返回第1步,否則輸出。 E-MAIL:BXXHSSI

7、NA.COM6.1 分類規(guī)則挖掘分類規(guī)則挖掘6.1.2 決策樹2分類器分類器 定義:輸入的數(shù)據(jù)含有千萬個(gè)記錄,每個(gè)記錄又有很多個(gè)屬性,其中有一個(gè)特別的屬性叫做類(例如信用程度的高,中,低)。 具體步驟 :1)樹的建立。 2)樹的修剪,SLIQ采用了MDL(最小敘述長度)的方法來修剪樹。 E-MAIL:BXXHSSINA.COM6.1 分類規(guī)則挖掘分類規(guī)則挖掘6.1.2 決策樹3決策樹的可擴(kuò)展性決策樹的可擴(kuò)展性4基于決策樹方法的數(shù)據(jù)挖掘工具基于決策樹方法的數(shù)據(jù)挖掘工具 KnowledgSEEKER E-MAIL:BXXHSSINA.COM6.1 分類規(guī)則挖掘分類規(guī)則挖掘6.1.3 貝葉斯分類貝葉

8、斯分類1貝葉斯信任網(wǎng)絡(luò)如何工作貝葉斯信任網(wǎng)絡(luò)如何工作邊緣主區(qū)域手機(jī)呼叫服務(wù)區(qū)域noyes外界圖6.3 簡單的貝葉斯網(wǎng)圖 E-MAIL:BXXHSSINA.COM6.1 分類規(guī)則挖掘分類規(guī)則挖掘6.1.3 貝葉斯分類貝葉斯分類2貝葉斯定理與樸素貝葉斯分類貝葉斯定理與樸素貝葉斯分類v貝葉斯定理: P(H|X)=P(X|H)P(H)/P(X) 其中,P(H|X)表示條件X下H的概率,也稱為條件概率或稱為后驗(yàn)概率(posteriori probabilities)。v樸素貝葉斯分類:假定有m個(gè)類C1, Cm,對(duì)于數(shù)據(jù)樣本X,分類法將預(yù)測X屬于類Ci,當(dāng)且僅當(dāng)P(Ci|X) P(Cj|X), E-MAI

9、L:BXXHSSINA.COM6.2預(yù)測分析與趨勢分析規(guī)則預(yù)測分析與趨勢分析規(guī)則6.2.1 預(yù)言的基本方法預(yù)言的基本方法v預(yù)言(prediction)是一門掌握對(duì)象變化動(dòng)態(tài)的科學(xué),它是對(duì)對(duì)象變動(dòng)趨勢的預(yù)見、分析和判斷,也是一種動(dòng)態(tài)分析方法。 v預(yù)測的基本步驟: 確定預(yù)測目標(biāo),包括預(yù)測對(duì)象、目的、對(duì)象范圍; 收集分析內(nèi)部和外部資料; 數(shù)據(jù)的處理及模型的選擇; 預(yù)測模型的分析、修正; 確定預(yù)測值。 E-MAIL:BXXHSSINA.COM6.2 預(yù)測分析與趨勢分析規(guī)則預(yù)測分析與趨勢分析規(guī)則6.2.2 定量分析預(yù)測v時(shí)間序列法v回歸預(yù)測v非線性模型v灰色預(yù)測模型GM(1,1) v組合預(yù)測 E-MAI

10、L:BXXHSSINA.COM6.2 預(yù)測分析與趨勢分析規(guī)則預(yù)測分析與趨勢分析規(guī)則6.2.3預(yù)測的結(jié)果分析預(yù)測的結(jié)果分析v預(yù)測的結(jié)果分析要考慮到的因素:相反的預(yù)測結(jié)果 勝出裕度 成本收益分析 E-MAIL:BXXHSSINA.COM6.2 預(yù)測分析與趨勢分析規(guī)則預(yù)測分析與趨勢分析規(guī)則6.2.4 趨勢分析挖掘趨勢分析挖掘v分析時(shí)間序列數(shù)據(jù)需要注意以下方面分析時(shí)間序列數(shù)據(jù)需要注意以下方面 :長時(shí)間的走向 周期的走向與周期的變化 季節(jié)性的走向與變化 不規(guī)則的隨機(jī)走向 E-MAIL:BXXHSSINA.COM6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.1 關(guān)聯(lián)規(guī)則的概念及分類關(guān)聯(lián)規(guī)則的概念及分

11、類v1關(guān)聯(lián)規(guī)則的概念關(guān)聯(lián)規(guī)則的概念定義定義1 設(shè)設(shè)I=i1、i2、i3,,im是由是由m個(gè)不同的數(shù)據(jù)項(xiàng)目組成的集合,其中的元素稱個(gè)不同的數(shù)據(jù)項(xiàng)目組成的集合,其中的元素稱為項(xiàng)為項(xiàng)(item),項(xiàng)的集合稱為項(xiàng)集,包含,項(xiàng)的集合稱為項(xiàng)集,包含k個(gè)項(xiàng)的項(xiàng)集稱為個(gè)項(xiàng)的項(xiàng)集稱為k項(xiàng)集項(xiàng)集,給定一個(gè)事務(wù)(交給定一個(gè)事務(wù)(交易)易)D,即交易數(shù)據(jù)庫,其中的每一個(gè)事務(wù)(交易),即交易數(shù)據(jù)庫,其中的每一個(gè)事務(wù)(交易)T是數(shù)據(jù)項(xiàng)是數(shù)據(jù)項(xiàng)I的一個(gè)子集,即,的一個(gè)子集,即,T有一個(gè)惟一的標(biāo)積符有一個(gè)惟一的標(biāo)積符TID;當(dāng)且僅當(dāng)時(shí),稱交易;當(dāng)且僅當(dāng)時(shí),稱交易T包含項(xiàng)集包含項(xiàng)集X;那么關(guān)聯(lián)規(guī)則就;那么關(guān)聯(lián)規(guī)則就形如形如“X

12、=Y”的蘊(yùn)涵式;其中,的蘊(yùn)涵式;其中,即表示滿足,即表示滿足X中條件的記錄也一定滿足中條件的記錄也一定滿足Y。關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則X=Y在交易數(shù)據(jù)庫中成立在交易數(shù)據(jù)庫中成立, 具有支持度具有支持度s和具有置信度和具有置信度c 。 這也就是交易數(shù)據(jù)集這也就是交易數(shù)據(jù)集D中具有支持度中具有支持度s,即,即D中至少有中至少有s%的事務(wù)包含的事務(wù)包含,描述描述 為:為:support(X=Y)= 比如比如Support(X=Y )=同時(shí)購買商品同時(shí)購買商品X和和Y的交易數(shù)的交易數(shù) 總交易數(shù)總交易數(shù)同時(shí)交易數(shù)據(jù)集同時(shí)交易數(shù)據(jù)集D中具有置信度中具有置信度c,即,即D中包含中包含X的事務(wù)至少有的事務(wù)至少有c%同

13、時(shí)也包含同時(shí)也包含Y,描述描述為:為:confidence(X=Y)= 比如購買了商品比如購買了商品X,同時(shí)購買商品,同時(shí)購買商品Y可信度,可信度,confidence(X=Y)=同時(shí)購買商品同時(shí)購買商品X和和Y的交易數(shù)的交易數(shù) 購買了商品購買了商品X的交易數(shù)的交易數(shù)一般稱滿足一定要求的規(guī)則為強(qiáng)規(guī)則。通常稱滿足最小支持度和最小置信度的關(guān)聯(lián)一般稱滿足一定要求的規(guī)則為強(qiáng)規(guī)則。通常稱滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則(規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則(strong)。一般將最小支持度簡記為)。一般將最小支持度簡記為minsup和最小置信度和最小置信度簡記為簡記為minconf。 E-MAIL:BXXH

14、SSINA.COM6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.1 關(guān)聯(lián)規(guī)則的概念及分類關(guān)聯(lián)規(guī)則的概念及分類v2 關(guān)聯(lián)規(guī)則的分類分類標(biāo)準(zhǔn)類別規(guī)則中所處理的值布爾關(guān)聯(lián)規(guī)則,量化關(guān)聯(lián)規(guī)則規(guī)則中所涉及的數(shù)據(jù)維單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則規(guī)則中所涉及的抽象層單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則規(guī)則中的擴(kuò)充最大的模式和頻繁閉項(xiàng)集關(guān)聯(lián)特性分類分析與相關(guān)分析 E-MAIL:BXXHSSINA.COM6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2 簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則)布爾關(guān)聯(lián)規(guī)則)v1簡單形式的關(guān)聯(lián)規(guī)則的核心算法簡單形式的關(guān)聯(lián)規(guī)則的核心算法找

15、到所有支持度大于最小支持度的項(xiàng)集找到所有支持度大于最小支持度的項(xiàng)集,即頻集即頻集,有有k個(gè)數(shù)據(jù)個(gè)數(shù)據(jù)頻集稱為頻集稱為k項(xiàng)頻集項(xiàng)頻集.找出所有的頻集由找出所有的頻集由apriori算法實(shí)現(xiàn)。算法實(shí)現(xiàn)。Apriori性質(zhì)具有一個(gè)頻集的任一非空子集都是頻集。性質(zhì)具有一個(gè)頻集的任一非空子集都是頻集。使用第使用第1步找到的頻集產(chǎn)生期望的規(guī)則步找到的頻集產(chǎn)生期望的規(guī)則 apriori算法的詳細(xì)介紹見課本。算法的詳細(xì)介紹見課本。 E-MAIL:BXXHSSINA.COM6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2 簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則

16、)布爾關(guān)聯(lián)規(guī)則)v2 頻集算法的幾種優(yōu)化方法基于劃分的方法基于hash的方法 基于采樣的方法 減少交易的個(gè)數(shù) E-MAIL:BXXHSSINA.COM6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2 簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則)布爾關(guān)聯(lián)規(guī)則)v3 其他的頻集挖掘方法FP-growth方法 min_hashing(MH)和locality_sensitive_hashing(LSH) E-MAIL:BXXHSSINA.COM6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.3 多層和多維關(guān)聯(lián)規(guī)則的挖掘多層和多維關(guān)聯(lián)規(guī)則的挖掘v多層

17、關(guān)聯(lián)規(guī)則 v多維關(guān)聯(lián)規(guī)則 v關(guān)聯(lián)規(guī)則價(jià)值衡量的方法 6.3.4 貨籃子分析存在的問題貨籃子分析存在的問題v詳見課本 E-MAIL:BXXHSSINA.COM6.3 數(shù)據(jù)挖掘的關(guān)聯(lián)算法數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.5 關(guān)聯(lián)分析的其他算法關(guān)聯(lián)分析的其他算法v發(fā)現(xiàn)關(guān)聯(lián)的更好方法 v統(tǒng)計(jì)相關(guān)以外的v理解關(guān)聯(lián) v有效可行的市場籃子分析 6.3.6 挖掘序列模式挖掘序列模式v序列模式的概念及定義序列模式的概念及定義 v序列模式挖掘的主要算法序列模式挖掘的主要算法 GSP算法描述 PrefixSpan算法 E-MAIL:BXXHSSINA.COM關(guān)聯(lián)規(guī)則挖掘一個(gè)例子交易ID購買商品2000A,B,C1000A,

18、C4000A,D5000B,E,F頻繁項(xiàng)集支持度A75%B50%C50%A,C50%最小值尺度 50%最小可信度 50%v對(duì)于 A C:support = support(A 、C) = 50%confidence = support(A 、C)/support(A) = 66.6%vApriori的基本思想:頻繁項(xiàng)集的任何子集也一定是頻繁的 E-MAIL:BXXHSSINA.COM關(guān)鍵步驟:挖掘頻繁集v頻繁集:是指滿足最小支持度的項(xiàng)目集合頻繁集的子集也一定是頻繁的v如, 如果AB 是頻繁集,則 A B 也一定是頻繁集從1到k(k-頻繁集)遞歸查找頻繁集v用得到的頻繁集生成關(guān)聯(lián)規(guī)則 E-MAI

19、L:BXXHSSINA.COMApriori算法v連接: 用 Lk-1自連接得到Ckv修剪: 一個(gè)k-項(xiàng)集,如果他的一個(gè)k-1項(xiàng)集(他的子集 )不是頻繁的,那他本身也不可能是頻繁的。v偽代碼:Ck: Candidate itemset of size kLk : frequent itemset of size kL1 = frequent items;for (k = 1; Lk !=; k+) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do increment the c

20、ount of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support endreturn k Lk; E-MAIL:BXXHSSINA.COMApriori算法 例子TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5數(shù)據(jù)庫 Ditemset sup.1223334153itemset sup.12233353掃描 DC1L1itemset1 21 31 52 32 53 5itemset sup1 211 321 512 322

21、533 52itemset sup1 322 322 533 52L2C2C2掃描 DC3L3itemset2 3 5掃描 Ditemset sup2 3 52 E-MAIL:BXXHSSINA.COM如何生成候選集v假定 Lk-1 中的項(xiàng)按順序排列v第一步: 自連接 Lk-1 insert into Ckselect p.item1, p.item2, , p.itemk-1, q.itemk-1from Lk-1 p, Lk-1 qwhere p.item1=q.item1, , p.itemk-2=q.itemk-2, p.itemk-1 q.itemk-1v第二步: 修剪forall

22、itemsets c in Ck doforall (k-1)-subsets s of c doif (s is not in Lk-1) then delete c from Ck E-MAIL:BXXHSSINA.COM如何計(jì)算候選集的支持度v計(jì)算支持度為什么會(huì)成為一個(gè)問題?候選集的個(gè)數(shù)非常巨大 一筆交易可能包含多個(gè)候選集v方法:用 hash-tree 存放候選集樹的葉子節(jié)點(diǎn) of存放項(xiàng)集的列表和支持度內(nèi)部節(jié)點(diǎn) 是一個(gè)hash表Subset 函數(shù): 找到包含在一筆交易中的所有候選集 E-MAIL:BXXHSSINA.COM生成候選集的例子vL3=abc, abd, acd, ace, b

23、cdv自連接 : L3*L3abc 和 abd 得到 abcd acd 和 ace 得到 acdev修剪:ade 不在 L3中,刪除 acdevC4=abcd E-MAIL:BXXHSSINA.COM提高Apriori效率的方法v基于Hash的項(xiàng)集計(jì)數(shù): 如果一個(gè) k-項(xiàng)集在hash-tree的路徑上的一個(gè)計(jì)數(shù)值低于閾值,那他本身也不可能是頻繁的。v減少交易記錄: 不包含任何頻繁k-項(xiàng)集的交易也不可能包含任何大于k的頻繁集v分割: 一個(gè)項(xiàng)集要想在整個(gè)數(shù)據(jù)庫中是頻繁的,那么他至少在數(shù)據(jù)庫的一個(gè)分割上是頻繁的。v采樣: 在給定數(shù)據(jù)的子集上挖掘,使用小的支持度+完整性驗(yàn)證方法v動(dòng)態(tài)項(xiàng)集計(jì)數(shù): 在添加

24、一個(gè)新的候選集之前,先估計(jì)一下是不是他的所有子集都是頻繁的。 E-MAIL:BXXHSSINA.COMApriori 夠快了嗎? 性能瓶頸vApriori算法的核心:用頻繁的(k 1)-項(xiàng)集生成候選的頻繁 k-項(xiàng)集用數(shù)據(jù)庫掃描和模式匹配計(jì)算候選集的支持度vApriori 的瓶頸: 候選集生成巨大的候選集:v104 個(gè)頻繁1-項(xiàng)集要生成 107 個(gè)候選 2-項(xiàng)集v要找尺寸為100的頻繁模式,如 a1, a2, , a100, 你必須先產(chǎn)生2100 1030 個(gè)候選集多次掃描數(shù)據(jù)庫: v如果最長的模式是n的話,則需要 (n +1 ) 次數(shù)據(jù)庫掃描 E-MAIL:BXXHSSINA.COM6.4數(shù)據(jù)

25、挖掘的聚類算法數(shù)據(jù)挖掘的聚類算法6.4.1 聚類分析的概念與分類v聚類分析概念v聚類分析方法的分類 類別算法分裂(劃分)法K-MEANS算法(K-平均)、K-MEDOIDS算法(K-中心點(diǎn))、CLARANS算法(給予選擇的方法)層次法BIRCH算法(平衡迭代歸約和聚類)、CURE算法(代表聚類)、CHAMELEON算法(動(dòng)態(tài)模型)基于密度的方法DBSCAN算法(基于高密度連接區(qū)域)、OPTICS算法(對(duì)象排序識(shí)別)、DENCLUE算法(密度分布函數(shù))基于網(wǎng)格的方法STING算法(統(tǒng)計(jì)信息網(wǎng)格)、CLIQUE算法(聚類高維空間)、WAVE-CLUSTER算法(小波變換)基于模型的方法統(tǒng)計(jì)學(xué)方法、

26、神經(jīng)網(wǎng)絡(luò)方法 E-MAIL:BXXHSSINA.COM6.4數(shù)據(jù)挖掘的聚類算法數(shù)據(jù)挖掘的聚類算法6.4.2 聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方聚類分析中兩個(gè)對(duì)象之間的相異度計(jì)算方法法v區(qū)間標(biāo)度變量計(jì)算方法區(qū)間標(biāo)度變量計(jì)算方法 v二元變量計(jì)算方法 v標(biāo)稱型、序數(shù)型和比例標(biāo)度型變量計(jì)算方法 v混合類型的變量計(jì)算方法 E-MAIL:BXXHSSINA.COM6.4數(shù)據(jù)挖掘的聚類算法數(shù)據(jù)挖掘的聚類算法6.4.3 劃分方法劃分方法v典型的劃分方法:典型的劃分方法:k-平均和平均和k-中心點(diǎn)中心點(diǎn) 基于簇的重心技術(shù):k-平均方法 基于有代表性的對(duì)象的技術(shù):k-中心點(diǎn)方法 v大型數(shù)據(jù)庫中的劃分方法:基于選

27、擇的K-中心點(diǎn)CLARANS方法 E-MAIL:BXXHSSINA.COM6.4數(shù)據(jù)挖掘的聚類算法數(shù)據(jù)挖掘的聚類算法v6.4.4 層次方法層次方法v凝聚的和分裂的層次聚類凝聚的和分裂的層次聚類 凝聚層次聚類方法AGNES 分裂層次聚類方法DIANA v利用層次方法的平衡迭代歸約和聚類 綜合的層次聚類方法 BIRCHv利用代表點(diǎn)聚類 一種新穎的層次聚類算法 CUREv一個(gè)利用動(dòng)態(tài)模型的層次聚類算法 動(dòng)態(tài)模型的聚類法動(dòng)態(tài)模型的聚類法 chameleon (變色龍) E-MAIL:BXXHSSINA.COM6.4數(shù)據(jù)挖掘的聚類算法數(shù)據(jù)挖掘的聚類算法6.4.5 基于密度的方法v一個(gè)基于高密度連接區(qū)域的

28、聚類方法 DBSCAN 聚類方法v通過對(duì)象排序識(shí)別聚類結(jié)構(gòu) OPTICS聚類分析方法 v基于密度分布函數(shù)的聚類 基于一組密度分布函數(shù)的聚類算法 DENCLUE E-MAIL:BXXHSSINA.COM6.4數(shù)據(jù)挖掘的聚類算法數(shù)據(jù)挖掘的聚類算法6.4.6 基于網(wǎng)格的方法v統(tǒng)計(jì)信息網(wǎng)絡(luò) STING是一種基于網(wǎng)格的多分辨率聚類技術(shù) v聚類高維空間 CLIQUE(clustering in quest, CLIQUE)聚類算法 6.4.7 基于模型的聚類方法v增量概念聚類算法 COBWEB 6.4.8 模糊聚類算法 E-MAIL:BXXHSSINA.COM6.5 數(shù)據(jù)挖掘的統(tǒng)計(jì)分析算法數(shù)據(jù)挖掘的統(tǒng)計(jì)分

29、析算法v6.5.1 辨別方法v6.5.2 回歸模型v6.5.3 優(yōu)點(diǎn)與缺點(diǎn) E-MAIL:BXXHSSINA.COM6.6 數(shù)據(jù)挖掘的品種優(yōu)化算法v6.6.1 品種優(yōu)化v6.6.2 品種優(yōu)化算法 E-MAIL:BXXHSSINA.COM6.7數(shù)據(jù)挖掘的進(jìn)化算法數(shù)據(jù)挖掘的進(jìn)化算法6.7.1 遺傳算法v如何工作 v優(yōu)缺點(diǎn) 6.7.2 神經(jīng)網(wǎng)絡(luò)算法v如何工作 v無指導(dǎo)的學(xué)習(xí) v競爭學(xué)習(xí)競爭學(xué)習(xí)v自組織特征映射模型 v優(yōu)缺點(diǎn) E-MAIL:BXXHSSINA.COM6.7數(shù)據(jù)挖掘的進(jìn)化算法數(shù)據(jù)挖掘的進(jìn)化算法v神經(jīng)網(wǎng)絡(luò)模型性別區(qū)域職位B類客戶年齡交易額受教育的年限圖6.10 神經(jīng)網(wǎng)絡(luò)模型C類客戶跳槽客戶

30、隱節(jié)點(diǎn)隱節(jié)點(diǎn)A類客戶隱節(jié)點(diǎn)隱節(jié)點(diǎn) E-MAIL:BXXHSSINA.COM第7章 非結(jié)構(gòu)化數(shù)據(jù)挖掘本章內(nèi)容:v7.1 Web數(shù)據(jù)挖掘v7.2 空間群數(shù)據(jù)挖掘v7.3 多媒體數(shù)據(jù)挖掘 E-MAIL:BXXHSSINA.COM7.1 Web數(shù)據(jù)挖掘7.1.1 非結(jié)構(gòu)化數(shù)據(jù)源vWeb數(shù)據(jù)挖掘的難點(diǎn) 對(duì)數(shù)據(jù)來源分析異構(gòu)數(shù)據(jù)環(huán)境 半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu) 解決半結(jié)構(gòu)化的數(shù)據(jù)源問題 文本總結(jié) vXML與Web數(shù)據(jù)挖掘技術(shù) XML的產(chǎn)生與發(fā)展 XML的主要特點(diǎn) E-MAIL:BXXHSSINA.COM7.1 Web數(shù)據(jù)挖掘7.1.1 非結(jié)構(gòu)化數(shù)據(jù)源vXML在Web數(shù)據(jù)挖掘中的應(yīng)用兩個(gè)或更多異質(zhì)數(shù)據(jù)庫之間進(jìn)行通信的

31、應(yīng)用 大部分處理負(fù)載從Web服務(wù)器轉(zhuǎn)到Web客戶端的應(yīng)用 Web客戶端將同樣的數(shù)據(jù)以不同的瀏覽形式提供給不同的用戶的應(yīng)用 需要智能Web代理根據(jù)用戶個(gè)人的需要裁減信息內(nèi)容的應(yīng)用 E-MAIL:BXXHSSINA.COM7.1 Web數(shù)據(jù)挖掘7.1.2 Web挖掘分類挖掘分類Web挖掘Web content mining(Web內(nèi)容挖掘)Web structure mining(Web結(jié)構(gòu)挖掘)Web usage mining(Web訪問挖掘)Search result mining(搜索結(jié)果再挖掘)General access pattern tracking(一般訪問模式跟蹤)Customi

32、zed usage tracking(定制的使用跟蹤)Web page content mining(Web頁面內(nèi)容挖掘)圖7.1 Web挖掘分類 E-MAIL:BXXHSSINA.COMWeb挖掘三種方法比較 Web內(nèi)容挖掘Web結(jié)構(gòu)挖掘Web訪問挖掘處理數(shù)據(jù)類型IR方法數(shù)據(jù)庫方法Web結(jié)構(gòu)挖掘用戶訪問挖掘無結(jié)構(gòu)和半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)主要數(shù)據(jù)自由文本、HTML標(biāo)記的超文本HTML標(biāo)記的超文本文檔內(nèi)及文檔間的超鏈接Serverlog,proxy serverlog,client log表示方法詞集、段落、概念、IR的三種經(jīng)典模型OEM 關(guān)系圖關(guān)系表、圖處理方法TFIDF、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、自

33、然語言理解數(shù)據(jù)庫技術(shù)機(jī)器學(xué)習(xí)、專有算法(如HITS pagerank)統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、關(guān)聯(lián)規(guī)則主要應(yīng)用分類、聚類、模式發(fā)現(xiàn)模式發(fā)現(xiàn)、數(shù)據(jù)向?qū)А⒍嗑S數(shù)據(jù)庫、站點(diǎn)創(chuàng)建與維護(hù)頁面權(quán)重分類聚類、模式發(fā)現(xiàn)用戶個(gè)性化、自適應(yīng)Web站點(diǎn)、商業(yè)決策 E-MAIL:BXXHSSINA.COM7.1 Web數(shù)據(jù)挖掘vWeb挖掘的基本構(gòu)架 訪問者注冊用戶網(wǎng)站交易信息瀏覽信息數(shù)據(jù)庫、數(shù)據(jù)倉庫Web日志文件Web Serer中其他信息數(shù)據(jù)預(yù)處理模塊結(jié)構(gòu)數(shù)據(jù)挖掘模塊Web挖掘的基本構(gòu)架頁面訪問情況Web結(jié)構(gòu)模式Web內(nèi)容模式知識(shí)非結(jié)構(gòu)數(shù)據(jù)挖掘模塊 E-MAIL:BXXHSSINA.COM7.1 Web數(shù)據(jù)挖掘7.1.3

34、Web內(nèi)容挖掘v信息檢索(information retrieve ,IR)方法 v數(shù)據(jù)庫方法 7.1.4 Web結(jié)構(gòu)挖掘vPage-Rank方法 7.1.5 Web訪問挖掘v對(duì)Web日志進(jìn)行清洗、過濾和轉(zhuǎn)換以及剔除無關(guān)記錄 v采用統(tǒng)計(jì)學(xué)、模式識(shí)別、人工智能、數(shù)據(jù)庫數(shù)據(jù)挖掘等領(lǐng)域的成熟技術(shù)在Web的使用記錄中挖掘知識(shí) vWeb使用挖掘中的模式分析 E-MAIL:BXXHSSINA.COM7.1 Web數(shù)據(jù)挖掘7.1.6 利用利用Web日志的聚類算法日志的聚類算法v客戶群體的模糊聚類算法客戶群體的模糊聚類算法 v用戶訪問興趣的算法用戶訪問興趣的算法 v客戶群體聚類的客戶群體聚類的Hamming距

35、離算法距離算法 v基于模糊理論的基于模糊理論的Web頁面聚類算法頁面聚類算法 vWeb頁面聚類的頁面聚類的Hamming距離算法距離算法 E-MAIL:BXXHSSINA.COM7.1 Web數(shù)據(jù)挖掘電子商務(wù)中的電子商務(wù)中的Web挖掘挖掘v電子商務(wù)中Web挖掘的作用 v電子商務(wù)中Web挖掘的基本問題 v電子商務(wù)中的數(shù)據(jù)挖掘工具 文本信息挖掘工具 用戶訪問模式挖掘工具 用戶導(dǎo)航行為挖掘工具 綜合性的Web分析工具 E-MAIL:BXXHSSINA.COM7.2 空間群數(shù)據(jù)挖掘空間群數(shù)據(jù)挖掘7.2.1 空間群數(shù)據(jù)挖掘空間群數(shù)據(jù)挖掘概念 從空間數(shù)據(jù)中抽取隱含的知識(shí)、空間關(guān)系、空間及與非空間之間的有意

36、義的特征或模式。 7.2.2 空間群數(shù)據(jù)挖掘分類空間群數(shù)據(jù)挖掘分類 v空間檢索 v空間拓?fù)浏B加分析 v空間模擬分析 E-MAIL:BXXHSSINA.COM7.2 空間群數(shù)據(jù)挖掘空間群數(shù)據(jù)挖掘v7.2.3 空間數(shù)據(jù)挖掘的體系結(jié)構(gòu)空間數(shù)據(jù)挖掘的體系結(jié)構(gòu)空間數(shù)據(jù)結(jié)構(gòu)查詢與優(yōu)化原則的分析信息集成模式知識(shí)級(jí)處理語義級(jí)檢索與索引領(lǐng)域知識(shí)模式知識(shí)對(duì)象和屬性抽取物理級(jí)底層特性處理設(shè)計(jì)圖7.4 空間數(shù)據(jù)挖掘的體系結(jié)構(gòu)對(duì)象級(jí)特征處理語義概念級(jí)處理用戶空間數(shù)據(jù)處理 E-MAIL:BXXHSSINA.COM7.3多媒體數(shù)據(jù)挖掘多媒體數(shù)據(jù)挖掘7.3.1 多媒體數(shù)據(jù)挖掘的概念7.3.2 多媒體數(shù)據(jù)挖掘的分類v圖像數(shù)據(jù)挖

37、掘 v視頻數(shù)據(jù)挖掘 v音頻數(shù)據(jù)挖掘 E-MAIL:BXXHSSINA.COM7.3多媒體數(shù)據(jù)挖掘多媒體數(shù)據(jù)挖掘7.3.3 多媒體數(shù)據(jù)挖掘的體系結(jié)構(gòu)原始數(shù)據(jù)媒體數(shù)據(jù)攝取媒體編碼存檔瀏覽引擎分類特征抽取查詢引擎工具交互式學(xué)習(xí)索引的生成用戶圖7.5 功能驅(qū)動(dòng)的多媒體挖掘體系結(jié)構(gòu)基于底層特性的索引與檢索元數(shù)據(jù)與數(shù)據(jù)抽取原則的分析信息集成模式知識(shí)級(jí)處理語義級(jí)檢索與索引領(lǐng)域知識(shí)模式知識(shí)對(duì)象級(jí)的索引與檢索物理級(jí)底層特性處理設(shè)計(jì)圖7.6 信息驅(qū)動(dòng)的多媒體挖掘的結(jié)構(gòu)對(duì)象級(jí)特征處理語義概念級(jí)處理用戶多媒體處理 E-MAIL:BXXHSSINA.COM第8章 離群數(shù)據(jù)挖掘本章內(nèi)容v離群數(shù)據(jù)挖掘概念v離群數(shù)據(jù)挖掘分類

38、v離群數(shù)據(jù)挖掘算法v市場營銷離群數(shù)據(jù)的特點(diǎn) E-MAIL:BXXHSSINA.COM第8章 離群數(shù)據(jù)挖掘 8.1 離群數(shù)據(jù)挖掘的概念8.2 離群數(shù)據(jù)挖掘的分類v基于統(tǒng)計(jì)學(xué) v基于距離的方法 v基于偏移 v高維數(shù)據(jù)的離群數(shù)據(jù)探測 v基于規(guī)則的分類離群數(shù)據(jù)挖掘方法 v基于密度(density-based)的離群挖掘方法 E-MAIL:BXXHSSINA.COM8.3離群數(shù)據(jù)挖掘的算法離群數(shù)據(jù)挖掘的算法8.3.1基于統(tǒng)計(jì)的方法基于統(tǒng)計(jì)的方法8.3.2基于距離的離群數(shù)據(jù)方法基于距離的離群數(shù)據(jù)方法基于距離的離群數(shù)據(jù)定義 基于距離的離群數(shù)據(jù)挖掘的算法分類及算法描述 基于距離的算法的改進(jìn) 8.3.3 基于偏

39、離的離群數(shù)據(jù)挖掘基于偏離的離群數(shù)據(jù)挖掘序列離群數(shù)據(jù)技術(shù)序列離群數(shù)據(jù)技術(shù) OLAP數(shù)據(jù)立方體技術(shù) E-MAIL:BXXHSSINA.COM8.3離群數(shù)據(jù)挖掘的算法離群數(shù)據(jù)挖掘的算法v8.3.4 高維數(shù)據(jù)的離群數(shù)據(jù)挖掘高維數(shù)據(jù)的離群數(shù)據(jù)挖掘v8.3.5 基于小波的離群數(shù)據(jù)挖掘基于小波的離群數(shù)據(jù)挖掘 時(shí)序數(shù)據(jù)的離群數(shù)據(jù)挖掘 基于聚類的離群數(shù)據(jù)CL() E-MAIL:BXXHSSINA.COM8.4市場營銷離群數(shù)據(jù)挖掘市場營銷離群數(shù)據(jù)挖掘8.4.1市場營銷離群數(shù)據(jù)挖掘特點(diǎn)市場營銷離群數(shù)據(jù)挖掘特點(diǎn)8.4.2 基于分形的市場營銷離群數(shù)據(jù)挖掘模型基于分形的市場營銷離群數(shù)據(jù)挖掘模型v幾個(gè)定義幾個(gè)定義 E-MA

40、IL:BXXHSSINA.COM第9章 數(shù)據(jù)挖掘語言與工具選擇本章內(nèi)容v9.1 數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化v9.2 數(shù)據(jù)挖掘研究熱點(diǎn)v9.3 數(shù)據(jù)挖掘工具的選擇 E-MAIL:BXXHSSINA.COM9.1 數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化v9.1.1 數(shù)據(jù)挖掘語言分類類別特點(diǎn)功能代表數(shù)據(jù)挖掘查詢語言數(shù)據(jù)挖掘原語五種原語DMQL數(shù)據(jù)挖掘建模語言基于XML的語言文檔類型定義、通用模式PMML通用數(shù)據(jù)挖掘語言集成全面OLE DB for DM E-MAIL:BXXHSSINA.COM9.1 數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化9.1.1 數(shù)據(jù)挖掘語言分類v數(shù)據(jù)挖掘查詢語言(5種數(shù)據(jù)挖掘原語定義)。 任務(wù)相關(guān)數(shù)據(jù)原語 被挖掘

41、的知識(shí)的種類原語 背景知識(shí)原語 興趣度測量原語 被發(fā)現(xiàn)模式的表示和可視化原語 E-MAIL:BXXHSSINA.COM9.1 數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化9.1.1 數(shù)據(jù)挖掘語言分類v數(shù)據(jù)挖掘建模語言 頭文件(a header) 數(shù)據(jù)模式(a data schema)數(shù)據(jù)挖掘模式(a data mining schema)預(yù)言模型模式(a predictive model schema)預(yù)言模型定義(definitions for predictive models)全體模型定義(definitions for ensembles of models) 選擇和聯(lián)合模型、全體模型的規(guī)則(rules f

42、or selecting and combining models and ensembles of models) 異常處理的規(guī)則(rules for exception handling) E-MAIL:BXXHSSINA.COM9.1 數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化9.1.1 數(shù)據(jù)挖掘語言分類v通用數(shù)據(jù)挖掘語言 數(shù)據(jù)挖掘模型(Data Mining Model,DMM)預(yù)言聯(lián)接操作(Predication Join Operation) OLE DB for DM模式行集合(Schema Rowsets) v9.1.2 分析與評(píng)價(jià) E-MAIL:BXXHSSINA.COM9.2數(shù)據(jù)挖掘的研究熱點(diǎn)

43、 v網(wǎng)站的數(shù)據(jù)挖掘 v生物信息或基因的數(shù)據(jù)挖掘 v文本的數(shù)據(jù)挖掘 E-MAIL:BXXHSSINA.COM9.3 數(shù)據(jù)挖掘工具的選擇數(shù)據(jù)挖掘工具的選擇9.3.1 評(píng)價(jià)數(shù)據(jù)挖掘工具的優(yōu)劣指標(biāo)評(píng)價(jià)數(shù)據(jù)挖掘工具的優(yōu)劣指標(biāo)v數(shù)據(jù)準(zhǔn)備 v數(shù)據(jù)訪問 v算法與建模 v模型的評(píng)價(jià)和解釋 v用戶界面 E-MAIL:BXXHSSINA.COM9.3 數(shù)據(jù)挖掘工具的選擇數(shù)據(jù)挖掘工具的選擇9.3.2 通用數(shù)據(jù)挖掘產(chǎn)品與工具通用數(shù)據(jù)挖掘產(chǎn)品與工具vPOLY ANALYST vIBM DB2 lntelligent Miner和并行可視化探索者PVE vDB Miner vBO的Business Miner vSPSS股

44、份公司(SPPS CHAID) vSAS研究所股份公司(SAS,JMP) vNeuralWare股份公司 v信息發(fā)現(xiàn)股份公司(IDIS) vRightPoint公司的數(shù)據(jù)挖掘工具DataCruncher vDataMind公司(DataMind專業(yè)版,DataMindCruncher)vPilot軟件股份公司(Pilot 發(fā)現(xiàn)服務(wù)器) vAngoss國際有限公司(Knowledge SEEKER) vSilicon Graphics計(jì)算機(jī)系統(tǒng)公司(MineSet) v商務(wù)項(xiàng)目公司(商務(wù)挖掘器) vCognos軟件公司(Scenario) v思維機(jī)器公司(Darwin) . E-MAIL:BXX

45、HSSINA.COM9.3 數(shù)據(jù)挖掘工具的選擇數(shù)據(jù)挖掘工具的選擇9.3.3 國內(nèi)的數(shù)據(jù)挖掘產(chǎn)品與工具國內(nèi)的數(shù)據(jù)挖掘產(chǎn)品與工具v菲奈特一融通公司菲奈特一融通公司v廣州華工明天科技有限公司廣州華工明天科技有限公司 v復(fù)旦大學(xué)數(shù)據(jù)采掘工具ARMiner 9.3.4 數(shù)據(jù)可視化工具的選擇數(shù)據(jù)可視化工具的選擇v高級(jí)可視化系統(tǒng)公司(高級(jí)可視化系統(tǒng)公司(AVS/Express) vAlta分析股份藹公司(NetMap) vBelmont 研究股份公司(研究股份公司(CrossGraphs) v環(huán)境系統(tǒng)研究所(環(huán)境系統(tǒng)研究所(ESRI)股份公司)股份公司 vMapInfo公司(公司(MapInfo, SpatialWare) vSilicon Graphics計(jì)算機(jī)系統(tǒng)公司(計(jì)算機(jī)系統(tǒng)公司(MineSet) E-MAIL:BXXHSSINA.COM9.3 數(shù)據(jù)挖掘工具的選擇數(shù)據(jù)挖掘工具的選擇9.3.5數(shù)據(jù)挖掘網(wǎng)站與可獲得

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論