版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)
ElectronicCommerce夏火松E-MAIL:BXXHS@SINA.COM數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)
ElectronicCommer1
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)教案
2第6章數(shù)據(jù)挖掘基本算法本章內(nèi)容:6.1分類規(guī)則挖掘6.2預(yù)測分析與趨勢分析規(guī)則6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.4數(shù)據(jù)挖掘的聚類算法6.5數(shù)據(jù)挖掘的統(tǒng)計分析算法6.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.7數(shù)據(jù)挖掘的進(jìn)化算法第6章數(shù)據(jù)挖掘基本算法本章內(nèi)容:36.1分類規(guī)則挖掘6.1.1分類與估值1分類為了理解事物特征并做出預(yù)測使用歷史數(shù)據(jù)建立一個分類模型(即分類器)的過程。應(yīng)用于信用卡系統(tǒng)中的信用分級、市場調(diào)查、療效診斷、尋找店址等實踐應(yīng)用參照課本6.1分類規(guī)則挖掘6.1.1分類與估值46.1分類規(guī)則挖掘
6.1.1分類與估值2估值估值(estimation)與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定的數(shù)目,估值的量是不確定的。
3分類方法與步驟
方法:決策樹歸納、貝葉斯分類、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)。還有K-最臨近分類、基于案例的推理、遺傳算法、粗糙集和模糊集方法。步驟:模型創(chuàng)建、模型使用6.1分類規(guī)則挖掘6.1.1分類與估值56.1分類規(guī)則挖掘6.1.1分類與估值4評估分類方法要考慮的指標(biāo):預(yù)測準(zhǔn)確率、速度、創(chuàng)建速度、使用速度、魯棒性、處理噪聲和丟失值、伸縮性、對磁盤駐留數(shù)據(jù)的處理能力、可解釋性、對模型的可理解程度、規(guī)則好壞的評價、決策樹的大小和分類規(guī)則的簡明性。6.1分類規(guī)則挖掘6.1.1分類與估值66.1分類規(guī)則挖掘6.1.2決策樹父節(jié)點(diǎn)子節(jié)點(diǎn)子節(jié)點(diǎn)葉節(jié)點(diǎn)子節(jié)點(diǎn)子節(jié)點(diǎn)子節(jié)點(diǎn)根節(jié)點(diǎn)圖6.1一般決策樹結(jié)構(gòu)葉節(jié)點(diǎn)父節(jié)點(diǎn)6.1分類規(guī)則挖掘6.1.2決策樹父節(jié)點(diǎn)子節(jié)點(diǎn)子節(jié)點(diǎn)葉節(jié)76.1分類規(guī)則挖掘6.1.2決策樹1.決策樹的構(gòu)造過程ID3算法應(yīng)用如下:信息量計算公式:I(s1,s2,…sm)=-(6.1)其中,pi為si占整個類別的概率利用屬性A劃分當(dāng)前樣本集合所需要的信息(熵)的計算公式為:E(A)=(6.2)信息增益公式:Gain(A)=I(s1,s2,…sm)-E(A)(6.3)例如:一個銷售的顧客數(shù)據(jù)庫(訓(xùn)練樣本集合),對購買計算機(jī)的人員進(jìn)行分類:字段為:(年齡(取值:<30,30~40,>40>);收入(高,中,低);學(xué)生否(Y,N);信用(一般,很好);購買計算機(jī)否(Y,N))記錄為14個,具體數(shù)據(jù)如下:X1=(<30,高,N,一般,N);X2=(<30,高,N,很好,N)X3=(30~40,高,N,一般,Y);X4=(>40,中,N,一般,Y)X5=(>40,低,Y,一般,Y);X6=(>40,低,Y,很好,N)X7=(<30-40,低,Y,高,Y);X8=(<30,中,N,一般,N)X9=(<30,低,Y,一般,Y);X10=(>40,中,Y, 一般,Y)X11=(<30,中,Y,很好,Y);X12=(30~40,中,N,很好,Y)X13=(30~40,高,Y,一般,Y);X14=(>40,中,N,很好,N)6.1分類規(guī)則挖掘6.1.2決策樹信息量計算公式:I(s86.1分類規(guī)則挖掘
6.1.2決策樹1.決策樹的構(gòu)造過程決策樹的構(gòu)造算法:
決策樹的構(gòu)造算法可通過訓(xùn)練集T完成,其中T={<x,cj>},而x=(a1,a2,…,an)為一個訓(xùn)練實例,它有n個屬性,分別列于屬性表(A1,A2,…,An)中,其中ai表示屬性Ai的取值。Cj∈C={C1,C2,…,Cm}為x的分類結(jié)果。從屬性表中選擇屬性Ai作為分類屬性;若屬性Ai的取值有ki個,則將T劃分為ki個子集,T1,…,Tki,其中Tij={<x,C>|<x,C>}∈T,且x的屬性取值A(chǔ)為第i個值;接下來從屬性表中刪除屬性Ai;對于每一個Tij(1≤j≤K1),令T=Tij;如果屬性表非空,返回第1步,否則輸出。6.1分類規(guī)則挖掘 6.1.2決策樹96.1分類規(guī)則挖掘
6.1.2決策樹2.分類器定義:輸入的數(shù)據(jù)含有千萬個記錄,每個記錄又有很多個屬性,其中有一個特別的屬性叫做類(例如信用程度的高,中,低)。具體步驟:1)樹的建立。2)樹的修剪,SLIQ采用了MDL(最小敘述長度)的方法來修剪樹。
6.1分類規(guī)則挖掘 6.1.2決策樹106.1分類規(guī)則挖掘
6.1.2決策樹3.決策樹的可擴(kuò)展性4.基于決策樹方法的數(shù)據(jù)挖掘工具
KnowledgSEEKER
6.1分類規(guī)則挖掘 6.1.2決策樹116.1分類規(guī)則挖掘
6.1.3貝葉斯分類1.貝葉斯信任網(wǎng)絡(luò)如何工作邊緣主區(qū)域手機(jī)呼叫服務(wù)區(qū)域noyes外界圖6.3簡單的貝葉斯網(wǎng)圖6.1分類規(guī)則挖掘 6.1.3貝葉斯分類邊緣主區(qū)域手機(jī)126.1分類規(guī)則挖掘6.1.3貝葉斯分類2.貝葉斯定理與樸素貝葉斯分類貝葉斯定理:P(H|X)=P(X|H)P(H)/P(X)其中,P(H|X)表示條件X下H的概率,也稱為條件概率或稱為后驗概率(posterioriprobabilities)。樸素貝葉斯分類:假定有m個類C1,…Cm,對于數(shù)據(jù)樣本X,分類法將預(yù)測X屬于類Ci,當(dāng)且僅當(dāng)P(Ci|X)>P(Cj|X),6.1分類規(guī)則挖掘6.1.3貝葉斯分類136.2預(yù)測分析與趨勢分析規(guī)則6.2.1預(yù)言的基本方法預(yù)言(prediction)是一門掌握對象變化動態(tài)的科學(xué),它是對對象變動趨勢的預(yù)見、分析和判斷,也是一種動態(tài)分析方法。預(yù)測的基本步驟:確定預(yù)測目標(biāo),包括預(yù)測對象、目的、對象范圍;收集分析內(nèi)部和外部資料;數(shù)據(jù)的處理及模型的選擇;預(yù)測模型的分析、修正;確定預(yù)測值。6.2預(yù)測分析與趨勢分析規(guī)則6.2.1預(yù)言的基本方法146.2預(yù)測分析與趨勢分析規(guī)則6.2.2定量分析預(yù)測時間序列法回歸預(yù)測非線性模型灰色預(yù)測模型GM(1,1)組合預(yù)測6.2預(yù)測分析與趨勢分析規(guī)則6.2.2定量分析預(yù)測156.2預(yù)測分析與趨勢分析規(guī)則6.2.3預(yù)測的結(jié)果分析預(yù)測的結(jié)果分析要考慮到的因素:相反的預(yù)測結(jié)果勝出裕度成本收益分析6.2預(yù)測分析與趨勢分析規(guī)則6.2.3預(yù)測的結(jié)果分析166.2預(yù)測分析與趨勢分析規(guī)則6.2.4趨勢分析挖掘分析時間序列數(shù)據(jù)需要注意以下方面:長時間的走向周期的走向與周期的變化季節(jié)性的走向與變化不規(guī)則的隨機(jī)走向6.2預(yù)測分析與趨勢分析規(guī)則6.2.4趨勢分析挖掘176.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.1關(guān)聯(lián)規(guī)則的概念及分類1.關(guān)聯(lián)規(guī)則的概念定義1設(shè)I={i1、i2、i3,…,im}是由m個不同的數(shù)據(jù)項目組成的集合,其中的元素稱為項(item),項的集合稱為項集,包含k個項的項集稱為k項集,給定一個事務(wù)(交易)D,即交易數(shù)據(jù)庫,其中的每一個事務(wù)(交易)T是數(shù)據(jù)項I的一個子集,即,T有一個惟一的標(biāo)積符TID;當(dāng)且僅當(dāng)時,稱交易T包含項集X;那么關(guān)聯(lián)規(guī)則就形如“X=>Y”的蘊(yùn)涵式;其中,,,Ф,即表示滿足X中條件的記錄也一定滿足Y。關(guān)聯(lián)規(guī)則X=>Y在交易數(shù)據(jù)庫中成立,具有支持度s和具有置信度c。這也就是交易數(shù)據(jù)集D中具有支持度s,即D中至少有s%的事務(wù)包含,描述為:support(X=>Y)=比如Support(X=>Y)=同時購買商品X和Y的交易數(shù)總交易數(shù)同時交易數(shù)據(jù)集D中具有置信度c,即D中包含X的事務(wù)至少有c%同時也包含Y,描述為:confidence(X=>Y)=比如購買了商品X,同時購買商品Y可信度,confidence(X=>Y)=同時購買商品X和Y的交易數(shù)購買了商品X的交易數(shù)一般稱滿足一定要求的規(guī)則為強(qiáng)規(guī)則。通常稱滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則(strong)。一般將最小支持度簡記為minsup和最小置信度簡記為minconf。6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.1關(guān)聯(lián)規(guī)則的概念及分類186.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.1關(guān)聯(lián)規(guī)則的概念及分類2關(guān)聯(lián)規(guī)則的分類分類標(biāo)準(zhǔn)類別規(guī)則中所處理的值布爾關(guān)聯(lián)規(guī)則,量化關(guān)聯(lián)規(guī)則規(guī)則中所涉及的數(shù)據(jù)維單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則規(guī)則中所涉及的抽象層單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則規(guī)則中的擴(kuò)充最大的模式和頻繁閉項集關(guān)聯(lián)特性分類分析與相關(guān)分析6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.1關(guān)聯(lián)規(guī)則的概念及分類196.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則)1.簡單形式的關(guān)聯(lián)規(guī)則的核心算法找到所有支持度大于最小支持度的項集,即頻集,有k個數(shù)據(jù)頻集稱為k項頻集.找出所有的頻集由apriori算法實現(xiàn)。Apriori性質(zhì)具有一個頻集的任一非空子集都是頻集。使用第1步找到的頻集產(chǎn)生期望的規(guī)則
apriori算法的詳細(xì)介紹見課本。6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法206.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則)2頻集算法的幾種優(yōu)化方法基于劃分的方法基于hash的方法基于采樣的方法減少交易的個數(shù)6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法216.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則)3其他的頻集挖掘方法FP-growth方法min_hashing(MH)和locality_sensitive_hashing(LSH)6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法226.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘多層關(guān)聯(lián)規(guī)則多維關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則價值衡量的方法6.3.4貨籃子分析存在的問題詳見課本6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.3多層和多維關(guān)聯(lián)規(guī)則的挖236.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.5關(guān)聯(lián)分析的其他算法發(fā)現(xiàn)關(guān)聯(lián)的更好方法統(tǒng)計相關(guān)以外的理解關(guān)聯(lián)有效可行的市場籃子分析6.3.6挖掘序列模式序列模式的概念及定義
序列模式挖掘的主要算法
GSP算法描述PrefixSpan算法6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.5關(guān)聯(lián)分析的其他算法24關(guān)聯(lián)規(guī)則挖掘—一個例子最小值尺度50%最小可信度50%對于A
C:support=support({A、C})=50%confidence=support({A、C})/support({A})=66.6%Apriori的基本思想:頻繁項集的任何子集也一定是頻繁的關(guān)聯(lián)規(guī)則挖掘—一個例子最小值尺度50%對于AC:25關(guān)鍵步驟:挖掘頻繁集頻繁集:是指滿足最小支持度的項目集合頻繁集的子集也一定是頻繁的如,如果{AB}是頻繁集,則{A}{B}也一定是頻繁集從1到k(k-頻繁集)遞歸查找頻繁集用得到的頻繁集生成關(guān)聯(lián)規(guī)則關(guān)鍵步驟:挖掘頻繁集頻繁集:是指滿足最小支持度的項目集合26Apriori算法連接:用Lk-1自連接得到Ck修剪:一個k-項集,如果他的一個k-1項集(他的子集)不是頻繁的,那他本身也不可能是頻繁的。偽代碼:Ck:CandidateitemsetofsizekLk:frequentitemsetofsizekL1={frequentitems};for
(k=1;Lk!=;k++)dobegin
Ck+1=candidatesgeneratedfromLk;
foreachtransactiontindatabasedoincrementthecountofallcandidatesinCk+1thatarecontainedint
Lk+1=candidatesinCk+1withmin_support
endreturn
k
Lk;Apriori算法連接:用Lk-1自連接得到Ck27Apriori算法—例子數(shù)據(jù)庫D掃描DC1L1L2C2C2掃描DC3L3掃描DApriori算法—例子數(shù)據(jù)庫D掃描DC1L1L2C28如何生成候選集假定Lk-1中的項按順序排列第一步:自連接Lk-1
insertinto
Ckselectp.item1,p.item2,…,p.itemk-1,q.itemk-1fromLk-1p,Lk-1qwherep.item1=q.item1,…,p.itemk-2=q.itemk-2,p.itemk-1<q.itemk-1第二步:修剪forallitemsetscinCk
doforall(k-1)-subsetssofcdoif(sisnotinLk-1)thendeletecfromCk如何生成候選集假定Lk-1中的項按順序排列29如何計算候選集的支持度計算支持度為什么會成為一個問題?候選集的個數(shù)非常巨大一筆交易可能包含多個候選集方法:用hash-tree存放候選集樹的葉子節(jié)點(diǎn)
of存放項集的列表和支持度內(nèi)部節(jié)點(diǎn)是一個hash表Subset函數(shù):找到包含在一筆交易中的所有候選集如何計算候選集的支持度計算支持度為什么會成為一個問題?30生成候選集的例子L3={abc,abd,acd,ace,bcd}自連接:L3*L3abc和abd得到abcdacd和ace得到acde修剪:ade不在L3中,刪除acdeC4={abcd}生成候選集的例子L3={abc,abd,acd,ace31提高Apriori效率的方法基于Hash的項集計數(shù):如果一個k-項集在hash-tree的路徑上的一個計數(shù)值低于閾值,那他本身也不可能是頻繁的。減少交易記錄:不包含任何頻繁k-項集的交易也不可能包含任何大于k的頻繁集分割:一個項集要想在整個數(shù)據(jù)庫中是頻繁的,那么他至少在數(shù)據(jù)庫的一個分割上是頻繁的。采樣:在給定數(shù)據(jù)的子集上挖掘,使用小的支持度+完整性驗證方法動態(tài)項集計數(shù):在添加一個新的候選集之前,先估計一下是不是他的所有子集都是頻繁的。提高Apriori效率的方法基于Hash的項集計數(shù):如果一32Apriori夠快了嗎?—性能瓶頸Apriori算法的核心:用頻繁的(k–1)-項集生成候選的頻繁k-項集用數(shù)據(jù)庫掃描和模式匹配計算候選集的支持度Apriori的瓶頸:候選集生成巨大的候選集:104個頻繁1-項集要生成107個候選2-項集要找尺寸為100的頻繁模式,如{a1,a2,…,a100},你必須先產(chǎn)生21001030個候選集多次掃描數(shù)據(jù)庫:如果最長的模式是n的話,則需要(n+1)次數(shù)據(jù)庫掃描Apriori夠快了嗎?—性能瓶頸Apriori算法的336.4數(shù)據(jù)挖掘的聚類算法6.4.1聚類分析的概念與分類聚類分析概念聚類分析方法的分類類別算法分裂(劃分)法K-MEANS算法(K-平均)、K-MEDOIDS算法(K-中心點(diǎn))、CLARANS算法(給予選擇的方法)層次法BIRCH算法(平衡迭代歸約和聚類)、CURE算法(代表聚類)、CHAMELEON算法(動態(tài)模型)基于密度的方法DBSCAN算法(基于高密度連接區(qū)域)、OPTICS算法(對象排序識別)、DENCLUE算法(密度分布函數(shù))基于網(wǎng)格的方法STING算法(統(tǒng)計信息網(wǎng)格)、CLIQUE算法(聚類高維空間)、WAVE-CLUSTER算法(小波變換)基于模型的方法統(tǒng)計學(xué)方法、神經(jīng)網(wǎng)絡(luò)方法6.4數(shù)據(jù)挖掘的聚類算法6.4.1聚類分析的概念與分類類別346.4數(shù)據(jù)挖掘的聚類算法6.4.2聚類分析中兩個對象之間的相異度計算方法區(qū)間標(biāo)度變量計算方法
二元變量計算方法標(biāo)稱型、序數(shù)型和比例標(biāo)度型變量計算方法混合類型的變量計算方法6.4數(shù)據(jù)挖掘的聚類算法6.4.2聚類分析中兩個對象之間的356.4數(shù)據(jù)挖掘的聚類算法6.4.3劃分方法典型的劃分方法:k-平均和k-中心點(diǎn)
基于簇的重心技術(shù):k-平均方法基于有代表性的對象的技術(shù):k-中心點(diǎn)方法大型數(shù)據(jù)庫中的劃分方法:基于選擇的K-中心點(diǎn)CLARANS方法6.4數(shù)據(jù)挖掘的聚類算法6.4.3劃分方法366.4數(shù)據(jù)挖掘的聚類算法6.4.4層次方法凝聚的和分裂的層次聚類
凝聚層次聚類方法AGNES分裂層次聚類方法DIANA利用層次方法的平衡迭代歸約和聚類綜合的層次聚類方法BIRCH利用代表點(diǎn)聚類一種新穎的層次聚類算法CURE一個利用動態(tài)模型的層次聚類算法動態(tài)模型的聚類法chameleon(變色龍)6.4數(shù)據(jù)挖掘的聚類算法6.4.4層次方法376.4數(shù)據(jù)挖掘的聚類算法6.4.5基于密度的方法一個基于高密度連接區(qū)域的聚類方法DBSCAN聚類方法通過對象排序識別聚類結(jié)構(gòu)OPTICS聚類分析方法基于密度分布函數(shù)的聚類基于一組密度分布函數(shù)的聚類算法DENCLUE6.4數(shù)據(jù)挖掘的聚類算法6.4.5基于密度的方法386.4數(shù)據(jù)挖掘的聚類算法6.4.6基于網(wǎng)格的方法統(tǒng)計信息網(wǎng)絡(luò)STING是一種基于網(wǎng)格的多分辨率聚類技術(shù)聚類高維空間CLIQUE(clusteringinquest,CLIQUE)聚類算法6.4.7基于模型的聚類方法增量概念聚類算法COBWEB6.4.8模糊聚類算法6.4數(shù)據(jù)挖掘的聚類算法6.4.6基于網(wǎng)格的方法396.5數(shù)據(jù)挖掘的統(tǒng)計分析算法6.5.1辨別方法6.5.2回歸模型6.5.3優(yōu)點(diǎn)與缺點(diǎn)6.5數(shù)據(jù)挖掘的統(tǒng)計分析算法6.5.1辨別方法406.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.6.1品種優(yōu)化6.6.2品種優(yōu)化算法6.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.6.1品種優(yōu)化416.7數(shù)據(jù)挖掘的進(jìn)化算法6.7.1遺傳算法如何工作優(yōu)缺點(diǎn)6.7.2神經(jīng)網(wǎng)絡(luò)算法如何工作無指導(dǎo)的學(xué)習(xí)競爭學(xué)習(xí)自組織特征映射模型優(yōu)缺點(diǎn)6.7數(shù)據(jù)挖掘的進(jìn)化算法6.7.1遺傳算法426.7數(shù)據(jù)挖掘的進(jìn)化算法神經(jīng)網(wǎng)絡(luò)模型性別區(qū)域職位B類客戶年齡交易額受教育的年限圖6.10神經(jīng)網(wǎng)絡(luò)模型C類客戶跳槽客戶隱節(jié)點(diǎn)隱節(jié)點(diǎn)A類客戶隱節(jié)點(diǎn)隱節(jié)點(diǎn)6.7數(shù)據(jù)挖掘的進(jìn)化算法神經(jīng)網(wǎng)絡(luò)模型性別區(qū)域職位B類客戶年齡43第7章非結(jié)構(gòu)化數(shù)據(jù)挖掘本章內(nèi)容:7.1Web數(shù)據(jù)挖掘7.2空間群數(shù)據(jù)挖掘7.3多媒體數(shù)據(jù)挖掘第7章非結(jié)構(gòu)化數(shù)據(jù)挖掘本章內(nèi)容:447.1Web數(shù)據(jù)挖掘7.1.1非結(jié)構(gòu)化數(shù)據(jù)源Web數(shù)據(jù)挖掘的難點(diǎn)對數(shù)據(jù)來源分析異構(gòu)數(shù)據(jù)環(huán)境半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)解決半結(jié)構(gòu)化的數(shù)據(jù)源問題文本總結(jié)XML與Web數(shù)據(jù)挖掘技術(shù)XML的產(chǎn)生與發(fā)展XML的主要特點(diǎn)7.1Web數(shù)據(jù)挖掘7.1.1非結(jié)構(gòu)化數(shù)據(jù)源457.1Web數(shù)據(jù)挖掘7.1.1非結(jié)構(gòu)化數(shù)據(jù)源XML在Web數(shù)據(jù)挖掘中的應(yīng)用兩個或更多異質(zhì)數(shù)據(jù)庫之間進(jìn)行通信的應(yīng)用大部分處理負(fù)載從Web服務(wù)器轉(zhuǎn)到Web客戶端的應(yīng)用Web客戶端將同樣的數(shù)據(jù)以不同的瀏覽形式提供給不同的用戶的應(yīng)用需要智能Web代理根據(jù)用戶個人的需要裁減信息內(nèi)容的應(yīng)用7.1Web數(shù)據(jù)挖掘7.1.1非結(jié)構(gòu)化數(shù)據(jù)源467.1Web數(shù)據(jù)挖掘7.1.2Web挖掘分類Web挖掘Webcontentmining(Web內(nèi)容挖掘)Webstructuremining(Web結(jié)構(gòu)挖掘)Webusagemining(Web訪問挖掘)Searchresultmining(搜索結(jié)果再挖掘)Generalaccesspatterntracking(一般訪問模式跟蹤)Customizedusagetracking(定制的使用跟蹤)Webpagecontentmining(Web頁面內(nèi)容挖掘)圖7.1Web挖掘分類7.1Web數(shù)據(jù)挖掘7.1.2Web挖掘分類Web挖掘W47Web挖掘三種方法比較Web內(nèi)容挖掘Web結(jié)構(gòu)挖掘Web訪問挖掘處理數(shù)據(jù)類型IR方法數(shù)據(jù)庫方法Web結(jié)構(gòu)挖掘用戶訪問挖掘無結(jié)構(gòu)和半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)主要數(shù)據(jù)自由文本、HTML標(biāo)記的超文本HTML標(biāo)記的超文本文檔內(nèi)及文檔間的超鏈接Serverlog,proxyserverlog,clientlog表示方法詞集、段落、概念、IR的三種經(jīng)典模型OEM關(guān)系圖關(guān)系表、圖處理方法TFIDF、統(tǒng)計、機(jī)器學(xué)習(xí)、自然語言理解數(shù)據(jù)庫技術(shù)機(jī)器學(xué)習(xí)、專有算法(如HITSpagerank)統(tǒng)計、機(jī)器學(xué)習(xí)、關(guān)聯(lián)規(guī)則主要應(yīng)用分類、聚類、模式發(fā)現(xiàn)模式發(fā)現(xiàn)、數(shù)據(jù)向?qū)А⒍嗑S數(shù)據(jù)庫、站點(diǎn)創(chuàng)建與維護(hù)頁面權(quán)重分類聚類、模式發(fā)現(xiàn)用戶個性化、自適應(yīng)Web站點(diǎn)、商業(yè)決策Web挖掘三種方法比較Web內(nèi)容挖掘Web結(jié)構(gòu)挖掘Web訪487.1Web數(shù)據(jù)挖掘Web挖掘的基本構(gòu)架訪問者注冊用戶網(wǎng)站交易信息瀏覽信息數(shù)據(jù)庫、數(shù)據(jù)倉庫Web日志文件WebSerer中其他信息數(shù)據(jù)預(yù)處理模塊結(jié)構(gòu)數(shù)據(jù)挖掘模塊Web挖掘的基本構(gòu)架頁面訪問情況Web結(jié)構(gòu)模式Web內(nèi)容模式知識非結(jié)構(gòu)數(shù)據(jù)挖掘模塊7.1Web數(shù)據(jù)挖掘Web挖掘的基本構(gòu)架訪問者注冊用戶網(wǎng)497.1Web數(shù)據(jù)挖掘7.1.3Web內(nèi)容挖掘信息檢索(informationretrieve,IR)方法數(shù)據(jù)庫方法7.1.4Web結(jié)構(gòu)挖掘Rank方法7.1.5Web訪問挖掘?qū)eb日志進(jìn)行清洗、過濾和轉(zhuǎn)換以及剔除無關(guān)記錄
采用統(tǒng)計學(xué)、模式識別、人工智能、數(shù)據(jù)庫數(shù)據(jù)挖掘等領(lǐng)域的成熟技術(shù)在Web的使用記錄中挖掘知識
Web使用挖掘中的模式分析
7.1Web數(shù)據(jù)挖掘7.1.3Web內(nèi)容挖掘507.1Web數(shù)據(jù)挖掘7.1.6利用Web日志的聚類算法客戶群體的模糊聚類算法
用戶訪問興趣的算法
客戶群體聚類的Hamming距離算法
基于模糊理論的Web頁面聚類算法
Web頁面聚類的Hamming距離算法
7.1Web數(shù)據(jù)挖掘7.1.6利用Web日志的聚類算法517.1Web數(shù)據(jù)挖掘電子商務(wù)中的Web挖掘電子商務(wù)中Web挖掘的作用電子商務(wù)中Web挖掘的基本問題電子商務(wù)中的數(shù)據(jù)挖掘工具文本信息挖掘工具用戶訪問模式挖掘工具用戶導(dǎo)航行為挖掘工具綜合性的Web分析工具7.1Web數(shù)據(jù)挖掘電子商務(wù)中的Web挖掘527.2空間群數(shù)據(jù)挖掘7.2.1空間群數(shù)據(jù)挖掘概念從空間數(shù)據(jù)中抽取隱含的知識、空間關(guān)系、空間及與非空間之間的有意義的特征或模式。
7.2.2空間群數(shù)據(jù)挖掘分類
空間檢索空間拓?fù)浏B加分析空間模擬分析7.2空間群數(shù)據(jù)挖掘7.2.1空間群數(shù)據(jù)挖掘概念537.2空間群數(shù)據(jù)挖掘7.2.3空間數(shù)據(jù)挖掘的體系結(jié)構(gòu)空間數(shù)據(jù)結(jié)構(gòu)查詢與優(yōu)化原則的分析信息集成模式知識級處理語義級檢索與索引領(lǐng)域知識模式知識對象和屬性抽取物理級底層特性處理設(shè)計圖7.4空間數(shù)據(jù)挖掘的體系結(jié)構(gòu)對象級特征處理語義概念級處理用戶空間數(shù)據(jù)處理7.2空間群數(shù)據(jù)挖掘7.2.3空間數(shù)據(jù)挖掘的體系結(jié)構(gòu)空間547.3多媒體數(shù)據(jù)挖掘7.3.1多媒體數(shù)據(jù)挖掘的概念7.3.2多媒體數(shù)據(jù)挖掘的分類圖像數(shù)據(jù)挖掘視頻數(shù)據(jù)挖掘音頻數(shù)據(jù)挖掘7.3多媒體數(shù)據(jù)挖掘7.3.1多媒體數(shù)據(jù)挖掘的概念557.3多媒體數(shù)據(jù)挖掘7.3.3多媒體數(shù)據(jù)挖掘的體系結(jié)構(gòu)原始數(shù)據(jù)媒體數(shù)據(jù)攝取媒體編碼存檔瀏覽引擎分類特征抽取查詢引擎工具交互式學(xué)習(xí)索引的生成用戶圖7.5功能驅(qū)動的多媒體挖掘體系結(jié)構(gòu)基于底層特性的索引與檢索元數(shù)據(jù)與數(shù)據(jù)抽取原則的分析信息集成模式知識級處理語義級檢索與索引領(lǐng)域知識模式知識對象級的索引與檢索物理級底層特性處理設(shè)計圖7.6信息驅(qū)動的多媒體挖掘的結(jié)構(gòu)對象級特征處理語義概念級處理用戶多媒體處理7.3多媒體數(shù)據(jù)挖掘7.3.3多媒體數(shù)據(jù)挖掘的體系結(jié)構(gòu)原始56第8章離群數(shù)據(jù)挖掘本章內(nèi)容離群數(shù)據(jù)挖掘概念離群數(shù)據(jù)挖掘分類離群數(shù)據(jù)挖掘算法市場營銷離群數(shù)據(jù)的特點(diǎn)第8章離群數(shù)據(jù)挖掘本章內(nèi)容57第8章離群數(shù)據(jù)挖掘8.1離群數(shù)據(jù)挖掘的概念8.2離群數(shù)據(jù)挖掘的分類基于統(tǒng)計學(xué)基于距離的方法基于偏移高維數(shù)據(jù)的離群數(shù)據(jù)探測基于規(guī)則的分類離群數(shù)據(jù)挖掘方法基于密度(density-based)的離群挖掘方法第8章離群數(shù)據(jù)挖掘8.1離群數(shù)據(jù)挖掘的概念588.3離群數(shù)據(jù)挖掘的算法8.3.1基于統(tǒng)計的方法8.3.2基于距離的離群數(shù)據(jù)方法基于距離的離群數(shù)據(jù)定義基于距離的離群數(shù)據(jù)挖掘的算法分類及算法描述基于距離的算法的改進(jìn)8.3.3基于偏離的離群數(shù)據(jù)挖掘序列離群數(shù)據(jù)技術(shù)
OLAP數(shù)據(jù)立方體技術(shù)8.3離群數(shù)據(jù)挖掘的算法8.3.1基于統(tǒng)計的方法598.3離群數(shù)據(jù)挖掘的算法8.3.4高維數(shù)據(jù)的離群數(shù)據(jù)挖掘8.3.5基于小波的離群數(shù)據(jù)挖掘
時序數(shù)據(jù)的離群數(shù)據(jù)挖掘基于聚類的離群數(shù)據(jù)CL(δ)8.3離群數(shù)據(jù)挖掘的算法8.3.4高維數(shù)據(jù)的離群數(shù)據(jù)挖掘608.4市場營銷離群數(shù)據(jù)挖掘8.4.1市場營銷離群數(shù)據(jù)挖掘特點(diǎn)8.4.2基于分形的市場營銷離群數(shù)據(jù)挖掘模型幾個定義8.4市場營銷離群數(shù)據(jù)挖掘8.4.1市場營銷離群數(shù)據(jù)挖掘特點(diǎn)61第9章數(shù)據(jù)挖掘語言與工具選擇本章內(nèi)容9.1數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化9.2數(shù)據(jù)挖掘研究熱點(diǎn)9.3數(shù)據(jù)挖掘工具的選擇第9章數(shù)據(jù)挖掘語言與工具選擇本章內(nèi)容629.1數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化9.1.1數(shù)據(jù)挖掘語言分類類別特點(diǎn)功能代表數(shù)據(jù)挖掘查詢語言數(shù)據(jù)挖掘原語五種原語DMQL數(shù)據(jù)挖掘建模語言基于XML的語言文檔類型定義、通用模式PMML通用數(shù)據(jù)挖掘語言集成全面OLEDBforDM9.1數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化9.1.1數(shù)據(jù)挖掘語言分類類639.1數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化9.1.1數(shù)據(jù)挖掘語言分類數(shù)據(jù)挖掘查詢語言(5種數(shù)據(jù)挖掘原語定義)。任務(wù)相關(guān)數(shù)據(jù)原語被挖掘的知識的種類原語背景知識原語興趣度測量原語被發(fā)現(xiàn)模式的表示和可視化原語9.1數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化9.1.1數(shù)據(jù)挖掘語言分類649.1數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化9.1.1數(shù)據(jù)挖掘語言分類數(shù)據(jù)挖掘建模語言頭文件(aheader)數(shù)據(jù)模式(adataschema)數(shù)據(jù)挖掘模式(adataminingschema)預(yù)言模型模式(apredictivemodelschema)預(yù)言模型定義(definitionsforpredictivemodels)全體模型定義(definitionsforensemblesofmodels)選擇和聯(lián)合模型、全體模型的規(guī)則(rulesforselectingandcombiningmodelsandensemblesofmodels)異常處理的規(guī)則(rulesforexceptionhandling)9.1數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化9.1.1數(shù)據(jù)挖掘語言分類659.1數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化9.1.1數(shù)據(jù)挖掘語言分類通用數(shù)據(jù)挖掘語言數(shù)據(jù)挖掘模型(DataMiningModel,DMM)預(yù)言聯(lián)接操作(PredicationJoinOperation)OLEDBforDM模式行集合(SchemaRowsets)9.1.2分析與評價9.1數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化9.1.1數(shù)據(jù)挖掘語言分類669.2數(shù)據(jù)挖掘的研究熱點(diǎn)網(wǎng)站的數(shù)據(jù)挖掘生物信息或基因的數(shù)據(jù)挖掘文本的數(shù)據(jù)挖掘9.2數(shù)據(jù)挖掘的研究熱點(diǎn)網(wǎng)站的數(shù)據(jù)挖掘679.3數(shù)據(jù)挖掘工具的選擇9.3.1評價數(shù)據(jù)挖掘工具的優(yōu)劣指標(biāo)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)訪問算法與建模模型的評價和解釋用戶界面9.3數(shù)據(jù)挖掘工具的選擇9.3.1評價數(shù)據(jù)挖掘工具的優(yōu)劣689.3數(shù)據(jù)挖掘工具的選擇9.3.2通用數(shù)據(jù)挖掘產(chǎn)品與工具POLYANALYSTIBMDB2lntelligentMiner和并行可視化探索者PVEDBMinerBO的BusinessMinerSPSS股份公司(SPPSCHAID)SAS研究所股份公司(SAS,JMP)NeuralWare股份公司信息發(fā)現(xiàn)股份公司(IDIS)RightPoint公司的數(shù)據(jù)挖掘工具DataCruncherDataMind公司(DataMind專業(yè)版,DataMindCruncher)Pilot軟件股份公司(Pilot發(fā)現(xiàn)服務(wù)器)Angoss國際有限公司(KnowledgeSEEKER)SiliconGraphics計算機(jī)系統(tǒng)公司(MineSet)商務(wù)項目公司(商務(wù)挖掘器)Cognos軟件公司(Scenario)思維機(jī)器公司(Darwin)………..9.3數(shù)據(jù)挖掘工具的選擇9.3.2通用數(shù)據(jù)挖掘產(chǎn)品與工具699.3數(shù)據(jù)挖掘工具的選擇9.3.3國內(nèi)的數(shù)據(jù)挖掘產(chǎn)品與工具菲奈特一融通公司廣州華工明天科技有限公司
復(fù)旦大學(xué)數(shù)據(jù)采掘工具ARMiner9.3.4數(shù)據(jù)可視化工具的選擇高級可視化系統(tǒng)公司(AVS/Express)
Alta分析股份藹公司(NetMap)Belmont研究股份公司(Cross Graphs)
環(huán)境系統(tǒng)研究所(ESRI)股份公司
MapInfo公司(MapInfo,SpatialWare)
SiliconGraphics計算機(jī)系統(tǒng)公司(MineSet)
9.3數(shù)據(jù)挖掘工具的選擇9.3.3國內(nèi)的數(shù)據(jù)挖掘產(chǎn)品與工709.3數(shù)據(jù)挖掘工具的選擇9.3數(shù)據(jù)挖掘工具的選擇719.3數(shù)據(jù)挖掘工具的選擇9.3數(shù)據(jù)挖掘工具的選擇72第10章知識管理和知識管理系統(tǒng)本章內(nèi)容10.1知識管理知識知識管理定義有效知識管理10.2知識管理系統(tǒng)知識管理共享條件知識管理共享困難知識管理激勵機(jī)制知識管理體系結(jié)構(gòu)第10章知識管理和知識管理系統(tǒng)本章內(nèi)容7310.1知識管理10.1.1知識know-whatknow-whyknow-howknow-who10.1知識管理10.1.1知識7410.1知識管理10.1.2知識管理定義KM是在適當(dāng)?shù)臅r候向合適的人取得正確的信息,以便更有效、更順利地進(jìn)行管理的能力10.1.3有效的知識管理10.1知識管理10.1.2知識管理定義7510.2知識管理系統(tǒng)知識管理共享的條件軟件硬件知識管理共享的困難10.2知識管理系統(tǒng)知識管理共享的條件7610.2知識管理系統(tǒng)知識貢獻(xiàn)的激勵機(jī)制企業(yè)需要的知識k(a1,a2,a3…an)企業(yè)有人知a1=1企業(yè)無人知a1=0企業(yè)有人知且企業(yè)以外的有人知a2=1企業(yè)有人知且企業(yè)以外的不知a2=0企業(yè)無人知且企業(yè)以外的有人知a2=1企業(yè)無人知且企業(yè)以外的無人知a2=0企業(yè)有人知且企業(yè)以外的競爭對手有人知a3=1企業(yè)有人知且企業(yè)以外的有人知但競爭對手不知a3=0企業(yè)無人知且企業(yè)以外的競爭對手知a3=1企業(yè)無人知且企業(yè)以外的競爭對手不知a3=0圖10.1企業(yè)知識樹模型10.2知識管理系統(tǒng)知識貢獻(xiàn)的激勵機(jī)制企業(yè)需要的知識k(a7710.2知識管理系統(tǒng)知識管理的體系結(jié)構(gòu)互動高低高特定客戶知識數(shù)據(jù)庫營銷數(shù)據(jù)挖掘互動營銷知識協(xié)同客戶關(guān)系管理(KCCRM)籃子分析忠誠/獎勵程序圖10.2基于知識的協(xié)同客戶關(guān)系管理KCCRM10.2知識管理系統(tǒng)知識管理的體系結(jié)構(gòu)互動高低高特定客戶知78知識管理的體系結(jié)構(gòu)知識獲取(DM)知識描述知識共享環(huán)境管理知識存儲知識評價知識源數(shù)據(jù)庫Web其他知識發(fā)布知識檢索知識貢獻(xiàn)激勵規(guī)則知識管理工具知識傳遞的方式知識推薦圖10.3知識管理系統(tǒng)的體系結(jié)構(gòu)知識管理的體系結(jié)構(gòu)知識獲取(DM)知識描述知識共享環(huán)79謝謝大家謝謝大家80數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)
ElectronicCommerce夏火松E-MAIL:BXXHS@SINA.COM數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)
ElectronicCommer81
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)教案
82第6章數(shù)據(jù)挖掘基本算法本章內(nèi)容:6.1分類規(guī)則挖掘6.2預(yù)測分析與趨勢分析規(guī)則6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.4數(shù)據(jù)挖掘的聚類算法6.5數(shù)據(jù)挖掘的統(tǒng)計分析算法6.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.7數(shù)據(jù)挖掘的進(jìn)化算法第6章數(shù)據(jù)挖掘基本算法本章內(nèi)容:836.1分類規(guī)則挖掘6.1.1分類與估值1分類為了理解事物特征并做出預(yù)測使用歷史數(shù)據(jù)建立一個分類模型(即分類器)的過程。應(yīng)用于信用卡系統(tǒng)中的信用分級、市場調(diào)查、療效診斷、尋找店址等實踐應(yīng)用參照課本6.1分類規(guī)則挖掘6.1.1分類與估值846.1分類規(guī)則挖掘
6.1.1分類與估值2估值估值(estimation)與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定的數(shù)目,估值的量是不確定的。
3分類方法與步驟
方法:決策樹歸納、貝葉斯分類、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)。還有K-最臨近分類、基于案例的推理、遺傳算法、粗糙集和模糊集方法。步驟:模型創(chuàng)建、模型使用6.1分類規(guī)則挖掘6.1.1分類與估值856.1分類規(guī)則挖掘6.1.1分類與估值4評估分類方法要考慮的指標(biāo):預(yù)測準(zhǔn)確率、速度、創(chuàng)建速度、使用速度、魯棒性、處理噪聲和丟失值、伸縮性、對磁盤駐留數(shù)據(jù)的處理能力、可解釋性、對模型的可理解程度、規(guī)則好壞的評價、決策樹的大小和分類規(guī)則的簡明性。6.1分類規(guī)則挖掘6.1.1分類與估值866.1分類規(guī)則挖掘6.1.2決策樹父節(jié)點(diǎn)子節(jié)點(diǎn)子節(jié)點(diǎn)葉節(jié)點(diǎn)子節(jié)點(diǎn)子節(jié)點(diǎn)子節(jié)點(diǎn)根節(jié)點(diǎn)圖6.1一般決策樹結(jié)構(gòu)葉節(jié)點(diǎn)父節(jié)點(diǎn)6.1分類規(guī)則挖掘6.1.2決策樹父節(jié)點(diǎn)子節(jié)點(diǎn)子節(jié)點(diǎn)葉節(jié)876.1分類規(guī)則挖掘6.1.2決策樹1.決策樹的構(gòu)造過程ID3算法應(yīng)用如下:信息量計算公式:I(s1,s2,…sm)=-(6.1)其中,pi為si占整個類別的概率利用屬性A劃分當(dāng)前樣本集合所需要的信息(熵)的計算公式為:E(A)=(6.2)信息增益公式:Gain(A)=I(s1,s2,…sm)-E(A)(6.3)例如:一個銷售的顧客數(shù)據(jù)庫(訓(xùn)練樣本集合),對購買計算機(jī)的人員進(jìn)行分類:字段為:(年齡(取值:<30,30~40,>40>);收入(高,中,低);學(xué)生否(Y,N);信用(一般,很好);購買計算機(jī)否(Y,N))記錄為14個,具體數(shù)據(jù)如下:X1=(<30,高,N,一般,N);X2=(<30,高,N,很好,N)X3=(30~40,高,N,一般,Y);X4=(>40,中,N,一般,Y)X5=(>40,低,Y,一般,Y);X6=(>40,低,Y,很好,N)X7=(<30-40,低,Y,高,Y);X8=(<30,中,N,一般,N)X9=(<30,低,Y,一般,Y);X10=(>40,中,Y, 一般,Y)X11=(<30,中,Y,很好,Y);X12=(30~40,中,N,很好,Y)X13=(30~40,高,Y,一般,Y);X14=(>40,中,N,很好,N)6.1分類規(guī)則挖掘6.1.2決策樹信息量計算公式:I(s886.1分類規(guī)則挖掘
6.1.2決策樹1.決策樹的構(gòu)造過程決策樹的構(gòu)造算法:
決策樹的構(gòu)造算法可通過訓(xùn)練集T完成,其中T={<x,cj>},而x=(a1,a2,…,an)為一個訓(xùn)練實例,它有n個屬性,分別列于屬性表(A1,A2,…,An)中,其中ai表示屬性Ai的取值。Cj∈C={C1,C2,…,Cm}為x的分類結(jié)果。從屬性表中選擇屬性Ai作為分類屬性;若屬性Ai的取值有ki個,則將T劃分為ki個子集,T1,…,Tki,其中Tij={<x,C>|<x,C>}∈T,且x的屬性取值A(chǔ)為第i個值;接下來從屬性表中刪除屬性Ai;對于每一個Tij(1≤j≤K1),令T=Tij;如果屬性表非空,返回第1步,否則輸出。6.1分類規(guī)則挖掘 6.1.2決策樹896.1分類規(guī)則挖掘
6.1.2決策樹2.分類器定義:輸入的數(shù)據(jù)含有千萬個記錄,每個記錄又有很多個屬性,其中有一個特別的屬性叫做類(例如信用程度的高,中,低)。具體步驟:1)樹的建立。2)樹的修剪,SLIQ采用了MDL(最小敘述長度)的方法來修剪樹。
6.1分類規(guī)則挖掘 6.1.2決策樹906.1分類規(guī)則挖掘
6.1.2決策樹3.決策樹的可擴(kuò)展性4.基于決策樹方法的數(shù)據(jù)挖掘工具
KnowledgSEEKER
6.1分類規(guī)則挖掘 6.1.2決策樹916.1分類規(guī)則挖掘
6.1.3貝葉斯分類1.貝葉斯信任網(wǎng)絡(luò)如何工作邊緣主區(qū)域手機(jī)呼叫服務(wù)區(qū)域noyes外界圖6.3簡單的貝葉斯網(wǎng)圖6.1分類規(guī)則挖掘 6.1.3貝葉斯分類邊緣主區(qū)域手機(jī)926.1分類規(guī)則挖掘6.1.3貝葉斯分類2.貝葉斯定理與樸素貝葉斯分類貝葉斯定理:P(H|X)=P(X|H)P(H)/P(X)其中,P(H|X)表示條件X下H的概率,也稱為條件概率或稱為后驗概率(posterioriprobabilities)。樸素貝葉斯分類:假定有m個類C1,…Cm,對于數(shù)據(jù)樣本X,分類法將預(yù)測X屬于類Ci,當(dāng)且僅當(dāng)P(Ci|X)>P(Cj|X),6.1分類規(guī)則挖掘6.1.3貝葉斯分類936.2預(yù)測分析與趨勢分析規(guī)則6.2.1預(yù)言的基本方法預(yù)言(prediction)是一門掌握對象變化動態(tài)的科學(xué),它是對對象變動趨勢的預(yù)見、分析和判斷,也是一種動態(tài)分析方法。預(yù)測的基本步驟:確定預(yù)測目標(biāo),包括預(yù)測對象、目的、對象范圍;收集分析內(nèi)部和外部資料;數(shù)據(jù)的處理及模型的選擇;預(yù)測模型的分析、修正;確定預(yù)測值。6.2預(yù)測分析與趨勢分析規(guī)則6.2.1預(yù)言的基本方法946.2預(yù)測分析與趨勢分析規(guī)則6.2.2定量分析預(yù)測時間序列法回歸預(yù)測非線性模型灰色預(yù)測模型GM(1,1)組合預(yù)測6.2預(yù)測分析與趨勢分析規(guī)則6.2.2定量分析預(yù)測956.2預(yù)測分析與趨勢分析規(guī)則6.2.3預(yù)測的結(jié)果分析預(yù)測的結(jié)果分析要考慮到的因素:相反的預(yù)測結(jié)果勝出裕度成本收益分析6.2預(yù)測分析與趨勢分析規(guī)則6.2.3預(yù)測的結(jié)果分析966.2預(yù)測分析與趨勢分析規(guī)則6.2.4趨勢分析挖掘分析時間序列數(shù)據(jù)需要注意以下方面:長時間的走向周期的走向與周期的變化季節(jié)性的走向與變化不規(guī)則的隨機(jī)走向6.2預(yù)測分析與趨勢分析規(guī)則6.2.4趨勢分析挖掘976.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.1關(guān)聯(lián)規(guī)則的概念及分類1.關(guān)聯(lián)規(guī)則的概念定義1設(shè)I={i1、i2、i3,…,im}是由m個不同的數(shù)據(jù)項目組成的集合,其中的元素稱為項(item),項的集合稱為項集,包含k個項的項集稱為k項集,給定一個事務(wù)(交易)D,即交易數(shù)據(jù)庫,其中的每一個事務(wù)(交易)T是數(shù)據(jù)項I的一個子集,即,T有一個惟一的標(biāo)積符TID;當(dāng)且僅當(dāng)時,稱交易T包含項集X;那么關(guān)聯(lián)規(guī)則就形如“X=>Y”的蘊(yùn)涵式;其中,,,Ф,即表示滿足X中條件的記錄也一定滿足Y。關(guān)聯(lián)規(guī)則X=>Y在交易數(shù)據(jù)庫中成立,具有支持度s和具有置信度c。這也就是交易數(shù)據(jù)集D中具有支持度s,即D中至少有s%的事務(wù)包含,描述為:support(X=>Y)=比如Support(X=>Y)=同時購買商品X和Y的交易數(shù)總交易數(shù)同時交易數(shù)據(jù)集D中具有置信度c,即D中包含X的事務(wù)至少有c%同時也包含Y,描述為:confidence(X=>Y)=比如購買了商品X,同時購買商品Y可信度,confidence(X=>Y)=同時購買商品X和Y的交易數(shù)購買了商品X的交易數(shù)一般稱滿足一定要求的規(guī)則為強(qiáng)規(guī)則。通常稱滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則(strong)。一般將最小支持度簡記為minsup和最小置信度簡記為minconf。6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.1關(guān)聯(lián)規(guī)則的概念及分類986.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.1關(guān)聯(lián)規(guī)則的概念及分類2關(guān)聯(lián)規(guī)則的分類分類標(biāo)準(zhǔn)類別規(guī)則中所處理的值布爾關(guān)聯(lián)規(guī)則,量化關(guān)聯(lián)規(guī)則規(guī)則中所涉及的數(shù)據(jù)維單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則規(guī)則中所涉及的抽象層單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則規(guī)則中的擴(kuò)充最大的模式和頻繁閉項集關(guān)聯(lián)特性分類分析與相關(guān)分析6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.1關(guān)聯(lián)規(guī)則的概念及分類996.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則)1.簡單形式的關(guān)聯(lián)規(guī)則的核心算法找到所有支持度大于最小支持度的項集,即頻集,有k個數(shù)據(jù)頻集稱為k項頻集.找出所有的頻集由apriori算法實現(xiàn)。Apriori性質(zhì)具有一個頻集的任一非空子集都是頻集。使用第1步找到的頻集產(chǎn)生期望的規(guī)則
apriori算法的詳細(xì)介紹見課本。6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法1006.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則)2頻集算法的幾種優(yōu)化方法基于劃分的方法基于hash的方法基于采樣的方法減少交易的個數(shù)6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法1016.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則)3其他的頻集挖掘方法FP-growth方法min_hashing(MH)和locality_sensitive_hashing(LSH)6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法1026.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘多層關(guān)聯(lián)規(guī)則多維關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則價值衡量的方法6.3.4貨籃子分析存在的問題詳見課本6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.3多層和多維關(guān)聯(lián)規(guī)則的挖1036.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.5關(guān)聯(lián)分析的其他算法發(fā)現(xiàn)關(guān)聯(lián)的更好方法統(tǒng)計相關(guān)以外的理解關(guān)聯(lián)有效可行的市場籃子分析6.3.6挖掘序列模式序列模式的概念及定義
序列模式挖掘的主要算法
GSP算法描述PrefixSpan算法6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.5關(guān)聯(lián)分析的其他算法104關(guān)聯(lián)規(guī)則挖掘—一個例子最小值尺度50%最小可信度50%對于A
C:support=support({A、C})=50%confidence=support({A、C})/support({A})=66.6%Apriori的基本思想:頻繁項集的任何子集也一定是頻繁的關(guān)聯(lián)規(guī)則挖掘—一個例子最小值尺度50%對于AC:105關(guān)鍵步驟:挖掘頻繁集頻繁集:是指滿足最小支持度的項目集合頻繁集的子集也一定是頻繁的如,如果{AB}是頻繁集,則{A}{B}也一定是頻繁集從1到k(k-頻繁集)遞歸查找頻繁集用得到的頻繁集生成關(guān)聯(lián)規(guī)則關(guān)鍵步驟:挖掘頻繁集頻繁集:是指滿足最小支持度的項目集合106Apriori算法連接:用Lk-1自連接得到Ck修剪:一個k-項集,如果他的一個k-1項集(他的子集)不是頻繁的,那他本身也不可能是頻繁的。偽代碼:Ck:CandidateitemsetofsizekLk:frequentitemsetofsizekL1={frequentitems};for
(k=1;Lk!=;k++)dobegin
Ck+1=candidatesgeneratedfromLk;
foreachtransactiontindatabasedoincrementthecountofallcandidatesinCk+1thatarecontainedint
Lk+1=candidatesinCk+1withmin_support
endreturn
k
Lk;Apriori算法連接:用Lk-1自連接得到Ck107Apriori算法—例子數(shù)據(jù)庫D掃描DC1L1L2C2C2掃描DC3L3掃描DApriori算法—例子數(shù)據(jù)庫D掃描DC1L1L2C108如何生成候選集假定Lk-1中的項按順序排列第一步:自連接Lk-1
insertinto
Ckselectp.item1,p.item2,…,p.itemk-1,q.itemk-1fromLk-1p,Lk-1qwherep.item1=q.item1,…,p.itemk-2=q.itemk-2,p.itemk-1<q.itemk-1第二步:修剪forallitemsetscinCk
doforall(k-1)-subsetssofcdoif(sisnotinLk-1)thendeletecfromCk如何生成候選集假定Lk-1中的項按順序排列109如何計算候選集的支持度計算支持度為什么會成為一個問題?候選集的個數(shù)非常巨大一筆交易可能包含多個候選集方法:用hash-tree存放候選集樹的葉子節(jié)點(diǎn)
of存放項集的列表和支持度內(nèi)部節(jié)點(diǎn)是一個hash表Subset函數(shù):找到包含在一筆交易中的所有候選集如何計算候選集的支持度計算支持度為什么會成為一個問題?110生成候選集的例子L3={abc,abd,acd,ace,bcd}自連接:L3*L3abc和abd得到abcdacd和ace得到acde修剪:ade不在L3中,刪除acdeC4={abcd}生成候選集的例子L3={abc,abd,acd,ace111提高Apriori效率的方法基于Hash的項集計數(shù):如果一個k-項集在hash-tree的路徑上的一個計數(shù)值低于閾值,那他本身也不可能是頻繁的。減少交易記錄:不包含任何頻繁k-項集的交易也不可能包含任何大于k的頻繁集分割:一個項集要想在整個數(shù)據(jù)庫中是頻繁的,那么他至少在數(shù)據(jù)庫的一個分割上是頻繁的。采樣:在給定數(shù)據(jù)的子集上挖掘,使用小的支持度+完整性驗證方法動態(tài)項集計數(shù):在添加一個新的候選集之前,先估計一下是不是他的所有子集都是頻繁的。提高Apriori效率的方法基于Hash的項集計數(shù):如果一112Apriori夠快了嗎?—性能瓶頸Apriori算法的核心:用頻繁的(k–1)-項集生成候選的頻繁k-項集用數(shù)據(jù)庫掃描和模式匹配計算候選集的支持度Apriori的瓶頸:候選集生成巨大的候選集:104個頻繁1-項集要生成107個候選2-項集要找尺寸為100的頻繁模式,如{a1,a2,…,a100},你必須先產(chǎn)生21001030個候選集多次掃描數(shù)據(jù)庫:如果最長的模式是n的話,則需要(n+1)次數(shù)據(jù)庫掃描Apriori夠快了嗎?—性能瓶頸Apriori算法的1136.4數(shù)據(jù)挖掘的聚類算法6.4.1聚類分析的概念與分類聚類分析概念聚類分析方法的分類類別算法分裂(劃分)法K-MEANS算法(K-平均)、K-MEDOIDS算法(K-中心點(diǎn))、CLARANS算法(給予選擇的方法)層次法BIRCH算法(平衡迭代歸約和聚類)、CURE算法(代表聚類)、CHAMELEON算法(動態(tài)模型)基于密度的方法DBSCAN算法(基于高密度連接區(qū)域)、OPTICS算法(對象排序識別)、DENCLUE算法(密度分布函數(shù))基于網(wǎng)格的方法STING算法(統(tǒng)計信息網(wǎng)格)、CLIQUE算法(聚類高維空間)、WAVE-CLUSTER算法(小波變換)基于模型的方法統(tǒng)計學(xué)方法、神經(jīng)網(wǎng)絡(luò)方法6.4數(shù)據(jù)挖掘的聚類算法6.4.1聚類分析的概念與分類類別1146.4數(shù)據(jù)挖掘的聚類算法6.4.2聚類分析中兩個對象之間的相異度計算方法區(qū)間標(biāo)度變量計算方法
二元變量計算方法標(biāo)稱型、序數(shù)型和比例標(biāo)度型變量計算方法混合類型的變量計算方法6.4數(shù)據(jù)挖掘的聚類算法6.4.2聚類分析中兩個對象之間的1156.4數(shù)據(jù)挖掘的聚類算法6.4.3劃分方法典型的劃分方法:k-平均和k-中心點(diǎn)
基于簇的重心技術(shù):k-平均方法基于有代表性的對象的技術(shù):k-中心點(diǎn)方法大型數(shù)據(jù)庫中的劃分方法:基于選擇的K-中心點(diǎn)CLARANS方法6.4數(shù)據(jù)挖掘的聚類算法6.4.3劃分方法1166.4數(shù)據(jù)挖掘的聚類算法6.4.4層次方法凝聚的和分裂的層次聚類
凝聚層次聚類方法AGNES分裂層次聚類方法DIANA利用層次方法的平衡迭代歸約和聚類綜合的層次聚類方法BIRCH利用代表點(diǎn)聚類一種新穎的層次聚類算法CURE一個利用動態(tài)模型的層次聚類算法動態(tài)模型的聚類法chameleon(變色龍)6.4數(shù)據(jù)挖掘的聚類算法6.4.4層次方法1176.4數(shù)據(jù)挖掘的聚類算法6.4.5基于密度的方法一個基于高密度連接區(qū)域的聚類方法DBSCAN聚類方法通過對象排序識別聚類結(jié)構(gòu)OPTICS聚類分析方法基于密度分布函數(shù)的聚類基于一組密度分布函數(shù)的聚類算法DENCLUE6.4數(shù)據(jù)挖掘的聚類算法6.4.5基于密度的方法1186.4數(shù)據(jù)挖掘的聚類算法6.4.6基于網(wǎng)格的方法統(tǒng)計信息網(wǎng)絡(luò)STING是一種基于網(wǎng)格的多分辨率聚類技術(shù)聚類高維空間CLIQUE(clusteringinquest,CLIQUE)聚類算法6.4.7基于模型的聚類方法增量概念聚類算法COBWEB6.4.8模糊聚類算法6.4數(shù)據(jù)挖掘的聚類算法6.4.6基于網(wǎng)格的方法1196.5數(shù)據(jù)挖掘的統(tǒng)計分析算法6.5.1辨別方法6.5.2回歸模型6.5.3優(yōu)點(diǎn)與缺點(diǎn)6.5數(shù)據(jù)挖掘的統(tǒng)計分析算法6.5.1辨別方法1206.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.6.1品種優(yōu)化6.6.2品種優(yōu)化算法6.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.6.1品種優(yōu)化1216.7數(shù)據(jù)挖掘的進(jìn)化算法6.7.1遺傳算法如何工作優(yōu)缺點(diǎn)6.7.2神經(jīng)網(wǎng)絡(luò)算法如何工作無指導(dǎo)的學(xué)習(xí)競爭學(xué)習(xí)自組織特征映射模型優(yōu)缺點(diǎn)6.7數(shù)據(jù)挖掘的進(jìn)化算法6.7.1遺傳算法1226.7數(shù)據(jù)挖掘的進(jìn)化算法神經(jīng)網(wǎng)絡(luò)模型性別區(qū)域職位B類客戶年齡交易額受教育的年限圖6.10神經(jīng)網(wǎng)絡(luò)模型C類客戶跳槽客戶隱節(jié)點(diǎn)隱節(jié)點(diǎn)A類客戶隱節(jié)點(diǎn)隱節(jié)點(diǎn)6.7數(shù)據(jù)挖掘的進(jìn)化算法神經(jīng)網(wǎng)絡(luò)模型性別區(qū)域職位B類客戶年齡123第7章非結(jié)構(gòu)化數(shù)據(jù)挖掘本章內(nèi)容:7.1Web數(shù)據(jù)挖掘7.2空間群數(shù)據(jù)挖掘7.3多媒體數(shù)據(jù)挖掘第7章非結(jié)構(gòu)化數(shù)據(jù)挖掘本章內(nèi)容:1247.1Web數(shù)據(jù)挖掘7.1.1非結(jié)構(gòu)化數(shù)據(jù)源Web數(shù)據(jù)挖掘的難點(diǎn)對數(shù)據(jù)來源分析異構(gòu)數(shù)據(jù)環(huán)境半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)解決半結(jié)構(gòu)化的數(shù)據(jù)源問題文本總結(jié)XML與Web數(shù)據(jù)挖掘技術(shù)XML的產(chǎn)生與發(fā)展XML的主要特點(diǎn)7.1Web數(shù)據(jù)挖掘7.1.1非結(jié)構(gòu)化數(shù)據(jù)源1257.1Web數(shù)據(jù)挖掘7.1.1非結(jié)構(gòu)化數(shù)據(jù)源XML在Web數(shù)據(jù)挖掘中的應(yīng)用兩個或更多異質(zhì)數(shù)據(jù)庫之間進(jìn)行通信的應(yīng)用大部分處理負(fù)載從Web服務(wù)器轉(zhuǎn)到Web客戶端的應(yīng)用Web客戶端將同樣的數(shù)據(jù)以不同的瀏覽形式提供給不同的用戶的應(yīng)用需要智能Web代理根據(jù)用戶個人的需要裁減信息內(nèi)容的應(yīng)用7.1Web數(shù)據(jù)挖掘7.1.1非結(jié)構(gòu)化數(shù)據(jù)源1267.1Web數(shù)據(jù)挖掘7.1.2Web挖掘分類Web挖掘Webcontentmining(Web內(nèi)容挖掘)Webstructuremining(Web結(jié)構(gòu)挖掘)Webusagemining(Web訪問挖掘)Searchresultmining(搜索結(jié)果再挖掘)Generalaccesspatterntracking(一般訪問模式跟蹤)Customizedusagetracking(定制的使用跟蹤)Webpagecontentmining(Web頁面內(nèi)容挖掘)圖7.1Web挖掘分類7.1Web數(shù)據(jù)挖掘7.1.2Web挖掘分類Web挖掘W127Web挖掘三種方法比較Web內(nèi)容挖掘Web結(jié)構(gòu)挖掘Web訪問挖掘處理數(shù)據(jù)類型IR方法數(shù)據(jù)庫方法Web結(jié)構(gòu)挖掘用戶訪問挖掘無結(jié)構(gòu)和半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)主要數(shù)據(jù)自由文本、HTML標(biāo)記的超文本HTML標(biāo)記的超文本文檔內(nèi)及文檔間的超鏈接Serverlog,proxyserverlog,clientlog表示方法詞集、段落、概念、IR的三種經(jīng)典模型OEM關(guān)系圖關(guān)系表、圖處理方法TFIDF、統(tǒng)計、機(jī)器學(xué)習(xí)、自然語言理解數(shù)據(jù)庫技術(shù)機(jī)器學(xué)習(xí)、專有算法(如HITSpagerank)統(tǒng)計、機(jī)器學(xué)習(xí)、關(guān)聯(lián)規(guī)則主要應(yīng)用分類、聚類、模式發(fā)現(xiàn)模式發(fā)現(xiàn)、數(shù)據(jù)向?qū)?、多維數(shù)據(jù)庫、站點(diǎn)創(chuàng)建與維護(hù)頁面權(quán)重分類聚類、模式發(fā)現(xiàn)用戶個性化、自適應(yīng)Web站點(diǎn)、商業(yè)決策Web挖掘三種方法比較Web內(nèi)容挖掘Web結(jié)構(gòu)挖掘Web訪1287.1Web數(shù)據(jù)挖掘Web挖掘的基本構(gòu)架訪問者注冊用戶網(wǎng)站交易信息瀏覽信息數(shù)據(jù)庫、數(shù)據(jù)倉庫Web日志文件WebSerer中其他信息數(shù)據(jù)預(yù)處理模塊結(jié)構(gòu)數(shù)據(jù)挖掘模塊Web挖掘的基本構(gòu)架頁面訪問情況Web結(jié)構(gòu)模式Web內(nèi)容模式知識非結(jié)構(gòu)數(shù)據(jù)挖掘模塊7.1Web數(shù)據(jù)挖掘Web挖掘的基本構(gòu)架訪問者注冊用戶網(wǎng)1297.1Web數(shù)據(jù)挖掘7.1.3Web內(nèi)容挖掘信息檢索(informationretrieve,IR)方法數(shù)據(jù)庫方法7.1.4Web結(jié)構(gòu)挖掘Rank方法7.1.5Web訪問挖掘?qū)eb日志進(jìn)行清洗、過濾和轉(zhuǎn)換以及剔除無關(guān)記錄
采用統(tǒng)計學(xué)、模式識別、人工智能、數(shù)據(jù)庫數(shù)據(jù)挖掘等領(lǐng)域的成熟技術(shù)在Web的使用記錄中挖掘知識
Web使用挖掘中的模式分析
7.1Web數(shù)據(jù)挖掘7.1.3Web內(nèi)容挖掘1307.1Web數(shù)據(jù)挖掘7.1.6利用Web日志的聚類算法客戶群體的模糊聚類算法
用戶訪問興趣的算法
客戶群體聚類的Hamming距離算法
基于模糊理論的Web頁面聚類算法
Web頁面聚類的Hamming距離算法
7.1Web數(shù)據(jù)挖掘7.1.6利用Web日志的聚類算法1317.1Web數(shù)據(jù)挖掘電子商務(wù)中的Web挖掘電子商務(wù)中Web挖掘的作用電子商務(wù)中Web挖掘的基本問題電子商務(wù)中的數(shù)據(jù)挖掘工具文本信息挖掘工具用戶訪問模式挖掘工具用戶導(dǎo)航行為挖掘工具綜合性的Web分析工具7.1Web數(shù)據(jù)挖掘電子商務(wù)中的Web挖掘1327.2空間群數(shù)據(jù)挖掘7.2.1空間群數(shù)據(jù)挖掘概念從空間數(shù)據(jù)中抽取隱含的知識、空間關(guān)系、空間及與非空間之間的有意義的特征或模式。
7.2.2空間群數(shù)據(jù)挖掘分類
空間檢索空間拓?fù)浏B加分析空間模擬分析7.2空間群數(shù)據(jù)挖掘7.2.1空間群數(shù)據(jù)挖掘概念1337.2空間群數(shù)據(jù)挖掘7.2.3空間數(shù)據(jù)挖掘的體系結(jié)構(gòu)空間數(shù)據(jù)結(jié)構(gòu)查詢與優(yōu)化原則的分析信息集成模式知識級處理語義級檢索與索引領(lǐng)域知識模式知識對象和屬性抽取物理級底層特性處理設(shè)計圖7.4空間數(shù)據(jù)挖掘的體系結(jié)構(gòu)對象級特征處理語義概念級處理用戶空間數(shù)據(jù)處理7.2空間群數(shù)據(jù)挖掘7.2.3空間數(shù)據(jù)挖掘的體系結(jié)構(gòu)空間1347.3多媒體數(shù)據(jù)挖掘7.3.1多媒體數(shù)據(jù)挖掘的概念7.3.2多媒體數(shù)據(jù)挖掘的分類圖像數(shù)據(jù)挖掘視頻數(shù)據(jù)挖掘音頻數(shù)據(jù)挖掘7.3多媒體數(shù)據(jù)挖掘7.3.1多媒體數(shù)據(jù)挖掘的概念1357.3多媒體數(shù)據(jù)挖掘7.3.3多媒體數(shù)據(jù)挖掘的體系結(jié)構(gòu)原始數(shù)據(jù)媒體數(shù)據(jù)攝取媒體編碼存檔瀏覽引擎分類特征抽取查詢引擎工具交互式學(xué)習(xí)索引的生成用戶圖7.5功能驅(qū)動的多媒體挖掘體系結(jié)構(gòu)基于底層特性的索引與檢索元數(shù)據(jù)與數(shù)據(jù)抽取原則的分析信息集成模式知識級處理語義級檢索與索引領(lǐng)域知識模式知識對象級的索引與檢索物理級底層特性處理設(shè)計圖7.6信息驅(qū)動的多媒體挖掘的結(jié)構(gòu)對象級特征處理語義概念級處理用戶多媒體處理7.3多媒體數(shù)據(jù)挖掘7.3.3多媒體數(shù)據(jù)挖掘的體系結(jié)構(gòu)原始136第8章離群數(shù)據(jù)挖掘本章內(nèi)容離群數(shù)據(jù)挖掘概念離群數(shù)據(jù)挖掘分類離群數(shù)據(jù)挖掘算法市場營銷離群數(shù)據(jù)的特點(diǎn)第8章離群數(shù)據(jù)挖掘本章內(nèi)容137第8章離群數(shù)據(jù)挖掘8.1離群數(shù)據(jù)挖掘的概念8.2離群數(shù)據(jù)挖掘的分類基于統(tǒng)計學(xué)基于距離的方法基于偏移高維數(shù)據(jù)的離群數(shù)據(jù)探測基于規(guī)則的分類離群數(shù)據(jù)挖掘方法基于密度(density-based)的離群挖掘方法第8章離群數(shù)據(jù)挖掘8.1離群數(shù)據(jù)挖掘的概念1388.3離群數(shù)據(jù)挖掘的算法8.3.1基于統(tǒng)計的方法8.3.2基于距離的離群數(shù)據(jù)方法基于距離的離群數(shù)據(jù)定義基于距離的離群數(shù)據(jù)挖掘的算法分類及算法描述基于距離的算法的改進(jìn)8.3.3基于偏離的離群數(shù)據(jù)挖掘序列離群數(shù)據(jù)技術(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025合同違約賠償協(xié)議書10篇
- 公司股份轉(zhuǎn)讓協(xié)議書七篇
- 公司盤活閑置資產(chǎn)和清收清欠工作專題會講話
- 單位租車協(xié)議書標(biāo)準(zhǔn)范本7篇
- 自發(fā)性細(xì)菌性腹膜炎病因介紹
- (立項備案申請模板)低溫預(yù)浸纖維項目可行性研究報告參考范文
- 1.1《沁園春·長沙》【中職專用】高一語文(高教版2023基礎(chǔ)模塊上冊)
- (2024)旅游集散中心建設(shè)項目申請報告可行性研究報告(一)
- 房屋構(gòu)造識圖與建模- 趙靖 任務(wù)三 基礎(chǔ)類型與 構(gòu)61課件講解
- 2023年浸漬、涂布或包覆處理紡織物項目融資計劃書
- 語文修改語病-三年(2022-2024)高考病句試題真題分析及 備考建議(課件)
- 國家開放大學(xué)電大《計算機(jī)應(yīng)用基礎(chǔ)(本)》終結(jié)性考試試題答案(格式已排好)任務(wù)一
- 中華護(hù)理學(xué)會會員申請表(普通+資深會員)
- 電子政務(wù)教案人民大學(xué)
- 最新國家電網(wǎng)公司電力安全工作規(guī)程
- (完整版)HSE管理體系及措施
- 淺談吉林省中藥材產(chǎn)業(yè)發(fā)展
- 職業(yè)生涯規(guī)劃檔案建立過程
- 圖形找規(guī)律專項練習(xí)60題(有答案)
- 小型步進(jìn)電機(jī)控制系統(tǒng)設(shè)計
- 普通發(fā)票銷售清單
評論
0/150
提交評論