數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)_第5頁
已閱讀5頁,還剩76頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)

ElectronicCommerce夏火松E-MAIL:第一頁,共八十一頁。

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)教案第二頁,共八十一頁。第6章數(shù)據(jù)挖掘基本算法本章內(nèi)容:6.1分類規(guī)則挖掘6.2預(yù)測分析與趨勢分析規(guī)則6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.4數(shù)據(jù)挖掘的聚類算法6.5數(shù)據(jù)挖掘的統(tǒng)計(jì)分析算法6.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.7數(shù)據(jù)挖掘的進(jìn)化算法第三頁,共八十一頁。6.1分類規(guī)則挖掘6.1.1分類與估值1分類為了理解事物特征并做出預(yù)測使用歷史數(shù)據(jù)建立一個(gè)分類模型(即分類器)的過程。應(yīng)用于信用卡系統(tǒng)中的信用分級、市場調(diào)查、療效診斷、尋找店址等實(shí)踐應(yīng)用參照課本第四頁,共八十一頁。6.1分類規(guī)則挖掘

6.1.1分類與估值2估值估值(estimation)與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定的數(shù)目,估值的量是不確定的。

3分類方法與步驟

方法:決策樹歸納、貝葉斯分類、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)。還有K-最臨近分類、基于案例的推理、遺傳算法、粗糙集和模糊集方法。步驟:模型創(chuàng)建、模型使用第五頁,共八十一頁。6.1分類規(guī)則挖掘6.1.1分類與估值4評估分類方法要考慮的指標(biāo):預(yù)測準(zhǔn)確率、速度、創(chuàng)建速度、使用速度、魯棒性、處理噪聲和丟失值、伸縮性、對磁盤駐留數(shù)據(jù)的處理能力、可解釋性、對模型的可理解程度、規(guī)則好壞的評價(jià)、決策樹的大小和分類規(guī)則的簡明性。第六頁,共八十一頁。6.1分類規(guī)則挖掘6.1.2決策樹父節(jié)點(diǎn)子節(jié)點(diǎn)子節(jié)點(diǎn)葉節(jié)點(diǎn)子節(jié)點(diǎn)子節(jié)點(diǎn)子節(jié)點(diǎn)根節(jié)點(diǎn)圖6.1一般決策樹結(jié)構(gòu)葉節(jié)點(diǎn)父節(jié)點(diǎn)第七頁,共八十一頁。6.1分類規(guī)則挖掘6.1.2決策樹1.決策樹的構(gòu)造過程ID3算法應(yīng)用如下:信息量計(jì)算公式:I(s1,s2,…sm)=-(6.1)其中,pi為si占整個(gè)類別的概率利用屬性A劃分當(dāng)前樣本集合所需要的信息(熵)的計(jì)算公式為:E(A)=(6.2)信息增益公式:Gain(A)=I(s1,s2,…sm)-E(A)(6.3)例如:一個(gè)銷售的顧客數(shù)據(jù)庫(訓(xùn)練樣本集合),對購買計(jì)算機(jī)的人員進(jìn)行分類:字段為:(年齡(取值:<30,30~40,>40>);收入(高,中,低);學(xué)生否(Y,N);信用(一般,很好);購買計(jì)算機(jī)否(Y,N))記錄為14個(gè),具體數(shù)據(jù)如下:X1=(<30,高,N,一般,N);X2=(<30,高,N,很好,N)X3=(30~40,高,N,一般,Y);X4=(>40,中,N,一般,Y)X5=(>40,低,Y,一般,Y);X6=(>40,低,Y,很好,N)X7=(<30-40,低,Y,高,Y);X8=(<30,中,N,一般,N)X9=(<30,低,Y,一般,Y);X10=(>40,中,Y, 一般,Y)X11=(<30,中,Y,很好,Y);X12=(30~40,中,N,很好,Y)X13=(30~40,高,Y,一般,Y);X14=(>40,中,N,很好,N)第八頁,共八十一頁。6.1分類規(guī)則挖掘

6.1.2決策樹1.決策樹的構(gòu)造過程決策樹的構(gòu)造算法:

決策樹的構(gòu)造算法可通過訓(xùn)練集T完成,其中T={<x,cj>},而x=(a1,a2,…,an)為一個(gè)訓(xùn)練實(shí)例,它有n個(gè)屬性,分別列于屬性表(A1,A2,…,An)中,其中ai表示屬性Ai的取值。Cj∈C={C1,C2,…,Cm}為x的分類結(jié)果。從屬性表中選擇屬性Ai作為分類屬性;若屬性Ai的取值有ki個(gè),則將T劃分為ki個(gè)子集,T1,…,Tki,其中Tij={<x,C>|<x,C>}∈T,且x的屬性取值A(chǔ)為第i個(gè)值;接下來從屬性表中刪除屬性Ai;對于每一個(gè)Tij(1≤j≤K1),令T=Tij;如果屬性表非空,返回第1步,否則輸出。第九頁,共八十一頁。6.1分類規(guī)則挖掘

6.1.2決策樹2.分類器定義:輸入的數(shù)據(jù)含有千萬個(gè)記錄,每個(gè)記錄又有很多個(gè)屬性,其中有一個(gè)特別的屬性叫做類(例如信用程度的高,中,低)。具體步驟:1)樹的建立。2)樹的修剪,SLIQ采用了MDL(最小敘述長度)的方法來修剪樹。

第十頁,共八十一頁。6.1分類規(guī)則挖掘

6.1.2決策樹3.決策樹的可擴(kuò)展性4.基于決策樹方法的數(shù)據(jù)挖掘工具

KnowledgSEEKER

第十一頁,共八十一頁。6.1分類規(guī)則挖掘

6.1.3貝葉斯分類1.貝葉斯信任網(wǎng)絡(luò)如何工作邊緣主區(qū)域手機(jī)呼叫服務(wù)區(qū)域noyes外界圖6.3簡單的貝葉斯網(wǎng)圖第十二頁,共八十一頁。6.1分類規(guī)則挖掘6.1.3貝葉斯分類2.貝葉斯定理與樸素貝葉斯分類貝葉斯定理:P(H|X)=P(X|H)P(H)/P(X)其中,P(H|X)表示條件X下H的概率,也稱為條件概率或稱為后驗(yàn)概率(posterioriprobabilities)。樸素貝葉斯分類:假定有m個(gè)類C1,…Cm,對于數(shù)據(jù)樣本X,分類法將預(yù)測X屬于類Ci,當(dāng)且僅當(dāng)P(Ci|X)>P(Cj|X),第十三頁,共八十一頁。6.2預(yù)測分析與趨勢分析規(guī)則6.2.1預(yù)言的基本方法預(yù)言(prediction)是一門掌握對象變化動態(tài)的科學(xué),它是對對象變動趨勢的預(yù)見、分析和判斷,也是一種動態(tài)分析方法。預(yù)測的基本步驟:確定預(yù)測目標(biāo),包括預(yù)測對象、目的、對象范圍;收集分析內(nèi)部和外部資料;數(shù)據(jù)的處理及模型的選擇;預(yù)測模型的分析、修正;確定預(yù)測值。第十四頁,共八十一頁。6.2預(yù)測分析與趨勢分析規(guī)則6.2.2定量分析預(yù)測時(shí)間序列法回歸預(yù)測非線性模型灰色預(yù)測模型GM(1,1)組合預(yù)測第十五頁,共八十一頁。6.2預(yù)測分析與趨勢分析規(guī)則6.2.3預(yù)測的結(jié)果分析預(yù)測的結(jié)果分析要考慮到的因素:相反的預(yù)測結(jié)果勝出裕度成本收益分析第十六頁,共八十一頁。6.2預(yù)測分析與趨勢分析規(guī)則6.2.4趨勢分析挖掘分析時(shí)間序列數(shù)據(jù)需要注意以下方面:長時(shí)間的走向周期的走向與周期的變化季節(jié)性的走向與變化不規(guī)則的隨機(jī)走向第十七頁,共八十一頁。6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.1關(guān)聯(lián)規(guī)則的概念及分類1.關(guān)聯(lián)規(guī)則的概念定義1設(shè)I={i1、i2、i3,…,im}是由m個(gè)不同的數(shù)據(jù)項(xiàng)目組成的集合,其中的元素稱為項(xiàng)(item),項(xiàng)的集合稱為項(xiàng)集,包含k個(gè)項(xiàng)的項(xiàng)集稱為k項(xiàng)集,給定一個(gè)事務(wù)(交易)D,即交易數(shù)據(jù)庫,其中的每一個(gè)事務(wù)(交易)T是數(shù)據(jù)項(xiàng)I的一個(gè)子集,即,T有一個(gè)惟一的標(biāo)積符TID;當(dāng)且僅當(dāng)時(shí),稱交易T包含項(xiàng)集X;那么關(guān)聯(lián)規(guī)則就形如“X=>Y”的蘊(yùn)涵式;其中,,,Ф,即表示滿足X中條件的記錄也一定滿足Y。關(guān)聯(lián)規(guī)則X=>Y在交易數(shù)據(jù)庫中成立,具有支持度s和具有置信度c。這也就是交易數(shù)據(jù)集D中具有支持度s,即D中至少有s%的事務(wù)包含,描述為:support(X=>Y)=比如Support(X=>Y)=同時(shí)購買商品X和Y的交易數(shù)總交易數(shù)同時(shí)交易數(shù)據(jù)集D中具有置信度c,即D中包含X的事務(wù)至少有c%同時(shí)也包含Y,描述為:confidence(X=>Y)=比如購買了商品X,同時(shí)購買商品Y可信度,confidence(X=>Y)=同時(shí)購買商品X和Y的交易數(shù)購買了商品X的交易數(shù)一般稱滿足一定要求的規(guī)則為強(qiáng)規(guī)則。通常稱滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則(strong)。一般將最小支持度簡記為minsup和最小置信度簡記為minconf。第十八頁,共八十一頁。6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.1關(guān)聯(lián)規(guī)則的概念及分類2關(guān)聯(lián)規(guī)則的分類分類標(biāo)準(zhǔn)類別規(guī)則中所處理的值布爾關(guān)聯(lián)規(guī)則,量化關(guān)聯(lián)規(guī)則規(guī)則中所涉及的數(shù)據(jù)維單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則規(guī)則中所涉及的抽象層單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則規(guī)則中的擴(kuò)充最大的模式和頻繁閉項(xiàng)集關(guān)聯(lián)特性分類分析與相關(guān)分析第十九頁,共八十一頁。6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則)1.簡單形式的關(guān)聯(lián)規(guī)則的核心算法找到所有支持度大于最小支持度的項(xiàng)集,即頻集,有k個(gè)數(shù)據(jù)頻集稱為k項(xiàng)頻集.找出所有的頻集由apriori算法實(shí)現(xiàn)。Apriori性質(zhì)具有一個(gè)頻集的任一非空子集都是頻集。使用第1步找到的頻集產(chǎn)生期望的規(guī)則

apriori算法的詳細(xì)介紹見課本。第二十頁,共八十一頁。6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則)2頻集算法的幾種優(yōu)化方法基于劃分的方法基于hash的方法基于采樣的方法減少交易的個(gè)數(shù)第二十一頁,共八十一頁。6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.2簡單形式的關(guān)聯(lián)規(guī)則算法(單維、單層和布爾關(guān)聯(lián)規(guī)則)3其他的頻集挖掘方法FP-growth方法min_hashing(MH)和locality_sensitive_hashing(LSH)第二十二頁,共八十一頁。6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.3多層和多維關(guān)聯(lián)規(guī)則的挖掘多層關(guān)聯(lián)規(guī)則多維關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則價(jià)值衡量的方法6.3.4貨籃子分析存在的問題詳見課本第二十三頁,共八十一頁。6.3數(shù)據(jù)挖掘的關(guān)聯(lián)算法6.3.5關(guān)聯(lián)分析的其他算法發(fā)現(xiàn)關(guān)聯(lián)的更好方法統(tǒng)計(jì)相關(guān)以外的理解關(guān)聯(lián)有效可行的市場籃子分析6.3.6挖掘序列模式序列模式的概念及定義

序列模式挖掘的主要算法

GSP算法描述PrefixSpan算法第二十四頁,共八十一頁。關(guān)聯(lián)規(guī)則挖掘—一個(gè)例子最小值尺度50%最小可信度50%對于A

C:support=support({A、C})=50%confidence=support({A、C})/support({A})=66.6%Apriori的基本思想:頻繁項(xiàng)集的任何子集也一定是頻繁的第二十五頁,共八十一頁。關(guān)鍵步驟:挖掘頻繁集頻繁集:是指滿足最小支持度的項(xiàng)目集合頻繁集的子集也一定是頻繁的如,如果{AB}是頻繁集,則{A}{B}也一定是頻繁集從1到k(k-頻繁集)遞歸查找頻繁集用得到的頻繁集生成關(guān)聯(lián)規(guī)則第二十六頁,共八十一頁。Apriori算法連接:用Lk-1自連接得到Ck修剪:一個(gè)k-項(xiàng)集,如果他的一個(gè)k-1項(xiàng)集(他的子集)不是頻繁的,那他本身也不可能是頻繁的。偽代碼:Ck:CandidateitemsetofsizekLk:frequentitemsetofsizekL1={frequentitems};for

(k=1;Lk!=;k++)dobegin

Ck+1=candidatesgeneratedfromLk;

foreachtransactiontindatabasedoincrementthecountofallcandidatesinCk+1thatarecontainedint

Lk+1=candidatesinCk+1withmin_support

endreturn

k

Lk;第二十七頁,共八十一頁。Apriori算法—例子數(shù)據(jù)庫D掃描DC1L1L2C2C2掃描DC3L3掃描D第二十八頁,共八十一頁。如何生成候選集假定Lk-1中的項(xiàng)按順序排列第一步:自連接Lk-1

insertinto

Ckselectp.item1,p.item2,…,p.itemk-1,q.itemk-1fromLk-1p,Lk-1qwherep.item1=q.item1,…,p.itemk-2=q.itemk-2,p.itemk-1<q.itemk-1第二步:修剪forallitemsetscinCk

doforall(k-1)-subsetssofcdoif(sisnotinLk-1)thendeletecfromCk第二十九頁,共八十一頁。如何計(jì)算候選集的支持度計(jì)算支持度為什么會成為一個(gè)問題?候選集的個(gè)數(shù)非常巨大一筆交易可能包含多個(gè)候選集方法:用hash-tree存放候選集樹的葉子節(jié)點(diǎn)

of存放項(xiàng)集的列表和支持度內(nèi)部節(jié)點(diǎn)是一個(gè)hash表Subset函數(shù):找到包含在一筆交易中的所有候選集第三十頁,共八十一頁。生成候選集的例子L3={abc,abd,acd,ace,bcd}自連接:L3*L3abc和abd得到abcdacd和ace得到acde修剪:ade不在L3中,刪除acdeC4={abcd}第三十一頁,共八十一頁。提高Apriori效率的方法基于Hash的項(xiàng)集計(jì)數(shù):如果一個(gè)k-項(xiàng)集在hash-tree的路徑上的一個(gè)計(jì)數(shù)值低于閾值,那他本身也不可能是頻繁的。減少交易記錄:不包含任何頻繁k-項(xiàng)集的交易也不可能包含任何大于k的頻繁集分割:一個(gè)項(xiàng)集要想在整個(gè)數(shù)據(jù)庫中是頻繁的,那么他至少在數(shù)據(jù)庫的一個(gè)分割上是頻繁的。采樣:在給定數(shù)據(jù)的子集上挖掘,使用小的支持度+完整性驗(yàn)證方法動態(tài)項(xiàng)集計(jì)數(shù):在添加一個(gè)新的候選集之前,先估計(jì)一下是不是他的所有子集都是頻繁的。第三十二頁,共八十一頁。Apriori夠快了嗎?—性能瓶頸Apriori算法的核心:用頻繁的(k–1)-項(xiàng)集生成候選的頻繁k-項(xiàng)集用數(shù)據(jù)庫掃描和模式匹配計(jì)算候選集的支持度Apriori的瓶頸:候選集生成巨大的候選集:104個(gè)頻繁1-項(xiàng)集要生成107個(gè)候選2-項(xiàng)集要找尺寸為100的頻繁模式,如{a1,a2,…,a100},你必須先產(chǎn)生21001030個(gè)候選集多次掃描數(shù)據(jù)庫:如果最長的模式是n的話,則需要(n+1)次數(shù)據(jù)庫掃描第三十三頁,共八十一頁。6.4數(shù)據(jù)挖掘的聚類算法6.4.1聚類分析的概念與分類聚類分析概念聚類分析方法的分類類別算法分裂(劃分)法K-MEANS算法(K-平均)、K-MEDOIDS算法(K-中心點(diǎn))、CLARANS算法(給予選擇的方法)層次法BIRCH算法(平衡迭代歸約和聚類)、CURE算法(代表聚類)、CHAMELEON算法(動態(tài)模型)基于密度的方法DBSCAN算法(基于高密度連接區(qū)域)、OPTICS算法(對象排序識別)、DENCLUE算法(密度分布函數(shù))基于網(wǎng)格的方法STING算法(統(tǒng)計(jì)信息網(wǎng)格)、CLIQUE算法(聚類高維空間)、WAVE-CLUSTER算法(小波變換)基于模型的方法統(tǒng)計(jì)學(xué)方法、神經(jīng)網(wǎng)絡(luò)方法第三十四頁,共八十一頁。6.4數(shù)據(jù)挖掘的聚類算法6.4.2聚類分析中兩個(gè)對象之間的相異度計(jì)算方法區(qū)間標(biāo)度變量計(jì)算方法

二元變量計(jì)算方法標(biāo)稱型、序數(shù)型和比例標(biāo)度型變量計(jì)算方法混合類型的變量計(jì)算方法第三十五頁,共八十一頁。6.4數(shù)據(jù)挖掘的聚類算法6.4.3劃分方法典型的劃分方法:k-平均和k-中心點(diǎn)

基于簇的重心技術(shù):k-平均方法基于有代表性的對象的技術(shù):k-中心點(diǎn)方法大型數(shù)據(jù)庫中的劃分方法:基于選擇的K-中心點(diǎn)CLARANS方法第三十六頁,共八十一頁。6.4數(shù)據(jù)挖掘的聚類算法6.4.4層次方法凝聚的和分裂的層次聚類

凝聚層次聚類方法AGNES分裂層次聚類方法DIANA利用層次方法的平衡迭代歸約和聚類綜合的層次聚類方法BIRCH利用代表點(diǎn)聚類一種新穎的層次聚類算法CURE一個(gè)利用動態(tài)模型的層次聚類算法動態(tài)模型的聚類法chameleon(變色龍)第三十七頁,共八十一頁。6.4數(shù)據(jù)挖掘的聚類算法6.4.5基于密度的方法一個(gè)基于高密度連接區(qū)域的聚類方法DBSCAN聚類方法通過對象排序識別聚類結(jié)構(gòu)OPTICS聚類分析方法基于密度分布函數(shù)的聚類基于一組密度分布函數(shù)的聚類算法DENCLUE第三十八頁,共八十一頁。6.4數(shù)據(jù)挖掘的聚類算法6.4.6基于網(wǎng)格的方法統(tǒng)計(jì)信息網(wǎng)絡(luò)STING是一種基于網(wǎng)格的多分辨率聚類技術(shù)聚類高維空間CLIQUE(clusteringinquest,CLIQUE)聚類算法6.4.7基于模型的聚類方法增量概念聚類算法COBWEB6.4.8模糊聚類算法第三十九頁,共八十一頁。6.5數(shù)據(jù)挖掘的統(tǒng)計(jì)分析算法6.5.1辨別方法6.5.2回歸模型6.5.3優(yōu)點(diǎn)與缺點(diǎn)第四十頁,共八十一頁。6.6數(shù)據(jù)挖掘的品種優(yōu)化算法6.6.1品種優(yōu)化6.6.2品種優(yōu)化算法第四十一頁,共八十一頁。6.7數(shù)據(jù)挖掘的進(jìn)化算法6.7.1遺傳算法如何工作優(yōu)缺點(diǎn)6.7.2神經(jīng)網(wǎng)絡(luò)算法如何工作無指導(dǎo)的學(xué)習(xí)競爭學(xué)習(xí)自組織特征映射模型優(yōu)缺點(diǎn)第四十二頁,共八十一頁。6.7數(shù)據(jù)挖掘的進(jìn)化算法神經(jīng)網(wǎng)絡(luò)模型性別區(qū)域職位B類客戶年齡交易額受教育的年限圖6.10神經(jīng)網(wǎng)絡(luò)模型C類客戶跳槽客戶隱節(jié)點(diǎn)隱節(jié)點(diǎn)A類客戶隱節(jié)點(diǎn)隱節(jié)點(diǎn)第四十三頁,共八十一頁。第7章非結(jié)構(gòu)化數(shù)據(jù)挖掘本章內(nèi)容:7.1Web數(shù)據(jù)挖掘7.2空間群數(shù)據(jù)挖掘7.3多媒體數(shù)據(jù)挖掘第四十四頁,共八十一頁。7.1Web數(shù)據(jù)挖掘7.1.1非結(jié)構(gòu)化數(shù)據(jù)源Web數(shù)據(jù)挖掘的難點(diǎn)對數(shù)據(jù)來源分析異構(gòu)數(shù)據(jù)環(huán)境半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)解決半結(jié)構(gòu)化的數(shù)據(jù)源問題文本總結(jié)XML與Web數(shù)據(jù)挖掘技術(shù)XML的產(chǎn)生與發(fā)展XML的主要特點(diǎn)第四十五頁,共八十一頁。7.1Web數(shù)據(jù)挖掘7.1.1非結(jié)構(gòu)化數(shù)據(jù)源XML在Web數(shù)據(jù)挖掘中的應(yīng)用兩個(gè)或更多異質(zhì)數(shù)據(jù)庫之間進(jìn)行通信的應(yīng)用大部分處理負(fù)載從Web服務(wù)器轉(zhuǎn)到Web客戶端的應(yīng)用Web客戶端將同樣的數(shù)據(jù)以不同的瀏覽形式提供給不同的用戶的應(yīng)用需要智能Web代理根據(jù)用戶個(gè)人的需要裁減信息內(nèi)容的應(yīng)用第四十六頁,共八十一頁。7.1Web數(shù)據(jù)挖掘7.1.2Web挖掘分類Web挖掘Webcontentmining(Web內(nèi)容挖掘)Webstructuremining(Web結(jié)構(gòu)挖掘)Webusagemining(Web訪問挖掘)Searchresultmining(搜索結(jié)果再挖掘)Generalaccesspatterntracking(一般訪問模式跟蹤)Customizedusagetracking(定制的使用跟蹤)Webpagecontentmining(Web頁面內(nèi)容挖掘)圖7.1Web挖掘分類第四十七頁,共八十一頁。Web挖掘三種方法比較Web內(nèi)容挖掘Web結(jié)構(gòu)挖掘Web訪問挖掘處理數(shù)據(jù)類型IR方法數(shù)據(jù)庫方法Web結(jié)構(gòu)挖掘用戶訪問挖掘無結(jié)構(gòu)和半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)主要數(shù)據(jù)自由文本、HTML標(biāo)記的超文本HTML標(biāo)記的超文本文檔內(nèi)及文檔間的超鏈接Serverlog,proxyserverlog,clientlog表示方法詞集、段落、概念、IR的三種經(jīng)典模型OEM關(guān)系圖關(guān)系表、圖處理方法TFIDF、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、自然語言理解數(shù)據(jù)庫技術(shù)機(jī)器學(xué)習(xí)、專有算法(如HITSpagerank)統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、關(guān)聯(lián)規(guī)則主要應(yīng)用分類、聚類、模式發(fā)現(xiàn)模式發(fā)現(xiàn)、數(shù)據(jù)向?qū)?、多維數(shù)據(jù)庫、站點(diǎn)創(chuàng)建與維護(hù)頁面權(quán)重分類聚類、模式發(fā)現(xiàn)用戶個(gè)性化、自適應(yīng)Web站點(diǎn)、商業(yè)決策第四十八頁,共八十一頁。7.1Web數(shù)據(jù)挖掘Web挖掘的基本構(gòu)架訪問者注冊用戶網(wǎng)站交易信息瀏覽信息數(shù)據(jù)庫、數(shù)據(jù)倉庫Web日志文件WebSerer中其他信息數(shù)據(jù)預(yù)處理模塊結(jié)構(gòu)數(shù)據(jù)挖掘模塊Web挖掘的基本構(gòu)架頁面訪問情況Web結(jié)構(gòu)模式Web內(nèi)容模式知識非結(jié)構(gòu)數(shù)據(jù)挖掘模塊第四十九頁,共八十一頁。7.1Web數(shù)據(jù)挖掘7.1.3Web內(nèi)容挖掘信息檢索(informationretrieve,IR)方法數(shù)據(jù)庫方法7.1.4Web結(jié)構(gòu)挖掘Rank方法7.1.5Web訪問挖掘?qū)eb日志進(jìn)行清洗、過濾和轉(zhuǎn)換以及剔除無關(guān)記錄

采用統(tǒng)計(jì)學(xué)、模式識別、人工智能、數(shù)據(jù)庫數(shù)據(jù)挖掘等領(lǐng)域的成熟技術(shù)在Web的使用記錄中挖掘知識

Web使用挖掘中的模式分析

第五十頁,共八十一頁。7.1Web數(shù)據(jù)挖掘7.1.6利用Web日志的聚類算法客戶群體的模糊聚類算法

用戶訪問興趣的算法

客戶群體聚類的Hamming距離算法

基于模糊理論的Web頁面聚類算法

Web頁面聚類的Hamming距離算法

第五十一頁,共八十一頁。7.1Web數(shù)據(jù)挖掘電子商務(wù)中的Web挖掘電子商務(wù)中Web挖掘的作用電子商務(wù)中Web挖掘的基本問題電子商務(wù)中的數(shù)據(jù)挖掘工具文本信息挖掘工具用戶訪問模式挖掘工具用戶導(dǎo)航行為挖掘工具綜合性的Web分析工具第五十二頁,共八十一頁。7.2空間群數(shù)據(jù)挖掘7.2.1空間群數(shù)據(jù)挖掘概念從空間數(shù)據(jù)中抽取隱含的知識、空間關(guān)系、空間及與非空間之間的有意義的特征或模式。

7.2.2空間群數(shù)據(jù)挖掘分類

空間檢索空間拓?fù)浏B加分析空間模擬分析第五十三頁,共八十一頁。7.2空間群數(shù)據(jù)挖掘7.2.3空間數(shù)據(jù)挖掘的體系結(jié)構(gòu)空間數(shù)據(jù)結(jié)構(gòu)查詢與優(yōu)化原則的分析信息集成模式知識級處理語義級檢索與索引領(lǐng)域知識模式知識對象和屬性抽取物理級底層特性處理設(shè)計(jì)圖7.4空間數(shù)據(jù)挖掘的體系結(jié)構(gòu)對象級特征處理語義概念級處理用戶空間數(shù)據(jù)處理第五十四頁,共八十一頁。7.3多媒體數(shù)據(jù)挖掘7.3.1多媒體數(shù)據(jù)挖掘的概念7.3.2多媒體數(shù)據(jù)挖掘的分類圖像數(shù)據(jù)挖掘視頻數(shù)據(jù)挖掘音頻數(shù)據(jù)挖掘第五十五頁,共八十一頁。7.3多媒體數(shù)據(jù)挖掘7.3.3多媒體數(shù)據(jù)挖掘的體系結(jié)構(gòu)原始數(shù)據(jù)媒體數(shù)據(jù)攝取媒體編碼存檔瀏覽引擎分類特征抽取查詢引擎工具交互式學(xué)習(xí)索引的生成用戶圖7.5功能驅(qū)動的多媒體挖掘體系結(jié)構(gòu)基于底層特性的索引與檢索元數(shù)據(jù)與數(shù)據(jù)抽取原則的分析信息集成模式知識級處理語義級檢索與索引領(lǐng)域知識模式知識對象級的索引與檢索物理級底層特性處理設(shè)計(jì)圖7.6信息驅(qū)動的多媒體挖掘的結(jié)構(gòu)對象級特征處理語義概念級處理用戶多媒體處理第五十六頁,共八十一頁。第8章離群數(shù)據(jù)挖掘本章內(nèi)容離群數(shù)據(jù)挖掘概念離群數(shù)據(jù)挖掘分類離群數(shù)據(jù)挖掘算法市場營銷離群數(shù)據(jù)的特點(diǎn)第五十七頁,共八十一頁。第8章離群數(shù)據(jù)挖掘8.1離群數(shù)據(jù)挖掘的概念8.2離群數(shù)據(jù)挖掘的分類基于統(tǒng)計(jì)學(xué)基于距離的方法基于偏移高維數(shù)據(jù)的離群數(shù)據(jù)探測基于規(guī)則的分類離群數(shù)據(jù)挖掘方法基于密度(density-based)的離群挖掘方法第五十八頁,共八十一頁。8.3離群數(shù)據(jù)挖掘的算法8.3.1基于統(tǒng)計(jì)的方法8.3.2基于距離的離群數(shù)據(jù)方法基于距離的離群數(shù)據(jù)定義基于距離的離群數(shù)據(jù)挖掘的算法分類及算法描述基于距離的算法的改進(jìn)8.3.3基于偏離的離群數(shù)據(jù)挖掘序列離群數(shù)據(jù)技術(shù)

OLAP數(shù)據(jù)立方體技術(shù)第五十九頁,共八十一頁。8.3離群數(shù)據(jù)挖掘的算法8.3.4高維數(shù)據(jù)的離群數(shù)據(jù)挖掘8.3.5基于小波的離群數(shù)據(jù)挖掘

時(shí)序數(shù)據(jù)的離群數(shù)據(jù)挖掘基于聚類的離群數(shù)據(jù)CL(δ)第六十頁,共八十一頁。8.4市場營銷離群數(shù)據(jù)挖掘8.4.1市場營銷離群數(shù)據(jù)挖掘特點(diǎn)8.4.2基于分形的市場營銷離群數(shù)據(jù)挖掘模型幾個(gè)定義第六十一頁,共八十一頁。第9章數(shù)據(jù)挖掘語言與工具選擇本章內(nèi)容9.1數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化9.2數(shù)據(jù)挖掘研究熱點(diǎn)9.3數(shù)據(jù)挖掘工具的選擇第六十二頁,共八十一頁。9.1數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化9.1.1數(shù)據(jù)挖掘語言分類類別特點(diǎn)功能代表數(shù)據(jù)挖掘查詢語言數(shù)據(jù)挖掘原語五種原語DMQL數(shù)據(jù)挖掘建模語言基于XML的語言文檔類型定義、通用模式PMML通用數(shù)據(jù)挖掘語言集成全面OLEDBforDM第六十三頁,共八十一頁。9.1數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化9.1.1數(shù)據(jù)挖掘語言分類數(shù)據(jù)挖掘查詢語言(5種數(shù)據(jù)挖掘原語定義)。任務(wù)相關(guān)數(shù)據(jù)原語被挖掘的知識的種類原語背景知識原語興趣度測量原語被發(fā)現(xiàn)模式的表示和可視化原語第六十四頁,共八十一頁。9.1數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化9.1.1數(shù)據(jù)挖掘語言分類數(shù)據(jù)挖掘建模語言頭文件(aheader)數(shù)據(jù)模式(adataschema)數(shù)據(jù)挖掘模式(adataminingschema)預(yù)言模型模式(apredictivemodelschema)預(yù)言模型定義(definitionsforpredictivemodels)全體模型定義(definitionsforensemblesofmodels)選擇和聯(lián)合模型、全體模型的規(guī)則(rulesforselectingandcombiningmodelsandensemblesofmodels)異常處理的規(guī)則(rulesforexceptionhandling)第六十五頁,共八十一頁。9.1數(shù)據(jù)挖掘語言及其標(biāo)準(zhǔn)化9.1.1數(shù)據(jù)挖掘語言分類通用數(shù)據(jù)挖掘語言數(shù)據(jù)挖掘模型(DataMiningModel,DMM)預(yù)言聯(lián)接操作(PredicationJoinOperation)OLEDBforDM模式行集合(SchemaRowsets)9.1.2分析與評價(jià)第六十六頁,共八十一頁。9.2數(shù)據(jù)挖掘的研究熱點(diǎn)網(wǎng)站的數(shù)據(jù)挖掘生物信息或基因的數(shù)據(jù)挖掘文本的數(shù)據(jù)挖掘第六十七頁,共八十一頁。9.3數(shù)據(jù)挖掘工具的選擇9.3.1評價(jià)數(shù)據(jù)挖掘工具的優(yōu)劣指標(biāo)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)訪問算法與建模模型的評價(jià)和解釋用戶界面第六十八頁,共八十一頁。9.3數(shù)據(jù)挖掘工具的選擇9.3.2通用數(shù)據(jù)挖掘產(chǎn)品與工具POLYANALYSTIBMDB2lntelligentMiner和并行可視化探索者PVEDBMinerBO的BusinessMinerSPSS股份公司(SPPSCHAID)SAS研究所股份公司(SAS,JMP)NeuralWare股份公司信息發(fā)現(xiàn)股份公司(IDIS)RightPoint公司的數(shù)據(jù)挖掘工具DataCruncherDataMind公司(DataMind專業(yè)版,DataMindCruncher)Pilot軟件股份公司(Pilot發(fā)現(xiàn)服務(wù)器)Angoss國際有限公司(KnowledgeSEEKER)SiliconGraphics計(jì)算機(jī)系統(tǒng)公司(MineSet)商務(wù)項(xiàng)目公司(商務(wù)挖掘器)Cognos軟件公司(Scenario)思維機(jī)器公司(Darwin)………..第六十九頁,共八十一頁。9.3數(shù)據(jù)挖掘工具的選擇9.3.3國內(nèi)的數(shù)據(jù)挖掘產(chǎn)品與工具菲奈特一融通公司廣州華工明天科技有限公司

復(fù)旦大學(xué)數(shù)據(jù)采掘工具ARMiner9.3.4數(shù)據(jù)可視化工具的選擇高級可視化系統(tǒng)公司(AVS/Express)

Alta分析股份藹公司(NetMap)Belmont研究股份公司(Cross Graphs)

環(huán)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論