第6章現(xiàn)代數(shù)據(jù)挖掘技術與發(fā)展前沿課件_第1頁
第6章現(xiàn)代數(shù)據(jù)挖掘技術與發(fā)展前沿課件_第2頁
第6章現(xiàn)代數(shù)據(jù)挖掘技術與發(fā)展前沿課件_第3頁
第6章現(xiàn)代數(shù)據(jù)挖掘技術與發(fā)展前沿課件_第4頁
第6章現(xiàn)代數(shù)據(jù)挖掘技術與發(fā)展前沿課件_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第6章現(xiàn)代數(shù)據(jù)挖掘技術與發(fā)展

本章學習目標:(1)通過知識挖掘系統(tǒng)的體系結構的學習掌握知識發(fā)現(xiàn)的定義和知識發(fā)現(xiàn)系統(tǒng)的結構。(2)通過現(xiàn)代挖掘技術及應用的學習掌握規(guī)則型、神經(jīng)網(wǎng)絡型、遺傳算法型、粗糙集型和決策樹型現(xiàn)代挖掘技術。(3)通過知識發(fā)現(xiàn)工具與應用的學習掌握知識挖掘工具的系統(tǒng)結構、運用中的問題和知識挖掘的價值。(4)經(jīng)過數(shù)據(jù)挖掘技術的發(fā)展的學習了解文本挖掘、Web挖掘、可視化數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘和分布式數(shù)據(jù)挖掘。1現(xiàn)代數(shù)據(jù)挖掘技術與發(fā)展

6.1知識挖掘系統(tǒng)的體系結構

6.2現(xiàn)代挖掘技術及應用

6.3知識發(fā)現(xiàn)工具與應用6.4數(shù)據(jù)挖掘技術的發(fā)展

練習

26.1知識挖掘系統(tǒng)的體系結構

6.1.1知識發(fā)現(xiàn)的定義

·知識發(fā)現(xiàn)是用一種簡潔的方式從大量數(shù)據(jù)中抽取信息的一種技術,所抽取的信息是隱含的、未知的,并且具有潛在應用價值。·知識發(fā)現(xiàn)可看成是一種有價值信息的搜尋過程,它不必預先假設或提出問題,仍然能夠找到那些非預期的令人關注的信息,這些信息表示了不同研究對象之間的關系和模式。它還能通過全面的信息發(fā)現(xiàn)與分析,找到有價值的商業(yè)規(guī)則。·知識發(fā)現(xiàn)意味著在數(shù)據(jù)倉庫或數(shù)據(jù)集市的幾千兆、幾萬兆字節(jié)數(shù)據(jù)中尋找預先未知的商業(yè)模式與事實。6.1.2知識發(fā)現(xiàn)系統(tǒng)的結構

知識發(fā)現(xiàn)系統(tǒng)的結構由知識發(fā)現(xiàn)系統(tǒng)管理器、知識庫、商業(yè)分析員、數(shù)據(jù)倉庫的數(shù)據(jù)庫接口、數(shù)據(jù)選擇、知識發(fā)現(xiàn)引擎、知識發(fā)現(xiàn)評價和知識發(fā)現(xiàn)描述等部分組成(圖6.1)。3

數(shù)據(jù)倉庫知識庫數(shù)據(jù)庫接口數(shù)據(jù)選擇知識發(fā)現(xiàn)引擎知識發(fā)現(xiàn)評價知識發(fā)現(xiàn)描述知識發(fā)現(xiàn)管理器商業(yè)分析員圖6.1知識發(fā)現(xiàn)系統(tǒng)結構41.知識發(fā)現(xiàn)系統(tǒng)管理器控制并管理整個知識發(fā)現(xiàn)過程

2.知識庫和商業(yè)分析員知識庫包含了源于各方面的知識。商業(yè)分析員要按一種有效的方式指導關注信息的發(fā)現(xiàn)。3.數(shù)據(jù)倉庫的數(shù)據(jù)庫接口知識發(fā)現(xiàn)系統(tǒng)的數(shù)據(jù)庫接口可以直接與數(shù)據(jù)倉庫通信。

4.數(shù)據(jù)選擇確定從數(shù)據(jù)倉庫中需要抽取的數(shù)據(jù)及數(shù)據(jù)結構

5.知識發(fā)現(xiàn)引擎將知識庫中的抽取算法提供給數(shù)據(jù)選擇構件抽取的數(shù)據(jù)6.發(fā)現(xiàn)評價有助于商業(yè)分析員篩選模式,選出那些關注性的信息

7.發(fā)現(xiàn)描述發(fā)現(xiàn)、評價并輔助商業(yè)分析員在知識庫中保存關注性發(fā)現(xiàn)結果以備將來引用,并保持知識發(fā)現(xiàn)與管理人員的通信。56.2現(xiàn)代挖掘技術及應用

6.2.1規(guī)則型現(xiàn)代挖掘技術及應用

1.關聯(lián)規(guī)則的基本概念布爾關聯(lián)規(guī)則、單維規(guī)則

buys(x,“computer”)=>buys(x,“finacial_management_software”)量化關聯(lián)規(guī)則、多維關聯(lián)

age(“30..40”)∧income(“42000..50000”)=>buys(x,“high_resolution_TV”)多層關聯(lián)規(guī)則

單層關聯(lián)規(guī)則

age(“30..40”)=>buys(x,“IBMcomputer”)(6.3)age(“30..40”)=>buys(x,“computer”)(6.4)關聯(lián)規(guī)則(6.2)可以用下面的SQL查詢語句完成。SelectC,P.item_namefromPurchases,PgroupbyCust.IDhaving(Cust.age>=30.and.Cust.age<=40).and.(Cust.income>=42000andCust.income<=50000)and(p.item_name=’high_resolution_TV’)6

2.關聯(lián)規(guī)則的應用目標置信度或正確率可以定義為:

(6.5)

覆蓋率可以定義為“興趣度”為目標的關聯(lián)規(guī)則7

3.關聯(lián)規(guī)則的算法Apriori算法1.找出所有支持度大于最小支持度的項集,這些項集稱為頻集,包含k個項的頻集稱為k-項集。2.使用第1步找到的頻集產(chǎn)生所期望的規(guī)則。Apriori算法的第1步采用了遞歸方法,算法表示為L1={large1-itemsets};//產(chǎn)生頻繁1項集L1for(k=2;Lk-1≠○;k++)do//循環(huán)產(chǎn)生頻繁2項集L2直到某個r使Lr為空beginCk=apriori-gen(Lk-1);//產(chǎn)生k-項集的候選集foralltransactionst∈DdobeginCt=subset(Ck,t);//事務t中包含的候選集forallcandidatesc∈Ctdoc.count++;endLk={c∈Ck|c.count≥minsup}endAnswer=UkLk8第2步算法較為簡單。如果只考慮規(guī)則的右邊只有一項的情況,給定一個頻集Y=I1,I2,I3,…,Ik,k≥2,Ij∈I,那么只有包含集合{I1,I2,I3,…,Ik}中的項的規(guī)則最多有k條。這種規(guī)則形如I1,I2,I3,…Ii-1,Ii+1…,Ik→Ii,。這些規(guī)則置信度必須大于用戶給定的最小置信度。9數(shù)據(jù)庫DC1L1

事務標識項集項集支持度項集支持度A11,3,4掃描數(shù)據(jù)庫D{1}2{1}2A22,3,5{2}3比較支持度{2}3A31,2,3,5{3}3{3}3A42,5{4}1{5}3{5}3由L1產(chǎn)生C2

C2

L2

項集項集支持度項集支持度{1,2}掃描數(shù)據(jù)庫D{1,2}1{1,2}2{1,3}{1,3}2比較支持度{2,3}2{1,5}{1,5}1{2,5}3{2,3}{2,3}2{3,5}2{2,5}{2,5}3{3,5}{3,5}2項集掃描數(shù)據(jù)庫D項集支持度{2,3,5}{2,3,5}2由L2產(chǎn)生C3L3104.關聯(lián)規(guī)則的應用前件和后件規(guī)則中的正確率和覆蓋率規(guī)劃覆蓋率和正確率的平衡

前件后件正確率覆蓋率百吉餅奶油干酪80%5%百吉餅橙汁40%3%百吉餅咖啡40%2%百吉餅雞蛋25%2%面包牛奶35%30%黃油牛奶65%20%雞蛋牛奶35%15%奶酪牛奶40%8%規(guī)劃覆蓋率正確率低正確率高覆蓋率高規(guī)劃很少是正確的,但可以使用規(guī)劃多數(shù)情況下是正確的,而且可以經(jīng)常使用覆蓋率低規(guī)劃很少是正確的,一般不被使用規(guī)劃多數(shù)情況下是正確的,但很少被使用116.2.2神經(jīng)網(wǎng)絡型現(xiàn)代挖掘技術

1.神經(jīng)網(wǎng)絡及其學習方法神經(jīng)網(wǎng)絡的工作過程主要分兩個階段:學習階段和工作階段。學習方式則有三種:有教師(監(jiān)督)學習、無教師(監(jiān)督)學習和強化學習。

126.2.2神經(jīng)網(wǎng)絡型現(xiàn)代挖掘技術

2.基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘(1)基于自組織神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘技術一種無教師學習過程、可以提取一組數(shù)據(jù)中的重要特征或某種內(nèi)在知識

(2)模糊神經(jīng)網(wǎng)絡類型數(shù)據(jù)挖掘技術模糊BP網(wǎng)絡、模糊Kohonen聚類網(wǎng)絡、模糊推理網(wǎng)絡、模糊ART模型等

模糊BP網(wǎng)絡中,樣本的希望輸出值改為樣本相對各類的希望隸屬度

輸出表達方面實現(xiàn)了模糊化,而且將樣本的隸屬度引入了權系數(shù)的修正規(guī)則中,使權系數(shù)的修正規(guī)則也實現(xiàn)了模糊化。

136.2.2神經(jīng)網(wǎng)絡型現(xiàn)代挖掘技術

3.后向傳播模型(BP,BackPropagation)及其算法具體過程如下:⑴選定p個樣本;⑵權值初始化(隨機生成);⑶依次輸入樣本;⑷依次計算各層的輸出;⑸求各層的反傳誤差;⑹按權值調(diào)整公式修正各權值和閥值;⑺按新權值計算各層的輸出,直到誤差小于事先設定閥值;變換函數(shù)可以采用這樣幾種:⑴階躍函數(shù)、⑵S型函數(shù)、⑶比例函數(shù)、⑷符號函數(shù)、⑸飽和函數(shù)、⑹雙曲函數(shù)

146.2.2神經(jīng)網(wǎng)絡型現(xiàn)代挖掘技術

4.神經(jīng)網(wǎng)絡的應用47歲收入6500元節(jié)點借貸拖欠?連接0.470.650.39Weight=0.7Weight=0.1年齡收入0.47(0.7)+0.65(0.1)=0.39156.2.3遺傳算法型現(xiàn)代挖掘技術

1.遺傳算法的基本原理達爾文的“適者生存”理論、繼承的信息由基因攜帶、多個基因組成了染色體、基因座、等位基因、基因型和表現(xiàn)型染色體對應的是一系列符號序列,通常用0、1的位串表示進行生物的遺傳進化。在這一過程中包括三種演化操作:在父代基因群中的雙親選擇操作、兩個父代雙親產(chǎn)生子代基因的交叉操作和在子代基因群體中的變異操作。兩種數(shù)據(jù)轉(zhuǎn)換:從表現(xiàn)型到基因型的轉(zhuǎn)換,另一種是從基因型到表現(xiàn)型的轉(zhuǎn)換遺傳算法實質(zhì)上是一種繁衍、檢測和評價的迭代算法最大優(yōu)點是問題的最優(yōu)解與初始條件無關,而且搜索最優(yōu)解的能力極強166.2.3遺傳算法型現(xiàn)代挖掘技術

2.遺傳算法的處理過程

(1)編碼并生成祖先群體要用遺傳算法解決問題,首先要定義有待解決的問題:F=f(a,b,c),F∈R,(a,b,c)∈ΩF=f(a,b,c)是屬于實數(shù)域R的一個實數(shù),也是每一組解(ai,bi,ci)∈Ω的適應度的度量,算法的目標是找一個(ao,bo,co),使F=f(ao,bo,co)取最大值。(2)計算當前基因群體中所有個體的環(huán)境適合度(3)用適應函數(shù)評價每一個體對環(huán)境的適應度(4)選擇適應度好的生物個體進行復制(5)選擇適應度好的生物個體進行復制交叉配對繁殖(6)新生代的變異操作176.2.3遺傳算法型現(xiàn)代挖掘技術

編碼并生成祖先群體計算當前基因群體中所有個體的適合度是否滿足最優(yōu)解條件?選擇群體中適應值高的個體進行復制交叉操作變異操作終止186.2.3遺傳算法型現(xiàn)代挖掘技術

3.遺傳算法的應用用四個染色體來定義客戶類型:基因1:客戶的年齡下限基因2:客戶的年齡上限基因3:客戶的收入水平基因4:客戶的人口狀況(人口狀況可以分成:少(1至2人)、一般(3至4人)和多(5人以上)三種狀況)客戶ID年齡累計購買金額收入家庭人口性別10985461843中等4女18595490中等2男47382613628低5男749123618463高6女95623298463高3男8552632274中等2男58753521846低2女64957480中等3女769572721634高5男6583945842低1女196.2.3遺傳算法型現(xiàn)代挖掘技術

所有的生物個體按順序排放在一張二維表格上,使每個生物體的上、下、左、右都與其它生物體相鄰接。(1)競爭復制(2)雜交繁殖(3)異變處理

年齡下限年齡上限高收入中等收入低收入人口少人口一般人口多客戶群13864是是否否是是客戶群22650是否是是否是客戶群32040否是是是否否206.2.4粗糙集型現(xiàn)代挖掘技術1.粗糙集技術2.粗糙集的應用表中的970230、980304、990211客戶的“贊揚競爭對手的產(chǎn)品”屬性是相似的;980304、990327客戶的“挑選產(chǎn)品時間很長”和“客戶流失”屬性是相似的;970230、990211客戶的“贊揚競爭對手的產(chǎn)品”、“挑選產(chǎn)品時間很長”和“距最后一次銷售時間”屬性是相似的;這樣,圍繞“贊揚競爭對手的產(chǎn)品”屬性就可以產(chǎn)生兩個初等集合:{970230、980304、990211}和{970102、980625、990327};而“贊揚競爭對手的產(chǎn)品”和“挑選產(chǎn)品時間很長”屬性可以生成三個初等集合:{970102、980625、990327}、{970230、990211}和{980304}。客戶編號贊揚競爭對手產(chǎn)品否挑選產(chǎn)品時間很長距最后一次銷售時間客戶流失否970102否是長是970230是否長是980304是是很長是980625否是正常否990211是否長否990327否是很長是216.2.4粗糙集型現(xiàn)代挖掘技術因為客戶970230已經(jīng)流失,而客戶990211沒有流失,由于屬性“贊揚競爭對手的產(chǎn)品”、“

挑選產(chǎn)品時間很長”和“距最后一次銷售時間”是相似的。因此,客戶流失不能以屬性“贊揚競爭對手的產(chǎn)品”、“

挑選產(chǎn)品時間很長”和“距最后一次銷售時間”作為特征進行描述。而970230、990211就是邊界實例,即它們不能根據(jù)有效知識進行適當?shù)姆诸?。余下的客?70102、980304和990327所顯示的特征,可以將他們確定為已經(jīng)流失的客戶。當然,也不能排除970230和990211已經(jīng)流失,而980625毫無疑問沒有流失。所以客戶集合中“流失”的下近似集合是{970102、980304、990327},上近似集合是{970102、970230、980304、990211、990327}。同樣,980625沒有流失,但是不能排除970230和990211流失。因此,客戶“沒有流失”概念的下近似是{980625},上近似是{970230、980625、990211}。226.2.5決策樹型現(xiàn)代挖掘技術1.決策樹技術ID3,該算法建立在推理系統(tǒng)和概念學習系統(tǒng)的基礎之上,基本步驟是。(1)創(chuàng)建一個節(jié)點。如果樣本都在同一類,則算法停止,把該節(jié)點改成樹葉節(jié)點,并用該類標記。(2)否則,選擇一個能夠最好的將訓練集分類的屬性,該屬性作為該節(jié)點的測試屬性。(3)對測試屬性中的每一個值,創(chuàng)建相應的一個分支,并據(jù)此劃分樣本。(4)使用同樣的過程自頂向下的遞歸,直到滿足下面的三個條件中的一個時,就停止遞歸。(a)給定節(jié)點的所有樣本都屬于同一類。(b)沒有剩余的屬性可以用來進一步劃分。(c)繼續(xù)劃分得到的改進不明顯。236.2.5決策樹型現(xiàn)代挖掘技術1.決策樹技術信息增益被定義為原始分割的熵與劃分以后各分割的熵累加得到的總熵之間的差。信息增益是指劃分前后進行正確預測所需的信息量之差。選擇具有最高信息增益的屬性作為當前節(jié)點的測試屬性。一個給定的樣本分類所需要的期望信息為由A劃分成子集的熵或期望信息是246.2.5決策樹型現(xiàn)代挖掘技術1.決策樹技術為第j個子集的權,等于子集(A值為aj)中的樣本數(shù)除以S中的樣本數(shù)。對于給定的子集Sj,

I(s1j,s2j,…,smj)可用下式計算是Sj中的樣本屬于類Ci的概率由A劃分的信息增益是Gain(A)=I(s1,s2,…,sm)-E(A)

256.2.5決策樹型現(xiàn)代挖掘技術2.決策樹的應用年齡學生信譽等級會購買不會購買會購買會購買不會購買≤3031~40``>40否是一般良好266.2.5決策樹型現(xiàn)代挖掘技術編號年齡學生信譽等級類別標號1<=30是良好會購買2<=30是一般會購買3>40否一般會購買4>40否良好不會購買5>40否一般會購買631~40是一般會購買7<=30否良好不會購買8>40是一般會購買9<=30否良好不會購買10>40否良好不會購買11<=30否一般不會購買1231~40是一般會購買1331~40否一般會購買1431~40是良好會購買276.2.5決策樹型現(xiàn)代挖掘技術“年齡”在各個屬性中具有最大的信息增益,所以選擇“年齡”屬性作為第一個測試屬性,創(chuàng)建一個節(jié)點,用“年齡”標記。計算剩余各個屬性的相應的信息增益,選擇信息增益最大的屬性作為測試屬性,這時信息增益最大的是“學生”屬性,創(chuàng)建一個節(jié)點,用“學生”標記。286.3知識發(fā)現(xiàn)工具與應用6.3.1知識挖掘工具的系統(tǒng)結構1.無耦合(nocoupling)DM系統(tǒng)不利用DB或DW系統(tǒng)的任何功能2.松散耦合(loosecoupling)DM系統(tǒng)將使用DB/DW的某些工具3.半緊密耦合(semitightcoupling)DM系統(tǒng)連接到一個DB/DW系統(tǒng),一些基本數(shù)據(jù)挖掘原語可以在DB/DW系統(tǒng)中實現(xiàn)。4.緊密耦合(tightcoupling)DM系統(tǒng)被平滑地集成到DB/DW系統(tǒng)中

296.3知識發(fā)現(xiàn)工具與應用6.3.2知識挖掘工具運用中的問題1.數(shù)據(jù)挖掘技術應用中的共性問題(1)數(shù)據(jù)質(zhì)量(2)數(shù)據(jù)可視化(3)極大數(shù)據(jù)庫(vLDB)的問題(4)性能和成本(5)商業(yè)分折員的技能(6)處理噪聲和不完全數(shù)據(jù)(7)模式評估——興趣度問題306.3知識發(fā)現(xiàn)工具與應用6.3.2知識挖掘工具運用中的問題2.數(shù)據(jù)挖掘技術應用中的個性問題(1)規(guī)則歸納應用中的問題主要用于顯式描述數(shù)據(jù)抽取的規(guī)則、找到所有的規(guī)則,工作量是巨大的(2)神經(jīng)網(wǎng)絡應用中的問題受訓練過度的影響、神經(jīng)網(wǎng)絡的訓練速度問題(3)遺傳算法應用中的問題316.3知識發(fā)現(xiàn)工具與應用6.3.3知識挖掘的價值1.了解商業(yè)活動2.發(fā)現(xiàn)商業(yè)異常3.預測模型6.3.4現(xiàn)代數(shù)據(jù)挖掘工具簡介1.DBMiner的體系結構2.DBMiner的數(shù)據(jù)挖掘類型326.4數(shù)據(jù)挖掘技術的發(fā)展6.4.1文本挖掘1.文本分析和語義網(wǎng)絡⑴文本分析①為一個大型文本集合提供內(nèi)容概況例如,可以發(fā)現(xiàn)一個客戶反饋集合中文檔的顯著簇,這樣可能會發(fā)現(xiàn)公司的產(chǎn)品或服務在哪里需要改進。②指出對象間的隱藏結構在組織一個企業(yè)內(nèi)部網(wǎng)站時,文本分析可以找出對象間的隱藏結構,這樣有關聯(lián)的文檔就能被超鏈接連接起來。③提高發(fā)現(xiàn)相似或相關信息搜索過程的效率和有效性例如,可以從一個新聞服務機構搜索文章和發(fā)現(xiàn)獨有的文檔,這些文檔含有到現(xiàn)在為止在別的文章中沒有提到過的新趨勢或技術的線索。④偵察存檔中的重復文檔文本分析可以用于大量文本需要分析的地方。雖然自動處理不能達到人類閱讀分析的深度,但它可以被用來抽取關鍵點、產(chǎn)生總結、分類文檔等。336.4數(shù)據(jù)挖掘技術的發(fā)展⑵語義網(wǎng)絡一個有效文本分析的第一步是創(chuàng)建該文本的一個語義網(wǎng)絡。一個語義網(wǎng)絡是一系列來自分析的文本的最重要概念(詞與詞的組合)以及文本中這些概念間的語義聯(lián)系。一個語義網(wǎng)絡為分析的文本提供了一個簡明和非常準確的總結。與人工神經(jīng)網(wǎng)絡一樣,語義網(wǎng)絡的每個元素——概念都被它的權重和一組與此網(wǎng)絡其他元素的聯(lián)系所標識——一個上下文結點。一旦為調(diào)查研究的文本構造的一組準確的語義網(wǎng)絡建立起來,所有文本分析任務就可以執(zhí)行。在現(xiàn)有的大部分算法中,一個語義網(wǎng)絡是在一些已定義的規(guī)則和概念的基礎上建立起來的。不過,也存在一些比較強大的算法,這些算法不需要任何關于主題的預先背景知識,可以僅僅在一個調(diào)查研究文本的基礎上完全自動建立起一個語義網(wǎng)絡。346.4數(shù)據(jù)挖掘技術的發(fā)展2.文本挖掘⑴文本總結從文檔中抽取關鍵信息,用簡潔的形式對文檔內(nèi)容進行摘要或解釋。用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體內(nèi)容。⑵基于關鍵字的關聯(lián)分析首先收集經(jīng)常一起出現(xiàn)的關鍵字或詞匯,然后找出其關聯(lián)或相互關系。在這類分析中,每一個文檔被視為一個事務,文檔中的關鍵字組可視為事務中的一組事務項。這樣,這種基于關鍵字的關聯(lián)分析就變成事務數(shù)據(jù)庫中事務項的關聯(lián)挖掘問題。一組經(jīng)常連續(xù)出現(xiàn)或緊密相關的關鍵字可形成一個詞或詞組。關聯(lián)分析有助于找出復合關聯(lián),即領域相關的詞或詞組,如[中國,長江,三峽]。還有助于找出非復合關聯(lián),即領域不相關的詞或詞組,如[人民幣,交易,總額,證券,傭金,參股]?;谶@些詞或詞組關聯(lián)的挖掘被稱為“詞級關聯(lián)挖掘”。利用這種詞和詞組的識別,詞級挖掘可以用于找出詞或關鍵字之間的關聯(lián)。356.4數(shù)據(jù)挖掘技術的發(fā)展2.文本挖掘⑶文檔分類分析在已有的數(shù)據(jù)基礎上學會一個分類函數(shù)或構造出一個分類模型。對文檔進行分類。文檔的分類分析,一般是先把一組預先分類過的文檔作為訓練集,然后對訓練集加以分析以便得出分類模式。這種分類模式一般要經(jīng)過一定的測試過程,不斷細化。最后用分類模式對其他文檔加以分類。常用的一種對文檔分類的有效方法是基于關聯(lián)的分類。這種分類方法是基于一組相關聯(lián)的、經(jīng)常出現(xiàn)的文本模式對文檔加以分類。其處理過程為:首先,通過簡單的信息檢索技術或關聯(lián)分析技術提出關鍵字或詞匯。然后,使用已有的詞類,或基于專家知識,或用關鍵字分類系統(tǒng),生成關鍵字和詞的概念層次。最后,使用詞級關聯(lián)挖掘方法發(fā)現(xiàn)一組關聯(lián)詞。這樣,每一類文檔相關有一組關聯(lián)規(guī)則表示。這些分類規(guī)則可以基于其出現(xiàn)頻率和識別能力,加以排序,并用于對新的文檔進行分類。366.4數(shù)據(jù)挖掘技術的發(fā)展⑷文檔聚類分析文檔聚類是把文檔集分成不同組的自動過程。沒有預先定義好主題類別,它的目標是將文檔集合分成若干個組,要求同一組內(nèi)文檔內(nèi)容的相似度盡可能大,而不同組間的相似度盡可能小。當文檔的內(nèi)容作為聚類的基礎時,不同組是對應于集合中討論的不同主題或論題。因此,聚類是找出集合所含內(nèi)容的一條途徑。為幫助識別出一組主題,聚類工具可以識別出在此組文檔中頻繁出現(xiàn)的術語或詞的列表。聚類也能根據(jù)文檔的屬性集實施,例如它們的長度、日期等進行聚類。376.4數(shù)據(jù)挖掘技術的發(fā)展⑸文本挖掘的應用利用文本挖掘構造的電子郵件路由,可以對電子郵件進行文本挖掘以后,確定由哪一個部門、哪一個人來處理這些電子郵件,并可以根據(jù)電子郵件的內(nèi)容進行相關統(tǒng)計。文本挖掘可以幫助組織對成千上萬的文檔實現(xiàn)有效的管理,可以使組織很快地了解到所需要查找的文檔所在位置,以及其包含的主要內(nèi)容。可以利用文本挖掘建立一個客戶自動問答系統(tǒng),對客戶所郵寄的信件、電子郵件進行文本挖掘以后,根據(jù)其反映的主要問題,能夠確定客戶的需求置信度后,就可以自動給客戶發(fā)送合適的回信。企業(yè)并且還可以利用聯(lián)機文本挖掘系統(tǒng)對因特網(wǎng)上所出現(xiàn)的特定詞、概念、主題進行挖掘統(tǒng)計,對市場進行客觀的統(tǒng)計分析。企業(yè)甚至可以利用一些具有文本挖掘功能的自動智能網(wǎng)絡爬蟲來收集與企業(yè)有關的市場、競爭對手和市場環(huán)境的信息,給出總結性的分析報告。386.4數(shù)據(jù)挖掘技術的發(fā)展6.4.2Web挖掘技術Web的特點Web的龐大性、Web的動態(tài)性、Web的異構性、非結構化的數(shù)據(jù)結構、用戶群體多種多樣2.Web內(nèi)容挖掘⑴基于文本信息的挖掘和通常的平面文本挖掘比較類似。Web文檔多為HTML、XML等語言,因此可以利用Web文檔中的標記,如<Title>、<Heading>等額外信息,利用這些信息來提高Web文本挖掘的性能。在對Web文檔進行分類分析中,可以基于一組預先分類好的文檔,從預定義好分類目錄中為每一文檔賦予一個類標簽。例如,Yahoo!的文檔和其相關文檔可以作為訓練集,用于導出Web文檔的分類模式,這一模式可以用于對新的Web文檔加以分類。由于超鏈接包含了有關頁面內(nèi)容的高質(zhì)量信息,因此,可以利用這些信息對Web文檔進行分類。這種分類比基于關鍵字的分類方法要更準確、更完美。396.4數(shù)據(jù)挖掘技術的發(fā)展⑵基于多媒體信息的挖掘基于音頻的挖掘、基于圖片的靜態(tài)圖像的挖掘和基于視頻的動態(tài)圖像挖掘。3.Web結構挖掘從WWW的組織結構和鏈接關系中推導知識有助于用戶找到相關主題的權威站點,并且可以指向眾多權威站點的相關主題站點。從一個頁面指向另一個頁面的超鏈接。超鏈接包含了大量人類潛在的語義,它有助于自動分析出權威性語義。當一個Web頁面的作者建立起指向另一頁面的指針時,這就可以看作是作者對另一頁面的注解,也就是對另一頁面的認可。把一個頁面的來自與不同作者的注解收集起來,就可以用來反映頁面的重要性。Hub頁面是指一個或多個Web頁面,它提供了指向權威頁面的鏈接集合。對于一個Hub頁面來說,它本身可能并不突出,但是,它卻提供了指向某個話題的權威頁面的鏈接。好的Hub是指向許多好的權威頁面;好的權威頁面是指有好的Hub頁面指向的頁面。用Hub頁面和權威頁面之間的這種相互作用來用于權威頁面的挖掘和高質(zhì)量Web結構和資源的自動發(fā)現(xiàn)。406.4數(shù)據(jù)挖掘技術的發(fā)展4.Web使用記錄的挖掘通過挖掘Web日志文件和相關數(shù)據(jù),發(fā)現(xiàn)用戶訪問Web頁面的模式。Internet的用戶一旦連接到一個在線的服務器上,就在服務器上的日志文件留下了所請求的URL,發(fā)出請求的IP地址和時間戳。這些日志紀錄提供了Web數(shù)據(jù)挖掘源,可提取有關用戶的知識:用戶的訪問行為、頻度、內(nèi)容,得到關于用戶的行為和方式模式。改進站點的結構,或為用戶提供個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論