第11章其他挖掘方法_第1頁
第11章其他挖掘方法_第2頁
第11章其他挖掘方法_第3頁
第11章其他挖掘方法_第4頁
第11章其他挖掘方法_第5頁
已閱讀5頁,還剩69頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第11章其他挖掘方法

數(shù)據(jù)挖掘的研究范圍十分廣泛,除了前面幾章介紹的基本數(shù)據(jù)挖掘方法外,數(shù)據(jù)挖掘方法應(yīng)用到不同的領(lǐng)域形成了與相關(guān)領(lǐng)域相結(jié)合的各種數(shù)據(jù)挖掘技術(shù)。本章主要介紹文本挖掘、Web挖掘和空間數(shù)據(jù)挖掘方法。11.1文本挖掘技術(shù)11.1.1文本挖掘概述1.什么是文本挖掘文本挖掘處理的是非結(jié)構(gòu)化的文本信息,文本挖掘的主要任務(wù)是分析文本的內(nèi)容特征,發(fā)現(xiàn)文本中概念、文本之間的相互作用,為用戶提供相關(guān)知識(shí)和信息。2.文本挖掘過程3.文本挖掘和數(shù)據(jù)挖掘的區(qū)別區(qū)別項(xiàng)數(shù)據(jù)挖掘文本挖掘研究對(duì)象用數(shù)字表示的、結(jié)構(gòu)化的數(shù)據(jù)無結(jié)構(gòu)或者半結(jié)構(gòu)化的文本對(duì)象結(jié)構(gòu)關(guān)系數(shù)據(jù)庫自由開放的文本目標(biāo)獲取知識(shí),預(yù)測以后的狀態(tài)提取概念和知識(shí)方法關(guān)聯(lián)分析、k-最近鄰、決策樹、貝葉斯分類、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、粗糙集、聚類算法等提取短語、形成概念、關(guān)聯(lián)分析、文本分類、文本聚類等11.1.2數(shù)據(jù)預(yù)處理技術(shù)1.分詞技術(shù)(1)基于詞庫的分詞方法基于詞庫的分詞方法是按照一定的策略,將文本中的一部分可能被切成一個(gè)詞的小段與一個(gè)詞典(詞庫)里面的詞進(jìn)行比較,若存在,則劃分為一個(gè)詞。根據(jù)采用的策略不同又分為正向最大匹配和逆向最大匹配等。例如,一個(gè)句子為S=“我們是學(xué)生”,長度n=5。正向最大匹配S1=“我們是學(xué)”S1=“我們是”S1=“我們”,找到了S2=“是學(xué)生”,S2=“是學(xué)”S2=“是”,找到了S3=“學(xué)生”,找到了所以S的分詞結(jié)果是“我們/是/學(xué)生”。例如,一個(gè)句子為S=“我們是學(xué)生”,長度n=5。反向最大匹配S1=“我們是學(xué)生”S1=“們是學(xué)生”S1=“是學(xué)生”S1=“學(xué)生”,找到了S2=“我們是”S2=“們是”S2=“是”,找到了S3=“學(xué)生”,找到了所以S的分詞結(jié)果同樣是“我們/是/學(xué)生”。(2)基于無詞典的分詞方法這種方法是基于詞頻的統(tǒng)計(jì),將原文中任意前后緊鄰的兩個(gè)字作為一個(gè)詞進(jìn)行出現(xiàn)頻率的統(tǒng)計(jì),出現(xiàn)的次數(shù)越高,成為一個(gè)詞的可能性也就越大,在頻率超過某個(gè)預(yù)先設(shè)定的閾值時(shí),就將其作為一個(gè)詞進(jìn)行索引。2.特征表示文本特征指的是關(guān)于文本的元數(shù)據(jù),分為描述性特征(如文本的名稱、日期、大小、類型等)和語義性特征(如文本的作者、機(jī)構(gòu)、標(biāo)題、內(nèi)容等)。特征表示是指以一定特征項(xiàng)(如詞或描述)來代表文檔,在文本挖掘時(shí)只需對(duì)這些特征項(xiàng)進(jìn)行處理,從而實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化的文本處理。這是一個(gè)非結(jié)構(gòu)化向結(jié)構(gòu)化轉(zhuǎn)換的處理步驟。特征表示模型中常用的是向量空間模型(VectorSpaceModel,VSM)。在向量空間模型中,一個(gè)文本集由若干文本組成,每個(gè)文本被表示為在一個(gè)高維詞空間中的一個(gè)特征向量:

di=(ti,1:wi,1,ti,2:wi,2,…,ti,m:wi,m)其中di為文本,ti,j表示第i個(gè)文本di中的第j個(gè)詞,wi,j表示詞ti,j在文本di中的權(quán)重。詞的權(quán)重一般采用wi,j=tf×idf方法來計(jì)算得到。

定義11.1詞頻tf(TermFrequency)是指一個(gè)詞在一個(gè)文本中出現(xiàn)的頻數(shù),其定義為:其中,是詞ti,j在文本di中出現(xiàn)的次數(shù),Ni是文本di中所有詞出現(xiàn)的總數(shù)。顯然,一個(gè)詞的tf值越大,則對(duì)文本的貢獻(xiàn)度越大。

定義11.2逆文本頻度idf(InverseDocumentFrequency)表示一個(gè)詞在整個(gè)文本集中的分布情況,其定義為其中,N是文本集中包含的文本總數(shù),是包含詞ti,j的文本個(gè)數(shù)。

tf×idf是一種常用的詞權(quán)重計(jì)算方法,有多種形式。如果一個(gè)詞或短語在一篇文章中出現(xiàn)的詞頻tf高,并且在其他文章中很少出現(xiàn),則認(rèn)為該詞或短語具有律好的類別區(qū)分能力,適合用來分類。

tf×idf結(jié)合了兩者,從詞出現(xiàn)在文本中的頻率和在文本集中的分布情況兩方面來衡量詞的重要性。3.特征提取特征提取算法一般是構(gòu)造一個(gè)評(píng)價(jià)函數(shù),對(duì)每個(gè)特征進(jìn)行評(píng)估,然后把特征按分值高低排隊(duì),預(yù)定數(shù)目分?jǐn)?shù)最高的特征被選取。在文本處理中,常用的評(píng)估函數(shù)有信息增益、期望交叉熵(ExpectedCrossEntropy)、互信息(MutualInformation)、文本證據(jù)權(quán)(TheWeightofEvidenceforText)和詞頻等。11.1.3文本結(jié)構(gòu)分析文本結(jié)構(gòu)分析的目的是為了更好地理解文本的主題思想,了解文本所表達(dá)的內(nèi)容以及采用的方式。最終結(jié)果是建立文本的邏輯結(jié)構(gòu),即文本結(jié)構(gòu)樹。如圖11.2所示是文章的形式結(jié)構(gòu)圖,根結(jié)點(diǎn)是文章層,依次為節(jié)層、段落層、句子層和詞層。11.1.4文本分類

樸素貝葉斯分類算法

類中心最近距離分類算法

k-最近鄰分類算法

決策樹分類算法

神經(jīng)網(wǎng)絡(luò)分類性能評(píng)估查全率是衡量所有實(shí)際屬于某個(gè)類別的文本被劃分到該類別中的比率。查全率越高表明分類器在該類上可能漏掉的分類越少,它體現(xiàn)了分類的完備性“查準(zhǔn)率是衡量所有被劃分到該類別的文本中正確文本的比率。查準(zhǔn)率越高表明在該類別上出錯(cuò)的概率越小,它體現(xiàn)了分類的準(zhǔn)確程度:11.1.5文本聚類

基于劃分的方法

基于層次的方法

基于密度的方法

基于網(wǎng)格的方法

基于模型的方法11.1.5文本自動(dòng)摘要1.單文檔自動(dòng)摘要2.多文檔自動(dòng)摘要文本摘要是指從文檔中抽取關(guān)鍵信息,用簡潔的形式對(duì)文檔內(nèi)容進(jìn)行解釋和概括。這樣,用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體內(nèi)容。11.1.6文本關(guān)聯(lián)分析采用基于關(guān)鍵字的關(guān)聯(lián)分析是從文本集中收集詞或者關(guān)鍵字的集合,將問題轉(zhuǎn)化為事務(wù)數(shù)據(jù)庫中事務(wù)項(xiàng)的關(guān)聯(lián)挖掘。其基本過程是,調(diào)用關(guān)聯(lián)挖掘算法發(fā)現(xiàn)頻繁共現(xiàn)的詞或關(guān)鍵字,即頻繁項(xiàng)集,然后根據(jù)頻繁項(xiàng)集生成詞或關(guān)鍵字的關(guān)聯(lián)規(guī)則。例如,產(chǎn)生這樣的關(guān)聯(lián)規(guī)則:{數(shù)據(jù)挖掘,密度}→{DBSCAN,OPTICS}(支持度=30%,置信度=50%)11.2Web挖掘11.2.1Web挖掘概述1.什么是Web挖掘Web挖掘是指從大量的Web文檔集合中發(fā)現(xiàn)蘊(yùn)涵的、未知的、有潛在應(yīng)用價(jià)值的、非平凡的模式。它所處理的對(duì)象包括靜態(tài)網(wǎng)頁、Web數(shù)據(jù)庫、Web結(jié)構(gòu)、用戶使用記錄等信息。2.Web挖掘與數(shù)據(jù)挖掘的區(qū)別Web挖掘和數(shù)據(jù)挖掘有著不同的含義。Web挖掘的研究對(duì)象是以半結(jié)構(gòu)化和無結(jié)構(gòu)文檔為中心的Web網(wǎng)頁,這些數(shù)據(jù)沒有統(tǒng)一的模式,數(shù)據(jù)的內(nèi)容和表示互相交織,數(shù)據(jù)內(nèi)容基本上沒有語義信息進(jìn)行描述,僅僅依靠HTML語法對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)上的描述,可以說Web網(wǎng)頁的復(fù)雜性遠(yuǎn)比任何傳統(tǒng)的文本文檔大。3.Web挖掘的基本步驟查找資源:從目標(biāo)Web文檔中得到數(shù)據(jù)。信息選擇和預(yù)處理:從取得的Web資源中剔除無用信息和將信息進(jìn)行必要的整理。模式發(fā)現(xiàn):在同一個(gè)站點(diǎn)內(nèi)部或在多個(gè)站點(diǎn)之間自動(dòng)進(jìn)行模式發(fā)現(xiàn)。模式分析:驗(yàn)證、解釋所發(fā)現(xiàn)的的模式。4.Web挖掘的分類5.Web挖掘的主要應(yīng)用(1)Web挖掘在搜索引擎中的應(yīng)用(2)Web挖掘在電子商務(wù)中的應(yīng)用(3)Web挖掘在知識(shí)服務(wù)中的應(yīng)用11.2.2Web結(jié)構(gòu)挖掘Web結(jié)構(gòu)包括不同網(wǎng)頁之間的超鏈接和一個(gè)網(wǎng)頁內(nèi)部的超鏈接,以及文檔URL中的目錄路徑結(jié)構(gòu)等。Web結(jié)構(gòu)挖掘通常用于挖掘Web網(wǎng)頁上的超鏈接結(jié)構(gòu),即Web超鏈接結(jié)構(gòu)分析,從而發(fā)現(xiàn)那些包含于超文本結(jié)構(gòu)之中的信息,幫助自動(dòng)推斷出那些權(quán)威網(wǎng)頁,揭示出蘊(yùn)含于文檔結(jié)構(gòu)中的個(gè)性化信息。Web結(jié)構(gòu)挖掘常見的算法有PageRank和HITS。1.PageRank算法PageRank算法是Web超鏈接結(jié)構(gòu)分析中最成功的代表之一。該算法由Stanford大學(xué)的Brin和Page提出,是評(píng)價(jià)網(wǎng)頁權(quán)威性的一種重要工具。搜索引擎Google就是利用該算法和anchortext標(biāo)記、詞頻統(tǒng)計(jì)等因素相結(jié)合的方法對(duì)檢索出的大量結(jié)果進(jìn)行相關(guān)度排序,將最權(quán)威的網(wǎng)頁盡量排在前面,網(wǎng)頁的權(quán)威性就是通過PageRank值來度量的。PageRank算法的假設(shè)是:若一個(gè)網(wǎng)頁a有到另一個(gè)網(wǎng)頁b的超鏈接,則認(rèn)為此超鏈接是網(wǎng)頁a的作者對(duì)網(wǎng)頁b的推薦,且兩個(gè)網(wǎng)頁的內(nèi)容具有相似的主題。如果大量的網(wǎng)頁推薦同一個(gè)網(wǎng)頁,則后者被認(rèn)為是一個(gè)權(quán)威網(wǎng)頁。所以一個(gè)網(wǎng)頁的入度越大,其權(quán)威就越高。一個(gè)擁有高權(quán)威值的網(wǎng)頁指向的網(wǎng)頁比一個(gè)擁有低權(quán)威值的網(wǎng)頁指向的網(wǎng)頁更加重要。如果一個(gè)網(wǎng)頁被其他重要的網(wǎng)頁所指向,那么該網(wǎng)頁也很重要。

定義11.4PageRank值的具體定義如下:將Web對(duì)應(yīng)成有向圖,令u、v為網(wǎng)頁,記Fu為u所指向的網(wǎng)頁集合(即若v∈Fu,則網(wǎng)頁u含有指向網(wǎng)頁v的鏈接),記Bu為指向網(wǎng)頁u的網(wǎng)頁集合。令Nu=|Fu|,即Nu為網(wǎng)頁u上的鏈接數(shù),則網(wǎng)頁u的PageRank值(u的重要程度)PR(u)可以簡單地定義為:其中,c為常量,是為了使PageRank值規(guī)范化的因子,它的選取不影響PageRank值計(jì)算結(jié)果的相對(duì)大小。該式的含義是:網(wǎng)頁u的PageRank值等于所有指向它的網(wǎng)頁為它傳入的PageRank值。如果網(wǎng)頁u上有Nu個(gè)鏈接,那么它會(huì)把自身的PageRank值PR(u)平均地傳出,即每一個(gè)鏈接傳出PR(u)/Nu。例如:PR(A)=PR(B)+PR(C)+PR(D)

【例11.1】假設(shè)a、b、c是3個(gè)網(wǎng)頁,其鏈接結(jié)構(gòu)如圖11.6所示。在開始計(jì)算之前先要賦給每個(gè)網(wǎng)頁一個(gè)初始PageRank值(初始值的選取不會(huì)影響PageRank值計(jì)算的結(jié)果),假設(shè)為(0,2.5,2.5)。計(jì)算的過程如下。(1)第1次迭代:PR(a)=PR(c)/1=2.5PR(b)=PR(a)/2=0(式中PR(a)=0)PR(c)=PR(a)/2+PR(b)/1=2.5(式中PR(a)=0,PR(b)=2.5)(2)第2次迭代:PR(a)=PR(c)/1=2.5/1=2.5PR(b)=PR(a)/2=2.5/2=1.25PR(c)=PR(a)/2+PR(b)/1=1.25+0=1.25(3)如此迭代下去,直到收斂(通常收斂條件為兩次迭代之間的PageRank值小于某個(gè)閾值)。在上述PageRank值簡單的計(jì)算過程中,若某個(gè)網(wǎng)頁的鏈出數(shù)為零(也稱為孤立網(wǎng)頁),計(jì)算過程就無法進(jìn)行下去。為此修改PageRank值的計(jì)算公式如下:其中,p1、p2、…、pN是N個(gè)被研究的網(wǎng)頁,L(pj)是網(wǎng)頁pj鏈出的數(shù)目。其基本思想是:瀏覽者在一組無限周期性循環(huán)鏈接中瀏覽某個(gè)網(wǎng)頁時(shí),一段時(shí)間后會(huì)感覺到厭倦,然后隨機(jī)地跳轉(zhuǎn)到任何網(wǎng)頁。用q表示停留在當(dāng)前網(wǎng)頁的概率,1-q表示隨機(jī)地跳轉(zhuǎn)到任何網(wǎng)頁的概率,q也稱為阻尼系數(shù)。當(dāng)瀏覽到一個(gè)孤立網(wǎng)頁時(shí),可以理解為可以隨機(jī)地跳轉(zhuǎn)到任何網(wǎng)頁,所以可用鏈出數(shù)為N。q一般取值為0.85。E(pi)為網(wǎng)頁pi的原始rank值,給不同的網(wǎng)頁賦予不同的值可以使搜索結(jié)果不同,可以用于提供個(gè)性化的搜索,一般地,置每個(gè)網(wǎng)頁的值為1,即:N個(gè)網(wǎng)頁的PageRank值是一個(gè)特殊矩陣中的特征向量,這個(gè)特征向量為:R是如下等式的一個(gè)解:如果網(wǎng)頁pi有指向網(wǎng)頁pj的一個(gè)鏈接,則l(pi,pj)=1;否則l(pi,pj)=0??梢允褂脙绶ㄇ蠼釶ageRank值,即轉(zhuǎn)換為求解的值,其中矩陣為A=q×P+(1-q)×E/N,P為概率轉(zhuǎn)移矩陣。冪法計(jì)算PageRank值的算法如下:輸入:矩陣A,閾值ε輸出:PageRank矩陣R(表示N個(gè)網(wǎng)頁的PageRank值)方法:其過程描述如下:X為任意一個(gè)初始向量,用以設(shè)置每個(gè)網(wǎng)頁的初始PageRank值,一般均為1;R=AX;while(true) //迭代{if(|X-R|<ε) //如果最后兩次的結(jié)果近似或者相同,返回R returnR;else{ X=R;

R=AX;}}

【例11.2】假設(shè)網(wǎng)頁鏈接結(jié)構(gòu)圖如圖11.6所示的,即N=3。設(shè)閾值ε的各元素值為0.01,采用PageRank算法求各網(wǎng)頁P(yáng)ageRank值的過程如下。(1)求A矩陣①求網(wǎng)頁鏈接矩陣、概率矩陣和概率轉(zhuǎn)移矩陣由圖11.6直接得到網(wǎng)頁鏈接矩陣P。圖中網(wǎng)頁a鏈向網(wǎng)頁b和c,所以一個(gè)用戶從網(wǎng)頁a跳轉(zhuǎn)到網(wǎng)頁b或c的概率各為1/2。因此由P根據(jù)每個(gè)網(wǎng)頁的鏈出數(shù)求出概率矩陣P'。再將P'轉(zhuǎn)置,得到相應(yīng)的概率轉(zhuǎn)移矩陣P'T,如圖11.8所示。②求E/N。求E/N的結(jié)果如下:③求A矩陣A=q×P+(1-q)×E/N=0.85×P+0.15×E/N,其結(jié)果如下:初始每個(gè)網(wǎng)頁的PageRank值均為1,即(2)循環(huán)迭代計(jì)算PageRank值。①第1次迭代②因?yàn)閄與R的差別較大,第2次迭代?!艿?次迭代。此時(shí)收斂條件成立(兩次迭代之間的PageRank值小于等于0.01),所以最終結(jié)果為(1.16,0.64,1.20),這樣c網(wǎng)頁最權(quán)威。PageRank算法的優(yōu)點(diǎn)是:它是一個(gè)與查詢無關(guān)的靜態(tài)算法,所有網(wǎng)頁的PageRank值通過離線計(jì)算獲得;有效減少在線查詢時(shí)的計(jì)算量,極大降低了查詢響應(yīng)時(shí)間。其缺點(diǎn)是:人們的查詢具有主題特征,PageRank忽略了主題相關(guān)性,導(dǎo)致結(jié)果的相關(guān)性和主題性降低,例如,許多鏈接只是為導(dǎo)航和廣告,PageRank可能錯(cuò)誤地計(jì)算其重要性;另外,這樣計(jì)算的結(jié)果是舊網(wǎng)頁等級(jí)總會(huì)比新網(wǎng)頁高,因?yàn)榧词故欠浅:玫男戮W(wǎng)頁也不會(huì)有很多上游鏈接,除非它是某個(gè)站點(diǎn)的子站點(diǎn)。2.HITS算法HITS(Hyperlink-InducedTopicSearch)是1998年由Kleinberg提出的,它是基于鏈接的主題提取算法。所依賴的是超鏈接環(huán)境下鏈接結(jié)構(gòu)的分析。在PageRank算法中,向外鏈接的權(quán)值是平均的,沒有考慮不同鏈接的不同重要性。事實(shí)上,不同鏈接的重要程度是有很大差異的。

定義11.5中心網(wǎng)頁(hub)是指一個(gè)指向權(quán)威網(wǎng)頁的超鏈接集合的Web網(wǎng)頁。也就是說,中心網(wǎng)頁是指那些本身的內(nèi)容雖然未必具有權(quán)威性,但卻包含了多個(gè)指向權(quán)威網(wǎng)頁的超鏈接的網(wǎng)頁。

定義11.6權(quán)威網(wǎng)頁(authority)是指一個(gè)被多個(gè)hub頁指向的權(quán)威的Web網(wǎng)頁。也就是說,權(quán)威網(wǎng)頁指那些與查詢主題的上下文最為相關(guān)并且具有權(quán)威性的網(wǎng)頁,是人們對(duì)于主題查詢最關(guān)心的網(wǎng)頁。HITS算法描述了權(quán)威網(wǎng)頁和中心網(wǎng)頁之間的一種依賴關(guān)系:一個(gè)好的中心網(wǎng)頁應(yīng)該指向很多好的權(quán)威性網(wǎng)頁,而一個(gè)好的權(quán)威性網(wǎng)頁應(yīng)該被很多好的中心性網(wǎng)頁所指向。HITS算法為每個(gè)網(wǎng)頁pi分配兩個(gè)度量值:中心度hi和權(quán)威度ai。設(shè)向量a=(a1,a2,…,aN)代表所有基礎(chǔ)集合中網(wǎng)頁的權(quán)威度,而向量h=(h1,h2,…,hN)代表所有的中心度。最初,將這兩個(gè)向量均置為(1,1,…,1)T。對(duì)于任何一個(gè)網(wǎng)頁pi,其權(quán)威值ai通過指向它的所有網(wǎng)頁的中心度求和得到,其中心度hi可以通過它所指向的網(wǎng)頁的權(quán)威值求和得到。為此定義兩個(gè)操作:操作In(a)使向量a=ATh操作Out(h)使向量h=Aa。例如,如圖11.8所示,有3個(gè)網(wǎng)頁p1、p2和p3鏈入到p4網(wǎng)頁,則In(a4)=h1+h2+h3;網(wǎng)頁p4鏈出到p1、p2、p3網(wǎng)頁,則Out(h4)=a1+a2+a3。反復(fù)迭代上述兩個(gè)操作,每次迭代后對(duì)向量a和h規(guī)范化,以保證其數(shù)值不會(huì)使計(jì)算溢出。例如:HITS算法如下:輸入:矩陣A,自然數(shù)k輸出:a和h向量(表示N個(gè)網(wǎng)頁的權(quán)威度和中心度)方法:其過程描述如下:z=(1,1,…,1)T

//N個(gè)1初始化向量a和h為z;for(i=1;i<=k;i++){計(jì)算a=ATh; //執(zhí)行In(a)操作計(jì)算h=Aa; //執(zhí)行Out(h)操作對(duì)向量a和h進(jìn)行規(guī)范化;}將a向量中最大的前c個(gè)值作為權(quán)威網(wǎng)頁輸出,將h向量中最大值作為中心網(wǎng)頁輸出;HITS算法的優(yōu)點(diǎn)是收斂速度快,可以找到一些不包含關(guān)鍵字但與主題高度相關(guān)的網(wǎng)頁,因此可以獲得比較好的查全率,且具有很高的穩(wěn)定性。其缺點(diǎn)是可能出現(xiàn)主題漂移和不合理的相互加強(qiáng)關(guān)系,因?yàn)樵诘^程中權(quán)威網(wǎng)頁和中心網(wǎng)頁交互傳播,兩者之間總是相互加強(qiáng)的。11.2.3Web內(nèi)容挖掘Web內(nèi)容挖掘可以看作是Web信息檢索和信息抽取的結(jié)合。Web內(nèi)容挖掘是指對(duì)Web上大量文檔集合的“內(nèi)容”進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析以及利用Web文檔進(jìn)行趨勢預(yù)測等,是從Web文檔內(nèi)容或其描述中抽取知識(shí)的過程。Web內(nèi)容挖掘可分為Web文本挖掘和Web多媒體挖掘,針對(duì)的對(duì)象分別是Web文本信息和Web多媒體信息。11.2.4Web使用挖掘Web使用挖掘是指從服務(wù)器端記錄的客戶訪問日志或從客戶的瀏覽信息中抽取感興趣的模式。歸納起來,主要包括Web客戶挖掘和Web日志挖掘等。1.Web客戶挖掘①客戶發(fā)現(xiàn)②發(fā)現(xiàn)重要頁面③客戶細(xì)分④客戶保持⑤防范客戶的欺詐行為⑥客戶升級(jí)2.Web日志挖掘通過對(duì)Web日志預(yù)處理后,就可以根據(jù)具體的分析需求選擇訪問模式發(fā)現(xiàn)的技術(shù),常用的挖掘算法如下:統(tǒng)計(jì)分析:是指通過分析服務(wù)器日志文件,獲取不同種類的統(tǒng)計(jì)分析結(jié)果,如用戶在某個(gè)網(wǎng)頁上駐留時(shí)間、用戶瀏覽路徑長度等。許多Web跟蹤分析工具可以定期報(bào)告一些統(tǒng)計(jì)分析結(jié)果,如最頻繁訪問頁,網(wǎng)頁的平均駐留時(shí)間、瀏覽某個(gè)網(wǎng)站的平均路徑長度等。關(guān)聯(lián)分析:用于發(fā)現(xiàn)網(wǎng)頁之間的依賴關(guān)系,如找到這樣的關(guān)聯(lián)規(guī)則:70%訪問羽毛球網(wǎng)頁的人也訪問了乒乓球網(wǎng)頁。通過關(guān)聯(lián)分析可以用來改進(jìn)網(wǎng)站的設(shè)計(jì)結(jié)構(gòu),為用戶推薦相關(guān)網(wǎng)頁。時(shí)序模式發(fā)現(xiàn):主要找出網(wǎng)頁(組)依照時(shí)間順序出現(xiàn)的內(nèi)在模式。例如,9.81%的訪問者在瀏覽了Atlanta主頁后緊接著瀏覽了Sneakpeek的主頁。通過發(fā)現(xiàn)時(shí)序模式,能夠預(yù)測用戶的將來訪問模式,有助于開展有針對(duì)性的廣告服務(wù)等。分類和聚類:分類是指將一個(gè)對(duì)象分到事先定義好的類中,在Web日志挖掘中,分類可用于為一類特定用戶建立用戶檔案,通常使用的監(jiān)督學(xué)習(xí)算法有決策樹、貝葉斯分類器、kNN分類器和支持向量機(jī)等。聚類將具有相似特征的對(duì)象聚在一起形成一個(gè)簇,在Web日志挖掘中,有兩種聚類,即用戶聚類和網(wǎng)頁聚類,前者用于向用戶提供個(gè)性化服務(wù)等,后者可于發(fā)現(xiàn)具有相關(guān)內(nèi)容的網(wǎng)頁組等。導(dǎo)航模式發(fā)現(xiàn):Web服務(wù)器中的每個(gè)會(huì)話記錄了一個(gè)用戶瀏覽網(wǎng)站的“蹤跡”,每條“蹤跡”,是一個(gè)按照用戶訪問時(shí)間排序的網(wǎng)頁序列。導(dǎo)航模式發(fā)現(xiàn)就是尋找在一個(gè)Web網(wǎng)站中被最頻繁訪問的路徑,例如某網(wǎng)站發(fā)現(xiàn)這樣的導(dǎo)航模式:70%訪問/company/product2的用戶是從company開始,然后沿/company/new到達(dá)該網(wǎng)頁的。11.2.5Web挖掘的發(fā)展方向Web數(shù)據(jù)挖掘中內(nèi)在機(jī)理的研究。Web知識(shí)庫(模式庫)的動(dòng)態(tài)維護(hù)、更新,各種知識(shí)和模式的融合、提升,以及知識(shí)的評(píng)價(jià)綜合方法。半結(jié)構(gòu)、非結(jié)構(gòu)化的文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)的高效挖掘算法。Web數(shù)據(jù)挖掘算法在海量數(shù)據(jù)挖掘時(shí)的適應(yīng)性和時(shí)效性。基于Web挖掘的智能搜索引擎的研究。智能站點(diǎn)服務(wù)個(gè)性化和性能最優(yōu)化的研究。關(guān)聯(lián)規(guī)則和序列模式在構(gòu)造自組織站點(diǎn)的研究。分類在電子商務(wù)市場智能提取中的研究。11.3空間數(shù)據(jù)挖掘空間數(shù)據(jù)挖掘與一般數(shù)據(jù)挖掘的區(qū)別在于:空間數(shù)據(jù)挖掘的研究對(duì)象主要是空間數(shù)據(jù)庫,它不僅存儲(chǔ)了空間對(duì)象的屬性數(shù)據(jù)和幾何屬性,而且存儲(chǔ)了空間對(duì)象之間的空間關(guān)系(拓?fù)潢P(guān)系、度量關(guān)系、方位關(guān)系等);因此,其存儲(chǔ)結(jié)構(gòu)、訪問方式、數(shù)據(jù)分析和操作等都有別于常規(guī)的事物處理型數(shù)據(jù)庫模式。11.3.1空間數(shù)據(jù)概述1.空間數(shù)據(jù)的基本類型空間對(duì)象特征主要包含空間特征和屬性特征,所以空間數(shù)據(jù)通常分為空間數(shù)據(jù)和屬性數(shù)據(jù)。2.矢量數(shù)據(jù)模型矢量數(shù)據(jù)利用了幾何圖形例如點(diǎn)、線和面來表現(xiàn)空間對(duì)象。以二維空間為例,點(diǎn)對(duì)象的表示為:[地物編號(hào);(x,y)]。例如,如圖11

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論