




已閱讀5頁(yè),還剩55頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Web 數(shù)據(jù)挖掘,Outline,Web挖掘概述 web數(shù)據(jù)挖掘分類 Web數(shù)據(jù)挖掘中的關(guān)鍵技術(shù) Web數(shù)據(jù)挖掘的應(yīng)用,Why Web Mining ?,隨著Internet/Web技術(shù)的快速普及和迅猛發(fā)展,使各種信息可以以非常低的成本在網(wǎng)絡(luò)上獲得,由于Internet/WWW在全球互連互通,可以從中取得的數(shù)據(jù)量難以計(jì)算,而且Internet/WWW的發(fā)展趨勢(shì)繼續(xù)看好,特別是電子商務(wù)的蓬勃發(fā)展為網(wǎng)絡(luò)應(yīng)用提供了強(qiáng)大支持,如何在WWW這個(gè)全球最大的數(shù)據(jù)集合中發(fā)現(xiàn)有用信息無(wú)疑將成為數(shù)據(jù)挖掘研究的熱點(diǎn)。 隨著Internet的發(fā)展,Web數(shù)據(jù)挖掘有著越來(lái)越廣泛的應(yīng)用,Web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在Web信息集合上的應(yīng)用。,Web挖掘概述,Web上有少量的數(shù)據(jù)信息,相對(duì)于傳統(tǒng)的數(shù)據(jù)庫(kù)的完全結(jié)構(gòu)化的數(shù)據(jù),Web上的數(shù)據(jù)最大特點(diǎn)就是半結(jié)構(gòu)化。 由于Web的開放性、動(dòng)態(tài)性與異構(gòu)性等固有特點(diǎn),要從這些分散的、異構(gòu)的、沒有統(tǒng)一管理的海量數(shù)據(jù)中快速、準(zhǔn)確地獲取信息也成為Web挖掘所要解決的一個(gè)難點(diǎn),也使得用于Web的挖掘技術(shù)不能照搬用于數(shù)據(jù)庫(kù)的挖掘技術(shù)。 因此,開發(fā)新的Web挖掘技術(shù)以及對(duì)Web文檔進(jìn)行預(yù)處理以得到關(guān)于文檔的特征表示,便成為Web挖掘的重點(diǎn)。,典型的Web挖掘的處理流程 1查找資源:任務(wù)是從目標(biāo)Web文檔中得到數(shù)據(jù),值得注意的是有時(shí)信息資源不僅限于在線Web文檔,還包括電子郵件、電子文檔、新聞組,或者網(wǎng)站的日志數(shù)據(jù)甚至是通過Web形成的交易數(shù)據(jù)庫(kù)中的數(shù)據(jù)。 2信息選擇和預(yù)處理:任務(wù)是從取得的Web資源中剔除無(wú)用信息和將信息進(jìn)行必要的整理。例如從Web文檔中自動(dòng)去除廣告連接、去除多余格式標(biāo)記、自動(dòng)識(shí)別段落或者字段并將數(shù)據(jù)組織成規(guī)整的邏輯形式甚至是關(guān)系表。 3模式發(fā)現(xiàn):自動(dòng)進(jìn)行模式發(fā)現(xiàn)??梢栽谕粋€(gè)站點(diǎn)內(nèi)部或在多個(gè)站點(diǎn)之間進(jìn)行。 4模式分析:驗(yàn)證、解釋上一步驟產(chǎn)生的模式??梢允菣C(jī)器自動(dòng)完成,也可以是與分析人員進(jìn)行交互來(lái)完成。,Web挖掘的IR和IE過程,Web挖掘作為一個(gè)完整的技術(shù)體系,在進(jìn)行挖掘之前的信息獲得IR(Information Retrieval)和信息抽取IE(Information Extraction)相當(dāng)重要。 信息獲得(IR)的目的在于找到相關(guān)Web文檔,它只是把文檔中的數(shù)據(jù)看成未經(jīng)排序的詞組的集合,而信息抽取(IE)的目的在于從文檔中找到需要的數(shù)據(jù)項(xiàng)目,它對(duì)文檔的結(jié)構(gòu)合表達(dá)的含義感興趣,它得一個(gè)重要任務(wù)就是對(duì)數(shù)據(jù)進(jìn)行組織整理并適當(dāng)建立索引。 由于Web 數(shù)據(jù)量非常大,而且可能動(dòng)態(tài)變化,用原來(lái)手工方式進(jìn)行信息收集早已經(jīng)力不從心,目前的研究方向是用自動(dòng)化、半自動(dòng)化的方法在Web上進(jìn)行IR和IE。,2 web數(shù)據(jù)挖掘分類,Web 數(shù)據(jù)有三種類型,:HTML 標(biāo)記的Web 文檔數(shù)據(jù)、Web文檔內(nèi)的鏈接的結(jié)構(gòu)數(shù)據(jù)和用戶訪問數(shù)據(jù)。 相應(yīng)地Web 數(shù)據(jù)挖掘可分為三類: 內(nèi)容挖掘(Web content mining)、 結(jié)構(gòu)挖掘(Web structure mining) 和用戶訪問模式挖掘(Web usage mining)。,2.1 Web內(nèi)容挖掘,Web內(nèi)容挖掘是從文檔內(nèi)容或其描述中抽取有用信息的過程。 Web內(nèi)容挖掘的對(duì)象包括文本、圖象、音頻、視頻等多媒體和其他各種類型的數(shù)據(jù)。 其中針對(duì)無(wú)結(jié)構(gòu)化文本進(jìn)行的Web挖掘被歸類到基于文本的知識(shí)發(fā)現(xiàn)領(lǐng)域,也稱文本數(shù)據(jù)挖掘或文本挖掘,是Web挖掘中比較重要的技術(shù)領(lǐng)域,也引起了許多研究者的關(guān)注。 在Web多媒體數(shù)據(jù)挖掘方面的研究成為另一個(gè)熱點(diǎn),即多模態(tài)數(shù)據(jù)挖掘。,2.1.2 實(shí)現(xiàn)方法和策略 Web內(nèi)容挖掘按實(shí)現(xiàn)方法分為兩大類:信息檢索(IR)方法和數(shù)據(jù)庫(kù)方法。且有兩種策略:直接挖掘文檔的內(nèi)容和在其他工具搜索的基礎(chǔ)上進(jìn)行改進(jìn)。 1. 從資源查找(Information Retrival)的觀點(diǎn)挖掘非結(jié)構(gòu)化文檔: 非結(jié)構(gòu)化文檔主要指Web上的自由文本,包括小說(shuō)、新聞等。,大部分研究都是建立在詞匯袋(bag of words)或稱向量表示法(vector representation)的基礎(chǔ)上,這種方法將單個(gè)的詞匯看成文檔集合中的屬性,只從統(tǒng)計(jì)的角度將詞匯孤立地看待,而忽略該詞匯出現(xiàn)的位置和上下文環(huán)境。 屬性可以是布爾型,根據(jù)詞匯是否在文檔中出現(xiàn)而定,也可以有頻度,即該詞匯在文檔中的出現(xiàn)頻率。 這種方法可以擴(kuò)展為選擇終結(jié)符、標(biāo)點(diǎn)符號(hào)、不常用詞匯的屬性作為考察集合。,詞匯袋方法的一個(gè)弊端是自由文本中的數(shù)據(jù)豐富,詞匯量非常大,處理起來(lái)很困難,為解決這個(gè)問題人們做了相應(yīng)的研究,采取了不同技術(shù),如信息增益,交叉熵、差異比等,其目的都是為了減少屬性。,一個(gè)比較有意義的方法是潛在語(yǔ)義索引(Latent Semantic Indexing),它通過分析不同文檔中相同主題的共享詞匯,找到它們共同的根,用這個(gè)公共的根代替所有詞匯,以此來(lái)減少維空間。 例如:“informing”、“information”、“informer”、“informed”可以用他們的根“inform”來(lái)表示,這樣可以減少屬性集合的規(guī)模。 其他的屬性表示法還有詞匯在文檔中的出現(xiàn)位置、層次關(guān)系、使用短語(yǔ)、使用術(shù)語(yǔ)、命名實(shí)體等。,2. 用資源查找(Information Retrival)的觀點(diǎn)挖掘半結(jié)構(gòu)化文檔 與非結(jié)構(gòu)化數(shù)據(jù)相比,Web上的半結(jié)構(gòu)化文檔挖掘指在加入了HTML、超連接等附加結(jié)構(gòu)的信息上進(jìn)行挖掘,其應(yīng)用包括超連接文本的分類、聚類、發(fā)現(xiàn)文檔之間的關(guān)系、提出半結(jié)構(gòu)化文檔中的模式和規(guī)則等。,3從數(shù)據(jù)庫(kù)的觀點(diǎn)挖掘非結(jié)構(gòu)化文檔: 數(shù)據(jù)庫(kù)技術(shù)應(yīng)用于Web挖掘主要是為了解決Web信息的管理和查詢問題。 這些問題可以分為三類:Web信息的建模和查詢;信息抽取與集成;Web站點(diǎn)建構(gòu)和重構(gòu)。 從數(shù)據(jù)庫(kù)的觀點(diǎn)進(jìn)行Web內(nèi)容挖掘主要是試圖建立Web站點(diǎn)的數(shù)據(jù)模型并加以集成,以支持復(fù)雜查詢,而不止是簡(jiǎn)單的基于關(guān)鍵詞的搜索。 這要通過找到Web文檔的模式、建立Web數(shù)據(jù)倉(cāng)庫(kù)或Web知識(shí)庫(kù)或虛擬數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)。,數(shù)據(jù)庫(kù)觀點(diǎn)主要利用OEM(Object Exchange Model)模型將半結(jié)構(gòu)化數(shù)據(jù)表示成標(biāo)識(shí)圖。OEM中的每個(gè)對(duì)象都有對(duì)象標(biāo)識(shí)(OID)和值,值可以是原子類型,如整型、字符串型、gif、html等,也可以是一個(gè)復(fù)合類型,以對(duì)象引用集合的形式表示。 對(duì)于在半結(jié)構(gòu)化數(shù)據(jù)上的查詢語(yǔ)言研究也得到了人們的重視,并做了專題研究。,Web圖像挖掘舉例,特征提取和表示+聚類+分類,算法流程,利用BOW詞袋的方法生成詞典,典型的視覺詞典,主題和詞典,視覺詞典表示的圖例,參考文獻(xiàn),文本挖掘舉例,文本挖掘概述,文本挖掘的基本概念 文本特征的表示 文本特征的提取,1 文本挖掘的基本概念,文本挖掘一詞出現(xiàn)于1998年第十屆歐洲機(jī)器學(xué)習(xí)會(huì)議上。 Kodratoff認(rèn)為文本挖掘的目的是從文本集合中,試圖在一定的理解水平上盡可能多地提取知識(shí)。,1. 概念,文本挖掘是一個(gè)從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識(shí)的過程。 文本數(shù)據(jù)包括:技術(shù)報(bào)告、文本集、新聞、電子郵件、網(wǎng)頁(yè)、用戶手冊(cè)等。,2.主要任務(wù),(1)短語(yǔ)提取 提取文本集中所有相關(guān)的短語(yǔ) 。 (2)概念提取(聚類) 對(duì)這些短語(yǔ)之間的關(guān)系,建立一個(gè)該文本集中的主要概念 。 (3)可視化顯示和導(dǎo)航 從多個(gè)視角出發(fā)進(jìn)行分析.,3.文本挖掘與數(shù)據(jù)挖掘,文本特征的表示,文本特征指的是關(guān)于文本的元數(shù)據(jù): (1)描述性特征,例如文本的名稱、日期、大小、類型等; (2)語(yǔ)義性特征,例如文本的作者、機(jī)構(gòu)、標(biāo)題、內(nèi)容等。,文本特征的表示,矢量空間模型(VSM)是效果較好的表示文本特征的方法。每個(gè)文本d表示為其中的一個(gè)規(guī)范化特征矢量: V(d)=(t1,w1(d);ti,wi(d);tn,wn(d) d中出現(xiàn)的所有單詞作為ti,或所有短語(yǔ)。wi(d)一般被定義為ti在d中出現(xiàn)頻率tfi(d)的函數(shù)。,函數(shù)wi(d)=(tfi(d) ,常用的有: (1)平方根函數(shù) (2)對(duì)數(shù)函數(shù),文本特征的提取,特征提取主要是識(shí)別文本中代表其特征的詞項(xiàng)。 文本特征分為一般特征和數(shù)字特征,其中一般特征主要包括動(dòng)詞和名詞短語(yǔ),如人名、組織名等; 數(shù)字特征主要包括日期、時(shí)間、貨幣以及單純數(shù)字信息。,特征項(xiàng)抽取的判斷算法,(1)該特征項(xiàng)集合包含所有該類中出現(xiàn)的詞。 (2)對(duì)于每個(gè)詞,計(jì)算詞Wi和類別Cj的互信息量I(W,C) (3) 對(duì)于該類中所有的詞,依據(jù)上面計(jì)算的互信息量排序。 (4)抽取互信息量大的詞作為特征項(xiàng)。 (5)根據(jù)抽取的特征項(xiàng)進(jìn)行向量壓縮,精簡(jiǎn)向量表示。,文本挖掘,文本挖掘功能層次 關(guān)聯(lián)分析 文本聚類 文本分類,11.2.1文本挖掘功能層次,文本挖掘功能層次,(1)關(guān)鍵詞檢索 關(guān)鍵詞建立倒排文件索引,與傳統(tǒng)的信息檢索使用的技術(shù)類似。 (2)相似檢索 找到相似內(nèi)容的文本。 (3)詞語(yǔ)關(guān)聯(lián)分析 聚焦在詞語(yǔ)(包括關(guān)鍵詞)之間的關(guān)聯(lián)信息分析上。,(4)文本聚類和文本分類 實(shí)現(xiàn)文本的聚類和分類。 (5)自然語(yǔ)言處理 揭示自然語(yǔ)言處理技術(shù)的語(yǔ)義,進(jìn)行文本語(yǔ)義挖掘。,關(guān)聯(lián)分析,在文本數(shù)據(jù)庫(kù)中,每一文本被視為一個(gè)事務(wù),文本中的關(guān)鍵詞組可視為事務(wù)中的一組事務(wù)項(xiàng)。即文本數(shù)據(jù)庫(kù)可表示為: 文本編號(hào), 關(guān)鍵詞集 文本數(shù)據(jù)庫(kù)中關(guān)鍵詞關(guān)聯(lián)挖掘的問題就變成事務(wù)數(shù)據(jù)庫(kù)中事務(wù)項(xiàng)的關(guān)聯(lián)挖掘。 關(guān)聯(lián)分析挖掘可以用于找出詞或關(guān)鍵詞間的關(guān)聯(lián)。,文本聚類,1層次聚類法 對(duì)于給定的文本集合D=d1,di,dn: (1)將D中的每個(gè)文本di看作是一個(gè)具有單成員的類ci=di,這些類構(gòu)成了D的一個(gè)聚類: C=c1,ci,cn; (2)計(jì)算C中每對(duì)類(ci,cj)之間的相似度sim(ci,cj); (3)選取具有最大相似度的類對(duì),并將ci和cj合并為一個(gè)新的類ck=cicj,從而構(gòu)成了D的一個(gè)新的聚類C=c1,cn-1; (4)重復(fù)上述步驟,直至C中剩下一個(gè)類為止。 該過程構(gòu)造出一棵生成樹,其中包含了類的層次信息,以及所有類內(nèi)和類間的相似度。,文本分類,首先,把一組預(yù)先聚類過的文本作為訓(xùn)練集。然后對(duì)訓(xùn)練集進(jìn)行分析以便得出各類的分類模式。 對(duì)文本分類的有效方法是基于關(guān)聯(lián)的分類: (1)提出關(guān)鍵詞和詞組。 (2)生成關(guān)鍵詞和詞組的概念層次,或類層次結(jié)構(gòu)。 (3)詞關(guān)聯(lián)挖掘方法用于發(fā)現(xiàn)關(guān)聯(lián)詞,它可以最大化區(qū)分一類文本與另一類文本。這導(dǎo)致了對(duì)每一類文本,有一組關(guān)聯(lián)規(guī)則。,2.2 Web結(jié)構(gòu)挖掘,Web結(jié)構(gòu)挖掘的基本思想是將Web 看作一個(gè)有向圖,它的頂點(diǎn)是Web頁(yè)面,頁(yè)面間的超鏈就是圖的邊。然后利用圖論對(duì)Web 的拓?fù)浣Y(jié)構(gòu)進(jìn)行分析。 Web結(jié)構(gòu)挖掘的對(duì)象是Web本身的超連接,即對(duì)Web文檔的結(jié)構(gòu)進(jìn)行挖掘。,對(duì)于給定的Web文檔集合,應(yīng)該能夠通過算法發(fā)現(xiàn)它們之間連接情況的有用信息,文檔之間的超連接反映了文檔之間的包含、引用或者從屬關(guān)系,引用文檔對(duì)被引用文檔的說(shuō)明往往更客觀、更概括、更準(zhǔn)確。 Web結(jié)構(gòu)挖掘在一定程度上得益于社會(huì)網(wǎng)絡(luò)和引用分析的研究。 把網(wǎng)頁(yè)之間的關(guān)系分為incoming連接和outgoing連接,運(yùn)用引用分析方法找到同一網(wǎng)站內(nèi)部以及不同網(wǎng)站之間的連接關(guān)系。,2.2.2 算法,常見的算法有HITS (Hypertext Induced Topic Search), PageRank,發(fā)現(xiàn)虛擬社區(qū)的算法、發(fā)現(xiàn)相似頁(yè)面的算法、發(fā)現(xiàn)地理位置的算法和頁(yè)面分類算法。 Web 結(jié)構(gòu)挖掘的算法一般可分為查詢相關(guān)算法和查詢無(wú)關(guān)算法兩類。 查詢相關(guān)算法需要為每一個(gè)查詢進(jìn)行一次超鏈分析,從而進(jìn)行一次值的指派; 查詢獨(dú)立算法則為每個(gè)文檔僅進(jìn)行一次值的指派,對(duì)所有的查詢都使用此值。,HITS和PageRank分別是查詢相關(guān)算法和查詢獨(dú)立算法的代表。 它們的共同點(diǎn)是使用一定方法計(jì)算Web頁(yè)面之間超連接的質(zhì)量,從而得到頁(yè)面的權(quán)重。 著名的Clever和Google搜索引擎就采用了該類算法。,Web訪問挖掘是從服務(wù)器端記錄的用戶訪問日志或從用戶的瀏覽信息中抽取感興趣的知識(shí),即Web使用記錄挖掘。 在新興的電子商務(wù)領(lǐng)域有重要意義,它通過挖掘相關(guān)的Web日志記錄,來(lái)發(fā)現(xiàn)用戶訪問Web頁(yè)面的模式,通過分析日志記錄中的規(guī)律,可以識(shí)別用戶的忠實(shí)度、喜好、滿意度,可以發(fā)現(xiàn)潛在用戶,增強(qiáng)站點(diǎn)的服務(wù)競(jìng)爭(zhēng)力。,2.3 web用戶訪問模式挖掘,Web使用記錄數(shù)據(jù)除了服務(wù)器的日志記錄外還包括代理服務(wù)器日志、瀏覽器端日志、注冊(cè)信息、用戶會(huì)話信息、交易信息、Cookie中的信息、用戶查詢、鼠標(biāo)點(diǎn)擊流等一切用戶與站點(diǎn)之間可能的交互記錄。 可見Web使用記錄的數(shù)據(jù)量是非常巨大的,而且數(shù)據(jù)類型也相當(dāng)豐富。,2.3.2 分類 根據(jù)不同的應(yīng)用需求可將web用戶訪問挖掘分為以下五類: 個(gè)性挖掘:針對(duì)單個(gè)用戶的使用記錄對(duì)該用戶進(jìn)行建模,結(jié)合該用戶基本信息分析他的使用習(xí)慣、個(gè)人喜好,目的是在電子商務(wù)環(huán)境下為該用戶提供與眾不同的個(gè)性化服務(wù)。,系統(tǒng)改進(jìn):Web服務(wù)(數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)等)的性能和其他服務(wù)質(zhì)量是衡量用戶滿意度的關(guān)鍵指標(biāo),Web 用法挖掘可以通過用戶的擁塞記錄發(fā)現(xiàn)站點(diǎn)的性能瓶頸,以提示站點(diǎn)管理者改進(jìn)Web緩存策略、網(wǎng)絡(luò)傳輸策略、流量負(fù)載平衡機(jī)制和數(shù)據(jù)的分布策略。 此外,可以通過分析網(wǎng)絡(luò)的非法入侵?jǐn)?shù)據(jù)找到系統(tǒng)弱點(diǎn),提高站點(diǎn)安全性,這在電子商務(wù)環(huán)境下尤為重要。,站點(diǎn)修改:站點(diǎn)的結(jié)構(gòu)和內(nèi)容是吸引用戶的關(guān)鍵。Web 用法挖掘通過挖掘用戶的行為記錄和反饋情況為站點(diǎn)設(shè)計(jì)者提供改進(jìn)的依據(jù),比如頁(yè)面連接情況應(yīng)如何組織、那些頁(yè)面應(yīng)能夠直接訪問等。 智能商務(wù):用戶怎樣使用Web站點(diǎn)的信息無(wú)疑是電子商務(wù)銷售商關(guān)心的重點(diǎn),用戶一次訪問的周期可分為被吸引、駐留、購(gòu)買和離開四個(gè)步驟,Web用法挖掘可以通過分析用戶點(diǎn)擊流等Web日志信息挖掘用戶行為的動(dòng)機(jī),以幫助銷售商合理安排銷售策略。,Web特征描述:這類研究跟關(guān)注這樣通過用戶對(duì)站點(diǎn)的訪問情況統(tǒng)計(jì)各個(gè)用戶在頁(yè)面上的交互情況,對(duì)用戶訪問情況進(jìn)行特征描述。,2 根據(jù)對(duì)數(shù)據(jù)源的不同處理方法,Web 用法挖掘可以分為兩類: 一類是將Web使用記錄的數(shù)據(jù)轉(zhuǎn)換并傳遞進(jìn)傳統(tǒng)的關(guān)系表里,再使用數(shù)據(jù)挖掘算法對(duì)關(guān)系表中的數(shù)據(jù)進(jìn)行常規(guī)挖掘;,另一類是將Web 使用記錄的數(shù)據(jù)直接預(yù)處理再進(jìn)行挖掘。 Web 用法挖掘中的一個(gè)有趣的問題是在多個(gè)用戶使用同一個(gè)代理服務(wù)器的環(huán)境下如何標(biāo)識(shí)某個(gè)用戶,如何識(shí)別屬于該用戶的會(huì)話和使用記錄,這個(gè)問題在很大程度上影響著挖掘質(zhì)量。 經(jīng)典的數(shù)據(jù)挖掘算法都可以直接用到Web 用法挖掘上來(lái),但為了提高挖掘質(zhì)量,研究人員在擴(kuò)展算法上進(jìn)行了努力,包括復(fù)合關(guān)聯(lián)規(guī)則算法、改進(jìn)的序列發(fā)現(xiàn)算法等。,2.3.3 web挖掘過程及算法 Web使用記錄挖掘通常需要經(jīng)過三個(gè)階段:數(shù)據(jù)預(yù)處理階段(主要包括數(shù)據(jù)清洗和事物識(shí)別兩個(gè)部分);模式識(shí)別階段(采用統(tǒng)計(jì)法、機(jī)器學(xué)習(xí)等成熟技術(shù)。從Web使用記錄中挖掘知識(shí));模式分析階段(采用合適的成熟的技術(shù)和工具進(jìn)行模式的分析,從而輔助分析人員理解。使采用各種工具挖掘出的模式得到很好利用)。 對(duì)Web使用記錄挖掘采用的算法有:路徑分析、關(guān)聯(lián)規(guī)則和有字模式的發(fā)現(xiàn)、聚類分類等,為了提高精度,使用記錄挖掘也用到站點(diǎn)結(jié)構(gòu)和頁(yè)面內(nèi)容等信息。,3 Web數(shù)據(jù)挖掘中的關(guān)鍵技術(shù),Web數(shù)據(jù)挖掘中常用的技術(shù)有Web使用的特有的路徑分析技術(shù),數(shù)據(jù)挖掘領(lǐng)域常用的關(guān)聯(lián)規(guī)則、序列模式、分類聚類技術(shù)等。 1. 路徑分析技術(shù) 用路徑分析技術(shù)進(jìn)行Web數(shù)據(jù)挖掘時(shí),最常用的是圖,因?yàn)閃eb可以用一個(gè)有向圖來(lái)表示,G=(V,E),V是頁(yè)面的集合,E是頁(yè)面之間的超連接集合,頁(yè)面定義為圖中的頂點(diǎn),而頁(yè)面之間的超連接定義為圖中的有向邊。 頂點(diǎn)v的入邊表示對(duì)v的引用,出邊表示v引用了其他的頁(yè)面,這樣形成網(wǎng)站結(jié)構(gòu)圖,從圖中確定最頻繁的訪問路徑。,2. 關(guān)聯(lián)規(guī)則挖掘技術(shù) 關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶訪問序列數(shù)據(jù)庫(kù)的序列項(xiàng)中挖掘出相關(guān)的規(guī)則,就是要挖掘出用戶在一個(gè)訪問期間(SESSION),從服務(wù)器上訪問的頁(yè)面文件之間的聯(lián)系,這些頁(yè)面之間可能并不存在直接的參引(RIFERENCE)關(guān)系。 最常用的是用APRIOR算法,從事務(wù)數(shù)據(jù)庫(kù)中挖掘出最大頻繁訪問項(xiàng)集,這個(gè)項(xiàng)集就是關(guān)聯(lián)規(guī)則挖掘出來(lái)的用戶訪問模式。,3.序列模式挖掘技術(shù) 序列模式數(shù)據(jù)挖掘就是要挖掘出交易集之間的有時(shí)間序列關(guān)系的模式它與關(guān)聯(lián)挖掘技術(shù)都是從用戶訪問下的日志中尋找用戶普遍訪問的規(guī)律,關(guān)聯(lián)挖掘技術(shù)更注重事務(wù)內(nèi)的關(guān)系,序列模式技術(shù)則注重事務(wù)間的關(guān)系。 4.聚類分類技術(shù) 分類規(guī)則可以挖掘出某些共同的特性,這個(gè)特性可以用來(lái)對(duì)新添到數(shù)據(jù)庫(kù)里的數(shù)據(jù)項(xiàng)進(jìn)行分類。 在Web數(shù)據(jù)挖掘中,分類技術(shù)可以根據(jù)訪問這些用戶而得到的個(gè)人信息或共同的訪問模式,得出訪問某一服務(wù)器文件的特征。 聚類技術(shù)則是對(duì)符合某一訪問規(guī)律特征的用戶進(jìn)行用戶特征挖掘。最后進(jìn)行模式分析,挖掘出人們可理解的知識(shí)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年保健按摩師(初級(jí))按摩職業(yè)規(guī)劃考核試卷
- 2025年采購(gòu)師(中級(jí))考試試卷:供應(yīng)鏈金融與采購(gòu)創(chuàng)新
- 2025年保育員實(shí)操技能試卷:幼兒教育心理輔導(dǎo)創(chuàng)新案例分析
- 國(guó)際貿(mào)易業(yè)務(wù)開展證明(6篇)
- 2025年電梯檢驗(yàn)員資格考試試卷:電梯檢驗(yàn)員職業(yè)規(guī)劃案例分析試題
- 2025年法語(yǔ)DELFA1級(jí)考試試卷模擬試題詳解
- 2025年導(dǎo)游資格證考試筆試旅游外語(yǔ)應(yīng)用與案例分析與實(shí)踐案例分析試卷
- 2025年攝影師職業(yè)技能鑒定攝影器材品牌策略試題試卷
- 農(nóng)產(chǎn)品冷鏈物流冷鏈物流行業(yè)技術(shù)創(chuàng)新與產(chǎn)業(yè)升級(jí)研究報(bào)告
- 教育與培訓(xùn)行業(yè):在線教育平臺(tái)用戶行為分析與優(yōu)化策略
- 三菱FX3u-PLC應(yīng)用實(shí)例教程全套課件配套課件完整版電子教案
- JBT 3997-2011 金屬切削機(jī)床灰鑄鐵件 技術(shù)條件
- 畜禽解剖生理學(xué)-課程說(shuō)課課件
- 2024北京海淀區(qū)初二(下)期末物理及答案
- 廣東省深圳市福田區(qū)2023-2024學(xué)年七年級(jí)下學(xué)期期末數(shù)學(xué)試題
- 新疆省新疆生產(chǎn)建設(shè)兵團(tuán)2024年六年級(jí)下學(xué)期5月模擬預(yù)測(cè)數(shù)學(xué)試題含解析
- 北京市昌平區(qū)2022-2023學(xué)年四年級(jí)下學(xué)期數(shù)學(xué)期末試卷(含答案)
- 《第14課 明至清中葉的經(jīng)濟(jì)與文化》教學(xué)設(shè)計(jì)教學(xué)反思-2024-2025學(xué)年高中歷史統(tǒng)編版必修中外歷史綱要上
- 2025屆自貢市重點(diǎn)中學(xué)高一下數(shù)學(xué)期末統(tǒng)考模擬試題含解析
- 河南省南陽(yáng)市鄧州市2023-2024學(xué)年六年級(jí)下學(xué)期6月期末英語(yǔ)試題
評(píng)論
0/150
提交評(píng)論