計算機(jī)科學(xué)與技術(shù)專業(yè)畢業(yè)設(shè)計web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用_第1頁
計算機(jī)科學(xué)與技術(shù)專業(yè)畢業(yè)設(shè)計web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用_第2頁
計算機(jī)科學(xué)與技術(shù)專業(yè)畢業(yè)設(shè)計web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用_第3頁
計算機(jī)科學(xué)與技術(shù)專業(yè)畢業(yè)設(shè)計web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用_第4頁
計算機(jī)科學(xué)與技術(shù)專業(yè)畢業(yè)設(shè)計web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用_第5頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、畢業(yè)論文(設(shè)計)題 目web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用 應(yīng)用科技 學(xué)院 計算機(jī)科學(xué)與技術(shù)專 業(yè)11級專升本 班 學(xué)生姓名 學(xué) 號110603026 指導(dǎo)教師 職 稱講師 完成日期 2013年1月4日web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用應(yīng)用科技學(xué)院 計算機(jī)科學(xué)與技術(shù)專業(yè) (學(xué)號) (姓名)指導(dǎo)教師 講師(職稱)【摘 要】本文概述了web數(shù)據(jù)挖掘的分類及一般過程,探索web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中能起到的作用。重點(diǎn)闡述了聚類算法和路徑分析算法在電子商務(wù)中的應(yīng)用。Web數(shù)據(jù)挖掘一般分為web內(nèi)容挖掘,web結(jié)構(gòu)挖掘,web訪問信息的挖掘三個類別。本文著重討論的是面向web訪問信息的挖掘。挖掘過程

2、分為數(shù)據(jù)預(yù)處理,模式算法實(shí)施,模式分析和可視化四個步驟。Web數(shù)據(jù)挖掘能夠挖掘潛在客戶,延長客戶訪問站點(diǎn)的駐留時間,增加站點(diǎn)網(wǎng)頁間的鏈接并且發(fā)現(xiàn)客戶期望。具體聚類算法就是對web站點(diǎn)的數(shù)據(jù)進(jìn)行分類分析,主要介紹了客戶群體的聚類和頁面的聚類,路徑分析的具體應(yīng)用是在于探索客戶訪問興趣及優(yōu)化訪問路徑。讓用戶訪問站點(diǎn)更快的找到想要訪問的內(nèi)容,避免用戶興趣度的降低?!娟P(guān)鍵詞】web數(shù)據(jù)挖掘;聚類算法;路徑分析;電子商務(wù)目錄引言1第一章 web數(shù)據(jù)挖掘現(xiàn)狀1第二章 web數(shù)據(jù)挖掘簡介12.1數(shù)據(jù)挖掘和web數(shù)據(jù)挖掘12.2 web數(shù)據(jù)挖掘的分類22.2.1 web內(nèi)容挖掘22.2.2 web結(jié)構(gòu)挖掘22.

3、2.3 web訪問信息挖掘22.3 web數(shù)據(jù)挖掘方法22.4 web數(shù)據(jù)挖掘的數(shù)據(jù)來源及挖掘過程3第三章 web數(shù)據(jù)挖掘在電子商務(wù)中的具體應(yīng)用53.1 web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用53.1.1 客戶關(guān)系管理中發(fā)掘潛在客戶53.1.2 客戶關(guān)系管理中延長客戶駐留時間53.1.3 增加網(wǎng)頁鏈接促進(jìn)網(wǎng)站優(yōu)化53.1.4 發(fā)現(xiàn)用戶期望63.2聚類算法在web數(shù)據(jù)挖掘中的應(yīng)用63.2.1 客戶群體聚類63.2.2 web頁面聚類83.3 路徑分析法在web數(shù)據(jù)挖掘中的應(yīng)用8路徑分析探索客戶訪問興趣9路徑分析利于web站點(diǎn)鏈接設(shè)置10第四章結(jié)束語10致謝11參考文獻(xiàn)11引言數(shù)據(jù)收集和數(shù)據(jù)存儲技術(shù)的快

4、速發(fā)展使得各組織機(jī)構(gòu)可以積累海量數(shù)據(jù),但是提取有用的信息卻成為巨大的挑戰(zhàn)。數(shù)據(jù)量太大無法使用傳統(tǒng)的數(shù)據(jù)分析工具和技術(shù)處理這些海量數(shù)據(jù)。所以人們開發(fā)出新的方法數(shù)據(jù)挖掘技術(shù),它是一門將傳統(tǒng)的數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復(fù)雜算法相結(jié)合的技術(shù)?,F(xiàn)在的數(shù)據(jù)挖掘技術(shù)已在商務(wù)、醫(yī)療、科學(xué)和工程等領(lǐng)域應(yīng)用發(fā)展。而隨著計算機(jī)處理能力的發(fā)展和業(yè)務(wù)復(fù)雜性的提高,數(shù)據(jù)類型越來越能多,越來越復(fù)雜,人們開始關(guān)心另一個話題:非結(jié)構(gòu)化的數(shù)據(jù)能否進(jìn)行數(shù)據(jù)挖掘,其中就著重關(guān)注到web數(shù)據(jù)挖掘。Web上的信息主要是大量,異質(zhì)的信息資源,文檔結(jié)構(gòu)性差,數(shù)據(jù)多為半結(jié)構(gòu)化或者非結(jié)構(gòu)化的。因此,在web上的數(shù)據(jù)挖掘需要用到很多不同于結(jié)構(gòu)化

5、的數(shù)據(jù)挖掘技術(shù)。本文探索的是基于聚類算法及路徑分析法的web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用。聚類算法利于客戶群體的聚類,發(fā)掘潛在的客戶;路徑分析法關(guān)注客戶行為路徑,發(fā)現(xiàn)客戶興趣與期望,并對網(wǎng)頁的鏈接進(jìn)行優(yōu)化設(shè)置。第一章 web數(shù)據(jù)挖掘現(xiàn)狀在如今這個信息大社會里,人們獲取和存儲信息都十分方便。但是若在海量的數(shù)據(jù)中要發(fā)現(xiàn)數(shù)據(jù)之前內(nèi)在的關(guān)系和隱藏著的信息這對于人們來說還是十分困難的。若是知道并且能了解數(shù)據(jù)挖掘這個技術(shù),困難便迎刃而解,即便在處理新興的web數(shù)據(jù)上,數(shù)據(jù)挖掘技術(shù)也有望成為一種至關(guān)重要的可行性技術(shù)。數(shù)據(jù)這門學(xué)科由這些需要新的,無法被今天技術(shù)所支持的能力的應(yīng)用所驅(qū)動,面對需要分析的這些新興

6、復(fù)雜的web數(shù)據(jù),數(shù)據(jù)挖掘才得以進(jìn)一步適應(yīng)發(fā)展。Web上的數(shù)據(jù)跟數(shù)據(jù)庫的數(shù)據(jù)信息不同,數(shù)據(jù)多半是半結(jié)構(gòu)化或者是非結(jié)構(gòu)化。Web上的信息不能清楚地用數(shù)據(jù)模型表示,基于數(shù)據(jù)挖掘的復(fù)雜性,現(xiàn)今我們只把重點(diǎn)放在web訪問信息的數(shù)據(jù)挖掘上。Web數(shù)據(jù)挖掘的目的就是通過分析web網(wǎng)站,從而優(yōu)化web網(wǎng)站,更好的服務(wù)客戶從而最大程度地獲利。一般網(wǎng)站進(jìn)行web數(shù)據(jù)挖掘,改進(jìn)客戶對網(wǎng)站的體驗(yàn)和與網(wǎng)站的交互,數(shù)據(jù)挖掘至少有助于完成3個任務(wù):網(wǎng)站的設(shè)計是否符合用戶期望,有沒有為用戶提供個性化服務(wù),用戶需求有沒有得到更好地滿足。Web數(shù)據(jù)挖掘解決人們想要從繽紛復(fù)雜的web空間、浩如煙海的網(wǎng)絡(luò)中發(fā)掘所需信息的問題。隨著

7、網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,電子商務(wù)系統(tǒng)在社會生活總得到了越來越廣泛的應(yīng)用,大大改變了企業(yè)的經(jīng)營方式,規(guī)范了企業(yè)內(nèi)部流程和交易手續(xù),減少了交易中間環(huán)節(jié),更多的降低了企業(yè)的經(jīng)營成本;拉近了企業(yè)和客戶的關(guān)系,電子商務(wù)這種交易形勢前景十分廣闊。而隨著快速發(fā)展,電子商務(wù)及基于各種互聯(lián)網(wǎng)的商業(yè)web網(wǎng)站的競爭也越來越激烈。在這個稱之為信息爆炸的時代,如何發(fā)掘有用知識,提高數(shù)據(jù)的利用效率十分重要。Web數(shù)據(jù)挖掘正是解決這個問題的一個有效手段。運(yùn)用web數(shù)據(jù)挖掘技術(shù)對電子商務(wù)網(wǎng)站上的各種數(shù)據(jù)源進(jìn)行挖掘發(fā)現(xiàn)潛在的客戶,提供優(yōu)質(zhì)個性化服務(wù),提高客戶忠誠度,改進(jìn)網(wǎng)站設(shè)計等相關(guān)應(yīng)用,可以提高企業(yè)和網(wǎng)站的競爭力,為客戶提供更

8、優(yōu)質(zhì)的服務(wù)。第二章 web數(shù)據(jù)挖掘簡介2.1數(shù)據(jù)挖掘和web數(shù)據(jù)挖掘數(shù)據(jù)挖掘一詞來源與1995年在加拿大召開的第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘(Data Mining)國際學(xué)術(shù)會議上。將數(shù)據(jù)庫中的“數(shù)據(jù)”形象地比作礦床,“數(shù)據(jù)挖掘”由此而來。所謂的數(shù)據(jù)挖掘就是在大量的,不完全的,有噪音的,模糊的,隨機(jī)的實(shí)際數(shù)據(jù)中,通過提取、研究發(fā)現(xiàn)知識的各種技術(shù)和方法,是一種決策支持過程,是基于人工智能,機(jī)器學(xué)習(xí)和統(tǒng)計學(xué)技術(shù)的一種技術(shù),它是知識發(fā)現(xiàn)中的核心部分。通過原始數(shù)據(jù)的高度自動化分析處理后得到數(shù)據(jù)間的關(guān)系模式,反映了數(shù)據(jù)的內(nèi)在特性,是對信息的更高層次的抽象過程。整個過程由計算機(jī)完成,甚少需要人工干預(yù),不僅大大提

9、高了分析處理數(shù)據(jù)的效率,而且提高了分析數(shù)據(jù)處理的深度,越來越受人們的重視。Web挖掘就是要從web豐富的數(shù)據(jù)中發(fā)現(xiàn)潛在的,對網(wǎng)站有用的,和從前不了解的信息和知識的完整過程,是知識發(fā)現(xiàn)對web數(shù)據(jù)的擴(kuò)展。依據(jù)web數(shù)據(jù)挖掘的站點(diǎn)信息來源,可以分為web內(nèi)容挖掘,web訪問信息挖掘,web結(jié)構(gòu)挖掘。2.2web數(shù)據(jù)挖掘的分類Internet中的數(shù)據(jù)挖掘總的來說有三個目標(biāo):精確度,表示的是返回數(shù)據(jù)是否符合用戶的需求;覆蓋率,表示能返回多少符合用戶需求的數(shù)據(jù)內(nèi)容;效率,表示反映的速度。依據(jù)web數(shù)據(jù)挖掘的站點(diǎn)信息來源分為基于內(nèi)容的挖掘和基于用戶使用記錄的挖掘等3種,如圖:Web數(shù)據(jù)挖掘Web內(nèi)容挖掘搜

10、索結(jié)果挖掘Web結(jié)構(gòu)挖掘Web訪問信息挖掘Web頁面內(nèi)容挖掘用戶使用記錄跟蹤登陸模式跟蹤圖2-1web內(nèi)容挖掘Web內(nèi)容挖掘就是對web界面內(nèi)容進(jìn)行挖掘。界面內(nèi)容包括:文本,圖像,音頻,多媒體,視頻和其他類型的數(shù)據(jù)。www上的信息搜索,常常返回的信息很多無用或者無關(guān)的,因此就需要要求所檢索的界面具有高質(zhì)量,即具有權(quán)威性的。2.2.2web結(jié)構(gòu)挖掘Web結(jié)構(gòu)挖掘是對web頁面間的連接關(guān)系中推導(dǎo)知識,利用這種連接間的關(guān)聯(lián)關(guān)系,不僅可以對web界面進(jìn)行分類,而且可以找出權(quán)威頁面,改變搜索引擎,提高網(wǎng)頁點(diǎn)擊率。對頁面進(jìn)行排序,發(fā)現(xiàn)重要頁面。例如,分析頁面重要性可知,如果一個頁面被多次引用,則這個也沒可

11、能很重要,一個頁面雖然未被多次引用,但是被一個重要頁面引用,則該頁面也可能很重要。2.2.3web訪問信息挖掘Web訪問信息挖掘是對用戶使用的web獲取信息的過程的挖掘。在這個過程中通常都是由結(jié)構(gòu)比較好的記錄集提供資源信息即web訪問log日志。有包括Server logs,Error logs和客戶端的cookie logs等。不同的web站點(diǎn)和web訪問日志可以幫助挖掘過程中研究的用戶的行為和web的結(jié)構(gòu)。從而更好的改善web站點(diǎn)。Web訪問信息挖掘中我們重點(diǎn)討論的是web日志挖掘的過程,具體來說就是要從web日志文件中抽取現(xiàn)今還未知的,有潛在價值的隱藏信息如:識別電子商務(wù)的潛在客戶,增強(qiáng)

12、對最終用戶的因特網(wǎng)信息服務(wù)的質(zhì)量,改進(jìn)web服務(wù)器系統(tǒng)的性能,甚至是建立針對個體用戶的定制web服務(wù)。它是一門綜合技術(shù),目前流行的挖掘技術(shù)包括:路徑分析,關(guān)聯(lián)規(guī)則和有序模式的發(fā)現(xiàn),聚類和分類等。本文重點(diǎn)討論的就是聚類算法與路徑分析在挖掘web訪問信息這方面的應(yīng)用。2.3 web數(shù)據(jù)挖掘方法在web的數(shù)據(jù)挖掘中我們針對web的日志數(shù)據(jù)進(jìn)行挖掘,預(yù)處理的日志數(shù)據(jù)經(jīng)過數(shù)據(jù)轉(zhuǎn)換存入數(shù)據(jù)庫中,在數(shù)據(jù)庫中數(shù)據(jù)挖掘技術(shù)一般也能應(yīng)用到web日志數(shù)據(jù)的挖掘中。Web數(shù)據(jù)挖掘常用的技術(shù)有:1、關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則是最常見的從數(shù)據(jù)庫中發(fā)現(xiàn)知識,若有2個或者多個數(shù)據(jù)項的取值之間重復(fù)出現(xiàn)且概率很高,則會存在某種關(guān)聯(lián),可以建

13、立這些數(shù)據(jù)項的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則查找的是事務(wù)之間的聯(lián)系??蛻粼L問某個網(wǎng)站一般都是通過探索興趣詞條來找到相關(guān)興趣網(wǎng)頁并通過連接訪問。這種關(guān)聯(lián)產(chǎn)生的數(shù)據(jù)如果按照某種策略進(jìn)行挖掘分類,可以統(tǒng)計出客戶訪問這些頁面的比率,達(dá)到很好的組織站點(diǎn),實(shí)施有效市場策略的目的。在web數(shù)據(jù)挖掘的情況下,關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)某個用戶生成的服務(wù)器文件中不同引用之間的關(guān)系。在大型的web事務(wù)數(shù)據(jù)庫中,關(guān)聯(lián)規(guī)則能為站點(diǎn)重構(gòu)和定位潛在客戶行為提供有價值的輸入。2、序列規(guī)則序列分析用來發(fā)現(xiàn)離散序列中的模式,序列和關(guān)聯(lián)數(shù)據(jù)有點(diǎn)相似,都包含一個項集成一組狀態(tài)。但主要區(qū)別是:序列模型分析狀態(tài)的轉(zhuǎn)移,關(guān)聯(lián)模型分析相同項集成關(guān)聯(lián)項集。序列分析

14、常用語web點(diǎn)擊分析,web日志分析中。3、路徑分析路徑分析技術(shù)是利用連接記錄文件項來決定每個訪問者的路徑,并將路徑按時間順序排序。在web站點(diǎn)的合理布局時,圖標(biāo)常用來表現(xiàn)web站點(diǎn)頁面瀏覽路徑,圖的節(jié)點(diǎn)表示web界面,有向邊表示頁面的超鏈接,各種圖都是建立在頁面與頁面間聯(lián)系或者是一定數(shù)量的用戶瀏覽界面順序的基礎(chǔ)上。4、聚類聚類是在一些分組不明顯的數(shù)據(jù)中尋找自然分組中有能力對數(shù)據(jù)進(jìn)行分組的隱含變量,是一種很流行的數(shù)據(jù)挖掘技術(shù)。具體描述為:將數(shù)據(jù)對象分為多個類或者簇的過程,原則是在同一個簇中的對象間具有較高的相似度,而不同簇中的對象要差別大點(diǎn),聚類要劃分的類是事先不知道的不了解的,類的形成完全是

15、數(shù)據(jù)驅(qū)動的,屬于一種無指導(dǎo)的學(xué)習(xí)方法?,F(xiàn)階段的聚類算法又2種不同的分配算法:K-Means算法和期望最大化(EM)算法。K-means算法以計算距離的平均值對聚類成員分配;EM算法是使用概率進(jìn)行度量,度量某個對象的概率來判定該對象屬于哪個聚類中。兩個算法的一個區(qū)別在于:EM算法可以用于離散屬性聚類。聚類是一種強(qiáng)大的工具,用途很廣,一種重要的人類行為。聚類算法具有可收縮性,處理不同類型的屬性能力,能夠發(fā)現(xiàn)任意形狀的能力,處理高維數(shù)據(jù)等特點(diǎn)。目前用于web日志挖掘的聚類算法很多,用戶對web站點(diǎn)的訪問有某種有序的關(guān)系,這種有序關(guān)系反映的是用戶的訪問興趣,也就是說先訪問的節(jié)點(diǎn)具有高興趣度。訪問興趣和

16、訪問序列有很強(qiáng)的相關(guān)性。5、分類在數(shù)據(jù)挖掘中應(yīng)用最多的任務(wù)就是分類,分類就是基于一個可預(yù)測屬性把事例分成多個級別。Web挖掘中,分類技術(shù)根據(jù)用戶的注冊信息或者共同訪問模式進(jìn)行分類,得出訪問某一個服務(wù)器文件的用戶特征。這個功能一般通過決策樹和貝葉斯分類法實(shí)現(xiàn)的。2.4 web數(shù)據(jù)挖掘的數(shù)據(jù)來源及挖掘過程對web數(shù)據(jù)挖掘的研究數(shù)據(jù)主要來源為web的訪問日志,包括:server log ,proxy server和客戶端的cookie log,其主要分析server log。Web服務(wù)器的日志文件記錄和積累了所訪問的頁面,時間和用戶ID,還包括描述用戶瀏覽網(wǎng)頁和沿著網(wǎng)頁鏈接所產(chǎn)生的點(diǎn)擊流序列信息等。

17、用戶每一次訪問頁面,web服務(wù)器就會增加一條日志記錄。主要記錄的就是什么人在什么時候?yàn)g覽了什么內(nèi)容,網(wǎng)站的流量和訪問者的信息等。不同的web服務(wù)器會產(chǎn)生不同格式的web日志文件,但是通常都包括訪問者的IP或者域名、瀏覽器類型、操作系統(tǒng)、訪問時間、訪問方式、訪問頁面協(xié)議、錯誤代碼及傳輸?shù)淖止?jié)數(shù)等信息。訪問者訪問web時,服務(wù)器自動收集這些信息,然后存儲到訪問日志、引用日志和代理日志中。典型的服務(wù)器日志文件格式。如表2-1所示。Web日志挖掘的過程一般分為四個部分:數(shù)據(jù)預(yù)處理、模式算法實(shí)施、模式分析、可視化。如圖三所示的,這四個部分又由其他幾個子部分組成。如圖2-2所示。1、數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是

18、web挖掘的重要步驟,直接影響到最后分析的數(shù)據(jù)的準(zhǔn)確性和正確性,主要是對日志文件進(jìn)行清洗、過濾、轉(zhuǎn)換及剔除無關(guān)記錄。具體包括判斷重要訪問有沒有被記錄下來,并且可以從記錄中提出感興趣的數(shù)據(jù),然后根據(jù)服務(wù)器日志的記錄分析提出需要的數(shù)據(jù)如:耗用時間,請求,狀態(tài)等來分析用戶模式行為等。數(shù)據(jù)預(yù)處理的過程就是要先對提供的日志文件進(jìn)行整理與數(shù)據(jù)清洗,然后進(jìn)行識別用戶訪問事務(wù)和識別訪問片段。1) 數(shù)據(jù)清洗數(shù)據(jù)清洗是數(shù)據(jù)挖掘整個工作過程的前提。由于數(shù)據(jù)的表示和寫入對象的不同,用戶興趣及挖掘算法的各個要求不盡相同,所以必須先對web日志的數(shù)據(jù)配上合適的清洗策略進(jìn)行清洗。一般有以下幾個策略:合并數(shù)據(jù):在提供的某個時

19、間段的日志文件中,需要合并多個web日志文件并且分析其中的每一個文件,將文件轉(zhuǎn)為特定格式的數(shù)據(jù)文件中去。消除不相干的數(shù)據(jù):在web日志文件中一些對挖掘不必要的存取記錄要剔除,例如圖像文件,壓縮文件等對挖掘來說不需考慮的可以剔除。代理訪問的處理:由于一些搜索引擎或自動代理的存在,代理產(chǎn)生的日志記錄會影響挖掘結(jié)果,所以哦剔除代理訪問記錄。使用的方法是通過檢查日志記錄中的代理域,采用字符串匹配方法剔除。正規(guī)化URL:正規(guī)化URL能夠方便算法實(shí)施,一般采用公共的形式正規(guī)化URL。數(shù)據(jù)項解析:對于CGI數(shù)據(jù)項必須被解析與不同的域中且形式為<名字,值>對的形式。域(field)描述(descr

20、iption)日期(date)請求頁面的時間、日期和時區(qū)客戶端IP(client IP)遠(yuǎn)程主機(jī)的IP或者DNS入口用戶名(user name)遠(yuǎn)程登錄的用戶名字節(jié)(bytes)發(fā)送和接收的字節(jié)服務(wù)器(server)服務(wù)器、IP地址和端口請求(request)URL查詢枝節(jié)狀態(tài)(status)返回給HTTP狀態(tài)標(biāo)識服務(wù)器名(server name)用戶請求的服務(wù)名稱耗用時間(time taken)完成瀏覽的時間協(xié)議版本(protocol version)傳輸用的協(xié)議版本用戶代理(user agent)服務(wù)提供者Cookie標(biāo)識號參照頁(referrer)本頁的上一頁表2-1原始日志文件用戶會話

21、文件規(guī)則 模式 匯總最終匯總預(yù)處理挖掘算法實(shí)施模式分析可視化圖2-22) 識別用戶訪問事務(wù)識別用戶訪問事務(wù)第一步是識別用戶,然后再進(jìn)一步的識別用戶的訪問事務(wù)。最常用的識別用戶的方法是IP地址或代理。它的前提是假定每個唯一的IP地址或者代理是一個唯一的一次訪問用戶。IP地址或者代理在任何站點(diǎn)都可以利用,服務(wù)器和客戶端都不必要增加功能,但是只能夠獲取有限的信息如:IP地址,代理和URL。在識別客戶的基礎(chǔ)上就可以進(jìn)一步識別用戶的訪問事務(wù)。但是在web日志中的訪問事務(wù)不是一個顯然的結(jié)果,需要采用專門算法來生成,常用的方法是:時間窗口和最大向前路徑算法。2、模式算法實(shí)施經(jīng)過預(yù)處理后,可根據(jù)不同需求選擇模

22、式發(fā)現(xiàn)技術(shù),有統(tǒng)計分析技術(shù),路徑分析技術(shù),基于web日志挖掘的關(guān)聯(lián)挖掘,聚類,時序模式等。例如:統(tǒng)計分析通過分析網(wǎng)頁視圖,瀏覽時間和導(dǎo)航路徑長度,有助于改進(jìn)系統(tǒng)性能,增加系統(tǒng)安全性,便于站點(diǎn)修改并提供決策支持;路徑分析技術(shù)用于發(fā)現(xiàn)web站點(diǎn)中最經(jīng)常被訪問的路徑,從而調(diào)整站點(diǎn)結(jié)構(gòu);通過訪問模式能挖掘關(guān)于用戶行為及潛在顧客信息的發(fā)現(xiàn)。3、模式分析模式分析是針對模式發(fā)現(xiàn)后的統(tǒng)計結(jié)果進(jìn)行挖掘,發(fā)現(xiàn)有用的模式,過濾掉不感興趣的或者無關(guān)聯(lián)的數(shù)據(jù)及模式,具體分析方法要依據(jù)模式分析的挖掘技術(shù)而定。發(fā)現(xiàn)的知識一般也能以被用戶理解,所以為了能讓用戶理解他們需求的知識,一般采取三個方法:查詢,OLAP技術(shù),可視化技

23、術(shù)。例如查詢應(yīng)用:分析者感興趣的是:從一個URLM出發(fā)并保含A,B,這個模式可以表達(dá)成M*A*B。若分析者要求的是所有最小支持度是20%且最小可信度是80%,發(fā)送與2008年8月8號以后的規(guī)則并且域名來自于“.com”的用戶感興趣,基于這個條件,查詢語句就可以表示為:SELECT association_rules(M*A*B) FROM logdata WHEREDate>=20080808 AND domain=.com AND support=20AND confidence=80通過這個查詢得到消息可以用來限制挖掘活動的范圍,減少挖掘過程的代價。4、可視化可視化技術(shù)指的是幫助用戶

24、挖掘和理解大量的復(fù)雜數(shù)據(jù)采用的是圖形用戶界面。使用這個圖形用戶界面對于用戶管理和理解大量的模式提供極大的便利。可視化有:挖掘過程可視化,挖掘結(jié)果可視化;知識管理可視化這三類。第三章 web數(shù)據(jù)挖掘在電子商務(wù)中的具體應(yīng)用3.1 web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用 客戶關(guān)系管理中發(fā)掘潛在客戶通過分析和探究web日志記錄中的規(guī)律,可以對已經(jīng)存在的訪問者進(jìn)行分類,確定分類的關(guān)鍵屬性及相互間的關(guān)系。對于一個新的訪問者,通過在web上的分類規(guī)則發(fā)現(xiàn),識別出這個客戶與已經(jīng)分類的老客戶的一些公共描述,從而對新客戶進(jìn)行分類。從它的分類中判斷是否需要把這個新客戶作為潛在客戶展示一些特殊的,個性化的頁面內(nèi)容,提高對用

25、戶服務(wù)的質(zhì)量。在電子商務(wù)的數(shù)據(jù)挖掘中,發(fā)現(xiàn)潛在客戶的一種有效的挖掘方法是聚類分析方法。 客戶關(guān)系管理中延長客戶駐留時間在電子商務(wù)中,傳統(tǒng)的買方客戶與賣方銷售商之間的空間距離已經(jīng)不存在,在Internet上,每個賣方銷售商對于買方客戶來說都一樣。為了使買方客戶在網(wǎng)站上能夠長時間駐留,我們就要清楚買方的瀏覽行為,分析客戶的興趣和需求所在,以方便我們及時地向客戶做各種頁面推薦,調(diào)整web頁面,提供本站點(diǎn)特有的某些商品信息或者廣告,達(dá)到客戶滿意,從而延長客戶駐留在自己網(wǎng)頁的時間。增加網(wǎng)頁鏈接促進(jìn)網(wǎng)站優(yōu)化通過挖掘用戶的Web日志文件,對Web站點(diǎn)的鏈接結(jié)構(gòu)的優(yōu)化可以從兩方面來考慮:一是發(fā)現(xiàn)用戶訪問頁面的

26、相關(guān)性,對密切相關(guān)的網(wǎng)頁之間增加鏈接。二是發(fā)現(xiàn)用戶的期望位置。通過對日志文件的挖掘,可以讓網(wǎng)站設(shè)計者或者后期維護(hù)者知道哪些界面是訪問者經(jīng)常連續(xù)點(diǎn)擊訪問的頁面,就可以調(diào)整這些相關(guān)的頁面鏈接,可以將這些鏈接放在明顯的部分,并改變鏈接深度,使得用戶易于訪問,用戶就不需要在一大堆不感興趣的鏈接之間尋找自己想要的鏈接,從而避免降低用戶對網(wǎng)站的興趣。 發(fā)現(xiàn)用戶期望現(xiàn)用戶的期望位置也就是如果在期望位置的訪問頻率高于實(shí)際位置的訪問頻率,可以考慮在期望位置和實(shí)際位置之間建立導(dǎo)航鏈接。網(wǎng)站網(wǎng)頁的內(nèi)容設(shè)置會直接影響客戶訪問網(wǎng)站的效率。并且,網(wǎng)站的瀏覽者所關(guān)注的內(nèi)容是會隨時變化的,利用日志文件進(jìn)行用戶訪問頁面的信息挖

27、掘,發(fā)掘訪問者進(jìn)行的瀏覽模式,能為網(wǎng)頁內(nèi)容設(shè)置的改良提供實(shí)用的建議??傊?,Web設(shè)計者是根據(jù)訪問者的信息來設(shè)計和修改網(wǎng)站結(jié)構(gòu)和外觀,而不再完全依靠專家的定性指導(dǎo)來設(shè)計網(wǎng)站,站點(diǎn)上頁面內(nèi)容的安排和鏈接就如超級市場中物品擺放一樣,把具有一定支持度和信任度的相關(guān)聯(lián)的物品擺放在一起有助于銷售。網(wǎng)站管理員按照大多數(shù)訪問者的瀏覽模式對網(wǎng)站進(jìn)行組織,盡量為大多數(shù)訪問者的瀏覽提供方便,給客戶留下好的印象,增加下次訪問的機(jī)率。3.2聚類算法在web數(shù)據(jù)挖掘中的應(yīng)用聚類算法就是將一個web站點(diǎn)的分析的有向圖轉(zhuǎn)變成矩陣后對矩陣的行向量和列向量進(jìn)行化簡、計算hamming距離并進(jìn)行分類的過程。聚類算法分為對客戶群體的

28、聚類和web頁面的聚類。一個web站點(diǎn)的拓?fù)浣Y(jié)構(gòu)是一副有向圖,每個客戶在一段時間內(nèi)的訪問模式就是它的子圖,具有相似訪問子圖的客戶很可能就是需求相似的客戶,將這些需求相似的客戶歸類,這就是客戶聚類。一個web站點(diǎn)可以用如下的有向圖來表示:G=(N,NP,E,EP)其中,N為結(jié)點(diǎn)集;NP 記錄客戶UID及其訪問的結(jié)點(diǎn)Node的次數(shù),為結(jié)點(diǎn)屬性集;E為有向邊集;EP記錄有向邊及該有向邊所在路徑的編號,為有向邊屬性集【4】。在有向圖G的所有結(jié)點(diǎn)集N中一般可以得到站點(diǎn)所有的URL,從結(jié)點(diǎn)屬性集NP也能得到訪問每個結(jié)點(diǎn)的UID和對應(yīng)訪問的次數(shù),這樣就可以得到一個URL-UID的關(guān)聯(lián)矩陣Mm*n ,如下:C

29、11 C12C1jC1nC21 C22C2jC2n Ci1 Ci2CijCinMM*N=UIDURL其中,Ci,j 是j客戶在某段期間訪問第i個URL的次數(shù);由矩陣MM*N 看出,每一列向量表示某客戶對該站點(diǎn)中所有URL的訪問情況。每一行向量表示所有客戶對某個URL的訪問情況。所以,我們可以這么認(rèn)為,行向量不僅代表了站點(diǎn)的結(jié)構(gòu),還蘊(yùn)涵客戶的共同訪問模式,列向量則反應(yīng)了客戶類型和客戶的個性化訪問子圖。分別度量行向量和列向量的相似性就可以得到相關(guān)web界面和相似客戶群體,進(jìn)一步分析還能獲得客戶訪問模式,也就是頻繁訪問路徑【4】??蛻羧后w聚類如上所述,由矩陣MM*N 看出,每一列向量表示某客戶對該站

30、點(diǎn)中所有URL的訪問情況。因?yàn)樗强蛻粼L問本站點(diǎn)的個性化子圖,故具有相似的訪問子圖的客戶即為相似客戶群體。根據(jù)客戶登記數(shù)據(jù)庫查詢是否交易,若客戶僅做了瀏覽而并未與商家成交,即列向量的值是未成交次數(shù),那么此相似客戶群為潛在客戶群;否則,為交易客戶群。對矩陣MM*N 列向量的聚類是考慮他們的相似性度量,可以通過Hamming距離進(jìn)行。即對于Mi,j>0,令Mi,j=1.然后計算向量間的hamming距離,距離越小,其相似度越高。根據(jù)hamming距離的實(shí)際情況設(shè)定閾值,然后對客戶進(jìn)行聚類【4】。客戶群體聚類時,先對URL-UID關(guān)聯(lián)矩陣進(jìn)行預(yù)處理,化簡數(shù)據(jù),然后按Hamming距離的公式計算

31、hamming距離,公式如下: (X,Y0,1n n1) 公式(3-1)接下去建立列向量間的距離矩陣,在這個對稱矩陣中,對于任意的表示第i個列向量和第j個列向量間的hamming距離,對角元素為0。閾值計算也可按公式(3-2)來計算,但是一般情況下也可以按具體情況自己指定閾值大?。汗剑?-2)對于任意的如果,那么將第i個客戶和所有滿足這個條件的第j個客戶劃分為一個類。聚類分析是電子商務(wù)中很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,更好的幫助電子商務(wù)用戶了解自己的客戶,向客戶提供更合適的服務(wù)。實(shí)例(1)分析:如圖一所示,假設(shè)某個網(wǎng)站一個上午站點(diǎn)中有六個URL,

32、在一段時間內(nèi)共有7個客戶訪問了該站點(diǎn)。根據(jù)Web服務(wù)器的日志文件和客戶數(shù)據(jù)庫,我們可以建立如下URL-User關(guān)聯(lián)矩陣M6*7 式(1),用1代替矩陣式(1)中的所有非零數(shù)字,即可得到矩陣M6*7(式(2)。M6*7=5 23 20 67 32 53 402 0 0 0 0 23 00 0 20 67 20 0 200 0 0 0 0 18 00 0 0 0 0 0 00 0 5 6 4 0 0(1)M6*7=1 1 1 1 1 1 11 0 0 0 0 1 00 0 1 1 1 0 10 0 0 0 0 1 00 0 0 0 0 0 00 0 1 1 1 0 0(2)根據(jù)公式(3-1)(ha

33、mming距離)X,Y之間的hamming、距離為:,計算矩陣(1)得到客戶向量間的Hamming距離矩陣為下圖(3)。由閾值計算公式可知閾值為1,據(jù)此將客戶分為3個類:Cust1, Cust2, Cust6、Cust2, Cust7 、Cust3, Cust4, Cust5,Cust7M6*7=H7*7d=0 1 3 3 3 1 2 0 2 2 2 2 10 0 0 4 10 0 4 10 4 1 0 3 0(3)又例如:通過分析大量的瀏覽“computer”網(wǎng)頁的用戶,可以找出常在這個網(wǎng)頁上瀏覽的客戶,并且通過對這些客戶登記的資料進(jìn)行分析,就可以得出這些用戶是潛在的要買電腦的用戶群體,于是

34、我們就通過調(diào)整“computer”網(wǎng)頁的相關(guān)的內(nèi)容,盡量滿足客戶的要求。web頁面聚類如上所述,由矩陣MM*N 看出,每一行向量反映了客戶對本站點(diǎn)中不同頁面的訪問情況。如果客戶對某些頁面的訪問情況相同或者相似那么這些界面應(yīng)該是相關(guān)界面,可以聚類。Web頁面聚類時,也是要對URL-UID關(guān)聯(lián)矩陣進(jìn)行預(yù)處理,化簡數(shù)據(jù),然后按Hamming距離的公式計算hamming距離,按公式(3-1)計算,然后建立行向量間的距離矩陣,在這個對稱矩陣中,對于任意的表示第i個行向量和第j個行向量間的hamming距離,對角元素為0。閾值計算也可按公式(3-2)來計算,也可按照具體情況自己指定閾值大小。對于任意的如果

35、,那么將第i個URL和所有滿足這個條件的第j個URL劃分為一個類。續(xù)實(shí)例(1)中的聚類數(shù)據(jù):去掉矩陣(2)中第5個值為0的行向量,根據(jù)hamming定義,計算矩陣(2)中其余每個行向量的hamming距離,得到URL向量間的Hamming距離矩陣如下圖(4),由閾值計算公式可知閾值為3,據(jù)此將URL分成四個類:URL1,URL3,URL2,URL4,URL3,URL6,URL5H5*5d=0 5 3 6 40 6 1 50 5 1 0 4 0(4)聚類分析是電子商務(wù)中很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,更好的幫助電子商務(wù)用戶了解自己的客戶,向客戶提供更

36、合適的服務(wù)。3.3 路徑分析法在web數(shù)據(jù)挖掘中的應(yīng)用Web站點(diǎn)結(jié)構(gòu)設(shè)計好壞的衡量標(biāo)準(zhǔn)之一是用戶為獲取所需信息要付出的平均代價。這個代價可以理解為所經(jīng)過的超鏈數(shù)目和選擇這些超鏈的困難程度的函數(shù)。用戶瀏覽路徑優(yōu)化是在盡量不破壞web系統(tǒng)原有結(jié)構(gòu),不刪除系統(tǒng)原有文檔和超鏈的前提下,通過增加新的超鏈或文檔來減少用戶獲取信息所需付出的平均代價。網(wǎng)站的頻繁瀏覽路徑就是某個用戶在相應(yīng)一段時間內(nèi)的活動規(guī)律,是站點(diǎn)要進(jìn)行路徑優(yōu)化的依據(jù),主要包括:1)一個個體用戶在瀏覽行為中多次重復(fù)瀏覽的一個路徑。2)在一個時間段內(nèi)瀏覽記錄中出現(xiàn)的重復(fù)瀏覽行為,也就是所謂的瀏覽模式。根據(jù)用戶重復(fù)瀏覽路徑可以導(dǎo)出用戶興趣視圖,然

37、后依據(jù)用戶興趣視圖完成其個性化的推薦,為用戶提供定制的訪問體驗(yàn)。根據(jù)用戶長期穩(wěn)定的瀏覽模式可以為改進(jìn)網(wǎng)站結(jié)構(gòu)和路徑優(yōu)化提供參考依據(jù)。若一定時期內(nèi)大多數(shù)用戶都表現(xiàn)出訪問路徑相似性,則站點(diǎn)就要做相應(yīng)的訪問路徑優(yōu)化。路徑分析探索客戶訪問興趣網(wǎng)站用戶訪問時,存在如下基本事實(shí)和特性:1、客戶訪問web站點(diǎn)是沿著不同的路徑;2、每個web界面都隱含有一個或多個不同的關(guān)鍵字,一般這些關(guān)鍵字就是代表該頁面的主要內(nèi)容;3、每個用戶訪問都帶有目的性,會訪問興趣的web頁面,并且對興趣的界面訪問時間較長;訪問的基本事實(shí)反映了每個客戶的不同訪問方式,對這些訪問的方式匯集,就能反映出用戶的訪問方式的特征。了解客戶訪問興

38、趣可以通過路徑分析技術(shù)進(jìn)行分析,了解客戶對哪些頁面感興趣,從而更好的改進(jìn)設(shè)計,為客戶服務(wù)。路徑分析技術(shù)是一種尋找頻繁訪問路徑的方法,通過對web服務(wù)器日志文件中的客戶訪問站點(diǎn)的訪問次數(shù)分析,挖掘出頻繁訪問路徑進(jìn)而了解客戶興趣。用路徑分析技術(shù)進(jìn)行web數(shù)據(jù)挖掘最常用到的是圖。因?yàn)閣eb可以用一個有向圖來表示,G=(V,E)V是頁面的集合,E是各個頁面間超鏈的集合。頁面的抽象是圖中的頂點(diǎn),而且頁面間的超鏈接是抽象為圖中的有向邊。頂點(diǎn)V引用了其他的頁面。這里討論最大向前訪問路徑方法。首先將日志文件中的客戶訪問時間和IP地址轉(zhuǎn)換成客戶訪問事務(wù)數(shù)據(jù)庫,其中的每個訪問事務(wù)T是某一個客戶對web的一系列訪問

39、,由此得到訪問事務(wù)T的集合T=(t1,s1),(t2,s2),(tn,sn),這里T表示在t1時間訪問頁面s1.因?yàn)槁窂皆L問的拓?fù)浣Y(jié)構(gòu)是一種有向圖的形式,所以對T的訪問就可以轉(zhuǎn)換成對訪問路徑圖的訪問。定義1:設(shè)訪問路徑圖:TPG(T)=(V,E)其中V為節(jié)點(diǎn)(頁面)的集合,即V=V1,V2,VnE為有向邊(頁面的超鏈接)的集合,E=e|e=(ni,ni-1),訪問路徑圖實(shí)際上是訪問十五中的頁面依時間次序構(gòu)成有向圖。定義2:從起始節(jié)點(diǎn)開始瀏覽知道無后退的最大鏈接頁面的序列稱為一條最大向前路徑。例如,設(shè)某個web站點(diǎn)中的日志文件包含某客戶的一次訪問路徑(如圖3-1);A,B,C,D,C,B,A,E

40、,F(xiàn),G,F(xiàn),H,實(shí)線箭頭表示向前瀏覽方向,虛線箭頭表示瀏覽的后退方向,而訪問次序是由有向邊的數(shù)字表示,則圖五中就存在三條最大向前訪問路徑【4】:ABCDEFGH圖3-11)(AB)(BC)(CD)2)(AE)(EF)(FG)3)(AE)(EF)(FH)設(shè)TP為一最大向前訪問路徑,P的公式(3-3)如下所示:公式(3-3)其中TPi為某站點(diǎn)上第I條最大向前訪問路徑,KI為TPi 的訪問次數(shù)。則任意一條最大向前訪問路徑的頻度f(TPi)為:f(TPi)=(TP*KI)/P(也就是這個最大路徑中每一個最短路徑尾結(jié)點(diǎn)被訪問的次數(shù)之和與該站點(diǎn)所有的URL被訪問次數(shù)之和的比值)如果f(TPi)得值超過用

41、戶規(guī)定的最小的權(quán)值A(chǔ),則稱TPi為熱門路徑,也就是頻繁訪問路徑。續(xù)實(shí)例(1)中聚類分析后,進(jìn)一步分析客戶訪問模式得:由于URL類URL1,URL3,URL3,URL6在一條路徑上,且路徑頻度分別為56.5%和33.4%,假設(shè)超過了指定的閾值,可以將他們合并起來構(gòu)成路徑Pi =URL1,URL3,URL6。計算頻度可得fpi=77.8%,顯然為頻繁路徑,同理路徑p2=URL2,URL4的頻度fp2=15.5%。相對路徑P1來說,訪問路徑P2的人次少了許多,但他是否是頻繁路徑,還跟所取的閾值大小有關(guān)。又例如:一個客戶從某一個站點(diǎn)訪問到某一個興趣的頁面后就會常去訪問,則從站點(diǎn)到該頁面就組成了一條最大

42、向前訪問路徑。當(dāng)訪問次數(shù)與訪問所有最大向前訪問路徑的次數(shù)比到底一個規(guī)定值是,這個最大訪問路徑就是該用戶的頻繁訪問路徑,就可以了解到用戶的興趣所在。路徑分析利于web站點(diǎn)鏈接設(shè)置通過對訪問路徑挖掘的結(jié)果分析,我們發(fā)現(xiàn):若是一個TP是長度為0的熱門路徑,也就是TP=d,說明頁面d的訪問率最大,那么就可以在這個頁面上放置廣告、通告、新聞等內(nèi)容。站點(diǎn)的主頁一般都是熱門頁面,但是,如果有頁面是多個熱門路徑的交點(diǎn),那么這個界面也就很重要。例如,且,在是一個大于1的常數(shù)。那么認(rèn)為路徑中用戶需要訪問的是dn,可以增加鏈接d1到dn的鏈接。利用發(fā)現(xiàn)的這些模式,可以幫助站點(diǎn)的設(shè)計和維護(hù)人員更好的管理站點(diǎn)。另外,有

43、些自動生成的頁面,可以根據(jù)“熱門訪問路徑”自動生成鏈接及其排列次序,把熱門的鏈接放到前面排列,這個是在商業(yè)上很有價值的。第四章 結(jié)束語隨著信息技術(shù)的飛速發(fā)展,電子商務(wù)在商業(yè)貿(mào)易中的份額越來越大,使用web挖掘技術(shù)對企業(yè)積累的海量數(shù)據(jù)進(jìn)行處理,可以找出這些有價值的“知識”,企業(yè)用戶可以根據(jù)這些“知識”把握客戶動態(tài)、追蹤市場變化,在激烈的市場競爭中,做出正確的有針對性的決策,對提高企業(yè)的市場競爭力有重要意義。但是在電子商務(wù)中進(jìn)行web的數(shù)據(jù)挖掘時還有很多問題需要解決:例如怎么樣將服務(wù)器的日志數(shù)據(jù)轉(zhuǎn)化成適合某種數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)格式;怎么樣解決分布性,異構(gòu)性數(shù)據(jù)源的挖掘問題;如何控制整個web上的知

44、識發(fā)現(xiàn)過程等等。隨著web挖掘技術(shù)的不斷發(fā)展和成熟,web數(shù)據(jù)挖掘在電子商務(wù)領(lǐng)域中一定會起到舉足輕重的作用。經(jīng)過這幾個月的探索分析,我認(rèn)識了數(shù)據(jù)挖掘這門技術(shù)的強(qiáng)大力量,這段時間我通過圖書館的書籍資料以及互聯(lián)網(wǎng)上的一些相關(guān)資源信息的收集、篩選,并且與導(dǎo)師的積極探討,獲得了很多的收獲,也提高了我學(xué)習(xí)、分析問題、解決問題的方法。通過對web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用學(xué)習(xí),深刻的意識到在這個信息化的大社會里,web數(shù)據(jù)挖掘在將來的生產(chǎn)應(yīng)用中一定會越來越重要,創(chuàng)造更大的價值。致謝感謝有這次論文寫作的機(jī)會。在這個幾個月的不斷學(xué)習(xí)探索和研究中,我了解了web數(shù)據(jù)挖掘的相關(guān)知識,讓我能更深入地了解到web數(shù)據(jù)

45、挖掘在電子商務(wù)中的作用,同時感受到它的強(qiáng)大的發(fā)掘數(shù)據(jù)的潛力,也增加自己許多豐厚的學(xué)識。在這里我要感謝在論文撰寫的過程中給予我?guī)椭闹笇?dǎo)老師及同學(xué)們。參考文獻(xiàn)1 毛國軍,段立娟,王實(shí),石云數(shù)據(jù)挖掘原理與算法M清華大學(xué)出版社, 20052 夏火松數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)M科學(xué)出版社,20043 陳文偉數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程M清華大學(xué)出版社,20064 宋擒豹,沈鈞毅.web日志的高效多能挖掘算法D.西安交通大學(xué),2001.5 陳才扣,金遠(yuǎn)平.挖掘基于web的訪問路徑模式J.東南大學(xué),2001.6 徐曉玲.web數(shù)據(jù)挖掘算法D.華東交通大學(xué),2007.7 安淑芝數(shù)據(jù)倉庫與數(shù)據(jù)挖掘M清華大學(xué)出版社,20

46、068 陳文偉,黃金才,趙新昱數(shù)據(jù)挖掘技術(shù)M北京工業(yè)大學(xué)出版社,20029 夏敏捷,張錦歌在web日志挖掘中應(yīng)用聚類改進(jìn)網(wǎng)站結(jié)構(gòu)的研究J.中原工學(xué)院學(xué)報,200510 李中,苑津莎,徐小彩基于web日志挖掘的客戶訪問興趣分析J華北電力大學(xué)學(xué)報,200911 徐慧基于web的文獻(xiàn)數(shù)據(jù)挖掘D第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集,1994-201212 (美)Zhao Hui Tang,JamieMacLennan 數(shù)據(jù)挖掘原理與應(yīng)用M著 鄺祝芳,焦賢龍,高升譯.清華大學(xué)出版社,2007.13 (美)RichardJ.Roiger,Michael W.Geatz數(shù)據(jù)挖掘教程M著翁敬農(nóng) 譯,清華大學(xué)出版社,200314 (美)Pang-Ning Tan Michael Steinbach,VipinKumar 數(shù)據(jù)挖掘?qū)д揗著范明,范宏建 譯,人民郵電出版社,2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論