WEB數(shù)據(jù)挖掘課件_10.ppt_第1頁
WEB數(shù)據(jù)挖掘課件_10.ppt_第2頁
WEB數(shù)據(jù)挖掘課件_10.ppt_第3頁
WEB數(shù)據(jù)挖掘課件_10.ppt_第4頁
WEB數(shù)據(jù)挖掘課件_10.ppt_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、劉 均 電信學院系統(tǒng)結構與網(wǎng)絡研究所,WEB MINING日志挖掘,主要內容,Web Usage Mining的定義 Web Usage Mining的分類 Web Usage Mining的應用 Web Usage Mining的方法 預處理方法 挖掘方法,Web Usage Mining 定義,WUM的定義,Application of data mining techniques to discover usage patterns from web log data,WUM的定義,通過根據(jù)Web日志記錄的挖掘,發(fā)現(xiàn)用戶訪問Web頁面的模式,以期改進站點的性能和組織結構,提高Web用戶查

2、找信息的質量和效率;并通過統(tǒng)計和關聯(lián)的分析找出特定用戶與特定地域、特定時間、特定頁面等要素之間的內在聯(lián)系,為用戶提供個性化的服務。,Web Usage Mining 分類,Web Usage Mining的分類,WUM在Web Mining中的位置 從挖掘的目標:公共的、個體的 從挖掘數(shù)據(jù)的類型 從挖掘的數(shù)據(jù)源:客戶端、代理、WEB服務器,Web Mining 分類,Web Usage Mining,Web Structure Mining,Web Content Mining,Web Page Content Mining,Search Result Mining,Web Usage Min

3、ing,General Access Pattern Tracking Web Log Mining Uses KDD techniques to understand general access patterns and trends. Can shed light on better structure and grouping of resource providers.,Customized Usage Tracking,Web Usage Mining,Web Usage Mining,General Access Pattern Tracking,Customized Usage

4、 Tracking Analyzes access patterns of each user at a time. Web site restructures itself automatically by learning from user access patterns.,Web Structure Mining,Web Content Mining,Web Page Content Mining,Search Result Mining,Data available,Server logs Error logs Cookie logs Query data,Data Sources,

5、W3C Extended Log File Format,WUM Server logs,123.456.78.9 - - 24/Oct/1999:19:13:44 0400 “GET /Images/tagline.gif HTTP/1.0” 200 1449 “Mozilla/4.51 en (Win98;I)”,Proxy Log,0 - - 23/Jan/1998:11:21:33 +0100 GET TCP_DONE 21495 4 - - 23/Jan/1998:11:21:52 +0100 GET http:/www.panda.c

6、z/simpsons/simpicon.zip TCP_MISS 0 4 - - 23/Jan/1998:11:21:54 +0100 GET http:/www.panda.cz/simpsons/pict/nuclearplant.gif TCP_DONE 2726 0 - - 23/Jan/1998:11:22:10 +0100 GET 1/campus/graphics/2girls.jpg TCP_DONE 33371 4 - - 23/Jan/1998:11:22:40 +01

7、00 GET http:/www.panda.cz/simpsons/pict/school.gif TCP_DONE 3184 4 - - 23/Jan/1998:11:28:41 +0100 GET http:/www.panda.cz/simpsons/pict/simpcity.jpg TCP_DONE 80729 4 - - 23/Jan/1998:11:35:30 +0100 GET http:/www.panda.cz/simpsons/simpicon.zip TCP_DONE 131322 4 - - 2

8、3/Jan/1998:11:37:54 +0100 GET http:/www.panda.cz/simpsons/simpicon.zip TCP_HIT 131322,Web Usage Mining 應用,Web Usage Mining的應用,Market research Site design,Web Usage Mining的應用,System Improvement 1). Site Improvement,根據(jù)實際用戶的瀏覽情況,調整網(wǎng)站的網(wǎng)頁的連接結構和內容,更好的服務用戶,極端:Adaptive web sites,Web Usage Mining的應用,System I

9、mprovement 2). Caching it only indicates the use of a page as a localized navigational nexus for that particular user. The similarity sim(t,s) as the normalized cosine of the angle between the two vectors. K-means algorithm is used to obtain transaction clusters.,The Recommendation Process,The recom

10、mendation engine is the online component of the system based on usage mining. The task of the recommendation engine is to compute a recommendation set(potentially useful links based on the users navigational activity through the site) for the current session. Consider factors: The matching criteria for each cluster or frequent itemset to the current active

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論