《商業(yè)分析概論》WEB挖掘_第1頁
《商業(yè)分析概論》WEB挖掘_第2頁
《商業(yè)分析概論》WEB挖掘_第3頁
《商業(yè)分析概論》WEB挖掘_第4頁
《商業(yè)分析概論》WEB挖掘_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

商業(yè)分析概論WEB挖掘目錄CONTENTSWeb挖掘概述數(shù)據(jù)源及任務分類Web內容挖掘Web結構挖掘Web使用挖掘12345目錄目錄CONTENTS數(shù)據(jù)源及任務分類Web內容挖掘Web結構挖掘Web使用挖掘1234510.1Web挖掘概述Web挖掘概述Web頁面上的數(shù)據(jù)類型內容數(shù)據(jù)Web日志數(shù)據(jù)鏈接結構數(shù)據(jù)內容數(shù)據(jù)指網(wǎng)頁上實際存在的供用戶瀏覽的數(shù)據(jù),多由文本和圖像組成即用戶使用數(shù)據(jù),表示用戶對Web的使用模式,如IP地址、瀏覽時間、頁面引用等。Web日志一般包括Web服務器訪問日志、代理服務器日志等,對其進行數(shù)據(jù)提取可以獲取用戶頁面瀏覽、點擊流和用戶會話等。即用來組織內容的一種描述性數(shù)據(jù),主要指頁面之間的超鏈接結構,包括頁面內的HTML及XML標記10.1Web挖掘概述10.1Web挖掘流程數(shù)據(jù)取樣Web信息源模式網(wǎng)絡文件目標數(shù)據(jù)數(shù)據(jù)預處理建立Web挖掘模型分析和評估知識知識表述610.1Web挖掘流程數(shù)據(jù)取樣Web環(huán)境目前能提供的數(shù)據(jù)源包括Web頁面數(shù)據(jù)(文本、圖形,以及多媒體),超鏈接數(shù)據(jù)和記錄用戶訪問情況的Web服務器日志(Log)記錄等。按照主題相關的原則,數(shù)據(jù)取樣從大量數(shù)據(jù)中取出一個與探索目標相關的數(shù)據(jù)子集,為后面的數(shù)據(jù)挖掘提供素材和資源。數(shù)據(jù)預處理數(shù)據(jù)預處理就是將來自不同數(shù)據(jù)源(如使用模式、網(wǎng)頁內容、結構及用戶信息等)的各類數(shù)據(jù),組織成為模式挖掘所必需的數(shù)據(jù)結構。預處理的好壞直接影響挖掘算法產生的結果,預處理過程是保證Web挖掘質量的關鍵。數(shù)據(jù)預處理主要包括數(shù)據(jù)清洗、會話識別、瀏覽頁面識別、路徑完善、用戶識別等方面。建立Web挖掘模型Web挖掘系統(tǒng)的核心部分。它的主要功能是運用各種Web挖掘技術,從經過預處理的數(shù)據(jù)中提取潛在的、有效的且能被人理解的規(guī)則和模式。10.2Web挖掘流程分析與評估分析與評估是Web挖掘過程最后一項重要步驟。其通過選擇和觀察把發(fā)現(xiàn)的規(guī)則、模式和統(tǒng)計值轉換為知識,再經過模式分析得到有價值的模式。Web挖掘所得到的模式需進行可信度和有效性分析,并對其做出評估結論,為用戶的經營決策提供信息支持。知識表述知識表述是指用適當?shù)男问綄⒗脭?shù)據(jù)挖掘工具從Web數(shù)據(jù)中挖掘出來的知識模式表現(xiàn)出來,以利于用戶接受和相互交流。也就是將感興趣的規(guī)則、模式采用可視化技術,以圖形界面的方式提供給使用者。目錄CONTENTS數(shù)據(jù)源及任務分類Web內容挖掘Web結構挖掘Web使用挖掘21345Web挖掘概述10.2數(shù)據(jù)源及任務分類Web挖掘數(shù)據(jù)源Web鏈接結構Web日志其它數(shù)據(jù)源Web頁面內容10.2數(shù)據(jù)源及任務分類Web頁面內容Web網(wǎng)頁上的數(shù)據(jù)源有許多種,如文本、圖像、視頻和音頻等,但文本一般是作為Web頁面最主要的數(shù)據(jù)源。這些數(shù)據(jù)以比特流的形式向用戶展開。盡管圖像、視頻和音頻等數(shù)據(jù)源包含了大量的有用信息,但是由于多媒體分析技術還不成熟,Web內容數(shù)據(jù)源目前主要還是頁面文本數(shù)據(jù)。Web鏈接結構Web上的網(wǎng)頁鏈接結構可以看作是由網(wǎng)頁和基于其間的大量超鏈構成的有向或無向圖。網(wǎng)頁結點可視作圖的頂點,頁面間的超鏈作為圖的有向或無向邊。Web上的超鏈結構是一個非常豐富和重要的資源,它們反映了網(wǎng)站設計者的領域知識,同時網(wǎng)頁之間大量的鏈接結構為人們增強對網(wǎng)頁的精確分析處理提供了極大的幫助。對網(wǎng)頁之間的鏈接結構進行充分利用將大大提供人們網(wǎng)絡需求的滿意度。10.2數(shù)據(jù)源及任務分類10.2數(shù)據(jù)源及任務分類Web日志文件Web日志數(shù)據(jù)源主要有:Web服務器日志、代理服務器日志、錯誤日志等。其他數(shù)據(jù)源能夠為Web挖掘提供幫助的其它數(shù)據(jù)源還有:用戶向搜索引擎輸入的查詢關鍵字;用戶瀏覽的查詢結果頁面及其評價;電子商務網(wǎng)站保存的用戶注冊信息;用戶屬性數(shù)據(jù)庫等。目錄CONTENTS數(shù)據(jù)源及任務分類Web內容挖掘Web結構挖掘Web使用挖掘3214510.3Web內容挖掘Web挖掘概述Web挖掘Web內容挖掘Web使用挖掘Web頁面內容挖掘一般訪問模式追蹤Web結構挖掘搜索結果再挖掘定制使用模式追蹤網(wǎng)絡組織挖掘網(wǎng)頁引用挖掘Web挖掘的任務結構圖10.3Web內容挖掘10.3Web內容挖掘Web內容挖掘是指從Web文檔或其描述中發(fā)現(xiàn)知識的過程,主要是根據(jù)網(wǎng)頁本身的內容做資料挖掘,目的是實現(xiàn)Web資源的自動檢索,提供Web資源的利用率。Web內容挖掘有兩種策略:Web頁面內容挖掘和搜索結果再挖掘(即在其他檢索工具搜索的基礎上進行改進挖掘)。按實現(xiàn)方法又分為兩類:第一類是基于第三者代理機制的方式進行Web內容的挖掘,這方面的處理方式有智能型搜尋代理人機制、信息自動過濾與分類機制及個人網(wǎng)絡代理機制;第二類是以數(shù)據(jù)庫機制進行Web內容挖掘,有多階層的數(shù)據(jù)庫、網(wǎng)絡查詢系統(tǒng)。目錄CONTENTS數(shù)據(jù)源及任務分類Web內容挖掘Web結構挖掘Web使用挖掘4213510.4Web結構挖掘Web挖掘概述10.4Web結構挖掘Web結構挖掘,即挖掘Web潛在的鏈接結構模式,即通過分析一個網(wǎng)頁鏈接和被鏈接數(shù)量以及對象來建立Web自身的鏈接結構模式。這樣可以進行網(wǎng)頁歸類,幫助用戶找到相關主題的權威站點。這種思想源于引文分析,即通過分析一個網(wǎng)頁鏈接和被鏈接數(shù)量以及對象來建立Web自身的鏈接結構模式。PageRankCLEVERMLDB10.4Web結構挖掘Web結構挖掘有兩種策略:網(wǎng)頁引用挖掘、網(wǎng)絡組織挖掘網(wǎng)頁引用挖掘Web結構挖掘的主要內容在于超鏈接分析,即通過分析頁面的鏈接關系來研究網(wǎng)頁的引用關系網(wǎng)絡組織挖掘Web文檔之間的超鏈接體現(xiàn)了文檔之間的邏輯關系,與文檔所處的位置無關。一個Web站點內的文檔完全可以包含指向其他站點的超鏈,這樣的超鏈為站間超鏈,與之對應,把位于同一個站點的超鏈稱為站內超鏈。雖然各個站點的具體內容千差萬別,但是它們的構造方式基本上是一樣的。本質上,每個Web站點的結構都具有層次性,特別是一些目錄式的站點,較易觀察到其結構。目錄CONTENTS數(shù)據(jù)源及任務分類Web內容挖掘Web結構挖掘Web使用挖掘5213410.5Web使用挖掘Web挖掘概述10.5Web使用挖掘用戶使用Web獲取信息的過程中,需要不停地從一個Web站點通過超文本鏈接跳轉到另一個站點。這種過程在Web上每一個提供信息資源地服務器上都有一個結構比較好地記錄集,即Web訪問日志,包括服務器端和客戶端的日志等。Web使用挖掘正是充分利用了這一資源來研究用戶的瀏覽行為,以此來識別電子商務的潛在客戶。10.5Web使用挖掘Web內容挖掘、Web結構挖掘的對象是網(wǎng)上的原始數(shù)據(jù),而Web使用記錄挖掘則不同于前兩者,它面對的是在用戶和網(wǎng)絡交互的過程中抽取出來的第二手數(shù)據(jù)。這些數(shù)據(jù)包括:網(wǎng)絡服務器訪問記錄、代理服務器日志記錄、瀏覽器日志記錄、用戶簡介、注冊信息、用戶對話或交易信息、用戶提問式等等。分析這些數(shù)據(jù)可以幫助理解用戶的行為,從而改進站點的結構,或為用戶提供個性化的服務。在Web使用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論