




已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
職業(yè)教育論文-Web數(shù)據(jù)挖掘現(xiàn)狀分析摘要:隨著Internet/Web技術(shù)的快速普及和迅猛發(fā)展,使各種信息可以以非常低的成本在網(wǎng)絡(luò)上獲得,如何在這個全球最大的數(shù)據(jù)集合中發(fā)現(xiàn)有用信息成為數(shù)據(jù)挖掘研究的熱點(diǎn)。Web數(shù)據(jù)挖掘是目前數(shù)據(jù)挖掘領(lǐng)域中的一個很重要的研究領(lǐng)域,文章介紹了Web數(shù)據(jù)挖掘研究領(lǐng)域的現(xiàn)狀及發(fā)展。關(guān)鍵詞:數(shù)據(jù)挖掘;Web挖掘Abstract:WiththerapiddevelopmentandpopularizationofInternet/Webtechnology,awiderangeofinformationcanbeaccessedinthenetworkatverylowcost.ThefocusofdataminingisHowtofindusefulinformationintheworldslargestdatacollection.Webminingisaveryimportantresearchinthefieldofdatamining.ThispaperoutlinestheareasofWebdataminingresearchanditsstatusquoanddevelopment.Keywords:datamining;webmining數(shù)據(jù)挖掘(DataMining,DM)是指從大量數(shù)據(jù)中提取或“挖掘”知識,即從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘知識的過程。隨著以數(shù)據(jù)庫、數(shù)據(jù)倉庫等數(shù)據(jù)倉儲技術(shù)為基礎(chǔ)的信息系統(tǒng)在各行各業(yè)的應(yīng)用,海量數(shù)據(jù)不斷產(chǎn)生,隨之而來的問題,便是如此多的數(shù)據(jù)讓人難以消化,無法從表面上看出他們所蘊(yùn)涵的有用信息。如何從大量的數(shù)據(jù)中找到真正有用的信息成為人們關(guān)注的焦點(diǎn),數(shù)據(jù)挖掘技術(shù)也正是伴隨著這種需求從研究走向應(yīng)用。各種類似Google、百度等的搜索引擎也層出不窮,Web數(shù)據(jù)挖掘的應(yīng)用在現(xiàn)實(shí)中不斷體現(xiàn)。1Web挖掘概述近年來,隨著Internet/Web技術(shù)的快速普及和迅猛發(fā)展,使各種信息能以非常低的成本在網(wǎng)絡(luò)上獲得,而從中取得的數(shù)據(jù)量便難以計算,而且Internet/WWW的發(fā)展趨勢繼續(xù)看好,特別是電子商務(wù)的蓬勃發(fā)展為網(wǎng)絡(luò)應(yīng)用提供了強(qiáng)大支持,因此,如何在WWW這個全球最大的數(shù)據(jù)集合中發(fā)現(xiàn)有用信息,無疑將成為數(shù)據(jù)挖掘研究的熱點(diǎn)。而Web挖掘便是指使用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。它建立在對大量的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上,采用相應(yīng)的數(shù)據(jù)挖掘算法,在具體的應(yīng)用模型上進(jìn)行數(shù)據(jù)的提取、篩選、轉(zhuǎn)換、挖掘和模式分析,最后作出歸納性的推理。Web挖掘研究覆蓋了多個研究領(lǐng)域,包括數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等。2Web挖掘流程與傳統(tǒng)數(shù)據(jù)和數(shù)據(jù)倉庫相比,Web上的信息是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動態(tài)的,并且是容易造成混淆的,所以很難直接以Web網(wǎng)頁上的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,而必須經(jīng)過必要的數(shù)據(jù)處理。典型Web挖掘的處理流程如下:(1)查找資源。從目標(biāo)Web文檔中得到數(shù)據(jù)。這些信息資源不僅限于在線Web文檔,還包括電子郵件、電子文檔、新聞組或者網(wǎng)站的日志數(shù)據(jù)甚至是通過Web形成的交易數(shù)據(jù)庫中的數(shù)據(jù)等。(2)信息選擇和預(yù)處理。從取得的Web資源中剔除無用信息,將信息進(jìn)行必要的整理。例如,從Web文檔中自動去除廣告連接和多余格式標(biāo)記、自動識別段落或者字段,并將數(shù)據(jù)組織成規(guī)整的邏輯形式甚至是關(guān)系表。(3)模式發(fā)現(xiàn):自動進(jìn)行模式發(fā)現(xiàn)??梢栽谕粋€站點(diǎn)內(nèi)部或在多個站點(diǎn)之間進(jìn)行。(4)模式分析:驗(yàn)證、解釋上一步驟產(chǎn)生的模式??梢允菣C(jī)器自動完成,也可以是與分析人員進(jìn)行交互來完成。Web挖掘作為一個完整的技術(shù)體系,在進(jìn)行挖掘之前的信息獲得IR(InformationRetrieval)和信息抽取IE(InformationExtraction)相當(dāng)重要。信息獲得(IR)的目的在于找到相關(guān)Web文檔,它只是把文檔中的數(shù)據(jù)看成未經(jīng)排序的詞組的集合;而信息抽取(IE)的目的在于從文檔中找到需要的數(shù)據(jù)項(xiàng)目,它對文檔的結(jié)構(gòu)和表達(dá)的含義感興趣,它的一個重要任務(wù)就是對數(shù)據(jù)進(jìn)行組織整理并適當(dāng)建立索引。3Web數(shù)據(jù)挖掘的分類Web數(shù)據(jù)挖掘是一項(xiàng)具有挑戰(zhàn)性的課題,它實(shí)現(xiàn)對Web存取模式、結(jié)構(gòu)和規(guī)則以及動態(tài)的Web內(nèi)容的查找。一般來說,Web數(shù)據(jù)挖掘可分為4類:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web使用記錄挖掘和Web用戶性質(zhì)挖掘。其中,Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用記錄挖掘是Web1.0時代就已經(jīng)有了的,而Web用戶性質(zhì)挖掘則是伴隨著Web2.0而出現(xiàn)的。3.1Web內(nèi)容挖掘Web內(nèi)容挖掘指從Web內(nèi)容、數(shù)據(jù)、文檔中發(fā)現(xiàn)有用信息,主要包括文本挖掘和多媒體挖掘兩類,其對象包括文本、圖像、音頻、視頻、多媒體和其他各種類型的數(shù)據(jù)。目前,Web內(nèi)容挖掘一般從兩個不同的觀點(diǎn)來進(jìn)行研究:一種是從資源(IR)查找的方面來看,即從用戶的角度出發(fā),研究怎樣提高信息質(zhì)量和幫助用戶過濾信息。這方面的研究大部分都是建立在詞匯袋(bagofwords)或稱向量表示法(vectorrepresentation)的基礎(chǔ)上,它將單個的詞匯看成文檔集合的屬性,只從統(tǒng)計的角度將詞匯孤立地看待,而忽略該詞匯出現(xiàn)的位置和上下文環(huán)境。這種方法的弊端是自由文本中的數(shù)據(jù)豐富,詞匯量非常大,處理起來很困難,為解決這個問題人們作了相應(yīng)的研究,采取了不同技術(shù),如信息增益、差異比等。另外一種是從數(shù)據(jù)庫(DB)的觀點(diǎn)進(jìn)行Web內(nèi)容挖掘,主要是試圖建立Web站點(diǎn)的數(shù)據(jù)模型并加以集成,以支持復(fù)雜查詢,而不只是簡單的基于關(guān)鍵詞的搜索。這要通過找到Web文檔的模式、建立Web知識庫來實(shí)現(xiàn)。數(shù)據(jù)庫技術(shù)應(yīng)用于Web挖掘主要是為了解決Web信息的管理和查詢問題。3.2Web結(jié)構(gòu)挖掘Web結(jié)構(gòu)挖掘的對象是Web本身的超鏈接,即對Web文檔的結(jié)構(gòu)進(jìn)行挖掘。由于有用的知識不僅包含在Web頁面的內(nèi)容中,而且也包含在頁面的結(jié)構(gòu)中,所以Web結(jié)構(gòu)挖掘是從站點(diǎn)的組織結(jié)構(gòu)和頁面結(jié)構(gòu)中推導(dǎo)出知識,找出數(shù)據(jù)鏈的結(jié)構(gòu)進(jìn)行分類、聚類,從而發(fā)現(xiàn)頁面間的關(guān)系,進(jìn)而改進(jìn)搜索引擎的性能。對于給定的Web文檔集合,應(yīng)該能夠通過算法發(fā)現(xiàn)它們之間鏈接情況的有用信息,文檔之間的超鏈接反映了文檔之間的包含、引用或者從屬關(guān)系,引用文檔對被引用文檔的說明往往更客觀、更概括、更準(zhǔn)確。Web結(jié)構(gòu)挖掘在一定程度上得益于社會網(wǎng)絡(luò)和引用分析的研究。Web結(jié)構(gòu)挖掘的基本思想是將Web看作一個有向圖,它的頂點(diǎn)是Web頁面,頁面間的超鏈接就是圖的邊,然后利用圖對Web的拓?fù)浣Y(jié)構(gòu)進(jìn)行分析。Web結(jié)構(gòu)挖掘算法一般可分為查詢相關(guān)算法和查詢獨(dú)立算法兩類。查詢相關(guān)算法需要為每一個查詢進(jìn)行一次超鏈分析從而進(jìn)行一次值的指派;而查詢獨(dú)立算法則為每個文檔僅進(jìn)行一次值的指派,對所有的查詢都使用此值。HITS和PageRank分別是查詢相關(guān)算法和查詢獨(dú)立算法的代表。他們的共同點(diǎn)是使用一定方法計算Web頁面之間超鏈接的質(zhì)量,從而得到頁面的權(quán)重。著名的Clever和Google搜索引擎就采用了該類算法。3.3Web使用記錄挖掘Web使用記錄挖掘也叫Web日志挖掘或Web訪問信息挖掘,在新興的電子商務(wù)領(lǐng)域有重要意義,它通過挖掘相關(guān)的Web日志記錄,來發(fā)現(xiàn)用戶訪問Web頁面的模式,通過分析日志記錄中的規(guī)律,可以識別用戶的忠實(shí)度、喜好、滿意度,可以發(fā)現(xiàn)潛在用戶,增強(qiáng)站點(diǎn)的服務(wù)競爭力。Web使用記錄數(shù)據(jù)除了服務(wù)器的日志記錄外,還包括代理服務(wù)器日志、瀏覽器端日志、注冊信息、用戶會話信息、交易信息、Cookie中的信息、用戶查詢等一切用戶與站點(diǎn)之間可能的交互記錄??梢?Web使用記錄的數(shù)據(jù)量是非常巨大的,而且數(shù)據(jù)類型也相當(dāng)豐富。根據(jù)對數(shù)據(jù)源的不同處理方法,Web用法挖掘可以分為兩種:將網(wǎng)絡(luò)服務(wù)器的日志文件作為原始數(shù)據(jù),應(yīng)用特定的預(yù)處理方法進(jìn)行處理后再進(jìn)行挖掘;將網(wǎng)絡(luò)服務(wù)器的日志文件轉(zhuǎn)換為圖表,然后再進(jìn)行進(jìn)一步的數(shù)據(jù)挖掘。通常,在對原始數(shù)據(jù)進(jìn)行預(yù)處理后就可以使用傳統(tǒng)的數(shù)據(jù)挖掘方法進(jìn)行挖掘。3.4Web用戶性質(zhì)挖掘Web用戶性質(zhì)挖掘是伴隨著Web2.0出現(xiàn)的?;赗SS、Blog、SNS以及Wiki等互聯(lián)網(wǎng)軟件的廣泛應(yīng)用,Web2.0幫助人們從Web1.0時代的各大門戶網(wǎng)站“填鴨”式的信息轟炸,過渡到了“人人對話”,每個普通用戶既是信息的獲取者,也是信息的提供者。面對Web2.0的誕生,Web數(shù)據(jù)挖掘技術(shù)又面臨著新的挑戰(zhàn)。在Web2.0時代,網(wǎng)絡(luò)徹底個人化了,它完全允許客戶用自己的方式、喜好和個性化的定制服務(wù)創(chuàng)造自己的互聯(lián)網(wǎng),它一方面給予互聯(lián)網(wǎng)用戶最大的自由度,另一方面給予有心商家有待發(fā)掘的高含金量信息數(shù)據(jù)。通過對Web用戶自建的RSS、Blog等Web2.0功能模塊下客戶信息的統(tǒng)計分析,能夠幫助運(yùn)營商以較低成本獲得準(zhǔn)確度較高的客戶興趣傾向、個性化需求以及新業(yè)務(wù)發(fā)展趨勢等信息。有關(guān)Web2.0下的數(shù)據(jù)挖掘,根據(jù)數(shù)據(jù)來源、數(shù)據(jù)類型、數(shù)據(jù)集合中的用戶數(shù)量、數(shù)據(jù)集合中的服務(wù)器數(shù)量等將Web用戶性質(zhì)挖掘分為5類:(1)個性挖掘。針對單個用戶的使用記錄對該用戶進(jìn)行建模,結(jié)合該用戶基本信息分析他的使用習(xí)慣和個人喜好,目的是在電子商務(wù)環(huán)境下為該用戶提供與眾不同的個性化服務(wù)。(2)系統(tǒng)改進(jìn)。Web服務(wù)(數(shù)據(jù)庫、網(wǎng)絡(luò)等)的性能和其他服務(wù)質(zhì)量是衡量用戶滿意度的關(guān)鍵指標(biāo),Web用法挖掘可以通過用戶的記錄發(fā)現(xiàn)站點(diǎn)的性能瓶頸,以提示站點(diǎn)管理者改進(jìn)Web緩存策略、網(wǎng)絡(luò)傳輸策略、流量負(fù)載平衡機(jī)制和數(shù)據(jù)的分布策略。此外,可以通過分析網(wǎng)絡(luò)的非法入侵?jǐn)?shù)據(jù)找到系統(tǒng)弱點(diǎn),提高站點(diǎn)安全性,這在電子商務(wù)環(huán)境下尤為重要。(3)站點(diǎn)修改。站點(diǎn)的結(jié)構(gòu)和內(nèi)容是吸引用戶的關(guān)鍵。Web挖掘通過用戶的行為記錄和反饋情況為站點(diǎn)設(shè)計者提供改進(jìn)的依據(jù),比如頁面連接情況應(yīng)如何組織、哪些頁面能夠直接訪問等。(4)智能商務(wù)。用戶怎樣使用Web站點(diǎn)的信息,無疑是電子商務(wù)銷售商關(guān)心的重點(diǎn),用戶一次訪問的周期可分為被吸引、駐留、購買和離開4個步驟,Web挖掘可以通過分析用戶點(diǎn)擊流等Web日志信息挖掘用戶行為的動機(jī),以幫助銷售商合理安排銷售策略
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高三上學(xué)期《時間顆?!分黝}班會課件
- 行進(jìn)間高手上籃教案
- 2025年電動輪椅項(xiàng)目可行性研究報告
- 2025年生命支持系統(tǒng)儀器外殼項(xiàng)目可行性研究報告
- 2025年玉容粉項(xiàng)目可行性研究報告
- 2025春新版三下科學(xué)?概念總結(jié)(背誦版)
- 宜昌市虎亭區(qū)2024-2025學(xué)年三下數(shù)學(xué)期末質(zhì)量跟蹤監(jiān)視模擬試題含解析
- 江蘇省南京棲霞區(qū)重點(diǎn)名校2024-2025學(xué)年初三中考模擬卷(二)英語試題含答案
- 西安醫(yī)學(xué)院《數(shù)字地形測量學(xué)(2)》2023-2024學(xué)年第二學(xué)期期末試卷
- 漯河職業(yè)技術(shù)學(xué)院《城市規(guī)劃原理A》2023-2024學(xué)年第二學(xué)期期末試卷
- 2023年浙江杭州市屬事業(yè)單位統(tǒng)一招聘工作人員371人筆試參考題庫(共500題)答案詳解版
- 國家開放大學(xué)《人文英語3》章節(jié)測試參考答案
- 江蘇省四星級高中評估標(biāo)準(zhǔn)及評價細(xì)則
- 經(jīng)濟(jì)學(xué)說史教程第四版題庫
- 高鐵站智能化設(shè)計方案
- GB/T 12727-2023核電廠安全重要電氣設(shè)備鑒定
- 崗位安全操作規(guī)程
- 促進(jìn)林業(yè)產(chǎn)業(yè)高質(zhì)量發(fā)展的建議
- 體外診斷試劑的應(yīng)急預(yù)案
- 公共場所衛(wèi)生監(jiān)督培訓(xùn)課件
- 水泥混凝土路面打裂壓穩(wěn)施工工法
評論
0/150
提交評論