版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于Web日志挖掘技術(shù)的商務(wù)信息系統(tǒng)構(gòu)建論文導(dǎo)讀:Web日志挖掘,是Web使用挖掘的一種,就是通過(guò)對(duì)Web日志記錄的挖掘,發(fā)現(xiàn)用戶(hù)訪問(wèn)Web頁(yè)面的模式,從而進(jìn)一步分析和研究Web日志記錄中的規(guī)律,以期改進(jìn)Web站點(diǎn)的性能和組織結(jié)構(gòu),提高用戶(hù)查找信息的質(zhì)量和效率,并通過(guò)統(tǒng)計(jì)和關(guān)聯(lián)的分析找出特定用戶(hù)與特定地域、特定時(shí)間、特定頁(yè)面等要素之間的內(nèi)在聯(lián)系,這在電子商務(wù)等領(lǐng)域是大有作為的。web日志挖掘是關(guān)于用戶(hù)行為及潛在顧客信息的發(fā)現(xiàn),一般包括三個(gè)階段,即數(shù)據(jù)預(yù)處理、模式識(shí)別及模式分析。Web日志挖掘技術(shù)為商務(wù)信息網(wǎng)站構(gòu)建的合理性分析以及相關(guān)電子商務(wù)信息系統(tǒng)建設(shè)提供了重要的科學(xué)指導(dǎo)。關(guān)鍵詞:Web日志挖
2、掘,商務(wù)信息網(wǎng)站,數(shù)據(jù)1.Web日志挖掘的概念Web日志挖掘,是Web使用挖掘的一種,就是通過(guò)對(duì)Web日志記錄的挖掘,發(fā)現(xiàn)用戶(hù)訪問(wèn)Web頁(yè)面的模式,從而進(jìn)一步分析和研究Web日志記錄中的規(guī)律,以期改進(jìn)Web站點(diǎn)的性能和組織結(jié)構(gòu),提高用戶(hù)查找信息的質(zhì)量和效率,并通過(guò)統(tǒng)計(jì)和關(guān)聯(lián)的分析找出特定用戶(hù)與特定地域、特定時(shí)間、特定頁(yè)面等要素之間的內(nèi)在聯(lián)系,這在電子商務(wù)等領(lǐng)域是大有作為的。用戶(hù)使用Web獲取信息的過(guò)程中需要不停地從一個(gè)Web站點(diǎn)通過(guò)超文本鏈接跳轉(zhuǎn)到另一個(gè)站點(diǎn),這種過(guò)程存在一定的普遍性,發(fā)現(xiàn)此規(guī)律即是Web用戶(hù)訪問(wèn)信息發(fā)現(xiàn)。免費(fèi)論文。web日志挖掘是關(guān)于用戶(hù)行為及潛在顧客信息的發(fā)現(xiàn),一般包括三個(gè)
3、階段,即數(shù)據(jù)預(yù)處理、模式識(shí)別及模式分析。2.Web日志挖掘的過(guò)程Web日志挖掘通過(guò)分析和研究Web日志記錄中的規(guī)律,識(shí)別電子商務(wù)的潛在用戶(hù),提高對(duì)最終用戶(hù)信息服務(wù)的質(zhì)量并改進(jìn)Web服務(wù)系統(tǒng)的性能和結(jié)構(gòu)。2.1數(shù)據(jù)預(yù)處理Web日志文件記錄中存儲(chǔ)的是用戶(hù)訪問(wèn)站點(diǎn)信息的原始記錄,直接在這些數(shù)據(jù)上面進(jìn)行挖掘是比較困難的,在使用算法或工具對(duì)其進(jìn)行分析之前,必須進(jìn)行預(yù)處理。預(yù)處理過(guò)程是Web日志挖掘質(zhì)量保證的關(guān)鍵,因?yàn)樘幚砗蟮臄?shù)據(jù)好壞、全面與否,直接影響到數(shù)據(jù)挖掘的結(jié)果,進(jìn)而對(duì)網(wǎng)站決策者的決策造成直接影響。特別是中小型電子商務(wù)網(wǎng)站,其數(shù)據(jù)相對(duì)較少,因此數(shù)據(jù)處理的準(zhǔn)確性極為重要。Web日志預(yù)處理主要有4個(gè)步
4、驟:數(shù)據(jù)凈化、用戶(hù)識(shí)別、會(huì)話識(shí)別和數(shù)據(jù)合并。Web日志文件中包含一些不能反映用戶(hù)行為的記錄,數(shù)據(jù)凈化就是去掉這些記錄。而用戶(hù)識(shí)別的目的是對(duì)用戶(hù)的唯一性的識(shí)別。在通常情況下,只有通過(guò)分析日志文件中的IP地址、agent等信息來(lái)識(shí)別不同的用戶(hù)。會(huì)話識(shí)別是建立在對(duì)用戶(hù)識(shí)別的基礎(chǔ)上的,其目的是將用戶(hù)的訪問(wèn)記錄分為單個(gè)會(huì)話。同時(shí),對(duì)于網(wǎng)站上繁雜的頁(yè)面,由于數(shù)量較多,而且有許多網(wǎng)頁(yè)的內(nèi)容有一定的聯(lián)系或相似之處,所以可以對(duì)其進(jìn)行一定程度的合并,從而將其分成能反映網(wǎng)站邏輯信息的同質(zhì)類(lèi)別。特別是中小型電子商務(wù)網(wǎng)站的網(wǎng)頁(yè),由于網(wǎng)站設(shè)計(jì)人員的知識(shí)架構(gòu)、技術(shù)層次以及對(duì)所要設(shè)計(jì)的網(wǎng)站內(nèi)容的了解程度的限制,很難建立一個(gè)完
5、全無(wú)重復(fù)內(nèi)容網(wǎng)頁(yè)和完全反映網(wǎng)站邏輯信息的網(wǎng)站。如果不對(duì)網(wǎng)頁(yè)進(jìn)行一定程度的合并,那么數(shù)據(jù)集合中變量的數(shù)量也即對(duì)應(yīng)的瀏覽過(guò)的網(wǎng)頁(yè)數(shù)量就太大了,甚至這些變量中許多組合從來(lái)都沒(méi)有現(xiàn)過(guò),或出現(xiàn)的很少,所以就需要將數(shù)據(jù)進(jìn)行合并。免費(fèi)論文。免費(fèi)論文。2.2模式發(fā)現(xiàn)模式發(fā)現(xiàn)階段就是利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的以及最終可以理解的信息和知識(shí)。可用于Web的挖掘技術(shù)有路徑選擇、關(guān)聯(lián)分析、分類(lèi)規(guī)則、聚類(lèi)分析、序列分析、依賴(lài)性建模等。2.3模式分析模式分析是Web日志挖掘中的最后一項(xiàng)重要的步驟,主要是為了在模式發(fā)現(xiàn)算法找到的模式集合中發(fā)現(xiàn)有趣(有用)的模式。對(duì)于一個(gè)商務(wù)信息系統(tǒng),通過(guò)模式發(fā)現(xiàn)與模式分
6、析,可以得到詳細(xì)的用戶(hù)反饋,幫助他們根據(jù)實(shí)際用戶(hù)的瀏覽情況,調(diào)整網(wǎng)站的網(wǎng)頁(yè)鏈接結(jié)構(gòu)和網(wǎng)頁(yè)內(nèi)容,對(duì)網(wǎng)站進(jìn)行優(yōu)化,從而延長(zhǎng)用戶(hù)的駐留時(shí)間,挽留老用戶(hù)、吸引新州戶(hù),并增加用戶(hù)的購(gòu)買(mǎi)率,以此獲得電子商務(wù)網(wǎng)站的成功運(yùn)行;而通過(guò)對(duì)內(nèi)部管理系統(tǒng)用戶(hù)的聚類(lèi),可以明確網(wǎng)站運(yùn)營(yíng)的缺陷在哪里,還有何可以改進(jìn)的地方。3.Web日志挖掘技術(shù)在商務(wù)信息系統(tǒng)中的構(gòu)建3.1建立個(gè)性化的網(wǎng)站模型(1)用戶(hù)可以通過(guò)注冊(cè)后訪問(wèn)網(wǎng)站,也可以不通過(guò)注冊(cè)直接訪問(wèn);(2)針對(duì)不同的用戶(hù),網(wǎng)站提供不同的服務(wù);(3)根據(jù)用戶(hù)的訪問(wèn)記錄信息,動(dòng)態(tài)調(diào)整網(wǎng)站的頁(yè)面,產(chǎn)生的個(gè)性化的網(wǎng)站使得用戶(hù)可以更容易地到達(dá)他所需服務(wù)的數(shù)據(jù)網(wǎng)頁(yè);(4)挖掘用戶(hù)的We
7、b訪問(wèn)日志,在用戶(hù)定制區(qū)內(nèi)預(yù)測(cè)并推薦用戶(hù)的潛在訪問(wèn)網(wǎng)頁(yè)鏈接。3.2個(gè)性化網(wǎng)站系統(tǒng)的框架系統(tǒng)主要由4個(gè)功能模塊組成,分別為用戶(hù)識(shí)別模塊,行為記錄模塊,興趣識(shí)別模塊和個(gè)性推薦模塊。各個(gè)模塊的說(shuō)明如下。(1)用戶(hù)識(shí)別模塊。用戶(hù)識(shí)別模塊處理用戶(hù)的基本信息并識(shí)別用戶(hù)。包括用戶(hù)的登錄名(注冊(cè)用戶(hù)有自己唯一對(duì)應(yīng)的name;非注冊(cè)用戶(hù)有一個(gè)共同的name,但有不同的Cookie值);用戶(hù)登錄密碼;用戶(hù)注冊(cè)個(gè)人信息時(shí)填入的喜好;以及為了更加準(zhǔn)確地識(shí)別用戶(hù)而獲取的關(guān)于用戶(hù)身份的其他一些基本信息,如MAC地址、IP地址、瀏覽器版本號(hào)和操作系統(tǒng)版本號(hào)等。用戶(hù)登錄后通過(guò)用戶(hù)名或Cookie值為每個(gè)用戶(hù)分配UserID,
8、以方便其他模塊進(jìn)一步地調(diào)整網(wǎng)站的頁(yè)面以及在用戶(hù)定制區(qū)內(nèi)推薦該用戶(hù)可能訪問(wèn)的鏈接。(2)行為記錄模塊。用戶(hù)的訪問(wèn)(行為記錄)日志是系統(tǒng)進(jìn)行用戶(hù)個(gè)性化特征分析的數(shù)據(jù)依據(jù)和數(shù)據(jù)基礎(chǔ)。訪問(wèn)日志模塊處理用戶(hù)行為記錄的各項(xiàng)信息,包括用戶(hù)訪問(wèn)某一頁(yè)面的時(shí)間以及在該頁(yè)面停留的時(shí)間,訪問(wèn)某一頁(yè)面的次數(shù),用戶(hù)訪問(wèn)網(wǎng)站的某頁(yè)面的URL地址,為其他相關(guān)模塊提供用戶(hù)信息,以及對(duì)大量數(shù)據(jù)保存方面的管理配置。(3)興趣識(shí)別模塊。一個(gè)網(wǎng)站由眾多網(wǎng)頁(yè)構(gòu)成的結(jié)點(diǎn)組成,結(jié)點(diǎn)之間的聯(lián)系是通過(guò)頁(yè)面的鏈接來(lái)實(shí)現(xiàn)的。一些大型門(mén)戶(hù)網(wǎng)站首頁(yè),大量的鏈接讓人跟花繚亂。在這類(lèi)網(wǎng)站上讓用戶(hù)填寫(xiě)興趣表單只會(huì)考驗(yàn)用戶(hù)的耐心。因此根據(jù)用戶(hù)在網(wǎng)站中各頁(yè)面的
9、停留時(shí)間和訪問(wèn)次數(shù)等特征,結(jié)合用戶(hù)參與、識(shí)別、建立、調(diào)整該用戶(hù)的喜好,可以避免用戶(hù)填寫(xiě)一系列繁瑣的表單操作。興趣的識(shí)別模塊將根據(jù)訪問(wèn)日志模塊所給出的各個(gè)用戶(hù)不同信息計(jì)算得到該用戶(hù)的興趣強(qiáng)度,并且把識(shí)別的結(jié)果存儲(chǔ)在用戶(hù)興趣分類(lèi)中,以便為頁(yè)面顯示提供數(shù)據(jù)源。(4)個(gè)性推薦模塊。個(gè)性推薦模塊的功能包括興趣回顧和興趣推薦,根據(jù)用戶(hù)過(guò)去的行為預(yù)測(cè)用戶(hù)的將來(lái)行為。網(wǎng)站的用戶(hù)在登錄以后,個(gè)性推薦模塊根據(jù)用戶(hù)的UserlD查找用戶(hù)興趣庫(kù)中該用戶(hù)的歷史興趣,利用個(gè)性化推薦進(jìn)行興趣推薦。系統(tǒng)針對(duì)用戶(hù)的不同興趣提供相應(yīng)的服務(wù)。在頁(yè)面主顯示區(qū)和用戶(hù)定制區(qū)分別顯示相應(yīng)的內(nèi)容。免去用戶(hù)多次點(diǎn)擊鏈接的麻煩,使用戶(hù)的訪問(wèn)更加有效率。4.結(jié)束語(yǔ)Web日志挖掘技術(shù)為商務(wù)信息網(wǎng)站構(gòu)建的合理性分析以及相關(guān)電子商務(wù)信息系統(tǒng)建設(shè)提供了重要的科學(xué)指導(dǎo)。實(shí)踐證明,通過(guò)對(duì)Web日志進(jìn)行預(yù)處理,清理、過(guò)濾以及重新組合不規(guī)范的記錄,并將Web日志中的數(shù)據(jù)轉(zhuǎn)換為挖掘算法可識(shí)別的形式來(lái)挖掘關(guān)聯(lián)規(guī)則,并對(duì)用戶(hù)進(jìn)行聚類(lèi)和分類(lèi),能夠找出特定用戶(hù)與特定地域、特定時(shí)間、特定頁(yè)面等要素之間的內(nèi)在聯(lián)系,發(fā)現(xiàn)用戶(hù)訪問(wèn)Web頁(yè)面的模式,從而改進(jìn)Web站點(diǎn)的性能和組織結(jié)構(gòu),提高用戶(hù)查找信息的質(zhì)量和效率。參考文獻(xiàn)1
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年支票打印軟件搬遷改造項(xiàng)目可行性研究報(bào)告
- 2024-2030年撰寫(xiě):中國(guó)電腦鑼項(xiàng)目風(fēng)險(xiǎn)評(píng)估報(bào)告
- 2024-2030年撰寫(xiě):中國(guó)氯唑靈行業(yè)發(fā)展趨勢(shì)及競(jìng)爭(zhēng)調(diào)研分析報(bào)告
- 2024-2030年撰寫(xiě):中國(guó)分板機(jī)項(xiàng)目風(fēng)險(xiǎn)評(píng)估報(bào)告
- 2024-2030年多卡座讀寫(xiě)器搬遷改造項(xiàng)目可行性研究報(bào)告
- 月相觀測(cè)創(chuàng)意課程設(shè)計(jì)
- 2024-2030年四川省博物館市場(chǎng)運(yùn)作模式調(diào)研規(guī)劃研究報(bào)告
- 2024-2030年冶煉專(zhuān)用閥搬遷改造項(xiàng)目可行性研究報(bào)告
- 2024-2030年全球私人游艇行業(yè)現(xiàn)狀發(fā)展分析及未來(lái)投資戰(zhàn)略建議報(bào)告
- 2024-2030年全球及中國(guó)電子級(jí)三氟甲磺酸行業(yè)運(yùn)行態(tài)勢(shì)及前景動(dòng)態(tài)預(yù)測(cè)報(bào)告
- 期末試題-2024-2025學(xué)年人教PEP版英語(yǔ)六年級(jí)上冊(cè) (含答案)
- 2025蛇年元旦蛇年新年晚會(huì)模板
- 幼兒園教育活動(dòng)設(shè)計(jì)與指導(dǎo)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 燃?xì)饨?jīng)營(yíng)安全重大隱患判定標(biāo)準(zhǔn)課件
- 偉大的《紅樓夢(mèng)》智慧樹(shù)知到期末考試答案章節(jié)答案2024年北京大學(xué)
- 2024年中儲(chǔ)糧集團(tuán)招聘筆試參考題庫(kù)附帶答案詳解
- 死亡通知書(shū)模板
- 最新全球4G頻段精編版
- 真速通信密拍暗訪取證系統(tǒng)分冊(cè)
- 基于閱讀文本的寫(xiě)作課堂觀察記錄表
- 2018年建設(shè)工程質(zhì)量檢測(cè)企業(yè)組織架構(gòu)、部門(mén)職能、商業(yè)模式、行業(yè)現(xiàn)狀研究
評(píng)論
0/150
提交評(píng)論