


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、聚類挖掘在電子商務(wù)中的應(yīng)用 摘 要 闡述了電子</a商務(wù)系統(tǒng)中的研究和應(yīng)用中,利用基于關(guān)聯(lián)規(guī)則的多層次、超圖分割聚類方法,對Web網(wǎng)頁和用戶進(jìn)行有效聚類。該方法借助網(wǎng)站層次圖,可以根據(jù)實(shí)際需要,在各個層次上進(jìn)行聚類分析,僅將高度相關(guān)的網(wǎng)頁和用戶聚在同一類,而將關(guān)聯(lián)性較小的網(wǎng)頁排除在聚類外。 關(guān)鍵詞 聚類挖掘 電子商務(wù) 關(guān)聯(lián)規(guī)則 超圖 由于Web具有方便、易用、高效的特點(diǎn),電子商務(wù)顯示出越來越強(qiáng)大的生命力,同時各種商業(yè)Web站點(diǎn)也面臨越來越激烈的競爭。 有效聚類Web用戶和網(wǎng)頁對改進(jìn)網(wǎng)站質(zhì)量、完善電子商務(wù)中產(chǎn)品銷售策略具有十分重要的意義。在電
2、子商務(wù)中,瀏覽模式相似的用戶具有相似的購買習(xí)慣,通過聚類挖掘,將這些用戶聚集在同一類,可以制定相似的銷售策略。根據(jù)瀏覽模式聚集在同一類中的網(wǎng)頁,是大多數(shù)用戶共同訪問的網(wǎng)頁,在這些網(wǎng)頁之間建立超鏈接,以方便用戶使用。 現(xiàn)有的基于瀏覽模式的Web聚類挖掘研究方法中,只要用戶請求了一個網(wǎng)頁,便認(rèn)為用戶閱讀了該網(wǎng)頁,事實(shí)上有些被請求的網(wǎng)頁用戶并不關(guān)心,不會認(rèn)真閱讀的。通常一個實(shí)用網(wǎng)站包含大量的網(wǎng)頁,現(xiàn)有的Web聚類方法將每個網(wǎng)頁當(dāng)作一個被聚項(xiàng),無論用戶訪問的頻繁與否,總是歸入一個類中,結(jié)果造成有些類中的網(wǎng)頁之間幾乎沒有相關(guān)性。 鑒于以上考慮,本文提出了基于關(guān)聯(lián)規(guī)則和超圖分割的聚類Web網(wǎng)頁及用戶的方法
3、,不僅考慮了用戶瀏覽網(wǎng)頁的時間長短,還考慮了聚類層次(級別),將不相關(guān)網(wǎng)頁項(xiàng)排除在聚類之外,使每個類中的網(wǎng)頁具有較高的相關(guān)性。采用這種方法,可以優(yōu)化Web站點(diǎn)拓?fù)浣Y(jié)構(gòu),指企業(yè)調(diào)整營銷策略,給客戶提供動態(tài)的個性化的高效率服務(wù)。 一、建立電子商務(wù)網(wǎng)站的層次模型 建立電子商務(wù)網(wǎng)站的層次模型出于三點(diǎn)考慮。第一,網(wǎng)站中網(wǎng)頁內(nèi)容組織呈現(xiàn)樹狀結(jié)構(gòu)。第二,在進(jìn)行關(guān)聯(lián)規(guī)則挖掘過程中,可能最下一級挖掘不出達(dá)到指定Support的強(qiáng)規(guī)則,但是能從上級層次挖掘出達(dá)到指定Support的強(qiáng)規(guī)則,或根據(jù)實(shí)際需要在某一個層次進(jìn)行聚類分析。第三,對于電子商務(wù)網(wǎng)站,有些用戶雖然訪問了某網(wǎng)頁,但是對其內(nèi)容并不感興趣,可能只是掃一
4、眼就放棄。在此情況下,不應(yīng)該認(rèn)為用戶認(rèn)真閱讀了該網(wǎng)頁,所以應(yīng)該記錄網(wǎng)頁的長度,通過計算用戶的瀏覽時間和網(wǎng)頁長度的比值來判斷用戶是否真正認(rèn)真閱讀了該頁內(nèi)容。 層次模型采用樹狀結(jié)構(gòu)來描述,節(jié)點(diǎn)的數(shù)據(jù)域包含對應(yīng)網(wǎng)頁的層次名稱(編號)和網(wǎng)頁長度。樹根應(yīng)該取所研究的網(wǎng)站根目錄(研究整個網(wǎng)站)或所研究的網(wǎng)站分支的最上層目錄。在建立層次模型時,應(yīng)根據(jù)網(wǎng)站的具體情況決定采用的方法。通常情況下,網(wǎng)頁文件名能完全反映網(wǎng)頁所在的層次,可以采用完全自動方法進(jìn)行轉(zhuǎn)換。 二、基于關(guān)聯(lián)規(guī)則的聚類挖掘 1.預(yù)處理 在Web站點(diǎn)中,服務(wù)器日志文件記錄用戶的訪問方式、所訪問的頁面、訪問時間、用戶IP地址等信息,通過收集Web日志
5、所記錄的用戶瀏覽信息可以對網(wǎng)頁和用戶聚類。首先要對收集到的數(shù)據(jù)進(jìn)行預(yù)處理,獲得每個用戶所訪問的網(wǎng)頁序列。將一個用戶對某個特定網(wǎng)站的一次連續(xù)瀏覽(從登錄該網(wǎng)站一直到離開該網(wǎng)站)所訪問的網(wǎng)頁序列稱為一個用戶瀏覽事務(wù)。如果用戶中途訪問了另一網(wǎng)站,而后又返回該網(wǎng)站,返回后所瀏覽的網(wǎng)頁序列將組成另一個用戶瀏覽事務(wù)。處理后的事務(wù)序列將具有如下的形式: u_id(用戶標(biāo)志編號),p_id(頁面編號)序列 2.挖掘關(guān)聯(lián)規(guī)則并計算關(guān)聯(lián)規(guī)則可信度的平均值 對經(jīng)過預(yù)處理的瀏覽事務(wù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,挖掘出滿足一定支持度的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是在挖掘出頻繁網(wǎng)頁集的基礎(chǔ)上發(fā)現(xiàn)的,由于頻繁網(wǎng)頁集是大多數(shù)用戶在一個事務(wù),即一次
6、網(wǎng)站訪問中所共同瀏覽的頁面,所以頻繁網(wǎng)頁集反映了這些網(wǎng)頁或共同訪問這些網(wǎng)頁的用戶之間存在一定的聯(lián)系,如網(wǎng)頁內(nèi)容高度相關(guān)。在進(jìn)行聚類時,應(yīng)該首先考慮將頻繁網(wǎng)頁集中的網(wǎng)頁聚合在一個類中。 通常挖掘頻繁網(wǎng)頁集的方法是在給定某一支持度的基礎(chǔ)上進(jìn)行的,滿足該給定支持度的一個頻繁網(wǎng)頁集中的網(wǎng)頁可能是另一個或另幾個頻繁網(wǎng)頁集中的元素,那么將這些網(wǎng)頁應(yīng)該聚合到前一項(xiàng)目集還是后面的某一項(xiàng)目集?正確的選擇應(yīng)該是看這些網(wǎng)頁和哪一項(xiàng)目集聯(lián)系更為密切,可采用的方案有兩種:提高支持度繼續(xù)挖掘頻繁網(wǎng)頁集直到每一網(wǎng)頁僅處于一個項(xiàng)目集或利用各頻繁網(wǎng)頁集中網(wǎng)頁之間關(guān)聯(lián)規(guī)則的可信度。進(jìn)一步仔細(xì)分析,前一方案不可取,首先可能不存在一
7、個支持度使每個網(wǎng)頁僅位于一個頻繁網(wǎng)頁集中;其次即使存在這樣一個支持度,再進(jìn)行多次的頻繁網(wǎng)頁集挖掘代價也太高,實(shí)際中是不可行的。 相比之下,后一方案可行度高,在挖掘出滿足指定支持度的頻繁網(wǎng)頁集的基礎(chǔ)上,可以較為方便地計算出每一個頻繁網(wǎng)頁集中的每個關(guān)聯(lián)規(guī)則的可信度??尚哦鹊拇笮∫卜从沉司W(wǎng)頁之間關(guān)聯(lián)的密切程度。為此,計算每個頻繁網(wǎng)頁集中所有的關(guān)聯(lián)規(guī)則的可信度,在此基礎(chǔ)上計算其所有關(guān)聯(lián)規(guī)則可信度的平均值,用可信度的平均值反映網(wǎng)頁與不同的頻繁網(wǎng)頁集之間聯(lián)系的密切程度。 3.利用超圖進(jìn)行網(wǎng)頁聚類 超圖是對圖的擴(kuò)充,允許一條邊連接三個或三個以上的點(diǎn)。每條邊帶有權(quán)的超圖稱為加權(quán)超圖,在挖掘出頻繁網(wǎng)頁集和關(guān)聯(lián)規(guī)
8、則的基礎(chǔ)上,可以得到網(wǎng)站的加權(quán)超圖。超圖中的一個頂點(diǎn)代表一個網(wǎng)頁,超圖的邊稱為超邊,超邊連接的頂點(diǎn)是頻繁網(wǎng)頁集中的網(wǎng)頁。每個超邊的權(quán)取該邊所對應(yīng)的頻繁網(wǎng)頁集中所有關(guān)聯(lián)規(guī)則可信度的平均值。 上圖為超圖的示意圖,代表A,B和C所組成的頻繁網(wǎng)頁集的超邊的權(quán)值,0.7是A,B和C三個網(wǎng)頁所組成的所有關(guān)聯(lián)規(guī)則可信度的平均值。 為了使聚集結(jié)果的每個類中的網(wǎng)頁具有高度相關(guān)性,超圖中僅包含出現(xiàn)在強(qiáng)關(guān)聯(lián)規(guī)則中的網(wǎng)頁。利用超圖進(jìn)行聚類的方法是逐步切割超邊將超圖進(jìn)行分割,分割成多個子超圖,分割的原則是被切割的超邊的權(quán)值和盡可能小,從而保證將相互關(guān)聯(lián)比較小的網(wǎng)頁分割在
9、不同的子圖,而將關(guān)聯(lián)比較密切的網(wǎng)頁保留在同一子圖內(nèi)。分割過程繼續(xù)進(jìn)行直到被切割超邊的權(quán)值和與留下的超邊權(quán)值和的比值大于某一臨界值,或所得到的子超圖數(shù)目達(dá)到某指定值,分割過程結(jié)束,留下的各子超圖便是聚類的結(jié)果。每一個子超圖對應(yīng)一個聚類,超圖中的各頂點(diǎn)代表該聚類中所包含的網(wǎng)頁。 4.事務(wù)和用戶聚類 在將網(wǎng)頁進(jìn)行聚類的基礎(chǔ)上,可以將瀏覽網(wǎng)站的事務(wù)和用戶進(jìn)行聚類。瀏覽事務(wù)聚類的原則是根據(jù)事務(wù)和網(wǎng)頁聚類的相似度進(jìn)行,將事務(wù)聚合在相似度最高的網(wǎng)頁類中。事務(wù)和網(wǎng)頁類的相似度可以按照如下公式計算: |TjCi|/|Ci| 其中,Tj為一個事務(wù),Ci為一個聚類,|TjCi|為Tj和Ci中所包含的相同頁面的數(shù)目,
10、|Ci|為Ci中所包含的頁面數(shù)目。 在記錄網(wǎng)站用戶標(biāo)志的情況下,可以通過用戶的瀏覽事務(wù)聚類將用戶進(jìn)行聚類,即將訪問相似網(wǎng)頁的用戶聚在同一類。 5.聚類挖掘結(jié)果的可視化 聚類挖掘的結(jié)果是多維的,由于笛卡兒坐標(biāo)系最多只有三個坐標(biāo),所以不能用通常的方法作圖。而且這些多維的數(shù)據(jù)集一般不含有空間語義,數(shù)據(jù)集的各維之間沒有空間連貫性,這也很難用傳統(tǒng)的二維或三維圖形直接表達(dá)多維空間。本文采用了一種通過主分量分析將多維空間坐標(biāo)轉(zhuǎn)換為三維坐標(biāo)的挖掘結(jié)果可視化方法,實(shí)現(xiàn)聚類挖掘結(jié)果的可視化。根據(jù)生成的各個點(diǎn)之間的距離和簇的形狀,我們可以有效地從大量數(shù)據(jù)中發(fā)現(xiàn)對我們有用的信息。 三、結(jié)論 闡述了在電子商務(wù)系統(tǒng)的研究
11、和應(yīng)用中,利用基于關(guān)聯(lián)規(guī)則的多層次、超圖分割聚類方法,對Web網(wǎng)頁和用戶進(jìn)行有效聚類。該方法借助網(wǎng)站層次圖,可以根據(jù)實(shí)際需要,在各個層次上進(jìn)行聚類分析;在挖掘出滿足一定Support的關(guān)聯(lián)規(guī)則的基礎(chǔ)上進(jìn)行聚類,僅將高度相關(guān)的網(wǎng)頁和用戶聚在同一類,而將關(guān)聯(lián)性較小的網(wǎng)頁排除在聚類外。該方法對于改進(jìn)網(wǎng)站質(zhì)量、完善電子商務(wù)中產(chǎn)品銷售策略具有十分重要的意義。 參考文獻(xiàn): 1Pei J, Han J, Behazad M, et al. Proceedings of the 1999 KDD Workshop on Web MiningC, Kyoto: PKDD, 1999. 396-407 2Cooley R, Mobasher B, Srivastava J. Data Preparation for mining World Wide Web Browsing Patterns J. Knowledge and Information System, 1999,1(1): 25-29 3Karypis G, Aggarwal R, Kumar V, et al. Multi-l
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 重大危險源管理制度
- 鏟車保養(yǎng)及管理制度
- 門店藥品陳管理制度
- 2025至2030年中國多功能無線數(shù)碼門鈴行業(yè)投資前景及策略咨詢報告
- 2025至2030年中國四升降金屬黑板行業(yè)投資前景及策略咨詢報告
- 2025至2030年中國古董陳列柜行業(yè)投資前景及策略咨詢報告
- 門窗安裝隊(duì)管理制度
- 防信息泄漏管理制度
- 非醫(yī)用物資管理制度
- 《老子》四章課件
- 焊接車間作業(yè)流程看板
- 家族成員關(guān)系輩分排列樹狀圖含女眷
- 圍堰施工監(jiān)理實(shí)施細(xì)則
- 老年癡呆護(hù)理
- 新生血管性青光眼課件
- 車間精益改善總結(jié)報告課件(PPT 19頁)
- 中小學(xué)教育懲戒規(guī)則(試行)全文解讀ppt課件
- YY∕T 1797-2021 內(nèi)窺鏡手術(shù)器械 腔鏡切割吻合器及組件
- 《冬病夏治工作指南》
- 布魯克納操作手冊
- 印度尼西亞煤炭購銷合同
評論
0/150
提交評論