下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
web用戶訪問會話識別方法
1web用戶訪問記錄由于網(wǎng)絡(luò)傳輸協(xié)議http的狀態(tài)、客戶端和代理服務(wù)器緩慢,用戶訪問協(xié)議的狀態(tài)狀態(tài)分別存在于服務(wù)器、代理服務(wù)器和客戶端。同時,這分布在不同地方的訪問日志數(shù)據(jù)集也分別記載了用戶使用網(wǎng)絡(luò)資源的不同模式,比如,客戶端瀏覽器日志記錄了單個用戶訪問多個網(wǎng)站的模式;Web服務(wù)器的日志則記錄了多個用戶訪問一個網(wǎng)站的模式;代理服務(wù)器日志跟蹤記錄了多個用戶訪問多個網(wǎng)站的情況。從Web用戶訪問日志中探究用戶訪問規(guī)律前必須要把這些日志收集整理,進行預(yù)處理,形成多個用戶一次次對同一服務(wù)器的會話。這中間主要涉及到對用戶的確定,確定用戶瀏覽Web頁面的時間,確定用戶訪問服務(wù)器會話期間和用戶訪問服務(wù)器會話期間頁面幾個步驟。本文在分析國際上Web數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理方面研究狀況的基礎(chǔ)上,經(jīng)過對用戶瀏覽行為的合理假定,提出了基于時間窗口模型和最大前向參引模型的用戶訪問會話識別方法。2web日志數(shù)據(jù)預(yù)處理方法分析2.1現(xiàn)有技術(shù)的優(yōu)缺點我們知道,用戶訪問和服務(wù)器資源不是一對一的關(guān)系,比如,服務(wù)器端日志可能記載了一個用戶在多個客戶端提交請求的情況,也可能是多個用戶在一個客戶端提交請求的情況。同時,由于存在緩存、防火墻和代理服務(wù)器等的存在,準(zhǔn)確確定出每個用戶很困難。除非通過在客戶端跟蹤用戶的行蹤得到第一手的訪問資料,否則,很難準(zhǔn)確確定用戶。即使能做到這一點,在客戶端跟蹤用戶的訪問行為因為要涉及到用戶的個人隱私,必須用戶自己要配合才行。在這種情況下有關(guān)學(xué)者也設(shè)計了種種啟發(fā)式推斷用戶的方法,表1歸納了目前常用的為確定用戶及其行為所使用的方法及其優(yōu)缺點。表1中根據(jù)IP和代理識別用戶是最簡單易行的,不過,誤差也最大。嵌入SessionID技術(shù)一般在電子商務(wù)記錄用戶購物籃內(nèi)物品時最常用,對每一次用戶訪問都嵌入一個SessionID,也就是把一段時間內(nèi)同一用戶的請求都標(biāo)記上相同的SessionID號。但是,嵌入SessionID只在動態(tài)網(wǎng)站上適用,而且是以時間間隔來判別當(dāng)前SessionID是否失效,超過一定的時間段就需要分配新SessionID,因此沒有考慮短時間內(nèi)重復(fù)訪問的情況。注冊的方法只有在用戶登錄進站以后才能跟蹤用戶訪問行為,方法準(zhǔn)確性稍高一些,但是并不是所有的用戶都愿意注冊,且每一次訪問時都愿意登錄,可操作性不強。在客戶端寫入Cookie標(biāo)志,可以跟蹤用戶的重復(fù)訪問情況,精確性較高,但是用戶如果不打開瀏覽器Cookie開關(guān),就無法實施。目前有一種折中的方法把用戶注冊登錄與寫Cookie技術(shù)結(jié)合起來,用戶可以選擇本次登錄以后與下次登錄的時間間隔,利用代理軟件,精確性高,可以得到用戶精確的訪問情況,但是可操作性也不強,用戶可能認(rèn)為侵犯了個人隱私,拒絕使用代理軟件。修改了的瀏覽器可得到用戶對廣域網(wǎng)范圍內(nèi)的訪問情況,對用戶隱私涉及程度也最深,幾乎不能實施,可操作性很差。如果不使用表1的方法收集客戶在客戶端瀏覽行為的數(shù)據(jù),用戶訪問日志數(shù)據(jù)挖掘中,只根據(jù)服務(wù)器端日志數(shù)據(jù)確定用戶是有誤差的。確定用戶的誤差會導(dǎo)致對用戶訪問服務(wù)器會話期間的劃分出現(xiàn)偏差,從而引起數(shù)據(jù)挖掘結(jié)果也出現(xiàn)偏差。因此,如何準(zhǔn)確確定用戶而又不涉及用戶隱私在研究領(lǐng)域內(nèi)一直很受關(guān)注。2.2服務(wù)器記載的時間由于網(wǎng)絡(luò)擁塞情況不同,Web頁面大小不同,服務(wù)器記載用戶請求頁面的時刻,瀏覽頁面時間也有較大的偏差。根據(jù)服務(wù)器端記載的用戶瀏覽頁面時間明顯要比客戶端實際的瀏覽時間長。服務(wù)器記載的時間是從服務(wù)器響應(yīng)用戶請求時開始,在服務(wù)器收到用戶發(fā)出的下一次請求時結(jié)束。其中,包括了Web頁面?zhèn)鬟f向客戶瀏覽器的時間、用戶瀏覽頁面實際使用的時間、用戶下一次請求傳到服務(wù)器的時間。受客戶端連接處理速度、頁面大小和網(wǎng)絡(luò)擁擠程度的影響,服務(wù)器記載的用戶瀏覽頁面時間誤差大小甚至可以達到幾分鐘,因此,無法準(zhǔn)確確定用戶訪問時間。實際應(yīng)用中一般都把服務(wù)器記載的用戶訪問時間當(dāng)作用戶瀏覽時間。2.3確定用戶訪問行為并進行時間窗口評估一般地,Web服務(wù)器都要并發(fā)處理多個用戶的請求,因此,要從多個相互交織的用戶訪問會話期間中正確區(qū)分出所有用戶訪問會話期間也是有一定困難的。一般都是對用戶在客戶端瀏覽行為做合理的假定,然后在此基礎(chǔ)上確定用戶訪問服務(wù)器會話期間。因此,也不能保證完全精確。目前最常做的假設(shè)有:用戶訪問過程中只有在改變訪問主題時,才會訪問前面訪問過的頁面以跳轉(zhuǎn)到另外的頁面;用戶一次訪問的時間都不會超過一個最大的限制——時間窗口(TimeWindow)。與之相對應(yīng)也就出現(xiàn)了兩種確定用戶訪問行為及訪問服務(wù)器會話期間的模型:最大前向參引模型(MaximalForwardReferenceModel)、時間窗口模型(TimeWindowModel)。最大前向參引模型中所謂前向,指的是某頁面不在目前的訪問服務(wù)器會話期間頁面集里。后向指的是某頁面已在目前的訪問服務(wù)器會話期間集里。比如,一個用戶在一次瀏覽過程中請求了ABCBCDE頁面,根據(jù)最大前向參引模型,用戶訪問過的訪問服務(wù)器會話期間應(yīng)該是ABC和BCDE。時間窗口模型,以用戶訪問會話歷時來作為用戶訪問服務(wù)器會話期間的分界,如式(1)所示。當(dāng)然也可能用戶離開了,卻長時間開著瀏覽器,如果出現(xiàn)這種情況,也可以使用間隔時間來區(qū)分訪問服務(wù)器會話期間。時間窗口是可以調(diào)整的。ltmmt.time-lt11t.time≤W(1)不過,在實際用戶訪問中經(jīng)常用戶在時間窗口內(nèi)同時在進行著兩個以上的訪問服務(wù)器會話期間,比如同時打開幾個瀏覽器窗口,在一個窗口內(nèi)容下載過程中,瀏覽另外的窗口內(nèi)容。因此,我們提出把時間窗口模型和最大參引模型結(jié)合起來,對訪問服務(wù)器會話期間進行推斷的方法。3基于最大前向參引模型的時間窗口模型前面介紹了根據(jù)不同的用戶瀏覽行為假設(shè)確定用戶訪問服務(wù)器會話期間的兩種方法,實際使用過程中都存在不完善的地方。假如某網(wǎng)站具有以下的鏈接結(jié)構(gòu):假如某用戶訪問序列是ABCDBEGF,訪問A頁面的時刻為0時刻。根據(jù)服務(wù)器記載,T1=5,T2=10,T3=16,T4=20,T5=28,T6=56,T7=60。而第T5=28分鐘訪問到E頁面,此刻用戶接了一個電話,在第T6=56分鐘時請求了E頁面,在第60分鐘又請求了G頁面。這種情形下,根據(jù)最大前向參引模型,可以劃分為兩個會話期間—ABCD和CEFG。根據(jù)時間窗口模型,取時間窗口長度為15分鐘,那么,可以劃分為三個會話期間分別是ABC,DCE和FG。可見,單純使用最大前向參引模型,無法區(qū)分一個用戶沿時間軸訪問的準(zhǔn)確轉(zhuǎn)折點,比如說用戶前后兩次訪問間隔了有可能把一個用戶的若干次訪問全都分配到一個訪問服務(wù)器會話期間中。而時間窗口模型僅按照用戶瀏覽時間長短區(qū)分,如果用戶在短時間(時間窗口)里進行了兩次訪問,用時間窗口模型就無法區(qū)分,同時,如果時間窗口設(shè)置不合適,又會把不屬于一次訪問會話的頁面放在一起。因此,我們提出綜合以上兩種方法優(yōu)點的會話期間確定方法:①根據(jù)最大前向參引模型生成用戶訪問服務(wù)器會話期間。②把根據(jù)最大前向參引模型劃分的除了第一個會話期間的其他會話期間按照時間窗口約束進行劃分。在上述中把BEFG,再根據(jù)時間窗口約束W=15進行劃分,就得到了ABCD,BE,FG三個會話期間。4不同頁面的參引關(guān)系由于客戶端緩存的存在,用戶訪問過程中會不斷訪問到緩存中間已經(jīng)存在的頁面,前面的方法只是從服務(wù)器日志中區(qū)分出了一個個用戶訪問服務(wù)器會話期間,其中沒有完全包含所有用戶訪問過的頁面。需要推斷完善用戶訪問服務(wù)器會話期間。這里給出了一種推斷的算法。總體思路是判斷兩個相鄰的頁面之間是否存在參引關(guān)系,所謂參引關(guān)系,就是指從一個頁面上的鏈接可以訪問到另一個頁面。若沒有參引關(guān)系,就有需要推斷。假定相鄰頁面中間,后一個頁面為當(dāng)前頁面。這里就有兩種可能性:①需要推理的頁面在該用戶訪問會話期間以前面頁面為參引頁面的頁面集中間;②需要推理的頁面在前面頁面的參引頁面中間。因此,問題就轉(zhuǎn)換為在以前面頁面為參引頁面的頁面集與后一個頁面的參引頁面集之間的交集,或者前面頁面的參引頁面集和后一個頁面的參引頁面集中間尋找服務(wù)器日志中沒有記載的用戶訪問頁面。通過這種方法就可以補上用戶從客戶端緩存中訪問的頁面。根據(jù)圖1和圖2,我們知道E,C頁面之間不存在直接參引關(guān)系,通過尋找E,C頁面參引頁面的交集—B,可以推斷出用戶在訪問C與E頁面之間,可能通過客戶端的緩存訪問到了B頁面,由B頁面上的鏈接轉(zhuǎn)到了E頁面。同樣道理,我們可以推斷出用戶在訪問F頁面之前可能通過客戶端的緩存訪問到了B和A頁面,由A頁面上的鏈接轉(zhuǎn)到了F頁面。5服務(wù)器信息整理通過對用戶訪問日志分析,確定用戶訪問會話期間、推斷和完善用戶訪問會話期間,我們可以比較清楚地了解用戶訪問的情況,為進一步的Web用戶訪問數(shù)據(jù)挖掘做好準(zhǔn)備。本文在上述假設(shè)基礎(chǔ)上只給出了如何把服務(wù)器端日志整理成用戶訪問會話期間并完善會話期間的方法。綜合了最大化前向訪問模型和時間窗口模型確定用戶訪問服務(wù)器會話期間的方法。其次,由于一個完整的Web是由一個個圖片和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園月教學(xué)計劃模板
- 醫(yī)院護士年度計劃范本
- 大班表演游戲計劃
- 農(nóng)村綜治宣傳月的工作計劃
- 度班組長工作計劃
- 客服員工作計劃
- 《GDP與GNP的區(qū)別》課件
- 醫(yī)院醫(yī)保年終工作計劃總結(jié)
- 《行為應(yīng)用分析》課件
- 2020版 滬教版 高中音樂 必修1 音樂鑒賞 下篇《第八單元 不忘初心》大單元整體教學(xué)設(shè)計2020課標(biāo)
- 二年級數(shù)學(xué)上冊口算天天練
- 2024國家開放大學(xué)電大本科《液壓氣動技術(shù)》期末試題及答案
- 商務(wù)服務(wù)機器人技術(shù)現(xiàn)狀與未來發(fā)展趨勢研究
- 工業(yè)物聯(lián)網(wǎng)(IIoT)行業(yè)發(fā)展全景調(diào)研與投資趨勢預(yù)測研究報告
- 金融數(shù)據(jù)分析-以Python為工具 課件 一、金融數(shù)據(jù)分析概覽
- 佛山市、三水區(qū)2022-2023學(xué)年七年級上學(xué)期期末地理試題【帶答案】
- 2024屆湖北高三元月調(diào)考數(shù)學(xué)試卷含答案
- DL∕T 1476-2023電力安全工器具預(yù)防性試驗規(guī)程
- 西方園林史智慧樹知到期末考試答案章節(jié)答案2024年內(nèi)蒙古農(nóng)業(yè)大學(xué)
- 學(xué)年上學(xué)期期末職業(yè)高中高二年級數(shù)學(xué)練習(xí)試卷2
- 工程部設(shè)計部崗位職責(zé)
評論
0/150
提交評論