社交網(wǎng)絡(luò)用戶行為系統(tǒng)探究_第1頁
社交網(wǎng)絡(luò)用戶行為系統(tǒng)探究_第2頁
社交網(wǎng)絡(luò)用戶行為系統(tǒng)探究_第3頁
社交網(wǎng)絡(luò)用戶行為系統(tǒng)探究_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、社交網(wǎng)絡(luò)用戶行為系統(tǒng)探究【摘要】隨著網(wǎng)絡(luò)迅猛發(fā)展,網(wǎng)絡(luò)社交成為人們交 友、聯(lián)系的新方式,如何建設(shè)一個人性化的社交網(wǎng)絡(luò),建設(shè) 人性化的社交網(wǎng)站的依據(jù)是什么?如果更好的為用戶服 務(wù)?這些問題歸結(jié)到社交網(wǎng)絡(luò)用戶行為的分析上,對用戶行 為數(shù)據(jù)進(jìn)行分析,根據(jù)不同用戶的行為屬性分類進(jìn)行數(shù)據(jù)挖 掘,從而得出不同類型用戶的習(xí)慣和偏好【關(guān)鍵詞】社交網(wǎng)絡(luò)用戶行為數(shù)據(jù)挖掘在web 0志挖掘的過程中,信息的采集和清洗是個很重 要的過程,特別是有目的進(jìn)行數(shù)據(jù)的歸類,為了更好的實(shí)現(xiàn) 我們的研究目的,我們針對性的對web日志進(jìn)行處理原理進(jìn) 行分析1用戶行為的分類根據(jù)用戶訪問的目的進(jìn)行用戶行為的分類,本文利用用 戶典型的訪問

2、行為進(jìn)行分類,根據(jù)用戶對某些訂閱信息產(chǎn)生 的特征向量從而發(fā)現(xiàn)用戶的個人和社交的信息。我們對用戶 的特征向量進(jìn)行聚類分析,得出用戶的不同類型分組,區(qū)別 與其他的興趣度的研究方向,典型的行為研究更加簡潔和顯 著優(yōu)酷是中國最大的視頻網(wǎng)站之一,優(yōu)酷提供了一個很重 要的用戶社交和交互功能,我們將視頻分類,用戶的功能有: 添加好友,分享視頻,關(guān)注好友的視頻,留言互動,視頻評 級,視頻標(biāo)注熱愛度等。我們根據(jù)這些點(diǎn)進(jìn)行用戶分類,每 個用戶為一個節(jié)點(diǎn),兩個節(jié)點(diǎn)的用戶進(jìn)行交互時,產(chǎn)生''訂 閱向量”,一個用戶的視頻會直接分享到另一個用戶,并且 隨著用戶交互的數(shù)量增多,類似訂閱的用戶聚類,即相近興

3、趣聚類(1)根據(jù)廣度優(yōu)先算法進(jìn)行隨機(jī)抽選訪問用戶的信息, 對隨機(jī)抽選的用戶進(jìn)行具體的跟蹤和調(diào)查,由一個用戶擴(kuò)展 到和他相關(guān)聯(lián)的用戶,如同滾雪球一樣關(guān)聯(lián)的用戶越來越 多,收集的信息也隨著增多,直到手動停止結(jié)束(2)根據(jù)被其他用戶訂閱數(shù)量的排名進(jìn)行篩選用戶, 排名最高的用戶作為最初的集合,從最初的集合向下擴(kuò)張(3)用戶向量表示法:每個用戶為一個向量,長度為9, 每個向量包含該用戶所有的信息:1)用戶上傳視頻的數(shù)量: 表示訪問用戶上傳不同視頻數(shù)量。2)瀏覽視頻的數(shù)量:表 示訪問用戶訪問不同視頻數(shù)量,區(qū)分潛在消費(fèi)者。3)創(chuàng)建 賬號時間:表示訪問用戶創(chuàng)建該賬號時間。4)賬號年齡: 表示訪問用戶在該社交網(wǎng)

4、絡(luò)活動時間。5)用戶聚類系數(shù): 表示訪問用戶之間緊密系數(shù),例如:a用戶訪問b, b訪問c, 則a訪問c的系數(shù)增加。6)訂閱潛在值:表示某訪問用戶 訂閱數(shù)量從而推測現(xiàn)在的消費(fèi)用戶。7)被訂閱制造值:表 示a用戶被其他訪問用戶訂閱的總數(shù)量,進(jìn)而找到視頻制造 用戶。8)訂閱用戶數(shù)量:表不a用戶訂閱其他用戶的數(shù)量。 9)交互潛在性:表示用戶相互訂閱系數(shù)。針對每個屬性進(jìn) 行規(guī)范化,每個屬性都分布0到1區(qū)間值(4) 基于用戶訪問距離聚類:利用k-means算法進(jìn)行 用戶訪問距離分組,歐式距離作為訪問用戶之間的分組依 據(jù),即通過信號的相似度進(jìn)行做距離向量的值,信號越相似 距離越近,距離越近越容易聚類為一個組

5、(5) 通過聚類向量法相算法中的k值是影響用戶訪問 特征向量的關(guān)鍵,因此我們選擇k值是關(guān)鍵2測試分析我們通過對web服務(wù)器記錄日志的流程進(jìn)行數(shù)據(jù)采集, 通常情況下webserver日志文件和server位于同一服務(wù) 器,分析的方法一般2種:(1) 編寫日志分析代碼在服務(wù)器上,當(dāng)進(jìn)行日志分析 時啟動分析程序代碼,整個過程在服務(wù)器進(jìn)行,分析完成我 們只需要把分析結(jié)果取回,然后反饋到客戶端。這樣省去了 網(wǎng)絡(luò)帶寬的要求,不需要大數(shù)據(jù)的傳送,減輕了客戶端的負(fù) 載(2) 利用ftp把服務(wù)器端的日志文件傳到客戶端,在 客戶端進(jìn)行日志文件的分析,這種方式的優(yōu)點(diǎn)是減輕了服務(wù) 器的壓力,但是同時在傳輸數(shù)據(jù)時占用帶寬,因?yàn)槲覀儾蓸?的日志文件一般超過幾百兆或者幾個g大小,如果客戶端和 服務(wù)器地理位置相對較遠(yuǎn),這種方式不合理本文采用的是第一種方法,流程為上圖1-2所示,在服 務(wù)器端進(jìn)行數(shù)據(jù)分析處理web服務(wù)器:負(fù)責(zé)接收客戶端的分析請求,并將分析結(jié) 果最終形成的web頁面發(fā)送給客戶端cgi程序:把從webserver傳送過來的請求傳送給日志 分析程序,接收日志分析程序分析的結(jié)果并以頁面的形式發(fā) 送給web服務(wù)器日志

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論