新浪微博的用戶畫像是怎樣構(gòu)建的_第1頁
新浪微博的用戶畫像是怎樣構(gòu)建的_第2頁
新浪微博的用戶畫像是怎樣構(gòu)建的_第3頁
新浪微博的用戶畫像是怎樣構(gòu)建的_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、新浪微博的用戶畫像是如何建立的?1.概括從上一篇認(rèn)識每一個“你”:微博中的用戶模型里面對用戶模型維度的劃分能夠看出,屬性和興趣維度的用戶模型都能夠納入用戶畫像(UserProfile)的范圍。而所謂用戶畫像,簡單來說就是對用戶的信息進行標(biāo)簽化。如圖1所示。一方面,標(biāo)簽化是對用戶信息進行構(gòu)造化,方便計算機的辨別和辦理;另一方面,標(biāo)簽自己也擁有正確性和非二義性,也有益于人工的整理、剖析和統(tǒng)計。用戶屬性指相對靜態(tài)和穩(wěn)固的人口屬性,比如:性別、年紀(jì)區(qū)間、地區(qū)、受教育程度、學(xué)校、企業(yè)這些信息的采集和成立主要依賴產(chǎn)品自己的指引、調(diào)查、第三方供給等。微博自己就有比較完好的用戶注冊指引、用戶信息完美任務(wù)、認(rèn)證

2、用戶審查、以及大批的合作對象等,在采集和沖洗用戶屬性的過程中,需要注意的主假如標(biāo)簽的規(guī)范化以及不同根源信息的交錯考證。用戶興趣則是更為動向和易變化的特點,第一興趣遇到人群、環(huán)境、熱門事件、行業(yè)等方面的影響,一旦這些要素發(fā)生變化,用戶的興趣簡單產(chǎn)生遷徙;其次,用戶的行為(特指在互聯(lián)網(wǎng)上的行為)多樣且碎片化,不同行為反應(yīng)出來的興趣差別較大。接下來主要介紹一下微博畫像中興趣維度的建立方法。微博用戶興趣剖析標(biāo)簽根源用戶自標(biāo)簽、達人或認(rèn)證標(biāo)簽、企業(yè)、學(xué)校、微群標(biāo)簽、星座、微博重點詞這些根源都可能成為用戶的標(biāo)簽。而針對每個特定的用戶采集標(biāo)簽除了其自己之外,他關(guān)注用戶的標(biāo)簽也會傳達到該用戶身上。如圖2所示(

3、藍(lán)色實線代表關(guān)注關(guān)系,橙色虛線代表興趣標(biāo)簽根源)。權(quán)重計算在采集到一個用戶可能存在的標(biāo)簽后,還需要給標(biāo)簽賦必定的權(quán)重,用來劃分不同標(biāo)簽關(guān)于該用戶的重要程度。不同標(biāo)簽的根源用戶質(zhì)量,標(biāo)簽的傳達路徑,轉(zhuǎn)發(fā)關(guān)系,標(biāo)簽的自己,以及標(biāo)簽與用戶之間的共現(xiàn)關(guān)系都會考慮在內(nèi)。不同質(zhì)量的用戶自己產(chǎn)生的標(biāo)簽權(quán)重不同樣,質(zhì)量越高,以為該標(biāo)簽的可信度越高,不論是將該標(biāo)簽賦給自己仍是傳達出去的時候其權(quán)重值越高。標(biāo)簽的傳達路徑主假如針對鑒于關(guān)注關(guān)系的標(biāo)簽傳達,親近度比較高的關(guān)注用戶傳達過來的標(biāo)簽權(quán)重值會比較高。標(biāo)簽是來自于用戶的原創(chuàng)仍是其轉(zhuǎn)發(fā)的微博,權(quán)重值會有差別,一般來說原創(chuàng)的權(quán)重會高于轉(zhuǎn)發(fā)權(quán)重。假如標(biāo)簽自己是一個非常

4、常有的詞,那么它用于刻畫用戶的興趣的劃分性是比較差的,相反假如是一個長尾詞,則劃分性較強。出于這樣的考慮,越是長尾詞,標(biāo)簽的權(quán)重值會越高。標(biāo)簽與用戶的共現(xiàn)關(guān)系是指用戶和該標(biāo)簽?zāi)芊癯39餐霈F(xiàn),評論的是二者的關(guān)系性。關(guān)系性越高,則標(biāo)簽的權(quán)重值越高。綜合上述的要素,一個標(biāo)簽關(guān)于特定用戶的權(quán)重值能夠大概表示為:標(biāo)簽權(quán)重(根源因子+親近度因子+轉(zhuǎn)發(fā)因子+長尾因子)共現(xiàn)因子。時效性跟著時間的變化,用戶的興趣會發(fā)生轉(zhuǎn)移,時間越長遠(yuǎn),標(biāo)簽的權(quán)重應(yīng)當(dāng)相應(yīng)的降落,距離目前時間越近的興趣標(biāo)簽應(yīng)當(dāng)獲得適合突出。出于這樣的考慮,一般會在標(biāo)簽權(quán)重值上疊加一個時間衰減函數(shù),這個時間衰減函數(shù)被設(shè)計成如圖3所示的指數(shù)衰減的形

5、式,經(jīng)過定義衰減幅度和半衰期,調(diào)理衰減的程度,表現(xiàn)不同的時效性。別的,針對用戶的興趣,還會設(shè)定一個較小的時間窗口來獲得用戶的短期興趣。經(jīng)過用戶在短時間內(nèi)的原創(chuàng)、轉(zhuǎn)發(fā)和關(guān)注行為采集興趣標(biāo)簽,并計算標(biāo)簽的權(quán)重。短期興趣更新周期會較長久興趣更短,興趣更集中,可是能夠比較實時地反響用戶興趣的變化。從興趣到能力但是,用戶擁有某方面的興趣,只代表了他愿意接受這方面的信息,其實不可以代表他擁有產(chǎn)生有關(guān)內(nèi)容的能力。所以,在發(fā)掘了用戶興趣標(biāo)簽的基礎(chǔ)上,還需要發(fā)掘哪些用戶能夠針對特定的標(biāo)簽擁有必定的內(nèi)容生產(chǎn)能力。微博中的關(guān)注關(guān)系能夠以為是一種認(rèn)證,擁有同樣興趣的用戶之間的關(guān)注則有可能是興趣相投(自然也可能不是,但畢竟有必定的指導(dǎo)性),那么將擁有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論