基于文本挖掘的互聯(lián)網(wǎng)微博信息轉發(fā)行為預測_第1頁
基于文本挖掘的互聯(lián)網(wǎng)微博信息轉發(fā)行為預測_第2頁
基于文本挖掘的互聯(lián)網(wǎng)微博信息轉發(fā)行為預測_第3頁
基于文本挖掘的互聯(lián)網(wǎng)微博信息轉發(fā)行為預測_第4頁
基于文本挖掘的互聯(lián)網(wǎng)微博信息轉發(fā)行為預測_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于文本挖掘的互聯(lián)網(wǎng)微博信息轉發(fā)行為預測

1微博參與網(wǎng)絡傳播的總體情況隨著互聯(lián)網(wǎng)技術的普及,更多的人享受互聯(lián)網(wǎng)帶來的樂趣。尤其是近年來,基于網(wǎng)絡社交網(wǎng)絡的快速發(fā)展,人們越來越多地參與互聯(lián)網(wǎng)的廣泛社交活動。以中國最大的微博網(wǎng)站——官方微博為例,微博用戶已經(jīng)超過5億人了。每天產(chǎn)生超過1億微博內容。事實上,以微博為代表的社交網(wǎng)絡已經(jīng)成為當前的主要媒體之一。因此,對用戶行為和信息傳播規(guī)律的研究有助于互聯(lián)網(wǎng)公司更準確地了解每個用戶的偏好,并將最喜歡的話題信息推薦給用戶。政府部門可以通過預測新聞傳播范圍以及用戶的觀點和態(tài)度,正確評估輿論的熱點問題,并及時采用科學的控制和指導。2基于特征量化的信息傳播路徑在線社交網(wǎng)絡的信息傳播行為已經(jīng)成為當前的研究熱點.Boyd等人[2-3]以Twitter[2]為研究對象,對Twitter上人們Retweet的方式(類似國內微博網(wǎng)站上的“轉發(fā)”)、Retweet的動機以及被Retweet信息的內容主題傾向進行了分析.Suh等人[4]選取了URL、標簽、關注人數(shù)等因素,使用主成份分析方法(PCA)分析了影響用戶轉發(fā)的主要因素,最后結合所選因素應用廣義線性模型分析影響因素與轉發(fā)行為之間的關系.但這些研究僅僅是對轉發(fā)行為的統(tǒng)計分析,缺少對用戶行為的預測.文獻采用了基于概率的協(xié)同過濾模型,稱為Matchbox[6],作者選取了用戶名、關注人數(shù)、微博包含的單詞個數(shù)等特征對用戶的轉發(fā)行為進行預測,雖然這些特征在一定程度上反映了用戶行為特點,但并不是最主要的影響因子.文獻中作者選取了22個影響因素,并采用因子圖模型進行預測分析,對于用戶轉發(fā)行為預測取得了較高的精度,但由于對所選特征的量化處理過于簡單,信息傳播路徑預測的精度較低.Liben-Nowell等人[9]較為全面地討論了信息在真實社會網(wǎng)絡中傳播的特征及與之相關的一系列問題,并且指出:精確的預測信息傳播路徑是非常困難的;使用簡單的預測模型往往與真實情況相距甚遠,比如Email的實際傳播模式與小世界傳播模型不同,小世界模型人們之間的距離都比較短,但實際上電子郵件傳播有的要經(jīng)過數(shù)百個中間節(jié)點.在Kossinets等人[10]的工作中,作者首先對社會網(wǎng)絡數(shù)據(jù)進行網(wǎng)絡聚類,之后生成特征結構傳播樹并得到異步響應時間,最終提出并描述了一個概率模型.也有不少研究采用SIR、SIS等經(jīng)典傳播模型[11]對信息傳播擴散進行分析研究.研究者對不同類型的多種在線社交網(wǎng)絡進行了研究,包括Flickr[12]、Blogs[13]、Digg[14]以及YouTube[15]等,這些研究揭示了信息在社交網(wǎng)絡上傳播所表現(xiàn)出來的規(guī)律.Fan等人[16]對新浪微博的拓撲及信息擴散進行了研究,發(fā)現(xiàn)新浪微博的拓撲結構具有小世界及無標度特性,度分布服從冪律分布,熱門事件的擴散拓撲呈現(xiàn)星形或兩級結構.Webberley等人[17]對信息在Twitter上傳播的深度、產(chǎn)生影響的廣度以及轉發(fā)延遲進行了研究,作為對用戶行為模式和轉發(fā)規(guī)律的初步研究對本文的研究工作具有很好的借鑒意義.Galuba等人[18]對Twitter上URL信息在用戶之間傳播規(guī)律進行了研究,提出了一個預測URL轉發(fā)路徑預測模型.Yang等人[19]發(fā)現(xiàn)在Twitter上信息內容對相關用戶的提及率是影響該信息傳播速度、規(guī)模及范圍的重要因素.以上針對在線社交網(wǎng)絡中信息傳播路徑和影響范圍的分析預測大多得到的是信息在特定網(wǎng)絡上傳播所呈現(xiàn)的統(tǒng)計規(guī)律,例如文獻的研究結果說明Email網(wǎng)絡的傳播樹呈現(xiàn)傳播廣度小、傳播深度大的特性,但是并沒有針對特定信息預測其傳播可能經(jīng)過的路徑.同時部分研究將網(wǎng)絡中的節(jié)點視作具有相同或相近的行為模式[18],這顯然是不合理的,因為網(wǎng)絡中的每個個體具有各自獨立的行為特征.另外,目前大多數(shù)研究工作是針對國外的社交網(wǎng)絡,如Twitter、Facebook、Flickr等,針對國內在線社交網(wǎng)絡的研究還比較少.隨著我國經(jīng)濟的發(fā)展,互聯(lián)網(wǎng)普及率大大提高,我國的網(wǎng)民數(shù)量比例已超過國內人口總數(shù)三分之一,僅新浪微博的注冊人數(shù)就超過了5億,地域性也是在線社交網(wǎng)絡的一個主要特性,不同國家的社交網(wǎng)絡在用戶行為、信息傳播上可能呈現(xiàn)出不同的特性,因此,針對國內在線社交網(wǎng)絡的研究更為迫切.針對以上存在的問題及不足,本文首先根據(jù)實際社交網(wǎng)絡新浪微博在線數(shù)據(jù),對各種可能影響用戶轉發(fā)行為的因素進行統(tǒng)計分析,獲得各種因素對用戶轉發(fā)行為的影響關系,然后重點研究微博類社交網(wǎng)絡上用戶的轉發(fā)行為模式,給出用戶轉發(fā)預測模型,并以此建立信息傳播路徑級聯(lián)概率模型,實現(xiàn)對用戶行為及信息傳播影響趨勢的預測.3通過轉發(fā)微博獲取數(shù)據(jù)密集我們基于新浪微博的開放接口1開發(fā)了爬蟲程序來抓取需要的數(shù)據(jù).程序依照廣度優(yōu)先的策略,從一個特定的用戶開始,爬取該用戶最近發(fā)表的100條微博,對于其中的每條微博,再爬取該微博的轉發(fā)微博以及轉發(fā)該微博的用戶,將這些用戶添加至待爬取隊列.結束對一個用戶的處理之后,再取出待爬取用戶隊列中的第一個用戶,繼續(xù)同樣的處理,循環(huán)往復.爬取程序不間斷運行了一周時間,通過這種方式,最終從1935391個用戶中獲得了10785921條微博消息.經(jīng)過初步統(tǒng)計,我們發(fā)現(xiàn)其中28.98%的微博是原創(chuàng)的,71.02%的微博是轉發(fā)產(chǎn)生的.由于我們的目標是發(fā)現(xiàn)轉發(fā)模式,通過該方法抓取的轉發(fā)樣本要比其他方法得到的數(shù)據(jù)集比例更大.3.1微博關注網(wǎng)絡聚類系統(tǒng)和轉發(fā)樹拓撲結構我們按照廣度優(yōu)先的次序對轉發(fā)網(wǎng)絡進行遍歷能夠獲得較為完整的子圖.同時在抓取過程中過濾掉活躍度過低的用戶,這些用戶的行為比較隨機,歷史行為也比較少,不具有代表性.隨后我們又抓取了所有用戶之間的137284538條關注關系,得到了完整的關注拓撲.通過對關注網(wǎng)絡拓撲進行分析,發(fā)現(xiàn)入度分布近似滿足冪律分布,如圖1所示;出度分布滿足150定律2,如圖2所示,由于新浪微博對普通用戶關注人數(shù)的限制為最多2000人,因此在橫軸2000的位置附近出現(xiàn)了一個人數(shù)高峰.我們對關注網(wǎng)絡進行采樣,并計算出樣本網(wǎng)絡的聚類系數(shù)為0.168,直徑為7,平均距離為3.068,可以看出新浪微博關注網(wǎng)絡具有較高的聚類系數(shù)和較小的平均距離,符合小世界特征.但是節(jié)點之間平均距離與我們的常識不太一致,不同于人人網(wǎng)、Facebook等網(wǎng)絡,微博關注網(wǎng)絡是有向的,而平均距離卻更小(Facebook上用戶之間的平均距離為4.743),這是一個有趣的現(xiàn)象.說明微博上人與人之間的聯(lián)系更為緊密,也就是說消息往往只需要經(jīng)過很少的跳數(shù)就能傳播到網(wǎng)絡上的其他人.我們對轉發(fā)樹的拓撲也進行了分析,列舉出了幾種常見模式,圖3是4條微博的轉發(fā)樹拓撲,可以看出轉發(fā)樹的拓撲結構主要分為兩類:星形結構和多極結構.星形結構往往是以微博原創(chuàng)者為中心,其第一層轉發(fā)者絕大部分都是他的粉絲,再向外則只有少量轉發(fā);多極結構的形成往往是因為有多個入度較大的節(jié)點參與轉發(fā),高入度節(jié)點的每次轉發(fā)都會引起一次轉發(fā)高峰,因此可以認為推動微博在網(wǎng)絡上擴散的原因不僅僅在于微博內容,更在于是否有高入度的節(jié)點參與轉發(fā).分析顯示,不管何種傳播模式都有一個共同的特點,即傳播樹在深度上都比較小,廣度卻比較大.圖4反映轉發(fā)樹最大深度分布近似符合冪律分布,也就是說大多數(shù)的傳播路徑都比較短.這也在一定程度上解釋了消息為什么能在微博網(wǎng)絡上迅速傳播.3.2微博轉發(fā)樣本生成轉發(fā)樣本比較容易識別.以新浪微博為例,用戶點擊轉發(fā)按鈕后會彈出轉發(fā)對話框,如圖5所示.用戶可以添加一段評論,點擊發(fā)布后,產(chǎn)生一條新的微博,該微博的格式形如://@UserScreenName:PreviousHopWeiboText.因此如果微博中出現(xiàn)了“//@UserScreenName:”這樣的模式,說明該微博是通過轉發(fā)UserScreenName用戶的微博產(chǎn)生的.新浪微博相應的API也會返回轉發(fā)微博的源微博標志(ORIMID,對于原創(chuàng)微博返回0),因此通過該方法能夠識別轉發(fā)樣本.3.3微博忽略樣本識別算法為了研究微博如何在網(wǎng)絡上傳播,我們需要知道在何種情況下,人們愿意將微博分享給自己的關注者.因此需要判定用戶看到微博時的兩種行為:轉發(fā)行為和忽略行為.我們將轉發(fā)樣本作為正例,將忽略樣本作為負例.定義1.若用戶u轉發(fā)了在t時刻發(fā)表的微博,則將他關注的用戶在[t-Δt,t+Δt]時間區(qū)間內發(fā)表的且未被u轉發(fā)的微博稱為忽略樣本.相比于轉發(fā)樣本識別,忽略樣本的識別較為困難,原因在于用戶忽略動作行為無法顯式地體現(xiàn)在數(shù)據(jù)集中.用戶沒有轉發(fā)微博可能并不是用戶主觀忽略微博行為,也可能是由于用戶不在線而錯過的消息.為了解決這個問題,我們通過用戶的轉發(fā)動作來識別忽略行為,以提高樣本的準確度.算法描述如下:算法1.微博忽略樣本識別算法.輸入:用戶ui關注的用戶發(fā)表的微博集合Pi;以新浪微博為例,當用戶登錄微博后,他所關注的用戶最近發(fā)表的微博會按照時間的倒序展現(xiàn)在頁面上.用戶通常從上至下順序閱讀,再通過點擊“下一頁”按鈕閱讀更早的微博.當用戶遇到感興趣并認為值得轉發(fā)的微博(假設該微博發(fā)表時間戳為t1),他們會點擊轉發(fā)按鈕,并最終在時間t2生成新的微博,如圖6所示.因此,我們認為其關注的用戶在t1前后一小段時間內[t1-Δt,t1+Δt]發(fā)表的微博已經(jīng)被該用戶閱讀,如果沒有轉發(fā)則是該用戶主觀忽略的微博.Δt越小,忽略動作的識別越準確.在本文中,Δt取15min.4影響用戶記錄操作的因素分析在本小節(jié)中,通過歸一化處理,我們將分析對比可能促進或者制約用戶轉發(fā)行為的若干影響因素,并歸納其各自特征.4.1用戶轉發(fā)特征:粉絲人數(shù)和粉絲轉發(fā)在眾多影響用戶轉發(fā)行為的特征中,微博原創(chuàng)者的影響力可能會對下游用戶的行為產(chǎn)生影響.而直接衡量一個用戶的影響力比較困難,采用原創(chuàng)者的粉絲數(shù)(關注他的人數(shù))可以在一定程度上體現(xiàn)一個用戶的影響力.從圖7可以看出,當用戶粉絲數(shù)處于一個比較小的量級時,隨著用戶粉絲數(shù)的增加,轉發(fā)可能性反而降低.這個與我們直觀上的認識不太一致,分析原因可能是:結合之后的特征分析,我們發(fā)現(xiàn)用戶之間的交互特征才是影響用戶轉發(fā)行為最主要的特征,而微博上絕大多數(shù)的用戶都是“草根”,和名人交互的機會不多,所以平時轉發(fā)的往往都是身邊朋友的微博,而這些人的關注人數(shù)都是比較少的,因此導致粉絲數(shù)較少的用戶微博被轉發(fā)的可能性反而高.我們可以觀察用戶微博的轉發(fā)次數(shù)和粉絲人數(shù)的比值(在之后的分析中我們也考慮了這個因素),名人雖然粉絲數(shù)多,但是轉發(fā)數(shù)與粉絲數(shù)的比值往往比不上普通用戶,這也說明用戶粉絲多少與微博被轉發(fā)的可能性不一定成正比關系.而粉絲人數(shù)與微博被轉發(fā)次數(shù)是正相關的,我們隨機抽取了11978條原創(chuàng)微博,圖8展示了微博發(fā)布者粉絲數(shù)與該微博被轉發(fā)次數(shù)之間的關系,從圖上可以看出粉絲人數(shù)和轉發(fā)次數(shù)成正相關.我們使用CDF(CumulativeDistributionFunction,累積概率分布函數(shù))圖描述一個特征對于用戶不同行為的區(qū)分度,圖9描述了用戶粉絲數(shù)這個特征在被轉發(fā)微博和被忽略微博上的累積分布函數(shù),從圖上可以看出用戶粉絲數(shù)這個特征在轉發(fā)和忽略上的分布較一致,因此僅僅使用該特征還不能很好地預測用戶的轉發(fā)行為.粉絲人數(shù)在一定程度上表征了用戶在微博網(wǎng)絡上的影響力(粉絲越多,微博的受眾也越多),然而微博上也有不少的僵尸用戶,因此衡量一個用戶的影響力,僅僅依賴粉絲數(shù)量是不全面的.4.2用戶節(jié)點東北部生成與其他社交網(wǎng)絡如人人網(wǎng)、Facebook不同,微博的關注網(wǎng)絡是有方向性的.一個用戶的影響力也可以通過他的粉絲質量來體現(xiàn),即如果一個用戶的粉絲影響力越大,那么說明該用戶也具有較大的影響力.基于以上的考慮,本文采用PageRank算法[20]計算用戶在關注網(wǎng)絡中的PageRank值,作為用戶影響力的度量指標之一.用戶節(jié)點PageRank值計算公式如下:其中,pri代表用戶i的PageRank值,Follower(i)代表用戶i的粉絲集合,Friend(j)代表用戶j關注的用戶集合,q為阻尼系數(shù),N為用戶總數(shù).通過新浪微博開放接口,我們獲得了數(shù)據(jù)集中193萬用戶之間的137284538條關注關系.使用Graphchi程序包1計算用戶的PageRank值.從圖10可以看出,微博原創(chuàng)者的PageRank值與轉發(fā)之間的關系呈現(xiàn)出的趨勢與用戶粉絲數(shù)特征相同,從CDF圖(圖11)也可以看出PageRank也不能很好地預測用戶的轉發(fā)行為.4.3發(fā)微博的數(shù)量我們按如下方式定義單個用戶的轉發(fā)活躍度frr:其中,nrepost代表用戶最近發(fā)布的微博中轉發(fā)微博的數(shù)量,npost代表用戶最近發(fā)布微博的數(shù)量.這個值越大說明用戶在微博上轉發(fā)的頻率越高,高轉發(fā)頻率的用戶對于微博的擴散起了比較大的推動作用.從圖12和圖13可以看出用戶轉發(fā)活躍度與轉發(fā)行為之間存在著較強的關系,整體上隨著用戶轉發(fā)活躍度的上升,微博被轉發(fā)的概率也隨之上升.4.4用戶與上游接入量v之間的交互強度用戶之間的歷史交互頻率可能會影響用戶的轉發(fā)行為,因此本文分析被預測用戶和上游傳遞者之間的交互強度與轉發(fā)似然之間的關系.我們按如下方式定義用戶u與上游傳遞者v之間的交互強度fuv:其中,nuv表示v的微博出現(xiàn)在u的轉發(fā)微博中的次數(shù),nu表示u轉發(fā)微博的總次數(shù).該值越大說明用戶與上游用戶之間的交互強度越大.用戶和上游傳遞者之間的交互強度與轉發(fā)似然之間的關系如圖14所示.從圖14可以看出,如果用戶與上游用戶之間的交互強度越大,那么該用戶轉發(fā)上游用戶微博的可能性也越大,與我們的直觀認識一致,而且從圖15可以看出用戶交互強度在轉發(fā)和忽略上的區(qū)分度較大,因此該特征可以很好地用于用戶轉發(fā)行為的預測.4.5微博內容相似度該特征考慮微博內容與用戶興趣偏好的相近程度,用戶的興趣偏好可以通過分析用戶的歷史轉發(fā)記錄得出.我們直觀地認為微博內容越符合用戶的興趣愛好,它被該用戶轉發(fā)的可能性也就越大.由于用戶的興趣偏好具有時效性,用戶最近一段時間轉發(fā)的微博最能代表用戶近期的興趣偏好,因此本文僅將用戶最近轉發(fā)的信息集合作為歷史記錄.既保證了預測精度,又降低了計算代價.首先對待預測微博和待預測用戶的文本進行分詞,并將這兩段語料表示成向量空間模型(VSM)[21],向量中的每個元素為對應詞的TF-IDF值1,將兩者的余弦值作為當前信息與該用戶興趣偏好的相關性度量.余弦值越大,說明文本之間的夾角就越小,兩段語料也就相似.信息Ccontent和用戶歷史轉發(fā)記錄集合Chistory的向量空間計算過程如下:(1)采用ICTCLAS漢語分詞系統(tǒng)2對C=Ccontent∪Chistory進行分詞,得到詞匯字典D={w1,w2,…,wn},其中wi為C出現(xiàn)過的詞語(不包括“是”、“的”等停止詞),n為出現(xiàn)過的單詞個數(shù).(2)對D中的每個詞語計算其TF-IDF(TermFrequency-InverseDocumentFrequency)值,作為單詞的權重,記為ti其中ni代表詞語wi在文本中的詞頻,k表示文本中出現(xiàn)過的不同單詞總數(shù).為詞wi的逆文檔頻率(IDF),是詞語重要性的度量,這里由微博總數(shù)除以包含該詞語的微博數(shù)目,再將商取對數(shù)得到.(3)生成向量空間表示用當前信息和用戶歷史轉發(fā)記錄的向量空間模型的余弦值作為內容相關性的度量值:在給定相似度數(shù)值度量方法之后,似然分布如圖16和圖17所示.從圖中可以看出如果微博內容與用戶興趣相似度越高(相似度大于0.3),那么用戶越有可能轉發(fā)該微博;如果相似度很小甚至為0,用戶仍然有一定的概率轉發(fā)該微博.因此,我們可以認為微博內容與用戶興趣偏好的相似度能夠用于預測他們的轉發(fā)行為.4.6密度作為用戶特征的微博轉發(fā)概率考慮到用戶的行為也受到具有相同興趣的傳遞者的影響,我們分析了用戶與相鄰傳遞者、微博原創(chuàng)者之間的興趣相似度對轉發(fā)的影響.從圖18和圖19可以看出,用戶間興趣相似度與轉發(fā)似然之間的關系和微博內容相似度與轉發(fā)似然之間的關系較為相似,用戶之間的興趣相似度越高,轉發(fā)概率也就越大.特別的,當用戶之間的興趣相似度比較小時,仍然有一定的概率轉發(fā).這也比較符合人們的獵奇心態(tài),當看到比較新奇的內容時,往往傾向于轉發(fā),分享給自己的粉絲.除了以上這些特征,我們還考慮了其他一些特征,例如原創(chuàng)微博的發(fā)布時間,用戶每條微博的平均轉發(fā)率,原創(chuàng)以及上游用戶是否是認證用戶,原創(chuàng)微博的文本長度等.我們將所有的特征分為3類:(1)用戶特征.該類特征只與用戶個體相關,可獨立計算.例如用戶粉絲數(shù)、用戶PageRank值、是否是認證用戶等.(2)社交特征.該類特征主要體現(xiàn)兩個用戶之間的社交特性,例如交互強度、用戶之間的興趣相似度等.(3)微博特征.該類特征從微博文本中提取,包括內容相似度、發(fā)表時間等.表1給出了所有的特征以及其說明,其中1~7為用戶特征、8~11為社交特征、12~15為微博特征.5用戶身份驗證在本節(jié)中,我們將通過監(jiān)督學習框架刻畫本問題,并使用多種算法對用戶的轉發(fā)行為進行預測.5.1傳播路徑b:關注網(wǎng)絡下關注關系,轉發(fā)傳播用戶對于用戶轉發(fā)行為預測的問題描述如下:給定微博關注網(wǎng)絡G〈U,E〉,G是有向網(wǎng)絡,U是網(wǎng)絡中所有用戶的集合,E是關注網(wǎng)絡中關注關系的集合.用戶uorigin在時刻t發(fā)布或者轉發(fā)一條微博m,該條微博經(jīng)過的傳播路徑記為P〈uorigin,u1,…,un〉,n為傳播路徑的長度,若用戶u關注了傳播用戶un,預測用戶u是否會轉發(fā)該微博或者轉發(fā)該微博的概率p.5.2貝葉斯網(wǎng)絡的密度估計預測(1)數(shù)據(jù)集.對于轉發(fā)行為預測問題,我們從爬取的數(shù)據(jù)中共提取出439607個轉發(fā)樣本,203156個忽略樣本.在預測過程中,采用十折交叉驗證,將全部數(shù)據(jù)劃分為訓練集和測試集.對于傳播路徑預測問題,我們從數(shù)據(jù)集中共提取了12284條轉發(fā)路徑作為測試集.(2)預測方法.我們選擇邏輯回歸、樸素貝葉斯以及貝葉斯網(wǎng)絡等方法對該問題進行求解.在貝葉斯方法中,需要估算每個因子的類條件概率密度.圖20和圖21是與上游用戶話題相似度特征在轉發(fā)和忽略行為中的類條件概率密度分布,從圖上我們無法判斷它們的類條件概率密度函數(shù)形式,因此采用ParzonWindow進行非參數(shù)估計.非參數(shù)方法的優(yōu)勢在于能夠處理任意形式的密度函數(shù),不必假設密度函數(shù)的參數(shù)形式,但是需要的樣本數(shù)量要遠多于參數(shù)方法.由于我們擁有足夠多的樣本,因此采用非參數(shù)方法能夠很好地利用已知樣本對總體分布密度函數(shù)進行估計.具體計算方法如下:其中p(x|C)是所要估計的因子f在轉發(fā)或忽略類C∈{repost,ignore}中的條件概率密度,n為相應類中的樣本個數(shù),h是窗口寬度,φ是窗口函數(shù),我們采用標準正態(tài)分布作為窗口函數(shù).在貝葉斯網(wǎng)絡中,我們使用K2方法學習貝葉斯網(wǎng)絡結構.6結果與分析6.1預測率與其他指標的roc曲線對比預測結果以混淆矩陣的形式表示(圖22).為了評價預測模型的效果,我們選用信息檢索的評價指標,包括查準率、查全率和F1度量.查準率指一類中被正確預測的微博占預測為該類微博的比例,例如,被轉發(fā)的微博這一類中,準確率為a/(a+c),查全率為一類中被正確預測的微博占該類實際的全部微博的比例,例如還是被轉發(fā)的微博這一類中,查全率為a/(a+b),F1度量是一個綜合指標,可以用來同時描述查準率和查全率,計算方式如式(8)所示.我們還分析了各類特征對于預測的結果的影響程度,評價指標采用ROC(ReceiverOperatingCharacteristic,受試者工作特征曲線,又稱感受曲線).ROC以真正類率為縱坐標,以負正類率為橫坐標.傳統(tǒng)的評價方法有一個共同特點,必須將預測結果分為兩類,再進行統(tǒng)計.ROC曲線的評價方法與傳統(tǒng)的評價方法不同,沒有這個限制,而是根據(jù)實際情況,允許有中間狀態(tài),可以把結果劃分為多個有序分類.ROC曲線越靠近左上角代表預測方法的效果越好,也可通過ROC曲線下方的面積(AUC)大小進行比較,AUC越大,說明預測方法的效果越好.6.2相關系數(shù)的計算轉發(fā)行為預測結果如表2所示.從表2可以看出,使用貝葉斯網(wǎng)絡方法進行預測的效果最好.樸素貝葉斯是基于因子互相獨立的假設,而實際上影響因子之間往往存在著一定的聯(lián)系,圖23展示了微博原創(chuàng)者PageRank值與用戶粉絲數(shù)之間的關系.為了定量計算用戶PageRank值和粉絲數(shù)之間的相關性,我們使用式(9)來計算二者的相關系數(shù).其中,Cov(X,Y)是兩個特征的協(xié)方差,定義如下:R(X,Y)是介于0和1之間的數(shù),值越大則兩個特征越相關.若為0,則說明X,Y不相關;為1,則說明X,Y線性相關.我們抽取了部分用戶作為樣本,提取出他們的PageRank值和規(guī)格化后的粉絲數(shù),計算出兩者的相關系數(shù)為0.575,說明用戶PageRank值與粉絲數(shù)這兩個特征存在著較強的相關性.如圖23所示,一些特征之間存在著某些聯(lián)系,由于這種特征之間的相關性,研究某種類型的特征而不是每一個具體的特征對于用戶轉發(fā)行為的影響更有意義.因此,本文分別利用三類特征對轉發(fā)行為進行預測,以比較不同類別特征在轉發(fā)預測中的影響.預測結果如表3~表5所示.圖24畫出分別使用三類因子預測用戶轉發(fā)行為的ROC曲線.從圖中我們可以看出,對用戶轉發(fā)行為影響最大的是社交類特征,而微博本身的特征對于轉發(fā)行為的影響在三個類中是最小的.這充分說明了微博是一個社

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論