基于lda的微博用戶(hù)主題圖譜構(gòu)建與意見(jiàn)領(lǐng)袖識(shí)別_第1頁(yè)
基于lda的微博用戶(hù)主題圖譜構(gòu)建與意見(jiàn)領(lǐng)袖識(shí)別_第2頁(yè)
基于lda的微博用戶(hù)主題圖譜構(gòu)建與意見(jiàn)領(lǐng)袖識(shí)別_第3頁(yè)
基于lda的微博用戶(hù)主題圖譜構(gòu)建與意見(jiàn)領(lǐng)袖識(shí)別_第4頁(yè)
基于lda的微博用戶(hù)主題圖譜構(gòu)建與意見(jiàn)領(lǐng)袖識(shí)別_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于lda的微博用戶(hù)主題圖譜構(gòu)建與意見(jiàn)領(lǐng)袖識(shí)別

1研究問(wèn)題的提出隨著微博平臺(tái)普及和應(yīng)用深度的提高,微博作為網(wǎng)絡(luò)用戶(hù)獲取信息和信息交流的平臺(tái)地位逐漸突出。微博是一個(gè)關(guān)注用戶(hù)體驗(yàn)和信息交流的社交平臺(tái)。它不僅是一個(gè)受歡迎的社交平臺(tái),也是一個(gè)受歡迎的選擇關(guān)注焦點(diǎn)?;贚DA(LatentDirichletAllocation)生成微博用戶(hù)主題圖譜,可挖掘用戶(hù)對(duì)于一個(gè)話(huà)題的不同觀(guān)點(diǎn)和意見(jiàn),并通過(guò)主題圖譜劃分出不同的用戶(hù)聚類(lèi)群體,從而對(duì)目標(biāo)監(jiān)管對(duì)象實(shí)現(xiàn)有效的分類(lèi),進(jìn)行區(qū)別化的監(jiān)管。因此,加強(qiáng)對(duì)微博用戶(hù)主題圖譜的研究,成為輿情監(jiān)管相關(guān)部門(mén)、廣告營(yíng)銷(xiāo)及學(xué)術(shù)界關(guān)注的新問(wèn)題。本文試圖解決以下三個(gè)方面的研究問(wèn)題。(1)如何構(gòu)建基于LDA的微博用戶(hù)主題圖譜過(guò)程模型?(2)如何通過(guò)JS散度(Jensen-ShannonDivergence)進(jìn)行相似度度量,劃分用戶(hù)群體主題偏好,并識(shí)別主題群體特征?(3)如何識(shí)別主題群體中的小社群意見(jiàn)領(lǐng)袖?本文構(gòu)建基于LDA的微博用戶(hù)主題圖譜過(guò)程模型,結(jié)合“埃航空難”熱點(diǎn)話(huà)題,深入分析微博用戶(hù)的主題偏好、主題用戶(hù)群體特征,按LDA模型劃分的主題確定不同用戶(hù)群體,并識(shí)別主題用戶(hù)意見(jiàn)領(lǐng)袖。2基于lda的主題模型網(wǎng)絡(luò)輿情是指公眾通過(guò)社交媒體平臺(tái)對(duì)一些社會(huì)熱點(diǎn)話(huà)題、焦點(diǎn)事件以及突發(fā)問(wèn)題所發(fā)表的看法和觀(guān)點(diǎn),是社會(huì)輿論的一種集中表現(xiàn)形式近年來(lái),國(guó)內(nèi)外學(xué)者對(duì)網(wǎng)絡(luò)輿情主題挖掘展開(kāi)了深入研究。Chen等LDA在主題模型中占有非常重要的地位,適用于主題建模,相較于傳統(tǒng)研究方法,可以有效地深入挖掘文本中的潛在語(yǔ)義信息。并且,LDA主題模型在短文本的主題挖掘中表現(xiàn)較好。因此,本文基于LDA對(duì)微博用戶(hù)轉(zhuǎn)發(fā)評(píng)論文本進(jìn)行主題建模,利用困惑度評(píng)價(jià)指標(biāo)確定微博用戶(hù)最優(yōu)主題數(shù)和主題分布;利用JS散度對(duì)微博用戶(hù)主題進(jìn)行相似度度量,并通過(guò)計(jì)算得出JS散度值,作為主題圖譜中的邊權(quán)重,進(jìn)一步劃分多個(gè)主題社群并準(zhǔn)確定位意見(jiàn)領(lǐng)袖,從而有效準(zhǔn)確地把控網(wǎng)絡(luò)輿情走向。3根據(jù)lda的微博用戶(hù)傳記,構(gòu)建3.1基于lda的主題模型LDA屬于機(jī)器學(xué)習(xí)中的生成模型,本質(zhì)上是多層級(jí)的貝葉斯概率圖模型在機(jī)器學(xué)習(xí)領(lǐng)域中,LDA主題模型占有非常重要的地位,常用來(lái)挖掘大數(shù)據(jù)環(huán)境下語(yǔ)料庫(kù)中潛藏的主題信息。同時(shí),LDA采用詞袋模型,即僅考慮一篇文檔中的一個(gè)詞匯是否出現(xiàn),而不考慮其出現(xiàn)的順序。此外,一篇文檔可以包含多個(gè)主題,文檔中每一個(gè)詞都由其中的一個(gè)主題生成其中,D表示文檔中所有詞的集合;M表示文檔的數(shù)量;W3.2微博用戶(hù)體驗(yàn)評(píng)價(jià)模型設(shè)計(jì)通過(guò)困惑度獲得最優(yōu)主題數(shù)后,可通過(guò)LDA主題模型得到文檔-主題分布。在得到文檔-主題分布矩陣后,采用JS散度計(jì)算用戶(hù)之間主題的相似性,并將其用作圖譜構(gòu)建中的邊權(quán)重。JS散度度量了兩個(gè)概率分布的相似度,是基于KL散度(KullbackLeiblerDivergence)的變體。由于KL散度不具備對(duì)稱(chēng)性,不利于下游的主題圖譜構(gòu)建,而JS散度有效地解決了KL散度非對(duì)稱(chēng)的問(wèn)題其中,P(x)與Q(x)表示不同微博用戶(hù)的概率分布,即通過(guò)LDA主題模型求得的文檔-主題分布。形式上,若某話(huà)題空間下微博用戶(hù)評(píng)論信息共有m條,通過(guò)困惑度評(píng)價(jià)指標(biāo)得到的最優(yōu)LDA主題參數(shù)為n個(gè),則文檔-主題分布為一個(gè)m×n的矩陣;再通過(guò)JS散度計(jì)算各微博用戶(hù)之間的主題相似性,即求得一個(gè)m×m的方陣,進(jìn)而得到微博用戶(hù)關(guān)于主題的劃分。通過(guò)這種相似度的度量方式,即可找到近鄰用戶(hù)集并確定微博用戶(hù)群體。3.3相似度度量分析本文基于LDA的微博用戶(hù)主題圖譜構(gòu)建過(guò)程,如圖1所示。首先獲取微博用戶(hù)的轉(zhuǎn)發(fā)和評(píng)論文本,然后通過(guò)無(wú)關(guān)字符過(guò)濾、文本分詞以及去停用詞進(jìn)行文本處理,隨后通過(guò)困惑度指標(biāo),確定最優(yōu)主題數(shù),并以該主題數(shù)作為最終的LDA主題模型,確定主題、詞、文檔-主題、主題-詞分布;最終通過(guò)JS散度進(jìn)行相似度度量。之所以選用JS散度作為邊權(quán)重,一方面,JS散度可以作為相似度的度量,衡量不同用戶(hù)對(duì)于某一話(huà)題主題分布之間的相似度;另一方面,JS散度具有歐氏空間下的對(duì)稱(chēng)性,十分適合作為歐氏空間下的距離度量4確認(rèn)研究4.1數(shù)據(jù)來(lái)源與獲取新浪微博已成為目前我國(guó)網(wǎng)絡(luò)用戶(hù)進(jìn)行自我情感表達(dá)和社交互動(dòng)的重要平臺(tái)。根據(jù)《2019年中國(guó)微博行業(yè)分析報(bào)告》,微博作為以信息發(fā)布、互動(dòng)交流為主的社交媒體平臺(tái),兼具社交與媒體的共同屬性,在擁有眾多網(wǎng)絡(luò)用戶(hù)的基礎(chǔ)之上,成為巨大的網(wǎng)絡(luò)流量入口,是中國(guó)最具影響力的社交媒體平臺(tái)本文采用網(wǎng)絡(luò)爬蟲(chóng)方式采集用戶(hù)數(shù)據(jù),獲取字段包括用戶(hù)ID、用戶(hù)名、用戶(hù)個(gè)人資料相關(guān)字段、轉(zhuǎn)發(fā)評(píng)論文本及時(shí)間等信息。轉(zhuǎn)發(fā)更多代表了轉(zhuǎn)發(fā)者對(duì)原微博觀(guān)點(diǎn)的認(rèn)可和贊同,轉(zhuǎn)發(fā)者一旦認(rèn)同此觀(guān)點(diǎn)后,通過(guò)“轉(zhuǎn)發(fā)”功能迅速實(shí)現(xiàn)微博信息傳播,而評(píng)論作為評(píng)論者與原微博發(fā)布者或評(píng)論者之間的直接對(duì)話(huà)方式,轉(zhuǎn)發(fā)和評(píng)論之間存在相同的文本信息本文數(shù)據(jù)采集時(shí)間段參考百度指數(shù),如圖2所示,“埃航空難”的活躍期以2019年3月10日為起始點(diǎn)、2019年6月20日為終結(jié)點(diǎn),從而最大限度地保證數(shù)據(jù)的有效性,最終獲得微博數(shù)據(jù)34325條。本文首先利用火車(chē)頭腳本編輯器爬蟲(chóng)軟件實(shí)現(xiàn)數(shù)據(jù)的獲取。采用Jieba分詞對(duì)微博用戶(hù)的轉(zhuǎn)發(fā)、評(píng)論信息進(jìn)行分詞,并過(guò)濾無(wú)關(guān)字符、去除停用詞等與微博用戶(hù)表達(dá)主題傾向無(wú)關(guān)的詞。4.2確定主題和方式如圖3所示,經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,選用gensim中的類(lèi)實(shí)例化LDA主題模型,對(duì)處理后的文本進(jìn)行分類(lèi)訓(xùn)練。擬定2~30區(qū)間內(nèi)的整數(shù)作為候選主題數(shù),通過(guò)調(diào)用LDA主題模型類(lèi)下的Log_Perplexity方法得出不同模型的對(duì)數(shù)化困惑度數(shù)值。圖3橫軸為L(zhǎng)DA主題模型中的潛在主題數(shù),縱軸為L(zhǎng)DA主題模型的困惑度。隨著主題數(shù)的增加,總體上困惑度呈現(xiàn)波動(dòng)上升的態(tài)勢(shì);困惑度的局部極小值點(diǎn)出現(xiàn)在主題數(shù)為7時(shí)。根據(jù)奧卡姆剃刀準(zhǔn)則在確定最優(yōu)主題數(shù)后,將分詞后的文本數(shù)據(jù)用于LDA主題模型訓(xùn)練,得到“主題-詞”以及“文檔-主題”兩個(gè)概率分布。通過(guò)“主題-詞”分布,可確定各個(gè)主題包含的高頻詞,并結(jié)合這些高頻詞歸納主題內(nèi)容。利用LDA主題模型訓(xùn)練得到的7個(gè)主題結(jié)果如表1所示,且各個(gè)主題均選取詞頻最高的前5個(gè)詞。由表1可知,各個(gè)主題的關(guān)鍵詞都占有較大的概率值,符合微博文本主題的特點(diǎn),即微博用戶(hù)在某一特定話(huà)題空間下的評(píng)論用詞習(xí)慣趨于相同。同時(shí),各個(gè)主題的高頻詞各不相同,也說(shuō)明該模型能較好地實(shí)現(xiàn)微博文本主題的劃分。通過(guò)文檔-主題分布,可以得出用戶(hù)轉(zhuǎn)發(fā)評(píng)論文本信息的主題劃分,從而確定用戶(hù)主題。本文采用隨機(jī)抽樣,選取10名微博用戶(hù)的轉(zhuǎn)發(fā)或評(píng)論信息描繪文檔-主題分布圖,如圖4所示。所選文檔的某一個(gè)或兩個(gè)主題概率占比較高。抽樣結(jié)果表明,大多數(shù)微博用戶(hù)的轉(zhuǎn)發(fā)或評(píng)論文本都有較明顯的主題劃分,通過(guò)LDA主題建模可以有效地挖掘出微博用戶(hù)的主題傾向。在得到微博用戶(hù)的“文檔-主題”分布后,可以通過(guò)JS散度求得微博用戶(hù)的“文檔-主題”分布的相似度。因?yàn)镴S散度接受兩個(gè)分布作為參數(shù),而通過(guò)LDA主題模型可確定微博用戶(hù)的“文檔-主題”分布,從而使得JS散度可以度量某微博用戶(hù)評(píng)論信息中蘊(yùn)含的主題取向。單純的LDA主題模型僅僅使微博用戶(hù)擁有單一的主題群體歸屬,而JS散度使每一對(duì)微博用戶(hù)之間都有了一定的聯(lián)系,為主題圖譜的構(gòu)建提供了自然的邊權(quán)重信息。在擁有了主題圖譜這種圖結(jié)構(gòu)后,可通過(guò)任一節(jié)點(diǎn)出發(fā),判斷與其相似的近鄰節(jié)點(diǎn),進(jìn)一步挖掘微博用戶(hù)的主題。4.3構(gòu)建用戶(hù)使用學(xué)習(xí)空間本文的主題圖譜構(gòu)建基于如下假設(shè):微博用戶(hù)的轉(zhuǎn)發(fā)或評(píng)論信息代表該微博用戶(hù)在當(dāng)前話(huà)題空間下的主題傾向;通過(guò)LDA主題模型得到微博用戶(hù)的文檔-主題分布,并通過(guò)JS散度求得各個(gè)微博用戶(hù)的“文檔-主題”分布的相似度,可以代表微博用戶(hù)的主題相似度。本文以“埃航空難”數(shù)據(jù)源微博用戶(hù)間的共同主題為節(jié)點(diǎn),以JS散度計(jì)算結(jié)果為邊權(quán)重,采用VOSviewer構(gòu)建微博用戶(hù)主題圖譜,如圖5所示。其中氣泡直徑與用戶(hù)節(jié)點(diǎn)的度中心度成正比,用戶(hù)節(jié)點(diǎn)氣泡越大,其度中心度越大,表明其信息交互更為頻繁。用戶(hù)節(jié)點(diǎn)的主題社群按不同顏色進(jìn)行劃分,兩用戶(hù)節(jié)點(diǎn)間邊的顏色由度中心度更高的用戶(hù)節(jié)點(diǎn)顏色決定,邊的顏色通過(guò)比較相連兩個(gè)用戶(hù)節(jié)點(diǎn)的中心度大小來(lái)決定。由圖5可知,微博用戶(hù)主題圖譜共分為7個(gè)主題群體,每個(gè)主題群體都存在著邊連接,且呈現(xiàn)較為頻繁的交互態(tài)勢(shì)。一部分用戶(hù)節(jié)點(diǎn)在輿情傳播中起到關(guān)鍵的橋梁作用。很多用戶(hù)節(jié)點(diǎn)的邊權(quán)重顏色異于該用戶(hù)節(jié)點(diǎn)顏色,表明雖然該用戶(hù)節(jié)點(diǎn)表現(xiàn)出傾向趨于某一社群,但是該用戶(hù)節(jié)點(diǎn)仍與其他社群中用戶(hù)節(jié)點(diǎn)頻繁交互?!邦^條新聞”“第一財(cái)經(jīng)日?qǐng)?bào)”和“青島發(fā)布”所在的主題群體占有較大的比例;而“鳳凰網(wǎng)視頻”所在的主題群體占有的比例相對(duì)最小。通過(guò)研究挖掘微博用戶(hù)主題圖譜可直觀(guān)展示在“埃航空難”話(huà)題下,微博用戶(hù)主題的構(gòu)成和分布情況。同時(shí),不僅可以利用微博用戶(hù)的主題對(duì)微博用戶(hù)主題圖譜進(jìn)行聚類(lèi),還可以準(zhǔn)確定位每個(gè)主題下的意見(jiàn)領(lǐng)袖。例如,紅色社群中“表演現(xiàn)場(chǎng)”“環(huán)球時(shí)報(bào)”“國(guó)資小新”這三個(gè)用戶(hù)節(jié)點(diǎn)的氣泡面積最大,表明其用戶(hù)交互最為頻繁,是該社群內(nèi)的意見(jiàn)領(lǐng)袖。在進(jìn)行相關(guān)的網(wǎng)絡(luò)輿情信息管控時(shí),可著重考慮該主題群體的意見(jiàn)領(lǐng)袖,實(shí)現(xiàn)有針對(duì)性的監(jiān)管。5討論與分析5.1用戶(hù)群體細(xì)比關(guān)注形式化和輿情發(fā)展周期,視角直接傷害相關(guān)客根據(jù)“文檔-主題”分布,統(tǒng)計(jì)“埃航空難”話(huà)題空間下所有微博用戶(hù)群體的主題概率(如圖6所示),并計(jì)算各主題群體占比(單個(gè)主題的數(shù)量/所有主題的數(shù)量×100%)。各主題出現(xiàn)概率結(jié)果由高到低依次為主題4、主題5、主題1、主題6、主題2、主題0及主題3。其中,主題4占比最高(28%)。從關(guān)鍵詞可以分析出,主題4的微博用戶(hù)群體主要關(guān)注“埃航空?qǐng)D5“埃航空難”微博用戶(hù)主題圖譜難”記者會(huì)的相關(guān)信息以及后續(xù)的救援找尋情況。高頻詞中還出現(xiàn)了“東航”和“國(guó)航”兩家中國(guó)的航空公司,聯(lián)系話(huà)題背景可知,這是由于這兩家航空公司也購(gòu)買(mǎi)了波音公司生產(chǎn)的飛機(jī),型號(hào)為737-8,與埃航空難客機(jī)一致。民航局發(fā)布停飛文件后,兩家航空公司也及時(shí)響應(yīng),因此受到了廣大網(wǎng)友的關(guān)注。主題5和主題1的微博用戶(hù)群體占比均為15%左右,主題5的微博用戶(hù)群體主要關(guān)注波音公司飛機(jī)的一些設(shè)計(jì)缺陷,主題1的微博用戶(hù)群體則關(guān)注因“埃航空難”引起的各國(guó)航空公司波音飛機(jī)的停飛事件。主題6的微博用戶(hù)群體主要關(guān)注遇難者家屬對(duì)“埃航空難”的相關(guān)責(zé)任人問(wèn)責(zé),占比為14%。主題2的微博用戶(hù)群體關(guān)注公民的照片及護(hù)照,更傾向于關(guān)注遇難者的國(guó)籍,占比為12%。主題0的微博用戶(hù)群體更關(guān)注飛行員在飛機(jī)墜機(jī)前的相關(guān)操作,占比為11%。主題3的微博用戶(hù)群體則關(guān)注后續(xù)公布的視頻情況,占比最少,僅為4%左右。通過(guò)進(jìn)一步分析可知,從微博用戶(hù)主題群體的數(shù)量占比,可大致還原整個(gè)事件的脈絡(luò)信息以及網(wǎng)絡(luò)輿情發(fā)展周期。輿情發(fā)生時(shí)間越早,越容易積累主題4這種記者會(huì)相關(guān)信息及后續(xù)救援的用戶(hù)群體,在“埃航空難”發(fā)生后召開(kāi)記者會(huì)可以視為網(wǎng)絡(luò)輿情的開(kāi)始,也可以視為整個(gè)話(huà)題空間的入口,主題4在整個(gè)網(wǎng)絡(luò)輿情周期內(nèi)都在積累其主題群體,所以有著最高的數(shù)量占比。關(guān)于主題5和主題1,則隨著救援工作及調(diào)查工作的展開(kāi),逐漸發(fā)現(xiàn)波音737-8飛機(jī)被質(zhì)疑有設(shè)計(jì)缺陷以及航空管理局采取相關(guān)的應(yīng)對(duì)措施,因此,此部分網(wǎng)絡(luò)輿情屬于次生輿情,較之主題4,這兩個(gè)主題的網(wǎng)絡(luò)輿情爆發(fā)的時(shí)間延后,所以微博用戶(hù)主題群體的占比相對(duì)減少。主題6、主題2、主題0和主題3,則更多關(guān)注后續(xù)的事故追究和問(wèn)責(zé)情況,進(jìn)入此階段后話(huà)題的熱度降低,進(jìn)而轉(zhuǎn)為輿情的衰退期,用戶(hù)群體的累積降低。5.2用戶(hù)群體的網(wǎng)絡(luò)輿情情境下的意見(jiàn)領(lǐng)袖數(shù)據(jù)分析主題用戶(hù)是指通過(guò)LDA主題模型劃分的主題社群下的網(wǎng)絡(luò)用戶(hù)。本文通過(guò)JS散度度量“文檔-主題”分布的相似度,劃分微博用戶(hù)群體,并且結(jié)合所采集的微博用戶(hù)相關(guān)信息分析微博用戶(hù)群體特征,如圖7所示。由于被認(rèn)證的微博用戶(hù)在昵稱(chēng)后都會(huì)顯示大寫(xiě)的英文字母“V”,因此將具有認(rèn)證信息的微博用戶(hù)設(shè)定為網(wǎng)絡(luò)輿情話(huà)題中的意見(jiàn)領(lǐng)袖。數(shù)據(jù)分析結(jié)果表明,用戶(hù)群體的微博用戶(hù)數(shù)、微博認(rèn)證用戶(hù)數(shù)與上述分析中圖6的主題強(qiáng)度成正比。其中,主題4中微博用戶(hù)數(shù)與微博認(rèn)證用戶(hù)數(shù)分別為8974人與1719人,意見(jiàn)領(lǐng)袖占比為19%;主題3中的微博用戶(hù)數(shù)與微博認(rèn)證用戶(hù)數(shù)最少,分別為660人與153人,意見(jiàn)領(lǐng)袖占比為23%??梢?jiàn),主題強(qiáng)度低的微博用戶(hù)群體中的意見(jiàn)領(lǐng)袖占比不一定低。因此,在網(wǎng)絡(luò)輿情的管控中除了重點(diǎn)關(guān)注主題強(qiáng)度較高的意見(jiàn)領(lǐng)袖,還應(yīng)該注意并關(guān)注一些主題強(qiáng)度較低的意見(jiàn)領(lǐng)袖,他們可能是網(wǎng)絡(luò)輿情傳播過(guò)程中的潛在力量。5.3lda主題模型為研究LDA主題模型如何確定群體中的意見(jiàn)領(lǐng)袖,特別是中小社群的意見(jiàn)領(lǐng)袖,本文以主題3為例進(jìn)行意見(jiàn)領(lǐng)袖的識(shí)別和分析。其余主題中的意見(jiàn)領(lǐng)袖也可以通過(guò)相同的方式進(jìn)行識(shí)別。由圖7可知,“鳳凰網(wǎng)視頻”所屬的主題3群體,其用戶(hù)數(shù)在整個(gè)輿情網(wǎng)絡(luò)中雖然占比最低,但意見(jiàn)領(lǐng)袖占比卻相對(duì)較高。主題3用戶(hù)節(jié)點(diǎn)分布如圖8所示,用戶(hù)節(jié)點(diǎn)氣泡直徑與用戶(hù)節(jié)點(diǎn)的度中心度成正比,用戶(hù)節(jié)點(diǎn)氣泡越大,其度中心度越大,表明其信息交互更為頻繁??梢钥闯?,“鳳凰網(wǎng)視頻”“高慶一”“時(shí)間國(guó)際視頻”等用戶(hù)節(jié)點(diǎn)的氣泡直徑都相對(duì)較大,說(shuō)明其度中心度相對(duì)較高,在此主題群體中具有一定的影響力,為該社群的意見(jiàn)領(lǐng)袖統(tǒng)計(jì)主題3中用戶(hù)度中心度,如表2所示??梢钥闯?,由于主題3中的意見(jiàn)領(lǐng)袖是代表小社群的意見(jiàn)領(lǐng)袖,其度中心度的數(shù)值遠(yuǎn)遠(yuǎn)小于其他大社群的意見(jiàn)領(lǐng)袖的度中心度。如果不采用LDA主題模型,那么圖譜將無(wú)法進(jìn)行有效的群體劃分。若只通過(guò)轉(zhuǎn)發(fā)關(guān)系構(gòu)建圖譜,則意見(jiàn)領(lǐng)袖的確定方式只能由度中心度的降序排列來(lái)確定,這將會(huì)導(dǎo)致“鳳凰網(wǎng)視頻”“高慶一”“時(shí)間國(guó)際視頻”等代表小社群的意見(jiàn)領(lǐng)袖被“淹沒(méi)”。結(jié)合表1,得知不同的群體在主題傾向上存在較大的不同。大社群的意見(jiàn)領(lǐng)袖并不能很好地代表小社群的用戶(hù)主題,因此,確定小社群的意見(jiàn)領(lǐng)袖對(duì)于輿情的監(jiān)管和引導(dǎo)有著重要的意義。LDA主題模型通過(guò)主題劃分及構(gòu)建圖譜的方式,為確定小社群的意見(jiàn)領(lǐng)袖提供了有效的方法和途徑。此外,在輿情監(jiān)管方面,主題圖譜將同一話(huà)題劃分為多個(gè)主題社群,通過(guò)圖譜表現(xiàn)出的模塊化信息,能夠?qū)δ繕?biāo)監(jiān)管對(duì)象實(shí)現(xiàn)有效的分類(lèi),從而進(jìn)行區(qū)別化監(jiān)管,并降低輿情監(jiān)管方面的成本,避免“一刀切”式的屏蔽措施,有效實(shí)現(xiàn)了分門(mén)別類(lèi)及差異化的輿情疏導(dǎo)。6基于lda構(gòu)建微博用戶(hù)主題圖譜的應(yīng)用架構(gòu)本文在理論層面構(gòu)建基于LDA的微博用戶(hù)主題圖譜過(guò)程模型,采用困惑度評(píng)價(jià)指標(biāo)確定LDA模型最優(yōu)主題數(shù),使用JS散度度量“文檔-主題”分布的相似度,并作為主題圖譜的邊權(quán)重,從而

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論