無監(jiān)督的主題情感混合模型_第1頁
無監(jiān)督的主題情感混合模型_第2頁
無監(jiān)督的主題情感混合模型_第3頁
無監(jiān)督的主題情感混合模型_第4頁
無監(jiān)督的主題情感混合模型_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

無監(jiān)督的主題情感混合模型

現代信息技術為傳統(tǒng)社會經濟活動帶來了前所未有的社會化和網絡化內涵,從而顯著提高了效率。越來越多的用戶樂于在互聯(lián)網上分享自己對于某事件、產品等的觀點或體驗,這類評論信息迅速膨脹,僅靠人工的方法難以應對網上海量信息的收集和處理。如何有效地管理和使用這些評價信息成為當前的迫切需求,這促進了自動文本情感分析技術的發(fā)展。情感分析中的兩個重要任務是情感信息抽取和情感信息分類,目前主要有基于規(guī)則和基于統(tǒng)計兩種方法。新詞的不斷出現、表達方式的變化以及復雜的語言處理都使得基于規(guī)則的情感分析方法難以適用。機器學習方法和文本表示模型是基于統(tǒng)計的情感分析方法的兩個核心內容。機器學習方法包括有監(jiān)督、半監(jiān)督和無監(jiān)督情感分析。有監(jiān)督和半監(jiān)督的機器學習方法中分類器的訓練需要一定數量經過標注的訓練樣本,然而人工標注過程相對耗時費力,成本昂貴,無監(jiān)督的機器學習則無需經過標注的訓練樣本。長期以來文本表示的主要方法是向量空間模型(vectorspacemodel,VSM)。VSM認為文檔都是在詞典空間中進行表示的,即一個文檔是一個一對多的映射,表示為文檔→詞。隨著人們對文本認識的發(fā)展,發(fā)現向量空間模型沒有考慮詞的同義和多義情況,忽視了詞與詞之間的語義聯(lián)系。為挖掘文本的潛在語義,人們開始尋找更能表示文本語義的文本表示模型。潛在語義分析(latentsemanticanalysis,LSA)就是一種能探查詞與詞之間內在語義聯(lián)系的方法,打破了文檔都是在詞典空間進行表示的思維定式,在文本和詞之間加入了一個語義維度,采用線性代數的方法提取語義維度。隨著概率統(tǒng)計分析的發(fā)展,基于概率統(tǒng)計分析模式逐漸取代了基于線性代數的分析模式。概率潛在語義分析(probabilisticlatentsemanticanalysis,pLSA)就是LSA的概率拓展,它比LSA具有更堅實的數學基礎。但是pLSA模型中的參數隨著文本集的增長而線性增長,容易出現過擬合情況,且模型中的文檔概率值與特定的文檔相關,沒有提供文檔的生成模型,對于訓練集外的文本無法分配概率。pLSA存在的問題促發(fā)了人們尋找更好的主題模型,2003年,Blei等在pLSA的基礎上提出了潛在狄里克雷分配(latentDirichletallocation,LDA)模型。LDA模型是一個完全的生成模型,具有良好的數學基礎和靈活拓展性,已經應用到文本分析的很多領域中。本文結合無監(jiān)督機器學習和LDA主題模型的優(yōu)點,提出一個無監(jiān)督的主題情感混合模型(unsupervisedtopicandsentimentunificationmodel,UTSU),通過對每個句子采樣情感標簽,對每個詞采樣主題標簽,解決了文本主題發(fā)現和主題情感分類問題。1在語言模型上進行研究LDA模型是全概率生成模型,參數空間的規(guī)模與文檔數量無關,適合處理大規(guī)模語料庫。目前已有研究將LDA模型應用到情感分析中。Titov等提出了一個多粒度LDA模型(multigrainLDA,MG-LDA),并應用于基于主題的情感摘要生成中,提出了多主題情感模型(multi-aspectsentimentmodel,MAS)。雖然Titov等用實驗證明了MG-LDA模型對于提取細粒度的主題有很好的效果,但是MG-LDA需要對已標注的訓練集進行訓練,屬于有監(jiān)督學習,具有樣本不容易獲取和領域移植性差的缺點。同樣需要監(jiān)督學習的還有Zhao等提出的ME-LDA模型(MaxEnt-LDA),該模型結合了最大熵組件和主題模型,需要監(jiān)督學習。為使主題模型既能獲得細粒度的主題又保持無監(jiān)督學習的特征,很多學者對主題模型進行了改進。Brody等直接將句子作為一個文檔,建立“句子-主題-詞”關系。這種方法將LDA模型沒有考慮文檔和文檔之間的關系進一步擴大,沒有考慮句子和句子之間的關系,事實上在不同的句子中同一個主題可以有著完全不同的詞。而且該方法只對主題詞進行了情感詞識別,并沒有得到文檔或句子的情感分布,即沒有建立情感模型。Jo等認為一個句子中所有的詞都由同一個主題和同一個情感產生,因此采樣主題標簽時,對每個句子采樣主題標簽,而不是對每個詞采樣主題標簽,建立“文檔-主題-句子”關系,這種方法硬性地縮小了詞之間的主題聯(lián)系。主題情感混合模型在語言模型上有兩種表示方法。第一種是將主題和情感描繪成一個單一的語言模型,在模型中一個詞可能同時與主題和情感都相關,如Jo等提出的ASUM模型(aspectandsentimentunificationmodel)和Lin等提出的JST模型(jointsentiment/topicmodel)。另一種是將情感與主題作為分開的語言模型,一個詞要么是情感詞,要么是主題詞,只能二選一,如Mei等提出的TSM模型(topicsentimentmixture)。TSM模型將詞分為主題詞和情感詞,認為情感詞對主題發(fā)現沒有作用,而事實上情感詞是表示主題的重要詞匯,應該是主題詞的一部分。本文提出的UTSU模型中的每個詞都與主題和情感相關,這一點是與TSM模型最大的區(qū)別。Brody等只對主題詞進行了情感詞識別,并沒有得到文檔或句子的情感分布,即沒有建立情感模型,而本文的UTSU模型是一個主題情感混合模型。ASUM模型采樣主題標簽和情感標簽時,對每個句子進行采樣,而不是對每個詞采樣,JST模型則是對每個詞進行采樣主題標簽和情感標簽。本文的UTSU模型對每個句子采樣情感標簽,對每個詞采樣主題標簽,這種采樣方式即符合語言的情感表達,又不會縮小詞之間的主題聯(lián)系。2uts模型2.1u權模型的建立UTSU模型是在LDA模型的基礎上添加了情感模型而構建的。由于自然語言中的情感都是以句子為單位進行表達的(轉折句除外),UTSU模型假設一個句子的所有詞由一種情感產生,故對句子進行情感標簽采樣,建立“文檔-情感-句子”關系。沿用LDA模型中每個詞有不同的主題,對每個詞進行主題標簽采樣,建立“文檔-主題-詞”關系。在運行UTSU模型前,先對文本進行預處理,將轉折句從轉折處分為兩句。UTSU模型的框圖如圖1所示,圖1中符號說明見表1。UTSU模型是一個4層盤子模型,其產生過程的偽代碼描述如下。給定所有參數,UTSU模型所有潛在變量和可觀察變量的聯(lián)合概率為其中Nds表示文檔d內的句子數,Ns表示句子s內的詞數。2.2詞匯標記的情感分析用i來表示詞匯記號的索引號,i=(d,s,n),詞匯記號wi=wd,s,n表示與文檔位置、句子位置相關的詞匯,si表示詞匯記號wi所在的句子。表示詞匯記號iw所在句子的情感分配,表示除當前詞匯記號所在句子外其他詞匯記號所在句子的情感分配。zi表示詞匯記號iw的主題分配,z-i表示除當前詞匯記號外的其他所有詞匯記號的主題分配。有。利用Gibbs采樣算法進行采樣,當前詞匯記號wi的主題為k,情感為j的概率可通過式(2)得到。其中B(α)是Beta函數,,Γ為Gamma函數,Γ(x)=∫∞0e-ttx-1dt。因為Γ(x+1)=xΓ(x),x>0,所以n(t)k,j,-i表示除當前詞匯記號外,其他與wi內容相同的詞w的主題和情感分別為k和j上的詞匯記號個數,表示除當前詞匯記號所在句子外文檔d中情感為j的句子數,n(k)d,j,-1表示除當前詞匯記號外,文檔d中情感j主題為k的詞匯記號數。從式(3)可以看出,詞匯記號wi的情感,主題zi=k的條件概率正比于3個概率的乘積,第1部分對應著wi的主題為k情感為j的概率,第2部分對應著情感j在文檔d的情感分布出現的概率,第3部分對應著在文檔d的當前主題分布中,情感為j主題為k出現的概率。在整個文檔集中,如果一個單詞的很多詞匯記號分配在主題和情感分別為z和j上,那么這個單詞的其他任何一個詞匯記號分配在主題和情感分別為z和j上的概率就會增加。如果情感j在同一文檔中多次出現,那么在該文檔中出現的任何句子分配給情感j的概率也會增加。同理,如果主題k在同一文檔中多次出現,那么在該文檔中出現的任何單詞分配給主題k的概率也會增加。舍棄詞匯記號,用w表示唯一性詞,θ,φ和φ的估計如下:表示文檔d的當前主題分布中,主題為k情感為j出現的概率,表示情感j在文檔d的情感分布中的概率估計,表示詞匯w分配在主題和情感分別為z和j上的概率估計,n(j)d表示文檔d中分配在情感j上的句子數,nd,j(k)表示文檔d中分配在主題為k情感為j上的詞數,nk,j(w)表示w分配在主題為k情感為j上的次數。3結果與分析3.1各數據集的大小及其分布從大眾點評網上下載關于快遞、燒烤的評論網頁,下載中國科學院譚松波博士公布的關于酒店和計算機的情感分類數據集,整理共得到9180個文本。正類(Pos)文本都是從三星級以上評論中整理得到的,負類(Neg)文本都是從三星級以下評論中整理得到的。每種數據集的大小和正負情感分布如表2所示。預處理數據集:1)對含有“但”、“但是”、“可是”等轉折詞的句子進行切分,從轉折處將句子分為兩句;2)統(tǒng)計實驗所需的文檔-詞共現信息,其中中文分詞采用中國科學院的ICTCLAS開源工具包,統(tǒng)計時剔除停用詞,但是保留“不”、“沒”、“都”等對情感判斷產生影響的詞。3.2集中存儲的概率本文實驗的情感只考慮褒義和貶義兩種,不考慮中性情感。利用UTSU模型進行主題情感發(fā)現,參數設置如下:α=1,χ=1,β=0.01,L=2,以上參數均為經驗最優(yōu)值,主題數K=4,迭代次數N=1000,得到的主題-情感詞按照在文檔集中的概率大小,排列如表3所示。限于空間,只列出了前39個關于計算機的主題-情感發(fā)現詞。從表3中可以看出,正負情感詞在主題-情感發(fā)現中分的比較明顯,如左邊表示貶義的情感詞“郁悶、慢、重、一般”等,右邊表示褒義的情感詞有“不錯、漂亮、小巧、喜歡、舒服、精致”等。形容詞“大”同時出現在兩邊靠前的位置,這是由于“大”可以表達褒義也可以表達貶義,如“電腦輕巧,電池強勁,鍵盤尺寸夠大”和“鋼琴烤漆很容易留指紋印,并且進入不了系統(tǒng),開機時聲音很大”中的“大”的情感完全相反。通過對主題-情感詞進行分析,發(fā)現有很多無主題無情感的單字高頻詞,這種詞可以看做情感分類中的噪聲干擾,在此稱作噪聲詞,其會對后續(xù)情感分類產生影響,表4為去噪后獲得的主題-情感詞匯表。3.3種方法提出了明確目標的比較利用UTSU模型的可以得到情感j在文檔d的情感分布中的概率估計,取每種情感在文檔d的情感分布中的概率估計的最大值,可得到文檔d的情感,即作為文檔d的情感。下面將本文提出的UTSU模型與ASUM模型、JST模型和Pang等的方法進行對比。ASUM模型和JST模型的原文中都用到了種子情感詞作為先驗知識。由于種子情感詞的不同對結果影響較大,本文統(tǒng)一采用無先驗知識。Pang方法中使用信息增益選取了2000個特征,分類器采用SVM,分類時采用10重交叉驗證。各種方法在4個數據集上的情感分類準確率(precision)、召回率(recall)值和F綜合指標(F1)如圖2所示。4種方法中Pang方法是有監(jiān)督的學習方法,其他3種都是無監(jiān)督的主題情感混合模型。從圖2中可以看出,綜合考慮準確率和召回率,效果最好的是Pang方法。但由于Pang方法是基于向量空間模型的有監(jiān)督學習方法,需要先對標注好的樣本進行訓練才能測試。其他3種主題情感混合模型中,效果最好的是UTSU模型,其情感分類在4個數據集上綜合指標平均值比ASUM模型高約2%,比JST模型高約16%。這也證明了本文提出的對每個句子采樣情感標簽,對每個詞采樣主題標簽的主題情感混合模型在情感分類上的有效性。由于JST模型每次采樣情感標簽時,對每個詞進行采樣,不符合自然語言的情感表達,故其情感分類效果最差,這也是JST模型與UTSU模型和ASUM模型最大的區(qū)別。從圖2中可以看出,4種方法在4個數據集上的情感分類準確率、召回率不同。根據綜合指標在不同數據集上從高到低進行排序,依次為:快遞>酒店>計算機>燒烤。通過對數據進行分析,我們得到了以下4點原因。1)用戶對快遞進行觀點表述時,表達比較單一,基本上只有快遞時間和服務態(tài)度。2)用戶對酒店關注的主題比快遞更為分散,包括床、房間、環(huán)境、位置、服務、價格等。3)由于計算機含有不同的型號,如聯(lián)想、惠普等,不同的零件和屬性,如屏幕、鍵盤、藍牙、重量、電池等,以及計算機的效能,如散熱、配置、無線信號等,使得計算機數據集的情感分類更難。4)燒烤類數據集涵蓋的觀點與酒店類很相似,包括口味、房間、環(huán)境、位置、服務、價格等,但由于許多觀點針對的是不同的燒烤項目,如雞翅、肉筋、肉串等,且對各種燒烤項目的評價不同,這使得以文本為單位進行情感分類時,對特征集的依賴性較強,這也是不同的方法在燒烤類數據集情感分類中性能最不穩(wěn)定的原因??傮w來說本文構建的UTSU模型情感分類的性能比有監(jiān)督情感分類方法稍差,但在無監(jiān)督的情感分類方法中效果最好,比ASUM模型提高了2%,比JST模型提高了16%。4主題-情感詞本文重點從無監(jiān)督機器學習和文本表示模型的角度對文本情感分類進行了研究。在LDA模型的基礎上,提出無監(jiān)督的主題情感混合模型UTSU模型。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論