基于依存關(guān)系樹句子級別的情感分類研究_第1頁
基于依存關(guān)系樹句子級別的情感分類研究_第2頁
基于依存關(guān)系樹句子級別的情感分類研究_第3頁
基于依存關(guān)系樹句子級別的情感分類研究_第4頁
基于依存關(guān)系樹句子級別的情感分類研究_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于依存關(guān)系樹句子級別的情感分類研究摘要:隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)上的信息呈爆炸式增長,其中主觀性文本占有的比例大大增加。本文主要研究句子級別情感分類問題。在詳細(xì)分析了句子情感分類問題的重要性和難點的基礎(chǔ)上,本文提出了一種基于樹核函數(shù)的句子級別情感分類方法。該方法使用基于SVM(SupportVectorMachine)的卷積樹核函數(shù)自動獲取句法結(jié)構(gòu)信息,分別將句法樹和依存樹作為特征,和其它平面特征相結(jié)合,對句子進(jìn)行情感分類。關(guān)鍵詞:情感分析、依存關(guān)系樹、特征選擇、分類算法Abstractt:Safenavigationoftheshipandtheshipcollisionavoidanc

2、eareas,researchandcomputingcollisionriskiscrucial,inthefiniteelementsimulationanalysisofshipcollision,thecollisionwillnormallybeprocessedintothesideimpactareadeformablestructure,hittheship'sbowasarigidbodytreatment,whichcangreatlysimplifytheanalysisandcalculations,butalsothepartialsafetycangener

3、allybeusedasapproximateresults.However,fromtheperspectiveofcollisions,consideringboththerealcollisiondeformationandenergyabsorptionofthecollisionprocessisessentialrealisticsimulation,thispaperuseslarge-scaledynamicanalysissoftwareMSC.Dytran,bowportionandoncrashhitbroadsidecollisiondamagecharacterist

4、icsofsynchronoussimulation.Keywords:Collision;shipstructuraldamage;impactangle;impact1前言近年來,隨著BBS和Blog的迅速發(fā)展,主觀性的言論越來越多。這些言論大部分都是一些主觀的論斷和對事物的一些看法,如對電子產(chǎn)品、汽車的使用評價和電影評論等等。那么,如何判斷這些評論是正面還是反面?態(tài)度是贊成還是反對?認(rèn)為其值得推薦還是不值一文?這就引出了文本分類領(lǐng)域一個新的研究方向一一基于情感的文本分類。本文針對目前句子情感分類問題的難點,采用樹核函數(shù)、句法樹和依存樹實現(xiàn)了句子級別的情感分類的研究工作。句子中含有的信息量

5、少,因而需要額外的特征信息來提高其分類的效果,本文探索了使用基于句法樹和依存樹的結(jié)構(gòu)化信息對于句子情感分類的效果。本文只針對句子進(jìn)行情感分類研究。2基于句法樹的句子級別情感分類分析2.1 結(jié)構(gòu)化特征在句子級別情感分類中的作用句子含有的信息量不如篇章,直接使用篇章級別的情感分類方法無法提取足夠的特征信息,所以需要加入更多的特征信息。并且基于詞袋或者n-gram特征的篇章級別情感分類方法都無法捕獲遠(yuǎn)距離的情感信息。本章的主要工作就是探索基于句法樹的結(jié)構(gòu)化特征在句子級別情感分類中的作用。圖2.1兩個句子對應(yīng)的句法樹圖2.1表示的是句子aIlikethatfilm”和“Thisfilmlookslik

6、ethatfilm”對應(yīng)的句法樹。如果使用n-gram特征,很可能會認(rèn)為這兩個句子的情感傾向性一致。但是通過句法樹可以很容易發(fā)現(xiàn):雖然兩個句子中都含有“l(fā)ikethatfilm”結(jié)構(gòu),但是這個相同的部分在兩個句子的句法樹結(jié)構(gòu)中是不同的。這種情感傾向性的差異表達(dá)可以通過句法結(jié)構(gòu)展現(xiàn)出來。但如果單純的使用人工去總結(jié)和標(biāo)注這些規(guī)則存在很大的困難,首先這樣需要領(lǐng)域?qū)<胰タ偨Y(jié)這些規(guī)則;其次由于自然語言表達(dá)的復(fù)雜性,人們很難窮盡所有規(guī)則。所以通過機(jī)器學(xué)習(xí)的方法,從已經(jīng)簡單標(biāo)注或者沒有標(biāo)注的文本中自動挖掘這種情感表達(dá)模式,有著很大的實際價值和良好的運(yùn)用前景。2.2 句子級別情感分類系統(tǒng)流程本文實現(xiàn)的句子級別

7、情感分類系統(tǒng)的具體流程如圖2.2所示。一哈二.一味一1.1 1r-JF一.flIE.iNftMHthRIMs特曼O方費圖2.2系統(tǒng)流程圖本系統(tǒng)由多個模塊組成,初始的原始語料是從評價性網(wǎng)站上獲取的用戶評價信息,經(jīng)過預(yù)處理以后刪除那些有亂碼或者單詞拼寫錯誤的句子。下一步將獲取的句子交由Stanfordparseri生成句法樹,然后為每個句子標(biāo)明類別標(biāo)簽等信息以滿足SVM分類器需要的格式,生成訓(xùn)練和測試數(shù)據(jù)。接下來使用訓(xùn)練數(shù)據(jù)獲得模型文件,并使用該文件對測試數(shù)據(jù)進(jìn)行分類測試,然后計算出分類的性能。2.3 句法樹的獲得本文的重點是研究如何以卷積樹核為工具去提取句法樹中的情感表達(dá)模式,用于句子級別的情感

8、分類研究中。本文研究中使用SVM-light-TK2作為分類器,SVM-light-TK工具是在SVM-light3的基礎(chǔ)上,提供對卷積樹核函數(shù)的支持。它的訓(xùn)練數(shù)據(jù)的輸入格式如圖2.3,整個格式分成三部分:首先是類別標(biāo)簽,用于標(biāo)示該對象屬于正例還是負(fù)例;其次是句法樹特征,即括號表示的句法樹,該特征以“|BT|”為標(biāo)志開始、“|ET|”標(biāo)志結(jié)束;最后是基本特征。+1阿N04PETliicXJJiMHjHURbVJJeHbonleXMNcrniiMtfwi)XPT(inofXNrtNFtDTflcKNN鵬加問|揖12211243;lIZTftll-Clil1BJ?:I1QF;I圖2.3包含句法樹特

9、征的SVM樣例本文通過Stanford-parser工具包獲取句法樹,該工具包是斯坦福大學(xué)的相關(guān)人員使用Java語言編寫的一個開放源代碼的概率性的自然語言語法分析器。它可以分析出句子的詞性標(biāo)注信息、句法樹結(jié)構(gòu)信息以及詞語之間的依存信息。2.4 核函數(shù)方法和卷積樹核近些年的自然語言處理領(lǐng)域中,越來越多的研究者使用卷積樹核挖掘結(jié)構(gòu)化信息來解決自然語言處理的某些問題。SVM提供了對于卷積樹核(Collins等)的支持,本節(jié)簡單介紹核函數(shù),卷積樹核和復(fù)合核的基本知識。2.4.1 核函數(shù)方法許多的機(jī)器學(xué)習(xí)算法只是涉及到在特征空間中進(jìn)行向量之間的點積,其中每個對象都由一個特征來表征。核函數(shù)可以看成一種基于

10、特征算法的泛化(Generalization)的表示,它使用兩個向量的核函數(shù)W(X,Y)來代替點積。從數(shù)學(xué)上來說只要W(X,Y)是對稱的,并且由其產(chǎn)生的核矩陣是半正定的,那么它就會在一個隱式的希爾伯特空間(ImplicitHilbertSpace)中形成一個有效的點積。在這個隱式的希爾伯特空間中,一個核可以分解為多個特征,并且特征的維數(shù)可以是無限的。所以核函數(shù)是解決高維特征分類問題的一個很好的選擇。使用核函數(shù)與傳統(tǒng)基于特征的算法之間的對比關(guān)系如圖2.4所示。%2+ah%fre).F"+1,Vn(fpBi,<Tfra)¥(IirIl)-V(II,k)中0%0中Uh,I”

11、)Classifier圖2.4顯示了核函數(shù)與傳統(tǒng)基于特征的算法之間的對比關(guān)系2.4.2 卷積樹核本章采用Collins和Duffy(2001)提出的卷積樹核函數(shù)(ConvolutionTreeKernel,CTK),即兩棵樹之間的相似度可以通過計算它們之間的相同子樹的數(shù)目來實現(xiàn)。遞歸計算:=4口(1十(必Siach,)jt-i其中#M(坨是節(jié)點n的子節(jié)點數(shù)目,ch(n,k)是節(jié)點n的第k個子節(jié)點,而入(0入1)則是衰退因子,用來防止子樹的相似度過度依賴于子樹的大小。2.4.3 復(fù)合核復(fù)合核在情感分類中也可以體現(xiàn)其價值。復(fù)合核的樹核函數(shù)通過對句法樹計算為情感分類提供結(jié)構(gòu)化信息,而復(fù)合核中的基本核

12、則可以包含一些無法通過樹核函數(shù)捕獲的信息。比如可以在基本核中標(biāo)注出該句中含有的情感字典中詞語,這樣就可以在復(fù)合核中引入一些對于情感分類很重要的信息,進(jìn)而提高情感分類的準(zhǔn)確率。2.4.4 樹核空間子樹(ST)是指由原來的樹結(jié)構(gòu)中任意一個節(jié)點和其所有后代節(jié)點構(gòu)成的一棵子樹,子集樹(SST)的構(gòu)成相比子樹更加自由,不要求包含一個節(jié)點的所有后代節(jié)點。所以子集樹的葉子節(jié)點可以是原來樹結(jié)構(gòu)的非葉子節(jié)點。子集樹(SST)雖然結(jié)構(gòu)比子樹(ST)自由,但是子集樹必須滿足一個約定:不能破壞語法規(guī)則(GrammaticalRules)。所以“(NP(DTNN)”是一個子集樹,但是“(NP(DT)”卻不是子集樹。如果

13、不遵守這個語法規(guī)則,得到的更加一般化的結(jié)構(gòu)稱為局部樹(PartialTrees,PTs),但是本文的研究不考慮局部樹的情況。在后面的試驗中本文將對比子樹(ST)和子集樹(SST)在情感分類中的性能。3實驗結(jié)果與分析3.1 數(shù)據(jù)集本文的語料來源于BoPang和LillianLee的電影評論數(shù)據(jù)庫,該數(shù)據(jù)庫中包含5331個正向情感的電影評論片段(snippet)和5331個負(fù)向情感的片段。從中隨機(jī)選取1800個單句(900個正向情感句,900個負(fù)向情感句)的評論作為實驗語料。按照Pang等的試驗設(shè)置,對于數(shù)據(jù)集使用了3層交叉驗證。每層的數(shù)據(jù)都是600句,其中包含300個正向情感句和300個負(fù)向情感

14、句。3.2 實驗設(shè)置試驗參數(shù)設(shè)置如下:在以wordunigram和wordbigram為特征的兩個試驗中,使用SVM中的線性核,其參數(shù)使用SVM-light的默認(rèn)值。在進(jìn)行有關(guān)樹核函數(shù)的試驗中,使用SVM-light-TK工具包,其在SVM-light的基礎(chǔ)上添加了對樹核函數(shù)的支持。對于單純的樹核實驗(不使用混合核),本文設(shè)置SVM-light-TK的C參數(shù)值為“T”;對于混合核實驗,設(shè)置C參數(shù)值為“+”。其余參數(shù)如果不做特殊說明即為SVM-light-TK的默認(rèn)值。3.3 樹核的實驗結(jié)果首先使用Stanfordparser把語料中的主觀性句子轉(zhuǎn)化為句法樹,然后把這些FT直接交由SVM訓(xùn)練;接

15、著使用3.7節(jié)提到的剪裁樹和剪枝策略,把FT剪裁為MCT和PT,然后交由SVM訓(xùn)練。最后的結(jié)果如表3.1所示。表3.1FT、MCT和PT情感分類的結(jié)果IJ«'Pncdjicu.艮KillFlRxi疝in艮皿口FLFT免手用1中“駕3.3634.33男利HCT1=皿兇工北站,叫墨啊#157國富心455Sjfi7amMCTi.w:i£t;ia=3-Vr制W庭可162.736S.S5國】35.1461JTPT1wiro-rae-)-1訶®理)643865弼出IT華工陽燈6打4PT5訕也;工恬騏嶼也63E4ABJESMEi5253_叢正卷心.西的感即6S43670

16、4Y”口調(diào)bUllL中置11的五d5iQ2而而A4521口gMCTi.w:i£t;ia=3-Vr)(LunEraim由旦仆K(I:1帆白J70.27LE1116fiP.36682363"FTi<Hindn=3!惘第討闔Ij制Zmm的且自描J7A7W72.WTI小工71*通過上面的實驗中分類器預(yù)測的數(shù)據(jù)和測試數(shù)據(jù)的對比,發(fā)現(xiàn)了分類出錯的句子存在以下的特點:1 .分類出錯的句子中長句占據(jù)的比例比短句要很多。2 .分類中出錯的句子中,含有情感轉(zhuǎn)移的句子出錯率很高。3 .在分類出錯的句子中,有很多句子本身就是有語法錯誤的,或者根本就是不通順的句子。3.4 復(fù)合核中平面特征和結(jié)

17、構(gòu)化特征的貢獻(xiàn)復(fù)合核是由基于平面特征的基本核和基于結(jié)構(gòu)化特征的樹核,按照一定得比例復(fù)合而成的。具體的公式在此:入K1+(1-入)K2復(fù)合核。其中K1表示由結(jié)構(gòu)化信息所得的卷積樹核,而K2表示由基本特征所得的基本核。在這個實驗中,通過改變公式中入值來分析基本核和樹核在復(fù)合核中的貢獻(xiàn)度。表3.2的結(jié)果顯示入=0.2和0.1時,分類效果最佳,得到了基于句法樹實驗中最好的F1值72.49%。%以詢民K疝TFlM067.97S7.96酊用0.173.4811.5212.49Ci.l71.31TEW0472.3671.39n.us以20-7170注書03戰(zhàn)31704S白亮16535G2.21心酷表3.2復(fù)

18、合核中平面特征和結(jié)構(gòu)化特征的貢獻(xiàn)3.5 不同情感詞典對分類性能的影響這里使用兩個情感詞典:實驗中本文分別使用這兩個情感詞典對FT進(jìn)行基于情感詞的裁剪,然后比較各自的分類性能。結(jié)果如表3.3所示。表3.3不同情感詞典的分類性能PrecisinnYRecallTFlx>Di661062.3564.17D:出打677467j00從上面的實驗結(jié)果可以看出,基于詞典D2的情感分類的效果要好于D1。這也符合情感分類對于領(lǐng)域依賴的特點。同時可以看出D2的分類結(jié)果中,準(zhǔn)確率(Precision)沒有什么改變,但召回率有比較大的提升,這說明D2中添加的領(lǐng)域相關(guān)的情感詞發(fā)現(xiàn)了更多的情感表達(dá)。3.6 子樹核與

19、子集樹核實驗結(jié)果表明:在句子級別情感分類研究中,子集樹核比子樹核的效果更好。這是因為子樹的生成規(guī)則導(dǎo)致核空間中的子樹數(shù)目比子集樹核要少,并且子樹中的節(jié)點必須包含其所有孩子節(jié)點,這樣就導(dǎo)致在比較句法樹時,其相似度下降。表3.4子樹核與子集樹核的實驗結(jié)果ii:wPn:Cl£U33l出句FnFT-STT«<日口短制室5S.S6FT:STST55M完更S5.90%1452ISSt®4結(jié)論本文研究樹核函數(shù)在句子級別情感分類中的貢獻(xiàn),主要取得了以下的一些成果。1 .將樹核函數(shù)應(yīng)用到句子級別情感分類研究中,證明的結(jié)構(gòu)化信息可以幫助句子級別情感分類針對完整句法樹會引入過多噪

20、音的問題,對句法樹進(jìn)行適當(dāng)?shù)牟眉簦瑢⒁恍┰胍舴种舻?,同時提出了基于形容詞和情感詞的兩種不同裁剪方法,盡量達(dá)到最大化保留有用信息,去除無用信息。實驗表明合理的裁剪可以提高系統(tǒng)的分類性能。3 .針對多形容詞的句法樹,提出了一種動態(tài)的剪枝算法。該算法可以更好的去除噪音,提高性能。4 .將依存樹應(yīng)用在句子級別情感分類研究中,并且實驗顯示分類性能要優(yōu)于句法樹。同時也對依存樹進(jìn)行裁剪,并取得了系統(tǒng)性能的提升。由于作者水平有限,加之經(jīng)驗不足,文中難免偏頗不妥之處,懇請各位專家不吝批評指正。參考文獻(xiàn):1 JeongheeYi,TetsuyaNasukawa,RazvanBunescu,WayneNiblac

21、k.SentimentAnalyzer:ExtractingSentimentsaboutaGivenTopicusingNaturalLanguageProcessingTechniques.Proceedingsofthe3rdIEEEInternationalConferenceonDataMining(ICDM-2003).20032 XiwenCheng.AutomaticTopicTermDetectionandSentimentClassificationforOpinionMining.20073 StevenBethard,HongYu,AshleyThornton,VasileiosHatzivassiloglou,DanJurafsky.AutomaticExtractionofOpinionPropositionsandtheirHolders.ProceedingsoftheAAAISpringSymposiumonExploringAttitudeandAffectinText:T

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論