64#-情感語料庫的構(gòu)建和分析_第1頁
64#-情感語料庫的構(gòu)建和分析_第2頁
64#-情感語料庫的構(gòu)建和分析_第3頁
64#-情感語料庫的構(gòu)建和分析_第4頁
64#-情感語料庫的構(gòu)建和分析_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大連外國語學院學士學位論文中文題目:情感語料庫的構(gòu)建和分析英文題目:ConstructionandAnalysisofEmotionalCorpus二級學院:俄語系學科、專業(yè):阿拉伯語專業(yè)研究生:徐慧指導教師:曾磊副教授2011年11月情感語料庫的構(gòu)建和分析情感語料庫的構(gòu)建和分析**基金資助:國家自然科學基金資助項目(編號:60373095,60673039)和國家863高科技計劃資助項目(編號:2006AA01Z151)。作者簡介:徐琳宏,女,碩士生,研究方向為文本分類和文本傾向性識別;林鴻飛,男,博導,教授,研究方向為文本過濾,文本挖掘和自然語言理解,hflin@;徐琳宏,林鴻飛(大連理工大學計算機科學與工程系,大連116024)摘要:本文介紹了情感語料庫構(gòu)建方面的一些經(jīng)驗,討論了在設(shè)計和建設(shè)情感語料庫中的幾個基本問題:制定標注規(guī)范、選擇標注集、設(shè)計標注工具以及標注過程中的質(zhì)量監(jiān)控。目前已經(jīng)標注完成近四萬句,一百萬字的語料。在完成這些已標注語料的基礎(chǔ)上,進一步給出了語料庫的情感分布,情感遷移規(guī)律等統(tǒng)計數(shù)據(jù),分析了情感語料庫的特點及應(yīng)用。它的建成將為文本情感計算提供更加強大的資源支持。關(guān)鍵詞:情感語料庫;文本編碼規(guī)范;一致性檢查;情感遷移中圖法分類號:TP391文獻標識符:AConstructionandAnalysisofEmotionalCorpusXuLinhong,LinHongfei(DepartmentofComputerScienceandEngineering,DalianUniversityofTechnology,Dalian116024)Thispaperintroducedsomeexperiencesonconstructingemotionalcorpus,anddiscussedseveralbasicquestionswhichincludedthetaggingcriterion,taggingset,taggingtoolsandqualitymonitoring.Therewereabout40000sentencesinthecorpus.Moreoverbasedonthese,statisticaldataaboutemotionaldistributionandrulesofemotionaltransferencewereavailable,andcharactersandapplicationsofcorpuswereanalyzed,soemotionalcorpusprovidesupportfortextaffectivecomputing.emotionalcorpus;TextCodingInitiative;consistencychecking;emotionaltransference引言情感計算目前是人工智能領(lǐng)域的研究熱點,它的主要目標是使計算機能識別人類的情感,也就是需要建立完善的情感識別模型。然而要使訓練的模型準確,容錯能力強,就必須有大規(guī)模的情感語料支撐。在國外,語料庫的研究很早就已經(jīng)開始了,也建設(shè)完成了許多大規(guī)模的語料庫,如Brown語料庫等。漢語語料庫的建設(shè)開始于20世紀80年代,現(xiàn)有的大規(guī)模語料有國家現(xiàn)代漢語語料庫[1]、臺灣中央研究院平衡語料庫[2]、中港臺漢語語料庫[3]、北京大學和富士通公司共同制作的人民日報語料庫[4]等。上述大規(guī)模語料庫的建設(shè)在收集語料,制定標注規(guī)范和質(zhì)量監(jiān)控等方面積累了寶貴的經(jīng)驗。文本情感語料庫的建設(shè)方面,目前已有的語料庫包括Pang語料庫[5],Whissell語料庫[6],Berardinelli電影評論語料庫[7],產(chǎn)品評論語料庫[8]。漢語情感語料庫標注方面的資源則較少,清華大學標注了部分旅游景點的描述的情感語料[9],用來輔助語音合成的,但是規(guī)模也較小。總之,在國內(nèi)情感計算剛剛興起,這方面還沒有比較大規(guī)模、權(quán)威的漢語文本情感語料庫。大部分語料庫的建設(shè)分為語料的收集和預處理、標注規(guī)范的制定,質(zhì)量監(jiān)控等幾方面,下面的論文將分別闡述語料庫建設(shè)的各個步驟。第2節(jié)概略的介紹了目前選擇語料的類型和規(guī)模,第3節(jié)詳細地介紹了情感語料庫的標注體系,第4節(jié)介紹了語料建設(shè)中質(zhì)量監(jiān)控的方法,包括正確性和一致性檢查的方法。第5節(jié)闡述了語料庫的一些統(tǒng)計數(shù)據(jù)及應(yīng)用,最后,第6節(jié)總結(jié)語料庫的優(yōu)點和不足,并進一步提出改進的措施。語料的收集語料的收集工作,即選擇合適的語料,做預處理,為語料的標注提前做好準備。語料選擇的方法關(guān)系到語料庫的覆蓋率,所謂覆蓋是指語料在各個不同領(lǐng)域的分布或散布,這些不同領(lǐng)域通常是指由時間軸(反映時代特征)、空間軸(反映地域特征)、學科軸(反映知識特征)、風格軸(反映語體特征)構(gòu)成的四維模型[10]。我們的語料包括小學教材(人教版),電影劇本,童話故事,文學期刊等。從時間軸上看,有童話故事和小學教材等完成較早的經(jīng)典文章,也有期刊和電影劇本等近一年多的作品。語料以中文的作品為主,但是也有部分電影劇本和童話故事是外文翻譯而來,考慮了地域特征的跨度。在風格方面,小學教材等用詞比較規(guī)范、嚴謹,而電影劇本等則口語特征比較明顯??偟膩碚f,語料的選擇偏重于文學色彩比較濃,情感表達豐富多彩的作品,舍棄一些科學說明性的文章。表1列出了各類語料的詳細信息。表1語料的詳細信息語料來源詳細說明字數(shù)詞數(shù)句子數(shù)篇章數(shù)小學教材人教版,12冊129,48691,0324,809171電影劇本《獅子王》、《汽車總動員》等6個電影劇本84,11854,0925,911237童話故事部分格林童話、安徒生童話5,406639,0052,01173文學期刊《少年文藝》、《青年文摘》、《新青年》等9本期刊的2006年全年12期6,308,5264,375,396237,2903754總計6,576,1964,559,525250,0214,235情感語料庫的標注體系語料庫的標注體系就是指對語料的加工程度,即一個待標注的單元需要填充的信息集合。標注體系決定了語料標注的粒度。如果類別劃分過粗,就不能全面、細致地描述語言的復雜現(xiàn)象;但如果類別劃分過細、標注信息過于龐大,不但會增加標注難度、降低標注效率,關(guān)系之間只有細微差別的情況也會使標注結(jié)果呈現(xiàn)嚴重的不一致性[11]。此外,在語料庫規(guī)模有限的情況下,類別分的太細,統(tǒng)計數(shù)據(jù)的稀疏問題越嚴重,那么訓練出來的模型健壯性就越差??梢?,語料庫的標注體系是構(gòu)建一個高質(zhì)量、大規(guī)模語料庫的關(guān)鍵。情感標注體系理想的情感標注體系是在標注前事先確定,在標注過程中保持不變,這樣可以保證標注的一致性。但是由于語料的多樣性和復雜性,標注規(guī)范也需要多次修正,這就可能導致語料庫的質(zhì)量下降。為了充分考慮各種特殊情況,本文預先標注了部分語料,在總結(jié)標注中發(fā)現(xiàn)的問題的基礎(chǔ)上,綜合考慮其他類型語料的標注經(jīng)驗和文本情感標注自身特點,制定了如下的標注體系:DocumentModel=(title,author,style,source,persons,sentences,keynote)(1)SentenceModel=(origin,sender,[accepter],[rhetoric],emotions,[keywords])(2)由上面兩個公式可以看出本文的情感標注體系的標注粒度分為詞匯、語句和篇章。其中語句是主要的情感標注粒度,詞匯和語篇的相關(guān)信息都是語句情感標注的輔助。方括號內(nèi)的變量accepter、rhetoric和keywords是可選的,其他的是不能為空的。語篇和語句標注模型中各變量表示含義和取值范圍如下:表2標注體系中各變量的說明類別變量說明取值范圍語篇標注模型(documentModel)title文章題目author作者姓名,國籍,作品寫作年代style類別散文|詩歌|小說|戲劇source來源小學教材|格林通話|電影劇本|文學期刊persons情感主體主人公1|主人公2…|主人公i…sentences所有語句的標注集合詳見sentenceModelkeynote情感基調(diào)o|h|e|i|m|f|d|s語句標注模型(sentenceModel)origin原始語句sender本句的情感主體主人公iaccepter情感的接受者主人公irhetoric修辭類別比喻|比擬|借代|夸張|對偶|排比|設(shè)問|反問|重復emotions本句包含的所有情感o|h|e|p|r|b|l|k|c|i|s|w|g|m|u|f|x|t|d|a|j|y|qkeywords確定情感的關(guān)鍵詞詞1|詞2…|詞i…在上述變量中persons、sentences、emotions和keywords取值都是一個集合,即變量的取值可以表示為一個向量,如persons=(persona1,persona2…,personai…),變量sender和accepter分別選擇persons中的一個分量作為變量值。需要說明的是persons中包含兩個特殊的情感主體,“旁白”和“其他”。“旁白”表示該句是作者的敘述,沒有鮮明的情感發(fā)出人,而“其他”是為了處理當一篇文章中涉及的任務(wù)較多時,所有非主要人物發(fā)出的情感都用它代替,這樣可以減輕標注者的負擔,又能防止某個情感主體出現(xiàn)次數(shù)較少的數(shù)據(jù)稀疏問題。變量sentences是所有語句情感標注的集合,每個語句標注的內(nèi)容就是語句標注模型中聲明各個變量。keywords中的值是原始語句中對表達該句情感有決定作用的詞,標注keywords是為了更準確地確定語句中代表情感的詞匯。而實驗證明,情感詞匯的特征在語句的情感自動標注中是一個區(qū)分度較大的特征[12]。另外,否定詞和程度副詞對句子情感色彩影響也較大,特別是對語句的褒貶傾向性影響較大[13],但是本文的標注體系沒有標注這兩方面的信息,這主要是為了提高標注效率,所以沒有列入標注體系。變量keynote的取圖1中的所有分支節(jié)點。變量emotions的取值是由圖1葉子節(jié)點中的一個或幾個組成的向量。基于TEI的標注集選擇選擇標注集就是選擇合適的標注附碼和便利的表示方式來存儲標注后的語料。英國著名語言學家Leech是當今語料庫語言學的代表人物之一,他認為(1993)語料的標注應(yīng)該遵循標注附碼可以刪除;所作的標注可以單獨抽出;任何標注模式都不能作為第一標準等七個基本原則。本文在綜合考察已有的各種標注集優(yōu)缺點的基礎(chǔ)上,結(jié)合自己語料庫的實際應(yīng)用情況,以半結(jié)構(gòu)化的方式表示已標注的文本。圖1情感分類樹本文標注集的選擇是在TEI(TextEncodingInitiative)的基礎(chǔ)上,結(jié)合情感標注的特殊需求制定的。TEI(TextEncodingInitiative)是機讀語篇的國際信息編碼規(guī)范。TEI標注模式是由計算語言學學會(ACL,AssociationforComputationalLinguistics)、文學與語言學計算協(xié)會(ALLC,AssociationforLiteraryandLinguisticComputing)和計算機與人文科學學會(ACH,AssociationforComputersandHumanities)等三家學術(shù)團體共同參與制訂的?!坝鴩艺Z料庫”(TheBritishNationalCorpus)等許多大型語料庫都采用了TEI的標注模式。根據(jù)TEI標注模式,一篇語料分為篇頭(header)和篇體兩部分。篇頭指與語篇有關(guān)的背景信息,包括作者、標題、日期、語篇來源、標注方式等信息,而篇體是指語篇本身。在TEI標注模式中語言單位可以是詞、句子或段落等,每個語言單位都有起始標記(starttag)和結(jié)束標記(endtag)。例如,段落的開始和結(jié)束標記分別為<p>和</p>。圖2語料標注示例在本文的標注集中通用的信息,如篇頭,段落等采用TEI的標記規(guī)范。另外定義一些標簽來標記情感標注中特有的信息,標簽的定義以簡潔,易懂為原則。圖2是一篇語料的部分標注示例。整篇語料在<document>和</document>之間,<header>和</header>之間的是篇頭部分,<body>和</body>中的為篇體部分。<p>和</p>分別為段落的開始和結(jié)束標記,<sect>和</sect>為語句的標記。上面的標記模式一方面可以從title和orgin域中還原出原始語料,另一方面也可以從每句的emotions域中得到語篇或者段落的標記序列。這基本符合Leech的標注附碼可以刪除和標注可以單獨抽出的幾個重要原則。另外,這種半結(jié)構(gòu)化的存儲方式使每個標注單元都有開始和結(jié)束標記,與xml格式類似,也為訓練模型時解析語料提供了方便。語料庫的質(zhì)量監(jiān)控本文的情感語料庫的質(zhì)量監(jiān)控主要從標注規(guī)范、標注系統(tǒng)和糾錯機制三個方面完成。標注規(guī)范及標注系統(tǒng)標注規(guī)范和標注系統(tǒng)都是在語料的標注過程中減少誤操作,提高標注速度和增加一致性的有效措施。統(tǒng)一的標注規(guī)范,可以有效縮小不同標注者之間的差異,減少語料標注中的錯誤和不一致性。情感語料標注的規(guī)范是在建設(shè)的過程中動態(tài)更新的,規(guī)范的部分內(nèi)容如下:圖3情感標注系統(tǒng)在前后句情感主體相同的條件下,各句的情感具有連續(xù)性。例如,若連續(xù)的三句話都是同一個情感主體發(fā)出的,而第2句有明顯的“快樂”類標記,則第1句和第3句沒有太明顯的情感類別時,也傾向于快樂。每句的關(guān)鍵詞是廣義范圍的詞匯,可以是詞匯或者常用短語,但是不能擴大到一個分句。除了關(guān)鍵詞、修辭類別和情感接受者,其他內(nèi)容都是不能為空的。一個句子可以包含多個情感,但是同一個句子不能同時標記為無情感和其他23類中的任何一個。當文章沒有清楚的說明作者時,填寫“不詳”代替。每篇文章的情感主體除了主人公外,還有“旁白”和“其他”兩類特殊的情感主體。“旁白”表示該句是作者的敘述,沒有鮮明的情感發(fā)出人,而“其他”是為了處理當一篇文章中涉及的任務(wù)較多時,所有非主要人物發(fā)出的情感都用它代替。全面的標注規(guī)范可以減少語料的不一致,而方便、高效的標注系統(tǒng)可以大幅度提高標注的效率和準確性,防止標注者的誤操作。圖3是情感語料標注系統(tǒng)的界面,“情感主體”以上的部分是描述語篇的信息,接下來的部分是標注語句情感的,從最下面的文本框中可以瀏覽整篇文檔。為了減輕標注者的負擔,提高標注速度和準確率,該系統(tǒng)采用啟發(fā)式搜索算法[14]自動分割語句,并根據(jù)某些項不能為空的規(guī)范自動完成合法性檢查,防止錯誤的語料進入語料庫。糾錯機制標注規(guī)范和標注系統(tǒng)是保證語料在錄入時的準確率和一致性,而糾錯機制是在語料標注完成后統(tǒng)一進行語料的正確性和一致性檢查。為了統(tǒng)一標注者在某些常見情況的標注標準,我們采用了許多大規(guī)模語料庫常用的方法,即做部分的交叉標注,保證語料標注的正確性。在一致性檢查方面本文采用的糾錯機制是機器自動檢查,人工修正的方法。根據(jù)情感語料標注的特點,本文從詞匯和情感連續(xù)性兩個角度分析標注的一致性,為了清楚的介紹這部分內(nèi)容,首先說明這部分相關(guān)的函數(shù)和變量,具體見表3。表3一致性檢查的部分函數(shù)說明函數(shù)名自變量說明取值條件NegSi第i個語句中是否包含否定詞0沒有否定詞1包含否定詞larSameEi,Ej第i句和第j句的情感在大類范圍內(nèi)(情感分類樹的分支節(jié)點)是否相同0不同1相同wordSameSi,Sj第i句和第j句是否包含相同的關(guān)鍵詞0不同1相同personSameSi第i-1,i和i+1句情感主體是否相同0不同1相同emotionSameEi第i-1,i和i+1句情感是否相同0不同1相同從情感詞匯的角度出發(fā)考慮一致性,主要以關(guān)鍵詞為依據(jù),檢查一致性。(3)公式中Si和Sj分別表示一篇語料中的第i句和第j句,Ei和Ej分別表示第i句和第j句的情感。wordConsistency表示當兩句中都不包含否定詞時,如果兩句的關(guān)鍵詞相同,但是所屬的情感大類不同時,兩句可能存在不一致,此時取值為1。從情感的連續(xù)性上考慮,當前后句的情感不一致,但是情感主體相同的條件下,該句的情感可能存在錯誤。具體見公式(4)(4)上述的兩個公式分別從詞匯和情感連續(xù)性兩個方面檢查情感的一致性,通過機器自動識別出不一致的地方,再人工確認是否需要修改。兩種方法雖然都是進行一致性檢查,但是關(guān)鍵詞方法的一致性錯誤級別較高,需要優(yōu)先確認。而情感連續(xù)性方面的一致性檢查,則只是說明有出現(xiàn)不一致的可能,但是不一定都是錯誤。語料庫的統(tǒng)計數(shù)據(jù)及應(yīng)用語料庫的統(tǒng)計數(shù)據(jù)目前已經(jīng)標注完的語料有103,5601字,726,605詞次,39,488句。這是情感語料庫第一期計劃完成的語料,第二期完成后預計標注的總量將達到一千萬字。語句的情感分布在39,488句中,標注的各類情感所占的比例大致分為三個等級。其中標注為“無情感”類的語句數(shù)最多,達到15449句,其次是“快樂”、“贊揚”、“煩悶”和“懷疑”四類情感數(shù)較多,都超過2000句,其余各類情感均在1000句左右。情感遷移規(guī)律情感遷移規(guī)律是指在語句的上下文中,情感的接續(xù)概率,即由一種情感向另一種情感(包括轉(zhuǎn)移前情感)遷移的可能性。本文通過公式(5)計算情感遷移的概率:(5)transfer(Ea,Eb)表示由情感a向情感b遷移的概率,n表示語料庫中語篇的總數(shù),mi表示第i篇文檔的句子總數(shù),Ti表示語料庫中被標記為i類情感的句子總數(shù)。當Ei與Ej相同時,函數(shù)equal(Ei,Ej)取值為1,否則取值為0。將a類和b類情感的總數(shù)作為分母是為了減弱各類情感包含的語句數(shù)量不同給情感遷移帶來的影響。公式主要計算語篇范圍內(nèi),上下句之間的情感變化。圖4情感遷移圖圖4是23類情感之間的遷移概率圖,因為23類情感彼此的遷移可能性比較多,為了表示的更加清楚明晰,本文在圖中給出了transfer(Ea,Eb)大于等于0.05的情感遷移概率。由圖可以看出“哀”類情感的內(nèi)聚性(情感大類內(nèi)的情感遷移)較弱,而“惡”類情感的內(nèi)聚性較強,“懼”和“好”類情感的內(nèi)聚性一般。語料庫的應(yīng)用語料庫的標注內(nèi)容和標注形式?jīng)Q定了它的應(yīng)用范圍。目前情感語料庫主要應(yīng)用在訓練文本情感識別模型、情感詞匯本體的自動學習和統(tǒng)計情感遷移規(guī)律三方面。按句標注的情感不僅給出了情感的類別,而且標注了情感主體、關(guān)鍵詞和修辭手法等信息,這些都為情感識別模型的訓練提供了豐富和區(qū)分度較高的特征,為提高情感識別的準確率奠定了基礎(chǔ)。每句在情感標注過程中都盡可能標記了關(guān)鍵詞,這些關(guān)鍵詞為情感詞匯本體的自動學習提供了第一手的資料。文本情感的遷移規(guī)律不同于臉譜和語音的情感遷移,它有其自身的特點。通過統(tǒng)計語料庫中種數(shù)據(jù),可以得到類似圖4的情感遷移規(guī)律圖。結(jié)論及改進措施情感語料庫在建設(shè)過程中從制定標注規(guī)范,選擇合適的標注集以及質(zhì)量監(jiān)控等多方面提高語料標注的質(zhì)量和速度。目前已標注完成的語料有103,5601字,39,488句,第一期標注的語料已經(jīng)基本完成。在總結(jié)第一期標注經(jīng)驗的基礎(chǔ)上,計劃完成10,000句,近千萬字的語料。任何語料庫的建設(shè)都不可能是完美無缺的,肯定會存在一些問題和不足。情感語料庫的建設(shè)也存在語料在體裁和情感類別上分布不均以及參考的標注建議較少等缺點,我們將在今后的建設(shè)中不斷改善。參考文獻:劉連元.現(xiàn)代漢語語料庫研制[J].語言文字應(yīng)用,1996,(3):2-9.tw/SinicaCorpus/胡百華,李行得,湯志

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論