64#-情感語(yǔ)料庫(kù)的構(gòu)建和分析_第1頁(yè)
64#-情感語(yǔ)料庫(kù)的構(gòu)建和分析_第2頁(yè)
64#-情感語(yǔ)料庫(kù)的構(gòu)建和分析_第3頁(yè)
64#-情感語(yǔ)料庫(kù)的構(gòu)建和分析_第4頁(yè)
64#-情感語(yǔ)料庫(kù)的構(gòu)建和分析_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大連外國(guó)語(yǔ)學(xué)院學(xué)士學(xué)位論文中文題目:情感語(yǔ)料庫(kù)的構(gòu)建和分析英文題目:ConstructionandAnalysisofEmotionalCorpus二級(jí)學(xué)院:俄語(yǔ)系學(xué)科、專業(yè):阿拉伯語(yǔ)專業(yè)研究生:徐慧指導(dǎo)教師:曾磊副教授2011年11月情感語(yǔ)料庫(kù)的構(gòu)建和分析情感語(yǔ)料庫(kù)的構(gòu)建和分析**基金資助:國(guó)家自然科學(xué)基金資助項(xiàng)目(編號(hào):60373095,60673039)和國(guó)家863高科技計(jì)劃資助項(xiàng)目(編號(hào):2006AA01Z151)。作者簡(jiǎn)介:徐琳宏,女,碩士生,研究方向?yàn)槲谋痉诸惡臀谋緝A向性識(shí)別;林鴻飛,男,博導(dǎo),教授,研究方向?yàn)槲谋具^(guò)濾,文本挖掘和自然語(yǔ)言理解,hflin@;徐琳宏,林鴻飛(大連理工大學(xué)計(jì)算機(jī)科學(xué)與工程系,大連116024)摘要:本文介紹了情感語(yǔ)料庫(kù)構(gòu)建方面的一些經(jīng)驗(yàn),討論了在設(shè)計(jì)和建設(shè)情感語(yǔ)料庫(kù)中的幾個(gè)基本問(wèn)題:制定標(biāo)注規(guī)范、選擇標(biāo)注集、設(shè)計(jì)標(biāo)注工具以及標(biāo)注過(guò)程中的質(zhì)量監(jiān)控。目前已經(jīng)標(biāo)注完成近四萬(wàn)句,一百萬(wàn)字的語(yǔ)料。在完成這些已標(biāo)注語(yǔ)料的基礎(chǔ)上,進(jìn)一步給出了語(yǔ)料庫(kù)的情感分布,情感遷移規(guī)律等統(tǒng)計(jì)數(shù)據(jù),分析了情感語(yǔ)料庫(kù)的特點(diǎn)及應(yīng)用。它的建成將為文本情感計(jì)算提供更加強(qiáng)大的資源支持。關(guān)鍵詞:情感語(yǔ)料庫(kù);文本編碼規(guī)范;一致性檢查;情感遷移中圖法分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)符:AConstructionandAnalysisofEmotionalCorpusXuLinhong,LinHongfei(DepartmentofComputerScienceandEngineering,DalianUniversityofTechnology,Dalian116024)Thispaperintroducedsomeexperiencesonconstructingemotionalcorpus,anddiscussedseveralbasicquestionswhichincludedthetaggingcriterion,taggingset,taggingtoolsandqualitymonitoring.Therewereabout40000sentencesinthecorpus.Moreoverbasedonthese,statisticaldataaboutemotionaldistributionandrulesofemotionaltransferencewereavailable,andcharactersandapplicationsofcorpuswereanalyzed,soemotionalcorpusprovidesupportfortextaffectivecomputing.emotionalcorpus;TextCodingInitiative;consistencychecking;emotionaltransference引言情感計(jì)算目前是人工智能領(lǐng)域的研究熱點(diǎn),它的主要目標(biāo)是使計(jì)算機(jī)能識(shí)別人類的情感,也就是需要建立完善的情感識(shí)別模型。然而要使訓(xùn)練的模型準(zhǔn)確,容錯(cuò)能力強(qiáng),就必須有大規(guī)模的情感語(yǔ)料支撐。在國(guó)外,語(yǔ)料庫(kù)的研究很早就已經(jīng)開(kāi)始了,也建設(shè)完成了許多大規(guī)模的語(yǔ)料庫(kù),如Brown語(yǔ)料庫(kù)等。漢語(yǔ)語(yǔ)料庫(kù)的建設(shè)開(kāi)始于20世紀(jì)80年代,現(xiàn)有的大規(guī)模語(yǔ)料有國(guó)家現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)[1]、臺(tái)灣中央研究院平衡語(yǔ)料庫(kù)[2]、中港臺(tái)漢語(yǔ)語(yǔ)料庫(kù)[3]、北京大學(xué)和富士通公司共同制作的人民日?qǐng)?bào)語(yǔ)料庫(kù)[4]等。上述大規(guī)模語(yǔ)料庫(kù)的建設(shè)在收集語(yǔ)料,制定標(biāo)注規(guī)范和質(zhì)量監(jiān)控等方面積累了寶貴的經(jīng)驗(yàn)。文本情感語(yǔ)料庫(kù)的建設(shè)方面,目前已有的語(yǔ)料庫(kù)包括Pang語(yǔ)料庫(kù)[5],Whissell語(yǔ)料庫(kù)[6],Berardinelli電影評(píng)論語(yǔ)料庫(kù)[7],產(chǎn)品評(píng)論語(yǔ)料庫(kù)[8]。漢語(yǔ)情感語(yǔ)料庫(kù)標(biāo)注方面的資源則較少,清華大學(xué)標(biāo)注了部分旅游景點(diǎn)的描述的情感語(yǔ)料[9],用來(lái)輔助語(yǔ)音合成的,但是規(guī)模也較小??傊趪?guó)內(nèi)情感計(jì)算剛剛興起,這方面還沒(méi)有比較大規(guī)模、權(quán)威的漢語(yǔ)文本情感語(yǔ)料庫(kù)。大部分語(yǔ)料庫(kù)的建設(shè)分為語(yǔ)料的收集和預(yù)處理、標(biāo)注規(guī)范的制定,質(zhì)量監(jiān)控等幾方面,下面的論文將分別闡述語(yǔ)料庫(kù)建設(shè)的各個(gè)步驟。第2節(jié)概略的介紹了目前選擇語(yǔ)料的類型和規(guī)模,第3節(jié)詳細(xì)地介紹了情感語(yǔ)料庫(kù)的標(biāo)注體系,第4節(jié)介紹了語(yǔ)料建設(shè)中質(zhì)量監(jiān)控的方法,包括正確性和一致性檢查的方法。第5節(jié)闡述了語(yǔ)料庫(kù)的一些統(tǒng)計(jì)數(shù)據(jù)及應(yīng)用,最后,第6節(jié)總結(jié)語(yǔ)料庫(kù)的優(yōu)點(diǎn)和不足,并進(jìn)一步提出改進(jìn)的措施。語(yǔ)料的收集語(yǔ)料的收集工作,即選擇合適的語(yǔ)料,做預(yù)處理,為語(yǔ)料的標(biāo)注提前做好準(zhǔn)備。語(yǔ)料選擇的方法關(guān)系到語(yǔ)料庫(kù)的覆蓋率,所謂覆蓋是指語(yǔ)料在各個(gè)不同領(lǐng)域的分布或散布,這些不同領(lǐng)域通常是指由時(shí)間軸(反映時(shí)代特征)、空間軸(反映地域特征)、學(xué)科軸(反映知識(shí)特征)、風(fēng)格軸(反映語(yǔ)體特征)構(gòu)成的四維模型[10]。我們的語(yǔ)料包括小學(xué)教材(人教版),電影劇本,童話故事,文學(xué)期刊等。從時(shí)間軸上看,有童話故事和小學(xué)教材等完成較早的經(jīng)典文章,也有期刊和電影劇本等近一年多的作品。語(yǔ)料以中文的作品為主,但是也有部分電影劇本和童話故事是外文翻譯而來(lái),考慮了地域特征的跨度。在風(fēng)格方面,小學(xué)教材等用詞比較規(guī)范、嚴(yán)謹(jǐn),而電影劇本等則口語(yǔ)特征比較明顯??偟膩?lái)說(shuō),語(yǔ)料的選擇偏重于文學(xué)色彩比較濃,情感表達(dá)豐富多彩的作品,舍棄一些科學(xué)說(shuō)明性的文章。表1列出了各類語(yǔ)料的詳細(xì)信息。表1語(yǔ)料的詳細(xì)信息語(yǔ)料來(lái)源詳細(xì)說(shuō)明字?jǐn)?shù)詞數(shù)句子數(shù)篇章數(shù)小學(xué)教材人教版,12冊(cè)129,48691,0324,809171電影劇本《獅子王》、《汽車(chē)總動(dòng)員》等6個(gè)電影劇本84,11854,0925,911237童話故事部分格林童話、安徒生童話5,406639,0052,01173文學(xué)期刊《少年文藝》、《青年文摘》、《新青年》等9本期刊的2006年全年12期6,308,5264,375,396237,2903754總計(jì)6,576,1964,559,525250,0214,235情感語(yǔ)料庫(kù)的標(biāo)注體系語(yǔ)料庫(kù)的標(biāo)注體系就是指對(duì)語(yǔ)料的加工程度,即一個(gè)待標(biāo)注的單元需要填充的信息集合。標(biāo)注體系決定了語(yǔ)料標(biāo)注的粒度。如果類別劃分過(guò)粗,就不能全面、細(xì)致地描述語(yǔ)言的復(fù)雜現(xiàn)象;但如果類別劃分過(guò)細(xì)、標(biāo)注信息過(guò)于龐大,不但會(huì)增加標(biāo)注難度、降低標(biāo)注效率,關(guān)系之間只有細(xì)微差別的情況也會(huì)使標(biāo)注結(jié)果呈現(xiàn)嚴(yán)重的不一致性[11]。此外,在語(yǔ)料庫(kù)規(guī)模有限的情況下,類別分的太細(xì),統(tǒng)計(jì)數(shù)據(jù)的稀疏問(wèn)題越嚴(yán)重,那么訓(xùn)練出來(lái)的模型健壯性就越差??梢?jiàn),語(yǔ)料庫(kù)的標(biāo)注體系是構(gòu)建一個(gè)高質(zhì)量、大規(guī)模語(yǔ)料庫(kù)的關(guān)鍵。情感標(biāo)注體系理想的情感標(biāo)注體系是在標(biāo)注前事先確定,在標(biāo)注過(guò)程中保持不變,這樣可以保證標(biāo)注的一致性。但是由于語(yǔ)料的多樣性和復(fù)雜性,標(biāo)注規(guī)范也需要多次修正,這就可能導(dǎo)致語(yǔ)料庫(kù)的質(zhì)量下降。為了充分考慮各種特殊情況,本文預(yù)先標(biāo)注了部分語(yǔ)料,在總結(jié)標(biāo)注中發(fā)現(xiàn)的問(wèn)題的基礎(chǔ)上,綜合考慮其他類型語(yǔ)料的標(biāo)注經(jīng)驗(yàn)和文本情感標(biāo)注自身特點(diǎn),制定了如下的標(biāo)注體系:DocumentModel=(title,author,style,source,persons,sentences,keynote)(1)SentenceModel=(origin,sender,[accepter],[rhetoric],emotions,[keywords])(2)由上面兩個(gè)公式可以看出本文的情感標(biāo)注體系的標(biāo)注粒度分為詞匯、語(yǔ)句和篇章。其中語(yǔ)句是主要的情感標(biāo)注粒度,詞匯和語(yǔ)篇的相關(guān)信息都是語(yǔ)句情感標(biāo)注的輔助。方括號(hào)內(nèi)的變量accepter、rhetoric和keywords是可選的,其他的是不能為空的。語(yǔ)篇和語(yǔ)句標(biāo)注模型中各變量表示含義和取值范圍如下:表2標(biāo)注體系中各變量的說(shuō)明類別變量說(shuō)明取值范圍語(yǔ)篇標(biāo)注模型(documentModel)title文章題目author作者姓名,國(guó)籍,作品寫(xiě)作年代style類別散文|詩(shī)歌|小說(shuō)|戲劇source來(lái)源小學(xué)教材|格林通話|電影劇本|文學(xué)期刊persons情感主體主人公1|主人公2…|主人公i…sentences所有語(yǔ)句的標(biāo)注集合詳見(jiàn)sentenceModelkeynote情感基調(diào)o|h|e|i|m|f|d|s語(yǔ)句標(biāo)注模型(sentenceModel)origin原始語(yǔ)句sender本句的情感主體主人公iaccepter情感的接受者主人公irhetoric修辭類別比喻|比擬|借代|夸張|對(duì)偶|排比|設(shè)問(wèn)|反問(wèn)|重復(fù)emotions本句包含的所有情感o|h|e|p|r|b|l|k|c|i|s|w|g|m|u|f|x|t|d|a|j|y|qkeywords確定情感的關(guān)鍵詞詞1|詞2…|詞i…在上述變量中persons、sentences、emotions和keywords取值都是一個(gè)集合,即變量的取值可以表示為一個(gè)向量,如persons=(persona1,persona2…,personai…),變量sender和accepter分別選擇persons中的一個(gè)分量作為變量值。需要說(shuō)明的是persons中包含兩個(gè)特殊的情感主體,“旁白”和“其他”?!芭园住北硎驹摼涫亲髡叩臄⑹?,沒(méi)有鮮明的情感發(fā)出人,而“其他”是為了處理當(dāng)一篇文章中涉及的任務(wù)較多時(shí),所有非主要人物發(fā)出的情感都用它代替,這樣可以減輕標(biāo)注者的負(fù)擔(dān),又能防止某個(gè)情感主體出現(xiàn)次數(shù)較少的數(shù)據(jù)稀疏問(wèn)題。變量sentences是所有語(yǔ)句情感標(biāo)注的集合,每個(gè)語(yǔ)句標(biāo)注的內(nèi)容就是語(yǔ)句標(biāo)注模型中聲明各個(gè)變量。keywords中的值是原始語(yǔ)句中對(duì)表達(dá)該句情感有決定作用的詞,標(biāo)注keywords是為了更準(zhǔn)確地確定語(yǔ)句中代表情感的詞匯。而實(shí)驗(yàn)證明,情感詞匯的特征在語(yǔ)句的情感自動(dòng)標(biāo)注中是一個(gè)區(qū)分度較大的特征[12]。另外,否定詞和程度副詞對(duì)句子情感色彩影響也較大,特別是對(duì)語(yǔ)句的褒貶傾向性影響較大[13],但是本文的標(biāo)注體系沒(méi)有標(biāo)注這兩方面的信息,這主要是為了提高標(biāo)注效率,所以沒(méi)有列入標(biāo)注體系。變量keynote的取圖1中的所有分支節(jié)點(diǎn)。變量emotions的取值是由圖1葉子節(jié)點(diǎn)中的一個(gè)或幾個(gè)組成的向量?;赥EI的標(biāo)注集選擇選擇標(biāo)注集就是選擇合適的標(biāo)注附碼和便利的表示方式來(lái)存儲(chǔ)標(biāo)注后的語(yǔ)料。英國(guó)著名語(yǔ)言學(xué)家Leech是當(dāng)今語(yǔ)料庫(kù)語(yǔ)言學(xué)的代表人物之一,他認(rèn)為(1993)語(yǔ)料的標(biāo)注應(yīng)該遵循標(biāo)注附碼可以刪除;所作的標(biāo)注可以單獨(dú)抽出;任何標(biāo)注模式都不能作為第一標(biāo)準(zhǔn)等七個(gè)基本原則。本文在綜合考察已有的各種標(biāo)注集優(yōu)缺點(diǎn)的基礎(chǔ)上,結(jié)合自己語(yǔ)料庫(kù)的實(shí)際應(yīng)用情況,以半結(jié)構(gòu)化的方式表示已標(biāo)注的文本。圖1情感分類樹(shù)本文標(biāo)注集的選擇是在TEI(TextEncodingInitiative)的基礎(chǔ)上,結(jié)合情感標(biāo)注的特殊需求制定的。TEI(TextEncodingInitiative)是機(jī)讀語(yǔ)篇的國(guó)際信息編碼規(guī)范。TEI標(biāo)注模式是由計(jì)算語(yǔ)言學(xué)學(xué)會(huì)(ACL,AssociationforComputationalLinguistics)、文學(xué)與語(yǔ)言學(xué)計(jì)算協(xié)會(huì)(ALLC,AssociationforLiteraryandLinguisticComputing)和計(jì)算機(jī)與人文科學(xué)學(xué)會(huì)(ACH,AssociationforComputersandHumanities)等三家學(xué)術(shù)團(tuán)體共同參與制訂的?!坝?guó)國(guó)家語(yǔ)料庫(kù)”(TheBritishNationalCorpus)等許多大型語(yǔ)料庫(kù)都采用了TEI的標(biāo)注模式。根據(jù)TEI標(biāo)注模式,一篇語(yǔ)料分為篇頭(header)和篇體兩部分。篇頭指與語(yǔ)篇有關(guān)的背景信息,包括作者、標(biāo)題、日期、語(yǔ)篇來(lái)源、標(biāo)注方式等信息,而篇體是指語(yǔ)篇本身。在TEI標(biāo)注模式中語(yǔ)言單位可以是詞、句子或段落等,每個(gè)語(yǔ)言單位都有起始標(biāo)記(starttag)和結(jié)束標(biāo)記(endtag)。例如,段落的開(kāi)始和結(jié)束標(biāo)記分別為<p>和</p>。圖2語(yǔ)料標(biāo)注示例在本文的標(biāo)注集中通用的信息,如篇頭,段落等采用TEI的標(biāo)記規(guī)范。另外定義一些標(biāo)簽來(lái)標(biāo)記情感標(biāo)注中特有的信息,標(biāo)簽的定義以簡(jiǎn)潔,易懂為原則。圖2是一篇語(yǔ)料的部分標(biāo)注示例。整篇語(yǔ)料在<document>和</document>之間,<header>和</header>之間的是篇頭部分,<body>和</body>中的為篇體部分。<p>和</p>分別為段落的開(kāi)始和結(jié)束標(biāo)記,<sect>和</sect>為語(yǔ)句的標(biāo)記。上面的標(biāo)記模式一方面可以從title和orgin域中還原出原始語(yǔ)料,另一方面也可以從每句的emotions域中得到語(yǔ)篇或者段落的標(biāo)記序列。這基本符合Leech的標(biāo)注附碼可以刪除和標(biāo)注可以單獨(dú)抽出的幾個(gè)重要原則。另外,這種半結(jié)構(gòu)化的存儲(chǔ)方式使每個(gè)標(biāo)注單元都有開(kāi)始和結(jié)束標(biāo)記,與xml格式類似,也為訓(xùn)練模型時(shí)解析語(yǔ)料提供了方便。語(yǔ)料庫(kù)的質(zhì)量監(jiān)控本文的情感語(yǔ)料庫(kù)的質(zhì)量監(jiān)控主要從標(biāo)注規(guī)范、標(biāo)注系統(tǒng)和糾錯(cuò)機(jī)制三個(gè)方面完成。標(biāo)注規(guī)范及標(biāo)注系統(tǒng)標(biāo)注規(guī)范和標(biāo)注系統(tǒng)都是在語(yǔ)料的標(biāo)注過(guò)程中減少誤操作,提高標(biāo)注速度和增加一致性的有效措施。統(tǒng)一的標(biāo)注規(guī)范,可以有效縮小不同標(biāo)注者之間的差異,減少語(yǔ)料標(biāo)注中的錯(cuò)誤和不一致性。情感語(yǔ)料標(biāo)注的規(guī)范是在建設(shè)的過(guò)程中動(dòng)態(tài)更新的,規(guī)范的部分內(nèi)容如下:圖3情感標(biāo)注系統(tǒng)在前后句情感主體相同的條件下,各句的情感具有連續(xù)性。例如,若連續(xù)的三句話都是同一個(gè)情感主體發(fā)出的,而第2句有明顯的“快樂(lè)”類標(biāo)記,則第1句和第3句沒(méi)有太明顯的情感類別時(shí),也傾向于快樂(lè)。每句的關(guān)鍵詞是廣義范圍的詞匯,可以是詞匯或者常用短語(yǔ),但是不能擴(kuò)大到一個(gè)分句。除了關(guān)鍵詞、修辭類別和情感接受者,其他內(nèi)容都是不能為空的。一個(gè)句子可以包含多個(gè)情感,但是同一個(gè)句子不能同時(shí)標(biāo)記為無(wú)情感和其他23類中的任何一個(gè)。當(dāng)文章沒(méi)有清楚的說(shuō)明作者時(shí),填寫(xiě)“不詳”代替。每篇文章的情感主體除了主人公外,還有“旁白”和“其他”兩類特殊的情感主體?!芭园住北硎驹摼涫亲髡叩臄⑹?,沒(méi)有鮮明的情感發(fā)出人,而“其他”是為了處理當(dāng)一篇文章中涉及的任務(wù)較多時(shí),所有非主要人物發(fā)出的情感都用它代替。全面的標(biāo)注規(guī)范可以減少語(yǔ)料的不一致,而方便、高效的標(biāo)注系統(tǒng)可以大幅度提高標(biāo)注的效率和準(zhǔn)確性,防止標(biāo)注者的誤操作。圖3是情感語(yǔ)料標(biāo)注系統(tǒng)的界面,“情感主體”以上的部分是描述語(yǔ)篇的信息,接下來(lái)的部分是標(biāo)注語(yǔ)句情感的,從最下面的文本框中可以瀏覽整篇文檔。為了減輕標(biāo)注者的負(fù)擔(dān),提高標(biāo)注速度和準(zhǔn)確率,該系統(tǒng)采用啟發(fā)式搜索算法[14]自動(dòng)分割語(yǔ)句,并根據(jù)某些項(xiàng)不能為空的規(guī)范自動(dòng)完成合法性檢查,防止錯(cuò)誤的語(yǔ)料進(jìn)入語(yǔ)料庫(kù)。糾錯(cuò)機(jī)制標(biāo)注規(guī)范和標(biāo)注系統(tǒng)是保證語(yǔ)料在錄入時(shí)的準(zhǔn)確率和一致性,而糾錯(cuò)機(jī)制是在語(yǔ)料標(biāo)注完成后統(tǒng)一進(jìn)行語(yǔ)料的正確性和一致性檢查。為了統(tǒng)一標(biāo)注者在某些常見(jiàn)情況的標(biāo)注標(biāo)準(zhǔn),我們采用了許多大規(guī)模語(yǔ)料庫(kù)常用的方法,即做部分的交叉標(biāo)注,保證語(yǔ)料標(biāo)注的正確性。在一致性檢查方面本文采用的糾錯(cuò)機(jī)制是機(jī)器自動(dòng)檢查,人工修正的方法。根據(jù)情感語(yǔ)料標(biāo)注的特點(diǎn),本文從詞匯和情感連續(xù)性兩個(gè)角度分析標(biāo)注的一致性,為了清楚的介紹這部分內(nèi)容,首先說(shuō)明這部分相關(guān)的函數(shù)和變量,具體見(jiàn)表3。表3一致性檢查的部分函數(shù)說(shuō)明函數(shù)名自變量說(shuō)明取值條件NegSi第i個(gè)語(yǔ)句中是否包含否定詞0沒(méi)有否定詞1包含否定詞larSameEi,Ej第i句和第j句的情感在大類范圍內(nèi)(情感分類樹(shù)的分支節(jié)點(diǎn))是否相同0不同1相同wordSameSi,Sj第i句和第j句是否包含相同的關(guān)鍵詞0不同1相同personSameSi第i-1,i和i+1句情感主體是否相同0不同1相同emotionSameEi第i-1,i和i+1句情感是否相同0不同1相同從情感詞匯的角度出發(fā)考慮一致性,主要以關(guān)鍵詞為依據(jù),檢查一致性。(3)公式中Si和Sj分別表示一篇語(yǔ)料中的第i句和第j句,Ei和Ej分別表示第i句和第j句的情感。wordConsistency表示當(dāng)兩句中都不包含否定詞時(shí),如果兩句的關(guān)鍵詞相同,但是所屬的情感大類不同時(shí),兩句可能存在不一致,此時(shí)取值為1。從情感的連續(xù)性上考慮,當(dāng)前后句的情感不一致,但是情感主體相同的條件下,該句的情感可能存在錯(cuò)誤。具體見(jiàn)公式(4)(4)上述的兩個(gè)公式分別從詞匯和情感連續(xù)性兩個(gè)方面檢查情感的一致性,通過(guò)機(jī)器自動(dòng)識(shí)別出不一致的地方,再人工確認(rèn)是否需要修改。兩種方法雖然都是進(jìn)行一致性檢查,但是關(guān)鍵詞方法的一致性錯(cuò)誤級(jí)別較高,需要優(yōu)先確認(rèn)。而情感連續(xù)性方面的一致性檢查,則只是說(shuō)明有出現(xiàn)不一致的可能,但是不一定都是錯(cuò)誤。語(yǔ)料庫(kù)的統(tǒng)計(jì)數(shù)據(jù)及應(yīng)用語(yǔ)料庫(kù)的統(tǒng)計(jì)數(shù)據(jù)目前已經(jīng)標(biāo)注完的語(yǔ)料有103,5601字,726,605詞次,39,488句。這是情感語(yǔ)料庫(kù)第一期計(jì)劃完成的語(yǔ)料,第二期完成后預(yù)計(jì)標(biāo)注的總量將達(dá)到一千萬(wàn)字。語(yǔ)句的情感分布在39,488句中,標(biāo)注的各類情感所占的比例大致分為三個(gè)等級(jí)。其中標(biāo)注為“無(wú)情感”類的語(yǔ)句數(shù)最多,達(dá)到15449句,其次是“快樂(lè)”、“贊揚(yáng)”、“煩悶”和“懷疑”四類情感數(shù)較多,都超過(guò)2000句,其余各類情感均在1000句左右。情感遷移規(guī)律情感遷移規(guī)律是指在語(yǔ)句的上下文中,情感的接續(xù)概率,即由一種情感向另一種情感(包括轉(zhuǎn)移前情感)遷移的可能性。本文通過(guò)公式(5)計(jì)算情感遷移的概率:(5)transfer(Ea,Eb)表示由情感a向情感b遷移的概率,n表示語(yǔ)料庫(kù)中語(yǔ)篇的總數(shù),mi表示第i篇文檔的句子總數(shù),Ti表示語(yǔ)料庫(kù)中被標(biāo)記為i類情感的句子總數(shù)。當(dāng)Ei與Ej相同時(shí),函數(shù)equal(Ei,Ej)取值為1,否則取值為0。將a類和b類情感的總數(shù)作為分母是為了減弱各類情感包含的語(yǔ)句數(shù)量不同給情感遷移帶來(lái)的影響。公式主要計(jì)算語(yǔ)篇范圍內(nèi),上下句之間的情感變化。圖4情感遷移圖圖4是23類情感之間的遷移概率圖,因?yàn)?3類情感彼此的遷移可能性比較多,為了表示的更加清楚明晰,本文在圖中給出了transfer(Ea,Eb)大于等于0.05的情感遷移概率。由圖可以看出“哀”類情感的內(nèi)聚性(情感大類內(nèi)的情感遷移)較弱,而“惡”類情感的內(nèi)聚性較強(qiáng),“懼”和“好”類情感的內(nèi)聚性一般。語(yǔ)料庫(kù)的應(yīng)用語(yǔ)料庫(kù)的標(biāo)注內(nèi)容和標(biāo)注形式?jīng)Q定了它的應(yīng)用范圍。目前情感語(yǔ)料庫(kù)主要應(yīng)用在訓(xùn)練文本情感識(shí)別模型、情感詞匯本體的自動(dòng)學(xué)習(xí)和統(tǒng)計(jì)情感遷移規(guī)律三方面。按句標(biāo)注的情感不僅給出了情感的類別,而且標(biāo)注了情感主體、關(guān)鍵詞和修辭手法等信息,這些都為情感識(shí)別模型的訓(xùn)練提供了豐富和區(qū)分度較高的特征,為提高情感識(shí)別的準(zhǔn)確率奠定了基礎(chǔ)。每句在情感標(biāo)注過(guò)程中都盡可能標(biāo)記了關(guān)鍵詞,這些關(guān)鍵詞為情感詞匯本體的自動(dòng)學(xué)習(xí)提供了第一手的資料。文本情感的遷移規(guī)律不同于臉譜和語(yǔ)音的情感遷移,它有其自身的特點(diǎn)。通過(guò)統(tǒng)計(jì)語(yǔ)料庫(kù)中種數(shù)據(jù),可以得到類似圖4的情感遷移規(guī)律圖。結(jié)論及改進(jìn)措施情感語(yǔ)料庫(kù)在建設(shè)過(guò)程中從制定標(biāo)注規(guī)范,選擇合適的標(biāo)注集以及質(zhì)量監(jiān)控等多方面提高語(yǔ)料標(biāo)注的質(zhì)量和速度。目前已標(biāo)注完成的語(yǔ)料有103,5601字,39,488句,第一期標(biāo)注的語(yǔ)料已經(jīng)基本完成。在總結(jié)第一期標(biāo)注經(jīng)驗(yàn)的基礎(chǔ)上,計(jì)劃完成10,000句,近千萬(wàn)字的語(yǔ)料。任何語(yǔ)料庫(kù)的建設(shè)都不可能是完美無(wú)缺的,肯定會(huì)存在一些問(wèn)題和不足。情感語(yǔ)料庫(kù)的建設(shè)也存在語(yǔ)料在體裁和情感類別上分布不均以及參考的標(biāo)注建議較少等缺點(diǎn),我們將在今后的建設(shè)中不斷改善。參考文獻(xiàn):劉連元.現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)研制[J].語(yǔ)言文字應(yīng)用,1996,(3):2-9.tw/SinicaCorpus/胡百華,李行得,湯志

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論