64#-情感語(yǔ)料庫(kù)的構(gòu)建和分析

上傳人：c*** IP屬地：江西上傳時(shí)間：2023-02-07 格式：DOC 頁(yè)數(shù)：10 大小：374KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩5頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大連外國(guó)語(yǔ)學(xué)院學(xué)士學(xué)位論文中文題目：情感語(yǔ)料庫(kù)的構(gòu)建和分析英文題目：ConstructionandAnalysisofEmotionalCorpus二級(jí)學(xué)院：俄語(yǔ)系學(xué)科、專業(yè)：阿拉伯語(yǔ)專業(yè)研究生：徐慧指導(dǎo)教師：曾磊副教授2011年11月情感語(yǔ)料庫(kù)的構(gòu)建和分析情感語(yǔ)料庫(kù)的構(gòu)建和分析**基金資助：國(guó)家自然科學(xué)基金資助項(xiàng)目（編號(hào)：60373095，60673039）和國(guó)家863高科技計(jì)劃資助項(xiàng)目（編號(hào)：2006AA01Z151）。作者簡(jiǎn)介：徐琳宏，女，碩士生，研究方向?yàn)槲谋痉诸惡臀谋緝A向性識(shí)別；林鴻飛，男，博導(dǎo)，教授，研究方向?yàn)槲谋具^(guò)濾，文本挖掘和自然語(yǔ)言理解，hflin@；徐琳宏，林鴻飛（大連理工大學(xué)計(jì)算機(jī)科學(xué)與工程系，大連116024）摘要：本文介紹了情感語(yǔ)料庫(kù)構(gòu)建方面的一些經(jīng)驗(yàn)，討論了在設(shè)計(jì)和建設(shè)情感語(yǔ)料庫(kù)中的幾個(gè)基本問(wèn)題：制定標(biāo)注規(guī)范、選擇標(biāo)注集、設(shè)計(jì)標(biāo)注工具以及標(biāo)注過(guò)程中的質(zhì)量監(jiān)控。目前已經(jīng)標(biāo)注完成近四萬(wàn)句，一百萬(wàn)字的語(yǔ)料。在完成這些已標(biāo)注語(yǔ)料的基礎(chǔ)上，進(jìn)一步給出了語(yǔ)料庫(kù)的情感分布，情感遷移規(guī)律等統(tǒng)計(jì)數(shù)據(jù)，分析了情感語(yǔ)料庫(kù)的特點(diǎn)及應(yīng)用。它的建成將為文本情感計(jì)算提供更加強(qiáng)大的資源支持。關(guān)鍵詞：情感語(yǔ)料庫(kù)；文本編碼規(guī)范；一致性檢查；情感遷移中圖法分類號(hào)：TP391文獻(xiàn)標(biāo)識(shí)符：AConstructionandAnalysisofEmotionalCorpusXuLinhong,LinHongfei(DepartmentofComputerScienceandEngineering,DalianUniversityofTechnology,Dalian116024)Thispaperintroducedsomeexperiencesonconstructingemotionalcorpus,anddiscussedseveralbasicquestionswhichincludedthetaggingcriterion,taggingset,taggingtoolsandqualitymonitoring.Therewereabout40000sentencesinthecorpus.Moreoverbasedonthese,statisticaldataaboutemotionaldistributionandrulesofemotionaltransferencewereavailable,andcharactersandapplicationsofcorpuswereanalyzed,soemotionalcorpusprovidesupportfortextaffectivecomputing.emotionalcorpus;TextCodingInitiative;consistencychecking;emotionaltransference引言情感計(jì)算目前是人工智能領(lǐng)域的研究熱點(diǎn)，它的主要目標(biāo)是使計(jì)算機(jī)能識(shí)別人類的情感，也就是需要建立完善的情感識(shí)別模型。然而要使訓(xùn)練的模型準(zhǔn)確，容錯(cuò)能力強(qiáng)，就必須有大規(guī)模的情感語(yǔ)料支撐。在國(guó)外，語(yǔ)料庫(kù)的研究很早就已經(jīng)開(kāi)始了，也建設(shè)完成了許多大規(guī)模的語(yǔ)料庫(kù)，如Brown語(yǔ)料庫(kù)等。漢語(yǔ)語(yǔ)料庫(kù)的建設(shè)開(kāi)始于20世紀(jì)80年代，現(xiàn)有的大規(guī)模語(yǔ)料有國(guó)家現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)[1]、臺(tái)灣中央研究院平衡語(yǔ)料庫(kù)[2]、中港臺(tái)漢語(yǔ)語(yǔ)料庫(kù)[3]、北京大學(xué)和富士通公司共同制作的人民日?qǐng)?bào)語(yǔ)料庫(kù)[4]等。上述大規(guī)模語(yǔ)料庫(kù)的建設(shè)在收集語(yǔ)料，制定標(biāo)注規(guī)范和質(zhì)量監(jiān)控等方面積累了寶貴的經(jīng)驗(yàn)。文本情感語(yǔ)料庫(kù)的建設(shè)方面，目前已有的語(yǔ)料庫(kù)包括Pang語(yǔ)料庫(kù)[5]，Whissell語(yǔ)料庫(kù)[6]，Berardinelli電影評(píng)論語(yǔ)料庫(kù)[7],產(chǎn)品評(píng)論語(yǔ)料庫(kù)[8]。漢語(yǔ)情感語(yǔ)料庫(kù)標(biāo)注方面的資源則較少，清華大學(xué)標(biāo)注了部分旅游景點(diǎn)的描述的情感語(yǔ)料[9]，用來(lái)輔助語(yǔ)音合成的，但是規(guī)模也較小?？傊趪?guó)內(nèi)情感計(jì)算剛剛興起，這方面還沒(méi)有比較大規(guī)模、權(quán)威的漢語(yǔ)文本情感語(yǔ)料庫(kù)。大部分語(yǔ)料庫(kù)的建設(shè)分為語(yǔ)料的收集和預(yù)處理、標(biāo)注規(guī)范的制定，質(zhì)量監(jiān)控等幾方面，下面的論文將分別闡述語(yǔ)料庫(kù)建設(shè)的各個(gè)步驟。第2節(jié)概略的介紹了目前選擇語(yǔ)料的類型和規(guī)模，第3節(jié)詳細(xì)地介紹了情感語(yǔ)料庫(kù)的標(biāo)注體系，第4節(jié)介紹了語(yǔ)料建設(shè)中質(zhì)量監(jiān)控的方法，包括正確性和一致性檢查的方法。第5節(jié)闡述了語(yǔ)料庫(kù)的一些統(tǒng)計(jì)數(shù)據(jù)及應(yīng)用，最后，第6節(jié)總結(jié)語(yǔ)料庫(kù)的優(yōu)點(diǎn)和不足，并進(jìn)一步提出改進(jìn)的措施。語(yǔ)料的收集語(yǔ)料的收集工作，即選擇合適的語(yǔ)料，做預(yù)處理，為語(yǔ)料的標(biāo)注提前做好準(zhǔn)備。語(yǔ)料選擇的方法關(guān)系到語(yǔ)料庫(kù)的覆蓋率，所謂覆蓋是指語(yǔ)料在各個(gè)不同領(lǐng)域的分布或散布，這些不同領(lǐng)域通常是指由時(shí)間軸(反映時(shí)代特征)、空間軸(反映地域特征)、學(xué)科軸(反映知識(shí)特征)、風(fēng)格軸(反映語(yǔ)體特征)構(gòu)成的四維模型[10]。我們的語(yǔ)料包括小學(xué)教材（人教版），電影劇本，童話故事，文學(xué)期刊等。從時(shí)間軸上看，有童話故事和小學(xué)教材等完成較早的經(jīng)典文章，也有期刊和電影劇本等近一年多的作品。語(yǔ)料以中文的作品為主，但是也有部分電影劇本和童話故事是外文翻譯而來(lái)，考慮了地域特征的跨度。在風(fēng)格方面，小學(xué)教材等用詞比較規(guī)范、嚴(yán)謹(jǐn)，而電影劇本等則口語(yǔ)特征比較明顯?？偟膩?lái)說(shuō)，語(yǔ)料的選擇偏重于文學(xué)色彩比較濃，情感表達(dá)豐富多彩的作品，舍棄一些科學(xué)說(shuō)明性的文章。表1列出了各類語(yǔ)料的詳細(xì)信息。表1語(yǔ)料的詳細(xì)信息語(yǔ)料來(lái)源詳細(xì)說(shuō)明字?jǐn)?shù)詞數(shù)句子數(shù)篇章數(shù)小學(xué)教材人教版，12冊(cè)129,48691,0324,809171電影劇本《獅子王》、《汽車(chē)總動(dòng)員》等6個(gè)電影劇本84,11854,0925,911237童話故事部分格林童話、安徒生童話5,406639,0052,01173文學(xué)期刊《少年文藝》、《青年文摘》、《新青年》等9本期刊的2006年全年12期6,308,5264,375,396237,2903754總計(jì)6,576,1964,559,525250,0214,235情感語(yǔ)料庫(kù)的標(biāo)注體系語(yǔ)料庫(kù)的標(biāo)注體系就是指對(duì)語(yǔ)料的加工程度，即一個(gè)待標(biāo)注的單元需要填充的信息集合。標(biāo)注體系決定了語(yǔ)料標(biāo)注的粒度。如果類別劃分過(guò)粗,就不能全面、細(xì)致地描述語(yǔ)言的復(fù)雜現(xiàn)象;但如果類別劃分過(guò)細(xì)、標(biāo)注信息過(guò)于龐大,不但會(huì)增加標(biāo)注難度、降低標(biāo)注效率，關(guān)系之間只有細(xì)微差別的情況也會(huì)使標(biāo)注結(jié)果呈現(xiàn)嚴(yán)重的不一致性[11]。此外，在語(yǔ)料庫(kù)規(guī)模有限的情況下，類別分的太細(xì)，統(tǒng)計(jì)數(shù)據(jù)的稀疏問(wèn)題越嚴(yán)重，那么訓(xùn)練出來(lái)的模型健壯性就越差?？梢?jiàn)，語(yǔ)料庫(kù)的標(biāo)注體系是構(gòu)建一個(gè)高質(zhì)量、大規(guī)模語(yǔ)料庫(kù)的關(guān)鍵。情感標(biāo)注體系理想的情感標(biāo)注體系是在標(biāo)注前事先確定，在標(biāo)注過(guò)程中保持不變，這樣可以保證標(biāo)注的一致性。但是由于語(yǔ)料的多樣性和復(fù)雜性，標(biāo)注規(guī)范也需要多次修正，這就可能導(dǎo)致語(yǔ)料庫(kù)的質(zhì)量下降。為了充分考慮各種特殊情況，本文預(yù)先標(biāo)注了部分語(yǔ)料，在總結(jié)標(biāo)注中發(fā)現(xiàn)的問(wèn)題的基礎(chǔ)上，綜合考慮其他類型語(yǔ)料的標(biāo)注經(jīng)驗(yàn)和文本情感標(biāo)注自身特點(diǎn)，制定了如下的標(biāo)注體系：DocumentModel=(title,author,style,source,persons,sentences,keynote)（1）SentenceModel=(origin,sender,[accepter],[rhetoric],emotions,[keywords])（2）由上面兩個(gè)公式可以看出本文的情感標(biāo)注體系的標(biāo)注粒度分為詞匯、語(yǔ)句和篇章。其中語(yǔ)句是主要的情感標(biāo)注粒度，詞匯和語(yǔ)篇的相關(guān)信息都是語(yǔ)句情感標(biāo)注的輔助。方括號(hào)內(nèi)的變量accepter、rhetoric和keywords是可選的，其他的是不能為空的。語(yǔ)篇和語(yǔ)句標(biāo)注模型中各變量表示含義和取值范圍如下：表2標(biāo)注體系中各變量的說(shuō)明類別變量說(shuō)明取值范圍語(yǔ)篇標(biāo)注模型(documentModel)title文章題目author作者姓名，國(guó)籍，作品寫(xiě)作年代style類別散文|詩(shī)歌|小說(shuō)|戲劇source來(lái)源小學(xué)教材|格林通話|電影劇本|文學(xué)期刊persons情感主體主人公1|主人公2…|主人公i…sentences所有語(yǔ)句的標(biāo)注集合詳見(jiàn)sentenceModelkeynote情感基調(diào)o|h|e|i|m|f|d|s語(yǔ)句標(biāo)注模型(sentenceModel)origin原始語(yǔ)句sender本句的情感主體主人公iaccepter情感的接受者主人公irhetoric修辭類別比喻|比擬|借代|夸張|對(duì)偶|排比|設(shè)問(wèn)|反問(wèn)|重復(fù)emotions本句包含的所有情感o|h|e|p|r|b|l|k|c|i|s|w|g|m|u|f|x|t|d|a|j|y|qkeywords確定情感的關(guān)鍵詞詞1|詞2…|詞i…在上述變量中persons、sentences、emotions和keywords取值都是一個(gè)集合，即變量的取值可以表示為一個(gè)向量，如persons=(persona1,persona2…,personai…)，變量sender和accepter分別選擇persons中的一個(gè)分量作為變量值。需要說(shuō)明的是persons中包含兩個(gè)特殊的情感主體，“旁白”和“其他”?！芭园住北硎驹摼涫亲髡叩臄⑹?，沒(méi)有鮮明的情感發(fā)出人，而“其他”是為了處理當(dāng)一篇文章中涉及的任務(wù)較多時(shí)，所有非主要人物發(fā)出的情感都用它代替，這樣可以減輕標(biāo)注者的負(fù)擔(dān)，又能防止某個(gè)情感主體出現(xiàn)次數(shù)較少的數(shù)據(jù)稀疏問(wèn)題。變量sentences是所有語(yǔ)句情感標(biāo)注的集合，每個(gè)語(yǔ)句標(biāo)注的內(nèi)容就是語(yǔ)句標(biāo)注模型中聲明各個(gè)變量。keywords中的值是原始語(yǔ)句中對(duì)表達(dá)該句情感有決定作用的詞，標(biāo)注keywords是為了更準(zhǔn)確地確定語(yǔ)句中代表情感的詞匯。而實(shí)驗(yàn)證明，情感詞匯的特征在語(yǔ)句的情感自動(dòng)標(biāo)注中是一個(gè)區(qū)分度較大的特征[12]。另外，否定詞和程度副詞對(duì)句子情感色彩影響也較大，特別是對(duì)語(yǔ)句的褒貶傾向性影響較大[13]，但是本文的標(biāo)注體系沒(méi)有標(biāo)注這兩方面的信息，這主要是為了提高標(biāo)注效率，所以沒(méi)有列入標(biāo)注體系。變量keynote的取圖1中的所有分支節(jié)點(diǎn)。變量emotions的取值是由圖1葉子節(jié)點(diǎn)中的一個(gè)或幾個(gè)組成的向量?；赥EI的標(biāo)注集選擇選擇標(biāo)注集就是選擇合適的標(biāo)注附碼和便利的表示方式來(lái)存儲(chǔ)標(biāo)注后的語(yǔ)料。英國(guó)著名語(yǔ)言學(xué)家Leech是當(dāng)今語(yǔ)料庫(kù)語(yǔ)言學(xué)的代表人物之一,他認(rèn)為(1993)語(yǔ)料的標(biāo)注應(yīng)該遵循標(biāo)注附碼可以刪除；所作的標(biāo)注可以單獨(dú)抽出；任何標(biāo)注模式都不能作為第一標(biāo)準(zhǔn)等七個(gè)基本原則。本文在綜合考察已有的各種標(biāo)注集優(yōu)缺點(diǎn)的基礎(chǔ)上，結(jié)合自己語(yǔ)料庫(kù)的實(shí)際應(yīng)用情況，以半結(jié)構(gòu)化的方式表示已標(biāo)注的文本。圖1情感分類樹(shù)本文標(biāo)注集的選擇是在TEI(TextEncodingInitiative)的基礎(chǔ)上，結(jié)合情感標(biāo)注的特殊需求制定的。TEI(TextEncodingInitiative)是機(jī)讀語(yǔ)篇的國(guó)際信息編碼規(guī)范。TEI標(biāo)注模式是由計(jì)算語(yǔ)言學(xué)學(xué)會(huì)(ACL,AssociationforComputationalLinguistics)、文學(xué)與語(yǔ)言學(xué)計(jì)算協(xié)會(huì)(ALLC,AssociationforLiteraryandLinguisticComputing)和計(jì)算機(jī)與人文科學(xué)學(xué)會(huì)(ACH,AssociationforComputersandHumanities)等三家學(xué)術(shù)團(tuán)體共同參與制訂的?！坝?guó)國(guó)家語(yǔ)料庫(kù)”(TheBritishNationalCorpus)等許多大型語(yǔ)料庫(kù)都采用了TEI的標(biāo)注模式。根據(jù)TEI標(biāo)注模式,一篇語(yǔ)料分為篇頭(header)和篇體兩部分。篇頭指與語(yǔ)篇有關(guān)的背景信息,包括作者、標(biāo)題、日期、語(yǔ)篇來(lái)源、標(biāo)注方式等信息,而篇體是指語(yǔ)篇本身。在TEI標(biāo)注模式中語(yǔ)言單位可以是詞、句子或段落等，每個(gè)語(yǔ)言單位都有起始標(biāo)記(starttag)和結(jié)束標(biāo)記(endtag)。例如,段落的開(kāi)始和結(jié)束標(biāo)記分別為<p>和</p>。圖2語(yǔ)料標(biāo)注示例在本文的標(biāo)注集中通用的信息，如篇頭，段落等采用TEI的標(biāo)記規(guī)范。另外定義一些標(biāo)簽來(lái)標(biāo)記情感標(biāo)注中特有的信息，標(biāo)簽的定義以簡(jiǎn)潔，易懂為原則。圖2是一篇語(yǔ)料的部分標(biāo)注示例。整篇語(yǔ)料在<document>和</document>之間，<header>和</header>之間的是篇頭部分，<body>和</body>中的為篇體部分。<p>和</p>分別為段落的開(kāi)始和結(jié)束標(biāo)記，<sect>和</sect>為語(yǔ)句的標(biāo)記。上面的標(biāo)記模式一方面可以從title和orgin域中還原出原始語(yǔ)料，另一方面也可以從每句的emotions域中得到語(yǔ)篇或者段落的標(biāo)記序列。這基本符合Leech的標(biāo)注附碼可以刪除和標(biāo)注可以單獨(dú)抽出的幾個(gè)重要原則。另外，這種半結(jié)構(gòu)化的存儲(chǔ)方式使每個(gè)標(biāo)注單元都有開(kāi)始和結(jié)束標(biāo)記，與xml格式類似，也為訓(xùn)練模型時(shí)解析語(yǔ)料提供了方便。語(yǔ)料庫(kù)的質(zhì)量監(jiān)控本文的情感語(yǔ)料庫(kù)的質(zhì)量監(jiān)控主要從標(biāo)注規(guī)范、標(biāo)注系統(tǒng)和糾錯(cuò)機(jī)制三個(gè)方面完成。標(biāo)注規(guī)范及標(biāo)注系統(tǒng)標(biāo)注規(guī)范和標(biāo)注系統(tǒng)都是在語(yǔ)料的標(biāo)注過(guò)程中減少誤操作，提高標(biāo)注速度和增加一致性的有效措施。統(tǒng)一的標(biāo)注規(guī)范，可以有效縮小不同標(biāo)注者之間的差異，減少語(yǔ)料標(biāo)注中的錯(cuò)誤和不一致性。情感語(yǔ)料標(biāo)注的規(guī)范是在建設(shè)的過(guò)程中動(dòng)態(tài)更新的，規(guī)范的部分內(nèi)容如下：圖3情感標(biāo)注系統(tǒng)在前后句情感主體相同的條件下，各句的情感具有連續(xù)性。例如，若連續(xù)的三句話都是同一個(gè)情感主體發(fā)出的，而第2句有明顯的“快樂(lè)”類標(biāo)記，則第1句和第3句沒(méi)有太明顯的情感類別時(shí)，也傾向于快樂(lè)。每句的關(guān)鍵詞是廣義范圍的詞匯，可以是詞匯或者常用短語(yǔ)，但是不能擴(kuò)大到一個(gè)分句。除了關(guān)鍵詞、修辭類別和情感接受者，其他內(nèi)容都是不能為空的。一個(gè)句子可以包含多個(gè)情感，但是同一個(gè)句子不能同時(shí)標(biāo)記為無(wú)情感和其他23類中的任何一個(gè)。當(dāng)文章沒(méi)有清楚的說(shuō)明作者時(shí)，填寫(xiě)“不詳”代替。每篇文章的情感主體除了主人公外，還有“旁白”和“其他”兩類特殊的情感主體?！芭园住北硎驹摼涫亲髡叩臄⑹?，沒(méi)有鮮明的情感發(fā)出人，而“其他”是為了處理當(dāng)一篇文章中涉及的任務(wù)較多時(shí)，所有非主要人物發(fā)出的情感都用它代替。全面的標(biāo)注規(guī)范可以減少語(yǔ)料的不一致，而方便、高效的標(biāo)注系統(tǒng)可以大幅度提高標(biāo)注的效率和準(zhǔn)確性，防止標(biāo)注者的誤操作。圖3是情感語(yǔ)料標(biāo)注系統(tǒng)的界面，“情感主體”以上的部分是描述語(yǔ)篇的信息，接下來(lái)的部分是標(biāo)注語(yǔ)句情感的，從最下面的文本框中可以瀏覽整篇文檔。為了減輕標(biāo)注者的負(fù)擔(dān)，提高標(biāo)注速度和準(zhǔn)確率，該系統(tǒng)采用啟發(fā)式搜索算法[14]自動(dòng)分割語(yǔ)句，并根據(jù)某些項(xiàng)不能為空的規(guī)范自動(dòng)完成合法性檢查，防止錯(cuò)誤的語(yǔ)料進(jìn)入語(yǔ)料庫(kù)。糾錯(cuò)機(jī)制標(biāo)注規(guī)范和標(biāo)注系統(tǒng)是保證語(yǔ)料在錄入時(shí)的準(zhǔn)確率和一致性，而糾錯(cuò)機(jī)制是在語(yǔ)料標(biāo)注完成后統(tǒng)一進(jìn)行語(yǔ)料的正確性和一致性檢查。為了統(tǒng)一標(biāo)注者在某些常見(jiàn)情況的標(biāo)注標(biāo)準(zhǔn)，我們采用了許多大規(guī)模語(yǔ)料庫(kù)常用的方法，即做部分的交叉標(biāo)注，保證語(yǔ)料標(biāo)注的正確性。在一致性檢查方面本文采用的糾錯(cuò)機(jī)制是機(jī)器自動(dòng)檢查，人工修正的方法。根據(jù)情感語(yǔ)料標(biāo)注的特點(diǎn)，本文從詞匯和情感連續(xù)性兩個(gè)角度分析標(biāo)注的一致性，為了清楚的介紹這部分內(nèi)容，首先說(shuō)明這部分相關(guān)的函數(shù)和變量，具體見(jiàn)表3。表3一致性檢查的部分函數(shù)說(shuō)明函數(shù)名自變量說(shuō)明取值條件NegSi第i個(gè)語(yǔ)句中是否包含否定詞0沒(méi)有否定詞1包含否定詞larSameEi,Ej第i句和第j句的情感在大類范圍內(nèi)（情感分類樹(shù)的分支節(jié)點(diǎn)）是否相同0不同1相同wordSameSi,Sj第i句和第j句是否包含相同的關(guān)鍵詞0不同1相同personSameSi第i-1,i和i+1句情感主體是否相同0不同1相同emotionSameEi第i-1,i和i+1句情感是否相同0不同1相同從情感詞匯的角度出發(fā)考慮一致性，主要以關(guān)鍵詞為依據(jù)，檢查一致性。（3）公式中Si和Sj分別表示一篇語(yǔ)料中的第i句和第j句，Ei和Ej分別表示第i句和第j句的情感。wordConsistency表示當(dāng)兩句中都不包含否定詞時(shí)，如果兩句的關(guān)鍵詞相同，但是所屬的情感大類不同時(shí)，兩句可能存在不一致，此時(shí)取值為1。從情感的連續(xù)性上考慮，當(dāng)前后句的情感不一致，但是情感主體相同的條件下，該句的情感可能存在錯(cuò)誤。具體見(jiàn)公式（4）（4）上述的兩個(gè)公式分別從詞匯和情感連續(xù)性兩個(gè)方面檢查情感的一致性，通過(guò)機(jī)器自動(dòng)識(shí)別出不一致的地方，再人工確認(rèn)是否需要修改。兩種方法雖然都是進(jìn)行一致性檢查，但是關(guān)鍵詞方法的一致性錯(cuò)誤級(jí)別較高，需要優(yōu)先確認(rèn)。而情感連續(xù)性方面的一致性檢查，則只是說(shuō)明有出現(xiàn)不一致的可能，但是不一定都是錯(cuò)誤。語(yǔ)料庫(kù)的統(tǒng)計(jì)數(shù)據(jù)及應(yīng)用語(yǔ)料庫(kù)的統(tǒng)計(jì)數(shù)據(jù)目前已經(jīng)標(biāo)注完的語(yǔ)料有103,5601字，726,605詞次，39,488句。這是情感語(yǔ)料庫(kù)第一期計(jì)劃完成的語(yǔ)料，第二期完成后預(yù)計(jì)標(biāo)注的總量將達(dá)到一千萬(wàn)字。語(yǔ)句的情感分布在39,488句中，標(biāo)注的各類情感所占的比例大致分為三個(gè)等級(jí)。其中標(biāo)注為“無(wú)情感”類的語(yǔ)句數(shù)最多，達(dá)到15449句，其次是“快樂(lè)”、“贊揚(yáng)”、“煩悶”和“懷疑”四類情感數(shù)較多，都超過(guò)2000句，其余各類情感均在1000句左右。情感遷移規(guī)律情感遷移規(guī)律是指在語(yǔ)句的上下文中，情感的接續(xù)概率，即由一種情感向另一種情感（包括轉(zhuǎn)移前情感）遷移的可能性。本文通過(guò)公式（5）計(jì)算情感遷移的概率：（5）transfer(Ea,Eb)表示由情感a向情感b遷移的概率，n表示語(yǔ)料庫(kù)中語(yǔ)篇的總數(shù)，mi表示第i篇文檔的句子總數(shù)，Ti表示語(yǔ)料庫(kù)中被標(biāo)記為i類情感的句子總數(shù)。當(dāng)Ei與Ej相同時(shí)，函數(shù)equal（Ei,Ej）取值為1，否則取值為0。將a類和b類情感的總數(shù)作為分母是為了減弱各類情感包含的語(yǔ)句數(shù)量不同給情感遷移帶來(lái)的影響。公式主要計(jì)算語(yǔ)篇范圍內(nèi)，上下句之間的情感變化。圖4情感遷移圖圖4是23類情感之間的遷移概率圖，因?yàn)?3類情感彼此的遷移可能性比較多，為了表示的更加清楚明晰，本文在圖中給出了transfer(Ea,Eb)大于等于0.05的情感遷移概率。由圖可以看出“哀”類情感的內(nèi)聚性（情感大類內(nèi)的情感遷移）較弱，而“惡”類情感的內(nèi)聚性較強(qiáng)，“懼”和“好”類情感的內(nèi)聚性一般。語(yǔ)料庫(kù)的應(yīng)用語(yǔ)料庫(kù)的標(biāo)注內(nèi)容和標(biāo)注形式?jīng)Q定了它的應(yīng)用范圍。目前情感語(yǔ)料庫(kù)主要應(yīng)用在訓(xùn)練文本情感識(shí)別模型、情感詞匯本體的自動(dòng)學(xué)習(xí)和統(tǒng)計(jì)情感遷移規(guī)律三方面。按句標(biāo)注的情感不僅給出了情感的類別，而且標(biāo)注了情感主體、關(guān)鍵詞和修辭手法等信息，這些都為情感識(shí)別模型的訓(xùn)練提供了豐富和區(qū)分度較高的特征，為提高情感識(shí)別的準(zhǔn)確率奠定了基礎(chǔ)。每句在情感標(biāo)注過(guò)程中都盡可能標(biāo)記了關(guān)鍵詞，這些關(guān)鍵詞為情感詞匯本體的自動(dòng)學(xué)習(xí)提供了第一手的資料。文本情感的遷移規(guī)律不同于臉譜和語(yǔ)音的情感遷移，它有其自身的特點(diǎn)。通過(guò)統(tǒng)計(jì)語(yǔ)料庫(kù)中種數(shù)據(jù)，可以得到類似圖4的情感遷移規(guī)律圖。結(jié)論及改進(jìn)措施情感語(yǔ)料庫(kù)在建設(shè)過(guò)程中從制定標(biāo)注規(guī)范，選擇合適的標(biāo)注集以及質(zhì)量監(jiān)控等多方面提高語(yǔ)料標(biāo)注的質(zhì)量和速度。目前已標(biāo)注完成的語(yǔ)料有103,5601字，39,488句，第一期標(biāo)注的語(yǔ)料已經(jīng)基本完成。在總結(jié)第一期標(biāo)注經(jīng)驗(yàn)的基礎(chǔ)上，計(jì)劃完成10，000句，近千萬(wàn)字的語(yǔ)料。任何語(yǔ)料庫(kù)的建設(shè)都不可能是完美無(wú)缺的，肯定會(huì)存在一些問(wèn)題和不足。情感語(yǔ)料庫(kù)的建設(shè)也存在語(yǔ)料在體裁和情感類別上分布不均以及參考的標(biāo)注建議較少等缺點(diǎn)，我們將在今后的建設(shè)中不斷改善。參考文獻(xiàn)：劉連元.現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)研制[J].語(yǔ)言文字應(yīng)用,1996,(3):2-9.tw/SinicaCorpus/胡百華,李行得,湯志

人人文庫(kù)> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

64#-情感語(yǔ)料庫(kù)的構(gòu)建和分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔