基于計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的詞匯激勵(lì)偏向識(shí)別_第1頁(yè)
基于計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的詞匯激勵(lì)偏向識(shí)別_第2頁(yè)
基于計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的詞匯激勵(lì)偏向識(shí)別_第3頁(yè)
基于計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的詞匯激勵(lì)偏向識(shí)別_第4頁(yè)
基于計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的詞匯激勵(lì)偏向識(shí)別_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的詞匯激勵(lì)偏向識(shí)別

1語(yǔ)義傾向識(shí)別在文學(xué)處理中的應(yīng)用事實(shí)上,比較詞匯意義的傾向是為了計(jì)算特定詞的比較價(jià)值。為了便于處理,將測(cè)量值定義為[1和[1]之間的數(shù)值。當(dāng)度量值高于某閾值時(shí),判別為褒義傾向;反之,則判為貶義傾向。這樣,可以通過對(duì)句子中詞匯的語(yǔ)義傾向值求平均的方式,獲得句子的語(yǔ)義傾向,而句子又是構(gòu)成篇章的基礎(chǔ),以此類推可獲得篇章的語(yǔ)義傾向;另外,句子褒貶傾向性識(shí)別又是文本傾向性識(shí)別的基礎(chǔ),文本傾向性識(shí)別在信息過濾、自動(dòng)文摘、文本分類等領(lǐng)域有廣泛的應(yīng)用前景。因此,對(duì)詞匯的語(yǔ)義褒貶傾向性研究是此類研究中的關(guān)鍵工作。自20世紀(jì)90年代,詞匯傾向性的研究在國(guó)外得到了普遍的關(guān)注,并迅速發(fā)展起來(lái)。1997年,Hatzivassiloglou和McKeown通過對(duì)訓(xùn)練語(yǔ)料的學(xué)習(xí)進(jìn)行形容詞語(yǔ)義傾向判別,準(zhǔn)確率達(dá)到82%。2003年,Turney采用計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的方法識(shí)別詞匯傾向性,其準(zhǔn)確率在包含形容詞、副詞、名詞、動(dòng)詞的完整測(cè)試集上達(dá)到82.8%。2002年,由劉群等人提出了基于《知網(wǎng)》詞匯語(yǔ)義相似度計(jì)算方法,成為目前中文詞匯傾向性計(jì)算的主要依據(jù)。在朱嫣嵐論文詞匯語(yǔ)義褒貶傾向性研究的基礎(chǔ)上,指出了該算法中存在的一些不足之處,并對(duì)該算法進(jìn)行一定的改進(jìn),通過實(shí)驗(yàn)證明該改進(jìn)后的算法比原算法在準(zhǔn)確率上有了較大的提高。2比較語(yǔ)言意義的喜前后傾向的計(jì)算2.1義原層次的相似度知網(wǎng)(英文名稱為HowNet)是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)?!吨W(wǎng)》中兩個(gè)主要的概念:“概念”與“義原”?!案拍睢笔菍?duì)詞匯語(yǔ)義的一種描述。每一個(gè)詞可以表達(dá)為幾個(gè)概念。“概念”是用一種“知識(shí)表示語(yǔ)言”來(lái)描述的,這種“知識(shí)表示語(yǔ)言”所用的“詞匯”叫做“義原”。“義原”是用于描述一個(gè)“概念”的最小意義單位。義原一方面作為描述概念的最基本單位,另一方面,義原之間又存在復(fù)雜的關(guān)系。在《知網(wǎng)》中,一共描述了義原之間的8種關(guān)系:上下位關(guān)系、同義關(guān)系、反義關(guān)系、對(duì)義關(guān)系、屬性-宿主關(guān)系、部件-整體關(guān)系、材料-成品關(guān)系、事件-角色關(guān)系??梢钥闯?,義原之間組成的是一個(gè)復(fù)雜的網(wǎng)狀結(jié)構(gòu),而不是一個(gè)單純的樹狀結(jié)構(gòu)。不過,義原關(guān)系中最重要的還是上下位關(guān)系。根據(jù)義原的上下位關(guān)系,所有的“基本義原”組成了一個(gè)義原層次體系。這個(gè)義原層次體系是一個(gè)樹狀結(jié)構(gòu),這也是進(jìn)行語(yǔ)義相似度計(jì)算的基礎(chǔ)。在劉群論文中提出兩個(gè)孤立詞語(yǔ)之間的相似度計(jì)算最終歸結(jié)到了兩個(gè)概念之間的相似度計(jì)算。對(duì)于兩個(gè)漢語(yǔ)詞語(yǔ)W1和W2,如果W1有n個(gè)義項(xiàng)(概念):S11,S12,…,S1n,W2有m個(gè)義項(xiàng)(概念):S21,S22,…,S2m,則W1和W2的相似度等于各個(gè)概念的相似度之最大值,即而任一個(gè)義項(xiàng)可由四個(gè)部分組成:第一獨(dú)立義原、其他獨(dú)立義原、關(guān)系義原和符號(hào)義原,其中義原相似度的計(jì)算公式如下:其中p1和p2表示兩個(gè)義原(primitive),d是p1和p2在義原層次體系中的路徑長(zhǎng)度,是一個(gè)正整數(shù)。α是一個(gè)可調(diào)節(jié)的參數(shù)。這樣兩個(gè)義項(xiàng)(概念)語(yǔ)義表達(dá)式的整體相似度公式如下:其中,βi(1≤i≤4)是可調(diào)節(jié)的參數(shù),且有:β1+β2+β3+β4=1,β1≥β2≥β3≥β4。Sim1(S1,S2)是第一獨(dú)立義原描述式,Sim2(S1,S2)是其他獨(dú)立義原描述式,Sim3(S1,S2)是關(guān)系義原描述式,Sim4(S1,S2)是符號(hào)義原描述式。2.2語(yǔ)義至浚的基準(zhǔn)詞在朱嫣嵐論文中對(duì)某一詞匯W的語(yǔ)義褒貶傾向性計(jì)算指導(dǎo)思想是:先給定k對(duì)基準(zhǔn)詞(其中k個(gè)褒義詞,k個(gè)貶義詞),利用《知網(wǎng)》語(yǔ)義相似度計(jì)算公式,求出詞匯W與k對(duì)基準(zhǔn)詞中每個(gè)詞的語(yǔ)義相似度,并統(tǒng)計(jì)出k個(gè)褒義詞語(yǔ)義相似度的和S1、k個(gè)貶義詞語(yǔ)義相似度的和S2,若S1-S2>0則認(rèn)為詞匯W更加接近褒義傾向,認(rèn)定為褒義詞,若S1-S2<0則認(rèn)為詞匯W更加接近貶義傾向,認(rèn)定為貶義詞。詞匯W的語(yǔ)義褒貶傾向值計(jì)算公式如下:其中k表示k對(duì)基準(zhǔn)詞,每對(duì)基準(zhǔn)詞包括一個(gè)褒義詞和一個(gè)貶義詞。褒義基準(zhǔn)詞表示為key-p,貶義基準(zhǔn)詞表示為等于公式(3)中的。用于實(shí)驗(yàn)的40對(duì)基準(zhǔn)詞如表1所示。朱嫣嵐論文中通過實(shí)驗(yàn)選用詞頻最高的一部分詞作為測(cè)試集3,而基準(zhǔn)詞根據(jù)詞頻選取前1對(duì)、4對(duì)、5對(duì)、10對(duì)、15對(duì)、20對(duì)、30對(duì)、40對(duì)褒貶詞進(jìn)行測(cè)試,隨著基準(zhǔn)詞對(duì)的變化,準(zhǔn)確率也從22%變化到87%左右。最終得出的結(jié)論是:基于《知網(wǎng)》的語(yǔ)義傾向判別,只需利用《知網(wǎng)》的本地資源和少量的基準(zhǔn)詞,比較容易實(shí)現(xiàn)且不受外界條件(如網(wǎng)絡(luò)環(huán)境)的干擾。從實(shí)驗(yàn)結(jié)果來(lái)看,基準(zhǔn)詞的增加對(duì)判別的準(zhǔn)確性提高有明顯作用,但即使是極少量基準(zhǔn)詞,在常用詞集中同樣可以達(dá)到80%以上的準(zhǔn)確率。最后也提到了兩方面存在的不足:(1)基準(zhǔn)詞的選取不夠科學(xué)全面;(2)算法比較直觀,不夠科學(xué)。2.3實(shí)驗(yàn)結(jié)果及分析針對(duì)朱嫣嵐論文中算法存在的問題,將從基準(zhǔn)詞的選取和算法的改進(jìn)兩方面著手,最后通過實(shí)驗(yàn)證明在同樣基準(zhǔn)詞對(duì)下,準(zhǔn)確率得到了很大的提高,達(dá)到98.94%。2.3.1基準(zhǔn)詞vac表1中基準(zhǔn)詞的選取原則是按照Google搜索返回Hits數(shù),即它們?cè)赪eb上的詞頻前40組褒貶詞得到。但使用頻率高不等于詞匯的覆蓋面廣,這樣就造成了基準(zhǔn)詞中許多詞匯在《知網(wǎng)》中的語(yǔ)義是相同的。如褒義詞中的“天下第一”、“優(yōu)秀”、“漂亮”、“優(yōu)質(zhì)”、“良好”、“出色”、“完善”在《知網(wǎng)》中的義項(xiàng)都是“aValue|屬性值,GoodBad|好壞,good|好,desired|良”、“高級(jí)”、“最好”、“最佳”在《知網(wǎng)》中的義項(xiàng)都是“aValue|屬性值,rank|等級(jí),HighRank|高等,desired|良”,而貶義詞中的“不良”、“落后”、“有害”、“惡劣”在《知網(wǎng)》中的義項(xiàng)都是“aValue|屬性值,GoodBad|好壞,bad|壞,undesired|莠”,“瘋狂”、“野蠻”、“無(wú)情”、“殘酷”在《知網(wǎng)》中的義項(xiàng)都是“aValue|屬性值,behavior|舉止,fierce|暴,undesired|莠”,等。由于表1基準(zhǔn)詞中有不少詞匯的語(yǔ)義是相同的,在一定程度上影響了基準(zhǔn)詞詞匯的覆蓋面,結(jié)果也影響了需判別詞匯語(yǔ)義褒貶傾向性的準(zhǔn)確率?;鶞?zhǔn)詞選取的原則是基于朱嫣嵐論文基準(zhǔn)詞選取原則,將表1中語(yǔ)義重復(fù)的詞替換成新的有較高Hits數(shù)的褒義詞或貶義詞,最后得到新的40組褒貶基準(zhǔn)詞(見表2),這40組褒貶基準(zhǔn)詞的特點(diǎn)是在保留較高使用頻率外,排除了語(yǔ)義相同的情況,提高了詞匯的覆蓋面。2.3.2對(duì)策三:實(shí)驗(yàn)2加語(yǔ)義相似度的加分法在朱嫣嵐論文中,詞匯語(yǔ)義褒貶傾向性計(jì)算方法是根據(jù)所要判斷詞匯W與預(yù)先設(shè)定的褒貶基準(zhǔn)詞對(duì)中的每一個(gè)詞進(jìn)行語(yǔ)義相似度計(jì)算,累加詞匯W和所有褒義基準(zhǔn)詞的語(yǔ)義相似度S1,累加詞匯W和所有貶義基準(zhǔn)詞的語(yǔ)義相似度S2,最后判斷S1和S2的大小,若S1>S2,則認(rèn)為詞匯W更具有褒義傾向性,否則若S1<S2,則詞匯W更具有貶義傾向性。該算法采用了統(tǒng)計(jì)方法,即利用詞匯W與褒貶義基準(zhǔn)詞集合的相似度和進(jìn)行比較,最后得到詞匯W更傾向于哪一邊。但實(shí)驗(yàn)發(fā)現(xiàn),對(duì)貶義詞處理的準(zhǔn)確率較高,而褒義詞的準(zhǔn)確率偏低,出現(xiàn)這種結(jié)果的原因在于詞匯語(yǔ)義褒貶傾向性計(jì)算值比實(shí)際偏小,這估計(jì)與褒貶基準(zhǔn)詞對(duì)的選擇有關(guān)。但要選擇計(jì)算值與實(shí)際完全一致的褒貶基準(zhǔn)詞對(duì)是很困難的,通過加入語(yǔ)義相似度最大值并進(jìn)行適當(dāng)?shù)恼{(diào)節(jié),且能獲得這種整體的平衡。具體思想方法如下:假設(shè)詞匯W是褒義的,則一般該詞的S1應(yīng)該大于S2,而該詞與褒義詞集合中語(yǔ)義相似度的最大值M1一般也應(yīng)該大于該詞與貶義詞集合中語(yǔ)義相似度最大值M2。而且實(shí)驗(yàn)發(fā)現(xiàn),如果直接采用M1與M2來(lái)代替S1與S2之間的比較,準(zhǔn)確率也較高。另外,還發(fā)現(xiàn)該方法對(duì)褒義詞處理的準(zhǔn)確率較高,而貶義詞的準(zhǔn)確率較低,即詞匯語(yǔ)義褒貶傾向性計(jì)算值比實(shí)際偏大。能否通過(S1+M1)-(S2+M2)代替原S1-S2,獲得一種平衡,從而提高詞匯語(yǔ)義褒貶傾向性判別的準(zhǔn)確率。但實(shí)驗(yàn)又發(fā)現(xiàn),單純地將原算法S1-S2改成(S1+M1)-(S2+M2)準(zhǔn)確率并沒有得到很大改觀,這是因?yàn)橐话鉙比M要大很多,如果不適當(dāng)調(diào)低S的值,M所起的作用將不會(huì)很大。經(jīng)過綜合考慮,最后將公式(4)改成公式(5),改進(jìn)后的算法如下:其中k表示k對(duì)基準(zhǔn)詞,每對(duì)基準(zhǔn)詞包括一個(gè)褒義詞和一個(gè)貶義詞。褒義基準(zhǔn)詞表示為key-p,貶義基準(zhǔn)詞表示為key-n,Similarity(key,W)等于公式(3)中的Sim(key,W)。α,β是可調(diào)節(jié)參數(shù),根據(jù)給定的基準(zhǔn)詞對(duì),可通過對(duì)α,β的調(diào)節(jié)提高算法的準(zhǔn)確率。3實(shí)驗(yàn)與結(jié)果分析3.1算法效果測(cè)試采用相同的算法,都是使用原算法公式(4),但分別采用表1和表2中的褒貶基準(zhǔn)詞。在實(shí)驗(yàn)中(包括后面的實(shí)驗(yàn)),默認(rèn)使用0為閾值,即傾向值大于0則判斷為褒義,小于0則判斷為貶義。語(yǔ)義傾向判別準(zhǔn)確率=判別正確的詞數(shù)/測(cè)試集總詞數(shù),以此來(lái)衡量算法效果。測(cè)試集使用了《知網(wǎng)》2000中文詞表中標(biāo)注“良”(褒義),“莠”(貶義)屬性的詞匯。排除了既有“良”又有“莠”的詞,因?yàn)檫@些詞匯在不同語(yǔ)境下,或?yàn)榘x,或?yàn)橘H義,并不能簡(jiǎn)單地將其判斷為褒義詞或貶義詞。例如:詞語(yǔ)“好看”,在描述事物時(shí),可作褒義,如“這花真好看”,而在“要你好看”這樣的語(yǔ)句中,顯然帶有強(qiáng)烈的貶義。這樣共選用5930個(gè)詞。其中褒義詞2884個(gè),貶義詞3046個(gè)。詞匯語(yǔ)義相似度計(jì)算使用基于《知網(wǎng)》語(yǔ)義相似度的方法,下同。實(shí)驗(yàn)結(jié)果如表3所示。從表3實(shí)驗(yàn)結(jié)果可以比較明顯地看出,用相同的算法,當(dāng)采用改進(jìn)后的褒貶基準(zhǔn)詞后,平均準(zhǔn)確率提高了6.19%。3.2算法優(yōu)化后的實(shí)驗(yàn)結(jié)果在算法之間的比較實(shí)驗(yàn)中,包含兩個(gè)子實(shí)驗(yàn),第一個(gè)是通過相同基準(zhǔn)詞,不同算法之間的比較,第二個(gè)是通過不同算法,不同褒貶基準(zhǔn)詞集合之間的比較。子實(shí)驗(yàn)1,采用原算法公式(4)和改進(jìn)算法公式(5)兩種不同的算法,基準(zhǔn)詞集合采用表2中的40組褒貶基準(zhǔn)詞,測(cè)試集同前。公式(5)中α取12,β取1。實(shí)驗(yàn)結(jié)果如表4所示。子實(shí)驗(yàn)2,采用原算法公式(4)和改進(jìn)算法公式(5)兩種不同的算法,而基準(zhǔn)詞集á??áá?合áá?áá?采用表2中根據(jù)順序選取前1對(duì)、4對(duì)、5對(duì)、10對(duì)?á、áá1??áááá5??對(duì)、20áá?á?á對(duì)á?á?、30對(duì)、40對(duì)褒貶詞進(jìn)行測(cè)試。測(cè)試集同前。公式(áá5??áááá)??中α??取èá?éá?áá1á?á?2,β取1。從表4實(shí)驗(yàn)1結(jié)果可以比較明顯地發(fā)現(xiàn),用相同的褒貶基準(zhǔn)詞,但當(dāng)采用改進(jìn)算法處理后,平均準(zhǔn)確率提高了5.72%,達(dá)到98.94%。另外,從圖1實(shí)驗(yàn)2結(jié)果發(fā)現(xiàn),隨著基準(zhǔn)詞數(shù)量的增加,詞匯語(yǔ)義褒貶傾向性準(zhǔn)確率都得到相應(yīng)的改善,且改善情況改進(jìn)算法明顯比原算法要好。3.3問題求解實(shí)驗(yàn)前面幾個(gè)實(shí)驗(yàn)測(cè)試集是采用《知網(wǎng)》中已經(jīng)明確的褒貶詞匯,那么對(duì)于那些未明確標(biāo)識(shí)的褒貶詞,在使用原算法和改進(jìn)算法進(jìn)行語(yǔ)義褒貶傾向性判別時(shí)的效果如何。下面是針對(duì)這個(gè)問題進(jìn)行的實(shí)驗(yàn)。測(cè)試集是一組由10個(gè)褒義詞和10個(gè)貶義詞組成的數(shù)據(jù)集,且這些詞沒有在《知網(wǎng)》中被標(biāo)識(shí)為“良”或“莠”,褒貶基準(zhǔn)詞同表2,分別使用原算法和改進(jìn)算法進(jìn)行語(yǔ)義褒貶傾向性計(jì)算,最后實(shí)驗(yàn)結(jié)果如下:從表5的實(shí)驗(yàn)結(jié)果看,采用原算法在處理普通的褒貶詞時(shí),褒義詞中“拜壽”、“出生”、“放心”的計(jì)算結(jié)果為負(fù)值,判別為貶義詞,這樣褒義詞的準(zhǔn)確率只有70%,平均準(zhǔn)確率為85%,而采用改進(jìn)算法則達(dá)到100%。4語(yǔ)義重復(fù)率的調(diào)節(jié)在采用計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的方法識(shí)別詞匯褒貶傾向性計(jì)算中,準(zhǔn)確率的高低將取決于褒貶基準(zhǔn)詞集合的選擇和計(jì)算算法,可以看出,褒貶基準(zhǔn)詞集合中的詞匯在保證較高的使用頻率情況下,覆蓋面越廣,準(zhǔn)確率越高。而詞匯的覆蓋面可從數(shù)量上和詞匯間語(yǔ)義的重復(fù)率上去考慮,一般是數(shù)量越大,語(yǔ)義重復(fù)率越低,詞匯覆蓋面就越廣,反之就越低,但數(shù)量越大,計(jì)算效果就越低,所以,在固定的數(shù)量下,只能尋求語(yǔ)義重復(fù)率低的詞匯。另外,在計(jì)算公式(5)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論