基于計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的詞匯激勵(lì)偏向識(shí)別

上傳人：1*** IP屬地：境外上傳時(shí)間：2023-10-14 格式：DOCX 頁(yè)數(shù)：5 大?。?1.54KB 積分：25 舉報(bào) 版權(quán)申訴

基于計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的詞匯激勵(lì)偏向識(shí)別_第2頁(yè)

基于計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的詞匯激勵(lì)偏向識(shí)別_第3頁(yè)

基于計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的詞匯激勵(lì)偏向識(shí)別_第4頁(yè)

基于計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的詞匯激勵(lì)偏向識(shí)別_第5頁(yè)

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的詞匯激勵(lì)偏向識(shí)別

1語(yǔ)義傾向識(shí)別在文學(xué)處理中的應(yīng)用事實(shí)上，比較詞匯意義的傾向是為了計(jì)算特定詞的比較價(jià)值。為了便于處理，將測(cè)量值定義為[1和[1]之間的數(shù)值。當(dāng)度量值高于某閾值時(shí)，判別為褒義傾向；反之，則判為貶義傾向。這樣，可以通過(guò)對(duì)句子中詞匯的語(yǔ)義傾向值求平均的方式，獲得句子的語(yǔ)義傾向，而句子又是構(gòu)成篇章的基礎(chǔ)，以此類推可獲得篇章的語(yǔ)義傾向；另外，句子褒貶傾向性識(shí)別又是文本傾向性識(shí)別的基礎(chǔ)，文本傾向性識(shí)別在信息過(guò)濾、自動(dòng)文摘、文本分類等領(lǐng)域有廣泛的應(yīng)用前景。因此，對(duì)詞匯的語(yǔ)義褒貶傾向性研究是此類研究中的關(guān)鍵工作。自20世紀(jì)90年代，詞匯傾向性的研究在國(guó)外得到了普遍的關(guān)注，并迅速發(fā)展起來(lái)。1997年，Hatzivassiloglou和McKeown通過(guò)對(duì)訓(xùn)練語(yǔ)料的學(xué)習(xí)進(jìn)行形容詞語(yǔ)義傾向判別，準(zhǔn)確率達(dá)到82%。2003年，Turney采用計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的方法識(shí)別詞匯傾向性，其準(zhǔn)確率在包含形容詞、副詞、名詞、動(dòng)詞的完整測(cè)試集上達(dá)到82.8%。2002年，由劉群等人提出了基于《知網(wǎng)》詞匯語(yǔ)義相似度計(jì)算方法，成為目前中文詞匯傾向性計(jì)算的主要依據(jù)。在朱嫣嵐論文詞匯語(yǔ)義褒貶傾向性研究的基礎(chǔ)上，指出了該算法中存在的一些不足之處，并對(duì)該算法進(jìn)行一定的改進(jìn)，通過(guò)實(shí)驗(yàn)證明該改進(jìn)后的算法比原算法在準(zhǔn)確率上有了較大的提高。2比較語(yǔ)言意義的喜前后傾向的計(jì)算2.1義原層次的相似度知網(wǎng)（英文名稱為HowNet）是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象，以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。《知網(wǎng)》中兩個(gè)主要的概念：“概念”與“義原”?！案拍睢笔菍?duì)詞匯語(yǔ)義的一種描述。每一個(gè)詞可以表達(dá)為幾個(gè)概念?！案拍睢笔怯靡环N“知識(shí)表示語(yǔ)言”來(lái)描述的，這種“知識(shí)表示語(yǔ)言”所用的“詞匯”叫做“義原”。“義原”是用于描述一個(gè)“概念”的最小意義單位。義原一方面作為描述概念的最基本單位，另一方面，義原之間又存在復(fù)雜的關(guān)系。在《知網(wǎng)》中，一共描述了義原之間的8種關(guān)系：上下位關(guān)系、同義關(guān)系、反義關(guān)系、對(duì)義關(guān)系、屬性-宿主關(guān)系、部件-整體關(guān)系、材料-成品關(guān)系、事件-角色關(guān)系?？梢钥闯觯x原之間組成的是一個(gè)復(fù)雜的網(wǎng)狀結(jié)構(gòu)，而不是一個(gè)單純的樹(shù)狀結(jié)構(gòu)。不過(guò)，義原關(guān)系中最重要的還是上下位關(guān)系。根據(jù)義原的上下位關(guān)系，所有的“基本義原”組成了一個(gè)義原層次體系。這個(gè)義原層次體系是一個(gè)樹(shù)狀結(jié)構(gòu)，這也是進(jìn)行語(yǔ)義相似度計(jì)算的基礎(chǔ)。在劉群論文中提出兩個(gè)孤立詞語(yǔ)之間的相似度計(jì)算最終歸結(jié)到了兩個(gè)概念之間的相似度計(jì)算。對(duì)于兩個(gè)漢語(yǔ)詞語(yǔ)W1和W2，如果W1有n個(gè)義項(xiàng)（概念）：S11,S12，…，S1n,W2有m個(gè)義項(xiàng)（概念）：S21,S22，…，S2m，則W1和W2的相似度等于各個(gè)概念的相似度之最大值，即而任一個(gè)義項(xiàng)可由四個(gè)部分組成：第一獨(dú)立義原、其他獨(dú)立義原、關(guān)系義原和符號(hào)義原，其中義原相似度的計(jì)算公式如下：其中p1和p2表示兩個(gè)義原（primitive）,d是p1和p2在義原層次體系中的路徑長(zhǎng)度，是一個(gè)正整數(shù)。α是一個(gè)可調(diào)節(jié)的參數(shù)。這樣兩個(gè)義項(xiàng)（概念）語(yǔ)義表達(dá)式的整體相似度公式如下：其中，βi(1≤i≤4）是可調(diào)節(jié)的參數(shù)，且有：β1+β2+β3+β4=1，β1≥β2≥β3≥β4。Sim1(S1,S2）是第一獨(dú)立義原描述式，Sim2(S1,S2）是其他獨(dú)立義原描述式，Sim3(S1,S2）是關(guān)系義原描述式，Sim4(S1,S2）是符號(hào)義原描述式。2.2語(yǔ)義至浚的基準(zhǔn)詞在朱嫣嵐論文中對(duì)某一詞匯W的語(yǔ)義褒貶傾向性計(jì)算指導(dǎo)思想是：先給定k對(duì)基準(zhǔn)詞（其中k個(gè)褒義詞，k個(gè)貶義詞），利用《知網(wǎng)》語(yǔ)義相似度計(jì)算公式，求出詞匯W與k對(duì)基準(zhǔn)詞中每個(gè)詞的語(yǔ)義相似度，并統(tǒng)計(jì)出k個(gè)褒義詞語(yǔ)義相似度的和S1、k個(gè)貶義詞語(yǔ)義相似度的和S2，若S1-S2>0則認(rèn)為詞匯W更加接近褒義傾向，認(rèn)定為褒義詞，若S1-S2<0則認(rèn)為詞匯W更加接近貶義傾向，認(rèn)定為貶義詞。詞匯W的語(yǔ)義褒貶傾向值計(jì)算公式如下：其中k表示k對(duì)基準(zhǔn)詞，每對(duì)基準(zhǔn)詞包括一個(gè)褒義詞和一個(gè)貶義詞。褒義基準(zhǔn)詞表示為key-p，貶義基準(zhǔn)詞表示為等于公式（3）中的。用于實(shí)驗(yàn)的40對(duì)基準(zhǔn)詞如表1所示。朱嫣嵐論文中通過(guò)實(shí)驗(yàn)選用詞頻最高的一部分詞作為測(cè)試集3，而基準(zhǔn)詞根據(jù)詞頻選取前1對(duì)、4對(duì)、5對(duì)、10對(duì)、15對(duì)、20對(duì)、30對(duì)、40對(duì)褒貶詞進(jìn)行測(cè)試，隨著基準(zhǔn)詞對(duì)的變化，準(zhǔn)確率也從22%變化到87%左右。最終得出的結(jié)論是：基于《知網(wǎng)》的語(yǔ)義傾向判別，只需利用《知網(wǎng)》的本地資源和少量的基準(zhǔn)詞，比較容易實(shí)現(xiàn)且不受外界條件（如網(wǎng)絡(luò)環(huán)境）的干擾。從實(shí)驗(yàn)結(jié)果來(lái)看，基準(zhǔn)詞的增加對(duì)判別的準(zhǔn)確性提高有明顯作用，但即使是極少量基準(zhǔn)詞，在常用詞集中同樣可以達(dá)到80%以上的準(zhǔn)確率。最后也提到了兩方面存在的不足：（1）基準(zhǔn)詞的選取不夠科學(xué)全面；（2）算法比較直觀，不夠科學(xué)。2.3實(shí)驗(yàn)結(jié)果及分析針對(duì)朱嫣嵐論文中算法存在的問(wèn)題，將從基準(zhǔn)詞的選取和算法的改進(jìn)兩方面著手，最后通過(guò)實(shí)驗(yàn)證明在同樣基準(zhǔn)詞對(duì)下，準(zhǔn)確率得到了很大的提高，達(dá)到98.94%。2.3.1基準(zhǔn)詞vac表1中基準(zhǔn)詞的選取原則是按照Google搜索返回Hits數(shù)，即它們?cè)赪eb上的詞頻前40組褒貶詞得到。但使用頻率高不等于詞匯的覆蓋面廣，這樣就造成了基準(zhǔn)詞中許多詞匯在《知網(wǎng)》中的語(yǔ)義是相同的。如褒義詞中的“天下第一”、“優(yōu)秀”、“漂亮”、“優(yōu)質(zhì)”、“良好”、“出色”、“完善”在《知網(wǎng)》中的義項(xiàng)都是“aValue|屬性值，GoodBad|好壞，good|好，desired|良”、“高級(jí)”、“最好”、“最佳”在《知網(wǎng)》中的義項(xiàng)都是“aValue|屬性值，rank|等級(jí)，HighRank|高等，desired|良”，而貶義詞中的“不良”、“落后”、“有害”、“惡劣”在《知網(wǎng)》中的義項(xiàng)都是“aValue|屬性值，GoodBad|好壞，bad|壞，undesired|莠”，“瘋狂”、“野蠻”、“無(wú)情”、“殘酷”在《知網(wǎng)》中的義項(xiàng)都是“aValue|屬性值，behavior|舉止，fierce|暴，undesired|莠”，等。由于表1基準(zhǔn)詞中有不少詞匯的語(yǔ)義是相同的，在一定程度上影響了基準(zhǔn)詞詞匯的覆蓋面，結(jié)果也影響了需判別詞匯語(yǔ)義褒貶傾向性的準(zhǔn)確率?；鶞?zhǔn)詞選取的原則是基于朱嫣嵐論文基準(zhǔn)詞選取原則，將表1中語(yǔ)義重復(fù)的詞替換成新的有較高Hits數(shù)的褒義詞或貶義詞，最后得到新的40組褒貶基準(zhǔn)詞（見(jiàn)表2），這40組褒貶基準(zhǔn)詞的特點(diǎn)是在保留較高使用頻率外，排除了語(yǔ)義相同的情況，提高了詞匯的覆蓋面。2.3.2對(duì)策三：實(shí)驗(yàn)2加語(yǔ)義相似度的加分法在朱嫣嵐論文中，詞匯語(yǔ)義褒貶傾向性計(jì)算方法是根據(jù)所要判斷詞匯W與預(yù)先設(shè)定的褒貶基準(zhǔn)詞對(duì)中的每一個(gè)詞進(jìn)行語(yǔ)義相似度計(jì)算，累加詞匯W和所有褒義基準(zhǔn)詞的語(yǔ)義相似度S1，累加詞匯W和所有貶義基準(zhǔn)詞的語(yǔ)義相似度S2，最后判斷S1和S2的大小，若S1>S2，則認(rèn)為詞匯W更具有褒義傾向性，否則若S1<S2，則詞匯W更具有貶義傾向性。該算法采用了統(tǒng)計(jì)方法，即利用詞匯W與褒貶義基準(zhǔn)詞集合的相似度和進(jìn)行比較，最后得到詞匯W更傾向于哪一邊。但實(shí)驗(yàn)發(fā)現(xiàn)，對(duì)貶義詞處理的準(zhǔn)確率較高，而褒義詞的準(zhǔn)確率偏低，出現(xiàn)這種結(jié)果的原因在于詞匯語(yǔ)義褒貶傾向性計(jì)算值比實(shí)際偏小，這估計(jì)與褒貶基準(zhǔn)詞對(duì)的選擇有關(guān)。但要選擇計(jì)算值與實(shí)際完全一致的褒貶基準(zhǔn)詞對(duì)是很困難的，通過(guò)加入語(yǔ)義相似度最大值并進(jìn)行適當(dāng)?shù)恼{(diào)節(jié)，且能獲得這種整體的平衡。具體思想方法如下：假設(shè)詞匯W是褒義的，則一般該詞的S1應(yīng)該大于S2，而該詞與褒義詞集合中語(yǔ)義相似度的最大值M1一般也應(yīng)該大于該詞與貶義詞集合中語(yǔ)義相似度最大值M2。而且實(shí)驗(yàn)發(fā)現(xiàn)，如果直接采用M1與M2來(lái)代替S1與S2之間的比較，準(zhǔn)確率也較高。另外，還發(fā)現(xiàn)該方法對(duì)褒義詞處理的準(zhǔn)確率較高，而貶義詞的準(zhǔn)確率較低，即詞匯語(yǔ)義褒貶傾向性計(jì)算值比實(shí)際偏大。能否通過(guò)（S1+M1）-（S2+M2）代替原S1-S2，獲得一種平衡，從而提高詞匯語(yǔ)義褒貶傾向性判別的準(zhǔn)確率。但實(shí)驗(yàn)又發(fā)現(xiàn)，單純地將原算法S1-S2改成（S1+M1）-（S2+M2）準(zhǔn)確率并沒(méi)有得到很大改觀，這是因?yàn)橐话鉙比M要大很多，如果不適當(dāng)調(diào)低S的值，M所起的作用將不會(huì)很大。經(jīng)過(guò)綜合考慮，最后將公式（4）改成公式（5），改進(jìn)后的算法如下：其中k表示k對(duì)基準(zhǔn)詞，每對(duì)基準(zhǔn)詞包括一個(gè)褒義詞和一個(gè)貶義詞。褒義基準(zhǔn)詞表示為key-p，貶義基準(zhǔn)詞表示為key-n,Similarity(key,W）等于公式（3）中的Sim(key,W）。α，β是可調(diào)節(jié)參數(shù)，根據(jù)給定的基準(zhǔn)詞對(duì)，可通過(guò)對(duì)α，β的調(diào)節(jié)提高算法的準(zhǔn)確率。3實(shí)驗(yàn)與結(jié)果分析3.1算法效果測(cè)試采用相同的算法，都是使用原算法公式（4），但分別采用表1和表2中的褒貶基準(zhǔn)詞。在實(shí)驗(yàn)中（包括后面的實(shí)驗(yàn)），默認(rèn)使用0為閾值，即傾向值大于0則判斷為褒義，小于0則判斷為貶義。語(yǔ)義傾向判別準(zhǔn)確率=判別正確的詞數(shù)/測(cè)試集總詞數(shù)，以此來(lái)衡量算法效果。測(cè)試集使用了《知網(wǎng)》2000中文詞表中標(biāo)注“良”（褒義），“莠”（貶義）屬性的詞匯。排除了既有“良”又有“莠”的詞，因?yàn)檫@些詞匯在不同語(yǔ)境下，或?yàn)榘x，或?yàn)橘H義，并不能簡(jiǎn)單地將其判斷為褒義詞或貶義詞。例如：詞語(yǔ)“好看”，在描述事物時(shí)，可作褒義，如“這花真好看”，而在“要你好看”這樣的語(yǔ)句中，顯然帶有強(qiáng)烈的貶義。這樣共選用5930個(gè)詞。其中褒義詞2884個(gè)，貶義詞3046個(gè)。詞匯語(yǔ)義相似度計(jì)算使用基于《知網(wǎng)》語(yǔ)義相似度的方法，下同。實(shí)驗(yàn)結(jié)果如表3所示。從表3實(shí)驗(yàn)結(jié)果可以比較明顯地看出，用相同的算法，當(dāng)采用改進(jìn)后的褒貶基準(zhǔn)詞后，平均準(zhǔn)確率提高了6.19%。3.2算法優(yōu)化后的實(shí)驗(yàn)結(jié)果在算法之間的比較實(shí)驗(yàn)中，包含兩個(gè)子實(shí)驗(yàn)，第一個(gè)是通過(guò)相同基準(zhǔn)詞，不同算法之間的比較，第二個(gè)是通過(guò)不同算法，不同褒貶基準(zhǔn)詞集合之間的比較。子實(shí)驗(yàn)1，采用原算法公式（4）和改進(jìn)算法公式（5）兩種不同的算法，基準(zhǔn)詞集合采用表2中的40組褒貶基準(zhǔn)詞，測(cè)試集同前。公式（5）中α取12，β取1。實(shí)驗(yàn)結(jié)果如表4所示。子實(shí)驗(yàn)2，采用原算法公式（4）和改進(jìn)算法公式（5）兩種不同的算法，而基準(zhǔn)詞集á??áá?合áá?áá?采用表2中根據(jù)順序選取前1對(duì)、4對(duì)、5對(duì)、10對(duì)?á、áá1??áááá5??對(duì)、20áá?á?á對(duì)á?á?、30對(duì)、40對(duì)褒貶詞進(jìn)行測(cè)試。測(cè)試集同前。公式（áá5??áááá）??中α??取èá?éá?áá1á?á?2，β取1。從表4實(shí)驗(yàn)1結(jié)果可以比較明顯地發(fā)現(xiàn)，用相同的褒貶基準(zhǔn)詞，但當(dāng)采用改進(jìn)算法處理后，平均準(zhǔn)確率提高了5.72%，達(dá)到98.94%。另外，從圖1實(shí)驗(yàn)2結(jié)果發(fā)現(xiàn)，隨著基準(zhǔn)詞數(shù)量的增加，詞匯語(yǔ)義褒貶傾向性準(zhǔn)確率都得到相應(yīng)的改善，且改善情況改進(jìn)算法明顯比原算法要好。3.3問(wèn)題求解實(shí)驗(yàn)前面幾個(gè)實(shí)驗(yàn)測(cè)試集是采用《知網(wǎng)》中已經(jīng)明確的褒貶詞匯，那么對(duì)于那些未明確標(biāo)識(shí)的褒貶詞，在使用原算法和改進(jìn)算法進(jìn)行語(yǔ)義褒貶傾向性判別時(shí)的效果如何。下面是針對(duì)這個(gè)問(wèn)題進(jìn)行的實(shí)驗(yàn)。測(cè)試集是一組由10個(gè)褒義詞和10個(gè)貶義詞組成的數(shù)據(jù)集，且這些詞沒(méi)有在《知網(wǎng)》中被標(biāo)識(shí)為“良”或“莠”，褒貶基準(zhǔn)詞同表2，分別使用原算法和改進(jìn)算法進(jìn)行語(yǔ)義褒貶傾向性計(jì)算，最后實(shí)驗(yàn)結(jié)果如下：從表5的實(shí)驗(yàn)結(jié)果看，采用原算法在處理普通的褒貶詞時(shí)，褒義詞中“拜壽”、“出生”、“放心”的計(jì)算結(jié)果為負(fù)值，判別為貶義詞，這樣褒義詞的準(zhǔn)確率只有70%，平均準(zhǔn)確率為85%，而采用改進(jìn)算法則達(dá)到100%。4語(yǔ)義重復(fù)率的調(diào)節(jié)在采用計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的方法識(shí)別詞匯褒貶傾向性計(jì)算中，準(zhǔn)確率的高低將取決于褒貶基準(zhǔn)詞集合的選擇和計(jì)算算法，可以看出，褒貶基準(zhǔn)詞集合中的詞匯在保證較高的使用頻率情況下，覆蓋面越廣，準(zhǔn)確率越高。而詞匯的覆蓋面可從數(shù)量上和詞匯間語(yǔ)義的重復(fù)率上去考慮，一般是數(shù)量越大，語(yǔ)義重復(fù)率越低，詞匯覆蓋面就越廣，反之就越低，但數(shù)量越大，計(jì)算效果就越低，所以，在固定的數(shù)量下，只能尋求語(yǔ)義重復(fù)率低的詞匯。另外，在計(jì)算公式（5）

人人文庫(kù)> 全部分類> 專業(yè)文獻(xiàn) > 學(xué)術(shù)論文

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的詞匯激勵(lì)偏向識(shí)別

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的詞匯激勵(lì)偏向識(shí)別

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔