文本致病性識(shí)別在垃圾衛(wèi)生領(lǐng)域中的應(yīng)用

上傳人：1*** IP屬地：廣東上傳時(shí)間：2023-10-23 格式：DOCX 頁數(shù)：6 大小：41.87KB 積分：12 舉報(bào) 版權(quán)申訴

文本致病性識(shí)別在垃圾衛(wèi)生領(lǐng)域中的應(yīng)用_第2頁

文本致病性識(shí)別在垃圾衛(wèi)生領(lǐng)域中的應(yīng)用_第3頁

文本致病性識(shí)別在垃圾衛(wèi)生領(lǐng)域中的應(yīng)用_第4頁

文本致病性識(shí)別在垃圾衛(wèi)生領(lǐng)域中的應(yīng)用_第5頁

已閱讀5頁，還剩1頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

文本致病性識(shí)別在垃圾衛(wèi)生領(lǐng)域中的應(yīng)用

1詞匯傾向的中國語境隨著互聯(lián)網(wǎng)的普及，越來越多的人從網(wǎng)絡(luò)中獲取知識(shí)和信息。該信息的有效處理和過濾已成為一個(gè)重要的研究主題。文本傾向性識(shí)別可以鑒別用戶對(duì)某產(chǎn)品、事件和政策等持褒義還是貶義的觀點(diǎn)。目前,傾向性識(shí)別廣泛地應(yīng)用在許多研究領(lǐng)域,具有極大的實(shí)用價(jià)值。在企業(yè)中,產(chǎn)品評(píng)論的褒貶性評(píng)估,可以為管理者提供準(zhǔn)確而有效的決策信息。在垃圾過濾和信息安全方面,將強(qiáng)烈支持不良觀點(diǎn)的信息過濾掉。在其他研究領(lǐng)域,如自動(dòng)文摘提取中,可將褒貶義詞匯密集的句子和段落摘出,更好的反映原文的中心思想。自從上世紀(jì)90年代以來,詞匯傾向性的研究在國外得到了普遍的關(guān)注,并迅速發(fā)展起來。Hatzivassiloglou和McKeown在1997年首先開始了詞匯傾向性的研究。他們主要是針對(duì)形容詞作傾向性分析,利用詞匯之間的連詞(and,or,but,either-or,和neither-nor等)訓(xùn)練生成詞匯間的同義或反義傾向的連接圖,然后用聚類的方法將詞匯聚成褒義和貶義兩類。精確率最低的一組實(shí)驗(yàn)也達(dá)到78.08%。2003年TurneyandLittman采用計(jì)算基準(zhǔn)詞對(duì)與詞匯相似度的方法識(shí)別詞匯傾向性。他們選擇了七對(duì)褒貶傾向比較強(qiáng)烈的詞匯,計(jì)算待定詞與每個(gè)基準(zhǔn)詞的SO-PMI(semanticorientation-pointwisemutualinformation)值來判定詞匯的傾向性。2004年J.Kamps,M.Marx,R.J.Mokken,andM.D.Rijke利用WordNet計(jì)算詞匯傾向性。先選擇基準(zhǔn)詞,判別待定詞與基準(zhǔn)詞在WordNet中是否為同義詞,得出詞匯的傾向性,計(jì)算公式如下:其中d(t1,t2)是詞匯t1,t2在由WordNet生成的相似圖中的最短路徑,bad和good分別代表貶義和褒義基準(zhǔn)詞SΟ(t)=d(t,bad)-d(t,good)d(good,bad)(1)SO(t)=d(t,bad)?d(t,good)d(good,bad)(1)2005年M.J.M.Vermeij利用有傾向性的詞匯在產(chǎn)品評(píng)論中出現(xiàn)的次數(shù)計(jì)算用戶評(píng)論的傾向性,提出了一種按詞頻加權(quán)統(tǒng)計(jì)的方法目前,在中文詞匯傾向性計(jì)算方面的研究剛剛起步。主要的方法是選擇基準(zhǔn)詞對(duì),利用知網(wǎng)計(jì)算傾向性待定的詞匯與基準(zhǔn)詞匯的相似度,從而判定詞匯的傾向性。2計(jì)算字段傾向的方法2.1概念的相似度《知網(wǎng)》是一個(gè)以漢語和英語的詞語所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫。知網(wǎng)的基本思想是:設(shè)想所有的概念都可以分解成各種各樣的義原,同時(shí)應(yīng)該有一個(gè)有限的義原集合,其中的義原組合成一個(gè)無限的概念集合。如果能夠把握這一有限的義原集合,并利用它來描述概念之間的關(guān)系以及屬性與屬性之間的關(guān)系,就有可能建立所設(shè)想的知識(shí)系統(tǒng)。詞匯相似度是一個(gè)數(shù)值,一般取值范圍在之間。一個(gè)詞語與其本身的語義相似度為1。如果兩個(gè)詞語在任何上下文中都不可替換,那么其相似度為0。2.2義原third本文采取的方法是賦予每個(gè)詞匯一個(gè)語義傾向的度量值,它表示詞匯與基準(zhǔn)詞間關(guān)聯(lián)的緊密程度?；鶞?zhǔn)詞是指具有強(qiáng)烈褒貶傾向的詞匯,本文選擇知網(wǎng)中已標(biāo)注“良”和“莠”的詞匯作為標(biāo)準(zhǔn)集,總共6952詞。其中褒義詞3361,貶義詞3591個(gè)。首先,在知網(wǎng)中確定詞匯的定義,即它的義原組成,然后在標(biāo)準(zhǔn)集中查找它的可能近義詞。本文中可能近義詞主要通過考察詞匯的第二位和第三位上的義原是否相同來確定(若不存在第三位上的義原,則取第一位和第二位的義原,依此類推),這是因?yàn)榘H義詞中大多數(shù)為形容詞,而在知網(wǎng)中,形容詞在第二位上一定要標(biāo)注該屬性值或數(shù)量值所指向的屬性或數(shù)量特征。通常絕大多數(shù)情況下在第三位置上標(biāo)注該屬性值或數(shù)量值的具體值,例如:美味:DEF=aValue|屬性值,taste|味道,good|好暗淡:DEF=aValue|屬性值,circumstances|境況,miserable|慘,undesired|莠斯文:DEF=aValue|屬性值,behavior|舉止,gracious|雅,desired|良可見第二位和第三位上的義原能更好地保留詞匯的傾向性。傳統(tǒng)的基準(zhǔn)詞對(duì)的選擇是經(jīng)過人工篩選的褒貶義較強(qiáng)的詞匯,而上面選擇可能近義詞的方法使基準(zhǔn)詞根據(jù)詞匯的不同而變化,避免了固定了基準(zhǔn)詞,使某些具有傾向性的詞匯因?yàn)榕c基準(zhǔn)詞在義原樹中的距離較遠(yuǎn),而不能得出正確傾向性的現(xiàn)象。然后采用知網(wǎng)的語義相似度的計(jì)算公式計(jì)算可能近義詞與待定詞匯的相似度。由于知網(wǎng)中所有的概念都最終歸結(jié)于義原(個(gè)別地方用具體詞)來表示,所以義原的相似度計(jì)算是概念相似度計(jì)算的基礎(chǔ)。知網(wǎng)中義原間的上下位關(guān)系將同類的義原組成一棵樹,所以可以通過義原在樹中語義距離計(jì)算相似度。假設(shè)兩個(gè)義原在這個(gè)層次體系中的路徑距離為d,則這兩個(gè)義原之間的語義距離:Sim(p1,p2)=αd+α(2)Sim(p1,p2)=αd+α(2)其中p1和p2表示兩個(gè)義原(primitive),d是p1和p2在義原層次體系中的路徑長度,是一個(gè)正整數(shù)。α是一個(gè)可調(diào)節(jié)的參數(shù)。在此基礎(chǔ)上計(jì)算詞匯與可能近義詞間第二位和第三位義原的相似度,取其中最大的作為詞匯的相似度。最后將待定詞匯與所有可能近義詞的相似度求和,獲得詞匯的傾向性度量值。其中與“良”性詞匯的相似度取正值,與“莠”性詞匯的相似度取負(fù)值。詞匯W的語義傾向性計(jì)算公式如下:Οrientation(W)=kp∑i=1Sim(WΡi,W)-kn∑j=1Sim(WΝj,W)(3)其中WPi表示褒義基準(zhǔn)詞,WNj表示貶義基準(zhǔn)詞,W為傾向性待定的詞匯,kp和kn分別為褒義和貶義的可能近義詞數(shù)。3文本趨勢(shì)的識(shí)別3.1計(jì)算權(quán)重的規(guī)定文本的預(yù)處理就是將文本轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別的格式,本文采用目前應(yīng)用較廣泛的向量空間模型(VSM)來表示文本。向量空間模型的基本思想就是用(w1,w2,……wi)表示文本,其中wi表示第i個(gè)特征項(xiàng)的權(quán)重。權(quán)重的計(jì)算是使用著名的tf*idf公式:Wij=tfij*log(Ν/ni+0.01)√Ν∑k=1[tfik*log(Ν/ni+0.01)]2(4)其中,wij表示詞i在文本j中的權(quán)重,而tfij為詞i在文本j中的詞頻,N為訓(xùn)練文本的總數(shù),ni為訓(xùn)練文本集中出現(xiàn)的i的文本數(shù),分母為歸一化因子。構(gòu)成文本的詞的數(shù)量一般非常龐大,所以向量空間的維數(shù)也非常大,有的甚至達(dá)到數(shù)萬維。這就需要約簡(jiǎn)文本中的特征項(xiàng),本文中選擇褒貶傾向比較強(qiáng)烈的詞作為特征項(xiàng),這樣一方面可以大幅度壓縮向量空間的維數(shù),縮短機(jī)器學(xué)習(xí)和分類的時(shí)間。另外具有褒貶傾向的詞匯能更好的保留原文中作者的觀點(diǎn),提高文本傾向性識(shí)別的正確率。3.2否定規(guī)則與語料中否定句的匹配在邏輯語義上,否定詞是判斷主體不具有某種特征或行為的。例如:演技一點(diǎn)也沒進(jìn)步。表演極不自信。其中“進(jìn)步”和“自信”本來都是褒義詞,但是前面加上否定詞“沒”、“不”,整個(gè)句子的語義就轉(zhuǎn)變?yōu)橘H義了。本文對(duì)于上述否定句的處理方法是進(jìn)行否定規(guī)則匹配,被匹配上的詞匯褒貶義的性質(zhì)變反,以正確反映整篇語料的觀點(diǎn)。首先從復(fù)旦提供的語料庫中提取出否定句242917個(gè),在大量的否定句中提煉出高頻的否定規(guī)則集合。然后將否定規(guī)則與語料中否定句匹配,如果否定中心恰好為有褒貶傾向的詞匯,則將其用相反意義的詞匯替代,以消除否定句對(duì)文本觀點(diǎn)識(shí)別的負(fù)面影響。本文中否定詞的獲取是通過知網(wǎng)實(shí)現(xiàn)的。在知網(wǎng)中選取具有否定意義的義原,如:{neg|否},{BeUnable|無能},{impossible|不會(huì)},{unable|庸}等,從中抽取出包含否定義原的概念,經(jīng)人工過濾得到18個(gè)否定詞。3.3不同程度部分的語義強(qiáng)度差異王力先生在《中國現(xiàn)代語法》里,曾把程度副詞分為絕對(duì)程度副詞和相對(duì)程度副詞兩類。他指出:“凡無所比較,但泛言程度者,叫絕對(duì)的程度副詞。”“凡有所比較者,叫做相對(duì)的程度副詞”。無論是絕對(duì)還是相對(duì)程度副詞都會(huì)對(duì)句子的語義強(qiáng)度產(chǎn)生很大的影響。例如:他的漢語挺好的他的漢語說得非常好他的漢語說得極其好上述三個(gè)例句語義強(qiáng)度依次遞增。為了更好的區(qū)分作者觀點(diǎn)的褒貶義強(qiáng)度,本文對(duì)程度副詞上下文設(shè)置一個(gè)觀察窗口,觀察窗口的大小作為一個(gè)參數(shù)從訓(xùn)練集得出最佳的選擇,這里窗口的大小是按詞匯與程度副詞切分出的距離來計(jì)算,不是兩者相距的字?jǐn)?shù)。如果褒貶義詞出現(xiàn)在觀察窗口內(nèi),則按程度副詞的量級(jí)差別相應(yīng)增加褒貶義詞匯的詞頻。其中從極量副詞到低量副詞分別將所修飾詞匯的褒貶義強(qiáng)度增加1.5到1.2倍。程度副詞的量級(jí)分類如表1所示。3.4詞頻加權(quán)統(tǒng)計(jì)的文本傾向識(shí)別方法本文采用兩種分類方法,即SVM方法和詞頻加權(quán)統(tǒng)計(jì)的方法。SVM是一種基于統(tǒng)計(jì)的學(xué)習(xí)方法,它是對(duì)結(jié)構(gòu)化風(fēng)險(xiǎn)最小化歸納原則(StructureRiskMinimizationInductivePrinciple)的近似,其理論基礎(chǔ)是統(tǒng)計(jì)學(xué)習(xí)理論。詞頻加權(quán)統(tǒng)計(jì)的文本傾向性識(shí)別方法是計(jì)算文本中特征項(xiàng)的tf*idf值,并將此值與對(duì)應(yīng)詞匯的傾向性度量值相乘(褒義為正值,貶義為負(fù)值)。最后將文本中所有特征項(xiàng)的值相加取平均作為該篇文章的傾向性度量值。4實(shí)驗(yàn)結(jié)果與分析實(shí)驗(yàn)的語料是從網(wǎng)上搜索的影評(píng),共499篇。本文采取SVM和詞頻加權(quán)統(tǒng)計(jì)兩種分類方法。并將這兩種方法應(yīng)用在四類特征集上,特征集劃分如下:特征集一選取文本中所有詞匯;特征集二只選取有褒貶傾向性的詞匯;特征集三在特征集二的基礎(chǔ)上加入否定句的處理結(jié)果;特征集四是在特征集三的基礎(chǔ)上再加入對(duì)程度副詞的處理。SVM實(shí)驗(yàn)取其中185篇為訓(xùn)練集,314篇作為測(cè)試集。特征詞加權(quán)統(tǒng)計(jì)的實(shí)驗(yàn)不需要訓(xùn)練集,但為了便于比較,采用SVM全部測(cè)試集314篇作為語料。實(shí)驗(yàn)具體流程如下:(1)利用網(wǎng)頁抓取程序,從網(wǎng)上搜索語料,并人工鑒定每篇詞匯的褒貶傾向性。(2)將知網(wǎng)中的詞匯導(dǎo)入分詞的擴(kuò)展詞典,利用哈工大的分詞完成語料的切分等預(yù)處理工作。(3)根據(jù)知網(wǎng)的相似度計(jì)算公式編寫程序,從語料中提取具有褒貶義的詞匯,生成詞匯表,并計(jì)算其傾向性的度量值。(4)分別以全部詞匯和(3)步中的詞匯表為特征項(xiàng),生成文本分類的特征集一和特征集二。(5)從復(fù)旦語料中抽取高頻否定規(guī)則。(6)將否定規(guī)則與語料中的否定句匹配,將匹配上的褒貶義詞性質(zhì)變反,在文本分類特征集二的基礎(chǔ)上生成特征集三。(7)將程度副詞應(yīng)用于(6)中的文本分類特征集三,生成特征集四。(8)利用SVM在上述四種文本分類特征集上進(jìn)行褒貶義分類。(9)用詞頻加權(quán)統(tǒng)計(jì)的方法計(jì)算文本的傾向性(10)評(píng)估結(jié)果的正確率和召回率。實(shí)驗(yàn)一用所有詞匯為特征項(xiàng),實(shí)驗(yàn)二用褒貶義詞為特征項(xiàng),結(jié)果表明實(shí)驗(yàn)二比實(shí)驗(yàn)一的F-score值提高5%左右。增加否定句的處理,又使結(jié)果在實(shí)驗(yàn)二的基礎(chǔ)上提高了大約3%。可見加入褒貶義詞和處理否定句對(duì)文本的傾向性識(shí)別有一定的幫助。程度副詞的處理雖然對(duì)結(jié)果的正確率提高不大,但它嘗試為文本褒貶義強(qiáng)度的分析提供一種新的思路,即除了判別作者的觀點(diǎn)的傾向性,還要更好地判定這種傾向性的大小。詞頻加權(quán)統(tǒng)計(jì)方法不區(qū)分訓(xùn)練集和測(cè)試集,不進(jìn)行機(jī)器學(xué)習(xí),只是對(duì)結(jié)果做簡(jiǎn)單得求和取平均運(yùn)算,在三類特征集上的正確率都低于SVM的分類方法。5征項(xiàng)的文本傾向分類本文所提出的方法是對(duì)文本傾向性識(shí)別的一個(gè)初步嘗試,在詞匯傾向性計(jì)算的基礎(chǔ)上對(duì)文本褒貶義傾向性進(jìn)行分類。利用知網(wǎng)計(jì)算語義相似度,獲取具有褒貶傾向的詞匯的度量值,以這些有強(qiáng)烈傾向性的詞匯作為特征項(xiàng),采用目前分類效果較好的SVM對(duì)文本的傾向性分類。在文本

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 學(xué)術(shù)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

文本致病性識(shí)別在垃圾衛(wèi)生領(lǐng)域中的應(yīng)用

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔