基于上下文和語義信息的跨領(lǐng)域中文分詞課件_第1頁
基于上下文和語義信息的跨領(lǐng)域中文分詞課件_第2頁
基于上下文和語義信息的跨領(lǐng)域中文分詞課件_第3頁
基于上下文和語義信息的跨領(lǐng)域中文分詞課件_第4頁
基于上下文和語義信息的跨領(lǐng)域中文分詞課件_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

基于上下文和語義信息的跨領(lǐng)域中文分詞報告人:張婧導(dǎo)師:黃德根教授學(xué)校:大連理工大學(xué)研究領(lǐng)域:自然語言處理NLP&MT基于上下文和語義信息的跨領(lǐng)域中文分詞報告人:張婧NLP&M1主要內(nèi)容NLP&MT中文分詞概況中文分詞的一大挑戰(zhàn)本文主要方法參考文獻主要內(nèi)容NLP&MT中文分詞概況中文分詞的一大挑戰(zhàn)本文主要方2中文分詞概況中文分詞的主要技術(shù):

基于規(guī)則的方法基于統(tǒng)計的方法規(guī)則與統(tǒng)計相結(jié)合的方法NLP&MT基于序列標(biāo)注的機器學(xué)習(xí)方法[1-2]基于字標(biāo)注的方法[3-5]基于子詞標(biāo)注的方法[6-8]中文分詞的技術(shù)難點:

未登錄詞、歧義、規(guī)范等本文所用的方法中文分詞概況中文分詞的主要技術(shù):NLP&MT基于序列標(biāo)注的機3主要內(nèi)容NLP&MT中文分詞概況中文分詞的新挑戰(zhàn)本文主要方法參考文獻主要內(nèi)容NLP&MT中文分詞概況中文分詞的新挑戰(zhàn)本文主要方法4中文分詞的一大挑戰(zhàn)跨領(lǐng)域分詞的一個顯著特點是:一個特定領(lǐng)域文章中的通用詞和術(shù)語較多,這些領(lǐng)域性O(shè)OV是基于某個特定領(lǐng)域的,并且可能會在其所屬領(lǐng)域的某一上下文內(nèi)多次出現(xiàn)。NLP&MT因此,領(lǐng)域適應(yīng)性已經(jīng)成為中文分詞面臨的一大挑戰(zhàn)[9]。在現(xiàn)實應(yīng)用中,需要分詞的絕大部分文本并不帶有來源、主題等標(biāo)記數(shù)據(jù)[9]

。分詞系統(tǒng)不能預(yù)先把所有可能的文本種類都訓(xùn)練好[9]。分詞系統(tǒng)能貢獻最高價值,發(fā)揮最高效益時,是針對新主題,新來源,帶有許多未登錄詞的文本[9]。中文分詞的一大挑戰(zhàn)跨領(lǐng)域分詞的一個顯著特點是:NL5主要內(nèi)容NLP&MT中文分詞概況中文分詞的新挑戰(zhàn)本文主要方法參考文獻模型及特征上下文及語義信息分詞算法流程實驗結(jié)果及總結(jié)主要內(nèi)容NLP&MT中文分詞概況中文分詞的新挑戰(zhàn)本文主要方法6本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流程實驗結(jié)果及總結(jié)本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流7本文主要方法——模型及特征NLP&MT本文采用字詞聯(lián)合的CRFs模型。先將使用基于字的CRFs獲得的候選詞放入詞圖,然后再使用基于詞的CRFs模型對詞圖中的詞進行標(biāo)注。訓(xùn)練時,使用最大似然估計,為了避免訓(xùn)練過載,使用高斯先驗對參數(shù)進行規(guī)格化。解碼時,用Viterbi算法。模型:特征模板:基于字的CRFs特征模板基于詞的CRFs特征模板本文主要方法——模型及特征NLP&8本文主要方法——模型及特征NLP&MT基于字的CRFs:使用的特征模板:C-1,C0,C1,C-1C0,C0C1,C-1C1,T-1T0T1,并且加入AV[16]特征。表1基于字的CRFs特征模板本文主要方法——模型及特征NLP&9本文主要方法——模型及特征NLP&MT基于詞的CRFs:采用的具體特征模板有:W0,T0,W0T0,T0T1,W0W1,其中,W表示詞形,T表示詞性,下標(biāo)0和1分別表示相鄰兩個詞的前詞和后詞。表2基于詞的CRFs特征模板本文主要方法——模型及特征NLP&10本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流程實驗結(jié)果及總結(jié)本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流11本文主要方法——上下文及語義信息NLP&MT“日本金融特任大臣①龜井靜香(ShizukaKamei)周五(3月19日)發(fā)表講話……②龜井靜香此前就一直呼吁推出新一輪的大規(guī)模經(jīng)濟刺激計劃……③龜井靜香表示,昨日發(fā)布的土地價格調(diào)查報告顯示……④龜井靜香還呼吁日本央行直接買入國債來為政府赤字提供融資……金融市場對⑤龜井靜香的評論應(yīng)該不會有太大反應(yīng)……”.提出假設(shè):如果某個詞在篇章中出現(xiàn)了一次,那么將會增加它下一次出現(xiàn)的可能性。也就是說,若某個字串在上下文中多次被當(dāng)作候選詞,則它很可能就是一個詞。對此,本文用上下文變量來量化這個假設(shè)。上下文變量記錄候選詞的詞形(w),詞性(t),詞出現(xiàn)的難易程度(Cost),該詞作為候選詞的頻數(shù)(Frequency),該詞作為最終切分路徑中詞節(jié)點的頻數(shù)(rNum)。上下文信息:本文主要方法——上下文及語義信息NLP&M12NLP&MT本文主要方法——上下文及語義信息Al05A01=模范標(biāo)兵表率榜樣師表軌范楷范英模典型豐碑Al05A02=勞模勞動模范在查找某個候選詞在詞林中的同義詞時,遵循著就近原則,因為兩個同義詞集合距離越近,其詞義信息越接近。表3同義詞詞林編碼規(guī)范語義信息:NLP&MT本文主要方法——上下文及語義信13本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流程實驗結(jié)果及總結(jié)本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流14跨領(lǐng)域分詞的分詞算法流程如下:NLP&MT本文主要方法——分詞算法流程Step1.使用基于字的CRFs得到3-Best路徑,并且將路徑中所有的節(jié)點加入到詞圖中。圖1詞圖示例跨領(lǐng)域分詞的分詞算法流程如下:NLP&MT本文主要方法15NLP&MT本文主要方法——分詞算法流程Step2.為詞圖中的每個候選詞賦予屬性和代價。具體步驟為:①若候選詞為系統(tǒng)詞典中的詞,則直接將該詞在系統(tǒng)詞典中的屬性及詞代價賦給該候選詞;②若候選詞不在系統(tǒng)詞典中,但在上下文信息詞典中,則采用公式(1)對該候選詞的出現(xiàn)代價進行加權(quán);(1)其中,frequency是該候選詞出現(xiàn)的頻率;rNum是候選詞作為正確結(jié)果的頻率;cost’(w)是分詞路徑中候選詞的出現(xiàn)難易程度;cost0(w)為上下文變量表中詞條的原始代價。NLP&MT本文主要方法——分詞算法流16NLP&MT本文主要方法——分詞算法流程③若候選詞不在上述兩個詞典中,則到同義詞詞林中查找該候選詞的同義詞,若能在系統(tǒng)詞典中找到其同義詞,則用系統(tǒng)詞典中該同義詞的相關(guān)信息代替該候選詞相對應(yīng)的信息;④若無法通過上述方法找到或代替該候選詞,則用未登錄詞分類處理該候選詞。具體分為四類:漢字,字母,數(shù)字,標(biāo)點符號。它們的詞性,分別賦為名詞,字符串,數(shù)字,標(biāo)點,而詞出現(xiàn)的代價為詞典中該類詞性詞語代價的平均值。Step3.構(gòu)建詞圖后,用Viterbi算法根據(jù)公式(4)計算每條路徑的分詞代價,找到一條最佳路徑,即代價最小的分詞路徑。公式(4)中的Cost(wi)和TransCost(ti,ti+1)分別通過公式(2)和公式(3)計算得到。(2)NLP&MT本文主要方法——分詞算法流17NLP&MT本文主要方法——分詞算法流程(3)其中,U(w)為關(guān)于當(dāng)前詞w的一元特征集合,B(t1,t2)是關(guān)于相鄰的兩個詞的屬性(這里僅為詞性)的二元特征集合,λfk為特征fk在模型文件中的相應(yīng)權(quán)重,變量factor為將特征權(quán)重轉(zhuǎn)換為代價的放大系數(shù)。從以上公式可以看出,由于所有的特征函數(shù)都為二值特征函數(shù),所以在計算詞條的代價時,詞出現(xiàn)的代價等于該詞能表示的所有一元特征權(quán)重之和,屬性集之間的轉(zhuǎn)移代價為兩屬性集所能表示的二元特征函數(shù)的權(quán)重之和。(4)NLP&MT本文主要方法——分詞算法流18本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流程實驗結(jié)果及總結(jié)本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流19實驗數(shù)據(jù):系統(tǒng)詞典是從2000年1-6月份的人民日報中抽取出來的,詞性體系為相應(yīng)的北大詞性體系,詞典中共含有85,000個詞。本文采用的語義資源是同義詞詞林(擴展版),共包含77,343條詞語。SIGHAN2010的跨領(lǐng)域簡體中文訓(xùn)練和測試語料。訓(xùn)練基于詞圖的CRFs模型時,所用的語料是有詞性標(biāo)注的評測語料(1998年1月份人民日報)。NLP&MT本文主要方法——實驗結(jié)果及總結(jié)實驗數(shù)據(jù):NLP&MT本文主要方法——20NLP&MT本文主要方法——實驗結(jié)果及總結(jié)NLP&MT本文主要方法——實驗結(jié)果及21該方法用基于字標(biāo)注的CRFs模型得到3-Best路徑,將路徑中包含的所有候選詞添加到詞圖中,充分利用篇章的上下文信息和同義詞語義信息,在詞的層面上從詞圖中選擇代價最小的路徑作為最終的分詞結(jié)果。該方法很好地發(fā)揮了基于字標(biāo)注的方法在發(fā)現(xiàn)未登錄詞上的能力,而且在分詞過程中充分利用詞匯的領(lǐng)域性信息,提高了領(lǐng)域性分詞的分詞結(jié)果。用Bakeoff2010簡體中文測試語料進行開式測試,結(jié)果表明:該方法在四個測試領(lǐng)域中的三個領(lǐng)域的F值和OOV的召回率好于2010參加評測的最好成績。本文獲國家自然科學(xué)基金(No.61173100,No.61173101)資助。NLP&MT本文主要方法——實驗結(jié)果及總結(jié)NLP&MT本文主要方法——實驗結(jié)果及22主要內(nèi)容NLP&MT中文分詞概況中文分詞的新挑戰(zhàn)本文主要方法參考文獻主要內(nèi)容NLP&MT中文分詞概況中文分詞的新挑戰(zhàn)本文主要方法23參考文獻[1] XueNianwen.Chinesewordsegmentationascharactertagging.ComputationalLinguistics,2003,8(1):29-48.[2] LaffertyJ,McCallumA,PereiraF.probabilisticmodelsforsegmentingandlabelingsequencedata//ProceedingsofICML2001.ConditionalRandomFields:SanFrancisco:MorganKaufmann,2001:282-289[3] TsengH,ChangPichuan,AndrewG,etal.Aconditionalrandom?eldwordsegmenterforSIGHANbakeoff2005//Procofthe4thSIGHANWorkshoponChineseLanguageProcessing.JejuIsland:ACL,2005:168–171[4] PengFuchun,FengFangfang,McCallumA.Chinesesegmentationandnewworddetectionusingconditionalrandom?elds//ProcofCOLING2004.SanFrancisco:MorganKaufmann,2004:562-568[5] LowJK,NgHT,GuoWenyuan.AmaximumentropyapproachtoChinesewordsegmentation//Procofthe4thSIGHANWorkshoponChineseLanguageProcessing.JejuIsland:ACL,2005:161–164[6] HuangDegen,TongDeqin.ContextInformationandFragmentsBasedCross-DomainWordSegmentation.ChinaCommunications,2012,9(3):49-57[7] ZhangRuiqiang,KikuiGenichiro,SumitaEiichiro.Subword-basedtaggingbyconditionalrandomfieldsforChinesewordsegmentation//ProcofHLT-NAACL-2006.Morristown,NJ:ACL,2006:193-196[8] 黃德根,焦世斗,周惠巍.基于子詞的雙層CRFs中文分詞.計算機研究與發(fā)展,2010,47(5):962-968[9] 黃居仁.瓶頸_挑戰(zhàn)_與轉(zhuǎn)機_中文分詞研究的新思維//中國計算機語言學(xué)研究前沿進展(2007-2009):北京:中國中文信息學(xué)會,2009:14-19[10] GaoQin,VogelS.AMulti-layerChineseWordSegmentationSystemOptimizedforOut-of-domainTasks//ProcofCIPS-SIGHANJointConferenceonChineseProcessing.Beijing:ACL,2010:210-215[11] HuangDegen,TongDeqin,LuoYanyan.HMMRevisesLowMarginalProbability

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論