版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、一種基于詞對(duì)齊的中文深層語(yǔ)義解析模 型鄭曉東胡漢輝趙林度呂永濤 東南大學(xué)經(jīng)濟(jì)管理學(xué)院東南大學(xué)計(jì)算機(jī)科學(xué)與工程 學(xué)院摘要:語(yǔ)義解析是指將自然語(yǔ)言句子轉(zhuǎn)化成便于機(jī)器理解和推理的意義形式。近年來(lái)英 文語(yǔ)義解析的研究取得了很大進(jìn)展。然而,中文語(yǔ)義解析的相關(guān)工作則相對(duì)較 少。中文和英文之間存在一定的差異,適用于英文的語(yǔ)義解析方法不一定適合中 文。因此,針對(duì)屮文的語(yǔ)言特點(diǎn),提出一種基于詞對(duì)齊的屮文語(yǔ)義解析方法,將 中文句子轉(zhuǎn)化成其相應(yīng)的意義表示看作是一個(gè)機(jī)器翻譯的過(guò)程。首先將英文語(yǔ)義 解析方法中常用的訓(xùn)練數(shù)據(jù)集geoquery轉(zhuǎn)化成中文數(shù)據(jù)集,數(shù)據(jù)集中毎條訓(xùn)練 數(shù)據(jù)包括一個(gè)中文句子及其正確的意義表示。然后
2、利用詞對(duì)齊模型來(lái)獲取由中文 自然語(yǔ)言字符串及其相應(yīng)的意義表示所組成的雙語(yǔ)詞典。最后通過(guò)學(xué)習(xí)一個(gè)概率 估計(jì)模型來(lái)確定最終的語(yǔ)義解析模型。實(shí)驗(yàn)結(jié)果表明,wacsp有較高的精確度和 覆蓋率。關(guān)鍵詞:自然語(yǔ)言處理;語(yǔ)義解析;詞對(duì)齊模型;作者簡(jiǎn)介:鄭曉東(1976),男,博士,高級(jí)工程師,研究領(lǐng)域?yàn)樾畔⑻幚怼?知識(shí)管理、系統(tǒng)工程;e-mail:51847986163. com;作者簡(jiǎn)介:胡漢輝(1956),教授,博導(dǎo);作者簡(jiǎn)介:趙林度(1965),教授,博導(dǎo);作者簡(jiǎn)介:呂永濤(1991),碩士。收稿日期:2017-07-10 基金:國(guó)家自然科學(xué)棊金而上項(xiàng)fl (no. 70673010)word ali
3、gnment-based chinese deep semantic parsingzheng xiaodong hu hanhui zhao lindu lv yongtaoschool of economics and management, southeastuniversity; school of computer science andengineering, southeast university;abstract:semantic parsing is the task of transforming natural-language sentences into compl
4、ete, formeil, symbolic meaning representations (mr) suitable for reasoning or machine-undcrstending. in recent years, the research of semantic parsing in english has made great progress. however, little work has been done in chinese semantic parsing. there are inherent differences between chinese an
5、d english, therefore one cannot simply apply methods, which are feasible for english, to chinese. this paper proposes a statistical approach called wacsp aiming at chinese semantic parsing, which considers the process of converting chinese sentence into its corresponding meaning as a machine transla
6、tion procedure. at first, it turns the frequently-used dataset geoquery into chinese dataset, in which each data cont ains a chi nese sente nee and its accurate meaning. then it uses the word alignment model to acquire the bilingual dictionary made up by the chinese natural language string and its m
7、eaning. in the end, it determines the ultimate semantic analysis by learning a statistical model. experimental results show that wacsp performs wel1 with higher prccision and coverage.keyword:natural language processing; semantic parsing; word alignment model;received: 2017-07-101引言 語(yǔ)義解析是將自然語(yǔ)言句子轉(zhuǎn)化成便
8、于機(jī)器理解和推理的意義表示(mr),它 從線(xiàn)性的詞語(yǔ)序列中獲取潛在的語(yǔ)義結(jié)構(gòu)。意義表示語(yǔ)言(mrl)是一種形式化 表示語(yǔ)言,可確保每一個(gè)意義表示(mr)有唯一的解析樹(shù)。隨著分詞、詞性標(biāo)注 和句法解析等自然語(yǔ)言處理技術(shù)的逐步成熟,淺層語(yǔ)義解析已得到廣泛研究和 應(yīng)用。由于淺層語(yǔ)義解析的局限性,以及問(wèn)答系統(tǒng)、信息抽取、機(jī)器翻譯和機(jī)器 人控制等領(lǐng)域的應(yīng)用需求,使得深層語(yǔ)義解析越來(lái)越受到重視。深層語(yǔ)義解析技術(shù)當(dāng)前處于探索研究階段,且大多數(shù)針對(duì)英文。如ge等2005 年提出基于句法的語(yǔ)義解析方法scissor缺點(diǎn)是需手動(dòng)構(gòu)造帶有語(yǔ)義標(biāo)簽 的句法解析樹(shù)作為訓(xùn)練語(yǔ)料,代價(jià)很大。李等人在2015年嘗試用組合范疇
9、文法 (combinatory categorical grcimmar, ccg)進(jìn)彳亍語(yǔ)義解析2,該模型使用詞典 歸納過(guò)程歸納ccg詞典,缺點(diǎn)是需要人工手寫(xiě)規(guī)則。katcb來(lái)提岀基于字符 串核函數(shù)的語(yǔ)義解析算法kr1sp£31,當(dāng)輸入的自然語(yǔ)言句子有噪音時(shí),kr1sp 比其他語(yǔ)義解析器的魯棒性更強(qiáng)。中英文差異主要有兩點(diǎn):一是中文與英文的語(yǔ)法結(jié)構(gòu)有較大差異,適用于英文的 語(yǔ)義解析模型并不一定適用于屮文;二是英文重結(jié)構(gòu),屮文重語(yǔ)義,英文語(yǔ)義解 析方法沒(méi)有較好地考慮中文語(yǔ)言特點(diǎn)。因此本文針對(duì)中文語(yǔ)法結(jié)構(gòu)和中文語(yǔ)言特 點(diǎn)提岀一種基于詞對(duì)齊的中文語(yǔ)義解析模型(word alignment-
10、based chinese semantic parsing, wacsp),圖1是其流程圖,結(jié)合中文語(yǔ)言的特點(diǎn)在數(shù)據(jù)預(yù) 處理算法中,對(duì)數(shù)據(jù)集進(jìn)行中文分詞、數(shù)據(jù)清理和數(shù)據(jù)重構(gòu)等,使得中文語(yǔ)義解 析算法性能有較大的提升。wacsp用嵌套結(jié)構(gòu)處理mrs,通過(guò)kate基于轉(zhuǎn)換規(guī)則的語(yǔ)義解析方法做語(yǔ)義解析 ulo本文提出的算法通過(guò)給定的數(shù)據(jù)是中文句子以及其正確的mrs。算法不需 要中文句法先驗(yàn)知識(shí),且假設(shè)上下文無(wú)關(guān)文法是明確的。木文主要?jiǎng)?chuàng)新點(diǎn)是用統(tǒng) 計(jì)機(jī)器翻譯技術(shù)做中文語(yǔ)義解析。具體來(lái)說(shuō),用統(tǒng)計(jì)詞對(duì)齊模型臣1來(lái)獲取雙語(yǔ) 詞典,該詞典包含自然語(yǔ)言字符串及mrl表示。在解析框架屮通過(guò)結(jié)合這些自然 語(yǔ)言字符
11、串以及它們的mrl翻譯來(lái)最終形成完整的mrs,這個(gè)解析框架就是同步 上下文無(wú)關(guān)文法scfgm該文法是大部分現(xiàn)有的基于句法的統(tǒng)計(jì)翻譯模型的 基礎(chǔ)7-8。2基于詞對(duì)齊的中文語(yǔ)義解析模型wacsp從圖2中可以看出,wacsp的任務(wù)就是將中文句子翻譯成用形式化語(yǔ)言clang表 示的mr格式。為了完成這一任務(wù),首先需要用語(yǔ)義語(yǔ)法回解析中文句子的句法 結(jié)構(gòu),語(yǔ)義語(yǔ)法中的非終結(jié)符與clang語(yǔ)法的非終結(jié)符相同。通過(guò)語(yǔ)義解析器獲 得字符串的意義表示,然后通過(guò)結(jié)合字符串的意義表示來(lái)獲取整個(gè)中文句子的 意義表示。圖3 (a)是例句的語(yǔ)義解析樹(shù)屮的一種可能,其屮的非終結(jié)符是基 于clang文法的非終結(jié)符。圖3 (b
12、)表示對(duì)應(yīng)的mr結(jié)構(gòu)的clang解析樹(shù)。answer ( state (traverse_l ( riverid (密密西西比河流經(jīng)的州有哪圖2中文句子對(duì)應(yīng)mrl的意queryquery有哪些河流流經(jīng)statetraverse河流名密西西比河(a)中文解析樹(shù)圖3圖2中字符串對(duì)的部分解析樹(shù) 下載原圖上述過(guò)程可以看作同步解析的一個(gè)實(shí)例回,最終推導(dǎo)岀兩個(gè)字符串,一個(gè)是源 語(yǔ)言的字符串,另一個(gè)是目標(biāo)語(yǔ)言的字符串。輸入是屮文句子c,然后語(yǔ)義解析 器的任務(wù)就是找出一種推導(dǎo),它可以推導(dǎo)出字符串對(duì)<e, f>,這里的f就是句子 e的mrl翻譯。為了防止字符串對(duì)的集合是無(wú)限多個(gè),本文用加權(quán)的scfg
13、生成 字符串對(duì),它的定義如下:g=<n,te,t, £,s,a> 式中n代表有限的非終結(jié)符集合,te表示有限的自然語(yǔ)言的終結(jié)符集合。t表 示有限的mrl語(yǔ)言的終結(jié)符集合。l表示詞典,詞典包括有限的規(guī)則集合。s屬 于n, s是一個(gè)開(kāi)始符號(hào)。x是參數(shù)評(píng)估的集合,其定義了推導(dǎo)的概率分布。l 屮的每一個(gè)產(chǎn)生式都是如下形式:ava,/?>其中agn, a g (nutj , f3 g (nut.)。非終結(jié)符a稱(chēng)為產(chǎn)生式左部 (left-hand side, li is),產(chǎn)生式右部(right-hand side, riis)是一對(duì)字符串 <a, b>。對(duì)于a中的
14、每一個(gè)非終結(jié)符在b中都有一個(gè)與之關(guān)聯(lián)的完全相同的 非終結(jié)符。換句話(huà)說(shuō)a中的非終結(jié)符是b中非終結(jié)符的排列。下面是一些可以用來(lái)產(chǎn)生圖3中的解析樹(shù)的scfg規(guī)則:query ->v州有哪些/answer州 州v州皿的州/state州皿)> 州 k河流皿流經(jīng)/traverse!河流皿): 河流河流名ffl,(riverid河流名皿): 河流名v密西西比河,(密西西比漢每一個(gè)scfg規(guī)則a-<a, 3>可看成兩部分結(jié)合而成,a-a是自然語(yǔ)言句子的 句法解析產(chǎn)生式、a-> b是mrl語(yǔ)法產(chǎn)生式。本文將字符串a(chǎn)稱(chēng)為自然語(yǔ)言(nl)字符串,字符串b稱(chēng)為mr字符串。nl和mr字符串
15、中的非終結(jié)符用 來(lái)進(jìn)行索引顯示它們之間的關(guān)聯(lián)。所有的推導(dǎo)都是由相關(guān)聯(lián)的開(kāi)始符號(hào)對(duì)給出生成簡(jiǎn)單的中文句子及其clang表示的一種推導(dǎo),如下所示: query® query皿 n州皿有哪些/answer州國(guó))=州皿的州有哪些,(answer(state州河流皿流經(jīng)的州有哪些,(answer(state (traverse2 河流也)二 v河流名皿流經(jīng)的州有哪些,(answer(state(raverse _ l(rverid 河濟(jì)密西西比河流經(jīng)的州有哪些,(answer(state (traverse _ 1 (riverid 盛可簡(jiǎn)單理解為clang的表示就是中文句子的一種翻譯。因此對(duì)
16、于輸入句子e,會(huì) 有多種可能的推導(dǎo)(如:非終結(jié)符州有多種推導(dǎo))。為了找岀正確的推導(dǎo),木文 設(shè)計(jì)了一個(gè)對(duì)于推導(dǎo)d的概率模型,概率模型的參數(shù)為入,返冋值為d正確的 概率。對(duì)于屮文句子的翻譯結(jié)果f有如下定義:f =f( argmaxb(k)i dwd(gk)式中f (d)是推導(dǎo)d中的mr串,并且d (g|e)是一個(gè)集合,集合包含了 e所有 可能的推導(dǎo)。簡(jiǎn)單來(lái)說(shuō),最終輸岀的mrl翻譯是推導(dǎo)d中的mr串,而且d是自 然語(yǔ)言句子e概率最大的推導(dǎo)。f可以通過(guò)動(dòng)態(tài)規(guī)劃算法有效地計(jì)算出來(lái)。由于在給定nl和mrl吋n, te, tf, s就會(huì)相應(yīng)獲取到,所以本文語(yǔ)義解析的學(xué) 習(xí)算法只需要學(xué)習(xí)一個(gè)詞典l和帶有參數(shù)x
17、的概率模型即可。因?yàn)樵~典是所有 可能推導(dǎo)的集合,所以要想生成概率模型,需要首先學(xué)習(xí)得到詞典。因此學(xué)習(xí)任 務(wù)可以分為以下兩個(gè)子任務(wù):(1) 學(xué)習(xí)一個(gè)詞典l,詞典隱式地定義了一個(gè)集合,這個(gè)集合包含所有可能的 推導(dǎo),d (g)。(2) 學(xué)習(xí)一個(gè)參數(shù)x的集合,這個(gè)集合定義了 d (g)中推導(dǎo)的概率分布。兩個(gè)子任務(wù)都需要訓(xùn)練數(shù)據(jù)集£>,每個(gè)訓(xùn)練樣例久都是成對(duì)的,即 自然語(yǔ)言句子ei,以及其正確的mr串fi。詞典的生成同樣需要明確的mrl上下 文無(wú)關(guān)文法。因此開(kāi)始訓(xùn)練數(shù)據(jù)集時(shí)若沒(méi)有詞典則無(wú)法牛成正確的推導(dǎo)。木文將 這些推導(dǎo)作為隱藏變量,通過(guò)em算法對(duì)其進(jìn)行極大似然估計(jì)。3 wacsp關(guān)鍵技
18、術(shù):詞典采集在wacsp中,本文用詞對(duì)齊模型來(lái)進(jìn)行詞典的采集。最基本的思想是在訓(xùn)練集上 訓(xùn)練一個(gè)統(tǒng)計(jì)詞對(duì)齊模型,然后找出每個(gè)訓(xùn)練樣例的最有可能的詞對(duì)齊。通過(guò)從 這些詞對(duì)齊屮提取scfg規(guī)則來(lái)生成詞典8 o本文舉例說(shuō)明上述算法。假設(shè)訓(xùn)練數(shù)據(jù)集和圖2中的字符串對(duì)一樣,那么詞對(duì)齊 模型就是找到這對(duì)字符串的詞對(duì)齊。圖4是一個(gè)簡(jiǎn)單的詞對(duì)齊例子,在這個(gè)詞對(duì) 齊中每個(gè)clang符號(hào)都被當(dāng)作一個(gè)單詞處理。這樣會(huì)帶來(lái)兩個(gè)問(wèn)題:第一個(gè),并 不是所有的mr字符都有特定的含義。舉例來(lái)說(shuō),在clang中括號(hào)(,)和 花括號(hào)(, )并沒(méi)有實(shí)際的語(yǔ)義含義。這樣的符號(hào)并不會(huì)對(duì)齊任何自然語(yǔ)言單 詞,如果訓(xùn)練集屮包含這些字符會(huì)很
19、有可能混淆詞對(duì)齊模型。第二個(gè),mr符號(hào) 表示可能會(huì)產(chǎn)生歧義。例如clang謂詞pt,它根據(jù)給定的論元類(lèi)型可能會(huì)有三 種含義,它可能代表著坐標(biāo)(eg (pto 0),或者某物體所在的位置(pt our 4) ) o如果單獨(dú)判斷謂詞pt,詞對(duì)齊模型無(wú)法正確判斷出其含義。ansstatetravrive圖4 一個(gè)中文與clang字符的詞對(duì)齊下載原圖 為了避免上述問(wèn)題,本文用mrl產(chǎn)生式序列表示mro mrl產(chǎn)生式序列對(duì)應(yīng)mr的 自頂向下最左推導(dǎo)。每一個(gè)mrl產(chǎn)生式相當(dāng)于一個(gè)單詞。圖5中文句子與其clang 表示的線(xiàn)性化解析的詞對(duì)齊。如上例所給出的第二個(gè)產(chǎn)牛式,州f (state州),它就是來(lái)重寫(xiě)第一
20、個(gè)產(chǎn)生式 query- (answer州)中的非終結(jié)符“州”,同理可知其他產(chǎn)生式。特別需要提 醒的是解析樹(shù)的結(jié)構(gòu)是通過(guò)線(xiàn)性化保存的,并且對(duì)于每一個(gè)mr都有一個(gè)唯一的 線(xiàn)性化解析,這是因?yàn)閙rl語(yǔ)法是明確的。在后續(xù)的提取scfg規(guī)則中,mr解析 樹(shù)的結(jié)構(gòu)扮演重要角色。通過(guò)己有的詞對(duì)齊模型來(lái)獲取詞對(duì)齊。木文使用的是giza+10實(shí)現(xiàn)的ibm model 55o假設(shè)每個(gè)自然語(yǔ)言單詞最多對(duì)應(yīng)一個(gè)mrl產(chǎn)生式,scfg規(guī)則采用自下而上方式 提取。這個(gè)提取過(guò)程首先從右部(lhs)都是終結(jié)符的產(chǎn)生式開(kāi)始,比如河流名 -密西西比河。對(duì)于每個(gè)產(chǎn)生式x-b,規(guī)則x-><a, b便提取出來(lái),其中a 包含
21、了所有的產(chǎn)牛式x-><a, b>所對(duì)齊的單詞,例如河流名一密西西比河, (密西西比河)>o然后再考慮產(chǎn)生式右部(liis)包含非終結(jié)符的情況,比如帶有論元的謂詞。在 這種情況下,nl字符串a(chǎn)包含了單詞以及非終結(jié)符,其中單詞與產(chǎn)生式相對(duì)應(yīng), 非終結(jié)符表示了論元實(shí)現(xiàn)的位置。例如,謂詞state提取的規(guī)則是:州->< 州也州,(state州也)>,公式中(1)代表著字間距為1,因?yàn)椤暗闹荨卞暗摹笔菍儆跊](méi)有對(duì)齊的字。字間距(g)可以看作特殊 的非終結(jié)符,在數(shù)據(jù)流中最多可展開(kāi)g個(gè)nl字,這樣一來(lái)對(duì)于模式匹配會(huì)增加 一定的靈活性。規(guī)則的提取過(guò)程是在線(xiàn)性化mr后進(jìn)
22、行的(因此謂詞的提取過(guò)程 是在其所有論元都提取完畢后進(jìn)行),最后便可提取出所有產(chǎn)牛式規(guī)則。河流-v河流名ffl,(rivend河流名皿)> 州 k河流皿流經(jīng)/traversex河流皿)> query -><州皿有哪些/answer州皿):wacsp詞典采集算法如算法1所示:首先用訓(xùn)練數(shù)據(jù)集t二行>訓(xùn)練詞對(duì)齊 模型m,然后從詞對(duì)齊模型中獲得每個(gè)訓(xùn)練樣例最有可能的詞對(duì)齊,本文取前 十個(gè)最有可能的詞對(duì)齊(210)。scfg規(guī)則便可從每一個(gè)詞對(duì)齊中提取岀來(lái)。 因?yàn)樘崛∵^(guò)程采用自下而上的方式,所以謂詞的提取過(guò)程是在其所有論元都提取完畢后進(jìn)行。字典l包含所有的規(guī)則,這些規(guī)則是
23、從訓(xùn)練樣例k個(gè)最好的詞對(duì) 齊中提取岀來(lái)的。算法1詞典采集算法輸入訓(xùn)練t=v匕/>>,明確的輸出詞典z:lexicon-acquire (t, gr)1: "02: for i< 1 to |t|3: do f)<利用g線(xiàn)性化餡 4: vem>作為訓(xùn)練數(shù)據(jù) 模型m5: for i< 1 to |t|6: doj 從詞對(duì)齊7f;>的k個(gè)最好的詞對(duì)齊7: for k'ltok8:dofbr j < f; downtol9: do a< lhs(f;j)10:a<-在a:中歸及其論:11:p* rhs(fij)12:匚一
24、163;ua一旦詞典獲取到,下一步任務(wù)就是學(xué)習(xí)語(yǔ)義解析的概率評(píng)估模型。對(duì)于推導(dǎo)d 用極大爛模型定義一個(gè)條件概率分布:式中fi是特征函數(shù),并且z (e)是歸一化因子。對(duì)于詞典中的毎一條規(guī)則丫 都有一個(gè)特征函數(shù),這個(gè)特征函數(shù)返回的是丫在推導(dǎo)中所用到的次數(shù)。同樣對(duì) 于每個(gè)單詞3也有一個(gè)特征函數(shù),它返冋的是字間距3的數(shù)量。模型中無(wú)法看到的單詞被作為額外的特征,這一特征值是字間距中單詞的總數(shù)。 由于scfg的輸出文法是mrl文法,mrl產(chǎn)生式具有較好的結(jié)構(gòu),因此概率模型 相對(duì)簡(jiǎn)單。對(duì)數(shù)線(xiàn)性模型使用的特征數(shù)量相對(duì)較少。本文用到與zcttlcmoycrell 相似的特征集。用vertibi算法解碼模型,需要
25、句子長(zhǎng)度的立方時(shí)間。用earley圖保持所有的 推導(dǎo)與輸入的一致。用極大似然準(zhǔn)則評(píng)估參數(shù)入2用高斯先驗(yàn)來(lái)正則化模型im。由于黃金準(zhǔn)則推 導(dǎo)在訓(xùn)練集中并不適用,故將正確的推導(dǎo)作為隱藏變量。本文用改進(jìn)迭代算法與 em算法來(lái)找到最佳參數(shù)。與全監(jiān)督和比,條件似然對(duì)于參數(shù)x不敏感,em算法 對(duì)于入是敏感的。為了假設(shè)最小可能,wacsp將入初始化為0。em算法需要統(tǒng) 計(jì)對(duì)于句子或者句子mr對(duì)所有可能的推導(dǎo)。然而枚舉所有可能的推導(dǎo)并不是好 的方法,因此本文采用內(nèi)向外向算法來(lái)提高統(tǒng)計(jì)效率u3_。根據(jù)zcttlcmoycr 和collinsell的研究思想,最終的詞典只返回最好的那個(gè)規(guī)則,其他所有規(guī) 則都舍弄。
26、這樣的做法也是viterbi逼近算法,以此來(lái)提高精確度。5 wacsp的實(shí)驗(yàn)結(jié)果與分析ge0query14是語(yǔ)義解析領(lǐng)域著名的評(píng)測(cè)數(shù)據(jù)庫(kù),口前還沒(méi)有屮文語(yǔ)義解析評(píng) 測(cè)數(shù)據(jù)庫(kù),本文的主要工作之一是將此評(píng)測(cè)數(shù)據(jù)庫(kù)人工翻譯為中文,對(duì)于 ge0query的翻譯遵循不改變句子語(yǔ)義的情況下,使用符合中文語(yǔ)法結(jié)構(gòu)的翻譯 原則,由于中文分詞會(huì)影響后續(xù)的解析結(jié)果,因此對(duì)數(shù)據(jù)集中的自然語(yǔ)言句子 進(jìn)行了人工分詞。共包含880個(gè)樣例,807條規(guī)則,13個(gè)非終結(jié)符,query是開(kāi) 始符,含義表示如表1所示。本文在geoquery上用十折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn)。在測(cè)試實(shí)驗(yàn)中本文統(tǒng)計(jì)輸出mrl 翻譯的句子的個(gè)數(shù)。當(dāng)解析器沒(méi)有覆蓋
27、某個(gè)句子的結(jié)構(gòu)時(shí),這個(gè)句子將會(huì)翻譯失 敗。實(shí)驗(yàn)中同樣需要統(tǒng)計(jì)生成正確mrl翻譯的句子的個(gè)數(shù)。如果一個(gè)句子的mrl 翻譯與數(shù)據(jù)集屮的mrl翻譯相同,則認(rèn)為這個(gè)句子的mrl翻譯是正確的。本文采 用精確度precision、召回率recall以及fl-measure作為評(píng)價(jià)標(biāo)準(zhǔn)。表1非終結(jié)符含義說(shuō)明下載原表實(shí)體名非終結(jié)符產(chǎn)生:城市名citynamecityname國(guó)家名country namecountryn<地方名placenameplacenam河流名rivernamerivername -州名縮寫(xiě)stateabbrevstateabb州名statenamestatename-數(shù)量numn
28、ur城市citycity > cityid(cityl國(guó)家countrycountry > count地方placepalce > place河流riverriver > river州statestate > state實(shí)驗(yàn)1改變訓(xùn)練樣例個(gè)數(shù),測(cè)試wacsp的精確度和召回率本實(shí)驗(yàn)的主要目的是在k二0條件下,測(cè)試訓(xùn)練樣例個(gè)數(shù)與wacsp的精確度和召回 率的關(guān)系。木次實(shí)驗(yàn)共分為八組,訓(xùn)練樣例個(gè)數(shù)分別是10、20、40、80、160、 320、640、792o圖6 (a)是wacsp的精確度與訓(xùn)練樣例個(gè)數(shù)的關(guān)系,圖6 (b)是 wacsp的召回率與訓(xùn)練樣例個(gè)數(shù)的關(guān)系。
29、訓(xùn)練樣例個(gè)數(shù)6050403020100圖6 (b)召冋率與訓(xùn)練樣例個(gè)數(shù)的關(guān)系圖下載原圖圖6 (a)表明wacsp的精確度隨著訓(xùn)練樣例個(gè)數(shù)的增加而提高。圖6 (b)表明 wacsp的召回率同樣隨著訓(xùn)練樣例個(gè)數(shù)的增加而提高。實(shí)驗(yàn)表明在訓(xùn)練樣例較大 的情況下wacsp表現(xiàn)岀較好的性能。實(shí)驗(yàn)結(jié)果分析:隨著訓(xùn)練樣例的增加,wacsp 訓(xùn)練得到的詞對(duì)齊模型更準(zhǔn)確而且評(píng)估scfg概率時(shí)誤差更小,所以精確度和召 回率會(huì)有相應(yīng)的提升。實(shí)驗(yàn)2改變k-best值,測(cè)試wacsp的精確度和召回率本實(shí)驗(yàn)的主要目的是在訓(xùn)練樣例個(gè)數(shù)(792句)固定條件下,測(cè)試k-bcst值與 wacsp的精確度和召回率的關(guān)系。進(jìn)而找出精確
30、度和召回率最高的情況下,k的 最小值。木次實(shí)驗(yàn)共分為五組,k取值分別是2、4、6、8、10o圖7 (a)、(b)分別是wacsp的精確度、召冋率與k的關(guān)系。圖7 (a) wacsp的精確度與k的關(guān)系圖 下載原圖246810圖7 (b) wacsp的召冋率與k的關(guān)系 下載原圖圖7 (a)表明在訓(xùn)練樣例為792的條件下,k=6時(shí)wacsp的精確度最高。圖7 (b) 表明在訓(xùn)練樣例為792的條件下,同樣k二6時(shí)wacsp召回率最高。實(shí)驗(yàn)表明,在 訓(xùn)練樣例為792的條件下,最小的k=6,此時(shí)wacsp的精確度和召回率最高。實(shí) 驗(yàn)結(jié)果分析:每個(gè)訓(xùn)練樣例的mrl產(chǎn)牛式平均個(gè)數(shù)是6. 3個(gè),對(duì)于木文的訓(xùn)練樣
31、 例來(lái)說(shuō),可能前六個(gè)詞對(duì)齊是最佳對(duì)齊。因此k二6時(shí)準(zhǔn)確度和召回率是最高的。實(shí)驗(yàn)3改變giza+每個(gè)模型的迭代次數(shù),測(cè)試wacsp的精確度和召回率本實(shí)驗(yàn)的主要目的是在訓(xùn)練樣例(792句)和k (k二10)值固定條件下,測(cè)試 ibm模型迭代次數(shù)與wacsp的精確度和召回率的關(guān)系。表2表明隨著每個(gè)ibm模型迭代次數(shù)的增加,wacsp的精確度和召回率都相應(yīng)地 增加。實(shí)驗(yàn)結(jié)果分析:giza+實(shí)現(xiàn)了 ibm公司提出的5個(gè)模型國(guó)和隱馬爾科夫模 型10,其主要思想是利用em算法對(duì)雙語(yǔ)語(yǔ)料庫(kù)進(jìn)行迭代訓(xùn)練,由句子對(duì)齊得 到詞語(yǔ)對(duì)齊。因此隨著每個(gè)模型迭代訓(xùn)練次數(shù)的增加,得到的詞對(duì)齊模型就越準(zhǔn) 確,wacsp的精確度
32、和召回率也隨之提高。表2 giza+每個(gè)模型的迭代次數(shù)與wacsp精確度和召回率的關(guān)系下載原表m1-3,ml-4,ml-5,ibm模型m2-3,m2-4,m2 = 5,m3 = l,m3 = 2,m3 = 3,m4 = 3,迭代次數(shù)m4 = l,m4 = 2,m5=lm5 = 2m5 = 3精確度/%80.2181.1382.11召回率/%55.5457.2160.306總結(jié)語(yǔ)義解析是生成意義表示并將這些意義表示指派給語(yǔ)言輸入的一種處理週。機(jī) 器翻譯是將一個(gè)源語(yǔ)言句子轉(zhuǎn)化為對(duì)應(yīng)的目標(biāo)語(yǔ)言句子。本文研究并提出了一種 新穎的基于詞對(duì)齊模型的語(yǔ)義解析模型,可將編譯原理和機(jī)器翻譯技術(shù)應(yīng)用到 語(yǔ)義解析領(lǐng)
33、域,即可以用機(jī)器翻譯技術(shù)做語(yǔ)義解析以解決自然語(yǔ)言理解。該方法 用統(tǒng)計(jì)詞對(duì)齊模型來(lái)獲取雙語(yǔ)詞典,解析模型本身可以看作是基于句法的翻譯 模型。本文介紹了使用同步解析技術(shù)的wacsp語(yǔ)義解析的學(xué)習(xí)算法,同步解析已經(jīng)被 廣泛地應(yīng)用在基于句法的統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域中。wacsp與其他基于短語(yǔ)的翻譯模 型相似,這些模型都需要一個(gè)簡(jiǎn)單的詞對(duì)齊模型來(lái)獲取短語(yǔ)詞典。本文對(duì)wacsp 進(jìn)行了大量的評(píng)估實(shí)驗(yàn),實(shí)驗(yàn)表明wacsp有較好的精確度和召回率。參考文獻(xiàn)l ge r, mooney r j a statistical semantic parser that integrates syntax and semant
34、icsc/proceedings of the ninth conference on computational natural laingueigc learning,2005:9-16. lgc r, mooney r j. a statistical semantic parser that integrates syntax and semanticsc/i)toceedings of the ¥inth conference on computationnl ¥aturnl language learning, 2005:9-16.2 李金淼.基于組合范疇文法的
35、中文語(yǔ)義解析d.南京:東南大學(xué),2015. 2李 金淼基于組合范疇文法的中文語(yǔ)義解析d南京:東南大學(xué),2015.3 kate r j, mooney r j.using string-kernels for learning semantic parsersc/proceedings of the 21st international conferenee oncomputational linguistics and the 44th annua丄 mccting of the association for computational linguis ti cs, 2006:913-920
36、. 3katerj, mooney r j .using string-kernels for learning semantic parsers ©/proceedings of the 21st international conference on computational linguistics and the 44th annual meeting of the association for computotiondl linguistics, 2006:913-920.4 kate r j, wong y w, mooney r j. learning to tran
37、sfonn natural to formal languagesc/proceedings of the twentieth national conference on artificial intelligenee (aaai-2005) , pittsburgh, pa,2005:1062t068. 4kate r j, wong y w, mooney r j. learning to transform natural to fooial lainguagcsc/proceedings of the twentieth national conference on artifici
38、al intelligence (aaai-2005) 、 pittsburgh, pa, 2005:1062-1068.5 brown p f, pietra v j d, pie tra sad, et al. the mathematics of statistical machine translation:parometer estimationj computational linguistics, 1993, 19 (2) :263-311. 5brown p f, pictra v j d, pietra s a d, et al.the mathematics of stat
39、istical machine translation:parameter estimation. computational linguistics, 1993, 19 (2) :263-3116 aho a v, ullman j d.properties of syntax directed translations. journal of computer and system sciences, 1969, 3(3) :319-334.6aho a v, ullman j d.properties of syntax directed transittionsj.journal of
40、 computer and system sciences, 1969,3 (3) : 319-334.7 yamada k, knight k. a syntax-based statistical translationmodel ©/proceedings of the 39th annual meeting on association for computeitional linguistics, 2001:523一530. 7yani3d3 k, knight k. a syntax-based statistical transittion modelc/proceed
41、ings of the 39th annual meeting on association for computationnl linguistics, 2001:523-530.8 chiang d. a hierarchical phrase-based model for statistical machine tra nsla tion c/proceed ings of the 43rd annual mee ting on association for computeitional linguistics, 2005:263一270. 8chieing d. a hicrarchiceil phrase-based model for statistical machine ttanslationc/proceedings of the 43rd annual meeting on association for computational linguistics, 2005:263-270.9 allen j. natural language understanclingm 2nd ecl s. 1:pearson, 1995. 9 allen j natural language understandingm
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年中國(guó)畫(huà)板市場(chǎng)調(diào)查研究報(bào)告
- 中國(guó)預(yù)埋銅螺母行業(yè)銷(xiāo)售渠道與經(jīng)營(yíng)規(guī)模調(diào)研研究報(bào)告(2024-2030版)
- 中國(guó)防輻射行業(yè)發(fā)展展望及投資規(guī)劃分析研究報(bào)告(2024-2030版)
- 數(shù)字電路流水燈課程設(shè)計(jì)
- 中國(guó)貼片廣告行業(yè)運(yùn)行趨勢(shì)及未來(lái)前景展望研究報(bào)告(2024-2030版)
- 中國(guó)船用柴油機(jī)市場(chǎng)經(jīng)營(yíng)風(fēng)險(xiǎn)分析及前景競(jìng)爭(zhēng)態(tài)勢(shì)研究報(bào)告(2024-2030版)
- 中國(guó)網(wǎng)絡(luò)檢測(cè)設(shè)備行業(yè)市場(chǎng)深度調(diào)研及發(fā)展前景與投資研究報(bào)告(2024-2030版)
- 中國(guó)移動(dòng)應(yīng)急供電車(chē)行業(yè)銷(xiāo)售渠道及供需現(xiàn)狀研究研究報(bào)告(2024-2030版)
- 中國(guó)石材產(chǎn)業(yè)競(jìng)爭(zhēng)動(dòng)態(tài)及投資盈利分析研究報(bào)告(2024-2030版)
- 中國(guó)皮革飾品行業(yè)供需趨勢(shì)及投資風(fēng)險(xiǎn)研究報(bào)告(2024-2030版)
- 鹽酸-危險(xiǎn)化學(xué)品安全標(biāo)簽
- 二年級(jí)下冊(cè)語(yǔ)文試題 -“詩(shī)詞大會(huì)”題庫(kù)二 (word版有答案) 人教部編版
- 部編版道德與法治三年級(jí)上冊(cè)知識(shí)點(diǎn)
- SB/T 10843-2012金屬組合貨架
- GB/T 4337-2015金屬材料疲勞試驗(yàn)旋轉(zhuǎn)彎曲方法
- GB/T 40120-2021農(nóng)業(yè)灌溉設(shè)備灌溉用熱塑性可折疊軟管技術(shù)規(guī)范和試驗(yàn)方法
- 各專(zhuān)業(yè)試驗(yàn)報(bào)告-nvh m301s1樣車(chē)測(cè)試報(bào)告
- 化工課件-S-Zorb裝置運(yùn)行特點(diǎn)及故障處理
- 頭發(fā)及頭皮知識(shí)講述資料課件
- 兒童年齡分期及各期特點(diǎn) (兒童護(hù)理課件)
- 新版GMP基礎(chǔ)知識(shí)培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論