版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
中科院自動(dòng)化所評(píng)測(cè)技術(shù)報(bào)告(SYSTEMII)魏瑋于東王韋華宗成慶徐波內(nèi)容概要要技術(shù)說明明與參評(píng)評(píng)系統(tǒng)短語系統(tǒng)統(tǒng)分層短語語系統(tǒng)基于依存存樹到串串系統(tǒng)前后處理理系統(tǒng)融合合CASIA_SYSTEMII英中翻譯譯系統(tǒng)評(píng)測(cè)環(huán)境境概要數(shù)據(jù)總結(jié)中國科學(xué)學(xué)院自動(dòng)動(dòng)化所InstituteofAutomation,ChineseAcademyofSciences技術(shù)說明明-短語系統(tǒng)統(tǒng)典型的短短語系統(tǒng)統(tǒng)[2]非單調(diào)解解碼,任任意跳轉(zhuǎn)轉(zhuǎn)對(duì)數(shù)線性性模型10個(gè)特征雙向短語語翻譯概概率p(e//f)和p(f//e)雙向詞匯匯化概率率l(e//f)和l(f//e)4gram語言模型型扭曲概率率句子長度度懲罰短語懲罰罰方向概率率[3]IBM扭曲模型型[4]中國科學(xué)學(xué)院自動(dòng)動(dòng)化所InstituteofAutomation,ChineseAcademyofSciences技術(shù)說明明-分層短語語系統(tǒng)主要借鑒鑒了Wei[[5]的基本思思想,引引入分層層短語的的概念有效地結(jié)結(jié)合了短短語模型型和同步步上下文文無關(guān)文文法分層短語語模型將將語序信信息包含含在模型型之中,,克服了了傳統(tǒng)短短語翻譯譯的調(diào)序序問題沿用了統(tǒng)統(tǒng)計(jì)線性性對(duì)數(shù)方方法進(jìn)行行概率計(jì)計(jì)算,使使用了如如下6個(gè)特征::雙向短語語翻譯概概率p(e//f)和p(f//e)雙向詞匯匯化概率率l(e//f)和l(f//e)4gram語言模型型句子長度度懲罰中國科學(xué)學(xué)院自動(dòng)動(dòng)化所InstituteofAutomation,ChineseAcademyofSciences技術(shù)說明明-依存樹到到串系統(tǒng)統(tǒng)在源語言言端運(yùn)用用依存結(jié)結(jié)構(gòu)進(jìn)行行統(tǒng)計(jì)翻翻譯的新新模型::Dependency-StringStructureModel((DSS模型)由于計(jì)算算資源和和時(shí)間的的限制,,參加本本次評(píng)測(cè)測(cè)的系統(tǒng)統(tǒng)仍然沿沿用和分分層短語語相同的的文法DSS解碼算法法的輸入入是一棵棵樹,而而不是一一個(gè)串,,所以線線圖是按按照樹節(jié)節(jié)點(diǎn)來索索引的,,而不是是按照串串中的跨跨距(span)來建立索索引的解碼時(shí)使使用了8個(gè)特征,,最后兩兩個(gè)為依依存子樹樹的懲罰罰雙向短語語翻譯概概率p(e//f)和p(f//e)雙向詞匯匯化概率率l(e//f)和l(f//e)4gram語言模型型句子長度度懲罰符合依存存子樹懲懲罰不符合依依存子樹樹懲罰中國科學(xué)學(xué)院自動(dòng)動(dòng)化所InstituteofAutomation,ChineseAcademyofSciences技術(shù)說明明-前后處理理前處理時(shí)間,數(shù)數(shù)字處理理模塊地名,人人名,機(jī)機(jī)構(gòu)名處處理模塊塊英文轉(zhuǎn)化化為小寫寫預(yù)處理亂碼過濾濾(中文文中的亂亂碼、英英文中的的亂碼以以及包含含中文詞詞的句子子)標(biāo)點(diǎn)符號(hào)號(hào)及數(shù)字字變換((中文中中的部分分標(biāo)點(diǎn)符符號(hào)、英英文中的的雙字節(jié)節(jié)符號(hào)及及數(shù)字))英文縮寫寫處理中文分詞詞、英文文Tokenization后處理大小寫轉(zhuǎn)轉(zhuǎn)換:未未翻譯詞詞保留其其原始格格式格式轉(zhuǎn)換換:去除除中文中中的空格格未登錄詞詞中國科學(xué)學(xué)院自動(dòng)動(dòng)化所InstituteofAutomation,ChineseAcademyofSciences技術(shù)說明明-系統(tǒng)融合合[6][[7]中國科學(xué)學(xué)院自動(dòng)動(dòng)化所InstituteofAutomation,ChineseAcademyofSciences技術(shù)說明明-外部技術(shù)術(shù)漢語分詞詞工具::計(jì)算所所開發(fā)的的ICTCLAS3.0雙語詞對(duì)對(duì)齊工具具:GIZA++語言模型型訓(xùn)練工工具:SRILM工具包英文詞性性標(biāo)注工工具:StanfordLog--linearPart--Of--SpeechTagger英文依存存樹分析析工具::Minimum-SpanningTreeParser(MSTparser)中國科學(xué)學(xué)院自動(dòng)動(dòng)化所InstituteofAutomation,ChineseAcademyofSciences參評(píng)系統(tǒng)統(tǒng)-CASIA__SYSTEMII中國科學(xué)學(xué)院自動(dòng)動(dòng)化所InstituteofAutomation,ChineseAcademyofSciences評(píng)測(cè)環(huán)境境概要軟硬件環(huán)環(huán)境運(yùn)行時(shí)間間(約4000句測(cè)試集集)運(yùn)行平臺(tái)操作系統(tǒng)數(shù)量CPURAMPC機(jī)Windows20032Pentium4,3.0G2.0G服務(wù)器Linux(Ubuntu)1Xeon2.0×216.0G系統(tǒng)新聞?lì)I(lǐng)域(小時(shí))科技領(lǐng)域(小時(shí))短語系統(tǒng)16分層短語2018依存樹到串1816中國科學(xué)學(xué)院自動(dòng)動(dòng)化所InstituteofAutomation,ChineseAcademyofSciences數(shù)據(jù)開發(fā)數(shù)據(jù)據(jù):新聞-2007SSMT英中翻譯譯測(cè)試集集科技-CWMT08提供的Special語料中隨隨機(jī)挑選選200句翻譯模型型訓(xùn)練數(shù)數(shù)據(jù):新聞-CWMT08提供的Common,約85萬句對(duì)和和;NISTMT08評(píng)測(cè)提供供語料,,大約670萬句對(duì)科技-CWMT08提供的Special部分語料料,約52萬句對(duì);;NISTMT08評(píng)測(cè)提供供語料,,大約670萬句對(duì)語言模型型訓(xùn)練數(shù)數(shù)據(jù):LDC2007T38提供的ChineseGigawordThirdEdition,約3900萬句中國科學(xué)學(xué)院自動(dòng)動(dòng)化所InstituteofAutomation,ChineseAcademyofSciences數(shù)據(jù)過濾濾過濾的原原則:根根據(jù)LDC語料中的的當(dāng)前句句對(duì)中的的所有詞詞匯是否否在發(fā)布布的訓(xùn)練練語料詞詞匯集合合中(周玉)新聞?lì)I(lǐng)域域?qū)IST語料根據(jù)據(jù)新聞任任務(wù)發(fā)布布的訓(xùn)練練語料進(jìn)進(jìn)行過濾濾翻譯模型型最后使使用的語語料為538萬句對(duì)科技領(lǐng)域域?qū)IST語料根據(jù)據(jù)科技任任務(wù)發(fā)布布的訓(xùn)練練語料進(jìn)進(jìn)行過濾濾的翻譯模型型最后使使用的語語料為468萬句對(duì)語言模型型也同樣樣使用了了過濾技技術(shù),最后過濾濾剩余1000萬句中國科學(xué)學(xué)院自動(dòng)動(dòng)化所InstituteofAutomation,ChineseAcademyofSciences測(cè)試結(jié)果果新聞?lì)I(lǐng)域域采用基于于MBR解碼和混混淆網(wǎng)絡(luò)絡(luò)解碼的的多系統(tǒng)統(tǒng)融合策策略,融融合6個(gè)結(jié)果3個(gè)來自于于基于分分層短語語的翻譯譯系統(tǒng)(HPB)3個(gè)來自于于基于依依存樹到到串的翻翻譯系統(tǒng)統(tǒng)(DHPB)中國科學(xué)學(xué)院自動(dòng)動(dòng)化所InstituteofAutomation,ChineseAcademyofSciences測(cè)試結(jié)果果科技領(lǐng)域域采用基于于MBR解碼和混混淆網(wǎng)絡(luò)絡(luò)解碼的的多系統(tǒng)統(tǒng)融合策策略,融融合6個(gè)結(jié)果2個(gè)來自于于基于分分層短語語的翻譯譯系統(tǒng)(HPB)2個(gè)來自于于基于依依存樹到到串的翻翻譯系統(tǒng)統(tǒng)(DHPB)2個(gè)來自于于基于短短語的系系統(tǒng)(PB))中國科學(xué)學(xué)院自動(dòng)動(dòng)化所InstituteofAutomation,ChineseAcademyofSciences總結(jié)新聞?lì)I(lǐng)域域借鑒了漢漢英評(píng)測(cè)測(cè)的經(jīng)驗(yàn)驗(yàn),加入入了英文文命名實(shí)實(shí)體翻譯譯及前后后處理模模塊;并且針對(duì)對(duì)英文的的特點(diǎn),,在解碼碼中融入入句法分分析樹,,在不增增加時(shí)空空復(fù)雜度度的前提提下提高高了翻譯譯質(zhì)量科技領(lǐng)域域由于缺乏乏這方面面的語料料資源,,我們只只能借用用新聞?lì)I(lǐng)領(lǐng)域的語語料,利利用數(shù)據(jù)據(jù)過濾技技術(shù)得到到相關(guān)資資源但由于在在選取開開發(fā)集時(shí)時(shí),其規(guī)規(guī)模和相相關(guān)性受受到制約約,所以以最后的的參數(shù)訓(xùn)訓(xùn)練并不不能有效效得收斂斂到最優(yōu)優(yōu)如何能夠夠充分利利用有限限的資源源,開發(fā)發(fā)出更加加魯棒的的訓(xùn)練及及解碼算算法,是是我們下下一步要要思考的的問題中國科學(xué)學(xué)院自動(dòng)動(dòng)化所InstituteofAutomation,ChineseAcademyofSciences參考文獻(xiàn)獻(xiàn)[1]中科院自自動(dòng)化所所評(píng)測(cè)技技術(shù)報(bào)告告(SYSTEMII),第四屆屆機(jī)器翻翻譯研討討會(huì),2008[2]WeiWei,WeiPang,,ZhendongYang,,ZhenbiaoChen,,ChengqingZong,BoXu.CASIASMTSystemforTC-STAREvaluationCampaign2006.In::TC-STARworkshop,,2006..[3]YaserAl--Onaizan,KishorePapineni.Proceedingsofthe21stInternationalConferenceonComputationalLinguisticsandthe44thannualmeetingoftheACLACL'06[4]PhilippKoehn,,etal.EdinburghSystemDescriptionforthe2005IWSLTSpeechTranslationEvaluation,InternationalWorkshoponSpokenLanguageTranslation2005.[5]魏瑋,杜杜金華,,徐波,,基于組組塊分析析的分層層短語系系統(tǒng),第第九屆計(jì)計(jì)算語言言學(xué)年會(huì)會(huì),2007[6]K..C.Sim,W..Byrne,M.Gales,H.SahbiandP.Woodland..ConsensusNetw
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年制動(dòng)帶項(xiàng)目可行性研究報(bào)告
- 別墅房屋轉(zhuǎn)讓合同范本
- 產(chǎn)品訂購合同范本模板
- 凈化工程合同范本
- 企業(yè)食堂經(jīng)營合同范本
- 如何推動(dòng)專家型校長的成長
- 農(nóng)村屋瓦收購合同范本
- 買汽車有合同范本
- 使用權(quán)銷售合同范例
- 2025年度智能農(nóng)業(yè)管理系統(tǒng)開發(fā)與應(yīng)用合同
- 2025-2030年中國融雪劑行業(yè)運(yùn)行動(dòng)態(tài)及發(fā)展前景預(yù)測(cè)報(bào)告
- DB31∕T 1043-2017 暴雨強(qiáng)度公式與設(shè)計(jì)雨型標(biāo)準(zhǔn)
- 多學(xué)科視域中的歷史動(dòng)物研究綜述
- 知名企業(yè)建筑工程抹灰工程標(biāo)準(zhǔn)規(guī)范圖示手冊(cè)
- 診所信息保密和安全管理制度
- 重大事故隱患排查治理
- 部編版語文一年級(jí)下冊(cè)第一單元教材解讀
- 護(hù)士臨床護(hù)理組長
- 2025保安部年度工作計(jì)劃
- 寵物貓護(hù)理教學(xué)
- 2024年江蘇經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測(cè)試題庫
評(píng)論
0/150
提交評(píng)論