




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、精品文檔計(jì)算機(jī)輔助翻譯技術(shù)概論押題:1、隱馬爾科夫模型 2、機(jī)器翻譯的方法 3、文本電子化OCR 4、雙語對(duì)齊處理5、漢語切分的方法和關(guān)鍵問題5-20考試一一計(jì)算機(jī)輔助翻譯技術(shù)考試題型:填空、判斷、問答7-8個(gè)考查內(nèi)容:基本概念梳理,理解分析能力,考題思路,課件!1、概論1.1概況為什么要研究翻譯技術(shù)??何謂翻譯技術(shù)(translation technology) ?能夠用來進(jìn)行語言翻譯或輔助進(jìn)行語言翻譯的信息技術(shù)。解決或緩解語言障礙(language barrier)問題,提高翻譯從業(yè)人員的生產(chǎn)率。翻譯技術(shù)的研究始于機(jī)器翻譯 關(guān)于機(jī)器翻譯?機(jī)器翻譯(Machine Translation)定
2、義:利用計(jì)算機(jī)及其軟件把一種語言(自動(dòng))翻譯成為另外一種語言的技術(shù)。?機(jī)器翻譯研究的目標(biāo)是研制具有翻譯能力的計(jì)算機(jī)軟件系統(tǒng)。?機(jī)器翻譯的研究始于 20世紀(jì)40年代末期。?機(jī)器翻譯結(jié)論很困難。翻譯技術(shù)的分流?機(jī)器翻譯(MT):機(jī)器翻譯的主體是機(jī)器。目前比較困難。(目標(biāo)是尋找徹底的解決方案)?計(jì)算機(jī)輔助翻譯(CAT:計(jì)算機(jī)輔助翻譯的主體是人。相對(duì)比較容易,但卻很實(shí)用。?計(jì)算機(jī)輔助翻譯立足為翻譯人員提供(軟件)工具。協(xié)助翻譯人員提高效率(生產(chǎn)率)。名詞辨析CAT - Computer-aided TranslationMAT - Machine-aided(-assisted) Translatio
3、nMAHT - Machine-assisted Human TranslationHAMT - Human-assisted Machine TranslationMT - Machine TranslationFAHQMT - Fully Automatic High Quality MT 關(guān)于翻譯技術(shù)的理解?狹義的理解,翻譯技術(shù)指計(jì)算機(jī)輔助翻譯技術(shù)和機(jī)器翻譯技術(shù)。?廣義的理解,翻譯技術(shù)指的是對(duì)翻譯人員工作有益的任何信息技術(shù)。文字處理工具(MS Word)(不可或缺)國(guó)際互聯(lián)網(wǎng)及其應(yīng)用(WWW、Email.)各種電子資源(百科全書光盤)?本課程的定位:主要是狹義的翻譯技術(shù)。配合翻譯技術(shù)的一
4、些通用技術(shù)(數(shù)據(jù)獲取技術(shù)、文本處理技術(shù))關(guān)于本地化何謂本地化(localization) ?The term “l(fā)ocalization ” refers to the prosusSsnofzing or adapting a product for a targetlanguage and culture.全球化沒有帶來其他語言的消亡,帶來了本地化。本地化的特點(diǎn):量大、時(shí)間緊迫、技術(shù)(應(yīng)用)性強(qiáng)simshipAn abbreviation of “ simultaneous shipmwhtch refers to the practice of releasing multiple la
5、nguage versions of a product at the same time (or at least as close to the same time as is possible).翻譯技術(shù)概觀翻譯技術(shù)體現(xiàn)為一組翻譯工具,是若干軟件工具的集合。翻譯工具可以涵蓋翻譯的不同階段、面向不同的需要。資料的收集原文的理解術(shù)語的處理1.2工具語言材料的電子化工具Data-capture tools使用翻譯技術(shù)的前提:待翻譯的文本需要是電子化的,是計(jì)算機(jī)可以處理的。翻譯過程中所需要的各種資源需要是電子化的。何為機(jī)器可讀(Machine readable)?文字變成編碼形式常見的電子化手段
6、:手工鍵盤輸入(keyboarding)、 Scanning + Optical Character Recognition、 VoiceRecognition文件格式轉(zhuǎn)換工具編碼轉(zhuǎn)換工具多語種處理能力 語料庫分析工具Corpus: a large collection of electronic texts that have been gathered according to specific criteria .Type of corpus:monolingual corpus : orpus which consists of texts in one language.parall
7、el corpus: corpus containing source texts aligned with their translations.語料電子化工具、語料處理工具? Corpus-analysis toolsSoftware that allow users to access and display the information contained within a corpus in a variety of useful ways. Most corpus-analysis tools typically contain a number of useful featur
8、es that allow users to generate and manipulate word frequency lists, concordances, and collocations.(頻率表、關(guān)鍵詞、搭配)? Frequency list?Concordance (bilingual or monolingual)?CollocationCorpus-analysis toolsallow users to have access to frequency data and to see terms in a variety of contexts simultaneousl
9、y - features that dictionaries can not easily provide. Keyword in context (KWIC): a method of displaying concordance lines in which all occurrences of the search word are centered on the screen surrounded by the immediate context直觀認(rèn)識(shí)語料處理工具 漢語切詞(segmentation)詞性標(biāo)注(POS tagging)屈折語形態(tài)還原(lemmatization)句法分
10、析(parsing)雙語對(duì)齊(alignment) 既是語料處理工具通常也是機(jī)器翻譯或機(jī)器輔助翻譯系統(tǒng)的組成部分術(shù)語管理工具翻譯中的術(shù)語一致性問題:term bank, term baseTerminology-management System (TMS): A software application that allows users to create, store, and retrieve term records.Active terminology recognitionTerminology pre-translationTerm extraction (identifica
11、tion)Monolingual or BilingualQuality of term extraction翻譯記憶工具Translation Memory:a type of linguistic database that is used to store and retrieve source texts and their translations.Translation reusePre-translationMatches: Exact match Fuzzy match No matchTM tools and localizationTM CreationTM tool是CA
12、T的核心工具機(jī)器翻譯用作輔助翻譯工具Pre-editing + Machine TranslationMachine Translation + Post-editing其他策略Sublanguagecontrolled language集成翻譯工具? Translator's workbench (workstation) : an integrated system for the use of professional translators, which combines multilingual word-processing, terminology management,
13、 translation memory, and automatic translation.? Workflow management1.3翻譯技術(shù)與計(jì)算語言學(xué)?計(jì)算語言學(xué)是通過建立形式化的計(jì)算模型來分析、理解和處理自然語言的學(xué)科。是一門文理交叉的學(xué)科。(源于翻譯技術(shù)的需求)?翻譯技術(shù)建立在計(jì)算語言學(xué)的基礎(chǔ)之上,翻譯技術(shù)的突破有待于計(jì)算語言學(xué)的發(fā)展。?自然語言2、P2-翻譯技術(shù)的數(shù)學(xué)基礎(chǔ)2.1概率統(tǒng)計(jì)的基本概念 2.1.1隨機(jī)事件隨機(jī)事件:在一定條件下,可能發(fā)生也可能不發(fā)生的事件稱為隨機(jī)事件,簡(jiǎn)稱事件。一般用大寫拉丁字母A,B,C,表示事件。隨機(jī)事件的兩個(gè)特殊情況必然事件:每次試驗(yàn)都必定發(fā)生
14、的事件(W )。不可能事件:每次試驗(yàn)都一定不發(fā)生的事件(F)。2.1.2頻率和概率頻率:如果在相同條件下進(jìn)行了 n次重復(fù)試驗(yàn),事件A岀現(xiàn)了 v次,那么事件A在n次實(shí)驗(yàn)中岀現(xiàn)的頻率為 是 v/n。當(dāng)n無限增大時(shí),頻率呈現(xiàn)穩(wěn)定性。這一統(tǒng)計(jì)規(guī)律性表明事件發(fā)生的可能性大小是事件本身所固有的、不以人們主觀意志而改變的一種客觀屬性。概率:概率:事件A發(fā)生的可能性大小稱為事件的概率,記作P(A)。F(/l)隔一當(dāng)試驗(yàn)的次數(shù)n足夠大,可以用事件的頻率近似地表示該事件的概率,即"概率的基本性質(zhì)櫃舉的基*性廣:0冬刊(2)尺亠尺應(yīng)撚爭(zhēng)件Lh卩新=已干可範(fàn)爭(zhēng)件冃jq(5)若一七皿則應(yīng)存妙.(v'i
15、若.:”:.禹函產(chǎn)寶斥*且-+月汁+-如=乩1鞏.*如 AIlHJX-lJ- .-“d(ALnJ-L 對(duì)任鳶事許月.條件概率條件概率在事件B發(fā)生的條件下,事件 A發(fā)生的概率稱為事件 A在事件B已發(fā)生的條件下的條件概 率,記作P(A|B)。當(dāng)P(B)>0時(shí),規(guī)定:尸(屮)=P(AB)P(B)當(dāng) P(B)=0 時(shí),規(guī)定 P(A|B)=O。乘法公式?jīng)r4二幾尸陽1訊一牡m屮4 Mi 411 a < |&孕2 -右)=嚴(yán)(衛(wèi)丄討止一右)r=i2.1.3獨(dú)立性和貝葉斯公式若事件A和B,滿足條件P(AB)=P(A)P(B則稱事件A和B相互獨(dú)立貝葉斯公式:根據(jù)乘法公式,可以得到下面的重要公
16、式2.1.4隨機(jī)變量隨機(jī)變量:每次試驗(yàn)的結(jié)果可以用一個(gè)實(shí)值變量X的取值來表示,這個(gè)變量稱為隨機(jī)變量。它是隨機(jī)現(xiàn)象的數(shù)量化。離散型隨機(jī)變量 如果隨機(jī)變量X只能取有限個(gè)(或可列個(gè))數(shù)值x1,x2,,xn,,就稱X為離散型隨 機(jī)變量。在語言的統(tǒng)計(jì)處理中,一般僅用到離散型隨機(jī)變量。2.1.5概率質(zhì)量函數(shù)(pmf)設(shè)X是一個(gè)離散型隨機(jī)變量,它所有可能取的值為x1, x2,xn,PX =xk=pk(k = 1,2,n,),則可以用下面的表格來表達(dá)X統(tǒng)計(jì)的規(guī)律:XX:.心唧率地Pn 其中,1 >pk>0且工pk=1,稱表格所表示的函數(shù) 為離散型隨機(jī)變量的分布質(zhì)量函數(shù),記作p(x)。2.1.6隨機(jī)
17、變量的數(shù)字特征一一期望方差標(biāo)準(zhǔn)差數(shù)學(xué)期望:隨機(jī)變量X的數(shù)學(xué)期望E(X)是該變量取值的概率加權(quán)平均。數(shù)學(xué)期望簡(jiǎn)稱期望,描述了隨機(jī)變 量的平均值。若X為離散型隨機(jī)變量,則:E(X) = X1*p(X1)+ X2*p(X2)+ + Xn*p(Xn)i隨機(jī)變量(X - E(X)2的數(shù)學(xué)期望稱為隨機(jī)變量 X的方差,記作D(X)或Var(X)。方差描述了隨機(jī)變量的取值 距離其平均值(即期望值)的分散程度。即D(X)=E(X標(biāo)準(zhǔn)差隨機(jī)變量X的標(biāo)準(zhǔn)差定義為隨機(jī)變量 X的方差的算術(shù)平方根,記作 s (X )。即:O-(X )= Jd(x)2.1.7總體、樣本總體研究對(duì)象的所有可能的觀察結(jié)果稱為總體。樣本從總體中
18、抽取一部分樣品,稱為總體的一個(gè)樣本。數(shù)理統(tǒng)計(jì)方法是通過研究樣本來了解和判斷總體的統(tǒng)計(jì)特性的科學(xué)方法。22信息論的基本概念2.2.1最優(yōu)編碼變長(zhǎng)編碼:給小概率信息賦以較長(zhǎng)的編碼,而給大概率消息賦以較短的編碼。個(gè)長(zhǎng)度為|P-log 2X)1個(gè)二進(jìn)制位的編碼。消息的編碼長(zhǎng)度大,可理解為消息所含信息量大。消息的編碼長(zhǎng)度小,則消息所含信息量小。平均信息量即為發(fā)送一個(gè)消息的平均編碼長(zhǎng)度信息論中用熵描述隨機(jī)變量平均信息量2.2.2 熵(entropy)熵描述了隨機(jī)變量的不確定性。41設(shè)X是収有顒個(gè)慎的園機(jī)變它的分布戰(zhàn)St宙敬為 則.1的埔定義為Hi Xpn tJb百護(hù)I t 惜殊述了陸機(jī)變的平確鋌性&quo
19、t;適議n=2業(yè)吋爛的單位為比特°靖的棊本性噴i. HL詢第號(hào)詭明購毎場(chǎng)(無fiB機(jī)性齊HR戢屮"1/禮1上也世XI*尊號(hào)&團(tuán)蒔糊場(chǎng)的域童丸°2.2.3 互信息(mutual information)互信址矛件心之間的瓦信息定文知J(x.y)=£ pMp(y)互信息岌量?jī)蓚€(gè)耳體事件之間的相關(guān)程度 當(dāng) 7xt/)» 0 時(shí)* xfOi ft度相關(guān)。B當(dāng)/(Xiy)二0時(shí)* 丫和、高度相遼獨(dú)立。時(shí)丫和呈互補(bǔ)分布.-bank"的翻譯.“銀行”還是“河岸”2.2.4噪音信道模型在利用噪聲信道處理語言問題時(shí),人們并不關(guān)心編碼問題,而更多
20、關(guān)心的是,在有噪聲存在的情況下, 何解碼將輸岀還原為信道輸入。隨機(jī)變量X服從概率分布P,如果消息x的分布密度為p(x),則給其分配2.3統(tǒng)計(jì)語言模型簡(jiǎn)介語言建模(Language Modeling)對(duì)于一個(gè)服從某個(gè)未知概率分布P的語言L,根據(jù)給定的語言樣本估計(jì) P的過程被稱作語言建模。3、P3-語言材料電子化工具-文本電子化:手段編碼及格式3.1關(guān)于文本電子化? 定義:文本電子化就是指將文本轉(zhuǎn)換為機(jī)器可讀形式進(jìn)行存儲(chǔ)。.?使用翻譯技術(shù)的前提:仃M):術(shù)A待譯文本需要是電子化的。B、翻譯過程中使用的語言資源需要電子化:語料庫:翻譯記憶庫語資源、詞典資源?文本的機(jī)器可讀形式:計(jì)算機(jī)及其軟件可以讀寫
21、以及處理。如文字編輯。對(duì)于文本而言,字符以適當(dāng)?shù)木幋a形式存儲(chǔ)。如:ASCII碼、GB2312碼、UNICODE碼等。非機(jī)器可讀形式的文本:手寫文稿、打印文稿傳真文稿文稿的數(shù)字照片3.2關(guān)于文字編碼和編碼轉(zhuǎn)換?文字在計(jì)算機(jī)中是以編碼形式表示的?編碼的標(biāo)準(zhǔn)化:英文字符編碼標(biāo)準(zhǔn) ASCII碼西文字符編碼標(biāo)準(zhǔn) ISO8859漢字編碼標(biāo)準(zhǔn) GB18030、BIG-5統(tǒng)一碼 UNICODE?文字的輸入和輸岀文字編碼的處理過程:輸入碼機(jī)內(nèi)碼字形碼除輸入和輸岀外,計(jì)算機(jī)內(nèi)的任何文字處理都是以機(jī)內(nèi)碼形式進(jìn)行的,如編輯、統(tǒng)計(jì)? 關(guān)于編碼的轉(zhuǎn)換從機(jī)器可讀到軟件可讀編碼與軟件對(duì)編碼的支持軟件可能不支持所有編碼,若軟件
22、不支持某文本采用的編碼,會(huì)岀現(xiàn)處理錯(cuò)誤或得不到預(yù)期的處理結(jié) 果。不兼容的編碼之間可以轉(zhuǎn)換:GB <-> BIG-5 GB <-> UNICODE3.3文本的電子化手段KeyboardingScanning+optical CharacterRecognitionVoice Recognition? 掃描(scanning)將硬拷貝文稿經(jīng)掃描儀掃描轉(zhuǎn)換為圖像格式存儲(chǔ),如:*.bmp、*.jpg、*.tif等。圖像存儲(chǔ)格式的特點(diǎn):點(diǎn)陣存儲(chǔ)基本單位是像素(pixel)?光學(xué)字符識(shí)別(OCR):將印刷體或手寫體圖像中的文字辨認(rèn)出來,轉(zhuǎn)換為規(guī)定的編碼格式存儲(chǔ),如:ASCI、GB2
23、312、UNICODE等? OCR的基本過程圖像處理:縮放、旋轉(zhuǎn)、去除污痕,目標(biāo)是提高識(shí)別率版面劃分:區(qū)分文字、表格板塊以及非文字板塊,判別識(shí)別順序,便于按序分別處理文字識(shí)別:根據(jù)特定模型及文字識(shí)別特征,逐行逐字進(jìn)行識(shí)別文字編輯:對(duì)識(shí)別結(jié)果進(jìn)行編輯,糾正錯(cuò)誤3.4關(guān)于文件格式和格式轉(zhuǎn)換?常見的文件格式有:純文本文件(txt文件)Web頁面文件(html文件)Word文檔(doc文件)Portable Document Format (PDF 文檔)Rich Text Format (RTF文 件)純文本文件中只能有文字信息,不能有格式信息、圖表信息輔助翻譯軟件未必支持所有文件格式。許多語料處理
24、工具僅僅支持純文本文件。要注意文檔格式轉(zhuǎn)換常常會(huì)損失信息。例如圖表、格式信息會(huì)丟失或不能很好保持。4、語料處理工具工作原理P4-現(xiàn)代漢語詞語切分技術(shù)?什么是漢語自動(dòng)切分?通過計(jì)算機(jī)把組成漢語文本的字串自動(dòng)轉(zhuǎn)換為詞串的過程被稱為自動(dòng)切分segmentation)英語中的切分問題英語中不是完全沒有切分問題,不能僅僅憑借空格和標(biāo)點(diǎn)符號(hào)解決切分問題。英語中的切分通常被叫做 Tokenization。同漢語相比,英語切分問題較為容易。?為什么要進(jìn)行漢語的切分研究應(yīng)用的要求:語音合成和信息檢索? 漢語自動(dòng)切分的方法基于詞表的方法最大匹配法(MM)(特點(diǎn):長(zhǎng)詞優(yōu)先,算法非常簡(jiǎn)單)1. 正向最大匹配法(MM)
25、:從左向右匹配詞典2. 逆向最大匹配法(RMM):從右向左匹配詞典全切分+ 路徑選擇序列標(biāo)注方法:把切分問題看作給句子中每個(gè)字加標(biāo)記的過程。四個(gè)標(biāo)記:B詞首(2) M詞中(3) E詞尾(4)單獨(dú)成詞S 例如:提/B高/E人/B民/E的/S生/B活/E水/B平/E?自動(dòng)切分的評(píng)價(jià)準(zhǔn)確率(P)=切分結(jié)果中正確分詞數(shù)/切分結(jié)果中所有分詞數(shù)*100%召回率(R)=切分結(jié)果中正確分詞數(shù)/標(biāo)準(zhǔn)答案中所有分詞數(shù)*100%F評(píng)價(jià)(F-measure綜合準(zhǔn)確率和召回率的評(píng)價(jià)指標(biāo) )F-指標(biāo)=2PR/(P+R)?漢語切分的關(guān)鍵問題切分歧義(消解)一個(gè)字串有不止一種切分結(jié)果交集型歧義:從小學(xué)組合型歧義:中將混合型歧
26、義:人才能歧義的分類真歧義:歧義字段在不同的語境中確實(shí)有多種切分形式。偽歧義:歧義字段單獨(dú)拿岀來看有歧義,但在真實(shí)語境中僅有一種切分形式可接受。歧義的發(fā)現(xiàn)歧義消解的前提是發(fā)現(xiàn)歧義。切分算法應(yīng)該有能力檢測(cè)到輸入文本中何時(shí)岀現(xiàn)了歧義切分現(xiàn)象。1雙向最大匹配(MM+RMM):同時(shí)采用MM法和RMM法。如果MM法和RMM法給出同樣的結(jié)果, 則認(rèn)為沒有歧義,若不同,則認(rèn)為發(fā)生了歧義。雙向最大匹配法不能發(fā)現(xiàn)所有的歧義,存在盲點(diǎn)最大匹配法不能發(fā)現(xiàn)組合型歧義(長(zhǎng)詞優(yōu)先)在一定條件下(鏈長(zhǎng)為偶數(shù)),雙向最大匹配法也不能發(fā)現(xiàn)交集型歧義2MM+逆向最小匹配法3全切分算法歧義消解基于統(tǒng)計(jì)的歧義消解:在詞圖上尋找統(tǒng)計(jì)意
27、義上的最佳路徑未登錄詞識(shí)別專有名詞新詞未登錄詞識(shí)別困難未登錄詞沒有明確邊界許多未登錄詞的構(gòu)成單元本身都可以獨(dú)立成詞通常,每一類未登錄詞都要構(gòu)造專門的識(shí)別算法:在序列標(biāo)注法中,未登錄詞無需單獨(dú)處理。識(shí)別依據(jù)-內(nèi)部構(gòu)成規(guī)律(用字規(guī)律)-外部環(huán)境(上下文)P5-詞類的自動(dòng)標(biāo)注什么是詞?是由語素構(gòu)成的、能夠獨(dú)立運(yùn)用的最小的語言單位。?隱馬爾可夫模型(HMM)簡(jiǎn)介簡(jiǎn)介:Hidden Markov Model, HMM)是對(duì)馬爾科夫模型的一種擴(kuò)充。隱馬爾科夫模型的基本理論成形于上世紀(jì)60年代末期和70年代初期。(L.E.Baum)70年代,CMU的JKBaker以及IBM的F.Jelinek等把隱馬爾科夫
28、模型用于語音識(shí)別研究。隱馬爾科夫模型在語言信息處理領(lǐng)域中有著廣泛的應(yīng)用。例如隱馬爾科夫模型在詞類自動(dòng)標(biāo)注中的應(yīng)用。馬爾科夫:一階馬爾科夫模型可以描述為一個(gè)二元組 (S, A ) , S是狀態(tài)的集合,而 A是所有狀態(tài)轉(zhuǎn)移 概率組成的一個(gè)n行n列的矩陣,其中每一個(gè)元素 aij表示從狀態(tài)i轉(zhuǎn)移到狀態(tài)j的概率。在馬爾科 夫模型中,給定了觀察序列,同時(shí)也就確定了狀態(tài)轉(zhuǎn)換序列。隱馬爾科夫:如果給定一個(gè)觀察序列(不同顏色的小球序列),不能直接確定狀態(tài)轉(zhuǎn)換序列(壇子的序列), 因?yàn)闋顟B(tài)轉(zhuǎn)移過程被隱藏起來了。所以這類隨機(jī)過程被稱為隱馬爾科夫過程。隱馬爾可夫過程是一個(gè)雙重隨機(jī)過程,其中一重隨機(jī)過程不能直接觀察到-
29、通過狀態(tài)轉(zhuǎn)移概率表示。另一重隨機(jī)過程輸岀可以觀察到的觀察符號(hào),這由輸岀概率來定義。妙油:可夬模電丄4以表示為-個(gè)五元組(5. S堪一絹狀態(tài)的集合5- L2.3,N(我息丹對(duì)嚴(yán)了町-卩是一組輸岀苻號(hào)紹成的集合。vp i Tj仙璀應(yīng)紅豈小咔】艮是狀態(tài)嘉移矩眼¥廳一¥列注=如砌-= j護(hù)=f)*1三X j乞州丘是輸出符號(hào)的概率分布*B= bj(k) bjik)農(nóng)示在狀態(tài)耐輸山符號(hào)4的慨率怎是初始狀態(tài)概率分布龍一 f叫埼虧=0表示時(shí)刻1選擇某個(gè)狀態(tài)的槪率.隱馬爾科夫模型的三個(gè)問題:給定 HMM I = ( A, B, p ) 給定觀察序列 0 = (o1 02 03oT )如何有效
30、地計(jì)算出觀察序列的概率,即 P(O|l )?(估算問題 )給定 HMM l = ( A, B, p )給定觀察序列 0 =(01 02 03oT )如何尋找一個(gè)狀態(tài)轉(zhuǎn)換序列q = (q1 q2 q3qT ),使得該狀態(tài)轉(zhuǎn)換序列最有可能產(chǎn)生上述觀察序列?(解碼問題 )在模型參數(shù)未知或不準(zhǔn)確的情況下,如何根據(jù)觀察序列0 = ( 01 02 030T )求得模型參數(shù)或調(diào)整模型參數(shù)(學(xué)習(xí)問題 或 訓(xùn)練問題 )估算觀察序列概率對(duì)隱馬爾可夫模型而言,狀態(tài)轉(zhuǎn)換序列是隱藏的,一個(gè)觀察序列可能由任何一種狀態(tài)轉(zhuǎn)換序列產(chǎn)生。因此要計(jì)算一個(gè)觀察序列的概率值,就必須考 慮所有可能的狀態(tài)轉(zhuǎn)換序列。求解最佳狀態(tài)轉(zhuǎn)換序列 隱
31、馬爾可夫模型的第二個(gè)問題是計(jì)算出一個(gè)能最好解釋觀察序列的狀態(tài)轉(zhuǎn)換序列。理論上,可以通過枚舉所有的狀態(tài)轉(zhuǎn)換序列,并對(duì)每一個(gè)狀態(tài)轉(zhuǎn)換序列q計(jì)算P(0, q |l),能使P(0, q |l)取最大值的狀態(tài)轉(zhuǎn)換序列q*就是能最好解釋觀察序列的狀態(tài)轉(zhuǎn)換序列,參數(shù)學(xué)習(xí)隱馬爾科夫模型的前兩個(gè)問題均假設(shè)模型參數(shù)已知,第三個(gè)問題是模型參數(shù)未知,求最佳模型 的問題,是三個(gè)問題中最為困難的問題。在模型(I)未知的情況下,如果給定觀察序列的同時(shí),也給定了狀態(tài)轉(zhuǎn)換序列,此時(shí)可以通過有指導(dǎo)的學(xué)習(xí)方法學(xué)習(xí)模型參數(shù)。例如給定下面的訓(xùn)練數(shù)據(jù),可以通過最大似然估計(jì)法估計(jì)模型參 數(shù)。詞類標(biāo)注的語言學(xué)基礎(chǔ)1 詞的分類依據(jù)形態(tài)標(biāo)準(zhǔn)W0
32、rds that functi0n simiIarIy with respect t0 the affixes they take (their m0rph0I0gicaI pr0perties) are gr0uped int0 cIasses.分布標(biāo)準(zhǔn)W0rds that functi0n simiIarIy with respect t0 what can 0ccur nearby (their “ syntacticdistributi0naI pr0perties ” ) are gr0upinetd0 cIasses.意義標(biāo)準(zhǔn)(X )WhiIe w0rd cIasses d0 ha
33、ve tendencies t0ward semantic c0herence (n0uns d0 in fact 0ften describe “ pe0pIe, pIaces 0rthings ” , and adjectives 0ften describe pr0perties), this is n0tnecessariIy the case, and in generaI we d0n' t use the semca0nhteicrence as a definiti0n criteri0n f0r part-0f-speech.2 英語中詞的分類封閉詞類和開放詞類功能詞
34、類和內(nèi)容詞類3 漢語中詞的分類主要依據(jù) :詞的分布特征或者說語法功能(主要指詞在句法結(jié)構(gòu)里所能占據(jù)的語法 位置。)實(shí)詞和虛詞:從功能上看,實(shí)詞可以充當(dāng)主語、謂語和賓語。虛詞則不可以。從意義上看,實(shí)詞有實(shí)在的意義,表示事物、動(dòng)作、行為、變化、性質(zhì)、狀態(tài)、處所、時(shí)間等。虛詞基本只起語法作用,本身多無實(shí)在意義。從數(shù)量上看,實(shí)詞多為開放類,虛詞多為封閉類。體詞和謂詞:實(shí)詞可分成體詞和謂詞。體詞可以做主語和賓語。謂詞主要做謂語。4兼類問題如果同一個(gè)詞具有不同詞類的語法功能,則認(rèn)為這個(gè)詞兼屬不同的詞類,簡(jiǎn)稱兼類。5英語詞類標(biāo)記集Brown corpus tagsetPenn treebank tagset
35、 UCREL s C5 tagset6漢語詞類標(biāo)記集北京大學(xué)人民日?qǐng)?bào)語料庫詞類標(biāo)記集國(guó)家語委語用所詞類標(biāo)記集詞類標(biāo)注的基本方法1詞類自動(dòng)標(biāo)注判定自然語言句子中的每個(gè)詞的詞類并給每個(gè)詞賦以詞類標(biāo)記。對(duì)于兼類詞,詞類標(biāo)注程序應(yīng)根據(jù)上下文確定兼類詞在句子中最合適的詞類標(biāo)記。(難點(diǎn)所在)詞類自動(dòng)標(biāo)注是深層語言分析的基礎(chǔ)。詞類標(biāo)注程序判定依據(jù):要標(biāo)注的詞的不同詞類的分布,上下文中其它詞的詞類信息2基本方法(基于規(guī)則的、基于統(tǒng)計(jì)的、統(tǒng)計(jì)規(guī)則相結(jié)合的)基于規(guī)則的詞類標(biāo)注早期均為基于規(guī)則方法基于規(guī)則的詞類標(biāo)注程序工作過程1. 查詞典,給句中各詞標(biāo)記所有可能的詞類標(biāo)記。2. 應(yīng)用規(guī)則,逐步刪除錯(cuò)誤的標(biāo)記,最終只
36、留下正確的標(biāo)記?;陔[馬爾科夫模型的詞類標(biāo)注HMMJKXijftu<J 處 iii.lfe «n(17)r可Mt的塚貫極T庁列弒畜轉(zhuǎn)換痔列人予特比禪墜 燈詞類成阿碼旳罔:; 詞塑卄啊現(xiàn)在旬苜的權(quán)舉f" =iif I =皺妙 JJ( nV | R - 11)屮ft i-F基于轉(zhuǎn)換的詞類標(biāo)注特點(diǎn)(兼具規(guī)則和統(tǒng)計(jì)兩個(gè)方面的特性)應(yīng)用規(guī)則進(jìn)行標(biāo)注,規(guī)則稱為轉(zhuǎn)換。規(guī)則不是人工總結(jié),而是應(yīng)用機(jī)器學(xué)習(xí)的辦法學(xué)習(xí)得到。使用的機(jī)器學(xué)方法通常稱作基于轉(zhuǎn)換的學(xué)習(xí)(Transformation-Based Learning or TBL)。什么是一個(gè)轉(zhuǎn)換 (transformation) ?
37、激發(fā)環(huán)境(triggering environment):描述了應(yīng)用該轉(zhuǎn)換需要滿足的條件重寫規(guī)則(rewriting rule):描述了應(yīng)用規(guī)則所要進(jìn)行的動(dòng)作 轉(zhuǎn)換規(guī)則可以視為一種糾錯(cuò)規(guī)則在轉(zhuǎn)換規(guī)則使用前,待標(biāo)注的句子已經(jīng)進(jìn)行過初步標(biāo)注,轉(zhuǎn)換規(guī)則負(fù)責(zé)改正其中的錯(cuò) 誤標(biāo)注激發(fā)環(huán)境:當(dāng)前詞前面一個(gè)詞的詞類是副形詞(ad)重寫規(guī)則:把當(dāng)前詞的詞類從名詞 (n)改作動(dòng)詞(v)未登錄詞視作兼類詞,可能是任何一個(gè)詞類,均勻分布依照出現(xiàn)一次的詞(hapax legomenon)的規(guī)律處理更可能是名詞不大可能是限定詞等將出現(xiàn)一次的詞的分布平均作為未登錄詞的分布對(duì)于英文等語言可以利用形態(tài)特性(詞綴)、拼寫特性判
38、定(首字母大小寫)P6-屈折語的形態(tài)分析?什么是形態(tài)學(xué)(Morphol ogy)?形態(tài)學(xué)研究屈折語中詞的構(gòu)成規(guī)則詞通常由語素(morpheme)組成。語素是語言中最小的意義單位(minimal meaning bearing unit)??偟膩碚f,語素可以分成兩大類1詞根(root):提供詞的主要意義2詞綴(affix):提供詞的各種附加意義(修改詞根義或改變?cè)~的語法功能)1) 前綴(prefix):出現(xiàn)在詞根的前面2) 后綴(suffix):出現(xiàn)在詞根的后面?語素如何構(gòu)成詞?1. 派生(derivation):詞根+詞綴形成的詞通常與原詞根不屬一類,詞義通常與原詞根有聯(lián)系(有時(shí)難以預(yù)料),詞
39、根與詞綴派生的結(jié)果也稱作詞干(stem)。computerize+ation (verb noun)2. 屈折變化(inflection):詞干+詞綴形成的詞通常與原詞干同屬一類,常用來使詞具備數(shù)、時(shí)態(tài)等 功能 cat+s walk+ed walk+ing?英語中的屈折變化不規(guī)則變化的詞數(shù)量有限,但多是常用詞大部分詞的變化屬規(guī)則變化?英語中的派生詞英語中派生現(xiàn)象較為復(fù)雜,僅看幾個(gè)例子動(dòng)詞、形容詞的名詞化 (nominalization):computerize (V) computerization從名詞、動(dòng)詞派生出形容詞clue (N) clueless派生規(guī)則規(guī)律性不如屈折變化規(guī)則、不能隨
40、意派生什么是形態(tài)分析?形態(tài)分析研究如何利用計(jì)算機(jī)把屈折語中的詞分解成語素為什么要進(jìn)行形態(tài)分析?應(yīng)用的要求:信息檢索、TM中的應(yīng)用、深層英語分析的基礎(chǔ)形態(tài)分析的技術(shù)基礎(chǔ)有限狀態(tài)自動(dòng)機(jī)有限狀態(tài)轉(zhuǎn)換機(jī)形式語言有限狀態(tài)自動(dòng)機(jī)和語言構(gòu)建形態(tài)分析器所需要的資源1. 詞典(lexicon):詞干(詞根)和詞綴;詞干(詞根)和詞綴的基本信息2. 形態(tài)知識(shí)(morphotactics):語素間的順序關(guān)系哪一類語素可以和哪一類語素組合(例如:名詞后面可以加一個(gè)復(fù)數(shù)語素 )3. 正字規(guī)則(orthographic rule or spelling rule):兩個(gè)語素組合時(shí)應(yīng)進(jìn)行怎樣的變化(如:把y改寫為i加es)
41、P8-平行文本的自動(dòng)對(duì)齊?什么是平行文本(parall el text) ?雙語語料庫是涉及兩種語言的語料庫,由雙語平行文本組成。多語平行文本由多個(gè)單語文本組成,這些文本之間具有翻譯關(guān)系。雙語平行文本由兩個(gè)單語文本組成,這兩個(gè)單語文本互為譯文。多語平行語料庫又稱作翻譯語料庫(translation corpora) o多語平行語料庫包含原文及其譯文,是機(jī)器(輔助)翻譯等多語信息處理的重要資源。?雙語對(duì)齊處理(Bilingual Alignment)所謂雙語對(duì)齊處理就是在不同語言文本的不同語言單位之間建立對(duì)應(yīng)關(guān)系,也就是確定源語言文本中哪個(gè)(些)語言單位和目標(biāo)語言文本中哪個(gè)(些)語言單位互為翻譯
42、關(guān)系。所謂自動(dòng)雙語對(duì)齊處理指的是通過一定的算法,由計(jì)算機(jī)在雙語文本間建立對(duì)齊關(guān)系。對(duì)齊可以在各種語言單位間進(jìn)行,例如:文本級(jí)、段落級(jí)、句子級(jí)、短語級(jí)、詞匯級(jí)句子級(jí)對(duì)齊是最基本的對(duì)齊(段落對(duì)齊可視為一種特殊的句子的對(duì)齊)o關(guān)鍵問題:機(jī)器不能在理解的基礎(chǔ)上進(jìn)行對(duì)齊、并非嚴(yán)格的一一對(duì)應(yīng)、譯文可能涉及語序的調(diào)整、可能岀現(xiàn)省略不譯的現(xiàn)象、反之譯文中也可能增加原文中沒有的內(nèi)容從句子層級(jí)看,語序不會(huì)劇烈調(diào)整大部分情況是一一對(duì)應(yīng)?句子對(duì)齊的方法句子對(duì)齊的基本方法基于長(zhǎng)度的對(duì)齊方法基于單詞的對(duì)齊方法兩種方法對(duì)齊準(zhǔn)確率都較高,對(duì)一般文本,都在90%以上?;陂L(zhǎng)度的對(duì)齊方法效率優(yōu)于基于單詞的對(duì)齊方法?;趩卧~的對(duì)齊
43、方法:利用單詞的對(duì)應(yīng)關(guān)系,來決定句子的對(duì)齊關(guān)系。 基于長(zhǎng)度的對(duì)齊方法依據(jù):互為翻譯的兩個(gè)句子在長(zhǎng)度上高度相關(guān)?;陂L(zhǎng)度的對(duì)齊方法只利用了文本中句子的長(zhǎng)度信息 待對(duì)齊的兩個(gè)文本不過是兩個(gè)數(shù)字(長(zhǎng)度)序列 長(zhǎng)度對(duì)齊的基本原理:基于長(zhǎng)度對(duì)齊的基本過程可以概括為(1) 枚舉文本間所有可能的對(duì)齊(2) 評(píng)價(jià)每種對(duì)齊模式的合理性(3) 選擇最佳對(duì)齊詞匯信息的引入可利用詞匯對(duì)應(yīng)信息改善基于長(zhǎng)度對(duì)齊的效果錨點(diǎn):雙語文本中有明顯對(duì)應(yīng)關(guān)系的詞匯(數(shù)字、日期、人名、地名)5、翻譯技術(shù)及其原理語料分析(詞頻、搭配和檢索)P7-術(shù)語管理和提?。ù钆浜托g(shù)語自動(dòng)提取)什么是搭配?定義:A COLLOCATION is an
44、 expression consisting of two or more words that correspond to some conventional way of saying things.Within the area of corpus linguistics, COLLOCATION is defined as a pair of words (the 'node' and the 'collocate') which co-occur more often than would be expected by chance.搭配構(gòu)成的一般原則
45、廣義搭配:語法上合法的詞語序列狹義搭配:固定搭配和半固定搭配什么是術(shù)語?terminology is the specialized vocabulary of a field. These terms have specific definitions within the field, which is not necessarily the same as their meaning in common use.常用的搭配提取方法統(tǒng)計(jì)方法與規(guī)則方法常用的統(tǒng)計(jì)方法基于頻率的方法(frequency-based approach)通過統(tǒng)計(jì)兩個(gè)詞(bigram)的共現(xiàn)頻率的方法來發(fā)現(xiàn)并提取搭配
46、。通常最高頻的詞語組合是虛詞的組合??赏ㄟ^詞類組合模式進(jìn)行過濾,剔除高頻的虛詞組合。詞語及其搭配詞未必比鄰出現(xiàn),前述頻率法不能直接應(yīng)用,此時(shí)可以通過定義搭配窗 口的方法進(jìn)行解決,統(tǒng)計(jì)詞語和窗口范圍內(nèi)的其他所有詞的共現(xiàn)頻率。大小為卜5,+5的搭配窗口基于方差的方法(variance-based approach)若w1和w2出現(xiàn)的位置相對(duì)固定,則二者有可能構(gòu)成一個(gè)搭配。計(jì)算w1和w2兩個(gè)詞在語料庫中位置偏移的均值 m。計(jì)算位置偏移的方差s2均值和方差刻畫了兩個(gè)詞之間距離的分布情況。如果兩個(gè)詞的距離的方差較小,則有可能二者構(gòu)成一個(gè)搭配。較小的方差意味著兩個(gè)詞之間的距離相 對(duì)固定。假設(shè)檢驗(yàn)法(hyp
47、othesis testing)采用假設(shè)檢驗(yàn)的方法首先假設(shè)w1w2是在語料庫中是機(jī)會(huì)共現(xiàn)(co-occur by chance),該假設(shè)通常稱為原假設(shè)(null hypothesis)。 基于原假設(shè),利用樣本數(shù)據(jù)進(jìn)行檢驗(yàn),若不能推翻原假設(shè),則w1w2不構(gòu)成搭配,若推翻原假設(shè),則w1w2構(gòu)成搭配,即認(rèn)為備擇假設(shè)成立。若w1w2為機(jī)會(huì)共現(xiàn),則 w1、w2相互獨(dú)立,即 p(w1w2) = p(w1) p(w2)t-檢驗(yàn)法(基本原則是假定樣本數(shù)據(jù)來自均值為m的分布,然后通過對(duì)比樣本均值和預(yù)期的均值m之間的差異,判斷樣本是否來自于所假設(shè)的分布,從而推斷出原假設(shè)是否成立。t-檢驗(yàn)和其他檢驗(yàn)常用來給搭配排序
48、,即t-值越大,w1w2越可能是一個(gè)搭配。)x2檢驗(yàn)法(主要思想是對(duì)比預(yù)期頻率以及觀察頻率,若二者差別較大,則拒絕原假設(shè)。)互信息法(mutual information)一個(gè)事件中所蘊(yùn)含的關(guān)于另外一個(gè)事件的信息量?jī)蓚€(gè)事件之間的關(guān)聯(lián)度若兩個(gè)事件獨(dú)立,則有l(wèi)(x,y)=0若兩個(gè)事件高度依賴,一個(gè)出現(xiàn)必然意味著另外一個(gè)事件出現(xiàn)?;バ畔?duì)于兩個(gè)事件是否獨(dú)立可以給出較好的判別?;バ畔⒅到咏?兩個(gè)事件相互獨(dú)立.但對(duì)于兩個(gè)事件互相依賴,僅依靠互信息值有缺陷?;バ畔⒅蹬c事件的頻率有關(guān)低頻率事件有可能獲得較高的互信息值,因而對(duì)于稀疏數(shù)據(jù),互信息結(jié)果未必可靠領(lǐng)域性處理停用詞(stop list)領(lǐng)域無關(guān)詞匯在任
49、何領(lǐng)域都以相同的規(guī)律出現(xiàn)翻譯記憶技術(shù)P9-機(jī)器翻譯的原理和方法?什么是機(jī)器翻譯及其研究目標(biāo)研制岀能把一種自然語言(源語言)的文本翻譯為另外一種自然語言(目標(biāo)語言)的文本的計(jì)算機(jī)軟. 件系統(tǒng)。全自動(dòng)高質(zhì)量的機(jī)器翻譯系統(tǒng) (FAHQMT)仍將是人類一個(gè)遙遠(yuǎn)的夢(mèng)。?機(jī)器翻譯的基本方法1基于規(guī)則的機(jī)器翻譯方法(傳統(tǒng)的機(jī)器翻譯方法)直接翻譯法(逐詞進(jìn)行翻譯,無需對(duì)源語言文本進(jìn)行分析,對(duì)翻譯過程的認(rèn)識(shí)過于簡(jiǎn)化)中間語言法一種中間表達(dá),通常是一種句法 -語義表達(dá),中間語言獨(dú)立于任何具體的自然語言。源文本經(jīng)過深層分析得到源語言的中間語言表示。再由該中間表示生成目標(biāo)語文本。翻譯過程為兩個(gè)階段。2n中間語言法在理
50、論上非常經(jīng)濟(jì),可有效減少翻譯模塊的數(shù)量??砂裯(n-1)個(gè)直接翻譯模塊減少為個(gè)翻譯模塊。(目前沒有特別成功的基于中間語言的機(jī)器翻譯系統(tǒng)。)轉(zhuǎn)換法分析源語言文本,得到其源語言內(nèi)部表達(dá)將源語言內(nèi)部表達(dá)轉(zhuǎn)換成目標(biāo)語內(nèi)部表達(dá)根據(jù)目標(biāo)語內(nèi)部表達(dá)生成目標(biāo)語文本翻譯過程分成三個(gè)階段(商業(yè)上最為成功的方法,目前絕大部分商品化機(jī)器翻譯系統(tǒng)采用轉(zhuǎn)換式機(jī)器 翻譯方法。)規(guī)則系統(tǒng)中的知識(shí)表示開發(fā)一個(gè)基于規(guī)則的機(jī)器翻譯系統(tǒng),首先要設(shè)計(jì)一個(gè)知識(shí)表示系統(tǒng),將翻譯過程中所有需要的知識(shí)以 計(jì)算機(jī)可以操作的形式表述岀來。一般而言,翻譯過程往往需要下述一些知識(shí)的支撐:(1)源語言知識(shí)。系統(tǒng)利用源語言知識(shí)分析源語言句子,得到源語言句子的結(jié)構(gòu)和意義。(2)目標(biāo)語言知識(shí)。系
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 坡屋面砼施工方案
- 蚌埠網(wǎng)球場(chǎng)圍欄施工方案
- 團(tuán)委競(jìng)選發(fā)言稿
- 坡面植草防護(hù)施工方案
- 醫(yī)院交流發(fā)言稿
- 重陽節(jié) 發(fā)言稿
- 道路交通安全發(fā)言稿
- 家長(zhǎng)會(huì)中班教師發(fā)言稿
- 老師開家長(zhǎng)會(huì)發(fā)言稿
- 學(xué)生聚會(huì)的發(fā)言稿
- 2024年2型糖尿病中醫(yī)防治指南解讀課件
- 2024年遼寧省中考物理試題
- 2024年南京信息職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫附答案
- VDA6.3-2023過程審核檢查表
- 2024年湖南電氣職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫含答案
- 2024-汽車噴漆外包協(xié)議
- 大班語言活動(dòng):我驕傲-我是中國(guó)娃
- CJJ 82-2012 園林綠化工程施工及驗(yàn)收規(guī)范
- 數(shù)據(jù)庫原理及應(yīng)用(第3版)
- 預(yù)防流感健康知識(shí)講座總結(jié)
- 國(guó)際標(biāo)準(zhǔn)《風(fēng)險(xiǎn)管理指南》(ISO31000)的中文版
評(píng)論
0/150
提交評(píng)論