計(jì)算機(jī)輔助翻譯技術(shù)Review復(fù)習(xí)課程

上傳人：y*** IP屬地：天津上傳時(shí)間：2021-12-18 格式：DOCX 頁數(shù)：21 大?。?5.60KB 積分：25 舉報(bào) 版權(quán)申訴

計(jì)算機(jī)輔助翻譯技術(shù)Review復(fù)習(xí)課程_第2頁

計(jì)算機(jī)輔助翻譯技術(shù)Review復(fù)習(xí)課程_第3頁

計(jì)算機(jī)輔助翻譯技術(shù)Review復(fù)習(xí)課程_第4頁

計(jì)算機(jī)輔助翻譯技術(shù)Review復(fù)習(xí)課程_第5頁

已閱讀5頁，還剩16頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精品文檔計(jì)算機(jī)輔助翻譯技術(shù)概論押題：1、隱馬爾科夫模型 2、機(jī)器翻譯的方法 3、文本電子化OCR 4、雙語對(duì)齊處理5、漢語切分的方法和關(guān)鍵問題5-20考試一一計(jì)算機(jī)輔助翻譯技術(shù)考試題型：填空、判斷、問答7-8個(gè)考查內(nèi)容：基本概念梳理，理解分析能力，考題思路，課件！1、概論1.1概況為什么要研究翻譯技術(shù)？?何謂翻譯技術(shù)（translation technology） ?能夠用來進(jìn)行語言翻譯或輔助進(jìn)行語言翻譯的信息技術(shù)。解決或緩解語言障礙（language barrier）問題，提高翻譯從業(yè)人員的生產(chǎn)率。翻譯技術(shù)的研究始于機(jī)器翻譯關(guān)于機(jī)器翻譯?機(jī)器翻譯（Machine Translation）定

2、義：利用計(jì)算機(jī)及其軟件把一種語言（自動(dòng)）翻譯成為另外一種語言的技術(shù)。?機(jī)器翻譯研究的目標(biāo)是研制具有翻譯能力的計(jì)算機(jī)軟件系統(tǒng)。?機(jī)器翻譯的研究始于 20世紀(jì)40年代末期。?機(jī)器翻譯結(jié)論很困難。翻譯技術(shù)的分流?機(jī)器翻譯（MT）:機(jī)器翻譯的主體是機(jī)器。目前比較困難。（目標(biāo)是尋找徹底的解決方案）?計(jì)算機(jī)輔助翻譯（CAT：計(jì)算機(jī)輔助翻譯的主體是人。相對(duì)比較容易，但卻很實(shí)用。?計(jì)算機(jī)輔助翻譯立足為翻譯人員提供（軟件）工具。協(xié)助翻譯人員提高效率（生產(chǎn)率）。名詞辨析CAT - Computer-aided TranslationMAT - Machine-aided(-assisted) Translatio

3、nMAHT - Machine-assisted Human TranslationHAMT - Human-assisted Machine TranslationMT - Machine TranslationFAHQMT - Fully Automatic High Quality MT 關(guān)于翻譯技術(shù)的理解?狹義的理解，翻譯技術(shù)指計(jì)算機(jī)輔助翻譯技術(shù)和機(jī)器翻譯技術(shù)。?廣義的理解，翻譯技術(shù)指的是對(duì)翻譯人員工作有益的任何信息技術(shù)。文字處理工具(MS Word)(不可或缺)國(guó)際互聯(lián)網(wǎng)及其應(yīng)用(WWW、Email.)各種電子資源(百科全書光盤)?本課程的定位：主要是狹義的翻譯技術(shù)。配合翻譯技術(shù)的一

4、些通用技術(shù)(數(shù)據(jù)獲取技術(shù)、文本處理技術(shù))關(guān)于本地化何謂本地化(localization) ？The term “l(fā)ocalization ” refers to the prosusSsnofzing or adapting a product for a targetlanguage and culture.全球化沒有帶來其他語言的消亡，帶來了本地化。本地化的特點(diǎn)：量大、時(shí)間緊迫、技術(shù)(應(yīng)用)性強(qiáng)simshipAn abbreviation of “ simultaneous shipmwhtch refers to the practice of releasing multiple la

5、nguage versions of a product at the same time (or at least as close to the same time as is possible).翻譯技術(shù)概觀翻譯技術(shù)體現(xiàn)為一組翻譯工具，是若干軟件工具的集合。翻譯工具可以涵蓋翻譯的不同階段、面向不同的需要。資料的收集原文的理解術(shù)語的處理1.2工具語言材料的電子化工具Data-capture tools使用翻譯技術(shù)的前提：待翻譯的文本需要是電子化的，是計(jì)算機(jī)可以處理的。翻譯過程中所需要的各種資源需要是電子化的。何為機(jī)器可讀(Machine readable)?文字變成編碼形式常見的電子化手段

6、：手工鍵盤輸入(keyboarding)、 Scanning + Optical Character Recognition、 VoiceRecognition文件格式轉(zhuǎn)換工具編碼轉(zhuǎn)換工具多語種處理能力語料庫分析工具Corpus： a large collection of electronic texts that have been gathered according to specific criteria .Type of corpus：monolingual corpus : orpus which consists of texts in one language.parall

7、el corpus: corpus containing source texts aligned with their translations.語料電子化工具、語料處理工具? Corpus-analysis toolsSoftware that allow users to access and display the information contained within a corpus in a variety of useful ways. Most corpus-analysis tools typically contain a number of useful featur

8、es that allow users to generate and manipulate word frequency lists, concordances, and collocations.(頻率表、關(guān)鍵詞、搭配)? Frequency list?Concordance (bilingual or monolingual)?CollocationCorpus-analysis toolsallow users to have access to frequency data and to see terms in a variety of contexts simultaneousl

9、y - features that dictionaries can not easily provide. Keyword in context (KWIC): a method of displaying concordance lines in which all occurrences of the search word are centered on the screen surrounded by the immediate context直觀認(rèn)識(shí)語料處理工具漢語切詞(segmentation)詞性標(biāo)注(POS tagging)屈折語形態(tài)還原(lemmatization)句法分

10、析(parsing)雙語對(duì)齊(alignment) 既是語料處理工具通常也是機(jī)器翻譯或機(jī)器輔助翻譯系統(tǒng)的組成部分術(shù)語管理工具翻譯中的術(shù)語一致性問題：term bank, term baseTerminology-management System (TMS): A software application that allows users to create, store, and retrieve term records.Active terminology recognitionTerminology pre-translationTerm extraction (identifica

11、tion)Monolingual or BilingualQuality of term extraction翻譯記憶工具Translation Memory:a type of linguistic database that is used to store and retrieve source texts and their translations.Translation reusePre-translationMatches: Exact match Fuzzy match No matchTM tools and localizationTM CreationTM tool是CA

12、T的核心工具機(jī)器翻譯用作輔助翻譯工具Pre-editing + Machine TranslationMachine Translation + Post-editing其他策略Sublanguagecontrolled language集成翻譯工具? Translator's workbench (workstation) : an integrated system for the use of professional translators, which combines multilingual word-processing, terminology management,

13、 translation memory, and automatic translation.? Workflow management1.3翻譯技術(shù)與計(jì)算語言學(xué)?計(jì)算語言學(xué)是通過建立形式化的計(jì)算模型來分析、理解和處理自然語言的學(xué)科。是一門文理交叉的學(xué)科。(源于翻譯技術(shù)的需求)?翻譯技術(shù)建立在計(jì)算語言學(xué)的基礎(chǔ)之上，翻譯技術(shù)的突破有待于計(jì)算語言學(xué)的發(fā)展。?自然語言2、P2-翻譯技術(shù)的數(shù)學(xué)基礎(chǔ)2.1概率統(tǒng)計(jì)的基本概念 2.1.1隨機(jī)事件隨機(jī)事件：在一定條件下，可能發(fā)生也可能不發(fā)生的事件稱為隨機(jī)事件，簡(jiǎn)稱事件。一般用大寫拉丁字母A,B,C,表示事件。隨機(jī)事件的兩個(gè)特殊情況必然事件：每次試驗(yàn)都必定發(fā)生

14、的事件（W ）。不可能事件：每次試驗(yàn)都一定不發(fā)生的事件（F）。2.1.2頻率和概率頻率：如果在相同條件下進(jìn)行了 n次重復(fù)試驗(yàn)，事件A岀現(xiàn)了 v次，那么事件A在n次實(shí)驗(yàn)中岀現(xiàn)的頻率為是 v/n。當(dāng)n無限增大時(shí)，頻率呈現(xiàn)穩(wěn)定性。這一統(tǒng)計(jì)規(guī)律性表明事件發(fā)生的可能性大小是事件本身所固有的、不以人們主觀意志而改變的一種客觀屬性。概率：概率:事件A發(fā)生的可能性大小稱為事件的概率，記作P(A)。F(/l)隔一當(dāng)試驗(yàn)的次數(shù)n足夠大，可以用事件的頻率近似地表示該事件的概率，即"概率的基本性質(zhì)櫃舉的基*性廣：0冬刊(2)尺亠尺應(yīng)撚爭(zhēng)件Lh卩新=已干可範(fàn)爭(zhēng)件冃jq(5)若一七皿則應(yīng)存妙.(v'i

15、若.：”：.禹函產(chǎn)寶斥*且-+月汁+-如=乩1鞏.*如 AIlHJX-lJ- .-“d(ALnJ-L 對(duì)任鳶事許月.條件概率條件概率在事件B發(fā)生的條件下，事件 A發(fā)生的概率稱為事件 A在事件B已發(fā)生的條件下的條件概率，記作P(A|B)。當(dāng)P(B)>0時(shí)，規(guī)定:尸(屮)=P(AB)P(B)當(dāng) P(B)=0 時(shí)，規(guī)定 P(A|B)=O。乘法公式?jīng)r4二幾尸陽1訊一牡m屮4 Mi 411 a < |&孕2 -右)=嚴(yán)(衛(wèi)丄討止一右)r=i2.1.3獨(dú)立性和貝葉斯公式若事件A和B,滿足條件P(AB)=P(A)P(B則稱事件A和B相互獨(dú)立貝葉斯公式：根據(jù)乘法公式，可以得到下面的重要公

16、式2.1.4隨機(jī)變量隨機(jī)變量：每次試驗(yàn)的結(jié)果可以用一個(gè)實(shí)值變量X的取值來表示，這個(gè)變量稱為隨機(jī)變量。它是隨機(jī)現(xiàn)象的數(shù)量化。離散型隨機(jī)變量如果隨機(jī)變量X只能取有限個(gè)(或可列個(gè))數(shù)值x1，x2,，xn,，就稱X為離散型隨機(jī)變量。在語言的統(tǒng)計(jì)處理中，一般僅用到離散型隨機(jī)變量。2.1.5概率質(zhì)量函數(shù)(pmf)設(shè)X是一個(gè)離散型隨機(jī)變量，它所有可能取的值為x1, x2,xn,PX =xk=pk(k = 1,2,n,)，則可以用下面的表格來表達(dá)X統(tǒng)計(jì)的規(guī)律：XX：.心唧率地Pn 其中，1 >pk>0且工pk=1，稱表格所表示的函數(shù) 為離散型隨機(jī)變量的分布質(zhì)量函數(shù)，記作p(x)。2.1.6隨機(jī)

17、變量的數(shù)字特征一一期望方差標(biāo)準(zhǔn)差數(shù)學(xué)期望：隨機(jī)變量X的數(shù)學(xué)期望E(X)是該變量取值的概率加權(quán)平均。數(shù)學(xué)期望簡(jiǎn)稱期望，描述了隨機(jī)變量的平均值。若X為離散型隨機(jī)變量，則：E(X) = X1*p(X1)+ X2*p(X2)+ + Xn*p(Xn)i隨機(jī)變量(X - E(X)2的數(shù)學(xué)期望稱為隨機(jī)變量 X的方差，記作D(X)或Var(X)。方差描述了隨機(jī)變量的取值距離其平均值(即期望值)的分散程度。即D(X)=E(X標(biāo)準(zhǔn)差隨機(jī)變量X的標(biāo)準(zhǔn)差定義為隨機(jī)變量 X的方差的算術(shù)平方根，記作 s (X )。即：O-(X )= Jd(x)2.1.7總體、樣本總體研究對(duì)象的所有可能的觀察結(jié)果稱為總體。樣本從總體中

18、抽取一部分樣品，稱為總體的一個(gè)樣本。數(shù)理統(tǒng)計(jì)方法是通過研究樣本來了解和判斷總體的統(tǒng)計(jì)特性的科學(xué)方法。22信息論的基本概念2.2.1最優(yōu)編碼變長(zhǎng)編碼：給小概率信息賦以較長(zhǎng)的編碼，而給大概率消息賦以較短的編碼。個(gè)長(zhǎng)度為|P-log 2X)1個(gè)二進(jìn)制位的編碼。消息的編碼長(zhǎng)度大，可理解為消息所含信息量大。消息的編碼長(zhǎng)度小，則消息所含信息量小。平均信息量即為發(fā)送一個(gè)消息的平均編碼長(zhǎng)度信息論中用熵描述隨機(jī)變量平均信息量2.2.2 熵(entropy)熵描述了隨機(jī)變量的不確定性。41設(shè)X是収有顒個(gè)慎的園機(jī)變它的分布戰(zhàn)St宙敬為則.1的埔定義為Hi Xpn tJb百護(hù)I t 惜殊述了陸機(jī)變的平確鋌性&quo

19、t;適議n=2業(yè)吋爛的單位為比特°靖的棊本性噴i. HL詢第號(hào)詭明購毎場(chǎng)(無fiB機(jī)性齊HR戢屮"1/禮1上也世XI*尊號(hào)&團(tuán)蒔糊場(chǎng)的域童丸°2.2.3 互信息(mutual information)互信址矛件心之間的瓦信息定文知J(x.y)=£ pMp(y)互信息岌量?jī)蓚€(gè)耳體事件之間的相關(guān)程度當(dāng) 7xt/)» 0 時(shí)* xfOi ft度相關(guān)。B當(dāng)/(Xiy)二0時(shí)* 丫和、高度相遼獨(dú)立。時(shí)丫和呈互補(bǔ)分布.-bank"的翻譯.“銀行”還是“河岸”2.2.4噪音信道模型在利用噪聲信道處理語言問題時(shí)，人們并不關(guān)心編碼問題，而更多

20、關(guān)心的是，在有噪聲存在的情況下, 何解碼將輸岀還原為信道輸入。隨機(jī)變量X服從概率分布P，如果消息x的分布密度為p(x)，則給其分配2.3統(tǒng)計(jì)語言模型簡(jiǎn)介語言建模(Language Modeling)對(duì)于一個(gè)服從某個(gè)未知概率分布P的語言L,根據(jù)給定的語言樣本估計(jì) P的過程被稱作語言建模。3、P3-語言材料電子化工具-文本電子化：手段編碼及格式3.1關(guān)于文本電子化? 定義：文本電子化就是指將文本轉(zhuǎn)換為機(jī)器可讀形式進(jìn)行存儲(chǔ)。.?使用翻譯技術(shù)的前提：仃M):術(shù)A待譯文本需要是電子化的。B、翻譯過程中使用的語言資源需要電子化：語料庫：翻譯記憶庫語資源、詞典資源?文本的機(jī)器可讀形式：計(jì)算機(jī)及其軟件可以讀寫

21、以及處理。如文字編輯。對(duì)于文本而言，字符以適當(dāng)?shù)木幋a形式存儲(chǔ)。如：ASCII碼、GB2312碼、UNICODE碼等。非機(jī)器可讀形式的文本：手寫文稿、打印文稿傳真文稿文稿的數(shù)字照片3.2關(guān)于文字編碼和編碼轉(zhuǎn)換?文字在計(jì)算機(jī)中是以編碼形式表示的?編碼的標(biāo)準(zhǔn)化：英文字符編碼標(biāo)準(zhǔn) ASCII碼西文字符編碼標(biāo)準(zhǔn) ISO8859漢字編碼標(biāo)準(zhǔn) GB18030、BIG-5統(tǒng)一碼 UNICODE?文字的輸入和輸岀文字編碼的處理過程：輸入碼機(jī)內(nèi)碼字形碼除輸入和輸岀外，計(jì)算機(jī)內(nèi)的任何文字處理都是以機(jī)內(nèi)碼形式進(jìn)行的，如編輯、統(tǒng)計(jì)? 關(guān)于編碼的轉(zhuǎn)換從機(jī)器可讀到軟件可讀編碼與軟件對(duì)編碼的支持軟件可能不支持所有編碼，若軟件

22、不支持某文本采用的編碼，會(huì)岀現(xiàn)處理錯(cuò)誤或得不到預(yù)期的處理結(jié) 果。不兼容的編碼之間可以轉(zhuǎn)換：GB <-> BIG-5 GB <-> UNICODE3.3文本的電子化手段KeyboardingScanning+optical CharacterRecognitionVoice Recognition? 掃描（scanning）將硬拷貝文稿經(jīng)掃描儀掃描轉(zhuǎn)換為圖像格式存儲(chǔ)，如：*.bmp、*.jpg、*.tif等。圖像存儲(chǔ)格式的特點(diǎn)：點(diǎn)陣存儲(chǔ)基本單位是像素（pixel）?光學(xué)字符識(shí)別（OCR）:將印刷體或手寫體圖像中的文字辨認(rèn)出來，轉(zhuǎn)換為規(guī)定的編碼格式存儲(chǔ)，如：ASCI、GB2

23、312、UNICODE等? OCR的基本過程圖像處理：縮放、旋轉(zhuǎn)、去除污痕，目標(biāo)是提高識(shí)別率版面劃分：區(qū)分文字、表格板塊以及非文字板塊，判別識(shí)別順序，便于按序分別處理文字識(shí)別：根據(jù)特定模型及文字識(shí)別特征，逐行逐字進(jìn)行識(shí)別文字編輯：對(duì)識(shí)別結(jié)果進(jìn)行編輯，糾正錯(cuò)誤3.4關(guān)于文件格式和格式轉(zhuǎn)換?常見的文件格式有：純文本文件（txt文件）Web頁面文件（html文件）Word文檔（doc文件）Portable Document Format （PDF 文檔）Rich Text Format （RTF文件）純文本文件中只能有文字信息，不能有格式信息、圖表信息輔助翻譯軟件未必支持所有文件格式。許多語料處理

24、工具僅僅支持純文本文件。要注意文檔格式轉(zhuǎn)換常常會(huì)損失信息。例如圖表、格式信息會(huì)丟失或不能很好保持。4、語料處理工具工作原理P4-現(xiàn)代漢語詞語切分技術(shù)?什么是漢語自動(dòng)切分？通過計(jì)算機(jī)把組成漢語文本的字串自動(dòng)轉(zhuǎn)換為詞串的過程被稱為自動(dòng)切分segmentation）英語中的切分問題英語中不是完全沒有切分問題，不能僅僅憑借空格和標(biāo)點(diǎn)符號(hào)解決切分問題。英語中的切分通常被叫做 Tokenization。同漢語相比，英語切分問題較為容易。?為什么要進(jìn)行漢語的切分研究應(yīng)用的要求：語音合成和信息檢索? 漢語自動(dòng)切分的方法基于詞表的方法最大匹配法（MM）（特點(diǎn)：長(zhǎng)詞優(yōu)先，算法非常簡(jiǎn)單）1. 正向最大匹配法（MM）

25、:從左向右匹配詞典2. 逆向最大匹配法（RMM）:從右向左匹配詞典全切分+ 路徑選擇序列標(biāo)注方法：把切分問題看作給句子中每個(gè)字加標(biāo)記的過程。四個(gè)標(biāo)記：B詞首（2） M詞中（3） E詞尾（4）單獨(dú)成詞S 例如：提/B高/E人/B民/E的/S生/B活/E水/B平/E?自動(dòng)切分的評(píng)價(jià)準(zhǔn)確率（P）=切分結(jié)果中正確分詞數(shù)/切分結(jié)果中所有分詞數(shù)*100%召回率（R）=切分結(jié)果中正確分詞數(shù)/標(biāo)準(zhǔn)答案中所有分詞數(shù)*100%F評(píng)價(jià)（F-measure綜合準(zhǔn)確率和召回率的評(píng)價(jià)指標(biāo) ）F-指標(biāo)=2PR/（P+R）?漢語切分的關(guān)鍵問題切分歧義（消解）一個(gè)字串有不止一種切分結(jié)果交集型歧義：從小學(xué)組合型歧義：中將混合型歧

26、義：人才能歧義的分類真歧義：歧義字段在不同的語境中確實(shí)有多種切分形式。偽歧義：歧義字段單獨(dú)拿岀來看有歧義，但在真實(shí)語境中僅有一種切分形式可接受。歧義的發(fā)現(xiàn)歧義消解的前提是發(fā)現(xiàn)歧義。切分算法應(yīng)該有能力檢測(cè)到輸入文本中何時(shí)岀現(xiàn)了歧義切分現(xiàn)象。1雙向最大匹配（MM+RMM）:同時(shí)采用MM法和RMM法。如果MM法和RMM法給出同樣的結(jié)果, 則認(rèn)為沒有歧義，若不同，則認(rèn)為發(fā)生了歧義。雙向最大匹配法不能發(fā)現(xiàn)所有的歧義，存在盲點(diǎn)最大匹配法不能發(fā)現(xiàn)組合型歧義（長(zhǎng)詞優(yōu)先）在一定條件下（鏈長(zhǎng)為偶數(shù)），雙向最大匹配法也不能發(fā)現(xiàn)交集型歧義2MM+逆向最小匹配法3全切分算法歧義消解基于統(tǒng)計(jì)的歧義消解：在詞圖上尋找統(tǒng)計(jì)意

27、義上的最佳路徑未登錄詞識(shí)別專有名詞新詞未登錄詞識(shí)別困難未登錄詞沒有明確邊界許多未登錄詞的構(gòu)成單元本身都可以獨(dú)立成詞通常，每一類未登錄詞都要構(gòu)造專門的識(shí)別算法：在序列標(biāo)注法中，未登錄詞無需單獨(dú)處理。識(shí)別依據(jù)-內(nèi)部構(gòu)成規(guī)律（用字規(guī)律）-外部環(huán)境（上下文）P5-詞類的自動(dòng)標(biāo)注什么是詞？是由語素構(gòu)成的、能夠獨(dú)立運(yùn)用的最小的語言單位。?隱馬爾可夫模型（HMM）簡(jiǎn)介簡(jiǎn)介：Hidden Markov Model, HMM）是對(duì)馬爾科夫模型的一種擴(kuò)充。隱馬爾科夫模型的基本理論成形于上世紀(jì)60年代末期和70年代初期。（L.E.Baum）70年代，CMU的JKBaker以及IBM的F.Jelinek等把隱馬爾科夫

28、模型用于語音識(shí)別研究。隱馬爾科夫模型在語言信息處理領(lǐng)域中有著廣泛的應(yīng)用。例如隱馬爾科夫模型在詞類自動(dòng)標(biāo)注中的應(yīng)用。馬爾科夫：一階馬爾科夫模型可以描述為一個(gè)二元組（S, A ） , S是狀態(tài)的集合，而 A是所有狀態(tài)轉(zhuǎn)移概率組成的一個(gè)n行n列的矩陣，其中每一個(gè)元素 aij表示從狀態(tài)i轉(zhuǎn)移到狀態(tài)j的概率。在馬爾科夫模型中，給定了觀察序列，同時(shí)也就確定了狀態(tài)轉(zhuǎn)換序列。隱馬爾科夫：如果給定一個(gè)觀察序列（不同顏色的小球序列），不能直接確定狀態(tài)轉(zhuǎn)換序列（壇子的序列），因?yàn)闋顟B(tài)轉(zhuǎn)移過程被隱藏起來了。所以這類隨機(jī)過程被稱為隱馬爾科夫過程。隱馬爾可夫過程是一個(gè)雙重隨機(jī)過程，其中一重隨機(jī)過程不能直接觀察到-

29、通過狀態(tài)轉(zhuǎn)移概率表示。另一重隨機(jī)過程輸岀可以觀察到的觀察符號(hào)，這由輸岀概率來定義。妙油：可夬模電丄4以表示為-個(gè)五元組（5. S堪一絹狀態(tài)的集合5- L2.3，N（我息丹對(duì)嚴(yán)了町-卩是一組輸岀苻號(hào)紹成的集合。vp i Tj仙璀應(yīng)紅豈小咔】艮是狀態(tài)嘉移矩眼¥廳一¥列注=如砌-= j護(hù)=f）*1三X j乞州丘是輸出符號(hào)的概率分布*B= bj（k） bjik）農(nóng)示在狀態(tài)耐輸山符號(hào)4的慨率怎是初始狀態(tài)概率分布龍一 f叫埼虧=0表示時(shí)刻1選擇某個(gè)狀態(tài)的槪率.隱馬爾科夫模型的三個(gè)問題：給定 HMM I = （ A, B, p ）給定觀察序列 0 = (o1 02 03oT )如何有效

30、地計(jì)算出觀察序列的概率，即 P(O|l )?(估算問題 )給定 HMM l = ( A, B, p )給定觀察序列 0 =(01 02 03oT )如何尋找一個(gè)狀態(tài)轉(zhuǎn)換序列q = (q1 q2 q3qT )，使得該狀態(tài)轉(zhuǎn)換序列最有可能產(chǎn)生上述觀察序列？(解碼問題 )在模型參數(shù)未知或不準(zhǔn)確的情況下，如何根據(jù)觀察序列0 = ( 01 02 030T )求得模型參數(shù)或調(diào)整模型參數(shù)(學(xué)習(xí)問題或訓(xùn)練問題 )估算觀察序列概率對(duì)隱馬爾可夫模型而言，狀態(tài)轉(zhuǎn)換序列是隱藏的，一個(gè)觀察序列可能由任何一種狀態(tài)轉(zhuǎn)換序列產(chǎn)生。因此要計(jì)算一個(gè)觀察序列的概率值，就必須考慮所有可能的狀態(tài)轉(zhuǎn)換序列。求解最佳狀態(tài)轉(zhuǎn)換序列隱

31、馬爾可夫模型的第二個(gè)問題是計(jì)算出一個(gè)能最好解釋觀察序列的狀態(tài)轉(zhuǎn)換序列。理論上，可以通過枚舉所有的狀態(tài)轉(zhuǎn)換序列，并對(duì)每一個(gè)狀態(tài)轉(zhuǎn)換序列q計(jì)算P(0, q |l)，能使P(0, q |l)取最大值的狀態(tài)轉(zhuǎn)換序列q*就是能最好解釋觀察序列的狀態(tài)轉(zhuǎn)換序列，參數(shù)學(xué)習(xí)隱馬爾科夫模型的前兩個(gè)問題均假設(shè)模型參數(shù)已知，第三個(gè)問題是模型參數(shù)未知，求最佳模型的問題，是三個(gè)問題中最為困難的問題。在模型(I)未知的情況下，如果給定觀察序列的同時(shí)，也給定了狀態(tài)轉(zhuǎn)換序列，此時(shí)可以通過有指導(dǎo)的學(xué)習(xí)方法學(xué)習(xí)模型參數(shù)。例如給定下面的訓(xùn)練數(shù)據(jù)，可以通過最大似然估計(jì)法估計(jì)模型參數(shù)。詞類標(biāo)注的語言學(xué)基礎(chǔ)1 詞的分類依據(jù)形態(tài)標(biāo)準(zhǔn)W0

32、rds that functi0n simiIarIy with respect t0 the affixes they take (their m0rph0I0gicaI pr0perties) are gr0uped int0 cIasses.分布標(biāo)準(zhǔn)W0rds that functi0n simiIarIy with respect t0 what can 0ccur nearby (their “ syntacticdistributi0naI pr0perties ” ) are gr0upinetd0 cIasses.意義標(biāo)準(zhǔn)(X )WhiIe w0rd cIasses d0 ha

33、ve tendencies t0ward semantic c0herence (n0uns d0 in fact 0ften describe “ pe0pIe, pIaces 0rthings ” , and adjectives 0ften describe pr0perties), this is n0tnecessariIy the case, and in generaI we d0n' t use the semca0nhteicrence as a definiti0n criteri0n f0r part-0f-speech.2 英語中詞的分類封閉詞類和開放詞類功能詞

34、類和內(nèi)容詞類3 漢語中詞的分類主要依據(jù) ：詞的分布特征或者說語法功能(主要指詞在句法結(jié)構(gòu)里所能占據(jù)的語法位置。)實(shí)詞和虛詞：從功能上看，實(shí)詞可以充當(dāng)主語、謂語和賓語。虛詞則不可以。從意義上看，實(shí)詞有實(shí)在的意義，表示事物、動(dòng)作、行為、變化、性質(zhì)、狀態(tài)、處所、時(shí)間等。虛詞基本只起語法作用，本身多無實(shí)在意義。從數(shù)量上看，實(shí)詞多為開放類，虛詞多為封閉類。體詞和謂詞：實(shí)詞可分成體詞和謂詞。體詞可以做主語和賓語。謂詞主要做謂語。4兼類問題如果同一個(gè)詞具有不同詞類的語法功能，則認(rèn)為這個(gè)詞兼屬不同的詞類，簡(jiǎn)稱兼類。5英語詞類標(biāo)記集Brown corpus tagsetPenn treebank tagset

35、 UCREL s C5 tagset6漢語詞類標(biāo)記集北京大學(xué)人民日?qǐng)?bào)語料庫詞類標(biāo)記集國(guó)家語委語用所詞類標(biāo)記集詞類標(biāo)注的基本方法1詞類自動(dòng)標(biāo)注判定自然語言句子中的每個(gè)詞的詞類并給每個(gè)詞賦以詞類標(biāo)記。對(duì)于兼類詞，詞類標(biāo)注程序應(yīng)根據(jù)上下文確定兼類詞在句子中最合適的詞類標(biāo)記。(難點(diǎn)所在)詞類自動(dòng)標(biāo)注是深層語言分析的基礎(chǔ)。詞類標(biāo)注程序判定依據(jù)：要標(biāo)注的詞的不同詞類的分布，上下文中其它詞的詞類信息2基本方法(基于規(guī)則的、基于統(tǒng)計(jì)的、統(tǒng)計(jì)規(guī)則相結(jié)合的)基于規(guī)則的詞類標(biāo)注早期均為基于規(guī)則方法基于規(guī)則的詞類標(biāo)注程序工作過程1. 查詞典，給句中各詞標(biāo)記所有可能的詞類標(biāo)記。2. 應(yīng)用規(guī)則，逐步刪除錯(cuò)誤的標(biāo)記，最終只

36、留下正確的標(biāo)記?；陔[馬爾科夫模型的詞類標(biāo)注HMMJKXijftu<J 處 iii.lfe «n(17)r可Mt的塚貫極T庁列弒畜轉(zhuǎn)換痔列人予特比禪墜燈詞類成阿碼旳罔:；詞塑卄啊現(xiàn)在旬苜的權(quán)舉f" =iif I =皺妙 JJ( nV | R - 11)屮ft i-F基于轉(zhuǎn)換的詞類標(biāo)注特點(diǎn)(兼具規(guī)則和統(tǒng)計(jì)兩個(gè)方面的特性)應(yīng)用規(guī)則進(jìn)行標(biāo)注，規(guī)則稱為轉(zhuǎn)換。規(guī)則不是人工總結(jié)，而是應(yīng)用機(jī)器學(xué)習(xí)的辦法學(xué)習(xí)得到。使用的機(jī)器學(xué)方法通常稱作基于轉(zhuǎn)換的學(xué)習(xí)(Transformation-Based Learning or TBL)。什么是一個(gè)轉(zhuǎn)換 (transformation) ？

37、激發(fā)環(huán)境(triggering environment):描述了應(yīng)用該轉(zhuǎn)換需要滿足的條件重寫規(guī)則(rewriting rule):描述了應(yīng)用規(guī)則所要進(jìn)行的動(dòng)作轉(zhuǎn)換規(guī)則可以視為一種糾錯(cuò)規(guī)則在轉(zhuǎn)換規(guī)則使用前，待標(biāo)注的句子已經(jīng)進(jìn)行過初步標(biāo)注，轉(zhuǎn)換規(guī)則負(fù)責(zé)改正其中的錯(cuò) 誤標(biāo)注激發(fā)環(huán)境：當(dāng)前詞前面一個(gè)詞的詞類是副形詞(ad)重寫規(guī)則：把當(dāng)前詞的詞類從名詞 (n)改作動(dòng)詞(v)未登錄詞視作兼類詞，可能是任何一個(gè)詞類，均勻分布依照出現(xiàn)一次的詞(hapax legomenon)的規(guī)律處理更可能是名詞不大可能是限定詞等將出現(xiàn)一次的詞的分布平均作為未登錄詞的分布對(duì)于英文等語言可以利用形態(tài)特性(詞綴)、拼寫特性判

38、定(首字母大小寫)P6-屈折語的形態(tài)分析?什么是形態(tài)學(xué)(Morphol ogy)?形態(tài)學(xué)研究屈折語中詞的構(gòu)成規(guī)則詞通常由語素(morpheme)組成。語素是語言中最小的意義單位(minimal meaning bearing unit)?？偟膩碚f，語素可以分成兩大類1詞根(root):提供詞的主要意義2詞綴(affix):提供詞的各種附加意義(修改詞根義或改變?cè)~的語法功能)1) 前綴(prefix):出現(xiàn)在詞根的前面2) 后綴(suffix):出現(xiàn)在詞根的后面?語素如何構(gòu)成詞？1. 派生(derivation):詞根+詞綴形成的詞通常與原詞根不屬一類，詞義通常與原詞根有聯(lián)系(有時(shí)難以預(yù)料)，詞

39、根與詞綴派生的結(jié)果也稱作詞干(stem)。computerize+ation (verb noun)2. 屈折變化(inflection):詞干+詞綴形成的詞通常與原詞干同屬一類，常用來使詞具備數(shù)、時(shí)態(tài)等功能 cat+s walk+ed walk+ing?英語中的屈折變化不規(guī)則變化的詞數(shù)量有限，但多是常用詞大部分詞的變化屬規(guī)則變化?英語中的派生詞英語中派生現(xiàn)象較為復(fù)雜，僅看幾個(gè)例子動(dòng)詞、形容詞的名詞化 (nominalization):computerize (V) computerization從名詞、動(dòng)詞派生出形容詞clue (N) clueless派生規(guī)則規(guī)律性不如屈折變化規(guī)則、不能隨

40、意派生什么是形態(tài)分析？形態(tài)分析研究如何利用計(jì)算機(jī)把屈折語中的詞分解成語素為什么要進(jìn)行形態(tài)分析？應(yīng)用的要求：信息檢索、TM中的應(yīng)用、深層英語分析的基礎(chǔ)形態(tài)分析的技術(shù)基礎(chǔ)有限狀態(tài)自動(dòng)機(jī)有限狀態(tài)轉(zhuǎn)換機(jī)形式語言有限狀態(tài)自動(dòng)機(jī)和語言構(gòu)建形態(tài)分析器所需要的資源1. 詞典（lexicon）:詞干（詞根）和詞綴；詞干（詞根）和詞綴的基本信息2. 形態(tài)知識(shí)（morphotactics）：語素間的順序關(guān)系哪一類語素可以和哪一類語素組合（例如：名詞后面可以加一個(gè)復(fù)數(shù)語素）3. 正字規(guī)則（orthographic rule or spelling rule）:兩個(gè)語素組合時(shí)應(yīng)進(jìn)行怎樣的變化（如:把y改寫為i加es）

41、P8-平行文本的自動(dòng)對(duì)齊?什么是平行文本（parall el text）？雙語語料庫是涉及兩種語言的語料庫，由雙語平行文本組成。多語平行文本由多個(gè)單語文本組成，這些文本之間具有翻譯關(guān)系。雙語平行文本由兩個(gè)單語文本組成，這兩個(gè)單語文本互為譯文。多語平行語料庫又稱作翻譯語料庫（translation corpora） o多語平行語料庫包含原文及其譯文，是機(jī)器（輔助）翻譯等多語信息處理的重要資源。?雙語對(duì)齊處理（Bilingual Alignment）所謂雙語對(duì)齊處理就是在不同語言文本的不同語言單位之間建立對(duì)應(yīng)關(guān)系，也就是確定源語言文本中哪個(gè)（些）語言單位和目標(biāo)語言文本中哪個(gè)（些）語言單位互為翻譯

42、關(guān)系。所謂自動(dòng)雙語對(duì)齊處理指的是通過一定的算法，由計(jì)算機(jī)在雙語文本間建立對(duì)齊關(guān)系。對(duì)齊可以在各種語言單位間進(jìn)行，例如：文本級(jí)、段落級(jí)、句子級(jí)、短語級(jí)、詞匯級(jí)句子級(jí)對(duì)齊是最基本的對(duì)齊（段落對(duì)齊可視為一種特殊的句子的對(duì)齊）o關(guān)鍵問題：機(jī)器不能在理解的基礎(chǔ)上進(jìn)行對(duì)齊、并非嚴(yán)格的一一對(duì)應(yīng)、譯文可能涉及語序的調(diào)整、可能岀現(xiàn)省略不譯的現(xiàn)象、反之譯文中也可能增加原文中沒有的內(nèi)容從句子層級(jí)看，語序不會(huì)劇烈調(diào)整大部分情況是一一對(duì)應(yīng)?句子對(duì)齊的方法句子對(duì)齊的基本方法基于長(zhǎng)度的對(duì)齊方法基于單詞的對(duì)齊方法兩種方法對(duì)齊準(zhǔn)確率都較高，對(duì)一般文本，都在90%以上?；陂L(zhǎng)度的對(duì)齊方法效率優(yōu)于基于單詞的對(duì)齊方法?；趩卧~的對(duì)齊

43、方法：利用單詞的對(duì)應(yīng)關(guān)系，來決定句子的對(duì)齊關(guān)系。基于長(zhǎng)度的對(duì)齊方法依據(jù)：互為翻譯的兩個(gè)句子在長(zhǎng)度上高度相關(guān)?；陂L(zhǎng)度的對(duì)齊方法只利用了文本中句子的長(zhǎng)度信息待對(duì)齊的兩個(gè)文本不過是兩個(gè)數(shù)字(長(zhǎng)度)序列長(zhǎng)度對(duì)齊的基本原理：基于長(zhǎng)度對(duì)齊的基本過程可以概括為(1) 枚舉文本間所有可能的對(duì)齊(2) 評(píng)價(jià)每種對(duì)齊模式的合理性(3) 選擇最佳對(duì)齊詞匯信息的引入可利用詞匯對(duì)應(yīng)信息改善基于長(zhǎng)度對(duì)齊的效果錨點(diǎn)：雙語文本中有明顯對(duì)應(yīng)關(guān)系的詞匯(數(shù)字、日期、人名、地名)5、翻譯技術(shù)及其原理語料分析（詞頻、搭配和檢索）P7-術(shù)語管理和提?。ù钆浜托g(shù)語自動(dòng)提取）什么是搭配？定義：A COLLOCATION is an

44、 expression consisting of two or more words that correspond to some conventional way of saying things.Within the area of corpus linguistics, COLLOCATION is defined as a pair of words （the 'node' and the 'collocate'） which co-occur more often than would be expected by chance.搭配構(gòu)成的一般原則

45、廣義搭配：語法上合法的詞語序列狹義搭配：固定搭配和半固定搭配什么是術(shù)語？terminology is the specialized vocabulary of a field. These terms have specific definitions within the field, which is not necessarily the same as their meaning in common use.常用的搭配提取方法統(tǒng)計(jì)方法與規(guī)則方法常用的統(tǒng)計(jì)方法基于頻率的方法(frequency-based approach)通過統(tǒng)計(jì)兩個(gè)詞(bigram)的共現(xiàn)頻率的方法來發(fā)現(xiàn)并提取搭配

46、。通常最高頻的詞語組合是虛詞的組合?？赏ㄟ^詞類組合模式進(jìn)行過濾，剔除高頻的虛詞組合。詞語及其搭配詞未必比鄰出現(xiàn)，前述頻率法不能直接應(yīng)用，此時(shí)可以通過定義搭配窗口的方法進(jìn)行解決，統(tǒng)計(jì)詞語和窗口范圍內(nèi)的其他所有詞的共現(xiàn)頻率。大小為卜5,+5的搭配窗口基于方差的方法(variance-based approach)若w1和w2出現(xiàn)的位置相對(duì)固定，則二者有可能構(gòu)成一個(gè)搭配。計(jì)算w1和w2兩個(gè)詞在語料庫中位置偏移的均值 m。計(jì)算位置偏移的方差s2均值和方差刻畫了兩個(gè)詞之間距離的分布情況。如果兩個(gè)詞的距離的方差較小，則有可能二者構(gòu)成一個(gè)搭配。較小的方差意味著兩個(gè)詞之間的距離相對(duì)固定。假設(shè)檢驗(yàn)法(hyp

47、othesis testing)采用假設(shè)檢驗(yàn)的方法首先假設(shè)w1w2是在語料庫中是機(jī)會(huì)共現(xiàn)(co-occur by chance)，該假設(shè)通常稱為原假設(shè)(null hypothesis)。基于原假設(shè)，利用樣本數(shù)據(jù)進(jìn)行檢驗(yàn)，若不能推翻原假設(shè)，則w1w2不構(gòu)成搭配，若推翻原假設(shè)，則w1w2構(gòu)成搭配，即認(rèn)為備擇假設(shè)成立。若w1w2為機(jī)會(huì)共現(xiàn)，則 w1、w2相互獨(dú)立，即 p(w1w2) = p(w1) p(w2)t-檢驗(yàn)法(基本原則是假定樣本數(shù)據(jù)來自均值為m的分布，然后通過對(duì)比樣本均值和預(yù)期的均值m之間的差異，判斷樣本是否來自于所假設(shè)的分布，從而推斷出原假設(shè)是否成立。t-檢驗(yàn)和其他檢驗(yàn)常用來給搭配排序

48、，即t-值越大，w1w2越可能是一個(gè)搭配。)x2檢驗(yàn)法(主要思想是對(duì)比預(yù)期頻率以及觀察頻率，若二者差別較大，則拒絕原假設(shè)。)互信息法(mutual information)一個(gè)事件中所蘊(yùn)含的關(guān)于另外一個(gè)事件的信息量?jī)蓚€(gè)事件之間的關(guān)聯(lián)度若兩個(gè)事件獨(dú)立，則有l(wèi)(x,y)=0若兩個(gè)事件高度依賴，一個(gè)出現(xiàn)必然意味著另外一個(gè)事件出現(xiàn)?；バ畔?duì)于兩個(gè)事件是否獨(dú)立可以給出較好的判別?；バ畔⒅到咏?兩個(gè)事件相互獨(dú)立.但對(duì)于兩個(gè)事件互相依賴，僅依靠互信息值有缺陷?；バ畔⒅蹬c事件的頻率有關(guān)低頻率事件有可能獲得較高的互信息值，因而對(duì)于稀疏數(shù)據(jù)，互信息結(jié)果未必可靠領(lǐng)域性處理停用詞(stop list)領(lǐng)域無關(guān)詞匯在任

49、何領(lǐng)域都以相同的規(guī)律出現(xiàn)翻譯記憶技術(shù)P9-機(jī)器翻譯的原理和方法?什么是機(jī)器翻譯及其研究目標(biāo)研制岀能把一種自然語言（源語言）的文本翻譯為另外一種自然語言（目標(biāo)語言）的文本的計(jì)算機(jī)軟. 件系統(tǒng)。全自動(dòng)高質(zhì)量的機(jī)器翻譯系統(tǒng) （FAHQMT）仍將是人類一個(gè)遙遠(yuǎn)的夢(mèng)。?機(jī)器翻譯的基本方法1基于規(guī)則的機(jī)器翻譯方法（傳統(tǒng)的機(jī)器翻譯方法）直接翻譯法（逐詞進(jìn)行翻譯，無需對(duì)源語言文本進(jìn)行分析，對(duì)翻譯過程的認(rèn)識(shí)過于簡(jiǎn)化）中間語言法一種中間表達(dá)，通常是一種句法 -語義表達(dá)，中間語言獨(dú)立于任何具體的自然語言。源文本經(jīng)過深層分析得到源語言的中間語言表示。再由該中間表示生成目標(biāo)語文本。翻譯過程為兩個(gè)階段。2n中間語言法在理

50、論上非常經(jīng)濟(jì)，可有效減少翻譯模塊的數(shù)量?？砂裯（n-1）個(gè)直接翻譯模塊減少為個(gè)翻譯模塊。（目前沒有特別成功的基于中間語言的機(jī)器翻譯系統(tǒng)。）轉(zhuǎn)換法分析源語言文本，得到其源語言內(nèi)部表達(dá)將源語言內(nèi)部表達(dá)轉(zhuǎn)換成目標(biāo)語內(nèi)部表達(dá)根據(jù)目標(biāo)語內(nèi)部表達(dá)生成目標(biāo)語文本翻譯過程分成三個(gè)階段（商業(yè)上最為成功的方法，目前絕大部分商品化機(jī)器翻譯系統(tǒng)采用轉(zhuǎn)換式機(jī)器翻譯方法。）規(guī)則系統(tǒng)中的知識(shí)表示開發(fā)一個(gè)基于規(guī)則的機(jī)器翻譯系統(tǒng)，首先要設(shè)計(jì)一個(gè)知識(shí)表示系統(tǒng)，將翻譯過程中所有需要的知識(shí)以計(jì)算機(jī)可以操作的形式表述岀來。一般而言，翻譯過程往往需要下述一些知識(shí)的支撐：（1）源語言知識(shí)。系統(tǒng)利用源語言知識(shí)分析源語言句子，得到源語言句子的結(jié)構(gòu)和意義。（2）目標(biāo)語言知識(shí)。系

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

計(jì)算機(jī)輔助翻譯技術(shù)Review復(fù)習(xí)課程

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

計(jì)算機(jī)輔助翻譯技術(shù)Review復(fù)習(xí)課程

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔