GIZA++實(shí)驗(yàn)報(bào)告分析_第1頁(yè)
GIZA++實(shí)驗(yàn)報(bào)告分析_第2頁(yè)
GIZA++實(shí)驗(yàn)報(bào)告分析_第3頁(yè)
GIZA++實(shí)驗(yàn)報(bào)告分析_第4頁(yè)
GIZA++實(shí)驗(yàn)報(bào)告分析_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、GIZA+ 實(shí)驗(yàn)報(bào)告發(fā)表于2011-10-061目標(biāo)1.1 下載并編譯 GIZA+ 和 mkcls,獲得所需的可執(zhí)行文件。1.2 利用平行雙語(yǔ)語(yǔ)料庫(kù),通過(guò) mkcls 構(gòu)建 word classes。1.3 利用平行雙語(yǔ)語(yǔ)料庫(kù),通過(guò) GIZA+ 進(jìn)行 IBM Model 的訓(xùn)練。2實(shí)驗(yàn)準(zhǔn)備2.1 GIZA+      GIZA+ 是由 Franz Och 開發(fā)的 GIZA 的一個(gè)擴(kuò)展,并包含了許多其他的特點(diǎn)。2.2 mkclsmkcls 是由 Franz Och 開發(fā)的一個(gè)訓(xùn)練詞語(yǔ)聚類的工具。2.3 平行雙語(yǔ)語(yǔ)料庫(kù)漢英平行語(yǔ)料庫(kù),漢語(yǔ)

2、語(yǔ)料需要切分,英語(yǔ)語(yǔ)料需要 tokenize2.4 實(shí)驗(yàn)環(huán)境Ubuntu 10.10 x86g) gcc 4.4.53實(shí)驗(yàn)步驟3.1 編譯 GIZA+從 GIZA+,此處使用是giza-pp-v1.0.7.tar.gz ,并解壓到本地文件夾(默認(rèn)為giza-pp)老版本段 GIZA+ 不能被 gcc 4.3 或更高版本編譯,屬于一個(gè) bug,而 Ubutu 10.10 默認(rèn)安裝的 gcc 4.4,有兩種方法可以成功編譯。新版本的已經(jīng)沒有這個(gè)問(wèn)題來(lái),可以直接編譯(一)安裝 g+-4.1: sudo apt-get install g+-4.1,修改 GIZA+-v2 里的 Makefi

3、le,將第5行 CXX=g+,替換為 CXX=g+-4.1(二)修改 GIZA+-v2 中的 file_spec.h 的 37-49 行(僅針對(duì)1.0.4版本)struct tm *local;time_t t;char *user;char time_stmp19;/修正char *file_spec = 0;t = time(NULL);local = localtime(&t);sprintf(time_stmp, “%04d-%02d-%02d.%02d%02d%02d.”, 1900 + local->tm_year,  (local->tm_mon +

4、 1), local->tm_mday, local->tm_hour, local->tm_min, local->tm_sec); /修正user = getenv(“USER”);進(jìn)入 giza-pp,運(yùn)行命令 make,編譯成功。make 正常結(jié)束后,在 GIZA+-v2 和 mkcls-v2 目錄下各生成了一些可執(zhí)行文件。3.2 構(gòu)建 GIZA+ 所需的文件a) 運(yùn)行命令 ./plain2snt.out chinese english,將普通文本轉(zhuǎn)化為 GIZA+ 格式 生成的文件chinese.vcb(english.vcb) 單詞編號(hào) 漢語(yǔ)句子中的單詞 單

5、詞的出現(xiàn)次數(shù)  chinese_english.snt(english_chinese.snt) 每個(gè)句子對(duì)出現(xiàn)的次數(shù) 漢語(yǔ)句子中的單詞編號(hào) 英語(yǔ)句子中的token編號(hào)注: 0是保留給特殊的“空”token。b) 運(yùn)行命令./snt2cooc.out chinese.vcb english.vcb chinese_english.snt > chn_eng.cooc./snt2cooc.out english.vcb chinese.vcb english_chinese.snt > eng_chn.cooc獲得共線文件3.3 構(gòu)建GIZA+所需的mkcls文件a) 運(yùn)行

6、命令./mkcls -pchinese -Vchinese.vcb.classes opt./mkcls -penglish -Venglish.vcb.classes opt 參數(shù)設(shè)置 -n:表示訓(xùn)練迭代次數(shù),默認(rèn)1次 -p:需要聚類的已分詞文本 -V:輸出信息 opt:優(yōu)化運(yùn)行 生成的文件 chinese.vcb.classes(english.vcb.classes) 按字母表序的單詞 單詞詞類 chinese.vcb.classes.cats(english.vcb.classes.cats, ) 單詞詞類 對(duì)應(yīng)詞類的一組單詞3.4運(yùn)行GIZA+a) 運(yùn)行命令 ./GIZA+ -S c

7、hinese.vcb -T english.vcb -C chinese_english.snt -CoocurrenceFile chn_eng.cooc -outputpath c2e./GIZA+ -S english.vcb -T chinese.vcb -C english_chinese.snt -CoocurrenceFile eng_chn.cooc -outputpath e2c 生成文件(以漢-英為例) Decoder.config 用于ISI Rewrite Decoder解碼器  trn.src.vcb,trn.trg.vcb 類似于chinese.vcb和e

8、nglish.vcb文件  tst.src.vcb,tst.trg.vcb 空文件 ti.final 從英文到中文的詞語(yǔ)對(duì)齊 詞語(yǔ)對(duì)齊通過(guò)token編號(hào)表示,并在每組數(shù)字后給出相應(yīng)的對(duì)齊概率 例如:3 0 0.23788211 0 0.900132 actual.ti.final 從英文到中文的詞語(yǔ)對(duì)齊 詞語(yǔ)對(duì)齊通過(guò)實(shí)際 token 表示,并在每組 token 后給出相應(yīng)的對(duì)齊概率 例如:polished 閃閃 1pain 割 0.0173626注意:如果需要生成該文件,需要?jiǎng)h除GIZA+v2/Makefile中的-DBINARY_SEARCH_FOR_TTABLE選項(xiàng),再重新編譯即

9、可,否則默認(rèn)使用id的方式進(jìn)行加載,不會(huì)生成該文件 A3.final 記錄了在 IBM Model 3迭代訓(xùn)練后,每個(gè)句對(duì)的一個(gè)最佳對(duì)齊 (Viterbi Alignment)。 第一行是一個(gè)可用于作為對(duì)齊可視化工具的標(biāo)題的一個(gè)標(biāo)簽,包含訓(xùn)練的語(yǔ)料庫(kù)中的有關(guān)該句編號(hào)的信息在訓(xùn)練語(yǔ)料,句子長(zhǎng)度和對(duì)齊概率。 第二行是目標(biāo)語(yǔ)言,第三行是源語(yǔ)言,源語(yǔ)言中的每個(gè)記號(hào)之后是一個(gè)零或多個(gè)數(shù)字的集合,這些數(shù)字代表的與源語(yǔ)言記號(hào)連接的目標(biāo)語(yǔ)言記號(hào)位置。 perp 在訓(xùn)練的最后生成,提出了每次訓(xùn)練迭代的困惑度值的列表 a3.final 包含的形式如下的表 i j l m p ( i / j, l, m) j =

10、position of target sentence i = position of source sentence l = length of the source sentence m = length of the target sentence p( i | j, l, m) = is the probability that a source word in position i is moved to position j in a pair of sentences of length l and m    d3.final 類似于a3.final

11、文件,只是 交換了i 和 j 的位置 n3.final 源語(yǔ)言 token 的 fertility 分別為 0,1,n 時(shí)的概率表,形式如下:source_id p0 p1 p2 . pn,p0 是fertility為0時(shí)的概率 例如:1 0.475861 0.282418 0.133455 0.0653083 0.0329326 0.00844979 0.001400810 0.249747 0.000107778 0.307767 0.192208 0.0641439 0.15016 0.035888611 0.397111 0.390421 0.19925 0.013382 2.21286e-05 0 012 0.0163432 0.560621 0.374745 0.00231588 0 0 0  t3.final IBM Model

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論