已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第2 0 卷2 期 2 0 0 7 年5 月 中國科技翻譯 C H I N E S ES C I E N C E 7 I E C H N O L O G YT R A N S L A 7 I D R SJ O U R N A L V 0 1 2 0 N o 2 M a v 2 0 0 7 科技翻譯與新技術 小型翻譯語料庫的D I Y 米 趙宏展 山東中醫(yī)藥高等專科學?;A部煙臺市2 6 5 2 0 0 摘要自建小型翻譯語料庫在翻譯教學和研究領域中孕育著廣闊的應用前景 最近成為學界的一個熱 門話題 我國翻譯教師和翻譯研究者對自建小型翻譯語料庫大多缺乏必要的心理和技術準備 認為與自 己的研究大異其趣且技術高不可攀 事實上語料庫技術很多只是從屬性的 作為開發(fā)者和應用者的個人 只要把主要精力放在內容的選取和呈現(xiàn)方面即可 而不必在技術方面投入過多精力 通過使用相關工具 軟件自建小型翻譯語料庫 能讓我們熟悉并掌握語料庫這一先進工具 克服 技術恐懼癥 讓語料庫真正 走進我們日常的翻譯教學和科研工作 關鍵詞小型翻譯語料庫翻譯教學 A b s t r I a c t0 fr e c e n t t l e r eh a sb e e na 剛i n gi n t e r e s ti nu s i n gs m a l lt r a n s l a t i o nc o r p u si nt r a J l s l a t i o nt e a c h i n g T h ep r e s e n ta u t h o re x p l a i n st l a ti ti sa c t u a l l yn o ts od i m c u l tf o rt r a n s l a t i o nt e a c h e r st oo v e r c o m et h e i rt e c h n o p h o b i aa n dc r e a t et h e i ro w ns m a l lt e a c h i n gc o r p u sw i t hm eh e l po fs o m es o f t w a r et o o l s K e yW o r d s s m a Ut r a n s l a t i o nc o r p u st 啪s l a t i o nt e a c h i n g 語料庫語言學正在成為主流 S v a n v i k 近年來小型語料庫逐漸興起 個人自建小 型語料庫因其孕育著廣闊的應用前景而成為熱 門話題 在語言教學中 大型語料庫通常應用 于教學大綱的編制和教材的編纂 而應用于課 堂教學的語料庫則有所不同 它一般來說是精 心采集的 旨在幫助語言學習者理解語言現(xiàn)象 的小型語料庫 J 在翻譯教學和研究工作中 翻譯課教師或研究者個人可以充分利用互聯(lián)網 資源和多種工具軟件創(chuàng)建小型翻譯語料庫以輔 助自己的工作 1 為什么要D I Y 小型翻譯語料庫 大型語料庫公認的優(yōu)點在于語料數量龐 大 語料樣品多 產出數據復雜而且代表性強 大型通用語料庫的數據規(guī)模目前已經達到幾億 形符 且有規(guī)模急速變大的趨勢舊J 通用語料 庫雖然包羅萬象但對個人而言可及性不高 而 且還有數據冗余的問題 另外 由于大型語料 庫講求平衡選取語料 在輔助教學 編寫翻譯教 材和教輔材料方面往往不如臨時自建小型語料 庫的內容更有針對性 即時性和新穎性 1 1 大型通用語料庫的可及性 大型語料庫因為過于龐大 價格昂貴 其可 及性 a c c e s s i b i l i t y 不高口J 例如 英國國家語 料庫 B N c 的世界版c D 光盤 個人授權 的價 格為5 0 英鎊 購買時須另支付1 0 英鎊銀行手 續(xù)費和7 英鎊的運費 包裝費 而B N cB a b y 光 盤也價格不菲 若要將教學和科研工作需要 的語料庫 尤其是國外大型通用語料庫一一收 集起來并做到及時更新或取得全權在線使用 權 對個人來說往往是個不小的負擔 所以大 型語料庫雖包羅萬象 但對個人而言卻經常遙 不可及 不如自建的小型語料庫使用方便 1 2 大型通用語料庫的數據冗余 包羅萬象的大型語料庫有時會成為一種負 擔 使用大型語料庫時 尤其是對某些特定詞 詞組或搭配 復現(xiàn)組合 研判時 經常會遇到數 資料來源于英國國家語料庫 B N c 的官方網站 0 b t a i n i n g B N c M 0 L h t t p w w w n a t c o r p o x a c u k g e n i n g i n d e x x r n l I D i n t I o 2 0 0 6 旬5 0 9 收稿日期 2 0 0 6 0 6 一1 2 3 1 萬方數據 3 2中國科技翻譯 2 0 卷 據冗余 t o om u c hd a t a 問題 例如 使用B N c 第二版對情態(tài)動詞w i l l 進行k w i c 索引 我們會 得到總數約2 5 0 0 0 0 條結果 這些結果覆蓋多 種文類 g e n r e 和信道 c h a n n e l 內容紛繁復 雜 形式多變 研究者若想在結果中找出需要 的材料或特定的內容 僅靠人工觀察就猶如大 海撈針 針對數據冗余問題 英國艾塞克斯大 學 w 3 一c o r p o r a 工程專家組 在其所著w o r l d W i d eW e bA c c e s st o C o 叩u s C o 印u sL i n g u i s t i c s 一文中解釋道 對于語料庫的大小和研究所需 的語料數量目前還沒有給定的定義 重要的是 要有足夠的數據 至于什么是足夠的數據應該 具體問題具體分析 為解決數據冗余問題 w 3 c o r p o r a 工程的專家建議 如果是針對個 別 語言 現(xiàn)象 使用小型語料庫或某個大型語 料庫的子庫可能會好一些 數據冗余還表現(xiàn)在文本處理和分析工具軟 件的能力不足 目前語料庫相關軟件的文本 分析功能單一 且對分析過程和結果缺乏必要 的說明和解釋 舊J 許多語料庫應用工具對詞 語索引的處理能力都有上限 例如 w o r d s m i t h 第三版最多能提取1 6 8 6 8 條詞語索引 這對處 理大型語料庫數據來講是非常不方便的HJ 雖 然w o r d s m i t h 第四版已經解決了上述問題 但 對翻譯課教師和研究者個人來說 頻繁更換工 具軟件的高額費用顯然會進一步降低語料庫及 相關工具軟件的可及性 從而使語料庫更加遙 不可及 小大由之 有所不行 選擇語料庫的大小 取決于使用目的和一系列的現(xiàn)實考慮MJ 實際 工作中在對語料庫的選擇上顯然不能唯 大 是舉 應該根據翻譯教學和科研工作的具體內 容做具體分析 2 小型翻譯語料庫的建立 在創(chuàng)建自己的語料庫前 首先應根據該語 料庫的用途確定一些基本原則怛J 外語教師日 常工作中經常需要臨時編制一些專門的翻譯教 材和教輔材料 這時使用小型翻譯語料庫就得 心應手 小型語料庫的建立迄今未有明確的標 準和規(guī)范 但一般包括語料采集 d a t ac 印t u r e 標注 m a r k u p 和賦碼 a n n o t a t i o n 的過程 2 1 語料采集和格式轉換 翻譯教學工作中教師常常要扮演教材設計 者的角色 需要針對特定學生群體提供專門的 教材和教輔材料 例如 某大學翻譯培訓班的 學員大部分來自一個特定行業(yè) 他們希望所學 教材除了能提高他們的基礎翻譯能力外 還能 對其所屬行業(yè)有相當的針對性 而現(xiàn)有翻譯教 材不敷使用 這時就可以臨時建立小型語料庫 以補充編制教材和教輔材料的內容 構建語料庫所需語言材料的采集不是隨意 的 對小型語料庫建設者來說 語料需要便于 搜集 格式統(tǒng)一 內容要根據實際情況 有針對 性 目前 因特網和各種大型電子文庫無疑為 我們提供了方便可靠的機讀數據來源 然而把 網頁內容逐頁下載的做法費時費力 可行性不 高 在實際工作中可使用一些免費的小型工具 軟件 如w o r d s m i t h 和H m a c k 等 來輔助語料 搜集 先進行關鍵詞搜尋 然后將含有關鍵詞的 網頁的文字性內容一次性下載 常用的語料庫 工具軟件w o r d S m i t h4 0 有一個W e b G e t t e r 輔 助工具 能夠進行關鍵詞網頁搜索并可就網頁 內容的語料語言 網頁的最小字數 語料的最小 字數等條件進行定制 定制完成后就可一次性 多線程下載相關網頁 W e b G e t t e r 主界面如圖 1 所示 可在w e b G e t t e r 的 S e t t i n g 對話框中自由 調整下載內容的存貯目標文件夾 最小字數 最 大線程數 語言選擇等項目 設定完成后單擊 g o 即可自動進行語料收集 另一個重要的語 料來源是各種大型電子文庫 如光盤版的 大英 百科辭典 和E N c A R T A 等口J 通過上述方式 得到的語料一般是H T M L H y p e r e x tM a r k u p L a n g u a g e 格式 需要將該格式的內容轉換成純 文本 s c I I 或x M L 格式 否則一些語料庫通用 軟件工具如w o r d s m i t h 和w o r d P i l o t 等無法識 別 對于大批量語料的格式轉換最好采用 M L C T M u l t i l i n g u a lC o 印u sT o o l k i t 少工具包 該 資料來源于D o u gA m o I d c o r p u sL i n g I l i s t i c s I n t r o d u c t i o n M 0 L H t t p w w w e s s e x a c u k l i n g u i s t i c c l I n w 3 c c o r p u s j i n g c o n t e n i n t m d u c t i o n h t I I l l 2 0 0 6 旬5 0 9 A m o l dD o u g I I 是著名的w 3 c c o r p u s 工程的負責人 該工程已經于1 9 9 8 年完成 該工具包可以到英國蘭開斯特大學 L a n c a s t e ru n i v e r s i t y 主頁地址下載 h t l p w w w 1 a I l c s a c u k 8 t a p i a o 形r e s e a r c h d o w I l l o a d r I l l c t p u b l i c z i p 2 0 0 6 0 5 1 9 萬方數據 2 期趙宏展 小型翻譯語料庫的D I Y3 3 工具包運行于J a v a 環(huán)境下 J R Ev e r s i o n l 4 或 更高 由于很多外語教師不熟悉J a v a 在實際 工作中還可以采用一些批量轉換工具或者將語 料文件在I E N e s c a p e 等瀏覽器中打開并另存 為純文本文件 水 t x t 的做法 圖l W e b G e t t e r 主界面和搜索前的定制 在網頁上采集語料雖然簡單易行 但是要 加注 語料收集更為復雜 美國版權法中有 合理使篇頭目前還沒有自動工具軟件 在建立個人小 用 的條款 指用于非商業(yè)性的研究工作時 可型語料庫的過程中加注篇頭會耗費相當的時問 以使用受版權保護文章的部分或全部內容 然和精力 考慮到小型翻譯語料庫的用途 筆者 而 該 合理使用 不包括將受版權保護文章建議不進行篇頭加注 一般情況下只進行詞性 2 0 0 0 字以上的節(jié)選用于語料庫發(fā)行的情況 J 賦碼 P 0 st a g g i n g 即可 所以 對于個人制作的小型翻譯語料庫要嚴格語料進行詞性賦碼前應先確定賦碼方案 限定其使用范圍 最好僅供建庫者個人使用 以 T a g s e t 從簡化賦碼的角度出發(fā) 可直接使 避免版權糾紛 用詞性賦碼軟件中集成的方案 而不必另尋它 2 2 語料的賦碼路 目前進行詞性賦碼比較流行的工具有A n 以上述方式獲得的語料還要清除雜質和多 n o T 0 0 l 和G o T a g g e r 軟件 G o T a g g e r 是G o t oK a 余符號 并統(tǒng)一語料的格式和存放方式 語料z u a k i 日本 以D e l p h i 寫成的一款簡便的詞性 最好是每一個文本作為一個獨立文件單獨存賦碼軟件 所以不需要運行A c t i v e x 或D 1 1 文 放 這樣 研究時就可得出每個文本的統(tǒng)計特征件就可以直接在w i n d o w s 上運行 其自帶的賦 及整個語料庫的總體統(tǒng)計特征 如果語料庫是碼方案原來是針對法語的 我們必須將其賦碼 一個文件 那么就只能檢測出整個語料庫的總方案先替換成英語賦碼方案 然后再進行賦碼 體統(tǒng)計特征舊1 語料賦碼工作的第一步通常是具體方法如下 加注篇頭 h e a d e r 即給語料標注篇名 作者 第一步 下載G o T a g g e r 軟件h t t p u l u l l l 文本 領域 語體 時代 出版信息 文本字數 l a n g o s a k a u a c j p 一k g o t o G o T a g g e r z i p 并 等MJ 一般做法是將上述信息分別填入尖括號解壓 中并放置在文本第一句前面 例如 第二步 在h t t p r e s e a r c h D I Y s o f t c o 瑚 該軟件可以到s D N 公司主頁h t t p j a s u n c o I n j 2 s e 1 5 0 d o w I l l o a d j s p 下載 2 0 0 6 加5 1 9 標注來源于中國學習者語料庫 桂詩春 楊惠中 中國學習者英語語料庫 上海 上海外語教育出版社 2 0 0 3 隨書光盤s T 6 子 庫首頁第一行 G O T a g g e r 可以在以下地址下載 h t t p u l u m 1 a n g o s a k a u a c j p k g o t o G O T a g g e r z i p 具體方法在h t t p u l u m 1 a g o s a k a a c j p k g o t o i n d e x h t m l 有詳細介紹 萬方數據 中國科技翻譯2 0 卷 一b r i l L 下載B r i U 賦碼方案 另外一個下載地 址是h t t p w w w c s j h u e d u b r i l L R B T l 1 4 t a r Z 第三步 解壓賦碼方案文件 拷貝 B i na n d D a t a 文件夾中的1 0 個方案文件并將文件粘貼 到G O T a g g e r 文件夾中的 Gd a t a 子文件夾中 第四步 點擊G o T a g g e r 圖標 這時G o T a g g e r 軟件就可以正常使用了 G o T a g g e r 不兼容中文 界面中文標記的文 件夾會顯示成日語片假名 所以電腦中的相關 文件夾以英文命名會更方便 G o T a g g e r 主界面 如圖2 圖2 例r a g g e r 主界面 點擊圖標打開G o T a g g e r 的主界面后 需在 左側窗口選擇賦碼文件所在的文件夾 進入文 件夾后選藍文件 點擊 A d d 按鈕然后單擊 s t a n 這時賦碼就自動進行 賦碼前 還可在 主界面 D e s t i n a t i o no fo u t p u t s 對話框中預先選 擇結果的保存文件夾 一般是在硬盤上先建立 一個新文件夾并命名為 T a g g e d 經過賦碼的 文件會自動保存其中 G o T a g g e r 軟件的優(yōu)點在 于它有批處理功能 將需要賦碼的大量文件一 次性處理完畢 2 3 語料的整合 語料賦碼完成后 要用語料庫工具軟件將 所有語料整合起來 這項工作交給c o m p u l a n g w o r d P i l o t 完成 C o m p u l a n gw o r d P i l o t 是香港科 技大學開發(fā)的一款旨在提高學生英語口語和寫 作水平的小型應用軟件 由于具備強大的檢 索功能和軟件自身開放性的特點 可以將它作 為小型語料庫的建庫工具使用 1 w o r d P i l o t 主界面如圖3 語料庫建庫過程的具體方法如下 第一步 在w o r d P i l o t 所在安裝文件夾 c o m p u l a n g w o r d P i l o t2 0 0 2 l i b r a r i e s 子文件夾 中創(chuàng)建一個名為t r a n s l a t i o n 的文件夾 將所搜集 的純文本語料拷貝其中 第二步 點擊w o r d P i l o t 桌面圖標 然后點 擊F i l e 中的N e w 選項 出現(xiàn)新建對話框 選擇 t e x tl i b r a r y 選項 第三步 點擊E d i t 的A d dt e x t 選項 在系統(tǒng) 彈出的對話框中打開存放在t r a n s l a t i o n 文件夾 的純文本格式文件 第四步 點擊F i l e 中的s a v ea s 選項 在對 話框中鍵人t r a n s l a t i o n 保存為 c l b 格式文件即 可 這樣小型翻譯語料庫就制作完成 以這種 方式建立的小型語料庫是開放性的 o p e nc o r p u s 可以根據工作的需要不斷增加新的語料 或建立新的子語料庫 由于庫引擎軟件w o r d P i l o t 具備如k w i c 檢索 練習題和試題自動生成 等多項教輔功能 除用作語料庫引擎軟件之外 還可以充分利用這些功能輔助我們的翻譯教 學 w o r d P i l o t 不能讀取經過賦碼的語料 對保 存在上述T a g g e d 文件夾的語料需要利用其它 軟件可以在h t l p w w w c o l p u l a n g c o m 下載 網頁上還有使用介紹 萬方數據 2 期 趙宏展 小型翻譯語料庫的D I Y3 5 工具軟件如M i c r o C o n c o r d w o r d s m i t h 進行分析和研究 圖3 w o r d P i l o t2 0 0 2 的主界面 3 結語 語料庫的建立在全國范圍方興未艾 語料 庫及其應用軟件為翻譯教學和科研提供了一個 全新的思路和方法 通過個人建立小型翻譯語 料庫 廣大翻譯課教師和研究人員可以加深對 語料庫這一新的研究領域和科研方法的認識 方便自己的教學和科研工作并能有效克服所謂 的 技術恐懼癥 辛克萊 2 0 0 4 認為 在語 料庫研究的許多領域 情勢仍很不穩(wěn)定 難以制 定和實施明確 嚴謹的標準 小型翻譯語料庫 作為一個全新的領域 有太多有待解決的問題 即便是小型語料庫的定義目前語料庫語言學界 也尚未達成一致意見 以上建立小型翻譯語料 庫的方法仍有不成熟 不完備的地方 在此僅供 學界參考 4 參考文獻 1 G u yA s t o n C o r p o r ai nL a n g L l a g eP e d a 9 0 舒 M 砒c h i n g7 n e o r y a n dP r a c t i c e i nP T i n c i p l e s 楊惠中 中國學習者英語語料庫 2003 5 查看詳情 2006 6 查看詳情 2006 7
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年巴音郭楞年貨運從業(yè)資格證
- 2025年池州貨車上崗證理論模擬考試題庫
- 2024年度醫(yī)院陪護人員雇傭合同3篇
- 2025廢料買賣交易合同
- 2024年信用卡借款條款3篇
- 2024年度金融投資生意合作合同協(xié)議3篇
- 2025建設工程施工承包合同農村飲水安全工程施工承包合同
- 2024年二次抵押借款房產合同3篇
- 2024年標準型吊車買賣合同
- 煙草企業(yè)煙草浸泡液水質維護條例
- 人工智能技術咨詢行業(yè)可行性分析報告
- 2024 年度校長述職報告:堅守教育初心鑄就卓越未來
- 2024年建筑施工起重機械設備安全管理制度(3篇)
- 2024年采購工作規(guī)劃
- 機電傳動控制自動運輸線-課程設計
- 知行合一 - 社會實踐?創(chuàng)新創(chuàng)業(yè)(江西師范大學)知到智慧樹章節(jié)答案
- 城市排水系統(tǒng)維護員合同范例
- 人教版英語八年級上冊《Unit 10 If you go to the party,you'll have a great time!》大單元整體教學設計2022課標
- 2024年度文化旅游產業(yè)投資與運營合同6篇
- 胸痛的診斷及護理
- 列管式(正丁醇)換熱器設計
評論
0/150
提交評論