語料庫的創(chuàng)建與應(yīng)用_第1頁
語料庫的創(chuàng)建與應(yīng)用_第2頁
語料庫的創(chuàng)建與應(yīng)用_第3頁
語料庫的創(chuàng)建與應(yīng)用_第4頁
語料庫的創(chuàng)建與應(yīng)用_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、語料庫的創(chuàng)建與應(yīng)用管新潮管新潮上海交通大學(xué)外國語學(xué)院上海交通大學(xué)外國語學(xué)院2016-11-231)語料庫類型)語料庫類型2)語料選取原則與操作標(biāo)準(zhǔn))語料選取原則與操作標(biāo)準(zhǔn)3)語料庫規(guī)模)語料庫規(guī)模4)語料句對齊標(biāo)準(zhǔn))語料句對齊標(biāo)準(zhǔn)5)語料庫的制作)語料庫的制作6)數(shù)據(jù)挖掘)數(shù)據(jù)挖掘7)翻譯教學(xué))翻譯教學(xué)8)翻譯研究)翻譯研究9)語料的版權(quán))語料的版權(quán)10)語料的質(zhì)量)語料的質(zhì)量11)語料庫與翻譯創(chuàng)造力)語料庫與翻譯創(chuàng)造力12)語料庫的應(yīng)用)語料庫的應(yīng)用1)語料庫類型平行語料庫:源語文本平行語料庫:源語文本+目的語文本目的語文本雙語平行語料庫:英語雙語平行語料庫:英語+漢語或德語漢語或德語+漢語

2、漢語多語平行語料庫:兩種以上語言多語平行語料庫:兩種以上語言雙向平行語料庫:英漢雙向平行語料庫:英漢+漢英漢英單向平行語料庫:英漢或漢英單向平行語料庫:英漢或漢英1)語料庫類型可比語料庫:語料具有可比性可比語料庫:語料具有可比性單語可比語料庫:單語可比語料庫:翻譯文本翻譯文本+原創(chuàng)文本原創(chuàng)文本(政府工作報(bào)告英文版(政府工作報(bào)告英文版+美美國國情咨文)國國情咨文)雙語可比語料庫:雙語可比語料庫:無翻譯關(guān)系的雙語文本無翻譯關(guān)系的雙語文本(德國有限責(zé)任公司法和(德國有限責(zé)任公司法和中華人民共和國公司法中華人民共和國公司法術(shù)語)術(shù)語)語料可比性語料可比性1)語料庫類型翻譯語料庫:翻譯文本翻譯語料庫:翻

3、譯文本口語語料庫口語語料庫:標(biāo)注?(蒙特雷):標(biāo)注?(蒙特雷)2)語料選取原則與操作標(biāo)準(zhǔn)代表性或影響力原則代表性或影響力原則可及性原則可及性原則時(shí)間原則(胡開寶,時(shí)間原則(胡開寶,2011:45-46)質(zhì)量原則質(zhì)量原則專業(yè)分類原則專業(yè)分類原則2)語料選取原則與操作標(biāo)準(zhǔn)原文與譯文呈一一對應(yīng)關(guān)系;原文與譯文呈一一對應(yīng)關(guān)系;原文應(yīng)具備一定的文筆表現(xiàn)力;原文應(yīng)具備一定的文筆表現(xiàn)力;譯文應(yīng)符合所在國的閱讀習(xí)慣和表述要求,譯文應(yīng)符合所在國的閱讀習(xí)慣和表述要求,同樣具備一定的文筆表現(xiàn)力,而且該譯文是經(jīng)同樣具備一定的文筆表現(xiàn)力,而且該譯文是經(jīng)過認(rèn)可的;過認(rèn)可的;按專題模塊匯集語料,使語料文本具有同質(zhì)按專題模塊

4、匯集語料,使語料文本具有同質(zhì)性;性;選用具有代表性的語料文本;選用具有代表性的語料文本;所選用的每一篇語料文本都是一個(gè)完整的單所選用的每一篇語料文本都是一個(gè)完整的單元。元。2)語料選取原則與操作標(biāo)準(zhǔn)例如:英漢醫(yī)學(xué)平行語料庫例如:英漢醫(yī)學(xué)平行語料庫以圖書、論文、報(bào)告為主,以圖書、論文、報(bào)告為主,專業(yè)方向涉及微生物學(xué)、生物化學(xué)、解剖學(xué)、病理學(xué)、藥理學(xué)、臨專業(yè)方向涉及微生物學(xué)、生物化學(xué)、解剖學(xué)、病理學(xué)、藥理學(xué)、臨床診斷學(xué)、內(nèi)科學(xué)、外科學(xué)、婦產(chǎn)科學(xué)、兒科學(xué)、眼科學(xué)、耳鼻咽床診斷學(xué)、內(nèi)科學(xué)、外科學(xué)、婦產(chǎn)科學(xué)、兒科學(xué)、眼科學(xué)、耳鼻咽喉科學(xué)、口腔醫(yī)學(xué)、皮膚病學(xué)、神經(jīng)病學(xué)、精神病學(xué)、感染病學(xué)等。喉科學(xué)、口腔醫(yī)

5、學(xué)、皮膚病學(xué)、神經(jīng)病學(xué)、精神病學(xué)、感染病學(xué)等。3)語料庫規(guī)模BNC(Britisch National Corpus):超):超1億詞億詞COCA(Corpus of Contemporary American English):):4.5億億詞詞DWDS( Das Digitale Wrterbuch der deutschen Sprache ):):25億詞億詞3)語料庫規(guī)模北外漢英對應(yīng)語料庫:北外漢英對應(yīng)語料庫:3000萬字詞萬字詞中國法律法規(guī)漢英平行語料庫:中國法律法規(guī)漢英平行語料庫:2200萬字詞萬字詞莎士比亞戲劇英漢平行語料庫:莎士比亞戲劇英漢平行語料庫:600萬字詞萬字詞英漢醫(yī)

6、學(xué)平行語料庫:英漢醫(yī)學(xué)平行語料庫:1000萬字詞萬字詞英漢科普平行語料庫(郭鴻杰):英漢科普平行語料庫(郭鴻杰):1000萬字詞萬字詞中國英漢平行語料庫(王克非):中國英漢平行語料庫(王克非):1億字詞億字詞3)語料庫規(guī)模應(yīng)用于翻譯實(shí)踐的語料庫規(guī)模究竟要多大?應(yīng)用于翻譯實(shí)踐的語料庫規(guī)模究竟要多大?4)語料句對齊標(biāo)準(zhǔn)學(xué)術(shù)研究學(xué)術(shù)研究翻譯實(shí)踐翻譯實(shí)踐句子單位句子單位4)語料句對齊標(biāo)準(zhǔn)英文原文與中文譯文的句子對齊以一一對應(yīng)為主,但也允許語句一英文原文與中文譯文的句子對齊以一一對應(yīng)為主,但也允許語句一對多或多對一等情況的存在。對多或多對一等情況的存在。一般以句號、分號、問號等為分句標(biāo)記,但總有例外情形

7、存在。這一般以句號、分號、問號等為分句標(biāo)記,但總有例外情形存在。這里最為重要的是,里最為重要的是,必須考慮到英文在句法邏輯上是一個(gè)完整的單元,必須考慮到英文在句法邏輯上是一個(gè)完整的單元,中文語句與之相應(yīng)匹配中文語句與之相應(yīng)匹配。5)語料庫的制作WORDPDF紙質(zhì)版紙質(zhì)版其他格式其他格式5)語料庫的制作語料的降噪處理:語料的降噪處理:公式、表格、圖片公式、表格、圖片“純純”文本文本5)語料庫的制作對齊工具:對齊工具:WinAlignParaConcAbbyy Aligner等等等等自行開發(fā)自行開發(fā)TMX-ParaConV5)語料庫的制作保存格式:保存格式:例如例如TMX,TXT目的在于多用途目的

8、在于多用途5)語料庫的制作TM庫的制作:庫的制作:1)Word格式(格式(WinAlign,Abbyy Aligner)2)Xliff格式(新建記憶庫、更新記憶庫等)格式(新建記憶庫、更新記憶庫等)3)Excel格式(格式(2007版或之前版本,版或之前版本,2009版或之后版本)版或之后版本)TMX Editor5)語料庫的制作5)語料庫的制作制作語料庫的有效方式:制作語料庫的有效方式:ABBYY Aligner + 自編軟件自編軟件 + ParaConc等等6)數(shù)據(jù)挖掘使用英文或漢語(須經(jīng)切分)單語導(dǎo)入使用英文或漢語(須經(jīng)切分)單語導(dǎo)入WordSmith或或AntConc進(jìn)進(jìn)行詞頻排序行詞

9、頻排序進(jìn)入雙語界面進(jìn)行檢索查詢:進(jìn)入雙語界面進(jìn)行檢索查詢:ParaConc或或Trados記憶庫界面記憶庫界面6)數(shù)據(jù)挖掘6)數(shù)據(jù)挖掘?qū)I(yè)通用詞(專業(yè)通用詞(General Words for Specific Purposes)法律(法律(action, award, damage)醫(yī)學(xué)(醫(yī)學(xué)(normal , management)海洋工程(海洋工程(high, sea)6)數(shù)據(jù)挖掘Article 14 Anti-Dumping Action on Behalf of a Third Country第第14條條 代表第三國的反傾銷代表第三國的反傾銷訴訟訴訟( action=law suit

10、)He was awarded $500 damages for injury he suffered in the accident.(award非非“獎(jiǎng)勵(lì)獎(jiǎng)勵(lì)”,是,是“法定裁定法定裁定”)()(damage非非“損壞損壞”,是,是“賠償金賠償金”)6)數(shù)據(jù)挖掘Liver function tests gave normal results.肝功能檢驗(yàn)均肝功能檢驗(yàn)均無異常無異常發(fā)發(fā)現(xiàn)?,F(xiàn)。normal saline生理鹽水生理鹽水6)數(shù)據(jù)挖掘Disease management is an approach to coordinate resources across the health

11、 care.疾病管理疾病管理是一種協(xié)調(diào)醫(yī)療衛(wèi)生系統(tǒng)資源的是一種協(xié)調(diào)醫(yī)療衛(wèi)生系統(tǒng)資源的手段。手段。The mortality rate of patients with no change in their antibiotic management抗生素抗生素治療治療未改變的患者死亡率未改變的患者死亡率6)數(shù)據(jù)挖掘The legal status of the waters beyond the territorial seas of States bordering straits as exclusive economic zones or high seas海峽沿岸國領(lǐng)海以外的水域作為專

12、屬經(jīng)濟(jì)區(qū)或海峽沿岸國領(lǐng)海以外的水域作為專屬經(jīng)濟(jì)區(qū)或公海公海的法律地位的法律地位in high sea states can lead to low-cycle fatigue in the pipe在在狂浪海況狂浪海況下可導(dǎo)致管道產(chǎn)生低周期的疲勞應(yīng)力下可導(dǎo)致管道產(chǎn)生低周期的疲勞應(yīng)力7)翻譯教學(xué)一、自主學(xué)習(xí):一、自主學(xué)習(xí):工具:工具:WordSmith,ParaConc,Trados記憶庫記憶庫語料庫:英漢雙向法律平行語料庫語料庫:英漢雙向法律平行語料庫7)翻譯教學(xué)二、翻譯質(zhì)量控制二、翻譯質(zhì)量控制1.72術(shù)語確認(rèn)和檢索術(shù)語確認(rèn)和檢索搭配檢索搭配檢索7)翻譯教學(xué)三、譯文文筆三、譯文文筆翻譯能力翻譯

13、能力法律法律 = 醫(yī)學(xué)醫(yī)學(xué) = 海洋工程海洋工程適應(yīng)面適應(yīng)面語料庫庫容語料庫庫容8)翻譯研究語料庫翻譯學(xué)定義(胡開寶,語料庫翻譯學(xué)定義(胡開寶,2011):):以語料庫為基礎(chǔ),以語料庫為基礎(chǔ),以真實(shí)的雙語語料和翻譯語料為研究對象,以真實(shí)的雙語語料和翻譯語料為研究對象,以數(shù)據(jù)統(tǒng)計(jì)和理論分析為研究方法,以數(shù)據(jù)統(tǒng)計(jì)和理論分析為研究方法,依據(jù)語言學(xué)、文學(xué)和文化理論及翻譯學(xué)理論,依據(jù)語言學(xué)、文學(xué)和文化理論及翻譯學(xué)理論,系統(tǒng)分析翻譯本質(zhì)、翻譯過程和翻譯現(xiàn)象等內(nèi)系統(tǒng)分析翻譯本質(zhì)、翻譯過程和翻譯現(xiàn)象等內(nèi)容的研究容的研究8)翻譯研究翻譯共性:普遍性特征翻譯共性:普遍性特征譯者風(fēng)格:譯者在語言應(yīng)用上所表現(xiàn)出的特體

14、特征譯者風(fēng)格:譯者在語言應(yīng)用上所表現(xiàn)出的特體特征翻譯規(guī)范:譯者在選擇翻譯策略時(shí)應(yīng)遵循的規(guī)范翻譯規(guī)范:譯者在選擇翻譯策略時(shí)應(yīng)遵循的規(guī)范8)翻譯研究例如,顯化與隱化例如,顯化與隱化顯化是翻譯文本將源。語文本中隱含的信息或表述不清晰的信息以顯化是翻譯文本將源。語文本中隱含的信息或表述不清晰的信息以明確的表述表達(dá)出來,以方便讀者理解。明確的表述表達(dá)出來,以方便讀者理解。隱化是指源語文本中以詞匯手段明示的意義或信息在目的語文本中隱化是指源語文本中以詞匯手段明示的意義或信息在目的語文本中隱含于具體語境中。隱含于具體語境中。形式化程度高的語言翻譯成形式化程度較低的語言時(shí),隱化趨勢遞形式化程度高的語言翻譯成形

15、式化程度較低的語言時(shí),隱化趨勢遞增增。8)翻譯研究翻譯實(shí)踐研究翻譯實(shí)踐研究9)語料的版權(quán)用于研究的語料用于研究的語料例如,香港城市大學(xué)例如,香港城市大學(xué)用于公開發(fā)布的語料用于公開發(fā)布的語料公司語料公司語料10)語料的質(zhì)量出版級別語料出版級別語料機(jī)器翻譯語料機(jī)器翻譯語料網(wǎng)絡(luò)爬蟲語料網(wǎng)絡(luò)爬蟲語料10)語料的質(zhì)量好翻譯的定義:好翻譯的定義:譯文完全轉(zhuǎn)化了原文的含義、表述簡潔、易于理解,譯文完全轉(zhuǎn)化了原文的含義、表述簡潔、易于理解,符合譯文所屬特定領(lǐng)域的要求以及語言文化方面的習(xí)慣表述要求,符合譯文所屬特定領(lǐng)域的要求以及語言文化方面的習(xí)慣表述要求,同時(shí)資深譯員在譯文校訂以及專業(yè)審讀在譯文審讀時(shí)都認(rèn)為譯文已同時(shí)資深譯員在譯文校訂以及專業(yè)審讀在譯文審讀時(shí)都認(rèn)為譯文已無需任何修改。無需任何修改。11)語料庫與翻譯創(chuàng)造力Kirsten Malmkjr 語料庫與譯者培養(yǎng)語料庫與譯者培養(yǎng)外研社外研社200711)語料庫與翻譯創(chuàng)造力

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論