版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、古今漢語平行語料庫的語料構建一緣起“漢語是世界上正在使用的語言中最古老的語種之一。漢語古籍無論是數(shù)量還是涉及的范圍及其歷史跨度,在世界上都是無與倫比的?!睜N爛悠久的中國思想文化,通過這些典籍得以保 存、傳承,在歷經(jīng)千載的延續(xù)過程中,又得后人的認識和研究,融入新的內涵,由此構筑了中國的古代文明。今天,這些承載著中華民族燦爛文明的典籍仍在被廣泛地使用著,尤其在人文學科領域的應用價值更是顯而易見。同時,隨著大眾文化水平的提高、經(jīng)濟的發(fā)展與對外往來的增加,越來越多的非專業(yè)人士希望深入 了解中國傳 統(tǒng)的思想文化,但古代漢語與現(xiàn)代漢語之間存在著的明顯差異使得很多現(xiàn)代人難以理解以古漢語為載體的傳統(tǒng)典籍。有鑒
2、于此,我們提出要建設一個大型、開放的古今漢語平行語料庫及其應用平臺,為古籍整理和翻譯 (含機器翻譯或機器輔助翻 譯)、古代漢語教學與研究以及辭書編纂提供 基礎資源,為需要了解中國傳統(tǒng)思想文化的普通讀者及相關學科的專家提 供閱讀、翻譯、檢索、統(tǒng)計服務,并為與現(xiàn)有的漢英雙語語料庫的對接奠 定基礎,從而為實現(xiàn)古漢語和英語的翻譯(含機器翻譯或機器輔助翻譯)創(chuàng)造條件。平行語料原指使用不同語言撰寫、相互間具有“翻譯關系”的文本,本文將其延展為基于同一語言且不同歷史時期兼具有“翻譯關系”的文本,就漢語而言,即指“古今漢語”。平行語 料庫已被 系統(tǒng)地應用到自然語言處理中,包括建立翻譯記憶、編纂詞典和雙語術語表
3、、跨語言信息檢索、計算機輔助教學、語言 對比研究等。國外涉及漢 語的平行語料庫中影響較大的是與Freiburg-LOB Corpus of BritishEnglish(即FLOB平行對應的漢語語料庫 LCM (The Lan caster Corpus of Ma ndarin Chinese )。國內的主要研究有北京大學計算語言學研究所的漢英雙語語料庫以及北京外國語大學擁有的目前國內最大的雙語平行語料庫(含漢英和漢日兩個庫)等1。就目前來看,國內 外涉及漢語的平行語料庫基本 上都是現(xiàn)代漢語與外語的平行語料庫,鮮見有影響的、大規(guī)模的古今漢語平行語料庫。就應用層面而言,古今漢語平行語料庫的價值
4、主要體現(xiàn)在: 為古今漢語的機器翻譯或機器輔助翻譯提供基礎資源。古今漢語平行語料庫中對齊的語料或作為翻譯資源使用,或用作翻譯統(tǒng)計建模的訓練資源。為古漢語教學與古今漢語對比研究提供基礎資源。普通用戶通過該平臺的閱讀、翻譯、查詢功能,既 可以隨時獲取他們需要的有關古代典籍和文化 的信息,也可以接受系統(tǒng)的古代漢語專業(yè)訓練。研究人員則可以通過檢 索統(tǒng)計在語境中把握特定詞或結構的語義和句法特征,觀察古今漢語之間的傳承關系,歸納古今漢語的發(fā)展規(guī)律。提高古今漢語辭書的編纂質量和效率。到目前為止,還沒有基于大型語料庫的古代漢語和現(xiàn) 代漢語辭書問世。該語料庫及應用平臺的構建將為辭書編纂中經(jīng)常遇到的字頻和詞頻的統(tǒng)計
5、、字頭和詞目的確立、書證和 用例的選擇、 字義和詞義的表述等技術操作提供客觀依據(jù),從而 為這類辭書的問世創(chuàng)造條件。與現(xiàn)有的一些語料庫相比,古今漢語平行語料庫的特點是:兩種語料的平行對應性(古代漢語與現(xiàn)代漢語);象的廣泛服務對性(普通人群與專業(yè)研究人員);實用性!白胸部H直兼顧);通用性(采JXML標注體系);放,窿(可以隨時增加語料)。它的建設主要包括語料的構建、組 織與應用平臺的開發(fā)三個方面語料的構建籌建語料庫之初, 首先應考慮的是語料庫的建設目標,這樣才能決定選擇語料的范圍、 分布、規(guī)模,建立可查詢的分類體系,進而采集實際的文本2。這里需要明確的是,我們所說的古漢 語是指文言,即以先秦口語
6、為基礎而形成的上古漢語書面語,如詩、書、禮、春秋、老子、 論語、 荀子等所使用的;以及后來歷代作者仿古作品中所使用的語言,如兩漢詩文歌賦、唐宋散文等。1語料的選擇選擇語料時要注意語料的代表性和質量。我國歷史悠久,文化遺產豐富,用文言記錄的典章、制度、史料以及撰寫的文學作品多到不可計數(shù)。由于時間跨度大(上下三千多年),不同時代、不同體裁的文言作 品,其語言特點有很大差異。最能反映文言原 貌的,莫過于先秦兩漢的作品,其次是唐宋以后的仿古文言文。所以,古代漢語的研究對象,應以先秦兩漢作品為主,兼及唐宋 以后的仿古文言文。 清朝康熙年間吳楚 材、吳調侯叔侄編選評注 的古文觀止,上起東周,下至明末,選古
7、代散文二百二十二 篇;其中,先秦入選七十二篇,唐代入選四十三篇,宋代入選五 十一篇,共占選文的百分之七十以上;先秦散文作為中國古代散文的源頭,左傳、國語、戰(zhàn)國策各有獨特的成就,對后世有著深遠的影響;古文觀止中左傳有三十四篇、國語十四篇、戰(zhàn)國策十一篇,共占先秦部分的百分之九十五以上。有鑒于此,我們采用了先秦的三部史書左傳、國語、戰(zhàn)國策的原文(計五十萬字)與現(xiàn)代譯文(計七 十萬字)共約一百二十萬字作為古今漢 語平行語料庫的首批語料 錄入。由于我們建設的是古今漢語平行語料庫,因此需要同時考慮 古文原文與今文譯文的質量。 古文原文的質量主要由選取的版本 所決定。為 此,我們選擇了上海古籍出版社 198
8、3年版黃侃手 批白文十三經(jīng)中的 左傳、1998年版的國語(以四 部備要排印清代士禮居翻 刻明道本為底本, 參校了四部叢刊 影印明代翻刻公序本)與1985年 版戰(zhàn)國策(以姚本為底 本,匯集鮑、吳諸人的注文以及清黃丕烈的 戰(zhàn)國策札記)作 為古文原文的依據(jù)。 今文譯文的質量比較難以把 握,也是古今漢 語平行語料庫建設的難點。 考慮到語料庫的應用目標, 統(tǒng)一采用 直譯方式,注重詞匯和語法結構的對應,由北京師范大學漢語言文字學專業(yè)的研究生負責對已有的譯文進行復查和加工。2語料的采集語料的采集有兩種方法, 一是通過光電掃描或鍵盤輸入制作 電子文 本,一是利用網(wǎng)絡上已有的電子文本,并將其轉化為所需 的格式2
9、。我們是在保證質量的前提下采用后一種方式,這樣不僅避免簡單的重復勞動,又可以降低語料庫的建設成本,提高效率。目前網(wǎng)絡上已有很多左傳、國語和戰(zhàn)國策的 免費共享資源,雖然所依據(jù)的版本不一、內容不盡相同、格式也 多種多樣,但經(jīng)過處理加工后,可以滿足課題 的要求。因此,經(jīng) 過大量搜集、整理、比較之后,最終擇定了三種不同的 電子版來 源,互為補充。需要強調的是,這些電子版均是以前述確定的印 刷本底本作為制作依據(jù)的。3語料的格式化除了語料質量, 還應保持語料庫中語料存儲的規(guī)范性。從網(wǎng)上采集的原始語料需加工為統(tǒng)一的格式后才能進入到語料庫中。由表1可看出,網(wǎng)上語料的類型多種多樣,常見的有HTML、PDF、Wo
10、rd等。這些文檔類型的缺點是除了內容以外,還包含了許多頁面顯示的格式標記。 為了保持語料的純潔性, 我們將各種語料 統(tǒng)一轉化為純文本(TEXT格式,即 以.txt文件的形式存儲, 以借助TEXT文檔中不含任何頁面顯示標記的特 點避免“臟字符”對語料內容的干擾。同時,鑒于這些原始語料所使用的字符集、字體、標點符號以及排版格式也各不相同,需用進行規(guī)范化處理,因此我們規(guī)定: 語料中的古文原文與注釋采用繁體字,譯文采用簡體字; 使用“宋體方正超大”字符集; 采用現(xiàn)代中文標點符號。(用“代替,用代替線用堀#61531;替,下劃波浪線用代替);有文本T律橫排版;TEXT文本設置為“不自動換行”;所有行一律
11、左對齊,起始處沒有空格;首段是題目,段與段之間空一行;古文原文與今文譯文是一句一行(以冒號、句號、感嘆號、問號為結束標志);每條注釋單獨一行,注釋號為“ 1,2,”,注釋號與注釋之間不空格;Q0)摩獺細g注處標明注釋號, 注釋號同樣為“ 1,2,” ;(ii)古文每段段末有段的起 始頁碼,用中文括號括起,單獨占一行。對 于同一語料的兩個不同電子來源, 我們采用了Beyond Compare軟件自動比對兩者的差異,過濾了大部分的錯誤,再以其中錯 誤較少的來 源作為底本,進行人工校對,從而大大提高了工作效 率和語料質量。網(wǎng)上下載的原始語料均是以“書”的形式存儲的,粒度太大,不易于語料庫的靈活應用,
12、需要對語料進行分割與命名。左傳是編年體史書,以春秋一萬六千余字為經(jīng)、為綱,而自己為 傳、為目,補敘其歷史原委的著作;國語是國別體 史書,全書二十一卷,記錄了周、魯、齊、晉、關B、楚、吳、越 八國的史事;戰(zhàn)國策也是國 別體史書,分33卷,按東周、西周、秦、齊、楚、趙、魏、韓、燕、宋、 衛(wèi)、中山的次序,輯 錄與十二國有關的史事 497條。為了保持語料分割后 的完整性和相對獨立性,我們將語料按篇章級單位存儲。國語、戰(zhàn) 國策均以史事為篇章級別單位,左傳則以君王紀年為篇章級 別單位。每一篇章,又分為古文原文、今文譯文與注釋三個文件分別存儲,篇章級間的對齊關系由相同的文件號實現(xiàn)。同一篇文章的古文原文文件名
13、為Gxxyyzz ,今文譯文文件名為 Jxxyyzz ,注釋文件名為 Zxxyyzzz。xx 為書號(其中“ 01”表示國語,“02”表示戰(zhàn)國策,“03”表示 左傳);yy為卷號(左傳卷號與卷名按君王謚號,如“ 01表示“卷一隱公”);zz為卷內篇號(左傳的篇號即年號,如“ 01”表示“某公 元年”,“00”表 示“前傳”,只在“卷一隱公”中有; 國語與戰(zhàn)國策的篇號篇 名參考上海古籍出版社 1998年國語與1985年戰(zhàn)國策的目 錄)。4語料的對齊對于平行語料庫而言, 首先要對語料進行各級對齊工作,所謂對齊也就是原文與譯文之間互為翻譯關系的篇章、段落、句對以致短語、詞匯的確定。其中最為重要的是句
14、子一級的對齊,這也是各種應用對平行語料庫的一個最基本的需求。更深一層的加 工包括:短語一級與詞匯一級的對齊、句法標注、短語標注、分 詞、詞性標注、注音等3。?句子的對齊要求如上文所述,我們語料庫中 TEXT類型的古文原文與今文譯 文之間的 篇章級對齊是由相同的文件號來實現(xiàn)的。段落之間的對 齊則是由相同的段落號來實現(xiàn)的。不同于以上兩個級別的對齊,句子之間的翻譯關系除了基本的“ 1: 1”模式外,還存在“ 1: n”、“ n: 1”與“m n”模 式。為此,我們把互為翻譯關系的 原文或譯文中的一個或多個句子稱為一 個句子對齊單位, 簡稱句 對。TEXT文檔中句子對齊單位之間的翻譯關系 是由相同的行
15、號實現(xiàn)的,即文檔中獨立的一行(注意我們在語料格式化 時是不允 許TEXT文檔自動換行的)就是一個句子對齊單位,它可能包含 一個或多個句子。上文提到,在語料的格式化處理中,原譯文中的句子都是一句一行,因此現(xiàn)在需要人工進行句子一級的對齊。應該注意的是,文中的標點符號如感嘆號、問號、引號、句號、分號等往往會反映原譯文之間的翻譯關系,需要對齊。止匕外,由于文言文喜用倒裝的關系, 翻譯時會出現(xiàn)句序問題。 如國語卷六 第一篇中“桓公使T?,如? U叔之言?!?應翻譯為“于是照鮑叔 說的那樣,桓公派人向魯國提出要求。 ”也就是 說原文對齊單位中有兩個句子a、b,譯文對齊單位中也有兩個句子 c、 d,且c與b
16、, d與a構成實際的翻譯關系;此時,需要人工在譯文對齊 單位末尾標上“ ba”,以表明單個句子間的對應關系。如果涉及三個句子間的句序關系,則用“ a”、 b”、“ c”標記,以此類推。?輔助句子對齊工具譯文的質量,一定程度上,可以從句子一級的對齊工作得以 體現(xiàn)。 為了保持句子級對齊時的規(guī)范性與統(tǒng)一性進而使問題簡單化,應盡量使原文的句子對齊單位只包含一個古文句子。但鑒于在句子對齊時經(jīng)常遇到的以下三種情況: 一句原文對應多句 譯文,此時需要將譯文的多行合 并;多句原文對應一句譯文,此時可能需要將譯文的一行分割成多 行;多句原文對應多句譯文。因此需要特殊處理。5語料的XML標注作為一種基礎資源,語料
17、庫應以一種與平臺無關的形式存在并支持相對廣泛的應用, 從而便于統(tǒng)一管理以及語料的共享與交換4。而純文本類型的語料由于缺少其內容結構與含義之間聯(lián)系的標記,難于理解與應用。為了發(fā)揮語料庫的作用,需要對其進行標注。XML作為一種元標記語言,允許用戶定義特定領域的標記來描述文檔內容的結構和含義,因此又可以看作一套定義語 義標記的規(guī)則。作為基于 W3C定制的開放標準,XML能支持廣泛 的應用,從而成為源文檔與交換數(shù)據(jù)的理想格式。同時由于知曉 文檔內容的結構與含義(根據(jù) XML的語法規(guī)則),所以很容易在XML文檔中進行與上下文有關的搜索,提高查全率與查準率。因 此,我們決定采用XMLL乍為古今漢語平行語料
18、庫的標注語言。而語料庫標注的內容與語料加工的深度及應用的目標有關。表2是我們制定的句子一級對齊的古今漢語平行語料庫XML標注規(guī)范。由于我們在語料的格式化和句子對齊過程中已經(jīng)做好了語料的結構化,因此古今漢語平行語料庫的XML文檔可由對齊后的純文本格式語料自動生成。鑒于 XML文檔的結構和內容是由其語 法定義的,因此XML支持對文檔內容的驗證。運用 XML模式(XML Schema可以方便地驗證文檔的有效性。表3是針對表2制定的古今漢語平行語料庫的 XML Schema。表3古今漢語平行語料庫 XML SchemaV ?xml versio n=1.0 en codi ng=GB2312”?V S
19、chema name=古今漢語平行語料庫標注規(guī)范”xmlns=urn:schemas-microsoft-com:xml-dataxmlns:dt=urn:schemas-microsoft-com:datatypesV !-屬性說明-V AttributeType name=ID出:type=idV !-ID-V /AttributeType V AttributeType name=SN dt:type=ui1v !-序號- V /AttributeType V AttributeType name=PN出:type=ui2/V AttributeType name=SENUM dt:ty
20、pe=ui1default=1/ V AttributeType name=ALC出:type=intdefault=1/ V AttributeType name=COC dt:type=enumerationdt:values= 人名地名待填default= 待填/ V AttributeType name=COA dt:type=stri ng/V!-頂層標簽說明-V ElementType name=TEXT content=eltOnly order=seqV attribute type=ID required=yes V !-文本號 V /attribute V element
21、type=TH minOccurs=1 maxOccurs=1/V element type=TB minOccurs=1 maxOccurs=1/ V /ElementType V !-二級標簽說明-V ElementType name=TH content=eltOnly order=seqV element type=TYPE minOccurs=1 maxOccurs=1/ V element type=BOOK minOccurs=1 maxOccurs=1/ V element type=VOL minOccurs=1 maxOccurs=1/ V element type=TIT
22、LE minOccurs=1 maxOccurs=1/V element type=PAGE minOccurs=1 maxOccurs=1/V /ElementType V ElementType name=TB content=mixed order=many V element type=PH minOccurs=1 maxOccurs=*/V /ElementType V !-TEXTHEAD 三級標簽說明-V ElementType name=TYPE content=textOnly dt:type=enumeration dt:values=原文譯文注釋/ V ElementTy
23、pe name=BOOK content=textOnly dt:type=enumeration dt:values=國語戰(zhàn)國策左傳/ V ElementType name=VOL content=textOnly dt:type=string V attribute type=SN required=yesV !-卷號-V /attribute V !-卷名-V /ElementType V ElementType name=TITLE content=textOnly dt:type=string V !-卷內篇號-VV attribute type=SN required=yes/at
24、tributeV /ElementType V !-篇名-V /ElementType V ElementType name=PAGE content=textOnlydt:type=ui2 v !-起始頁碼-V /ElementType V !-TEXTBODY 三級以下標簽說明-V ElementType name=PH content=mixedorder=many V attribute type=SN required=yes v !-文內段落 號-v /attribute V attribute type=PN required=yes V !-段起始頁 碼-v /attribut
25、e V element type=AL minOccurs=1 maxOccurs=*/V element type=CO minOccurs=0 maxOccurs=*/V /ElementType V ElementType name=AL content=mixed order=many V attribute type=SN required=yes V !-文內句子 對齊單 位號-v /attribute V attribute type=SENUM required=yes V !-對齊 單位內 句子數(shù)-v /attribute V attribute type=ALC requi
26、red=yesV !-對齊單V /ElementType 位內句序-V /attribute V element type=SE minOccurs=1 maxOccurs=*/V /ElementType V ElementType name=SE content=mixed order=manyV attribute type=SN required=yes V !-段內句子號-V /attribute V !-句子-V /ElementType V ElementType name=CO content=textOnlydt:type=string V attributetype=SN
27、required=yesV !-段內注釋V !-注釋類V !-注者-號-v /attribute V attribute type=COC required=yes型-v /attribute V attribute type=COA required=noV /attribute V !-原文中的注釋項或注釋中對應的注釋內容-V /ElementType V /Schema 三語料的組織與應用 大量經(jīng)過XML標注的語料要如何有效地存儲和查詢是能否V /ElementType 充分發(fā)揮語料作用的關鍵。 常用方法之一是在成熟的關系數(shù)據(jù)庫系統(tǒng)基礎上擴充相應功能, 使其能夠勝任XML數(shù)據(jù)的處理,又稱
28、為XML使能數(shù)據(jù)庫5。微軟開發(fā)的SQLServer 2000和SQL XMLWeb Release提供了強大的XML數(shù)據(jù)管理功能,這些功能致力 于關系數(shù) 據(jù)和XML數(shù)據(jù)之間的映射??梢允褂脦в信⒌?XSD (AXSD)來定義 關系數(shù)據(jù)的XML視圖,以便提供以XML為中心 的方法,從而支持XML 數(shù)據(jù)的批量數(shù)據(jù)加載、查詢和更新功能。Transact-SQL擴展則提供了以 SQL為中心的方法,以便將關系查詢結果映射到XML (使用FOR XML ,以及從XML生成關系視圖(使用Ope n XML )。而MS Microsoft SQL Server 2005 除了提供以上的支持,還新增了原生 XML支 持:XML值可以自然 地存儲在XML數(shù)據(jù)類型列中, 而后者可以根據(jù) XML架構集合進行類型化,或者保持非類型化;可將 XML列編入索引; 使用XQuery和XML DML可以支持細粒度的數(shù)據(jù)操作。從而提供了一種強大的平臺,以便針對半結構化和非結構化的數(shù)據(jù)管理開發(fā)功能豐富的應用程序6。鑒于古今漢語平行語料庫的用戶有普通人員和專業(yè)研究人員之分,而不同方向的研究者由于對象與方法的不同,對應用的 需求亦存在差異,綜合各類需求并參照國內外有關平行語料庫的平臺系統(tǒng),古今漢語平行語料庫的平臺除了應滿足簡單便捷、易學易
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度公益崗位用工合作協(xié)議3篇
- 2025年度電商平臺會員消費返利協(xié)議3篇
- 2025年度廢塑料瓶回收與環(huán)保瓶蓋生產合同樣板3篇
- 二零二五年度農機智能化作業(yè)合同書3篇
- 二零二五年度電子信息產品開發(fā)合作協(xié)議書2篇
- 二零二五年度消防安全風險評估與整改方案協(xié)議3篇
- 農村土地經(jīng)營權抵押貸款擔保合同
- 2025年度醫(yī)藥研發(fā)人員競業(yè)禁止勞動合同書3篇
- 2025年度餐飲業(yè)食品安全責任書3篇
- 二零二五年度歷史文化名城拆遷房產分割與文物保護合同3篇
- 醫(yī)院培訓課件:《痞滿(少陽太陰合?。┗颊咧嗅t(yī)個案護理》
- 泌尿外科抗菌藥物臨床應用規(guī)范
- JJG 633-2024 氣體容積式流量計
- 2023年河北中煙工業(yè)有限責任公司筆試試題及答案
- 物質與意識的辯證關系
- 小學英語考試教師總結反思8篇
- SJ-T 11798-2022 鋰離子電池和電池組生產安全要求
- 多智能體仿真支撐技術、組織與AI算法研究
- 安全管理中人因素
- 餐廳年度總結計劃
- 83廣東省深圳市寶安區(qū)2023-2024學年六年級上學期期末數(shù)學試卷
評論
0/150
提交評論