林業(yè)古籍?dāng)嗑淠J秸Z料庫建設(shè)方案探討——以《樹藝篇》為訓(xùn)練文本.doc_第1頁
林業(yè)古籍?dāng)嗑淠J秸Z料庫建設(shè)方案探討——以《樹藝篇》為訓(xùn)練文本.doc_第2頁
林業(yè)古籍?dāng)嗑淠J秸Z料庫建設(shè)方案探討——以《樹藝篇》為訓(xùn)練文本.doc_第3頁
林業(yè)古籍?dāng)嗑淠J秸Z料庫建設(shè)方案探討——以《樹藝篇》為訓(xùn)練文本.doc_第4頁
林業(yè)古籍?dāng)嗑淠J秸Z料庫建設(shè)方案探討——以《樹藝篇》為訓(xùn)練文本.doc_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

林業(yè)古籍?dāng)嗑淠J秸Z料庫建設(shè)方案探討以樹藝篇為訓(xùn)練文本 趙陽 (南京林業(yè)大學(xué)人文學(xué)院,江蘇南京210036) 【摘要】隨著中文信息處理技術(shù)的不斷提高,古籍自動(dòng)化標(biāo)點(diǎn)的研究也日益趨向成熟。但是現(xiàn)有的模式并不太適合林業(yè)類古籍。林業(yè)古籍有其獨(dú)特的表達(dá)和術(shù)語,與一般性質(zhì)的古籍存在區(qū)別的。本文以樹藝篇為訓(xùn)練文本,對林業(yè)古籍?dāng)嗑湔Z料庫的建設(shè)問題進(jìn)行探討。 關(guān)鍵詞林業(yè)古籍;斷句;語料庫;樹藝篇 ThisPaperProbesintotheCorpusConstructionSchemeofForestryAncientBooks intheShuYiPianforTrainingText ZHAOYang (NanjingForestryUniversityCollegeofHumanities,NanjingJiangsu2100036,China) 【Abstract】WiththeconstantimprovementoftheChineseinformationprocessingtechnology,thestudyofancientbooksautomationpunctuationalsoincreasinglymature.Buttheexistingmodelsarenotsuitableforforestrykindofancientbooks.Forestryancientbookshasitsuniqueexpressionandterminology,differencewithgeneralqualitativeancientbooks.Inthispaperwiththetreeartpaperfortrainingtext,discussestheproblemsonconstructionofforestryancientpunctuatecorpus. 【Keywords】Forestryancientbooks;Thepausing;Corpus;ShuYiPian 古籍?dāng)嗑?,是古籍?shí)踐中重要的組成部分。通過標(biāo)點(diǎn)原文,能夠區(qū)分出原文字句段落,厘清上下文關(guān)聯(lián),從而引導(dǎo)讀者理解內(nèi)容。這是非常有助于古籍的傳播和閱讀的。中國林業(yè)類古籍的主要功在收集,但其中僅有少量的文獻(xiàn)被標(biāo)點(diǎn)。那么如果希望更多的林業(yè)古籍被有效利用,就必須加大古籍的力度。中文信息處理技術(shù)的介入,提高了該領(lǐng)域的工作效率,這其中尤以自動(dòng)化標(biāo)點(diǎn)的實(shí)現(xiàn)最為緊要。目前已有不少這樣的研究成果:有古籍?dāng)嗑涞南到y(tǒng)結(jié)構(gòu)圖以及基于模式匹配的斷句方法;有基于前后n-gram模型的古漢語斷句算法和一種可用于古文自動(dòng)斷句的以兩個(gè)統(tǒng)計(jì)量互信息和測試差為特征的條件隨機(jī)場模型;另外xx年國學(xué)網(wǎng)還開放了一個(gè)古籍?dāng)嗑湓u測系統(tǒng)。但是林業(yè)古籍有其專業(yè)性,有該領(lǐng)域獨(dú)特的表達(dá)和術(shù)語,與一般的古籍是存在區(qū)別的。這就需要我們對林業(yè)古籍自動(dòng)化斷句方式進(jìn)行研究。而這其中的關(guān)鍵,就是建立斷句模式語料庫。 1斷句模式語料庫建設(shè)的必要及文本對象的選擇 斷句模式語料庫,是實(shí)現(xiàn)林業(yè)古籍自動(dòng)化斷句的基礎(chǔ),是建立識(shí)別特征的規(guī)則、數(shù)量、質(zhì)量的關(guān)鍵所在。這里對斷句模式語料庫的研究,特別強(qiáng)調(diào)林業(yè)古籍本身特征的提取,而不完全依賴于計(jì)算機(jī)識(shí)別程序的運(yùn)用。因?yàn)橛?jì)算機(jī)識(shí)別程序,有其基本的功能模塊,也能進(jìn)行專門的文本處理,但是如上所述,林業(yè)古籍與一般古籍的確實(shí)存在區(qū)別,所以應(yīng)該設(shè)置出更具針對性的模式語料庫,然后再結(jié)合計(jì)算機(jī)模式識(shí)別程序進(jìn)行操作。這里語料庫建設(shè)不是古籍原文的整體輸入,而是從事理邏輯、敘事層次、語義層次、語詞特征等性質(zhì)入手,建立起識(shí)別規(guī)則和模式,同時(shí)要兼顧古籍標(biāo)點(diǎn)中的諸多規(guī)定和限制,最終形成一套可以按照一定規(guī)則進(jìn)行優(yōu)化、合并,歸類的體系。這對林業(yè)古籍自動(dòng)點(diǎn)校的實(shí)現(xiàn)是非常重要的。 在文本對象的選擇上,本文選擇樹藝篇為實(shí)驗(yàn)對象。樹藝篇被列入子部農(nóng)家類,共33卷。整部書先列總目,后分列谷部、蔬部、草部、草藥部,木部、果部共六類。本論文主要以木部為研究對象,其中木部包含有合歡、榆楊柳、綿柳、白楊、黃楊等14種中國常見的樹種。木部的資料收集時(shí)間上跨越性較大,上及漢代,下迄明代。從材料性質(zhì)上看,不僅涉及到樹木的基本介紹、還有技術(shù)性指導(dǎo),甚至還有文學(xué)材料的介入;因此,選擇本書作為研究個(gè)案,具有較好的代表性。另外這部書到目前為止,沒有任何單行本或者合集的方式做過點(diǎn)校,相對選擇已有過點(diǎn)校本的古籍來說難度更大,從語料學(xué)角度看,具有代表性,從實(shí)踐意義來說,具有較大的開拓價(jià)值。 2林業(yè)古籍?dāng)嗑淠J秸Z料庫建設(shè)的難點(diǎn) 斷句模式語料庫的建設(shè),必須結(jié)合林業(yè)古籍本身特點(diǎn)來設(shè)計(jì),這里提出以下幾點(diǎn)難點(diǎn)問題:第一,重視林業(yè)古籍中的專門詞匯的分割。詞匯的分割一直也是人工古籍標(biāo)點(diǎn)的難點(diǎn)之一,有語言學(xué)者提出“語言中存在大量的復(fù)音詞語。它們無論是合成詞、聯(lián)綿詞還是短語,都作為一個(gè)造句單位使用,不容許割裂。如果在中間加上標(biāo)點(diǎn),就把它們一分為二,也就是點(diǎn)破了詞語,從而破壞了意義的完整,改變了整段乃至全篇文字的意旨。這也是句讀標(biāo)點(diǎn)中常見的錯(cuò)誤?!倍偶械脑~匯由于時(shí)代的變遷,詞匯的含義及使用都發(fā)生了變化。這樣的特征,再加上林業(yè)類詞匯有其專業(yè)性,所以詞匯的分割正確與否,直接關(guān)系到全文的連貫性。第二,注意詞句位置及歸屬。詞句的位置及歸屬判斷直接影響到閱讀者對文章的理解。一般古籍,可以借助上下文理解,或者借助史料背景去解決詞句歸屬的難點(diǎn),而林業(yè)古籍,從現(xiàn)代圖書分類來看,屬于技術(shù)類文本,所以出現(xiàn)詞句位置判斷失誤或者誤判歸屬的問題會(huì)更多。這其中必須加強(qiáng)對關(guān)鍵詞的判斷,如若關(guān)鍵詞判斷失誤,那么接下里的斷句也會(huì)產(chǎn)生較大的偏差。第三,注意林業(yè)古籍中的引文、補(bǔ)遺、注釋等文字。這類文字是引自各種方志類書,不同朝代,不同性質(zhì),甚至有些引用文獻(xiàn)都已亡佚。以樹藝篇為例,書后有章鈺手寫目錄,統(tǒng)計(jì)193種文獻(xiàn)。如木部榆這一條的論述中,所引各種文獻(xiàn)若干條,涉及到爾雅、廣志、云山志、九華志、武夷志、九江府志、興化府志、松江府志等等,這其中涉及到很豐富的背景知識(shí),有典章制度,官制,地理、風(fēng)俗習(xí)慣,典故等等,所以這是一個(gè)非常值得關(guān)注的問題。 3林業(yè)古籍?dāng)嗑湔Z料庫的標(biāo)注識(shí)別規(guī)則 傳統(tǒng)計(jì)算語言學(xué)基本離不開語料統(tǒng)計(jì),但是面對復(fù)雜的文本,還需要有針對性地結(jié)合一些規(guī)則。這里結(jié)合林業(yè)古籍的特征以及上述難點(diǎn),在古籍人工點(diǎn)校和計(jì)算機(jī)處理的雙重技術(shù)支撐下,考慮在普通古籍語料庫模式類型基礎(chǔ)上,著重以下幾條識(shí)別規(guī)則。識(shí)別規(guī)則實(shí)際上與標(biāo)注方式有關(guān),關(guān)鍵是將林業(yè)古籍文本的特色融合到標(biāo)注過程中,在此基礎(chǔ)上取得最優(yōu)的標(biāo)注效果。 3.1詞匯特征識(shí)別規(guī)則 在林業(yè)詞匯中,不少專業(yè)詞匯與普通古籍中的詞匯可能字面一樣,但是卻有獨(dú)特的含義。所以在林業(yè)古籍文獻(xiàn)的語料庫中,有必要將專業(yè)詞匯列入分詞識(shí)別規(guī)則中,否則會(huì)大大增加標(biāo)點(diǎn)的誤差率。目前有關(guān)命名實(shí)體化的方法日漸成熟,這里在技術(shù)上借鑒半監(jiān)督的中文信息處理手段,來實(shí)現(xiàn)林業(yè)專業(yè)術(shù)語的標(biāo)注。林業(yè)類詞匯可以分為直接表述性詞匯和簡介表述性詞匯。直接表述性詞匯包括植物類,植物部位詞,加工模式詞等,而間接表述性詞匯包括色彩詞、形狀詞、時(shí)間詞、地點(diǎn)詞等。林業(yè)類專業(yè)詞匯的特別處理,有助于標(biāo)注的效率。如樹藝篇中有一段文字:“圖經(jīng)曰合歡夜合也生益州山谷今近京雍洛間皆有之人家多植于庭除間木似梧桐枝甚柔弱葉似皂莢槐等極細(xì)而繁密互相交結(jié)每一風(fēng)來輒似相解了不相牽綴其葉至暮而合古一名合昏五月花發(fā)紅白色瓣上至秋而實(shí)作莢子極薄細(xì)采皮及藥用不抱時(shí)月?!边@段話中,“合歡”、“梧桐”、“皂莢”、“槐”、“合昏”、等是直接表述性詞匯中的植物類名稱(簡稱ZM),“花”、“枝”、“葉”、“瓣”、“莢子”、“皮“等屬于植物部位詞(簡稱ZB)。”植“、”交結(jié)“、”牽綴“、”采“為加工模式詞等(簡稱JG)。這些專業(yè)詞匯可以作為斷句的輔助依據(jù)。一般來說,如果ZM(ZB)后面是JG,那么考慮在ZM(ZB)前面做斷句;如果JG后面是ZM(ZB),一般在ZM(ZB)后面做斷句。 3.2事理邏輯斷句模式 林業(yè)古籍中的語言敘述的事理邏輯,與現(xiàn)代語言中的科技語體有部分相似。他的描述基本無贅語,簡約而規(guī)范。以樹藝篇中的“柳”為例。柳樹是中國傳統(tǒng)的樹種,早在先秦時(shí)期就有相關(guān)記錄。樹藝篇中有關(guān)于柳樹栽培技術(shù)的敘述:“種柳正月二月中取弱柳枝大如臂長一尺半燒下頭二三寸埋之令沒常足水以澆之必?cái)?shù)條俱生留一根茂者余悉掐去別豎一柱以為依主每一尺以長繩柱欄之若不欄必為風(fēng)所摧不能自立一年中即高一丈余其旁生枝葉即掐去令直聳上高下任人取足便掐去正心即四散下垂婀娜可愛若不掐心則枝不四散或斜或曲生亦不佳也”。這里有一些關(guān)鍵性的詞語“種”、“取”、“燒”、“埋”、“澆”、“留”、“掐”、“豎”等詞,還有數(shù)量單位“尺”、“寸”、“條”、“根”、“柱”、“丈”等。這里主要依賴于概念分類和概念之間的關(guān)系的判斷,在一大段話中,根據(jù)動(dòng)詞出現(xiàn)的位置,在前后考慮這里有可分割的片段,以此形成邏輯子語言來提供判定。比如在動(dòng)詞前或者后是否存在某相關(guān)概念,而關(guān)鍵詞語概念之間是否存在一定的關(guān)系。這樣的片段邏輯模式積累到一定程序,可以去歸納類型,最終在此基礎(chǔ)上構(gòu)造邏輯模型。 引文識(shí)別規(guī)則 在古籍文本中有豐富的引文資料存在,衡中青等學(xué)者針對引文的標(biāo)點(diǎn)問題構(gòu)建了一種引書挖掘系統(tǒng)。他提出若是作者直接稱引的可以將文本生成電子文本后,計(jì)算機(jī)直接抽?。蝗羰菦]有任何標(biāo)注的引文,可以使用模式識(shí)別方法加n-gram分詞法。這種方法并不是針對斷句功能建立的,他主要是用于后期的文獻(xiàn)計(jì)量分析,不過對斷句模式有一定的啟發(fā)。我們可以建立引文識(shí)別的邏輯語言模式:如“某某曰”、“某某記”、“某某志”,那么在此前或者此后,就應(yīng)該考慮斷句。這里特別注意的是,因?yàn)榱謽I(yè)古籍中有時(shí)候會(huì)重復(fù)引用同一部文獻(xiàn),那么在上面已經(jīng)引用過的情況下,后面的書名可能是簡稱。樹藝篇中引文俯拾皆是,尤其要注意。 4結(jié)束語 需要注意的是,這幾種模式是相輔相成,不可偏缺的。以樹藝篇作為訓(xùn)練文本對象,有其代表意義和價(jià)值,但是也有局限性。雖然書中涉及文獻(xiàn)約有200篇,但是與浩如煙海的林業(yè)古籍總數(shù)相比,還是相去甚遠(yuǎn)。另外林業(yè)古籍還有其他一些特征有待挖掘,這是在后面的研究中亟待補(bǔ)充的。 參考文獻(xiàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論