![中國古籍?dāng)?shù)字化建設(shè)若干問題的思考_第1頁](http://file1.renrendoc.com/fileroot_temp2/2021-1/26/d25da2ce-e6d9-4c8f-8775-92e5ab2ebdd7/d25da2ce-e6d9-4c8f-8775-92e5ab2ebdd71.gif)
![中國古籍?dāng)?shù)字化建設(shè)若干問題的思考_第2頁](http://file1.renrendoc.com/fileroot_temp2/2021-1/26/d25da2ce-e6d9-4c8f-8775-92e5ab2ebdd7/d25da2ce-e6d9-4c8f-8775-92e5ab2ebdd72.gif)
![中國古籍?dāng)?shù)字化建設(shè)若干問題的思考_第3頁](http://file1.renrendoc.com/fileroot_temp2/2021-1/26/d25da2ce-e6d9-4c8f-8775-92e5ab2ebdd7/d25da2ce-e6d9-4c8f-8775-92e5ab2ebdd73.gif)
![中國古籍?dāng)?shù)字化建設(shè)若干問題的思考_第4頁](http://file1.renrendoc.com/fileroot_temp2/2021-1/26/d25da2ce-e6d9-4c8f-8775-92e5ab2ebdd7/d25da2ce-e6d9-4c8f-8775-92e5ab2ebdd74.gif)
![中國古籍?dāng)?shù)字化建設(shè)若干問題的思考_第5頁](http://file1.renrendoc.com/fileroot_temp2/2021-1/26/d25da2ce-e6d9-4c8f-8775-92e5ab2ebdd7/d25da2ce-e6d9-4c8f-8775-92e5ab2ebdd75.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、中國古籍?dāng)?shù)字化建設(shè)若干問題的思考秦長江(南京農(nóng)業(yè)大學(xué)人文學(xué)院,河南科技大學(xué)經(jīng)濟(jì)管理學(xué)院)(江蘇南京,210095;河南洛陽,471003)摘要;本文介紹了古籍?dāng)?shù)字化建設(shè)的發(fā)展階段,著重概括總結(jié)了我國古籍資源數(shù)字化建設(shè)的相關(guān)難點(diǎn)及其進(jìn)展。關(guān)鍵詞; 古籍;數(shù)字化;文獻(xiàn) 中圖分類號; g255.1按照古籍著錄規(guī)則中的定義,古籍主要是指1912年以前在中國書寫或印刷的,具有中國古典裝訂形式的書籍。中文古籍是寶貴的文化遺產(chǎn),對今人進(jìn)行科學(xué)研究和文化傳承都具有非常重要的意義。但這些寶貴資源現(xiàn)已變得相當(dāng)脆弱,從而限制了大部分讀者的使用。古籍?dāng)?shù)字化就是利用現(xiàn)代信息技術(shù)將古籍轉(zhuǎn)化為電子媒體的形式,通過光盤、網(wǎng)絡(luò)
2、等介質(zhì)予以保存和傳播。我國古籍?dāng)?shù)字化建設(shè)始于20世紀(jì)80年代,大體上經(jīng)歷了3個階段。第一階段是建立中文古籍書目數(shù)據(jù)庫階段。這一階段主要是一些具有古籍資源的大型或?qū)I(yè)圖書館,在館藏古籍書目卡片基礎(chǔ)上,使用專門開發(fā)或通用的數(shù)據(jù)庫,將館藏古籍書目信息輸入計(jì)算機(jī),用計(jì)算機(jī)進(jìn)行管理和檢索古籍的文獻(xiàn)信息。第二階段是光盤版古籍階段。雖然古籍書目數(shù)據(jù)庫解決了古籍的快速查找問題,但由于受到古籍保護(hù)制度的制約,讀者對古籍的利用仍是傳統(tǒng)的借閱方式。隨著計(jì)算機(jī)掃描技術(shù)、圖形照相數(shù)字化技術(shù)、計(jì)算機(jī)存儲技術(shù)的快速發(fā)展,研究人員將古籍通過掃描或照相,轉(zhuǎn)化成數(shù)字文件,儲存在光盤中,實(shí)現(xiàn)了通過光盤在計(jì)算機(jī)上查找和瀏覽古籍的內(nèi)容
3、。光盤版古籍最重要的優(yōu)點(diǎn)是保留了古籍的二維圖像特征,攜帶方便,使用時不影響原古籍的保存。第三階段是網(wǎng)絡(luò)化古籍階段。隨著因特網(wǎng)的發(fā)展和數(shù)字圖書館的出現(xiàn),一些圖書館將數(shù)字化的古籍文本內(nèi)容及相應(yīng)的圖像信息,在網(wǎng)絡(luò)上提供查詢、瀏覽等服務(wù),解決了光盤版古籍受光盤容量大小以及必須到館的限制,用戶選擇古籍具有更大的主動性,徹底改變了古籍的傳播和使用的方式。本文擬就我國古籍資源數(shù)字化建設(shè)過程中的相關(guān)重要問題和進(jìn)展,予以概要總結(jié)。一.漢字字符集問題字符集曾經(jīng)是長期困擾中國古籍?dāng)?shù)字化工作的首要必須解決的問題。因?yàn)椴捎檬裁礃拥淖址玛P(guān)古籍文字能否在電腦上正確地表達(dá)和顯示。解決這一問題需要考慮兩個因素:一是字符集所
4、包含漢字的數(shù)量是否能滿足古籍的需要,二是字符集的編碼體系能否滿足資源共享的需要。經(jīng)過探索和實(shí)踐,目前國內(nèi)學(xué)術(shù)界在字符集的采用上已有主流看法:采用國際標(biāo)準(zhǔn)iso/iec10646。原因是:首先,這一國際標(biāo)準(zhǔn)字符集結(jié)構(gòu)體系能同時處理多國文字,可實(shí)現(xiàn)跨平臺展現(xiàn)內(nèi)容,從而使數(shù)字化古籍產(chǎn)品能超越語言限制,在不同的視窗平臺上運(yùn)行,解決了古籍資源全球共享的問題;其次,因?yàn)樗溯^為充足的漢字?jǐn)?shù)量,對古籍用字來說,iso/iec10646的已通過部分雖說仍然存在域外字,但和gb2312相比,數(shù)量只有后者的約十分之一。目前,國內(nèi)學(xué)者已普遍認(rèn)為iso/iec10646是“古籍?dāng)?shù)字化的唯一之選”。二.計(jì)算機(jī)對古漢
5、語的處理問題計(jì)算機(jī)對漢字的處理能力主要是簡體字,即使一些軟件可以處理繁體字,但漢字字庫也是非常有限的,國標(biāo)字庫(gb)只收6763個漢字,國標(biāo)擴(kuò)展?jié)h字字庫(gbk)也只有2090個漢字,而常用的古代漢字有4萬多字,尤其是2萬多常用的異體字、繁體字、通假字、避諱字等的大量存在,造成了古籍文字轉(zhuǎn)化為文本信息時存在的許多具體問題。這就要求必須實(shí)現(xiàn)文本字符的數(shù)字化,即漢字是以編碼而不是以圖形的形式儲存在計(jì)算機(jī)中。如果是通過掃描技術(shù)將古籍原文轉(zhuǎn)化為數(shù)字圖形,則必須有一個將數(shù)字圖形映射為數(shù)字字符的環(huán)節(jié),這就是ocr(光學(xué)字符識別)技術(shù)。因?yàn)橹挥袑?shí)現(xiàn)了漢字由圖形向編碼的轉(zhuǎn)變,才能實(shí)現(xiàn)對漢字的編輯修改,對文本
6、的深度加工也才有可能進(jìn)行。在古籍?dāng)?shù)字化的過程中,基本上采用的是掃描圖像的方式。古籍掃描存在這樣的問題:速度較慢;受幅面的限制,往往掃不下古籍完整的幅面,須分兩頁來掃,不能保持古籍的原貌;一些特殊規(guī)格的古籍,如特大開本或卷軸裝的古籍,只能通過其他技術(shù)處理后再轉(zhuǎn)換掃描。所有這些問題,現(xiàn)在都可以通過使用數(shù)字照相技術(shù)得到解決。數(shù)字照相機(jī)的拍攝不受幅面限制,能較好地實(shí)現(xiàn)古籍的數(shù)字化。20世紀(jì)年代90以后,我國的漢字識別技術(shù)(漢字ocr)進(jìn)入了實(shí)用化階段,標(biāo)志是幾種流行的印刷體漢字識別系統(tǒng)可以做到識別各種形體、各種型號的印刷體漢字4000多個,識別率達(dá)到95%。漢字識別技術(shù)的實(shí)用化,為解決古籍原文的高速自
7、動輸入提供了基本的技術(shù)程序。上世紀(jì)末,專門針對古籍輸入系統(tǒng)的開發(fā)研究較多,也有了運(yùn)用于大規(guī)模古籍輸入系統(tǒng)的較為成功的范例。如文淵閣四庫全書電子版在研制過程中開發(fā)的“非特定人準(zhǔn)規(guī)范手寫系統(tǒng)”一次正確識別率平均已達(dá)92%。目前,解決古籍原文輸入問題的思路和方法已經(jīng)明確:ocr技術(shù)是最佳方案。一個ocr系統(tǒng)包括前處理(以版面分析為主)、單字識別和后處理(以文字、版面校對為主)的3大部分?,F(xiàn)在單字識別技術(shù)已基本過關(guān),薄弱環(huán)節(jié)是缺乏通用的、功能較強(qiáng)的前、后處理軟件,對古籍來說,前處理、后處理技術(shù)是否具有更為廣泛的通用性還有待進(jìn)一步驗(yàn)證,但這一技術(shù)在大規(guī)模古籍?dāng)?shù)字化工程中的運(yùn)用,已經(jīng)使學(xué)術(shù)界看到了較好解決
8、古籍“輸入”這一瓶頸問題的前景,更多的研究方法和手段都在探索實(shí)踐當(dāng)中。三.數(shù)字化古籍的“保真原則”和“整理原則”20世紀(jì)末,國內(nèi)有學(xué)者提出了數(shù)字化古籍“保真原則”和“整理原則”相輔而行的思想。所謂“保真原則”,即數(shù)字化古籍產(chǎn)品應(yīng)具有“文物存儲性”,具有重現(xiàn)作為歷史文物的古籍原貌的功能,具體表現(xiàn)是數(shù)字化古籍產(chǎn)品應(yīng)該形成數(shù)字圖形版,它主要滿足版本研究、文物鑒賞、書史研究、文字???、原件對照等特殊需要,可以認(rèn)為是印刷版階段“影印本”的數(shù)字化。目前實(shí)現(xiàn)古籍產(chǎn)品數(shù)字圖形版已不存在技術(shù)上的障礙。所謂“整理原則”,是指數(shù)字化古籍產(chǎn)品應(yīng)該具有“資料應(yīng)用性”,具有超文本瀏覽閱讀、全文檢索、研究支持等功能,具體表
9、現(xiàn)是數(shù)字化古籍產(chǎn)品應(yīng)該形成數(shù)字文本版。數(shù)字文本版是數(shù)字化古籍產(chǎn)品的主要形式,古籍?dāng)?shù)字化建設(shè)中的“整理”工作,主要就是圍繞著形成數(shù)字文本版而展開的。貫徹“保真”和“整理”相輔而行原則的數(shù)字化古籍產(chǎn)品,實(shí)際上是將“影印本”和“整理排印本”合一,這是充分張揚(yáng)數(shù)字化產(chǎn)品優(yōu)勢的舉措,它不僅給不同需求的人帶來了利用上的方便,而且為古籍保存、善本留真開辟了新途徑。目前,國內(nèi)的數(shù)字化古籍產(chǎn)品真正全面體現(xiàn)“保真”和“整理”相輔原則的還不多,大多還停留在單純數(shù)字文本版或單純數(shù)字圖形版的階段。因此明確“保真”和“整理”相輔原則才更具現(xiàn)實(shí)意義,這一原則是在總結(jié)我國古籍?dāng)?shù)字化實(shí)踐經(jīng)驗(yàn)基礎(chǔ)上形成的一個重要理論原則。它為今
10、后的古籍?dāng)?shù)字化建設(shè)指明了發(fā)展方向。四. 古籍研究支持系統(tǒng)的開發(fā)我國的數(shù)字化古籍產(chǎn)品都在研究開發(fā)支持系統(tǒng)方面做了有益的探索。主要功能包括:1.內(nèi)容的超鏈接功能。若從閱讀習(xí)慣和舒適、便攜程度來看,電子版書籍遠(yuǎn)不如印刷版。數(shù)字化古籍的真正優(yōu)勢在于對古籍內(nèi)容的超鏈接設(shè)計(jì)。比如,正文相關(guān)內(nèi)容之間的鏈接,正文與注釋之間的鏈接,不同注釋之間的鏈接,正文與相關(guān)知識資料之間的鏈接,甚至典籍內(nèi)容與相關(guān)網(wǎng)站的鏈接等等。有了這樣一些超鏈接設(shè)計(jì),人們在閱讀古籍時就可以改變傳統(tǒng)印刷版的線性順序,可以以語詞點(diǎn)、知識點(diǎn)為中心,發(fā)散性地、即時性地、有選擇性地尋找需要的內(nèi)容。對于今人利用和研究古籍作品,這種閱讀環(huán)境至關(guān)重要。2.
11、強(qiáng)大的檢索功能。雖然印刷版古籍也具有一定的檢索功能,但限于編制工作的浩繁,印刷版索引總是粗疏的、有限的。計(jì)算機(jī)有自動生成索引的功能和海量的存貯空間,從根本上解決了編制工作浩繁和規(guī)模大小的問題。再從實(shí)際需要看,今人利用古籍,查找檢索多于系統(tǒng)閱讀,因此強(qiáng)大的檢索系統(tǒng)對于古籍?dāng)?shù)字化作品是必須的。強(qiáng)大的檢索系統(tǒng)是指以全文檢索為基礎(chǔ)構(gòu)造的檢索系統(tǒng),主要包括關(guān)鍵詞(主題詞)檢索、條件檢索、邏輯檢索、模糊檢索、組配檢索、屬性檢索。其中屬性檢索對于古籍的利用與研究有特別的意義。屬性檢索是一種智能化檢索,屬性設(shè)置體現(xiàn)了原書的內(nèi)容特點(diǎn),往往可以滿足利用者特定的需要,因此,在數(shù)字化古籍的檢索系統(tǒng)中,屬性檢索應(yīng)該是不
12、可或缺的。如以“體裁”為屬性,可以匯聚同體裁的作品;以“寫作時間”為屬性,可以匯聚相同時間寫作的作品;以“事件”為屬性,可以匯聚古籍中記述的所有事件;以“圖像”為屬性,可以匯聚古籍中收載的所有圖像資料。3.研究支持功能。研究支持功能是指能夠提供有關(guān)古籍內(nèi)容本身的科學(xué)、準(zhǔn)確的統(tǒng)計(jì)與計(jì)量信息,提供與古籍內(nèi)容相關(guān)的參考資料、輔助工具。這些信息、資料或工具都是古籍內(nèi)容的增值或補(bǔ)充。比如古籍字?jǐn)?shù)、字頻、詞頻的統(tǒng)計(jì)數(shù)據(jù),異體字庫(異體、通假、正訛、古今等)的配備顯示,讀音的自動標(biāo)注和朗讀,行文風(fēng)格特點(diǎn)的概率統(tǒng)計(jì),必要的背景知識、參考資料的匯聚,在線標(biāo)點(diǎn)斷句實(shí)用工具的配備,不同版本比勘校對界面的設(shè)置,聯(lián)機(jī)字
13、典詞典、歷史年表、歷史地圖等研究輔助工具的加載等等。有了這些研究支持功能,不僅可以極大地改善研究者的研究條件,而且還會帶來研究思路、研究方法的變革。智能化研究支持系統(tǒng)的開發(fā)和實(shí)現(xiàn),是每一種古籍?dāng)?shù)字化作品都需要特別關(guān)注的,也是最具競爭力的。 北京大學(xué)計(jì)算語言研究所和北京大學(xué)古文獻(xiàn)研究所合作開發(fā)的以全宋詩為對象的古詩研究計(jì)算機(jī)支持系統(tǒng)。該系統(tǒng)利用計(jì)算語言學(xué)的方法,通過計(jì)算相鄰字的“互信息”等方法進(jìn)行語料的自動抽詞和建詞典,據(jù)介紹正確率達(dá)到了95%。選取任一詩作的第一句和偶句的尾字,與系統(tǒng)中儲存的韻書和押韻規(guī)則相匹配,自動判斷詩作的押韻狀況與韻腳,為古詩格律研究提供支持;通過條件概率計(jì)算、互信息計(jì)算
14、、規(guī)則匹配、信息庫(如注音字典庫、多音字發(fā)音頻率庫、多音字組合庫)信息匹配等方法,實(shí)現(xiàn)對詩文的自動注音。這類研究已經(jīng)不僅是基于全文檢索的簡單數(shù)量統(tǒng)計(jì),而是在統(tǒng)計(jì)基礎(chǔ)上的智能決策,部分替代了人的思維,發(fā)展前景誘人。目前,他們正以古籍自動抽詞和建詞典工作為基礎(chǔ),研究古籍的機(jī)器自動翻譯;以古籍自動注音為基礎(chǔ),利用多媒體技術(shù),研究古代詩文的即時自動朗讀。智能化是古籍研究支持系統(tǒng)大有可為的發(fā)展方向。五.計(jì)算機(jī)古籍整理通用系統(tǒng)的研制開發(fā)古籍資源數(shù)字化一旦進(jìn)入大規(guī)模實(shí)施階段,必須依托于一系列開放、兼容、通用的計(jì)算機(jī)處理軟件,如校對軟件、標(biāo)引軟件、檢索軟件、研究支持軟件等。目前的數(shù)字化古籍產(chǎn)品處理軟件基本上還
15、是各自封閉的,由于這些軟件的通用程度低,導(dǎo)致重復(fù)研制開發(fā)屢見不鮮,造成了資源的浪費(fèi),還延緩了古籍資源數(shù)字化的進(jìn)程,這種各自為政的局面,極不利于古籍?dāng)?shù)字化建設(shè)的發(fā)展需要,更不利于古籍?dāng)?shù)字化后的資源共享。因此,網(wǎng)絡(luò)環(huán)境下古籍整理通用軟件系統(tǒng)的開發(fā)研制已經(jīng)變得十分緊迫。當(dāng)古籍?dāng)?shù)字化在全國各主要圖書館實(shí)現(xiàn)后,就可以以網(wǎng)絡(luò)為紐帶,建立古籍?dāng)?shù)字化地區(qū)聯(lián)合數(shù)據(jù)庫和全國性的數(shù)據(jù)庫。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和古籍?dāng)?shù)字化進(jìn)程的加快,我國豐富的古籍資源將會供全球所有網(wǎng)絡(luò)用戶共享。參考文獻(xiàn)1常春 潘淑春 盧文林.基于圖像的數(shù)字化農(nóng)業(yè)古籍全文檢索方案j.情報(bào)雜志,2005,(6) 2王發(fā).古籍?dāng)?shù)字化的幾點(diǎn)思考j.圖書館論壇,
16、2003,(13)3徐清 王唯.近十年古籍書目數(shù)據(jù)庫建設(shè)研究概述j. 圖書情報(bào)知識,2006,(1)4張艷紅.關(guān)于古籍文獻(xiàn)數(shù)字化的幾個問題j.圖書情報(bào)知識,2003,(1)5常春 潘淑春.農(nóng)業(yè)古籍?dāng)?shù)字化項(xiàng)目建設(shè)意義和 swot分析j.情報(bào)雜志,2005,(11)6李國新.中國古籍資源數(shù)字化的進(jìn)展與任務(wù)j.大學(xué)圖書館學(xué)報(bào),2002,(1)think of the construction of digitalization of ancient books in chinaabstract:this paper describes three periods of the construction of digitalization of ancient b
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)個人校本研修計(jì)劃范文
- 巧妙助推展望科研新夢想幼兒園工作計(jì)劃
- 修路清包工合同范本
- 二手房抵押合同范例
- 監(jiān)控安裝合同范本
- 買賣原木合同范本
- 臨時電力施工合同范本
- mcn合伙合同范本模板
- 兄弟合伙創(chuàng)業(yè)合同范本
- 農(nóng)民水暖安裝合同范本
- 單縣煙草專賣局QC課題多維度降低行政處罰文書出錯率
- 毫針刺法(全)教學(xué)課件
- 金風(fēng)科技-風(fēng)電產(chǎn)業(yè)集團(tuán)-供應(yīng)商現(xiàn)場作業(yè)基礎(chǔ)安全考試附答案
- 人工智能機(jī)器人科學(xué)小報(bào)手抄報(bào)簡報(bào)
- 三年級下冊美術(shù)課件-第1課 燈彩輝映|浙美版 (共19張PPT)
- 硫酸銨廢水MVR蒸發(fā)結(jié)晶
- 原子物理學(xué)第五章-多電子原子:泡利原理
- 35kV輸電線路工程旋挖鉆孔專項(xiàng)施工方案
- 開學(xué)第一課(七下數(shù)學(xué))
- 固定資產(chǎn)借用登記表
- 行業(yè)會計(jì)比較ppt課件(完整版)
評論
0/150
提交評論