三大功能對未來數(shù)字化古籍的期待_第1頁
三大功能對未來數(shù)字化古籍的期待_第2頁
三大功能對未來數(shù)字化古籍的期待_第3頁
三大功能對未來數(shù)字化古籍的期待_第4頁
三大功能對未來數(shù)字化古籍的期待_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、三大功能:對未來數(shù)字化古籍的期待王兆鵬中文古籍的數(shù)字化,近幾年發(fā)展迅猛,種類之多,數(shù)量之大,功能之強,都出乎我們的意料。古籍的數(shù)字化,不僅可以給我們提供強大的檢索功能,還可以幫助我們發(fā)現(xiàn)問題。數(shù)字化古籍,怎么能夠發(fā)現(xiàn)問題呢?我舉兩個例子。一是全宋詞中,有許多互見詞,也就是一首詞被收錄在不同作者名下,由于史料的缺乏,有的難以判斷這些互見詞的真正作者。為慎重起見,我的老師唐圭璋先生在編全宋詞時,根據(jù)相關(guān)文獻,把這些互見的同一首詞編列于不同作者的名下。唐先生生前,曾經(jīng)耗費大量的精力,做過宋詞互見考,能斷是非的就作判斷,不能斷是非的就存疑。我原以為唐先生已經(jīng)將這一工作窮盡了。前幾年一次偶然的機會,卻發(fā)

2、現(xiàn)全宋詞中還有些互見詞,老師并未發(fā)現(xiàn)。那是我要統(tǒng)計全宋詞中相互唱和的詞作,請一個朋友幫我設(shè)計一個軟件,將全宋詞中用韻相同或相近的詞作全部列出目錄。他用了四個小時,在全宋詞數(shù)據(jù)庫里加寫了一個程序,經(jīng)計算機自動運算處理,最終用Excel幫我列出了我所需要的相關(guān)資料和數(shù)據(jù)。如果讓我手工在計算機上查詢2萬多首詞哪些是屬于唱和次韻之作,恐怕沒有一年半載的時間難以做到,他卻只花了一個晚上的時間就幫我搞定了。這使我相信,古籍的數(shù)字化,只有我們想不到的,沒有做不到的。我們利用古籍做研究的人,需要數(shù)字化古籍庫提供什么功能,都應(yīng)該可以解決。我在統(tǒng)計結(jié)果時,意外地發(fā)現(xiàn),有許多用韻完全相同的詞,有的屬于同一首詞,而見

3、于不同作者名下,即屬互見詞。其中不少互見詞,我的老師沒能發(fā)現(xiàn)。這并不是我比老師高明,而是電腦可以窮盡式地處理資料數(shù)據(jù),而手工和記憶,畢竟會有遺漏。不是這個數(shù)據(jù)庫,我既不可能準確地統(tǒng)計出全宋詞中唱和詞的情況,也無法發(fā)現(xiàn)全宋詞中還有一些互見詞有待考定。這是數(shù)字化古籍幫我發(fā)現(xiàn)的第一個問題。第二個問題是,前年我做全明詞和全清詞研究。由于明清之際的詞人,時代的劃分不易處理,屬明屬清,都有道理。于是,有的詞人,這兩本書都予收錄。為了弄清楚這兩本書究竟收錄了哪些共同的詞人和詞作,我讓門下研究生做了一個數(shù)據(jù)庫,將這兩本書所收錄的詞人、詞作和收錄的來源文獻,用Excel做了一個表格。結(jié)果意外地發(fā)現(xiàn),同一位詞人,

4、兩本書收錄的作品數(shù)量、篇目并不一樣,有的甚至相差二、三百篇。這主要是因為兩本書依據(jù)的文獻不一樣。利用這個數(shù)據(jù)庫,我寫了一系列的全明詞和全清詞的研究論文,其中發(fā)現(xiàn)并指出了全清詞應(yīng)收而未收的詞作有1600首之多。如果用人工比對,而不用數(shù)據(jù)庫處理,花的時間多不說,也難以一一發(fā)現(xiàn)這些問題。由此,我想到,未來數(shù)字化古籍,應(yīng)該具有哪些功能才是最理想的?我以為,最好應(yīng)具備三大功能,以適應(yīng)專業(yè)研究者的需求。一、智能化的檢索功能目前已經(jīng)問世的大型數(shù)字化古籍,基本上都有全文檢索功能,似乎不必再饒舌。但目前全文檢索的功能相對單一,還不能滿足專業(yè)研究者的多元需求。因為,這些全文檢索,只能是關(guān)鍵詞的檢索,不論是單詞檢索

5、,還是組合檢索,檢索一次,都只能檢索到與輸入的詞語嚴格匹配的資料,而不能檢索到不含輸入的詞匯而實際相關(guān)的資料。比如,在四庫全書電子版中檢索“蘇軾”的資料,只能檢索到包含有“蘇軾”二字的資料,卻不能檢索到不含“蘇軾”二字、卻含有“東坡”、“子瞻”、“大蘇”、“蘇徐州”、“蘇黃”等與蘇軾有關(guān)的資料,因為四庫全書電子版不能自動識別“東坡”、“子瞻”、“大蘇”、“蘇徐州”等就是蘇軾。也就是說,數(shù)字化古籍目前只能固定檢索海量數(shù)據(jù),而不能智能化地檢索和生成新的數(shù)據(jù)。因為不能智能化檢索,所以,我們無法窮盡古籍文獻里的資料。如果說,用關(guān)鍵詞檢索人物資料,通過組合檢索或多次檢索的方式還能比較全面地查到所需資料的

6、話,那么,查找相關(guān)主題的資料,就更加困難了。比如說,我想查四庫全書中有關(guān)文學(xué)傳播的資料,但是古人并不常用“傳播”這個概念,如果用“傳播”作為關(guān)鍵詞,就無法查到四庫全書中蘊藏的大量的傳播資料。要實現(xiàn)智能化的檢索,數(shù)字化古籍必須能自動識別我們所需要的與關(guān)鍵詞相關(guān)的資料。比如上面說過的,檢索“蘇軾”,數(shù)字化古籍能自動識別“東坡”、“子瞻、“大蘇”、“蘇徐州”也與蘇軾有關(guān)。檢索“李白”的資料,數(shù)字化古籍能自動識別“太白”、“謫仙”、“詩仙”等與李白相關(guān)的資料。檢索杜甫的資料,數(shù)字化古籍能自動識別“杜子美”、“杜二”、“杜少陵”、“杜工部”、“詩圣”等與杜甫相關(guān)的資料。檢索“傳播”等主題資料,又能自動識

7、別哪些資料與傳播相關(guān)。今后數(shù)字化古籍,如果能由單一檢索變?yōu)槎嘣獧z索、由定向檢索變?yōu)殛P(guān)聯(lián)檢索、由靜態(tài)檢索變?yōu)閯討B(tài)檢索,那就更好了。簡單地說,就是實現(xiàn)檢索的智能化。我們在數(shù)字化古籍中,輸入一個關(guān)鍵詞后,不僅能檢索到與關(guān)鍵詞匹配的資料,也能檢索到與關(guān)鍵詞關(guān)聯(lián)的資料,還可以動態(tài)地生成相關(guān)資料和數(shù)據(jù)。我想,在數(shù)字化古籍里,根據(jù)不同研究者的需要,附加不同的參數(shù),應(yīng)該是可以解決這個問題的。只是人們的需求有不同,數(shù)字化古籍不可能完全滿足使用者千差萬別的需要。可以考慮,讓數(shù)字化古籍變成一個動態(tài)的開放式的數(shù)據(jù)庫,而不是一個封閉的凝固的系統(tǒng)。讓使用者根據(jù)自己的需要,增加相關(guān)條件后,就可以動態(tài)地智能化地檢索。二、自動

8、化的統(tǒng)計功能定量分析,今后可能是古代文學(xué)研究中常用的一種手段和方法。定量分析,需要大量的統(tǒng)計數(shù)據(jù)。如果數(shù)字化古籍能實現(xiàn)這個功能,那就更為便利。比如,我想在國學(xué)寶典里統(tǒng)計歷代評論李白和杜甫的數(shù)據(jù),從一個角度比較說明,歷史上是李白更受推崇還是杜甫更受尊敬?目前的國學(xué)寶典,我不知道能不能做到。因為,在國學(xué)寶典里,即使我們從不同的角度用不同的組合方式查到所有李白和杜甫的資料,但國學(xué)寶典不能自動識別哪些是評論資料,哪些是記載生平的歷史資料,更無法識別資料中對李杜的評價是褒還是貶,是揚還是抑。所以無法自動統(tǒng)計和生成我們所需要的評論數(shù)據(jù)。再比如,我想統(tǒng)計唐詩在歷代文獻中入選和被稱引或被評點的資料。這個數(shù)據(jù),

9、也比較復(fù)雜。原因是,有些詩歌,在題下署了作者的名字,有的沒署。沒署名怎么自動識別是哪位作者的?即使署了名,有的署名,有的署字,有的署別號,又怎樣自動識別哪些名、字、號是同一位詩人?有的僅征引了詩中的一句或幾句,又怎樣自動識別這幾句是哪位詩人的哪一首詩?體裁上,怎樣自動識別是古體還是近體,是七律還是五律?我目前做的唐詩數(shù)據(jù)庫,是將歷代唐詩選本一一錄入,設(shè)置一些項目,如詩題、作者、文獻來源、體裁等等。然后再分類統(tǒng)計。有沒有可能,利用現(xiàn)有的大型數(shù)字化古籍,加上一些識別的條件,讓它自動識別和生成我所需要的數(shù)據(jù)呢?技術(shù)上也許是可能的。我的這個數(shù)據(jù)庫,目前只含近百種古今唐詩選本,遠遠沒有窮盡古今所有的唐詩

10、選本,更沒有包含類書和相關(guān)典籍諸如詩話、筆記、別集、小說中的唐詩資料。數(shù)字化古籍,統(tǒng)計字頻比較容易,國學(xué)網(wǎng)上已公布了國學(xué)寶典中單字字頻的數(shù)據(jù)。雖然詞頻統(tǒng)計相對復(fù)雜和困難,但已經(jīng)獲得了解決。如果能夠根據(jù)研究者不同的需要,數(shù)字化古籍能自動統(tǒng)計各種數(shù)據(jù),那該多么令人神往!三、多元化的對比功能有比較才有鑒別,有比較才有發(fā)現(xiàn)??茖W(xué)研究是從發(fā)現(xiàn)問題開始的。數(shù)字化古籍的對比功能,用于古籍整理和研究最有優(yōu)勢。數(shù)字化古籍可進行哪些項目的對比呢?1版本對比在超大型數(shù)字化古籍庫中,可以考慮同時收錄同一古籍文獻的多種版本。將不同版本的文本進行對比,以發(fā)現(xiàn)文字的異同,自動進行??薄?作者對比古籍文獻中,常有同一作品歸屬

11、不同作者的情況。將所有文獻記載的作品分別進行對比,考察其作品歸屬的異同,以便考訂作者的歸屬和作品的真?zhèn)巍?數(shù)量對比同一古籍,因版本不同,收錄的作品有多寡。經(jīng)過對比,可以鑒別哪些版本收錄作品比較完善齊全,哪些版本有遺漏脫缺。這既可以將別集的不同版本進行對比,也可以將總集進行對比。同一類型的不同選本,入選的作者和作品都有差異。比如詩選和詞選,可以對比它們?nèi)脒x作者、篇目、數(shù)量的差異,從中可以發(fā)現(xiàn)編選者不同的審美取向和選擇宗旨,也可以研究每位詩人詞人在不同時期的影響力和認同度的變化。4類型對比將不同作者、不同文獻記載的同一體裁類型的作品進行對比,以發(fā)現(xiàn)某一體裁、文體的形成、發(fā)展和演變。比如在詞學(xué)研究中,可以將同一詞調(diào)的全部作品進行對比,考察這一詞調(diào)句式、用韻、平仄的異同及其變化。在詩學(xué)研究中,特別是唐詩的研究中,可以將唐代的近體詩進行對比,以考察近體詩的特點、定型過程及變化規(guī)律。不同的需要,有不同的對比。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論