數(shù)字圖書館自動查重程序的設(shè)計與實現(xiàn)_第1頁
數(shù)字圖書館自動查重程序的設(shè)計與實現(xiàn)_第2頁
數(shù)字圖書館自動查重程序的設(shè)計與實現(xiàn)_第3頁
數(shù)字圖書館自動查重程序的設(shè)計與實現(xiàn)_第4頁
數(shù)字圖書館自動查重程序的設(shè)計與實現(xiàn)_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)字圖書館自動查重程序的設(shè)計與實現(xiàn)

在今天,我們重視數(shù)字圖書館的建設(shè),基于現(xiàn)有圖書館的管理系統(tǒng),開發(fā)和設(shè)計具有實際使用價值的計算機程序,減少圖書館服務(wù)人員的工作量是一個不容忽視的問題。筆者于2001年領(lǐng)導(dǎo)開發(fā)了香港浸會大學(xué)圖書館計算機自動查重程序,以全自動的方式取代耗時費力的傳統(tǒng)人工采訪查重及館藏評價的書目核對法(Listchecking),具有較強的實際應(yīng)用價值.自動查重程序的設(shè)計主要是充分發(fā)揮Innopac圖書館管理系統(tǒng)的網(wǎng)上聯(lián)機公共檢索目錄(WebOnlinePublicAccessCatalog,OPAC)的檢索技術(shù)而成.本文主要對該程序的算法簡要述評,以供各同業(yè)先進指正.1完成訪談和評審后,將參考過程與藏書評估進行比較1.1訪談與培訓(xùn)圖書館在進行采訪工作時,為避免浪費經(jīng)費購買不需要的復(fù)本,必須核查待選書目中的每一筆紀錄是否為館藏所有,這樣的工作程序被稱為采訪查重.1.2核心目數(shù)和館藏檢數(shù)所占比例.書目核對法是館藏評鑒常用方法之一,圖書館先選擇某一學(xué)科的核心或權(quán)威書目,將書目中每一項資料逐一與館藏檢記錄核查,計算該書目在館藏中所占比例.館藏中擁有比例越高,館藏素質(zhì)的評價就越高.1.3館藏查核工序雖然采訪查重與書目核對法的作用有所不同,但在對館藏檢查核對的工作程序上來說,兩者是完全一樣的.所以,為了方便討論起見,在下文的論述中將館藏查核工序,統(tǒng)一簡稱為查重.1.4長期重復(fù)單調(diào)工作長久以來,查重是一種勞力密集、千篇一律的重復(fù)性工作.工作雖然簡單,但所耗費的人力和時間卻不容忽視.而圖書館員在長時間進行重復(fù)單調(diào)的工作,亦會很容易產(chǎn)生漏檢和錯檢的問題.1.5計算機程序浸圖計算機自動查重程序的設(shè)計目的,就是以計算機程序來取代傳統(tǒng)人工查重方式,它具有以下3個優(yōu)點:減輕館員的勞動強度;減低漏檢和錯檢率;能在短時間內(nèi)完成大量查重工作.2自動檢查程序的系統(tǒng)結(jié)構(gòu)和系統(tǒng)要求2.1系統(tǒng)結(jié)構(gòu)圖自動查重程序的整個工作流程大致可分為四大部分,其結(jié)構(gòu)圖如圖1所示.2.2系統(tǒng)要求自動查重程序由以下兩個程序組成:2.2.1tinumopac用MicrosoftVisualFoxPro6.0語言寫成,可在PentinumⅢ或以上的個人計算機上運行.其功能包括:①把待檢書目的各檢索字段轉(zhuǎn)換成可向OPAC系統(tǒng)進行查詢的URL;②把待檢書目由客戶終端機上載至服務(wù)器進行自動查重;③把查核記錄由服務(wù)器下載回客戶終端機上,以供館員分析統(tǒng)計.2.2.2ssac軟件用MicrosoftActiveServerPages3.0(MSASP)語言寫成,在WindowsNT服務(wù)器上運行.主要是把待檢書目對OPAC系統(tǒng)作自動查重,并將查核結(jié)果登錄于待檢書目上.3自動恢復(fù)過程和工作流的自動控制3.1查詢數(shù)據(jù)的自動查重程序主要受精密為免浪費時間人力在OPAC系統(tǒng)上以人工鍵入書目查詢數(shù)據(jù),自動查重程序只接受以MSExcel電子格式儲存的待檢書目,各項檢索字段(如作者、書名及ISBN等)必須儲存于列表的不同欄位中(見表1).3.2兩種方法的比較此部分程序主要是把待檢書目的各項檢索字段自動鍵入OPAC系統(tǒng).浸圖是采用美國的Innopac圖書館自動管理系統(tǒng),故自動查重程序主要是因應(yīng)InnopacOPAC系統(tǒng)的檢索功能而設(shè)計.但必須強調(diào)的是,自動查重程序亦可應(yīng)用于其他以HTTPGet方法傳遞查詢數(shù)據(jù)的OPAC系統(tǒng)上.3.2.1HTTPGet數(shù)據(jù)傳遞方法根據(jù)萬維網(wǎng)協(xié)定,傳遞查詢數(shù)據(jù)到HTTP服務(wù)器有HTTPGet和HTTPPost兩種不同的方法,它們分別是:(1)如果使用HTTPGet方法,查詢數(shù)據(jù)會被以一個統(tǒng)一資源地址(UniformResourceLocators,URL)中字符串的形式來傳遞.若使用HTTPPost方法,查詢數(shù)據(jù)便會以隱藏的數(shù)據(jù)區(qū)塊(Datablock)方式傳送到HTTP服務(wù)器.(2)在HTTPGet方法中,所傳遞的URL的字符串的總長度不能超越255個英文字母,而HTTPPost方法則沒有此限制.HTTPGet方法雖然有字符串長度的限制,但因為它能把查詢數(shù)據(jù)內(nèi)容公開列明于URL中,所以程序員便可自由開發(fā)程序生成URL連結(jié)來提取數(shù)據(jù)庫中的任何一條資料記錄.3.2.2InnopacOPAC的查詢指令I(lǐng)nnopacOPAC是使用HTTPGet方法把查詢數(shù)據(jù)傳遞給服務(wù)器,換言之,用來查詢的指令就是一條指向浸圖OPAC服務(wù)器的URL,其語法如下:http://[圖書館Innopac服務(wù)器網(wǎng)址]/search/[索引字符]?SEARCH=[檢索字段]其中,浸圖InnopacOPAC服務(wù)器網(wǎng)址為.hk/,而可使用的檢索點如表2所示.根據(jù)以上的指令模式,便可把在待檢書目中各檢索字段用程序自動轉(zhuǎn)換為向OPAC查詢的URL,如表3所示.3.3查詢結(jié)果的獲取當上述的URL被逐一導(dǎo)向浸圖InnopacOPAC系統(tǒng)后,OPAC系統(tǒng)會依據(jù)查詢數(shù)據(jù)在Innopac數(shù)據(jù)庫中找尋相應(yīng)的記錄,無論命中與否,皆會將搜尋結(jié)果的館藏記錄網(wǎng)頁傳回給客戶終端機上的瀏覽器.3.3.1自動查重記錄若查核的檢索字段并非為館藏所有,InnopacOPAC系統(tǒng)在傳回的館藏記錄網(wǎng)頁上會出現(xiàn)“Nomatchesfound(意即[未查獲符合查詢條件館藏])”的提示語句(見圖2),亦即是“無命中”的意思,自動查重程序便自動把該檢索字段的查重記錄列為顯示藏館記錄網(wǎng)頁若查核的檢索字段為館藏,InnopacOPAC系統(tǒng)便會顯示藏館記錄網(wǎng)頁,而在該網(wǎng)頁中亦不會出現(xiàn)“Nomatchesfound”的提示語句,這是“命中”的意思,查重程序便自動把該檢索字段的查重記錄列為1.3.4自動查重程序.根據(jù)檢查進展的要求,將書目的查重記錄的各檢點的查重記錄通過數(shù)字結(jié)合的方式查重比自動查重程序是可以清楚標示各檢索點的查重記錄,但在處理一些少數(shù)有問題或疑難的查重記錄時,還是需要人工判斷.為了方便館員作分析統(tǒng)計及在有需要時進行人工復(fù)檢,自動查重程序會將書目的查核結(jié)果儲存在一個MSExcel電子格式文件檔內(nèi),內(nèi)容除了包括表1代檢書目中各項資料外,還會列出了各檢索點的查重記錄.表4便是針對表1對各條查重記錄的分析報告.3.4.1記錄1各項檢索點的查重記錄均為1,表示該項資料為復(fù)本.3.4.2用漢字文書進行資料查重ISBN查重記錄為1,其余各項檢索點的查重記錄均為0.導(dǎo)致此類查重結(jié)果可能出于多個不同的原因,在此例子中,待檢書目是外文書,而作者的姓名及書名都是中文譯名,但在浸圖的編目記錄中,外文作者均采用英文原名,故此作者的查重記錄便顯示為0.假設(shè)ISBN查重記錄被視為最值得信賴的,那么,只要ISBN查重記錄為1時,館員便不須理會其余各項檢索點的查重記錄,而可以直接把該條資料判定為復(fù)本.3.4.3圖書館的《內(nèi)部文本》見表1ISBN查重記錄為0,其余各項檢索點的查重記錄均為1.這表示圖書館已擁有余秋雨的《千年一嘆》一書(見記錄1),但該書并不是在這條記錄中列出的北京作家出版社所出版,故此,被查核資料可被判定為非館藏所有.3.4.4記錄4各項檢索點的查重記錄均為0,該項資料可被判定為非館藏所有.3.4.5共藏/本企業(yè)的作者相關(guān)資料ISBN及作者+書名的查重記錄為0,而作者和書名的查重記錄均為1.這表示圖書館擁有該作者的其它作品,并且館藏中也可找到書名相同而作者不同的資料,但被查核的作者和書名并沒有在任何一條館藏記錄中同時出現(xiàn),因此,被查核資料可被判定為非館藏.3.4.6被查核資料可被判定為復(fù)本除了作者的查重記錄為1外,其余各項檢索點的查重記錄均為0.這表示圖書館擁有該作者的其它作品,而被查核資料可被判定為非館藏.簡單來說,若以ISBN查重記錄為關(guān)鍵值,那只要ISBN查重記錄為1,如第1、2條記錄便可直接被判定為復(fù)本;反之,ISBN查重記錄為0,如第3~6條記錄則可被判定為非館藏所有.4最具創(chuàng)意大賽自動查重程序查核1000項檢索點大約需時5min,浸圖自2001年使用該程序以來,查重的工作效率大大提升.自動查重程序的設(shè)計,原先是浸圖系統(tǒng)部為采購部開發(fā)網(wǎng)上新書訂購服務(wù)程序的一個有機組成部份.浸圖以網(wǎng)上新書訂購服務(wù)程序榮獲Innopac系統(tǒng)的第一屆“最具創(chuàng)意獎項”(FirstBeInnovativeAwards)比賽中的“最具創(chuàng)意館員模塊獎項”(MostInnovativeUseofStaffModules).該獎項已于2002年4月在美國德克薩斯州休斯敦市舉行的第10屆InnovativeUsers

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論