![跨庫集成檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第1頁](http://file4.renrendoc.com/view/26a1f2ada1ec5a5aebbcd7cf3beda7b1/26a1f2ada1ec5a5aebbcd7cf3beda7b11.gif)
![跨庫集成檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第2頁](http://file4.renrendoc.com/view/26a1f2ada1ec5a5aebbcd7cf3beda7b1/26a1f2ada1ec5a5aebbcd7cf3beda7b12.gif)
![跨庫集成檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第3頁](http://file4.renrendoc.com/view/26a1f2ada1ec5a5aebbcd7cf3beda7b1/26a1f2ada1ec5a5aebbcd7cf3beda7b13.gif)
![跨庫集成檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第4頁](http://file4.renrendoc.com/view/26a1f2ada1ec5a5aebbcd7cf3beda7b1/26a1f2ada1ec5a5aebbcd7cf3beda7b14.gif)
![跨庫集成檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第5頁](http://file4.renrendoc.com/view/26a1f2ada1ec5a5aebbcd7cf3beda7b1/26a1f2ada1ec5a5aebbcd7cf3beda7b15.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
跨庫集成檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
1基于配方的異構(gòu)數(shù)字資源的整合到目前為止,圖書館數(shù)字資源的數(shù)量正在指數(shù)中增加,分布和異構(gòu)性日益突出。用戶更加重視信息資源的效率,更加重視節(jié)約成本的原則。為了解決數(shù)字資源獨(dú)特性與用戶需求同一性之間的矛盾,對異構(gòu)、分散數(shù)字資源的整合勢在必行,而跨庫集成檢索系統(tǒng)正是順應(yīng)這種潮流的數(shù)字資源整合方案之一??鐜旒蓹z索系統(tǒng),也稱多數(shù)據(jù)庫檢索(Multi-DatabaseSearch),是指以分布式異構(gòu)數(shù)據(jù)源為對象的檢索系統(tǒng)。該系統(tǒng)向用戶提供統(tǒng)一的檢索接口,并發(fā)檢索本地和因特網(wǎng)上的多個(gè)異構(gòu)數(shù)據(jù)源,并對檢索結(jié)果加以整合,包括去重、排序等操作,以統(tǒng)一的格式呈現(xiàn)給用戶。目前國外較知名的跨庫集成檢索系統(tǒng)包括:Endeavor公司開發(fā)的ENCompass,ExLibris公司開發(fā)的MetaLib,InnovativeInterfaces公司開發(fā)的MAP及MuseGlobal公司開發(fā)的Muse等。國內(nèi)也出現(xiàn)了一些試用系統(tǒng),如CALIS數(shù)字圖書館資源統(tǒng)一檢索系統(tǒng)、上海圖書館數(shù)字資源服務(wù)平臺等。這些系統(tǒng)都實(shí)現(xiàn)了基于HTTP、Z39.50等多種協(xié)議的異構(gòu)信息集成檢索。在對用戶需求和已有系統(tǒng)分析調(diào)研的基礎(chǔ)上,筆者所在的項(xiàng)目小組設(shè)計(jì)并實(shí)現(xiàn)了Cross-Search系統(tǒng),本文將對該系統(tǒng)進(jìn)行具體介紹。不論圖書館收集了多少資源、收集了怎樣的資源,對用戶而言都是屏蔽的,用戶只關(guān)心他能否在圖書館中查到他所需要的信息。Cross-Search系統(tǒng)的目標(biāo)是把各種信息資源透明地?zé)o縫地聯(lián)接在一起,構(gòu)成一個(gè)動態(tài)的信息環(huán)境,可以全方位、多渠道地為用戶提供文獻(xiàn)信息保障。用戶無需考慮信息資源的物理位置、獲取方式、結(jié)構(gòu)類型等客觀因素,通過一次點(diǎn)擊或一次查詢就可以得到符合自己需求的信息,并且這種服務(wù)是主動的、個(gè)性化的。具體來講,Cross-Search系統(tǒng)對數(shù)字資源的利用應(yīng)達(dá)到以下目標(biāo):(1)完整性,是指要保持?jǐn)?shù)字資源對象的完整性,Cross-Search系統(tǒng)不僅應(yīng)涵蓋各分散系統(tǒng)的內(nèi)部功能,還需保證各集成數(shù)據(jù)源的數(shù)量和類型不被縮減。(2)標(biāo)準(zhǔn)化,通過Cross-Search系統(tǒng)的整合,異構(gòu)數(shù)字資源將以標(biāo)準(zhǔn)、統(tǒng)一的形式提供給用戶,并有利于該系統(tǒng)與其他系統(tǒng)的進(jìn)一步融合。(3)個(gè)性化,是指Cross-Search系統(tǒng)應(yīng)充分考慮用戶特征,為用戶提供切合其特定需求的個(gè)性化服務(wù)。(4)智能化,采用動態(tài)優(yōu)化資源查找的方案,實(shí)現(xiàn)智能的資源獲取,1+1>2的資源利用效果。(5)易擴(kuò)展,面對層出不窮的數(shù)字資源,系統(tǒng)必須具有可伸縮的體系結(jié)構(gòu),才能集成更多的數(shù)據(jù)源。Cross-Search系統(tǒng)提供了整合異構(gòu)數(shù)據(jù)源的開放式平臺,整體框架采用先進(jìn)的基于B/S的三層結(jié)構(gòu)體系,設(shè)計(jì)模式遵循模塊化、低耦合的原則,具有良好的可擴(kuò)展性和兼容性,能夠方便地引入各種功能處理模塊。三層結(jié)構(gòu)包括客戶端的客戶界面層、中間業(yè)務(wù)邏輯層和后端數(shù)據(jù)庫服務(wù)器層。模塊的通用性和獨(dú)立性使系統(tǒng)的維護(hù)量較小。此外,CrossSerach系統(tǒng)采用面向?qū)ο蟮拈_發(fā)方法,將數(shù)字資源進(jìn)行抽象和封裝,提高了數(shù)據(jù)的獨(dú)立性,有利于保證數(shù)據(jù)的完整性和安全性。Cross-Search系統(tǒng)總體上分為前臺服務(wù)部分和后臺管理部分。前臺服務(wù)部分主要包括:用戶接口模塊、檢索引擎、結(jié)果整合模塊、總控管理模塊等。后臺管理部分包括:資源管理模塊、用戶管理模塊、統(tǒng)計(jì)模塊、原文傳遞處理模塊、系統(tǒng)信息定制模塊等。后臺管理是前臺服務(wù)得以運(yùn)行的基礎(chǔ),這些模塊共同實(shí)現(xiàn)了簡單易用的統(tǒng)一檢索和靈活多變的系統(tǒng)管理,其中資源管理模塊是Cross-Search系統(tǒng)整合各種異構(gòu)數(shù)據(jù)源的底層支撐,系統(tǒng)管理員通過該模塊注冊數(shù)據(jù)源的各種元數(shù)據(jù)(如服務(wù)器地址、檢索協(xié)議、檢索參數(shù)、語種等等),從而集成新的資源。檢索引擎采用組件式程序架構(gòu),內(nèi)部封裝了連接不同訪問協(xié)議的數(shù)據(jù)源的各類組件,可以實(shí)現(xiàn)檢索請求轉(zhuǎn)換和檢索結(jié)果獲取的功能。該模塊采用了開放式的設(shè)計(jì)模式,可以通過新增組件方便的擴(kuò)充資源。當(dāng)檢索引擎獲取到檢索結(jié)果后,系統(tǒng)動態(tài)調(diào)用結(jié)果整合模塊中處理相應(yīng)數(shù)據(jù)結(jié)構(gòu)的方法,從而實(shí)現(xiàn)對結(jié)果數(shù)據(jù)的整合,當(dāng)系統(tǒng)增加了新的數(shù)據(jù)結(jié)構(gòu)時(shí),結(jié)果整合模塊僅需增加相關(guān)的映射配置文件。為了完成各個(gè)模塊間的協(xié)作關(guān)系,系統(tǒng)采用模塊接口API,實(shí)現(xiàn)對特定資源對象所需方法的初始化及實(shí)例化,并負(fù)責(zé)實(shí)現(xiàn)對相關(guān)文件的動態(tài)加載和調(diào)用。從系統(tǒng)流程來看,Cross-Search系統(tǒng)總體結(jié)構(gòu)框圖如圖1所示。3.2統(tǒng)采用的技術(shù)Cross-Search系統(tǒng)實(shí)現(xiàn)采用了Windows2000+Tomcat+J2EE的組合服務(wù)器平臺,系統(tǒng)穩(wěn)定高效。底層數(shù)據(jù)庫采用MicrosoftSQLserver,由Tomcat與J2EE構(gòu)成中間層。系統(tǒng)采用的主要技術(shù)是JSP和XML。JSP是J2EE平臺上的一個(gè)組件,是目前較為流行的腳本語言之一,具有跨操作系統(tǒng)平臺及跨Web服務(wù)器的特性,支持面向?qū)ο?、代碼和模塊重用等先進(jìn)技術(shù),能提供與幾乎所有主流數(shù)據(jù)庫直接互聯(lián)的能力,開發(fā)速度快,是開發(fā)大中型網(wǎng)站的主要技術(shù)。XML是一種可以用于WEB上的標(biāo)準(zhǔn)的、可擴(kuò)展的數(shù)據(jù)格式描述語言。它可以描述各種各樣結(jié)構(gòu)的信息,并且由于它的數(shù)據(jù)內(nèi)容獨(dú)立性原則和自解釋性,使得用它表示的數(shù)據(jù)信息可以很方便地被不同的數(shù)據(jù)使用者使用。XML具有較為強(qiáng)大的描述數(shù)據(jù)和管理數(shù)據(jù)的能力,利用XML可較好地實(shí)現(xiàn)異構(gòu)數(shù)據(jù)源共享。同時(shí),XML具有跨平臺特性和可擴(kuò)展性,使得基于XML異構(gòu)數(shù)據(jù)源之間的數(shù)據(jù)共享具有很強(qiáng)的獨(dú)立性和靈活性。3.3數(shù)字資源檢索從功能實(shí)現(xiàn)上講,Cross-Search系統(tǒng)的設(shè)計(jì)使用戶可通過單一的檢索入口,同時(shí)檢索支持不同訪問協(xié)議的數(shù)字資源。系統(tǒng)整體設(shè)計(jì)要解決的核心問題是異構(gòu)數(shù)據(jù)源識別與連接和檢索結(jié)果處理,以下對Cross-Search系統(tǒng)的主要模塊進(jìn)行簡單介紹。3.3.1用戶認(rèn)證模塊系統(tǒng)的總控管理由用戶權(quán)限管理、認(rèn)證管理和日志管理三個(gè)相互聯(lián)系的子模塊構(gòu)成,它對系統(tǒng)的運(yùn)行進(jìn)行整體控制,是整套系統(tǒng)的中樞。(2)認(rèn)證管理。認(rèn)證包括兩個(gè)層次:①用戶使用系統(tǒng)提供的受控服務(wù)時(shí)所需的權(quán)限認(rèn)證;②用戶訪問外部數(shù)據(jù)源(如:商業(yè)數(shù)據(jù)庫及其他有訪問限制的數(shù)據(jù)源)時(shí)所需的授權(quán)認(rèn)證。系統(tǒng)采用集中+分散的雙重控制來進(jìn)行認(rèn)證管理。結(jié)合用戶權(quán)限管理,認(rèn)證模塊中集成各數(shù)據(jù)源的認(rèn)證方法,自動執(zhí)行外部資源對合法用戶的認(rèn)證,這一過程對用戶來講是透明的。系統(tǒng)現(xiàn)有的認(rèn)證方式包括:IP地址認(rèn)證和用戶名/密碼認(rèn)證。(3)日志管理。系統(tǒng)日志主要包括:用戶登錄時(shí)間、來源IP、檢索式、數(shù)據(jù)源被檢率等,基本來源于Session對象中的相關(guān)信息。系統(tǒng)管理員可根據(jù)需要檢索日志文件監(jiān)控特定事務(wù),并通過數(shù)據(jù)源、用戶ID、日期和時(shí)間等選項(xiàng)查看特定的日志記錄。同時(shí),通過查看用戶日志,還可獲取用戶查詢的歷史記錄等信息,利于進(jìn)一步的數(shù)據(jù)挖掘。3.3.2用戶檢索需求的實(shí)現(xiàn)該模塊主要為用戶提供個(gè)性化定制服務(wù),系統(tǒng)目前可支持的功能主要包括:(1)數(shù)據(jù)源選擇。數(shù)據(jù)源選擇主要是指用戶可以根據(jù)個(gè)人需求在系統(tǒng)集成的數(shù)字資源中定制常用數(shù)據(jù)源,多組定制資源形成個(gè)性化的類目體系,用戶可直接在定制的資源集中進(jìn)行檢索,提高用戶的使用效率。系統(tǒng)提供了對數(shù)據(jù)源的分類導(dǎo)航,包括數(shù)據(jù)源類型、學(xué)科、語種等,便于用戶對數(shù)據(jù)源的選擇。另一方面,由于用戶對每種資源的認(rèn)識不夠全面、深入,在選擇資源時(shí)難免出現(xiàn)主觀偏差。資源推薦技術(shù)在用戶開始檢索之前,通過預(yù)查詢或資源元數(shù)據(jù)揭示機(jī)制,幫助用戶發(fā)現(xiàn)和選擇真正具有檢索價(jià)值的資源,降低檢索的盲目性,減輕系統(tǒng)的負(fù)擔(dān)。(2)檢索入口。Cross-Search系統(tǒng)提供了靈活多樣的檢索功能,包括簡單檢索、組合檢索、二次檢索及跨語言檢索,使用戶得以充分表達(dá)自己的檢索需求,提高檢索效率,此外,系統(tǒng)允許用戶在檢索前及檢索后設(shè)定檢索結(jié)果排序及去重標(biāo)準(zhǔn)、結(jié)果顯示的詳盡程度等,在一定程度上體現(xiàn)了用戶的個(gè)性化需求。(3)檢索歷史處理。用戶可以對每次的檢索歷史(包括檢索式、檢索結(jié)果等)進(jìn)行多種處理。用戶可將檢索歷史發(fā)送至E-mail或存盤,同時(shí)系統(tǒng)也為用戶提供了保存記錄的空間,這是用戶的個(gè)性化信息空間,保存在個(gè)人工作間中的結(jié)果記錄可在系統(tǒng)規(guī)定的時(shí)間內(nèi)予以保留,方便用戶在從不同地點(diǎn)繼續(xù)相同的查詢,用戶工作間僅對經(jīng)過授予權(quán)限的用戶開放,并保證私有。3.3.3資源模塊的設(shè)計(jì)資源管理平臺面向的用戶為系統(tǒng)管理員,它負(fù)責(zé)對各目標(biāo)數(shù)據(jù)源的元數(shù)據(jù)及相關(guān)檢索參數(shù)進(jìn)行分析并將結(jié)果注冊到系統(tǒng)數(shù)據(jù)庫中,供檢索引擎以參數(shù)化的方式生成目標(biāo)數(shù)據(jù)源支持的檢索式。資源管理模塊不僅支持對各數(shù)據(jù)源的注冊、修改及刪除功能,還支持系統(tǒng)管理員根據(jù)系統(tǒng)需求對資源類型、資源排列順序進(jìn)行調(diào)整,操作簡單。此外,由于數(shù)據(jù)源的動態(tài)可變性,一旦檢索接口發(fā)生變化,系統(tǒng)中對該數(shù)據(jù)源的元數(shù)據(jù)描述也應(yīng)隨之改變,系統(tǒng)提供資源檢測功能,定時(shí)或手工啟動對數(shù)據(jù)源檢索接口的探測,向系統(tǒng)管理員報(bào)告數(shù)據(jù)源變化情況,有利于系統(tǒng)維護(hù)。3.3.4跨庫集成檢索系統(tǒng)的連接機(jī)制在Cross-Search系統(tǒng)中,將從各分散、異構(gòu)數(shù)據(jù)源獲得檢索結(jié)果的模塊稱為檢索引擎,也就是各個(gè)數(shù)據(jù)源的檢索代理。由于跨庫集成檢索系統(tǒng)中所集成資源的多樣性和復(fù)雜性,該模塊中必須同時(shí)融合各類信息獲取技術(shù)。具體來說,檢索引擎必須滿足以下要求:第一,可以同時(shí)檢索本地和異地資源;第二,可以檢索多種類型的資源;第三,被檢索的資源對象包括文摘、全文等眾多格式;第四,支持多種協(xié)議。檢索引擎所支持的協(xié)議種類及數(shù)量完全取決于整合對象,也就是說,不論整合對象支持什么協(xié)議,跨庫集成檢索系統(tǒng)都應(yīng)該完全具備訪問該協(xié)議的能力。目前的數(shù)字資源的結(jié)構(gòu)及接口形式各異,所支持的接口協(xié)議主要包括:HTTP、Z39.50、JDBC/OD-BC、SOAP(SimpleObjectAccessProtocol)、LADP(LightweightDirectoryAccessProtocol)等等檢索引擎針對每種協(xié)議,采取相應(yīng)的連接機(jī)制實(shí)現(xiàn)與目標(biāo)系統(tǒng)的實(shí)際連接,其功能的實(shí)現(xiàn)由兩部分組成。(1)檢索請求轉(zhuǎn)換模塊。異構(gòu)數(shù)據(jù)源采用不同的檢索語法,而Cross-Search系統(tǒng)為用戶提供統(tǒng)一的檢索接口,因此檢索引擎必須根據(jù)配置信息,將用戶發(fā)出的檢索請求轉(zhuǎn)換成對應(yīng)于不同數(shù)據(jù)源的實(shí)際檢索請求。轉(zhuǎn)換的基本原則是保留用戶的原本意圖,但也需要進(jìn)行一定的優(yōu)化。(2)連接器模塊。每一種連接器內(nèi)封裝了對某一類檢索協(xié)議資源的連接與訪問方法,它將完成與本地/遠(yuǎn)程數(shù)據(jù)源建立連接、執(zhí)行查詢、跟蹤檢索狀態(tài)并獲取返回記錄等操作。程序設(shè)計(jì)中采用模塊化方案,可以方便地嵌入其他協(xié)議的連接器在增加新的協(xié)議數(shù)據(jù)源時(shí),僅需為原有系統(tǒng)增加支持該協(xié)議的連接器這種開放式的設(shè)計(jì)架構(gòu)使得系統(tǒng)可以方便地?cái)U(kuò)充資源類型,具有良好的可擴(kuò)展性。此外,為提高系統(tǒng)響應(yīng)效率,實(shí)現(xiàn)對多個(gè)目標(biāo)數(shù)據(jù)源的同步訪問,連接器在連接器內(nèi)部與各連接器之間這兩個(gè)層次上實(shí)現(xiàn)了多線程的并行操作機(jī)制,此外,與檢索并行的還包括結(jié)果整合和顯示,系統(tǒng)具有邊檢邊顯的功能。系統(tǒng)的并發(fā)機(jī)制采用的是JA-VA提供的多線程機(jī)制。3.3.5數(shù)據(jù)庫的格式轉(zhuǎn)換該模塊主要功能是將從各個(gè)異構(gòu)數(shù)據(jù)源得到的檢索結(jié)果進(jìn)行整合,把不同格式的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的XML文檔,文檔中的元素取自DC標(biāo)準(zhǔn)字段。在此基礎(chǔ)上,借助XSLT對XML文件進(jìn)行去重、排序等相關(guān)處理,最終將結(jié)果集統(tǒng)一呈現(xiàn)給用戶。結(jié)果整合模塊按功能可劃分為兩個(gè)子模塊,即:格式轉(zhuǎn)換模塊和結(jié)果統(tǒng)一顯示模塊,其結(jié)構(gòu)圖如圖2所示。(1)抽取轉(zhuǎn)換模塊。Cross-Search所面向的數(shù)據(jù)源包括多種數(shù)據(jù)格式,對于每種數(shù)據(jù)源配備相應(yīng)的抽取及轉(zhuǎn)換器,即可將異構(gòu)數(shù)據(jù)源進(jìn)行整合。目前系統(tǒng)中支持的格式包括MARC、HTML、本地?cái)?shù)據(jù)庫裸數(shù)據(jù),由于采用的是模塊化的設(shè)計(jì)方法,增加新的異構(gòu)數(shù)據(jù)源時(shí),只需添加新的配置文件即可。下面具體說明各種格式的轉(zhuǎn)換方法。①M(fèi)ARC數(shù)據(jù)。格式轉(zhuǎn)換的關(guān)鍵在于為不同標(biāo)準(zhǔn)的MARC文件配備相應(yīng)的MAP文件和DTD文件。MAP文件是經(jīng)過人工分析得到的MARC字段及子字段與XML文檔標(biāo)簽的映射文件,通過它就可以將晦澀的機(jī)讀數(shù)據(jù)轉(zhuǎn)換為簡單清晰的XML文檔。DTD文件則用來規(guī)范XML文檔結(jié)果,限制它所包含的標(biāo)簽內(nèi)容及上下級關(guān)系。對于新增的MARC格式只需增加相應(yīng)的MAP和DTD配置文件即可。②HTML數(shù)據(jù)。HTML格式的數(shù)據(jù)是通過HT-TP方式得到的數(shù)據(jù)庫的檢索結(jié)果,HTML提供了一種方便地向讀者呈現(xiàn)信息的方法,但是由于它不是數(shù)據(jù)驅(qū)動的,在信息的自動抽取方面存在很大困難,為此系統(tǒng)利用Tidy工具首先將結(jié)構(gòu)繁雜的Web頁面轉(zhuǎn)換成格式良好的XHTML等價(jià)文檔,并在此基礎(chǔ)上定位文檔中有用信息的引用點(diǎn),進(jìn)而在XSL文件中利用XPATH表達(dá)式抽取出我們所需要的有用信息,最終,按預(yù)定義的格式輸出XML文件結(jié)果。這里XSL其實(shí)是一個(gè)抽取及映射的工具,對于新增加的數(shù)據(jù)源,只需對XSL文件稍加更改,程序代碼基本上不用改動。③本地?cái)?shù)據(jù)庫的裸數(shù)據(jù)。目前大部分?jǐn)?shù)據(jù)庫都在某種程度上支持XML,尤其對于較常用的關(guān)系型數(shù)據(jù)庫,例如SQLServer、Oracle等。Web開發(fā)人員無需進(jìn)行復(fù)雜的數(shù)據(jù)庫編程,利用數(shù)據(jù)庫對XML的支持可以得到符合要求的XML文檔。對于這種數(shù)據(jù)源主要是分析數(shù)據(jù)庫結(jié)構(gòu)及利用相應(yīng)數(shù)據(jù)庫的XML工具。(2)統(tǒng)一顯示模塊。在將不同來源數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的XML格式文檔的過程中,為了便于對單一結(jié)果集進(jìn)行排序、去重等處理,映射文件將原有數(shù)據(jù)中表達(dá)相同概念的不同標(biāo)簽統(tǒng)一轉(zhuǎn)換為相同的標(biāo)簽表示。由于內(nèi)容與顯示格式相分離,用戶可以選擇適合自己的檢索結(jié)果顯示風(fēng)格,真正地?fù)碛凶约旱男畔z索平臺。對數(shù)據(jù)庫檢索結(jié)果有多種瀏覽方式,用戶既可以分別瀏覽單個(gè)數(shù)據(jù)庫的檢索結(jié)果,也可以把所有數(shù)據(jù)庫返回結(jié)果按題名、著者等進(jìn)行排序??鐜旒蓹z索中的關(guān)鍵處理是對多個(gè)檢索結(jié)果的查重,用戶可以指定查重方式(例如題名,著者+題名等)或不查重,并提供對其他重復(fù)記錄的查看,使用戶對檢索結(jié)果有全面準(zhǔn)確的把握。此外,系統(tǒng)在將結(jié)果呈現(xiàn)給用戶之前,在服務(wù)器端首先將XML轉(zhuǎn)換成HTML格式,這樣最終在客戶端顯示的是HTML文檔,避免客戶端瀏覽器對XML的各種限制。3.3.6系統(tǒng)統(tǒng)計(jì)功能(1)系統(tǒng)統(tǒng)計(jì)。通過對系統(tǒng)運(yùn)行產(chǎn)生的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),可以對系統(tǒng)的使用率進(jìn)行衡量,幫助研發(fā)人員和系統(tǒng)管理員發(fā)現(xiàn)并改進(jìn)系統(tǒng)的不足。系統(tǒng)運(yùn)行過程中所記錄的日志可以作為統(tǒng)計(jì)數(shù)據(jù)的來源。Cross-Search系統(tǒng)在后臺管理界面中提供了多種統(tǒng)計(jì)功能,包括數(shù)據(jù)庫使用統(tǒng)計(jì)、原文請求統(tǒng)計(jì)、原文請求處理統(tǒng)計(jì)、用戶注冊統(tǒng)計(jì)等,進(jìn)行統(tǒng)計(jì)時(shí)還可指定數(shù)據(jù)庫、日期和用戶角色,并可將統(tǒng)計(jì)結(jié)果導(dǎo)出為Excel表格做進(jìn)一步利用。(2)系統(tǒng)定制。與其他Web系統(tǒng)一樣,CrossSearch系統(tǒng)中會有某些內(nèi)容經(jīng)常需要調(diào)整,例如最新消息、系統(tǒng)郵箱等等,為了便于維護(hù),系統(tǒng)提供了系統(tǒng)內(nèi)容定制接口,管理員可以通過Web接口隨時(shí)進(jìn)行系統(tǒng)內(nèi)容的發(fā)布和調(diào)整,這也有利于系統(tǒng)的靈活移植。(3)原文傳遞。Cross-Search系統(tǒng)所集成的資源中存在很多商業(yè)全文數(shù)據(jù)庫,出于知識產(chǎn)權(quán)、商業(yè)利益等諸多考慮,數(shù)據(jù)庫廠商采用IP或賬號機(jī)制限制非購買用戶的使用,這些用戶通過Cross-Search系統(tǒng)可以得到文獻(xiàn)基本信息,卻無法獲得文獻(xiàn)全文,為了最大限度地滿足用戶需要,系統(tǒng)通過E-mail或郵寄提供原文傳遞服務(wù)。4系統(tǒng)架構(gòu)設(shè)計(jì)Cross-Search系統(tǒng)提供了一套可定制、高性能、可管理的數(shù)據(jù)源整合工具,為異構(gòu)數(shù)據(jù)庫的集成檢索提供了良好的解決方案。它支持各類常用數(shù)字資源的跨庫檢索,支持用戶自定義配置網(wǎng)絡(luò)數(shù)據(jù)源,提供優(yōu)秀的并發(fā)訪問性能,支持快速的響應(yīng)機(jī)制和靈活的檢索方式,擁有強(qiáng)大的結(jié)果集處理功能并支持對結(jié)果集的排序、去重和整合分類,支持檢索范圍選擇和對檢索站點(diǎn)的分類選擇,支持組合檢索和二次檢索,具有個(gè)性化推薦和站點(diǎn)評估、優(yōu)選等功能。具體來說,主要包括以下先進(jìn)性:(1)采用模塊化的設(shè)計(jì)和開發(fā)方式,系統(tǒng)整體架構(gòu)靈活且具有良好的可擴(kuò)展性。一方面,檢索引擎中針對每一類檢索協(xié)議的數(shù)據(jù)源,都有一個(gè)對應(yīng)的連接器,對于新增的數(shù)據(jù)源類型,只需添加相應(yīng)的補(bǔ)丁程序即可。另一方面,系統(tǒng)針對集成每種數(shù)據(jù)源,有獨(dú)立的數(shù)據(jù)抽取及轉(zhuǎn)換模塊,易于擴(kuò)展新的數(shù)據(jù)源,(2)各模塊間的接口全部實(shí)現(xiàn)參數(shù)化,程序具有較強(qiáng)的動態(tài)數(shù)據(jù)處理能力。每個(gè)數(shù)據(jù)源的檢索請求格式都有所不同,本系統(tǒng)采用了基于資源元數(shù)據(jù)的動態(tài)構(gòu)造方式,能夠適應(yīng)數(shù)據(jù)源的相關(guān)參數(shù)的動態(tài)變化而不需要修改原有程序,實(shí)現(xiàn)了程序的封裝性和可擴(kuò)充性。(3)支持用戶自定義配置網(wǎng)絡(luò)數(shù)據(jù)源,系統(tǒng)提供一目了然的向?qū)Чぞ?用戶可通過該工具任意添加、刪除和修改需要檢索的網(wǎng)絡(luò)數(shù)據(jù)源。(4)支持快速的響應(yīng)機(jī)制,提供多線程查詢機(jī)制,支持?jǐn)?shù)據(jù)庫的先返回先顯示,檢索和結(jié)果輸出同時(shí)進(jìn)行,用戶不必等待,大大提高系統(tǒng)的響應(yīng)速度。(5)支持靈活的檢索方式,訪問者可靈活設(shè)置搜索范圍,并選擇簡單、組合檢索、二次檢索及跨語言檢索。(6)采用統(tǒng)一的XML標(biāo)準(zhǔn)文檔格式,真正實(shí)現(xiàn)了異構(gòu)數(shù)據(jù)的整合,并擁有強(qiáng)大的結(jié)果集處理功能。來自各個(gè)異構(gòu)數(shù)據(jù)源的檢索結(jié)果都能被轉(zhuǎn)換成統(tǒng)一的XML文檔,并加以集成,利用XSL提供用戶靈活多樣的顯示方式,實(shí)現(xiàn)了數(shù)據(jù)與表現(xiàn)形式的分離,有利于數(shù)據(jù)的重復(fù)利用及一致性維護(hù)。結(jié)果整合模塊是基于XML/XSLT/XPATH語言開發(fā)完成??善帘斡刹煌Z言所開發(fā)的網(wǎng)絡(luò)數(shù)據(jù)庫所帶來的語義、語法、結(jié)構(gòu)的異構(gòu)性。(7)可重用系統(tǒng)組件,對于系統(tǒng)的檢索及處理結(jié)果,不僅可以直接呈現(xiàn)給終端用戶,還可通過外部接口,傳入其他應(yīng)用程序,進(jìn)行更深層次的應(yīng)用和處理。5結(jié)論及改進(jìn)查重算法目前,本系統(tǒng)已成功應(yīng)用于中科院文獻(xiàn)情報(bào)中心的資源整合方案中,將中心購買的國外大型數(shù)據(jù)庫、自行開發(fā)的數(shù)據(jù)庫、以及Internet上的OPAC系統(tǒng)、免費(fèi)數(shù)據(jù)庫等數(shù)字資源聯(lián)為一體,擴(kuò)展中心的虛擬館藏,為讀者提供友好易用的檢索功能??鐜旒蓹z索是當(dāng)前圖書館界的熱門話題,它采用了多種技術(shù),已有一定的發(fā)展,但它仍存在很多不足。本文提到的Cross-Search系統(tǒng)同樣有許多需要進(jìn)一步改進(jìn)的地方。(1)改進(jìn)查重算法。事實(shí)上,對于跨庫集成檢索系統(tǒng)來說,真正的查重是不可能的。為了對檢索結(jié)果進(jìn)行查重,引擎不得不下載所有的檢索結(jié)果,并進(jìn)行比較。局限因素并不是集成檢索的技術(shù),而是數(shù)據(jù)庫返回結(jié)果的方式:一次返回10條或20條。進(jìn)行一次真正的查重操作需要數(shù)小時(shí),并且相同的記錄可能出現(xiàn)在不同數(shù)據(jù)庫的結(jié)果集的不同位置,因此必須將所有數(shù)據(jù)庫的所有檢索結(jié)果全部下載。目前聲稱自己進(jìn)行真正查重的商家通常只對查詢返回的第一批記錄集進(jìn)行查重。Cross-Search系統(tǒng)目前僅有題名和題名+作者兩種查重方式,下一步應(yīng)該改進(jìn)查重算法,例如對那些可以取到文摘或全文的結(jié)果記錄,比較文摘或全文的前幾個(gè)句子,這樣可以對查重算法有一定的改進(jìn)。由于檢索結(jié)果并不是一次返回,系統(tǒng)可以對數(shù)據(jù)進(jìn)行分批查重,并告知用戶,用戶可以加以人工甄別,這樣可以在一定程度上提高效率。(2)進(jìn)行相關(guān)度排序。要做到全部相關(guān)的相關(guān)性排序是不可能的。相關(guān)性排序主要是計(jì)算引用中檢索詞的出現(xiàn)次數(shù)?;谶@種出現(xiàn)頻率,記錄被排在結(jié)果集的靠前或靠后的位置。問題在于:當(dāng)試圖進(jìn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度建筑企業(yè)內(nèi)部承包合同爭議解決機(jī)制
- 2025年度個(gè)人信用貸款合同模板匯編
- 2025年度建筑抗震加固安裝工程承包合同(安全耐久)
- 鹽城江蘇鹽城市大豐區(qū)住房和城鄉(xiāng)建設(shè)局招聘勞務(wù)派遣工作人員4人筆試歷年參考題庫附帶答案詳解
- 滁州2025年安徽滁州來安縣司法局招聘5名司法協(xié)理員筆試歷年參考題庫附帶答案詳解
- 湖北2025年湖北理工學(xué)院專項(xiàng)招聘97人筆試歷年參考題庫附帶答案詳解
- 浙江浙江省衛(wèi)生健康綜合保障中心招聘編外人員筆試歷年參考題庫附帶答案詳解
- 洛陽2024年河南洛陽市孟津區(qū)引進(jìn)研究生學(xué)歷人才50人筆試歷年參考題庫附帶答案詳解
- 承德2025年河北承德市中心醫(yī)院招聘筆試歷年參考題庫附帶答案詳解
- 2025年中國五礦機(jī)械市場調(diào)查研究報(bào)告
- 數(shù)學(xué)-河南省三門峽市2024-2025學(xué)年高二上學(xué)期1月期末調(diào)研考試試題和答案
- 2025年春新人教版數(shù)學(xué)七年級下冊教學(xué)課件
- 《心臟血管的解剖》課件
- 心肺復(fù)蘇課件2024
- 2024-2030年中國并購基金行業(yè)發(fā)展前景預(yù)測及投資策略研究報(bào)告
- 河道清淤安全培訓(xùn)課件
- 2024各科普通高中課程標(biāo)準(zhǔn)
- 7.3.1印度(第1課時(shí))七年級地理下冊(人教版)
- 教師培訓(xùn)校園安全
- 北師大版語文四年級下冊全冊教案
- 《湖南師范大學(xué)》課件
評論
0/150
提交評論