



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
精選優(yōu)質(zhì)文檔-----傾情為你奉上精選優(yōu)質(zhì)文檔-----傾情為你奉上專心---專注---專業(yè)專心---專注---專業(yè)精選優(yōu)質(zhì)文檔-----傾情為你奉上專心---專注---專業(yè)由搜索引擎談數(shù)字圖書館的信息服務(wù)孔足深圳圖書館廣東深圳[摘要]本文簡單介紹了互聯(lián)網(wǎng)上的搜索引擎技術(shù),并通過深圳圖書館開發(fā)的數(shù)字圖書館系統(tǒng)(dILAS)的信息服務(wù)系統(tǒng)來說明如何利用搜索引擎技術(shù),構(gòu)建數(shù)字圖書館的信息服務(wù)系統(tǒng)。[關(guān)鍵詞]數(shù)字圖書館搜索引擎信息服務(wù)FromSearchEngineertotheInformationServiceinDigitalLibraryKongZuShenzhenLibrary,Shenzhen,Guangdong[Abstract]Thepaperfirstgivesabriefintroductiontothetechnologiesofsearchengineerontheinternet,thenprovidesanexampleofinformationservicesystemindigitallibrarybasedonsearchengineerwhichisdevelopedbyShenzhenLibrary.[Keywords]Digitallibrary;Searchengineer;Informationservice隨著互聯(lián)網(wǎng)爆炸性的發(fā)展,網(wǎng)絡(luò)上的信息呈現(xiàn)幾何級數(shù)增長的趨勢,使其信息極為豐富。同時也因信息資源分散、缺乏有效的信息組織、信息檢索緩慢,人們不知如何快速、準確地從Internet資源中獲取自己最需要的信息。為了解決這些問題,搜索引擎便應(yīng)運而生。隨著信息數(shù)字化的發(fā)展,數(shù)字圖書館成為知識傳播、普及教育重要和有利的工具。為了幫助使用者能夠快速、有效地利用網(wǎng)絡(luò)上的巨量信息資源,我們同樣要在信息服務(wù)上做很多的工作。本文擬對互聯(lián)網(wǎng)上的搜索引擎技術(shù)進行簡單的介紹,并通過深圳圖書館開發(fā)的數(shù)字圖書館系統(tǒng)(dILAS)的信息服務(wù)系統(tǒng),來說明如何利用搜索引擎的技術(shù)來構(gòu)建數(shù)字圖書館的信息服務(wù)系統(tǒng)。1搜索引擎的原理及分類自1994年第一個搜索引擎出現(xiàn)以來,當今數(shù)百個搜索引擎已構(gòu)成Internet的主要查詢工具。它從最早的第一代網(wǎng)站搜索引擎發(fā)展到第二代關(guān)鍵詞搜索引擎,現(xiàn)在已發(fā)展到應(yīng)用數(shù)據(jù)挖掘、人工智能等技術(shù)的第三代智能搜索引擎。搜索引擎由搜索器、索引器、檢索器和用戶接口等四個部分組成。它先由搜索器以一定的策略在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,然后通過索引器對信息進行理解、提取、組織和處理并存儲到數(shù)據(jù)庫中。最后在用戶接口及檢索器的共同作用下為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的作用。搜索引擎按其工作方式主要可分為三種,分別是目錄式搜索引擎、機器人搜索引擎和元搜索引擎。目錄式搜索引擎是最早出現(xiàn)的基于WWW的搜索引擎,主要以yahoo為代表。它以人工方式或半自動方式搜集信息,大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。其特點是搜索的信息準確、導(dǎo)航質(zhì)量高,但信息量少,信息更新不及時且維護量大。機器人搜索引擎是很常用的一種搜索引擎,主要以google為代表。搜索機器人(robot)主動地從互聯(lián)網(wǎng)上檢索信息并自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用。其特點是數(shù)據(jù)量、數(shù)據(jù)的涵蓋范圍大,更新速度有保障,但返回信息過多,有很多無關(guān)信息,用戶必須從結(jié)果中進行篩選。元搜索引擎是一種調(diào)用其它獨立搜索引擎的引擎,主要以InfoSpace為代表。它在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,對搜索結(jié)果進行匯集、篩選、刪除、合并等優(yōu)化處理后將結(jié)果返回給用戶。其主要的特點是集成多個搜索引擎,覆蓋面大,搜索效果更好且具有可擴展性等優(yōu)點。它的缺點是有一定的局限性,不能夠充分使用所使用搜索引擎的功能。2dILAS的信息服務(wù)系統(tǒng)雖然Internet上信息資源極為豐富,但在很大程度上處于混亂的無政府主義狀態(tài)。而目前的搜索引擎主要由計算機和網(wǎng)絡(luò)工作者設(shè)計開發(fā),導(dǎo)致分類體系不統(tǒng)一、不規(guī)范、查全查準率低、缺乏知識處理能力和理解能力等問題,不能滿足讀者的需求。讀者想查的信息明明網(wǎng)上有,但用搜索引擎就是查不到;也可能會找到成百上千條結(jié)果,但都不是讀者想要的。這給提供信息服務(wù)的圖書館帶來了一個發(fā)展機遇,那就是如何利用現(xiàn)有的網(wǎng)絡(luò)信息資源和現(xiàn)有的網(wǎng)絡(luò)技術(shù)環(huán)境,如何借鑒網(wǎng)上已建立的搜索引擎和傳統(tǒng)分類法、主題法理論的技術(shù)和成果,借助自身在信息處理方面的優(yōu)勢來構(gòu)建信息服務(wù)系統(tǒng),以提高網(wǎng)絡(luò)信息的有序化程度,拓展圖書館館藏資源,并大批量地擴展因特網(wǎng)讀者用戶,使任何一個讀者都能像上圖書館查書那樣,方便地利用網(wǎng)絡(luò)信息資源。dILAS是一個面向圖書情報機構(gòu)的大型分布式數(shù)字圖書館應(yīng)用系統(tǒng),提供了跨系統(tǒng)、多層次的信息檢索與服務(wù)平臺。下面將介紹dILAS系統(tǒng)信息檢索與服務(wù)相關(guān)的幾個重點模塊:2.1全文檢索系統(tǒng):為了滿足不同用戶對全文檢索不同程度的需求,dILAS系統(tǒng)開發(fā)了基于多種索引機制全文檢索系統(tǒng),即能夠支持基于字的二元索引(普通索引)和基于漢語分詞的詞索引(概念索引)。用戶可以根據(jù)不同的需求來建立自己的全文檢索系統(tǒng)。它支持復(fù)雜檢索條件的檢索,并能支持段落中的關(guān)系限定。概念索引是利用專業(yè)詞表來進行全文分隔,并將分隔好的結(jié)果呈現(xiàn)在用戶的面前進行審核調(diào)整。它適合于專業(yè)全文數(shù)據(jù)庫的建立,能滿足專業(yè)人士對檢索的準確度的要求。而普通索引則適合對準確度要求不太高的人士。2.2dILAS-Z39.50檢索為解決書目信息的通用檢索問題,dILAS系統(tǒng)提供了dILAS-Z39.50檢索,它可以說是一種特殊的元搜索引擎。dILAS-Z39.50檢索是基于Z39.50協(xié)議的對外檢索服務(wù)專用系統(tǒng)。它利用Z39.50標準開放協(xié)議實現(xiàn)了dILAS數(shù)據(jù)庫的全開放,使dILAS系統(tǒng)與其它開放式系統(tǒng)之間實現(xiàn)了無縫連接。它利用Z39.50的基本服務(wù)操作實現(xiàn)了聯(lián)合編目中的數(shù)據(jù)查詢及下載;利用Z39.50的擴展服務(wù)完成了書目及館藏信息的上載;利用Z39.50網(wǎng)關(guān)采用統(tǒng)一的檢索界面,實現(xiàn)對多個圖書館的館藏文獻信息的查詢和資源的定位。通過Z39.50的開發(fā)與應(yīng)用,建立靈活的檢索接口與界面,使dILAS不僅在系統(tǒng)內(nèi)部的OPAC、聯(lián)合編目、館際互借等部分實現(xiàn)了數(shù)據(jù)資源的充分利用與共享,而且為網(wǎng)絡(luò)間的異構(gòu)平臺和異構(gòu)系統(tǒng)之間的信息檢索和傳輸提供了條件,實現(xiàn)了與其他具有標準接口的系統(tǒng)之間的數(shù)據(jù)訪問,為數(shù)據(jù)資源共享提供了新途徑。2.3dILAS-USP隨著信息化的不斷發(fā)展,數(shù)字資源的日益膨脹,各種數(shù)據(jù)庫資源及相應(yīng)的檢索系統(tǒng)也日益增加,這雖然是一件好事,但是也給資源的使用者帶來了很大的困擾:他們?yōu)榱藱z索信息,需要在各種數(shù)據(jù)庫間不斷地進行切換、不斷地輸入同樣的檢索條件,分析各種形式的檢索結(jié)果。dILAS系統(tǒng)提供一種元搜索引擎-dILAS-USP來解決這一問題。dILAS-USP是針對異構(gòu)系統(tǒng)數(shù)據(jù)庫的統(tǒng)一檢索平臺。它通過配置一系列數(shù)據(jù)庫檢索引擎,使用戶能夠面對諸多的數(shù)據(jù)庫,通過一個頁面統(tǒng)一提交檢索請求,由平臺分發(fā)并進行同步檢索,其結(jié)果以統(tǒng)一的格式返回。目前已集成常用商業(yè)數(shù)據(jù)庫近50種。2.4網(wǎng)上采集系統(tǒng)網(wǎng)上資源的不斷豐富使圖書館的讀者服務(wù)和資源建設(shè)越來越依賴網(wǎng)上資源,而網(wǎng)上資源的不確定性使圖書館建立專題資源數(shù)據(jù)庫時不得不采取下載的方式以保存完整的信息。dILAS系統(tǒng)提供網(wǎng)上資源采集子系統(tǒng)來進行專業(yè)性的定時、定點的下載,它屬于專業(yè)機器人搜索引擎。dILAS網(wǎng)上資源采集系統(tǒng)是一個獨立的網(wǎng)上資源搜索、自動爬行、資源下載與保存、資源加工專門系統(tǒng),是圖書館進行資源整合和參考咨詢服務(wù)的重要工具。它由任務(wù)定制、采集服務(wù)、本地加工等模塊組成。用戶能根據(jù)自定義的采集條件、過濾規(guī)則,從網(wǎng)上固定網(wǎng)站采集到滿足條件的資源,并能在采集的過程中根據(jù)自定義的規(guī)則來自動提取元數(shù)據(jù)。被采集資源在本地進行篩選、加工,統(tǒng)一上載到服務(wù)器上。3數(shù)字圖書館信息服務(wù)系統(tǒng)的發(fā)展趨勢隨著第三代搜索引擎向智能化、個性化、社區(qū)化方向深入發(fā)展,數(shù)字圖書館的信息服務(wù)系統(tǒng)也將呈現(xiàn)其新的特點。3.1提高信息檢索的智能化目前智能化搜索引擎采用自然語言理解技術(shù),能實現(xiàn)分詞、同義詞、概念搜索,短語識別及機器翻譯等。我們可以借鑒其技術(shù),利用分詞詞典、同義詞典、同音詞典并通過歧義知識描述庫、全文索引、用戶檢索上下文分析以及用戶相關(guān)性反饋等技術(shù)結(jié)合處理,高效、準確地反饋給用戶最需要的信息。進一步還可在知識層面上輔助查詢,通過主題詞典、上下位詞典、相關(guān)同級詞典,形成一個知識體系,給予用戶智能知識提示,最終幫助用戶獲得最佳的檢索效果。3.2檢索系統(tǒng)交互功能的增強目前智慧型互動搜索引擎--新浪"愛問",提供一個獨有的互動問答平臺,調(diào)動網(wǎng)民參與提問與回答,讓用戶彼此分享知識與經(jīng)驗。多數(shù)用戶的檢索請求在起初是模糊的,借助于知識工具,我們可以在用戶檢索的過程當中,不斷地與用戶交互,不斷地提示和引導(dǎo)用戶更加明確其檢索的目的,從而使檢索的結(jié)果更加有效,符合用戶的需要。定義性的知識獲取,可以對于文獻中的一些基礎(chǔ)性的、定義性的文字信息進行索引(也就是所謂的小粒度知識),從而在檢索的時候不是返回整個的文獻,而是只返回相關(guān)的知識點,甚至可以返回多個文獻中對于同一個只是點的描述進行對比。3.3向知識管理的方向靠攏檢索引擎一般朝著兩個方向發(fā)展,一個向廣度方向發(fā)展,另一個會朝著深度方向發(fā)展。提高檢全率,增加數(shù)據(jù)庫中的容量,是朝著廣度的方向發(fā)展。但文獻的命中率并不是代表檢索引擎唯一標準。網(wǎng)上的信息浩如煙海,網(wǎng)絡(luò)資源以驚人的速度增長,一個搜索引擎很難收集全所有主題的網(wǎng)絡(luò)信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確而又專業(yè),使得檢索結(jié)果垃圾太多。這樣以來,垂直主題的搜索引擎以其高度的目標化和專業(yè)化在各類搜索引擎中占據(jù)了一席之地。目前,一些主要的搜索引擎,都提供了新聞、Mp3、圖片、Flash等的搜索,加強了檢索的針對性。由此可見面向情報領(lǐng)域的垂直方向深度檢索引擎是個必然的趨勢。對于我們來說,有針對性地作面向?qū)W科分類的知識管理方向的檢索是可以做到的,效果也應(yīng)該是顯著的。3.4加強個性化服務(wù)加強以用戶為中心的信息挖掘與智能代理技術(shù),建立更加友好的用戶檢索界面,在功能上突出個性化,例如可添加用戶興趣庫、個性化需求分析、查詢過濾器等。加強個性化定制技術(shù)、提高信息主動推送服務(wù),讀者可以針對圖書館定制的個性化網(wǎng)頁,可選擇常用的數(shù)據(jù)庫、電子期刊、相關(guān)網(wǎng)站鏈接、搜索引擎、專業(yè)詞表等信息源作為自己定制的主頁內(nèi)容,并能根據(jù)自己對信息所屬類型的理解不同來加以管理。[參考文獻][1]符敏慧.智能Agent技術(shù)與個性化信息服務(wù)的實現(xiàn).情報雜志,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人工智能視角下的認知科學研究
- 智慧林業(yè)推動林業(yè)新質(zhì)生產(chǎn)力的內(nèi)在機制與發(fā)展路徑研究
- 公平原則下個人信息同意機制的法律經(jīng)濟學分析
- 勞動力市場扭曲的成因機制及其影響效應(yīng)研究與對策探討
- 高中物理案例教學科學思維培養(yǎng)
- 橋頭飯?zhí)霉芾磙k法細則
- 幼兒園衛(wèi)生保健人才隊伍建設(shè)與培訓(xùn)體系
- 大氣光學湍流廓線的探測與預(yù)測技術(shù)研究
- 昭通盆景栽培管理辦法
- 國家安全學習體會
- GB/T 307.4-2017滾動軸承推力軸承 產(chǎn)品幾何技術(shù)規(guī)范(GPS)和公差值
- GB 29415-2013耐火電纜槽盒
- 《密碼法》培訓(xùn)只是講座PPT課件(帶內(nèi)容)
- 建筑工程文件歸檔管理明細表
- 如何解讀血常規(guī)報告
- 區(qū)域消防安全風險評估規(guī)程DB50-T 1114-2021
- 免疫調(diào)節(jié)治療在腦卒中的運用課件
- 機關(guān)檔案管理工作培訓(xùn)PPT課件
- 25T汽車吊檢驗報告
- 變頻空調(diào)中的永磁電機電感分析
- 高考常考語法填空詞性轉(zhuǎn)換匯總
評論
0/150
提交評論