




已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)字資源整合的機制與方法,李廣建 (),主要內(nèi)容,信息技術對信息服務的影響 信息資源整合,信息技術對信息服務的影響,隨著計算機技術、多媒體以及網(wǎng)絡技術的飛速發(fā)展,信息載體的不斷電子化、網(wǎng)絡化,信息服務機構(如圖書館、情報機構)的信息技術也隨之計算機化、網(wǎng)絡化,以滿足不斷變化和發(fā)展的文獻信息服務的需求。 信息技術既對信息服務機構帶來了機遇、也帶來了挑戰(zhàn)。,機遇 提供了先進的技術手段 過去手工條件做到的,現(xiàn)在提高了效率 過去想到了,但因條件的限制做不到,現(xiàn)在能做了 過去沒想到的,現(xiàn)在也能做了 挑戰(zhàn) 過去的很多認識,現(xiàn)在不靈了(觀念問題) 運行方式和作業(yè)環(huán)境發(fā)生了翻天覆地的變化(還是圖書館嗎?) 用戶的要求越來越高了(需求總是很難滿足),從挑戰(zhàn)談起,現(xiàn)有圖書館工作模式 流水線式的工作 目錄為中心的工作模式 以文獻為單元的工作模式,現(xiàn)代信息技術環(huán)境下圖書館工作面臨的轉變 工作的中心由面向館藏的轉變成面向用戶的 從基于載體的信息提供轉變成是基于內(nèi)容的信息提供 從館內(nèi)服務或面對面的服務轉變成網(wǎng)絡服務或遠程服務 技術和設備在很大程度上會影響工作效果,再看看機遇,如果我們轉變觀念 從圖書館的用戶到用戶的圖書館 如果我們改變流程 從分立的資源服務到集成整合的服務 如果我們用新技術 從簡單的信息檢索到個性化的推送,library,user environments,resource environment,the library in the user environment, Not the user in the library environment.,Flexible assembly of services from multiple sources.,從圖書館的用戶到用戶的圖書館,總之,要 圍繞著用戶的工作流程構建相關的信息服務; 使用戶不離開其工作環(huán)境就可使用信息資源; 按照用戶的使用習慣組織信息資源和服務; 能根據(jù)用戶的不同為其組織和裝配不同的資源和服務 徹底解決 用戶看到的一個個孤立的系統(tǒng),是一個個的建設成果展示; 服務系統(tǒng)自成體系,系統(tǒng)互連性差,不能被相互調(diào)用; 系統(tǒng)之的連接關系是零散、無序、任意的甚至是混亂的,沒有一個清晰的流程; 用戶不了解、不明白、不易用、不會用、不能用、不愛用,解決方案 信息資源整合,主要內(nèi)容,信息技術對信息服務的影響 信息資源整合,信息資源整合,整合機制 整合技術,整合機制,目前數(shù)字資源整合系統(tǒng)的實現(xiàn)機制可以概括為四種 數(shù)據(jù)倉庫整合機制 Mediator/Wrapper整合機制(中介器/封裝器整合機制)、 Agent整合機制 P2P整合機制,整合機制數(shù)據(jù)倉庫整合機制,數(shù)據(jù)倉庫整合機制是一種物理集成方式,它將不同來源的數(shù)字資源按特定的方式(通常是按主題或其它多維方式)建模并存儲在同一物理位置(稱為數(shù)據(jù)倉庫),提供給用戶一個新的、統(tǒng)一的目標數(shù)據(jù)模式(schema),使得用戶能夠一站式地訪問各種數(shù)字資源,從而達到整合的目的。,下圖概略地示出了數(shù)據(jù)倉庫整合機制的基本原理,從上圖中可以看出,數(shù)據(jù)倉庫整合機制的最根本的特點是物理地存放數(shù)字資源,對不同來源的數(shù)字資源進行集中管理,簡化了用戶訪問信息的復雜度,提高了數(shù)字資源的訪問速度和整合系統(tǒng)的性能。 而且,由于實現(xiàn)了不同來源的數(shù)字資源的一致性存儲,這種整合機制還有利于實施比信息檢索更復雜、更深入的數(shù)據(jù)挖掘、知識發(fā)現(xiàn)等服務。 采用數(shù)據(jù)倉庫整合機制進行整合的前提是必須能合法地(例如通過授權)獲得來源系統(tǒng)中的數(shù)字資源,而且,由于是集中存儲要整合的數(shù)字資源,因而難以適應網(wǎng)絡數(shù)字資源類型多樣、變化快等特點,同時還會增加本地系統(tǒng)存儲與維護的負擔。 數(shù)據(jù)倉庫整合機制較適用于自建資源。,數(shù)據(jù)倉庫整合機制所涉及的技術主要有: (1)海量數(shù)據(jù)存儲 (2)ETL技術 (3)信息源的監(jiān)控與更新,(1)海量數(shù)據(jù)存儲 數(shù)據(jù)倉庫的數(shù)據(jù)來源于多個信息源(即參與整合的系統(tǒng)中的數(shù)字資源),因此具有數(shù)據(jù)量大、類型復雜的特點,屬于海量數(shù)據(jù)。 解決海量數(shù)據(jù)的存儲問題,除了需要相應的專門設備如磁盤陣列、光盤庫、磁帶庫等,還需要精心地設計存儲結構和存儲算法,既要保證數(shù)字資源有合理的物理存儲結構,又要保證有較快的存取速度。,(2)ETL技術 ETL技術是對要加以整合的數(shù)字資源進行抽取(Extract)、轉換(Transform)、清洗(Cleaning)、裝載(Loading)的技術。 對不同來源的數(shù)字資源進行物理集成,首先需要從參與整合的系統(tǒng)中抽取出相關數(shù)字資源,這需要使用信息抽取技術。 由于信息源是異構的,因此,還必須利用轉換技術將不同結構的數(shù)字資源規(guī)范化,消除異構數(shù)字資源之間的不一致性,為來自不同系統(tǒng)的數(shù)字資源之間的比較、整合以及統(tǒng)一存儲奠定基礎; 清洗技術主要是解決信息冗余的去重以及錯誤和不完整信息的修正、剔除問題; 裝載技術則是將清洗后的數(shù)字資源按一定的規(guī)則加載至數(shù)據(jù)倉庫,形成數(shù)據(jù)倉庫的物理存儲結構和邏輯存儲結構。,(3)信息源的監(jiān)控與更新 如前所述,數(shù)據(jù)倉庫整合機制是一種物理整合方式,數(shù)據(jù)倉庫本身與信息源在物理上是分離的,因此必須要解決數(shù)據(jù)倉庫與信息源的同步問題。也就是說,必須要監(jiān)控參與整合的信息源的變化,同步更新數(shù)據(jù)倉庫,確保用戶在整合系統(tǒng)中查詢到的是各個信息源中的最新數(shù)字資源。,整合機制M/W整合,mediator/wrapper整合機制是一種虛擬整合方式,在基于這種機制的整合系統(tǒng)中,并不真正存儲需要整合的數(shù)字資源,而是通過mediator和wrapper來實現(xiàn)整合。 mediator和wrapper均為軟件組件,位于用戶和數(shù)據(jù)源之間,mediator負責處理用戶提問和查詢結果的整合,wrapper則負責對信息源的連接和具體查詢。,mediator/wrapper整合機制的基本原理如圖所示。,在基于這種機制的整合系統(tǒng)中,用戶按全局模式(Global Schema)進行查詢,mediator接收用戶查詢并將其轉換成中間格式,然后提交給相應的wrapper,wrapper進一步將中間格式的查詢轉化為信息源模式或本地模式(Source/Local Schema)的查詢,并與參加整合的相應信息源進行連接,實現(xiàn)對相應信息源的查詢,將查詢結果返回給mediator,mediator對結果進行處理,以統(tǒng)一的形式提供給用戶。,與數(shù)據(jù)倉庫整合機制相比,mediator/wrapper整合機制能夠有效地保持各個異構信息源的自治性,滿足局部的應用,并且能夠充分發(fā)揮mediator的作用,滿足全局性應用。同時,使用這種機制的整合系統(tǒng)不需要在本地儲存大量的數(shù)字資源,因而能夠適應網(wǎng)絡環(huán)境下信息源高度自治、數(shù)量多、更新變化快等特點,而且,在mediator中引入Ontology等語義相關技術后,能夠有效解決知識整合、個性化服務等問題。 因而,mediator/wrapper整合機制是目前實現(xiàn)數(shù)字資源整合的主流方式。,mediator/wrapper整合機制涉及的主要技術有: (1)信息源選擇技術 (2)信息抽取技術 (3)查詢處理技術 (4)結果整合技術 (5)語義整合技術,(1)信息源選擇技術 mediator/wrapper整合機制是一種虛擬整合方式,整合系統(tǒng)本身并不存儲被整合的數(shù)字資源,當用戶進行查詢時,如果將用戶查詢不加區(qū)別地發(fā)送給參與整合的所有信息源,必然會導致占用較多的帶寬并增加系統(tǒng)的負擔,這就需要利用信息源選擇技術來確定相關度高的信息源,以提高整合系統(tǒng)的效率。 信息源選擇技術主要包括信息源描述和信息源選擇兩個方面,前者是按一定的算法建立對各信息源的描述模型,后者是在信息源描述模型的基礎上,根據(jù)用戶查詢,按一定算法選出相關度高的信息源作為查詢對象。,(2)信息抽取技術 信息抽取技術應用于整合系統(tǒng)的目的是將參與整合的半結構化、非結構化信息源中的數(shù)字資源轉化成結構性更強、語義更清晰的格式,以提高查詢速度。目前,信息抽取技術已經(jīng)成為了生成wrapper的關鍵技術之一,廣泛應用于面向網(wǎng)絡數(shù)字資源的整合系統(tǒng)中。,(3)查詢處理技術 查詢處理技術是mediator/wrapper整合機制中的最重要的技術之一,是對查詢進行檢驗、重構、優(yōu)化的技術。 用戶對整合系統(tǒng)查詢時,整合系統(tǒng)需首先對用戶查詢進行語法分析和檢驗,確保查詢符合系統(tǒng)全局模式的要求,這部分工作主要由查詢檢驗技術完成。 此后,整合系統(tǒng)再將經(jīng)過檢驗的查詢按一定的規(guī)則轉換為面向不同信息源模式(本地模式)的多個查詢,這個過程稱為查詢重構。 整合系統(tǒng)面對的是不同的信息源,由于各個信息源有其自身的特點,例如有不同的傳輸帶寬和傳輸延時,加之當前運行情況有不確定性,如當前的信息源訪問量是大還是小、信息源是否能很快與整合系統(tǒng)建立連接等等,這就要求整合系統(tǒng)根據(jù)各信息源的當前運行情況制定最優(yōu)查詢計劃和查詢調(diào)配方案,并據(jù)此對各信息源進行查詢,這個過程稱為查詢優(yōu)化。,(4)結果整合技術 整合系統(tǒng)提供對各信息源的一站式訪問,因而對信息源訪問完畢后需要用mediator對來自不同信息源的結果信息進行整合及合成,以統(tǒng)一的形式呈現(xiàn)給用戶。 結果整合主要是對不同信息源的結果做并操作,并且重新計算結果的相關度。 一般地說,對一個信息源進行查詢會形成一個相應的查詢子視圖,結果整合的目的就是將這些子視圖連接起來,形成一個完整的視圖,提供給用戶。,(5)語義整合技術 隨著整合研究理論和實踐不斷深入,Ontology、語言建模、機器學習等語義相關技術逐漸應用于數(shù)字資源整合。 語義整合技術被用來在系統(tǒng)運行期間獲取和處理數(shù)字資源的意義及其之間的關聯(lián),使整合系統(tǒng)能夠建立用戶提問與各信息源之間的語義聯(lián)系,消除各種數(shù)字資源的異構性,并能夠?qū)⒎稚⒋鎯?、表現(xiàn)形式不同的信息源中的有用資源進行再組織,真正滿足用戶的信息需求,從而提高數(shù)字資源整合的質(zhì)量。,整合機制Agent整合機制,Agent是處于一定的環(huán)境中或者作為環(huán)境的一部分存在的一種軟件系統(tǒng),它利用傳感器(Sensor)感應環(huán)境,獲取相關信息,然后根據(jù)這些信息和指定的目標執(zhí)行相應操作。近年來,研究人員將Agent技術應用于整合系統(tǒng)中,形成了Agent整合機制。 Agent整合機制以Agent作為核心模塊,以ontology作為核心技術,比較適合于整合分布性較強的數(shù)字資源, 其原理是:將整合系統(tǒng)框架中的各個(或主要)功能模塊封裝為Agent,各Agent之間進行通信、交互和合作,從而有效地實現(xiàn)整合。,Agent整合機制的基本原理如圖所示,在這種整合機制中,使用了三類基本的Agent:用戶Agent、資源Agent和代理方Agent。 用戶Agent負責維護用戶信息,并提供系統(tǒng)接口,以方便用戶與整合系統(tǒng)進行交互。 資源Agent負責對分布式資源進行處理,將數(shù)字資源按照整合系統(tǒng)的表示形式進行描述和轉換。 代理方Agent負責將從用戶Agent發(fā)出的查詢請求與所要查詢的資源Agent進行匹配,Agent整合機制的優(yōu)點在于能夠有效利用Agent的特性來提高系統(tǒng)的整合效率 首先,Agent的自主性和移動性使得整合系統(tǒng)能夠主動適應網(wǎng)絡環(huán)境的變化,增強了整合系統(tǒng)的靈活性,整合系統(tǒng)能更加適應數(shù)字資源分布性及異構性的特點。 其次,Agent能夠在非連續(xù)運行的網(wǎng)絡環(huán)境中運行,因此Agent還可處于移動計算環(huán)境中,這使得各種移動設備(如PDA等)也能加入使用整合系統(tǒng)的中。Agent機制的這些特點,使其成為了近年來整合研究的熱點之一。,在Agent整合機制中,如何使多個Agent協(xié)調(diào)工作,是采用這種機制的整合系統(tǒng)要解決的關鍵技術,具體地說,包括: (1)Agent間的通信技術 (2)Agent協(xié)調(diào)技術,(1)Agent間的通信技術 為了達到整合的目的,提高整合效率,需要通過Agent通信技術來實現(xiàn)Agent間的“會話”。 一般來說,Agent間的通信是通過Agent通信語言(ACL)來實現(xiàn)的 Agent通信語言用于描述相應Agent的狀態(tài)和屬性、定義Agent可以交換的語法和語義消息。這種包含語義信息的通信語言不僅有利于協(xié)助Agent之間進行互操作,還有利于進行語義層次的整合。,(2)Agent協(xié)調(diào)技術 在Agent整合機制中,多個Agent作為一個整體而存在,雖然每個Agent的任務有所區(qū)別,但它們作為一個整體,具有共同的目標,那就是實現(xiàn)整合。 因此,在任務執(zhí)行的過程中,需要應用Agent協(xié)調(diào)技術來管理一個或多個Agent行為之間的從屬關系,避免執(zhí)行時發(fā)生沖突,所要解決的問題包括組織結構、任務分解、資源分配、群組決策、沖突發(fā)現(xiàn)與解決等,整合機制P2P整合機制,P2P(Peer-to-peer)是近年來興起的一種新的計算模式,它能夠使PC和其它非服務器計算實體以對等的方式聯(lián)網(wǎng),彼此共享對方的資源。其主要特點是支持互連主機的動態(tài)變化。,P2P整合機制的基本原理如圖所示,在這種整合機制中,存在有多個分布式的對等點(peer),每一個對等點都擁有一套自己的數(shù)據(jù)模式(對等點模式),在整合過程中,通過對等點模式與本地資源模式的映射,實現(xiàn)對本地資源的訪問,同時依靠P2P映射來完成對等點之間的模式轉換,實現(xiàn)對等點間的通信。通過這種方式,在任何一個對等點中執(zhí)行的查詢也均可以在其他相連的對等點中執(zhí)行,從而達到有效訪問各分布信息源的目的。,P2P整合機制不僅能夠?qū)崿F(xiàn)大規(guī)模數(shù)字資源的集成,而且可以實現(xiàn)Web資源的動態(tài)整合,使整合系統(tǒng)具有強大的擴展性,是一種比較有生命力的整合機制。但由于學術界對P2P整合機制的研究處于起步階段,目前理論研究較多,實際應用系統(tǒng)數(shù)量還不太多 P2P整合機制的關鍵技術是P2P映射以及對等點的發(fā)現(xiàn)與搜索,具體地說包括: (1)P2P映射建立技術 (2)P2P對等點的發(fā)現(xiàn)與搜索技術,(1)P2P映射建立技術 在P2P整合機制中,由于每個對等點的模式不同,需要在對等點模式之間建立映射 P2P映射的建立一般包括兩個步驟 第一步是模式匹配,即在需匹配的模式間,尋找能夠標識出模式中的相同或相似元素的對應關系,這種對應關系一般是指對元素相似性的描述,基本上不包含語義信息; 在第二步中,通過對應關系,利用一系列自動化技術,在人工干預下,建立精確的P2P映射。,(2)P2P對等點的發(fā)現(xiàn)與搜索技術 在整合處理過程中,由于P2P網(wǎng)絡中存在多個對等點,每個對等點存儲有不同的數(shù)字資源,因此需要針對具體的用戶需求,利用發(fā)現(xiàn)策略、搜索算法等相關技術,對P2P資源進行搜索,找出合適的對等點,并通過多個對等點的協(xié)作來集成資源。 目前,在P2P對等點的發(fā)現(xiàn)與搜索中應用較多的是分布式哈希列表(DHT)技術,這種技術使用分布式哈希算法來解決結構化的分布式存儲問題,DHT中存儲有每個對等點的相關信息,通過DHT可針對具體需求獲取所需對等點的信息,從而解決了對等點的發(fā)現(xiàn)問題,然后,再根據(jù)基于DHT的路由算法完成對等點的搜索。,信息資源整合,整合機制 整合技術,整合技術,整合的技術體系 整合的技術標準總體上劃分為物理層、基礎層與整合三類。根據(jù)整合內(nèi)部的層次關系,自下而上將整合層細劃為3層,物理層 物理層指系統(tǒng)運行的硬件、軟件環(huán)境,解決如何為應用系統(tǒng)提供統(tǒng)一的支撐環(huán)境,支持應用系統(tǒng)的運作。 物理層協(xié)議涉及各種網(wǎng)絡和通信技術,包括網(wǎng)絡的一些基礎協(xié)議,如HTTP、TCP/IP等,以及其他相關的以太網(wǎng)、骨干網(wǎng)、廣域網(wǎng)互聯(lián)的技術標準與規(guī)范等。 對于不提供更高層技術協(xié)議的數(shù)字資源,也可以在這個層次上進行整合,例如,可基于HTTP用仿真的方法來整合數(shù)字資源。,基礎層 基礎層是位于物理互連的網(wǎng)絡協(xié)議之上,用于標準化、規(guī)范化描述數(shù)據(jù),為更上層的數(shù)據(jù)交換提供基礎性支持的標準、規(guī)范。 基礎性協(xié)議標準又可以從性質(zhì)劃分為數(shù)據(jù)描述層面和數(shù)據(jù)訪問兩個層面。前者主要包括元數(shù)據(jù)、XML、RSS,后者主要包括開放數(shù)據(jù)庫互連標準(ODBC)等。 在數(shù)據(jù)描述層面內(nèi)部,RSS具有提供內(nèi)容聚合的功能,是為實現(xiàn)內(nèi)容聚合而制定的一種信息描述、組織的規(guī)范,但它也具有資源發(fā)現(xiàn)、發(fā)布的功能,更是一種新形式的描述規(guī)則。因此,將RSS歸入基礎的描述層面的標準。準確的說,RSS本身也是基于XML格式的,其實是XML成功應用的一個典型。從這一層總體來看,這些基礎的標準、規(guī)范(除了RSS之外),大多數(shù)都不是專門為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 國學名士考試題及答案
- 無人機物流網(wǎng)絡引領低空經(jīng)濟新時代
- 2025年行業(yè)分析與戰(zhàn)略提案考題及答案
- 企業(yè)道德與風險管理的實踐試題及答案
- 計算機二級VB考試前期準備試題及答案
- 2023-2025北京高三(上)期末歷史匯編:食物生產(chǎn)與社會生活章節(jié)綜合
- 網(wǎng)絡架構維護的有效措施試題及答案
- 重點知識梳理的試題及答案
- 大數(shù)據(jù)交易服務平臺建設方案優(yōu)化與實施
- 大學生信息技術心得體會范文(4篇)
- 購買食堂設備合同范例
- 糖尿病合并冠心病護理查房
- 公務出國在職證明-英文版(因公簽證)
- 安規(guī)線路培訓
- 老年慢病管理
- 故都的秋課文原文
- 中國普通食物營養(yǎng)成分表(修正版)
- 陜西省西安市新城區(qū)2024-2025學年一年級上學期期中語文試卷
- 短暫性腦缺血發(fā)作
- 對話大國工匠 致敬勞動模范學習通超星期末考試答案章節(jié)答案2024年
- 安全生產(chǎn)月啟動儀式活動方案
評論
0/150
提交評論