版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
網(wǎng)格存儲技術在數(shù)字圖書館中的應用研究摘要隨著數(shù)字圖書館建設進程的加快和存儲技術的發(fā)展,在資源存儲方面取得了長足的進步,存儲容量、數(shù)據(jù)傳輸速度、擴展性和共享性等方面得到了很大的改善。但是由于現(xiàn)代數(shù)字圖書館信息資源呈現(xiàn)出數(shù)據(jù)量大、數(shù)據(jù)類型復雜、服務器平臺種類多、讀者需求復雜等新特點,傳統(tǒng)的集中服務系統(tǒng)(如硬盤存儲、光盤塔存儲、磁帶庫存儲)或者現(xiàn)有的網(wǎng)絡存儲系統(tǒng)(如NAS,SAN)都無法從根本上滿足數(shù)字信息迅猛增長的存儲需求。而網(wǎng)格技術擅長解決數(shù)據(jù)密集型、吞吐量密集型的應用問題,基于網(wǎng)格的存儲技術擅長解決海量、分布的存儲問題。鑒于此,本文提出了基于網(wǎng)格的數(shù)字圖書館資源存儲方案,并對其理論和技術進行了較系統(tǒng)的研究。關鍵詞:網(wǎng)格存儲;數(shù)字圖書館;資源存儲;目錄TOC\o"1-3"\h\u54441引言 引言網(wǎng)格是構建數(shù)字圖書館的新的思維方式和新的概念,由計算網(wǎng)格層、信息網(wǎng)格層以及知識網(wǎng)格層構成的三層網(wǎng)格框架結構,從下到上逐層解決了新型數(shù)字圖書館面臨的3個難題,而網(wǎng)格存儲技術是解決這些難題的基礎。基于網(wǎng)格的存儲技術有三大優(yōu)點:更高的容錯與冗余度、在負載波動的情況下有更好的性能和更低的成本。顯然,構建基于網(wǎng)格的數(shù)字圖書館存儲環(huán)境不僅能全面有效地解決其資源存儲問題,而且為其網(wǎng)格用戶方便、快速、高效地訪問數(shù)據(jù)提供了支持和保障。2數(shù)字圖書館資源存儲現(xiàn)狀2.1數(shù)字圖書館資源存儲需求2.1.1數(shù)字圖書館資源的界定數(shù)字圖書館的研究開發(fā),是伴隨國際互聯(lián)網(wǎng)的發(fā)展和普及而興起的,數(shù)字圖書館是20世紀90年代社會需要的直接產物。通常,數(shù)字圖書館是指:“利用計算機技術、網(wǎng)絡技術、數(shù)字化技術形成的跨地區(qū)、跨國家的信息空間、信息系統(tǒng),并以數(shù)字化方式將信息資源存儲在具有海量存儲能力的存儲系統(tǒng)中,通過計算機和網(wǎng)絡將信息資源傳遞給不同地域的用戶,從而做到不受時間、空間限制的信息資源共享”。數(shù)字圖書館不僅僅是傳統(tǒng)圖書館資源的數(shù)字化,也不是簡單的互聯(lián)網(wǎng)上的圖書館主頁,而是一整套面向對象的、分布式的、平臺無關的數(shù)字化資源的集合。與傳統(tǒng)的圖書館相比較,數(shù)字圖書館具有信息資源數(shù)字化、信息傳遞網(wǎng)絡化、信息資源共享化、信息組織存儲標志化、信息管理分布化、信息實體虛擬化、館員素質綜合化等特點。2.1.2數(shù)字圖書館資源的特點與傳統(tǒng)圖書館的館藏資源相比,數(shù)字圖書館信息資源有其自身的特點。從存儲的角度來考慮,數(shù)字圖書館資源具有以下特點。(1)存儲容量大。近幾年來,圖書館數(shù)字資源呈幾何級數(shù)增長,數(shù)字圖書和全文數(shù)據(jù)庫是數(shù)字圖書館藏資源的重要增長點。數(shù)字圖書館的各種數(shù)字化信息如流媒體、數(shù)字倉庫與挖掘等的增長也將一直持續(xù)下去。存儲信息的度量單位由MB,GB向TB,PB轉變,其存儲的數(shù)據(jù)總量達到了海量規(guī)模。如:美國國家數(shù)字圖書館1999年數(shù)字化館藏資源的總量就達到了100TB。(2)媒體形式多。數(shù)字圖書館館藏包括數(shù)字化的圖書、新聞、美術、照片、雕塑、電影、軟件、電子出版物、互聯(lián)網(wǎng)內容、衛(wèi)星數(shù)據(jù)、氣象數(shù)據(jù)、地理數(shù)據(jù)、政府文件等各種各樣的人文與科學數(shù)據(jù)資源。其存儲媒介已不限于印刷體,它包含文本、聲音、圖像、影視等多種媒體形式,數(shù)據(jù)類型復雜。(3)強分布性。數(shù)字圖書館海量數(shù)據(jù)資源存儲在物理上分布的存儲器設備上,存儲設備包括磁盤陣列、磁帶庫、光盤庫等,并且存儲的物理路徑復雜,分本地存儲和遠程存儲。(4)動態(tài)性。數(shù)字圖書館系統(tǒng)在不同時刻對資源的需求是不同的,白天或某段時間內可能因為訪問人數(shù)激增造成對某部分的計算資源需求增加,一段時間后可能需求又有所下降,而這些都是無法預知的。所以資源需求具有很高的動態(tài)性。另外數(shù)字圖書館的信息資源己從靜態(tài)的文本格式發(fā)展到動態(tài)鏈接,而且動態(tài)鏈接不確定,更新頻率高。(5)異構性。數(shù)字圖書館存儲資源類型不一,系統(tǒng)現(xiàn)有的主機系統(tǒng)和存儲系統(tǒng)也具有多類型的特點,操作系統(tǒng)包括Unix,Linux、Windows等,主流類型硬件設備的主機廠商和存儲廠商來源不一。2.1.3數(shù)字圖書館存儲要求要求實現(xiàn)數(shù)據(jù)資源的動態(tài)存儲;要求實現(xiàn)對異構的數(shù)據(jù)進行同構的訪問。對存儲系統(tǒng)而言,必須要滿足以下要求。(1)海量數(shù)據(jù)的存儲;(2)7X24小時的高可用性;(3)存儲系統(tǒng)盡可能冗余,排除單點故障;系統(tǒng)的升級和維護盡可能地在線進行;系統(tǒng)發(fā)生故障后,能被自動地切換到其他系統(tǒng)。(4)提供跨平臺、跨部門、跨區(qū)域、甚至面向全世界的數(shù)據(jù)存取機制和管理機制;(5)為用戶提供一個虛擬世界,即在給定的權限下可以不受限制地自由取用;(6)面對多用戶并發(fā)的快速響應機制:(7)高質量的流媒體服務;(8)多用戶實時的遠程監(jiān)測和設備控制機制;(9)同時滿足大數(shù)據(jù)量的并發(fā)訪問和傳輸,同時確保數(shù)據(jù)安全;(10)良好的交互性、可視化、可參與性和實時性;(11)系統(tǒng)的容災能力強,即如果本地的數(shù)據(jù)發(fā)生災難后,系統(tǒng)能不受或少受影響;(12)對現(xiàn)有存儲設備的利用,保護現(xiàn)有投資。2.2數(shù)字圖書館資源存儲現(xiàn)存問題在實際應用過程中由于數(shù)字圖書館對存儲和數(shù)據(jù)的管理、異構平臺的數(shù)據(jù)共享、系統(tǒng)的可用性和可擴展性、存儲設備的管理、訪問控制和安全性等方面的要求越來越高,所以在存儲方面仍存在以下問題:數(shù)據(jù)擴充性能差,無法滿足數(shù)據(jù)資源爆炸式增長的需求:多用戶、異構性與跨平臺導致數(shù)據(jù)兼容性和共享性較差;存儲系統(tǒng)智能性較差,不能滿足動態(tài)存儲、按需存儲的要求;數(shù)據(jù)的批量傳輸、移動和復制能力較差;數(shù)據(jù)的存儲速率無法滿足大數(shù)據(jù)量、大并發(fā)訪問的要求。盡管目前數(shù)字圖書館廣泛應用新的網(wǎng)絡存儲方案,如NAS,SAN和ISCSI等,但是由于這些存儲方案適應的層面各不相同,不能全面有效地整合存儲資源,也就是說這些存儲方案沒有達到性價比最優(yōu)、存儲效率最優(yōu)的效果。3網(wǎng)格存儲概述3.1網(wǎng)格存儲3.1.1網(wǎng)格存儲的概念存儲網(wǎng)格是指運用網(wǎng)格思路和技術,包括虛擬化和開放標準,實現(xiàn)分布、異構的存儲和數(shù)據(jù)一體化,為各類網(wǎng)格應用服務[33],如圖3-1所示。存儲網(wǎng)格是一種新的技術模式,是分布存儲資源的有機融合。它將將存儲從外圍設備變成了一種共享的IT資源,并帶來了全新的效率、可擴展性和可用性。圖3-1儲存網(wǎng)格網(wǎng)格存儲就是存儲網(wǎng)格的實現(xiàn)機制、方案。網(wǎng)格存儲[32】是網(wǎng)格技術發(fā)展的重要組成部分,它將存儲和存儲引擎整合成內部相連的網(wǎng)格,通過網(wǎng)絡以一種靈活的、透明的方式分配資源,依照單位的存儲策略和程序,高效地管理資源,以保護大容量信息資產的安全,即實施存儲網(wǎng)格的最終目標。網(wǎng)格存儲是以節(jié)點之間的備份為基礎,可以在多重節(jié)點上進行內容管理與儲存,也可以在存儲環(huán)境上的多重節(jié)點進行數(shù)據(jù)轉移與傳輸。正因為這樣,它可以將網(wǎng)絡連接存儲伽AS)和存儲局域網(wǎng)(SAN)兩種不同的技術、不同的管理工具、不同的存儲應用融合在一起。網(wǎng)格存儲使存儲簡單化,兼容不同的網(wǎng)絡協(xié)議,支持不同的系統(tǒng)平臺,在各個分布系統(tǒng)上運行而且同步。3.1.2網(wǎng)格存儲的特點網(wǎng)格存儲具有以下特點:(1)模塊化存儲數(shù)據(jù);(2)共同管理,可以處理所有節(jié)點上數(shù)據(jù)資源,包括數(shù)據(jù)保護、資料行動化與移植,以及供應與需求的分配;(3)共同虛擬層,利用邏輯資源池,支持用戶的各種動態(tài)交互服務;(4)簡化平臺與管理架構??傊?,網(wǎng)格存儲能很好的解決各類資源的自動優(yōu)化、自動配置、自我保護和自動恢復等功能。3.2網(wǎng)格存儲架構一個好的網(wǎng)格存儲架構,主要考慮以下因素:(1)良好的全局管理特性。存儲系統(tǒng)是個動態(tài)性的系統(tǒng),所有的服務器、客戶端和應用程序都在不斷變化,用戶則需要一個能很好地適應不斷更新的靈活平臺。(2)好的網(wǎng)格存儲架構必須支持資源的動態(tài)集成,具有良好的自適應性。(3)高性能。網(wǎng)格存儲架構平臺具有良好的可擴展性,在良好調度算法的配合下,可保持全局性的負載均衡。(4)安全性。網(wǎng)格存儲架構不僅需要對所有實體進行認證和授權,而且需要通過一次登錄獲得對所有經授權資源的訪問?;谶@些考慮,本文給出了高性能的網(wǎng)格存儲架構,如圖3-2所示。圖3-2網(wǎng)格存儲架構此網(wǎng)格存儲中心由目錄服務器、調度服務器和CA認證中心等構成。目錄服務器登記并動態(tài)反映所有可用的存儲服務器和RAID-M(RedundantArrayofIndependentDisk)存儲器的狀態(tài);調度服務器對存儲資源進行統(tǒng)一管理,具有負載均衡和就近服務功能。存儲服務器接受來自用戶或應用的存儲訪問請求,并利用目錄服務器中所保存的全局信息,將請求轉化為對若干臺RAID-M存儲器的具體訪問;CA認證中心進行所有服務器、存儲器和客戶端的安全認證和授權。3.3網(wǎng)格存儲的優(yōu)勢網(wǎng)格存儲整合了SAN和NAS等存儲系統(tǒng)的優(yōu)點,并結合網(wǎng)格計算技術,而且融合了虛擬化技術、智能存儲技術和開放性標準,不僅能滿足大容量、網(wǎng)絡化、容錯性和高效性這些基本存儲需求,還能滿足非集中控制(自主控制)、透明訪問、異構性、協(xié)同化、動態(tài)性等特殊存儲需求。網(wǎng)格存儲不是對原來存儲技術的否定,而是繼承了它們的優(yōu)點,并可將SAN,NAS以及ISCSI相統(tǒng)一,所以具有其它存儲不可比擬的優(yōu)勢。網(wǎng)格存儲比起老一些的存儲方法至少有三大優(yōu)點:更高的容錯與冗余度、在負載波動的情況下有更好的性能、以及更低的成本。具體而言,網(wǎng)格存儲有六大優(yōu)勢。(1)透明管理網(wǎng)絡存儲。用戶最典型的應用環(huán)境是多廠商設備的共同使用,存儲網(wǎng)格可以管理這種復雜環(huán)境,其管理系統(tǒng)可以同時管理SAN和NASo(2)透明擴展容量與性能。網(wǎng)格可以動態(tài)增加存儲系統(tǒng)的容量而不影響其他任何應用,通過增加文件服務器的數(shù)量而自動提高系統(tǒng)的整體性能。(3)平衡成本與數(shù)據(jù)關鍵性關系。網(wǎng)格可以根據(jù)數(shù)據(jù)對用戶業(yè)務的關鍵性設定一定策略,從而決定數(shù)據(jù)的存儲位置,這樣可以避免低價值數(shù)據(jù)浪費昂貴的高端存儲空間,可以為用戶節(jié)約成本。(4)保障業(yè)務連續(xù)性。在文件服務器集群中,每個流量路徑都有備份節(jié)點來保障其高可靠性,當出現(xiàn)故障時,備份節(jié)點自動接管原有存儲流量,不會造成用戶業(yè)務的中斷。(5)透明無縫管理。網(wǎng)格存儲環(huán)境下,無論后端的物理存儲設備是什么,服務器及其應用系統(tǒng)看到的都是物理設備的邏輯映像。即使物理存儲發(fā)生變化,這種邏輯映像也不會改變,系統(tǒng)管理員不必再關心后端存儲。(6)統(tǒng)一數(shù)據(jù)管理。網(wǎng)格提供的是一個統(tǒng)一的管理界面,它以用戶最為重要的數(shù)據(jù)為管理對象,而并非存儲環(huán)境中各種各樣的存儲設備,從而使管理過程大大簡化。4數(shù)字圖書館網(wǎng)格存儲關鍵技術4.1異構存儲技術4.1.1虛擬存儲技術在網(wǎng)格存儲環(huán)境中,可以將物理分布的各類存儲系統(tǒng)和設備虛擬成單一的存儲系統(tǒng),提供統(tǒng)一的、透明的、安全的訪問和管理機制,從而使物理上分布的存儲、服務器、網(wǎng)絡設備可以自主地接入到網(wǎng)格中,通過中間層的存儲虛擬化技術,網(wǎng)格應用層形成統(tǒng)一的訪問接口。存儲虛擬化是網(wǎng)格中實現(xiàn)存儲與數(shù)據(jù)虛擬化的最底層。它是一種將服務器操作系統(tǒng)的存儲描述與實際物理存儲設備相分離的技術。存儲虛擬化的首要任務是在多個物理存儲設備或存儲系統(tǒng)上創(chuàng)建一個抽象層,屏蔽復雜性,尤其是可以解決異構環(huán)境資源存儲的問題。圖4-1是數(shù)字圖書館虛擬化資源存儲系統(tǒng)的結構模型。虛擬化存儲系統(tǒng)在原有存儲系統(tǒng)結構上增加了虛擬化層,將多個存儲單元抽象成一個虛擬存儲池。存儲單元既可以是物理存儲設備,也可以是各種存儲系統(tǒng)。存儲用戶通過虛擬化層提供的接口向虛擬存儲池提出虛擬I/O請求,虛擬化層對這些請求進行處理后將相應的請求映射到具體的存儲單元。虛擬化技術可以減少存儲系統(tǒng)的管理開銷,將多個獨立的存儲單元統(tǒng)一成一個邏輯的存儲系統(tǒng),有效實現(xiàn)多個存儲系統(tǒng)的數(shù)據(jù)共享。數(shù)字圖書館采用NASISAN的存儲模式只能實現(xiàn)存儲資源與計算資源的物理層面分離,而無法實現(xiàn)邏輯層面的分離。而基于網(wǎng)格技術的統(tǒng)一虛擬存儲系統(tǒng)結構將不同廠商的DAS,SAN,NAS,IP-SAN等各類存儲資源整合起來,形成一個統(tǒng)一管理、監(jiān)控和使用的公用存儲池。這樣數(shù)字圖書館虛擬層就可以將不同的磁盤陣列、自動磁道庫和光盤庫邏輯上轉換為同一設備,使不同主機的用戶和應用程序可以連接該龐大的集中化存儲池并共享存取數(shù)據(jù)。圖4-1虛擬化資源存儲系統(tǒng)的結構模型4.1.2管理存儲網(wǎng)格的標準規(guī)范在構建數(shù)字圖書館網(wǎng)格存儲環(huán)境時,有三個網(wǎng)格存儲標準可以運用。(1)WSRF和WSNoStorageResourceManagers(SRM)是異構存儲的中間件組件,其功能是在網(wǎng)格中提供動態(tài)空間分配和共享存儲組件的文件管理功能。它們通過提供存儲預約和有關存儲可用性的動態(tài)信息來進行網(wǎng)格作業(yè)的規(guī)劃和執(zhí)行,從而對ComputeResourceManagers和NetworkResourceManager進行了補充完善。而WSRF和WSN是為SRM提供接口標準的協(xié)議,它們能解決數(shù)字圖書館不同存儲系統(tǒng)之間的互操作問題。(2)GFS。數(shù)字圖書館海量的數(shù)據(jù)中,其中有很大的比例都是以文件形式存儲的。對于異構文件系統(tǒng),GFS除其提供一層抽象外,它還提供了一個可以擴展現(xiàn)有的文件系統(tǒng)(或子單元)來啟用無縫數(shù)據(jù)共享和管理的命名空間。利用此標準協(xié)議,可以建立一個中間件框架,它使客戶機可以無縫地實現(xiàn)數(shù)據(jù)在分布式異構服務器之間的傳輸。在建立網(wǎng)格文件系統(tǒng)的基礎上,再建立網(wǎng)格文件系統(tǒng)目錄服務(資源命名空間)來管理通用的命名空間,它涵蓋了所建立的異構文件系統(tǒng)和聯(lián)邦化、虛擬化的數(shù)據(jù)。(3)SMI-SoSNIA的SMI-S可以用來管理異構的、與位置無關的存儲和存儲服務。SMI-S是作為一個基于CIM的Profile進行組織的,它在高層可以分為3類:存儲、光纖和主機。SMI-S為網(wǎng)格存儲管理提供了第一個必需的層次:通過標準接口和管理模型來管理異構存儲網(wǎng)絡,即將不同的存儲網(wǎng)絡NAS.SAN和IP存儲系統(tǒng)融合一起進行統(tǒng)一管理。4.1.3網(wǎng)格存儲數(shù)據(jù)的傳輸機制數(shù)字圖書館網(wǎng)格中已有許多大型的存儲系統(tǒng),這些存儲系統(tǒng)往往側重于不同的需求,為客戶提供不同的服務:如高性能存儲系統(tǒng)側重于實現(xiàn)快速傳送存儲設備和并行機或群聚計算機之間的龐大文件;分布式文件系統(tǒng)則側重于支持海量存儲與負載平衡。由于采用了不同的軟件及數(shù)據(jù)訪問協(xié)議,大部分存儲系統(tǒng)并不兼容。若要訪問多個存儲系統(tǒng),應用程序必須采用多種方法來檢索所需數(shù)據(jù),這顯然是低效的。而在數(shù)字圖書館具體的應用中,許多地理上分布的應用程序或用戶需要訪問大量數(shù)據(jù),要求各種存儲系統(tǒng)之間能快速而有效地傳輸大量數(shù)據(jù)。以前的解決辦法是通過建立一個客戶層或者網(wǎng)關,給用戶提供統(tǒng)一接口以打破由相互不匹配的存儲系統(tǒng)協(xié)議所造成的分區(qū)。這種方法雖不要求供應商支持一種新的協(xié)議,但由于增加了一個抽象層,所以實現(xiàn)跨系統(tǒng)數(shù)據(jù)傳輸?shù)拇鷥r較大,且實現(xiàn)這種方法是一項很復雜的工作。為此,數(shù)字圖書館采用Globus的GridFTP機制。該機制基于標準FTP協(xié)議,并對其進行了全面擴展,可實現(xiàn)對多種存儲系統(tǒng)的支持,并提供統(tǒng)一的用戶訪問界面GridFTP協(xié)議相對于FTP協(xié)議有許多新的特點(1)GridFTP支持靈活可靠的安全鑒別和完整性檢查,而且用戶可以控制GridFTP在不同層次上的數(shù)據(jù)完整性。(2)GridFTP支持第三方控制的數(shù)據(jù)傳輸。為了管理分布式通信中的大數(shù)據(jù)集,必須提供經過鑒別的第三方控制的數(shù)據(jù)傳輸。由于在GridFTP實現(xiàn)中,增加了安全認證,所以可以可靠和安全地支持第三方數(shù)據(jù)傳輸功能。(3)在數(shù)據(jù)傳輸方面,GridFTP不僅支持多個并行數(shù)據(jù)流的傳輸,而且還支持大規(guī)模的數(shù)據(jù)分布放置在多個存儲點的條狀數(shù)據(jù)的傳輸。特別是當用戶需要訪問某個遠程節(jié)點上的文件一部存儲數(shù)據(jù)時,GridFTP支持從遠程文件的任意位置開始傳輸,可有效地支持部分文件傳輸。(4)GridFTP可以自動優(yōu)化緩沖器的大小來提高數(shù)據(jù)傳輸性能,而且還支持容錯的數(shù)據(jù)傳輸和重傳。4.2動態(tài)存儲技術由于網(wǎng)格可以根據(jù)數(shù)據(jù)對用戶業(yè)務的關鍵性設定一定策略,從而決定數(shù)據(jù)的存儲位置,所以數(shù)字圖書館存儲可以靈活、動態(tài)地選擇網(wǎng)格節(jié)點中的物理存儲設備,這樣可以避免低價值數(shù)據(jù)浪費昂貴的高端存儲空間。也就是說利用智能數(shù)據(jù)遷移將日訪問量不是很大的大部分數(shù)據(jù)保持“脫機”,但又不“離線”的狀態(tài)。智能分級存儲管理技術就可以實現(xiàn)這種存儲數(shù)據(jù)動態(tài)的遷移。下面具體給出了一個數(shù)字圖書館網(wǎng)格存儲數(shù)據(jù)遷移系統(tǒng)的硬件設備連接方案[[30],如圖4-3。文件服務器分別連接了三個海量存儲設備,即磁盤陣列、光盤庫和磁帶庫。磁盤陣列所存儲的為全在線數(shù)據(jù),即第一級數(shù)據(jù):光盤庫所存儲的是不常用數(shù)據(jù),一般為超過30天沒有被訪問過的數(shù)據(jù)文件;磁帶庫用于存儲在正常情況下基本不怎么讀取的數(shù)據(jù)文件,通常這些文件或是具有保留的價值,或是超過90天還沒有被人讀取過。本系統(tǒng)遷移系統(tǒng)包含以下幾個部分:(1)數(shù)據(jù)遷移服務器。它主要擔當整個存儲網(wǎng)格的數(shù)據(jù)管理員,當數(shù)據(jù)達到某一事先規(guī)定的標準時,此服務器便將數(shù)據(jù)從一級存儲設備(磁盤陣列)向下一級存儲設備(光盤庫和磁帶庫)復制,并且釋放一級存儲設備中存儲空間。同時,此服務器管理所有數(shù)據(jù)遷移策略的制定和負責磁帶庫設備的驅動和管理。(2)存儲系統(tǒng)。存儲系統(tǒng)提供在線的實時的數(shù)據(jù)存儲服務和離線的存儲管理。(3)客戶端。其實就是網(wǎng)格中的一臺計算機系統(tǒng),而這臺計算機上的許多數(shù)據(jù)需要通過數(shù)據(jù)遷移服務器來實現(xiàn)從其本地磁盤被復制到數(shù)據(jù)遷移服務器上。圖4-2數(shù)字圖書館網(wǎng)格存儲數(shù)據(jù)遷移系統(tǒng)5.數(shù)字圖書館網(wǎng)格存儲的應用5.1網(wǎng)格存儲應用模型數(shù)字圖書館網(wǎng)格存儲模型是基于網(wǎng)格服務的思想來構建和設計的,其功能模塊能為用戶層提供資源存儲描述、存儲組織、存儲監(jiān)控與發(fā)現(xiàn)、存儲調度、存儲作業(yè)管理、存儲副本管理、數(shù)據(jù)傳輸管理和數(shù)據(jù)遷移管理等服務。在應用層中,統(tǒng)一檢索系統(tǒng)、資源發(fā)布系統(tǒng)、遠程傳送系統(tǒng)、期刊數(shù)據(jù)庫系統(tǒng)、本地/異地備份等系統(tǒng)的普通用戶或者管理員需要存取資源時,他們可以通過模型軟件系統(tǒng)的網(wǎng)格存儲服務點進入數(shù)字圖書館網(wǎng)格存儲系統(tǒng),該系統(tǒng)的服務層就能為他們提供所需的存儲服務。圖5-1數(shù)字圖書館網(wǎng)格存儲應用模型5.2存儲服務過5.2.1存儲描述DL網(wǎng)格存儲資源具有不同的物理特性和邏輯特性,因此各類存儲資源的描述文檔也不同。存儲描述是基于元數(shù)據(jù)模型來實現(xiàn)的。圖6-2描述了元數(shù)據(jù)模型的各個部分以及它們之間的相互關系:圖5-2網(wǎng)格存儲元數(shù)據(jù)模型1、用戶元數(shù)據(jù)用戶元數(shù)據(jù)用來描述網(wǎng)格用戶的信息。如用戶名稱,密碼,身份等,用于驗證用戶身份的合法性以及控制用戶對數(shù)據(jù)的操作權限。其中,用戶名是用戶登陸DL網(wǎng)格存儲使用的m,密碼用于驗證用戶的身份,身份用于確定用戶對數(shù)據(jù)的訪問權限。對于已經注冊進行了權限認證的普通用戶來說,通常具有以下權限:(1)向網(wǎng)格存入數(shù)據(jù),將數(shù)據(jù)共享,提供給其他用戶使用;(2)對存入網(wǎng)格中的數(shù)據(jù)進行修改或刪除。(3)對屬于自己的存儲節(jié)點(即存儲節(jié)點的擁有者是用戶本人)信息進行修改,例如改變存儲節(jié)點的共享目錄,可共享空間的大小,甚至將節(jié)點退出網(wǎng)格,不再作為共享資源;(4)將某一存儲資源加入網(wǎng)格,共享該資源,使其成為網(wǎng)格存儲節(jié)點;(S)查看其他存儲節(jié)點資源的信息。管理員是比普通用戶更高一級的用戶,除上述普通用戶所擁有的權限,還可以對DL資源網(wǎng)格存儲進行管理,具體如下:(1)對于所有的存儲節(jié)點資源,可以根據(jù)當前網(wǎng)格運行的狀態(tài)和存儲需求,做出必要的資源調整和分配。例如增大節(jié)點的共享存儲空間,改變網(wǎng)絡傳輸速率,改變存儲節(jié)點的。ache大小,改變存儲節(jié)點的副本管理策略等等;(2)對于用戶,可以設定或修改用戶對網(wǎng)格資源的使用權限,改變用戶身份等等;(3)對于網(wǎng)格中所有的存儲數(shù)據(jù)以及元存儲數(shù)據(jù),管理員都擁有查詢、瀏覽、讀、寫、修改以及刪除的權利。2、存儲節(jié)點元數(shù)據(jù)描述與DL網(wǎng)格存儲節(jié)點相關的信息,如存儲節(jié)點的名稱,IP地址,地理位置,存儲節(jié)點所有者,存儲系統(tǒng),存儲可用空間,存儲副本節(jié)點,網(wǎng)絡狀況等。其中存儲節(jié)點的名稱指存儲節(jié)點的邏輯名稱;存儲節(jié)點的地理位置指當前所處的物理位置;存儲節(jié)點所有者指有權限修改存儲節(jié)點的信息;存儲系統(tǒng)指節(jié)點使用何種存儲系統(tǒng),如NAS存儲系統(tǒng)或者SAN存儲系統(tǒng)或者IP存儲系統(tǒng)或者集群存儲系統(tǒng)等等;可用空間指節(jié)點中還有多少空間可供存儲;存儲副本節(jié)點指該節(jié)點是記錄與數(shù)據(jù)副本有關的信息,如文件與具體存儲系統(tǒng)之間的映射信息;網(wǎng)絡狀況指當前數(shù)據(jù)存儲的速度、傳輸數(shù)據(jù)的速度和是否擁堵的狀態(tài)。存儲節(jié)點元數(shù)據(jù)有以下用途:(I)當用戶向網(wǎng)格中存入數(shù)據(jù),或系統(tǒng)根據(jù)用戶使用狀況、網(wǎng)格資源狀況將數(shù)據(jù)從一個節(jié)點復制到另一節(jié)點時,存儲節(jié)點元數(shù)據(jù)可以提供存儲空間信息,例如目前可用的共享空間的大小,系統(tǒng)根據(jù)該信息選擇合適的節(jié)點存儲數(shù)據(jù);(2)幫助系統(tǒng)在訪問數(shù)據(jù)時做出正確的決策。為了保證用戶對數(shù)據(jù)的高效訪問,網(wǎng)格在將數(shù)據(jù)傳輸給用戶時會采取一定的數(shù)據(jù)訪問策略。例如根據(jù)“就近訪問”原則,在同一數(shù)據(jù)擁有多個數(shù)據(jù)副本的情況下,選擇距離用戶最近的節(jié)點進行訪問;或者根據(jù)當前網(wǎng)絡狀況,選擇網(wǎng)絡速度快,無網(wǎng)絡擁堵狀況的節(jié)點來讀取數(shù)據(jù);或者綜合多項性能,選擇訪問代價最小的節(jié)點。3、應用元數(shù)據(jù)應用元數(shù)據(jù)是與具體應用相關的文件邏輯結構或語義信息,如存儲數(shù)據(jù)的內容和結構、應用元數(shù)據(jù)之間的兼容性、存儲應用需求的信息描述等。存儲數(shù)據(jù)的內容和結構是指數(shù)據(jù)存儲是選用關系型數(shù)據(jù)庫還是面向對象的數(shù)據(jù)庫還是文件系統(tǒng)結構,是結構化的存儲還是非結構化的存儲。數(shù)字圖書館業(yè)務管理系統(tǒng)、館藏書目數(shù)據(jù)OPAC系統(tǒng)、數(shù)字圖書數(shù)據(jù)庫等是以關系型數(shù)據(jù)庫存儲為主,屬于結構化的存儲。而數(shù)字圖書館中的各種電子文檔資料,網(wǎng)站的各種元素、圖片、掃描影像、多媒體視頻、音頻信息以文件存儲為主,屬于非結構化的存儲。應用元數(shù)據(jù)之間的兼容性是指元數(shù)據(jù)與其他相關應用是否兼容。存儲應用需求的信息描述是指和資源存儲具體需求相關的信息。它包含存儲的類型(一級存儲/二級存儲/三級存儲或者副本存儲/備份)、存儲所需要的空間、存儲的時間(暫時存儲火或者永久存儲)、存取速度要求、訪問的頻率和存儲安全級別(是否需要異地備份)等。5.2.2存儲組織DL資源網(wǎng)格存儲組織決定了系統(tǒng)采用何種方式存取資源。采用LDAP目錄服務器和全局命名服務器來進行元數(shù)據(jù)的組織管理。1.LDAP目錄服務器LDAP目錄服務器是通過使用LDAP協(xié)議,在信息目錄的正確位置存取數(shù)據(jù)的服務器。輕量目錄訪Ip協(xié)議LDAP(LightweightDirectoryAccessProtocol)是獨立于廠家和平臺的開放網(wǎng)絡協(xié)議標準,它是在X.500標準進行簡化的基礎上,基于TCP/IP定義了一個目錄服務標準。LDAP目錄也是一種類型的數(shù)據(jù)庫,但不是關系型數(shù)據(jù)庫。它主要優(yōu)化了數(shù)據(jù)存取的性能,主要優(yōu)點有(1)LDAP是跨平臺的協(xié)議,可以在任何平臺的計算機上,用LDAP客戶端軟件去訪問LDAP服務器;(2)對LDAP的讀操作的完成速度比普通的數(shù)據(jù)庫訪問要快很多;(3)LDAP服務器可以是分布的,用戶訪問到的信息可以是本地的LDAP服務器,也可以是全局的;(4)LDAP的存儲是一條條記錄存儲的,各條記錄存儲的屬性是可變的。LDAP目錄服務器使用層次化的樹型結構對資源存儲進行組織。在LDAP目錄信息樹結構中清楚地體現(xiàn)了不同類型資源的差異以便定位數(shù)字圖書館資源存儲的位置、副本存儲的位置等等。數(shù)字圖書館元數(shù)據(jù)集包括了用戶和用戶工作組描述信息、存儲網(wǎng)格節(jié)點描述信息、數(shù)字圖書館的任務描述信息。利用LDAP目錄信息樹將它們進行組織管理,如圖6-3所示。圖5-3數(shù)字圖書館網(wǎng)格存儲層次組織結構2、全局命名服務器為了有效地組織管理數(shù)字圖書館網(wǎng)格資源存儲,需要有一個全局的命名空間,對系統(tǒng)中的存儲信息資源(包括數(shù)據(jù)庫、文件系統(tǒng)、存儲設備等)進行統(tǒng)一命名。為了將信息資源的物理特征與邏輯視圖獨立開,使物理層次上的變化不會對邏輯層次產生影響,邏輯層上的變化不會影響物理層次的變更,系統(tǒng)采用了分層次的三種命名空間:用戶資源名、邏輯存儲資源名和物理存儲資源名。(1)用戶資源名是指向用戶、在用戶邏輯視圖中所使用的資源名稱,它可以按用戶的習慣自由擬定。它和系統(tǒng)資源名的關系是多對一的關系。(2)邏輯存儲資源名是在系統(tǒng)內部使用的資源名,具有全局唯一性。每個邏輯資源名對應一個物理資源名,由它代表該資源在系統(tǒng)內部被系統(tǒng)進行存儲、操作、訪問、屬性建立和檢索等活動。(3)物理資源名是該資源在存儲系統(tǒng)中的實際唯一標識符,它和存儲設備相關。在某個獨立文件系統(tǒng)上,它是一個文件的完整路徑,在網(wǎng)絡文件系統(tǒng)中,它是可對該文件進行訪問的系統(tǒng)路徑。5.2.3存儲監(jiān)控與發(fā)現(xiàn)在DL網(wǎng)格環(huán)境下,如果沒有存儲監(jiān)控與發(fā)現(xiàn)機制,存儲服務請求者就不能知道哪些存儲設備可以存儲,哪些為最優(yōu)存儲,哪些存儲服務器的能力己經增強或減弱等,也就滿足不了存儲服務請求者的存儲需求。所以存儲監(jiān)控與發(fā)現(xiàn)是存儲服務請求者與存儲資源服務之間必要的橋梁,而且它是存儲調度的基礎。存儲監(jiān)控與發(fā)現(xiàn)就是監(jiān)控整個數(shù)字圖書館網(wǎng)格存儲狀態(tài)(包含存儲服務器的狀態(tài)、存儲系統(tǒng)的狀態(tài)、存儲設備的狀態(tài)等),并且根據(jù)用戶的需求信息描述在網(wǎng)格存儲環(huán)境中查找到與需求匹配的存儲資源后,將結果返回給存儲服務用戶,用戶就可以選擇自己所需要的存儲資源了。DL應用服務器經存儲監(jiān)控與發(fā)現(xiàn)服務器MDS(moitoringanddiscoveryserver)的認證過程如圖6-4所示,簡答概括為以下幾個步驟f521.(1)當DL應用服務器需要網(wǎng)格存儲服務設備時,它就發(fā)出一個存取請求給MDS。同時網(wǎng)格存儲系統(tǒng)使用描述語言對用戶需求進行信息資源描述。(2)DLMDS中保存了記錄所有網(wǎng)格存儲設備狀態(tài)的網(wǎng)格存儲設備表。通過資源存儲發(fā)現(xiàn)機制,將用戶需求信息資源描述與網(wǎng)格存儲服務設備相匹配后,MDS發(fā)出一個存儲請求給要選擇的網(wǎng)格存儲服務設備。(3)如果選擇的網(wǎng)格存儲服務設備能夠工作,它就給發(fā)送確認信息;如果不能工作,它就不發(fā)送確認信息。(4)MDS決定哪一個網(wǎng)格存儲服務設備是最好的,它發(fā)送一個存取接受指令給應用服務器。(s)應用服務器發(fā)送一個存取初始化指令給己經選擇好的網(wǎng)格存儲服務設備。(6)從網(wǎng)格存儲設備服務設備接到允許的指令后,應用服務器就完成了認證,被選擇的網(wǎng)格存儲服務設備就轉變?yōu)檫@個應用服務器的數(shù)據(jù)存儲設備了。圖5-3MDS存儲服務認證5.2.4存儲調度DL網(wǎng)格信息資源存儲調度的作用就是根據(jù)當前網(wǎng)格存儲系統(tǒng)負載狀況,對系統(tǒng)內的任務進行動態(tài)調度,其調度策略有至關重要的作用。DL網(wǎng)格存儲調度包含存取智能排隊和動態(tài)任務調度兩個方面。首先,DL網(wǎng)格存儲調度結合存儲監(jiān)控與發(fā)現(xiàn)智能地綜合分析應用的特征、存儲系統(tǒng)的性能、可用的存儲容量、網(wǎng)絡的帶寬、存儲的緩沖等等。然后,DL網(wǎng)格存儲調度算法在需求和整個網(wǎng)格存儲狀態(tài)之間進行合理匹配,根據(jù)網(wǎng)格存儲的負載情況、空閑空間的大小、文件本身的特點、存儲響應的速度要求等因素決定存儲的分配。最后在實現(xiàn)過程中不斷微調和優(yōu)化。調度的基本原則是保障完成盡可能的存取任務,另外還需要考慮優(yōu)先級、自動調度(減少人工參與工作量)、存儲空間預留、響應速度等因素。5.3存儲管理5.3.1存儲質量管理數(shù)字圖書館網(wǎng)格環(huán)境中的動態(tài)存儲備份就是異構存儲系統(tǒng)之間進行動態(tài)的數(shù)據(jù)備份,從而優(yōu)化大數(shù)據(jù)備份傳輸和大用戶量的備份訪問效率,減少用戶的訪問延遲和網(wǎng)絡帶寬消耗,達到改善系統(tǒng)的負載平衡和數(shù)據(jù)的安全性的目的。數(shù)字圖書館利用一種基于最小代價的動態(tài)副本管理模型〔55]將客戶端請求按照存儲節(jié)點服務能力進行調度,實現(xiàn)了更有效的負載平衡調度。模型的基本思想是以最小的代價獲取最大化的整體系統(tǒng)性能。該模型包括副本創(chuàng)建、副本選擇和副本一致性更新三種策略。(1)副本創(chuàng)建策略。該模型在用戶進行數(shù)據(jù)訪問后,統(tǒng)計副本訪問頗率和用戶訪問代價,計算副本創(chuàng)建代價和副本創(chuàng)建后副本訪問代價,從副本訪問代價與副本創(chuàng)建代價之和低于現(xiàn)副本訪問代價的存儲代理中,選擇代價最小的存儲代理創(chuàng)建副本。(2)副本選擇策略。該模型計算副本的服務能力,從符合用戶期望的副本中選出服務能力最小的副本為用戶提供數(shù)據(jù)傳輸服務。副本選擇策略獲得符合用戶期望的數(shù)據(jù)訪問效率的同時,為高要求用戶預留了符合要求的副本訪問,使系統(tǒng)能夠為更多用戶提供服務,提高了整個系統(tǒng)存儲效率。(3)副本更新策略。該模型采用軟狀態(tài)服務,對主副本和副本更新代價小的存儲代理優(yōu)先訪問原則進行副本松散一致性更新,避免了松散一致性更新中可能存在的沖突問題。為了避免一致性更新的沖突問題,文件在創(chuàng)建時被指定為主副本,其他創(chuàng)建的副本被指定為從副本。主副本更新后向從副本發(fā)送狀態(tài)更新通知,從副本維護著主副本更新的軟狀態(tài)拷貝,直到更新完成。副本更新時按副本更新訪問代價進行排序,優(yōu)先對訪問代價小的節(jié)點進行更新。5.3.2存儲安全管理數(shù)字圖書館網(wǎng)格存儲系統(tǒng)安全認證系統(tǒng)利用Globus項目中的GSI(GridSecurity-Infrastructure)認證技術,提供了一種能夠適應網(wǎng)格環(huán)境下身份認證和授權訪問要求的安全模型。該模型身份認證不僅是用戶、管理員登陸之后才能進行存取、管理操作,而且設備在加入存儲網(wǎng)格之前也必須登陸注冊。授權指每個管理員或用戶只能執(zhí)行某些特定的操作,存儲設備對每個I/O操作進行檢查,防止非法的數(shù)據(jù)源寫入數(shù)據(jù)。在通常情況下,用戶之間或者管理員之間或者存儲設備之間建立聯(lián)系之前,都必須通過相互鑒別的過程。原來鑒別的方法是需要多次訪問保存私鑰的文件,即需要多次輸入密碼,使得相互認證的過程很繁瑣,安全效率也降低了。數(shù)字圖書館網(wǎng)格存儲認證系統(tǒng)了采用單點登錄、多級代理認證的安全策略。一個用戶只需由CA(certificateauthority)認證一次即可獲得允許在其資源范圍內、在一段特殊時間內存取和管理的權利。通過“Grid-ID”一次簽名并生成代理證書,然后提交給“用戶代理1”完成認證,實現(xiàn)對站點資源的第一層訪問;再通過“用戶代理2”完成對站點資源訪問的第二層認證,從而構成一個多級代理鏈,如圖5-4所示,實現(xiàn)了多級代理認證。圖5-4多級安全信任鏈此多級安全認證具有以下優(yōu)點:(1)通過使用層次CA認證架構在廣域全局范圍內發(fā)放證書。同時,密鑰的管理、分配、存儲都采用證書的方式。(2)實現(xiàn)了一次性簽放的機制,所有簽放票據(jù)都有一個有效期。(3)使用訪問控制服務器,有效加強本地域內安全策略的實施。(4)支持雙向的身份認證??偨Y基于網(wǎng)格的數(shù)字圖書館研究內容很廣泛,包含體系結構、互操作性、組織、檢索和存儲等方面
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2020-2021學年湖南省五市十校教研教改共同體高一下學期期末考試地理試題
- 小學五年級數(shù)學小數(shù)乘除法計算練習題-集
- 《急性咽炎》課件
- 小學數(shù)學四年級上冊《小數(shù)加減混合運算》教學設計
- 《行政法講義》課件
- 《菱鎂礦開采工藝》課件
- 護欄工程勞務作業(yè)內容及技術參數(shù)
- 《刑法分則的適用》課件
- 高校美術教育實踐經驗總結計劃
- 小學班主任工作經歷總結
- 2024旅行社承包經營合同
- 地下車庫地面改造施工方案
- 成人有創(chuàng)機械通氣氣道內吸引技術操作標準解讀
- 《護患溝通》課件
- 洗浴用品購銷合同模板
- 電能質量-公用電網(wǎng)諧波
- 部編人教版道德與法治八年級上冊:(1-4)單元全套練習題4套(含解析)
- 電火灶-編制說明
- 幼兒園幼小銜接方案模板
- 批評與自我批評表
- 2024年商用密碼應用安全性評估從業(yè)人員考核試題庫-中(多選題)
評論
0/150
提交評論