版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于OAI和METS遠(yuǎn)程收集數(shù)據(jù)的方法和流程
趙陽zhaoyang@清華大學(xué)圖書館學(xué)位論文項(xiàng)目組2007.09.27南京基于OAI和METS遠(yuǎn)程收集數(shù)據(jù)的課件1主要內(nèi)容:“CALIS學(xué)位論文全文數(shù)據(jù)庫”服務(wù)體系架構(gòu)基于OAI和METS數(shù)據(jù)收割模式基于OAI和METS數(shù)據(jù)收割實(shí)施步驟NOW主要內(nèi)容:“CALIS學(xué)位論文全文數(shù)據(jù)庫”服務(wù)體系架構(gòu)NOW2“CALIS學(xué)位論文數(shù)據(jù)庫”服務(wù)體系架構(gòu)參建館本地系統(tǒng)CALIS數(shù)字圖書館門戶計(jì)費(fèi)中心認(rèn)證中心資源調(diào)度中心CALIS-OID解析中心紙本掃描加工CALIS中心學(xué)位論文提交與發(fā)布系統(tǒng)DRM閱讀器讀者DRM數(shù)字版權(quán)保護(hù)瀏覽器CALIS高校學(xué)位論文數(shù)據(jù)庫分中心“CALIS學(xué)位論文數(shù)據(jù)庫”服務(wù)體系架構(gòu)參建館CALIS數(shù)3CALIS學(xué)位論文參建館本地系統(tǒng)涉及到三個(gè)層面:本館層面滿足提交、審核、編目、標(biāo)準(zhǔn)化、回溯、發(fā)布、檢索、管理、存儲(chǔ)等需求符合相關(guān)標(biāo)準(zhǔn)、規(guī)范開放架構(gòu)CALIS子項(xiàng)目(分中心)層面納入“CALIS高校學(xué)位論文數(shù)據(jù)庫”服務(wù)體系CALIS中心層面納入“CALIS高等教育數(shù)字圖書館”服務(wù)體系CALIS學(xué)位論文參建館本地系統(tǒng)涉及到三個(gè)層面:本館層面4學(xué)位論文參建館本地系統(tǒng)結(jié)構(gòu)圖Web檢索全文檢索引擎專業(yè)編目文檔標(biāo)準(zhǔn)化論文回溯發(fā)布管理論文元數(shù)據(jù)庫論文(PDF)對(duì)象庫服務(wù)接口層應(yīng)用層存儲(chǔ)層學(xué)位論文提交與發(fā)布系統(tǒng)安全通信層DRM版權(quán)保護(hù)系統(tǒng)(PDF)紙本掃描加工系統(tǒng)MQ服務(wù)器METS接口模塊OAI-DP服務(wù)器認(rèn)證接口計(jì)費(fèi)接口CLRCOpenURL接口對(duì)象安全訪問接口CALIS-OID本地解析學(xué)位論文參建館本地系統(tǒng)結(jié)構(gòu)圖12345678讀者瀏覽器DRM閱讀器Web審核Web提交學(xué)位論文參建館本地系統(tǒng)結(jié)構(gòu)圖Web全文專業(yè)文檔論文發(fā)布論文元5參建館本地系統(tǒng)與CALIS子項(xiàng)目中心的互操作關(guān)系服務(wù)接口層安全通信層MQ服務(wù)器METS接口模塊OAI收割服務(wù)器CALIS-OID訪問數(shù)字對(duì)象請(qǐng)求中心論文元數(shù)據(jù)倉庫論文(前16頁)對(duì)象倉庫倉儲(chǔ)層服務(wù)接口層應(yīng)用層存儲(chǔ)層學(xué)位論文提交與發(fā)布系統(tǒng)安全通信層DRM數(shù)字版權(quán)保護(hù)系統(tǒng)MQ服務(wù)器METS接口模塊OAI-DP服務(wù)器認(rèn)證接口計(jì)費(fèi)接口CLRCOpenURL接口對(duì)象安全訪問接口CALIS-OID本地解析12345678參建館CALIS學(xué)位論文分中心參建館本地系統(tǒng)與CALIS子項(xiàng)目中心的互操作關(guān)系服務(wù)安全MQ6學(xué)位論文提交與發(fā)布系統(tǒng)與CALIS中心的互操作關(guān)系CALIS中心CALIS-OID解析中心認(rèn)證中心計(jì)費(fèi)中心資源調(diào)度中心CALIS數(shù)字圖書館服務(wù)門戶服務(wù)接口層應(yīng)用層存儲(chǔ)層學(xué)位論文提交與發(fā)布系統(tǒng)安全通信層DRM數(shù)字版權(quán)保護(hù)系統(tǒng)MQ服務(wù)器METS接口模塊OAI-DP服務(wù)器認(rèn)證接口計(jì)費(fèi)接口CLRCOpenURL接口對(duì)象安全訪問接口CALIS-OID本地解析12345678參建館學(xué)位論文提交與發(fā)布系統(tǒng)與CALIS中心的互操作關(guān)系CALIS7本地系統(tǒng)升級(jí)的主要接口OAI和METS數(shù)據(jù)收割接口,實(shí)現(xiàn)元數(shù)據(jù)和對(duì)象數(shù)據(jù)的收集;CALIS_OID解析接口,實(shí)現(xiàn)數(shù)字對(duì)象的解析和獲取;數(shù)字對(duì)象安全下載接口,實(shí)現(xiàn)數(shù)字對(duì)象的安全下載;CALISODL接口,實(shí)現(xiàn)CADLIS各系統(tǒng)之間的統(tǒng)一檢索;CADLIS認(rèn)證/計(jì)費(fèi)接口,實(shí)現(xiàn)認(rèn)證計(jì)費(fèi)。本地系統(tǒng)升級(jí)的主要接口OAI和METS數(shù)據(jù)收割接口,實(shí)現(xiàn)元數(shù)8本地系統(tǒng)升級(jí)的主要接口本地系統(tǒng)升級(jí)的主要接口9主要內(nèi)容:“CALIS學(xué)位論文全文數(shù)據(jù)庫”服務(wù)體系架構(gòu)基于OAI和METS數(shù)據(jù)收割模式基于OAI和METS數(shù)據(jù)收割實(shí)施步驟NOW主要內(nèi)容:“CALIS學(xué)位論文全文數(shù)據(jù)庫”服務(wù)體系架構(gòu)NOW10基于OAI和METS數(shù)據(jù)收割模式模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)模式二:僅采用OAI-DP基于OAI和METS數(shù)據(jù)收割模式模式一:11模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
---收割方式(1)實(shí)時(shí)自動(dòng)收割元數(shù)據(jù)通過OAI-DP發(fā)布。OAI-DP所發(fā)布出來的OAIRecord采用“CALISOAIRecordV1.0”數(shù)據(jù)格式;本地系統(tǒng)的數(shù)字對(duì)象通過METS-DP+MQ發(fā)布。METS-DP負(fù)責(zé)將數(shù)字對(duì)象封裝成METS數(shù)據(jù)包,然后通過MQ服務(wù)器發(fā)布出去,數(shù)據(jù)格式記為“CALISMETSRecordV1.0”;元數(shù)據(jù)和數(shù)字對(duì)象之間的關(guān)系通過OAIRecord中的CALIS_OBJ:objInfo子元素所包含的MetaID進(jìn)行關(guān)聯(lián);學(xué)位論文中心系統(tǒng)接收到
OAI-DP或METS-DP+MQ請(qǐng)求,自動(dòng)收割參建館本地系統(tǒng)中的數(shù)據(jù);模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
12模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
---收割方式(2)手動(dòng)收割用OAI數(shù)據(jù)導(dǎo)出工具將OAI-DP中的元數(shù)據(jù)導(dǎo)出成為包含OAIRecord數(shù)據(jù)的XML文件,該文件稱為OAI記錄文件,數(shù)據(jù)格式為“CALISOAIRecordV1.0”;用METS數(shù)據(jù)導(dǎo)出工具將METS-DP中的數(shù)字對(duì)象數(shù)據(jù)導(dǎo)出成為包含METSRecord數(shù)據(jù)的XML文件,該文件稱為METS記錄文件,數(shù)據(jù)格式記為“CALISMETSRecordV1.0”;本地系統(tǒng)管理員手工將上述兩類文件通過FTP上傳至CALIS學(xué)位論文中心,由其完成數(shù)據(jù)匯總、統(tǒng)計(jì)工作;
模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
13模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
---數(shù)據(jù)格式(元數(shù)據(jù))CALISRECORDV1.0用于維護(hù)元數(shù)據(jù)與METS一致的四項(xiàng)信息模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
14模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
---數(shù)據(jù)格式(對(duì)象數(shù)據(jù))模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
15模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
---實(shí)際收割測試2006.03月---2006.07月學(xué)位論文和特色庫項(xiàng)目驗(yàn)收前,采用模式一方式收割學(xué)位論文本地系統(tǒng)在部分參建館完成升級(jí)、數(shù)據(jù)遷移和發(fā)布工作;在廠商和參建館配合下,CALIS技術(shù)中心和學(xué)位論文子項(xiàng)目組共同進(jìn)行數(shù)據(jù)收割;參加測試的學(xué)校:TPI:中國人民大學(xué),中國農(nóng)業(yè)大學(xué)TRS:清華大學(xué)北大方正:北京大學(xué)杭州麥達(dá):北京大學(xué)醫(yī)學(xué)院模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
16模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
---實(shí)際收割測試收割結(jié)果實(shí)時(shí)自動(dòng)收割:本地系統(tǒng)和數(shù)據(jù)都存在問題中心系統(tǒng)對(duì)本地系統(tǒng)的自動(dòng)收割難以有效進(jìn)行手工收割:本地系統(tǒng)能順利提交數(shù)據(jù)但所上傳的數(shù)據(jù)仍存在問題本地系統(tǒng)存在的主要問題系統(tǒng)bugs數(shù)據(jù)問題模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
17模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
---實(shí)際收割測試(系統(tǒng)bugs)OAI-DP本身的bugs比較容易發(fā)現(xiàn)。但本地管理員仍缺乏有效易用的工具;METS-DP本身的bug問題以及MQ配置問題難以由本地管理員自行發(fā)現(xiàn);OAI-DP+METS-DP+MQ聯(lián)動(dòng)問題廠商技術(shù)人員和本地管理員都難以測試和發(fā)現(xiàn);其他問題著錄和導(dǎo)入工具不完備;本地DP所在機(jī)器軟硬件系統(tǒng)的不穩(wěn)定;DP本身的穩(wěn)定性和可靠性問題;METS包傳輸丟包問題;模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
18
模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
---實(shí)際收割測試(數(shù)據(jù)問題)數(shù)據(jù)不符合schema導(dǎo)出的OAI和METS包文件,其數(shù)據(jù)不符合schema數(shù)據(jù)必備性問題很多數(shù)據(jù)項(xiàng)缺乏,不符合子項(xiàng)目組的數(shù)據(jù)規(guī)范性要求CALIS元數(shù)據(jù)schema本身不支持必備性機(jī)制,而廠商本地系統(tǒng)也未能提供相應(yīng)的必備性檢測功能數(shù)據(jù)內(nèi)容不一致問題(尤其是OAI記錄和METS記錄之間的不一致)OAI記錄中的about內(nèi)容不合邏輯如:有時(shí)間戳或類型而沒有calis-oid;有calis-oid而沒有時(shí)間戳。元數(shù)據(jù)時(shí)間戳應(yīng)該不小于數(shù)字對(duì)象時(shí)間戳;更新數(shù)字對(duì)象時(shí)應(yīng)同時(shí)更新元數(shù)據(jù)時(shí)間戳,才能保證聯(lián)動(dòng)收割時(shí)對(duì)這條記錄重收。METS包中的時(shí)間戳應(yīng)與OAI-about中的時(shí)間戳一致等。數(shù)據(jù)的語義問題張冠李戴
模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
19
模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
---實(shí)際收割測試(問題原因)本地系統(tǒng)的著錄工具問題單條入庫的元數(shù)據(jù)和數(shù)字對(duì)象在必備性、一致性等方面存在問題。本地系統(tǒng)的批量導(dǎo)入工具問題批量入庫的元數(shù)據(jù)和數(shù)字對(duì)象在必備性、一致性等方面存在問題;批量導(dǎo)入的數(shù)據(jù)的時(shí)間戳都為同一個(gè)時(shí)間點(diǎn),這給OAI-DP帶來很大壓力。統(tǒng)計(jì)結(jié)果的一致性問題本地OAI-DP、METS-DP實(shí)際發(fā)布的記錄數(shù)與本地系統(tǒng)的數(shù)據(jù)庫查詢模塊提供的記錄數(shù)不一致,給管理員造成困惑。
——由內(nèi)部檢索機(jī)制不一致因素所造成。本地系統(tǒng)缺乏有效的“數(shù)據(jù)質(zhì)量檢測工具/模塊”在OAI-DP和METS-DP發(fā)布之前,系統(tǒng)本身對(duì)數(shù)據(jù)沒有進(jìn)行這種質(zhì)量檢測(包括必備性、一致性等)。管理員無法自行發(fā)現(xiàn)上面的“數(shù)據(jù)問題”。
模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
20模式二:僅采用OAI-DP收割
為解決模式一收割中的系統(tǒng)和數(shù)據(jù)問題,CALIS管理中心于2006年10月招集廠商開會(huì),提出模式二;廠商依據(jù)規(guī)范要求,改進(jìn)和完善系統(tǒng);模式二:收割方式實(shí)時(shí)自動(dòng)收割手動(dòng)收割模式二:僅采用OAI-DP收割21模式二:僅采用OAI-DP收割
---收割方式(1)實(shí)時(shí)自動(dòng)收割元數(shù)據(jù)和數(shù)字對(duì)象僅通過OAI-DP發(fā)布。發(fā)布出來的OAIRecord采用“CALISOAIRecordV2.0”數(shù)據(jù)格式;學(xué)位論文中心系統(tǒng)接收到OAI-DP或METS-DP+MQ請(qǐng)求,自動(dòng)收割參建館本地系統(tǒng)中的數(shù)據(jù);模式二:僅采用OAI-DP收割22手動(dòng)收割用新的OAI數(shù)據(jù)導(dǎo)出工具將本地系統(tǒng)中的元數(shù)據(jù)和數(shù)字對(duì)象合并為一條OAI記錄導(dǎo)出為OAI記錄文件。該文件中的數(shù)據(jù)格式為“CALISOAIRecordV2.0”;METS-DP中的數(shù)字對(duì)象數(shù)據(jù)無需再單獨(dú)導(dǎo)出;本地系統(tǒng)管理員手工將上述兩類文件通過FTP上傳至CALIS學(xué)位論文中心,由其完成數(shù)據(jù)匯總、統(tǒng)計(jì)工作;
模式二:僅采用OAI-DP收割
---收割方式(2)手動(dòng)收割模式二:僅采用OAI-DP收割23模式二:僅采用OAI-DP收割
---數(shù)據(jù)格式CALISRecordV1CALISRecordV2模式二:僅采用OAI-DP收割
24模式二:僅采用OAI-DP收割
---數(shù)據(jù)格式CALISRecordV2,無Mets模式二:僅采用OAI-DP收割
25模式二:僅采用OAI-DP收割
---實(shí)際收割測試2007.09月參加測試的學(xué)校:TPI:中國農(nóng)業(yè)大學(xué)TRS:清華大學(xué)北大方正:北京大學(xué)杭州麥達(dá):北京大學(xué)醫(yī)學(xué)院模式二:僅采用OAI-DP收割
26比較:模式一與模式二
----在系統(tǒng)部署和維護(hù)方面類型模式1模式2說明部署內(nèi)容部署OAI-DP服務(wù)器部署METS-DP服務(wù)器部署MQ服務(wù)器只需部署OAI-DP服務(wù)器前者部署、培訓(xùn)、管理成本都較大數(shù)據(jù)校驗(yàn)和錯(cuò)誤排查OAI文件METS文件OAI文件和METS文件對(duì)應(yīng)關(guān)系(如相關(guān)文件個(gè)數(shù)一致、ID一致等)OAI文件(可含METS數(shù)據(jù))對(duì)兩類文件之間的對(duì)應(yīng)關(guān)系的問題,模式1排查工作量很大,排查難度很大系統(tǒng)故障排查OAI-DP服務(wù)器METS-DP服務(wù)器、MQ服務(wù)器以上三個(gè)系統(tǒng)之間的聯(lián)動(dòng)OAI-DP服務(wù)器前者工作量和難度(尤其是系統(tǒng)之間聯(lián)動(dòng))都很大廠商技術(shù)支持工作量較大,當(dāng)出現(xiàn)復(fù)雜問題時(shí),需廠商和CALIS全力配合才能發(fā)現(xiàn)大為降低比較:模式一與模式二
----在系統(tǒng)部署27比較:模式一與模式二
----優(yōu)缺點(diǎn)比較類型模式1模式2優(yōu)點(diǎn)OAI-DP無需考慮大容量數(shù)據(jù)記錄的傳輸問題,因此,模式1對(duì)OAI-DP在性能和超時(shí)處理等方面的要求較低;只需部署與OAI-DP,無需部署METS-DP和MQ服務(wù)器;OAI記錄和METS記錄不再分離,一般不會(huì)出現(xiàn)一致性問題;系統(tǒng)出現(xiàn)故障或數(shù)據(jù)出現(xiàn)問題時(shí),管理員利用相關(guān)工具能夠自己檢測出來;缺點(diǎn)需要部署METS-DP和MQ服務(wù)器,需要這兩個(gè)服務(wù)器與OAI-DP服務(wù)器聯(lián)動(dòng);OAI記錄和METS記錄之間的一致性較難維護(hù);特別是:當(dāng)上述三個(gè)服務(wù)器聯(lián)動(dòng)出現(xiàn)故障或者當(dāng)OAI記錄和METS記錄之間出現(xiàn)不一致性時(shí),系統(tǒng)管理員沒有有效的問題排查手段,廠商也難以為管理員開發(fā)出來這種有效的檢測工具;對(duì)OAI-DP在性能方面有較高要求,OAI-DP應(yīng)能對(duì)超大容量的數(shù)據(jù)記錄予以正確響應(yīng)。比較:模式一與模式二
28比較:模式一與模式二
----結(jié)論“模式二”是對(duì)”模式一”的簡化,相應(yīng)的系統(tǒng)改造、升級(jí)、部署、維護(hù)等。工作量和難度都得大為減少,模式二的易用性和可管理性都大為提高;其中“模式二”的手動(dòng)收割,更為安全穩(wěn)定,CALIS特色庫的大批量數(shù)據(jù)收割均采用該方式;學(xué)位論文本地系統(tǒng)的收割模塊:TPI:支持模式二的實(shí)時(shí)自動(dòng)收割、手動(dòng)收割;北大方正:支持模式二的實(shí)時(shí)自動(dòng)收割、手動(dòng)收割;麥達(dá):支持模式二的實(shí)時(shí)自動(dòng)收割、手動(dòng)收割;TRS:支持模式二的手動(dòng)收割;比較:模式一與模式二
29主要內(nèi)容:“CALIS學(xué)位論文全文數(shù)據(jù)庫”服務(wù)體系架構(gòu)基于OAI和METS數(shù)據(jù)收割模式基于OAI和METS數(shù)據(jù)收割實(shí)施步驟NOW主要內(nèi)容:“CALIS學(xué)位論文全文數(shù)據(jù)庫”服務(wù)體系架構(gòu)NOW30基于OAI和METS數(shù)據(jù)收割實(shí)施步驟
---針對(duì)模式二(手動(dòng)收割)1)現(xiàn)有系統(tǒng)升級(jí)----公司介紹2)數(shù)據(jù)導(dǎo)出----公司介紹3)數(shù)據(jù)質(zhì)量檢測4)通過FTP方式提交基于OAI和METS數(shù)據(jù)收割實(shí)施步驟
---31
謝謝大家!謝謝大家!32基于OAI和METS遠(yuǎn)程收集數(shù)據(jù)的方法和流程
趙陽zhaoyang@清華大學(xué)圖書館學(xué)位論文項(xiàng)目組2007.09.27南京基于OAI和METS遠(yuǎn)程收集數(shù)據(jù)的課件33主要內(nèi)容:“CALIS學(xué)位論文全文數(shù)據(jù)庫”服務(wù)體系架構(gòu)基于OAI和METS數(shù)據(jù)收割模式基于OAI和METS數(shù)據(jù)收割實(shí)施步驟NOW主要內(nèi)容:“CALIS學(xué)位論文全文數(shù)據(jù)庫”服務(wù)體系架構(gòu)NOW34“CALIS學(xué)位論文數(shù)據(jù)庫”服務(wù)體系架構(gòu)參建館本地系統(tǒng)CALIS數(shù)字圖書館門戶計(jì)費(fèi)中心認(rèn)證中心資源調(diào)度中心CALIS-OID解析中心紙本掃描加工CALIS中心學(xué)位論文提交與發(fā)布系統(tǒng)DRM閱讀器讀者DRM數(shù)字版權(quán)保護(hù)瀏覽器CALIS高校學(xué)位論文數(shù)據(jù)庫分中心“CALIS學(xué)位論文數(shù)據(jù)庫”服務(wù)體系架構(gòu)參建館CALIS數(shù)35CALIS學(xué)位論文參建館本地系統(tǒng)涉及到三個(gè)層面:本館層面滿足提交、審核、編目、標(biāo)準(zhǔn)化、回溯、發(fā)布、檢索、管理、存儲(chǔ)等需求符合相關(guān)標(biāo)準(zhǔn)、規(guī)范開放架構(gòu)CALIS子項(xiàng)目(分中心)層面納入“CALIS高校學(xué)位論文數(shù)據(jù)庫”服務(wù)體系CALIS中心層面納入“CALIS高等教育數(shù)字圖書館”服務(wù)體系CALIS學(xué)位論文參建館本地系統(tǒng)涉及到三個(gè)層面:本館層面36學(xué)位論文參建館本地系統(tǒng)結(jié)構(gòu)圖Web檢索全文檢索引擎專業(yè)編目文檔標(biāo)準(zhǔn)化論文回溯發(fā)布管理論文元數(shù)據(jù)庫論文(PDF)對(duì)象庫服務(wù)接口層應(yīng)用層存儲(chǔ)層學(xué)位論文提交與發(fā)布系統(tǒng)安全通信層DRM版權(quán)保護(hù)系統(tǒng)(PDF)紙本掃描加工系統(tǒng)MQ服務(wù)器METS接口模塊OAI-DP服務(wù)器認(rèn)證接口計(jì)費(fèi)接口CLRCOpenURL接口對(duì)象安全訪問接口CALIS-OID本地解析學(xué)位論文參建館本地系統(tǒng)結(jié)構(gòu)圖12345678讀者瀏覽器DRM閱讀器Web審核Web提交學(xué)位論文參建館本地系統(tǒng)結(jié)構(gòu)圖Web全文專業(yè)文檔論文發(fā)布論文元37參建館本地系統(tǒng)與CALIS子項(xiàng)目中心的互操作關(guān)系服務(wù)接口層安全通信層MQ服務(wù)器METS接口模塊OAI收割服務(wù)器CALIS-OID訪問數(shù)字對(duì)象請(qǐng)求中心論文元數(shù)據(jù)倉庫論文(前16頁)對(duì)象倉庫倉儲(chǔ)層服務(wù)接口層應(yīng)用層存儲(chǔ)層學(xué)位論文提交與發(fā)布系統(tǒng)安全通信層DRM數(shù)字版權(quán)保護(hù)系統(tǒng)MQ服務(wù)器METS接口模塊OAI-DP服務(wù)器認(rèn)證接口計(jì)費(fèi)接口CLRCOpenURL接口對(duì)象安全訪問接口CALIS-OID本地解析12345678參建館CALIS學(xué)位論文分中心參建館本地系統(tǒng)與CALIS子項(xiàng)目中心的互操作關(guān)系服務(wù)安全MQ38學(xué)位論文提交與發(fā)布系統(tǒng)與CALIS中心的互操作關(guān)系CALIS中心CALIS-OID解析中心認(rèn)證中心計(jì)費(fèi)中心資源調(diào)度中心CALIS數(shù)字圖書館服務(wù)門戶服務(wù)接口層應(yīng)用層存儲(chǔ)層學(xué)位論文提交與發(fā)布系統(tǒng)安全通信層DRM數(shù)字版權(quán)保護(hù)系統(tǒng)MQ服務(wù)器METS接口模塊OAI-DP服務(wù)器認(rèn)證接口計(jì)費(fèi)接口CLRCOpenURL接口對(duì)象安全訪問接口CALIS-OID本地解析12345678參建館學(xué)位論文提交與發(fā)布系統(tǒng)與CALIS中心的互操作關(guān)系CALIS39本地系統(tǒng)升級(jí)的主要接口OAI和METS數(shù)據(jù)收割接口,實(shí)現(xiàn)元數(shù)據(jù)和對(duì)象數(shù)據(jù)的收集;CALIS_OID解析接口,實(shí)現(xiàn)數(shù)字對(duì)象的解析和獲取;數(shù)字對(duì)象安全下載接口,實(shí)現(xiàn)數(shù)字對(duì)象的安全下載;CALISODL接口,實(shí)現(xiàn)CADLIS各系統(tǒng)之間的統(tǒng)一檢索;CADLIS認(rèn)證/計(jì)費(fèi)接口,實(shí)現(xiàn)認(rèn)證計(jì)費(fèi)。本地系統(tǒng)升級(jí)的主要接口OAI和METS數(shù)據(jù)收割接口,實(shí)現(xiàn)元數(shù)40本地系統(tǒng)升級(jí)的主要接口本地系統(tǒng)升級(jí)的主要接口41主要內(nèi)容:“CALIS學(xué)位論文全文數(shù)據(jù)庫”服務(wù)體系架構(gòu)基于OAI和METS數(shù)據(jù)收割模式基于OAI和METS數(shù)據(jù)收割實(shí)施步驟NOW主要內(nèi)容:“CALIS學(xué)位論文全文數(shù)據(jù)庫”服務(wù)體系架構(gòu)NOW42基于OAI和METS數(shù)據(jù)收割模式模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)模式二:僅采用OAI-DP基于OAI和METS數(shù)據(jù)收割模式模式一:43模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
---收割方式(1)實(shí)時(shí)自動(dòng)收割元數(shù)據(jù)通過OAI-DP發(fā)布。OAI-DP所發(fā)布出來的OAIRecord采用“CALISOAIRecordV1.0”數(shù)據(jù)格式;本地系統(tǒng)的數(shù)字對(duì)象通過METS-DP+MQ發(fā)布。METS-DP負(fù)責(zé)將數(shù)字對(duì)象封裝成METS數(shù)據(jù)包,然后通過MQ服務(wù)器發(fā)布出去,數(shù)據(jù)格式記為“CALISMETSRecordV1.0”;元數(shù)據(jù)和數(shù)字對(duì)象之間的關(guān)系通過OAIRecord中的CALIS_OBJ:objInfo子元素所包含的MetaID進(jìn)行關(guān)聯(lián);學(xué)位論文中心系統(tǒng)接收到
OAI-DP或METS-DP+MQ請(qǐng)求,自動(dòng)收割參建館本地系統(tǒng)中的數(shù)據(jù);模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
44模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
---收割方式(2)手動(dòng)收割用OAI數(shù)據(jù)導(dǎo)出工具將OAI-DP中的元數(shù)據(jù)導(dǎo)出成為包含OAIRecord數(shù)據(jù)的XML文件,該文件稱為OAI記錄文件,數(shù)據(jù)格式為“CALISOAIRecordV1.0”;用METS數(shù)據(jù)導(dǎo)出工具將METS-DP中的數(shù)字對(duì)象數(shù)據(jù)導(dǎo)出成為包含METSRecord數(shù)據(jù)的XML文件,該文件稱為METS記錄文件,數(shù)據(jù)格式記為“CALISMETSRecordV1.0”;本地系統(tǒng)管理員手工將上述兩類文件通過FTP上傳至CALIS學(xué)位論文中心,由其完成數(shù)據(jù)匯總、統(tǒng)計(jì)工作;
模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
45模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
---數(shù)據(jù)格式(元數(shù)據(jù))CALISRECORDV1.0用于維護(hù)元數(shù)據(jù)與METS一致的四項(xiàng)信息模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
46模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
---數(shù)據(jù)格式(對(duì)象數(shù)據(jù))模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
47模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
---實(shí)際收割測試2006.03月---2006.07月學(xué)位論文和特色庫項(xiàng)目驗(yàn)收前,采用模式一方式收割學(xué)位論文本地系統(tǒng)在部分參建館完成升級(jí)、數(shù)據(jù)遷移和發(fā)布工作;在廠商和參建館配合下,CALIS技術(shù)中心和學(xué)位論文子項(xiàng)目組共同進(jìn)行數(shù)據(jù)收割;參加測試的學(xué)校:TPI:中國人民大學(xué),中國農(nóng)業(yè)大學(xué)TRS:清華大學(xué)北大方正:北京大學(xué)杭州麥達(dá):北京大學(xué)醫(yī)學(xué)院模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
48模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
---實(shí)際收割測試收割結(jié)果實(shí)時(shí)自動(dòng)收割:本地系統(tǒng)和數(shù)據(jù)都存在問題中心系統(tǒng)對(duì)本地系統(tǒng)的自動(dòng)收割難以有效進(jìn)行手工收割:本地系統(tǒng)能順利提交數(shù)據(jù)但所上傳的數(shù)據(jù)仍存在問題本地系統(tǒng)存在的主要問題系統(tǒng)bugs數(shù)據(jù)問題模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
49模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
---實(shí)際收割測試(系統(tǒng)bugs)OAI-DP本身的bugs比較容易發(fā)現(xiàn)。但本地管理員仍缺乏有效易用的工具;METS-DP本身的bug問題以及MQ配置問題難以由本地管理員自行發(fā)現(xiàn);OAI-DP+METS-DP+MQ聯(lián)動(dòng)問題廠商技術(shù)人員和本地管理員都難以測試和發(fā)現(xiàn);其他問題著錄和導(dǎo)入工具不完備;本地DP所在機(jī)器軟硬件系統(tǒng)的不穩(wěn)定;DP本身的穩(wěn)定性和可靠性問題;METS包傳輸丟包問題;模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
50
模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
---實(shí)際收割測試(數(shù)據(jù)問題)數(shù)據(jù)不符合schema導(dǎo)出的OAI和METS包文件,其數(shù)據(jù)不符合schema數(shù)據(jù)必備性問題很多數(shù)據(jù)項(xiàng)缺乏,不符合子項(xiàng)目組的數(shù)據(jù)規(guī)范性要求CALIS元數(shù)據(jù)schema本身不支持必備性機(jī)制,而廠商本地系統(tǒng)也未能提供相應(yīng)的必備性檢測功能數(shù)據(jù)內(nèi)容不一致問題(尤其是OAI記錄和METS記錄之間的不一致)OAI記錄中的about內(nèi)容不合邏輯如:有時(shí)間戳或類型而沒有calis-oid;有calis-oid而沒有時(shí)間戳。元數(shù)據(jù)時(shí)間戳應(yīng)該不小于數(shù)字對(duì)象時(shí)間戳;更新數(shù)字對(duì)象時(shí)應(yīng)同時(shí)更新元數(shù)據(jù)時(shí)間戳,才能保證聯(lián)動(dòng)收割時(shí)對(duì)這條記錄重收。METS包中的時(shí)間戳應(yīng)與OAI-about中的時(shí)間戳一致等。數(shù)據(jù)的語義問題張冠李戴
模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
51
模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
---實(shí)際收割測試(問題原因)本地系統(tǒng)的著錄工具問題單條入庫的元數(shù)據(jù)和數(shù)字對(duì)象在必備性、一致性等方面存在問題。本地系統(tǒng)的批量導(dǎo)入工具問題批量入庫的元數(shù)據(jù)和數(shù)字對(duì)象在必備性、一致性等方面存在問題;批量導(dǎo)入的數(shù)據(jù)的時(shí)間戳都為同一個(gè)時(shí)間點(diǎn),這給OAI-DP帶來很大壓力。統(tǒng)計(jì)結(jié)果的一致性問題本地OAI-DP、METS-DP實(shí)際發(fā)布的記錄數(shù)與本地系統(tǒng)的數(shù)據(jù)庫查詢模塊提供的記錄數(shù)不一致,給管理員造成困惑。
——由內(nèi)部檢索機(jī)制不一致因素所造成。本地系統(tǒng)缺乏有效的“數(shù)據(jù)質(zhì)量檢測工具/模塊”在OAI-DP和METS-DP發(fā)布之前,系統(tǒng)本身對(duì)數(shù)據(jù)沒有進(jìn)行這種質(zhì)量檢測(包括必備性、一致性等)。管理員無法自行發(fā)現(xiàn)上面的“數(shù)據(jù)問題”。
模式一:OAI-DP/METS-DP+MQ聯(lián)動(dòng)
52模式二:僅采用OAI-DP收割
為解決模式一收割中的系統(tǒng)和數(shù)據(jù)問題,CALIS管理中心于2006年10月招集廠商開會(huì),提出模式二;廠商依據(jù)規(guī)范要求,改進(jìn)和完善系統(tǒng);模式二:收割方式實(shí)時(shí)自動(dòng)收割手動(dòng)收割模式二:僅采用OAI-DP收割53模式二:僅采用OAI-DP收割
---收割方式(1)實(shí)時(shí)自動(dòng)收割元數(shù)據(jù)和數(shù)字對(duì)象僅通過OAI-DP發(fā)布。發(fā)布出來的OAIRecord采用“CALISOAIRecordV2.0”數(shù)據(jù)格式;學(xué)位論文中心系統(tǒng)接收到OAI-DP或METS-DP+MQ請(qǐng)求,自動(dòng)收割參建館本地系統(tǒng)中的數(shù)據(jù);模式二:僅采用OAI-DP收割54手動(dòng)收割用新的OAI數(shù)據(jù)導(dǎo)出工具將本地系統(tǒng)中的元數(shù)據(jù)和數(shù)字對(duì)象合并為一條OAI記錄導(dǎo)出為OAI記錄文件。該文件中的數(shù)據(jù)格式為“CALISOAIRecordV2.0”;METS-DP中的數(shù)字對(duì)象數(shù)據(jù)無需再單獨(dú)導(dǎo)出;本地系統(tǒng)管理員手工將上述兩類文件通過FTP上傳至CALIS學(xué)位論文中心,由其完成數(shù)據(jù)匯總、統(tǒng)計(jì)工作;
模式二:僅采用OAI-DP收割
---收割方式(2)手動(dòng)收割模式二:僅采用OAI-DP收割55模式二:僅采用OAI-DP收割
---數(shù)據(jù)格式CALISRecordV1CALISRecordV2模式二:僅采用OAI-DP收割
56模式二:僅采用OAI-DP收割
---數(shù)據(jù)格式CALISRecordV2,無Mets模式二:僅采用OAI-DP收割
57模式二:僅采用OAI-DP收割
---實(shí)際收割測試2007.09月參加測試的學(xué)校:TPI:中國農(nóng)業(yè)大學(xué)TRS:清華大學(xué)北大方正:北京大學(xué)杭州麥達(dá):北京大學(xué)醫(yī)學(xué)院模式二:僅采用OAI-DP收割
58比較:模式一與模式二
----在系統(tǒng)部署和維護(hù)方面類型模式1模式2說明
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 臘前月季古詩課件
- 磁生電課件教學(xué)課件
- 廣告設(shè)計(jì)課件教學(xué)課件
- 2024年廣元客運(yùn)從業(yè)資格證報(bào)名考試題目
- 2024年福建客運(yùn)從業(yè)資格證考試網(wǎng)
- 2024年百色道路客運(yùn)從業(yè)資格證模擬考試
- 2025屆河南省鄭州市106中學(xué)生物高三上期末綜合測試模擬試題含解析
- 吉林省梅河口市五中2025屆生物高三上期末綜合測試試題含解析
- 山東省棗莊市十六中2025屆高三數(shù)學(xué)第一學(xué)期期末達(dá)標(biāo)測試試題含解析
- 吉林省梅河口市五中2025屆高三生物第一學(xué)期期末學(xué)業(yè)質(zhì)量監(jiān)測試題含解析
- 江蘇省宿遷市2024屆中考數(shù)學(xué)試卷(含答案)
- 2.3 河流 第3課時(shí) 課件-2024-2025學(xué)年八年級(jí)地理上學(xué)期人教版
- 監(jiān)理協(xié)議合同模板
- GB 18245-2024煙草加工系統(tǒng)粉塵防爆安全規(guī)范
- Unit5We'refamilyPeriod4-6教學(xué)設(shè)計(jì)-2024-2025學(xué)年(2024)英語三年級(jí)上冊(cè)
- 期中測試卷-2024-2025學(xué)年統(tǒng)編版語文一年級(jí)上冊(cè)
- 2024-2030年中國玻尿酸行業(yè)競爭態(tài)勢與消費(fèi)動(dòng)態(tài)分析報(bào)告
- 湖南省長沙市明德天心中學(xué)2024-2025學(xué)年七年級(jí)上學(xué)期9月月考數(shù)學(xué)試題(無答案)
- 課件:《中華民族共同體概論》第十五講:新時(shí)代與中華民族共同體建設(shè)
- 2024年廣東深圳市光明區(qū)玉塘街道辦事處招聘一般類崗位專干31人歷年高頻500題難、易錯(cuò)點(diǎn)模擬試題附帶答案詳解
- 外研版(三起)(2024)三年級(jí)上冊(cè)英語全冊(cè)教案(單元整體教學(xué)設(shè)計(jì))
評(píng)論
0/150
提交評(píng)論