數(shù)字資源的加工與驗(yàn)收_第1頁(yè)
數(shù)字資源的加工與驗(yàn)收_第2頁(yè)
數(shù)字資源的加工與驗(yàn)收_第3頁(yè)
數(shù)字資源的加工與驗(yàn)收_第4頁(yè)
數(shù)字資源的加工與驗(yàn)收_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)字資源的加工與驗(yàn)收數(shù)字資源質(zhì)檢部業(yè)務(wù)培訓(xùn)2010-10-8數(shù)字資源的加工與驗(yàn)收數(shù)字資源的定義數(shù)字資源的分類圖像數(shù)字資源的加工流程圖像數(shù)字資源的驗(yàn)收內(nèi)容圖像數(shù)字資源的驗(yàn)收方法圖像驗(yàn)收常見(jiàn)問(wèn)題及注意事項(xiàng)數(shù)字資源的定義數(shù)字資源是文獻(xiàn)信息的表現(xiàn)形式之一,是將計(jì)算機(jī)技術(shù)、通信技術(shù)及多媒體技術(shù)相互融合而形成的以數(shù)字形式發(fā)布、存取、利用的信息資源總和。商業(yè)化的數(shù)據(jù)庫(kù)、機(jī)構(gòu)或個(gè)人建立的數(shù)據(jù)庫(kù)、各種網(wǎng)絡(luò)免費(fèi)資源等都屬于數(shù)字資源。同印刷型文獻(xiàn)相比,數(shù)字資源類型更為豐富。數(shù)字資源的分類從數(shù)據(jù)的組織形式上看,有數(shù)據(jù)庫(kù)、電子期刊、電子圖書(shū)、網(wǎng)頁(yè)、多媒體資料等類型。各類數(shù)字資源的存儲(chǔ)方式數(shù)據(jù)庫(kù):Access、SQLServer、MYSQL、Oracle等;電子期刊與圖書(shū):TXT、TIFF、JPG、PDF等;網(wǎng)頁(yè):JPG、HTML、MHT等;多媒體資料:AVI、WAV、MP3等。圖像數(shù)字資源的加工流程圖像數(shù)字資源加工是指運(yùn)用圖像掃描與處理,文字、圖像的識(shí)別以及數(shù)字化初始信息的各種在加工技術(shù),將大量已存在的,以不同形式和載體存儲(chǔ)的信息資料,如文件、圖片等轉(zhuǎn)化為能夠用計(jì)算機(jī)處理的數(shù)字化信息。圖像的基本特征參數(shù)像素:是構(gòu)成圖像的最小單位,一般用若干不同色彩的像素排列而組成的矩陣來(lái)表示數(shù)字圖像。圖像分辨率:指每英寸圖像的像素?cái)?shù)。分辨率越高,圖像與清晰。色彩模式:指圖像顏色的成像模式。常見(jiàn)的有RGB模式、CMYK模式。圖像的基本特征參數(shù)色彩深度:又稱位深或色深。反映圖像中色彩的最大表現(xiàn)數(shù)量。常見(jiàn)的有2色、8色、256色、真24位、真32位等。壓縮方式:分為有損壓縮和無(wú)損壓縮,以是否去掉圖像的細(xì)節(jié)和顏色來(lái)區(qū)分。常見(jiàn)壓縮方式有RLE、LZW、JEPG、CCITT等。常見(jiàn)圖像的格式TIFF

TIFF是一種比較靈活的圖像格式,文件擴(kuò)展名為T(mén)IF或TIFF。該格式支持多種色彩位,同時(shí)支持RGB、CMYK等多種色彩模式,支持多平臺(tái)。TIFF文件可以是不壓縮的,文件體積較大,也可以是壓縮的,支持RAW、RLE、LZW、JPEG、CCITT3組和4組等多種壓縮方式。常見(jiàn)圖像的格式JPGJPEG圖片以24位顏色存儲(chǔ)單個(gè)圖像。JPEG是與平臺(tái)無(wú)關(guān)的格式,支持最高級(jí)別的壓縮,不過(guò),這種壓縮是有損耗的??梢蕴岣呋蚪档蚃PEG文件壓縮的級(jí)別。但是,文件大小是以圖像質(zhì)量為代價(jià)的。常見(jiàn)圖像的格式PDFPDF是一種電子文件格式。這種文件格式與操作系統(tǒng)平臺(tái)無(wú)關(guān)。PDF文件使用了工業(yè)標(biāo)準(zhǔn)的壓縮算法,易于傳輸與儲(chǔ)存。加工流程圖圖書(shū)掃描階段掃描圖像的基本要求存儲(chǔ)方式:無(wú)壓縮TIFF格式;色彩深度:灰度8位,彩色24位;黑白與灰度頁(yè)面必須用灰度位深掃描;圖像分辨率:300DPI,小于5號(hào)字體用400DPI;同一冊(cè)書(shū),尺寸一致(有超大頁(yè)的特殊情況);不允許有污點(diǎn)、歪斜、黑邊、不完整的情況。圖書(shū)掃描階段高掃:對(duì)圖書(shū)進(jìn)行拆裝后,使用高速掃描儀自動(dòng)進(jìn)行快速掃描。優(yōu)點(diǎn):速度快,支持雙面掃描,300DPI無(wú)壓縮圖像約140-180頁(yè)/分鐘;缺點(diǎn):掃描過(guò)程中容易造成漏頁(yè)、重頁(yè)、頁(yè)順序錯(cuò)誤等問(wèn)題。圖書(shū)掃描階段平掃:不對(duì)圖書(shū)進(jìn)行拆裝,直接將圖書(shū)平鋪掃描。優(yōu)點(diǎn):不破壞原書(shū);缺點(diǎn):掃描速度慢,機(jī)器掃描約2-5秒/頁(yè)。由于人工干預(yù)較多,易造成各種圖像錯(cuò)誤。圖像整合階段文件夾命名

圖像命名規(guī)則:由數(shù)字和下劃線組成。例:文獻(xiàn)語(yǔ)種(中文)流水號(hào):01090012_66

加工年(2009)

大流水號(hào)0012_66

其存儲(chǔ)路徑:\01090012\66\圖像整合階段圖像命名(1)文件名后綴為小寫(xiě)字母;文件名格式為:大寫(xiě)字母

+5位數(shù)字

+_00+后綴名;例:B00002_00.tif;(2)大寫(xiě)字母的含義

A:封面: 指圖書(shū)封面正反兩頁(yè);博士論文較特殊,會(huì)有3

頁(yè)A的情況。

B:目錄前前附頁(yè): 指圖書(shū)目錄頁(yè)與封面之間的頁(yè)面;

圖像整合階段

C:目錄頁(yè):圖書(shū)的目錄頁(yè);D:目錄后前附頁(yè):

圖書(shū)的正文與目錄頁(yè)之間的頁(yè)面;

T:正文:正文內(nèi)容; 注意:正文頁(yè)的數(shù)字編號(hào)要與頁(yè)碼一致;

Y:后附頁(yè):封底與正文之間的內(nèi)容;

Z:封底:圖書(shū)封底;圖像整合階段插頁(yè)

一般出現(xiàn)在正文頁(yè)中。該頁(yè)的上下兩頁(yè)頁(yè)碼連續(xù),且該頁(yè)的位置正確。插頁(yè)的命名

在上一頁(yè)圖像命名基礎(chǔ)上,將最后的“_00”改為“_01”,例如T00056_01.tif,如果有多頁(yè)插頁(yè),數(shù)字依此類推。圖像處理階段一般采用PHOTOSHOP軟件人工修改統(tǒng)一尺寸去污漬、黑邊糾正傾斜檢查并修改掃描顏色文字識(shí)別階段OCR文字識(shí)別

指對(duì)圖像上的內(nèi)容進(jìn)行識(shí)別,把圖像上的文字內(nèi)容轉(zhuǎn)換為文本格式的過(guò)程,所有識(shí)別后的內(nèi)容保存在.txt格式的文本文件中。進(jìn)行文字識(shí)別的原因普通圖書(shū)、論文、基藏本等文獻(xiàn)只需對(duì)目錄頁(yè)內(nèi)容進(jìn)行識(shí)別,主要為掛接到網(wǎng)站方便讀者的檢索;無(wú)法打出的文字用“〓”表示。并保存相應(yīng)文字部分的圖像到該書(shū)文件夾下的“〓”文件夾。盲人圖書(shū)、手機(jī)閱讀等項(xiàng)目,需要對(duì)全文進(jìn)行識(shí)別,盲人圖書(shū)是為了方便盲人閱讀,手機(jī)文獻(xiàn)是為了縮小發(fā)布文件的體積。數(shù)據(jù)整合階段什么是元數(shù)據(jù)描述數(shù)據(jù)及其環(huán)境的數(shù)據(jù);一般分為描述性元數(shù)據(jù)、結(jié)構(gòu)性元數(shù)據(jù)、技術(shù)性元數(shù)據(jù)等等。 例如:一本書(shū)的名字、頁(yè)數(shù)、內(nèi)容、掃描方式、目錄結(jié)構(gòu)、尺寸、掃描方式等等。一本圖書(shū)在數(shù)字化加工前只有對(duì)該紙質(zhì)文獻(xiàn)的描述,數(shù)字化加工后,需要對(duì)該資源補(bǔ)充新的描述信息。數(shù)據(jù)整合階段圖書(shū)的元數(shù)據(jù)保存在MDB格式的數(shù)據(jù)庫(kù)中。該數(shù)據(jù)庫(kù)包含以下7個(gè)表格。Book表:主要包含圖書(shū)的名稱,編號(hào),作者等信息。Catalog表:包含每?jī)?cè)圖書(shū)的目錄信息,頁(yè)碼、絕對(duì)頁(yè)碼、屬性等信息;abstract表(論文)或Copyright表(圖書(shū)):摘要頁(yè)的起始頁(yè)與頁(yè)數(shù)信息或版權(quán)頁(yè)起始頁(yè)信息;Inset表:插頁(yè)信息Lostpage表:缺頁(yè)信息數(shù)據(jù)整合階段struct表:圖書(shū)結(jié)構(gòu)信息,包含封面、前附頁(yè)、目錄頁(yè)、正文、后附頁(yè)、封底的頁(yè)數(shù)及起始頁(yè)碼等信息;process表:加工信息,包含灰度、彩色圖像數(shù)量,壓縮方式,數(shù)據(jù)位置等信息TIFF數(shù)據(jù)備份、通查階段將圖像與數(shù)據(jù)庫(kù)合并后,備份到移動(dòng)硬盤(pán)中。每塊硬盤(pán)一個(gè)數(shù)據(jù)庫(kù),儲(chǔ)存該硬盤(pán)中所有圖書(shū)的信息。對(duì)整體數(shù)據(jù)進(jìn)行冊(cè)數(shù)、頁(yè)數(shù)、各項(xiàng)技術(shù)參數(shù)等內(nèi)容的核查。PDF轉(zhuǎn)換、備份、通查階段將所有TIFF數(shù)據(jù)轉(zhuǎn)換為PDF數(shù)據(jù);PDF文件采用JEPG2000壓縮方式壓縮;每個(gè)PDF文件容量不允許超過(guò)規(guī)定大小;在數(shù)據(jù)庫(kù)中追加壓縮因子、容量等信息。光盤(pán)刻錄、通查階段將所有圖像刻錄在DVD光盤(pán)上;每張光盤(pán)包含一個(gè)readme.txt文件,里面填寫(xiě)該張光盤(pán)的內(nèi)容與圖像頁(yè)數(shù);光盤(pán)中不允許包含其它無(wú)關(guān)文件。圖像數(shù)字資源的驗(yàn)收內(nèi)容數(shù)據(jù)驗(yàn)收采取抽樣檢驗(yàn),抽檢樣本數(shù)不低于送檢數(shù)據(jù)的42%(中文保存本為100%)。驗(yàn)收人員隨機(jī)抽選。各種標(biāo)引、說(shuō)明文件的文字、符號(hào)、版式、位置和文件名稱準(zhǔn)確,其綜合錯(cuò)誤率不超過(guò)0.3‰。圖像數(shù)據(jù)掃描方式、掃描規(guī)格、文件格式、文件命名、圖像處理、壓縮方式等符合要求,其綜合錯(cuò)誤率不超過(guò)1‰。圖像數(shù)字資源的驗(yàn)收內(nèi)容成品數(shù)據(jù)備份數(shù)量、保存介質(zhì)命名、數(shù)據(jù)存放方式、數(shù)據(jù)內(nèi)容符合規(guī)范要求,且各類型保存介質(zhì)內(nèi)無(wú)壞死文件、不準(zhǔn)攜帶病毒,錯(cuò)誤率為0。送檢數(shù)據(jù)內(nèi)容與《中文圖書(shū)驗(yàn)收數(shù)據(jù)提交單》相互匹配,各種格式數(shù)據(jù)和文檔一一對(duì)應(yīng),不可夾雜無(wú)關(guān)文件。達(dá)到驗(yàn)收標(biāo)準(zhǔn)的數(shù)據(jù)視為合格,合格范圍內(nèi)檢查出的問(wèn)題進(jìn)行修正;未達(dá)到驗(yàn)收標(biāo)準(zhǔn)的數(shù)據(jù)由加工單位重新對(duì)進(jìn)行數(shù)據(jù)的檢查、修改、重掃等返工工作。對(duì)象數(shù)據(jù)的驗(yàn)收存儲(chǔ)路徑;文件是否能否打開(kāi),有無(wú)多余文件、壞死文件;圖像命名(“T”類文件名要求與印刷頁(yè)碼一致);圖像掃描(分辨率、圖像尺寸、文件大小,壓縮方式);圖像質(zhì)量(清晰、去污、歪斜、切字、漏字);圖像連續(xù)(重掃、漏掃、錯(cuò)頁(yè)、顛倒);圖像頁(yè)數(shù)(與bookinfo、process表核對(duì));灰度頁(yè)數(shù)、彩色頁(yè)數(shù)(與process表核對(duì));元數(shù)據(jù)的驗(yàn)收book表檢查內(nèi)容: 對(duì)照book_id,與封面頁(yè)圖像核對(duì),是否為同一本書(shū);copyright或abstract表檢查內(nèi)容: 版權(quán)頁(yè)或中英文摘要位置;catalog表檢查內(nèi)容: 要求逐條核對(duì)標(biāo)引文字、鏈接和屬性; “〓”的內(nèi)容在該圖書(shū)文件夾內(nèi)的“〓”文件夾下保存; 抽檢圖書(shū)的目錄條數(shù)、目錄字?jǐn)?shù)元數(shù)據(jù)的驗(yàn)收inset表和lostpage表檢查內(nèi)容: 抽檢圖書(shū)插頁(yè)或缺頁(yè)是否正確標(biāo)引,包括插頁(yè)命名、插頁(yè)標(biāo)引頁(yè)號(hào)(前一頁(yè)的印刷頁(yè)碼)、頁(yè)位置、頁(yè)數(shù)struct表檢查內(nèi)容: 抽檢圖書(shū)各部分的頁(yè)數(shù);起始頁(yè)碼(印刷頁(yè)碼);各部分頁(yè)數(shù)相加是否與總文件數(shù)一致process表檢查內(nèi)容:抽檢圖書(shū)各種數(shù)量統(tǒng)計(jì)(grey_num、col_num、tif_num);存儲(chǔ)量統(tǒng)計(jì)(tif_mb、pdf_mb與圖像核對(duì));技術(shù)指標(biāo)(dpi與圖像核對(duì));圖像數(shù)字資源的驗(yàn)收方法《數(shù)字資源質(zhì)檢系統(tǒng)》

是一套基于ORACLE數(shù)據(jù)庫(kù)開(kāi)發(fā)的大型數(shù)字資源驗(yàn)收平臺(tái)。能夠輔助使用者快速的對(duì)數(shù)字資源的元數(shù)據(jù)與對(duì)象數(shù)據(jù)進(jìn)行驗(yàn)收。《數(shù)字資源質(zhì)檢系統(tǒng)》使用方法及驗(yàn)收流程核對(duì)圖書(shū)名稱是否與驗(yàn)收?qǐng)D書(shū)相同;核查數(shù)據(jù)庫(kù)目錄標(biāo)引中的章節(jié)序號(hào)、章節(jié)名、作者、頁(yè)碼是否與圖書(shū)目錄中標(biāo)注相同;如遇到“〓”字符,核對(duì)是否有對(duì)應(yīng)的“〓”圖像;核查數(shù)據(jù)庫(kù)目錄標(biāo)引中目錄的絕對(duì)頁(yè)碼是否正確;核查圖像所有圖否清晰,圖像命名是否正確,如遇到缺頁(yè)、插頁(yè)問(wèn)題,核查插頁(yè)、缺頁(yè)信息表;核查圖書(shū)的結(jié)構(gòu)信息,包括封面、目錄前前附頁(yè)、目錄頁(yè)、前附后前附頁(yè)、正文頁(yè)、后附頁(yè)、封底的數(shù)量,起始頁(yè)頁(yè)碼等信息;中文圖書(shū)、保存本核查版權(quán)頁(yè)是否正確;博士論文核查摘要起始頁(yè)、頁(yè)數(shù)、摘要內(nèi)容是否正確;圖書(shū)驗(yàn)收中的常見(jiàn)問(wèn)題TIFF圖像目錄文字識(shí)別錯(cuò)誤目錄絕對(duì)頁(yè)碼標(biāo)引錯(cuò)誤正文頁(yè)圖像名稱與頁(yè)碼不對(duì)應(yīng)圖像掃描顏色錯(cuò)誤圖像不清晰圖書(shū)驗(yàn)收中的常見(jiàn)問(wèn)題PDF圖像文件容量超過(guò)規(guī)定大小文件壓縮過(guò)度導(dǎo)致圖像不清晰PDF文件數(shù)量與該批TIFF文件數(shù)量不一致圖像傾斜,超過(guò)半行算傾斜圖書(shū)驗(yàn)收中的常見(jiàn)問(wèn)題TIFF、PDF光盤(pán)光盤(pán)文件損壞光盤(pán)不可讀光盤(pán)編號(hào)標(biāo)注錯(cuò)誤光盤(pán)readme文件內(nèi)容標(biāo)注錯(cuò)誤圖像驗(yàn)收中的特殊情況一冊(cè)書(shū)中附加另一冊(cè)書(shū),兩冊(cè)書(shū)共用一個(gè)ID

處理辦法:貼有條碼的圖書(shū)正常處理,掃描圖像并進(jìn)行標(biāo)引;附加的習(xí)題集、外文版等圖書(shū)只做圖像掃描,不進(jìn)行標(biāo)引,并把掃描圖像存放于本ID目錄下的“附加”文件夾內(nèi)目錄中章節(jié)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論