數字化工程方案_第1頁
數字化工程方案_第2頁
數字化工程方案_第3頁
數字化工程方案_第4頁
數字化工程方案_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

衢州市圖書館數字化加工技術方案一、工程概述6000冊32K16K30〔具體頁數依據實際狀況確定OCR識別,并經過人工校對,依據元掃描圖像在網絡平臺的公布、呈現(xiàn)和應用。二、工程目標衢州市圖書館文獻資料數字加工工程的建設就是運用高速進展的計算機、網資料的可讀性、可視性、可重復利用性、牢靠性。本工程的目標是:衢州市圖書館的地方文獻紙本資源數字化,及存儲應用。三、工程內容及要求地方文獻數字化加工數字化加工要求*1、加工完成后對每冊文獻都要提交掃描圖像〔TIFFJPG格式〕文件、OCR識別后的文本文檔〔TXT格式、多頁封裝的PDF圖像格式文件、為了數據裝載入庫,對每冊文獻生成的一個XML文件,以及為一個批次加工的全部中文元數據。2、依據原文獻名目所示的最小組織構造進展著錄標引〔假設書籍沒知名目導航頁,由招標方自行編制名目后再錄入,建立書籍名目導航。3、依據標準要求加工中文元數據〔參考國家圖書館元數據有關標準。4、OCR后文本文檔要求準確反映原文的段落信息,文字識別過失率要求不大于百分之五。5TIFF格式〔CCITT4壓縮,原件大小,600DP掃描,JPG格式保存,原件彩色的即承受彩色掃描,JPG格式保存。PDF圖像文件整理加工中需要實施的內容1、整理、掃描加工、OCR識別和人工校對、著錄、元數據加工。2、數據裝載入公布效勞軟件平臺,并實現(xiàn)相關檢索、查詢、公布等效勞。工期要求6個月內完成。加工資源的交付與驗收1、本工程涉及的文獻不得帶離甲方場地,所以掃描工序的實施需在甲方場或缺損。2、加工單位要保證加工資源不喪失、不損壞、不受潮、不污損等。加工資源需經折裝時必需獲得甲方書面同意。3、加工資源假設有喪失、損壞,乙方要負責購置賠償同版本的加工資源。4、元數據、OCR校對、著錄、圖像后期處理等工作,可在加工單位自己的場地進展。加工資源的版權其他第三方,違反者擔當相應的法律責任。其他加工單位提交的加工數據,甲方在驗收后,對未到達質量要求的,加工單位費返工修改。地方文獻數據庫效勞平臺產品功能模塊序號產品名稱系統(tǒng)模塊數量單位備注全文檢索數據庫效勞系統(tǒng)1套1特色數據庫平臺全文檢索門戶1套信息采編及關心標引系統(tǒng)1套信息采編審系統(tǒng)1套系統(tǒng)功能要求〔一〕體系構造分布式體系架構,支持跨效勞器、跨平臺分布式內容治理,實現(xiàn)異構數據庫聯(lián)合檢索;系統(tǒng)支持全部主流的操作系統(tǒng)、應用效勞器及Web效勞器。J2EE.NET64T〔二〕內容治理字詞混合索引。、實現(xiàn)了自動分類、自動聚類、自動摘要、文本相像性比較等功能。系統(tǒng)支持多種數據類型〔日期、數值、文本〕的治理。系統(tǒng)實現(xiàn)對文本、各類電子文檔和圖像、音頻、視頻等多媒體供給強大的治理治理與檢索的全文數據庫系統(tǒng)。系統(tǒng)具有強大數據庫治理及維護功能,如數據庫定義、建立、備份、恢復、優(yōu)化重組、規(guī)律刪除、物理刪除、增量備份、記錄查重等功能。系統(tǒng)支持外部掃描的電子文擋、網頁與網頁自動提取內容等數據的治理。支持字段的唯一性特征,可以依據字段內容自動去重?!踩秤脩糁卫硐到y(tǒng)內置獨立于操作系統(tǒng)的用戶權限治理、用戶操作審計、統(tǒng)計與分析等功統(tǒng)計與分析。系統(tǒng)供給多級用戶治理體系,可以實現(xiàn)靈敏的用戶-數據庫授權機制,數據庫治理、數據維護、系統(tǒng)治理、檢索各種權限分開,可以按需安排。系統(tǒng)具備用戶分組治理、數據庫轉讓等共性化用戶治理功能?!菜摹橙臋z索1、信息公布所見即所得地公布信息。2、智能檢索系統(tǒng)支持中英文及其他語種的多語種混合檢索,支持多種數據類型的數據檢索。支持外部特征字段檢索時的詞、拼音、筆畫等簡便的輸入幫助功能。系統(tǒng)允許使用任意字、詞、片段、語句進展全匹配檢索。系統(tǒng)供給多種檢索手段:各種規(guī)律運算符〔規(guī)律或、與、非〕組合檢索、二〔模糊檢索系統(tǒng)支持相關性詞表擴展檢索功能,提高檢索效率;系統(tǒng)內置同義與近義詞表,詞表可維護,便利用戶修改。系統(tǒng)實現(xiàn)對文本、各類電子文檔和圖像、音頻、視頻等多媒體供給強大的關聯(lián)檢索功能。〔大1000個〕的檢索效率。100%查全率。系統(tǒng)供給分類字段,支持分類掃瞄和檢索。3、數據庫關聯(lián)檢索聯(lián)。4、關系數據庫檢索系統(tǒng)具有與RDBMS(Sybase、Oracle,SQLServerDB2)無縫連接,供給全文檢索引擎功能,從而實現(xiàn)對關系數據庫中記錄高效的全文檢索〔CGDataPipe協(xié)作實現(xiàn)。5、共性化效勞訂閱檢索:用戶提交檢索條件,系統(tǒng)依據用戶的定制條件,自動定時發(fā)送檢索結果到用戶郵箱中〔CGPUSH供給。支持檢索結果的多種定制手段,用戶依據喜好,可以定制文獻顯示的字體大小、顏色、顯示字段、文獻排列等。用戶可以在系統(tǒng)授權地狀況下,在線修改文獻內容、提交文獻等操作?!参濉承畔⒉删幖瓣P心標引系統(tǒng)文獻資料加到信息庫之前要經過預處理。文獻的預處理包括轉碼、整理和標因此,文獻預處理常常成為信息庫建設的瓶頸。1、關心文獻整理①便利的字段分類幫助選取與選值功能,供給日期選值幫助。②供給多篇文獻的字段置值功能,多篇文獻查找與替換功能。③供給分篇與多篇合并功能。④供給界面格式調整功能。⑤供給多媒體信息文件的標引與掃瞄功能。⑥供給查錯功能。⑦供給按字段內容排序與復原功能。2、版面大樣文件轉換與關心標引①版面轉換后的文獻直接進入編輯器界面。②供給在版面中直接用鼠標分篇與多段〔篇〕合并功能。③供給版面多篇轉換、全部轉換和選塊轉換功能。④供給版面直接鼠標拖動圖片實現(xiàn)圖片標引。3、查錯信息系統(tǒng)向用戶供給的產品是信息。信息的準確性是系統(tǒng)是否有生命力的關檢查工程包括:文獻有否遺漏內容〔如標題;文內是否有非法碼〔如半個漢字等;時間是否有效;數據類型是否正確等。檢查完畢將列出錯誤清單,光標自動定位到錯誤位置?!擦嘲踩盐障到y(tǒng)供給系統(tǒng)、數據庫、記錄及字段級安全把握手段;用戶使用信息資源的授權機制、數據庫中文獻密級把握、用戶文獻存取數量把握;IP、打印等功能,有效地防止用戶越權操作與防抵賴。系統(tǒng)供給數據庫文件加密、索引加密、庫構造文件加密等安全機制。〔七〕開發(fā)接口系統(tǒng)供給標準的二次開發(fā)接口,可以開發(fā)運行UINX、WindowsNT、和WEB環(huán)C++治理與檢索接口〔WindowsUnix下的通用開發(fā)工具。Javabeans類庫應用程序開發(fā)接口(J2EE環(huán)境下的開發(fā)工具)。C#類庫應用程序開發(fā)接口〔支持.NET平臺下的開發(fā)工具。系統(tǒng)性能要求體系構造體系構造支持各種主流操作系統(tǒng)和主流開發(fā)平臺供給分布式檢索多線程設計,充分發(fā)揮SMP機器的優(yōu)勢,支持大量并發(fā)用戶訪問*64T樣的字段概念,支持文檔的外部特征與正文內容的各種規(guī)律組合檢索準確計算,準確報告檢索記錄數客戶端支持以下三種字符集:GB2312/GBK/GB18030編。便利了多語言檢索應用程序的開發(fā)100%及智能檢索擴展檢索:同義詞和近義詞自動擴展檢索、全半角自動擴展檢索、簡繁體自動擴展檢索智能檢索支持同義詞、近義詞典的維護數據治理

系統(tǒng)自動建索引:數據增刪改時快速同步更索引,無〔增刪改后馬上能夠檢索出來*支持Text、HTML、XML、RTFMSOFFICE文檔〔Word/Execl/PowerpoitPDF文件自動建立索引制類型〕支持多媒體數據的存儲治理高效的數據和索引壓縮檢索功能

支持中、英文混合檢索戶治理開放性

構化數據的統(tǒng)一檢索,供給字段和全文的聯(lián)合查詢部特征與正文內容的各種規(guī)律組合檢索、位置檢索、二次檢索〔漸進檢索、歷史檢索等支持“缺省字段規(guī)律優(yōu)先”的運算方式同時對多庫檢索結果可以進展混排且可以指定各參與字段的權重支持命中詞的反顯具有系統(tǒng)級、數據庫級、記錄級和字段級四級安全把握機制加密和壓縮傳輸機備份率完善的日志治理數據庫檢索頻度統(tǒng)計、檢索詞頻統(tǒng)計和用戶檢索統(tǒng)計功能系統(tǒng)供給多種權限級別的用戶治理支持按用戶角色進展用戶授權治理*支持主流開發(fā)平臺,供給C++、CAPI、JavaAPI和.NETAPI二次開發(fā)接口Windows、Linux、Solaris、AIX、HP-UX數據加載和索 引速度用戶組數/用 上用戶組/用戶戶數

要求支持字符集□ 簡體中文(GB2312/GBK/GB18030)繁體中文(BIG5)純英文(ENGLISH)售后效勞 *1年軟件免費升級效勞,并出具原廠商證明;數據存儲平臺簡述:本次選購的效勞器和存儲設備,專項用于本次館藏古籍文獻特色資源庫的配置要求:2U2INTELXE0NE5506CPU2.134M8GB(4*2)內存,1333MHZsinglerankRIMMs;2146GSAS硬盤,RAID1配置;內置SATADVD;雙冗余電源;配置通用機架

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論