檔案數(shù)據(jù)化及專題檔案數(shù)據(jù)庫建設(shè)需求_第1頁
檔案數(shù)據(jù)化及專題檔案數(shù)據(jù)庫建設(shè)需求_第2頁
檔案數(shù)據(jù)化及專題檔案數(shù)據(jù)庫建設(shè)需求_第3頁
檔案數(shù)據(jù)化及專題檔案數(shù)據(jù)庫建設(shè)需求_第4頁
檔案數(shù)據(jù)化及專題檔案數(shù)據(jù)庫建設(shè)需求_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

檔案數(shù)據(jù)化及專題檔案數(shù)據(jù)庫建設(shè)需求一、項目概述圍繞構(gòu)建數(shù)字化決策、執(zhí)行、服務(wù)、監(jiān)督和評價體系,拓展檔案數(shù)據(jù)智慧服務(wù)場景”“充分挖掘館室藏檔案數(shù)據(jù)資源,為科學(xué)決策、史料研究提供檔案數(shù)據(jù)支撐”。為積極響應(yīng)全省檔案工作數(shù)字化改革工作要求,加快檔案數(shù)字化轉(zhuǎn)型示范區(qū)建設(shè),市檔案館著力打造檔案數(shù)據(jù)化治理平臺,推進檔案專題知識庫建設(shè)。二、內(nèi)容及要求(一)建設(shè)內(nèi)容:序號名稱單位1檔案數(shù)據(jù)化(OCR)內(nèi)容建設(shè)頁(A4面幅)2檔案數(shù)據(jù)化治理平臺套3機構(gòu)沿革知識庫建設(shè)套4民生檔案專題庫建設(shè)套1.通過對市檔案館現(xiàn)有的文書類檔案進行分析,形成對機構(gòu)沿革專題知識數(shù)據(jù)庫結(jié)構(gòu)設(shè)計建設(shè)所需的規(guī)范和標準,搭建通用文書檔案知識數(shù)據(jù)抽取引擎,在此基礎(chǔ)上建設(shè)檔案數(shù)據(jù)化治理平臺,以實現(xiàn)對現(xiàn)有的機構(gòu)沿革相關(guān)檔案知識數(shù)據(jù)的抽取和挖掘,形成機構(gòu)沿革專題知識庫。2.根據(jù)機構(gòu)沿革專題知識庫完成機構(gòu)沿革知識圖譜的建設(shè),提供知識庫的展示界面系統(tǒng)。3.結(jié)合我館現(xiàn)有的五類民生類檔案電子化數(shù)據(jù)進行分析與抽取,設(shè)計多類型檔案數(shù)據(jù)的彈性關(guān)系關(guān)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu),搭建民生檔案知識圖譜,建設(shè)五類民生檔案知識數(shù)據(jù)利用平臺。4.完成項目所涉系統(tǒng)平臺的等級保護測評、備案工作。5.完成1000萬頁館藏檔案圖像的全文OCR識別服務(wù)。(二)建設(shè)要求:1.檔案數(shù)據(jù)化內(nèi)容建設(shè)(OCR):有針對性地選取專題性較強的樣本,基于人工智能深度學(xué)習技術(shù),完成1000萬頁市檔案館建國后館藏實體檔案的數(shù)字化圖像的文字識別(OCR)工作。OCR成果保存為TXT文本格式、雙層PDF文件格式、OFD文件格式。成果數(shù)量以A4頁折算統(tǒng)計。1.1技術(shù)要求:(1)支持多種圖片格式識別,包含但不限于如下格式:JPG、BMP、PDF、TIF、TIFF。(2)支持對大角度傾斜(90°、180°、270°)和小角度傾斜(小于5°)的圖像的識別,不影響其文字識別效果。(3)將文字識別結(jié)果、文字坐標信息等進行處理,生成高精度的雙層PDF文件、TXT文件。(4)將成果數(shù)據(jù)(雙層PDF文件)按照市檔案館要求的文件名、路徑存儲,同時生成OFD文件。(5)從市檔案館綜合業(yè)務(wù)系統(tǒng)中按目錄結(jié)構(gòu)提取檔案電子數(shù)據(jù),保持文件命名格式、目錄結(jié)構(gòu)不變。(6)全文識別服務(wù)應(yīng)覆蓋多語言,包括簡體中文(含手寫體)、繁體中文(含手寫體),支持中文橫版和豎版排列文字識別,支持對檔案中涵蓋的多種文件類型。(7)識別結(jié)果應(yīng)有較高的準確度。OCR識別標準應(yīng)符合《DA/T77-2019紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識別(OCR)工作規(guī)范》。對檔案中文、數(shù)字、英文印刷體的識別準確率在95%以上,手寫體識別準確率達到80%以上。(8)識別的全文文本作為知識抽取基礎(chǔ)數(shù)據(jù)。(9)OCR識別所需的計算機各種硬件設(shè)備、軟件系統(tǒng)由中標方提供,應(yīng)符合國家相關(guān)法律法規(guī)和標準的要求。其中,軟件系統(tǒng)應(yīng)為正版軟件,計算機硬盤由招標方提供。(10)計算機數(shù)據(jù)存儲介質(zhì)應(yīng)符合安全要求并嚴格管理。項目中使用的移動硬盤、U盤等存儲介質(zhì)應(yīng)交由檔案館管理并登記編號。項目結(jié)束后,移動硬盤、U盤、已用光盤等存儲介質(zhì)應(yīng)全部移交給檔案館,上交的移動存儲介質(zhì)編號應(yīng)與登記的編號相一致。如有因違反相關(guān)規(guī)定而造成不良后果,由中標方承擔相關(guān)責任。1.2性能要求:(1)支持連續(xù)7*24小時不間斷地工作。(2)支持多并發(fā),在硬件配置足夠的情況下,能夠滿足業(yè)務(wù)所需的識別訪問量。業(yè)務(wù)處理復(fù)雜繁忙時,系統(tǒng)仍可保持穩(wěn)定的運行。(3)在高并發(fā)的情況下保證系統(tǒng)整體的數(shù)據(jù)一致性、完整性和正確性,具有較高的成熟度。(4)環(huán)境適用性強、接口標準,接口響應(yīng)時間不超過2秒,單線程(引擎)單張?zhí)幚頃r間小于0.2秒/張。(5)項目所涉及的軟硬件設(shè)備在隔離互聯(lián)網(wǎng)環(huán)境下可正常運作,擁有對電子檔案的防泄密、防篡改功能。2.檔案數(shù)據(jù)化治理平臺治理對象為全宗卷和各全宗中的已完成數(shù)據(jù)化(OCR)的檔案資源,建設(shè)含有任務(wù)管理、數(shù)據(jù)管理、通用檔案數(shù)據(jù)引擎、數(shù)據(jù)校核等功能的檔案數(shù)據(jù)治理平臺。2.1性能要求(1)搭建通用文書檔案結(jié)構(gòu)化數(shù)據(jù)抽取引擎,并實現(xiàn)數(shù)據(jù)校核功能。(2)支持連續(xù)7*24小時不間斷地工作。(3)數(shù)據(jù)治理平臺在高并發(fā)使用的情況下保證系統(tǒng)整體的數(shù)據(jù)一致性、完整性和正確性,具有較高的成熟度。(4)數(shù)據(jù)治理平臺以及專題數(shù)據(jù)庫展示界面的頁面響應(yīng)時間小于1秒。(5)在文本數(shù)據(jù)準確的情況下,基于NLP自然語言處理技術(shù)的數(shù)據(jù)抽取準確率高于80%。2.2功能模塊模塊名稱功能功能描述用戶管理對用戶基礎(chǔ)信息進行管理維護,以滿足多用戶協(xié)同工作支持對用戶信息的導(dǎo)入與導(dǎo)出、用戶權(quán)限信息的管理維護以及用戶基礎(chǔ)信息的維護數(shù)據(jù)管理對數(shù)據(jù)進行管理與維護支持原始數(shù)據(jù)以及結(jié)構(gòu)化數(shù)據(jù)的管理確保其在數(shù)據(jù)在流轉(zhuǎn)過程中遵循多模態(tài)數(shù)據(jù)標準任務(wù)管理對不同類型任務(wù)的可視化管理支持數(shù)據(jù)化治理人員,流程,任務(wù)配置管理數(shù)據(jù)校核支持對抽取結(jié)果做校對基于已有的結(jié)構(gòu)化數(shù)據(jù)成果,對機器抽取的數(shù)據(jù)進行對比核對與修改數(shù)據(jù)導(dǎo)出對構(gòu)建的知識成果數(shù)據(jù)進行導(dǎo)出支持根據(jù)數(shù)據(jù)查詢結(jié)果進行數(shù)據(jù)導(dǎo)出功能;可支持不同下游任務(wù)標準數(shù)據(jù)導(dǎo)出模板管理對數(shù)據(jù)模板進行管理和配置多模態(tài)數(shù)據(jù)挖掘整理任務(wù)配置,支持原始形態(tài)數(shù)據(jù)抵達目標結(jié)構(gòu)化數(shù)據(jù)引擎管理對數(shù)據(jù)抽取引擎進行管理用于配置和管理使用數(shù)據(jù)抽取引擎支持復(fù)合抽取任務(wù)3.機構(gòu)沿革專題庫建設(shè)基于檔案數(shù)據(jù)化治理平臺的的功能,對相應(yīng)檔案數(shù)據(jù)進行處理,輸出機構(gòu)沿革專題知識庫。3.1專題知識庫結(jié)構(gòu)設(shè)計規(guī)范和標準按照一定的規(guī)范抽取術(shù)語與融合數(shù)據(jù)技術(shù),形成專題知識庫設(shè)計規(guī)范和標準:(1)根據(jù)機構(gòu)沿革知識圖譜建設(shè)需求形成專門的文書檔案抽取引擎,并將該引擎集成到數(shù)據(jù)化治理平臺,用于后續(xù)已完成OCR文書檔案的數(shù)據(jù)抽取、輔助檔案智能管理(2)專題知識庫結(jié)構(gòu)設(shè)計規(guī)范標準應(yīng)盡可能多的覆蓋本體相關(guān)信息,包括但不限于基礎(chǔ)信息、時空信息、事件信息、演變過程信息、人物信息,數(shù)據(jù)格式包括但不限于結(jié)構(gòu)化的文本格式、數(shù)字格式、日期格式、圖像格式。(3)專題知識庫結(jié)構(gòu)設(shè)計規(guī)范標準應(yīng)具有開放性,例如聲像(圖片、視頻)檔案庫接入規(guī)范,便于后續(xù)新數(shù)據(jù)的利用。(4)基于信息抽取技術(shù)UIE(UniversalInformationExtraction),搭建沿革事件抽取模型,機構(gòu)沿革的實體抽取模型及關(guān)系抽取模型。(5)構(gòu)建機構(gòu)沿革專題數(shù)據(jù)庫,完成機構(gòu)沿革檔案數(shù)據(jù)知識化,實現(xiàn)存儲的機構(gòu)沿革信息可通過可視化知識圖譜方式進行瀏覽。3.2機構(gòu)沿革知識圖譜檢索展示平臺:3.2.1展示要求:(1)在機構(gòu)沿革專題數(shù)據(jù)庫的基礎(chǔ)上,設(shè)計并構(gòu)建機構(gòu)沿革知識圖譜檢索展示平臺。提供多種維度的精準及模糊兩種檢索方式,通過智能聯(lián)想、結(jié)果關(guān)聯(lián)性匹配,實現(xiàn)時間、實體等多要素組合關(guān)聯(lián)查詢。(2)展示界面的頁面響應(yīng)時間小于1秒。(3)在高并發(fā)使用的情況下保證系統(tǒng)整體的數(shù)據(jù)一致性、完整性和正確性,具有較高的成熟度。3.2.2核心功能要求:核心功能功能要求功能描述知識呈現(xiàn)對知識數(shù)據(jù)進行可視化呈現(xiàn)根據(jù)不同的知識數(shù)據(jù)類型來設(shè)計不同的數(shù)據(jù)呈現(xiàn)方式,以多樣化的形式展現(xiàn)知識數(shù)據(jù)知識檢索對知識數(shù)據(jù)進行檢索實現(xiàn)根據(jù)用戶輸入的內(nèi)容進行知識數(shù)據(jù)的模糊與精確檢索,同時呈現(xiàn)知識數(shù)據(jù)的關(guān)聯(lián)信息知識溯源對呈現(xiàn)的知識數(shù)據(jù)進行可視化的溯源實現(xiàn)知識溯源能力,并進行可視化呈現(xiàn)4.民生檔案知識庫建設(shè)結(jié)合已有的細顆粒度結(jié)構(gòu)化數(shù)據(jù),對已完成電子化的婚姻、學(xué)籍、出生證明、退休、契稅(具體以采購人實際要求為準)五類民生檔案數(shù)據(jù)(以下稱五類民生檔案數(shù)據(jù)),進行跨門類檔案知識關(guān)聯(lián),搭建民生檔案專題知識庫,以實現(xiàn)民生檔案的智慧化利用。形成五類民生檔案數(shù)據(jù)的多層級、跨門類的彈性關(guān)聯(lián)知識網(wǎng)絡(luò),充分挖掘各類檔案中的隱性知識。以個人為主體,拓撲展示多類檔案中人與人、人與事件的關(guān)聯(lián)關(guān)系,顯示效果區(qū)分關(guān)聯(lián)度,并可提示隱性關(guān)聯(lián)的排序以及隱性關(guān)聯(lián)顯性化所需提問信息。4.1民生檔案專題知識庫(1)設(shè)計基于五類民生檔案數(shù)據(jù)的新型多層數(shù)據(jù)關(guān)聯(lián)關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)。(2)自動檢測照片在檔案掃描件中的位置并進行自動抽取,完成對婚姻、學(xué)籍類民生檔案的圖像抽取工作,并建立對應(yīng)人物的關(guān)聯(lián)關(guān)系,基于館內(nèi)已有的電子化數(shù)據(jù),完成對出生證明、退休檔案、契稅檔案五類民生檔案的知識數(shù)據(jù)抽取工作,并建立對應(yīng)人物的關(guān)聯(lián)關(guān)系。(3)基于以上多層數(shù)據(jù)關(guān)聯(lián)關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)化數(shù)據(jù),建設(shè)民生檔案知識利用平臺;設(shè)計高效的容錯容缺關(guān)聯(lián)關(guān)系網(wǎng)絡(luò),利用關(guān)聯(lián)度評分神經(jīng)網(wǎng)絡(luò)模型,構(gòu)建一個多層級、跨五類民生檔案的彈性關(guān)聯(lián)知識網(wǎng)絡(luò)。實現(xiàn)智能聯(lián)想、關(guān)聯(lián)性匹配、智能推薦、人物關(guān)系數(shù)據(jù)網(wǎng)絡(luò)可視化、關(guān)聯(lián)檔案導(dǎo)出等。為查詢民生檔案信息提供便利,提高檔案利用效率。4.2利用平臺4.2.1性能要求①在文本數(shù)據(jù)準確的情況下,基于NLP自然語言處理技術(shù)的數(shù)據(jù)抽取準確率高于80%;②以拓撲圖形式進行數(shù)據(jù)組織顯示;③實現(xiàn)查詢結(jié)果的關(guān)聯(lián)度排序;④在高并發(fā)使用的情況下保證系統(tǒng)整體的數(shù)據(jù)一致性、完整性和正確性,具有較高的成熟度;⑤數(shù)據(jù)自動抽取速度小于0.5秒/頁(在GPU機器上)。4.2.2核心功能要求核心功能功能要求功能描述數(shù)據(jù)可視化對數(shù)據(jù)實體及其關(guān)系進行可視化呈現(xiàn)對知識數(shù)據(jù)進行可視化呈現(xiàn);展現(xiàn)實體與實體之間的關(guān)聯(lián)關(guān)系;支持多級實體數(shù)據(jù)的展開以及關(guān)系詳情數(shù)據(jù)的查看;智能聯(lián)想實現(xiàn)檢索內(nèi)容的智能聯(lián)想查詢根據(jù)用戶輸入的檢索關(guān)鍵字進行全庫智能檢索,并實時反饋用戶;智能推薦對實體關(guān)聯(lián)信息進行智能推薦基于已有的實體知識,進行關(guān)聯(lián)度計算、排序與知識推理的關(guān)聯(lián)消歧,實現(xiàn)知識數(shù)據(jù)的智能推薦功能;關(guān)聯(lián)檢索基于關(guān)鍵詞的實體及關(guān)系知識檢索根據(jù)輸入的檢索詞進行實體知識精準與模糊檢索;支持基于實體和關(guān)系的路徑檢索;5.專題知識庫數(shù)據(jù)抽取數(shù)量要求為建設(shè)專題知識庫,需對不同全宗檔案數(shù)據(jù)做相應(yīng)抽取,抽取權(quán)重分配以專題知識庫建設(shè)具體需求為準,項目總體抽取數(shù)據(jù)應(yīng)不少于10萬條。交付的數(shù)據(jù)存儲格式應(yīng)采用通用的數(shù)據(jù)格式(RDF、關(guān)系型數(shù)據(jù)庫等)。6.系統(tǒng)開發(fā)要求部署環(huán)境:服務(wù)端操作系統(tǒng)、數(shù)據(jù)庫、中間件符合信創(chuàng)部署要求終端適配:信創(chuàng)終端及其他架構(gòu)設(shè)計:B/S可嵌入性:機構(gòu)沿革展示平臺,民生檔案智慧利用平臺可嵌入市檔案館現(xiàn)有信息系統(tǒng)三、建設(shè)原則本次項目建設(shè)遵循的基本技術(shù)原則如下:1.穩(wěn)定性原則。系統(tǒng)處理能力和穩(wěn)定性完全滿足業(yè)務(wù)的峰值要求,適應(yīng)各種特殊情況給系統(tǒng)帶來的壓力。具有系統(tǒng)資源回收能力,避免系統(tǒng)長時間運行后逐漸消耗系統(tǒng)資源(如內(nèi)存泄漏)而引起系統(tǒng)崩潰。2.開放性原則。系統(tǒng)架構(gòu)清晰,基于IT業(yè)界標準,對系統(tǒng)中的各種網(wǎng)絡(luò)協(xié)議、硬件接口、數(shù)據(jù)接口等進行統(tǒng)一規(guī)劃,滿足采購人現(xiàn)有系統(tǒng)及其他主流第三方軟件的信息交互要求,為未來的系統(tǒng)擴展奠定基礎(chǔ)。3.可擴展性原則。軟件體系結(jié)構(gòu)不依賴于硬件設(shè)備,系統(tǒng)總體架構(gòu)和軟件體系結(jié)構(gòu)要有可擴展性,要充分考慮到未來業(yè)務(wù)的發(fā)展帶來的數(shù)據(jù)規(guī)模的發(fā)展、管理需求的變化以及系統(tǒng)保障級別的提高,方便對新需求的擴展和支持。4.高效性原則。系統(tǒng)具備高效快速的的數(shù)據(jù)處理能力,確保在多任務(wù)大數(shù)據(jù)量情況下仍能快速、高效、準確地處理各類數(shù)據(jù)處理和數(shù)據(jù)交互任務(wù),并根據(jù)其他模塊要求及時交換數(shù)據(jù)。5.安全性原則。系統(tǒng)必須建立在成熟穩(wěn)定的硬件環(huán)境和應(yīng)用軟件基礎(chǔ)上,可提供完善的備份恢復(fù)策略、安全控制機制、運行管理監(jiān)控流程和故障處理手段來保障系統(tǒng)的安全、穩(wěn)定,并需要保證終端到后臺整體服務(wù)器的安全性。6.可維護性原則。系統(tǒng)產(chǎn)品設(shè)計需要兼顧業(yè)務(wù)操作的便利性,技術(shù)擴展的簡便規(guī)范性,及系統(tǒng)部署的易操作性。四、項目實施工期本項目全部內(nèi)容需于2023年10月30日前完成并交付。五、質(zhì)量保證1.實施單位須保證所提供產(chǎn)品符合國家有關(guān)規(guī)定。實施單位須保證所提供產(chǎn)品具有合法的版權(quán)或使用權(quán),本項目采購的產(chǎn)品,如在本項目范圍內(nèi)使用過程中出現(xiàn)版權(quán)或使用權(quán)糾紛,應(yīng)由實施單位負責,采購人不承擔責任。2.實施單位必須保證免費解決項目所涉及的技術(shù)問題,包括將機構(gòu)沿革展示平臺,民生檔案智慧利用平臺嵌入市檔案館現(xiàn)有信息系統(tǒng)的適配改造和技術(shù)對接,如因技術(shù)原因無法滿足采購人需求,由此產(chǎn)生的風險由實施單位承擔。3.實施單位需為本項目設(shè)置項目經(jīng)理1人,開發(fā)人員2名及以上,OCR數(shù)據(jù)化服務(wù)駐場工程師1人,數(shù)據(jù)抽取模型訓(xùn)練工程師1人。中標方應(yīng)指定具有兩年以上同類項目管理經(jīng)驗的人員作為項目經(jīng)理,未經(jīng)采購人同意不得隨意更換項目經(jīng)理;若原指定項目經(jīng)理不能滿足采購人工作要求,應(yīng)根據(jù)采購人要求及時更換。中標方需派駐工程師一名,常駐于招標方,負責處理項目建設(shè)的日常運維實施、數(shù)據(jù)質(zhì)檢、溝通協(xié)調(diào)及常見故障排除等工作以及招標人交辦的項目相關(guān)工作任務(wù),包括但不限于數(shù)據(jù)化檔案目錄內(nèi)容分析、檔案原文質(zhì)量分析等數(shù)據(jù)化相關(guān)內(nèi)容的協(xié)助工作。六、項目驗收1.采購人將組織對供應(yīng)商進行履約驗收,出具驗收書,存檔備查。如果發(fā)現(xiàn)與應(yīng)標文件或合同要求不符,供應(yīng)商須承擔由此發(fā)生的一切損失和費用,并承擔相應(yīng)的法律責任。2.項目驗收要求:2.1.檔案數(shù)據(jù)化(OCR)內(nèi)容建設(shè)(1)項目成果格式符合項目要求,數(shù)量符合合同約定。(2)OCR識別成果質(zhì)量標準應(yīng)符合《DA/T77-2019紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識別(OCR)工作規(guī)范》。(3)OCR成果驗收按照批次進行,供應(yīng)商應(yīng)對每批次的OCR成果進行人工抽檢的方式進行質(zhì)檢,并留存質(zhì)檢記錄,質(zhì)檢通過后方可向采購人提交驗收。(4)批次

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論