




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
ICS35.240.01CCSL70團(tuán) 體 標(biāo) 準(zhǔn)T/CPRA2102.2—2024中華文化素材庫(kù)技術(shù)要求2部分:圖片類書籍?dāng)?shù)據(jù)質(zhì)量要求TechnicalrequirementsformaterialdatabaseofChineseculturePart2:Dataqualityrequirementsforimage-basedbooks2024-12-13發(fā)布 2024-12-13實(shí)施中國(guó)公共關(guān)系協(xié)會(huì)文化大數(shù)據(jù)產(chǎn)業(yè)委員會(huì) 發(fā)布T/CPRA2102.2-2024T/CPRA2102.2-2024II目 次前 言 II范圍 1規(guī)范性引用文件 1術(shù)語和定義 1中華文化素材庫(kù) 1文化數(shù)字內(nèi)容 1文化資源數(shù)據(jù) 2總體要求 2數(shù)據(jù)范圍 2數(shù)據(jù)入庫(kù)格式 2數(shù)據(jù)命名原則 3圖片類書籍?dāng)?shù)據(jù)入庫(kù)流程 3入庫(kù)流程 3數(shù)據(jù)要求 5平面數(shù)據(jù) 5文本數(shù)據(jù) 6表格數(shù)據(jù) 6書籍?dāng)?shù)據(jù) 6數(shù)據(jù)屬性要求 6屬性基本要求 6屬性數(shù)據(jù)結(jié)構(gòu)要求 6T/CPRA2102.2-2024T/CPRA2102.2-2024IIII前 言GB/T1請(qǐng)注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別專利的責(zé)任。本文件由中國(guó)公共關(guān)系協(xié)會(huì)文化大數(shù)據(jù)產(chǎn)業(yè)委員會(huì)提出并歸口。本文件起草單位:北京郵電大學(xué)、北京玖揚(yáng)科技有限公司、伏羲云(北京)文化科技有限公司。本文件主要起草人:徐坤、高凱、趙海英、薛曉鵬、尹暉、侯小剛、徐鵬舉、曹明煒、周月、張煉、崔義娜、陳磊、劉志軍、李媛媛。T/CPRA2102.2-2024T/CPRA2102.2-2024PAGEPAGE1中華文化素材庫(kù)技術(shù)要求第2部分:圖片類書籍?dāng)?shù)據(jù)質(zhì)量要求范圍本文件規(guī)定了中華文化素材庫(kù)中圖片類書籍?dāng)?shù)據(jù)的質(zhì)量要求,包括圖片類書籍?dāng)?shù)據(jù)的入庫(kù)數(shù)據(jù)類型、質(zhì)量標(biāo)準(zhǔn)、以及相關(guān)的入庫(kù)流程等內(nèi)容。本文件適用于中華文化素材庫(kù)構(gòu)建過程中對(duì)于圖片類書籍?dāng)?shù)據(jù)的采集、處理、存儲(chǔ)、管理和應(yīng)用。規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用(包括所有的修改單)適用于本文件。GB/T1.1-20201部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則T/CPRA1-2021國(guó)家文化大數(shù)據(jù)標(biāo)準(zhǔn)體系T/CPRA300-2023文化數(shù)字內(nèi)容分類與代碼T/CPRA301-2023文化資源數(shù)據(jù)分類與代碼術(shù)語和定義下列術(shù)語和定義適用于本文件。中華文化素材庫(kù)materialdatabaseofchineseculture以文化資源數(shù)字化成果為原料,集成運(yùn)用各種新技術(shù),萃取中華文化之要素,并分門別類標(biāo)簽化,進(jìn)而形成的可組合使用的素材庫(kù)。按照文化呈現(xiàn)要素中華文化素材庫(kù)可劃分為中華字庫(kù)、中華音庫(kù)、中華像庫(kù)、中華樂庫(kù)、中華舞庫(kù)、中華劇庫(kù)等。中華文化素材庫(kù)的來源是多元的,中國(guó)文化遺產(chǎn)標(biāo)本庫(kù)和中華民族文化基因庫(kù)的數(shù)據(jù)是重要來源,文化企事業(yè)單位已建成的文化藝術(shù)、新聞出版、廣播電視、網(wǎng)絡(luò)視聽、電影等數(shù)據(jù)庫(kù),也是重要來源。相關(guān)數(shù)據(jù)通過國(guó)家文化專網(wǎng)實(shí)現(xiàn)共享。[來源:T/CPRA301-2023定義3.1.4]文化數(shù)字內(nèi)容culturaldigitalcontent以數(shù)字形式存在的文化產(chǎn)品,一般以文字、圖片、音頻、視頻、多媒體和其他形式表現(xiàn)。通常包括傳統(tǒng)文化產(chǎn)品的數(shù)字化以及以數(shù)字形式存在的文化產(chǎn)品。國(guó)家文化大數(shù)據(jù)體系下文化數(shù)字內(nèi)容主要涵蓋中華優(yōu)秀傳統(tǒng)文化、革命文化和社會(huì)主義先進(jìn)文化等。文化數(shù)字內(nèi)容作為數(shù)字化文化生產(chǎn)線的產(chǎn)出,由文化大數(shù)據(jù)服務(wù)平臺(tái)管理與分發(fā),并通過文化體驗(yàn)設(shè)施和設(shè)備消費(fèi)。通常情況下,文化數(shù)字內(nèi)容又稱為文化數(shù)字產(chǎn)品、文化數(shù)字內(nèi)容產(chǎn)品等。[來源:T/CPRA300-2023定義3.1.1]文化資源數(shù)據(jù)culturalresourcesdata對(duì)人類文化中傳承下來并可以傳播利用的文化(包括物質(zhì)的和非物質(zhì)的)進(jìn)行數(shù)字化采集后,所得到的用于識(shí)別和展現(xiàn)文化的圖像、文字、聲音、動(dòng)畫、影片、三維全景、三維模型等數(shù)據(jù)。國(guó)家文化大數(shù)據(jù)體系下文化資源數(shù)據(jù)主要包括中國(guó)文化遺產(chǎn)標(biāo)本庫(kù)、中華民族文化基因庫(kù)、中華文化素材庫(kù)中的數(shù)據(jù)。[來源:T/CPRA301-2023定義3.1.1]總體要求數(shù)據(jù)范圍中華文化素材庫(kù)中,圖片類書籍?dāng)?shù)據(jù)的入庫(kù)范圍包括:圖片類書籍相關(guān)素材,涵蓋但不限于與中華字庫(kù)、中華像庫(kù)等具有圖像特性關(guān)聯(lián)的子庫(kù)內(nèi)容;中國(guó)文化遺產(chǎn)標(biāo)本庫(kù)、中華民族文化基因庫(kù)中與圖片類書籍直接相關(guān)的數(shù)據(jù);文化企事業(yè)單位已建成的與圖片類書籍相關(guān)的數(shù)據(jù)資源,包括圖書館館藏的數(shù)字化書籍與期刊、文化研究機(jī)構(gòu)或高校出版的圖片類書籍與論文、電子書平臺(tái)的數(shù)字出版內(nèi)容,以及出版機(jī)構(gòu)或文化博物館等單位的圖書插圖、畫冊(cè)資源等。數(shù)據(jù)入庫(kù)格式平面數(shù)據(jù)表1平面數(shù)據(jù)格式數(shù)據(jù)類型數(shù)據(jù)格式圖像.jpg、.png、.tiff、.bmp、.svg矢量圖.eps、.pdf文本數(shù)據(jù)表2文本數(shù)據(jù)格式數(shù)據(jù)類型數(shù)據(jù)格式純文本.txt富文本.docx、.rtf排版數(shù)據(jù).tex、.pdf表格數(shù)據(jù)表3表格數(shù)據(jù)格式數(shù)據(jù)類型數(shù)據(jù)格式表格內(nèi)容.xls、.xlsx、.csv書籍?dāng)?shù)據(jù)表4書籍?dāng)?shù)據(jù)格式數(shù)據(jù)類型數(shù)據(jù)格式書籍文檔.docx、.pdf、.epub數(shù)據(jù)命名原則數(shù)據(jù)文件命名宜按照“數(shù)據(jù)類型+16char字符進(jìn)行存5YYYY-MD-Number1。XXXXXXXX-XXXX-XXXXXXXX 數(shù)據(jù)文件命名代碼數(shù)據(jù)編號(hào)數(shù)據(jù)類型1命名編碼規(guī)則表5數(shù)據(jù)類型編碼對(duì)照表數(shù)據(jù)類型數(shù)據(jù)編碼平面數(shù)據(jù)PMSJ文本數(shù)據(jù)WBSJ表格數(shù)據(jù)BGSJ書籍?dāng)?shù)據(jù)SJSJ圖片類書籍?dāng)?shù)據(jù)入庫(kù)流程入庫(kù)流程圖片類書籍?dāng)?shù)據(jù)的入庫(kù)流程包括文化素材數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)類型與質(zhì)量校驗(yàn)、數(shù)據(jù)修改與優(yōu)化,以及最終的數(shù)據(jù)錄入。入庫(kù)流程旨在確保圖片類書籍?dāng)?shù)據(jù)符合文化素材庫(kù)的數(shù)據(jù)管理規(guī)范,具體流程如圖2所示。文化素材數(shù)據(jù)準(zhǔn)備文化素材數(shù)據(jù)準(zhǔn)備修改入庫(kù)前類型校驗(yàn)N合格Y入庫(kù)前質(zhì)量校驗(yàn)N合格Y數(shù)據(jù)錄入2圖片類書籍?dāng)?shù)據(jù)入庫(kù)流程文化素材數(shù)據(jù)準(zhǔn)備文化素材數(shù)據(jù)準(zhǔn)備包括以下步驟:素材數(shù)據(jù)采集:從圖片類書籍中提取與內(nèi)容相關(guān)的圖片、文字、表格等數(shù)據(jù),確保素材完整性;數(shù)據(jù)整理與清洗:按照中華文化素材庫(kù)的設(shè)計(jì)要求,對(duì)采集的素材數(shù)據(jù)進(jìn)行清理,包括刪除重復(fù)數(shù)據(jù)條目,避免冗余存儲(chǔ);填補(bǔ)缺失值,確保數(shù)據(jù)的完整性;糾正異常值,確保數(shù)據(jù)的準(zhǔn)確性與一致性等步驟;數(shù)據(jù)分類:根據(jù)圖片類書籍?dāng)?shù)據(jù)的屬性特征,將數(shù)據(jù)初步劃分為平面數(shù)據(jù)、文本數(shù)據(jù)、表格數(shù)據(jù)等類別,以便后續(xù)處理。入庫(kù)前類型校驗(yàn)在素材數(shù)據(jù)入庫(kù)前,需進(jìn)行嚴(yán)格的數(shù)據(jù)類型校驗(yàn),具體包括:數(shù)據(jù)類型驗(yàn)證:依據(jù)素材的預(yù)期用途,對(duì)數(shù)據(jù)的格式和類型進(jìn)行校驗(yàn),確保其符合數(shù)據(jù)庫(kù)4.2的相關(guān)內(nèi)容;不匹配數(shù)據(jù)處理:對(duì)于不符合類型規(guī)范的素材數(shù)據(jù),進(jìn)行必要的轉(zhuǎn)換與調(diào)整,確保數(shù)據(jù)類型與標(biāo)準(zhǔn)一致;數(shù)據(jù)類型確認(rèn):校驗(yàn)無誤后,確認(rèn)素材數(shù)據(jù)的最終類型,以確保數(shù)據(jù)分類與數(shù)據(jù)庫(kù)需求一致。入庫(kù)前質(zhì)量校驗(yàn)入庫(kù)前的質(zhì)量校驗(yàn)旨在確保素材數(shù)據(jù)符合質(zhì)量要求,具體步驟包括:5.1.2的校驗(yàn)結(jié)果,明確數(shù)據(jù)的類型屬性;質(zhì)量校驗(yàn)內(nèi)容確定:按照素材數(shù)據(jù)的類型,制定具體的質(zhì)量校驗(yàn)標(biāo)準(zhǔn),如平面數(shù)據(jù)的分辨6;通過質(zhì)量校驗(yàn)的數(shù)據(jù)進(jìn)入后續(xù)流程。數(shù)據(jù)修改數(shù)據(jù)修改是對(duì)未通過質(zhì)量校驗(yàn)的素材數(shù)據(jù)進(jìn)行優(yōu)化和調(diào)整的關(guān)鍵步驟,具體包括以下內(nèi)容:?jiǎn)栴}定位與修正:識(shí)別數(shù)據(jù)中存在的具體問題(如圖像分辨率不足、文本內(nèi)容不完整或表格字段缺失),并依據(jù)質(zhì)量標(biāo)準(zhǔn)進(jìn)行修正或補(bǔ)充;一致性檢查:確保修改后的數(shù)據(jù)在格式、內(nèi)容和結(jié)構(gòu)上與數(shù)據(jù)庫(kù)要求保持一致,例如統(tǒng)一命名規(guī)則、字符編碼和字段順序等;記錄與復(fù)核:對(duì)修改過程及結(jié)果進(jìn)行記錄,并進(jìn)行二次校驗(yàn),確保所有調(diào)整后的數(shù)據(jù)符合入庫(kù)質(zhì)量要求。數(shù)據(jù)錄入經(jīng)過類型校驗(yàn)、質(zhì)量校驗(yàn)和數(shù)據(jù)修改的圖片類書籍素材數(shù)據(jù),可進(jìn)行正式錄入,具體要求包括:錄入數(shù)據(jù)標(biāo)準(zhǔn)化:按照平面數(shù)據(jù)、文本數(shù)據(jù)、表格數(shù)據(jù)的分類,分別存儲(chǔ),并關(guān)聯(lián)其原始書籍;錄入元數(shù)據(jù)生成:生成包括數(shù)據(jù)標(biāo)識(shí)符、格式、存儲(chǔ)地址等在內(nèi)的標(biāo)準(zhǔn)元數(shù)據(jù),元數(shù)據(jù)規(guī)7;數(shù)據(jù)存儲(chǔ)與備案:將錄入數(shù)據(jù)上傳至指定的存儲(chǔ)地址,并備案其入庫(kù)時(shí)間、修改記錄和版本信息,以便后續(xù)管理和追溯。數(shù)據(jù)要求平面數(shù)據(jù)6平面數(shù)據(jù)質(zhì)量要求級(jí)別峰值信噪比(PSNR)信號(hào)失真率結(jié)構(gòu)相似度(SSIM)高質(zhì)量圖像≥30dB≥0.8≥0.85中等質(zhì)量圖像≥20dB且<30dB≥0.5且<0.8≥0.6且<0.85低質(zhì)量圖像<20dB<0.5<0.6文本數(shù)據(jù)
7文本數(shù)據(jù)質(zhì)量要求級(jí)別缺失數(shù)據(jù)比率一致性檢驗(yàn)通過率平均誤差率高<5%≥99%<5%一般≥5%且<10%≥95%且<99%≥5%且<10%差≥10%<95%≥10%表格數(shù)據(jù)
8表格數(shù)據(jù)質(zhì)量要求級(jí)別缺失數(shù)據(jù)比率單元格完整率表格格式一致性數(shù)據(jù)準(zhǔn)確率高<5%≥98%≥95%≥99%一般≥5%且<10%≥95%且<98%≥90%且<95%≥95%且<99%差≥10%<95%<90%<95%書籍?dāng)?shù)據(jù)9表格數(shù)據(jù)質(zhì)量要求級(jí)別缺失數(shù)據(jù)比率元數(shù)據(jù)完整率格式一致性O(shè)CR識(shí)別準(zhǔn)確率高<3%≥98%≥95%≥99%一般≥3%且<7%≥95%且<98%≥90%且<95%≥95%且<99%差≥7%<95%<90%<95%數(shù)據(jù)屬性要求屬性基本要求數(shù)據(jù)屬性的基本要求是:a)每個(gè)數(shù)據(jù)體應(yīng)包含完整的屬性信息,確??勺匪菪耘c準(zhǔn)確性。詳細(xì)屬性信息要求見7.2。b)數(shù)據(jù)體樣本編號(hào)符合本標(biāo)準(zhǔn)定義,詳細(xì)定義見4.3。c)數(shù)據(jù)類型需匹配相應(yīng)的入庫(kù)格式(如圖像、文本等),并符合4.2提出的具體數(shù)據(jù)格式屬性數(shù)據(jù)結(jié)構(gòu)要求屬性結(jié)構(gòu)應(yīng)滿足表10、表11、表12、表13要求,如下表所示。10平面數(shù)據(jù)屬性結(jié)構(gòu)表設(shè)計(jì)序號(hào)字段名稱數(shù)據(jù)類型字段長(zhǎng)度必填1名稱字符串300是2文化數(shù)據(jù)標(biāo)識(shí)符字符串100是3來源書籍標(biāo)識(shí)符字符串100是4來源書籍名稱字符串300是5描述字符串400是6服務(wù)類型字符串100自動(dòng)獲取7貢獻(xiàn)者字符串300是8著作權(quán)人字符串100是9載體受控詞100是10登記者字符串100自動(dòng)獲取11登記日期日期100自動(dòng)獲取12標(biāo)簽字符串100否13文件大小字符串100自動(dòng)獲取14格式字符串100自動(dòng)獲取15存儲(chǔ)地址字符串100自動(dòng)獲取16分辨率字符串100自動(dòng)獲取17文件MD5字符串100自動(dòng)獲取18版權(quán)登記號(hào)字符串100否19版權(quán)歸屬字符串100否20版權(quán)開始時(shí)間日期100否21版權(quán)結(jié)束時(shí)間日期100否文本數(shù)據(jù)屬性結(jié)構(gòu)要求如下表所示。表11文本數(shù)據(jù)屬性結(jié)構(gòu)表設(shè)計(jì)序號(hào)字段名稱數(shù)據(jù)類型字段長(zhǎng)度必填1名稱字符串300是2文化數(shù)據(jù)標(biāo)識(shí)符字符串100是3來源書籍標(biāo)識(shí)符字符串100是4來源書籍名稱字符串300是5描述字符串2000是6服務(wù)類型字符串100自動(dòng)獲取7貢獻(xiàn)者字符串300是8著作權(quán)人字符串100是9載體受控詞100是10登記者字符串100自動(dòng)獲取11登記日期日期100自動(dòng)獲取12標(biāo)簽字符串100否13文件大小字符串100自動(dòng)獲取14格式字符串100自動(dòng)獲取15語種受控詞100是16存儲(chǔ)地址字符串100自動(dòng)獲取17文件MD5字符串100自動(dòng)獲取18版權(quán)登記號(hào)字符串100否19版權(quán)歸屬字符串100否20版權(quán)開始時(shí)間日期100否21版權(quán)結(jié)束時(shí)間日期100否表格數(shù)據(jù)屬性結(jié)構(gòu)要求如下表所示。12表格數(shù)據(jù)屬性結(jié)構(gòu)表設(shè)計(jì)序號(hào)字段名稱數(shù)據(jù)類型字段長(zhǎng)度必填1名稱字符串300是2文化數(shù)據(jù)標(biāo)識(shí)符字符串100是3來源書籍標(biāo)識(shí)符字符串100是4來源書籍名稱字符串300是5描述字符串400是6服務(wù)類型字符串100自動(dòng)獲取7貢獻(xiàn)者字符串300是8著作權(quán)人字符串100是9載體受控詞100是10登記者字符串100自動(dòng)獲取11登記日期日期100自動(dòng)獲取12版本受控詞100是13文件大小字符串100自動(dòng)獲取14格式字符串100自動(dòng)獲取15存儲(chǔ)地址字符串100自動(dòng)獲取16文件MD5字符串100自動(dòng)獲取17版權(quán)登記號(hào)字符串100否18版權(quán)歸屬字符串100否19版權(quán)開始時(shí)間日期100否20版權(quán)結(jié)束時(shí)間日期100否書籍?dāng)?shù)據(jù)屬性結(jié)構(gòu)要求如下表所示。13書籍?dāng)?shù)據(jù)屬
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 石家莊試卷小學(xué)英語
- 語文-福建省龍巖市2025年高中畢業(yè)班三月教學(xué)質(zhì)量檢測(cè)(龍巖一檢)試題和答案
- 盤錦水洗石施工方案
- 綠化駁岸施工方案
- 紅外報(bào)警系統(tǒng)施工方案
- 2025年蒙氏數(shù)學(xué)區(qū)別上下標(biāo)準(zhǔn)教案
- 2025屆山東省泰安市肥城市中考適應(yīng)性考試生物試題含解析
- 取消銷售合同范本
- 合伙餐飲合同范例多人
- 2013版裝修合同范例
- 創(chuàng)新者的窘境課件
- 小紅書代運(yùn)營(yíng)推廣合作協(xié)議(模板)
- 無圍標(biāo)、串標(biāo)行為承諾書
- 第三次全國(guó)國(guó)土調(diào)查土地分類
- 商業(yè)秘密及內(nèi)部事項(xiàng)保密管理辦法
- 發(fā)展?jié)h語初級(jí)綜合1電子版
- 某鐵路注漿處理工藝性試驗(yàn)方案
- 軟件工程?hào)|北大學(xué)信息科學(xué)與工程學(xué)院課件
- 電力電子技術(shù)課后習(xí)題答案
- 文化研究會(huì)章程
- 市政道路工程監(jiān)理大綱范本完整
評(píng)論
0/150
提交評(píng)論