CESA-2020-4-004《信息技術(shù) 電子文檔語義元數(shù)據(jù)嵌入規(guī)范》團體標準(征求意見稿)編制說明_第1頁
CESA-2020-4-004《信息技術(shù) 電子文檔語義元數(shù)據(jù)嵌入規(guī)范》團體標準(征求意見稿)編制說明_第2頁
CESA-2020-4-004《信息技術(shù) 電子文檔語義元數(shù)據(jù)嵌入規(guī)范》團體標準(征求意見稿)編制說明_第3頁
CESA-2020-4-004《信息技術(shù) 電子文檔語義元數(shù)據(jù)嵌入規(guī)范》團體標準(征求意見稿)編制說明_第4頁
CESA-2020-4-004《信息技術(shù) 電子文檔語義元數(shù)據(jù)嵌入規(guī)范》團體標準(征求意見稿)編制說明_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

中國電子工業(yè)標準化技術(shù)協(xié)會

一、工作簡況

項目來源:

根據(jù)國家標準化管理委員會2020年9月下達的團體標準立項計劃,北京信息

科技大學(xué)、中國電子技術(shù)標準化研究院等單位組成的國家電子文件管理與推進聯(lián)

盟數(shù)字出版標準工作組共同承擔(dān)《信息技術(shù)電子文檔語義元數(shù)據(jù)嵌入規(guī)范》(項

目編號:CESA-2020-4-004)團體標準的制定工作。本標準由中國電子技術(shù)標準

化研究院、中國電子工業(yè)標準化技術(shù)協(xié)會提出并歸口。

本標準起草單位:北京信息科技大學(xué)、中國電子技術(shù)標準化研究院、永中軟

件股份有限公司、北京安信天元科技發(fā)展有限公司、百望股份有限公司、北京方

正阿帕比技術(shù)有限公司、北京大學(xué)、北京數(shù)科網(wǎng)維技術(shù)有限責(zé)任公司、福建福昕

軟件開發(fā)股份有限公司、北京金山辦公軟件股份有限公司、福昕鯤鵬(北京)信

息科技有限公司、方正國際軟件(北京)有限公司、北京愛知之星科技股份有限

公司、北京新云勝科技有限公司。

本標準主要起草人:李寧、王長勝、田英愛、陳亞軍、趙引華、馮輝、黃肖

俊、崔曉瑜、劉丹、張釋元、孫洪橋、陳祖家、趙歡、李新冬、張治、李平立、

白雪冬、馮華新。

主要工作過程:

2019年8月,由北京信息科技大學(xué)初步形成標準草案的技術(shù)路線和總體方案

框架,各成員單位共同討論其中的問題。

2019年10月,根據(jù)前一次工作組會議討論內(nèi)容,修改標準草案;并進一步確

定標準草案中的細節(jié)問題。

2020年3月,進一步修改標準草案,完成術(shù)語定義及縮略語、語義元數(shù)據(jù)描

述框架、語義元數(shù)據(jù)、語義元數(shù)據(jù)嵌入方式以及語義元數(shù)據(jù)嵌入實現(xiàn)指南等標準

主要部分。

2020年9月,標準編制組就標準的使用場景、編寫目的、用戶、語義元數(shù)據(jù)

的范圍、語義關(guān)聯(lián)的實現(xiàn)策略,是否應(yīng)該保留關(guān)鍵字頻統(tǒng)計結(jié)果等問題進行討論;

中國電子工業(yè)標準化技術(shù)協(xié)會

根據(jù)編制組意見修改草案文本,形成征求意見稿,并由中電標協(xié)通過網(wǎng)站發(fā)布,

各個成員單位負責(zé)收集工作組外單位的標準修改建議,以進一步形成征求意見

稿。

2020年9月,形成《信息技術(shù)電子文檔語義元數(shù)據(jù)嵌入規(guī)范》標準草案,召

開標準立項評審會。

2021年1月,根據(jù)專家的建議完善標準草案。

二、標準編制原則和確定主要內(nèi)容的論據(jù)及解決的主要問題

標準編制原則

本標準按照GB/T1.1—2020《標準化工作導(dǎo)則第1部分:標準化文件的結(jié)構(gòu)

和起草規(guī)則》的規(guī)定起草。

標準主要內(nèi)容的論據(jù)

本標準規(guī)定了在基于XML的電子文檔中嵌入語義元數(shù)據(jù)的方法,便于機器識

別在電子文檔中記錄和標注語義元數(shù)據(jù),用于文檔的高效檢索和信息提取等智能

化處理。本標準適用電子文檔系統(tǒng)的開發(fā)者與使用者。

標準主要內(nèi)容包括:術(shù)語定義及縮略語、語義元數(shù)據(jù)描述框架、語義元數(shù)據(jù)、

語義元數(shù)據(jù)嵌入方式以及語義元數(shù)據(jù)嵌入實現(xiàn)指南等方面內(nèi)容。可以支持記錄關(guān)

鍵詞詞頻、編輯時間、摘要以及命名實體標注等。

解決的主要問題

以辦公文檔代表的流式文檔和以電子公文代表的固定版式文檔都是重要的

信息資源,富含大量寶貴的語義信息,可以供各類文檔用戶利用。但是目前尚未

有簡單的辦法獲得這些文檔中的語義信息。如果需要獲得這些語義信息,需要通

過多種自然語言處理工具對文檔數(shù)據(jù)進行分析、挖掘,最后提取出信息。一方面,

一份文檔的所有用戶為了這個目的,都要進行復(fù)雜的語義提取工作,會浪費大量

的人力和計算資源;另一方面,這些語義信息未必是作者要表達的初衷,通過自

然語言提取的信息很多是不準確的。

本標準擬通過制定元數(shù)據(jù)規(guī)范,能夠準確地記錄文檔生存周期中積累的語義

信息以及作者和文檔使用者提供的語義信息,便于文檔語義信息的共享和高效利

用,為文檔分類、信息檢索、文檔推薦、信息提取、自動摘要、文檔理解、格式

優(yōu)化、文檔評估等任務(wù)打好基礎(chǔ)。

中國電子工業(yè)標準化技術(shù)協(xié)會

三、主要試驗[或驗證]情況分析

本標準在北京信息科技大學(xué)等單位開展了試驗驗證工作。經(jīng)過分析,認為該

標準有較好的可行性,能夠滿足文檔語義元數(shù)據(jù)標注和交換的一般需要。

今后將開展標準的推廣應(yīng)用工作,并擬在辦公軟件、文檔信息處理行業(yè)開展

標準的推廣應(yīng)用工作。

四、知識產(chǎn)權(quán)情況說明

本標準尚未發(fā)現(xiàn)知識產(chǎn)權(quán)方面沖突。

五、產(chǎn)業(yè)化情況、推廣應(yīng)用論證和預(yù)期達到的經(jīng)濟效果

辦公文檔代表的流式文檔和以電子公文代表的固定版式文檔都是重要的信

息資源,富含大量寶貴的語義信息,可以供各類文檔用戶利用。本標準擬通過制

定元數(shù)據(jù)規(guī)范,能夠準確地記錄文檔生存周期中積累的語義信息以及作者和文檔

使用者提供的語義信息,便于文檔語義信息的共享和高效利用,為文檔分類、信

息檢索、文檔推薦、信息提取、自動摘要、文檔理解、格式優(yōu)化、文檔評估等任

務(wù)打好基礎(chǔ)。

六、轉(zhuǎn)化國際標準和國外先進標準情況

由于不存在類似的國際標準,本標準采用自主制定的技術(shù)路線。本標準編制

組成員在ISO/IECJTC1SC34中提出了相應(yīng)的提案,并獲得通過。在2020年的SC34

全會上,成立了第9工作組,專門開展文檔語義元數(shù)據(jù)支持的標準制定工作,我

國代表擔(dān)任標準的主編。

七、與現(xiàn)行相關(guān)法律、法規(guī)、規(guī)章及相關(guān)標準的協(xié)調(diào)性

符合我國有關(guān)的現(xiàn)行法律、法規(guī)。與相關(guān)標準相協(xié)調(diào)。

中國電子工業(yè)標準化技術(shù)協(xié)會

八、重大分歧意見的處理經(jīng)過和依據(jù)

無。

九、貫徹標準的要求和措施建議

建議發(fā)布為推薦性標準。

十、替代或廢止現(xiàn)行相關(guān)標準的建議

無。

十一、其它應(yīng)予說明的事項

無。

團體標準《信息技術(shù)電子文檔語義元數(shù)據(jù)嵌入規(guī)范》標準編制起草組

(電子文件管理與推進聯(lián)盟數(shù)字出版標準工作組)

2021-08-11

中國電子工業(yè)標準化技術(shù)協(xié)會

一、工作簡況

項目來源:

根據(jù)國家標準化管理委員會2020年9月下達的團體標準立項計劃,北京信息

科技大學(xué)、中國電子技術(shù)標準化研究院等單位組成的國家電子文件管理與推進聯(lián)

盟數(shù)字出版標準工作組共同承擔(dān)《信息技術(shù)電子文檔語義元數(shù)據(jù)嵌入規(guī)范》(項

目編號:CESA-2020-4-004)團體標準的制定工作。本標準由中國電子技術(shù)標準

化研究院、中國電子工業(yè)標準化技術(shù)協(xié)會提出并歸口。

本標準起草單位:北京信息科技大學(xué)、中國電子技術(shù)標準化研究院、永中軟

件股份有限公司、北京安信天元科技發(fā)展有限公司、百望股份有限公司、北京方

正阿帕比技術(shù)有限公司、北京大學(xué)、北京數(shù)科網(wǎng)維技術(shù)有限責(zé)任公司、福建福昕

軟件開發(fā)股份有限公司、北京金山辦公軟件股份有限公司、福昕鯤鵬(北京)信

息科技有限公司、方正國際軟件(北京)有限公司、北京愛知之星科技股份有限

公司、北京新云勝科技有限公司。

本標準主要起草人:李寧、王長勝、田英愛、陳亞軍、趙引華、馮輝、黃肖

俊、崔曉瑜、劉丹、張釋元、孫洪橋、陳祖家、趙歡、李新冬、張治、李平立、

白雪冬、馮華新。

主要工作過程:

2019年8月,由北京信息科技大學(xué)初步形成標準草案的技術(shù)路線和總體方案

框架,各成員單位共同討論其中的問題。

2019年10月,根據(jù)前一次工作組會議討論內(nèi)容,修改標準草案;并進一步確

定標準草案中的細節(jié)問題。

2020年3月,進一步修改標準草案,完成術(shù)語定義及縮略語、語義元數(shù)據(jù)描

述框架、語義元數(shù)據(jù)、語義元數(shù)據(jù)嵌入方式以及語義元數(shù)據(jù)嵌入實現(xiàn)指南等標準

主要部分。

2020年9月,標準編制組就標準的使用場景、編寫目的、用戶、語義元數(shù)據(jù)

的范圍、語義關(guān)聯(lián)的實現(xiàn)策略,是否應(yīng)該保留關(guān)鍵字頻統(tǒng)計結(jié)果等問題進行討論;

中國電子工業(yè)標準化技術(shù)協(xié)會

根據(jù)編制組意見修改草案文本,形成征求意見稿,并由中電標協(xié)通過網(wǎng)站發(fā)布,

各個成員單位負責(zé)收集工作組外單位的標準修改建議,以進一步形成征求意見

稿。

2020年9月,形成《信息技術(shù)電子文檔語義元數(shù)據(jù)嵌入規(guī)范》標準草案,召

開標準立項評審會。

2021年1月,根據(jù)專家的建議完善標準草案。

二、標準編制原則和確定主要內(nèi)容的論據(jù)及解決的主要問題

標準編制原則

本標準按照GB/T1.1—2020《標準化工作導(dǎo)則第1部分:標準化文件的結(jié)構(gòu)

和起草規(guī)則》的規(guī)定起草。

標準主要內(nèi)容的論據(jù)

本標準規(guī)定了在基于XML的電子文檔中嵌入語義元數(shù)據(jù)的方法,便于機器識

別在電子文檔中記錄和標注語義元數(shù)據(jù),用于文檔的高效檢索和信息提取等智能

化處理。本標準適用電子文檔系統(tǒng)的開發(fā)者與使用者。

標準主要內(nèi)容包括:術(shù)語定義及縮略語、語義元數(shù)據(jù)描述框架、語義元數(shù)據(jù)、

語義元數(shù)據(jù)嵌入方式以及語義元數(shù)據(jù)嵌入實現(xiàn)指南等方面內(nèi)容??梢灾С钟涗涥P(guān)

鍵詞詞頻、編輯時間、摘要以及命名實體標注等。

解決的主要問題

以辦公文檔代表的流式文檔和以電子公文代表的固定版式文檔都是重要的

信息資源,富含大量寶貴的語義信息,可以供各類文檔用戶利用。但是目前尚未

有簡單的辦法獲得這些文檔中的語義信息。如果需要獲得這些語義信息,需要通

過多種自然語言處理工具對文檔數(shù)據(jù)進行分析、挖掘,最后提取出信息。一方面,

一份文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論