![《電力人工智能訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)》標(biāo)準(zhǔn)_第1頁(yè)](http://file4.renrendoc.com/view2/M00/30/19/wKhkFmYd0KqAU79oAAC9hs2tUWY465.jpg)
![《電力人工智能訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)》標(biāo)準(zhǔn)_第2頁(yè)](http://file4.renrendoc.com/view2/M00/30/19/wKhkFmYd0KqAU79oAAC9hs2tUWY4652.jpg)
![《電力人工智能訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)》標(biāo)準(zhǔn)_第3頁(yè)](http://file4.renrendoc.com/view2/M00/30/19/wKhkFmYd0KqAU79oAAC9hs2tUWY4653.jpg)
![《電力人工智能訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)》標(biāo)準(zhǔn)_第4頁(yè)](http://file4.renrendoc.com/view2/M00/30/19/wKhkFmYd0KqAU79oAAC9hs2tUWY4654.jpg)
![《電力人工智能訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)》標(biāo)準(zhǔn)_第5頁(yè)](http://file4.renrendoc.com/view2/M00/30/19/wKhkFmYd0KqAU79oAAC9hs2tUWY4655.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
T/CEC
中國(guó)電力企業(yè)聯(lián)合會(huì)標(biāo)準(zhǔn)
T/CEC2022-1139
電力人工智能訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)
(征求意見(jiàn)稿)
20XX—XX—XX發(fā)布20XX—XX—XX實(shí)施
中國(guó)電力企業(yè)聯(lián)合會(huì)發(fā)布
T/CEC
前言
本文件按照GB/T1.1-2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起
草。
請(qǐng)注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別這些專利的責(zé)任。
本文件由中國(guó)電力企業(yè)聯(lián)合會(huì)提出。
本文件由***技術(shù)委員會(huì)歸口。
本文件起草單位:南方電網(wǎng)數(shù)字電網(wǎng)研究院有限公司
本文件主要起草人:
本文件首次發(fā)布。
本文件在執(zhí)行過(guò)程中的意見(jiàn)或建議反饋至中國(guó)電力企業(yè)聯(lián)合會(huì)標(biāo)準(zhǔn)化管理中心(北京市白廣路二條
一號(hào),100761)
II
T/CEC
電力人工智能訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)
1范圍
人工智能圖像、語(yǔ)音訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)明確了電力企業(yè)人工智能訓(xùn)練數(shù)據(jù)標(biāo)注工作涉及的數(shù)據(jù)收
集整理、標(biāo)注環(huán)境及工具選用、標(biāo)注任務(wù)執(zhí)行、標(biāo)注結(jié)果質(zhì)量控制、標(biāo)注結(jié)果交付等技術(shù)要求。
本標(biāo)準(zhǔn)適用于電力業(yè)務(wù)場(chǎng)景下的人工智能訓(xùn)練數(shù)據(jù)集歸集。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T38318-2019《電力監(jiān)控系統(tǒng)網(wǎng)絡(luò)安全評(píng)估指南》
GB/T15237.1《術(shù)語(yǔ)工作詞匯第1部分:理論與應(yīng)用》
GB/T5271.1《信息技術(shù)詞匯第1部分:基本術(shù)語(yǔ)》
GB/T5271.28《信息技術(shù)詞匯第28部分:人工智能基本概念與專家系統(tǒng)》
GB/T5271.29《信息技術(shù)詞匯第29部分:人工智能語(yǔ)音識(shí)別與合成》
GB/T5271.31《信息技術(shù)詞匯第31部分:人工智能機(jī)器學(xué)習(xí)》
GB/T5271.34《信息技術(shù)詞匯第34部分:人工智能神經(jīng)網(wǎng)絡(luò)》
3術(shù)語(yǔ)和定義
下列術(shù)語(yǔ)和定義適用于本文件。
3.1
智能組件intelligentcomponent
智能組件是基于人工智能對(duì)數(shù)據(jù)和函數(shù)的封裝。包括調(diào)用API組件、下載的工具組件、SDK組件。
3.2
圖像分類imageclassification
圖像分類通過(guò)手工特征或特征學(xué)習(xí)方法對(duì)整個(gè)圖像進(jìn)行全部描述,然后使用分類器判別物體類別。
3.3
光學(xué)字符識(shí)別opticalcharacterrecognition(OCR)
光學(xué)字符識(shí)別,是指利用深度學(xué)習(xí)技術(shù),將圖片上的文字內(nèi)容,智能識(shí)別成為可編輯的文本。
3.4
語(yǔ)音speech
某一給定自然語(yǔ)言的話音、模式、或模擬這類模式的聲學(xué)信號(hào)。
3.5
語(yǔ)音識(shí)別speechrecognition
通過(guò)功能單元對(duì)人的語(yǔ)音所表示信息的感知與分析。要識(shí)別的信息可以是預(yù)定義的字序列中的一個(gè)
字,或是預(yù)定義的語(yǔ)言中的一個(gè)音素,有時(shí)可通過(guò)說(shuō)話者的聲音特征對(duì)說(shuō)話者進(jìn)行標(biāo)識(shí)。
3.6
1
T/CEC
數(shù)據(jù)標(biāo)注dataannotation
對(duì)文本、圖像、語(yǔ)音、視頻等待標(biāo)注數(shù)據(jù)進(jìn)行歸類、整理、編輯、糾錯(cuò)、標(biāo)記和批注等操作,為待
標(biāo)注數(shù)據(jù)增加標(biāo)簽,生成滿足機(jī)器學(xué)習(xí)訓(xùn)練要求的機(jī)器可讀數(shù)據(jù)編碼。
3.7
標(biāo)簽label
標(biāo)識(shí)數(shù)據(jù)的特征、類別和屬性等,可用于建立數(shù)據(jù)及機(jī)器學(xué)習(xí)訓(xùn)練要求所定義的機(jī)器可讀數(shù)據(jù)編碼
間的聯(lián)系。
3.8
標(biāo)注任務(wù)annotationtask
按照數(shù)據(jù)標(biāo)注規(guī)范對(duì)指定數(shù)據(jù)集進(jìn)行標(biāo)注的過(guò)程。
3.9
標(biāo)注工具annotationtool
數(shù)據(jù)標(biāo)注員完成標(biāo)注任務(wù)產(chǎn)生標(biāo)注結(jié)果時(shí)所需的工具和軟件。標(biāo)注工具可生成標(biāo)簽并提供參考模板。
不同的數(shù)據(jù)類型和標(biāo)注任務(wù)需要不同的標(biāo)注工具。標(biāo)注工具按自動(dòng)化程度可分為全人工標(biāo)注、半自動(dòng)標(biāo)
注。
3.10
標(biāo)注平臺(tái)annotationplatform
開(kāi)展標(biāo)注任務(wù)的系統(tǒng)化框架。標(biāo)注平臺(tái)在包含標(biāo)注工具全部功能的基礎(chǔ)上將所有標(biāo)注環(huán)節(jié)工具化,
可有效地對(duì)標(biāo)注任務(wù)進(jìn)行全局管理和跟蹤。
3.11
標(biāo)注描述說(shuō)明annotationinstruction
數(shù)據(jù)需求方用于明確標(biāo)注任務(wù)和標(biāo)注數(shù)據(jù)的書面陳述,包含執(zhí)行標(biāo)注任務(wù)所需的標(biāo)注工具、任務(wù)描
述、標(biāo)注方法、正確示例、常見(jiàn)錯(cuò)誤等內(nèi)容。
3.12
標(biāo)注方法annotationmethod
定義數(shù)據(jù)標(biāo)注員進(jìn)行數(shù)據(jù)標(biāo)注時(shí)的環(huán)境和流程,應(yīng)包含標(biāo)注對(duì)象定義、所用標(biāo)注工具和標(biāo)注平臺(tái)、
標(biāo)注格式、標(biāo)注前的準(zhǔn)備工作、標(biāo)注后的處理工作等。
3.13
全人工標(biāo)注full-manualannotation
指完全依靠人力對(duì)全部待標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注。
3.14
半自動(dòng)標(biāo)注semi-automaticannotation
使用人工結(jié)合自動(dòng)化工具或訓(xùn)練模型的方式進(jìn)行數(shù)據(jù)標(biāo)注。
3.15
結(jié)果文件resultfile
指待標(biāo)注數(shù)據(jù)在完成標(biāo)注工作后產(chǎn)生帶有標(biāo)簽信息的文件。
3.16
2
T/CEC
數(shù)據(jù)標(biāo)注員datalabeler
負(fù)責(zé)對(duì)文本、圖像、語(yǔ)音、視頻等待標(biāo)注數(shù)據(jù)進(jìn)行歸類、整理、編輯、糾錯(cuò)、標(biāo)記和批注等操作的
工作人員。
4標(biāo)注任務(wù)技術(shù)說(shuō)明文件要求
在進(jìn)行相關(guān)機(jī)器學(xué)習(xí)數(shù)據(jù)標(biāo)注任務(wù)前,應(yīng)明確本次標(biāo)注工作的技術(shù)標(biāo)準(zhǔn),生成詳細(xì)的技術(shù)說(shuō)明文件。
標(biāo)注任務(wù)的技術(shù)說(shuō)明文件應(yīng)包含本次描述文件的版本信息、標(biāo)注工作的任務(wù)背景、標(biāo)注數(shù)據(jù)的應(yīng)用場(chǎng)景、
標(biāo)注數(shù)據(jù)的類型、標(biāo)注方式、導(dǎo)入導(dǎo)出格式、標(biāo)注結(jié)果格式、標(biāo)注結(jié)果可選值、標(biāo)注工作的實(shí)施環(huán)境、
數(shù)據(jù)保密規(guī)則、標(biāo)注的正確示例、標(biāo)注的錯(cuò)誤示例以及術(shù)語(yǔ)體系規(guī)范化要求。
(1)版本信息
描述說(shuō)明文件應(yīng)詳細(xì)記錄說(shuō)明文件當(dāng)前的版本、編輯時(shí)間、通過(guò)審批時(shí)間、修訂時(shí)間等。
(2)工作背景
概括性描述本次任務(wù)的產(chǎn)生原因、標(biāo)注數(shù)據(jù)的來(lái)源等。
(3)數(shù)據(jù)應(yīng)用場(chǎng)景
概括性描述本次數(shù)據(jù)標(biāo)注完成后的應(yīng)用方式或應(yīng)用場(chǎng)景。
(4)數(shù)據(jù)類型
確定本次標(biāo)注數(shù)據(jù)的數(shù)據(jù)類型如圖片、文字、語(yǔ)音、視頻等,提供數(shù)據(jù)類型展示實(shí)例。
(5)標(biāo)注方式
明確本次采用全人工或半人工方式進(jìn)行標(biāo)注并確定需要使用的工具。
(6)導(dǎo)入導(dǎo)出格式
應(yīng)明確提出本次待標(biāo)注數(shù)據(jù)導(dǎo)入或?qū)С鰳?biāo)注工具的格式。
(7)標(biāo)注結(jié)果格式
應(yīng)明確提出本次標(biāo)注結(jié)果輸出格式。
(8)標(biāo)注結(jié)果可選值
如標(biāo)注結(jié)果存在可選值范圍,應(yīng)明確列出。
(9)實(shí)施環(huán)境
描述標(biāo)注工作的實(shí)施環(huán)境,如電力行業(yè)的敏感數(shù)據(jù)應(yīng)在內(nèi)網(wǎng)環(huán)境下進(jìn)行標(biāo)注工作,而非敏感數(shù)據(jù)則
可以到相關(guān)方任何的標(biāo)注環(huán)境中進(jìn)行標(biāo)注。
(10)標(biāo)注正確示例
應(yīng)提供標(biāo)注任務(wù)正確標(biāo)注或有效標(biāo)注的實(shí)例。
(11)標(biāo)注錯(cuò)誤示例
應(yīng)提供標(biāo)注任務(wù)錯(cuò)誤標(biāo)注或無(wú)效標(biāo)注的實(shí)例。
(12)數(shù)據(jù)保密規(guī)則
應(yīng)根據(jù)《數(shù)據(jù)資產(chǎn)管理辦法》判定數(shù)據(jù)是否涉密,并根據(jù)規(guī)定對(duì)標(biāo)注數(shù)據(jù)進(jìn)行保護(hù)。
(13)標(biāo)注開(kāi)始時(shí)間
描述本次標(biāo)注任務(wù)的具體開(kāi)始時(shí)間。
(14)期望交付時(shí)間
3
T/CEC
描述本次標(biāo)注任務(wù)的期望交付時(shí)間。
(15)術(shù)語(yǔ)體系規(guī)范化要求
在標(biāo)注過(guò)程中使用的術(shù)語(yǔ)體系需要規(guī)范化,至少應(yīng)滿足下列要求:
1)應(yīng)遵從國(guó)家法規(guī)和行業(yè)規(guī)范。
2)應(yīng)符合企業(yè)內(nèi)部管理規(guī)范及要求。
3)應(yīng)建立統(tǒng)一的標(biāo)注術(shù)語(yǔ)字典,確保數(shù)據(jù)標(biāo)注人員對(duì)術(shù)語(yǔ)定義的理解一致。
4)在學(xué)習(xí)標(biāo)注說(shuō)明規(guī)則及進(jìn)行相應(yīng)的培訓(xùn)后,數(shù)據(jù)標(biāo)注人員能夠規(guī)范地使用標(biāo)注術(shù)語(yǔ)完成任務(wù)。
5)應(yīng)被標(biāo)注任務(wù)的發(fā)布方及相關(guān)方認(rèn)可。
5待標(biāo)注數(shù)據(jù)整理技術(shù)要求
5.1電力業(yè)務(wù)數(shù)據(jù)收集
標(biāo)注數(shù)據(jù)收集工作應(yīng)以業(yè)務(wù)為導(dǎo)向開(kāi)展,主要涉及生產(chǎn)領(lǐng)域圖像、視頻、點(diǎn)云數(shù)據(jù),營(yíng)銷場(chǎng)景語(yǔ)音、
文本等,根據(jù)標(biāo)注任務(wù)的業(yè)務(wù)場(chǎng)景、標(biāo)注樣本或前期經(jīng)驗(yàn)進(jìn)行數(shù)據(jù)收集分析,數(shù)據(jù)收集需明確的要素包
括但不限于類型、量級(jí)、數(shù)據(jù)涉密程度、工作量估算、用途及應(yīng)用場(chǎng)景。
5.1.1類型
應(yīng)明確標(biāo)注數(shù)據(jù)類型如圖像、音頻、文本、視頻等。
5.1.2量級(jí)
本次標(biāo)注任務(wù)待標(biāo)注數(shù)據(jù)的數(shù)量。
5.1.3來(lái)源業(yè)務(wù)系統(tǒng)
本次標(biāo)注任務(wù)數(shù)據(jù)所產(chǎn)生的源業(yè)務(wù)系統(tǒng),一般生產(chǎn)類數(shù)據(jù)來(lái)自電網(wǎng)管理平臺(tái)相關(guān)應(yīng)用系統(tǒng),營(yíng)銷類
數(shù)據(jù)來(lái)自客戶服務(wù)平臺(tái)相關(guān)應(yīng)用系統(tǒng),例如變電站設(shè)備、表計(jì)讀數(shù)圖像來(lái)自變電站智能巡檢系統(tǒng)、95598
語(yǔ)音數(shù)據(jù)來(lái)自95598智能客服系統(tǒng)等。
5.1.4數(shù)據(jù)產(chǎn)生方式
本次標(biāo)注任務(wù)數(shù)據(jù)的產(chǎn)生方式,如客戶來(lái)電錄音、服務(wù)工單等。
5.1.5數(shù)據(jù)文件命名規(guī)則
本次標(biāo)注任務(wù)數(shù)據(jù)文件的命名規(guī)律或規(guī)范說(shuō)明。
5.1.6數(shù)據(jù)保密程度
應(yīng)根據(jù)《數(shù)據(jù)資產(chǎn)管理辦法》判定數(shù)據(jù)是否涉密。
5.1.7用途
確認(rèn)標(biāo)注結(jié)果將作為模型的測(cè)試集或訓(xùn)練集。
5.1.8應(yīng)用場(chǎng)景
確認(rèn)標(biāo)注結(jié)果的應(yīng)用場(chǎng)景如絕緣子的破損檢測(cè)、施工人員人臉識(shí)別、設(shè)備儀表數(shù)值狀態(tài)檢測(cè)等。
5.1.9標(biāo)注領(lǐng)域
應(yīng)明確標(biāo)注領(lǐng)域,如圖片分類、語(yǔ)音識(shí)別、語(yǔ)音匹配等。
5.1.10工作量估算
根據(jù)標(biāo)注數(shù)據(jù)的類型、量級(jí)、用途、標(biāo)注任務(wù)人員來(lái)源、標(biāo)注平臺(tái)、標(biāo)注組件等要素確定本次任務(wù)
工作量。
5.2電力業(yè)務(wù)數(shù)據(jù)整理
4
T/CEC
在進(jìn)行標(biāo)注數(shù)據(jù)整理過(guò)程中,應(yīng)明確數(shù)據(jù)與結(jié)果文件存放目錄結(jié)構(gòu),在任務(wù)分配與回收的時(shí)候按指
定的目錄進(jìn)行數(shù)據(jù)組織,數(shù)據(jù)的整理應(yīng)體現(xiàn)業(yè)務(wù)需求,存放整理后有利于根據(jù)業(yè)務(wù)開(kāi)展后續(xù)工作,例如
生產(chǎn)域不同類型場(chǎng)景分別存放,同樣場(chǎng)景一起存放。
數(shù)據(jù)整理應(yīng)符合以下要求:
(1)文件夾及各級(jí)子目錄名稱首選簡(jiǎn)潔的拼音首字母組合標(biāo)識(shí)。
(2)數(shù)據(jù)整理目錄首選按照類別分類,簡(jiǎn)化目錄級(jí)別。
(3)子目錄等級(jí)最深不超過(guò)4級(jí)。
5.3電力業(yè)務(wù)數(shù)據(jù)文件命名規(guī)則
標(biāo)注任務(wù)的數(shù)據(jù)文件及結(jié)果文件命名規(guī)則應(yīng)符合以下要求:
(1)要標(biāo)注的文件名稱應(yīng)簡(jiǎn)短(最長(zhǎng)不能超過(guò)32個(gè)字符)且只能包含字母、數(shù)字、下劃線、中
間杠。
(2)待標(biāo)注數(shù)據(jù)文件與結(jié)果文件命名應(yīng)進(jìn)行區(qū)分,數(shù)據(jù)文件應(yīng)使用“data_”為前綴,結(jié)果文件應(yīng)
使用“result_”為前綴。
(3)為避免出現(xiàn)標(biāo)注數(shù)據(jù)重名,應(yīng)在基礎(chǔ)文件名后添加唯一標(biāo)識(shí)碼,標(biāo)識(shí)碼生成應(yīng)按十進(jìn)制順序
遞增規(guī)則生成四位數(shù)或以上唯一標(biāo)識(shí)碼,如:000001、000002、000003等等,標(biāo)識(shí)碼具體位數(shù)可根據(jù)
文件數(shù)據(jù)量級(jí)進(jìn)行增加。
6標(biāo)注環(huán)境及工具選用要求
6.1標(biāo)注環(huán)境選擇標(biāo)準(zhǔn)
數(shù)據(jù)標(biāo)注任務(wù)具有一定特殊性,部分企業(yè)內(nèi)部數(shù)據(jù)具有較高保密要求,應(yīng)根據(jù)《數(shù)據(jù)資產(chǎn)管理辦法》
規(guī)定對(duì)標(biāo)注環(huán)境進(jìn)行選擇。
應(yīng)根據(jù)標(biāo)注數(shù)據(jù)不同涉密情況選擇以下環(huán)境進(jìn)行標(biāo)注:
(1)涉密數(shù)據(jù):標(biāo)注工作應(yīng)在可信任的企業(yè)內(nèi)部環(huán)境或任務(wù)發(fā)布方指定的可信任外部環(huán)境下進(jìn)行。
(2)非涉密數(shù)據(jù):標(biāo)注團(tuán)隊(duì)可根據(jù)具體情況選擇標(biāo)注環(huán)境。
6.2標(biāo)注工具選擇標(biāo)準(zhǔn)
在進(jìn)行相關(guān)數(shù)據(jù)標(biāo)注工作過(guò)程中,選擇標(biāo)注工具應(yīng)符合安全性、易操作性、數(shù)據(jù)輸入輸出規(guī)范性、
統(tǒng)一性以及合法性標(biāo)準(zhǔn)。
6.2.1安全性
應(yīng)選用安全可信的標(biāo)注工具進(jìn)行標(biāo)注工作,避免數(shù)據(jù)泄露造成安全事故。
6.2.2易操作性
標(biāo)注工具應(yīng)具有提高標(biāo)注效率的功能,在減少標(biāo)注人員工作量的同時(shí)確保標(biāo)注質(zhì)量。
6.2.3數(shù)據(jù)輸入輸出規(guī)范性
標(biāo)注工具應(yīng)支持導(dǎo)入及導(dǎo)出功能,可導(dǎo)入指定格式的數(shù)據(jù)??蓪?dǎo)出符合要求格式及質(zhì)量要求的數(shù)據(jù)。
6.2.4統(tǒng)一性
標(biāo)注工具應(yīng)優(yōu)先選用企業(yè)統(tǒng)一的人工智能平臺(tái)提供的標(biāo)注工具,若平臺(tái)未包含特定數(shù)據(jù)類型的標(biāo)注
工具,可選用其他標(biāo)注工具進(jìn)行標(biāo)注,但同類型的數(shù)據(jù)標(biāo)注工作應(yīng)優(yōu)先采用同款標(biāo)注工具進(jìn)行標(biāo)示,確
保輸入輸出格式的統(tǒng)一。
6.2.5合法性
標(biāo)注工具或平臺(tái)應(yīng)具備資質(zhì)/資格證書、許可證、版權(quán)等。
7標(biāo)注任務(wù)執(zhí)行技術(shù)要求
7.1標(biāo)注子任務(wù)創(chuàng)建
5
T/CEC
進(jìn)行數(shù)據(jù)標(biāo)注子任務(wù)創(chuàng)建時(shí),應(yīng)按照不同類別或任務(wù)編號(hào)對(duì)標(biāo)注數(shù)據(jù)進(jìn)行整理及劃分,方便標(biāo)注團(tuán)
隊(duì)按自身任務(wù)獲取對(duì)應(yīng)標(biāo)注數(shù)據(jù)。
數(shù)據(jù)標(biāo)注子任務(wù)目標(biāo)說(shuō)明宜采用文件形式進(jìn)行描述,應(yīng)至少包含明確的標(biāo)注任務(wù)信息、標(biāo)注方式指
引以及標(biāo)注結(jié)果存放位置。
7.1.1明確的標(biāo)注任務(wù)信息
包括本次標(biāo)注的主要目標(biāo)、標(biāo)注需求(需要完成的標(biāo)注數(shù)據(jù)量級(jí)、任務(wù)的優(yōu)先級(jí),對(duì)標(biāo)注結(jié)果質(zhì)量
的要求、對(duì)標(biāo)注完成時(shí)間的要求)、任務(wù)描述等。
7.1.2標(biāo)注方式指引
根據(jù)當(dāng)前標(biāo)注數(shù)據(jù)的任務(wù),明確標(biāo)注方式(全人工或半人工)、標(biāo)注工具、標(biāo)注環(huán)境的指引,方便
標(biāo)注人員開(kāi)展標(biāo)注任務(wù)。
7.1.3標(biāo)注結(jié)果存放位置
指定標(biāo)注完成后的結(jié)果存放位置,方便標(biāo)注結(jié)果的收集。
7.2標(biāo)注數(shù)據(jù)移交
進(jìn)行標(biāo)注數(shù)據(jù)移交工作前,應(yīng)先根據(jù)公司《數(shù)據(jù)資產(chǎn)管理辦法》確認(rèn)標(biāo)注數(shù)據(jù)是否涉密再確定數(shù)據(jù)
移交方式。標(biāo)注數(shù)據(jù)的移交工作應(yīng)至少符合以下技術(shù)要求:
7.2.1使用可信存儲(chǔ)設(shè)備
包括使用可信的辦公電腦、安全移動(dòng)硬盤、安全U盤進(jìn)行標(biāo)注文件的轉(zhuǎn)移及提交。
7.2.2使用可信內(nèi)部網(wǎng)絡(luò)
包括使用可信的內(nèi)部網(wǎng)絡(luò)進(jìn)行標(biāo)注數(shù)據(jù)的傳輸、使用安全可信的內(nèi)部溝通工具進(jìn)行文件發(fā)送、使用
可信的軟件平臺(tái)進(jìn)行上傳及下載、使用已加密的共享目錄進(jìn)行數(shù)據(jù)共享。
7.3標(biāo)注任務(wù)分發(fā)
根據(jù)標(biāo)注發(fā)布者確定的要求及任務(wù)描述,應(yīng)按之前的數(shù)據(jù)標(biāo)注子任務(wù)目標(biāo)說(shuō)明把任務(wù)分派給標(biāo)注人
員。標(biāo)注任務(wù)發(fā)布者在進(jìn)行標(biāo)注數(shù)據(jù)分發(fā)時(shí),宜采用文件形式,說(shuō)明宜包括人員數(shù)量、任務(wù)數(shù)量、任務(wù)
節(jié)點(diǎn)、回收時(shí)間、結(jié)束時(shí)間以及標(biāo)注任務(wù)開(kāi)展方式等相關(guān)信息。
7.3.1人員數(shù)量
本次參與標(biāo)注任務(wù)的標(biāo)注人員數(shù)量。
7.3.2任務(wù)數(shù)量
本次任務(wù)主體劃分后的子任務(wù)數(shù)量。
7.3.3任務(wù)節(jié)點(diǎn)
每位數(shù)據(jù)標(biāo)注人員需完成的任務(wù)總數(shù)及每個(gè)時(shí)間節(jié)點(diǎn)要求完成的任務(wù)數(shù)。
7.3.4回收時(shí)間
任務(wù)目標(biāo)回收時(shí)間及最遲回收時(shí)間。
7.3.5結(jié)束時(shí)間
任務(wù)整體結(jié)束時(shí)間。
7.4標(biāo)注任務(wù)開(kāi)展方式
在標(biāo)注任務(wù)開(kāi)展過(guò)程中,標(biāo)注方式分為全人工方式標(biāo)注及半人工方式標(biāo)注兩種方式,選擇的標(biāo)注方
式區(qū)別如下:
7.4.1全人工標(biāo)注
6
T/CEC
全人工標(biāo)注的方式指全部待標(biāo)注的數(shù)據(jù)均由標(biāo)注人員進(jìn)行審核分類及標(biāo)注。
7.4.2半人工標(biāo)注方式
半人工標(biāo)注方式指使用有一定判斷能力訓(xùn)練模型,對(duì)待標(biāo)注數(shù)據(jù)進(jìn)行分類,標(biāo)注人員只對(duì)模型識(shí)別
準(zhǔn)確率較低或無(wú)法進(jìn)行識(shí)別的數(shù)據(jù)進(jìn)行人工識(shí)別。
8結(jié)果質(zhì)量保障技術(shù)要求
8.1結(jié)果質(zhì)量檢查
在標(biāo)注任務(wù)開(kāi)展及回收的過(guò)程中,應(yīng)對(duì)標(biāo)注結(jié)果進(jìn)行質(zhì)量控制以確保最終的標(biāo)注結(jié)果,達(dá)到交付標(biāo)
準(zhǔn)。標(biāo)注結(jié)果的質(zhì)量檢查方法分為按比例抽查和機(jī)器驗(yàn)證。
8.1.1按比例抽查
按本次任務(wù)的準(zhǔn)確度要求情況確定抽樣比例,對(duì)抽樣的標(biāo)注結(jié)果進(jìn)行人工檢查。
8.1.2機(jī)器驗(yàn)證
通過(guò)已訓(xùn)練的模型對(duì)標(biāo)注結(jié)果進(jìn)行檢查,對(duì)于機(jī)器標(biāo)注與人工標(biāo)注有差異的標(biāo)注結(jié)果進(jìn)行人工檢查。
8.2質(zhì)量控制
在標(biāo)注任務(wù)開(kāi)展過(guò)程中,除需要進(jìn)行質(zhì)量檢查外,還需對(duì)標(biāo)注結(jié)果進(jìn)行質(zhì)量控制。質(zhì)量檢查主要針
對(duì)標(biāo)注結(jié)果,而質(zhì)量控制主要面向標(biāo)注過(guò)程,實(shí)時(shí)確保標(biāo)注工作能產(chǎn)生預(yù)期結(jié)果。
標(biāo)注任務(wù)質(zhì)量控制方式可選用多人驗(yàn)證和埋題驗(yàn)證兩種方式進(jìn)行。
8.2.1多人驗(yàn)證
相同任務(wù)安排給不同的標(biāo)注人員,關(guān)注標(biāo)注結(jié)果不一致的情況。
8.2.2埋題驗(yàn)證
預(yù)先在任務(wù)中插入已知結(jié)果的標(biāo)注任務(wù),當(dāng)完成標(biāo)注任務(wù)時(shí)與已知結(jié)果進(jìn)行比對(duì),關(guān)注與已知結(jié)果
不一致的情況。
9結(jié)果交付技術(shù)要求
9.1數(shù)據(jù)標(biāo)注結(jié)果通用技術(shù)要求
標(biāo)注結(jié)果輸出格式應(yīng)使用易閱讀、易解析、易存儲(chǔ)的數(shù)據(jù)格式,格式包括但不限于excel、json
或xml等。輸出的結(jié)果文件應(yīng)包含以下內(nèi)容:
9.1.1標(biāo)簽編號(hào)
每個(gè)標(biāo)注對(duì)象的獨(dú)立編號(hào)。
9.1.2標(biāo)注人員
進(jìn)行該對(duì)象標(biāo)注的標(biāo)注人員信息。
9.1.3標(biāo)注審核人員
進(jìn)行該標(biāo)注結(jié)果審核的人員信息。
9.1.4原始待標(biāo)注文件路徑
待標(biāo)注對(duì)象的名稱或路徑。
9.1.5標(biāo)注結(jié)果文件存放路徑
標(biāo)注完成的結(jié)果存放路徑。
7
T/CEC
9.1.6置信度
標(biāo)簽的置信度。
9.1.7備注
對(duì)該標(biāo)注對(duì)象的補(bǔ)充說(shuō)明信息。
9.2常見(jiàn)數(shù)據(jù)類型標(biāo)注結(jié)果技術(shù)要求
常見(jiàn)數(shù)據(jù)類型包括圖像類型數(shù)據(jù)、文本類型數(shù)據(jù)以及語(yǔ)音類型數(shù)據(jù)。
9.2.1圖像類型數(shù)據(jù)標(biāo)注結(jié)果技術(shù)要求
針對(duì)標(biāo)注任務(wù),進(jìn)行圖像類標(biāo)注任務(wù)時(shí),標(biāo)注結(jié)果應(yīng)包含圖片信息標(biāo)簽及標(biāo)簽的具體圖像范圍與位
置(范圍與位置可用矩形工具標(biāo)出)。
圖像類型數(shù)據(jù)標(biāo)注結(jié)果文件應(yīng)包含以下內(nèi)容:
(1)圖像對(duì)象類型:比如bounding_box或者keypoint。
(2)圖像對(duì)象詳情:為對(duì)象的空間信息、內(nèi)容信息,或與其它對(duì)象的關(guān)系信息。每個(gè)對(duì)象的詳情
因其類型而異。
9.2.2文本類型數(shù)據(jù)標(biāo)注結(jié)果技術(shù)要求
針對(duì)標(biāo)注任務(wù),進(jìn)行文本類標(biāo)注任務(wù)時(shí),標(biāo)注結(jié)果應(yīng)包含文本的意圖匹配結(jié)果標(biāo)識(shí),有多個(gè)匹配結(jié)
果的應(yīng)全部進(jìn)行記錄并確定置信度最高的匹配標(biāo)簽。
文本類型數(shù)據(jù)標(biāo)注結(jié)果文件應(yīng)包含以下內(nèi)容:
(1)文本對(duì)象類型:比如text_classification或者text_tag。
(2)文本對(duì)象詳情:對(duì)象的具體文本位置、分類信息、匹配信息,或與其它對(duì)象的關(guān)系信息。每
個(gè)對(duì)象的詳情因其類型而異。
9.2.3語(yǔ)音類型數(shù)據(jù)標(biāo)注結(jié)果技術(shù)要求
語(yǔ)音類標(biāo)注任務(wù)的數(shù)據(jù)結(jié)果應(yīng)包含但不限于語(yǔ)音標(biāo)簽的時(shí)間位置、轉(zhuǎn)寫內(nèi)容、話者分離信息、話者
語(yǔ)速等信息。
語(yǔ)音類型數(shù)據(jù)標(biāo)注結(jié)果文件應(yīng)包含以下內(nèi)容:
(1)語(yǔ)音對(duì)象類型:比如speech_to_text。
(2)語(yǔ)音對(duì)象詳情:包括對(duì)象具體時(shí)間位置和轉(zhuǎn)譯內(nèi)容信息,或與其他對(duì)象的關(guān)系信息,每個(gè)對(duì)
象的詳情因其類型而異,話者分離信息以及噪音標(biāo)簽等如存在,則都應(yīng)在對(duì)象詳情中記錄。
9.3數(shù)據(jù)交付技術(shù)參數(shù)要求
數(shù)據(jù)標(biāo)注任務(wù)交付時(shí)應(yīng)向任務(wù)發(fā)布方提供技術(shù)參數(shù)如下:
9.3.1計(jì)劃標(biāo)注數(shù)
統(tǒng)計(jì)本次標(biāo)注任務(wù)原計(jì)劃標(biāo)注的數(shù)據(jù)總數(shù)。
9.3.2實(shí)際標(biāo)注數(shù)
統(tǒng)計(jì)本次標(biāo)注任務(wù)實(shí)際完成的標(biāo)注數(shù)據(jù)總數(shù)。
9.3.3異?;驘o(wú)效數(shù)據(jù)數(shù)
統(tǒng)計(jì)本次標(biāo)注任務(wù)過(guò)程中發(fā)現(xiàn)的異?;驘o(wú)效數(shù)據(jù)總數(shù)。
9.3.4異?;驘o(wú)效數(shù)據(jù)說(shuō)明
描述本次標(biāo)注任務(wù)過(guò)程中發(fā)現(xiàn)的異常或無(wú)效數(shù)據(jù)情況。
9.3.5標(biāo)注數(shù)據(jù)類型
描述本次標(biāo)注任務(wù)的標(biāo)注數(shù)據(jù)類型。
8
T/CEC
9.3.6標(biāo)注環(huán)境
描述本次標(biāo)注任務(wù)的實(shí)際標(biāo)注環(huán)境。
9.3.7標(biāo)注工具
描述本次標(biāo)注任務(wù)的實(shí)際使用的標(biāo)注工具。
9.3.8標(biāo)注人員
描述本次標(biāo)注任務(wù)實(shí)際使用的標(biāo)注人員情況。
9.3.9標(biāo)注審核人員
描述本次標(biāo)注任務(wù)標(biāo)注結(jié)果審核人員的情況。
9.3.10數(shù)據(jù)總體置信度
統(tǒng)計(jì)本次標(biāo)注任務(wù)標(biāo)注結(jié)果的總體置信度。
9.3.11標(biāo)注結(jié)果交付方式
描述本次標(biāo)注任務(wù)完成后標(biāo)注結(jié)果的交付方式。
9.3.12標(biāo)注數(shù)據(jù)質(zhì)檢結(jié)果
描述本次標(biāo)注任務(wù)的標(biāo)注結(jié)果質(zhì)量檢查情況。
9.3.13標(biāo)注開(kāi)始時(shí)間
描述本次標(biāo)注任務(wù)的實(shí)際開(kāi)始時(shí)間。
9.3.14標(biāo)注交付時(shí)間
描述本次標(biāo)注任務(wù)的實(shí)際完成及交付時(shí)間。
10安全技術(shù)要求
(1)應(yīng)根據(jù)企業(yè)《數(shù)據(jù)資產(chǎn)管理辦法》對(duì)標(biāo)注數(shù)據(jù)是否涉密進(jìn)行判定,并根據(jù)辦法對(duì)標(biāo)注數(shù)據(jù)進(jìn)行
保護(hù)。
(2)本標(biāo)準(zhǔn)的任何技術(shù)要求和工作均應(yīng)符合電力企業(yè)信息化建設(shè)與網(wǎng)絡(luò)安全管理原則要求。
9
T/CEC
目次
前言..............................................................................II
1.范圍................................................................................1
2.規(guī)范性引用文件......................................................................1
3.術(shù)語(yǔ)和定義..........................................................................1
4.標(biāo)注任務(wù)技術(shù)說(shuō)明要求................................................................3
5.待標(biāo)注數(shù)據(jù)整理技術(shù)要求..............................................................4
5.1.電力業(yè)務(wù)數(shù)據(jù)收集................................................................4
5.2.電力業(yè)務(wù)數(shù)據(jù)整理................................................................4
5.3.電力業(yè)務(wù)數(shù)據(jù)文件命名規(guī)則........................................................5
6.標(biāo)注環(huán)境及工具選用要求...............................................................5
6.1.標(biāo)注環(huán)境選擇標(biāo)準(zhǔn)................................................................5
6.2.標(biāo)注工具選擇標(biāo)準(zhǔn)................................................................5
7.標(biāo)注任務(wù)執(zhí)行技術(shù)要求.................................................................5
7.1.標(biāo)注子任務(wù)創(chuàng)建..................................................................5
7.2.標(biāo)注數(shù)據(jù)移交....................................................................6
7.3.標(biāo)注任務(wù)分發(fā)....................................................................6
7.4.標(biāo)注任務(wù)開(kāi)展....................................................................6
8.結(jié)果質(zhì)量保障技術(shù)要求................................................................7
8.1.質(zhì)量檢查........................................................................7
8.2.質(zhì)量控制........................................................................7
9.結(jié)果交付技術(shù)要求....................................................................7
9.1.數(shù)據(jù)標(biāo)注結(jié)果通用技術(shù)要求........................................................7
9.2.常見(jiàn)數(shù)據(jù)類型標(biāo)注結(jié)果技術(shù)要求....................................................8
9.3.數(shù)據(jù)交付技術(shù)參數(shù)要求............................................................8
10.安全技術(shù)要求........................................................................9
I
T/CEC
電力人工智能訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)
1范圍
人工智能圖像、語(yǔ)音訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)明確了電力企業(yè)人工智能訓(xùn)練數(shù)據(jù)標(biāo)注工作涉及的數(shù)據(jù)收
集整理、標(biāo)注環(huán)境及工具選用、標(biāo)注任務(wù)執(zhí)行、標(biāo)注結(jié)果質(zhì)量控制、標(biāo)注結(jié)果交付等技術(shù)要求。
本標(biāo)準(zhǔn)適用于電力業(yè)務(wù)場(chǎng)景下的人工智能訓(xùn)練數(shù)據(jù)集歸集。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T38318-2019《電力監(jiān)控系統(tǒng)網(wǎng)絡(luò)安全評(píng)估指南》
GB/T15237.1《術(shù)語(yǔ)工作詞匯第1部分:理論與應(yīng)用》
GB/T5271.1《信息技術(shù)詞匯第1部分:基本術(shù)語(yǔ)》
GB/T5271.28《信息技術(shù)詞匯第28部分:人工智能基本概念與專家系統(tǒng)》
GB/T5271.29《信息技術(shù)詞匯第29部分:人工智能語(yǔ)音識(shí)別與合成》
GB/T5271.31《信息技術(shù)詞匯第31部分:人工智能機(jī)器學(xué)習(xí)》
GB/T5271.34《信息技術(shù)詞匯第34部分:人工智能神經(jīng)網(wǎng)絡(luò)》
3術(shù)語(yǔ)和定義
下列術(shù)語(yǔ)和定義適用于本文件。
3.1
智能組件intelligentcomponent
智能組件是基于人工智能對(duì)數(shù)據(jù)和函數(shù)的封裝。包括調(diào)用API組件、下載的工具組件、SDK組件。
3.2
圖像分類imageclassification
圖像分類通過(guò)手工特征或特征學(xué)習(xí)方法對(duì)整個(gè)圖像進(jìn)行全部描述,然后使用分類器判別物體類別。
3.3
光學(xué)字符識(shí)別opticalcharacterrecognition(OCR)
光學(xué)字符識(shí)別,是指利用深度學(xué)習(xí)技術(shù),將圖片上的文字內(nèi)容,智能識(shí)別成為可編輯的文本。
3.4
語(yǔ)音speech
某一給定自然語(yǔ)言的話音、模式、或模擬這類模式的聲學(xué)信號(hào)。
3.5
語(yǔ)音識(shí)別speechrecognition
通過(guò)功能單元對(duì)人的語(yǔ)音所表示信息的感知與分析。要識(shí)別的信息可以是預(yù)定義的字序列中的一個(gè)
字,或是預(yù)定義的語(yǔ)言中的一個(gè)音素,有時(shí)可通過(guò)說(shuō)話者的聲音特征對(duì)說(shuō)話者進(jìn)行標(biāo)識(shí)。
3.6
1
T/CEC
數(shù)據(jù)標(biāo)注dataannotation
對(duì)文本、圖像、語(yǔ)音、視頻等待標(biāo)注數(shù)據(jù)進(jìn)行歸類、整理、編輯、糾錯(cuò)、標(biāo)記和批注等操作,為待
標(biāo)注數(shù)據(jù)增加標(biāo)簽,生成滿足機(jī)器學(xué)習(xí)訓(xùn)練要求的機(jī)器可讀數(shù)據(jù)編碼。
3.7
標(biāo)簽label
標(biāo)識(shí)數(shù)據(jù)的特征、類別和屬性等,可用于建立數(shù)據(jù)及機(jī)器學(xué)習(xí)訓(xùn)練要求所定義的機(jī)器可讀數(shù)據(jù)編碼
間的聯(lián)系。
3.8
標(biāo)注任務(wù)annotationtask
按照數(shù)據(jù)標(biāo)注規(guī)范對(duì)指定數(shù)據(jù)集進(jìn)行標(biāo)注的過(guò)程。
3.9
標(biāo)注工具annotationtool
數(shù)據(jù)標(biāo)注員完成標(biāo)注任務(wù)產(chǎn)生標(biāo)注結(jié)果時(shí)所需的工具和軟件。標(biāo)注工具可生成標(biāo)簽并提供參考模板。
不同的數(shù)據(jù)類型和標(biāo)注任務(wù)需要不同的標(biāo)注工具。標(biāo)注工具按自動(dòng)化程度可分為全人工標(biāo)注、半自動(dòng)標(biāo)
注。
3.10
標(biāo)注平臺(tái)annotationplatform
開(kāi)展標(biāo)注任務(wù)的系統(tǒng)化框架。標(biāo)注平臺(tái)在包含標(biāo)注工具全部功能的基礎(chǔ)上將所有標(biāo)注環(huán)節(jié)工具化,
可有效地對(duì)標(biāo)注任務(wù)進(jìn)行全局管理和跟蹤。
3.11
標(biāo)注描述說(shuō)明annotationinstruction
數(shù)據(jù)需求方用于明確標(biāo)注任務(wù)和標(biāo)注數(shù)據(jù)的書面陳述,包含執(zhí)行標(biāo)注任務(wù)所需的標(biāo)注工具、任務(wù)描
述、標(biāo)注方法、正確示例、常見(jiàn)錯(cuò)誤等內(nèi)容。
3.12
標(biāo)注方法annotationmethod
定義數(shù)據(jù)標(biāo)注員進(jìn)行數(shù)據(jù)標(biāo)注時(shí)的環(huán)境和流程,應(yīng)包含標(biāo)注對(duì)象定義、所用標(biāo)注工具和標(biāo)注平臺(tái)、
標(biāo)注格式、標(biāo)注前的準(zhǔn)備工作、標(biāo)注后的處理工作等。
3.13
全人工標(biāo)注full-manualannotation
指完全依靠人力對(duì)全部待標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注。
3.14
半自動(dòng)標(biāo)注semi-automaticannotation
使用人工結(jié)合自動(dòng)化工具或訓(xùn)練模型的方式進(jìn)行數(shù)據(jù)標(biāo)注。
3.15
結(jié)果文件resultfile
指待標(biāo)注數(shù)據(jù)在完成標(biāo)注工作后產(chǎn)生帶有標(biāo)簽信息的文件。
3.16
2
T/CEC
數(shù)據(jù)標(biāo)注員datalabeler
負(fù)責(zé)對(duì)文本、圖像、語(yǔ)音、視頻等待標(biāo)注數(shù)據(jù)進(jìn)行歸類、整理、編輯、糾錯(cuò)、標(biāo)記和批注等操作的
工作人員。
4標(biāo)注任務(wù)技術(shù)說(shuō)明文件要求
在進(jìn)行相關(guān)機(jī)器學(xué)習(xí)數(shù)據(jù)標(biāo)注任務(wù)前,應(yīng)明確本次標(biāo)注工作的技術(shù)標(biāo)準(zhǔn),生成詳細(xì)的技術(shù)說(shuō)明文件。
標(biāo)注任務(wù)的技術(shù)說(shuō)明文件應(yīng)包含本次描述文件的版本信息、標(biāo)注工作的任務(wù)背景、標(biāo)注數(shù)據(jù)的應(yīng)用場(chǎng)景、
標(biāo)注數(shù)據(jù)的類型、標(biāo)注方式、導(dǎo)入導(dǎo)出格式、標(biāo)注結(jié)果格式、標(biāo)注結(jié)果可選值、標(biāo)注工作的實(shí)施環(huán)境、
數(shù)據(jù)保密規(guī)則、標(biāo)注的正確示例、標(biāo)注的錯(cuò)誤示例以及術(shù)語(yǔ)體系規(guī)范化要求。
(1)版本信息
描述說(shuō)明文件應(yīng)詳細(xì)記錄說(shuō)明文件當(dāng)前的版本、編輯時(shí)間、通過(guò)審批時(shí)間、修訂時(shí)間等。
(2)工作背景
概括性描述本次任務(wù)的產(chǎn)生原因、標(biāo)注數(shù)據(jù)的來(lái)源等。
(3)數(shù)據(jù)應(yīng)用場(chǎng)景
概括性描述本次數(shù)據(jù)標(biāo)注完成后的應(yīng)用方式或應(yīng)用場(chǎng)景。
(4)數(shù)據(jù)類型
確定本次標(biāo)注數(shù)據(jù)的數(shù)據(jù)類型如圖片、文字、語(yǔ)音、視頻等,提供數(shù)據(jù)類型展示實(shí)例。
(5)標(biāo)注方式
明確本次采用全人工或半人工方式進(jìn)行標(biāo)注并確定需要使用的工具。
(6)導(dǎo)入導(dǎo)出格式
應(yīng)明確提出本次待標(biāo)注數(shù)據(jù)導(dǎo)入或?qū)С鰳?biāo)注工具的格式。
(7)標(biāo)注結(jié)果格式
應(yīng)明確提出本次標(biāo)注結(jié)果輸出格式。
(8)標(biāo)注結(jié)果可選值
如標(biāo)注結(jié)果存在可選值范圍,應(yīng)明確列出。
(9)實(shí)施環(huán)境
描述標(biāo)注工作的實(shí)施環(huán)境,如電力行業(yè)的敏感數(shù)據(jù)應(yīng)在內(nèi)網(wǎng)環(huán)境下進(jìn)行標(biāo)注工作,而非敏感數(shù)據(jù)則
可以到相關(guān)方任何的標(biāo)注環(huán)境中進(jìn)行標(biāo)注。
(10)標(biāo)注正確示例
應(yīng)提供標(biāo)注任務(wù)正確標(biāo)注或有效標(biāo)注的實(shí)例。
(11)標(biāo)注錯(cuò)誤示例
應(yīng)提供標(biāo)注任務(wù)錯(cuò)誤標(biāo)注或無(wú)效標(biāo)注的實(shí)例。
(12)數(shù)據(jù)保密規(guī)則
應(yīng)根據(jù)《數(shù)據(jù)資產(chǎn)管理辦法》判定數(shù)據(jù)是否涉密,并根據(jù)規(guī)定對(duì)標(biāo)注數(shù)據(jù)進(jìn)行保護(hù)。
(13)標(biāo)注開(kāi)始時(shí)間
描述本次標(biāo)注任務(wù)的具體開(kāi)始時(shí)間。
(14)期望交付時(shí)間
3
T/CEC
描述本次標(biāo)注任務(wù)的期望交付時(shí)間。
(15)術(shù)語(yǔ)體系規(guī)范化要求
在標(biāo)注過(guò)程中使用的術(shù)語(yǔ)體系需要規(guī)范化,至少應(yīng)滿足下列要求:
1)應(yīng)遵從國(guó)家法規(guī)和行業(yè)規(guī)范。
2)應(yīng)符合企業(yè)內(nèi)部管理規(guī)范及要求。
3)應(yīng)建立統(tǒng)一的標(biāo)注術(shù)語(yǔ)字典,確保數(shù)據(jù)標(biāo)注人員對(duì)術(shù)語(yǔ)定義的理解一致。
4)在學(xué)習(xí)標(biāo)注說(shuō)明規(guī)則及進(jìn)行相應(yīng)的培訓(xùn)后,數(shù)據(jù)標(biāo)注人員能夠規(guī)范地使用標(biāo)注術(shù)語(yǔ)完成任務(wù)。
5)應(yīng)被標(biāo)注任務(wù)的發(fā)布方及相關(guān)方認(rèn)可。
5待標(biāo)注數(shù)據(jù)整理技術(shù)要求
5.1電力業(yè)務(wù)數(shù)據(jù)收集
標(biāo)注數(shù)據(jù)收集工作應(yīng)以業(yè)務(wù)為導(dǎo)向開(kāi)展,主要涉及生產(chǎn)領(lǐng)域圖像、視頻、點(diǎn)云數(shù)據(jù),營(yíng)銷場(chǎng)景語(yǔ)音、
文本等,根據(jù)標(biāo)注任務(wù)的業(yè)務(wù)場(chǎng)景、標(biāo)注樣本或前期經(jīng)驗(yàn)進(jìn)行數(shù)據(jù)收集分析,數(shù)據(jù)收集需明確的要素包
括但不限于類型、量級(jí)、數(shù)據(jù)涉密程度、工作量估算、用途及應(yīng)用場(chǎng)景。
5.1.1類型
應(yīng)明確標(biāo)注數(shù)據(jù)類型如圖像、音頻、文本、視頻等。
5.1.2量級(jí)
本次標(biāo)注任務(wù)待標(biāo)注數(shù)據(jù)的數(shù)量。
5.1.3來(lái)源業(yè)務(wù)系統(tǒng)
本次標(biāo)注任務(wù)數(shù)據(jù)所產(chǎn)生的源業(yè)務(wù)系統(tǒng),一般生產(chǎn)類數(shù)據(jù)來(lái)自電網(wǎng)管理平臺(tái)相關(guān)應(yīng)用系統(tǒng),營(yíng)銷類
數(shù)據(jù)來(lái)自客戶服務(wù)平臺(tái)相關(guān)應(yīng)用系統(tǒng),例如變電站設(shè)備、表計(jì)讀數(shù)圖像來(lái)自變電站智能巡檢系統(tǒng)、95598
語(yǔ)音數(shù)據(jù)來(lái)自95598智能客服系統(tǒng)等。
5.1.4數(shù)據(jù)產(chǎn)生方式
本次標(biāo)注任務(wù)數(shù)據(jù)的產(chǎn)生方式,如客戶來(lái)電錄音、服務(wù)工單等。
5.1.5數(shù)據(jù)文件命名規(guī)則
本次標(biāo)注任務(wù)數(shù)據(jù)文件的命名規(guī)律或規(guī)范說(shuō)明。
5.1.6數(shù)據(jù)保密程度
應(yīng)根據(jù)《數(shù)據(jù)資產(chǎn)管理辦法》判定數(shù)據(jù)是否涉密。
5.1.7用途
確認(rèn)標(biāo)注結(jié)果將作為模型的測(cè)試集或訓(xùn)練集。
5.1.8應(yīng)用場(chǎng)景
確認(rèn)標(biāo)注結(jié)果的應(yīng)用場(chǎng)景如絕緣子的破損檢測(cè)、施工人員人臉識(shí)別、設(shè)備儀表數(shù)值狀態(tài)檢測(cè)等。
5.1.9標(biāo)注領(lǐng)域
應(yīng)明確標(biāo)注領(lǐng)域,如圖片分類、語(yǔ)音識(shí)別、語(yǔ)音匹配等。
5.1.10工作量估算
根據(jù)標(biāo)注數(shù)據(jù)的類型、量級(jí)、用途、標(biāo)注任務(wù)人員來(lái)源、標(biāo)注平臺(tái)、標(biāo)注組件等要素確定本次任務(wù)
工作量。
5.2電力業(yè)務(wù)數(shù)據(jù)整理
4
T/CEC
在進(jìn)行標(biāo)注數(shù)據(jù)整理過(guò)程中,應(yīng)明確數(shù)據(jù)與結(jié)果文件存放目錄結(jié)構(gòu),在任務(wù)分配與回收的時(shí)候按指
定的目錄進(jìn)行數(shù)據(jù)組織,數(shù)據(jù)的整理應(yīng)體現(xiàn)業(yè)務(wù)需求,存放整理后有利于根據(jù)業(yè)務(wù)開(kāi)展后續(xù)工作,例如
生產(chǎn)域不同類型場(chǎng)景分別存放,同樣場(chǎng)景一起存放。
數(shù)據(jù)整理應(yīng)符合以下要求:
(1)文件夾及各級(jí)子目錄名稱首選簡(jiǎn)潔的拼音首字母組合標(biāo)識(shí)。
(2)數(shù)據(jù)整理目錄首選按照類別分類,簡(jiǎn)化目錄級(jí)別。
(3)子目錄等級(jí)最深不超過(guò)4級(jí)。
5.3電力業(yè)務(wù)數(shù)據(jù)文件命名規(guī)則
標(biāo)注任務(wù)的數(shù)據(jù)文件及結(jié)果文件命名規(guī)則應(yīng)符合以下要求:
(1)要標(biāo)注的文件名稱應(yīng)簡(jiǎn)短(最長(zhǎng)不能超過(guò)32個(gè)字符)且只能包含字母、數(shù)字、下劃線、中
間杠。
(2)待標(biāo)注數(shù)據(jù)文件與結(jié)果文件命名應(yīng)進(jìn)行區(qū)分,數(shù)據(jù)文件應(yīng)使用“data_”為前綴,結(jié)果文件應(yīng)
使用“result_”為前綴。
(3)為避免出現(xiàn)標(biāo)注數(shù)據(jù)重名,應(yīng)在基礎(chǔ)文件名后添加唯一標(biāo)識(shí)碼,標(biāo)識(shí)碼生成應(yīng)按十進(jìn)制順序
遞增規(guī)則生成四位數(shù)或以上唯一標(biāo)識(shí)碼,如:000001、000002、000003等等,標(biāo)識(shí)碼具體位數(shù)可根據(jù)
文件數(shù)據(jù)量級(jí)進(jìn)行增加。
6標(biāo)注環(huán)境及工具選用要求
6.1標(biāo)注環(huán)境選擇標(biāo)準(zhǔn)
數(shù)據(jù)標(biāo)注任務(wù)具有一定特殊性,部分企業(yè)內(nèi)部數(shù)據(jù)具有較高保密要求,應(yīng)根據(jù)《數(shù)據(jù)資產(chǎn)管理辦法》
規(guī)定對(duì)標(biāo)注環(huán)境進(jìn)行選擇。
應(yīng)根據(jù)標(biāo)注數(shù)據(jù)不同涉密情況選擇以下環(huán)境進(jìn)行標(biāo)注:
(1)涉密數(shù)據(jù):標(biāo)注工作應(yīng)在可信任的企業(yè)內(nèi)部環(huán)境或任務(wù)發(fā)布方指定的可信任外部環(huán)境下進(jìn)行。
(2)非涉密數(shù)據(jù):標(biāo)注團(tuán)隊(duì)可根據(jù)具體情況選擇標(biāo)注環(huán)境。
6.2標(biāo)注工具選擇標(biāo)準(zhǔn)
在進(jìn)行相關(guān)數(shù)據(jù)標(biāo)注工作過(guò)程中,選擇標(biāo)注工具應(yīng)符合安全性、易操作性、數(shù)據(jù)輸入輸出規(guī)范性、
統(tǒng)一性以及合法性標(biāo)準(zhǔn)。
6.2.1安全性
應(yīng)選用安全可信的標(biāo)注工具進(jìn)行標(biāo)注工作,避免數(shù)據(jù)泄露造成安全事故。
6.2.2易操作性
標(biāo)注工具應(yīng)具有提高標(biāo)注效率的功能,在減少標(biāo)注人員工作量的同時(shí)確保標(biāo)注質(zhì)量。
6.2.3數(shù)據(jù)輸入輸出規(guī)范性
標(biāo)注工具應(yīng)支持導(dǎo)入及導(dǎo)出功能,可導(dǎo)入指定格式的數(shù)據(jù)??蓪?dǎo)出符合要求格式及質(zhì)量要求的數(shù)據(jù)。
6.2.4統(tǒng)一性
標(biāo)注工具應(yīng)優(yōu)先選用企業(yè)統(tǒng)一的人工智能平臺(tái)提供的標(biāo)注工具,若平臺(tái)未包含特定數(shù)據(jù)類型的標(biāo)注
工具,可選用其他標(biāo)注工具進(jìn)行標(biāo)注,但同類型的數(shù)據(jù)標(biāo)注工作應(yīng)優(yōu)先采用同款標(biāo)注工具進(jìn)行標(biāo)示,確
保輸入輸出格式的統(tǒng)一。
6.2.5合法性
標(biāo)注工具或平臺(tái)應(yīng)具備資質(zhì)/資格證書、許可證、版權(quán)等。
7標(biāo)注任務(wù)執(zhí)行技術(shù)要求
7.1標(biāo)注子任務(wù)創(chuàng)建
5
T/CEC
進(jìn)行數(shù)據(jù)標(biāo)注子任務(wù)創(chuàng)建時(shí),應(yīng)按照不同類別或任務(wù)編號(hào)對(duì)標(biāo)注數(shù)據(jù)進(jìn)行整理及劃分,方便標(biāo)注團(tuán)
隊(duì)按自身任務(wù)獲取對(duì)應(yīng)標(biāo)注數(shù)據(jù)。
數(shù)據(jù)標(biāo)注子任務(wù)目標(biāo)說(shuō)明宜采用文件形式進(jìn)行描述,應(yīng)至少包含明確的標(biāo)注任務(wù)信息、標(biāo)注方式指
引以及標(biāo)注結(jié)果存放位置。
7.1.1明確的標(biāo)注任務(wù)信息
包括本次標(biāo)注的主要目標(biāo)、標(biāo)注需求(需要完成的標(biāo)注數(shù)據(jù)量級(jí)、任務(wù)的優(yōu)先級(jí),對(duì)標(biāo)注結(jié)果質(zhì)量
的要求、對(duì)標(biāo)注完成時(shí)間的要求)、任務(wù)描述等。
7.1.2標(biāo)注方式指引
根據(jù)當(dāng)前標(biāo)注數(shù)據(jù)的任務(wù),明確標(biāo)注方式(全人工或半人工)、標(biāo)注工具、標(biāo)注環(huán)境的指引,方便
標(biāo)注人員開(kāi)展標(biāo)注任務(wù)。
7.1.3標(biāo)注結(jié)果存放位置
指定標(biāo)注完成后的結(jié)果存放位置,方便標(biāo)注結(jié)果的收集。
7.2標(biāo)注數(shù)據(jù)移交
進(jìn)行標(biāo)注數(shù)據(jù)移交工作前,應(yīng)先根據(jù)公司《數(shù)據(jù)資產(chǎn)管理辦法》確認(rèn)標(biāo)注數(shù)據(jù)是否涉密再確定數(shù)據(jù)
移交方式。標(biāo)注數(shù)據(jù)的移交工作應(yīng)至少符合以下技術(shù)要求:
7.2.1使用可信存儲(chǔ)設(shè)備
包括使用可信的辦公電腦、安全移動(dòng)硬盤、安全U盤進(jìn)行標(biāo)注文件的轉(zhuǎn)移及提交。
7.2.2使用可信內(nèi)部網(wǎng)絡(luò)
包括使用可信的內(nèi)部網(wǎng)絡(luò)進(jìn)行標(biāo)注數(shù)據(jù)的傳輸、使用安全可信的內(nèi)部溝通工具進(jìn)行文件發(fā)送、使用
可信的軟件平臺(tái)進(jìn)行上傳及下載、使用已加密的共享目錄進(jìn)行數(shù)據(jù)共享。
7.3標(biāo)注任務(wù)分發(fā)
根據(jù)標(biāo)注發(fā)布者確定的要求及任務(wù)描述,應(yīng)按之前的數(shù)據(jù)標(biāo)注子任務(wù)目標(biāo)說(shuō)明把任務(wù)分派給標(biāo)注人
員。標(biāo)注任務(wù)發(fā)布者在進(jìn)行標(biāo)注數(shù)據(jù)分發(fā)時(shí),宜采用文件形式,說(shuō)明宜包括人員數(shù)量、任務(wù)數(shù)量、任務(wù)
節(jié)點(diǎn)、回收時(shí)間、結(jié)束時(shí)間以及標(biāo)注任務(wù)開(kāi)展方式等相關(guān)信息。
7.3.1人員數(shù)量
本次參與標(biāo)注任務(wù)的標(biāo)注人員數(shù)量。
7.3.2任務(wù)數(shù)量
本次任務(wù)主體劃分后的子任務(wù)數(shù)量。
7.3.3任務(wù)節(jié)點(diǎn)
每位數(shù)據(jù)標(biāo)注人員需完成的任務(wù)總數(shù)及每個(gè)時(shí)間節(jié)點(diǎn)要求完成的任務(wù)數(shù)。
7.3.4回收時(shí)間
任務(wù)目標(biāo)回收時(shí)間及最遲回收時(shí)間。
7.3.5結(jié)束時(shí)間
任務(wù)整體結(jié)束時(shí)間。
7.4標(biāo)注任務(wù)開(kāi)展方式
在標(biāo)注任務(wù)開(kāi)展過(guò)程中,標(biāo)注方式分為全人工方式標(biāo)注及半人工方式標(biāo)注兩種方式,選擇的標(biāo)注方
式區(qū)別如下:
7.4.1全
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 自制水囊在剖宮產(chǎn)宮縮乏力出血中的臨床應(yīng)用
- 應(yīng)急響應(yīng)的統(tǒng)一指揮
- 二零二五年度道路設(shè)施更新改造合同3篇
- 二零二五年度個(gè)人鄉(xiāng)村旅游消費(fèi)貸款合同示范文本2篇
- 二零二五年度屋頂防水隔熱節(jié)能改造合同4篇
- 2025年度新能源儲(chǔ)能系統(tǒng)采購(gòu)與安裝合同范本3篇
- 2025版高層建筑消防系統(tǒng)改造合同協(xié)議書3篇
- 二零二五年度個(gè)人股權(quán)代持與公司解散合同3篇
- 不良反應(yīng)上報(bào)流程
- 二零二五年度大學(xué)生創(chuàng)業(yè)項(xiàng)目融資借款合同
- 河北省邯鄲市永年區(qū)2024-2025學(xué)年九年級(jí)上學(xué)期期末考試化學(xué)試卷(含答案)
- 交通運(yùn)輸行政執(zhí)法程序規(guī)定培訓(xùn)課件
- 消防員證考試題庫(kù)2000題中級(jí)
- 海洋垃圾處理行業(yè)可行性分析報(bào)告
- 公共部門績(jī)效管理案例分析
- 無(wú)人機(jī)培訓(xùn)計(jì)劃表
- 2025初級(jí)會(huì)計(jì)理論考試100題及解析
- 2024屆高考英語(yǔ)詞匯3500左右
- 2024年-2025年海船船員考試-船舶人員管理考試題及答案
- 2025屆安徽省皖南八校聯(lián)盟高二物理第一學(xué)期期末統(tǒng)考試題含解析
- 三兄弟分田地宅基地協(xié)議書范文
評(píng)論
0/150
提交評(píng)論