版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
ICS35.240在提交反饋意見時,請將您知道的相關(guān)專利連同
L70支持性文件一并附上
團(tuán)體標(biāo)準(zhǔn)
T/CESAXXXX—XXXX
信息技術(shù)人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)
標(biāo)注規(guī)程
Informationtechnology-Artificialintelligence-Guidelineofdataannotationfor
machinelearning
(征求意見稿)
XXXX-XX-XX發(fā)布XXXX-XX-XX實施
中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會發(fā)布
T/XXXXXXXX—XXXX
前??言
本部分按照GB/T1.1—2009給出的規(guī)則起草。
請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識別這些專利的責(zé)任。
本標(biāo)準(zhǔn)由中國電子技術(shù)標(biāo)準(zhǔn)化研究院提出并歸口。
本標(biāo)準(zhǔn)起草單位:
本標(biāo)準(zhǔn)主要起草人:
III
T/XXXXXXXX—XXXX
信息技術(shù)人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程
1范圍
本標(biāo)準(zhǔn)給出了面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注流程框架,包括數(shù)據(jù)標(biāo)注前期準(zhǔn)備、數(shù)據(jù)標(biāo)注任務(wù)執(zhí)行以及
標(biāo)注數(shù)據(jù)結(jié)果輸出三個階段。
本標(biāo)準(zhǔn)適用于面向人工智能研究或開發(fā)應(yīng)用等需要實施數(shù)據(jù)標(biāo)注的企業(yè)、高校、科研院所、政府機(jī)
構(gòu)等。
2規(guī)范性引用文件
下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。
凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
3術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1
數(shù)據(jù)標(biāo)注dataannotation
對文本、圖像、語音、視頻等待標(biāo)注數(shù)據(jù)進(jìn)行歸類、整理、編輯、糾錯、標(biāo)記和批注等操作,為待
標(biāo)注數(shù)據(jù)增加標(biāo)簽,生成滿足機(jī)器學(xué)習(xí)訓(xùn)練要求的機(jī)器可讀數(shù)據(jù)編碼。
3.2
標(biāo)簽label
標(biāo)識數(shù)據(jù)的特征、類別和屬性等,可用于建立數(shù)據(jù)及機(jī)器學(xué)習(xí)訓(xùn)練要求所定義的機(jī)器可讀數(shù)據(jù)編碼
間的聯(lián)系。
3.3
標(biāo)注任務(wù)annotationtask
按照數(shù)據(jù)標(biāo)注規(guī)范對指定數(shù)據(jù)集進(jìn)行標(biāo)注的過程。
3.4
數(shù)據(jù)標(biāo)注員datalabeler
負(fù)責(zé)對文本、圖像、語音、視頻等待標(biāo)注數(shù)據(jù)進(jìn)行歸類、整理、編輯、糾錯、標(biāo)記和批注等操作的
工作人員。
1
T/XXXXXXXX—XXXX
3.5
標(biāo)注工具annotationtool
數(shù)據(jù)標(biāo)注員完成標(biāo)注任務(wù)產(chǎn)生標(biāo)注結(jié)果時所需的工具和軟件。
注1:標(biāo)注工具可生成標(biāo)簽并提供參考模板。
注2:不同的數(shù)據(jù)類型和標(biāo)注任務(wù)需要不同的標(biāo)注工具。標(biāo)注工具按自動化程度可分為手動、半自動、自動三種。
3.6
標(biāo)注平臺annotationplatform
開展標(biāo)注任務(wù)的系統(tǒng)化框架。
注:標(biāo)注平臺在包含標(biāo)注工具全部功能的基礎(chǔ)上將所有標(biāo)注環(huán)節(jié)工具化,可有效地對標(biāo)注任務(wù)進(jìn)行全局管理和跟
蹤。
3.7
標(biāo)注說明規(guī)則annotationinstruction
數(shù)據(jù)需求方用于明確標(biāo)注任務(wù)和標(biāo)注數(shù)據(jù)的書面陳述,包含執(zhí)行標(biāo)注任務(wù)所需的標(biāo)注工具、任務(wù)描
述、標(biāo)注方法、正確示例、常見錯誤等內(nèi)容。
3.8
標(biāo)注方法annotationmethod
定義數(shù)據(jù)標(biāo)注員進(jìn)行數(shù)據(jù)標(biāo)注時的環(huán)境和流程,應(yīng)包含標(biāo)注對象定義、所用標(biāo)注工具和標(biāo)注平臺、
標(biāo)注格式、標(biāo)注前的準(zhǔn)備工作、標(biāo)注后的處理工作等。
3.9
眾包標(biāo)注crowdsourcingannotation
數(shù)據(jù)需求方公開發(fā)布標(biāo)注任務(wù),數(shù)據(jù)標(biāo)注員申領(lǐng)標(biāo)注任務(wù)并在規(guī)定時間內(nèi)完成標(biāo)注任務(wù)發(fā)回數(shù)據(jù)數(shù)
據(jù)需求方,數(shù)據(jù)需求方收集整理后獲得用于機(jī)器學(xué)習(xí)訓(xùn)練的標(biāo)注數(shù)據(jù)集的數(shù)據(jù)標(biāo)注過程。
3.10
半自動標(biāo)注semi-automaticannotation
使用人工結(jié)合自動化工具的方式進(jìn)行數(shù)據(jù)標(biāo)注。
4概述
本標(biāo)準(zhǔn)給出了數(shù)據(jù)標(biāo)注的流程框架,它包括標(biāo)注項目的前期準(zhǔn)備工作(包括對于所需數(shù)據(jù)的定義、
標(biāo)注規(guī)則的制定、標(biāo)注人力的確定);標(biāo)注任務(wù)的創(chuàng)建、分發(fā),開展、回收和標(biāo)注結(jié)果的質(zhì)檢和質(zhì)量控
制;標(biāo)注結(jié)果輸出的建議格式和交付。數(shù)據(jù)標(biāo)注流程框架見圖1:
a)定義所需數(shù)據(jù);
b)確定標(biāo)注說明規(guī)則;
c)確定標(biāo)注人力的供給方式;
2
T/XXXXXXXX—XXXX
d)標(biāo)注工具和平臺的選擇;
e)標(biāo)注任務(wù)的創(chuàng)建、分發(fā)、開展和回收;
f)標(biāo)注結(jié)果的質(zhì)檢和質(zhì)量控制;
g)標(biāo)注結(jié)果的輸出格式建議;
h)標(biāo)注數(shù)據(jù)的交付和驗收。
圖1數(shù)據(jù)標(biāo)注流程框架
5數(shù)據(jù)標(biāo)注流程
5.1定義所需數(shù)據(jù)和預(yù)估數(shù)據(jù)量
數(shù)據(jù)標(biāo)注前應(yīng)完成以下五項準(zhǔn)備工作:
a)對解決的問題進(jìn)行分析,明確機(jī)器學(xué)習(xí)和模型訓(xùn)練過程中所需的標(biāo)注數(shù)據(jù)類型、量級、用途及
應(yīng)用場景。分析維度包括:業(yè)務(wù)場景的針對性、標(biāo)注樣本的平衡性、前期經(jīng)驗及改進(jìn)措施的借
鑒等;
b)對數(shù)據(jù)進(jìn)行整理,明確數(shù)據(jù)與標(biāo)簽文件存放目錄結(jié)構(gòu),在任務(wù)分配與回收的時候應(yīng)按指定的目
錄進(jìn)行數(shù)據(jù)組織;
c)明確數(shù)據(jù)與標(biāo)簽文件的命名規(guī)則,命名規(guī)則應(yīng)避免數(shù)據(jù)更新迭代時的重名,便于數(shù)據(jù)追蹤、標(biāo)
注追蹤,數(shù)據(jù)文件名與標(biāo)簽文件名應(yīng)保持一致;
d)根據(jù)標(biāo)注任務(wù)的人力獲取模式、工具的選擇、標(biāo)注任務(wù)的類型、算法選擇以及整個項目的成本
對所需標(biāo)注數(shù)據(jù)量進(jìn)行預(yù)估;
e)與標(biāo)注人員溝通,明確標(biāo)注數(shù)據(jù)的定義并確定最終的需求量。
5.2確定標(biāo)注說明規(guī)則
5.2.1標(biāo)注說明規(guī)則的職責(zé)分工
3
T/XXXXXXXX—XXXX
數(shù)據(jù)需求方即業(yè)務(wù)數(shù)據(jù)需求方,指需要利用人工智能技術(shù)解決實際業(yè)務(wù)問題的業(yè)務(wù)團(tuán)隊。數(shù)據(jù)需求
方應(yīng)負(fù)責(zé)確保數(shù)據(jù)標(biāo)注的規(guī)則符合該領(lǐng)域的業(yè)務(wù)和專業(yè)常識,并根據(jù)標(biāo)注規(guī)則,檢查所標(biāo)注的數(shù)據(jù)是否
滿足數(shù)據(jù)需求方。
數(shù)據(jù)使用方指需要使用標(biāo)注數(shù)據(jù)訓(xùn)練人工智能模型的研發(fā)團(tuán)隊。數(shù)據(jù)使用方應(yīng)從機(jī)器學(xué)習(xí)算法角
度,確保標(biāo)注規(guī)則可滿足機(jī)器學(xué)習(xí)模型的訓(xùn)練要求,并根據(jù)該標(biāo)注規(guī)則,檢查標(biāo)注的數(shù)據(jù)支撐機(jī)器學(xué)習(xí)
模型達(dá)到數(shù)據(jù)需求方期望的精度。
數(shù)據(jù)需求方、數(shù)據(jù)使用方及數(shù)據(jù)標(biāo)注團(tuán)隊?wèi)?yīng)共同參與標(biāo)注說明規(guī)則的制定、調(diào)整、迭代、執(zhí)行的各
個環(huán)節(jié)。數(shù)據(jù)標(biāo)注團(tuán)隊?wèi)?yīng)從實際標(biāo)注角度出發(fā),確保標(biāo)注規(guī)則清晰、明確,以避免數(shù)據(jù)標(biāo)注員理解偏差,
進(jìn)而導(dǎo)致標(biāo)注結(jié)果不符合預(yù)期。
5.2.2標(biāo)注說明規(guī)則的定義
標(biāo)注說明規(guī)則應(yīng)明確項目的背景、意義及數(shù)據(jù)的應(yīng)用場景,且包含項目的標(biāo)注工具、任務(wù)描述、標(biāo)
注方法、正確示例、常見錯誤等內(nèi)容。
標(biāo)注說明規(guī)則應(yīng)有可變更性,該變更應(yīng)由相關(guān)方評審?fù)夂?,再更新?guī)則文檔,且相關(guān)方應(yīng)沿用制
定規(guī)則時的基本原則及方法。
5.2.3標(biāo)注說明規(guī)則的內(nèi)容
標(biāo)準(zhǔn)說明規(guī)則包括但不限于:
a)項目背景:概述標(biāo)注項目的背景或數(shù)據(jù)標(biāo)注需求產(chǎn)生的場景;
b)版本信息:標(biāo)注該說明的當(dāng)前版本編號、發(fā)布日期、發(fā)布人、發(fā)布備注(發(fā)布原因或迭代原因)
及歷史迭代信息(歷代版本編號、發(fā)布日期、發(fā)布人、發(fā)布備注等);
c)任務(wù)描述:概括標(biāo)注項目的主要任務(wù),包括標(biāo)注項目的關(guān)鍵信息、數(shù)據(jù)形式、標(biāo)注平臺、主要
標(biāo)注方法、期望交付時間、正確率要求等;
d)保密責(zé)任:對于數(shù)據(jù)的密級程度,數(shù)據(jù)需求方須在規(guī)則中列明,明確保密責(zé)任,標(biāo)注方對當(dāng)前
承擔(dān)的數(shù)據(jù)標(biāo)注任務(wù)承擔(dān)保密職責(zé)(例如雷達(dá)數(shù)據(jù)標(biāo)注等任務(wù)需要);
e)標(biāo)注方法:給出數(shù)據(jù)需求方所需數(shù)據(jù)對象的嚴(yán)謹(jǐn)定義,明確在協(xié)定的標(biāo)注平臺上使用何種標(biāo)注
組件、標(biāo)簽及全部操作。標(biāo)注方法的衡量標(biāo)準(zhǔn),以標(biāo)注人員掌握標(biāo)注方法后,能立刻正確操作
一次標(biāo)注;
f)正確示例:通過圖片、圖文、視頻等的形式,示范正確的標(biāo)注方法或成果,數(shù)據(jù)需求方應(yīng)明確
數(shù)據(jù)產(chǎn)出,標(biāo)注方應(yīng)明確標(biāo)注認(rèn)識,標(biāo)注樣例應(yīng)覆蓋特殊樣本的標(biāo)注示例;
g)注意事項:標(biāo)注方的錯誤預(yù)警有警示作用,規(guī)則制定者在注意事項中,列出標(biāo)注方應(yīng)避免的錯
誤、標(biāo)注方法中應(yīng)注意的細(xì)節(jié)及額外處理方式等;
h)質(zhì)量要求:數(shù)據(jù)標(biāo)注規(guī)則應(yīng)對項目的預(yù)期質(zhì)量有合理的定量預(yù)估。審核質(zhì)檢應(yīng)遵循質(zhì)量要求。
5.2.4執(zhí)行方法及注意事項
數(shù)據(jù)標(biāo)注員應(yīng)學(xué)習(xí)規(guī)則文檔,執(zhí)行培訓(xùn)以保證每個標(biāo)注人員理解標(biāo)注說明規(guī)則和滿足技能要求。
數(shù)據(jù)需求方宜要求標(biāo)注方檢驗標(biāo)注培訓(xùn)的效果,在標(biāo)注之前及時發(fā)現(xiàn)問題,并把問題及應(yīng)對措施,
整理歸檔。數(shù)據(jù)需求方宜要求標(biāo)注方對含特殊樣例的小樣本數(shù)據(jù)集進(jìn)行預(yù)標(biāo)注,并對標(biāo)注結(jié)果進(jìn)行審核。
標(biāo)注方滿足審核標(biāo)準(zhǔn)后,數(shù)據(jù)需求方再正式向其分發(fā)標(biāo)注任務(wù)。
標(biāo)注方按照給定規(guī)則標(biāo)注時發(fā)現(xiàn)存疑數(shù)據(jù),應(yīng)及時記錄。數(shù)據(jù)需求方應(yīng)明確此類數(shù)據(jù)的記錄規(guī)則、
保存路徑及后續(xù)處理方法等。采用多人標(biāo)注或定期集中反饋等方法,處理問題數(shù)據(jù)。
標(biāo)注說明規(guī)則的細(xì)則應(yīng)有可調(diào)整性,對調(diào)整后的規(guī)則細(xì)則,應(yīng)保證參與者及標(biāo)注方充分理解。發(fā)現(xiàn)
規(guī)則未涵蓋的情況或?qū)嵗龝r,標(biāo)注方應(yīng)及時向數(shù)據(jù)需求方反饋、溝通和處理。
4
T/XXXXXXXX—XXXX
5.2.5標(biāo)注說明中術(shù)語體系的規(guī)范化
術(shù)語體系的規(guī)范化至少應(yīng)滿足:
a)應(yīng)遵從國家法規(guī)和行業(yè)規(guī)范;
b)應(yīng)建立統(tǒng)一的標(biāo)注術(shù)語字典,確保數(shù)據(jù)標(biāo)注人員對術(shù)語定義的理解一致;
c)在學(xué)習(xí)標(biāo)注說明規(guī)則及進(jìn)行相應(yīng)的培訓(xùn)后,數(shù)據(jù)標(biāo)注人員能夠規(guī)范地使用標(biāo)注術(shù)語完成任務(wù);
d)應(yīng)被標(biāo)注項目的相關(guān)方認(rèn)可。
5.3確定標(biāo)注人力供給方式
應(yīng)根據(jù)標(biāo)注任務(wù)的數(shù)據(jù)量級、保密性與資質(zhì)要求、對業(yè)務(wù)流程的理解程度、成本預(yù)算以及交付時間
等各類因素評價并確認(rèn)標(biāo)注人力供給方式。標(biāo)注人力模式可包括:內(nèi)部自營標(biāo)注、第三方標(biāo)注、眾包標(biāo)
注等。標(biāo)注人力模式的特點見表1。
表1標(biāo)注人力模式
類型適合任務(wù)(并列表示“和/或”)特點
內(nèi)部自營標(biāo)注人(1)符合業(yè)務(wù)流程需求;
要求熟悉業(yè)務(wù)流程并及時溝通反饋的標(biāo)注任務(wù)
力(2)溝通協(xié)調(diào)效率高
(1)對業(yè)務(wù)流程理解要求低的標(biāo)注任務(wù);(1)項目管理成本低;
第三方標(biāo)注人力(2)內(nèi)部自營標(biāo)注人力不擅長的標(biāo)注任務(wù);(2)可作為其他標(biāo)注人力的補充或作為有
(3)有專業(yè)資質(zhì)要求的標(biāo)注任務(wù)。資質(zhì)的審查人員參與質(zhì)量控制和檢查環(huán)節(jié)。
(1)時間緊迫且標(biāo)注數(shù)據(jù)量大的標(biāo)注任務(wù);
(1)成本低,速度快,標(biāo)注質(zhì)量參差不齊;
眾包標(biāo)注人力(2)需從大量用戶或場景中采集或標(biāo)注的任務(wù);
(2)難以滿足保密性及專業(yè)資質(zhì)要求。
(3)保密和隱私要求低的標(biāo)注任務(wù)。
5.4標(biāo)注工具和標(biāo)注平臺的選擇
標(biāo)注工具應(yīng)滿足以下條件:
a)易操作性:標(biāo)注工具應(yīng)降低標(biāo)注人員的操作難度,提供交互方式的自有標(biāo)注;
b)輸出數(shù)據(jù)的規(guī)范性:標(biāo)注工具的數(shù)據(jù)導(dǎo)出格式,應(yīng)滿足或可轉(zhuǎn)換到本標(biāo)準(zhǔn)指定的格式要求;
c)高效性:標(biāo)注工具應(yīng)保證標(biāo)注任務(wù)的完成效率。
標(biāo)注平臺包含標(biāo)注工具全部功能、團(tuán)隊管理、任務(wù)分發(fā)、質(zhì)量審核等環(huán)節(jié)的模塊,且將所有標(biāo)注環(huán)
節(jié)工具化。規(guī)模較大的平臺可完成圖像、文本、語音或視頻等不同任務(wù)的標(biāo)注。對保密數(shù)據(jù),標(biāo)注平臺
要保證標(biāo)注數(shù)據(jù)的安全性。
當(dāng)數(shù)據(jù)量相對較小、數(shù)據(jù)類型相對單一、標(biāo)注周期較短時,宜選擇標(biāo)注工具進(jìn)行標(biāo)注。當(dāng)標(biāo)注量較
大、數(shù)據(jù)類型較多、標(biāo)注難度較大且周期較長時,宜選擇標(biāo)注平臺進(jìn)行標(biāo)注。
在醫(yī)學(xué)、金融和其它關(guān)鍵領(lǐng)域,標(biāo)注工具或平臺應(yīng)滿足相關(guān)法規(guī)要求,具備資質(zhì)/資格證書、許可
證等。如:當(dāng)涉及醫(yī)學(xué)倫理標(biāo)注時,標(biāo)注工具或平臺的使用應(yīng)通過相應(yīng)機(jī)構(gòu)的倫理委員會的論證流程。
5.5標(biāo)注任務(wù)的創(chuàng)建、分發(fā)、開展和回收
5.5.1標(biāo)注任務(wù)的創(chuàng)建
5
T/XXXXXXXX—XXXX
創(chuàng)建標(biāo)注任務(wù)前,將待標(biāo)注數(shù)據(jù)上傳。上傳的導(dǎo)入方式有兩種:本地上傳(適用于數(shù)據(jù)在本地設(shè)備
上,包括電腦、U盤、移動設(shè)備等);云端上傳(適用于數(shù)據(jù)在云端,包括公有云和私有云)。當(dāng)待標(biāo)注
數(shù)據(jù)量較大時,采用云端上傳數(shù)據(jù)。
標(biāo)注數(shù)據(jù)上傳成功后,當(dāng)僅靠標(biāo)注工具完成標(biāo)注時,在創(chuàng)建任務(wù)的過程中,任務(wù)責(zé)任人要事先明確
標(biāo)注任務(wù)的目的以及標(biāo)注規(guī)范等。當(dāng)使用標(biāo)注平臺進(jìn)行標(biāo)注時,可根據(jù)上傳的不同類型的數(shù)據(jù),劃分不
同任務(wù)模塊,再進(jìn)行相關(guān)任務(wù)的創(chuàng)建。
創(chuàng)建任務(wù)包括:
a)明確任務(wù)基本信息:包含任務(wù)目的、任務(wù)需求(任務(wù)的優(yōu)先級,對標(biāo)注人員能力要求的級別等)、
任務(wù)描述等;
b)任務(wù)配置:根據(jù)不同的任務(wù)需求,匹配不同的標(biāo)注工具,添加與標(biāo)注任務(wù)相關(guān)的標(biāo)注標(biāo)簽;
c)將數(shù)據(jù)路徑上傳至平臺;
d)通過版本控制,確保版本編號的一致。
5.5.2標(biāo)注任務(wù)的分發(fā)
根據(jù)任務(wù)發(fā)布者確定的參數(shù)及需求,將標(biāo)注任務(wù)分發(fā)給標(biāo)注人員。
標(biāo)注任務(wù)發(fā)布者在發(fā)布數(shù)據(jù)時,要明確以下幾項與標(biāo)注任務(wù)相關(guān)的參數(shù):
a)參與標(biāo)注人數(shù);
b)任務(wù)中子任務(wù)數(shù)量;
c)數(shù)據(jù)標(biāo)注員每人每天工作量;
d)回收子任務(wù)時間點;
e)任務(wù)結(jié)束時間點。
標(biāo)注任務(wù)的分發(fā)對象包含標(biāo)注人員和審核人員。標(biāo)注任務(wù)分發(fā)給標(biāo)注人員時,也應(yīng)將任務(wù)分發(fā)給審
核人。在標(biāo)注過程中,同時進(jìn)行標(biāo)注的審核工作,以便及時發(fā)現(xiàn)和解決問題,提高標(biāo)注效率。
在任務(wù)分發(fā)前,需確定每一個子任務(wù)分發(fā)標(biāo)注的人數(shù),如同一個子任務(wù)分發(fā)給多人參與,則需對每
個子任務(wù)的回收結(jié)果進(jìn)行比對,不同標(biāo)注任務(wù)可根據(jù)具體情況(如成本和時間需求)決定同一個子任務(wù)
是否需多人標(biāo)注。
分發(fā)時,按照任務(wù)具體信息和標(biāo)注需求,分配給相應(yīng)的數(shù)據(jù)標(biāo)注員,實現(xiàn)數(shù)據(jù)標(biāo)注任務(wù)的優(yōu)化調(diào)度,
提高數(shù)據(jù)標(biāo)注的效率和質(zhì)量。
不同標(biāo)注人力的供給方式也會影響標(biāo)注任務(wù)的分發(fā)形式:如使用第三方標(biāo)注服務(wù)公司的服務(wù),則只
需把標(biāo)注任務(wù)發(fā)送給第三方標(biāo)注服務(wù)公司,它會將標(biāo)注任務(wù)分發(fā)到具體標(biāo)注參與人員。
在標(biāo)注分發(fā)過程中,采用主動學(xué)習(xí)技術(shù)將提升標(biāo)注任務(wù)分發(fā)的效率。完成數(shù)據(jù)標(biāo)注前,通過標(biāo)注平
臺的主動學(xué)習(xí),模型可在剩余的待標(biāo)注數(shù)據(jù)中,篩選出對模型重要的數(shù)據(jù),優(yōu)先分發(fā)給標(biāo)注人員;其它
數(shù)據(jù)則可延后分發(fā),或不再分發(fā)給標(biāo)注人員。
5.5.3標(biāo)注任務(wù)的開展
標(biāo)注任務(wù)中數(shù)據(jù)標(biāo)注方法大致分為兩種:全人工標(biāo)注;半自動標(biāo)注。
全人工標(biāo)注的方式主要依靠人力進(jìn)行標(biāo)注,其標(biāo)注的數(shù)據(jù)較精準(zhǔn),當(dāng)標(biāo)注數(shù)據(jù)量較大時,會耗費較
多人力。
半自動標(biāo)注的方式采用訓(xùn)練好的模型對目標(biāo)數(shù)據(jù)進(jìn)行檢測,并用標(biāo)注工具完善。半自動標(biāo)注適用于
標(biāo)注數(shù)據(jù)量較大,標(biāo)注任務(wù)較簡單的標(biāo)注。半自動標(biāo)注建立在較成熟模型的基礎(chǔ)上,若檢測結(jié)果的準(zhǔn)確
度不夠,會增加工作量。
6
T/XXXXXXXX—XXXX
在全人工標(biāo)注中若對標(biāo)注結(jié)果準(zhǔn)確率要求較高,在標(biāo)注前需對標(biāo)注人員進(jìn)行相關(guān)任務(wù)培訓(xùn)。培訓(xùn)內(nèi)
容為標(biāo)注工具或平臺的使用方法及規(guī)定、標(biāo)注的任務(wù)目的、標(biāo)注內(nèi)容和標(biāo)準(zhǔn)(依據(jù)不同標(biāo)注任務(wù)制定不
同標(biāo)注計劃)。
在標(biāo)注人員標(biāo)注前期,需建立標(biāo)注者與標(biāo)注數(shù)據(jù)使用者之間的反饋機(jī)制,確保兩者間信息同步。這
可有效解決標(biāo)注者在標(biāo)注過程中出現(xiàn)的信息不對稱(如標(biāo)注數(shù)據(jù)使用者對標(biāo)注者最新的標(biāo)注要求)等問
題。
標(biāo)注時,可根據(jù)標(biāo)注規(guī)則對少量樣本先行試標(biāo)注,將試標(biāo)注結(jié)果反饋給數(shù)據(jù)需求方,確認(rèn)標(biāo)注結(jié)果
正確無誤后,再批量開展數(shù)據(jù)標(biāo)注任務(wù)。
5.5.4標(biāo)注任務(wù)的回收
在項目協(xié)定的任務(wù)將要完成時,項目負(fù)責(zé)人需回收標(biāo)注作業(yè),且需保證已分配的任務(wù)能被完整交付。
自營的標(biāo)注團(tuán)隊可直接向標(biāo)注人員或標(biāo)注小組負(fù)責(zé)人收?。坏谌綐?biāo)注服務(wù)公司需提前聯(lián)系項目負(fù)責(zé)
人,保證外部團(tuán)隊能按時交付;眾包平臺的回收任務(wù)只需保證任務(wù)完成的時間設(shè)置合理、參與者能及時
提交任務(wù)即可?;厥窄h(huán)節(jié)中需注意個別情況和變化的出現(xiàn),如果標(biāo)注人員未能按時交付,則需由候補成
員繼續(xù)完成剩余任務(wù),以保證標(biāo)注任務(wù)進(jìn)度。
5.6標(biāo)注結(jié)果的質(zhì)檢和質(zhì)量控制
5.6.1質(zhì)量檢查
質(zhì)量檢查能夠確保數(shù)據(jù)標(biāo)注結(jié)果有價值,符合數(shù)據(jù)需求方的特定應(yīng)用目的。根據(jù)項目特性,質(zhì)量檢
查方法可以歸納為以下幾種,標(biāo)注項目負(fù)責(zé)人需要根據(jù)場景需求及項目特點進(jìn)行選擇:
a)逐條檢查:即對整個標(biāo)注項目所包含的所有標(biāo)注子任務(wù)逐一核查并確認(rèn)。適用于項目量級不大、
人力資源充沛、時間節(jié)點不緊張、對標(biāo)注數(shù)據(jù)結(jié)果的準(zhǔn)確率要求極高的標(biāo)注項目。這種方法覆
蓋的質(zhì)檢范圍最全,同時也適用于任何形式的數(shù)據(jù)標(biāo)注場景。該方法可確保標(biāo)注數(shù)據(jù)輸出的最
高質(zhì)量,尤其對于數(shù)據(jù)格式主觀成分較多、應(yīng)用場景較復(fù)雜的任務(wù)更有效;
b)按比例抽查:即從全部標(biāo)注數(shù)據(jù)中科學(xué)地抽取樣本,對樣本中的數(shù)據(jù)逐條檢查,以此評判全部
標(biāo)注數(shù)據(jù)的質(zhì)量。樣本量的選擇需符合統(tǒng)計學(xué)基本原理,足以代表全部標(biāo)注數(shù)據(jù)。抽查審核時,
項目負(fù)責(zé)人可指派較有經(jīng)驗的審核員完成,從而確保交付質(zhì)量;
c)抽樣檢驗又可分為以下三種:
1)簡單抽樣:以等概率抽取n件待檢測樣本的方法,必須注意:不能有意識抽取好的或差的,
也不能僅抽取表面擺放的或容易抽取的;
2)系統(tǒng)抽樣:每隔一定時間或一定編號進(jìn)行檢測,而每一次又是從一定時間間隔內(nèi)生產(chǎn)出的
產(chǎn)品或一段編號產(chǎn)品中任意抽取一個或幾個樣本的方法;
3)分層抽樣:當(dāng)不同類型產(chǎn)品有不同的加工環(huán)境(如操作者、不同算法)時,對其質(zhì)量進(jìn)行
評估時的抽樣方法。
d)機(jī)器驗證:通過機(jī)器學(xué)習(xí),包括使用已訓(xùn)練模型進(jìn)行檢查或使用遷移學(xué)習(xí)、在線學(xué)習(xí)等方法對
人工標(biāo)注的數(shù)據(jù)做質(zhì)量檢查,實現(xiàn)全自動或輔助人工質(zhì)檢方式。機(jī)器學(xué)習(xí)方法輸出的準(zhǔn)確率不
能完全代表數(shù)據(jù)集的準(zhǔn)確率,但能在一定程度上反映數(shù)據(jù)集的質(zhì)量。
在質(zhì)量檢查過程中,需要設(shè)定質(zhì)檢間隔,防止由于一次性不合格數(shù)據(jù)積壓過多而導(dǎo)致延誤交付。還
需要根據(jù)算法要求設(shè)定質(zhì)檢合格率,增加標(biāo)注人員容錯率。
5.6.2質(zhì)量控制
7
T/XXXXXXXX—XXXX
與質(zhì)檢面向結(jié)果不同,質(zhì)量控制面向過程,確保標(biāo)注過程可控,并產(chǎn)生預(yù)期的結(jié)果。在標(biāo)注過程中,
需要對數(shù)據(jù)質(zhì)量及其行為進(jìn)行規(guī)范和檢測,及時預(yù)警反饋,查明低質(zhì)量數(shù)據(jù)原因,以此控制標(biāo)注數(shù)據(jù)的
質(zhì)量。質(zhì)量控制的方法根據(jù)項目特性可歸納為以下四種:
a)多人驗證:即在任務(wù)進(jìn)行期間,安排超過一名人員做同一個子任務(wù),通過標(biāo)注工具的功能自動
或人工輔助選擇出最優(yōu)、最正確的標(biāo)注結(jié)果;
b)埋題驗證:即在任務(wù)進(jìn)行期間,除了常規(guī)標(biāo)注子任務(wù)外,在任務(wù)中混進(jìn)若干已知結(jié)果的測試題,
以此驗證一線操作標(biāo)注人員的標(biāo)注水平。這種方法適用于標(biāo)注作業(yè)進(jìn)行中,有助于項目負(fù)責(zé)人
監(jiān)控標(biāo)注人員的水平,及時發(fā)現(xiàn)潛在問題。雖然這種方法不能完全代表標(biāo)注數(shù)據(jù)成果的質(zhì)量,
但在一定程度上說明標(biāo)注人員的認(rèn)真程度及標(biāo)注能力;
c)標(biāo)注人員狀態(tài)驗證:通過一定方法對標(biāo)注人員的操作規(guī)范性、實時注意力狀態(tài)、標(biāo)注準(zhǔn)確率等
方面進(jìn)行檢查與監(jiān)測,及時發(fā)現(xiàn)操作違規(guī)問題,保證數(shù)據(jù)質(zhì)量;
d)機(jī)器驗證:在任務(wù)進(jìn)行期間使用機(jī)器學(xué)習(xí)方法,得到數(shù)據(jù)準(zhǔn)確率,一旦發(fā)現(xiàn)離群點或明顯的降
低趨勢,及時對標(biāo)注人員預(yù)警和警告。
5.6.3質(zhì)量檢查與控制中合格標(biāo)準(zhǔn)的確認(rèn)
在標(biāo)注結(jié)果的質(zhì)量檢查和控制環(huán)節(jié),需在抽查前建立并確認(rèn)合格標(biāo)準(zhǔn),并在相關(guān)環(huán)節(jié)貫徹實施。合
格標(biāo)準(zhǔn)應(yīng)具備可量化特性;在醫(yī)學(xué)和其他關(guān)鍵行業(yè),數(shù)據(jù)標(biāo)注質(zhì)量的合格標(biāo)準(zhǔn)還需遵從國家法規(guī)和行業(yè)
規(guī)范的約束,如數(shù)據(jù)標(biāo)注結(jié)果需由有資質(zhì)的第三方邀請有資質(zhì)和從業(yè)經(jīng)驗的專家進(jìn)行驗證。從而確保標(biāo)
注結(jié)果的質(zhì)量,并使得標(biāo)注結(jié)果的質(zhì)量檢查和控制流程有據(jù)可依。
5.7標(biāo)注結(jié)果輸出交付規(guī)范
5.7.1圖像類型的數(shù)據(jù)
圖像類標(biāo)注任務(wù)的數(shù)據(jù)結(jié)果為帶有標(biāo)簽的數(shù)據(jù),包含標(biāo)簽的具體內(nèi)容,及此圖像標(biāo)簽對應(yīng)的圖像空
間位置(可選)。不同的標(biāo)注任務(wù)和要求會產(chǎn)出不同的結(jié)果,但不影響定義數(shù)據(jù)格式及組成部分。
輸出格式推薦使用易解析、易存儲的數(shù)據(jù)格式,格式包括但不限于json或xml。標(biāo)注文件應(yīng)該包含
標(biāo)注詳細(xì)的標(biāo)簽信息。每個獨立的標(biāo)簽需包含以下的信息:
a)標(biāo)簽id:每個標(biāo)簽的獨立編號;
b)文件路徑:待標(biāo)注圖像的名稱或路徑;
c)置信度:各標(biāo)簽的置信度;
d)每個標(biāo)簽中可能包含多個對象,對于每個對象需要定義:
1)對象類型:比如bounding_box或者keypoint;
2)對象詳情:為對象的空間信息、內(nèi)容信息,或與其它對象的關(guān)系信息。每個對象的詳情因
其類型而異。
5.7.2文本類型的數(shù)據(jù)
文本類標(biāo)注任務(wù)的數(shù)據(jù)結(jié)果包含文本標(biāo)簽的位置和標(biāo)簽的具體內(nèi)容。不同標(biāo)注任務(wù)和要求會產(chǎn)出不
同的結(jié)果,但不影響定義數(shù)據(jù)格式及組成部分。
標(biāo)注文件的輸出格式推薦使用易解析、易存儲的數(shù)據(jù)格式,包括json、xml、txt等。標(biāo)注文件應(yīng)該
包含詳細(xì)的標(biāo)簽信息。每個獨立的label需包含以下的信息:
a)標(biāo)簽id:每個標(biāo)簽的獨立編號;
b)文件路徑:待標(biāo)注文本的文件鏈接;
c)原始文本:待標(biāo)注文本的全部內(nèi)容(文本標(biāo)注任務(wù)僅需提供文件路徑或原始文本中的一個);
8
T/XXXXXXXX—XXXX
d)置信度:為標(biāo)簽的置信度;
e)每個標(biāo)簽中可能包含多個對象,對于每個對象需要定義:
1)對象類型:比如text_classification或者text_tag;
2)對象詳情:對象的具體文本位置和內(nèi)容信息,或與其它對象的關(guān)系信息。每個對象的詳情
因其類型而異。
5.7.3語音類型的數(shù)據(jù)
語音類標(biāo)注任務(wù)的數(shù)據(jù)結(jié)果包含語音標(biāo)簽的時間位置和標(biāo)簽的具體內(nèi)容(例如轉(zhuǎn)寫內(nèi)容、說話人信
息、噪聲等)。不同標(biāo)注任務(wù)和要求會產(chǎn)出不同的結(jié)果,但不影響定義數(shù)據(jù)格式及組成部分。
標(biāo)注文件的輸出格式為json文件或其他通用輸出格式,其中文件應(yīng)詳細(xì)的標(biāo)簽信息。每個獨立的標(biāo)
簽需包含以下的信息:
a)標(biāo)簽id:每個標(biāo)簽的獨立編號;
b)文件路徑:待標(biāo)注音頻名稱或路徑;
c)置信度:標(biāo)簽的置信度;
d)如果是單句錄音,則每個標(biāo)簽中包含一個對象;如果是多句錄音,則每個標(biāo)簽中包含多個對象。
每個標(biāo)注對象應(yīng)包括:
1)對象類型,比如speech_to_text;
2)對象詳情,包括對象具體時間位置和內(nèi)容信息,或與其他對象的關(guān)系信息;每個對象的詳
情因其類型而異,說話者的信息以及噪音標(biāo)簽等都可以放在對象詳情中。
5.7.4視頻類型的數(shù)據(jù)
視頻類標(biāo)注任務(wù)的數(shù)據(jù)結(jié)果可包含視頻標(biāo)簽的時間位置、空間位置和標(biāo)簽信息等內(nèi)容。不同標(biāo)注任
務(wù)和要求會產(chǎn)出不同的結(jié)果,但不影響定義數(shù)據(jù)格式及組成部分。
標(biāo)注文件的輸出格式推薦使用易解析、易存儲的數(shù)據(jù)格式,包括json、xml等。標(biāo)注文件應(yīng)該包含
詳細(xì)的標(biāo)簽信息。每個獨立的標(biāo)簽需包含以下的信息:
a)標(biāo)簽:id每個標(biāo)簽的獨立編號;
b)文件路徑:待標(biāo)注視頻文件名稱或路徑;
c)置信度:為標(biāo)簽的置信度;
d)每個標(biāo)簽中可能包含多個對象,對于每個對象需包含:
1)對象類型:例如scene_classification;
2)對象詳情:具體描述對象的時間、空間信息和內(nèi)容信息,或與其他object的關(guān)系信息;
每個對象的詳情因其類型而異。對于視頻中起始和結(jié)束幀的位置描述也應(yīng)該放到對象詳情
中,比如Object_frame_index_start以及Object_frame_index_end。
5.7.5其它
醫(yī)學(xué)影像數(shù)據(jù)具有其特殊性,因此在此單獨定義輸出標(biāo)準(zhǔn)。
對于DICOM類型的數(shù)據(jù),按照ISO12052的要求,參照前述圖像、文本、語音和視頻數(shù)據(jù)的輸出格
式,存儲在DICOM數(shù)據(jù)格式的相應(yīng)標(biāo)簽和數(shù)據(jù)集合中。
5.8數(shù)據(jù)交付和驗收
5.8.1數(shù)據(jù)交付
數(shù)據(jù)交付時,標(biāo)注團(tuán)隊需對最終提交的數(shù)據(jù)量進(jìn)行說明。交付的內(nèi)容包括:
9
T/XXXXXXXX—XXXX
a)標(biāo)注結(jié)果(必選);
b)交付和說明文檔(可選);
c)關(guān)于標(biāo)注數(shù)據(jù)的Metadata(非必選),包括描述原始數(shù)據(jù)的元信息,比如圖像的采集地點、
光線、拍攝角度或音頻的采集時間、聲道數(shù)量等;
d)原始數(shù)據(jù)(非必選,有時數(shù)據(jù)使用方可直接訪問原始數(shù)據(jù),則無需單獨交付原始數(shù)據(jù))。
交付的文件存儲結(jié)構(gòu)可參考以下:
圖2參考交付文件
說明:
Data——數(shù)據(jù)文件夾
doc——說明文檔文件夾(可選)
.json——(或.xsml等)標(biāo)注結(jié)果文件,可以每一個label單存一個標(biāo)注結(jié)果文件,或者是所有l(wèi)abel
的結(jié)果在一個標(biāo)注文件中
原始文件——為單條標(biāo)注結(jié)果對應(yīng)的原始文件,如圖片、音頻、文本、視頻
metadata——原始文件元信息(非必備)
5.8.2數(shù)據(jù)驗收
數(shù)據(jù)標(biāo)注團(tuán)隊在交付數(shù)據(jù)后,數(shù)據(jù)需求方應(yīng)在數(shù)據(jù)驗收期內(nèi)完成對數(shù)據(jù)標(biāo)注結(jié)果的驗收工作,驗收
方式包括抽樣驗收和逐一驗收兩種。若驗收數(shù)據(jù)質(zhì)量未達(dá)到預(yù)期值,數(shù)據(jù)需求方可要求數(shù)據(jù)服務(wù)提供商
對數(shù)據(jù)進(jìn)行修正。
_________________________________
10
T/XXXXXXXX—XXXX
中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(CESA)是全國電子信息產(chǎn)業(yè)標(biāo)準(zhǔn)化組織和標(biāo)準(zhǔn)化工作者自愿組成的
社會團(tuán)體。廣泛聯(lián)系全國電子信息產(chǎn)業(yè)標(biāo)準(zhǔn)化機(jī)構(gòu)和標(biāo)準(zhǔn)化工作者,協(xié)助政府部門搞好電子信息產(chǎn)業(yè)標(biāo)
準(zhǔn)化工作,開拓信息技術(shù)領(lǐng)域的標(biāo)準(zhǔn)化工作是中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會的主要工作內(nèi)容之一。中國
境內(nèi)從事科研開發(fā)、制造、營銷和服務(wù)的企事業(yè)單位、高等院校、社會組織和個人均可隨時向中國電子
工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會團(tuán)體標(biāo)準(zhǔn)工作部提出團(tuán)體標(biāo)準(zhǔn)項目建議。
中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會標(biāo)準(zhǔn)按照《電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會協(xié)會團(tuán)體標(biāo)準(zhǔn)管理辦法》進(jìn)行制
定和管理。
在本標(biāo)準(zhǔn)實施過程中,如發(fā)現(xiàn)需要修改或補充之處,請將意見和有關(guān)資料寄至中國電子工業(yè)標(biāo)準(zhǔn)化
技術(shù)協(xié)會,以便修訂時參考。
本標(biāo)準(zhǔn)版權(quán)歸中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會所有。
中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會地址:北京市海淀區(qū)萬壽路27號
電話子郵箱:standards@
網(wǎng)址:
11
T/XXXXXXXX—XXXX
目??次
前??言.............................................................................................................................................................III
1范圍...................................................................................................................................................................1
2規(guī)范性引用文件...............................................................................................................................................1
3術(shù)語和定義.......................................................................................................................................................1
4概述...................................................................................................................................................................2
5數(shù)據(jù)標(biāo)注流程...................................................................................................................................................3
5.1定義所需數(shù)據(jù)和預(yù)估數(shù)據(jù)量...................................................................................................................3
5.2確定標(biāo)注說明規(guī)則...................................................................................................................................3
5.3確定標(biāo)注人力供給方式...........................................................................................................................5
5.4標(biāo)注工具和標(biāo)注平臺的選擇...................................................................................................................5
5.5標(biāo)注任務(wù)的創(chuàng)建、分發(fā)、開展和回收...................................................................................................5
5.6標(biāo)注結(jié)果的質(zhì)檢和質(zhì)量控制...................................................................................................................7
5.7標(biāo)注結(jié)果輸出交付規(guī)范...........................................................................................................................8
5.8數(shù)據(jù)交付和驗收.......................................................................................................................................9
II
T/XXXXXXXX—XXXX
信息技術(shù)人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程
1范圍
本標(biāo)準(zhǔn)給出了面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注流程框架,包括數(shù)據(jù)標(biāo)注前期準(zhǔn)備、數(shù)據(jù)標(biāo)注任務(wù)執(zhí)行以及
標(biāo)注數(shù)據(jù)結(jié)果輸出三個階段。
本標(biāo)準(zhǔn)適用于面向人工智能研究或開發(fā)應(yīng)用等需要實施數(shù)據(jù)標(biāo)注的企業(yè)、高校、科研院所、政府機(jī)
構(gòu)等。
2規(guī)范性引用文件
下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。
凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
3術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1
數(shù)據(jù)標(biāo)注dataannotation
對文本、圖像、語音、視頻等待標(biāo)注數(shù)據(jù)進(jìn)行歸類、整理、編輯、糾錯、標(biāo)記和批注等操作,為待
標(biāo)注數(shù)據(jù)增加標(biāo)簽,生成滿足機(jī)器學(xué)習(xí)訓(xùn)練要求的機(jī)器可讀數(shù)據(jù)編碼。
3.2
標(biāo)簽label
標(biāo)識數(shù)據(jù)的特征、類別和屬性等,可用于建立數(shù)據(jù)及機(jī)器學(xué)習(xí)訓(xùn)練要求所定義的機(jī)器可讀數(shù)據(jù)編碼
間的聯(lián)系。
3.3
標(biāo)注任務(wù)annotationtask
按照數(shù)據(jù)標(biāo)注規(guī)范對指定數(shù)據(jù)集進(jìn)行標(biāo)注的過程。
3.4
數(shù)據(jù)標(biāo)注員datalabeler
負(fù)責(zé)對文本、圖像、語音、視頻等待標(biāo)注數(shù)據(jù)進(jìn)行歸類、整理、編輯、糾錯、標(biāo)記和批注等操作的
工作人員。
1
T/XXXXXXXX—XXXX
3.5
標(biāo)注工具annotationtool
數(shù)據(jù)標(biāo)注員完成標(biāo)注任務(wù)產(chǎn)生標(biāo)注結(jié)果時所需的工具和軟件。
注1:標(biāo)注工具可生成標(biāo)簽并提供參考模板。
注2:不同的數(shù)據(jù)類型和標(biāo)注任務(wù)需要不同的標(biāo)注工具。標(biāo)注工具按自動化程度可分為手動、半自動、自動三種。
3.6
標(biāo)注平臺annotationplatform
開展標(biāo)注任務(wù)的系統(tǒng)化框架。
注:標(biāo)注平臺在包含標(biāo)注工具全部功能的基礎(chǔ)上將所有標(biāo)注環(huán)節(jié)工具化,可有效地對標(biāo)注任務(wù)進(jìn)行全局管理和跟
蹤。
3.7
標(biāo)注說明規(guī)則annotationinstruction
數(shù)據(jù)需求方用于明確標(biāo)注任務(wù)和標(biāo)注數(shù)據(jù)的書面陳述,包含執(zhí)行標(biāo)注任務(wù)所需的標(biāo)注工具、任務(wù)描
述、標(biāo)注方法、正確示例、常見錯誤等內(nèi)容。
3.8
標(biāo)注方法annotationmethod
定義數(shù)據(jù)標(biāo)注員進(jìn)行數(shù)據(jù)標(biāo)注時的環(huán)境和流程,應(yīng)包含標(biāo)注對象定義、所用標(biāo)注工具和標(biāo)注平臺、
標(biāo)注格式、標(biāo)注前的準(zhǔn)備工作、標(biāo)注后的處理工作等。
3.9
眾包標(biāo)注crowdsourcingannotation
數(shù)據(jù)需求方公開發(fā)布標(biāo)注任務(wù),數(shù)據(jù)標(biāo)注員申領(lǐng)標(biāo)注任務(wù)并在規(guī)定時間內(nèi)完成標(biāo)注任務(wù)發(fā)回數(shù)據(jù)數(shù)
據(jù)需求方,數(shù)據(jù)需求方收集整理后獲得用于機(jī)器學(xué)習(xí)訓(xùn)練的標(biāo)注數(shù)據(jù)集的數(shù)據(jù)標(biāo)注過程。
3.10
半自動標(biāo)注semi-automaticannotation
使用人工結(jié)合自動化工具的方式進(jìn)行數(shù)據(jù)標(biāo)注。
4概述
本標(biāo)準(zhǔn)給出了數(shù)據(jù)標(biāo)注的流程框架,它包括標(biāo)注項目的前期準(zhǔn)備工作(包括對于所需數(shù)據(jù)的定義、
標(biāo)注規(guī)則的制定、標(biāo)注人力的確定);標(biāo)注任務(wù)的創(chuàng)建、分發(fā),開展、回收和標(biāo)注結(jié)果的質(zhì)檢和質(zhì)量控
制;標(biāo)注結(jié)果輸出的建議格式和交付。數(shù)據(jù)標(biāo)注流程框架見圖1:
a)定義所需數(shù)據(jù);
b)確定標(biāo)注說明規(guī)則;
c)確定標(biāo)注人力的供給方式;
2
T/XXXXXXXX—XXXX
d)標(biāo)注工具和平臺的選擇;
e)標(biāo)注任務(wù)的創(chuàng)建、分發(fā)、開展和回收;
f)標(biāo)注結(jié)果的質(zhì)檢和質(zhì)量控制;
g)標(biāo)注結(jié)果的輸出格式建議;
h)標(biāo)注數(shù)據(jù)的交付和驗收。
圖1數(shù)據(jù)標(biāo)注流程框架
5數(shù)據(jù)標(biāo)注流程
5.1定義所需數(shù)據(jù)和預(yù)估數(shù)據(jù)量
數(shù)據(jù)標(biāo)注前應(yīng)完成以下五項準(zhǔn)備工作:
a)對解決的問題進(jìn)行分析,明確機(jī)器學(xué)習(xí)和模型訓(xùn)練過程中所需的標(biāo)注數(shù)據(jù)類型、量級、用途及
應(yīng)用場景。分析維度包括:業(yè)務(wù)場景的針對性、標(biāo)注樣本的平衡性、前期經(jīng)驗及改進(jìn)措施的借
鑒等;
b)對數(shù)據(jù)進(jìn)行整理,明確數(shù)據(jù)與標(biāo)簽文件存放目錄結(jié)構(gòu),在任務(wù)分配與回收的時候應(yīng)按指定的目
錄進(jìn)行數(shù)據(jù)組織;
c)明確數(shù)據(jù)與標(biāo)簽文件的命名規(guī)則,命名規(guī)則應(yīng)避免數(shù)據(jù)更新迭代時的重名,便于數(shù)據(jù)追蹤、標(biāo)
注追蹤,數(shù)據(jù)文件名與標(biāo)簽文件名應(yīng)保持一致;
d)根據(jù)標(biāo)注任務(wù)的人力獲取模式、工具的選擇、標(biāo)注任務(wù)的類型、算法選擇以及整個項目的成本
對所需標(biāo)注數(shù)據(jù)量進(jìn)行預(yù)估;
e)與標(biāo)注人員溝通,明確標(biāo)注數(shù)據(jù)的定義并確定最終的需求量。
5.2確定標(biāo)注說明規(guī)則
5.2.1標(biāo)注說明規(guī)則的職責(zé)分工
3
T/XXXXXXXX—XXXX
數(shù)據(jù)需求方即業(yè)務(wù)數(shù)據(jù)需求方,指需要利用人工智能技術(shù)解決實際業(yè)務(wù)問題的業(yè)務(wù)團(tuán)隊。數(shù)據(jù)需求
方應(yīng)負(fù)責(zé)確保數(shù)據(jù)標(biāo)注的規(guī)則符合該領(lǐng)域的業(yè)務(wù)和專業(yè)常識,并根據(jù)標(biāo)注規(guī)則,檢查所標(biāo)注的數(shù)據(jù)是否
滿足數(shù)據(jù)需求方。
數(shù)據(jù)使用方指需要使用標(biāo)注數(shù)據(jù)訓(xùn)練人工智能模型的研發(fā)團(tuán)隊。數(shù)據(jù)使用方應(yīng)從機(jī)器學(xué)習(xí)算法角
度,確保標(biāo)注規(guī)則可滿足機(jī)器學(xué)習(xí)模型的訓(xùn)練要求,并根據(jù)該標(biāo)注規(guī)則,檢查標(biāo)注的數(shù)據(jù)支撐機(jī)器學(xué)習(xí)
模型達(dá)到數(shù)據(jù)需求方期望的精度。
數(shù)據(jù)需求方、數(shù)據(jù)使用方及數(shù)據(jù)標(biāo)注團(tuán)隊?wèi)?yīng)共同參與標(biāo)注說明規(guī)則的制定、調(diào)整、迭代、執(zhí)行的各
個環(huán)節(jié)。數(shù)據(jù)標(biāo)注團(tuán)隊?wèi)?yīng)從實際標(biāo)注角度出發(fā),確保標(biāo)注規(guī)則清晰、明確,以避免數(shù)據(jù)標(biāo)注員理解偏差,
進(jìn)而導(dǎo)致標(biāo)注結(jié)果不符合預(yù)期。
5.2.2標(biāo)注說明規(guī)則的定義
標(biāo)注說明規(guī)則應(yīng)明確項目的背景、意義及數(shù)據(jù)的應(yīng)用場景,且包含項目的標(biāo)注工具、任務(wù)描述、標(biāo)
注方法、正確示例、常見錯誤等內(nèi)容。
標(biāo)注說明規(guī)則應(yīng)有可變更性,該變更應(yīng)由相關(guān)方評審?fù)夂螅俑乱?guī)則文檔,且相關(guān)方應(yīng)沿用制
定規(guī)則時的基本原則及方法。
5.2.3標(biāo)注說明規(guī)則的內(nèi)容
標(biāo)準(zhǔn)說明規(guī)則包括但不限于:
a)項目背景:概述標(biāo)注項目的背景或數(shù)據(jù)標(biāo)注需求產(chǎn)生的場景;
b)版本信息:標(biāo)注該說明的當(dāng)前版本編號、發(fā)布日期、發(fā)布人、發(fā)布備注(發(fā)布原因或迭代原因)
及歷史迭代信息(歷代版本編號、發(fā)布日期、發(fā)布人、發(fā)布備注等);
c)任務(wù)描述:概括標(biāo)注項目的主要任務(wù),包括標(biāo)注項目的關(guān)鍵信息、數(shù)據(jù)形式、標(biāo)注平臺、主要
標(biāo)注方法、期望交付時間、正確率要求等;
d)保密責(zé)任:對于數(shù)據(jù)的密級程度,數(shù)據(jù)需求方須在規(guī)則中列明,明確保密責(zé)任,標(biāo)注方對當(dāng)前
承擔(dān)的數(shù)據(jù)標(biāo)注任務(wù)承擔(dān)保密職責(zé)(例如雷達(dá)數(shù)據(jù)標(biāo)注等任務(wù)需要);
e)標(biāo)注方法:給出數(shù)據(jù)需求方所需數(shù)據(jù)對象的嚴(yán)謹(jǐn)定義,明確在協(xié)定的標(biāo)注平臺上使用何種標(biāo)注
組件、標(biāo)簽及全部操作。標(biāo)注方法的衡量標(biāo)準(zhǔn),以標(biāo)注人員掌握標(biāo)注方法后,能立刻正確操作
一次標(biāo)注;
f)正確示例:通過圖片、圖文、視頻等的形式,示范正確的標(biāo)注方法或成果,數(shù)據(jù)需求方應(yīng)明確
數(shù)據(jù)產(chǎn)出,標(biāo)注方應(yīng)明確標(biāo)注認(rèn)識,標(biāo)注樣例應(yīng)覆蓋
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 現(xiàn)代產(chǎn)品設(shè)計中的民族圖案與色彩研究
- 現(xiàn)代紋樣設(shè)計在商業(yè)品牌推廣中的應(yīng)用實踐
- 現(xiàn)代辦公環(huán)境下的AI餐廳服務(wù)應(yīng)用研究
- 現(xiàn)代物流行業(yè)的服務(wù)創(chuàng)新與升級
- 現(xiàn)代辦公環(huán)境下的報告制作技巧
- 2024年五年級語文上冊 第六單元 口語交際:父母之愛說課稿 新人教版
- Module7 Unit2 This little girl can't walk(Period 1) (說課稿) -2024-2025學(xué)年外研版(三起)英語五年級上冊
- 7《什么比獵豹的速度更快》說課稿-2024-2025學(xué)年五年級上冊語文統(tǒng)編版001
- 13美麗的冬天 說課稿-2024-2025學(xué)年道德與法治一年級上冊統(tǒng)編版
- 2024-2025學(xué)年高中化學(xué) 第1章 第4節(jié) 第2課時 有機(jī)物分子式與分子結(jié)構(gòu)的確定說課稿 新人教版選修5
- 福建省泉州市晉江市2024-2025學(xué)年七年級上學(xué)期期末生物學(xué)試題(含答案)
- 2025年春新人教版物理八年級下冊課件 第十章 浮力 第4節(jié) 跨學(xué)科實踐:制作微型密度計
- 貨運車輛駕駛員服務(wù)標(biāo)準(zhǔn)化培訓(xùn)考核試卷
- 財務(wù)BP經(jīng)營分析報告
- 三年級上冊體育課教案
- 2024高考物理二輪復(fù)習(xí)電學(xué)實驗專項訓(xùn)練含解析
- 2024年全國統(tǒng)一高考英語試卷(新課標(biāo)Ⅰ卷)含答案
- 高中英語:倒裝句專項練習(xí)(附答案)
- 2025屆河北衡水?dāng)?shù)學(xué)高三第一學(xué)期期末統(tǒng)考試題含解析
- 運動技能學(xué)習(xí)原理(2)
- 韓語服裝常用單詞
評論
0/150
提交評論