T∕ISC 0005-2020 針對(duì)內(nèi)容安全的人工智能數(shù)據(jù)標(biāo)注指南_第1頁(yè)
T∕ISC 0005-2020 針對(duì)內(nèi)容安全的人工智能數(shù)據(jù)標(biāo)注指南_第2頁(yè)
T∕ISC 0005-2020 針對(duì)內(nèi)容安全的人工智能數(shù)據(jù)標(biāo)注指南_第3頁(yè)
T∕ISC 0005-2020 針對(duì)內(nèi)容安全的人工智能數(shù)據(jù)標(biāo)注指南_第4頁(yè)
T∕ISC 0005-2020 針對(duì)內(nèi)容安全的人工智能數(shù)據(jù)標(biāo)注指南_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2020-09-24發(fā)布2020-12-01實(shí)施I III 1 13術(shù)語(yǔ)和定義 14概述 25需求承接 2 2 35.3需求確認(rèn) 36標(biāo)注準(zhǔn)備 3 3 36.3操作規(guī)程 36.4質(zhì)檢方案 36.5工具/平臺(tái) 46.6人員能力 46.7試標(biāo)注 4 47標(biāo)注 47.1實(shí)施標(biāo)注 47.2進(jìn)度管理 57.3質(zhì)量控制 57.4交付、驗(yàn)收 58模型訓(xùn)練 58.1模型訓(xùn)練 58.2模型驗(yàn)證 59上線運(yùn)行 5 6 69.3持續(xù)改進(jìn) 6 7本文件按照GB/T1.1-20200《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定本文件由中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)標(biāo)準(zhǔn)工作委員會(huì)提出并歸口。本文件起草單位:深圳市騰訊計(jì)算機(jī)系統(tǒng)有限公司、北京奇藝世紀(jì)科技有限公司、北京深度搜索科技有限公司、工業(yè)和信息化部電子第五研究所。本文件主要起草人:楊曉光、鞠奇、馬臣、王駿、詹博、鄧?yán)碛?、陳永智、劉翠香、董奕、符妍、黃佳、李久龍、周循道、黃林軼。隨著《中華人民共和國(guó)國(guó)家安全法》、《中華人民共和國(guó)網(wǎng)絡(luò)安全法》、《互聯(lián)網(wǎng)信息服務(wù)管理辦法》、《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》等法律規(guī)章制度的發(fā)布,網(wǎng)絡(luò)運(yùn)營(yíng)者有責(zé)任營(yíng)造清朗的網(wǎng)絡(luò)空間、建設(shè)良好的網(wǎng)絡(luò)生態(tài)目標(biāo),開(kāi)展弘揚(yáng)正能量、處置違法和不良信息。使用人工智能技術(shù)能夠幫助網(wǎng)絡(luò)運(yùn)營(yíng)者及時(shí)地發(fā)現(xiàn)和處置網(wǎng)絡(luò)上的違法、不良信息。數(shù)據(jù)是人工智能技術(shù)的“原料”,數(shù)據(jù)標(biāo)注則是將“原料”轉(zhuǎn)化為機(jī)器可識(shí)別的信息的過(guò)程。本標(biāo)準(zhǔn)的作用是給數(shù)據(jù)標(biāo)注過(guò)程提供指南,為機(jī)器提供優(yōu)質(zhì)的數(shù)據(jù)“原料”,提高機(jī)器識(shí)別違法、不良的信息的準(zhǔn)確性。本文件也可以為其他應(yīng)用領(lǐng)域,如智慧城市、自動(dòng)駕駛、語(yǔ)音識(shí)別等的人工智能技術(shù)做參考。11范圍僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本GB/T35273-2020信息安全技術(shù)個(gè)人信息安全規(guī)范GB/T37964-2019信息安全技術(shù)個(gè)人信息去標(biāo)識(shí)化指南2開(kāi)展標(biāo)注任務(wù)的系統(tǒng)化框架。數(shù)據(jù)預(yù)處理datapreprocessing為提升數(shù)據(jù)標(biāo)注的效率、質(zhì)量、降低人力參與強(qiáng)度,對(duì)原始數(shù)據(jù)進(jìn)行預(yù)先處理,其中包括:數(shù)據(jù)篩選、數(shù)據(jù)切分、機(jī)器半自動(dòng)預(yù)標(biāo)等過(guò)程。數(shù)據(jù)標(biāo)注后提交給需求方做模型訓(xùn)練樣本的數(shù)據(jù)。數(shù)據(jù)標(biāo)注員/團(tuán)隊(duì)datalabeler/te對(duì)文本、圖像、音頻、視頻、3D點(diǎn)云等原始數(shù)據(jù)進(jìn)行歸類(lèi)、整理、糾錯(cuò)、轉(zhuǎn)錄、翻譯、編輯和添加標(biāo)簽等操作的工作人員或團(tuán)隊(duì)。本文件給出了針對(duì)內(nèi)容安全的人工智能數(shù)據(jù)標(biāo)注的主要過(guò)程,其中包括:需求承接、標(biāo)注準(zhǔn)備、正式標(biāo)注、驗(yàn)收交付、訓(xùn)練模型、上線準(zhǔn)備等。數(shù)據(jù)標(biāo)注流程架構(gòu)見(jiàn)圖1:承接需求承接需求標(biāo)注準(zhǔn)備標(biāo)注驗(yàn)收交付模型訓(xùn)練圖1數(shù)據(jù)標(biāo)注流程架構(gòu)5需求承接標(biāo)注團(tuán)隊(duì)與需求方應(yīng)明確標(biāo)注規(guī)模、標(biāo)注形式、標(biāo)注方法、標(biāo)簽標(biāo)準(zhǔn)、數(shù)據(jù)安全要求、標(biāo)注復(fù)雜度、標(biāo)注數(shù)據(jù)格式、工期約定、準(zhǔn)確率要求、數(shù)據(jù)交付格式、說(shuō)明文檔以及培訓(xùn)細(xì)節(jié)。35.2需求評(píng)估標(biāo)注團(tuán)隊(duì)?wèi)?yīng)對(duì)承接的需求進(jìn)行評(píng)估,形成評(píng)估結(jié)論。評(píng)估結(jié)論應(yīng)包括現(xiàn)有資源能否承接該需求,需求實(shí)現(xiàn)路徑,以及評(píng)估新增需求對(duì)現(xiàn)有需求的影響范圍,需求承接方案等內(nèi)容。5.3需求確認(rèn)標(biāo)注團(tuán)隊(duì)?wèi)?yīng)與需求方協(xié)商一致,將最終確認(rèn)的需求形成文檔并留存。6標(biāo)注準(zhǔn)備6.1數(shù)據(jù)獲取標(biāo)注團(tuán)隊(duì)?wèi)?yīng)根據(jù)需求內(nèi)容,識(shí)別可獲取的標(biāo)注數(shù)據(jù)源渠道,評(píng)估數(shù)據(jù)源渠道的可行性,確認(rèn)完成標(biāo)注需求所需標(biāo)注數(shù)據(jù)源構(gòu)成。數(shù)據(jù)獲取過(guò)程中個(gè)人信息保護(hù),應(yīng)滿(mǎn)足GB/T35273-2020。數(shù)據(jù)去標(biāo)識(shí)化處理的方法,應(yīng)滿(mǎn)足GB/T37964-2019。6.2數(shù)據(jù)預(yù)處理標(biāo)注團(tuán)隊(duì)?wèi)?yīng)根據(jù)標(biāo)注需求以及標(biāo)注數(shù)據(jù)的特性,通過(guò)數(shù)據(jù)聚類(lèi)、組合排列、數(shù)據(jù)雜質(zhì)去除等方法,提高標(biāo)注數(shù)據(jù)的有效性、標(biāo)注效率、標(biāo)注質(zhì)量。數(shù)據(jù)預(yù)處理方法參見(jiàn)表1:維度共性無(wú)效樣本分類(lèi)識(shí)別主動(dòng)學(xué)習(xí)多模態(tài)技術(shù)疊加,多個(gè)數(shù)據(jù)預(yù)處理流程疊加6.3操作規(guī)程標(biāo)注團(tuán)隊(duì)?wèi)?yīng):a)根據(jù)已確認(rèn)的標(biāo)注需求,形成標(biāo)準(zhǔn)化的操作規(guī)程;b)確保執(zhí)行數(shù)據(jù)標(biāo)注任務(wù)的相關(guān)人員了解操作規(guī)程。6.4質(zhì)檢方案標(biāo)注團(tuán)隊(duì)?wèi)?yīng):a)制定質(zhì)檢方案,確保標(biāo)注結(jié)果質(zhì)量。方案內(nèi)容包括但不限于: 4 b)保留質(zhì)檢方案的相關(guān)成文信息。6.5工具/平臺(tái)標(biāo)注團(tuán)隊(duì)?wèi)?yīng)根據(jù)需求準(zhǔn)備相應(yīng)的標(biāo)注工具/平臺(tái),如線下工具、平臺(tái)復(fù)用a)對(duì)文本、圖像、視頻、音頻、3D點(diǎn)云數(shù)據(jù)等各類(lèi)數(shù)據(jù)進(jìn)行標(biāo)注;b)權(quán)限管理,包括:創(chuàng)建賬號(hào)、授權(quán)管理、權(quán)限審批、角色配置;c)人員管理,包括:角色配置、績(jī)效管理;e)版本管理,對(duì)標(biāo)注內(nèi)容和結(jié)果進(jìn)行版本管理和控制。6.6人員能力a)確定數(shù)據(jù)標(biāo)注員和質(zhì)檢人員所需具備的能力,這些人員從事的工作影響標(biāo)注的質(zhì)量和有效性;b)基于適當(dāng)?shù)慕逃?、培?xùn)和經(jīng)驗(yàn)(知識(shí)庫(kù)),確保這些人員是勝任的;6.7試標(biāo)注a)在正式標(biāo)注前,小范圍抽取數(shù)據(jù)標(biāo)注員進(jìn)行試標(biāo)注、質(zhì)檢團(tuán)隊(duì)試質(zhì)檢,試運(yùn)行標(biāo)注的全過(guò)程;b)對(duì)試標(biāo)注的數(shù)據(jù)量的大小、百分比等因素進(jìn)行限定;c)保留試標(biāo)注以及因試標(biāo)注引起的對(duì)標(biāo)注需求、標(biāo)注操作規(guī)程、質(zhì)檢方案變更相關(guān)的成文信息。a)資源規(guī)劃,如數(shù)據(jù)源、標(biāo)注工具/平臺(tái);f)應(yīng)急預(yù)案等。7標(biāo)注57.2進(jìn)度管理7.3質(zhì)量控制標(biāo)注團(tuán)隊(duì)?wèi)?yīng)按照已定的質(zhì)檢方案進(jìn)行質(zhì)量控制。質(zhì)量控制方法包括但不限于如下方式,見(jiàn)表2:多人驗(yàn)證多人做同一個(gè)子任務(wù),通過(guò)標(biāo)注工具的功能自動(dòng)或人工輔助選已知結(jié)果的測(cè)試題,以此驗(yàn)證一線操作標(biāo)注人員的標(biāo)注水平。證數(shù)據(jù)質(zhì)量?,F(xiàn)離群點(diǎn)或明顯的降低趨勢(shì),及時(shí)對(duì)標(biāo)注人員8模型訓(xùn)練8.1模型訓(xùn)練9上線運(yùn)行69.1模型測(cè)試數(shù)據(jù)使用方應(yīng)在上線后對(duì)模型的應(yīng)用效果進(jìn)行

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論