《電力人工智能平臺(tái)樣本標(biāo)準(zhǔn)規(guī)范》(征求意見稿)_第1頁
《電力人工智能平臺(tái)樣本標(biāo)準(zhǔn)規(guī)范》(征求意見稿)_第2頁
《電力人工智能平臺(tái)樣本標(biāo)準(zhǔn)規(guī)范》(征求意見稿)_第3頁
《電力人工智能平臺(tái)樣本標(biāo)準(zhǔn)規(guī)范》(征求意見稿)_第4頁
《電力人工智能平臺(tái)樣本標(biāo)準(zhǔn)規(guī)范》(征求意見稿)_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ICS號(hào)

中國標(biāo)準(zhǔn)文獻(xiàn)分類號(hào)T/CESXXX?XXXX

CES

團(tuán)體標(biāo)準(zhǔn)

T/CESXXX?XXXX

電力人工智能平臺(tái)樣本規(guī)范

Samplespecificationofelectricartificialintelligenceplatform

(征求意見稿)

XXXX-XX-XX發(fā)布XXXX-XX-XX實(shí)施

1

T/CESXXX?XXXX

電力人工智能平臺(tái)樣本規(guī)范

1范圍

本文件規(guī)定了人工智能樣本的基本要求、標(biāo)注要求、標(biāo)注流程,其中人工智能樣本類型

包括圖像視頻、語音和文本。

本部分適用于人工智能平臺(tái)樣本庫的規(guī)劃、設(shè)計(jì)、開發(fā)、建設(shè)和運(yùn)維。

2規(guī)范性引用文件

下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適

用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB/T5271.28-2001信息技術(shù)詞匯第28部分;人工智能基本概念與專家系統(tǒng)

T/CESA1040-2019信息技術(shù)人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程

GB/T13715—92信息處理用現(xiàn)代漢語分詞規(guī)范

GB/T5271.29—2006/ISO/IEC2382-29:1999信息技術(shù)詞匯規(guī)范:第29部分人工智能

語音識(shí)別與合成

3術(shù)語和定

下列術(shù)語和定義適用于本文件。

3.1人工智能artificialintelligence

一門交叉學(xué)科,是自動(dòng)化和計(jì)算機(jī)兩大學(xué)派,研究表現(xiàn)出與人類智能(如推理和學(xué)習(xí))

相關(guān)的各種功能的模型和系統(tǒng)。

[GB/T5271.28—2001,定義28.01.01]

3.2樣本數(shù)據(jù)sampledata

其具備的特征能夠反映總體數(shù)據(jù)情況的一部分個(gè)體數(shù)據(jù)。

[Q/GDW12118.1—2021,定義3.5]

3.3標(biāo)注corpusannotation

采用人工或計(jì)算機(jī)自動(dòng)方式對(duì)樣本的屬性或特征進(jìn)行描述。

[Q/GDW1906—2013,定義3.5]

3.4圖像分辨率resolution

圖像分辨率指圖像中存儲(chǔ)的信息量,是每英寸圖像內(nèi)有多少個(gè)像素點(diǎn),分辨率的單位為

PPI(PixelsPerInch),通常叫做像素每英寸。

[Q/GDW12118.3—2021,定義3.1]

3.5視頻碼率videocoderate

數(shù)據(jù)傳輸時(shí)單位時(shí)間傳送的數(shù)據(jù)位數(shù),單位時(shí)間內(nèi)取樣率越大,精度就越高,處理出來

的文件就越接近原始文件。(采用“注”的形式)

5

T/CESXXX?XXXX

3.6采樣率samplerate

錄音設(shè)備在一秒鐘內(nèi)對(duì)聲音信號(hào)的采樣次數(shù),采樣頻率越高聲音的還原就越真實(shí)越自

然。本文件中除非說明,采樣率為音頻采樣率。目前語音識(shí)別服務(wù)支持16000赫茲和8000

赫茲兩種采樣率,其中電話業(yè)務(wù)一般使用8000赫茲,其余業(yè)務(wù)使用16000赫茲。(采用“注”

的形式)

3.7無效音invalidvoice

無實(shí)際使用價(jià)值的音頻。包括音頻中只存在背景噪聲或者音樂,或背景噪聲和音樂聲音

過大影響識(shí)別說話內(nèi)容;語音為與普通話相差較大的方言或唱歌;語音只存在語氣詞,以及

無意義詞。例如:嗯、呃、啊、好、對(duì)、是的等;語音過小或者發(fā)音模糊,無法確定語音內(nèi)

容。

3.8標(biāo)簽label

標(biāo)識(shí)數(shù)據(jù)的特征、類別和屬性等內(nèi)容,可用于建立數(shù)據(jù)及深度學(xué)習(xí)訓(xùn)練要求所定義的機(jī)

器可讀數(shù)據(jù)編碼間的聯(lián)系。

[T/CESA1040-2019定義3.2]

3.9發(fā)音utterance

用戶輸入的一個(gè)語音單詞,可以是詞、短語或者句子。語音單元之間需有有意、明顯停

頓。

[GB/T13715-92,定義3.5]

4縮略語

下列縮略語適用于本文件。

BIOES:BIOES標(biāo)注模式(B-begin,I-inside,O-outside,E-end,S-single)

COCO:上下文中公共對(duì)象(CommonObjectsinContext)

JPEG:聯(lián)合圖像專家組(JointPhotographicExpertsGroup)

Json:JS對(duì)象簡(jiǎn)譜(JavaScriptObjectNotation)

PCM:脈沖編碼調(diào)制(PulseCodeModulation)

PNG:便攜式網(wǎng)絡(luò)圖型(PortableNetworkGraphics)

VOC:視覺對(duì)象類(VisualObjectClasses)

XML:可擴(kuò)展的標(biāo)記語言(ExtensibleMarkupLanguage)

RAW:原始音像資料(RawSoundData)

5樣本基本要求

本文件制定規(guī)范了人工智能圖像(含視頻)、語音、文本類樣本數(shù)據(jù)基本要求、樣本標(biāo)

注要求和樣本標(biāo)注流程,樣本標(biāo)注后匯總到電力人工智能平臺(tái)中進(jìn)行管理。

5.1圖像(含視頻)類樣本基本要求

5.1.1圖像(含視頻)文件存儲(chǔ)格式要求

6

T/CESXXX?XXXX

圖像文件常用的存儲(chǔ)格式應(yīng)該以jpg、jpeg、png常用格式,視頻文件常用的存儲(chǔ)格式應(yīng)

該以mp4常用格式。

根據(jù)業(yè)務(wù)需求對(duì)視頻文件進(jìn)行部分截取時(shí),截取的圖片存儲(chǔ)格式應(yīng)該為jpg、jpeg、png

常用格式。

5.1.2圖像(含視頻)文件命名要求

圖像樣本名稱應(yīng)有:項(xiàng)目命名詞或圖像來源;當(dāng)前圖像(視頻)專業(yè)信息;當(dāng)前文件的

日期,日期格式:年+月+日;文件唯一性編號(hào),從1開始計(jì)數(shù)等部分組成。

視頻樣本根據(jù)業(yè)務(wù)需求需對(duì)其部分幀進(jìn)行截取時(shí),截取圖像名稱應(yīng)由:源視頻樣本名稱;

文件唯一性編號(hào),從1開始計(jì)數(shù),兩個(gè)部分組成。

5.1.3圖像(含視頻)類樣本質(zhì)量要求

圖像視頻的樣本質(zhì)量按照分辨率應(yīng)滿足:圖像樣本與視頻抽幀樣本分辨率應(yīng)為

1920*1080像素及以上,識(shí)別主題內(nèi)容應(yīng)不少于15*15像素要求。識(shí)別主題內(nèi)容邊緣清晰,

無嚴(yán)重重影、遮擋范圍不超過主題三分之二;

視頻樣本碼率應(yīng)滿足:視頻包含業(yè)務(wù)相關(guān)內(nèi)容,流暢、清晰,滿足編解碼格式需求。分

辨率-碼率宜為1920*1080像素-5Mb/s;

樣本目標(biāo)物體的完整性:目標(biāo)區(qū)域在整個(gè)圖像樣本中的占比應(yīng)不低于40%。

5.1.4圖像(含視頻)樣本詳細(xì)描述要求

樣本集描述文件存儲(chǔ)格式應(yīng)為txt格式;命名應(yīng)有項(xiàng)目命名詞或樣本來源、本文件創(chuàng)建

的日期,日期格式:年+月+日、文件唯一性編號(hào),從1開始計(jì)數(shù),三個(gè)部分組成;文檔內(nèi)容

應(yīng)描述本樣本集的基本信息,應(yīng)包括樣本所屬項(xiàng)目、樣本來源、創(chuàng)建日期、樣本上傳單位及

聯(lián)系人、樣本量、樣本用途等信息,具體內(nèi)容格式參考附錄A.1。

5.1.5圖像(含視頻)標(biāo)注要求

標(biāo)簽信息要求

1)整個(gè)樣本集中同一類目標(biāo)物體的標(biāo)簽信息命名應(yīng)保持一致;

2)輸電圖像樣本添加標(biāo)簽信息應(yīng)包括:輸電區(qū)域名稱、線路名稱、電壓等級(jí)、桿塔號(hào)、

巡檢時(shí)間、巡檢人員、缺陷內(nèi)容等信息;

3)變電圖像樣本添加標(biāo)簽信息應(yīng)包括:變電區(qū)域名稱、變電站名稱、設(shè)備名稱、電壓

等級(jí)、巡檢時(shí)間、巡檢人員、缺陷內(nèi)容等信息;

4)配電圖像樣本添加標(biāo)簽信息應(yīng)包括:配電區(qū)域名稱、線路名稱、電壓等級(jí)、桿塔號(hào)、

巡檢時(shí)間、巡檢人員、違規(guī)原因等信息;

5)其他圖像樣本添加標(biāo)簽信息應(yīng)包括:創(chuàng)建時(shí)間、創(chuàng)建者、圖像用途等信息。

樣本標(biāo)注規(guī)則

視頻樣本無其他標(biāo)注要求,主要對(duì)截取的圖像樣本按照?qǐng)D像標(biāo)注的要求進(jìn)行標(biāo)注即可。

圖像樣本標(biāo)注規(guī)則應(yīng)按照:

1)圖像中所有目標(biāo)物體應(yīng)全部標(biāo)注;

2)采用最小標(biāo)注框?qū)δ繕?biāo)物體進(jìn)行標(biāo)注;

3)目標(biāo)物體前端遮擋不宜超過2/3,若目標(biāo)物體存在過大比例(大于2/3)的遮擋情況,

應(yīng)進(jìn)行目標(biāo)物體輪廓標(biāo)注后,對(duì)被遮擋的目標(biāo)物體添加“遮擋”標(biāo)簽;

4)標(biāo)注時(shí)使用COCO或VOC格式存儲(chǔ)標(biāo)注內(nèi)容;

7

T/CESXXX?XXXX

5)圖像分類標(biāo)注,同一類圖像應(yīng)使用相同的分類名;

6)使用矩形框?qū)D像樣本進(jìn)行標(biāo)注時(shí),目標(biāo)物體應(yīng)全包含在標(biāo)注框內(nèi),除非目標(biāo)物體

有過于細(xì)長(zhǎng)伸出的部位(伸出部分占像素比例小于5%)、矩形框應(yīng)將目標(biāo)物體全

部包括,矩形框邊緣與目標(biāo)物體的距離應(yīng)小于矩形框邊長(zhǎng)的3%;

7)使用邊界框?qū)D像樣本進(jìn)行標(biāo)注時(shí),邊界框應(yīng)將目標(biāo)物體全部包括,邊界框邊緣與

目標(biāo)物體的距離應(yīng)小于邊界框邊長(zhǎng)的3%;

8)使用旋轉(zhuǎn)矩形框?qū)D像樣本進(jìn)行標(biāo)注時(shí),標(biāo)注信息內(nèi)容應(yīng)包含矩形框中心點(diǎn)坐標(biāo)、

寬、高和沿垂直方向順時(shí)針旋轉(zhuǎn)的角度、旋轉(zhuǎn)角度應(yīng)采用弧度制,同一批數(shù)據(jù)集標(biāo)

注時(shí)應(yīng)采用同一種旋轉(zhuǎn)方式。對(duì)于規(guī)則的目標(biāo)物體,旋轉(zhuǎn)方向宜盡量與設(shè)備軸向方

向保持一致,標(biāo)注方向與目標(biāo)物體軸向方向的角度偏差不宜超過5%等。

標(biāo)注記錄文件命名與存儲(chǔ)規(guī)則

標(biāo)注文件應(yīng)與對(duì)應(yīng)標(biāo)注圖像命名一致,應(yīng)保存為xml或Json等常見格式文件,存儲(chǔ)于指

定位置標(biāo)注數(shù)據(jù)文件夾內(nèi)。該文件記錄信息應(yīng)包含對(duì)應(yīng)圖像(含視頻)的基本信息、目標(biāo)設(shè)

備基本信息、缺陷情況信息等。

5.2語音類樣本基本要求

5.2.1語音文件存儲(chǔ)格式要求

語音文件存儲(chǔ)格式應(yīng)為:mp3、pcm、raw等常見格式。

5.2.2語音文件命名要求

每個(gè)省份應(yīng)以省名稱每個(gè)字的拼音首字母編號(hào),發(fā)音人性別應(yīng)用英文female和male

的英文首字母F、M編號(hào),設(shè)備類別應(yīng)用英文首字母編號(hào)。

5.2.3語音類樣本質(zhì)量要求

語音樣本質(zhì)量應(yīng)按照:

1)錄音環(huán)境應(yīng)選擇安靜、無噪音干擾的環(huán)境;

2)不得有文字錯(cuò)誤,有一個(gè)或一個(gè)以上,該條語音就不達(dá)標(biāo);

3)整段語音語速應(yīng)保持在150-200音節(jié)/分鐘;

4)語音主體內(nèi)容必須能有效辨識(shí),語音分貝應(yīng)不低于25分貝;

5)語音樣本無效音占總樣本語句應(yīng)不超過40%等要求內(nèi)容。

5.2.4語音樣本描述文件

語音樣本描述文件應(yīng)包含:描述文件記錄聲源的信息、描述文件記錄語音樣本的信息等

兩個(gè)文件。

1)記錄聲源信息的描述文件命名為:語音文件名+聲源信息.txt,內(nèi)容應(yīng)包含:聲源信

息、系統(tǒng)信息。

2)記錄語音樣本信息的描述文件命名為:語音文件名+Info.txt,內(nèi)容應(yīng)包含:標(biāo)注規(guī)

范、料庫名、錄音文件夾編號(hào)、錄音日期、錄音時(shí)間點(diǎn)、錄音格式、通道數(shù)、發(fā)音

人ID、錄音地點(diǎn)、環(huán)境信息等信息。

5.2.5語音類樣本標(biāo)注要求

8

T/CESXXX?XXXX

語音切分要求

長(zhǎng)語音需要切分成小分句應(yīng)按照:

1)通過時(shí)長(zhǎng)作為語音的切分依據(jù);

2)切分點(diǎn)應(yīng)落在說話停頓處;

3)切分點(diǎn)應(yīng)位于音頻波形有明顯靜音段的地方;

4)每個(gè)切分后的小分句語音,應(yīng)在5秒至6秒之間。

語音標(biāo)注規(guī)則

語音類樣本標(biāo)注應(yīng)按照:

1)標(biāo)注語音文本時(shí),內(nèi)容應(yīng)和聽到的語音完全一致,不可多字、少字、錯(cuò)字。對(duì)于感

嘆、停頓的詞(例如“嗯”、“啊”、“呃”等)應(yīng)標(biāo)注對(duì)應(yīng)的漢字。存在口誤、

結(jié)巴、不流利的內(nèi)容應(yīng)完整地標(biāo)注對(duì)應(yīng)的漢字;

2)對(duì)于語音中出現(xiàn)的阿拉伯?dāng)?shù)字應(yīng)寫成漢字形式;

3)標(biāo)注中應(yīng)只含有中文、英文以及英文中特殊符號(hào);

4)在語音轉(zhuǎn)寫內(nèi)容的完整性應(yīng)與實(shí)際發(fā)音一致,不可刪減。語音中聽不清的詞應(yīng)用“*”

替代,但在一段語音中出現(xiàn)“*”的概率不可高于5%;

5)對(duì)于有口音的詞組時(shí),應(yīng)按照普通話的相應(yīng)詞組來標(biāo)注;

6)標(biāo)注文本應(yīng)由語音對(duì)應(yīng)時(shí)間戳和標(biāo)注內(nèi)容兩部分構(gòu)成,用半角冒號(hào)隔開(:)隔開。

標(biāo)注文件內(nèi)容格式:“音頻語句開始時(shí)間戳-音頻語句結(jié)束時(shí)間戳:標(biāo)注文本內(nèi)容”。

例:“00:02:35-00:02:40:查一下我的定期存款什么時(shí)候到期”。

標(biāo)注記錄文件命名與存儲(chǔ)規(guī)則

標(biāo)注文件應(yīng)和對(duì)應(yīng)的標(biāo)注語音文件命名一致,應(yīng)保存為txt格式。

5.3文本類樣本基本要求

5.3.1文本文件存儲(chǔ)格式要求

文本數(shù)據(jù)存儲(chǔ)格式應(yīng)采用txt、csv、Json、xls、xlsx、xml等常見格式。

5.3.2文本文件命名要求

文本文件名稱應(yīng)由:第一部分為項(xiàng)目命名詞或文本來源;第二部分為當(dāng)前文本文件的專

業(yè)信息;第三部分為當(dāng)前文本文件的日期,日期格式:年+月+日;第四部分為文件唯一性編

號(hào),從1開始計(jì)數(shù)等組合而成。

5.3.3文本類樣本質(zhì)量要求

文本類樣本質(zhì)量應(yīng)按照:

1)需支持計(jì)算機(jī)正常讀取,文本內(nèi)容無亂碼;

2)內(nèi)容要滿足相關(guān)業(yè)務(wù)需求;

3)應(yīng)該使用UTF-8編碼格式。

5.3.4文本樣本描述文件

文本樣本集的描述文件應(yīng)按照:

1)文本存儲(chǔ)格式應(yīng)為txt格式;

9

T/CESXXX?XXXX

2)命名應(yīng)由:項(xiàng)目命名詞或樣本來源;本文件創(chuàng)建的日期,日期格式:年+月+日;文

件唯一性編號(hào),從1開始計(jì)數(shù)等三個(gè)部分組成。

3)文檔內(nèi)容應(yīng)描述文本樣本集的基本信息,包括樣本所屬項(xiàng)目、樣本來源、創(chuàng)建日期、

樣本上傳單位及聯(lián)系人、樣本量、樣本用途等多樣信息,具體內(nèi)容格式參考附錄

A.1。

5.3.5文本類樣本標(biāo)注要求

基本要求

應(yīng)按照標(biāo)注對(duì)象范圍、標(biāo)注方式、標(biāo)注文件命名要求。

1)文本類樣本標(biāo)注應(yīng)包括詞、句子、整個(gè)文本等不同規(guī)范的標(biāo)注;

2)文本類樣本標(biāo)注應(yīng)有序列標(biāo)注、指針標(biāo)注、多頭標(biāo)注等多種標(biāo)注形式;

3)對(duì)于序列標(biāo)注時(shí),應(yīng)采用B、I、E、O、S等標(biāo)簽列表,應(yīng)采用BIO、BIOES標(biāo)簽方案

進(jìn)行標(biāo)注。

單類詞詞性標(biāo)注要求

在標(biāo)注時(shí)針對(duì)單類詞應(yīng)按照《語法信息詞典》確定其詞性。

多類詞詞性標(biāo)注要求

在標(biāo)注時(shí)針對(duì)多類詞,應(yīng)按照n-q、a-v、v-b、p-v、p-c等多種規(guī)則多類詞對(duì)其標(biāo)注,

詳細(xì)規(guī)則見附錄A.2。

實(shí)體抽取樣本標(biāo)注要求

實(shí)體抽取樣本標(biāo)注須符合:定義實(shí)體語義類型,包含實(shí)體名稱與層次結(jié)構(gòu),需在樣本標(biāo)

注前進(jìn)行;如果實(shí)體內(nèi)存在屬性,應(yīng)定義屬性名稱與屬性值。

標(biāo)注記錄文件命名與存儲(chǔ)規(guī)則

標(biāo)注文件應(yīng)由:與對(duì)應(yīng)標(biāo)注文本命名一致、為“-bz”,應(yīng)保存為txt格式這兩部分組成。

6樣本標(biāo)注流程

樣本標(biāo)注流程有:樣本檢查、標(biāo)注工具選擇、標(biāo)注任務(wù)開展、標(biāo)注結(jié)果收集和標(biāo)注結(jié)果

檢查等環(huán)節(jié)。

6.1樣本檢查

樣本標(biāo)注時(shí),需提前按照樣本基本要求對(duì)需要標(biāo)注的樣本集進(jìn)行檢查,可根據(jù)樣本數(shù)量

或業(yè)務(wù)需求進(jìn)行全面檢查或隨機(jī)抽查。

1)全面檢查:需要對(duì)指定的樣本集范圍內(nèi)的所有樣本數(shù)據(jù)進(jìn)行逐條檢查。

2)隨機(jī)抽查:可按照隨機(jī)抽樣和分類抽樣。隨機(jī)抽樣指針對(duì)不同的業(yè)務(wù)類型樣本數(shù)據(jù)

進(jìn)行隨機(jī)檢查。分類抽樣指針對(duì)同一個(gè)業(yè)務(wù)類型的樣本數(shù)據(jù),根據(jù)類型進(jìn)行分類檢

查。

6.2標(biāo)注工具

應(yīng)使用電力人工智能平臺(tái)標(biāo)注工具或與其格式相兼容的標(biāo)注工具進(jìn)行標(biāo)注。

6.3標(biāo)注任務(wù)開展

10

T/CESXXX?XXXX

需根據(jù)標(biāo)注任務(wù)的難易程度和業(yè)務(wù)需求來選擇半自動(dòng)化標(biāo)注和人工標(biāo)注等兩種方式。

1)半自動(dòng)化標(biāo)注:應(yīng)按照樣本構(gòu)建、模型構(gòu)建、批量標(biāo)注順序執(zhí)行。

a)樣本構(gòu)建:從需要標(biāo)注的樣本中抽取測(cè)試樣本和訓(xùn)練樣本,應(yīng)采用隨機(jī)抽查或

分類抽查方法,測(cè)試樣本和訓(xùn)練樣本占樣本總量的比例需高與1%,測(cè)試樣本

和訓(xùn)練樣本的比例可為3:7,測(cè)試樣本和訓(xùn)練樣本無交集。

b)模型構(gòu)建:采用標(biāo)注后的訓(xùn)練樣本建立標(biāo)注模型;采用標(biāo)注后的測(cè)試樣本測(cè)試

標(biāo)注模型。評(píng)估模型性能時(shí),可采用召回率、精確率指標(biāo)進(jìn)行評(píng)估性能。

c)批量標(biāo)注:使用標(biāo)注模型批量執(zhí)行標(biāo)注任務(wù)。

2)人工標(biāo)注:應(yīng)按照試標(biāo)注、批量標(biāo)注順序執(zhí)行。

a)試標(biāo)注:抽取試標(biāo)注樣本,從需要標(biāo)注的樣本中,可使用隨機(jī)抽查或分類抽查

的方法,抽取比例需高于待標(biāo)注樣本總量的1%;

b)批量標(biāo)注:標(biāo)注人員批量執(zhí)行標(biāo)注任務(wù)。

6.4樣本標(biāo)注結(jié)果收集

1)為防止文件外泄,由統(tǒng)一的人員進(jìn)行樣本標(biāo)注結(jié)果的回收和存放;

2)為防止文件遺漏,標(biāo)注結(jié)果的(包括任務(wù)名稱、任務(wù)類型、任務(wù)開始時(shí)間、任務(wù)結(jié)

束時(shí)間、任務(wù)描述)等相關(guān)信息,應(yīng)由對(duì)應(yīng)的收集人員進(jìn)行檢查。

3)由標(biāo)注結(jié)果收集人員進(jìn)行分類保存至電力人工智能平臺(tái)中,應(yīng)按照樣本類型(圖像

視頻,語音和文字)和標(biāo)注方式(圖像標(biāo)注包括圖像分類、圖像目標(biāo)檢測(cè)、圖像分

割;文本標(biāo)注包括文本分類、文本標(biāo)注;音頻標(biāo)注包括音頻分類、音頻標(biāo)注)。

6.5樣本標(biāo)注結(jié)果檢查

應(yīng)按照樣本標(biāo)注要求對(duì)收集的樣本標(biāo)注結(jié)果進(jìn)行檢查,可根據(jù)樣本標(biāo)注和業(yè)務(wù)需求的數(shù)

量,進(jìn)行全量檢查或抽樣檢查。

1)對(duì)指定范圍內(nèi)的所有樣本進(jìn)行逐條檢查為全量檢查。

2)可用隨機(jī)抽查和分類抽查的方式為抽樣檢查??砂凑针S機(jī)抽樣和分類抽樣。隨機(jī)抽

樣指針對(duì)不同的業(yè)務(wù)類型樣本數(shù)據(jù)進(jìn)行隨機(jī)檢查。分類抽樣指針對(duì)同一個(gè)業(yè)務(wù)類型

的樣本數(shù)據(jù),根據(jù)類型進(jìn)行分類檢查。

附錄A

表A.1圖像視頻樣本描述文件內(nèi)容要求

條目?jī)?nèi)容要求示例

說明本批次樣本收集工作所屬的項(xiàng)目樣本所屬項(xiàng)目:屬于xxx項(xiàng)目/無項(xiàng)目依

樣本所屬項(xiàng)目

情況,若無項(xiàng)目則填無項(xiàng)目依托托;

說明本批次樣本采集來源的地區(qū)及業(yè)樣本來源:來源于甘肅地區(qū)輸電線路巡檢

樣本來源

務(wù)領(lǐng)域業(yè)務(wù)中均壓環(huán)、絕緣子設(shè)備;

創(chuàng)建日期指本批次樣本收集完成的日期創(chuàng)建日期:2021-8-29;

樣本上傳單位及聯(lián)系人:中國電科院-張

樣本上傳單位及聯(lián)說明本批次樣本上傳的單位以及聯(lián)系

三;電話:139xxxx0000;郵箱:

系人xxx@;

樣本量:圖像樣本:300張;視頻樣本:

樣本量說明本批次樣本數(shù)量

20個(gè),總時(shí)長(zhǎng)5h20min18s;

說明本批次樣本的用途,包括目前已經(jīng)

樣本用途樣本用途:可用于輸電線路巡檢業(yè)務(wù);

用于的業(yè)務(wù)以及將來可能用于的業(yè)務(wù)

11

T/CESXXX?XXXX

表A.2多種多類詞標(biāo)注規(guī)則

詞性類別標(biāo)注規(guī)則實(shí)例

數(shù)詞+n-q+n,應(yīng)為量詞q

一/m車/q煤/n

漢語中部分名詞臨時(shí)做量詞且只

能前接數(shù)詞“一”,應(yīng)標(biāo)為量詞q做/v了/u一/m菜/q

名詞n-量詞q多類

“這”“那”“每”等指示代詞+

這/r床/q被子/n

n-q+n,應(yīng)標(biāo)為量詞q類

其他情況,應(yīng)標(biāo)為名詞n類上/v車/n

該詞表示一種動(dòng)作時(shí),后面帶真賓

編輯/v科技/n文獻(xiàn)/n

語,應(yīng)標(biāo)為動(dòng)詞v類

該詞直接作主語或謂賓動(dòng)詞的賓我們/n來/v的/u目的/n

語,應(yīng)標(biāo)為動(dòng)詞v類就是/v考察/v

該詞指稱人或物時(shí),應(yīng)標(biāo)為名詞n忘/v了/u買/v一/m把/q

類鎖/n

該詞作特殊動(dòng)詞“有”的賓語,應(yīng)領(lǐng)導(dǎo)/n對(duì)/p這/r件/q

標(biāo)為名詞n類事/n有/v考慮/n

動(dòng)詞v-名詞n多類

該詞充當(dāng)了形式動(dòng)詞或其他準(zhǔn)謂

進(jìn)行/v一/m次/q深入/a的/u

賓動(dòng)詞的準(zhǔn)謂詞性賓語,應(yīng)標(biāo)為名

考察/n

詞n類

該詞直接充當(dāng)體詞性短語的中心

加以/v整理/n

語,應(yīng)標(biāo)為名詞n類

該詞不加助詞“的”,直接充當(dāng)體

這個(gè)/r研究/n思路/n

詞性短語的修飾語,應(yīng)標(biāo)為名詞n

很/d新穎/a

單獨(dú)做謂語,應(yīng)標(biāo)為動(dòng)詞v類他/r諷刺/d說/v

動(dòng)詞v-副詞d多類該詞后加“地”作狀語,應(yīng)標(biāo)為動(dòng)

主任/n強(qiáng)調(diào)/v地/u指出/v

詞v類

你/r在/v不/d在/v

單獨(dú)做謂語,應(yīng)標(biāo)為動(dòng)詞v類

家/n?/w

介詞p-動(dòng)詞v多類

從/p東/F到/p西/f共/d

狀語或補(bǔ)語,應(yīng)標(biāo)為介詞p類

長(zhǎng)/a30/m米/q

12

T/CESXXX?XXXX

表A.2(續(xù))

詞性類別標(biāo)注規(guī)則實(shí)例

該詞前后成分不能互換位置或者

在該詞的前面可以加修飾成分,應(yīng)你/r別/d跟/p他/r跑/v

標(biāo)為介詞p類

介詞p-連詞c多類

該詞前后成分可以互換位置且在

我/r跟/c他/r都/d是/v

該詞的前面不能有修飾成分,應(yīng)標(biāo)

大學(xué)生/n

為連詞c類

但/d見/v門上/s貼/v

該詞在句子中修飾形容詞、動(dòng)詞,

著/u一/m副/q對(duì)聯(lián)/n

應(yīng)標(biāo)注為副詞d類

。/w

連詞c-副詞d多類

該詞主要連接句子和子句,表示子我/r受/v了/u點(diǎn)/q

句之間轉(zhuǎn)折、讓步等語義組合關(guān)傷/Ng,/w不過/c不/d

系,應(yīng)標(biāo)注為連詞c類要緊/a

該詞在句子中帶了真賓語,應(yīng)標(biāo)為他/r跟/p她/r沒/d紅/v

動(dòng)詞v類過/u臉/n

該詞受“很”一類程度副詞修飾,

這/r花/n很/d紅/a

形容詞a-動(dòng)詞v多應(yīng)標(biāo)為形容詞a類

類該詞修飾名詞作定語,應(yīng)標(biāo)為形容

繁榮/a的/u景象/n

詞a類

該詞作動(dòng)詞的補(bǔ)語,應(yīng)標(biāo)為形容詞

放/v明白/a一些/m

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論