《數(shù)據標注工程-概念、方法、工具與案例》教學課件-02數(shù)據標注的概念、工具與方法_第1頁
《數(shù)據標注工程-概念、方法、工具與案例》教學課件-02數(shù)據標注的概念、工具與方法_第2頁
《數(shù)據標注工程-概念、方法、工具與案例》教學課件-02數(shù)據標注的概念、工具與方法_第3頁
《數(shù)據標注工程-概念、方法、工具與案例》教學課件-02數(shù)據標注的概念、工具與方法_第4頁
《數(shù)據標注工程-概念、方法、工具與案例》教學課件-02數(shù)據標注的概念、工具與方法_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

人工智能技術應用核心課程系列教材數(shù)據標注工程——概念、方法、工具與案例第2章數(shù)據標注概念、工具與方法2.2數(shù)據標注對象人工智能技術應用核心課程系列教材2.1數(shù)據標注的概念及其對人工智能發(fā)展的意義

2.3數(shù)據標注工具與平臺2.4典型數(shù)據標注技術2.5數(shù)據標注工程2.6本章小結2.7作業(yè)與練習2.1數(shù)據標注的概念及其對人工智能發(fā)展的意義第2章數(shù)據標注概念、工具與方法數(shù)據標注(DataAnnotations)是指對收集到的、未處理的原始數(shù)據或初級數(shù)據,包括語音、圖片、文本、視頻等類型的數(shù)據進行加工處理,并轉換為機器可識別信息的過程。數(shù)據標注與人工智能相伴而生,是大部分人工智能算法得以有效應用的關鍵環(huán)節(jié)。數(shù)據標注越準確、標注的數(shù)據量越大,算法的性能就越好、準確度就越高。根據國際數(shù)據公司(IDC)的監(jiān)測數(shù)據顯示,2018年全球大數(shù)據儲量達到33.0ZB,同比增長52.8%。到2020年,全球將總共擁有超過44ZB的數(shù)據量;其中文本、照片、音頻、視頻、醫(yī)療影像等非結構化內容超過85%。大數(shù)據蘊含的前所未有的社會價值和商業(yè)價值,是一個發(fā)展?jié)摿κ志薮蟮臋C遇。因此,大數(shù)據也被被譽為“新的石油”。2.1.1全球數(shù)據的快速增長催生大數(shù)據產業(yè)2.1數(shù)據標注的概念及其對人工智能發(fā)展的意義第2章數(shù)據標注概念、工具與方法20世紀80年代出現(xiàn)的深度學習神經網絡算法,因為沒有足夠的數(shù)據支持而步履維艱自2012年之后,數(shù)據技術推動數(shù)據產業(yè)的發(fā)展。大數(shù)據、人工智能、物聯(lián)網及云計算等技術的快速發(fā)展,智慧城市、智慧園區(qū)、智能家電、穿戴設備、智能機器人等智能應用不斷涌現(xiàn),對經濟社會發(fā)展產生了巨大而又深遠的影響,同時也采集、獲取、積累了大量的原始數(shù)據資源。智能應用技術中算法模型的學習和訓練依賴于大量數(shù)據樣本訓練集,由此也產生了大量場景化的人工智能數(shù)據需求。2.1.2數(shù)據產業(yè)推動人工智能應用技術的發(fā)展2.1數(shù)據標注的概念及其對人工智能發(fā)展的意義第2章數(shù)據標注概念、工具與方法數(shù)據標注就是將大量的、原始的、雜亂的數(shù)據轉化為規(guī)范化的、計算機能夠讀懂的、標識出關鍵特征的數(shù)據集,從而支持人工智能的相關應用。數(shù)據標注質量影響人工智能應用效率。高質量的、準確標注的數(shù)據將最大限度地提升人工智能判別的準確率;而低質量的、沒有準確標注的數(shù)據會影響、甚至阻滯人工智能的進化能力。人工智能的發(fā)展促使數(shù)據標注不斷進步。隨著人工智能的不斷發(fā)展,對數(shù)據標注的需求度越來越高,數(shù)據標注任務要求不斷細化,以滿足不同行業(yè)對數(shù)據的不同要求。因此,高質量的數(shù)據標注對于促進人工智能行業(yè)健康發(fā)展具有重要意義。2.1.3數(shù)據標注對于人工智能應用的意義2.1數(shù)據標注的概念及其對人工智能發(fā)展的意義第2章數(shù)據標注概念、工具與方法第2章數(shù)據標注概念、工具與方法2.1數(shù)據標注的概念及其對人工智能發(fā)展的意義

人工智能技術應用核心課程系列教材2.2數(shù)據標注對象2.3數(shù)據標注工具與平臺2.4典型數(shù)據標注技術2.5數(shù)據標注工程2.6本章小結2.7作業(yè)與練習數(shù)據集(DataSet)又稱為資料集、數(shù)據集合、資料集合或數(shù)據產品,是經過規(guī)范化整理、工程化標注的一組具有統(tǒng)一格式的數(shù)據集合。人工智能數(shù)據集主要分為語音數(shù)據集、圖像數(shù)據集、文本數(shù)據集和視頻數(shù)據集等四大類別。部分國際人工智能公共數(shù)據集如下:2.2.1數(shù)據集2.2數(shù)據標注對象第2章數(shù)據標注概念、工具與方法在人與人、人與計算機的信息交互中,需要一種更加方便、自然的交互方式。語言是人類最重要、最有效、最常用和最方便的信息交流形式。人工智能語音數(shù)據集,按照不同的維度,通??梢苑譃槿N:(1)按照語種分類:世界上有五千多種語言,目前的語音數(shù)據集主要包含了使用人數(shù)較多的語種,如漢語、英語、西班牙語、法語等。(2)按照方言分類:漢語有七大方言區(qū),外語也有方言之分(3)按照語音屬性分類:朗讀語音、引導語音、自然對話、情感語音等上述各種維度的語音數(shù)據集,在形成數(shù)據產品的時候往往會多維度結合,各種維度交錯,構成大量的語音數(shù)據產品。2.2.2語音數(shù)據集2.2數(shù)據標注對象第2章數(shù)據標注概念、工具與方法圖像(圖片)經數(shù)字化后形成可以存儲、編輯的圖像數(shù)據(圖片數(shù)據)。對于計算機來說一張數(shù)字化圖片的內容信息就相當于一連串代表每個像素位置和顏色的數(shù)字序列,也就是圖像數(shù)據。人工智能圖像數(shù)據集,按照不同的維度,通??梢苑譃槠叻N:(1)按照應用場景分類:例如人體識別、車輛識別、車牌識別、動物識別等(2)按照局部或整體特征分類:以車輛為例,車牌為局部,車型為整體(3)按照待識別對象的數(shù)量分類:例如單人、人群(4)按照氣象條件分類:晴天、陰天、雨天、雪天、霧霾、白天、黑夜等(5)按照拍攝角度分類:正面、側面、上面、下面、背面(6)按照光線情況分類:順光、側光、逆光、側逆光(7)按照拍攝對象分類:不同人種、不同性別、不同表情等2.2.3圖像數(shù)據集2.2數(shù)據標注對象第2章數(shù)據標注概念、工具與方法文本數(shù)據是指不能參與算術運算的字符集合,也稱為字符型數(shù)據。文本數(shù)據集主要應用于自然語言理解、機器翻譯、語音識別、智能交通等領域。文本數(shù)據可收集的種類包括:命令詞、常見人名、地名庫、歌曲名稱、影視名稱、餐飲詞匯、短信庫、電子郵件等文本分類、語言識別、機器翻譯、文本校對等。2.2.4文本數(shù)據集2.2數(shù)據標注對象第2章數(shù)據標注概念、工具與方法視頻是典型的、復合的多媒體數(shù)據,可以包含圖像、語音、音樂、音效和文字等多種媒體信息。視頻數(shù)據的特點:(1)信息內容豐富:視頻數(shù)據是隨時間變化的圖像流,含有更為豐富的其他媒體所無法表達的信息和內容。(2)數(shù)據量巨大:靜態(tài)圖像、文本等類型的數(shù)據,數(shù)據量較小,而視頻數(shù)據,數(shù)據量巨大。(3)時空二重性的復雜結構關系:視頻數(shù)據由多幅連續(xù)的圖像序列構成,既有時間屬性又有空間屬性。(4)數(shù)據解釋的多樣性、主觀性:視頻數(shù)據具有十分豐富的內涵,受人的個體主觀因素影響較大,不同的人對同一段視頻會產生不同的感受和重述。2.2.5視頻數(shù)據集2.2數(shù)據標注對象第2章數(shù)據標注概念、工具與方法第2章數(shù)據標注概念、工具與方法2.1數(shù)據標注的概念及其對人工智能發(fā)展的意義

人工智能技術應用核心課程系列教材2.3數(shù)據標注工具與平臺2.2數(shù)據標注對象2.4典型數(shù)據標注技術2.5數(shù)據標注工程2.6本章小結2.7作業(yè)與練習常見的語音數(shù)據標注工具包括:單段落語音數(shù)據標注、多段落語音數(shù)據標注等。(1)單段落語音標注:標注人員試聽語音資料后,需要判定語音資料的有效性,說話人的說話內容以及周圍環(huán)境等信息,試聽判斷完成后,將相應信息填寫到音頻下方的文本輸入框中2.3.1語音數(shù)據標注工具2.3數(shù)據標注工具與平臺第2章數(shù)據標注概念、工具與方法(2)多段落語音標注:標注人員同樣需要試聽一段語音資料,與單段落標注不同的是,多段落標注中的語音視頻為多人對話,標注人員可以拖動鼠標對有人聲的語音資料進行選取,之后對語音資料中說話人的性別、說話內容以及周圍環(huán)境等信息進行識別,并填寫音頻下方的相關內容2.3.1語音數(shù)據標注工具2.3數(shù)據標注工具與平臺第2章數(shù)據標注概念、工具與方法圖片標注工具主要實現(xiàn)的標注功能有:關鍵點標注、2D標注框標注、3D標注框標注、線標注、區(qū)域標注、圖片屬性標注等2.3.2圖像數(shù)據標注工具2.3數(shù)據標注工具與平臺第2章數(shù)據標注概念、工具與方法視頻標注工具通常包含視頻通用功能標注工具和物體跟蹤標注工具:(1)視頻通用功能標注工具:包含點(Shift+A)、線(Shift+S)、矩形(Shift+D)、多邊形(Shift+F),并支持快捷鍵選擇工具。支持標注圖形使用delete鍵刪除或者直接點擊下面屬性名稱刪除。2.3.3視頻數(shù)據標注工具2.3數(shù)據標注工具與平臺第2章數(shù)據標注概念、工具與方法下拉列表表單輸入框表單(2)物體跟蹤標注工具:標注人員通過拖動鼠標進行畫框以及輸入物體編號的方式對車輛、行人進行標注,在此過程中,用戶可以通過點擊重播、上一幀、下一幀、上十幀、下十幀按鈕或直接拖動進度條的方式來對視頻播放進度進行控制。2.3.3視頻數(shù)據標注工具2.3數(shù)據標注工具與平臺第2章數(shù)據標注概念、工具與方法常見的文本數(shù)據標注工具主要有實體標注、實體關系標注、文檔屬性標注、閱讀理解、交互意圖等。2.3.4文本數(shù)據標注工具2.3數(shù)據標注工具與平臺第2章數(shù)據標注概念、工具與方法(1)文本句法樹標注:標注人員對文本進行分詞、詞性標注、短語機構標注,依存關系標注等更深層次的處理能力,可滿足自然語言處理的不同層次的要求。2.3.4文本數(shù)據標注工具2.3數(shù)據標注工具與平臺第2章數(shù)據標注概念、工具與方法(1)文本屬性標注:標注人員可以對兩條文字數(shù)據進行對比,也可以根據模板中提供的類別模板對文本內容進行標注,例如選取一句話中的主語、謂語和賓語等。頁面最上方有一行文本文字,標注人員通過閱讀文本確定文本的主題、時間,發(fā)生地點等內容,根據實際情況將相關內容填寫在下方的文本框內。2.3.4文本數(shù)據標注工具2.3數(shù)據標注工具與平臺第2章數(shù)據標注概念、工具與方法3D點云標注是指對激光雷達等設備采集的3D圖像,通過3D標注框將車輛、行人、廣告標志和樹木等目標物體標注出,供計算機視覺、無人駕駛等人工智能模型訓練使用。2.3.5

3D點云標注工具2.3數(shù)據標注工具與平臺第2章數(shù)據標注概念、工具與方法車輛、行人的3D點云圖第2章數(shù)據標注概念、工具與方法2.1數(shù)據標注的概念及其對人工智能發(fā)展的意義

人工智能技術應用核心課程系列教材2.4典型數(shù)據標注技術2.2數(shù)據標注對象2.3數(shù)據標注工具與平臺2.5數(shù)據標注工程2.6本章小結2.7作業(yè)與練習人工智能數(shù)據的標注技術隨著設備的研發(fā)會產生新的標注要求,隨著算法技術的發(fā)展呈現(xiàn)精度更高、更智能化的特點。以下對語音轉寫、人臉檢測和關鍵點檢測、圖像分割、圖像識別和視頻處理等關鍵標注技術進行介紹。2.4

典型數(shù)據標注技術第2章數(shù)據標注概念、工具與方法語音轉寫技術主要包括前端處理、語音識別相關技術。(1)前端處理:將接收到語音信號進行預處理,增強或降噪等。(2)識別過程:首先對預處理后的聲音信號進行特征提取,然后進行語音活動檢測將語音信號和非語音信號(包括無聲段或背景噪聲)進行劃分,最后基于聲學模型對語音特征進行訓練和識別。常用聲學模型包括:隱馬爾科模型-高斯混合模型(HMM-GMM)、深度神經網絡(DNN)等。2.4.1語音轉寫技術2.4典型數(shù)據標注技術第2章數(shù)據標注概念、工具與方法(1)面部特征點定位任務即根據輸入的人臉圖像,自動定位出面部關鍵特征點,如眼睛、鼻尖、嘴角點、眉毛以及人臉各部件輪廓點等。(2)這項技術的應用很廣泛,比如自動人臉識別,表情識別以及人臉動畫自動合成等。(3)由于不同的姿態(tài)、表情、光照以及遮擋等因素的影響,需要準確地定位出各個關鍵特征點。早期的人臉識別研究主要針對具有較強約束條件的人臉圖像,需要設計巧妙的人臉圖像紋理、語義表達的“特征”,進而完成識別模型的訓練。(4)隨著深度學習算法、GPU/FPGA計算力的增強,出現(xiàn)了“端到端”人臉檢測技術路線,圖像特征的學習被融入神經網絡的學習當中,將人臉檢測、人臉關鍵點檢測、人臉圖像分類一并輸出。顯然,人臉檢測方法又進入了新階段和新高度。2.4.2人臉檢測和關鍵點檢測2.4典型數(shù)據標注技術第2章數(shù)據標注概念、工具與方法圖像分割是要對圖像每個像素所屬的目標類別進行識別,常見的圖像分割算法包括FCN、Mask-rcnn等。目前,目前圖像分割的軟件如下表所示:2.4.3圖像分割2.4典型數(shù)據標注技術第2章數(shù)據標注概念、工具與方法視頻標注工具Vatic源自麻省理工學院的一個研究項目。輸入一段視頻,支持自動抽取成粒度合適的標注任務并在流程上支持接入亞馬遜眾包平臺。除此之外,其還有很多實用的特性:簡潔使用的圖形用戶界面,支持多種快捷鍵操作;基于opencv的視頻跟蹤,這樣就可以抽樣的標注,減少工作量;具體使用時,可以設定要標注的物體屬性標簽,比如:水果、人、車等等。然后指派任務給到眾包平臺(也可以是自己的數(shù)據工程師)?,F(xiàn)階段支持的標注樣式是標注框(box)標注。2.4.4視頻類標注2.4典型數(shù)據標注技術第2章數(shù)據標注概念、工具與方法第2章數(shù)據標注概念、工具與方法2.1數(shù)據標注的概念及其對人工智能發(fā)展的意義

人工智能技術應用核心課程系列教材2.5數(shù)據標注工程2.2數(shù)據標注對象2.3數(shù)據標注工具與平臺2.4典型數(shù)據標注技術2.6本章小結2.7作業(yè)與練習數(shù)據標注工程,也稱為工程化數(shù)據標注,是指數(shù)據產品制造(數(shù)據集)的系統(tǒng)化、工程化、流程化的組織與實施過程,可以劃分為數(shù)據采集、數(shù)據處理、數(shù)據標注、數(shù)據質檢、數(shù)據驗收交付等五大流程。2.5數(shù)據標注工程第2章數(shù)據標注概念、工具與方法數(shù)據采集是人工智能數(shù)據工廠中生產數(shù)據的第一關。人工智能領域必須對采集的數(shù)據進行良好的把關,才能有效提高后續(xù)質量。數(shù)據采集的方法主要四種:互聯(lián)網數(shù)據采集(網絡抓?。⒈姲?、行業(yè)合作以及各種傳感器數(shù)據。(1)互聯(lián)網數(shù)據采集:互聯(lián)網數(shù)據采集也稱網絡抓取,主要是通過數(shù)據爬蟲和網頁解析進行。數(shù)據爬蟲架構如下圖所示:2.5.1數(shù)據采集2.5數(shù)據標注工程第2章數(shù)據標注概念、工具與方法(2)數(shù)據眾包采集:數(shù)據眾包采集是以數(shù)據支撐平臺為基礎,集全社會的力量進行采集,并對數(shù)據的噪音、錯誤、遺漏進行發(fā)現(xiàn)和糾正。數(shù)據眾包采集主要應用場景是基于現(xiàn)有的數(shù)據采集人力、設備和時間無法滿足海量的原始數(shù)據采集需求,在成本可接受的范圍內可以采用眾包模式。數(shù)據眾包采集如下圖所示:2.5.1數(shù)據采集2.5數(shù)據標注工程第2章數(shù)據標注概念、工具與方法(3)數(shù)據行業(yè)合作:主要是對擁有龐大和高質量數(shù)據資源的行業(yè)企業(yè)和機構,通過數(shù)據連接以及人工智能大數(shù)據服務平臺對數(shù)據進行清洗、處理,并整合、分析,在企業(yè)混合云平臺中對數(shù)據資產的管理與審核,最后將數(shù)據用于人工智能應用。2.5.1數(shù)據采集2.5數(shù)據標注工程第2章數(shù)據標注概念、工具與方法(4)傳感器數(shù)據采集:傳感器數(shù)據采集是計算機與外部物理世界連接的橋梁。在計算機廣泛應用的今天,各種錄像攝像設備、氣候環(huán)保監(jiān)測設備、道路交通監(jiān)測監(jiān)控設備等等。不同傳感器接收不同類型信號的難易程度差別很大。在實際采集時,噪聲也可能帶來一些麻煩,傳感器的參數(shù)對數(shù)據采集也有一定的影響,傳感器進行數(shù)據采集的一般結構如圖所示。2.5.1數(shù)據采集2.5數(shù)據標注工程第2章數(shù)據標注概念、工具與方法數(shù)據處理是對采集到的數(shù)據進行數(shù)據審核、去重、去噪、標準化、規(guī)范化、審查、校驗等一系列數(shù)據整理、轉換、清洗操作。(1)數(shù)據處理工具:主要用于數(shù)據審核和脫敏、語音&圖像&視頻&文本數(shù)據分析和多源數(shù)據關聯(lián)集成。(2)數(shù)據清洗方法:數(shù)據清洗包括無效值和缺失值的處理、數(shù)據一致性檢查、數(shù)據查重等工作。2.5.2數(shù)據處理2.5數(shù)據標注工程第2章數(shù)據標注概念、工具與方法數(shù)據標注方式包括人工標注、半自動標注、自動標注、眾包等等。具體步驟如下:數(shù)據處理是對采集到的數(shù)據進行數(shù)據審核、去重、去噪、標準化、規(guī)范化、審查、校驗等一系列數(shù)據整理、轉換、清洗操作。(1)定義所需標注數(shù)據和預估數(shù)據量:數(shù)據標注前應完成以下五項準備工作:

①分析數(shù)據。明確機器學習和模型訓練過程中所需的標注數(shù)據類型、量級、用途及應用場景等。②整理數(shù)據。明確數(shù)據與標簽文件存放的目錄結構,在任務分配與回收時,應按指定的目錄進行數(shù)據組織。③明確命名規(guī)則。應明確數(shù)據與標簽文件的命名方式,命名規(guī)則應避免數(shù)據更新送代時的重名,使于數(shù)據追蹤、標注追蹤,且數(shù)據文件名與標簽文件名應保持一致。④預估數(shù)據量。根據標注任務的人力獲取模式、工具選擇、標注任務類型、算法選擇以及整個項目的成本對所需標注的數(shù)據量進行預估。⑤標注數(shù)據定義與需求。明確標注數(shù)據的定義并確定最終的需求量。2.5.3

數(shù)據標注2.5數(shù)據標注工程第2章數(shù)據標注概念、工具與方法(2)標注說明規(guī)則。

①標注說明規(guī)則職責分工。數(shù)據需求方應負責確保數(shù)據標注的規(guī)則符合該領域的業(yè)務和專業(yè)常識,并根據標注規(guī)則,檢查所標注的數(shù)據是否滿足數(shù)據需求方。②標注說明規(guī)則定義。明確項目背景、意義及數(shù)據用場景,包含項目標注工具、任務描述、標注方法、正確示例、常見錯誤等內容標注。③標注說明規(guī)則內容。標注說明規(guī)則包括但不限于項目背景、版本信息、任務描述、保密責任、標注方法、正確示例、注意事項和質量要求。④執(zhí)行方法及注意事項。應加強數(shù)據標注員相關標注規(guī)則培訓,保證每個標注人員理解標注說明規(guī)則,滿足技能要求。⑤標注說明中術語體系規(guī)范化。術語體系的規(guī)范化至少應滿足國家法規(guī)、項目需求方、項目執(zhí)行方的規(guī)定,且確保標注人員對術語和定義理解的一致性。2.5.3

數(shù)據標注2.5數(shù)據標注工程第2章數(shù)據標注概念、工具與方法(3)標注人力供給成本。應根據標注任務的數(shù)據量級、保密性與資質要求、對業(yè)務規(guī)程的理解程度、成本預算以及交付時間等各類因素評價并確認標注人力供給方式。標注人力模式可包括:內部自營標注、第三方標注、眾包標注等。

2.5.3

數(shù)據標注2.5數(shù)據標注工程第2章數(shù)據標注概念、工具與方法(4)標注工具和標注平臺選擇。標注工具應滿足以下條件:①易操作性:標注工具應降低標注人員的操作難度,提供交互方式的自有標注。②規(guī)范性:標注工具的數(shù)據導出格式,應滿足或可轉換到格式要求。③高效性:標注工具應保證標注任務的完成效率。標注平臺包含標注工具全部功能、團隊管理、任務分發(fā)、質量審核等環(huán)節(jié)的模塊,且將所有標注環(huán)節(jié)工具化。規(guī)模較大的平臺可完成圖像、文本、語音或視頻等不同任務的標注。當數(shù)據量相對較小、數(shù)據類型相對單一、標注周期較短時,宜選擇標注工具進行標注。當標注量較大、數(shù)據類型較多、標注難度較大且周期較長時,宜選擇標注平臺進行標注。

2.5.3數(shù)據標注2.5數(shù)據標注工程第2章數(shù)據標注概念、工具與方法(5)標注任務創(chuàng)建、分發(fā)、開展和回收。具體內容如下:①標注任務創(chuàng)建:明確任務基本信息和需求,完成任務配置和數(shù)據上傳。②標注人物分發(fā):根據任務發(fā)布者確定的參數(shù)及需求,將標注任務分發(fā)給標注人員,同時規(guī)定標注人數(shù)、每天工作量、子任務回收時間點、任務結束時間點等內容③標注任務開展:根據實際任務靈活采用半自動標注或全人工標注。在標注前期,可根據標注規(guī)則對少量樣本先行試標注,將試標注結果反饋給數(shù)據需求方,確認標注結果正確無誤后,再批量開展數(shù)據標注任務。④標注任務回收:在項目協(xié)定的任務將要完成時,項目負責人需回收標注作業(yè),且需保證已分配的任務能被完整交付。

2.5.3數(shù)據標注2.5數(shù)據標注工程第2章數(shù)據標注概念、工具與方法數(shù)據質檢是保證數(shù)據質量的重要環(huán)節(jié)。在數(shù)據質檢操作方面,可通過排查或抽樣檢查的方式。質檢時,一般由多名專職審核人員對數(shù)據質量進行層層把關,一旦發(fā)現(xiàn)數(shù)據不合要求,則交由數(shù)據標注人員進行返工復查并糾正,直到最終通過審核為止。數(shù)據質檢主要包含以下三個步驟:(1)質量檢查:確保數(shù)據有價值,符合數(shù)據需求方的特定應用目的。(2)質量反饋:確保標注過程可控,并產生預期的結果。遇到質量較低數(shù)據時及時預警反饋,并查明原因。(3)質量檢查與控制中合格標準的確認:需在抽查前建立并確認合格標準,并在相關環(huán)節(jié)貫徹實施。2.5.4

數(shù)據質檢2.5數(shù)據標注工程第2章數(shù)據標注概念、工具與方法數(shù)據標注質量標準:對于數(shù)據標注行業(yè),數(shù)據標注的質量標準就是標注的準確性,主要包括圖像數(shù)據標注、語音數(shù)據標注、文本數(shù)據標注等質量標準。(1)圖像類型的數(shù)據驗收:數(shù)據結果為帶有標簽的數(shù)據,包含標簽的具體內容,及此圖像標簽對應的圖像空間位置(可選)。標注文件輸出格式推薦使用易解析、易存儲的數(shù)據格式,格式包括但不限于JSON或XML。(2)文本類型的數(shù)據驗收:數(shù)據結果包含文本標簽的位置和標簽的具體內容。標注文件的輸出格式推薦使用易解析、易存儲的數(shù)據格式,包括JSON、XML、TXT等。(3)語音類型的數(shù)據驗收:數(shù)據結果包含語音標簽的時間位置和標簽的具體內容(例如轉寫內容、說話人信息、噪聲等)。標注文件的輸出格式為JSON文件或其他通用輸出格式。2.5.5數(shù)據交付2.5數(shù)據標注工程第2章數(shù)據標注概念、工具與方法(4)視頻類型的數(shù)據驗收:數(shù)據結果可包

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論