




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
AI遇見應用興趣引領(lǐng)未來人工智能基礎與應用
數(shù)據(jù)標注實訓實踐③目錄教學目標相關(guān)知識一、什么是數(shù)據(jù)采集與數(shù)據(jù)標注? 二、常用標注基本流程與操作方法三、數(shù)據(jù)標注行業(yè)應用場景數(shù)據(jù)集創(chuàng)建與編輯實訓實踐③Principlesand
ApplicationsofArtificialIntelligence人工智能基礎與應用認識數(shù)據(jù)標注界面及操作
掌握數(shù)據(jù)分類、標注流程、技術(shù)要求,掌握圖像標注常用標注方法掌握數(shù)據(jù)標注質(zhì)量檢測流程與方法、技術(shù)規(guī)范
了解行業(yè)數(shù)據(jù)標注內(nèi)容與應用,為后續(xù)模型訓練奠定基礎【實訓目標】【實訓要求】1.知識點數(shù)據(jù)標注基本流程及其主要用途、圖像標注核心流程與操作;2.技能點數(shù)據(jù)標注設計與構(gòu)建、圖像標注工具應用操作;3.重難點通過本單元的學習與實訓實踐,重點掌握圖像標注場景下靈活應用數(shù)據(jù)標注方法分析解決實際問題的能力;難點是應用數(shù)據(jù)標注工具構(gòu)建基于某類場景下的數(shù)據(jù)標注并應用至人工智能模型訓練過程中?!鞠嚓P(guān)知識】一、什么是數(shù)據(jù)采集與數(shù)據(jù)標注大量人產(chǎn)生的數(shù)據(jù)巨量機器產(chǎn)生的數(shù)據(jù)少量企業(yè)應用產(chǎn)生的數(shù)據(jù)如推特、微博、通信軟件、移動通信數(shù)據(jù)、電子商務在線交易日志數(shù)據(jù)、企業(yè)應用的相關(guān)評論數(shù)據(jù)等。如應用服務器日志、各類傳感器數(shù)據(jù)、圖像和視頻監(jiān)控數(shù)據(jù)、二維碼和條形碼(條碼)掃描數(shù)據(jù)等。如關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)和數(shù)據(jù)倉庫中的數(shù)據(jù)等?!饕獢?shù)據(jù)來源一、什么是數(shù)據(jù)采集與數(shù)據(jù)標注——數(shù)據(jù)采集方法就數(shù)據(jù)獲取而言,大型互聯(lián)網(wǎng)企業(yè)擁有穩(wěn)定安全的數(shù)據(jù)資源。對于其他大數(shù)據(jù)公司和大數(shù)據(jù)研究機構(gòu)而言,獲取大數(shù)據(jù)的方法主要為:1.系統(tǒng)日志采集。Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,采用分布式架構(gòu),能滿足大數(shù)據(jù)的日志數(shù)據(jù)采集和傳輸需求。2.互聯(lián)網(wǎng)數(shù)據(jù)采集。通過網(wǎng)絡爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息,還可以使用DPI或DFI等帶寬管理技術(shù)實現(xiàn)對網(wǎng)絡流量的采集。3.APP移動端數(shù)據(jù)采集。APP是獲取用戶移動端數(shù)據(jù)的一種方法,APP中的SDK插件可以將用戶使用APP的信息匯總給指定服務器。4.與數(shù)據(jù)服務機構(gòu)進行合作。數(shù)據(jù)服務機構(gòu)通常具備規(guī)范的數(shù)據(jù)共享和交易渠道,人們可以在平臺上快速、明確地獲取自己所需要的數(shù)據(jù)。一、什么是數(shù)據(jù)采集與數(shù)據(jù)標注數(shù)據(jù)來源多種多樣,數(shù)據(jù)量也越發(fā)龐大,即使如此,并不是每種數(shù)據(jù)都適合標注,具體而言,常見的標注對象主要分為圖像與視頻、語音、文本。1.圖像與視頻數(shù)據(jù)。對街景的畫框標注,可用于幫助自動駕駛車輛識別道路物體;對人臉圖像做描點處理,可幫助人工智能識別不同個體等。2.語音數(shù)據(jù)。語音數(shù)據(jù)為應答交互系統(tǒng)以及聊天機器人等研發(fā)提供了前提。一般而言采集的數(shù)據(jù)往往存在大量嘈雜、錯誤以及無用的信息,對其進行篩選處理正是數(shù)據(jù)標注的價值所在。3.文本數(shù)據(jù)。自然語言處理是深度學習研究的重要領(lǐng)域,分類問題如關(guān)系識別、情感分析等,均需要標注數(shù)據(jù)進行模型訓練,為了滿足深度學習的需要,建立文本語料數(shù)據(jù)庫是比較常見的做法。——常見標注數(shù)據(jù)一、什么是數(shù)據(jù)采集與數(shù)據(jù)標注——數(shù)據(jù)標注流程數(shù)據(jù)標注的質(zhì)量直接關(guān)系到模型訓練的優(yōu)劣程度,因此要為數(shù)據(jù)標注建立一套既定的數(shù)據(jù)標注流程,對圖像、語音、文本等進行有序而有效的標注,如下圖所示:數(shù)據(jù)標注中的二八定律通常在一個AI項目中,數(shù)據(jù)準備工作需要80%時長,模型訓練和部署僅占20%。一、什么是數(shù)據(jù)采集與數(shù)據(jù)標注數(shù)據(jù)清理主要是達到數(shù)據(jù)格式標準化、異常數(shù)據(jù)清除、數(shù)據(jù)錯誤糾正、重復數(shù)據(jù)的清除等目標。數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并統(tǒng)一存儲,建立數(shù)據(jù)倉庫。數(shù)據(jù)變換是通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。數(shù)據(jù)歸約是指在對挖掘任務和數(shù)據(jù)本身內(nèi)容理解的基礎上,尋找依賴于發(fā)現(xiàn)目標的數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)規(guī)模,從而在盡可能保持數(shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量。
數(shù)據(jù)清洗原理示意圖——數(shù)據(jù)清洗一、什么是數(shù)據(jù)采集與數(shù)據(jù)標注數(shù)據(jù)標注即通過分類、畫框、標注、注釋等,對圖片、語音、文本等數(shù)據(jù)進行處理,標記對象的特征,以作為機器學習的素材。由于機器學習需要反復學習以訓練模型和提高精度,同時無人駕駛、智慧醫(yī)療、語音交互等各大應用場景都需要標注數(shù)據(jù),因此標注工程師應運而生。據(jù)不完全統(tǒng)計,目前我國全職數(shù)據(jù)標注員至少20萬,兼職標注員甚至達到100萬名之多。——什么是數(shù)據(jù)標注一、什么是數(shù)據(jù)采集與數(shù)據(jù)標注——數(shù)據(jù)標注分類以對象作為分類標準,數(shù)據(jù)標注可以分為圖像標注、語音標注、文本標注以及視頻標注。數(shù)據(jù)標注分類概述圖像標注圖像標注類型包括拉框、語義分割、實例分割、目標檢測、圖像分類、關(guān)鍵點、線段標注、文字識別轉(zhuǎn)寫、點云標注、屬性判斷等。圖像標注在人工智能與各行各業(yè)應用相結(jié)合的研究過程中扮演著重要的角色。語音標注語音標注類型包括ASR語音轉(zhuǎn)寫、語音切割、語音清洗、情緒判定、聲紋識別、音素標注、韻律標注、發(fā)音校對等。文本標注文本標注是對文本進行特征標記,為其打上具體的語義、構(gòu)成、語境、目的、情感等原數(shù)據(jù)標簽,主要用于自然語言處理。通過語句分詞標注、語義判定標注、文本翻譯標注、情感色彩標注、拼音標注、多音字標注、數(shù)字符號標注等,可獲得高準確率的文本語料。視頻標注視頻標注以圖片幀為單位,對視頻素材中的目標對象進行跟蹤,對包括道路、車輛、行人等在內(nèi)的目標物的特征信息、結(jié)構(gòu)信息、語義信息等進行標記,從而形成訓練數(shù)據(jù)集。按照具體應用類型,視頻標注可進一步劃分為視頻追蹤、標簽分類、視頻打點
以及視頻信息提取。一、什么是數(shù)據(jù)采集與數(shù)據(jù)標注1.人臉數(shù)據(jù)采集。年齡分布、性別分布、人種分布、表情類型、拍攝環(huán)境、圖片尺寸、文件格式、圖片數(shù)量、適用領(lǐng)域。2.車輛數(shù)據(jù)采集。車型分布、車輛顏色、拍攝時間、車牌顏色、圖片尺寸、文件格式、圖片數(shù)量、適用領(lǐng)域。3.街景數(shù)據(jù)采集。采集環(huán)境、路況覆蓋、數(shù)據(jù)規(guī)模、拍攝設備、圖片尺寸、文件格式、圖片數(shù)量、適用領(lǐng)域。4.語音數(shù)據(jù)采集。采集數(shù)量、性別分布、是否做內(nèi)容轉(zhuǎn)寫、錄制環(huán)境、錄音語料、錄音設備、音頻文件、文件數(shù)量、適用領(lǐng)域。5.文本數(shù)據(jù)采集。采集內(nèi)容、文件格式、編碼格式、文件數(shù)量、適用領(lǐng)域?!獢?shù)據(jù)采集案例一、什么是數(shù)據(jù)采集與數(shù)據(jù)標注——數(shù)據(jù)采集案例:車輛數(shù)據(jù)的采集在對車輛數(shù)據(jù)的采集中,常見的方式是通過交通監(jiān)控視頻進行圖片截取,圖片最好包括車牌、車型、車輛顏色、品牌、年份、位置、拍攝時間等車輛信息,并做統(tǒng)一的圖片尺寸、文件格式、圖片數(shù)量規(guī)定,同時做脫敏處理(即數(shù)據(jù)漂白),實時保護隱私和敏感數(shù)據(jù)。以下為一個簡單的車輛數(shù)據(jù)采集規(guī)格示例:車型分布——小轎車、SUV、面包車、客車、貨車、其他車輛顏色——白、灰、紅、黃、綠、其他拍攝時間——光線亮的時候,光線暗的時候,光線正常的時候車牌顏色——藍、白、黃、黑、其他圖片尺寸——1024*768文件格式——JPG圖片數(shù)量——75000張適用領(lǐng)域——自動駕駛、車牌識別二、常用數(shù)據(jù)標注主要流程與操作方法圖像標注是一個將標簽添加到圖像上的過程。其目標范圍既可以是在整個圖像上僅使用一個標簽,也可以是在某個圖像內(nèi)的各組像素中配上多個標簽?!獔D像標注二、常用數(shù)據(jù)標注主要流程與操作方法打標簽:貓打標簽:狗就是我們常見的打標簽。一般是從既定的標簽中選擇數(shù)據(jù)對應的標簽,是封閉集合。適用:文本、圖像、語音、視頻應用:人臉識別、物體分類、性別識別——圖像標注:分類標注二、常用數(shù)據(jù)標注主要流程與操作方法方框標注3D長方體標注機器視覺中的標框標注,很容易理解,就是框選要檢測的對象。通過標框,標識圖像中需要檢測的對象,以便訓練機器進行機器學習。如人臉識別:需要先把人臉的位置確定下來。常用標注包括方框、多邊形框、3D長方形框等適用:圖像、視頻應用:人臉識別、物體檢測——圖像標注:標框標注二、常用數(shù)據(jù)標注主要流程與操作方法人臉關(guān)鍵點人體骨骼關(guān)鍵點一些對于特征要求細致的應用中常常需要描點標注。例如人臉識別、骨骼識別等。適用:圖像應用:人臉識別、骨骼識別——圖像標注:描點標注二、常用數(shù)據(jù)標注主要流程與操作方法區(qū)域標注要求更加精確,針對圖像中的區(qū)域進行范圍標注。邊緣可以是柔性的。如自動駕駛中的道路識別。適用:圖像應用:自動駕駛——圖像標注:區(qū)域標注二、數(shù)據(jù)標注主要標注方法包括那些?經(jīng)過人工對語音內(nèi)容進行文本轉(zhuǎn)錄,將算法無法理解的語音內(nèi)容轉(zhuǎn)化成容易識別的文本內(nèi)容,然后算法模型通過被轉(zhuǎn)錄后的文本內(nèi)容進行識別并與相應的音頻進行邏輯關(guān)聯(lián)應用:智能客服、自動翻譯、知識問答——語音標注二、數(shù)據(jù)標注主要標注方法包括那些?經(jīng)過人工將文本的內(nèi)容進行標簽分類,進行結(jié)構(gòu)化處理,便于算法模型應用識別,用于自然語言處理,個性化推薦等應用:智能客服、知識問答、智能推薦——文字標注——自動駕駛常見應用:以矩形框或描點對車輛進行標注;以矩形框或描點標注人體輪廊;采集地址興趣點,在地圖上做出相應地理位置信息標記的POI(PointofInterest)標記等。三、數(shù)據(jù)標注行業(yè)應用場景——自動駕駛車道線標注:是一種對道路地面標線進行的綜合標注,標注包括了區(qū)域標注、分類標注以及語義標注,應用于訓練自動駕駛根據(jù)車道規(guī)則進行行駛。三、數(shù)據(jù)標注行業(yè)應用場景——自動駕駛3D雷達標注:是根據(jù)鏡頭反求原理,將視頻場景模擬成3D圖像,通過3D圖像標注出標注物的位置及大小。3D雷達標注主要應用在自動駕駛虛擬現(xiàn)實(VR)訓練場景的搭建。三、數(shù)據(jù)標注行業(yè)應用場景——自動駕駛3D車輛標注:是將2D圖片中的車輛進行3D標注,主要應用于訓練自動駕駛對會車或超車車輛的體積判斷。三、數(shù)據(jù)標注行業(yè)應用場景——自動駕駛視頻跟蹤標注:是將視頻數(shù)據(jù)按照圖片幀抓取進行標框標注,標注后的圖片幀按照順序重新組合成視頻數(shù)據(jù)訓練自動駕駛。視頻跟蹤標注主要是用于訓練自動駕駛對識別目標的移動跟蹤能力,讓自動駕駛在移動過程中更好地識別目標。三、數(shù)據(jù)標注行業(yè)應用場景——安防行業(yè)對于數(shù)據(jù)標注人員而言,需要做的正是對訓練圖片中人物的性別、年齡、膚色、表情、頭發(fā)以及是否帶帽帶眼鏡等進行分類標注,或者對行人做標框處理,幫助機器獲取快速識別能力。三、數(shù)據(jù)標注行業(yè)應用場景——安防行業(yè)人臉標注:是一個應用廣泛并且在不斷發(fā)展的數(shù)據(jù)標注,在智能安防中,主要應用于人臉識別與身份識別。三、數(shù)據(jù)標注行業(yè)應用場景——安防行業(yè)表情分析:是一種分類標注,在機器學習時,需要配合人臉標注進行。在智能安防中,表情分析是智能安防系統(tǒng)從被動防御向主動預警發(fā)展的關(guān)鍵技術(shù)。三、數(shù)據(jù)標注行業(yè)應用場景——安防行業(yè)行人標注:是對行人進行標框標注,主要應用于進出人數(shù)的統(tǒng)計,一般在商城、超市、市中心、車站、學校、工廠等人員容易密集的場所需要通過進出人數(shù)的統(tǒng)計來判斷容納人員是否已經(jīng)飽和,可以有效的防范因為人員過于密集而造成危險。三、數(shù)據(jù)標注行業(yè)應用場景——安防行業(yè)行為標注:是對特定行為進行區(qū)域標注和分類標注,主要應用于對危險行為的監(jiān)控,例如打架、暈倒、車禍、輕生、偷盜等,視頻監(jiān)控系統(tǒng)識別出危險行為后,可以及時報警。三、數(shù)據(jù)標注行業(yè)應用場景——安防行業(yè)物品標注:是將物品進行標框標注及分類標注,在智能安防中,物品標注需要和行為標注結(jié)合。三、數(shù)據(jù)標注行業(yè)應用場景——智慧醫(yī)療通過人體標框、3D畫框、骨骼點標記、病歷轉(zhuǎn)錄等應用,機器學習能夠快速完成醫(yī)學編碼和注釋,以及在遠程醫(yī)療、醫(yī)療機器人、醫(yī)療影像、藥物挖掘等場景的應用。三、數(shù)據(jù)標注行業(yè)應用場景六三——智慧醫(yī)療病歷文本標注:是對病歷信息進行文本標框標注,通過對病歷內(nèi)容的文本轉(zhuǎn)錄實現(xiàn)電子病歷系統(tǒng)建立。三、數(shù)據(jù)標注行業(yè)應用場景——智慧醫(yī)療人體標框標注:是根據(jù)人體不同部位進行標框標注,多應用于遠程醫(yī)療外傷診斷。三、數(shù)據(jù)標注行業(yè)應用場景——智慧醫(yī)療骨骼點標注:是將人體運動的關(guān)節(jié)點進行描點標注,多應用于健康檔案的建立。人工智能通過對骨骼點標注的學習,可以快速鎖定病灶關(guān)節(jié)。三、數(shù)據(jù)標注行業(yè)應用場景——智慧醫(yī)療醫(yī)療影像標注:是對醫(yī)療影像進行區(qū)域標注及分類標注,多應用于輔助臨床診斷。人工智能通過學習大量的醫(yī)療影像標注數(shù)據(jù)集,將會很好的輔助醫(yī)生進行臨床診斷以及提出治療方案。三、數(shù)據(jù)標注行業(yè)應用場景行業(yè)名稱應用場景金融行業(yè)文字翻譯、語義分析、語音轉(zhuǎn)錄、圖像標注等,都是具有代表性的重要應用。家居行業(yè)主要包括應用矩形框標記人臉,進行人臉精細分割;對家居物品進行畫框標記;通過描點的方式進行區(qū)域劃分;采集語音并進行標注處理等。公共服務確定內(nèi)容是否符合描述的內(nèi)容審核,對具有相同意思的語句進行歸類的語義分析、將音頻轉(zhuǎn)化為文字的語音轉(zhuǎn)錄,以及查看視頻是否符合要求的視頻審核等都是數(shù)據(jù)標注中的常見應用電子商務通過對產(chǎn)品打上結(jié)構(gòu)化標簽,包括品牌、顏色、型號、價格、款式、瀏覽量、購買量、用戶評價等,建立360度的全景畫像,從而為個性化推薦提供先決條件。智能制造缺陷檢測、智
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 照明電路培訓考試試題及答案
- 電池工程師試題及答案
- 2025年中級會計實務考試實務分析試題及答案
- 電建焊工考試題及答案
- 大學考題測試題及答案
- 大比武測試題及答案
- 培養(yǎng)領(lǐng)導力與工作計劃的協(xié)同
- 財務管理課程中的反饋與改進機制試題及答案
- 2025年中級會計實務高效復習試題及答案
- 促進心理健康的工作環(huán)境構(gòu)建計劃
- 良惡性腫瘤良性腫瘤的介入治療
- 歌劇排練與觀摩智慧樹知到答案章節(jié)測試2023年四川音樂學院
- GB/T 13098-2006工業(yè)用環(huán)氧乙烷
- 部編人教版語文六年級下冊《9 浣溪沙》課件
- 2023年中小學體育教師招聘考試試題及答案三份
- 向政府寫訴求書范文(精選12篇)
- 電視節(jié)目策劃學胡智峰
- 北京市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名明細
- 追求有意義人生
- 生產(chǎn)車間如何節(jié)能減耗(課堂PPT)
- 橫向項目結(jié)題證明模板
評論
0/150
提交評論