數(shù)據(jù)標(biāo)注工程電子課件_第1頁
數(shù)據(jù)標(biāo)注工程電子課件_第2頁
數(shù)據(jù)標(biāo)注工程電子課件_第3頁
數(shù)據(jù)標(biāo)注工程電子課件_第4頁
數(shù)據(jù)標(biāo)注工程電子課件_第5頁
已閱讀5頁,還剩146頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)標(biāo)注工程第一章數(shù)據(jù)標(biāo)注概述1.1數(shù)據(jù)標(biāo)注的起源與發(fā)展1.2數(shù)據(jù)標(biāo)注的應(yīng)用場景1.3有多少智能,就有多少人工1.5作業(yè)與練習(xí)1.4數(shù)據(jù)越多,智能越好1.1數(shù)據(jù)標(biāo)注的起源與發(fā)展第一章數(shù)據(jù)標(biāo)注概述1.1數(shù)據(jù)標(biāo)注的起源與發(fā)展第一章數(shù)據(jù)標(biāo)注概述

數(shù)據(jù)標(biāo)注即通過分類、畫框、標(biāo)注、注釋等,對圖片、語音、文本等數(shù)據(jù)進(jìn)行處理,標(biāo)記對象的特征,以作為機(jī)器學(xué)習(xí)基礎(chǔ)素材的過程。“這是一輛汽車”1.1.1什么是數(shù)據(jù)標(biāo)注1.1數(shù)據(jù)標(biāo)注的起源與發(fā)展第一章數(shù)據(jù)標(biāo)注概述正是人類像教育小孩一樣培養(yǎng)了AlphaGo,才讓其“學(xué)會”下棋。不同AlphaGo版本的棋力比較1.1.1什么是數(shù)據(jù)標(biāo)注1.1數(shù)據(jù)標(biāo)注的起源與發(fā)展第一章數(shù)據(jù)標(biāo)注概述圖像標(biāo)注1.1.1什么是數(shù)據(jù)標(biāo)注1.1數(shù)據(jù)標(biāo)注的起源與發(fā)展第一章數(shù)據(jù)標(biāo)注概述語音標(biāo)注1.1.2數(shù)據(jù)標(biāo)注分類概述1.1數(shù)據(jù)標(biāo)注的起源與發(fā)展第一章數(shù)據(jù)標(biāo)注概述文本標(biāo)注1.1.2數(shù)據(jù)標(biāo)注分類概述1.1數(shù)據(jù)標(biāo)注的起源與發(fā)展第一章數(shù)據(jù)標(biāo)注概述數(shù)據(jù)標(biāo)注流程1.1.3數(shù)據(jù)標(biāo)注流程概述第一章數(shù)據(jù)標(biāo)注概述1.1數(shù)據(jù)標(biāo)注的起源與發(fā)展1.2數(shù)據(jù)標(biāo)注的應(yīng)用場景1.3有多少智能,就有多少人工1.5作業(yè)與練習(xí)1.4數(shù)據(jù)越多,智能越好1.2

數(shù)據(jù)標(biāo)注的應(yīng)用場景第一章數(shù)據(jù)標(biāo)注概述1.2.1出行行業(yè)常見應(yīng)用:以矩形框或描點(diǎn)對車輛進(jìn)行標(biāo)注;以矩形框或描點(diǎn)標(biāo)注人體輪廊;采集地址興趣點(diǎn),在地圖上做出相應(yīng)地理位置信息標(biāo)記的POI(PointofInterest)標(biāo)記等。1.2

數(shù)據(jù)標(biāo)注的應(yīng)用場景第一章數(shù)據(jù)標(biāo)注概述1.2.2金融行業(yè)文字翻譯、語義分析、語音轉(zhuǎn)錄、圖像標(biāo)注等,都是具有代表性的重要應(yīng)用。1.2

數(shù)據(jù)標(biāo)注的應(yīng)用場景第一章數(shù)據(jù)標(biāo)注概述1.2.3醫(yī)療行業(yè)通過人體標(biāo)框、3D畫框、骨骼點(diǎn)標(biāo)記、病歷轉(zhuǎn)錄等應(yīng)用,機(jī)器學(xué)習(xí)能夠快速完成醫(yī)學(xué)編碼和注釋,以及在遠(yuǎn)程醫(yī)療、醫(yī)療機(jī)器人、醫(yī)療影像、藥物挖掘等場景的應(yīng)用。1.2

數(shù)據(jù)標(biāo)注的應(yīng)用場景第一章數(shù)據(jù)標(biāo)注概述1.2.4家居行業(yè)主要包括應(yīng)用矩形框標(biāo)記人臉,進(jìn)行人臉精細(xì)分割;對家居物品進(jìn)行畫框標(biāo)記;通過描點(diǎn)的方式進(jìn)行區(qū)域劃分;采集語音并進(jìn)行標(biāo)注處理等。1.2

數(shù)據(jù)標(biāo)注的應(yīng)用場景第一章數(shù)據(jù)標(biāo)注概述1.2.5安防行業(yè)對于數(shù)據(jù)標(biāo)注人員而言,需要做的正是對訓(xùn)練圖片中人物的性別、年齡、膚色、表情、頭發(fā)以及是否帶帽帶眼鏡等進(jìn)行分類標(biāo)注,或者對行人做標(biāo)框處理,幫助機(jī)器獲取快速識別能力。1.2

數(shù)據(jù)標(biāo)注的應(yīng)用場景第一章數(shù)據(jù)標(biāo)注概述1.2.6公共服務(wù)確定內(nèi)容是否符合描述的內(nèi)容審核,對具有相同意思的語句進(jìn)行歸類的語義分析、將音頻轉(zhuǎn)化為文字的語音轉(zhuǎn)錄,以及查看視頻是否符合要求的視頻審核等都是數(shù)據(jù)標(biāo)注中的常見應(yīng)用。1.2

數(shù)據(jù)標(biāo)注的應(yīng)用場景第一章數(shù)據(jù)標(biāo)注概述1.2.7電子商務(wù)通過對產(chǎn)品打上結(jié)構(gòu)化標(biāo)簽,包括品牌、顏色、型號、價格、款式、瀏覽量、購買量、用戶評價等,建立360度的全景畫像,從而為個性化推薦提供先決條件。第一章數(shù)據(jù)標(biāo)注概述1.1數(shù)據(jù)標(biāo)注的起源與發(fā)展1.2數(shù)據(jù)標(biāo)注的應(yīng)用場景1.3有多少智能,就有多少人工1.5作業(yè)與練習(xí)1.4

數(shù)據(jù)越多,智能越好1.3

有多少智能,就有多少人工第一章數(shù)據(jù)標(biāo)注概述1.3.1有監(jiān)督的機(jī)器學(xué)習(xí)有監(jiān)督學(xué)習(xí)通過訓(xùn)練樣本找出規(guī)律,對模型進(jìn)行優(yōu)化,使其具有判斷與預(yù)知能力,這是向“樣本”學(xué)習(xí)的過程。數(shù)據(jù)處理的量級與質(zhì)量又直接關(guān)系到機(jī)器的智能程度,也就是我們所說的“有多少智能,就有多少人工”。1.3

有多少智能,就有多少人工第一章數(shù)據(jù)標(biāo)注概述1.3.2最后一批人工智能的“老師”隨著人工智能由弱人工智能向強(qiáng)人工智能直至超人工智能的轉(zhuǎn)變,以及有監(jiān)督學(xué)習(xí)向無監(jiān)督學(xué)習(xí)或遷移學(xué)習(xí)的轉(zhuǎn)變,數(shù)據(jù)標(biāo)注的需求將大幅度削減,人工標(biāo)注最終可能將不復(fù)存在。數(shù)據(jù)標(biāo)注工程師將是陪伴人工智能成長壯大的最后一批“老師”,很可能成為最后被替代的人類。手動標(biāo)記和流體標(biāo)注對比(相差無幾)第一章數(shù)據(jù)標(biāo)注概述1.1數(shù)據(jù)標(biāo)注的起源與發(fā)展1.2數(shù)據(jù)標(biāo)注的應(yīng)用場景1.3有多少智能,就有多少人工1.5作業(yè)與練習(xí)1.4

數(shù)據(jù)越多,智能越好1.4數(shù)據(jù)越多,智能越好第一章數(shù)據(jù)標(biāo)注概述在谷歌和CMU聯(lián)合發(fā)布的一篇論文中明確指出,深度學(xué)習(xí)的成功歸功于:(a)高容量的模型;(b)越來越強(qiáng)的計(jì)算能力;(c)可用的大規(guī)模標(biāo)簽數(shù)據(jù)。研究當(dāng)數(shù)據(jù)規(guī)模成百倍成千倍增長時,人工智能研究的精度與準(zhǔn)確性會怎么改變呢?1.4數(shù)據(jù)越多,智能越好第一章數(shù)據(jù)標(biāo)注概述為了得到確實(shí)的結(jié)果,研究人員應(yīng)用Google建立的內(nèi)部數(shù)據(jù)集——JFT-300M(數(shù)據(jù)是ImageNet的300倍,含有超過10億個標(biāo)簽)進(jìn)行研究。結(jié)果顯示,任務(wù)性能與訓(xùn)練數(shù)據(jù)之間關(guān)系緊密,大規(guī)模數(shù)據(jù)有助于表征學(xué)習(xí),同時隨著訓(xùn)練數(shù)據(jù)的數(shù)量級增長,模型性能呈線性增長,大規(guī)模的數(shù)據(jù)集對于預(yù)訓(xùn)練而言大有助益。測試性能隨數(shù)據(jù)量呈線性增長第一章數(shù)據(jù)標(biāo)注概述1.1數(shù)據(jù)標(biāo)注的起源與發(fā)展1.2數(shù)據(jù)標(biāo)注的應(yīng)用場景1.3有多少智能,就有多少人工1.5作業(yè)與練習(xí)1.4數(shù)據(jù)越多,智能越好1.如何理解數(shù)據(jù)標(biāo)注與人工智能的關(guān)系?2.什么是數(shù)據(jù)標(biāo)注?3.?dāng)?shù)據(jù)標(biāo)注對象可以劃分為哪幾類?4.?dāng)?shù)據(jù)標(biāo)注流程包括哪些環(huán)節(jié)?5.?dāng)?shù)據(jù)標(biāo)注有哪些應(yīng)用場景?6.如何理解“有多少智能,就有多少人工”?7.數(shù)據(jù)量級與智能程度之間存在怎樣的聯(lián)系?習(xí)題:第二章數(shù)據(jù)采集與清洗2.2數(shù)據(jù)采集2.3數(shù)據(jù)清洗2.4

作業(yè)與練習(xí)2.1標(biāo)注對象2.1

標(biāo)注對象第二章數(shù)據(jù)采集與清洗2.1.1主要的數(shù)據(jù)來源大人群產(chǎn)生的海量數(shù)據(jù)大量傳感器產(chǎn)生的海量數(shù)據(jù)科學(xué)研究和各行各業(yè)越來越依賴大數(shù)據(jù)手段來開展工作龐大數(shù)據(jù)三大來源2.1

標(biāo)注對象第二章數(shù)據(jù)采集與清洗2.1.1主要的數(shù)據(jù)來源按照產(chǎn)生數(shù)據(jù)的主體,具體可細(xì)分為以下來源1少量企業(yè)應(yīng)用產(chǎn)生的數(shù)據(jù)如關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)和數(shù)據(jù)倉庫中的數(shù)據(jù)等。2大量人產(chǎn)生的數(shù)據(jù)如推特、微博、通信軟件、移動通信數(shù)據(jù)、電子商務(wù)在線交易日志數(shù)據(jù)、企業(yè)應(yīng)用的相關(guān)評論數(shù)據(jù)等。3巨量機(jī)器產(chǎn)生的數(shù)據(jù)如應(yīng)用服務(wù)器日志、各類傳感器數(shù)據(jù)、圖像和視頻監(jiān)控?cái)?shù)據(jù)、二維碼和條形碼(條碼)掃描數(shù)據(jù)等。2.1標(biāo)注對象第二章數(shù)據(jù)采集與清洗2.1.2常見的標(biāo)注數(shù)據(jù)數(shù)據(jù)來源多種多樣,數(shù)據(jù)量也越發(fā)龐大,即使如此,并不是每種數(shù)據(jù)都適合標(biāo)注,具體而言,常見的標(biāo)注對象主要分為圖像與視頻、語音、文本。1.圖像與視頻數(shù)據(jù)。對街景的畫框標(biāo)注;對人臉圖像做描點(diǎn)處理。按照圖像展示對象,又可分為人臉數(shù)據(jù)、車輛數(shù)據(jù)以及街景數(shù)據(jù)等。2.語音數(shù)據(jù)。在實(shí)際應(yīng)用中,語音處理軟件Praat、Transcriber、SPPAS等都是常用的語音標(biāo)注工具。3.文本數(shù)據(jù)??赏ㄟ^IEPY、DeepDive(Mindtagger)、BRAT、SUTDAnnotator、Snorkel、Slate、Prodigy等開源文本工具進(jìn)行標(biāo)注。第二章數(shù)據(jù)采集與清洗2.1標(biāo)注對象2.3數(shù)據(jù)清洗2.4作業(yè)與練習(xí)2.2數(shù)據(jù)采集2.2數(shù)據(jù)采集第二章數(shù)據(jù)采集與清洗2.2.1數(shù)據(jù)采集方法就數(shù)據(jù)獲取而言,大型互聯(lián)網(wǎng)企業(yè)擁有穩(wěn)定安全的數(shù)據(jù)資源。對于其他大數(shù)據(jù)公司和大數(shù)據(jù)研究機(jī)構(gòu)而言,獲取大數(shù)據(jù)的方法主要為:1.系統(tǒng)日志采集。Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,采用分布式架構(gòu),能滿足大數(shù)據(jù)的日志數(shù)據(jù)采集和傳輸需求。2.互聯(lián)網(wǎng)數(shù)據(jù)采集。通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息,還可以使用DPI或DFI等帶寬管理技術(shù)實(shí)現(xiàn)對網(wǎng)絡(luò)流量的采集。3.APP移動端數(shù)據(jù)采集。APP是獲取用戶移動端數(shù)據(jù)的一種方法,APP中的SDK插件可以將用戶使用APP的信息匯總給指定服務(wù)器。4.與數(shù)據(jù)服務(wù)機(jī)構(gòu)進(jìn)行合作。數(shù)據(jù)服務(wù)機(jī)構(gòu)通常具備規(guī)范的數(shù)據(jù)共享和交易渠道,人們可以在平臺上快速、明確地獲取自己所需要的數(shù)據(jù)。2.2數(shù)據(jù)采集第二章數(shù)據(jù)采集與清洗2.2.2數(shù)據(jù)采集流程

首先是數(shù)據(jù)源(source),這是數(shù)據(jù)采集的基地,再者是緩沖區(qū)(channel),即中間站點(diǎn),最后是目的地(sink)——數(shù)據(jù)的歸宿。在這個過程中,通過source采集的數(shù)據(jù)進(jìn)行封裝以后,以單元(event)作為傳輸數(shù)據(jù)的基本單位,在source與sink之間進(jìn)行流動(flow),具體運(yùn)行過程如下:2.2數(shù)據(jù)采集第二章數(shù)據(jù)采集與清洗2.2.3標(biāo)注數(shù)據(jù)采集1.人臉數(shù)據(jù)采集。年齡分布、性別分布、人種分布、表情類型、拍攝環(huán)境、圖片尺寸、文件格式、圖片數(shù)量、適用領(lǐng)域。2.車輛數(shù)據(jù)采集。車型分布、車輛顏色、拍攝時間、車牌顏色、圖片尺寸、文件格式、圖片數(shù)量、適用領(lǐng)域。3.街景數(shù)據(jù)采集。采集環(huán)境、路況覆蓋、數(shù)據(jù)規(guī)模、拍攝設(shè)備、圖片尺寸、文件格式、圖片數(shù)量、適用領(lǐng)域。4.語音數(shù)據(jù)采集。采集數(shù)量、性別分布、是否做內(nèi)容轉(zhuǎn)寫、錄制環(huán)境、錄音語料、錄音設(shè)備、音頻文件、文件數(shù)量、適用領(lǐng)域。5.文本數(shù)據(jù)采集。采集內(nèi)容、文件格式、編碼格式、文件數(shù)量、適用領(lǐng)域。第二章數(shù)據(jù)采集與清洗2.1標(biāo)注對象2.2數(shù)據(jù)采集2.4作業(yè)與練習(xí)2.3數(shù)據(jù)清洗2.3數(shù)據(jù)清洗第二章數(shù)據(jù)采集與清洗數(shù)據(jù)清理主要是達(dá)到數(shù)據(jù)格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)清除、數(shù)據(jù)錯誤糾正、重復(fù)數(shù)據(jù)的清除等目標(biāo)。數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并統(tǒng)一存儲,建立數(shù)據(jù)倉庫。數(shù)據(jù)變換是通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。數(shù)據(jù)歸約是指在對挖掘任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,尋找依賴于發(fā)現(xiàn)目標(biāo)的數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)規(guī)模,從而在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量。

數(shù)據(jù)清洗原理示意圖2.3數(shù)據(jù)清洗第二章數(shù)據(jù)采集與清洗數(shù)據(jù)清洗包括以下應(yīng)用方法:處理缺失值數(shù)據(jù)的收集過程很難做到數(shù)據(jù)全部完整。處理缺失值的方法有3種:

1.忽略元組

2.數(shù)據(jù)補(bǔ)齊(人工填寫、特殊值填充、平均值填充、使用最有可能的值填充)

3.不處理噪聲數(shù)據(jù)噪聲(noise)是一個測量變量中的隨機(jī)錯誤或偏差。造成這種誤差有多方面的原因,例如,數(shù)據(jù)收集工具的問題,數(shù)據(jù)輸入、傳輸錯誤,技術(shù)限制等。可以通過對數(shù)值進(jìn)行平滑處理而消除噪聲。主要使用的技術(shù)有:

1.回歸

2.分箱

3.孤立點(diǎn)分析重復(fù)數(shù)據(jù)在數(shù)據(jù)庫中,對于屬性值相同的記錄,可以將其看作是重復(fù)記錄。2.3.1數(shù)據(jù)清洗方法2.3數(shù)據(jù)清洗第二章數(shù)據(jù)采集與清洗在具體的數(shù)據(jù)清洗過程中,可以按照以下具體流程開展:1.明確錯誤類型。在這個環(huán)節(jié),可以通過手動檢查或者數(shù)據(jù)樣本等數(shù)據(jù)分析方式,檢測分析數(shù)據(jù)中存在的錯誤,并在此基礎(chǔ)上定義清洗轉(zhuǎn)換規(guī)則與工作流。根據(jù)數(shù)據(jù)源的數(shù)量以及缺失、不一致或者冗余情況,決定數(shù)據(jù)轉(zhuǎn)換和清洗步驟。2.識別錯誤實(shí)例。在識別過程中,如果采用人工方式,往往耗時耗力,準(zhǔn)確率也難以保障。為此,在這個過程中,可以首先通過統(tǒng)計(jì)、聚類或者關(guān)聯(lián)規(guī)則的方法,自動檢測數(shù)據(jù)的屬性錯誤。對于重復(fù)記錄,可以通過基本的或者是遞歸的字段匹配算法、Smith—Waterman算法等實(shí)現(xiàn)數(shù)據(jù)的檢測與匹配。3.糾正發(fā)現(xiàn)錯誤。對于糾正錯誤,則按照最初預(yù)定義的數(shù)據(jù)清洗規(guī)則和工作流有序進(jìn)行。其中,為了處理方便,應(yīng)該對數(shù)據(jù)源進(jìn)行分類處理,并在各個分類中將屬性值統(tǒng)一格式,做標(biāo)準(zhǔn)化處理。此外,在處理之前,應(yīng)該對源數(shù)據(jù)進(jìn)行備份,以防需要撤銷操作或者數(shù)據(jù)丟失等意外情況。4.干凈數(shù)據(jù)回流。通過以上三大環(huán)節(jié),基本已經(jīng)可以得到干凈數(shù)據(jù),這時需要將將其替換掉原來的“臟”數(shù)據(jù),實(shí)現(xiàn)干凈數(shù)據(jù)回流,以提高數(shù)據(jù)質(zhì)量,同時也避免了重復(fù)進(jìn)行數(shù)據(jù)清洗的工作。2.3.2數(shù)據(jù)清洗流程2.3數(shù)據(jù)清洗第二章數(shù)據(jù)采集與清洗2.3.3MapReduce數(shù)據(jù)去重假設(shè)目前采集了兩個文本文件,里面涉及不少重復(fù)數(shù)據(jù),具體如左圖:對于上述兩個文件中的每行數(shù)據(jù),我們都可以將其看作是Map和Reduce函數(shù)處理后的Key值,當(dāng)出現(xiàn)重復(fù)的Key值,就將其合并在一起,從而達(dá)到去重的目的。如右圖:第二章數(shù)據(jù)采集與清洗2.1標(biāo)注對象2.3數(shù)據(jù)清洗2.2數(shù)據(jù)采集2.4作業(yè)與練習(xí)1.數(shù)據(jù)主要有哪三大來源?2.?dāng)?shù)據(jù)采集方法有哪些?3.?dāng)?shù)據(jù)采集流程是怎樣的?4.如何看待基于Flume的數(shù)據(jù)采集?5.針對不同的業(yè)務(wù)需求,數(shù)據(jù)清洗的方法有哪些?6.如何看待基于MapReduce的數(shù)據(jù)清洗?習(xí)題:第三章數(shù)據(jù)標(biāo)注分類3.2語音標(biāo)注3.3文本標(biāo)注3.4

作業(yè)與練習(xí)3.1圖像標(biāo)注3.1

圖像標(biāo)注第三章數(shù)據(jù)標(biāo)注分類3.1.1什么是圖像標(biāo)注

圖像標(biāo)注問題的本質(zhì)是視覺到語言的問題,用通俗的話來說,就是“看圖說話”。這就好比我們小時候在做看圖說話題目一樣,同理,我們也希望算法能夠根據(jù)圖像得出描述其內(nèi)容含義的自然語句和自然語言。但是,這對于小朋友來說小事一樁的小兒科級工作,對于計(jì)算機(jī)視覺領(lǐng)域來說,卻是一個不小的挑戰(zhàn)。因?yàn)閳D像標(biāo)注問題需要在兩種不同形式的圖像信息到文本信息之間進(jìn)行“翻譯”才行。3.1

圖像標(biāo)注第三章數(shù)據(jù)標(biāo)注分類3.1.2圖像標(biāo)注應(yīng)用領(lǐng)域

我們把一副18×18像素的圖片當(dāng)成一串324個數(shù)字的數(shù)列。為了更好地操控我們輸入的數(shù)據(jù),我們不妨把神經(jīng)網(wǎng)絡(luò)擴(kuò)大到324個輸入節(jié)點(diǎn)。第一個輸出預(yù)測圖片是“6”的概率,第二個則輸出預(yù)測不是“6”的概率。也就是說,這樣我們就可以依據(jù)多種不同的輸出,應(yīng)用神經(jīng)網(wǎng)絡(luò)把要識別的物品進(jìn)行分組。先對大批的“6”和非“6”圖片進(jìn)行標(biāo)注,相當(dāng)于我們明確告訴它我們判定為“6”的圖片是“6”的概率是100%,不是“6”的圖片其概率為0;對應(yīng)的非“6”的圖片,我們明確告訴它我們輸入的圖片是“6”的概率為0,不是“6”的概率是100%。我們可以利用計(jì)算機(jī)用幾分鐘的時間來訓(xùn)練這種神經(jīng)網(wǎng)絡(luò)。完成之后,我們便可以得到一個有著很高的“6”圖片識別率的神經(jīng)網(wǎng)絡(luò)。3.1圖像標(biāo)注第三章數(shù)據(jù)標(biāo)注分類圖像標(biāo)注應(yīng)用領(lǐng)域劃分拉框標(biāo)注;切割標(biāo)注AI車牌識別云服務(wù)智慧路燈伴侶云平臺人臉關(guān)鍵點(diǎn)的標(biāo)注;240個點(diǎn)的人臉關(guān)鍵點(diǎn)位標(biāo)注模糊人臉識別分析+精確人像對比二合一應(yīng)用車輛車牌標(biāo)注人像識別標(biāo)注醫(yī)療影像技術(shù)發(fā)展還不夠成熟,進(jìn)入門檻較高AI前列腺癌診斷尺寸標(biāo)注;表面粗糙度標(biāo)注研發(fā)智能化的服務(wù)機(jī)器人醫(yī)療影像標(biāo)注機(jī)械影像標(biāo)注第三章數(shù)據(jù)標(biāo)注分類3.1圖像標(biāo)注3.3文本標(biāo)注3.4

作業(yè)與練習(xí)3.2語音標(biāo)注3.2

語音標(biāo)注第三章數(shù)據(jù)標(biāo)注分類3.2.1什么是語音標(biāo)注

一般來說,語音標(biāo)注與我們生活的眾多方面都是息息相關(guān)的。比如,我們在使用微信時,語音可以轉(zhuǎn)換成文字,在使用百度地圖APP上的小麥克風(fēng)功能,或者京東客服里的直接說出問題,JIMI對應(yīng)解決等功能。這些都需要前期大量的人工去標(biāo)記這些“說出的話”所對應(yīng)的“文字”,采用人工的方式一點(diǎn)點(diǎn)去修正語音和文字間的誤差。這就是語音標(biāo)注。3.2

語音標(biāo)注第三章數(shù)據(jù)標(biāo)注分類3.2.2

客服錄音數(shù)據(jù)標(biāo)注規(guī)范142563確定是否包含有效語音確定語音的噪聲情況確定說話人數(shù)量語音內(nèi)容方面確定是否包含口音確定說話人性別第三章數(shù)據(jù)標(biāo)注分類3.1圖像標(biāo)注3.2語音標(biāo)注3.4

作業(yè)與練習(xí)3.3文本標(biāo)注3.3

文本標(biāo)注第三章數(shù)據(jù)標(biāo)注分類

文本標(biāo)注其實(shí)是一個監(jiān)督學(xué)習(xí)問題。我們可以把標(biāo)注問題看作是分類問題的一種推廣方式,同時,標(biāo)注問題也是更復(fù)雜的結(jié)構(gòu)預(yù)測問題的簡單形式。標(biāo)注問題,其輸入是一個觀測序列,其輸出是一個標(biāo)記序列護(hù)著狀態(tài)序列。標(biāo)注問題的目的是學(xué)習(xí)模型,使該模型能夠?qū)τ^測序列給出標(biāo)記序列作為預(yù)測。需要注意的是,標(biāo)記個數(shù)是有限的,但其組合縮成的標(biāo)記序列的個數(shù)是依照序列長度呈指數(shù)級增長的。作為最常見的數(shù)據(jù)標(biāo)注類型之一,文本標(biāo)注是指,將文字、符號在內(nèi)的文本進(jìn)行標(biāo)注,讓計(jì)算機(jī)能夠讀懂識別,從而應(yīng)用于人類的生產(chǎn)生活領(lǐng)域。3.3.1什么是文本標(biāo)注3.3文本標(biāo)注第三章數(shù)據(jù)標(biāo)注分類3.3.2文本標(biāo)注應(yīng)用領(lǐng)域客服行業(yè)。主要集中在場景識別和應(yīng)答識別。以不少電商平臺的智能客服機(jī)器人為例,當(dāng)用戶在購物遇到問題,人工智能將根據(jù)用戶的咨詢內(nèi)容切入到對應(yīng)的場景里,根據(jù)用戶的具體問題,給出對應(yīng)的回答。金融行業(yè)。線上平臺標(biāo)注和線下表格標(biāo)注,是金融行業(yè)文本標(biāo)注主要的標(biāo)注形式。一般,出現(xiàn)錯誤的情況,被稱作“badcase”。打個比方,當(dāng)用戶問信用卡怎么辦理的時候,機(jī)器人回復(fù)的卻是儲蓄卡的辦理流程,這就是出現(xiàn)了badcase”。醫(yī)療行業(yè)。對自然語言進(jìn)行標(biāo)記處理,需要專門的醫(yī)學(xué)人才才能進(jìn)行。首先明確每個詞的屬性,即每個詞在這種語境下面具備怎樣的屬性。然后標(biāo)注每個詞在句子中的作用。舉個例子,患者主訴為:腰痛2年,伴左下肢放射痛10日余。第三章數(shù)據(jù)標(biāo)注分類3.1圖像標(biāo)注3.3文本標(biāo)注3.2

語音標(biāo)注3.4作業(yè)與練習(xí)1.?dāng)?shù)據(jù)標(biāo)注有哪些分類?請簡要概括。2.你怎樣理解圖像標(biāo)注的概念。3.圖像標(biāo)注有哪些具體應(yīng)用。4.你怎樣理解語音標(biāo)注的概念。5.語音標(biāo)注的規(guī)范有哪些?請?jiān)敿?xì)論述。6.你怎樣理解文本標(biāo)注的概念。7.文本標(biāo)注有哪些具體應(yīng)用。習(xí)題:第四章數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)4.2數(shù)據(jù)標(biāo)注質(zhì)量標(biāo)準(zhǔn)4.3數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)方法4.4

作業(yè)與練習(xí)4.1數(shù)據(jù)質(zhì)量影響算法效果4.1數(shù)據(jù)質(zhì)量影響算法效果第四章數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)機(jī)器學(xué)習(xí)算法的訓(xùn)練效果有很大程度需要依賴高質(zhì)量的數(shù)據(jù)集,如果訓(xùn)練中所使用的標(biāo)注數(shù)據(jù)集存在大量噪聲,將會導(dǎo)致機(jī)器學(xué)習(xí)訓(xùn)練不充分,無法獲得規(guī)律,這樣在訓(xùn)練效果驗(yàn)證時會出現(xiàn)目標(biāo)偏離,無法識別的情況。上圖是非專業(yè)標(biāo)注人員標(biāo)注細(xì)胞核,通過標(biāo)注輪廓的雜亂性可以看出,非專業(yè)標(biāo)注人員標(biāo)注的數(shù)據(jù)中存在大量噪聲。下圖是通過機(jī)器學(xué)習(xí)后驗(yàn)證的訓(xùn)練效果??梢钥闯觯菍I(yè)標(biāo)注員標(biāo)注的數(shù)據(jù)通過機(jī)器學(xué)習(xí)只能識別出了一部分目標(biāo),而且目標(biāo)輪廓發(fā)生偏移,機(jī)器學(xué)習(xí)沒有得到充分的訓(xùn)練。4.1數(shù)據(jù)質(zhì)量影響算法效果第四章數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)對于質(zhì)量不高的數(shù)據(jù),在進(jìn)行機(jī)器學(xué)習(xí)前需要經(jīng)過加工處理,讓數(shù)據(jù)集的整體質(zhì)量得到提升,以此提高算法的訓(xùn)練效果。機(jī)器學(xué)習(xí)的訓(xùn)練效果與數(shù)據(jù)集質(zhì)量的關(guān)系如圖所示。圖中,當(dāng)數(shù)據(jù)集的整體標(biāo)注質(zhì)量只有80%的時候,機(jī)器學(xué)習(xí)的訓(xùn)練效果可能只有30%~40%。隨著數(shù)據(jù)標(biāo)注質(zhì)量逐步提高,機(jī)器學(xué)習(xí)的效果也會突飛猛進(jìn)。當(dāng)數(shù)據(jù)標(biāo)注質(zhì)量達(dá)到98%的時候,機(jī)器學(xué)習(xí)的效果為80%,但此時如果數(shù)據(jù)標(biāo)注再往上提升,機(jī)器學(xué)習(xí)效果的提升就沒有之前那么明顯了。第四章數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)4.1數(shù)據(jù)質(zhì)量影響算法效果4.3數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)方法4.4作業(yè)與練習(xí)4.2數(shù)據(jù)標(biāo)注質(zhì)量標(biāo)準(zhǔn)4.2數(shù)據(jù)標(biāo)注質(zhì)量標(biāo)準(zhǔn)第四章數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)4.2.1圖像標(biāo)注質(zhì)量標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)訓(xùn)練圖像識別是根據(jù)像素點(diǎn)進(jìn)行的,所以對于圖像標(biāo)注的質(zhì)量標(biāo)準(zhǔn)也是根據(jù)像素點(diǎn)位判定,即標(biāo)注像素點(diǎn)越接近于標(biāo)注物的邊緣像素點(diǎn),標(biāo)注的質(zhì)量就越高,標(biāo)注難度就越大。標(biāo)框標(biāo)注。我們先需要對標(biāo)注物最邊緣像素點(diǎn)進(jìn)行判斷,然后檢驗(yàn)標(biāo)框的四周邊框是否與標(biāo)注物最邊緣像素點(diǎn)誤差在1個像素以內(nèi)。區(qū)域標(biāo)注。需要特別注意檢驗(yàn)轉(zhuǎn)折拐角,因?yàn)樵趫D像中轉(zhuǎn)折拐角的邊緣像素點(diǎn)噪聲最大,最容易產(chǎn)生標(biāo)注誤差。其他圖像標(biāo)注。其質(zhì)量標(biāo)準(zhǔn)需要結(jié)合實(shí)際的算法制定,質(zhì)量檢驗(yàn)人員一定要理解算法的標(biāo)注要求。4.2數(shù)據(jù)標(biāo)注質(zhì)量標(biāo)準(zhǔn)第四章數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)語音標(biāo)注在質(zhì)量檢驗(yàn)時需要在相對安靜的獨(dú)立環(huán)境中進(jìn)行,在語音標(biāo)注的質(zhì)量檢驗(yàn)中,質(zhì)檢員需要做到眼耳并用,時刻關(guān)注語音數(shù)據(jù)發(fā)音的時間軸與標(biāo)注區(qū)域的音標(biāo)是否相符,如圖,檢驗(yàn)每個字的標(biāo)注是否與語音數(shù)據(jù)發(fā)音的時間軸保持一致。語音標(biāo)注的質(zhì)量標(biāo)準(zhǔn)是標(biāo)注與發(fā)音時間軸誤差在1個語音幀以內(nèi),在日常對話中,字的發(fā)音間隔會很短,尤其是在語速比較快的情況下,如果語音標(biāo)注的誤差超過1個語音幀,很容易標(biāo)注到下一個發(fā)音,讓語音數(shù)據(jù)集中存在更多噪聲,影響最終的機(jī)器學(xué)習(xí)效果。4.2.2語音標(biāo)注質(zhì)量標(biāo)準(zhǔn)4.2數(shù)據(jù)標(biāo)注質(zhì)量標(biāo)準(zhǔn)第四章數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)4.2.3文本標(biāo)準(zhǔn)質(zhì)量標(biāo)準(zhǔn)

多音字標(biāo)注的質(zhì)量標(biāo)準(zhǔn)就是標(biāo)注出一個字的全部讀音,這需要借助字典等專業(yè)性工具進(jìn)行檢驗(yàn)。語義標(biāo)注的質(zhì)量標(biāo)準(zhǔn)是標(biāo)注出詞語或語句的語義,在檢驗(yàn)中分為3種情況:1、針對單獨(dú)詞語或語句進(jìn)行檢驗(yàn);2、針對上下文的情景環(huán)境進(jìn)行檢驗(yàn);3、針對語音數(shù)據(jù)中的語音語調(diào)進(jìn)行檢驗(yàn)。3種語義標(biāo)注檢驗(yàn)除了需要借助字典等專業(yè)性工具外,還需要理解上下文的情景環(huán)境或語音語調(diào)的含義。第四章數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)4.1數(shù)據(jù)質(zhì)量影響算法效果4.2數(shù)據(jù)標(biāo)注質(zhì)量標(biāo)準(zhǔn)4.4作業(yè)與練習(xí)4.3數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)方法4.3數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)方法第四章數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)4.3.1實(shí)時檢驗(yàn)實(shí)時檢驗(yàn)方法的優(yōu)點(diǎn):1)能夠及時發(fā)現(xiàn)問題并解決問題。2)能夠有效減少標(biāo)注過程中重復(fù)錯誤的重復(fù)出現(xiàn)。3)能夠保證整體標(biāo)注任務(wù)的流暢性。4)能夠?qū)崟r掌握數(shù)據(jù)標(biāo)準(zhǔn)的任務(wù)進(jìn)度。實(shí)時檢驗(yàn)的缺點(diǎn):對于人員的配備及管理要求較高。

實(shí)時檢查流程圖4.3數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)方法第四章數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)全樣檢驗(yàn)方法的優(yōu)點(diǎn):1)能夠?qū)?shù)據(jù)集做到無遺漏檢驗(yàn)。2)可以對數(shù)據(jù)集進(jìn)行準(zhǔn)確率評估。全樣檢查的缺點(diǎn):需要耗費(fèi)大量的人力精力集中進(jìn)行。4.3.2全樣檢驗(yàn)

全樣檢查流程圖4.3數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)方法第四章數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)多重抽樣檢驗(yàn)輔助實(shí)時檢驗(yàn)4.3.3抽樣檢驗(yàn)4.3數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)方法第四章數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)多重抽樣檢驗(yàn)輔助全樣檢驗(yàn)流程多重抽樣檢驗(yàn)方法的優(yōu)點(diǎn):1)能夠合理調(diào)配質(zhì)檢員的工作重心。2)有效地彌補(bǔ)其他檢驗(yàn)方法的疏漏。3)提高數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)的準(zhǔn)確性。多重抽樣檢查的缺點(diǎn):只能輔助其他檢查方驗(yàn),如果單獨(dú)實(shí)施,會出現(xiàn)疏漏。4.3.3抽樣檢驗(yàn)第四章數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)4.1數(shù)據(jù)質(zhì)量影響算法效果4.3數(shù)據(jù)標(biāo)注質(zhì)量檢驗(yàn)方法4.2數(shù)據(jù)標(biāo)注質(zhì)量標(biāo)準(zhǔn)4.4作業(yè)與練習(xí)1.標(biāo)框標(biāo)注的質(zhì)量標(biāo)準(zhǔn)是什么?根據(jù)標(biāo)框標(biāo)注的質(zhì)量標(biāo)準(zhǔn)進(jìn)行標(biāo)注與質(zhì)檢。2.區(qū)域標(biāo)注的質(zhì)量標(biāo)準(zhǔn)是什么?根據(jù)區(qū)域標(biāo)注的質(zhì)量標(biāo)準(zhǔn)進(jìn)行標(biāo)注與質(zhì)檢。3.語音標(biāo)注的質(zhì)量標(biāo)準(zhǔn)是什么?根據(jù)語音標(biāo)注的質(zhì)量標(biāo)準(zhǔn)進(jìn)行標(biāo)注與質(zhì)檢。4.實(shí)時檢驗(yàn)方法的流程與優(yōu)缺點(diǎn)是什么?5.全樣檢驗(yàn)方法的流程與優(yōu)缺點(diǎn)是什么?6.抽樣檢驗(yàn)方法怎樣配合其他兩種檢驗(yàn)方法?流程與優(yōu)缺點(diǎn)是什么?習(xí)題:第五章數(shù)據(jù)標(biāo)注管理5.1數(shù)據(jù)標(biāo)注工廠設(shè)計(jì)5.2數(shù)據(jù)標(biāo)注管理架構(gòu)5.3數(shù)據(jù)安全管理與質(zhì)量管理體系5.5數(shù)據(jù)標(biāo)注訂單管理5.6數(shù)據(jù)標(biāo)注客戶關(guān)系管理5.7作業(yè)與練習(xí)5.4

數(shù)據(jù)標(biāo)注項(xiàng)目評估5.1數(shù)據(jù)標(biāo)注工廠設(shè)計(jì)第五章數(shù)據(jù)標(biāo)注管理數(shù)據(jù)標(biāo)注工廠的辦公區(qū)域劃分商務(wù)辦公區(qū)域主要負(fù)責(zé)通過商務(wù)渠道維護(hù)以及接待洽談數(shù)據(jù)加工業(yè)務(wù)。綜合辦公區(qū)域主要安排行政、人事、財(cái)務(wù)等保障工廠日常運(yùn)作的部門。數(shù)據(jù)采集區(qū)域主要進(jìn)行數(shù)據(jù)采集相關(guān)工作。數(shù)據(jù)清洗區(qū)域主要進(jìn)行原始數(shù)據(jù)的清洗工作,其中包括原始數(shù)據(jù)的質(zhì)量檢驗(yàn)和敏感隱私數(shù)據(jù)的清洗。數(shù)據(jù)標(biāo)注區(qū)域主要進(jìn)行數(shù)據(jù)的標(biāo)注工作。涉密項(xiàng)目區(qū)域涉密項(xiàng)目加工的數(shù)據(jù)必須在涉密項(xiàng)目專屬獨(dú)立辦公室中的涉密計(jì)算機(jī)上進(jìn)行。交流培訓(xùn)區(qū)域數(shù)據(jù)加工的每個區(qū)域都需要安排交流培訓(xùn)區(qū),當(dāng)項(xiàng)目遇到問題時便于及時溝通。5.1數(shù)據(jù)標(biāo)注工廠設(shè)計(jì)第五章數(shù)據(jù)標(biāo)注管理數(shù)據(jù)標(biāo)注工廠設(shè)計(jì)平面圖第五章數(shù)據(jù)標(biāo)注管理5.1數(shù)據(jù)標(biāo)注工廠設(shè)計(jì)5.2數(shù)據(jù)標(biāo)注管理架構(gòu)5.3數(shù)據(jù)安全管理與質(zhì)量管理體系5.5數(shù)據(jù)標(biāo)注訂單管理5.6數(shù)據(jù)標(biāo)注客戶關(guān)系管理5.7作業(yè)與練習(xí)5.4

數(shù)據(jù)標(biāo)注項(xiàng)目評估5.2數(shù)據(jù)標(biāo)注管理架構(gòu)第五章數(shù)據(jù)標(biāo)注管理數(shù)據(jù)加工從業(yè)務(wù)性質(zhì)上可以劃分為三個部分:①數(shù)據(jù)采集;②數(shù)據(jù)清洗;③數(shù)據(jù)標(biāo)注。數(shù)據(jù)采集組由于主要負(fù)責(zé)采集工作,設(shè)立數(shù)據(jù)采集組負(fù)責(zé)人,并根據(jù)項(xiàng)目小組劃分,設(shè)立項(xiàng)目小組長。數(shù)據(jù)清洗組業(yè)務(wù)模式分為原始數(shù)據(jù)的質(zhì)量檢驗(yàn)工作以及敏感隱私數(shù)據(jù)的清洗工作,所以除了設(shè)立數(shù)據(jù)清洗組負(fù)責(zé)人外,還需要在負(fù)責(zé)人下面分別設(shè)立原始數(shù)據(jù)質(zhì)量檢驗(yàn)組長以及敏感隱私數(shù)據(jù)清洗組長,兩個組長下面再分別項(xiàng)目小組,設(shè)立項(xiàng)目小組長。數(shù)據(jù)標(biāo)注組因?yàn)闃?biāo)注方法類型比較多,所以需要根據(jù)標(biāo)注方法類型進(jìn)行管理。每種類型的數(shù)據(jù)標(biāo)注分別設(shè)置單項(xiàng)標(biāo)注負(fù)責(zé)人,然后再根據(jù)項(xiàng)目安排項(xiàng)目組長;因?yàn)閿?shù)據(jù)標(biāo)注項(xiàng)目需要多個項(xiàng)目小組共同參與完成,所以需要在項(xiàng)目組長下面設(shè)立項(xiàng)目小組長;因?yàn)閿?shù)據(jù)標(biāo)注項(xiàng)目小組的工作質(zhì)量是由標(biāo)注質(zhì)檢員進(jìn)行檢驗(yàn)的,所以一般數(shù)據(jù)標(biāo)注項(xiàng)目小組長由質(zhì)檢員擔(dān)任。第五章數(shù)據(jù)標(biāo)注管理5.1數(shù)據(jù)標(biāo)注工廠設(shè)計(jì)5.2數(shù)據(jù)標(biāo)注管理架構(gòu)5.3數(shù)據(jù)安全管理與質(zhì)量管理體系5.5數(shù)據(jù)標(biāo)注訂單管理5.6數(shù)據(jù)標(biāo)注客戶關(guān)系管理5.7作業(yè)與練習(xí)5.4

數(shù)據(jù)標(biāo)注項(xiàng)目評估5.3數(shù)據(jù)安全管理與質(zhì)量管理體系第五章數(shù)據(jù)標(biāo)注管理5.3.1數(shù)據(jù)存儲安全管理要求數(shù)據(jù)加工的服務(wù)器與計(jì)算機(jī)禁止連接互聯(lián)網(wǎng),禁止通過外接設(shè)備進(jìn)行拷貝。數(shù)據(jù)加工的服務(wù)器需要使用多節(jié)點(diǎn)存儲系統(tǒng),這樣當(dāng)發(fā)生事故某些節(jié)點(diǎn)上的數(shù)據(jù)出現(xiàn)損壞情況,也能夠及時通過數(shù)據(jù)恢復(fù)算法將數(shù)據(jù)進(jìn)行恢復(fù)。數(shù)據(jù)加工的服務(wù)器需要定期做好容災(zāi)備份管理,這樣當(dāng)發(fā)生突發(fā)情況,也能夠保證數(shù)據(jù)不丟失。5.3數(shù)據(jù)安全管理與質(zhì)量管理體系第五章數(shù)據(jù)標(biāo)注管理5.3.2工廠人員行為管理對標(biāo)注工廠內(nèi)的人員行為進(jìn)行視頻監(jiān)控,此舉可以通過觀察工廠內(nèi)人員的行為,預(yù)防工廠人員竊取數(shù)據(jù)或在數(shù)據(jù)泄露發(fā)生后偵查發(fā)現(xiàn)嫌疑人蹤跡。各項(xiàng)目組必須安裝獨(dú)立的門禁管理系統(tǒng),對項(xiàng)目辦公區(qū)域的準(zhǔn)入人員進(jìn)行管理,只有項(xiàng)目的參與者才能夠通過身份識別進(jìn)入項(xiàng)目辦公區(qū)域進(jìn)行辦公,減少無關(guān)人員可以有效降低數(shù)據(jù)泄露風(fēng)險。視頻監(jiān)控系統(tǒng)門禁管理系統(tǒng)5.3數(shù)據(jù)安全管理與質(zhì)量管理體系第五章數(shù)據(jù)標(biāo)注管理5.3.3溯源體系建設(shè)

溯源體系需要對數(shù)據(jù)從預(yù)處理階段到最終交付期間所有經(jīng)手的辦公人員都進(jìn)行記錄。當(dāng)發(fā)生數(shù)據(jù)泄漏后,可以清楚的了解到哪些辦公人員接觸過該數(shù)據(jù),并負(fù)責(zé)哪些環(huán)節(jié),這樣可以快速鎖定調(diào)查范圍,追查數(shù)據(jù)泄漏源以及追究責(zé)任。為了更好建設(shè)溯源體系,可以使用智能水印技術(shù)對數(shù)據(jù)標(biāo)注每個環(huán)節(jié)進(jìn)行記錄。智能水印是通過算法進(jìn)行制作并在數(shù)據(jù)上進(jìn)行記錄,只有在特定算法下才能夠識別,肉眼無法察覺。通過智能水印技術(shù)可以將數(shù)據(jù)加工階段各環(huán)節(jié)責(zé)任人在數(shù)據(jù)中進(jìn)行記錄,當(dāng)發(fā)生數(shù)據(jù)泄漏問題后,可以根據(jù)智能水印,直接找到泄漏環(huán)節(jié)與責(zé)任人,快速鎖定調(diào)查范圍。5.3數(shù)據(jù)安全管理與質(zhì)量管理體系第五章數(shù)據(jù)標(biāo)注管理5.3.4質(zhì)量管理體系建設(shè)整套質(zhì)量管理體系采用了實(shí)時檢驗(yàn)、全樣檢驗(yàn)、以及多重抽樣檢驗(yàn),只有在三種檢驗(yàn)方法均合格后,數(shù)據(jù)才能交付,如果標(biāo)注出現(xiàn)不合格情況,都需要進(jìn)行返工改正,通過此體系,能大大保證數(shù)據(jù)標(biāo)注的質(zhì)量。第五章數(shù)據(jù)標(biāo)注管理5.1數(shù)據(jù)標(biāo)注工廠設(shè)計(jì)5.2數(shù)據(jù)標(biāo)注管理架構(gòu)5.3數(shù)據(jù)安全管理與質(zhì)量管理體系5.5數(shù)據(jù)標(biāo)注訂單管理5.6數(shù)據(jù)標(biāo)注客戶關(guān)系管理5.7作業(yè)與練習(xí)5.4

數(shù)據(jù)標(biāo)注項(xiàng)目評估5.4數(shù)據(jù)標(biāo)注項(xiàng)目評估第五章數(shù)據(jù)標(biāo)注管理以圖像標(biāo)注為例,當(dāng)接到數(shù)據(jù)標(biāo)注項(xiàng)目后,需要先對項(xiàng)目的驗(yàn)收標(biāo)準(zhǔn)進(jìn)行溝通確認(rèn),一般會先用10張圖片進(jìn)行標(biāo)注,然后溝通驗(yàn)收標(biāo)準(zhǔn)。當(dāng)驗(yàn)收標(biāo)準(zhǔn)確認(rèn)后,需要選擇5-10名熟練的標(biāo)注員,每人進(jìn)行10張左右的數(shù)據(jù)標(biāo)注,按照驗(yàn)收標(biāo)準(zhǔn)進(jìn)行質(zhì)量檢驗(yàn)并驗(yàn)收。第五章數(shù)據(jù)標(biāo)注管理5.1數(shù)據(jù)標(biāo)注工廠設(shè)計(jì)5.2數(shù)據(jù)標(biāo)注管理架構(gòu)5.3數(shù)據(jù)安全管理與質(zhì)量管理體系5.5數(shù)據(jù)標(biāo)注訂單管理5.6數(shù)據(jù)標(biāo)注客戶關(guān)系管理5.7作業(yè)與練習(xí)5.4

數(shù)據(jù)標(biāo)注項(xiàng)目評估5.5數(shù)據(jù)標(biāo)注訂單管理第五章數(shù)據(jù)標(biāo)注管理數(shù)據(jù)標(biāo)注訂單管理流程圖第五章數(shù)據(jù)標(biāo)注管理5.1數(shù)據(jù)標(biāo)注工廠設(shè)計(jì)5.2數(shù)據(jù)標(biāo)注管理架構(gòu)5.3數(shù)據(jù)安全管理與質(zhì)量管理體系5.5數(shù)據(jù)標(biāo)注訂單管理5.6數(shù)據(jù)標(biāo)注客戶關(guān)系管理5.7作業(yè)與練習(xí)5.4

數(shù)據(jù)標(biāo)注項(xiàng)目評估5.6數(shù)據(jù)標(biāo)注客戶關(guān)系管理第五章數(shù)據(jù)標(biāo)注管理想要成功實(shí)施客戶關(guān)系管理就需要做好以下工作:01st確立業(yè)務(wù)計(jì)劃02nd組建客戶關(guān)系管理團(tuán)隊(duì)03th04th客戶信息管理客戶關(guān)系管理的分析第五章數(shù)據(jù)標(biāo)注管理5.1數(shù)據(jù)標(biāo)注工廠設(shè)計(jì)5.2數(shù)據(jù)標(biāo)注管理架構(gòu)5.3數(shù)據(jù)安全管理與質(zhì)量管理體系5.5數(shù)據(jù)標(biāo)注訂單管理5.6數(shù)據(jù)標(biāo)注客戶關(guān)系管理5.7作業(yè)與練習(xí)5.4

數(shù)據(jù)標(biāo)注項(xiàng)目評估1.請畫出數(shù)據(jù)標(biāo)注工廠簡易平面圖。2.請簡述數(shù)據(jù)標(biāo)注工廠管理架構(gòu)。3.請簡述數(shù)據(jù)標(biāo)注工廠溯源體系。4.請簡述數(shù)據(jù)標(biāo)注項(xiàng)目評估流程。5.請簡述數(shù)據(jù)標(biāo)注訂單管理流程。6.請簡述數(shù)據(jù)標(biāo)注客戶關(guān)系管理工作內(nèi)容。習(xí)題:第六章數(shù)據(jù)標(biāo)注應(yīng)用6.2智能安防6.1自動駕駛6.3智能醫(yī)療6.4作業(yè)與練習(xí)6.1自動駕駛第六章數(shù)據(jù)標(biāo)注應(yīng)用6.1.1自動駕駛的發(fā)展

知名咨詢機(jī)構(gòu)環(huán)球透視(IHS)曾經(jīng)預(yù)測,2025年全世界自動駕駛汽車的總銷量會接近23萬輛,到2035年這個數(shù)量會增長到1180萬輛,而全世界自動駕駛汽車保有量會接近5400萬輛,到2050年之后,世界上幾乎所有的汽車都會使用自動駕駛技術(shù),如果自動駕駛技術(shù)足夠成熟,人類很有可能將會被禁止駕駛汽車。6.1自動駕駛第六章數(shù)據(jù)標(biāo)注應(yīng)用6.1.2自動駕駛的九種數(shù)據(jù)標(biāo)注車道線標(biāo)注:是一種對道路地面標(biāo)線進(jìn)行的綜合標(biāo)注,標(biāo)注包括了區(qū)域標(biāo)注、分類標(biāo)注以及語義標(biāo)注,應(yīng)用于訓(xùn)練自動駕駛根據(jù)車道規(guī)則進(jìn)行行駛。6.1自動駕駛第六章數(shù)據(jù)標(biāo)注應(yīng)用6.1.2自動駕駛的九種數(shù)據(jù)標(biāo)注2D車輛/行人標(biāo)框標(biāo)注:在自動駕駛中是最基礎(chǔ)也是應(yīng)用最廣的一種標(biāo)注方式,主要應(yīng)用于對車輛與行人的基礎(chǔ)識別。6.1自動駕駛第六章數(shù)據(jù)標(biāo)注應(yīng)用6.1.2自動駕駛的九種數(shù)據(jù)標(biāo)注車輛多邊形標(biāo)注:是對車輛進(jìn)行區(qū)域標(biāo)注以及分類標(biāo)注,主要應(yīng)用于對車輛類型的識別,例如:面包車、卡車、大客車、小轎車等,訓(xùn)練自動駕駛在道路行駛時選擇性跟車或者變道操作。6.1自動駕駛第六章數(shù)據(jù)標(biāo)注應(yīng)用6.1.2自動駕駛的九種數(shù)據(jù)標(biāo)注指示牌/信號燈標(biāo)注:是一種對道路懸掛指示牌/信號燈進(jìn)行的綜合標(biāo)注,標(biāo)注包括了區(qū)域標(biāo)注、分類標(biāo)注以及語義標(biāo)注,應(yīng)用于訓(xùn)練自動駕駛根據(jù)交通規(guī)則進(jìn)行行駛。6.1自動駕駛第六章數(shù)據(jù)標(biāo)注應(yīng)用6.1.2自動駕駛的九種數(shù)據(jù)標(biāo)注區(qū)域分割標(biāo)注:是一種對道路區(qū)域進(jìn)行的綜合標(biāo)注,標(biāo)注包括了區(qū)域標(biāo)注、分類標(biāo)注以及語義標(biāo)注,應(yīng)用于訓(xùn)練自動駕駛根據(jù)交通規(guī)則進(jìn)行行駛。6.1自動駕駛第六章數(shù)據(jù)標(biāo)注應(yīng)用6.1.2自動駕駛的九種數(shù)據(jù)標(biāo)注行進(jìn)方向標(biāo)注:是一種對標(biāo)注物前進(jìn)方向的預(yù)判性標(biāo)注,需進(jìn)行標(biāo)框標(biāo)注及方向預(yù)判標(biāo)注,應(yīng)用于訓(xùn)練自動駕駛判斷行人或車輛前進(jìn)方向,規(guī)避行人或車輛。6.1自動駕駛第六章數(shù)據(jù)標(biāo)注應(yīng)用6.1.2自動駕駛的九種數(shù)據(jù)標(biāo)注3D雷達(dá)標(biāo)注:是根據(jù)鏡頭反求原理,將視頻場景模擬成3D圖像,通過3D圖像標(biāo)注出標(biāo)注物的位置及大小。3D雷達(dá)標(biāo)注主要應(yīng)用在自動駕駛虛擬現(xiàn)實(shí)(VR)訓(xùn)練場景的搭建。6.1自動駕駛第六章數(shù)據(jù)標(biāo)注應(yīng)用6.1.2自動駕駛的九種數(shù)據(jù)標(biāo)注3D車輛標(biāo)注:是將2D圖片中的車輛進(jìn)行3D標(biāo)注,主要應(yīng)用于訓(xùn)練自動駕駛對會車或超車車輛的體積判斷。6.1自動駕駛第六章數(shù)據(jù)標(biāo)注應(yīng)用6.1.2自動駕駛的九種數(shù)據(jù)標(biāo)注視頻跟蹤標(biāo)注:是將視頻數(shù)據(jù)按照圖片幀抓取進(jìn)行標(biāo)框標(biāo)注,標(biāo)注后的圖片幀按照順序重新組合成視頻數(shù)據(jù)訓(xùn)練自動駕駛。視頻跟蹤標(biāo)注主要是用于訓(xùn)練自動駕駛對識別目標(biāo)的移動跟蹤能力,讓自動駕駛在移動過程中更好地識別目標(biāo)。第六章數(shù)據(jù)標(biāo)注應(yīng)用6.2智能安防6.1自動駕駛6.3智能醫(yī)療6.4作業(yè)與練習(xí)6.2智能安防第六章數(shù)據(jù)標(biāo)注應(yīng)用6.2.1智能安防的發(fā)展分析6.2智能安防第六章數(shù)據(jù)標(biāo)注應(yīng)用6.2.2智能安防的五種數(shù)據(jù)標(biāo)注人臉標(biāo)注:是一個應(yīng)用廣泛并且在不斷發(fā)展的數(shù)據(jù)標(biāo)注,在智能安防中,主要應(yīng)用于人臉識別與身份識別。6.2智能安防第六章數(shù)據(jù)標(biāo)注應(yīng)用6.2.2智能安防的五種數(shù)據(jù)標(biāo)注表情分析:是一種分類標(biāo)注,在機(jī)器學(xué)習(xí)時,需要配合人臉標(biāo)注進(jìn)行。在智能安防中,表情分析是智能安防系統(tǒng)從被動防御向主動預(yù)警發(fā)展的關(guān)鍵技術(shù)。6.2智能安防第六章數(shù)據(jù)標(biāo)注應(yīng)用6.2.2智能安防的五種數(shù)據(jù)標(biāo)注行人標(biāo)注:是對行人進(jìn)行標(biāo)框標(biāo)注,主要應(yīng)用于進(jìn)出人數(shù)的統(tǒng)計(jì),一般在商城、超市、市中心、車站、學(xué)校、工廠等人員容易密集的場所需要通過進(jìn)出人數(shù)的統(tǒng)計(jì)來判斷容納人員是否已經(jīng)飽和,可以有效的防范因?yàn)槿藛T過于密集而造成危險。6.2智能安防第六章數(shù)據(jù)標(biāo)注應(yīng)用6.2.2智能安防的五種數(shù)據(jù)標(biāo)注行為標(biāo)注:是對特定行為進(jìn)行區(qū)域標(biāo)注和分類標(biāo)注,主要應(yīng)用于對危險行為的監(jiān)控,例如打架、暈倒、車禍、輕生、偷盜等,視頻監(jiān)控系統(tǒng)識別出危險行為后,可以及時報警。6.2智能安防第六章數(shù)據(jù)標(biāo)注應(yīng)用6.2.2智能安防的五種數(shù)據(jù)標(biāo)注物品標(biāo)注:是將物品進(jìn)行標(biāo)框標(biāo)注及分類標(biāo)注,在智能安防中,物品標(biāo)注需要和行為標(biāo)注結(jié)合。第六章數(shù)據(jù)標(biāo)注應(yīng)用6.2智能安防6.1自動駕駛6.3智能醫(yī)療6.4作業(yè)與練習(xí)6.3智能醫(yī)療第六章數(shù)據(jù)標(biāo)注應(yīng)用6.3.1智能醫(yī)療的發(fā)展業(yè)務(wù)管理自動化,包括醫(yī)院建立醫(yī)療收費(fèi)和藥品進(jìn)出庫管理系統(tǒng)。電子病歷建設(shè),包括病人基本信息、既往病史,醫(yī)療影像等。臨床醫(yī)療信息化,包括醫(yī)囑錄入電腦等。慢性疾病系統(tǒng)管理。醫(yī)療信息互通。臨床醫(yī)療診斷。全民健康系統(tǒng)管理。6.3智能醫(yī)療第六章數(shù)據(jù)標(biāo)注應(yīng)用6.3.2智能醫(yī)療應(yīng)用的四種數(shù)據(jù)標(biāo)注病歷文本標(biāo)注:是對病歷信息進(jìn)行文本標(biāo)框標(biāo)注,通過對病歷內(nèi)容的文本轉(zhuǎn)錄實(shí)現(xiàn)電子病歷系統(tǒng)建立。6.3智能醫(yī)療第六章數(shù)據(jù)標(biāo)注應(yīng)用6.3.2智能醫(yī)療應(yīng)用的四種數(shù)據(jù)標(biāo)注人體標(biāo)框標(biāo)注:是根據(jù)人體不同部位進(jìn)行標(biāo)框標(biāo)注,多應(yīng)用于遠(yuǎn)程醫(yī)療外傷診斷。6.3智能醫(yī)療第六章數(shù)據(jù)標(biāo)注應(yīng)用6.3.2智能醫(yī)療應(yīng)用的四種數(shù)據(jù)標(biāo)注骨骼點(diǎn)標(biāo)注:是將人體運(yùn)動的關(guān)節(jié)點(diǎn)進(jìn)行描點(diǎn)標(biāo)注,多應(yīng)用于健康檔案的建立。人工智能通過對骨骼點(diǎn)標(biāo)注的學(xué)習(xí),可以快速鎖定病灶關(guān)節(jié)。6.3智能醫(yī)療第六章數(shù)據(jù)標(biāo)注應(yīng)用6.3.2智能醫(yī)療應(yīng)用的四種數(shù)據(jù)標(biāo)注醫(yī)療影像標(biāo)注:是對醫(yī)療影像進(jìn)行區(qū)域標(biāo)注及分類標(biāo)注,多應(yīng)用于輔助臨床診斷。人工智能通過學(xué)習(xí)大量的醫(yī)療影像標(biāo)注數(shù)據(jù)集,將會很好的輔助醫(yī)生進(jìn)行臨床診斷以及提出治療方案。第六章數(shù)據(jù)標(biāo)注應(yīng)用6.2智能安防6.1自動駕駛6.3智能醫(yī)療6.4作業(yè)與練習(xí)1.本章介紹的自動駕駛標(biāo)注有幾種,分別介紹這幾種標(biāo)注的用途。2.本章介紹的智能安防標(biāo)注有幾種,分別介紹這幾種標(biāo)注的用途。3.本章介紹的智能醫(yī)療標(biāo)注有幾種,分別介紹這幾種標(biāo)注的用途。習(xí)題:第七章數(shù)據(jù)標(biāo)注實(shí)戰(zhàn)7.1實(shí)戰(zhàn)環(huán)境搭建7.2醫(yī)療影像標(biāo)注7.3遙感影像標(biāo)注7.5人像數(shù)據(jù)標(biāo)注7.6作業(yè)與練習(xí)7.4

車牌圖像標(biāo)注7.1實(shí)戰(zhàn)環(huán)境搭建第七章數(shù)據(jù)標(biāo)注實(shí)戰(zhàn)7.1.1標(biāo)注工具安裝環(huán)境搭建安裝Python2.7Python2.7的安裝界面Python2.7選擇安裝文件夾Python2.7選擇安裝內(nèi)容7.1實(shí)戰(zhàn)環(huán)境搭建第七章數(shù)據(jù)標(biāo)注實(shí)戰(zhàn)7.1.1標(biāo)注工具安裝環(huán)境搭建安裝Python2.7Python2.7選擇安裝組件Python2.7安裝進(jìn)度Python2.7安裝完成界面7.1實(shí)戰(zhàn)環(huán)境搭建第七章數(shù)據(jù)標(biāo)注實(shí)戰(zhàn)7.1.1標(biāo)注工具安裝環(huán)境搭建環(huán)境變量設(shè)置鼠標(biāo)右擊“計(jì)算機(jī)”計(jì)算機(jī)系統(tǒng)界面系統(tǒng)屬性“高級”選項(xiàng)界面7.1實(shí)戰(zhàn)環(huán)境搭建第七章數(shù)據(jù)標(biāo)注實(shí)戰(zhàn)7.1.1標(biāo)注工具安裝環(huán)境搭建環(huán)境變量設(shè)置環(huán)境變量界面編輯系統(tǒng)變量運(yùn)行窗口7.1實(shí)戰(zhàn)環(huán)境搭建第七章數(shù)據(jù)標(biāo)注實(shí)戰(zhàn)7.1.1標(biāo)注工具安裝環(huán)境搭建環(huán)境變量設(shè)置Python2.7選擇安裝文件夾7.1實(shí)戰(zhàn)環(huán)境搭建第七章數(shù)據(jù)標(biāo)注實(shí)戰(zhàn)7.1.1標(biāo)注工具安裝環(huán)境搭建安裝PyQt4與lxmlPython2.7文件夾Shift+鼠標(biāo)右擊空白處PyQt4安裝界面lxml安裝界面7.1.2LabelImg標(biāo)框標(biāo)注工具的使用方法LabelImg標(biāo)框標(biāo)注工具的運(yùn)行方法7.1實(shí)戰(zhàn)環(huán)境搭建第七章數(shù)據(jù)標(biāo)注實(shí)戰(zhàn)labelImg.py文件內(nèi)容labelImg-master文件夾鼠標(biāo)右擊編輯labelImg.py文件7.1.2LabelImg標(biāo)框標(biāo)注工具的使用方法LabelImg標(biāo)框標(biāo)注工具的運(yùn)行方法7.1實(shí)戰(zhàn)環(huán)境搭建第七章數(shù)據(jù)標(biāo)注實(shí)戰(zhàn)labelImg-master文件夾Shift+右擊空白處命令窗口圖片LabelImg標(biāo)框標(biāo)注工具操作界面labelImg.py運(yùn)行界面7.1.2LabelImg標(biāo)框標(biāo)注工具的使用方法LabelImg標(biāo)框標(biāo)注工具常用區(qū)域及快捷鍵介紹7.1實(shí)戰(zhàn)環(huán)境搭建第七章數(shù)據(jù)標(biāo)注實(shí)戰(zhàn)LabelImg標(biāo)框標(biāo)注工具左側(cè)區(qū)域按鈕中文對照表標(biāo)框?qū)傩孕薷腖abelImg標(biāo)框標(biāo)注工具右側(cè)區(qū)域7.1.2LabelImg標(biāo)框標(biāo)注工具的使用方法LabelImg標(biāo)框標(biāo)注工具常用區(qū)域及快捷鍵介紹7.1實(shí)戰(zhàn)環(huán)境搭建第七章數(shù)據(jù)標(biāo)注實(shí)戰(zhàn)data文件夾鼠標(biāo)右擊predefined_classes.txt文件labelImg.py運(yùn)行界面labelImg.py運(yùn)行界面7.1.2LabelImg標(biāo)框標(biāo)注工具的使用方法LabelImg標(biāo)框標(biāo)注工具的使用方法7.1實(shí)戰(zhàn)環(huán)境搭建第七章數(shù)據(jù)標(biāo)注實(shí)戰(zhàn)LabelImg標(biāo)框標(biāo)注工具打開圖片文件夾對人臉進(jìn)行標(biāo)框標(biāo)注7.1.2LabelImg標(biāo)框標(biāo)注工具的使用方法LabelImg標(biāo)框標(biāo)注工具的使用方法7.1實(shí)戰(zhàn)環(huán)境搭建第七章數(shù)據(jù)標(biāo)注實(shí)戰(zhàn)標(biāo)框標(biāo)注文件的保存XML文件標(biāo)框位置信息7.1.3Labelme工具安裝與使用方法7.1實(shí)戰(zhàn)環(huán)境搭建第七章數(shù)據(jù)標(biāo)注實(shí)戰(zhàn)labelme-master文件夾Labelme安裝界面

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論