數(shù)據(jù)標(biāo)注內(nèi)容和發(fā)展前景數(shù)據(jù)標(biāo)注行業(yè)規(guī)范【共4】_第1頁(yè)
數(shù)據(jù)標(biāo)注內(nèi)容和發(fā)展前景數(shù)據(jù)標(biāo)注行業(yè)規(guī)范【共4】_第2頁(yè)
數(shù)據(jù)標(biāo)注內(nèi)容和發(fā)展前景數(shù)據(jù)標(biāo)注行業(yè)規(guī)范【共4】_第3頁(yè)
數(shù)據(jù)標(biāo)注內(nèi)容和發(fā)展前景數(shù)據(jù)標(biāo)注行業(yè)規(guī)范【共4】_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)標(biāo)注內(nèi)容和開(kāi)展前景數(shù)據(jù)標(biāo)注行業(yè)規(guī)范一、數(shù)據(jù)標(biāo)注員是做什么的?首先談?wù)勈裁词菙?shù)據(jù)標(biāo)注.數(shù)據(jù)標(biāo)注有許多類型,如分類、畫框、注釋、標(biāo)記等等,我們會(huì)在下面詳談.提到數(shù)據(jù)標(biāo)注我們首先要了解一下 AIAI 領(lǐng)域,人工智能領(lǐng)域包括機(jī)器人、語(yǔ)言識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專家系統(tǒng).每一個(gè)領(lǐng)域的算法都不盡相同,而對(duì)于算法來(lái)講數(shù)據(jù)是基礎(chǔ).那么數(shù)據(jù)標(biāo)注就是初期 AIAI 數(shù)據(jù)層面,不可或缺的一個(gè)重要環(huán)節(jié).要理解數(shù)據(jù)標(biāo)注,得先理解 AIAI 其實(shí)是局部替代人的認(rèn)知功能.回想一下我們是如何學(xué)習(xí)的,例如我們學(xué)習(xí)熟悉蘋果,那么就需要有人拿著一個(gè)蘋果到你面前告訴你,這是一個(gè)蘋果.然后以后你遇到了蘋果,你才知道這玩意兒叫

2、做“蘋果.類比機(jī)器學(xué)習(xí),我們要教他熟悉一個(gè)蘋果,你直接給它一張?zhí)O果的圖片,它是完全不知道這是個(gè)啥玩意的.我們得先有蘋果的圖片,上面標(biāo)注著“蘋果兩個(gè)字,然后機(jī)器通過(guò)學(xué)習(xí)了大量的圖片中的特征,這時(shí)候再給機(jī)器任意一張?zhí)O果的圖片,它就能認(rèn)由來(lái)了.第1頁(yè)共4頁(yè)這邊可以順帶提一下練習(xí)集和測(cè)試集的概念.練習(xí)集和測(cè)試集都是標(biāo)注過(guò)的數(shù)據(jù),還是以蘋果為例子,假設(shè)我們有10001000 張標(biāo)注著“蘋果的圖片,那么我們可以拿 900900 漲作為練習(xí)集,100100 張作為測(cè)試集.機(jī)器從 900900 張?zhí)O果的圖片中學(xué)習(xí)得到一個(gè)模型,然后我們將剩下的 100100 張機(jī)器沒(méi)有見(jiàn)過(guò)的圖片去給它識(shí)別,然后我們就能夠得到這

3、個(gè)模型的準(zhǔn)確率了.想想我們上學(xué)的時(shí)候,測(cè)試的內(nèi)容總是不會(huì)和我們平時(shí)的作業(yè)一樣,也只有這樣才能測(cè)試由學(xué)習(xí)的真正效果,這樣就不難理解為什么要?jiǎng)澐忠粋€(gè)測(cè)試集了.我們知道機(jī)器學(xué)習(xí)分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí).無(wú)監(jiān)督學(xué)習(xí)的效果是不可控的,常常是被用來(lái)做探索性的實(shí)驗(yàn).而在實(shí)際產(chǎn)品應(yīng)用中,通常使用的是有監(jiān)督學(xué)習(xí).有監(jiān)督的機(jī)器學(xué)習(xí)就需要有標(biāo)注的數(shù)據(jù)來(lái)作為先驗(yàn)經(jīng)驗(yàn).在進(jìn)行數(shù)據(jù)標(biāo)注之前,我們首先要對(duì)數(shù)據(jù)進(jìn)行清洗,得到符合我們要求的數(shù)據(jù).數(shù)據(jù)的清洗包括去除無(wú)效的數(shù)據(jù)、整理成規(guī)整的格式等等.具體的數(shù)據(jù)要求可以和算法人員確認(rèn).二、常見(jiàn)的幾種數(shù)據(jù)標(biāo)注類型1 1 .分類標(biāo)注: 分類標(biāo)注,就是我們常見(jiàn)的打標(biāo)簽.一般是從既定的標(biāo)

4、簽中選擇數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽,是封閉集合.如下列圖,一張圖就可以有很多分類/標(biāo)簽:成人、女、黃種人、長(zhǎng)發(fā)等.對(duì)于文字,可以標(biāo)注主語(yǔ)、謂語(yǔ)、賓語(yǔ),名詞動(dòng)詞等.第2頁(yè)共4頁(yè)適用:文本、圖像、語(yǔ)音、視頻應(yīng)用:臉齡識(shí)別,情緒識(shí)別,性別識(shí)別2 2 .標(biāo)框標(biāo)注:機(jī)器視覺(jué)中的標(biāo)框標(biāo)注,很容易理解,就是框選要檢測(cè)的對(duì)象.如人臉識(shí)別,首先要先把人臉的位置確定下來(lái).行人識(shí)別,如下列圖.適用:圖像應(yīng)用:人臉識(shí)別,物品識(shí)別3 3 .區(qū)域標(biāo)注:相比于標(biāo)框標(biāo)注,區(qū)域標(biāo)注要求更加精確.邊緣可以是柔性的.如自動(dòng)駕駛中的道路識(shí)別.適用:圖像應(yīng)用:自動(dòng)駕駛4 4.描點(diǎn)標(biāo)注:一些對(duì)于特征要求細(xì)致的應(yīng)用中常常需要描點(diǎn)標(biāo)注.人臉識(shí)別、骨骼識(shí)

5、別等.適用:圖像應(yīng)用:人臉識(shí)別、骨骼識(shí)別 5.5.其他標(biāo)注:標(biāo)注的類型除了上面幾種常見(jiàn),還有很多個(gè)性化的.根據(jù)不同的需求那么需要不同的標(biāo)注.如自動(dòng)摘要,就需要標(biāo)注文章的主要觀點(diǎn),這時(shí)候的標(biāo)注嚴(yán)格上就不屬于上面的任何一種了.或那么你把它歸為分類也是可以的,只是標(biāo)注主要觀點(diǎn)就沒(méi)有這么客觀的標(biāo)準(zhǔn),如果是標(biāo)注蘋果估計(jì)大多數(shù)人標(biāo)注的結(jié)果都差不多.三、有什么開(kāi)展前途?第3頁(yè)共4頁(yè)數(shù)據(jù)標(biāo)注員可以說(shuō)是 AIAI 消滅了一局部工作又創(chuàng)造由來(lái)的一種工作.在未來(lái) A AI I 開(kāi)展良好的前提下,數(shù)據(jù)的缺口一定是巨大的.可以預(yù)見(jiàn)3-53-5 年內(nèi)數(shù)據(jù)標(biāo)注員的需求會(huì)一直存在.至于開(kāi)展,其實(shí)所謂一些熟能生巧的工作,都是有被替代掉的風(fēng)險(xiǎn)的.深度學(xué)習(xí)解決的一件事情就是熟能生巧.在這個(gè)崗位上,其實(shí)你的一些想法就代表了 AIAI 的想法,AIAI 會(huì)根據(jù)你標(biāo)注的數(shù)據(jù)進(jìn)行學(xué)習(xí),想想還是有點(diǎn)成就感的.數(shù)據(jù)標(biāo)注可以說(shuō)是A AI I的入門級(jí)崗位,未來(lái)可轉(zhuǎn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論