《數(shù)據(jù)標(biāo)注工程》第二章數(shù)據(jù)采集和清洗課件_第1頁
《數(shù)據(jù)標(biāo)注工程》第二章數(shù)據(jù)采集和清洗課件_第2頁
《數(shù)據(jù)標(biāo)注工程》第二章數(shù)據(jù)采集和清洗課件_第3頁
《數(shù)據(jù)標(biāo)注工程》第二章數(shù)據(jù)采集和清洗課件_第4頁
《數(shù)據(jù)標(biāo)注工程》第二章數(shù)據(jù)采集和清洗課件_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材數(shù)據(jù)標(biāo)注工程第三章

數(shù)據(jù)標(biāo)注分類3.2

語音標(biāo)注3.3

文本標(biāo)注大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材3.4

作業(yè)與練習(xí)3.1

圖像標(biāo)注3.1

圖像標(biāo)注

第三章數(shù)據(jù)標(biāo)注分類3.1.1什么是圖像標(biāo)注

圖像標(biāo)注問題的本質(zhì)是視覺到語言的問題,用通俗的話來說,就是“看圖說話”。這就好比我們小時候在做看圖說話題目一樣,同理,我們也希望算法能夠根據(jù)圖像得出描述其內(nèi)容含義的自然語句和自然語言。但是,這對于小朋友來說小事一樁的小兒科級工作,對于計算機視覺領(lǐng)域來說,卻是一個不小的挑戰(zhàn)。因為圖像標(biāo)注問題需要在兩種不同形式的圖像信息到文本信息之間進行“翻譯”才行。3.1

圖像標(biāo)注

第三章數(shù)據(jù)標(biāo)注分類3.1.2圖像標(biāo)注應(yīng)用領(lǐng)域

我們把一副18×18像素的圖片當(dāng)成一串324個數(shù)字的數(shù)列。為了更好地操控我們輸入的數(shù)據(jù),我們不妨把神經(jīng)網(wǎng)絡(luò)擴大到324個輸入節(jié)點。第一個輸出預(yù)測圖片是“6”的概率,第二個則輸出預(yù)測不是“6”的概率。也就是說,這樣我們就可以依據(jù)多種不同的輸出,應(yīng)用神經(jīng)網(wǎng)絡(luò)把要識別的物品進行分組。先對大批的“6”和非“6”圖片進行標(biāo)注,相當(dāng)于我們明確告訴它我們判定為“6”的圖片是“6”的概率是100%,不是“6”的圖片其概率為0;對應(yīng)的非“6”的圖片,我們明確告訴它我們輸入的圖片是“6”的概率為0,不是“6”的概率是100%。我們可以利用計算機用幾分鐘的時間來訓(xùn)練這種神經(jīng)網(wǎng)絡(luò)。完成之后,我們便可以得到一個有著很高的“6”圖片識別率的神經(jīng)網(wǎng)絡(luò)。3.1圖像標(biāo)注

第三章數(shù)據(jù)標(biāo)注分類圖像標(biāo)注應(yīng)用領(lǐng)域劃分拉框標(biāo)注;切割標(biāo)注AI車牌識別云服務(wù)智慧路燈伴侶云平臺人臉關(guān)鍵點的標(biāo)注;240個點的人臉關(guān)鍵點位標(biāo)注模糊人臉識別分析+精確人像對比二合一應(yīng)用車輛車牌標(biāo)注人像識別標(biāo)注醫(yī)療影像技術(shù)發(fā)展還不夠成熟,進入門檻較高AI前列腺癌診斷尺寸標(biāo)注;表面粗糙度標(biāo)注研發(fā)智能化的服務(wù)機器人醫(yī)療影像標(biāo)注機械影像標(biāo)注第三章

數(shù)據(jù)標(biāo)注分類3.1

圖像標(biāo)注3.3

文本標(biāo)注大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材3.4

作業(yè)與練習(xí)3.2

語音標(biāo)注3.2

語音標(biāo)注

第三章數(shù)據(jù)標(biāo)注分類3.2.1什么是語音標(biāo)注

一般來說,語音標(biāo)注與我們生活的眾多方面都是息息相關(guān)的。比如,我們在使用微信時,語音可以轉(zhuǎn)換成文字,在使用百度地圖APP上的小麥克風(fēng)功能,或者京東客服里的直接說出問題,JIMI對應(yīng)解決等功能。這些都需要前期大量的人工去標(biāo)記這些“說出的話”所對應(yīng)的“文字”,采用人工的方式一點點去修正語音和文字間的誤差。這就是語音標(biāo)注。3.2

語音標(biāo)注

第三章數(shù)據(jù)標(biāo)注分類3.2.2

客服錄音數(shù)據(jù)標(biāo)注規(guī)范142563確定是否包含有效語音確定語音的噪聲情況確定說話人數(shù)量語音內(nèi)容方面確定是否包含口音確定說話人性別第三章

數(shù)據(jù)標(biāo)注分類3.1

圖像標(biāo)注3.2語音標(biāo)注大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材3.4

作業(yè)與練習(xí)3.3

文本標(biāo)注3.3

文本標(biāo)注

第三章數(shù)據(jù)標(biāo)注分類

文本標(biāo)注其實是一個監(jiān)督學(xué)習(xí)問題。我們可以把標(biāo)注問題看作是分類問題的一種推廣方式,同時,標(biāo)注問題也是更復(fù)雜的結(jié)構(gòu)預(yù)測問題的簡單形式。標(biāo)注問題,其輸入是一個觀測序列,其輸出是一個標(biāo)記序列護著狀態(tài)序列。標(biāo)注問題的目的是學(xué)習(xí)模型,使該模型能夠?qū)τ^測序列給出標(biāo)記序列作為預(yù)測。需要注意的是,標(biāo)記個數(shù)是有限的,但其組合縮成的標(biāo)記序列的個數(shù)是依照序列長度呈指數(shù)級增長的。作為最常見的數(shù)據(jù)標(biāo)注類型之一,文本標(biāo)注是指,將文字、符號在內(nèi)的文本進行標(biāo)注,讓計算機能夠讀懂識別,從而應(yīng)用于人類的生產(chǎn)生活領(lǐng)域。3.3.1什么是文本標(biāo)注3.3文本標(biāo)注

第三章數(shù)據(jù)標(biāo)注分類3.3.2文本標(biāo)注應(yīng)用領(lǐng)域客服行業(yè)。主要集中在場景識別和應(yīng)答識別。以不少電商平臺的智能客服機器人為例,當(dāng)用戶在購物遇到問題,人工智能將根據(jù)用戶的咨詢內(nèi)容切入到對應(yīng)的場景里,根據(jù)用戶的具體問題,給出對應(yīng)的回答。金融行業(yè)。線上平臺標(biāo)注和線下表格標(biāo)注,是金融行業(yè)文本標(biāo)注主要的標(biāo)注形式。一般,出現(xiàn)錯誤的情況,被稱作“badcase”。打個比方,當(dāng)用戶問信用卡怎么辦理的時候,機器人回復(fù)的卻是儲蓄卡的辦理流程,這就是出現(xiàn)了badcase”。醫(yī)療行業(yè)。對自然語言進行標(biāo)記處理,需要專門的醫(yī)學(xué)人才才能進行。首先明確每個詞的屬性,即每個詞在這種語境下面具備怎樣的屬性。然后標(biāo)注每個詞在句子中的作用。舉個例子,患者主訴為:腰痛2年,伴左下肢放射痛10日余。第三章

數(shù)據(jù)標(biāo)注分類3.1

圖像標(biāo)注3.3

文本標(biāo)注大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材3.2

語音標(biāo)注3.4

作業(yè)與練習(xí)1.?dāng)?shù)據(jù)標(biāo)注有哪些分類?請簡要概括。2.你怎樣理解圖像標(biāo)注的概念。3.圖像標(biāo)注有哪些具體應(yīng)用。4.你怎樣理解語音標(biāo)注的概念。5.語音標(biāo)注的規(guī)范有哪些?請詳細論述。6.你怎樣理解文本標(biāo)注的概念。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論