樣本數(shù)據(jù)處理 課件 ch05數(shù)據(jù)標注_第1頁
樣本數(shù)據(jù)處理 課件 ch05數(shù)據(jù)標注_第2頁
樣本數(shù)據(jù)處理 課件 ch05數(shù)據(jù)標注_第3頁
樣本數(shù)據(jù)處理 課件 ch05數(shù)據(jù)標注_第4頁
樣本數(shù)據(jù)處理 課件 ch05數(shù)據(jù)標注_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)標注新工科建設之路·數(shù)據(jù)科學與大數(shù)據(jù)系列樣本數(shù)據(jù)處理第五章01數(shù)據(jù)標注簡介舉個簡單的例子,當我們給孩子介紹汽車時,把對應的圖片展示在孩子面前,讓他記住汽車是有4個輪子、有不同的顏色,能在路上行駛的一種交通工具,當孩子下次在大街上遇到真正的汽車時,也能認識到這是“汽車”。數(shù)據(jù)標注是什么簡而言之,數(shù)據(jù)標注工作就是通過分類、畫框、標注、注釋等方法,對圖片、語音、文本等數(shù)據(jù)進行處理,標記對象的特征,以作為機器學習的基礎素材。由于機器學習需要大量的素材并反復學習來訓練模型和提高精度,同時無人駕駛、智慧醫(yī)療、語音交互等各大應用場景都需要標注數(shù)據(jù)提供素材支持,因此標注工程師的崗位應運而生。目前,在人工智能研究中,語音應答交互系統(tǒng)是一個重要分支,其中聊天機器人最為熱門,蘋果的Siri、小米的小愛同學等應用已經(jīng)深入人們的日常生活。語音標注自然語言處理是人工智能的一門分支學科,為了滿足自然語言處理不同層次的需要,對文本數(shù)據(jù)進行標注是其中一個關鍵的環(huán)節(jié)。文本標注數(shù)據(jù)標注分類簡介提到數(shù)據(jù)標注,人們最直觀的印象就是圖像標注。在人工智能與各行各業(yè)應用相結(jié)合的研究過程中,圖像標注扮演著重要的角色。圖像標注該步驟提供了很多常規(guī)的字符操作,如大小寫轉(zhuǎn)換,字符填充、移除空白字符等。字段選擇剪切字符串。字符串剪切這3個步驟通過使用分隔符來拆分、合并字段。拆分字段、合并字段和拆分字段成多行Kettle常用的數(shù)據(jù)清洗步驟數(shù)據(jù)標注流程簡介數(shù)據(jù)標注的質(zhì)量直接關系到模型訓練的效果,因此數(shù)據(jù)標注有一套標準的數(shù)據(jù)標注流程,以對圖像、語音、文本等進行有序而有效的標注。數(shù)據(jù)標注流程如圖5-4所示。數(shù)據(jù)采集數(shù)據(jù)采集是整個數(shù)據(jù)標注流程的首要環(huán)節(jié)。目前對于數(shù)據(jù)標注平臺而言,其數(shù)據(jù)主要來自提出標注需求的人工智能相關企業(yè)。數(shù)據(jù)清洗獲取數(shù)據(jù)后,并不是所有數(shù)據(jù)都能夠直接使用,有些數(shù)據(jù)是不完整、不一致、有噪聲的臟數(shù)據(jù),經(jīng)過數(shù)據(jù)預處理之后,才能真正投入問題的分析研究中。數(shù)據(jù)標注流程簡介數(shù)據(jù)標注數(shù)據(jù)經(jīng)過清洗后,就進入數(shù)據(jù)標注的核心環(huán)節(jié)。一般在正式標注前,會進行試標,即由需求方的工程師給出標注樣板,并為具體標注人員詳細闡述標注需求與標注規(guī)則,經(jīng)過充分討論與溝通,確保最終數(shù)據(jù)輸出的格式和質(zhì)量符合要求。數(shù)據(jù)質(zhì)檢由于數(shù)據(jù)標注是人工處理的過程,所以它并不能保證完全準確。為了提高輸出數(shù)據(jù)的準確率,還需要數(shù)據(jù)質(zhì)檢,而最終通過質(zhì)檢環(huán)節(jié)的數(shù)據(jù)才可以真正投入使用。數(shù)據(jù)標注流程簡介02數(shù)據(jù)標注分類圖像標注是數(shù)據(jù)標注的重要類型之一,也是最廣泛、最普遍的一種數(shù)據(jù)標注類型。圖像標注問題的本質(zhì)是把視覺轉(zhuǎn)換成語言的問題,通俗來說,就是“看圖說話”。同理,我們希望算法能夠根據(jù)圖像的特征,得出描述其內(nèi)容含義的自然語句和自然語言。這對于人類來說不算什么,但是對于計算機來說,卻是一個不小的挑戰(zhàn)。因為圖像標注問題需要在圖像信息和文本信息這兩種不同形式的類型之間進行“翻譯”。圖像標注圖像標注的原理:理解圖像標注,首先要理解機器學習。圖像標注的應用領域:如今,圖像標注主流的應用領域有車輛識別標注、人像識別標注、醫(yī)療影像標注、機械影像標注等領域。圖像標注在客服行業(yè),文本標注主要應用于場景識別和應答識別。客服行業(yè)線上平臺標注和線下表格標注是金融行業(yè)文本標注主要的標注形式。金融行業(yè)在醫(yī)療行業(yè),對自然語言進行標記處理,對專業(yè)度要求比較高,需要資深醫(yī)學研究者才能進行標注。醫(yī)療行業(yè)文本標注語音標注與我們生活的眾多方面都息息相關。例如,我們使用的聊天軟件可以將語音轉(zhuǎn)換成文字;地圖App上的語音問路功能,或者購物網(wǎng)站的智能客服,直接對它說出問題,智能客服就會給出對應的回答。這些場景前期都需要大量的標注語料,去標記這些“說出的話”所對應的“文字”,再一點點去修正語音和文字間的誤差。這就是語音標注。語音標注03數(shù)據(jù)標注質(zhì)量檢驗數(shù)據(jù)標注質(zhì)量的影響機器學習是一種從數(shù)據(jù)中自動訓練獲得規(guī)律,并利用得到的規(guī)律對未知數(shù)據(jù)進行處理的過程。要讓機器學習從數(shù)據(jù)中更準確有效地獲得規(guī)律,就需要數(shù)據(jù)標注提供準確、高質(zhì)量的學習素材。雖然機器學習領域在算法上取得了重大突破,由淺層學習轉(zhuǎn)變?yōu)樯疃葘W習,但高質(zhì)量的標注數(shù)據(jù)集依然是影響深度學習發(fā)展的一個重要因素。機器學習的訓練效果的基礎是高質(zhì)量的數(shù)據(jù)集,如果訓練中使用的標注數(shù)據(jù)集存在大量噪聲,將會導致機器學習的訓練效果較差,無法獲得規(guī)律,這樣在訓練效果驗證時會出現(xiàn)與目標存在較大偏差,無法正確識別的情況。圖像標注的質(zhì)量標準對比人眼所見的圖像而言,計算機所見的圖像是一堆數(shù)字。圖像標注就是根據(jù)需求將這一堆數(shù)字劃分區(qū)域,讓計算機在劃分出來的區(qū)域中找尋數(shù)字的規(guī)律。語音標注的質(zhì)量標準語音標注在質(zhì)量檢驗時需要在比較安靜的獨立環(huán)境中進行,在語音標注的質(zhì)量檢驗中,質(zhì)檢員需要做到眼耳并用,時刻關注語音數(shù)據(jù)發(fā)音的時間軸與標注區(qū)域的音標是否相符,檢驗每個字的標注是否與語音數(shù)據(jù)發(fā)音的時間軸保持一致。數(shù)據(jù)標注的質(zhì)量標準文本標注的質(zhì)量標準文本標注是一類較為特殊的標注,不僅有基礎的標框標注,還需要根據(jù)不同需求進行多音字標注、語義標注等。多音字標注的質(zhì)量標準就是標注一個字的全部讀音,這需要借助字典等專業(yè)性工具進行檢驗。數(shù)據(jù)標注的質(zhì)量標準實時檢驗是現(xiàn)場檢驗和流動檢驗的一種方式,一般安排在數(shù)據(jù)標注任務進行過程中,從而能夠及時發(fā)現(xiàn)問題并解決問題。實時檢驗全樣檢驗是數(shù)據(jù)標注任務完成交付前必不可少的過程,沒有經(jīng)過全樣檢驗的數(shù)據(jù)標注是無法交付的。全樣檢驗抽樣檢驗是產(chǎn)品生產(chǎn)中一種輔助性檢驗方法。在數(shù)據(jù)標注中,為了保證數(shù)據(jù)標注的準確性,將抽樣檢驗方法進行疊加,形成多重抽樣檢驗方法。抽樣檢驗數(shù)據(jù)標注質(zhì)量檢驗04圖像數(shù)據(jù)標志實戰(zhàn)車輛車牌標注1.準備數(shù)據(jù)源和輸出目錄準備數(shù)張待標注的圖片,圖片中包含能看到車牌的汽車,將圖片放在同一個目錄下,這里我們將待標注的圖片放在/home/ubuntu/dl_pic/plate/source目錄下,如圖5-23所示。車輛車牌標注2.打開數(shù)據(jù)標注平臺在已經(jīng)安裝Dlabel的Linux環(huán)境中打開命令行,輸入“dlabel”并按Enter鍵,打開數(shù)據(jù)標注平臺,Dlabel主界面如圖5-24所示。車輛車牌標注3.在數(shù)據(jù)標注平臺中創(chuàng)建資源鏈接打開數(shù)據(jù)標注平臺,進入鏈接列表頁面,單擊鏈接列表右側(cè)的加號按鈕進入鏈接設置,如圖5-25所示。車輛車牌標注4.創(chuàng)建標注項目在主頁(見圖5-26)單擊“新建項目”按鈕跳轉(zhuǎn)至項目設置頁面。車輛車牌標注如圖5-27所示,在項目“名稱”文本框中填寫“車牌標注”;設置“安全令牌”為“創(chuàng)建新的安全令牌”,生成新的安全令牌;設置“數(shù)據(jù)源鏈接”為先前創(chuàng)建的“車牌”,“輸出目錄鏈接”為先前創(chuàng)建的“輸出目錄(車牌)”。車輛車牌標注5.創(chuàng)建標簽并標注單擊圖5-28右側(cè)標簽工具欄中的加號按鈕,進入標簽創(chuàng)建模式。車輛車牌標注6.配置導出格式并導出標注結(jié)果如圖5-31所示,單擊導航欄中的“導出”標簽進入導出設置頁面。遙感影像標注準備待標注的衛(wèi)星地形監(jiān)控圖片,這里我們將圖片放在/home/ubuntu/dl_pic/remote/source目錄下,如圖5-34所示。遙感影像標注打開Dlabel,創(chuàng)建資源鏈接,步驟與上個例子相同。創(chuàng)建鏈接的配置示例如圖5-35所示。遙感影像標注新建一個項目并進行設置,如圖5-36所示。遙感影像標注如圖5-37所示,單擊右側(cè)標簽工具欄中的加號按鈕,進入標簽創(chuàng)建模式,在彈出的標簽輸入框中輸入“農(nóng)作物”后,按Enter鍵確認創(chuàng)建標簽。完成標簽創(chuàng)建后,按Esc鍵退出標簽創(chuàng)建。遙感影像標注選擇“繪制多邊形區(qū)域”工具,在土地區(qū)域的各個頂點單擊創(chuàng)建多邊形頂點,在最后一個頂點雙擊生成多邊形標注區(qū)域,如圖5-38所示。遙感影像標注導出標注結(jié)果,導出設置如圖5-39所示。遙感影像標注單擊如圖5-40所示的“導出項目”按鈕,包含標注結(jié)果的文件夾將以TensorflowRecords格式保存至/home/ubuntu/dl_pic/remote/target目錄下,如圖5-41所示。在醫(yī)療行業(yè)中,圖像識別算法可以在智能診療、醫(yī)療影像識別等方面提供輔助功能。在智能診療方面,可以通過醫(yī)療影像對病人的癥狀進行初步診斷和分類,進行自動分診和初步診斷,提高醫(yī)院的運行效率,減輕醫(yī)生的工作負擔;在醫(yī)療影像識別方面,可以解決優(yōu)秀的醫(yī)療影像專業(yè)醫(yī)生培養(yǎng)周期長、培養(yǎng)成本高,以及人工讀片時主觀性和工作狀態(tài)會一定程度上影響判斷結(jié)論的問題。為了在醫(yī)療場景中能準確地對圖像信息進行識別和判斷,就需要大量的精準標注數(shù)據(jù)進行機器學習。醫(yī)療影像標注在圖像和視頻中標注行人,應用于人工智能系統(tǒng)、車輛輔助駕駛系統(tǒng)、智能機器人、智能視頻監(jiān)控、人體行為分析、智能交通等領域。行人兼具剛性和柔性物體的特性,外觀易受穿著、尺度、遮擋、姿態(tài)和視角等影響,使得行人檢測成為計算機視覺領域中一個既具有研究價值同時又極具挑戰(zhàn)性的熱門課題。行人數(shù)據(jù)標注基于行人標注數(shù)據(jù)集的行人檢測1.SSD算法目標檢測的主流算法主要分為兩種類型:two-stage算法和one-stage算法。SSD算法是一種經(jīng)典的one-stage算法,它先通過RPN網(wǎng)絡得到候選框,然后進行分類與回歸。SSD算法相比其他算法有以下兩大重要改變。2.MobileNetv1MobileNet(這里稱為MobileNetv1,簡稱v1)中使用的DepthwiseSeparableConvolution是模型壓縮的一個最為經(jīng)典的策略,它是通過將跨通道的33卷積換成單通道的33卷積+跨通道的1*1卷積來達到此目的的。05文本標注實戰(zhàn)文本標注是指將文字、符號在內(nèi)的文本進行標注,使其可以被計算機識別和運算,從而應用于人類的生產(chǎn)生活領域。文本標注在我們的生活中有廣泛的應用??头?、金融

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論