數(shù)據(jù)標(biāo)注實(shí)用教程PPT完整全套教學(xué)課件_第1頁
數(shù)據(jù)標(biāo)注實(shí)用教程PPT完整全套教學(xué)課件_第2頁
數(shù)據(jù)標(biāo)注實(shí)用教程PPT完整全套教學(xué)課件_第3頁
數(shù)據(jù)標(biāo)注實(shí)用教程PPT完整全套教學(xué)課件_第4頁
數(shù)據(jù)標(biāo)注實(shí)用教程PPT完整全套教學(xué)課件_第5頁
已閱讀5頁,還剩195頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)標(biāo)注實(shí)用教程第1章數(shù)據(jù)標(biāo)注概述第2章數(shù)據(jù)的來龍去脈第3章數(shù)據(jù)標(biāo)注基礎(chǔ)知識(shí)第4章數(shù)據(jù)標(biāo)注員的職業(yè)素養(yǎng)第5章數(shù)據(jù)標(biāo)注實(shí)戰(zhàn)全套PPT課件數(shù)據(jù)標(biāo)注實(shí)用教程第一章數(shù)據(jù)標(biāo)注概述內(nèi)容1.1數(shù)據(jù)標(biāo)注發(fā)展簡(jiǎn)史1.2數(shù)據(jù)標(biāo)注定義及分類1.3數(shù)據(jù)標(biāo)注的應(yīng)用領(lǐng)域1.4數(shù)據(jù)標(biāo)注行業(yè)的運(yùn)行模式1.5數(shù)據(jù)標(biāo)注行業(yè)未來發(fā)展趨勢(shì)及挑戰(zhàn)1.1數(shù)據(jù)標(biāo)注發(fā)展簡(jiǎn)史1.1.1數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展人工智能發(fā)展史人工智能的概念在上世紀(jì)五六十年代被正式提出圖靈測(cè)試1956年在達(dá)特茅斯會(huì)議上首度提出“人工智能(AI)”概念,被譽(yù)為“人工智能的起點(diǎn)”從“圖1?1人工智能發(fā)展簡(jiǎn)史”時(shí)間軸上可以看到人工智能的發(fā)展經(jīng)歷了起起伏伏,從理論到實(shí)踐,從初期在現(xiàn)實(shí)應(yīng)用環(huán)境中使用效果不佳,到通過技術(shù)的突破,實(shí)現(xiàn)存儲(chǔ)能力、計(jì)算能力的大幅提升的過程1.1數(shù)據(jù)標(biāo)注發(fā)展簡(jiǎn)史數(shù)據(jù)標(biāo)注的起源2007年,斯坦福大學(xué)教授李飛飛等人開始啟動(dòng)ImageNet項(xiàng)目數(shù)據(jù)標(biāo)注的概念:標(biāo)注是對(duì)未處理的初級(jí)數(shù)據(jù),包括語音、圖片、文本、視頻等進(jìn)行加工處理,并轉(zhuǎn)換為機(jī)器可識(shí)別信息的過程。人工智能算法與數(shù)據(jù)標(biāo)注之間的關(guān)系強(qiáng)人工智能vs弱人工智能深度學(xué)習(xí)是人工智能目前的一個(gè)重要研究領(lǐng)域,其主要有四種方式:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)。監(jiān)督學(xué)習(xí)是當(dāng)前人工智能的研究重點(diǎn)1.1數(shù)據(jù)標(biāo)注發(fā)展簡(jiǎn)史1.1.2國內(nèi)數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展現(xiàn)狀數(shù)據(jù)標(biāo)注行業(yè)近幾年發(fā)展迅猛,要求越來越高。市場(chǎng)端預(yù)計(jì)2025年市場(chǎng)規(guī)模將突破100億元人民幣對(duì)標(biāo)注數(shù)據(jù)的需求量會(huì)更大,數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展前景是十分向好的人工智能算法與數(shù)據(jù)標(biāo)注之間的關(guān)系目前數(shù)據(jù)標(biāo)注需求量最大的五座城市分別是:北京、成都、杭州、上海、深圳供應(yīng)商端分為三大類:平臺(tái)數(shù)據(jù)供應(yīng)商、中小數(shù)據(jù)供應(yīng)商、需求方自建團(tuán)隊(duì)從供應(yīng)商的發(fā)展來看,行業(yè)內(nèi)部處于“洗牌”階段1.2數(shù)據(jù)標(biāo)注定義及分類1.2.1什么是數(shù)據(jù)標(biāo)注數(shù)據(jù)標(biāo)注(DataAnnotation)是對(duì)文本、圖像、語音、視頻等待標(biāo)注數(shù)據(jù)進(jìn)行歸類、整理、編輯、糾錯(cuò)、標(biāo)記和批注等加工操作,為待標(biāo)注數(shù)據(jù)增加標(biāo)簽,生成滿足機(jī)器學(xué)習(xí)訓(xùn)練要求的機(jī)器可讀數(shù)據(jù)編碼的工作標(biāo)簽(Label)標(biāo)注任務(wù)(AnnotationTask)數(shù)據(jù)標(biāo)注員(datalabeler)標(biāo)注工具(annotationtool)1.2數(shù)據(jù)標(biāo)注定義及分類1.2.2數(shù)據(jù)標(biāo)注的工作特點(diǎn)數(shù)據(jù)標(biāo)注工作特點(diǎn)是由數(shù)據(jù)標(biāo)注項(xiàng)目的特點(diǎn)決定的,而且需要根據(jù)效果不斷進(jìn)行需求調(diào)整。需具備以下能力:可遷移學(xué)習(xí)能力重復(fù)標(biāo)記能力細(xì)心專注能力總結(jié)提煉能力1.2數(shù)據(jù)標(biāo)注定義及分類1.2.3數(shù)據(jù)標(biāo)注的基本流程包括4個(gè)環(huán)節(jié):數(shù)據(jù)采集:首要環(huán)節(jié),來源于提出標(biāo)注需求的人工智能公司。常通過互聯(lián)網(wǎng)獲取公開的數(shù)據(jù)集與專業(yè)數(shù)據(jù)集。數(shù)據(jù)清洗:重要的環(huán)節(jié),對(duì)數(shù)據(jù)進(jìn)行篩檢,去重,并對(duì)數(shù)據(jù)集中存在的異常值與缺失值進(jìn)行查缺補(bǔ)漏,同時(shí)平滑噪聲數(shù)據(jù),最大限度糾正數(shù)據(jù)的不一致行和不完整性。數(shù)據(jù)標(biāo)注:由標(biāo)注員負(fù)責(zé)標(biāo)注數(shù)據(jù),可采用分類標(biāo)注、標(biāo)框標(biāo)注、區(qū)域標(biāo)注、描點(diǎn)標(biāo)注或其他標(biāo)注方法進(jìn)行。數(shù)據(jù)質(zhì)檢:關(guān)鍵環(huán)節(jié),常見的控制質(zhì)量方法:多人驗(yàn)證、埋題驗(yàn)證、標(biāo)注人員狀態(tài)驗(yàn)證、機(jī)器驗(yàn)證1.2數(shù)據(jù)標(biāo)注定義及分類1.2.4數(shù)據(jù)標(biāo)注的分類常根據(jù)待標(biāo)數(shù)據(jù)類型進(jìn)行分類:文本標(biāo)注:主要是用于自然語言處理(NaturalLanguageProcessing,NLP),如:客服行業(yè)、金融行業(yè)、醫(yī)療行業(yè)等。其標(biāo)注方式有:分詞標(biāo)注、詞性標(biāo)注、情感標(biāo)注、意圖識(shí)別、實(shí)體標(biāo)注等。音頻標(biāo)注:主要用于語音識(shí)別(AutomaticSpeechRecognition,ASR)和語音合成(Text-To-Speech,TTS),ASR技術(shù)主要是將聲音轉(zhuǎn)成文字,而TTS技術(shù)主要是將文字轉(zhuǎn)化為聲音。目前較常見的應(yīng)用場(chǎng)景有智能客服、電話機(jī)器人、蘋果手機(jī)的Siri等。音頻標(biāo)注方式有語音轉(zhuǎn)寫、語音情感標(biāo)注等。1.2數(shù)據(jù)標(biāo)注定義及分類圖像標(biāo)注:主要給計(jì)算機(jī)視覺相關(guān)的算法提供數(shù)據(jù)集,日常能了解到的場(chǎng)景如人臉識(shí)別、自動(dòng)駕駛、車牌識(shí)別以及目前比較火的醫(yī)療影像的識(shí)別等都會(huì)用到圖像標(biāo)注。標(biāo)注方式有矩形框標(biāo)注、多邊形拉框、打點(diǎn)、OCR識(shí)別、語義分割、圖片審核分類等。視頻標(biāo)注:主要是通過對(duì)視頻取幀后進(jìn)行圖片標(biāo)注,然后再進(jìn)行合成訓(xùn)練。例如:監(jiān)控視頻、自動(dòng)駕駛、智慧交通等。其標(biāo)注方法基本和圖片標(biāo)注一致。這4種數(shù)據(jù)標(biāo)注分類方法的概念和優(yōu)缺點(diǎn)詳見“表1?2數(shù)據(jù)標(biāo)注分類比較”。1.3數(shù)據(jù)標(biāo)注的應(yīng)用領(lǐng)域盡量理解標(biāo)注數(shù)據(jù)的應(yīng)用場(chǎng)景,對(duì)于標(biāo)注質(zhì)量有重要意義出行領(lǐng)域:常見的標(biāo)注方式有:點(diǎn)標(biāo)注、線標(biāo)注、框標(biāo)注、3D點(diǎn)云標(biāo)注、場(chǎng)景語義分割、PoI(PointofInterest)標(biāo)注等。安防領(lǐng)域:政府層面多。人臉標(biāo)注、視頻分割、語音采集、行人標(biāo)注等是重要的數(shù)據(jù)標(biāo)注應(yīng)用。金融領(lǐng)域:文字翻譯、語義分析、語義轉(zhuǎn)錄、圖像標(biāo)注等都會(huì)得到很廣泛的應(yīng)用。電子商務(wù)領(lǐng)域:能進(jìn)一步深度挖掘數(shù)據(jù)集,通過互聯(lián)網(wǎng)搜索指定內(nèi)容的搜索完善、通過語句的情感判斷、意圖判斷、糾錯(cuò)、以及語言的采集、標(biāo)注等均為重要的數(shù)據(jù)應(yīng)用。公共服務(wù)領(lǐng)域:檢查內(nèi)容是否符合要求的內(nèi)容審核,對(duì)具有相同意義的語句進(jìn)行歸類的語義分析、意圖識(shí)別、語音轉(zhuǎn)錄,以及視頻審核、文本審核等都是數(shù)據(jù)標(biāo)注常見的應(yīng)用領(lǐng)域。1.4數(shù)據(jù)標(biāo)注行業(yè)的運(yùn)行模式1.4.1數(shù)據(jù)標(biāo)注的特點(diǎn)標(biāo)注內(nèi)容最小顆粒度:項(xiàng)目標(biāo)注數(shù)量大標(biāo)注需求迭代快1.4.2數(shù)據(jù)標(biāo)注在人工智能中的地位數(shù)據(jù)標(biāo)注為人工智能公司提供了大量的帶有標(biāo)簽的結(jié)構(gòu)化數(shù)據(jù)集,供機(jī)器進(jìn)行訓(xùn)練和學(xué)習(xí),保證算法模型的有效性。而數(shù)據(jù)標(biāo)注的準(zhǔn)確性決定了人工智能的有效性,因此在目前階段數(shù)據(jù)標(biāo)注在人工智能中還占據(jù)著非常重要的角色,而且在未來一段時(shí)間依然非常重要。1.4.3數(shù)據(jù)標(biāo)注運(yùn)行模式如圖1?5所示??梢詤⒖糚M項(xiàng)目管理.。1.5數(shù)據(jù)標(biāo)注行業(yè)未來發(fā)展趨勢(shì)及挑戰(zhàn)具前瞻性的數(shù)據(jù)集產(chǎn)品和高度定制化數(shù)據(jù)服務(wù)將成為數(shù)據(jù)標(biāo)注行業(yè)發(fā)展的主流。1.5.1數(shù)據(jù)標(biāo)注行業(yè)競(jìng)爭(zhēng)加劇的發(fā)展趨勢(shì)目前已進(jìn)入快速增長(zhǎng)期微觀角度來看:市場(chǎng)規(guī)模不斷擴(kuò)大,市場(chǎng)競(jìng)爭(zhēng)的加劇,行業(yè)內(nèi)部或?qū)⒂瓉怼跋磁破凇焙暧^角度看:高質(zhì)量、精細(xì)化、定制化的數(shù)據(jù)集越來越受到需求方的青睞1.5.2政策的有力支持工業(yè)和信息化部印發(fā)了《促進(jìn)新一代人工智能產(chǎn)業(yè)發(fā)展三年行動(dòng)計(jì)劃(2018-2020年)》2020年2月,“人工智能訓(xùn)練師”正式成為新職業(yè)隸屬于軟件和信息技術(shù)服務(wù)人員小類。1.5數(shù)據(jù)標(biāo)注行業(yè)未來發(fā)展趨勢(shì)及挑戰(zhàn)1.5.3面臨的問題和挑戰(zhàn)挑戰(zhàn)1:標(biāo)注需求難度加大、行業(yè)結(jié)合深入不夠挑戰(zhàn)2半自動(dòng)化標(biāo)注工具及管理平臺(tái)的研發(fā)不足。關(guān)注兩個(gè)重點(diǎn):如何提升標(biāo)注效率和如何做好項(xiàng)目管理挑戰(zhàn)3數(shù)據(jù)標(biāo)注質(zhì)量的把控不過關(guān)目前已進(jìn)入快速增長(zhǎng)期挑戰(zhàn)4數(shù)據(jù)安全與隱私的保護(hù)不容樂觀。目前產(chǎn)生了如數(shù)據(jù)治理、數(shù)據(jù)分割、數(shù)據(jù)安全傳輸和區(qū)塊鏈等技術(shù)。1.5數(shù)據(jù)標(biāo)注行業(yè)未來發(fā)展趨勢(shì)及挑戰(zhàn)1.5.4數(shù)據(jù)標(biāo)注行業(yè)的前景與發(fā)展數(shù)據(jù)標(biāo)注行業(yè)前景廣闊,但也面臨諸多挑戰(zhàn)。唯有不斷提升自身技術(shù)實(shí)力、快速迭代自身業(yè)務(wù)以適應(yīng)需求變化、并打造品牌與實(shí)力的雙重口碑效應(yīng),才能在激烈的市場(chǎng)競(jìng)爭(zhēng)中更具優(yōu)勢(shì),建立高度排他性技術(shù)壁壘[4],從而保證自身在競(jìng)爭(zhēng)中立于不敗之地。謝謝!數(shù)據(jù)標(biāo)注實(shí)用教程第二章數(shù)據(jù)的來龍去脈內(nèi)容2.1認(rèn)識(shí)數(shù)據(jù)2.2數(shù)據(jù)采集2.3爬蟲采集數(shù)據(jù)案例2.4數(shù)據(jù)預(yù)處理2.5標(biāo)注數(shù)據(jù)2.6數(shù)據(jù)分析與應(yīng)用2.1什么是數(shù)據(jù)?2.1.1數(shù)和數(shù)據(jù)的區(qū)別在數(shù)學(xué)中,數(shù)是一個(gè)抽象的概念,由特定的數(shù)字符號(hào)組成如在十進(jìn)制中,用0、1、2、3、4、5、6、7、8、9十個(gè)符號(hào)來表示數(shù)。數(shù)據(jù)是在現(xiàn)實(shí)世界特定場(chǎng)景中表示某種度量的數(shù)值,是表示事物、對(duì)象的屬性或反映其物理特征的數(shù)值如北京到洛陽的距離是800公里,小明的身高是170cm,小華今年20歲,這里的800公里、170cm、20歲都是一個(gè)特定的數(shù)據(jù)。在計(jì)算機(jī)科學(xué)中數(shù)據(jù)有更豐富的內(nèi)涵,文字、符號(hào)、圖像、聲音等也都是數(shù)據(jù)2.1什么是數(shù)據(jù)?2.1.2通信中數(shù)據(jù)的分類1.模擬數(shù)據(jù)模擬數(shù)據(jù)(AnalogData)是由傳感器采集得到的連續(xù)變化的值,例如溫度、壓力,以及傳統(tǒng)的電話系統(tǒng)、無線電和電視廣播中的聲音和圖像都是模擬數(shù)據(jù),模擬數(shù)據(jù)轉(zhuǎn)換為模擬信號(hào),即傳輸介質(zhì)中傳送的連續(xù)變化的電磁波。模擬數(shù)據(jù)是連續(xù)的,無法直接在計(jì)算機(jī)中存儲(chǔ)。2.數(shù)字?jǐn)?shù)據(jù)數(shù)字?jǐn)?shù)據(jù)(DigitalData)則是模擬數(shù)據(jù)經(jīng)量化后得到的離散的值,例如在計(jì)算機(jī)中用二進(jìn)制代碼表示的字符、圖形、音頻與視頻數(shù)據(jù)。數(shù)字信號(hào)是在傳輸介質(zhì)中傳送的電壓脈沖序列。2.1什么是數(shù)據(jù)?2.1.3計(jì)算機(jī)中數(shù)據(jù)的編碼整型數(shù)據(jù)編碼有原碼、反碼、補(bǔ)碼、BCD碼等。實(shí)型數(shù)據(jù)通過浮動(dòng)小數(shù)點(diǎn)轉(zhuǎn)換為尾數(shù)加階碼的浮點(diǎn)數(shù)編碼格式存儲(chǔ)。字符類型數(shù)的編碼如英文字符的ASCII碼集,中文的BIG5編碼、GB18030編碼,國際標(biāo)準(zhǔn)字符集Unicode編碼等。聲音數(shù)據(jù)的存儲(chǔ)可以通過對(duì)物理聲波模擬信號(hào)數(shù)據(jù)離散、采樣、量化進(jìn)行編碼。圖像類的數(shù)據(jù)由光學(xué)鏡頭采集到連續(xù)的光信號(hào)數(shù)據(jù),光信號(hào)通過光電傳感器轉(zhuǎn)換為電信號(hào),再通過網(wǎng)格化采樣、量化轉(zhuǎn)換為離散的像素點(diǎn)信息,再對(duì)每個(gè)像素點(diǎn)的信息進(jìn)行編碼存儲(chǔ)。2.1什么是數(shù)據(jù)?2.1.4數(shù)據(jù)文件存儲(chǔ)在磁盤上的文件必須具備三個(gè)要素:文件路徑,文件名,文件類型例如:E:\無人車\線上標(biāo)注軟件使用說明.docx文件類型(即文件格式)是指計(jì)算機(jī)為了存儲(chǔ)信息而使用的對(duì)信息的特殊編碼方式,不同數(shù)據(jù)的文件存儲(chǔ)格式也是不同的,以不同文件擴(kuò)展名來進(jìn)行區(qū)分。如word文件的擴(kuò)展名為.doc或.docx,常見的圖片文件格式.jpg、.bmp、.png等,常見的音頻文件格式.mp3、.wav、.mid、.au等。某種文件格式需要特定的應(yīng)用程序才能夠正確打開。進(jìn)行標(biāo)注時(shí),不同類型的標(biāo)注數(shù)據(jù),文件類型也是不同的。2.2數(shù)據(jù)采集數(shù)據(jù)采集,又稱數(shù)據(jù)獲取,是利用某種裝置,從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的一個(gè)接口。數(shù)據(jù)采集廣泛應(yīng)用在各個(gè)領(lǐng)域,例如麥克風(fēng)、攝像頭、壓力表、標(biāo)尺、溫度傳感器等,都是數(shù)據(jù)采集工具。2.2數(shù)據(jù)采集2.2.1采集渠道1.直接購買或共享行業(yè)數(shù)據(jù)2.網(wǎng)絡(luò)采集3.第三方合作4.自行采集2.2.2數(shù)據(jù)采集的注意事項(xiàng)1.深度理解2.實(shí)時(shí)溝通3.采集質(zhì)量2.2數(shù)據(jù)采集2.2.3標(biāo)注數(shù)據(jù)的采集案例1.人體姿態(tài)采集2.方言采集3.泊車位和交通標(biāo)志采集2.2.4數(shù)據(jù)質(zhì)量1.關(guān)聯(lián)度2.時(shí)效性3.范圍4.可信性2.3Python安裝與爬蟲采集數(shù)據(jù)案例1.下載Python打開Python官網(wǎng):/2.3Python安裝與爬蟲采集數(shù)據(jù)案例2.安裝Python2.3Python安裝與爬蟲采集數(shù)據(jù)案例2.安裝Python2.3Python安裝與爬蟲采集數(shù)據(jù)案例2.安裝Python安裝完成使用命令提示符進(jìn)行驗(yàn)證,打開Windows的命令行模式,輸入“Python”或“python”,屏幕輸出如下圖所示,則說明Python解釋器成功運(yùn)行,Python安裝完成,并且相關(guān)環(huán)境變量配置成功。2.3Python安裝與爬蟲采集數(shù)據(jù)案例3.在Windows中配置Python環(huán)境變量2.3Python安裝與爬蟲采集數(shù)據(jù)案例4.啟動(dòng)Python交互式命令2.3Python安裝與爬蟲采集數(shù)據(jù)案例4.啟動(dòng)PythonIDLE(創(chuàng)建源文件)2.3Python安裝與爬蟲采集數(shù)據(jù)案例5.第三方庫安裝pip在線安裝(命令提示符環(huán)境,建議切換至Python安裝目錄中的scripts文件夾執(zhí)行)pip離線安裝:/~gohlke/pythonlibs/exe安裝,不是每個(gè)擴(kuò)展庫都支持conda在線安裝(需要先安裝Anaconda)如果機(jī)器上安裝了多個(gè)Python開發(fā)環(huán)境,那么在一個(gè)環(huán)境下安裝的擴(kuò)展庫無法在另一個(gè)環(huán)境下使用,需要分別安裝。2.3Python安裝與爬蟲采集數(shù)據(jù)案例5.第三方庫安裝pip命令示例說明pipdownloadSomePackage[==version]下載擴(kuò)展庫的指定版本,不安裝pipfreeze[>requirements.txt]以requirements的格式列出已安裝模塊piplist列出當(dāng)前已安裝的所有模塊pipinstallSomePackage[==version]在線安裝SomePackage模塊的指定版本pipinstallSomePackage.whl通過whl文件離線安裝擴(kuò)展庫pipinstallpackage1package2...依次(在線)安裝package1、package2等擴(kuò)展模塊pipinstall-rrequirements.txt安裝requirements.txt文件中指定的擴(kuò)展庫pipinstall--upgradeSomePackage升級(jí)SomePackage模塊pipuninstallSomePackage[==version]卸載SomePackage模塊的指定版本把SomePackage替換為實(shí)際要安裝或卸載的擴(kuò)展庫名/~gohlke/pythonlibs/下載時(shí)選擇合適版本,并且不要修改文件名2.3Python安裝與爬蟲采集數(shù)據(jù)案例6.標(biāo)準(zhǔn)庫或擴(kuò)展庫中對(duì)象的導(dǎo)入Python標(biāo)準(zhǔn)庫和擴(kuò)展庫中的對(duì)象必須先導(dǎo)入才能使用,導(dǎo)入方法如下:import模塊名[as別名]import模塊名import對(duì)象名[as別名]import模塊名import*2.3Python安裝與爬蟲采集數(shù)據(jù)案例2.3.2Python爬蟲采集數(shù)據(jù)案例最簡(jiǎn)單的頁面級(jí)的網(wǎng)絡(luò)爬蟲的原理,通過第三方庫requests和BeautifulSoup4庫:requests庫獲得一個(gè)請(qǐng)求回應(yīng)BeautifulSoup4庫解析html文件對(duì)解析的soup進(jìn)行查找RE正則表達(dá)式find_all(“xx”)定位標(biāo)簽內(nèi)容對(duì)爬取的內(nèi)容進(jìn)行操作(字符串的加減)2.3Python安裝與爬蟲采集數(shù)據(jù)案例2.3.2Python爬蟲采集數(shù)據(jù)案例通過爬蟲獲取一個(gè)新浪網(wǎng)子頁面/photo/rel/csjsy07/399/上的所有圖片的URL鏈接案例。編程思路如下:首先導(dǎo)入requests庫向網(wǎng)頁發(fā)送請(qǐng)求接收請(qǐng)求回應(yīng)然后拋出異常,判斷網(wǎng)頁是否成功接收到請(qǐng)求其次判斷編碼類型,修改編碼再次生成一個(gè)Soup,將html文件進(jìn)行解釋最后查找標(biāo)簽,獲取內(nèi)容并且對(duì)內(nèi)容進(jìn)行一系列操作2.4數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是一種數(shù)據(jù)挖掘技術(shù),其目的是為了把原始數(shù)據(jù)轉(zhuǎn)換為可以理解的格式或者符合挖掘的格式?,F(xiàn)實(shí)世界中獲取的數(shù)據(jù)大部分都是不完整,不一致的臟數(shù)據(jù),無法直接進(jìn)行數(shù)據(jù)挖掘,或挖掘結(jié)果差強(qiáng)人意。為了提高數(shù)據(jù)挖掘的質(zhì)量產(chǎn)生了數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)預(yù)處理有多種方法:數(shù)據(jù)清洗,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約等2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等異常數(shù)據(jù)的技術(shù)。2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)數(shù)據(jù)的異??煞譃槿悾赫Z法類異常(SyntacticalAnomaly),語義類異常(SemanticAnomaly),覆蓋類異常(CoverageAnomaly)。1.語法類異常語法類異常指的是表示實(shí)體的具體數(shù)據(jù)的值和格式的錯(cuò)誤。該類異常具體可分為三種:(1)詞法錯(cuò)誤(LexicalError)指的是實(shí)際數(shù)據(jù)的結(jié)構(gòu)和指定的結(jié)構(gòu)不一致。例如:在一張人員表中,每個(gè)實(shí)體有四個(gè)屬性,分別是姓名、年齡、性別和身高,而某些記錄只有三個(gè)屬性,有缺失值。(2)值域格式錯(cuò)誤(DomainFormatError)指的是實(shí)體的某個(gè)屬性的取值不符合預(yù)期的值域中的某種格式。值域是數(shù)據(jù)的所有可能取值構(gòu)成的集合。例如:姓名是字符串類型,在名和姓之間有一個(gè)“·”,那么“John·Smith”是正確的值,“JohnSmith”則不是正確的值。2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)1.語法類異常(3)不規(guī)則的取值(Irregularity)指的是對(duì)取值、單位和簡(jiǎn)稱的使用不統(tǒng)一,不規(guī)范。比如:?jiǎn)T工的工資字段有的用“元”作為單位,有的用“萬元”作為單位。2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)2.語義類異常語義類異常是指數(shù)據(jù)不能全面、無重復(fù)地表示客觀世界的實(shí)體,該類異常具體可分為四種:(1)違反完整性約束規(guī)則(IntegrityConstraintViolation)。指一個(gè)元組或幾個(gè)元組不符合(實(shí)體完整性、參照完整性和用戶自定義完整性)完整性約束規(guī)則。例如:規(guī)定員工工資字段必須大于0,如果某個(gè)員工的工資小于0,就違反了完整性約束規(guī)則。(2)數(shù)據(jù)中出現(xiàn)矛盾(Contradiction)。指的是一個(gè)元組的各個(gè)屬性取值,或者不同元組的各個(gè)屬性的取值違反這些取值的依賴關(guān)系。例如:我們的賬單表里的賬單金額為商品總金額減去折扣金額,但在數(shù)據(jù)庫某個(gè)賬單的實(shí)付金額不等于商品總金額減去折扣金額,這就出現(xiàn)了矛盾。(3)數(shù)據(jù)中存在重復(fù)值(Duplicate)。指的是兩個(gè)或者兩個(gè)以上的元組表示同一個(gè)實(shí)體。(4)無效的元組(InvalidTuple)。指的是某些元組沒有對(duì)應(yīng)客觀世界的有效實(shí)體。例如:?jiǎn)T工表中有一個(gè)員工,姓名叫“王中華”,但是單位或公司里并沒有這個(gè)人。2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)3.覆蓋類異常(1)值的缺失(MissingValue)。指的是在進(jìn)行數(shù)據(jù)采集時(shí)由于各種原因?qū)е戮蜎]有采集到某項(xiàng)相應(yīng)的數(shù)據(jù)。(2)元組的缺失(MissingTuple)。指的是在客觀世界中,存在某些實(shí)體,但是并沒有在數(shù)據(jù)庫通過元組表示出來。2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)4.缺失數(shù)據(jù)處理(1)刪除含有缺失值的記錄理論上講,主要有簡(jiǎn)單刪除法和權(quán)重法。簡(jiǎn)單刪除法是對(duì)缺失值進(jìn)行處理的最原始最簡(jiǎn)單的方法。(2)插補(bǔ)缺失值它的思想來源是以最可能的值來插補(bǔ)缺失值比全部刪除不完全樣本所產(chǎn)生的信息丟失要少。在數(shù)據(jù)挖掘中,面對(duì)的通常是大型的數(shù)據(jù)庫,它的屬性有幾十個(gè)甚至幾百個(gè),因?yàn)橐粋€(gè)屬性值的缺失而放棄大量的其他屬性值,這種刪除是對(duì)信息的極大浪費(fèi),所以產(chǎn)生了以可能值對(duì)缺失值進(jìn)行插補(bǔ)的思想與方法。常用的有如下幾種方法:均值插補(bǔ)同類均值插補(bǔ)極大似然估計(jì)2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)5.重復(fù)數(shù)據(jù)處理所有字段的值都相等的重復(fù)值是一定要剔除的,但在數(shù)據(jù)集不大的情況下,刪除數(shù)據(jù)會(huì)造成數(shù)據(jù)集更小,根據(jù)不同業(yè)務(wù)場(chǎng)景,有時(shí)會(huì)選取其中幾個(gè)字段進(jìn)行去重操作。2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)6.噪聲數(shù)據(jù)處理噪聲是被測(cè)量的變量的隨機(jī)誤差或方差??梢允褂没镜臄?shù)據(jù)統(tǒng)計(jì)描述技術(shù)(例如,盒圖或者散點(diǎn)圖)和數(shù)據(jù)可視化方法來識(shí)別可能代表噪聲的離群點(diǎn)。常用的技術(shù)有分箱、回歸、孤立點(diǎn)分析。(1)分箱(bining):分箱方法通過考察數(shù)據(jù)的“近鄰”(即周圍的值)來光滑有序的數(shù)據(jù)值。這些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近鄰的值,因此它適合進(jìn)行局部的光滑。2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)6.噪聲數(shù)據(jù)處理(1)分箱(bining):2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)6.噪聲數(shù)據(jù)處理(2)回歸(regression):可以用一個(gè)函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)。這種技術(shù)稱之為回歸。線性回歸涉及找出擬合兩個(gè)屬性(或變量)的“最佳”直線,使得一個(gè)屬性可以用來預(yù)測(cè)另一個(gè)。多元線性回歸是線性回歸的擴(kuò)充,其中涉及的屬性多于兩個(gè),并且數(shù)據(jù)擬合到一個(gè)多維曲面。2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)6.噪聲數(shù)據(jù)處理(3)離群點(diǎn)分析(outlieranalysis):可以通過聚類來檢測(cè)離群點(diǎn)。聚類將類似的值組織成“群”或“簇”,直觀地看,落在簇集合之外的值被視為離群點(diǎn)。2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)7.數(shù)據(jù)清洗工具小規(guī)模數(shù)據(jù)清洗可以借助EXCEL軟件,大規(guī)模數(shù)據(jù)清洗可以使用R語言或者Python語言編寫程序?qū)崿F(xiàn)。現(xiàn)有的常用數(shù)據(jù)清洗工具軟件有:MicrosoftExcelKettleOpenRefineDataWranglerHawk2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)8.使用EXCEL清洗數(shù)據(jù)Excel常見數(shù)據(jù)清洗函數(shù):(1)left函數(shù):文本處理函數(shù),快速收集關(guān)鍵信息。(2)right函數(shù):快速提取文本中出現(xiàn)的手機(jī)號(hào)碼。(3)mid+find函數(shù)根據(jù)特定關(guān)鍵詞提取所需數(shù)據(jù)(4)trim函數(shù)(5)concatenate函數(shù)(6)replace函數(shù)(7)substitute函數(shù)(8)len/lenb函數(shù)2.4數(shù)據(jù)預(yù)處理2.4.2數(shù)據(jù)集成(DataIntegration)數(shù)據(jù)集成是把來源、格式、特點(diǎn)性質(zhì)不同的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。1.聯(lián)邦數(shù)據(jù)庫模式2.數(shù)據(jù)倉庫模式3.中介者模式2.4數(shù)據(jù)預(yù)處理2.4.2數(shù)據(jù)集成(DataIntegration)1.聯(lián)邦數(shù)據(jù)庫模式2.4數(shù)據(jù)預(yù)處理2.4.2數(shù)據(jù)集成(DataIntegration)2.數(shù)據(jù)倉庫模式2.4數(shù)據(jù)預(yù)處理2.4.2數(shù)據(jù)集成(DataIntegration)3.中介者模式2.4數(shù)據(jù)預(yù)處理2.4.3數(shù)據(jù)歸約(Datareduction)數(shù)據(jù)歸約是指在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡(jiǎn)數(shù)據(jù)的數(shù)量。對(duì)于小型或中型數(shù)據(jù)集,一般的數(shù)據(jù)預(yù)處理步驟已經(jīng)足夠。但對(duì)真正大型數(shù)據(jù)集來講,在應(yīng)用數(shù)據(jù)挖掘技術(shù)以前,可能需要采取一個(gè)中間的、額外的步驟——數(shù)據(jù)歸約。2.4數(shù)據(jù)預(yù)處理2.4.3數(shù)據(jù)歸約(Datareduction)1.特征歸約特征歸約是從原有的特征中刪除不重要或不相關(guān)的特征,或者通過對(duì)特征進(jìn)行重組來減少特征的個(gè)數(shù)。其原則是在保留、甚至提高原有判別能力的同時(shí)減少特征向量的維度。特征歸約算法的輸入是一組特征值,輸出的是它的一個(gè)子集。在領(lǐng)域知識(shí)缺乏的情況下進(jìn)行特征歸約時(shí)一般包括3個(gè)步驟:(1)搜索過程:在特征空間中搜索特征子集,每個(gè)子集稱為一個(gè)狀態(tài),由選中的特征構(gòu)成。(2)評(píng)估過程:輸入一個(gè)狀態(tài),通過評(píng)估函數(shù)或預(yù)先設(shè)定的閾值,輸出一個(gè)評(píng)估值,搜索算法的目的是使評(píng)估值達(dá)到最優(yōu)。(3)分類過程:使用最終的特征集完成最后的算法。特征歸約處理的效果:(1)更少的數(shù)據(jù),更高的挖掘效率(2)更高的數(shù)據(jù)挖掘處理精度(3)簡(jiǎn)單的數(shù)據(jù)挖掘處理結(jié)果(4)更少的特征。2.4數(shù)據(jù)預(yù)處理2.4.3數(shù)據(jù)歸約(Datareduction)2.樣本歸約樣本都是已知的,通常數(shù)目很大,質(zhì)量或高或低,有、或者沒有關(guān)于實(shí)際問題的先驗(yàn)知識(shí)。樣本歸約就是從數(shù)據(jù)集中選出一個(gè)有代表性的樣本的子集。確定子集的大小要考慮計(jì)算成本、存儲(chǔ)要求、估計(jì)量的精度以及其它一些與算法和數(shù)據(jù)特性有關(guān)的因素。初始數(shù)據(jù)集中最大和最關(guān)鍵的維度數(shù)就是樣本的數(shù)目,也就是數(shù)據(jù)表中的記錄數(shù)。數(shù)據(jù)挖掘處理的初始數(shù)據(jù)集描述了一個(gè)極大的總體,對(duì)數(shù)據(jù)的分析只基于樣本的一個(gè)子集。獲得數(shù)據(jù)的子集后,用它來提供整個(gè)數(shù)據(jù)集的一些信息,這個(gè)子集通常叫做估計(jì)量,它的質(zhì)量依賴于所選子集中的元素。取樣過程很可能會(huì)造成取樣誤差,取樣誤差對(duì)所有的方法和策略來講都是固有的、不可避免的,當(dāng)子集的規(guī)模變大時(shí),取樣誤差一般會(huì)降低。一個(gè)完整的數(shù)據(jù)集在理論上是不存在取樣誤差的。與針對(duì)整個(gè)數(shù)據(jù)集的數(shù)據(jù)挖掘比較起來,樣本歸約具有一個(gè)或多個(gè)優(yōu)點(diǎn):減少成本、速度更快、范圍更廣,有時(shí)甚至能獲得更高的精度。2.4數(shù)據(jù)預(yù)處理2.4.3數(shù)據(jù)歸約(Datareduction)3.特征值歸約特征值歸約是特征值離散化技術(shù),它將連續(xù)的特征值離散化,使之成為少量的區(qū)間,每個(gè)區(qū)間映射到一個(gè)離散符號(hào)。這種技術(shù)的好處在于簡(jiǎn)化了數(shù)據(jù)描述,并易于理解數(shù)據(jù)和最終的挖掘結(jié)果。特征值歸約可以是有參的,也可以是無參的。有參方法使用一個(gè)模型來評(píng)估數(shù)據(jù),只需存放參數(shù),而不需要存放實(shí)際數(shù)據(jù);有參的特征值歸約有以下兩種:(1)回歸:線性回歸和多元回歸;(2)對(duì)數(shù)線性模型:近似離散多維概率分布。無參的特征值歸約有三種:(1)直方圖:采用分箱近似數(shù)據(jù)分布,其中V-最優(yōu)和MaxDiff直方圖是最精確和最實(shí)用的;(2)聚類:將數(shù)據(jù)元組視為對(duì)象,將對(duì)象劃分為群或聚類,使得在一個(gè)聚類中的對(duì)象“類似”而與其他聚類中的對(duì)象“不類似”,在數(shù)據(jù)歸約時(shí)用數(shù)據(jù)的聚類代替實(shí)際數(shù)據(jù);(3)選樣:用數(shù)據(jù)的較小隨機(jī)樣本表示較大的數(shù)據(jù)集,如簡(jiǎn)單選擇n個(gè)樣本(類似樣本歸約)、聚類選樣和分層選樣等。2.4數(shù)據(jù)預(yù)處理2.4.4數(shù)據(jù)變換(Datatransfer)數(shù)據(jù)變換,是將數(shù)據(jù)從一種表示形式變換為適用于數(shù)據(jù)挖掘的另一種形式的過程。包括如下步驟:1.數(shù)據(jù)平滑去除數(shù)據(jù)中的噪聲,將連續(xù)數(shù)據(jù)離散化,可采用分箱、聚類和回歸的方式進(jìn)行數(shù)據(jù)平滑。2.數(shù)據(jù)聚集對(duì)數(shù)據(jù)進(jìn)行匯總或聚集。這一步通常用來為多粒度數(shù)據(jù)分析構(gòu)造數(shù)據(jù)立方體3.數(shù)據(jù)泛化將數(shù)據(jù)由較低的概念抽象成為較高的概念,減少數(shù)據(jù)復(fù)雜度,即用較高的概念替代較低的概念。4.數(shù)據(jù)規(guī)范化使屬性數(shù)據(jù)按比例縮放,這樣將原來的數(shù)值映射到一個(gè)新的特定區(qū)域中。常用的方法有最小——最大規(guī)范化,Z—score規(guī)范化,按小數(shù)定標(biāo)規(guī)范化。5.屬性構(gòu)造構(gòu)造出新的屬性并添加到屬性集中。通過屬性與屬性的連接構(gòu)造新的屬性,其實(shí)就是特征工程。2.4數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理流程模板:(1)導(dǎo)入標(biāo)準(zhǔn)庫(2)導(dǎo)入數(shù)據(jù)集(3)清洗數(shù)據(jù)(4)數(shù)據(jù)規(guī)約(5)數(shù)據(jù)變換2.5標(biāo)注數(shù)據(jù)2.5.1標(biāo)注數(shù)據(jù)的用途想了解為什么要進(jìn)行標(biāo)注數(shù)據(jù)?就要先了解人工智能的一些應(yīng)用,數(shù)據(jù)標(biāo)注行業(yè)生產(chǎn)的標(biāo)注數(shù)據(jù)都是提供給做人工智能算法訓(xùn)練的客戶,供其作為訓(xùn)練算法的原料數(shù)據(jù)集。標(biāo)注數(shù)據(jù)就像是喂給AI算法的食物,吃的越多,訓(xùn)練的算法模型就會(huì)越好。訓(xùn)練集:用來訓(xùn)練算法模型作用是用來擬合模型,通過設(shè)置分類器的參數(shù),訓(xùn)練分類模型。后續(xù)結(jié)合驗(yàn)證集,會(huì)選出同一參數(shù)的不同取值,擬合出多個(gè)分類器。驗(yàn)證集:用來查看訓(xùn)練效果作用是當(dāng)通過訓(xùn)練集訓(xùn)練出多個(gè)模型后,為了能找出效果最佳的模型,使用各個(gè)模型對(duì)驗(yàn)證集數(shù)據(jù)進(jìn)行預(yù)測(cè),并記錄模型準(zhǔn)確率。選出效果最佳的模型所對(duì)應(yīng)的參數(shù),即用來調(diào)整模型參數(shù)。測(cè)試集:用來測(cè)試模型的實(shí)際學(xué)習(xí)能力通過訓(xùn)練集和驗(yàn)證集得出最優(yōu)模型后,使用測(cè)試集進(jìn)行模型預(yù)測(cè)。用來衡量該最優(yōu)模型的性能和分類能力。即可以把測(cè)試集當(dāng)做從來不存在的數(shù)據(jù)集,當(dāng)已經(jīng)確定模型參數(shù)后,使用測(cè)試集進(jìn)行模型性能評(píng)價(jià)。2.5標(biāo)注數(shù)據(jù)2.5.2使用標(biāo)注數(shù)據(jù)訓(xùn)練AI算法的流程1.數(shù)據(jù)集制作2.訓(xùn)練3.測(cè)試2.6數(shù)據(jù)分析與應(yīng)用2.6.1數(shù)據(jù)分析方法1.聚類分析聚類與分類的不同在于,聚類要求劃分的類是未知的。聚類是將數(shù)據(jù)分類到不同的類或者簇的過程,同一個(gè)簇中的對(duì)象有很大的相似性,不同簇間的對(duì)象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,不必事先給出一個(gè)分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類。聚類分析所使用的方法不同,結(jié)論通常也會(huì)不同。不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類分析,得到的聚類數(shù)也可能不一致。2.6數(shù)據(jù)分析與應(yīng)用2.6.1數(shù)據(jù)分析方法2.因子分析因子分析是研究從變量群中提取共性因子的統(tǒng)計(jì)技術(shù)。最早由英國心理學(xué)家C.E.斯皮爾曼提出。他發(fā)現(xiàn)學(xué)生的各科成績(jī)之間存在著一定的相關(guān)性,一科成績(jī)好的學(xué)生,往往其他各科成績(jī)也比較好,從而推想是否存在某些潛在的共性因子,或某些一般智力條件影響著學(xué)生的學(xué)習(xí)成績(jī)。因子分析可在許多變量中找出隱藏的具有代表性的因子。將相同本質(zhì)的變量歸入一個(gè)因子,可減少變量的數(shù)目,還可檢驗(yàn)變量間關(guān)系的假設(shè)。2.6數(shù)據(jù)分析與應(yīng)用2.6.1數(shù)據(jù)分析方法3.相關(guān)分析相關(guān)分析是研究?jī)蓚€(gè)或兩個(gè)以上處于同等地位的隨機(jī)變量間的相關(guān)關(guān)系的統(tǒng)計(jì)分析方法。例如,人的身高和體重之間;空氣中的相對(duì)濕度與降雨量之間的相關(guān)關(guān)系都是相關(guān)分析研究的問題。相關(guān)分析與回歸分析之間的區(qū)別:回歸分析側(cè)重于研究隨機(jī)變量間的依賴關(guān)系,以便用一個(gè)變量去預(yù)測(cè)另一個(gè)變量;相關(guān)分析側(cè)重于發(fā)現(xiàn)隨機(jī)變量間的種種相關(guān)特性。相關(guān)分析在工農(nóng)業(yè)、水文、氣象、社會(huì)經(jīng)濟(jì)和生物學(xué)等方面都有應(yīng)用。2.6數(shù)據(jù)分析與應(yīng)用2.6.1數(shù)據(jù)分析方法4.對(duì)應(yīng)分析對(duì)應(yīng)分析也稱關(guān)聯(lián)分析,R-Q型因子分析,是近年新發(fā)展起來的一種多元相依變量統(tǒng)計(jì)分析技術(shù),通過分析由定性變量構(gòu)成的交互匯總表來揭示變量間的聯(lián)系。對(duì)應(yīng)分析法可以揭示同一變量的各個(gè)類別之間的差異,以及不同變量各個(gè)類別之間的對(duì)應(yīng)關(guān)系。主要應(yīng)用在市場(chǎng)細(xì)分、產(chǎn)品定位、地質(zhì)研究以及計(jì)算機(jī)工程等領(lǐng)域。原因在于,它是一種視覺化的數(shù)據(jù)分析方法,它能夠?qū)捉M看不出任何聯(lián)系的數(shù)據(jù),通過視覺上可以接受的定位圖展現(xiàn)出來。2.6數(shù)據(jù)分析與應(yīng)用2.6.1數(shù)據(jù)分析方法5.回歸分析在統(tǒng)計(jì)學(xué)中,回歸分析也是一種統(tǒng)計(jì)分析方法,它主要研究如何確定兩種或兩種以上變量間相互依賴的定量關(guān)系?;貧w分析按照涉及的變量多少,分為一元回歸和多元回歸分析;按照因變量的多少,可分為簡(jiǎn)單回歸分析和多重回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。2.6數(shù)據(jù)分析與應(yīng)用2.6.1數(shù)據(jù)分析方法6.方差分析方差分析所要解決的問題是根據(jù)試驗(yàn)結(jié)果,找出有顯著作用的因素,以及確定在什么樣的水平和工藝條件下能使指標(biāo)最優(yōu),達(dá)到優(yōu)質(zhì)和高產(chǎn)的目的。例如給植物施用幾種肥料,調(diào)查分析作物產(chǎn)量在不同肥料之間有無真正的差異時(shí)一般常采用方差分析法。通過每個(gè)數(shù)據(jù)資料之間所顯示的偏差與各組群資料中認(rèn)為是屬于誤差范圍內(nèi)的偏差進(jìn)行比較,來測(cè)驗(yàn)各組資料之間有無顯著差異存在。2.6數(shù)據(jù)分析與應(yīng)用2.6.2數(shù)據(jù)可視化1.數(shù)據(jù)可視化技術(shù)數(shù)據(jù)可視化技術(shù)是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形或圖像的形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。數(shù)據(jù)可視化技術(shù)包含以下幾個(gè)基本概念:①數(shù)據(jù)空間:是由n維屬性和m個(gè)元素組成的數(shù)據(jù)集所構(gòu)成的多維信息空間;②數(shù)據(jù)開發(fā):是指利用一定的算法和工具對(duì)數(shù)據(jù)進(jìn)行定量的推演和計(jì)算;③數(shù)據(jù)分析:指對(duì)多維數(shù)據(jù)進(jìn)行切片、塊、旋轉(zhuǎn)等動(dòng)作剖析數(shù)據(jù),從而能多角度多側(cè)面觀察數(shù)據(jù);④數(shù)據(jù)可視化:是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程2.6數(shù)據(jù)分析與應(yīng)用2.6.2數(shù)據(jù)可視化2.Python數(shù)據(jù)可視化庫——matplotlib1)直方圖繪制函數(shù)bar()2.6數(shù)據(jù)分析與應(yīng)用2.6.2數(shù)據(jù)可視化2.Python數(shù)據(jù)可視化庫——matplotlib2)餅圖繪制函數(shù)pie()2.6數(shù)據(jù)分析與應(yīng)用2.6.2數(shù)據(jù)可視化2.Python數(shù)據(jù)可視化庫——matplotlib3)雷達(dá)圖繪制函數(shù)polar()2.6數(shù)據(jù)分析與應(yīng)用2.6.3數(shù)據(jù)分析與可視化案例數(shù)據(jù)分析是基于某種目的,有針對(duì)性地進(jìn)行收集、整理、加工和分析數(shù)據(jù)并提煉出有價(jià)值信息的一個(gè)過程。1.明確分析目的與框架2.數(shù)據(jù)采集3.數(shù)據(jù)預(yù)處理4.數(shù)據(jù)分析5.數(shù)據(jù)可視化展現(xiàn)2.6數(shù)據(jù)分析與應(yīng)用2.6.3數(shù)據(jù)分析與可視化案例6.案例——某網(wǎng)上商城手機(jī)銷售數(shù)據(jù)分析1)數(shù)據(jù)采集:2)數(shù)據(jù)清洗3)可視化表示2.6數(shù)據(jù)分析與應(yīng)用2.6.3數(shù)據(jù)分析與可視化案例6.案例——某網(wǎng)上商城手機(jī)銷售數(shù)據(jù)分析2.6數(shù)據(jù)分析與應(yīng)用2.6.3數(shù)據(jù)分析與可視化案例6.案例——某網(wǎng)上商城手機(jī)銷售數(shù)據(jù)分析2.6數(shù)據(jù)分析與應(yīng)用2.6.3數(shù)據(jù)分析與可視化案例6.案例——某網(wǎng)上商城手機(jī)銷售數(shù)據(jù)分析謝謝!數(shù)據(jù)標(biāo)注實(shí)用教程第三章數(shù)據(jù)標(biāo)注基礎(chǔ)知識(shí)內(nèi)容3.1數(shù)據(jù)的存儲(chǔ)方式3.2數(shù)據(jù)的編碼方式3.3數(shù)據(jù)標(biāo)注必須了解的知識(shí)3.4常用的數(shù)據(jù)標(biāo)注工具第三章數(shù)據(jù)標(biāo)注基礎(chǔ)知識(shí)3.5數(shù)據(jù)標(biāo)注結(jié)果文件格式3.1數(shù)據(jù)的存儲(chǔ)方式信息是對(duì)客觀世界的一種反映,數(shù)據(jù)是信息的載體,是信息的具體表現(xiàn)形式。在計(jì)算機(jī)中,數(shù)據(jù)都是以二進(jìn)制數(shù)形式存儲(chǔ)的。但是在計(jì)算機(jī)中看不到二進(jìn)制的數(shù)據(jù),看到的是一個(gè)一個(gè)的文件和文件夾,文件是存儲(chǔ)在計(jì)算機(jī)磁盤內(nèi)的一系列數(shù)據(jù)的集合,在Windows操作系統(tǒng)中,文件是最小的數(shù)據(jù)組織單位。文件中可以存放文本、聲音、圖像和視頻等信息。3.1數(shù)據(jù)的存儲(chǔ)方式3.1.1文件名文件名通常由主文件名和擴(kuò)展名組成,中間以“.”連接,如myfile.docx,擴(kuò)展名常用來表示文件的數(shù)據(jù)類型和性質(zhì)。每當(dāng)安裝一個(gè)應(yīng)用程序時(shí),系統(tǒng)會(huì)自動(dòng)為它建立對(duì)應(yīng)的文檔關(guān)聯(lián)。當(dāng)雙擊一個(gè)文檔名時(shí),Windows先檢查它的擴(kuò)展名,根據(jù)擴(kuò)展名首先運(yùn)行與它關(guān)聯(lián)的應(yīng)用程序,再由應(yīng)用程序打開該文檔。Windows對(duì)于已知文件類型的擴(kuò)展名默認(rèn)是不顯示的,如何才能讓其顯示。3.1數(shù)據(jù)的存儲(chǔ)方式3.1.2數(shù)據(jù)標(biāo)注常見的文件類型文本類型.TXT、.DOC、.DOCX、.XLS、.XLSX、.DAT語音類型.WAV、.WMA、.MP3、.CDA、.MIDI、.RA圖像類型.BMP、.JPG、.PNG、.GIF、.TIFF、.PCX、.TGA視頻類型.AVI、.MOV、.RMVB、.FLV、.MP4、.3GP、.MPEG標(biāo)注結(jié)果文件.ANN、.CSV、.JSON、.XML3.1文件的存儲(chǔ)方式1.文本文件是基于字符編碼方式存儲(chǔ)文件,每個(gè)字符對(duì)應(yīng)一個(gè)固定的編碼,順序流式存取,在任何操作系統(tǒng)下的解釋和編碼結(jié)果都是一致的,文本文件除了所包含的字符以外沒有任何其他信息。計(jì)算機(jī)中常用文本編碼類型有:ASCII、GB2312、Unicode、UTF-8等。2.二進(jìn)制文件是按二進(jìn)制的編碼方式來存放文件的。例如,數(shù)值123的存儲(chǔ)形式為:0000000001111011只占二個(gè)字節(jié)。二進(jìn)制文件雖然也可在屏幕上顯示,但其內(nèi)容無法讀懂。應(yīng)用程序在處理這些文件時(shí),并不區(qū)分類型,都看成是字符流,按字節(jié)進(jìn)行處理。輸入輸出字符流的開始和結(jié)束只由程序控制而不受物理符號(hào)(如回車符)的控制。因此也把這種文件稱作“流式文件”。3.2數(shù)據(jù)的編碼方式數(shù)據(jù)編碼方式是計(jì)算機(jī)處理數(shù)據(jù)的關(guān)鍵。由于計(jì)算機(jī)要處理的數(shù)據(jù)信息十分龐雜,有些數(shù)據(jù)所代表的含義又使人難以記憶。為了便于使用,容易記憶,常常要對(duì)需要加工處理的數(shù)據(jù)進(jìn)行編碼,用一個(gè)編碼代表一條信息或一串?dāng)?shù)據(jù)。對(duì)數(shù)據(jù)進(jìn)行編碼在計(jì)算機(jī)的管理中非常重要,可以方便地進(jìn)行數(shù)據(jù)搜集、分類、校核、統(tǒng)計(jì)、檢索、分析以及顯示等操作。人們可以利用編碼來識(shí)別每一個(gè)數(shù)據(jù),區(qū)分處理方法,進(jìn)行分類,從而克服項(xiàng)目參差不齊的缺點(diǎn),節(jié)省存儲(chǔ)空間,提高處理速度。為了方便計(jì)算機(jī)處理數(shù)據(jù),不同的數(shù)據(jù)信息采用不同的編碼方式,數(shù)據(jù)的編碼方式主要分為:字符編碼方式和其他編碼方式。3.2數(shù)據(jù)的編碼方式3.2.1字符編碼方式在計(jì)算機(jī)中,字符數(shù)據(jù)包括西文字符(字母、數(shù)字、各種符號(hào))和漢字字符。它們都是非數(shù)值型數(shù)據(jù),非數(shù)值數(shù)據(jù)不表示數(shù)量的多少,只表示有關(guān)符號(hào),和數(shù)值型數(shù)據(jù)一樣,也需用二進(jìn)制數(shù)進(jìn)行編碼才能存儲(chǔ)在計(jì)算機(jī)中并進(jìn)行處理。對(duì)于西文字符與漢字字符,由于形式的不同,使用的編碼方式也不同。下面主要介紹西文字符和漢字字符的編碼方法。1.西文字符編碼(ASCII)2.漢字編碼3.Unicode編碼4.UTF-8編碼

3.2數(shù)據(jù)的編碼方式3.2.2二進(jìn)制編碼方式計(jì)算機(jī)處理數(shù)據(jù)時(shí)除了字符編碼方式,其余的統(tǒng)一稱為其他編碼方式,也稱為二進(jìn)制編碼方式。字符編碼方式是定長(zhǎng)的,也有編碼的統(tǒng)一標(biāo)準(zhǔn);而二進(jìn)制編碼方式則是可變長(zhǎng)的編碼方式,每個(gè)字節(jié)代表什么完全由應(yīng)用軟件開發(fā)者決定的。上節(jié)提到的.bmp、.doc、.mp3、.avi等類型的文件都屬于二進(jìn)制編碼方式的文件。Windows中的記事本軟件支持文本文件而不支持二進(jìn)制編碼文件,所以上節(jié)提到的打開文件亂碼的原因就是使用記事本打開二進(jìn)制編碼文件造成的。因此如果要打開二進(jìn)制編碼的文件則需要專用的應(yīng)用程序來打開,并對(duì)其二進(jìn)制編碼進(jìn)行解碼,然后再顯示到屏幕上。

3.2數(shù)據(jù)的編碼方式3.2.3字符編碼方式和二進(jìn)制編碼方式比較字符編碼:

其主要特點(diǎn)是編碼定長(zhǎng),有統(tǒng)一的使用標(biāo)準(zhǔn),譯碼容易,可讀性強(qiáng),簡(jiǎn)單易懂,操作方便。二進(jìn)制編碼:

其主要特點(diǎn)是編碼可變長(zhǎng),使用靈活,存儲(chǔ)效率高,譯碼困難,可讀性差,保密性強(qiáng),需要相關(guān)聯(lián)的應(yīng)用軟件才可使用。3.3數(shù)據(jù)標(biāo)注必須了解的知識(shí)數(shù)據(jù)標(biāo)注是通過數(shù)據(jù)加工人員借助于標(biāo)記工具軟件,對(duì)人工智能學(xué)習(xí)數(shù)據(jù)進(jìn)行加工的一種行為。通常數(shù)據(jù)標(biāo)注的類型包括:文本標(biāo)注、語音標(biāo)注、圖像標(biāo)注、視頻標(biāo)注等四種類型。3.3.1文本標(biāo)注需要掌握的基礎(chǔ)知識(shí)1)NLP是什么?2)NLP如何處理自然語言?3)NLP解決的問題;4)NLP待解決的問題;5)NLP的應(yīng)用領(lǐng)域。3.3數(shù)據(jù)標(biāo)注必須了解的知識(shí)3.3.2文本標(biāo)注需要需要注意的問題1)充分了解語言學(xué);2)明確文本的用途;3)迭代式標(biāo)注;4)保持標(biāo)注的一致性;5)制定標(biāo)注規(guī)則;6)嚴(yán)格的審核制度3.3數(shù)據(jù)標(biāo)注必須了解的知識(shí)3.3.3常用的文本處理工具文本處理工具有很多種,比如:微軟開發(fā)的通用文本編輯器NotePad、NotePad++;支持HTML、多種語言、適合軟件開發(fā)者使用的EditPlus;打開JSON格式文件的JSONViewer;打開XML格式文件的XMLViewer;超大文本文件處理工具EmEditor、PilotEdit、LogViewer等,常用的支持中文的文本標(biāo)注工具京東眾智-Wise開放標(biāo)注平臺(tái)提供的實(shí)體提取及文章理解的標(biāo)注工具、BRAT,YEDDA,DeepDive等。3.3數(shù)據(jù)標(biāo)注必須了解的知識(shí)3.3.4語音標(biāo)注需要需要注意的問題語音標(biāo)注是指將聽到的音頻里說話的聲音轉(zhuǎn)寫出來,并適當(dāng)加上一些標(biāo)簽。其性質(zhì)有點(diǎn)像翻譯。翻譯是在準(zhǔn)確、通順、優(yōu)美的基礎(chǔ)上,把一種語言信息轉(zhuǎn)變成另一種語言信息的行為。翻譯也是一種將相對(duì)陌生的表達(dá)方式,轉(zhuǎn)換成相對(duì)熟悉的表達(dá)方式的過程。因此剛?cè)腴T語音標(biāo)注的用戶必須要了解一些與語音相關(guān)的基礎(chǔ)知識(shí)。關(guān)于語音的基礎(chǔ)知識(shí)關(guān)于聲學(xué)的基礎(chǔ)知識(shí)3.3數(shù)據(jù)標(biāo)注必須了解的知識(shí)語音標(biāo)注的主要內(nèi)容1)TTS(Text-to-Speech,語音合成),即“從文本到語音”,是人機(jī)對(duì)話的一部分,讓機(jī)器能夠說話。TTS中最主要的一個(gè)指標(biāo)就是自然度,也就是當(dāng)我們聽見機(jī)器跟我們說話的時(shí)候,能不能區(qū)分出來這個(gè)是人還是機(jī)器,目前在很多電話機(jī)器人上的使用很廣泛,而且?guī)缀跻呀?jīng)判斷不出來是機(jī)器人在和你講話。2)ASR(AutomaticSpeechRecognition,語音識(shí)別),是將聲音轉(zhuǎn)換為文字。ASR在中文領(lǐng)域有很大的難度,中文由于其語言博大精深,而且方言眾多,對(duì)于聲音轉(zhuǎn)換為文字具有很多不確定性。但是這也為我們提供了一個(gè)很大的發(fā)展機(jī)遇和想象的空間,其與NLP相結(jié)合來進(jìn)行應(yīng)用可以發(fā)揮出真正的威力。3.3數(shù)據(jù)標(biāo)注必須了解的知識(shí)3.3.5常用的語音處理工具語音處理工具主要包括能實(shí)現(xiàn)錄音、混音、剪輯等功能的軟件。Goldwave是一款音樂編輯軟件,體積小巧,操作簡(jiǎn)單。做為語音標(biāo)注轉(zhuǎn)錄的輔助工具有:迅捷文字語音轉(zhuǎn)換器,可以輕松實(shí)現(xiàn)語音轉(zhuǎn)文字,文字轉(zhuǎn)語音以及多國語言文本翻譯,1小時(shí)音頻5分鐘快速輸出文字內(nèi)容,文本文檔一鍵合成多音色語音。以及訊飛配音文字轉(zhuǎn)語音工具以及語音轉(zhuǎn)文字的輔助工具等。利用這些工具可以輔助項(xiàng)目,提高語音標(biāo)注的效率。3.3數(shù)據(jù)標(biāo)注必須了解的知識(shí)3.3.6圖像標(biāo)注需要掌握的基礎(chǔ)知識(shí)圖像標(biāo)注是最簡(jiǎn)單、最常用的數(shù)據(jù)標(biāo)注類型,主要包括:矩形拉框也稱為2D拉框、多邊形拉框、打點(diǎn)標(biāo)注、語義分割、點(diǎn)云拉框、VR打點(diǎn)標(biāo)注、OCR文本識(shí)別等項(xiàng)目,由于其直觀,容易上手,因此數(shù)據(jù)標(biāo)注的從業(yè)者一般是從圖像標(biāo)注開始了解數(shù)據(jù)標(biāo)注的。圖像標(biāo)注是為了讓計(jì)算機(jī)更好的識(shí)別圖像,就像從小家長(zhǎng)教孩子看圖識(shí)物一樣,圖像標(biāo)注就是用標(biāo)注好的圖像給計(jì)算機(jī),告訴其是什么,以及其表情等信息。通過不斷的強(qiáng)化監(jiān)督學(xué)習(xí),計(jì)算機(jī)就能夠根據(jù)未標(biāo)注的圖像描述出圖像內(nèi)容的自然語言語句,從而針對(duì)圖像進(jìn)行處理。圖像處理是指對(duì)圖像進(jìn)行采集、顯示、存儲(chǔ)、通信、處理和分析五個(gè)模塊。為了更好的做圖像標(biāo)注項(xiàng)目,必須要了解一些與圖像相關(guān)的基礎(chǔ)知識(shí)。3.3數(shù)據(jù)標(biāo)注必須了解的知識(shí)數(shù)字圖像數(shù)字圖像是以二進(jìn)制數(shù)字組形式表示的二維圖像。利用計(jì)算機(jī)圖形圖像技術(shù)以數(shù)字的方式來記錄、處理和保存圖像信息。在完成圖像信息數(shù)字化以后,整個(gè)數(shù)字圖像的輸入、處理與輸出的過程都可以在計(jì)算機(jī)中完成,它們具有電子數(shù)據(jù)文件的所有特性。通常把計(jì)算機(jī)圖形主要分為兩大類:位圖(bitmap)圖像和矢量(vector)圖形。3.3數(shù)據(jù)標(biāo)注必須了解的知識(shí)位圖位圖圖像是指使用圖片元素的矩形網(wǎng)格表現(xiàn)圖像。每個(gè)像素都分配有特定的位置和顏色值。在處理位圖圖像時(shí),人們所編輯的是像素。位圖圖像與分辨率有關(guān),其包含固定數(shù)量的像素。因此,如果在屏幕上以高縮放比率對(duì)它們進(jìn)行放大會(huì)呈現(xiàn)出鋸齒。3.3數(shù)據(jù)標(biāo)注必須了解的知識(shí)矢量圖形矢量圖形用一組指令集合來描述圖形的內(nèi)容,這些指令用來描述構(gòu)成該圖形的所有直線、圓、圓弧、矩形、曲線等圖元的位置、維數(shù)和形狀等。圖形分為二維圖形和三維圖形兩大類。在計(jì)算機(jī)上顯示圖形時(shí),首先需要使用專門的軟件讀取并解釋這些指令,然后將它們轉(zhuǎn)變成屏幕上顯示的形狀和顏色,最后通過使用實(shí)心的或者有等級(jí)深淺的單色或色彩填充一些區(qū)域而形成圖形。由于大多數(shù)情況下不用對(duì)圖像上的每個(gè)點(diǎn)進(jìn)行量化保存,所以需要的存儲(chǔ)量很少,但顯示時(shí)的計(jì)算時(shí)間較多。3.3數(shù)據(jù)標(biāo)注必須了解的知識(shí)3.3.7常用的圖像處理工具對(duì)已獲取的數(shù)字圖像資源往往不是直接使用,通常需要經(jīng)過圖像處理軟件的加工處理才能使用。能夠進(jìn)行數(shù)字圖像處理的軟件很多,如PhotoShop、PhotoShopStyler、ImageStar、MDK等,圖像處理工具BitEdit、PalEdit和Convert等。其中,PhotoShop是目前最常用的功能強(qiáng)大的圖像處理和設(shè)計(jì)工具軟件,它功能完善、性能穩(wěn)定、使用方便,成為眾多圖像處理軟件中的佼佼者。通過PhotoShop軟件學(xué)習(xí),不僅可以提高的圖片處理能力,同時(shí)也可以在處理圖片過程中學(xué)習(xí)軟件知識(shí),豐富了自己的學(xué)習(xí)生活。目前數(shù)據(jù)標(biāo)注行業(yè)在招聘專職標(biāo)注技術(shù)人員時(shí),對(duì)其運(yùn)用PhotoShop能力也十分重視。3.3數(shù)據(jù)標(biāo)注必須了解的知識(shí)3.3.8視頻標(biāo)注需要掌握的基礎(chǔ)知識(shí)視頻是由圖像連續(xù)播放組成的(1秒鐘的視頻包含25幀圖像,每1幀都是1張圖像)。因此,視頻標(biāo)注按照數(shù)據(jù)標(biāo)注的工作內(nèi)容來分類的話其實(shí)可以統(tǒng)一稱為圖像標(biāo)注。視頻標(biāo)注主要集中在關(guān)鍵幀圖象層,對(duì)整段視頻進(jìn)行的粗略的標(biāo)注,標(biāo)注的關(guān)鍵字僅包含類型信息。然而這種標(biāo)注顯然不能滿足視頻檢索的需要,還需要對(duì)視頻內(nèi)部的各個(gè)小段內(nèi)容進(jìn)行更精細(xì)的標(biāo)注。關(guān)鍵幀圖象層標(biāo)注首先通過鏡頭邊緣檢測(cè)把視頻切分成時(shí)間上連續(xù)的小段,再用關(guān)鍵幀提取算法從每段鏡頭中提取一幀圖象作為關(guān)鍵幀。最后基于提取出的關(guān)鍵幀,標(biāo)注一些關(guān)鍵字作為對(duì)此鏡頭內(nèi)容的描述。3.3數(shù)據(jù)標(biāo)注必須了解的知識(shí)1.視頻信息數(shù)字化2.視頻的壓縮3.視頻文件格式1)AVI格式2)MPEG格式3)WMV格式4)RMVB格式5)SWF格式6)FLV格式3.4常用的數(shù)據(jù)標(biāo)注工具3.4.1LabelImg圖像標(biāo)注工具LabelImg是一款圖像標(biāo)注工具。其主要的特點(diǎn)就是:操作簡(jiǎn)單、使用方便,打開圖片后,只需用鼠標(biāo)框出圖片中的目標(biāo),并選擇該目標(biāo)的類別,便可以自動(dòng)生成voc格式的xml文件。3.4常用的數(shù)據(jù)標(biāo)注工具3.4.2Labelme圖像標(biāo)注工具Labelme支持對(duì)圖像進(jìn)行多邊形、矩形、圓、折線、點(diǎn)、語義分割形式的標(biāo)注,可用于目標(biāo)檢測(cè),語義分割,圖像分類等任務(wù)。作為一款開源工具,labelme布局簡(jiǎn)單,圖形界面使用的是Qt(PyQt)??梢陨蒝OC格式和COCO格式的數(shù)據(jù)集,以JSON文件存儲(chǔ)標(biāo)注信息。3.4常用的數(shù)據(jù)標(biāo)注工具3.4.3支持多種類型的精靈標(biāo)注助手精靈標(biāo)注助手是國內(nèi)開發(fā)的一款客戶端標(biāo)注工具,這款工具支持文本、語音、圖像、視頻等多種類型的標(biāo)注??梢詫?shí)現(xiàn)圖像分類,矩形框,多邊形,曲線定位,3D定位、文本分類,文本實(shí)體標(biāo)注,視頻跟蹤等項(xiàng)目;提供可擴(kuò)展性插件設(shè)計(jì),通過插件形式支持自定義標(biāo)注,可根據(jù)具體需求開發(fā)不同的標(biāo)注形式;支持在Windows、Macos、Linux系統(tǒng)下的安裝,導(dǎo)出格式支持JSON以及PasalVoc的XML格式。3.4

常用的數(shù)據(jù)標(biāo)注工具3.4.4其他標(biāo)注工具介紹1.BRAT文本標(biāo)注工具2.Praat語音標(biāo)注工具3.VGG(VIA)標(biāo)注工具4.Labelbox在線標(biāo)注工具5.LabelHub協(xié)同在線標(biāo)注工具6.國內(nèi)標(biāo)注平臺(tái)提供的標(biāo)注工具3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件數(shù)據(jù)標(biāo)注結(jié)果導(dǎo)出的格式基本上為CSV、XML、JSON三種半結(jié)構(gòu)化的文本文件格式。3.5.1CSV文件格式CSV(Comma-SeparatedValues)逗號(hào)分隔值,其文件以純文本形式存儲(chǔ)表格數(shù)據(jù)(數(shù)字和文本),文件的每一行都是一個(gè)數(shù)據(jù)記錄。每個(gè)記錄由一個(gè)或多個(gè)字段組成,用逗號(hào)分隔。使用逗號(hào)作為字段分隔符是此文件格式的名稱的來源,因?yàn)榉指糇址部梢圆皇嵌禾?hào),有時(shí)也稱為字符分隔值。3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件CSV具體文件格式如下:①每條記錄占一行;②以逗號(hào)為分隔符;③逗號(hào)前后的空格會(huì)被忽略;④字段中包含有逗號(hào),該字段必須用雙引號(hào)括起來;⑤字段中包含有換行符,該字段必須用雙引號(hào)括起來;⑥字段前后包含有空格,該字段必須用雙引號(hào)括起來;⑦字段中的雙引號(hào)用兩個(gè)雙引號(hào)表示;⑧字段中如果有雙引號(hào),該字段必須用雙引號(hào)括起來;⑨第一條記錄,可以是字段名。3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件1.使用Python以列表方式打開CSV文件importcsvcsvfile=open('bzdata.csv','r')mycsvcontent=csv.reader(csvfile)forrowinmycsvcontent:print(row)2.使用Python以字典方式打開CSV文件importcsvcsvfile=open('bzdata.csv','r')mycsvcontent=csv.DictReader(csvfile)forrowinmycsvcontent:print(row)3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件3.5.2XML文件格式Xml即可擴(kuò)展標(biāo)記語言,是一種允許用戶對(duì)自己的標(biāo)記進(jìn)行定義的語言,可以用來標(biāo)記數(shù)據(jù)、定義數(shù)據(jù)類型。從結(jié)構(gòu)上,XML像是HTML超文本標(biāo)記語言。XML被設(shè)計(jì)用來傳輸和存儲(chǔ)數(shù)據(jù),可以用來標(biāo)記數(shù)據(jù)、定義數(shù)據(jù)類型。3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件1.XML文件格式XML由成對(duì)標(biāo)簽組成,標(biāo)簽可以有屬性、嵌入子標(biāo)簽,標(biāo)簽對(duì)可以嵌入數(shù)據(jù),XML文檔是一種樹狀結(jié)構(gòu),從根部開始,然后擴(kuò)展到樹枝、樹葉。第一行是XML聲明。它是定義XML的版本(1.0)和所有使用的編碼第二行是根元素(根節(jié)點(diǎn))第三行以后是子元素(子節(jié)點(diǎn))XML文檔必須包含根元素,該元素是所有其他元素的父元素2.XML語法規(guī)則①XML文檔必須有根元素,②XML文檔必須有關(guān)閉標(biāo)簽③XML標(biāo)簽對(duì)大小寫敏感④XML元素必須被正確的嵌套⑤XML屬性必須加引號(hào)3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件3.5.3JSON文件格式JSON(JavaScriptObjectNotation)采用完全獨(dú)立于語言的文本格式,是一種輕量級(jí)的數(shù)據(jù)交換格式。其可讀性、易于機(jī)器解析和生成的特點(diǎn),使JSON成為理想的數(shù)據(jù)交換語言。3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件1.JSON文件的組成Object是一個(gè)無序的“‘名稱/值'對(duì)”集合。一個(gè)對(duì)象以“{”開始,“}”結(jié)束。每個(gè)“名稱”后跟一個(gè)“:”(冒號(hào));“‘名稱/值'對(duì)”之間使用“,”分隔。Array是值(value)的有序集合。一個(gè)數(shù)組以“[”開始,“]”結(jié)束。值之間使用“,”分隔。值(value)可以是雙引號(hào)括起來的字符串(string)、數(shù)值(number)、true、false、null、對(duì)象(object)或者數(shù)組(array)。3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件2.使用Python解析JSON格式文件importjson#將json文件讀取成字符串jsonstring=open('C:/my.json').read()#對(duì)json數(shù)據(jù)解碼dict1=json.loads(jsonstring)#dict1的類型是字典dictprint(type(dict1))#直接打印dict1print(dict1)#輸出字典fork,vindict1.items():print(k+':'+str(v))3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件3.5.4數(shù)據(jù)標(biāo)注的輔助工具人工智能行業(yè)有一句讖言:有多少智能,就有多少人工。數(shù)據(jù)是人工智能賴以發(fā)展的基石,擁有高質(zhì)量、標(biāo)注好的數(shù)據(jù)將是人工智能高速發(fā)展的保障。數(shù)據(jù)標(biāo)注就是使用計(jì)算機(jī),按照客戶的執(zhí)行規(guī)范把各種各樣的原始數(shù)據(jù)進(jìn)行標(biāo)注,是個(gè)重復(fù)性很強(qiáng)的工作。在工作過程中經(jīng)常會(huì)遇到心情煩躁,影響到標(biāo)注的質(zhì)量。而人畢竟不是機(jī)器,總是會(huì)犯錯(cuò)的,這樣就經(jīng)常會(huì)想到能否使用計(jì)算機(jī)來代替人,自動(dòng)標(biāo)注數(shù)據(jù);在網(wǎng)上也會(huì)經(jīng)常看到所謂的使用腳本語言代替人工來自動(dòng)拉框,24小時(shí)不間斷工作的廣告。如果對(duì)數(shù)據(jù)標(biāo)注工作非常了解,仔細(xì)想想就能看出來這種所謂的“自動(dòng)標(biāo)注”都是騙人的。如果機(jī)器能自動(dòng)標(biāo)注了,就不會(huì)有數(shù)據(jù)標(biāo)注這個(gè)行業(yè)了。3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件1.數(shù)據(jù)標(biāo)注的輔助工具數(shù)據(jù)自動(dòng)標(biāo)注是每個(gè)數(shù)據(jù)標(biāo)注員心中期盼的目標(biāo),但畢竟那是未來的理想,回到現(xiàn)實(shí)中后靜下來想想,其實(shí)數(shù)據(jù)標(biāo)注整個(gè)環(huán)節(jié)中,有很多地方我們可以去改進(jìn)的,比如:當(dāng)我們做語音標(biāo)注時(shí),可以借助于科大訊飛的語音轉(zhuǎn)文本的工具,先識(shí)別一下,然后再進(jìn)行校對(duì)修改;在做OCR手寫體識(shí)別時(shí),也可以借助于OCR識(shí)別工具;其中常用的一些特殊符號(hào),為了提高工作效率,可以編寫一些小程序來輔助快速標(biāo)注,提高工作效率。對(duì)常見的圖形拉框工具,為了避免人為失誤造成的數(shù)據(jù)標(biāo)注的低級(jí)錯(cuò)誤,可以使用Python編寫初檢小程序,針對(duì)規(guī)則進(jìn)行自動(dòng)檢測(cè),以避免初級(jí)錯(cuò)誤的發(fā)生,提高標(biāo)注質(zhì)量。3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件2.正確認(rèn)知數(shù)據(jù)標(biāo)注行業(yè)人工智能是讓機(jī)器部分替代人的認(rèn)知功能?;叵胍幌挛覀兪侨绾螌W(xué)習(xí)成長(zhǎng)的,其實(shí)人工智能也要經(jīng)歷這些發(fā)展階段。所謂的“自動(dòng)標(biāo)注”,其實(shí)是指機(jī)器通過一定算法模型,認(rèn)識(shí)了標(biāo)注的圖片數(shù)據(jù)。這樣就不用再去標(biāo)注這些圖片了,一個(gè)人在成長(zhǎng)的過程中,需要學(xué)的東西太多太多了,因此需要大量數(shù)據(jù)標(biāo)注員從事相關(guān)部分的工作以滿足人工智能訓(xùn)練數(shù)據(jù)的需求。

隨著今后標(biāo)注工具的不斷優(yōu)化,標(biāo)注人員會(huì)在智能化輔助工具的幫助下減少大量重復(fù)性的工作,未來單純依靠人工的純手工標(biāo)注工作會(huì)大大減少,與此相對(duì)數(shù)據(jù)標(biāo)注工作的門檻會(huì)提高,不再是簡(jiǎn)單、重復(fù)的工作,而是需要對(duì)大數(shù)據(jù)、對(duì)人工智能領(lǐng)域有著相當(dāng)程度了解的專業(yè)性人才。未來數(shù)據(jù)標(biāo)注會(huì)成為人工智能行業(yè)中一個(gè)非常重要的工作,對(duì)從業(yè)人員的較高要求也會(huì)使從事數(shù)據(jù)標(biāo)注的人員出現(xiàn)供不應(yīng)求的現(xiàn)象。謝謝!數(shù)據(jù)標(biāo)注實(shí)用教程第四章:數(shù)據(jù)標(biāo)注員的職業(yè)素養(yǎng)內(nèi)容4.1數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的管理4.2數(shù)據(jù)標(biāo)注規(guī)則的重要性4.3數(shù)據(jù)標(biāo)注的質(zhì)檢4.4數(shù)據(jù)標(biāo)注員需要具備的職業(yè)素養(yǎng)第四章:數(shù)據(jù)標(biāo)注員的職業(yè)素養(yǎng)4.5數(shù)據(jù)標(biāo)注所需職業(yè)素養(yǎng)的培養(yǎng)內(nèi)容4.1.1數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的基礎(chǔ)架構(gòu)4.1.2數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的培訓(xùn)體系4.3數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的管理4.1數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的管理4.1.1數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的基礎(chǔ)架構(gòu)數(shù)據(jù)標(biāo)注團(tuán)隊(duì)類型1)初創(chuàng)型的工作室2)成熟型的數(shù)據(jù)標(biāo)注公司3)綜合型的數(shù)據(jù)標(biāo)注團(tuán)隊(duì)每種團(tuán)隊(duì)都需要的角色1)數(shù)據(jù)標(biāo)注員2)質(zhì)檢員3)項(xiàng)目負(fù)責(zé)人4.1.2數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的培訓(xùn)體系完整的數(shù)據(jù)標(biāo)注培訓(xùn)體系通過三個(gè)維度對(duì)數(shù)據(jù)標(biāo)注員進(jìn)行培養(yǎng)。(1)建立嚴(yán)格的培訓(xùn)流程,包括了解目標(biāo)-學(xué)習(xí)規(guī)則-線上培訓(xùn)、錄像學(xué)習(xí)-實(shí)際場(chǎng)景練習(xí)-達(dá)標(biāo)考試-進(jìn)行工作-糾錯(cuò)講解、改錯(cuò)等。(2)有完善的職稱等級(jí)制度,分為素材收集員、專家、高級(jí)專家、講師。(3)設(shè)立激勵(lì)制度,數(shù)據(jù)標(biāo)注員的收益和職稱等級(jí)相關(guān)。京東眾智表示通過這套數(shù)據(jù)標(biāo)注培訓(xùn)體系的學(xué)習(xí)和訓(xùn)練,普通人可以快速成為數(shù)據(jù)標(biāo)注員。但是數(shù)據(jù)標(biāo)注公司在對(duì)數(shù)據(jù)標(biāo)注員和質(zhì)檢員進(jìn)行實(shí)際培訓(xùn)時(shí),往往需要花費(fèi)一些精力。根據(jù)標(biāo)注規(guī)則的改進(jìn)不斷進(jìn)行培訓(xùn),提高數(shù)據(jù)標(biāo)注員的標(biāo)注能力,從而提高數(shù)據(jù)標(biāo)注的正確率。在國內(nèi)推動(dòng)數(shù)據(jù)標(biāo)注行業(yè)職業(yè)化方面,鄭州點(diǎn)我科技有限公司有多年的行業(yè)經(jīng)驗(yàn),在大數(shù)據(jù)處理領(lǐng)域有豐富的實(shí)踐閱歷,擁有成熟的技術(shù)能力和一套完善的業(yè)務(wù)培訓(xùn)系統(tǒng),并一直踐行企業(yè)責(zé)任,努力推進(jìn)行業(yè)向職業(yè)化、專業(yè)化發(fā)展。鄭州點(diǎn)我科技有限公司把數(shù)據(jù)標(biāo)注員劃分為初、中、高級(jí)3個(gè)等級(jí)。4.1.2數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的培訓(xùn)體系1)初級(jí)數(shù)據(jù)標(biāo)注員初級(jí)數(shù)據(jù)標(biāo)注員需要具備一定的職業(yè)道德,數(shù)據(jù)標(biāo)注員需要接觸大量數(shù)據(jù),有些可能涉及公民信息等較為敏感的數(shù)據(jù)。這就需要數(shù)據(jù)標(biāo)注員對(duì)所處理數(shù)據(jù)做到保密,不外傳,對(duì)工作中涉及的技術(shù)標(biāo)準(zhǔn)嚴(yán)格執(zhí)行,保護(hù)數(shù)據(jù)的完整性和一致性等。初級(jí)數(shù)據(jù)標(biāo)注員的行業(yè)基礎(chǔ)知識(shí)要求:具備簡(jiǎn)單的人工智能相關(guān)知識(shí)、大數(shù)據(jù)處理相關(guān)知識(shí),熟悉數(shù)據(jù)標(biāo)注的使用范圍及形式。初級(jí)數(shù)據(jù)標(biāo)注員的基礎(chǔ)業(yè)務(wù)能力要求:數(shù)據(jù)標(biāo)注類型比較多樣,包括2D圖片標(biāo)注、文字標(biāo)注、圖片采集、語音標(biāo)注等,需要數(shù)據(jù)標(biāo)注員熟悉標(biāo)注類型并且可以熟練掌握各種數(shù)據(jù)標(biāo)注工具。2)中級(jí)數(shù)據(jù)標(biāo)注員中級(jí)數(shù)據(jù)標(biāo)注員需要具備較高的職業(yè)道德和一定的從業(yè)經(jīng)驗(yàn),并有半年以上相關(guān)從業(yè)經(jīng)歷。中級(jí)數(shù)據(jù)標(biāo)注員的業(yè)務(wù)能力和責(zé)任心要求:除了一些初級(jí)標(biāo)注員需要做的數(shù)據(jù)標(biāo)注類型,中級(jí)數(shù)據(jù)標(biāo)注員需要掌握更為復(fù)雜的數(shù)據(jù)標(biāo)注類型,如3D立體標(biāo)注、3D點(diǎn)云標(biāo)注、視頻軌跡、語義分割等,同時(shí)中級(jí)數(shù)據(jù)標(biāo)注員需要具備一定的責(zé)任心,降低返工率。中級(jí)數(shù)據(jù)標(biāo)注員的質(zhì)檢能力要求:中級(jí)數(shù)據(jù)標(biāo)注員經(jīng)過一定階段培訓(xùn)考取資格證,不僅可以做一些更加專業(yè)的數(shù)據(jù)標(biāo)注,還可以對(duì)初級(jí)質(zhì)檢員標(biāo)注數(shù)據(jù)進(jìn)行簡(jiǎn)單的質(zhì)檢。3)高級(jí)數(shù)據(jù)標(biāo)注員高級(jí)數(shù)據(jù)標(biāo)注員的管理能力方面要求:需要達(dá)到對(duì)中級(jí)數(shù)據(jù)標(biāo)注員的所有要求,并有一年以上相關(guān)從業(yè)經(jīng)歷,可以對(duì)數(shù)據(jù)標(biāo)注團(tuán)隊(duì)進(jìn)行管理,總結(jié)數(shù)據(jù)標(biāo)注經(jīng)驗(yàn)并對(duì)數(shù)據(jù)標(biāo)注員進(jìn)行培訓(xùn)。高級(jí)數(shù)據(jù)標(biāo)注員對(duì)數(shù)據(jù)標(biāo)注各項(xiàng)流程要求:業(yè)務(wù)能力要求較高,所有類型數(shù)據(jù)標(biāo)注準(zhǔn)確率98%以上,并具備一定的質(zhì)檢審核能力,對(duì)所有業(yè)務(wù)高度熟練,能獨(dú)立完成各類業(yè)務(wù)的示范模板和操作培訓(xùn)。4.1.2數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的培訓(xùn)體系:數(shù)據(jù)標(biāo)注員質(zhì)量提升計(jì)劃表4-1數(shù)據(jù)標(biāo)注員質(zhì)量提升計(jì)劃4.1.2數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的培訓(xùn)體系:質(zhì)檢員質(zhì)量提升計(jì)劃表4-2質(zhì)檢員質(zhì)量提升計(jì)劃4.1.3數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的管理1.?dāng)?shù)據(jù)質(zhì)量管理體系數(shù)據(jù)質(zhì)量管理體系需要明確的組織機(jī)構(gòu),實(shí)行專人負(fù)責(zé),各司其職。一般來說,應(yīng)當(dāng)有扮演如下角色的人員:(1)負(fù)責(zé)領(lǐng)導(dǎo)、監(jiān)督和維護(hù)整個(gè)數(shù)據(jù)質(zhì)量管理體系的管理者代表;(2)負(fù)責(zé)在技術(shù)層面具體設(shè)計(jì)規(guī)則和流程、參與開發(fā)、評(píng)估和改進(jìn)數(shù)據(jù)集質(zhì)量的研究者;(3)負(fù)責(zé)提供數(shù)據(jù)標(biāo)注參考標(biāo)準(zhǔn)、控制數(shù)據(jù)標(biāo)注質(zhì)量的數(shù)據(jù)標(biāo)注員;(4)負(fù)責(zé)對(duì)數(shù)據(jù)質(zhì)量管理體系進(jìn)行內(nèi)部審查、對(duì)數(shù)據(jù)質(zhì)量問題開展糾正和預(yù)防措施的審查員;(5)負(fù)責(zé)在數(shù)據(jù)入庫前進(jìn)行確認(rèn)。2.?dāng)?shù)據(jù)標(biāo)注團(tuán)隊(duì)管理的作用對(duì)數(shù)據(jù)標(biāo)注進(jìn)行管理,可以使數(shù)據(jù)標(biāo)注流程更為規(guī)范化,降低錯(cuò)誤率和返工率。數(shù)據(jù)標(biāo)注行業(yè)是新興行業(yè),在初期需要建立一套規(guī)范化流程體系,對(duì)整個(gè)行業(yè)的發(fā)展都有促進(jìn)作用。數(shù)據(jù)標(biāo)注團(tuán)隊(duì)管理有以下幾個(gè)作用。1)規(guī)則化管理有利于企業(yè)效率的提升2)制度化管理有利于人才的培養(yǎng)3)規(guī)范化管理有助于數(shù)據(jù)的保密內(nèi)容4.2.1數(shù)據(jù)標(biāo)注規(guī)則

4.2.2數(shù)據(jù)標(biāo)注規(guī)則的特點(diǎn)

4.2.3數(shù)據(jù)標(biāo)注規(guī)則需要雙方溝通

4.2數(shù)據(jù)標(biāo)注規(guī)則的重要性4.2.4數(shù)據(jù)標(biāo)注規(guī)則需要標(biāo)注員不斷學(xué)習(xí)

4.2.1數(shù)據(jù)標(biāo)注規(guī)則數(shù)據(jù)標(biāo)注規(guī)則是指為了完成數(shù)據(jù)標(biāo)注項(xiàng)目,滿足需求公司要求,根據(jù)項(xiàng)目類型的不同而制定的供數(shù)據(jù)標(biāo)注員共同遵守的規(guī)則。目前數(shù)據(jù)標(biāo)注有3種常用的分類方法:(1)根據(jù)數(shù)據(jù)標(biāo)注對(duì)象不同,數(shù)據(jù)標(biāo)注可分為文本標(biāo)注、語音標(biāo)注、圖像標(biāo)注和視頻標(biāo)注;(2)根據(jù)數(shù)據(jù)標(biāo)注的構(gòu)成形式不同,數(shù)據(jù)標(biāo)注可分為結(jié)構(gòu)化標(biāo)注、非結(jié)構(gòu)化標(biāo)注和半結(jié)構(gòu)化標(biāo)注;(3)根據(jù)數(shù)據(jù)標(biāo)注者類型不同,數(shù)據(jù)標(biāo)注可分為人工標(biāo)注和機(jī)器標(biāo)注。在實(shí)際工作中,常按照數(shù)據(jù)標(biāo)注對(duì)象不同對(duì)數(shù)據(jù)標(biāo)注進(jìn)行分類。4.2.2數(shù)據(jù)標(biāo)注規(guī)則的特點(diǎn)1.?dāng)?shù)據(jù)標(biāo)注規(guī)則需要一致數(shù)據(jù)標(biāo)注規(guī)則的一致性是數(shù)據(jù)標(biāo)注的必要條件。數(shù)據(jù)標(biāo)注規(guī)則可以復(fù)雜,但只能有一個(gè)。數(shù)據(jù)標(biāo)注規(guī)則可以演進(jìn),只要保證一致性,向前向后兼容就容易保障。需求公司根據(jù)需求提供完整的數(shù)據(jù)標(biāo)注規(guī)則,保證數(shù)據(jù)標(biāo)注員可以在數(shù)據(jù)標(biāo)注過程中邊界清晰。一份清晰明確的數(shù)據(jù)標(biāo)注規(guī)則,可以讓數(shù)據(jù)標(biāo)注公司將數(shù)據(jù)標(biāo)注任務(wù)劃分為流水線,讓每個(gè)數(shù)據(jù)標(biāo)注員只負(fù)責(zé)一件事,提高工作效率的同時(shí)也讓數(shù)據(jù)標(biāo)注流程得到更精細(xì)的控制。2.?dāng)?shù)據(jù)標(biāo)注規(guī)則需要完善需求方對(duì)某項(xiàng)產(chǎn)品研發(fā)時(shí)設(shè)定了一個(gè)大致的數(shù)據(jù)標(biāo)注規(guī)則,數(shù)據(jù)標(biāo)注團(tuán)隊(duì)和數(shù)據(jù)標(biāo)注員在數(shù)據(jù)標(biāo)注過程中遇到問題需要反饋給需求方,側(cè)面輔助需求方不斷完善數(shù)據(jù)標(biāo)注規(guī)則。數(shù)據(jù)標(biāo)注規(guī)則不斷進(jìn)行完善和細(xì)化對(duì)數(shù)據(jù)標(biāo)注生產(chǎn)的效率也有很大的影響,提前對(duì)數(shù)據(jù)標(biāo)注規(guī)則進(jìn)行細(xì)化,運(yùn)用在實(shí)際數(shù)據(jù)標(biāo)注過程中,可以提高數(shù)據(jù)標(biāo)注質(zhì)量。例如,有些項(xiàng)目場(chǎng)景復(fù)雜且主觀判斷元素多,數(shù)據(jù)標(biāo)注員對(duì)于場(chǎng)景的判斷非常有限,只能是對(duì)數(shù)據(jù)先進(jìn)行標(biāo)注,然后不斷地發(fā)現(xiàn)問題,改進(jìn)數(shù)據(jù)標(biāo)注規(guī)則并解決問題,最終達(dá)到預(yù)期結(jié)果。在完善數(shù)據(jù)標(biāo)注規(guī)則時(shí)需要遵循需求方優(yōu)先原則和質(zhì)檢優(yōu)先規(guī)則。4.2.3數(shù)據(jù)標(biāo)注規(guī)則需要雙方溝通良好的溝通是數(shù)據(jù)標(biāo)注行業(yè)中最重要的一環(huán)。在數(shù)據(jù)標(biāo)注工作中,一個(gè)人很難完成整個(gè)項(xiàng)目,數(shù)據(jù)標(biāo)注員需要與質(zhì)檢員、需求方進(jìn)行交流合作,才能夠順利完成項(xiàng)目。數(shù)據(jù)標(biāo)注團(tuán)隊(duì)和需求方也需要經(jīng)常溝通,積極溝通可以省去重復(fù)、返工等低效行為。相反地,不良的溝通會(huì)增加數(shù)據(jù)標(biāo)注團(tuán)隊(duì)在標(biāo)注的各個(gè)環(huán)節(jié)上的成本。這就要求需求方和數(shù)據(jù)標(biāo)注團(tuán)隊(duì)相互配合,一方面需要數(shù)據(jù)標(biāo)注團(tuán)隊(duì)快速反饋問題,根據(jù)數(shù)據(jù)標(biāo)注員反饋的問題及時(shí)總結(jié),向需求方進(jìn)行反饋,并且可以根據(jù)需求方的回饋內(nèi)容,對(duì)數(shù)據(jù)標(biāo)注員進(jìn)行再培訓(xùn)教育,降低出錯(cuò)率;另一方面,需求方根據(jù)數(shù)據(jù)標(biāo)注團(tuán)隊(duì)上報(bào)的內(nèi)容進(jìn)行回應(yīng),由專門負(fù)責(zé)人對(duì)此項(xiàng)目進(jìn)行對(duì)接,可以大大縮短完成項(xiàng)目數(shù)據(jù)標(biāo)注任務(wù)的時(shí)間。掌握低成本的溝通技巧、了解如何有效地傳遞信息能提高工作效率,而積極地獲取信息更會(huì)提高自身的競(jìng)爭(zhēng)優(yōu)勢(shì)。4.2.4數(shù)據(jù)標(biāo)注規(guī)則需要數(shù)據(jù)標(biāo)注員不斷學(xué)習(xí)不同的數(shù)據(jù)標(biāo)注項(xiàng)目對(duì)數(shù)據(jù)標(biāo)注員的要求也不一樣,對(duì)于一些數(shù)據(jù)標(biāo)注規(guī)則簡(jiǎn)單且數(shù)據(jù)量比較大的數(shù)據(jù)標(biāo)注項(xiàng)目,數(shù)據(jù)標(biāo)注員只需要掌握數(shù)據(jù)標(biāo)注規(guī)則,按照數(shù)據(jù)標(biāo)注規(guī)則對(duì)數(shù)據(jù)進(jìn)行標(biāo)注即可。但是對(duì)于一些需要專業(yè)背景的數(shù)據(jù)標(biāo)注項(xiàng)目,例如在進(jìn)行醫(yī)療數(shù)據(jù)標(biāo)注時(shí),數(shù)據(jù)標(biāo)注員需要做醫(yī)療圖像的分割,把腫瘤區(qū)域標(biāo)注出來,這樣的工作就需要專業(yè)的醫(yī)生才能完成。數(shù)據(jù)標(biāo)注項(xiàng)目的類型有很多,有難有易,但是只要掌握好數(shù)據(jù)標(biāo)注規(guī)則,不斷進(jìn)行學(xué)習(xí),就無懼挑戰(zhàn)。因此無論對(duì)數(shù)據(jù)標(biāo)注員還是質(zhì)檢員來講,掌握好數(shù)據(jù)標(biāo)注規(guī)則才是核心。數(shù)據(jù)標(biāo)注規(guī)則有很多,數(shù)據(jù)標(biāo)注員不僅需要理解貫通,還需要牢記心中??焖僬莆諗?shù)據(jù)標(biāo)注規(guī)則是數(shù)據(jù)標(biāo)注員所具備的一項(xiàng)重要技能,理解數(shù)據(jù)標(biāo)注規(guī)則的內(nèi)容可以提高數(shù)據(jù)標(biāo)注效率,高質(zhì)量、高水平的完成數(shù)據(jù)標(biāo)注工作。數(shù)據(jù)標(biāo)注規(guī)則并不是一成不變的,數(shù)據(jù)標(biāo)注員需要根據(jù)需求方的要求進(jìn)行相應(yīng)的修改。理解數(shù)據(jù)標(biāo)注規(guī)則可以幫助數(shù)據(jù)標(biāo)注團(tuán)隊(duì)降低成本,提高數(shù)據(jù)標(biāo)注員的工作效率。因此“規(guī)則不明,返工常態(tài)”這句話充分說明了數(shù)據(jù)標(biāo)注規(guī)則的重要性。無論是對(duì)數(shù)據(jù)標(biāo)注員還是需求方,一個(gè)清晰、準(zhǔn)確、規(guī)范化的數(shù)據(jù)標(biāo)注規(guī)則是很重要的,數(shù)據(jù)標(biāo)注也堅(jiān)持“質(zhì)量為先,規(guī)則為王”。在大數(shù)據(jù)和人工智能時(shí)代,低質(zhì)量的數(shù)據(jù)標(biāo)注可能導(dǎo)致算法運(yùn)行時(shí)出現(xiàn)致命問題。內(nèi)容4.3.1數(shù)據(jù)標(biāo)注質(zhì)檢的重要性4.3.2常見的數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)分類4.3數(shù)據(jù)標(biāo)注的質(zhì)檢4.3.1數(shù)據(jù)標(biāo)注質(zhì)檢的重要性圖4-1數(shù)據(jù)標(biāo)注質(zhì)檢流程需要指出的是,在人工質(zhì)檢階段,要求質(zhì)檢員對(duì)每一條數(shù)據(jù)做到逐一質(zhì)檢,不放過任何一條數(shù)據(jù)。而在交叉抽檢階段,任何一條數(shù)據(jù)不匹配都將會(huì)進(jìn)行重新標(biāo)注提交。質(zhì)檢員的作用主要是提高數(shù)據(jù)標(biāo)注質(zhì)量保證合格率和評(píng)判數(shù)據(jù)標(biāo)注員的能力。4.3.2常見的數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)分類常見的數(shù)據(jù)標(biāo)注類型包括文本標(biāo)注、語音標(biāo)注、圖像標(biāo)注、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論