版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)標(biāo)注實用教程第1章數(shù)據(jù)標(biāo)注概述第2章數(shù)據(jù)的來龍去脈第3章數(shù)據(jù)標(biāo)注基礎(chǔ)知識第4章數(shù)據(jù)標(biāo)注員的職業(yè)素養(yǎng)第5章數(shù)據(jù)標(biāo)注實戰(zhàn)全套PPT課件數(shù)據(jù)標(biāo)注實用教程第一章數(shù)據(jù)標(biāo)注概述內(nèi)容1.1數(shù)據(jù)標(biāo)注發(fā)展簡史1.2數(shù)據(jù)標(biāo)注定義及分類1.3數(shù)據(jù)標(biāo)注的應(yīng)用領(lǐng)域1.4數(shù)據(jù)標(biāo)注行業(yè)的運行模式1.5數(shù)據(jù)標(biāo)注行業(yè)未來發(fā)展趨勢及挑戰(zhàn)1.1數(shù)據(jù)標(biāo)注發(fā)展簡史1.1.1數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展人工智能發(fā)展史人工智能的概念在上世紀(jì)五六十年代被正式提出圖靈測試1956年在達(dá)特茅斯會議上首度提出“人工智能(AI)”概念,被譽為“人工智能的起點”從“圖1?1人工智能發(fā)展簡史”時間軸上可以看到人工智能的發(fā)展經(jīng)歷了起起伏伏,從理論到實踐,從初期在現(xiàn)實應(yīng)用環(huán)境中使用效果不佳,到通過技術(shù)的突破,實現(xiàn)存儲能力、計算能力的大幅提升的過程1.1數(shù)據(jù)標(biāo)注發(fā)展簡史數(shù)據(jù)標(biāo)注的起源2007年,斯坦福大學(xué)教授李飛飛等人開始啟動ImageNet項目數(shù)據(jù)標(biāo)注的概念:標(biāo)注是對未處理的初級數(shù)據(jù),包括語音、圖片、文本、視頻等進行加工處理,并轉(zhuǎn)換為機器可識別信息的過程。人工智能算法與數(shù)據(jù)標(biāo)注之間的關(guān)系強人工智能vs弱人工智能深度學(xué)習(xí)是人工智能目前的一個重要研究領(lǐng)域,其主要有四種方式:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)。監(jiān)督學(xué)習(xí)是當(dāng)前人工智能的研究重點1.1數(shù)據(jù)標(biāo)注發(fā)展簡史1.1.2國內(nèi)數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展現(xiàn)狀數(shù)據(jù)標(biāo)注行業(yè)近幾年發(fā)展迅猛,要求越來越高。市場端預(yù)計2025年市場規(guī)模將突破100億元人民幣對標(biāo)注數(shù)據(jù)的需求量會更大,數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展前景是十分向好的人工智能算法與數(shù)據(jù)標(biāo)注之間的關(guān)系目前數(shù)據(jù)標(biāo)注需求量最大的五座城市分別是:北京、成都、杭州、上海、深圳供應(yīng)商端分為三大類:平臺數(shù)據(jù)供應(yīng)商、中小數(shù)據(jù)供應(yīng)商、需求方自建團隊從供應(yīng)商的發(fā)展來看,行業(yè)內(nèi)部處于“洗牌”階段1.2數(shù)據(jù)標(biāo)注定義及分類1.2.1什么是數(shù)據(jù)標(biāo)注數(shù)據(jù)標(biāo)注(DataAnnotation)是對文本、圖像、語音、視頻等待標(biāo)注數(shù)據(jù)進行歸類、整理、編輯、糾錯、標(biāo)記和批注等加工操作,為待標(biāo)注數(shù)據(jù)增加標(biāo)簽,生成滿足機器學(xué)習(xí)訓(xùn)練要求的機器可讀數(shù)據(jù)編碼的工作標(biāo)簽(Label)標(biāo)注任務(wù)(AnnotationTask)數(shù)據(jù)標(biāo)注員(datalabeler)標(biāo)注工具(annotationtool)1.2數(shù)據(jù)標(biāo)注定義及分類1.2.2數(shù)據(jù)標(biāo)注的工作特點數(shù)據(jù)標(biāo)注工作特點是由數(shù)據(jù)標(biāo)注項目的特點決定的,而且需要根據(jù)效果不斷進行需求調(diào)整。需具備以下能力:可遷移學(xué)習(xí)能力重復(fù)標(biāo)記能力細(xì)心專注能力總結(jié)提煉能力1.2數(shù)據(jù)標(biāo)注定義及分類1.2.3數(shù)據(jù)標(biāo)注的基本流程包括4個環(huán)節(jié):數(shù)據(jù)采集:首要環(huán)節(jié),來源于提出標(biāo)注需求的人工智能公司。常通過互聯(lián)網(wǎng)獲取公開的數(shù)據(jù)集與專業(yè)數(shù)據(jù)集。數(shù)據(jù)清洗:重要的環(huán)節(jié),對數(shù)據(jù)進行篩檢,去重,并對數(shù)據(jù)集中存在的異常值與缺失值進行查缺補漏,同時平滑噪聲數(shù)據(jù),最大限度糾正數(shù)據(jù)的不一致行和不完整性。數(shù)據(jù)標(biāo)注:由標(biāo)注員負(fù)責(zé)標(biāo)注數(shù)據(jù),可采用分類標(biāo)注、標(biāo)框標(biāo)注、區(qū)域標(biāo)注、描點標(biāo)注或其他標(biāo)注方法進行。數(shù)據(jù)質(zhì)檢:關(guān)鍵環(huán)節(jié),常見的控制質(zhì)量方法:多人驗證、埋題驗證、標(biāo)注人員狀態(tài)驗證、機器驗證1.2數(shù)據(jù)標(biāo)注定義及分類1.2.4數(shù)據(jù)標(biāo)注的分類常根據(jù)待標(biāo)數(shù)據(jù)類型進行分類:文本標(biāo)注:主要是用于自然語言處理(NaturalLanguageProcessing,NLP),如:客服行業(yè)、金融行業(yè)、醫(yī)療行業(yè)等。其標(biāo)注方式有:分詞標(biāo)注、詞性標(biāo)注、情感標(biāo)注、意圖識別、實體標(biāo)注等。音頻標(biāo)注:主要用于語音識別(AutomaticSpeechRecognition,ASR)和語音合成(Text-To-Speech,TTS),ASR技術(shù)主要是將聲音轉(zhuǎn)成文字,而TTS技術(shù)主要是將文字轉(zhuǎn)化為聲音。目前較常見的應(yīng)用場景有智能客服、電話機器人、蘋果手機的Siri等。音頻標(biāo)注方式有語音轉(zhuǎn)寫、語音情感標(biāo)注等。1.2數(shù)據(jù)標(biāo)注定義及分類圖像標(biāo)注:主要給計算機視覺相關(guān)的算法提供數(shù)據(jù)集,日常能了解到的場景如人臉識別、自動駕駛、車牌識別以及目前比較火的醫(yī)療影像的識別等都會用到圖像標(biāo)注。標(biāo)注方式有矩形框標(biāo)注、多邊形拉框、打點、OCR識別、語義分割、圖片審核分類等。視頻標(biāo)注:主要是通過對視頻取幀后進行圖片標(biāo)注,然后再進行合成訓(xùn)練。例如:監(jiān)控視頻、自動駕駛、智慧交通等。其標(biāo)注方法基本和圖片標(biāo)注一致。這4種數(shù)據(jù)標(biāo)注分類方法的概念和優(yōu)缺點詳見“表1?2數(shù)據(jù)標(biāo)注分類比較”。1.3數(shù)據(jù)標(biāo)注的應(yīng)用領(lǐng)域盡量理解標(biāo)注數(shù)據(jù)的應(yīng)用場景,對于標(biāo)注質(zhì)量有重要意義出行領(lǐng)域:常見的標(biāo)注方式有:點標(biāo)注、線標(biāo)注、框標(biāo)注、3D點云標(biāo)注、場景語義分割、PoI(PointofInterest)標(biāo)注等。安防領(lǐng)域:政府層面多。人臉標(biāo)注、視頻分割、語音采集、行人標(biāo)注等是重要的數(shù)據(jù)標(biāo)注應(yīng)用。金融領(lǐng)域:文字翻譯、語義分析、語義轉(zhuǎn)錄、圖像標(biāo)注等都會得到很廣泛的應(yīng)用。電子商務(wù)領(lǐng)域:能進一步深度挖掘數(shù)據(jù)集,通過互聯(lián)網(wǎng)搜索指定內(nèi)容的搜索完善、通過語句的情感判斷、意圖判斷、糾錯、以及語言的采集、標(biāo)注等均為重要的數(shù)據(jù)應(yīng)用。公共服務(wù)領(lǐng)域:檢查內(nèi)容是否符合要求的內(nèi)容審核,對具有相同意義的語句進行歸類的語義分析、意圖識別、語音轉(zhuǎn)錄,以及視頻審核、文本審核等都是數(shù)據(jù)標(biāo)注常見的應(yīng)用領(lǐng)域。1.4數(shù)據(jù)標(biāo)注行業(yè)的運行模式1.4.1數(shù)據(jù)標(biāo)注的特點標(biāo)注內(nèi)容最小顆粒度:項目標(biāo)注數(shù)量大標(biāo)注需求迭代快1.4.2數(shù)據(jù)標(biāo)注在人工智能中的地位數(shù)據(jù)標(biāo)注為人工智能公司提供了大量的帶有標(biāo)簽的結(jié)構(gòu)化數(shù)據(jù)集,供機器進行訓(xùn)練和學(xué)習(xí),保證算法模型的有效性。而數(shù)據(jù)標(biāo)注的準(zhǔn)確性決定了人工智能的有效性,因此在目前階段數(shù)據(jù)標(biāo)注在人工智能中還占據(jù)著非常重要的角色,而且在未來一段時間依然非常重要。1.4.3數(shù)據(jù)標(biāo)注運行模式如圖1?5所示??梢詤⒖糚M項目管理.。1.5數(shù)據(jù)標(biāo)注行業(yè)未來發(fā)展趨勢及挑戰(zhàn)具前瞻性的數(shù)據(jù)集產(chǎn)品和高度定制化數(shù)據(jù)服務(wù)將成為數(shù)據(jù)標(biāo)注行業(yè)發(fā)展的主流。1.5.1數(shù)據(jù)標(biāo)注行業(yè)競爭加劇的發(fā)展趨勢目前已進入快速增長期微觀角度來看:市場規(guī)模不斷擴大,市場競爭的加劇,行業(yè)內(nèi)部或?qū)⒂瓉怼跋磁破凇焙暧^角度看:高質(zhì)量、精細(xì)化、定制化的數(shù)據(jù)集越來越受到需求方的青睞1.5.2政策的有力支持工業(yè)和信息化部印發(fā)了《促進新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃(2018-2020年)》2020年2月,“人工智能訓(xùn)練師”正式成為新職業(yè)隸屬于軟件和信息技術(shù)服務(wù)人員小類。1.5數(shù)據(jù)標(biāo)注行業(yè)未來發(fā)展趨勢及挑戰(zhàn)1.5.3面臨的問題和挑戰(zhàn)挑戰(zhàn)1:標(biāo)注需求難度加大、行業(yè)結(jié)合深入不夠挑戰(zhàn)2半自動化標(biāo)注工具及管理平臺的研發(fā)不足。關(guān)注兩個重點:如何提升標(biāo)注效率和如何做好項目管理挑戰(zhàn)3數(shù)據(jù)標(biāo)注質(zhì)量的把控不過關(guān)目前已進入快速增長期挑戰(zhàn)4數(shù)據(jù)安全與隱私的保護不容樂觀。目前產(chǎn)生了如數(shù)據(jù)治理、數(shù)據(jù)分割、數(shù)據(jù)安全傳輸和區(qū)塊鏈等技術(shù)。1.5數(shù)據(jù)標(biāo)注行業(yè)未來發(fā)展趨勢及挑戰(zhàn)1.5.4數(shù)據(jù)標(biāo)注行業(yè)的前景與發(fā)展數(shù)據(jù)標(biāo)注行業(yè)前景廣闊,但也面臨諸多挑戰(zhàn)。唯有不斷提升自身技術(shù)實力、快速迭代自身業(yè)務(wù)以適應(yīng)需求變化、并打造品牌與實力的雙重口碑效應(yīng),才能在激烈的市場競爭中更具優(yōu)勢,建立高度排他性技術(shù)壁壘[4],從而保證自身在競爭中立于不敗之地。謝謝!數(shù)據(jù)標(biāo)注實用教程第二章數(shù)據(jù)的來龍去脈內(nèi)容2.1認(rèn)識數(shù)據(jù)2.2數(shù)據(jù)采集2.3爬蟲采集數(shù)據(jù)案例2.4數(shù)據(jù)預(yù)處理2.5標(biāo)注數(shù)據(jù)2.6數(shù)據(jù)分析與應(yīng)用2.1什么是數(shù)據(jù)?2.1.1數(shù)和數(shù)據(jù)的區(qū)別在數(shù)學(xué)中,數(shù)是一個抽象的概念,由特定的數(shù)字符號組成如在十進制中,用0、1、2、3、4、5、6、7、8、9十個符號來表示數(shù)。數(shù)據(jù)是在現(xiàn)實世界特定場景中表示某種度量的數(shù)值,是表示事物、對象的屬性或反映其物理特征的數(shù)值如北京到洛陽的距離是800公里,小明的身高是170cm,小華今年20歲,這里的800公里、170cm、20歲都是一個特定的數(shù)據(jù)。在計算機科學(xué)中數(shù)據(jù)有更豐富的內(nèi)涵,文字、符號、圖像、聲音等也都是數(shù)據(jù)2.1什么是數(shù)據(jù)?2.1.2通信中數(shù)據(jù)的分類1.模擬數(shù)據(jù)模擬數(shù)據(jù)(AnalogData)是由傳感器采集得到的連續(xù)變化的值,例如溫度、壓力,以及傳統(tǒng)的電話系統(tǒng)、無線電和電視廣播中的聲音和圖像都是模擬數(shù)據(jù),模擬數(shù)據(jù)轉(zhuǎn)換為模擬信號,即傳輸介質(zhì)中傳送的連續(xù)變化的電磁波。模擬數(shù)據(jù)是連續(xù)的,無法直接在計算機中存儲。2.數(shù)字?jǐn)?shù)據(jù)數(shù)字?jǐn)?shù)據(jù)(DigitalData)則是模擬數(shù)據(jù)經(jīng)量化后得到的離散的值,例如在計算機中用二進制代碼表示的字符、圖形、音頻與視頻數(shù)據(jù)。數(shù)字信號是在傳輸介質(zhì)中傳送的電壓脈沖序列。2.1什么是數(shù)據(jù)?2.1.3計算機中數(shù)據(jù)的編碼整型數(shù)據(jù)編碼有原碼、反碼、補碼、BCD碼等。實型數(shù)據(jù)通過浮動小數(shù)點轉(zhuǎn)換為尾數(shù)加階碼的浮點數(shù)編碼格式存儲。字符類型數(shù)的編碼如英文字符的ASCII碼集,中文的BIG5編碼、GB18030編碼,國際標(biāo)準(zhǔn)字符集Unicode編碼等。聲音數(shù)據(jù)的存儲可以通過對物理聲波模擬信號數(shù)據(jù)離散、采樣、量化進行編碼。圖像類的數(shù)據(jù)由光學(xué)鏡頭采集到連續(xù)的光信號數(shù)據(jù),光信號通過光電傳感器轉(zhuǎn)換為電信號,再通過網(wǎng)格化采樣、量化轉(zhuǎn)換為離散的像素點信息,再對每個像素點的信息進行編碼存儲。2.1什么是數(shù)據(jù)?2.1.4數(shù)據(jù)文件存儲在磁盤上的文件必須具備三個要素:文件路徑,文件名,文件類型例如:E:\無人車\線上標(biāo)注軟件使用說明.docx文件類型(即文件格式)是指計算機為了存儲信息而使用的對信息的特殊編碼方式,不同數(shù)據(jù)的文件存儲格式也是不同的,以不同文件擴展名來進行區(qū)分。如word文件的擴展名為.doc或.docx,常見的圖片文件格式.jpg、.bmp、.png等,常見的音頻文件格式.mp3、.wav、.mid、.au等。某種文件格式需要特定的應(yīng)用程序才能夠正確打開。進行標(biāo)注時,不同類型的標(biāo)注數(shù)據(jù),文件類型也是不同的。2.2數(shù)據(jù)采集數(shù)據(jù)采集,又稱數(shù)據(jù)獲取,是利用某種裝置,從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的一個接口。數(shù)據(jù)采集廣泛應(yīng)用在各個領(lǐng)域,例如麥克風(fēng)、攝像頭、壓力表、標(biāo)尺、溫度傳感器等,都是數(shù)據(jù)采集工具。2.2數(shù)據(jù)采集2.2.1采集渠道1.直接購買或共享行業(yè)數(shù)據(jù)2.網(wǎng)絡(luò)采集3.第三方合作4.自行采集2.2.2數(shù)據(jù)采集的注意事項1.深度理解2.實時溝通3.采集質(zhì)量2.2數(shù)據(jù)采集2.2.3標(biāo)注數(shù)據(jù)的采集案例1.人體姿態(tài)采集2.方言采集3.泊車位和交通標(biāo)志采集2.2.4數(shù)據(jù)質(zhì)量1.關(guān)聯(lián)度2.時效性3.范圍4.可信性2.3Python安裝與爬蟲采集數(shù)據(jù)案例1.下載Python打開Python官網(wǎng):/2.3Python安裝與爬蟲采集數(shù)據(jù)案例2.安裝Python2.3Python安裝與爬蟲采集數(shù)據(jù)案例2.安裝Python2.3Python安裝與爬蟲采集數(shù)據(jù)案例2.安裝Python安裝完成使用命令提示符進行驗證,打開Windows的命令行模式,輸入“Python”或“python”,屏幕輸出如下圖所示,則說明Python解釋器成功運行,Python安裝完成,并且相關(guān)環(huán)境變量配置成功。2.3Python安裝與爬蟲采集數(shù)據(jù)案例3.在Windows中配置Python環(huán)境變量2.3Python安裝與爬蟲采集數(shù)據(jù)案例4.啟動Python交互式命令2.3Python安裝與爬蟲采集數(shù)據(jù)案例4.啟動PythonIDLE(創(chuàng)建源文件)2.3Python安裝與爬蟲采集數(shù)據(jù)案例5.第三方庫安裝pip在線安裝(命令提示符環(huán)境,建議切換至Python安裝目錄中的scripts文件夾執(zhí)行)pip離線安裝:/~gohlke/pythonlibs/exe安裝,不是每個擴展庫都支持conda在線安裝(需要先安裝Anaconda)如果機器上安裝了多個Python開發(fā)環(huán)境,那么在一個環(huán)境下安裝的擴展庫無法在另一個環(huán)境下使用,需要分別安裝。2.3Python安裝與爬蟲采集數(shù)據(jù)案例5.第三方庫安裝pip命令示例說明pipdownloadSomePackage[==version]下載擴展庫的指定版本,不安裝pipfreeze[>requirements.txt]以requirements的格式列出已安裝模塊piplist列出當(dāng)前已安裝的所有模塊pipinstallSomePackage[==version]在線安裝SomePackage模塊的指定版本pipinstallSomePackage.whl通過whl文件離線安裝擴展庫pipinstallpackage1package2...依次(在線)安裝package1、package2等擴展模塊pipinstall-rrequirements.txt安裝requirements.txt文件中指定的擴展庫pipinstall--upgradeSomePackage升級SomePackage模塊pipuninstallSomePackage[==version]卸載SomePackage模塊的指定版本把SomePackage替換為實際要安裝或卸載的擴展庫名/~gohlke/pythonlibs/下載時選擇合適版本,并且不要修改文件名2.3Python安裝與爬蟲采集數(shù)據(jù)案例6.標(biāo)準(zhǔn)庫或擴展庫中對象的導(dǎo)入Python標(biāo)準(zhǔn)庫和擴展庫中的對象必須先導(dǎo)入才能使用,導(dǎo)入方法如下:import模塊名[as別名]import模塊名import對象名[as別名]import模塊名import*2.3Python安裝與爬蟲采集數(shù)據(jù)案例2.3.2Python爬蟲采集數(shù)據(jù)案例最簡單的頁面級的網(wǎng)絡(luò)爬蟲的原理,通過第三方庫requests和BeautifulSoup4庫:requests庫獲得一個請求回應(yīng)BeautifulSoup4庫解析html文件對解析的soup進行查找RE正則表達(dá)式find_all(“xx”)定位標(biāo)簽內(nèi)容對爬取的內(nèi)容進行操作(字符串的加減)2.3Python安裝與爬蟲采集數(shù)據(jù)案例2.3.2Python爬蟲采集數(shù)據(jù)案例通過爬蟲獲取一個新浪網(wǎng)子頁面/photo/rel/csjsy07/399/上的所有圖片的URL鏈接案例。編程思路如下:首先導(dǎo)入requests庫向網(wǎng)頁發(fā)送請求接收請求回應(yīng)然后拋出異常,判斷網(wǎng)頁是否成功接收到請求其次判斷編碼類型,修改編碼再次生成一個Soup,將html文件進行解釋最后查找標(biāo)簽,獲取內(nèi)容并且對內(nèi)容進行一系列操作2.4數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是一種數(shù)據(jù)挖掘技術(shù),其目的是為了把原始數(shù)據(jù)轉(zhuǎn)換為可以理解的格式或者符合挖掘的格式。現(xiàn)實世界中獲取的數(shù)據(jù)大部分都是不完整,不一致的臟數(shù)據(jù),無法直接進行數(shù)據(jù)挖掘,或挖掘結(jié)果差強人意。為了提高數(shù)據(jù)挖掘的質(zhì)量產(chǎn)生了數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)預(yù)處理有多種方法:數(shù)據(jù)清洗,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約等2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等異常數(shù)據(jù)的技術(shù)。2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)數(shù)據(jù)的異??煞譃槿悾赫Z法類異常(SyntacticalAnomaly),語義類異常(SemanticAnomaly),覆蓋類異常(CoverageAnomaly)。1.語法類異常語法類異常指的是表示實體的具體數(shù)據(jù)的值和格式的錯誤。該類異常具體可分為三種:(1)詞法錯誤(LexicalError)指的是實際數(shù)據(jù)的結(jié)構(gòu)和指定的結(jié)構(gòu)不一致。例如:在一張人員表中,每個實體有四個屬性,分別是姓名、年齡、性別和身高,而某些記錄只有三個屬性,有缺失值。(2)值域格式錯誤(DomainFormatError)指的是實體的某個屬性的取值不符合預(yù)期的值域中的某種格式。值域是數(shù)據(jù)的所有可能取值構(gòu)成的集合。例如:姓名是字符串類型,在名和姓之間有一個“·”,那么“John·Smith”是正確的值,“JohnSmith”則不是正確的值。2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)1.語法類異常(3)不規(guī)則的取值(Irregularity)指的是對取值、單位和簡稱的使用不統(tǒng)一,不規(guī)范。比如:員工的工資字段有的用“元”作為單位,有的用“萬元”作為單位。2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)2.語義類異常語義類異常是指數(shù)據(jù)不能全面、無重復(fù)地表示客觀世界的實體,該類異常具體可分為四種:(1)違反完整性約束規(guī)則(IntegrityConstraintViolation)。指一個元組或幾個元組不符合(實體完整性、參照完整性和用戶自定義完整性)完整性約束規(guī)則。例如:規(guī)定員工工資字段必須大于0,如果某個員工的工資小于0,就違反了完整性約束規(guī)則。(2)數(shù)據(jù)中出現(xiàn)矛盾(Contradiction)。指的是一個元組的各個屬性取值,或者不同元組的各個屬性的取值違反這些取值的依賴關(guān)系。例如:我們的賬單表里的賬單金額為商品總金額減去折扣金額,但在數(shù)據(jù)庫某個賬單的實付金額不等于商品總金額減去折扣金額,這就出現(xiàn)了矛盾。(3)數(shù)據(jù)中存在重復(fù)值(Duplicate)。指的是兩個或者兩個以上的元組表示同一個實體。(4)無效的元組(InvalidTuple)。指的是某些元組沒有對應(yīng)客觀世界的有效實體。例如:員工表中有一個員工,姓名叫“王中華”,但是單位或公司里并沒有這個人。2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)3.覆蓋類異常(1)值的缺失(MissingValue)。指的是在進行數(shù)據(jù)采集時由于各種原因?qū)е戮蜎]有采集到某項相應(yīng)的數(shù)據(jù)。(2)元組的缺失(MissingTuple)。指的是在客觀世界中,存在某些實體,但是并沒有在數(shù)據(jù)庫通過元組表示出來。2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)4.缺失數(shù)據(jù)處理(1)刪除含有缺失值的記錄理論上講,主要有簡單刪除法和權(quán)重法。簡單刪除法是對缺失值進行處理的最原始最簡單的方法。(2)插補缺失值它的思想來源是以最可能的值來插補缺失值比全部刪除不完全樣本所產(chǎn)生的信息丟失要少。在數(shù)據(jù)挖掘中,面對的通常是大型的數(shù)據(jù)庫,它的屬性有幾十個甚至幾百個,因為一個屬性值的缺失而放棄大量的其他屬性值,這種刪除是對信息的極大浪費,所以產(chǎn)生了以可能值對缺失值進行插補的思想與方法。常用的有如下幾種方法:均值插補同類均值插補極大似然估計2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)5.重復(fù)數(shù)據(jù)處理所有字段的值都相等的重復(fù)值是一定要剔除的,但在數(shù)據(jù)集不大的情況下,刪除數(shù)據(jù)會造成數(shù)據(jù)集更小,根據(jù)不同業(yè)務(wù)場景,有時會選取其中幾個字段進行去重操作。2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)6.噪聲數(shù)據(jù)處理噪聲是被測量的變量的隨機誤差或方差??梢允褂没镜臄?shù)據(jù)統(tǒng)計描述技術(shù)(例如,盒圖或者散點圖)和數(shù)據(jù)可視化方法來識別可能代表噪聲的離群點。常用的技術(shù)有分箱、回歸、孤立點分析。(1)分箱(bining):分箱方法通過考察數(shù)據(jù)的“近鄰”(即周圍的值)來光滑有序的數(shù)據(jù)值。這些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近鄰的值,因此它適合進行局部的光滑。2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)6.噪聲數(shù)據(jù)處理(1)分箱(bining):2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)6.噪聲數(shù)據(jù)處理(2)回歸(regression):可以用一個函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)。這種技術(shù)稱之為回歸。線性回歸涉及找出擬合兩個屬性(或變量)的“最佳”直線,使得一個屬性可以用來預(yù)測另一個。多元線性回歸是線性回歸的擴充,其中涉及的屬性多于兩個,并且數(shù)據(jù)擬合到一個多維曲面。2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)6.噪聲數(shù)據(jù)處理(3)離群點分析(outlieranalysis):可以通過聚類來檢測離群點。聚類將類似的值組織成“群”或“簇”,直觀地看,落在簇集合之外的值被視為離群點。2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)7.數(shù)據(jù)清洗工具小規(guī)模數(shù)據(jù)清洗可以借助EXCEL軟件,大規(guī)模數(shù)據(jù)清洗可以使用R語言或者Python語言編寫程序?qū)崿F(xiàn)?,F(xiàn)有的常用數(shù)據(jù)清洗工具軟件有:MicrosoftExcelKettleOpenRefineDataWranglerHawk2.4數(shù)據(jù)預(yù)處理2.4.1數(shù)據(jù)清洗(DataCleaning)8.使用EXCEL清洗數(shù)據(jù)Excel常見數(shù)據(jù)清洗函數(shù):(1)left函數(shù):文本處理函數(shù),快速收集關(guān)鍵信息。(2)right函數(shù):快速提取文本中出現(xiàn)的手機號碼。(3)mid+find函數(shù)根據(jù)特定關(guān)鍵詞提取所需數(shù)據(jù)(4)trim函數(shù)(5)concatenate函數(shù)(6)replace函數(shù)(7)substitute函數(shù)(8)len/lenb函數(shù)2.4數(shù)據(jù)預(yù)處理2.4.2數(shù)據(jù)集成(DataIntegration)數(shù)據(jù)集成是把來源、格式、特點性質(zhì)不同的數(shù)據(jù)在邏輯上或物理上有機地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。1.聯(lián)邦數(shù)據(jù)庫模式2.數(shù)據(jù)倉庫模式3.中介者模式2.4數(shù)據(jù)預(yù)處理2.4.2數(shù)據(jù)集成(DataIntegration)1.聯(lián)邦數(shù)據(jù)庫模式2.4數(shù)據(jù)預(yù)處理2.4.2數(shù)據(jù)集成(DataIntegration)2.數(shù)據(jù)倉庫模式2.4數(shù)據(jù)預(yù)處理2.4.2數(shù)據(jù)集成(DataIntegration)3.中介者模式2.4數(shù)據(jù)預(yù)處理2.4.3數(shù)據(jù)歸約(Datareduction)數(shù)據(jù)歸約是指在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)的數(shù)量。對于小型或中型數(shù)據(jù)集,一般的數(shù)據(jù)預(yù)處理步驟已經(jīng)足夠。但對真正大型數(shù)據(jù)集來講,在應(yīng)用數(shù)據(jù)挖掘技術(shù)以前,可能需要采取一個中間的、額外的步驟——數(shù)據(jù)歸約。2.4數(shù)據(jù)預(yù)處理2.4.3數(shù)據(jù)歸約(Datareduction)1.特征歸約特征歸約是從原有的特征中刪除不重要或不相關(guān)的特征,或者通過對特征進行重組來減少特征的個數(shù)。其原則是在保留、甚至提高原有判別能力的同時減少特征向量的維度。特征歸約算法的輸入是一組特征值,輸出的是它的一個子集。在領(lǐng)域知識缺乏的情況下進行特征歸約時一般包括3個步驟:(1)搜索過程:在特征空間中搜索特征子集,每個子集稱為一個狀態(tài),由選中的特征構(gòu)成。(2)評估過程:輸入一個狀態(tài),通過評估函數(shù)或預(yù)先設(shè)定的閾值,輸出一個評估值,搜索算法的目的是使評估值達(dá)到最優(yōu)。(3)分類過程:使用最終的特征集完成最后的算法。特征歸約處理的效果:(1)更少的數(shù)據(jù),更高的挖掘效率(2)更高的數(shù)據(jù)挖掘處理精度(3)簡單的數(shù)據(jù)挖掘處理結(jié)果(4)更少的特征。2.4數(shù)據(jù)預(yù)處理2.4.3數(shù)據(jù)歸約(Datareduction)2.樣本歸約樣本都是已知的,通常數(shù)目很大,質(zhì)量或高或低,有、或者沒有關(guān)于實際問題的先驗知識。樣本歸約就是從數(shù)據(jù)集中選出一個有代表性的樣本的子集。確定子集的大小要考慮計算成本、存儲要求、估計量的精度以及其它一些與算法和數(shù)據(jù)特性有關(guān)的因素。初始數(shù)據(jù)集中最大和最關(guān)鍵的維度數(shù)就是樣本的數(shù)目,也就是數(shù)據(jù)表中的記錄數(shù)。數(shù)據(jù)挖掘處理的初始數(shù)據(jù)集描述了一個極大的總體,對數(shù)據(jù)的分析只基于樣本的一個子集。獲得數(shù)據(jù)的子集后,用它來提供整個數(shù)據(jù)集的一些信息,這個子集通常叫做估計量,它的質(zhì)量依賴于所選子集中的元素。取樣過程很可能會造成取樣誤差,取樣誤差對所有的方法和策略來講都是固有的、不可避免的,當(dāng)子集的規(guī)模變大時,取樣誤差一般會降低。一個完整的數(shù)據(jù)集在理論上是不存在取樣誤差的。與針對整個數(shù)據(jù)集的數(shù)據(jù)挖掘比較起來,樣本歸約具有一個或多個優(yōu)點:減少成本、速度更快、范圍更廣,有時甚至能獲得更高的精度。2.4數(shù)據(jù)預(yù)處理2.4.3數(shù)據(jù)歸約(Datareduction)3.特征值歸約特征值歸約是特征值離散化技術(shù),它將連續(xù)的特征值離散化,使之成為少量的區(qū)間,每個區(qū)間映射到一個離散符號。這種技術(shù)的好處在于簡化了數(shù)據(jù)描述,并易于理解數(shù)據(jù)和最終的挖掘結(jié)果。特征值歸約可以是有參的,也可以是無參的。有參方法使用一個模型來評估數(shù)據(jù),只需存放參數(shù),而不需要存放實際數(shù)據(jù);有參的特征值歸約有以下兩種:(1)回歸:線性回歸和多元回歸;(2)對數(shù)線性模型:近似離散多維概率分布。無參的特征值歸約有三種:(1)直方圖:采用分箱近似數(shù)據(jù)分布,其中V-最優(yōu)和MaxDiff直方圖是最精確和最實用的;(2)聚類:將數(shù)據(jù)元組視為對象,將對象劃分為群或聚類,使得在一個聚類中的對象“類似”而與其他聚類中的對象“不類似”,在數(shù)據(jù)歸約時用數(shù)據(jù)的聚類代替實際數(shù)據(jù);(3)選樣:用數(shù)據(jù)的較小隨機樣本表示較大的數(shù)據(jù)集,如簡單選擇n個樣本(類似樣本歸約)、聚類選樣和分層選樣等。2.4數(shù)據(jù)預(yù)處理2.4.4數(shù)據(jù)變換(Datatransfer)數(shù)據(jù)變換,是將數(shù)據(jù)從一種表示形式變換為適用于數(shù)據(jù)挖掘的另一種形式的過程。包括如下步驟:1.數(shù)據(jù)平滑去除數(shù)據(jù)中的噪聲,將連續(xù)數(shù)據(jù)離散化,可采用分箱、聚類和回歸的方式進行數(shù)據(jù)平滑。2.數(shù)據(jù)聚集對數(shù)據(jù)進行匯總或聚集。這一步通常用來為多粒度數(shù)據(jù)分析構(gòu)造數(shù)據(jù)立方體3.數(shù)據(jù)泛化將數(shù)據(jù)由較低的概念抽象成為較高的概念,減少數(shù)據(jù)復(fù)雜度,即用較高的概念替代較低的概念。4.數(shù)據(jù)規(guī)范化使屬性數(shù)據(jù)按比例縮放,這樣將原來的數(shù)值映射到一個新的特定區(qū)域中。常用的方法有最小——最大規(guī)范化,Z—score規(guī)范化,按小數(shù)定標(biāo)規(guī)范化。5.屬性構(gòu)造構(gòu)造出新的屬性并添加到屬性集中。通過屬性與屬性的連接構(gòu)造新的屬性,其實就是特征工程。2.4數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理流程模板:(1)導(dǎo)入標(biāo)準(zhǔn)庫(2)導(dǎo)入數(shù)據(jù)集(3)清洗數(shù)據(jù)(4)數(shù)據(jù)規(guī)約(5)數(shù)據(jù)變換2.5標(biāo)注數(shù)據(jù)2.5.1標(biāo)注數(shù)據(jù)的用途想了解為什么要進行標(biāo)注數(shù)據(jù)?就要先了解人工智能的一些應(yīng)用,數(shù)據(jù)標(biāo)注行業(yè)生產(chǎn)的標(biāo)注數(shù)據(jù)都是提供給做人工智能算法訓(xùn)練的客戶,供其作為訓(xùn)練算法的原料數(shù)據(jù)集。標(biāo)注數(shù)據(jù)就像是喂給AI算法的食物,吃的越多,訓(xùn)練的算法模型就會越好。訓(xùn)練集:用來訓(xùn)練算法模型作用是用來擬合模型,通過設(shè)置分類器的參數(shù),訓(xùn)練分類模型。后續(xù)結(jié)合驗證集,會選出同一參數(shù)的不同取值,擬合出多個分類器。驗證集:用來查看訓(xùn)練效果作用是當(dāng)通過訓(xùn)練集訓(xùn)練出多個模型后,為了能找出效果最佳的模型,使用各個模型對驗證集數(shù)據(jù)進行預(yù)測,并記錄模型準(zhǔn)確率。選出效果最佳的模型所對應(yīng)的參數(shù),即用來調(diào)整模型參數(shù)。測試集:用來測試模型的實際學(xué)習(xí)能力通過訓(xùn)練集和驗證集得出最優(yōu)模型后,使用測試集進行模型預(yù)測。用來衡量該最優(yōu)模型的性能和分類能力。即可以把測試集當(dāng)做從來不存在的數(shù)據(jù)集,當(dāng)已經(jīng)確定模型參數(shù)后,使用測試集進行模型性能評價。2.5標(biāo)注數(shù)據(jù)2.5.2使用標(biāo)注數(shù)據(jù)訓(xùn)練AI算法的流程1.數(shù)據(jù)集制作2.訓(xùn)練3.測試2.6數(shù)據(jù)分析與應(yīng)用2.6.1數(shù)據(jù)分析方法1.聚類分析聚類與分類的不同在于,聚類要求劃分的類是未知的。聚類是將數(shù)據(jù)分類到不同的類或者簇的過程,同一個簇中的對象有很大的相似性,不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,不必事先給出一個分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進行分類。聚類分析所使用的方法不同,結(jié)論通常也會不同。不同研究者對于同一組數(shù)據(jù)進行聚類分析,得到的聚類數(shù)也可能不一致。2.6數(shù)據(jù)分析與應(yīng)用2.6.1數(shù)據(jù)分析方法2.因子分析因子分析是研究從變量群中提取共性因子的統(tǒng)計技術(shù)。最早由英國心理學(xué)家C.E.斯皮爾曼提出。他發(fā)現(xiàn)學(xué)生的各科成績之間存在著一定的相關(guān)性,一科成績好的學(xué)生,往往其他各科成績也比較好,從而推想是否存在某些潛在的共性因子,或某些一般智力條件影響著學(xué)生的學(xué)習(xí)成績。因子分析可在許多變量中找出隱藏的具有代表性的因子。將相同本質(zhì)的變量歸入一個因子,可減少變量的數(shù)目,還可檢驗變量間關(guān)系的假設(shè)。2.6數(shù)據(jù)分析與應(yīng)用2.6.1數(shù)據(jù)分析方法3.相關(guān)分析相關(guān)分析是研究兩個或兩個以上處于同等地位的隨機變量間的相關(guān)關(guān)系的統(tǒng)計分析方法。例如,人的身高和體重之間;空氣中的相對濕度與降雨量之間的相關(guān)關(guān)系都是相關(guān)分析研究的問題。相關(guān)分析與回歸分析之間的區(qū)別:回歸分析側(cè)重于研究隨機變量間的依賴關(guān)系,以便用一個變量去預(yù)測另一個變量;相關(guān)分析側(cè)重于發(fā)現(xiàn)隨機變量間的種種相關(guān)特性。相關(guān)分析在工農(nóng)業(yè)、水文、氣象、社會經(jīng)濟和生物學(xué)等方面都有應(yīng)用。2.6數(shù)據(jù)分析與應(yīng)用2.6.1數(shù)據(jù)分析方法4.對應(yīng)分析對應(yīng)分析也稱關(guān)聯(lián)分析,R-Q型因子分析,是近年新發(fā)展起來的一種多元相依變量統(tǒng)計分析技術(shù),通過分析由定性變量構(gòu)成的交互匯總表來揭示變量間的聯(lián)系。對應(yīng)分析法可以揭示同一變量的各個類別之間的差異,以及不同變量各個類別之間的對應(yīng)關(guān)系。主要應(yīng)用在市場細(xì)分、產(chǎn)品定位、地質(zhì)研究以及計算機工程等領(lǐng)域。原因在于,它是一種視覺化的數(shù)據(jù)分析方法,它能夠?qū)捉M看不出任何聯(lián)系的數(shù)據(jù),通過視覺上可以接受的定位圖展現(xiàn)出來。2.6數(shù)據(jù)分析與應(yīng)用2.6.1數(shù)據(jù)分析方法5.回歸分析在統(tǒng)計學(xué)中,回歸分析也是一種統(tǒng)計分析方法,它主要研究如何確定兩種或兩種以上變量間相互依賴的定量關(guān)系?;貧w分析按照涉及的變量多少,分為一元回歸和多元回歸分析;按照因變量的多少,可分為簡單回歸分析和多重回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。2.6數(shù)據(jù)分析與應(yīng)用2.6.1數(shù)據(jù)分析方法6.方差分析方差分析所要解決的問題是根據(jù)試驗結(jié)果,找出有顯著作用的因素,以及確定在什么樣的水平和工藝條件下能使指標(biāo)最優(yōu),達(dá)到優(yōu)質(zhì)和高產(chǎn)的目的。例如給植物施用幾種肥料,調(diào)查分析作物產(chǎn)量在不同肥料之間有無真正的差異時一般常采用方差分析法。通過每個數(shù)據(jù)資料之間所顯示的偏差與各組群資料中認(rèn)為是屬于誤差范圍內(nèi)的偏差進行比較,來測驗各組資料之間有無顯著差異存在。2.6數(shù)據(jù)分析與應(yīng)用2.6.2數(shù)據(jù)可視化1.數(shù)據(jù)可視化技術(shù)數(shù)據(jù)可視化技術(shù)是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形或圖像的形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。數(shù)據(jù)可視化技術(shù)包含以下幾個基本概念:①數(shù)據(jù)空間:是由n維屬性和m個元素組成的數(shù)據(jù)集所構(gòu)成的多維信息空間;②數(shù)據(jù)開發(fā):是指利用一定的算法和工具對數(shù)據(jù)進行定量的推演和計算;③數(shù)據(jù)分析:指對多維數(shù)據(jù)進行切片、塊、旋轉(zhuǎn)等動作剖析數(shù)據(jù),從而能多角度多側(cè)面觀察數(shù)據(jù);④數(shù)據(jù)可視化:是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程2.6數(shù)據(jù)分析與應(yīng)用2.6.2數(shù)據(jù)可視化2.Python數(shù)據(jù)可視化庫——matplotlib1)直方圖繪制函數(shù)bar()2.6數(shù)據(jù)分析與應(yīng)用2.6.2數(shù)據(jù)可視化2.Python數(shù)據(jù)可視化庫——matplotlib2)餅圖繪制函數(shù)pie()2.6數(shù)據(jù)分析與應(yīng)用2.6.2數(shù)據(jù)可視化2.Python數(shù)據(jù)可視化庫——matplotlib3)雷達(dá)圖繪制函數(shù)polar()2.6數(shù)據(jù)分析與應(yīng)用2.6.3數(shù)據(jù)分析與可視化案例數(shù)據(jù)分析是基于某種目的,有針對性地進行收集、整理、加工和分析數(shù)據(jù)并提煉出有價值信息的一個過程。1.明確分析目的與框架2.數(shù)據(jù)采集3.數(shù)據(jù)預(yù)處理4.數(shù)據(jù)分析5.數(shù)據(jù)可視化展現(xiàn)2.6數(shù)據(jù)分析與應(yīng)用2.6.3數(shù)據(jù)分析與可視化案例6.案例——某網(wǎng)上商城手機銷售數(shù)據(jù)分析1)數(shù)據(jù)采集:2)數(shù)據(jù)清洗3)可視化表示2.6數(shù)據(jù)分析與應(yīng)用2.6.3數(shù)據(jù)分析與可視化案例6.案例——某網(wǎng)上商城手機銷售數(shù)據(jù)分析2.6數(shù)據(jù)分析與應(yīng)用2.6.3數(shù)據(jù)分析與可視化案例6.案例——某網(wǎng)上商城手機銷售數(shù)據(jù)分析2.6數(shù)據(jù)分析與應(yīng)用2.6.3數(shù)據(jù)分析與可視化案例6.案例——某網(wǎng)上商城手機銷售數(shù)據(jù)分析謝謝!數(shù)據(jù)標(biāo)注實用教程第三章數(shù)據(jù)標(biāo)注基礎(chǔ)知識內(nèi)容3.1數(shù)據(jù)的存儲方式3.2數(shù)據(jù)的編碼方式3.3數(shù)據(jù)標(biāo)注必須了解的知識3.4常用的數(shù)據(jù)標(biāo)注工具第三章數(shù)據(jù)標(biāo)注基礎(chǔ)知識3.5數(shù)據(jù)標(biāo)注結(jié)果文件格式3.1數(shù)據(jù)的存儲方式信息是對客觀世界的一種反映,數(shù)據(jù)是信息的載體,是信息的具體表現(xiàn)形式。在計算機中,數(shù)據(jù)都是以二進制數(shù)形式存儲的。但是在計算機中看不到二進制的數(shù)據(jù),看到的是一個一個的文件和文件夾,文件是存儲在計算機磁盤內(nèi)的一系列數(shù)據(jù)的集合,在Windows操作系統(tǒng)中,文件是最小的數(shù)據(jù)組織單位。文件中可以存放文本、聲音、圖像和視頻等信息。3.1數(shù)據(jù)的存儲方式3.1.1文件名文件名通常由主文件名和擴展名組成,中間以“.”連接,如myfile.docx,擴展名常用來表示文件的數(shù)據(jù)類型和性質(zhì)。每當(dāng)安裝一個應(yīng)用程序時,系統(tǒng)會自動為它建立對應(yīng)的文檔關(guān)聯(lián)。當(dāng)雙擊一個文檔名時,Windows先檢查它的擴展名,根據(jù)擴展名首先運行與它關(guān)聯(lián)的應(yīng)用程序,再由應(yīng)用程序打開該文檔。Windows對于已知文件類型的擴展名默認(rèn)是不顯示的,如何才能讓其顯示。3.1數(shù)據(jù)的存儲方式3.1.2數(shù)據(jù)標(biāo)注常見的文件類型文本類型.TXT、.DOC、.DOCX、.XLS、.XLSX、.DAT語音類型.WAV、.WMA、.MP3、.CDA、.MIDI、.RA圖像類型.BMP、.JPG、.PNG、.GIF、.TIFF、.PCX、.TGA視頻類型.AVI、.MOV、.RMVB、.FLV、.MP4、.3GP、.MPEG標(biāo)注結(jié)果文件.ANN、.CSV、.JSON、.XML3.1文件的存儲方式1.文本文件是基于字符編碼方式存儲文件,每個字符對應(yīng)一個固定的編碼,順序流式存取,在任何操作系統(tǒng)下的解釋和編碼結(jié)果都是一致的,文本文件除了所包含的字符以外沒有任何其他信息。計算機中常用文本編碼類型有:ASCII、GB2312、Unicode、UTF-8等。2.二進制文件是按二進制的編碼方式來存放文件的。例如,數(shù)值123的存儲形式為:0000000001111011只占二個字節(jié)。二進制文件雖然也可在屏幕上顯示,但其內(nèi)容無法讀懂。應(yīng)用程序在處理這些文件時,并不區(qū)分類型,都看成是字符流,按字節(jié)進行處理。輸入輸出字符流的開始和結(jié)束只由程序控制而不受物理符號(如回車符)的控制。因此也把這種文件稱作“流式文件”。3.2數(shù)據(jù)的編碼方式數(shù)據(jù)編碼方式是計算機處理數(shù)據(jù)的關(guān)鍵。由于計算機要處理的數(shù)據(jù)信息十分龐雜,有些數(shù)據(jù)所代表的含義又使人難以記憶。為了便于使用,容易記憶,常常要對需要加工處理的數(shù)據(jù)進行編碼,用一個編碼代表一條信息或一串?dāng)?shù)據(jù)。對數(shù)據(jù)進行編碼在計算機的管理中非常重要,可以方便地進行數(shù)據(jù)搜集、分類、校核、統(tǒng)計、檢索、分析以及顯示等操作。人們可以利用編碼來識別每一個數(shù)據(jù),區(qū)分處理方法,進行分類,從而克服項目參差不齊的缺點,節(jié)省存儲空間,提高處理速度。為了方便計算機處理數(shù)據(jù),不同的數(shù)據(jù)信息采用不同的編碼方式,數(shù)據(jù)的編碼方式主要分為:字符編碼方式和其他編碼方式。3.2數(shù)據(jù)的編碼方式3.2.1字符編碼方式在計算機中,字符數(shù)據(jù)包括西文字符(字母、數(shù)字、各種符號)和漢字字符。它們都是非數(shù)值型數(shù)據(jù),非數(shù)值數(shù)據(jù)不表示數(shù)量的多少,只表示有關(guān)符號,和數(shù)值型數(shù)據(jù)一樣,也需用二進制數(shù)進行編碼才能存儲在計算機中并進行處理。對于西文字符與漢字字符,由于形式的不同,使用的編碼方式也不同。下面主要介紹西文字符和漢字字符的編碼方法。1.西文字符編碼(ASCII)2.漢字編碼3.Unicode編碼4.UTF-8編碼
3.2數(shù)據(jù)的編碼方式3.2.2二進制編碼方式計算機處理數(shù)據(jù)時除了字符編碼方式,其余的統(tǒng)一稱為其他編碼方式,也稱為二進制編碼方式。字符編碼方式是定長的,也有編碼的統(tǒng)一標(biāo)準(zhǔn);而二進制編碼方式則是可變長的編碼方式,每個字節(jié)代表什么完全由應(yīng)用軟件開發(fā)者決定的。上節(jié)提到的.bmp、.doc、.mp3、.avi等類型的文件都屬于二進制編碼方式的文件。Windows中的記事本軟件支持文本文件而不支持二進制編碼文件,所以上節(jié)提到的打開文件亂碼的原因就是使用記事本打開二進制編碼文件造成的。因此如果要打開二進制編碼的文件則需要專用的應(yīng)用程序來打開,并對其二進制編碼進行解碼,然后再顯示到屏幕上。
3.2數(shù)據(jù)的編碼方式3.2.3字符編碼方式和二進制編碼方式比較字符編碼:
其主要特點是編碼定長,有統(tǒng)一的使用標(biāo)準(zhǔn),譯碼容易,可讀性強,簡單易懂,操作方便。二進制編碼:
其主要特點是編碼可變長,使用靈活,存儲效率高,譯碼困難,可讀性差,保密性強,需要相關(guān)聯(lián)的應(yīng)用軟件才可使用。3.3數(shù)據(jù)標(biāo)注必須了解的知識數(shù)據(jù)標(biāo)注是通過數(shù)據(jù)加工人員借助于標(biāo)記工具軟件,對人工智能學(xué)習(xí)數(shù)據(jù)進行加工的一種行為。通常數(shù)據(jù)標(biāo)注的類型包括:文本標(biāo)注、語音標(biāo)注、圖像標(biāo)注、視頻標(biāo)注等四種類型。3.3.1文本標(biāo)注需要掌握的基礎(chǔ)知識1)NLP是什么?2)NLP如何處理自然語言?3)NLP解決的問題;4)NLP待解決的問題;5)NLP的應(yīng)用領(lǐng)域。3.3數(shù)據(jù)標(biāo)注必須了解的知識3.3.2文本標(biāo)注需要需要注意的問題1)充分了解語言學(xué);2)明確文本的用途;3)迭代式標(biāo)注;4)保持標(biāo)注的一致性;5)制定標(biāo)注規(guī)則;6)嚴(yán)格的審核制度3.3數(shù)據(jù)標(biāo)注必須了解的知識3.3.3常用的文本處理工具文本處理工具有很多種,比如:微軟開發(fā)的通用文本編輯器NotePad、NotePad++;支持HTML、多種語言、適合軟件開發(fā)者使用的EditPlus;打開JSON格式文件的JSONViewer;打開XML格式文件的XMLViewer;超大文本文件處理工具EmEditor、PilotEdit、LogViewer等,常用的支持中文的文本標(biāo)注工具京東眾智-Wise開放標(biāo)注平臺提供的實體提取及文章理解的標(biāo)注工具、BRAT,YEDDA,DeepDive等。3.3數(shù)據(jù)標(biāo)注必須了解的知識3.3.4語音標(biāo)注需要需要注意的問題語音標(biāo)注是指將聽到的音頻里說話的聲音轉(zhuǎn)寫出來,并適當(dāng)加上一些標(biāo)簽。其性質(zhì)有點像翻譯。翻譯是在準(zhǔn)確、通順、優(yōu)美的基礎(chǔ)上,把一種語言信息轉(zhuǎn)變成另一種語言信息的行為。翻譯也是一種將相對陌生的表達(dá)方式,轉(zhuǎn)換成相對熟悉的表達(dá)方式的過程。因此剛?cè)腴T語音標(biāo)注的用戶必須要了解一些與語音相關(guān)的基礎(chǔ)知識。關(guān)于語音的基礎(chǔ)知識關(guān)于聲學(xué)的基礎(chǔ)知識3.3數(shù)據(jù)標(biāo)注必須了解的知識語音標(biāo)注的主要內(nèi)容1)TTS(Text-to-Speech,語音合成),即“從文本到語音”,是人機對話的一部分,讓機器能夠說話。TTS中最主要的一個指標(biāo)就是自然度,也就是當(dāng)我們聽見機器跟我們說話的時候,能不能區(qū)分出來這個是人還是機器,目前在很多電話機器人上的使用很廣泛,而且?guī)缀跻呀?jīng)判斷不出來是機器人在和你講話。2)ASR(AutomaticSpeechRecognition,語音識別),是將聲音轉(zhuǎn)換為文字。ASR在中文領(lǐng)域有很大的難度,中文由于其語言博大精深,而且方言眾多,對于聲音轉(zhuǎn)換為文字具有很多不確定性。但是這也為我們提供了一個很大的發(fā)展機遇和想象的空間,其與NLP相結(jié)合來進行應(yīng)用可以發(fā)揮出真正的威力。3.3數(shù)據(jù)標(biāo)注必須了解的知識3.3.5常用的語音處理工具語音處理工具主要包括能實現(xiàn)錄音、混音、剪輯等功能的軟件。Goldwave是一款音樂編輯軟件,體積小巧,操作簡單。做為語音標(biāo)注轉(zhuǎn)錄的輔助工具有:迅捷文字語音轉(zhuǎn)換器,可以輕松實現(xiàn)語音轉(zhuǎn)文字,文字轉(zhuǎn)語音以及多國語言文本翻譯,1小時音頻5分鐘快速輸出文字內(nèi)容,文本文檔一鍵合成多音色語音。以及訊飛配音文字轉(zhuǎn)語音工具以及語音轉(zhuǎn)文字的輔助工具等。利用這些工具可以輔助項目,提高語音標(biāo)注的效率。3.3數(shù)據(jù)標(biāo)注必須了解的知識3.3.6圖像標(biāo)注需要掌握的基礎(chǔ)知識圖像標(biāo)注是最簡單、最常用的數(shù)據(jù)標(biāo)注類型,主要包括:矩形拉框也稱為2D拉框、多邊形拉框、打點標(biāo)注、語義分割、點云拉框、VR打點標(biāo)注、OCR文本識別等項目,由于其直觀,容易上手,因此數(shù)據(jù)標(biāo)注的從業(yè)者一般是從圖像標(biāo)注開始了解數(shù)據(jù)標(biāo)注的。圖像標(biāo)注是為了讓計算機更好的識別圖像,就像從小家長教孩子看圖識物一樣,圖像標(biāo)注就是用標(biāo)注好的圖像給計算機,告訴其是什么,以及其表情等信息。通過不斷的強化監(jiān)督學(xué)習(xí),計算機就能夠根據(jù)未標(biāo)注的圖像描述出圖像內(nèi)容的自然語言語句,從而針對圖像進行處理。圖像處理是指對圖像進行采集、顯示、存儲、通信、處理和分析五個模塊。為了更好的做圖像標(biāo)注項目,必須要了解一些與圖像相關(guān)的基礎(chǔ)知識。3.3數(shù)據(jù)標(biāo)注必須了解的知識數(shù)字圖像數(shù)字圖像是以二進制數(shù)字組形式表示的二維圖像。利用計算機圖形圖像技術(shù)以數(shù)字的方式來記錄、處理和保存圖像信息。在完成圖像信息數(shù)字化以后,整個數(shù)字圖像的輸入、處理與輸出的過程都可以在計算機中完成,它們具有電子數(shù)據(jù)文件的所有特性。通常把計算機圖形主要分為兩大類:位圖(bitmap)圖像和矢量(vector)圖形。3.3數(shù)據(jù)標(biāo)注必須了解的知識位圖位圖圖像是指使用圖片元素的矩形網(wǎng)格表現(xiàn)圖像。每個像素都分配有特定的位置和顏色值。在處理位圖圖像時,人們所編輯的是像素。位圖圖像與分辨率有關(guān),其包含固定數(shù)量的像素。因此,如果在屏幕上以高縮放比率對它們進行放大會呈現(xiàn)出鋸齒。3.3數(shù)據(jù)標(biāo)注必須了解的知識矢量圖形矢量圖形用一組指令集合來描述圖形的內(nèi)容,這些指令用來描述構(gòu)成該圖形的所有直線、圓、圓弧、矩形、曲線等圖元的位置、維數(shù)和形狀等。圖形分為二維圖形和三維圖形兩大類。在計算機上顯示圖形時,首先需要使用專門的軟件讀取并解釋這些指令,然后將它們轉(zhuǎn)變成屏幕上顯示的形狀和顏色,最后通過使用實心的或者有等級深淺的單色或色彩填充一些區(qū)域而形成圖形。由于大多數(shù)情況下不用對圖像上的每個點進行量化保存,所以需要的存儲量很少,但顯示時的計算時間較多。3.3數(shù)據(jù)標(biāo)注必須了解的知識3.3.7常用的圖像處理工具對已獲取的數(shù)字圖像資源往往不是直接使用,通常需要經(jīng)過圖像處理軟件的加工處理才能使用。能夠進行數(shù)字圖像處理的軟件很多,如PhotoShop、PhotoShopStyler、ImageStar、MDK等,圖像處理工具BitEdit、PalEdit和Convert等。其中,PhotoShop是目前最常用的功能強大的圖像處理和設(shè)計工具軟件,它功能完善、性能穩(wěn)定、使用方便,成為眾多圖像處理軟件中的佼佼者。通過PhotoShop軟件學(xué)習(xí),不僅可以提高的圖片處理能力,同時也可以在處理圖片過程中學(xué)習(xí)軟件知識,豐富了自己的學(xué)習(xí)生活。目前數(shù)據(jù)標(biāo)注行業(yè)在招聘專職標(biāo)注技術(shù)人員時,對其運用PhotoShop能力也十分重視。3.3數(shù)據(jù)標(biāo)注必須了解的知識3.3.8視頻標(biāo)注需要掌握的基礎(chǔ)知識視頻是由圖像連續(xù)播放組成的(1秒鐘的視頻包含25幀圖像,每1幀都是1張圖像)。因此,視頻標(biāo)注按照數(shù)據(jù)標(biāo)注的工作內(nèi)容來分類的話其實可以統(tǒng)一稱為圖像標(biāo)注。視頻標(biāo)注主要集中在關(guān)鍵幀圖象層,對整段視頻進行的粗略的標(biāo)注,標(biāo)注的關(guān)鍵字僅包含類型信息。然而這種標(biāo)注顯然不能滿足視頻檢索的需要,還需要對視頻內(nèi)部的各個小段內(nèi)容進行更精細(xì)的標(biāo)注。關(guān)鍵幀圖象層標(biāo)注首先通過鏡頭邊緣檢測把視頻切分成時間上連續(xù)的小段,再用關(guān)鍵幀提取算法從每段鏡頭中提取一幀圖象作為關(guān)鍵幀。最后基于提取出的關(guān)鍵幀,標(biāo)注一些關(guān)鍵字作為對此鏡頭內(nèi)容的描述。3.3數(shù)據(jù)標(biāo)注必須了解的知識1.視頻信息數(shù)字化2.視頻的壓縮3.視頻文件格式1)AVI格式2)MPEG格式3)WMV格式4)RMVB格式5)SWF格式6)FLV格式3.4常用的數(shù)據(jù)標(biāo)注工具3.4.1LabelImg圖像標(biāo)注工具LabelImg是一款圖像標(biāo)注工具。其主要的特點就是:操作簡單、使用方便,打開圖片后,只需用鼠標(biāo)框出圖片中的目標(biāo),并選擇該目標(biāo)的類別,便可以自動生成voc格式的xml文件。3.4常用的數(shù)據(jù)標(biāo)注工具3.4.2Labelme圖像標(biāo)注工具Labelme支持對圖像進行多邊形、矩形、圓、折線、點、語義分割形式的標(biāo)注,可用于目標(biāo)檢測,語義分割,圖像分類等任務(wù)。作為一款開源工具,labelme布局簡單,圖形界面使用的是Qt(PyQt)??梢陨蒝OC格式和COCO格式的數(shù)據(jù)集,以JSON文件存儲標(biāo)注信息。3.4常用的數(shù)據(jù)標(biāo)注工具3.4.3支持多種類型的精靈標(biāo)注助手精靈標(biāo)注助手是國內(nèi)開發(fā)的一款客戶端標(biāo)注工具,這款工具支持文本、語音、圖像、視頻等多種類型的標(biāo)注。可以實現(xiàn)圖像分類,矩形框,多邊形,曲線定位,3D定位、文本分類,文本實體標(biāo)注,視頻跟蹤等項目;提供可擴展性插件設(shè)計,通過插件形式支持自定義標(biāo)注,可根據(jù)具體需求開發(fā)不同的標(biāo)注形式;支持在Windows、Macos、Linux系統(tǒng)下的安裝,導(dǎo)出格式支持JSON以及PasalVoc的XML格式。3.4
常用的數(shù)據(jù)標(biāo)注工具3.4.4其他標(biāo)注工具介紹1.BRAT文本標(biāo)注工具2.Praat語音標(biāo)注工具3.VGG(VIA)標(biāo)注工具4.Labelbox在線標(biāo)注工具5.LabelHub協(xié)同在線標(biāo)注工具6.國內(nèi)標(biāo)注平臺提供的標(biāo)注工具3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件數(shù)據(jù)標(biāo)注結(jié)果導(dǎo)出的格式基本上為CSV、XML、JSON三種半結(jié)構(gòu)化的文本文件格式。3.5.1CSV文件格式CSV(Comma-SeparatedValues)逗號分隔值,其文件以純文本形式存儲表格數(shù)據(jù)(數(shù)字和文本),文件的每一行都是一個數(shù)據(jù)記錄。每個記錄由一個或多個字段組成,用逗號分隔。使用逗號作為字段分隔符是此文件格式的名稱的來源,因為分隔字符也可以不是逗號,有時也稱為字符分隔值。3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件CSV具體文件格式如下:①每條記錄占一行;②以逗號為分隔符;③逗號前后的空格會被忽略;④字段中包含有逗號,該字段必須用雙引號括起來;⑤字段中包含有換行符,該字段必須用雙引號括起來;⑥字段前后包含有空格,該字段必須用雙引號括起來;⑦字段中的雙引號用兩個雙引號表示;⑧字段中如果有雙引號,該字段必須用雙引號括起來;⑨第一條記錄,可以是字段名。3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件1.使用Python以列表方式打開CSV文件importcsvcsvfile=open('bzdata.csv','r')mycsvcontent=csv.reader(csvfile)forrowinmycsvcontent:print(row)2.使用Python以字典方式打開CSV文件importcsvcsvfile=open('bzdata.csv','r')mycsvcontent=csv.DictReader(csvfile)forrowinmycsvcontent:print(row)3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件3.5.2XML文件格式Xml即可擴展標(biāo)記語言,是一種允許用戶對自己的標(biāo)記進行定義的語言,可以用來標(biāo)記數(shù)據(jù)、定義數(shù)據(jù)類型。從結(jié)構(gòu)上,XML像是HTML超文本標(biāo)記語言。XML被設(shè)計用來傳輸和存儲數(shù)據(jù),可以用來標(biāo)記數(shù)據(jù)、定義數(shù)據(jù)類型。3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件1.XML文件格式XML由成對標(biāo)簽組成,標(biāo)簽可以有屬性、嵌入子標(biāo)簽,標(biāo)簽對可以嵌入數(shù)據(jù),XML文檔是一種樹狀結(jié)構(gòu),從根部開始,然后擴展到樹枝、樹葉。第一行是XML聲明。它是定義XML的版本(1.0)和所有使用的編碼第二行是根元素(根節(jié)點)第三行以后是子元素(子節(jié)點)XML文檔必須包含根元素,該元素是所有其他元素的父元素2.XML語法規(guī)則①XML文檔必須有根元素,②XML文檔必須有關(guān)閉標(biāo)簽③XML標(biāo)簽對大小寫敏感④XML元素必須被正確的嵌套⑤XML屬性必須加引號3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件3.5.3JSON文件格式JSON(JavaScriptObjectNotation)采用完全獨立于語言的文本格式,是一種輕量級的數(shù)據(jù)交換格式。其可讀性、易于機器解析和生成的特點,使JSON成為理想的數(shù)據(jù)交換語言。3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件1.JSON文件的組成Object是一個無序的“‘名稱/值'對”集合。一個對象以“{”開始,“}”結(jié)束。每個“名稱”后跟一個“:”(冒號);“‘名稱/值'對”之間使用“,”分隔。Array是值(value)的有序集合。一個數(shù)組以“[”開始,“]”結(jié)束。值之間使用“,”分隔。值(value)可以是雙引號括起來的字符串(string)、數(shù)值(number)、true、false、null、對象(object)或者數(shù)組(array)。3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件2.使用Python解析JSON格式文件importjson#將json文件讀取成字符串jsonstring=open('C:/my.json').read()#對json數(shù)據(jù)解碼dict1=json.loads(jsonstring)#dict1的類型是字典dictprint(type(dict1))#直接打印dict1print(dict1)#輸出字典fork,vindict1.items():print(k+':'+str(v))3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件3.5.4數(shù)據(jù)標(biāo)注的輔助工具人工智能行業(yè)有一句讖言:有多少智能,就有多少人工。數(shù)據(jù)是人工智能賴以發(fā)展的基石,擁有高質(zhì)量、標(biāo)注好的數(shù)據(jù)將是人工智能高速發(fā)展的保障。數(shù)據(jù)標(biāo)注就是使用計算機,按照客戶的執(zhí)行規(guī)范把各種各樣的原始數(shù)據(jù)進行標(biāo)注,是個重復(fù)性很強的工作。在工作過程中經(jīng)常會遇到心情煩躁,影響到標(biāo)注的質(zhì)量。而人畢竟不是機器,總是會犯錯的,這樣就經(jīng)常會想到能否使用計算機來代替人,自動標(biāo)注數(shù)據(jù);在網(wǎng)上也會經(jīng)??吹剿^的使用腳本語言代替人工來自動拉框,24小時不間斷工作的廣告。如果對數(shù)據(jù)標(biāo)注工作非常了解,仔細(xì)想想就能看出來這種所謂的“自動標(biāo)注”都是騙人的。如果機器能自動標(biāo)注了,就不會有數(shù)據(jù)標(biāo)注這個行業(yè)了。3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件1.數(shù)據(jù)標(biāo)注的輔助工具數(shù)據(jù)自動標(biāo)注是每個數(shù)據(jù)標(biāo)注員心中期盼的目標(biāo),但畢竟那是未來的理想,回到現(xiàn)實中后靜下來想想,其實數(shù)據(jù)標(biāo)注整個環(huán)節(jié)中,有很多地方我們可以去改進的,比如:當(dāng)我們做語音標(biāo)注時,可以借助于科大訊飛的語音轉(zhuǎn)文本的工具,先識別一下,然后再進行校對修改;在做OCR手寫體識別時,也可以借助于OCR識別工具;其中常用的一些特殊符號,為了提高工作效率,可以編寫一些小程序來輔助快速標(biāo)注,提高工作效率。對常見的圖形拉框工具,為了避免人為失誤造成的數(shù)據(jù)標(biāo)注的低級錯誤,可以使用Python編寫初檢小程序,針對規(guī)則進行自動檢測,以避免初級錯誤的發(fā)生,提高標(biāo)注質(zhì)量。3.5常見的數(shù)據(jù)標(biāo)注結(jié)果文件2.正確認(rèn)知數(shù)據(jù)標(biāo)注行業(yè)人工智能是讓機器部分替代人的認(rèn)知功能?;叵胍幌挛覀兪侨绾螌W(xué)習(xí)成長的,其實人工智能也要經(jīng)歷這些發(fā)展階段。所謂的“自動標(biāo)注”,其實是指機器通過一定算法模型,認(rèn)識了標(biāo)注的圖片數(shù)據(jù)。這樣就不用再去標(biāo)注這些圖片了,一個人在成長的過程中,需要學(xué)的東西太多太多了,因此需要大量數(shù)據(jù)標(biāo)注員從事相關(guān)部分的工作以滿足人工智能訓(xùn)練數(shù)據(jù)的需求。
隨著今后標(biāo)注工具的不斷優(yōu)化,標(biāo)注人員會在智能化輔助工具的幫助下減少大量重復(fù)性的工作,未來單純依靠人工的純手工標(biāo)注工作會大大減少,與此相對數(shù)據(jù)標(biāo)注工作的門檻會提高,不再是簡單、重復(fù)的工作,而是需要對大數(shù)據(jù)、對人工智能領(lǐng)域有著相當(dāng)程度了解的專業(yè)性人才。未來數(shù)據(jù)標(biāo)注會成為人工智能行業(yè)中一個非常重要的工作,對從業(yè)人員的較高要求也會使從事數(shù)據(jù)標(biāo)注的人員出現(xiàn)供不應(yīng)求的現(xiàn)象。謝謝!數(shù)據(jù)標(biāo)注實用教程第四章:數(shù)據(jù)標(biāo)注員的職業(yè)素養(yǎng)內(nèi)容4.1數(shù)據(jù)標(biāo)注團隊的管理4.2數(shù)據(jù)標(biāo)注規(guī)則的重要性4.3數(shù)據(jù)標(biāo)注的質(zhì)檢4.4數(shù)據(jù)標(biāo)注員需要具備的職業(yè)素養(yǎng)第四章:數(shù)據(jù)標(biāo)注員的職業(yè)素養(yǎng)4.5數(shù)據(jù)標(biāo)注所需職業(yè)素養(yǎng)的培養(yǎng)內(nèi)容4.1.1數(shù)據(jù)標(biāo)注團隊的基礎(chǔ)架構(gòu)4.1.2數(shù)據(jù)標(biāo)注團隊的培訓(xùn)體系4.3數(shù)據(jù)標(biāo)注團隊的管理4.1數(shù)據(jù)標(biāo)注團隊的管理4.1.1數(shù)據(jù)標(biāo)注團隊的基礎(chǔ)架構(gòu)數(shù)據(jù)標(biāo)注團隊類型1)初創(chuàng)型的工作室2)成熟型的數(shù)據(jù)標(biāo)注公司3)綜合型的數(shù)據(jù)標(biāo)注團隊每種團隊都需要的角色1)數(shù)據(jù)標(biāo)注員2)質(zhì)檢員3)項目負(fù)責(zé)人4.1.2數(shù)據(jù)標(biāo)注團隊的培訓(xùn)體系完整的數(shù)據(jù)標(biāo)注培訓(xùn)體系通過三個維度對數(shù)據(jù)標(biāo)注員進行培養(yǎng)。(1)建立嚴(yán)格的培訓(xùn)流程,包括了解目標(biāo)-學(xué)習(xí)規(guī)則-線上培訓(xùn)、錄像學(xué)習(xí)-實際場景練習(xí)-達(dá)標(biāo)考試-進行工作-糾錯講解、改錯等。(2)有完善的職稱等級制度,分為素材收集員、專家、高級專家、講師。(3)設(shè)立激勵制度,數(shù)據(jù)標(biāo)注員的收益和職稱等級相關(guān)。京東眾智表示通過這套數(shù)據(jù)標(biāo)注培訓(xùn)體系的學(xué)習(xí)和訓(xùn)練,普通人可以快速成為數(shù)據(jù)標(biāo)注員。但是數(shù)據(jù)標(biāo)注公司在對數(shù)據(jù)標(biāo)注員和質(zhì)檢員進行實際培訓(xùn)時,往往需要花費一些精力。根據(jù)標(biāo)注規(guī)則的改進不斷進行培訓(xùn),提高數(shù)據(jù)標(biāo)注員的標(biāo)注能力,從而提高數(shù)據(jù)標(biāo)注的正確率。在國內(nèi)推動數(shù)據(jù)標(biāo)注行業(yè)職業(yè)化方面,鄭州點我科技有限公司有多年的行業(yè)經(jīng)驗,在大數(shù)據(jù)處理領(lǐng)域有豐富的實踐閱歷,擁有成熟的技術(shù)能力和一套完善的業(yè)務(wù)培訓(xùn)系統(tǒng),并一直踐行企業(yè)責(zé)任,努力推進行業(yè)向職業(yè)化、專業(yè)化發(fā)展。鄭州點我科技有限公司把數(shù)據(jù)標(biāo)注員劃分為初、中、高級3個等級。4.1.2數(shù)據(jù)標(biāo)注團隊的培訓(xùn)體系1)初級數(shù)據(jù)標(biāo)注員初級數(shù)據(jù)標(biāo)注員需要具備一定的職業(yè)道德,數(shù)據(jù)標(biāo)注員需要接觸大量數(shù)據(jù),有些可能涉及公民信息等較為敏感的數(shù)據(jù)。這就需要數(shù)據(jù)標(biāo)注員對所處理數(shù)據(jù)做到保密,不外傳,對工作中涉及的技術(shù)標(biāo)準(zhǔn)嚴(yán)格執(zhí)行,保護數(shù)據(jù)的完整性和一致性等。初級數(shù)據(jù)標(biāo)注員的行業(yè)基礎(chǔ)知識要求:具備簡單的人工智能相關(guān)知識、大數(shù)據(jù)處理相關(guān)知識,熟悉數(shù)據(jù)標(biāo)注的使用范圍及形式。初級數(shù)據(jù)標(biāo)注員的基礎(chǔ)業(yè)務(wù)能力要求:數(shù)據(jù)標(biāo)注類型比較多樣,包括2D圖片標(biāo)注、文字標(biāo)注、圖片采集、語音標(biāo)注等,需要數(shù)據(jù)標(biāo)注員熟悉標(biāo)注類型并且可以熟練掌握各種數(shù)據(jù)標(biāo)注工具。2)中級數(shù)據(jù)標(biāo)注員中級數(shù)據(jù)標(biāo)注員需要具備較高的職業(yè)道德和一定的從業(yè)經(jīng)驗,并有半年以上相關(guān)從業(yè)經(jīng)歷。中級數(shù)據(jù)標(biāo)注員的業(yè)務(wù)能力和責(zé)任心要求:除了一些初級標(biāo)注員需要做的數(shù)據(jù)標(biāo)注類型,中級數(shù)據(jù)標(biāo)注員需要掌握更為復(fù)雜的數(shù)據(jù)標(biāo)注類型,如3D立體標(biāo)注、3D點云標(biāo)注、視頻軌跡、語義分割等,同時中級數(shù)據(jù)標(biāo)注員需要具備一定的責(zé)任心,降低返工率。中級數(shù)據(jù)標(biāo)注員的質(zhì)檢能力要求:中級數(shù)據(jù)標(biāo)注員經(jīng)過一定階段培訓(xùn)考取資格證,不僅可以做一些更加專業(yè)的數(shù)據(jù)標(biāo)注,還可以對初級質(zhì)檢員標(biāo)注數(shù)據(jù)進行簡單的質(zhì)檢。3)高級數(shù)據(jù)標(biāo)注員高級數(shù)據(jù)標(biāo)注員的管理能力方面要求:需要達(dá)到對中級數(shù)據(jù)標(biāo)注員的所有要求,并有一年以上相關(guān)從業(yè)經(jīng)歷,可以對數(shù)據(jù)標(biāo)注團隊進行管理,總結(jié)數(shù)據(jù)標(biāo)注經(jīng)驗并對數(shù)據(jù)標(biāo)注員進行培訓(xùn)。高級數(shù)據(jù)標(biāo)注員對數(shù)據(jù)標(biāo)注各項流程要求:業(yè)務(wù)能力要求較高,所有類型數(shù)據(jù)標(biāo)注準(zhǔn)確率98%以上,并具備一定的質(zhì)檢審核能力,對所有業(yè)務(wù)高度熟練,能獨立完成各類業(yè)務(wù)的示范模板和操作培訓(xùn)。4.1.2數(shù)據(jù)標(biāo)注團隊的培訓(xùn)體系:數(shù)據(jù)標(biāo)注員質(zhì)量提升計劃表4-1數(shù)據(jù)標(biāo)注員質(zhì)量提升計劃4.1.2數(shù)據(jù)標(biāo)注團隊的培訓(xùn)體系:質(zhì)檢員質(zhì)量提升計劃表4-2質(zhì)檢員質(zhì)量提升計劃4.1.3數(shù)據(jù)標(biāo)注團隊的管理1.?dāng)?shù)據(jù)質(zhì)量管理體系數(shù)據(jù)質(zhì)量管理體系需要明確的組織機構(gòu),實行專人負(fù)責(zé),各司其職。一般來說,應(yīng)當(dāng)有扮演如下角色的人員:(1)負(fù)責(zé)領(lǐng)導(dǎo)、監(jiān)督和維護整個數(shù)據(jù)質(zhì)量管理體系的管理者代表;(2)負(fù)責(zé)在技術(shù)層面具體設(shè)計規(guī)則和流程、參與開發(fā)、評估和改進數(shù)據(jù)集質(zhì)量的研究者;(3)負(fù)責(zé)提供數(shù)據(jù)標(biāo)注參考標(biāo)準(zhǔn)、控制數(shù)據(jù)標(biāo)注質(zhì)量的數(shù)據(jù)標(biāo)注員;(4)負(fù)責(zé)對數(shù)據(jù)質(zhì)量管理體系進行內(nèi)部審查、對數(shù)據(jù)質(zhì)量問題開展糾正和預(yù)防措施的審查員;(5)負(fù)責(zé)在數(shù)據(jù)入庫前進行確認(rèn)。2.?dāng)?shù)據(jù)標(biāo)注團隊管理的作用對數(shù)據(jù)標(biāo)注進行管理,可以使數(shù)據(jù)標(biāo)注流程更為規(guī)范化,降低錯誤率和返工率。數(shù)據(jù)標(biāo)注行業(yè)是新興行業(yè),在初期需要建立一套規(guī)范化流程體系,對整個行業(yè)的發(fā)展都有促進作用。數(shù)據(jù)標(biāo)注團隊管理有以下幾個作用。1)規(guī)則化管理有利于企業(yè)效率的提升2)制度化管理有利于人才的培養(yǎng)3)規(guī)范化管理有助于數(shù)據(jù)的保密內(nèi)容4.2.1數(shù)據(jù)標(biāo)注規(guī)則
4.2.2數(shù)據(jù)標(biāo)注規(guī)則的特點
4.2.3數(shù)據(jù)標(biāo)注規(guī)則需要雙方溝通
4.2數(shù)據(jù)標(biāo)注規(guī)則的重要性4.2.4數(shù)據(jù)標(biāo)注規(guī)則需要標(biāo)注員不斷學(xué)習(xí)
4.2.1數(shù)據(jù)標(biāo)注規(guī)則數(shù)據(jù)標(biāo)注規(guī)則是指為了完成數(shù)據(jù)標(biāo)注項目,滿足需求公司要求,根據(jù)項目類型的不同而制定的供數(shù)據(jù)標(biāo)注員共同遵守的規(guī)則。目前數(shù)據(jù)標(biāo)注有3種常用的分類方法:(1)根據(jù)數(shù)據(jù)標(biāo)注對象不同,數(shù)據(jù)標(biāo)注可分為文本標(biāo)注、語音標(biāo)注、圖像標(biāo)注和視頻標(biāo)注;(2)根據(jù)數(shù)據(jù)標(biāo)注的構(gòu)成形式不同,數(shù)據(jù)標(biāo)注可分為結(jié)構(gòu)化標(biāo)注、非結(jié)構(gòu)化標(biāo)注和半結(jié)構(gòu)化標(biāo)注;(3)根據(jù)數(shù)據(jù)標(biāo)注者類型不同,數(shù)據(jù)標(biāo)注可分為人工標(biāo)注和機器標(biāo)注。在實際工作中,常按照數(shù)據(jù)標(biāo)注對象不同對數(shù)據(jù)標(biāo)注進行分類。4.2.2數(shù)據(jù)標(biāo)注規(guī)則的特點1.?dāng)?shù)據(jù)標(biāo)注規(guī)則需要一致數(shù)據(jù)標(biāo)注規(guī)則的一致性是數(shù)據(jù)標(biāo)注的必要條件。數(shù)據(jù)標(biāo)注規(guī)則可以復(fù)雜,但只能有一個。數(shù)據(jù)標(biāo)注規(guī)則可以演進,只要保證一致性,向前向后兼容就容易保障。需求公司根據(jù)需求提供完整的數(shù)據(jù)標(biāo)注規(guī)則,保證數(shù)據(jù)標(biāo)注員可以在數(shù)據(jù)標(biāo)注過程中邊界清晰。一份清晰明確的數(shù)據(jù)標(biāo)注規(guī)則,可以讓數(shù)據(jù)標(biāo)注公司將數(shù)據(jù)標(biāo)注任務(wù)劃分為流水線,讓每個數(shù)據(jù)標(biāo)注員只負(fù)責(zé)一件事,提高工作效率的同時也讓數(shù)據(jù)標(biāo)注流程得到更精細(xì)的控制。2.?dāng)?shù)據(jù)標(biāo)注規(guī)則需要完善需求方對某項產(chǎn)品研發(fā)時設(shè)定了一個大致的數(shù)據(jù)標(biāo)注規(guī)則,數(shù)據(jù)標(biāo)注團隊和數(shù)據(jù)標(biāo)注員在數(shù)據(jù)標(biāo)注過程中遇到問題需要反饋給需求方,側(cè)面輔助需求方不斷完善數(shù)據(jù)標(biāo)注規(guī)則。數(shù)據(jù)標(biāo)注規(guī)則不斷進行完善和細(xì)化對數(shù)據(jù)標(biāo)注生產(chǎn)的效率也有很大的影響,提前對數(shù)據(jù)標(biāo)注規(guī)則進行細(xì)化,運用在實際數(shù)據(jù)標(biāo)注過程中,可以提高數(shù)據(jù)標(biāo)注質(zhì)量。例如,有些項目場景復(fù)雜且主觀判斷元素多,數(shù)據(jù)標(biāo)注員對于場景的判斷非常有限,只能是對數(shù)據(jù)先進行標(biāo)注,然后不斷地發(fā)現(xiàn)問題,改進數(shù)據(jù)標(biāo)注規(guī)則并解決問題,最終達(dá)到預(yù)期結(jié)果。在完善數(shù)據(jù)標(biāo)注規(guī)則時需要遵循需求方優(yōu)先原則和質(zhì)檢優(yōu)先規(guī)則。4.2.3數(shù)據(jù)標(biāo)注規(guī)則需要雙方溝通良好的溝通是數(shù)據(jù)標(biāo)注行業(yè)中最重要的一環(huán)。在數(shù)據(jù)標(biāo)注工作中,一個人很難完成整個項目,數(shù)據(jù)標(biāo)注員需要與質(zhì)檢員、需求方進行交流合作,才能夠順利完成項目。數(shù)據(jù)標(biāo)注團隊和需求方也需要經(jīng)常溝通,積極溝通可以省去重復(fù)、返工等低效行為。相反地,不良的溝通會增加數(shù)據(jù)標(biāo)注團隊在標(biāo)注的各個環(huán)節(jié)上的成本。這就要求需求方和數(shù)據(jù)標(biāo)注團隊相互配合,一方面需要數(shù)據(jù)標(biāo)注團隊快速反饋問題,根據(jù)數(shù)據(jù)標(biāo)注員反饋的問題及時總結(jié),向需求方進行反饋,并且可以根據(jù)需求方的回饋內(nèi)容,對數(shù)據(jù)標(biāo)注員進行再培訓(xùn)教育,降低出錯率;另一方面,需求方根據(jù)數(shù)據(jù)標(biāo)注團隊上報的內(nèi)容進行回應(yīng),由專門負(fù)責(zé)人對此項目進行對接,可以大大縮短完成項目數(shù)據(jù)標(biāo)注任務(wù)的時間。掌握低成本的溝通技巧、了解如何有效地傳遞信息能提高工作效率,而積極地獲取信息更會提高自身的競爭優(yōu)勢。4.2.4數(shù)據(jù)標(biāo)注規(guī)則需要數(shù)據(jù)標(biāo)注員不斷學(xué)習(xí)不同的數(shù)據(jù)標(biāo)注項目對數(shù)據(jù)標(biāo)注員的要求也不一樣,對于一些數(shù)據(jù)標(biāo)注規(guī)則簡單且數(shù)據(jù)量比較大的數(shù)據(jù)標(biāo)注項目,數(shù)據(jù)標(biāo)注員只需要掌握數(shù)據(jù)標(biāo)注規(guī)則,按照數(shù)據(jù)標(biāo)注規(guī)則對數(shù)據(jù)進行標(biāo)注即可。但是對于一些需要專業(yè)背景的數(shù)據(jù)標(biāo)注項目,例如在進行醫(yī)療數(shù)據(jù)標(biāo)注時,數(shù)據(jù)標(biāo)注員需要做醫(yī)療圖像的分割,把腫瘤區(qū)域標(biāo)注出來,這樣的工作就需要專業(yè)的醫(yī)生才能完成。數(shù)據(jù)標(biāo)注項目的類型有很多,有難有易,但是只要掌握好數(shù)據(jù)標(biāo)注規(guī)則,不斷進行學(xué)習(xí),就無懼挑戰(zhàn)。因此無論對數(shù)據(jù)標(biāo)注員還是質(zhì)檢員來講,掌握好數(shù)據(jù)標(biāo)注規(guī)則才是核心。數(shù)據(jù)標(biāo)注規(guī)則有很多,數(shù)據(jù)標(biāo)注員不僅需要理解貫通,還需要牢記心中??焖僬莆諗?shù)據(jù)標(biāo)注規(guī)則是數(shù)據(jù)標(biāo)注員所具備的一項重要技能,理解數(shù)據(jù)標(biāo)注規(guī)則的內(nèi)容可以提高數(shù)據(jù)標(biāo)注效率,高質(zhì)量、高水平的完成數(shù)據(jù)標(biāo)注工作。數(shù)據(jù)標(biāo)注規(guī)則并不是一成不變的,數(shù)據(jù)標(biāo)注員需要根據(jù)需求方的要求進行相應(yīng)的修改。理解數(shù)據(jù)標(biāo)注規(guī)則可以幫助數(shù)據(jù)標(biāo)注團隊降低成本,提高數(shù)據(jù)標(biāo)注員的工作效率。因此“規(guī)則不明,返工常態(tài)”這句話充分說明了數(shù)據(jù)標(biāo)注規(guī)則的重要性。無論是對數(shù)據(jù)標(biāo)注員還是需求方,一個清晰、準(zhǔn)確、規(guī)范化的數(shù)據(jù)標(biāo)注規(guī)則是很重要的,數(shù)據(jù)標(biāo)注也堅持“質(zhì)量為先,規(guī)則為王”。在大數(shù)據(jù)和人工智能時代,低質(zhì)量的數(shù)據(jù)標(biāo)注可能導(dǎo)致算法運行時出現(xiàn)致命問題。內(nèi)容4.3.1數(shù)據(jù)標(biāo)注質(zhì)檢的重要性4.3.2常見的數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)分類4.3數(shù)據(jù)標(biāo)注的質(zhì)檢4.3.1數(shù)據(jù)標(biāo)注質(zhì)檢的重要性圖4-1數(shù)據(jù)標(biāo)注質(zhì)檢流程需要指出的是,在人工質(zhì)檢階段,要求質(zhì)檢員對每一條數(shù)據(jù)做到逐一質(zhì)檢,不放過任何一條數(shù)據(jù)。而在交叉抽檢階段,任何一條數(shù)據(jù)不匹配都將會進行重新標(biāo)注提交。質(zhì)檢員的作用主要是提高數(shù)據(jù)標(biāo)注質(zhì)量保證合格率和評判數(shù)據(jù)標(biāo)注員的能力。4.3.2常見的數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)分類常見的數(shù)據(jù)標(biāo)注類型包括文本標(biāo)注、語音標(biāo)注、圖像標(biāo)注、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年個人股權(quán)轉(zhuǎn)讓協(xié)議書范本4篇
- 2025年度綠色環(huán)保店鋪租賃及設(shè)施共建合同
- 2025版時尚服飾銷售合同模板(含季節(jié)性折扣)
- 2025年度個人別墅租賃合同模板2篇
- 2025年度環(huán)保工程監(jiān)理服務(wù)合同范本
- 2025年度商鋪買賣合同(含商業(yè)配套移交協(xié)議)4篇
- 2025-2030全球魚雷泵行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國賽車運動駕駛模擬器行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2024年臨床醫(yī)師定期考核試題中醫(yī)知識題庫及答案(共330題) (二)
- 2024年七年級語文下冊期末專項復(fù)習(xí):記敘文閱讀
- EHS工程師招聘筆試題與參考答案(某大型央企)2024年
- 營銷策劃 -麗亭酒店品牌年度傳播規(guī)劃方案
- 2025年中國蛋糕行業(yè)市場規(guī)模及發(fā)展前景研究報告(智研咨詢發(fā)布)
- 潤滑油過濾培訓(xùn)
- 護理組長年底述職報告
- 浙江省紹興市2023-2024學(xué)年高一上學(xué)期期末考試物理試題(含答案)
- 2013年6月22日下午湖北省公務(wù)員國家安全局面試真題
- 2024-2030年中國生命體征監(jiān)測行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報告
- 唐山市重點中學(xué)2024-2025學(xué)年全國高考大聯(lián)考信息卷:數(shù)學(xué)試題試卷(3)含解析
- 未成年上班知情協(xié)議書
- DZ∕T 0213-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 石灰?guī)r、水泥配料類(正式版)
評論
0/150
提交評論