《智能數(shù)據(jù)分析與應用》 課件 單元1、2 了解數(shù)據(jù)分析、數(shù)據(jù)標注_第1頁
《智能數(shù)據(jù)分析與應用》 課件 單元1、2 了解數(shù)據(jù)分析、數(shù)據(jù)標注_第2頁
《智能數(shù)據(jù)分析與應用》 課件 單元1、2 了解數(shù)據(jù)分析、數(shù)據(jù)標注_第3頁
《智能數(shù)據(jù)分析與應用》 課件 單元1、2 了解數(shù)據(jù)分析、數(shù)據(jù)標注_第4頁
《智能數(shù)據(jù)分析與應用》 課件 單元1、2 了解數(shù)據(jù)分析、數(shù)據(jù)標注_第5頁
已閱讀5頁,還剩58頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)分析概述1了解數(shù)據(jù)分析01案例1:啤酒與尿布案例2:股票走勢預測數(shù)據(jù)分析步驟0203041了解數(shù)據(jù)分析1了解數(shù)據(jù)分析數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計、分析方法對收集來的大量數(shù)據(jù)進行分析,將它們加以匯總、理解并消化,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)分析是為了提取有用信息和形成結論而對數(shù)據(jù)加以詳細研究和概括總結的過程。1了解數(shù)據(jù)分析廣義的數(shù)據(jù)分析包括狹義數(shù)據(jù)分析和數(shù)據(jù)挖掘。狹義數(shù)據(jù)分析是指根據(jù)分析目的,采用對比分析、分組分析、交叉分析和回歸分析等分析方法,對收集的數(shù)據(jù)進行處理與分析,提取有價值的信息,發(fā)揮數(shù)據(jù)的作用,得到一個特征統(tǒng)計量結果的過程。2案例1:啤酒與尿布2“啤酒與尿布”的故事產(chǎn)生于20世紀90年代的美國某超市中,超市管理人員分析銷售數(shù)據(jù)時發(fā)現(xiàn)了一個令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關系的商品會經(jīng)常出現(xiàn)在同一個購物籃中,這種獨特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上,他們在購買尿布的同時,往往會順便買啤酒犒勞自己。超市管理人員發(fā)現(xiàn)了這一獨特的現(xiàn)象,開始嘗試將啤酒與尿布擺放在相同的區(qū)域的促銷手段,從而提高了這兩件商品銷售收入案例1:啤酒與尿布3案例2:股票走勢預測案例2:股票走勢預測3

現(xiàn)在市面上各種股票分析軟件很多,它們就是通過對某支股票之前漲跌數(shù)據(jù)經(jīng)過分析后,給出合理的意見,有最近一年的、最近一周的、最近三天的,數(shù)據(jù)分析的越多得出結論越趨于合理。當然股票行情由于存在的影響因素居多,比如企業(yè)并購、管理層更換、國家政策等,所以股票的數(shù)據(jù)分析最終只能是一種參考,最終的決定權還在持股人手里,但是這種對于股票的數(shù)據(jù)分析無疑給玩股票的人提供了更多有效信息。4數(shù)據(jù)分析步驟數(shù)據(jù)分析步驟4

數(shù)據(jù)分析已經(jīng)逐漸演化為一種解決問題的過程,甚至是一種方法論。雖然每個公司都會根據(jù)自身需求和目標創(chuàng)建最適合的數(shù)據(jù)分析流程,但是數(shù)據(jù)分析的核心步驟是一致的。數(shù)據(jù)分析步驟41、數(shù)據(jù)獲取數(shù)據(jù)獲取是數(shù)據(jù)分析工作的基礎,是指根據(jù)需求分析的結果提取、收集數(shù)據(jù)。數(shù)據(jù)獲取主要有兩種方式:網(wǎng)絡數(shù)據(jù)與本地數(shù)據(jù)。網(wǎng)絡數(shù)據(jù)是指存儲在互聯(lián)網(wǎng)中的各類視頻、圖片、語音和文字等信息。本地數(shù)據(jù)則是指存儲在本地數(shù)據(jù)庫中的生產(chǎn)、營銷和財務等系統(tǒng)的數(shù)據(jù)。本地數(shù)據(jù)按照數(shù)據(jù)時間又可以劃分為兩部分,分別是歷史數(shù)據(jù)與實時數(shù)據(jù)。歷史數(shù)據(jù)是指系統(tǒng)在運行過程中遺存下來的數(shù)據(jù),其數(shù)據(jù)量隨系統(tǒng)運行時間的增加而增長;實時數(shù)據(jù)是指最近一個單位時間周期(月、周、日、小時等)內(nèi)產(chǎn)生的數(shù)據(jù)。在數(shù)據(jù)分析過程中,具體使用哪種數(shù)據(jù)獲取方式,需要依據(jù)需求分析的結果而定。數(shù)據(jù)分析步驟42、數(shù)據(jù)預處理數(shù)據(jù)預處理是指對數(shù)據(jù)進行數(shù)據(jù)合并、數(shù)據(jù)清洗、數(shù)據(jù)標準化和數(shù)據(jù)變換,并直接用于分析建模的這一過程的總稱。其中,數(shù)據(jù)合并可以將多張互相關聯(lián)的表格合并為一張;數(shù)據(jù)清洗可以去除重復、缺失、異常、不一致的數(shù)據(jù);數(shù)據(jù)標準化可以去除特征間的量綱差異;數(shù)據(jù)變換則可以通過離散化、啞變量處理等技術滿足后期分析與建模的數(shù)據(jù)要求。在數(shù)據(jù)分析的過程中,數(shù)據(jù)預處理的各個過程互相交叉,并沒有明確的先后順序。數(shù)據(jù)分析步驟43、分析與建模分析與建模是指通過對比分析、分組分析、交叉分析、回歸分析等分析方法,以及聚類模型、分類模型、關聯(lián)規(guī)則、智能推薦等模型與算法,發(fā)現(xiàn)數(shù)據(jù)中有價值的信息,并得出結論的過程。在數(shù)據(jù)分析過程中,具體使用哪種數(shù)據(jù)獲取方式,需要依據(jù)需求分析的結果而定。分析與建模的方法按照目標不同可以分為幾大類。如果分析目標是描述客戶行為模式的,那么可以采用描述型數(shù)據(jù)分析方法,同時還可以考慮關聯(lián)規(guī)則、序列規(guī)則和聚類模型等。如果分析目標是量化未來一段時間內(nèi)某個事件發(fā)生概率的,那么可以使用兩大預測分析模型,即分類預測模型和回歸預測模型。在常見的分類預測模型中,目標特征通常為二元數(shù)據(jù),如欺詐與否、流失與否、信用好壞等。在回歸預測模型中,目標特征通常為連續(xù)型數(shù)據(jù),常見的有股票價格預測等。數(shù)據(jù)分析步驟44、模型評價與優(yōu)化模型評價是指對于已經(jīng)建立的一個或多個模型,根據(jù)其模型的類別,使用不同的指標評價模型性能優(yōu)劣的過程。常用的聚類模型評價指標有ARI評價法(蘭德系數(shù))、AMI評價法(互信息)、V-measure評分、FMI評價法和輪廓系數(shù)等。常用的分類模型評價指標有準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值(F1Value)、ROC和AUC等。常用的回歸模型評價指標有平均絕對誤差、均方誤差、中值絕對誤差和可解釋方差值等。模型優(yōu)化則是指模型性能在經(jīng)過模型評價后已經(jīng)達到了要求,但在實際生產(chǎn)環(huán)境應用過程中,發(fā)現(xiàn)模型的性能并不理想,繼而對模型進行重構與優(yōu)化的過程。多數(shù)情況下,模型優(yōu)化和分析與建模的過程基本一致。數(shù)據(jù)分析步驟45、部署部署是指將數(shù)據(jù)分析結果與結論應用至實際生產(chǎn)系統(tǒng)的過程。根據(jù)需求的不同,部署階段可以是一份包含了現(xiàn)狀具體整改措施的數(shù)據(jù)分析報告,也可以是將模型部署在整個生產(chǎn)系統(tǒng)的解決方案。在多數(shù)項目中,數(shù)據(jù)分析師提供的是一份數(shù)據(jù)分析報告或一套解決方案,實際執(zhí)行與部署的是需求方。ThankYOU!數(shù)據(jù)標注概述2數(shù)據(jù)標注概念01數(shù)據(jù)標注分類數(shù)據(jù)標注流程0203常用數(shù)據(jù)標注工具041數(shù)據(jù)標注概念1數(shù)據(jù)標注概念1、數(shù)據(jù)標注

對文本、圖像、語音、視頻等待標注數(shù)據(jù)進行歸類、整理、編輯、糾錯、標記和批注等操作,為待標注數(shù)據(jù)增加標簽,生產(chǎn)滿足機器學習訓練要求的機器可讀數(shù)據(jù)編碼。2、標簽(label)

標識數(shù)據(jù)的特征、類別和屬性等,可用于建立數(shù)據(jù)及機器學習訓練要求所定義的機器可讀數(shù)據(jù)編碼間的聯(lián)系。1數(shù)據(jù)標注概念3、標注任務

按照數(shù)據(jù)標注規(guī)范對數(shù)據(jù)集進行標注的過程。4、數(shù)據(jù)標注員

負責對文本、圖像、音頻、視頻等待標注數(shù)據(jù)進行歸類、整理、編輯、糾錯、標記和批注等操作的工作人員。1數(shù)據(jù)標注概念5、標注工具

數(shù)據(jù)標注員完成標注任務產(chǎn)生標注結果所需的工具和軟件。標注工具按照自動化程度分手動、半自動和自動三種。2數(shù)據(jù)標注分類2數(shù)據(jù)標注分類1、文本標注文本標注是對文本進行特征標記的過程。需要明確文本的多維度特征,對其打上具體的語義、構成、語境、目的、情感等元數(shù)據(jù)標簽,以創(chuàng)建一個巨大的文本數(shù)據(jù)集(文本訓練數(shù)據(jù))。通過標注好的訓練數(shù)據(jù),可以教會機器如何識別文本中隱含的人類意圖或情感,更加“人性化”地理解語言。2數(shù)據(jù)標注分類2、圖像標注圖像標注是計算機視覺(ComputerVision)領域重要的過程之一。在圖像標注過程中,數(shù)據(jù)標注員使用標簽或元數(shù)據(jù)來標記AI模型學習識別的數(shù)據(jù)特征。圖像標注的數(shù)據(jù)被用于訓練機器模型,使計算機在見到無標記的新數(shù)據(jù)時識別出這些特征。主要的標注方法有點標、框標、區(qū)域標注、3D標注、分類標注等等應用場景如安防、教育、自動駕駛等等,目前落地比較成熟的有人臉識別、車牌識別等領域。2數(shù)據(jù)標注分類3、語音標注語音標注是數(shù)據(jù)標注行業(yè)中一種比較常見的標注類型,主要工作內(nèi)容是將語音中包含的文字信息、各種聲音“提取”出來,進行轉(zhuǎn)寫或合成主要用于人工智能機器學習,應用在語音識別、對話機器人等領域。3數(shù)據(jù)標注流程數(shù)據(jù)標注流程3

數(shù)據(jù)標注基本流程:3數(shù)據(jù)標注流程1、數(shù)據(jù)采集

數(shù)據(jù)采集與獲取是整個數(shù)據(jù)標注流程的首要環(huán)節(jié)。對于數(shù)據(jù)標注眾多平臺而言,其數(shù)據(jù)主要來源于提出標注需求的人工智能公司。通過互聯(lián)網(wǎng)獲取公開的數(shù)據(jù)集與專業(yè)數(shù)據(jù)集。公開數(shù)據(jù)集是政府、科研機構等對外開放的資源,獲取比較簡單專業(yè)數(shù)據(jù)往往更耗費人力物力,有時需要通過人工采集、購買所得,或者通過拍攝、錄制等自主手段所得。3數(shù)據(jù)標注流程2、數(shù)據(jù)清洗對所采集的數(shù)據(jù)進行篩檢,去掉重復的、無關的數(shù)據(jù);對于異常值與缺失值進行查缺補漏,同時平滑噪聲數(shù)據(jù),最大限度糾正數(shù)據(jù)的不一致行和不完整性;將數(shù)據(jù)統(tǒng)一成合適于標注且與主題密切相關的標注格式,以幫助訓練更為精確的數(shù)據(jù)模型和算法。3數(shù)據(jù)標注流程3、數(shù)據(jù)標注數(shù)據(jù)經(jīng)過清洗,即可進入數(shù)據(jù)標注的核心環(huán)節(jié)。4、數(shù)據(jù)質(zhì)檢無論是數(shù)據(jù)采集、數(shù)據(jù)清洗,還是數(shù)據(jù)標注,通過人工處理數(shù)據(jù)的方式并不能保證完全準確。為了提高數(shù)據(jù)輸出的準確率,數(shù)據(jù)質(zhì)檢成為重要的環(huán)節(jié),而最終通過質(zhì)檢環(huán)節(jié)的數(shù)據(jù)才算是真正的過關。4常用數(shù)據(jù)標注工具4常用數(shù)據(jù)標注工具1、文本標注工具DoccanoDoccano是一個開源的文本標注工具,目前支持文本分類、序列標注以及seq2seq,支持自定義標簽用于情感分析、NER(命名實體識別)、機器翻譯、文本摘要等任務。4常用數(shù)據(jù)標注工具2、圖像標注工具LabelImgLabelImg是一個圖像標注工具,它是使用python的qt開發(fā)的。通過它標注圖像生成的標簽文件支持xml、PASCALVOC、YOLO。優(yōu)點:跨平臺,支持Linux、MacOS、Windows安裝方便使用簡單。缺點:只支持矩形框的標注。4常用數(shù)據(jù)標注工具3、語音標注工具PraatPraat,是目前比較流行也比較專業(yè)的語音處理的軟件,可以進行語音數(shù)據(jù)標注、語音錄制、語音合成、語音分析等等,同時生成各種語圖和報表免費、占用空間小、通用性強、可移植性好等特點ThankYOU!數(shù)據(jù)標注案例2案例1:文本標注01案例2:圖像標注案例3:語音標注02031案例1:文本標注1文本標注doccano是docummentanotation的縮寫,是一個開源的文本標注工具,可以用它為NLP任務的語料庫進行打標。它支持情感分析、命名實體識別、文本摘要等任務。操作非常便捷,在小型語料庫上,只要數(shù)小時就能完成全部的打標工作。下面介紹一下如何在Windows10操作系統(tǒng)下安裝、配置和使用doccano,doccano是基于python開發(fā)的,所以要先安裝python解釋器。1文本標注1、python解釋器的安裝進入Python官網(wǎng)(P),單擊Downloads->Windows雙擊下載好的安裝文件【python-3.9.12-amd64.exe】1文本標注2、doccano的安裝與初始配置打開DOS窗口,執(zhí)行以下命令

#pipinstalldoccano==1.6.2-i/simple/然后,執(zhí)行以下命令#初始化數(shù)據(jù)庫#doccanoinit#創(chuàng)建一個superuser。這里要把pass改成容易記住的密碼。當然,用戶名也可以改成別的。#doccanocreateuser--usernameadmin--passwordpass1文本標注3、doccano的安裝與初始配置在終端中運行下面的代碼來啟動WebServer#doccanowebserver--port8000打開另一個終端,運行下面的代碼啟動任務隊列doccanotask1文本標注4、運行doccano與創(chuàng)建新的文本打標打開瀏覽器(最好是Chrome),在地址欄中輸入http://localhost:8000/并回車到“項目”的界面。單擊左上角的“創(chuàng)建”按鈕來創(chuàng)建新的項目以文本分類為例,填寫完項目要求的信息后,單擊保存,就創(chuàng)建了一個新的NLP文本分類的標注項目1文本標注5、添加語料庫首先單擊左上角的“操作”→“導入數(shù)據(jù)集”單擊“TextLine格式”,然后在跳轉(zhuǎn)到的界面里,選擇文件格式再單擊“數(shù)據(jù)集”的標簽,就可以看到一條一條的文本已經(jīng)被添加到項目中了,將來將對這些文本進行打標1文本標注6、添加標簽添加將來可供選擇的標簽單擊“標簽”,就來到了添加標簽的界面。單擊“操作”按鈕,并在下拉菜單中單擊“創(chuàng)建標簽”可以給標簽自定義顏色。全部設置好以后,單擊“保存”1文本標注7、添加成員添加成員,多個人協(xié)同完成語料庫的打標工作通過命令添加賬戶#doccanocreateuser--username小明--passwordpassword可以設置不同的成員的角色,不同的角色對應著不同的權限1文本標注8、添加標注指南9、開始給文本打標以NER任務為例,在打標的界面下,選中句子中的實體,然后在上面選擇相應的實體類型People,也可以直接在鍵盤上按下p鍵1文本標注10、審核標注結果11、導出打標結果當要導出標注結果的時候,重新用管理員用戶登陸,在“數(shù)據(jù)集”頁面下,單擊“操作”→“導出數(shù)據(jù)集”通過命令添加賬戶2案例2:圖像標注2圖像標注圖像標注是許多人工智能產(chǎn)品的基礎,并且是計算機視覺(ComputerVision)領域重要的過程之一。在圖像標注過程中,數(shù)據(jù)標注員使用標簽或元數(shù)據(jù)來標記AI模型學習識別的數(shù)據(jù)特征。這些圖像標注的數(shù)據(jù)被用于訓練機器模型,使計算機在見到無標記的新數(shù)據(jù)時識別出這些特征2圖像標注1、圖像分類分類是簡單又快捷的圖像標注方法,僅將一個標簽應用于一張圖像。例如,人們可能想要瀏覽并分類一系列雜貨店貨架的圖像,并確定哪些貨架上有汽水哪些沒有汽水。在一天中的時間內(nèi),圖像中是否有汽車。在提供單一、高級標簽方面,分類是一種快捷的圖像標注方法不指示圖像中物體所在的位置。2圖像標注2、目標檢測目標檢測是讓標注員在圖像中標注出指定的特定物體。因此,如果分類法將圖像歸類為包含汽水,那么這種方法進一步表明汽水在圖像中的位置,或者是正在尋找的芬達汽水的位置。目標檢測的標注技術有:2D邊界框、三維長方體或3D邊界框、多邊形分割、樣條線標注目標檢測允許重疊使用框或線,因此該方法仍不是高精確的方法。它提供的是物體的一般位置,同時也是相對較快的標注過程。2圖像標注3、語義分割語義分割通過確保圖像的每個組成部分僅屬于一個類別來解決物體檢測的重疊問題。通俗的來說就是語義分割是對區(qū)域內(nèi)的像素分類而不是目標分類。圖像標注方法并不僅僅局限于上述三種類型。其他的方法包括專門用于人臉識別的類型,例如特征點標注(標注員使用人體

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論