非結(jié)構(gòu)化數(shù)據(jù)分析與應(yīng)用 課件 第1、2章 非結(jié)構(gòu)數(shù)據(jù)分析概述、非結(jié)構(gòu)化數(shù)據(jù)的獲取_第1頁
非結(jié)構(gòu)化數(shù)據(jù)分析與應(yīng)用 課件 第1、2章 非結(jié)構(gòu)數(shù)據(jù)分析概述、非結(jié)構(gòu)化數(shù)據(jù)的獲取_第2頁
非結(jié)構(gòu)化數(shù)據(jù)分析與應(yīng)用 課件 第1、2章 非結(jié)構(gòu)數(shù)據(jù)分析概述、非結(jié)構(gòu)化數(shù)據(jù)的獲取_第3頁
非結(jié)構(gòu)化數(shù)據(jù)分析與應(yīng)用 課件 第1、2章 非結(jié)構(gòu)數(shù)據(jù)分析概述、非結(jié)構(gòu)化數(shù)據(jù)的獲取_第4頁
非結(jié)構(gòu)化數(shù)據(jù)分析與應(yīng)用 課件 第1、2章 非結(jié)構(gòu)數(shù)據(jù)分析概述、非結(jié)構(gòu)化數(shù)據(jù)的獲取_第5頁
已閱讀5頁,還剩73頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

非結(jié)構(gòu)化數(shù)據(jù)分析和應(yīng)用非結(jié)構(gòu)化數(shù)據(jù)分析和應(yīng)用孔祥維管理學院數(shù)據(jù)系kongxiangwei@目錄和內(nèi)容第一章

非結(jié)構(gòu)數(shù)據(jù)化分析和應(yīng)用導論第二章非結(jié)構(gòu)數(shù)據(jù)化獲取和表示第三章文本數(shù)據(jù)的表示和分析第四章圖像數(shù)據(jù)的表示和分析第五章音樂數(shù)據(jù)的表示和分析第六章非結(jié)構(gòu)數(shù)據(jù)化分析應(yīng)用案例和挑戰(zhàn)第一章非結(jié)構(gòu)化數(shù)據(jù)分析概論第一部分背景篇-導論第1章非結(jié)構(gòu)數(shù)據(jù)分析概論1.1非結(jié)構(gòu)數(shù)據(jù)的概念1.2非結(jié)構(gòu)數(shù)據(jù)的特點1.3管理視角的非結(jié)構(gòu)數(shù)據(jù)分析1.4非結(jié)構(gòu)數(shù)據(jù)分析的應(yīng)用典例即評即測1.1非結(jié)構(gòu)數(shù)據(jù)的概念

數(shù)據(jù)可以分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)是以數(shù)值、字符串等形式記錄的定量數(shù)據(jù)可以存入到關(guān)系型數(shù)據(jù)庫里,用二維邏輯表記錄下來。該類型的數(shù)據(jù)結(jié)構(gòu)清晰,通過基本的查找匹配就能處理數(shù)據(jù)。姓名性別證件號銀行卡號手機號用戶等級張三男110。。。101.。。1301.。。1李四女230。。。202.。。1305.。。2王五男420。。。303.。。1881.。。3。。。。。。。。。。。。。。。。。。1.2非結(jié)構(gòu)數(shù)據(jù)的特點大數(shù)據(jù)5V特點:Volume(大量)Velocity(高速)Variety(多樣)Value(低價值密度)Veracity(真實)非結(jié)構(gòu)化數(shù)據(jù)特點:海量動態(tài)多源異構(gòu)多模語義1.2非結(jié)構(gòu)數(shù)據(jù)的特點-海量動態(tài)2020年世界上一分鐘里發(fā)生的數(shù)據(jù):Youtube:3000分鐘的視頻被上傳Facebook:15萬條信息被分享,14.7萬張圖像被上傳Twitter:新增319個用戶抖音:2704次下載亞馬遜:6659個包裹被遞送Zoom:208333位用戶身處會議中網(wǎng)飛:404444小時的視頻被觀看1.2非結(jié)構(gòu)數(shù)據(jù)的特點-多源異構(gòu)多種傳感器的數(shù)據(jù)類型:文本、音頻、圖像、視頻、點擊流、傳感器數(shù)據(jù)、日志文件等。多種組織產(chǎn)生的多種來源數(shù)據(jù):包括企業(yè)內(nèi)部和外部的數(shù)據(jù)不同數(shù)據(jù)類型多樣、結(jié)構(gòu)多樣不同形式可能描述同一件事情1.2非結(jié)構(gòu)數(shù)據(jù)的特點-多模語義多種模態(tài)數(shù)據(jù)之間存在相互不理解的鴻溝多模態(tài)對齊可挖掘子元素間的細粒度交互解釋和挖掘多模態(tài)數(shù)據(jù)的子元素間的關(guān)聯(lián)性多模態(tài)的商品數(shù)據(jù)1.3管理視角的非結(jié)構(gòu)數(shù)據(jù)分析從組織管理角度:企業(yè)決策者缺乏采納非結(jié)構(gòu)數(shù)據(jù)分析的意識,有可能從戰(zhàn)略上錯失良機如果目標和戰(zhàn)略制定中包含非結(jié)構(gòu)數(shù)據(jù)分析,可以拓展將業(yè)務(wù)價值提高從企業(yè)決策角度:企業(yè)研發(fā)、計劃、組織、生產(chǎn)、協(xié)調(diào)、銷售、服務(wù)和創(chuàng)新等運營業(yè)務(wù)鏈用數(shù)據(jù)反映戰(zhàn)略的決策和規(guī)劃的執(zhí)行,最終可由流程驅(qū)動轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動,可導致企業(yè)的變革從分析能力角度:掌握非結(jié)構(gòu)化數(shù)據(jù)分析能力,對大多數(shù)企業(yè)組織來說是一個主要障礙企業(yè)提供需求場景,利用非結(jié)構(gòu)數(shù)據(jù)分析工具構(gòu)建數(shù)據(jù)分析和決策系統(tǒng)文本數(shù)據(jù):企業(yè)積累了大量業(yè)務(wù)文檔和資料,文本數(shù)據(jù)分析可以為其定義新價值文本數(shù)據(jù)、客服系統(tǒng)的語音、商品文字描述、用戶議價的對話等數(shù)據(jù)數(shù)據(jù)分析后可以掌握用戶的反應(yīng)、評論的情感和商品的評價可以對網(wǎng)民的意圖及早研判,掌握網(wǎng)絡(luò)輿情的演化發(fā)展音頻數(shù)據(jù):對電商售后出現(xiàn)的用戶常規(guī)問題,數(shù)據(jù)量大、重復性高利用音頻助理回答問題,緩解人工忙線,節(jié)省人力財力分析大型發(fā)電機的振動信號,可利用傳感器采集音頻信號、分析檢測出異常后及時報修。1.3管理視角的非結(jié)構(gòu)數(shù)據(jù)分析圖像數(shù)據(jù):拍攝現(xiàn)實中的物體和事件,分享到微信、微博、抖音等網(wǎng)絡(luò)平臺上圖像數(shù)據(jù)分析可以實時審核并判斷用戶和商家上傳的圖像是否滿足行業(yè)規(guī)范,及時攔截違規(guī)圖像在電商平臺選品中,對商品圖像進行自定義的過濾、選優(yōu)和排序和推薦在電商APP中用圖搜圖,輕松發(fā)現(xiàn)同類商品,用戶方便地獲得搜索服務(wù)視頻數(shù)據(jù):視頻可以用于各行各業(yè)的監(jiān)控和安全檢測例如智能視頻分析,對指定區(qū)域內(nèi)的可疑人員進行自動發(fā)現(xiàn)和報警在鐵路、公路、銀行等重要的公共安全區(qū)域提供預報警。圖像視頻分析識別工件缺陷,實現(xiàn)質(zhì)量和安全控制過程的自動化。1.3管理視角的非結(jié)構(gòu)數(shù)據(jù)分析1.3管理視角的非結(jié)構(gòu)數(shù)據(jù)分析多模態(tài)數(shù)據(jù):每一種信息的來源或者形式,都可以稱為一種模態(tài)(Modality),當研究問題包括多種這樣的形式時,研究問題被描述為多模態(tài)。例如視頻、圖像、語音、紅外、聲譜、遙感、超聲、CT等。不同模態(tài)數(shù)據(jù)從不同角度反映場景,可以獲得更具有廣度的信息。其他數(shù)據(jù):股票數(shù)據(jù)、出租車軌跡數(shù)據(jù)、運動實時數(shù)據(jù)等序列數(shù)據(jù)識別數(shù)據(jù)隱藏規(guī)律、提供預測分析,為及早采取具體行動爭取時間非結(jié)構(gòu)數(shù)據(jù)分析的方法非結(jié)構(gòu)數(shù)據(jù)分析包含三大類方法描述性分析(DescriptiveAnalytics)預測性分析(Predictiveanalytics)指導性規(guī)定性分析(Prescriptiveanalytics)數(shù)據(jù)驅(qū)動的決策

維基百科對數(shù)據(jù)驅(qū)動的定義:

數(shù)據(jù)驅(qū)動指的是流程中的行為是被數(shù)據(jù)驅(qū)動而不是被人的直覺和經(jīng)驗驅(qū)動的

表2流程驅(qū)動和數(shù)據(jù)驅(qū)動的不同點流程驅(qū)動數(shù)據(jù)驅(qū)動輸入:人的經(jīng)驗、直覺輸入:結(jié)構(gòu)和非結(jié)構(gòu)數(shù)據(jù)過程:文檔設(shè)計,流程分析過程:數(shù)據(jù)建模,人工智能設(shè)計過程可解釋,過程可視化模型訓練過程不可見非自動化可自動化迭代慢學習迭代輸出:規(guī)則體系輸出:決策體系流程驅(qū)動和數(shù)據(jù)驅(qū)動的不同點1.4非結(jié)構(gòu)數(shù)據(jù)分析的應(yīng)用典例經(jīng)濟案例1:分析衛(wèi)星圖像衡量制造業(yè)活躍程度SpaceKnow公司的衛(wèi)星圖像感興趣的區(qū)域SpaceKnow是一家美國公司,該公司基于衛(wèi)星圖像數(shù)據(jù)和機器學習算法,創(chuàng)建了經(jīng)濟學新概念

“中國衛(wèi)星制造業(yè)指數(shù)”(ChinaSatelliteManufacturingIndex)—SMI,用于評估中國制造業(yè)活躍程度。數(shù)據(jù)源自22億個衛(wèi)星圖像,反映了50萬平方公里下6000個工業(yè)區(qū)里的商品庫存、房地產(chǎn)以及表面材料等,通過AI算法,分析經(jīng)濟活動的某些特征。例如,一塊原先被草覆蓋的土地后來變成了水泥地面,可以說明這期間該地區(qū)制造業(yè)在擴張。

SpaceKnow的中國衛(wèi)星制造業(yè)指數(shù)(CNSMI)SMI以50為分界線,低于50為收縮,高于50為擴張。金融案例:衛(wèi)星圖像用于原油儲備監(jiān)測OrbitalInsights分析儲油罐衛(wèi)星圖像的影子變化,監(jiān)測原油儲備美國數(shù)據(jù)服務(wù)提供商OrbitalInsights對分析衛(wèi)星圖像的儲油罐的影子變化,以監(jiān)測原油儲備。為減少蒸發(fā)儲油罐上有個漂浮蓋子,儲油量高低不同蓋子會隨之上下浮動,導致反射在儲油庫墻上的月牙形的影子大小有變化,當儲油罐滿的,影子最小,當儲油罐空的,影子最大。市場不透明是導致油價波動的主要因素之一,通過監(jiān)控的原油儲備情況,可為客戶提供更精確的原油數(shù)據(jù),幫助顧客做出更好的市場決策。金融案例:生物識別+金融

金融是生物識別技術(shù)應(yīng)用典型且重要的領(lǐng)域。為金融管理和服務(wù)提供安全保障和用戶體驗。以指紋、人臉、虹膜、靜脈、聲紋為主流。金融案例:資產(chǎn)管理的另類數(shù)據(jù)分析在市場競爭中占得先機進行投資決策,從非結(jié)構(gòu)化數(shù)據(jù)中提取信息,將成為資產(chǎn)管理領(lǐng)域的重要發(fā)展方向之一。對沖基金增加了對“另類數(shù)據(jù)”(alternativedata)的研究。“另類數(shù)據(jù)”指可能影響投資決策,但不屬于市場統(tǒng)計數(shù)據(jù)和公財報類傳統(tǒng)信息的數(shù)據(jù),大部分是本文提到的非結(jié)構(gòu)化數(shù)據(jù)。另類數(shù)據(jù)分為個體產(chǎn)生的數(shù)據(jù)、商業(yè)過程的數(shù)據(jù)和傳感器產(chǎn)生的數(shù)據(jù)等個體數(shù)據(jù)包括在社交媒體、專業(yè)網(wǎng)站、新聞、搜索引擎上產(chǎn)生的數(shù)據(jù);商業(yè)數(shù)據(jù)包括交易數(shù)據(jù)、企業(yè)、行業(yè)、政府機構(gòu)的數(shù)據(jù)等傳感器產(chǎn)生的數(shù)據(jù)包括衛(wèi)星圖像、定位數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)等金融案例:另類數(shù)據(jù)的24種類型傳統(tǒng)金融數(shù)據(jù):指通過常規(guī)渠道獲得的數(shù)據(jù)例如股票、債券等的交易數(shù)據(jù)上市公司年報和財務(wù)數(shù)據(jù)銀行用戶的貸數(shù)據(jù)等另類數(shù)據(jù)典型特點數(shù)據(jù)體量大,體現(xiàn)在規(guī)模和傳輸量;流動速度大,數(shù)據(jù)實時獲取和傳輸;數(shù)據(jù)種類多,數(shù)據(jù)結(jié)構(gòu)形式多樣。金融案例:另類數(shù)據(jù)的來源

個人產(chǎn)生的數(shù)據(jù)如社交網(wǎng)絡(luò)信息、產(chǎn)品評價、搜索記錄、購物喜好等;商業(yè)過程數(shù)據(jù)如物流數(shù)據(jù)、支付數(shù)據(jù)等;如大型百貨公司客流量、大型游樂場客流量等數(shù)據(jù);傳感器數(shù)據(jù)如利用衛(wèi)星數(shù)據(jù)通過光感和熱感采集鋼廠、化工廠、原油等的開工、采集、運輸情況;來自GPS定位、車輛軌跡和個人穿戴設(shè)備的另類數(shù)據(jù)。商業(yè)案例:Amazon新零售無人購物新零售是一種以互聯(lián)網(wǎng)為依托,通過運用大數(shù)據(jù)、人工智能等先進技術(shù)手段,對商品的生產(chǎn)、流通與銷售過程進行升級改造,進而重塑業(yè)態(tài)結(jié)構(gòu)與生態(tài)圈,并對線上服務(wù)、線下體驗以及現(xiàn)代物流進行深度融合的零售新模式。無人零售業(yè)包括開放貨架、自動販賣機、無人便利店和無人超市AmazonGo無人超市是亞馬遜推出的用戶體驗較好的自動化無人便利店,2018年1月正式向公眾開放超市中有大量的圖像和視頻數(shù)據(jù)分析產(chǎn)品用于數(shù)據(jù)監(jiān)控和場景測量,基于人工智能和數(shù)據(jù)分析,AmazonGo實現(xiàn)了即拿即走的無人零售。Amazon新零售無人購物購物流程

其購物流程包括:1)客戶通過二維碼、NFC等方式進入商店;2)基于AmazonRekognition深度學習技術(shù)識別圖像和體態(tài),聲音傳感器輔助店內(nèi)定位;3)貨架頂部圖像傳感器、商品下方壓力傳感器,精準識別商品拿放;4)商場內(nèi)裝有聲音傳感器,協(xié)助確定顧客位置;5)自動追蹤商品結(jié)算、推送賬單,用戶實現(xiàn)即拿即走。商業(yè)案例:數(shù)據(jù)分析改變你的購物方式要改變消費者的購物行為是很難的,通過數(shù)據(jù)分析挖掘客戶數(shù)據(jù)的價值可能是一條新的路徑。創(chuàng)業(yè)公司Celect預測購物者的行為方式,以確定在商店的哪個部分進行什么樣的促銷,效果更好,哪些產(chǎn)品放在哪里,會獲得最佳效果。受圖像分析和增強現(xiàn)實等技術(shù)驅(qū)動,公司打造了數(shù)據(jù)分析、挖掘和預測相關(guān)算法如:虛擬試妝、顏色匹配、個性化推薦、虛擬卸妝、面部追蹤和膚色檢測。這些均可應(yīng)用于手機、平板和電腦端,再配備高清增強技術(shù)的智能鏡,探索了一條改變傳統(tǒng)的購物方式的新途徑。商業(yè)案例:數(shù)據(jù)分析改變你的購物方式服務(wù)案例:攜程的酒店圖像智能化分析

攜程是中國領(lǐng)先的綜合性旅行服務(wù)公司擁有全球百萬家酒店數(shù)以億計的酒店圖像酒店圖像數(shù)量還在以每天數(shù)十萬的速度增長。酒店圖像主要有如下四個來源:商家拍攝工作人員采集合作方提供用戶上傳圖像變化多端的酒店圖像酒店圖像智能服務(wù)服務(wù)案例:Airbnb利用圖像分析增加吸引力如何成規(guī)模地指導房東提升其房源圖片的吸引力?Airbnb利用了圖像分析,其中一項是將房源圖片按照不同的房間類型進行分類。一方面,分類能將同種房間的圖片分到一組,讓用戶更為順暢地參觀房源;另一方面,分類大大簡化了校驗每種房間數(shù)量以及房源基本信息的工作。對優(yōu)化用戶體驗而言,將給定房源圖片按房間類型正確分類,對用戶端,能按不同的房間類型對房源照片進行重新排序和布局,優(yōu)先展示用戶最感興趣的照片。在房東端,能自動審核房源,保證它們符合平臺的高標準。房間類型包括臥室、浴室、客廳、廚房、泳池和房源景觀,Airbnb內(nèi)部研發(fā)模型的表現(xiàn)整體上要優(yōu)于第三方通用模型。服務(wù)案例:Airbnb利用圖像分析增加吸引力

左邊兩張圖被正確地預測為臥室;右邊兩張圖被正確地預測為不是臥室醫(yī)療案例:首款人工智能醫(yī)療設(shè)備IDx-DR

2018年4月11日美國衛(wèi)生監(jiān)管機構(gòu)食品藥品監(jiān)督管理局(FDA)已經(jīng)批準了世界上第一款使用人工智能檢測糖尿病患者視網(wǎng)膜病變的醫(yī)療設(shè)備IDx-DR上市IDx-DR將用于檢測糖尿病視網(wǎng)膜病變,高血糖會導致視網(wǎng)膜血管損傷和視力下降,糖尿病性視網(wǎng)膜病變是導致患者失明的最常見原因,也是導致處于工作年齡階段的成年人視力障礙和失明的主要原因。內(nèi)置攝像頭用于拍攝患者眼睛的照片,通過算法評估拍攝的圖像,確定患者是否有糖尿病視網(wǎng)膜病變的跡象。IDx-DR對于輕度以上的糖尿病視網(wǎng)膜病變的準確識別率為87.4%對輕度及以下的糖尿病視網(wǎng)膜病變的識別率為89.5%。該軟件可向醫(yī)生提供以下結(jié)果之一:1)發(fā)現(xiàn)輕度以上的糖尿病性視網(wǎng)膜病變,轉(zhuǎn)診至眼科醫(yī)生。2)未發(fā)現(xiàn)輕度以上的糖尿病性視網(wǎng)膜病變,12個月內(nèi)復查。3)如檢測結(jié)果為陽性,患者應(yīng)盡快聯(lián)系眼科醫(yī)生診斷評估及治療。醫(yī)療案例:使腦卒中患者更快得到精準治療2018年2月,舊金山的醫(yī)療公司Viz.AI獲得FDA腦卒中護理應(yīng)用的營銷授權(quán)。提供臨床決策支持,用深度學習算法自動分析CT神經(jīng)圖像,檢測與腦卒中相關(guān)的指標。通常患者需要等待放射科醫(yī)師檢查CT圖像,并通知神經(jīng)血管專家,專家仍需要在臨床工作站上查看CT圖像。Viz.AI的應(yīng)用程序旨在分析大腦的CT圖像,在發(fā)現(xiàn)可疑的大血管阻塞時向神經(jīng)血管專家發(fā)送文本通知,同時一線提供商對圖像進行標準審查。Viz?智能護理協(xié)調(diào)?的工作流程

(圖像來源:Viz.aiIntelligentCareCoordination)在工作流程早期將一線醫(yī)務(wù)人員與專家輕松聯(lián)系起來合作醫(yī)院初次接診掃描咨詢轉(zhuǎn)院

多學科團隊

中心醫(yī)院治療Viz?智能護理協(xié)調(diào)?的工作流程

制造案例:風力發(fā)電中的智能風力預測風力發(fā)電成為備受重視的清潔能源,但存在不穩(wěn)定性,導致供電需求和電力供應(yīng)不匹配產(chǎn)生的電力浪費和故障。DeepMind與谷歌將機器學習算法應(yīng)用到了美國中部一座擁有700兆瓦風力電量的發(fā)電場上,這些風電場可為一座中型城市產(chǎn)出所需的電力。使用當?shù)靥鞖忸A報和渦輪機的歷史數(shù)據(jù)訓練神經(jīng)網(wǎng)絡(luò),DeepMind系統(tǒng)配置可在發(fā)電前36由于對風力產(chǎn)出、電力供需、運營成本進行了提前掌握,將風力能源價值提高大約20%。制造案例:風力發(fā)電中的智能風力預測謝謝大家勤學/修德/明辨/篤實第二章非結(jié)構(gòu)化數(shù)據(jù)的獲取2.1文本數(shù)據(jù)獲取2.2圖像數(shù)據(jù)獲取2.3視頻數(shù)據(jù)獲取2.4音頻數(shù)據(jù)獲取2.5多模態(tài)數(shù)據(jù)獲取目錄和內(nèi)容2.1文本數(shù)據(jù)獲取文本獲取方式文本存儲格式文本的標注文本數(shù)據(jù)庫2.1.1文本獲取方式設(shè)備獲取用鍵盤錄入文字手寫版轉(zhuǎn)換形成文檔紙文件拍照掃描,字符識別OCR將語音轉(zhuǎn)成文本例如科大訊飛出品的翻譯機和有道詞典等用手機拍照圖像,從拍照圖像識別文字可以將證件中的文字和數(shù)字信息提取出來爬蟲抓取網(wǎng)絡(luò)爬蟲(WebCrawler或WebSpider)-自動實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)采集核心模塊:URL管理器、下載器、和HTML解析器。URL管理器:管理URL倉庫,對倉庫中的URL進行分類,添加和刪除(去重)。URL下載器:讀取URL倉庫中的URL,下載URL鏈接所對應(yīng)的HTML頁面,然后把頁面內(nèi)容傳給HTML解析器。HTML解析器:對URL下載器下載下來的頁面文件,利用HTML標簽等結(jié)構(gòu)信息進行解析和信息提取,將信息保存在本地庫中。眾包平臺

在2006年6月,美國《連線》雜志的記者杰夫·豪(JeffHowe)提出了“眾包”這一概念杰夫·豪對“眾包”的定義:“一個公司或機構(gòu)把過去由員工執(zhí)行的工作任務(wù)以自由自愿的形式外包給非特定的(而且通常是大型的)大眾網(wǎng)絡(luò)的做法。百度眾包百度眾測是眾包模式的典型應(yīng)用,測試工作交由網(wǎng)絡(luò)社區(qū)大眾來完成,見圖右。百度眾測利用的是大眾的測試能力和測試資源在短時間內(nèi)完成大工作量的產(chǎn)品體驗,然后將體驗結(jié)果反饋至平臺由平臺管理人員將信息搜集后交給開發(fā)人員,從用戶角度出發(fā),改善產(chǎn)品質(zhì)量。百度眾包涵蓋圖像、文本、語音、視頻等全維度多媒體數(shù)據(jù)2.1.2文本存儲格式

文本文件是指以ASCII碼方式存儲的文件,英文、數(shù)字等字符存儲的都是ASCII碼英語文字是由26個字母拼組而成,用一個字節(jié)表示一個英文字符。漢字國標GB2312標準共收錄6763個漢字,漢字存儲的是機內(nèi)碼,編碼采用兩字節(jié)的低7位共14個二進制位表示。文件有多種格式存儲:txt格式的文件大多數(shù)軟件都可以查看,如記事本、瀏覽器等等。優(yōu)勢是體積小、存儲簡單方便,用記事本閱讀,支持純文字,不支持圖像。

doc格式的文件是現(xiàn)在主流的文字編輯軟件,應(yīng)用最廣泛的文本格式*.doc使用2003以前版本,自Word2007之后變?yōu)閐ocx

html格式的文件是一種制作萬維網(wǎng)瀏覽器頁面的標準語言,它是用超文本標記語言編寫生成的文件格式可以產(chǎn)生網(wǎng)頁傳遞各類資訊的文件,消除了不同計算機之間信息交流的障礙。pdf格式的文件PDF是PortableDocumentFormat的簡稱,意為“可攜帶文檔格式”,是由AdobeSystems用于與應(yīng)用程序、操作系統(tǒng)、硬件無關(guān)的方式進行文件交換所發(fā)展出的文件格式。

2.1.3文本標注

情感標注:文本中隱含的態(tài)度和情感,標記為積極、消極或中立。意圖標注:分析隱含的需求,如請求、命令、預訂、推薦和確認。語義標注:標記產(chǎn)品標題和搜索查詢中的各個組件,確認文本中引用的概念和實體,例如人物、地點或主題的含義并貼上標簽。命名實體標注:命名實體識別(NamedEntityRecognition,簡稱NER)任務(wù)是:識別出待處理文本中三大類命名實體:實體類、時間類和數(shù)字類;七小類:人名、機構(gòu)名、地名、時間、日期、貨幣和百分比。采用專家標注和眾包等完成。2.1.4文本數(shù)據(jù)庫

(1)WikipediaCorpus維基百科數(shù)據(jù)集超過400萬篇文章,近19億單詞,可以逐單詞、逐短語、逐段地進行檢索。(2)TwentyNewsgroups數(shù)據(jù)集該數(shù)據(jù)集涵蓋新聞組相關(guān)信息,包含從20個不同新聞組獲取的20000篇新聞組文檔匯編(每個新聞組選取1000篇),是用于文本分類、文本挖據(jù)和信息檢索研究的國際標準數(shù)據(jù)集之一(3)今日頭條新聞數(shù)據(jù)集

來自今日頭條的新聞版塊,提取了15個類別的新聞,包括旅游,教育,金融,軍事等,主要用于短文本文本分類(4)清華新聞分類語料庫根據(jù)新浪新聞RSS訂閱頻道2005-2011年間的歷史數(shù)據(jù)篩選過濾生成,共包含74萬篇新聞文檔,包括體育,財經(jīng),房產(chǎn),家居,教育,科技,時尚,時政,游戲,娛樂14個候選分類類別。2.2圖像數(shù)據(jù)獲取

2.2.2圖像的獲取-設(shè)備獲取可見光/紅外熱成像/顯微/激光/電鏡/等圖像的獲取手機/相機紅外/熱成像顯微成像掃描電鏡可見光/激光雷達/紅外/熱成像探地雷達成像2.2.2圖像的獲取-生成圖像GAN可以創(chuàng)造非常逼真的假圖像,其真實度人眼難以辨識出來。上圖展示出多種形式圖像的轉(zhuǎn)變與生成。2.2.3面向任務(wù)的圖像標注

目標檢測標注

線和邊緣標注2D包圍框:在被檢測的物體周圍繪制矩形框,定義對象在圖像中的位置,邊框由矩形左上角的x、y軸坐標和右下角的x、y軸坐標來確定。優(yōu)點和缺點:標注相對容易、快速。但不能提供重要的信息,如物體的方向,這對許多應(yīng)用來說是至關(guān)重要的。多邊形標記:針對形狀不規(guī)則的物體,使用多邊形標記。注釋時只需標記物體的邊緣,就能得到要檢測物體的輪廓。

優(yōu)點和缺點:多邊形標記的優(yōu)點是捕獲了物體的精確尺寸,但非常耗時,如果物體的形狀是復雜的,很難標注。線和邊緣標記:線和樣條線適用于多種用途,但它們主要用于訓練機器識別車道和邊界語義分割標注語義分割:語義分割是需要像素級標注,其中圖像中的每個像素都被關(guān)聯(lián)到一個類,每個像素都帶有語義意義。實例分割:實例分割是圖像分割的一種子類型,它在像素級別上標識圖像中每個物體的每個實例。實例分割和語義分割是圖像分割的兩種粒度級別之一。全景分割:全景分割結(jié)合了語義分割和實例分割,所有像素都被分配一個類標簽,所有目標實例都被唯一地分割。即同時實現(xiàn)對背景的語義分割和前景的實例分割圖像分類標注LabelMe是麻省理工(MIT)的計算機科學和人工智能實驗室(CSAIL)研發(fā)的圖像標注工具,人們可以使用該工具創(chuàng)建定制化標注任務(wù)或執(zhí)行圖像標注,項目源代碼已經(jīng)開源。2.2.4圖像數(shù)據(jù)庫

ImageNet數(shù)據(jù)集ImageNet圖像數(shù)據(jù)集始于2009年,當時斯坦福的李飛飛教授等在CVPR2009上發(fā)表了一篇名為《ImageNet:ALarge-ScaleHierarchicalImageDatabase》的論文。關(guān)于圖像分類、定位、檢測等研究工作大多基于此數(shù)據(jù)集展開。DeepFashion2時尚數(shù)據(jù)集DeepFashion2總共有80.1萬件服飾每張圖像最少有一件服飾,最多有七件服飾。每件服飾都被手動標記了邊界框、掩膜和密集的標注平均每件服飾20個標記。每件都標有比例、遮擋、縮放、視角、邊界框、密集標注和像素掩膜。2.3視頻數(shù)據(jù)獲取設(shè)備獲取的幾個關(guān)鍵的屬性名詞如下:幀率(FPS):每秒播放的幀數(shù)被定義為幀率幀率越高,在視覺上認為圖像越連貫,幀率與圖像清晰度無關(guān),決定了視頻的連貫性幀分辨率:幀分辨率基本決定了視頻的清晰度。在同樣大小的圖像中,分辨率越高,圖像通常就會越清晰視頻的1080P(1920*1080)、720P(1280*720)就是幀分辨率標準視頻生成例如軟件Deepfake是由人工智能生成的逼真視頻,是在現(xiàn)實生活中不存在的人或物體。Deepfake是由“deepmachinelearning”和“fakephoto”組合而成,是深度學習模型在圖像合成、替換領(lǐng)域的技術(shù)框架,為深度圖像生成模型的成功應(yīng)用。Deepfake可以對外國電影進行逼真的視頻配音,虛擬購物穿衣,對人進行換臉等等Deepfakes的出現(xiàn)降低了重現(xiàn)臉部的技術(shù)門檻,用軟件就可以做出逼真效果。2.3.2視頻數(shù)據(jù)儲存格式

視頻儲存格式常用的四種存儲格式有:AVI格式MOV格式MPG格式FLV格式2.3.3視頻數(shù)據(jù)標注人工標注員和自動化工具被結(jié)合起來用于標記視頻素材中的目標對象。視頻標簽越準確,模型的表現(xiàn)就越好。常用的視頻標注工具有CDVA(compactdescriptorforvideoanalysis),VoTT等國內(nèi)有京東眾智、百度眾測等平臺對標注任務(wù)進行外包。VoTT對視頻進行標注的界面2.3.4視頻數(shù)據(jù)庫UCF101是從YouTube收集的具有101個操作類別的現(xiàn)實動作視頻識別數(shù)據(jù)集。101個動作類別的13320個視頻,具有相機運動、物體外觀和姿勢、物體比例、視點、雜亂背景、照明條件等變化的現(xiàn)實動作視頻數(shù)據(jù)。UCF101數(shù)據(jù)集的動作類別包括:化眼妝、涂唇膏、射箭、嬰兒爬行、平衡木、樂隊游行、棒球、打籃球、扣籃、臥推、騎自行車、臺球、吹干頭發(fā)、吹蠟燭、下蹲、保齡球、拳擊、出氣筒、蛙泳、刷牙、挺舉、懸崖跳水、保齡球、板球、潛水、打鼓、擊劍、曲棍球、體操、飛盤、爬泳、高爾夫揮桿、理發(fā)、扔鏈球、錘擊、倒立俯臥撐等等。AVA人類動作識別數(shù)據(jù)庫

谷歌發(fā)布了數(shù)據(jù)集AVA(AtomicVisualActions),提供擴展視頻序列中每個人的多個動作標簽。從YouTube收集了大量“電影”和“電視”兩個類別。每個視頻分析其中15分鐘的剪輯片段,這個片段均勻分割成300個不重疊小片段,每一段3秒鐘。在每個3秒片段的中間幀,打標者從80個原子動作詞匯中選擇標簽來描述人物的行為動作。行為分為三組:姿態(tài)/移動動作、人和物體的交互、人與人的交互2.4音頻數(shù)據(jù)獲取音頻包括語音、唱歌、音樂等,由于空氣震動產(chǎn)生的聲波。除了空氣以外,在固體和液體中,聲音也是可以傳播的。聲音在計算機中是通過將連續(xù)的聲波進行數(shù)字化來完成的。人和一些動物發(fā)聲和聽覺的頻率范圍2.4.1設(shè)備獲取、網(wǎng)絡(luò)下載和音頻合成通過網(wǎng)絡(luò)引擎搜索音頻資源Window10自帶的錄音軟件利用軟件進行音頻合成編輯

音頻獲取方式音頻數(shù)字化的過程包括采樣、量化、編碼等等。采樣按照一定的時間間隔,對信號的幅值進行一個瞬時的取值量化是對模擬音頻信號的幅度軸進行數(shù)字化,它決定了模擬信號數(shù)字化以后的動態(tài)范圍,例如從0到信號的最大值一共分成了16份,量化的過程按照就近原則對應(yīng)到劃分好的16份,每一份對應(yīng)一個二進制數(shù)值,就把一個模擬的、連續(xù)的聲音轉(zhuǎn)換成了一串二進制數(shù)值。采用音頻編碼后成為某一格式的音頻文件。

2.4.2音頻數(shù)據(jù)存儲格式音頻在數(shù)字化之后可以理解成是由一個一個的點構(gòu)成的波形圖如右圖,是出現(xiàn)在電影《星際穿越》中的插曲“原野追逐”的波形幅度包絡(luò)圖可以看出聲音信號經(jīng)過數(shù)字化,在單位時間上的點不斷鏈接、上下波動,形成了一種有規(guī)律的數(shù)據(jù)形式數(shù)字化音頻的儲存格式有WAV、MIDI、MP3等格式。

歌曲“原野追逐”隨時間變化的波形幅度包絡(luò)圖

2.4.3音頻標注語音數(shù)據(jù)標注就是對語音數(shù)據(jù)進行語義、語法、音素等多種層次的標識,為后續(xù)的音頻分析做好準備。語音標注工具可以對錄制的音頻

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論