第1章 1.1 深度學(xué)習(xí)簡介_第1頁
第1章 1.1 深度學(xué)習(xí)簡介_第2頁
第1章 1.1 深度學(xué)習(xí)簡介_第3頁
第1章 1.1 深度學(xué)習(xí)簡介_第4頁
第1章 1.1 深度學(xué)習(xí)簡介_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

深度學(xué)習(xí)簡介1深度學(xué)習(xí)常見應(yīng)用目錄深度學(xué)習(xí)的定義2深度學(xué)習(xí)目前在很多領(lǐng)域的表現(xiàn)都優(yōu)于過去的方法,在圖像分類與識別、語音識別與合成、人臉識別、視頻分類與行為識別等領(lǐng)域都有著不俗的表現(xiàn)。除此以外,深度學(xué)習(xí)還涉及到與生活相關(guān)的紋理識別、行人檢測、場景標(biāo)記、門牌識別等領(lǐng)域。人臉識別采用深度學(xué)習(xí)方法后的識別率超過了目前非深度學(xué)習(xí)算法以及人類的識別率,深度學(xué)習(xí)技術(shù)在語音識別領(lǐng)域更是取得了突破性的進(jìn)展,在大規(guī)模圖像分類問題上也遠(yuǎn)超傳統(tǒng)方法。深度學(xué)習(xí)的定義深度學(xué)習(xí)(DeepLearning,DL)是機(jī)器學(xué)習(xí)(MachineLearning,ML)領(lǐng)域中一個(gè)新的研究方向,深度學(xué)習(xí)被引入機(jī)器學(xué)習(xí)使其更接近于最初的目標(biāo)——人工智能(ArtificialIntelligence,AI)。深度學(xué)習(xí)的目標(biāo)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次。在2015年第9期《自然》雜志中,存在與深度學(xué)習(xí)定義相關(guān)的內(nèi)容:深度學(xué)習(xí)方法是具有多層次特征描述的特征學(xué)習(xí),通過一些簡單但非線性的模塊將每一層特征描述(從未加工的數(shù)據(jù)開始)轉(zhuǎn)化為更高一層的、更為抽象一些的特征描述。深度學(xué)習(xí)的定義深度學(xué)習(xí)的關(guān)鍵在于這些層次的特征不是由人工設(shè)計(jì)的,而是使用一種通用的學(xué)習(xí)步驟從數(shù)據(jù)中學(xué)習(xí)獲取的。這些學(xué)習(xí)過程中獲得的信息對文字、圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。深度學(xué)習(xí)在搜索技術(shù)、數(shù)據(jù)挖掘、機(jī)器翻譯、多媒體學(xué)習(xí)、語音識別、推薦和個(gè)性化技術(shù)以及其他相關(guān)領(lǐng)域都取得了很多成果。深度學(xué)習(xí)使機(jī)器模仿視聽和思考等人類的活動,解決了很多復(fù)雜的模式識別難題,使得人工智能相關(guān)技術(shù)取得了很大進(jìn)步,最終目標(biāo)是讓機(jī)器能夠像人一樣具有分析學(xué)習(xí)能力。深度學(xué)習(xí)的定義20世紀(jì)80、90年代,由于計(jì)算機(jī)計(jì)算能力有限和相關(guān)技術(shù)的限制,可用于分析的數(shù)據(jù)量太小,深度學(xué)習(xí)在模式分析中并沒有表現(xiàn)出優(yōu)異的識別性能。在2002年,杰弗里·辛頓(GeoffreyHinton)等提出受限玻耳茲曼機(jī)(RestrictedBoltzmannMachines,RBM)的一個(gè)快速學(xué)習(xí)算法,即對比散度算法(ContrastiveDivergence,CD-K)以后,啟發(fā)了被廣泛使用的深度信念網(wǎng)絡(luò)(DeepBeliefNets,DBN)等深度網(wǎng)絡(luò)的出現(xiàn)。與此同時(shí),能自動從數(shù)據(jù)中提取特征的稀疏編碼技術(shù)也被應(yīng)用于深度學(xué)習(xí)中。近年來,隨著深度學(xué)習(xí)技術(shù)在圖像領(lǐng)域上的應(yīng)用,能夠提取局部區(qū)域特征的卷積神經(jīng)網(wǎng)絡(luò)方法被大量研究。深度學(xué)習(xí)的定義1深度學(xué)習(xí)常見應(yīng)用目錄深度學(xué)習(xí)的定義2深度學(xué)習(xí)的常見應(yīng)用有圖像分類、圖像分割、圖像生成、圖像標(biāo)題的生成、圖像風(fēng)格變換、目標(biāo)檢測、物體測量、物體分揀、視覺定位、情感分析、無人駕駛、機(jī)器翻譯、文本到語音轉(zhuǎn)換、手寫文字轉(zhuǎn)錄和音頻生成。深度學(xué)習(xí)常見應(yīng)用圖像分類的核心是從給定的分類集合中,給圖像分配一個(gè)標(biāo)簽的任務(wù)。實(shí)際上,圖像分類是分析一個(gè)輸入圖像并返回一個(gè)將圖像分類的標(biāo)簽。標(biāo)簽總是來自預(yù)定義的可能類別集。利用深度學(xué)習(xí)算法可以實(shí)現(xiàn)對貓的圖像進(jìn)行分類,如下圖所示。圖像分類圖像分割就是將圖像分成若干個(gè)特定的、具有獨(dú)特性質(zhì)的區(qū)域并提出感興趣目標(biāo)的技術(shù)和過程,它是由圖像處理到圖像分析的關(guān)鍵步驟。從數(shù)學(xué)角度來看,圖像分割是將數(shù)字圖像劃分成互不相交的區(qū)域的過程。圖像分割的過程也是一個(gè)標(biāo)記過程,即把屬于同一區(qū)域的像素賦予相同的編號。圖像分割對街道車輛圖像進(jìn)行分割的結(jié)果,如下圖所示。圖像分割有一種新的研究,能實(shí)現(xiàn)在生成圖像的過程中不需要另外輸入任何圖像,只要前期使用大量的真實(shí)圖像讓網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),即可由網(wǎng)絡(luò)自動生成新的圖像。目前常見的生成模型有VAE系列、GAN系列等。其中GAN系列算法近年來取得了巨大的進(jìn)展,最新GAN模型產(chǎn)生的圖片效果達(dá)到了肉眼難辨真?zhèn)蔚某潭?。圖像生成GAN模型生成的假動漫人物圖像如下圖所示。圖像生成神經(jīng)圖像標(biāo)題(NeuralImageCaption,NIC)模型會自動生成介紹輸入圖像的文字。該模型由深層的卷積神經(jīng)網(wǎng)絡(luò)和自然語言語言處理的循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)構(gòu)成。卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,RNN生成文本。圖像標(biāo)題生成輸入的原圖像如下圖所示,可以生成諸如“一群人正在騎馬”或“一群人正在草原上騎馬”或“一群人正在藍(lán)天白云下的草原上享受騎馬”等標(biāo)題。圖像標(biāo)題生成圖像風(fēng)格的變換是利用了卷積神經(jīng)網(wǎng)絡(luò)可以提取高層特征的效果,不在像素級別進(jìn)行損失函數(shù)的計(jì)算,而是將原圖像和生成圖像都輸入至一個(gè)已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)里,在得到的某種特征表示上計(jì)算歐式距離(內(nèi)容損失函數(shù))。這樣得到的圖像與原圖內(nèi)容相似,但像素級別不一定相似,且所得圖像更具魯棒性。輸入兩個(gè)圖像,計(jì)算機(jī)會生成一個(gè)新的圖像。圖像風(fēng)格轉(zhuǎn)換兩個(gè)輸入圖像中,一個(gè)稱為“內(nèi)容圖像”,如圖1-5所示;另外一個(gè)稱為“風(fēng)格圖像”,如圖1-6所示。如果將梵高的繪畫風(fēng)格應(yīng)用于內(nèi)容圖像上,那么深度學(xué)習(xí)會按照要求繪制出新風(fēng)格,其輸出圖像如圖1-7所示。圖像風(fēng)格轉(zhuǎn)換目標(biāo)檢測就是從圖像中確定物體的位置,并對物體進(jìn)行分類。根據(jù)騎行圖像對騎行者進(jìn)行檢測,如下圖所示。目標(biāo)檢測目標(biāo)檢測是機(jī)器視覺領(lǐng)域最主要的應(yīng)用之一,例如,汽車違規(guī)行駛的檢測會為了保障行車、行人的安全在路口安裝交通檢測系統(tǒng),檢測汽車的行駛速度是否超過限制、是否存在違規(guī)變道行為、是否存在闖紅燈行為、是否遮擋車牌、是否系安全帶等。而人工檢測存在著較多的弊端,如準(zhǔn)確率低,長時(shí)間工作準(zhǔn)確性更是無法保障,而且檢測速度慢,容易出現(xiàn)錯判和漏判。因此,機(jī)器視覺在目標(biāo)檢測的應(yīng)用方面也就顯得非常重要。目標(biāo)檢測目標(biāo)檢測比物體識別更難。原因在于目標(biāo)檢測需要從圖像中確定物體的位置,有時(shí)還有可能存在多個(gè)物體。對于這樣的問題,人們提出了多個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)的方法,這些方法有著非常優(yōu)秀的性能。在使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測的方法中,區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region-ConvolutionalNeuralNetworks,R-CNN)較早地運(yùn)用在目標(biāo)檢測上,因此該算法較為成熟。R-CNN算法在提高訓(xùn)練和測試的速度的同時(shí)提高了檢測精度。目標(biāo)檢測在日常生活中,物體測量通常是對物體的質(zhì)量、長度、高度、體積等進(jìn)行測量。在機(jī)器視覺應(yīng)用中,使用光的反射進(jìn)行非接觸式測量,如右圖所示,是某款手機(jī)使用非接觸光學(xué)測量方法對桌子進(jìn)行的測量。物體測量技術(shù)多用于工業(yè)方面,主要包括對汽車零部件、齒輪、半導(dǎo)體元件管腳、螺紋等進(jìn)行測量。物體測量物體分揀是建立在識別、檢測之后的一個(gè)環(huán)節(jié),通過機(jī)器視覺對圖像中的目標(biāo)進(jìn)行檢測和識別,實(shí)現(xiàn)自動分揀,如下圖所示。物體分揀在工業(yè)應(yīng)用領(lǐng)域常用于食品分揀、零件表面瑕疵自動分揀、棉花纖維分揀等。同時(shí),物體分揀在物流、倉庫中的運(yùn)用更為廣泛,在分揀過程中,機(jī)器通過按照物品種類、物品大小、出入庫的先后順序等方法對物體進(jìn)行分揀。物體分揀視覺定位要求機(jī)器能夠快速準(zhǔn)確地找到被測零件并確認(rèn)其位置,如下圖所示。在半導(dǎo)體封裝領(lǐng)域,設(shè)備需要根據(jù)機(jī)器視覺取得芯片位置信息、調(diào)整拾取頭、準(zhǔn)確拾取芯片并進(jìn)行綁定,這就是視覺定位在機(jī)器視覺工業(yè)領(lǐng)域最基本的應(yīng)用。視覺定位情感分析最核心的問題就是從一段文字中判斷作者對主體的評價(jià)是好評還是差評。針對通用場景下帶有主觀描述的中文文本,利用深度學(xué)習(xí)算法自動判斷該文本的情感極性類別并給出相應(yīng)的置信度,情感極性分為積極、消極、中性或更多維的情緒,情感分析的例子如下圖所示。情感分析無人駕駛被認(rèn)為是強(qiáng)化學(xué)習(xí)短期內(nèi)能技術(shù)落地的一個(gè)應(yīng)用方向,很多公司投入大量資源在無人駕駛上,其中百度的無人巴士“阿波龍”已經(jīng)在北京、武漢等地展開試運(yùn)營,自動無人駕駛的行車視野如下圖所示。未來生活中,深度學(xué)習(xí)算法在交通領(lǐng)域的應(yīng)用,可能會創(chuàng)造出一個(gè)完全智能調(diào)度的移動出行網(wǎng)絡(luò)。無人駕駛機(jī)器翻譯技術(shù)的發(fā)展一直與計(jì)算機(jī)技術(shù)、信息論、語言學(xué)等學(xué)科的發(fā)展緊密相隨。從早期的詞典匹配,到詞典結(jié)合語言學(xué)專家知識的規(guī)則翻譯,再到基于語料庫的統(tǒng)計(jì)機(jī)器翻譯,隨著計(jì)算機(jī)運(yùn)算能力的提升和多語言信息資源的爆發(fā)式增長,機(jī)器翻譯技術(shù)逐漸開始為普通用戶提供實(shí)時(shí)便捷的翻譯服務(wù)。1954年,英俄機(jī)器翻譯試驗(yàn)的成功,向公眾和科學(xué)界展示了機(jī)器翻譯的可行性,從而拉開了機(jī)器翻譯研究的序幕。1966年,機(jī)器翻譯研究因各種原因陷入了近乎停滯的僵局。70年代后,計(jì)算機(jī)科學(xué)、語言學(xué)研究的發(fā)展,從技術(shù)層面推動了機(jī)器翻譯研究的復(fù)蘇。機(jī)器翻譯隨著互聯(lián)網(wǎng)的普遍應(yīng)用,世界經(jīng)濟(jì)一體化進(jìn)程的加速以及國際社會交流的日漸頻繁,傳統(tǒng)的人工作業(yè)的方式已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足迅猛增長的翻譯需求,機(jī)器翻譯迎來了一個(gè)新的發(fā)展機(jī)遇。機(jī)器翻譯的效果如下圖所示,左邊為需要翻譯成英文的中文文本,右邊是由機(jī)器翻譯出來的英文文本。機(jī)器翻譯基于文本生成人工合成的語音,通常被稱為文本轉(zhuǎn)語音(TTS),它有許多的應(yīng)用,如語音驅(qū)動的設(shè)備、導(dǎo)航系統(tǒng)和視力障礙者設(shè)備中不可缺少的工具。從根本上說,TTS能讓人在不需要視覺交互的情況下與技術(shù)進(jìn)行互動。百度研究院發(fā)布的DeepVoice是一個(gè)文本到語音轉(zhuǎn)換系統(tǒng),完全由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建。文本到語音的轉(zhuǎn)換將自然語言的文本很自然流暢地變?yōu)檎Z音,也因此出現(xiàn)了語音小說,免去了讀者閱讀的麻煩。文本到語音轉(zhuǎn)換自動識別用戶手寫體文字,并將其直接轉(zhuǎn)化為計(jì)算機(jī)可以識別的文字。對用戶手寫字體字形進(jìn)行提取,其中包括利用文本行的水平投影進(jìn)行行切分,以及利用文本列的垂直投影進(jìn)行列切分;將提取的用戶手寫體字形特征向量與計(jì)算機(jī)的字形特征向量進(jìn)行匹配,并建立用戶手寫體與計(jì)算機(jī)字體的對應(yīng)關(guān)系,生成計(jì)算機(jī)可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論