第1章 1.1 深度學(xué)習(xí)簡介

上傳人：q*** IP屬地：山東上傳時(shí)間：2023-11-15 格式：PPTX 頁數(shù)：31 大?。?.92MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩26頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

深度學(xué)習(xí)簡介1深度學(xué)習(xí)常見應(yīng)用目錄深度學(xué)習(xí)的定義2深度學(xué)習(xí)目前在很多領(lǐng)域的表現(xiàn)都優(yōu)于過去的方法，在圖像分類與識(shí)別、語音識(shí)別與合成、人臉識(shí)別、視頻分類與行為識(shí)別等領(lǐng)域都有著不俗的表現(xiàn)。除此以外，深度學(xué)習(xí)還涉及到與生活相關(guān)的紋理識(shí)別、行人檢測(cè)、場景標(biāo)記、門牌識(shí)別等領(lǐng)域。人臉識(shí)別采用深度學(xué)習(xí)方法后的識(shí)別率超過了目前非深度學(xué)習(xí)算法以及人類的識(shí)別率，深度學(xué)習(xí)技術(shù)在語音識(shí)別領(lǐng)域更是取得了突破性的進(jìn)展，在大規(guī)模圖像分類問題上也遠(yuǎn)超傳統(tǒng)方法。深度學(xué)習(xí)的定義深度學(xué)習(xí)（DeepLearning，DL）是機(jī)器學(xué)習(xí)（MachineLearning，ML）領(lǐng)域中一個(gè)新的研究方向，深度學(xué)習(xí)被引入機(jī)器學(xué)習(xí)使其更接近于最初的目標(biāo)——人工智能（ArtificialIntelligence，AI）。深度學(xué)習(xí)的目標(biāo)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次。在2015年第9期《自然》雜志中，存在與深度學(xué)習(xí)定義相關(guān)的內(nèi)容：深度學(xué)習(xí)方法是具有多層次特征描述的特征學(xué)習(xí)，通過一些簡單但非線性的模塊將每一層特征描述（從未加工的數(shù)據(jù)開始）轉(zhuǎn)化為更高一層的、更為抽象一些的特征描述。深度學(xué)習(xí)的定義深度學(xué)習(xí)的關(guān)鍵在于這些層次的特征不是由人工設(shè)計(jì)的，而是使用一種通用的學(xué)習(xí)步驟從數(shù)據(jù)中學(xué)習(xí)獲取的。這些學(xué)習(xí)過程中獲得的信息對(duì)文字、圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。深度學(xué)習(xí)在搜索技術(shù)、數(shù)據(jù)挖掘、機(jī)器翻譯、多媒體學(xué)習(xí)、語音識(shí)別、推薦和個(gè)性化技術(shù)以及其他相關(guān)領(lǐng)域都取得了很多成果。深度學(xué)習(xí)使機(jī)器模仿視聽和思考等人類的活動(dòng)，解決了很多復(fù)雜的模式識(shí)別難題，使得人工智能相關(guān)技術(shù)取得了很大進(jìn)步，最終目標(biāo)是讓機(jī)器能夠像人一樣具有分析學(xué)習(xí)能力。深度學(xué)習(xí)的定義20世紀(jì)80、90年代，由于計(jì)算機(jī)計(jì)算能力有限和相關(guān)技術(shù)的限制，可用于分析的數(shù)據(jù)量太小，深度學(xué)習(xí)在模式分析中并沒有表現(xiàn)出優(yōu)異的識(shí)別性能。在2002年，杰弗里·辛頓（GeoffreyHinton）等提出受限玻耳茲曼機(jī)（RestrictedBoltzmannMachines，RBM）的一個(gè)快速學(xué)習(xí)算法，即對(duì)比散度算法（ContrastiveDivergence，CD-K）以后，啟發(fā)了被廣泛使用的深度信念網(wǎng)絡(luò)（DeepBeliefNets，DBN）等深度網(wǎng)絡(luò)的出現(xiàn)。與此同時(shí)，能自動(dòng)從數(shù)據(jù)中提取特征的稀疏編碼技術(shù)也被應(yīng)用于深度學(xué)習(xí)中。近年來，隨著深度學(xué)習(xí)技術(shù)在圖像領(lǐng)域上的應(yīng)用，能夠提取局部區(qū)域特征的卷積神經(jīng)網(wǎng)絡(luò)方法被大量研究。深度學(xué)習(xí)的定義1深度學(xué)習(xí)常見應(yīng)用目錄深度學(xué)習(xí)的定義2深度學(xué)習(xí)的常見應(yīng)用有圖像分類、圖像分割、圖像生成、圖像標(biāo)題的生成、圖像風(fēng)格變換、目標(biāo)檢測(cè)、物體測(cè)量、物體分揀、視覺定位、情感分析、無人駕駛、機(jī)器翻譯、文本到語音轉(zhuǎn)換、手寫文字轉(zhuǎn)錄和音頻生成。深度學(xué)習(xí)常見應(yīng)用圖像分類的核心是從給定的分類集合中，給圖像分配一個(gè)標(biāo)簽的任務(wù)。實(shí)際上，圖像分類是分析一個(gè)輸入圖像并返回一個(gè)將圖像分類的標(biāo)簽。標(biāo)簽總是來自預(yù)定義的可能類別集。利用深度學(xué)習(xí)算法可以實(shí)現(xiàn)對(duì)貓的圖像進(jìn)行分類，如下圖所示。圖像分類圖像分割就是將圖像分成若干個(gè)特定的、具有獨(dú)特性質(zhì)的區(qū)域并提出感興趣目標(biāo)的技術(shù)和過程，它是由圖像處理到圖像分析的關(guān)鍵步驟。從數(shù)學(xué)角度來看，圖像分割是將數(shù)字圖像劃分成互不相交的區(qū)域的過程。圖像分割的過程也是一個(gè)標(biāo)記過程，即把屬于同一區(qū)域的像素賦予相同的編號(hào)。圖像分割對(duì)街道車輛圖像進(jìn)行分割的結(jié)果，如下圖所示。圖像分割有一種新的研究，能實(shí)現(xiàn)在生成圖像的過程中不需要另外輸入任何圖像，只要前期使用大量的真實(shí)圖像讓網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)，即可由網(wǎng)絡(luò)自動(dòng)生成新的圖像。目前常見的生成模型有VAE系列、GAN系列等。其中GAN系列算法近年來取得了巨大的進(jìn)展，最新GAN模型產(chǎn)生的圖片效果達(dá)到了肉眼難辨真?zhèn)蔚某潭?。圖像生成GAN模型生成的假動(dòng)漫人物圖像如下圖所示。圖像生成神經(jīng)圖像標(biāo)題（NeuralImageCaption，NIC）模型會(huì)自動(dòng)生成介紹輸入圖像的文字。該模型由深層的卷積神經(jīng)網(wǎng)絡(luò)和自然語言語言處理的循環(huán)神經(jīng)網(wǎng)絡(luò)（RecurrentNeuralNetwork，RNN）構(gòu)成。卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征，RNN生成文本。圖像標(biāo)題生成輸入的原圖像如下圖所示，可以生成諸如“一群人正在騎馬”或“一群人正在草原上騎馬”或“一群人正在藍(lán)天白云下的草原上享受騎馬”等標(biāo)題。圖像標(biāo)題生成圖像風(fēng)格的變換是利用了卷積神經(jīng)網(wǎng)絡(luò)可以提取高層特征的效果，不在像素級(jí)別進(jìn)行損失函數(shù)的計(jì)算，而是將原圖像和生成圖像都輸入至一個(gè)已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)里，在得到的某種特征表示上計(jì)算歐式距離（內(nèi)容損失函數(shù)）。這樣得到的圖像與原圖內(nèi)容相似，但像素級(jí)別不一定相似，且所得圖像更具魯棒性。輸入兩個(gè)圖像，計(jì)算機(jī)會(huì)生成一個(gè)新的圖像。圖像風(fēng)格轉(zhuǎn)換兩個(gè)輸入圖像中，一個(gè)稱為“內(nèi)容圖像”，如圖1-5所示；另外一個(gè)稱為“風(fēng)格圖像”，如圖1-6所示。如果將梵高的繪畫風(fēng)格應(yīng)用于內(nèi)容圖像上，那么深度學(xué)習(xí)會(huì)按照要求繪制出新風(fēng)格，其輸出圖像如圖1-7所示。圖像風(fēng)格轉(zhuǎn)換目標(biāo)檢測(cè)就是從圖像中確定物體的位置，并對(duì)物體進(jìn)行分類。根據(jù)騎行圖像對(duì)騎行者進(jìn)行檢測(cè)，如下圖所示。目標(biāo)檢測(cè)目標(biāo)檢測(cè)是機(jī)器視覺領(lǐng)域最主要的應(yīng)用之一，例如，汽車違規(guī)行駛的檢測(cè)會(huì)為了保障行車、行人的安全在路口安裝交通檢測(cè)系統(tǒng)，檢測(cè)汽車的行駛速度是否超過限制、是否存在違規(guī)變道行為、是否存在闖紅燈行為、是否遮擋車牌、是否系安全帶等。而人工檢測(cè)存在著較多的弊端，如準(zhǔn)確率低，長時(shí)間工作準(zhǔn)確性更是無法保障，而且檢測(cè)速度慢，容易出現(xiàn)錯(cuò)判和漏判。因此，機(jī)器視覺在目標(biāo)檢測(cè)的應(yīng)用方面也就顯得非常重要。目標(biāo)檢測(cè)目標(biāo)檢測(cè)比物體識(shí)別更難。原因在于目標(biāo)檢測(cè)需要從圖像中確定物體的位置，有時(shí)還有可能存在多個(gè)物體。對(duì)于這樣的問題，人們提出了多個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)（ConvolutionalNeuralNetworks，CNN）的方法，這些方法有著非常優(yōu)秀的性能。在使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測(cè)的方法中，區(qū)域卷積神經(jīng)網(wǎng)絡(luò)（Region-ConvolutionalNeuralNetworks，R-CNN）較早地運(yùn)用在目標(biāo)檢測(cè)上，因此該算法較為成熟。R-CNN算法在提高訓(xùn)練和測(cè)試的速度的同時(shí)提高了檢測(cè)精度。目標(biāo)檢測(cè)在日常生活中，物體測(cè)量通常是對(duì)物體的質(zhì)量、長度、高度、體積等進(jìn)行測(cè)量。在機(jī)器視覺應(yīng)用中，使用光的反射進(jìn)行非接觸式測(cè)量，如右圖所示，是某款手機(jī)使用非接觸光學(xué)測(cè)量方法對(duì)桌子進(jìn)行的測(cè)量。物體測(cè)量技術(shù)多用于工業(yè)方面，主要包括對(duì)汽車零部件、齒輪、半導(dǎo)體元件管腳、螺紋等進(jìn)行測(cè)量。物體測(cè)量物體分揀是建立在識(shí)別、檢測(cè)之后的一個(gè)環(huán)節(jié)，通過機(jī)器視覺對(duì)圖像中的目標(biāo)進(jìn)行檢測(cè)和識(shí)別，實(shí)現(xiàn)自動(dòng)分揀，如下圖所示。物體分揀在工業(yè)應(yīng)用領(lǐng)域常用于食品分揀、零件表面瑕疵自動(dòng)分揀、棉花纖維分揀等。同時(shí)，物體分揀在物流、倉庫中的運(yùn)用更為廣泛，在分揀過程中，機(jī)器通過按照物品種類、物品大小、出入庫的先后順序等方法對(duì)物體進(jìn)行分揀。物體分揀視覺定位要求機(jī)器能夠快速準(zhǔn)確地找到被測(cè)零件并確認(rèn)其位置，如下圖所示。在半導(dǎo)體封裝領(lǐng)域，設(shè)備需要根據(jù)機(jī)器視覺取得芯片位置信息、調(diào)整拾取頭、準(zhǔn)確拾取芯片并進(jìn)行綁定，這就是視覺定位在機(jī)器視覺工業(yè)領(lǐng)域最基本的應(yīng)用。視覺定位情感分析最核心的問題就是從一段文字中判斷作者對(duì)主體的評(píng)價(jià)是好評(píng)還是差評(píng)。針對(duì)通用場景下帶有主觀描述的中文文本，利用深度學(xué)習(xí)算法自動(dòng)判斷該文本的情感極性類別并給出相應(yīng)的置信度，情感極性分為積極、消極、中性或更多維的情緒，情感分析的例子如下圖所示。情感分析無人駕駛被認(rèn)為是強(qiáng)化學(xué)習(xí)短期內(nèi)能技術(shù)落地的一個(gè)應(yīng)用方向，很多公司投入大量資源在無人駕駛上，其中百度的無人巴士“阿波龍”已經(jīng)在北京、武漢等地展開試運(yùn)營，自動(dòng)無人駕駛的行車視野如下圖所示。未來生活中，深度學(xué)習(xí)算法在交通領(lǐng)域的應(yīng)用，可能會(huì)創(chuàng)造出一個(gè)完全智能調(diào)度的移動(dòng)出行網(wǎng)絡(luò)。無人駕駛機(jī)器翻譯技術(shù)的發(fā)展一直與計(jì)算機(jī)技術(shù)、信息論、語言學(xué)等學(xué)科的發(fā)展緊密相隨。從早期的詞典匹配，到詞典結(jié)合語言學(xué)專家知識(shí)的規(guī)則翻譯，再到基于語料庫的統(tǒng)計(jì)機(jī)器翻譯，隨著計(jì)算機(jī)運(yùn)算能力的提升和多語言信息資源的爆發(fā)式增長，機(jī)器翻譯技術(shù)逐漸開始為普通用戶提供實(shí)時(shí)便捷的翻譯服務(wù)。1954年，英俄機(jī)器翻譯試驗(yàn)的成功，向公眾和科學(xué)界展示了機(jī)器翻譯的可行性，從而拉開了機(jī)器翻譯研究的序幕。1966年，機(jī)器翻譯研究因各種原因陷入了近乎停滯的僵局。70年代后，計(jì)算機(jī)科學(xué)、語言學(xué)研究的發(fā)展，從技術(shù)層面推動(dòng)了機(jī)器翻譯研究的復(fù)蘇。機(jī)器翻譯隨著互聯(lián)網(wǎng)的普遍應(yīng)用，世界經(jīng)濟(jì)一體化進(jìn)程的加速以及國際社會(huì)交流的日漸頻繁，傳統(tǒng)的人工作業(yè)的方式已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足迅猛增長的翻譯需求，機(jī)器翻譯迎來了一個(gè)新的發(fā)展機(jī)遇。機(jī)器翻譯的效果如下圖所示，左邊為需要翻譯成英文的中文文本，右邊是由機(jī)器翻譯出來的英文文本。機(jī)器翻譯基于文本生成人工合成的語音，通常被稱為文本轉(zhuǎn)語音（TTS），它有許多的應(yīng)用，如語音驅(qū)動(dòng)的設(shè)備、導(dǎo)航系統(tǒng)和視力障礙者設(shè)備中不可缺少的工具。從根本上說，TTS能讓人在不需要視覺交互的情況下與技術(shù)進(jìn)行互動(dòng)。百度研究院發(fā)布的DeepVoice是一個(gè)文本到語音轉(zhuǎn)換系統(tǒng)，完全由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建。文本到語音的轉(zhuǎn)換將自然語言的文本很自然流暢地變?yōu)檎Z音，也因此出現(xiàn)了語音小說，免去了讀者閱讀的麻煩。文本到語音轉(zhuǎn)換自動(dòng)識(shí)別用戶手寫體文字，并將其直接轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別的文字。對(duì)用戶手寫字體字形進(jìn)行提取，其中包括利用文本行的水平投影進(jìn)行行切分，以及利用文本列的垂直投影進(jìn)行列切分；將提取的用戶手寫體字形特征向量與計(jì)算機(jī)的字形特征向量進(jìn)行匹配，并建立用戶手寫體與計(jì)算機(jī)字體的對(duì)應(yīng)關(guān)系，生成計(jì)算機(jī)可

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第1章 1.1 深度學(xué)習(xí)簡介

文檔簡介

溫馨提示

最新文檔

評(píng)論

第1章 1.1 深度學(xué)習(xí)簡介

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔