自然語言處理技術與應用高職全套教學課件_第1頁
自然語言處理技術與應用高職全套教學課件_第2頁
自然語言處理技術與應用高職全套教學課件_第3頁
自然語言處理技術與應用高職全套教學課件_第4頁
自然語言處理技術與應用高職全套教學課件_第5頁
已閱讀5頁,還剩206頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

自然語言處理技術與應用全套可編輯PPT課件目錄CONTENTS緒論01分詞和字典02數(shù)據(jù)預處理03語言模型和算法流程04感知機05條件隨機場06目錄CONTENTS命名實體識別07信息抽取08文本聚類09文本分類10依存語法分析11深度學習與自然語言處理12緒論01知識導圖課程安排課程任務課程目標安排課時認識人工智能熟悉人工智能的發(fā)展歷程和多種應用1熟悉圖像識別的應用場景和主要任務全面理解圖像識別的四個主要任務,并可以通過任務的輸入輸出判斷圖像識別的任務類型1什么是人工智能?人工智能(ArtificialIntelligence,AI)最早出現(xiàn)于1956年美國達特茅斯學院(DartmouthCollege)的討論會上。人工智能是人們長期以來人們一直夢想著的可以用現(xiàn)代人工創(chuàng)造的機器設備取代人類的智能物,既包含了具體的機器設備,又涵蓋了數(shù)字化的二進制程序。人工智能的定義從該名詞出現(xiàn)到現(xiàn)代化人工智能的普遍應用一直被各個學派所爭論。一、人工智能緒論人工智能的定義狹義定義1956年,達特茅斯會議建議書的定義:制造一臺機器,該機器能模擬學習或者智能的所有方面,只要這些方面可以精確論述。1975年,人工智能專家Minsky的定義:人工智能是一門學科,是使機器做那些人需要通過智能來做的事情。1985年人工智能專家Haugeland的定義:人工智能是計算機能夠思維,使機器具有智力的激動人性的新嘗試。1991年人工智能專家RichKnight的定義:人工智能是研究如何讓計算機做現(xiàn)階段只有人才能做的好的事情。1992年人工智能專家Winston的定義:人工智能是那些使知覺推理和行為成為可能的計算機系統(tǒng)。一、人工智能緒論人工智能的定義廣義定義人工智能是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學。機器學習是人工智能的最主要的一部分,是人工智能和模式識別領域的共同研究的熱點。深度學習是由于現(xiàn)代機器學習中神經(jīng)網(wǎng)絡算法的大量應用所衍生出來的代名詞,具體來說深度學習是機器學習的子集。一、人工智能緒論人工智能的定義一、人工智能緒論人工智能的發(fā)展歷程一、人工智能緒論人工智能的應用一、人工智能緒論人工智能的應用圖像分類是最為簡單的一項圖像識別任務,它的輸入通常是含有單一類別物體的圖像,輸出則是圖像分類的結(jié)果。如輸入一組貓和狗的圖片數(shù)據(jù)集,圖像分類的任務就是辨別圖像是貓還是狗。最為經(jīng)典的圖像分類任務數(shù)據(jù)集是ImageNet數(shù)據(jù)集二、圖像識別應用場景和主要任務圖像分類目標檢測是現(xiàn)代人工智能圖像識別相關落地項目最多的課題之一,也是目前圖像識別研究的難點和熱點領域。隨著深度學習和神經(jīng)網(wǎng)絡模型的計算機視覺的發(fā)展,目標檢測算法也取得了突破,廣泛應用于智能監(jiān)控、無人駕駛和機器人感知等應用場景。二、圖像識別應用場景和主要任務目標檢測圖像分割的任務主要是將同一對象類別的圖像部分聚類在一起,是一項像素級預測的任務,也是目前計算機視覺領域的關鍵問題之一。從高層次的語義角度看,圖像分割是計算機視覺中場景理解的核心問題,場景理解就是程序從輸入圖像中推斷高階語義知識來提供完善的知識庫基礎。圖像分割的輸入通常是圖像數(shù)據(jù),輸出通常為帶有掩碼或不同灰度的圖像,輸出的圖像中每個像素都根據(jù)對應類別進行分類二、圖像識別應用場景和主要任務圖像分割二、圖像識別應用場景和主要任務圖像生成是計算機視覺領域近年來另一個熱門的話題。其中基于深度學習的GAN網(wǎng)絡在圖像生成上具有統(tǒng)治地位,其主要由生成器和判別器的相互對抗網(wǎng)絡建模生成以假亂真的圖像。在圖像修改上,圖像生成技術可以實現(xiàn)超分辨率圖像,可編輯交互式圖像、風格遷移圖像和圖像翻譯等具體任務二、圖像識別應用場景和主要任務圖像生成單元小結(jié)本單元主要介紹了人工智能的概念和圖像識別的四大主要任務。從人工智能的不同層次定義和發(fā)展歷程以及人工智能在現(xiàn)代化人類生產(chǎn)生活中的應用闡述了人工智能的重要性。圖像識別的四大主要任務分別為圖像分類、目標檢測、圖像分割和圖像生成。本單元兩項任務要求從不同角度認識人工智能,熟悉圖像識別的應用場景和主要任務。分詞和字典02知識導圖課程安排課程任務課程目標安排課時服務器硬件環(huán)境簡介熟悉服務器硬件環(huán)境和相關數(shù)據(jù)文件目錄1深度學習軟件框架簡介熟悉現(xiàn)代主流深度學習軟件框架,支持的編程語言接口和相關優(yōu)勢和劣勢1Python和Anaconda3環(huán)境簡介了解并會使用python語言編程,熟悉Anaconda3集成的環(huán)境管理系統(tǒng),能熟練使用conda命令完成特定環(huán)境的構(gòu)建,完全掌握代碼編輯器code的使用方法。1Tensorflow基礎掌握Tensorflow1.x的編程基礎,會使用Tensorflow和keras完成簡單操作圖的構(gòu)建4數(shù)據(jù)處理平臺使用GPU作為深度學習訓練和評估階段的核心執(zhí)行的計算硬件單元邊緣推理機邊緣推理機為低功耗硬件設備,有效地模擬了手機、攝像機等移動終端數(shù)據(jù)資源平臺數(shù)據(jù)資源管理服務器上存儲著大量的教學資源、數(shù)據(jù)集資源123二、圖像識別應用場景和主要任務一、硬件環(huán)境服務器簡介谷歌公司推出的深度學習框架,支持自動求導TensorflowPytorch基于Torch開發(fā)的深度學習框架,支持動態(tài)神經(jīng)網(wǎng)絡Caffe由BVLC開發(fā)和維護,訓練速度快,具有跨平臺可擴展的優(yōu)點CNTK微軟開源的深度學習框架,支持多個GPU或服務器并行計算MXNet亞馬遜主推的深度學習框架,命令式和符號式的編程,支持分布式二、圖像識別應用場景和主要任務二、軟件框架深度學習開發(fā)框架三、Python和Anaconda3環(huán)境簡介PythonPython是一種高層次的結(jié)合了解釋性、編譯性、互動性和面向?qū)ο蟮哪_本語言Python是一種解釋型語言:這意味著開發(fā)過程中沒有了編譯這個環(huán)節(jié),類似于PHP和Perl語言。Python是交互式語言:這意味著,可以在一個Python提示符>>>后直接執(zhí)行代碼。Python是面向?qū)ο笳Z言:這意味著Python支持面向?qū)ο蟮娘L格或代碼封裝在對象的編程技術。Python是初學者的語言:Python對初級程序員而言,是一種偉大的語言,它支持廣泛的應用程序開發(fā),從簡單的文字處理到WWW瀏覽器再到游戲。Python簡介三、Python和Anaconda3環(huán)境簡介隨堂練習:使用matplotlib庫繪圖Matplotlib是Python的繪圖庫。它可與NumPy一起使用,提供了一種輕量級的MatLab開源高效替代方案,它也可以和圖形工具包PyQt等工具一起配合使用,能夠完成日??茖W計算中多種數(shù)學圖庫可視化的任務步驟1)使用pip安裝matplotlib庫①打開數(shù)據(jù)處理服務器的控制臺終端②查看當前系統(tǒng)環(huán)境的python第三方軟件包③安裝matplotlib庫④檢查是否安裝成功三、Python和Anaconda3環(huán)境簡介隨堂練習:使用matplotlib庫繪圖步驟2)使用matplotlib繪制y=x2曲線圖importnumpyasnpimportmatplotlib.pyplotaspltx=np.arange(-3,3,0.1)y=x**2fig=plt.figure()plt.plot(x,y)plt.title('y=x**2')plt.xlabel('x')plt.ylabel('y')plt.savefig('task1.jpg')print('Done.')三、Python和Anaconda3環(huán)境簡介AnacondaAnaconda3是一個用于環(huán)境和包管理的集成Python發(fā)行版的工具,支持跨平臺。Anaconda3的核心為conda工具,conda工具的命令都是以conda開頭的,其核心功能是包管理和環(huán)境管理。包管理:在實際工程中經(jīng)常會使用大量的第三方安裝包,若手動進行匹配則耗時耗力,因此自動化包管理是集成開發(fā)環(huán)境中非常重要的一個方案環(huán)境管理:用戶可以使用conda來創(chuàng)建多個虛擬環(huán)境,不同的工程運行在相應的虛擬環(huán)境下,各個虛擬環(huán)境都是獨立的、互不影響的開發(fā)運行環(huán)境Anaconda簡介三、Python和Anaconda3環(huán)境簡介隨堂練習:使用Anaconda管理開發(fā)環(huán)境使用Anaconda3新建名稱為tf1.15的虛擬環(huán)境,指定Python解釋器版本為3.6,并在環(huán)境中安裝numpy科學計算庫,完成半徑為9的圓面積計算。注意這里的base環(huán)境與操作系統(tǒng)環(huán)境是兩個不同的環(huán)境步驟1)創(chuàng)建虛擬環(huán)境①

condacreate-ntf1.15python=3.6②命令行確認后下載標準庫③命令行輸入condalist顯示已安裝的軟件包③命令行輸入python--version查看python版本,輸入condadeactivate退出當前虛擬環(huán)境三、Python和Anaconda3環(huán)境簡介隨堂練習:使用Anaconda管理開發(fā)環(huán)境步驟2)安裝numpy科學計算庫①

命令行輸入condaactivatetf1.15再次進入tf1.15虛擬環(huán)境,命令行輸入pipinstallnumpy安裝numpy科學計算庫,也可以condainstallnumpy安裝②命令行輸入python打開交互窗口③命令行輸入代碼測試numpy科學計算庫是否安裝成功步驟3)計算半徑為9的圓面積importnumpyasnpr=9s=np.pi*r**2print(s)print('%.2f'%s)三、Python和Anaconda3環(huán)境簡介Code代碼編輯器Code代碼編輯器Code代碼編輯器主頁面有三個重要的區(qū)域,分別是工程目錄區(qū)、代碼編輯區(qū)和控制臺終端區(qū)。工程目錄區(qū)顯示打開的工程目錄,代碼編輯區(qū)用于編寫代碼的地方,控制臺終端區(qū)用于輸入命令行的區(qū)域在Code擴展庫中可以安裝各種編輯器的插件JupyterNotebook在某一虛擬環(huán)境下可以創(chuàng)建具有良好交互頁面的JupyterNotebook的編輯器,打開Code編輯器的終端命令行輸入pipinstallnotebook,完成后再從終端命令行輸入jupyternotebook啟動頁面服務,從瀏覽器打開服務的網(wǎng)址就進入了JupyterNotebook的編輯器內(nèi)四、Tensorflow基礎Tensorflow簡介TensorflowTensorflow是目前主流深度學習框架之一,其庫中幾乎包含了所有機器學習和深度學習相關的輔助函數(shù)和封裝類。Tensorflow主要采用數(shù)據(jù)流圖(Dataflowgraphs)規(guī)劃計算流程、進行數(shù)值計算。Tensorflow的發(fā)行版本主要分為1.x和2.x。Tensorflow提供了Python,C++和JavaScript等易于快速開發(fā)編程語言的接口,并且還配置有TensorBoard可視化工具。四、Tensorflow基礎隨堂練習:Tensorflow安裝可以劃分為CPU版本的和GPU版本的,CPU版本適合輕量級數(shù)據(jù)的訓練推理測試處理,通常耗時較長、處理速度較慢,GPU版本的適合普遍的大數(shù)據(jù)量級的訓練推理測試處理,一般耗時較短、處理速度較快。推薦使用GPU版本的Tensorflow進行計算境步驟1)ondaactivatetf1.15

進入開發(fā)環(huán)境步驟2)安裝tensorflow-gpu=1.15版本(condainstalltensorflow-gpu=1.15)步驟3)驗證安裝的GPU版本的Tensorflow是否可用importtensorflowastftf.test.is_gpu_available()四、Tensorflow基礎數(shù)據(jù)流圖數(shù)據(jù)流圖是使用節(jié)點(Node)和有向線(Edge)來描述的數(shù)學計算,也叫做計算圖。在用Tensorflow進行科學計算時,通常先創(chuàng)建一個計算圖,然后將數(shù)據(jù)載入計算圖中進行數(shù)據(jù)的計算,如圖所示。節(jié)點:計算圖中一般用圓圈、橢圓或方框表示,計算圖在TensorBoard可視化中可以形象化看到。節(jié)點通常用來表示執(zhí)行的數(shù)學操作,數(shù)據(jù)輸入的起點和數(shù)據(jù)輸出的終點也可以表示為節(jié)點。線:計算圖中一般用箭頭表示線,代表節(jié)點與節(jié)點之間的信息輸入、輸出和傳遞關系,其中傳遞的信息就是可變維度的張量。數(shù)據(jù)流圖四、Tensorflow基礎張量張量是計算圖中節(jié)點之間相互傳遞數(shù)據(jù)的表現(xiàn)形式。一維數(shù)組、二維數(shù)組和N維數(shù)組等都可以看作為張量,表示操作的輸出量數(shù)據(jù)類型PythonAPI32位浮點數(shù)tf.float3264位浮點數(shù)tf.float6464位有符號整型6432位有符號整型32可變長字節(jié)數(shù)組tf.string布爾型tf.bool8位無符號整型tf.uint8Tensorflow中張量常見數(shù)據(jù)類型四、Tensorflow基礎隨堂練習:使用tensorflow做矩陣計算步驟1)代碼編寫importtensorflowastfA=tf.constant([[1,4,7],[2,5,8],[3,6,9]],name='matrix_A')B=tf.constant([[2,1,2],[-1,1,4],[3,0,-1]],name='matrix_B')C=tf.constant([[1,-1,0],[2,2,2],[1,4,5]],name='matrix_C')node_matmul=tf.matmul(A,B,name='node_matmul')node_add=tf.add_n([node_matmul,C],name='node_add')withtf.Session()assess:writer=tf.summary.FileWriter("./log_4",sess.graph)Y=sess.run(node_add)print(Y)writer.close())四、Tensorflow基礎常量和變量常量是靜態(tài)的數(shù)據(jù),賦值后就不隨時間發(fā)生變化,Tensorflow常量用tf.constant()表示變量變量是動態(tài)的數(shù)據(jù),可以隨著時間更新保存的數(shù)值,Tensorflow變量使用tf.Variable()類構(gòu)建。使用tf.Variable()方法創(chuàng)建變量需要輸入初始值,初始值的形狀和類型決定了變量的形狀和類型參數(shù)描述valuevalue可以為np.ndarray,也可以是列表dtype常量數(shù)據(jù)類型shape常量形狀name常量命名空間標識符參數(shù)描述initial_value初始化變量的Tensor值trainable如果為true,則變量值可變;如果為False,則變量值不可變validate_shape如果為true,則初始化變量值唯一;如果為False,則初始化變量值不唯一name變量命名空間標識符dtype變量數(shù)據(jù)類型expected_shape廣播的變量形狀import_scope變量命名空間shape變量形狀四、Tensorflow基礎隨堂練習:

使用Tensorflow描述線性函數(shù)

importnumpyasnpimporttensorflowastfwithtf.variable_scope('linear_function'):X=tf.placeholder(tf.float32,[64,1],name='X')W=tf.Variable(tf.random_normal([64,64],stddev=1,seed=1),name='W')b=tf.Variable(tf.ones([64,1]),name='b')Y=tf.matmul(W,X)+binit=tf.global_variables_initializer()withtf.Session()assess:writer=tf.summary.FileWriter("./log_5",sess.graph)sess.run(init)rand_array=np.random.rand(64,1)print(sess.run(Y,feed_dict={X:rand_array}))writer.close()四、Tensorflow基礎隨堂練習:使用Tensorflow描述線性函數(shù)步驟2)使用TensorBoard可視化線性函數(shù)Y=WX+b數(shù)據(jù)流圖①命令行輸入:#注意--host參數(shù)值設置為數(shù)據(jù)處理服務器的機器IP地址tensorboard--host06--port8888--logdirlog_54②在瀏覽器新的標簽頁輸入網(wǎng)址06:8888/訪問TensorBoard頁面:四、Tensorflow基礎模塊Tensorflow框架內(nèi)構(gòu)建了很多高層次的API,可以顯著減少編寫程序的代碼量,其中包含有眾多網(wǎng)絡結(jié)構(gòu)相關函數(shù)和數(shù)據(jù)載入、數(shù)據(jù)處理的方法tf.nntf.nn相對于tf.layers模塊更為底層一些,tf.nn模塊中提供了大量激活函數(shù)和神經(jīng)網(wǎng)絡層參數(shù)計算方法。tf.layerstf.layers中封裝了很多底層的函數(shù)和基本的神經(jīng)網(wǎng)絡結(jié)構(gòu),可以直接使用tf.layers提供的高級API實現(xiàn)各種復雜的建模任務,能夠省去大量的代碼。tf.data.Datasettf.data.Dataset是Tensorflow內(nèi)置的數(shù)據(jù)輸入模塊,提供了專門用于數(shù)據(jù)輸入的多種方法,可以高效地實現(xiàn)數(shù)據(jù)載入、數(shù)據(jù)增強和數(shù)據(jù)隨機亂序等功能。例如最簡單的數(shù)據(jù)載入方式,從列表載入張量數(shù)據(jù)。四、Tensorflow基礎高級模塊TFLearnTFLearn庫同樣具有高層次的AIP設計,代碼可讀性和靈活性與Keras庫相當,其中屏蔽了大量Tensorflow底層難以理解的東西,同樣也封裝了大量常用的神經(jīng)網(wǎng)絡結(jié)構(gòu)。TensorLayerTensorLayer庫也是一個基于Tensorflow的高層次的API庫,靈活性很強,具有屬于自己的一套語法,可以簡單的實現(xiàn)動態(tài)網(wǎng)絡結(jié)構(gòu),運行計算速度較快。KerasKeras庫是最常用的Tensorflow高級核心API,隱藏了數(shù)據(jù)流和底層結(jié)構(gòu)的很多細節(jié),其庫中具有大量可直接使用的神經(jīng)網(wǎng)絡結(jié)構(gòu)和常用模塊.四、Tensorflow基礎隨堂練習:使用模塊和高級模塊構(gòu)建模型使用Keras高級模塊構(gòu)建簡單的神經(jīng)網(wǎng)絡模型,完成zy_class10圖像數(shù)據(jù)的分類,輸入分辨率為96x96x3,輸出為10個類別0102030405準備數(shù)據(jù)集數(shù)據(jù)載入構(gòu)建神經(jīng)網(wǎng)絡訓練模型可視化四、Tensorflow基礎隨堂練習:使用模塊和高級模塊構(gòu)建模型關鍵步驟:使用tf.keras高級模塊構(gòu)建一個簡單的神經(jīng)網(wǎng)絡模型及訓練程序單元小結(jié)本單元主要介紹深度學習開發(fā)環(huán)境、相關軟硬件組成以及集成開發(fā)環(huán)境相關知識。通過深度學習框架的簡介可以進一步了解深度學習的發(fā)展,熟悉Python和Anaconda3開發(fā)環(huán)境,掌握Python編程基礎并能夠熟悉Anaconda3配置集成環(huán)境,能夠使用Anaconda3管理各個獨立并存的虛擬環(huán)境和環(huán)境下的安裝包。在Tensorflow基礎這一節(jié),需要熟練掌握某一特定版本的Tensorflow,能夠配合使用底層模塊和高級模塊完成數(shù)據(jù)處理和構(gòu)建神經(jīng)網(wǎng)絡模型的能力,在編程實踐中提升各方面的綜合能力。數(shù)據(jù)預處理03知識導圖課程安排課程任務課程目標安排課時機器學習主要任務掌握機器學習相關基礎概念及機器學習能夠解決的主要任務2機器學習算法熟悉并掌握機器學習常用算法類型,并對算法的實現(xiàn)加以了解,能夠靈活運用相應算法解決實際問題3深度學習基礎掌握深度學習的基本概念,由單層神經(jīng)網(wǎng)絡延伸到多層神經(jīng)網(wǎng)絡,并通過多層感知機引入深度學習模型3深度學習算法對經(jīng)典深度學習模型加以了解,通過應用案例對所學內(nèi)容學以致用2監(jiān)督學習利用一組已知預期結(jié)果的樣本調(diào)整模型參數(shù),使其達到能準確推斷出預期樣本的任務在監(jiān)督學習中,每個實例都是由一個輸入對象和一個期望的輸出值組成。監(jiān)督學任務過程就是分析該訓練數(shù)據(jù),建立一個可以產(chǎn)生期望值結(jié)果的模型,且該模型可以用于新數(shù)據(jù)上常見的有監(jiān)督學習算法包括K近鄰、樸素貝葉斯、邏輯回歸和支持向量機等一、機器學習的主要任務監(jiān)督學習無監(jiān)督學習的輸入數(shù)據(jù)沒有被標記,也沒有確定的結(jié)果,根據(jù)這些無標記的數(shù)據(jù)的相關性分析產(chǎn)生結(jié)果的過程就是無監(jiān)督學習常見的應用場景有聚類等。常用的無監(jiān)督算法主要有k均值聚類等一、機器學習的主要任務無監(jiān)督學習分類問題是監(jiān)督學習的主要任務之一,從數(shù)據(jù)中學習一個分類模型或分類決策函數(shù),這個模型或者決策函數(shù)可以稱為分類器學習過程:根據(jù)已知的訓練數(shù)據(jù)集利用有效的學習方法構(gòu)建一個分類器預測過程:利用學習的分類器對新的輸入數(shù)據(jù)進行分類得到分類結(jié)果一、機器學習的主要任務分類回歸是建立預測輸入變量和輸出變量之間的關系,當輸入變量的值發(fā)生變化時,輸出變量的值隨之發(fā)生的變化學習過程:根據(jù)已知的訓練數(shù)據(jù)集構(gòu)建一種映射關系,也就是回歸器預測過程:利用學習的回歸器對新的輸入數(shù)據(jù)進行計算得到數(shù)據(jù)結(jié)果一、機器學習的主要任務回歸聚類就是對大量未知標注的數(shù)據(jù)集,按數(shù)據(jù)的內(nèi)在相似性將數(shù)據(jù)集劃分為多個類別,使類別內(nèi)的數(shù)據(jù)相似度較大,而類別間的數(shù)據(jù)相似度較小。機器學習中的聚類是無監(jiān)督的學習問題,它的目標是為了感知樣本間的相似度進行類別歸納一、機器學習的主要任務聚類原理:輸入沒有標簽的新數(shù)據(jù)后,將新數(shù)據(jù)的每個特征與樣本集中數(shù)據(jù)對應的特征進行比較,然后算法提取樣本集中特征最相似數(shù)據(jù)(最近鄰)的分類標簽。一般來說,只選擇樣本數(shù)據(jù)集中前K個最相似的數(shù)據(jù),這就是K-近鄰算法中K的出處。最后,選擇K個最相似數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類,作為新數(shù)據(jù)的分類應用領域:相似度分析、推薦系統(tǒng)、模式識別、多分類等領域二、機器學習算法K-近鄰算法二、機器學習算法隨堂練習:使用K近鄰識別手寫數(shù)字使用K近鄰算法完成手寫數(shù)字識別任務。MNIST手寫體字庫包含70000張0到9手寫灰度圖,其中60000張標注為訓練樣本數(shù)據(jù)集,10000張為測試樣本數(shù)據(jù)集0102030405準備數(shù)據(jù)集定義K值和批量大小選擇距離度量近鄰計算可視化二、機器學習算法隨堂練習:使用K近鄰識別手寫數(shù)字關鍵步驟:(1)定義K值、批量大?。唬?)選擇距離度量;(3)近鄰計算①定義K值、批量大?、谶x擇距離度量③近鄰計算原理:樸素貝葉斯是基于貝葉斯定理與特征條件獨立性假設的一種分類算法,屬于生成式模型,對聯(lián)合分布建模。對于給定的訓練數(shù)據(jù)集,首先基于條件獨立性假設,學習輸入和輸出的聯(lián)合概率分布,然后基于此模型,對于給定的輸入,利用貝葉斯定理求出后驗概率最大的輸出應用領域:欺詐檢測、垃圾郵件檢測、文章分類等領域二、機器學習算法樸素貝葉斯原理:線性回歸的目的就是尋找合適的和,用線性函數(shù)為原始數(shù)據(jù)來建立線性模型。在計算權重和偏置過程中,最常用的算法就是梯度下降法應用領域:在數(shù)值型線性數(shù)據(jù)預測時廣泛應用,如房價預測、車輛位置預測等二、機器學習算法線性回歸二、機器學習算法隨堂練習:使用線性回歸預測房價有一個房價數(shù)據(jù)集隨著短期內(nèi)的隨著時間呈線性變化,我們需要對此數(shù)據(jù)集使用線性回歸建立模型,并經(jīng)過梯度下降算法訓練模型的權重和偏置參數(shù),達到能在一定的時間內(nèi)預測房價的目標0102030405準備數(shù)據(jù)集數(shù)據(jù)預處理初始化權重偏置梯度下降更新參數(shù)可視化二、機器學習算法隨堂練習:使用K近鄰識別手寫數(shù)字關鍵步驟:(1)初始化權重和偏置;(2)使用梯度下降更新參數(shù)①初始化權重和偏置②梯度下降更新參數(shù)③訓練函數(shù)原理:支持向量的意思就是數(shù)據(jù)集中的某些位置特殊的點。比如x+y-2=0這條直線,直線上面區(qū)域x+y-2>0的全是A類,下面的區(qū)域x+y-2<0的全是B類,確定這條直線的時候,主要觀察聚集在一起的兩類數(shù)據(jù)中各自最邊緣位置的點,也就是最靠近劃分直線的那幾個點,而其他點對直線最終位置的確定起不了作用,所以稱這些點為”支持向量“,運用支持向量分類的模型稱為支持向量機應用領域:文本分類、圖像分類、人臉分類器二、機器學習算法支持向量機二、機器學習算法隨堂練習:使用支持向量機實現(xiàn)鳶尾花分類鳶尾花卉數(shù)據(jù)集是機器學習和統(tǒng)計分析最經(jīng)典的數(shù)據(jù)集之一。鳶尾花(Iris)有三個亞屬,分別是山鳶尾(Iris-setosa)、變色鳶尾(Iris-versicolor)和維吉尼亞鳶尾(Iris-virginica),可以通過花萼和花瓣的長度和寬度作為特征,來實現(xiàn)鳶尾花的分類;總共有150個數(shù)據(jù)集,每類有50個樣本010203040506準備數(shù)據(jù)集設置模型參數(shù)選擇核函數(shù)定義損失函數(shù)、預測函數(shù)、準確度函數(shù)、優(yōu)化函數(shù)模型訓練可視化二、機器學習算法隨堂練習:使用支持向量機實現(xiàn)鳶尾花分類關鍵步驟:(1)選擇核函數(shù);(2)定義損失函數(shù)、預測函數(shù)、準確度函數(shù)以及優(yōu)化函數(shù)①選擇核函數(shù)②定義損失函數(shù)③定義預測函數(shù)和準確度函數(shù)④定義優(yōu)化函數(shù)原理:聚類是一種無監(jiān)督的學習,它將相似的對象歸到一個簇中,將不相似對象歸到不同簇中。K-均值聚類是發(fā)現(xiàn)給定數(shù)據(jù)集的K個簇的聚類算法,之所以稱之為K-均值是因為它可以發(fā)現(xiàn)K個不同的簇,且每個簇的中心采用簇中所含值的均值計算而成。簇個數(shù)K是用戶指定的,每一個簇通過其質(zhì)心,即簇中所有點的中心來描述。聚類與分類算法的最大區(qū)別在于,分類的目標類別已知,而聚類的目標類別是未知的應用領域:圖像分割、商業(yè)選址二、機器學習算法K-均值聚類人工神經(jīng)網(wǎng)絡模型是深度學習的核心,因其在廣泛的應用場景下具有通用性、強大性和可擴展性,使得它們能夠很好地解決大型和高度復雜的機器學習任務。人工神經(jīng)元(ANN)受啟發(fā)于生物神經(jīng)元,生物神經(jīng)元是一種異常細胞,大量存在于動物大腦皮層中。三、深度學習基礎神經(jīng)網(wǎng)絡單層感知器簡單地由一層線性閾值單元組成,每個線性閾值單元連接著若干輸入三、深度學習基礎感知器三、深度學習基礎深度神經(jīng)網(wǎng)絡與反向傳播當人工神經(jīng)網(wǎng)絡有兩個或多個隱含層時,稱為深度神經(jīng)網(wǎng)絡(DNN)A對于每個訓練實例,將其送到網(wǎng)絡并計算每個連續(xù)層中的每個神經(jīng)元的輸出,這是一次向前傳遞B反向傳播算法首先進行前向計算,統(tǒng)計誤差,然后反向遍歷每個層統(tǒng)計每個連接的誤差梯度,最后調(diào)整網(wǎng)絡權值以減少誤差C三、深度學習基礎隨堂練習:汽車油耗預測利用多層感知機網(wǎng)絡模型來完成汽車的效能指標MPG的預測問題,MPG指標表示的是每加侖燃油英里數(shù)0102030405準備數(shù)據(jù)集數(shù)據(jù)預處理構(gòu)建感知機模型訓練模型可視化梯度下降法是機器學習中經(jīng)典的優(yōu)化算法之一,用于尋求一個曲線的最小值。"梯度"指一條曲線的坡度或傾斜率,"下降"指下降遞減的過程。梯度下降法是迭代的,也就是需要多次計算結(jié)果,最終求得最優(yōu)解在訓練模型時,如果訓練數(shù)據(jù)過多,無法一次性將所有數(shù)據(jù)送入計算,那么我們就會遇到批處理問題。為了克服數(shù)據(jù)量多的問題,選擇將數(shù)據(jù)分成幾個部分,即不同批次(batch),進行訓練,從而使得每個批次的數(shù)據(jù)量是可以負載的三、深度學習基礎梯度下降和批處理三、深度學習基礎損失函數(shù)損失函數(shù)(LossFunction)又叫做誤差函數(shù),用來衡量算法的運行情況,估量模型的預測值與真實值的不一致程度,是一個非負實值函數(shù),損失函數(shù)越小,模型的魯棒性就越好(1)0-1損失函數(shù)

如果預測值和目標值相等,值為0,如果不相等,值為1:一般的在實際使用中,相等的條件過于嚴格,可適當放寬條件:三、深度學習基礎損失函數(shù)(2)絕對損失函數(shù)

和0-1損失函數(shù)相似,絕對值損失函數(shù)表示為:

和0-1損失函數(shù)相似,絕對值損失函數(shù)表示為:(3)平方損失函數(shù)

最優(yōu)擬合曲線應該使所有點到回歸直線的距離和最?。喝⑸疃葘W習基礎損失函數(shù)(4)對數(shù)損失函數(shù)

和0-1損失函數(shù)相似,絕對值損失函數(shù)表示為:

邏輯回歸推導出的經(jīng)驗風險函數(shù)是最小化負的似然函數(shù),從損失函數(shù)的角度看,就是對數(shù)損失函數(shù):(5)指數(shù)損失函數(shù)

指數(shù)損失函數(shù)的標準形式為:模型在新的數(shù)據(jù)集上的表達能力叫做泛化能力。當深度模型對訓練集學習的太好的時候,表現(xiàn)為經(jīng)驗誤差很小,但泛化誤差會很大,這種情況我們稱之為過擬合;而當模型在數(shù)據(jù)集上學習的不夠好的時候,此時經(jīng)驗誤差較大,這種情況我們稱之為欠擬合三、深度學習基礎過擬合為了避免過擬合,一種非常常用的方法是正則化(regularization),簡單來說就是修改原來的損失函數(shù),加入模型復雜度衡量的指標,這時候,進行優(yōu)化就是J(θ)+λR(w),通常使用的這個R(w)有兩種:三、深度學習基礎正則化

L1正則化:L2正則化:全連接神經(jīng)網(wǎng)絡和CNN異同:相同點:l結(jié)構(gòu)相似,二者都是通過一層層的節(jié)點組織起來l輸入輸出及訓練流程也基本一致,以圖像分類為例,輸入層都是一維的像素點不同點:l唯一區(qū)別在于神經(jīng)網(wǎng)絡的相鄰兩層的連接方式,前者相鄰兩層所有節(jié)點都是有邊連接,而卷積神經(jīng)網(wǎng)絡相鄰兩層只有部分節(jié)點有邊連接四、深度學習算法卷積神經(jīng)網(wǎng)絡四、深度學習算法卷積神經(jīng)網(wǎng)絡輸入層全連接層池化層卷積層輸出層卷積層:常用的卷積核尺寸有3×3或5×5。因為卷積核處理的矩陣深度和當前層神經(jīng)網(wǎng)絡節(jié)點矩陣的深度是一致的,所以雖然節(jié)點矩陣是三維的,但卷積核的尺寸只需要指定兩個維度卷積核中另外一個需要人工指定的設置是處理得到的單位節(jié)點矩陣的深度,這個設置稱為卷積核的深度四、深度學習算法卷積神經(jīng)網(wǎng)絡——卷積層

在卷積運算中,卷積窗口從輸入張量的左上角開始,從左到右、從上到下滑動。當卷積窗口滑動到新一個位置時,包含在該窗口中的部分張量與卷積核張量進行按元素相乘,得到的張量再求和得到一個單一的標量值,由此我們得出了這一位置的輸出張量值。四、深度學習算法卷積神經(jīng)網(wǎng)絡——卷積層

在這個過程中會涉及到當前矩陣尺寸(長或?qū)?、零填充padding值、卷積核尺寸(長或?qū)?、卷積核移動的步長stride值以及得到的矩陣尺寸(長或?qū)?等參數(shù),它們的關系如下:四、深度學習算法卷積神經(jīng)網(wǎng)絡——卷積層

每一個卷積層自己內(nèi)部使用的卷積核的參數(shù)是一致的,這是CNN一個非常重要的特質(zhì)——權值共享??梢允沟脠D像上的內(nèi)容不受位置的影響??梢跃薹鶞p少神經(jīng)網(wǎng)絡的參數(shù)。四、深度學習算法卷積神經(jīng)網(wǎng)絡——卷積層下面以輸入層為32*32*3,目標層為28*28*16矩陣為例,來說明參數(shù)計算:l全連接,則參數(shù)為:lCNN,取卷積核大小為5*5,步長為1,nopadding,則參數(shù)為:lCNN但參數(shù)不共享,取卷積核特征同上,則不同卷積核數(shù)目為28*28,參數(shù)為:

在卷積層之間往往會加上一個池化層(poolinglayer)。池化層可以非常有效地縮小矩陣的尺寸,從而減少最后全連接層中的參數(shù)。使用池化層既可以加快計算速度也有防止過擬合問題的作用。四、深度學習算法卷積神經(jīng)網(wǎng)絡——池化層其他池化層在實踐中使用的比較少,本書不做過多的介紹3使用平均值操作的池化層被稱之為平均池化層(averagepooling)21使用最大值操作的池化層被稱之為最大池化層(maxpooling),這是被使用得最多的池化層結(jié)構(gòu)

池化層的池化窗口也需要人工設定池化窗口的尺寸、是否使用全0填充以及池化窗口移動的步長等設置。卷積層和池化層中池化窗口移動的方式是相似的。四、深度學習算法卷積神經(jīng)網(wǎng)絡——卷積層

假設我們輸入矩陣:卷積矩陣:實現(xiàn)一個簡單的卷積和池化運算過程。四、深度學習算法單元任務:認識卷積核池化操作

RNN的主要用途是處理和預測序列數(shù)據(jù),從網(wǎng)絡結(jié)構(gòu)上,RNN會記憶之前的信息,并利用之前的信息影響后面結(jié)點的輸出。也就是說,RNN的隱藏層之間的結(jié)點是有連接的,隱藏層的輸入不僅包括輸入層的輸出,還包括上一時刻隱藏層的輸出。四、深度學習算法循環(huán)神經(jīng)網(wǎng)絡RNN已經(jīng)被廣泛地應用在語音識別、語言模型、機器翻譯以及時序分析等問題上,并取得了巨大的成功

在實際應用中,我們會遇到很多序列形的數(shù)據(jù),如:自然語言處理問題語音處理時間序列問題四、深度學習算法循環(huán)神經(jīng)網(wǎng)絡——原理

RNN引入了隱狀態(tài)(hiddenstate),可對序列數(shù)據(jù)提取特征,接著再轉(zhuǎn)換為輸出。為了便于理解,先計算h1四、深度學習算法循環(huán)神經(jīng)網(wǎng)絡——原理

RNN中,每個步驟使用的參數(shù)

相同,h2的計算方式和h1類似四、深度學習算法循環(huán)神經(jīng)網(wǎng)絡——原理

計算h3,h4

也類似

四、深度學習算法循環(huán)神經(jīng)網(wǎng)絡——原理

RNN中的狀態(tài)是通過一個向量來表示的,這個向量的維度也稱為RNN隱藏層的大小,假設其為。循環(huán)體中的神經(jīng)網(wǎng)絡的輸入有兩部分,一部分為上一時刻的狀態(tài),另一部分為當前時刻的輸入樣本。四、深度學習算法循環(huán)神經(jīng)網(wǎng)絡——前向傳播

RNN中的狀態(tài)是通過一個向量來表示的,這個向量的維度也稱為RNN隱藏層的大小,假設其為。循環(huán)體中的神經(jīng)網(wǎng)絡的輸入有兩部分,一部分為上一時刻的狀態(tài),另一部分為當前時刻的輸入樣本。四、深度學習算法循環(huán)神經(jīng)網(wǎng)絡——前向傳播

在復雜語言場景中,有用信息的間隔有大有小、長短不一,循環(huán)神經(jīng)網(wǎng)絡的性能也會受到限制。為了解決該問題,研究人員提出了許多解決辦法,其中最成功應用的就是門限RNN,而長短時記憶網(wǎng)絡(longshort-termmemory,LSTM)就是門限RNN中最常用的一種。四、深度學習算法長短期記憶網(wǎng)絡LSTM是一種擁有三個“門”結(jié)構(gòu)的特殊網(wǎng)絡結(jié)構(gòu)

遺忘門”的作用是讓循環(huán)神經(jīng)網(wǎng)絡“忘記”之前沒有用的信息。比如一段文章中先介紹了某地原來是綠水藍天,但后來被污染了。于是在看到被污染了之后,循環(huán)神經(jīng)網(wǎng)絡應該“忘記”之前綠水藍天的狀態(tài)。這個工作是通過“遺忘門”來完成的。四、深度學習算法長短期記憶網(wǎng)絡——原理

輸入門:在RNN“忘記”了部分之前的狀態(tài)后,它還需要從當前的輸入補充最新的記憶,這個過程就是“輸入門”完成的。如圖所示,“輸入門"會根據(jù)和決定哪些信息加入到狀態(tài)中生成新的狀態(tài)。比如當看到文章中提到環(huán)境被污染之后,模型需要將這個信息寫入新的狀態(tài)。LSTM結(jié)構(gòu)可以更加有效地決定哪些信息應該被遺忘,哪些信息應該得到保留。四、深度學習算法長短期記憶網(wǎng)絡——原理

“輸出門”:LSTM結(jié)構(gòu)在計算得到新的狀態(tài)后需要產(chǎn)生當前時刻的輸出,這個過程是通過“輸出門”完成的。“輸出門”會根據(jù)最新的狀態(tài)、上一時刻的輸出和當前的輸入來決定該時刻的輸出值。比如當前的狀態(tài)為被污染,那么“天空的顏色”后面的單詞很可能就是“灰色的”。四、深度學習算法長短期記憶網(wǎng)絡——原理四、深度學習算法常見卷積神經(jīng)主干網(wǎng)絡——LeNetLeNet-5模型是YannLeCun教授于1998年在論文Gradientbasedlearningappliedtodocumentrecognition

中提出的,它是第一個成功應用于數(shù)字識別問題的卷積神經(jīng)網(wǎng)絡LeNet-5一共包含7層(輸入層不作為網(wǎng)絡結(jié)構(gòu)),分別由2個卷積層、2個下采樣層和3個連接層組成四、深度學習算法常見卷積神經(jīng)主干網(wǎng)絡——AlexNet2012年,AlexNet橫空出世。它首次證明了學習到的特征可以超越手工設計的特征。它一舉打破了計算機視覺研究的現(xiàn)狀。AlexNet使用了8層卷積神經(jīng)網(wǎng)絡,并以很大的優(yōu)勢贏得了2012年ImageNet圖像識別挑戰(zhàn)賽AlexNet由八層組成:五個卷積層、兩個全連接隱藏層和一個全連接輸出層。AlexNet使用ReLU而不是sigmoid作為其激活函數(shù)四、深度學習算法常見卷積神經(jīng)主干網(wǎng)絡——NetworkinNetworkNetworkInNetwork(NIN)是由等人提出,在CIFAR-10和CIFAR-100分類任務中達到當時的最好水平,因其網(wǎng)絡結(jié)構(gòu)是由三個多層感知機堆疊而被成為NINNIN以一種全新的角度審視了卷積神經(jīng)網(wǎng)絡中的卷積核設計,通過引入子網(wǎng)絡結(jié)構(gòu)代替純卷積中的線性映射部分,這種形式的網(wǎng)絡結(jié)構(gòu)激發(fā)了更復雜的卷積神經(jīng)網(wǎng)絡的結(jié)構(gòu)設計四、深度學習算法常見卷積神經(jīng)主干網(wǎng)絡——VGGNetVGGNet是由牛津大學視覺幾何小組(VisualGeometryGroup,VGG)提出的一種深層卷積網(wǎng)絡結(jié)構(gòu),他們以7.32%的錯誤率贏得了2014年ILSVRC分類任務的亞軍和25.32%的錯誤率奪得定位任務的冠軍VGGNet的核心是使用的卷積組合代替大尺寸的卷積四、深度學習算法常見卷積神經(jīng)主干網(wǎng)絡——GoogleNetGoogLeNet作為2014年ILSVRC在分類任務上的冠軍,以6.65%的錯誤率力壓VGGNet等模型,在分類的準確率上面相比過去兩屆冠軍都有很大的提升GoogLeNet相比于以前的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu),除了在深度上進行了延伸,還對網(wǎng)絡的寬度進行了擴展,整個網(wǎng)絡由許多塊狀子網(wǎng)絡的堆疊而成,這個子網(wǎng)絡構(gòu)成了Inception結(jié)構(gòu)四、深度學習算法常見卷積神經(jīng)主干網(wǎng)絡——ResNet2015年ILSVRC挑戰(zhàn)賽的贏家KaimingHe等人開發(fā)的ResidualNetwork也是一種常用的網(wǎng)絡結(jié)構(gòu),該網(wǎng)絡的top-5誤率低到驚人的3.6%,它使用了一個非常深的CNN,由152層組成能夠訓練如此深的網(wǎng)絡的關鍵是使用跳過連接:一個層的輸入信號也被添加到位于下一層的輸出單元小結(jié)本單元主要對機器學習和深度學習的基礎知識進行了講解。機器學習是一門討論各式各樣的適用于不同問題的函數(shù)形式,以及如何使用數(shù)據(jù)來有效地獲取函數(shù)參數(shù)具體值的學科;深度學習是指機器學習中的一類算法,它們的形式通常為多層神經(jīng)網(wǎng)絡。本單元四項任務:明確機器學習主要任務、熟悉機器學習常用算法、掌握深度學習相關知識基礎,了解深度學習常用算法并靈活運用所學算法解決實際問題。語言模型和算法流程04知識導圖課程安排課程任務課程目標安排課時深度學習中的數(shù)據(jù)集了解深度學習中常用的各類數(shù)據(jù)集及其特點1掌握數(shù)據(jù)預處理方法了解數(shù)據(jù)收集方式、數(shù)據(jù)標注工具的使用方法,明確數(shù)據(jù)清洗與整理思路,熟練掌握常用數(shù)據(jù)增強方法3MNIST數(shù)據(jù)集是機器學習領域中非常經(jīng)典的一個數(shù)據(jù)集,主要由一些手寫數(shù)字的圖片和相應的標簽組成,圖片一共有10類,分別對應從0~9共10個阿拉伯數(shù)字。由60000個訓練樣本和10000個測試樣本組成,每個樣本都是一張28*28像素的灰度手寫數(shù)字圖片一、通用數(shù)據(jù)集MINST常用的CIFAR-10數(shù)據(jù)集,包含了飛機、汽車、鳥等10個類別物體的32×32大小的彩色圖片,每個類別有6000張圖,計算可知,整個數(shù)據(jù)集一共有6000×10=60000張圖。數(shù)據(jù)集包含有訓練集和測試集兩個子集。訓練集一共50000張圖,包含了來自10個類別的1000張圖片。測試集一共10000張圖,也包含了隨機從每個類中抽取的1000張圖一、通用數(shù)據(jù)集CIFARVOC數(shù)據(jù)集是目標檢測經(jīng)常用的一個數(shù)據(jù)集,自2005年起每年舉辦一次比賽,最開始只有4類,到2007年擴充為20個類,如圖4.4所示,共有兩個常用的版本:2007和2012。VOC數(shù)據(jù)集適用于目標檢測、語義分割和實例分割等多個圖像視覺任務一、通用數(shù)據(jù)集PASCALImageNet是一個計算機視覺系統(tǒng)識別項目,是目前世界上圖像識別最大的數(shù)據(jù)庫。ImageNet是美國斯坦福的計算機科學家,模擬人類的識別系統(tǒng)建立的。能夠從圖片識別物體。目前ImageNet中總共有14197122幅圖像,總共分為21841個類別。ImageNet是一項持續(xù)的研究工作,旨在為世界各地的研究人員提供易于訪問的圖像數(shù)據(jù)庫一、通用數(shù)據(jù)集ImageNetCOCO數(shù)據(jù)集是微軟團隊發(fā)布的數(shù)據(jù)集,該數(shù)據(jù)集收集了大量包含常見物體的日常場景圖片。依托這一數(shù)據(jù)集,每年舉辦一次比賽,現(xiàn)已涵蓋檢測、分割、關鍵點識別、注釋等機器視覺的中心任務,是繼ImageNetChanllenge以來最有影響力的競賽之一。COCO的檢測任務共含有80個類,在2014年發(fā)布的數(shù)據(jù)規(guī)模分train/val/test分別為80k/40k/40k一、通用數(shù)據(jù)集MSCOCO二、常見計算機視覺任務數(shù)據(jù)集人臉數(shù)據(jù)集LFWLFW(LabeledFacesintheWildHome)數(shù)據(jù)集是人臉識別項目常用的數(shù)據(jù)集,包含了來自1680的13000張人臉圖,數(shù)據(jù)是從網(wǎng)上搜集來的CelebACelebA數(shù)據(jù)集由香港中文大學湯曉鷗教授實驗室公布的大型人臉識別數(shù)據(jù)集。包含有200K張人臉圖片,人臉屬性有40多種,主要用于人臉屬性的識別PubFigPubFig(PublicFiguresFaceDatabase)數(shù)據(jù)集是哥倫比亞大學開放的公眾人物臉部數(shù)據(jù)集,包含有200個人的58k+人臉圖像,主要用于非限制場景下的人臉識別二、常見計算機視覺任務數(shù)據(jù)集自動駕駛數(shù)據(jù)集Kitti數(shù)據(jù)集KITTI數(shù)據(jù)集由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯(lián)合創(chuàng)辦,是目前國際上最大的自動駕駛場景下的計算機視覺算法評測數(shù)據(jù)集。該數(shù)據(jù)集用于評測立體圖像,光流,視覺測距,3D物體檢測和3D跟蹤等計算機視覺技術在車載環(huán)境下的性能。KITTI包含市區(qū)、鄉(xiāng)村和高速公路等場景采集的真實圖像數(shù)據(jù),每張圖像中最多達15輛車和30個行人,還有各種程度的遮擋與截斷Apollo數(shù)據(jù)集Apollo開源自動駕駛數(shù)據(jù)集包括感知分類和路網(wǎng)數(shù)據(jù)等數(shù)十萬幀逐像素語義分割標注的高分辨率圖像數(shù)據(jù),以及與其對應的逐像素語義標注,覆蓋了來自三個城市的三個站點的地域。主要包含三部分:仿真數(shù)據(jù)集、演示數(shù)據(jù)集、標注數(shù)據(jù)集二、常見計算機視覺任務數(shù)據(jù)集醫(yī)療影像數(shù)據(jù)集數(shù)字視網(wǎng)膜圖像數(shù)據(jù)集數(shù)字視網(wǎng)膜圖像數(shù)據(jù)集主要用于視網(wǎng)膜圖像中血管分割的比較研究,它由40張照片組成,其中7張顯示出輕度早期糖尿病性視網(wǎng)膜病變的跡象皮膚損傷數(shù)據(jù)集皮膚損傷數(shù)據(jù)集包含分類皮膚損傷的23k圖像。含有惡性和良性的例子。每個示例均包含病變的圖像,可進行有關病變的圖像分類和圖像分割任務的應用型研究三、數(shù)據(jù)預處理方法預處理流程數(shù)據(jù)收集數(shù)據(jù)標注數(shù)據(jù)增強數(shù)據(jù)清洗與整理通常有自行制作數(shù)據(jù)集、尋找已有的公開數(shù)據(jù)集和數(shù)據(jù)爬蟲等方式,但是通過這些方式獲取的數(shù)據(jù)集常常存在一定的局限性,普遍存在數(shù)據(jù)集不規(guī)范、數(shù)據(jù)集缺失、數(shù)據(jù)樣本不均衡等問題數(shù)據(jù)標注是數(shù)據(jù)收集后的一個重要步驟,數(shù)據(jù)標注就是對未處理的初級數(shù)據(jù),轉(zhuǎn)換為屬性標簽以訓練數(shù)據(jù)集分類標注:對圖片進行分類檢測標注:對圖片中出現(xiàn)的物體檢測其位置分割標注:對圖片進行切割數(shù)據(jù)在采集完之后,往往包含著噪聲、缺失數(shù)據(jù)、不規(guī)則數(shù)據(jù)等各種問題,因此需要對其進行清洗和整理工作數(shù)據(jù)規(guī)范化管理數(shù)據(jù)整理分類歸一化數(shù)據(jù)去噪數(shù)據(jù)去重數(shù)據(jù)增強的意思是通過對訓練集進行各種變換方法得到新的訓練數(shù)據(jù)集,這個新的訓練集具有更多數(shù)量、更多特征和更多干擾,用數(shù)據(jù)增強過的訓練集可以得到泛化能力更強的模型有監(jiān)督的數(shù)據(jù)增強無監(jiān)督的數(shù)據(jù)增強三、數(shù)據(jù)預處理方法數(shù)據(jù)增強——有監(jiān)督數(shù)據(jù)增強有監(jiān)督數(shù)據(jù)增強幾何變換:旋轉(zhuǎn),翻轉(zhuǎn),裁剪,變形,縮放等各類操作顏色變換:噪聲、模糊、顏色變換、擦除、填充SMOTE:SMOTE方法是基于插值的方法,它可以為小樣本類合成新的樣本SampleParing:從訓練集中隨機抽取兩張圖片分別經(jīng)過幾何或者顏色變換操作處理后經(jīng)像素以取平均值的形式疊加合成一個新的樣本,標簽為原樣本標簽中的一種Mixup:隨機抽取兩個樣本進行簡答的隨機加權求和,同樣樣本標簽也應加權求和Cotout:隨機的將樣本中的部分區(qū)域去掉,并且填充0像素值,分類的結(jié)果不變CutMix:將一部分區(qū)域cut掉但不填充0像素而是隨機填充訓練集中的其他數(shù)據(jù)的區(qū)域像素值,分類結(jié)果按一定的比例分配Mosaic:數(shù)據(jù)增強則利用了四張圖片,對四張圖片進行拼接,每一張圖片都有其對應的框框,將四張圖片拼接之后就獲得一張新的圖片

無監(jiān)督的數(shù)據(jù)增強方法包括兩類:(1)通過生成模型學習數(shù)據(jù)的分布,隨機生成與訓練集分布一直的圖片,代表方法為生成對抗網(wǎng)絡(2)通過模型學習出適合當前任務的數(shù)據(jù)增強方法,代表方法AutoAugment等三、數(shù)據(jù)預處理方法無監(jiān)督數(shù)據(jù)增強三、數(shù)據(jù)預處理方法單元任務:實現(xiàn)簡單的數(shù)據(jù)增強亮度調(diào)整尺寸調(diào)整裁剪圖片填充圖片水平翻轉(zhuǎn)色調(diào)調(diào)整飽和度調(diào)整三、數(shù)據(jù)預處理方法單元任務:實現(xiàn)簡單的數(shù)據(jù)增強水平翻轉(zhuǎn)三、數(shù)據(jù)預處理方法單元任務:實現(xiàn)簡單的數(shù)據(jù)增強尺寸調(diào)整三、數(shù)據(jù)預處理方法單元任務:實現(xiàn)簡單的數(shù)據(jù)增強裁剪圖片三、數(shù)據(jù)預處理方法單元任務:實現(xiàn)簡單的數(shù)據(jù)增強填充圖片三、數(shù)據(jù)預處理方法單元任務:實現(xiàn)簡單的數(shù)據(jù)增強亮度調(diào)整三、數(shù)據(jù)預處理方法單元任務:實現(xiàn)簡單的數(shù)據(jù)增強飽和度調(diào)整單元小結(jié)本單元主要從數(shù)據(jù)與深度學習的關系、幾大重要方向的數(shù)據(jù)集、數(shù)據(jù)的增強方法及數(shù)據(jù)標注和整理等方面進行詳細講解。通過本單元學習,能夠了解深度學習常用數(shù)據(jù)集、數(shù)據(jù)預處理方法,并熟練掌握常用數(shù)據(jù)增強方法。感知機05知識導圖課程安排課程任務課程目標安排課時熟悉圖像分類問題了解圖像分類定義、圖像分類問題類型以及常見圖像分類方法步驟1熟悉圖像分類的評測指標與優(yōu)化目標從單標簽分類和多標簽分類兩個維度掌握圖像熟悉圖像分類的評價方法以及優(yōu)化目標1了解圖像分類的挑戰(zhàn)了解圖像分類方法的瓶頸及挑戰(zhàn)2圖像分類,輸入圖像,輸出對該圖像內(nèi)容分類的描述的問題一般來說,圖像分類通過手工提取特征或特征學習方法對整個圖像進行全部描述,然后使用分類器判別物體類別,因此如何提取圖像的特征至關重要基于深度學習的圖像分類方法,可以通過有監(jiān)督或無監(jiān)督的方式學習層次化的特征描述,從而取代了手工設計或選擇圖像特征的工作一、圖像分類問題圖像分類概述跨物種語義級別的圖像分類:它是在不同物種的層次上識別不同類別的對象,比較常見的包括如貓狗分類等子類細粒度圖像分類:相對于跨物種的圖像分類,級別更低一些。它往往是同一個大類中的子類的分類,如不同鳥類的分類,不同狗類的分類,不同車型的分類等一、圖像分類問題圖像分類類型一、圖像分類問題圖像分類步驟輸入1輸入是一個由N張圖片組成的集合,每張圖片都給了一個特定的類別標簽學習2目的是讓模型學習這些圖片大概是什么樣子,然后記下來,稱這一步為訓練模型評估3利用訓練得來的模型預測一個模型沒看過的數(shù)據(jù)集的標簽,評估模型的準確度單標簽分類二、評價指標和優(yōu)化目標單標簽分類和多標簽分類

和0-1損失函數(shù)相似,絕對值損失函數(shù)表示為:

單標簽分類softmaxloss是我們最熟悉的loss之一,在單標簽圖像分類任務中都被廣泛使用。Softmaxloss是由softmax和交叉熵(cross-entropyloss)loss組合而成在單標簽比賽中常用的準確度評測指標是top-N準確率,其中ImageNet挑戰(zhàn)賽中常用的是top-5和top-1準確率

和0-1損失函數(shù)相似,絕對值損失函數(shù)表示為:

多標簽分類一對一的策略:給定數(shù)據(jù)集D這里有N個類別,這種情況下就是將這些類別兩兩配對,從而產(chǎn)生N(N?1)2個二分類任務,在測試的時候把樣本交給這些分類器,然后進行投票一對其余策略:將每一次的一個類作為正例,其余作為反例,總共訓練N個分類器。測試的時候若僅有一個分類器預測為正的類別則對應的類別標記作為最終分類結(jié)果,若有多個分類器預測為正類,則選擇置信度最大的類別作為最終分類結(jié)果三、圖像分類的挑戰(zhàn)三類挑戰(zhàn)因素一般因素比較常見的基于圖像本身的一些因素,比如光照,形變,尺度,模糊等類內(nèi)差異內(nèi)差異太大,比如椅子,桌子,雖然都叫椅子,桌子,可是形態(tài)各異類間差異類間差異太小,最常見的就是細粒度分類四、單元任務102種花卉圖像分類實戰(zhàn)利用深度學習構(gòu)架神經(jīng)網(wǎng)絡模型解決102種花卉的分類任務,數(shù)據(jù)集來自世界各地的總共102個品種的花卉。0102030405數(shù)據(jù)讀取和預處理模型構(gòu)建模型訓練模型評估模型測試四、單元任務102種花卉圖像分類實戰(zhàn)關鍵步驟:(1)模型構(gòu)建;(2)模型訓練;(3)模型評估單元小結(jié)本單元系統(tǒng)地介紹了圖像分類任務的相關基礎知識,從圖像分類問題、圖像分類評測指標與優(yōu)化目標以及圖像分類面臨的挑戰(zhàn)等方面系統(tǒng)性梳理了圖像分類任務的整體架構(gòu)。通過本單元的學習,掌握圖像分類基礎知識,并能夠在單元任務的實踐中熟悉圖像分類的數(shù)據(jù)處理和深度學習算法。條件隨機場06知識導圖課程安排課程任務課程目標安排課時目標檢測綜述深刻理解目標檢測具體任務內(nèi)容,了解目標檢測算法發(fā)展歷程和具有代表性的典型算法1目標檢測基礎熟悉目標檢測的數(shù)據(jù)集構(gòu)成,評測指標和常用分類和定位損失函數(shù)4Yolov3算法整體理解Yolov3算法的框架,熟悉用Tensorflow編寫Yolov3模型的代碼4SSD算法整體理解SSD算法完成目標檢測任務的模型,能夠使用Tensorflow完成SSD模型代碼的編寫4一、目標檢測目標檢測方法概述在給定圖像上選定若干候選區(qū)域目標,最常使用的是長寬比一定的滑動窗口在這些區(qū)域中提取特征,常用的特征提取算法常用的有HOG、ACF和SIFT等根據(jù)前面得到的特征使用訓練好的分類器如支持向量機(SVM)完成分類任務檢測精度低速度需要大量的手工參數(shù)設計模型設計復雜多變一、目標檢測目標檢測方法概述目前目標檢測領域的深度學習方法主要分為兩類:twostage的目標檢測算法和onestage的目標檢測算法twostage:先由算法生成一系列作為樣本的候選框,再通過卷積神經(jīng)網(wǎng)絡進行樣本分類,在檢測準確率和定位精度上占優(yōu)onestage:不用產(chǎn)生候選框,直接將目標邊框定位的問題轉(zhuǎn)化為回歸問題處理,在算法速度上占優(yōu)一、目標檢測雙階段檢測網(wǎng)絡-RCNN

R-CNN算法將底層的圖像特征延展到高層的語義特征,用一種更為抽象的特征取代了之前以機器學習為基礎的特征工程??偟哪P徒M成為選擇性搜索(SelectiveSearch)、卷積神經(jīng)網(wǎng)絡(CNN)和支持向量機(SVM)。先用選擇性搜索算法代替?zhèn)鹘y(tǒng)的滑動窗口,提取出兩千個候選區(qū)域;然后針對每個候選區(qū)域,普遍使用卷積神經(jīng)網(wǎng)絡來提取特征,并通過訓練可支持向量機作為分類器,將卷積神經(jīng)網(wǎng)絡提取出來的特征作為輸出,得到每個候選區(qū)域?qū)儆谀骋活惖牡梅?;最后在每個類別上用非極大抑制(Non-maximumSuppression,NMS)來舍棄掉重復率較高的區(qū)域得到最終檢測的結(jié)果。一、目標檢測雙階段檢測網(wǎng)絡-FastRCNN

FastR-CNN使用CNN先提取整個圖像的特征,而不是從頭開始對每個圖像塊提取多次。然后將創(chuàng)建候選區(qū)域的方法直接應用到提取到的特征圖上。使用RoI池化將特征圖塊轉(zhuǎn)換為固定的大小,并饋送到全連接層進行分類和定位。因為FastR-CNN不會重復提取特征,因此顯著地減少處理時間,大大提升了模型的訓練速度和檢測速度,讓二階段的目標檢測算法逐漸成熟。一、目標檢測雙階段檢測網(wǎng)絡-FasterRCNN

FasterR-CNN將特征提取,邊界候選框提取,邊界錨點框回歸和分類都整合在了一個綜合性的神經(jīng)網(wǎng)絡中,并同樣在卷積主要模塊之間共享參數(shù)計算,模型不但在整體上形成了端到端的訓練和檢測,而且又一步提升了模型訓練和檢測速度,完全具備了實際應用的價值特征提取的卷積層候選區(qū)域生成網(wǎng)絡候選區(qū)域池化層一、目標檢測單階段檢測網(wǎng)絡-Yolo和SSD

Yolo系列的算法將整個特征圖分割為眾多網(wǎng)格,通過K-Means聚類來篩選先驗邊界框的縱橫比尺寸大小,并使用網(wǎng)格的參數(shù)化坐標和先驗邊界框與真實邊界框偏移量完成目標的分類和回歸任務。由于其模型簡單易用且檢測準確快速,故具有廣泛的實際應用。特征提取的卷積層。SSD在速度上的提升基本來源于淘汰了候選區(qū)域邊界框,以及網(wǎng)絡后段的像素級特征重采樣階段。SSD在精度上的提升可以歸結(jié)于兩點:第一,在模型預測類別和邊界框位置時,卷積層普遍使用了更小尺寸的卷積濾波器第二,模型為多尺度和不同寬高比的特征圖設置了分解的獨立檢測器一、目標檢測常用數(shù)據(jù)集包括日常生活中常見的20種物體類別,如圖6.9和6.10所示。VOC2007和VOC2012將訓練集、測試集和標簽文件分開,一共六個壓縮文件目標檢測的評測指標主要為平均精確度(AP)平均精確度主要是由精確度與召回率的平滑后的曲線面積計算所得在多個檢測類上進一步均值化就是均值平均精確度(mAP)精確率P和召回率R:將樣本根據(jù)其真實類別與預測類別的組合劃分為“混淆矩陣”真正例(TP),假真例(FP),真反例(TN),假反例(FN)一、目標檢測評測指標單標簽分類一、目標檢測損失函數(shù)

和0-1損失函數(shù)相似,絕對值損失函數(shù)表示為:

類別損失交叉熵損失(CrossEntropyLoss)改進的交叉熵損失Focalloss

和0-1損失函數(shù)相似,絕對值損失函數(shù)表示為:

位置損失平均絕對誤差(MeanAbsoluteError,MAE):計算為模型預測值和真實值之間距離的平均值。局方誤差損失(MeanSquareError,MSE):計算為模型預測值和真實值之差平方的平均值。SmoothL1loss:改進的L1lossIoUloss:交并比損失二、單元任務使用Yolov3算法實現(xiàn)目標檢測0102030405數(shù)據(jù)讀取和預處理模型構(gòu)建模型訓練可視化模型測試四、單元任務102種花卉圖像分類實戰(zhàn)關鍵步驟:模型構(gòu)建四、單元任務102種花卉圖像分類實戰(zhàn)關鍵步驟:模型構(gòu)建單元小結(jié)本單元主要對目標檢測算法的發(fā)展歷程和基礎知識進行了講解,通過單元任務學習,能夠熟練使用Yolov3算法和SSD算法完成目標檢測任務。命名實體識別07知識導圖課程安排課程任務課程目標安排課時傳統(tǒng)圖像分割方法了解包括閾值法、區(qū)域生長法以及圖切法在內(nèi)的傳統(tǒng)圖像分割方法,了解各類方法的優(yōu)勢與限制性2深度學習圖像分割方法掌握基于深度學習的圖像分割方法的基本流程,重點掌握全卷積網(wǎng)絡的基本結(jié)構(gòu)以及核心技術,并能夠熟練運用主流MaskR-CNN網(wǎng)絡解決圖像分割問題3一、傳統(tǒng)圖像分割法閾值法、區(qū)域與超像素、圖切法閾值分割是常見的直接對圖像進行分割的算法,根據(jù)圖像像素的灰度值的不同而定對應單一目標圖像,只需選取一個閾值,即可將圖像分為目標和背景兩大類,這個稱為單閾值分割如果目標圖像復雜,選取多個閾值,才能將圖像中的目標區(qū)域和背景被分割成多個,這個稱為多閾值分割基于圖論的圖像分割技術(GraphCut)是一直以來都是圖像分割領域的研究熱點。其基本思想是將圖像映射為帶權無向圖,把像素視作節(jié)點,節(jié)點之間的邊的權重對應于兩個像素間的不相似性度量,割的容量對應能量函數(shù)區(qū)域生長算法的基本思想是將有相似性質(zhì)的像素點合并到一起。對每一個區(qū)域要先指定一個種子點作為生長的起點,然后將種子點周圍領域的像素點和種子點進行對比,將具有相似性質(zhì)的點合并起來繼續(xù)向外生長,直到?jīng)]有滿足條件的像素被包括進來為止圖切法閾值法區(qū)域與超像素一、傳統(tǒng)圖像分割法閾值法、區(qū)域與超像素、圖切法閾值法閾值分割是常見的直接對圖像進行分割的算法,根據(jù)圖像像素的灰度值的不同而定單閾值、多閾值區(qū)域與超像素區(qū)域生長算法的基本思想是將有相似性質(zhì)的像素點合并到一起確認種子點、確認生長準則、確認生長停止準則圖切法將圖像映射為帶權無向圖,把像素視作節(jié)點,節(jié)點之間的邊的權重對應于兩個像素間的不相似性度量,割的容量對應能量函數(shù)全卷積網(wǎng)絡整體的網(wǎng)絡結(jié)構(gòu)分為兩個部分:全卷積部分和反卷積部分。其中全卷積部分借用了一些經(jīng)典的CNN網(wǎng)絡(如AlexNet,VGG,GoogLeNet等),并把最后的全連接層換成卷積,用于提取特征,形成熱點圖反卷積部分則是將小尺寸的熱點圖上采樣得到原尺寸的語義分割圖像二、深度學習圖像分割基本流程二、深度學習圖像分割上采樣雙線性插值反卷積反池化由于輸入圖像通過卷積神經(jīng)網(wǎng)絡提取特征后,輸出的尺寸往往會變小,而有時我們需要將圖像恢復到原來的尺寸以便進行進一步的計算,這個實現(xiàn)圖像由小分辨率到大分辨率的映射的操作,叫做上采樣。

反卷積是一種特殊的正向卷積,先按照一定的比例通過補0來擴大輸入圖像的尺寸,接著旋轉(zhuǎn)卷積核,再進行正向卷積。多尺度與感受野二、深度學習圖像分割

使用金字塔的池化方案可實現(xiàn)不同尺度的感受野,它能夠起到將局部區(qū)域上下文信息與全局上下文信息結(jié)合的效果。對于圖像分割任務,全局上下文信息通常是與整體輪廓相關的信息,而局部上下文信息則是圖像的細節(jié)紋理,要想對多尺度的目標很好地完成分割,這兩部分信息都是必須的。模型輸入是整張待檢測的圖片,然后進入CNN中,進行一次特征提取,得到特征圖,在特征圖中找到各個候選框的區(qū)域,再對各個候選框采用金字塔空間池化,提取出固定長度的特征向量

空洞卷積是一種調(diào)整感受野(多尺度信息)的同時控制分辨率的卷積操作,它的原理就是原始卷積區(qū)域相鄰像素之間的距離不是普通卷積的1,而是根據(jù)膨脹系數(shù)的不同而不同。不通過池化也能有較大的感受野看到更多的信息圖像蒙版三、圖像蒙版與圖像合成從圖像中確定前景和背景的技術叫做圖像蒙版。圖像蒙版通過alpha通道控制透明度將圖像分為前景圖和背景圖,用于后續(xù)前景圖和新背景圖的圖像合成01圖像蒙版02Trimap-based方法03Trimap-free背景蒙版方法精度高,需要同時輸入圖像和人工精確標注的Trimap只需要單張圖像輸入,精度較低去除標注費時的精確標注的Trimap依賴,改為容易獲取的“輕微隨機”的背景圖像合成三、圖像蒙版與圖像合成將摳出的部分無縫的貼入目標圖像的過程則稱為圖像合成。在完成圖像分割之后,接下來的一步很可能就是進行背景的替換工作,圖像合成是其中的關鍵技術剪切粘貼最直觀簡單就是直接剪切粘貼,經(jīng)常在攝影師后期制作中所采用Alpha融合Alpha融合可以看做是一個升級版的直接剪切粘貼,如果表示為公式的話:輸出=前景*蒙版+背景*(1-蒙版)多頻段融合要想讓Alpha融合結(jié)果顯得自然,關鍵的一點是選擇合適的融合窗口大小,多頻段融合可以很好的處理邊界四、單元任務使用U-Net模型實現(xiàn)城市街景圖像的分割0102030405數(shù)據(jù)讀取和預處理構(gòu)建U-Net模型模型訓練模型評估模型測試四、單元任務使用U-Net模型實現(xiàn)城市街景圖像的分割關鍵步驟:模型構(gòu)建單元小結(jié)圖像分割也可作為預處理將最初的圖像轉(zhuǎn)化為若干個更加抽象、更便于計算機處理的形式,既保留了圖像中的重要特征信息,又有效減少了圖像中的無用數(shù)據(jù)、提高了后續(xù)圖像處理的準確率和效率。在通信方面,可事先提取目標的輪廓結(jié)構(gòu)、區(qū)域內(nèi)容等,保證不失有用信息的同時,有針對性地壓縮圖像,以提高網(wǎng)絡傳輸效率;在交通領域可用來對車輛進行輪廓提取、識別或跟蹤,行人檢測等??偟膩碚f,凡是與目標的檢測、提取和識別等相關的內(nèi)容,都需要利用到圖像分割技術。因此,無論是從圖像分割的技術和算法,還是從對圖像處理、計算機視覺的影響以及實際應用等各個方面來深入研究和探討圖像分割,都具有十分重要的意義。信息提取08知識導圖課程安排課程任務課程目標安排課時掌握生成對抗網(wǎng)絡基礎知識學習包括生成對抗網(wǎng)絡的算法思想、經(jīng)典網(wǎng)絡結(jié)構(gòu),了解生成式模型與判別式模型,進一步理解生成器和判別器原理,通過實戰(zhàn)掌握生成對抗網(wǎng)絡的構(gòu)建及訓練方式4一、生成對抗網(wǎng)絡概述生成對抗網(wǎng)絡(GAN,Generativeadversarialnetwork)由生成器和判別器組成,生成器負責生成樣本,判別器負責判斷生成器生成的樣本是否為真。生成器要盡可能迷惑判別器,而判別器要盡可能區(qū)分生成器生成的樣本和真實樣本

生成的假樣本與真實樣本放到一起,被隨機抽取送入到判別器D,由判別器去區(qū)分輸入的樣本是生成的假樣本還是真實的樣本一、生成對抗網(wǎng)絡網(wǎng)絡結(jié)構(gòu)

一、生成對抗網(wǎng)絡生成式模型和判別式模型生成式模型:由數(shù)據(jù)學習聯(lián)合概率分布P(X,Y),然后由P(Y|X)=P(X,Y)/P(X)求出概率分布P(Y|X)作為預測的模型。該方法表示了給定輸入X與產(chǎn)生輸出Y的生成關系Y(性別)01X(特征)01/43/4X(特征)13/41/4

統(tǒng)計得到上述聯(lián)合概率分布P(X,Y)后,可以學習一個模型,比如讓二維高斯分布去擬合上述數(shù)據(jù),這樣就學習到了X,Y的聯(lián)合分布。在預測時,如果我們希望給一個輸入特征X,預測其類別,則需要通過貝葉斯公式得到條件概率分布才能進行推斷判別式模型:由數(shù)據(jù)直接學習決策函數(shù)Y=f(X)或條件概率分布P(Y|X)作為預測模型,即判別模型。判別方法關心的是對于給定的輸入X,應該預測什么樣的輸出Y可以訓練一個模型,輸入人的特征X,這些特征包括人的五官,穿衣風格,發(fā)型等。輸出則是對于性別的判斷概率,這個概率服從一個分布,分布的取值只有兩個,要么男,要么女,記這個分布為Y。這個過程學習了一個條件概率分布P(Y|X),即輸入特征X的分布已知條件下,Y的概率分布二、單元任務生成人臉圖片0102030405數(shù)據(jù)讀取和預處理構(gòu)建GAN模型模型訓練模型評估模型測試四、單元任務使用U-Net模型實現(xiàn)城市街景圖像的分割關鍵步驟:模型構(gòu)建單元小結(jié)生成對抗網(wǎng)絡的出現(xiàn)在一定程度上解決了由于深度神經(jīng)網(wǎng)絡在小規(guī)模數(shù)據(jù)集上難以訓練、容易出現(xiàn)過擬合的問題。和其他模型的對比,生成對抗網(wǎng)絡既可以有效提升分類器的分類性能,同時生成的圖像數(shù)據(jù)和真實數(shù)據(jù)相比具有語義的相似性和內(nèi)容的多樣性。由于生成對抗網(wǎng)絡在理論方面較新穎,實現(xiàn)方面也有很多可以改進的地方,大大地激發(fā)了學術界的研究興趣。在接下來的數(shù)年里,生成對抗網(wǎng)絡的研究如火如荼的進行,并取得了實質(zhì)性的進展。文本聚類09知識導圖課程安排課程任務課程目標安排課時掌握常用的深度學習模型優(yōu)化方法學掌握深度學習模型優(yōu)化思路,掌握常用的模型優(yōu)化方法,并通過實踐加深理解3一、模型優(yōu)化思路模型優(yōu)化的四個維度數(shù)據(jù)角度增強數(shù)據(jù);數(shù)據(jù)預處理模型角度增大模型規(guī)模,權衡優(yōu)化和訓練效率調(diào)參優(yōu)化角度優(yōu)化算法、學習率、正則項、損失函數(shù)訓練角度訓練輪數(shù)、學習衰減率、正則項二、參數(shù)初始化參數(shù)初始化的幾種方法常數(shù)初始化01把權值或者偏置初始化為一個常數(shù)高斯初始化02給定一組均值和標準差,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論