人工智能技術(shù)導(dǎo)論 課件 03 計(jì)算機(jī)視覺(jué)技術(shù)及應(yīng)用_第1頁(yè)
人工智能技術(shù)導(dǎo)論 課件 03 計(jì)算機(jī)視覺(jué)技術(shù)及應(yīng)用_第2頁(yè)
人工智能技術(shù)導(dǎo)論 課件 03 計(jì)算機(jī)視覺(jué)技術(shù)及應(yīng)用_第3頁(yè)
人工智能技術(shù)導(dǎo)論 課件 03 計(jì)算機(jī)視覺(jué)技術(shù)及應(yīng)用_第4頁(yè)
人工智能技術(shù)導(dǎo)論 課件 03 計(jì)算機(jī)視覺(jué)技術(shù)及應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩52頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章計(jì)算機(jī)視覺(jué)技術(shù)及應(yīng)用本章目標(biāo)了解計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展歷程及應(yīng)用領(lǐng)域熟悉基于深度學(xué)習(xí)的視覺(jué)技術(shù)掌握OpenCV框架的基本使用掌握人臉識(shí)別和車(chē)牌識(shí)別項(xiàng)目的開(kāi)發(fā)流程3.1計(jì)算機(jī)視覺(jué)簡(jiǎn)介人臉識(shí)別自動(dòng)駕駛醫(yī)學(xué)影像分析工業(yè)質(zhì)檢ComputerVision-->CV視覺(jué)是人類(lèi)獲取信息最主要的方式,而計(jì)算機(jī)視覺(jué)就是一門(mén)研究如何使計(jì)算機(jī)系統(tǒng)具備視覺(jué)感知能力的學(xué)科。通過(guò)模仿人類(lèi)視覺(jué)系統(tǒng)的工作方式,計(jì)算機(jī)視覺(jué)技術(shù)旨在使計(jì)算機(jī)能夠理解、解釋和處理圖像或視頻數(shù)據(jù)。3.1.1計(jì)算機(jī)視覺(jué)發(fā)展概述

計(jì)算機(jī)視覺(jué)的發(fā)展經(jīng)歷了從早期的模式識(shí)別到深度學(xué)習(xí)的飛躍,為人工智能的發(fā)展提供了強(qiáng)有力的支持。隨著計(jì)算機(jī)視覺(jué)技術(shù)的不斷進(jìn)步,其在實(shí)際應(yīng)用中取得了巨大成功。起步階段20世紀(jì)50年代-70年代)模式識(shí)別的初步探索感知器模型被提出硬件和算法的限制使得計(jì)算機(jī)無(wú)法有效地處理大規(guī)模的圖像數(shù)據(jù)圖像處理的崛起20世紀(jì)80年代-90年代數(shù)字圖像處理邊緣檢測(cè)、圖像增強(qiáng)為后續(xù)的模式識(shí)別和目標(biāo)檢測(cè)打下了基礎(chǔ)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)2000年代初-2010年代支持向量機(jī)(SVM)卷積神經(jīng)網(wǎng)絡(luò)(CNN)隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的興起,計(jì)算機(jī)視覺(jué)取得了巨大的突破。圖像生成與遷移學(xué)習(xí)2010年代-至今生成對(duì)抗網(wǎng)絡(luò)(GAN)遷移學(xué)習(xí)計(jì)算機(jī)視覺(jué)逐漸向圖像生成和遷移學(xué)習(xí)等方向發(fā)展。3.1.1計(jì)算機(jī)視覺(jué)發(fā)展概述思政小課堂:《新一代人工智能倫理規(guī)范》發(fā)布3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理通過(guò)攝像頭、傳感器或者其他圖像采集設(shè)備捕捉到現(xiàn)實(shí)世界中的圖像,將其轉(zhuǎn)化為數(shù)字信號(hào)。1、圖像獲取3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理轉(zhuǎn)換為數(shù)字信號(hào)后的圖像,由一個(gè)個(gè)像素點(diǎn)組成,可以用像素矩陣來(lái)表示。每一個(gè)像素點(diǎn)都有一個(gè)對(duì)應(yīng)的像素值。1、圖像獲取3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理轉(zhuǎn)換為數(shù)字信號(hào)后的圖像,由一個(gè)個(gè)像素點(diǎn)組成,可以用像素矩陣來(lái)表示。每一個(gè)像素點(diǎn)都有一個(gè)對(duì)應(yīng)的像素值。1、圖像獲取3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理灰度圖像只有一個(gè)通道,而彩色圖像則由紅綠藍(lán)(RGB)三個(gè)通道組成(或者采用其他顏色模式,如CMYK等)。1、圖像獲取3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理彩色圖像可以很容易轉(zhuǎn)換為灰度圖像,例如使用公式Y(jié)=0.3*R+0.59*G+0.11*B而給灰度圖像“上色”則較為復(fù)雜。1、圖像獲?。?.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理而給灰度圖像“上色”則需要更加智能的技術(shù)。1、圖像獲取彩色4K修復(fù)版開(kāi)國(guó)大典首現(xiàn)大熒幕:這清晰度絕了3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理獲取到圖像后,計(jì)算機(jī)會(huì)進(jìn)行一系列的圖像處理操作,以提取有用的信息。比如,在圖像的預(yù)處理階段,進(jìn)行去噪、增強(qiáng)對(duì)比度等操作。在特征提取階段,會(huì)突出圖像中的關(guān)鍵特征,比如邊緣、顏色等。這些處理有助于減小數(shù)據(jù)量并突顯重要信息,以便后續(xù)的模式識(shí)別。2、圖像處理3.1.2計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)原理在圖像處理的基礎(chǔ)上,計(jì)算機(jī)進(jìn)行模式識(shí)別,也就是理解圖像中的內(nèi)容。深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)等模型在這一步驟中發(fā)揮了關(guān)鍵作用。它能夠自動(dòng)從圖像中提取特征,并通過(guò)訓(xùn)練過(guò)程學(xué)習(xí)如何分類(lèi)或識(shí)別圖像中的目標(biāo)。3、模式識(shí)別3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用人臉識(shí)別技術(shù)被廣泛應(yīng)用于交通、金融、安防、社交媒體等領(lǐng)域。通過(guò)定位人臉和分析面部特征,計(jì)算機(jī)能夠準(zhǔn)確辨識(shí)個(gè)體身份。1、人臉識(shí)別3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用計(jì)算機(jī)視覺(jué)在自動(dòng)駕駛汽車(chē)中扮演著關(guān)鍵角色。通過(guò)攝像頭獲取車(chē)輛周?chē)h(huán)境圖像,計(jì)算機(jī)視覺(jué)算法系統(tǒng)能夠?qū)崟r(shí)識(shí)別道路、障礙物、交通標(biāo)志等,從而智能地操控車(chē)輛。2、自動(dòng)駕駛3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用在醫(yī)學(xué)領(lǐng)域,計(jì)算機(jī)視覺(jué)用于分析醫(yī)學(xué)影像,如CT掃描、MRI等。這有助于自動(dòng)檢測(cè)疾病跡象、輔助診斷,提高醫(yī)療水平和效率。3、醫(yī)學(xué)影像分析3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用計(jì)算機(jī)視覺(jué)系統(tǒng)被廣泛應(yīng)用于工業(yè)生產(chǎn)中的質(zhì)量控制。通過(guò)檢測(cè)產(chǎn)品表面的缺陷、尺寸偏差等,保證產(chǎn)品質(zhì)量并提高生產(chǎn)效率。4、工業(yè)質(zhì)檢3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用計(jì)算機(jī)視覺(jué)系統(tǒng)被廣泛應(yīng)用于工業(yè)生產(chǎn)中的質(zhì)量控制。通過(guò)檢測(cè)產(chǎn)品表面的缺陷、尺寸偏差等,保證產(chǎn)品質(zhì)量并提高生產(chǎn)效率。4、工業(yè)質(zhì)檢3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用在視頻監(jiān)控和安防系統(tǒng)中,計(jì)算機(jī)視覺(jué)可用于檢測(cè)和跟蹤目標(biāo),幫助監(jiān)測(cè)場(chǎng)景中的異常情況,極大地提升了安保效率,為維護(hù)社會(huì)治安做出了貢獻(xiàn)。5、目標(biāo)檢測(cè)與跟蹤3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用計(jì)算機(jī)視覺(jué)技術(shù)為增強(qiáng)現(xiàn)實(shí)技術(shù)提供支持,通過(guò)識(shí)別和追蹤現(xiàn)實(shí)世界中的物體,將虛擬信息疊加到用戶(hù)的視野中,拓展了交互和娛樂(lè)的可能性。6、增強(qiáng)現(xiàn)實(shí)(AR)3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用通過(guò)分析人體手部動(dòng)作,計(jì)算機(jī)視覺(jué)能夠識(shí)別手勢(shì)并將其轉(zhuǎn)化為控制命令,這在虛擬現(xiàn)實(shí)、智能家居等領(lǐng)域有廣泛應(yīng)用。7、手勢(shì)識(shí)別3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用計(jì)算機(jī)視覺(jué)可以用于識(shí)別、提取文檔中的文字信息,實(shí)現(xiàn)自動(dòng)化的文檔管理和信息檢索。光學(xué)字符識(shí)別(OCR)技術(shù)是其中的關(guān)鍵組成部分。8、文檔識(shí)別OCR3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用計(jì)算機(jī)視覺(jué)可以用于識(shí)別、提取文檔中的文字信息,實(shí)現(xiàn)自動(dòng)化的文檔管理和信息檢索。光學(xué)字符識(shí)別(OCR)技術(shù)是其中的關(guān)鍵組成部分。8、文檔識(shí)別OCR3.1.3計(jì)算機(jī)視覺(jué)典型應(yīng)用在零售業(yè),計(jì)算機(jī)視覺(jué)被用于人流分析、貨架管理、商品識(shí)別等,可以提升購(gòu)物體驗(yàn)、減少盜竊,并優(yōu)化庫(kù)存管理。9、智慧零售3.2基于深度學(xué)習(xí)的視覺(jué)技術(shù)圖像分類(lèi)目標(biāo)檢測(cè)圖像分割軌跡跟蹤deeplearning深度學(xué)習(xí)的核心思想是通過(guò)模仿人腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),建立多層次的神經(jīng)網(wǎng)絡(luò),使計(jì)算機(jī)能夠模擬人類(lèi)學(xué)習(xí)的方式,從而自動(dòng)學(xué)習(xí)和提取復(fù)雜的特征。這種模型的引入為視覺(jué)任務(wù)帶來(lái)了翻天覆地的變化,讓計(jì)算機(jī)能夠更深入、更準(zhǔn)確地理解和處理圖像數(shù)據(jù)。3.2.1圖像分類(lèi)1、圖像分類(lèi)的概念?

圖像分類(lèi)旨在將輸入的圖像劃分為不同的預(yù)定義類(lèi)別。這是一種將圖像與事先訓(xùn)練好的分類(lèi)模型相匹配的過(guò)程。3.2.1圖像分類(lèi)2、機(jī)器學(xué)習(xí)中圖像分類(lèi)的基本原理特征提取在傳統(tǒng)方法中,圖像分類(lèi)的首要步驟是從圖像中提取特征。這些特征可以包括顏色直方圖、紋理、形狀等,這些特征幫助模型捕捉圖像中的關(guān)鍵信息。特征表示提取的特征需要被適當(dāng)表示,以便計(jì)算機(jī)能夠理解和處理。常用的表示方法包括向量或矩陣形式,以便輸入到分類(lèi)器中。分類(lèi)器分類(lèi)器是一個(gè)數(shù)學(xué)模型,用于根據(jù)輸入的特征將圖像分配到不同的類(lèi)別。常見(jiàn)的分類(lèi)器包括支持向量機(jī)(SVM)、決策樹(shù)、隨機(jī)森林等,這些分類(lèi)器經(jīng)過(guò)訓(xùn)練,能夠?qū)W習(xí)如何將特征與類(lèi)別關(guān)聯(lián)起來(lái)訓(xùn)練和測(cè)試訓(xùn)練階段使用已標(biāo)記的圖像數(shù)據(jù)集,通過(guò)訓(xùn)練分類(lèi)器調(diào)整其參數(shù),使其能夠正確地將圖像分到相應(yīng)的類(lèi)別。測(cè)試階段則通過(guò)未標(biāo)記的圖像驗(yàn)證模型的性能,評(píng)估其在新數(shù)據(jù)上的泛化能力。3.2.1圖像分類(lèi)3、基于深度學(xué)習(xí)的圖像分類(lèi)技術(shù)卷積神經(jīng)網(wǎng)絡(luò)(CNN)CNN通過(guò)卷積層和池化層來(lái)逐層提取圖像的局部和全局特征。這些特征在全連接層中被用于進(jìn)行分類(lèi)決策。CNN的層次結(jié)構(gòu)使其能夠逐漸抽象出更高級(jí)別的特征,從而提高模型對(duì)圖像語(yǔ)義的理解能力。遷移學(xué)習(xí)利用在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練的深度學(xué)習(xí)模型,如在ImageNet上訓(xùn)練的模型,進(jìn)行遷移學(xué)習(xí)。將預(yù)訓(xùn)練的模型的權(quán)重用于新的圖像分類(lèi)任務(wù),使得模型能夠更快速地收斂和獲得更好的性能。激活函數(shù)和正則化深度學(xué)習(xí)中的圖像分類(lèi)網(wǎng)絡(luò)通常使用非線(xiàn)性激活函數(shù),如ReLU,以幫助網(wǎng)絡(luò)學(xué)習(xí)更復(fù)雜的特征。正則化技術(shù)如Dropout也被廣泛應(yīng)用,以防止過(guò)擬合。3.2.1圖像分類(lèi)3、基于深度學(xué)習(xí)的圖像分類(lèi)技術(shù)LeNet-5于1998年被提出是卷積神經(jīng)網(wǎng)絡(luò)的先驅(qū)之一主要應(yīng)用于手寫(xiě)數(shù)字的識(shí)別包含卷積層、池化層和全連接層雖然在當(dāng)時(shí)并未引起廣泛關(guān)注,但為后來(lái)更先進(jìn)的網(wǎng)絡(luò)奠定了基礎(chǔ)作為經(jīng)典的入門(mén)級(jí)神經(jīng)網(wǎng)絡(luò),對(duì)于簡(jiǎn)單字符的識(shí)別效果尚可,然而,對(duì)于更加復(fù)雜的項(xiàng)目,如人臉、車(chē)牌識(shí)別等,LeNet的結(jié)構(gòu)則過(guò)于簡(jiǎn)單了,可能無(wú)法得到較高的準(zhǔn)確率目前,圖像分類(lèi)項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類(lèi)常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種:3.2.1圖像分類(lèi)3、基于深度學(xué)習(xí)的圖像分類(lèi)技術(shù)AlexNet于2012年被提出是深度學(xué)習(xí)在圖像分類(lèi)中的重要突破在ILSVRC2012圖像分類(lèi)競(jìng)賽中取得了顯著的勝利AlexNet采用了更深的網(wǎng)絡(luò)結(jié)構(gòu),使用ReLU激活函數(shù),引入了Dropout正則化利用GPU進(jìn)行高效訓(xùn)練目前,圖像分類(lèi)項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類(lèi)常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種:3.2.1圖像分類(lèi)3、基于深度學(xué)習(xí)的圖像分類(lèi)技術(shù)VGGNet于2014年被提出采用了非常深的網(wǎng)絡(luò)結(jié)構(gòu)包含16或19層卷積層,全部使用3x3的小卷積核,使得網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)潔而深入VGGNet的設(shè)計(jì)理念影響了后續(xù)深度學(xué)習(xí)模型的構(gòu)建目前,圖像分類(lèi)項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類(lèi)常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種:3.2.1圖像分類(lèi)3、基于深度學(xué)習(xí)的圖像分類(lèi)技術(shù)GoogLeNet(Inception)于2014年被提出引入了Inception模塊通過(guò)并聯(lián)多個(gè)不同大小的卷積核和池化層,提高了網(wǎng)絡(luò)的寬度和深度該模型在參數(shù)數(shù)量相對(duì)較少的情況下取得了較好的性能目前,圖像分類(lèi)項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類(lèi)常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種:3.2.1圖像分類(lèi)3、基于深度學(xué)習(xí)的圖像分類(lèi)技術(shù)ResNet(ResidualNetwork)于2015年被提出引入殘差塊(Residual),解決了深度網(wǎng)絡(luò)訓(xùn)練中的梯度消失和梯度爆炸問(wèn)題該結(jié)構(gòu)允許網(wǎng)絡(luò)層跳過(guò)連接,使得訓(xùn)練更加容易允許構(gòu)建超深的網(wǎng)絡(luò)目前,圖像分類(lèi)項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類(lèi)常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種:3.2.1圖像分類(lèi)3、基于深度學(xué)習(xí)的圖像分類(lèi)技術(shù)MobileNet于2017年被提出設(shè)計(jì)用于移動(dòng)設(shè)備上的實(shí)時(shí)圖像處理采用深度可分離卷積,減少了參數(shù)數(shù)量和計(jì)算量在資源受限的設(shè)備上也能實(shí)現(xiàn)高效的圖像分類(lèi)目前,圖像分類(lèi)項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類(lèi)常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種:3.2.1圖像分類(lèi)3、基于深度學(xué)習(xí)的圖像分類(lèi)技術(shù)EfficientNet于2019年被提出通過(guò)使用復(fù)合縮放方法,同時(shí)增加網(wǎng)絡(luò)的深度、寬度和分辨率,達(dá)到更好的性能在參數(shù)相對(duì)較少的情況下,取得了與更大更深的模型相媲美的效果目前,圖像分類(lèi)項(xiàng)目一般都會(huì)使用深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)。圖像分類(lèi)常用的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)包括但不限于以下幾種:3.2.2目標(biāo)檢測(cè)1、目標(biāo)檢測(cè)的概念

目標(biāo)檢測(cè)旨在從圖像或視頻中識(shí)別和定位圖像中的多個(gè)目標(biāo),并為每個(gè)目標(biāo)分配相應(yīng)的類(lèi)別標(biāo)簽。與圖像分類(lèi)不同,目標(biāo)檢測(cè)不僅需要確定圖像中是否存在目標(biāo),還需要準(zhǔn)確地標(biāo)定目標(biāo)的位置3.2.2目標(biāo)檢測(cè)2、傳統(tǒng)的目標(biāo)檢測(cè)算法HOG全稱(chēng)HistogramofOrientedGradients,使用圖像中的梯度信息來(lái)描述圖像的局部結(jié)構(gòu),尤其適用于描述物體的邊緣和紋理。將圖像劃分為小的局部區(qū)域,計(jì)算每個(gè)區(qū)域內(nèi)梯度的方向直方圖,最終將這些直方圖串聯(lián)起來(lái)形成特征向量。SIFT全稱(chēng)Scale-InvariantFeatureTransform,具有尺度不變性和旋轉(zhuǎn)不變性,對(duì)于圖像中的局部特征點(diǎn)具有很好的描述能力。在圖像中檢測(cè)關(guān)鍵點(diǎn),然后提取這些關(guān)鍵點(diǎn)周?chē)木植刻卣?,通過(guò)描述子來(lái)表示這些特征。GLOH全稱(chēng)GradientLocation-OrientationHistogra,是SIFT的改進(jìn)版本,增加了對(duì)光照和旋轉(zhuǎn)的魯棒性。在關(guān)鍵點(diǎn)周?chē)?jì)算梯度直方圖,并使用多尺度的描述子來(lái)提高對(duì)尺度變化的適應(yīng)性。DPM全稱(chēng)DeformablePartsModel,引入了“變形部分模型”來(lái)處理目標(biāo)的非剛性形變。將目標(biāo)分解為多個(gè)部分,每個(gè)部分用HOG描述,通過(guò)學(xué)習(xí)部分之間的相對(duì)位置關(guān)系來(lái)構(gòu)建目標(biāo)模型。SelectiveSearch是一種基于貪心策略的區(qū)域生成算法,用于生成候選區(qū)域。通過(guò)對(duì)圖像進(jìn)行分割、合并和其他操作,生成具有多樣性的候選區(qū)域,然后使用分類(lèi)器對(duì)這些區(qū)域進(jìn)行檢測(cè)。ICF全稱(chēng)IntegralChannelFeatures,使用積分圖像進(jìn)行快速特征計(jì)算,提高了算法的計(jì)算效率。利用圖像的積分圖像計(jì)算各種特征,如梯度特征、顏色特征等,用于目標(biāo)檢測(cè)。3.2.2目標(biāo)檢測(cè)3、基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法FasterR-CNN全稱(chēng)Region-basedConvolutionalNeuralNetwork,引入了區(qū)域提議網(wǎng)絡(luò)和ROI池化層,實(shí)現(xiàn)了端到端的目標(biāo)檢測(cè)。RPN用于生成候選目標(biāo)區(qū)域,然后通過(guò)ROI池化將這些區(qū)域轉(zhuǎn)換為固定大小的特征圖,最后通過(guò)全連接層進(jìn)行分類(lèi)和定位。YOLO全稱(chēng)YouOnlyLookOnce,通過(guò)將圖像劃分為網(wǎng)格,每個(gè)網(wǎng)格負(fù)責(zé)檢測(cè)特定區(qū)域內(nèi)的目標(biāo),實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測(cè)。將目標(biāo)檢測(cè)任務(wù)視為回歸問(wèn)題,直接預(yù)測(cè)目標(biāo)的坐標(biāo)和類(lèi)別,并在整個(gè)圖像上進(jìn)行端到端的訓(xùn)練和預(yù)測(cè)。SSD全稱(chēng)SingleShotMultiboxDetector,通過(guò)在不同層次的特征圖上使用多個(gè)錨框進(jìn)行檢測(cè),實(shí)現(xiàn)了對(duì)多尺度目標(biāo)的有效檢測(cè)。利用多個(gè)卷積層產(chǎn)生的特征圖來(lái)進(jìn)行目標(biāo)檢測(cè),通過(guò)預(yù)測(cè)每個(gè)錨框的類(lèi)別和邊界框偏移來(lái)完成任務(wù)。MaskR-CNN在FasterR-CNN的基礎(chǔ)上進(jìn)一步增加了對(duì)實(shí)例分割的支持,同時(shí)能夠輸出每個(gè)檢測(cè)到的目標(biāo)的精確邊界。在FasterR-CNN的基礎(chǔ)上引入了額外的分割網(wǎng)絡(luò),用于生成每個(gè)目標(biāo)的二進(jìn)制掩碼。RetinaNet采用了一種稱(chēng)為“FocalLoss”的損失函數(shù),有效解決了類(lèi)別不平衡問(wèn)題,提高了對(duì)稀有目標(biāo)的檢測(cè)能力。在FasterR-CNN的基礎(chǔ)上引入了特殊設(shè)計(jì)的損失函數(shù),使得模型更關(guān)注難以分類(lèi)的目標(biāo)。EfficientDet結(jié)合了EfficientNet的輕量級(jí)設(shè)計(jì)和目標(biāo)檢測(cè)任務(wù)的需求,實(shí)現(xiàn)了高效而準(zhǔn)確的目標(biāo)檢測(cè)。通過(guò)改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)、特征金字塔網(wǎng)絡(luò)(FeaturePyramidNetwork,F(xiàn)PN)等技術(shù)來(lái)提高模型的效率。3.2.3圖像分割1、圖像分割的概念

圖像分割旨在將圖像劃分為若干個(gè)具有相似特征的區(qū)域。圖像分割與目標(biāo)檢測(cè)不同,圖像分割是一個(gè)像素級(jí)別的任務(wù),目標(biāo)是將圖像分割成區(qū)域,每個(gè)像素都有一個(gè)標(biāo)簽;而目標(biāo)檢測(cè)是在物體級(jí)別上操作,關(guān)注點(diǎn)在于識(shí)別圖像中存在的物體及其位置。3.2.3圖像分割2、傳統(tǒng)的圖像分割算法閾值分割英文Thresholding,是一種簡(jiǎn)單而常用的方法,基于圖像中像素的灰度值。通過(guò)設(shè)定一個(gè)閾值,將圖像分為兩個(gè)區(qū)域,其中像素值小于閾值的屬于一個(gè)區(qū)域,大于等于閾值的屬于另一個(gè)區(qū)域。閾值分割一般只適用于對(duì)比度較明顯的圖像。區(qū)域生長(zhǎng)英文RegionGrowing,是一種基于像素相似性的分割方法,從種子像素開(kāi)始,逐漸將相鄰像素加入同一區(qū)域,直到不再滿(mǎn)足相似性條件。區(qū)域生長(zhǎng)算法適用于具有相對(duì)均勻區(qū)域的圖像。區(qū)域分割英文RegionSplitandMerge,是一種自頂向下的分割方法,首先將整個(gè)圖像視為一個(gè)區(qū)域,然后遞歸地分裂和合并區(qū)域,直到滿(mǎn)足某些準(zhǔn)則。該算法適用于具有不同紋理和結(jié)構(gòu)的圖像。邊緣檢測(cè)英文EdgeDetection,尋找圖像中的邊緣,通常使用梯度信息來(lái)定位圖像中亮度變化較大的區(qū)域。邊緣檢測(cè)適用于強(qiáng)調(diào)圖像中物體邊界的分割。水平集方法英文LevelSetMethods,基于曲線(xiàn)演化理論,通過(guò)表示圖像中的區(qū)域邊界的曲線(xiàn)來(lái)進(jìn)行分割。適用于復(fù)雜形狀和拓?fù)浣Y(jié)構(gòu)的分割。3.2.3圖像分割3、基于深度學(xué)習(xí)的圖像分割算法U-Net是一種全卷積網(wǎng)絡(luò),設(shè)計(jì)用于生物醫(yī)學(xué)圖像分割。它包含一個(gè)編碼器和一個(gè)解碼器,并通過(guò)跳躍連接來(lái)保留高層次和低層次的特征。主要應(yīng)用于醫(yī)學(xué)圖像分割,如細(xì)胞圖像和醫(yī)學(xué)影像。SegNet是一個(gè)基于CNN的圖像分割網(wǎng)絡(luò),通過(guò)對(duì)圖像中的每個(gè)像素進(jìn)行分類(lèi)來(lái)實(shí)現(xiàn)分割。它使用反卷積進(jìn)行上采樣,恢復(fù)圖像的空間分辨率。適用于語(yǔ)義分割任務(wù),如道路和場(chǎng)景理解。DeepLab系列是一系列圖像分割算法,采用空洞卷積來(lái)擴(kuò)大感受野,以更好地捕捉上下文信息。DeepLabv3+還引入了全局平均池化。廣泛應(yīng)用于語(yǔ)義分割任務(wù),包括實(shí)例分割和物體檢測(cè)MaskR-CNN是一種實(shí)例分割框架,基于FasterR-CNN,通過(guò)在目標(biāo)檢測(cè)的基礎(chǔ)上增加分割分支,實(shí)現(xiàn)同時(shí)檢測(cè)和分割物體實(shí)例。主要用于需要識(shí)別和分割多個(gè)對(duì)象實(shí)例的任務(wù)。FCNFullyConvolutionalNetwork,是一種將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化為全卷積網(wǎng)絡(luò)的方法,允許對(duì)輸入圖像進(jìn)行像素級(jí)別的分類(lèi)和分割。適用于語(yǔ)義分割任務(wù),如將圖像中的每個(gè)像素標(biāo)記為不同的類(lèi)別。。PSPNetPyramidSceneParsingNetwork,使用金字塔池化模塊來(lái)捕捉不同尺度上的語(yǔ)境信息,從而提高分割性能。適用于需要全局上下文信息的場(chǎng)景,如城市場(chǎng)景分割。3.2.4軌跡跟蹤1、軌跡跟蹤的概念

軌跡跟蹤目的是在視頻序列中準(zhǔn)確地追蹤目標(biāo)對(duì)象的運(yùn)動(dòng)軌跡。軌跡跟蹤算法需要在連續(xù)的圖像幀中檢測(cè)目標(biāo),并將它們關(guān)聯(lián)起來(lái)形成時(shí)間上的軌跡。軌跡跟蹤的關(guān)鍵步驟包括目標(biāo)檢測(cè)、目標(biāo)關(guān)聯(lián)、軌跡生成、軌跡更新、處理遮擋和消失以及多目標(biāo)跟蹤。3.2.4軌跡跟蹤2、傳統(tǒng)的軌跡跟蹤算法卡爾曼濾波KalmanFilter,卡爾曼濾波是一種遞歸的估計(jì)算法,通過(guò)對(duì)目標(biāo)的當(dāng)前狀態(tài)和運(yùn)動(dòng)進(jìn)行建模,結(jié)合觀測(cè)數(shù)據(jù),不斷更新目標(biāo)的狀態(tài)估計(jì)。在軌跡跟蹤中,卡爾曼濾波可用于預(yù)測(cè)目標(biāo)的下一幀位置。最鄰近跟蹤NearestNeighborTracking,在每一幀中,使用距離度量(如歐氏距離)找到當(dāng)前幀檢測(cè)結(jié)果與上一幀跟蹤目標(biāo)的最鄰近匹配。這種方法簡(jiǎn)單直觀,但對(duì)于遮擋等情況可能不魯棒。KLT跟蹤器KLTTracker,基于光流的KLT(Kanade-Lucas-Tomasi)跟蹤器使用局部圖像區(qū)域的特征點(diǎn),通過(guò)追蹤這些特征點(diǎn)的運(yùn)動(dòng)來(lái)實(shí)現(xiàn)目標(biāo)跟蹤。適用于一定程度的目標(biāo)運(yùn)動(dòng)和變形。中值流MedianFlow,算法利用檢測(cè)框中的像素強(qiáng)度信息計(jì)算光流,并通過(guò)中值流場(chǎng)的方向和大小來(lái)更新目標(biāo)的位置。適用于低速運(yùn)動(dòng)的目標(biāo)。連通區(qū)域跟蹤C(jī)onnectedComponentTracking,在二值化的圖像中,通過(guò)檢測(cè)連通區(qū)域(二值圖像中相鄰的白色像素)來(lái)跟蹤目標(biāo)。適用于目標(biāo)邊界清晰的情況。CAMShiftCAMShift算法基于MeanShift算法,通過(guò)不斷調(diào)整搜索窗口的大小和方向,實(shí)現(xiàn)目標(biāo)的跟蹤。適用于目標(biāo)尺寸和顏色較為一致的情況。3.2.4軌跡跟蹤3、基于深度學(xué)習(xí)的軌跡跟蹤算法DeepSORTDeepSimpleOnlineandRealtimeTracking,結(jié)合了目標(biāo)檢測(cè)和深度學(xué)習(xí)特征提取,使用卷積神經(jīng)網(wǎng)絡(luò)提取特征,并通過(guò)外觀特征和運(yùn)動(dòng)信息來(lái)關(guān)聯(lián)和跟蹤目標(biāo)。利用深度學(xué)習(xí)目標(biāo)檢測(cè)器檢測(cè)目標(biāo),然后使用深度學(xué)習(xí)特征提取器提取目標(biāo)外觀特征,最后使用卡爾曼濾波進(jìn)行軌跡預(yù)測(cè)和關(guān)聯(lián)。MOTDTMultipleObjectTrackingwithDeepLearning,采用了深度學(xué)習(xí)的目標(biāo)檢測(cè)器和在線(xiàn)學(xué)習(xí)的軌跡跟蹤器,通過(guò)CNN提取特征,使用卡爾曼濾波進(jìn)行軌跡預(yù)測(cè),并采用在線(xiàn)學(xué)習(xí)策略不斷更新模型。在目標(biāo)檢測(cè)結(jié)果上應(yīng)用CNN提取特征,然后使用在線(xiàn)學(xué)習(xí)策略不斷更新外觀模型,通過(guò)卡爾曼濾波來(lái)實(shí)現(xiàn)目標(biāo)的軌跡跟蹤DeepMOT基于深度卷積神經(jīng)網(wǎng)絡(luò),將目標(biāo)檢測(cè)、特征提取和軌跡跟蹤整合到一個(gè)統(tǒng)一的深度學(xué)習(xí)框架中,以提高端到端的性能。使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,通過(guò)LSTM或Transformer等結(jié)構(gòu)對(duì)序列信息建模,最終輸出目標(biāo)的軌跡。FairMOT采用了多任務(wù)學(xué)習(xí)的方法,同時(shí)預(yù)測(cè)目標(biāo)的類(lèi)別、位置和運(yùn)動(dòng)狀態(tài),提高了多目標(biāo)跟蹤的準(zhǔn)確性。使用深度卷積神經(jīng)網(wǎng)絡(luò)同時(shí)處理目標(biāo)檢測(cè)和軌跡跟蹤任務(wù),通過(guò)多任務(wù)學(xué)習(xí)框架進(jìn)行聯(lián)合訓(xùn)練。SORTSimpleOnlineandRealtimeTracking,結(jié)合了目標(biāo)檢測(cè)和卡爾曼濾波,通過(guò)簡(jiǎn)單有效的方法實(shí)現(xiàn)實(shí)時(shí)目標(biāo)跟蹤。使用目標(biāo)檢測(cè)器(獲取目標(biāo)位置,然后使用卡爾曼濾波進(jìn)行軌跡的預(yù)測(cè)和更新3.2.4軌跡跟蹤思政小課堂:堅(jiān)守高尚的道德情操,向非法技術(shù)濫用說(shuō)不計(jì)算機(jī)視覺(jué)技術(shù)的快速發(fā)展給我們帶來(lái)了很多益處,然而,一部分人卻將這項(xiàng)技術(shù)用于非法或非道德用途。在數(shù)字圖像處理技術(shù)發(fā)展之初,就有人使用PS技術(shù)炮制虛假照片,從而制造虛假新聞?wù)`導(dǎo)公眾認(rèn)知,或者用來(lái)誹謗、侮辱他人。在深度學(xué)習(xí)的加持下,計(jì)算機(jī)視覺(jué)技術(shù)更加強(qiáng)大,AI換臉、視頻合成的效果有時(shí)甚至可以達(dá)到以假亂真的程度。這給一些不良團(tuán)體或個(gè)人炮制虛假、低俗信息提供了便利。在社交媒體發(fā)達(dá)的今天,這些虛假的不良信息能夠輕易被傳播。一些不法分子甚至利用相關(guān)的技術(shù),仿冒他人身份進(jìn)行電信詐騙。作為一名人工智能技術(shù)的學(xué)習(xí)者,我們?cè)谠鰪?qiáng)自身技術(shù)能力的同時(shí),也要不斷提升自己的道德操守,拒絕技術(shù)濫用,抵制不良信息。3.3OpenCV基礎(chǔ)圖像處理實(shí)時(shí)視頻處理計(jì)算機(jī)視覺(jué)工具包機(jī)器學(xué)習(xí)深度學(xué)習(xí)圖像和視頻的特征提取圖像分割和輪廓檢測(cè)OpenCVOpenCV(OpenSourceComputerVisionLibrary)是一個(gè)開(kāi)源的計(jì)算機(jī)視覺(jué)庫(kù),旨在提供一套通用的計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)工具。OpenCV支持多個(gè)操作系統(tǒng),包括Windows、Linux、macOS等,它由一系列高效且優(yōu)化的C/C++函數(shù)組成,同時(shí)提供了Python、Java和其他語(yǔ)言的接口,使得開(kāi)發(fā)者能夠輕松使用這些功能。3.3.1OpenCV的安裝60年代,星際迷航80年代,終結(jié)者21世紀(jì),人工智能1、pip命令安裝pipinstallopencv-pythonpipinstallopencv-python-i/simple請(qǐng)先確保python已安裝并且配置了pip工具。打開(kāi)一個(gè)終端命令窗口,輸入以下命令:如果安裝時(shí)網(wǎng)絡(luò)異?;蛘甙惭b包拉取速度較慢,可以輸入以下命令:3.3.1OpenCV的安裝21世紀(jì),人工智能2、conda命令安裝condainstallopencvcondainstall-c/menpoopencv如果您使用anaconda環(huán)境進(jìn)行Python代碼開(kāi)發(fā),那么可以使用conda命令安裝OpenCV。打開(kāi)anacondaprompt工具的終端界面,輸入以下命令:或者:3.3

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論