《計(jì)算機(jī)視覺》 課件 5、區(qū)域分割- 10、計(jì)算機(jī)視覺應(yīng)用_第1頁(yè)
《計(jì)算機(jī)視覺》 課件 5、區(qū)域分割- 10、計(jì)算機(jī)視覺應(yīng)用_第2頁(yè)
《計(jì)算機(jī)視覺》 課件 5、區(qū)域分割- 10、計(jì)算機(jī)視覺應(yīng)用_第3頁(yè)
《計(jì)算機(jī)視覺》 課件 5、區(qū)域分割- 10、計(jì)算機(jī)視覺應(yīng)用_第4頁(yè)
《計(jì)算機(jī)視覺》 課件 5、區(qū)域分割- 10、計(jì)算機(jī)視覺應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩244頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

計(jì)算機(jī)視覺戰(zhàn)略性新興領(lǐng)域“十四五”高等教育系列教材目錄1區(qū)域分割定義2閾值分割3區(qū)域生長(zhǎng)法4分裂合并法5分水嶺算法5、區(qū)域分割目錄6全卷積FCN分割網(wǎng)絡(luò)7U-net分割網(wǎng)絡(luò)8DeepLab系列分割網(wǎng)絡(luò)9預(yù)訓(xùn)練大模型分割網(wǎng)絡(luò)-SAM目錄1區(qū)域分割定義2閾值分割3區(qū)域生長(zhǎng)法4分裂合并法5分水嶺算法目的?將一張圖像細(xì)分為符合事先定義的一組準(zhǔn)則的多個(gè)獨(dú)立區(qū)域。圖像分割基于像素的特征(如顏色、亮度、紋理等)相似度的度量,將具有相似特征的像素分配到同一區(qū)域。相似性準(zhǔn)則確保區(qū)域內(nèi)部的像素在空間上是相互連接的,通常通過(guò)保持像素之間的空間鄰近性實(shí)現(xiàn)。連續(xù)性準(zhǔn)則確保區(qū)域形狀是緊湊的,而不是碎片化的,這有助于提高分割結(jié)果的視覺質(zhì)量和實(shí)用性。緊湊性準(zhǔn)則確保每個(gè)像素只能屬于一個(gè)區(qū)域,避免像素的重疊或混淆。唯一性準(zhǔn)則圖像分割

目錄1區(qū)域分割定義2閾值分割3區(qū)域生長(zhǎng)法4分裂合并法5分水嶺算法閾值分割

全局閾值分割閾值分割下圖展示了一個(gè)全局閾值分割的案例,圖中物體彼此不接觸,且它們的灰度值與背景的灰度值存在顯著差異。圖b是其閾值分割結(jié)果。在本案例中,小于閾值的部分被視為目標(biāo),即圖中的黑色部分,而白色部分表示背景。圖c和d是不同閾值下的分割結(jié)果,閾值設(shè)定分別為30和230??梢钥闯?,閾值的選擇對(duì)于分割結(jié)果至關(guān)重要,過(guò)低或過(guò)高的閾值都可能導(dǎo)致分割結(jié)果不理想。

(a)(b)(c)(d)閾值分割

局部閾值分割閾值分割閾值可以是事先設(shè)定的,也可以通過(guò)自動(dòng)化方法從圖像的像素值分布中計(jì)算得出,然而人工設(shè)定閾值極大依賴研究人員的從業(yè)經(jīng)驗(yàn),并且沒(méi)有一個(gè)統(tǒng)一的閾值適用于所有圖像,極大地影響了圖像分割的效果。下圖展示了根據(jù)灰度值自動(dòng)設(shè)置全局閾值和多閾值的案例,通過(guò)計(jì)算圖像的灰度分布,可以非常直觀地找出適用于分割不同區(qū)域的閾值。

自動(dòng)閾值分割(全局閾值)(局部閾值)

優(yōu)點(diǎn):計(jì)算簡(jiǎn)單,執(zhí)行速度快。直觀易懂,不需要復(fù)雜的數(shù)學(xué)模型。在目標(biāo)與背景有明顯灰度差異時(shí)效果良好。缺點(diǎn):對(duì)光照和噪聲敏感,容易產(chǎn)生錯(cuò)誤分割。需要預(yù)先確定閾值,不同的圖像可能需要不同的閾值。無(wú)法處理復(fù)雜背景或目標(biāo)與背景灰度接近的情況。閾值分割總結(jié)目錄1區(qū)域分割定義2閾值分割3區(qū)域生長(zhǎng)法4分裂合并法5分水嶺算法根據(jù)預(yù)定義的相似性準(zhǔn)則,逐步將相鄰像素合并為具有相似特征的區(qū)域。過(guò)程:①?gòu)囊粋€(gè)“種子像素”開始,將圖像中的相鄰像素的屬性(灰度或顏色)與種子像素進(jìn)行比較,如果屬性相似,就可以將相鄰像素附加到生長(zhǎng)區(qū)域中;②重復(fù)上述的生長(zhǎng)過(guò)程,直到?jīng)]有滿足條件的像素加入?yún)^(qū)域?yàn)橹?。區(qū)域生長(zhǎng)法

區(qū)域A

區(qū)域B

種子像素

種子像素思想?yún)^(qū)域生長(zhǎng)法算法流程區(qū)域生長(zhǎng)法按照4鄰域和8鄰域進(jìn)行生長(zhǎng),結(jié)果有所不同。按照8鄰域進(jìn)行生長(zhǎng)能夠得到較精確的結(jié)果。原始圖像:4-鄰域:8-鄰域:灰度差異準(zhǔn)則計(jì)算效率很高,通常能夠有效地將相似灰度的像素聚合成區(qū)域,而不易受到噪聲的干擾(圖b);基于紋理特征的生長(zhǎng)準(zhǔn)則能夠更好地識(shí)別圖像中的復(fù)雜結(jié)構(gòu)和紋理區(qū)域,但對(duì)沒(méi)有明顯紋理特征的圖像表現(xiàn)不敏感(圖c);基于歐幾里得距離的相似度準(zhǔn)則處理圖像簡(jiǎn)單且計(jì)算效率高,但有可能忽略像素間的細(xì)微差異,導(dǎo)致區(qū)域劃分不夠精細(xì)(圖d)。區(qū)域生長(zhǎng)法示例(a)(b)(c)(d)優(yōu)點(diǎn):簡(jiǎn)單直觀,易于理解和實(shí)現(xiàn)。適用于具有局部明顯特征的圖像。不需要預(yù)先設(shè)定分割的數(shù)目,比較靈活。缺點(diǎn):對(duì)參數(shù)敏感,種子點(diǎn)選擇和生長(zhǎng)準(zhǔn)則設(shè)置影響分割效果。對(duì)光照和噪聲敏感,可能導(dǎo)致分割結(jié)果不理想??赡軐?dǎo)致過(guò)度分割或欠分割。區(qū)域生長(zhǎng)法

總結(jié)目錄1區(qū)域分割定義2閾值分割3區(qū)域生長(zhǎng)法4分裂合并法5分水嶺算法通過(guò)分裂和合并兩個(gè)相鄰的區(qū)域,逐步實(shí)現(xiàn)圖像分割步驟:1)先確定一個(gè)分裂合并的準(zhǔn)則,即區(qū)域特征一致性的測(cè)度;2)當(dāng)圖像中某個(gè)區(qū)域的特征不一致時(shí)就將該區(qū)域分裂成4個(gè)相等的子區(qū)域;3)當(dāng)相鄰的子區(qū)域滿足一致性特征時(shí),則將它們合成一個(gè)大區(qū)域;4)重復(fù)進(jìn)行步驟(2)和(3)直至所有區(qū)域不能再進(jìn)行分裂或者合并。分裂合并法思想分割過(guò)程類比為構(gòu)建四叉樹,其中每個(gè)葉子節(jié)點(diǎn)代表一個(gè)一致的區(qū)域。分裂和合并相當(dāng)于四叉樹中的刪除或添加操作。在分割過(guò)程完成后,樹的葉子節(jié)點(diǎn)數(shù)量即對(duì)應(yīng)于分割后的區(qū)域數(shù)。分裂合并法思想(a)構(gòu)建四叉樹(b)四叉樹對(duì)應(yīng)的圖像區(qū)域分裂合并法示例分裂合并法適用于各種類型的圖像,相比于閾值分割方法(圖b),它能夠在不需要過(guò)多用戶干預(yù)的情況下完成分割過(guò)程,具有較高的自動(dòng)化程度,相比與區(qū)域生長(zhǎng)法(圖c),分裂合并法(圖d)在一定程度上能夠處理復(fù)雜的圖像結(jié)構(gòu)和紋理。(a)(b)(c)(d)優(yōu)點(diǎn):適用性廣泛,能處理各種類型的圖像。自動(dòng)化程度高,能在少量用戶干預(yù)下完成分割。能夠處理較大的圖像和復(fù)雜的結(jié)構(gòu)。缺點(diǎn):計(jì)算復(fù)雜度高,對(duì)大型或高分辨率圖像要求較高。對(duì)參數(shù)敏感,需要精細(xì)的參數(shù)調(diào)整。在處理復(fù)雜圖像時(shí),可能產(chǎn)生過(guò)度或欠分割的問(wèn)題。分裂合并法

總結(jié)目錄1區(qū)域分割定義2閾值分割3區(qū)域生長(zhǎng)法4分裂合并法5分水嶺算法分水嶺算法

思想分水嶺的概念源于地形學(xué),在地表地勢(shì)高處形成的高地分隔了水流的路徑,從而使水流從一個(gè)區(qū)域流向另一個(gè)區(qū)域。在圖像處理中,我們將圖像數(shù)據(jù)視作地形表面,其中梯度圖像的灰度值表示了高程。分水嶺算法通過(guò)模擬水在每個(gè)集水盆地的填充過(guò)程,找出分水線,完成對(duì)圖像的分割。下圖展示了一個(gè)簡(jiǎn)單的示例:(a)原始圖像(b)水位階段1(c)水位階段2分水嶺算法

思想隨著水位逐漸上升,梯度較高的分水嶺的輪廓越來(lái)越狹窄,最終會(huì)形成一條邊界清晰的分水線。然而,在水位上升的過(guò)程中,兩個(gè)盆地之間的水會(huì)相聚并淹沒(méi)分水嶺,此時(shí)需要構(gòu)建后一座水壩,阻止來(lái)自該盆地的水與來(lái)自對(duì)應(yīng)背景的區(qū)域的水會(huì)聚。持續(xù)這一過(guò)程,直到達(dá)到最高水位。最終的水壩對(duì)應(yīng)的分水線就是最終的分割邊界。(d)水位階段3

(e)水位階段4(c)分割結(jié)果分水嶺算法

算法流程優(yōu)點(diǎn):能夠有效處理具有不同灰度級(jí)和顏色的圖像。能夠識(shí)別和分割圖像中的多個(gè)物體或者區(qū)域。在視覺上產(chǎn)生連續(xù)的分割邊界。缺點(diǎn):易于產(chǎn)生過(guò)分割,產(chǎn)生大量的細(xì)小區(qū)域計(jì)算復(fù)雜度高,尤其是在處理大型圖像時(shí)。需要預(yù)處理步驟,如灰度變換或梯度計(jì)算,以便選擇合適的分水嶺標(biāo)記。分水嶺算法

總結(jié)目錄目錄6全卷積FCN分割網(wǎng)絡(luò)7U-net分割網(wǎng)絡(luò)8DeepLab系列分割網(wǎng)絡(luò)9預(yù)訓(xùn)練大模型-SAM全卷積FCN分割網(wǎng)絡(luò)目錄簡(jiǎn)介全卷積網(wǎng)絡(luò)(FullyConvolutionalNetworks,F(xiàn)CN)是JonathanLong等人于2015年提出的用于圖像語(yǔ)義分割的一種框架。FCN與傳統(tǒng)的用于分類的卷積神經(jīng)網(wǎng)絡(luò)(CNN)在結(jié)構(gòu)上基本一致,僅在網(wǎng)絡(luò)尾部設(shè)計(jì)上有區(qū)別。用于分類的CNN結(jié)構(gòu)示意圖全卷積FCN分割網(wǎng)絡(luò)目錄FCN的結(jié)構(gòu)FCN的任務(wù)是圖像語(yǔ)義分割,即對(duì)圖像進(jìn)行像素級(jí)別的分類。為了完成分割任務(wù),F(xiàn)CN取消了CNN中最后的若干全連接層,取而代之的是全卷積層和上采樣層。用于語(yǔ)義分割的FCN結(jié)構(gòu)示意圖全卷積FCN分割網(wǎng)絡(luò)目錄全卷積層全卷積層是神經(jīng)網(wǎng)絡(luò)中一種特殊的層,不會(huì)改變輸入特征圖的空間維度,其輸出特征圖的尺寸與輸入特征圖的尺寸相同。全卷積層通常由卷積操作和非線性激活函數(shù)構(gòu)成,其中卷積層的步長(zhǎng)(stride)被設(shè)定為1,以保證輸出尺寸與輸入相同。當(dāng)FCN網(wǎng)絡(luò)被用于圖像語(yǔ)義分割任務(wù)時(shí),全卷積層通常用于將高維的特征圖映射到像素級(jí)別的預(yù)測(cè)圖。全卷積FCN分割網(wǎng)絡(luò)目錄上采樣層上采樣層用于將小尺寸的預(yù)測(cè)圖恢復(fù)到輸入的原圖尺寸,以便實(shí)現(xiàn)像素級(jí)別的預(yù)測(cè)。上采樣有多種方法,例如反池化(depooling)、反卷積(deconvolution)、算法插值上采樣等。非線性反池化示意圖全卷積FCN分割網(wǎng)絡(luò)目錄反卷積反卷積是卷積的逆向操作,如圖(b)所示,小尺寸圖像的每個(gè)像素與卷積核中的每個(gè)元素逐個(gè)相乘,最后進(jìn)行疊加,即可獲得一張擴(kuò)大后的特征圖。通過(guò)改變反卷積的卷積核的大小和步長(zhǎng),可以控制得到的特征圖尺寸。然而值得注意的是,反卷積只能恢復(fù)特征圖的尺寸,并不能很好地恢復(fù)原圖的像素值。(a)正向卷積(b)反卷積全卷積FCN分割網(wǎng)絡(luò)目錄FCN的不足之處1.得到的結(jié)果不夠精細(xì),上采樣的結(jié)果比較模糊和平滑,缺乏很多細(xì)節(jié)。2.在編碼器進(jìn)行池化操作時(shí),尺寸減小和信息丟失是不可避免的,這可能導(dǎo)致模型在解碼器部分難以準(zhǔn)確地恢復(fù)細(xì)節(jié)信息,尤其是對(duì)于邊界和小目標(biāo)的分割。盡管FCN作為一種早期的神經(jīng)網(wǎng)絡(luò)存在一些缺陷,但隨著研究的不斷深入和技術(shù)的發(fā)展,許多改進(jìn)的方法已經(jīng)提出來(lái)解決這些問(wèn)題,比如引入注意力機(jī)制、結(jié)合全局上下文信息等。因此,F(xiàn)CN作為一種基礎(chǔ)的圖像分割網(wǎng)絡(luò)結(jié)構(gòu),仍然具有很大的研究和應(yīng)用價(jià)值??偨Y(jié):目錄目錄6全卷積FCN分割網(wǎng)絡(luò)7U-net分割網(wǎng)絡(luò)8DeepLab系列分割網(wǎng)絡(luò)9預(yù)訓(xùn)練大模型-SAMU-net分割網(wǎng)絡(luò)目錄U-net簡(jiǎn)介U-net是一種經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),首次出現(xiàn)在2015年用于生物醫(yī)學(xué)圖像分割的研究中。其結(jié)構(gòu)優(yōu)化了特征傳輸和使用效率,使其在小樣本數(shù)據(jù)集上表現(xiàn)卓越,特別適合于醫(yī)學(xué)圖像處理。U-net的名字來(lái)源于其網(wǎng)絡(luò)結(jié)構(gòu)的形狀類似U字母,這也是它最大的特點(diǎn)。同時(shí)U-net引入跳躍連接(skipconnections)和上采樣層,使得網(wǎng)絡(luò)可以同時(shí)進(jìn)行局部特征提取和全局信息融合,從而在圖像分割任務(wù)中表現(xiàn)出色。U-net分割網(wǎng)絡(luò)目錄U-net的結(jié)構(gòu)U-net主要有四個(gè)模塊構(gòu)成:編碼器(Encoder)、解碼器(Decoder)、跳躍連接(SkipConnections)、最后一層卷積層。U-net結(jié)構(gòu)示意圖U-net分割網(wǎng)絡(luò)目錄跳躍連接U-net中的跳躍連接是指將編碼器中的特征圖與解碼器中相對(duì)應(yīng)的特征圖進(jìn)行連接。這樣可以使得解碼器可以直接訪問(wèn)更底層的特征信息,有助于提高分割精度和防止信息丟失。與FCN的像素值直接相加不同,U-net采用雙方的特征圖在通道上進(jìn)行拼接的做法,以此保留更厚的特征圖。FCN與U-net特征融合示意圖U-net分割網(wǎng)絡(luò)目錄U-net在醫(yī)學(xué)上的應(yīng)用在醫(yī)學(xué)領(lǐng)域,U-net的應(yīng)用尤為廣泛,例如在組織學(xué)圖像、放射圖像和病理圖像中進(jìn)行精確的分割。這對(duì)于自動(dòng)化病變檢測(cè)和生物標(biāo)記物的定量分析具有重要意義。例如,U-net已成功應(yīng)用于腫瘤識(shí)別、器官定量、細(xì)胞計(jì)數(shù)和形態(tài)學(xué)分析等任務(wù)。U-net對(duì)細(xì)胞樣本的分割案例U-net分割網(wǎng)絡(luò)目錄總結(jié)U-net吸取了FCN網(wǎng)絡(luò)進(jìn)行先編碼,后解碼的思想,是一種相當(dāng)成功的語(yǔ)義分割架構(gòu),也產(chǎn)生了許多對(duì)U-net進(jìn)行改進(jìn)和創(chuàng)新的方法。此外,其他領(lǐng)域也有許多采用U型結(jié)構(gòu)的模型,例如擴(kuò)散模型,這證明U-net本身的網(wǎng)絡(luò)架構(gòu)有其獨(dú)特的優(yōu)越性。在醫(yī)學(xué)上,U-net的適應(yīng)性和高效性使其能夠在少量標(biāo)注數(shù)據(jù)的情況下進(jìn)行訓(xùn)練,這在醫(yī)學(xué)圖像處理中尤為重要,因?yàn)楂@取大量高質(zhì)量標(biāo)注數(shù)據(jù)通常既昂貴又耗時(shí)。U-net結(jié)構(gòu)的這一優(yōu)勢(shì),配合其出色的分割性能,使其成為醫(yī)學(xué)圖像分析中不可或缺的工具。目錄6全卷積FCN分割網(wǎng)絡(luò)7U-net分割網(wǎng)絡(luò)8DeepLab系列分割網(wǎng)絡(luò)9預(yù)訓(xùn)練大模型分割網(wǎng)絡(luò)-SAMDeepLab系列分割網(wǎng)絡(luò)DeepLab-V1分割網(wǎng)絡(luò)DeepLab-V1模型基于全卷積網(wǎng)絡(luò)架構(gòu),從深度神經(jīng)網(wǎng)絡(luò)輸出圖像的粗略得分圖。全連接條件隨機(jī)場(chǎng)用于改善分割結(jié)果,得到最終輸出分割圖。DeepLab-V1模型流程DeepLab系列分割網(wǎng)絡(luò)空洞卷積DeepLab-V1通過(guò)修改VGG16的池化層,改變了感受野大小。為保持感受野尺寸,該模型使用空洞卷積,通過(guò)在卷積核元素間插入空隙來(lái)擴(kuò)大卷積的覆蓋面積??斩淳矸e解決了修改池化層步長(zhǎng)后可能導(dǎo)致的感受野縮小問(wèn)題,使得DeepLabv1能夠生成更精細(xì)的高分辨率特征圖,同時(shí)保持高效的訓(xùn)練和增強(qiáng)特征表征能力。(a)在低分辨率輸入特征圖上用標(biāo)準(zhǔn)卷積提取稀疏特征(b)在高分辨率輸入特征圖上用空洞率r=2的空洞卷積提取密集特征DeepLab系列分割網(wǎng)絡(luò)DeepLab-V1通過(guò)將深度卷積神經(jīng)網(wǎng)絡(luò)(DCNNs)與全連接條件隨機(jī)場(chǎng)(FCCRFs)級(jí)聯(lián)起來(lái),結(jié)合了DCNNs的目標(biāo)識(shí)別能力和FCCRFs的細(xì)粒度定位精度,從而提高了圖像中目標(biāo)輪廓的描繪準(zhǔn)確性。DeepLab-V1優(yōu)點(diǎn):處理速度的提升,空洞卷積操作使網(wǎng)絡(luò)處理速度達(dá)到8fps,F(xiàn)CCRF的預(yù)測(cè)時(shí)間為0.5秒;準(zhǔn)確率的提升,在PASCALVOC2012數(shù)據(jù)集上,語(yǔ)義分割的平均交并比(mIoU)達(dá)到71.6%;模型結(jié)構(gòu)的簡(jiǎn)化,通過(guò)設(shè)計(jì)全連接條件隨機(jī)場(chǎng),實(shí)現(xiàn)了DCNNs與條件隨機(jī)場(chǎng)的級(jí)聯(lián)結(jié)構(gòu)。總結(jié)DeepLab系列分割網(wǎng)絡(luò)DeepLab-V2分割網(wǎng)絡(luò)DeepLab-V2在DeepLab-V1的基礎(chǔ)上引入了多尺度結(jié)構(gòu),采用了空間金字塔池化(spatialpyramidpooling,SPP)的思想。通過(guò)應(yīng)用不同空洞率的空洞卷積對(duì)輸入圖像進(jìn)行采樣,DeepLab-V2能夠捕獲多尺度的圖像特征信息。這種結(jié)構(gòu)稱為ASPP(AtrousSpatialPyramidPooling)。ASPP模型結(jié)構(gòu)DeepLab系列分割網(wǎng)絡(luò)DeepLab-V2引入了多尺度結(jié)構(gòu),采用不同空洞率的空洞卷積進(jìn)行采樣,以實(shí)現(xiàn)對(duì)圖像特征信息的多尺度捕捉,顯著提高了語(yǔ)義分割的準(zhǔn)確性。DeepLab-V2優(yōu)點(diǎn):引入ASPP結(jié)構(gòu)以解決多尺度問(wèn)題,通過(guò)結(jié)合空間金字塔池化來(lái)增強(qiáng)多尺度特征的提取;將基礎(chǔ)網(wǎng)絡(luò)從VGG16替換為ResNet-101,以保持位置數(shù)據(jù)的完整性;在PASCALVOC2012數(shù)據(jù)集上提高了語(yǔ)義分割的準(zhǔn)確性,平均交并比(mIoU)達(dá)到79.7%??偨Y(jié)DeepLab系列分割網(wǎng)絡(luò)DeepLab-V3分割網(wǎng)絡(luò)DeepLab-V3網(wǎng)絡(luò)分為級(jí)聯(lián)結(jié)構(gòu)以及并行結(jié)構(gòu)。網(wǎng)絡(luò)的多處卷積層均替換為空洞卷積層,在保持輸入特征圖尺寸的同時(shí)擴(kuò)大了感受野。(a)未使用空洞卷積的級(jí)聯(lián)結(jié)構(gòu)(b)使用空洞卷積的級(jí)聯(lián)結(jié)構(gòu)DeepLab系列分割網(wǎng)絡(luò)DeepLab-V3分割網(wǎng)絡(luò)DeepLab-V3網(wǎng)絡(luò)的并行結(jié)構(gòu)。其改進(jìn)的ASPP結(jié)構(gòu)用1x1卷積替代高空洞率的3x3卷積,并且加入圖像池化層,增強(qiáng)全局上下文信息的捕捉。DeepLab-V3網(wǎng)絡(luò)的并行結(jié)構(gòu)DeepLab系列分割網(wǎng)絡(luò)DeepLab-V3通過(guò)空洞卷積獲取與輸入尺寸一致的特征,并調(diào)整ASPP結(jié)構(gòu)以構(gòu)建端到端的分割網(wǎng)絡(luò),有效捕捉多尺度語(yǔ)義信息,提高了模型的效率和分割性能。DeepLab-V3優(yōu)點(diǎn):將ASPP中的高空洞率卷積替換為1×1卷積,以減輕圖像邊界效應(yīng)引起的信息丟失;移除了條件隨機(jī)場(chǎng)(CRF),簡(jiǎn)化了網(wǎng)絡(luò)結(jié)構(gòu)。提高了語(yǔ)義分割的準(zhǔn)確性,在PASCALVOC2012數(shù)據(jù)集上平均交并比(mIoU)達(dá)到85.7%??偨Y(jié)DeepLab系列分割網(wǎng)絡(luò)DeepLab-V3+分割網(wǎng)絡(luò)DeepLab-V3+網(wǎng)絡(luò)采用編碼-解碼器架構(gòu),以DeepLab-V3作為編碼器,其后串聯(lián)了解碼器。編碼器輸出DCNN的淺層特征圖和ASPP融合后的特征圖作為解碼器的輸入。解碼器首先對(duì)淺層特征圖進(jìn)行卷積,然后與上采樣的ASPP特征圖融合,并通過(guò)卷積和上采樣操作逐步恢復(fù)特征信息到原始圖像大小,實(shí)現(xiàn)端到端的語(yǔ)義分割。DeepLab-V3+對(duì)其運(yùn)用的主干網(wǎng)絡(luò)Xception進(jìn)行了改進(jìn),用深度可分離卷積層替換所有卷積和池化層,在保持一定的模型性能的同時(shí),減少了計(jì)算量和參數(shù)量,提升計(jì)算速度和內(nèi)存效率,并且能更好地緩解梯度消失問(wèn)題。DeepLab系列分割網(wǎng)絡(luò)空間金字塔模塊通過(guò)不同空洞率的濾波器或池化操作采樣輸入特征,編碼多尺度上下文信息。編解碼器結(jié)構(gòu)通過(guò)逐步恢復(fù)空間信息來(lái)捕捉清晰的對(duì)象邊界。DeepLab-V3+結(jié)合這兩種方法的優(yōu)勢(shì),引入了一個(gè)簡(jiǎn)單有效的解碼器模塊來(lái)擴(kuò)展DeepLab-V3+,從而提高了分割結(jié)果的精細(xì)度。DeepLab-V3+優(yōu)點(diǎn):采用編碼-解碼器架構(gòu),以DeepLab-V3作為編碼器;將基礎(chǔ)網(wǎng)絡(luò)從ResNet101替換為改進(jìn)的Xception網(wǎng)絡(luò);進(jìn)一步提高了語(yǔ)義分割的準(zhǔn)確性,在PASCALVOC2012數(shù)據(jù)集上平均交并比(mIoU)達(dá)到89.0%??偨Y(jié)目錄6全卷積FCN分割網(wǎng)絡(luò)7U-net分割網(wǎng)絡(luò)8DeepLab系列分割網(wǎng)絡(luò)9預(yù)訓(xùn)練大模型分割網(wǎng)絡(luò)-SAM預(yù)訓(xùn)練大模型分割網(wǎng)絡(luò)-SAMSAM簡(jiǎn)介SAM(SegmentAnythingModel)通過(guò)給定圖像和視覺提示,如目標(biāo)框、點(diǎn)、掩碼等,來(lái)指定在圖像中分割的內(nèi)容。SAM主要由圖像編碼器、提示編碼器和掩碼解碼器三部分構(gòu)成。SAM模型框架預(yù)訓(xùn)練大模型分割網(wǎng)絡(luò)-SAM圖像編碼器圖像編碼器承擔(dān)著將輸入圖像轉(zhuǎn)換為特征表示的重要任務(wù)。這一轉(zhuǎn)換過(guò)程主要依賴于經(jīng)過(guò)maskedautoencoder(MAE)方法預(yù)訓(xùn)練的視覺Transformer(ViT)模型,該模型經(jīng)過(guò)預(yù)訓(xùn)練后,能夠有效地處理高分辨率的輸入圖像。圖像編碼器對(duì)每個(gè)輸入圖像只運(yùn)行一次,并且可以在提示模型處理之前應(yīng)用,以便為后續(xù)的提示編碼和分割任務(wù)提供豐富的圖像特征。SAM圖像編碼器結(jié)構(gòu)預(yù)訓(xùn)練大模型分割網(wǎng)絡(luò)-SAM提示編碼器提示編碼器的主要功能是從輸入提示中抽象出特征表示,進(jìn)而映射到一個(gè)特征空間中。SAM提示編碼器流程預(yù)訓(xùn)練大模型分割網(wǎng)絡(luò)-SAM掩碼解碼器掩碼解碼器將圖像編碼、提示編碼以及輸出標(biāo)記巧妙地融合在一起,旨在最終生成對(duì)象的精確分割掩碼以及與之對(duì)應(yīng)的置信度分?jǐn)?shù)。SAM掩碼解碼器結(jié)構(gòu)預(yù)訓(xùn)練大模型分割網(wǎng)絡(luò)-SAM經(jīng)過(guò)在1100萬(wàn)張圖像上訓(xùn)練超過(guò)10億的掩碼,SAM擁有了強(qiáng)大的零樣本學(xué)習(xí)能力,使其能夠有效地應(yīng)用于下游視覺任務(wù),并展現(xiàn)出顯著的模型泛化能力。SAM是圖像分割領(lǐng)域的創(chuàng)新基礎(chǔ)模型,是一個(gè)能夠統(tǒng)一整個(gè)圖像分割任務(wù)的基礎(chǔ)模型。其出色的性能代表了該領(lǐng)域的重要進(jìn)步,不僅展示了基礎(chǔ)模型在圖像分割任務(wù)中的潛力,也為未來(lái)的視覺理解研究和應(yīng)用提供了新的方向和可能性??偨Y(jié)謝謝!計(jì)算機(jī)視覺戰(zhàn)略性新興領(lǐng)域“十四五”高等教育系列教材6、紋理分析什么是紋理特征經(jīng)典的紋理分析方法共生矩陣Gabor小波

基于深度學(xué)習(xí)的紋理分析T-CNNPCANet什么是紋理特征(Texture)紋理是日常生活中不可或缺的一部分,其通常體現(xiàn)為物體表面的觸感或視覺感知。它是對(duì)物體表面感知和理解的基礎(chǔ),也是描述和區(qū)分不同物體的重要特征之一。一般將組成紋理的基本元素稱為紋理基元或紋元。

紋理最明顯的視覺特征是粗糙性、方向性和周期性。粗糙性指紋理表面的細(xì)節(jié)程度,可以是細(xì)膩的或粗糙的。方向性表示紋理中存在特定方向的元素或模式,可以是水平、垂直或斜向的。周期性指紋理中的元素或模式在空間中以某種規(guī)律重復(fù)出現(xiàn)。這些視覺特征對(duì)于紋理的識(shí)別和描述起著重要的作用,也是紋理特征提取方法的基礎(chǔ)。多個(gè)紋理區(qū)域的圖象什么是紋理特征(Texture)什么是紋理特征(Texture)盡管對(duì)紋理的定義沒(méi)有統(tǒng)一準(zhǔn)確的答案,但紋理作為圖像的一個(gè)重要屬性,在計(jì)算機(jī)視覺和圖像處理中扮演著關(guān)鍵的角色。紋理的研究和分析對(duì)于理解物體表面屬性、開發(fā)紋理相關(guān)應(yīng)用以及推動(dòng)相關(guān)領(lǐng)域的發(fā)展具有重要意義。從醫(yī)學(xué)影像到遙感影像處理,紋理分析是許多任務(wù)的重要組成部分。6、紋理分析什么是紋理特征經(jīng)典的紋理分析方法共生矩陣Gabor小波

基于深度學(xué)習(xí)的紋理分析T-CNNPCANet經(jīng)典的紋理分析方法紋理分析指通過(guò)一定的圖像處理技術(shù)提取出紋理特征參數(shù),從而獲得紋理的定量或定性描述的處理過(guò)程。紋理分類的方法有很多,可以分為統(tǒng)計(jì)方法、結(jié)構(gòu)方法、模型方法和變換方法。本節(jié)介紹兩種經(jīng)典的紋理分析方法,分別是基于灰度共生矩陣和基于gabor小波的紋理分析方法。樹輪紋理冰晶紋理灰度共生矩陣(GLDM)的統(tǒng)計(jì)方法是20世紀(jì)70年代初由R.Haralick等人提出,其在假定圖像中各像素間的空間分布關(guān)系包含了圖像紋理信息的前提下,提出了具有廣泛性的紋理分析方法。對(duì)于具有G個(gè)灰度級(jí)的圖像,受位移矢量d=(dx,dy)控制的灰度級(jí)共生矩陣Pd是一個(gè)的GXG矩陣,矩陣行列表示各個(gè)灰度級(jí),矩陣元素反映兩種灰度在相距一定距離的位置上同時(shí)出現(xiàn)的次數(shù)。

灰度共生矩陣定義方向?yàn)棣?,間隔為d的灰度共生矩陣[??(??,??,??,θ)]_(??×??),??(??,??,??,θ)為共生矩陣第i行第j列元素的值,它是以灰度級(jí)i為起點(diǎn),在給定空間距離d和方向θ時(shí),出現(xiàn)灰度級(jí)j的概率。L為灰度級(jí)的數(shù)目,θ一般取0°、45°、90°、135°等方向,以0_??軸為起始,逆時(shí)針?lè)较蛴?jì)算。右圖(a)為一幅4×5圖像,當(dāng)給定d=1,θ為0°時(shí),右圖(b)為其對(duì)應(yīng)的共生矩陣。灰度共生矩陣灰度共生矩陣度量灰度共生矩陣

二維Gabor濾波器Gabor小波除了統(tǒng)計(jì)分析方法,在紋理分析中還常使用信號(hào)處理方法?;谛盘?hào)處理的紋理分析方法首先對(duì)紋理圖像進(jìn)行頻域或空域?yàn)V波處理,然后進(jìn)行分析和解釋。Gabor函數(shù)是一個(gè)用于邊緣提取的線性濾波器。在空間域中,一個(gè)二維Gabor濾波器是一個(gè)由正弦平面波調(diào)制的高斯核函數(shù)

二維Gabor濾波器Gabor小波Gabor變換雖然解決了局部分析的問(wèn)題,但對(duì)于突變信號(hào)和非平穩(wěn)信號(hào)來(lái)說(shuō),其結(jié)果仍不盡如人意。這是因?yàn)镚abor變換的時(shí)頻窗口大小和形狀固定不變,只有位置在變化,這限制了其在某些情況下的適用性。在實(shí)際應(yīng)用中,我們通常希望時(shí)頻窗口的大小和形狀能夠根據(jù)頻率的變化而變化,這樣可以更好地適應(yīng)不同頻率成分的特點(diǎn)。二維Gabor濾波器Gabor小波小波變換(WaveletTransform)是一種信號(hào)處理技術(shù),將信號(hào)分解成不同尺度(頻率)和不同位置(時(shí)間)上的小波基函數(shù)的系數(shù),從而可以同時(shí)獲得信號(hào)在頻域和時(shí)域的信息。這些小波基函數(shù)是基于母小波函數(shù)通過(guò)平移和縮放而得到的,因此可以適應(yīng)不同頻率和時(shí)間尺度的信號(hào)特征。

二維Gabor濾波器Gabor小波一個(gè)Gabor核函數(shù)能獲取到圖像某個(gè)頻率鄰域的響應(yīng)情況,這個(gè)響應(yīng)結(jié)果可以看作為圖像的一個(gè)特征。那么,我們?nèi)绻枚鄠€(gè)不同頻率的Gabor核去獲取圖像在不同頻率鄰域的響應(yīng)情況,最后就能形成圖像在各個(gè)頻率段的特征,這個(gè)特征就可以描述圖像的頻率信息。為了獲取不同紋理的特征,通常選取一組具有不同主頻的窄帶帶通Gabor濾波器提取圖像中的紋理特征。上圖展示了一系列具有不同頻率的Gabor核,用這些核與圖像卷積,我們就能得到圖像上每個(gè)點(diǎn)和其附近區(qū)域的紋理特征情況。6、紋理分析什么是紋理特征經(jīng)典的紋理分析方法共生矩陣Gabor小波

基于深度學(xué)習(xí)的紋理分析T-CNNPCANet深度學(xué)習(xí)對(duì)紋理分析方法起著重要作用。在過(guò)去的幾十年里,傳統(tǒng)的紋理分析方法在很大程度上取得了顯著的進(jìn)展,然而,隨著深度學(xué)習(xí)的興起,尤其是卷積神經(jīng)網(wǎng)絡(luò)的成功應(yīng)用,紋理分析領(lǐng)域也迎來(lái)了一場(chǎng)革命性的變革,相對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法如K近鄰,支持向量機(jī)等,深度學(xué)習(xí)具有非凡的感知模式的能力,即能夠以自動(dòng)特征學(xué)習(xí),處理大規(guī)模數(shù)據(jù),更好處理復(fù)雜的非線性問(wèn)題以及預(yù)測(cè)性能更好。本節(jié)將從兩個(gè)經(jīng)典網(wǎng)絡(luò)方面深入探討基于深度學(xué)習(xí)的紋理分析方法,以及它們?cè)诓煌I(lǐng)域的應(yīng)用。深度學(xué)習(xí)的強(qiáng)大能力在圖像處理任務(wù)中取得了巨大成功,而紋理分析作為其中一個(gè)重要的子領(lǐng)域,也迎來(lái)了新的機(jī)遇和挑戰(zhàn)。

深度學(xué)習(xí)的興起TCNN使用VGG19網(wǎng)絡(luò)(如下圖所示)作為主干網(wǎng)絡(luò),使用VGG-19的16個(gè)卷積層和5個(gè)池化層,沒(méi)有使用全連接層。其中卷積層大小為3×3×k,k為輸入特征通道數(shù)。卷積的步長(zhǎng)和填充大小都為1,其輸出輸入的特征圖尺寸不變。池化操作中池化大小為2×2,步長(zhǎng)為2,池化操作可以將特征圖大小下采樣至原尺寸的一半。卷積和池化操作交替進(jìn)行,若干個(gè)卷積層之后是池化層。經(jīng)過(guò)池化層之后,特征圖的尺寸減半,通道數(shù)量翻倍。

T-CNNVGG-19網(wǎng)絡(luò)結(jié)構(gòu)圖T-CNN要從給定的圖像中生成新的紋理圖像,首先要從該圖像中提取多尺度的特征。然后計(jì)算特征的空間統(tǒng)計(jì)特性,以獲得圖像紋理的靜態(tài)描述。在TCNN中,為了描述給定圖像的紋理特征,首先將其輸入卷積神經(jīng)網(wǎng)絡(luò),得到每層的特征圖。由紋理的定義可知,紋理是靜態(tài)的,其與空間位置無(wú)關(guān)。不同特征圖之間的相關(guān)性能夠給出空間位置無(wú)關(guān)的統(tǒng)計(jì)量。TCNN使用Gram矩陣描述特征之間的相關(guān)性,計(jì)算方法如下式所示:

TCNN框架圖

T-CNN

TCNN框架圖為了在給定圖像的基礎(chǔ)上生成新的紋理,TCNN使用梯度下降法從白噪聲圖像中找到與原始圖像的Gram矩陣表示相匹配的另一幅圖像。具體來(lái)說(shuō),其通過(guò)最小化原始圖像的Gram矩陣與生成圖像的Gram矩陣之間的均方距離實(shí)現(xiàn)。第L層損失函數(shù)如下所示:

紋理生成結(jié)果展示

T-CNN

下圖展示了由TCNN從五張不同的源圖像生成的具有相同紋理的圖片,可以看出,TCNN生成的圖像與原始圖像的紋理具有高度一致性。源圖像TCNN生成圖像

PCANetPCANet包含三個(gè)階段,前兩個(gè)階段為堆疊的PCA濾波過(guò)程,第三階段為輸出階段,對(duì)第二階段的輸出進(jìn)行二值哈希操作和直方圖統(tǒng)計(jì)得到最終輸出特征。

PCANet使用MultiPIE數(shù)據(jù)集里組裝面部數(shù)據(jù)集來(lái)訓(xùn)練出PCANet模型,將其在擴(kuò)展過(guò)的耶魯B數(shù)據(jù)集上測(cè)試,在測(cè)試圖像中,通過(guò)用一個(gè)與之無(wú)關(guān)的圖像替換每個(gè)測(cè)試圖像中隨機(jī)位置的方塊來(lái)模擬從0%到80%不同級(jí)別的連續(xù)遮擋。不同遮擋程度的人臉測(cè)試圖下左圖所示:不同遮擋程度的人臉測(cè)試圖像

PCANet使用MultiPIE數(shù)據(jù)集里組裝面部數(shù)據(jù)集來(lái)訓(xùn)練出PCANet模型,將其在擴(kuò)展過(guò)的耶魯B數(shù)據(jù)集上測(cè)試,在測(cè)試圖像中,通過(guò)用一個(gè)與之無(wú)關(guān)的圖像替換每個(gè)測(cè)試圖像中隨機(jī)位置的方塊來(lái)模擬從0%到80%不同級(jí)別的連續(xù)遮擋。不同遮擋程度的人臉測(cè)試圖下左圖所示:實(shí)驗(yàn)結(jié)果見上表,可以觀察到PCANet優(yōu)于不同水平的P-LBP模型,不但對(duì)暗光圖片紋理識(shí)別率很高,而且產(chǎn)生對(duì)遮擋的驚人魯棒性。

謝謝!計(jì)算機(jī)視覺戰(zhàn)略性新興領(lǐng)域“十四五”高等教育系列教材7、攝像機(jī)模型成像原理攝像機(jī)成像模型攝像機(jī)標(biāo)定成像原理小孔成像

在一個(gè)帶有小孔的遮擋板的前方放置一支點(diǎn)燃的蠟燭,蠟燭發(fā)出的光透過(guò)這個(gè)小孔投影在遮擋板后方的白紙平面上,并在這個(gè)平面上形成一個(gè)倒立的蠟燭圖像。成像原理凸透鏡成像

光線在凸透鏡上的折射方向符合折射定律,即入射角與折射角的正弦比等于兩介質(zhì)折射率的比值

凸透鏡的中心叫光心,穿過(guò)光心的光線傳播方向不變,通過(guò)光心的水平直線叫主光軸,平行于主光軸的光線經(jīng)凸透鏡折射后會(huì)聚于主光軸上的一點(diǎn),叫做焦點(diǎn)。每個(gè)凸透鏡都有兩個(gè)焦點(diǎn),光心到焦點(diǎn)的距離叫做焦距

。7、攝像機(jī)模型成像原理攝像機(jī)成像模型攝像機(jī)標(biāo)定攝像機(jī)成像原理將小孔成像實(shí)驗(yàn)中的白紙換為感光膠片,就可以將蠟燭燭焰的圖像記錄下來(lái)。小孔直徑較小會(huì)導(dǎo)致通光亮非常小,信噪比非常低,成像傳感器無(wú)法采集到有效的信號(hào)小孔直徑過(guò)大,能夠提高信噪比,但是會(huì)導(dǎo)致成像模糊。坐標(biāo)系和齊次坐標(biāo)(CoordinateSystemsandHomogeneousCoordinates)右手坐標(biāo)系XYZxyzPO齊次坐標(biāo)(HomogeneousCoordinates)所謂齊次坐標(biāo)就是用n+1維矢量表示一個(gè)n維矢量為什么要用齊次坐標(biāo)表示?提供了用矩陣運(yùn)算把二維、三維甚至高維空間中的一個(gè)點(diǎn)集從一個(gè)坐標(biāo)系變換到另一個(gè)坐標(biāo)系的有效方法;可以表示無(wú)窮遠(yuǎn)點(diǎn)。一維齊次點(diǎn)坐標(biāo)定義齊次坐標(biāo)(HomogeneousCoordinates)有窮遠(yuǎn)點(diǎn)無(wú)窮遠(yuǎn)點(diǎn)非齊次齊次坐標(biāo)關(guān)系(x1,x2)(x2≠0)xx=x1/x2(x1,0)(x1≠0)二維齊次點(diǎn)坐標(biāo)定義齊次坐標(biāo)(HomogeneousCoordinates)有窮遠(yuǎn)點(diǎn)方向?yàn)棣?x2/x1的無(wú)窮遠(yuǎn)點(diǎn)非齊次齊次坐標(biāo)關(guān)系

y軸上的無(wú)窮遠(yuǎn)點(diǎn)(x,y)x=x1/x3,y=x2/x3(x1,x2,x3)(x3≠0)(x1,x2,0)(x1≠0)(λ=x2/x1)(0,x2,0)(x2≠0)無(wú)窮遠(yuǎn)點(diǎn)二維齊次點(diǎn)坐標(biāo)舉例齊次坐標(biāo)(HomogeneousCoordinates)齊次坐標(biāo)(一般形式)特定一組圖像坐標(biāo)系(ImageCoordinate)以像素為單位的圖像坐標(biāo)系坐標(biāo):以物理單位表示的圖像坐標(biāo)系:每一個(gè)像素在X軸與Y軸方向上的物理尺寸為dx,dyOuvo(u0,v0)成像模型針孔成像模型圖像坐標(biāo)系與攝像機(jī)坐標(biāo)系攝像機(jī)坐標(biāo)系:根據(jù)小孔成像模型:用齊次坐標(biāo)和矩陣表示

攝像坐標(biāo)系與世界坐標(biāo)系世界坐標(biāo)系:用齊次坐標(biāo)和矩陣表示:攝像機(jī)外參攝像機(jī)參數(shù)(CameraParameters)用齊次坐標(biāo)和矩陣表示攝像機(jī)外參坐標(biāo)系旋轉(zhuǎn)與平移三維坐標(biāo)系的旋轉(zhuǎn)可以分解成繞三個(gè)坐標(biāo)軸旋轉(zhuǎn)的乘積繞x軸旋轉(zhuǎn):坐標(biāo)系旋轉(zhuǎn)與平移繞y軸旋轉(zhuǎn)繞z軸旋轉(zhuǎn)攝像機(jī)參數(shù)(CameraParameters)攝像機(jī)內(nèi)部參數(shù)(IntrinsicParameters)攝像機(jī)坐標(biāo)和理想坐標(biāo)系之間的關(guān)系圖像坐標(biāo)系、攝像機(jī)坐標(biāo)系攝像機(jī)外部參數(shù)(ExtrinsicParameters)攝像機(jī)在世界坐標(biāo)系里的位置和方向攝像機(jī)坐標(biāo)系、世界坐標(biāo)系相機(jī)畸變(LensDistortion)徑向畸變——由于凸透鏡的影響,三維空間中的直線在圖像中會(huì)變成曲線。且越靠近圖像邊緣,這種現(xiàn)象越明顯。桶形畸變是由于圖像放大率隨著與光軸之間的距離增加而減小,而枕形畸變則與之相反。

正常圖像

枕形畸變

桶形畸變畸變切向畸變——在攝像機(jī)的組裝過(guò)程中由于不能使凸透鏡和成像平面嚴(yán)格平行也會(huì)引入切向畸變畸變示例7、攝像機(jī)模型成像原理攝像機(jī)成像模型攝像機(jī)標(biāo)定攝像機(jī)標(biāo)定為什么要進(jìn)行攝像機(jī)標(biāo)定?攝像機(jī)標(biāo)定(CameraCalibratrion)直接線性變換法(DirectLinearTransform,DLT)根據(jù)投影模型,可以由三維空間點(diǎn)與對(duì)應(yīng)的圖像點(diǎn)之間的投影關(guān)系得到投影矩陣為一個(gè)矩陣,不妨設(shè)攝像機(jī)標(biāo)定(CameraCalibratrion)直接線性變換法(DirectLinearTransform,DLT)令經(jīng)過(guò)整理和齊次化后可以得到關(guān)于投影矩陣未知量的矩陣表達(dá)式其中使用6組對(duì)應(yīng)點(diǎn)即可求解上述方程組,且所有輸入的點(diǎn)不能位于同一平面上。攝像機(jī)標(biāo)定(CameraCalibratrion)直接線性變換法(DirectLinearTransform,DLT)確定投影矩陣后,可以從投影矩陣中分解得到內(nèi)參數(shù)矩陣和外參數(shù)根據(jù)RQ分解可以得到內(nèi)參數(shù)矩陣和旋轉(zhuǎn)矩陣。平移向量可以由下式得到DLT方法的優(yōu)點(diǎn)是標(biāo)定精度高、計(jì)算簡(jiǎn)單,但需要高精度的標(biāo)定物,使用靈活性不足。攝像機(jī)標(biāo)定(CameraCalibratrion)張正友棋盤格標(biāo)定算法(1)求解單應(yīng)矩陣(2)求解攝像機(jī)內(nèi)參數(shù)和外參數(shù)(3)建立徑向畸變模型并求解畸變參數(shù)(4)利用最大似然方法進(jìn)一步優(yōu)化結(jié)果標(biāo)定板攝像機(jī)標(biāo)定(CameraCalibratrion)張正友棋盤格標(biāo)定算法(1)求解單應(yīng)矩陣已知標(biāo)定板上角點(diǎn)的三維點(diǎn)坐標(biāo),其圖像對(duì)應(yīng)點(diǎn)的像素坐標(biāo)為,故有記,稱為空間平面到圖像的單應(yīng)矩陣。攝像機(jī)標(biāo)定(CameraCalibratrion)張正友棋盤格標(biāo)定算法(1)求解單應(yīng)矩陣記,利用向量的叉積可以得到對(duì)其進(jìn)行變換可得利用奇異值分解可以得到單應(yīng)矩陣的最小二乘解攝像機(jī)標(biāo)定(CameraCalibratrion)張正友棋盤格標(biāo)定算法(2)求解攝像機(jī)內(nèi)參數(shù)和外參數(shù)由旋轉(zhuǎn)矩陣的性質(zhì)可知,和相互正交且模均為1,故有令是對(duì)稱矩陣,故定義一個(gè)6維列向量攝像機(jī)標(biāo)定(CameraCalibratrion)張正友棋盤格標(biāo)定算法(2)求解攝像機(jī)內(nèi)參數(shù)和外參數(shù)記的列向量,可以得到其中將其變形轉(zhuǎn)換可得由此可得到內(nèi)參數(shù)矩陣,進(jìn)而恢復(fù)旋轉(zhuǎn)矩陣和平移向量攝像機(jī)標(biāo)定(CameraCalibratrion)張正友棋盤格標(biāo)定算法(3)建立徑向畸變模型并求解畸變參數(shù)考慮影響最大的徑向畸變,對(duì)于圖像坐標(biāo)系下的一點(diǎn),假設(shè)存在畸變時(shí)對(duì)應(yīng)的坐標(biāo)是,引入徑向畸變參數(shù),,建立畸變模型由內(nèi)參矩陣可以得出對(duì)應(yīng)像素坐標(biāo)系下坐標(biāo)為

。假設(shè)

,有

攝像機(jī)標(biāo)定(CameraCalibratrion)張正友棋盤格標(biāo)定算法(3)建立徑向畸變模型并求解畸變參數(shù)畸變后的點(diǎn)的像素坐標(biāo)即是圖像中實(shí)際獲取到的像素坐標(biāo),理想像素坐標(biāo)通過(guò)已經(jīng)標(biāo)定的攝像機(jī)內(nèi)參和外參求出。因此有利用最小二乘法可求解得到畸變系數(shù)。攝像機(jī)標(biāo)定(CameraCalibratrion)張正友棋盤格標(biāo)定算法(4)利用最大似然方法進(jìn)一步優(yōu)化結(jié)果利用最大似然方法,直接對(duì)所有參數(shù)進(jìn)行估計(jì),使下式所示的函數(shù)最小化其中,為通過(guò)各參數(shù)得到的理想像素坐標(biāo),通過(guò)Levenberg-Marquardt算法對(duì)上式迭代求解,取優(yōu)化后的結(jié)果作為標(biāo)定結(jié)果。張正友方法總結(jié)張正友的平面標(biāo)定方法是介于傳統(tǒng)標(biāo)定方法和自標(biāo)定方法之間的一種方法。它既避免了傳統(tǒng)方法設(shè)備要求高,操作繁瑣等缺點(diǎn),又較自標(biāo)定方法精度高,符合辦公、家庭使用的桌面視覺系統(tǒng)(DVS)的標(biāo)定要求。張的方法是需要確定模板上點(diǎn)陣的物理坐標(biāo)以及圖像和模板之間的點(diǎn)的匹配,這給不熟悉計(jì)算機(jī)視覺的使用者帶來(lái)了不便。攝像機(jī)標(biāo)定(CameraCalibratrion)一維標(biāo)定物標(biāo)定算法

一維標(biāo)定物為一組共線點(diǎn)組成的一條直線,由于一維標(biāo)定物的成像不存在遮擋問(wèn)題,因此一維標(biāo)定方法適于多個(gè)攝像機(jī)組成的攝像機(jī)系統(tǒng)的標(biāo)定。首先分析了直線上不同數(shù)量的點(diǎn)對(duì)應(yīng)的可能標(biāo)定情形。(1)假設(shè)已知直線上的兩個(gè)點(diǎn)以及兩點(diǎn)之間的距離線段兩端點(diǎn)為和,其世界坐標(biāo)描述需要6個(gè)參數(shù),已知兩點(diǎn)的距離,因此需要5個(gè)參數(shù)。每個(gè)三維空間點(diǎn)到二維圖像點(diǎn)的映射可以提供兩個(gè)方程,2個(gè)圖像點(diǎn)一共四個(gè)方程。拍攝N次不同姿態(tài)的線段AC,則需要5N個(gè)參數(shù)來(lái)描述空間點(diǎn)的位置,外加相機(jī)的5個(gè)內(nèi)參數(shù),一共為5??+5個(gè)待求參數(shù),然而卻只有4N個(gè)約束方程。攝像機(jī)標(biāo)定(CameraCalibratrion)一維標(biāo)定物標(biāo)定算法(2)假設(shè)已知直線上的三個(gè)點(diǎn)以及每對(duì)點(diǎn)之間的距離加入一點(diǎn),并已知與的距離,由于三點(diǎn)的單比已知,因此仍然需要5個(gè)參數(shù)表示它們的空間位置。三點(diǎn)共線一共提供5N個(gè)約束方程。(3)假設(shè)已知直線上的四個(gè)點(diǎn)以及每對(duì)點(diǎn)之間的距離若在三個(gè)點(diǎn)的基礎(chǔ)上再添加一個(gè)點(diǎn),根據(jù)射影定理中交比不便攜可知,點(diǎn)所提供的信息已被前三個(gè)點(diǎn)所提供的信息包含了,所以顯然再加進(jìn)去一個(gè)點(diǎn)對(duì)求解無(wú)益。攝像機(jī)標(biāo)定(CameraCalibratrion)一維標(biāo)定物標(biāo)定算法如果空間一個(gè)點(diǎn)是固定的,會(huì)發(fā)生什么?假設(shè)點(diǎn)A為不動(dòng)點(diǎn),點(diǎn)a為其對(duì)應(yīng)得圖像點(diǎn)。假設(shè)線段AD的長(zhǎng)度為L(zhǎng),共線的三個(gè)點(diǎn)A、C、D的單比已知,則有攝像機(jī)標(biāo)定(CameraCalibratrion)一維標(biāo)定物標(biāo)定算法假設(shè)旋轉(zhuǎn)矩陣,平移向量T=0根據(jù)攝像機(jī)成像模型有合并整理后有攝像機(jī)標(biāo)定(CameraCalibratrion)一維標(biāo)定物標(biāo)定算法對(duì)上式左右兩邊同時(shí)與c做叉積可以得到整理后有另外由線段AD的長(zhǎng)度為L(zhǎng)可得結(jié)合以上兩式有攝像機(jī)標(biāo)定(CameraCalibratrion)一維標(biāo)定物標(biāo)定算法記,那么將上式左右兩邊平方后可寫為顯然,未知的內(nèi)參數(shù)全部包含在中。

由于線段AD在運(yùn)動(dòng)過(guò)程中點(diǎn)A保持不動(dòng),因此其深度始終保持不變。對(duì)于兩幅圖像來(lái)說(shuō),可以建立一個(gè)關(guān)于內(nèi)參數(shù)的約束方程至少需要線段AD的6幅不同姿態(tài)的圖像才可以確定大于等于5個(gè)約束方程,能夠求解出內(nèi)參數(shù)。謝謝!計(jì)算機(jī)視覺戰(zhàn)略性新興領(lǐng)域“十四五”高等教育系列教材8、三維視覺重建三維重建介紹多視幾何基于立體視覺的三維重建其他三維信息獲取技術(shù)128三維重建1.數(shù)據(jù)采集與獲取2.圖像預(yù)處理3.攝像機(jī)標(biāo)定4.特征匹配與配準(zhǔn)5.深度估計(jì)與點(diǎn)云生成6.點(diǎn)云處理與拓?fù)潢P(guān)系表面重建于紋理映射優(yōu)化與精細(xì)調(diào)整

目的與任務(wù)129三維重建1.文化遺產(chǎn)保護(hù)2.建筑設(shè)計(jì)與城市規(guī)劃3.醫(yī)學(xué)影像與手術(shù)規(guī)劃4.虛擬現(xiàn)實(shí)與娛樂(lè)5.工業(yè)制造與維護(hù)

應(yīng)用鄰域8、三維視覺重建三維重建介紹多視幾何基于立體視覺的三維重建其他三維信息獲取技術(shù)

多視幾何極幾何關(guān)系根據(jù)投影關(guān)系,可以得到三維點(diǎn)在兩幅圖像上對(duì)應(yīng)的像素位置令,,有整理化簡(jiǎn)后有重新代入,有其中表示基礎(chǔ)矩陣,為本質(zhì)矩陣多視幾何基礎(chǔ)矩陣估計(jì)由基礎(chǔ)矩陣的推導(dǎo)過(guò)程可以知道,一對(duì)對(duì)應(yīng)點(diǎn)可以提供一個(gè)關(guān)于基礎(chǔ)矩陣的約束方程。設(shè)一組對(duì)應(yīng)點(diǎn)和,齊次坐標(biāo)分別為和,由此可以得到多視幾何基礎(chǔ)矩陣估計(jì)整理后可寫為即多視幾何基礎(chǔ)矩陣估計(jì)

秩2約束基礎(chǔ)矩陣F的秩為2,這是基礎(chǔ)矩陣的一個(gè)重要性質(zhì)。如果用一個(gè)秩不為2的矩陣作為基礎(chǔ)矩陣,則用它估計(jì)的極線不交于極點(diǎn)。然而,利用上式所確定的基礎(chǔ)矩陣F一般是滿秩的,因此必須用一個(gè)秩為2的矩陣去逼近基礎(chǔ)矩陣作為其估計(jì),即,求解下述最小化問(wèn)題并對(duì)矩陣F進(jìn)行奇異值分解得到多視幾何8、三維視覺重建三維重建介紹多視幾何基于立體視覺的三維重建其他三維信息獲取技術(shù)137基于立體視覺的三維重建基于兩視角的SFM方法:通過(guò)在不同位置拍攝的兩幅圖像來(lái)恢復(fù)攝像機(jī)的運(yùn)動(dòng)以及場(chǎng)景的三維結(jié)構(gòu)攝像機(jī)內(nèi)參數(shù)標(biāo)定尋找圖像間的對(duì)應(yīng)點(diǎn)計(jì)算基礎(chǔ)矩陣

通過(guò)基礎(chǔ)矩陣估計(jì)攝像機(jī)的運(yùn)動(dòng)參數(shù)

獲得三維點(diǎn)坐標(biāo)

基于StructurefromMotion的三維重建基于StructurefromMotion的三維重建得到基礎(chǔ)矩陣后,可以由攝像機(jī)內(nèi)參數(shù)矩陣得到本質(zhì)矩陣,并根據(jù)SVD分解可以得到以下結(jié)果由分解結(jié)果可以發(fā)現(xiàn),對(duì)于任意一個(gè)本質(zhì)矩陣,存在4個(gè)可能的旋轉(zhuǎn)和平移運(yùn)動(dòng)的組合,分別為其中,

基于StructurefromMotion的三維重建四種結(jié)果可寫為,分別對(duì)應(yīng)如下基于StructurefromMotion的三維重建根據(jù)得到的攝像機(jī)位姿和內(nèi)參數(shù)矩陣確定投影矩陣根據(jù)空間點(diǎn)在兩幅圖像下的圖像點(diǎn)和可以得到其中為圖像點(diǎn)對(duì)應(yīng)的投影矩陣。通過(guò)SVD方法求解該方程組得到三維點(diǎn)坐標(biāo)基于StructurefromMotion的三維重建多視角的運(yùn)動(dòng)視覺多視角的運(yùn)動(dòng)視覺通過(guò)每次添加一幅圖像,依次使用多幅圖像進(jìn)行三維重建。也可以通過(guò)融合三維重建結(jié)果進(jìn)行多視角下的三維重建捆綁調(diào)整計(jì)算出投影矩陣和重建結(jié)果后,通過(guò)投影矩陣將重建投影到圖像平面上,通過(guò)最小化投影點(diǎn)和實(shí)際圖像點(diǎn)之間的距離,來(lái)優(yōu)化投影矩陣和重建結(jié)果基于多目立體視覺MVS的三維重建視差與深度:計(jì)算機(jī)雙目視覺就是通過(guò)兩個(gè)攝像機(jī)獲得圖像信息,計(jì)算出視差,從而使計(jì)算機(jī)能夠感知到三維世界。設(shè)和分別為和在對(duì)應(yīng)像平面坐標(biāo)系下的水平方向的坐標(biāo),那么三維點(diǎn)在左右攝像機(jī)的視差可以定義為

基于多目立體視覺MVS的三維重建兩個(gè)成像點(diǎn)和之間的距離為根據(jù)相似三角形理論可以得到整理后可以得到深度與視差的關(guān)系

基于多目立體視覺MVS的三維重建2.極線矯正:對(duì)左右圖像進(jìn)行極線校正,使得兩幅圖像的光心位于同一水平方向上。首先定義新的攝像機(jī)坐標(biāo)系:軸基向量為,軸為與軸正交的任意單位向量。軸基向量即可使用右手法則得到。第二步重新計(jì)算新的內(nèi)參數(shù)矩陣第三步為矯正過(guò)程,即計(jì)算變換矩陣

,將原圖像上的像素變換到校正以后的新圖像上的像素。

基于多目立體視覺MVS的三維重建極線矯正示例

基于多目立體視覺MVS的三維重建立體匹配:指在經(jīng)過(guò)極線校正后的左右圖像中尋找對(duì)應(yīng)點(diǎn)的過(guò)程。圖像預(yù)處理:由于光照不一致、噪聲、鏡面反射、遮擋等影響會(huì)造成對(duì)應(yīng)點(diǎn)搜索失敗。匹配代價(jià)計(jì)算:對(duì)左視圖中的像素,計(jì)算其與右視圖中可能的匹配像素之間的匹配代價(jià),用來(lái)表征兩個(gè)像素點(diǎn)的匹配程度。代價(jià)聚合:建立鄰接像素之間的聯(lián)系,以一定的準(zhǔn)則,來(lái)對(duì)代價(jià)矩陣進(jìn)行全局優(yōu)化。視差計(jì)算:通過(guò)代價(jià)聚合之后的代價(jià)立方體來(lái)確定每個(gè)像素的最優(yōu)視差值,通常使用贏家通吃算法來(lái)計(jì)算,即某個(gè)像素的所有視差下的代價(jià)值中,選擇最小代價(jià)值所對(duì)應(yīng)的視差作為最優(yōu)視差。視差優(yōu)化:對(duì)上一步得到的視差圖進(jìn)一步優(yōu)化,改善視差圖的質(zhì)量,包括剔除錯(cuò)誤視差、適當(dāng)平滑以及亞像素精度優(yōu)化等步驟。

基于多目立體視覺MVS的三維重建多視角點(diǎn)云融合配準(zhǔn):為了消除不同視角之間的誤差和偏差,獲得完整和準(zhǔn)確的三維物體結(jié)構(gòu),需要將不同視角的點(diǎn)云進(jìn)行融合配準(zhǔn)。一般采用迭代最近鄰算法(IterativeClosestPoint,ICP)。即需要找到源點(diǎn)云與目標(biāo)點(diǎn)云之間的剛體變換和,然后將源點(diǎn)云經(jīng)過(guò)剛體變換后能夠與目標(biāo)點(diǎn)云盡可能地完全重合。那么這個(gè)問(wèn)題的數(shù)學(xué)描述形式為:上式是一個(gè)最小二乘問(wèn)題,對(duì)其進(jìn)行整理變換后,即可利用SVD方法求解得到最優(yōu)的和

MVSNet:DepthInferenceforUnstructuredMulti-viewStereo,ECCV2018基于深度學(xué)習(xí)MVSNet的三維重建MVSNet:DepthInferenceforUnstructuredMulti-viewStereo,ECCV2018基于深度學(xué)習(xí)的多視三維建模單應(yīng)矩陣MVSNet:DepthInferenceforUnstructuredMulti-viewStereo,ECCV2018基于深度學(xué)習(xí)的多視三維建模DTU數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果MVSNet:DepthInferenceforUnstructuredMulti-viewStereo,ECCV2018基于深度學(xué)習(xí)的多視三維建模DTU數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果8、三維視覺重建三維重建介紹多視幾何基于立體視覺的三維重建其他三維信息獲取技術(shù)其他三維重建技術(shù)結(jié)構(gòu)光:主動(dòng)傳感器直接獲取深度圖的方法由一個(gè)相機(jī)和一個(gè)投影儀組成:由投影儀向物體表面投射已知模式的結(jié)構(gòu)光圖案,處于不同角度的相機(jī)同步捕捉經(jīng)過(guò)物體表面調(diào)制后的結(jié)構(gòu)光圖案,然后對(duì)捕獲的模式圖像進(jìn)行解碼,與投射模式特征量匹配,找出各個(gè)對(duì)應(yīng)點(diǎn)。兩個(gè)相機(jī)和一個(gè)投影儀組成,稱之為雙目結(jié)構(gòu)光三維重建系統(tǒng):通過(guò)分析投影到物體表面的結(jié)構(gòu)光圖案在兩個(gè)不同視角下的圖像,利用立體視覺重建方法來(lái)重建物體的三維形狀

其他三維重建技術(shù)相移法結(jié)構(gòu)光系統(tǒng)投射N步相移條紋來(lái)主動(dòng)標(biāo)記區(qū)域。假設(shè)N步相移生成第k幅條紋圖案的相移公式:那么由四步相移的相位位移可以得到像素的相位值并通過(guò)階次計(jì)算出絕對(duì)相位,進(jìn)而確定深度值。

實(shí)驗(yàn)結(jié)果其他三維重建技術(shù)2.激光掃描儀:利用激光束照射目標(biāo)物表面,通過(guò)測(cè)量激光反射或回波的時(shí)間、相位等信息,計(jì)算目標(biāo)物表面點(diǎn)到掃描儀的距離,從而可以獲取目標(biāo)物表面的三維坐標(biāo)信息,形成點(diǎn)云數(shù)據(jù)。主要工作過(guò)程:1、激光發(fā)射與照射2、激光反射與檢測(cè)3、數(shù)據(jù)處理與點(diǎn)云生成應(yīng)用領(lǐng)域:1、地理測(cè)繪和城市規(guī)劃2、文化遺產(chǎn)保護(hù)3、工業(yè)制造

其他三維重建技術(shù)光度立體重建:依賴于物體表面的光照變化來(lái)推斷其幾何信息及反射性質(zhì),用于從不同照明條件下以相同視點(diǎn)獲得的多幅圖像中重建物體的三維形狀。三個(gè)假設(shè):1.相機(jī)的投影是正交投影,則圖像的像素坐標(biāo)直接與物體表面的三維坐標(biāo)對(duì)應(yīng);2.入射光由遠(yuǎn)處單一點(diǎn)光源發(fā)出,此時(shí)該光源照射到物體表面每一點(diǎn)的入射光方向與強(qiáng)度一致;3.物體表面具有Lambertian反射特性,即對(duì)入射光產(chǎn)生漫反射,且在每個(gè)方向上反射的光強(qiáng)一致。

其他三維重建技術(shù)對(duì)于物體表面任意一點(diǎn),根據(jù)輻射度量學(xué)可得其他三維重建技術(shù)光源方向標(biāo)定其他三維重建技術(shù)法向量與反射率求解深度求解謝謝!計(jì)算機(jī)視覺戰(zhàn)略性新興領(lǐng)域“十四五”高等教育系列教材9、運(yùn)動(dòng)分析運(yùn)動(dòng)分析簡(jiǎn)介時(shí)間差分法(Temporaldifference)背景減除法(Backgroundsubtraction)光流法(Opticalflow)運(yùn)動(dòng)分析簡(jiǎn)介運(yùn)動(dòng)分析是當(dāng)前計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向,廣泛應(yīng)用于:高級(jí)人機(jī)交互智能監(jiān)控視頻會(huì)議醫(yī)療診斷基于內(nèi)容的圖像存儲(chǔ)與檢索目前已經(jīng)開展了大量相關(guān)的研究,當(dāng)前國(guó)際上一些權(quán)威期刊如IJCV、CVIU、PAMI和主流會(huì)議CVPR、ICCV、ECCV、ACCV等均將運(yùn)動(dòng)分析作為其中的主題內(nèi)容。運(yùn)動(dòng)分析簡(jiǎn)介運(yùn)動(dòng)分析主要包括運(yùn)動(dòng)目標(biāo)的檢測(cè)、跟蹤、分類及行為理解幾個(gè)過(guò)程。運(yùn)動(dòng)目標(biāo)檢測(cè)是從序列圖像中將運(yùn)動(dòng)變化區(qū)域從背景圖像中分割提取出來(lái)。在計(jì)算機(jī)視覺、智能視頻監(jiān)控領(lǐng)域,視頻圖像的運(yùn)動(dòng)目標(biāo)檢測(cè)結(jié)果,將對(duì)運(yùn)動(dòng)目標(biāo)分類、跟蹤及行為理解等后續(xù)處理產(chǎn)生重要影響。目標(biāo)檢測(cè)目標(biāo)跟蹤語(yǔ)義描述行為理解目標(biāo)分類攝像機(jī)低層視覺處理中層視覺處理高層視覺處理運(yùn)動(dòng)分析問(wèn)題的分類按不同標(biāo)準(zhǔn)將運(yùn)動(dòng)分析方法分類:(1)攝像機(jī)數(shù)目:?jiǎn)螖z像機(jī)、多攝像機(jī)(2)攝像機(jī)是否運(yùn)動(dòng):攝像機(jī)靜止、攝像機(jī)運(yùn)動(dòng)(3)場(chǎng)景中運(yùn)動(dòng)目標(biāo)數(shù)目:?jiǎn)文繕?biāo)、多目標(biāo)(4)場(chǎng)景中運(yùn)動(dòng)目標(biāo)類型:剛體、非剛體估計(jì)運(yùn)動(dòng)前后相鄰時(shí)刻兩幅圖像上對(duì)應(yīng)點(diǎn)坐標(biāo)之間的差值,即運(yùn)動(dòng)矢量。特征對(duì)應(yīng):運(yùn)動(dòng)物體上的特征與其在二維圖像平面上的投影坐標(biāo)的對(duì)應(yīng)關(guān)系OYXZyxP(X,Y,Z)P’(X,Y,Z)p(x,y)p’(x,y)(Δx,Δy)(ΔX,ΔY,ΔZ)運(yùn)動(dòng)分析的基本問(wèn)題觀察到的二維運(yùn)動(dòng)與真實(shí)的投影二維運(yùn)動(dòng)的不一致性運(yùn)動(dòng)分析的基本問(wèn)題運(yùn)動(dòng)分析方法時(shí)間差分法(Temporaldifference)

通過(guò)比較相鄰幀圖像的差異實(shí)現(xiàn)場(chǎng)景變化檢測(cè),對(duì)動(dòng)態(tài)環(huán)境有較強(qiáng)適應(yīng)性,但檢測(cè)精度不高,難獲得目標(biāo)精確描述。

背景減除法(Backgroundsubtraction)關(guān)鍵是背景建模,性能與監(jiān)控場(chǎng)景復(fù)雜情況和系統(tǒng)要求有關(guān),典型算法有中值、自適應(yīng)模型、高斯模型、多模態(tài)均值等。光流法(Opticalflow)能提取目標(biāo)完整信息(包括運(yùn)動(dòng)信息),計(jì)算復(fù)雜度高,抗噪性能差。9、運(yùn)動(dòng)分析運(yùn)動(dòng)分析簡(jiǎn)介時(shí)間差分法(Temporaldifference)背景減除法(Backgroundsubtraction)光流法(Opticalflow)171時(shí)間差分法差圖象的計(jì)算 通過(guò)逐象素比較可直接求取前后兩幀圖象之 間的差別 差圖象不為零處表明該處的象素發(fā)生了移動(dòng) 算術(shù)運(yùn)算 邏輯運(yùn)算172時(shí)間差分法差圖象的計(jì)算 設(shè)在時(shí)刻ti

和tj

采集到兩幅圖象f(x,y,ti)和f(x,y,tj),則據(jù)此可得到差圖象: 差圖象為1時(shí):

f(x,y,ti)是一個(gè)運(yùn)動(dòng)目標(biāo)的象素灰度閾值時(shí)間差分法優(yōu)點(diǎn):魯棒性好,運(yùn)算量小,易于實(shí)現(xiàn)缺點(diǎn):對(duì)噪聲有一定的敏感性,運(yùn)動(dòng)實(shí)體內(nèi)部也容易產(chǎn)生空洞現(xiàn)象,閾值T缺乏自適應(yīng)性,當(dāng)光照變化時(shí),檢測(cè)算法難以適應(yīng)環(huán)境變化

當(dāng)前幀

當(dāng)前幀的前一幀運(yùn)動(dòng)目標(biāo)174時(shí)間差分法累積差圖象的計(jì)算累積差圖象ADI(accumulativedifferenceimage)175時(shí)間差分法累積差圖象的計(jì)算ADI有三個(gè)功能:(1) ADI中相鄰象素值間的梯度關(guān)系可用來(lái)估計(jì) 目標(biāo)移動(dòng)的速度矢量,這里梯度的方向就是 速度的方向,梯度的大小與速度成正比(2) ADI中象素的個(gè)數(shù)(值)可幫助確定運(yùn)動(dòng)目 標(biāo)的尺寸和移動(dòng)的距離(3) ADI中包含了目標(biāo)運(yùn)動(dòng)的全部歷史資料,有 助于檢測(cè)慢運(yùn)動(dòng)和尺寸較小目標(biāo)的運(yùn)動(dòng)9、運(yùn)動(dòng)分析運(yùn)動(dòng)分析簡(jiǎn)介時(shí)間差分法(Temporaldifference)背景減除法(Backgroundsubtraction)光流法(Opticalflow)背景減除法均值模型O自適應(yīng)背景模型雙背景模型O單高斯混合高斯O紋理模型ViBe算法

OCodeBook算法

背景減除法流程圖輸入圖像預(yù)處理背景建模數(shù)據(jù)驗(yàn)證前景前景分割

均值模型背景平均值在前K幀圖像中,某像素點(diǎn)在超過(guò)一半的時(shí)間里呈現(xiàn)場(chǎng)景背景像素值。自適應(yīng)背景模型前一幀前一背景當(dāng)前背景α×+(1-α)×=α為自適應(yīng)參數(shù),其取值直接影響背景的更新質(zhì)量α是任意選擇的適應(yīng)參數(shù)雙背景模型3×3的鄰里差分-其中:當(dāng)前幀k短期背景(前一幀k-1)BST長(zhǎng)期背景(均值模型)BLT單高斯模型假設(shè)每個(gè)像素的灰度在時(shí)間域上滿足正態(tài)分布:簡(jiǎn)單統(tǒng)計(jì)差分:?jiǎn)胃咚鼓P停夯旌细咚鼓P蜑榱嗣枋龇植夹问礁鼮閺?fù)雜的背景(特別是在有微小重復(fù)運(yùn)動(dòng)的場(chǎng)合,如搖動(dòng)的樹葉、灌木叢、旋轉(zhuǎn)的風(fēng)扇、海面波濤、雨雪天氣、光線反射等),有必要應(yīng)用到多模態(tài)的分布形式。Stauffer等用多個(gè)單高斯函數(shù)來(lái)描述場(chǎng)景背景,并且利用在線估計(jì)來(lái)更新模型,可靠地處理了光照緩慢變化、背景混亂運(yùn)動(dòng)(樹葉晃動(dòng))等影響。基于紋理的背景模型LBP(LocalBinaryPattern)是描述圖像局部空間結(jié)構(gòu)的非參數(shù)紋理算子,在紋理分類中有較高區(qū)分力,對(duì)亮度改變不敏感,計(jì)算量小等優(yōu)點(diǎn)。初始LBP僅通過(guò)像素的8鄰域得到,為描述大尺度的紋理,Ojala等把其定義擴(kuò)展為具有不同半徑的圓形鄰域。LBP算子如下紋理背景模型背景模型由一組自適應(yīng)的LBP直方圖來(lái)描述,。模型的每個(gè)直方圖有個(gè)權(quán)重,且所有權(quán)重和為1。直方圖相似性度量是直方圖,N=ViBe

背景模型利用單幀圖像初始化背景模型,并為每個(gè)像素點(diǎn)設(shè)置背景樣本空間計(jì)算每個(gè)像素點(diǎn)與其鄰域內(nèi)像素點(diǎn)的顏色空間距離,如果這個(gè)距離小于預(yù)設(shè)的閾值,則認(rèn)為該像素點(diǎn)屬于背景,否則為前景采用無(wú)記憶更新策略,即每次確定需要更新像素點(diǎn)的背景模型時(shí),都會(huì)隨機(jī)選擇一個(gè)新的像素值來(lái)替代原樣本集中的一個(gè)樣本CodeBook

背景模型對(duì)于圖像中的每個(gè)像素,算法會(huì)根據(jù)其在一段時(shí)間內(nèi)的顏色值創(chuàng)建一個(gè)或多個(gè)CodeWordsCodeBook定期更新,更新過(guò)程中增加新的CodeWords以適應(yīng)新的背景變化,并刪除不再頻繁出現(xiàn)的CodeWords在當(dāng)前幀中,對(duì)于每個(gè)像素,算法會(huì)檢查它是否與任何現(xiàn)有的CodeWord相匹配。如果找到匹配的CodeWord,則將該像素歸類為背景前景檢測(cè)當(dāng)前像素的直方圖與當(dāng)前的B個(gè)背景直方圖比較,計(jì)算其相似度。如果至少一個(gè)背景直方圖相似度高于閾值,這個(gè)像素為背景。否則為前景。背景減除法的問(wèn)題關(guān)鍵在于背景模型的建立、保持、更新。主要存在三個(gè)問(wèn)題:1)背景模型沒(méi)有充分利用圖像中相鄰像素點(diǎn)之間的相關(guān)性信息。運(yùn)動(dòng)前景中具有的漏檢與虛警區(qū)域,通常用形態(tài)學(xué)濾波和判斷連通區(qū)域大小的方法來(lái)消除孤立的小區(qū)域及合并相鄰的不連通前景區(qū)域。2)背景模型的更新速度不能和運(yùn)動(dòng)目標(biāo)的運(yùn)動(dòng)速度很好地匹配。如果更新速度比監(jiān)控場(chǎng)景的變化速度慢,則容易產(chǎn)生虛影。相反,如果背景模型的更新速度太快,也容易出現(xiàn)運(yùn)動(dòng)目標(biāo)的漏檢。為改善檢測(cè)效果,可使用多個(gè)具有不同更新速度的背景模型,或多攝像機(jī)從不同角度對(duì)同一場(chǎng)景進(jìn)行監(jiān)控,有效利用深度信息。3)復(fù)雜場(chǎng)景中搖動(dòng)的樹葉與運(yùn)動(dòng)陰影也被檢測(cè)為運(yùn)動(dòng)前景。由搖動(dòng)樹葉所產(chǎn)生的運(yùn)動(dòng)前景混亂問(wèn)題。消除陰影對(duì)運(yùn)動(dòng)目標(biāo)檢測(cè)的干擾是非常困難的問(wèn)題,特別是處理灰度序列圖像中的陰影。9、運(yùn)動(dòng)分析運(yùn)動(dòng)分析簡(jiǎn)介時(shí)間差分法(Temporaldifference)背景減除法(Backgroundsubtraction)光流法(Opticalflow)光流法光流法主要通過(guò)對(duì)序列圖像光流場(chǎng)的分析,計(jì)算出運(yùn)動(dòng)場(chǎng)后,對(duì)場(chǎng)景進(jìn)行分割,從而檢測(cè)出運(yùn)動(dòng)目標(biāo)。光流法的核心是求解出運(yùn)動(dòng)目標(biāo)的光流,即速度。傳統(tǒng)光流法的典型代表有Hom&Schunck算法和Lucas&Kanade算法。光流法根據(jù)視覺感知原理,客觀物體在空間上一般是相對(duì)連續(xù)運(yùn)動(dòng),在運(yùn)動(dòng)過(guò)程中,投射到傳感器平面上的圖像實(shí)際上也是連續(xù)變化的,即灰度不變性假設(shè)。根據(jù)這一基本假設(shè),可以得到光流基本方程。設(shè)(x,y)點(diǎn)在時(shí)刻t的灰度為I(x,y,t),設(shè)光流w=(u,v)在該點(diǎn)的水平和垂直移動(dòng)分量u(x,y)和v(x,y):經(jīng)過(guò)dt后對(duì)應(yīng)點(diǎn)為I(x+dx,y+dy,t+dt),當(dāng),灰度I保持不變,得到I(x,y,t)=I(x+dx,y+dy,t+dt)。此式由Taylor展開,忽略二階無(wú)窮小,整理得到基本的光流約束方程:

表示灰度對(duì)時(shí)間的變化率等于灰度的空間梯度與光流速度的點(diǎn)積。從上式引入不同約束條件,產(chǎn)生不同的光流分析方法,例如Hom&schiinck(簡(jiǎn)稱HS)算法與Lucas&Kanade(簡(jiǎn)稱LK)算法。Horn&Schunck算法Horn與Schunck于1981年引入了全局平滑性約束,假設(shè)光流在整個(gè)圖像上光滑變化,即速度的變化率為零。從而光流w=(u,v)應(yīng)滿足:取值主要考慮圖中的噪聲情況。如果噪聲較強(qiáng),說(shuō)明數(shù)據(jù)置信度較低,需要更多地依賴光流約束,其取值較大;反之其取值較小。Horn,BertholdK.P.;Schunck,BrianG.DeterminingOpticalFlow[J].1981.

Lucas&Kanade算法(1)Lucas&Kanade于1981年引入了局部平滑性約束,即假設(shè)在一個(gè)小空間領(lǐng)域上運(yùn)動(dòng)矢量保持恒定,使用加權(quán)最小二乘法估計(jì)光流。在一個(gè)小的空間領(lǐng)域上,光流估計(jì)誤差定義為:W表示窗口權(quán)重函數(shù),使鄰域中心區(qū)域?qū)s束產(chǎn)生的影響比外圍區(qū)域更大。上式最小化問(wèn)題可通過(guò)最小二乘方法求解:

Lucas&Kanade算法(2)其中

光流法基于微分的光流法,實(shí)現(xiàn)比較簡(jiǎn)單,計(jì)算復(fù)雜度低,缺點(diǎn)是在圖像相鄰之間偏移量大的時(shí)候誤差較大,而且該方法要求圖像灰度必須是可微的?;谄ヅ涞墓饬鞣ㄍㄟ^(guò)特征匹配來(lái)確定偏移量,可以解決相鄰幀差異較大的問(wèn)題;但是特征匹配比較困難,運(yùn)算量比較大,且塊匹配法對(duì)噪聲敏感。目前,國(guó)內(nèi)外學(xué)者都在尋求改進(jìn)光流法的方法,主要分為兩種,一是光流法自身的改進(jìn);二是光流法與其他方法相結(jié)合,如即金字塔光流法、區(qū)域光流法和特征光流法。謝謝!計(jì)算機(jī)視覺戰(zhàn)略性新興領(lǐng)域“十四五”高等教育系列教材10、視覺應(yīng)用分類檢測(cè)跟蹤視覺分類簡(jiǎn)介這里的視覺分類任務(wù)主要是指視覺/圖像的模式識(shí)別問(wèn)題,即將輸入圖像分為不同的預(yù)定義的類別。字符識(shí)別人臉識(shí)別表情識(shí)別行為識(shí)別手語(yǔ)識(shí)別情感識(shí)別車輛識(shí)別交通標(biāo)志識(shí)別。。。。。。視覺分類簡(jiǎn)介傳統(tǒng)方法人工特征提取+分類器深度學(xué)習(xí)方法提供圖像和標(biāo)簽、通過(guò)網(wǎng)絡(luò)

自己去學(xué)習(xí)特征評(píng)價(jià)指標(biāo):正確率(accuracy)

分對(duì)的樣本數(shù)/全部樣本數(shù)錯(cuò)誤率(errorrate)

1–正確率Top1指標(biāo):

分類器第一個(gè)預(yù)測(cè)結(jié)果正確率。Top5指標(biāo):

分類器前5個(gè)預(yù)測(cè)結(jié)果中有一個(gè)是正確的,那就算預(yù)測(cè)正確。視覺分類簡(jiǎn)介視覺分類任務(wù)發(fā)展歷史視覺分類簡(jiǎn)介ImageNet視覺分類挑戰(zhàn)賽ResNet簡(jiǎn)介ResNet是由微軟實(shí)驗(yàn)室在2015年提出,并在當(dāng)年ImageNet競(jìng)賽中斬獲分類任務(wù)與目標(biāo)檢測(cè)任務(wù)第一名,同時(shí)也獲得COCO數(shù)據(jù)集的目標(biāo)檢測(cè)與圖像分割第一名。ResNet針對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)隨著層數(shù)增加產(chǎn)生梯度消失、爆炸現(xiàn)象,以及退化(degradation)問(wèn)題,采用殘差結(jié)構(gòu)顯式地讓網(wǎng)絡(luò)層去擬合殘差映射,而不是直接將幾個(gè)堆疊層直接擬合所需的映射。ResNet簡(jiǎn)介

ResNet簡(jiǎn)介ResNet網(wǎng)絡(luò)中的亮點(diǎn)主要有三部分:超深的網(wǎng)絡(luò)結(jié)構(gòu)(突破1000層)、residual模塊(主分支和捷徑分支的輸出特征矩陣大小相同)、使用BatchNormalization加速訓(xùn)練以代替Dropout。根據(jù)layer的不同,ResNet模型分為5個(gè)版本:ResNet18/34(淺層);ResNet50/101/152(深層)。下圖展示了ResNet各個(gè)版本的結(jié)構(gòu)參數(shù)。ResNet簡(jiǎn)介對(duì)于淺層模型ResNet18和ResNet34:conv2_x第一層為實(shí)線殘差結(jié)構(gòu),因?yàn)橥ㄟ^(guò)最大池化下采樣后得到的輸出是[56,56,64],剛好是實(shí)線殘差結(jié)構(gòu)所需要的輸入shape;conv3_x第一層為虛線殘差結(jié)構(gòu),輸入特征矩陣shape是[56,56,64],輸出特征矩陣shape是[28,28,128]。對(duì)于深層模型ResNet50/101/152:conv2_x第一層為虛線殘差結(jié)構(gòu),因?yàn)橥ㄟ^(guò)最大池化下采樣后得到的輸出是[56,56,64],而實(shí)線殘差結(jié)構(gòu)所需要的輸入shape是[56,56,256]conv3_x第一層為虛線殘差結(jié)構(gòu),輸入特征矩陣shape是[56,56,256],輸出特征矩陣shape是[28,28,512]。Vision-Transformer簡(jiǎn)介Transformer模型最開始是用于自然語(yǔ)言處理(NLP)領(lǐng)域的,NLP主要處理的是文本、句子、段落等,即序列數(shù)據(jù)。為了將Transformer模型應(yīng)用到圖像數(shù)據(jù),我們需要把圖像數(shù)據(jù)轉(zhuǎn)換成序列數(shù)據(jù)。VIT處理圖像分類流程:1.圖片切分為

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論