人工智能概論課件錢玲第6、7章計(jì)算機(jī)視覺、自然語言處理

上傳人：y*** IP屬地：山東上傳時(shí)間：2024-10-25 格式：PPTX 頁數(shù)：174 大?。?2.57MB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩169頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

高職高專人工智能通識(shí)課規(guī)劃教材人工智能概論本章學(xué)習(xí)目標(biāo)第6章計(jì)算機(jī)視覺【素養(yǎng)目標(biāo)】通過計(jì)算機(jī)視覺相關(guān)知識(shí)的學(xué)習(xí)，培養(yǎng)學(xué)生科學(xué)精神，激發(fā)學(xué)生科技報(bào)國(guó)情懷；通過學(xué)習(xí)人工智能領(lǐng)域科技成果案例，加強(qiáng)愛國(guó)主義教育，增強(qiáng)民族自信心、自豪感；通過學(xué)習(xí)計(jì)算機(jī)視覺應(yīng)用，培養(yǎng)學(xué)生追求真理，勇攀科學(xué)高峰的責(zé)任感和使命感。本章學(xué)習(xí)目標(biāo)第6章計(jì)算機(jī)視覺【知識(shí)目標(biāo)】掌握計(jì)算機(jī)視覺、圖像處理、人臉識(shí)別的概念；理解圖像的基本原理、人臉識(shí)別應(yīng)用的技術(shù)原理；了解計(jì)算機(jī)視覺系統(tǒng)、人臉識(shí)別的一般步驟；掌握人臉檢測(cè)、人臉配準(zhǔn)、人臉屬性識(shí)別、人臉特征提取、人臉比對(duì)、人臉驗(yàn)證、人臉識(shí)別、人臉檢索、人臉聚類、人臉活體檢測(cè)等人臉識(shí)別基本技術(shù)；了解人臉識(shí)別的應(yīng)用。本章學(xué)習(xí)目標(biāo)第6章計(jì)算機(jī)視覺【能力目標(biāo)】能夠針對(duì)計(jì)算機(jī)視覺具體應(yīng)用功能，闡述其實(shí)現(xiàn)原理；能夠針對(duì)工作生活場(chǎng)景中的具體需求，提出計(jì)算機(jī)視覺技術(shù)解決思路；會(huì)使用圖像處理技術(shù)、人臉識(shí)別技術(shù)。本章學(xué)習(xí)目標(biāo)第6章計(jì)算機(jī)視覺【思維導(dǎo)圖】第六章計(jì)算機(jī)視覺6.1計(jì)算機(jī)視覺概述6.2圖像處理與視覺系統(tǒng)6.3人臉識(shí)別高職高專人工智能通識(shí)課規(guī)劃教材6.4本章實(shí)訓(xùn)6.5拓展知識(shí)6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺計(jì)算機(jī)視覺是研究如何讓機(jī)器“看”的科學(xué)，是人工智能的主要應(yīng)用領(lǐng)域之一。人們或許沒有意識(shí)到自己的視覺系統(tǒng)是如此的強(qiáng)大。嬰兒在出生幾個(gè)小時(shí)后就能識(shí)別出母親的容貌；在大霧的天氣，學(xué)生看見來人朦朧的身體形態(tài)，就能辨別出來人是否為自己的班主任；游客可以根據(jù)網(wǎng)上攻略的圖片，就可以找到旅游目的地；乒乓球運(yùn)動(dòng)員根據(jù)對(duì)手細(xì)微的動(dòng)作，就可以判別對(duì)手發(fā)球的方向。有實(shí)驗(yàn)證實(shí)，人們接受的信息80％以上來自于視覺。倘若要讓機(jī)器像人一樣有視覺系統(tǒng)，就首先需要機(jī)器“看懂”圖像。6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺6.1.1什么是計(jì)算機(jī)視覺為了讓機(jī)器像人一樣“看懂”圖像，首先需要研究人類視覺系統(tǒng)。人類視覺系統(tǒng)包含眼球（接收光信號(hào)）、視網(wǎng)膜（光信號(hào)轉(zhuǎn)換為電信號(hào)，并傳輸?shù)酱竽X）、大腦皮層（提取電信號(hào)中的有效特征，并引導(dǎo)人做出反應(yīng)）。為了讓機(jī)器模擬人類視覺系統(tǒng)，研究者用攝像頭模擬眼球以獲得圖像信息；用數(shù)字圖像處理模擬視網(wǎng)膜，并將模擬圖像變成數(shù)字圖像，以便讓計(jì)算機(jī)能識(shí)別；用計(jì)算機(jī)視覺模擬大腦皮層，并設(shè)計(jì)算法提取圖像特征，以進(jìn)行識(shí)別檢測(cè)等任務(wù)。機(jī)器模擬人類視覺系統(tǒng)便是機(jī)器視覺，也稱計(jì)算機(jī)視覺（ComputerVision，CV），是在解決機(jī)器如何“看”的問題。6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺6.1.1什么是計(jì)算機(jī)視覺計(jì)算機(jī)視覺是一門研究如何使機(jī)器“看”的科學(xué)，更直觀地說，就是指用攝影機(jī)和計(jì)算機(jī)代替人眼，對(duì)目標(biāo)進(jìn)行識(shí)別、跟蹤和測(cè)量等機(jī)器視覺，并進(jìn)一步做圖形處理，再用計(jì)算機(jī)將其處理成為更適合人眼觀察或傳送給儀器檢測(cè)的圖像。作為一個(gè)科學(xué)學(xué)科，計(jì)算機(jī)視覺研究相關(guān)的理論和技術(shù)，試圖建立一個(gè)能夠從圖像或者多維數(shù)據(jù)中獲取“信息”的人工智能系統(tǒng)。計(jì)算機(jī)視覺是從圖像或視頻中提取出符號(hào)或數(shù)值信息，分析計(jì)算該信息以進(jìn)行目標(biāo)的識(shí)別、檢測(cè)和跟蹤等。更形象地說，計(jì)算機(jī)視覺就是讓計(jì)算機(jī)像人類一樣能看到并理解圖像。6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺6.1.1什么是計(jì)算機(jī)視覺計(jì)算機(jī)視覺是一個(gè)跨學(xué)科的領(lǐng)域，涉及的部分學(xué)科如圖所示。計(jì)算機(jī)視覺應(yīng)用非常廣泛，有圖像分類、目標(biāo)檢測(cè)、圖像分割、人臉檢測(cè)與識(shí)別、光學(xué)字符識(shí)別（OCR）等。6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺6.1.2計(jì)算機(jī)視覺的發(fā)展歷程1966年，人工智能學(xué)家馬文·明斯基（MarvinMinsky）在給學(xué)生布置的作業(yè)中，要求學(xué)生通過編寫一個(gè)程序，讓計(jì)算機(jī)告訴人們它通過攝像頭看到了什么，這也被認(rèn)為是計(jì)算機(jī)視覺最早的任務(wù)描述。20世紀(jì)七八十年代，隨著現(xiàn)代電子計(jì)算機(jī)的發(fā)展，計(jì)算機(jī)視覺技術(shù)也開始逐步發(fā)展。人們開始嘗試讓計(jì)算機(jī)回答出它看到了什么事物，于是首先想到的是從人類看事物的方法中獲得借鑒。借鑒之一是當(dāng)時(shí)人們普遍認(rèn)為，人類能看到并理解事物，是因?yàn)槿祟愅ㄟ^兩只眼睛可以立體地觀察事物。因此要想讓計(jì)算機(jī)理解它所看到的圖像，就必須首先將事物從二維的圖像中恢復(fù)出三維模型，這就是所謂的“三維重構(gòu)”的方法。借鑒之二是人們認(rèn)為人之所以能識(shí)別出一個(gè)蘋果，是因?yàn)槿藗円呀?jīng)知道了蘋果的先驗(yàn)知識(shí)，比如蘋果是紅色的、圓的、表面光滑的，如果給機(jī)器也建立一個(gè)這樣的知識(shí)庫，讓機(jī)器將看到的圖像與數(shù)據(jù)庫里的儲(chǔ)備知識(shí)進(jìn)行匹配，就可以讓機(jī)器識(shí)別乃至理解它所看到的事物，這是所謂的“先驗(yàn)知識(shí)庫”的方法。這一階段的應(yīng)用主要是一些光學(xué)字符識(shí)別、工件識(shí)別、顯微/航空?qǐng)D片的識(shí)別等。6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺6.1.2計(jì)算機(jī)視覺的發(fā)展歷程20世紀(jì)九十年代，計(jì)算機(jī)視覺技術(shù)取得了更大的發(fā)展，并開始廣泛應(yīng)用于工業(yè)領(lǐng)域。一方面原因是CPU、DSP等圖像處理硬件技術(shù)有了飛速進(jìn)步；另一方面是人們也開始嘗試不同的算法，包括統(tǒng)計(jì)方法和局部特征描述符的引入。進(jìn)入21世紀(jì)，得益于互聯(lián)網(wǎng)興起和數(shù)碼相機(jī)出現(xiàn)帶來的海量數(shù)據(jù)，加之機(jī)器學(xué)習(xí)方法的廣泛應(yīng)用，計(jì)算機(jī)視覺迅速發(fā)展。以往許多基于規(guī)則的處理方式，都被機(jī)器學(xué)習(xí)所替代，計(jì)算機(jī)能夠自動(dòng)從海量數(shù)據(jù)中總結(jié)歸納物體的特征，然后進(jìn)行識(shí)別和判斷。這一階段涌現(xiàn)出了非常多的應(yīng)用，包括典型的相機(jī)人臉檢測(cè)、安防人臉識(shí)別、車牌識(shí)別等等。6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺6.1.2計(jì)算機(jī)視覺的發(fā)展歷程2010年以后，借助深度學(xué)習(xí)技術(shù)，計(jì)算機(jī)視覺技術(shù)得到了爆發(fā)式增長(zhǎng)和深度的產(chǎn)業(yè)化。通過深度神經(jīng)網(wǎng)絡(luò)，各類視覺相關(guān)任務(wù)的識(shí)別精度都得到了大幅提升。在全球權(quán)威的計(jì)算機(jī)視覺競(jìng)賽ILSVR上，比賽冠軍的模型錯(cuò)誤率在2010年和2011年分別為28.20％和25.80％，從2012年引入深度學(xué)習(xí)技術(shù)之后，后續(xù)6年分別為16.40％、11.70％、6.70％、3.57％、2.88％、2.25％，出現(xiàn)了顯著突破，識(shí)別錯(cuò)誤率已經(jīng)超過了人眼（5.10％）。6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺6.1.3計(jì)算機(jī)視覺的主要任務(wù)計(jì)算機(jī)視覺的主要任務(wù)有圖像分類、目標(biāo)檢測(cè)、圖像分割、目標(biāo)定位與跟蹤等。（1）圖像分類。將圖像劃分為不同的類別，如狗、貓、花等類別。這是計(jì)算機(jī)視覺最基本的任務(wù)。（2）目標(biāo)檢測(cè)。在圖像中檢測(cè)不同的物體實(shí)例，并給出其邊界框（位置和大小）和類別標(biāo)簽。這是計(jì)算機(jī)視覺領(lǐng)域最主要的研究方向之一。分類任務(wù)關(guān)心整體，給出的是整張圖片的內(nèi)容描述，而檢測(cè)則關(guān)注特定的物體目標(biāo)，要求同時(shí)獲得這一目標(biāo)的類別信息和位置信息。（3）圖像分割。將圖像分割成不同的區(qū)域，并對(duì)每個(gè)像素賦予相應(yīng)的類別標(biāo)簽，實(shí)現(xiàn)像素級(jí)的分類。這也是計(jì)算機(jī)視覺領(lǐng)域的重要研究?jī)?nèi)容。（4）目標(biāo)定位與跟蹤。在視頻序列中定位與追蹤特定目標(biāo)的運(yùn)動(dòng)軌跡。這一任務(wù)需要綜合應(yīng)用圖像分類、目標(biāo)檢測(cè)和圖像分割等技術(shù)。6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺6.1.4計(jì)算機(jī)視覺的主要應(yīng)用計(jì)算機(jī)視覺技術(shù)已經(jīng)在許多領(lǐng)域得到廣泛應(yīng)用，包括自動(dòng)駕駛、醫(yī)學(xué)影像、安防監(jiān)控、機(jī)器人視覺、無人機(jī)視覺等。（1）自動(dòng)駕駛。將計(jì)算機(jī)視覺用于檢測(cè)車道線、交通信號(hào)、車輛和行人等方面，理解場(chǎng)景并做出響應(yīng)，實(shí)現(xiàn)自動(dòng)駕駛。該應(yīng)用需要目標(biāo)檢測(cè)、目標(biāo)定位與跟蹤、圖像分類和圖像分割等技術(shù)，是計(jì)算機(jī)視覺應(yīng)用的前沿與難點(diǎn)。（2）醫(yī)學(xué)影像。將計(jì)算機(jī)視覺技術(shù)應(yīng)用于檢測(cè)和診斷疾病等方面，分析CT、MRI等醫(yī)學(xué)掃描圖像，實(shí)現(xiàn)計(jì)算機(jī)輔助診斷等工作。該應(yīng)用需要識(shí)別人體解剖結(jié)構(gòu)、器官和病灶，對(duì)醫(yī)療資源與治療方案的分配具有重要作用。（3）安防監(jiān)控。將計(jì)算機(jī)視覺技術(shù)應(yīng)用于檢測(cè)特定目標(biāo)如人臉、車牌等方面，追蹤并分析可疑目標(biāo)，實(shí)現(xiàn)視頻監(jiān)控與警戒等工作。該應(yīng)用需要在復(fù)雜場(chǎng)景下準(zhǔn)確檢測(cè)各類目標(biāo)，并理解其活動(dòng)規(guī)律，是智能安防的關(guān)鍵技術(shù)。

6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺6.1.3計(jì)算機(jī)視覺的主要應(yīng)用（4）機(jī)器人視覺。將計(jì)算機(jī)視覺技術(shù)應(yīng)用于捕捉三維場(chǎng)景、建立環(huán)境地圖、檢測(cè)和識(shí)別各類對(duì)象，為機(jī)器人的自主導(dǎo)航與操作提供視覺信息。該應(yīng)用需要從圖像序列中重建三維空間，在動(dòng)態(tài)場(chǎng)景下定位自身與目標(biāo)物體，是機(jī)器人技術(shù)的重要組成部分。（5）無人機(jī)視覺。將計(jì)算機(jī)視覺技術(shù)應(yīng)用于探索環(huán)境、規(guī)劃航線、避障和目標(biāo)跟蹤，實(shí)現(xiàn)無人機(jī)的自動(dòng)駕駛與遙控。該應(yīng)用需要分析空中圖像，快速判斷周圍障礙與航線，準(zhǔn)確鎖定目標(biāo)和計(jì)算自身的位置和姿態(tài)，對(duì)無人機(jī)操作具有關(guān)鍵作用。計(jì)算機(jī)視覺還應(yīng)用于手寫體識(shí)別、產(chǎn)品質(zhì)量檢測(cè)、農(nóng)業(yè)監(jiān)測(cè)、車牌識(shí)別等其他領(lǐng)域。它的應(yīng)用十分廣泛，隨著技術(shù)的發(fā)展其應(yīng)用范圍也在不斷擴(kuò)展，計(jì)算機(jī)視覺已成為一種通用技能，對(duì)各行各業(yè)都具有重要影響。

第六章計(jì)算機(jī)視覺6.1計(jì)算機(jī)視覺概述6.2圖像處理與視覺系統(tǒng)6.3人臉識(shí)別高職高專人工智能通識(shí)課規(guī)劃教材6.4本章實(shí)訓(xùn)6.5拓展知識(shí)6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.1圖像的基本原理如果將一幅圖像放大，就可以看到它是由一個(gè)個(gè)的小格子組成的（灰度圖），如下圖所示，每個(gè)小格子都是一個(gè)色塊，這些小格子被稱為像素。像素是組成圖像的基本單元，圖片是包含很多個(gè)像素的集合。像素是圖片中某個(gè)點(diǎn)的顏色，很多個(gè)像素點(diǎn)排列起來，就可以組成一個(gè)二維平面點(diǎn)陣，這就是圖像。比如計(jì)算機(jī)桌面背景的分辨率是1920×1080像素，那么就意味著像素點(diǎn)有1920列、1080行，共1920×1080（=2073600）個(gè)像素。色彩空間的表達(dá)通涉及RGB圖像、灰度等概念。

6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.1圖像的基本原理在計(jì)算機(jī)中，灰度圖中的像素通常用0～255之間的一個(gè)整數(shù)數(shù)字表示，0表示黑色，255表示白色，數(shù)字從0變到255表示顏色由黑變白的一個(gè)過程。顏色越黑則數(shù)字越接近0，顏色越白則數(shù)字越接近255，如下圖所示?？梢詫?duì)灰度值進(jìn)行歸一化處理，將分布于[0,255]區(qū)間的原始像素值歸一化至[0,1]，也就是將0對(duì)應(yīng)為0，將255對(duì)應(yīng)為1，中間的數(shù)值按比例對(duì)應(yīng)至0～1之間。輸入特征的標(biāo)準(zhǔn)化有利于提升分類算法的學(xué)習(xí)效率和性能。

6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.1圖像的基本原理在RGB彩色空間中，紅（Red）、綠（Green）、藍(lán)（Blue）為三原色，其他的顏色都可以由這三種顏色按照不同的比例混合后生成。同樣地，單色的可見光也可以被分解為這三種顏色的組合，這就是三原色原理，如圖所示。可以使用三個(gè)整數(shù)數(shù)字來代表RGB彩色空間中的一個(gè)像素，如(0,100,200)，分別代表紅色部分的顏色值為0，綠色部分為100，藍(lán)色部分為200。RGB分別代表英文單詞Red、Green和Blue，其對(duì)應(yīng)的取值范圍都是0～255，數(shù)值越大表示顏色越純。所以，RGB像素不同的組合總數(shù)為：256×256×256=16777216種顏色，其中(0,0,0)表示黑色，(255,255,255)表示白色。

6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.1圖像的基本原理RGB圖像又稱為三通道彩色圖，分別對(duì)應(yīng)紅色、綠色和藍(lán)色通道，每個(gè)通道像素點(diǎn)的數(shù)值為0～255，表示每一種顏色的強(qiáng)度，如圖所示。灰度圖也可以叫作單通道圖。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)計(jì)算機(jī)視覺的圖像處理技術(shù)主要有圖像分類、目標(biāo)檢測(cè)、圖像分割、目標(biāo)定位與目標(biāo)跟蹤等。1.圖像分類圖像分類是計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)任務(wù)，也是應(yīng)用比較廣泛的任務(wù)。圖像分類用來解決“是什么”的問題，如針對(duì)給定的圖片，用標(biāo)簽描述圖片的主要內(nèi)容。圖像分類指的是根據(jù)各自在圖像信息中所反映的不同特征，把不同類別的目標(biāo)區(qū)分開來的圖像處理方法。圖像分類是計(jì)算機(jī)視覺中的基礎(chǔ)任務(wù)，也是圖像檢測(cè)、語義分割、實(shí)例分割、圖像搜索等高級(jí)技術(shù)的基礎(chǔ)。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)圖像分類包含了通用圖像分類和細(xì)粒度圖像分類。通用圖像分類主要解決識(shí)別圖像上主體類別的問題，如識(shí)別圖像中是貓還是狗，如圖所示；細(xì)粒度圖像分類則解決如何將大類進(jìn)行細(xì)分類的問題，如在狗這一類別下，識(shí)別其品種（如吉娃娃、泰迪、松獅、哈士奇等）。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)圖像分類的效果容易受視角、光照、背景、形變、部分遮擋等的影響，所以在現(xiàn)實(shí)工程中的實(shí)現(xiàn)難度仍然不小。深度學(xué)習(xí)在圖像分類中的應(yīng)用以卷積神經(jīng)網(wǎng)絡(luò)為代表，主要通過監(jiān)督的方法讓計(jì)算機(jī)學(xué)習(xí)如何表達(dá)圖片的特征。目前，計(jì)算機(jī)視覺領(lǐng)域大多數(shù)優(yōu)秀的深度學(xué)習(xí)算法都需要大量的訓(xùn)練數(shù)據(jù)集，其中最為出名的便是ImageNet。但在實(shí)際工程中，通常只擁有少量的數(shù)據(jù)樣本。此時(shí)，如果從頭訓(xùn)練（隨機(jī)初始化神經(jīng)網(wǎng)絡(luò)參數(shù)），過擬合將是大概率事件。圖像分類在許多領(lǐng)域都有著廣泛的應(yīng)用。例如，安防領(lǐng)域的人臉識(shí)別和智能視頻分析、交通領(lǐng)域的交通場(chǎng)景識(shí)別、互聯(lián)網(wǎng)領(lǐng)域的基于內(nèi)容的圖像檢索和相冊(cè)自動(dòng)歸類、醫(yī)學(xué)領(lǐng)域的醫(yī)學(xué)影像識(shí)別等。圖像分類問題面臨很多挑戰(zhàn)，如視點(diǎn)變化、尺寸變化、類內(nèi)變化、圖像變形、圖像遮擋、照明條件和背景干擾等。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)2.目標(biāo)檢測(cè)目標(biāo)檢測(cè)是最常見的計(jì)算機(jī)視覺的圖像處理技術(shù)之一。目標(biāo)檢測(cè)用來解決“在哪里”的問題，如輸入一張圖片，輸出待檢測(cè)目標(biāo)的類別和所在位置的坐標(biāo)（矩形框的坐標(biāo)值表示）。目標(biāo)檢測(cè)采用算法判斷圖片中是否包含特定目標(biāo)，并且在圖片中標(biāo)記該目標(biāo)的位置，通常用邊框或紅色方框把目標(biāo)圈起來。例如，查找圖片中是否有貓，如果找到了，就把它框起來，如圖所示。目標(biāo)檢測(cè)和圖像分類的區(qū)別是，目標(biāo)檢測(cè)側(cè)重于目標(biāo)的搜索，而且檢測(cè)的目標(biāo)必須要有固定的形狀和輪廓；圖像分類的目標(biāo)可以是任意對(duì)象，既可能是物體，也可能是一些屬性或者場(chǎng)景。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)2.目標(biāo)檢測(cè)計(jì)算機(jī)能夠“看到”的是圖像被編碼之后的數(shù)字矩陣，很難理解圖像或視頻中出現(xiàn)了人或物體這樣的高層語義的概念，也就更加難以定位目標(biāo)出現(xiàn)在圖像中哪個(gè)區(qū)域了。與此同時(shí)，由于目標(biāo)會(huì)出現(xiàn)在圖像或視頻中的任意位置，并且目標(biāo)的形態(tài)千變?nèi)f化，且圖像或視頻的背景千差萬別，諸多因素都使得目標(biāo)檢測(cè)對(duì)計(jì)算機(jī)來說是一個(gè)具有挑戰(zhàn)性的技術(shù)。目標(biāo)檢測(cè)是一項(xiàng)十分重要的計(jì)算機(jī)視覺的圖像處理技術(shù)，很多應(yīng)用，如目標(biāo)定位與跟蹤、圖像分割等，都要基于目標(biāo)檢測(cè)，找不到目標(biāo)就談不上后續(xù)的處理。由此可見，目標(biāo)檢測(cè)是大多數(shù)計(jì)算機(jī)視覺系統(tǒng)的關(guān)鍵組成部分。目標(biāo)檢測(cè)是一個(gè)困難的技術(shù)，影響其檢測(cè)成功與否的因素太多，近二十年來，根據(jù)其發(fā)展歷程，目標(biāo)檢測(cè)技術(shù)大致劃分為兩種技術(shù)，2014年之前的傳統(tǒng)目標(biāo)檢測(cè)技術(shù)和2014年之后的基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)（1）傳統(tǒng)目標(biāo)檢測(cè)技術(shù)不同于分類任務(wù)，目標(biāo)檢測(cè)要用方框?qū)ψR(shí)別的物體進(jìn)行標(biāo)記并判斷其類別，方框中的圖像要盡可能完整地包含待識(shí)別的物體。目標(biāo)檢測(cè)在進(jìn)行分類和定位時(shí)幾乎是同時(shí)完成的。傳統(tǒng)目標(biāo)檢測(cè)技術(shù)是基于傳統(tǒng)圖像處理和機(jī)器學(xué)習(xí)算法的目標(biāo)檢測(cè)技術(shù)，也稱為滑動(dòng)窗口目標(biāo)檢測(cè)技術(shù)，如圖所示，該技術(shù)分為3個(gè)步驟：①使用不同大小的滑動(dòng)窗口框住待測(cè)圖像中的某一部分作為候選區(qū)域，完成定位；②提取該候選區(qū)域相關(guān)的視覺特征，如人臉檢測(cè)常用的HOG特征、Harr特征等；③使用訓(xùn)練完成的分類器進(jìn)行分類。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)（1）傳統(tǒng)目標(biāo)檢測(cè)技術(shù)每次滑動(dòng)窗口時(shí)，該技術(shù)會(huì)對(duì)當(dāng)前窗口執(zhí)行事先訓(xùn)練好的分類算法，如果當(dāng)前窗口得到較高的分類概率，則認(rèn)為檢測(cè)到了物體。在對(duì)不同大小的方框都進(jìn)行檢測(cè)后，會(huì)得到不同窗口檢測(cè)到的物體標(biāo)記，檢測(cè)到物體的窗口被稱為候選框。由于這些窗口存在重復(fù)的部分，因此需要通過計(jì)算兩個(gè)窗口的交并比（IntersectionoverUnion，IoU），采用非極大值抑制的方法進(jìn)行篩選，最終獲得檢測(cè)到的物體。交并比用來描述兩個(gè)方框的重合程度，交并比計(jì)算公式為：IoU＝(A∩B)/(A∪B)，即兩個(gè)候選框覆蓋區(qū)域的交集與并集的面積比。交并比越大，說明兩個(gè)候選框重合度越高。交并比可以用來評(píng)估檢測(cè)結(jié)果和真實(shí)結(jié)果的差距，也可以用來衡量?jī)蓚€(gè)候選框之間的關(guān)系。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)（1）傳統(tǒng)目標(biāo)檢測(cè)技術(shù)非極大值抑制就是根據(jù)分類算法對(duì)候選框中預(yù)測(cè)到對(duì)象的概率排序，首先用最大概率候選框與其他候選框計(jì)算交并比，丟棄低于閾值的候選框。然后從沒有被丟棄的候選框中再找出最大概率候選框。重復(fù)上述操作，直到找到所有被保留下來的候選框。在傳統(tǒng)目標(biāo)檢測(cè)方法中，雖然許多學(xué)者提出了很多新的改進(jìn)方法，但是傳統(tǒng)目標(biāo)檢測(cè)技術(shù)始終有兩個(gè)重要的缺陷：①使用滑動(dòng)窗口策略進(jìn)行區(qū)域選擇時(shí)針對(duì)性不強(qiáng)，效率較低；②手動(dòng)設(shè)計(jì)的特征對(duì)于目標(biāo)的多樣性并沒有很好的健壯性。深度學(xué)習(xí)的崛起使目標(biāo)檢測(cè)精度不斷提升，因此基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)得到了廣大研究者的關(guān)注，成為機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)之一。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)（2）基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)可表述為圖像的特征提取與目標(biāo)識(shí)別和定位，其用到的主要深度學(xué)習(xí)模型是卷積神經(jīng)網(wǎng)絡(luò)。2012年，辛頓（Hinton）教授的團(tuán)隊(duì)利用卷積神經(jīng)網(wǎng)絡(luò)（CNN）設(shè)計(jì)了AlexNet，使之在ImageNet問題上打敗了所有傳統(tǒng)目標(biāo)檢測(cè)技術(shù)的團(tuán)隊(duì)，CNN因此成為計(jì)算機(jī)視覺領(lǐng)域最為重要的工具之一，并推動(dòng)機(jī)器視覺研究進(jìn)入了一個(gè)新的階段，隨后，基于CNN的目標(biāo)檢測(cè)技術(shù)也逐漸取代了傳統(tǒng)目標(biāo)檢測(cè)技術(shù)。目前，可以將現(xiàn)有的基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)大致分為兩類：一類為基于候選區(qū)域的目標(biāo)檢測(cè)技術(shù)，具有代表性的是R-CNN、SPP-NET、FastR-CNN、FasterR-CNN和MaskR-CNN等；另一類為基于回歸預(yù)測(cè)的目標(biāo)檢測(cè)技術(shù)，具有代表性的是SSD、YOLO、YOLOv2、YOLOv3等。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)①R-CNN。R-CNN(Region-CNN，區(qū)域卷積神經(jīng)網(wǎng)絡(luò))，作為將深度學(xué)習(xí)引入目標(biāo)檢測(cè)技術(shù)的開山之作，在目標(biāo)檢測(cè)技術(shù)發(fā)展歷史上具有重大意義。R-CNN借鑒滑動(dòng)窗口思想，采用對(duì)區(qū)域進(jìn)行識(shí)別的方案。針對(duì)輸入的圖像，R-CNN借助圖像的邊緣、紋理、色彩、顏色變化等信息，采用選擇性搜索算法（SelectiveSearch），生成約2000個(gè)可能包含物體的候選區(qū)域。每個(gè)候選區(qū)域都被調(diào)整成固定大小，并被送入一個(gè)預(yù)先訓(xùn)練過的CNN模型中，以用于提取特征（CNN模型中的參數(shù)會(huì)在訓(xùn)練過程中進(jìn)行微調(diào)）。將提取到的特征送入一個(gè)分類器中，預(yù)測(cè)候選區(qū)域中所含物體屬于每個(gè)類別的概率。得到所有分類成功的區(qū)域后，通過非極大值抑制輸出結(jié)果。由于候選區(qū)域?qū)δ繕?biāo)檢測(cè)技術(shù)的成敗起著關(guān)鍵作用，所以該技術(shù)就以Region首字母R加CNN進(jìn)行命名。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)②YOLO。YOLO是YouOnlyLookOnce的縮寫，表示“你只看一次”，是指看一眼圖像就能知道有哪些對(duì)象及它們的位置。YOLO將生成候選區(qū)域和識(shí)別這兩個(gè)階段合二為一，訓(xùn)練出一個(gè)看起來類似普通CNN的神經(jīng)網(wǎng)絡(luò)，因此能夠直接得到包含邊界框（即物體所在位置的標(biāo)記）和類別預(yù)測(cè)的輸出。YOLO也并沒有完全去掉候選區(qū)，而是將輸入圖像劃分為若干個(gè)網(wǎng)格，在每個(gè)網(wǎng)格中進(jìn)行預(yù)測(cè)。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)將一幅圖像輸入到Y(jié)OLO模型中，先將圖像分成7×7的網(wǎng)格，如圖所示，每一個(gè)網(wǎng)格預(yù)測(cè)出2個(gè)物體邊界框(x,y,w,h)以及對(duì)應(yīng)于每一個(gè)邊界框的置信分?jǐn)?shù)（概率），以用于表示網(wǎng)格包含物體(20個(gè)類別)的準(zhǔn)確度和產(chǎn)生的邊界框精確的程度。最后的輸出是一個(gè)7×7×30張量。對(duì)于輸入圖像中的每個(gè)對(duì)象，先找到其中心點(diǎn)。比如，圖中的自行車，其中心點(diǎn)在黃色圓點(diǎn)位置，中心點(diǎn)落在黃色網(wǎng)格內(nèi)，所以這個(gè)黃色網(wǎng)格對(duì)應(yīng)的30維向量中，自行車的概率是1，其它對(duì)象的概率是0。所有其它48個(gè)網(wǎng)格的30維向量中，該自行車的概率都是0。這就是所謂的“中心點(diǎn)所在的網(wǎng)格對(duì)預(yù)測(cè)該對(duì)象負(fù)責(zé)”。圖中狗和汽車的分類概率也采用同樣的技術(shù)。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)3.圖像分割圖像分割是計(jì)算機(jī)視覺領(lǐng)域技術(shù)的重要研究方向之一，它根據(jù)圖片的灰度、顏色、結(jié)構(gòu)和紋理等特征，將圖像分成若干具有相似性質(zhì)的區(qū)域。與目標(biāo)檢測(cè)技術(shù)相比較，圖像分割技術(shù)更適用于精細(xì)的圖像識(shí)別、更加精確的目標(biāo)定位，以及圖像的語義理解。圖像分割是指將圖像細(xì)分為多個(gè)圖像子區(qū)域，使得圖像更加易于理解和分析。圖像分割主要用于定位物體的邊界，即將每個(gè)像素進(jìn)行分類，使得同一物體具有共同的類別和屬性，即可展現(xiàn)出共同的視覺特性。對(duì)圖像進(jìn)行分割時(shí)一般會(huì)使用某種屬性（灰度、彩色、空間紋理、幾何形狀等）的相似度量方法，使得同一個(gè)子區(qū)域中的像素在此技術(shù)的計(jì)算下都很相似，而不同區(qū)域中的像素則差異很大，即類內(nèi)差異小，類間差異大。圖像分割的初級(jí)操作就是將圖像的前景和背景進(jìn)行分割，前景一般包含大家關(guān)心的物體。例如，將包括人的區(qū)域與背景分割開。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)根據(jù)不同的分割粒度，圖像分割可以分為語義分割和實(shí)例分割。（1）語義分割。語義分割（SematicSegmentation）需要預(yù)測(cè)出圖像中的每一個(gè)像素點(diǎn)屬于哪一類的標(biāo)簽，如像素是屬于人、羊、狗、車等。語義分割比目標(biāo)檢測(cè)預(yù)測(cè)的邊框更加精細(xì)。可以簡(jiǎn)單地將語義分割任務(wù)理解為：用一種顏色代表一個(gè)類別，用另一種顏色代表另外一個(gè)類別，將所有類別用不同顏色代表，然后對(duì)原始圖像對(duì)應(yīng)大小的白紙上進(jìn)行涂色操作（不能用白色代表類別），盡量讓涂色的結(jié)果與原始圖片表達(dá)的類別接近。（2）實(shí)例分割。語義分割可以將不同類別的物體區(qū)別開來，而實(shí)例分割則是在語義分割的基礎(chǔ)上，進(jìn)一步區(qū)分出同一類中的不同個(gè)體。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)圖像分類、目標(biāo)檢測(cè)、語義分割、實(shí)例分割的區(qū)別如下圖所示。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)常見的圖像分割技術(shù)有基于閾值的分割、基于邊緣的分割、基于區(qū)域的分割（區(qū)域生長(zhǎng)、區(qū)域分裂合并）和基于深度學(xué)習(xí)的分割等技術(shù)。在深度學(xué)習(xí)中，圖像分割是一種端到端的像素級(jí)分類技術(shù)，就是給定一張圖片，對(duì)圖片上的每一個(gè)像素進(jìn)行分類，圖像分割后的輸出是一張分割圖。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)4.目標(biāo)定位與目標(biāo)跟蹤圖像分類技術(shù)解決了“是什么”的問題，如果還想知道圖像中的目標(biāo)具體在圖像的什么位置，就需要用到目標(biāo)定位與目標(biāo)跟蹤技術(shù)。目標(biāo)定位與目標(biāo)跟蹤的結(jié)果通常是以包圍盒的形式返回的。目標(biāo)定位與目標(biāo)跟蹤是指，在給定場(chǎng)景中跟蹤感興趣的具體一個(gè)對(duì)象或多個(gè)對(duì)象的過程。簡(jiǎn)單地講，給出目標(biāo)在跟蹤視頻第一幀中的初始狀態(tài)（如位置、尺寸），自動(dòng)估計(jì)目標(biāo)物體在后續(xù)幀中的狀態(tài)，如圖所示。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)4.目標(biāo)定位與目標(biāo)跟蹤目標(biāo)定位與目標(biāo)跟蹤是利用圖像序列的上下文信息，對(duì)目標(biāo)的外觀和運(yùn)動(dòng)信息進(jìn)行建模，從而對(duì)目標(biāo)的運(yùn)動(dòng)狀態(tài)進(jìn)行預(yù)測(cè)并標(biāo)定目標(biāo)位置。目標(biāo)定位與目標(biāo)跟蹤是計(jì)算機(jī)視覺中的一個(gè)課題，具有重要的理論研究意義和應(yīng)用價(jià)值，在智能視頻監(jiān)控系統(tǒng)、智能人機(jī)交互、智能交通和視覺導(dǎo)航系統(tǒng)等領(lǐng)域被廣泛應(yīng)用。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.3計(jì)算機(jī)視覺系統(tǒng)計(jì)算機(jī)視覺系統(tǒng)是為完成視覺任務(wù)而構(gòu)造的計(jì)算機(jī)系統(tǒng)，它由多個(gè)功能模塊按照一定的結(jié)構(gòu)組成，各模塊之間要互相聯(lián)系以保證根據(jù)一定的流程實(shí)現(xiàn)系統(tǒng)功能。計(jì)算機(jī)視覺系統(tǒng)通常包含有圖像采集、圖像預(yù)處理、特征檢測(cè)、圖像分割、圖像的高級(jí)處理等功能模塊。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.3計(jì)算機(jī)視覺系統(tǒng)1.圖像采集計(jì)算機(jī)視覺技術(shù)是以獲取客觀世界的圖像為基礎(chǔ)的。為了采集圖像，需要使用特定的采集裝置或設(shè)備，這里的裝置和設(shè)備可以是各種光敏攝像機(jī)、遙感設(shè)備、X射線斷層攝影儀、雷達(dá)、超聲波接收器等?；诓煌牟杉b置和設(shè)備，產(chǎn)生的圖像可以是二維圖、三維圖或一個(gè)圖像序列。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.3計(jì)算機(jī)視覺系統(tǒng)2.圖像預(yù)處理采集圖像后，為了更方便、更有效地獲取其中的信息，提高后續(xù)加工的效率，需要對(duì)圖像進(jìn)行一定的預(yù)處理。一方面，圖像在采集中有可能發(fā)生幾何失真，因此為恢復(fù)場(chǎng)景和圖像的空間對(duì)應(yīng)關(guān)系，需要進(jìn)行坐標(biāo)變換。另一方面，在對(duì)圖像進(jìn)行處理前，對(duì)圖像的幅度也需要進(jìn)行一定的調(diào)整，以改善圖像的視覺質(zhì)量。另外，圖像在采集過程中會(huì)受到噪聲等干擾，因此需要消除這些干擾的影響。所以，圖像預(yù)處理在計(jì)算機(jī)視覺系統(tǒng)中是不可或缺的。對(duì)圖像進(jìn)行預(yù)處理可采用多種方法。首先，可借助坐標(biāo)變換對(duì)出現(xiàn)的幾何失真進(jìn)行校正。其次，可直接利用調(diào)整圖像灰度值的映射來增強(qiáng)圖像。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.3計(jì)算機(jī)視覺系統(tǒng)2.圖像預(yù)處理由于圖像的視覺效果和其直方圖（描述了圖像的統(tǒng)計(jì)特性）有對(duì)應(yīng)關(guān)系，因此可借助對(duì)圖像直方圖的修正來改善視覺效果。最后，還可以考慮利用像素及其鄰域像素的性質(zhì)對(duì)圖像進(jìn)行加工，利用多個(gè)像素的綜合信息來獲得更好的處理效果。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.3計(jì)算機(jī)視覺系統(tǒng)3.特征檢測(cè)特征檢測(cè)也稱基元檢測(cè)，是指檢測(cè)圖像中有顯著特點(diǎn)的基本單元。通常，基元主要有：邊緣、角點(diǎn)、直線段、圓、孔、橢圓及其他興趣點(diǎn)等（也包括它們的一些結(jié)合體），對(duì)這些基元的檢測(cè)是常見的工作。相對(duì)來說，邊緣是圖像中比較低層的基元，是組成許多其他基元的基礎(chǔ)。邊緣是像素灰度值發(fā)生加速變化而不連續(xù)的結(jié)果。邊緣檢測(cè)結(jié)果如下圖所示。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.3計(jì)算機(jī)視覺系統(tǒng)3.特征檢測(cè)角點(diǎn)可被看作是由兩個(gè)邊緣以接近直角相接合而構(gòu)成的基元。直線段可被看作是兩個(gè)鄰近又互相平行的邊緣相結(jié)合而構(gòu)成的基元。圓是一種常見的幾何形狀，圓周可被看作是將直線段彎曲、頭尾相接而得到的。孔的形狀與圓相同，但孔一般表示比較小的圓。橢圓可被看作是圓的擴(kuò)展，圓是橢圓的特例。由于基元密切相關(guān)，所以有許多比較典型的檢測(cè)技術(shù)會(huì)將它們結(jié)合考慮。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.3計(jì)算機(jī)視覺系統(tǒng)4.圖像分割圖像分割指將感興趣的目標(biāo)區(qū)域從圖像中分離并提取出來，也可看作是特征檢測(cè)的一種推廣。將目標(biāo)從圖像中分割出來有兩種方法。一種方法基于目標(biāo)輪廓，即考慮該目標(biāo)與圖像其他部分的界限，如果能確定目標(biāo)輪廓，就可將目標(biāo)與圖像中的其他部分區(qū)分開。另一種方法是基于區(qū)域，即考慮所有屬于目標(biāo)區(qū)域的像素（包括邊界和內(nèi)容像素），如果能確定每個(gè)屬于目標(biāo)的像素，就可獲得完整的目標(biāo)。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.3計(jì)算機(jī)視覺系統(tǒng)4.圖像分割在基于目標(biāo)輪廓的方法中，利用邊緣檢測(cè)方法可以檢測(cè)出目標(biāo)輪廓上的邊緣點(diǎn)，將這些點(diǎn)看作目標(biāo)的邊界點(diǎn)，并在此基礎(chǔ)上將這些邊界點(diǎn)連接起來，就可獲得目標(biāo)輪廓，從而將目標(biāo)分割出來。基于目標(biāo)輪廓搜索方法也可以將目標(biāo)進(jìn)行分割，首先在全圖中檢測(cè)局部邊緣點(diǎn)，然后再將邊界點(diǎn)連接起來構(gòu)成目標(biāo)邊界。輪廓搜索技術(shù)將檢測(cè)邊緣點(diǎn)和連接邊界點(diǎn)結(jié)合進(jìn)行，邊檢測(cè)邊連接，最后獲得目標(biāo)輪廓，這種方法考慮了圖像中邊界的全局信息，在圖像受噪聲影響較大時(shí)仍可取得較魯棒的分割結(jié)果。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.3計(jì)算機(jī)視覺系統(tǒng)5.圖像的高級(jí)處理圖像的高級(jí)處理有理解圖像內(nèi)容的含義，是計(jì)算機(jī)視覺中的高階處理，主要工作是在圖像分割的基礎(chǔ)上再對(duì)分割出的圖像塊進(jìn)行理解。圖像的高級(jí)處理首先采用模式識(shí)別或機(jī)器學(xué)習(xí)方法，如利用卷積神經(jīng)網(wǎng)絡(luò)等算法，訓(xùn)練出合理的模型，然后再對(duì)目標(biāo)進(jìn)行識(shí)別、分類等操作。第六章計(jì)算機(jī)視覺6.1計(jì)算機(jī)視覺概述6.2圖像處理與視覺系統(tǒng)6.3人臉識(shí)別高職高專人工智能通識(shí)課規(guī)劃教材6.4本章實(shí)訓(xùn)6.5拓展知識(shí)6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.1人臉識(shí)別概述人臉識(shí)別（FaceRecognition），是基于人的臉部特征信息進(jìn)行身份識(shí)別的一種生物識(shí)別技術(shù)，簡(jiǎn)單來說就是，通過人的面部照片實(shí)現(xiàn)身份認(rèn)證的技術(shù)。照片既可以通過相機(jī)拍照獲得，也可以通過視頻截圖獲得；既可以是配合狀態(tài)下的正面照（如護(hù)照照片），也可以是非配合狀態(tài)下的側(cè)面照或遠(yuǎn)景照（如監(jiān)控錄像）。人臉識(shí)別可細(xì)分為兩種認(rèn)證方式，一種認(rèn)證方式是身份確認(rèn)（Verification），另一種認(rèn)證方式是身份辨認(rèn)（Identification）。在身份確認(rèn)中，計(jì)算機(jī)需要對(duì)兩張人臉照片進(jìn)行對(duì)比，以判斷是否為同一個(gè)人。這一認(rèn)證方式通常用于信息安全領(lǐng)域，如海關(guān)身份認(rèn)證、ATM刷臉取款等。在身份辨認(rèn)中，當(dāng)給定一張目標(biāo)人的面部照片時(shí)，人臉識(shí)別系統(tǒng)需要在一個(gè)龐大的照片數(shù)據(jù)庫中進(jìn)行搜索，找到與給定照片最相近的照片，從而判斷出目標(biāo)人的身份。這一認(rèn)證方式一般應(yīng)用于公共安全領(lǐng)域，如刑偵領(lǐng)域的嫌疑人排查。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.1人臉識(shí)別概述在實(shí)際應(yīng)用中，可能需要同時(shí)用到身份確認(rèn)和身份辨認(rèn)兩種認(rèn)證方式。例如，在一個(gè)公司的門禁系統(tǒng)中，對(duì)一張待認(rèn)證的人臉照片，首先需要搜索公司的所有員工的照片庫，以找到匹配度最高的照片作為身份確認(rèn)的候選照片，之后還需要判斷這兩張照片的匹配度是否超過了預(yù)設(shè)的閾值，只有超過該閾值，門禁系統(tǒng)才能打開。因此，這一系統(tǒng)同時(shí)包含了身份確認(rèn)和身份辨認(rèn)兩種認(rèn)證方式。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.1人臉識(shí)別概述人臉識(shí)別系統(tǒng)的研究始于20世紀(jì)60年代。20世紀(jì)80年代后，人臉識(shí)別系統(tǒng)隨著計(jì)算機(jī)技術(shù)和光學(xué)成像技術(shù)的推廣而得到發(fā)展。而人臉識(shí)別系統(tǒng)真正進(jìn)入初級(jí)的應(yīng)用階段則在20世紀(jì)90年代后期，并且以美國(guó)、德國(guó)和日本的技術(shù)實(shí)現(xiàn)為主。人臉識(shí)別系統(tǒng)成功的關(guān)鍵在于是否擁有尖端的核心算法，并使識(shí)別結(jié)果具有實(shí)用化的識(shí)別率和識(shí)別速度?！叭四樧R(shí)別系統(tǒng)”集成了人工智能、機(jī)器識(shí)別、機(jī)器學(xué)習(xí)、模型理論、專家系統(tǒng)、視頻圖像處理等多種專業(yè)技術(shù)，同時(shí)需結(jié)合中間值處理的理論與實(shí)現(xiàn)，是生物特征識(shí)別的最新應(yīng)用，其核心技術(shù)的實(shí)現(xiàn)展現(xiàn)了弱人工智能向強(qiáng)人工智能的轉(zhuǎn)化。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.1人臉識(shí)別概述在人臉識(shí)別技術(shù)領(lǐng)域，值得一提的是我國(guó)科學(xué)家湯曉鷗。湯曉鷗（1968年1月—2023年12月），男，出生于遼寧省鞍山市，是我國(guó)人工智能領(lǐng)域的杰出代表，生前為香港中文大學(xué)信息工程學(xué)系教授，兼任中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院副院長(zhǎng)、上海人工智能實(shí)驗(yàn)室主任，IJCV（計(jì)算機(jī)視覺國(guó)際期刊）首位華人主編，全球人臉識(shí)別技術(shù)的“開拓者”和“探路者”，商湯科技創(chuàng)始人。早在1992年，在美國(guó)麻省理工學(xué)院攻讀博士學(xué)位的湯曉鷗就開始接觸人臉識(shí)別的算法。獲得博士學(xué)位后，他先后在香港中文大學(xué)和微軟亞洲研究院工作，繼續(xù)從事計(jì)算機(jī)視覺相關(guān)領(lǐng)域的研究工作。2001年，他創(chuàng)立了香港中文大學(xué)多媒體實(shí)驗(yàn)室。2014年3月，湯曉鷗團(tuán)隊(duì)發(fā)布研究成果——基于原創(chuàng)的人臉識(shí)別算法，其準(zhǔn)確率達(dá)到98.52%，首次超越人眼識(shí)別能力（97.53%）。自2014年6月起，湯曉鷗實(shí)驗(yàn)室發(fā)表的DeepID系列算法，逐步將人臉識(shí)別的準(zhǔn)確率提升至99.55%，開啟了人臉識(shí)別行業(yè)技術(shù)落地的時(shí)代。2016年，湯曉鷗領(lǐng)軍的中國(guó)人工智能團(tuán)隊(duì)，入選世界十大人工智能先鋒實(shí)驗(yàn)室，成為亞洲地區(qū)唯一入選的實(shí)驗(yàn)室。2020年，湯曉鷗入選“人工智能全球2000位最具影響力學(xué)者榜”。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.1人臉識(shí)別概述1.人臉識(shí)別的優(yōu)勢(shì)人臉識(shí)別的優(yōu)勢(shì)在于其自然性和不被檢測(cè)個(gè)體察覺的特點(diǎn)。所謂自然性，是指該識(shí)別方式同人類（甚至其他生物）進(jìn)行個(gè)體識(shí)別時(shí)所利用的生物特征相同。例如，人類也是通過觀察和比較人臉以對(duì)身份進(jìn)行區(qū)分和確認(rèn)的。其他具有自然性的識(shí)別還有語音識(shí)別、體形識(shí)別等。不被檢測(cè)個(gè)體察覺的特點(diǎn)對(duì)于人臉識(shí)別方法也很重要，這會(huì)使該識(shí)別方法不令人反感，并且因?yàn)椴蝗菀滓鹑说淖⒁舛蝗菀妆黄垓_。人臉識(shí)別系統(tǒng)利用可見光獲取人臉圖像信息，而不同于指紋識(shí)別或者虹膜識(shí)別，需要利用電子壓力傳感器采集指紋，或者利用紅外線采集虹膜圖像，這些特殊的采集方式很容易被檢測(cè)個(gè)體察覺，從而更有可能被偽裝所欺騙。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.1人臉識(shí)別概述2.人臉識(shí)別的困難人臉識(shí)別的困難主要是由人臉作為生物特征的特點(diǎn)所造成的。在視覺特點(diǎn)上，首先，不同個(gè)體之間的區(qū)別不大，所有的人臉的結(jié)構(gòu)都相似，甚至人臉器官的結(jié)構(gòu)外形都很相似。這樣的特點(diǎn)對(duì)于利用人臉進(jìn)行定位是有利的，但是對(duì)于利用人臉區(qū)分人類個(gè)體是不利的。其次，人臉的外形很不穩(wěn)定，人可以通過臉部的變化產(chǎn)生很多表情，而在不同觀察角度，人臉的視覺圖像也相差很大；另外，人臉識(shí)別還受光照條件（例如白天和夜晚，室內(nèi)和室外等）、人臉的遮蓋物（例如口罩、墨鏡、頭發(fā)、胡須等）、年齡等多方面因素的影響。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.2人臉識(shí)別一般步驟讓我們首先來回憶一下，人在識(shí)別一個(gè)訪客身份時(shí)采取的基本步驟。首先，通過眼睛把該訪客的整體形象印入腦海（圖像采集）；再?gòu)倪@一整體形象中找到人臉的位置（人臉定位）；如果位置不正，則會(huì)努力調(diào)整角度，直到看到正面清晰的人臉（正規(guī)化）；接下來，需定位這張臉上的主要特征，如整體輪廓、雙眼間距、鼻子形狀等（特征提?。?，如圖所示；最后，會(huì)依據(jù)這些特征，在腦海中進(jìn)行對(duì)比和搜索，最終從記憶中找到一張匹配度最高的人臉，從而確定訪客的身份（模式匹配）。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.2人臉識(shí)別一般步驟人臉識(shí)別一般可分為四個(gè)步驟：人臉圖像采集及檢測(cè)、人臉圖像預(yù)處理、人臉圖像特征提取以及人臉圖像匹配與識(shí)別，如圖所示。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.2人臉識(shí)別一般步驟1.人臉圖像采集及檢測(cè)不同的人臉圖像都能通過攝像頭采集下來，比如靜態(tài)圖像、動(dòng)態(tài)圖像、不同的位置、不同表情等都可以得到很好的采集。當(dāng)用戶在采集設(shè)備的拍攝范圍內(nèi)時(shí)，采集設(shè)備會(huì)自動(dòng)搜索并拍攝用戶的人臉圖像。人臉檢測(cè)在實(shí)際中主要用于人臉識(shí)別的預(yù)處理，即在圖像中準(zhǔn)確標(biāo)定出人臉的位置和大小。人臉圖像中包含的模式特征十分豐富，如直方圖特征、顏色特征、模板特征、結(jié)構(gòu)特征等。人臉檢測(cè)就是把這其中有用的信息挑出來，并利用這些特征實(shí)現(xiàn)人臉檢測(cè)。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.2人臉識(shí)別一般步驟2.人臉圖像預(yù)處理對(duì)于人臉的圖像預(yù)處理是基于人臉檢測(cè)結(jié)果，對(duì)圖像進(jìn)行處理并最終服務(wù)于特征提取的過程。系統(tǒng)獲取的原始圖像由于受到各種條件的限制和隨機(jī)干擾，往往不能直接使用，必須在圖像處理的早期階段對(duì)它進(jìn)行灰度校正、噪聲過濾等圖像預(yù)處理。對(duì)于人臉圖像而言，其預(yù)處理過程主要包括人臉圖像的光線補(bǔ)償、灰度變換、直方圖均衡化、歸一化、幾何校正、濾波以及銳化等。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.2人臉識(shí)別一般步驟3.人臉圖像特征提取人臉識(shí)別系統(tǒng)可使用的特征通常分為視覺特征、像素統(tǒng)計(jì)特征、人臉圖像變換系數(shù)特征、人臉圖像代數(shù)特征等。人臉圖像特征提取，也稱人臉表征，它是對(duì)人臉的某些特征進(jìn)行建模的過程。人臉圖像特征提取的方法分為兩種：一種是基于知識(shí)的表征方法；另一種是基于代數(shù)特征或統(tǒng)計(jì)學(xué)習(xí)的表征方法。基于知識(shí)的表征方法主要是根據(jù)人臉器官的形狀描述以及它們之間的距離特性來獲得有助于人臉分類的特征數(shù)據(jù)，其特征分量通常包括特征點(diǎn)間的歐氏距離、曲率和角度等。人臉由眼睛、鼻子、嘴、下巴等局部構(gòu)成，對(duì)這些局部和它們之間結(jié)構(gòu)關(guān)系的幾何描述，可作為識(shí)別人臉的重要特征，這些特征被稱為幾何特征?；谥R(shí)的表征方法主要包括基于幾何特征的方法和模板匹配法。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.2人臉識(shí)別一般步驟3.人臉圖像特征提取基于代數(shù)特征或統(tǒng)計(jì)學(xué)習(xí)的表征方法的基本思想是，將人臉在空域內(nèi)的高維描述轉(zhuǎn)化為頻域或者其他空間內(nèi)的低維描述。基于代數(shù)特征的表征方法分為線性投影表征方法和非線性投影表征方法?；诰€性投影的方法主要有主成分分析法，或稱K-L變換、獨(dú)立成分分析法和Fisher線性判別分析法。非線性特征提取方法有兩個(gè)重要的分支：基于核的特征提取技術(shù)和以流形學(xué)習(xí)為主導(dǎo)的特征提取技術(shù)。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.2人臉識(shí)別一般步驟4.人臉圖像匹配與識(shí)別提取的人臉圖像的特征數(shù)據(jù)與數(shù)據(jù)庫中存儲(chǔ)的特征模板進(jìn)行搜索匹配時(shí)，首先設(shè)定一個(gè)閾值，當(dāng)相似度超過這一閾值，則把匹配得到的結(jié)果輸出。人臉識(shí)別系統(tǒng)需要將待識(shí)別的人臉特征與已得到的人臉特征模板進(jìn)行比較，然后根據(jù)相似程度對(duì)人臉的身份信息進(jìn)行判斷。此外，人臉識(shí)別系統(tǒng)包含活體鑒別環(huán)節(jié)，即區(qū)別識(shí)別的特征信號(hào)是否來自于真正的生物體。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.3人臉識(shí)別基本技術(shù)人臉識(shí)別基本技術(shù)主要有人臉檢測(cè)、人臉配準(zhǔn)、人臉屬性識(shí)別、人臉特征提取、人臉比對(duì)、人臉驗(yàn)證、人臉識(shí)別、人臉檢索、人臉聚類、人臉活體檢測(cè)等。（1）人臉檢測(cè)。人臉檢測(cè)是檢測(cè)出圖像中人臉?biāo)谖恢玫囊豁?xiàng)技術(shù)，如圖所示。人臉檢測(cè)技術(shù)的輸入是一張圖片，輸出是人臉框坐標(biāo)序列（0個(gè)人臉框、1個(gè)人臉框或多個(gè)人臉框）。一般情況下，輸出的人臉坐標(biāo)框?yàn)橐粋€(gè)正朝上的正方形，但也有一些人臉檢測(cè)技術(shù)輸出的是正朝上的矩形，或者帶旋轉(zhuǎn)方向的矩形。常見的人臉檢測(cè)技術(shù)基本上是一個(gè)“掃描”加“判斷”的過程，即在圖像范圍內(nèi)掃描，再逐個(gè)判定候選區(qū)域是否是人臉。因此，人臉檢測(cè)技術(shù)的計(jì)算速度與圖像尺寸、圖像內(nèi)容有關(guān)。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.3人臉識(shí)別基本技術(shù)（2）人臉配準(zhǔn)。人臉配準(zhǔn)是定位出人臉上五官關(guān)鍵點(diǎn)坐標(biāo)的一項(xiàng)技術(shù)，如圖所示。人臉配準(zhǔn)技術(shù)的輸入是一張“人臉圖片”和“人臉坐標(biāo)框”，輸出是五官關(guān)鍵點(diǎn)的坐標(biāo)序列。五官關(guān)鍵點(diǎn)的數(shù)量是預(yù)先設(shè)定好的一個(gè)固定數(shù)值，可以根據(jù)不同的語義來定義（常見的有5個(gè)關(guān)鍵點(diǎn)、68個(gè)關(guān)鍵點(diǎn)、90個(gè)關(guān)鍵點(diǎn)等固定值）。當(dāng)前效果較好的一些人臉配準(zhǔn)技術(shù)基本上都是通過深度學(xué)習(xí)框架實(shí)現(xiàn)的，這些技術(shù)的特點(diǎn)是基于人臉檢測(cè)的坐標(biāo)框，按某種事先設(shè)定規(guī)則將人臉區(qū)域摳取出來，縮放到固定尺寸，然后進(jìn)行關(guān)鍵點(diǎn)位置的計(jì)算。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.3人臉識(shí)別基本技術(shù)（3）人臉屬性識(shí)別。人臉屬性識(shí)別是識(shí)別出人臉的性別、年齡、姿態(tài)、表情等屬性值的一項(xiàng)技術(shù)，如圖所示。一般的人臉屬性識(shí)別技術(shù)的輸入是一張“人臉圖”和“人臉五官關(guān)鍵點(diǎn)坐標(biāo)”，輸出是人臉相應(yīng)的屬性值（如性別、年齡、表情等）。人臉屬性識(shí)別技術(shù)一般會(huì)根據(jù)人臉五官關(guān)鍵點(diǎn)坐標(biāo)，將人臉對(duì)齊（經(jīng)過旋轉(zhuǎn)、縮放、摳取等操作后，將人臉調(diào)整到預(yù)定的大小和形態(tài)），然后進(jìn)行屬性分析。人臉屬性識(shí)別技術(shù)是對(duì)一類技術(shù)的統(tǒng)稱，包括性別識(shí)別、年齡估計(jì)、姿態(tài)估計(jì)、表情識(shí)別等。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.3人臉識(shí)別基本技術(shù)（4）人臉特征提取。人臉特征提取是將一張人臉圖像轉(zhuǎn)化為一串固定長(zhǎng)度的數(shù)值的過程，這個(gè)數(shù)值串被稱為人臉特征，能夠表征一個(gè)人的人臉特點(diǎn)，如圖所示。人臉特征提取技術(shù)的輸入是一張“人臉圖”和“人臉五官關(guān)鍵點(diǎn)坐標(biāo)”，輸出是對(duì)應(yīng)的一個(gè)數(shù)值串（特征）。人臉特征提取技術(shù)會(huì)根據(jù)人臉五官關(guān)鍵點(diǎn)坐標(biāo)，將人臉對(duì)齊預(yù)定模式，然后計(jì)算特征。近年來，深度學(xué)習(xí)基本統(tǒng)治了人臉特征提取技術(shù)。早期的人臉特征提取模型都較大，速度較慢，且僅使用于后臺(tái)服務(wù)。但現(xiàn)在已經(jīng)可以實(shí)現(xiàn)在基本保證效果的前提下，將模型大小和運(yùn)算速度優(yōu)化到移動(dòng)端可用的狀態(tài)。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.3人臉識(shí)別基本技術(shù)（5）人臉比對(duì)。人臉比對(duì)是衡量?jī)蓚€(gè)人臉之間相似度的技術(shù)，如圖所示。該技術(shù)的輸入是兩個(gè)人臉特征（人臉特征由前面的人臉特征技術(shù)獲得），輸出是兩個(gè)特征之間的相似度。人臉驗(yàn)證、人臉識(shí)別、人臉檢索都是在人臉比對(duì)的基礎(chǔ)上，增加一些算法策略來實(shí)現(xiàn)的?；谌四槺葘?duì)，可衍生出人臉驗(yàn)證、人臉識(shí)別、人臉檢索、人臉聚類等技術(shù)。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.3人臉識(shí)別基本技術(shù)（6）人臉驗(yàn)證。人臉驗(yàn)證是判定兩張人臉圖是否為同一個(gè)人的技術(shù)。它的輸入是兩個(gè)人臉特征，通過人臉比對(duì)獲得兩個(gè)人臉特征的相似度，并與預(yù)設(shè)的閾值進(jìn)行比較，相似度大于閾值，則為同一個(gè)人；相似度小于閾值，則為不同的人，如圖所示。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.3人臉識(shí)別基本技術(shù)（7）人臉識(shí)別。人臉識(shí)別是通過識(shí)別輸入人臉圖以對(duì)應(yīng)身份的技術(shù)。它的輸入是一個(gè)人臉特征，通過與注冊(cè)在庫中N個(gè)身份對(duì)應(yīng)的特征進(jìn)行逐個(gè)對(duì)比，查找出一個(gè)與輸入特征相似度最高的特征。將這個(gè)最高相似度值和預(yù)設(shè)的閾值進(jìn)行比較，如果大于閾值，則返回該特征對(duì)應(yīng)的身份；反之，則返回“不在庫中”，如圖所示。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.3人臉識(shí)別基本技術(shù)（8）人臉檢索。人臉檢索是查找與輸入人臉圖相似的人臉序列的技術(shù)。人臉檢索是通過將輸入的人臉圖和一個(gè)集合中的所有人臉圖進(jìn)行比對(duì)，根據(jù)比對(duì)后的相似度對(duì)集合中的人臉圖進(jìn)行排序。根據(jù)相似度從高到低排序的人臉序列就是人臉檢索的結(jié)果，如圖所示。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.3人臉識(shí)別基本技術(shù)（9）人臉聚類。人臉聚類是將一個(gè)集合內(nèi)的人臉圖根據(jù)身份進(jìn)行分組的技術(shù)。人臉聚類通過將集合內(nèi)所有的人臉圖兩兩比對(duì)，再根據(jù)比對(duì)后的相似度進(jìn)行分析，將屬于同一個(gè)身份的人臉圖劃分到同一個(gè)組里，如圖所示。在進(jìn)行人工身份標(biāo)注前，只知道劃分到同一個(gè)組的人臉是屬于同一個(gè)身份，但不知道確切身份。6.3人臉識(shí)別第6章計(jì)算機(jī)視覺6.3.3人臉識(shí)別基本技術(shù)（10）人臉活體檢測(cè)。人臉活體檢測(cè)是判斷人臉圖像是來自真人還是來自假體（照片、視頻等）的技術(shù)，如圖所示?？紤]到如果入侵者利用虛假人臉圖對(duì)系統(tǒng)攻擊成功，則極有可能對(duì)系統(tǒng)中的用戶造成重大損失，因此需要開發(fā)可靠、高效的人臉活體檢測(cè)技術(shù)，來守護(hù)現(xiàn)有人臉識(shí)別系統(tǒng)的信息安全。通常，用戶在進(jìn)行人臉活體檢測(cè)時(shí)，系統(tǒng)每次都會(huì)從動(dòng)作集（包括張嘴、眨眼、揚(yáng)眉、微笑、搖頭、點(diǎn)頭等）中選擇一種或若干種動(dòng)作，隨機(jī)指定用戶完成動(dòng)作的次數(shù)，并要求用戶在規(guī)定的時(shí)間內(nèi)完成。6.3

人臉識(shí)別第6章計(jì)算機(jī)視覺1.人臉識(shí)別門禁人臉識(shí)別門禁通過人臉識(shí)別辨識(shí)試圖進(jìn)入者的身份。結(jié)合人臉識(shí)別技術(shù)、成熟的ID卡技術(shù)和指紋識(shí)別技術(shù)的門禁產(chǎn)品，可實(shí)現(xiàn)人臉、指紋和ID卡信息的采集，以及生物信息識(shí)別及門禁控制內(nèi)外分離等功能。人臉識(shí)別門禁實(shí)用性高、安全可靠，可廣泛應(yīng)用于銀行、軍隊(duì)、公檢法、智能樓宇等重點(diǎn)區(qū)域的門禁安全控制，如圖所示。6.3.4人臉識(shí)別的應(yīng)用6.3

人臉識(shí)別第6章計(jì)算機(jī)視覺2.身份辨識(shí)國(guó)際民航組織已確定，從2010年4月1日起，其118個(gè)成員國(guó)家和地區(qū)，必須使用機(jī)讀護(hù)照，人臉識(shí)別技術(shù)是首推識(shí)別模式，該規(guī)定已經(jīng)成為國(guó)際標(biāo)準(zhǔn)。美國(guó)已經(jīng)要求和該國(guó)有出入免簽證協(xié)議的國(guó)家在2006年10月26日之前必須使用結(jié)合了人臉、指紋等生物特征的電子護(hù)照系統(tǒng)。身份辨識(shí)可在機(jī)場(chǎng)、體育場(chǎng)、超市等公共場(chǎng)所對(duì)人群進(jìn)行監(jiān)視，如在機(jī)場(chǎng)安裝監(jiān)視系統(tǒng)以防止恐怖分子登機(jī)。在銀行的自動(dòng)提款機(jī)上應(yīng)用身份辨識(shí)時(shí)，可以避免發(fā)生用戶卡片和密碼被盜時(shí)他人冒取現(xiàn)金的情況。人證識(shí)別比對(duì)系統(tǒng)可以準(zhǔn)確進(jìn)行身份辨識(shí)，如圖所示。6.3.4人臉識(shí)別的應(yīng)用6.3

人臉識(shí)別第6章計(jì)算機(jī)視覺3.網(wǎng)絡(luò)應(yīng)用人臉識(shí)別技術(shù)的網(wǎng)絡(luò)應(yīng)用廣泛。例如，利用人臉識(shí)別技術(shù)，輔助信用卡網(wǎng)絡(luò)支付，以防止信用卡被冒用等，如圖所示。電子商務(wù)中的交易全部在網(wǎng)上完成，電子政務(wù)中的很多審批流程也都在線上完成。而當(dāng)前，交易或者審批的授權(quán)都是靠密碼來實(shí)現(xiàn)的。如果密碼被盜，則使用生物特征就可以實(shí)現(xiàn)當(dāng)事人在網(wǎng)上的數(shù)字身份和真實(shí)身份統(tǒng)一，從而大大增加電子商務(wù)和電子政務(wù)系統(tǒng)的可靠性。6.3.4人臉識(shí)別的應(yīng)用6.3

人臉識(shí)別第6章計(jì)算機(jī)視覺隨著信息技術(shù)飛速發(fā)展，人臉識(shí)別逐步滲透到人們生活的方方面面。人臉識(shí)別技術(shù)在諸多領(lǐng)域發(fā)揮著巨大作用的同時(shí)，也存在被濫用的情況。最高人民法院發(fā)布司法解釋，對(duì)人臉識(shí)別進(jìn)行規(guī)范。2021年8月1日，《最高人民法院關(guān)于審理使用人臉識(shí)別技術(shù)處理個(gè)人信息相關(guān)民事案件適用法律若干問題的規(guī)定》正式實(shí)行。《規(guī)定》第十條第1款專門規(guī)定：“物業(yè)服務(wù)企業(yè)或者其他建筑物管理人以人臉識(shí)別作為業(yè)主或者物業(yè)使用人出入物業(yè)服務(wù)區(qū)域的唯一驗(yàn)證方式，不同意的業(yè)主或者物業(yè)使用人請(qǐng)求其提供其他合理驗(yàn)證方式的，人民法院依法予以支持?！备鶕?jù)這一規(guī)定，小區(qū)物業(yè)在使用人臉識(shí)別門禁系統(tǒng)錄入人臉信息時(shí)，應(yīng)當(dāng)征得業(yè)主或者物業(yè)使用人的同意，對(duì)于不同意的，小區(qū)物業(yè)應(yīng)當(dāng)提供替代性驗(yàn)證方式，不得侵害業(yè)主或物業(yè)使用人的人格權(quán)益和其他合法權(quán)益。2023年8月8日，為規(guī)范人臉識(shí)別技術(shù)應(yīng)用，保護(hù)個(gè)人信息權(quán)益及其他人身和財(cái)產(chǎn)權(quán)益，維護(hù)社會(huì)秩序和公共安全，國(guó)家網(wǎng)信辦發(fā)布《人臉識(shí)別技術(shù)應(yīng)用安全管理規(guī)定（試行）（征求意見稿）》，并向社會(huì)公開征求意見。第六章計(jì)算機(jī)視覺6.1計(jì)算機(jī)視覺概述6.2圖像處理與視覺系統(tǒng)6.3人臉識(shí)別高職高專人工智能通識(shí)課規(guī)劃教材6.4本章實(shí)訓(xùn)6.5拓展知識(shí)6.4

本章實(shí)訓(xùn)第6章計(jì)算機(jī)視覺下面以百度AI開放平臺(tái)人臉檢測(cè)與屬性分析為例，進(jìn)行人臉檢測(cè)與識(shí)別。（1）在瀏覽器的地址欄中輸入/tech/face/detect，選擇“功能演示區(qū)”，單擊區(qū)域中的一張圖片，即可顯示人臉檢測(cè)結(jié)果，檢測(cè)出的人臉被矩形框住，如圖所示。6.4

本章實(shí)訓(xùn)第6章計(jì)算機(jī)視覺（2）人臉檢測(cè)與屬性的結(jié)果在頁面右側(cè)顯示，如人臉數(shù)量（face_num）、人臉列表（face_list）、人臉標(biāo)識(shí)（face_token）、人臉位置（location）、人臉檢測(cè)結(jié)果的可靠性（face_probability）、人臉傾角（angle）、年齡（age）、表情（expression）、性別（gender）等。（3）可以輸入網(wǎng)絡(luò)圖片URL或上傳本地圖片進(jìn)行檢測(cè)，請(qǐng)讀者自行練習(xí)。第六章計(jì)算機(jī)視覺6.1計(jì)算機(jī)視覺概述6.2圖像處理與視覺系統(tǒng)6.3人臉識(shí)別高職高專人工智能通識(shí)課規(guī)劃教材6.4本章實(shí)訓(xùn)6.5拓展知識(shí)6.5

拓展知識(shí)第6章計(jì)算機(jī)視覺6.5拓展知識(shí)：人機(jī)大戰(zhàn)，百度AI以3:2戰(zhàn)勝“最強(qiáng)大腦”王峰2017年1月6日，在江蘇衛(wèi)視播出的節(jié)目“最強(qiáng)大腦”第四季中，吳恩達(dá)率隊(duì)的百度人工智能機(jī)器人“小度”在人臉識(shí)別跨年齡識(shí)別任務(wù)中以3：2的比分戰(zhàn)勝“最強(qiáng)大腦”名人堂輪值主席、世界記憶大師王峰。“小度”和王峰的“決戰(zhàn)”分為兩輪，第一輪，嘉賓從20張蜜蜂少女隊(duì)成員童年照中挑出3張高難度照片，選手通過動(dòng)態(tài)錄像表演將所選童年照和在場(chǎng)的成年少女向匹配。第二輪，人機(jī)共同觀察一位30歲以上的觀眾，隨后將他從30張小學(xué)集體照中找出。6.5

拓展知識(shí)第6章計(jì)算機(jī)視覺根據(jù)節(jié)目組的安排，“小度”和王峰第一輪需要識(shí)別兩個(gè)對(duì)象。對(duì)第一個(gè)對(duì)象的識(shí)別，王峰和“小度”都答對(duì)了。第二個(gè)對(duì)象的識(shí)別，現(xiàn)場(chǎng)出現(xiàn)了一個(gè)事先沒有想到的“狀況”：“小度”為一個(gè)對(duì)象給出了兩個(gè)匹配答案，這讓現(xiàn)場(chǎng)嘉賓大為困惑。查證后發(fā)現(xiàn)，原來是識(shí)別對(duì)象群組中有一對(duì)雙胞胎，“小度”經(jīng)過識(shí)別后，給出了72.98%、72.99%兩個(gè)非常接近的答案。最后，吳恩達(dá)現(xiàn)場(chǎng)選擇72.99%的照片，匹配正確。這一環(huán)節(jié)上，王峰識(shí)別錯(cuò)誤。第一輪的比賽，“小度”得1分，王峰0分。第二輪比賽，雙方都成功識(shí)別出照片中的人，均得2分。最終，“小度”以3：2的比分贏得了第一場(chǎng)比賽。6.5拓展知識(shí)：人機(jī)大戰(zhàn)，百度AI以3:2戰(zhàn)勝“最強(qiáng)大腦”王峰6.5

拓展知識(shí)第6章計(jì)算機(jī)視覺為了達(dá)到與人類相似的水平，百度大腦學(xué)習(xí)了2億張圖片，主要包括網(wǎng)上公開的人臉照片、視頻影像資料、第三方版權(quán)購(gòu)買內(nèi)容及一些向大眾公開征集的人像照片。在跨年齡階段人臉識(shí)別中，類內(nèi)變化通常會(huì)大于類間變化，這造成了人臉識(shí)別的巨大困難。同時(shí)，跨年齡的訓(xùn)練數(shù)據(jù)難以收集。沒有足夠多的數(shù)據(jù)，基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)很難學(xué)習(xí)到跨年齡的類內(nèi)和類間變化。基于上述第一點(diǎn)，百度深度學(xué)習(xí)試驗(yàn)室選擇用度量學(xué)習(xí)的方法，即通過學(xué)習(xí)一個(gè)非線性投影函數(shù)，把圖像空間投影到特征空間中。在這個(gè)特征空間里，跨年齡的同一個(gè)人的兩張人臉的距離會(huì)比不同人的相似年齡的兩張人臉的距離要小。針對(duì)第二點(diǎn)，考慮到跨年齡人臉的稀缺性，百度深度學(xué)習(xí)實(shí)驗(yàn)室以一個(gè)大規(guī)模人臉數(shù)據(jù)訓(xùn)練好的模型為基礎(chǔ)，然后用跨年齡數(shù)據(jù)對(duì)它做更新，不容易出現(xiàn)過擬合的問題。6.5拓展知識(shí)：人機(jī)大戰(zhàn)，百度AI以3:2戰(zhàn)勝“最強(qiáng)大腦”王峰高職高專人工智能通識(shí)課規(guī)劃教材人工智能概論本章學(xué)習(xí)目標(biāo)第7章自然語言處理【素養(yǎng)目標(biāo)】通過學(xué)習(xí)自然語言處理，培養(yǎng)學(xué)生不怕困難、勇于攻關(guān)、自強(qiáng)不息的科學(xué)精神；通過學(xué)習(xí)百度、科大訊飛、搜狗等公司在機(jī)器翻譯、語音識(shí)別等領(lǐng)域的科技成果案例，培養(yǎng)學(xué)生愛國(guó)情懷，增強(qiáng)民族自信心、自豪感；通過學(xué)習(xí)自然語言處理系統(tǒng)的應(yīng)用，培養(yǎng)學(xué)生追求真理，勇攀科學(xué)高峰的責(zé)任感和使命感。本章學(xué)習(xí)目標(biāo)第7章自然語言處理【知識(shí)目標(biāo)】了解自然語言處理的概念、發(fā)展歷程和應(yīng)用；掌握自然語言處理的構(gòu)成；熟悉自然語言處理的一般流程：語料獲取、語料預(yù)處理、特征工程、模型訓(xùn)練和模型評(píng)價(jià)；熟悉自然語言理解的層次：語音分析、詞法分析、句法分析、語義分析和語用分析；了解機(jī)器翻譯的基本原理、方法及應(yīng)用；了解語音識(shí)別的定義、發(fā)展歷程及應(yīng)用；了解語音合成的概念及應(yīng)用。本章學(xué)習(xí)目標(biāo)第7章自然語言處理【能力目標(biāo)】能夠針對(duì)自然語言處理具體應(yīng)用功能，闡述其實(shí)現(xiàn)原理；能夠針對(duì)工作生活場(chǎng)景中的具體需求，提出自然語言處理技術(shù)解決思路；會(huì)使用百度在線翻譯、科大訊飛AI等工具。本章學(xué)習(xí)目標(biāo)第7章自然語言處理【思維導(dǎo)圖】第七章自然語言處理高職高專人工智能通識(shí)課規(guī)劃教材7.1

自然語言處理概述7.2自然語言理解7.3機(jī)器翻譯7.4語音識(shí)別7.5語音合成7.6本章實(shí)訓(xùn)7.7拓展知識(shí)7.1

自然語言處理概述第7章自然語言處理7.1.1自然語言處理的定義自然語言是指漢語、英語、法語等人們?nèi)粘Ｊ褂玫恼Z言，是自然而然地隨著人類社會(huì)發(fā)展演變而來的語言，是人類溝通和交流的重要工具，也是人類區(qū)別于其他動(dòng)物的根本標(biāo)志，沒有語言，人類的思維就無從談起。在整個(gè)人類發(fā)展歷史中，以語言文字形式記載和流傳的知識(shí)占到知識(shí)總量的80%以上。自然語言處理是指用計(jì)算機(jī)來處理、理解及運(yùn)用人類語言（如中文、英文），其技術(shù)目標(biāo)就是使機(jī)器（計(jì)算機(jī)）能夠“聽懂”人類的語言，并進(jìn)行翻譯，實(shí)現(xiàn)人和機(jī)器的相互交流。用自然語言與計(jì)算機(jī)進(jìn)行通信，這是人們長(zhǎng)期以來所追求的目標(biāo)。因?yàn)?，這一目標(biāo)既有明顯的實(shí)際意義，同時(shí)也有重要的理論意義：人們可以用自己最習(xí)慣的語言來使用計(jì)算機(jī)，而無須再花大量的時(shí)間和精力去學(xué)習(xí)不自然和不習(xí)慣的各種機(jī)器（計(jì)算機(jī)）語言；人們也可通過它進(jìn)一步了解人類的語言能力和智能的機(jī)制。7.1

自然語言處理概述第7章自然語言處理7.1.1自然語言處理的定義自然語言處理是涉及計(jì)算機(jī)科學(xué)、人工智能和語言學(xué)的一門交叉學(xué)科，如圖所示，主要研究如何讓計(jì)算機(jī)能夠理解、處理、生成和模擬人類語言的能力，從而實(shí)現(xiàn)與人類進(jìn)行自然對(duì)話的能力。通過自然語言處理技術(shù)，可以實(shí)現(xiàn)機(jī)器翻譯、問答系統(tǒng)、情感分析、文本摘要等多種應(yīng)用。隨著深度學(xué)習(xí)技術(shù)的發(fā)展，人工神經(jīng)網(wǎng)絡(luò)和其他機(jī)器學(xué)習(xí)方法已經(jīng)在自然語言處理領(lǐng)域取得了重要的進(jìn)展。自然語言處理的發(fā)展方向包括更深入的語義理解、更好的對(duì)話系統(tǒng)、更廣泛的跨語言處理和更強(qiáng)大的遷移學(xué)習(xí)技術(shù)。7.1

自然語言處理概述第7章自然語言處理7.1.2自然語言處理的發(fā)展歷程自然語言處理的發(fā)展經(jīng)歷了三個(gè)階段：基于規(guī)則的階段、基于統(tǒng)計(jì)的階段和基于深度學(xué)習(xí)的階段。1.基于規(guī)則的階段最早的自然語言處理方面的研究工作是機(jī)器翻譯。1949年，美國(guó)的瓦倫·威弗（WarrenWeaver）首先提出了機(jī)器翻譯設(shè)計(jì)方案。1952年，第一次機(jī)器翻譯會(huì)議在美國(guó)麻省理工學(xué)院召開。1954年，第一次機(jī)器翻譯試驗(yàn)取得了成功，并第一次向人們展示了機(jī)器翻譯的可行性，同時(shí)激發(fā)了政府資助機(jī)器翻譯的興趣。20世紀(jì)50年代—70年代，自然語言處理的研究主要采用基于規(guī)則的技術(shù)，研究人員認(rèn)為自然語言處理的過程就是人類認(rèn)知一門語言的過程。基于規(guī)則的技術(shù)利用人類的知識(shí)，不依賴數(shù)據(jù)，可以快速起步，但其具有不可避免的缺點(diǎn)：①

規(guī)則不可能覆蓋所有語句；②

對(duì)研究人員的要求較高，要求研究人員既要熟悉計(jì)算機(jī)，又要熟悉語言學(xué)，因此該階段雖然解決了一些簡(jiǎn)單的問題，但無法從根本上解決實(shí)際問題并得到應(yīng)用。7.1

自然語言處理概述第7章自然語言處理7.1.2自然語言處理的發(fā)展歷程2.基于統(tǒng)計(jì)的階段自20世紀(jì)70年代以來，隨著互聯(lián)網(wǎng)的快速發(fā)展及硬件的不斷完善，基于統(tǒng)計(jì)的方法代替了基于規(guī)則的方法。20世紀(jì)70年代，基于隱馬爾可夫模型（HiddenMarkovModel，HMM）的統(tǒng)計(jì)方法在語音識(shí)別領(lǐng)域獲得成功。20世紀(jì)80年代初，話語分析取得了重大進(jìn)展。20世紀(jì)90年代以后，隨著計(jì)算機(jī)性能的不斷提升，語音和語言處理的商品化開發(fā)成為可能。網(wǎng)絡(luò)技術(shù)的發(fā)展和Internet的商業(yè)化，使信息檢索和信息抽取的需求變得更加迫切?；诮y(tǒng)計(jì)、實(shí)例及規(guī)則的語料庫技術(shù)在該時(shí)期得到蓬勃發(fā)展，各種處理技術(shù)開始融合，自然語言處理的研究又開始興旺起來。在該階段，自然語言處理基于數(shù)學(xué)模型和統(tǒng)計(jì)的方法取得了實(shí)質(zhì)性突破，從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用。7.1

自然語言處理概述第7章自然語言處理7.1.2自然語言處理的發(fā)展歷程3.基于深度學(xué)習(xí)的階段從2008年到現(xiàn)在，深度學(xué)習(xí)開始在語音識(shí)別和圖像識(shí)別領(lǐng)域發(fā)揮威力，自然語言處理研究者開始用深度學(xué)習(xí)的方法進(jìn)行研究，在機(jī)器翻譯、閱讀理解、問答系統(tǒng)等領(lǐng)域取得了一定成功。深度學(xué)習(xí)是一個(gè)多層的神經(jīng)網(wǎng)絡(luò)，從輸入層開始，經(jīng)過逐層非線性的變化得到輸出。深度學(xué)習(xí)從輸入層到輸出層做端到端的訓(xùn)練，準(zhǔn)備輸入層到輸出層的數(shù)據(jù)，設(shè)計(jì)并訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)，即可執(zhí)行預(yù)想的任務(wù)。目前，循環(huán)神經(jīng)網(wǎng)絡(luò)是自然語言處理最常用的方法之一。在深度學(xué)習(xí)時(shí)代，神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)從數(shù)據(jù)中挖掘特征，人們得以從復(fù)雜的特征中脫離出來，專注于模型算法本身的創(chuàng)新及理論的突破，深度學(xué)習(xí)已經(jīng)從一開始的機(jī)器翻譯領(lǐng)域，逐漸擴(kuò)展到其他領(lǐng)域。7.1

自然語言處理概述第7章自然語言處理7.1.3自然語言處理的應(yīng)用自然語言處理在機(jī)器翻譯、垃圾郵件分類、信息抽取、文本情感分析、智能問答、個(gè)性化推薦等方面都有廣泛的應(yīng)用。1.機(jī)器翻譯機(jī)器翻譯，又稱自動(dòng)翻譯，是利用計(jì)算機(jī)將一種自然語言（源語言）轉(zhuǎn)換為另一種自然語言（目標(biāo)語言）的過程。機(jī)器翻譯是計(jì)算語言學(xué)的一個(gè)分支，是人工智能的終極目標(biāo)之一，具有重要的科學(xué)研究?jī)r(jià)值。機(jī)器翻譯是一門涉及計(jì)算語言學(xué)、人工智能和數(shù)理邏輯的交叉學(xué)科。7.1

自然語言處理概述第7章自然語言處理7.1.3自然語言處理的應(yīng)用1.機(jī)器翻譯目前，文本翻譯最為主流的工作方式依然是以傳統(tǒng)的機(jī)器翻譯和神經(jīng)網(wǎng)絡(luò)翻譯為主。Google、Microsoft、百度、有道等公司都為用戶提供了免費(fèi)的在線多語言翻譯系統(tǒng)。速度快、成本低是文本翻譯的主要特點(diǎn)，而且文本翻譯應(yīng)用廣泛，不同行業(yè)都可以選用相應(yīng)的專業(yè)的文本翻譯。但是，這一翻譯過程是機(jī)械的和僵硬的，在翻譯過程中會(huì)出現(xiàn)很多語義和語境上的問題，仍然需要人工翻譯來進(jìn)行補(bǔ)充。用語法規(guī)則和詞匯對(duì)照表實(shí)現(xiàn)的俄語和英語互譯的機(jī)器翻譯系統(tǒng)笑話百出，曾把“心有余而力不足”（thespiritiswilingbutthefleshisweak）這句英文翻譯到俄語，然后再翻譯回英語的時(shí)候，卻變成了“伏特加不錯(cuò)而肉都爛掉了”（thevodkaisgoodbutthemeatisroten）。7.1

自然語言處理概述第7章自然語言處理7.1.3自然語言處理的應(yīng)用1.機(jī)器翻譯語音翻譯可能是目前機(jī)器翻譯中比較富有創(chuàng)新意識(shí)的領(lǐng)域，目前百度、科大訊飛、搜狗等公司推出的機(jī)器同聲傳譯技術(shù)主要在會(huì)議場(chǎng)景出現(xiàn)，演講者的語音實(shí)時(shí)轉(zhuǎn)換成文本，并且進(jìn)行同步翻譯，翻譯結(jié)果低延遲顯示。希望在將來，機(jī)器同聲傳譯技術(shù)能夠取代人工同聲傳譯，使人們以較低成本實(shí)現(xiàn)不同語言之間的有效交流。7.1

自然語言處理概述第7章自然語言處理7.1.3自然語言處理的應(yīng)用2.垃圾郵件分類當(dāng)前，垃圾郵件過濾器已成為抵御垃圾郵件問題的第一道防線。判斷一封郵件是否是垃圾郵件，首先用到的方法是“關(guān)鍵詞過濾”，如果郵件存在常見的垃圾郵件關(guān)鍵詞，就判定為垃圾郵件。但這種方法的效果很不理想，首先是正常郵件中也可能有這些關(guān)鍵詞，因此非常容易產(chǎn)生誤判；其次是垃圾郵件也會(huì)進(jìn)化，通過將關(guān)鍵詞進(jìn)行變形，很容易規(guī)避關(guān)鍵詞過濾。7.1

自然語言處理概述第7章

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

人工智能概論課件錢玲第6、7章計(jì)算機(jī)視覺、自然語言處理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

人工智能概論 課件 錢玲 第6、7章 計(jì)算機(jī)視覺、自然語言處理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

人工智能概論課件錢玲第6、7章計(jì)算機(jī)視覺、自然語言處理