人機交互中的計算機視覺(譯文)_第1頁
人機交互中的計算機視覺(譯文)_第2頁
人機交互中的計算機視覺(譯文)_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、要想獲得通用的,魯棒性強的,高性能的計算機視覺系統(tǒng)照舊存在著不少障礙,但是,過去的十年間,在人機交互領(lǐng)域里,視覺技術(shù)有了重大的進展。計算機視覺交互在人們的交談和彼此間的交互過程中,視覺信息明顯是很重要的。通過視覺的模態(tài),我們可以 馬上確定很多顯著的關(guān)于他人的事實和特征,包括他們的位置、身份、大致的年齡、留意力的焦點、臉部表情、姿勢、手勢和一般的活動。這些視覺線索影響到了會話的內(nèi)容和進程,并供應(yīng)了一些上 下文相關(guān)的信息,這些信息與言語不同,但與此相關(guān),例如,一個手勢或面部表情可能是一個關(guān)鍵 的信號,一個注視的角度可能可以消退在言語中“這個”或者“在那邊”的指帶不明。換言之,在 人與人的交互中,視

2、覺和言語是聯(lián)合表達,相互補充的通道。正如語音自動識別是試圖構(gòu)造能夠感 知人們溝通的文字方面的機器,那么計算機視覺技術(shù)是用來構(gòu)造能夠“觀看人”并自動感知相關(guān)視 覺信息的機器。計算機視覺是一門試圖通過圖像處理或視頻處理而使計算機具備“看”的力量的計算學(xué)科。通 過理解圖像形成的幾何和輻射線測定,接受器(相機)的屬性和物理世界的屬性,就有可能(至少 在某些狀況下)從圖像中推斷出關(guān)于事物的有用信息,例如一塊織物的顏色、一圈染了色的痕跡的 寬度、火星上一個移動機器人面前的障礙物的大小、監(jiān)防系統(tǒng)中一張人臉的身份、海底植物的類型 或者是mri 掃描圖中的腫瘤位置。計算機視覺爭辯的就是如何能健壯、有效地完成這類

3、的任務(wù)。最初計算機視覺被看作是人工智能的一個子方向,現(xiàn)在已成為一個活躍的爭辯領(lǐng)域并長達40 年了。傳統(tǒng)上,計算機視覺爭辯是被一些主要的應(yīng)用領(lǐng)域所推動的,例如生物視覺建模、機器人導(dǎo)航 和操作、監(jiān)防、醫(yī)療圖像以及各種檢查、檢測和識別任務(wù)。近年來,涌現(xiàn)了多模態(tài)和感知交互,推 動了一大批關(guān)于機器視覺(machine vision community)的爭辯。這些努力的重心大多是集成多種感知模態(tài)(例如計算機視覺,語音和聲音處理,觸覺的輸入/輸出)到用戶接口。尤其對于計算機視覺 技術(shù),主要的目標(biāo)是在人機交互中接受視覺作為有效的輸入模態(tài)。這種基于視頻的傳感是被動的、 無插入的,由于它不需要與用戶的交互或任何

4、有特別用途的裝置;傳感器也能夠被用于視頻會議和 其他成像用途。這種技術(shù)在基于視覺的交互領(lǐng)域中具有良好的應(yīng)用前景,例如玩耍、生物測定學(xué)和 準(zhǔn)入,還有一般的多態(tài)接口,能將視覺信息和其他的語音、語言技術(shù),觸覺以及用戶建模等相結(jié)合。這種關(guān)于人的視覺信息的獵取,已經(jīng)通向了計算機視覺中大量的爭辯領(lǐng)域,著重于建模,識別和解釋人的行為。假如牢靠且健壯地發(fā)放了,這種視覺技術(shù)可以支持交互系統(tǒng)中的一系列的功能, 主要通過傳遞相關(guān)的用戶視覺信息,例如身份、位置和動作,從而供應(yīng)關(guān)鍵的上下文信息。為了能充分地支持交互中的視覺部分,需要提出幾個任務(wù):l 人臉檢測和定位:場景中有多少人,他們在哪里?l 人臉識別:他是誰?l

5、頭和臉部的跟蹤:用戶的頭部在哪里,臉部的位置和方向是什么?l 臉部表情分析:用戶在微笑,大笑,皺眉,說話還是困乏?l 視聽語音識別:使用語音識別以及伴隨視話(lip-reading)和 face-reading,推斷用戶說什么?l 眼睛注視跟蹤:用戶的眼睛朝哪里看?l 身體跟蹤:用戶的身體在何處?關(guān)節(jié)處(articulation)是什么?l 手跟蹤:用戶的手在哪里?是 2 維的還是 3 維的?特別地,手的結(jié)構(gòu)是怎樣的?l 步態(tài)識別:這是誰的走路/跑步風(fēng)格?l 姿勢、手勢和活動識別:這個人在做什么?這些任務(wù)都格外困難,從一個攝像機拍得圖像(有時或者是多相機從不同的視角)開頭,這項 工作典型狀況下

6、至少包括每秒 30 次的 240*320 個像素(每像素 24 比特)。我們試圖很快地使這些數(shù)據(jù)變得有意義。與語音識別問題相比較,語音識別是從一個一維的,時間序列信號開頭,然后嘗試 將其分段并分類成相對少數(shù)目的已知類別(音素或詞)。計算機視覺事實上是一堆子問題的集合,這些子問題彼此間很少有共同點,且都格外簡單。基于視覺的接口任務(wù)至今,計算機視覺技術(shù)應(yīng)用到人機交互中已取得了顯著的成功,并在其它領(lǐng)域中也顯示其前景。人臉檢測和人臉識別獲得了最多的關(guān)注,也取得了最多的進展。第一批用于人臉識別的計算機程序 消滅在 60 年月末和 70 年月初,但直到90 年月初,計算機運算才足夠快,以支持這些實時任務(wù)。

7、人臉識別的問題產(chǎn)生了很多基于特征位置、人臉外形、人臉紋理以及它們間組合的計算模型,包括主要組件分析、線性判別式分析、gabor 小波網(wǎng)絡(luò)和.active appearance model(aam).很多公司,例如identix,viisage technology和 cognitec system,正在為出入、平安和監(jiān)防等應(yīng)用開發(fā)和出售人臉識別技術(shù)。這些系統(tǒng)已經(jīng)被部署到公共場所,例如機場、城市廣場以及私人的出入受限的環(huán)境。要想對 人臉識別爭辯有一個全面的生疏,見12。人臉檢測技術(shù)在一個場景中從不同的范圍和方向檢測全部的臉在近年來伴隨著實時統(tǒng)計學(xué)習(xí)方法已經(jīng)有了顯著的進展。頭部和臉部跟蹤在一些強約

8、束力的狀況下運行得很好,例如,當(dāng)在爭辯對象的臉上作標(biāo)記時。但是,在一般環(huán)境下,臉部姿勢和臉部特征位置的跟蹤照舊是一個難題。臉部表情分析也同樣是,通常它是依據(jù)精確的臉部特征跟蹤作為輸入的?,F(xiàn)在已經(jīng)存在一些有前景的能夠識別肯定范圍內(nèi)的臉部特征的原型系統(tǒng),但是它們在性能和魯棒性上仍舊有局限性。眼睛注視跟蹤(eye-gaze tracking)已經(jīng)商業(yè)化多年,主要用于殘疾的計算機用戶和科學(xué)試驗。這些系統(tǒng)接受主動式傳感,向用戶的眼睛發(fā)送一個紅外燈源作為一個基準(zhǔn)方向,但嚴(yán)格限制了頭部 的活動。以現(xiàn)在的形式,這些系統(tǒng)是不適合通用的多模態(tài)用戶接口的。為了確定一個人的位置或者為頭部和手部的運動建立一個基準(zhǔn)坐標(biāo)框

9、架,在視頻流中跟蹤身體 是格外有用的。早期的系統(tǒng)例如pfinder,通過明晰靜態(tài)背景模型,產(chǎn)生了一個身體輪廓的表示,且標(biāo)識了頭部和手部的可能位置。一些爭辯者使用了更為具體、關(guān)節(jié)運動更為簡單的動態(tài)身體模型, 盡管將圖像數(shù)據(jù)匹配到這些模型中是簡單而又慢的。雖然在動畫制作中廣泛使用了動作捕獲系統(tǒng)來 捕獲身體的精確動作,但需要用戶穿上特制的衣服或者一些接受傳感器和標(biāo)記物,這樣就使得這種 方法無法適用于通用的多模態(tài)接口。當(dāng)環(huán)境被把握(例如,固定的照明條件、相機位置和背景)且手沒有重疊時,二維和三維的手 部位置跟蹤并不困難,關(guān)注皮膚的顏色是典型的方法。然而,一般人的行為,手經(jīng)常是隱蔽的(在 口袋中,放在頭

10、后)或是被另一個手臂、手所遮擋。在這些狀況下,手部跟蹤就變得困難且需要基 于人類運動的推測。一個更困難的問題是跟蹤完整的手部關(guān)節(jié)由手結(jié)構(gòu)定義(23 個手腕dof, 6 個位置和方向dof)的 29 個自由度。wu 和huang 供應(yīng)了一個對手跟蹤和手勢識別的概述。對人身體及其組成部分的定位、識別和跟蹤只是交互的第一步,此外需要識別行為。感愛好的 行為可能有結(jié)構(gòu)化的、分別的手勢,連續(xù)的人類自然手勢或者由一系列時間范圍定義的行為(例如, 離開房間,在桌子上吃飯)。手勢識別可以作為一個直接的模式識別問題來實現(xiàn),它試圖匹配身體參 數(shù)的某個序列,或者是一個概率系統(tǒng)用來推理基于統(tǒng)計定義的姿勢模型。這個系統(tǒng)

11、必需要能區(qū)分偶 然的人類動作,有目的的操作物體的動作和那些用于溝通(有或無意識的)的手勢。語言和手勢間 的關(guān)系是很簡單的,能使通用的且上下文無關(guān)的姿勢識別自動化是一個長期的目標(biāo)。雖然在某些狀況中可以使用簡潔的狀態(tài)空間模型,但在建模和識別序列姿勢時通常接受統(tǒng)計模 型。由于統(tǒng)計模型在語音識別領(lǐng)域中的成功使用,隱馬爾可夫模型(hmm)已經(jīng)被廣泛地用于建模 和識別姿勢。一個早期的例子是一個識別系統(tǒng),能夠識別肯定數(shù)量的由starner 和pentland 開發(fā)的美國手語?,F(xiàn)在已有一些源于基本 hmm 方法的變形,用于更好地匹配視覺中更為廣泛的特征和模型。由于很多手勢包括多個組成部分,例如手部動作的弧線和

12、姿勢,序列信號比語音識別中的更簡單。 貝葉斯網(wǎng)絡(luò)在姿勢識別中也顯示其前景。基于視覺的接口技術(shù)進展盡管在一些個別應(yīng)用中取得了成功,但縱使在幾十年的爭辯之后,計算機視覺還沒有在商業(yè)上被廣泛使用。幾種趨勢好像表明白這種情形馬上會發(fā)生轉(zhuǎn)變。硬件界的摩爾定律的進展,相機技術(shù)的進步,數(shù)碼視頻安裝的快速增長以及軟件工具的可獵取性(例如intel 的 opencv libraray)使視覺系統(tǒng)能夠變得小巧、機敏和可支付。近年來,美國政府已經(jīng)投資了一些人臉識別評估項目:最初為1993 年到 1997 年的人臉識別技術(shù)(feret)項目,最近為 2000 年到 2002 年的人臉識別vendor 測試(frvt)

13、。這些項目供應(yīng)了對用于爭辯和商業(yè)的人臉識別系統(tǒng)的性能評估。frvt 2002 全面地測試了 10 個商業(yè)系統(tǒng),收集了一個格外大的數(shù)據(jù)集的性能統(tǒng)計:37437 個人的 121589 張人臉圖像,通過多維(在室內(nèi)或室外,男性或女性,年輕的或年長的)表示其性能特征。圖3 顯示了最佳系統(tǒng)對正面人臉圖像的 5 項分類的人臉檢驗結(jié)果。最近幾年,darpa 資助了用于遠(yuǎn)距離識別人和視頻監(jiān)防的大型工程。正在進行中的遠(yuǎn)距離人物身份(humanid)項目將使用多模態(tài)融合技術(shù),包括注視識別,即在很長的范圍內(nèi)(25-100 英寸) 識別人物身份。視頻監(jiān)防和監(jiān)視(vsam)項目試圖為將來的監(jiān)防應(yīng)用開發(fā)對感愛好的活動的識

14、別 系統(tǒng)。國家科學(xué)基金已經(jīng)給基于視覺接口技術(shù)的相關(guān)領(lǐng)域中的一些信息技術(shù)爭辯(itr)嘉獎了津貼。工業(yè)界中公司里(例如微軟,ibm 和英特爾)的研發(fā)試驗室在這些領(lǐng)域中做了很多的努力,同樣的在工業(yè)界中開辦了公司,例如個人機器人和消遣。近年來,隨著很多公司供應(yīng)人臉識別技術(shù)(和人臉檢測、人臉跟蹤),包括 3d 方法(例如, geometrix,a4vision 和 3dbiometrics,見 jain 和 ross 關(guān)于包括計算機視覺和其他模態(tài)的生物測定的具體描述),生物測定學(xué)市場有了顯著地擴大。一些爭辯團體和公司已開發(fā)了人臉跟蹤技術(shù),尤其是用于計算機圖形市場(玩耍和特效)。簡潔的視覺技術(shù)有效地用于

15、交互環(huán)境的一個不錯的例子是mit 媒體試驗室的幼兒室工程。幼兒室為孩子供應(yīng)了一個交互的,敘述性的劇情空間。用計算機視覺來識別用戶的位置和他們的活動可以掛念給參與者傳遞一種強制性的交互體驗?,F(xiàn)在已經(jīng)有很多其他的由高校和爭辯試驗室開發(fā)的強制性原型系統(tǒng),其中有些處于步入市場的初期階段。技術(shù)挑戰(zhàn)除了適合生物測定市場的人臉識別技術(shù)外,幾乎很少有成熟的計算機視覺產(chǎn)品或技術(shù)以支持與用戶的交互。然而,有大量且數(shù)量遞增的爭辯項目和這類原型系統(tǒng)。為了從試驗室走向真實世界, 必需說明幾個基本問題:l 魯棒性:大多數(shù)視覺技術(shù)是脆弱,缺乏魯棒性的,照明和相機位置的微小變化可能會導(dǎo)致系統(tǒng)出錯。系統(tǒng)需要在各種條件下工作,且

16、能適度地、快速地從錯誤中恢復(fù)。l 速度:對于大多數(shù)計算機視覺技術(shù),在全面和快速交互兩者間都實行了實際折衷。視頻數(shù)據(jù)太 多了,以至于無法實時地做簡單處理。我們需要更好的算法、更快的硬件設(shè)備和更靈活的方法 來決策需要計算什么,可以忽視什么。(供應(yīng)了已處理的圖像流的數(shù)碼相機能夠有很大的掛念)l 初始化:很多技術(shù)在得到了初始模型后,跟蹤效果都很好,但是初始化步驟往往很慢且需要用戶參與。系統(tǒng)必需能快速和透亮地進行初始化。l 使用性:對于開發(fā)系統(tǒng)的人來說(花費了很多時間爭辯簡單難點)視覺技術(shù)的示范使用能工作地很好,但對于那些沒有經(jīng)過“系統(tǒng)訓(xùn)練”的新手卻很困難。這些系統(tǒng)需要適應(yīng)用戶,處理無法預(yù)期的用戶行為。

17、此外,它們需要供應(yīng)簡潔的糾錯和處理錯誤會釋機制以及能供應(yīng)反饋給用戶,以避開預(yù)料之外的災(zāi)難性后果。l 上下文集成:一個基于視覺的交互技術(shù)本身不是最終的結(jié)果,而是一個更浩大的系統(tǒng)中的組成部分。手勢和活動需要放在合適的應(yīng)用過程中加以理解,而不是孤立的行為。從長期來看,這需要在各種應(yīng)用的上下文關(guān)系中深刻地理解人類行為。前三個問題已經(jīng)在日常的爭辯試驗室和全球的產(chǎn)品研發(fā)組織得到了關(guān)注,使用性和上下文集成很少被考慮,但是隨著更多的應(yīng)用開發(fā),這兩個問題將會提到爭辯日程的前面。結(jié)論計算機視覺是一個格外困難的問題,在經(jīng)過幾十年的爭辯及幾個主要應(yīng)用的推動后照舊不能解決通用情形。但是,在過去的十幾年里,人們對于相機的回轉(zhuǎn)使用以及用計算機視覺來“看人”的 愛好提升,即檢測和識別人臉,跟蹤頭部、臉部、手部和身體,分析臉部表情和身體動作,識別手 勢。在構(gòu)造實時、健壯的視覺技術(shù)上取得了重要的進展,部分是由于摩爾定律驅(qū)動的硬件性能的極 大提高。一些子問題(例如,人臉檢測和人臉識別)已經(jīng)獲得了顯著的商業(yè)成功,但是其他部分(例 如手勢識別)還沒有在商業(yè)上找到一個大的位置。全部這些領(lǐng)域,仍舊存在重要的速度和魯棒性問 題,由于快速的方法總是脆弱的,而依據(jù)原理的全面的方法又是格外慢的。與語音識別技術(shù)相比較, 語音技術(shù)已經(jīng)商業(yè)化

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論