




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、學(xué)校代碼:密級:論文編號:上治廖教學(xué)碩士掌位論文手形特征與運動軌跡論文題目:擔(dān)箜金煎盤查壬夔遲型學(xué)科專業(yè):鹽越旦墊盎作者姓名:望豎墊指導(dǎo)教師:至盎盤耋咝完成日期:三五生六月摘要人與計算機的交互活動越來越成為人們?nèi)粘;顒拥囊粋€重要組成部分。而由于手勢本身具有的多樣性、多義性,以及時和空間上的差異性等特點,加之人手是復(fù)雜的變形體以及視覺本身的不適定性,使此方向研究成為一個極富挑戰(zhàn)性的多學(xué)科交叉研究課題。本文結(jié)合上海市自然科學(xué)基金資助課題。手勢識別與合成”,從手勢圖像的預(yù)處理、手勢的特征提取和手勢的分類器設(shè)計等三方面研究了基于視覺的動態(tài)手勢識別的識別算法。在圖像預(yù)處理階段,我們先對手勢圖像進行無冗余
2、的幀分離操作,將我們感興趣的手勢圖像從視頻流中分離出來,接下來我們進行灰度化處理和平滑去噪,平滑后我們用自適應(yīng)閾值法對手勢圖像進行二值化,得到了較好的二值化效果。在特征提取環(huán)節(jié),我們先提取手形特征并依據(jù)手形特征進了粗分類,然后提取手勢圖像的運動軌跡特征與手勢的手形特征相結(jié)合產(chǎn)生了手勢的特征向量。在分類器的設(shè)計上,我們將套手勢圖像這樣劃分:套為訓(xùn)練集套為測試集。然后先根據(jù)手勢訓(xùn)練集學(xué)習(xí)手勢特征,再計算測試集中手勢與訓(xùn)練集中手勢的歐氏距離,最后用近鄰法來識別判斷。實驗的結(jié)果證明了我們的方法是完全行之有效的,識別率達到了。關(guān)鍵詞:動態(tài)手勢識別,圖像預(yù)處理,白適應(yīng)閾值,近鄰法似;:,仇,。():,。論
3、文獨創(chuàng)性聲明本論文是我個人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研究成果。論文中除了特別加以標(biāo)注和致謝的地方外,不包含其他人或者其他機構(gòu)已經(jīng)發(fā)表或撰寫過的研究成果。其他同志對本研究的啟發(fā)和所做的貢獻均已在論文中作了明確的聲明并表示了感謝。作者簽名:群托絲日期:絲專論文使用授權(quán)聲明本人同意上海海事大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留送交論文復(fù)印件,允許論文被查閱和借閱;學(xué)??梢陨暇W(wǎng)公布論文的全部和部分內(nèi)容,可以采用影印、縮印或者其它復(fù)制手段保存論文。保密的論文在解密后遵守此規(guī)定。儲擗嶧導(dǎo)日期:第一章緒論模式識別簡介模式識別誕生于世紀(jì)年代,經(jīng)過年的發(fā)展到年代初迅速發(fā)展成為學(xué)科。它所研究的
4、理論和方法在很多科學(xué)和技術(shù)領(lǐng)域中得到廣泛的重視,同時也推動了人工智能系統(tǒng)和計算機應(yīng)用的發(fā)展。許久以柬的研究成果涉及各個領(lǐng)域,包括遙感數(shù)據(jù)分析、地震波的檢測、自動視覺檢測、非數(shù)字系統(tǒng)中的故障檢測和分析、醫(yī)學(xué)數(shù)據(jù)分析、文字識別、語音識別、人臉和手勢的識別等等。在模式識別中,有兩種經(jīng)典的識別方法:、統(tǒng)計方法。又稱為定量統(tǒng)計判斷方法,就是用一組統(tǒng)計量來描述模式?;谶@種方法的識別過程由四個部分構(gòu)成:數(shù)據(jù)獲取、預(yù)處理、特征抽取和分類。結(jié)構(gòu)方法。又稱句法分析,是對模式進行結(jié)構(gòu)描述和分析,把一個復(fù)雜模式分化成為若干較簡單的子模式的組合,并模仿語言學(xué)中句法的層次結(jié)構(gòu),運用形式語言和自動機識別技術(shù)?;诮y(tǒng)計識別
5、法的模式識別系統(tǒng)主要由五部分組成:數(shù)據(jù)獲取、預(yù)處理、特征抽取,分類設(shè)計和分類器。如圖??徒Y(jié)果信息獲取過程是通過測量、采樣和量化,用矩陣和向量表示二維圖像或一維波形。預(yù)處理的目的是除去噪聲,加強有用信息,并對種種因素造成的退化現(xiàn)象進行復(fù)原。特征抽取的過程是對原始數(shù)據(jù)進行選擇或變換,得到最能反映分類本質(zhì)的特征,構(gòu)成特征向量。為了把待識模式分配到各自的模式類中去,必須設(shè)計出一套分類判斷規(guī)則基本做法是:用一定數(shù)量的樣本(稱為訓(xùn)練樣本集),確定出一套分類判別規(guī)則,使得按這套分類判別規(guī)則對待識模式分類所造成的錯誤識別率最小或引起的損失最小。這就是分類器設(shè)計的過程。分類器按已確定的分類判別規(guī)則對待識模式進行
6、分類判別,輸出分類結(jié)果。課題背景手勢是一種自然、直觀、易于學(xué)習(xí)的人機交互手段,它是聾啞人進行信息交流的一種最常用方式。手勢識別的目標(biāo)就是通過計算機提供一種有效的、準(zhǔn)確的機制將手勢翻譯成文本或語音使得聾人和聽力正常入之間的交流變得更方便、快捷。手勢識別的研究可以應(yīng)用于計算機輔助啞語教學(xué)、電視節(jié)目雙語播放、虛擬人的研究、電影制作中的特技處理、動畫的制作、醫(yī)療研究、游戲娛樂等諸多方面,同時也有助于改善和提高聾啞人的生活學(xué)習(xí)和工作條件,為他們供更好的服務(wù);另外,手勢的研究涉及到教學(xué)、計算機圖形學(xué)、機器人運動學(xué)、醫(yī)學(xué)等多學(xué)科。因此,手勢識別的研究是一個非常有意義的課題。手勢的識別不但具有深遠的研究意義,
7、而且具有廣闊的實際應(yīng)用前景,至少表現(xiàn)在以下幾個方面:()從認(rèn)知科學(xué)的角度,研究人的視覺語言理解的機制,提高計算機對人類語言的理解水平;()對語音識別起著輔助作用;()利用手勢控制中的智能化;()機器人的示范學(xué)習(xí);()虛擬現(xiàn)實系統(tǒng)中的多模式接口;()能夠使得聾啞人,尤其是使得文化程度比較低的聾啞人,使用手語和正常人交流等。手勢識別分類根據(jù)識別對象分類根據(jù)識別對象形態(tài)的差異可以將手勢識別分為靜態(tài)手勢識別和動態(tài)手勢識別。靜態(tài)手勢識別的研究重點對象是手的姿態(tài)()和單個手形。這方面的工作國內(nèi)有:哈工大的李勇、高文等提出的基于指尖染色和手指染色的顏色手套模型,實現(xiàn)可以識別中國手指字母表個基本手形的靜態(tài)手勢
8、識別系統(tǒng)。、哈工大的張良國等提出基于距離的手勢識別。以及上海交通大學(xué)的劉江華等用最小二乘支持向量機()作為分類器對個字母手勢進行識別“;國外的有等提出過專門的靜態(tài)識別方法“。動態(tài)手勢識別的識別對象是一組連續(xù)的手勢動作,通過相應(yīng)的識別算法,識別出整個手勢動作的意義,在這方面國內(nèi)外研究者投入了很大的精力和熱情,也提出了各種識別的算法【岱,本文后續(xù)內(nèi)容將重點討論動態(tài)手勢識別。根據(jù)手勢輸入設(shè)備不同分類根據(jù)手勢識別研究中所采用的手勢輸入設(shè)備不同可以分類為基于數(shù)據(jù)手套的手勢識別和基于視覺的手勢識別?;跀?shù)據(jù)手套的手語識別系統(tǒng),是利用數(shù)據(jù)手套和位置跟蹤器測量手勢在空間運動的軌跡和時序信息,這種方法的優(yōu)點是系
9、統(tǒng)的識別率高,缺點是打手語的人要穿戴復(fù)雜的數(shù)據(jù)手套和位置跟蹤器,并且因為目輸入設(shè)備比較昂貴,大量推廣比較困難。歷史上,在最先取得了“數(shù)據(jù)手套“專利因此,它也可被認(rèn)為是最早進行手勢識別研究的人,手勢識別的歷史比手語識別的歷史長,一般認(rèn)為手語識別研究始于年。從識別方法上看,目前主要采用的是隱馬爾可夫模型()、模板匹配方法及神經(jīng)網(wǎng)絡(luò)方法,模板匹配主要用于少量孤立手勢的識別?;谝曈X(有些文獻稱為:基于圖像)的手勢識別研究是利用攝像機采集手勢信息,并進行識別。該方法的優(yōu)點是輸入設(shè)備便宜,計算機與人的交互更加趨于自然化,但其目靜識別率較低,實時性較差,特別很難適用于大詞匯量的手語識別。不同文化背景對手勢
10、的定義是有區(qū)別的,由于手勢本身具有的多樣性、多義性以及時日和空間七的差異性等特點,加之人手是復(fù)雜變形體以及視覺本身的不適定性,因此摹于視覺的手勢識別是一個多學(xué)科交叉的、富有跳戰(zhàn)性的研究課題?;谝曈X的動態(tài)手勢識別系統(tǒng)一個基于視覺的動態(tài)手勢識別系統(tǒng)的總體構(gòu)成如下:首先,通過一個或多個攝像機獲取視頻數(shù)掘流。接著,系統(tǒng)根據(jù)手勢輸入的交互模型檢測數(shù)掘流罩是否有手勢出現(xiàn)。如果有,則把該手勢從視頻信號中切分出來。然后,選擇手勢模型進行手勢分析,分析過程包括特征檢測和模型參數(shù)估計,識別階段,根據(jù)模型參數(shù)對手勢進行分類并根據(jù)需要生成手勢描述。最后,系統(tǒng)根據(jù)生成的描述去驅(qū)動具體應(yīng)用具體步驟如下:一、幀分離將手勢
11、圖像幀從視頻數(shù)據(jù)流中分離出來并進行相應(yīng)的預(yù)處理供系統(tǒng)調(diào)用。二、手勢分割手勢分割的目的是在;景中僅保留手勢部分,對于大部分分割工具,必須通過以下三步來實現(xiàn):用一個邊緣檢測器確定圖像的邊界。通過一種運動檢測技術(shù),決定圖像的所有運動部分。通過結(jié)合兩種信息來抽取運動邊界。三、手勢建模手勢模型對于手勢識別系統(tǒng)至關(guān)重要,特別是對確定識別范圍起關(guān)鍵性作用,模型的選取根本上取決于具體應(yīng)用,對于某個給定的應(yīng)用,一個非常簡單并且粗糙的模型可能就是充分的。然而,如果要實現(xiàn)自然的人機交互,那么必須建立一個精細有效的手勢模型,使得識別系統(tǒng)能夠?qū)τ脩羲龅慕^大多數(shù)(如果不是所有的)手勢作出正確的反應(yīng)(識別或拒識)。目前,
12、主要的手勢建模方法是通過手勢的表現(xiàn)給手勢建模,這種基于表現(xiàn)的手勢模型是建立在手勢圖像的表現(xiàn)之上,它通過分析手勢在圖像(序列)里的表現(xiàn)特征去給手勢建模,基于表現(xiàn)的手勢模型主要有以下幾種:基于灰度圖像本身的表現(xiàn)模型。例如,把人手的完整圖像序列作為手勢模板”。在手指跟蹤應(yīng)用里,僅僅手指的圖像也可以用作模板。運動歷史圖像也可作為手勢模型,運動歷史圖像是指在某個時間區(qū)問上累加圖像序列罩各單個像素點的運動位置而形成的圖像。基于可變形模板的表觀模型。可變形模板是物體輪廓上某些點的集合,般把它用作插值節(jié)點去近似物體輪廓。模板由平均點集合、點可變性參數(shù),以及所謂的外部變形構(gòu)成,平均點集合描述了某一組形狀的“平均
13、”形狀,點可變性參數(shù)描述了允許的形變,通常稱這兩組參數(shù)為內(nèi)部參數(shù),外部變形或者外部參數(shù)描述了一個可變形模板的全局運動,如旋轉(zhuǎn)、平移等。基于可變形模板的人手模型通常被用于人手跟蹤洶,最近,有人把可變形模板擴展成可交形模型(點分碲模型)用于手勢跟蹤?;趫D像屬性的表現(xiàn)模型。我們把從圖像屬性抽取的參數(shù)統(tǒng)稱為圖像屬性參數(shù),它們包括:輪廓、邊界、圖像矩、圖像特征向量以及區(qū)域直方圖特征等等,由于圖像矩計算簡單,因此常被用作圖像屬性參數(shù),其它常被使用的屬性參數(shù)還包括矩、方向直方圖、顏色直方圖等等?;谶\動圖像的表現(xiàn)模型。這類表現(xiàn)模型主要用在動態(tài)手勢識別里,例如,通過運動邊界點以及方差約束計算光流,然后通過向
14、量聚類以及運動平滑性約束抽取手勢的運動軌跡,并根據(jù)軌跡坐標(biāo)建立手勢模型。四、手勢分析手勢分析階段的任務(wù)就是估計選定的手勢模型的參數(shù),它由特征檢測和參數(shù)估計兩個串行任務(wù)組成。在特征檢測過程中,首先必須定位做手勢的主體(人手)。根據(jù)所用的線索不同,可以把定位技術(shù)分為基于顏色定位、基于運動定位、以及多模式定位等三種。絕大多數(shù)顏色定位技術(shù)依賴于直方圖匹配或者利用皮膚的訓(xùn)練數(shù)據(jù)建立查找表的方法?;陬伾ㄎ患夹g(shù)的主要缺點是在不同的光照條件下皮膚顏色變化較大,這經(jīng)常導(dǎo)致未被發(fā)現(xiàn)的皮肽區(qū)域或者誤檢測出非皮膚區(qū)域。盡管不同手勢模型的參數(shù)各不相同,但是用于計算模型參數(shù)的圖像特征基元通常是非常相似的。常用的圖像特
15、征基元包括灰度圖像、二值影像、區(qū)域、邊界及輪廓或者指尖等。特征檢測結(jié)束之后,就可以進行參數(shù)估計。在如前所述的四類基于表觀的手勢模型中,基于灰度圖像本身的表現(xiàn)模型有許多不同的參數(shù),在最簡單的情況下,可以選擇模型視圖序列作為參數(shù),也可以使用序列罩各幀圖像關(guān)于平均圖像的特征分解表示,最近有人累積圖像序列里的信息,從而形成單個圖像,即所謂的運動歷史圖像,然后,采用基于圖像描述技術(shù)(如幾何矩描述或者特征分解)去參數(shù)化那些圖像?;诳勺冃文0灞碛^模型的典型參數(shù)是模板節(jié)點的均值和它們的方差。通過在訓(xùn)練集上進行主成分分析(,)可得到模型參數(shù)。與可變形模板模型參數(shù)相聯(lián)系的還有外部變形參數(shù)(指手或身體在工作區(qū)間里
16、的旋轉(zhuǎn)和平移運動)??梢栽陬愃朴趧傮w運動估計的框架下估計模型參數(shù)的更新,所不同的是可變形模板需要估計由于模板可變性而引起的附加位移?;趫D像屬性表現(xiàn)模型的常用參數(shù)是手形幾何矩、矩、以及朝向直方圖等等。這些圖像特征參數(shù)易于估計,但是它們對圖像中其它非手物體非常敏感。五、手勢識別手勢識別就是把模型參數(shù)空間里的軌跡(或點)分類到該空問里某個子集的過程。靜態(tài)手勢對應(yīng)著模型參數(shù)空日】里一個點,而動態(tài)手勢則對應(yīng)著模型參數(shù)空日罩的一條軌跡。目前主要采用的識別方法有模板匹配方法、神經(jīng)網(wǎng)絡(luò)方法及隱馬爾可夫模型(刪)。模板匹配主要用于少量孤立手勢的識別,該方法計算簡單、速度快。神經(jīng)網(wǎng)絡(luò)方法具有分類特性及抗干擾性,
17、然而由于其處理時間序列的能力不強,目前廣泛用于靜態(tài)手勢的識別。著名的的系統(tǒng)采用神經(jīng)網(wǎng)絡(luò)方法作為識別技術(shù)。對于分析區(qū)間內(nèi)的手勢信號,通常采取刪方法進行模型化。刪是眾周知并廣泛使用的統(tǒng)計方法,一般拓撲結(jié)構(gòu)下的具有非常強的描述手勢信號的時空變化能力,在動態(tài)手勢識別領(lǐng)域一直占有主導(dǎo)地址,如卡內(nèi)基梅隆大學(xué)的美國手勢識別系統(tǒng)及臺灣大學(xué)的臺灣手勢識別系統(tǒng)等均采用刪作為系統(tǒng)的識別技術(shù)。在基于刪的識別算法罩,每種手勢有一個姍??捎^察符號對應(yīng)著模型參數(shù)空間里的向量(點),例如幾何矩向量,矩,特征圖像系數(shù)向量,或者空間的運動速度等等?;趧h識別技術(shù)的優(yōu)點包括提供了時日尺度不變性,保持了概率框架、以及具有自動分割和分
18、類能力。另外,與利用蹦識別由戴有色手套的用戶通過攝像機輸入的個孤立手勢詞,正確率為啪。然而正是由于拓撲結(jié)構(gòu)的一般性,導(dǎo)致這種模型在分析手勢信號時過于復(fù)雜,使得訓(xùn)練和識別計算量過大。尤其是在連續(xù)的中,由于需要計算大量的狀態(tài)概率密度,需要估計的參數(shù)個數(shù)較多,使得訓(xùn)練及識別的速度相對較慢,因而以往手勢識別系統(tǒng)所采用的刪一般為離散舢。手勢識別的一般方法模板匹配技術(shù)這是一種最簡單的識別技術(shù),它將輸入的原始數(shù)據(jù)與預(yù)先存儲的模板進行匹配,通過測量兩個模板之間的相似度來完成識別任務(wù)。如張良國,吳江琴等人論文基于距離的手勢識別就是利用改進過的距離,通過計算預(yù)處理后的輸入圖像的距離和標(biāo)準(zhǔn)模板庫中各種圖像的距離進行
19、判斷伽神經(jīng)網(wǎng)絡(luò)技術(shù)這是一種較新的模式識別技術(shù),具有自組織和自學(xué)習(xí)能力,能有效抗噪聲和處理不完整的模式以及具有模式推廣能力,比較常用的方法是基于模糊神經(jīng)網(wǎng)絡(luò)的手勢識別?!?,其網(wǎng)絡(luò)結(jié)構(gòu)有層組成:第一層為輸入層。該層的各個節(jié)點直接與輸入向量的各分量連接,它起著將輸入值:卜”屯,】傳送到下一層的作用,輸入層節(jié)點數(shù)。廳,即七維向量,其中分別為數(shù)據(jù)手套中取出的各個角度值,值域為,。第二層每個節(jié)點代表一個語言變量值。用于計算各輸入分量屬于各語言變量值模糊集合的隸屬度函數(shù)。所用隸屬函數(shù)為高斯函數(shù)表示的正態(tài)分布函數(shù),即:;(州其中:,是輸入量的維數(shù),:,。是模糊分割數(shù);巳,分別表示隸屬函數(shù)的中心和寬度。該層的節(jié)
20、點總數(shù):×:,系統(tǒng)將該層的每個輸入層的節(jié)點模糊化為到個分支節(jié)點,故共有節(jié)點至個。第三層是歸一層,它是一個中間過渡性的緩沖變量,它與規(guī)則層節(jié)點一一對應(yīng),它的每個接點代表一條模糊規(guī)則,用于匹配模糊規(guī)則前件,計算出每條規(guī)則的適用度。如果利用兩種合成算子,則有兩種適用度,取小求解法或連乘求解法求口。總數(shù)為,系統(tǒng)對每條規(guī)則口一,有一個對應(yīng)的整型數(shù)組變量存放形成它的模糊層中的節(jié)點值的下標(biāo)值,以作備用。第四層的節(jié)點數(shù)與第三層相同,即,它所實現(xiàn)的是歸一化計算,口口,善口;,(:,。):第五層是輸出層,它所實現(xiàn)的是清晰化計算求解結(jié)果,即。善,則為一眥,其中(:,)這里的相當(dāng)于),一的第個語言值隸屬函數(shù)
21、的中心值,上式寫成向量形式,。:口:,口該系統(tǒng)的輸出層節(jié)點數(shù)據(jù)結(jié)構(gòu)為十三維的向量,其中,分別為該節(jié)點的輸入節(jié)點值與相應(yīng)權(quán)值的乘積,標(biāo)準(zhǔn)庫輸出層的正確取值范圍為至之間。該層的節(jié)點只有當(dāng)輸入層節(jié)點在庫中有匹配時才有有效值(約為的值)所以對于每個輸入的手勢,該層中最多有一個節(jié)點值約為,當(dāng)隸屬度函數(shù)小于允許誤差時近似取為。而接近于以致達到誤差允許范圍內(nèi)的節(jié)點下標(biāo)值,即為所識別的手勢在標(biāo)準(zhǔn)手勢庫中對應(yīng)的輸出層下標(biāo)值。統(tǒng)計分析技術(shù)通過統(tǒng)計樣本特征向量來確定分類是一種基于概率統(tǒng)計的方法。該技術(shù)的缺點是要求人們從原始數(shù)據(jù)中提取特定的特征向量,而不能直接對原始數(shù)據(jù)進行識別,其中常用方法之一的是基于變換的特征提取
22、方法(又稱主元分析方法,)列。對于一系列圖像(),石),)我們要找出一個特征向量集(,)廄【,】相應(yīng)的主分量為(,),噍一彰五()所以能量函數(shù)要小于一個容忍的度一;蠢旺。)一覓(旺()一元)一;妻()一。()()一,)其中互【)!蘭:一。廄,廄,田苧至只)囊?guī)詈蟮妮敵隽_()應(yīng)該盡量與()接近村歹()善元)。薈一帚奇異值分解法用經(jīng)典的奇異值分解獲取的奇異值()來表示手勢圖像的代數(shù)特征嘲,以“是一幅手勢圖像,它有分解。其中,曉拙(,九,九,)(土如土九)“,“,“。,“,“)“,心“,)、其中砰是朋和彳的特征值,是的奇異值。(:,()接近零的項較多,去掉它們得到萬。善玎孑可以看作在特征圖像“:,
23、球;,“,上的投影的疊加,再計算它和標(biāo)準(zhǔn)模板庫中的特征向量的點乘距離,按照一定的準(zhǔn)則進行判斷。基于幾何矩的識別方法圖像矩的屬性在統(tǒng)計學(xué)和力學(xué)中有以下相似之處。一個概率密度函數(shù)的零階、一階、二階矩分別表示其全概率、數(shù)學(xué)期望和方差。而對于力學(xué)矩,質(zhì)量空問分布的零階、一階、二階矩分別表示全部質(zhì)量、矩心位置和慣量。如果一幅圖像被認(rèn)為是一個二維密度分布,那么與空間位置有關(guān)的像素值的幾何矩函數(shù),同樣能夠提供該圖像的形狀信息,例如,圖像的總面積、圖像矩心的坐標(biāo)以及圖像的方位。這些形狀特點能被進一步用于構(gòu)造特征矢量,而這些特征矢量在圖像的平移、旋轉(zhuǎn)、尺度變化時保持不變。零階到三階矩用于描述總體水平上的圖像特征
24、,而更高階矩則含有更好的圖像細節(jié),但通常對噪聲敏感,可以變換方式減少或消除噪聲的影響。這種方法是通過計算原始圖像中的一系列幾何矩和標(biāo)準(zhǔn)模板庫中的幾何矩的點乘距離進行判斷。相關(guān)的研究歷史和現(xiàn)狀從較早時期到九十年代,己經(jīng)發(fā)展了很多基于手勢的應(yīng)用。研制出了一種基于校對者標(biāo)記的文本編輯器啪。建立了一個用于標(biāo)志程序設(shè)計的手勢界面”。的研究小組制造出了一個利用手勢輸入的語音得分編輯器以及一個圖形編輯器。制作了一個工具包,用來建立使用單擊手勢識別器的基于手勢的應(yīng)用儀器。在手提電腦的發(fā)展浪潮中,筆錄入計算機開始出現(xiàn)。這種計算機不需要鍵盤,其核心技術(shù)包括手寫字識別和手勢識別。另外,對當(dāng)前的手勢識別的技術(shù)和應(yīng)用做
25、了一個綜述文章。人體運動,特別是手勢在近年來已經(jīng)成為領(lǐng)域的重要課題陬“。然而,許多以前的基于手勢的應(yīng)用需要特殊的硬件,諸如鼠標(biāo),鍵盤實現(xiàn)手勢的輸入。它們不方便而且很不自然。為了讓人手成為更加自然的輸入工具,許多方案諸如數(shù)據(jù)手套,利用在手套上的可以直接測量關(guān)節(jié)角和手部空間位置的傳感器來進行人手運動的跟蹤。不幸的是,這樣的設(shè)備昂貴而且笨重,不適合實際操作。采用無接觸的基于視覺的技術(shù)利用低成本的攝像機來捕捉人手的運動是具有前景的一種方案。這種技術(shù)同時促進了建模,圖像分析,形態(tài)模擬和手勢識別等多種技術(shù)的發(fā)展。手勢的識別是一項復(fù)雜的技術(shù),包括了運動建模,運動分析,模式識別的機器學(xué)習(xí)以及語言學(xué)習(xí)。根據(jù)不同
26、的應(yīng)用深度,手勢可以分為好幾個種類,諸如對話手勢、控制手勢、操作手勢和通信手勢。手語是一個很重要的通信手勢。因為手語的結(jié)構(gòu)性很強,所以很適于作為計算機視覺算法的試驗平臺“。與此同時,對于殘障人士而言,也是實現(xiàn)交流的一個很好選擇??刂剖謩菔悄壳盎谝曈X的界面研究()的焦點嘲。視覺目標(biāo)也可以通過分析點狀手勢來進行定位“”一些顯示控制的應(yīng)用已經(jīng)證明了點控手勢識別在的應(yīng)用前景。在基于視覺手勢識別方面,具有代表性的研究成果包括:年富士通實驗室完成了對個手語符號的識別工作;和將戴上指尖具有高亮標(biāo)記的視覺手套的手勢作為系統(tǒng)的輸入,可識別種手勢;等在對美國手語中帶有詞性的個詞匯隨機組成的短句子識別率達至“;和
27、從視頻錄像中提取特征,采用技術(shù)識別個孤立詞,正確率為。利用數(shù)據(jù)手套等典型傳感設(shè)備的方法中,臺灣大學(xué)的等人利用單個數(shù)掘手套作為手語輸入設(shè)備,可識別臺灣手語課本中的個基本詞條,識別率為”,的和在年完成了一個操縱機器人的手勢控制系統(tǒng)嘲;用作為手語輸入設(shè)備,識別由個孤立詞構(gòu)成的詞匯集,正確率為啪。此外,與將兩種方法相結(jié)合用于美國手語識別,交互采用一個位置跟蹤器及三個互相垂直的攝像機作為手勢輸入設(shè)備,完成了個孤立詞的識別,識別率為蚓。年開始,他們對手勢詞進行了基于視覺的非特定人識別研究【年,他們完成了基于單只數(shù)據(jù)手套的漢語手指字母流的識別側(cè),隨后在年實現(xiàn)了個詞的連續(xù)手語識別“”及個孤立詞的手語識別,在年
28、在國際上首次實現(xiàn)了詞以上的連續(xù)中國手語識別系統(tǒng)嘲。盡管已經(jīng)實現(xiàn)了大詞匯量的手語識別系統(tǒng),但中國手語識別仍然面臨許多挑戰(zhàn)性課題,如:手勢不變特征的提取、手勢之的過渡模型、手語識別的最小識別基元、自動分割識別基元、詞匯量可擴展的識別方法、手語識別的輔助信息、非特定人的手語識別問題、混合手指語和手勢語的手語識別以及中國手勢語語法等。本論文的工作本論文對基于計算機視覺的動態(tài)手勢分割和識別進行研究。首先對手勢視頻流進行了幀分離操作,通過顏色檢測來分割手勢,識別過程采取了自適應(yīng)閾值二值化方法進行預(yù)處理,特征提取兼顧了手勢本身的形狀特征和整個手勢序列的運動軌跡特征,以中國手語中的扳、不是、擦、撮、打、給、掛
29、、撈、拿、推、托、抓個單手手勢為識別對象刪,獲得了較高的識別率。系統(tǒng)流程如圖卜所示。預(yù)處理結(jié)果集圖系統(tǒng)流程本論文是上海市自然科學(xué)基金項目一一“手勢識別與合成”(基金編號:)課題的動態(tài)手勢識別算法研究部分。第二章圖像預(yù)處理手勢視頻流獲取手勢識別與人臉識別不同,它沒有公開的現(xiàn)成的可供研究者使用的圖像庫,所以手勢識別的第一步工作就是得到識別對象手勢圖像庫。實驗中,我們采用視頻輸入設(shè)備采集了中國手語中的:扳、不是、擦、撮、打、給、掛、撈、拿、推、托、抓個單手手勢,每個手勢拍攝了套樣,本其中套作為訓(xùn)練集套作為測試集,排除套,拍攝樣本為像素位真彩色,幀每秒,手勢最短為秒最長為秒。視頻流格式采用標(biāo)準(zhǔn)的格式,
30、我們利用提供的類庫對其進行讀寫。視頻流樣本格式的縮寫)是一種(的縮寫)文件格式,多用于音視頻捕捉、編輯、回放等應(yīng)用程序中。通常情況下,一個文件可以包含多個不同類型的媒體流(典型的情況下有一個音頻流和一個視頻流),不過含有單一音頻流或單一視頻流的文件也是合法的??梢运闶遣僮飨到y(tǒng)上最基本的、也是最常用的一種媒體文件格式。文件格式文件使用四字符碼()來表征數(shù)據(jù)類型,比如、等。操作系統(tǒng)使用的字節(jié)順序是,因此一個四字符碼實際的值應(yīng)為。另外,四字符碼中像一樣含有空格也是合法的??谖募紫群幸粋€如圖的文件頭結(jié)構(gòu)。字節(jié)字節(jié)字節(jié)圖文件結(jié)構(gòu)最開始的個字節(jié)是一個四字符碼,表示這是一個文件;緊跟著后面用個字節(jié)表示此
31、文件的大??;然后又是一個四字符碼說明文件的具體類型,比如、等;最后就是實際的數(shù)據(jù)。文件大小值的計算方法為:實際數(shù)掘長度(文件類型域的大小);也就是說,文件大小的值不包括域和“文件大小”域本身的大小。文件的實際數(shù)掘中,通常還使用了列表()和塊()的形式來組織。列表可以嵌套子列表和塊。其中,列表的結(jié)構(gòu)為:是一個四字符碼,表示這是一個列表;占用字節(jié),記錄了整個列表的大?。灰彩且粋€四字符碼,表示本列表的具體類型;就是實際的列表數(shù)據(jù)。值的計算方法為:實際的列表數(shù)據(jù)長度(域的大?。灰簿褪钦f值不包括域和域本身的大小。再來看塊的結(jié)構(gòu):、是一個表示塊類型的四字符碼:占用字節(jié),記錄了整個塊的大;為實際的塊數(shù)據(jù)。
32、值指的是實際的塊數(shù)據(jù)長度,而不包括域和域本身的大小。(在下面的內(nèi)容中,將以()的形式來表示一個列表,以()的形式來表示一個塊,如【】中括號中的元素表示為可選項。)文件格式文件類型用一個四字符碼來表示。整個文件的結(jié)構(gòu)為:一個頭兩個列表(一個用于描述媒體流格式、一個用于保存媒體流數(shù)據(jù))一個可選的索引塊。文件的展開結(jié)構(gòu)大致如下:(主信息頭數(shù)據(jù))(流的頭信息數(shù)據(jù))(流的格式信息數(shù)據(jù))【(可選的額外的頭信息數(shù)據(jù))】【(可選的流的名字)】)()【(可選的索引塊數(shù)據(jù))】)首先,()表征了文件類型。然后就是文件必需的列表嵌套了一系列塊和子列表,;必須為;本數(shù)據(jù)結(jié)構(gòu)的大小,不包括最初的個字節(jié)(和第一個列表列表,
33、用于描述文件中各個流的格式信息(文件中的每一路媒體數(shù)據(jù)都稱為一個流)。首先是一個塊,用于記錄文件的全局信息,比如流的數(shù)量、視頻圖像的寬和高等,可以使用一個數(shù)據(jù)結(jié)構(gòu)來操作:兩個域);視頻幀間隔時間(以毫秒為單位)這個文件的最大數(shù)據(jù)率;數(shù)據(jù)填充的粒度;文件的全局標(biāo)記,比如是否含有索引塊等;總幀數(shù);為交互格式指定初始幀數(shù)(非交互格式應(yīng)該指定為);本文件包含的流的個數(shù);建議讀取本文件的緩存大?。☉?yīng)能容納最大的塊);視頻圖像的寬(以像素為單位)視頻圖像的高(以像素為單位),保留;然后,就是一個或多個子列表。(文件中有多少個流,這里就對應(yīng)有多少個子列表。)每個子列表至少包含一個塊和一個塊,而塊(保存編解碼
34、器需要的一些配置信息)和塊(保存流的名字)是可選的。首先是塊,用于說明這個流的頭信息,可以使用一個隊數(shù)據(jù)結(jié)構(gòu)來操作:;必須為;本數(shù)據(jù)結(jié)構(gòu)的大小,不包括最初的個字節(jié)(和兩個域);流的類型:(音頻流)、(視頻流),(流)、(文字流);指定流的處理者,對于音視頻來說就是解碼器;標(biāo)記:是否允許這個流輸出?調(diào)色板是否變化?;流的優(yōu)先級(當(dāng)有多個相同類型的流時優(yōu)先級最高的為默認(rèn)流);為交互格式指定初始幀數(shù);這個流使用的時間尺度流的開始時日】;流的長度(單位與和的定義有關(guān));讀取這個流數(shù)據(jù)建議使用的緩存大?。涣鲾?shù)據(jù)的質(zhì)量指標(biāo)(,);的大小;指定這個流(視頻流或文字流)在視頻主窗口中的顯示位置視頻主窗口由肼山
35、結(jié)構(gòu)中的和決定);然后是塊,用于說明流的具體格式。如果是視頻流,則使用一個數(shù)據(jù)結(jié)構(gòu)來描述;如果是音頻流,則使用一個數(shù)據(jù)結(jié)構(gòu)來描述。當(dāng)文件中的所有流都使用一個子列表說明了以后(子列表出現(xiàn)的順序與媒體流的編號是對應(yīng)的,比如第一個子列表說明的是第一個流(),第二個子列表說明的是第二個流(),以此類推),列表的任務(wù)也就完成了,隨后跟著的就是文件必需的第二個列表列表,用于保存真正的媒體流數(shù)據(jù)(視頻圖像幀數(shù)據(jù)或音頻采樣數(shù)據(jù)等)。那么,怎么柬組織這些數(shù)據(jù)呢?可以將數(shù)掘塊直接嵌在列表里面,也可以將幾個數(shù)據(jù)塊分組成一個列表后再編排進列表。(在讀取文件內(nèi)容時,建議將一個列表中的所有數(shù)據(jù)塊一次性讀出。)但是,當(dāng)文件
36、中包含有多個流的時候,數(shù)據(jù)塊與數(shù)據(jù)塊之間如何來區(qū)別昵?于是數(shù)據(jù)塊使用了一個四字符碼來表征它的類型,這個四字符碼由個字節(jié)的類型碼和個字節(jié)的流編號組成。標(biāo)準(zhǔn)的類型碼定義如下:。(非壓縮視頻幀)、(壓縮視頻幀),(改用新的調(diào)色板)、(音縮視頻)。比如第一個流()是音頻,則表征音頻數(shù)據(jù)塊的四字符碼為;第二個流()是視頻,則表征視頻數(shù)據(jù)塊的四字符碼為或。對于視頻數(shù)據(jù)來說,在數(shù)據(jù)序列中間還可以定義一個新的調(diào)色板,每個改變的調(diào)色板數(shù)據(jù)塊用來表征,新的調(diào)色板使用一個數(shù)據(jù)結(jié)構(gòu)來定義。(如果一個流的調(diào)色辦中途可能改變,則應(yīng)在這個流格式的描述中,也就是洲結(jié)構(gòu)的中包含一個型碼表征。標(biāo)記。)另外,文字流數(shù)據(jù)塊可以使用隨
37、意的類最后,緊跟在列表和列表之后的,就是文件可選的索引塊。這個索引塊為文件中每一個媒體數(shù)據(jù)塊進行索引,并且記錄它們在文件中的偏移(可能相對于列表,也可能相對于文件開頭)。索引塊使用一個四字符碼來表征,索引信息使用一個數(shù)據(jù)結(jié)構(gòu)來定義。;必須為;和曲兩個域)本數(shù)掘結(jié)構(gòu)的大小,不包括最初的個字節(jié)(;表征本數(shù)據(jù)塊的四字符碼列表等信息薩;說明本數(shù)據(jù)塊是不是關(guān)鍵幀、是不是;本數(shù)據(jù)塊在文件中的偏移量本數(shù)掘塊的大??;這是一個數(shù)組為每個媒體數(shù)據(jù)塊都定義一個索引信息;如果一個文件包含有索引塊,則應(yīng)在主信息頭的描述中,也就是結(jié)構(gòu)的中包含一個標(biāo)記。我們通過一個自定義的類來對手勢視頻流進行讀取操作,該類定義如下:視頻流
38、文件名;獲取視頻流長度(,)獲取視頻圖像尺寸(觸);獲取視頻流中某一幀;關(guān)閉();開視頻文:();保存視頻流中某幀;構(gòu)造函數(shù);析構(gòu)函數(shù):;,文件指針;花指針;對象:;流信息;總幀數(shù),;蛩像寬和高;,;,從讀取壓縮后數(shù)據(jù)流,自己解壓,;。;手勢圖像幀獲取微軟為軟件開發(fā)人員提供了一個專門用于視頻捕獲的(),是微軟公司推出的關(guān)于數(shù)字視頻的一個軟件包,它能使應(yīng)用程序通過數(shù)字化設(shè)備從傳統(tǒng)的模擬視頻源得到數(shù)字化的視頻剪輯。的一個關(guān)鍵思想是播放時不需要專用硬件,為了解決數(shù)字視頻數(shù)據(jù)量大的問題,需要對數(shù)據(jù)進行壓縮。它引進了一種叫的文件標(biāo)準(zhǔn),該標(biāo)準(zhǔn)未規(guī)定如何對視頻進行捕獲、壓縮及播放,僅規(guī)定視頻和音頻該如何存儲
39、在硬盤上,以及在文件中交替存儲視頻幀和與之相匹配的音頻數(shù)據(jù),使程序員能通過發(fā)送消息或設(shè)置屬性來捕獲、播放和編輯視頻剪輯,為在系統(tǒng)中實現(xiàn)視頻捕獲提供了標(biāo)準(zhǔn)的接口。文件的打開我們先用提供的方法來打開視頻文件然后通過方法來獲取文件信息,然后再通過方法和方法打開并獲得流信息,至此我們已經(jīng)將一個文件打開,接下來將獲取整個視頻流中的某一幀圖像從而獲得位真彩色的手勢位圖圖像。手勢圖像幀數(shù)據(jù)獲取在已經(jīng)將文件打開的前提下,為了優(yōu)化系統(tǒng)操作,我們通過指針偏移方法計算出目標(biāo)幀的指針偏移量從而獲得指向目標(biāo)幀的指針,這樣我們就避免了圖像在內(nèi)存中復(fù)制操作,提高了效率。由于我們獲得的指針指向目標(biāo)幀的丌始處,而我們的目的是直
40、接獲取目杯幀的數(shù)據(jù),所以我們要將指針再偏移一次。我們先定義指針,再將該指針指向?qū)ο笾兴饕秊榈膸ǎ?,)我們再定義指針。,并讓我們剛剛獲得的指針偏移結(jié)構(gòu)的大小后指向,這樣我們就獲得了直接指向索引號為幀的數(shù)掘區(qū)的指針()();至此我們已經(jīng)找到了某一手勢圖像幀表示圖像信息的數(shù)據(jù)。圖像的色彩模式模式有幾種方法可以定量地表示彩色,如彩色數(shù)字圖像中像素的顏色。最直接的方法是使用紅、綠、藍的亮度值,大小限定到一定范圍。我們把這種約定稱為模式。模式是基于自然界中種基色光的混合原理,將紅()、綠()和藍()中基色按照從(黑)到(白色)的亮度值在每個色階中分配,從而指定其色彩。當(dāng)不同亮度的基色混合后,便會產(chǎn)生出種顏色,約為萬種。例如,一種明亮的紅色可能值為,值為,值為。當(dāng)種基色的亮度值相等時,產(chǎn)生灰色;當(dāng)種亮度值都是時,產(chǎn)生純白色;而當(dāng)所有亮度值都是時,產(chǎn)生純黑色。當(dāng)種色光混合生
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 法律學(xué)合同法試題解析
- 2023年高級育嬰師考試試題及答案三套
- 2025年上半年宜賓發(fā)展產(chǎn)城投資限公司第三批員工公開招聘易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年上半年安徽阜陽市圖書館外包服務(wù)人員公開招聘45人易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年上半年安徽省懷寧縣事業(yè)單位招考易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年上半年安徽安慶望江縣中醫(yī)醫(yī)院第二次招聘專業(yè)技術(shù)人員60人易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年上半年安徽安慶市數(shù)據(jù)資源管理局公開招聘工作人員10人易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年上半年安徽合肥高新區(qū)管委會直屬國企業(yè)招聘28人易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年上半年安徽合肥廬江縣部分事業(yè)單位選調(diào)工作人員13人易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年上半年寧波市職教中心學(xué)校招考機房管理人員易考易錯模擬試題(共500題)試卷后附參考答案
- 2024年湖南省中考英語試題卷(含答案)
- 一例結(jié)腸穿孔手術(shù)患者護理查房
- 《鐵路職業(yè)道德》課件-3.1 鐵路職業(yè)意識
- 生物材料伴我行 知到智慧樹網(wǎng)課答案
- 【碧桂園項目成本控制存在的問題及優(yōu)化建議探析11000字(論文)】
- 2024年河北省初中學(xué)業(yè)水平適應(yīng)性測試生物學(xué)試卷
- 《鴻門宴》(教學(xué)課件)- 統(tǒng)編版高中語文必修下冊
- 標(biāo)識標(biāo)牌制作及安裝項目技術(shù)方案
- 醫(yī)療器械物價收費申請流程
- DB3410T 34-2024特定地域單元生態(tài)產(chǎn)品價值核算規(guī)范
- 青島中石化輸油管道爆炸事故調(diào)查報告
評論
0/150
提交評論