人機交互技術(shù)_第1頁
人機交互技術(shù)_第2頁
人機交互技術(shù)_第3頁
人機交互技術(shù)_第4頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、山東大學計算機學院Lecture 42內(nèi)容提要n人機交互輸入模式n基本交互技術(shù)n圖形交互技術(shù)n筆交互技術(shù)Lecture 434.1人機交互輸入模式 n由于輸入設(shè)備是多種多樣的,而且對一個應用程序而言,可以有多個輸入設(shè)備,同一個設(shè)備又可能為多個任務服務,這就要求對輸入過程的處理要有合理的模式。q請求模式(Request Mode)q采樣模式(Sample Mode)q事件模式(Event Mode)Lecture 444.1人機交互輸入模式 n請求模式q在請求模式下,輸入設(shè)備的啟動是在應用程序中設(shè)置的。應用程序執(zhí)行過程中需要輸入數(shù)據(jù)時,暫停程序的執(zhí)行,直到從輸入設(shè)備接受到請求的輸入數(shù)據(jù)后,才繼續(xù)

2、執(zhí)行程序。程序工作,輸入設(shè)備等待程序請求遇到請求指令輸入設(shè)備工作,程序等待接收數(shù)據(jù)請求滿足圖4-1 請求模式的工作過程4.1人機交互輸入模式 n采樣模式q輸入設(shè)備和應用程序獨立地工作。輸入設(shè)備連續(xù)不斷地把信息輸入進來,信息的輸入和應用程序中的輸入命令無關(guān)。應用程序在處理其它數(shù)據(jù)的同時,輸入設(shè)備也在工作,新的輸入數(shù)據(jù)替換以前的輸入數(shù)據(jù)。當應用程序遇到取樣命令時,讀取當前保存的輸入設(shè)備數(shù)據(jù)。q優(yōu)點:這種模式對連續(xù)的信息流輸入比較方便,也可同時處理多個輸入設(shè)備的輸入信息。q缺點:當應用程序的處理時間較長時,可能會失掉某些輸入信息。程序工作數(shù)據(jù)采樣數(shù)據(jù)生成數(shù)據(jù)緩存區(qū)輸入設(shè)備工作圖4-2 采樣模式的工作

3、過程4.1人機交互輸入模式 n事件模式q輸入設(shè)備和程序并行工作。輸入設(shè)備把數(shù)據(jù)保存到一個輸入隊列,也稱為事件隊列,所有的輸入數(shù)據(jù)都保存起來,不會遺失。應用程序隨時可以檢查這個事件隊列,處理隊列中的事件,或刪除隊列中的事件。應用程序事件檢查事件調(diào)用過程模塊處理類型1事件的過程處理類型n事件的過程輸入設(shè)備圖4-3 事件模式4.2 基本交互技術(shù)n定位q確定平面或空間的一個點的坐標,是交互中最基本的輸入技術(shù)之一。q直接定位:用定位設(shè)備直接指定某個對象的位置,是一種精確定位方式。q間接定位:通過定位設(shè)備的運動控制屏幕上的映射光標進行定位,是一種非精確定位方式。其允許指定的點位于一個坐標范圍內(nèi),一般用鼠標

4、等指點設(shè)備配合光標來實現(xiàn)。圖4-4 3DS Max中的精確定位4.2 基本交互技術(shù)n筆劃q筆劃輸入用于輸入一組順序的坐標點。它相當于多次調(diào)用定位輸入,輸入的一組點常用于顯示折線或作為曲線的控制點。4.2 基本交互技術(shù)n定值q定值(或數(shù)值)輸入用于設(shè)置物體旋轉(zhuǎn)角度、縮放比例因子等4.2 基本交互技術(shù)n選擇q選擇是在某個選擇集中選出一個元素,通過注視、指點或接觸一個對象,使對象成為后續(xù)行為的焦點,是操作對象時不可缺少的一部分。n鍵盤 Ctrl+An鼠標圖4-6 選擇4.2 基本交互技術(shù)n字符串4.3圖形交互技術(shù)nWIMP界面由窗口(Windows)、圖標(Icons)、菜單(Menus)、指點設(shè)備

5、(Pointing Device)四位一體,形成桌面(Desktop)4.3圖形交互技術(shù)n幾何約束q幾何約束可以用于對圖形的方向、對齊方式等進行規(guī)定和校準。q對定位的約束(網(wǎng)格吸附) 圖4-9 Adobe Photoshop 網(wǎng)格線4.3圖形交互技術(shù)n幾何約束q方向約束n例如要繪的垂直或水平方向的線,當給定的起點和終點連線和水平線的交角小于45時,便可繪出一條水平線,否則就繪垂直線。繪制印刷線路板、管網(wǎng)圖或地籍圖時非常有用。n在Word繪圖中,通過鎖定縱橫比,在拖動線段一個端點時,線段只是沿原來方向放縮4.3圖形交互技術(shù)n引力場q引力場也可以看作是一種定位約束,通過在特定圖素(如直線段)周圍假

6、想有一個區(qū)域,當光標中心落在這個區(qū)域內(nèi)時,就自動地被直線上最近的一個點所代替,就好像一個質(zhì)點進入了直線周圍的引力場,被吸引到這條直線上去一樣。q引力場的大小要適中,太小了不易進入引力區(qū),太大了線和線的引力區(qū)相交,光標在進入引力區(qū)相交部分時可能會被吸引到不希望選的線段上去,增大誤接的概率。 4.3圖形交互技術(shù)n拖動q要把一個對象移動到一個新的位置時,如果我們不是簡單地用光標指定新位置的一個點,而是當光標移動時拖動著被移動的對象,這樣會使用戶感到更直觀,并可使對象放置的位置更恰當。q圖形模式和圖像模式4.3圖形交互技術(shù)n橡皮筋技術(shù)q被拖動對象的形狀和位置隨著光標位置的不同而變化。q不斷地進行畫圖擦

7、除畫圖的過程4.3圖形交互技術(shù)n操作柄技術(shù)q可以用來對圖形對象進行縮放、旋轉(zhuǎn)、錯切等幾何變換。先選擇要處理的圖形對象,該圖形對象的周圍會出現(xiàn)操作柄,移動或旋轉(zhuǎn)操作柄就可以實現(xiàn)相應的變換。4.3圖形交互技術(shù)n三維交互技術(shù)q面臨問題n三維交互技術(shù)采用六自由度輸入設(shè)備。所謂六自由度,指沿三維空間X、Y、Z軸平移和繞X、Y、Z軸旋轉(zhuǎn),而現(xiàn)在流行的用于桌面型圖形界面的交互設(shè)備,如鼠標、軌跡球、觸摸屏等只有兩個自由度(沿平面X、Y軸平移)。n窗口、菜單、圖符和傳統(tǒng)的二維光標在三維交互環(huán)境中會破壞空間感,用戶難以區(qū)分屏幕上光標選擇到對象的深度值和其他顯示對象的深度值,使交互過程非常不自然。三維交互技術(shù)n直接

8、操作q三維光標必須有深度感,即必須考慮光標與觀察者距離,離觀察者近的時候較大,離觀察者遠的時候較小。q為保持三維用戶界面的空間感,光標在遇到物體時不能進入到或穿過物體內(nèi)部。q為了增加額外的深度線索,輔助三維對象的選擇,可以采用半透明三維光標。q三維光標可以是人手的三維模型圖4-17 虛擬手三維交互技術(shù)n三維Widgetsq三維交互界面中的一些小工具n三維空間中漂浮的菜單、用于拾取物體的手的三維圖標、平移和旋轉(zhuǎn)指示器等。q1992年美國Brown大學計算機系提出三維Widget設(shè)計原則n三維Widget的幾何形狀應能表示其用途(eg:一個用來扭曲物體的Widget,最好本身就是一個扭曲的物體)n

9、適當選擇Widget控制的自由度由于三維空間有六個自由度,有時會使三維交互操作變得過于復雜,因此在用戶使用某種Widget時,可以固定或者自動計算某些自由度的值n根據(jù)三維用戶界面的用途確定Widget的功能。例如,用于藝術(shù)和娛樂的三維用戶界面的Widget,只要能夠完成使畫面看起來像的操作就可以了,而用于工業(yè)設(shè)計和制造的用戶界面,則必須保證交互操作參數(shù)的精確性。三維交互技術(shù)n三視圖輸入q用二維輸入設(shè)備在一定程度上實現(xiàn)三維的輸入。n如果輸入一個三維點,只要在兩個視圖上把點的對應位置指定后便唯一確定了三維空間中的一個點;n把直線段上兩端點在三視圖上輸入后便可決定三維空間的一條直線;n把一個面上的各

10、頂點在三視圖上輸入后,也唯一確定了三維空間中的一個面;n如果把一個多面體上的各面均用上述方法輸入, 也就在三維空間中輸入了一個多面體。4.4 語音交互技術(shù)n語音合成n語音識別q計算機通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳奈谋疚募蛎畹募夹g(shù),其所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等。q目前主流的語音識別技術(shù)是基于統(tǒng)計的模式識別的基本理論。n語音識別系統(tǒng)大致可分為語音特征提取,聲學模型與模式匹配,以及語言模型與語義理解語音識別系統(tǒng)n1. 語音特征提取q輸入的模擬語音信號首先要進行預處理,包括預濾波、采樣和量化、加窗、端點檢測、預加重等。q基于語音幀

11、的特征提取方法:將語音信號分為有重疊的若干幀,對每一幀提取語音特征。語音識別系統(tǒng)n2. 聲學模型與模式匹配q聲學模型對應于語音到音節(jié)概率的計算。在識別時將輸入的語音特征同聲學模型進行匹配與比較,得到最佳的識別結(jié)果q目前采用的最廣泛的建模技術(shù)是隱馬爾科夫模型HMM建模和上下文相關(guān)建模n隱馬爾科夫模型HMM建模qHMM刻畫語音信號需作出兩個假設(shè)n一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān)n另一是輸出值只與當前狀態(tài)(或當前的狀態(tài)轉(zhuǎn)移)有關(guān)q語音識別中使用HMM通常是用從左向右單向、帶自環(huán)、帶跨越的拓撲結(jié)構(gòu)來對識別基元建模,一個音素就是一個三至五狀態(tài)的HMM,一個詞就是構(gòu)成詞的多個音素的HMM串行起來構(gòu)成的H

12、MM,而連續(xù)語音識別的整個模型就是詞和靜音組合起來的HMM。n上下文相關(guān)建模方法q建模時考慮了協(xié)同發(fā)音的影響q協(xié)同發(fā)音是指一個音受前后相鄰音的影響而發(fā)生變化,從發(fā)聲機理上看就是人的發(fā)聲器官在一個音轉(zhuǎn)向另一個音時只能逐漸變化,從而使得后一個音的頻譜與其他條件下的頻譜產(chǎn)生差異。q英語的上下文相關(guān)建模通常以音素為基元語音識別系統(tǒng)n3. 語言模型與語義理解q語言模型計算音節(jié)到字的概率。n規(guī)則模型n統(tǒng)計模型q用概率統(tǒng)計的方法來揭示語言單位內(nèi)在的統(tǒng)計規(guī)律,其中N-Gram模型簡單有效,被廣泛使用。qN-Gram模型基于這樣一種假設(shè),第n個詞的出現(xiàn)只與前面n-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就

13、是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計n個詞同時出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。微軟語音軟件開發(fā)包nMicrosoft Speech SDKqSpeech API(SAPI)nAPI for Text-to-Speech把文本轉(zhuǎn)化為語音輸出q金山詞霸的單詞朗讀功能ISpVoice * pVoice = NULL;HRESULT hr = CoCreateInstance(CLSID_SpVoice, NULL, CLSCTX_ALL, IID_ISpVoice, (void *)&pVoice);pVoice-Speak(LHel

14、lo world, 0, NULL);nAPI for Speech Recognition語音識別應用程序接口,聲波轉(zhuǎn)換成文字4.5筆交互技術(shù)n筆式用戶界面,中國科學院軟件研究所戴國忠研究員等提出了PIBG 范式qPIBG范式:P(Physical object)、IB(Icons,Buttons)、G(Gesture)qWIMP范式:W(windows)、I M (icons,menus)、P(pointing systems) 相對應。4.5.1 手寫識別技術(shù)n脫機識別:機器對于已經(jīng)寫好或印刷好的靜態(tài)的語言文本圖像的識別;n聯(lián)機識別:用筆在輸入板上寫:用戶一邊寫,機器一邊進行識別,可實時

15、人機交互。n手寫體識別的方法和識別率取決于對手寫約束的層次,這些約束主要是手寫的類型、用戶的數(shù)量、詞匯量的大小以及空間的布局。聯(lián)機手寫識別n系統(tǒng)通過記錄文字圖像抬筆、落筆、筆跡上各像素的空間位置,以及各筆段之間的時間關(guān)系等信息,對這些信息進行處理。n在處理過程中,系統(tǒng)以一定的規(guī)則提取信息特征,再由識別模塊將信息特征與識別庫的特征進行比較,加以識別。(筆輸入的識別特征庫是基于許多人習慣的書寫筆順的統(tǒng)計特征建立的。)n最后轉(zhuǎn)化為計算機所使用的文字代碼。漢字手寫輸入板預處理模式表達(特征提?。┡袆e(分類或句法分析)字典(特征模板集合或句法規(guī)則集合)漢字代碼脫機手寫識別n困難:q脫機手寫識別得到的描述

16、則是點陣圖像,要得到筆段的點陣通常需要細化運算。細化會損失一些信息,并且不可能得到時間順序信息。q脫機識別中,筆畫與筆畫之間經(jīng)常粘連,很難拆分,而且筆段經(jīng)過與另一筆段交叉分成兩段后,也難以分清是否應該連起來。n結(jié)構(gòu)識別、統(tǒng)計識別以及神經(jīng)網(wǎng)絡(luò)方法脫機手寫識別n結(jié)構(gòu)識別方法q漢字的組成結(jié)構(gòu):由筆劃(點、橫、豎、撇、捺等)、偏旁、部首構(gòu)成q通過把復雜的漢字模式分解為簡單的子模式直至基本模式元素,對子模式的判定以及基于符號運算的匹配算法,實現(xiàn)對復雜模式的識別。q優(yōu)點是區(qū)分相似字的能力強,缺點是抗干擾能力差。脫機手寫識別n統(tǒng)計識別方法q將漢字看為一個整體,其所有的特征是從整體上經(jīng)過大量的統(tǒng)計而得到的,然

17、后按照一定準則所確定的決策函數(shù)進行分類判決。q統(tǒng)計識別的特點是抗干擾性強,缺點是細分能力較弱。n神經(jīng)網(wǎng)絡(luò)q具有學習能力和快速并行實現(xiàn)的特點,因此可以通過神經(jīng)網(wǎng)絡(luò)分類器的推廣能力準則和特征提取器的有效特征提取準則,對手寫字符進行識別。數(shù)字墨水技術(shù)n通過三階貝塞爾曲線來描述筆輸入的筆跡,存儲方式使得數(shù)字墨水文件很小,從而可以更有效地進行存儲。n數(shù)字墨水的處理包括數(shù)字墨水的表示、壓縮和顯示,智能的墨水分析技術(shù),墨水標記和注解技術(shù),墨水的智能操作以及墨水存儲和搜索等一系列有關(guān)技術(shù)。q墨水解析技術(shù)可以將筆輸入的文字串解析成單字,從而將復雜的語句級手寫識別化繁為簡,分解成語句解析和單字識別兩個部分。n微軟已實現(xiàn)了數(shù)字墨水技術(shù)對英文、德文、法文、韓文、日文、簡體和繁體中文等語言的支持。nWindows XP

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論