人機交互技術(shù)報告_第1頁
人機交互技術(shù)報告_第2頁
人機交互技術(shù)報告_第3頁
人機交互技術(shù)報告_第4頁
人機交互技術(shù)報告_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、 西南交通大學(xué)人機交互技術(shù)報告課 程 人機交互技術(shù) 學(xué) 院 信息科學(xué)與技術(shù)學(xué)院 專 業(yè) 軟件工程 姓 名 學(xué) 號 20119050 日 期 2016年月日 摘要隨著數(shù)字化及智能化的普及,在日常生活及工作中,我們隨處可以見到一些語音與聽覺系統(tǒng)的應(yīng)用,像公交車的語音報站系統(tǒng)、語音郵件系統(tǒng)、手機的語音命令撥打電話等等,都是這樣的應(yīng)用。那么,本文就現(xiàn)階段的一些語音與音頻技術(shù),包括離散詞語識別、連續(xù)語音識別、語音信息系統(tǒng)、語音生成、非語音聽覺交互五種,針對每一類技術(shù)各自的應(yīng)用領(lǐng)域、優(yōu)缺點及其發(fā)展趨勢進行了詳細(xì)地探討、分析。最后,整體總結(jié)分析了語音與聽覺界面當(dāng)前的發(fā)展及其未來發(fā)展趨勢。關(guān)鍵詞:語音與聽覺界

2、面;離散詞語識別;連續(xù)語音識別;語音信息系統(tǒng);語音生成;非語音聽覺界面1. 引言對計算機講話和讓計算機說話的夢想已經(jīng)誘惑了很多研究人員及幻想家。1968年,Arthur C. Clarke 在2011:星際漫游的書和電影中對HAL 9000 計算機的幻想,已經(jīng)為科幻小說中計算機的性能和一些高級開發(fā)人員設(shè)定了標(biāo)準(zhǔn)。雖然硬件設(shè)計人員已經(jīng)在語音識別、生成和處理方面取得了引人注目的進步,但是與科學(xué)小說的幻想相比,當(dāng)前的成功仍是令人清醒的。那么在現(xiàn)階段,語音與聽覺交互到底有著怎么樣的發(fā)展呢?在哪些領(lǐng)域進行的了應(yīng)用呢?應(yīng)用的效果怎么樣呢?優(yōu)勢與劣勢各是什么呢?針對上述這些問題,語音與聽覺交互的發(fā)展趨勢又會

3、是怎樣呢 ?這些都是本文將要討論的問題。2. 語音與聽覺界面通俗易懂的講,語音交互是要實現(xiàn)對計算機講話和讓計算機講話。目前語音交互取得了很多進展,但是仍然存在著很多不能忽視的問題??偟膩碇v,語音交互的實際應(yīng)用只有在他們適合用戶的工作速度快,認(rèn)知負(fù)載底,出錯率低的需要時才會成功。從這些需求來看,語音交互似乎都不能很好地滿足用戶的需要,原因是:首先,語音輸出是相對緩慢的;其次,與手眼協(xié)調(diào)相比,語音命令對用戶工作記憶的要求更高,對正在執(zhí)行任務(wù)的用戶影響更大,比如計劃和問題求解便是這樣的;最后,背景噪聲和用戶語音的變體對語音識別的挑戰(zhàn)仍舊很大,使得語音的識別的出錯率還是占有一定的比重。盡管語音交互存在

4、著這么多不能忽視的,不盡如人意的問題,語音交互仍有以下一些方面的優(yōu)點:語音存儲轉(zhuǎn)發(fā)和語音生成可預(yù)測、低成本、廣泛可用。對于有身體缺陷者,語音有明顯好處。電話會話的及時性和情感影響是人與人之間交流中引人矚目的組成成分。語音和音頻技術(shù)有五種:離散詞語識別、連續(xù)語音識別、語音信息系統(tǒng)、語音生成、非語音聽覺交互。接下來,就從這五個具體方面,解析語音交互的優(yōu)點與缺點,及可能的發(fā)展趨勢。2.1離散詞語識別離散詞語識別設(shè)備識別特定人所說的單個詞,對于10010000 個詞或更大的詞匯量,其工作的可靠性能夠達到90%98%。目前,離散詞語識別設(shè)備的使用分兩種方式,一種是由使用者通過特定方式對系統(tǒng)進行詞匯學(xué)習(xí)訓(xùn)

5、練,另外一種則不進行,因為更容易推廣。因為技術(shù)的限制,語音識別設(shè)備的固有缺點,使得語音的識別率并不是很高,可以通過下列方式提高識別率:安靜的環(huán)境、頭戴式話筒、精心選擇的詞匯。離散詞語識別技術(shù)的缺點是顯而易見的,這種技術(shù)面臨著如下的問題:因為他的不可靠的識別,許多用戶不愿使用。語言識別設(shè)備的識別率低可能是由以下原因引起的:背景聲音的改變、用戶生病或者處于壓力之下,詞匯表中的單詞相似。其優(yōu)點則是,通過語音識別設(shè)備,使用者就可以把眼睛與手等本來要用于關(guān)注指令的器官解放出來。當(dāng)然這個優(yōu)點是有局限性地,因為語音設(shè)備的使用,必然會占用用戶的更多的工作記憶。所以并不能適應(yīng)用戶過多使用工作記憶的場合。從上面對

6、語音交互設(shè)備優(yōu)點的闡述,可以知道,在一些特定的領(lǐng)域,語音識別仍有著較好的應(yīng)用,比如飛機發(fā)送機機檢察員就是用著語音系統(tǒng)。他們一邊檢查設(shè)備,一邊通過頭戴無線話筒發(fā)指令。同樣地,離散詞語識別設(shè)備針在身體有殘疾者已經(jīng)有著較好的應(yīng)用。相反地,如果是在普通的計算機應(yīng)用系統(tǒng)上,使用顯示器的用戶就會明顯勝于使用語音系統(tǒng)的。因為使用光標(biāo)來檢索或者操作比使用語音不論是從識別率還是效率上都要高效。用戶的手腳與眼睛并不需要那么忙碌,而通過語音設(shè)備解放出來。盡管從繪圖程序?qū)φ{(diào)色版的選取上來看,語音系統(tǒng)快過光標(biāo)系統(tǒng)。問題是,語音系統(tǒng)占用用戶的更多記憶。對于需要短時記憶工作的場景不合適。因而對于語音系統(tǒng),最重要的一點不足就

7、是說命令或者聽對計劃和問題求解的破壞更大,會占用用戶的工作記憶,在一些很需要工作記憶的地方就會暴漏出語音識別設(shè)備的不足。而在一些不太需要工作記憶的場合,比如玩具使用者的身上,語音設(shè)別就可以成功應(yīng)用。由于語音會占用用戶的工作記憶這一點并不是容易解決的問題,當(dāng)前研究項目就會專注于提高在困難條件下的識別率,使得語音識別系統(tǒng)在那些可以使用的場合下可以更高效地使用。這些研究包括盡量消除對與講話者有關(guān)訓(xùn)練的需要,并把處理的詞匯增加到1萬個以上?;谝苿釉O(shè)備的、基于語音的文本輸入也在改進。這些困難條件就會包括,語音文本輸入效率低、方言噪聲干擾影響語音識別等??偨Y(jié)上述對離散語言設(shè)備的論述可以知道,離散語音設(shè)備

8、可以將人的本來用于控制命令的器官解放出來,使得工作更高效,但卻有著出錯率高、占用用戶工作記憶等缺點。所以離散語音系統(tǒng)在專門的應(yīng)用系統(tǒng)中工作良好,但語音識別系統(tǒng)并沒有起到通用交互式媒介的作用,因為直接操作設(shè)備速度較快,能使動作或命令可見而容易編輯。既然離散語音識別系統(tǒng)存在著上述的這些問題與優(yōu)勢,那么將語音與直接操縱結(jié)合起來將是有用的。2.2連續(xù)語音識別連續(xù)語音識別主要是用于語音聽寫。語音聽寫是可以做到得到,缺點是有著較高的出錯率。從用戶角度說,與寫作相比,聽寫干擾計劃和句子構(gòu)造造成的認(rèn)知負(fù)擔(dān)通常會降低文檔質(zhì)量。從語音識別角度說識別口語單詞之間的界限比較困難。為了解決困難:通常會讓用戶朗讀標(biāo)準(zhǔn)文字

9、段來進行訓(xùn)練。連續(xù)語音識別系統(tǒng)使用戶能夠口述寫信和口頭撰寫報告。在準(zhǔn)備標(biāo)準(zhǔn)報告方面,語音輸入似乎做得最好;而在創(chuàng)造性寫作有思想性地文章,因為需要用工作記憶,鍵盤輸入最好。連續(xù)語音識別使得電視節(jié)目、訴訟節(jié)目、演講等的自動瀏覽和檢索特定單詞或者主題成為可能。連續(xù)語音識別的另外一個應(yīng)用就是身份識別??偟膩碚f,需要抓住連續(xù)語音識別的高出錯率這個特點,還有連續(xù)語音識別快捷這個優(yōu)點進行綜合分析。那么可以得到的結(jié)論是,連續(xù)語音識別在一些實時準(zhǔn)確性要求不高的,但又在一些比較花時間的且有時間進行錯誤修改的場合或者一些不需要識別太多語句的場合是有用武之地的。至于在一些比較影響口述者思維的情況下,連續(xù)語音識別還要通

10、過技術(shù)的繼續(xù)進步才能做到。盡管連續(xù)語音識別到今天取得了很多重要的進步,不過在普通環(huán)境下進行舒服自然的交流至今還做不到。2.3語音信息系統(tǒng)人的聲音作為信息源和作為通信基礎(chǔ)的吸引力是強烈的。存儲的語音通常用于提供關(guān)于旅游勝地和政府服務(wù)的、組織辦公時間等基于電話的消息。這些語音信息系統(tǒng)通常稱為交互式語音設(shè)備,如果能夠使用恰當(dāng)?shù)拈_發(fā)方法和度量標(biāo)準(zhǔn),就能以低成本提供良好的客戶服務(wù)。語音信息系統(tǒng)的弊端仍然在于語音輸出速度緩慢、語音的短暫性及瀏覽/檢索的困難。但如果能巧妙地規(guī)避這些問題就可以充分利用它廉價的優(yōu)點,進行推廣。語音信息系統(tǒng)主要有以下一些方面的應(yīng)用:(1)語音信息技術(shù)在個人語音郵件系統(tǒng)中非常流行,

11、基于電話的語音系統(tǒng)能夠使用通過小鍵盤輸入的用戶命令來存儲和轉(zhuǎn)發(fā)口信,用戶能夠接收消息、重放消息、回復(fù)呼叫、向其他用戶轉(zhuǎn)發(fā)消息、刪除消息、把消息存檔等。從這一點上看來,語音郵件技術(shù)工作可靠、相當(dāng)?shù)土?。?)語音信息技術(shù)的另一應(yīng)用,便是錄音機向數(shù)字化方法的邁進以及小型手持式語音設(shè)備的應(yīng)用。(3)作為語音信息技術(shù)的另一方面體現(xiàn),博物館的語音導(dǎo)覽和有聲讀物已經(jīng)獲得了成功,允許用戶控制節(jié)奏,傳達館長的熱情和作者的感情。視覺觸覺聽覺三者結(jié)合則可促進學(xué)習(xí)。對于語音信息系統(tǒng),其優(yōu)點在于語音輸出是使用人的聲音作為源聲音,是很具有吸引力的。而缺點仍是在進行語音識別時的識別困難。針對語音識別困難,最簡單的解決辦法是

12、規(guī)定用戶使用陳述所選數(shù)字或者所選選擇項單詞的方式,來簡化語音識別。而要使用直接識別自然語言,仍然需要進一步研究。2.4語音生成語音生成廣泛應(yīng)用于消費產(chǎn)品和電話應(yīng)用系統(tǒng),它是使用數(shù)字化語音段的廉價、簡潔、可靠的系統(tǒng),已經(jīng)用于汽車導(dǎo)航系統(tǒng)、互聯(lián)網(wǎng)服務(wù)和公共設(shè)施控制室等系統(tǒng)中。語音生成的弊端在于,在有些環(huán)境下是不合適的,因為有些東西不適合以語音的形式表現(xiàn)出來。語音生成的一個優(yōu)點就是,這種機器合成聲,容易引起注意。盲人的應(yīng)用系統(tǒng)就是語音生成的一個重要的成功案例?;赪eb的語音應(yīng)用系統(tǒng)是有前途的。例如:手機用戶能夠通過視覺顯示和語音生成輸出的組合來訪問Web信息。基于電話的語音信息系統(tǒng)可能把數(shù)字化的語

13、音段和語音生成混合在一起,以允許提供適當(dāng)?shù)那檎{(diào)和當(dāng)前信息呈現(xiàn)。電話的普遍性使得這些服務(wù)有吸引力。語音合成在技術(shù)上是可行的,在應(yīng)用上還有很到的擴展空間。對于設(shè)計人員來說,需要做的是找到該技術(shù)優(yōu)于預(yù)錄和數(shù)字化的人類語音消息的情形。在我來看,語音合成與預(yù)錄和數(shù)字化語音比較起來,優(yōu)點大致有一下幾種:廉價;特有的機器合成音在很多場合更可以引人注意。語音合成的發(fā)展趨勢應(yīng)該是作為顯示的補充或者是嵌入到小型消費產(chǎn)品中,使得產(chǎn)品更加靈活有吸引力。2.5非語音聽覺界面除語音之外,聽覺輸出包括個人的音調(diào)和通過聲音和音樂的組合來表示的更復(fù)雜的信息。音樂設(shè)計對于非語音聽覺界面的開發(fā)有著重要的作用,特別是移動和嵌入式設(shè)備

14、的開發(fā)。有用的區(qū)別是在成為聲標(biāo)的熟悉聲音與成為耳標(biāo)的、其含義必須加以學(xué)習(xí)創(chuàng)造出來的抽象聲音之間。聽標(biāo)、耳標(biāo)和可聽化技術(shù)是聽覺顯示研究的三個重要研究內(nèi)容2。有研究者對聽覺界面中耳標(biāo)與聽標(biāo)的效率和可用性進行了比較研究,結(jié)果發(fā)現(xiàn)耳標(biāo)與聽標(biāo)均為聽覺用戶界面設(shè)計中的有效信息表征方式,但其適用場合有所不同2?,F(xiàn)在,已經(jīng)發(fā)展了多種聽覺界面的概念。提供關(guān)于用戶動作反饋的滾動條,提供聽覺信息的地圖或圖表和呈現(xiàn)統(tǒng)計信息的表格數(shù)據(jù)或地圖的可聽話。針對盲人用戶或電話用途的聽覺Web瀏覽器已經(jīng)開發(fā)出來,用戶能夠聽文本和連接標(biāo)簽然后通過按鍵輸入做出選擇。而這里的這些聲音就屬于非語言聽覺界面。在非語言聽覺界面方面,科學(xué)家們

15、還有著更大膽的設(shè)想,將數(shù)據(jù)以一系列立體的或三維的聲音形式顯示而不是以圖像的形式呈現(xiàn)。在非語言聽覺界面方面的另一想法是,把傳統(tǒng)的音樂添加到用戶界面設(shè)計中,這樣使得用戶能夠更自然的聽懂這些聲音的含義。非語言聽覺界面的一個新的應(yīng)用是,在創(chuàng)造新的音樂設(shè)備,在這方面潛力似乎特別有吸引力,結(jié)合觸覺敏銳設(shè)備有可能給予音樂家類似樂器的體驗發(fā)明新樂器?,F(xiàn)在更快的硬件和創(chuàng)新的用戶界面正在促進更新的虛擬音樂設(shè)備的產(chǎn)生。關(guān)于非語音聽覺界面,我個人的想法是,這個技術(shù)應(yīng)該主要應(yīng)用于界面設(shè)計中,用來使得交互形象化,通過一些聲標(biāo)與耳標(biāo)使得用戶能夠更加方便輕松地進行交互。但是聽覺界面的使用要注意的是度,適當(dāng)?shù)穆犛X交互可以使得交

16、互變得活躍起來,太多的交互就會在一定場景下就會變成噪音與累贅,影響交互效果。通過查找關(guān)于非語言聽覺方面的資料以及課堂上的學(xué)習(xí),了解到了聽覺界面的如下一些優(yōu)點:人對聲音信號隨時間的變化特別敏感,即時間解析度;聲音具有全向特性;聽覺是視覺缺陷者獲得信息的主要通道之一;聲音信號與其他信號共同使用回答道更自然和搞笑的人機交互效果;聲音信號有可能表示多維數(shù)據(jù)流;聲音信號的反應(yīng)時間和處理時間快于視覺;聽覺界面可以解決視覺界面中的誤操作。所以說聽覺在界面設(shè)計上的應(yīng)用將會越用越靈活。就我個人而言,非語言聽覺界面后期的發(fā)展應(yīng)該更加注意的是聽覺應(yīng)用場景與度的把握,以及通過對用戶的心理研究,研究出更適合的非語音聽覺

17、交互界面。3. 總結(jié)通過分以上對語音與聽覺界面的分析可以得出以下一些結(jié)論。在現(xiàn)階段,語音交互總體來說,從輸出的方面,有著輸出緩慢、語音短暫、瀏覽/搜索困難的障礙,識別方面,有著增加認(rèn)知負(fù)荷、噪音干擾、不穩(wěn)定識別的障礙。但其優(yōu)勢也是明顯的,主要集中在這樣一些時機:到用戶有視覺障礙時、當(dāng)說話者手忙的時候、當(dāng)需要移動性時、當(dāng)說話者眼睛被占用時、當(dāng)惡劣的或狹窄的條件妨礙使用鍵盤時。只要能把握好語音交互的上述特點,便可以更好地進行應(yīng)用。語音交互的應(yīng)用主要集中在一些特定領(lǐng)域,比如軍用、醫(yī)療等一些嵌入式計算機領(lǐng)域或者針對一些殘障用戶群體。另外就是一些娛樂領(lǐng)域。在這些領(lǐng)域的應(yīng)用已經(jīng)相對成熟起來。以后語音交互的

18、發(fā)展應(yīng)該重點偏向一些特定的領(lǐng)域,這樣才能使得語音識別變得更高效。正如黃學(xué)東在其無處不在的語音用戶界面(VOICE UI)中所說,“我們認(rèn)為下一個推動計算機新時代到來的最關(guān)鍵的技術(shù)之一,應(yīng)該是語音和通用的用戶界面技術(shù),這一技術(shù)可以使用戶在任何地方、任何時候都能夠獲得信息,控制計算機。”3,語音用戶界面的優(yōu)勢便是操作簡潔性,因為鍵盤鼠標(biāo)這些設(shè)備并不是在任何場景下都可以使用的。所以印證了語音界面在嵌入式領(lǐng)域可以大有作為這樣一個觀點。就我個人的觀點并結(jié)合文章所述,語音交互的兩個重要問題,一是識別率低,二是占用用戶工作記憶。我覺得可以通過下列的思路來考慮:(1)在這些特定領(lǐng)域可以使用一些技巧來增加識別率降低錯誤率,比如通過自我學(xué)習(xí)與積累在一個領(lǐng)域中可能使用到的語法庫、詞語庫、句子庫的方法,使得語音的識別變得專項起來,那么在這個領(lǐng)域的語音識別率就會大大提高。(2)除了語音的識別率低,另外語音的使用會占用用戶的工作記憶的問題,就如前面所說,可以通過手動操作與語音操作結(jié)合起來的辦法來克服,通過

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論