版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 HYPERLINK l _bookmark0 概述篇 1 HYPERLINK l _bookmark1 人機(jī)交互的概念 1 HYPERLINK l _bookmark2 人機(jī)交互的發(fā)展歷程 2 HYPERLINK l _bookmark5 專家 AI TIME論道人機(jī)交互 VS 智能 5 HYPERLINK l _bookmark8 技術(shù)篇 13 HYPERLINK l _bookmark9 觸控交互 13 HYPERLINK l _bookmark14 聲控交互 15 HYPERLINK l _bookmark17 動作交互 21 HYPERLINK l _bookmark19 眼動交互
2、27 HYPERLINK l _bookmark23 虛擬現(xiàn)實(shí)輸入 31 HYPERLINK l _bookmark29 多模態(tài)交互 40 HYPERLINK l _bookmark30 信息無障礙中的智能交互技術(shù) 42 HYPERLINK l _bookmark31 人機(jī)交互領(lǐng)域必讀論文 46 HYPERLINK l _bookmark32 人才篇 53 HYPERLINK l _bookmark33 學(xué)者情況概覽 53 HYPERLINK l _bookmark39 代表性學(xué)者簡介 56 HYPERLINK l _bookmark41 應(yīng)用篇 73 HYPERLINK l _bookmar
3、k42 智能終端 73 HYPERLINK l _bookmark43 智能穿戴 75 HYPERLINK l _bookmark44 智能家居 76 HYPERLINK l _bookmark45 游戲領(lǐng)域 77 HYPERLINK l _bookmark46 教育領(lǐng)域 78 HYPERLINK l _bookmark47 醫(yī)學(xué)領(lǐng)域 80 HYPERLINK l _bookmark48 趨勢篇 83 HYPERLINK l _bookmark52 6 結(jié)語 85 HYPERLINK l _bookmark53 參考文獻(xiàn) 87圖目錄 HYPERLINK l _bookmark3 圖 1-1 人
4、機(jī)交互界面的發(fā)展 2 HYPERLINK l _bookmark6 圖 1-2 Wonder Painter 示例 7 HYPERLINK l _bookmark7 圖 1-3 全手型感應(yīng) 9 HYPERLINK l _bookmark10 圖 2-1 電阻式觸摸屏結(jié)構(gòu)示意圖 13 HYPERLINK l _bookmark11 圖 2-2 電容式觸摸屏原理示意圖 14 HYPERLINK l _bookmark12 圖 2-3 紅外觸摸屏原理示意圖 14 HYPERLINK l _bookmark13 圖 2-4 表面聲波式觸摸屏原理示意圖 15 HYPERLINK l _bookmark1
5、5 圖 2-5 語音識別系統(tǒng)的主要模塊 16 HYPERLINK l _bookmark16 圖 2-6 語音合成方法 19 HYPERLINK l _bookmark18 圖 2-7 指關(guān)節(jié)跟蹤示意圖 25 HYPERLINK l _bookmark20 圖 2-8 基于眼動跟蹤的人機(jī)交互研究框架 28 HYPERLINK l _bookmark21 圖 2-9 不同注視位置觸發(fā)示意圖 30 HYPERLINK l _bookmark22 圖 2-10 (a)單行程眼勢;(b)多行程眼勢 31 HYPERLINK l _bookmark24 圖 2-11 用戶在虛擬現(xiàn)實(shí)中使用 QWERTY
6、實(shí)體鍵盤進(jìn)行輸入 32 HYPERLINK l _bookmark25 圖 2-12 (a) TipText;(b) BiTipText 36 HYPERLINK l _bookmark26 圖 2-13 VISAR 鍵盤 38 HYPERLINK l _bookmark27 圖 2-14 小型觸摸表面 39 HYPERLINK l _bookmark28 圖 2-15 (a)PizzaText;(b)RingText 40 HYPERLINK l _bookmark34 圖 3-1 人機(jī)交互領(lǐng)域全球?qū)W者分布 54 HYPERLINK l _bookmark35 圖 3-2 人機(jī)交互領(lǐng)域 TO
7、P5 國家 54 HYPERLINK l _bookmark36 圖 3-3 人機(jī)交互領(lǐng)域?qū)W者 h-index 分布 55 HYPERLINK l _bookmark37 圖 3-4 人機(jī)交互領(lǐng)域中國學(xué)者分布 55 HYPERLINK l _bookmark38 圖 3-5 中國與其他國家的合作論文數(shù)量情況 56 HYPERLINK l _bookmark49 圖 5-1 人機(jī)交互技術(shù)趨勢 83 HYPERLINK l _bookmark50 圖 5-2 人機(jī)交互國家趨勢 84 HYPERLINK l _bookmark51 圖 5-3 人機(jī)交互機(jī)構(gòu)趨勢 84表目錄 HYPERLINK l _
8、bookmark4 表 1-1 各種人機(jī)交互界面的特征比較 4 HYPERLINK l _bookmark40 表 3-1 近三年高產(chǎn)學(xué)者百人名單 70概述篇人機(jī)交互的概念人機(jī)交互(Human-Computer Interaction, HCI),作為一個(gè)術(shù)語,首次使用是在由Stuart K. Card,Allen Newell 和Thomas P. Moran 撰寫的著作“The Psychology of Human-Computer Interaction”里 HYPERLINK l _bookmark54 1,它是一門研究系統(tǒng)與用戶之間的交互關(guān)系的學(xué)問。系統(tǒng)可以是各種各樣的機(jī)器,也可以
9、是計(jì)算機(jī)化的系統(tǒng)和軟件。人機(jī)交互界面通常是指用戶可見的部分,用戶通過人機(jī)交互界面與系統(tǒng)交流,并進(jìn)行操作。人機(jī)交互技術(shù)是計(jì)算機(jī)用戶界面設(shè)計(jì)中的重要內(nèi)容之一,它與認(rèn)知學(xué)、人機(jī)工程學(xué)、心理學(xué)等學(xué)科領(lǐng)域有密切的聯(lián)系。目前關(guān)于人機(jī)交互的定義主要有三種:一是 ACM(Association for Computing Machinery)的觀點(diǎn),它將人機(jī)交互定義為:有關(guān)交互計(jì)算機(jī)系統(tǒng)設(shè)計(jì)、評估、實(shí)現(xiàn)以及與之相關(guān)內(nèi)容的學(xué)科;二是伯明翰大學(xué)教授 Alan Dix 的觀點(diǎn):人機(jī)交互指的是研究人、計(jì)算機(jī)以及它們之間相互作用方式的學(xué)科,學(xué)習(xí)人機(jī)交互的目的是使計(jì)算機(jī)技術(shù)更好地為人類服務(wù);三是賓夕法尼亞州立大學(xué) Joh
10、n M. Carroll的觀點(diǎn):人機(jī)交互指的是有關(guān)可用性的學(xué)習(xí)和實(shí)踐,是關(guān)于理解和構(gòu)建用戶樂于使用的軟件和技術(shù),并能在使用時(shí)發(fā)現(xiàn)產(chǎn)品有效性的學(xué)科。無論是哪一種定義方式,人機(jī)交互所關(guān)注的首要問題都是人與計(jì)算機(jī)之間的關(guān)系問題。人機(jī)交互技術(shù)的發(fā)展與國民經(jīng)濟(jì)發(fā)展有著直接的聯(lián)系,它是使信息技術(shù)融入社會、深入群體,達(dá)到廣泛應(yīng)用的技術(shù)門檻。任何一種新交互技術(shù)的誕生,都會帶來其新的應(yīng)用人群、新的應(yīng)用領(lǐng)域,帶來巨大的社會經(jīng)濟(jì)效益。從企業(yè)的角度,改善人機(jī)交互能夠提高員工的生產(chǎn)效率,學(xué)習(xí)人機(jī)交互能夠降低產(chǎn)品的后續(xù)支持成本。在個(gè)人的角度,可以幫助用戶有效地降低錯誤發(fā)生的概率,避免由于錯誤引發(fā)的損失。在現(xiàn)代和未來的社會
11、里,只要有人利用通信、計(jì)算機(jī)等信息處理技術(shù)進(jìn)行社會活動,人機(jī)交互都是永恒的主題,鑒于它對科技發(fā)展的重要性,人機(jī)交互是現(xiàn)代信息技術(shù)、人工智能技術(shù)研究的熱門方向 HYPERLINK l _bookmark55 2。人機(jī)交互的發(fā)展歷程人機(jī)交互的發(fā)展歷史,是從人適應(yīng)計(jì)算機(jī)到計(jì)算機(jī)不斷地適應(yīng)人的發(fā)展史,交互的信息也由精確的輸入輸出信息變成非精確的輸入輸出信息。隨著網(wǎng)絡(luò)的普及和無線通訊技術(shù)的發(fā)展,人們的需求不再局限于界面美學(xué)形式的創(chuàng)新,現(xiàn)在的用戶更多的希望在使用多媒體終端時(shí),有著更便捷、更符合他們的使用習(xí)慣,同時(shí)又有著比較美觀的操作界面 HYPERLINK l _bookmark56 3。在過去的幾十年間
12、,人機(jī)界面經(jīng)歷了從命令行界面到圖形用戶界面兩個(gè)主要發(fā)展階段的演變;近年來,人機(jī)界面的發(fā)展越來越強(qiáng)調(diào)交互的自然性,即用戶的交互行為與其生理和認(rèn)知的習(xí)慣相吻合,隨之出現(xiàn)的主要的交互界面形式為觸摸交互界面和三維交互界面 HYPERLINK l _bookmark57 4。圖 1-1 人機(jī)交互界面的發(fā)展命令行界面基于命令行界面(Command-line Interface, CLI),用戶使用鍵盤按照一定的規(guī)則輸入字符,以形成可供機(jī)器識別的命令和參數(shù),并觸發(fā)計(jì)算機(jī)進(jìn)行執(zhí)行。其優(yōu)點(diǎn)是由于鍵盤輸入相對較高的準(zhǔn)確率,以及幾乎不需要冗余的操作,所以熟練的用戶可以達(dá)到非常高的交互效率,同時(shí),通過規(guī)則的設(shè)計(jì),命令
13、行界面也能支持豐富靈活的指令形式。但是,命令行界面的缺點(diǎn)在于交互非常不直觀,由于機(jī)器命令與自然語言的構(gòu)造規(guī)則往往相去甚遠(yuǎn),所以用戶需要記憶大量的指令,有時(shí)甚至需要具備計(jì)算機(jī)領(lǐng)域的專業(yè)知識和技能,才能達(dá)到較高的使用效率。這對于新手用戶而言大大提升了學(xué)習(xí)成本,也顯著影響了普通用戶使用命令行界面時(shí)的體驗(yàn)。圖形用戶界面為了改進(jìn)命令行界面的問題,人們提出了圖形用戶界面(Graphical User Interface, GUI),該界面將命令和數(shù)據(jù)以圖形的方式展示給用戶,用戶通過所見即所得(What You See Is What You Get, WYSIWYG)的方式與顯示的界面元素進(jìn)行交互。根據(jù)人
14、機(jī)交互領(lǐng)域中的定義,圖形用戶界面一般包括窗口(Window)、圖標(biāo)(Icon)、菜單(Menu)和指針(Pointer)這四類主要的交互元素。用戶通過控制指針來對窗口、圖標(biāo)和菜單等顯示元素進(jìn)行指點(diǎn)(Pointing)操作,從而完成交互任務(wù)。廣義的圖形用戶界面泛指一切用圖形表征程序命令和數(shù)據(jù)的界面系統(tǒng),但在狹義上,圖形用戶界面一般指個(gè)人電腦(PC)上的二維WIMP 界面。此時(shí),用戶與界面交互的設(shè)備一般是鍵盤和鼠標(biāo)。圖形用戶界面的一大優(yōu)勢是擺脫了抽象的命令,通過利用人們與物理世界交互的經(jīng)驗(yàn)來與計(jì)算機(jī)交互,從而顯著降低了用戶的學(xué)習(xí)和認(rèn)知成本。然而,由于圖形用戶界面的基本操作是指點(diǎn),即用戶需要使用指針
15、來選擇交互目標(biāo),因而其往往對用戶指點(diǎn)操作的精度有較高的要求。此外,由于鼠標(biāo)設(shè)備所在的控制域(Motor Space)與界面顯現(xiàn)的顯示域(Visual Space)是分離的,因而用戶需要對目標(biāo)進(jìn)行間接的交互操作(Indirect Manipulation),從而更加增加了交互的難度。觸摸交互界面在觸摸交互界面上(Touch User Interface),用戶通過手指在屏幕上直接操作顯示的交互內(nèi)容。根據(jù)人機(jī)交互研究中的定義,觸摸交互界面一般包括頁面(Page)、控件(Widget)、圖標(biāo)(Icon)和手勢(Gesture)這四類主要的交互元素 A 用戶通過觸摸、長按、拖拽等方式直接操控手指接觸的
16、目標(biāo),或者通過繪制手勢的方式觸發(fā)交互指令。目前,觸摸界面主要存在于智能手機(jī)和可穿戴設(shè)備(如智能手表)等設(shè)備上。觸摸交互界面的優(yōu)勢是充分利用了人們觸摸物理世界中物體的經(jīng)驗(yàn), 將間接的交互操作轉(zhuǎn)化為直接的交互操作( Direct Manipulation),從而在保留了一部分觸覺反饋的同時(shí),進(jìn)一步降低了用戶的學(xué)習(xí)和認(rèn)知成本。然而,觸摸操作受困于著名的“胖手指問題”,即由于手指本身的柔軟,以及手指點(diǎn)擊時(shí)對于屏幕顯示內(nèi)容的遮擋,在觸屏上點(diǎn)擊時(shí)往往難以精確地控制落點(diǎn)的位置,輸入信號的粒度遠(yuǎn)遠(yuǎn)低于交互元素的響應(yīng)粒度。同時(shí),由于觸摸交互界面的形態(tài)仍然為二維界面,所以這限制了一些與三維交互元素的交互操作。三維
17、交互界面三維交互界面(3D User Interface)的出現(xiàn)進(jìn)一步提升了人機(jī)界面的自然性。在三維交互界面中,用戶一般通過身體(如手部或身體關(guān)節(jié))做出一些動作(如空中的指點(diǎn)行為,或者肢體的運(yùn)動軌跡等),以與三維空間中的界面元素進(jìn)行交互,計(jì)算機(jī)通過捕捉用戶的動作并進(jìn)行意圖推理,以觸發(fā)對應(yīng)的交互功能。目前,三維交互界面主要存在于體感交互、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等交互場景中。三維交互界面的優(yōu)勢是進(jìn)一步突破了二維交互界面的限制,將交互擴(kuò)展到三維空間中。因此,用戶可以按照與物理世界中相同的交互方式,與虛擬的三維物體進(jìn)行交互,從而進(jìn)一步提升交互自然度,降低學(xué)習(xí)成本。不過,三維交互的挑戰(zhàn)在于由于完全缺乏觸覺反
18、饋,所以用戶動作行為中的噪聲相對較大,而且交互動作與身體的自然運(yùn)動較難區(qū)分,因而輸入信號的信噪比相對較低,較難進(jìn)行交互意圖的準(zhǔn)確推理,限制了交互輸入的準(zhǔn)確度。此外,由于相對于圖形用戶界面和觸摸交互界面,動作交互的幅度一般較大,所以交互的效率也較低,同時(shí)更容易讓用戶感到疲勞。表 1-1 各種人機(jī)交互界面的特征比較交互界面 交互接口尺寸 觸覺反饋 輸入精度 交互效率 自然性 命令行界面 大 有 高 高 低 圖形用戶界面 大 有 中 中 中 觸摸交互界面 小 部分 較低 較低 較高 三維交互界面 大 無 低 低 高 表 1-1 匯總比較了幾種交互界面的特點(diǎn),可以看出,隨著交互界面的演變,交互的自然性
19、逐漸提高,但由于交互接口尺寸的限制和觸覺等反饋信道的受限,導(dǎo)致了輸入的精度和交互效率反而逐漸降低。這種交互自然性和高效性之間的制約關(guān)系,成為了人機(jī)交互研究中的難題,如何在兩者之間兼顧和平衡,是具有重要理論和實(shí)踐意義的研究問題。專家 AI TIME論道人機(jī)交互 VS 智能2019 年,清華大學(xué)人工智能研究院長張鈸院士、唐杰教授、李涓子教授等人聯(lián)合發(fā)起“AI TIME”science debate,希望用辯論的形式,探討人工智能和人類未來之間的矛盾,探索人工智能領(lǐng)域的未來。AI TIME 是一群關(guān)注人工智能發(fā)展,并有思想情懷的青年人創(chuàng)辦的圈子。AI TIME 旨在發(fā)揚(yáng)科學(xué)思辨精神,邀請各界人士對人
20、工智能理論、算法、場景、應(yīng)用的本質(zhì)問題進(jìn)行探索,加強(qiáng)思想碰撞,打造成為北京乃至全國知識分享的聚集地。AI TIME 第七期論道人機(jī)交互 VS 智能中邀請到了清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系長聘教授史元春、中科院軟件所研究員田豐、中科院計(jì)算所研究員陳益強(qiáng)、小小牛創(chuàng)意科技 CEO 曹翔等四位重量級嘉賓,論道人機(jī)交互的發(fā)展及未來,現(xiàn)將其探討內(nèi)容整理如下。人機(jī)交互的先驅(qū)學(xué)者1979 年,當(dāng)年輕的喬布斯拜訪施樂 PARC 研究中心時(shí),他看到了施樂新發(fā)明的圖形用戶界面(GUI),相比當(dāng)時(shí)的文本命令行界面,程序圖標(biāo)、窗口化、下拉菜單和絢麗的圖像效果把喬布斯狠狠地震撼了?!胺路鹈稍谖已劬ι系募啿急唤议_了一樣”,喬布
21、斯傳中如此描述喬布斯當(dāng)時(shí)的感受:“我看到了計(jì)算機(jī)產(chǎn)業(yè)的未來”。喬布斯回到蘋果后,迅速將 GUI 移植到蘋果產(chǎn)品上,隨后上市的 Macintosh 取得了轟動效果。今天我們習(xí)以為常的觸摸屏或圖形用戶界面,在 40 年前尚是石破驚天的革命。在計(jì)算機(jī)橫空出世的這近半個(gè)多世紀(jì)里,有一些學(xué)者做出了巨大的、直接的貢獻(xiàn)。Vannevar Bush(范內(nèi)瓦布什)1945 年,在電子計(jì)算機(jī)尚未“出世”時(shí),范內(nèi)瓦布什就發(fā)表了題為“As We May Think”的文章,形象描述了未來個(gè)人電腦,一種被稱為 MEMEX 的機(jī)器,闡釋了直接交互、超鏈接、網(wǎng)絡(luò)存儲等概念。J.C.R Licklider(約瑟夫利克萊德)1
22、960 年,約瑟夫利克萊德提出“人機(jī)共生”的思想,并在布什的領(lǐng)導(dǎo)下通過美國國家科技計(jì)劃大力支持了人機(jī)共生理念下的圖形與可視化、虛擬對象操控、互聯(lián)網(wǎng)絡(luò)等研究項(xiàng)目,在他的主導(dǎo)下,個(gè)人電腦、互聯(lián)網(wǎng)絡(luò)的標(biāo)志性關(guān)鍵技術(shù)在六七十年代逐次誕生了。約瑟夫利克萊德領(lǐng)導(dǎo)的交互式計(jì)算,不但研發(fā)了分式操作系統(tǒng),而且直接地引導(dǎo)了圖形技術(shù)。Douglas C. Engelbart(道格拉斯恩格爾巴特)恩格爾巴特在 1963 年設(shè)計(jì)出一款手掌大小、以輪子為基礎(chǔ)的設(shè)備,此設(shè)備也就是鼠標(biāo)的原型,1968 年在舊金山的秋季聯(lián)合計(jì)算機(jī)會議上,恩格爾巴特先后演示了鼠標(biāo)、所見即所得的文字編輯器、超鏈接、文本圖形混排等,還談到了阿帕網(wǎng)(
23、ARPANet,互聯(lián)網(wǎng)的前身)以及科技進(jìn)步的未來。他是人機(jī)交互的先鋒,開發(fā)了超文本系統(tǒng)、網(wǎng)絡(luò)計(jì)算機(jī),以及圖形用戶界面的先驅(qū);并致力于倡導(dǎo)運(yùn)用計(jì)算機(jī)和網(wǎng)絡(luò),來協(xié)同解決世界上日益增長的緊急而又復(fù)雜的問題。他被冠為“鼠標(biāo)之父”。在 Vannevar Bush、J.C.R Licklider、Douglas C. Engelbart 等先驅(qū)的推動下,在語言學(xué)、心理學(xué)、計(jì)算機(jī)科學(xué)的共同參與下,計(jì)算機(jī)從沒有用戶界面,到有了圖形用戶界面,開創(chuàng)了個(gè)人電腦以及互聯(lián)網(wǎng)絡(luò)等惠及整個(gè)社會的新產(chǎn)業(yè)。未來,在新的傳感和多媒體技術(shù)的共同支持下,機(jī)器將可以通過感知和數(shù)據(jù)處理技術(shù)來理解我們,來理解周圍的環(huán)境,實(shí)現(xiàn)更自然、更智能
24、的人機(jī)交互。嘉賓分享案例每位嘉賓就所做所見,講述了人機(jī)交互正在或即將發(fā)生的場景,這些場景基本代表了人機(jī)交互最新、最前沿的研究方向。Wonder PainterWonder Painter,由北京小小牛創(chuàng)意科技研發(fā),是一款融合了人工智能、機(jī)器學(xué)習(xí)和人機(jī)交互為一體的新型技術(shù),可以將任何靜態(tài)物體立即轉(zhuǎn)換成動畫。圖 1-2 Wonder Painter 示例曹翔老師現(xiàn)場展示了 Wonder Painter 工作的典型例子。一張普通的紙,一支普通的筆,畫下天馬行空的圖畫,再由手機(jī)采集起來,瞬間就可以轉(zhuǎn)化成三維的動畫。曹翔老師希望通過這項(xiàng)技術(shù),打破普通人表達(dá)創(chuàng)意的門檻。 輸入技術(shù)和相關(guān)理論自然人機(jī)交互具有
25、輸入非精確性等新型特征,同時(shí) EMG 等新的輸入通道為自然人機(jī)交互提供了研究機(jī)遇。如何建立針對新型特征的運(yùn)動模型,并利用生理等新型通道感知用戶交互意圖是人機(jī)交互研究的重點(diǎn)之一。田豐老師就此介紹了自己的兩項(xiàng)工作。一是運(yùn)動目標(biāo)獲取非確定性模型。在運(yùn)動的畫面中,如何知道用戶真正想點(diǎn)擊的是哪一個(gè)模塊,其基本思路是:1)構(gòu)建落點(diǎn)分布模型,揭示落點(diǎn)分布與目標(biāo)初始位置、大小間的關(guān)系;2)對目標(biāo)獲取錯誤率進(jìn)行預(yù)測;3)增強(qiáng)移動目標(biāo)獲取成功率。二是基于 EMG 的交互意圖隱式感知技術(shù)。想象一下,你拿起一支筆,或者喝了一口水,不等你給機(jī)器傳達(dá)命令,它就通過你的肌肉電信號,感知到了你現(xiàn)在正在做什么。這就是田豐目前在
26、做的另一項(xiàng)研究。該項(xiàng)工作的主要思路是:1)提出一種通過肌電感知技術(shù)對日常手部動作及所接觸物品屬性進(jìn)行感知的方法; 2)通過布置手臂上的傳感器捕獲手部活動時(shí)的 EMG 信號;3)提取能表征 EMG信號的均方根、AR 系數(shù)等特征并通過機(jī)器學(xué)習(xí)方法識別物體。多模態(tài)協(xié)同感知陳益強(qiáng)老師指出,普適計(jì)算時(shí)代,未來的人機(jī)交互模式應(yīng)該是多模態(tài)的。我們既可以用鍵盤、鼠標(biāo)、語音進(jìn)行機(jī)器操作,也可以用手勢、表情、唇語進(jìn)行操作。圍繞“多模態(tài)”設(shè)想,陳益強(qiáng)提到了自己的兩項(xiàng)工作。一是基于多模態(tài)感知理論的手語識別。陳益強(qiáng)將面部識別、手勢動作識別和手語識別相融合,來提高手語識別的精度,以期幫助殘障人士和外界溝通。二是基于多模態(tài)
27、感知理論的人機(jī)交互方法,利用語音,視覺,可穿戴等等,使機(jī)器人獲知用戶當(dāng)前復(fù)雜行為及情感狀態(tài)。陳益強(qiáng)提到:“人機(jī)交互的終極目標(biāo),是達(dá)到人機(jī)之間的無縫互動,仿佛人和人在交互一樣。因此,機(jī)器要準(zhǔn)確感知到人的當(dāng)前動作、行為甚至情緒。我們基于多模態(tài)手段,如語音、面部表情、可穿戴生理指標(biāo)檢測等,試圖解決這個(gè)問題?!弊匀挥脩粢鈭D的準(zhǔn)確理解在使用手機(jī)軟鍵盤時(shí),經(jīng)常發(fā)生誤觸的問題,26 個(gè)字母擠在狹窄的輸入界面里,再配上胖乎乎的手指,點(diǎn)錯的經(jīng)歷太多了。這是觸屏這種自然交互界面上典型的難題:胖手指難題。輸入信號脫離了實(shí)體按鍵,通過觸屏控制輸入仍然可以達(dá)到精準(zhǔn)的輸入效果。圖 1-3 全手型感應(yīng)史元春教授的研究工作,
28、提出了基于貝葉斯推理的自然用戶意圖理解框架,建模用戶行為特征,在模糊的輸入信號上推測用戶的真實(shí)意圖。基于這項(xiàng)技術(shù),史元春教授的團(tuán)隊(duì)已經(jīng)研究實(shí)現(xiàn)了手機(jī)、平板、頭盔、電視等一系列接口上的輸入法,輸入準(zhǔn)確度大幅度提高,且?guī)缀醪恍枰曈X瞄準(zhǔn),進(jìn)而還能支持盲人用戶準(zhǔn)確實(shí)現(xiàn)軟鍵盤輸入。史教授正在研制的手機(jī)前置攝像頭的操控行為。通過感知到人手在界面上的操作變化,可以做出新的“輸入法”。比如手握手機(jī)的任意邊框或位置,就可以輸入信息、訪問界面。這些操作無需經(jīng)過人眼確認(rèn),通過字體感知即可實(shí)現(xiàn)準(zhǔn)確輸入。這些成果已見諸實(shí)際應(yīng)用,如:電容屏防誤觸技術(shù)部署在了華為 MATE 系列千萬量級手機(jī)上,智能輸入意圖推理算法應(yīng)用在
29、搜狗和華為的輸入法上,無障礙手機(jī)交互技術(shù)應(yīng)用于手機(jī)淘寶和支付寶等。史元春教授指出,要建立一套理解人的意圖表達(dá)的計(jì)算框架,還要繼續(xù)在理論和傳感技術(shù)上做更多研究。技術(shù)思辨嘉賓從人機(jī)交互的理論和方法、與人工智能的關(guān)系和未來技術(shù)發(fā)展趨勢和挑戰(zhàn)、人才培養(yǎng)等方面發(fā)表了自己的看法并進(jìn)行了熱烈的討論。人機(jī)交互的理論和方法Q1:交互界面的構(gòu)建有計(jì)算模型嗎?Q2:如何定量評估界面設(shè)計(jì)的效果?田豐認(rèn)為交互界面的構(gòu)建是有計(jì)算模型的,但針對自然人機(jī)交互,研究者做了“點(diǎn)”上的研究,還沒有完全系統(tǒng)化。史元春教授同意以上觀點(diǎn),并指出定量評估的方法雖有,但很不充分。不過借助相應(yīng)的傳感技術(shù),定量評估的原理和技術(shù)都在不斷拓展,這從
30、紅外反射監(jiān)測血流、血壓參數(shù)、情緒變化等一系列應(yīng)用上就可以看出。曹翔補(bǔ)充道:人機(jī)交互很難用計(jì)算機(jī)模型衡量,是因?yàn)槿藱C(jī)交互的任務(wù)是多樣的,且越來越娛樂化,這令交互效率很難界定。我們越來越需要通過生理指標(biāo)衡量人機(jī)交互的體驗(yàn),這里面一定需要定量數(shù)據(jù)。明確的任務(wù)性的工作相對容易建模,因?yàn)槟康暮芮逦?;體驗(yàn)性的、娛樂性的、溝通性的工作比較難用計(jì)算的方式建模,因?yàn)槠渲袏A雜著大量非簡單人機(jī)交互的內(nèi)容,例如人與人之間的互動等。人機(jī)交互與人工智能的關(guān)系 Q1:在中文上,兩者都有關(guān)于“人”的研究,有共同的研究內(nèi)容和方法嗎? Q2:兩者研究成果的價(jià)值體現(xiàn)有何異同?Q3:智能人機(jī)交互主要指什么? Q4:人機(jī)交互研究對 A
31、I 有貢獻(xiàn)嗎?陳益強(qiáng)提出:要做好智能人機(jī)交互,必須做到個(gè)性化。人腦智能分為三個(gè)部分,中樞神經(jīng)、小腦和大腦,這三部分體現(xiàn)了不同程度的智能,可對應(yīng)人機(jī)交互中的不同智能應(yīng)用程度。比如神經(jīng)智能,中樞神經(jīng)控制下的膝跳反射或條件反射就可和鍵盤鼠標(biāo)觸屏技術(shù)等傳統(tǒng)人機(jī)交互技術(shù)相對應(yīng),注重實(shí)時(shí)的感知與執(zhí)行,實(shí)現(xiàn)敲一下鍵盤,屏幕就彈出一個(gè)字。而像語音識別、手勢識別這一部分新型人機(jī)交互,就類似于小腦智能部分,側(cè)重于基于學(xué)習(xí)或預(yù)測的執(zhí)行,過程包括了感知-學(xué)習(xí)-執(zhí)行。而智能人機(jī)交互的終極目標(biāo),需要在感知刺激的基礎(chǔ)上不僅有學(xué)習(xí),還應(yīng)有知識推理,而后決策執(zhí)行,這類似于大腦智能層次,到了這個(gè)部分,人機(jī)交互應(yīng)該能做到帶情感甚至
32、帶有價(jià)值判斷的智能人機(jī)交互。史元春教授認(rèn)為,人機(jī)交互應(yīng)該讓機(jī)器更好的適應(yīng)人,適應(yīng)人的本性,適應(yīng)人的操控能力、感知能力和認(rèn)知能力。從“人”的研究內(nèi)容上來說,人機(jī)交互與人工智能有差異,但出發(fā)點(diǎn)是一致的,即“人機(jī)共生”。目前看,人工智能的研究更多的體現(xiàn)在人的識別、語言的表達(dá)等數(shù)據(jù)密集型任務(wù)上的處理方法,人機(jī)交互的研究更偏重于對人的主動交互行為和感知能力的建模、傳感和建立適應(yīng)的接口技術(shù),人機(jī)關(guān)系必定向著共生的方向發(fā)展,這些研究內(nèi)容和方法會相互影響和適應(yīng),交疊的研究內(nèi)容會越來越多?!白鋈斯ぶ悄茏詈笠佑|人機(jī)交互,做人機(jī)交互最后也要接觸人工智能?!碧镓S提出了“人機(jī)交互和人工智能從交替沉浮到協(xié)同共進(jìn)”的觀點(diǎn)
33、。未來的計(jì)算機(jī)將是一個(gè)智能體,人與智能計(jì)算機(jī)的交互,即是人機(jī)協(xié)同;而從人工智能的角度講,自動駕駛、自動診斷也講求人機(jī)協(xié)同,兩者殊途同歸。人機(jī)交互想解決不確定性,就需學(xué)習(xí)人工智能的方法,兩者互相支撐,協(xié)同并進(jìn)。曹翔補(bǔ)充:機(jī)器在不斷地取代人力,未來所有帶“老”字的職業(yè),都將被 AI 取代,例如老司機(jī)、老中醫(yī)等。為什么呢?因?yàn)?AI 最擅長數(shù)據(jù)和經(jīng)驗(yàn),完全依靠經(jīng)驗(yàn)驅(qū)動的職業(yè)很可能被 AI 取代。創(chuàng)造性的、溝通性的、娛樂性的工作,則是不可被 AI 取代的,這就體現(xiàn)出了人機(jī)交互的重要性。陳益強(qiáng)不完全同意曹翔的觀點(diǎn),他指出:“我認(rèn)為帶老字的職業(yè)都不會被取代。例如一臺自然語言處理及知識推理能力極強(qiáng)的類似醫(yī)療
34、診斷機(jī)器,它可以借助公開發(fā)表的文獻(xiàn)(大數(shù)據(jù))習(xí)得 80%的經(jīng)驗(yàn),但剩余 20%的疑難雜癥(小數(shù)據(jù))無法習(xí)得,這部分只能求助于老醫(yī)生?!?如何評論未來交互技術(shù)的發(fā)展Q1:最近出版的科技之巔總結(jié)了近十年全球百項(xiàng)突破性技術(shù),包括 IT、能源、生物醫(yī)藥、材料等共十章。其中,人工智能與人機(jī)交互分列第一和第二章, HCI 主要集中在手勢、語音交互和穿戴產(chǎn)品,可否對現(xiàn)在人機(jī)交互技術(shù)和未來交互技術(shù)的發(fā)展做評論?Q2:您最關(guān)心的 HCI 挑戰(zhàn)是什么?史元春教授講道:“未來計(jì)算機(jī)的形態(tài)會變化,甚至可能不存在了,但計(jì)算機(jī)技術(shù)會持續(xù)為我們服務(wù),成為人機(jī)共生的一部分,交互接口、交互任務(wù)會有很大的變化,但會更自然,更智能
35、。”陳益強(qiáng)指出,普適計(jì)算可以使手環(huán)、穿戴設(shè)備等計(jì)算機(jī)形式化于無形,就像看不見摸不著的空氣一樣。例如穿戴設(shè)備可以附著在衣服、鞋子里,實(shí)現(xiàn)人機(jī)共生。最后在材料、計(jì)算技術(shù)的進(jìn)步下,真正實(shí)現(xiàn)對人類自然行為的意圖理解,助力解決人口老齡化、阿爾茨海默病早期預(yù)警等。曹翔最關(guān)心的是,如何通過機(jī)器、技術(shù)放大個(gè)人的創(chuàng)造力,從而幫助個(gè)人在社會和工作中立足?!拔覀兾甯械臐摿Γ恢痪窒抻谖锢硎澜绲拇碳?。隨著技術(shù)的進(jìn)一步發(fā)展,我們可以挖掘更多的感官體驗(yàn)力,創(chuàng)造全新的體驗(yàn)?!碧镓S老師更關(guān)注如何通過人機(jī)交互的研究推動相關(guān)產(chǎn)業(yè)的發(fā)展,產(chǎn)生主流的影響。例如電子白板對中國教育信息化的推動,人工智能對帕金森、腦卒中、阿爾茨海默、癡呆
36、等做輔助診斷等。值得一提的是,田豐帶領(lǐng)團(tuán)隊(duì)研發(fā)的筆式電子教學(xué)系統(tǒng)獲得了國家科技進(jìn)步二等獎,并與協(xié)和醫(yī)院共同取得了國家衛(wèi)健委頒發(fā)的醫(yī)療健康人工智能應(yīng)用落地 30 最佳案例的榮譽(yù)。人機(jī)交互的人才發(fā)展路徑 Q1:工業(yè)界需要什么樣的交互人才? Q2:學(xué)校如何培養(yǎng)人機(jī)交互人才? Q3:如何判斷自己適不適合做人機(jī)交互?史元春教授提到:“我們培養(yǎng)的人才應(yīng)該能夠發(fā)現(xiàn)交互難題,并且能通過科學(xué)的方法來解決這個(gè)問題”。曹翔贊同史元春教授的觀點(diǎn),并補(bǔ)充道:“交互設(shè)計(jì)師、用戶研究員等對口培養(yǎng)的專業(yè),不難找工作;難找工作的是把人機(jī)交互作為一個(gè)研究領(lǐng)域去學(xué)習(xí)的學(xué)生,因?yàn)楝F(xiàn)有的一個(gè)蘿卜一個(gè)坑的職業(yè)體系,并不太適合跨學(xué)科的人才
37、,但創(chuàng)業(yè)特別需要這樣的”。如何判斷自己適不適合做人機(jī)交互?曹翔提醒道,跟“風(fēng)口”很不靠譜,興趣才是首要的。技術(shù)篇本篇基于用戶與系統(tǒng)之間進(jìn)行交流操作所主要使用的觸摸、手勢、語音和視覺等自然感官的順序來進(jìn)行相關(guān)技術(shù)介紹。具體包括觸控交互、聲控交互、動作交互、眼動交互、虛擬現(xiàn)實(shí)輸入、多模式交互以及智能交互等人機(jī)交互技術(shù)。觸控交互顯示器從僅向用戶輸出可視信息到成為一種交互界面裝置主要是歸因于觸控功能與顯示器的一體化模式,尤其是在移動裝置上的使用。從 1965 年第一份電容觸摸屏報(bào)告誕生至今 HYPERLINK l _bookmark58 5,經(jīng)過近幾十年的發(fā)展,觸控式交互技術(shù)已經(jīng)成功應(yīng)用于全球主流消費(fèi)
38、品,觸控式交互技術(shù)能讓人們通過觸摸就能直接與屏幕內(nèi)容互動,讓人們不用或進(jìn)行很少的訓(xùn)練就能有更為便捷的使用體驗(yàn)。有很多不同的技術(shù)能夠?qū)崿F(xiàn)觸控式交互,下面我們簡要介紹電容、電阻、光學(xué)和聲學(xué)交互技術(shù) HYPERLINK l _bookmark59 6。電阻式觸控技術(shù)電阻觸摸屏通過壓力感應(yīng)原理來實(shí)現(xiàn)對屏幕進(jìn)行操作和控制。當(dāng)手指觸摸屏幕時(shí),薄膜下層的 ITO 會和玻璃上層的 ITO 有一個(gè)接觸點(diǎn),在 X 軸方向就其中一面導(dǎo)電層導(dǎo)通了 5V 均勻電壓場,此時(shí)采樣得到的電壓由零變?yōu)橐粋€(gè)正電壓值,感應(yīng)器檢測到電壓導(dǎo)通,傳出相應(yīng)的電信號,進(jìn)行模/數(shù)轉(zhuǎn)換,最終將轉(zhuǎn)換后的電壓值與 5V 相比,即可計(jì)算出觸摸點(diǎn)的 X
39、 軸坐標(biāo)值。同理可以計(jì)算出 Y 軸的坐標(biāo)值,這樣就完成了點(diǎn)選的動作,并呈現(xiàn)在屏幕上。圖 2-1 電阻式觸摸屏結(jié)構(gòu)示意圖電容式觸控技術(shù)當(dāng)手指觸摸電容式觸摸屏?xí)r,在工作面接通高頻信號,此時(shí)手指與觸摸屏工作面形成一個(gè)耦合電容,這相當(dāng)于導(dǎo)體,因?yàn)楣ぷ髅嫔嫌懈哳l信號,手指觸摸時(shí)在觸摸點(diǎn)吸走一個(gè)小電流,這個(gè)小電流分別從觸摸屏的四個(gè)角上的電極流出,流經(jīng)四個(gè)電極的電流與手指到四角的直線距離成比例,控制器通過對四個(gè)電流比例的計(jì)算,即可得出接觸點(diǎn)坐標(biāo)值,如圖 2-2 所示。圖 2-2 電容式觸摸屏原理示意圖紅外觸控技術(shù)紅外觸摸屏的基本結(jié)構(gòu)如圖 2-3 所示,在外框的上下、左右兩個(gè)對邊上分別對應(yīng)裝有紅外發(fā)射管和紅外
40、接收管,當(dāng)手指觸摸屏幕時(shí),紅外光線將被阻斷,依次選通紅外發(fā)射管及其對應(yīng)的紅外接收管,在屏幕上方形成一個(gè)紅外線矩陣平面,從而致使紅外接收端的電壓產(chǎn)生變化,紅外接收端的電壓經(jīng)過 A/D 轉(zhuǎn)換送達(dá)控制端,控制端將據(jù)此進(jìn)行計(jì)算得出觸摸位置。圖 2-3 紅外觸摸屏原理示意圖表面聲波觸控技術(shù)表面聲波式觸摸屏主要依靠安裝在強(qiáng)化玻璃邊角上的超聲波換能器來實(shí)現(xiàn)觸摸控制的。當(dāng)手指觸摸顯示屏?xí)r,手指阻擋了一部分聲波能量的傳播,此時(shí)接收波形將會發(fā)生變化,在波形圖上可以看見即某一時(shí)刻波形發(fā)生衰減,通過這個(gè)衰減信號控制器就可以計(jì)算出觸摸點(diǎn)位置。圖 2-4 表面聲波式觸摸屏原理示意圖聲控交互人與人之間最有效也是最普遍的交互
41、形式是有聲語言,雖然一般情況下我們可以毫不費(fèi)力的表達(dá)和理解他人的話語,但是讓一臺計(jì)算機(jī)具備人類擁有的對有聲語言的理解能力絕非易事,學(xué)術(shù)界和企業(yè)界對語音控制的人機(jī)交互有著濃厚興趣并在不斷探索 HYPERLINK l _bookmark60 7。目前,從交互顯示的觀點(diǎn)來說,聲音界面似乎可以使我們更簡單的與各種形態(tài)的顯示器交互,從而獲得更為本真的體驗(yàn)。下面我們簡要介紹語音識別、自然語言處理及語音合成三項(xiàng)關(guān)鍵技術(shù)。語音識別語音識別是將音頻數(shù)據(jù)轉(zhuǎn)化為文本或其他計(jì)算機(jī)可以處理的信息的技術(shù)。圖 2-5 展示的是一個(gè)典型語音識別系統(tǒng)的結(jié)構(gòu),主要由 4 個(gè)部分組成:特征提取、聲學(xué)模型、語言模型和解碼器搜索。圖
42、2-5 語音識別系統(tǒng)的主要模塊特征提取模擬的語音信號進(jìn)行采樣得到波形數(shù)據(jù)之后,首先要送入到特征提取模塊,提取出合適的聲學(xué)特征參數(shù)供后續(xù)聲學(xué)模型訓(xùn)練使用。好的聲學(xué)特征應(yīng)當(dāng)考慮以下三個(gè)方面的因素。第一,應(yīng)當(dāng)具有比較優(yōu)秀的區(qū)分特性,以使聲學(xué)模型不同的建模單元可以方便準(zhǔn)確的建模。其次,特征提取也可以認(rèn)為是語音信息的壓縮編碼過程,既需要將信道、說話人的因素消除保留與內(nèi)容相關(guān)的信息,又需要在不損失過多有用信息的情況下使用盡量低的參數(shù)維度,便于高效準(zhǔn)確的進(jìn)行模型的訓(xùn)練。最后,需要考慮魯棒性,即對環(huán)境,噪聲的抗干擾能力。當(dāng)前,最常用的經(jīng)典聲學(xué)特征提取方法是基于倒譜分析的特征參數(shù)提取,如感知線性預(yù)測( Perc
43、eptual Linear Prediction, PLP) 系數(shù)和梅爾域倒譜系數(shù)(Mel-Frequency Cepstral Coefficients, MFCC)。除了此以外,為了提高特征參數(shù)的區(qū)分性,研究者還提出其他方法來實(shí)現(xiàn)特征變換和特征降維的目的,包括主分量分析、線性判別分析、異方差線性判別分析等。也出現(xiàn)了利用區(qū)分性準(zhǔn)則對輸入原始特征進(jìn)行變換的技術(shù) HYPERLINK l _bookmark61 8。聲學(xué)模型聲學(xué)模型在語音識別系統(tǒng)中起著至關(guān)重要的作用,描述了聲學(xué)基元產(chǎn)生特征序列的變換過程。給定一個(gè)聲學(xué)特征矢量,依據(jù)聲學(xué)模型來計(jì)算它屬于每個(gè)基元的概率值,通過最大似然準(zhǔn)則得出與特征序列
44、對應(yīng)的狀態(tài)序列。聲學(xué)基元選擇聲學(xué)基元的選擇是聲學(xué)建模中很關(guān)鍵的問題,合適粒度的基元對系統(tǒng)性能的提升有很大幫助。語音識別把詞(Word)、音節(jié)(Syllable)、聲韻母(Initial/Final)以及音素(Phone)等作為常用基元?;倪x擇和設(shè)計(jì)通常考慮的是語音學(xué)知識,基元也可基于數(shù)據(jù)驅(qū)動的方法產(chǎn)生,雖然有些在語音學(xué)上意義不明確,但是有的效果也不錯。在語音識別中為了應(yīng)對協(xié)同發(fā)音現(xiàn)象從而能更準(zhǔn)確的描述語音,通常選用上下文相關(guān)的方法來對語音建模,這其中有兩種情況,當(dāng)只考慮前一音子對當(dāng)前音子的影響被稱為 Bi-Phone,同時(shí)考慮前一音子和后一音子的影響被稱為 Tri-Phone。對英語識別中
45、通常采用上下文相關(guān)的三音素作為基元,對于漢語建模往往采用音節(jié)或者上下文相關(guān)的聲韻母作為基元。隱馬爾科夫模型如今主流語音識別系統(tǒng)都采用隱馬爾科夫模型(HMM)作為聲學(xué)模型,這是因?yàn)?HMM 具有很多優(yōu)良特性。HMM 模型的狀態(tài)跳轉(zhuǎn)模型很適合人類語音的短時(shí)平穩(wěn)特性,可以對不斷產(chǎn)生的觀測值(語音信號)進(jìn)行方便的統(tǒng)計(jì)建模;與 HMM 相伴生的動態(tài)規(guī)劃算法可以有效地實(shí)現(xiàn)對可變長度的時(shí)間序列進(jìn)行分段和分類的功能;HMM 的應(yīng)用范圍廣泛,只要選擇不同的生成概率密度,離散分布或者連續(xù)分布,都可以使用 HMM 進(jìn)行建模。HMM 以及與之相關(guān)的技術(shù)在語音識別系統(tǒng)中處于最核心的地位。語言模型模型主要是刻畫人類語言表
46、達(dá)的方式習(xí)慣,著重描述了詞與詞在排列結(jié)構(gòu)上的內(nèi)在聯(lián)系。在語音識別解碼的過程中,在詞內(nèi)轉(zhuǎn)移參考發(fā)聲詞典、詞間轉(zhuǎn)移參考語言模型,好的語言模型不僅能夠提高解碼效率,還能在一定程度上提高識別率 HYPERLINK l _bookmark62 9?;?N-gram 的統(tǒng)計(jì)語言模型是當(dāng)前統(tǒng)計(jì)語音識別框架下最常使用的語言模型,用來表示長度為 N 的詞串的出現(xiàn)概率,其核心思想是用一個(gè)在各詞之間進(jìn)行跳轉(zhuǎn)的 N-1 階馬爾科夫過程來描述詞串的生成過程,所以,詞串的概率 p(W)可以表示為:這里 K 表示該詞序列中包含的詞個(gè)數(shù),wk 表示詞序列中第 k 個(gè)詞。前詞的概率僅僅取決于其前面 N-1 個(gè)詞的歷史,這也是
47、 N-gram 語言模型命名的緣由 HYPERLINK l _bookmark61 8。解碼器在聲學(xué)特征提取完成,聲學(xué)模型和語言模型訓(xùn)練完成以后,語音識別就是指結(jié)合聲學(xué)模型和語言模型,利用相關(guān)搜索算法在解碼器中找出最優(yōu)詞序列的過程。不難看出,如果不作任何限制,搜索空間相對于詞表大小和語音中可能出現(xiàn)的詞數(shù)目是以指數(shù)級增長的。巨大的搜索空間帶來的運(yùn)算量是無法想象的,也是很多實(shí)時(shí)語音識別任務(wù)要盡量避免的。解碼器搜索效率的高低直接關(guān)系到語音識別系統(tǒng)的實(shí)用程度。所以,必須通過一些有效的優(yōu)化算法,提高解碼效率,把原來超大規(guī)模的搜索問題壓縮到計(jì)算機(jī)可以有效處理的程度。維特比算法(Viterbi Algori
48、thm)是當(dāng)前絕大部分主流解碼器中使用一種有效的壓縮搜索空間的近似方法。維特比算法是時(shí)間同步的,需要在解碼過程中進(jìn)行同步的快速概率計(jì)算,以及裁剪搜索空間的處理:包括快速計(jì)算輸出概率的高斯選擇算法、Beam 裁剪算法、語言模型等。除此之外,也有一些語音識別系統(tǒng)的解碼器使用異步的堆棧解碼算法,利用一些具有啟發(fā)性的度量來指引搜索算法的完成。時(shí)間異步的搜索方法,一般會使用簡單的模型來迅速地生成識別結(jié)果的備選空間,然后再使用更加精細(xì)的模型對備選空間重新計(jì)算得分并生成最終的最優(yōu)識別結(jié)果。識別結(jié)果的備選空間一般采用 N-best 列表,或者使用包含更多信息的詞圖來表示。語音合成語音合成就是將一系列的輸入文字
49、信號序列經(jīng)過適當(dāng)?shù)捻嵚商幚砗?,送入合成器,產(chǎn)生出具有盡可能豐富表現(xiàn)力和高自然度的語音輸出,從而使計(jì)算機(jī)或相關(guān)的系統(tǒng)能夠發(fā)出像“人”一樣自然流利聲音的技術(shù) HYPERLINK l _bookmark63 10。語音合成的發(fā)展經(jīng)歷了機(jī)械式語音合成、電子式語音合成和基于計(jì)算機(jī)的語音合成發(fā)展階段?;谟?jì)算機(jī)的合成方法由于側(cè)重點(diǎn)不同,語音合成方法的分類也有差異。但主流的、獲得多數(shù)認(rèn)同的分類則是將語音合成方法按照設(shè)計(jì)的主要思想分為規(guī)則驅(qū)動方法和數(shù)據(jù)驅(qū)動方法。前者的主要思想是根據(jù)人類發(fā)音物理過程從而制定一系列規(guī)則來模擬這一過程,后者則是在語音庫中的數(shù)據(jù)上利用統(tǒng)計(jì)方法如建模來實(shí)現(xiàn)合成的方法,因而數(shù)據(jù)驅(qū)動方法更
50、多的依賴語音語料庫的質(zhì)量、規(guī)模和最小單元等。語音合成的具體分類如圖 2-6 所示,各個(gè)方法也不是完全獨(dú)立的,近些年來研究人員取長補(bǔ)短地將它們整合到一起 HYPERLINK l _bookmark64 11。圖 2-6 語音合成方法共振峰合成共振峰是指聲道的共振頻率,共振峰合成是指用共振峰來加權(quán)疊加生成語音。從濾波器的觀點(diǎn)來看,語音的產(chǎn)生是一個(gè)聲源的激勵加時(shí)變?yōu)V波的過程。脈沖發(fā)生器模擬產(chǎn)生濁音的聲帶振動激勵,清音是由聲帶中氣息的湍流噪聲造成的,用一個(gè)噪聲發(fā)生器來模擬。所有的語音都是這兩類聲源通過頻率響應(yīng)不同的濾波器處理后得到,用一個(gè)多通道的時(shí)變?yōu)V波器來模擬,使得其輸出具有目標(biāo)語音的頻譜特性。經(jīng)過
51、放大器(口唇輻射)輸出,就可以聽到合成語音。最初,共振峰合成出的語音自然度很低,有些學(xué)者提出是因?yàn)楣舱穹褰r(shí)忽略了譜的變化。經(jīng)過在共振峰合成中加入或改進(jìn)譜建模。共振峰合成的語音的自然度被提升了,所以也常用來生成特色的語音。發(fā)音過程合成發(fā)音過程模擬合成是直接模擬人的發(fā)音這一物理過程,通常制定一系列規(guī)則來操控模型發(fā)聲。由于得到真實(shí)發(fā)音的物理過程難度大,這一方法也較難實(shí)現(xiàn)。但它的優(yōu)點(diǎn)在于,一旦一個(gè)精細(xì)較為準(zhǔn)確的規(guī)則建立,就使得這個(gè)系統(tǒng)有很大的可塑性和靈活性。規(guī)則驅(qū)動方法的另一不足在于對超音段的控制不足,自然度受損,以至于出現(xiàn)人們難以接受的機(jī)器聲音。為了在高復(fù)雜度和高自然度之間做一個(gè)平衡,研究人員采
52、用預(yù)先錄制的語音庫,通過拼湊語音庫單元來快速生成較高質(zhì)量的語音。波形拼接波形拼接方法通過連接小的、事先錄好的語音單元,如音素,雙音素,三音素等并經(jīng)過韻律修飾來拼接整合成完整的語音。波形拼接技術(shù)是一種通過波形處理,使得言語的超音段特征發(fā)生改變,而音段特征(譜包絡(luò))保持不變的時(shí)間維處理技術(shù)。這種技術(shù)最大限度的保留了原始發(fā)音人的音質(zhì),自然度和清晰度都很高,達(dá)到人們能夠接受的水平。但這樣直接拼接的方法導(dǎo)致語音聽起來人工、生硬,韻律修飾導(dǎo)致邊界處明顯不連續(xù)。拼接處容易產(chǎn)生意想不到的錯誤,合成效果不穩(wěn)定,音庫容量大,構(gòu)建周期長,可擴(kuò)展性太差,不適宜作為嵌入式應(yīng)用。但如果要合成的語句中的大部分單元都在語音庫
53、里存在,那么合成出的語音的自然度要比規(guī)則拼接高得多,以至于當(dāng)尋求高自然度時(shí),這類方法成為主流方法。但它的代價(jià)則是設(shè)計(jì)精細(xì)、科學(xué),占用內(nèi)存大,人力物力耗費(fèi)巨大的語音語料庫。單元選擇單元選擇是一種波形拼接方法,但是它在事先錄好的庫中存儲了每個(gè)拼接單元的大量不同韻律實(shí)例,這樣就避免了傳統(tǒng)波形拼接中的韻律修飾,也就解決了傳統(tǒng)波形拼接方法中語音單元邊界不連續(xù)的問題。一般來說,單元選擇方法合成的語音音質(zhì)好,穩(wěn)定,自然度較高。但單元選擇方法也像其他波形拼接方法一樣存在拼接時(shí)選擇了錯誤單元的情況。諧波加噪聲模型為了解決單元選擇中的誤拼情況,研究人員又提出了諧波加噪聲模型,該模型將語音信號看成是各種分量諧波和噪
54、聲的加權(quán)和,對信號的這種分解使得合成出的信號更加自然。HMM 模型和 STRAIGHT 合成技術(shù)如前所述,波形拼接方法需要的語音語料庫非常占用資源而且要求設(shè)計(jì)精細(xì),因?yàn)樗械钠唇訂卧紒碜杂趲?,而且?xùn)練模型的時(shí)間通常很長。隱馬爾科夫模型(HMM)結(jié)合諧波加噪聲模型一起,解決了這個(gè)問題。這種方法也被看作是最有用的統(tǒng)計(jì)建模方法。它的流程如下:首先,選擇合適的特征表征語音庫中的語音,訓(xùn)練模型;然后,利用模型將文本生成序列狀態(tài)的特征向量;最后送入一個(gè)濾波器,將特征向量轉(zhuǎn)換成語音?;?HMM 模型建模方法,靈活度高,庫小,并且構(gòu)建時(shí)間也少,非常適合移動嵌入式平臺。20 世紀(jì)出現(xiàn)了數(shù)據(jù)驅(qū)動向規(guī)則驅(qū)動
55、的傾向,其重要標(biāo)注就是新的語音處理技術(shù)和 HMM 統(tǒng)計(jì)模型,使得參數(shù)合成出現(xiàn)了新局面。神經(jīng)網(wǎng)絡(luò)及深度神經(jīng)網(wǎng)絡(luò)模型深度神經(jīng)網(wǎng)絡(luò)屬于多層神經(jīng)網(wǎng)絡(luò),二者在結(jié)構(gòu)上大致相似,不同的是深度學(xué)習(xí)網(wǎng)絡(luò)在做有監(jiān)督學(xué)習(xí)的時(shí)候先做非監(jiān)督學(xué)習(xí),然后將非監(jiān)督學(xué)習(xí)到的權(quán)值當(dāng)作有監(jiān)督學(xué)習(xí)的初值進(jìn)行訓(xùn)練。動作交互發(fā)展現(xiàn)狀基于動作的目標(biāo)獲取技術(shù)目標(biāo)獲取是人機(jī)交互過程中的最基本的交互任務(wù),用戶向計(jì)算機(jī)指明想要交互的目標(biāo),其他的交互命令均在此基礎(chǔ)上完成。隨著交互界面的發(fā)展,在很多自然交互界面上,如遠(yuǎn)距離大屏幕,虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)設(shè)備等,傳統(tǒng)的交互設(shè)備(如鼠標(biāo),鍵盤)無法繼續(xù)用來完成目標(biāo)獲取任務(wù)。因此,在這些界面上,研究者探索使用動
56、作交互完成目標(biāo)獲取任務(wù)的可能方式。主要的輸入方式分為直接和間接兩種。直接的動作選取要求用戶通過接觸目標(biāo)位置的方式對其進(jìn)行選取,例如在增強(qiáng)現(xiàn)實(shí)應(yīng)用中,用戶通過以手部接觸的方式完成虛擬物體的選取。間接的目標(biāo)選取方式則需要用戶通過身體部分的位置和姿態(tài)來控制和移動光標(biāo),再借助光標(biāo)指示目標(biāo)的位置進(jìn)行選取。其中,一個(gè)廣泛應(yīng)用的光標(biāo)控制方法是光線投射方法(Ray-casting),用戶通過控制一束虛擬光線來選取與之相交的目標(biāo)。多種控制方式已被廣泛研究,包括通過手指延伸方向,頭部朝向方向和手眼連線等方式控制光線的起始位置和指向方向,進(jìn)而控制光線指向想要選取的目標(biāo)。在通過直接或者間接的指點(diǎn)方式指明要選取的目標(biāo)后
57、,目標(biāo)選取技術(shù)還需要用戶完成一個(gè)選取確認(rèn)的過程。該過程用于避免用戶無交互意識的動作被誤識別為目標(biāo)選取動作而引起誤觸發(fā)問題。因此,基于動作的目標(biāo)選取方法一般需要用戶做一個(gè)確認(rèn)動作來完成選取過程。例如,想要在目前商用的增強(qiáng)現(xiàn)實(shí)頭顯設(shè)備(如微軟 Hololens)完成一次目標(biāo)選取,在用戶移動光標(biāo)指向目標(biāo)后,還要完成一個(gè)空中手勢作為確認(rèn)(如 Hololens 的 Air Tap 手勢)。除確認(rèn)動作外,相關(guān)技術(shù)也嘗試使用光標(biāo)暫留和基于光標(biāo)軌跡的確認(rèn)方式。光標(biāo)暫留方式要求用戶將光標(biāo)移動到目標(biāo)位置后維持在目標(biāo)內(nèi)部一段時(shí)間直到超過選取確認(rèn)的時(shí)間閾值?;诠鈽?biāo)軌跡的確認(rèn)方法需要特殊設(shè)計(jì)目標(biāo)的外形,同時(shí)要求額外的
58、模式切換功能,用戶切換到選取模式后控制光標(biāo)穿過目標(biāo)的邊界將完成目標(biāo)獲取的確認(rèn)。自然的動作命令映射方法在向計(jì)算機(jī)指明想要交互的目標(biāo)對象基礎(chǔ)上,用戶需要進(jìn)一步傳達(dá)想要對交互目標(biāo)完成的交互意圖。動作輸入技術(shù)可以支持這一交互意圖傳達(dá)過程,方法為將一系列交互動作映射到對應(yīng)的交互指令上,當(dāng)用戶完成其中之一的交互動作時(shí),計(jì)算機(jī)利用預(yù)設(shè)的映射關(guān)系解碼交互動作,執(zhí)行對應(yīng)的交互指令。而如何實(shí)現(xiàn)自然的動作到指令的映射關(guān)系則決定著輸入技術(shù)和交互動作的可用性,可發(fā)現(xiàn)性等影響用戶體驗(yàn)的因素。在以往的動作輸入技術(shù)中,動作命令的映射關(guān)系由開發(fā)者或者設(shè)計(jì)師決定。這種基于經(jīng)驗(yàn)的定義方法往往存在自然性和識別準(zhǔn)確率難以權(quán)衡的矛盾。設(shè)
59、計(jì)師會更加注重自然性,系統(tǒng)開發(fā)者更注重保證交互動作的識別效果。因此,這些動作輸入技術(shù)面臨著動作交互可發(fā)現(xiàn)性低和學(xué)習(xí)成本高的問題,這也是動作交互未能更加廣泛被應(yīng)用的重要原因。為了解決映射關(guān)系的自然性問題,研究者提出用戶參與式的動作輸入設(shè)計(jì)方法,讓使用輸入技術(shù)的用戶本身參與到映射關(guān)系的確定過程中。該方法最早被應(yīng)用在為可交互桌面設(shè)計(jì)交互動作完成界面控制的研究中。首先向用戶展示交互動作將會引發(fā)的交互效果,隨后要求用戶去定義該交互動作的具體形式,最后統(tǒng)計(jì)不同用戶的定義結(jié)果,選取最高頻率的交互動作對應(yīng)到指定交互效果上。這樣設(shè)計(jì)出的交互動作往往與用戶的日常經(jīng)驗(yàn)相關(guān),因而有更高的可記憶性也被用戶所偏好。該研究
60、方法被成功應(yīng)用到移動設(shè)備交互,智能電視交互,虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等應(yīng)用領(lǐng)域中。自然交互動作的識別方法在計(jì)算機(jī)將交互動作解碼為用戶的交互意圖之前,首先要對用戶完成的交互動作進(jìn)行感知和識別。計(jì)算機(jī)需要借助傳感器將用戶的交互動作轉(zhuǎn)換為可以計(jì)算和分析的信號數(shù)據(jù),隨后對于信號數(shù)據(jù)進(jìn)行分割,特征提取和分類。常用的傳感信號包括圖像,聲音,慣性傳感器信號等?;趫D像的用戶身體姿態(tài)感知已被廣泛應(yīng)用于遠(yuǎn)距離大屏幕交互中。通過使用深度攝像頭(如微軟 Kinect 攝像頭)作為傳感設(shè)備,算法可以提取出用戶當(dāng)前的骨架信息(Skeleton),通過感知一段時(shí)間窗口內(nèi)的骨架信息變化來識別用戶的交互動作?;诼曇粜盘柕氖录z測
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國串串香行業(yè)營銷創(chuàng)新戰(zhàn)略制定與實(shí)施研究報(bào)告
- 2025-2030年中國智能公交行業(yè)開拓第二增長曲線戰(zhàn)略制定與實(shí)施研究報(bào)告
- 2025-2030年中國螢石行業(yè)資本規(guī)劃與股權(quán)融資戰(zhàn)略制定與實(shí)施研究報(bào)告
- 2025-2030年中國XRF儀器行業(yè)全國市場開拓戰(zhàn)略制定與實(shí)施研究報(bào)告
- 化學(xué)品 快速雄激素干擾活性報(bào)告試驗(yàn) 征求意見稿
- 安徽省房屋建筑安徽省工程建筑信息模型(BIM)審查數(shù)據(jù)標(biāo)準(zhǔn)(2025版)
- 2025年鋁制桌椅項(xiàng)目可行性研究報(bào)告
- 燒烤排煙知識培訓(xùn)課件
- 實(shí)驗(yàn)學(xué)校上學(xué)期工作參考計(jì)劃
- 防詐騙安全知識培訓(xùn)課件
- 2024年股東股權(quán)繼承轉(zhuǎn)讓協(xié)議3篇
- 2025年中央歌劇院畢業(yè)生公開招聘11人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 北京市高校課件 開天辟地的大事變 中國近代史綱要 教學(xué)課件
- 監(jiān)事會年度工作計(jì)劃
- 2024中國近海生態(tài)分區(qū)
- 山東省濟(jì)南市2023-2024學(xué)年高一上學(xué)期1月期末考試化學(xué)試題(解析版)
- 北師大版五年級數(shù)學(xué)下冊第3單元第1課時(shí)分?jǐn)?shù)乘法(一)課件
- 2024-2030年中國汽車保險(xiǎn)杠行業(yè)市場發(fā)展現(xiàn)狀及前景趨勢分析報(bào)告
- 智研咨詢發(fā)布:中國種豬行業(yè)市場現(xiàn)狀、發(fā)展概況、未來前景分析報(bào)告
- 六年級上冊分?jǐn)?shù)四則混合運(yùn)算100題及答案
- 2024年認(rèn)證行業(yè)法律法規(guī)及認(rèn)證基礎(chǔ)知識
評論
0/150
提交評論