導航電子地圖中的語音匹配與模式識別_第1頁
導航電子地圖中的語音匹配與模式識別_第2頁
導航電子地圖中的語音匹配與模式識別_第3頁
導航電子地圖中的語音匹配與模式識別_第4頁
導航電子地圖中的語音匹配與模式識別_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、導航電子地圖中的語音匹配與模式識別張 翎(南京師范大學地理科學學院, 南京210046)摘 要:針對目前在導航電子地圖系統(tǒng)中仍然采用鼠標、鍵盤、觸摸屏等傳統(tǒng)輸入方式的不足,本文研究了語音控制技術在導航系統(tǒng)中的初步應用方法。由于在導航系統(tǒng)應用中存在的噪聲大、孤立詞和模糊語音等問題,本文在采用通用的語音識別模塊的基礎上,首次提出了基于拼音音節(jié)字符串有效字符的相近匹配度算法,建立了靈活、可擴充的模糊拼音庫,實驗證明該方法顯著地提高了語音的匹配率;運用人工智能技術和模式識別方法,建立了導航應用的句法關鍵詞規(guī)則庫,基本實現(xiàn)了基于自然語言的人機交互功能,并將該技術實際應用于導航電子地圖系統(tǒng)中,完善了語音的

2、輸入功能,提高了操作效率和系統(tǒng)的智能化程度,為導航電子地圖系統(tǒng)的進一步應用提供了快捷、有效的交互平臺。關鍵詞:語音 導航 電子地圖 模式識別Matching and Pattern Recognition of Voice For Electronic Navigation Map SystemZhang Ling(Nanjing Normal University, Nanjing 210046)Abstract: This paper probes into a basic application of voice control technology in electronic navi

3、gation map system. Because there are some problems in the application of navigation system, such as noise, isolated words and blurry voice, this paper, that is based on a current voice recognition module, firstly puts forward a method of the similar matching-degree calculation on geographical inform

4、ation which adopts faintness matching on pinyin string to improve their matching rates, sets up a rule database of syntax and keywords, basically realizes the interaction function of person and computer. The method has been successfully applied in navigation electronic atlas, which improves the inpu

5、t function of voice, and increases intelligent extent of electronic map application.Key words: voice; navigation; electronic map; pattern recognition目 錄1引 言32 研究的理論與技術基礎42.1導航電子地圖與語音導航42.2語音應用的分類42.3語音應用流程52.4技術基礎5語言匹配技術5模式識別技術63若干關鍵技術研究63.1主要存在的問題63.2語言類型的選擇63.3導航句法規(guī)則庫的建立73.4拼音字符串的相近匹配度計算84實驗與結果分析1

6、04.1實驗數(shù)據(jù)114.2實驗步驟114.3實驗系統(tǒng)的界面114.4實驗結果分析125結論與討論136謝辭137參考文獻14附錄:151 引 言現(xiàn)代社會的發(fā)展,已經(jīng)進入了高信息化時代。信息成為推動人類社會發(fā)展的強大動力,而詳實、準確的地理信息對人類社會發(fā)展產(chǎn)生的巨大推動作用更加毋庸置疑。電子地圖的出現(xiàn)使得地理信息的顯示更加方便、直觀,并且將地圖的應用擴展到了更廣闊的領域1。隨著計算機科學與技術的發(fā)展,我國已經(jīng)公開出版了不少電子地圖產(chǎn)品,如武漢百事通、中國電子地圖、中國深圳等,國外也有很多內(nèi)容豐富、功能強大的電子地圖產(chǎn)品,如微軟公司出品的Encarta 97 World Atlas等。這些產(chǎn)品通

7、過人機交互,可以實現(xiàn)查詢、統(tǒng)計、分析、量算、決策和定位導航等功能,一定程度上顯示了電子地圖反應地理信息的優(yōu)越性。電子地圖問世的目的是為人類服務的,隨著國家道路建設的日益完善、人民生活水平的提高,車輛將進入普通家庭,現(xiàn)有道路設施的合理利用將為建設一個安全、可靠、高效快捷的交通運輸系統(tǒng)做出貢獻。導航電子地圖系統(tǒng)的使用,不但使交通管制游刃有余,對個人而言,出行將更加方便、快捷。但是,現(xiàn)有的導航電子地圖在人機交互方面還有一定的欠缺,如沒有實現(xiàn)人與計算機之間直接用自然語言進行交流等,還沒有使電子地圖真正實現(xiàn)人工智能(Artificial Intelligence)。展望其今后的發(fā)展,無論是三維電子地圖,

8、網(wǎng)絡電子地圖,還是智能導航電子地圖,以及智能交通系統(tǒng)(Intelligent Transportation System,簡稱ITS)9的實現(xiàn),都要求以人為本,實現(xiàn)人性化的人機交互。語音在導航電子地圖系統(tǒng)中應用的目的是為了使計算機能夠模擬人的語言交流過程,并且能夠理解和運用人的自然語言,提高交通導航系統(tǒng)的智能化程度,以最終實現(xiàn)人與計算機系統(tǒng)的自然交互。在語音導航研究方面,目前許多國家、機構都制定了專門的實施計劃,如美國DARPA的Communication計劃、歐洲的ARISE計劃、REWARD計劃和VERBMOBIL計劃,同時許多著名的學府和研究機構都正在從事這方面的研究,如MIT的SLS實

9、驗室、CMU的ISL實驗室、Lucent-Bell實驗室、日本的ATR實驗室、OGI的CSLU中心和Philips公司等。在我國,中科院自動化所、清華大學、武漢大學、北京航空航天大學等都投入了很大的精力開展這項研究,但目前漢語語音導航仍然以導航信息的語音提示為主,尚處于起步階段,還沒有實用性的語音輸入與控制的導航系統(tǒng)產(chǎn)品。本論文的目的是將自然語言交流方法運用于導航系統(tǒng)中,使語音、電子地圖和交通導航真正有機地結合起來。本文在現(xiàn)有商品化的語音識別模塊基礎上,針對噪聲環(huán)境下中文文字識別率較低的情況下,考慮到導航系統(tǒng)所特有的語言特點,運用模式識別技術和自然語言匹配方法,建立面向?qū)Ш綉玫木浞ㄒ?guī)則,在傳

10、統(tǒng)鼠標、鍵盤、觸摸屏等輸入方式的基礎上增加語音的輸入功能,實現(xiàn)語音導航的語義理解和自動操作,并將其實際應用到南京師范大學導航電子地圖系統(tǒng)中,以簡化系統(tǒng)的命令操作流程,提高應用中的安全性,最終為提高交通導航系統(tǒng)的智能化程度,實現(xiàn)人與計算機系統(tǒng)的自然交互服務,為智能交通系統(tǒng)(ITS)的建立奠定基礎。2 研究的理論與技術基礎2.1 導航電子地圖與語音導航導航電子地圖將GPS定位系統(tǒng)與電子地圖結合起來,在不斷發(fā)展的計算機軟硬件技術支持下,以電子地圖數(shù)據(jù)庫為數(shù)據(jù)基礎,充分利用GPS的高精度定位能力、電子地圖的空間分析和直觀表達能力,實現(xiàn)地圖顯示、目標查詢、距離量算、路徑分析等眾多功能,并在實時、有效地獲

11、取移動目標(如車輛)所在位置的基礎上,進一步實現(xiàn)定位、導航和相關信息服務1。目前,提高導航電子地圖的智能化程度是導航系統(tǒng)普遍的研究重點,它包括兩層含義,一是導航路徑分析、目標搜索、查詢方法的智能化,適應各種復雜分析條件和用戶要求,以建立有效正確的導航應用,在這一方面已經(jīng)取得了大量的研究成果;二是系統(tǒng)界面和交互環(huán)境的智能化,這是提供系統(tǒng)應用的靈活性,因為導航電子地圖系統(tǒng)的應用通常是在動態(tài)移動環(huán)境下,需要快速、方便和安全的用戶輸入和實時的結果信息反饋。針對這一要求,傳統(tǒng)的鼠標、鍵盤模式存在嚴重的缺陷,如輸入速度慢、不能在目標動態(tài)移動過程中實時進行。語音技術是人工智能技術的重要組成部分,隨著語音識別

12、技術的發(fā)展,應用語音提高導航系統(tǒng)的智能化程度已具有一定的研究基礎。目前,已有一些商品化的語音軟件在國內(nèi)得到較好的應用,如IBM的ViaVoice、Microsoft的Speech SDK等。語音導航必然成為導航系統(tǒng)的一個新的研究領域。2.2 語音應用的分類導航電子地圖中的語音所研究的并非完全的自然語言,而是結合導航應用的語音信息,具有專業(yè)領域的語言特點和語法規(guī)則。從應用的角度出發(fā),可分為以下幾類:(1)輸出型語音輸出型語音的應用是根據(jù)使用電子地圖的目的,在顯示地圖圖形的同時,將與主題有關的內(nèi)容用聲音播報出來,使電子地圖具有語言表達的功能。該類型的語音通常是系統(tǒng)發(fā)送給用戶的信息,一般為固定的內(nèi)容

13、播報,也有系統(tǒng)通過分析生成的內(nèi)容,如在導航系統(tǒng)中有類似“前方100米向從左邊數(shù)第3個路口轉”的信息反饋,其中的“100”和“3”是由系統(tǒng)分析所得。輸出型語音的只能單向的由系統(tǒng)向用戶發(fā)送語音信息,不能夠使用語音輸入,還沒有實現(xiàn)智能化的人機交互。(2)輸入型語音輸入行語音是指用戶通過話筒等聲音采集設備將命令或者要執(zhí)行的操作等語句以語音的方式輸入計算機,讓計算機系統(tǒng)識別語音以及理解語義來執(zhí)行命令。它包括非理解型語音和理解型語音兩種形式。非理解型語音是用戶向計算機系統(tǒng)發(fā)出語音指令來控制導航電子地圖系統(tǒng)以達到語音管理的目的。此類輸入的語句結構比較簡單,一般為一個固定的簡短語句組成,如“啟動”、“結束”、

14、“放大”、“縮小”等。該類型的語音輸入通常是系統(tǒng)規(guī)定的關鍵詞,計算機系統(tǒng)無需對輸入語句的語法、語義進行理解,只要進行關鍵詞的匹配就可以達到執(zhí)行相關命令的目的。理解型語音則是在一定的語法規(guī)則的限定下,給用戶最大限度的自由,讓用戶可以自由的說話,通過計算機來理解語音并且執(zhí)行相關的命令。在面向?qū)Ш綉玫恼Z音輸入時,如“南師大在哪里”、“我要到南師大”、“從南師大到南大怎么走”、“離南師大最近的超市在哪里”等這些都屬于理解型語音。此類輸入的語句比理解型語音輸入的語句更為復雜,但是具有更大的靈活性。在處理這種類型的輸入型語音時,計算機系統(tǒng)根據(jù)導航領域的語法規(guī)則來進行語義的理解,再執(zhí)行相關的操作??紤]到導

15、航系統(tǒng)應用的實際需要,本文研究將主要集中在理解型輸入語音方面。(3)輸入輸出型語音這是將上面兩種方式結合起來的一種形式,同時兼顧語音輸入和語音輸出功能,在一定程度上具有真正意義的人機語音交互能力,也是導航系統(tǒng)語音應用的更高目標。/5 結論與討論本論文實現(xiàn)了用計算機模擬人的語言交流過程,通過建立面向?qū)Ш筋I域的語言規(guī)則,使計算機通過模式識別理解和運用在導航領域的自然語言,并且通過隨機帶噪拼音字符串的二次匹配計算匹配率提高了語音的識別率。該技術已經(jīng)應用于導航電子地圖系統(tǒng),在南京師范大學導航電子地圖系統(tǒng)中進行了相關的實驗,達到了預期的效果,從而使語音、電子地圖和交通導航有機的結合起來,實現(xiàn)了人與計算機

16、系統(tǒng)的自然交互,提高了交通導航系統(tǒng)的智能化程度。目前,本論文對導航電子地圖中的語音應用研究處于初步階段,功能的實現(xiàn)只是定位與導航。以后通過對導航語言規(guī)則的增加,使計算機系統(tǒng)能夠理解更為復雜的語句,比如實現(xiàn)空間分析功能“查詢南師大周圍一公里內(nèi)所有的公交站點”等。在語音識別方面,通過基于地理信息的二次匹配度的計算方法在一定程度上提高了語音識別率,但是識別率還沒有達到100%的情況。隨著語音采集設備和模糊音自適應能力等方面的完善,語音的識別率能夠達到更理想的效果15。6 謝辭本文是在指導導師龍毅教授精心指導下完成的,從論文的選題、實驗系統(tǒng)的開發(fā)到最后文章的修改定稿,感謝龍毅教授在學業(yè)上對我的諄諄教導

17、,導師嚴于律己,為人師表、嚴謹?shù)闹螌W態(tài)度都使我受益匪淺。感謝蔣成環(huán)、毛凱、張亮、束平、周侗五位師兄,同小組成員崔世林同學,以及全體課題組同學的幫助。感謝朱春華同學對我論文摘要翻譯的幫助。感謝同宿舍舍友張正榮、張劍和張勁四年來的關心和幫助。感謝在四年來關心和幫助我的老師們和01級8班的全體同學。還要感謝養(yǎng)育我成長的我的父母,他們永遠是我前進的動力。感謝所有關心、幫助和合作過的師長、同學和朋友們。7 參考文獻1 武雪玲、任 福新技術條件下電子地圖的現(xiàn)狀及發(fā)展趨勢分析J測繪通報,2004,27(6):75-782 任天平、門茂琛語音識別技術應用的進展J科技廣場,2005:19-203 張瑞強、王作英

18、、張建平帶拼音糾錯的漢語音字轉換技術J清華大學學報(自然科學版),1997,37(10):9-114 楊大利、徐明星、吳文虎噪音環(huán)境下的語音識別研究J計算機工程與應用,2003,20:1-45 于鵬、徐義芳、曹志剛基于加權特征值補償?shù)恼f話人識別J信號處理,2002,18(6):513-5176 王金明、張雄偉一種基于自適應模糊濾波的語音增強方法J解放軍理工大學學報(自然科學版),2003,4(1):17-207 王衛(wèi)華、陳衛(wèi)東、顧 岳用Microsoft Speech SDK實現(xiàn)語音識別和語音合成J電子技術,2000,11:40-418 李玲慧、毛卉等基于GIS的數(shù)字地圖的應用J 地域研究與開發(fā),2003,22(6):52-54.9 陳則王、袁信面向ITS的車輛導航與定位技術J 交通與計算機,2001,19(6):23-25.10 何兆成、劉緒啟、洪 波、李 軍、黃忠洲、余志車輛導航系統(tǒng)語音路徑引導模塊的實現(xiàn)J 交通運輸工程學報,2003,3(4):108-111.11 聶 敏語音識別及其關鍵技術J 微波與衛(wèi)星通信,1999,4:53-56.12 何湘智語音識別的研究與發(fā)展J 計算機與現(xiàn)代化,2002,79(3):3-6.13 Doh Suk Kim、 Soo Y

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論