第二講：使用TTS實現(xiàn)語音朗讀

上傳人：1*** IP屬地：湖北上傳時間：2022-06-11 格式：PPT 頁數(shù)：22 大小：325KB 積分：30 舉報 版權申訴

已閱讀5頁，還剩17頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、第二講：使用第二講：使用TTSTTS實現(xiàn)語音朗讀實現(xiàn)語音朗讀主講：蔣涵鑫語音識別技術簡介語音識別技術簡介語音識別和語音技術是實現(xiàn)人機語音通信,建立一個有聽和講能力的口語系統(tǒng)所必需的兩項關鍵技術.使電腦具有類似于人一樣的說話和聽懂人說話的能力,是90年代信息產(chǎn)業(yè)的重要競爭市場.和語言識別相比,語言合成的技術相對說來要成熟一些,是該領域中近期最有希望產(chǎn)生突破并形成產(chǎn)業(yè)化的一項技術。使用語音識別技術我們可以實現(xiàn)很多智能化的功能，例如語音導航，自動化語音播報等，更值得一提的是在很多時候語音朗讀會為我們解決文字識別的困難，為我們的閱讀提高效率。在現(xiàn)代的語音識別技術的應用中常見的除了語音播放之外還有語音輸

2、入識別搜索等，在許多手機的APP上很多公司都在搜索引擎上加入了智能語音識別技術。語音識別已經(jīng)成為了程序開發(fā)歷史上的又一個具有劃時代意義的技術。語音識別技術的方式語音識別技術的方式語音技術方式講可分為波形編輯合成、參數(shù)分析合成以及規(guī)則合成等三種。波形編輯合成,這種合成方式以語句、短語、詞或音節(jié)為合成單元,這些單元被分別錄音后直接進行數(shù)字編碼,經(jīng)適當?shù)臄?shù)據(jù)壓縮,組成一個合成語音庫.重放時,根據(jù)待輸出的信息,在語料庫中取出相應單元的波形數(shù)據(jù),串接或編輯在一起,經(jīng)解碼還原出語音.這種合成方式,也叫錄音編輯合成,合成單元越大,合成的自然度越好,系統(tǒng)結構簡單,價格低廉,但合成語音的數(shù)碼率較大,存儲量也大,

3、因而合成詞匯量有限。參數(shù)分析合成,這種合成方式多以音節(jié)、半音節(jié)或音素為合成單元.首先,按照語音理論,對所有合成單元的語音進行分析,提取有關語音參數(shù),這些參數(shù)經(jīng)編碼后組成一個合成語音庫;輸出時,根據(jù)待合成的語音的信息,從語音庫中取出相應的合成參數(shù),經(jīng)編輯和連接,順序送入語音合成器.在合成器中,通過合成參數(shù)的控制,將語音波形重新還原出來。規(guī)則合成,這種合成方式通過語音學規(guī)則來產(chǎn)生目標語音.規(guī)則合成系統(tǒng)存儲的是較小的語音單位(如音素、雙音素、半音節(jié)或音節(jié))的聲學參數(shù),以及由音素組成音節(jié)、再由音節(jié)組成詞或句子的各種規(guī)則.當輸入字母符號時,合成系統(tǒng)利用規(guī)則自動地將它們轉換成連續(xù)的語音波形.由于語音中存在

4、協(xié)同發(fā)音效應,單獨存在的元音和輔音與連續(xù)發(fā)音中的元音和輔音不同,所以,合成規(guī)則是在分析每一語音單元出現(xiàn)在不同環(huán)境中的協(xié)同發(fā)音效應后,歸納其規(guī)律而制定的如共振峰頻率規(guī)則、時長規(guī)則、聲調(diào)和語調(diào)規(guī)則等.由于語句中的輕重音,還要歸納出語音減縮規(guī)則。TTSTTS技術簡介技術簡介TTS是Text To Speech的縮寫，即“從文本到語音”，是人機對話的一部分，讓機器能夠說話。它是同時運用語言學和心理學的杰出之作，在內(nèi)置芯片的支持之下，通過神經(jīng)網(wǎng)絡的設計，把文字智能地轉化為自然語音流。TTS技術對文本文件進行實時轉換，轉換時間之短可以秒計算。在其特有智能語音控制器作用下，文本輸出的語音音律流暢，使得聽者在

5、聽取信息時感覺自然，毫無機器語音輸出的冷漠與生澀感。TTS語音合成技術。即將覆蓋國標一、二級漢字，具有英文接口，自動識別中、英文，支持中英文混讀。所有聲音采用真人普通話為標準發(fā)音，實現(xiàn)了120-150個漢字/分鐘的快速語音合成，朗讀速度達3-4個漢字/秒，使用戶可以聽到清晰悅耳的音質(zhì)和連貫流暢的語調(diào)?，F(xiàn)在有少部分MP3隨身聽具有了TTS功能。TTS是語音合成應用的一種，它將儲存于電腦中的文件，如幫助文件或者網(wǎng)頁，轉換成自然語音輸出。TTS不僅能幫助有視覺障礙的人閱讀計算機上的信息，更能增加文本文檔的可讀性?，F(xiàn)在的TTS應用包括語音驅動的郵件以及聲音敏感系統(tǒng)，并常與聲音識別程序一起使用。SDKS

6、DK簡介簡介軟件開發(fā)工具包（外語首字母縮寫：SDK、外語全稱：Software Development Kit）一般都是一些軟件工程師為特定的軟件包、軟件框架、硬件平臺、操作系統(tǒng)等建立應用軟件時的開發(fā)工具的集合。軟件開發(fā)工具包廣義上指輔助開發(fā)某一類軟件的相關文檔、范例和工具的集合。軟件開發(fā)工具包是一些被軟件工程師用于為特定的軟件包、軟件框架、硬件平臺、操作系統(tǒng)等創(chuàng)建應用軟件的開發(fā)工具的集合，一般而言SDK即開發(fā)Windows平臺下的應用程序所使用的SDK。它可以簡單的為某個程序設計語言提供應用程序接口API的一些文件，但也可能包括能與某種嵌入式系統(tǒng)通訊的復雜的硬件。一般的工具包括用于調(diào)試和其他

7、用途的實用工具。SDK 還經(jīng)常包括示例代碼、支持性的技術注解或者其他的為基本參考資料澄清疑點的支持文檔。為了鼓勵開發(fā)者使用其系統(tǒng)或者語言，許多 SDK 是免費提供的。軟件工程師通常從目標系統(tǒng)開發(fā)者那里獲得軟件開發(fā)包，也可以直接從互聯(lián)網(wǎng)下載，有時也被作為營銷手段。例如，營銷公司會免費提供構件SDK 以鼓勵人們使用它，從而會吸引更多人由于能免費為其編程而購買其構件。使用使用SDKSDK開發(fā)的好處開發(fā)的好處SDK 的開發(fā)語言版本覆蓋業(yè)務常用的幾個開發(fā)語言，如C、C+、C#、Java等。文檔通俗易懂，提供本地版本和在線版本兩種方案。本地版本主要幫助開發(fā)者臨時無法聯(lián)網(wǎng)時查看，在線版本提供更豐富的文檔內(nèi)容

8、資源。接口簡單，只要開發(fā)者傳遞幾個參數(shù)就可以完成對接，開發(fā)者無需關心協(xié)議、加解密、校驗等，使用方便。有自己的開發(fā)社區(qū)，可以方便共同使用SDK的程序員進行交流SDK中提供了豐富的API函數(shù)，通過這些函數(shù)，程序員可以非常方便的實現(xiàn)例如調(diào)用打印機，語音播放等實用功能。一個好的sdk會讓開發(fā)者用起來更簡單。sdk就像一個鑰匙庫，開發(fā)者需要找到自己想用的那一個鑰匙就行。鑰匙可以理解成功能。 APIAPI簡介簡介API（Application Programming Interface,應用程序編程接口）是一些預先定義的函數(shù)，目的是提供應用程序與開發(fā)人員基于某軟件或硬件得以訪問一組例程的能力，而又無需訪

9、問源碼，或理解內(nèi)部工作機制的細節(jié)。API函數(shù)包含在Windows系統(tǒng)目錄下的動態(tài)連接庫文件中。Windows API是一套用來控制Windows的各個部件的外觀和行為的預先定義的Windows函數(shù)。用戶的每個動作都會引發(fā)一個或幾個函數(shù)的運行以告訴Windows發(fā)生了什么。這在某種程度上很像Windows的天然代碼。而其他的語言只是提供一種能自動而且更容易的訪問API的方法。當你點擊窗體上的一個按鈕時，Windows會發(fā)送一個消息給窗體，VB獲取這個調(diào)用并經(jīng)過分析后生成一個特定事件。凡在Windows下運行的程序均可調(diào)用Windows中的APIMicorosoft Speech SDKMicor

10、osoft Speech SDK簡介簡介Microsoft Speech SDK提供關于語音（Speech）處理的一套應用程序編程接口SAPI（Speech Application Programming Interface）。SAPI提供了實現(xiàn)文字-語音轉換（Text-to-Speech）和語音識別（Speech Recognition）程序的基本函數(shù)，大大簡化了語音編程的難度，降低了語音編程的工作量。（程序員只需要調(diào)用其中的函數(shù)就可以實現(xiàn)語音朗讀了）Speech SDK的最新版本中支持了英文、日文、中文的語音引擎，并且支持英文和中文的混合朗讀。使用Speech SDK你就可以輕輕松松的在

11、自己的電腦上通過語音朗讀來閱讀你的文本，減少眼睛的負擔。注：Speech SDK和ADO一樣，都屬于COM組件了解了解COMCOM組件組件組件對象模型（Component Object Model，COM）對象是符合COM規(guī)范的可重用的軟件組件。符合COM規(guī)范的COM對象相互之間可以很好地工作，并且可以很容易地集成到應用程序中。從應用的觀點來看，一個COM對象就是一個黑箱，應用程序可以使用它來創(chuàng)建一項或多項任務。COM對象常常用動態(tài)鏈接庫（Dynamic Link Libraries，DLLs）的形式來實現(xiàn)。與傳統(tǒng)的DLL一樣，COM對象暴露其方法，應用程序能調(diào)用這些方法來實現(xiàn)對象所支持的功能

12、。應用程序與COM對象的關系就像應用程序與C+對象的關系，但其中也存在一些區(qū)別。安裝安裝Micorosoft Speech SDKMicorosoft Speech SDK如果希望在你的程序中實現(xiàn)語音播放功能，那么你的電腦上必須要安裝Speech SDK，這個開發(fā)包是微軟公司免費為大家提供的，所以大家不用擔心收費的問題。安裝Speech SDK的過程如下：http:/ SDKSpeech SDK由于Speech SDK并不是C+中自帶的，因此我們?nèi)羰窍胍褂眠@個開發(fā)包就必須要先將這個開發(fā)包的代碼引入C+程序中。Step1：引入SDK開發(fā)包，通常我們采用#include指令包含所需要的頭文件，名

13、稱為“sapi.h”Step2：為了能夠順利的初始化COM環(huán)境（因為Speech SDK是COM組件），因此我們還需要借助#pragma comment指令引入ole32.lib這個庫文件。.lib是庫文件的后綴名，和.h文件的性質(zhì)差不多。Step3：正式引入實現(xiàn)Speech SDK的功能代碼，這些代碼文件存儲在sapi.lib文件中。如何使用如何使用Speech SDKSpeech SDK引入Speech SDK的代碼如下：#progma comment指令也屬于特殊的預處理命令，是MFC中獨有的，后面不帶分號初始化初始化COMCOM組件組件由于Speech SDK和ADO一樣，均屬于由第三

14、方人員開發(fā)的COM組件，因此我們需要將程序的編程環(huán)境切換到COM環(huán)境中，通常我們會通過ole32.lib文件中的預定義函數(shù)CoInstance實現(xiàn)對COM編程環(huán)境的初始化。 CoInstance中間的參數(shù)被保留且必須為NULL。執(zhí)行該函數(shù)后，將返回一個HRESULT類型的值。HRESULT類型是MFC編程中的常用類型，用于判斷可能會發(fā)生的錯誤。在COM環(huán)境中，每一個函數(shù)都必須要返回一個HRESULT類型的值，指示該組件（函數(shù)）是否正確運行。初始化初始化COMCOM組件組件在COM環(huán)境中，每一個函數(shù)都會返回一個HRESULT類型的值，具體的含義如下圖：注：在MFC中我們可以通過FAILED以及S

15、UCCESS函數(shù)判斷HRESULT的返回碼初始化初始化COMCOM組件組件初始化COM組件的程序代碼如下：使用使用Speech SDKSpeech SDK在公司里如果我們需要完成一樣具體的工作，那么我們就需要一個具體負責這個工作的職位，而且職位上要有人。在C+程序設計的世界里也是這樣同樣的道理。通常我們可以用指針來代表職位，用對象來代表駐守這個職位上的人。如果我們需要使用Speech，那么我們必須要建立一個崗位，并且為這個崗位創(chuàng)建一個對象。在C+中，這個崗位使用ISpVoice類進行描述。首先我們需要創(chuàng)建一個該類的指針。即：使用使用Speech SDKSpeech SDK接著我們需要在這個崗位

16、上安排一個上班的人，也就是一個具體的對象，在Speech SDK中，這個對象使用CoCreateInstance函數(shù)獲取。CoCreateInstance函數(shù)用指定的類標識符創(chuàng)建一個Com對象,用指定的類標識符創(chuàng)建一個未初始化的對象。函數(shù)原型如下：使用使用Speech SDKSpeech SDKRclsid參數(shù)指的是CLSID，是指windows系統(tǒng)對于不同的應用程序，文件類型，OLE對象，特殊文件夾以及各種系統(tǒng)組件分配一個唯一表示它的ID代碼，用于對其身份的標示和與其他對象進行區(qū)分。Speech對象的CLSID已經(jīng)預先在SDK中定義好，使用CLSID_SpVoice表示。第二個參數(shù)指向一個

17、聚合式對象的IUnknown接口，通常我們設置為NULL。第三個參數(shù)用于指定COM組件的類別，通常在不清楚類別的情況下可以設置COM組件的類別為CLSCTX_ALL第四個參數(shù)用于創(chuàng)建的Com對象的接口標識符，Speech組件的接口標識符為IID_ISpVoice最后一個參數(shù)用于將創(chuàng)建的對象通過指針的形式返回給ISpVoice對象。通常為了能夠做到最大兼容我們將這個參數(shù)設置為(void *)&pVoice使用使用Speech SDKSpeech SDK獲取ISpVoice的對象的代碼如下：注：所有的COM函數(shù)的返回值均是HRESULT類型的，而實際上傳遞的對象需要通過在參數(shù)中指定指針來實現(xiàn)使用使用Speech SDKSpeech SDK在創(chuàng)建好職位，安排好人之后我們就可以通過這個人也就是IspVoice類型的指針指向的對象之后，我們就可以通過這個指針操作對象，調(diào)用其中的函數(shù)完成語音朗讀功能了。實現(xiàn)語音功能的函數(shù)名稱為Speak。代碼如下： hr = pVoice-Sp

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第二講：使用TTS實現(xiàn)語音朗讀

文檔簡介

溫馨提示

最新文檔

評論