




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人工智能是未來(lái)醫(yī)療的發(fā)展趨勢(shì),近些年來(lái),隨著語(yǔ)音識(shí)別關(guān)鍵技術(shù)的不斷突破,市場(chǎng)上涌現(xiàn)了各種各樣的相關(guān)的應(yīng)用。其中,在經(jīng)被廣泛應(yīng)用。但是據(jù)我們調(diào)查發(fā)現(xiàn),語(yǔ)音識(shí)別技術(shù)在醫(yī)多數(shù)醫(yī)院中,人工智能還未能替代護(hù)士站、詢(xún)問(wèn)臺(tái)甚至醫(yī)生,這也導(dǎo)致醫(yī)院的工作的困難,因此,通過(guò)使用語(yǔ)音識(shí)別技術(shù)來(lái)替代詢(xún)問(wèn)臺(tái)變得極為息錄入和輸出,減輕醫(yī)院咨詢(xún)臺(tái)和護(hù)士站工作人員的服務(wù)壓力,提高工作效率與質(zhì)量。(1)運(yùn)用了傳統(tǒng)的端點(diǎn)檢測(cè)方法雙門(mén)限端點(diǎn)檢測(cè)法。先對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,包(2)運(yùn)用了Mel倒譜系數(shù)(MFCC)對(duì)語(yǔ)音進(jìn)行特征提取。在端點(diǎn)檢測(cè)后著重說(shuō)明了使用的MFCC原理與設(shè)計(jì)過(guò)程。并對(duì)MFCC、LPC和LPCC方法進(jìn)行了比較說(shuō)明。(3)使用了DTW算法。本文利用了DTW算法,著重說(shuō)明了算法原理和步驟。并與傳統(tǒng)算法HMM和ANN進(jìn)行了對(duì)比,給出了本課題使用DTW算法的原因。(4)設(shè)計(jì)了GUI界面。設(shè)計(jì)的GUI界面包括了語(yǔ)音錄入、特征參數(shù)提取、識(shí)別等主要部分。并且通過(guò)GUI界面可以方便快捷地讓用戶(hù)操縱系統(tǒng)。 1 1 1 21.3導(dǎo)診助手應(yīng)用 41.3.1應(yīng)用 41.3.2功能 4 5 51.4.2語(yǔ)音識(shí)別系統(tǒng)的分類(lèi) 6 62語(yǔ)音信號(hào)的分析與處理 7 7 72.1.2語(yǔ)音信號(hào)的采集 72.2預(yù)處理 82.2.1預(yù)加重 82.2.2語(yǔ)音信號(hào)的去噪 82.2.3分幀加窗 9 9 3語(yǔ)音信號(hào)的特征參數(shù)的提取 13.1梅爾頻率預(yù)測(cè)倒譜系數(shù)(MFCC) 3.1.1Mel濾波器組 3.1.2MFCC特征參數(shù)提取 3.2線(xiàn)性預(yù)測(cè)系數(shù)(LPC) 3.3線(xiàn)性預(yù)測(cè)倒譜系數(shù)(LPCC) 3.4本章小結(jié) 4語(yǔ)音識(shí)別模式訓(xùn)練和匹配方法 4.1DTW在語(yǔ)音識(shí)別中的應(yīng)用 4.1.1DTW基本原理 4.1.2DTW算法步驟 4.2與其他方法比較 5GUI界面的制作與程序運(yùn)行過(guò)程 5.1GUI界面的制作過(guò)程 5.2程序運(yùn)行過(guò)程 2 6.1全文總結(jié) 6.2展望 形式中,語(yǔ)音尤為重要,人和機(jī)器的對(duì)話(huà),則是在21世紀(jì)以來(lái)人們一直期待的事情。處理也是人與計(jì)算機(jī)交互的重要手段之一(陳思遠(yuǎn),周曉燕,2022)。目前,隨著科技市場(chǎng)而言,語(yǔ)音識(shí)別的前景廣泛,如在醫(yī)療服務(wù)、信息查詢(xún)、智能家居、工業(yè)控制等。含了人的情感,例如,一句同樣的話(huà)不同的人說(shuō)就有著不同的情感(曹君浩,龍婷婷,2023)。在傳統(tǒng)的語(yǔ)言處理系統(tǒng)中,人們往往以語(yǔ)言傳達(dá)的準(zhǔn)確性為首要目標(biāo),而忽視1.1研究背景和意義 (許志偉,陳雅婷,2016)。本文設(shè)計(jì)的智能語(yǔ)音導(dǎo)診助手可以很好的減輕醫(yī)院工作人目前DTW算法是一種有效計(jì)算語(yǔ)音測(cè)度和時(shí)間規(guī)正的方法,在綜合識(shí)別中廣泛應(yīng)用,本文基于DTW和MFCC算法,這在某種程度上指出對(duì)目前存在的單詞識(shí)別問(wèn)題進(jìn)體應(yīng)用,同時(shí)希望提高和改進(jìn)識(shí)別的效率和速度(王宇航,陳雅琪,2021)。1.2國(guó)內(nèi)外研究現(xiàn)狀及未來(lái)發(fā)展趨勢(shì)貝爾在1872年首次發(fā)明了遠(yuǎn)程廣播聲音技術(shù)。杜德利發(fā)明了20世紀(jì)30年代全世具有劃設(shè)代的意義。而語(yǔ)音識(shí)別最早的研究可追溯到上個(gè)世紀(jì)的50年代,1952年貝爾運(yùn)用每個(gè)數(shù)字的元音部分的頻譜特征進(jìn)行語(yǔ)音識(shí)別(龍宇辰,向博文,2018)?;谇拔牡脑敿?xì)剖析結(jié)果1956年,RCA實(shí)驗(yàn)室的Olson等研究人員從8個(gè)帶通濾波器組提取頻譜參數(shù)來(lái)作為語(yǔ)音的特征。20世紀(jì)60年代,日本的很多研究人員開(kāi)發(fā)了很多硬件產(chǎn)品來(lái)進(jìn)行語(yǔ)音識(shí)別,在這一期間的諸多研究成果為后來(lái)將近20多年的語(yǔ)音研究奠定了堅(jiān)實(shí)的基礎(chǔ)(孫志強(qiáng),趙敏娜,2022)。RCA實(shí)驗(yàn)室的馬丁等人在60年代末開(kāi)發(fā)了時(shí)彎折(DTW)奠定了基礎(chǔ),但是在當(dāng)時(shí)Vintsyuk并不被人們所知,知道DTW算法廣為人知的時(shí)候,大家才逐步了解到了當(dāng)時(shí)Vintsyuk的研究工作(鄭小軍,孫志強(qiáng),2023)。20世紀(jì)70年代以來(lái),日本學(xué)者Sakoe提出了一種動(dòng)態(tài)時(shí)間語(yǔ)音識(shí)別規(guī)劃方法,即DTW算法,其成功之處在于時(shí)間歸一化和距離測(cè)量的結(jié)合,這是一種非線(xiàn)性歸一化技域。AT&T的貝爾實(shí)驗(yàn)室在一系列非特定說(shuō)話(huà)人的語(yǔ)音識(shí)別研究中也很活躍(許文皓,劉婉晴,2022)。20世紀(jì)80年代初,琳達(dá)和其他研究人員提出了一種矢量量化方法,并將矢量量化而80年代開(kāi)始就采用了統(tǒng)計(jì)模型的技術(shù),其中隱馬爾科夫模型(HMM)技術(shù)就是經(jīng)典是其靈活性與擴(kuò)展性的結(jié)合。面對(duì)多樣化的研究背效。這一策略不僅增強(qiáng)了模型的實(shí)用性,也為后續(xù)研究者打造了一個(gè)開(kāi)放的研發(fā)平臺(tái),中。由于HMM方法可以使大量詞匯連續(xù)性語(yǔ)音識(shí)別的開(kāi)發(fā)成為可能,所以HMM方法至今依然是語(yǔ)音識(shí)別技術(shù)中的主流方法。上世紀(jì)80年代末,美國(guó)卡爾加里梅隆大學(xué)的Sphinx系統(tǒng)采用VQ/HMM方法實(shí)現(xiàn)了97個(gè)獨(dú)立的、連續(xù)的非特定人的語(yǔ)音識(shí)別(黃志20世紀(jì)90年代初,人們開(kāi)始探索人工神經(jīng)網(wǎng)絡(luò)(ANN)并將其用于語(yǔ)言識(shí)別技術(shù)中去。而近年來(lái),從NIST的評(píng)測(cè)結(jié)果可以看出來(lái),國(guó)際上對(duì)于語(yǔ)音識(shí)別的研究工作逐步從實(shí)驗(yàn)研究偏向?qū)嶋H問(wèn)題應(yīng)用中,諸多發(fā)達(dá)國(guó)家比如美國(guó)、日本、歐洲等國(guó)以及IBM、在中國(guó),有人在20世紀(jì)50年代末提出了語(yǔ)言識(shí)別的概念,直到70年代相關(guān)研究人員和科學(xué)家才開(kāi)始研究語(yǔ)言識(shí)別。從趨勢(shì)中可見(jiàn)規(guī)律從上世紀(jì)80年代開(kāi)始,國(guó)家開(kāi)始重視語(yǔ)言識(shí)別技術(shù)的研究,中國(guó)科學(xué)院聲學(xué)研究所、清華大學(xué)等多所高校都逐步開(kāi)始語(yǔ)音識(shí)別研究,20世紀(jì)80年代末(耿逸塵,苗雪霏,2018),他們從最開(kāi)始的小詞匯孤立詞識(shí)別研究開(kāi)始,到大詞匯量連續(xù)語(yǔ)音識(shí)別,開(kāi)展了一系列語(yǔ)音識(shí)別研究,基于此可察覺(jué)他們的研究為中國(guó)的語(yǔ)音識(shí)別領(lǐng)域打下了堅(jiān)實(shí)的基礎(chǔ)。到了上個(gè)世紀(jì)90年代,先是哈工大與四達(dá)技術(shù)開(kāi)發(fā)中心合作推出了全新的產(chǎn)品,之后在國(guó)家“863”計(jì)劃的大力支持下,清華大學(xué)和中科院聲學(xué)所在語(yǔ)音識(shí)別研究上紛紛取得了重大突破(何奇穎,陳澤揚(yáng),2022)。在數(shù)據(jù)分析方法的選擇上,本文不僅采納了傳統(tǒng)的統(tǒng)計(jì)解析工具,如描述統(tǒng)計(jì)、回歸分析等,還引入了近年來(lái)快速崛起的數(shù)據(jù)挖掘技術(shù)和算法。例如,本文利用聚類(lèi)分析來(lái)揭示數(shù)據(jù)中的潛在結(jié)構(gòu),或運(yùn)用決策樹(shù)算法來(lái)預(yù)測(cè)未來(lái)趨勢(shì)。這些先進(jìn)手段為深入理解復(fù)雜現(xiàn)象提供了有力支持,并有助于挖掘海量數(shù)據(jù)背后的深層關(guān)系。此外,本文還特別強(qiáng)調(diào)了綜合方法的應(yīng)用,即將定量分析與定性研究相結(jié)合,以獲得更為全面的研究視角。近年來(lái),隨著我國(guó)國(guó)力的強(qiáng)化和改革開(kāi)放的深化,漢語(yǔ)識(shí)別得到了前所未有的重視,我國(guó)在語(yǔ)音識(shí)別技術(shù)上已經(jīng)取得了重大成果,科大訊飛、百度等知名企業(yè)已經(jīng)在語(yǔ)音識(shí)雖然當(dāng)下我國(guó)的語(yǔ)音識(shí)別技術(shù)已經(jīng)有了喜人的成果,但是很多技術(shù)并未應(yīng)用到人們的生活中來(lái),比如在醫(yī)學(xué)領(lǐng)域、軍事領(lǐng)域、移動(dòng)應(yīng)用領(lǐng)域,語(yǔ)音識(shí)別技術(shù)都還有廣闊的應(yīng)用空間。在目前的語(yǔ)音識(shí)別技術(shù)上,我們還面臨著一些困難:多段語(yǔ)音之間的混淆問(wèn)題;(1)非特定人的問(wèn)題。由于漢語(yǔ)中有很多方言,加上每個(gè)人的口音不同,對(duì)語(yǔ)音識(shí)別造成了額外的困難;(2)噪聲處理問(wèn)題。由于在生活中的不同環(huán)境下噪聲的干擾或多或少,處理噪聲是語(yǔ)音識(shí)別需要著重解決的問(wèn)題之一;(3)語(yǔ)音的連續(xù)性問(wèn)題。漢語(yǔ)中的語(yǔ)言連續(xù)性較高,導(dǎo)致識(shí)別難度加大。1.3導(dǎo)診助手應(yīng)用1.3.1應(yīng)用當(dāng)今國(guó)家正在加強(qiáng)基本衛(wèi)生制度,促進(jìn)了全民治療,優(yōu)化了醫(yī)療資源,而人工智能的快速發(fā)展使人們以往的夢(mèng)想一一智慧醫(yī)療演變成為了現(xiàn)實(shí)。研究人員利用人工智能與傳統(tǒng)醫(yī)院咨詢(xún)服務(wù)的歷史融合優(yōu)勢(shì),提供患者選擇咨詢(xún)服務(wù),解放了導(dǎo)診臺(tái)和護(hù)士站,讓人工智能去完成這項(xiàng)技術(shù)含量低,重復(fù)性高,工作針對(duì)性強(qiáng)的工作實(shí)在是最優(yōu)選擇(孫智能導(dǎo)診機(jī)器人的首要目標(biāo)是解決門(mén)診咨詢(xún)量少、問(wèn)題和答案反復(fù)出現(xiàn)的現(xiàn)實(shí),一旦醫(yī)院業(yè)務(wù)高峰期到來(lái),醫(yī)院里人滿(mǎn)為患,在此類(lèi)情況下智能醫(yī)療服務(wù)機(jī)器人可以及時(shí)做出反應(yīng),引導(dǎo)患者就醫(yī),選擇患者并進(jìn)行醫(yī)院的醫(yī)療環(huán)境、門(mén)診治療程序和患者保健知識(shí)(張思遠(yuǎn),李夢(mèng)琪,2023)。通過(guò)識(shí)別語(yǔ)言、語(yǔ)音合成、理解自然語(yǔ)言和其他技術(shù),領(lǐng)先的機(jī)器人支持語(yǔ)音、觸摸、影像等互動(dòng)方式,改善醫(yī)療體驗(yàn),提高醫(yī)療服務(wù)質(zhì)量,這是智慧醫(yī)療的重要元素和具體體現(xiàn)。目前國(guó)內(nèi)的導(dǎo)診助手產(chǎn)品已經(jīng)陸續(xù)投入到市場(chǎng),如科大訊飛公司的“曉醫(yī)”,它可以提供問(wèn)路,導(dǎo)診等功能,還有獵戶(hù)星空、安澤智能等諸多科技公司都推出了導(dǎo)診機(jī)器人,旨在服務(wù)大眾。目前國(guó)內(nèi)外都還沒(méi)有成熟的機(jī)器人導(dǎo)診產(chǎn)品,國(guó)外更注重與AI技術(shù)相結(jié)合的問(wèn)診需求體系,大多數(shù)國(guó)家的導(dǎo)診機(jī)器人咨詢(xún)服務(wù)只能提供簡(jiǎn)單的問(wèn)題解答,或在初審和評(píng)估中按照標(biāo)準(zhǔn)的問(wèn)題模型進(jìn)行幫助,而不能真正起到優(yōu)化醫(yī)療服務(wù)流程、提高醫(yī)院日常工作績(jī)效的作用,與國(guó)外產(chǎn)品相比,在這種配置中很多地區(qū)和場(chǎng)景的導(dǎo)診機(jī)器人都實(shí)施了業(yè)務(wù)整合,而機(jī)器人代替人工服務(wù)的模式將逐步推廣到全國(guó)進(jìn)行使用(廖澤凱,龍宇飛,2021)。1.3.2功能目前的國(guó)內(nèi)的導(dǎo)診機(jī)器人的功能主要有以下幾方面:(1)用藥指導(dǎo);(2)健康知識(shí);(3)醫(yī)院咨詢(xún);(4)導(dǎo)航分診。本文的智能語(yǔ)音導(dǎo)診助手根據(jù)語(yǔ)音識(shí)別技術(shù),主要設(shè)計(jì)了導(dǎo)航分診的功能,實(shí)現(xiàn)快速信息錄入和輸出,減輕醫(yī)院咨詢(xún)臺(tái)和護(hù)士站工作人員的服務(wù)壓力,提高工作效率與質(zhì)1.4語(yǔ)音識(shí)別系統(tǒng)概述—訓(xùn)練—如圖1-1所示,語(yǔ)音識(shí)別系統(tǒng)主要分為三個(gè)模塊,分別為預(yù)處理模塊、特征提取模塊和模式匹配模塊。其中預(yù)處理模塊包括了語(yǔ)音的預(yù)加重、分幀加窗和端點(diǎn)檢測(cè),預(yù)加重目的就是加強(qiáng)信號(hào)的高頻部分(張麗娜,李成杰,2022)5,這在某種程度上暗示了提高此部分的能量,使得在頻域內(nèi)語(yǔ)音信號(hào)變得更為平坦。加窗分幀的目的是將語(yǔ)音信號(hào)分成一段一段的短時(shí)信號(hào)以便分析它的特征參數(shù),其中,每一小段叫做一幀。特征提取是將一段語(yǔ)音中的特征參數(shù)提取出來(lái)。模板訓(xùn)練是將多個(gè)人語(yǔ)音信號(hào)作為參考模板,這在某種程度上指出先進(jìn)行預(yù)處理和多種措施,比如在線(xiàn)問(wèn)卷、現(xiàn)場(chǎng)訪(fǎng)談和文獻(xiàn)回顧等,目標(biāo)是從多個(gè)維度獲取豐富且精確的數(shù)據(jù)。通過(guò)對(duì)這些數(shù)據(jù)的細(xì)致分析與整合,本文能夠有力地驗(yàn)證研究預(yù)設(shè),并發(fā)現(xiàn)其中的規(guī)律性與潛在關(guān)系。盡管本研究已取得一定成果,但本文深知,任何研究都存在其固有的缺陷。未來(lái)的研究可在此基礎(chǔ)上進(jìn)一步推進(jìn),尤其是在樣本選取的廣泛性、研究手段的創(chuàng)新以及理論建構(gòu)的完善等方面,仍有待深入挖掘。模式匹配是就將所輸入的語(yǔ)音與樣本庫(kù)的語(yǔ)音參數(shù)相對(duì)比匹配,匹配相似度最高的1.4.2語(yǔ)音識(shí)別系統(tǒng)的分類(lèi)類(lèi)分分語(yǔ)音識(shí)別系統(tǒng)的分類(lèi)如上圖1-2所示。分為三個(gè)類(lèi)別:(1)按照詞匯量來(lái)分詞匯量分為大中小三種詞匯表,詞匯表中含有的詞條越多,則越容易產(chǎn)生錯(cuò)誤識(shí)別,而且,詞匯數(shù)目的增加也提高了模式匹配時(shí)候的運(yùn)算量。(2)按照識(shí)別對(duì)象來(lái)分識(shí)別對(duì)象指的是非特定人或特定人。如個(gè)人的手機(jī)語(yǔ)音助手是特定人的語(yǔ)音識(shí)別,(3)按照發(fā)音方式來(lái)分1.5論文結(jié)構(gòu)安排本文共六個(gè)章節(jié),其內(nèi)容大致如下:(2)第二章介紹了語(yǔ)音信號(hào)的分析和處理。主要介紹了語(yǔ)音信號(hào)的采集和預(yù)處理。著重介紹了端點(diǎn)檢測(cè)。2語(yǔ)音信號(hào)的分析與處理2.1語(yǔ)音信號(hào)的采集的聲音序列。神經(jīng)肌肉命令需要控制調(diào)音過(guò)程中的參與雙數(shù)據(jù)錄入與交叉校驗(yàn)機(jī)制,有效杜絕了人為錯(cuò)誤或由于聲音信號(hào)是一種模擬信號(hào),而我們要進(jìn)行數(shù)字化處理這兩個(gè)過(guò)程,語(yǔ)音信號(hào)可以得到時(shí)間上和幅度上的離散數(shù)字信號(hào)4]。在MATL語(yǔ)音信號(hào)可以用其自帶的函數(shù)wavread來(lái)讀入,在這樣的環(huán)境之下其調(diào)用格式為:下圖2-1是本設(shè)計(jì)的語(yǔ)音輸入,圖中按鈕1是利用MATLAB中的record錄音函數(shù)和GUI界面設(shè)計(jì)來(lái)實(shí)現(xiàn)語(yǔ)音錄入,按鈕2是語(yǔ)音庫(kù),里面包含了所有的測(cè)試語(yǔ)音。圖2-2是錄入語(yǔ)音“咳嗽”的時(shí)域波形,同時(shí)在錄入語(yǔ)音后可以在GUI界面上顯示。2.2預(yù)處理預(yù)處理部分在語(yǔ)音處理應(yīng)用中有著重要的地位,深入分析,本文能夠有效地排除那些明顯不符合常規(guī)的數(shù)據(jù)事實(shí)上,語(yǔ)音信號(hào)經(jīng)過(guò)高通濾波器?;诖丝刹煊X(jué)語(yǔ)音信號(hào)將變得更為其實(shí)現(xiàn)的框圖如下圖2-3所示:之一的分量用一個(gè)帶通濾波器濾掉,這里主要目的是為了防止干擾和混疊。接著通過(guò)一階FIR高通數(shù)字濾波器,把高頻部分進(jìn)行加重。由于我們?nèi)嗽谡f(shuō)話(huà)的時(shí)候會(huì)有低音高音或者說(shuō)話(huà)時(shí)嘴唇和聲帶產(chǎn)生效應(yīng),使得所收集的語(yǔ)音信號(hào)的質(zhì)量不好,通過(guò)一階FIR高通數(shù)字濾波器會(huì)使得語(yǔ)音信號(hào)變得平滑,在此類(lèi)情況下把嘴唇和聲帶產(chǎn)生的效應(yīng)去除,突出高頻部分的共振峰,使得語(yǔ)音信號(hào)的質(zhì)量變得優(yōu)良(李旭輝,劉玉婷我們讀取到語(yǔ)音信號(hào)的數(shù)據(jù)后可以通過(guò)matlab的filter函數(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行高通濾波,此函數(shù)的輸入為數(shù)字?jǐn)?shù)字濾波器的濾波系數(shù)以及需要語(yǔ)音數(shù)據(jù),輸出為濾波后的語(yǔ)音數(shù)據(jù)。我們知道語(yǔ)音信號(hào)是非穩(wěn)態(tài)的、時(shí)變的信號(hào),這個(gè)特性十分不利于數(shù)字化分析5。但是在“短時(shí)間”的范圍內(nèi)我們可以吧語(yǔ)音信號(hào)看作是穩(wěn)態(tài)時(shí)不變的。分幀操作就是把語(yǔ)音信號(hào)分程一段一段的,我們將采樣到的N個(gè)點(diǎn)當(dāng)成一個(gè)大的集合點(diǎn),這個(gè)大的集合點(diǎn)就是幀。總體上,幀時(shí)間約為20ms30ms,從微觀角度看,幀時(shí)間很小,可以看作是一個(gè)穩(wěn)定的條件。最后,為了避免相鄰兩幀的變化過(guò)大,我們將幅值曲面重疊放置在兩個(gè)幀中。本設(shè)計(jì)用了MATLAB中的enframe函數(shù)來(lái)完成分幀這個(gè)過(guò)程(王天宇,楊美琳,2020)。Enframe函數(shù)的功能f=enframe(x,win,inc)。在這種配置中其中輸入?yún)?shù)x (若為窗函數(shù),則幀長(zhǎng)就是窗長(zhǎng)),inc為幀移。輸出f代表了分幀之后的數(shù)據(jù)(陳雨澤,窗函數(shù)在分幀技術(shù)中被廣泛應(yīng)用。它主要處理的是截?cái)嗵幍牟贿B續(xù)變化,對(duì)其進(jìn)行切割從而減少頻譜泄露。因?yàn)檫M(jìn)過(guò)分幀處理后的語(yǔ)音信號(hào)在末尾會(huì)有不連續(xù)的情況出現(xiàn),對(duì)信號(hào)進(jìn)行加窗處理就是為了讓信號(hào)末端變得平坦連續(xù)。為了驗(yàn)證與修正理論結(jié)構(gòu),本文搜集了大量且具體的數(shù)據(jù)材料。這些數(shù)據(jù)不僅包含了多樣的研究對(duì)象,還跨越了不同的時(shí)間跨度和社會(huì)背景,為理論結(jié)構(gòu)的全面校驗(yàn)提供了堅(jiān)實(shí)的依據(jù)。通過(guò)統(tǒng)計(jì)分析工具對(duì)量化數(shù)據(jù)進(jìn)行處理,可以高效地驗(yàn)證原理論結(jié)構(gòu)的各項(xiàng)前提,并發(fā)現(xiàn)其中的不足之處。未來(lái)研究將考慮引入更多變量或采用更大規(guī)模的樣本,以期提高理論結(jié)構(gòu)的解釋效能與預(yù)測(cè)水平。這在某種程度上暗示了我們分的幀越多,就會(huì)導(dǎo)致原始信號(hào)發(fā)生的改變?cè)蕉啵约哟熬褪菫榱私鉀Q這個(gè)問(wèn)題。在本設(shè)計(jì)中我們加入漢明窗來(lái)完成加窗操作,在MATLAB中用hamming這個(gè)函數(shù)來(lái)完成。2.2.4端點(diǎn)檢測(cè)本設(shè)計(jì)使用了傳統(tǒng)的雙門(mén)限端點(diǎn)檢測(cè)法。語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)就是對(duì)一段語(yǔ)音的說(shuō)話(huà)部分與未說(shuō)話(huà)部分進(jìn)行區(qū)分,未說(shuō)話(huà)的語(yǔ)音部分可能是噪音或者是靜音,在語(yǔ)音特征提取的時(shí)候要選擇說(shuō)話(huà)部分的語(yǔ)音,所以雙門(mén)限端點(diǎn)檢測(cè)就是處于此目的(鄭博文,謝婉瑩,2021)。對(duì)我們而言,除說(shuō)話(huà)部分外的其他語(yǔ)音信息是完全無(wú)用的,甚至還會(huì)導(dǎo)致在后續(xù)的特征提取中將這段無(wú)用的數(shù)據(jù)也當(dāng)做有效數(shù)據(jù)進(jìn)行提取,這在某種程度上指出從我們?cè)谶M(jìn)行特征提取之前需要先對(duì)語(yǔ)音進(jìn)行端點(diǎn)檢測(cè),端點(diǎn)檢測(cè)包括前端點(diǎn)和后端點(diǎn)。前端點(diǎn)就是在語(yǔ)音的起始點(diǎn),后端點(diǎn)就是在語(yǔ)音的結(jié)束點(diǎn)。在本設(shè)計(jì)中,一段語(yǔ)音 (如圖2-2)的起始點(diǎn)可以看出幾乎沒(méi)有振幅波動(dòng),這是因?yàn)殇浺魰r(shí)剛開(kāi)始的時(shí)候沒(méi)用說(shuō)話(huà)導(dǎo)致的,這段靜音段沒(méi)用什么價(jià)值,則需要端點(diǎn)檢測(cè)來(lái)截?cái)啻苏Z(yǔ)音段。雙門(mén)限端點(diǎn)檢測(cè)利用了短時(shí)能量和短時(shí)過(guò)零率這兩種時(shí)域特征,將這兩種特征結(jié)合起來(lái)進(jìn)行端點(diǎn)檢測(cè)(貝思遠(yuǎn),黎雅婷,2019)5?;谇拔牡脑敿?xì)剖析結(jié)果本文采用的是通過(guò)聲音的大小進(jìn)行判斷是否在說(shuō)話(huà),簡(jiǎn)而言之也就是設(shè)定一個(gè)合適的音量閾值,大于此音量閾值的部分視為說(shuō)話(huà)部分,反之為靜音或噪音部分,直接去除。實(shí)際效果如下圖2-4所示:成列數(shù)組,進(jìn)行初始化,然后進(jìn)行計(jì)算過(guò)零率,計(jì)算短時(shí)能量,調(diào)整能量的門(mén)限,然后開(kāi)始端點(diǎn)檢測(cè)。其中,程序中,x為語(yǔ)音輸入,先進(jìn)行分幀操作,設(shè)置好幀長(zhǎng)幀移,在本設(shè)計(jì)中認(rèn)為噪聲是平穩(wěn)的,這顯示出所以估計(jì)出來(lái)的噪聲短時(shí)平均能量和過(guò)零率可適置是為了按照上面的x1和x2對(duì)SF和NF進(jìn)行賦值。SF和NF都是1*fn的數(shù)組,SF=1在程序最后,又設(shè)置了一個(gè)voiceseg的結(jié)構(gòu)數(shù)據(jù)。由于一段語(yǔ)音中可能有多個(gè)停頓,所以需要voiceseg給出語(yǔ)音端點(diǎn)的信息。比如患者說(shuō)出“咳嗽,我咳嗽”這一段語(yǔ)音的時(shí)候,中間可能有一小段的停頓,這樣來(lái),從上述分析可以得出我們可以在端點(diǎn)檢測(cè)的時(shí)候?qū)⑵鋬尚《畏珠_(kāi)?!翱人浴弊鳛橐唤M,“我咳嗽”作為一組,而每一組都有開(kāi)始和結(jié)束的時(shí)間。其中代碼speechIndex=find[SF==1]是為了尋找出SF中數(shù)值等于1的地址(劉慧蘭,鄭澤宇,2021)。隨后,設(shè)計(jì)使用了findSegment函數(shù),它是根據(jù)SF中數(shù)值等于1的地址,從而組合出每一組有話(huà)段的開(kāi)始結(jié)束時(shí)間以及語(yǔ)音的長(zhǎng)度。在此背景中它的調(diào)用格式為:最后,我們使用了vad_ezm1函數(shù)對(duì)語(yǔ)音“咳嗽”進(jìn)行了端點(diǎn)檢測(cè),運(yùn)行后檢測(cè)出03語(yǔ)音信號(hào)的特征參數(shù)的提取3.1梅爾頻率預(yù)測(cè)倒譜系數(shù)(MFCC)Coefficients,簡(jiǎn)稱(chēng)MFCC),MFCC的分析時(shí)基于人耳的聽(tīng)覺(jué)機(jī)理,即根據(jù)人的聽(tīng)覺(jué)實(shí)何性質(zhì)(陳浩然,周美婷,2021)。影響比較大的語(yǔ)音信號(hào)大概在2000Hz到5000Hz左右。高音量頻率元素的存在會(huì)影響對(duì)低音量頻率成分的感知,并使其難以檢測(cè)。在這樣的環(huán)境之下掩蔽效應(yīng)是一種現(xiàn)象,這種現(xiàn)象即響度高的頻率成分會(huì)干擾到頻率低的成分(趙天辰,李思瑤,2021)。但是對(duì)于高頻聲音來(lái)說(shuō),很難屏蔽低頻聲音,空閑時(shí)的聲屏蔽帶的臨界帶寬比高頻時(shí)要低,這就是為什么人們?cè)诘皖l段形成一個(gè)低頻濾波器組,根據(jù)不同的頻率對(duì)輸入信號(hào)進(jìn)行濾波是非常重要的,帶式濾波器信號(hào)的輸出能量被認(rèn)為是信號(hào)的基本元素,可以用作輸入特征。對(duì)于前文結(jié)論的核實(shí)工作,在此暫不進(jìn)行詳盡展開(kāi),時(shí)間因素是一個(gè)不容忽視的考量??茖W(xué)研究往往是一個(gè)長(zhǎng)期且深入的過(guò)程,特別是在探索復(fù)雜議題或新領(lǐng)域的過(guò)程中,需要足夠的時(shí)間來(lái)細(xì)致觀察現(xiàn)象、分析數(shù)據(jù),并最終形成可靠的結(jié)論。盡管本研究已取得初步成果,但要全面且細(xì)致地驗(yàn)證所有結(jié)論,還需更長(zhǎng)時(shí)間的跟蹤研究與反復(fù)實(shí)驗(yàn)。這不僅有助于消除偶然誤差,還能確保研究成果具備更高的可信度和廣泛的適用性。此外,技術(shù)水平的進(jìn)步也對(duì)結(jié)論的驗(yàn)證過(guò)程產(chǎn)生重要影響,隨著科技的不斷發(fā)展,新的研究工具和技術(shù)手段層出不窮,為科學(xué)研究提供了更多新的可能性。從趨勢(shì)中可見(jiàn)規(guī)律由于此功能不依賴(lài)于信號(hào)的特征,對(duì)輸入信號(hào)基本不做假設(shè)和邊界,并使用了聽(tīng)覺(jué)模型的測(cè)試結(jié)果,因此,與基于聲線(xiàn)模型的LPCC相比,該參數(shù)具有更好的魯棒性,基于此可察覺(jué)更接近人耳的聽(tīng)覺(jué)特性,而且在降低信噪比的情況下,仍具有較好的識(shí)別效率(陳海明,人耳對(duì)聲音信號(hào)的感知是非線(xiàn)性的,梅爾頻譜與線(xiàn)性頻率有下面的公式:公式3-1中,F(xiàn)mel表示為單位是Mel的感知頻率,f是單位為Hz的實(shí)際頻率。下圖展示了Mel頻率與線(xiàn)性頻率的關(guān)系,可以看出,原先不統(tǒng)一的頻譜可以用統(tǒng)一的濾波器由上圖可以看出,在此類(lèi)情況下在Mel頻域中,人耳對(duì)聲音的感知與Mel頻率線(xiàn)性3.1.1Mel濾波器組在Mel頻率的計(jì)算過(guò)程中,進(jìn)行的濾波使用的濾波組是帶通濾波器,通常選用的每個(gè)濾波器都帶有三角形濾波特征。每個(gè)三角濾波器的中心頻率為f(m),每個(gè)濾波器的傳遞函數(shù)如公式(3-2):為語(yǔ)音信號(hào)進(jìn)行FFT時(shí)的長(zhǎng)度,一般取256;M為濾波器的個(gè)數(shù),在這種配置中一般取在本設(shè)計(jì)中使用了melbankm函數(shù),目的是為了設(shè)計(jì)在Mel頻率上的平均分布的濾波器的個(gè)數(shù)p取24,在一幀的FFT后的數(shù)據(jù)長(zhǎng)度n取的是256,窗函數(shù)用的是漢明窗對(duì)應(yīng)的是w='m’,當(dāng)然也可以選用三角窗(w=’t’),這在某種程度上暗示了下圖是圖3-3三角窗頻譜響應(yīng)曲線(xiàn)首先,MFCC特征參數(shù)提取原理框圖如下圖3-4所示:輸出特征向量←動(dòng)態(tài)特征圖3-4MFCC特征參數(shù)提取原理框圖(1)預(yù)處理目的是由于一段語(yǔ)音是非穩(wěn)態(tài)的,則需要把它分成一段段的極短時(shí)間的穩(wěn)態(tài)信號(hào)來(lái)處理。的信噪比等性能。(2)快速傅里葉變換(FFT)(3)計(jì)算譜線(xiàn)能量要改進(jìn)或摒棄。比如,在數(shù)據(jù)采樣上,本文應(yīng)更強(qiáng)調(diào)樣本的多元性和典型價(jià)值,確保樣在上文已經(jīng)詳細(xì)介紹了Mel濾波器的設(shè)計(jì),其主轉(zhuǎn)換為可以體現(xiàn)人的聽(tīng)覺(jué)特性的Mel頻譜。(5)計(jì)算DCT倒譜最后要在Mel頻譜上做倒譜的分析,先要取對(duì)數(shù)做逆變換,然后逆變換一般通過(guò)DCT來(lái)實(shí)現(xiàn),取DCT后的第2到第6個(gè)系數(shù)作為MFCC系數(shù),從上述分析可以得出這樣就可以計(jì)算出來(lái)MFCC參數(shù),而這一幀語(yǔ)音的特征就是MFCC。在本設(shè)計(jì)中,使用了MATLAB中的mfcc函數(shù),在設(shè)計(jì)中由于靈活性受限,從而修改了傳統(tǒng)的mfcc函數(shù)程序,使mel濾波器組的采樣頻率、幀長(zhǎng)、幀移等都可以靈活選陳雅婷,2016)參數(shù)的距離。在對(duì)兩段語(yǔ)音作了相同的長(zhǎng)度等參數(shù)設(shè)置后,在此背景中出圖(圖如下)顯示這些幀的前16個(gè)參數(shù),由圖顯而易見(jiàn),系數(shù)分別都在45度左右,□×可以用其前續(xù)時(shí)刻的若干個(gè)采樣值來(lái)描述,把前續(xù)的采樣值通過(guò)線(xiàn)性組合來(lái)無(wú)限逼近x[n],這樣的描述方式可以決定唯一的一組預(yù)測(cè)系數(shù)5。這樣的預(yù)測(cè)系數(shù)就叫作線(xiàn)性預(yù)LPC(linearpredictivecoding在語(yǔ)音信號(hào)處理中,在這樣的環(huán)境之下是根據(jù)線(xiàn)性預(yù)測(cè)模型來(lái)表示語(yǔ)音信號(hào)包絡(luò)的工具之一,它主要采用的是壓縮的形式。實(shí)際上,LPC(linearpredictivecoding)是一個(gè)模型化的系統(tǒng),這一模型與零極點(diǎn)模型相類(lèi)似,但是又有著不同的地方,零極點(diǎn)模型中有特例的存在,一是全極點(diǎn)模型又成為自回歸模型,二是全零點(diǎn)模型,又成為滑動(dòng)平均模型。但是目前我們較多使用的還是全極點(diǎn)模型(孟思成,郭雪婷,2021)。因?yàn)槭紫纫粋€(gè)聲道的傳遞函數(shù)是全極點(diǎn)的,而且我們一般不知道輸入的信號(hào),還有最重要的就是全極點(diǎn)模型的計(jì)算最為簡(jiǎn)單。在數(shù)據(jù)探究環(huán)節(jié),既有研究的啟示強(qiáng)調(diào)需強(qiáng)化對(duì)新型分析手段與技術(shù)的利用。隨著信息技術(shù)的飛速演進(jìn),諸如大數(shù)據(jù)挖掘、深度學(xué)習(xí)算法等先進(jìn)工具正逐漸成為科研實(shí)踐的核心組成部分。這些技術(shù)不僅助力本文高效應(yīng)對(duì)龐大數(shù)據(jù)集,還能發(fā)掘傳統(tǒng)方法難以觸及的深層知識(shí)與模式。因此,后續(xù)研究中,本文應(yīng)致力于探索將這些尖端技術(shù)融入分析框架的方式,以提升研究結(jié)論的精確度和深度洞察。LPCC(LinearPredictiveCepstralCoding)即在LPC(linearpredictivecoding)上進(jìn)Coding)。LPCC(LinearPredictiveCepstralCoding)線(xiàn)性預(yù)測(cè)倒譜系數(shù)實(shí)際上就是以聲道模型為基礎(chǔ)的特征參數(shù)。從趨勢(shì)中可見(jiàn)規(guī)律它實(shí)際上就是丟棄了信號(hào)生成過(guò)程中的激勵(lì)信息,之后用十多個(gè)倒譜系數(shù)可以代表共振峰的特性5。這就使它在語(yǔ)音識(shí)別的過(guò)程中它有著不錯(cuò)的性能。下圖3-5是LPCC的運(yùn)算的過(guò)程(唐思妍,李昊天,2020)。3.4本章小結(jié)著重強(qiáng)調(diào)了語(yǔ)音的低頻信息,具有一定的抗噪能力,而LPCC是基于線(xiàn)性頻率表示的,所以不具有抗噪聲的能力7。所以結(jié)合多種原因,本文設(shè)計(jì)選擇使用了MFCC作為特征提取系數(shù)。4語(yǔ)音識(shí)別模式訓(xùn)練和匹配方法語(yǔ)音識(shí)別系統(tǒng)就相當(dāng)于模式匹配系統(tǒng),就是根據(jù)模式匹配原則,按照一定的相似度量法則,使未知模式與參考模式庫(kù)中的某個(gè)參考模型作對(duì)比取得最佳匹配的一個(gè)過(guò)程[3。目前常用的識(shí)別算法包括DTW(DynamicTimeWarping)、HMM(HiddenMarkovModel)、的是DTW算法,因?yàn)橄鄬?duì)于后兩個(gè)算法,而且對(duì)于孤立詞識(shí)別來(lái)說(shuō),DTW的算法應(yīng)用的更加廣泛,且更為高效簡(jiǎn)單。本章將著重介紹DTW算法,以及實(shí)現(xiàn)的過(guò)程。4.1.1DTW基本原理DTW(DynamicTimeWarping)是一種有效的時(shí)間歸正和語(yǔ)音測(cè)度的計(jì)算方法,廣泛應(yīng)用在孤立詞識(shí)別中11。在本課題中,正是基于孤立詞的語(yǔ)音識(shí)別系統(tǒng),病患說(shuō)出他的病癥特征,系統(tǒng)進(jìn)行識(shí)別來(lái)進(jìn)行相應(yīng)的智能導(dǎo)診。在此類(lèi)情況下在當(dāng)病患說(shuō)病情的單詞時(shí),有可能發(fā)出的聲音被外界干擾,或者是一些音長(zhǎng)一些音短,而即使在相同的條件下有時(shí)候發(fā)出來(lái)的語(yǔ)音信號(hào)也不完全一致。所以我們采用DTW算法,專(zhuān)門(mén)解決此類(lèi)的DTW(DynamicTimeWarping)在語(yǔ)音識(shí)別中主要是在一定的邊界條件下,求待測(cè)模板和參考模板之間的歐式距離,以此來(lái)規(guī)劃一條路線(xiàn)使得待測(cè)模板可以和參考模板之間進(jìn)行匹配(高志遠(yuǎn),趙雪婷,2021)?。歐氏距離指的是失真度量d,它的計(jì)算方式是沿著參考和計(jì)算模板的矩形對(duì)角線(xiàn)進(jìn)行的。DTW采用的動(dòng)態(tài)規(guī)劃計(jì)算(DynamicProgramming)將解決優(yōu)化問(wèn)題的方式從整體變?yōu)榫植俊T谶@種配置中測(cè)試模板和參考模板我們可以用T和R來(lái)表示,而D[t,r]是它們之間的距離,距離越小相似度越高,距離越大相似度越高。如果它們之間的距離不等,我們就要對(duì)齊T和R。動(dòng)態(tài)規(guī)劃計(jì)算(DynamicProgramming)簡(jiǎn)稱(chēng)DP就是對(duì)齊的方法。本文依據(jù)已有的理論根基,構(gòu)建了此次的框架藍(lán)圖,無(wú)論是在信息流轉(zhuǎn)還是數(shù)據(jù)分析途徑上,都體現(xiàn)了對(duì)前人智慧的尊重與延續(xù),并在此基礎(chǔ)上邁出了創(chuàng)新步伐。在信息流程的設(shè)計(jì)層面,本文引用了經(jīng)典的信息處理模型,保證信息從搜集、傳送至分析的每個(gè)階段都能高效且無(wú)誤地運(yùn)作。通過(guò)嚴(yán)格把控信息來(lái)源及實(shí)施標(biāo)準(zhǔn)化加工流程,信息的質(zhì)量得到了切實(shí)保障,同時(shí)也更加注重信息流程的公開(kāi)透明與可追蹤性。下圖所示的是兩段語(yǔ)言信號(hào)時(shí)域圖,可以大致看出兩語(yǔ)音比較相似,但是由于很多外界條件因素導(dǎo)致每個(gè)語(yǔ)音信號(hào)的波形并不相同,如果我們直接進(jìn)行對(duì)比,結(jié)果顯然不行,如圖a和b。所以我們將處于相同時(shí)刻上的兩聲音進(jìn)行對(duì)比,如a和b’,但是顯然由圖上可以看出,它們的位置有偏差,這在某種程度上暗示了所以我們需要將它們先對(duì)齊再進(jìn)行相似度計(jì)算。DTW算法正是應(yīng)用了以上的理論,它可以找到兩個(gè)對(duì)應(yīng)的點(diǎn)并且使它們的距離計(jì)算的合理(許志偉,陳雅婷,2016)。4.1.2DTW算法步驟首先我們要構(gòu)造一個(gè)m*n的矩陣A來(lái)進(jìn)行對(duì)齊。其中矩陣A(ij)就是T;和R;的距離。比如A(1,2)就是T2和R2的距離(王宇航,陳雅琪,2021)。正如下圖4-2所示,我們提取的英文單詞的語(yǔ)音特征,他們的長(zhǎng)度不相等,第一個(gè)語(yǔ)音有105幀而第二個(gè)語(yǔ)音有123幀。所以我們可以構(gòu)造出一個(gè)123*105的矩陣。然后計(jì)算每個(gè)點(diǎn)的距離。r(j,:).^2)。具體代碼表示如圖4-3所示。我們將每一維的點(diǎn)進(jìn)行計(jì)算求和就可以表示出總距離。在經(jīng)過(guò)循環(huán)的計(jì)算后,我們可以得出距離矩陣d。如下圖4-4所示(龍宇辰,向博文,2018)。1234567812937455671899隨后,在知道我們所有的點(diǎn)的距離后我們要尋找最短對(duì)齊路徑。經(jīng)過(guò)距離的累加,找到最短路徑W需要滿(mǎn)足邊界條件、連續(xù)性條件和單調(diào)性條件。下面進(jìn)行三個(gè)條件的分析(孫志強(qiáng),趙敏娜,2022):(2)連續(xù)性條件我們?cè)诼窂降倪x擇上不能跳過(guò)某點(diǎn),比如當(dāng)前在W(a,b)上,下個(gè)點(diǎn)為W(a’,b’),單調(diào)性條件就是我們的路徑必須是往前推進(jìn)的,假設(shè)當(dāng)前在W(a,b)上,下個(gè)點(diǎn)為行不斷向前累加,直到終點(diǎn)。這部分代碼如下圖4-5所示。由以上條件,我們可以計(jì)算圖4-4的最短距離,如下圖4-6中的紅線(xiàn)所示。1234567811.7977e+3..23456789最后就是識(shí)別的過(guò)程,我們將待識(shí)別的語(yǔ)音4.2與其他方法比較目前來(lái)看,本課題之所以選擇使用DTW算法,一是本設(shè)計(jì)是基于孤立詞識(shí)別的系統(tǒng),DTW算法在孤立詞識(shí)別應(yīng)用中被廣泛應(yīng)用(鄭小軍,孫志強(qiáng),2023)。二是因?yàn)镠MM少,但是在應(yīng)對(duì)連續(xù)語(yǔ)音、大詞匯量識(shí)別系統(tǒng)時(shí),它不如HMM算法,識(shí)別效果有著很強(qiáng)的學(xué)習(xí)能力,正如人的大腦一樣(許文皓,劉婉晴,2022)。但是它的缺點(diǎn)就4.3本章小結(jié)本章主要介紹了DTW的算法原理和本課題應(yīng)用的具體步驟,分析了DTW的優(yōu)點(diǎn)(1)在MATLAB中輸入guide打開(kāi)GUI啟動(dòng)界面。如圖5-1。(2)新建界面或者打開(kāi)已有界面。圖如下。瀏覽…(3)設(shè)計(jì)GUI界面在點(diǎn)擊新建GUI后,會(huì)出現(xiàn)空白的GUI界面,如下圖。我們需要用左邊的工具欄進(jìn)行GUI設(shè)計(jì)。其中常用的工具有,從上述分析可以得出按鈕、可編輯文本、彈出式菜單等等。本設(shè)計(jì)的GUI界面主要有按鈕和坐標(biāo)軸組成。影2彈出式菜單'按鈕組圖5-3空白GUI界面(4)本文設(shè)計(jì)的GUI界面本此語(yǔ)音導(dǎo)診助手的GUI界面如下圖5-4所示。文件(E編鍋(舊)視圖)布局(L)工具(D)幫助(上)智能語(yǔ)音導(dǎo)診助手國(guó)按鈕智能語(yǔ)音導(dǎo)診助手?復(fù)選框州列表框畫(huà)切換按鈕圓面板選擇語(yǔ)音庫(kù)提取特征參數(shù)選擇語(yǔ)音識(shí)別關(guān)閉圖5-4智能語(yǔ)音導(dǎo)診助手GUI界面設(shè)計(jì)其中我使用了六個(gè)按鈕三個(gè)文本框,以及一個(gè)坐標(biāo)軸。按鈕包括錄音、選擇語(yǔ)音庫(kù)、提取特征參數(shù)、選擇語(yǔ)音、識(shí)別、關(guān)閉。坐標(biāo)軸主要體現(xiàn)語(yǔ)音信號(hào)以及端點(diǎn)檢測(cè)后的語(yǔ)音信號(hào)。在GUI界面上,為了體現(xiàn)導(dǎo)診助手的實(shí)用性,我添加了現(xiàn)場(chǎng)語(yǔ)音錄制功能,在點(diǎn)擊“錄音”按鈕后,我們進(jìn)行語(yǔ)音(病情)輸入,在此背景中然后出現(xiàn)可編輯文本進(jìn)行命名,然后添加到準(zhǔn)備好的醫(yī)療信息語(yǔ)語(yǔ)音庫(kù)中(黃志遠(yuǎn),周曼茜,2021)?!斑x擇語(yǔ)音庫(kù)”是讓用戶(hù)選擇語(yǔ)音文件,“提取特征參數(shù)”是提取語(yǔ)音的特征參數(shù)?!斑x擇語(yǔ)音”是選擇測(cè)試語(yǔ)音庫(kù)中的語(yǔ)音文件并播放選中的語(yǔ)音。“識(shí)別”是利用DTW算法進(jìn)行的模式匹配,在這樣的環(huán)境之下然后識(shí)別出語(yǔ)音結(jié)果,以及輸出病癥語(yǔ)音對(duì)應(yīng)的科室,如語(yǔ)音“咳嗽”對(duì)應(yīng)的科室為“耳鼻喉科”。在識(shí)別過(guò)程中坐標(biāo)軸還可以顯示出端點(diǎn)檢測(cè)后的語(yǔ)音信號(hào)。最后的“退出”按鈕可以供用戶(hù)選擇繼續(xù)進(jìn)行識(shí)別操作還是退出(楊博文,趙書(shū)琪,2022)。(1)首先點(diǎn)擊GUI界面上的開(kāi)始按鈕。如圖5-5。圖5-5開(kāi)始(2)點(diǎn)擊開(kāi)始后會(huì)出現(xiàn)可以運(yùn)行的GUI界面。如圖5-6。(3)隨后單擊“錄音”按鈕錄入語(yǔ)音,比如“咳嗽”。然后在彈出的文本框中輸入病癥語(yǔ)音名稱(chēng)“咳嗽”,隨后自動(dòng)保存在語(yǔ)音庫(kù)中。如圖5-7?!吝x擇語(yǔ)音庫(kù)提取特征參數(shù)選擇語(yǔ)音(4)單擊“選擇語(yǔ)音庫(kù)”,選擇錄入的醫(yī)療病情信息語(yǔ)音庫(kù)。如下圖5-8?!懂呍O(shè)相關(guān)>語(yǔ)音導(dǎo)診助手(修改)>wav>圖片咆文檔娛樂(lè)(G·名稱(chēng)P②三(5)點(diǎn)擊“提取特征參數(shù)”,單機(jī)后會(huì)迅速?gòu)棾鲞M(jìn)度條(大概0.2秒),隨后長(zhǎng)文本框中出現(xiàn)“特征參數(shù)提取完畢”.表示提取完畢可以進(jìn)行下一步操作。如圖5-9。(6)點(diǎn)擊“選擇語(yǔ)音”選擇訓(xùn)練庫(kù)中的語(yǔ)音。(7)點(diǎn)擊“識(shí)別”進(jìn)行語(yǔ)音識(shí)別。出現(xiàn)識(shí)別結(jié)果,如下圖5-10。智能語(yǔ)音導(dǎo)診助手錄音0進(jìn)識(shí)別完畢!(8)最后可以進(jìn)行繼續(xù)識(shí)別,也可以點(diǎn)擊“關(guān)閉”退出操作。度16.1全文總結(jié)述。著重介紹了本設(shè)計(jì)使用的雙門(mén)限檢測(cè)法和MFCC特征參數(shù),和它們的實(shí)現(xiàn)過(guò)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 涂料購(gòu)銷(xiāo)合同模板常用版2篇
- 腳手架設(shè)計(jì)及計(jì)算
- 健康促進(jìn)區(qū)縣課件
- 2025西昌民族幼兒師范高等專(zhuān)科學(xué)校輔導(dǎo)員考試試題及答案
- 2025西安城市建設(shè)職業(yè)學(xué)院輔導(dǎo)員考試試題及答案
- 2025貴州裝備制造職業(yè)學(xué)院輔導(dǎo)員考試試題及答案
- 2025皖南醫(yī)學(xué)院輔導(dǎo)員考試試題及答案
- 2025紹興文理學(xué)院輔導(dǎo)員考試試題及答案
- 設(shè)計(jì)企業(yè)核心競(jìng)爭(zhēng)力構(gòu)建路徑
- 妊娠合并宮頸疾病診療規(guī)范
- 國(guó)開(kāi)電大《職業(yè)素質(zhì)(職業(yè)素質(zhì)專(zhuān))》形考1答案
- 過(guò)敏性休克的急救及處理流程教材課件(28張)
- 交通協(xié)管員勞務(wù)外包服務(wù)方案
- 頂管工程頂進(jìn)記錄表
- 滬教牛津版七年級(jí)上冊(cè)英語(yǔ)全冊(cè)教案
- 先天性心臟病患兒護(hù)理查房
- 2022年山東省威海市中考數(shù)學(xué)試題及答案解析
- (完整版)農(nóng)業(yè)主要知識(shí)點(diǎn)
- 高級(jí)財(cái)務(wù)管理試題及答案
- 醫(yī)院寧群腦高灌注綜合癥監(jiān)測(cè)和防治
- T∕CSEA 1-2018 鋅鋁涂層 技術(shù)條件
評(píng)論
0/150
提交評(píng)論