語(yǔ)音性別變換的實(shí)時(shí)實(shí)現(xiàn)_第1頁(yè)
語(yǔ)音性別變換的實(shí)時(shí)實(shí)現(xiàn)_第2頁(yè)
語(yǔ)音性別變換的實(shí)時(shí)實(shí)現(xiàn)_第3頁(yè)
語(yǔ)音性別變換的實(shí)時(shí)實(shí)現(xiàn)_第4頁(yè)
語(yǔ)音性別變換的實(shí)時(shí)實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語(yǔ)音性別變換的實(shí)時(shí)實(shí)現(xiàn)陸成剛(浙江工業(yè)大學(xué)理學(xué)院應(yīng)用數(shù)學(xué)系,浙江省,杭州市,郵編310023)摘 要:語(yǔ)音性別變換是網(wǎng)絡(luò)聊天、數(shù)字娛樂(lè)和安全領(lǐng)域中的熱門(mén)課題。本文討論一個(gè)性別變聲方案的高性能算法的實(shí)時(shí)實(shí)現(xiàn),主要有三個(gè)特點(diǎn):1)基于間接控制的PSOLA方法;2)動(dòng)態(tài)調(diào)整的信號(hào)處理流程;3)低復(fù)雜度、低延時(shí),可在嵌入式系統(tǒng)上實(shí)時(shí)實(shí)現(xiàn)。 關(guān)鍵詞:重采樣,基頻檢測(cè),基音標(biāo)注,基頻移動(dòng),反混淆濾波 A Real-Time Realization of Voice Gender ChangerChenggang Lu(The department of mathematics, The college o

2、f science, Zhejiang Industrial University,Hangzhou,310023)Abstract:Voice gender transformation is one hot topic in networks talking, digital entertainment, and security communication. This paper discusses a Real-Time Realization of Voice Gender Changer in high performance, as has three advantages: 1

3、) an indirect controlling mechanism in PSOLA involved; 2)dynamic sequence of signal processing modules; 3) low complexity and low delay, ease of running in embedded system.Key Words: Re-sampler, pitch detection, pitch marker, pitch shift, anti-aliasing filter(注:作者通信地址:杭州西湖區(qū)文新街道康樂(lè)新村11602室 郵編310013)1.

4、 前言作者簡(jiǎn)介:陸成剛、1973年生、男、博士、從事信號(hào)處理和機(jī)器學(xué)習(xí)方向的研究;不同于特定目標(biāo)人變聲1,語(yǔ)音性別變換的主要任務(wù)是對(duì)語(yǔ)音進(jìn)行某種變換使之產(chǎn)生性別變化的特效,例如在男聲、女聲、老年人聲和童聲之間互相轉(zhuǎn)換,達(dá)到偽裝的效果。語(yǔ)音變換在數(shù)字娛樂(lè)領(lǐng)域有著很廣泛的應(yīng)用2。例如一些有名的商用軟件AVVCS、Vodi或開(kāi)源軟件SoundTouch等就已經(jīng)實(shí)現(xiàn)了這樣的功能,國(guó)際權(quán)威的語(yǔ)音科學(xué)軟件Praat也有這樣的功能。在電信領(lǐng)域,已經(jīng)有運(yùn)營(yíng)商開(kāi)展了這項(xiàng)稱(chēng)之為“魔話(huà)”或“彩話(huà)”的業(yè)務(wù),甚至一些通信終端設(shè)計(jì)商也瞄準(zhǔn)這個(gè)應(yīng)用在手機(jī)上實(shí)現(xiàn)變聲軟件的功能3。在業(yè)界,Praat被公認(rèn)為實(shí)現(xiàn)了一個(gè)優(yōu)秀變聲效

5、果的系統(tǒng),但是它有兩個(gè)缺陷,一、它的基頻檢測(cè)模塊復(fù)雜度較高、基于動(dòng)態(tài)規(guī)劃的后端處理需要較多的語(yǔ)音延時(shí),經(jīng)過(guò)實(shí)測(cè),在ARM7系統(tǒng)上,該模塊需要800多MIPS,這是成為嵌入式實(shí)現(xiàn)的制約瓶頸,而它的延時(shí)一般在百毫秒級(jí)別,不利于實(shí)時(shí)語(yǔ)音通信;二、它的實(shí)現(xiàn)不是基于幀的,是離線的,其PSOLA直接控制模式如果應(yīng)用到實(shí)時(shí)系統(tǒng),獲得長(zhǎng)期穩(wěn)定的高質(zhì)量語(yǔ)音比較困難,這一點(diǎn)下文有詳細(xì)的剖析。其他產(chǎn)品或系統(tǒng)如AV VCS等幾乎都是基于類(lèi)似相位聲碼器的基頻移動(dòng)(pitch shift),附加后端均衡器調(diào)制的原理實(shí)現(xiàn)的;還有一些系統(tǒng)如SoundTouch等,是通過(guò)WSOLA變速和重采樣(re-sampler)變調(diào)實(shí)現(xiàn)的

6、,以上兩個(gè)方法在理論上是等價(jià)的。這一類(lèi)方法和Praat所基于的方法的不同之處是不需要做基頻檢測(cè),因而沒(méi)有用到PSOLA合成,好處是更容易獲得穩(wěn)定的高質(zhì)量語(yǔ)音,但是處理的變聲效果則顯得有一點(diǎn)卡通化、缺乏真實(shí)感和自然度。Vodi是一款實(shí)現(xiàn)原理類(lèi)似于Praat的商用軟件,并且是實(shí)時(shí)實(shí)現(xiàn)的,在22050赫茲采樣頻率下,男聲變女聲的處理在普通P4-3G機(jī)器上的CPU占用率高達(dá)80左右,系統(tǒng)開(kāi)銷(xiāo)高于Praat。表1是各類(lèi)系統(tǒng)的一個(gè)比較。表1 各類(lèi)系統(tǒng)的比較原理實(shí)時(shí)性變聲效果語(yǔ)音質(zhì)量PraatPSOLA離線好,真實(shí)、自然好SoundTouchWSOLA實(shí)時(shí)較好,有一點(diǎn)卡通化好AVVCS基頻移動(dòng)和后端均衡處理

7、實(shí)時(shí)較好,有一點(diǎn)卡通化好VoDiPSOLA實(shí)時(shí)好,真實(shí)、自然好2變聲原理語(yǔ)音科學(xué)家將人類(lèi)發(fā)聲過(guò)程視作一個(gè)由聲門(mén)源輸送的氣流經(jīng)以聲道、口、鼻腔組成的濾波器調(diào)制而成的4。人類(lèi)語(yǔ)音可分為有聲語(yǔ)音和無(wú)聲語(yǔ)音,前者是由聲帶振動(dòng)激勵(lì)的脈沖信號(hào)經(jīng)聲腔調(diào)制變成不同的音,它是人類(lèi)語(yǔ)言中元音的基礎(chǔ),聲帶振動(dòng)的頻率稱(chēng)為基頻。無(wú)聲語(yǔ)音則是聲帶保持開(kāi)啟狀態(tài),禁止振動(dòng)引發(fā)的。一般來(lái)說(shuō),由聲門(mén)振動(dòng)決定的基頻跟說(shuō)話(huà)人的性別特征有關(guān),如表2,而無(wú)聲語(yǔ)音則沒(méi)有體現(xiàn)這個(gè)特征。說(shuō)話(huà)人的個(gè)性化音色和語(yǔ)音的另外一個(gè)聲學(xué)參數(shù)共振峰頻率的分布有關(guān)。兒童由于聲道短,其共振峰頻率高于成年人,成年女性的聲道一般短于成年男性,所以女性的共振峰頻率一

8、般高于男性。表2 男聲、女聲和童聲基頻、共振峰頻率關(guān)系表人群基頻分布Hz共振峰頻率分布男聲50, 180偏低女聲160, 380中童聲400, 1000偏高由上可知,在進(jìn)行性別變聲時(shí),主要考慮基頻和共振峰頻率的變化。當(dāng)基頻伸展,共振峰頻率也同時(shí)伸展時(shí),可由男聲變成女聲,女聲變成童聲;反之,基頻收縮,共振峰頻率也同時(shí)收縮時(shí),則由童聲變女聲,女聲變男聲。為了獲得自然度、真實(shí)感較好的變聲效果,基頻和共振峰頻率通常必須各自獨(dú)立地伸縮變化,如圖1。圖1 基頻和共振峰頻率分布的變化共振峰頻率的改變是基于重采樣實(shí)現(xiàn)的,從重采樣原理知道,這也同時(shí)引發(fā)了基頻的變化,為保證基頻變化和共振峰頻率變化的獨(dú)立、互不相關(guān)

9、,在基頻移動(dòng)時(shí)必須考慮抵消重采樣帶來(lái)的偏移,理論上只要基頻檢測(cè)足夠精確,確實(shí)可以保證基頻改變和共振峰頻率改變間的互不相關(guān)。SoundTouch和AVVCS系統(tǒng)之所以難以保證變聲效果的自然度主要是沒(méi)有采用基音檢測(cè)將基音移動(dòng)和共振峰變化徹底隔離的緣故。3. 變速和變調(diào)本文在剖析性別變聲處理機(jī)制時(shí),提出了一個(gè)高性能算法的實(shí)時(shí)實(shí)現(xiàn),基于一個(gè)高精度、抗干擾的時(shí)域基頻檢測(cè)方法5,我們的算法可以實(shí)現(xiàn)20毫秒級(jí)別的語(yǔ)音延時(shí),在ARM7上達(dá)到20MIPS左右的復(fù)雜度,同時(shí)保證變聲效果的真實(shí)性、自然度比較好。此外,我們對(duì)傳統(tǒng)的PSOLA的合成控制邏輯做出了一個(gè)創(chuàng)新的修正,使得為達(dá)到實(shí)時(shí)實(shí)現(xiàn)時(shí)能夠保持長(zhǎng)期穩(wěn)定的高質(zhì)

10、量語(yǔ)音成為可能。本文的變聲方法的原理基本上和Praat類(lèi)似,不同的是我們?cè)谙到y(tǒng)的每一個(gè)模塊上都進(jìn)行了精細(xì)的優(yōu)化,并且將重采樣處理在流程中的位置進(jìn)行依賴(lài)于輸入?yún)?shù)的動(dòng)態(tài)調(diào)整。本文的實(shí)現(xiàn)能夠滿(mǎn)足低延時(shí)、低復(fù)雜度的要求,對(duì)PSOLA合成的控制機(jī)制所做的改進(jìn),在理論上與PSOLA直接控制機(jī)制等價(jià),但是恰恰這樣的改進(jìn)卻能夠巧妙地回避由于基頻檢測(cè)不可完全避免的誤差而導(dǎo)致的語(yǔ)音質(zhì)量的不穩(wěn)定。和實(shí)時(shí)實(shí)現(xiàn)變聲的商用軟件Vodi相比,我們的系統(tǒng)資源開(kāi)銷(xiāo)更低。重采樣使得信號(hào)的樣本數(shù)目增加或減少,若以不變的采樣頻率播放,速度會(huì)變慢或變快,因此需要進(jìn)行保持聲調(diào)不變的變速處理(變速不變調(diào)),恢復(fù)到原來(lái)的樣本數(shù)目。同時(shí)為了

11、改變信號(hào)的基頻,還必須對(duì)信號(hào)進(jìn)行變調(diào)處理即基頻移動(dòng)(基于PSOLA的變調(diào)不變速),在運(yùn)用變調(diào)因子時(shí),必須抵消重采樣引起的基頻變化。假設(shè)系統(tǒng)輸入?yún)?shù)共振峰轉(zhuǎn)移因子、和變調(diào)因子分別是、,那么重采樣處理控制參數(shù)是(時(shí),進(jìn)行減抽樣;時(shí),進(jìn)行增抽樣),而基頻轉(zhuǎn)移控制參數(shù)則取為,因?yàn)樵谶M(jìn)行重采樣處理時(shí)基頻已經(jīng)轉(zhuǎn)移了倍,只有這樣才能保證最終的變調(diào)因子是。此外,為了補(bǔ)償重采樣處理帶來(lái)的速度變化,同時(shí)需要以因子進(jìn)行變速處理(加速,進(jìn)行減速)。參考圖2的實(shí)現(xiàn)框圖。 圖2 變聲的實(shí)現(xiàn)框圖從傅立葉分析和重構(gòu)關(guān)系知道,時(shí)域重采樣意味著頻域每一個(gè)頻率分支的均勻移動(dòng),由于時(shí)域信號(hào)的物理頻率不高于采樣頻率的一半(奈奎斯特頻率

12、),為了防止部分頻段的信號(hào)溢出,如圖二所示,必須預(yù)先進(jìn)行反混淆濾波。有時(shí)候,往下限溢出只是增加一些低頻熱噪聲,無(wú)損于音效,故在Praat實(shí)現(xiàn)中并沒(méi)有圖二所示的高通反混淆濾波。而且Praat的實(shí)現(xiàn)是把重采樣模塊固定地置于PSOLA之后的。本文的實(shí)現(xiàn)中重采樣的位置可以依據(jù)外部輸入?yún)?shù)的變化動(dòng)態(tài)調(diào)整,后面會(huì)討論這有助于減少處理的信號(hào)的樣本數(shù)目,從而獲得更高的執(zhí)行效率。4. 基頻同步交疊相加(PSOLA)變速和變調(diào)是兩個(gè)獨(dú)立的過(guò)程,由不同的參數(shù)控制,但是它們可以通過(guò)一個(gè)著名的“基頻同步交疊相加”(PSOLA)算法聯(lián)合實(shí)現(xiàn)。時(shí)域PSOLA是語(yǔ)音合成領(lǐng)域里的一種經(jīng)典算法,它可以控制語(yǔ)音的基頻變化和時(shí)長(zhǎng)節(jié)奏

13、(語(yǔ)音語(yǔ)速),使得合成的語(yǔ)音信號(hào)符合目標(biāo)要求6。PSOLA算法的主要思想是在基頻周期級(jí)別精度上進(jìn)行波形交疊拼接:基頻移動(dòng)是通過(guò)將源波形的基頻周期進(jìn)行伸縮后加窗拼貼在目標(biāo)時(shí)間軸上,而時(shí)長(zhǎng)控制則是通過(guò)重復(fù)、或省略本段周期的源波形的拼接來(lái)實(shí)現(xiàn)的。 圖3,這里給出PSOLA控制基頻轉(zhuǎn)移和時(shí)長(zhǎng)節(jié)奏的主要思想:圖3 PSOLA進(jìn)行基頻轉(zhuǎn)移和時(shí)長(zhǎng)控制的拼接格式(本圖是基頻下降、減速的情形) 按照PSOLA的思想,重復(fù)、省略拷貝的循環(huán)控制邏輯自然為 (1)是PSOLA合成的輸出信號(hào)的長(zhǎng)度,是重采樣后的輸入信號(hào)的長(zhǎng)度(參見(jiàn)圖二的框圖)。一般地,重采樣之前的信號(hào)的長(zhǎng)度為,則重采樣后的信號(hào)長(zhǎng)度為。是當(dāng)前的基音周期。

14、設(shè)是系統(tǒng)輸出的開(kāi)始位置,每次輸出后更新,其中是系統(tǒng)的幀長(zhǎng)規(guī)格。自然地,系統(tǒng)輸出和PSOLA輸出應(yīng)當(dāng)滿(mǎn)足以下關(guān)系式 (2)是輸出延時(shí)(人為設(shè)定的延時(shí))且。然而實(shí)際并非總能滿(mǎn)足,究其根本原因是基頻檢測(cè)的不穩(wěn)定性導(dǎo)致循環(huán)控制邏輯(1)并不能保證PSOLA輸出長(zhǎng)度的足夠增長(zhǎng),從而造成條件關(guān)系式(2)被破壞,輸出的語(yǔ)音會(huì)產(chǎn)生間斷。雖然越大就越能推遲語(yǔ)音間斷現(xiàn)象的發(fā)生,但這種不穩(wěn)定性是無(wú)論選擇怎樣的系統(tǒng)輸出延時(shí)都無(wú)法解決的。在Praat中由于采用離線(即非逐幀)處理的模式所以不存在這樣的問(wèn)題,而在實(shí)時(shí)實(shí)現(xiàn)時(shí)由于基音檢測(cè)總有一些誤差,基于(1)的PSOLA的直接控制模式就會(huì)造成語(yǔ)音間斷。 在我們的試驗(yàn)中(男

15、聲變女聲),語(yǔ)音間斷現(xiàn)象會(huì)以接近10分鐘的間隔周期性地出現(xiàn),每一次語(yǔ)音間斷持續(xù)時(shí)間為20到30秒不等,爾后自動(dòng)恢復(fù)正常,周而復(fù)始。圖4(a)為算法運(yùn)行到第10分鐘時(shí)開(kāi)始發(fā)生間斷的相應(yīng)的信號(hào)波形圖4(a) 語(yǔ)音發(fā)生間斷的情形圖4(b) 修正循環(huán)邏輯避免語(yǔ)音發(fā)生間斷圖4 兩種PSOLA循環(huán)控制邏輯的對(duì)比信號(hào)的間斷一般是某幀前部有生成信號(hào),后部由于條件關(guān)系式(2)的破壞沒(méi)有生成信號(hào),圖4(a)中顯示了間斷幀的情形,是幀長(zhǎng)。是變聲系統(tǒng)的輸出標(biāo)志,將其引入PSOLA模塊做成間接控制,如下 (3)這樣由(3)得到的,而由(1)得到,所以?xún)烧叩葍r(jià)。賦予適當(dāng)?shù)某踔?,如,則條件(2)始終滿(mǎn)足。因此如圖4(b)所

16、示基于(3)式的控制邏輯可以克服語(yǔ)音間斷現(xiàn)象的發(fā)生,獲得長(zhǎng)期穩(wěn)定的語(yǔ)音質(zhì)量。5. 基頻檢測(cè)和基音標(biāo)注實(shí)現(xiàn)基頻移動(dòng)和共振峰頻率變化的互不相關(guān),基頻檢測(cè)的精度是關(guān)鍵,它還影響著合成語(yǔ)音的質(zhì)量。對(duì)于嵌入式應(yīng)用和實(shí)時(shí)語(yǔ)音通信的要求,基頻檢測(cè)算法的復(fù)雜度和算法延時(shí)都受到很大的限制,所以必須在精度和性能之間取得折中。本文采用的時(shí)域基頻檢測(cè)算法5,具有較好的檢測(cè)精度和穩(wěn)定性,并經(jīng)過(guò)定點(diǎn)優(yōu)化,完全滿(mǎn)足實(shí)時(shí)嵌入式系統(tǒng)的性能要求?;魳?biāo)注是基于基頻檢測(cè)得到的周期參考值對(duì)語(yǔ)音信號(hào)進(jìn)行雙向峰、谷值搜索,確定每一個(gè)基音周期的邊界,在此基礎(chǔ)上完成對(duì)基音周期的二次修正?;魳?biāo)注是基于樣本級(jí)精度確定的,不同于Praat在子樣

17、本級(jí)別上的標(biāo)注,但是能保證合適的計(jì)算負(fù)荷。6算法評(píng)測(cè)和結(jié)論在嵌入式處理器上實(shí)現(xiàn)語(yǔ)音變聲功能,主要的瓶頸是基頻檢測(cè)和標(biāo)注,它們的復(fù)雜度和精度各自影響了系統(tǒng)的整體性能和質(zhì)量。此外,信號(hào)處理流程的動(dòng)態(tài)調(diào)整也是重要的。圖5是整個(gè)算法的實(shí)施方案:圖5 實(shí)際系統(tǒng)的處理流程 (參考圖2)如圖五所示,在系統(tǒng)中重采樣模塊所處的位置和輸入?yún)?shù)有關(guān),這樣保證實(shí)際重采樣參數(shù)總是大于一的,即總為減抽樣,這就避免了因?yàn)樵龀闃雍蟮臅r(shí)域信號(hào)樣本增多而增加的計(jì)算負(fù)荷,而在Praat的實(shí)現(xiàn)中并沒(méi)有這種動(dòng)態(tài)調(diào)整機(jī)制。我們把Praat的代碼移植到ARM7進(jìn)行性能評(píng)估,并和本文的實(shí)現(xiàn)做對(duì)比,見(jiàn)表3。我們輸入的音頻數(shù)據(jù)是一段男聲,設(shè)置參

18、數(shù),表3統(tǒng)計(jì)了變聲系統(tǒng)的四個(gè)主要組成模塊,實(shí)測(cè)數(shù)據(jù)精確到個(gè)位數(shù)。表3 在ARM7上Praat和本文的方法的性能實(shí)測(cè)模塊性能(MIPS)基頻檢測(cè)和標(biāo)注低通反混淆重采樣PSOLA合成總計(jì)Praat897406851121500本文的實(shí)現(xiàn)1152321本文方法的變聲效果和Praat的比較接近,克服了卡通化和機(jī)器處理的痕跡,具有較好的真實(shí)感和自然度,并且語(yǔ)音質(zhì)量良好。圖6是一段實(shí)驗(yàn)音頻的原始頻譜、Praat處理的頻譜以及本文方法的處理頻譜的比較。圖6(a) 實(shí)驗(yàn)音頻男聲的原始頻譜圖6(b) 實(shí)驗(yàn)音頻男聲變女聲的頻譜Praat的處理圖6(c) 實(shí)驗(yàn)音頻男聲變女聲的頻譜本文方法的處理圖6 一段實(shí)驗(yàn)音頻的頻譜比較參考文獻(xiàn)1. 孫卓、岳振軍,一種漢語(yǔ)語(yǔ)音變換技術(shù),電聲技術(shù),2007,31(6):2. 于 劍、陶建華等. 個(gè)性化語(yǔ)音生成技術(shù)面面觀. 計(jì)算機(jī)世界·技術(shù)與應(yīng)用2007,25:46-50.3. 蔣明哲、廖建新、朱曉民等. 基于智能網(wǎng)的變聲彩話(huà)業(yè)務(wù)的設(shè)計(jì)與實(shí)現(xiàn). 電信工程技術(shù)與標(biāo)準(zhǔn)化, 2006,19(5)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論