多媒體會(huì)議中的快速實(shí)時(shí)自適應(yīng)混音方案研究_圖文

上傳人：7*** IP屬地：湖北上傳時(shí)間：2022-02-11 格式：DOC 頁數(shù)：5 大小：371.50KB 積分：15 舉報(bào) 版權(quán)申訴

多媒體會(huì)議中的快速實(shí)時(shí)自適應(yīng)混音方案研究_圖文_第2頁

多媒體會(huì)議中的快速實(shí)時(shí)自適應(yīng)混音方案研究_圖文_第3頁

多媒體會(huì)議中的快速實(shí)時(shí)自適應(yīng)混音方案研究_圖文_第4頁

多媒體會(huì)議中的快速實(shí)時(shí)自適應(yīng)混音方案研究_圖文_第5頁

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、樊星等:多媒體會(huì)議中的快速實(shí)時(shí)自適應(yīng)混音方案研究 113 5 實(shí)驗(yàn)結(jié)果我們選取有代表性的兩種算法進(jìn)行實(shí)際實(shí)驗(yàn),一種是根據(jù)文獻(xiàn)1改進(jìn)的 ABW 方法實(shí)現(xiàn),另一種是本文提出的 ASW 方法實(shí)現(xiàn).首先我們從合成后音頻輸出的波形上來分析合成效果及其聽覺感受. 我們比較圖 4(c和圖 4(d的波形,容易看出,當(dāng)兩路輸入中有一路很弱而另一路較強(qiáng)時(shí),ASW 方法的混音結(jié) 果明顯優(yōu)于 ABW 的結(jié)果.從整體上看,ABW 輸出的波形毛刺明顯多于 ASW 的輸出.從波形的包絡(luò)上看,ASW 輸出波形的包絡(luò)明顯地與兩路輸入的包絡(luò)疊加更為接近 ;而 ABW 輸出波形的包絡(luò)則變形較大 ,這正是由于局部縮放因子

2、引起的不良結(jié)果. 根據(jù)實(shí)際參與測試的測試人員的主觀評價(jià),ASW 輸入的效果明顯好于 ABW 的輸出 .ASW 合成后的音頻流連續(xù)、自然 ,沒有跳音和斷續(xù)的感覺 ,也沒有爆破噪聲 .ABW 合成后的音頻流雖然很少有爆破噪聲 ,但是有比較大的空洞感 , 同時(shí)由于分段縮放的因子取值各有不同 , 所以輸入音頻流會(huì)產(chǎn)生突然性的音量大小變化 . 綜上 , 我們可以看出本文提出的 ASW 模型明顯改善了文獻(xiàn)1提出的 ABW 模型的缺陷. (a Decoded audo input 1 (a 解碼后的語音輸入 1 (b Decoded audo input 2 (b 解碼后的語音輸入 2 (c Two

3、stream mixed output by ABW (c ABW 方法兩路混音處理后的結(jié)果 (d Two stream mixed output by ASW (d ASW 方法兩路混音處理后的結(jié)果 Fig.4 圖4 我們的具體測試方法是 ,通過更改參與混音人數(shù)來測試不同混音路數(shù)的混音器實(shí)時(shí)運(yùn)行特性 .實(shí)驗(yàn)時(shí) ,語音數(shù)據(jù)取 1 000 幀,每幀 120 個(gè)采樣點(diǎn)(240 Bytes,共執(zhí)行 10 次,總時(shí)間長度為 150s.每次運(yùn)行 Intel(R VTune(TM Performance Analyzer 7.0,在最后的輸出結(jié)果中取語音混合函數(shù)的 “Self Time”和 “Total

4、 Time”兩個(gè)指標(biāo) ,將結(jié)果記錄下來,并計(jì)算出平均每個(gè)采樣點(diǎn)所消耗的時(shí)間. 從實(shí)驗(yàn)結(jié)果上可以看出 ,隨著混音路數(shù)的增加 ,每個(gè)采樣點(diǎn)平均消耗時(shí)間的增加很緩慢 ,而且非常接近一個(gè) 114 混音單元的計(jì)算時(shí)間消耗.如圖 5 所示. Journal of Software 軟件學(xué)報(bào) 2005,16(1 圖 5 中橫軸表示混音器和混音單元中的混音路數(shù),縱軸表示混音器和混音單元的時(shí)間消耗(µs,從圖中我們可以看出 ,混音路數(shù)和混音的時(shí)間消耗呈近似線性關(guān)系 ;而且采用的兩種方法的性能相差很大 .隨著混音路數(shù)的增加,采用 ASW 模型的混音方案的性能改善也越發(fā)明顯,這表明,基于 ASW 合

5、成模型的方案完全適用于人數(shù)較多的混音環(huán)境. 25 Time consumption of AMP based on ASW model Time consumption of AMP based on individual APU model Time consumption of individual APU 20 15 10 5 0 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Fig.5 Comparison of test results 測試數(shù)據(jù)比對圖示圖5 表 2 中的算法是采用獨(dú)立的混合單元建立的混音器模型,我們可以看出,其時(shí)間消耗隨著參與混音點(diǎn)數(shù)的

6、增加而急劇上升.我們再看采用圖 3 所示的 ASW 模型實(shí)現(xiàn)的混音器的測試結(jié)果,見表 3.容易看出,采用 ASW 模型實(shí)現(xiàn)的混音器的時(shí)間消耗隨著參與混音點(diǎn)數(shù)的增加上升很平緩. Table 2 表2 Input num. 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Run times 10 10 10 10 10 10 10 10 10 10 10 10 10 10 Frames 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 Samples 120

7、 120 120 120 120 120 120 120 120 120 120 120 120 120 Time consumption of AMP based on individual APU model 基于獨(dú)立混音單元模型實(shí)現(xiàn)的混音器的時(shí)間消耗 Call times 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 Selfs time (s 64 213 66 298 71 312 72 335 73 917 80 750 81 857

8、 86 058 94 193 94 355 90 438 98 889 97 100 100 228 Total time (s 487 297 499 533 813 385 861 305 949 241 1 051 979 1 108 437 1 253 319 1 362 439 1 398 307 1 448 525 1 490 533 1 539 408 1 669 526 Comsumption of APU per sample (s 0.406 080 833 0.416 277 5 0.677 820 833 0.717 754 167 0.791 034 167 0.87

9、6 649 167 0.923 697 5 1.044 432 5 1.135 365 833 1.165 255 833 1.207 104 167 1.242 110 833 1.282 84 1.391 271 667 Comsumption of AMP per sample (s 2.040 600 832 2.759 208 333 4.784 679 165 5.815 313 336 7.204 922 503 8.813 540 003 10.281 407 5 12.624 123 33 14.789 645 83 16.355 43 18.141 569 17 19.91

10、4 502 5 21.916 711 67 樊星等:多媒體會(huì)議中的快速實(shí)時(shí)自適應(yīng)混音方案研究 Table 3 表3 Input num. 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Run times 10 10 10 10 10 10 10 10 10 10 10 10 10 10 Frames 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 115 Time consumption of AMP based on ASW model 基于 AS

11、W 模型實(shí)現(xiàn)的混音器的時(shí)間消耗 Call times 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 Selfs time (s 228 399 284 890 339 689 392 104 415 897 498 878 545 231 615 581 671 477 729 800 791 654 856 685 899 598 955 423 Total time (s 783 174 942 969 1 150 032 1 255 496

12、 1 395 979 1 738 713 1 919 448 2 118 067 2 322 645 2 482 225 2 667 262 2 999 607 3 161 552 3 347 876 120 120 120 120 120 120 120 120 120 120 120 120 120 120 Comsumption of APU per sample (s 0.652 645 0.785 807 5 0.958 36 1.046 246 667 1.163 315 833 1.448 927 5 1.599 54 1.765 055 833 1.935 537 5 2.06

13、8 520 833 2.222 718 333 2.499 672 5 2.634 626 667 2.789 896 667 Samples 6 結(jié) 論綜上所述 ,不僅在一般的應(yīng)用場合,基于 ASW 合成模型的混音方案能夠滿足實(shí)際需求 ,而且在具有高并發(fā) 量要求的混音時(shí)使用 ASW 模型也能獲得高質(zhì)量的實(shí)時(shí)混音結(jié)果.它不僅保證了在多點(diǎn)混音時(shí)的高性能,具有很高的實(shí)時(shí)性 ,同時(shí)它也保持了參與混音的各路輸入的時(shí)域細(xì)節(jié)特征 ,因而具有很好的聽覺主觀舒適感和連續(xù)感 . 相對于近年來提出的一些語音混合算法1,7,算法性能和輸入效果都有明顯的改善. References: 1 2 3 4 5 6 7

14、Yang ST, Yu SS, Zhou JL. A multipoint real-time speech mixing and scheduling algorithm based on packet networks. Journal of Software, 2001,12(9:14131419 (in Chinese with English abstract. Daigle JN, Langford ID. Model for analysis of packet voice communications systems. IEEE Journal on Selected Area

15、s in Communications, 1986,4(6:847855. Venkat RP, Harrick MV, Srinivas R. Communication architectures and algorithms for media mixing in multimedia conferences. IEEE/ACM Trans. on Networking, 1993,1(1:2030. Agustín JG, Hussein AW. Audio mixing for interactive multimedia communications. In: Wang

16、P, ed. Proc of the JCIS98. NC: Research Triangle, 1998. 217220. ITU-T. Packet-Based multimedia communication system. ITU-T Rec H.323 v4, 2000. Schulzrinne H, Caner S, Frederick R, Jacobson V. RTP: A transport protocol for real-time applications. IETF RFC 1889, IETF, 1996. Tu WP, Hu RM, Ai HJ, Xie X. Audio MP in video conferen

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

多媒體會(huì)議中的快速實(shí)時(shí)自適應(yīng)混音方案研究_圖文

文檔簡介

溫馨提示

最新文檔

評論

多媒體會(huì)議中的快速實(shí)時(shí)自適應(yīng)混音方案研究_圖文

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔