多媒體會議中的快速實時自適應混音方案研究_圖文_第1頁
多媒體會議中的快速實時自適應混音方案研究_圖文_第2頁
多媒體會議中的快速實時自適應混音方案研究_圖文_第3頁
多媒體會議中的快速實時自適應混音方案研究_圖文_第4頁
多媒體會議中的快速實時自適應混音方案研究_圖文_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 樊星 等:多媒體會議中的快速實時自適應混音方案研究 113 5 實驗結果 我們選取有代表性的兩種算法進行實際實驗,一種是根據文獻1改進的 ABW 方法實現,另一種是本文提 出的 ASW 方法實現.首先我們從合成后音頻輸出的波形上來分析合成效果及其聽覺感受. 我們比較圖 4(c和圖 4(d的波形,容易看出,當兩路輸入中有一路很弱而另一路較強時,ASW 方法的混音結 果明顯優(yōu)于 ABW 的結果.從整體上看,ABW 輸出的波形毛刺明顯多于 ASW 的輸出.從波形的包絡上看,ASW 輸 出波形的包絡明顯地與兩路輸入的包絡疊加更為接近 ;而 ABW 輸出波形的包絡則變形較大 ,這正是由于局部 縮放因子

2、引起的不良結果. 根據實際參與測試的測試人員的主觀評價,ASW 輸入的效果明顯好于 ABW 的輸出 .ASW 合成后的音頻流 連續(xù)、自然 ,沒有跳音和斷續(xù)的感覺 ,也沒有爆破噪聲 .ABW 合成后的音頻流雖然很少有爆破噪聲 ,但是有比較 大的空洞感 , 同時由于分段縮放的因子取值各有不同 , 所以輸入音頻流會產生突然性的音量大小變化 . 綜上 , 我 們可以看出本文提出的 ASW 模型明顯改善了文獻1提出的 ABW 模型的缺陷. (a Decoded audo input 1 (a 解碼后的語音輸入 1 (b Decoded audo input 2 (b 解碼后的語音輸入 2 (c Two

3、stream mixed output by ABW (c ABW 方法兩路混音處理后的結果 (d Two stream mixed output by ASW (d ASW 方法兩路混音處理后的結果 Fig.4 圖4 我們的具體測試方法是 ,通過更改參與混音人數來測試不同混音路數的混音器實時運行特性 .實驗時 ,語音 數據取 1 000 幀,每幀 120 個采樣點(240 Bytes,共執(zhí)行 10 次,總時間長度為 150s.每次運行 Intel(R VTune(TM Performance Analyzer 7.0,在最后的輸出結果中取語音混合函數的 “Self Time”和 “Total

4、 Time”兩個指標 ,將結果 記錄下來,并計算出平均每個采樣點所消耗的時間. 從實驗結果上可以看出 ,隨著混音路數的增加 ,每個采樣點平均消耗時間的增加很緩慢 ,而且非常接近一個 114 混音單元的計算時間消耗.如圖 5 所示. Journal of Software 軟件學報 2005,16(1 圖 5 中橫軸表示混音器和混音單元中的混音路數,縱軸表示混音器和混音單元的時間消耗(µs,從圖中我們 可以看出 ,混音路數和混音的時間消耗呈近似線性關系 ;而且采用的兩種方法的性能相差很大 .隨著混音路數的 增加,采用 ASW 模型的混音方案的性能改善也越發(fā)明顯,這表明,基于 ASW 合

5、成模型的方案完全適用于人數較 多的混音環(huán)境. 25 Time consumption of AMP based on ASW model Time consumption of AMP based on individual APU model Time consumption of individual APU 20 15 10 5 0 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Fig.5 Comparison of test results 測試數據比對圖示 圖5 表 2 中的算法是采用獨立的混合單元建立的混音器模型,我們可以看出,其時間消耗隨著參與混音點數的

6、增加而急劇上升.我們再看采用圖 3 所示的 ASW 模型實現的混音器的測試結果,見表 3.容易看出,采用 ASW 模 型實現的混音器的時間消耗隨著參與混音點數的增加上升很平緩. Table 2 表2 Input num. 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Run times 10 10 10 10 10 10 10 10 10 10 10 10 10 10 Frames 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 Samples 120

7、 120 120 120 120 120 120 120 120 120 120 120 120 120 Time consumption of AMP based on individual APU model 基于獨立混音單元模型實現的混音器的時間消耗 Call times 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 Selfs time (s 64 213 66 298 71 312 72 335 73 917 80 750 81 857

8、 86 058 94 193 94 355 90 438 98 889 97 100 100 228 Total time (s 487 297 499 533 813 385 861 305 949 241 1 051 979 1 108 437 1 253 319 1 362 439 1 398 307 1 448 525 1 490 533 1 539 408 1 669 526 Comsumption of APU per sample (s 0.406 080 833 0.416 277 5 0.677 820 833 0.717 754 167 0.791 034 167 0.87

9、6 649 167 0.923 697 5 1.044 432 5 1.135 365 833 1.165 255 833 1.207 104 167 1.242 110 833 1.282 84 1.391 271 667 Comsumption of AMP per sample (s 2.040 600 832 2.759 208 333 4.784 679 165 5.815 313 336 7.204 922 503 8.813 540 003 10.281 407 5 12.624 123 33 14.789 645 83 16.355 43 18.141 569 17 19.91

10、4 502 5 21.916 711 67 樊星 等:多媒體會議中的快速實時自適應混音方案研究 Table 3 表3 Input num. 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Run times 10 10 10 10 10 10 10 10 10 10 10 10 10 10 Frames 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 1 000 115 Time consumption of AMP based on ASW model 基于 AS

11、W 模型實現的混音器的時間消耗 Call times 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 10 000 Selfs time (s 228 399 284 890 339 689 392 104 415 897 498 878 545 231 615 581 671 477 729 800 791 654 856 685 899 598 955 423 Total time (s 783 174 942 969 1 150 032 1 255 496

12、 1 395 979 1 738 713 1 919 448 2 118 067 2 322 645 2 482 225 2 667 262 2 999 607 3 161 552 3 347 876 120 120 120 120 120 120 120 120 120 120 120 120 120 120 Comsumption of APU per sample (s 0.652 645 0.785 807 5 0.958 36 1.046 246 667 1.163 315 833 1.448 927 5 1.599 54 1.765 055 833 1.935 537 5 2.06

13、8 520 833 2.222 718 333 2.499 672 5 2.634 626 667 2.789 896 667 Samples 6 結 論 綜上所述 ,不僅在一般的應用場合,基于 ASW 合成模型的混音方案能夠滿足實際需求 ,而且在具有高并發(fā) 量要求的混音時使用 ASW 模型也能獲得高質量的實時混音結果.它不僅保證了在多點混音時的高性能,具有很 高的實時性 ,同時它也保持了參與混音的各路輸入的時域細節(jié)特征 ,因而具有很好的聽覺主觀舒適感和連續(xù)感 . 相對于近年來提出的一些語音混合算法1,7,算法性能和輸入效果都有明顯的改善. References: 1 2 3 4 5 6 7

14、Yang ST, Yu SS, Zhou JL. A multipoint real-time speech mixing and scheduling algorithm based on packet networks. Journal of Software, 2001,12(9:14131419 (in Chinese with English abstract. Daigle JN, Langford ID. Model for analysis of packet voice communications systems. IEEE Journal on Selected Area

15、s in Communications, 1986,4(6:847855. Venkat RP, Harrick MV, Srinivas R. Communication architectures and algorithms for media mixing in multimedia conferences. IEEE/ACM Trans. on Networking, 1993,1(1:2030. Agustín JG, Hussein AW. Audio mixing for interactive multimedia communications. In: Wang

16、P, ed. Proc of the JCIS98. NC: Research Triangle, 1998. 217220. ITU-T. Packet-Based multimedia communication system. ITU-T Rec H.323 v4, 2000. Schulzrinne H, Caner S, Frederick R, Jacobson V. RTP: A transport protocol for real-time applications. IETF RFC 1889, IETF, 1996. Tu WP, Hu RM, Ai HJ, Xie X. Audio MP in video conferen

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論