北郵劉剛教授-信息工程導論課件-多媒體信息處理-2015_第1頁
北郵劉剛教授-信息工程導論課件-多媒體信息處理-2015_第2頁
北郵劉剛教授-信息工程導論課件-多媒體信息處理-2015_第3頁
北郵劉剛教授-信息工程導論課件-多媒體信息處理-2015_第4頁
北郵劉剛教授-信息工程導論課件-多媒體信息處理-2015_第5頁
已閱讀5頁,還剩90頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

多媒體信息處理劉剛網絡搜索教研中心模式識別與智能系統(tǒng)實驗室liugang@15一月2023信息工程導論目錄概述多媒體信息采集多媒體通信/存儲多媒體信息識別多媒體信息檢索多媒體信息生成總結2023年1月15日2信息與通信工程學院liugang@1.概述什么是多媒體為什么要研究多媒體信息信息處理流程多媒體信息處理研究內容2023年1月15日3信息與通信工程學院liugang@1.1什么是多媒體媒體(Media)就是人與人之間實現(xiàn)信息交流的中介,簡單地說,就是信息的載體,也稱為媒介。多媒體就是多重媒體的意思可以理解為直接作用于人感官的文字、圖形、圖像、動畫、聲音和視頻等各種媒體的統(tǒng)稱,即多種信息載體的表現(xiàn)形式和傳遞方式。2023年1月15日4信息與通信工程學院liugang@信息來源統(tǒng)計根據(jù)美國哈佛商學院有關研究人員的分析資料表明,人的大腦每天通過五種感官接受外部信息的比例分別為:味覺1%,觸覺1.5%,嗅覺3.5%,聽覺11%,以及視覺83%。主要的三個媒體聲音:語音(語言的表達形式之一),音樂,音效(一般音頻)圖像:圖形,圖像,動畫,視頻文本(抽象):文本(語言的表達形式之一),數(shù)據(jù)等2023年1月15日5信息與通信工程學院liugang@1.2為什么要研究多媒體信息多媒體是信息載體的總稱,是信息的承載形式或表現(xiàn)形式。多媒體信息處理,實際上就是信息處理。信息及其處理是當前時代的標志信息處理是信息工程專業(yè)的使命多媒體信息處理又有自身的特點2023年1月15日6信息與通信工程學院liugang@2023年1月15日信息與通信工程學院liugang@7信息及其處理是當前時代的標志社會發(fā)展史:

農業(yè)社會(物質資源)擴展人的體質能力工業(yè)社會(能量資源)擴展人的體力能力信息社會(信息資源)擴展人的智力能力沒有物質什麼都不存在,沒有能量什麼都不發(fā)生,沒有信息什麼都沒意義信息處理是信息工程專業(yè)的使命信息工程的使命信息工程是面向信息通信行業(yè),口徑寬、適應面廣的專業(yè)。該專業(yè)培養(yǎng)系統(tǒng)掌握信息傳輸和處理的基本理論和基本知識,掌握信息獲取和應用的核心技術,能從事現(xiàn)代信息網絡和智能信息系統(tǒng)的設計、開發(fā)、研究及運營等方面工作的高素質專門人才。2023年1月15日8信息與通信工程學院liugang@多媒體信息處理又有自身的特點音頻---隨機視頻---隨機文本/數(shù)據(jù)---確定多媒體融合2023年1月15日信息與通信工程學院liugang@9如何結合不同媒體的特點進行更好的信息處理如何進行多個媒體的信息融合處理1.3信息處理的流程2023年1月15日信息與通信工程學院liugang@10信息處理的流程信息科學基本原理2023年1月15日信息與通信工程學院liugang@11通信通信1.3信息處理的流程2023年1月15日信息與通信工程學院liugang@12信息獲取通信信息決策信息施效通信多媒體信息處理主要研究與媒體相關的部分1.4多媒體信息處理研究內容2023年1月15日信息與通信工程學院liugang@13數(shù)字信號處理數(shù)據(jù)采集技術通信原理信息處理與編碼模式識別Web搜索語音信號數(shù)字處理,數(shù)字圖像處理信號層次內容層次1.4多媒體信息處理研究內容研究如何更有效地產生、傳輸、存儲、獲取和應用多媒體信息多媒體信息采集多媒體通信/存儲多媒體編碼/譯碼----信源編碼多媒體內容處理---智能信息處理多媒體信息識別多媒體信息檢索多媒體信息生成2023年1月15日14信息與通信工程學院liugang@目錄概述多媒體信息采集多媒體通信/存儲多媒體信息識別多媒體信息檢索多媒體信息生成總結2023年1月15日15信息與通信工程學院liugang@2.多媒體信息采集概述傳感器模數(shù)轉換/數(shù)模轉換噪聲處理等預處理2023年1月15日16信息與通信工程學院liugang@2.1多媒體信息采集-概述采集原則不失真有用信號不失真噪聲干擾小處理過程傳感器采集模數(shù)轉換/數(shù)模轉換噪聲處理等預處理2023年1月15日17信息與通信工程學院liugang@數(shù)據(jù)采集技術2.2傳感器傳感器transducer/sensor一種檢測裝置,能感受到被測量的信息,并能將感受到的信息,按一定規(guī)律變換成為電信號或其他所需形式的信息輸出兩個功能信號敏感換能2023年1月15日信息與通信工程學院liugang@182.2傳感器傳感器是人類五官的延長,又稱之為電五官光敏傳感器——視覺聲敏傳感器——聽覺氣敏/化學傳感器——嗅覺化學傳感器——味覺壓敏、溫敏、流體傳感器——觸覺2023年1月15日信息與通信工程學院liugang@19可燃氣體感器二氧化氮傳感器鹽度傳感器紅外壓力可穿戴柔性觸覺2.2傳感器---Mic陣列2023年1月15日20信息與通信工程學院liugang@2.2傳感器---Mic陣列2023年1月15日21信息與通信工程學院liugang@2.2傳感器---Mic陣列2023年1月15日22信息與通信工程學院liugang@針對復雜應用如:音源定位遠距離聲音采集聲場分析等2023年1月15日信息與通信工程學院liugang@012345672.3模數(shù)轉換量化編碼000011011100100101110111111111111110101011010量化誤差0.5-0.5抽樣23圖像二值化等2023年1月15日24信息與通信工程學院liugang@2.3預處理噪聲的去除和有用信息的初步提取降噪分割檢測……2023年1月15日信息與通信工程學院liugang@25語音預處理語音增強語音端點檢測2023年1月15日信息與通信工程學院liugang@26譜減法語音增強Kalman濾波法2023年1月15日27圖像的降噪/group/dipr信息與通信工程學院liugang@2023年1月15日28圖像增強信息與通信工程學院liugang@2023年1月15日29圖像恢復運動模糊圖像恢復圖像信息與通信工程學院liugang@2023年1月15日30圖像的分割信息與通信工程學院liugang@周界檢測系統(tǒng)系統(tǒng)可以自動檢測到進入到場景中的運動目標,判斷是否進入設定警戒區(qū)域。應用場景:機場,小區(qū),軍事禁區(qū)2023年1月15日31信息與通信工程學院liugang@目錄概述多媒體信息采集多媒體通信/存儲多媒體信息識別多媒體信息檢索多媒體信息生成總結2023年1月15日32信息與通信工程學院liugang@3.多媒體通信和存儲

—多媒體編碼為什么要進行編碼信源編碼---壓縮,提高有效性為什么可以壓縮信號本身的冗余度---語音感知特性----人耳的聽覺特性語音--G.721,G.729,G.723.1混合音頻編碼圖像--JPEG、JPEG2000視頻--MPEG-1,MPEG-2和MPEG-4,H261,H.263,MPEG7,MPEG212023年1月15日33信息與通信工程學院liugang@目錄概述多媒體信息采集多媒體通信/存儲多媒體信息識別多媒體信息檢索多媒體信息生成總結2023年1月15日34信息與通信工程學院liugang@4.多媒體信息識別模式識別概述語音識別音頻事件識別圖像識別多模態(tài)模式識別2023年1月15日35信息與通信工程學院liugang@4.1模式識別模式識別(PatternRecognition)模式分類模式識別是從模式到類別的映射模式識別是模擬人的某些功能模擬人的視覺:計算機+光學系統(tǒng)--圖像識別模擬人的聽覺:計算機+聲音傳感器---語音識別模擬人的嗅覺和觸覺:計算機+傳感器模式識別是從模式到類別的映射2023年1月15日36信息與通信工程學院liugang@模式識別在智能信息處理中的地位2023年1月15日37信息與通信工程學院liugang@模式識別在信息處理中的地位2023年1月15日信息與通信工程學院liugang@382023年1月15日信息與通信工程學院liugang@38信息獲取通信信息處理信息施效通信模式識別的原理框圖2023年1月15日39信息與通信工程學院liugang@模式識別的原理4.2語音識別什么是語音識別語音識別是研究如何采用數(shù)字信號處理技術自動提取以及決定語音信號中最基本、最有意義的信息的一門新興的邊緣學科。分類語音識別(內容)特定人/非特定人,孤立詞/連續(xù)語音/關鍵詞識別說話人識別/聲紋語種識別/方言識別性別識別情緒識別,母語/非母語,發(fā)音評價,疾病診斷,說話時吃東西?2023年1月15日41信息與通信工程學院liugang@演示系統(tǒng)語音輸入法/語音搜索谷歌、百度、搜狗、訊飛、微信語音問答系統(tǒng)蘋果SIRI 計算機聲控系統(tǒng)2023年1月15日42信息與通信工程學院liugang@4.3音頻事件識別語音音頻音頻事件識別關鍵事件---安全監(jiān)控腳步聲,關門開門聲,槍聲,玻璃破碎聲,重物落地聲,語音等音頻場景分析/情境計算音視頻摘要、檢索2023年1月15日43信息與通信工程學院liugang@演示系統(tǒng)2023年1月15日信息與通信工程學院liugang@444.4圖像識別一、二維條碼識別簡單問題文字識別、指紋識別、虹膜識別、掌紋識別、人臉識別、車牌識別……物體識別2023年1月15日45信息與通信工程學院liugang@46字符識別脫機offlineOCR聯(lián)機online手寫輸入2023年1月15日信息與通信工程學院liugang@2023年1月15日47

遼C79388信息與通信工程學院liugang@人臉識別人臉識別是指通過人臉進行身份確認或者身份查找的技術人臉圖像采集人臉定位人臉識別預處理身份確認以及身份查找等;2023年1月15日48信息與通信工程學院liugang@49人臉檢測2023年1月15日信息與通信工程學院liugang@50人臉識別2023年1月15日信息與通信工程學院liugang@51指紋識別2023年1月15日信息與通信工程學院liugang@52虹膜識別2023年1月15日信息與通信工程學院liugang@生物特征識別生物特征識別:未來的身份驗證方法!生物:指紋、虹膜、人臉、掌紋、手形、視網膜、紅外溫譜行為:筆跡、步態(tài)、聲紋2023年1月15日53信息與通信工程學院liugang@手勢識別體態(tài)識別靜止運動步態(tài)識別2023年1月15日54信息與通信工程學院liugang@物體識別(圖像解析)2023年1月15日55信息與通信工程學院liugang@4.5多模態(tài)模式識別聽覺視覺雙模態(tài)語音識別視頻與聽覺語音聯(lián)合使用,提高識別率---多媒體融合2023年1月15日56信息與通信工程學院liugang@目錄概述多媒體信息采集多媒體通信/存儲多媒體信息識別多媒體信息檢索多媒體信息生成總結2023年1月15日57信息與通信工程學院liugang@5.多媒體信息檢索文本檢索語音檢索音頻檢索圖像檢索多媒體融合信息檢索2023年1月15日58信息與通信工程學院liugang@5.1文本檢索另外一講多媒體檢索與文本檢索的異同文本檢索是信息檢索的基礎多媒體檢索需要進行識別再進行檢索識別錯誤會產生影響2023年1月15日信息與通信工程學院liugang@595.2語音檢索查詢方式文本,語音檢索對象文本,語音2023年1月15日60信息與通信工程學院liugang@語音檢索演示語音檢索檢索對象:廣播新聞語音,如新聞聯(lián)播檢索輸入:文本2023年1月15日61信息與通信工程學院liugang@2023年1月15日信息與通信工程學院liugang@625.3音頻檢索基于樣例的音頻檢索哼唱檢索基于語義的音頻檢索音頻事件檢索音頻場景檢索2023年1月15日63信息與通信工程學院liugang@基于樣例的音頻檢索功能簡介通過音頻片斷(原始的音頻片段或者錄制的)搜索到整個音頻的完整信息2023年1月15日64信息與通信工程學院liugang@2023年1月15日信息與通信工程學院liugang@65基于樣例的音頻檢索哼唱檢索QBH(QueryByHumming)通過哼唱歌曲的某個片段來找到想要搜尋

的歌曲,是一種基于內容的音樂信息檢索方式。2023年1月15日66信息與通信工程學院liugang@2023年1月15日信息與通信工程學院liugang@67多媒體融合信息檢索

---以音樂檢索為例檢索輸入信息:歌名,歌手,歌詞,旋律,曲譜,流派,風格等形式:文本,語音,哼唱,音頻,圖像(曲譜)檢索對象(輸出)文本,語音,歌曲,圖像等技術文本檢索,語音檢索(語音識別),哼唱檢索,流派識別,樣例檢索,音頻屬性檢索,多媒體信息融合等2023年1月15日68信息與通信工程學院liugang@5.4圖像信息檢索圖片檢索(谷歌、百度圖片搜索)文本檢索圖片圖片檢索圖片基于圖像的商品檢索2023年1月15日69信息與通信工程學院liugang@基于3G手機的圖片檢索系統(tǒng)2023年1月15日70信息與通信工程學院liugang@目錄概述多媒體信息采集多媒體通信/存儲多媒體信息識別多媒體信息檢索多媒體信息生成總結2023年1月15日71信息與通信工程學院liugang@6.多媒體信息生成

---虛擬現(xiàn)實/增強現(xiàn)實多媒體信息的再生---轉換多媒體信息的合成---合成人臉表情合成語音合成聽覺場景生成視覺場景生成3D4D5D電影---全息。。。。。。2023年1月15日72信息與通信工程學院liugang@6.1語音合成(TTS)什么是TTSTextToSpeech讓機器開口說話評價指標可懂度、自然度2023年1月15日73信息與通信工程學院liugang@6.2人臉表情合成2023年1月15日74信息與通信工程學院liugang@6.2人臉表情合成2023年1月15日75信息與通信工程學院liugang@聽覺場景生成計算聽覺場景分析用計算機技術將人類聽覺對聲音的處理過程(聽覺場景分析)建模,使計算機具備從混合聲音中分離各物理聲源并作出合理解釋的能力。聽覺場景生成通過多揚聲器在新的聲學空間重現(xiàn)聲學場景環(huán)繞立體聲免提全息電話Bee游戲虛擬現(xiàn)實2023年1月15日76信息與通信工程學院liugang@視覺場景生成全息投影/景象往往包括音頻(即聽覺)3D4D5D電影---全息MicrosoftHoloLens

全息眼鏡MagicLeap2023年1月15日信息與通信工程學院liugang@773D,4D,5D電影3D立體效果的基礎上增加動感座椅,環(huán)境特效,5D電影院讓觀眾從聽覺、視覺、觸覺,這幾方面達到最強大的逼真感如同置身于影片中,通過環(huán)境模擬實現(xiàn)風、雨、電、煙、雪花、泡泡、火焰掃腿、捅背、震動、香煙等環(huán)境效果,順著影視內容變化可實時感受到置身“閃電、煙霧、雪花”中,在“火焰”前有灼熱感,海浪撲身時會“濕”了衣裳。體驗下墜、震動、刮風、下雨、掃腿等全新的真切感覺,對電影行業(yè)有一定的推動作用。2023年1月15日信息與通信工程學院liugang@78MicrosoftHoloLens

全息眼鏡Holograms借助頭戴設備HoloLen的幫助,讓用戶的眼前出現(xiàn)懸浮界面,以實際環(huán)境作為載體,實時處理、獲取虛擬信息:如在墻上查看消息、查找聯(lián)系人,在地上玩游戲、在客廳墻上直接進行Skype視頻通話、觀看球賽。2023年1月15日信息與通信工程學院liugang@792023年1月15日信息與通信工程學院liugang@80MagicLeap公司的3D裸眼技術2023年1月15日信息與通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論