




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、多模態(tài)深度學習作者:日期:Multi modal Deep Learni n g (多模態(tài)深度學習)未完待續(xù)原創(chuàng) 20 1 6 年 0 6 月 22 日 08:53:40摘要:本文提出一種在深度網絡上的新應用,用深度網絡學習多模態(tài)。特別的是,我們證明了 跨模態(tài)特征學習一一如果在特征學習過 程中多模態(tài)出現(xiàn)了,對于一個模態(tài)而言,更好的特征可以被學習(多模 態(tài)上學習,單模態(tài)上測試)。此外,我們展示了如何在多模態(tài)間學習 一個共享的特征,并在一個特別的任務上評估它一一分類器用只有 音頻的數據訓練但是在只有視頻的數據上測試(反之亦然)。我們的模型在CUAVE和A V Le t ter s數據集上進行視-聽
2、語音分類,證明 了它在視覺語音分類(在AVL e tters數據集上)和有效的共享特征 學習上是已發(fā)表中論文中最佳的。1 .介紹在語音識別中,人類通過合并語音-視覺信息來理解語音。視覺模態(tài)提供了發(fā)音地方和肌肉運動的信息,這些可以幫助消除相似語 音(如不發(fā)音的輔音)的歧義。多模態(tài)學習包括來自多源的相關信息。語音和視覺數據在語 音識別時在某個“中間層”是相關的,例如音位和視位;未加工的像素 是很難與語音波形或聲譜圖產生相關性的。在本文中,我們對“中間層”的關系感興趣,因此我們選擇使用 語音一視覺分類來驗證我們的模型。特別的是,我們關注用于語音 識別的學習特征,這個學習特征是和視覺中的唇形聯(lián)系在一起
3、的。全部任務可分為三部分一特征學習、有監(jiān)督訓練和測試。用 一個簡單的線性分類器進行有監(jiān)督訓練和測試,以檢查使用多模態(tài) 數據的不同的特征學習模型(eg:多模態(tài)融合、跨模態(tài)學習和共享特 征學習.)的有效性-我們考慮三個學習布置一一多模態(tài)融合、跨 模態(tài)學習和共享特征學習。(如圖1所示)多模態(tài)融合:數據來自所有模態(tài),用于所有 模態(tài)??缒B(tài)學習:數據來自所有模態(tài),但只在某模態(tài)可用。共享特 征學習:訓練和測試用的不同模態(tài)的數據。如果特征可以在跨不同 模態(tài)下捕獲相關性,這會允許我們進行評價。特別的是,學習這些 布置可以使我們評估學到的特征是否具有模態(tài)不變性。FeatureLearning這國 T«
4、tingLrainingAudioAudioAudioClassic Deep LearningVideoVideoVideoMultimodal FusionA +V A + V A +VCross ModalityLearningShared Rt? presentationLearningA + VVideoVideoA + VAudioAudioA + VAudioVideoA + VVideoAudioFigure 1: Multimodal Learning settings where A+V refers to Audio and Video.接下來,我們描述模型的構造塊。然后
5、,我們實現(xiàn)了不同的 使用深度學習的多模態(tài)學習模型,這些模型可以實現(xiàn)不同的多模態(tài)任 務。最后,我們展示實驗結果和總結。2 .背景深度學習的當前工作已經測試了 dee p sigmoidal net wo r ks是如何被訓練的,以產生有用的用于手寫數字識別和文本的特 征。當前工作的關鍵 在于使用RBMs (Res tri c ted Bol t zma n n Machines )微調的進行貪心的逐層訓練。我們使用一個擴展的 稀疏RBMs,它學習到的特征對于數字和自然的圖像來說是有意義 的特征。2 . 1 稀疏 RBMs為了正則化模型使其稀疏,我們讓每個隱藏層單元有一個使用 了正則化懲罰的預先期
6、望的激活函數,這個正則化懲罰的形式是 心(。-京江網”見其中3,.i是訓練集,決定了隱藏層單元激活函數的稀疏性(就是隱藏層單元激活函數是否被激活)。3 .學習結構這部分描述我們的模型,用它來完成語音-視頻二模態(tài)的特征 學習任務。輸入到模型里的語音和視頻是連續(xù)的音頻和視頻圖像。 為了推出我們的深度自編碼模型,我們先描述一些簡單的模型以及他 們的缺點。(下面的都是預訓練模型)1. RBM模型。用其分別訓練語音和視頻,學習RBM之后,在 v固定時得到的隱藏層值可以作為數據的一個新特征。我們將這個模 型作為基準來比較我們的多模態(tài)模型的結果,也可以將其用來預訓練 我們的深度網絡。(a) Audio RB
7、M(b) Video RBM?II.為了訓練多模態(tài)模型,一個直接的方法是訓練一個把語音 和視頻數據連接在一起的RBM。雖然這個模型聯(lián)合了語音和視頻數 據的分布,但它仍是一個淺層模型。語音和視頻數據之間的關聯(lián)是 高度非線性的,RBM很難學習這些相關性形成多模態(tài)特征。事實上, 我們發(fā)現(xiàn)在隱藏層單元學習到的淺層的二模態(tài)RB M結果與單模態(tài)下的值有很強的關聯(lián),但與跨模態(tài)下的值就沒有。Shaiedoooo oooolOO ,* 0 0:00ooL一”一.一j.i.一一一一.一 Audio Input Video Input(c) Shallow Bimodal RBMI I I.因此,我們考慮在每個模態(tài)
8、的預訓練層貪婪的訓練一個R 1 7BM,前面("八 "J J "5)的第一層的隱藏值作為新層的訓練數據。通過學習到的第一層特征來表示數據 可以更容易的讓模型來學習跨模態(tài)的高階相關性。通俗的來說,第 一層特征相當于音位和視位,第二層模型化了他們之間的關系。Deep Hidden Layer f o o * * * 、/ 廠o o , o c o c , o ":卜 i。o o f 。o , o Audio InputVideo Input(d) Bimadal DBN然而,上述的多模態(tài)模型還有兩個問題。第一,沒有明確的目標提供給模型去發(fā)現(xiàn)跨模態(tài)間的相關性;
9、一些隱藏層單元只針對語 音調整參數,另一些只針對視頻調整參數,這樣模型才有可能找到想 要的特征。第二,在跨模態(tài)學習布置中只有一個模態(tài)用于監(jiān)督訓練和 測試,這樣的模型顯得很笨拙。只有一個模態(tài)呈現(xiàn),就要整合沒有觀察到的可見變量來推理。因此,我們提出解決以上問題的深度自編碼模型。我們首先考 慮跨模態(tài)學習布置:特征學習過程中兩個模態(tài)都呈現(xiàn)了 ,但只有一個 模態(tài)用于有監(jiān)督訓練和測試。當只給視頻數據時,深度自編碼模型 用于訓練重建語音和視頻模態(tài)(圖 3a)。我們用二模態(tài)的DBN (D eep belie fnet work)權重(圖2d )去初始化深度自編碼模型。中間層可以作為新特征表示來用。這個模型可以
10、看做多任務學習的 一個實例。Audio R電un*tru匚tionVideo Ree口口與trudi0nVideo Reconmctinn00 0000 00,0 0 , * 0 0 I.0。00 0 0至:函黑皿畫 Shared0 0 , ,' : R叩g即htion0 0 1 0 000 00Video Inputaj Vitlt'u-Only Ikwp AutoencoderAudio InputVideo Input(b) Bimodal Deep AutoencoderFigure F Deep Autoencoder Models, A video-onl/* mo
11、del is shown in (a) where the model laanis to rGconstruct both moduli tits given only video as the input. A sintilai model can be druHii for the Tandio-only'' Atting. We tmiu the (b) bimodyl deep auto£incodcr in a dcnoishig fashion, using an augmented dataset with examples that require
12、the network to reconstruct both modalities given only one. Both models are pre-trained using sparse RBXIs (Figure 2d). Since we use a sigmoid transfer function in the deep Mtwoik we can initialize the network using the conditional probability distributions p(h|vl and p(v|h) of the learned RBM.我們在布置中
13、使用圖3a模型。另一方面,當多模態(tài)適合任務時,并不清楚如何使用模型針對每個模態(tài)進行深度自編碼訓練。一個直 接的方法是訓練解碼權重t ied (這個我也不知道怎么理解)的網絡。但是,這樣的方法擴展性不是很好一一如果在測試時我們允許任意 模態(tài)相結合形成特征,我們將需要訓練指數級數量的模型。受到降噪自編碼模型的啟發(fā),我們提出訓練 二模態(tài)深度自編碼模型(3b),它使用了一個擴充(對單模態(tài)輸入的擴充)但是有噪聲的 數據集。實際上,我們擴充時一個模態(tài)用全零作為輸入,另一個模態(tài) 用原始值作為輸入,但是依舊要求模型重建這兩個模態(tài)。因此 ,三分 之一的訓練數據只有視頻作為輸入,三分之一的訓練數據只有語音作 為輸
14、入,最后三分之一既有視頻又有語言由于使用了稀疏RBM s進行的初始化,我們發(fā)現(xiàn)就算深度 自編碼訓練之后,隱藏層單元還是有低期望激活函數。因此,當一 個輸入模態(tài)全設為零,第一層特征也接近于零。所以,我們本質上訓 練了一個模態(tài)特別的深度自編碼網絡(3 a)。當某個模態(tài)輸入缺失 時,這個模型仍是魯棒的。4.實驗和結果我們用分離字母和數字的語音-視頻分類來評估我們的模 型。稀疏參數p采用交叉核實來選擇,即其它所有參數都保持固定(包 括隱藏層大小和權重調整)。4.1 數據預處理我們用時間導數的譜來表現(xiàn)語音信號,采用PC A白化(就是歸 一化)將4 8 3維減少到10 0維。對于視頻,我們預處理它以便于只提取 嘴部的ROI (感興趣區(qū) 域)。每個嘴部ROI都縮放到60*80,進一步使用PCA白化減少到 32維。我們用4幀連續(xù)視頻作為輸入,這近似于10幀連續(xù)的語音。 對每個模態(tài),我們都在時間上進行特征均值歸一化,類似于去除直流 分量。我們也注意到在特征里增加時間導數,這種用法在文獻里有 很多,它有助于模擬不斷變化的語音信息。時間導數用歸一化線性 斜率計算,所以導數特征的動態(tài)范圍可以和原始信號媲美。4 .2數據集和任務我們保證沒有測試集數據用于無監(jiān)督特征學習。所有的深度 自編碼模型都用全部無標
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 杭州河道護坡施工方案
- 土方開挖階段施工方案
- 水工程施工方案
- 平整小院地面施工方案
- 屋頂粉刷砂漿施工方案
- 水泵安裝施工方案
- TSHZJRXH 001-2024 石河子自助銀行建設規(guī)范
- 二零二五年度退房流程規(guī)范合同
- 二零二五年度未成年人特殊監(jiān)護協(xié)議書
- 二零二五年度鋼琴考級輔導班報名合同書
- 醫(yī)院設施日常巡查管理制度
- 2025年太倉市文化旅游發(fā)展集團限公司及子公司公開招聘12名高頻重點提升(共500題)附帶答案詳解
- 機械制圖題庫及答案
- 安裝承包合同(2025年)
- 云上貴州大數據(集團)有限公司招聘筆試沖刺題2024
- 人教版四年級下冊數學第二單元觀察物體(二) 單元測試
- 建筑工程公司績效考核制度范本
- 保育員與教師協(xié)作配合的技巧與案例
- 2024-2030年中國實驗室家具行業(yè)發(fā)展規(guī)劃及投資前景預測報告版
- 綠色金融案例分析
- 【MOOC】運動安全與健康-浙江大學 中國大學慕課MOOC答案
評論
0/150
提交評論