下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
從隱空間認(rèn)識(shí)CLIP多模態(tài)模型
1前言
AIGC可生成的內(nèi)容形式包含文本(文句)、圖像、音頻和視頻。它能將文本中的語(yǔ)言符號(hào)信息或?qū)W問(wèn),與視覺(jué)中可視化的信息(或?qū)W問(wèn))建立出對(duì)應(yīng)的關(guān)聯(lián)。兩者相互加強(qiáng),形成圖文并茂的景象,激發(fā)人腦更多想象,擴(kuò)大人們的思維空間。其中,最基礎(chǔ)的就是文本(Text)與圖像(Image)之間的學(xué)問(wèn)關(guān)聯(lián)。本篇來(lái)介紹文本與圖像的關(guān)聯(lián),并以CLIP模型為例,深化介紹多模態(tài)AIGC模型的幕后架構(gòu),例如隱空間(Latentspace)就是其中的關(guān)鍵性機(jī)制。
2簡(jiǎn)介CLIP模型
在2022年,OpenAI團(tuán)隊(duì)提出了CLIP,它是典型的多模態(tài)(Multi-modal)機(jī)器學(xué)習(xí)模型。OpenAI從互聯(lián)網(wǎng)上找到大量的文本(Text)與圖像(Image)的配對(duì),可以用來(lái)訓(xùn)練CLIP模型,然后讓CLIP進(jìn)行其猜測(cè)任務(wù),即是輸入1張圖像,然后猜測(cè)出哪一個(gè)文本與它是配對(duì)的。
CLIP的目標(biāo)是透過(guò)大量圖片及文字描述,建立兩者間的對(duì)應(yīng)關(guān)系。其做法是利用ResNet50等來(lái)萃取圖像的特征,并映射到隱空間(Latentspace)。也就是將圖像編碼成為隱空間向量。
同時(shí),也利用Transformer萃取與圖像相配對(duì)文句的特征,并將文句編碼成為隱空間向量。最終經(jīng)由模型訓(xùn)練來(lái)漸漸提高兩個(gè)向量的相像度。換句話說(shuō),CLIP能將圖像和文句映像到同一個(gè)隱空間,因此可以快速計(jì)算圖像與文句的相像度。
CLIP模型學(xué)習(xí)整個(gè)文句與其對(duì)應(yīng)的圖像之間的關(guān)系。當(dāng)我們?cè)谡麄€(gè)文句上訓(xùn)練時(shí),模型可以學(xué)到更多的潛在的東西,并在圖像和文句之間找到一些規(guī)律。值得留意的是,在訓(xùn)練CLIP模型時(shí),我們輸入的是整個(gè)文句,而不是像貓、狗、汽車(chē)、電影等單一類別而已。
3CLIP的基本架構(gòu)
CLIP的核心設(shè)計(jì)概念是,把各文句和圖像映射到隱空間里的一個(gè)點(diǎn)(以向量表示)。針對(duì)每一個(gè)文句和圖像都會(huì)提取其特征,并映射到這個(gè)隱空間里的某一點(diǎn)。然后經(jīng)由矩陣運(yùn)算,來(lái)估量它們之間的相像度,如圖1。
在訓(xùn)練CLIP模型的過(guò)程中,會(huì)不斷調(diào)整各點(diǎn)的位置(在隱空間里),以表達(dá)出它們之間的相像度。CLIP在整合文句與圖像兩種模態(tài)上有突破性的表現(xiàn)。一旦訓(xùn)練完成之后,就可以對(duì)新圖像進(jìn)行猜測(cè)了,亦即猜測(cè)出一個(gè)文本與它是配對(duì)的。例如,輸入1張新圖像,經(jīng)由圖像編碼器(如ResNet50)來(lái)提取這張圖象的特征,然后映射到隱空間里的一個(gè)新的點(diǎn)。
然后經(jīng)由矩陣運(yùn)算,即可猜測(cè)出它與我們所給的一些文句的相像度,就可以得到猜測(cè)值了。此外,CLIP也能輸入描述文句來(lái)找到相對(duì)應(yīng)的圖像。
4圖解CLIP的空間對(duì)映
茲以中藥材的CLIP為例,例如有4張中藥材的圖像,以及其對(duì)應(yīng)的文句,或單詞(圖2)。
這里的文本與圖像之間的對(duì)應(yīng)關(guān)聯(lián),可以是人們賜予的,也可以是從互聯(lián)網(wǎng)頁(yè)的數(shù)據(jù)而得來(lái)的。那么CLIP模型就來(lái)建立這些關(guān)聯(lián)性。
在前面已經(jīng)說(shuō)明白,CLIP會(huì)利用ResNet50等模型來(lái)幫助提取各圖像的特征,并將各圖像(隨機(jī))對(duì)映到隱空間(即數(shù)學(xué)上歐式空間)的點(diǎn)。同時(shí),也使用Transformer模型來(lái)關(guān)心提取個(gè)文句的特征,并將各文本(隨機(jī))對(duì)映到隱空間的點(diǎn)(圖3)。
這就是空間對(duì)映(Spacemapping),意味著從可觀看空間(即上圖里的圖像和文句空間)對(duì)映到隱空間。
5綻開(kāi)訓(xùn)練
在進(jìn)行訓(xùn)練的過(guò)程中漸漸地修正CLIP模型里的參數(shù)(如weight和bias值),也就是漸漸地調(diào)整隱空間里各點(diǎn)的位置(坐標(biāo)),來(lái)呈現(xiàn)出這些點(diǎn)之間的相像性(Similarity)。例如,在隱空間里,我們可以讓愈相像的點(diǎn),會(huì)愈相互靠近(圖4)。
以上訓(xùn)練完成了。其智能表達(dá)于模型里的參數(shù)(如weight和bias)值里。雖然人們可以理解文本和圖像的涵意,但并無(wú)法理解模型里的參數(shù),以及所計(jì)算出的隱空間向量的涵意,所以才稱為隱蔽性空間,或稱黑箱(Block-box)。
6猜測(cè)范例1:從圖像找文本
在剛才的訓(xùn)練過(guò)程中,CLIP已經(jīng)持續(xù)調(diào)整各筆數(shù)據(jù)(如文本和圖像)的其隱空間里的位置(以隱空間向量表示),來(lái)表達(dá)其所蘊(yùn)含的關(guān)聯(lián)性。一旦訓(xùn)練完成了,就能進(jìn)入猜測(cè)或推理的階段了。
例如,拿來(lái)1張新圖像輸入給CLIP,它就(要求ResNet50等)來(lái)幫忙提取這新圖像的特征,并依據(jù)其所訓(xùn)練出來(lái)的參數(shù)(即weight和bias)值,而計(jì)算(對(duì)映)出這個(gè)新點(diǎn)在隱空間里的位置(圖5)。
由于這張新圖像的特征與左邊第3張(由上而下)圖像特征很接近,也就意味著這兩張圖象很相像,所以在潛藏空間里兩者會(huì)很靠近。如此,計(jì)算出這個(gè)新點(diǎn)與其他各點(diǎn)之相像度,然后挑出相像性最高的文本是:枸杞(圖6)。于是,就順當(dāng)完成從圖像關(guān)連到文本的任務(wù)了。
7猜測(cè)范例2:從文本找圖像
剛才的范例是:從圖找文。CLIP還可以供應(yīng):從文找圖。例如,拿來(lái)一個(gè)新文句輸入給CLIP,它就(要求Transformer等)來(lái)幫忙提取這新文句的特征,并依據(jù)其所訓(xùn)練出來(lái)的參數(shù)(即weight和bias)值,而計(jì)算(對(duì)映)出整潛藏空間里這個(gè)新點(diǎn)的位置。接著,計(jì)算出這點(diǎn)與其他各點(diǎn)之相像度,然后挑出相像性最高的圖像(圖7)。
由于CLIP幕后有Transformer預(yù)訓(xùn)練模型來(lái)幫忙,可以發(fā)覺(jué)”寧夏枸杞”與”銀川枸杞”兩個(gè)文本很
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度公司股權(quán)轉(zhuǎn)讓退股協(xié)議3篇
- 二零二五年度時(shí)尚博主與模特合作拍攝合同3篇
- 2025年度大型橋梁加固工程合同終止與監(jiān)測(cè)服務(wù)續(xù)約協(xié)議3篇
- 二零二五年度鄉(xiāng)村旅游用地流轉(zhuǎn)承包合同書(shū)3篇
- 2025年度消防安全設(shè)施運(yùn)行維護(hù)管理合同3篇
- 2025年度智能物流倉(cāng)儲(chǔ)合作全新簽約協(xié)議模板3篇
- 2025年度國(guó)有企業(yè)股權(quán)轉(zhuǎn)讓協(xié)議書(shū)3篇
- 二零二五年度現(xiàn)代農(nóng)業(yè)土地承包權(quán)流轉(zhuǎn)及項(xiàng)目合作協(xié)議3篇
- 二零二五年度職業(yè)體育團(tuán)隊(duì)兼職教練員聘用協(xié)議3篇
- 二零二五年度養(yǎng)殖場(chǎng)市場(chǎng)營(yíng)銷(xiāo)用工合同3篇
- 工程制圖復(fù)習(xí)題(帶答案)
- 風(fēng)管采購(gòu)安裝合同范例
- GB/T 21099.2-2024企業(yè)系統(tǒng)中的設(shè)備和集成過(guò)程控制用功能塊(FB)和電子設(shè)備描述語(yǔ)言(EDDL)第2部分:FB概念規(guī)范
- 期末模擬練習(xí)(試題)(含答案)-2024-2025學(xué)年三年級(jí)上冊(cè)數(shù)學(xué)西師大版
- 2024年黑龍江農(nóng)業(yè)工程職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)
- 企業(yè)法律顧問(wèn)詳細(xì)流程
- 云數(shù)據(jù)中心建設(shè)項(xiàng)目可行性研究報(bào)告
- 《新生兒視網(wǎng)膜動(dòng)靜脈管徑比的形態(tài)學(xué)分析及相關(guān)性研究》
- 無(wú)重大疾病隱瞞保證書(shū)
- 2024年春概率論與數(shù)理統(tǒng)計(jì)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 企業(yè)形象設(shè)計(jì)(CIS)戰(zhàn)略策劃及實(shí)施計(jì)劃書(shū)
評(píng)論
0/150
提交評(píng)論