從隱空間認(rèn)識CLIP多模態(tài)模型

上傳人：f*** IP屬地：山東上傳時(shí)間：2023-06-26 格式：DOCX 頁數(shù)：5 大?。?7.93KB 積分：15 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

從隱空間認(rèn)識CLIP多模態(tài)模型

1前言

AIGC可生成的內(nèi)容形式包含文本（文句）、圖像、音頻和視頻。它能將文本中的語言符號信息或?qū)W問，與視覺中可視化的信息（或?qū)W問）建立出對應(yīng)的關(guān)聯(lián)。兩者相互加強(qiáng)，形成圖文并茂的景象，激發(fā)人腦更多想象，擴(kuò)大人們的思維空間。其中，最基礎(chǔ)的就是文本（Text）與圖像（Image）之間的學(xué)問關(guān)聯(lián)。本篇來介紹文本與圖像的關(guān)聯(lián)，并以CLIP模型為例，深化介紹多模態(tài)AIGC模型的幕后架構(gòu)，例如隱空間（Latentspace）就是其中的關(guān)鍵性機(jī)制。

2簡介CLIP模型

在2022年，OpenAI團(tuán)隊(duì)提出了CLIP，它是典型的多模態(tài)（Multi-modal）機(jī)器學(xué)習(xí)模型。OpenAI從互聯(lián)網(wǎng)上找到大量的文本（Text）與圖像（Image）的配對，可以用來訓(xùn)練CLIP模型，然后讓CLIP進(jìn)行其猜測任務(wù)，即是輸入1張圖像，然后猜測出哪一個(gè)文本與它是配對的。

CLIP的目標(biāo)是透過大量圖片及文字描述，建立兩者間的對應(yīng)關(guān)系。其做法是利用ResNet50等來萃取圖像的特征，并映射到隱空間（Latentspace）。也就是將圖像編碼成為隱空間向量。

同時(shí)，也利用Transformer萃取與圖像相配對文句的特征，并將文句編碼成為隱空間向量。最終經(jīng)由模型訓(xùn)練來漸漸提高兩個(gè)向量的相像度。換句話說，CLIP能將圖像和文句映像到同一個(gè)隱空間，因此可以快速計(jì)算圖像與文句的相像度。

CLIP模型學(xué)習(xí)整個(gè)文句與其對應(yīng)的圖像之間的關(guān)系。當(dāng)我們在整個(gè)文句上訓(xùn)練時(shí)，模型可以學(xué)到更多的潛在的東西，并在圖像和文句之間找到一些規(guī)律。值得留意的是，在訓(xùn)練CLIP模型時(shí)，我們輸入的是整個(gè)文句，而不是像貓、狗、汽車、電影等單一類別而已。

3CLIP的基本架構(gòu)

CLIP的核心設(shè)計(jì)概念是，把各文句和圖像映射到隱空間里的一個(gè)點(diǎn)（以向量表示）。針對每一個(gè)文句和圖像都會提取其特征，并映射到這個(gè)隱空間里的某一點(diǎn)。然后經(jīng)由矩陣運(yùn)算，來估量它們之間的相像度，如圖1。

在訓(xùn)練CLIP模型的過程中，會不斷調(diào)整各點(diǎn)的位置（在隱空間里），以表達(dá)出它們之間的相像度。CLIP在整合文句與圖像兩種模態(tài)上有突破性的表現(xiàn)。一旦訓(xùn)練完成之后，就可以對新圖像進(jìn)行猜測了，亦即猜測出一個(gè)文本與它是配對的。例如，輸入1張新圖像，經(jīng)由圖像編碼器（如ResNet50）來提取這張圖象的特征，然后映射到隱空間里的一個(gè)新的點(diǎn)。

然后經(jīng)由矩陣運(yùn)算，即可猜測出它與我們所給的一些文句的相像度，就可以得到猜測值了。此外，CLIP也能輸入描述文句來找到相對應(yīng)的圖像。

4圖解CLIP的空間對映

茲以中藥材的CLIP為例，例如有4張中藥材的圖像，以及其對應(yīng)的文句，或單詞（圖2）。

這里的文本與圖像之間的對應(yīng)關(guān)聯(lián)，可以是人們賜予的，也可以是從互聯(lián)網(wǎng)頁的數(shù)據(jù)而得來的。那么CLIP模型就來建立這些關(guān)聯(lián)性。

在前面已經(jīng)說明白，CLIP會利用ResNet50等模型來幫助提取各圖像的特征，并將各圖像（隨機(jī)）對映到隱空間（即數(shù)學(xué)上歐式空間）的點(diǎn)。同時(shí)，也使用Transformer模型來關(guān)心提取個(gè)文句的特征，并將各文本（隨機(jī)）對映到隱空間的點(diǎn)（圖3）。

這就是空間對映（Spacemapping），意味著從可觀看空間（即上圖里的圖像和文句空間）對映到隱空間。

5綻開訓(xùn)練

在進(jìn)行訓(xùn)練的過程中漸漸地修正CLIP模型里的參數(shù)（如weight和bias值），也就是漸漸地調(diào)整隱空間里各點(diǎn)的位置（坐標(biāo)），來呈現(xiàn)出這些點(diǎn)之間的相像性（Similarity）。例如，在隱空間里，我們可以讓愈相像的點(diǎn)，會愈相互靠近（圖4）。

以上訓(xùn)練完成了。其智能表達(dá)于模型里的參數(shù)（如weight和bias）值里。雖然人們可以理解文本和圖像的涵意，但并無法理解模型里的參數(shù)，以及所計(jì)算出的隱空間向量的涵意，所以才稱為隱蔽性空間，或稱黑箱（Block-box）。

6猜測范例1：從圖像找文本

在剛才的訓(xùn)練過程中，CLIP已經(jīng)持續(xù)調(diào)整各筆數(shù)據(jù)（如文本和圖像）的其隱空間里的位置（以隱空間向量表示），來表達(dá)其所蘊(yùn)含的關(guān)聯(lián)性。一旦訓(xùn)練完成了，就能進(jìn)入猜測或推理的階段了。

例如，拿來1張新圖像輸入給CLIP，它就（要求ResNet50等）來幫忙提取這新圖像的特征，并依據(jù)其所訓(xùn)練出來的參數(shù)（即weight和bias）值，而計(jì)算（對映）出這個(gè)新點(diǎn)在隱空間里的位置（圖5）。

由于這張新圖像的特征與左邊第3張（由上而下）圖像特征很接近，也就意味著這兩張圖象很相像，所以在潛藏空間里兩者會很靠近。如此，計(jì)算出這個(gè)新點(diǎn)與其他各點(diǎn)之相像度，然后挑出相像性最高的文本是：枸杞（圖6）。于是，就順當(dāng)完成從圖像關(guān)連到文本的任務(wù)了。

7猜測范例2：從文本找圖像

剛才的范例是：從圖找文。CLIP還可以供應(yīng)：從文找圖。例如，拿來一個(gè)新文句輸入給CLIP，它就（要求Transformer等）來幫忙提取這新文句的特征，并依據(jù)其所訓(xùn)練出來的參數(shù)（即weight和bias）值，而計(jì)算（對映）出整潛藏空間里這個(gè)新點(diǎn)的位置。接著，計(jì)算出這點(diǎn)與其他各點(diǎn)之相像度，然后挑出相像性最高的圖像（圖7）。

由于CLIP幕后有Transformer預(yù)訓(xùn)練模型來幫忙，可以發(fā)覺”寧夏枸杞”與”銀川枸杞”兩個(gè)文本很

人人文庫> 全部分類> 生活休閑 > 科普知識

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

從隱空間認(rèn)識CLIP多模態(tài)模型

文檔簡介

溫馨提示

最新文檔

評論

從隱空間認(rèn)識CLIP多模態(tài)模型

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔