《人工智能技術(shù)基礎(chǔ)》課件 第9章 生成式人工智能模型_第1頁
《人工智能技術(shù)基礎(chǔ)》課件 第9章 生成式人工智能模型_第2頁
《人工智能技術(shù)基礎(chǔ)》課件 第9章 生成式人工智能模型_第3頁
《人工智能技術(shù)基礎(chǔ)》課件 第9章 生成式人工智能模型_第4頁
《人工智能技術(shù)基礎(chǔ)》課件 第9章 生成式人工智能模型_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能技術(shù)基礎(chǔ)生成式人工智能模型第九章

生成式人工智能模型(AIGeneratedContent)是基于統(tǒng)計(jì)學(xué)習(xí)算法和深度神經(jīng)網(wǎng)絡(luò)的人工智能模型,能夠從數(shù)據(jù)中學(xué)習(xí)并生成新的、與原始數(shù)據(jù)類似或不同的數(shù)據(jù)。生成式人工智能模型的目標(biāo)是通過生成數(shù)據(jù)來模仿人類創(chuàng)作的過程。AIGC目前已經(jīng)在許多領(lǐng)域得到了廣泛的應(yīng)用,如自然語言處理(NLP)、圖像生成、音頻合成、視頻生成等。

本章重點(diǎn)闡述幾種經(jīng)典生成模型的工作原理與應(yīng)用,包括VAE、GAN以及流模型,特別是目前AICG的主流模型——擴(kuò)散模型與穩(wěn)定擴(kuò)散模型。9生成式人工智能模型簡(jiǎn)介目錄Contents9.1變分自編碼器(VAE)生成對(duì)抗網(wǎng)絡(luò)(GAN)流模型(Flow-basedModel)擴(kuò)散模型(DiffusionModel)穩(wěn)定擴(kuò)散模型(StableDiffusionModel)本章小結(jié)9.29.39.49.59.601變分自編碼器9.1變分自編碼器9.1.1原理概念變分自編碼器VAE是一種對(duì)自編碼網(wǎng)絡(luò)改進(jìn)的生成模型,其基本結(jié)構(gòu)由編碼器(Encoder)與譯碼器(Decoder)組成。編碼器將輸入編碼為低維數(shù)據(jù),即將數(shù)據(jù)“壓縮”或者轉(zhuǎn)換為一種低維的編碼特征,實(shí)現(xiàn)降維與壓縮,建立一種高維形象數(shù)據(jù)與低維度抽象特征碼的對(duì)應(yīng)關(guān)系。譯碼器則是從特征碼空間重構(gòu)出等同于輸入數(shù)據(jù)的形象數(shù)據(jù),建立了一種低維度特征碼與高維度形象數(shù)據(jù)的映射關(guān)系。由于采用了無監(jiān)督的訓(xùn)練方式,這種結(jié)構(gòu)也稱為自編碼器。編碼器-譯碼器基于訓(xùn)練數(shù)據(jù)所產(chǎn)生的特征碼空間與訓(xùn)練數(shù)據(jù)樣本一一對(duì)應(yīng),沒有訓(xùn)練的數(shù)據(jù)則無法從特征碼空間生成。9.1變分自編碼器9.1.1原理概念變分自編碼器(VariationalAutoencoder)不再像自編碼器那樣對(duì)訓(xùn)練數(shù)據(jù)一一編碼,而是利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練出一組以均值和方差為輸出參數(shù)的混合高斯模型,以該模型作為隱變量,譯碼器從混合高斯模型中采樣重構(gòu)出高維形象數(shù)據(jù),由于高斯混合模型是一種連續(xù)分布,在添加擾動(dòng)基礎(chǔ)上將產(chǎn)生出相似于訓(xùn)練數(shù)據(jù)的新數(shù)據(jù),從而實(shí)現(xiàn)了生成功能。樣本空間中的每個(gè)樣本通過神經(jīng)網(wǎng)絡(luò)編碼器產(chǎn)生一個(gè)對(duì)應(yīng)的高斯分布,如A,B,C,用均值與方差表示,從而整體形成混合高斯模型。譯碼器工作時(shí),則是從混合高斯模型分布中進(jìn)行采樣,進(jìn)而生成與樣本相似但又不同的新數(shù)據(jù)。9.1變分自編碼器9.1.2訓(xùn)練方法VAE的訓(xùn)練方式屬于沒有標(biāo)簽的無監(jiān)督訓(xùn)練方式,即輸入數(shù)據(jù)和輸出數(shù)據(jù)均是一樣的樣本,旨在通過自編碼的方式,訓(xùn)練出隱空間編碼,進(jìn)行生成工作時(shí),直接從隱空間編碼中采樣即可。由VAE模型生成的人臉圖像混合概率密度函數(shù):損失函數(shù):02生成對(duì)抗網(wǎng)絡(luò)9.2生成對(duì)抗網(wǎng)絡(luò)生成對(duì)抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GAN)是一種生成式模型,目的是生成與源數(shù)據(jù)分布類似的數(shù)據(jù),簡(jiǎn)單來說就是“照貓畫虎”的過程。生成對(duì)抗網(wǎng)絡(luò)由一個(gè)生成器與一個(gè)判別器組成。生成器學(xué)習(xí)從潛在空間到感興趣數(shù)據(jù)分布的映射,判別器則將生成器生成的候選者與真實(shí)數(shù)據(jù)分布區(qū)分開來,而生成器則要盡可能地欺騙判別器。生成器和判別器相互對(duì)抗、不斷調(diào)整參數(shù),最終目的是使判別器無法判斷生成器輸出結(jié)果的真假。9.2生成對(duì)抗網(wǎng)絡(luò)假設(shè)需要生成器能夠生成一個(gè)老虎的圖像,那么訓(xùn)練集將設(shè)定為一系列的老虎圖像。開始時(shí)生成器從噪聲中也許能生成出一只狗的圖像,判別器給出的狗與虎的相似度很小,進(jìn)而反饋回生成器以調(diào)整生成器的參數(shù),若干次循環(huán)后,生成器從生成狗的圖像逐漸能夠生成出一只貓之后,判別器無法從顏色外形等簡(jiǎn)單特征中分辨出貓和虎的區(qū)別,則對(duì)自身進(jìn)行參數(shù)修正,以學(xué)習(xí)虎的紋理細(xì)節(jié)以判斷貓和虎的區(qū)別,進(jìn)而在兩者參數(shù)不斷更新且相互博弈對(duì)抗中使生成器逐漸生成出與訓(xùn)練集相似的圖像,以達(dá)到最終實(shí)現(xiàn)生成的目的。生成對(duì)抗網(wǎng)絡(luò)GAN的結(jié)構(gòu)圖

生成對(duì)抗網(wǎng)絡(luò)GAN的結(jié)構(gòu)主要由兩部分組成,以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的生成器與判別器。

生成器從噪聲中生成感興趣的欲生成的內(nèi)容,判別器將訓(xùn)練數(shù)據(jù)與生成的結(jié)果進(jìn)行判別。生成器根據(jù)判別器的結(jié)果進(jìn)行調(diào)整,判別器根據(jù)訓(xùn)練數(shù)據(jù)與生成結(jié)果進(jìn)行調(diào)整。兩者相互成就。9.2.1基本原理9.2生成對(duì)抗網(wǎng)絡(luò)基于MLP與CNN的GAN結(jié)構(gòu)生成對(duì)抗網(wǎng)絡(luò)是一種對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練思路,具體的網(wǎng)絡(luò)結(jié)構(gòu)可由各種神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)。如多層感知機(jī)MLP,以及卷積神經(jīng)網(wǎng)絡(luò)CNN等。左圖給出了一種可選的網(wǎng)絡(luò)結(jié)構(gòu)。9.2.2實(shí)現(xiàn)GAN網(wǎng)絡(luò)的基本結(jié)構(gòu)LSGANMLP等傳統(tǒng)GAN結(jié)構(gòu)在訓(xùn)練過程中經(jīng)常出現(xiàn)梯度消失問題。為了克服這個(gè)問題,采用最小二乘的損失來緩解LSGAN。從平方誤差的角度出發(fā),判別器對(duì)生成樣本和真實(shí)樣本進(jìn)行編碼,分別為a和b,生成器將生成樣本編碼為c并以此對(duì)判別器進(jìn)行欺騙,進(jìn)而目標(biāo)函數(shù)可表達(dá)為:EBGANEBGAN是一種將能量模型應(yīng)用到GAN網(wǎng)絡(luò)的成功案例,判別器取代概率形式而作為能量函數(shù)(或?qū)Ρ群瘮?shù))明確地構(gòu)建了EBGAN框架。WGAN模式崩潰在GAN生成器訓(xùn)練時(shí)經(jīng)常發(fā)生,即生成器只能產(chǎn)生非常相似的樣本,可以用Wasserstein距離解決上述問題。Wasserstein距離能使兩個(gè)分布沒有任何重疊或相距甚遠(yuǎn)時(shí),也可以反應(yīng)他們之間的距離。9.2生成對(duì)抗網(wǎng)絡(luò)Mode分?jǐn)?shù)Mode分?jǐn)?shù)是Inception分?jǐn)?shù)的改進(jìn),添加了關(guān)于生成樣本和真實(shí)樣本預(yù)測(cè)的概率分布相似性度量。為在給定真實(shí)樣本下邊緣標(biāo)注分布在真實(shí)數(shù)據(jù)分布上的積分。與Inception分?jǐn)?shù)不同,它能通過散度度量真實(shí)分布與生成分布之間的差異。9.2.3GAN訓(xùn)練中的生成與訓(xùn)練集之間的相似評(píng)價(jià)方法Inception分?jǐn)?shù)對(duì)于一個(gè)在ImageNet訓(xùn)練良好的GAN,其生成的樣本送入Inception網(wǎng)絡(luò)測(cè)試時(shí),對(duì)于同一個(gè)類別的圖片,其輸出的概率分布應(yīng)該趨向于一個(gè)脈沖分布,以保證生成樣本的準(zhǔn)確性;而對(duì)于所有類別,其輸出的概率分布應(yīng)該趨向于一個(gè)均勻分布,保證生成樣本的多樣性,不出現(xiàn)模式崩潰的問題。核最大均值差異對(duì)于核最大均值值的計(jì)算,首先需要選擇一個(gè)核函數(shù)k,這個(gè)核函數(shù)把樣本映射到再生希爾伯特空間。在給定一些固定的核函數(shù)k下,它度量了真實(shí)分布與生成分布之間的差異。Wasserstein距離也叫推土機(jī)距離,Wasserstein距離度量實(shí)際的有限樣本逼近以衡量?jī)蓚€(gè)分布之間的相似性,當(dāng)選擇了合適的特征空間,評(píng)估度量效果較好,但是計(jì)算復(fù)雜度隨著樣本數(shù)量的增加而增高。GAN網(wǎng)絡(luò)在訓(xùn)練中需要對(duì)生成數(shù)據(jù)與訓(xùn)練數(shù)據(jù)之間的相似度進(jìn)行評(píng)價(jià),評(píng)價(jià)指標(biāo)大多數(shù)基于樣本進(jìn)評(píng)估,這些度量方法均是對(duì)生成樣本與真實(shí)樣本提取特征,然后在特征空間做距離度量。常見度量方法介紹如下:FréchetInception距離FID是計(jì)算真實(shí)樣本和生成樣本在特征空間之間的距離來進(jìn)行評(píng)估的。根據(jù)高斯模型的均值和協(xié)方差來計(jì)算兩個(gè)高斯分布的Fréchet距離。魯棒性較好,計(jì)算效率高效。1-NN分類器采用最近鄰分類器對(duì)樣本檢驗(yàn)以評(píng)估兩個(gè)分布是否相同。給定兩組樣本,如果二者接近,則精度接近50%,否則接近0%。對(duì)于GAN的評(píng)價(jià)問題,可分別用正樣本的分類精度,生成樣本的分類精度去衡量生成樣本的真實(shí)性和多樣性。03流模型9.3流模型GAN網(wǎng)絡(luò)在訓(xùn)練時(shí)容易出現(xiàn)模式坍塌或訓(xùn)練困難的局面,雖然VAE一定程度上解決了GAN網(wǎng)絡(luò)訓(xùn)練不收斂、采樣生成數(shù)據(jù)簡(jiǎn)單等問題,然而VAE模型只能通過優(yōu)化下邊界函數(shù)問題,存在計(jì)算復(fù)雜、訓(xùn)練時(shí)間長(zhǎng)等問題。流模型(Flow-basedModel)是一種不同于上述兩種模型的新思路。其核心思想是將復(fù)雜分布數(shù)據(jù)多次轉(zhuǎn)化生成簡(jiǎn)單數(shù)據(jù)分布,利用轉(zhuǎn)化的可逆性,實(shí)現(xiàn)將簡(jiǎn)單數(shù)據(jù)逐步生成出相同風(fēng)格的復(fù)雜分布數(shù)據(jù),以達(dá)到數(shù)據(jù)生成的目的。9.3流模型9.3.1流模型工作原理流模型基于一系列具有可逆雙向變換的函數(shù),建立起一種先驗(yàn)分布與實(shí)際數(shù)據(jù)分布間的映射關(guān)系,其中先驗(yàn)分布較為簡(jiǎn)單,而實(shí)際數(shù)據(jù)分布較為復(fù)雜。根據(jù)概率密度的變量替換公式,不需要顯式地計(jì)算實(shí)際數(shù)據(jù)分布的概率密度函數(shù),而是通過先驗(yàn)分布的概率密度以及映射過程產(chǎn)生的Jacobian行列式計(jì)算即可。通過復(fù)合多個(gè)可逆函數(shù)以增強(qiáng)模型復(fù)雜度以及非線性擬合能力。

流模型中,尋找或給定一種已知的可逆變換f,將給定復(fù)雜分布數(shù)據(jù)(如訓(xùn)練集數(shù)據(jù))轉(zhuǎn)化為簡(jiǎn)單數(shù)據(jù)分布,從而實(shí)現(xiàn)給定隨機(jī)簡(jiǎn)單分布后生成特定復(fù)雜數(shù)據(jù)。流模型的轉(zhuǎn)化過程可通過如下式進(jìn)行表示其中,欲生成的復(fù)雜數(shù)據(jù)x的分布函數(shù)px(x)可以由f(x)的分布通過某種對(duì)f(x)轉(zhuǎn)化來表達(dá),其中detDf(x)為函數(shù)f(x)的Jacobian矩陣行列式的值,f(x)為可逆函數(shù)。因此,復(fù)雜的生成問題轉(zhuǎn)化為復(fù)雜的變換問題。然而該方法中一個(gè)較為苛刻的條件是需要一個(gè)可逆的轉(zhuǎn)化函數(shù)。非線性流模型非線性流模型相對(duì)于線性流模型,具有更強(qiáng)的表達(dá)能力和更靈活的變換形式。非線性流模型的變換通常采用復(fù)雜的非線性函數(shù),如神經(jīng)網(wǎng)絡(luò)。非線性流模型的參數(shù)學(xué)習(xí)通常采用變分自編碼器(VAE)或類似的方法。9.3.2流模型的常見分類方法線性流模型線性流模型是最簡(jiǎn)單的一種流模型,將生成過程拆分為一系列線性變換。在每個(gè)步驟中,輸入變量與一個(gè)可學(xué)習(xí)的權(quán)重矩陣進(jìn)行乘法操作,然后將結(jié)果加上一個(gè)可學(xué)習(xí)的偏置向量。線性流模型的參數(shù)可以通過最大似然估計(jì)進(jìn)行學(xué)習(xí),通過反向傳播算法進(jìn)行優(yōu)化。潛在流模型潛在流模型是一種基于潛變量(LatentVariables)的流模型,它通過對(duì)輸入數(shù)據(jù)進(jìn)行潛變量變換,使得潛變量與輸入數(shù)據(jù)具有相同的統(tǒng)計(jì)性質(zhì)。潛在流模型通常采用層次結(jié)構(gòu)來建模潛變量與輸入數(shù)據(jù)之間的關(guān)系,從而實(shí)現(xiàn)更靈活的生成過程。潛在流模型的學(xué)習(xí)和優(yōu)化通常采用基于似然的推理方法進(jìn)行。能量守恒流模型是一種基于能量函數(shù)的流模型,它將生成過程看作是從一個(gè)初始分布向目標(biāo)分布轉(zhuǎn)移的過程。能量守恒流模型的參數(shù)學(xué)習(xí)是通過最小化生成數(shù)據(jù)與真實(shí)數(shù)據(jù)之間的能量差異來實(shí)現(xiàn)的。根據(jù)流模型中轉(zhuǎn)化函數(shù)f的設(shè)計(jì),流模型通常分為線性流模型(LinearFlow-basedModel)、非線性流模型(NonlinearFlow-basedModel)、潛在流模型(LatentFlowModel)以及能量守恒流模型(Energy-basedFlowModel):9.3流模型9.3.3流模型的常見分類方法9.3流模型逐函數(shù)流模型即對(duì)每步的轉(zhuǎn)換均設(shè)計(jì)轉(zhuǎn)換方法,即f1、f2、...、fn-1、fn分別采用不同函數(shù)完成,然而這樣將操作無法將復(fù)雜采樣數(shù)據(jù)特征聯(lián)系在一起,且難以制作太多步驟,計(jì)算十分繁瑣,訓(xùn)練也存在困難。線性函數(shù)流模型轉(zhuǎn)換函數(shù)采用線性函數(shù):耦合流模型考慮到計(jì)算量的問題以及計(jì)算復(fù)雜性問題,可以考慮將訓(xùn)練數(shù)據(jù)進(jìn)行拆分自回歸流模型自回歸意味著新數(shù)據(jù)的預(yù)測(cè)是基于模型過去的數(shù)據(jù)來進(jìn)行的,如果設(shè)某圖像數(shù)據(jù)的概率分布為p(x),是像素的聯(lián)合概率分布

,當(dāng)前像素的預(yù)測(cè)是以前一像素為條件預(yù)測(cè),因此設(shè)計(jì)進(jìn)而像素的聯(lián)合概率近似為條件概率的乘積如下:04擴(kuò)散模型9.4擴(kuò)散模型擴(kuò)散模型(DiffusionModel)是2020年提出的一種生成模型,但其處理問題的思路可追溯至2015年,所涉及理論為隨機(jī)過程與隨機(jī)微分方程。擴(kuò)散模型借鑒了分子隨機(jī)運(yùn)動(dòng)的現(xiàn)象,在微觀上每個(gè)分子的運(yùn)動(dòng)為布朗運(yùn)動(dòng),但通過能量調(diào)控能使其在宏觀上展現(xiàn)出不同的特征。我們無法直接調(diào)控每個(gè)分子團(tuán)的運(yùn)動(dòng)方式,但能夠得知其無規(guī)則運(yùn)動(dòng)服從的分布。通過外力作用,每次改變一小步,逐步將完全隨機(jī)運(yùn)動(dòng)的分子團(tuán)約束在特定狀態(tài)下,完成“生成”過程。9.4擴(kuò)散模型9.4.1去噪擴(kuò)散概率模型DDPM擴(kuò)散模型是一種基于神經(jīng)網(wǎng)絡(luò)的生成模型,經(jīng)過樣本數(shù)據(jù)訓(xùn)練后,能夠從簡(jiǎn)單分布數(shù)據(jù)中生成特定復(fù)雜分布數(shù)據(jù),即將純高斯噪聲生成指定類型的數(shù)據(jù)。正向加噪過程:假設(shè)初始分布數(shù)據(jù)為x0,對(duì)其不斷添加高斯噪聲分布,逐步產(chǎn)生x1、x2、…、xt-1、xt直至xT,成為完全高斯分布噪聲。所添加的噪聲是已知的,通常為高斯噪聲,多次添加噪聲的操作過程是一個(gè)平穩(wěn)馬爾科夫鏈。反向恢復(fù)過程:完全混亂的噪聲中逐步恢復(fù)出特定分布數(shù)據(jù)。由xt逆擴(kuò)散至xt-1的處理過程是未知且困難的,因此訓(xùn)練一個(gè)U-Net網(wǎng)絡(luò)來估計(jì)xt至xt-1的噪聲,由于每一步驟的逆過程是不同的,因此t也作為參數(shù)作為網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)。9.4擴(kuò)散模型9.4.1去噪擴(kuò)散概率模型DDPM正向加噪過程:反向恢復(fù)過程:已知:求:貝葉斯:9.4擴(kuò)散模型9.4.1去噪擴(kuò)散概率模型DDPM由于

是來源于前向擴(kuò)散時(shí)的噪聲,在已知xt-1情況下添加z獲取了xt,而

是用于估計(jì)從xt重構(gòu)xt-1時(shí)的噪聲模型,因此訓(xùn)練

的近似神經(jīng)網(wǎng)絡(luò)模型時(shí),輸入數(shù)據(jù)為xt和t,輸出數(shù)據(jù)為能夠形成xt-1的噪聲,不同模糊步驟t的情況下輸出噪聲不同,所以損失函數(shù)表達(dá)如下其中,N為標(biāo)準(zhǔn)正態(tài)分布基本的擴(kuò)散模型隨著正向擴(kuò)散過程的增加,會(huì)導(dǎo)致訓(xùn)練數(shù)據(jù)增多,計(jì)算量增大,并且生成時(shí)間也會(huì)延長(zhǎng)。因此,針對(duì)擴(kuò)散模型的改進(jìn)版本被相繼提出。9.4擴(kuò)散模型9.4.2基于分?jǐn)?shù)匹配的隨機(jī)微分方程擴(kuò)散模型

擴(kuò)散模型中噪聲增加與減少可以采用一種分?jǐn)?shù)評(píng)價(jià)方法,其核心思想是在對(duì)訓(xùn)練數(shù)據(jù)添加逐漸增強(qiáng)的高斯噪聲時(shí),訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行表征,用以評(píng)價(jià)噪聲的強(qiáng)度,且該評(píng)價(jià)分?jǐn)?shù)同時(shí)可作為生成模型的條件分?jǐn)?shù)。由于評(píng)價(jià)分?jǐn)?shù)與訓(xùn)練之間相互獨(dú)立,所以能夠使用分?jǐn)?shù)作為噪聲估計(jì)的同時(shí)評(píng)價(jià)采樣技術(shù)以生成新樣本。

將DDPM和SGM拓展到無限擴(kuò)散步長(zhǎng)或無窮噪聲的情況中,其擾動(dòng)過程和去噪過程是隨機(jī)微分方程的解(StochasticDifferentialEquation,SDE)。在擴(kuò)散過程中,通過微小擾動(dòng)添加噪聲,使得復(fù)雜的數(shù)據(jù)分布平滑過渡到簡(jiǎn)單已知先驗(yàn)分布,進(jìn)而反向求解SDE,逐漸去除噪聲轉(zhuǎn)換為復(fù)雜分布。反向過程中求解SDE以得分作為目標(biāo)函數(shù),采用神經(jīng)網(wǎng)絡(luò)估計(jì)分?jǐn)?shù),最終生成結(jié)果。

基于分?jǐn)?shù)的隨機(jī)微分方程擴(kuò)散模型實(shí)際上是用緩慢增加的噪聲破壞訓(xùn)練數(shù)據(jù),然后學(xué)習(xí)扭轉(zhuǎn)這種破壞形成的過程以生成新模型,這其中采用了評(píng)價(jià)分?jǐn)?shù)的機(jī)制。9.4擴(kuò)散模型9.4.2基于分?jǐn)?shù)匹配的隨機(jī)微分方程擴(kuò)散模型正向加噪過程:逆向去噪求解過程:離散化數(shù)據(jù)前向加噪反向去噪數(shù)據(jù)預(yù)測(cè)可能的求解過程加噪求解9.4擴(kuò)散模型9.4.2基于分?jǐn)?shù)匹配的隨機(jī)微分方程擴(kuò)散模型具體的生成過程如下:前提是已經(jīng)訓(xùn)練了一個(gè)表示噪聲評(píng)分的神經(jīng)網(wǎng)絡(luò)9.4擴(kuò)散模型9.4.3擴(kuò)散模型的采樣生成

擴(kuò)散模型生成問題中,如前述隨機(jī)微分方程擴(kuò)散模型,在生成時(shí)需要離散化微分方程進(jìn)行求解,從而存在離散誤差,離散的步數(shù)影響到最終的采樣誤差,步數(shù)越小、數(shù)量越多生成結(jié)果越精確,然而勢(shì)必導(dǎo)致計(jì)算時(shí)間長(zhǎng)的問題。因此,

在采樣生成問題上存在無學(xué)習(xí)采樣和有學(xué)習(xí)模型提高采樣效率兩類方法。無學(xué)習(xí)采樣有學(xué)習(xí)采樣SDE求解器:隨機(jī)微分方程求解器SDE求解器分為離散化和數(shù)值求解兩個(gè)步驟。離散化通常采用歐拉方法或Euler-Maruyama方法進(jìn)行離散化。然后,使用如Runge-Kutta法來求解離散化的等式。ODE求解器:常微分方程求解器ODE求解器是解決常微分方程的算法。首先將常微分方程組轉(zhuǎn)化為離散時(shí)間點(diǎn)上的等式,然后使用數(shù)值求解器來求解這些等式知識(shí)蒸餾是一種基于“教師-學(xué)生網(wǎng)絡(luò)思想”的訓(xùn)練方法,常用于模型壓縮。做法是先訓(xùn)練一個(gè)教師網(wǎng)絡(luò),利用該教師網(wǎng)絡(luò)的輸出和數(shù)據(jù)的真實(shí)標(biāo)簽去訓(xùn)練學(xué)生網(wǎng)絡(luò)。將“知識(shí)”從具有高學(xué)習(xí)能力的復(fù)雜模型轉(zhuǎn)移到簡(jiǎn)單模型中。擴(kuò)散模型中,將知識(shí)從一個(gè)采樣模型逐步提煉到另一個(gè)時(shí)。學(xué)生模型在被訓(xùn)練成與教師模型一樣接近產(chǎn)生單步樣本之前,從教師模型中重新加權(quán)。在每個(gè)蒸餾過程中,學(xué)生模型可以將其采樣步驟減半。05穩(wěn)定擴(kuò)散模型9.5穩(wěn)定擴(kuò)散模型擴(kuò)散模型由于其強(qiáng)大的生成能力與靈活性,已經(jīng)被用于解決各種具有挑戰(zhàn)性的任務(wù),包括機(jī)器視覺、自然語言處理、多模態(tài)學(xué)習(xí)等。通過對(duì)其增加條件控制以生成人們所期望的內(nèi)容,增加引導(dǎo)信息與條件機(jī)制即進(jìn)一步實(shí)現(xiàn)文本生成圖像、文本生成文本、圖像生成圖像、圖像生成文本等。穩(wěn)定擴(kuò)散模型主要增加了語言引導(dǎo),實(shí)現(xiàn)了文字生成圖像的目的。輸入一些提示詞,由AI完成的畫作,如“外星的飛船”,“科技感的相機(jī)”,“原始的土著人”,“電影感的充滿神奇植物的原野”9.5穩(wěn)定擴(kuò)散模型9.5.1LDM隱式擴(kuò)散LDM解決了當(dāng)圖像尺寸增大時(shí)帶來的計(jì)算量劇增問題,尤其是在增加了注意力機(jī)制情況下所引起的計(jì)算量問題。一張128×128的圖像是64×64圖像像素的4倍,注意力機(jī)制層增加以后需要42倍的內(nèi)存和計(jì)算量,一張普通的1080×1080圖像將比之增加約642倍內(nèi)存與計(jì)算量,這是巨大的資源開銷。1.采用VAE結(jié)構(gòu)來壓縮圖像到一個(gè)更小的維度。從而簡(jiǎn)化了去噪擴(kuò)散模型的訓(xùn)練和采樣過程。2.VAE將圖像壓縮至隱空間編碼,在隱空間進(jìn)行擴(kuò)散與逆擴(kuò)散操作。3.條件控制以實(shí)現(xiàn)生成控制,條件可以是特征圖、文本等,即通過條件生成指定需求的結(jié)果,通過連接開關(guān)實(shí)現(xiàn)交叉注意力的融合。LDM結(jié)構(gòu)圖潛在空間擴(kuò)散過程去噪像素空間去噪過程交叉注意力開關(guān)連接堆積連接輸入條件語義圖文本知識(shí)圖圖像9.5穩(wěn)定擴(kuò)散模型9.5.2文本與圖像的關(guān)聯(lián)方法—CLIP模型圖像的接收往往采用編碼器或U-Net結(jié)構(gòu),將文字創(chuàng)建數(shù)值表示形式,嵌入到網(wǎng)絡(luò)中,作為條件控制輸入至U-Net,文本描述轉(zhuǎn)換為特征向量,該特征向量能夠與圖像特征向量進(jìn)行相似度比較,從而令全噪聲圖像向著被控制方向生成結(jié)果。文本編碼圖像編碼圖像編碼文本編碼預(yù)訓(xùn)練預(yù)訓(xùn)練建立標(biāo)簽分類數(shù)據(jù)庫預(yù)訓(xùn)練使用zero-shot預(yù)測(cè)預(yù)訓(xùn)練9.5穩(wěn)定擴(kuò)散模型9.5.3其它條件下的生成模型文字通過編碼與圖像編碼嵌在一起時(shí),能夠控制圖像向著與文字描述方向生成,盡管采用很多方法進(jìn)行優(yōu)化,然而生成結(jié)果有時(shí)并不理想,這是因?yàn)槲淖峙c圖像的關(guān)聯(lián)性很弱,生成模型具有不依賴文字仍能生成的特點(diǎn),進(jìn)而偏離了文字提示語的預(yù)期結(jié)果。將文字進(jìn)行編碼后嵌入圖像空間,同理圖像、語音等均可實(shí)現(xiàn)編碼后嵌入圖像空間以控制圖像生成方法與條件控制。條件控制的生成結(jié)果信息融合的修補(bǔ)功能9.5穩(wěn)定擴(kuò)散模型9.5.4視頻生成不同訓(xùn)練規(guī)模的對(duì)比Sora模型2024年初OpenAI公司在DALL-E模型基礎(chǔ)上建立了文本-視頻生成模型Sora,由于該模型繼承了DALL-E3的畫質(zhì)和遵循指令的能力,因此能夠深度模擬真實(shí)物理世界,且能生成具有多個(gè)角色、包含特定運(yùn)動(dòng)的復(fù)雜場(chǎng)景,該模型根據(jù)用戶輸入的提示文本能夠創(chuàng)建出長(zhǎng)達(dá)60秒的逼真視頻。能適應(yīng)不同分辨率輸出無限循環(huán)場(chǎng)景9.5穩(wěn)定擴(kuò)散模型9.5.4視頻生成OpenAI公司發(fā)布的Sora模型是一種以文本為條件的結(jié)合了Transformer架構(gòu)的擴(kuò)散模型(ScalableDiffusionModelswithTransformers,DiT),主體是穩(wěn)定擴(kuò)散模型,僅將其中的U-Net網(wǎng)絡(luò)更換為N個(gè)改進(jìn)的Transformer。DiT結(jié)構(gòu)在Sora模型中的成功應(yīng)用主要得益于如下幾點(diǎn)的改進(jìn):潛在空間編碼,將擴(kuò)散模型應(yīng)用于圖像、視頻的潛在編碼空間;Token的使用,將圖像、視頻與文本等多種信息進(jìn)行統(tǒng)一編碼,隨機(jī)變換Patch尺寸、數(shù)量能夠?qū)崿F(xiàn)變尺度的生成結(jié)果,并且實(shí)現(xiàn)變尺度的輸入。9.5穩(wěn)定擴(kuò)散模型9.5.4擴(kuò)散模型的應(yīng)用一種利用擴(kuò)散特性實(shí)現(xiàn)的語義分割示意圖。通過聚類找出每個(gè)像素可能的類別,進(jìn)而使用擴(kuò)散思路逐步對(duì)像素進(jìn)行分類、分割。該方法可視為一種優(yōu)化過程,通過優(yōu)化一個(gè)能量函數(shù)來逐步改進(jìn)模型的預(yù)測(cè)結(jié)果。在這種情況下,擴(kuò)散過程可以被看作是在優(yōu)化過程中的一種迭代算法,每次迭代都會(huì)逐步改進(jìn)模型的預(yù)測(cè)結(jié)果。參考論文:DmitryBaranch

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論