【中文譯版】StableDiffusion3技術(shù)報(bào)告_第1頁(yè)
【中文譯版】StableDiffusion3技術(shù)報(bào)告_第2頁(yè)
【中文譯版】StableDiffusion3技術(shù)報(bào)告_第3頁(yè)
【中文譯版】StableDiffusion3技術(shù)報(bào)告_第4頁(yè)
【中文譯版】StableDiffusion3技術(shù)報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

*****平等貢獻(xiàn)。<first.last>@stability.ai。1定量評(píng)估(Ghoshetal.,2023)。dyt=vθ(yt,t)dt,2pt(zt)=EN(0,I)pt(zt|),我們介紹?,將zt、x0與duceψt和ut之間的我們介紹?,ψt(·|):x0→atx0+它生成邊緣概率路徑pt(Lipmanetal.,2023)(參見(jiàn)B.1Lw(x0)=-1U(t),N(0,I)wtλtθ(zt,t)-2,3.流動(dòng)軌跡pt(z|)t1-t。t1-t。LCFM=Et,pt(z|),p()||vθ(z,t)-ut(z|)||22,tt在在在在?zt-bt(?zt-bt(在??λ2λ2ttLCFM=Et,pt(z|),p()||vθ(z,t)-attBTBT=Et,pt(z|),p()-λ2ts2)對(duì)于tλtN(-22)對(duì)于tt22zt=cosπtx0+t22),-3fmode(u;s)=1fmode(u;s)=1-u-s·cos2對(duì)于給定的邊界值β0和βT?1,βt=β0+tT-1(βT-1-β0)且LDM使用βt=2tβ0+T-1(βT-1-β0)更改為密度為π(t)的分布相當(dāng)于加權(quán)損失Lwππ(t)1-t21(logit(t)21(logit(t)-m)πl(wèi)n(t;,m,s)=exp-s√2πt(1-t)2s2,tππ2dtf模式(t)。特別是,我們正在尋找映射f:u→f(u)=t,u∈[0,1-f(u)=1-f(u)=dtfdtfπCosMap(t)=πCosMap(t)=cctxt。展平?h×w×c表示x∈R4縮放整流流量變壓器以實(shí)現(xiàn)高分辨率圖像合成y+++y問(wèn)注意力5rf/cosmapedm(0.00,5步2.00 3.002.502.752.754.003.255.757.759.008.75edm(?1.20,1.20)eps/線性v/cosv/線性0.2470.2360.2450.2440.246射頻/對(duì)數(shù)范數(shù)(0.50,0.60)0.25680.410.233120.84射頻/模式(1.75)0.25344.390.21894.06?RF損耗為πl(wèi)n(t;m,s)(rf/lognorm(m,s))?RF損耗與πCosMap(t)(rf/cosmap)。(-1.2,1.2)對(duì)應(yīng)于(Karrasetal.,2022)中的參數(shù)。續(xù)修改時(shí)間步采樣的公式比LDM?Linear(Rombachetal.,2022)公式(Rom?bachetal.,2022)或EDM(Karrasetal.,2022),甚至可以與60.850.680.450.750.790.86我們之前描述了如何改進(jìn)所有這些組件擴(kuò)展第5.3節(jié)中的最終方法。5.2.1.改進(jìn)的自動(dòng)編碼器這高×寬×深高×寬×深5.2.2.改進(jìn)的字幕貝特克等人。(2023)證明綜合生成的字幕可以極大地改進(jìn)文本到圖像的模型68.0918:0052.5333.4441.41人類(lèi)生成的字幕的性質(zhì)50%原始字幕和50%合成字幕。優(yōu)于僅使用原始字幕的模型。5.2.3.改進(jìn)的文本到圖像的骨架而不是按序列串聯(lián)(Chenetal.,2023))T5(Raffel78意力邏輯和注意力熵在2B(d=24)模型的最后5個(gè)塊上的平均值。此在這項(xiàng)工作的其余部分中選擇前一個(gè)選項(xiàng)。5.3.2.高分辨率微調(diào)5.3.1.數(shù)據(jù)預(yù)處理見(jiàn)附錄E.2。預(yù)計(jì)算圖像和文本嵌入我們的模型使用多個(gè)預(yù)訓(xùn)練的凍結(jié)網(wǎng)絡(luò)的輸9222hmax-s2hmax-s2nnt1-tnnnn1-tnn米n縮放整流流量變壓器以實(shí)現(xiàn)高分辨率圖像合成5.3.3.結(jié)果訓(xùn)練具有不同參數(shù)數(shù)量的模型500k包括圖像預(yù)訓(xùn)練中的FLOP。0.370.760.800.850.770.850.800.810.830.670.730.740.830.890.020.040.080.000.130.430.340.330.400.340.33相對(duì)CLIP分?jǐn)?shù)下降[%]4.303.59191.130.860.700.14顯示相對(duì)于CLIP分?jǐn)?shù)的相對(duì)性能下降通過(guò)對(duì)50個(gè)步驟求和vθ·dt來(lái)計(jì)算。達(dá)到他們的巔峰表現(xiàn)。靈活的文本編碼器雖然主要?jiǎng)訖C(jī)縮放整流流量變壓器以實(shí)現(xiàn)高分辨率圖像合成out.ideogram.ai/1.0。v2?5/。/blog/products/ai?machine?learning/bfloat16?云上高om/criteo/autofaiss.2018年。URL/CorpusID:4931044打開(kāi)。com/papers/dall?e?3。pdf,2(3),2Gordon,C.、Schuhmann,C.、Schmidt,L.和Jitsev,J.對(duì)比的可重復(fù)縮放定律語(yǔ)言圖像學(xué)習(xí)。2023年IEEE/CVF計(jì)算機(jī)視覺(jué)和模式識(shí)CVPR52729.2023.00276。Balle,B.、Ippolito,D.和Wallace,E.Gilmer,J.、Steiner,A.、Caron,M.、Geirhos,Dockhorn,T.、Vahdat,A.和Kreis,K.具有臨arXiv預(yù)印本arXiv:2112.07068,2021。Ho,J.、Jain,A.和Abbeel,P.去噪擴(kuò)散概率Esser,P.、Chiu,J.、AtigheFischer,JS,Gui,M.,Ma,P.,Stracke,N.,Baumann,SA,和Ommer,B.通過(guò)流量匹配促Karras,T.、Aittala,M.、Lehtinen,J.、Hellsten,J.、Aila,T.10.18653/v1/2021.emnlp?main.595。Ho,J.和Salimans,T.無(wú)分類(lèi)器擴(kuò)散指導(dǎo),10.1007/978?3?319?10602?148.網(wǎng)址http://dx.d/10.1007/978?3?319?10602?148.id=PqvMRDCJT9t。URL/CorpusID:33129Lu,C.,Zhou,Y.,Bao,F.,Chen,J.,Li,C.,andZhu,J.Dpm?solver++:用于擴(kuò)散概率模Dekel,T.、Holynski,A.、Kanazawa,A.預(yù)印本arXiv:2310.07204,2023。J.、Penna,J.和Rombach,R.Sdxl:改進(jìn)高通量潛伏擴(kuò)散模型?分辨率圖Nichol,A.Dall?e2預(yù)訓(xùn)練緩解措施。/research/dall?e?2?pre?training?mitigations,2022年。網(wǎng)址/novelai?improvements?on?stable?diffusion?e110.1109/cvpr52688.2022.01042。網(wǎng)址http://dx.doi.Peebles,W.和Xie,S.帶變壓器的可擴(kuò)展擴(kuò)散模型。2023年IEEE/CVF計(jì)算機(jī)視覺(jué)國(guó)際網(wǎng)址/10.1007/978?3?319?24574?428。30547。api.semant/CorpusID:227209335。Sauer,A.、Chitta,K.、MullSauer,A.、Lorenz,D.、Blattmann,A.和RombacarXiv:2311.17042,2023。Parikh,D.和Taigman,Y.Emu編輯:通過(guò)識(shí)別和生成進(jìn)行精確圖像編輯任務(wù)。arXiv預(yù)印本arXiv:2311.10089,2023。Gafni,O.,Parikh,D.、Gupta,S.和Taigman,Y.制作視頻:無(wú)需文本視頻數(shù)據(jù)的文Sohl?Dickstein,JN、Weiss,EA、Maheswaranathan,N.和Ganguli,S.使https://api.semanticscholar。org/CorpusID:14888175。https://api.semanticscho/CorpusID:5560643。和Kornblith,S.大規(guī)模變壓器訓(xùn)練不穩(wěn)定性的小規(guī)模Somepalli,G.、Singla,V.、Goldblum,M.、Geiping,J.和Goldstein,T.擴(kuò)散藝術(shù)還是數(shù)Somepalli,G.、Singla,V.、Goldblum,M.、Geiping,J.和Goldstein,T.理解和減輕擴(kuò)散模型中的復(fù)制。arXiv預(yù)印本arXYu,J.,Xu,Y.,Koh,JY,Luong,T.,Baid,G.,Wang,Z.,Vasudevan,V.,Ku,A.,Yang,Y.,Ayan,BK,等人??s放自回歸模型以生成內(nèi)容豐富的文本Song,Y.和Ermon,S.通過(guò)估計(jì)進(jìn)行生成建模2020年數(shù)據(jù)分布梯度。)(縮放擴(kuò)散模型Transformer架構(gòu)(Vaswanietal.,2017)以其在NLP(Kaplanetal.,2020)和計(jì)算機(jī)視覺(jué)任務(wù)(Dosovi晚上在木桌上用壽司制成的一個(gè)可愛(ài)城市的傾斜移位航空照B.1.有關(guān)流程的無(wú)模擬訓(xùn)練的詳細(xì)信息ddtpt(x)+?·[pt(x)vt(x)]=0?vt生成概率密度路徑pt。pt(z|)-?·[ut(z)pt(z)]=-?·[EN(0,I)ut(z|)pt(z)]pt(z)=EN(0,I)-?·[ut(z|)pt(z|)]=EN(0,I)dtpt(z|)=dtpt(z),-2Et,pt(z)vθ(z,t)|ut(z)+c-2Et-2Et,pt(z)vθ(z,t)|ut(z)+c-2Et,pt(z|),p()vθ(z,t)|ut(z|)+c=Et,pt(z)||vθ(z,t)||22=Et,pt(z)||vθ(z,t)||22=Et,pt(z|),p()||vθ(z,t)-ut(z|)||22+c=LCFMEpt(z|),p()vθ(z,t)|ut(z|)=dzdpt(z|)p()vθ(z,t)|ut(z|)pt(z|)=dzpt(z)vθ(z,t)|dp()ut(z|)pt(z)=dzpt(z)vθ(z,t)|ut(z)=Ept(z)vθ(z,t)|烏特(z)(26)(27)(28)(29)(30)(31)(32)(33)(34)(35)(36)B.2.有關(guān)圖像和文本表示的詳細(xì)信息潛在圖像表示我們遵循LDM(Rombachetal.,2022)并使用預(yù)訓(xùn)練的自動(dòng)編碼器來(lái)表示RGB圖像X∈R。我們使用空間下采樣因子8,使得h=和w=,并在第5.2.1節(jié)中使用不同的d值T5T5縮放整流流量變壓器以實(shí)現(xiàn)高分辨率圖像合成

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論