深入探索Sora技術(shù):視頻生成的未來與世界模擬器的潛力_第1頁
深入探索Sora技術(shù):視頻生成的未來與世界模擬器的潛力_第2頁
深入探索Sora技術(shù):視頻生成的未來與世界模擬器的潛力_第3頁
深入探索Sora技術(shù):視頻生成的未來與世界模擬器的潛力_第4頁
深入探索Sora技術(shù):視頻生成的未來與世界模擬器的潛力_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余3頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

力它試圖通過視頻數(shù)據(jù)學(xué)習(xí)一個(gè)"世界模型"或"世界模擬器",這是最令人興奮和期待的部在ViT中,首次提出了將圖片分割成patches輸入transformer的方法。個(gè)低維隱式空間(同時(shí)進(jìn)行時(shí)間和空間上的壓縮),然后將其展開成序列形式進(jìn)行模型訓(xùn)練。預(yù)測(cè)時(shí)也是以隱式序列的形式進(jìn)行,隨后通過一個(gè)decoder進(jìn)行解碼,將其映射回像素空間以形成視頻。在編碼成Spacetimelatentpatches時(shí),可能采用了這樣做的好處是提高了視頻生成時(shí)的靈活性,能夠生成不同尺寸的視頻。不需要進(jìn)行旋轉(zhuǎn)、剪切等數(shù)據(jù)增強(qiáng)操作,這些操作可能會(huì)破壞視頻數(shù)據(jù)的先驗(yàn)信息,從而影響生DiT結(jié)構(gòu)是transformer加上ddpm的結(jié)合,核心是用transformer結(jié)構(gòu)替換掉stablediffusion中的unet結(jié)構(gòu),以預(yù)測(cè)噪聲并實(shí)現(xiàn)去噪。這種替換帶來的優(yōu)勢(shì)包括:隨著數(shù)參考了b站up主ZOMI醬繪制的Sora結(jié)構(gòu)圖。可能的改動(dòng)和補(bǔ)充包括:在Conditioning階段,可能不是一幀對(duì)應(yīng)一個(gè)文本,而是多幀對(duì)應(yīng)Spacetimelatentpatches時(shí)可能使用了ViViT的時(shí)空編碼方式;輸入給Decoder的是去噪后的patches序列。Sora首先將影響影視和短視頻行業(yè)。其生成能力的延伸可能導(dǎo)致未來生成更長(zhǎng)內(nèi)容的Sora的視頻生成能力可能會(huì)擴(kuò)展到2D和3D生成,影響感知、理解等任務(wù),有可能實(shí)大一統(tǒng),甚至影響到CG領(lǐng)域。如果能夠?qū)崿F(xiàn),那么整個(gè)AI領(lǐng)域transformer結(jié)構(gòu)實(shí)現(xiàn)大一統(tǒng)??偨Y(jié)這篇文章詳細(xì)解析了OpenAI的Sora技術(shù),著重介紹了其在視頻生成方面的應(yīng)用和潛介紹了如何使用patches統(tǒng)一訓(xùn)練數(shù)據(jù)格式,通過encoder將視頻幀壓縮到強(qiáng)調(diào)了在原始圖片尺寸上訓(xùn)練的優(yōu)點(diǎn),提高了視頻生成的靈活性,并說明了如何使用re-captioning技術(shù)獲取文本-視頻對(duì),以及在推理階段如何討論了DiT(transformer加上ddpm)的網(wǎng)絡(luò)結(jié)構(gòu),其通過使用transformer替換stablediffusion中的unet結(jié)構(gòu)來預(yù)測(cè)噪聲并實(shí)現(xiàn)去噪。描述了Sora的整體結(jié)構(gòu),包括Conditioning階段的處理和對(duì)ViViT時(shí)空編碼3.影響分析:探討了Sora對(duì)影視和短視頻行業(yè)的潛在影響,以及它在生成更長(zhǎng)內(nèi)容方面討論了Sora是否具備成為一個(gè)世界模型的特征,包括其在3D一致性、長(zhǎng)程觸及了Sora在計(jì)算機(jī)視覺領(lǐng)域可能實(shí)現(xiàn)的“大一統(tǒng)”,以及其對(duì)C總的來說,文章深入分析了Sora技術(shù)的內(nèi)部機(jī)制和外部應(yīng)用,展示了它在視頻生成和感謝起和實(shí)施,將我們的大零號(hào)灣江川創(chuàng)新書院閔行老科協(xié)的創(chuàng)客交流會(huì)定在時(shí)間:每周分享內(nèi)容:創(chuàng)客自愿報(bào)名施老師“我們大零號(hào)灣圖書館創(chuàng)新書院的創(chuàng)客同仁們對(duì)此活動(dòng)非常關(guān)注,尤其是關(guān)心如何創(chuàng)新運(yùn)用到實(shí)際各類需求中去,如把中小企業(yè)現(xiàn)狀還是傳統(tǒng)制造業(yè),改進(jìn)提升成智慧制造農(nóng)場(chǎng)。還有能滿足各類不同需求的專業(yè)服務(wù)機(jī)械人。我們大零號(hào)灣圖書館創(chuàng)新書院經(jīng)常會(huì)有:初級(jí)、中級(jí)、高級(jí)創(chuàng)客大卡和原來四大金剛企業(yè)的老工程師、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論