版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
優(yōu)酷「AI劇組」:大模型驅(qū)動(dòng)的影視短視頻智能生產(chǎn)實(shí)踐苗
園阿里巴巴
優(yōu)酷產(chǎn)品技術(shù)中心
算法專家2024
/
06
/
29目錄a2m.msup.com.cn1.
案例簡介整體框架核心挑戰(zhàn)關(guān)鍵技術(shù)關(guān)鍵實(shí)踐案例簡介a2m.msup.com.cn隨著人工智能技術(shù)的迅猛發(fā)展,尤其是大型預(yù)訓(xùn)練模型在自然語言處理和多模態(tài)學(xué)習(xí)領(lǐng)域所取得的重大進(jìn)展,短視頻內(nèi)容的AIGC正在變得越來越可行和流行。模仿影視行業(yè)的創(chuàng)作過程,大語言模型可以扮演“編劇”角色,生成不同風(fēng)格、不同類型的高質(zhì)量劇本和文案;多模態(tài)大模型可以扮演“導(dǎo)演”的角色,通過開放式的語義理解來實(shí)現(xiàn)精準(zhǔn)的跨模態(tài)匹配;基于大模型的應(yīng)用和自研,還可以進(jìn)一步抽象出提示劇情要點(diǎn)的“場務(wù)”(懸掛詞)、突出畫面重點(diǎn)的“特效師”(素材打標(biāo)),等等。最后,將這些技術(shù)能力構(gòu)建成自動(dòng)化、流程化、平臺化的智能生產(chǎn)鏈路,我們就具備了一個(gè)短視頻創(chuàng)作的“AI劇組”,產(chǎn)量更大、效果穩(wěn)定、時(shí)效更強(qiáng)、成本更低。a2m.msup.com.cn案例簡介案例簡介《新聞女王》劇情解說《新聞女王》劇情整剪a2m.msup.com.cn《鄉(xiāng)村愛情》搞笑解說《異人之下》唱式解說《秦時(shí)明月》高能混剪《與君初相識》CP看點(diǎn)整體框架傳統(tǒng)劇組AI劇組1、影視文案生成:基于RAG的結(jié)構(gòu)化長文本生成a2m.msup.com.cn2、分鏡腳本生成:抽取多槽位元素的鏡頭語言3、視頻片段匹配:多模態(tài)語義理解與跨模態(tài)時(shí)序匹配4、視頻整體合成:字/音/畫的自動(dòng)剪輯和合成核心挑戰(zhàn)a2m.msup.com.cn最影響短視頻效果的,莫過于“影視文案”與“視頻畫面”的匹配程度。兩個(gè)核心挑戰(zhàn):1、中文自然語言的表意復(fù)雜性和多樣性。中文具有“一意多詞”的特性,表達(dá)習(xí)慣也更加隱晦、曲折,在技術(shù)上會(huì)造成語義向量空間稀疏、離群點(diǎn)較多,影響跨模態(tài)匹配的準(zhǔn)確性。2、影視領(lǐng)域化表達(dá)的未見性。很多領(lǐng)域知識是大模型在預(yù)訓(xùn)練階段未見的,如影視節(jié)目、角色、動(dòng)作等,在影視內(nèi)容的匹配上容易效果不好,尤其是古裝劇、科幻劇等領(lǐng)域?qū)S斜磉_(dá)較多的節(jié)目。自研算法能力:腳本生成自研LLM:自動(dòng)及人工標(biāo)注收集的領(lǐng)域語料,基于開源LLM框架進(jìn)行多模態(tài)匹配自研QVH:基于優(yōu)酷知識圖譜及人工標(biāo)注的領(lǐng)域數(shù)據(jù),基于開源多模態(tài)框架進(jìn)行SFT關(guān)鍵技術(shù)
影視文本生成重要性:一個(gè)內(nèi)容準(zhǔn)確、故事清晰、有一定結(jié)構(gòu)的文案作為劇本串聯(lián)起整個(gè)視頻常見類型:解說文案:解說視頻中用戶的主要輸入,是視頻內(nèi)容發(fā)展的主線,決定了視頻的質(zhì)量和風(fēng)格懸掛詞:整剪視頻中點(diǎn)睛之筆,對亮點(diǎn)劇情、重要情節(jié)起到提示、轉(zhuǎn)折作用,幫助用戶理解技術(shù)路徑:LLM
[文本生成能力]+CoT
[偏好指令理解]+RAG
[領(lǐng)域知識引入]+Few-Shot
[示例學(xué)習(xí)]a2m.msup.com.cn關(guān)鍵技術(shù)
分鏡腳本生成直接使用文案去匹配視頻片段面臨的問題:領(lǐng)域化適配問題。影視領(lǐng)域的節(jié)目、人物、專有名詞無法進(jìn)行理解和匹配。中文理解問題。中文表述復(fù)雜、表意含蓄,對視頻內(nèi)容理解容易造成干擾。重點(diǎn)偏差問題。多模態(tài)大模型會(huì)根據(jù)自己的理解識別核心語義和視覺重點(diǎn),造成偏差。a.
智能分鏡b.
自研多要素腳本大模型自然語言鏡頭語言a2m.msup.com.cn關(guān)鍵技術(shù)
視頻片段匹配過往解法:通過閉集標(biāo)簽來連接文案和畫面缺點(diǎn):標(biāo)簽有限,新增需重新訓(xùn)練丟失畫面信息,無臺詞畫面無法匹配丟失時(shí)序信息,視頻≠concat(畫面)解說文案:臺詞字幕何珊開始懷疑費(fèi)可是個(gè)騙子典型做法:tag2tag
/
text_emb
x
text_emb內(nèi)容向量表征語義空間對齊視頻時(shí)序定位SOTA解法多模態(tài)匹配:典型做法:跨模態(tài)語義理解和匹配VideoEnc.a2m.msup.com.cn關(guān)鍵技術(shù)
視頻片段匹配自研多模態(tài)匹配模型面臨問題:領(lǐng)域數(shù)據(jù)差異畫面差異:預(yù)訓(xùn)練數(shù)據(jù)偏生活日常(行人、景點(diǎn)等),影視內(nèi)容有更多特色畫面(布景、特效、虛化)鏡頭差異:影視內(nèi)容常見場景交叉穿插、鏡頭快速切換,靠劇情而非視覺信息串聯(lián)視頻時(shí)序語義差異:同一個(gè)實(shí)體/關(guān)鍵詞等在不同類型影視劇中有不同畫面形式專有名詞:
預(yù)訓(xùn)練數(shù)據(jù)是通過預(yù)設(shè)實(shí)體集合進(jìn)行打標(biāo),與影視領(lǐng)域的專有名詞存在較大差異挑戰(zhàn):訓(xùn)練樣本構(gòu)建容易:獲取視頻片段難點(diǎn)1:批量構(gòu)造文本難點(diǎn)2:視頻與文本的樣本對齊模型算法指標(biāo):mAP:9.45(+55.94%),IoU:16.71(-2.74%)人工GSB評測:120:489:79a2m.msup.com.cn關(guān)鍵技術(shù)視頻整體合成智能裁剪字幕擦除應(yīng)淵人物原聲否則,我只能順應(yīng)天命,除魔衛(wèi)道。應(yīng)淵模型音色如今魔族內(nèi)亂已平,被盜法器盡數(shù)追回,已錄入了妙法閣.此戰(zhàn),天兵死傷一千,天將折損兩名,火德元帥正在天醫(yī)館探慰傷員。音色定制a2m.msup.com.cn關(guān)鍵技術(shù)工程化改造:工具而非“玩具”提升生產(chǎn)效率和產(chǎn)能分布式任務(wù)編排系統(tǒng):生產(chǎn)流程拆分、單機(jī)研發(fā)服務(wù)模式、多流程并發(fā)在線:Pipeline任務(wù)框架提升生產(chǎn)穩(wěn)定性模型推理優(yōu)化任務(wù)邏輯整合基礎(chǔ)研發(fā)環(huán)境結(jié)果:單視頻生產(chǎn)耗時(shí)30min->6min,單機(jī)產(chǎn)能1000個(gè)視頻/天a2m.msup.com.cn關(guān)鍵實(shí)踐1個(gè)性化素材生產(chǎn)&分發(fā)易烊千璽女性
|
25-30歲
|
易烊千璽粉王一博女性
|
18-25歲
|
王一博粉街舞男性
|
18-25歲
|
街舞粉ADVANTAGE【規(guī)模化】Billion
Scale數(shù)據(jù),人力無法完成【個(gè)性化】千人千面,海量素材中挑選你喜歡的視頻,效率大幅提升【標(biāo)準(zhǔn)化】標(biāo)準(zhǔn)化生產(chǎn)及評估流程,閉環(huán)數(shù)據(jù)鏈路可持續(xù)提升能力和效果【輔助創(chuàng)作】為「優(yōu)酷號」創(chuàng)作者提供素材的內(nèi)容占比
95%【應(yīng)用】每日處理優(yōu)酷百萬級以上短視頻個(gè)性化分發(fā)海量素材提取自動(dòng)合成/裁剪質(zhì)量評估就是街舞第三季
總決賽易烊千璽
回歸大秀炸場a2m.msup.com.cn就是街舞第三季
總決賽王一博
戰(zhàn)隊(duì)楊凱奪冠就是街舞第三季
總決賽巔峰對決
燃炸全場關(guān)鍵實(shí)踐2
規(guī)?;詣?dòng)生產(chǎn)站外宣發(fā)提升生產(chǎn)效率保障生產(chǎn)質(zhì)量分發(fā)數(shù)據(jù)驅(qū)動(dòng)生產(chǎn)前情提要節(jié)目周邊高能看點(diǎn)供給效率低采買費(fèi)用有限用戶需求感知慢業(yè)務(wù)痛點(diǎn)核心解法內(nèi)容介質(zhì)獲取自動(dòng)化模板生產(chǎn)+內(nèi)容評估策略全自動(dòng)鏈路上傳熱點(diǎn)監(jiān)控+自動(dòng)下單自動(dòng)補(bǔ)貨策略應(yīng)用場景長帶短、短帶長背景下的智能生產(chǎn),降本增效、低成本定向生產(chǎn)內(nèi)容a2m.msup.com.cn生產(chǎn)對象生產(chǎn)工具生產(chǎn)力關(guān)鍵實(shí)踐3外投拉新促活a2m.msup.com.cn關(guān)鍵實(shí)踐4優(yōu)酷內(nèi)容出海a2m.msup.com.cn關(guān)鍵實(shí)踐5優(yōu)酷自制短劇更多AI自制劇排播中……a2m.msup.com.cn謝謝觀
看a2m.msup.com.cnTHANKS麥思博(ms
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育科技在小學(xué)生寫作中的運(yùn)用
- 二零二五年度獼猴桃樹種子種植面積統(tǒng)計(jì)與數(shù)據(jù)分析合同4篇
- 二零二五年度離婚協(xié)議涉及房產(chǎn)過戶及購房款補(bǔ)償范本3篇
- 2025年度門樓玻璃制品加工與安裝合同3篇
- 2025年度美容院美容院加盟店經(jīng)營管理培訓(xùn)協(xié)議4篇
- 二零二五版農(nóng)業(yè)科技研發(fā)與成果轉(zhuǎn)化合作協(xié)議3篇
- 科技與心理輔導(dǎo)相結(jié)合的小學(xué)數(shù)學(xué)教育模式
- 二零二五年度研發(fā)合作服務(wù)合同2篇
- 2025年度高端咖啡廳飲品定制與銷售服務(wù)合同范本3篇
- 2025年銷售合同發(fā)票管理臺賬模板(精細(xì)管控)
- 數(shù)學(xué)-山東省2025年1月濟(jì)南市高三期末學(xué)習(xí)質(zhì)量檢測濟(jì)南期末試題和答案
- 中儲糧黑龍江分公司社招2025年學(xué)習(xí)資料
- 湖南省長沙市2024-2025學(xué)年高一數(shù)學(xué)上學(xué)期期末考試試卷
- (完整版)小學(xué)生24點(diǎn)習(xí)題大全(含答案)
- 四川省2023年普通高等學(xué)校高職教育單獨(dú)招生文化考試(中職類)數(shù)學(xué)試題(原卷版)
- 2024年3月江蘇省考公務(wù)員面試題(B類)及參考答案
- 醫(yī)院科室考勤表
- 春節(jié)期間化工企業(yè)安全生產(chǎn)注意安全生產(chǎn)
- 數(shù)字的秘密生活:最有趣的50個(gè)數(shù)學(xué)故事
- 移動(dòng)商務(wù)內(nèi)容運(yùn)營(吳洪貴)任務(wù)一 移動(dòng)商務(wù)內(nèi)容運(yùn)營關(guān)鍵要素分解
- 基于ADAMS的汽車懸架系統(tǒng)建模與優(yōu)化
評論
0/150
提交評論