AI多媒體技術(shù)在內(nèi)容審核場景實踐探索-2024.07-33正式版_第1頁
AI多媒體技術(shù)在內(nèi)容審核場景實踐探索-2024.07-33正式版_第2頁
AI多媒體技術(shù)在內(nèi)容審核場景實踐探索-2024.07-33正式版_第3頁
AI多媒體技術(shù)在內(nèi)容審核場景實踐探索-2024.07-33正式版_第4頁
AI多媒體技術(shù)在內(nèi)容審核場景實踐探索-2024.07-33正式版_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

AI多媒體技術(shù)在內(nèi)容審核場景實踐探索馬金龍

趣丸科技(TT語音)個人介紹馬金龍

多年媒體算法開發(fā)經(jīng)驗,涉及音視頻圖像文本,負(fù)責(zé)過音頻前后端處理,弱網(wǎng)優(yōu)化,音視頻質(zhì)量提升,智能內(nèi)容安全審核“T網(wǎng)”,內(nèi)容理解“T悟”等大型項目。曾作為“靈聲訊”創(chuàng)始人,參與智能媒體技術(shù)自媒體運營和推廣。0102030405內(nèi)容審核目前現(xiàn)狀與挑戰(zhàn)AI多媒體技術(shù)實踐之路智能內(nèi)容審核平臺案例AIGC內(nèi)容風(fēng)控實踐未來展望1.內(nèi)容審核目前現(xiàn)狀與挑戰(zhàn)現(xiàn)狀?

政府監(jiān)管越來越嚴(yán)?

用戶內(nèi)容層出不窮?

違規(guī)種類繁雜?

AIGC內(nèi)容不可控挑戰(zhàn)?

【實時性】需要緊跟政府管控要求?

【準(zhǔn)確性】對花樣變體不漏殺不誤殺?

【多樣性】違規(guī)種類需不同算法解決?

【未知性】AIGC生成內(nèi)容不確定且存在知識“幻覺”2.AI多媒體技術(shù)實踐之路自建

OR第三方?2.AI多媒體技術(shù)實踐之路自建優(yōu)勢:極速響應(yīng)生態(tài)保障高效定制可管可控具備數(shù)據(jù)血源追蹤、問題實時監(jiān)控、技術(shù)輔助運營等風(fēng)控能力針對安全,時效等方面推出高響應(yīng)審核,讓內(nèi)容審核安全高效通過機審結(jié)果多樣化處置、賬號違規(guī)處置等多種手段,保障平臺生態(tài)安全推出特殊時期/突發(fā)事件的相關(guān)定制化,快速響應(yīng)國家政府的緊急要求2.AI多媒體技術(shù)實踐之路T網(wǎng)

是一個通過人工智能的算法打造一站式內(nèi)容安全機器審核的平臺,幫助公司審核團隊實現(xiàn)語音,文本,圖像,小視頻等風(fēng)險管控的能力。2.1語音識別2.2NLP文本審核2.3多模態(tài)識別2.4音頻事件檢測2.5小語種識別2.6歌曲識別對于此項目的目的可總結(jié)如下:?

貫徹國家網(wǎng)信辦有關(guān)網(wǎng)絡(luò)內(nèi)容安全的各項規(guī)定?

低成本高效率的加強內(nèi)容風(fēng)險管控?

構(gòu)建智能審核技術(shù)護城河,為公司內(nèi)容生態(tài)保駕護航2.7聲紋識別2.8違規(guī)圖像識別?

探索內(nèi)容審核新方法,踐行公司的社會責(zé)任2.1ASR-技術(shù)方案技術(shù)目標(biāo)用戶產(chǎn)生的語音數(shù)據(jù)輸入ASR模型,模型輸出該語音的文字內(nèi)容,以供下一環(huán)節(jié)NLP檢查是否包含違規(guī)詞,或違規(guī)內(nèi)容。模型總體邏輯使用深度學(xué)習(xí)模型Transformer/Conformer(如圖中SharedEncoder)提取輸入音頻中的特征使用CTC解碼得到若干候選文本。圖1.T網(wǎng)-ASR端對端方案2.1ASR架構(gòu)EfficientConformer?

Convolutionneuralnetworks和transformersmodels組合?

EfficientConformer設(shè)計?

結(jié)合量化剪枝和蒸餾技術(shù),壓縮模型大小?

提供CPU和GPU,支持高吞吐量識別圖2.T網(wǎng)-ASR支持的功能圖3.ASR中Efficientconformer技術(shù)方案2.1ASR-效果圖4T網(wǎng)-ASR優(yōu)化后的推理速度圖5.ASR測試報告

(CER)和模型大小2.2NLP算法總體框架NLP算法模型:?

Bert算法?

Prompt算法?

Fasttext算法?

AIGC語料生成算法?

文本表情復(fù)雜表示的多模態(tài)識別算法?

關(guān)鍵詞挖掘算法圖6.T網(wǎng)-NLP總體框架2.2NLP內(nèi)容審核的困難與挑戰(zhàn)純文本審核面臨的問題與挑戰(zhàn):我們的成功案例:?

變體關(guān)鍵詞的多樣化?

構(gòu)建變體關(guān)鍵詞挖掘系統(tǒng)?

構(gòu)建文本表情字母多模態(tài)識別系統(tǒng)?

AIGC語料生成系統(tǒng)?

文字與表情包的結(jié)合的復(fù)雜表達(dá)?

文字與字母或字母縮寫結(jié)合的復(fù)雜表達(dá)?

特定場景語料不足與稀疏性?

特定關(guān)鍵詞詞的隱晦表達(dá)?

正常詞與關(guān)鍵詞相同,但不同上下文上語義不同?

異常關(guān)鍵詞大數(shù)據(jù)監(jiān)測系統(tǒng)?

多層次語義分析系統(tǒng)2.2NLP內(nèi)容審核-效果呈現(xiàn)違規(guī)標(biāo)簽辱罵精確率94.45%95.03%91.31%90.96%92.98%色情涉政廣告違禁圖7.NLP關(guān)鍵詞挖掘示意圖圖8.NLP文本審核效果2.2文本未成年人識別關(guān)鍵詞匹配分析框架,支持多種匹配方式、多種過濾條件,并支持自定義特殊標(biāo)記,及支持特定動作行為,將未成年人識別實現(xiàn)模組化的流程分析。未成年識別精確率99%+;圖9.T網(wǎng)文本未成年人審核技術(shù)框架2.3多模態(tài)算法原理項目背景?

單模態(tài)審核特征不全面,多模態(tài)結(jié)合語氣和語義信息可提高處罰有效率。?

人工審核量級大,需要對不同類型的違規(guī)進行靈活處置。建模算法?

Transformer跨模態(tài)多頭注意力機制;?

隨機森林;模態(tài)α模態(tài)β圖11.隨機森林圖10.Transformer跨模態(tài)多頭注意力機制2.3多模態(tài)高準(zhǔn)召回模型指標(biāo)?

多模態(tài)算法上線處罰有效率為99%+;?

如右圖,每日占總機審違規(guī)樣本約17%;模型價值?

提高對違規(guī)樣本的召回,減少單模態(tài)的漏召;?

提供高準(zhǔn)標(biāo)簽運用在靈活處置:a.提高處罰響應(yīng)速度;b.提升人工審核效率;圖12.多模態(tài)辱罵命中數(shù)量及占比2.4聲音事件檢測(SoundEventDetection)檢測的聲音事件:?

審核類?

嬌喘,炸房,怒罵?

普通標(biāo)簽

BRaSS?

背景音樂(BGM,B)?

說唱(Rap,Ra)?

說話(Speech,S)?

唱歌(Sing,S)模型價值?

完善對聲音類違規(guī)的審核能力。?

音頻類型分流,降低后續(xù)模型成本。?

語音直播趨勢分析。圖13.聲音事件檢測2.5

語種識別項目背景:線上特定語種管控方案流程:利用音頻預(yù)訓(xùn)練hubert模型的特征解析功能,結(jié)合TT語音線上直播數(shù)據(jù)和部分開源數(shù)據(jù)集進行模型fine-tune,從而針對特定語種等進行識別。模型效果:針對特定語種的測試精準(zhǔn)率為97.58%。圖14.語種識別2.6

歌曲識別項目背景:線上歌曲(如劣跡藝人作品等)管控方案流程:將原始劣跡歌曲處理得到的指紋信息存儲于歌曲指紋庫,用于進行輸入歌曲片段的相似度比對,并增添音頻文件分析接口用于分析完整歌曲。模型效果:針對劣跡藝人歌曲的識別精準(zhǔn)度為94.16%;圖15.歌曲識別2.7聲紋識別項目背景:人物聲紋識別,針對特定的人物可以做具體管控方案流程:?

VAD進行語音活性檢測,提取人聲部分;?

ResNet34作為主干網(wǎng)絡(luò),利用線上業(yè)務(wù)數(shù)據(jù)和部分開源數(shù)據(jù)進行微調(diào)訓(xùn)練;?

利用余弦相似度計算兩個聲紋之間的相似性。模型效果和應(yīng)用:圖16.聲紋識別1.特定人物聲紋攔截精確率98%+;2.8涉黃圖像識別模型效果和應(yīng)用項目背景?

在TT語音下,機審攔截內(nèi)容識別準(zhǔn)確率為93.15%;線上色情、性感類涉黃圖像識別?

應(yīng)用于TT語音和AIGC圖片場景;方案流程分支任務(wù)1分支任務(wù)2違規(guī)粗粒度標(biāo)簽?

基于經(jīng)典ResNet50預(yù)訓(xùn)練模型結(jié)構(gòu),利用線上業(yè)務(wù)數(shù)據(jù)和部分開源數(shù)據(jù)進行微調(diào)訓(xùn)練;?

同時考慮到標(biāo)注成本和線上標(biāo)簽數(shù)據(jù)形態(tài),結(jié)合多任務(wù)圖像識別算法更改模型結(jié)構(gòu)進行學(xué)習(xí),從而實現(xiàn)較為精準(zhǔn)地識別涉黃圖像;輸入圖片主干模型違規(guī)細(xì)粒度標(biāo)簽圖17.涉黃圖像識別3.智能內(nèi)容審核平臺案例-架構(gòu)圖圖18.T網(wǎng)架構(gòu)圖3.智能內(nèi)容審核平臺案例-流程圖圖19.T網(wǎng)審核流程圖3.智能內(nèi)容審核平臺-微服務(wù)架構(gòu)entranceschedulerschedulerschedulerasrtranscodeT網(wǎng)架構(gòu)處理能力...共x種rtpnlpT網(wǎng)系統(tǒng)可靠性?

自研任務(wù)編排系統(tǒng)(AI中臺一部分),統(tǒng)一算力管理和容災(zāi)?

拆分算法服務(wù),細(xì)粒度的算力伸縮和統(tǒng)一調(diào)度?

最大并發(fā)語音流可線性擴展?

Pod個數(shù)?

微服務(wù)?

支持多可用區(qū)部署圖20.T網(wǎng)微服務(wù)架構(gòu)3.智能內(nèi)容審核平臺-多任務(wù)調(diào)度方案目的:實現(xiàn)可動態(tài)配置的媒體算法加工流水線,滿足任意租戶的不同審核需求算法層A-streamingTTUKI唱鴨...拉流sedasrasrnlpsedasrA-streaming-tttranscode調(diào)度層B-streaming-ukiB-streamingBRassnlpC-streaming-changyanlptranscode圖21.T網(wǎng)多任務(wù)調(diào)度方案3.智能內(nèi)容審核平臺-T網(wǎng)管理后臺圖22.T網(wǎng)-審核后臺3.智能內(nèi)容審核平臺-BI報表圖23.T網(wǎng)-BI報表展示4.AIGC內(nèi)容風(fēng)控實踐圖24.AIGC平臺4.AIGC內(nèi)容風(fēng)控實踐-文生文攔截針對文生文場景,利用關(guān)鍵詞+語義理解審核技術(shù),對輸入和輸出進行審核圖25.AIGC-文生文審核4.AIGC內(nèi)容風(fēng)控實踐-文生圖審核針對文生圖場景,利用AI圖像涉政&涉黃審核技術(shù),降低風(fēng)控風(fēng)險?

對涉黃類的裸露、行為、性感等進行攔截?

對涉政內(nèi)容進行攔截不合規(guī)圖片?

存在的問題:

生成圖不可控、不合理圖26.AIGC文生圖審核5.未來展望?

利用LLM能力強化語義理解,提升審核準(zhǔn)確率和數(shù)據(jù)收集速度?

用戶對抗下的精細(xì)化算法模型,強化多模態(tài)復(fù)雜任務(wù)決策?

審核平臺的langchain+LLM工作流介入,打通輿情監(jiān)控到內(nèi)審決策全鏈路?

AIGC內(nèi)容用傳統(tǒng)算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論