華為云AI視頻技術(shù)白皮書-2024.08-36正式版-WN8

上傳人：中*** IP屬地：廣東上傳時(shí)間：2024-09-30 格式：PPT 頁數(shù)：36 大?。?.68MB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩31頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

華為云AI視頻技術(shù)白皮書引

言

/01AI與視頻的碰撞

/052.1發(fā)展趨勢(shì)

........................................................................................................................052.2典型場(chǎng)景

........................................................................................................................07AI視頻介紹

/093.1參考架構(gòu)

..........................................................................................................................093.2行業(yè)視頻管理服務(wù)（IVM）........................................................................................113.3視頻智能分析服務(wù)（VIAS）

......................................................................................133.4盤古CV大模型

................................................................................................................153.5盤古視頻解譯大模型

...................................................................................................21華為云

AI視頻技術(shù)白皮書AI視頻應(yīng)用案例

/234.1華為門店

..........................................................................................................................234.2物流

...................................................................................................................................254.3鐵路

...................................................................................................................................264.4礦山

...................................................................................................................................284.5電力

...................................................................................................................................30展望未來，從感知到生成

/31引

言用攝像機(jī)拍攝，記錄并播放視頻可以回溯到

世紀(jì)，大家公認(rèn)的第一部電影是法國影片《工廠的大門》，1895

年由路易斯

盧米埃爾攝影。表現(xiàn)當(dāng)時(shí)法國里昂盧米埃爾工廠放工時(shí)的情景，片長僅一分多鐘。從這以后，攝影技術(shù)持續(xù)發(fā)展，從模擬技術(shù)到數(shù)字技術(shù)，從電影攝像機(jī)到家用攝像機(jī)，直到電腦，手機(jī)等便攜終端內(nèi)置攝像頭，攝像已經(jīng)成為當(dāng)今社會(huì)人們記錄信息并傳播交流的最重要工具和手段，也是大眾百姓所需要和掌握的一項(xiàng)基本生活技能。攝像技術(shù)應(yīng)用也從電影，廣播電視發(fā)展到生活中的方方面面，包括城市治理、安全防護(hù)、工業(yè)質(zhì)檢等等。每個(gè)城市，每個(gè)企業(yè)都有大量的攝像機(jī)，不斷在記錄發(fā)生的一切。海量的視頻數(shù)據(jù)，在方便大眾的生活的同時(shí)，也帶來了很多管理上的困擾。數(shù)據(jù)如何有效存儲(chǔ)，如何能夠感知并記錄關(guān)鍵事件，如何能夠?qū)⑵聊幻媲暗墓ぷ魅藛T解放出來或者減輕他們工作的強(qiáng)度，已經(jīng)成為視頻使用者最關(guān)心的問題。與此同時(shí)，AI

技術(shù)雖然起步較晚，但隨著其快速的發(fā)展，已經(jīng)在諸多方面與視頻技術(shù)產(chǎn)生了深度的融合。01華為云AI視頻技術(shù)白皮書1950年，艾倫

?圖靈（AlanTuring）在論文《計(jì)算機(jī)器與智能（ComputingMachineryandIntelligence）》中提出了著名的“圖靈測(cè)試”，給出了判定機(jī)器是否有“智能”的試驗(yàn)方法。

1956年夏，麥卡錫、明斯基等科學(xué)家在美國達(dá)特茅斯學(xué)院開會(huì)研討“如何用機(jī)器模擬人的智能”，首次提出“人工智能（Arti?cialIntelligence，簡(jiǎn)稱

AI）”這一概念，標(biāo)志著人工智能學(xué)科的誕生。人工智能從誕生之初，就希望讓機(jī)器理解這個(gè)世界，將人類從繁瑣，重復(fù)性的事務(wù)中脫離出來。從符號(hào)主義、專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)到預(yù)訓(xùn)練大模型，一個(gè)又一個(gè)技術(shù)的突破，讓人類看到了通用人工智能的希望。自然而然，用人工智能識(shí)別視頻數(shù)據(jù)，甚至生成視頻數(shù)據(jù)成為了技術(shù)路線的必然選擇。華為公司在視頻技術(shù)和人工智能技術(shù)上都有深厚的積累和豐富的實(shí)踐，華為云

AI視頻產(chǎn)品正是將

AI和視頻技術(shù)相結(jié)合的優(yōu)秀典范。此篇《華為云

AI視頻白皮書》，是我們團(tuán)隊(duì)研究和實(shí)踐經(jīng)驗(yàn)的總結(jié)，希望能夠更好地促進(jìn)產(chǎn)業(yè)的發(fā)展，讓攝像機(jī)“看得懂、會(huì)說話”。華為云AI視頻技術(shù)白皮書02AI與視頻的碰撞沒有孤立的技術(shù)，融合才能發(fā)展。視頻技術(shù)和

技術(shù)雖然起步時(shí)間不同，但在發(fā)展中卻交相輝映，在最需要彼此的時(shí)候相遇。如下圖所示，人工智能和視頻編解碼，都經(jīng)歷了漫長的摸索期，并先后于

世紀(jì)取得突破式發(fā)展。深度學(xué)習(xí)將人工智能帶入千行百業(yè)的生產(chǎn)流程，H.264

編碼技術(shù)將視頻業(yè)務(wù)帶入移動(dòng)互聯(lián)網(wǎng)，成為每個(gè)消費(fèi)者日常的必需品。兩條平行發(fā)展的技術(shù)踩著同樣的步點(diǎn)，在視頻數(shù)據(jù)爆發(fā)增長，預(yù)訓(xùn)練大模型橫空出世的時(shí)代相遇。AI

和視頻的結(jié)合是趨勢(shì)和必然，給所有人，所有行業(yè)無限的想象空間和發(fā)展?jié)摿Α蓚€(gè)超萬億產(chǎn)值的行業(yè)相乘，將帶來無法估量的產(chǎn)業(yè)價(jià)值。03華為云AI視頻技術(shù)白皮書機(jī)器學(xué)習(xí)

&深度學(xué)習(xí)階段人工智能起步階段專家系統(tǒng)階段大模型

&通用人工智能第三次興起Transformer出現(xiàn)ChatGPT第二次高潮

-快速發(fā)展期2000年以后，算力

+算法

+數(shù)據(jù)Google提出TransformerOpenAI發(fā)布ChatGPT“專家系統(tǒng)”出現(xiàn)，為企業(yè)一年節(jié)省數(shù)千萬美金。專家系統(tǒng)所依賴的知識(shí)庫系統(tǒng)和知識(shí)工程成為主要研究方向，政府開始重視人工智能項(xiàng)目的突破帶來深度學(xué)習(xí)的興起替換第一次高潮

-黃金發(fā)展期CNN/RNN2007年，李飛飛構(gòu)建開源ImageNet，世界最大的圖像識(shí)別數(shù)據(jù)集（2萬多類別）符號(hào)主義和聯(lián)接主義接連出現(xiàn)，機(jī)器學(xué)習(xí)理論和計(jì)算機(jī)視覺學(xué)科誕生起源達(dá)特茅斯會(huì)議的人工智能研討，標(biāo)志著

AI誕生20231980s201720061960s19931974–19801956第一次寒冬第二次寒冬算法只能解決狹窄領(lǐng)域的問題，算力不足以支撐發(fā)展專家系統(tǒng)通用性差成本高，維護(hù)復(fù)雜使用時(shí)間壓縮的幀間預(yù)測(cè)編碼DCT圖像壓縮算法H.261H.263H.263+H.263++H.262/MPEG-2MPEG-4H.264/MPEG-4AVCH.265/HEVCH.266MPEG-1圖表

1人工智能

VS視頻編解碼發(fā)展歷史華為云AI視頻技術(shù)白皮書0402|AI

與視頻的碰撞2.1發(fā)展趨勢(shì)趨勢(shì)

1：視頻流云上集中管理大量的攝像機(jī)安裝完成后，面臨的問題是如何集中式管理。攝像機(jī)分散在不同的地方，管理者需要在一個(gè)平臺(tái)上，跨區(qū)域、大范圍集中管理，通過完善的分權(quán)分域能力保護(hù)隱私安全。同時(shí)，各攝像機(jī)采集的視頻需要集中存儲(chǔ)，因?yàn)楸镜鼗稚⒋鎯?chǔ)會(huì)造成信息碎片化，無法形成多個(gè)視頻流之間的聯(lián)動(dòng)，且本地存儲(chǔ)易丟失、管理成本高。統(tǒng)一的云上存儲(chǔ)，則可以有效解決以上問題。咨詢報(bào)告指出，2023年到

2027年，視頻流上云和云存儲(chǔ)的年復(fù)合增長率超過

27%。在云化的趨勢(shì)下，視頻流云上管理、存儲(chǔ)越來越成為業(yè)界趨勢(shì)，企業(yè)的主流選擇。趨勢(shì)

2：用預(yù)訓(xùn)練的大模型生成場(chǎng)景模型AI技術(shù)中，處理視頻的相關(guān)技術(shù)一般被稱為計(jì)算機(jī)視覺（ComputingVision）。計(jì)算機(jī)視覺是一種利用計(jì)算機(jī)和數(shù)學(xué)算法來模擬和自動(dòng)化人類視覺的過程。它涉及到從數(shù)字圖像或視頻中提取信息，如對(duì)象識(shí)別、場(chǎng)景理解、運(yùn)動(dòng)跟蹤、三維重建等。計(jì)算機(jī)視覺技術(shù)在許多領(lǐng)域都有應(yīng)用，如自動(dòng)駕駛、醫(yī)學(xué)影像分析、機(jī)器人視覺等。計(jì)算機(jī)視頻分析視頻流或者圖片時(shí)采用計(jì)算機(jī)視覺模型。計(jì)算機(jī)視覺模型是指使用深度學(xué)習(xí)技術(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型，用于解決計(jì)算機(jī)視覺領(lǐng)域的各種問題。這些模型通常由數(shù)百萬或更多個(gè)參數(shù)組成，可以對(duì)圖像、視頻等視覺數(shù)據(jù)進(jìn)行高級(jí)別的理解和分析，例如圖像分類、目標(biāo)檢測(cè)、語義分割、人臉識(shí)別等任務(wù)。05華為云AI視頻技術(shù)白皮書AI

與視頻的碰撞

|02隨著大數(shù)據(jù)和

算力的發(fā)展，模型參數(shù)越來越大，大模型應(yīng)運(yùn)而生。大模型指網(wǎng)絡(luò)規(guī)模巨大的深度學(xué)習(xí)模型，具體表現(xiàn)為模型的參數(shù)量規(guī)模較大，其規(guī)模通常在百億以上級(jí)別。研究發(fā)現(xiàn)，模型的性能（指精度）通常與模型的參數(shù)規(guī)模息息相關(guān)。模型參數(shù)規(guī)模越大，模型的學(xué)習(xí)能力越強(qiáng)，最終的精度也將更高，泛化性也越強(qiáng)。用大模型可以有效提升場(chǎng)景模型的準(zhǔn)確率和泛化性，加上預(yù)訓(xùn)練的海量數(shù)據(jù)，用少量樣本，甚至零樣本就可以生成場(chǎng)景模型，解決視頻算法長尾的問題。趨勢(shì)

3：用視頻解譯大模型理解視頻內(nèi)容視頻場(chǎng)景模型可以用確定的規(guī)則對(duì)視頻流進(jìn)行分析，識(shí)別關(guān)鍵事件，輔助人工進(jìn)行判別并給出決策建議。但現(xiàn)實(shí)世界紛繁復(fù)雜，花鳥魚蟲，春夏秋冬，都在表達(dá)著自己的個(gè)性和不同，規(guī)則是無法窮盡的，判別式算法不斷遇到新的需求和挑戰(zhàn)。如何能夠用泛化性強(qiáng)的模型理解視頻，并通過自然語言的方式進(jìn)行交互和報(bào)告，真正讓人類從繁瑣、重復(fù)性的事務(wù)中脫離出來是行業(yè)內(nèi)普遍的需求。視頻解譯大模型融合了視覺大模型、多模態(tài)大模型、自然語言大模型多種模型，可以實(shí)現(xiàn)對(duì)視頻、圖片、聲音、文本多種模態(tài)組合分析，感知視頻流發(fā)生的各種事件，實(shí)現(xiàn)讓攝像機(jī)開口說話，實(shí)現(xiàn)真正的智能分析、智能交互、智能決策。華為云AI視頻技術(shù)白皮書0602|AI

與視頻的碰撞2.2典型場(chǎng)景城市日常管理在城市治理場(chǎng)景中，往往建設(shè)有龐大復(fù)雜的城市事件類別體系，包含了繁多細(xì)碎的事項(xiàng)類別，如垃圾暴露、道路破損、圍欄破損等等，一個(gè)城市一般有幾百種事件類別。同時(shí)，不同城市可能還有不同的標(biāo)準(zhǔn)，可能某城市關(guān)注某一些特定事件類別，另一個(gè)城市又關(guān)注另一些特定事件類別。因此，城市政務(wù)場(chǎng)景面臨著眾多碎片化

需求場(chǎng)景。城市事件的類別數(shù)量眾多，同時(shí)絕大多數(shù)的城市事件又難以采集到大量數(shù)據(jù)來訓(xùn)練

模型，這種問題我們稱為“碎片化長尾需求場(chǎng)景”?！八槠L尾需求”一直是

開發(fā)面臨的難題，傳統(tǒng)的

開發(fā)模式需要對(duì)每種目標(biāo)類別單獨(dú)采集數(shù)據(jù)、訓(xùn)練模型，依賴專家經(jīng)驗(yàn)進(jìn)行算法參數(shù)調(diào)優(yōu)，最后才能上線應(yīng)用，每種算法的開發(fā)周期耗費(fèi)幾周至幾個(gè)月，低下的效率難以滿足當(dāng)前高速的城市建設(shè)發(fā)展。華為

視頻方案，基于

開發(fā)工作流，將數(shù)據(jù)標(biāo)注、模型訓(xùn)練、部署上線等繁雜的流程固化為一個(gè)流水線的步驟，無需編寫代碼，任何人只要有準(zhǔn)備數(shù)據(jù)，都可以通過流水線交互步驟快速地完成一個(gè)

應(yīng)用的開發(fā)和上線。每個(gè)AI

算法的開發(fā)周期縮短至幾天便可完成。同時(shí)基于預(yù)訓(xùn)練

大模型的能力，依托于海量的大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練，即便只有少量樣本，也可以達(dá)到良好的模型泛化性和魯棒性，解決碎片化長尾需求的問題。由此可見，AI

視頻方案中的預(yù)訓(xùn)練

大模型

+AI

開發(fā)工作流，可以更好地契合城市治理的痛點(diǎn)需求，解決碎片化長尾需求場(chǎng)景的問題，更好地將

落地到智慧城市的建設(shè)發(fā)展中。07華為云AI視頻技術(shù)白皮書AI

與視頻的碰撞

|02城市應(yīng)急處置在城市建設(shè)過程中，除了事先設(shè)定好的事件類別，還經(jīng)常有突發(fā)性的臨時(shí)需求。比如突發(fā)暴雨，很多地方會(huì)臨時(shí)地希望檢測(cè)各地是否有積水內(nèi)澇的情況，以便及時(shí)預(yù)防與救援；或者某地突發(fā)交通事故，相關(guān)部門也想快速地排查周邊受影響交通擁堵的路段，以及時(shí)安排人力疏通車流。這些突發(fā)性的臨時(shí)需求，可能根據(jù)天氣、地點(diǎn)、時(shí)間等不同因素千變?nèi)f化，這在城市政務(wù)的場(chǎng)景十分常見，也對(duì)于保障城市正常運(yùn)轉(zhuǎn)有著非常重要的作用。然而，這種臨時(shí)性的需求對(duì)于傳統(tǒng)

開發(fā)來說是災(zāi)難性的。傳統(tǒng)的

開發(fā)需要對(duì)每種待識(shí)別的事件采集數(shù)據(jù)、訓(xùn)練模型，而訓(xùn)練出來的模型也僅能解決這一特定的任務(wù)。當(dāng)一個(gè)臨時(shí)性的

需求來臨時(shí)，既往訓(xùn)練出來的模型肯定是無法適應(yīng)這個(gè)新的任務(wù)的，那又要基于這個(gè)新的需求采集對(duì)應(yīng)數(shù)據(jù)、訓(xùn)練模型，這一流程走下來即便有

開發(fā)工作流支撐，少說也要幾天的時(shí)間開發(fā)上線。但是臨時(shí)性的需求往往是緊急的，比如對(duì)于積水內(nèi)澇的場(chǎng)景，時(shí)間就是生命，業(yè)務(wù)往往要求算法立刻就能發(fā)揮作用、識(shí)別事件。因此傳統(tǒng)的

開發(fā)模式面對(duì)這種緊急的臨時(shí)性需求就顯得捉襟見肘了。華為

視頻方案，基于業(yè)界最新的多模態(tài)大模型技術(shù)，構(gòu)建了開放式的目標(biāo)檢測(cè)和分割模型。該算法模型基于海量數(shù)據(jù)預(yù)訓(xùn)練的大模型，具備通用的特征提取能力，同時(shí)內(nèi)嵌預(yù)言大模型，可以理解用戶輸入文本的語義信息。因此，該模型可以結(jié)合用戶輸入的任意文本信息，實(shí)現(xiàn)對(duì)應(yīng)物體的檢測(cè)，即便這個(gè)物體之前沒有出現(xiàn)在模型的訓(xùn)練集里。這種特性非常符合城市治理里突發(fā)性的臨時(shí)需求場(chǎng)景。比如面對(duì)積水內(nèi)澇的場(chǎng)景，就不需要再針對(duì)積水事件重新訓(xùn)練一個(gè)模型，而是簡(jiǎn)單地輸入一個(gè)類似“請(qǐng)問畫面中是否有積水內(nèi)澇？”的語句，算法通過圖片和文本的語義理解，就可以識(shí)別出來畫面中是否有積水內(nèi)澇的事件了。這樣一來，算法就不再局限于僅能識(shí)別特定范圍的一些事件，應(yīng)用的廣度被無限地拉大，也能更好地滿足城市政務(wù)場(chǎng)景中靈活變化的業(yè)務(wù)需求。更詳細(xì)的應(yīng)用場(chǎng)景請(qǐng)參考章節(jié)“4AI視頻應(yīng)用案例”華為云AI視頻技術(shù)白皮書08AI視頻介紹3.1參考架構(gòu)AI視頻服務(wù)依托聯(lián)接、云、AI、計(jì)算等新一代

ICT技術(shù)與知識(shí)創(chuàng)新融合，將感知、認(rèn)知、決策、行動(dòng)實(shí)現(xiàn)深度協(xié)同。其充分利用云計(jì)算能力，系統(tǒng)功能可靠、穩(wěn)定、完整。平臺(tái)設(shè)計(jì)秉承模塊化、框架化、集群化、服務(wù)化的設(shè)計(jì)理念，提供電信級(jí)系統(tǒng)可靠性、可擴(kuò)展性和可維護(hù)性，滿足不同場(chǎng)景對(duì)接整合、兼容應(yīng)用和可持續(xù)發(fā)展的需要。AI視頻服務(wù)是面向行業(yè)視頻場(chǎng)景的組合方案，參考華為公司架構(gòu)，包括行業(yè)視頻管理（IVM）,智能視頻分析服務(wù)（VIAS）和盤古

CV大模型三個(gè)產(chǎn)品。可以提供一站式服務(wù)，將視頻流從攝像機(jī)接入上來，進(jìn)行調(diào)閱管理、存儲(chǔ)管理，同時(shí)對(duì)視頻流中的內(nèi)容進(jìn)行分析，識(shí)別關(guān)鍵事件，捕捉異常場(chǎng)景，并上報(bào)給上層應(yīng)用系統(tǒng)進(jìn)行處理，實(shí)現(xiàn)用人工智能的方式，用攝像機(jī)感知萬物、掌控全局。如下圖所示，典型的組網(wǎng)分為接入層、網(wǎng)絡(luò)層、平臺(tái)層和應(yīng)用層。AI視頻服務(wù)屬于平臺(tái)層網(wǎng)元，和接入層、網(wǎng)絡(luò)層、應(yīng)用層設(shè)備互聯(lián)互動(dòng)，相互配合，形成整體解決方案。09華為云AI視頻技術(shù)白皮書應(yīng)用場(chǎng)景智慧城市智慧園區(qū)智能安防智慧企業(yè)......統(tǒng)一的標(biāo)準(zhǔn)接口統(tǒng)一的標(biāo)準(zhǔn)接口視頻智能分析服務(wù)

(VIAS)盤古

模型任務(wù)中心視頻中心算法中心運(yùn)維中心事件中心基礎(chǔ)模型萬物檢測(cè)萬物分割平臺(tái)層行業(yè)視頻管理

(IVM)視頻接入視頻存儲(chǔ)視頻傳輸云基礎(chǔ)

：計(jì)算

/存儲(chǔ)（對(duì)象存儲(chǔ)）/網(wǎng)絡(luò)

/安全網(wǎng)絡(luò)層視頻流視頻流視頻專網(wǎng)虛擬專用網(wǎng)互聯(lián)網(wǎng)終端接入層邊緣視頻設(shè)備（攝像頭、NVR）圖表

2AI視頻系統(tǒng)架構(gòu)圖華為云AI視頻技術(shù)白皮書1003|AI

視頻介紹接入層主要設(shè)備為攝像機(jī)和

NVR，負(fù)責(zé)采集視頻數(shù)據(jù)，并通過標(biāo)準(zhǔn)協(xié)議注冊(cè)到平臺(tái)層，被平臺(tái)進(jìn)行管理；NVR可以實(shí)現(xiàn)對(duì)多個(gè)攝像機(jī)匯聚管理，并在本地存儲(chǔ)視頻。虛擬機(jī)，OBS存儲(chǔ)，網(wǎng)絡(luò)傳輸?shù)饶芰?，完成?duì)攝像機(jī)設(shè)備信息，以及產(chǎn)生的視頻流管理。同時(shí)基于人工智能技術(shù)，AI視頻提供對(duì)視頻流的分析能力，理解視頻流內(nèi)容、關(guān)鍵事件，并將相應(yīng)的結(jié)果推送給上層應(yīng)用系統(tǒng)。網(wǎng)絡(luò)層主要為網(wǎng)絡(luò)設(shè)備，負(fù)責(zé)通過

IP協(xié)議，將攝像機(jī)，NVR等邊緣設(shè)備接入到平臺(tái)層，同時(shí)負(fù)責(zé)包保障視頻流傳輸?shù)馁|(zhì)量，包括但不限于丟包，抖動(dòng)，時(shí)延等等。應(yīng)用層負(fù)責(zé)面向行業(yè)，提供圖形化頁面和管理功能。不同行業(yè)有不同的應(yīng)用系統(tǒng)，例如連鎖門店客流管理系統(tǒng)、智慧安防系統(tǒng)、智慧園區(qū)管理系統(tǒng)等等。華為云

AI視頻服務(wù)和應(yīng)用層是松耦合關(guān)系，采用消息接口對(duì)接。平臺(tái)層的

AI視頻服務(wù)，采用云化架構(gòu)，支持公有云，混合云等多種模式。AI視頻屬于

SaaS服務(wù)，依賴云平臺(tái)3.2行業(yè)視頻管理服務(wù)（IVM）3.2.1業(yè)務(wù)需求GB/T28181協(xié)議，同時(shí)還支持私有協(xié)議也支持中國標(biāo)準(zhǔn)接入，通過私有協(xié)議或者

SDK，實(shí)現(xiàn)視頻流解碼顯示能力。部署攝像機(jī)（SDC/IPC）等端側(cè)設(shè)備后，首先需要集中管理功能，包括設(shè)備信息注冊(cè)、遠(yuǎn)程配置、分權(quán)分域等功能。同時(shí)還要能夠?qū)崿F(xiàn)基于互聯(lián)網(wǎng)任意時(shí)間、任意地點(diǎn)查看攝像機(jī)狀態(tài)、視頻流內(nèi)容。同時(shí)，為了追溯、回溯，還要能夠?qū)崿F(xiàn)視頻流存儲(chǔ)，將視頻流錄制下來，長時(shí)間安全保存。2.視頻調(diào)閱行業(yè)視頻管理服務(wù)具備為公眾及其他業(yè)務(wù)系統(tǒng)提供媒體流播放能力。媒體轉(zhuǎn)碼主要滿足互聯(lián)網(wǎng)

web/H5技術(shù)和視頻系統(tǒng)媒體流之間的轉(zhuǎn)換適配需求，通過將碼流轉(zhuǎn)換為

RTMP、HTTP-FLV、HLS等

PC端可直接播放的視頻流，為業(yè)務(wù)集成和開放提供快速的技術(shù)方案，同時(shí)提供基于視頻技術(shù)的富媒體應(yīng)用技術(shù)。3.2.2方案建議行業(yè)視頻管理服務(wù)（IndustryVideoManagementService）依托于華為云基礎(chǔ)設(shè)施與音視頻領(lǐng)域技術(shù)優(yōu)勢(shì)，為攝像機(jī)（SDC/IPC）、網(wǎng)絡(luò)視頻錄像機(jī)（NVR）、智能視頻存儲(chǔ)（IVS1800）等華為及第三方設(shè)備，提供云端視頻接入、視頻傳輸及視頻存儲(chǔ)能力，適用于安全防范、生產(chǎn)管理、智慧運(yùn)營等場(chǎng)景。行業(yè)視頻管理服務(wù)可以幫助企業(yè)快速完成視頻設(shè)備上云和智能化，助力企業(yè)數(shù)字化轉(zhuǎn)型。支持遠(yuǎn)程查看前端攝像機(jī)的實(shí)時(shí)視頻，根據(jù)現(xiàn)場(chǎng)情況進(jìn)行事件預(yù)判，實(shí)現(xiàn)視頻實(shí)時(shí)瀏覽播放，實(shí)時(shí)播放時(shí)可顯示視頻相關(guān)信息，便于視頻流的狀態(tài)查詢和故障診斷。支持多布局能力，支持多個(gè)視頻點(diǎn)位同時(shí)進(jìn)行實(shí)況預(yù)覽；單擊攝像機(jī)開啟視頻按照從左到右、從上到下的順序選擇播放窗口；如果當(dāng)前所有窗格已經(jīng)用完，可手動(dòng)增加另一個(gè)多窗格布局；系統(tǒng)客戶端支持同時(shí)播放多個(gè)前端設(shè)備的實(shí)時(shí)視頻。主要包括設(shè)備接入，視頻調(diào)閱，錄像管理等功能。1.設(shè)備接入支持顯示當(dāng)前實(shí)況攝像頭的視頻信息，其中視頻信息包括：當(dāng)前碼率、平均碼率、編碼格式、分辨率等；

支持聲音控制，例如靜音、取消靜音；支持以拖動(dòng)攝像頭的行業(yè)視頻管理服務(wù)（IVM）支持國際標(biāo)準(zhǔn)協(xié)議接入攝像機(jī)，11華為云AI視頻技術(shù)白皮書AI

視頻介紹

|03方式進(jìn)行播放和停止；支持單畫面停止播放，支持全部畫面停止。行事后錄像的檢索，通過錄像可查看之前發(fā)生的事件現(xiàn)場(chǎng)視頻，實(shí)現(xiàn)事后取證功能。同時(shí)支持查詢平臺(tái)錄像、前端錄像；支持自定義時(shí)間范圍進(jìn)行錄像查詢；支持錄像查詢結(jié)果以進(jìn)度條方式展現(xiàn)，進(jìn)度條可以前后拖動(dòng)，支持精度縮放等功能。3.錄像管理行業(yè)視頻管理服務(wù)提供大容量的云端存儲(chǔ)，通過互聯(lián)網(wǎng)實(shí)時(shí)將前端數(shù)據(jù)傳出至云端，依托于華為云

OBS

服務(wù)，為客戶提供可靠的數(shù)據(jù)數(shù)據(jù)備份，幫助客戶實(shí)現(xiàn)更長周期、更大容量、更高安全的云上數(shù)據(jù)管理。3.2.3小結(jié)行業(yè)視頻管理服務(wù)（IVM）基于華為公有云，提供攝像機(jī)設(shè)備管理、接入、調(diào)閱、存儲(chǔ)等服務(wù)。主要功能服務(wù)方式如下，供項(xiàng)目參考。用戶可以在客戶端上回放錄像，也可以將系統(tǒng)錄像文件下載到本地，支持使用通用播放器進(jìn)行回放。用戶可進(jìn)產(chǎn)品組合商

品量

綱應(yīng)用場(chǎng)景視頻接入路

/年公有云必選行業(yè)視頻管理服務(wù)調(diào)閱帶寬Mbps/年GB/年公有云必選視圖云存儲(chǔ)云存儲(chǔ)、云備份、告警錄像圖表

3行業(yè)視頻管理

(IVM)方案建議華為云AI視頻技術(shù)白皮書1203|AI

視頻介紹3.3視頻智能分析服務(wù)（VIAS）3.3.1業(yè)務(wù)需求主要包括分析服務(wù)、算法中心、視頻中心、任務(wù)中心、事件中心等功能。完成攝像機(jī)和行業(yè)視頻管理平臺(tái)建設(shè)后，實(shí)現(xiàn)了視頻流集中管理、集中存儲(chǔ)。如果僅僅依靠人工監(jiān)看的方式，必然消耗大量人力，識(shí)別準(zhǔn)確率依賴人員技能。如何實(shí)現(xiàn)視頻流的自動(dòng)分析、準(zhǔn)確識(shí)別關(guān)事件主動(dòng)上報(bào)成為普遍的業(yè)務(wù)需求?；谌斯ぶ悄艿囊曨l分析服務(wù)，要能夠?yàn)樯蠈拥男袠I(yè)應(yīng)用提供

AI能力，包括但不限于：1.分析服務(wù)視頻分析服務(wù)是承載視頻

AI算法的彈性計(jì)算引擎，提供視頻數(shù)據(jù)接入、分析及告警輸出的能力，可通過

API支撐業(yè)務(wù)開發(fā)應(yīng)用，同時(shí)能夠幫助

AI開發(fā)人員提升視頻

AI集成效率，助力其核心業(yè)務(wù)價(jià)值開發(fā)。??豐富的視頻分析算法，滿足復(fù)雜場(chǎng)景分析需求；建設(shè)視頻統(tǒng)一分析平臺(tái)，集中管理，充分盤活視頻資源；視頻分析能力主要基于如下技術(shù)構(gòu)建：?算法統(tǒng)一管理，算法和算力解耦，多廠家算法共享算法倉，算力統(tǒng)一調(diào)度。1)物體檢測(cè)技術(shù)物體檢測(cè)是視覺感知的第一步，也是計(jì)算機(jī)視覺的一個(gè)重要分支。物體檢測(cè)的目標(biāo)，就是用框去標(biāo)出物體的位置，并給出物體的類別。在當(dāng)前視頻分析服務(wù)構(gòu)建的能力中，人或者車的檢測(cè)是第一步，也是最關(guān)鍵的一步。人與車目標(biāo)檢測(cè)的準(zhǔn)確率也會(huì)直接影響后續(xù)算法的效果，但由于目標(biāo)環(huán)境的多樣性復(fù)雜性，對(duì)于物體的檢測(cè)，通常會(huì)受到不同環(huán)境的干擾。所以為了提高算法的準(zhǔn)確率，通常會(huì)針對(duì)實(shí)際的應(yīng)用場(chǎng)景進(jìn)行定制化的訓(xùn)練，以此排除復(fù)雜的環(huán)境帶來的干擾。3.3.2方案建議視頻智能分析服務(wù)（VIAS）是集成視頻

AI分析、事件感知等能力的一體化平臺(tái)，實(shí)現(xiàn)智慧園區(qū)、城市治理、安全生產(chǎn)等場(chǎng)景的事件感知、分析和決策能力，助力業(yè)務(wù)閉環(huán)。視頻智能分析服務(wù)提供豐富的“開箱即用”的算法模型，包括城市治理、公共安全、連鎖門店、智慧物流、智慧園區(qū)等等，幫助千行百業(yè)快速使用成熟的人工智能技術(shù)，提效降本。2)圖像分類技術(shù)一張圖像中是否包含某種物體，對(duì)圖像進(jìn)行特征描述是物體分類的主要研究?jī)?nèi)容。一般說來，物體分類算法通過手工特征或者特征學(xué)習(xí)方法對(duì)整個(gè)圖像進(jìn)行全局描述，然后使用分類器判斷是否存在某類物體。圖像分類的研究，通常衍生出來對(duì)特定目標(biāo)物體進(jìn)行檢測(cè)的能力，比如識(shí)別大貨車、公交車等特定的目標(biāo)。3)物體定位技術(shù)如果說圖像識(shí)別解決的是

what，那么物體定位解決的則是

where的問題。利用計(jì)算視覺技術(shù)找到圖像中某一目標(biāo)物體在圖像中的位置，即定位。對(duì)物體的定位，通常能衍生出很廣的應(yīng)用場(chǎng)景。比如在安防領(lǐng)域，判斷目標(biāo)13華為云AI視頻技術(shù)白皮書AI

視頻介紹

|03物體的位置，可以進(jìn)行入侵檢測(cè)、徘徊檢測(cè)以及過線計(jì)數(shù)等等算法。實(shí)現(xiàn)視頻算法的整體功能性配置，構(gòu)建基于視頻數(shù)據(jù)的智能分析應(yīng)用。視頻中心支持視頻源管理，視頻質(zhì)量巡檢，攝像機(jī)分組管理等功能?；谌缟霞夹g(shù)，視頻分析服務(wù)可提供面向智慧園區(qū)、水利、4.任務(wù)中心交通、應(yīng)急管理等場(chǎng)景的視頻AI

分析能力，不但能保證自研

算法的接入，還能保證第三方算法和行業(yè)共享算法的對(duì)接，最終實(shí)現(xiàn)

能力的穩(wěn)步提升。任務(wù)中心提供算法作業(yè)配置、算法作業(yè)管理能力，是算法的核心配置模塊，通過該模塊的配置，算法即可具備分析功能。任務(wù)中心支持作業(yè)配置、作業(yè)管理、批量配置、公共模板、定時(shí)任務(wù)等功能。華為視頻分析算法，基于

100+

項(xiàng)目實(shí)踐經(jīng)驗(yàn)持續(xù)積累、優(yōu)化，已沉淀形成多種類型的算法能力。2.算法中心5.事件中心算法中心提供多廠商、多框架、多功能的統(tǒng)一管理能力，支持用戶將導(dǎo)入的算法鏡像進(jìn)行統(tǒng)一管理，支持算法版本的全生命周期管理，為后續(xù)算法部署提供基礎(chǔ)管理能力。用戶可在該模塊查看已上線的算法能力，同時(shí)為三方開發(fā)者提供賬號(hào)體系，開發(fā)者可在該模塊發(fā)布新算法、更新算法版本。算法中心可跳轉(zhuǎn)算法商城，算法商城展示了可上線的算法能力清單，可根據(jù)用戶業(yè)務(wù)需求上線。事件中心提供事件統(tǒng)一管理，是算法的分析結(jié)果輸出模塊，委辦單位可通過該模塊查看視頻分析的事件結(jié)果，同時(shí)支持將事件分析結(jié)果上報(bào)到現(xiàn)網(wǎng)業(yè)務(wù)系統(tǒng)，及時(shí)發(fā)現(xiàn)事件并形成工單分派，提升網(wǎng)格處置效率。事件中心支持事件管理，事件重復(fù)聚合，事件審核，事件訂閱，運(yùn)營報(bào)告生成等功能。3.3.3小結(jié)3.視頻中心視頻智能分析服務(wù)（VIAS）基于華為公有云，提供視頻算法分析服務(wù)、算法管理、算力管理、任務(wù)管理、事件管理等。主要功能服務(wù)方式如下，供項(xiàng)目參考。視頻中心提供視頻源數(shù)據(jù)接入管理能力，是算法的前置輸入模塊，通過該模塊的配置，任務(wù)中心即可選擇輸入源，產(chǎn)品組合商

品量

綱應(yīng)用場(chǎng)景視頻智能分析視頻分析服務(wù)路

/年云上通用算法包路

/年云上專業(yè)算法包圖表

4視頻智能分析服務(wù)方案建議華為云AI視頻技術(shù)白皮書1403|AI

視頻介紹3.4盤古

CV大模型3.4.1業(yè)務(wù)需求因此如何能夠類似流水線的方式，用少量樣本，快速生成場(chǎng)景化模型，成為行業(yè)的迫切需求。隨著工業(yè)生產(chǎn)越來越強(qiáng)調(diào)智能化，大量傳統(tǒng)行業(yè)開始積累領(lǐng)域數(shù)據(jù)，并尋求人工智能算法以解決生產(chǎn)和研發(fā)過程中遇到的重復(fù)而冗雜的問題。這就意味著，人工智能算法在落地的過程中，將會(huì)面對(duì)大量不同場(chǎng)景、不同需求的用戶。這對(duì)算法的通用性提出了很高的要求。然而我們注意到，當(dāng)前業(yè)界大部分人工智能開發(fā)者，正在沿用傳統(tǒng)的“小作坊模式”，即針對(duì)每個(gè)場(chǎng)景，獨(dú)立地完成模型選擇、數(shù)據(jù)處理、模型優(yōu)化、模型迭代等一系列開發(fā)環(huán)節(jié)。由于無法積累通用知識(shí)，同時(shí)不同領(lǐng)域的調(diào)試方法有所不同，這樣的開發(fā)模式往往比較低效。特別地，當(dāng)前人工智能領(lǐng)域存在大量專業(yè)水平不高的開發(fā)者，他們往往不能掌握規(guī)范的開發(fā)模式和高效的調(diào)優(yōu)技巧，從而使得模型的精度、性能、可擴(kuò)展性等指標(biāo)都不能達(dá)到令人滿意的水平。我們將上述問題，稱為人工智能算法落地的碎片化困境。3.4.2方案建議華為盤古

CV大模型瞄準(zhǔn)人工智能在工業(yè)場(chǎng)景應(yīng)用中的困境，創(chuàng)造性提出用經(jīng)過海量數(shù)據(jù)預(yù)訓(xùn)練的視覺大模型作為訓(xùn)練工作流，用類似工業(yè)流水線的方式快速生成場(chǎng)景化模型。盤古

CV大模型收集大量圖像數(shù)據(jù)，以及圖像和文本對(duì)比數(shù)據(jù)，利用無監(jiān)督或者自監(jiān)督學(xué)習(xí)方法將數(shù)據(jù)中蘊(yùn)含的知識(shí)提取出來，存儲(chǔ)在具有大量參數(shù)的神經(jīng)網(wǎng)絡(luò)模型中。遇到特定任務(wù)時(shí)，只要調(diào)用一個(gè)通用的流程，就能夠?qū)⑦@些知識(shí)釋放出來，并且與行業(yè)經(jīng)驗(yàn)結(jié)合，解決實(shí)際問題。超大的神經(jīng)網(wǎng)絡(luò)強(qiáng)壯的網(wǎng)絡(luò)架構(gòu)優(yōu)秀的泛化能力多模態(tài)大模型科學(xué)計(jì)算大模型CV大模型（30億參數(shù)）NLP大模型（千億參數(shù)）盤古大模型模型

1場(chǎng)景

1流水線模型泛化

極大節(jié)省訓(xùn)練投入流水線

工具集成

訓(xùn)練更快場(chǎng)景

2場(chǎng)景

3模型

2模型

3泛化復(fù)制流水線流水線預(yù)訓(xùn)練模型華為云盤古大模型「AI工業(yè)化開發(fā)」效率提升10-100

倍預(yù)訓(xùn)練微調(diào)

&部署更佳模型性能迭代圖表

5盤古

CV大模型工作流原理15華為云AI視頻技術(shù)白皮書AI

視頻介紹

|03亮點(diǎn)介紹......腰帶物體檢測(cè)皮帶跑偏檢測(cè)流量檢測(cè)違章停車貨物檢測(cè)安全帽爬圍欄容器檢測(cè)違章停車L2場(chǎng)

景強(qiáng)大的預(yù)訓(xùn)練模型快速適配任務(wù)模型高速列車故障檢測(cè)每個(gè)行業(yè)的模型開發(fā)套件L1...礦

山城市治理鐵

路工

地港

口行業(yè)大模型少樣本實(shí)現(xiàn)高準(zhǔn)確率行業(yè)特定模型L0盤古

CV模型基礎(chǔ)大模型|||||||目標(biāo)檢測(cè)

異常檢測(cè)

圖像分類

語義分割

實(shí)例分割

視頻分類

目標(biāo)跟蹤

姿勢(shì)估計(jì)圖表

6盤古

CV大模型應(yīng)用場(chǎng)景和優(yōu)勢(shì)對(duì)于常見的視覺處理任務(wù)，盤古

CV大模型通過自動(dòng)化模型抽取、參數(shù)自動(dòng)化調(diào)優(yōu)等模塊實(shí)現(xiàn)場(chǎng)景模型的訓(xùn)練和推理。盤古

CV大模型包括物體檢測(cè)、姿態(tài)估計(jì)、視頻分類、圖像分類、異常檢測(cè)、目標(biāo)跟蹤、語義分割、實(shí)例分割等多條預(yù)訓(xùn)練工作流，可以全面覆蓋場(chǎng)景模型訓(xùn)練需求，并在礦山、鋼鐵、鐵路、交通等多個(gè)行業(yè)進(jìn)行驗(yàn)證和實(shí)踐，成為行業(yè)首選。高效率，利用行業(yè)模型高效表征及數(shù)據(jù)篩選能力，數(shù)據(jù)處理效率提升

5倍以上；由于盤古

CV大模型配套完善的工程套件，可以基于圖形化界面，零代碼前提下，實(shí)現(xiàn)數(shù)據(jù)標(biāo)注、模型開發(fā)、推理部署、實(shí)現(xiàn)

AI落地零門檻。購買盤古

CV大模型的企業(yè)，實(shí)現(xiàn)人工智能轉(zhuǎn)型，構(gòu)建“內(nèi)生的持續(xù)發(fā)展”的

AI能力。由于盤古

CV大模型配套完善的工程套件，可以基于圖形化界面，零代碼前提下，實(shí)現(xiàn)數(shù)據(jù)標(biāo)注、模型開發(fā)、推理部署，實(shí)現(xiàn)

AI落地零門檻。購買盤古

CV大模型的企業(yè)，實(shí)現(xiàn)人工智能轉(zhuǎn)型，構(gòu)建“內(nèi)生的，持續(xù)發(fā)展”的

AI能力。技術(shù)原理計(jì)算機(jī)視覺的主要目標(biāo)，是設(shè)計(jì)出能夠識(shí)別視覺信號(hào)，并且對(duì)其進(jìn)行各種處理和分析的程序。換句話說，計(jì)算機(jī)視覺是研究計(jì)算機(jī)如何去“看”的學(xué)科。其中，較為典型的任務(wù)包括圖像分類、物體檢測(cè)、物體分割、物體追蹤、姿態(tài)估計(jì)等。下圖展示了圖像分類中最著名的ImageNet數(shù)據(jù)集（超過

2萬個(gè)物體類別）和

MS-COCO數(shù)據(jù)集（包括檢測(cè)、分割等多種任務(wù)）。小樣本，結(jié)合數(shù)據(jù)檢索及數(shù)據(jù)增廣技術(shù)，相對(duì)傳統(tǒng)訓(xùn)練方式，數(shù)據(jù)需求減少

80%以上；高精度，受益于更好的語義對(duì)齊效果，在小樣本學(xué)習(xí)上表現(xiàn)優(yōu)異，顯著超越對(duì)比方法；華為云AI視頻技術(shù)白皮書1603|AI

視頻介紹TheImageNetdataset~15Mimages,~21Kcategories,~1.5TBTheMS-COCOdatasetdetection,segmentation,poseestimation,etc.圖表

7測(cè)試數(shù)據(jù)集在計(jì)算機(jī)中，視覺信號(hào)一般以“密集采樣強(qiáng)度”的方式存儲(chǔ)：不同方向入射的光線在每個(gè)信道（如紅綠藍(lán)）上的強(qiáng)度被記錄下來，用于呈現(xiàn)圖像的基本內(nèi)容。圖像中的每個(gè)基本單元被稱為像素——很顯然，這些像素并不能代表基本的語義信息，因而圖像的基本存儲(chǔ)形態(tài)和人類能夠理解的語義之間，存在很大的差距。在學(xué)界，這種差距被稱為“語義鴻溝”，這也是幾乎所有計(jì)算機(jī)視覺研究所需要處理的核心問題。進(jìn)一步探究圖像的存儲(chǔ)形態(tài)，我們會(huì)發(fā)現(xiàn)圖像信號(hào)的若干特點(diǎn)：內(nèi)容較復(fù)雜信息密度低域豐富多變圖像信號(hào)的基本單位是像素，但是單個(gè)像素往往不能表達(dá)語義。圖像識(shí)別的任務(wù)，就是構(gòu)建特定函數(shù)，使得像素級(jí)輸入能夠產(chǎn)生語義級(jí)輸出。這種函數(shù)往往非常復(fù)雜，很難通過手工方式定義。圖像信號(hào)能夠忠實(shí)地反映事物的客觀表征；然而其中相當(dāng)部分的數(shù)據(jù)被用于表達(dá)圖像中的低頻區(qū)域（如天空）或者無明確語義的高頻（如隨機(jī)噪聲）區(qū)域。這就導(dǎo)致了圖像信號(hào)的有效信息密度較低，特別是相比于文本信號(hào)而言。圖像信號(hào)受到域的影響較大，而且這種影響通常具有全局性質(zhì)，難以和語義區(qū)分開來。例如，同樣的語義內(nèi)容，在強(qiáng)度不同的光照下，就會(huì)體現(xiàn)出截然不同的表征。同時(shí)，相同的物體能夠以不同的大小、視角、姿態(tài)出現(xiàn)，從而在像素上產(chǎn)生巨大差異，為視覺識(shí)別算法帶來困難。17華為云AI視頻技術(shù)白皮書AI

視頻介紹

|03鑒于上述特點(diǎn)，基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練大模型就成為了計(jì)算機(jī)視覺落地的最佳方案之一。預(yù)訓(xùn)練過程能夠一定程度上完成視覺信號(hào)的壓縮，深度神經(jīng)網(wǎng)絡(luò)能夠抽取層次化的視覺特征，而預(yù)訓(xùn)練結(jié)合微調(diào)的范式則能夠應(yīng)對(duì)豐富多變的域。得訓(xùn)練、評(píng)估大規(guī)模圖像處理方法成為可能。隨著計(jì)算機(jī)視覺技術(shù)的進(jìn)步和更多應(yīng)用的出現(xiàn)，ImageNet數(shù)據(jù)集的局限性逐漸顯現(xiàn)出來，包括規(guī)模、復(fù)雜性等。為了解決這一問題，我們必須收集更大規(guī)模、更加復(fù)雜的圖像數(shù)據(jù)，而這也是業(yè)界的一致趨勢(shì)。數(shù)據(jù)收集通過多種渠道收集圖像數(shù)據(jù)，包括但不限于公共數(shù)據(jù)集合下載、自有數(shù)據(jù)集合擴(kuò)充、各搜索引擎關(guān)鍵字爬取、以圖搜圖、視頻圖像抽幀等。從這些原始數(shù)據(jù)中，我們篩除了低分辨率、低曝、過曝、簡(jiǎn)單背景等低質(zhì)量圖像數(shù)據(jù)，再通過已有預(yù)訓(xùn)練視覺模型進(jìn)行重復(fù)圖像的判斷和去除，最終保留超過

10億張高質(zhì)量圖像數(shù)據(jù)，占據(jù)約

40TB空間。圖像是一種復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)，包含豐富的語義信息。現(xiàn)如今，還沒有任何一種方法能夠?qū)D像數(shù)據(jù)的數(shù)學(xué)規(guī)律進(jìn)行準(zhǔn)確的描述，因而人們只能通過收集大量的數(shù)據(jù)，來近似現(xiàn)實(shí)中圖像數(shù)據(jù)的分布。2009年出現(xiàn)的ImageNet數(shù)據(jù)集是計(jì)算機(jī)視覺領(lǐng)域的重要里程碑，它使10億

+~40TB覆蓋圖像數(shù)據(jù)存儲(chǔ)空間自動(dòng)駕駛，電力，鐵路，遙感等華為云AI視頻技術(shù)白皮書1803|AI

視頻介紹預(yù)訓(xùn)練方法我們使用的神經(jīng)網(wǎng)絡(luò)模型覆蓋了計(jì)算機(jī)視覺領(lǐng)域最為常見的卷積網(wǎng)絡(luò)和

transformer架構(gòu)，兩者既可以分開使用，也可以按需結(jié)合以達(dá)到更好的效果。利用自動(dòng)機(jī)器學(xué)習(xí)算法，能夠支持并調(diào)用不同大小的神經(jīng)網(wǎng)絡(luò)，其中最大的計(jì)算模型具有接近

30億參數(shù)，最小的模型只有數(shù)十萬參數(shù)，其大小相差超過

1000倍，為適配不同的視覺任務(wù)提供了可能性。我們收集的訓(xùn)練數(shù)據(jù)大部分來自互聯(lián)網(wǎng)，不僅具有相當(dāng)程度的噪聲，而且不包含準(zhǔn)確的語義標(biāo)簽。為了充分利用這些數(shù)據(jù)，我們?cè)O(shè)計(jì)了自監(jiān)督學(xué)習(xí)方法，即通過某種或者某幾種代理任務(wù)，教會(huì)模型如何理解視覺數(shù)據(jù)，在沒有語義標(biāo)簽的情況下也能擬合復(fù)雜的數(shù)據(jù)分布。與此同時(shí)，我們?cè)趯?duì)比學(xué)習(xí)的基礎(chǔ)上優(yōu)化了相關(guān)代理算法，業(yè)界首創(chuàng)在對(duì)比度自監(jiān)督學(xué)習(xí)中引入等級(jí)化語義相似度，即挑選那些距離相應(yīng)聚類中心更近的最近鄰作為正樣本，并且在拉近語義相似樣本的時(shí)候引入了混合樣本增強(qiáng)，以減少樣本選取過程中的噪聲影響。在此基礎(chǔ)上，我們拓展自監(jiān)督學(xué)習(xí)算法中正樣本的數(shù)目，使得正樣本集合能夠更加高效地被聚集，同時(shí)避免受到大量負(fù)樣本優(yōu)化的影響。我們采用的預(yù)訓(xùn)練算法（發(fā)表于

TPAMI上）的簡(jiǎn)略示意圖如下所示：MixedSampleEncoderqBottleneckBottleneckConvBNConvBNConvBNReLUConvBNReLUConvBNReLUMixAnchorSampleBottleneckMLPMLPEncoderKBottleneckBottleneckConvBNConvBNPositiveSampleConvBNReLUConvBNReLUConvBNReLUSemanticSearchCandidatesinDataset（注：基于等級(jí)化語義聚集的對(duì)比度自監(jiān)督學(xué)習(xí)）19華為云AI視頻技術(shù)白皮書AI

視頻介紹

|03效果展示盤古視覺大模型在

ImageNet數(shù)據(jù)集的線性分類評(píng)估上，越對(duì)比方法。以此方法為基礎(chǔ)，我們?cè)O(shè)計(jì)了具有

10億參數(shù)量的基礎(chǔ)模型，并在超過

10億張無標(biāo)注圖像組成的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。所得到的模型，在

ImageNet上達(dá)到了

88.7%的分類精度，而

1%標(biāo)簽的半監(jiān)督學(xué)習(xí)精度也達(dá)到

83.0%。同時(shí)，盤古大模型在超過

20項(xiàng)下游任務(wù)上進(jìn)行了測(cè)試，展現(xiàn)出良好的泛化能力，如下表所示。首次達(dá)到了與全監(jiān)督相比擬的結(jié)果。同時(shí)，受益于更好的語義對(duì)齊效果，我們的方法在小樣本學(xué)習(xí)上表現(xiàn)優(yōu)異：使用ImageNet上1%和10%的標(biāo)簽訓(xùn)練，我們的方法達(dá)到了

66.7%和

75.1%的分類精度，均顯著超數(shù)據(jù)集業(yè)界最佳模型90.43盤古預(yù)訓(xùn)練模型89.3212Aircraft(飛行器

)CUB-200-2011(鳥類

)DTD(紋理

)86.9091.80380.0585.004EuroSAT(衛(wèi)星圖塊

)Flowers102(花

)Food101(食物

)Pets(動(dòng)物

)98.8598.98597.0799.69692.2194.58795.2995.918SUN397(場(chǎng)景

)StanfordCars(車

)StanfordDogs(狗

)Average71.5178.92992.4894.09101187.4191.2889.2291.96圖表

8盤古預(yù)訓(xùn)練模型分類性能比較列表數(shù)據(jù)集業(yè)界最佳模型盤古預(yù)訓(xùn)練模型76.612VOC(自然場(chǎng)景

)Comic(風(fēng)格變換

)Clipart(風(fēng)格變換

)Watercolor(風(fēng)格變換

)DeepLesion(醫(yī)療

)Dota2.0(遙感

)Kitti(自動(dòng)駕駛

)WiderFace(人臉

)LISA(紅綠燈

)72.235.657.534.436.721.229.635.343.553.641.9638.0361.0436.9538.1621.0732.9836.3942.710Kitchen(廚房場(chǎng)景

)average55.043.85圖表

9盤古預(yù)訓(xùn)練模型檢測(cè)性能比較列表華為云AI視頻技術(shù)白皮書2003|AI

視頻介紹3.5盤古視頻解譯大模型3.5.1業(yè)務(wù)需求在特定場(chǎng)景分析基礎(chǔ)上，開放式場(chǎng)景分析和識(shí)別需求越來越強(qiáng)烈，尤其是針對(duì)應(yīng)急事件的處理。包括但不限于以下需求：簽數(shù)據(jù)的準(zhǔn)確性和實(shí)用性，同時(shí)還可以動(dòng)態(tài)刷新，確保數(shù)據(jù)的實(shí)時(shí)性和有效性；關(guān)鍵幀定位，借助視頻向量化能力，可以實(shí)現(xiàn)對(duì)關(guān)心事件檢索時(shí)，可以定位到攝像頭關(guān)鍵幀，并對(duì)關(guān)鍵幀前后視頻直接查看，提升問題定位的效率；智能視頻檢索，通過自然語言對(duì)攝像機(jī)，或者視頻存儲(chǔ)進(jìn)行開放式檢索，如檢索發(fā)生在特定時(shí)間，地點(diǎn)的特殊事件；檢索多個(gè)線索關(guān)聯(lián)的場(chǎng)景等等；智能視頻摘要，借助大語言模型的能力，匯總攝像機(jī)關(guān)鍵標(biāo)簽，摘要文本數(shù)據(jù)，生成一句話摘要或分析報(bào)告，將攝像機(jī)所拍攝的關(guān)鍵內(nèi)容報(bào)告給管理者，實(shí)現(xiàn)讓攝像機(jī)說話。視覺標(biāo)簽庫，通過對(duì)視覺數(shù)據(jù)進(jìn)行標(biāo)簽化處理，可以對(duì)所有視頻流的標(biāo)簽進(jìn)行精細(xì)化管理，提升全域攝像機(jī)標(biāo)21華為云AI視頻技術(shù)白皮書AI

視頻介紹

|033.5.2方案建議盤古視頻解譯大模型，是在視頻智能分析服務(wù)（VIAS）和盤古

大模型基礎(chǔ)上，融合多模態(tài)大模型能力，進(jìn)一步延伸人工智能在視頻領(lǐng)域的應(yīng)用。此方案依托大模型的萬物理解能力，實(shí)現(xiàn)視頻檢索、視頻標(biāo)簽、以及視頻摘要能力。將攝像機(jī)拍攝的畫面描述出來，實(shí)現(xiàn)讓攝像機(jī)開口說話。數(shù)千個(gè)場(chǎng)景，并兼容專家模型支持專屬場(chǎng)景準(zhǔn)確識(shí)別。盤古大模型基礎(chǔ)上，用“Agent

驅(qū)動(dòng)視覺感知”，作為視覺感知能力入口，通過可編排可組合可插拔特性，實(shí)現(xiàn)大語言模型對(duì)視覺感知能力的驅(qū)動(dòng)。最后向上，可以覆蓋海量“場(chǎng)景應(yīng)用”從視覺

文本協(xié)調(diào)應(yīng)用出發(fā)，牽引視覺感知能力“可看”向“可交互”轉(zhuǎn)變；向下重構(gòu)“攝像頭

標(biāo)簽資源”，構(gòu)建分層分類視覺標(biāo)簽體系、動(dòng)態(tài)標(biāo)注，并實(shí)現(xiàn)視頻存儲(chǔ)資源的精細(xì)治理，釋放視頻數(shù)據(jù)資源價(jià)值。如上圖所示，此方案主要包括四個(gè)主要部分。中間核心為“盤古大模型重構(gòu)

視頻服務(wù)交互”，CV

大模型

+多模態(tài)大模型雙輪驅(qū)動(dòng)，開放場(chǎng)景視覺分析，快速覆蓋場(chǎng)景應(yīng)用大模型驅(qū)動(dòng)視覺任務(wù)管理標(biāo)簽指引的精細(xì)化存儲(chǔ)視覺場(chǎng)景智能問數(shù)智能標(biāo)簽檢索智能視頻摘要視覺建議生成業(yè)務(wù)自適應(yīng)彈性調(diào)度多攝像頭聯(lián)動(dòng)分析Agent驅(qū)動(dòng)視覺感知Agent平臺(tái)盤古

Inside視覺算法AI視頻開發(fā)平臺(tái)開放視頻分析盤古

LLM調(diào)度

CV能力盤古大模型重構(gòu)

AI視頻服務(wù)交互視頻數(shù)據(jù)智能

+盤古視頻任務(wù)管理

+盤古盤古大模型（Core）多模態(tài)

|CV|NLP端邊云協(xié)同

+盤古AI視頻框架

+盤古攝像頭

&標(biāo)簽資源視覺接入資源視覺存儲(chǔ)資源視覺標(biāo)簽體系??全域攝像頭接入多協(xié)議解析??視頻存儲(chǔ)事件存儲(chǔ)????基礎(chǔ)標(biāo)簽場(chǎng)所標(biāo)簽部件標(biāo)簽事件標(biāo)簽圖表

10視頻解譯大模型架構(gòu)圖華為云AI視頻技術(shù)白皮書22AI視頻應(yīng)用案例4.1華為門店秉承“自己的降落傘自己先跳”的原則，華為率先將行業(yè)視頻管理服務(wù)（IVM）應(yīng)用于華為門店管理。華為終端

有超過

萬家門店，每個(gè)門店都有若干攝像機(jī)，對(duì)門店進(jìn)行管理。為了管理高效，華為終端

需要一套集中式管理系統(tǒng)，實(shí)現(xiàn)對(duì)超過10

萬路攝像機(jī)統(tǒng)一管理，統(tǒng)一調(diào)閱和統(tǒng)一存儲(chǔ)。客戶需求和痛點(diǎn)?????攝像機(jī)統(tǒng)一管理視頻數(shù)據(jù)安全全國所有門店統(tǒng)一監(jiān)管外墻廣告?????員工著裝和行為店內(nèi)廣告商品和樣品放置店內(nèi)地板清潔店內(nèi)櫥窗品牌推廣清潔墻壁圖表

11華為門店關(guān)鍵需求23華為云AI視頻技術(shù)白皮書行業(yè)視頻管理服務(wù)（IVM）完美滿足以上需求，提供云化管理平臺(tái)，實(shí)現(xiàn)視頻接入、視頻調(diào)閱和視頻存儲(chǔ)，一個(gè)管理中心可以管理分布在全國的所有華為門店。華為云

AI視頻解決方案TOBe統(tǒng)一巡檢平臺(tái)應(yīng)用層華為云在華為門店項(xiàng)目中，IVM實(shí)現(xiàn)接入多廠家攝像機(jī)，充分保護(hù)前期攝像機(jī)建設(shè)成本，門店不需要任何物理改造，通過軟件適配實(shí)現(xiàn)統(tǒng)一管理。IVM利用云存儲(chǔ)可靠性高，永不丟失等能力，確保門店關(guān)鍵事件被記錄、可回溯；同時(shí)支持視頻水印，視頻加密，端到端可回溯等能力，確保視頻傳輸和存儲(chǔ)的安全，并不被盜取。同時(shí)

IVM還提供完善的分權(quán)分域管理機(jī)制，隔離多級(jí)管理者，確保顧客隱私和數(shù)據(jù)安全。行業(yè)視頻管理服務(wù)已經(jīng)成為華為門店管理環(huán)節(jié)中不可或缺的組成部分，融入到華為終端銷售的管理體系中，為華為終端業(yè)務(wù)增長保駕護(hù)航。實(shí)況預(yù)覽視頻點(diǎn)檢設(shè)備配置升級(jí)華為云行業(yè)視頻管理設(shè)備接入云存儲(chǔ)開放接口設(shè)備層華為

SDC其他攝像頭???1個(gè)

AI視頻云平臺(tái)，監(jiān)控和檢查所有門店攝像頭華為云視頻存儲(chǔ)支持?jǐn)z像機(jī)遠(yuǎn)程升級(jí)和配置圖表

12IVM華為門店解決方案華為云AI視頻技術(shù)白皮書2404|AI

視頻應(yīng)用案例4.2物流伴隨電子商務(wù)的蓬勃發(fā)展，物流是近些年發(fā)展快速的行業(yè)，無論是營業(yè)額還是覆蓋地區(qū)的數(shù)量都在快速增長。物流行業(yè)屬于勞動(dòng)力密集型行業(yè)，有大量分支機(jī)構(gòu)、倉庫，一般都采用攝像機(jī)方式進(jìn)行遠(yuǎn)程管理，確保安全，有序傳輸，既保證效率，又保證客戶端滿意度。因此物流行業(yè)普遍存在以下需求：???上千個(gè)分支機(jī)構(gòu)，，超萬路攝像機(jī)的集中管理攝像機(jī)產(chǎn)生的視頻數(shù)據(jù)，需要采用高安全的手段進(jìn)行存儲(chǔ)物品傳遞過程中，要最大程度避免暴力分揀、錯(cuò)誤配送等問題，亟需人工智能的方式進(jìn)行監(jiān)管，改善服務(wù)質(zhì)量華為云提供行業(yè)視頻管理服務(wù)（IVM）和視頻智能分析服務(wù)（VIAS），滿足以上需求。IVM基于華為公有云提供攝像機(jī)管理、視頻流傳輸和存儲(chǔ)功能。確保物流公司管理者在任何地方，都可以遠(yuǎn)程查看視頻畫面。VIAS提供

AI分析算法，包括暴力分揀、吸煙檢測(cè)等，實(shí)時(shí)識(shí)別不符合工作規(guī)范要求的行為并上報(bào)，對(duì)工作質(zhì)量進(jìn)行監(jiān)督，極大提升了物流行業(yè)的工作規(guī)范性和服務(wù)質(zhì)量。暴力分揀檢測(cè)吸煙檢測(cè)更多

...物料亂堆亂放檢查安全帽識(shí)別車輛裝載率檢測(cè)擁塞識(shí)別應(yīng)用場(chǎng)景實(shí)況

/告警視頻視頻智能分析服務(wù)華為云端攝像機(jī)管理ONVIFAI算法中心任務(wù)中心事件報(bào)警中心ONVIFONVIF互聯(lián)網(wǎng)互聯(lián)網(wǎng)互聯(lián)網(wǎng)攝像頭圖表

13物流行業(yè)視頻接入分析系統(tǒng)架構(gòu)圖25華為云AI視頻技術(shù)白皮書AI

視頻應(yīng)用案例

|044.3鐵路中國漫長的鐵路線上運(yùn)行著近百萬輛鐵路貨車，安全運(yùn)行的重要性不言而喻。當(dāng)前，鐵路系統(tǒng)廣泛采用

TFDS（TroubleofmovingFreightcarDetectionSystem，貨車運(yùn)行故障動(dòng)態(tài)圖像檢測(cè)系統(tǒng)）來檢測(cè)列車安全，簡(jiǎn)言之，就是利用部署在鐵軌旁的高速相機(jī)拍攝通過

TFDS探測(cè)站的列車部件圖像，再由列檢員對(duì)這些圖像逐一分析，識(shí)別車輛故障隱患并預(yù)警處置。2021年，國鐵集團(tuán)貨車事業(yè)部把

TFDS故障圖像智能識(shí)別項(xiàng)目作為國鐵集團(tuán)第一批科研計(jì)劃“揭榜掛帥”課題，指定鄭州局集團(tuán)公司鄭州北車輛段

5T檢測(cè)車間作為該項(xiàng)目的試點(diǎn)單位，與華為公司、慧鐵科技公司共同研究、聯(lián)手推進(jìn)。在項(xiàng)目中，盤古大模型充當(dāng)了

TFDS系統(tǒng)的“AI訓(xùn)練師”，它能夠基于海量無標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，還可以“邊用邊學(xué)”；具備小樣本學(xué)習(xí)和樣本生成能力，能夠生成大量訓(xùn)練樣本提升模型質(zhì)量。比如搖枕心盤脫出的故障，全國范圍內(nèi)只找到一張故障樣本，借助小樣本學(xué)習(xí)，目前盤古大模型已經(jīng)能正確識(shí)別這個(gè)故障。受制于技術(shù)發(fā)展，TFDS過去大多采用人工方式進(jìn)行故障識(shí)別。以鄭州北車輛段

5T檢測(cè)車間為例，日均檢車

4萬余輛，識(shí)別圖片

280萬余張。列檢員每天需要檢查大量極其相似的圖片，并且需要在

5秒左右的時(shí)間及時(shí)發(fā)現(xiàn)細(xì)微的差別，找出列車存在的故障。人工方式識(shí)別勞動(dòng)強(qiáng)度大、人力成本高，高強(qiáng)度的重復(fù)勞動(dòng)也極易產(chǎn)生疲勞，造成誤判。下圖展示了盤古視覺大模型在為TFDS定制的解決方案。依托于盤古行業(yè)預(yù)訓(xùn)練大模型，定制化地開發(fā)了整體解TFDS行業(yè)預(yù)訓(xùn)練盤古行業(yè)預(yù)訓(xùn)練模型圖像語義相似樣本聚集等級(jí)化語義聚集綜合判別算法識(shí)別預(yù)報(bào)故障亮度特征提取質(zhì)量評(píng)估模型圖像正常圖像質(zhì)量評(píng)估質(zhì)量評(píng)估增強(qiáng)圖像過曝、欠曝等部件定位模板匹配故障識(shí)別部件目標(biāo)檢測(cè)部件定位行業(yè)預(yù)訓(xùn)練部件位置信息部件丟失、錯(cuò)位、出現(xiàn)異常部件等基于先驗(yàn)的模板匹配部件故障分類關(guān)鍵點(diǎn)檢測(cè)形變、折斷、脫落等故障識(shí)別故障識(shí)別行業(yè)預(yù)訓(xùn)練角度、尺寸等故障破損、裂縫局部故障檢測(cè)異常檢測(cè)異常檢測(cè)行業(yè)預(yù)訓(xùn)練大面積地板破損、異物、形變整車綜合分析整車故障綜合分析圖表

14基于盤古行業(yè)預(yù)訓(xùn)練模型的鐵路

TFDS開發(fā)方案華為云AI視頻技術(shù)白皮書2604|AI

視頻應(yīng)用案例決方案，包括車型篩選、工位分類、配件篩選、圖像質(zhì)量評(píng)估、已與車型先驗(yàn)的模板匹配、多車級(jí)聯(lián)分析等模塊，其中盤古大模型核心解決方案包含以下組成部分：車輛拆分行業(yè)預(yù)訓(xùn)練模型自動(dòng)增強(qiáng)和評(píng)估模板匹配故障定位、識(shí)別根據(jù)整列車圖像，定

位

出

每

輛

車

的圖像利用百萬級(jí)無標(biāo)注鐵路行業(yè)生成鐵路行業(yè)預(yù)訓(xùn)練模型圖

像

進(jìn)

行

自

動(dòng)

評(píng)估，對(duì)正常圖像做進(jìn)一步故障識(shí)別，非正常圖像返回人工審核根據(jù)已知的車型信息建立零部件的相對(duì)位置模板，預(yù)報(bào)部件位置異常（丟失、錯(cuò)位）基于鐵路行業(yè)預(yù)訓(xùn)練大模型，結(jié)合目標(biāo)檢測(cè)、圖像識(shí)別框架，進(jìn)行部件定位、故障識(shí)別基于盤古視覺大模型的整體解決方案，在

5T檢測(cè)車間集中作業(yè)分析的

14條線路進(jìn)行了驗(yàn)證。由

5T檢測(cè)車間動(dòng)態(tài)檢車員預(yù)報(bào)并經(jīng)組長確認(rèn)為提報(bào)故障的數(shù)據(jù)樣本（故障圖片）共計(jì)

32007張。在測(cè)試環(huán)境下，這些故障圖片與大量正常圖片混合，送入盤古大模型進(jìn)行判斷。如下表所示，實(shí)測(cè)結(jié)果表明，當(dāng)前盤古大模型的識(shí)別精度已經(jīng)超過人類檢測(cè)員水平。準(zhǔn)確預(yù)測(cè)119漏報(bào)1故障總數(shù)120識(shí)別率99.17%攔停重點(diǎn)一般準(zhǔn)確預(yù)測(cè)28280漏報(bào)506故障總數(shù)28786識(shí)別率98.24%準(zhǔn)確預(yù)測(cè)3084漏報(bào)17故障總數(shù)3101識(shí)別率99.45%2022年

12月，華為云盤古大模型加持的

TFDS系統(tǒng)正式投入使用，可根據(jù)大量的數(shù)據(jù)樣本，自動(dòng)總結(jié)部件特征、自動(dòng)尋找故障規(guī)律，并在實(shí)際試用中持續(xù)改善分析效果，實(shí)現(xiàn)從整體到局部、再到故障細(xì)節(jié)特征的逐步精細(xì)識(shí)別。得益于一雙又快又準(zhǔn)的“盤古眼”，這套

TFDS系統(tǒng)能精準(zhǔn)識(shí)別

67種貨車

430多種故障類別，重大異常故障

100%識(shí)別，綜合故障識(shí)別率達(dá)

99.8%；原來人工需要識(shí)別

4000張圖片，現(xiàn)在僅需要復(fù)檢

170多張圖片，工人勞動(dòng)強(qiáng)度下降95.75%，極大提升了檢測(cè)效率和故障識(shí)別率，提高了列車安全性。27華為云AI視頻技術(shù)白皮書AI

視頻應(yīng)用案例

|044.4礦山山東能源集團(tuán)（簡(jiǎn)稱山能集團(tuán)）以礦業(yè)、高端化工、電力、新能源新材料、高端裝備制造、現(xiàn)代物流貿(mào)易為主導(dǎo)產(chǎn)業(yè)。其中，煤炭產(chǎn)量位居全國煤炭行業(yè)第三位，礦井智能化生產(chǎn)水平居行業(yè)前列，9

處礦井成為首批國家級(jí)智能化示范礦井。共享，未來可復(fù)制到集團(tuán)其他

70+

礦井。2）海量吞吐信息處理利用無監(jiān)督訓(xùn)練策略對(duì)海量信息（圖片數(shù)量

億

+，視頻信號(hào)

>100TB）進(jìn)行歸納抽取訓(xùn)練得到的模型，具備強(qiáng)大視覺表征識(shí)別能力。山能集團(tuán)依托盤古大模型建設(shè)了集團(tuán)人工智能訓(xùn)練中心，把盤古礦山大模型全面應(yīng)用到采、掘、機(jī)、運(yùn)、通、洗選等

大業(yè)務(wù)系統(tǒng)，具備視覺大模型、預(yù)測(cè)大模型、自然語言大模型等三大能力，探索和發(fā)掘煤礦生產(chǎn)領(lǐng)域全場(chǎng)景的人工智能應(yīng)用，通過技術(shù)創(chuàng)新實(shí)現(xiàn)“人工智能大規(guī)模下礦”，讓員工遠(yuǎn)離井下作業(yè)環(huán)境，實(shí)現(xiàn)“高效、安全、可持續(xù)性”的生產(chǎn)運(yùn)營管理。3）模型移植能力大模型相比小模型有良好的泛化性能，在相似場(chǎng)景上訓(xùn)練的模型可遷移到未進(jìn)行訓(xùn)練的新場(chǎng)景上，并且可以快速地在新的礦井進(jìn)行部署和上線應(yīng)用，無需從零開始大量重復(fù)訓(xùn)練。4）數(shù)據(jù)篩選效率高1.支持智能生產(chǎn)模式創(chuàng)新大模型具有在全新場(chǎng)景實(shí)現(xiàn)缺陷樣本高效篩選的能力，相對(duì)傳統(tǒng)小模型訓(xùn)練方式，可以節(jié)省

85%

的標(biāo)注人力。1）樣本訓(xùn)練效率高通過云邊協(xié)同方案，打通集團(tuán)中心云和礦山邊緣云數(shù)據(jù)，低代碼小樣本訓(xùn)練，模型自動(dòng)優(yōu)化，邊用邊學(xué)，能以更少的數(shù)據(jù)達(dá)到其他模型相同乃至更高的精度；通過云邊協(xié)同方案，在其

標(biāo)桿興隆莊煤礦的一處訓(xùn)練，全集團(tuán)5）模型識(shí)別精度高基于“非正常即異常”識(shí)別原則，快速訓(xùn)練生產(chǎn)、安監(jiān)、決策的

場(chǎng)景化模型，在同等少量樣本訓(xùn)練的情況下，大模型精度高出小模型

10%。華為云AI視頻技術(shù)白皮書2804|AI

視頻應(yīng)用案例2.提升生產(chǎn)質(zhì)量效益在興隆莊一期項(xiàng)目中，對(duì)于危險(xiǎn)區(qū)域人員入侵識(shí)別等場(chǎng)景，大模型識(shí)別率達(dá)

90%

以上?；诖竽Ｐ退惴?，系統(tǒng)識(shí)別精度比傳統(tǒng)小模型提高

10%。在實(shí)際應(yīng)用中，系統(tǒng)可通過告警提醒，避免潛在危險(xiǎn)發(fā)展為安全事故，并進(jìn)一步規(guī)范井下人員的作業(yè)行為，提升安全

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

華為云AI視頻技術(shù)白皮書-2024.08-36正式版-WN8

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

華為云AI視頻技術(shù)白皮書-2024.08-36正式版-WN8

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔