華為云AI視頻技術白皮書-2024.08-36正式版-WN8_第1頁
華為云AI視頻技術白皮書-2024.08-36正式版-WN8_第2頁
華為云AI視頻技術白皮書-2024.08-36正式版-WN8_第3頁
華為云AI視頻技術白皮書-2024.08-36正式版-WN8_第4頁
華為云AI視頻技術白皮書-2024.08-36正式版-WN8_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

華為云AI視頻技術白皮書引

/01AI與視頻的碰撞

/052.1發(fā)展趨勢

........................................................................................................................052.2典型場景

........................................................................................................................07AI視頻介紹

/093.1參考架構(gòu)

..........................................................................................................................093.2行業(yè)視頻管理服務(IVM)........................................................................................113.3視頻智能分析服務(VIAS)

......................................................................................133.4盤古CV大模型

................................................................................................................153.5盤古視頻解譯大模型

...................................................................................................21華為云

AI視頻技術白皮書AI視頻應用案例

/234.1華為門店

..........................................................................................................................234.2物流

...................................................................................................................................254.3鐵路

...................................................................................................................................264.4礦山

...................................................................................................................................284.5電力

...................................................................................................................................30展望未來,從感知到生成

/31引

言用攝像機拍攝,記錄并播放視頻可以回溯到

19

世紀,大家公認的第一部電影是法國影片《工廠的大門》,1895

年由路易斯

?

盧米埃爾攝影。表現(xiàn)當時法國里昂盧米埃爾工廠放工時的情景,片長僅一分多鐘。從這以后,攝影技術持續(xù)發(fā)展,從模擬技術到數(shù)字技術,從電影攝像機到家用攝像機,直到電腦,手機等便攜終端內(nèi)置攝像頭,攝像已經(jīng)成為當今社會人們記錄信息并傳播交流的最重要工具和手段,也是大眾百姓所需要和掌握的一項基本生活技能。攝像技術應用也從電影,廣播電視發(fā)展到生活中的方方面面,包括城市治理、安全防護、工業(yè)質(zhì)檢等等。每個城市,每個企業(yè)都有大量的攝像機,不斷在記錄發(fā)生的一切。海量的視頻數(shù)據(jù),在方便大眾的生活的同時,也帶來了很多管理上的困擾。數(shù)據(jù)如何有效存儲,如何能夠感知并記錄關鍵事件,如何能夠?qū)⑵聊幻媲暗墓ぷ魅藛T解放出來或者減輕他們工作的強度,已經(jīng)成為視頻使用者最關心的問題。與此同時,AI

技術雖然起步較晚,但隨著其快速的發(fā)展,已經(jīng)在諸多方面與視頻技術產(chǎn)生了深度的融合。01華為云AI視頻技術白皮書1950年,艾倫

?圖靈(AlanTuring)在論文《計算機器與智能(ComputingMachineryandIntelligence)》中提出了著名的“圖靈測試”,給出了判定機器是否有“智能”的試驗方法。

1956年夏,麥卡錫、明斯基等科學家在美國達特茅斯學院開會研討“如何用機器模擬人的智能”,首次提出“人工智能(Arti?cialIntelligence,簡稱

AI)”這一概念,標志著人工智能學科的誕生。人工智能從誕生之初,就希望讓機器理解這個世界,將人類從繁瑣,重復性的事務中脫離出來。從符號主義、專家系統(tǒng)、神經(jīng)網(wǎng)絡、深度學習、強化學習到預訓練大模型,一個又一個技術的突破,讓人類看到了通用人工智能的希望。自然而然,用人工智能識別視頻數(shù)據(jù),甚至生成視頻數(shù)據(jù)成為了技術路線的必然選擇。華為公司在視頻技術和人工智能技術上都有深厚的積累和豐富的實踐,華為云

AI視頻產(chǎn)品正是將

AI和視頻技術相結(jié)合的優(yōu)秀典范。此篇《華為云

AI視頻白皮書》,是我們團隊研究和實踐經(jīng)驗的總結(jié),希望能夠更好地促進產(chǎn)業(yè)的發(fā)展,讓攝像機“看得懂、會說話”。華為云AI視頻技術白皮書02AI與視頻的碰撞沒有孤立的技術,融合才能發(fā)展。視頻技術和

AI

技術雖然起步時間不同,但在發(fā)展中卻交相輝映,在最需要彼此的時候相遇。如下圖所示,人工智能和視頻編解碼,都經(jīng)歷了漫長的摸索期,并先后于

21

世紀取得突破式發(fā)展。深度學習將人工智能帶入千行百業(yè)的生產(chǎn)流程,H.264

編碼技術將視頻業(yè)務帶入移動互聯(lián)網(wǎng),成為每個消費者日常的必需品。兩條平行發(fā)展的技術踩著同樣的步點,在視頻數(shù)據(jù)爆發(fā)增長,預訓練大模型橫空出世的時代相遇。AI

和視頻的結(jié)合是趨勢和必然,給所有人,所有行業(yè)無限的想象空間和發(fā)展?jié)摿?。兩個超萬億產(chǎn)值的行業(yè)相乘,將帶來無法估量的產(chǎn)業(yè)價值。03華為云AI視頻技術白皮書機器學習

&深度學習階段人工智能起步階段專家系統(tǒng)階段大模型

&通用人工智能第三次興起Transformer出現(xiàn)ChatGPT第二次高潮

-快速發(fā)展期2000年以后,算力

+算法

+數(shù)據(jù)Google提出TransformerOpenAI發(fā)布ChatGPT“專家系統(tǒng)”出現(xiàn),為企業(yè)一年節(jié)省數(shù)千萬美金。專家系統(tǒng)所依賴的知識庫系統(tǒng)和知識工程成為主要研究方向,政府開始重視人工智能項目的突破帶來深度學習的興起替換第一次高潮

-黃金發(fā)展期CNN/RNN2007年,李飛飛構(gòu)建開源ImageNet,世界最大的圖像識別數(shù)據(jù)集(2萬多類別)符號主義和聯(lián)接主義接連出現(xiàn),機器學習理論和計算機視覺學科誕生起源達特茅斯會議的人工智能研討,標志著

AI誕生20231980s201720061960s19931974–19801956第一次寒冬第二次寒冬算法只能解決狹窄領域的問題,算力不足以支撐發(fā)展專家系統(tǒng)通用性差成本高,維護復雜使用時間壓縮的幀間預測編碼DCT圖像壓縮算法H.261H.263H.263+H.263++H.262/MPEG-2MPEG-4H.264/MPEG-4AVCH.265/HEVCH.266MPEG-1圖表

1人工智能

VS視頻編解碼發(fā)展歷史華為云AI視頻技術白皮書0402|AI

與視頻的碰撞2.1發(fā)展趨勢趨勢

1:視頻流云上集中管理大量的攝像機安裝完成后,面臨的問題是如何集中式管理。攝像機分散在不同的地方,管理者需要在一個平臺上,跨區(qū)域、大范圍集中管理,通過完善的分權(quán)分域能力保護隱私安全。同時,各攝像機采集的視頻需要集中存儲,因為本地化分散存儲會造成信息碎片化,無法形成多個視頻流之間的聯(lián)動,且本地存儲易丟失、管理成本高。統(tǒng)一的云上存儲,則可以有效解決以上問題。咨詢報告指出,2023年到

2027年,視頻流上云和云存儲的年復合增長率超過

27%。在云化的趨勢下,視頻流云上管理、存儲越來越成為業(yè)界趨勢,企業(yè)的主流選擇。趨勢

2:用預訓練的大模型生成場景模型AI技術中,處理視頻的相關技術一般被稱為計算機視覺(ComputingVision)。計算機視覺是一種利用計算機和數(shù)學算法來模擬和自動化人類視覺的過程。它涉及到從數(shù)字圖像或視頻中提取信息,如對象識別、場景理解、運動跟蹤、三維重建等。計算機視覺技術在許多領域都有應用,如自動駕駛、醫(yī)學影像分析、機器人視覺等。計算機視頻分析視頻流或者圖片時采用計算機視覺模型。計算機視覺模型是指使用深度學習技術訓練的神經(jīng)網(wǎng)絡模型,用于解決計算機視覺領域的各種問題。這些模型通常由數(shù)百萬或更多個參數(shù)組成,可以對圖像、視頻等視覺數(shù)據(jù)進行高級別的理解和分析,例如圖像分類、目標檢測、語義分割、人臉識別等任務。05華為云AI視頻技術白皮書AI

與視頻的碰撞

|02隨著大數(shù)據(jù)和

AI

算力的發(fā)展,模型參數(shù)越來越大,大模型應運而生。大模型指網(wǎng)絡規(guī)模巨大的深度學習模型,具體表現(xiàn)為模型的參數(shù)量規(guī)模較大,其規(guī)模通常在百億以上級別。研究發(fā)現(xiàn),模型的性能(指精度)通常與模型的參數(shù)規(guī)模息息相關。模型參數(shù)規(guī)模越大,模型的學習能力越強,最終的精度也將更高,泛化性也越強。用大模型可以有效提升場景模型的準確率和泛化性,加上預訓練的海量數(shù)據(jù),用少量樣本,甚至零樣本就可以生成場景模型,解決視頻算法長尾的問題。趨勢

3:用視頻解譯大模型理解視頻內(nèi)容視頻場景模型可以用確定的規(guī)則對視頻流進行分析,識別關鍵事件,輔助人工進行判別并給出決策建議。但現(xiàn)實世界紛繁復雜,花鳥魚蟲,春夏秋冬,都在表達著自己的個性和不同,規(guī)則是無法窮盡的,判別式算法不斷遇到新的需求和挑戰(zhàn)。如何能夠用泛化性強的模型理解視頻,并通過自然語言的方式進行交互和報告,真正讓人類從繁瑣、重復性的事務中脫離出來是行業(yè)內(nèi)普遍的需求。視頻解譯大模型融合了視覺大模型、多模態(tài)大模型、自然語言大模型多種模型,可以實現(xiàn)對視頻、圖片、聲音、文本多種模態(tài)組合分析,感知視頻流發(fā)生的各種事件,實現(xiàn)讓攝像機開口說話,實現(xiàn)真正的智能分析、智能交互、智能決策。華為云AI視頻技術白皮書0602|AI

與視頻的碰撞2.2典型場景城市日常管理在城市治理場景中,往往建設有龐大復雜的城市事件類別體系,包含了繁多細碎的事項類別,如垃圾暴露、道路破損、圍欄破損等等,一個城市一般有幾百種事件類別。同時,不同城市可能還有不同的標準,可能某城市關注某一些特定事件類別,另一個城市又關注另一些特定事件類別。因此,城市政務場景面臨著眾多碎片化

AI

需求場景。城市事件的類別數(shù)量眾多,同時絕大多數(shù)的城市事件又難以采集到大量數(shù)據(jù)來訓練

AI

模型,這種問題我們稱為“碎片化長尾需求場景”?!八槠L尾需求”一直是

AI

開發(fā)面臨的難題,傳統(tǒng)的

AI

開發(fā)模式需要對每種目標類別單獨采集數(shù)據(jù)、訓練模型,依賴專家經(jīng)驗進行算法參數(shù)調(diào)優(yōu),最后才能上線應用,每種算法的開發(fā)周期耗費幾周至幾個月,低下的效率難以滿足當前高速的城市建設發(fā)展。華為

AI

視頻方案,基于

AI

開發(fā)工作流,將數(shù)據(jù)標注、模型訓練、部署上線等繁雜的流程固化為一個流水線的步驟,無需編寫代碼,任何人只要有準備數(shù)據(jù),都可以通過流水線交互步驟快速地完成一個

AI

應用的開發(fā)和上線。每個AI

算法的開發(fā)周期縮短至幾天便可完成。同時基于預訓練

CV

大模型的能力,依托于海量的大規(guī)模數(shù)據(jù)預訓練,即便只有少量樣本,也可以達到良好的模型泛化性和魯棒性,解決碎片化長尾需求的問題。由此可見,AI

視頻方案中的預訓練

CV

大模型

+AI

開發(fā)工作流,可以更好地契合城市治理的痛點需求,解決碎片化長尾需求場景的問題,更好地將

AI

落地到智慧城市的建設發(fā)展中。07華為云AI視頻技術白皮書AI

與視頻的碰撞

|02城市應急處置在城市建設過程中,除了事先設定好的事件類別,還經(jīng)常有突發(fā)性的臨時需求。比如突發(fā)暴雨,很多地方會臨時地希望檢測各地是否有積水內(nèi)澇的情況,以便及時預防與救援;或者某地突發(fā)交通事故,相關部門也想快速地排查周邊受影響交通擁堵的路段,以及時安排人力疏通車流。這些突發(fā)性的臨時需求,可能根據(jù)天氣、地點、時間等不同因素千變?nèi)f化,這在城市政務的場景十分常見,也對于保障城市正常運轉(zhuǎn)有著非常重要的作用。然而,這種臨時性的需求對于傳統(tǒng)

AI

開發(fā)來說是災難性的。傳統(tǒng)的

AI

開發(fā)需要對每種待識別的事件采集數(shù)據(jù)、訓練模型,而訓練出來的模型也僅能解決這一特定的任務。當一個臨時性的

AI

需求來臨時,既往訓練出來的模型肯定是無法適應這個新的任務的,那又要基于這個新的需求采集對應數(shù)據(jù)、訓練模型,這一流程走下來即便有

AI

開發(fā)工作流支撐,少說也要幾天的時間開發(fā)上線。但是臨時性的需求往往是緊急的,比如對于積水內(nèi)澇的場景,時間就是生命,業(yè)務往往要求算法立刻就能發(fā)揮作用、識別事件。因此傳統(tǒng)的

AI

開發(fā)模式面對這種緊急的臨時性需求就顯得捉襟見肘了。華為

AI

視頻方案,基于業(yè)界最新的多模態(tài)大模型技術,構(gòu)建了開放式的目標檢測和分割模型。該算法模型基于海量數(shù)據(jù)預訓練的大模型,具備通用的特征提取能力,同時內(nèi)嵌預言大模型,可以理解用戶輸入文本的語義信息。因此,該模型可以結(jié)合用戶輸入的任意文本信息,實現(xiàn)對應物體的檢測,即便這個物體之前沒有出現(xiàn)在模型的訓練集里。這種特性非常符合城市治理里突發(fā)性的臨時需求場景。比如面對積水內(nèi)澇的場景,就不需要再針對積水事件重新訓練一個模型,而是簡單地輸入一個類似“請問畫面中是否有積水內(nèi)澇?”的語句,算法通過圖片和文本的語義理解,就可以識別出來畫面中是否有積水內(nèi)澇的事件了。這樣一來,算法就不再局限于僅能識別特定范圍的一些事件,應用的廣度被無限地拉大,也能更好地滿足城市政務場景中靈活變化的業(yè)務需求。更詳細的應用場景請參考章節(jié)“4AI視頻應用案例”華為云AI視頻技術白皮書08AI視頻介紹3.1參考架構(gòu)AI視頻服務依托聯(lián)接、云、AI、計算等新一代

ICT技術與知識創(chuàng)新融合,將感知、認知、決策、行動實現(xiàn)深度協(xié)同。其充分利用云計算能力,系統(tǒng)功能可靠、穩(wěn)定、完整。平臺設計秉承模塊化、框架化、集群化、服務化的設計理念,提供電信級系統(tǒng)可靠性、可擴展性和可維護性,滿足不同場景對接整合、兼容應用和可持續(xù)發(fā)展的需要。AI視頻服務是面向行業(yè)視頻場景的組合方案,參考華為公司架構(gòu),包括行業(yè)視頻管理(IVM),智能視頻分析服務(VIAS)和盤古

CV大模型三個產(chǎn)品。可以提供一站式服務,將視頻流從攝像機接入上來,進行調(diào)閱管理、存儲管理,同時對視頻流中的內(nèi)容進行分析,識別關鍵事件,捕捉異常場景,并上報給上層應用系統(tǒng)進行處理,實現(xiàn)用人工智能的方式,用攝像機感知萬物、掌控全局。如下圖所示,典型的組網(wǎng)分為接入層、網(wǎng)絡層、平臺層和應用層。AI視頻服務屬于平臺層網(wǎng)元,和接入層、網(wǎng)絡層、應用層設備互聯(lián)互動,相互配合,形成整體解決方案。09華為云AI視頻技術白皮書應用場景智慧城市智慧園區(qū)智能安防智慧企業(yè)......統(tǒng)一的標準接口統(tǒng)一的標準接口視頻智能分析服務

(VIAS)盤古

CV

模型任務中心視頻中心算法中心運維中心事件中心基礎模型萬物檢測萬物分割平臺層行業(yè)視頻管理

(IVM)視頻接入視頻存儲視頻傳輸云基礎

:計算

/存儲(對象存儲)/網(wǎng)絡

/安全網(wǎng)絡層視頻流視頻流視頻專網(wǎng)虛擬專用網(wǎng)互聯(lián)網(wǎng)終端接入層邊緣視頻設備(攝像頭、NVR)圖表

2AI視頻系統(tǒng)架構(gòu)圖華為云AI視頻技術白皮書1003|AI

視頻介紹接入層主要設備為攝像機和

NVR,負責采集視頻數(shù)據(jù),并通過標準協(xié)議注冊到平臺層,被平臺進行管理;NVR可以實現(xiàn)對多個攝像機匯聚管理,并在本地存儲視頻。虛擬機,OBS存儲,網(wǎng)絡傳輸?shù)饶芰Γ瓿蓪z像機設備信息,以及產(chǎn)生的視頻流管理。同時基于人工智能技術,AI視頻提供對視頻流的分析能力,理解視頻流內(nèi)容、關鍵事件,并將相應的結(jié)果推送給上層應用系統(tǒng)。網(wǎng)絡層主要為網(wǎng)絡設備,負責通過

IP協(xié)議,將攝像機,NVR等邊緣設備接入到平臺層,同時負責包保障視頻流傳輸?shù)馁|(zhì)量,包括但不限于丟包,抖動,時延等等。應用層負責面向行業(yè),提供圖形化頁面和管理功能。不同行業(yè)有不同的應用系統(tǒng),例如連鎖門店客流管理系統(tǒng)、智慧安防系統(tǒng)、智慧園區(qū)管理系統(tǒng)等等。華為云

AI視頻服務和應用層是松耦合關系,采用消息接口對接。平臺層的

AI視頻服務,采用云化架構(gòu),支持公有云,混合云等多種模式。AI視頻屬于

SaaS服務,依賴云平臺3.2行業(yè)視頻管理服務(IVM)3.2.1業(yè)務需求GB/T28181協(xié)議,同時還支持私有協(xié)議也支持中國標準接入,通過私有協(xié)議或者

SDK,實現(xiàn)視頻流解碼顯示能力。部署攝像機(SDC/IPC)等端側(cè)設備后,首先需要集中管理功能,包括設備信息注冊、遠程配置、分權(quán)分域等功能。同時還要能夠?qū)崿F(xiàn)基于互聯(lián)網(wǎng)任意時間、任意地點查看攝像機狀態(tài)、視頻流內(nèi)容。同時,為了追溯、回溯,還要能夠?qū)崿F(xiàn)視頻流存儲,將視頻流錄制下來,長時間安全保存。2.視頻調(diào)閱行業(yè)視頻管理服務具備為公眾及其他業(yè)務系統(tǒng)提供媒體流播放能力。媒體轉(zhuǎn)碼主要滿足互聯(lián)網(wǎng)

web/H5技術和視頻系統(tǒng)媒體流之間的轉(zhuǎn)換適配需求,通過將碼流轉(zhuǎn)換為

RTMP、HTTP-FLV、HLS等

PC端可直接播放的視頻流,為業(yè)務集成和開放提供快速的技術方案,同時提供基于視頻技術的富媒體應用技術。3.2.2方案建議行業(yè)視頻管理服務(IndustryVideoManagementService)依托于華為云基礎設施與音視頻領域技術優(yōu)勢,為攝像機(SDC/IPC)、網(wǎng)絡視頻錄像機(NVR)、智能視頻存儲(IVS1800)等華為及第三方設備,提供云端視頻接入、視頻傳輸及視頻存儲能力,適用于安全防范、生產(chǎn)管理、智慧運營等場景。行業(yè)視頻管理服務可以幫助企業(yè)快速完成視頻設備上云和智能化,助力企業(yè)數(shù)字化轉(zhuǎn)型。支持遠程查看前端攝像機的實時視頻,根據(jù)現(xiàn)場情況進行事件預判,實現(xiàn)視頻實時瀏覽播放,實時播放時可顯示視頻相關信息,便于視頻流的狀態(tài)查詢和故障診斷。支持多布局能力,支持多個視頻點位同時進行實況預覽;單擊攝像機開啟視頻按照從左到右、從上到下的順序選擇播放窗口;如果當前所有窗格已經(jīng)用完,可手動增加另一個多窗格布局;系統(tǒng)客戶端支持同時播放多個前端設備的實時視頻。主要包括設備接入,視頻調(diào)閱,錄像管理等功能。1.設備接入支持顯示當前實況攝像頭的視頻信息,其中視頻信息包括:當前碼率、平均碼率、編碼格式、分辨率等;

支持聲音控制,例如靜音、取消靜音;支持以拖動攝像頭的行業(yè)視頻管理服務(IVM)支持國際標準協(xié)議接入攝像機,11華為云AI視頻技術白皮書AI

視頻介紹

|03方式進行播放和停止;支持單畫面停止播放,支持全部畫面停止。行事后錄像的檢索,通過錄像可查看之前發(fā)生的事件現(xiàn)場視頻,實現(xiàn)事后取證功能。同時支持查詢平臺錄像、前端錄像;支持自定義時間范圍進行錄像查詢;支持錄像查詢結(jié)果以進度條方式展現(xiàn),進度條可以前后拖動,支持精度縮放等功能。3.錄像管理行業(yè)視頻管理服務提供大容量的云端存儲,通過互聯(lián)網(wǎng)實時將前端數(shù)據(jù)傳出至云端,依托于華為云

OBS

服務,為客戶提供可靠的數(shù)據(jù)數(shù)據(jù)備份,幫助客戶實現(xiàn)更長周期、更大容量、更高安全的云上數(shù)據(jù)管理。3.2.3小結(jié)行業(yè)視頻管理服務(IVM)基于華為公有云,提供攝像機設備管理、接入、調(diào)閱、存儲等服務。主要功能服務方式如下,供項目參考。用戶可以在客戶端上回放錄像,也可以將系統(tǒng)錄像文件下載到本地,支持使用通用播放器進行回放。用戶可進產(chǎn)品組合商

品量

綱應用場景視頻接入路

/年公有云必選行業(yè)視頻管理服務調(diào)閱帶寬Mbps/年GB/年公有云必選視圖云存儲云存儲、云備份、告警錄像圖表

3行業(yè)視頻管理

(IVM)方案建議華為云AI視頻技術白皮書1203|AI

視頻介紹3.3視頻智能分析服務(VIAS)3.3.1業(yè)務需求主要包括分析服務、算法中心、視頻中心、任務中心、事件中心等功能。完成攝像機和行業(yè)視頻管理平臺建設后,實現(xiàn)了視頻流集中管理、集中存儲。如果僅僅依靠人工監(jiān)看的方式,必然消耗大量人力,識別準確率依賴人員技能。如何實現(xiàn)視頻流的自動分析、準確識別關事件主動上報成為普遍的業(yè)務需求?;谌斯ぶ悄艿囊曨l分析服務,要能夠為上層的行業(yè)應用提供

AI能力,包括但不限于:1.分析服務視頻分析服務是承載視頻

AI算法的彈性計算引擎,提供視頻數(shù)據(jù)接入、分析及告警輸出的能力,可通過

API支撐業(yè)務開發(fā)應用,同時能夠幫助

AI開發(fā)人員提升視頻

AI集成效率,助力其核心業(yè)務價值開發(fā)。??豐富的視頻分析算法,滿足復雜場景分析需求;建設視頻統(tǒng)一分析平臺,集中管理,充分盤活視頻資源;視頻分析能力主要基于如下技術構(gòu)建:?算法統(tǒng)一管理,算法和算力解耦,多廠家算法共享算法倉,算力統(tǒng)一調(diào)度。1)物體檢測技術物體檢測是視覺感知的第一步,也是計算機視覺的一個重要分支。物體檢測的目標,就是用框去標出物體的位置,并給出物體的類別。在當前視頻分析服務構(gòu)建的能力中,人或者車的檢測是第一步,也是最關鍵的一步。人與車目標檢測的準確率也會直接影響后續(xù)算法的效果,但由于目標環(huán)境的多樣性復雜性,對于物體的檢測,通常會受到不同環(huán)境的干擾。所以為了提高算法的準確率,通常會針對實際的應用場景進行定制化的訓練,以此排除復雜的環(huán)境帶來的干擾。3.3.2方案建議視頻智能分析服務(VIAS)是集成視頻

AI分析、事件感知等能力的一體化平臺,實現(xiàn)智慧園區(qū)、城市治理、安全生產(chǎn)等場景的事件感知、分析和決策能力,助力業(yè)務閉環(huán)。視頻智能分析服務提供豐富的“開箱即用”的算法模型,包括城市治理、公共安全、連鎖門店、智慧物流、智慧園區(qū)等等,幫助千行百業(yè)快速使用成熟的人工智能技術,提效降本。2)圖像分類技術一張圖像中是否包含某種物體,對圖像進行特征描述是物體分類的主要研究內(nèi)容。一般說來,物體分類算法通過手工特征或者特征學習方法對整個圖像進行全局描述,然后使用分類器判斷是否存在某類物體。圖像分類的研究,通常衍生出來對特定目標物體進行檢測的能力,比如識別大貨車、公交車等特定的目標。3)物體定位技術如果說圖像識別解決的是

what,那么物體定位解決的則是

where的問題。利用計算視覺技術找到圖像中某一目標物體在圖像中的位置,即定位。對物體的定位,通常能衍生出很廣的應用場景。比如在安防領域,判斷目標13華為云AI視頻技術白皮書AI

視頻介紹

|03物體的位置,可以進行入侵檢測、徘徊檢測以及過線計數(shù)等等算法。實現(xiàn)視頻算法的整體功能性配置,構(gòu)建基于視頻數(shù)據(jù)的智能分析應用。視頻中心支持視頻源管理,視頻質(zhì)量巡檢,攝像機分組管理等功能?;谌缟霞夹g,視頻分析服務可提供面向智慧園區(qū)、水利、4.任務中心交通、應急管理等場景的視頻AI

分析能力,不但能保證自研

AI

算法的接入,還能保證第三方算法和行業(yè)共享算法的對接,最終實現(xiàn)

AI

能力的穩(wěn)步提升。任務中心提供算法作業(yè)配置、算法作業(yè)管理能力,是算法的核心配置模塊,通過該模塊的配置,算法即可具備分析功能。任務中心支持作業(yè)配置、作業(yè)管理、批量配置、公共模板、定時任務等功能。華為視頻分析算法,基于

100+

項目實踐經(jīng)驗持續(xù)積累、優(yōu)化,已沉淀形成多種類型的算法能力。2.算法中心5.事件中心算法中心提供多廠商、多框架、多功能的統(tǒng)一管理能力,支持用戶將導入的算法鏡像進行統(tǒng)一管理,支持算法版本的全生命周期管理,為后續(xù)算法部署提供基礎管理能力。用戶可在該模塊查看已上線的算法能力,同時為三方開發(fā)者提供賬號體系,開發(fā)者可在該模塊發(fā)布新算法、更新算法版本。算法中心可跳轉(zhuǎn)算法商城,算法商城展示了可上線的算法能力清單,可根據(jù)用戶業(yè)務需求上線。事件中心提供事件統(tǒng)一管理,是算法的分析結(jié)果輸出模塊,委辦單位可通過該模塊查看視頻分析的事件結(jié)果,同時支持將事件分析結(jié)果上報到現(xiàn)網(wǎng)業(yè)務系統(tǒng),及時發(fā)現(xiàn)事件并形成工單分派,提升網(wǎng)格處置效率。事件中心支持事件管理,事件重復聚合,事件審核,事件訂閱,運營報告生成等功能。3.3.3小結(jié)3.視頻中心視頻智能分析服務(VIAS)基于華為公有云,提供視頻算法分析服務、算法管理、算力管理、任務管理、事件管理等。主要功能服務方式如下,供項目參考。視頻中心提供視頻源數(shù)據(jù)接入管理能力,是算法的前置輸入模塊,通過該模塊的配置,任務中心即可選擇輸入源,產(chǎn)品組合商

品量

綱應用場景視頻智能分析視頻分析服務路

/年云上通用算法包路

/年云上專業(yè)算法包圖表

4視頻智能分析服務方案建議華為云AI視頻技術白皮書1403|AI

視頻介紹3.4盤古

CV大模型3.4.1業(yè)務需求因此如何能夠類似流水線的方式,用少量樣本,快速生成場景化模型,成為行業(yè)的迫切需求。隨著工業(yè)生產(chǎn)越來越強調(diào)智能化,大量傳統(tǒng)行業(yè)開始積累領域數(shù)據(jù),并尋求人工智能算法以解決生產(chǎn)和研發(fā)過程中遇到的重復而冗雜的問題。這就意味著,人工智能算法在落地的過程中,將會面對大量不同場景、不同需求的用戶。這對算法的通用性提出了很高的要求。然而我們注意到,當前業(yè)界大部分人工智能開發(fā)者,正在沿用傳統(tǒng)的“小作坊模式”,即針對每個場景,獨立地完成模型選擇、數(shù)據(jù)處理、模型優(yōu)化、模型迭代等一系列開發(fā)環(huán)節(jié)。由于無法積累通用知識,同時不同領域的調(diào)試方法有所不同,這樣的開發(fā)模式往往比較低效。特別地,當前人工智能領域存在大量專業(yè)水平不高的開發(fā)者,他們往往不能掌握規(guī)范的開發(fā)模式和高效的調(diào)優(yōu)技巧,從而使得模型的精度、性能、可擴展性等指標都不能達到令人滿意的水平。我們將上述問題,稱為人工智能算法落地的碎片化困境。3.4.2方案建議華為盤古

CV大模型瞄準人工智能在工業(yè)場景應用中的困境,創(chuàng)造性提出用經(jīng)過海量數(shù)據(jù)預訓練的視覺大模型作為訓練工作流,用類似工業(yè)流水線的方式快速生成場景化模型。盤古

CV大模型收集大量圖像數(shù)據(jù),以及圖像和文本對比數(shù)據(jù),利用無監(jiān)督或者自監(jiān)督學習方法將數(shù)據(jù)中蘊含的知識提取出來,存儲在具有大量參數(shù)的神經(jīng)網(wǎng)絡模型中。遇到特定任務時,只要調(diào)用一個通用的流程,就能夠?qū)⑦@些知識釋放出來,并且與行業(yè)經(jīng)驗結(jié)合,解決實際問題。超大的神經(jīng)網(wǎng)絡強壯的網(wǎng)絡架構(gòu)優(yōu)秀的泛化能力多模態(tài)大模型科學計算大模型CV大模型(30億參數(shù))NLP大模型(千億參數(shù))盤古大模型模型

1場景

1流水線模型泛化

極大節(jié)省訓練投入流水線

工具集成

訓練更快場景

2場景

3模型

2模型

3泛化復制流水線流水線預訓練模型華為云盤古大模型「AI工業(yè)化開發(fā)」效率提升10-100

倍預訓練微調(diào)

&部署更佳模型性能迭代圖表

5盤古

CV大模型工作流原理15華為云AI視頻技術白皮書AI

視頻介紹

|03亮點介紹......腰帶物體檢測皮帶跑偏檢測流量檢測違章停車貨物檢測安全帽爬圍欄容器檢測違章停車L2場

景強大的預訓練模型快速適配任務模型高速列車故障檢測每個行業(yè)的模型開發(fā)套件L1...礦

山城市治理鐵

路工

地港

口行業(yè)大模型少樣本實現(xiàn)高準確率行業(yè)特定模型L0盤古

CV模型基礎大模型|||||||目標檢測

異常檢測

圖像分類

語義分割

實例分割

視頻分類

目標跟蹤

姿勢估計圖表

6盤古

CV大模型應用場景和優(yōu)勢對于常見的視覺處理任務,盤古

CV大模型通過自動化模型抽取、參數(shù)自動化調(diào)優(yōu)等模塊實現(xiàn)場景模型的訓練和推理。盤古

CV大模型包括物體檢測、姿態(tài)估計、視頻分類、圖像分類、異常檢測、目標跟蹤、語義分割、實例分割等多條預訓練工作流,可以全面覆蓋場景模型訓練需求,并在礦山、鋼鐵、鐵路、交通等多個行業(yè)進行驗證和實踐,成為行業(yè)首選。高效率,利用行業(yè)模型高效表征及數(shù)據(jù)篩選能力,數(shù)據(jù)處理效率提升

5倍以上;由于盤古

CV大模型配套完善的工程套件,可以基于圖形化界面,零代碼前提下,實現(xiàn)數(shù)據(jù)標注、模型開發(fā)、推理部署、實現(xiàn)

AI落地零門檻。購買盤古

CV大模型的企業(yè),實現(xiàn)人工智能轉(zhuǎn)型,構(gòu)建“內(nèi)生的持續(xù)發(fā)展”的

AI能力。由于盤古

CV大模型配套完善的工程套件,可以基于圖形化界面,零代碼前提下,實現(xiàn)數(shù)據(jù)標注、模型開發(fā)、推理部署,實現(xiàn)

AI落地零門檻。購買盤古

CV大模型的企業(yè),實現(xiàn)人工智能轉(zhuǎn)型,構(gòu)建“內(nèi)生的,持續(xù)發(fā)展”的

AI能力。技術原理計算機視覺的主要目標,是設計出能夠識別視覺信號,并且對其進行各種處理和分析的程序。換句話說,計算機視覺是研究計算機如何去“看”的學科。其中,較為典型的任務包括圖像分類、物體檢測、物體分割、物體追蹤、姿態(tài)估計等。下圖展示了圖像分類中最著名的ImageNet數(shù)據(jù)集(超過

2萬個物體類別)和

MS-COCO數(shù)據(jù)集(包括檢測、分割等多種任務)。小樣本,結(jié)合數(shù)據(jù)檢索及數(shù)據(jù)增廣技術,相對傳統(tǒng)訓練方式,數(shù)據(jù)需求減少

80%以上;高精度,受益于更好的語義對齊效果,在小樣本學習上表現(xiàn)優(yōu)異,顯著超越對比方法;華為云AI視頻技術白皮書1603|AI

視頻介紹TheImageNetdataset~15Mimages,~21Kcategories,~1.5TBTheMS-COCOdatasetdetection,segmentation,poseestimation,etc.圖表

7測試數(shù)據(jù)集在計算機中,視覺信號一般以“密集采樣強度”的方式存儲:不同方向入射的光線在每個信道(如紅綠藍)上的強度被記錄下來,用于呈現(xiàn)圖像的基本內(nèi)容。圖像中的每個基本單元被稱為像素——很顯然,這些像素并不能代表基本的語義信息,因而圖像的基本存儲形態(tài)和人類能夠理解的語義之間,存在很大的差距。在學界,這種差距被稱為“語義鴻溝”,這也是幾乎所有計算機視覺研究所需要處理的核心問題。進一步探究圖像的存儲形態(tài),我們會發(fā)現(xiàn)圖像信號的若干特點:內(nèi)容較復雜信息密度低域豐富多變圖像信號的基本單位是像素,但是單個像素往往不能表達語義。圖像識別的任務,就是構(gòu)建特定函數(shù),使得像素級輸入能夠產(chǎn)生語義級輸出。這種函數(shù)往往非常復雜,很難通過手工方式定義。圖像信號能夠忠實地反映事物的客觀表征;然而其中相當部分的數(shù)據(jù)被用于表達圖像中的低頻區(qū)域(如天空)或者無明確語義的高頻(如隨機噪聲)區(qū)域。這就導致了圖像信號的有效信息密度較低,特別是相比于文本信號而言。圖像信號受到域的影響較大,而且這種影響通常具有全局性質(zhì),難以和語義區(qū)分開來。例如,同樣的語義內(nèi)容,在強度不同的光照下,就會體現(xiàn)出截然不同的表征。同時,相同的物體能夠以不同的大小、視角、姿態(tài)出現(xiàn),從而在像素上產(chǎn)生巨大差異,為視覺識別算法帶來困難。17華為云AI視頻技術白皮書AI

視頻介紹

|03鑒于上述特點,基于深度神經(jīng)網(wǎng)絡的預訓練大模型就成為了計算機視覺落地的最佳方案之一。預訓練過程能夠一定程度上完成視覺信號的壓縮,深度神經(jīng)網(wǎng)絡能夠抽取層次化的視覺特征,而預訓練結(jié)合微調(diào)的范式則能夠應對豐富多變的域。得訓練、評估大規(guī)模圖像處理方法成為可能。隨著計算機視覺技術的進步和更多應用的出現(xiàn),ImageNet數(shù)據(jù)集的局限性逐漸顯現(xiàn)出來,包括規(guī)模、復雜性等。為了解決這一問題,我們必須收集更大規(guī)模、更加復雜的圖像數(shù)據(jù),而這也是業(yè)界的一致趨勢。數(shù)據(jù)收集通過多種渠道收集圖像數(shù)據(jù),包括但不限于公共數(shù)據(jù)集合下載、自有數(shù)據(jù)集合擴充、各搜索引擎關鍵字爬取、以圖搜圖、視頻圖像抽幀等。從這些原始數(shù)據(jù)中,我們篩除了低分辨率、低曝、過曝、簡單背景等低質(zhì)量圖像數(shù)據(jù),再通過已有預訓練視覺模型進行重復圖像的判斷和去除,最終保留超過

10億張高質(zhì)量圖像數(shù)據(jù),占據(jù)約

40TB空間。圖像是一種復雜的非結(jié)構(gòu)化數(shù)據(jù),包含豐富的語義信息?,F(xiàn)如今,還沒有任何一種方法能夠?qū)D像數(shù)據(jù)的數(shù)學規(guī)律進行準確的描述,因而人們只能通過收集大量的數(shù)據(jù),來近似現(xiàn)實中圖像數(shù)據(jù)的分布。2009年出現(xiàn)的ImageNet數(shù)據(jù)集是計算機視覺領域的重要里程碑,它使10億

+~40TB覆蓋圖像數(shù)據(jù)存儲空間自動駕駛,電力,鐵路,遙感等華為云AI視頻技術白皮書1803|AI

視頻介紹預訓練方法我們使用的神經(jīng)網(wǎng)絡模型覆蓋了計算機視覺領域最為常見的卷積網(wǎng)絡和

transformer架構(gòu),兩者既可以分開使用,也可以按需結(jié)合以達到更好的效果。利用自動機器學習算法,能夠支持并調(diào)用不同大小的神經(jīng)網(wǎng)絡,其中最大的計算模型具有接近

30億參數(shù),最小的模型只有數(shù)十萬參數(shù),其大小相差超過

1000倍,為適配不同的視覺任務提供了可能性。我們收集的訓練數(shù)據(jù)大部分來自互聯(lián)網(wǎng),不僅具有相當程度的噪聲,而且不包含準確的語義標簽。為了充分利用這些數(shù)據(jù),我們設計了自監(jiān)督學習方法,即通過某種或者某幾種代理任務,教會模型如何理解視覺數(shù)據(jù),在沒有語義標簽的情況下也能擬合復雜的數(shù)據(jù)分布。與此同時,我們在對比學習的基礎上優(yōu)化了相關代理算法,業(yè)界首創(chuàng)在對比度自監(jiān)督學習中引入等級化語義相似度,即挑選那些距離相應聚類中心更近的最近鄰作為正樣本,并且在拉近語義相似樣本的時候引入了混合樣本增強,以減少樣本選取過程中的噪聲影響。在此基礎上,我們拓展自監(jiān)督學習算法中正樣本的數(shù)目,使得正樣本集合能夠更加高效地被聚集,同時避免受到大量負樣本優(yōu)化的影響。我們采用的預訓練算法(發(fā)表于

TPAMI上)的簡略示意圖如下所示:MixedSampleEncoderqBottleneckBottleneckConvBNConvBNConvBNReLUConvBNReLUConvBNReLUMixAnchorSampleBottleneckMLPMLPEncoderKBottleneckBottleneckConvBNConvBNPositiveSampleConvBNReLUConvBNReLUConvBNReLUSemanticSearchCandidatesinDataset(注:基于等級化語義聚集的對比度自監(jiān)督學習)19華為云AI視頻技術白皮書AI

視頻介紹

|03效果展示盤古視覺大模型在

ImageNet數(shù)據(jù)集的線性分類評估上,越對比方法。以此方法為基礎,我們設計了具有

10億參數(shù)量的基礎模型,并在超過

10億張無標注圖像組成的數(shù)據(jù)集上進行預訓練。所得到的模型,在

ImageNet上達到了

88.7%的分類精度,而

1%標簽的半監(jiān)督學習精度也達到

83.0%。同時,盤古大模型在超過

20項下游任務上進行了測試,展現(xiàn)出良好的泛化能力,如下表所示。首次達到了與全監(jiān)督相比擬的結(jié)果。同時,受益于更好的語義對齊效果,我們的方法在小樣本學習上表現(xiàn)優(yōu)異:使用ImageNet上1%和10%的標簽訓練,我們的方法達到了

66.7%和

75.1%的分類精度,均顯著超數(shù)據(jù)集業(yè)界最佳模型90.43盤古預訓練模型89.3212Aircraft(飛行器

)CUB-200-2011(鳥類

)DTD(紋理

)86.9091.80380.0585.004EuroSAT(衛(wèi)星圖塊

)Flowers102(花

)Food101(食物

)Pets(動物

)98.8598.98597.0799.69692.2194.58795.2995.918SUN397(場景

)StanfordCars(車

)StanfordDogs(狗

)Average71.5178.92992.4894.09101187.4191.2889.2291.96圖表

8盤古預訓練模型分類性能比較列表數(shù)據(jù)集業(yè)界最佳模型盤古預訓練模型76.612VOC(自然場景

)Comic(風格變換

)Clipart(風格變換

)Watercolor(風格變換

)DeepLesion(醫(yī)療

)Dota2.0(遙感

)Kitti(自動駕駛

)WiderFace(人臉

)LISA(紅綠燈

)72.235.657.534.436.721.229.635.343.553.641.9638.0361.0436.9538.1621.0732.9836.3942.710Kitchen(廚房場景

)average55.043.85圖表

9盤古預訓練模型檢測性能比較列表華為云AI視頻技術白皮書2003|AI

視頻介紹3.5盤古視頻解譯大模型3.5.1業(yè)務需求在特定場景分析基礎上,開放式場景分析和識別需求越來越強烈,尤其是針對應急事件的處理。包括但不限于以下需求:簽數(shù)據(jù)的準確性和實用性,同時還可以動態(tài)刷新,確保數(shù)據(jù)的實時性和有效性;關鍵幀定位,借助視頻向量化能力,可以實現(xiàn)對關心事件檢索時,可以定位到攝像頭關鍵幀,并對關鍵幀前后視頻直接查看,提升問題定位的效率;智能視頻檢索,通過自然語言對攝像機,或者視頻存儲進行開放式檢索,如檢索發(fā)生在特定時間,地點的特殊事件;檢索多個線索關聯(lián)的場景等等;智能視頻摘要,借助大語言模型的能力,匯總攝像機關鍵標簽,摘要文本數(shù)據(jù),生成一句話摘要或分析報告,將攝像機所拍攝的關鍵內(nèi)容報告給管理者,實現(xiàn)讓攝像機說話。視覺標簽庫,通過對視覺數(shù)據(jù)進行標簽化處理,可以對所有視頻流的標簽進行精細化管理,提升全域攝像機標21華為云AI視頻技術白皮書AI

視頻介紹

|033.5.2方案建議盤古視頻解譯大模型,是在視頻智能分析服務(VIAS)和盤古

CV

大模型基礎上,融合多模態(tài)大模型能力,進一步延伸人工智能在視頻領域的應用。此方案依托大模型的萬物理解能力,實現(xiàn)視頻檢索、視頻標簽、以及視頻摘要能力。將攝像機拍攝的畫面描述出來,實現(xiàn)讓攝像機開口說話。數(shù)千個場景,并兼容專家模型支持專屬場景準確識別。盤古大模型基礎上,用“Agent

驅(qū)動視覺感知”,作為視覺感知能力入口,通過可編排可組合可插拔特性,實現(xiàn)大語言模型對視覺感知能力的驅(qū)動。最后向上,可以覆蓋海量“場景應用”從視覺

+

文本協(xié)調(diào)應用出發(fā),牽引視覺感知能力“可看”向“可交互”轉(zhuǎn)變;向下重構(gòu)“攝像頭

&

標簽資源”,構(gòu)建分層分類視覺標簽體系、動態(tài)標注,并實現(xiàn)視頻存儲資源的精細治理,釋放視頻數(shù)據(jù)資源價值。如上圖所示,此方案主要包括四個主要部分。中間核心為“盤古大模型重構(gòu)

AI

視頻服務交互”,CV

大模型

+多模態(tài)大模型雙輪驅(qū)動,開放場景視覺分析,快速覆蓋場景應用大模型驅(qū)動視覺任務管理標簽指引的精細化存儲視覺場景智能問數(shù)智能標簽檢索智能視頻摘要視覺建議生成業(yè)務自適應彈性調(diào)度多攝像頭聯(lián)動分析Agent驅(qū)動視覺感知Agent平臺盤古

Inside視覺算法AI視頻開發(fā)平臺開放視頻分析盤古

LLM調(diào)度

CV能力盤古大模型重構(gòu)

AI視頻服務交互視頻數(shù)據(jù)智能

+盤古視頻任務管理

+盤古盤古大模型(Core)多模態(tài)

|CV|NLP端邊云協(xié)同

+盤古AI視頻框架

+盤古攝像頭

&標簽資源視覺接入資源視覺存儲資源視覺標簽體系??全域攝像頭接入多協(xié)議解析??視頻存儲事件存儲????基礎標簽場所標簽部件標簽事件標簽圖表

10視頻解譯大模型架構(gòu)圖華為云AI視頻技術白皮書22AI視頻應用案例4.1華為門店秉承“自己的降落傘自己先跳”的原則,華為率先將行業(yè)視頻管理服務(IVM)應用于華為門店管理。華為終端

BG

有超過

1

萬家門店,每個門店都有若干攝像機,對門店進行管理。為了管理高效,華為終端

BG

需要一套集中式管理系統(tǒng),實現(xiàn)對超過10

萬路攝像機統(tǒng)一管理,統(tǒng)一調(diào)閱和統(tǒng)一存儲。客戶需求和痛點?????攝像機統(tǒng)一管理視頻數(shù)據(jù)安全全國所有門店統(tǒng)一監(jiān)管外墻廣告?????員工著裝和行為店內(nèi)廣告商品和樣品放置店內(nèi)地板清潔店內(nèi)櫥窗品牌推廣清潔墻壁圖表

11華為門店關鍵需求23華為云AI視頻技術白皮書行業(yè)視頻管理服務(IVM)完美滿足以上需求,提供云化管理平臺,實現(xiàn)視頻接入、視頻調(diào)閱和視頻存儲,一個管理中心可以管理分布在全國的所有華為門店。華為云

AI視頻解決方案TOBe統(tǒng)一巡檢平臺應用層華為云在華為門店項目中,IVM實現(xiàn)接入多廠家攝像機,充分保護前期攝像機建設成本,門店不需要任何物理改造,通過軟件適配實現(xiàn)統(tǒng)一管理。IVM利用云存儲可靠性高,永不丟失等能力,確保門店關鍵事件被記錄、可回溯;同時支持視頻水印,視頻加密,端到端可回溯等能力,確保視頻傳輸和存儲的安全,并不被盜取。同時

IVM還提供完善的分權(quán)分域管理機制,隔離多級管理者,確保顧客隱私和數(shù)據(jù)安全。行業(yè)視頻管理服務已經(jīng)成為華為門店管理環(huán)節(jié)中不可或缺的組成部分,融入到華為終端銷售的管理體系中,為華為終端業(yè)務增長保駕護航。實況預覽視頻點檢設備配置升級華為云行業(yè)視頻管理設備接入云存儲開放接口設備層華為

SDC其他攝像頭???1個

AI視頻云平臺,監(jiān)控和檢查所有門店攝像頭華為云視頻存儲支持攝像機遠程升級和配置圖表

12IVM華為門店解決方案華為云AI視頻技術白皮書2404|AI

視頻應用案例4.2物流伴隨電子商務的蓬勃發(fā)展,物流是近些年發(fā)展快速的行業(yè),無論是營業(yè)額還是覆蓋地區(qū)的數(shù)量都在快速增長。物流行業(yè)屬于勞動力密集型行業(yè),有大量分支機構(gòu)、倉庫,一般都采用攝像機方式進行遠程管理,確保安全,有序傳輸,既保證效率,又保證客戶端滿意度。因此物流行業(yè)普遍存在以下需求:???上千個分支機構(gòu),,超萬路攝像機的集中管理攝像機產(chǎn)生的視頻數(shù)據(jù),需要采用高安全的手段進行存儲物品傳遞過程中,要最大程度避免暴力分揀、錯誤配送等問題,亟需人工智能的方式進行監(jiān)管,改善服務質(zhì)量華為云提供行業(yè)視頻管理服務(IVM)和視頻智能分析服務(VIAS),滿足以上需求。IVM基于華為公有云提供攝像機管理、視頻流傳輸和存儲功能。確保物流公司管理者在任何地方,都可以遠程查看視頻畫面。VIAS提供

AI分析算法,包括暴力分揀、吸煙檢測等,實時識別不符合工作規(guī)范要求的行為并上報,對工作質(zhì)量進行監(jiān)督,極大提升了物流行業(yè)的工作規(guī)范性和服務質(zhì)量。暴力分揀檢測吸煙檢測更多

...物料亂堆亂放檢查安全帽識別車輛裝載率檢測擁塞識別應用場景實況

/告警視頻視頻智能分析服務華為云端攝像機管理ONVIFAI算法中心任務中心事件報警中心ONVIFONVIF互聯(lián)網(wǎng)互聯(lián)網(wǎng)互聯(lián)網(wǎng)攝像頭圖表

13物流行業(yè)視頻接入分析系統(tǒng)架構(gòu)圖25華為云AI視頻技術白皮書AI

視頻應用案例

|044.3鐵路中國漫長的鐵路線上運行著近百萬輛鐵路貨車,安全運行的重要性不言而喻。當前,鐵路系統(tǒng)廣泛采用

TFDS(TroubleofmovingFreightcarDetectionSystem,貨車運行故障動態(tài)圖像檢測系統(tǒng))來檢測列車安全,簡言之,就是利用部署在鐵軌旁的高速相機拍攝通過

TFDS探測站的列車部件圖像,再由列檢員對這些圖像逐一分析,識別車輛故障隱患并預警處置。2021年,國鐵集團貨車事業(yè)部把

TFDS故障圖像智能識別項目作為國鐵集團第一批科研計劃“揭榜掛帥”課題,指定鄭州局集團公司鄭州北車輛段

5T檢測車間作為該項目的試點單位,與華為公司、慧鐵科技公司共同研究、聯(lián)手推進。在項目中,盤古大模型充當了

TFDS系統(tǒng)的“AI訓練師”,它能夠基于海量無標注數(shù)據(jù)進行預訓練,還可以“邊用邊學”;具備小樣本學習和樣本生成能力,能夠生成大量訓練樣本提升模型質(zhì)量。比如搖枕心盤脫出的故障,全國范圍內(nèi)只找到一張故障樣本,借助小樣本學習,目前盤古大模型已經(jīng)能正確識別這個故障。受制于技術發(fā)展,TFDS過去大多采用人工方式進行故障識別。以鄭州北車輛段

5T檢測車間為例,日均檢車

4萬余輛,識別圖片

280萬余張。列檢員每天需要檢查大量極其相似的圖片,并且需要在

5秒左右的時間及時發(fā)現(xiàn)細微的差別,找出列車存在的故障。人工方式識別勞動強度大、人力成本高,高強度的重復勞動也極易產(chǎn)生疲勞,造成誤判。下圖展示了盤古視覺大模型在為TFDS定制的解決方案。依托于盤古行業(yè)預訓練大模型,定制化地開發(fā)了整體解TFDS行業(yè)預訓練盤古行業(yè)預訓練模型圖像語義相似樣本聚集等級化語義聚集綜合判別算法識別預報故障亮度特征提取質(zhì)量評估模型圖像正常圖像質(zhì)量評估質(zhì)量評估增強圖像過曝、欠曝等部件定位模板匹配故障識別部件目標檢測部件定位行業(yè)預訓練部件位置信息部件丟失、錯位、出現(xiàn)異常部件等基于先驗的模板匹配部件故障分類關鍵點檢測形變、折斷、脫落等故障識別故障識別行業(yè)預訓練角度、尺寸等故障破損、裂縫局部故障檢測異常檢測異常檢測行業(yè)預訓練大面積地板破損、異物、形變整車綜合分析整車故障綜合分析圖表

14基于盤古行業(yè)預訓練模型的鐵路

TFDS開發(fā)方案華為云AI視頻技術白皮書2604|AI

視頻應用案例決方案,包括車型篩選、工位分類、配件篩選、圖像質(zhì)量評估、已與車型先驗的模板匹配、多車級聯(lián)分析等模塊,其中盤古大模型核心解決方案包含以下組成部分:車輛拆分行業(yè)預訓練模型自動增強和評估模板匹配故障定位、識別根據(jù)整列車圖像,定

的圖像利用百萬級無標注鐵路行業(yè)生成鐵路行業(yè)預訓練模型圖

評估,對正常圖像做進一步故障識別,非正常圖像返回人工審核根據(jù)已知的車型信息建立零部件的相對位置模板,預報部件位置異常(丟失、錯位)基于鐵路行業(yè)預訓練大模型,結(jié)合目標檢測、圖像識別框架,進行部件定位、故障識別基于盤古視覺大模型的整體解決方案,在

5T檢測車間集中作業(yè)分析的

14條線路進行了驗證。由

5T檢測車間動態(tài)檢車員預報并經(jīng)組長確認為提報故障的數(shù)據(jù)樣本(故障圖片)共計

32007張。在測試環(huán)境下,這些故障圖片與大量正常圖片混合,送入盤古大模型進行判斷。如下表所示,實測結(jié)果表明,當前盤古大模型的識別精度已經(jīng)超過人類檢測員水平。準確預測119漏報1故障總數(shù)120識別率99.17%攔停重點一般準確預測28280漏報506故障總數(shù)28786識別率98.24%準確預測3084漏報17故障總數(shù)3101識別率99.45%2022年

12月,華為云盤古大模型加持的

TFDS系統(tǒng)正式投入使用,可根據(jù)大量的數(shù)據(jù)樣本,自動總結(jié)部件特征、自動尋找故障規(guī)律,并在實際試用中持續(xù)改善分析效果,實現(xiàn)從整體到局部、再到故障細節(jié)特征的逐步精細識別。得益于一雙又快又準的“盤古眼”,這套

TFDS系統(tǒng)能精準識別

67種貨車

430多種故障類別,重大異常故障

100%識別,綜合故障識別率達

99.8%;原來人工需要識別

4000張圖片,現(xiàn)在僅需要復檢

170多張圖片,工人勞動強度下降95.75%,極大提升了檢測效率和故障識別率,提高了列車安全性。27華為云AI視頻技術白皮書AI

視頻應用案例

|044.4礦山山東能源集團(簡稱山能集團)以礦業(yè)、高端化工、電力、新能源新材料、高端裝備制造、現(xiàn)代物流貿(mào)易為主導產(chǎn)業(yè)。其中,煤炭產(chǎn)量位居全國煤炭行業(yè)第三位,礦井智能化生產(chǎn)水平居行業(yè)前列,9

處礦井成為首批國家級智能化示范礦井。共享,未來可復制到集團其他

70+

礦井。2)海量吞吐信息處理利用無監(jiān)督訓練策略對海量信息(圖片數(shù)量

10

+,視頻信號

>100TB)進行歸納抽取訓練得到的模型,具備強大視覺表征識別能力。山能集團依托盤古大模型建設了集團人工智能訓練中心,把盤古礦山大模型全面應用到采、掘、機、運、通、洗選等

9

大業(yè)務系統(tǒng),具備視覺大模型、預測大模型、自然語言大模型等三大能力,探索和發(fā)掘煤礦生產(chǎn)領域全場景的人工智能應用,通過技術創(chuàng)新實現(xiàn)“人工智能大規(guī)模下礦”,讓員工遠離井下作業(yè)環(huán)境,實現(xiàn)“高效、安全、可持續(xù)性”的生產(chǎn)運營管理。3)模型移植能力大模型相比小模型有良好的泛化性能,在相似場景上訓練的模型可遷移到未進行訓練的新場景上,并且可以快速地在新的礦井進行部署和上線應用,無需從零開始大量重復訓練。4)數(shù)據(jù)篩選效率高1.支持智能生產(chǎn)模式創(chuàng)新大模型具有在全新場景實現(xiàn)缺陷樣本高效篩選的能力,相對傳統(tǒng)小模型訓練方式,可以節(jié)省

85%

的標注人力。1)樣本訓練效率高通過云邊協(xié)同方案,打通集團中心云和礦山邊緣云數(shù)據(jù),低代碼小樣本訓練,模型自動優(yōu)化,邊用邊學,能以更少的數(shù)據(jù)達到其他模型相同乃至更高的精度;通過云邊協(xié)同方案,在其

AI

標桿興隆莊煤礦的一處訓練,全集團5)模型識別精度高基于“非正常即異常”識別原則,快速訓練生產(chǎn)、安監(jiān)、決策的

L2

場景化模型,在同等少量樣本訓練的情況下,大模型精度高出小模型

10%。華為云AI視頻技術白皮書2804|AI

視頻應用案例2.提升生產(chǎn)質(zhì)量效益在興隆莊一期項目中,對于危險區(qū)域人員入侵識別等場景,大模型識別率達

90%

以上?;诖竽P退惴?,系統(tǒng)識別精度比傳統(tǒng)小模型提高

10%。在實際應用中,系統(tǒng)可通過告警提醒,避免潛在危險發(fā)展為安全事故,并進一步規(guī)范井下人員的作業(yè)行為,提升安全

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論