華為云AI視頻技術(shù)白皮書(shū) 2024_第1頁(yè)
華為云AI視頻技術(shù)白皮書(shū) 2024_第2頁(yè)
華為云AI視頻技術(shù)白皮書(shū) 2024_第3頁(yè)
華為云AI視頻技術(shù)白皮書(shū) 2024_第4頁(yè)
華為云AI視頻技術(shù)白皮書(shū) 2024_第5頁(yè)
已閱讀5頁(yè),還剩60頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

引言/011AI與視頻的碰撞/05 05 093.2行業(yè)視頻管理服務(wù)(IVM) 3.3視頻智能分析服務(wù)(VIAS) 21技術(shù)白皮書(shū)十 23 25 26 28 展望未來(lái),從感知到生成/31用攝像機(jī)拍攝,記錄并播放視頻可以回溯到19世紀(jì),大家公認(rèn)的第一部電影是法國(guó)影片《工廠的大門(mén)》,1895年由路易斯·盧米埃爾攝影。表現(xiàn)當(dāng)時(shí)法國(guó)里昂盧米埃爾工廠放工時(shí)的情景,片長(zhǎng)中提出了著名的“圖靈測(cè)試”,給出了判定機(jī)器是否有“智能”的試驗(yàn)方法。1956年夏,麥卡錫、明斯基等科學(xué)家在美國(guó)達(dá)特茅斯學(xué)院開(kāi)會(huì)研討“如何用機(jī)器模擬人的智能”,首次提出“人工智能(Artifcial第一次寒冬第二次寒冬起源圖表1人工智能VS視頻編解碼發(fā)展歷史發(fā)展趨勢(shì)大量的攝像機(jī)安裝完成后,面臨的問(wèn)題是如何集中式管理。攝像機(jī)分散在不同的地方,管理者需要在一個(gè)平臺(tái)上,跨區(qū)域、大范圍集中管理,通過(guò)完善的分權(quán)分域能力保護(hù)隱私安全。同時(shí),各攝像機(jī)采集的視頻需要集中存儲(chǔ),因?yàn)楸镜鼗稚⒋鎯?chǔ)會(huì)造成信息碎片化,無(wú)法形成多個(gè)視頻流之間的2023年到2027年,視頻流上云和云存儲(chǔ)的年復(fù)合增長(zhǎng)率超過(guò)27%。在云化的趨勢(shì)下,視頻流云上管理、存儲(chǔ)越來(lái)越成為業(yè)界趨勢(shì),企業(yè)的主流選擇。AI技術(shù)中,處理視頻的相關(guān)技術(shù)一般被稱(chēng)為計(jì)算機(jī)視覺(jué)(ComputingVision).計(jì)算機(jī)視覺(jué)是一種利用計(jì)算機(jī)和數(shù)學(xué)算法來(lái)模擬和自動(dòng)化人類(lèi)視覺(jué)的過(guò)程。它涉及到從數(shù)字圖像或視頻中提取信息計(jì)算機(jī)視頻分析視頻流或者圖片時(shí)采用計(jì)算機(jī)視覺(jué)模型。計(jì)算機(jī)視覺(jué)模型是指使用深度學(xué)習(xí)技術(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,用于解決計(jì)算機(jī)視覺(jué)領(lǐng)域的各種問(wèn)題。這些模型通常由數(shù)百萬(wàn)或更多個(gè)參數(shù)組成,可以對(duì)圖像、視頻等視覺(jué)數(shù)據(jù)進(jìn)行高級(jí)別的理解和分析,例如圖像分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割更詳細(xì)的應(yīng)用場(chǎng)景請(qǐng)參考章節(jié)“4AI視頻應(yīng)用案例”智慧園區(qū)云基礎(chǔ):計(jì)算/存儲(chǔ)(對(duì)象存儲(chǔ))/網(wǎng)絡(luò)/安全華為云A華為云A視頻技術(shù)白皮書(shū)2.視頻調(diào)閱3.錄像管理圖表3行業(yè)視頻管理(IVM)方案建議2.算法中心3.視頻中心實(shí)現(xiàn)視頻算法的整體功能性配置,構(gòu)建基于視頻數(shù)據(jù)的4.任務(wù)中心任務(wù)中心提供算法作業(yè)配置、算法作業(yè)管理能力,是算法的核心配置模塊,通過(guò)該模塊的配置,算法即可具備5.事件中心商品圖表4視頻智能分析服務(wù)方案建議華為盤(pán)古CV大模型瞄準(zhǔn)人工智能在工業(yè)場(chǎng)景應(yīng)用中的困超大的神經(jīng)網(wǎng)絡(luò)超大的神經(jīng)網(wǎng)絡(luò)效率提升強(qiáng)壯的網(wǎng)絡(luò)架構(gòu)優(yōu)秀的泛化能力模型泛化極大節(jié)省訓(xùn)練投入流水線工具集成訓(xùn)練更快更佳模型性能圖表5盤(pán)古CV大模型工作流原理華為云AI視頻技術(shù)白皮書(shū)2山行業(yè)大模型每個(gè)行業(yè)的模型開(kāi)發(fā)套件亮點(diǎn)介紹亮點(diǎn)介紹少樣本實(shí)現(xiàn)高準(zhǔn)確率行業(yè)特定模型技術(shù)原理低頻區(qū)域(如天空)或者無(wú)明確語(yǔ)義的高頻(如隨機(jī)噪聲)鑒于上述特點(diǎn),基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練大模型就成為了計(jì)算機(jī)視覺(jué)落地的最佳方案之一。預(yù)訓(xùn)練過(guò)程能夠一定程度上完成視覺(jué)信號(hào)的壓縮,深度神經(jīng)網(wǎng)絡(luò)能夠抽取層次化的視覺(jué)特征,而預(yù)訓(xùn)練結(jié)合微調(diào)的范式則能夠數(shù)據(jù)收集圖像是一種復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù),包含豐富的語(yǔ)義信息?,F(xiàn)如今,還沒(méi)有任何一種方法能夠?qū)D像數(shù)據(jù)的數(shù)學(xué)規(guī)律進(jìn)行準(zhǔn)確的描述,因而人們只能通過(guò)收集大量的數(shù)據(jù),來(lái)近似現(xiàn)實(shí)中圖像數(shù)據(jù)的分布。2009年出現(xiàn)的ImageNet數(shù)據(jù)集是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要里程碑,它使得訓(xùn)練、評(píng)估大規(guī)模圖像處理方法成為可能。隨著計(jì)算機(jī)視覺(jué)技術(shù)的進(jìn)步和更多應(yīng)用的出現(xiàn),ImageNet數(shù)據(jù)集的局限性逐漸顯現(xiàn)出來(lái),包括規(guī)模、復(fù)雜性等。為了解決這一問(wèn)題,我們必須收集更大規(guī)模、更加復(fù)雜的圖像數(shù)據(jù),而這也是業(yè)界的一致趨勢(shì)。通過(guò)多種渠道收集圖像數(shù)據(jù),包括但不限于公共數(shù)據(jù)集合下載、自有數(shù)據(jù)集合擴(kuò)充、各搜索引擎關(guān)鍵字爬取、以圖搜圖、視頻圖像抽幀等。從這些原始數(shù)據(jù)中,我們篩除了低分辨率、低曝、過(guò)曝、簡(jiǎn)單背景等低質(zhì)量圖像數(shù)據(jù),再通過(guò)已有預(yù)訓(xùn)練視覺(jué)模型進(jìn)行重復(fù)圖像的判斷和去除,最終保留超過(guò)10億張高質(zhì)量圖像數(shù)據(jù),占據(jù)約40TB空間。預(yù)訓(xùn)練方法Xkkq(注:基于等級(jí)化語(yǔ)義聚集的對(duì)比度自監(jiān)督學(xué)習(xí))華華為云AI視頻技術(shù)白皮書(shū)效果展示我們的方法達(dá)到了66.7%和75.1%了88.7%的分類(lèi)精度,而1%標(biāo)簽的半監(jiān)督學(xué)習(xí)精度也達(dá)到83.0%。同時(shí),盤(pán)古大模型在超過(guò)20項(xiàng)下游任務(wù)上進(jìn)1Aircraft(飛行器)2CUB-200-2011(鳥(niǎo)類(lèi))3DTD(紋理)4EuroSAT(衛(wèi)星圖塊)5Flowers102(花)6Food101(食物)7Pets(動(dòng)物)8SUN397(場(chǎng)景)9StanfordCars(車(chē))StanfordDogs(狗)1VOC(自然場(chǎng)景)2Comic(風(fēng)格變換)3Clipart(風(fēng)格變換)4Watercolor(風(fēng)格變換)5DeepLesion(醫(yī)療)6Dota2.0(遙感)7Kitti(自動(dòng)駕駛)8WiderFace(人臉)9LISA(紅綠燈)Kitchen(廚房場(chǎng)景)場(chǎng)景應(yīng)用Agent驅(qū)動(dòng)視覺(jué)感知Agent平臺(tái)視覺(jué)標(biāo)簽體系·全域攝像頭接入AI視頻應(yīng)用案例則,華為率先將行業(yè)視頻管理服務(wù)終端BG有超過(guò)1萬(wàn)家門(mén)店,每個(gè)門(mén)店都有若干攝像機(jī),對(duì)門(mén)店進(jìn)行管10萬(wàn)路攝像機(jī)統(tǒng)一管理,統(tǒng)一調(diào)閱圖表11華為門(mén)店關(guān)鍵需求行業(yè)視頻管理服務(wù)(IVM)完美滿足以上視頻調(diào)閱和視頻存儲(chǔ),一個(gè)管理中心可以管理分布在全國(guó)的所有華為門(mén)店。在華為門(mén)店項(xiàng)目中,IVM實(shí)現(xiàn)接入多廠家攝像機(jī),充分保護(hù)前期攝像機(jī)建設(shè)成本,門(mén)店不需要任何物理改造,通過(guò)軟件適配永不丟失等能力,確保門(mén)店關(guān)鍵事件被記錄、可回溯;同時(shí)支持視頻水印,視頻加密,端到端可回溯等能力,確保視頻傳輸和存儲(chǔ)的安全,并不被盜取。同時(shí)IVM還提供完善的分權(quán)分域管理機(jī)制,隔離多級(jí)管理者,確保顧客隱私和數(shù)據(jù)安全。行業(yè)視頻管理服務(wù)已經(jīng)成為華為門(mén)店管理環(huán)節(jié)中不可或缺的組成部分,融入到華為終端銷(xiāo)售的管理體系中,為華為終端業(yè)務(wù)增長(zhǎng)保駕護(hù)航。華為云華為云A視頻解決方案圖表12IVM華為門(mén)店解決方案華為云A視頻技術(shù)白皮書(shū)244.2物流伴隨電子商務(wù)的蓬勃發(fā)展,物流是近些年發(fā)展快速的行業(yè),無(wú)論是營(yíng)業(yè)額還是覆蓋地區(qū)的數(shù)量都在快速增長(zhǎng)。物流行業(yè)屬于勞動(dòng)力密集型行業(yè),有大量分支機(jī)構(gòu)、倉(cāng)庫(kù),一般都采用攝像機(jī)方式進(jìn)行遠(yuǎn)程管理,確保安全,有序傳輸,既保證效率,又保證客戶端滿意度。因此物流行業(yè)普遍存在以下需求:》上千個(gè)分支機(jī)構(gòu),,超萬(wàn)路攝像機(jī)的集中管理》攝像機(jī)產(chǎn)生的視頻數(shù)據(jù),需要采用高安全的手段進(jìn)行存儲(chǔ)》物品傳遞過(guò)程中,要最大程度避免暴力分揀、錯(cuò)誤配送等問(wèn)題,亟需人工智能的方式進(jìn)行監(jiān)管,改善服務(wù)質(zhì)量華為云提供行業(yè)視頻管理服務(wù)(IVM)和視頻智能分析服務(wù)(VAS),滿足以上需求,IVM基于華為公有云提供攝像機(jī)管理、視頻流傳輸和存儲(chǔ)功能。確保物流公司管理者在任何地方,都VIAS提供AI分析算法,包括暴力分揀、吸煙檢測(cè)等,實(shí)時(shí)識(shí)別不符合工作規(guī)范要求的行為并上報(bào),對(duì)工作質(zhì)量進(jìn)行監(jiān)督,極大提升了物流行業(yè)的工作規(guī)范性和服務(wù)質(zhì)量。圖表13物流行業(yè)視頻接入分析系統(tǒng)架構(gòu)圖 4.3鐵路行的重要性不言而喻。當(dāng)前,鐵路系統(tǒng)廣泛采用TFDS站的列車(chē)部件圖像,再由列檢員對(duì)這些圖像逐一分析,識(shí)別,以鄭州北車(chē)輛段5T檢測(cè)車(chē)間為例,日均檢車(chē)4萬(wàn)余輛,識(shí)別圖片280萬(wàn)余張。列檢員每天需要檢查大量極其相似的圖片,并且需要在5秒左右的時(shí)間及時(shí)發(fā)現(xiàn)細(xì)微的差別,找出列車(chē)存在的故障。人工方式識(shí)別勞動(dòng)邊學(xué)”;具備小樣本學(xué)習(xí)和樣本生成能力,能夠生成大部件定位整車(chē)綜合分析整車(chē)故障綜合分析部件縣生位部件定位別圖像質(zhì)量評(píng)估用部故檢測(cè)故障識(shí)雌標(biāo)檢欠圖表14基于盤(pán)古行業(yè)預(yù)訓(xùn)練模型的鐵路TFDS開(kāi)發(fā)方案華為云A華為云A視頻技術(shù)白皮書(shū)B(niǎo)B模板匹配對(duì)位置模板,預(yù)報(bào)部件位置異常(丟失、錯(cuò)位)故障定位、識(shí)別練大模型,結(jié)合目框架,進(jìn)行部件定自動(dòng)增強(qiáng)和評(píng)估圖像進(jìn)行自動(dòng)評(píng)行業(yè)預(yù)訓(xùn)練模型利用百萬(wàn)級(jí)無(wú)標(biāo)注車(chē)輛拆分定位出每輛車(chē)的圖像員預(yù)報(bào)并經(jīng)組長(zhǎng)確認(rèn)為提報(bào)故障的數(shù)據(jù)樣本(故障圖片)共計(jì)32007張。在測(cè)試環(huán)境下,這些故障圖片與大量正常圖片一般1得益于一雙又快又準(zhǔn)的“盤(pán)古眼”,這套TFDS系統(tǒng)能精準(zhǔn)識(shí)別67種貨車(chē)430多種故障類(lèi)別,重大異常故障100%識(shí)別,綜合故障識(shí)別率達(dá)99.8%;原來(lái)人工需要識(shí)別4000張圖片,現(xiàn)在僅需要復(fù)檢170多張圖片,工人勞動(dòng)強(qiáng)度下降利用無(wú)監(jiān)督訓(xùn)練策略對(duì)海量信息(圖片數(shù)量10億+,視2.提升生產(chǎn)質(zhì)量效益精煤灰分、提升精煤回收率0.1%~0.2%,每年多產(chǎn)出3.降低安全生產(chǎn)風(fēng)險(xiǎn)華為云AI視頻技術(shù)白皮書(shū)4.5電力降低60%。回05|展望未來(lái),從感知到生成展望未來(lái),從感知到生成視頻智能分析服務(wù)(VIAS)開(kāi)箱即用的算法,可以實(shí)現(xiàn)智慧園區(qū)、城市治理、安全生產(chǎn)等場(chǎng)景的事件感知、分析和決策能力。盤(pán)古CV大模型提供預(yù)訓(xùn)練工作流,可以用類(lèi)似工業(yè)流水線的方式快速生成場(chǎng)景化模型,助力企業(yè)實(shí)現(xiàn)人工智能轉(zhuǎn)型,構(gòu)建“內(nèi)生的,持續(xù)發(fā)展”的AI文本、語(yǔ)音之間的自由轉(zhuǎn)換,提供多模態(tài)理解能力,讓攝像機(jī)開(kāi)口說(shuō)話,可以為多個(gè)行業(yè)帶來(lái)變革。例和城市治理領(lǐng)域,將攝像機(jī)拍攝的視頻流轉(zhuǎn)換成文本,可以實(shí)現(xiàn)異常事件(例如火災(zāi),極端天氣等)的主動(dòng)上報(bào);自動(dòng)駕駛領(lǐng)域,將車(chē)載攝像頭捕捉的道路圖像轉(zhuǎn)換成文本,以幫助自動(dòng)駕駛系統(tǒng)理解周?chē)h(huán)境;客戶服務(wù)和智能助手領(lǐng)域,將視頻通話中的對(duì)話、動(dòng)作、表情轉(zhuǎn)換成文本,以便智能客服代理理解用戶需求并提供支持;廣告和內(nèi)容推薦領(lǐng)域,將在線視頻的內(nèi)容轉(zhuǎn)換成文本標(biāo)簽,以便更好地匹配廣告或推薦相關(guān)內(nèi)容,同時(shí)分析用戶觀看的視頻流,將其轉(zhuǎn)換成文本,以便為用戶提供個(gè)性化的推薦;教育和培訓(xùn)領(lǐng)域,將教學(xué)視頻轉(zhuǎn)換成文本,以便學(xué)生搜索和理解課程內(nèi)容。善于利用工具讓人類(lèi)從眾多生靈中脫穎而出,成為世界的主宰。攝像機(jī)是人類(lèi)眼睛的延伸,功能甚至比眼睛還要強(qiáng)大。紅外攝像機(jī)、紫外攝像機(jī)、高速攝像機(jī)、偏振攝像機(jī)等等,可以捕捉到人類(lèi)眼睛無(wú)法捕捉的畫(huà)面。海量攝像機(jī)產(chǎn)生的海量視頻數(shù)據(jù),記錄了世界的點(diǎn)點(diǎn)滴滴,也帶來(lái)了數(shù)據(jù)爆炸的困擾。海量的視頻數(shù)據(jù)存儲(chǔ)成本高昂,導(dǎo)致很多視頻流數(shù)據(jù)被忽略,很多攝像機(jī)拍攝畫(huà)面沒(méi)有被利用,形同虛設(shè)。人工智能技術(shù)和視頻技術(shù)的深度結(jié)合,相信可以解決這個(gè)問(wèn)題。用更高效的方式記錄和存儲(chǔ),用有效的方式感知和判斷,忽略無(wú)效畫(huà)面,不放過(guò)任何有效信息。城市角落的安全時(shí)間,工業(yè)生產(chǎn)的細(xì)微缺陷,四季更替的極端天氣,甚至浩瀚星空中的天外來(lái)客,都應(yīng)該觸發(fā)人工智能的識(shí)別,感知和分析,讓城市更安

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論