




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
0303 目錄CONTENS一、云智一體,促進數(shù)字化轉(zhuǎn)型與智能化升級一步到位021.3云智一體的百度智能云架構(gòu)2.0,加速產(chǎn)業(yè)智能化04二、云智一體的智能大數(shù)據(jù)產(chǎn)品架構(gòu)全景圖052.1數(shù)據(jù)要素成為數(shù)字經(jīng)濟時代的新戰(zhàn)略資源062.2大數(shù)據(jù)驅(qū)動千行百業(yè)數(shù)字化轉(zhuǎn)型和業(yè)務(wù)創(chuàng)新072.3大數(shù)據(jù)的未來發(fā)展趨勢082.4企業(yè)構(gòu)建大數(shù)據(jù)平臺的原則082.4.1成效為先092.4.2治理為要092.4.3安全為本092.4.4持續(xù)運營092.5百度智能云大數(shù)據(jù)產(chǎn)品架構(gòu)全景圖3.1.1按需創(chuàng)建123.1.2存算分離123.1.3彈性擴縮容133.1.4運維托管143.2.1BOS數(shù)據(jù)湖存儲153.2.2豐富的數(shù)據(jù)湖分析引擎163.3.1元數(shù)據(jù)統(tǒng)一管理203.3.2自動數(shù)據(jù)集成203.3.3全流程可視化數(shù)據(jù)治理開發(fā)213.3.4數(shù)據(jù)湖分析213.4成功實踐22四、智能數(shù)據(jù)挖掘,驅(qū)動數(shù)據(jù)資產(chǎn)價值最大化4.1數(shù)據(jù)資產(chǎn)管理與運營平臺DAMP264.1.1數(shù)據(jù)資產(chǎn)目錄264.1.2數(shù)據(jù)在線應(yīng)用工具264.1.3數(shù)據(jù)服務(wù)超市264.1.4數(shù)據(jù)資產(chǎn)看板274.2數(shù)據(jù)可視化SugarBI274.2.1直連多數(shù)據(jù)源274.2.2豐富的圖表和拖拽式編輯284.2.3炫酷大屏與智能交互284.3全功能AI開發(fā)平臺BML294.3.1BML總體架構(gòu)294.3.2BML為數(shù)據(jù)科學提供的核心功能304.3.3面向行業(yè)的智能數(shù)據(jù)挖掘解決方案314.4智能數(shù)據(jù)挖掘成功實踐324.4.1郵儲大腦機器學習平臺324.4.2某集團研發(fā)中心設(shè)備健康管理系統(tǒng)33五、隱私計算鑄就安全防護新體系365.1數(shù)據(jù)安全的落實規(guī)則385.1.1覆蓋數(shù)據(jù)全生命周期的安全體系385.1.2隱私數(shù)據(jù)的安全保護閉環(huán)395.1.3安全合規(guī)的數(shù)據(jù)流通形式395.1.4主流的隱私計算核心引擎405.2百度全生命周期數(shù)據(jù)安全防護體系405.2.1資產(chǎn)安全415.2.2隱私保護415.2.3隱私計算415.3百度點石成功實踐43六、企業(yè)數(shù)據(jù)資產(chǎn)構(gòu)建與應(yīng)用實踐456.1數(shù)據(jù)治理466.1.1搭班子466.1.2做盤點476.1.3定標準486.1.4穩(wěn)實施486.2資產(chǎn)管理與運營496.2.1資產(chǎn)管理496.2.2資產(chǎn)運營496.3業(yè)務(wù)應(yīng)用506.4企業(yè)數(shù)據(jù)資產(chǎn)應(yīng)用實踐516.4.1徐工綜合經(jīng)營管理決策駕駛艙516.4.2陜西廣電媒體融合數(shù)據(jù)資產(chǎn)建設(shè)52七、更多行業(yè)案例參考56八、關(guān)于本報告570203當前,我們正處在科技創(chuàng)新和產(chǎn)業(yè)發(fā)展最好的時代,以人工智能、大數(shù)據(jù)、云計算、5G等為代表的新一代信息在產(chǎn)業(yè)應(yīng)用新興技術(shù)和數(shù)據(jù)資源轉(zhuǎn)型升級的過程中,數(shù)字化是基礎(chǔ);而隨著人工智能等新一代信息技術(shù)的發(fā)展,以及數(shù)據(jù)的爆發(fā)式增長,產(chǎn)業(yè)加快應(yīng)用智能技術(shù),從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律、訓練模型、提煉知識,促進產(chǎn)出增加和效率提升,實現(xiàn)企業(yè)生產(chǎn)經(jīng)營的智能化,1.2百度智能云戰(zhàn)略升級百度是擁有強大互聯(lián)網(wǎng)基礎(chǔ)的領(lǐng)先AI公司。從成立的第一天起,百度搜索引擎就與人工智能、云計算等技術(shù)息息相關(guān)。經(jīng)過多年的技術(shù)積累和產(chǎn)業(yè)實踐,百度已形成了全面布局,從基礎(chǔ)的算力和數(shù)據(jù)技術(shù)、深度學習算法及框架,到語音、視覺、自然語言處理等感知、認知技術(shù),以及飛槳深度學習開源開放平臺等,具備云智一體基于百度的技術(shù)優(yōu)勢和對產(chǎn)業(yè)發(fā)展的洞察,經(jīng)過跟合作伙伴的共同成長與產(chǎn)業(yè)實踐,百度智能云的戰(zhàn)略升級為:以“云計算為基礎(chǔ)”支撐企業(yè)數(shù)字化轉(zhuǎn)型,以“人工智能為引擎”加速產(chǎn)業(yè)智能化升級,云智一體“賦能云智一體的“云”為數(shù)字化轉(zhuǎn)型提供安全、穩(wěn)定、靈活的數(shù)字化底座,“智能化引擎”為智能化升級提供領(lǐng)先同時,如果客戶只做數(shù)字化轉(zhuǎn)型,我們有豐富的云計算產(chǎn)品可以支持;或者客戶已經(jīng)有了數(shù)字化基礎(chǔ),我們的百度智能云的“云”,不僅為數(shù)字化轉(zhuǎn)型提供安全穩(wěn)定、彈性靈活的云計算服務(wù),同時也是適合跑AI的云,我們稱之為“AI原生云”,繼承云原生的優(yōu)勢,面向AI場景,提供極致彈性的高性能異構(gòu)算力,打造簡潔、高效“云智一體”的智,是百度將深耕十余年的AI技術(shù),以及AI賦能產(chǎn)業(yè)的實踐經(jīng)驗,沉淀為助力產(chǎn)業(yè)智能化升級的技術(shù)、平臺及方法論,是以加速產(chǎn)業(yè)智能化升級04視頻云數(shù)據(jù)庫物聯(lián)網(wǎng)邊緣計算全場景應(yīng)用 …AI中臺知識中臺智能化數(shù)字化視頻云數(shù)據(jù)庫物聯(lián)網(wǎng)邊緣計算全場景應(yīng)用 …AI中臺知識中臺智能化數(shù)字化底座“云智一體”技術(shù)與應(yīng)用解析系列白皮書智1.3云智一體的百度智能云架構(gòu)2.0,基于百度智能云的戰(zhàn)略升級,云智一體的百度智能云架構(gòu)2.0同時發(fā)布,包含數(shù)字化底座、智能化引擎和全場景應(yīng)用(如圖1.3-1所示)。數(shù)字化底座,包括基礎(chǔ)云、數(shù)據(jù)庫、物聯(lián)網(wǎng)、邊緣計算、區(qū)塊鏈等基礎(chǔ)平臺,以及視頻云、大數(shù)據(jù)、云原生開發(fā)和地圖服務(wù)等;同時還有安全模塊,為技術(shù)在數(shù)字化底座之上是智能化引擎,百度自主研發(fā)的飛槳深度學習平臺為核心,軟硬一體AI大生產(chǎn)平臺--為支撐,包括AI中臺和知識中臺等。智能化引擎與行業(yè)深度融合,幫助企業(yè)建設(shè)自己的智能化中臺,助力智能基于數(shù)字化底座和智能化引擎,百度智能云深入行業(yè)場景,打造智能應(yīng)用,同時與生態(tài)伙伴一起,在制造、能源、城市、金融、醫(yī)療、媒體等領(lǐng)域,助力數(shù)字化云為底座飛槳為核生態(tài)為翼智慧城市智慧城市智能制造智慧金融智慧交通智慧能源智慧醫(yī)療智慧媒體…智能客服智能客服智能推薦智能辦公企業(yè)搜索工業(yè)質(zhì)檢智能創(chuàng)作軟硬一體AI大生產(chǎn)平臺產(chǎn)業(yè)級深度學習開源開放平臺大數(shù)據(jù)服務(wù)大數(shù)據(jù)服務(wù)云原生開發(fā)服務(wù)基礎(chǔ)云基礎(chǔ)云存儲計算地圖服務(wù)地圖服務(wù)安全(圖1.3-1)我們希望以百度智能云為紐帶,聯(lián)合技術(shù)和產(chǎn)業(yè)生態(tài)伙伴,通過開源開放平臺降低AI開發(fā)的門檻,加快人工智05062020年數(shù)字經(jīng)濟占GDP比重美英德60%54.3%高收入國家50.7%發(fā)達國家2020年數(shù)字經(jīng)濟占GDP比重美英德60%54.3%高收入國家50.7%發(fā)達國家38.6%中國39.2萬億“云智一體”技術(shù)與應(yīng)用解析系列白皮書智2.1數(shù)據(jù)要素成為數(shù)字經(jīng)濟時代的新戰(zhàn)略隨著新一輪科技和產(chǎn)業(yè)革命的浪潮席卷而來,特別是大數(shù)據(jù)、人工智能、移動互聯(lián)網(wǎng)、云計算、5G等新一代信息技術(shù)的應(yīng)用,人類進入數(shù)字經(jīng)濟時代。數(shù)字經(jīng)濟是以數(shù)字化的知識和信息作為關(guān)鍵生產(chǎn)要素,以數(shù)字技術(shù)為核心驅(qū)動力量,以現(xiàn)代信息網(wǎng)絡(luò)為重要載體,通過數(shù)字技術(shù)與實體經(jīng)濟深度融合,不斷提高經(jīng)濟社會的數(shù)字2019年,高收入國家的數(shù)字經(jīng)濟占GDP比重達到47.9%,其中發(fā)達國家這一比例高達51.3%,美國、德國等國家則超過60%。中國信通院發(fā)布的《中國數(shù)字經(jīng)濟發(fā)展白皮書(2021)》顯示,2020年我國數(shù)字經(jīng)濟規(guī)模達到39.2萬億元,占GDP比重為38.6%,保持9.7%的高位增長速度,成為穩(wěn)定經(jīng)濟增長的關(guān)鍵動力?!笆奈濉币?guī)劃綱要中將“數(shù)字經(jīng)濟核心產(chǎn)業(yè)增加值占GDP比重”作為創(chuàng)新驅(qū)動的關(guān)鍵指標之一,并預(yù)期“數(shù)字經(jīng)濟核心產(chǎn)業(yè)增加值占GDP比重”將從2020年的7.8%上升到2025年的10%,大數(shù)據(jù)將成為驅(qū)動未來數(shù)字實施意見》數(shù)字化轉(zhuǎn)型行動方案(2021-2023年)》方案》……(圖2.1-1)在數(shù)字經(jīng)濟中,數(shù)據(jù)要素是數(shù)字經(jīng)濟時代的新戰(zhàn)略資源。2020年,國務(wù)院發(fā)布了關(guān)于要素市場化配置的指導意和其他生產(chǎn)要素相比,數(shù)據(jù)生產(chǎn)要素有兩個作用,即創(chuàng)造和放大。創(chuàng)造創(chuàng)新方面,數(shù)據(jù)作為一種新的生產(chǎn)能力,直接驅(qū)動了很多新模式、新經(jīng)濟形態(tài)、新產(chǎn)業(yè)。特別近兩年疫情不斷反復(fù)期間,很多產(chǎn)業(yè)實現(xiàn)了徹底的數(shù)字化和線上化,而今年大火的“元宇宙”概念,也是數(shù)字化產(chǎn)業(yè)發(fā)展的新方向。放大方面,數(shù)據(jù)要和資本、土地、勞動力、技術(shù)等其他生產(chǎn)要素協(xié)同,發(fā)揮乘數(shù)作用,解決供需優(yōu)化、創(chuàng)新價值鏈流轉(zhuǎn)方式等問題,放大其07有價值的數(shù)據(jù)資源催生和創(chuàng)造數(shù)字經(jīng)濟新產(chǎn)業(yè)、新業(yè)態(tài)、新模式有價值的數(shù)據(jù)資源催生和創(chuàng)造數(shù)字經(jīng)濟新產(chǎn)業(yè)、新業(yè)態(tài)、新模式數(shù)據(jù)對其他要素發(fā)揮乘數(shù)作用數(shù)據(jù)對其他要素發(fā)揮乘數(shù)作用數(shù)據(jù)驅(qū)動供需優(yōu)化、創(chuàng)新價值鏈流轉(zhuǎn)方式放大勞動力、資本等要素價值(圖2.1-2)2.2大數(shù)據(jù)驅(qū)動千行百業(yè)數(shù)字化轉(zhuǎn)型和回顧近幾年可以發(fā)現(xiàn),大數(shù)據(jù)已經(jīng)驅(qū)動零售、政務(wù)、城市治理、金融、創(chuàng)造業(yè)、教育、醫(yī)療等很多行業(yè),進行在零售行業(yè),開店選址對最終業(yè)務(wù)成功非常關(guān)鍵,結(jié)合大數(shù)據(jù)技術(shù)和目標客群定位,實現(xiàn)精準智能選址,從源頭降低經(jīng)營的不確定性和風險;在制造業(yè),以前設(shè)備交付給用戶后,還面臨著維護售后等運營問題,結(jié)合大數(shù)據(jù)和物聯(lián)網(wǎng)技術(shù),可以及時了解設(shè)備狀態(tài),實現(xiàn)預(yù)測性維護,大大提升了制造業(yè)的服務(wù)效率和用戶體驗;在視頻行業(yè),長、短視頻等信息載體,已經(jīng)實現(xiàn)了個性化推薦,這背后也是基于大數(shù)據(jù)技術(shù),提升用戶體驗,創(chuàng)造通過這些例子可以看到,大數(shù)據(jù)在各行各業(yè)的數(shù)字化轉(zhuǎn)型和業(yè)務(wù)創(chuàng)新里面有非常多的實踐和案例,驅(qū)動著千行(圖2.2-1)08■ ■ 4V特性更凸顯 數(shù)據(jù)安全法規(guī)政策密集出臺安全合規(guī)數(shù)據(jù)流通和運營“云智一體”技術(shù)與應(yīng)用解析系列白皮書智2.3大數(shù)據(jù)的未來發(fā)展趨勢首先,4V特性更凸顯(規(guī)模性-多樣性-實時性-價值型)。隨著5G、IoT等技術(shù)的發(fā)展,以及企業(yè)更加重視數(shù)字化發(fā)展,數(shù)據(jù)總量成指數(shù)級增長,數(shù)據(jù)價值密度越來越低。同時,除傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)外,視頻、語音、圖像等海量非結(jié)構(gòu)化數(shù)據(jù)不斷積累,且隨著企業(yè)數(shù)字化程度的提高其次,大數(shù)據(jù)和AI深度融合。AI也是一種數(shù)據(jù)處理技術(shù),它與大數(shù)據(jù)的深度融合,讓數(shù)據(jù)處理更高效,幫助企第三,數(shù)據(jù)安全是生命線。關(guān)于數(shù)據(jù)安全,近幾年國際和國內(nèi)范圍內(nèi)都密集出臺了多個數(shù)據(jù)安全類法規(guī)。從數(shù)據(jù)安全趨勢來看,社會各方在數(shù)據(jù)流通與運營過程中,數(shù)據(jù)安綜上,新型的數(shù)據(jù)基礎(chǔ)設(shè)施、深度挖掘數(shù)據(jù)價值,以及保障數(shù)據(jù)安大數(shù)據(jù)和AI深度融合大數(shù)據(jù)和AI深度融合場景繁雜需高效和智能分析(圖2.3-1)2.4企業(yè)構(gòu)建大數(shù)據(jù)平臺的原則2.4.1成效為先隨著人工智能等新一代信息技術(shù)的發(fā)展,數(shù)據(jù)以指數(shù)級速度成倍增長,海量數(shù)據(jù)的存儲和計算帶來了巨大的IT成本和復(fù)雜性。云計算的發(fā)展有效實現(xiàn)了企業(yè)IT基礎(chǔ)設(shè)施的彈性靈活性和成本低廉性;而當企業(yè)面對更大規(guī)模、類型更多樣、更實時、價值密度低等數(shù)據(jù)挑戰(zhàn)時,構(gòu)建云原生湖倉數(shù)據(jù)基礎(chǔ)設(shè)施就成為了一種新的有效應(yīng)09該類新型數(shù)據(jù)基礎(chǔ)設(shè)施優(yōu)勢:一是以云為基礎(chǔ),提供彈性低成本的數(shù)據(jù)存儲、按需伸縮的計算資源;二是以湖倉引擎為架構(gòu),在低成本基礎(chǔ)上保障各種數(shù)據(jù)處理場景中數(shù)據(jù)加工處理靈活性、數(shù)據(jù)分析高性能性、異構(gòu)數(shù)據(jù)源融合分析等特性;三是提供一體化數(shù)據(jù)治理與開發(fā)平臺,以統(tǒng)一元數(shù)據(jù)為抓手,支持數(shù)據(jù)集成、治理、開發(fā)、分析、服務(wù)等一站式數(shù)據(jù)服務(wù)。此外,大數(shù)據(jù)領(lǐng)域流傳一句話即“數(shù)據(jù)是資產(chǎn),也是負債”,衡量企業(yè)大數(shù)據(jù)落地效果,核心還是要看業(yè)務(wù)落地成效,即在繁雜的業(yè)務(wù)場景下能高效實現(xiàn)數(shù)據(jù)價值挖掘的能力。AI的大在百度智能云服務(wù)企業(yè)用戶做數(shù)據(jù)應(yīng)用落地過程中,我們發(fā)現(xiàn),幫助企業(yè)構(gòu)建敏捷智能BI、全功能AI開發(fā)平臺,可以更高效地驅(qū)動數(shù)據(jù)應(yīng)用落地。綜上,新型的數(shù)據(jù)基礎(chǔ)設(shè)施、深度挖掘數(shù)據(jù)價值,以及保障數(shù)據(jù)安全,2.4.2治理為要在信息化時代,信息系統(tǒng)建設(shè)是面向具體業(yè)務(wù)的,例如人力管理建設(shè)-人力資源管理系統(tǒng)、設(shè)備管理建設(shè)-統(tǒng)、項目管理建設(shè)-項目管理系統(tǒng)等。因系統(tǒng)間缺乏關(guān)聯(lián)互助、建設(shè)標準不同,帶來數(shù)據(jù)孤島、標準不一致等問題;而數(shù)據(jù)的全面性、數(shù)據(jù)質(zhì)量、數(shù)據(jù)及時性與一致性因此,數(shù)據(jù)治理是企業(yè)大數(shù)據(jù)應(yīng)用落地的必要環(huán)節(jié)。數(shù)據(jù)湖架構(gòu)中的數(shù)據(jù)治理工具平臺,可以提高數(shù)據(jù)治理的實施效率。在數(shù)據(jù)治理的實施過程中,搭建專業(yè)的實施班子,做好數(shù)據(jù)資源、IT架構(gòu)、業(yè)務(wù)情況的盤點,定好數(shù)據(jù)分類、數(shù)據(jù)模型、數(shù)據(jù)質(zhì)量、應(yīng)用指標的標準,再實施數(shù)據(jù)采集、數(shù)據(jù)分層建設(shè),可以有效保障數(shù)據(jù)治理2.4.3安全為本“沒有網(wǎng)絡(luò)安全就沒有國家安全”?!吨腥A人民共和國網(wǎng)絡(luò)安全法》、《中華人民共和國數(shù)據(jù)安全法》、《中華人民共和國個人信息保護法》以及《關(guān)鍵信息基礎(chǔ)設(shè)施安全保護條例》等多部法律法規(guī)及管理辦法對行業(yè)提出了規(guī)范性的要求。例如《數(shù)據(jù)安全法》明確要求,“數(shù)據(jù)安全,是指通過采取必要措施,確保數(shù)據(jù)處于有效保護和合法利用的狀態(tài),以及具備保障持續(xù)安全狀態(tài)的能力”。因此,大數(shù)據(jù)應(yīng)用要以數(shù)據(jù)安全為本,從數(shù)據(jù)全生命周期來看,數(shù)據(jù)安全保障主要包括數(shù)據(jù)資產(chǎn)安全保障、百度智能云提供全棧數(shù)據(jù)安全防護體系,全力保障數(shù)據(jù)資產(chǎn)不被惡意訪問、數(shù)據(jù)隱私不被非法侵犯,通過業(yè)界領(lǐng)先的網(wǎng)絡(luò)安全技術(shù)、信息安全技術(shù)、隱私計算技術(shù)等綜合安全能2.4.4持續(xù)運營要保障數(shù)據(jù)應(yīng)用價值的持續(xù)性,數(shù)據(jù)資產(chǎn)和應(yīng)用都需要“持續(xù)運營”。大到產(chǎn)業(yè)、小到每個具體企業(yè),都具有動態(tài)發(fā)展變化性,數(shù)據(jù)和業(yè)務(wù)必然也持續(xù)變化。所以,大數(shù)據(jù)的應(yīng)用落地不是一次性項目,數(shù)據(jù)基礎(chǔ)設(shè)施、數(shù)結(jié)合產(chǎn)業(yè)實踐不難發(fā)現(xiàn),平臺化的管理方式可以提高運營效率,比如建設(shè)數(shù)據(jù)資產(chǎn)管理和運營平臺,有利于幫此外,運營過程配套建設(shè)運營體系比如數(shù)據(jù)覆蓋、數(shù)據(jù)質(zhì)量、數(shù)據(jù)成本、數(shù)據(jù)價值等,對于優(yōu)化和指引未來規(guī)產(chǎn)業(yè)實踐數(shù)據(jù)價值挖掘平臺產(chǎn)業(yè)實踐數(shù)據(jù)價值挖掘平臺……數(shù)據(jù)安全防護體系湖倉數(shù)據(jù)基礎(chǔ)設(shè)施治理開發(fā)湖倉引擎“云智一體”技術(shù)與應(yīng)用解析系列白皮書智2.5百度智能云大數(shù)據(jù)產(chǎn)品架構(gòu)全景圖基于以上原則,百度智能云以云和AI為依托,打造了云智一體的智能大數(shù)據(jù)產(chǎn)品架構(gòu)全景圖,注重實踐經(jīng)驗積累,力爭做到成效為先、治理為要、安全為本、持續(xù)運營,為更多企業(yè)構(gòu)建云智一體的大數(shù)據(jù)技術(shù)與能力體系,實現(xiàn)對更大規(guī)模、更多類型、更多源數(shù)據(jù)進行處理百度智能云大數(shù)據(jù)產(chǎn)品架構(gòu)全景圖共三層:底層,通過湖倉數(shù)據(jù)基礎(chǔ)設(shè)施為企業(yè)提供數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)開發(fā)等能力;中層,數(shù)據(jù)價值挖掘平臺充分利用百度智能大數(shù)據(jù)技術(shù),實現(xiàn)企業(yè)數(shù)據(jù)資產(chǎn)價值最大化;頂層,則基于底層和中層的技術(shù),幫助各行各業(yè)落地大數(shù)據(jù)應(yīng)全功能AI開發(fā)全功能AI開發(fā)平臺BML運營DAMPSugarBI數(shù)據(jù)湖管理與分析數(shù)據(jù)湖管理與分析EasyDAP托管大數(shù)據(jù)平臺托管大數(shù)據(jù)平臺BMRCRUDMPP架構(gòu)BSCBLSBES…對象存儲對象存儲BOS(圖2.5-1)湖倉數(shù)據(jù)基礎(chǔ)設(shè)施湖倉數(shù)據(jù)基礎(chǔ)設(shè)施治理開發(fā)湖倉引擎“云智一體”技術(shù)與應(yīng)用解析系列白皮書智隨著企業(yè)數(shù)字化轉(zhuǎn)型加速,企業(yè)日常運營中產(chǎn)生的數(shù)據(jù)量呈指數(shù)級增長,且數(shù)據(jù)類型更加多樣化,數(shù)據(jù)的應(yīng)用場景也日益繁雜,以及基于實時數(shù)據(jù)的快速決策越來越普及……因此,單一的數(shù)據(jù)倉庫或者數(shù)據(jù)湖解決方案滿足不了用戶對數(shù)據(jù)挖掘和使用的需求,湖倉一體架構(gòu)成為云原數(shù)據(jù)集成數(shù)據(jù)集成數(shù)據(jù)湖管理與分析EasyDAP數(shù)據(jù)服務(wù)數(shù)據(jù)服務(wù)數(shù)據(jù)治理數(shù)據(jù)治理數(shù)據(jù)開發(fā)數(shù)據(jù)開發(fā)數(shù)據(jù)分析數(shù)據(jù)分析統(tǒng)一元數(shù)據(jù)統(tǒng)一元數(shù)據(jù)豐富組件監(jiān)控運維托管大數(shù)據(jù)平臺BMR豐富組件監(jiān)控運維集群管理集群管理彈性伸縮彈性伸縮BESBSCBESBSCBLS…物化視圖實時CRUD物化視圖實時CRUD向量化執(zhí)行向量化執(zhí)行MPPMPP架構(gòu)對象存儲對象存儲BOS(圖3-1)百度智能云湖倉一體架構(gòu)的優(yōu)勢主要體現(xiàn)在:云原生、數(shù)據(jù)湖架3.1云原生大數(shù)據(jù)處理技術(shù)廣泛應(yīng)用于各個行業(yè),為業(yè)務(wù)解決海量存儲和海量分析需求,數(shù)據(jù)量的爆發(fā)式增長,對數(shù)據(jù)處理能力、基礎(chǔ)設(shè)施成本、集群運維管理提出了更大的挑戰(zhàn)。而云原生天生具有的高效部署、云計算資源成本和彈性擴展等優(yōu)勢,百度智能云大數(shù)據(jù)平臺提供云原生架構(gòu)的大數(shù)據(jù)集群服務(wù),直接選型公有云大數(shù)據(jù)產(chǎn)品,即3.1.1按需創(chuàng)建在百度智能云上,通過界面化點選的操作方式,即可根據(jù)業(yè)務(wù)場景可視化創(chuàng)建適合業(yè)務(wù)數(shù)據(jù)處理場景的BMR開源大數(shù)據(jù)處理集群、百度數(shù)據(jù)倉庫、BES集群等。例如,在百度智能云創(chuàng)建BMR大數(shù)據(jù)處理集群,可按組件如HDFS、Spark、Hive、Flink、Clickhouse等,同時提供不同組件版本的選擇,平臺自動進行組件參數(shù)推薦;按需配置集群套餐類型、集群節(jié)點規(guī)模、集群存儲配置等,配置完3.1.2存算分離構(gòu)弊端逐步顯現(xiàn),比如隨著數(shù)據(jù)量和業(yè)務(wù)激增、資源調(diào)度互相影響、集群故障風險隨著規(guī)模增大而劇增、不同集群數(shù)據(jù)無法共享等,導致系統(tǒng)架構(gòu)的可靠性百度智能云云原生湖倉通過先進的計算存儲分離架構(gòu),實現(xiàn)了計算資源和存儲資源的靈活擴展,解決了數(shù)據(jù)同步的延時問題,并提升了計算橫向擴展能力。表現(xiàn)在:集群因不可抗力出現(xiàn)異常時可快速恢復(fù),可用性更高;數(shù)據(jù)存儲更可靠,支持多組件數(shù)據(jù)掛載BOS對象存儲,存儲靈活,可彈性擴展,更方便,按需歸檔;集群節(jié)點靈活選配CDS云盤,多副本保證數(shù)據(jù)可靠不丟失。相比存算一體架構(gòu),這種計算存儲分離架構(gòu)更能兼顧性能、存算分離架構(gòu),更高效、便宜集群節(jié)點靈活選配集群節(jié)點靈活選配CDS云盤多組件數(shù)據(jù)存儲支持掛載多組件數(shù)據(jù)存儲支持掛載BOS對象存儲AlluxioAlluxio等性能優(yōu)化結(jié)合結(jié)合BOS多層數(shù)據(jù)類型自動沉降(圖3.1.2-1)3.1.3彈性擴縮容通過智能彈性伸縮,可以根據(jù)作業(yè)負載情況或業(yè)務(wù)周期時間,自動增減計算資源,不用為閑置的計算資源付費,降低用戶成本。既可以基于場景按時間維度自由定制擴縮容規(guī)則,也可以根據(jù)CPU使用量、作業(yè)延遲度等云原生-彈性擴縮容智能彈性伸縮,更高性價比基于場景按時間自由定制擴縮容√時間點√周期自定義規(guī)則,彈性擴縮容√CPU√作業(yè)延遲等智能分析,動態(tài)擴縮容普通節(jié)點到競價實例都支持某公司上線BMR彈性伸縮后,成本下降40%(圖3.1.3-1)14HueJupyterZepplin數(shù)據(jù)開發(fā)HBASEKuduESTSDBPALO在線存儲/OpDBMLFlowHueJupyterZepplin數(shù)據(jù)開發(fā)HBASEKuduESTSDBPALO在線存儲/OpDBMLFlowTF/MXNET/PPSk-learn數(shù)據(jù)科學與高級分析資源調(diào)度體系YARNK8SKafkaSqoopFlumeNIFI數(shù)據(jù)接入“云智一體”技術(shù)與應(yīng)用解析系列白皮書智3.1.4運維托管提供全托管服務(wù),用戶只需專注于業(yè)務(wù)開發(fā),無需關(guān)注部署運維,提供SLA保障、24小時技術(shù)專家支持、實時可視3.2數(shù)據(jù)湖架構(gòu)數(shù)據(jù)在以指數(shù)級增長的同時,還逐漸呈現(xiàn)出類型更多樣、更實時、價值密度低等特點,這些挑戰(zhàn)加大企業(yè)IT設(shè)施的成本和復(fù)雜性,湖倉一體架構(gòu)成為云原生時代數(shù)據(jù)架構(gòu)演變的必然趨勢。百度智能云大數(shù)據(jù)平臺數(shù)據(jù)湖架通過BOS數(shù)據(jù)湖支持低成本存儲任意規(guī)模結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);提供豐富的數(shù)據(jù)湖分析引擎,滿足不同業(yè)務(wù)場景的數(shù)據(jù)分析需求,同時基于元數(shù)據(jù)的統(tǒng)一管理,支持數(shù)據(jù)湖分析、跨數(shù)據(jù)源聯(lián)邦分析,為用戶提供全面的管理控運維HMS管控HMSAmbariAmbariGangliaGangliaAduit安全AduitRangerRangerKerberos元數(shù)據(jù)元數(shù)據(jù)Hive-metaAtlas網(wǎng)關(guān)網(wǎng)關(guān)LivyKnox數(shù)據(jù)處理與分析HadoopHadoopHiveHive/TezSparkSparkPrestoPrestoFlinkFlinkBeamBeam資源隔離VMLXCKataCgroup存儲體系HDFSHDFSBOSBOSTaskTaskTempStorageonCDSAlluxio加速(圖3.2-1)高可靠性數(shù)據(jù)可靠性12個9高可靠性數(shù)據(jù)可靠性12個9服務(wù)可用性99.95%極具性價比6級分級存儲體系智能生命周期管理國內(nèi)最早磁帶介質(zhì)歸檔存儲行業(yè)首發(fā)智能存儲·AI+Picture:智能圖像處理AI+Video:音視頻處理能力·AI+Data:大數(shù)據(jù)存儲,云端數(shù)據(jù)分析3.2.1BOS數(shù)據(jù)湖存儲百度智能云BOS,提供穩(wěn)定、安全、高效、高可擴展的云存儲服務(wù)。用戶可以將任意數(shù)量和形式的非結(jié)構(gòu)化數(shù)據(jù)存入BOS,并對數(shù)據(jù)進行管理和處置。BOS支持標準、低頻、冷和歸檔等多種存儲方式,滿足多場景存儲需海量規(guī)模。BOS提供超過EB級別物理空間,數(shù)萬級別服務(wù)器,萬億級別文件規(guī)模,規(guī)模業(yè)內(nèi)領(lǐng)先。幫助用戶數(shù)據(jù)快速高效上云,既提供面向離線傳輸?shù)拇疟P傳輸方式,也提供面向在線的CloudFl高可靠性。BOS全面自研且自主可控的冗余存儲架構(gòu),保障數(shù)據(jù)的持久存儲能力,確保用戶業(yè)務(wù)連續(xù)性。數(shù)據(jù)可靠性高達99.9999999999%(12個9),數(shù)據(jù)可用性高于99.95%。極具性價比。BOS提供標準存儲-多AZ、標準存儲、低頻存儲-多AZ、低頻存儲、冷存儲和歸檔存儲等共6級存儲體系,成本逐級下降,用戶可根據(jù)數(shù)據(jù)熱度匹配合適的存儲類型,合理控制成本。另外,BOS提供智能的生命周期管理和業(yè)界領(lǐng)先的讀寫性能,滿足用戶行業(yè)首發(fā)智能存儲。針對視頻、圖像、大容量文件等類型,百度智能云在BOS側(cè)更好地封裝集成了百度相關(guān)的AI能力,包括幾十項圖像的審核能力,以及圖像增強和特效能力,這些特有能力的集成,能夠輕松的降低編碼復(fù)雜度。用戶可以直接通過BOS的事件觸發(fā)框架,在數(shù)據(jù)訪問或者數(shù)據(jù)上傳時,通過統(tǒng)一的接口拓展和調(diào)用這些智能處理能力、及時得到AI處理的效果,讓數(shù)據(jù)分析和存儲更近,云原生-BOS存儲業(yè)界領(lǐng)先海量規(guī)模EB級別物理空間數(shù)萬級別服務(wù)器萬億級別文件規(guī)模(圖3.2.1-1)16“云智一體”技術(shù)與應(yīng)用解析系列白皮書智3.2.2豐富的數(shù)據(jù)湖分析引擎為滿足數(shù)據(jù)湖數(shù)據(jù)的各種處理場景需求,百度智能云提供豐富的數(shù)據(jù)湖分析引擎,包括:兼容各類開源大數(shù)據(jù)處理分析組件的百度托管大數(shù)據(jù)分析平臺BMR,提供了Spark、Flink、Hive、Hbase等多種數(shù)據(jù)分析處理引擎;百度數(shù)據(jù)倉庫,專門應(yīng)對高并發(fā)、低延時的PB級實時數(shù)據(jù)倉庫分析場景;百度BES全文檢索和分析引擎托管大數(shù)據(jù)分析平臺BMR百度MapReduce(BMR),定位于組件完備、高性價比、開源開放的企業(yè)級托管大數(shù)據(jù)平臺,包括豐富的hadoop生態(tài)組件,如Hadoop、Spark、Hive、Flume、Storm、Flink、Hbase、Druid等,用戶可通過界面儲計算分離技術(shù)和彈性伸縮技術(shù),確保高可靠的同時,真正幫助用戶做到用時高效獲取資源、閑時釋放資源,幫助用戶用低成本獲得最高計算性能。百度BMR完備大數(shù)據(jù)生態(tài)組件。包括:數(shù)據(jù)集成組件Sqoop、Kafka等,離線計算組件MapReduce、Tez、Spark等,流式計算組件Flink等,數(shù)據(jù)倉庫組件Hive、Hbase、Druid等,數(shù)據(jù)分析組件Impala、Presto等,作業(yè)調(diào)度組件Azkaban、Ooize等,安全管理組件Kerberos、Ranger、LDAP等。一鍵創(chuàng)建高效運維。根據(jù)模版可視化一鍵創(chuàng)建、開箱即用,支持按需靈活配置,如選組件、選版本、選套餐。此外,全方位可視運維,如平臺運行狀態(tài)、作業(yè)執(zhí)行分析、資源使用監(jiān)控、多租戶配置管理、監(jiān)控報警配置智能彈性擴縮。通過智能彈性伸縮,可以根據(jù)作業(yè)負載情況或業(yè)務(wù)周期時間,自動增減計算資源,不會為閑置的計算資源付費,降低用戶成本。支持基于場景按時間自由定制伸縮規(guī)則,如指定時間點、按天、周、月等周期配置。自定義規(guī)則,彈性伸縮如根據(jù)CPU負載指標、作業(yè)延遲指標、自定義指標依據(jù)等。存算分離。通過先進的計算存儲分離架構(gòu),集群不可抗力異常時可快速恢復(fù),可用性更高;數(shù)據(jù)存儲更可靠,多層級、全方位安全機制。BMR提供多層級的安全機制保障集群平臺和數(shù)據(jù)的安全?;A(chǔ)架構(gòu)上,用戶基于BMR創(chuàng)建的大數(shù)據(jù)基礎(chǔ)平臺運行在獨立的VPC網(wǎng)絡(luò)環(huán)境下,從網(wǎng)絡(luò)上進行隔離,并支持用戶主機安全審計。提供Kerberos和Ranger組件,為用戶提供基于用戶身份、作業(yè)提交和資源使用,以及數(shù)據(jù)訪問的認證和鑒權(quán),百度數(shù)據(jù)倉庫是基于ApacheDoris(百度捐贈)構(gòu)建的企業(yè)級MPP數(shù)據(jù)倉庫,專門應(yīng)對高并發(fā)、低延時的PB級實時數(shù)據(jù)倉庫使用場景,全面兼容MySQL協(xié)議,可以針對億萬級數(shù)據(jù)實現(xiàn)毫秒級多維分析透視和業(yè)務(wù)探查。在架構(gòu)上來看,百度數(shù)據(jù)倉庫與常見的分布式存儲系統(tǒng)的架構(gòu)有些不同,主要有FE(Frontend)和BE(Backend)這兩類系統(tǒng)進程,其中FE可以理解為百度數(shù)據(jù)倉庫的管控節(jié)點,主要負責用戶請求的介入、查詢計劃的解析、元數(shù)據(jù)的存儲以及集群管理等工作,BE主要負責數(shù)據(jù)存儲以及查詢計劃的執(zhí)行,這兩類系統(tǒng)進程都可以橫向拓展,而不需要依賴任何第三方系統(tǒng)(如HDFS、ZooKeeper等),這樣高度集成的架構(gòu)設(shè)計也極大簡化了一款分布式系統(tǒng)的運維成本。同時百度數(shù)據(jù)倉庫在FE進程中實現(xiàn)了MySQL兼容協(xié)議層,這樣用戶通過標準MySQL客戶端或其他各類工具即可便捷連接到百度數(shù)據(jù)倉庫,并且還支持標準SQL語言,不論是簡單的單表聚合、排序過濾抑或復(fù)雜的多表關(guān)聯(lián)、子查詢、窗口函數(shù)、自定義函數(shù)等,都可以通過SQL快速完使用百度數(shù)據(jù)倉庫時,可以從本地、RDS、BOS、百度智能云MapReduce等導入海量數(shù)據(jù),進行大數(shù)據(jù)的多維分析。同時它還兼容主流BI工具,數(shù)據(jù)分析師可以通過可視化的方式分析和展示數(shù)據(jù),快速獲取洞察以輔助決策。此外,其還提供了全新UI支持,5分鐘上手,即可輕松實現(xiàn)建庫建表、數(shù)據(jù)導入、數(shù)據(jù)查詢。百度數(shù)據(jù)倉極致性能。采用了現(xiàn)代化MPP架構(gòu),使用高效列式存儲引擎和向量化執(zhí)行引擎,加以智能物化視圖技術(shù),可以實現(xiàn)極致性能,100臺集群可達10wQPS,無并發(fā)瓶頸。簡單易用。提供標準SQL支持,完全兼容MySQL協(xié)議,同時,靈活的數(shù)據(jù)模型,Join表現(xiàn)優(yōu)秀,并具有在線表流批一體??梢灾С峙亢蛯崟r流式數(shù)據(jù)導入,行級別數(shù)據(jù)更新/刪除,多版本機制解決讀寫沖突,導入事務(wù)支持,保證ACID,實現(xiàn)Exactly-Once語義。極簡運維。運維方面,百度數(shù)據(jù)倉庫架構(gòu)高度一體,無任何外部組件依賴,集群規(guī)模彈性伸縮,任何節(jié)點可線高可用性。對數(shù)據(jù)庫而言,最核心的宗旨就是要穩(wěn)定。百度數(shù)據(jù)倉庫在穩(wěn)定性方面,做到了主節(jié)點高可用,數(shù)據(jù)多副本存儲,節(jié)點故障自動副本遷移,自開放生態(tài)。百度數(shù)據(jù)倉庫源自百度開源并捐贈的ApacheDoris,核心代碼全部對外開放,有近200名開發(fā)者曾為項目貢獻代碼;可以與主流大數(shù)據(jù)生態(tài),比如數(shù)據(jù)源端的BOS/HDFS/Kafka等數(shù)據(jù)無縫導入、與Spark進行聯(lián)邦數(shù)據(jù)分析、為ES提供分布式SQL查詢,以及與主流BI工具進行適配。極致性能簡單易用流批一體極簡運維高可用性開源生態(tài)(圖3.2.2-1)18云磁盤、數(shù)據(jù)安全冷熱存儲分離,成本降低基于Kibana云磁盤、數(shù)據(jù)安全冷熱存儲分離,成本降低基于Kibana“云智一體”技術(shù)與應(yīng)用解析系列白皮書智百度Elasticsearch百度Elasticsearch(BES)是開源的全文檢索和分析引擎Elasticsearch的托管服務(wù),完全兼容開源Elasticsearch功能,同時內(nèi)置了基于百度NLP技術(shù)的分詞插件,以及即開即用、自動運維以及豐富的監(jiān)控指標,減少用戶運維開銷,幫助用戶快速啟動業(yè)務(wù)分析。技術(shù)領(lǐng)先的冷熱數(shù)據(jù)分離能力,幫助用戶減少50%+的存儲成本。同時具備冷數(shù)據(jù)可查詢功能,用戶使用流程無差異。BES應(yīng)用場景包括:日志分析。利用Elasticsearch+Logstah+Kibana最適合日志分析的組合,輕松實現(xiàn)日志收集、查詢分析和可企業(yè)搜索。Elasticsearch作為搜索引擎,提供高性能且輕量的搜索能力,常用于企業(yè)內(nèi)搜網(wǎng)站、App應(yīng)用內(nèi)搜可視化運維監(jiān)控。Kibana作為Elastic生態(tài)一員,提供強大的可視化能力,全面收集應(yīng)用數(shù)據(jù),支持多種數(shù)據(jù)集文本檢索分析-BES領(lǐng)先的技術(shù)架構(gòu)領(lǐng)先的技術(shù)架構(gòu)豐富的場景豐富的場景特色與優(yōu)勢特色與優(yōu)勢BES集群基于百度智能云BCC、CDS、BaiduElasticsearchKibana搜索:隨時隨地搜索任何內(nèi)容企業(yè)內(nèi)搜網(wǎng)站、App應(yīng)用內(nèi)搜索、電商店鋪等搜索,輕松快速構(gòu)建強大、高效的搜索體驗BLBBLB部署VPC隔離、熱遷移、彈性伸縮無感知內(nèi)核優(yōu)化,冷熱存儲分離、高性日志分析:充分利用日志價值能、低成本BES管控平臺利用Elasticsearch+Logstah+Kibana最適合日志分析的組合,輕松實現(xiàn)日志收集、查詢分析和可視化80%新建刪除定時調(diào)度索引置冷數(shù)據(jù)量觀測NLP技術(shù)結(jié)合領(lǐng)先的百度領(lǐng)先的百度NLP技術(shù)、高效中文分詞、智能權(quán)重識別基于BOS冷熱數(shù)據(jù)分離可視化運維監(jiān)測:全面管理應(yīng)用BES管控平臺熱數(shù)據(jù)熱數(shù)據(jù)SSD充分利用的可視化能力,全面收集應(yīng)用數(shù)據(jù),支持多種數(shù)據(jù)集群自動部署、啟停,高效率運維管理冷數(shù)據(jù)冷數(shù)據(jù)BOS集成,豐富的可視化圖表功能,隨時掌握應(yīng)用狀態(tài)調(diào)度管理能力,數(shù)據(jù)自動置冷插件管理、自定義插件安裝(圖3.2.2-2)193.3一體化平臺根據(jù)相關(guān)機構(gòu)的調(diào)研顯示,大數(shù)據(jù)已成為數(shù)字化轉(zhuǎn)型戰(zhàn)略第一要務(wù)。企業(yè)要數(shù)字化轉(zhuǎn)型,需要利用大數(shù)據(jù)技術(shù)來構(gòu)建有價值的數(shù)據(jù)資產(chǎn),并通過各種大數(shù)據(jù)分析技術(shù),基于業(yè)務(wù)場景來進行數(shù)據(jù)分析,破解企業(yè)生產(chǎn)經(jīng)營中的應(yīng)用難題,實現(xiàn)業(yè)務(wù)的轉(zhuǎn)型和創(chuàng)新。而大數(shù)據(jù)技術(shù)的復(fù)雜性、多樣性、技術(shù)迭代等特性,為企業(yè)數(shù)字化轉(zhuǎn)型3D打印AR/VR機器人區(qū)塊鏈邊緣技術(shù)新一代安全 社交媒體 移動技術(shù) 人工智能云基礎(chǔ)設(shè)施物聯(lián)網(wǎng)大數(shù)據(jù)與分析6002030亞太4050全球數(shù)據(jù)來源:中國大數(shù)據(jù)平臺市場研究報告-2020,IDC(圖3.3-1)百度智能云大數(shù)據(jù)平臺提供全場景、低門檻、開放兼容、安全可靠的一站式數(shù)據(jù)管理與分析平臺EasyDAP。EasyDAP以數(shù)據(jù)流為核心,形成數(shù)據(jù)匯聚、開發(fā)、分析、管理、服務(wù)等一套完整產(chǎn)品體系,并提供簡易的可視化開發(fā)操作界面,降低使用門檻。此外,其可以無縫對接主流大數(shù)據(jù)存儲計算平臺,兼容企業(yè)原有IT系統(tǒng)、技術(shù)棧等,并與百度智能云產(chǎn)品生態(tài)打通,降低數(shù)據(jù)中臺的建設(shè)成本。同時,還具備資源隔離、權(quán)限控制、審計日志等安全能力,提高數(shù)據(jù)安全性。EasyDAP功能特性如下:20數(shù)據(jù)源管理各類型數(shù)據(jù)源管理統(tǒng)一元數(shù)據(jù)管理數(shù)據(jù)源管理各類型數(shù)據(jù)源管理統(tǒng)一元數(shù)據(jù)管理數(shù)據(jù)儲存位置管理數(shù)據(jù)資源監(jiān)控分析-主題、庫、表-數(shù)據(jù)源類型-數(shù)據(jù)量表級鏈式分析字段級血緣分析數(shù)據(jù)溯源數(shù)據(jù)理解數(shù)據(jù)質(zhì)量問題分析數(shù)據(jù)血緣正確性合法性時效性一致性穩(wěn)定性數(shù)據(jù)標準與質(zhì)量數(shù)據(jù)標準管理數(shù)據(jù)質(zhì)量規(guī)則引擎質(zhì)量報告自動生成相關(guān)性“云智一體”技術(shù)與應(yīng)用解析系列白皮書智3.3.1元數(shù)據(jù)統(tǒng)一管理百度EasyDAP的元數(shù)據(jù)管理通過物理表、映射表的方式,將數(shù)據(jù)采集、開發(fā)、管理、分析所涉及到的企業(yè)各類數(shù)據(jù)源系統(tǒng)、數(shù)據(jù)倉庫、數(shù)據(jù)湖中的相關(guān)元數(shù)據(jù),納入到EasyDAP平臺進行元數(shù)據(jù)統(tǒng)一管理。實現(xiàn)全域數(shù)據(jù)的高效管理,以滿足數(shù)據(jù)移動、數(shù)據(jù)權(quán)限管理、全域數(shù)據(jù)血緣百度EasyDAP的元數(shù)據(jù)管理,支持自定義主題,可靈活定義數(shù)據(jù)的組織結(jié)構(gòu),基于企業(yè)的組織結(jié)構(gòu)、數(shù)據(jù)內(nèi)容進行靈活的目錄結(jié)構(gòu)組織。結(jié)合元數(shù)據(jù)統(tǒng)一管理,在EasyDAP上可以實現(xiàn)數(shù)據(jù)庫、表、行、列級別的權(quán)限控制。同時,EasyDAP提供MySQL等數(shù)據(jù)源的元數(shù)據(jù)自動同步。為保證平臺的開放性以及適配能力,元數(shù)據(jù)平臺的核心能力可以通過API方式,對外開放服務(wù)接口,方便業(yè)務(wù)/數(shù)據(jù)安全自定義數(shù)據(jù)密級管理自定義數(shù)據(jù)密級管理支持自定義字段按用戶密級管理細粒度數(shù)據(jù)權(quán)限細粒度數(shù)據(jù)權(quán)限主題、庫、表、行列級別數(shù)據(jù)權(quán)限數(shù)據(jù)權(quán)限有效期設(shè)置動態(tài)數(shù)據(jù)脫敏動態(tài)數(shù)據(jù)脫敏內(nèi)置脫敏規(guī)則、自定義脫敏規(guī)則用戶級脫敏規(guī)則綁定,查詢分析動態(tài)脫敏統(tǒng)一身份認證、多租戶資源隔離統(tǒng)一身份認證、多租戶資源隔離(圖3.3.1-1)3.3.2自動數(shù)據(jù)集成在EasyDAP上可以通過兩種方式實現(xiàn)數(shù)據(jù)的集成同步,即可視化ETL和整庫整表數(shù)據(jù)同步。可視化ETL,不需要寫代碼,通過可視拖拽式即可完成數(shù)據(jù)集成流水線創(chuàng)建,支持離線數(shù)據(jù)和實時流數(shù)據(jù)集成,離線數(shù)據(jù)同步。同時,支持數(shù)據(jù)庫、MPP數(shù)倉、NoSQL、對象存儲、HDFS分布式文件系統(tǒng)等幾十種異構(gòu)數(shù)據(jù)源的定時、周期性同步。支持http、kafka源數(shù)據(jù)實時流同步到DB、MPP數(shù)倉、NoSQL、對象存儲、HDFS分布式文件系統(tǒng)等場景數(shù)據(jù)源。針對場景的數(shù)據(jù)庫、數(shù)據(jù)倉庫到大數(shù)據(jù)平臺的數(shù)據(jù)同步,EasyDAP提供整庫整表的數(shù)據(jù)集成方式,提升數(shù)據(jù)入湖入倉效率。此外,數(shù)據(jù)庫CDC實時同步能力,也在升級建設(shè)中。3.3.3全流程可視化數(shù)據(jù)治理開發(fā)在企業(yè)數(shù)據(jù)資產(chǎn)建設(shè)和開發(fā)應(yīng)用實踐中,一般數(shù)據(jù)治理、開發(fā)、實施不分家。百度EasyDAP提供全流程可視化數(shù)據(jù)標準。支持數(shù)據(jù)標準的創(chuàng)建、審核、發(fā)布,用于描述公司層面需共同遵守的數(shù)據(jù)含義和業(yè)務(wù)規(guī)則,同時支數(shù)據(jù)質(zhì)量。內(nèi)置常見數(shù)據(jù)質(zhì)量規(guī)則引擎和模板,同時支持自定義數(shù)據(jù)質(zhì)量規(guī)則引擎,可基于需求建設(shè)數(shù)據(jù)質(zhì)量數(shù)據(jù)血緣。支持自定義生成數(shù)據(jù)血緣,同時支持手動填報,數(shù)據(jù)安全。支持庫、表、行、列級別的數(shù)據(jù)實時開發(fā)。實時流開發(fā)場景下,平臺集成了Spark-streaming、Flink等多種流計算引擎,支持簡易的在線SQL、自定義Jar程序等開發(fā)模式,以及高吞吐低延遲的實時計算、全方位多角度的監(jiān)控告警機制等。3.3.4數(shù)據(jù)湖分析提供數(shù)據(jù)湖分析能力,支持交互式分析多類型數(shù)據(jù)源數(shù)據(jù)、支持跨數(shù)據(jù)源聯(lián)邦分析等能力,數(shù)據(jù)源類型包括但不限于HDFS,BOS對象存儲,RDBMS,NoSQL,MPP等。具體特性如下:易用高效。支持PB級數(shù)據(jù)高并發(fā)實時寫入、實時查詢,完全兼容PostgreSQL協(xié)議??缭绰?lián)邦分析。直接分析RDS、PALO、BMR-Hbase、BOS、BMR-Hive、BMR-HDFS的數(shù)據(jù)。優(yōu)化分析。提供SQL耗時、掃描數(shù)據(jù)量等分析,指導優(yōu)化。22采集解壓解密傳輸+清洗加密+壓縮采集解壓解密傳輸+清洗加密+壓縮“云智一體”技術(shù)與應(yīng)用解析系列白皮書智3.4成功實踐度小滿是一家成立于2015年的金融科技公司,其前身為百度金融,2018年完成拆分實現(xiàn)獨立運營,在獨立運營之初構(gòu)建了基于IDC物理機房的日志系統(tǒng)。2020年,度小滿開啟上云進程,由百度智能云提供云服務(wù),同時對在改進之前,度小滿日志系統(tǒng)檢索相關(guān)的架構(gòu),對高低頻數(shù)據(jù)進行了分層存儲,對于高頻數(shù)據(jù)需求是基于SSD的ES落地的,對于低頻的數(shù)據(jù)需求,則是基于對象存儲的Hive來進行落地的?;贓S&Hive的日志檢索框架應(yīng)用日志應(yīng)用日志訪問日志訪問日志主機安全日志主機安全日志JDBCMySQLMySQLOracleOracleHTTPRestRestAPI消息隊列熱數(shù)據(jù)層熱數(shù)據(jù)層基于SSD的ES溫數(shù)據(jù)層溫數(shù)據(jù)層HiveonBOSBOS對象存儲BOS對象存儲冷數(shù)據(jù)層(圖3.4-1)可檢索數(shù)據(jù)可檢索數(shù)據(jù)全文檢索安全審計BI大盤異常發(fā)現(xiàn)1至10年該架構(gòu)痛點:一是隨著數(shù)據(jù)量逐步上漲,基于SSD的ES存儲成本升高,熱數(shù)據(jù)只能保留7天;二是溫數(shù)據(jù)層的hive檢索框架,下游業(yè)務(wù)采用模糊查找檢索,速度較慢,通常需要半小時甚至更長時間;三是數(shù)據(jù)加溫過程針對以上痛點,百度智能云為度小滿搭建了基于BES的日志檢索框架。在數(shù)字采集、傳輸、清洗等日志場景基本保持不變的前提下,度小滿基于BES的冷熱分離架構(gòu),用BES熱數(shù)據(jù)能力替代基于SSD的ES,用BES冷數(shù)23采集傳輸清洗加密壓縮采集傳輸清洗加密壓縮基于BES的日志檢索框架應(yīng)用日志應(yīng)用日志訪問日志訪問日志主機安全日志主機安全日志JDBCMySQLMySQLOracleOracleHTTPRestRestAPI消息隊列BES基于SSD的熱數(shù)據(jù)層至至3天基于SSD的ESBESBES管控平臺索引置冷定時任務(wù)新建/刪除置冷緩存33至30天BES基于BOS的溫數(shù)據(jù)層1至年基于BOS的冷數(shù)據(jù)層可檢索數(shù)據(jù)可檢索數(shù)據(jù)按需恢復(fù)全文檢索安全審計BI大盤異常發(fā)現(xiàn)HiveonBOS1至30天1至10年(圖3.4-2)寫查速度大幅提升。熱數(shù)據(jù)寫入SSD,導入性能不受影響;TB級索引,熱數(shù)據(jù)秒級響應(yīng);溫數(shù)據(jù)檢索時效由半存儲周期更長??芍苯颖粰z索數(shù)據(jù),由7天全面升級為30天,最高可支持180天;得益于存儲周期變長,可被直接檢索數(shù)據(jù)達到PB級。資源成本更低。BOS對象存儲成本是SSD磁盤的13%,存儲成本降低90%;ES資源需求量是之前的1/2;索2425完成數(shù)據(jù)基礎(chǔ)設(shè)施構(gòu)建后,企業(yè)要實現(xiàn)數(shù)據(jù)資產(chǎn)價值最大化,需要進一步解決數(shù)據(jù)價值挖掘的問題。數(shù)據(jù)價值挖掘的第一步,需要把企業(yè)內(nèi)生產(chǎn)、營銷、財務(wù)、人力等各類原始數(shù)據(jù),進行治理和挖掘形成數(shù)據(jù)資產(chǎn),并管數(shù)據(jù)資產(chǎn)的價值當前有兩大類:一是商業(yè)智能,二是數(shù)據(jù)科學,前者幫助企業(yè)更好的洞察業(yè)務(wù)的過去,如各類報表、領(lǐng)導駕駛艙等都屬于這一范疇,后者讓企業(yè)預(yù)為應(yīng)對業(yè)務(wù)發(fā)展的不確定性,企業(yè)需要利用機器學習、深度學習等技術(shù),在數(shù)據(jù)科學領(lǐng)域預(yù)測未來趨勢,如欺詐檢測、客戶流失檢測、預(yù)測性維護以及個性化推薦等。通過智能技術(shù)成本分析成本分析客戶增長分析商業(yè)智能客戶流失分析收入分析洞察過去預(yù)見未來欺詐檢測客戶流失檢測欺詐檢測個性化推薦預(yù)測性維護個性化推薦數(shù)據(jù)科學數(shù)據(jù)科學數(shù)據(jù)資產(chǎn)管理與運營生產(chǎn)數(shù)據(jù)營銷數(shù)據(jù)財務(wù)數(shù)據(jù)......(圖4-1)在數(shù)據(jù)價值挖掘平臺方面,百度智能云推出了三大產(chǎn)品,即數(shù)據(jù)資產(chǎn)管理與運營平臺DAMP、數(shù)據(jù)可視化SugarBI,以及全功能AI開發(fā)平臺BML。數(shù)據(jù)資產(chǎn)管理與運營DAMP資產(chǎn)目錄資產(chǎn)目錄應(yīng)用超市應(yīng)用超市數(shù)據(jù)可視化SugarBI智能圖表生成智能圖表生成智能交互大屏智能交互大屏全功能AI開發(fā)平臺BML一站式、多開發(fā)場景一站式、多開發(fā)場景AutoMLAutoML&AutoDL(圖4-2)26數(shù)據(jù)安全管理數(shù)據(jù)安全管理應(yīng)用分析數(shù)據(jù)好管理與發(fā)現(xiàn)技術(shù)據(jù)自動推薦數(shù)據(jù)好找到DATA“云智一體”技術(shù)與應(yīng)用解析系列白皮書智4.1數(shù)據(jù)資產(chǎn)管理與運營平臺DAMP百度智能云通過數(shù)據(jù)資產(chǎn)管理與運營平臺DAMP,將各類數(shù)據(jù)經(jīng)過基礎(chǔ)治理后形成的數(shù)據(jù)資產(chǎn)進行統(tǒng)一管理,以資產(chǎn)目錄的形式讓企業(yè)內(nèi)部資產(chǎn)更清晰化,同時通過應(yīng)用超市幫助企業(yè)更好的運營數(shù)據(jù)資產(chǎn),實現(xiàn)數(shù)據(jù)資產(chǎn)數(shù)據(jù)資產(chǎn)管理與運營平臺DAMP特性數(shù)據(jù)好理解統(tǒng)一標準規(guī)范數(shù)據(jù)好應(yīng)用用分析(圖4.1-1)4.1.1數(shù)據(jù)資產(chǎn)目錄對有價值、可分析和應(yīng)用的數(shù)據(jù)做提煉,形成數(shù)據(jù)目錄,并同步管理和展現(xiàn)元數(shù)據(jù)信息、數(shù)據(jù)質(zhì)量、數(shù)據(jù)血緣、數(shù)據(jù)獲取方式等數(shù)據(jù)詳情。通過數(shù)據(jù)資產(chǎn)目錄,方便數(shù)據(jù)分析和應(yīng)用人員高效了解數(shù)據(jù)、找到數(shù)據(jù)、理解4.1.2數(shù)據(jù)在線應(yīng)用工具基于整合多種數(shù)據(jù)源的數(shù)據(jù)資產(chǎn)目錄,為分析師、產(chǎn)品經(jīng)理、運營人員等提供在線數(shù)據(jù)融合分析功能,打破原有報表、工具的定制限制,支持零SQL基礎(chǔ)的人員進行可視化拼接查詢條件、或直接SQL查詢,提供通用分析此外,數(shù)據(jù)基于業(yè)務(wù)化視角提供業(yè)務(wù)衍生標簽的自定義功能,為上層應(yīng)用提供統(tǒng)一的標簽數(shù)據(jù)目錄和標簽調(diào)用接口,沉淀上層應(yīng)用制作的模型標簽,實現(xiàn)高價值標簽共享復(fù)用。同時,提供標簽圈群、群體分析等能力,幫4.1.3數(shù)據(jù)服務(wù)超市以數(shù)據(jù)API形式將形成的數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)標簽等對外開放,提高數(shù)據(jù)的應(yīng)用和流通效率。同時,支持靈活創(chuàng)建、API注冊,并配套提供激勵機制,驅(qū)動數(shù)據(jù)服務(wù)API市場繁榮。274.1.4數(shù)據(jù)資產(chǎn)看板基于數(shù)據(jù)資產(chǎn)統(tǒng)一管理和運營角度,直觀分析、展示各類數(shù)據(jù)資產(chǎn)匯聚的覆蓋率、數(shù)據(jù)資產(chǎn)綜合質(zhì)量、數(shù)據(jù)流通應(yīng)用、數(shù)據(jù)資產(chǎn)關(guān)系圖譜等情況,方便數(shù)據(jù)資產(chǎn)管理和運營者綜合了解企業(yè)的數(shù)據(jù)資產(chǎn)情況,指導數(shù)據(jù)戰(zhàn)略4.2數(shù)據(jù)可視化SugarBI分析和制作可視化數(shù)據(jù)大屏的工具,直連MySQL、本地Excel等各類數(shù)據(jù)源,通過豐富的圖表和拖拽百度SugarBI核心特性直連多數(shù)據(jù)源豐富的圖表和拖拽式編輯炫酷大屏智能交互(圖4.2-1)4.2.1直連多數(shù)據(jù)源SugarBI支持MySQL、SQLServer、PostgreSQL等市場主流數(shù)據(jù)庫都支持,同時支持本地Excel/CSV文件上傳、API和靜態(tài)JSON數(shù)據(jù)接入,并可通過提供的內(nèi)網(wǎng)隧道功能,安全地訪問企業(yè)內(nèi)網(wǎng)數(shù)據(jù)庫。還可支持來自支持多種數(shù)據(jù)源,類型包括:MySQL、SQLServer、PostgreSQL、Oracle、IBMDB2、SAPHana等,并持續(xù)擴充同時支持本地Excel/CSV文件上傳、API和靜態(tài)JSON數(shù)據(jù)接入,并可通過提供的內(nèi)網(wǎng)隧道功能,安全地訪問您的內(nèi)網(wǎng)數(shù)據(jù)庫支持同源異庫交叉分析與跨源交叉分析(圖4.2.1-1)28“云智一體”技術(shù)與應(yīng)用解析系列白皮書智4.2.2豐富的圖表和拖拽式編輯基于拖拽式編輯來實現(xiàn)豐富的圖表和大屏內(nèi)容,無需代碼,降低使用B(圖4.2.2-1)4.2.3炫酷大屏與智能交互SugarBI基于領(lǐng)先的人工智能交互技術(shù)、實現(xiàn)大屏語言交互功能,處于國內(nèi)領(lǐng)先地位。結(jié)合百度語音識別、語義解析等多項AI技術(shù),解決信息多、定位難等問題,快速獲取有效數(shù)據(jù)信息 “本周訂單總量是多少”“我要看青海省的數(shù)據(jù)”(圖4.2.3-1)29DATA+AI百度全功能AI開發(fā)平臺BML,整合大數(shù)據(jù)與AI技術(shù),為智能數(shù)據(jù)挖掘提供全流程開發(fā)支持數(shù)據(jù)采集數(shù)據(jù)清洗數(shù)據(jù)擴充數(shù)據(jù)標注可視化管理數(shù)據(jù)回流數(shù)據(jù)準備DATA+AI百度全功能AI開發(fā)平臺BML,整合大數(shù)據(jù)與AI技術(shù),為智能數(shù)據(jù)挖掘提供全流程開發(fā)支持數(shù)據(jù)采集數(shù)據(jù)清洗數(shù)據(jù)擴充數(shù)據(jù)標注可視化管理數(shù)據(jù)回流數(shù)據(jù)準備模型存儲模型轉(zhuǎn)換模型評估模型優(yōu)化模型管理公有云部署私有化部署設(shè)備端部署軟硬一體部署模型部署工業(yè)質(zhì)檢安全生產(chǎn)智能硬件零售快消互聯(lián)網(wǎng)……應(yīng)用構(gòu)建圖片文本視頻音頻結(jié)構(gòu)化數(shù)據(jù)4.3全功能AI開發(fā)平臺BML在數(shù)據(jù)科學方面,百度智能云通過全功能AI開發(fā)平臺BML為數(shù)據(jù)科學場景提供全流程開發(fā)支持,幫助用戶預(yù)測未來。BML整合了大數(shù)據(jù)和百度AI技術(shù),可以實現(xiàn)從數(shù)據(jù)源管理、數(shù)據(jù)清洗與擴充、數(shù)據(jù)標注、數(shù)據(jù)預(yù)處理,到模型構(gòu)建、模型管理與優(yōu)化、預(yù)測服務(wù)部署、服務(wù)管理與監(jiān)控等全流程能力支撐,降低企業(yè)應(yīng)用數(shù)據(jù)技術(shù)的BML為數(shù)據(jù)科學提供全流程開發(fā)支持配置管理配置管理流程管理工具流程管理工具監(jiān)控 推理服務(wù) 模型部署 模型評估 模型訓練 參數(shù)調(diào)優(yōu) 模型選擇 特征提取 數(shù)據(jù)獲取機器資源管理機器資源管理服務(wù)基礎(chǔ)設(shè)施服務(wù)基礎(chǔ)設(shè)施分析工具分析工具(圖4.3-1)4.3.1BML總體架構(gòu)BML可以訓練圖像、視頻、語音等非結(jié)構(gòu)化數(shù)據(jù)進行深度學習,還可接入各種結(jié)構(gòu)化數(shù)據(jù)。在數(shù)據(jù)準備階段提供數(shù)據(jù)分析和模型構(gòu)建,在模型輸出階段提供全功能AI開發(fā)平臺BML總體架構(gòu)模型構(gòu)建豐富建模方式豐富建模方式超大規(guī)模預(yù)訓練模型超大規(guī)模預(yù)訓練模型自動機器學習/深度學習自動機器學習/深度學習計算調(diào)度核心計算調(diào)度核心(圖4.3.1-1)30異構(gòu)算力資源池化管理作業(yè)及工作流調(diào)度系統(tǒng)模型管理與服務(wù)管理豐富的計算框架支持異構(gòu)算力資源池化管理作業(yè)及工作流調(diào)度系統(tǒng)模型管理與服務(wù)管理豐富的計算框架支持“云智一體”技術(shù)與應(yīng)用解析系列白皮書智4.3.2BML為數(shù)據(jù)科學提供的核心功能BML為數(shù)據(jù)科學提供高效的算力管理和調(diào)度、高性能數(shù)據(jù)科學引擎、自動機器學習、豐富的建模方式四大核心在算力管理和調(diào)度方面,BML提供計算資源、存儲資源的管理和調(diào)度。在這之上,提供一套作業(yè)執(zhí)行與調(diào)度機用戶接入RESTAPI命令行客戶端Web管理UI多租戶機制多租戶機制認證與授權(quán)認證與授權(quán)作業(yè)執(zhí)行與服務(wù)部署作業(yè)調(diào)度工作流調(diào)度模型管理服務(wù)管理計算框架計算框架資源調(diào)度計算資源管理與調(diào)度存儲資源管理與調(diào)度計算資源管理與調(diào)度存儲資源管理與調(diào)度(圖4.3.2-1)在高性能數(shù)據(jù)科學引擎方面,在數(shù)據(jù)科學場景下,從業(yè)者更傾向與機器學習強相關(guān)的Pandas/Sk-learn,因此BML提供高度兼容Pandas/Sk-learn接口,面向單機的數(shù)據(jù)分析和機器學習,提供5-10倍的開源工具的數(shù)據(jù)處面向單機數(shù)據(jù)分析、機器學習5-10倍于開源工具的數(shù)據(jù)處理能力高度兼容Pandas/Sk-learn/SQL接口相比開源工具平均加速6倍+每秒樣本(example/s)2500200015001000500airlinefb__biddingpilot__awarenessnyc__taxiusa__incomeBlackholePandas+Sklearn測試環(huán)境:CPU28邏輯核,intel(R)Xeon(R);Gold5117CPU@2.00GHz;內(nèi)存:256G;GPU:7卡TeslaP40;顯存:24G;五個場景取自Kaggle上公開數(shù)據(jù)集(圖4.3.2-2)在自動機器學習方面,BML提供自動建模工具,實現(xiàn)從數(shù)據(jù)拆分、訓練數(shù)據(jù)集、黑盒優(yōu)化算法、模型訓練、效自動機器學習典型流程全流程自動化組件可插拔可擴展多種特征組合選擇結(jié)果方便人工精調(diào)數(shù)據(jù)源 數(shù)據(jù)集 問題識別 數(shù)據(jù)拆分 訓練數(shù)據(jù)集黑盒優(yōu)化算法預(yù)處理選擇預(yù)處理選擇特征選擇特征選擇 模型及融合選擇超參數(shù)選擇超參數(shù)選擇提前停止算法訓練模型訓練模型 訓練模型 產(chǎn)出模型 效果評估 最優(yōu)解重要優(yōu)化點元學習優(yōu)化初始化|提前停止算法剪枝|分布式執(zhí)行架構(gòu)|GPU加速(圖4.3.2-3)在豐富的建模方式方面,BML提供豐富的交互界面、文本編輯器、可視化的拖拉拽、腳本調(diào)參等工具,覆蓋多NotebookNotebook運行編輯運行編輯優(yōu)化的Notebook開發(fā)環(huán)境代碼代碼算法框架代碼文件啟動命令輸出路徑支持多種框架的代碼開發(fā)可視化拖拉拽可視化拖拉拽可視化拖拉拽預(yù)置豐富組件腳本調(diào)參腳本調(diào)參預(yù)訓練模型預(yù)訓練模型腳本編輯器適合AI初學者的模型產(chǎn)線開發(fā)(圖4.3.2-4)4.3.3面向行業(yè)的智能數(shù)據(jù)挖掘解決方案金融智能數(shù)據(jù)挖掘解決方案分為三層,底層是金融數(shù)據(jù)挖掘,中層是智能建模工具鏈,其基于BML開發(fā)平臺,工業(yè)智能數(shù)據(jù)挖掘解決方案,基于百度BML為數(shù)據(jù)加工、數(shù)據(jù)分析、模型算法、工業(yè)機理等流程提供設(shè)備健康32特征工程模型構(gòu)建模型訓練人工智能平臺模型管理模型評估工業(yè)智能數(shù)據(jù)挖掘模型算法趨勢分析周期性分析敏感性分析相關(guān)性分析統(tǒng)計分布分析規(guī)則模型特征工程模型構(gòu)建模型訓練人工智能平臺模型管理模型評估工業(yè)智能數(shù)據(jù)挖掘模型算法趨勢分析周期性分析敏感性分析相關(guān)性分析統(tǒng)計分布分析規(guī)則模型時間序列模型機器學習模型深度學習模型自動機器學習設(shè)備健康管理生產(chǎn)過程管控數(shù)據(jù)清洗去噪數(shù)據(jù)變換數(shù)據(jù)融合特征提取生產(chǎn)特征組合工業(yè)機理基礎(chǔ)理論流程邏輯生產(chǎn)工藝部件參數(shù)故障圖譜百度智能云數(shù)據(jù)與AI平臺綜合能源管理數(shù)據(jù)加工數(shù)據(jù)分析“云智一體”技術(shù)與應(yīng)用解析系列白皮書智金融智能數(shù)據(jù)挖掘金融智能數(shù)據(jù)挖掘信貸風控建模貸前風控模型貸前風控模型信用評分模型信用評分模型保險風控建模營銷建模保險風控建模核保出險預(yù)測模型理賠反欺詐模型營銷模型核保出險預(yù)測模型理賠反欺詐模型智能建模工具鏈模型預(yù)測智能建模工具鏈模型解釋模型評估模型訓練特征工程特征初篩數(shù)據(jù)洞察樣本選取畫像基礎(chǔ)特征詞包趨勢特征風險設(shè)備畫像基礎(chǔ)特征詞包趨勢特征風險設(shè)備特征畫像趨勢特征風險詞包特征風險定位特征風險行為風險行為特征風險風險APP特征百度智能云數(shù)據(jù)與百度智能云數(shù)據(jù)與AI平臺(圖4.3.3-1)4.4智能數(shù)據(jù)挖掘成功實踐4.4.1郵儲大腦機器學習平臺中國郵政儲蓄可追溯至1919年開辦的郵政儲金業(yè)務(wù),至今已有百年歷史。2007年,中國郵政儲蓄銀行有限責任次支撐平臺,包括全功能底層、垂類AI場景以及AI能力;二是形成數(shù)據(jù)建設(shè)、構(gòu)建模型、模型應(yīng)用和應(yīng)用數(shù)據(jù)1、面向不同需求層次的技術(shù)支撐平臺開箱即用開箱即用AI能力無需進行模型建模,直接調(diào)用AI能力即可為業(yè)務(wù)賦能提供模型編排的能力,靈活應(yīng)對業(yè)務(wù)訴求零門檻AI垂類平臺將業(yè)務(wù)場景做抽象沉淀,根據(jù)業(yè)務(wù)零門檻AI垂類平臺全功能全功能AI平臺滿足各種不同業(yè)務(wù)靈活建模,升級數(shù)據(jù)處理引擎,低門檻處理大規(guī)模數(shù)據(jù)2、全生命周期人工智能能力閉環(huán)數(shù)據(jù)完善數(shù)據(jù)建設(shè),挖掘數(shù)據(jù)價值模型研發(fā)過程審計,沉淀模型資產(chǎn)數(shù)據(jù)數(shù)據(jù)處理數(shù)據(jù)數(shù)據(jù)接入服務(wù)服務(wù)部署應(yīng)用應(yīng)用開箱即用,隨用隨有(圖4.4.1-1)33全行統(tǒng)一的人工智能平臺完善的安全機制科學的管理體系實現(xiàn)全生命周期支持滿足合規(guī)管理要求提升智能化賦能效率√數(shù)百模型訓練任務(wù)、預(yù)測服務(wù)同時運行及部署√14億行、800多維大規(guī)模數(shù)據(jù)訓練√相同模型訓練更新周期從月級縮短到小時級√圖像模型部署擴容從天級縮短至秒級百度智能云聯(lián)合郵儲銀行,構(gòu)建全行級人工智能平臺,完善整體能力建設(shè)、技術(shù)積累和AI人才培養(yǎng)。在賦能效率方面,每天可運行數(shù)百個模型訓練與預(yù)估服務(wù),可實現(xiàn)14億行、80多個維度的大規(guī)模數(shù)據(jù)訓練,更新周期從構(gòu)建全行級的人工智能平臺,滿足業(yè)務(wù)需求構(gòu)建全行級的人工智能平臺,滿足業(yè)務(wù)需求推動人工智能的能力建設(shè)、技術(shù)積累和AI人才團隊培養(yǎng)業(yè)務(wù)應(yīng)用智能營銷智能營銷智能風控智能風控智慧運營智慧運營智慧服務(wù)智慧服務(wù)郵儲大腦OCR視頻感知/認知智能OCR視頻NLPNLP圖像圖像數(shù)據(jù)智能風控模型風控模型理財產(chǎn)品推薦模型產(chǎn)品定價模型其他反欺詐模型精準營銷模型模型構(gòu)建、納管&服務(wù)支撐模型構(gòu)建、納管&服務(wù)支撐模型管理 數(shù)據(jù)處理模型訓練預(yù)測服務(wù)數(shù)據(jù)資源數(shù)據(jù)交換平臺數(shù)據(jù)交換平臺數(shù)據(jù)實驗室數(shù)據(jù)實驗室IT基礎(chǔ)資源GPUGPU集群CPUCPU集群存儲集群存儲集群(圖4.4.1-2)4.4.2某集團研發(fā)中心設(shè)備健康管理系統(tǒng)某集團研發(fā)中心屬于軌道交通領(lǐng)域的一家車輛主機廠,基本業(yè)務(wù)包括整車以及關(guān)鍵部件智能運維檢測服務(wù),支2019年中央發(fā)布了交通強國的建設(shè)綱要,2020年中國城市軌道交通協(xié)會也發(fā)布了智慧城軌發(fā)展綱要,這兩項政策性的綱要都提到要盡快引入人工智能等先進技術(shù),加快推動產(chǎn)業(yè)的升級,這為該研發(fā)中心的業(yè)務(wù)發(fā)展提供了截止2022年4月,國內(nèi)已有45個城市200多條共計7500多公里的地鐵線路;城鐵快速發(fā)展背后是傳統(tǒng)運維模式所帶來的矛盾日益凸顯,帶來運營運維成本日益增大。相關(guān)機構(gòu)預(yù)測“需要在未來的50年投入等同于現(xiàn)有資產(chǎn)3倍價值的運維費用,才能保持現(xiàn)有的運營表現(xiàn)”。這是很大運維壓力,也同樣是一個重大機會,基于現(xiàn)有環(huán)境和壓力情況,很多地鐵業(yè)主在探索檢修模式的轉(zhuǎn)變,比較典型的就是從傳統(tǒng)的計劃修、故障修、定期維修,轉(zhuǎn)為了響應(yīng)這種轉(zhuǎn)變需求,該研發(fā)中心提出了包括狀態(tài)檢測、健康評估、壽命預(yù)測及延壽評估等業(yè)務(wù),覆蓋設(shè)計、運營和報廢等階段的全生命周期智能運維技術(shù)服務(wù)。這種運維服務(wù)橫跨整車多個維度,將整車業(yè)務(wù)需求逐層分解,從整車分解到關(guān)鍵系統(tǒng),再到關(guān)鍵部件和節(jié)點,逐步突破,化整為零,降低運營故障率和運維成本,34車門電機故障預(yù)測限位開關(guān)故障預(yù)測絲杠潤滑故障預(yù)測空調(diào)車內(nèi)舒適度監(jiān)測壓縮機故障預(yù)測濾網(wǎng)臟堵預(yù)測換熱器臟堵預(yù)測車門牽引輔助電機故障預(yù)測電容故障預(yù)測制動車門電機故障預(yù)測限位開關(guān)故障預(yù)測絲杠潤滑故障預(yù)測空調(diào)車內(nèi)舒適度監(jiān)測壓縮機故障預(yù)測濾網(wǎng)臟堵預(yù)測換熱器臟堵預(yù)測車門牽引輔助電機故障預(yù)測電容故障預(yù)測制動主風管漏氣預(yù)測制動缸漏氣預(yù)測車輛載客量監(jiān)測走行部軸承故障預(yù)測輪對踏面故障預(yù)測剩余壽命預(yù)測問題:故障影響大、低頻次目標:不增加傳感器地鐵業(yè)主運營承包方維修承包方安全運營關(guān)鍵指標節(jié)省電費降低罰款漏檢&扣車“云智一體”技術(shù)與應(yīng)用解析系列白皮書智整車維度、多系統(tǒng)融合降低正線運營故障降低正線運營故障優(yōu)化維保成本優(yōu)化維保成本提高乘客滿意度提高乘客滿意度(圖4.4.2-1)業(yè)務(wù)痛點:場景應(yīng)用方面,面對龐大數(shù)據(jù)壓力情況下的數(shù)據(jù)分析能力不足。當前每列車每天可產(chǎn)生2G左右的數(shù)據(jù),像上海有7000+輛車(1100多列,按6節(jié)編組估算)、杭州有5000+輛車(800多列,按6節(jié)編組估算),數(shù)據(jù)壓力非常大,傳統(tǒng)數(shù)據(jù)分析能力無法滿足要求;再加上需要做預(yù)測該研發(fā)中心與百度智能云結(jié)合業(yè)務(wù)多輪溝通之后,共同確定了解決方案,通過探索構(gòu)建設(shè)備健康管理系統(tǒng)支持軌道交通車輛運維服務(wù),并參照美國IMS中心提出的運維方式選擇模型,選擇故障影響大且頻次低的項點來研究。同時,該方案還要重點考慮,盡可能充分利用現(xiàn)有車利用設(shè)備健康管理系統(tǒng),進行軌道交通車輛運維發(fā)生頻率準備更多準備更多備件傳統(tǒng)維護傳統(tǒng)維護設(shè)計問題設(shè)計問題需要改進PHMPHM影響程度資料來源:美國IMS中心(圖4.4.2-2)35設(shè)備管理調(diào)度計劃維護決策業(yè)務(wù)應(yīng)用智能引擎數(shù)據(jù)平臺通過AI算法識別壓力變化估算車輛用氣的整體情況,建立智能決策模型,預(yù)測列車是否漏氣盡早對車輛進行檢修,減少車輛運營能耗,防止事故的發(fā)生設(shè)備管理調(diào)度計劃維護決策業(yè)務(wù)應(yīng)用智能引擎數(shù)據(jù)平臺通過AI算法識別壓力變化估算車輛用氣的整體情況,建立智能決策模型,預(yù)測列車是否漏氣盡早對車輛進行檢修,減少車輛運營能耗,防止事故的發(fā)生主風管狀態(tài)參數(shù)主風管氣壓監(jiān)測制動系統(tǒng)狀態(tài)參數(shù)空簧系統(tǒng)狀態(tài)參數(shù)……漏氣預(yù)警車輛用氣量預(yù)測解決方案的架構(gòu)主要分為三層:一是底層數(shù)據(jù)平臺,二是結(jié)合行業(yè)知識和百度AI算法設(shè)備預(yù)測性維護設(shè)備運行狀態(tài)監(jiān)測設(shè)備故障預(yù)警設(shè)備故障診斷設(shè)備故障診斷預(yù)測模型預(yù)測模型百度百度AI開發(fā)平臺領(lǐng)域?qū)<翌I(lǐng)域?qū)<翌I(lǐng)域知識圖譜領(lǐng)域知識圖譜領(lǐng)域知識庫領(lǐng)域知識庫百度大數(shù)據(jù)平臺百度大數(shù)據(jù)平臺(圖4.4.2-3)簡單的舉一個研發(fā)模型應(yīng)用的例子,“制動系統(tǒng)主風管漏氣預(yù)測”模型。軌道交通車輛在運營過程中制動裝置、空簧等裝置都需要大量用氣,主風管漏氣會嚴重影響列車的運營,輕度漏氣會導致車輛運營的能耗增加,重度漏氣會引發(fā)車輛救援事故。模型通過AI算法識別壓力變化估算車輛用氣的整體情況,建立智能決策模型,預(yù)測列車是否漏氣,以盡早對車輛進行檢修,減少軌道交通車輛在運營過程中制動裝置、空簧等裝置都需要大量用氣,主風管漏氣會嚴重影響列車的運營,輕度漏氣會導致車輛運營的能耗增加,重度漏氣會引發(fā)車輛救援事故領(lǐng)域?qū)<翌I(lǐng)域?qū)<遥▓D4.4.2-4)3637根據(jù)興業(yè)證券統(tǒng)計,2019年全球有近6000件數(shù)據(jù)泄漏事件的發(fā)生。一方面數(shù)據(jù)安全事件不斷上升,另一方面整個社會都在數(shù)字化,泄漏數(shù)據(jù)的影響也越來越大,數(shù)據(jù)安全事件驅(qū)動數(shù)據(jù)安全修改的法律法規(guī)與監(jiān)管政策持續(xù)(次)全球數(shù)據(jù)泄漏事件1000005183388632903261404851833886329032612323200324052323200320122013201420152016201720182019來源:RBS報告,興業(yè)證券(百萬條)全球數(shù)據(jù)泄漏事件涉及數(shù)據(jù)量100000799537667099376623253964855681070232539620122013201420152016201720182019來源:RBS報告,興業(yè)證券(條)各年數(shù)據(jù)安全直接相關(guān)政策發(fā)布數(shù)量200123358886201320142015201620172018201920202021(7月)來源:政府網(wǎng)站公告,天風證券2009.02.282012.12.282013.02.012013.03.152014.03.15《刑法修正案七》全國人大常委《關(guān)于《信息安全技術(shù)公共及商用服《征信業(yè)管理條例》《消費者權(quán)益保護法》到《刑法修正案九》加強網(wǎng)絡(luò)信息保護的決定》務(wù)信息系統(tǒng)個人信息保護指南》2016.11.092017.10.012019.05.282019.06.13《網(wǎng)絡(luò)安全法》《民法總則》《數(shù)據(jù)安全管理辦法》《個人信息出境安全評估辦法》2019.10.012020.10.012021.01.012021.09.012021.11.01《兒童個人信息網(wǎng)絡(luò)保護規(guī)定》《信息安全技術(shù)個人信息安全規(guī)范》《民法典》(圖5-1)保障數(shù)據(jù)安全。通過采取必要措施,確保數(shù)據(jù)處于有效保護和合法利用的狀態(tài),以及具備保障持續(xù)安全狀態(tài)的能力。堅持總體國家安全觀,建立健全數(shù)據(jù)安全治促進數(shù)據(jù)開發(fā)利用。國家支持數(shù)據(jù)開發(fā)利用和數(shù)據(jù)安全技術(shù)研究,鼓勵數(shù)據(jù)開發(fā)利用和數(shù)據(jù)安全等領(lǐng)域的技術(shù)維護國家利益。維護國家主權(quán)、安全和發(fā)展利益,國家對與維護國家安全和利益、履行國際義務(wù)相關(guān)的屬于管38采集存儲安全方案共享傳輸存儲識別使用銷毀?數(shù)據(jù)地圖?自動化數(shù)據(jù)密級標識???采集存儲安全方案共享傳輸存儲識別使用銷毀?數(shù)據(jù)地圖?自動化數(shù)據(jù)密級標識???“云智一體”技術(shù)與應(yīng)用解析系列白皮書智保護個人/組織權(quán)益。國家保護個人、組織與數(shù)據(jù)有關(guān)的權(quán)益,鼓勵數(shù)據(jù)依法合理有效利用,保障數(shù)據(jù)依法有序提升政務(wù)數(shù)字化能力。數(shù)據(jù)開放能極大的提升政務(wù)數(shù)字化的能提升執(zhí)政透明度。公共數(shù)字資產(chǎn)開放,能極大的推動在數(shù)字化時賦能企業(yè)及公民。數(shù)字資產(chǎn)開放創(chuàng)新,有利于賦能傳統(tǒng)行業(yè)企業(yè)數(shù)字培育增長新動能。利用以數(shù)據(jù)驅(qū)動創(chuàng)新為特征的前沿技術(shù),推動數(shù)字科技、人工智能、智能制造融合,培育增5.1數(shù)據(jù)安全的落實規(guī)則5.1.1覆蓋數(shù)據(jù)全生命周期的安全體系數(shù)據(jù)全生命周期包括采集合規(guī)性檢測和合規(guī)持續(xù)監(jiān)測,數(shù)據(jù)發(fā)現(xiàn)與識別安全方案(數(shù)據(jù)地圖和自動化數(shù)據(jù)密級標識);存儲安全方案(加密存儲、身份認證與訪問控制和數(shù)據(jù)存儲安全審計);數(shù)據(jù)使用安全方案(細顆粒風險事件關(guān)聯(lián)分析取證),傳輸安全方案(軟件定義隔離域、傳輸鏈路SSL加密、數(shù)據(jù)API安全方案和數(shù)據(jù)流轉(zhuǎn)監(jiān)控方案);共享&流通安全方案(安全多方計算、機密計算、聯(lián)邦學習、差分隱私、動/靜態(tài)數(shù)據(jù)脫敏和數(shù)字水?。约颁N毀安全方案(系統(tǒng)DD、數(shù)據(jù)清理安全方案和物理銷毀方案)等。數(shù)據(jù)合規(guī)?采集合規(guī)性檢測?采集合規(guī)持續(xù)監(jiān)測??透明加密存儲?身份認證與訪問控制?數(shù)據(jù)存儲安全審計?軟件定義隔離域?傳輸鏈路SSL加密?數(shù)據(jù)API安全方案?數(shù)據(jù)流轉(zhuǎn)監(jiān)控方案數(shù)據(jù)發(fā)現(xiàn)與識別安全方案數(shù)據(jù)發(fā)現(xiàn)與識別安全方案??細顆粒度數(shù)據(jù)訪問權(quán)限控制差分隱私動/靜態(tài)數(shù)據(jù)脫敏Tokenization&Anonymization全鏈路用戶行為分析?系統(tǒng)DD?數(shù)據(jù)清理安全方案?物理銷毀方案??安全多方計算?機密計算?聯(lián)邦學習?差分隱私?動/靜態(tài)數(shù)據(jù)脫敏?數(shù)字水印?風險事件關(guān)聯(lián)分析取證合規(guī)要素發(fā)展趨勢(圖5.1.1-1)39有證可查有法可依分割原則分類原則挖掘數(shù)據(jù)賦能企業(yè)安全融合合規(guī)協(xié)作分級原則數(shù)據(jù)販賣嚴重侵害個人隱私有證可查有法可依分割原則分類原則挖掘數(shù)據(jù)賦能企業(yè)安全融合合規(guī)協(xié)作分級原則數(shù)據(jù)販賣嚴重侵害個人隱私高價特殊敏感數(shù)據(jù)風險大數(shù)據(jù)跨境流動的安全隱患面臨外來攻擊威脅加大新技術(shù)催生新型數(shù)據(jù)風險濫用個人數(shù)據(jù)實現(xiàn)壁壘5.1.2隱私數(shù)據(jù)的安全保護閉環(huán)隱私數(shù)據(jù)的安全措施要形成閉環(huán),包括資產(chǎn)集中管控、全面應(yīng)用分析、敏感數(shù)據(jù)資產(chǎn)感知、敏感數(shù)據(jù)防護、泄露風險攔截和事件審計溯源等。做好安全保護閉環(huán)管理,可以避免流程環(huán)節(jié)中的安全漏洞,提高安全保護效率資產(chǎn)集中管控以內(nèi)置豐富的安全管控策略,對站點、業(yè)務(wù)賬號進行全面集中管控全面應(yīng)用分析對網(wǎng)頁、API自動全面梳理,分別從用戶、IP、敏感信息視角風險畫像敏感數(shù)據(jù)資產(chǎn)感知基于主動探測與被動感知相結(jié)合的方式,全面感知敏感信息資產(chǎn)敏感數(shù)據(jù)防護全場景的敏感數(shù)據(jù)動態(tài)脫敏,豐富的水印配置,防拷貝,防止敏感信息泄露泄露風險攔截對用戶的異常敏感數(shù)據(jù)訪問行為進行告警、攔截,規(guī)避數(shù)據(jù)泄露的風險事件審計溯源基于UEBA智能行為審計和身份水印溯源,快速溯源到泄漏事件源頭(圖5.1.2-1)5.1.3安全合規(guī)的數(shù)據(jù)流通形式傳統(tǒng)的數(shù)據(jù)流通,加工后的單方數(shù)據(jù)結(jié)果以數(shù)據(jù)包或明文API形式輸出,存在高價特殊敏感數(shù)據(jù)風險大、面臨外來攻擊威脅加大以及濫用個人數(shù)據(jù)等問題,不能有效隱私計算是一套完善的規(guī)則和一套先進的工具,從數(shù)據(jù)要素角度完善跨行業(yè)跨部門的數(shù)據(jù)標準體系,建立多層數(shù)據(jù)要素完善跨行業(yè)跨部門的數(shù)據(jù)標準體系,建立隱私計算一套完善的規(guī)則一套先進的工具數(shù)據(jù)確權(quán)使數(shù)據(jù)資產(chǎn)具有可控制性,利于加速數(shù)據(jù)多層級的管理標準數(shù)據(jù)包通過數(shù)據(jù)交易平臺對數(shù)據(jù)所有權(quán)進行交易流通明文API加工后的單方數(shù)據(jù)結(jié)果以API形式輸出(圖5.1.3-1)40隱私識別隱私審計合規(guī)分級分類參與方B參與方C參與方A百度點石多方計算連邦學習機密計算隱私計算隱私保護隱私識別隱私審計合規(guī)分級分類參與方B參與方C參與方A百度點石多方計算連邦學習機密計算隱私計算隱私保護“云智一體”技術(shù)與應(yīng)用解析系列白皮書智5.1.4主流的隱私計算核心引擎主流的隱私計算核心引擎可以分為四類:在數(shù)據(jù)可用不可見的基礎(chǔ)上,安全多方計算(MPC)用了大量數(shù)學方法做密態(tài)計算,允許多個數(shù)據(jù)所有者在互不信任的情況下進行協(xié)同計算,輸出計算結(jié)果。在數(shù)據(jù)可用不可見的集中計算領(lǐng)域,機密計算(TEE)是最流行的處理機密和隱私的技術(shù)手段,采用第三方硬件,構(gòu)建強安全性的計算區(qū)域,將數(shù)據(jù)加密后集中起來聯(lián)合計算,輸出計算結(jié)果。在數(shù)據(jù)不動算法動方向,聯(lián)邦學習(FL),采用聯(lián)邦學習框架,將機器學習算法程序分散到擁有數(shù)據(jù)的各方,將模型梯度回傳。還有數(shù)據(jù)不動算法動的集中計算的式,安全數(shù)據(jù)沙箱,通過軟硬件結(jié)合,使用隔離機制構(gòu)建一個安全可控區(qū)域,保證其內(nèi)部加載數(shù)據(jù)的機密協(xié)同計算安全多方計算(MPC)允許多個數(shù)據(jù)所有者在互不信任的情況下安全多方計算(MPC)允許多個數(shù)據(jù)所有者在互不信任的情況下進行協(xié)同計算,輸出計算結(jié)果采用聯(lián)邦學習框架,將機器學習算法程序分散到擁有數(shù)據(jù)的各方,將模型梯度回傳數(shù)據(jù)可用不可見
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 室內(nèi)墻面防水施工方案
- 2024年三季度報湖南地區(qū)A股長期負債比率排名前十大上市公司
- 2024年三季度報湖南地區(qū)A股利息支付倍數(shù)排名前十大上市公司
- 堆土施工方案
- 鋼橋梁施工方案
- 2025年餐廳經(jīng)理考試試題及答案
- 2025年專業(yè)培訓 測試題及答案
- 6年級上冊數(shù)學第5單元
- 2025年消防入門考試題及答案
- close關(guān)閉文件的語法
- 口腔科急救預(yù)案培訓課件
- 新教科版5年級科學下冊第二單元《6設(shè)計我們的小船》課件
- 弗洛姆異化理論
- Q∕CR 9602-2015 高速鐵路路基工程施工技術(shù)規(guī)程
- 園林噴灌工程施工方案(精編版)
- 碳納米管_ppt課件
- 【課件】第2課如何鑒賞美術(shù)作品課件-高中美術(shù)人教版(2019)美術(shù)鑒賞
- [康熙字典9畫五行屬金的字加解釋] 康熙字典五行屬金的字
- 托盤操作評分表
- 關(guān)于老年癡呆癥及其智能陪護設(shè)備的調(diào)查報告
- 椴木靈芝栽培技術(shù)
評論
0/150
提交評論