云智一體技術(shù)與應(yīng)用解析白皮書 -智能大數(shù)據(jù)篇_第1頁
云智一體技術(shù)與應(yīng)用解析白皮書 -智能大數(shù)據(jù)篇_第2頁
云智一體技術(shù)與應(yīng)用解析白皮書 -智能大數(shù)據(jù)篇_第3頁
云智一體技術(shù)與應(yīng)用解析白皮書 -智能大數(shù)據(jù)篇_第4頁
云智一體技術(shù)與應(yīng)用解析白皮書 -智能大數(shù)據(jù)篇_第5頁
已閱讀5頁,還剩106頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

0303 目錄CONTENS一、云智一體,促進(jìn)數(shù)字化轉(zhuǎn)型與智能化升級(jí)一步到位021.3云智一體的百度智能云架構(gòu)2.0,加速產(chǎn)業(yè)智能化04二、云智一體的智能大數(shù)據(jù)產(chǎn)品架構(gòu)全景圖052.1數(shù)據(jù)要素成為數(shù)字經(jīng)濟(jì)時(shí)代的新戰(zhàn)略資源062.2大數(shù)據(jù)驅(qū)動(dòng)千行百業(yè)數(shù)字化轉(zhuǎn)型和業(yè)務(wù)創(chuàng)新072.3大數(shù)據(jù)的未來發(fā)展趨勢(shì)082.4企業(yè)構(gòu)建大數(shù)據(jù)平臺(tái)的原則082.4.1成效為先092.4.2治理為要092.4.3安全為本092.4.4持續(xù)運(yùn)營(yíng)092.5百度智能云大數(shù)據(jù)產(chǎn)品架構(gòu)全景圖3.1.1按需創(chuàng)建123.1.2存算分離123.1.3彈性擴(kuò)縮容133.1.4運(yùn)維托管143.2.1BOS數(shù)據(jù)湖存儲(chǔ)153.2.2豐富的數(shù)據(jù)湖分析引擎163.3.1元數(shù)據(jù)統(tǒng)一管理203.3.2自動(dòng)數(shù)據(jù)集成203.3.3全流程可視化數(shù)據(jù)治理開發(fā)213.3.4數(shù)據(jù)湖分析213.4成功實(shí)踐22四、智能數(shù)據(jù)挖掘,驅(qū)動(dòng)數(shù)據(jù)資產(chǎn)價(jià)值最大化4.1數(shù)據(jù)資產(chǎn)管理與運(yùn)營(yíng)平臺(tái)DAMP264.1.1數(shù)據(jù)資產(chǎn)目錄264.1.2數(shù)據(jù)在線應(yīng)用工具264.1.3數(shù)據(jù)服務(wù)超市264.1.4數(shù)據(jù)資產(chǎn)看板274.2數(shù)據(jù)可視化SugarBI274.2.1直連多數(shù)據(jù)源274.2.2豐富的圖表和拖拽式編輯284.2.3炫酷大屏與智能交互284.3全功能AI開發(fā)平臺(tái)BML294.3.1BML總體架構(gòu)294.3.2BML為數(shù)據(jù)科學(xué)提供的核心功能304.3.3面向行業(yè)的智能數(shù)據(jù)挖掘解決方案314.4智能數(shù)據(jù)挖掘成功實(shí)踐324.4.1郵儲(chǔ)大腦機(jī)器學(xué)習(xí)平臺(tái)324.4.2某集團(tuán)研發(fā)中心設(shè)備健康管理系統(tǒng)33五、隱私計(jì)算鑄就安全防護(hù)新體系365.1數(shù)據(jù)安全的落實(shí)規(guī)則385.1.1覆蓋數(shù)據(jù)全生命周期的安全體系385.1.2隱私數(shù)據(jù)的安全保護(hù)閉環(huán)395.1.3安全合規(guī)的數(shù)據(jù)流通形式395.1.4主流的隱私計(jì)算核心引擎405.2百度全生命周期數(shù)據(jù)安全防護(hù)體系405.2.1資產(chǎn)安全415.2.2隱私保護(hù)415.2.3隱私計(jì)算415.3百度點(diǎn)石成功實(shí)踐43六、企業(yè)數(shù)據(jù)資產(chǎn)構(gòu)建與應(yīng)用實(shí)踐456.1數(shù)據(jù)治理466.1.1搭班子466.1.2做盤點(diǎn)476.1.3定標(biāo)準(zhǔn)486.1.4穩(wěn)實(shí)施486.2資產(chǎn)管理與運(yùn)營(yíng)496.2.1資產(chǎn)管理496.2.2資產(chǎn)運(yùn)營(yíng)496.3業(yè)務(wù)應(yīng)用506.4企業(yè)數(shù)據(jù)資產(chǎn)應(yīng)用實(shí)踐516.4.1徐工綜合經(jīng)營(yíng)管理決策駕駛艙516.4.2陜西廣電媒體融合數(shù)據(jù)資產(chǎn)建設(shè)52七、更多行業(yè)案例參考56八、關(guān)于本報(bào)告570203當(dāng)前,我們正處在科技創(chuàng)新和產(chǎn)業(yè)發(fā)展最好的時(shí)代,以人工智能、大數(shù)據(jù)、云計(jì)算、5G等為代表的新一代信息在產(chǎn)業(yè)應(yīng)用新興技術(shù)和數(shù)據(jù)資源轉(zhuǎn)型升級(jí)的過程中,數(shù)字化是基礎(chǔ);而隨著人工智能等新一代信息技術(shù)的發(fā)展,以及數(shù)據(jù)的爆發(fā)式增長(zhǎng),產(chǎn)業(yè)加快應(yīng)用智能技術(shù),從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律、訓(xùn)練模型、提煉知識(shí),促進(jìn)產(chǎn)出增加和效率提升,實(shí)現(xiàn)企業(yè)生產(chǎn)經(jīng)營(yíng)的智能化,1.2百度智能云戰(zhàn)略升級(jí)百度是擁有強(qiáng)大互聯(lián)網(wǎng)基礎(chǔ)的領(lǐng)先AI公司。從成立的第一天起,百度搜索引擎就與人工智能、云計(jì)算等技術(shù)息息相關(guān)。經(jīng)過多年的技術(shù)積累和產(chǎn)業(yè)實(shí)踐,百度已形成了全面布局,從基礎(chǔ)的算力和數(shù)據(jù)技術(shù)、深度學(xué)習(xí)算法及框架,到語音、視覺、自然語言處理等感知、認(rèn)知技術(shù),以及飛槳深度學(xué)習(xí)開源開放平臺(tái)等,具備云智一體基于百度的技術(shù)優(yōu)勢(shì)和對(duì)產(chǎn)業(yè)發(fā)展的洞察,經(jīng)過跟合作伙伴的共同成長(zhǎng)與產(chǎn)業(yè)實(shí)踐,百度智能云的戰(zhàn)略升級(jí)為:以“云計(jì)算為基礎(chǔ)”支撐企業(yè)數(shù)字化轉(zhuǎn)型,以“人工智能為引擎”加速產(chǎn)業(yè)智能化升級(jí),云智一體“賦能云智一體的“云”為數(shù)字化轉(zhuǎn)型提供安全、穩(wěn)定、靈活的數(shù)字化底座,“智能化引擎”為智能化升級(jí)提供領(lǐng)先同時(shí),如果客戶只做數(shù)字化轉(zhuǎn)型,我們有豐富的云計(jì)算產(chǎn)品可以支持;或者客戶已經(jīng)有了數(shù)字化基礎(chǔ),我們的百度智能云的“云”,不僅為數(shù)字化轉(zhuǎn)型提供安全穩(wěn)定、彈性靈活的云計(jì)算服務(wù),同時(shí)也是適合跑AI的云,我們稱之為“AI原生云”,繼承云原生的優(yōu)勢(shì),面向AI場(chǎng)景,提供極致彈性的高性能異構(gòu)算力,打造簡(jiǎn)潔、高效“云智一體”的智,是百度將深耕十余年的AI技術(shù),以及AI賦能產(chǎn)業(yè)的實(shí)踐經(jīng)驗(yàn),沉淀為助力產(chǎn)業(yè)智能化升級(jí)的技術(shù)、平臺(tái)及方法論,是以加速產(chǎn)業(yè)智能化升級(jí)04視頻云數(shù)據(jù)庫物聯(lián)網(wǎng)邊緣計(jì)算全場(chǎng)景應(yīng)用 …AI中臺(tái)知識(shí)中臺(tái)智能化數(shù)字化視頻云數(shù)據(jù)庫物聯(lián)網(wǎng)邊緣計(jì)算全場(chǎng)景應(yīng)用 …AI中臺(tái)知識(shí)中臺(tái)智能化數(shù)字化底座“云智一體”技術(shù)與應(yīng)用解析系列白皮書智1.3云智一體的百度智能云架構(gòu)2.0,基于百度智能云的戰(zhàn)略升級(jí),云智一體的百度智能云架構(gòu)2.0同時(shí)發(fā)布,包含數(shù)字化底座、智能化引擎和全場(chǎng)景應(yīng)用(如圖1.3-1所示)。數(shù)字化底座,包括基礎(chǔ)云、數(shù)據(jù)庫、物聯(lián)網(wǎng)、邊緣計(jì)算、區(qū)塊鏈等基礎(chǔ)平臺(tái),以及視頻云、大數(shù)據(jù)、云原生開發(fā)和地圖服務(wù)等;同時(shí)還有安全模塊,為技術(shù)在數(shù)字化底座之上是智能化引擎,百度自主研發(fā)的飛槳深度學(xué)習(xí)平臺(tái)為核心,軟硬一體AI大生產(chǎn)平臺(tái)--為支撐,包括AI中臺(tái)和知識(shí)中臺(tái)等。智能化引擎與行業(yè)深度融合,幫助企業(yè)建設(shè)自己的智能化中臺(tái),助力智能基于數(shù)字化底座和智能化引擎,百度智能云深入行業(yè)場(chǎng)景,打造智能應(yīng)用,同時(shí)與生態(tài)伙伴一起,在制造、能源、城市、金融、醫(yī)療、媒體等領(lǐng)域,助力數(shù)字化云為底座飛槳為核生態(tài)為翼智慧城市智慧城市智能制造智慧金融智慧交通智慧能源智慧醫(yī)療智慧媒體…智能客服智能客服智能推薦智能辦公企業(yè)搜索工業(yè)質(zhì)檢智能創(chuàng)作軟硬一體AI大生產(chǎn)平臺(tái)產(chǎn)業(yè)級(jí)深度學(xué)習(xí)開源開放平臺(tái)大數(shù)據(jù)服務(wù)大數(shù)據(jù)服務(wù)云原生開發(fā)服務(wù)基礎(chǔ)云基礎(chǔ)云存儲(chǔ)計(jì)算地圖服務(wù)地圖服務(wù)安全(圖1.3-1)我們希望以百度智能云為紐帶,聯(lián)合技術(shù)和產(chǎn)業(yè)生態(tài)伙伴,通過開源開放平臺(tái)降低AI開發(fā)的門檻,加快人工智05062020年數(shù)字經(jīng)濟(jì)占GDP比重美英德60%54.3%高收入國(guó)家50.7%發(fā)達(dá)國(guó)家2020年數(shù)字經(jīng)濟(jì)占GDP比重美英德60%54.3%高收入國(guó)家50.7%發(fā)達(dá)國(guó)家38.6%中國(guó)39.2萬億“云智一體”技術(shù)與應(yīng)用解析系列白皮書智2.1數(shù)據(jù)要素成為數(shù)字經(jīng)濟(jì)時(shí)代的新戰(zhàn)略隨著新一輪科技和產(chǎn)業(yè)革命的浪潮席卷而來,特別是大數(shù)據(jù)、人工智能、移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、5G等新一代信息技術(shù)的應(yīng)用,人類進(jìn)入數(shù)字經(jīng)濟(jì)時(shí)代。數(shù)字經(jīng)濟(jì)是以數(shù)字化的知識(shí)和信息作為關(guān)鍵生產(chǎn)要素,以數(shù)字技術(shù)為核心驅(qū)動(dòng)力量,以現(xiàn)代信息網(wǎng)絡(luò)為重要載體,通過數(shù)字技術(shù)與實(shí)體經(jīng)濟(jì)深度融合,不斷提高經(jīng)濟(jì)社會(huì)的數(shù)字2019年,高收入國(guó)家的數(shù)字經(jīng)濟(jì)占GDP比重達(dá)到47.9%,其中發(fā)達(dá)國(guó)家這一比例高達(dá)51.3%,美國(guó)、德國(guó)等國(guó)家則超過60%。中國(guó)信通院發(fā)布的《中國(guó)數(shù)字經(jīng)濟(jì)發(fā)展白皮書(2021)》顯示,2020年我國(guó)數(shù)字經(jīng)濟(jì)規(guī)模達(dá)到39.2萬億元,占GDP比重為38.6%,保持9.7%的高位增長(zhǎng)速度,成為穩(wěn)定經(jīng)濟(jì)增長(zhǎng)的關(guān)鍵動(dòng)力?!笆奈濉币?guī)劃綱要中將“數(shù)字經(jīng)濟(jì)核心產(chǎn)業(yè)增加值占GDP比重”作為創(chuàng)新驅(qū)動(dòng)的關(guān)鍵指標(biāo)之一,并預(yù)期“數(shù)字經(jīng)濟(jì)核心產(chǎn)業(yè)增加值占GDP比重”將從2020年的7.8%上升到2025年的10%,大數(shù)據(jù)將成為驅(qū)動(dòng)未來數(shù)字實(shí)施意見》數(shù)字化轉(zhuǎn)型行動(dòng)方案(2021-2023年)》方案》……(圖2.1-1)在數(shù)字經(jīng)濟(jì)中,數(shù)據(jù)要素是數(shù)字經(jīng)濟(jì)時(shí)代的新戰(zhàn)略資源。2020年,國(guó)務(wù)院發(fā)布了關(guān)于要素市場(chǎng)化配置的指導(dǎo)意和其他生產(chǎn)要素相比,數(shù)據(jù)生產(chǎn)要素有兩個(gè)作用,即創(chuàng)造和放大。創(chuàng)造創(chuàng)新方面,數(shù)據(jù)作為一種新的生產(chǎn)能力,直接驅(qū)動(dòng)了很多新模式、新經(jīng)濟(jì)形態(tài)、新產(chǎn)業(yè)。特別近兩年疫情不斷反復(fù)期間,很多產(chǎn)業(yè)實(shí)現(xiàn)了徹底的數(shù)字化和線上化,而今年大火的“元宇宙”概念,也是數(shù)字化產(chǎn)業(yè)發(fā)展的新方向。放大方面,數(shù)據(jù)要和資本、土地、勞動(dòng)力、技術(shù)等其他生產(chǎn)要素協(xié)同,發(fā)揮乘數(shù)作用,解決供需優(yōu)化、創(chuàng)新價(jià)值鏈流轉(zhuǎn)方式等問題,放大其07有價(jià)值的數(shù)據(jù)資源催生和創(chuàng)造數(shù)字經(jīng)濟(jì)新產(chǎn)業(yè)、新業(yè)態(tài)、新模式有價(jià)值的數(shù)據(jù)資源催生和創(chuàng)造數(shù)字經(jīng)濟(jì)新產(chǎn)業(yè)、新業(yè)態(tài)、新模式數(shù)據(jù)對(duì)其他要素發(fā)揮乘數(shù)作用數(shù)據(jù)對(duì)其他要素發(fā)揮乘數(shù)作用數(shù)據(jù)驅(qū)動(dòng)供需優(yōu)化、創(chuàng)新價(jià)值鏈流轉(zhuǎn)方式放大勞動(dòng)力、資本等要素價(jià)值(圖2.1-2)2.2大數(shù)據(jù)驅(qū)動(dòng)千行百業(yè)數(shù)字化轉(zhuǎn)型和回顧近幾年可以發(fā)現(xiàn),大數(shù)據(jù)已經(jīng)驅(qū)動(dòng)零售、政務(wù)、城市治理、金融、創(chuàng)造業(yè)、教育、醫(yī)療等很多行業(yè),進(jìn)行在零售行業(yè),開店選址對(duì)最終業(yè)務(wù)成功非常關(guān)鍵,結(jié)合大數(shù)據(jù)技術(shù)和目標(biāo)客群定位,實(shí)現(xiàn)精準(zhǔn)智能選址,從源頭降低經(jīng)營(yíng)的不確定性和風(fēng)險(xiǎn);在制造業(yè),以前設(shè)備交付給用戶后,還面臨著維護(hù)售后等運(yùn)營(yíng)問題,結(jié)合大數(shù)據(jù)和物聯(lián)網(wǎng)技術(shù),可以及時(shí)了解設(shè)備狀態(tài),實(shí)現(xiàn)預(yù)測(cè)性維護(hù),大大提升了制造業(yè)的服務(wù)效率和用戶體驗(yàn);在視頻行業(yè),長(zhǎng)、短視頻等信息載體,已經(jīng)實(shí)現(xiàn)了個(gè)性化推薦,這背后也是基于大數(shù)據(jù)技術(shù),提升用戶體驗(yàn),創(chuàng)造通過這些例子可以看到,大數(shù)據(jù)在各行各業(yè)的數(shù)字化轉(zhuǎn)型和業(yè)務(wù)創(chuàng)新里面有非常多的實(shí)踐和案例,驅(qū)動(dòng)著千行(圖2.2-1)08■ ■ 4V特性更凸顯 數(shù)據(jù)安全法規(guī)政策密集出臺(tái)安全合規(guī)數(shù)據(jù)流通和運(yùn)營(yíng)“云智一體”技術(shù)與應(yīng)用解析系列白皮書智2.3大數(shù)據(jù)的未來發(fā)展趨勢(shì)首先,4V特性更凸顯(規(guī)模性-多樣性-實(shí)時(shí)性-價(jià)值型)。隨著5G、IoT等技術(shù)的發(fā)展,以及企業(yè)更加重視數(shù)字化發(fā)展,數(shù)據(jù)總量成指數(shù)級(jí)增長(zhǎng),數(shù)據(jù)價(jià)值密度越來越低。同時(shí),除傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)外,視頻、語音、圖像等海量非結(jié)構(gòu)化數(shù)據(jù)不斷積累,且隨著企業(yè)數(shù)字化程度的提高其次,大數(shù)據(jù)和AI深度融合。AI也是一種數(shù)據(jù)處理技術(shù),它與大數(shù)據(jù)的深度融合,讓數(shù)據(jù)處理更高效,幫助企第三,數(shù)據(jù)安全是生命線。關(guān)于數(shù)據(jù)安全,近幾年國(guó)際和國(guó)內(nèi)范圍內(nèi)都密集出臺(tái)了多個(gè)數(shù)據(jù)安全類法規(guī)。從數(shù)據(jù)安全趨勢(shì)來看,社會(huì)各方在數(shù)據(jù)流通與運(yùn)營(yíng)過程中,數(shù)據(jù)安綜上,新型的數(shù)據(jù)基礎(chǔ)設(shè)施、深度挖掘數(shù)據(jù)價(jià)值,以及保障數(shù)據(jù)安大數(shù)據(jù)和AI深度融合大數(shù)據(jù)和AI深度融合場(chǎng)景繁雜需高效和智能分析(圖2.3-1)2.4企業(yè)構(gòu)建大數(shù)據(jù)平臺(tái)的原則2.4.1成效為先隨著人工智能等新一代信息技術(shù)的發(fā)展,數(shù)據(jù)以指數(shù)級(jí)速度成倍增長(zhǎng),海量數(shù)據(jù)的存儲(chǔ)和計(jì)算帶來了巨大的IT成本和復(fù)雜性。云計(jì)算的發(fā)展有效實(shí)現(xiàn)了企業(yè)IT基礎(chǔ)設(shè)施的彈性靈活性和成本低廉性;而當(dāng)企業(yè)面對(duì)更大規(guī)模、類型更多樣、更實(shí)時(shí)、價(jià)值密度低等數(shù)據(jù)挑戰(zhàn)時(shí),構(gòu)建云原生湖倉數(shù)據(jù)基礎(chǔ)設(shè)施就成為了一種新的有效應(yīng)09該類新型數(shù)據(jù)基礎(chǔ)設(shè)施優(yōu)勢(shì):一是以云為基礎(chǔ),提供彈性低成本的數(shù)據(jù)存儲(chǔ)、按需伸縮的計(jì)算資源;二是以湖倉引擎為架構(gòu),在低成本基礎(chǔ)上保障各種數(shù)據(jù)處理場(chǎng)景中數(shù)據(jù)加工處理靈活性、數(shù)據(jù)分析高性能性、異構(gòu)數(shù)據(jù)源融合分析等特性;三是提供一體化數(shù)據(jù)治理與開發(fā)平臺(tái),以統(tǒng)一元數(shù)據(jù)為抓手,支持?jǐn)?shù)據(jù)集成、治理、開發(fā)、分析、服務(wù)等一站式數(shù)據(jù)服務(wù)。此外,大數(shù)據(jù)領(lǐng)域流傳一句話即“數(shù)據(jù)是資產(chǎn),也是負(fù)債”,衡量企業(yè)大數(shù)據(jù)落地效果,核心還是要看業(yè)務(wù)落地成效,即在繁雜的業(yè)務(wù)場(chǎng)景下能高效實(shí)現(xiàn)數(shù)據(jù)價(jià)值挖掘的能力。AI的大在百度智能云服務(wù)企業(yè)用戶做數(shù)據(jù)應(yīng)用落地過程中,我們發(fā)現(xiàn),幫助企業(yè)構(gòu)建敏捷智能BI、全功能AI開發(fā)平臺(tái),可以更高效地驅(qū)動(dòng)數(shù)據(jù)應(yīng)用落地。綜上,新型的數(shù)據(jù)基礎(chǔ)設(shè)施、深度挖掘數(shù)據(jù)價(jià)值,以及保障數(shù)據(jù)安全,2.4.2治理為要在信息化時(shí)代,信息系統(tǒng)建設(shè)是面向具體業(yè)務(wù)的,例如人力管理建設(shè)-人力資源管理系統(tǒng)、設(shè)備管理建設(shè)-統(tǒng)、項(xiàng)目管理建設(shè)-項(xiàng)目管理系統(tǒng)等。因系統(tǒng)間缺乏關(guān)聯(lián)互助、建設(shè)標(biāo)準(zhǔn)不同,帶來數(shù)據(jù)孤島、標(biāo)準(zhǔn)不一致等問題;而數(shù)據(jù)的全面性、數(shù)據(jù)質(zhì)量、數(shù)據(jù)及時(shí)性與一致性因此,數(shù)據(jù)治理是企業(yè)大數(shù)據(jù)應(yīng)用落地的必要環(huán)節(jié)。數(shù)據(jù)湖架構(gòu)中的數(shù)據(jù)治理工具平臺(tái),可以提高數(shù)據(jù)治理的實(shí)施效率。在數(shù)據(jù)治理的實(shí)施過程中,搭建專業(yè)的實(shí)施班子,做好數(shù)據(jù)資源、IT架構(gòu)、業(yè)務(wù)情況的盤點(diǎn),定好數(shù)據(jù)分類、數(shù)據(jù)模型、數(shù)據(jù)質(zhì)量、應(yīng)用指標(biāo)的標(biāo)準(zhǔn),再實(shí)施數(shù)據(jù)采集、數(shù)據(jù)分層建設(shè),可以有效保障數(shù)據(jù)治理2.4.3安全為本“沒有網(wǎng)絡(luò)安全就沒有國(guó)家安全”?!吨腥A人民共和國(guó)網(wǎng)絡(luò)安全法》、《中華人民共和國(guó)數(shù)據(jù)安全法》、《中華人民共和國(guó)個(gè)人信息保護(hù)法》以及《關(guān)鍵信息基礎(chǔ)設(shè)施安全保護(hù)條例》等多部法律法規(guī)及管理辦法對(duì)行業(yè)提出了規(guī)范性的要求。例如《數(shù)據(jù)安全法》明確要求,“數(shù)據(jù)安全,是指通過采取必要措施,確保數(shù)據(jù)處于有效保護(hù)和合法利用的狀態(tài),以及具備保障持續(xù)安全狀態(tài)的能力”。因此,大數(shù)據(jù)應(yīng)用要以數(shù)據(jù)安全為本,從數(shù)據(jù)全生命周期來看,數(shù)據(jù)安全保障主要包括數(shù)據(jù)資產(chǎn)安全保障、百度智能云提供全棧數(shù)據(jù)安全防護(hù)體系,全力保障數(shù)據(jù)資產(chǎn)不被惡意訪問、數(shù)據(jù)隱私不被非法侵犯,通過業(yè)界領(lǐng)先的網(wǎng)絡(luò)安全技術(shù)、信息安全技術(shù)、隱私計(jì)算技術(shù)等綜合安全能2.4.4持續(xù)運(yùn)營(yíng)要保障數(shù)據(jù)應(yīng)用價(jià)值的持續(xù)性,數(shù)據(jù)資產(chǎn)和應(yīng)用都需要“持續(xù)運(yùn)營(yíng)”。大到產(chǎn)業(yè)、小到每個(gè)具體企業(yè),都具有動(dòng)態(tài)發(fā)展變化性,數(shù)據(jù)和業(yè)務(wù)必然也持續(xù)變化。所以,大數(shù)據(jù)的應(yīng)用落地不是一次性項(xiàng)目,數(shù)據(jù)基礎(chǔ)設(shè)施、數(shù)結(jié)合產(chǎn)業(yè)實(shí)踐不難發(fā)現(xiàn),平臺(tái)化的管理方式可以提高運(yùn)營(yíng)效率,比如建設(shè)數(shù)據(jù)資產(chǎn)管理和運(yùn)營(yíng)平臺(tái),有利于幫此外,運(yùn)營(yíng)過程配套建設(shè)運(yùn)營(yíng)體系比如數(shù)據(jù)覆蓋、數(shù)據(jù)質(zhì)量、數(shù)據(jù)成本、數(shù)據(jù)價(jià)值等,對(duì)于優(yōu)化和指引未來規(guī)產(chǎn)業(yè)實(shí)踐數(shù)據(jù)價(jià)值挖掘平臺(tái)產(chǎn)業(yè)實(shí)踐數(shù)據(jù)價(jià)值挖掘平臺(tái)……數(shù)據(jù)安全防護(hù)體系湖倉數(shù)據(jù)基礎(chǔ)設(shè)施治理開發(fā)湖倉引擎“云智一體”技術(shù)與應(yīng)用解析系列白皮書智2.5百度智能云大數(shù)據(jù)產(chǎn)品架構(gòu)全景圖基于以上原則,百度智能云以云和AI為依托,打造了云智一體的智能大數(shù)據(jù)產(chǎn)品架構(gòu)全景圖,注重實(shí)踐經(jīng)驗(yàn)積累,力爭(zhēng)做到成效為先、治理為要、安全為本、持續(xù)運(yùn)營(yíng),為更多企業(yè)構(gòu)建云智一體的大數(shù)據(jù)技術(shù)與能力體系,實(shí)現(xiàn)對(duì)更大規(guī)模、更多類型、更多源數(shù)據(jù)進(jìn)行處理百度智能云大數(shù)據(jù)產(chǎn)品架構(gòu)全景圖共三層:底層,通過湖倉數(shù)據(jù)基礎(chǔ)設(shè)施為企業(yè)提供數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)開發(fā)等能力;中層,數(shù)據(jù)價(jià)值挖掘平臺(tái)充分利用百度智能大數(shù)據(jù)技術(shù),實(shí)現(xiàn)企業(yè)數(shù)據(jù)資產(chǎn)價(jià)值最大化;頂層,則基于底層和中層的技術(shù),幫助各行各業(yè)落地大數(shù)據(jù)應(yīng)全功能AI開發(fā)全功能AI開發(fā)平臺(tái)BML運(yùn)營(yíng)DAMPSugarBI數(shù)據(jù)湖管理與分析數(shù)據(jù)湖管理與分析EasyDAP托管大數(shù)據(jù)平臺(tái)托管大數(shù)據(jù)平臺(tái)BMRCRUDMPP架構(gòu)BSCBLSBES…對(duì)象存儲(chǔ)對(duì)象存儲(chǔ)BOS(圖2.5-1)湖倉數(shù)據(jù)基礎(chǔ)設(shè)施湖倉數(shù)據(jù)基礎(chǔ)設(shè)施治理開發(fā)湖倉引擎“云智一體”技術(shù)與應(yīng)用解析系列白皮書智隨著企業(yè)數(shù)字化轉(zhuǎn)型加速,企業(yè)日常運(yùn)營(yíng)中產(chǎn)生的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),且數(shù)據(jù)類型更加多樣化,數(shù)據(jù)的應(yīng)用場(chǎng)景也日益繁雜,以及基于實(shí)時(shí)數(shù)據(jù)的快速?zèng)Q策越來越普及……因此,單一的數(shù)據(jù)倉庫或者數(shù)據(jù)湖解決方案滿足不了用戶對(duì)數(shù)據(jù)挖掘和使用的需求,湖倉一體架構(gòu)成為云原數(shù)據(jù)集成數(shù)據(jù)集成數(shù)據(jù)湖管理與分析EasyDAP數(shù)據(jù)服務(wù)數(shù)據(jù)服務(wù)數(shù)據(jù)治理數(shù)據(jù)治理數(shù)據(jù)開發(fā)數(shù)據(jù)開發(fā)數(shù)據(jù)分析數(shù)據(jù)分析統(tǒng)一元數(shù)據(jù)統(tǒng)一元數(shù)據(jù)豐富組件監(jiān)控運(yùn)維托管大數(shù)據(jù)平臺(tái)BMR豐富組件監(jiān)控運(yùn)維集群管理集群管理彈性伸縮彈性伸縮BESBSCBESBSCBLS…物化視圖實(shí)時(shí)CRUD物化視圖實(shí)時(shí)CRUD向量化執(zhí)行向量化執(zhí)行MPPMPP架構(gòu)對(duì)象存儲(chǔ)對(duì)象存儲(chǔ)BOS(圖3-1)百度智能云湖倉一體架構(gòu)的優(yōu)勢(shì)主要體現(xiàn)在:云原生、數(shù)據(jù)湖架3.1云原生大數(shù)據(jù)處理技術(shù)廣泛應(yīng)用于各個(gè)行業(yè),為業(yè)務(wù)解決海量存儲(chǔ)和海量分析需求,數(shù)據(jù)量的爆發(fā)式增長(zhǎng),對(duì)數(shù)據(jù)處理能力、基礎(chǔ)設(shè)施成本、集群運(yùn)維管理提出了更大的挑戰(zhàn)。而云原生天生具有的高效部署、云計(jì)算資源成本和彈性擴(kuò)展等優(yōu)勢(shì),百度智能云大數(shù)據(jù)平臺(tái)提供云原生架構(gòu)的大數(shù)據(jù)集群服務(wù),直接選型公有云大數(shù)據(jù)產(chǎn)品,即3.1.1按需創(chuàng)建在百度智能云上,通過界面化點(diǎn)選的操作方式,即可根據(jù)業(yè)務(wù)場(chǎng)景可視化創(chuàng)建適合業(yè)務(wù)數(shù)據(jù)處理場(chǎng)景的BMR開源大數(shù)據(jù)處理集群、百度數(shù)據(jù)倉庫、BES集群等。例如,在百度智能云創(chuàng)建BMR大數(shù)據(jù)處理集群,可按組件如HDFS、Spark、Hive、Flink、Clickhouse等,同時(shí)提供不同組件版本的選擇,平臺(tái)自動(dòng)進(jìn)行組件參數(shù)推薦;按需配置集群套餐類型、集群節(jié)點(diǎn)規(guī)模、集群存儲(chǔ)配置等,配置完3.1.2存算分離構(gòu)弊端逐步顯現(xiàn),比如隨著數(shù)據(jù)量和業(yè)務(wù)激增、資源調(diào)度互相影響、集群故障風(fēng)險(xiǎn)隨著規(guī)模增大而劇增、不同集群數(shù)據(jù)無法共享等,導(dǎo)致系統(tǒng)架構(gòu)的可靠性百度智能云云原生湖倉通過先進(jìn)的計(jì)算存儲(chǔ)分離架構(gòu),實(shí)現(xiàn)了計(jì)算資源和存儲(chǔ)資源的靈活擴(kuò)展,解決了數(shù)據(jù)同步的延時(shí)問題,并提升了計(jì)算橫向擴(kuò)展能力。表現(xiàn)在:集群因不可抗力出現(xiàn)異常時(shí)可快速恢復(fù),可用性更高;數(shù)據(jù)存儲(chǔ)更可靠,支持多組件數(shù)據(jù)掛載BOS對(duì)象存儲(chǔ),存儲(chǔ)靈活,可彈性擴(kuò)展,更方便,按需歸檔;集群節(jié)點(diǎn)靈活選配CDS云盤,多副本保證數(shù)據(jù)可靠不丟失。相比存算一體架構(gòu),這種計(jì)算存儲(chǔ)分離架構(gòu)更能兼顧性能、存算分離架構(gòu),更高效、便宜集群節(jié)點(diǎn)靈活選配集群節(jié)點(diǎn)靈活選配CDS云盤多組件數(shù)據(jù)存儲(chǔ)支持掛載多組件數(shù)據(jù)存儲(chǔ)支持掛載BOS對(duì)象存儲(chǔ)AlluxioAlluxio等性能優(yōu)化結(jié)合結(jié)合BOS多層數(shù)據(jù)類型自動(dòng)沉降(圖3.1.2-1)3.1.3彈性擴(kuò)縮容通過智能彈性伸縮,可以根據(jù)作業(yè)負(fù)載情況或業(yè)務(wù)周期時(shí)間,自動(dòng)增減計(jì)算資源,不用為閑置的計(jì)算資源付費(fèi),降低用戶成本。既可以基于場(chǎng)景按時(shí)間維度自由定制擴(kuò)縮容規(guī)則,也可以根據(jù)CPU使用量、作業(yè)延遲度等云原生-彈性擴(kuò)縮容智能彈性伸縮,更高性價(jià)比基于場(chǎng)景按時(shí)間自由定制擴(kuò)縮容√時(shí)間點(diǎn)√周期自定義規(guī)則,彈性擴(kuò)縮容√CPU√作業(yè)延遲等智能分析,動(dòng)態(tài)擴(kuò)縮容普通節(jié)點(diǎn)到競(jìng)價(jià)實(shí)例都支持某公司上線BMR彈性伸縮后,成本下降40%(圖3.1.3-1)14HueJupyterZepplin數(shù)據(jù)開發(fā)HBASEKuduESTSDBPALO在線存儲(chǔ)/OpDBMLFlowHueJupyterZepplin數(shù)據(jù)開發(fā)HBASEKuduESTSDBPALO在線存儲(chǔ)/OpDBMLFlowTF/MXNET/PPSk-learn數(shù)據(jù)科學(xué)與高級(jí)分析資源調(diào)度體系YARNK8SKafkaSqoopFlumeNIFI數(shù)據(jù)接入“云智一體”技術(shù)與應(yīng)用解析系列白皮書智3.1.4運(yùn)維托管提供全托管服務(wù),用戶只需專注于業(yè)務(wù)開發(fā),無需關(guān)注部署運(yùn)維,提供SLA保障、24小時(shí)技術(shù)專家支持、實(shí)時(shí)可視3.2數(shù)據(jù)湖架構(gòu)數(shù)據(jù)在以指數(shù)級(jí)增長(zhǎng)的同時(shí),還逐漸呈現(xiàn)出類型更多樣、更實(shí)時(shí)、價(jià)值密度低等特點(diǎn),這些挑戰(zhàn)加大企業(yè)IT設(shè)施的成本和復(fù)雜性,湖倉一體架構(gòu)成為云原生時(shí)代數(shù)據(jù)架構(gòu)演變的必然趨勢(shì)。百度智能云大數(shù)據(jù)平臺(tái)數(shù)據(jù)湖架通過BOS數(shù)據(jù)湖支持低成本存儲(chǔ)任意規(guī)模結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);提供豐富的數(shù)據(jù)湖分析引擎,滿足不同業(yè)務(wù)場(chǎng)景的數(shù)據(jù)分析需求,同時(shí)基于元數(shù)據(jù)的統(tǒng)一管理,支持?jǐn)?shù)據(jù)湖分析、跨數(shù)據(jù)源聯(lián)邦分析,為用戶提供全面的管理控運(yùn)維HMS管控HMSAmbariAmbariGangliaGangliaAduit安全AduitRangerRangerKerberos元數(shù)據(jù)元數(shù)據(jù)Hive-metaAtlas網(wǎng)關(guān)網(wǎng)關(guān)LivyKnox數(shù)據(jù)處理與分析HadoopHadoopHiveHive/TezSparkSparkPrestoPrestoFlinkFlinkBeamBeam資源隔離VMLXCKataCgroup存儲(chǔ)體系HDFSHDFSBOSBOSTaskTaskTempStorageonCDSAlluxio加速(圖3.2-1)高可靠性數(shù)據(jù)可靠性12個(gè)9高可靠性數(shù)據(jù)可靠性12個(gè)9服務(wù)可用性99.95%極具性價(jià)比6級(jí)分級(jí)存儲(chǔ)體系智能生命周期管理國(guó)內(nèi)最早磁帶介質(zhì)歸檔存儲(chǔ)行業(yè)首發(fā)智能存儲(chǔ)·AI+Picture:智能圖像處理AI+Video:音視頻處理能力·AI+Data:大數(shù)據(jù)存儲(chǔ),云端數(shù)據(jù)分析3.2.1BOS數(shù)據(jù)湖存儲(chǔ)百度智能云BOS,提供穩(wěn)定、安全、高效、高可擴(kuò)展的云存儲(chǔ)服務(wù)。用戶可以將任意數(shù)量和形式的非結(jié)構(gòu)化數(shù)據(jù)存入BOS,并對(duì)數(shù)據(jù)進(jìn)行管理和處置。BOS支持標(biāo)準(zhǔn)、低頻、冷和歸檔等多種存儲(chǔ)方式,滿足多場(chǎng)景存儲(chǔ)需海量規(guī)模。BOS提供超過EB級(jí)別物理空間,數(shù)萬級(jí)別服務(wù)器,萬億級(jí)別文件規(guī)模,規(guī)模業(yè)內(nèi)領(lǐng)先。幫助用戶數(shù)據(jù)快速高效上云,既提供面向離線傳輸?shù)拇疟P傳輸方式,也提供面向在線的CloudFl高可靠性。BOS全面自研且自主可控的冗余存儲(chǔ)架構(gòu),保障數(shù)據(jù)的持久存儲(chǔ)能力,確保用戶業(yè)務(wù)連續(xù)性。數(shù)據(jù)可靠性高達(dá)99.9999999999%(12個(gè)9),數(shù)據(jù)可用性高于99.95%。極具性價(jià)比。BOS提供標(biāo)準(zhǔn)存儲(chǔ)-多AZ、標(biāo)準(zhǔn)存儲(chǔ)、低頻存儲(chǔ)-多AZ、低頻存儲(chǔ)、冷存儲(chǔ)和歸檔存儲(chǔ)等共6級(jí)存儲(chǔ)體系,成本逐級(jí)下降,用戶可根據(jù)數(shù)據(jù)熱度匹配合適的存儲(chǔ)類型,合理控制成本。另外,BOS提供智能的生命周期管理和業(yè)界領(lǐng)先的讀寫性能,滿足用戶行業(yè)首發(fā)智能存儲(chǔ)。針對(duì)視頻、圖像、大容量文件等類型,百度智能云在BOS側(cè)更好地封裝集成了百度相關(guān)的AI能力,包括幾十項(xiàng)圖像的審核能力,以及圖像增強(qiáng)和特效能力,這些特有能力的集成,能夠輕松的降低編碼復(fù)雜度。用戶可以直接通過BOS的事件觸發(fā)框架,在數(shù)據(jù)訪問或者數(shù)據(jù)上傳時(shí),通過統(tǒng)一的接口拓展和調(diào)用這些智能處理能力、及時(shí)得到AI處理的效果,讓數(shù)據(jù)分析和存儲(chǔ)更近,云原生-BOS存儲(chǔ)業(yè)界領(lǐng)先海量規(guī)模EB級(jí)別物理空間數(shù)萬級(jí)別服務(wù)器萬億級(jí)別文件規(guī)模(圖3.2.1-1)16“云智一體”技術(shù)與應(yīng)用解析系列白皮書智3.2.2豐富的數(shù)據(jù)湖分析引擎為滿足數(shù)據(jù)湖數(shù)據(jù)的各種處理場(chǎng)景需求,百度智能云提供豐富的數(shù)據(jù)湖分析引擎,包括:兼容各類開源大數(shù)據(jù)處理分析組件的百度托管大數(shù)據(jù)分析平臺(tái)BMR,提供了Spark、Flink、Hive、Hbase等多種數(shù)據(jù)分析處理引擎;百度數(shù)據(jù)倉庫,專門應(yīng)對(duì)高并發(fā)、低延時(shí)的PB級(jí)實(shí)時(shí)數(shù)據(jù)倉庫分析場(chǎng)景;百度BES全文檢索和分析引擎托管大數(shù)據(jù)分析平臺(tái)BMR百度MapReduce(BMR),定位于組件完備、高性價(jià)比、開源開放的企業(yè)級(jí)托管大數(shù)據(jù)平臺(tái),包括豐富的hadoop生態(tài)組件,如Hadoop、Spark、Hive、Flume、Storm、Flink、Hbase、Druid等,用戶可通過界面儲(chǔ)計(jì)算分離技術(shù)和彈性伸縮技術(shù),確保高可靠的同時(shí),真正幫助用戶做到用時(shí)高效獲取資源、閑時(shí)釋放資源,幫助用戶用低成本獲得最高計(jì)算性能。百度BMR完備大數(shù)據(jù)生態(tài)組件。包括:數(shù)據(jù)集成組件Sqoop、Kafka等,離線計(jì)算組件MapReduce、Tez、Spark等,流式計(jì)算組件Flink等,數(shù)據(jù)倉庫組件Hive、Hbase、Druid等,數(shù)據(jù)分析組件Impala、Presto等,作業(yè)調(diào)度組件Azkaban、Ooize等,安全管理組件Kerberos、Ranger、LDAP等。一鍵創(chuàng)建高效運(yùn)維。根據(jù)模版可視化一鍵創(chuàng)建、開箱即用,支持按需靈活配置,如選組件、選版本、選套餐。此外,全方位可視運(yùn)維,如平臺(tái)運(yùn)行狀態(tài)、作業(yè)執(zhí)行分析、資源使用監(jiān)控、多租戶配置管理、監(jiān)控報(bào)警配置智能彈性擴(kuò)縮。通過智能彈性伸縮,可以根據(jù)作業(yè)負(fù)載情況或業(yè)務(wù)周期時(shí)間,自動(dòng)增減計(jì)算資源,不會(huì)為閑置的計(jì)算資源付費(fèi),降低用戶成本。支持基于場(chǎng)景按時(shí)間自由定制伸縮規(guī)則,如指定時(shí)間點(diǎn)、按天、周、月等周期配置。自定義規(guī)則,彈性伸縮如根據(jù)CPU負(fù)載指標(biāo)、作業(yè)延遲指標(biāo)、自定義指標(biāo)依據(jù)等。存算分離。通過先進(jìn)的計(jì)算存儲(chǔ)分離架構(gòu),集群不可抗力異常時(shí)可快速恢復(fù),可用性更高;數(shù)據(jù)存儲(chǔ)更可靠,多層級(jí)、全方位安全機(jī)制。BMR提供多層級(jí)的安全機(jī)制保障集群平臺(tái)和數(shù)據(jù)的安全。基礎(chǔ)架構(gòu)上,用戶基于BMR創(chuàng)建的大數(shù)據(jù)基礎(chǔ)平臺(tái)運(yùn)行在獨(dú)立的VPC網(wǎng)絡(luò)環(huán)境下,從網(wǎng)絡(luò)上進(jìn)行隔離,并支持用戶主機(jī)安全審計(jì)。提供Kerberos和Ranger組件,為用戶提供基于用戶身份、作業(yè)提交和資源使用,以及數(shù)據(jù)訪問的認(rèn)證和鑒權(quán),百度數(shù)據(jù)倉庫是基于ApacheDoris(百度捐贈(zèng))構(gòu)建的企業(yè)級(jí)MPP數(shù)據(jù)倉庫,專門應(yīng)對(duì)高并發(fā)、低延時(shí)的PB級(jí)實(shí)時(shí)數(shù)據(jù)倉庫使用場(chǎng)景,全面兼容MySQL協(xié)議,可以針對(duì)億萬級(jí)數(shù)據(jù)實(shí)現(xiàn)毫秒級(jí)多維分析透視和業(yè)務(wù)探查。在架構(gòu)上來看,百度數(shù)據(jù)倉庫與常見的分布式存儲(chǔ)系統(tǒng)的架構(gòu)有些不同,主要有FE(Frontend)和BE(Backend)這兩類系統(tǒng)進(jìn)程,其中FE可以理解為百度數(shù)據(jù)倉庫的管控節(jié)點(diǎn),主要負(fù)責(zé)用戶請(qǐng)求的介入、查詢計(jì)劃的解析、元數(shù)據(jù)的存儲(chǔ)以及集群管理等工作,BE主要負(fù)責(zé)數(shù)據(jù)存儲(chǔ)以及查詢計(jì)劃的執(zhí)行,這兩類系統(tǒng)進(jìn)程都可以橫向拓展,而不需要依賴任何第三方系統(tǒng)(如HDFS、ZooKeeper等),這樣高度集成的架構(gòu)設(shè)計(jì)也極大簡(jiǎn)化了一款分布式系統(tǒng)的運(yùn)維成本。同時(shí)百度數(shù)據(jù)倉庫在FE進(jìn)程中實(shí)現(xiàn)了MySQL兼容協(xié)議層,這樣用戶通過標(biāo)準(zhǔn)MySQL客戶端或其他各類工具即可便捷連接到百度數(shù)據(jù)倉庫,并且還支持標(biāo)準(zhǔn)SQL語言,不論是簡(jiǎn)單的單表聚合、排序過濾抑或復(fù)雜的多表關(guān)聯(lián)、子查詢、窗口函數(shù)、自定義函數(shù)等,都可以通過SQL快速完使用百度數(shù)據(jù)倉庫時(shí),可以從本地、RDS、BOS、百度智能云MapReduce等導(dǎo)入海量數(shù)據(jù),進(jìn)行大數(shù)據(jù)的多維分析。同時(shí)它還兼容主流BI工具,數(shù)據(jù)分析師可以通過可視化的方式分析和展示數(shù)據(jù),快速獲取洞察以輔助決策。此外,其還提供了全新UI支持,5分鐘上手,即可輕松實(shí)現(xiàn)建庫建表、數(shù)據(jù)導(dǎo)入、數(shù)據(jù)查詢。百度數(shù)據(jù)倉極致性能。采用了現(xiàn)代化MPP架構(gòu),使用高效列式存儲(chǔ)引擎和向量化執(zhí)行引擎,加以智能物化視圖技術(shù),可以實(shí)現(xiàn)極致性能,100臺(tái)集群可達(dá)10wQPS,無并發(fā)瓶頸。簡(jiǎn)單易用。提供標(biāo)準(zhǔn)SQL支持,完全兼容MySQL協(xié)議,同時(shí),靈活的數(shù)據(jù)模型,Join表現(xiàn)優(yōu)秀,并具有在線表流批一體??梢灾С峙亢蛯?shí)時(shí)流式數(shù)據(jù)導(dǎo)入,行級(jí)別數(shù)據(jù)更新/刪除,多版本機(jī)制解決讀寫沖突,導(dǎo)入事務(wù)支持,保證ACID,實(shí)現(xiàn)Exactly-Once語義。極簡(jiǎn)運(yùn)維。運(yùn)維方面,百度數(shù)據(jù)倉庫架構(gòu)高度一體,無任何外部組件依賴,集群規(guī)模彈性伸縮,任何節(jié)點(diǎn)可線高可用性。對(duì)數(shù)據(jù)庫而言,最核心的宗旨就是要穩(wěn)定。百度數(shù)據(jù)倉庫在穩(wěn)定性方面,做到了主節(jié)點(diǎn)高可用,數(shù)據(jù)多副本存儲(chǔ),節(jié)點(diǎn)故障自動(dòng)副本遷移,自開放生態(tài)。百度數(shù)據(jù)倉庫源自百度開源并捐贈(zèng)的ApacheDoris,核心代碼全部對(duì)外開放,有近200名開發(fā)者曾為項(xiàng)目貢獻(xiàn)代碼;可以與主流大數(shù)據(jù)生態(tài),比如數(shù)據(jù)源端的BOS/HDFS/Kafka等數(shù)據(jù)無縫導(dǎo)入、與Spark進(jìn)行聯(lián)邦數(shù)據(jù)分析、為ES提供分布式SQL查詢,以及與主流BI工具進(jìn)行適配。極致性能簡(jiǎn)單易用流批一體極簡(jiǎn)運(yùn)維高可用性開源生態(tài)(圖3.2.2-1)18云磁盤、數(shù)據(jù)安全冷熱存儲(chǔ)分離,成本降低基于Kibana云磁盤、數(shù)據(jù)安全冷熱存儲(chǔ)分離,成本降低基于Kibana“云智一體”技術(shù)與應(yīng)用解析系列白皮書智百度Elasticsearch百度Elasticsearch(BES)是開源的全文檢索和分析引擎Elasticsearch的托管服務(wù),完全兼容開源Elasticsearch功能,同時(shí)內(nèi)置了基于百度NLP技術(shù)的分詞插件,以及即開即用、自動(dòng)運(yùn)維以及豐富的監(jiān)控指標(biāo),減少用戶運(yùn)維開銷,幫助用戶快速啟動(dòng)業(yè)務(wù)分析。技術(shù)領(lǐng)先的冷熱數(shù)據(jù)分離能力,幫助用戶減少50%+的存儲(chǔ)成本。同時(shí)具備冷數(shù)據(jù)可查詢功能,用戶使用流程無差異。BES應(yīng)用場(chǎng)景包括:日志分析。利用Elasticsearch+Logstah+Kibana最適合日志分析的組合,輕松實(shí)現(xiàn)日志收集、查詢分析和可企業(yè)搜索。Elasticsearch作為搜索引擎,提供高性能且輕量的搜索能力,常用于企業(yè)內(nèi)搜網(wǎng)站、App應(yīng)用內(nèi)搜可視化運(yùn)維監(jiān)控。Kibana作為Elastic生態(tài)一員,提供強(qiáng)大的可視化能力,全面收集應(yīng)用數(shù)據(jù),支持多種數(shù)據(jù)集文本檢索分析-BES領(lǐng)先的技術(shù)架構(gòu)領(lǐng)先的技術(shù)架構(gòu)豐富的場(chǎng)景豐富的場(chǎng)景特色與優(yōu)勢(shì)特色與優(yōu)勢(shì)BES集群基于百度智能云BCC、CDS、BaiduElasticsearchKibana搜索:隨時(shí)隨地搜索任何內(nèi)容企業(yè)內(nèi)搜網(wǎng)站、App應(yīng)用內(nèi)搜索、電商店鋪等搜索,輕松快速構(gòu)建強(qiáng)大、高效的搜索體驗(yàn)BLBBLB部署VPC隔離、熱遷移、彈性伸縮無感知內(nèi)核優(yōu)化,冷熱存儲(chǔ)分離、高性日志分析:充分利用日志價(jià)值能、低成本BES管控平臺(tái)利用Elasticsearch+Logstah+Kibana最適合日志分析的組合,輕松實(shí)現(xiàn)日志收集、查詢分析和可視化80%新建刪除定時(shí)調(diào)度索引置冷數(shù)據(jù)量觀測(cè)NLP技術(shù)結(jié)合領(lǐng)先的百度領(lǐng)先的百度NLP技術(shù)、高效中文分詞、智能權(quán)重識(shí)別基于BOS冷熱數(shù)據(jù)分離可視化運(yùn)維監(jiān)測(cè):全面管理應(yīng)用BES管控平臺(tái)熱數(shù)據(jù)熱數(shù)據(jù)SSD充分利用的可視化能力,全面收集應(yīng)用數(shù)據(jù),支持多種數(shù)據(jù)集群自動(dòng)部署、啟停,高效率運(yùn)維管理冷數(shù)據(jù)冷數(shù)據(jù)BOS集成,豐富的可視化圖表功能,隨時(shí)掌握應(yīng)用狀態(tài)調(diào)度管理能力,數(shù)據(jù)自動(dòng)置冷插件管理、自定義插件安裝(圖3.2.2-2)193.3一體化平臺(tái)根據(jù)相關(guān)機(jī)構(gòu)的調(diào)研顯示,大數(shù)據(jù)已成為數(shù)字化轉(zhuǎn)型戰(zhàn)略第一要?jiǎng)?wù)。企業(yè)要數(shù)字化轉(zhuǎn)型,需要利用大數(shù)據(jù)技術(shù)來構(gòu)建有價(jià)值的數(shù)據(jù)資產(chǎn),并通過各種大數(shù)據(jù)分析技術(shù),基于業(yè)務(wù)場(chǎng)景來進(jìn)行數(shù)據(jù)分析,破解企業(yè)生產(chǎn)經(jīng)營(yíng)中的應(yīng)用難題,實(shí)現(xiàn)業(yè)務(wù)的轉(zhuǎn)型和創(chuàng)新。而大數(shù)據(jù)技術(shù)的復(fù)雜性、多樣性、技術(shù)迭代等特性,為企業(yè)數(shù)字化轉(zhuǎn)型3D打印AR/VR機(jī)器人區(qū)塊鏈邊緣技術(shù)新一代安全 社交媒體 移動(dòng)技術(shù) 人工智能云基礎(chǔ)設(shè)施物聯(lián)網(wǎng)大數(shù)據(jù)與分析6002030亞太4050全球數(shù)據(jù)來源:中國(guó)大數(shù)據(jù)平臺(tái)市場(chǎng)研究報(bào)告-2020,IDC(圖3.3-1)百度智能云大數(shù)據(jù)平臺(tái)提供全場(chǎng)景、低門檻、開放兼容、安全可靠的一站式數(shù)據(jù)管理與分析平臺(tái)EasyDAP。EasyDAP以數(shù)據(jù)流為核心,形成數(shù)據(jù)匯聚、開發(fā)、分析、管理、服務(wù)等一套完整產(chǎn)品體系,并提供簡(jiǎn)易的可視化開發(fā)操作界面,降低使用門檻。此外,其可以無縫對(duì)接主流大數(shù)據(jù)存儲(chǔ)計(jì)算平臺(tái),兼容企業(yè)原有IT系統(tǒng)、技術(shù)棧等,并與百度智能云產(chǎn)品生態(tài)打通,降低數(shù)據(jù)中臺(tái)的建設(shè)成本。同時(shí),還具備資源隔離、權(quán)限控制、審計(jì)日志等安全能力,提高數(shù)據(jù)安全性。EasyDAP功能特性如下:20數(shù)據(jù)源管理各類型數(shù)據(jù)源管理統(tǒng)一元數(shù)據(jù)管理數(shù)據(jù)源管理各類型數(shù)據(jù)源管理統(tǒng)一元數(shù)據(jù)管理數(shù)據(jù)儲(chǔ)存位置管理數(shù)據(jù)資源監(jiān)控分析-主題、庫、表-數(shù)據(jù)源類型-數(shù)據(jù)量表級(jí)鏈?zhǔn)椒治鲎侄渭?jí)血緣分析數(shù)據(jù)溯源數(shù)據(jù)理解數(shù)據(jù)質(zhì)量問題分析數(shù)據(jù)血緣正確性合法性時(shí)效性一致性穩(wěn)定性數(shù)據(jù)標(biāo)準(zhǔn)與質(zhì)量數(shù)據(jù)標(biāo)準(zhǔn)管理數(shù)據(jù)質(zhì)量規(guī)則引擎質(zhì)量報(bào)告自動(dòng)生成相關(guān)性“云智一體”技術(shù)與應(yīng)用解析系列白皮書智3.3.1元數(shù)據(jù)統(tǒng)一管理百度EasyDAP的元數(shù)據(jù)管理通過物理表、映射表的方式,將數(shù)據(jù)采集、開發(fā)、管理、分析所涉及到的企業(yè)各類數(shù)據(jù)源系統(tǒng)、數(shù)據(jù)倉庫、數(shù)據(jù)湖中的相關(guān)元數(shù)據(jù),納入到EasyDAP平臺(tái)進(jìn)行元數(shù)據(jù)統(tǒng)一管理。實(shí)現(xiàn)全域數(shù)據(jù)的高效管理,以滿足數(shù)據(jù)移動(dòng)、數(shù)據(jù)權(quán)限管理、全域數(shù)據(jù)血緣百度EasyDAP的元數(shù)據(jù)管理,支持自定義主題,可靈活定義數(shù)據(jù)的組織結(jié)構(gòu),基于企業(yè)的組織結(jié)構(gòu)、數(shù)據(jù)內(nèi)容進(jìn)行靈活的目錄結(jié)構(gòu)組織。結(jié)合元數(shù)據(jù)統(tǒng)一管理,在EasyDAP上可以實(shí)現(xiàn)數(shù)據(jù)庫、表、行、列級(jí)別的權(quán)限控制。同時(shí),EasyDAP提供MySQL等數(shù)據(jù)源的元數(shù)據(jù)自動(dòng)同步。為保證平臺(tái)的開放性以及適配能力,元數(shù)據(jù)平臺(tái)的核心能力可以通過API方式,對(duì)外開放服務(wù)接口,方便業(yè)務(wù)/數(shù)據(jù)安全自定義數(shù)據(jù)密級(jí)管理自定義數(shù)據(jù)密級(jí)管理支持自定義字段按用戶密級(jí)管理細(xì)粒度數(shù)據(jù)權(quán)限細(xì)粒度數(shù)據(jù)權(quán)限主題、庫、表、行列級(jí)別數(shù)據(jù)權(quán)限數(shù)據(jù)權(quán)限有效期設(shè)置動(dòng)態(tài)數(shù)據(jù)脫敏動(dòng)態(tài)數(shù)據(jù)脫敏內(nèi)置脫敏規(guī)則、自定義脫敏規(guī)則用戶級(jí)脫敏規(guī)則綁定,查詢分析動(dòng)態(tài)脫敏統(tǒng)一身份認(rèn)證、多租戶資源隔離統(tǒng)一身份認(rèn)證、多租戶資源隔離(圖3.3.1-1)3.3.2自動(dòng)數(shù)據(jù)集成在EasyDAP上可以通過兩種方式實(shí)現(xiàn)數(shù)據(jù)的集成同步,即可視化ETL和整庫整表數(shù)據(jù)同步??梢暬疎TL,不需要寫代碼,通過可視拖拽式即可完成數(shù)據(jù)集成流水線創(chuàng)建,支持離線數(shù)據(jù)和實(shí)時(shí)流數(shù)據(jù)集成,離線數(shù)據(jù)同步。同時(shí),支持?jǐn)?shù)據(jù)庫、MPP數(shù)倉、NoSQL、對(duì)象存儲(chǔ)、HDFS分布式文件系統(tǒng)等幾十種異構(gòu)數(shù)據(jù)源的定時(shí)、周期性同步。支持http、kafka源數(shù)據(jù)實(shí)時(shí)流同步到DB、MPP數(shù)倉、NoSQL、對(duì)象存儲(chǔ)、HDFS分布式文件系統(tǒng)等場(chǎng)景數(shù)據(jù)源。針對(duì)場(chǎng)景的數(shù)據(jù)庫、數(shù)據(jù)倉庫到大數(shù)據(jù)平臺(tái)的數(shù)據(jù)同步,EasyDAP提供整庫整表的數(shù)據(jù)集成方式,提升數(shù)據(jù)入湖入倉效率。此外,數(shù)據(jù)庫CDC實(shí)時(shí)同步能力,也在升級(jí)建設(shè)中。3.3.3全流程可視化數(shù)據(jù)治理開發(fā)在企業(yè)數(shù)據(jù)資產(chǎn)建設(shè)和開發(fā)應(yīng)用實(shí)踐中,一般數(shù)據(jù)治理、開發(fā)、實(shí)施不分家。百度EasyDAP提供全流程可視化數(shù)據(jù)標(biāo)準(zhǔn)。支持?jǐn)?shù)據(jù)標(biāo)準(zhǔn)的創(chuàng)建、審核、發(fā)布,用于描述公司層面需共同遵守的數(shù)據(jù)含義和業(yè)務(wù)規(guī)則,同時(shí)支數(shù)據(jù)質(zhì)量。內(nèi)置常見數(shù)據(jù)質(zhì)量規(guī)則引擎和模板,同時(shí)支持自定義數(shù)據(jù)質(zhì)量規(guī)則引擎,可基于需求建設(shè)數(shù)據(jù)質(zhì)量數(shù)據(jù)血緣。支持自定義生成數(shù)據(jù)血緣,同時(shí)支持手動(dòng)填報(bào),數(shù)據(jù)安全。支持庫、表、行、列級(jí)別的數(shù)據(jù)實(shí)時(shí)開發(fā)。實(shí)時(shí)流開發(fā)場(chǎng)景下,平臺(tái)集成了Spark-streaming、Flink等多種流計(jì)算引擎,支持簡(jiǎn)易的在線SQL、自定義Jar程序等開發(fā)模式,以及高吞吐低延遲的實(shí)時(shí)計(jì)算、全方位多角度的監(jiān)控告警機(jī)制等。3.3.4數(shù)據(jù)湖分析提供數(shù)據(jù)湖分析能力,支持交互式分析多類型數(shù)據(jù)源數(shù)據(jù)、支持跨數(shù)據(jù)源聯(lián)邦分析等能力,數(shù)據(jù)源類型包括但不限于HDFS,BOS對(duì)象存儲(chǔ),RDBMS,NoSQL,MPP等。具體特性如下:易用高效。支持PB級(jí)數(shù)據(jù)高并發(fā)實(shí)時(shí)寫入、實(shí)時(shí)查詢,完全兼容PostgreSQL協(xié)議??缭绰?lián)邦分析。直接分析RDS、PALO、BMR-Hbase、BOS、BMR-Hive、BMR-HDFS的數(shù)據(jù)。優(yōu)化分析。提供SQL耗時(shí)、掃描數(shù)據(jù)量等分析,指導(dǎo)優(yōu)化。22采集解壓解密傳輸+清洗加密+壓縮采集解壓解密傳輸+清洗加密+壓縮“云智一體”技術(shù)與應(yīng)用解析系列白皮書智3.4成功實(shí)踐度小滿是一家成立于2015年的金融科技公司,其前身為百度金融,2018年完成拆分實(shí)現(xiàn)獨(dú)立運(yùn)營(yíng),在獨(dú)立運(yùn)營(yíng)之初構(gòu)建了基于IDC物理機(jī)房的日志系統(tǒng)。2020年,度小滿開啟上云進(jìn)程,由百度智能云提供云服務(wù),同時(shí)對(duì)在改進(jìn)之前,度小滿日志系統(tǒng)檢索相關(guān)的架構(gòu),對(duì)高低頻數(shù)據(jù)進(jìn)行了分層存儲(chǔ),對(duì)于高頻數(shù)據(jù)需求是基于SSD的ES落地的,對(duì)于低頻的數(shù)據(jù)需求,則是基于對(duì)象存儲(chǔ)的Hive來進(jìn)行落地的?;贓S&Hive的日志檢索框架應(yīng)用日志應(yīng)用日志訪問日志訪問日志主機(jī)安全日志主機(jī)安全日志JDBCMySQLMySQLOracleOracleHTTPRestRestAPI消息隊(duì)列熱數(shù)據(jù)層熱數(shù)據(jù)層基于SSD的ES溫?cái)?shù)據(jù)層溫?cái)?shù)據(jù)層HiveonBOSBOS對(duì)象存儲(chǔ)BOS對(duì)象存儲(chǔ)冷數(shù)據(jù)層(圖3.4-1)可檢索數(shù)據(jù)可檢索數(shù)據(jù)全文檢索安全審計(jì)BI大盤異常發(fā)現(xiàn)1至10年該架構(gòu)痛點(diǎn):一是隨著數(shù)據(jù)量逐步上漲,基于SSD的ES存儲(chǔ)成本升高,熱數(shù)據(jù)只能保留7天;二是溫?cái)?shù)據(jù)層的hive檢索框架,下游業(yè)務(wù)采用模糊查找檢索,速度較慢,通常需要半小時(shí)甚至更長(zhǎng)時(shí)間;三是數(shù)據(jù)加溫過程針對(duì)以上痛點(diǎn),百度智能云為度小滿搭建了基于BES的日志檢索框架。在數(shù)字采集、傳輸、清洗等日志場(chǎng)景基本保持不變的前提下,度小滿基于BES的冷熱分離架構(gòu),用BES熱數(shù)據(jù)能力替代基于SSD的ES,用BES冷數(shù)23采集傳輸清洗加密壓縮采集傳輸清洗加密壓縮基于BES的日志檢索框架應(yīng)用日志應(yīng)用日志訪問日志訪問日志主機(jī)安全日志主機(jī)安全日志JDBCMySQLMySQLOracleOracleHTTPRestRestAPI消息隊(duì)列BES基于SSD的熱數(shù)據(jù)層至至3天基于SSD的ESBESBES管控平臺(tái)索引置冷定時(shí)任務(wù)新建/刪除置冷緩存33至30天BES基于BOS的溫?cái)?shù)據(jù)層1至年基于BOS的冷數(shù)據(jù)層可檢索數(shù)據(jù)可檢索數(shù)據(jù)按需恢復(fù)全文檢索安全審計(jì)BI大盤異常發(fā)現(xiàn)HiveonBOS1至30天1至10年(圖3.4-2)寫查速度大幅提升。熱數(shù)據(jù)寫入SSD,導(dǎo)入性能不受影響;TB級(jí)索引,熱數(shù)據(jù)秒級(jí)響應(yīng);溫?cái)?shù)據(jù)檢索時(shí)效由半存儲(chǔ)周期更長(zhǎng)??芍苯颖粰z索數(shù)據(jù),由7天全面升級(jí)為30天,最高可支持180天;得益于存儲(chǔ)周期變長(zhǎng),可被直接檢索數(shù)據(jù)達(dá)到PB級(jí)。資源成本更低。BOS對(duì)象存儲(chǔ)成本是SSD磁盤的13%,存儲(chǔ)成本降低90%;ES資源需求量是之前的1/2;索2425完成數(shù)據(jù)基礎(chǔ)設(shè)施構(gòu)建后,企業(yè)要實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)價(jià)值最大化,需要進(jìn)一步解決數(shù)據(jù)價(jià)值挖掘的問題。數(shù)據(jù)價(jià)值挖掘的第一步,需要把企業(yè)內(nèi)生產(chǎn)、營(yíng)銷、財(cái)務(wù)、人力等各類原始數(shù)據(jù),進(jìn)行治理和挖掘形成數(shù)據(jù)資產(chǎn),并管數(shù)據(jù)資產(chǎn)的價(jià)值當(dāng)前有兩大類:一是商業(yè)智能,二是數(shù)據(jù)科學(xué),前者幫助企業(yè)更好的洞察業(yè)務(wù)的過去,如各類報(bào)表、領(lǐng)導(dǎo)駕駛艙等都屬于這一范疇,后者讓企業(yè)預(yù)為應(yīng)對(duì)業(yè)務(wù)發(fā)展的不確定性,企業(yè)需要利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù),在數(shù)據(jù)科學(xué)領(lǐng)域預(yù)測(cè)未來趨勢(shì),如欺詐檢測(cè)、客戶流失檢測(cè)、預(yù)測(cè)性維護(hù)以及個(gè)性化推薦等。通過智能技術(shù)成本分析成本分析客戶增長(zhǎng)分析商業(yè)智能客戶流失分析收入分析洞察過去預(yù)見未來欺詐檢測(cè)客戶流失檢測(cè)欺詐檢測(cè)個(gè)性化推薦預(yù)測(cè)性維護(hù)個(gè)性化推薦數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)數(shù)據(jù)資產(chǎn)管理與運(yùn)營(yíng)生產(chǎn)數(shù)據(jù)營(yíng)銷數(shù)據(jù)財(cái)務(wù)數(shù)據(jù)......(圖4-1)在數(shù)據(jù)價(jià)值挖掘平臺(tái)方面,百度智能云推出了三大產(chǎn)品,即數(shù)據(jù)資產(chǎn)管理與運(yùn)營(yíng)平臺(tái)DAMP、數(shù)據(jù)可視化SugarBI,以及全功能AI開發(fā)平臺(tái)BML。數(shù)據(jù)資產(chǎn)管理與運(yùn)營(yíng)DAMP資產(chǎn)目錄資產(chǎn)目錄應(yīng)用超市應(yīng)用超市數(shù)據(jù)可視化SugarBI智能圖表生成智能圖表生成智能交互大屏智能交互大屏全功能AI開發(fā)平臺(tái)BML一站式、多開發(fā)場(chǎng)景一站式、多開發(fā)場(chǎng)景AutoMLAutoML&AutoDL(圖4-2)26數(shù)據(jù)安全管理數(shù)據(jù)安全管理應(yīng)用分析數(shù)據(jù)好管理與發(fā)現(xiàn)技術(shù)據(jù)自動(dòng)推薦數(shù)據(jù)好找到DATA“云智一體”技術(shù)與應(yīng)用解析系列白皮書智4.1數(shù)據(jù)資產(chǎn)管理與運(yùn)營(yíng)平臺(tái)DAMP百度智能云通過數(shù)據(jù)資產(chǎn)管理與運(yùn)營(yíng)平臺(tái)DAMP,將各類數(shù)據(jù)經(jīng)過基礎(chǔ)治理后形成的數(shù)據(jù)資產(chǎn)進(jìn)行統(tǒng)一管理,以資產(chǎn)目錄的形式讓企業(yè)內(nèi)部資產(chǎn)更清晰化,同時(shí)通過應(yīng)用超市幫助企業(yè)更好的運(yùn)營(yíng)數(shù)據(jù)資產(chǎn),實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)數(shù)據(jù)資產(chǎn)管理與運(yùn)營(yíng)平臺(tái)DAMP特性數(shù)據(jù)好理解統(tǒng)一標(biāo)準(zhǔn)規(guī)范數(shù)據(jù)好應(yīng)用用分析(圖4.1-1)4.1.1數(shù)據(jù)資產(chǎn)目錄對(duì)有價(jià)值、可分析和應(yīng)用的數(shù)據(jù)做提煉,形成數(shù)據(jù)目錄,并同步管理和展現(xiàn)元數(shù)據(jù)信息、數(shù)據(jù)質(zhì)量、數(shù)據(jù)血緣、數(shù)據(jù)獲取方式等數(shù)據(jù)詳情。通過數(shù)據(jù)資產(chǎn)目錄,方便數(shù)據(jù)分析和應(yīng)用人員高效了解數(shù)據(jù)、找到數(shù)據(jù)、理解4.1.2數(shù)據(jù)在線應(yīng)用工具基于整合多種數(shù)據(jù)源的數(shù)據(jù)資產(chǎn)目錄,為分析師、產(chǎn)品經(jīng)理、運(yùn)營(yíng)人員等提供在線數(shù)據(jù)融合分析功能,打破原有報(bào)表、工具的定制限制,支持零SQL基礎(chǔ)的人員進(jìn)行可視化拼接查詢條件、或直接SQL查詢,提供通用分析此外,數(shù)據(jù)基于業(yè)務(wù)化視角提供業(yè)務(wù)衍生標(biāo)簽的自定義功能,為上層應(yīng)用提供統(tǒng)一的標(biāo)簽數(shù)據(jù)目錄和標(biāo)簽調(diào)用接口,沉淀上層應(yīng)用制作的模型標(biāo)簽,實(shí)現(xiàn)高價(jià)值標(biāo)簽共享復(fù)用。同時(shí),提供標(biāo)簽圈群、群體分析等能力,幫4.1.3數(shù)據(jù)服務(wù)超市以數(shù)據(jù)API形式將形成的數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)標(biāo)簽等對(duì)外開放,提高數(shù)據(jù)的應(yīng)用和流通效率。同時(shí),支持靈活創(chuàng)建、API注冊(cè),并配套提供激勵(lì)機(jī)制,驅(qū)動(dòng)數(shù)據(jù)服務(wù)API市場(chǎng)繁榮。274.1.4數(shù)據(jù)資產(chǎn)看板基于數(shù)據(jù)資產(chǎn)統(tǒng)一管理和運(yùn)營(yíng)角度,直觀分析、展示各類數(shù)據(jù)資產(chǎn)匯聚的覆蓋率、數(shù)據(jù)資產(chǎn)綜合質(zhì)量、數(shù)據(jù)流通應(yīng)用、數(shù)據(jù)資產(chǎn)關(guān)系圖譜等情況,方便數(shù)據(jù)資產(chǎn)管理和運(yùn)營(yíng)者綜合了解企業(yè)的數(shù)據(jù)資產(chǎn)情況,指導(dǎo)數(shù)據(jù)戰(zhàn)略4.2數(shù)據(jù)可視化SugarBI分析和制作可視化數(shù)據(jù)大屏的工具,直連MySQL、本地Excel等各類數(shù)據(jù)源,通過豐富的圖表和拖拽百度SugarBI核心特性直連多數(shù)據(jù)源豐富的圖表和拖拽式編輯炫酷大屏智能交互(圖4.2-1)4.2.1直連多數(shù)據(jù)源SugarBI支持MySQL、SQLServer、PostgreSQL等市場(chǎng)主流數(shù)據(jù)庫都支持,同時(shí)支持本地Excel/CSV文件上傳、API和靜態(tài)JSON數(shù)據(jù)接入,并可通過提供的內(nèi)網(wǎng)隧道功能,安全地訪問企業(yè)內(nèi)網(wǎng)數(shù)據(jù)庫。還可支持來自支持多種數(shù)據(jù)源,類型包括:MySQL、SQLServer、PostgreSQL、Oracle、IBMDB2、SAPHana等,并持續(xù)擴(kuò)充同時(shí)支持本地Excel/CSV文件上傳、API和靜態(tài)JSON數(shù)據(jù)接入,并可通過提供的內(nèi)網(wǎng)隧道功能,安全地訪問您的內(nèi)網(wǎng)數(shù)據(jù)庫支持同源異庫交叉分析與跨源交叉分析(圖4.2.1-1)28“云智一體”技術(shù)與應(yīng)用解析系列白皮書智4.2.2豐富的圖表和拖拽式編輯基于拖拽式編輯來實(shí)現(xiàn)豐富的圖表和大屏內(nèi)容,無需代碼,降低使用B(圖4.2.2-1)4.2.3炫酷大屏與智能交互SugarBI基于領(lǐng)先的人工智能交互技術(shù)、實(shí)現(xiàn)大屏語言交互功能,處于國(guó)內(nèi)領(lǐng)先地位。結(jié)合百度語音識(shí)別、語義解析等多項(xiàng)AI技術(shù),解決信息多、定位難等問題,快速獲取有效數(shù)據(jù)信息 “本周訂單總量是多少”“我要看青海省的數(shù)據(jù)”(圖4.2.3-1)29DATA+AI百度全功能AI開發(fā)平臺(tái)BML,整合大數(shù)據(jù)與AI技術(shù),為智能數(shù)據(jù)挖掘提供全流程開發(fā)支持?jǐn)?shù)據(jù)采集數(shù)據(jù)清洗數(shù)據(jù)擴(kuò)充數(shù)據(jù)標(biāo)注可視化管理數(shù)據(jù)回流數(shù)據(jù)準(zhǔn)備DATA+AI百度全功能AI開發(fā)平臺(tái)BML,整合大數(shù)據(jù)與AI技術(shù),為智能數(shù)據(jù)挖掘提供全流程開發(fā)支持?jǐn)?shù)據(jù)采集數(shù)據(jù)清洗數(shù)據(jù)擴(kuò)充數(shù)據(jù)標(biāo)注可視化管理數(shù)據(jù)回流數(shù)據(jù)準(zhǔn)備模型存儲(chǔ)模型轉(zhuǎn)換模型評(píng)估模型優(yōu)化模型管理公有云部署私有化部署設(shè)備端部署軟硬一體部署模型部署工業(yè)質(zhì)檢安全生產(chǎn)智能硬件零售快消互聯(lián)網(wǎng)……應(yīng)用構(gòu)建圖片文本視頻音頻結(jié)構(gòu)化數(shù)據(jù)4.3全功能AI開發(fā)平臺(tái)BML在數(shù)據(jù)科學(xué)方面,百度智能云通過全功能AI開發(fā)平臺(tái)BML為數(shù)據(jù)科學(xué)場(chǎng)景提供全流程開發(fā)支持,幫助用戶預(yù)測(cè)未來。BML整合了大數(shù)據(jù)和百度AI技術(shù),可以實(shí)現(xiàn)從數(shù)據(jù)源管理、數(shù)據(jù)清洗與擴(kuò)充、數(shù)據(jù)標(biāo)注、數(shù)據(jù)預(yù)處理,到模型構(gòu)建、模型管理與優(yōu)化、預(yù)測(cè)服務(wù)部署、服務(wù)管理與監(jiān)控等全流程能力支撐,降低企業(yè)應(yīng)用數(shù)據(jù)技術(shù)的BML為數(shù)據(jù)科學(xué)提供全流程開發(fā)支持配置管理配置管理流程管理工具流程管理工具監(jiān)控 推理服務(wù) 模型部署 模型評(píng)估 模型訓(xùn)練 參數(shù)調(diào)優(yōu) 模型選擇 特征提取 數(shù)據(jù)獲取機(jī)器資源管理機(jī)器資源管理服務(wù)基礎(chǔ)設(shè)施服務(wù)基礎(chǔ)設(shè)施分析工具分析工具(圖4.3-1)4.3.1BML總體架構(gòu)BML可以訓(xùn)練圖像、視頻、語音等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行深度學(xué)習(xí),還可接入各種結(jié)構(gòu)化數(shù)據(jù)。在數(shù)據(jù)準(zhǔn)備階段提供數(shù)據(jù)分析和模型構(gòu)建,在模型輸出階段提供全功能AI開發(fā)平臺(tái)BML總體架構(gòu)模型構(gòu)建豐富建模方式豐富建模方式超大規(guī)模預(yù)訓(xùn)練模型超大規(guī)模預(yù)訓(xùn)練模型自動(dòng)機(jī)器學(xué)習(xí)/深度學(xué)習(xí)自動(dòng)機(jī)器學(xué)習(xí)/深度學(xué)習(xí)計(jì)算調(diào)度核心計(jì)算調(diào)度核心(圖4.3.1-1)30異構(gòu)算力資源池化管理作業(yè)及工作流調(diào)度系統(tǒng)模型管理與服務(wù)管理豐富的計(jì)算框架支持異構(gòu)算力資源池化管理作業(yè)及工作流調(diào)度系統(tǒng)模型管理與服務(wù)管理豐富的計(jì)算框架支持“云智一體”技術(shù)與應(yīng)用解析系列白皮書智4.3.2BML為數(shù)據(jù)科學(xué)提供的核心功能BML為數(shù)據(jù)科學(xué)提供高效的算力管理和調(diào)度、高性能數(shù)據(jù)科學(xué)引擎、自動(dòng)機(jī)器學(xué)習(xí)、豐富的建模方式四大核心在算力管理和調(diào)度方面,BML提供計(jì)算資源、存儲(chǔ)資源的管理和調(diào)度。在這之上,提供一套作業(yè)執(zhí)行與調(diào)度機(jī)用戶接入RESTAPI命令行客戶端Web管理UI多租戶機(jī)制多租戶機(jī)制認(rèn)證與授權(quán)認(rèn)證與授權(quán)作業(yè)執(zhí)行與服務(wù)部署作業(yè)調(diào)度工作流調(diào)度模型管理服務(wù)管理計(jì)算框架計(jì)算框架資源調(diào)度計(jì)算資源管理與調(diào)度存儲(chǔ)資源管理與調(diào)度計(jì)算資源管理與調(diào)度存儲(chǔ)資源管理與調(diào)度(圖4.3.2-1)在高性能數(shù)據(jù)科學(xué)引擎方面,在數(shù)據(jù)科學(xué)場(chǎng)景下,從業(yè)者更傾向與機(jī)器學(xué)習(xí)強(qiáng)相關(guān)的Pandas/Sk-learn,因此BML提供高度兼容Pandas/Sk-learn接口,面向單機(jī)的數(shù)據(jù)分析和機(jī)器學(xué)習(xí),提供5-10倍的開源工具的數(shù)據(jù)處面向單機(jī)數(shù)據(jù)分析、機(jī)器學(xué)習(xí)5-10倍于開源工具的數(shù)據(jù)處理能力高度兼容Pandas/Sk-learn/SQL接口相比開源工具平均加速6倍+每秒樣本(example/s)2500200015001000500airlinefb__biddingpilot__awarenessnyc__taxiusa__incomeBlackholePandas+Sklearn測(cè)試環(huán)境:CPU28邏輯核,intel(R)Xeon(R);Gold5117CPU@2.00GHz;內(nèi)存:256G;GPU:7卡TeslaP40;顯存:24G;五個(gè)場(chǎng)景取自Kaggle上公開數(shù)據(jù)集(圖4.3.2-2)在自動(dòng)機(jī)器學(xué)習(xí)方面,BML提供自動(dòng)建模工具,實(shí)現(xiàn)從數(shù)據(jù)拆分、訓(xùn)練數(shù)據(jù)集、黑盒優(yōu)化算法、模型訓(xùn)練、效自動(dòng)機(jī)器學(xué)習(xí)典型流程全流程自動(dòng)化組件可插拔可擴(kuò)展多種特征組合選擇結(jié)果方便人工精調(diào)數(shù)據(jù)源 數(shù)據(jù)集 問題識(shí)別 數(shù)據(jù)拆分 訓(xùn)練數(shù)據(jù)集黑盒優(yōu)化算法預(yù)處理選擇預(yù)處理選擇特征選擇特征選擇 模型及融合選擇超參數(shù)選擇超參數(shù)選擇提前停止算法訓(xùn)練模型訓(xùn)練模型 訓(xùn)練模型 產(chǎn)出模型 效果評(píng)估 最優(yōu)解重要優(yōu)化點(diǎn)元學(xué)習(xí)優(yōu)化初始化|提前停止算法剪枝|分布式執(zhí)行架構(gòu)|GPU加速(圖4.3.2-3)在豐富的建模方式方面,BML提供豐富的交互界面、文本編輯器、可視化的拖拉拽、腳本調(diào)參等工具,覆蓋多NotebookNotebook運(yùn)行編輯運(yùn)行編輯優(yōu)化的Notebook開發(fā)環(huán)境代碼代碼算法框架代碼文件啟動(dòng)命令輸出路徑支持多種框架的代碼開發(fā)可視化拖拉拽可視化拖拉拽可視化拖拉拽預(yù)置豐富組件腳本調(diào)參腳本調(diào)參預(yù)訓(xùn)練模型預(yù)訓(xùn)練模型腳本編輯器適合AI初學(xué)者的模型產(chǎn)線開發(fā)(圖4.3.2-4)4.3.3面向行業(yè)的智能數(shù)據(jù)挖掘解決方案金融智能數(shù)據(jù)挖掘解決方案分為三層,底層是金融數(shù)據(jù)挖掘,中層是智能建模工具鏈,其基于BML開發(fā)平臺(tái),工業(yè)智能數(shù)據(jù)挖掘解決方案,基于百度BML為數(shù)據(jù)加工、數(shù)據(jù)分析、模型算法、工業(yè)機(jī)理等流程提供設(shè)備健康32特征工程模型構(gòu)建模型訓(xùn)練人工智能平臺(tái)模型管理模型評(píng)估工業(yè)智能數(shù)據(jù)挖掘模型算法趨勢(shì)分析周期性分析敏感性分析相關(guān)性分析統(tǒng)計(jì)分布分析規(guī)則模型特征工程模型構(gòu)建模型訓(xùn)練人工智能平臺(tái)模型管理模型評(píng)估工業(yè)智能數(shù)據(jù)挖掘模型算法趨勢(shì)分析周期性分析敏感性分析相關(guān)性分析統(tǒng)計(jì)分布分析規(guī)則模型時(shí)間序列模型機(jī)器學(xué)習(xí)模型深度學(xué)習(xí)模型自動(dòng)機(jī)器學(xué)習(xí)設(shè)備健康管理生產(chǎn)過程管控?cái)?shù)據(jù)清洗去噪數(shù)據(jù)變換數(shù)據(jù)融合特征提取生產(chǎn)特征組合工業(yè)機(jī)理基礎(chǔ)理論流程邏輯生產(chǎn)工藝部件參數(shù)故障圖譜百度智能云數(shù)據(jù)與AI平臺(tái)綜合能源管理數(shù)據(jù)加工數(shù)據(jù)分析“云智一體”技術(shù)與應(yīng)用解析系列白皮書智金融智能數(shù)據(jù)挖掘金融智能數(shù)據(jù)挖掘信貸風(fēng)控建模貸前風(fēng)控模型貸前風(fēng)控模型信用評(píng)分模型信用評(píng)分模型保險(xiǎn)風(fēng)控建模營(yíng)銷建模保險(xiǎn)風(fēng)控建模核保出險(xiǎn)預(yù)測(cè)模型理賠反欺詐模型營(yíng)銷模型核保出險(xiǎn)預(yù)測(cè)模型理賠反欺詐模型智能建模工具鏈模型預(yù)測(cè)智能建模工具鏈模型解釋模型評(píng)估模型訓(xùn)練特征工程特征初篩數(shù)據(jù)洞察樣本選取畫像基礎(chǔ)特征詞包趨勢(shì)特征風(fēng)險(xiǎn)設(shè)備畫像基礎(chǔ)特征詞包趨勢(shì)特征風(fēng)險(xiǎn)設(shè)備特征畫像趨勢(shì)特征風(fēng)險(xiǎn)詞包特征風(fēng)險(xiǎn)定位特征風(fēng)險(xiǎn)行為風(fēng)險(xiǎn)行為特征風(fēng)險(xiǎn)風(fēng)險(xiǎn)APP特征百度智能云數(shù)據(jù)與百度智能云數(shù)據(jù)與AI平臺(tái)(圖4.3.3-1)4.4智能數(shù)據(jù)挖掘成功實(shí)踐4.4.1郵儲(chǔ)大腦機(jī)器學(xué)習(xí)平臺(tái)中國(guó)郵政儲(chǔ)蓄可追溯至1919年開辦的郵政儲(chǔ)金業(yè)務(wù),至今已有百年歷史。2007年,中國(guó)郵政儲(chǔ)蓄銀行有限責(zé)任次支撐平臺(tái),包括全功能底層、垂類AI場(chǎng)景以及AI能力;二是形成數(shù)據(jù)建設(shè)、構(gòu)建模型、模型應(yīng)用和應(yīng)用數(shù)據(jù)1、面向不同需求層次的技術(shù)支撐平臺(tái)開箱即用開箱即用AI能力無需進(jìn)行模型建模,直接調(diào)用AI能力即可為業(yè)務(wù)賦能提供模型編排的能力,靈活應(yīng)對(duì)業(yè)務(wù)訴求零門檻AI垂類平臺(tái)將業(yè)務(wù)場(chǎng)景做抽象沉淀,根據(jù)業(yè)務(wù)零門檻AI垂類平臺(tái)全功能全功能AI平臺(tái)滿足各種不同業(yè)務(wù)靈活建模,升級(jí)數(shù)據(jù)處理引擎,低門檻處理大規(guī)模數(shù)據(jù)2、全生命周期人工智能能力閉環(huán)數(shù)據(jù)完善數(shù)據(jù)建設(shè),挖掘數(shù)據(jù)價(jià)值模型研發(fā)過程審計(jì),沉淀模型資產(chǎn)數(shù)據(jù)數(shù)據(jù)處理數(shù)據(jù)數(shù)據(jù)接入服務(wù)服務(wù)部署應(yīng)用應(yīng)用開箱即用,隨用隨有(圖4.4.1-1)33全行統(tǒng)一的人工智能平臺(tái)完善的安全機(jī)制科學(xué)的管理體系實(shí)現(xiàn)全生命周期支持滿足合規(guī)管理要求提升智能化賦能效率√數(shù)百模型訓(xùn)練任務(wù)、預(yù)測(cè)服務(wù)同時(shí)運(yùn)行及部署√14億行、800多維大規(guī)模數(shù)據(jù)訓(xùn)練√相同模型訓(xùn)練更新周期從月級(jí)縮短到小時(shí)級(jí)√圖像模型部署擴(kuò)容從天級(jí)縮短至秒級(jí)百度智能云聯(lián)合郵儲(chǔ)銀行,構(gòu)建全行級(jí)人工智能平臺(tái),完善整體能力建設(shè)、技術(shù)積累和AI人才培養(yǎng)。在賦能效率方面,每天可運(yùn)行數(shù)百個(gè)模型訓(xùn)練與預(yù)估服務(wù),可實(shí)現(xiàn)14億行、80多個(gè)維度的大規(guī)模數(shù)據(jù)訓(xùn)練,更新周期從構(gòu)建全行級(jí)的人工智能平臺(tái),滿足業(yè)務(wù)需求構(gòu)建全行級(jí)的人工智能平臺(tái),滿足業(yè)務(wù)需求推動(dòng)人工智能的能力建設(shè)、技術(shù)積累和AI人才團(tuán)隊(duì)培養(yǎng)業(yè)務(wù)應(yīng)用智能營(yíng)銷智能營(yíng)銷智能風(fēng)控智能風(fēng)控智慧運(yùn)營(yíng)智慧運(yùn)營(yíng)智慧服務(wù)智慧服務(wù)郵儲(chǔ)大腦OCR視頻感知/認(rèn)知智能OCR視頻NLPNLP圖像圖像數(shù)據(jù)智能風(fēng)控模型風(fēng)控模型理財(cái)產(chǎn)品推薦模型產(chǎn)品定價(jià)模型其他反欺詐模型精準(zhǔn)營(yíng)銷模型模型構(gòu)建、納管&服務(wù)支撐模型構(gòu)建、納管&服務(wù)支撐模型管理 數(shù)據(jù)處理模型訓(xùn)練預(yù)測(cè)服務(wù)數(shù)據(jù)資源數(shù)據(jù)交換平臺(tái)數(shù)據(jù)交換平臺(tái)數(shù)據(jù)實(shí)驗(yàn)室數(shù)據(jù)實(shí)驗(yàn)室IT基礎(chǔ)資源GPUGPU集群CPUCPU集群存儲(chǔ)集群存儲(chǔ)集群(圖4.4.1-2)4.4.2某集團(tuán)研發(fā)中心設(shè)備健康管理系統(tǒng)某集團(tuán)研發(fā)中心屬于軌道交通領(lǐng)域的一家車輛主機(jī)廠,基本業(yè)務(wù)包括整車以及關(guān)鍵部件智能運(yùn)維檢測(cè)服務(wù),支2019年中央發(fā)布了交通強(qiáng)國(guó)的建設(shè)綱要,2020年中國(guó)城市軌道交通協(xié)會(huì)也發(fā)布了智慧城軌發(fā)展綱要,這兩項(xiàng)政策性的綱要都提到要盡快引入人工智能等先進(jìn)技術(shù),加快推動(dòng)產(chǎn)業(yè)的升級(jí),這為該研發(fā)中心的業(yè)務(wù)發(fā)展提供了截止2022年4月,國(guó)內(nèi)已有45個(gè)城市200多條共計(jì)7500多公里的地鐵線路;城鐵快速發(fā)展背后是傳統(tǒng)運(yùn)維模式所帶來的矛盾日益凸顯,帶來運(yùn)營(yíng)運(yùn)維成本日益增大。相關(guān)機(jī)構(gòu)預(yù)測(cè)“需要在未來的50年投入等同于現(xiàn)有資產(chǎn)3倍價(jià)值的運(yùn)維費(fèi)用,才能保持現(xiàn)有的運(yùn)營(yíng)表現(xiàn)”。這是很大運(yùn)維壓力,也同樣是一個(gè)重大機(jī)會(huì),基于現(xiàn)有環(huán)境和壓力情況,很多地鐵業(yè)主在探索檢修模式的轉(zhuǎn)變,比較典型的就是從傳統(tǒng)的計(jì)劃修、故障修、定期維修,轉(zhuǎn)為了響應(yīng)這種轉(zhuǎn)變需求,該研發(fā)中心提出了包括狀態(tài)檢測(cè)、健康評(píng)估、壽命預(yù)測(cè)及延壽評(píng)估等業(yè)務(wù),覆蓋設(shè)計(jì)、運(yùn)營(yíng)和報(bào)廢等階段的全生命周期智能運(yùn)維技術(shù)服務(wù)。這種運(yùn)維服務(wù)橫跨整車多個(gè)維度,將整車業(yè)務(wù)需求逐層分解,從整車分解到關(guān)鍵系統(tǒng),再到關(guān)鍵部件和節(jié)點(diǎn),逐步突破,化整為零,降低運(yùn)營(yíng)故障率和運(yùn)維成本,34車門電機(jī)故障預(yù)測(cè)限位開關(guān)故障預(yù)測(cè)絲杠潤(rùn)滑故障預(yù)測(cè)空調(diào)車內(nèi)舒適度監(jiān)測(cè)壓縮機(jī)故障預(yù)測(cè)濾網(wǎng)臟堵預(yù)測(cè)換熱器臟堵預(yù)測(cè)車門牽引輔助電機(jī)故障預(yù)測(cè)電容故障預(yù)測(cè)制動(dòng)車門電機(jī)故障預(yù)測(cè)限位開關(guān)故障預(yù)測(cè)絲杠潤(rùn)滑故障預(yù)測(cè)空調(diào)車內(nèi)舒適度監(jiān)測(cè)壓縮機(jī)故障預(yù)測(cè)濾網(wǎng)臟堵預(yù)測(cè)換熱器臟堵預(yù)測(cè)車門牽引輔助電機(jī)故障預(yù)測(cè)電容故障預(yù)測(cè)制動(dòng)主風(fēng)管漏氣預(yù)測(cè)制動(dòng)缸漏氣預(yù)測(cè)車輛載客量監(jiān)測(cè)走行部軸承故障預(yù)測(cè)輪對(duì)踏面故障預(yù)測(cè)剩余壽命預(yù)測(cè)問題:故障影響大、低頻次目標(biāo):不增加傳感器地鐵業(yè)主運(yùn)營(yíng)承包方維修承包方安全運(yùn)營(yíng)關(guān)鍵指標(biāo)節(jié)省電費(fèi)降低罰款漏檢&扣車“云智一體”技術(shù)與應(yīng)用解析系列白皮書智整車維度、多系統(tǒng)融合降低正線運(yùn)營(yíng)故障降低正線運(yùn)營(yíng)故障優(yōu)化維保成本優(yōu)化維保成本提高乘客滿意度提高乘客滿意度(圖4.4.2-1)業(yè)務(wù)痛點(diǎn):場(chǎng)景應(yīng)用方面,面對(duì)龐大數(shù)據(jù)壓力情況下的數(shù)據(jù)分析能力不足。當(dāng)前每列車每天可產(chǎn)生2G左右的數(shù)據(jù),像上海有7000+輛車(1100多列,按6節(jié)編組估算)、杭州有5000+輛車(800多列,按6節(jié)編組估算),數(shù)據(jù)壓力非常大,傳統(tǒng)數(shù)據(jù)分析能力無法滿足要求;再加上需要做預(yù)測(cè)該研發(fā)中心與百度智能云結(jié)合業(yè)務(wù)多輪溝通之后,共同確定了解決方案,通過探索構(gòu)建設(shè)備健康管理系統(tǒng)支持軌道交通車輛運(yùn)維服務(wù),并參照美國(guó)IMS中心提出的運(yùn)維方式選擇模型,選擇故障影響大且頻次低的項(xiàng)點(diǎn)來研究。同時(shí),該方案還要重點(diǎn)考慮,盡可能充分利用現(xiàn)有車?yán)迷O(shè)備健康管理系統(tǒng),進(jìn)行軌道交通車輛運(yùn)維發(fā)生頻率準(zhǔn)備更多準(zhǔn)備更多備件傳統(tǒng)維護(hù)傳統(tǒng)維護(hù)設(shè)計(jì)問題設(shè)計(jì)問題需要改進(jìn)PHMPHM影響程度資料來源:美國(guó)IMS中心(圖4.4.2-2)35設(shè)備管理調(diào)度計(jì)劃維護(hù)決策業(yè)務(wù)應(yīng)用智能引擎數(shù)據(jù)平臺(tái)通過AI算法識(shí)別壓力變化估算車輛用氣的整體情況,建立智能決策模型,預(yù)測(cè)列車是否漏氣盡早對(duì)車輛進(jìn)行檢修,減少車輛運(yùn)營(yíng)能耗,防止事故的發(fā)生設(shè)備管理調(diào)度計(jì)劃維護(hù)決策業(yè)務(wù)應(yīng)用智能引擎數(shù)據(jù)平臺(tái)通過AI算法識(shí)別壓力變化估算車輛用氣的整體情況,建立智能決策模型,預(yù)測(cè)列車是否漏氣盡早對(duì)車輛進(jìn)行檢修,減少車輛運(yùn)營(yíng)能耗,防止事故的發(fā)生主風(fēng)管狀態(tài)參數(shù)主風(fēng)管氣壓監(jiān)測(cè)制動(dòng)系統(tǒng)狀態(tài)參數(shù)空簧系統(tǒng)狀態(tài)參數(shù)……漏氣預(yù)警車輛用氣量預(yù)測(cè)解決方案的架構(gòu)主要分為三層:一是底層數(shù)據(jù)平臺(tái),二是結(jié)合行業(yè)知識(shí)和百度AI算法設(shè)備預(yù)測(cè)性維護(hù)設(shè)備運(yùn)行狀態(tài)監(jiān)測(cè)設(shè)備故障預(yù)警設(shè)備故障診斷設(shè)備故障診斷預(yù)測(cè)模型預(yù)測(cè)模型百度百度AI開發(fā)平臺(tái)領(lǐng)域?qū)<翌I(lǐng)域?qū)<翌I(lǐng)域知識(shí)圖譜領(lǐng)域知識(shí)圖譜領(lǐng)域知識(shí)庫領(lǐng)域知識(shí)庫百度大數(shù)據(jù)平臺(tái)百度大數(shù)據(jù)平臺(tái)(圖4.4.2-3)簡(jiǎn)單的舉一個(gè)研發(fā)模型應(yīng)用的例子,“制動(dòng)系統(tǒng)主風(fēng)管漏氣預(yù)測(cè)”模型。軌道交通車輛在運(yùn)營(yíng)過程中制動(dòng)裝置、空簧等裝置都需要大量用氣,主風(fēng)管漏氣會(huì)嚴(yán)重影響列車的運(yùn)營(yíng),輕度漏氣會(huì)導(dǎo)致車輛運(yùn)營(yíng)的能耗增加,重度漏氣會(huì)引發(fā)車輛救援事故。模型通過AI算法識(shí)別壓力變化估算車輛用氣的整體情況,建立智能決策模型,預(yù)測(cè)列車是否漏氣,以盡早對(duì)車輛進(jìn)行檢修,減少軌道交通車輛在運(yùn)營(yíng)過程中制動(dòng)裝置、空簧等裝置都需要大量用氣,主風(fēng)管漏氣會(huì)嚴(yán)重影響列車的運(yùn)營(yíng),輕度漏氣會(huì)導(dǎo)致車輛運(yùn)營(yíng)的能耗增加,重度漏氣會(huì)引發(fā)車輛救援事故領(lǐng)域?qū)<翌I(lǐng)域?qū)<遥▓D4.4.2-4)3637根據(jù)興業(yè)證券統(tǒng)計(jì),2019年全球有近6000件數(shù)據(jù)泄漏事件的發(fā)生。一方面數(shù)據(jù)安全事件不斷上升,另一方面整個(gè)社會(huì)都在數(shù)字化,泄漏數(shù)據(jù)的影響也越來越大,數(shù)據(jù)安全事件驅(qū)動(dòng)數(shù)據(jù)安全修改的法律法規(guī)與監(jiān)管政策持續(xù)(次)全球數(shù)據(jù)泄漏事件1000005183388632903261404851833886329032612323200324052323200320122013201420152016201720182019來源:RBS報(bào)告,興業(yè)證券(百萬條)全球數(shù)據(jù)泄漏事件涉及數(shù)據(jù)量100000799537667099376623253964855681070232539620122013201420152016201720182019來源:RBS報(bào)告,興業(yè)證券(條)各年數(shù)據(jù)安全直接相關(guān)政策發(fā)布數(shù)量200123358886201320142015201620172018201920202021(7月)來源:政府網(wǎng)站公告,天風(fēng)證券2009.02.282012.12.282013.02.012013.03.152014.03.15《刑法修正案七》全國(guó)人大常委《關(guān)于《信息安全技術(shù)公共及商用服《征信業(yè)管理?xiàng)l例》《消費(fèi)者權(quán)益保護(hù)法》到《刑法修正案九》加強(qiáng)網(wǎng)絡(luò)信息保護(hù)的決定》務(wù)信息系統(tǒng)個(gè)人信息保護(hù)指南》2016.11.092017.10.012019.05.282019.06.13《網(wǎng)絡(luò)安全法》《民法總則》《數(shù)據(jù)安全管理辦法》《個(gè)人信息出境安全評(píng)估辦法》2019.10.012020.10.012021.01.012021.09.012021.11.01《兒童個(gè)人信息網(wǎng)絡(luò)保護(hù)規(guī)定》《信息安全技術(shù)個(gè)人信息安全規(guī)范》《民法典》(圖5-1)保障數(shù)據(jù)安全。通過采取必要措施,確保數(shù)據(jù)處于有效保護(hù)和合法利用的狀態(tài),以及具備保障持續(xù)安全狀態(tài)的能力。堅(jiān)持總體國(guó)家安全觀,建立健全數(shù)據(jù)安全治促進(jìn)數(shù)據(jù)開發(fā)利用。國(guó)家支持?jǐn)?shù)據(jù)開發(fā)利用和數(shù)據(jù)安全技術(shù)研究,鼓勵(lì)數(shù)據(jù)開發(fā)利用和數(shù)據(jù)安全等領(lǐng)域的技術(shù)維護(hù)國(guó)家利益。維護(hù)國(guó)家主權(quán)、安全和發(fā)展利益,國(guó)家對(duì)與維護(hù)國(guó)家安全和利益、履行國(guó)際義務(wù)相關(guān)的屬于管38采集存儲(chǔ)安全方案共享傳輸存儲(chǔ)識(shí)別使用銷毀?數(shù)據(jù)地圖?自動(dòng)化數(shù)據(jù)密級(jí)標(biāo)識(shí)???采集存儲(chǔ)安全方案共享傳輸存儲(chǔ)識(shí)別使用銷毀?數(shù)據(jù)地圖?自動(dòng)化數(shù)據(jù)密級(jí)標(biāo)識(shí)???“云智一體”技術(shù)與應(yīng)用解析系列白皮書智保護(hù)個(gè)人/組織權(quán)益。國(guó)家保護(hù)個(gè)人、組織與數(shù)據(jù)有關(guān)的權(quán)益,鼓勵(lì)數(shù)據(jù)依法合理有效利用,保障數(shù)據(jù)依法有序提升政務(wù)數(shù)字化能力。數(shù)據(jù)開放能極大的提升政務(wù)數(shù)字化的能提升執(zhí)政透明度。公共數(shù)字資產(chǎn)開放,能極大的推動(dòng)在數(shù)字化時(shí)賦能企業(yè)及公民。數(shù)字資產(chǎn)開放創(chuàng)新,有利于賦能傳統(tǒng)行業(yè)企業(yè)數(shù)字培育增長(zhǎng)新動(dòng)能。利用以數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新為特征的前沿技術(shù),推動(dòng)數(shù)字科技、人工智能、智能制造融合,培育增5.1數(shù)據(jù)安全的落實(shí)規(guī)則5.1.1覆蓋數(shù)據(jù)全生命周期的安全體系數(shù)據(jù)全生命周期包括采集合規(guī)性檢測(cè)和合規(guī)持續(xù)監(jiān)測(cè),數(shù)據(jù)發(fā)現(xiàn)與識(shí)別安全方案(數(shù)據(jù)地圖和自動(dòng)化數(shù)據(jù)密級(jí)標(biāo)識(shí));存儲(chǔ)安全方案(加密存儲(chǔ)、身份認(rèn)證與訪問控制和數(shù)據(jù)存儲(chǔ)安全審計(jì));數(shù)據(jù)使用安全方案(細(xì)顆粒風(fēng)險(xiǎn)事件關(guān)聯(lián)分析取證),傳輸安全方案(軟件定義隔離域、傳輸鏈路SSL加密、數(shù)據(jù)API安全方案和數(shù)據(jù)流轉(zhuǎn)監(jiān)控方案);共享&流通安全方案(安全多方計(jì)算、機(jī)密計(jì)算、聯(lián)邦學(xué)習(xí)、差分隱私、動(dòng)/靜態(tài)數(shù)據(jù)脫敏和數(shù)字水?。约颁N毀安全方案(系統(tǒng)DD、數(shù)據(jù)清理安全方案和物理銷毀方案)等。數(shù)據(jù)合規(guī)?采集合規(guī)性檢測(cè)?采集合規(guī)持續(xù)監(jiān)測(cè)??透明加密存儲(chǔ)?身份認(rèn)證與訪問控制?數(shù)據(jù)存儲(chǔ)安全審計(jì)?軟件定義隔離域?傳輸鏈路SSL加密?數(shù)據(jù)API安全方案?數(shù)據(jù)流轉(zhuǎn)監(jiān)控方案數(shù)據(jù)發(fā)現(xiàn)與識(shí)別安全方案數(shù)據(jù)發(fā)現(xiàn)與識(shí)別安全方案??細(xì)顆粒度數(shù)據(jù)訪問權(quán)限控制差分隱私動(dòng)/靜態(tài)數(shù)據(jù)脫敏Tokenization&Anonymization全鏈路用戶行為分析?系統(tǒng)DD?數(shù)據(jù)清理安全方案?物理銷毀方案??安全多方計(jì)算?機(jī)密計(jì)算?聯(lián)邦學(xué)習(xí)?差分隱私?動(dòng)/靜態(tài)數(shù)據(jù)脫敏?數(shù)字水印?風(fēng)險(xiǎn)事件關(guān)聯(lián)分析取證合規(guī)要素發(fā)展趨勢(shì)(圖5.1.1-1)39有證可查有法可依分割原則分類原則挖掘數(shù)據(jù)賦能企業(yè)安全融合合規(guī)協(xié)作分級(jí)原則數(shù)據(jù)販賣嚴(yán)重侵害個(gè)人隱私有證可查有法可依分割原則分類原則挖掘數(shù)據(jù)賦能企業(yè)安全融合合規(guī)協(xié)作分級(jí)原則數(shù)據(jù)販賣嚴(yán)重侵害個(gè)人隱私高價(jià)特殊敏感數(shù)據(jù)風(fēng)險(xiǎn)大數(shù)據(jù)跨境流動(dòng)的安全隱患面臨外來攻擊威脅加大新技術(shù)催生新型數(shù)據(jù)風(fēng)險(xiǎn)濫用個(gè)人數(shù)據(jù)實(shí)現(xiàn)壁壘5.1.2隱私數(shù)據(jù)的安全保護(hù)閉環(huán)隱私數(shù)據(jù)的安全措施要形成閉環(huán),包括資產(chǎn)集中管控、全面應(yīng)用分析、敏感數(shù)據(jù)資產(chǎn)感知、敏感數(shù)據(jù)防護(hù)、泄露風(fēng)險(xiǎn)攔截和事件審計(jì)溯源等。做好安全保護(hù)閉環(huán)管理,可以避免流程環(huán)節(jié)中的安全漏洞,提高安全保護(hù)效率資產(chǎn)集中管控以內(nèi)置豐富的安全管控策略,對(duì)站點(diǎn)、業(yè)務(wù)賬號(hào)進(jìn)行全面集中管控全面應(yīng)用分析對(duì)網(wǎng)頁、API自動(dòng)全面梳理,分別從用戶、IP、敏感信息視角風(fēng)險(xiǎn)畫像敏感數(shù)據(jù)資產(chǎn)感知基于主動(dòng)探測(cè)與被動(dòng)感知相結(jié)合的方式,全面感知敏感信息資產(chǎn)敏感數(shù)據(jù)防護(hù)全場(chǎng)景的敏感數(shù)據(jù)動(dòng)態(tài)脫敏,豐富的水印配置,防拷貝,防止敏感信息泄露泄露風(fēng)險(xiǎn)攔截對(duì)用戶的異常敏感數(shù)據(jù)訪問行為進(jìn)行告警、攔截,規(guī)避數(shù)據(jù)泄露的風(fēng)險(xiǎn)事件審計(jì)溯源基于UEBA智能行為審計(jì)和身份水印溯源,快速溯源到泄漏事件源頭(圖5.1.2-1)5.1.3安全合規(guī)的數(shù)據(jù)流通形式傳統(tǒng)的數(shù)據(jù)流通,加工后的單方數(shù)據(jù)結(jié)果以數(shù)據(jù)包或明文API形式輸出,存在高價(jià)特殊敏感數(shù)據(jù)風(fēng)險(xiǎn)大、面臨外來攻擊威脅加大以及濫用個(gè)人數(shù)據(jù)等問題,不能有效隱私計(jì)算是一套完善的規(guī)則和一套先進(jìn)的工具,從數(shù)據(jù)要素角度完善跨行業(yè)跨部門的數(shù)據(jù)標(biāo)準(zhǔn)體系,建立多層數(shù)據(jù)要素完善跨行業(yè)跨部門的數(shù)據(jù)標(biāo)準(zhǔn)體系,建立隱私計(jì)算一套完善的規(guī)則一套先進(jìn)的工具數(shù)據(jù)確權(quán)使數(shù)據(jù)資產(chǎn)具有可控制性,利于加速數(shù)據(jù)多層級(jí)的管理標(biāo)準(zhǔn)數(shù)據(jù)包通過數(shù)據(jù)交易平臺(tái)對(duì)數(shù)據(jù)所有權(quán)進(jìn)行交易流通明文API加工后的單方數(shù)據(jù)結(jié)果以API形式輸出(圖5.1.3-1)40隱私識(shí)別隱私審計(jì)合規(guī)分級(jí)分類參與方B參與方C參與方A百度點(diǎn)石多方計(jì)算連邦學(xué)習(xí)機(jī)密計(jì)算隱私計(jì)算隱私保護(hù)隱私識(shí)別隱私審計(jì)合規(guī)分級(jí)分類參與方B參與方C參與方A百度點(diǎn)石多方計(jì)算連邦學(xué)習(xí)機(jī)密計(jì)算隱私計(jì)算隱私保護(hù)“云智一體”技術(shù)與應(yīng)用解析系列白皮書智5.1.4主流的隱私計(jì)算核心引擎主流的隱私計(jì)算核心引擎可以分為四類:在數(shù)據(jù)可用不可見的基礎(chǔ)上,安全多方計(jì)算(MPC)用了大量數(shù)學(xué)方法做密態(tài)計(jì)算,允許多個(gè)數(shù)據(jù)所有者在互不信任的情況下進(jìn)行協(xié)同計(jì)算,輸出計(jì)算結(jié)果。在數(shù)據(jù)可用不可見的集中計(jì)算領(lǐng)域,機(jī)密計(jì)算(TEE)是最流行的處理機(jī)密和隱私的技術(shù)手段,采用第三方硬件,構(gòu)建強(qiáng)安全性的計(jì)算區(qū)域,將數(shù)據(jù)加密后集中起來聯(lián)合計(jì)算,輸出計(jì)算結(jié)果。在數(shù)據(jù)不動(dòng)算法動(dòng)方向,聯(lián)邦學(xué)習(xí)(FL),采用聯(lián)邦學(xué)習(xí)框架,將機(jī)器學(xué)習(xí)算法程序分散到擁有數(shù)據(jù)的各方,將模型梯度回傳。還有數(shù)據(jù)不動(dòng)算法動(dòng)的集中計(jì)算的式,安全數(shù)據(jù)沙箱,通過軟硬件結(jié)合,使用隔離機(jī)制構(gòu)建一個(gè)安全可控區(qū)域,保證其內(nèi)部加載數(shù)據(jù)的機(jī)密協(xié)同計(jì)算安全多方計(jì)算(MPC)允許多個(gè)數(shù)據(jù)所有者在互不信任的情況下安全多方計(jì)算(MPC)允許多個(gè)數(shù)據(jù)所有者在互不信任的情況下進(jìn)行協(xié)同計(jì)算,輸出計(jì)算結(jié)果采用聯(lián)邦學(xué)習(xí)框架,將機(jī)器學(xué)習(xí)算法程序分散到擁有數(shù)據(jù)的各方,將模型梯度回傳數(shù)據(jù)可用不可見

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論