版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Part3:3.0用的case。比如DB的日志解析同步DRC、日志文件的解析、采集SRS,然后有一些通用的同步工具storm,JStormKepler,SparkStreamingPAITersonFlow面。第四,在這個(gè)體系里用戶接觸最多的是一站式數(shù)據(jù)研發(fā)平臺和一站式AI研發(fā)平臺,分別是面向數(shù)倉、AI兩個(gè)體系去做的。這張圖可是一個(gè)業(yè)務(wù)架構(gòu),就是數(shù)據(jù)平臺部涉及到哪些業(yè)務(wù),總共我們分為3層,我們把①數(shù)據(jù)安全:數(shù)據(jù)安全就會(huì)涉及到數(shù)據(jù)資產(chǎn)的分類、分級。不同類別的資產(chǎn),他的安全等②隱私保護(hù):隱私保護(hù)更偏重,比如說隱私保護(hù)還有一個(gè)叫法是數(shù)據(jù)安全、數(shù)據(jù)合規(guī),我③數(shù)據(jù)質(zhì)量:主要是在我們數(shù)據(jù)研發(fā)過程當(dāng)中,數(shù)據(jù)周期從發(fā)布到線上調(diào)度,調(diào)度完了怎有ODPS,有MySQL這些東西,怎么去把它當(dāng)中的數(shù)據(jù)統(tǒng)一的元數(shù)據(jù)中心;⑤數(shù)據(jù)治理:數(shù)據(jù)治理的邏輯就是配合數(shù)據(jù)質(zhì)量把我們現(xiàn)有的數(shù)據(jù)給盤清楚。②數(shù)據(jù)科學(xué)引擎:數(shù)據(jù)科學(xué)引擎主要是做分析,做業(yè)務(wù)洞察這一類,今天的數(shù)據(jù)業(yè)務(wù)平臺③決策服務(wù)引擎:決策引擎比如說給大家舉一個(gè)場景,芝麻分大家都知道,那首先假如我①外部數(shù)據(jù)采集平臺:因?yàn)槲覀冇泻芏鄶?shù),比如口碑,口碑的交易量的漲跌有一個(gè)很關(guān)鍵②資產(chǎn)管理平臺:和這里面元數(shù)據(jù)中心是對等的,我們需要把我們體系內(nèi)所有的數(shù)據(jù)規(guī)范SQL,它ODPSKepler,切換到SparkStreaming上去做調(diào)度,這是數(shù)據(jù)研發(fā)平臺要做的事情。他就可能依賴于任務(wù)執(zhí)行⑤數(shù)據(jù)決策平臺:為在線業(yè)務(wù)提供數(shù)據(jù)能力。然后就是數(shù)據(jù)實(shí)驗(yàn)平臺,實(shí)驗(yàn)概念就是A/B實(shí)驗(yàn),我今天切一個(gè)算法,可以在這上面切1%的流量到這個(gè)算法,另外1%的流量到這個(gè)95%,如果沒經(jīng)過科學(xué)檢驗(yàn)的話,沒辦法說明98%的三個(gè)點(diǎn)到底是樣本誤差導(dǎo)致的,還是①報(bào)表需求易變;③開發(fā)資源瓶頸(技術(shù)排期長)131.0SQL到下面數(shù)據(jù)源里去查。但是那時(shí)候大部分?jǐn)?shù)據(jù)在一個(gè)比較慢的ODPS,性能用戶接受①分析功能不足;②分析性能不足;①數(shù)據(jù)集:我是為了支撐一些更復(fù)雜的分析模型??梢宰鲆恍┬切湍P?,雪花模型,做關(guān)RDS,只要它引入到數(shù)據(jù)集里面。只要它iframe還有查詢,查詢開放給他,就可以更容易組裝他的流程。因?yàn)閕frame嵌入只能整頁嵌入。14162.0,1416年我們其實(shí)都是在這張圖上去做的BC12③分析洞察解決方案:更大范圍的把這些分析原始的算法包裝成一個(gè)分析流程。①協(xié)作;②查詢路由;③科學(xué)計(jì)算引擎;⑤智能預(yù)計(jì)算;⑥智能同步。1SDK,APIDSL,在這里面數(shù)據(jù)科學(xué)平臺里面最主要的是有調(diào)一個(gè)算法的算子,把一個(gè)SQL結(jié)果去調(diào)一個(gè)算法的算子,調(diào)完算法的算子再去做多維分①智能同步中心:智能同步中心最大的目的或者說解決的最大的問題,就是盡可能的在用②智能預(yù)計(jì)算:我們發(fā)現(xiàn)我們有許多報(bào)表,因?yàn)閳?bào)表拖出來的東西是固化的,昨天來看和③執(zhí)行引擎:執(zhí)行引擎是需要把上面語言適配,一些高級分析能夠在這里執(zhí)行,然后多個(gè)DatasetLogicalPlanLogicalPlanTableLogicalPlan,基于表的TableLogicalPlanDataSourceLogicalPlan,就是具體某一個(gè)元選count,distinct。第二數(shù)據(jù)特征,就是數(shù)據(jù)分布是什么樣的,第三里面具備MetaData元數(shù)據(jù)、連接能力、執(zhí)行能力、方言轉(zhuǎn)換能力、具備權(quán)限控制能力,這個(gè)方言就是說同樣一個(gè)查詢,MySQL語法,ODPS語法或者說是hive語法是完全不一SPI抽象以后,我們會(huì)去適配很多Plugins,PluginsVIP(剛才說的高管);法;還有查詢特征,查詢特征什么意思呢,比如說他經(jīng)常用某一個(gè)字段做where條件,經(jīng)groupbyVIPjoin,這是個(gè)很常見的用uid跟交易表去做join,那用戶表我同步過去的時(shí)候就會(huì)有一表多目的地,uiduid的join效率更高,同樣交易這張表也會(huì)提前按照uid散列,所以這就是一表多目的地。還有表結(jié)構(gòu)優(yōu)化,比如同步到MySQL,發(fā)現(xiàn)他經(jīng)常小數(shù)據(jù)量,比如說20萬、100萬以下這種數(shù)據(jù)量,我會(huì)把他同步到MySQL里面去,我發(fā)現(xiàn)他的查詢特征經(jīng)常用某一個(gè)字段做最后一塊就是之前提到的智能預(yù)計(jì)算,Kylin說報(bào)表結(jié)構(gòu),定義的數(shù)據(jù)集結(jié)構(gòu),比如定義表和表做n分析,第三是歷史查詢,歷史的dtnct些特征以后,我會(huì)去做一個(gè)叫立方體的概念,就是ubeegn,這個(gè)過程我們?nèi)ピO(shè)計(jì)立goupby4gupbygoupbyubeubeannrSPISPISPIODPS,Spark最優(yōu)的一般都是groupby最少的那個(gè),智能預(yù)計(jì)算就是這個(gè)。900DPS這種查詢,很慢達(dá)到了分鐘級,所以說大家抱怨就是RT的問題,用戶的期望是達(dá)到秒級,但我們知道就100這是問題,我們要解決這個(gè)RT。一個(gè)是底線指標(biāo),體驗(yàn)指標(biāo)就是查詢RT在一秒內(nèi)要達(dá)到占比98%,底線指標(biāo)就是RT在程大家可以發(fā)現(xiàn)為什么看總指標(biāo)的提升,因?yàn)槲覀內(nèi)肆偸怯邢薜?,我要去評估ROI產(chǎn)出ADS)ADSADS900圈出來看他其他的漏洞,我發(fā)現(xiàn)在下鉆一個(gè)維度,下鉆query_mode查詢
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 重要物資采購合同
- 江西省萬載縣高中生物 專題2 細(xì)胞工程 2.2.2 動(dòng)物細(xì)胞融合與單克隆抗體(練習(xí)課)教案 新人教版選修3
- 2024年三年級品社下冊《濃濃鄉(xiāng)土情》教案 山東版
- 高考化學(xué) 專題二 第8講 有機(jī)物的結(jié)構(gòu)、性質(zhì)和應(yīng)用教案(含解析)
- 2024秋九年級歷史上冊 第七單元 工業(yè)革命和工人運(yùn)動(dòng)的興起 第20課 第一次工業(yè)革命教案 新人教版
- 2023一年級數(shù)學(xué)上冊 二 比一比第1課時(shí) 比長短 比高矮教案 蘇教版
- 2024年春九年級化學(xué)下冊 第12單元 化學(xué)與生活 課題2 化學(xué)元素與人體健康教案 (新版)新人教版
- 文書模板-委托研發(fā)合同補(bǔ)充協(xié)議
- 年度部門評分表
- 混凝土澆筑課件
- 中國古代文學(xué)中的海洋意象與文化內(nèi)涵探究
- 小學(xué)教育的教師角色與素質(zhì)
- 慢性胃炎胃鏡報(bào)告
- 子宮腺肌病病例分析報(bào)告
- 犯罪心理學(xué)-第五章不同犯罪類型的心理學(xué)分析課件
- (完整版)量子信息與量子計(jì)算課件
- 老年人心臟病的護(hù)理與康復(fù)
- 食堂安全培訓(xùn)內(nèi)容
- 飛行器制造職業(yè)生涯規(guī)劃書
- 貨物運(yùn)輸方案計(jì)劃書
- 2024年的重要事件
評論
0/150
提交評論