一文概覽數(shù)據(jù)倉(cāng)庫(kù)知識(shí)和面試_第1頁(yè)
一文概覽數(shù)據(jù)倉(cāng)庫(kù)知識(shí)和面試_第2頁(yè)
一文概覽數(shù)據(jù)倉(cāng)庫(kù)知識(shí)和面試_第3頁(yè)
一文概覽數(shù)據(jù)倉(cāng)庫(kù)知識(shí)和面試_第4頁(yè)
一文概覽數(shù)據(jù)倉(cāng)庫(kù)知識(shí)和面試_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

一文概覽數(shù)據(jù)倉(cāng)庫(kù)知識(shí)和面試權(quán)威定義:數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化1)數(shù)據(jù)倉(cāng)庫(kù)是用于支持決策、面向分析型數(shù)據(jù)處理;2)對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行重組,并包含歷史數(shù)面對(duì)大數(shù)據(jù)的多樣性,在存儲(chǔ)和處理這些大數(shù)據(jù)時(shí),我們就必須要知道兩個(gè)重1)數(shù)據(jù)庫(kù)是面向事務(wù)處理的,數(shù)據(jù)是由日常的業(yè)務(wù)產(chǎn)生的,并且是頻繁更新3)數(shù)據(jù)庫(kù)設(shè)計(jì)一般符合三范式,有最大的精確度和最小的冗余度,有利于數(shù)據(jù)1)調(diào)研:業(yè)務(wù)調(diào)研、需求調(diào)研、數(shù)據(jù)調(diào)研2)劃分主題域:通過(guò)業(yè)務(wù)調(diào)研、需求調(diào)研、數(shù)據(jù)調(diào)研最終確定主題域3)構(gòu)建總線矩陣、維度建模業(yè)務(wù)處理過(guò)程與該維度相關(guān) 4)設(shè)計(jì)數(shù)倉(cāng)分層架構(gòu)5)模型落地6)數(shù)據(jù)治理數(shù)據(jù)中臺(tái)是通過(guò)數(shù)據(jù)技術(shù),對(duì)海量數(shù)據(jù)進(jìn)行采集、計(jì)算、存儲(chǔ)、加工,同時(shí)統(tǒng)務(wù)和數(shù)據(jù)的積淀,其不僅能降低重復(fù)建設(shè),減少煙囪式協(xié)助的成本,也是差異。:提供的是計(jì)算和存儲(chǔ)能力數(shù)據(jù)倉(cāng)庫(kù):利用數(shù)據(jù)平臺(tái)提供的計(jì)算和存儲(chǔ)能力,在一套方法論的指導(dǎo)下建設(shè)數(shù)據(jù)中臺(tái):包含了數(shù)據(jù)平臺(tái)和數(shù)據(jù)倉(cāng)庫(kù)的所有內(nèi)容,將其打包,并且以更加整以及更加產(chǎn)品化的方式對(duì)外提供服務(wù)和價(jià)值數(shù)據(jù)湖:一個(gè)存儲(chǔ)企業(yè)各種各樣原始數(shù)據(jù)的大型倉(cāng)庫(kù),包括結(jié)構(gòu)化和非結(jié)構(gòu)化據(jù),其中湖里的數(shù)據(jù)可供存取、處理、分析和傳輸據(jù)平臺(tái):為業(yè)務(wù)提供數(shù)據(jù)主要方式是提供數(shù)據(jù)集數(shù)據(jù)倉(cāng)庫(kù):相對(duì)具體的功能概念是存儲(chǔ)和管理一個(gè)或多個(gè)主題數(shù)據(jù)的集合,為服務(wù)的方式主要是分析報(bào)表數(shù)據(jù)中臺(tái):企業(yè)級(jí)的邏輯概念,體現(xiàn)企業(yè)數(shù)據(jù)產(chǎn)生價(jià)值的能力,為業(yè)務(wù)提供服務(wù)的主要方式是數(shù)據(jù)API湖:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)源總的來(lái)說(shuō),數(shù)據(jù)中臺(tái)距離業(yè)務(wù)更近,數(shù)據(jù)復(fù)用能力更強(qiáng),能為業(yè)務(wù)提供速度更快的服務(wù),數(shù)據(jù)中臺(tái)在數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)平臺(tái)的基礎(chǔ)上,將數(shù)據(jù)生產(chǎn)為一個(gè)個(gè)數(shù)據(jù)API服務(wù),以更高效的方式提供給業(yè)務(wù)。數(shù)據(jù)中臺(tái)可以建立在數(shù)據(jù)倉(cāng)庫(kù)和數(shù)。?域、業(yè)務(wù)過(guò)程,分層的設(shè)計(jì)方式,以維度建模作為基設(shè)計(jì)模型,確保模型、字段有統(tǒng)一的命名規(guī)范資產(chǎn),基于數(shù)據(jù)血緣,數(shù)據(jù)的訪問(wèn)熱度,做成本的治理的稽查監(jiān)控系統(tǒng),對(duì)數(shù)據(jù)進(jìn)行事后校驗(yàn),確保問(wèn)題數(shù)標(biāo)開(kāi)發(fā)、指標(biāo)發(fā)布的全套協(xié)作流程快速索引,數(shù)據(jù)字典、數(shù)據(jù)血緣、數(shù)據(jù)特征信息的查2)定架構(gòu):確認(rèn)業(yè)務(wù)架構(gòu)、技術(shù)架構(gòu)、應(yīng)用架構(gòu)、組織架構(gòu)4)用數(shù)據(jù):對(duì)數(shù)據(jù)進(jìn)行輸出、應(yīng)用企業(yè)的數(shù)據(jù)通常存儲(chǔ)在多個(gè)異構(gòu)數(shù)據(jù)庫(kù)中,要進(jìn)行分析,必須對(duì)數(shù)據(jù)進(jìn)行一致1)概念模型CDM:概念模型是最終用戶對(duì)數(shù)據(jù)存儲(chǔ)的看法,反映了最終用戶綜合性的信息需求,以數(shù)據(jù)類(lèi)的方式描述企業(yè)級(jí)的數(shù)據(jù)需求概念模型的內(nèi)容包括重要的實(shí)體與實(shí)體之間的關(guān)系,在概念模型中不包含實(shí)體確定不同實(shí)體之間的最高層次的關(guān)系2)邏輯模型LDM:邏輯模型反映的是系統(tǒng)分析人員對(duì)數(shù)據(jù)存儲(chǔ)的觀點(diǎn),是對(duì)定的,關(guān)于業(yè)務(wù)對(duì)的基本藍(lán)圖義每個(gè)實(shí)體3)物理模型PDM:物理模型是在邏輯模型的基礎(chǔ)上,考慮各種具體的技術(shù)實(shí)放10、SCD常用的處理方式有哪些?1)直接覆蓋:不記錄歷史數(shù)據(jù),薪數(shù)據(jù)覆蓋舊數(shù)據(jù)2)新加一行數(shù)據(jù)(縱向擴(kuò)展):使用代理主鍵+生效失效時(shí)間或者是代理主鍵+生效失效標(biāo)識(shí)(保存多條記錄,直接新添一條記錄,同時(shí)保留原有記錄,并加兩個(gè)字段(橫向擴(kuò)展):一個(gè)是previous,一個(gè)是current,每次更新只更新這兩個(gè)值,但是這樣職能保留最近兩次的變化(添加歷史列,用不同的字?主題定義:每段ETL、表背后的歸屬業(yè)務(wù)主題。BI中的指標(biāo)ETL元數(shù)據(jù):1根據(jù)ETL目的的不同,可以分為兩類(lèi):數(shù)據(jù)清洗元數(shù)據(jù);數(shù)據(jù)處理元數(shù)范數(shù)據(jù)格式;因此此處元數(shù)據(jù)題是在較高層次上將數(shù)據(jù)進(jìn)行綜合、歸類(lèi)和分析利用的一個(gè)抽象概念,每一分析對(duì)象。的數(shù)據(jù)主題的集合,可以根據(jù)業(yè)務(wù)的關(guān)注度,將這些數(shù)據(jù)主題劃分到不同的主題域(也就是說(shuō)對(duì)某個(gè)主題進(jìn)行分析后確定的主題的邊界)。個(gè)靠銷(xiāo)售廣告位置的門(mén)戶網(wǎng)站主題域可能會(huì)有廣告域,客戶域等,而廣告域可能就會(huì)有廣告的庫(kù)存,銷(xiāo)售分析、內(nèi)部求方為財(cái)務(wù)部,就可以設(shè)定對(duì)應(yīng)的財(cái)務(wù)主題域,而題;的朋友圈數(shù)據(jù)域、群聊數(shù)據(jù)域等,而如可能會(huì)有運(yùn)營(yíng)域、技術(shù)域等,運(yùn)營(yíng)域中可能會(huì)有工資支總而言之,切入的出發(fā)點(diǎn)邏輯不一樣,就可以存在不同的劃分邏輯。在建設(shè)過(guò)程中可采用迭代方式,不糾結(jié)于一次完成所有主題的抽象,可先從明確定義的主題開(kāi)始,后續(xù)逐步歸納總結(jié)成自身行業(yè)的標(biāo)準(zhǔn)模型。BillInmon推崇自上而下的方式(這里的上指的是數(shù)據(jù)源出發(fā)),一個(gè)企業(yè)建立一的數(shù)據(jù)中心,數(shù)據(jù)是經(jīng)過(guò)整合、清洗、去掉臟數(shù)據(jù)、標(biāo)準(zhǔn)的、能夠提供統(tǒng)RalphKimball推崇自下而上的方式(這里的下指的是從業(yè)務(wù)需求出發(fā)),認(rèn)為據(jù)倉(cāng)庫(kù)應(yīng)該按照實(shí)際的應(yīng)用需求,架子啊需要的數(shù)據(jù),不需要的數(shù)據(jù)不要加建模需要按照一定的數(shù)據(jù)模型,對(duì)整個(gè)企業(yè)的數(shù)據(jù)進(jìn)行采集,整理,提供適的數(shù)據(jù)模型,對(duì)于大數(shù)據(jù)處理來(lái)講,可以獲得得更好的性能、成本、效率選擇業(yè)務(wù)處理過(guò)程>定義粒度>選擇維度>確定事實(shí),所有維度直接關(guān)聯(lián)在事實(shí)表他維度表。這種模型維其是基于hadoop體系構(gòu)表關(guān)聯(lián)多個(gè)維度表,雪花模型可以理解為一個(gè),因?yàn)楹芏鄶?shù)據(jù)倉(cāng)庫(kù)都是多個(gè)事實(shí)表的。所以即實(shí)體關(guān)系(ER)模型,數(shù)據(jù)倉(cāng)庫(kù)之父Immon提出的,從全企業(yè)的高度設(shè)計(jì)一個(gè)3NF模型,用實(shí)體加關(guān)系描述的數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論