



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上2011春數(shù)據(jù)倉庫與數(shù)據(jù)挖掘復(fù)習(xí)提綱1、 商務(wù)智能【參考:BI是一種解決方案,它的目的是把用戶積累下來的、大量的數(shù)據(jù)轉(zhuǎn)化為業(yè)務(wù)容易理解的信息,進(jìn)而輔助決策。】2、 Kimball對數(shù)據(jù)倉庫的定義【參考:DW僅僅是構(gòu)成它的數(shù)據(jù)集市的聯(lián)合?!?、 Inmon對數(shù)據(jù)倉庫的定義【參考:一個面向主題的、集成的、隨時間變化的、非易逝的用于支持管理的決策過程的數(shù)據(jù)集合?!?、 ETL【參考:數(shù)據(jù)的提取、轉(zhuǎn)換和裝載,預(yù)處理數(shù)據(jù)并裝在DW中?!?、 數(shù)據(jù)倉庫總線矩陣【參考:該矩陣將公司業(yè)務(wù)過程映射到參與這些過程的實(shí)體或?qū)ο?。矩陣的每一行對?yīng)一個業(yè)務(wù)過程,每一列描述對象,它們參與了各種業(yè)
2、務(wù)過程。】6、 事實(shí)【參考:對一些事件發(fā)生結(jié)果的度量。】7、 維度【參考:維度是維度模型的基礎(chǔ),用來描述業(yè)務(wù)的對象。】8、 粒度【參考:事實(shí)表中包含信息的詳盡程度。】9、 維度模型【參考:由一個中心事實(shí)表(或者多個事實(shí)表)和與其相關(guān)的維度構(gòu)成。事實(shí)表位于中心,而所有維度表環(huán)繞在其周圍,類似于星形結(jié)構(gòu),因此又把維度模型稱為星形模式。】10、 業(yè)務(wù)過程維度模型【參考:關(guān)于一個業(yè)務(wù)過程所有的維度模型的集合。】11、 多維數(shù)據(jù)集(又稱為數(shù)據(jù)立方體)由維度和一個或多個度量組構(gòu)成的多維分析結(jié)構(gòu),用于OLAP12、 部署【參考:將多維數(shù)據(jù)集的定義發(fā)布到OLAP服務(wù)器上的過程?!?3、 OLAP 聯(lián)機(jī)分析處理
3、采用多維數(shù)據(jù)結(jié)構(gòu)和層次結(jié)構(gòu)作為導(dǎo)航,探查匯總數(shù)據(jù),輔助決策。14、 代理鍵【參考:對于DW/BI系統(tǒng),需要在數(shù)據(jù)倉庫數(shù)據(jù)庫中建立一組與事務(wù)處理源系統(tǒng)中的鍵分離開來的全新的鍵,稱這種鍵為代理鍵。】獨(dú)立于業(yè)務(wù)鍵的用于數(shù)據(jù)倉庫中的從ETL中的人工鍵15、 漸變維度【參考:屬性值可以改變的維度。分為值的改變需要跟蹤和不需要跟蹤兩種?!?6、 聚合【參考:經(jīng)過預(yù)先計算后形成的匯總表,主要目標(biāo)是用來改進(jìn)查詢性能?!?7、 星型模型【參考:由一個事實(shí)表和多個維度表構(gòu)成的模型。事實(shí)表與維度表是1對多關(guān)系。事實(shí)表位于中心,而所有維度表環(huán)繞在其周圍,類似于星形結(jié)構(gòu)?!?8、 雪花模型【參考:雪花模型是將維度表中的
4、字段和查找表相連接而得到的結(jié)果?!?9、 事實(shí)星座模型 由多個星型模型或雪花模型通過共享維度形成的多事實(shí)表多維度表的模型20、 多維數(shù)據(jù)庫【參考:采用多維數(shù)據(jù)組存儲數(shù)據(jù),主要應(yīng)用于OLAP服務(wù)器的數(shù)據(jù)存儲結(jié)構(gòu)。】21、 SQL Server 2005的維度層次22、 SQL Server 2005的屬性層次 SQL Server Analysis Service默認(rèn)為每個維度每個屬性構(gòu)成的單層結(jié)構(gòu)23、 數(shù)據(jù)挖掘【參考答案:從海量數(shù)據(jù)中提取有趣模式或知識(有趣是指:隱含的、非平凡的、事先未知的、潛在有用的)】24、 數(shù)據(jù)挖掘的兩大類通用功能【參考答案:描述型數(shù)據(jù)挖掘和預(yù)測型數(shù)據(jù)挖掘。前者用于刻
5、畫數(shù)據(jù)集的一般特征,后者對現(xiàn)有數(shù)據(jù)進(jìn)行推演以用于新實(shí)例(某個屬性的取值)的預(yù)測?!?5、 OLAM【參考答案:On-Line Analytical Mining,聯(lián)機(jī)分析挖掘,將OLAP與數(shù)據(jù)挖掘相互融合進(jìn)行數(shù)據(jù)探查分析,是未來基于數(shù)據(jù)倉庫的數(shù)據(jù)分析的一種趨勢】26、 簡單了解關(guān)聯(lián)分析(又稱為關(guān)聯(lián)規(guī)則挖掘或購物籃分析)、分類、回歸、聚類分析的功能關(guān)聯(lián)分析:發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品(項(xiàng))之間的聯(lián)系分類:預(yù)測離散屬性的取值回歸:預(yù)測連續(xù)屬性的取值聚類分析:將數(shù)據(jù)分類到不同的類或者簇27、 數(shù)據(jù)倉庫各環(huán)節(jié)工具(如ETL)的市場占有率最高的公司【參考:(1)OLAP市場,微軟第一;(2)ETL市場三大
6、主流:Powercenter(美國Information公司)ETL市場老大;DataStage(IBM公司);ETL Automation(數(shù)據(jù)倉庫(引擎)老大美國Teradata公司)。DI(Data Integrator(BO公司)28、 數(shù)據(jù)庫和數(shù)據(jù)倉庫的區(qū)別【參考答案:(1)應(yīng)用目的不同:數(shù)據(jù)庫主要用于構(gòu)建聯(lián)機(jī)事務(wù)處理(OLTP)系統(tǒng),這種系統(tǒng)自己產(chǎn)生新數(shù)據(jù),每次事務(wù)處理涉及的記錄數(shù)較少,通常為幾條;而數(shù)據(jù)倉庫主要用于構(gòu)建分析型決策支持系統(tǒng),這種系統(tǒng)自己不產(chǎn)生新數(shù)據(jù),所使用的數(shù)據(jù)來自于OLTP系統(tǒng)或其他數(shù)據(jù)源。(2)數(shù)據(jù)的時間跨度不同:數(shù)據(jù)庫通常存放較新的業(yè)務(wù)數(shù)據(jù);而數(shù)據(jù)倉庫中存放的
7、是歷史業(yè)務(wù)數(shù)據(jù),其時間跨度為510年。(3)數(shù)據(jù)的業(yè)務(wù)范圍不同:數(shù)據(jù)庫系統(tǒng)通常關(guān)注局部業(yè)務(wù)范圍的事務(wù)處理;數(shù)據(jù)倉庫通常要關(guān)注整個企業(yè)的全部業(yè)務(wù)。(4)所采用的設(shè)計技術(shù)不同:數(shù)據(jù)庫面向事務(wù),采用三范式(3NF)建模;數(shù)據(jù)倉庫則面向主題,采用三范式(3NF)或維度模型建模。(5)注重的技術(shù)不同:數(shù)據(jù)庫系統(tǒng)存在大量的數(shù)據(jù)查詢和數(shù)據(jù)更新,需要重點(diǎn)考慮包括數(shù)據(jù)更新和并發(fā)控制技術(shù)在內(nèi)的各種數(shù)據(jù)處理技術(shù),而數(shù)據(jù)倉庫以數(shù)據(jù)查詢?yōu)橹?,?shù)據(jù)更新較少,所以不需過多的考慮數(shù)據(jù)更新和并發(fā)控制,主要考慮數(shù)據(jù)查詢性能的提升。】29、 數(shù)據(jù)倉庫的兩大技術(shù)流派及主要差異。【參考:Inmoon和Kimball。(1)數(shù)據(jù)倉庫定義
8、的差異:Bill Inmon將數(shù)據(jù)倉庫定義為“一個面向主題的、集成的、隨時間變化的、非易逝的用于支持管理的決策過程的數(shù)據(jù)集合” 。Ralph Kimball說“數(shù)據(jù)倉庫僅僅是構(gòu)成它的數(shù)據(jù)集市的聯(lián)合” 。(2)數(shù)據(jù)倉庫構(gòu)建方法之爭:恩門的“Building the Data Warehouse”主張建立數(shù)據(jù)倉庫時采用自上而下(DWDM)方式,以第3范式進(jìn)行數(shù)據(jù)倉庫模型設(shè)計,而他生活上的好朋友Ralph Kimball在“The DataWarehouse Toolkit”則是主張自下而上(DMDW)的方式,力推數(shù)據(jù)集市建設(shè),以致他們的FANS吵鬧得差點(diǎn)打了起來,直至恩門推出新的BI架構(gòu)CIF(C
9、orporation information factory),把Kimball的數(shù)據(jù)集市包括了進(jìn)來才算平息。恩門認(rèn)為星型模型只適用于數(shù)據(jù)集市(星型模型對于數(shù)據(jù)集市是十分理想的),而不適用于數(shù)據(jù)倉庫。(3) 對數(shù)據(jù)集市的理解差異: Inmon:面向部門(Department)的小型數(shù)據(jù)倉庫BPR, Kimball:面向業(yè)務(wù)過程 (Process)的小型數(shù)據(jù)倉庫 BPM?!?0、 Kimball流派主張基于哪四個主要原則的迭代方法來構(gòu)建數(shù)據(jù)倉庫體系【參考:(1)從業(yè)務(wù)著手出發(fā)點(diǎn);(2)構(gòu)建一個信息基礎(chǔ)設(shè)施設(shè)計一個單一、集成、易用、高效的信息基礎(chǔ)平臺能夠滿足企業(yè)內(nèi)部的各種需求;(3)按時間周期增量
10、交付根據(jù)業(yè)務(wù)價值進(jìn)行優(yōu)先級排序,每個時間周期對應(yīng)時間軸上的612個月;(4)發(fā)布整個解決方案交付DW僅僅是個開始,還要交付即席查詢、報表、OLAP、DW等BI應(yīng)用?!?1、 多對多維度(或多值維度)怎樣表達(dá)?包括哪兩類? 【參考答案:多對多維度需要增加一個橋接表來表示。它包括維度表和事實(shí)表之間的多對多、維度表與維度表之間的多對多兩類。前者將橋接表與事實(shí)表相連,后者將其中的一個維度表與事實(shí)表相連?!?2、如何使用2×2矩陣確定各業(yè)務(wù)過程所對應(yīng)子項(xiàng)目的優(yōu)先級 ?!緟⒖迹簠^(qū)分優(yōu)先級過程是規(guī)劃會議,涉及DW/BI小組、DW/BI項(xiàng)目的業(yè)務(wù)贊助商,以及公司各部門的其他關(guān)鍵高層管理人員。在會議中
11、,要描述在企業(yè)需求收集過程中所標(biāo)識的業(yè)務(wù)過程,以便每個人都能理解每個業(yè)務(wù)過程的可能性。參加這個會議要準(zhǔn)備PowerPoint演示,以便描述每個業(yè)務(wù)過程,要列舉幾個將支持的相關(guān)分析的示例,以增加對這些分析的業(yè)務(wù)價值的感性認(rèn)識,包括實(shí)現(xiàn)業(yè)務(wù)過程(可行性)所需付出努力的級別。描述要盡可能明快、清晰。試著把演示時間控制在2個小時以內(nèi)。當(dāng)描述每個業(yè)務(wù)過程的時候,也就描述了提供必要數(shù)據(jù)所涉及的有關(guān)努力。一旦每個人都理解了業(yè)務(wù)過程和術(shù)語,可以休息一會兒。會議的后半部分包括區(qū)分業(yè)務(wù)過程的優(yōu)先級。引導(dǎo)會議小組把每個棘手的業(yè)務(wù)過程注釋放置到兩-兩(two-by-two)網(wǎng)格上。】33、 SQL SERVER 20
12、05的三個版本及區(qū)別 。【參考:標(biāo)準(zhǔn)版、企業(yè)版和開發(fā)版。對多數(shù)小型和中等規(guī)模的實(shí)現(xiàn),標(biāo)準(zhǔn)版可能就足夠了。如果按照不帶索引的數(shù)據(jù)來度量,數(shù)據(jù)卷為50GB或者更少,那么不需要使用企業(yè)版中的可伸縮特性即可實(shí)現(xiàn)。根據(jù)增量加載的卷、頻率和正常運(yùn)行時間的需求,中等規(guī)模的、高達(dá)250GB數(shù)據(jù)量的實(shí)現(xiàn)也可以運(yùn)行在標(biāo)準(zhǔn)版上。對于任何大型的、實(shí)時的、或者其他具有挑戰(zhàn)性的實(shí)現(xiàn),應(yīng)該計劃使用企業(yè)版。無論生產(chǎn)中采用哪個版本,開發(fā)人員都應(yīng)該使用開發(fā)版。除了選擇標(biāo)準(zhǔn)版還是企業(yè)版外,還需要決定使用32位平臺還是64位平臺?!?4、 SQL SERVER 2005的主動緩存技術(shù)?!緟⒖迹簩τ诘脱舆t的數(shù)據(jù)庫來說,主動緩存相當(dāng)有意
13、義它針對的是實(shí)時多維數(shù)據(jù)集(或者接近實(shí)時的多維數(shù)據(jù)集)。當(dāng)用戶建立主動緩存時,要求Analysis Services監(jiān)控針對度量組分區(qū)的關(guān)系源,并在數(shù)據(jù)發(fā)生變化時自動執(zhí)行增量處理?!?5、 事實(shí)表分哪三類?有什么區(qū)別?【參考:事務(wù)、周期快照及累積快照。迄今為止提到的大多數(shù)事實(shí)表都屬于事務(wù)類型。事務(wù)事實(shí)表跟蹤發(fā)生在非連續(xù)時間點(diǎn)上的每次事務(wù)。周期快照事實(shí)表捕獲特定時間間隔的累積性能,并且對于跨越同一值鏈中的幾個業(yè)務(wù)過程組合數(shù)據(jù)相當(dāng)有用。周期快照事實(shí)也跨越時間間隔聚合許多事實(shí),并且向用戶提供獲得事實(shí)總數(shù)的快速方法。在特定的時間點(diǎn)獲得快照的位置,例如月末停業(yè)后,累積快照會隨時間而經(jīng)常更新。一般來說,累
14、積快照的設(shè)計包括幾個日期字段,用來捕獲當(dāng)問題中的項(xiàng)經(jīng)過值鏈中的每個業(yè)務(wù)過程或者里程碑時的日期。累積快照提供了延期交付的訂單在任意時間點(diǎn)上的狀態(tài),以及已完成訂單的歷史紀(jì)錄,通過詳細(xì)檢查歷史記錄以獲得感興趣的度量。】36、 列出BI行業(yè)2007-2008年最大的三筆企業(yè)收購案和現(xiàn)在的四大主宰公司。【參考:甲骨文公司(Oracle,下稱甲骨文)收購了海波龍公司(Hyperion,下稱海波龍),SAP公司買下了博奧杰軟件公司(Business Objects,下稱博奧杰),國際商用機(jī)器公司(IBM)則吞并了Cognos公司。IBM、Oracle、SAP、Microsoft?!?7、 業(yè)務(wù)需求定義的主要
15、步驟(1)初始項(xiàng)目作用域,定義業(yè)務(wù)范圍(2)定義企業(yè)級業(yè)務(wù)需求(3)區(qū)分需求優(yōu)先級(4)項(xiàng)目規(guī)劃(5)定義項(xiàng)目業(yè)務(wù)需求38、 企業(yè)級業(yè)務(wù)需求定義過程的主要步驟【參考:(1)準(zhǔn)備;(2)采訪業(yè)務(wù)人員和IT人員;(3)采訪摘要和分析主題;(4)數(shù)據(jù)審核/數(shù)據(jù)記錄;(5)標(biāo)識支持分析主題的業(yè)務(wù)過程;(6)構(gòu)建初始DW總線矩陣;(7)創(chuàng)建全局需求文檔?!?9、 典型的數(shù)據(jù)倉庫/商務(wù)智能(DW/BI)系統(tǒng)三層體系結(jié)構(gòu)?!緟⒖迹簲?shù)據(jù)獲取層(ETL)、數(shù)據(jù)存儲層(ODS和數(shù)據(jù)倉庫)和數(shù)據(jù)展現(xiàn)層(隨即查詢、報表、OLAP和數(shù)據(jù)挖掘)?!?0、 OLAP數(shù)據(jù)庫數(shù)據(jù)的物理存儲有MOLAP等三種可選模式,試簡述事實(shí)
16、數(shù)據(jù)和維度數(shù)據(jù)可以采取的存儲模式以及每種模式中數(shù)據(jù)的存放位置。這三種模式中哪種最節(jié)省存儲空間?【參考:MOLAP:葉子數(shù)據(jù)和聚合存儲為Analysis Services的MOLAP格式。HOLAP:葉子數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫中,聚合存儲為MOLAP格式。ROLAP:葉子數(shù)據(jù)和聚合都存儲在源關(guān)系數(shù)據(jù)庫中。MOLAP最節(jié)省存儲空間?!?1、 維度建模的主要步驟及每個步驟的主要成果(或檢查點(diǎn))【參考:首先是高級維度模型設(shè)計會話/過程(session),該會話定義業(yè)務(wù)過程維度模型的邊界;然后是詳細(xì)模型開發(fā)階段,包括逐個表地填充屬性列表、解決各種問題和不確定性等;最后階段是一系列模型評審、重新設(shè)計、確認(rèn)步驟。高層維度模型設(shè)計的3個檢查點(diǎn)是高級圖形模型、初始屬性列表和初始
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 服裝批發(fā)商直播帶貨與網(wǎng)紅營銷考核試卷
- 刨花板行業(yè)綠色生產(chǎn)與可持續(xù)發(fā)展考核試卷
- 彈射玩具銷售季節(jié)性規(guī)律考核試卷
- 樂器配件精密加工技術(shù)考核試卷
- 動物用藥品銷售與市場預(yù)測分析考核試卷
- 刺繡藝術(shù)在充電寶的個性化設(shè)計考核試卷
- 創(chuàng)業(yè)項(xiàng)目品牌定位與市場推廣考核試卷
- 勞務(wù)合同范本遷戶口
- 學(xué)校鏟車租賃合同范本
- 淘客推廣合同范本
- 2024年3月30日事業(yè)單位聯(lián)考C類《職業(yè)能力傾向測驗(yàn)》試題
- 淮陰師范學(xué)院《論文寫作與文獻(xiàn)檢索》2023-2024學(xué)年第一學(xué)期期末試卷
- 《化工設(shè)備機(jī)械基礎(chǔ)(第8版)》完整全套教學(xué)課件
- 代理記賬業(yè)務(wù)內(nèi)部規(guī)范制度-代理記賬業(yè)務(wù)規(guī)范
- 山東虛擬電廠商業(yè)模式介紹
- 2024-2025學(xué)年高中思想政治選擇性必修2 法律與生活統(tǒng)編版(部編版)教學(xué)設(shè)計合集
- 第09講二元一次方程組中的新定義題型(原卷版+解析)-2021-2022學(xué)年下學(xué)期七年級數(shù)學(xué)下冊期末復(fù)習(xí)高頻考點(diǎn)專題(人教版)
- 全國職業(yè)院校技能大賽高職組(商務(wù)數(shù)據(jù)分析賽項(xiàng))備賽試題庫(含答案)
- 八年級道德與法治下冊 第三單元 人民當(dāng)家作主教案 新人教版
- JGJ153-2016 體育場館照明設(shè)計及檢測標(biāo)準(zhǔn)
- 【年產(chǎn)100噸植物乳桿菌菌劑生產(chǎn)線設(shè)計10000字(論文)】
評論
0/150
提交評論