賈志遠-21551063-第一次讀書報告_第1頁
賈志遠-21551063-第一次讀書報告_第2頁
賈志遠-21551063-第一次讀書報告_第3頁
賈志遠-21551063-第一次讀書報告_第4頁
賈志遠-21551063-第一次讀書報告_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、 碩 士 研 究 生 讀 書 報 告題目 數(shù)據(jù)倉庫研究 作者姓名 賈志遠 作者學號 21551063 指導教師 貝毅君 學科專業(yè) 大數(shù)據(jù)1502 所在學院 軟件學院 提交日期 二一五年十月 The Research On Data Warehouse A Dissertation Submitted to Zhejiang University in partial fulfillment of the requirements for the degree of Master of Engineering Major Subject: Software Engineering Advisor

2、: Bei YijunByJia ZhiyuanZhejiang University, P.R. China2015摘要本文主要是探討數(shù)據(jù)倉庫的概念、數(shù)據(jù)倉庫的兩種模式、星型模式設計數(shù)據(jù)倉庫時的步驟、星型模式對緩慢變化維的解決方式以及數(shù)據(jù)倉庫和傳統(tǒng)數(shù)據(jù)庫的區(qū)別。本文的重點是討論數(shù)據(jù)倉庫解決緩慢變化維問題,詳細分析這六種變化類型的好壞以及適用范圍,同時通過表格的形式來讓讀者清楚的了解這六種變化類型。本文還對傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫進行對比,分析了數(shù)據(jù)倉庫的優(yōu)勢。同時也用大量的篇幅描寫數(shù)據(jù)倉庫的特點,意在讓讀者能夠深入了解數(shù)據(jù)倉庫。文中還討論了設計數(shù)據(jù)倉庫的四個步驟,為讀者自己設計數(shù)據(jù)倉庫提供了方法

3、。關鍵詞:數(shù)據(jù)倉庫, 星型模式,緩慢變化維AbstractThe paper discusses the concept of the data warehouse, two modes of data warehouse, steps that star schema takes to design data warehouse, solutions to slowly changing dimensions and differences between data warehouse and traditional database. The article focuses on the

4、discussion about the solutions to slowly changing dimension in data warehouse, analyses the advantages and disadvantages of six types and the scope of application. At the same time, it lets the readers understand the six types by forms. The paper also compares data warehouse with traditional databas

5、e, the advantages of data warehouse are analyzed. With a lot of space to describe the characteristics of a data warehouse is intended to allow readers to understand the data warehouse. The paper also discusses the four steps of designing the data warehouse, it provides a solution to design a data wa

6、rehouse for readers.Keywords:data warehouse, star schema, slowly changing dimensions1引言隨著信息化時代的來臨,社會已處于數(shù)據(jù)爆炸的狀態(tài),普通的數(shù)據(jù)庫設計思想在海量的數(shù)據(jù)面前已經(jīng)不能快速的尋找到人們迫切需要的信息,人們希望能找到一種方式使得有用的信息能夠快速有效地顯現(xiàn)在面前,幫助人們快速決策,數(shù)據(jù)倉庫的設計思想應運而生。數(shù)據(jù)倉庫設計的目的是為了讓信息更容易獲取,提高信息獲取效率,同時在推薦有效決策方面承擔最基本的角色。它是一種用以支持決策的,面向分析型數(shù)據(jù)處理的,將多個不同數(shù)據(jù)源按照主題進行重組的,包含歷史數(shù)據(jù)

7、的數(shù)據(jù)集合。根據(jù)事實表和維度表的關系進行分類,數(shù)據(jù)倉庫可將常見模型分成兩種,一種是星型模型,它由一個事實表和一組維表組成;另一種是雪花模型,它是對星型模型的擴展,至少有一個維表沒有直接連接到事實表上,而是通過別的維表連接到事實表上的。數(shù)據(jù)倉庫的設計在當今大數(shù)據(jù)時代占用重要的地位。2 數(shù)據(jù)倉庫的介紹目前,“數(shù)據(jù)倉庫”一詞尚沒有一個統(tǒng)一的定義。著名的數(shù)據(jù)倉庫專家W.H.Inmon在其著作Building the Data Warehouse一書中給出了如下描述:數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策1。數(shù)據(jù)倉庫概念的可以從兩個方面來理解:一、數(shù)據(jù)倉庫

8、用于支持決策,面向分析型數(shù)據(jù)處理,它與企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫是不一樣的;二、數(shù)據(jù)倉庫是對多個異構的數(shù)據(jù)源有效集成,集成后按照主題進行重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。數(shù)據(jù)倉庫具有以下幾個特點:一、面向主題:操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務處理任務,各個業(yè)務系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織的。主題是一個抽象的概念,是指用戶使用數(shù)據(jù)倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關。二、集成的:面向事務處理的操作型數(shù)據(jù)庫通常與某些特定的應用相關,數(shù)據(jù)庫之間相互獨立,并且往往是異構的2。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫

9、數(shù)據(jù)抽取、清理的基礎上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關于整個企業(yè)的一致的全局信息3。三、相對穩(wěn)定的:操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析使用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但是修改和刪除操作很少,通常只需要定期的加載和刷新4。四、反映歷史變化:操作型數(shù)據(jù)庫主要關心當前某一個時間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息。系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應用數(shù)據(jù)倉庫的時點)到目前的各個階

10、段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預測5。五、數(shù)據(jù)倉庫隨時間而變化:傳統(tǒng)的關系數(shù)據(jù)庫系統(tǒng)比較適合處理格式化的數(shù)據(jù),能夠較好的滿足商業(yè)商務處理的需求,穩(wěn)定的數(shù)據(jù)以只讀格式保存,且不隨時間改變。而在數(shù)據(jù)倉庫中,數(shù)據(jù)會隨著時間的變化不斷地增加新的數(shù)據(jù)內(nèi)容,同時也會隨著時間的變化不斷地進行重新組合。六、大容量:傳統(tǒng)的數(shù)據(jù)庫設計會對容量有著嚴格的規(guī)定,因為傳統(tǒng)數(shù)據(jù)庫的查詢需要進行很多邏輯上的運算與關系數(shù)據(jù)庫之間的關聯(lián),如果數(shù)據(jù)量過大就會損耗很多時間來進行邏輯運算和關聯(lián)各個不同的表,這樣會大大降低查詢速率。而數(shù)據(jù)倉庫則沒有這么多的“煩惱”,它將所有需要查找的屬性組合到事實

11、表中,所有的維度表都是通過事實表進行關聯(lián)的,這樣關聯(lián)關系變得少了,邏輯運算的東西都算完儲存在事實表中,只需要通過查找就可以實時調(diào)用了,大大減少了查詢過程中的邏輯運算和關聯(lián)表的時間,提高了查詢效率,這樣就可以存儲海量的歷史數(shù)據(jù)而不影響查詢效率了,而且由于數(shù)據(jù)會隨著時間的變化不斷地增加新的數(shù)據(jù)內(nèi)容,事實表中的數(shù)據(jù)會越來越多,不斷更新,而歷史數(shù)據(jù)是不會被刪除的,所以數(shù)據(jù)倉庫中的數(shù)據(jù)容量只會越來越大。七、非規(guī)范化:在傳統(tǒng)的數(shù)據(jù)庫中,數(shù)據(jù)庫的創(chuàng)建是不允許有冗余的,而在數(shù)據(jù)倉庫中,幾乎必定存在冗余數(shù)據(jù),因為數(shù)據(jù)倉庫將原本需要計算的數(shù)據(jù)提前計算好后存儲在數(shù)據(jù)倉庫的事實表中,減少計算所需要的時間,以空間換取時

12、間,這樣查詢數(shù)據(jù)的時候只需要遍歷就可以了,不再需要做邏輯運算等,提高了查詢速率,同時冗余也可以保證數(shù)據(jù)的一致性。3 數(shù)據(jù)倉庫模式數(shù)據(jù)倉庫總共有兩種模式,它們分別是:一、星型模式;二、雪花模式。星型模式是一種多維的數(shù)據(jù)關系,它由一個事實表和一組維表組成6。每個維表都有一個維作為主鍵,所有這些維的主鍵組合成事實表的主鍵。事實表的非主鍵屬性稱為事實,它們一般都是數(shù)值或其他可以進行計算的數(shù)據(jù);而維大都是文字、時間等類型的數(shù)據(jù),按這種方式組織好數(shù)據(jù)就可以按照不同的維(事實表主鍵的部分或全部)來對這些事實數(shù)據(jù)進行求和、求平均、計數(shù)、百分比等的聚集計算,這樣就可以從不同的角度來分析業(yè)務主題的情況7。雪花模式

13、是類似于星型模式,只不過雪花模式的維表并不全都與事實表直接相連,而是有一部分通過別的維表與事實表關聯(lián)。雪花模式的產(chǎn)生主要是為了避免將事實表連接至大型維表,極大地增加數(shù)據(jù)存儲的容量,將具有層次結構的維分解成雪花結構可以大大減少數(shù)據(jù)存儲的空間。4 數(shù)據(jù)倉庫設計上面說了兩種數(shù)據(jù)倉庫的模式,下面著重討論用星型模式來構建數(shù)據(jù)倉庫。使用星型模式來構建數(shù)據(jù)倉庫需要設計維度表和事實表,這兩個表各有各的特點。維度表的特點是:一、每一個維度表都分配一個代理鍵。代理鍵沒有什么特殊的意義,僅僅是為數(shù)據(jù)倉庫和數(shù)據(jù)集市創(chuàng)建的,通常表現(xiàn)為整數(shù),它是維度表的唯一標示符。二、豐富的維度集合。維度表可以提供豐富和全面的維度屬性集

14、合,每個新增的屬性都會顯著地提高分析的可能性。三、冗余。維度表與傳統(tǒng)數(shù)據(jù)庫中的表最大的不同之處就是維度表有很多的冗余屬性,這些冗余屬性可以減少數(shù)據(jù)庫管理系統(tǒng)的查詢時間,使數(shù)據(jù)庫管理員能夠采用索引等技術優(yōu)化系統(tǒng)性能,為高效的執(zhí)行查詢奠定基礎,它還方便了使用者與分析型數(shù)據(jù)庫的交互,便于使用者理解,同時無論將這些維度表中的數(shù)據(jù)應用于何處,都可以保證這些數(shù)據(jù)的一致性。事實表的特點是:一、事實表存儲描述過程的詳細度量,采用外鍵為每個度量提供維度環(huán)境,事實表中的事實通常是整型或浮點型十進制數(shù)。二、獲取所有的度量。開展維度設計時,每一個事實表都描述了一個業(yè)務過程,它提供了相關度量的完整集合,即使會存在冗余,

15、這樣可以保證度量的一致性,同時也可以提高查找的效率。三、事實表擁有明確的粒度,這樣可以確保對事實表中行的理解不會產(chǎn)生混肴,保證所有事實按照同樣的細節(jié)層次記錄,這需要將事實表的粒度盡可能地設置為最詳細的數(shù)據(jù)粒度級別,這樣有助于確保分析型應用具有最大的靈活性。四、稀疏性,出現(xiàn)在事實表中的組合數(shù)量遠遠小于可能存在的組合數(shù)量。五、事實表可能會擁有退化維。有的時候不能將所有與業(yè)務相關的維度分類到一個緊湊的表集合中,這樣就會把一個或者多個維度存儲到事實表中,事實表就會擁有退化維了。維度建模也即是星型模式建模,其總共有四步:一、選取業(yè)務過程。設計星型模式的第一步是通過將對業(yè)務需求的理解與對可用數(shù)據(jù)的理解組合

16、起來而確定建模的業(yè)務處理內(nèi)容,建立的第一個維度模型應該是一個最具有影響力的模型它應該對最緊迫的業(yè)務問題作出回答,并且對數(shù)據(jù)的抽取來說是最容易訪問的。二、定義粒度。由于原子型數(shù)據(jù)可為分析方面提供最大限度的靈活性,所以應優(yōu)先考慮為業(yè)務處理獲取最有原子性的信息而開發(fā)維度模型。原子型數(shù)據(jù)是所收集的最詳細信息,這樣的數(shù)據(jù)不能再做更進一步的細分。舉個例子來說明下,比如工廠需要統(tǒng)計年收入,這時可以設計成按年來進行統(tǒng)計,也可以按月來進行統(tǒng)計,或者按日來進行統(tǒng)計,然而一旦需求改變,變?yōu)榻y(tǒng)計日收入,那么按年和按月統(tǒng)計的方式就不可行了,而按日來統(tǒng)計的方式卻依然可行,所以設計事實表時要將粒度設計成最細的,不能更進一步

17、細分的,這樣分析數(shù)據(jù)的時候就可以從更多的角度分析,也不會因為需求改變而重新設計星型模式了。三、選定維度。一個經(jīng)過仔細考慮的粒度定義確定了事實表的基本維度特性。要是在事實表的基本粒度的基礎上加入其他維度,那么這些附加的維度應該在基本維度的每個組合值方面自然地取得唯一的值。如果附加的維度因為導致生成另外的事實行而違背了這個基本的粒度定義,那么必須對粒度定義進行修改以適應維度的情形。四、確定事實。將可能需要分析的以及題目中明確提出的問題組合起來,這些就是事實,一般來說事實都是可加的,也即是說同一個事實中的數(shù)據(jù)相加是有意義的,當然不排除有些百分比或者比率作為事實,這些就不可加了。由于維度的屬性并不是靜

18、態(tài)不變的,而是隨著時間的流逝而緩慢變化的,這樣就需要處理緩慢變化維的問題。緩慢變化維的解決方案有以下幾種方式8:變化類型1:當一個維度值的源發(fā)生變化,并且不需要在星型模式中保留變化歷史時,通常采用新數(shù)據(jù)來覆蓋舊數(shù)據(jù),這個方法有個前提,那就是用戶不關心這個數(shù)據(jù)的變化或者這個數(shù)據(jù)是錯誤數(shù)據(jù)。舉個例子來說:下表中的用戶出生日期本來應該是1992年3月8日,但是輸入時出現(xiàn)錯誤,這就要對數(shù)據(jù)進行修改,需要使用變化類型1直接修改數(shù)據(jù),用新數(shù)據(jù)覆蓋舊數(shù)據(jù),而不是使用別的變化類型來解決下表發(fā)生的錯誤。該類型變化有很多缺陷,比如:該方法產(chǎn)生的信息與先前存在的信息不一樣,在開發(fā)報表的時候如果沒有注明執(zhí)行日期可能會

19、出現(xiàn)混亂;該方法存在不能跟蹤維度歷史的問題。用戶ID用戶名字出生日期住址修改前114李克西8/9/1998浙大軟院用戶ID用戶名字出生日期住址修改后114李克西8/3/1992浙大軟院變化類型2:絕大多數(shù)的操作系統(tǒng)的變化采用的是保留事實的歷史環(huán)境,并插入新的維度行。 這樣用戶就能查詢到歷史情況,便于用戶對比數(shù)據(jù),從而發(fā)現(xiàn)問題。舉個例子來說:下表中用戶搬了家,從浙大軟院搬去了上海靜安區(qū),那么就不能向上面那樣在原來的數(shù)據(jù)上進行修改了,而是要再增加一行記錄來存儲信息變化。雖然多數(shù)操作系統(tǒng)都采用這種變化類型,但是它可能會給用戶帶來一些困惑,比如說:維度表中包含重復的信息怎么解決,可以通過在select

20、語句中包含distinct來處理;給定的某一自然鍵在維度表中有多條記錄,但不知道何時采用哪一種表示是正確的,這時候就可以引入時間戳來解決問題。編號用戶ID用戶名字出生日期住址修改前115849114李克西8/3/1992浙大軟院編號用戶ID用戶名字出生日期住址修改后115849114李克西8/3/1992浙大軟院116748114李克西8/3/1992上海靜安區(qū)變化類型3:用不同的字段來保存不同的值,實際上就是在后面添加一個字段,這個字段用來保存變化后的當前值,而原來的值則被稱為變化前的值,總的來說這種方法通過添加字段來保存變化后的痕跡,但是這種方法不能像第二種方式一樣保存所有的變化記錄,它只

21、能保存不超過兩次的維度。在我看來,這個變化類型就是變化類型2的衍生產(chǎn)物,實用性比變化類型2差多了,除了節(jié)約存儲空間外,并沒有什么用,而且對歷史的保存還有條件限制,雖然不推薦這個變化類型,但是還是舉個通俗易懂的例子來解釋下:就拿上面的例子來說,用戶的住址變成上海靜安區(qū)后,就在原來的記錄末尾添加一個字段說明更新后的地址已經(jīng)變成上海靜安區(qū)就行了。編號用戶ID用戶名字出生日期住址修改前115849114李克西8/3/1992浙大軟院編號用戶ID用戶名字出生日期原住址現(xiàn)住址修改后115849114李克西8/3/1992浙大軟院上海靜安區(qū)變化類型4:另外建一個表來保存歷史記錄,這種方式就是將歷史數(shù)據(jù)與當前

22、數(shù)據(jù)完全分開來,在維度中只保存當前的數(shù)據(jù)。從實用性角度以及數(shù)據(jù)倉庫設計初衷來看,這一變化類型有點偏離了設計初衷,也沒有什么實用性。由于它還是屬于緩慢變化維的解決方案的,所以也舉個例子來說明一下:用戶搬家去上海靜安區(qū)了,那么他之前的那個數(shù)據(jù)記錄放到另外一個歷史數(shù)據(jù)庫中,而將現(xiàn)今的這條記錄放在維度表中。這種方法只記錄了歷史的變化痕跡,對于統(tǒng)計運算一點幫助也沒有。編號用戶ID用戶名字出生日期住址維度表115849114李克西8/3/1992浙大軟院編號用戶ID用戶名字出生日期住址歷史表115849114李克西8/3/1992上海靜安區(qū)變化類型5:混合模式,也就是上述幾種類型的混合體,與上面幾種相比較

23、,這種混合模式更加全面,更能應對錯綜復雜而且容易變化的用戶需求,它也是較為常用的一種變化類型。舉個例子來說:將現(xiàn)今搬家的那條記錄用時間戳和標記來做記號,并且對是否是最新的信息也進行判斷,這樣就從多個角度對信息進行說明了。這種方法的優(yōu)點是:一、能用簡單的過濾條件選出維度當前的值;二、能較容易的關聯(lián)出歷史任意一時刻事實數(shù)據(jù)的值;三、如果事實表中有時間字段,那么就能容易的選擇哪一條維度數(shù)據(jù)來進行關聯(lián)分析了。但是這種方式也有其弊端存在,那就是事實表與維表之間不是多對一關系,而是多對多關系,這種關系不能在建模的時候解決,只能在報表層面進行解決,需要在報表運行時解決,并且在BI語意層建模時添加時間過濾條件

24、,這樣操作比較繁瑣。標識編號用戶ID用戶名住址開始時間結束時間是否最新1115849114李克西浙大軟院1/9/201523/4/2016否2116748114李克西上海靜安區(qū)26/4/20169/9/9999是變化類型6:非常規(guī)混合模型。就是給出一個版本號來標識數(shù)據(jù)是否為當前存儲值,如果是,那么版本號為0;如果不是,那么版本號為非0。當插入數(shù)據(jù)的時候就會對之前的數(shù)據(jù)版本號進行修改,沒插入一次,對應的歷史記錄的版本號就會增加一,這樣用戶就可以通過版本號來查詢指定歷史數(shù)據(jù)。舉個例子來說:用戶之前是住在浙大軟院的,現(xiàn)在他去了上海靜安區(qū),這時候,浙大軟院的記錄就是歷史數(shù)據(jù)了,它的版本號會被改寫成1,

25、改寫后插入新的記錄上海靜安區(qū),這樣就保證了每次插入新的記錄的版本號都是0,歷史數(shù)據(jù)的版本號會跟著插入記錄的對應條數(shù)而增加,方便了對歷史數(shù)據(jù)的管理。要注意的是,在事實表中插入的數(shù)據(jù)的版本號全都是0,因為它都是當前進行的統(tǒng)計,用戶版本會隨著用戶信息維度表中的版本號進行改變。這樣就實現(xiàn)了事實表與維度表之間多對多關系了,同時它還有一個優(yōu)點就是能保證事實表與維表之間的參照完整性,只需要將版本號和用戶編號作為復合主鍵在兩實體之間建立連接就可以了。用戶信息維度表版本編號用戶ID用戶名住址開始時間結束時間1115849114李克西浙大軟院1/9/201523/4/20160116748114李克西上海靜安區(qū)2

26、6/4/20169/9/9999購物事實表標識用戶外鍵用戶版本物品名個數(shù)購買時間11167480書包1個26/4/201621167480旺仔牛奶1箱26/4/2016以上就是緩慢變化維的6種解決方法,其中推薦使用的是變化類型1、變化類型2以及變化類型6,其中變化類型1用在輸入錯誤或者不關心的數(shù)據(jù)變化中,類型變化2和類型變化6是經(jīng)常用的兩種變化類型。5 數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫比較數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫存在很多不同的地方:一、開發(fā)方法不同9。傳統(tǒng)數(shù)據(jù)庫領域依賴一種規(guī)范的瀑布方式來進行系統(tǒng)開發(fā),而數(shù)據(jù)倉庫要求以一種迂回式的、螺旋式的方法來進行系統(tǒng)開發(fā)。數(shù)據(jù)倉庫最吸引人的一個方面就是最終用戶不需要長時間

27、等待就能看到答案;二、事務處理完全不同。傳統(tǒng)數(shù)據(jù)庫的事務處理運行在一個固定的基礎上,通常只需要2-3秒時間即可展示一個可預測的訪問模式。與此相反,數(shù)據(jù)倉庫的事務處理既可在短時間內(nèi)也可在長時間內(nèi)運行,并且它展示的是一個不可預測的訪問模式;三、數(shù)據(jù)倉庫的目標是高層的決策支持。數(shù)據(jù)倉庫的目標是面向高層的決策支持,服務于企業(yè)內(nèi)高層的決策者、部門經(jīng)理和商務規(guī)劃人員,用戶較少,主要功能是為OLAP提供支持;而傳統(tǒng)數(shù)據(jù)庫是面向OLTP的,服務于辦事員和業(yè)務執(zhí)行人員。從傳統(tǒng)數(shù)據(jù)庫中獲得的決策是短時性的,從數(shù)據(jù)倉庫中獲得的決策則是長期性的、戰(zhàn)略性的;四、數(shù)據(jù)倉庫數(shù)據(jù)面向主題。數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題進行組織的

28、。主題是一個抽象的概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象。在邏輯意義上,它對應于企業(yè)中某一宏觀分析領域所涉及的分析對象。面向主題的數(shù)據(jù)組織方式就是在較高層次上對分析對象的數(shù)據(jù)進行完整、一致的描述,完整統(tǒng)一地刻畫各個分析對象所涉及的企業(yè)的各項數(shù)據(jù)以及數(shù)據(jù)之間的聯(lián)系。傳統(tǒng)數(shù)據(jù)庫是面向應用的,它只能按應用的觀點來組織數(shù)據(jù),目的是要反映一個企業(yè)內(nèi)數(shù)據(jù)的動態(tài)特征,便于表達每個部門的實際業(yè)務處理的數(shù)據(jù)流程。在對各部門的數(shù)據(jù)進行詳細調(diào)查、收集時,調(diào)查的重點是數(shù)據(jù)和處理。這樣做的主要目的是提高日常業(yè)務處理的速度和準確性,提高服務質(zhì)量;五、數(shù)據(jù)倉庫包含了歷史數(shù)據(jù)和各級匯總數(shù)據(jù)。

29、傳統(tǒng)數(shù)據(jù)庫的事務處理一般只需要當前數(shù)據(jù),在數(shù)據(jù)庫中一般只存儲短期數(shù)據(jù),且不同數(shù)據(jù)的保存期也不一樣。即使有一些歷史數(shù)據(jù)保存下來了,也被束之高閣,未得到充分利用。但對于決策分析而言,歷史數(shù)據(jù)是相當重要的。數(shù)據(jù)倉庫的根本特征之一就是進行長時間的歷史數(shù)據(jù)存儲,一般5-10年。這使得我們可以進行數(shù)據(jù)的長期趨勢分析,為決策者的長期決策行為提供重要的支持。同時,數(shù)據(jù)倉庫還包含了細節(jié)數(shù)據(jù)和匯總數(shù)據(jù)。一般而言,分析工具并不直接對細節(jié)數(shù)據(jù)進行分析,主要原因有二個:1、細節(jié)數(shù)據(jù)量太大,會嚴重影響分析效率;2、太多的細節(jié)數(shù)據(jù)不利于分析人員把精力集中到有用的信息上。因此,在分析前,需要對細節(jié)數(shù)據(jù)進行不同程度的匯總。匯總可以是對相同時間和類型數(shù)據(jù)的匯總,也可以是一段時間內(nèi)數(shù)據(jù)的匯總。對匯總后的數(shù)據(jù)還可以再次匯總,一直循環(huán)下去,構成一個數(shù)據(jù)概括層次,即可以包含輕度匯總、中度匯總、高度匯總等多種層次的數(shù)據(jù)。這些匯總后的數(shù)據(jù)都以實視圖的形式存儲在數(shù)據(jù)倉庫中。傳統(tǒng)數(shù)據(jù)庫不具備這種綜合能力。根據(jù)規(guī)范化理論,這種綜合還往往是因為一種數(shù)據(jù)冗余而被加以限制。六、查詢特點。數(shù)據(jù)倉庫的操作主要是查詢。由于數(shù)據(jù)倉庫的體系結構希望分析工具能挖掘出數(shù)據(jù)的變化趨勢、關聯(lián)規(guī)則等信息,所訪問

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論