版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Group 4 Chapter1-3CH11.數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的本質(zhì)差別是什么?答:數(shù)據(jù)庫(kù)用于事務(wù)處理,數(shù)據(jù)倉(cāng)庫(kù)用來(lái)決策分析。2.從數(shù)據(jù)庫(kù)發(fā)展到數(shù)據(jù)倉(cāng)庫(kù)的原因是什么?答:數(shù)據(jù)太多,信息貧乏。異構(gòu)環(huán)境數(shù)據(jù)的轉(zhuǎn)換和共享。利用數(shù)據(jù)進(jìn)行事務(wù)處理轉(zhuǎn)變?yōu)槔脭?shù)據(jù)支持決策。3.舉例說(shuō)明數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的不同答:數(shù)據(jù)庫(kù)(DB)數(shù)據(jù)倉(cāng)庫(kù)(DW)面向應(yīng)用面向主題數(shù)據(jù)是詳細(xì)的數(shù)據(jù)是綜合的和歷史的保持當(dāng)前數(shù)據(jù)保存過(guò)去和現(xiàn)在的數(shù)據(jù)數(shù)據(jù)是可更新的數(shù)據(jù)不更新對(duì)數(shù)據(jù)操作是重復(fù)的對(duì)數(shù)據(jù)的操作是啟發(fā)式的操作需求是事先可知的操作需求是臨時(shí)決定的一個(gè)操作存取一個(gè)記錄一個(gè)操作存取一個(gè)集合數(shù)據(jù)非冗余數(shù)據(jù)時(shí)常冗余操作比較頻繁操作相對(duì)不頻繁
2、查詢(xún)基本是原始數(shù)據(jù)查詢(xún)基本是經(jīng)過(guò)加工的數(shù)據(jù)事務(wù)處理需要的是當(dāng)前數(shù)據(jù)決策分析需要過(guò)去和現(xiàn)在的數(shù)據(jù)很少有復(fù)雜的計(jì)算有很多復(fù)雜的計(jì)算支持事務(wù)處理支持決策分析4. 答:Oltp 聯(lián)機(jī)事務(wù)處理,就是我們通常所說(shuō)的關(guān)系型數(shù)據(jù)庫(kù),記錄了實(shí)時(shí)的增刪改查數(shù)據(jù)。Olap 聯(lián)機(jī)分析處理,是數(shù)據(jù)倉(cāng)庫(kù)的核心,是對(duì)oltp的歷史數(shù)據(jù)進(jìn)行加工,分析處理,用于處理商業(yè)智能,決策支持等重要的決策信息。5.答:oltp是用戶(hù)數(shù)據(jù)可以立即傳送到計(jì)算中心進(jìn)行處理,并在很短時(shí)間內(nèi)給出處理結(jié)果。它主要用于包括銀行業(yè)、航空、郵購(gòu)訂單、超級(jí)市場(chǎng)和制造業(yè)等的輸入數(shù)據(jù)和取回交易數(shù)據(jù)。事務(wù)處理量大,要求多個(gè)并行處理,事務(wù)處理內(nèi)容比較簡(jiǎn)單切重復(fù)率高
3、。大量的數(shù)據(jù)操作主要涉及的是一些增刪改查詢(xún)等操作,每次操作的數(shù)據(jù)量不打且多為當(dāng)前的數(shù)據(jù)。Oltp處理的數(shù)據(jù)是高度結(jié)構(gòu)化的,數(shù)據(jù)訪(fǎng)問(wèn)路徑是已知的,至少是固定的。6. 答:1.oltp 是明細(xì)的數(shù)據(jù),olap 是匯總數(shù)據(jù)2.oltp 記錄實(shí)時(shí)的數(shù)據(jù),olap 包含2-3年歷史數(shù)據(jù)3.oltp 可以進(jìn)行增刪改查操作,olap 只支持查詢(xún),但周期性刷新。4.oltp一次性處理的數(shù)據(jù)量少,olap一次處理的數(shù)據(jù)量大5.oltp對(duì)響應(yīng)時(shí)間要求高,olap響應(yīng)時(shí)間合理6.oltp面向應(yīng)用,事務(wù)驅(qū)動(dòng),olap面向分析,分析驅(qū)動(dòng)7. 數(shù)據(jù)庫(kù)中數(shù)據(jù)字典包括哪些內(nèi)容? P4-5答:數(shù)據(jù)字典是指對(duì)中舉的數(shù)據(jù)項(xiàng)、數(shù)據(jù)結(jié)
4、構(gòu)、數(shù)據(jù)流、數(shù)據(jù)存儲(chǔ)、和處理過(guò)程8.元數(shù)據(jù)的定義是什么? P5答:元數(shù)據(jù)為關(guān)于數(shù)據(jù)的數(shù)據(jù)(data about data)。元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中式描述數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)及其環(huán)境的數(shù)據(jù)。元數(shù)據(jù)描述了數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)和環(huán)境,遍及數(shù)據(jù)倉(cāng)庫(kù)的所有方面,是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的核心。9.元數(shù)據(jù)與數(shù)據(jù)字典的關(guān)系是什么? P5答:元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中不僅定義了數(shù)據(jù)倉(cāng)庫(kù)有什么,還指明了數(shù)據(jù)倉(cāng)庫(kù)中信息的內(nèi)容和位置,刻畫(huà)了數(shù)據(jù)的抽取盒轉(zhuǎn)換規(guī)則的說(shuō)明,存儲(chǔ)了與數(shù)據(jù)倉(cāng)庫(kù)主題有關(guān)的各種商業(yè)信息,而且整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行都是基于元數(shù)據(jù)的,如數(shù)據(jù)的修改、跟蹤、抽取、裝入、綜合以及使用等。由于元數(shù)據(jù)遍及數(shù)據(jù)倉(cāng)庫(kù)的所有方面,因此它已成為整個(gè)數(shù)據(jù)倉(cāng)
5、庫(kù)的核心。10數(shù)據(jù)倉(cāng)庫(kù)的定義是什么?W.H.Inmon對(duì)數(shù)據(jù)倉(cāng)庫(kù)的定義:數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、不同時(shí)間的數(shù)據(jù)集合,用于支持經(jīng)營(yíng)管理中決策制定過(guò)程。SAS軟件研究所的觀點(diǎn):數(shù)據(jù)倉(cāng)庫(kù)是一種管理技術(shù),旨在通過(guò)通暢、合理、全面的信息管理,達(dá)到有效的決策支持。11數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)有哪些?從數(shù)據(jù)倉(cāng)庫(kù)的定義可以看出數(shù)據(jù)倉(cāng)庫(kù)具有如下特點(diǎn):(1) 數(shù)據(jù)倉(cāng)庫(kù)是面向主題的主題是數(shù)據(jù)歸類(lèi)的標(biāo)準(zhǔn),每一個(gè)主題基本對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域。例如,保險(xiǎn)公司的數(shù)據(jù)倉(cāng)庫(kù)的主題為客戶(hù)、政策、保險(xiǎn)金、索賠等。(2) 數(shù)據(jù)倉(cāng)庫(kù)是集成的數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,必須經(jīng)過(guò)加工與集成。對(duì)不同的數(shù)據(jù)來(lái)源進(jìn)行統(tǒng)一數(shù)據(jù)結(jié)構(gòu)和編碼。統(tǒng)一原始
6、數(shù)據(jù)中的所有矛盾之處,如字段的同名異義、異名同義、單位不統(tǒng)一、字長(zhǎng)不一致等??傊瑢⒃紨?shù)據(jù)結(jié)構(gòu)做一個(gè)從面向應(yīng)用到面向主題的大轉(zhuǎn)變。(3) 數(shù)據(jù)倉(cāng)庫(kù)是穩(wěn)定的數(shù)據(jù)倉(cāng)庫(kù)中包括了大量的歷史數(shù)據(jù)。數(shù)據(jù)經(jīng)集成進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)后是極少或根本不更新的。(4) 數(shù)據(jù)倉(cāng)庫(kù)是隨時(shí)間變化的數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的數(shù)據(jù)時(shí)限在510年,故數(shù)據(jù)的鍵碼包含時(shí)間項(xiàng),標(biāo)明數(shù)據(jù)的歷史時(shí)期,這適合決策分析時(shí)進(jìn)行時(shí)間趨勢(shì)分析。(5) 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量很大通常的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量為10GB級(jí),相當(dāng)于一般數(shù)據(jù)庫(kù)(約100MB)的100倍,大型數(shù)據(jù)倉(cāng)庫(kù)是1TB(1000GB)級(jí)數(shù)據(jù)量。(6) 數(shù)據(jù)倉(cāng)庫(kù)軟硬件要求較高需要一個(gè)巨大的硬件平臺(tái)和一個(gè)并行的數(shù)據(jù)庫(kù)
7、系統(tǒng)。12說(shuō)明機(jī)器學(xué)習(xí)如何形成人工智能的學(xué)科方向。學(xué)習(xí)是人類(lèi)具有的智能行為,主要目的在于獲取知識(shí)。機(jī)器學(xué)習(xí)是研究使計(jì)算機(jī)模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,即讓計(jì)算機(jī)通過(guò)算法自動(dòng)獲取知識(shí)。20世紀(jì)60年代開(kāi)始了機(jī)器學(xué)習(xí)的研究。比較典型的成果有:Rosenblate的感知機(jī),它是最早用神經(jīng)網(wǎng)絡(luò)進(jìn)行模式識(shí)別的方法;Sammel的西洋跳棋程序,它用線(xiàn)性表達(dá)式的啟發(fā)式方法,通過(guò)多次人機(jī)對(duì)弈,自動(dòng)修改表達(dá)式中的系數(shù),使程序逐漸聰明,該程序竟然取得了勝過(guò)作者和州冠軍的成績(jī)。20世紀(jì)80年代,機(jī)器學(xué)習(xí)取得了較大的成果。Michelski等人的AQ11系統(tǒng)(1980),能從大量病例中歸納出大豆病癥的判斷規(guī)則。AQ11是
8、一個(gè)很成功的歸納學(xué)習(xí)方法;Quiulan的ID3(1983)決策樹(shù)方法影響很大,實(shí)用性很強(qiáng);Langley等人的BACON系統(tǒng)(1987)能重新發(fā)現(xiàn)物理學(xué)的大量規(guī)律;Rumelhart等人研制的反向傳播神經(jīng)網(wǎng)絡(luò)BP模型(1985)為神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)開(kāi)創(chuàng)了一個(gè)新階段。這些顯著成果的出現(xiàn),使“機(jī)器學(xué)習(xí)”逐漸形成了人工智能的主要學(xué)科方向之一。1-13.數(shù)據(jù)庫(kù)中每個(gè)數(shù)據(jù)記錄的內(nèi)含代表了該記錄的信息。而數(shù)據(jù)挖掘是從數(shù)據(jù)庫(kù)中所有數(shù)據(jù)記錄中歸納總結(jié)出知識(shí)。知識(shí)的數(shù)量大大少于數(shù)據(jù)記錄量。這些知識(shí)代表了數(shù)據(jù)庫(kù)中數(shù)據(jù)信息的規(guī)律,即用少量知識(shí)能夠覆蓋數(shù)據(jù)庫(kù)中所有的記錄。1-14OLAP的典型應(yīng)用例子:OLAP平時(shí)需要
9、查詢(xún)大量的日常商業(yè)活動(dòng)信息,如每周的布匹購(gòu)買(mǎi)量、每周布匹的內(nèi)部庫(kù)存以及布匹的銷(xiāo)售量等。OLAP更需要查詢(xún)商業(yè)活動(dòng)的變化情況,如每周布匹購(gòu)買(mǎi)量的變化值、衣服生產(chǎn)量的變化值、衣服銷(xiāo)售價(jià)格的變化等。這些變化值對(duì)經(jīng)理們制定決策更重要。經(jīng)理們往往從查詢(xún)出的變化值中,通過(guò)OLAP追蹤查詢(xún)找出存在的原因。例如,經(jīng)理看到利潤(rùn)小于預(yù)計(jì)值的時(shí)候,他可能會(huì)深入到各個(gè)國(guó)家,于是他自然就會(huì)查看這些國(guó)家中不同產(chǎn)品組的利潤(rùn)情況,總的目標(biāo)就是尋找一些比較異常的數(shù)據(jù)來(lái)解釋某種現(xiàn)象。經(jīng)過(guò)一番觀察之后,就會(huì)發(fā)現(xiàn)非直接成本在這些國(guó)家明顯偏高。進(jìn)一步對(duì)這些非直接成本進(jìn)行分析,可以發(fā)現(xiàn)近期對(duì)于某些產(chǎn)品的賦稅明顯增加,從而明顯影響了最終利
10、潤(rùn)。1-15.OLAP是在帶層次的維度和跨維度進(jìn)行多維數(shù)據(jù)分析的。數(shù)據(jù)挖掘則不同,它是以變量和記錄為基礎(chǔ)進(jìn)行分析的。數(shù)據(jù)挖掘任務(wù)在于聚類(lèi)(如神經(jīng)網(wǎng)絡(luò)聚類(lèi))、分類(lèi)(如決策樹(shù)分類(lèi))、預(yù)測(cè)等。這些是帶有探索性的建模功能。數(shù)據(jù)挖掘在于尋找不平常的且有用的商業(yè)運(yùn)作模型。數(shù)據(jù)挖掘用在產(chǎn)生假設(shè),OLAP則用于查證假設(shè)。簡(jiǎn)單來(lái)說(shuō),OLAP是由使用者所主導(dǎo),使用者先有一些假設(shè),然后利用OLAP來(lái)查證假設(shè)是否成立;而數(shù)據(jù)挖掘則是用來(lái)幫助使用者產(chǎn)生假設(shè)。所以在使用OLAP或其它Query的工具時(shí),使用者是自己在做探索(Exploration),但數(shù)據(jù)挖掘是用工具在幫助做探索。數(shù)據(jù)挖掘常能挖掘出超越歸納范圍的關(guān)系,但
11、OLAP僅能利用人工查詢(xún)及可視化的報(bào)表來(lái)確認(rèn)某些關(guān)系,是以數(shù)據(jù)挖掘此種自動(dòng)找出甚至不會(huì)被懷疑過(guò)的數(shù)據(jù)模型與關(guān)系的特性,事實(shí)上已超越了我們經(jīng)驗(yàn)、教育、想象力的限制,OLAP可以和數(shù)據(jù)挖掘互補(bǔ),但這項(xiàng)特性是數(shù)據(jù)挖掘無(wú)法被OLAP取代的。總之,數(shù)據(jù)挖掘是智能化的OLAP。16.舉例說(shuō)明統(tǒng)計(jì)學(xué)的價(jià)值。答:統(tǒng)計(jì)學(xué)不僅僅限于學(xué)術(shù)上的研究,他對(duì)于國(guó)家發(fā)展,經(jīng)濟(jì),政治,自然等等都有它獨(dú)特的作用。如工業(yè)統(tǒng)計(jì)學(xué)、農(nóng)業(yè)統(tǒng)計(jì)學(xué)、生物統(tǒng)計(jì)學(xué)、醫(yī)藥統(tǒng)計(jì)學(xué)、人口統(tǒng)計(jì)學(xué)、空間統(tǒng)計(jì)學(xué)等,都發(fā)揮著重要的作用。例如,實(shí)驗(yàn)中研究某種實(shí)驗(yàn)結(jié)果的可靠性,需要用統(tǒng)計(jì)學(xué)知識(shí)來(lái)處理實(shí)驗(yàn)數(shù)據(jù);統(tǒng)計(jì)學(xué)應(yīng)用于農(nóng)業(yè)實(shí)驗(yàn)的設(shè)計(jì)和分析中來(lái)研究各種品種的中
12、醫(yī)的增產(chǎn)效果;在醫(yī)藥學(xué)中,關(guān)于吸煙與肺癌發(fā)病率聯(lián)系的分析、關(guān)于某種新藥效果的研究,都普遍使用到了統(tǒng)計(jì)學(xué)的知識(shí)。例1:在醫(yī)藥學(xué)中,關(guān)于吸煙與肺癌發(fā)病率聯(lián)系的分析、關(guān)于某種新藥效果的研究,都普遍使用統(tǒng)計(jì)方法;19世紀(jì)中葉基因?qū)W說(shuō)的創(chuàng)立,也是依賴(lài)于統(tǒng)計(jì)推斷技術(shù)例2:2005年3月16日上證的平均指數(shù)中30支股票的市盈率是21.08。東方電子集團(tuán)有限公司的市盈率是17.92。這時(shí),市盈率方面的統(tǒng)計(jì)信息顯示:與上證指數(shù)股票的平均收入相比,東方電子集團(tuán)有限公司的股票價(jià)格較低。因此,投資顧問(wèn)可以得出結(jié)論:東方電子集團(tuán)有限公司的現(xiàn)行價(jià)格低估了。這一點(diǎn)以及其他有關(guān)東方電子集團(tuán)有限公司的信息有助于投資顧問(wèn)做出買(mǎi)入
13、、賣(mài)出還是持股的建議。例3:零售付賬柜臺(tái)使用電子掃描儀收集數(shù)據(jù),可供各種營(yíng)銷(xiāo)研究應(yīng)用。市場(chǎng)調(diào)查公司或營(yíng)銷(xiāo)專(zhuān)家需要的各種數(shù)據(jù),都可以從零售商店購(gòu)買(mǎi)銷(xiāo)售點(diǎn)的掃描記錄中獲得,他們經(jīng)過(guò)處理后,會(huì)把這些數(shù)據(jù)的統(tǒng)計(jì)匯總信息賣(mài)給制造商。產(chǎn)品公司經(jīng)理們可以檢查并評(píng)論掃描得到的數(shù)據(jù)以及促銷(xiāo)活動(dòng)的相關(guān)數(shù)字,從而更好地理解銷(xiāo)售與促銷(xiāo)活動(dòng)之間的關(guān)系。17說(shuō)明統(tǒng)計(jì)學(xué)應(yīng)用于數(shù)據(jù)挖掘中所包含的內(nèi)容。答:(1)常用統(tǒng)計(jì)在大量數(shù)據(jù)中求最大值、最小值、總和、平均值等。(2)相關(guān)分析通過(guò)求變量間的相關(guān)系數(shù)來(lái)確定變量間的相關(guān)程度。(3)回歸分析建立回歸方程以表示變量間的數(shù)量關(guān)系,并利用其來(lái)進(jìn)行預(yù)測(cè)。(4)假設(shè)檢驗(yàn)在總體存在某種不確定
14、情況是,為推斷總體的某些性質(zhì),提出關(guān)于總體的某些假設(shè),對(duì)此假設(shè)利用置信區(qū)間來(lái)檢驗(yàn)。(5)聚類(lèi)分析對(duì)樣本或變量進(jìn)行聚類(lèi)的方法。(6)判別分析建立一個(gè)或多個(gè)判別函數(shù),并確定一個(gè)判別標(biāo)準(zhǔn)。(7)主成分分析把多個(gè)變量化為少數(shù)的幾個(gè)綜合變量,而這幾個(gè)綜合變量可以反映原來(lái)多個(gè)變量的大量信息。18說(shuō)明統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘的不同。答:統(tǒng)計(jì)學(xué)主要是對(duì)數(shù)量數(shù)據(jù)或連續(xù)值數(shù)據(jù)進(jìn)行數(shù)值計(jì)算的定量分析,得到數(shù)量信息;數(shù)據(jù)挖掘主要對(duì)離散數(shù)據(jù)進(jìn)行定性分析,得到規(guī)則知識(shí)。統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘中聚類(lèi)分析和判別分析采用的標(biāo)準(zhǔn)不一樣。統(tǒng)計(jì)學(xué)的聚類(lèi)采用的“距離”是歐式距離;而數(shù)據(jù)挖掘的聚類(lèi)采用的“距離”是漢明距離。19 區(qū)別: 數(shù)據(jù)倉(cāng)庫(kù)在數(shù)據(jù)
15、庫(kù)的基礎(chǔ)上發(fā)展起來(lái)的。它將大量的數(shù)據(jù)庫(kù)數(shù)據(jù)按決策需求進(jìn)行重新組織,以數(shù)據(jù)倉(cāng)庫(kù)的形式進(jìn)行存儲(chǔ),為用戶(hù)提供輔助決策的隨機(jī)查詢(xún)、綜合信息以及隨時(shí)間變化的趨勢(shì)分析信息等。 數(shù)據(jù)倉(cāng)庫(kù)是一種存儲(chǔ)技術(shù),其數(shù)據(jù)存儲(chǔ)量是數(shù)據(jù)庫(kù)100倍,包含大量的歷史數(shù)據(jù)、當(dāng)前的詳細(xì)數(shù)據(jù)以及綜合數(shù)據(jù)。它能適用不同用戶(hù)對(duì)不同決策需要提供所需的數(shù)據(jù)和信息。 數(shù)據(jù)挖掘從人工智能機(jī)器學(xué)習(xí)中發(fā)展起來(lái)。研究各種方法和技術(shù),從大量數(shù)據(jù)中挖掘出有用的信息和知識(shí)。數(shù)據(jù)挖掘采用統(tǒng)計(jì)分析法。神經(jīng)網(wǎng)絡(luò)方法和機(jī)器學(xué)習(xí)中研究的方法。聯(lián)系:都是決策支持新技術(shù),可以結(jié)合起來(lái)以幫助決策用戶(hù)挖掘數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)中隱含的規(guī)律性。數(shù)據(jù)挖掘用于數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)決策支持,具體表現(xiàn)
16、為:(1) 預(yù)測(cè)客戶(hù)購(gòu)買(mǎi)傾向;(2) 進(jìn)行客戶(hù)利潤(rùn)度貢獻(xiàn)分析;(3) 分析欺詐行為;(4) 進(jìn)行銷(xiāo)售渠道優(yōu)化分析等。20 數(shù)據(jù)庫(kù)是一個(gè)長(zhǎng)期存儲(chǔ)在計(jì)算機(jī)內(nèi)的、有組織的、有共享的、統(tǒng)一管理的數(shù)據(jù)集合。數(shù)據(jù)倉(cāng)庫(kù),是決策支持系統(tǒng)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉(cāng)庫(kù)研究和解決從數(shù)據(jù)庫(kù)中獲取信息的問(wèn)題。 數(shù)據(jù)挖掘的興起是針對(duì)數(shù)據(jù)庫(kù)的。 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)在數(shù)據(jù)存儲(chǔ)等方面有諸多不同。數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)存儲(chǔ)按決策分析需求,這種需求是以決策主題為對(duì)象的,從而給予數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘更加面向主體化,更適合應(yīng)用與決策分析。 數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)存儲(chǔ)量比數(shù)據(jù)庫(kù)大很多,按決策主題組織,保留大量歷史數(shù)據(jù),更適合于預(yù)測(cè)分析,并且對(duì)
17、近期基本數(shù)據(jù)進(jìn)行了輕度、高度綜合,使得分析效率更高,更便于提取有用數(shù)據(jù)。 數(shù)據(jù)庫(kù)使用關(guān)系型二維存儲(chǔ)格式,數(shù)據(jù)倉(cāng)庫(kù)采用多為超立方體結(jié)構(gòu)存儲(chǔ),相較于二維存儲(chǔ)可以挖掘多維數(shù)據(jù)知識(shí)。21 數(shù)據(jù)挖掘從數(shù)據(jù)倉(cāng)庫(kù)中挖掘的信息: (1)哪些商品儀器銷(xiāo)售好? (2)偏愛(ài)某類(lèi)商品的客戶(hù)特征是什么? (3)還有那些客戶(hù)具有向上述特征? (4)那些商業(yè)事務(wù)處理可能有欺詐性? (5)高價(jià)值客戶(hù)的共同點(diǎn)是什么?22.數(shù)據(jù)倉(cāng)庫(kù)對(duì)數(shù)據(jù)挖掘提出了哪些新要求?答:1)數(shù)據(jù)挖掘需要可擴(kuò)展性: 數(shù)據(jù)挖掘?qū)?shù)據(jù)倉(cāng)庫(kù)的應(yīng)用一般使用的數(shù)據(jù)是詳細(xì)數(shù)據(jù),不用綜合數(shù)據(jù),因?yàn)榫C合數(shù)據(jù)“平滑”了數(shù)據(jù)間的差別,從而無(wú)法發(fā)現(xiàn)單個(gè)數(shù)據(jù)項(xiàng)目之間的微妙相關(guān)性
18、。 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)隨著時(shí)間的推移逐漸增長(zhǎng)。這樣,數(shù)據(jù)挖掘方法就應(yīng)該具有可擴(kuò)展性,能夠處理遞增的數(shù)據(jù)量。 2)數(shù)據(jù)挖掘方法需要挖掘多維知識(shí): 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)模型是多維數(shù)據(jù)知識(shí),它不同于數(shù)據(jù)庫(kù)的二維數(shù)據(jù)組織。數(shù)據(jù)挖掘應(yīng)用到數(shù)據(jù)倉(cāng)庫(kù)時(shí)需要能挖掘多維數(shù)據(jù)知識(shí)。23.數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘在決策支持方面有什么不同?答:聯(lián)機(jī)分析處理專(zhuān)門(mén)用于支持復(fù)雜的分析操作,側(cè)重對(duì)分析人員和高層管理人員的決策支持,可以應(yīng)分析人員的要求快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜處理,并且以一種直觀易懂的形式將查詢(xún)結(jié)果提供給決策指定人。聯(lián)機(jī)分析處理可以使決策者從多方面和多角度,以多維的形式來(lái)觀察企業(yè)的狀態(tài)和了解企業(yè)的變化。
19、聯(lián)機(jī)分析處理的功能和算法包括聚合、分配、比率、乘積等描述性的建模功能。數(shù)據(jù)挖掘在于尋找不平常且有用的商業(yè)運(yùn)作模型??疾閿?shù)據(jù)的不同類(lèi)型或者找出變量之間的關(guān)系。數(shù)據(jù)挖掘需要海量數(shù)據(jù),主要是詳細(xì)數(shù)據(jù)和歷史數(shù)據(jù)。數(shù)據(jù)挖掘主要進(jìn)行聚類(lèi)、分類(lèi)、預(yù)測(cè)等探索性的建模功能。而數(shù)據(jù)倉(cāng)庫(kù)是一種存儲(chǔ)技術(shù)。數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)著大量輔助決策的數(shù)據(jù),它為不同的用戶(hù)隨時(shí)提供各種輔助決策的隨機(jī)查詢(xún)、綜合信息或趨勢(shì)分析信息。用戶(hù)利用這些信息和知識(shí)來(lái)指導(dǎo)和幫助決策。聯(lián)機(jī)分析處理以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)為決策人員提供快速靈活的數(shù)據(jù)分析;數(shù)據(jù)挖掘則是利用各種方法和技術(shù)從數(shù)據(jù)倉(cāng)庫(kù)中挖掘出信息和知識(shí),反映數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的規(guī)律性??偠灾?lián)機(jī)分析處理
20、和數(shù)據(jù)挖掘都是以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)輔助決策,只是方式不同。24.基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)的組成是什么?數(shù)據(jù)倉(cāng)庫(kù)(DW)、聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘(DM)相結(jié)合的決策支持系統(tǒng),是以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的決策支持系統(tǒng)。25.畫(huà)出基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)的結(jié)構(gòu)圖。26.說(shuō)明基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)與傳統(tǒng)決策支持系統(tǒng)有什么區(qū)別。解:基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)是數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理及數(shù)據(jù)挖掘相結(jié)合的決策支持系統(tǒng),以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)。綜合信息與預(yù)測(cè)信息是可以通過(guò)數(shù)據(jù)倉(cāng)庫(kù)獲得的輔助決策信息,而聯(lián)機(jī)分析處理能對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行多維數(shù)據(jù)分析,即多維數(shù)據(jù)的切片、切塊、旋轉(zhuǎn)、鉆取等,只有通過(guò)分析更詳細(xì)的數(shù)
21、據(jù),才能得到更深層中的信息和知識(shí)。數(shù)據(jù)挖掘則能獲取關(guān)聯(lián)知識(shí),時(shí)序知識(shí),類(lèi)聚知識(shí),分類(lèi)知識(shí)等。 傳統(tǒng)決策支持系統(tǒng)是基于模型和知識(shí)的智能決策支持系統(tǒng)。27.商業(yè)智能概念是什么?解:商業(yè)智能是一種技術(shù),它以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ),通過(guò)聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘技術(shù)幫助企業(yè)領(lǐng)導(dǎo)者針對(duì)市場(chǎng)變化的環(huán)境,做出快速、準(zhǔn)確的決策。商業(yè)智能所體現(xiàn)的智能行為在于,能夠解決市場(chǎng)環(huán)境中隨機(jī)變化的決策問(wèn)題,其所提供的智能手段表現(xiàn)為聯(lián)機(jī)分析處理的任意切片、切塊和鉆取,以及利用數(shù)據(jù)挖掘技術(shù)所獲得的知識(shí)。28、如何理解商業(yè)智能與基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)的區(qū)別和聯(lián)系?商業(yè)智能以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ),通過(guò)聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘技術(shù)幫助企業(yè)領(lǐng)導(dǎo)者針
22、對(duì)市場(chǎng)變化的環(huán)境,做出快速、準(zhǔn)確的決策。商業(yè)智能與基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)從組成和目標(biāo)看來(lái)是一致的,但是商業(yè)智能是一種技術(shù),基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)是解決實(shí)際決策問(wèn)題的一個(gè)系統(tǒng),即:基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)是利用商業(yè)智能技術(shù)來(lái)解決實(shí)際決策問(wèn)題的系統(tǒng)。29、商業(yè)智能在哪些方面改進(jìn)企業(yè)決策過(guò)程?(1)信息共享。有了商業(yè)智能系統(tǒng)就可以實(shí)現(xiàn)信息共享,用戶(hù)可迅速找到所需要的數(shù)據(jù),通過(guò)對(duì)數(shù)據(jù)進(jìn)行鉆取分析以達(dá)到目標(biāo)。(2)實(shí)時(shí)反饋分析。商業(yè)智能的運(yùn)用能夠使員工隨時(shí)看到工作的進(jìn)展程度,并且了解一個(gè)特定的行為對(duì)現(xiàn)實(shí)目標(biāo)的效用。如果員工能看到自己的行為如何提升或影響了業(yè)績(jī),那么也就不需要過(guò)于復(fù)雜的激勵(lì)體系了
23、。(3)鼓勵(lì)用戶(hù)找到問(wèn)題的根本原因。根據(jù)初步得到的答案而采取的行動(dòng)可能未必成功,因?yàn)槌醪降奶剿魍鶝](méi)有發(fā)現(xiàn)根本問(wèn)題的所在,要找到根本原因就需要對(duì)與成功或失敗的相關(guān)諸多因素進(jìn)行深度分析。(4)使用主動(dòng)智能。在數(shù)據(jù)倉(cāng)庫(kù)中設(shè)定預(yù)警機(jī)制,一旦出現(xiàn)超過(guò)預(yù)警條件的數(shù)據(jù),就自動(dòng)通過(guò)各種設(shè)備通知用戶(hù)。(5)實(shí)時(shí)智能。CH21、畫(huà)出數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)圖,說(shuō)明各部分內(nèi)容。數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)包括當(dāng)前基本數(shù)據(jù)、歷史基本數(shù)據(jù)、輕度綜合數(shù)據(jù)、高度綜合數(shù)據(jù)、元數(shù)據(jù)。當(dāng)前基本數(shù)據(jù)是最近時(shí)期的業(yè)務(wù)數(shù)據(jù),是數(shù)據(jù)倉(cāng)庫(kù)用戶(hù)最感興趣的部分,數(shù)據(jù)量大。當(dāng)前基本數(shù)據(jù)隨時(shí)間的推移,由數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間控制機(jī)制轉(zhuǎn)為歷史基本數(shù)據(jù),一般被轉(zhuǎn)存在介質(zhì)中,如磁帶中。
24、輕度綜合數(shù)據(jù)是從當(dāng)前基本數(shù)據(jù)中提取出來(lái)的,設(shè)計(jì)這層數(shù)據(jù)結(jié)構(gòu)時(shí)會(huì)遇到“綜合處理數(shù)據(jù)的時(shí)間段選取,綜合數(shù)據(jù)包含哪些數(shù)據(jù)屬性和內(nèi)容”等問(wèn)題。高度綜合數(shù)據(jù)是最高一層,這層數(shù)據(jù)十分精煉,是一種準(zhǔn)決策數(shù)據(jù)。整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的組織結(jié)構(gòu)是由元數(shù)據(jù)來(lái)組織的,它不包含任何業(yè)務(wù)數(shù)據(jù)庫(kù)中的實(shí)際數(shù)據(jù)信息。元數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中扮演著重要的角色,它包括以下信息:(1)數(shù)據(jù)倉(cāng)庫(kù)的目錄信息(2)數(shù)據(jù)從數(shù)據(jù)庫(kù)環(huán)境想數(shù)據(jù)倉(cāng)庫(kù)環(huán)境轉(zhuǎn)換時(shí)對(duì)應(yīng)的說(shuō)明(3)知道從當(dāng)前基本數(shù)據(jù)到綜合數(shù)據(jù)的綜合方式的說(shuō)明(4)指導(dǎo)用戶(hù)使用數(shù)據(jù)倉(cāng)庫(kù)。2、說(shuō)明數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)圖中包含輕度綜合層和高度綜合數(shù)據(jù)層的作用。這些數(shù)據(jù)為什么不是臨時(shí)計(jì)算出來(lái)的?在數(shù)據(jù)倉(cāng)庫(kù)中并不采取臨
25、時(shí)計(jì)算的方式得到綜合數(shù)據(jù),而是在用戶(hù)提出需要綜合數(shù)據(jù)之前,就預(yù)先將可能需要的綜合數(shù)據(jù)利用數(shù)據(jù)立方體計(jì)算好,存入綜合數(shù)據(jù)層中,這種綜合數(shù)據(jù)層在用戶(hù)查詢(xún)時(shí),能迅速提供給用戶(hù)。在數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)多種粒度數(shù)據(jù)時(shí)為了提高決策分析效果。為了適應(yīng)決策需求。3、說(shuō)明數(shù)據(jù)集市與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別和聯(lián)系。聯(lián)系:數(shù)據(jù)集市是一種更小、更集中的數(shù)據(jù)倉(cāng)庫(kù),為公司提供了一條分析商業(yè)數(shù)據(jù)的廉價(jià)途徑。數(shù)據(jù)集市是指具有特定應(yīng)用的數(shù)據(jù)倉(cāng)庫(kù),主要針對(duì)某個(gè)具有戰(zhàn)略意義的應(yīng)用或者具體部門(mén)級(jí)的應(yīng)用,支持用戶(hù)利用已有的數(shù)據(jù)獲得重要的競(jìng)爭(zhēng)優(yōu)勢(shì)或者找到進(jìn)入新市場(chǎng)的具體解決方案。區(qū)別:(1)數(shù)據(jù)倉(cāng)庫(kù)是基于整個(gè)企業(yè)的數(shù)據(jù)模型建立的,它面向企業(yè)范圍內(nèi)的主題
26、。而數(shù)據(jù)集市是按照某一特定部門(mén)的數(shù)據(jù)模型建立的,由于每個(gè)部門(mén)有自己特定的需求,因此對(duì)數(shù)據(jù)集市的期望也不一樣。(2)部門(mén)的主題與企業(yè)的主題之間可能出在關(guān)聯(lián),也可能不存在關(guān)聯(lián)。數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)整個(gè)企業(yè)內(nèi)非常詳細(xì)的數(shù)據(jù),而數(shù)據(jù)集市中數(shù)據(jù)的詳細(xì)程度要低一些,包含概要和累加數(shù)據(jù)要多一些。(3)數(shù)據(jù)集市的數(shù)據(jù)組織一般采用星型模型。大型數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織,如NCR公司采用第三范式。4.說(shuō)明數(shù)據(jù)集市的特點(diǎn)。解:(1)規(guī)模是小的; (2)特定的應(yīng)用; (3)面向部門(mén); (4)由業(yè)務(wù)部門(mén)定義,設(shè)計(jì)和開(kāi)發(fā); (5)由業(yè)務(wù)部門(mén)管理和維護(hù); (6)快速實(shí)現(xiàn); (7)價(jià)格較低廉; (8)投資快速回收; (9)工具集的緊密集
27、成; (10)更詳細(xì)的、預(yù)先存在的數(shù)據(jù)倉(cāng)庫(kù)的摘要子集; (11)可升級(jí)到完整的數(shù)據(jù)倉(cāng)庫(kù)。5.畫(huà)出數(shù)據(jù)集市的兩種結(jié)構(gòu)圖,說(shuō)明它們的不同點(diǎn)。解:(1)從屬數(shù)據(jù)集市(圖1) 它的數(shù)據(jù)直接來(lái)自于中央數(shù)據(jù)倉(cāng)庫(kù)。這種結(jié)構(gòu)仍能保持和數(shù)據(jù)倉(cāng)庫(kù)的一致性。 一般為那些訪(fǎng)問(wèn)數(shù)據(jù)倉(cāng)庫(kù)十分頻繁的關(guān)鍵業(yè)務(wù)部門(mén)建立從屬的數(shù)據(jù)集市,這樣可以很好地提高查詢(xún)的反應(yīng)速度。(2)獨(dú)立數(shù)據(jù)集市(圖2)它的數(shù)據(jù)直接來(lái)源于各生產(chǎn)系統(tǒng)。許多企業(yè)在計(jì)劃實(shí)施數(shù)據(jù)倉(cāng)庫(kù)時(shí),往往出于投資方面的考慮,最后建成獨(dú)立數(shù)據(jù)集市,用來(lái)解決個(gè)別部門(mén)比較迫切的決策問(wèn)題。從這個(gè)意義上講,它與企業(yè)數(shù)據(jù)倉(cāng)庫(kù)除了在數(shù)據(jù)量大小和服務(wù)對(duì)象上有所區(qū)別外,邏輯結(jié)構(gòu)并無(wú)多大區(qū)別。圖
28、1圖26.畫(huà)出數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)圖,說(shuō)明把倉(cāng)庫(kù)管理和分析工具作為數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的兩個(gè)獨(dú)立組成部分的原因。解:倉(cāng)庫(kù)管理包括數(shù)據(jù)建模;數(shù)據(jù)抽取、轉(zhuǎn)換、裝載(ETL);元數(shù)據(jù);系統(tǒng)管理等四部分。而由于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量大,因此必須有一套功能很強(qiáng)的分析工具集來(lái)實(shí)現(xiàn)從數(shù)據(jù)倉(cāng)庫(kù)中提供輔助決策的信息,完成決策支持系統(tǒng)的各種要求。所以倉(cāng)庫(kù)管理與分析工具要作為兩個(gè)獨(dú)立的組成部分。7.說(shuō)明倉(cāng)庫(kù)管理包含的具體內(nèi)容。倉(cāng)庫(kù)管理包括數(shù)據(jù)建模;數(shù)據(jù)抽取、轉(zhuǎn)換、裝在(ETL);元數(shù)據(jù);系統(tǒng)管理等四部分。8.說(shuō)明分析工具包含的具體內(nèi)容。分析工具包含查詢(xún)工具、多維數(shù)據(jù)分析工具(OLAP工具)、數(shù)據(jù)挖掘工具(DM工具)、客戶(hù)/服務(wù)器(C
29、/S)。9.畫(huà)出數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行結(jié)構(gòu)圖,說(shuō)明三層C/S結(jié)構(gòu)與兩層C/S結(jié)構(gòu)的不同點(diǎn)。數(shù)據(jù)倉(cāng)庫(kù)的C/S結(jié)構(gòu):數(shù)據(jù)倉(cāng)庫(kù)采用服務(wù)器結(jié)構(gòu),客戶(hù)端所做的工作有客戶(hù)交互、格式化查詢(xún)、結(jié)果顯示、報(bào)表生成等。數(shù)據(jù)倉(cāng)庫(kù)的三層C/S結(jié)構(gòu):在客戶(hù)端和數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器之間多增加一個(gè)多維數(shù)據(jù)分析服務(wù)器。OLAP服務(wù)器從數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器中抽取數(shù)據(jù),在OLAP服務(wù)器中轉(zhuǎn)換成客戶(hù)端用戶(hù)要求的多維視圖,進(jìn)行多維數(shù)據(jù)分析。工作效率更高。10.數(shù)據(jù)倉(cāng)庫(kù)的邏輯數(shù)據(jù)模型有哪些?答:數(shù)據(jù)倉(cāng)庫(kù)的邏輯數(shù)據(jù)模型是多維結(jié)構(gòu)的數(shù)據(jù)視圖,也稱(chēng)多維數(shù)據(jù)模型,主要有星型模型、雪花模型、星網(wǎng)模型、第三范式等。11.數(shù)據(jù)模型與數(shù)學(xué)模型有什么區(qū)別?答:數(shù)據(jù)模型是現(xiàn)
30、實(shí)世界數(shù)據(jù)特征的抽象,一般包括數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)操作。數(shù)學(xué)模型是根據(jù)對(duì)研究對(duì)象所觀察到的現(xiàn)象及實(shí)踐經(jīng)驗(yàn),歸結(jié)成的一套反映其內(nèi)部因素?cái)?shù)量關(guān)系的數(shù)學(xué)公式、邏輯準(zhǔn)則和具體算法。用以描述和研究客觀現(xiàn)象的運(yùn)動(dòng)規(guī)律。數(shù)據(jù)模型側(cè)重于描述數(shù)據(jù)的類(lèi)型、內(nèi)容、操作等;而數(shù)學(xué)模型則是研究數(shù)據(jù)內(nèi)在的數(shù)學(xué)規(guī)律與數(shù)學(xué)表達(dá)。12.說(shuō)明星型模型有什么好處?答:星型模型存取數(shù)據(jù)速度快,它對(duì)各個(gè)維都做了大量的預(yù)處理,提高了多維數(shù)據(jù)的查詢(xún)速度。星型模型的設(shè)計(jì)模式適用于決策分析應(yīng)用,它比較直觀,便于用戶(hù)理解。13 時(shí)間維是一個(gè)有特殊意義的維,可以幫助決策者分析數(shù)據(jù)隨時(shí)間的變化趨勢(shì),可以將歷史數(shù)據(jù)聯(lián)系起來(lái),對(duì)決策中的趨勢(shì)分析很重要。14
31、雪花模型是對(duì)星型模型的擴(kuò)展,對(duì)星型模型的維表進(jìn)一步層次化。最大限度減少數(shù)據(jù)存儲(chǔ)量,把較小維表聯(lián)合在一起來(lái)改善查詢(xún)性能。 星網(wǎng)模型是將多個(gè)相關(guān)的星型模型通過(guò)相同的維表連接起來(lái)形成網(wǎng)狀結(jié)構(gòu)。大多數(shù)星網(wǎng)模型中,各個(gè)事實(shí)表共享的維表是時(shí)間維。15.第三范式數(shù)據(jù)模型與星型模型有什么不同?答:第三范式數(shù)據(jù)模型把事實(shí)表和維表的屬性作為一個(gè)實(shí)體都集中在同一數(shù)據(jù)庫(kù)表中,或分成多個(gè)實(shí)體用多個(gè)表來(lái)表示,每個(gè)表按第三范式組織數(shù)據(jù);而每個(gè)星型模型都在事實(shí)表中保存了一些指標(biāo),為特定的目的服務(wù)。多個(gè)相關(guān)的星型模型通過(guò)相同的維表連接起來(lái)形成網(wǎng)狀結(jié)構(gòu)。16.說(shuō)明第三范式與星型模型的優(yōu)缺點(diǎn)。答:星型模型的設(shè)計(jì)模式使用于決策分析。
32、星星模型與第三范式存儲(chǔ)的數(shù)據(jù)信息是一樣的,但它更方便用戶(hù)理解數(shù)據(jù),更適合對(duì)數(shù)據(jù)的多維查詢(xún)操作;星型模型在進(jìn)行多維數(shù)據(jù)分析時(shí),在不超過(guò)預(yù)定義的維度范圍內(nèi),速度是很快的。但是,如果超過(guò)了預(yù)定義的維度,增加維度將是很困難的事情;第三范式對(duì)于海量數(shù)據(jù)且需要處理大量的動(dòng)態(tài)業(yè)務(wù)分析時(shí)比較有優(yōu)勢(shì)。2-17ETL過(guò)程的主要步驟概括為:(1) 決定數(shù)據(jù)倉(cāng)庫(kù)中需要的所有的目標(biāo)數(shù)據(jù);(2) 決定所有的數(shù)據(jù)源,包括內(nèi)部和外部的數(shù)據(jù)源;(3) 準(zhǔn)備從源數(shù)據(jù)到目的數(shù)據(jù)的數(shù)據(jù)映射關(guān)系;(4) 建立全面的數(shù)據(jù)抽取規(guī)則;(5) 決定數(shù)據(jù)轉(zhuǎn)換和清洗規(guī)則;(6) 為綜合表制定計(jì)劃;(7) 組織數(shù)據(jù)緩沖區(qū)域和檢測(cè)工具;(8) 為所有
33、的數(shù)據(jù)裝載編寫(xiě)規(guī)程;(9) 維度表的抽取、轉(zhuǎn)換和裝載;(10) 事實(shí)表的抽取、轉(zhuǎn)換和裝載;2-18.數(shù)據(jù)抽取工作包括以下內(nèi)容:1. 確定數(shù)據(jù)源該項(xiàng)工作主要包括:(1) 列出對(duì)事實(shí)表的每一個(gè)數(shù)據(jù)項(xiàng)和事實(shí);(2) 列出每一個(gè)維度屬性;(3) 對(duì)于每個(gè)目標(biāo)數(shù)據(jù)項(xiàng),找出源數(shù)據(jù)項(xiàng);(4) 數(shù)據(jù)倉(cāng)庫(kù)中一個(gè)數(shù)據(jù)元素有多少個(gè)來(lái)源,選擇最好的來(lái)源;(5) 確認(rèn)一個(gè)目標(biāo)字段的多個(gè)源字段,建立合并規(guī)則;(6) 確認(rèn)多個(gè)目標(biāo)字段的個(gè)一源字段,建立分離規(guī)則;(7) 確定默認(rèn)值;(8) 檢查缺失值的源數(shù)據(jù);2. 數(shù)據(jù)抽取技術(shù)(1) 進(jìn)行數(shù)據(jù)抽取時(shí)要考慮的兩種情況:當(dāng)前值周期性的狀態(tài);(2) 兩類(lèi)數(shù)據(jù)的抽取靜態(tài)數(shù)據(jù)的抽取修
34、正數(shù)據(jù)的抽取19說(shuō)明數(shù)據(jù)轉(zhuǎn)換的基本功能。(1)選擇。從原系統(tǒng)中選擇整個(gè)記錄或者部分記錄。(2)分離/合并。對(duì)原系統(tǒng)中的記錄進(jìn)行分離操作或者對(duì)很多原系統(tǒng)中選擇的部分?jǐn)?shù)據(jù)進(jìn)行合并操作。(3)轉(zhuǎn)化。對(duì)字段的轉(zhuǎn)化包括對(duì)原系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化和使字段對(duì)用戶(hù)來(lái)說(shuō)是可用和可理解的。(4)匯總。數(shù)據(jù)倉(cāng)庫(kù)中需要保存很多匯總數(shù)據(jù)。這需要對(duì)最低粒度數(shù)據(jù)進(jìn)行匯總。(5)清晰化。對(duì)單個(gè)字段數(shù)據(jù)進(jìn)行重新分配和簡(jiǎn)化的過(guò)程,是數(shù)據(jù)倉(cāng)庫(kù)更便利使用。20數(shù)據(jù)轉(zhuǎn)換有哪些類(lèi)型?(1)格式修正。包括數(shù)據(jù)類(lèi)型和單個(gè)字段長(zhǎng)度的變化。(2)字段的編碼。對(duì)所有晦澀的編碼進(jìn)行解碼。將它們變成用戶(hù)可以理解的值。(3)計(jì)算值和導(dǎo)出值。在數(shù)據(jù)倉(cāng)庫(kù)中,有時(shí)需
35、要與銷(xiāo)售和成本一起計(jì)算出利潤(rùn)值。導(dǎo)出字段包括每天的收支差額和相關(guān)比率。(4)單個(gè)字段的分離。在舊系統(tǒng)中將客戶(hù)名稱(chēng)、地址存放在大型文本字段中;姓和名存放在一個(gè)字段中;城市、地區(qū)和郵政編碼存放在一個(gè)字段中。在數(shù)據(jù)倉(cāng)庫(kù)中卻需要將姓名和地址放在不同的字段中,便利不同要求的分析工作。(5)信息的合并。例如:一個(gè)產(chǎn)品的信息可能從不同的數(shù)據(jù)源中獲得;產(chǎn)品編碼和產(chǎn)品名從一個(gè)數(shù)據(jù)源得到,相關(guān)包裝類(lèi)型從另一個(gè)數(shù)據(jù)源中得到,成本數(shù)據(jù)從第三個(gè)數(shù)據(jù)源中得到。信息合并是產(chǎn)品編碼、產(chǎn)品名、包裝類(lèi)型和成本的有機(jī)組合,是一個(gè)新的實(shí)體。(6)特征集合轉(zhuǎn)化。例如:在原系統(tǒng)中數(shù)據(jù)采用EBCDIC碼,而數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)采用ASCII碼,這
36、就需要進(jìn)行代碼集合的轉(zhuǎn)化。(7)度量單位的轉(zhuǎn)化。使數(shù)據(jù)具有相同的標(biāo)準(zhǔn)度量單位。不少?lài)?guó)家有自己的度量單位,需要在數(shù)據(jù)倉(cāng)庫(kù)中采用標(biāo)準(zhǔn)度量單位。(8)日期/時(shí)間轉(zhuǎn)化。日期和時(shí)間的表示應(yīng)該轉(zhuǎn)化成國(guó)際標(biāo)準(zhǔn)格式。(9)匯總。這種類(lèi)型的轉(zhuǎn)換是創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的匯總數(shù)據(jù)。匯總數(shù)據(jù)適合于客觀戰(zhàn)略性的查詢(xún)。(10)關(guān)鍵字重新構(gòu)造。在原系統(tǒng)中關(guān)鍵字可能包含很多項(xiàng)的內(nèi)容,如產(chǎn)品編碼包括倉(cāng)庫(kù)代碼、銷(xiāo)售區(qū)域、產(chǎn)品編碼等多項(xiàng)內(nèi)容。在數(shù)據(jù)倉(cāng)庫(kù)中,關(guān)鍵字要發(fā)生變化,轉(zhuǎn)換成適合于事實(shí)表和維表的普通鍵值。21.數(shù)據(jù)裝載方式與類(lèi)型有哪些?P32答:數(shù)據(jù)裝載方式:(1)基本裝載。(2)追加。 (3)破壞性合并。(4)建設(shè)性合并(1)基本裝
37、載:按照裝載的目標(biāo)表,將裝換過(guò)的數(shù)據(jù)輸入到目標(biāo)表中去。若目標(biāo)表中已有數(shù)據(jù),裝載時(shí)會(huì)先清除這些數(shù)據(jù),再裝入新數(shù)據(jù)。目標(biāo)表可以是事實(shí)表或維表。(2)追加:如果目標(biāo)表中已經(jīng)存在數(shù)據(jù),追加過(guò)程在保存已有數(shù)據(jù)的基礎(chǔ)上增加輸入數(shù)據(jù),當(dāng)一個(gè)輸入數(shù)據(jù)記錄與已經(jīng)存在的記錄重復(fù)時(shí),輸入記錄可能可以作為副本增加進(jìn)去,或者丟棄新輸入數(shù)據(jù)。(3)破壞性合并:當(dāng)輸入數(shù)據(jù)記錄的主鍵與一條已經(jīng)存在的記錄的鍵互相匹配時(shí),用新輸入數(shù)據(jù)更新目標(biāo)記錄數(shù)據(jù)。如果輸入記錄是一條新的記錄,沒(méi)有任何與之匹配的現(xiàn)存記錄,那么就將這條輸入記錄添加到目標(biāo)表中。(4)建設(shè)性合并當(dāng)輸入記錄主鍵與已有記錄的鍵相匹配時(shí),保留已有的記錄,增加輸入的記錄,并
38、標(biāo)記為舊記錄的替代。數(shù)據(jù)裝載類(lèi)型:(1)最初裝載。(2)增量裝載。(3)完全刷新。(1)最初裝載:這是第一次對(duì)整個(gè)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行裝載。在裝載工作完成以后,建立索引。(2)增量裝載:由于源系統(tǒng)的變化,數(shù)據(jù)倉(cāng)庫(kù)需要裝載變化的數(shù)據(jù),這就是增量裝載。在建設(shè)性合并的裝載方式中,對(duì)增加的輸入記錄中標(biāo)記了就記錄的代替。這可以作為增量裝載的方式。當(dāng)已裝入的記錄數(shù)據(jù)必須被改正后的數(shù)據(jù)記錄取代后,要采用破壞性合并的裝載方式作為增量裝載的方式。(3)完全刷新:這種類(lèi)型的數(shù)據(jù)裝載用于周期性重寫(xiě)數(shù)據(jù)倉(cāng)庫(kù)。有時(shí),也可能對(duì)一些特定的表進(jìn)行刷新。完成刷新與初始裝載比較相似。不同點(diǎn)在于在完全刷新之前,目標(biāo)表中已經(jīng)存在數(shù)據(jù)。22.
39、說(shuō)明數(shù)據(jù)庫(kù)中的元數(shù)據(jù)以及數(shù)據(jù)倉(cāng)庫(kù)中元數(shù)據(jù)的不同。答:按照傳統(tǒng)的定義,元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中個(gè),元數(shù)據(jù)可以幫助數(shù)據(jù)倉(cāng)庫(kù)管理員和數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)人員非常方便的找到他們所關(guān)心的數(shù)據(jù)。元數(shù)據(jù)是藐視數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。23.答:關(guān)于數(shù)據(jù)源的元數(shù)據(jù),它是現(xiàn)有的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源的描述信息。這類(lèi)元數(shù)據(jù)是對(duì)不同平臺(tái)上的數(shù)據(jù)源的物理結(jié)構(gòu)和含義的描述。具體為:(1)數(shù)據(jù)源中所有物理數(shù)據(jù)結(jié)構(gòu),包括所有的數(shù)據(jù)項(xiàng)及數(shù)據(jù)類(lèi)型。(2)所有數(shù)據(jù)項(xiàng)的業(yè)務(wù)定義。(3)每個(gè)數(shù)據(jù)項(xiàng)更新的頻率,以及由誰(shuí)或那個(gè)過(guò)程更新的說(shuō)明。(4)每個(gè)數(shù)據(jù)項(xiàng)的有效值。(5)其他系統(tǒng)中具有相同業(yè)務(wù)含義的數(shù)據(jù)項(xiàng)的清單。24.
40、答:關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)描述了數(shù)據(jù)倉(cāng)庫(kù)中有什么數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)系,它們是管理和使用數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)。這種元數(shù)據(jù)可以支持用戶(hù)從數(shù)據(jù)倉(cāng)庫(kù)中獲取數(shù)據(jù)。用戶(hù)可以提出需要哪些表,系統(tǒng)從中選一個(gè)表,并得到表之間的關(guān)系。通過(guò)關(guān)系新表,重復(fù)該過(guò)程。用戶(hù)就可以得到希望的數(shù)據(jù)。25.什么是關(guān)于數(shù)據(jù)倉(cāng)庫(kù)映射的元數(shù)據(jù)?答:這類(lèi)元數(shù)據(jù)是數(shù)據(jù)源與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)之間的映射。反映數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)項(xiàng)是從哪個(gè)特定的數(shù)據(jù)源抽取的,經(jīng)過(guò)了哪些轉(zhuǎn)換、變換和裝載過(guò)程。26.什么是關(guān)于數(shù)據(jù)倉(cāng)庫(kù)使用的元數(shù)據(jù)?答:這類(lèi)元數(shù)據(jù)是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中信息使用情況的描述。27.數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)是如何發(fā)揮作用的?P37答:1.元數(shù)據(jù)告訴數(shù)據(jù)倉(cāng)庫(kù)中有什么數(shù)據(jù)
41、,它們從哪里來(lái),即如何按主題查看數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容。2.元數(shù)據(jù)提供已有的可重復(fù)利用的查詢(xún)語(yǔ)言信息,如果某個(gè)查詢(xún)能夠滿(mǎn)足他們的需求,或者與他們的愿望相似,他們就可以再次使用這些查詢(xún)而不必從頭開(kāi)始編程。數(shù)據(jù)倉(cāng)庫(kù)使用的元數(shù)據(jù)能幫助用戶(hù)到數(shù)據(jù)倉(cāng)庫(kù)查詢(xún)所需要的信息,用于解決企業(yè)的問(wèn)題。CH31.聯(lián)機(jī)分析處理(OLAP)的簡(jiǎn)單定義是什么?它體現(xiàn)的特征是什么?答:聯(lián)機(jī)分析處理的簡(jiǎn)單定義是共享多維信息的快速分析。它體現(xiàn)了四個(gè)特征:1) 用戶(hù)對(duì)OLAP的快速反應(yīng)能力有很高的要求。2) 可分析性:OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析。3) 多維性:系統(tǒng)必須提供對(duì)數(shù)據(jù)分析的多維視圖和分析,包括對(duì)層次維
42、和多重層次維的完全支持。4) 信息性:OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量的信息。2.OLAP準(zhǔn)則中主要準(zhǔn)則有哪些?答:1)多維概念視圖;2)透明性3)可訪(fǎng)問(wèn)性4)一致穩(wěn)定的報(bào)表性能5)客戶(hù)/服務(wù)器體系結(jié)構(gòu)6)維的等同性7)動(dòng)態(tài)的稀疏矩陣處理8)多用戶(hù)支持能力9)非限定的跨維操作3.什么是維?關(guān)系數(shù)據(jù)庫(kù)是二維數(shù)據(jù)嗎?如何理解多維數(shù)據(jù)?維是人們觀察數(shù)據(jù)的特定角度。關(guān)系數(shù)據(jù)庫(kù)是二維數(shù)據(jù)。多維數(shù)據(jù)就是一個(gè)多個(gè)維數(shù)組,每個(gè)維都選中一個(gè)成員時(shí),唯一確定的某一個(gè)變量值。比如日用品銷(xiāo)售數(shù)據(jù)有時(shí)間、地區(qū)、銷(xiāo)售渠道這幾個(gè)維度,加上銷(xiāo)售額這個(gè)變量。如果時(shí)間、地區(qū)和銷(xiāo)售渠道都取確定值,銷(xiāo)售額也能被唯一確定,
43、銷(xiāo)售額就是一個(gè)多維數(shù)據(jù)。4.MDDB與RDBMS有什么不同?說(shuō)明各自的特點(diǎn)。MDDB是以多維方式組織數(shù)據(jù),即以維作為坐標(biāo)系,采用類(lèi)似于數(shù)組的形式存儲(chǔ)數(shù)據(jù)。RDBMS以“屬性元祖(記錄)”形式組織數(shù)據(jù)。MDDB比RDBMS表達(dá)更清晰且占用的存儲(chǔ)少。5.比較ROLAP與MOLAP在數(shù)據(jù)存儲(chǔ)、技術(shù)及特點(diǎn)上的不同。解:(1)數(shù)據(jù)存儲(chǔ):MOLAP:詳細(xì)數(shù)據(jù)用關(guān)系表存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中; 各種匯總數(shù)據(jù)保存在多維數(shù)據(jù)庫(kù)中; 從數(shù)據(jù)倉(cāng)庫(kù)中詢(xún)問(wèn)詳細(xì)數(shù)據(jù),從多維數(shù)據(jù)庫(kù)中詢(xún)問(wèn)匯總數(shù)據(jù)。ROLAP:全部數(shù)據(jù)以關(guān)系表存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中; 可獲得細(xì)節(jié)的和綜合匯總的數(shù)據(jù); 有非常大的數(shù)據(jù)容量; 從數(shù)據(jù)倉(cāng)庫(kù)中詢(xún)問(wèn)所有的數(shù)據(jù)。 (2
44、)技術(shù):MOLAP:由MOLAP引擎創(chuàng)建; 預(yù)先建立數(shù)據(jù)立方體; 多維視圖存儲(chǔ)在陳列中,而不是表格中; 可以高速檢索矩陣數(shù)據(jù); 利用稀疏矩陣技術(shù)來(lái)管理匯總的稀疏數(shù)據(jù)。ROLAP:使用復(fù)雜SQL從數(shù)據(jù)倉(cāng)庫(kù)中獲取數(shù)據(jù); ROLAP引擎在分析中創(chuàng)建數(shù)據(jù)立方體; 表示層能夠表示多維的視圖。(3)特點(diǎn):MOLAP:詢(xún)問(wèn)響應(yīng)速度快; 能輕松適應(yīng)多維分析; 有廣泛的下鉆和多層次/多視角的查詢(xún)能力。ROLAP:在復(fù)雜分析功能上有局限性,需要采用優(yōu)化的OLAP; 向下鉆取較容易,但是跨維向下鉆取比較困難。6.HOLAP數(shù)據(jù)模型的特點(diǎn)是什么?解:HOLAP即混合OLAP介于MOLAP和ROLAP之間。在HOLAP
45、中,對(duì)于最常用的維度和維層次,使用多維數(shù)據(jù)庫(kù)來(lái)存儲(chǔ),對(duì)于用戶(hù)不常用的維度和數(shù)據(jù),采用ROLAP星型結(jié)構(gòu)來(lái)存儲(chǔ)。當(dāng)用戶(hù)詢(xún)問(wèn)不常用數(shù)據(jù)時(shí),HOLAP將會(huì)把簡(jiǎn)化的多維數(shù)據(jù)和星型結(jié)構(gòu)進(jìn)行拼合,從而得到完整的多維數(shù)據(jù)。在HOLAP的多維數(shù)據(jù)庫(kù)中的數(shù)據(jù)維度少于MOLAP中的維度庫(kù),數(shù)據(jù)存儲(chǔ)容量也少于MOLAP方式。但是,HOLAP在數(shù)據(jù)存儲(chǔ)速度上又低于MOLAP。7、舉例說(shuō)明多維數(shù)據(jù)顯示的兩種不同方法。多維數(shù)據(jù)一般采用多維數(shù)據(jù)庫(kù)(MDDB)和關(guān)系數(shù)據(jù)庫(kù)(RDBMS)兩種方式存儲(chǔ)。用關(guān)系數(shù)據(jù)庫(kù)可以顯示更多維的數(shù)據(jù),即用星型模型的事實(shí)表形式顯示。但是,用事實(shí)表顯示多維數(shù)據(jù)時(shí),重要數(shù)據(jù)很多,也顯得繁瑣。用多維數(shù)
46、據(jù)顯示時(shí),雖然不能同時(shí)顯示三維以上數(shù)據(jù),由于顯示的數(shù)據(jù)很精煉,因此仍然用多維數(shù)據(jù)庫(kù)的方式來(lái)顯示多維數(shù)據(jù)。一般在多維數(shù)據(jù)庫(kù)中,固定一些維成員,重點(diǎn)顯示兩維數(shù)據(jù)。關(guān)系數(shù)據(jù)庫(kù):多維數(shù)據(jù)庫(kù):8、舉例說(shuō)明多維類(lèi)型結(jié)構(gòu)(MTS)表示方法:每一個(gè)維度用一條線(xiàn)段來(lái)表示。維度中的每一個(gè)成員都用線(xiàn)段上的一個(gè)單位區(qū)間來(lái)表示。例如,用三個(gè)線(xiàn)段分別表示時(shí)間、產(chǎn)品和指標(biāo)三個(gè)維的多維類(lèi)型結(jié)構(gòu)如圖所示。9.舉例說(shuō)明四維數(shù)據(jù)顯示。答:時(shí)間(月):1,2,3,4,5,6,7,8,9,10,11,12海拔(米):0500,5001000,10002000,20003000,30004000,4000以上平均早晚溫差(攝氏度):05
47、,510,1015,1520,2025,2530,30以上月降水量(毫米mm):020,2040,4060,6080,80100,100120,120140,140160,160以上10.舉例說(shuō)明六維數(shù)據(jù)顯示。答:時(shí)間(月):1,2,3,4,5,6,7,8,9,10,11,12海拔(米):0500,5001000,10002000,20003000,30004000,4000以上平均早晚溫差(攝氏度):05,510,1015,1520,2025,2530,30以上 月降水量(毫米mm):020,2040,4060,6080,80100,100120,120140,140160,160以上維度(
48、度):010,1020,2030,3040,4050,5060,6070,7080每日日照時(shí)間(小時(shí)h):03,36,69,912,1215,1518,18以上11.答:多維數(shù)據(jù)顯示的經(jīng)驗(yàn)規(guī)則:(1)將維度盡量放在頁(yè)中,除非確定需要同時(shí)看到一個(gè)維度的多個(gè)成員。讓屏幕上的信息盡量相關(guān)。(2)當(dāng)維度潛逃在行或者列中時(shí),考慮到垂直空間比水平空間更為有用,所以將維度嵌套在列中比嵌套在行中要好。一個(gè)景點(diǎn)的顯示方法就是在行上有1個(gè)維度,而在列上嵌套13個(gè)維度,而其他的維度則放在頁(yè)中。(3)在決定數(shù)據(jù)的屏幕顯示方式之前,應(yīng)該首先弄清楚需要查找和分析比較的內(nèi)容。例如,如果需要比較某個(gè)產(chǎn)品和某類(lèi)客戶(hù)在商品和時(shí)間
49、上的實(shí)際成本情況,就可以將產(chǎn)品和客戶(hù)放在頁(yè)面維度中,而在屏幕上則可以按商店和時(shí)間來(lái)顯示時(shí)間成本。12.答:選定多維數(shù)組中的一個(gè)二維自己的操作叫做切片。切片就是在某兩個(gè)維上卻一定區(qū)間的維成員或全部維成員,而在其余的維上選定一個(gè)維成員的操作。例如:一個(gè)按產(chǎn)品維、地區(qū)維和實(shí)踐維組織起來(lái)的產(chǎn)品銷(xiāo)售數(shù)據(jù),用三維數(shù)組表示為(地區(qū),實(shí)踐,產(chǎn)品,銷(xiāo)售額)。如果在地區(qū)維上選定一個(gè)維成員(設(shè)為“上?!保?,就得到了在地區(qū)維上的一個(gè)切片(關(guān)于“時(shí)間”和“產(chǎn)品”的切片);在產(chǎn)品維上選定一個(gè)維成員(設(shè)為“電視機(jī)”),就得到了在產(chǎn)品維上的一個(gè)切片(關(guān)于“時(shí)間”和“地區(qū)”的切片)。顯然,切片的書(shū)目取決于每個(gè)維上維成員的個(gè)數(shù)。
50、13.舉例說(shuō)明OLAP的多維數(shù)據(jù)分析的鉆取操作。P53-54答:鉆取分為向下鉆取和向上鉆取操作。向下鉆取是使用戶(hù)在多層數(shù)據(jù)中能通過(guò)導(dǎo)航信息而獲得更多的細(xì)節(jié)性數(shù)據(jù),而向上鉆取獲取概括性的數(shù)據(jù)。例:2009年各部門(mén)銷(xiāo)售收入如下表:部門(mén)銷(xiāo)售數(shù)據(jù)部門(mén)銷(xiāo)售部門(mén)銷(xiāo)售部門(mén)1900部門(mén)3800部門(mén)2600在時(shí)間維進(jìn)行下鉆操作,獲得下表部門(mén)銷(xiāo)售下鉆數(shù)據(jù)2009年部門(mén)1季度2季度3季度4季度部門(mén)1200200350150部門(mén)225050150150部門(mén)3200150180270相反的操作為上鉆,鉆取的深度與維所劃分的層次相對(duì)應(yīng)。14.說(shuō)明四種不同的多維數(shù)據(jù)分析方法的作用。答:切片:維是觀察數(shù)據(jù)的角度,那么切片的作
51、用或結(jié)果就是舍棄一些觀察角度,使人們能在兩個(gè)維上集中觀察數(shù)據(jù)。因?yàn)槿说目臻g想象能力畢竟有限,一般很難想象四維以上的空間結(jié)構(gòu)。所以對(duì)于維數(shù)較多的多維數(shù)據(jù)空間,數(shù)據(jù)切片是十分有意義的。切塊:切塊可以看成是在切片的基礎(chǔ)上確定某一個(gè)維成員的區(qū)間得到的片段,也即由多個(gè)切片疊合起來(lái)的。對(duì)于時(shí)間維的切片(時(shí)間取一個(gè)確定值),如果將時(shí)間維上的取值設(shè)定為一個(gè)區(qū)間,就得到一個(gè)數(shù)據(jù)切塊。鉆?。恒@取分為向下鉆取和向上鉆取操作。向下鉆取是使用戶(hù)在多層數(shù)據(jù)中能通過(guò)導(dǎo)航信息而獲得更多的細(xì)節(jié)性數(shù)據(jù),而向上鉆取獲取概括性的數(shù)據(jù)。旋轉(zhuǎn):通過(guò)旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。旋轉(zhuǎn)操作相當(dāng)于平面數(shù)據(jù)將坐標(biāo)軸旋轉(zhuǎn)。15廣義OLAP功能如何提
52、高多維數(shù)據(jù)分析能力?OLAP的切片、切塊、旋轉(zhuǎn)與鉆取等基本操作是最基本的展示數(shù)據(jù)、獲取數(shù)據(jù)信息的手段。從廣義上講,任何能夠有助于輔助用戶(hù)理解數(shù)據(jù)的技術(shù)或者操作都可以作為OLAP功能,這些有別于基本OLAP的功能稱(chēng)為廣義OLAP功能。廣義OLAP主要通過(guò)建立數(shù)據(jù)分析模型的方法,提高多位數(shù)據(jù)分析能力。E.F.Codd認(rèn)為,以前的數(shù)據(jù)分析主要集中在靜態(tài)數(shù)據(jù)值的相互比較上,有了OLAP后,可以進(jìn)行動(dòng)態(tài)數(shù)據(jù)分析,需要建立企業(yè)數(shù)據(jù)模型。數(shù)據(jù)分析模型可以分為四類(lèi):絕對(duì)模型、解釋模型、思考模型和公式化。絕對(duì)模型和解釋模型都屬于靜態(tài)模型分析。前者通過(guò)比較歷史數(shù)據(jù)指或行為來(lái)描述過(guò)去發(fā)生的事實(shí);后者用于找出事實(shí)發(fā)生
53、的原因,由分析人員通過(guò)系統(tǒng)已有的多層細(xì)的綜合路經(jīng)層層細(xì)化得到。思考模型和公式模型是屬于動(dòng)態(tài)分析。思考模型旨在說(shuō)明一維或多維上引入一組具體變量或參數(shù)后將會(huì)發(fā)生什么。分析人員在引入確定的變量或公式關(guān)系時(shí),需創(chuàng)建大量的綜合路徑。公式模型表示在多個(gè)維上需要引入哪些變量或參數(shù),以及引入后所產(chǎn)生的結(jié)果。這四種模型一個(gè)比一個(gè)深入,從描述基本事實(shí)到尋找原因,從帶入變量值進(jìn)行預(yù)測(cè)到尋找關(guān)鍵變量。Codd認(rèn)為OLAP是因企業(yè)動(dòng)態(tài)分析而產(chǎn)生的,其功能是創(chuàng)建、操作、激活及綜合來(lái)自解釋模型、思考模型及公式化模型中的信息。它可以識(shí)別變量間新的或不可預(yù)測(cè)的關(guān)聯(lián),通過(guò)創(chuàng)建大量的維(綜合路徑)及指出維間計(jì)算條件、表達(dá)式來(lái)處理大
54、量數(shù)據(jù),獲得輔助決策信息。16說(shuō)明數(shù)據(jù)立方體的概念。數(shù)據(jù)立方體是實(shí)現(xiàn)多維數(shù)據(jù)查詢(xún)與分析的一種重要手段。實(shí)質(zhì)上,數(shù)據(jù)立方體就是數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)圖中的綜合數(shù)據(jù)層。數(shù)據(jù)立方體時(shí)再奪有可能組合的維上進(jìn)行分組聚集運(yùn)算(group by操作)的總和。數(shù)據(jù)立方體中的每一個(gè)元組(立方體的度量屬性)被稱(chēng)為該立方體上的格,每個(gè)格在n維屬性上有相應(yīng)的值,其中,在未參與group by 操作的維屬性上具有All值,而在參與group by操作的維屬性具有非All值。這些聚集運(yùn)算與操作結(jié)果是數(shù)據(jù)倉(cāng)庫(kù)中的一種高度綜合級(jí)數(shù)據(jù),實(shí)質(zhì)上是進(jìn)行了數(shù)據(jù)的濃縮(壓縮),也可成為泛化。最終所獲得的這些數(shù)據(jù)立方體可用于決策支持、知識(shí)發(fā)現(xiàn),或
55、其他許多應(yīng)用。3-17對(duì)于多維數(shù)據(jù)分析而言,本質(zhì)上是沿著不同的維度進(jìn)行數(shù)據(jù)獲取的過(guò)程。在數(shù)據(jù)立方體中,不同維度組合構(gòu)成了不同的子立方體,不同維值的組合及其對(duì)應(yīng)的度量值構(gòu)成相應(yīng)的對(duì)于不同的查詢(xún)和分析。數(shù)據(jù)立方體是在所有可能組合的維上進(jìn)行分組聚集運(yùn)算的總和。聚集函數(shù)有:sum()、count()、average()等。這些聚集運(yùn)算與操作結(jié)果是數(shù)據(jù)倉(cāng)庫(kù)中的一種高度綜合級(jí)數(shù)據(jù)、實(shí)質(zhì)上是進(jìn)行了數(shù)據(jù)的濃縮(壓縮),也可稱(chēng)為泛化。最終所獲得的這些數(shù)據(jù)立方體可用于決策分析、知識(shí)發(fā)現(xiàn)或其他許多應(yīng)用。所以說(shuō),數(shù)據(jù)立方體就是數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)圖中的綜合數(shù)據(jù)層。3-18OLAP和數(shù)據(jù)倉(cāng)庫(kù)通常預(yù)先計(jì)算好不同細(xì)節(jié)層次和不同維屬性集合的聚集,并把聚集的結(jié)果存儲(chǔ)到物理磁盤(pán)上。把所有可能的聚集都計(jì)算出來(lái)可以得到最快的系統(tǒng)查詢(xún)響應(yīng)時(shí)間,即使不管計(jì)算聚集所花費(fèi)的CPU處理時(shí)間,只是隨著維數(shù)的增加,這樣做有可能導(dǎo)致數(shù)據(jù)爆炸。計(jì)算聚集時(shí)應(yīng)在聚集所占用的空間、CPU處理時(shí)間和OLAP系統(tǒng)查詢(xún)響應(yīng)時(shí)間之間有一個(gè)權(quán)衡。數(shù)據(jù)立方體體積龐大造成一系列問(wèn)題,主要有占有大量磁盤(pán)空間、查詢(xún)耗時(shí)、更新不便等。進(jìn)行壓縮可以提高查詢(xún)效率。數(shù)據(jù)立方體的構(gòu)建是在存儲(chǔ)時(shí)間和數(shù)據(jù)更新維護(hù)的消耗等幾個(gè)主要因素之間尋求有效地折中。所以,我們要研究數(shù)據(jù)立方體的壓
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 手術(shù)準(zhǔn)備與操作規(guī)范管理制度
- 手術(shù)環(huán)境管理制度
- 2022年三年級(jí)語(yǔ)文下冊(cè)第四單元主題閱讀+答題技巧(含答案、解析)部編版
- 2024年客運(yùn)證考什么的
- 2024年嘉峪關(guān)小型客運(yùn)從業(yè)資格證考試題答案
- 2024年宜春客運(yùn)從業(yè)資格證模擬考試練習(xí)題
- 2024年道路客運(yùn)從業(yè)資格證繼續(xù)教育模擬考試
- 2024年綿陽(yáng)a1客運(yùn)資格證
- 2024年海口客運(yùn)從業(yè)資格證的考試題目
- 2024年河北客運(yùn)上崗考試都考什么科目
- 央國(guó)企信創(chuàng)化與數(shù)字化轉(zhuǎn)型規(guī)劃實(shí)施
- 1.四方埔社區(qū)服務(wù)中心場(chǎng)地管理制度
- 智慧城市治理CIM平臺(tái)建設(shè)方案
- 心肺復(fù)蘇后疾病的病理生理和預(yù)后
- 《餐飲服務(wù)的特點(diǎn)》課件
- 少兒科學(xué)實(shí)驗(yàn)-直升飛機(jī)
- 全國(guó)優(yōu)質(zhì)課一等獎(jiǎng)《計(jì)算機(jī)應(yīng)用基礎(chǔ)-計(jì)算機(jī)系統(tǒng)組成》多媒體課件
- 庭審結(jié)束后提交補(bǔ)充意見(jiàn)范本
- 古詩(shī)詞中的數(shù)學(xué)
- 26 西門(mén)豹治鄴 一等獎(jiǎng)創(chuàng)新教學(xué)設(shè)計(jì)(2課時(shí))
- 關(guān)于成立消防安全組織機(jī)構(gòu)的通知
評(píng)論
0/150
提交評(píng)論