版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘期末綜合復習第一章1、數(shù)據(jù)倉庫就是 一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合。2、元數(shù)據(jù)是描述數(shù) 據(jù)倉庫內(nèi)數(shù)據(jù)的結構和建立方法的數(shù)據(jù),它為訪問數(shù)據(jù)倉庫提供了一個 信息目錄,根據(jù)數(shù)據(jù)用途的不同可將數(shù)據(jù)倉庫的元數(shù)據(jù)分為技術元數(shù)據(jù)和業(yè)務元數(shù)據(jù)兩類。3、數(shù)據(jù)處理通常分成兩大類: 聯(lián)機事務處理和聯(lián)機分析處理。4、多維分析是指以“維”形式組織起來的數(shù)據(jù)(多維數(shù)據(jù)集)采取切片、切塊、鉆取和旋轉等各種分析動作, 以求剖析數(shù)據(jù), 使擁護能從不同角度、 不同側面觀察數(shù)據(jù)倉庫中的數(shù)據(jù), 從而深入理解多維數(shù)據(jù)集中的信息。5、 ROLAP是基于關系數(shù)據(jù)庫的 OLAP實現(xiàn),而MOLAF
2、是基于多維數(shù)據(jù)結構組織的OLAP實現(xiàn)。 OLAP技術的有關概念 :OLAP根據(jù)其存儲數(shù)據(jù)的方式可分為三類:ROLAP MOLAP HOLAP6、 數(shù)據(jù)倉庫按照其開發(fā)過程,其關鍵環(huán)節(jié)包括數(shù)據(jù)抽取、數(shù)據(jù)存儲與管理和數(shù)據(jù)表現(xiàn)等。7、 數(shù)據(jù)倉庫系統(tǒng)的體系結構根據(jù)應用需求的不同,可以分為以下4 種類型: 兩層架構、獨 立型數(shù)據(jù)集合、以來型數(shù)據(jù)結合和操作型數(shù)據(jù)存儲和邏輯型數(shù)據(jù)集中和實時數(shù)據(jù)倉庫。8、操作型數(shù)據(jù)存儲實際上是 一個集成的、面向主題的、可更新的、當前值的(但是可“揮 發(fā)”的)、企業(yè)級的、詳細的數(shù)據(jù)庫,也叫運營數(shù)據(jù)存儲。9、 “實時數(shù)據(jù)倉庫”以為著源數(shù)據(jù)系統(tǒng)、決策支持服務和倉庫倉庫之間以一個接近實
3、時的 速度交換數(shù)據(jù)和業(yè)務規(guī)則。10、從應用的角度看,數(shù)據(jù)倉庫的發(fā)展演變可以歸納為 5個階段: 以報表為主、以分析為 主、以預測模型為主、以運營導向為主和以實時數(shù)據(jù)倉庫和自動決策為主。11、什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫的特點主要有哪些? 數(shù)據(jù)倉庫通常是指一個數(shù)據(jù)庫環(huán)境, 而不是支一件產(chǎn)品, 它是提供用戶用于決策支持的當前 和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的數(shù)據(jù)庫中通常不方便得到。數(shù)據(jù)倉庫就是一個面向主題的 (Subject Oriented )、集成的( Integrate )、相對穩(wěn)定的( Non-Volatile )、反映歷史 變化( Time Variant )的數(shù)據(jù)集合,通常用于輔助決策支持。數(shù)據(jù)
4、倉庫的特點包含以下幾個方面:(1)面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織是面向事務處理任務,各個業(yè)務系統(tǒng)之間各自分 離;而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織。(2)集成的。面向事務處理的操作型數(shù)據(jù)庫通常與某些特定的應用相關,數(shù)據(jù)庫之間相互獨立,并且往往是異構的。 也就是說存放在數(shù)據(jù)倉庫中的數(shù)據(jù)應使用一致的命名規(guī)則、格式、編碼結構和相關特性來定義。(3)相對穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化。數(shù) 據(jù)倉庫的數(shù)據(jù)主要供單位決策分析之用, 對所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢和加載, 一旦 某個數(shù)據(jù)加載到數(shù)據(jù)倉庫以后, 一般情況下將作為數(shù)據(jù)檔案長期保存, 幾乎不再做修改和
5、刪 除操作, 也就是說針對數(shù)據(jù)倉庫, 通常有大量的查詢操作及少量定期的加載 (或刷新) 操作。(4)反映歷史變化。操作型數(shù)據(jù)庫(OLTF)主要關心當前某一個時間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含較久遠的歷史數(shù)據(jù), 因此總是包括一個時間維, 以便可以研究趨勢和 變化。數(shù)據(jù)倉庫系統(tǒng)通常記錄了一個單位從過去某一時點 (如開始啟用數(shù)據(jù)倉庫系統(tǒng)的時點 ) 到目前的所有時期的信息, 通過這些信息, 可以對單位的發(fā)展歷程和未來趨勢做出定量分析 和預測。12、數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘, 就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、 最終可理解的模式的非平 凡過程, 簡單的說, 數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提
6、取或“挖掘”知識, 又被稱為數(shù)據(jù)庫中的 知識發(fā)現(xiàn)。 數(shù)據(jù)挖掘的方法:直接數(shù)據(jù)挖掘、間接數(shù)據(jù)挖掘。13、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關系若將數(shù)據(jù)倉庫比作礦井, 那么數(shù)據(jù)挖掘就是深入礦井采礦的工作; 數(shù)據(jù)挖掘是從數(shù)據(jù)倉庫中 找出有用信息的一種過程與技術。14、數(shù)據(jù)倉庫系統(tǒng)的體系結構的分類( 1)兩層架構( Generic Two-Level Architecture )。(2)獨立型數(shù)據(jù)集市( Independent Data Mart )。(3)依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲(Dependent Data Mart and Operational DataStore )。(4)邏輯型數(shù)據(jù)集市和實時數(shù)據(jù)倉
7、庫 (Logical Data Mart and Real-Time Data Warehouse)。15、數(shù)據(jù)倉庫的未來(1)在數(shù)據(jù)抽取方面,未來的技術發(fā)展將集中在系統(tǒng)集成化方面。它將互連、轉換、復制、 調(diào)度、監(jiān)控納入標準化的統(tǒng)一管理, 以適應數(shù)據(jù)倉庫本身或數(shù)據(jù)源可能的變化, 使系統(tǒng)更便 于管理和維護。(2)在數(shù)據(jù)管理方面,未來的發(fā)展將使數(shù)據(jù)庫廠商明確推出數(shù)據(jù)倉庫引擎,作為數(shù)據(jù)倉庫 服務器產(chǎn)品與數(shù)據(jù)庫服務器并駕齊驅。 在這一方面,帶有決策支持擴展的并行關系數(shù)據(jù)庫將 最具發(fā)展?jié)摿?。?)在數(shù)據(jù)表現(xiàn)方面,數(shù)理統(tǒng)計的算法和功能將普遍集成到聯(lián)機分析產(chǎn)品中,并與 Internet/Web 技術緊密結合
8、。按行業(yè)應用特征細化的數(shù)據(jù)倉庫用戶前端軟件將成為產(chǎn)品作 為數(shù)據(jù)倉庫解決方案的一部分。 數(shù)據(jù)倉庫實現(xiàn)過程的方法論將更加普及, 將成為數(shù)據(jù)庫設計 的一個明確分支,成為管理信息系統(tǒng)設計的必備16、請列出 3 種數(shù)據(jù)倉庫產(chǎn)品,并說明其優(yōu)缺點。(1)IBM 公司提供了一套基于可視化數(shù)據(jù)倉庫的商業(yè)智能(BI )解決方案,包括: VisualWarehouse ( VW, Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及來自第三方的前端數(shù)據(jù)展現(xiàn)工具(如 BO和數(shù)據(jù)挖掘工具(如 SAS。其中,VW是一個功能很強的集成環(huán)境, 既可用于數(shù)據(jù)倉庫建模和元數(shù)據(jù)管理, 又可用于數(shù)據(jù)抽
9、取、轉換、裝載和調(diào)度。 Essbase/DB2 OLAP Server 支持“維”的定義和數(shù)據(jù)裝載。 Essbase/DB2 OLAP Server 不是 ROLAP(Relational OLAP服務器,而是一個(ROLAP和MOLAP混合的HOLAP服務器,在Essbase 完成數(shù)據(jù)裝載后,數(shù)據(jù)存放在系統(tǒng)指定的 DB2 UDB 數(shù)據(jù)庫中。它的前端數(shù)據(jù)展現(xiàn)工具可以 選擇 Business Objects 的 BO、Lotus 的 Approach、 Cognos 的 Impromptu 或 IBM 的 Query ManagementFacility;多維分析工具支持 Arbor Softw
10、are 的 Essbase 和 IBM (與 Arbor 聯(lián)合開發(fā) 的 DB2 OLAP 服務器;統(tǒng)計分析工具采用 SAS 系統(tǒng)。(2 Oracle 數(shù)據(jù)倉庫解決方案主要包括 Oracle Express 和 Oracle Discoverer 兩個部分。 Oracle Express由四個工具組成:Oracle Express Server 是一個 MOLAP多維 OLAP服務器,它利用多維模型,存儲和管理多維數(shù)據(jù)庫或多維高速緩存, 同時也能夠訪問多種關系數(shù) 據(jù)庫; Oracle Express Web Agent 通過 CGI 或 Web 插件支持基于 Web 的動態(tài)多維數(shù)據(jù)展 現(xiàn); Or
11、acle Express Objects 前端數(shù)據(jù)分析工具(目前僅支持 Windows 平臺 提供了圖形 化建模和假設分析功能,支持可視化開發(fā)和事件驅動編程技術, 提供了兼容 Visual Basic 語 法的語言,支持 OCX和OLE; Oracle Express Analyzer 是通用的、面向最終用戶的報告和 分析工具(目前僅支持 Windows 平臺 。 Oracle Discoverer 即席查詢工具是專門為最終 用戶設計的,分為最終用戶版和管理員版。在 Oracle 數(shù)據(jù)倉庫解決方案的實施過程中,通 常把匯總數(shù)據(jù)存儲在 Express 多維數(shù)據(jù)庫中,而將詳細數(shù)據(jù)存儲在 Oracl
12、e 關系數(shù)據(jù)庫中, 當需要詳細數(shù)據(jù)時, Express Server 通過構造 SQL 語句訪問關系數(shù)據(jù)庫。(3 Microsoft 將 OLAP 功能集成到 SQLServer 數(shù)據(jù)庫中,其解決方案包括 BI 平臺、 BI 終端工具、 BI 門戶和 BI 應用四個部分,如圖 1.1 。 BI 平臺是 BI 解決方案的基礎, 包括 ETL 平臺 SQL Server 2005 Integration Service(SSIS) 、數(shù)據(jù)倉庫引擎 SQL Server 2005 RDBMS 以及多維分析和數(shù)據(jù)挖掘引擎 SQL Server 2005 Analysis Service 、報表管理引擎
13、 SQL Server 2005 Reporting Service 。 BI 終端用戶工具,用戶通過終端用戶工具和 Analysis Service 中的 OLAP 服務和數(shù)據(jù) 挖掘服務進行交互來使用多維數(shù)據(jù)集和數(shù)據(jù)挖掘模型, 終端用戶通常可使用預定義報表、 交 互式多維分析、即席查詢、數(shù)據(jù)可視化、數(shù)據(jù)挖掘等多種方法。 BI 門戶提供了各種不同用戶訪問 BI 信息的統(tǒng)一入口。 BI 門戶是一個數(shù)據(jù)的匯集地, 集成了來自不同系統(tǒng)的相關信息。 用戶可以制定個性化的個人門戶, 選擇和自己相關性最強 的數(shù)據(jù),提高信息訪問和使用的效率。 BI應用是建立在 BI平臺、BI終端用戶工具和 BI統(tǒng)一門戶這些
14、公共技術手段之上的滿 足某個特定業(yè)務需求的應用,例如零售業(yè)務分析、企業(yè)項目管理組合分析等第二章1、調(diào)和數(shù)據(jù)是存儲在企業(yè)級數(shù)據(jù)倉庫和操作型數(shù)據(jù)存儲中的數(shù)據(jù)。2、抽取、轉換、加載過程的目的是為決策支持應用提供一個單一的、權威數(shù)據(jù)源。因此,我們要求 ETL 過程產(chǎn)生的數(shù)據(jù)(即調(diào)和數(shù)據(jù)層)是詳細的、歷史的、規(guī)范的、可理解的、即 時的和質量可控制的。3、數(shù)據(jù)抽取的兩個常見類型是靜態(tài)抽取和增量抽取。靜態(tài)抽取用于最初填充數(shù)據(jù)倉庫,增量抽取用于進行數(shù)據(jù)倉庫的維護。4、粒度是對數(shù)據(jù)倉庫中數(shù)據(jù) 的綜合程度高低的一個衡量。粒度越小,細節(jié)程度越高,綜合 程度越低,回答查詢的種類越多。5、使用星型模式 可以從一定程度上
15、提高查詢效率。因為星型模式中數(shù)據(jù)的組織已經(jīng)經(jīng)過預 處理,主要數(shù)據(jù)都在龐大的事實表中。6、維度表一般由主鍵 、分類層次和描述屬性組成。對于主鍵可以選擇兩種方式:自然鍵, 代理鍵。7、雪花型模式 是對星型模式維表的進一步層次化和規(guī)范化來消除冗余的數(shù)據(jù)。8、數(shù)據(jù)倉庫中存在不同綜合級別的數(shù)據(jù)。一般把數(shù)據(jù)分成 4 個級別:早期細節(jié)級、當前細節(jié)級、輕度綜合級和高度綜合級。9、( 1)狀態(tài)數(shù)據(jù)與事件數(shù)據(jù)前者描述對象的狀態(tài),后者描述對象發(fā)生的事件;(前象)狀態(tài)數(shù)據(jù)T事件數(shù)據(jù)T (后象)狀態(tài)數(shù)據(jù)( 2)當前數(shù)據(jù)與周期數(shù)據(jù) 當前數(shù)據(jù)只保留最新數(shù)據(jù),現(xiàn)存的最新記錄將改變以前中的數(shù)據(jù)。周期數(shù)據(jù)則相反, 一旦保存物理上
16、就不在改變或刪除數(shù)據(jù)。 通常每個周期數(shù)據(jù)記錄都會包含 一個時間戳來只是日期甚至時間。(3)數(shù)據(jù)倉庫中的元數(shù)據(jù) 分技術元數(shù)據(jù)和業(yè)務元數(shù)據(jù)。 技術元數(shù)據(jù)是描述關于數(shù)據(jù)倉庫技術細節(jié)的數(shù)據(jù),包括:數(shù)據(jù)倉庫結構的描述,業(yè)務系統(tǒng)、 數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結構和模式, 匯總算法, 操作性業(yè)務環(huán)境導數(shù)據(jù)倉庫環(huán)境的映射 等。10、 業(yè)務元數(shù)據(jù)是從業(yè)務角度描述數(shù)據(jù)倉庫中的數(shù)據(jù),提供了使用者和系統(tǒng)的語義層,使非專業(yè)人員能“讀懂”倉庫中的數(shù)據(jù)。包括:(1)使用者的業(yè)務屬于所表達的數(shù)據(jù)類型、對象名和屬性名;( 2)訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源;( 3)系統(tǒng)所提供的分析方法及公式和報表的信息。簡言之,元數(shù)據(jù)是數(shù)據(jù)倉庫的幫
17、助和導航圖11、什么是數(shù)據(jù)倉庫的 3 層數(shù)據(jù)結構? 數(shù)據(jù)是從企業(yè)內(nèi)外部的各業(yè)務處理系統(tǒng) (操作型數(shù)據(jù)) 流向企業(yè)級數(shù)據(jù)倉庫或操作型數(shù)據(jù)存 儲區(qū), 在這個過程中,要根據(jù)企業(yè)(或其他組織) 的數(shù)據(jù)模型和元數(shù)據(jù)庫對數(shù)據(jù)進行調(diào)和處 理,形成一個中間數(shù)據(jù)層,然后再根據(jù)分析需求, 從調(diào)和數(shù)據(jù)層將數(shù)據(jù)引入導出數(shù)據(jù)層,如 形成滿足各類分析需求的數(shù)據(jù)集市。12、什么是數(shù)據(jù)倉庫的數(shù)據(jù) ETL過程?數(shù)據(jù)的 ETL 過程就是負責將操作型數(shù)據(jù)轉換成調(diào)和數(shù)據(jù)的過程。這兩種數(shù)據(jù)具有明顯的區(qū) 別,因此, 數(shù)據(jù)調(diào)和是構建一個數(shù)據(jù)倉庫中最難的和最具技術挑戰(zhàn)性的部分。 在為企業(yè)級數(shù) 據(jù)倉庫填充數(shù)據(jù)的過程中,數(shù)據(jù)調(diào)和可分為兩個階段:
18、一是企業(yè)級數(shù)據(jù)倉庫(EDVV首次創(chuàng)建時的原始加載;二是接下來的定期修改,以保持EDW的當前有效性和擴展性。整個過程由四個步驟組成:抽取、清洗、轉換、加載和索引。事實上,這些步驟可以進行不 同的組合, 如,可以將數(shù)據(jù)抽取與清洗組合為一個過程, 或者將清洗和轉換組合在一起。通 常,在清洗過程中發(fā)現(xiàn)的拒絕數(shù)據(jù)信息會送回到源操作型業(yè)務系統(tǒng)中,然后將數(shù)據(jù)在源系統(tǒng)中加以處理,以便在以后重新抽取。13、什么是星型模式?它的特征是什么?在星模式中,事實表居中,多個維表呈輻射狀分布于其四周,并與事實表連接。位于星形中心的實體是事實表, 是用戶最關心的基本實體和查詢活動的中心, 為數(shù)據(jù)倉庫的查詢活動提 供定量數(shù)據(jù)
19、。 位于星模式四周的實體是維度實體, 其作用是限制和過濾用戶的查詢結果, 縮 小訪問范圍。每個維表都有自己的屬性,維表和事實表通過關鍵字相關聯(lián)。14、為什么時間總是數(shù)據(jù)倉庫或數(shù)據(jù)集市的維?信息包圖法,也叫用戶信息需求表, 就是在一張平面表格上描述元素的多維性,其中的每一個維度用平面表格的一列表示,通常的維度如時間、地點、產(chǎn)品和顧客等;而細化本列的對象就是類別,例如時間維度的類別可以細化到年、月、日,甚至小時;平面表格的最后一行(代表超立方體中的單元格)即為指標度量值,例如,某年在某銷售點的某類產(chǎn)品的實際銷售額。創(chuàng)建信息包圖時需要確定最高層和最低層的信息需求,以便最終設計出包含各個層次需要的數(shù)據(jù)
20、倉庫。總之,信息包圖法是一種自上而下的數(shù)據(jù)建模方法,即從用戶的觀點開始設計(用戶的觀點是通過與用戶交流得到的),站在管理者的角度把焦點集中在企業(yè)的一個或幾個主題上,著重分析主題所涉及數(shù)據(jù)的多維特性,這種自上而下的方法幾乎考慮了所有的信息源,以及這些信息源影響業(yè)務活動的方式。第三章K SQL Server SSAS提供丁所有業(yè)務數(shù)據(jù)的同竜整合試圖,可以作為傳統(tǒng)報衰* 在找分析處理*關鍵性能指示器記分卡和數(shù)據(jù)挖擁的基礎.2. 數(shù)據(jù)倉障的概念模型通常采用信息包圖法來進行設計,1!求將其5個組成部分(包赭名瓠 維度、類別、層次和度量全面地描述出來.仏數(shù)據(jù)倉庫的楚輯模型通常采用星型圖祛來進疔設計,要求將
21、星型的各類邏輯 實體完整地描謹出來O4. 按照事實表中度量的可加性情況可以把事實表對應的事實分為4種類型* 事務事實、快凰事實、線性項目事實和事件事實.確定了數(shù)據(jù)倉庫的粒度模型以后.為提高數(shù)據(jù)倉庫的使用性能,還滯要根據(jù) 擁護帶求設計橐合模型.札在項目實折時*根據(jù)事實表的特點和擁護的査詢需求,可以選用時間攝業(yè)務 類型、區(qū)域和下屬組織等多種數(shù)據(jù)分割類型.7. 當維表中的主鍵在事實表中沒有與外鍵關聯(lián)時,這樣的堆稱為退化堆它于 事實表并無關系,但有時在査詢限制條件(如訂單號碼*出貨單*6號等)中需 要用到.8. 維4可以根據(jù)其變化快慢分為元變化維度倉援慢變化維度和劇烈變化維度三類口矢數(shù)據(jù)倉庫的數(shù)據(jù)量通
22、常較大,且數(shù)據(jù)一般根少更新F可以通過設計和優(yōu)化索 引結構來提高數(shù)據(jù)存取性能.10. 數(shù)據(jù)倉庫數(shù)據(jù)庫常見的存儲優(yōu)化方法包括表的歸井與JR文件.反向規(guī)范化 引入冗余.表的物理分割(分區(qū)人12、簡述數(shù)據(jù)倉庫系統(tǒng)設計過程?收集、分析和確認業(yè)務分析需求,分析和理解主題和元數(shù)據(jù)、事實及其量度、粒度和維度的選擇與設計、數(shù)據(jù)倉庫的物理存儲方式的設計等。書p4913、一個數(shù)據(jù)倉庫系統(tǒng)的建立通暢需要經(jīng)過哪些步驟?(1 )收集和分析業(yè)務需求;(2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設計;(3)定義數(shù)據(jù)源;(4)選擇數(shù)據(jù)倉庫技術和平臺;(5)從操作型數(shù)據(jù)庫中抽取、 清洗及轉換數(shù)據(jù)到數(shù)據(jù)倉庫;(6)選擇訪問和報表工具,選擇數(shù)
23、據(jù)庫連接軟件,選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件;(7)更新數(shù)據(jù)倉庫。14、建立一個數(shù)據(jù)倉庫系統(tǒng)的參考步驟(1)收集和分析業(yè)務需求步驟(2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設計(3)定義數(shù)據(jù)源(4)選擇數(shù)據(jù)倉庫技術和平臺(5)從操作型數(shù)據(jù)庫中抽取、清洗及轉換數(shù)據(jù)到數(shù)據(jù)倉庫(6)選擇訪問和報表工具,選擇數(shù)據(jù)庫連接軟件,選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件(7)更新數(shù)據(jù)倉庫15、創(chuàng)建數(shù)據(jù)倉庫系統(tǒng)的兩種思維模式自頂向下(Top-down) OLTP數(shù)據(jù)通過ETL進入DV,再復制推進各個數(shù)據(jù)集市; 自底向上(Bottom-Up ) OLTP數(shù)據(jù)通過ETL進入數(shù)據(jù)集市,再復制提升到 DVy16、數(shù)據(jù)倉庫數(shù)據(jù)庫的設計過程(1)
24、分析組織的業(yè)務狀況及數(shù)據(jù)源結構( 2)組織需求調(diào)研,收集業(yè)務需求( 3)采用信息包圖法進行數(shù)據(jù)倉庫的概念模型設計(4)利用星形圖進行數(shù)據(jù)倉庫的邏輯模型設計( 5)數(shù)據(jù)倉庫的物理模型設計17、利用星形圖進行數(shù)據(jù)倉庫的邏輯模型設計(1)根據(jù)分析需求與信息包圖制作星形圖或雪花圖( 2)確定主題的屬性組( 3)事實表及其特征、事實表的類型與設計(4)粒度的選擇與設計步驟( 5)關于數(shù)據(jù)倉庫的聚合模型與數(shù)據(jù)的分割處理( 6)星形圖中的維度表簡介(7)常用維度的設計模式第四章1、關聯(lián)規(guī)則的經(jīng)典算法包括Apriori 算法和 FP-growth 算法 , 其中 FP-grownth 算法的效率更高。2、如果
25、 L2=a,b,a,c,a,d,b,c,b,d, 則 連接產(chǎn)生的 C3=a,b,c,a,b,d,a,c,d,b,c,d 再經(jīng)過修剪, C3=a,b,c,a,b,d3、設定supmin=50%,交易集如則 L1=A ,B ,C L2=A,CT1 A B CT2 A C T3 A DT4 B E F4、什么是關聯(lián)規(guī)則?關聯(lián)規(guī)則的應用有哪些?關聯(lián)規(guī)則挖掘最初由 R.Agrawal 等人提出,用來發(fā)現(xiàn)超級市場中用戶購買的商品之間的隱 含關聯(lián)關系,并用規(guī)則的形式表示出來,稱為關聯(lián)規(guī)則 (Association Rule) 。關聯(lián)規(guī)則除了 可以發(fā)現(xiàn)超市購物中隱含的關聯(lián)關系之外, 還可以應用于其他很多領域。
26、 關聯(lián)規(guī)則的應用還 包括文本挖掘、商品廣告郵寄分析、網(wǎng)絡故障分析等。5、關聯(lián)規(guī)則的分類有哪些?關聯(lián)規(guī)則挖掘的步驟包括什么? 關聯(lián)規(guī)則的分類:(1)基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關聯(lián)規(guī)則可以分為單維的和多維的。(2)基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關聯(lián)規(guī)則和多層關聯(lián)規(guī)則。(3)基于規(guī)則中處理的變量的類型不同,關聯(lián)規(guī)則可以分為布爾型和數(shù)值型。關聯(lián)規(guī)則挖掘的步驟: ( 1)找出交易數(shù)據(jù)庫中所有大于或等于用戶指定的最小支持度的頻 繁項集;(2)利用頻繁項集生成所需要的關聯(lián)規(guī)則,根據(jù)用戶設定的最小可信度進行取舍,產(chǎn)生強 關聯(lián)規(guī)則。第五章1、分類的過程包括 獲取數(shù)據(jù)、預處理、分類器設計和分類決策。2
27、、分類器設計階段 包含三個過程:劃分數(shù)據(jù)集、分類器構造和分類器測試。3、 分類問題中常用的評價準則 有精確度、查全率和查準率和集合均值。4、 支持向量機中常用的核函數(shù)有多項式核函數(shù)、徑向基核函數(shù)和 S 型核函數(shù)。5、分類的定義: 分類是指把數(shù)據(jù)樣本映射到一個事先定義的類中的學習過程,即給定一組 輸入的屬性向量及其對應的類,用基于歸納的學習算法得出分類6、分類的應用領域有哪些? 分類問題是數(shù)據(jù)挖掘領域中研究和應用最為廣泛的技術之一, 許多分類算法被包含在統(tǒng)計分 析工具的軟件包中,作為專門的分類工具來使用。分類問題在商業(yè)、銀行業(yè)、醫(yī)療診斷、生 物學、文本挖掘、因特網(wǎng)篩選等領域都有廣泛應用。例如,在
28、銀行業(yè)中,分類方法可以輔助 工作人員將正常信用卡用戶和欺詐信用卡用戶進行分類,從而采取有效措施減小銀行的損 失;在醫(yī)療診斷中, 分類方法可以幫助醫(yī)療人員將正常細胞和癌變細胞進行分類, 從而及時 制定救治方案, 挽救病人的生命; 在因特網(wǎng)篩選中, 分類方法可以協(xié)助網(wǎng)絡工作人員將正常 郵件和垃圾郵件進行分類, 從而制定有效的垃圾郵件過濾機制, 防止垃圾郵件干擾人們的正 常生活。7、分類問題使用的數(shù)據(jù)集格式 (1)描述屬性可以是連續(xù)型屬性,也可以是離散型屬性;而類別屬性必須是離散型屬性。,例如屬性(2)連續(xù)型屬性是指在某一個區(qū)間或者無窮區(qū)間內(nèi)該屬性的取值是連續(xù)的“Age”(3)離散型屬性是指該屬性的
29、取值是不連續(xù)的,例如屬性“ Salary ”和“ Class ”8、分類的過程(1)獲取數(shù)據(jù):輸入數(shù)據(jù)、對數(shù)據(jù)進行量化(2)預處理:去除噪聲數(shù)據(jù)、對空缺值進行處理;數(shù)據(jù)集成或者變換(3)分類器設計:劃分數(shù)據(jù)集、分類器構造、分類器測試(4)分類決策:對未知類標號的數(shù)據(jù)樣本進行分類9、決策樹的優(yōu)點: 進行分類器設計時,決策樹分類方法所需時間相對較少;決策樹的分類 模型是樹狀結構, 簡單直觀, 比較符合人類的理解方式; 可以將決策樹中到達每個葉節(jié)點的 路徑轉換為IF THEN形式的分類規(guī)則,這種形式更有利于理解10、決策樹的基本概念: 適用于離散值屬性、 連續(xù)值屬性; 采用自頂向下的遞歸方式產(chǎn)生一
30、個類似于流程圖的樹結構; 在根節(jié)點和各內(nèi)部節(jié)點上選擇合適的描述屬性, 并且根據(jù)該屬性 的不同取值向下建立分枝11、 決策樹剪枝: 決策樹剪枝過程試圖檢測和去掉多余的分枝,以提高對未知類標號的數(shù)據(jù) 進行分類時的準確性。a)先剪枝方法:在生成決策樹的過程中對樹進行剪枝b)后剪枝方法:在生成決策樹之后對樹進行剪枝1、聚類分析包括 連續(xù)型、二值離散型、多值離散型和混合類型 4 種類型描述屬性的相似度 計算方法。2、 連續(xù)型屬性的數(shù)據(jù)樣本之間的距離有歐氏距離、曼哈頓距離和明考斯基距離。3、 劃分聚類方法對數(shù)據(jù)集進行聚類時包含三個要點:選種某種距離作為數(shù)據(jù)樣本減的相似 性度量、 選擇評價聚類性能的準則函數(shù)
31、和選擇某個初始分類, 之后用迭代的方法得到聚類結 果,使得評價聚類的準則函數(shù)取得最優(yōu)值。4、層次聚類方法包括凝聚型和分解型兩中層次聚類方法。5、 什么是聚類分析?聚類分析的應用領域有哪些?書 p131 聚類分析是將物理的或者抽象的數(shù)據(jù)集合劃分為多個類別的過程,聚類之后的每個類別 中任意兩個數(shù)據(jù)樣本之間具有較高的相似度,不同類別的數(shù)據(jù)樣本之間具有較低的相似度。6、數(shù)據(jù)挖掘技術對聚類分析的要求:(1)可伸縮性 (適用于增長的大數(shù)據(jù)集)(2) 處理不同類型屬性的能力(支持多種類型屬性的數(shù)據(jù)集)(3) 發(fā)現(xiàn)任意形狀聚類的能力(除了球形聚類外,能劃分出任意形狀聚類)(4)減小對先驗知識和用戶自定義參數(shù)的
32、依賴性(5)處理噪聲數(shù)據(jù)的能力 ( 對孤立點、缺失值、錯誤數(shù)據(jù)等噪聲數(shù)據(jù)的抗干擾性)(6) 可解釋性和實用性(降維,可視化顯示)7、通常聚類算法可以分為以下幾類:(1)劃分聚類方法選擇適當?shù)某跏即睃c將數(shù)據(jù)樣本進行初始聚類, 之后通過迭代過程對聚類的結果進行不斷 的調(diào)整,直到使評價性能的準則函數(shù)的值達到最優(yōu)為止。(2) 層次聚類方法(3)基于密度的聚類方法(4)基于網(wǎng)格的聚類方法第十章1、遺傳算法(Genetic Algorithms ,GA是一種有效的全局搜索方法,是一種基于達爾文 自然選擇和遺傳變異等生物進化機制而發(fā)展起來的仿生算法。2、例 1 利用遺傳算法求解區(qū)間 0,31 上的二次函數(shù)
33、 y=x2 的最大值。解 (1) 設定種群規(guī)模 , 編碼染色體,產(chǎn)生初始種群。將種群規(guī)模設定為 4;用 5 位二進制數(shù)編碼染色體;取下列個體組成初始種群 S1: s1= 13 (01101), s2= 24 (11000)s3= 8 (01000), s4= 19 (10011)(2) 定義適應度函數(shù) ,取適應度函數(shù): f (x)=x2f (s1) = f(13) = 132 = 169 f (s2) = f(24) = 242 = 576f(S3) = f(8) = 82 = 64 f (s4) = f(19) = 192 = 361 由此可求得P(s1) = P(13) = 0.14 P(
34、s2) = P(24) = 0.49P(s3) = P(8) = 0.06 P(s4) = P(19) = 0.31(3) 計算各代種群中的各個體的適應度,并對其染色體進行遺傳操作,直到適應度最高的個體(即31 ( 11111)出現(xiàn)為止。填空題20分,簡答題25分,計算題2個(25分),綜合題30分1、 數(shù)據(jù)倉庫的組成?P2數(shù)據(jù)倉庫數(shù)據(jù)庫,數(shù)據(jù)抽取工具,元數(shù)據(jù),訪問工具,數(shù)據(jù)集市,數(shù)據(jù)倉庫管理,信息發(fā)布 系統(tǒng)2、 數(shù)據(jù)挖掘技術對聚類分析的要求有哪幾個方面?P131可伸縮性;處理不同類型屬性的能力;發(fā)現(xiàn)任意形狀聚類的能力;減小對先驗知識和用戶自定義參數(shù)的依賴性;處理噪聲數(shù)據(jù)的能力;可解釋性和實用
35、性3、 數(shù)據(jù)倉庫在存儲和管理方面的特點與關鍵技術?P7(1)數(shù)據(jù)倉庫面對的是大量數(shù)據(jù)的存儲與管理(2)并行處理(3)針對決策支持查詢的優(yōu)化(4)支持多維分析的查詢模式4、 常見的聚類算法可以分為幾類?P132基于劃分的聚類算法,基于層次的聚類算法,基于密度的聚類算法,基于網(wǎng)格的聚類算法, 基于模型的聚類算法等。5、 一個典型的數(shù)據(jù)倉庫系統(tǒng)的組成?P12數(shù)據(jù)源、數(shù)據(jù)存儲與管理、OLAP服務器、前端工具與應用6、 數(shù)據(jù)倉庫常見的存儲優(yōu)化方法?P71表的歸并與簇文件;反向規(guī)范化,引入冗余;表的物理分割。7、數(shù)據(jù)倉庫發(fā)展演變的 5個階段? P20以報表為主以分析為主以預測模型為主以運行向導為主以實時數(shù)
36、據(jù)倉庫自動決策應用為主8、 ID3算法主要存在的缺點?P116(1) ID3算法在選擇根結點和各內(nèi)部結點中的分枝屬性時,使用信息增益作為評價標準。信息增益的缺點是傾向于選擇取值較多的屬性,在有些情況下這類屬性可能不會提供太多有價值的信息。(2) ID3算法只能對描述屬性為離散型屬性的數(shù)據(jù)集構造決策樹。9、 簡述數(shù)據(jù)倉庫ETL軟件的主要功能和對產(chǎn)生數(shù)據(jù)的目標要求。P30 ETL軟件的主要功能:數(shù)據(jù)的抽取,數(shù)據(jù)的轉換,數(shù)據(jù)的加載對產(chǎn)生數(shù)據(jù)的目標要求:詳細的、歷史的、規(guī)范化的、可理解的、即時的、質量可控制的10、 簡述分類器設計階段包含的3個過程。劃分數(shù)據(jù)集,分類器構造,分類器測試11、什么是數(shù)據(jù)清
37、洗? P33數(shù)據(jù)清洗是一種使用模式識別和其他技術,在將原始數(shù)據(jù)轉換和移到數(shù)據(jù)倉庫之前來升級原始數(shù)據(jù)12、 支持度和置信度的計算公式及數(shù)據(jù)計算(P90)找出所有的規(guī)則X Y ,使支持度和置信度分別大于門限支持度:事務中X和Y同時發(fā)生的比例,P(X ? Y)置信度:項集X發(fā)生時,Y同時發(fā)生的條件概率 P(Y|X)Support(X Y)Example:c(X ; Y)Milk , Diaper二 Beer(0.4, 0.67)利用信息包圖設計數(shù)據(jù)倉庫概念模型需要確定的三方面內(nèi)容。P57確定指標,確定維度,確定類別14、K-近鄰分類方法的操作步驟(包括算法的輸入和輸出)。P128輸 兀訓練集陰心未知
38、類標號的數(shù)18樣羸滬*輸勝未脫標號的數(shù)據(jù)祥本皿類標號,(1)對干未知類標號的數(shù)據(jù)樣本恥按鹽下式計算它與訓練集沐“中每一個數(shù) 辭本脳氏距此北商)匸 F(Xj巧幾 1=1,2/-, totals(2)將第(1)步中氏距禹按照由小到大bw序進碎際 芥艮取前k 個距舊從而技出區(qū)在沐中的k個近氷假設p* p<-jP.分別是k個近 鄰中懇于類肌曲r月樣本數(shù)氫*(3)如果防昭加1二1咼小則諭類標號為R, BP x£cm15、 什么是技術元數(shù)據(jù),主要包含的內(nèi)容?P29技術元數(shù)據(jù)是描述關于數(shù)據(jù)倉庫技術細節(jié)的數(shù)據(jù),應用于開發(fā)、管理和維護DW包含:DW結構的描述,如DW的模式、視圖、維、層次結構和導
39、出數(shù)據(jù)的定義,數(shù)據(jù)集市的位置和內(nèi)容等業(yè)務系統(tǒng)、DW和數(shù)據(jù)集市的體系結構和模式匯總算法。包括度量和維定義算法,數(shù)據(jù)粒度、主題領域、聚合、匯總和預定義的查詢和 報告。由操作型業(yè)務環(huán)境到數(shù)據(jù)倉庫業(yè)務環(huán)境的映射。包括源數(shù)據(jù)和他們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)提取、清洗、轉換規(guī)則和數(shù)據(jù)刷新規(guī)則及安全(用戶授權和存取控制)16、 業(yè)務元數(shù)據(jù)主要包含的內(nèi)容?P29業(yè)務元數(shù)據(jù):從業(yè)務角度描述了DV中的數(shù)據(jù),提供了介于使用者和實際系統(tǒng)之間的語義層,主要包括: 使用者的業(yè)務屬于所表達的數(shù)據(jù)模型、對象名和屬性名 訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源 提供的分析方法及公式和報表的信息。17、 K-means算法的基本操作步驟(包括算法
40、的輸入和輸出)。P138轉 入數(shù)據(jù)集 恥壓|”1,2 譏“叮,耳中的數(shù)據(jù)樣本只包含描述屬性,不 包含類別屬性:聚糞個數(shù)気卍輸 出:使誤差平右和準則最小的k個矍類,(1) 從數(shù)據(jù)集X中隨機地選擇k個數(shù)據(jù)樣本作丸聚類的初始代表點,每一個代表 點表示一C類別.亠(2) 對于X中的任一數(shù)據(jù)樣本 (iWmW譏計算它與k個初始代表點的 距離,并且將它劃分到距禽最近的初始代表點所表示的糞別中(加完戚數(shù)據(jù)樣本的劃分之后,對于毎一個聚類,計算其中所有數(shù)據(jù)樣本的均值, 并且將其作為該聚類的新的代表點,由此得到丘個均值代表點.屮(4) 對于X中的任一數(shù)據(jù)樣璋宅total),計算它與k個均值代表點的距離,開且將它劃分
41、到距籬最近的均值代表點所表示的類別中-屮(5) 重復歩驟 心)和(G,直到各個聚糞不再發(fā)生變化黃止,祁誤差平方和誰 則函數(shù)田值達到最優(yōu).心18、 數(shù)據(jù)從集結區(qū)加載到數(shù)據(jù)倉庫中的主要方法?P36SQL命令(如 Insert 或 Update)由DW供應商或第三方提供專門的加載工具由DW管理員編寫自定義程序19、多維數(shù)據(jù)模型中的基本概念:維,維類別,維屬性,粒度P37維:人們觀察數(shù)據(jù)的特定角度,是考慮問題的一類屬性,如時間維或產(chǎn)品維維類別:也稱維分層。即同一維度還可以存在細節(jié)程度不同的各個類別屬性(如時間維 包括年、季度、月等) 維屬性:是維的一個取值,是數(shù)據(jù)線在某維中位置的描述。粒度:DW中數(shù)據(jù)
42、綜合程度高低的一個衡量。粒度低,細節(jié)程度高,回答查詢的種類多20、Apriori算法的基本操作步驟 P93Apriori使用一種稱作逐層搜索的迭代方法,K項集用于探索K+1項集。該方法是基于候選的策略,降低候選數(shù)Apriori剪枝原則:若任何項集是非頻繁的,則其超集必然是非頻繁的(不用產(chǎn)生和 測試超集)該原則基于以下支持度的特性 :_X,Y:(X -Y)二 s(X) _ s(Y)項集的支持度不會超過其子集 支持度的反單調(diào)特性(anti-monotone ):如果一個集合不能通過測試,則它的 所有超集也都不能通過相同的測試。令k=1產(chǎn)生長度為1的頻繁項集 循環(huán),直到無新的頻繁項集產(chǎn)生 從長度為k
43、的頻繁項集產(chǎn)生長度為k+1的候選頻繁項集連接步:項集的各項排序,前k-1個項相同若候選頻繁子集包含長度為k的非頻繁子集,則剪枝剪枝步:利用支持度屬性原則 掃描數(shù)據(jù)庫,計算每個候選頻繁集的支持度 刪除非頻繁項,保留頻繁項 明考斯基距離:那得看你規(guī)定的權是多少啊,(x1, . , xn)和(y1, . ,yn)間權p的minkowski距離就是|x1-y1Fp+.+|xn-ynFpF1/p意義么,得看你的空間是什么。 一般這個 范數(shù)是用在函數(shù)空間上的,比如LAp(0,1),它與向量(這時是0,1區(qū)間上的LAp函數(shù))的模長是相 容的。第畫個樣品勺芻丿個樣呂闔的明葦去Hi基距離霆義為這里G為某一自然數(shù)
44、,這;F-個堪常用最亙視的距離* 嗡“時,色小禰為鄉(xiāng)t距斷"U1”"1牙當廠2叭 .(2)=J 禰為歐氏距諏*當?=to時,嗎gi二劭護|邳x,( f稱為電卩匕君夫距離t 罵各喪董的單隹不同或豪血相同但各吏量的測量值相羞很大時.不應直按采用明考夫斯基距曲.而應先對各變量的數(shù)據(jù)作標準化處理,然后用標準化后的數(shù)據(jù)計尊鱉離。最常用的桶推化處理是.令"其中石士丹為第金變量的樣本均值心八厶勺 -叮為第丿變呈的 汝 4Jn - M聯(lián)機事務處理 OLTP (on-line transaction processing)傳統(tǒng)的關系DBMS的主要任務他們涵蓋了一個組織的大部分日常操
45、作:購買、庫存.制造.銀行、工資、注 冊、記賬等聯(lián)機分析處理 OLAP (on-line analytical processing)數(shù)據(jù)倉庫系統(tǒng)的主要任務數(shù)據(jù)分析和決策OLTP和(兒AP的區(qū)別用戶和系統(tǒng)的面向性:OLTP面向顧客,而OLAP面向市場數(shù)據(jù)內(nèi)容* OLTP系統(tǒng)管理當前數(shù)據(jù),而OLAP管理歷史的數(shù)據(jù).數(shù)據(jù)庫設計* OLTP系統(tǒng)采用實體聯(lián)系(FR)模型和面向應用的數(shù)據(jù)庫設計, 而OINP系統(tǒng)通常采用星形和雪花模型視圖:OLTP系統(tǒng)主要關注一個企業(yè)或部門內(nèi)部的當前數(shù)據(jù),而OLAP系統(tǒng) 主要關注匯總的統(tǒng)一的數(shù)據(jù)訪問模式:OLTP訪問主要有短的原子事務組成,而OLAP系統(tǒng)的訪問大部分 是只
46、讀操作,盡管許多可能是復雜的査詢數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型這種模型將數(shù)據(jù)看作數(shù)據(jù)立方體形 式數(shù)據(jù)立方體允許從多維對數(shù)據(jù)建模和觀察。它由維和事實定文.3最流行的數(shù)據(jù)倉庫數(shù)據(jù)模型是多維模型,這種模型可以以星形模式、雪花型 模式或事實星座模式形式存在 建立數(shù)據(jù)倉庫模型:維與度量星型模型:最常見的模型范例是星形模式,其中數(shù)據(jù)倉庫包括(1) 一個大的 包含大批數(shù)據(jù)并且不含冗余的中心表(事實表h (2) 一組小的附屬表(維表), 每維一個.中間是事實表,連接一組維表雪花模式:雪花模式是星型模式的變種,其中某些維表是規(guī)范化的,而數(shù)據(jù)進 一步分解到附加的維表中,它的圖形類似于雪花的形狀事實星座表:
47、多個事實表共享維表,這種模式可以看作星型模式及,因此稱為 星系模式或事實星座 數(shù)據(jù)立方體度量是一個數(shù)值函數(shù),可以對數(shù)據(jù)立方體空間的每一個點求值.通 過對給定點的各維值對聚集數(shù)據(jù),計算該點的度量值。度童可以根據(jù)所用的橐集函數(shù)類型可以分成三類(即分布的代數(shù)的和整體的) 概念分層定義一個映射序列,將低層概念映射到更一般的較高層欖念多維JR據(jù)模型中的OLAP操作(1) 上卷:上卷操作通過沿一個維的概念分層向上拳升或者通過維規(guī)約,對數(shù)據(jù) 立方體進行聚集;(2) 下鉆:下鉆是上卷的逆操作,它由不太詳細的數(shù)據(jù)到更詳細的數(shù)據(jù)下鉆可 以通過沿維的概念分層向下或引入附加的維來實現(xiàn);(3) 切片和切塊:切片操作對給
48、定立方體的一個維進行選擇,導致一個子立方體. 切塊操作通過對兩個或多個維執(zhí)行選擇.定義子立方體;(4) 轉軸(旋轉):轉軸是一種可視化操作,它轉動數(shù)據(jù)的視角.提供數(shù)據(jù)的瞽 代表示;其他OLAP操作:鉆過執(zhí)行涉及多個事實表的査詢;鉆透操作使用關系SQL 機制,鉆透數(shù)據(jù)立方體的底層,到后段關系表三層數(shù)據(jù)倉庫的系統(tǒng)結構(I)底層是倉庫數(shù)據(jù)服務器,它幾乎總是關系數(shù)據(jù)庫系統(tǒng)中間層是OLAP服務器.其典型的實現(xiàn)或者是(i)關系OLAP (ROLAP)模 型、即擴充的關系DBMS,它將對多維數(shù)據(jù)的操作映射為標準的關系操作$或 者是(H)多維OLAP(MOLAP)«型即專門的服務器.它直接實現(xiàn)多維數(shù)
49、據(jù) 和操作(3)頂層是前段客戶層,它包括査詢和報表工具、分析工具和/或數(shù)據(jù)挖掘工具(例 如趨勢分析、預測等).從結構的角度看,有三種數(shù)據(jù)倉庫模型,企業(yè)倉庫、數(shù)據(jù)集市和虛擬倉庫。數(shù)據(jù)集市(Dafa Mart):數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個子集,對于待定的 用戶群是有用的其范圍限于選定的主題根據(jù)數(shù)據(jù)的來源不同,數(shù)據(jù)集市分為獨立的和依賴的兩類數(shù)據(jù)倉庫后端工具和實用程序包含以下功能:數(shù)據(jù)提??;數(shù)據(jù)清理;數(shù)據(jù)變換' 裝入;刷新.數(shù)據(jù)立方體的物化有三種選擇:(1)不物化:(2)完全物化:(3)部分物化.有三種數(shù)據(jù)倉庫應用*信息處理.分析處理和數(shù)據(jù)挖擁4分類和預測找出描述并區(qū)分數(shù)據(jù)類和概念的模型(
50、或函以便能夠使用模型預測類標記 未知的對彖類.例如:依據(jù)氣候劃分國家類型或者依據(jù)每里的耗油量劃分汽車類型.表示形式:判定*h分類規(guī)則,神經(jīng)網(wǎng)絡.預測:預測某些未知的或空缺的數(shù)據(jù)值.聚類分析類標記未知:把數(shù)據(jù)聚類或分組成新的類,例如:把房子聚類來找出房子的分 布模式。聚類依據(jù)以下原則,量大化類內(nèi)的相似性和量小化類間的相似性.FP胡結構的優(yōu)點完整性:不會破壞任何交易的長模式為頻繁模式挖掘保存了完整的信息 簡潔性 減少了不相關的信息一非頻繁項集被刑掉頻繁項集按支持度遞減順序排列:越是頻繁的項集越有可能被共享不會比原數(shù)據(jù)庫大(如果不算節(jié)點鏈和計數(shù))基本思想(分曲策略人使用FP-W循環(huán)的產(chǎn)生頻緊模式路徑
51、方法對于每一個項先構進它的條件棋式基、然后構逵它的條件FP-W在每一個新創(chuàng)建的條件FP-樹上重復此過程直到結果FP樹為空°或它只包含一條路徑(單路徑將產(chǎn)生所有的它的子路徑的 結合毎一條子路徑都是一個頻繁模式)挖掘FP樹的主要步驟"為FP-W中的每一個節(jié)點構造條件模式基2為每一個條件模式基條件FP-W3循環(huán)的挖擁條件FP-W,生成至今為止獲得的頻累模式如果條件FP樹只包含單條路徑.簡單的列舉所有的模式名詞解釋1. 數(shù)據(jù)倉庫&是一種新的數(shù)據(jù)處理體系結構,是面向主題的、集成的、不可 更新的(穩(wěn)定性)、Bfi時間不斷變化(不同時間)的數(shù)據(jù)集合,為企業(yè)決策支 持系統(tǒng)提供所需的
52、集成信息。2. 孤立點1指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為戒模型不一致的異常數(shù) 據(jù).3. OLAPi OLAP是在OI.TP的基礎上發(fā)展起來的,以數(shù)據(jù)倉庫為基礎的數(shù) 據(jù)分析處理,是共享多維信息的快速分析,是被專門設計用于支持復雜的 分析操作"側重對分析人員和高層管理人員的決策支持4. 粒度,指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細化或綜合程度的級別.粒度影 響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時影響敷據(jù)倉庫所能回答査詢問 題的細節(jié)程度。5數(shù)據(jù)規(guī)范化:指將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個待定的 區(qū)域(如01)以提高數(shù)據(jù)挖掘效率的方法規(guī)范化的常用方法有*量 大一最小規(guī)范化.零一均值
53、規(guī)范化、小數(shù)定標規(guī)范化6. 關聯(lián)知識:是反映一個事件和其他事件之間依賴或相互關聯(lián)的知識.如果 兩項或多項屬性之間存在關聯(lián),那么其中一項的屬性值就可以依據(jù)其他屬 性值進行預測。7. 數(shù)據(jù)挖擁,從大量的、不完全的、有噪聲的、模鶴的、隨機的數(shù)據(jù)中,提 取隱含在其中的、人們事先不知道的.但又是潛在有用的信息和知識的過 程.«. OLTP: OLTP為聯(lián)機事務處理的縮寫,OLAP是聯(lián)機分析處理的縮寫 前者是以數(shù)據(jù)庫為基礎的,面對的是操作人員和低層管理人員,對基本數(shù) 據(jù)進行查詢和增、刪、改等處理.9. ROLAP:是基于關系數(shù)據(jù)庫存儲方式的.在這種結構中,多維數(shù)據(jù)被映 像成二維關系表,通常采用星
54、型或雪花型架構,由一個事實表和多個維度 表構成10. MOLAP:是基于類似于“超立方”塊的OLAP存儲結構,由許多經(jīng)壓縮 的、類似于多維數(shù)組的對象構成,并帶有高度壓縮的索引及指針結構,通 過直接偏移計算進行存取.11. 數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并 且能夠得到和原始數(shù)據(jù)相同的分析結果.12. 廣義知識,通過對大量數(shù)據(jù)的歸納、概括和抽象,提煉出帶有普連性的、 概括性的描述統(tǒng)計的知識.13. 預測型知識:是根據(jù)時間序列型數(shù)據(jù),由歷史的和當前的數(shù)據(jù)去推測未來 的數(shù)據(jù),也可以認為是以時間為關鍵屬性的關聯(lián)知識.14. 値差型知識*是對差異和極端特例的描述,用于掲示事
55、物偏離常規(guī)的異常 現(xiàn)象,如標準類外的特例,數(shù)據(jù)聚類外的離群值等.15. 遺傳算法:是一種優(yōu)化搜索算法,它首先產(chǎn)生一個初始可行解群體.然后 對這個群體通過模擬生物進化的選擇、交叉.變異尊遺傳操作遺傳到下一 代群體,并最終達到全局最優(yōu)16. 聚類*是將物理或抽謙對象的集合分組成為多個類或deluster)的過程, 使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別 較大.17. 決策樹,是用樣本的屬性作為結點,用屬性的取值作為分支的樹結構.它 是分類規(guī)則挖掘的典型方法,可用于對新樣本進行分類.18. 相異度矩陣,是聚類分析中用于表示各對象之間相異度的一種矩陣,11個 對彖的相異度矩陣
56、是一個nn維的單模矩陣,其對角線元素均為0,對角 線兩側元素的值相同.19. 頻繁項集:指滿足最小支持度的項集,是挖掘關聯(lián)規(guī)則的基本條件之一.20. 支持度:規(guī)則A-B的支持度指的是所有事件中A與B同地發(fā)生的的概率, 即P(AUB),是B同時發(fā)生的次數(shù)與事件總次數(shù)之比.支持度是對關聯(lián) 規(guī)則重要性的衡量.21. 可信度:規(guī)則A-B的可信度指的是包含A項集的同時也包含B項集的條 件概率P(B|A),是AB同時發(fā)生的次數(shù)與A發(fā)生的所有次數(shù)之比可信度 是對關聯(lián)規(guī)則的準確度的衡量.22. 關聯(lián)規(guī)則,同時滿足最小支持度閾值和最小可信度網(wǎng)值的規(guī)則稱之為關聯(lián) 規(guī)則.二、嫌合題1. 何謂數(shù)據(jù)挖掘?它有哪些方面的功能?從大童的.不完全的、有噪聲的、模糊的.隨機的數(shù)據(jù)中,提取隱含 在其中的.人們事先不知道的、但又是潛在有用的信息和知識的過程稱為 數(shù)據(jù)挖掘相關的名稱有知識發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等.數(shù)據(jù)挖掘的功能包括:概念描述.關聯(lián)分析、分類與預測、聚類分析、 趨勢分析.孤立點分析以及偏差分析等。2. 何謂數(shù)據(jù)倉庫?為什么要建立數(shù)據(jù)倉庫
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房地產(chǎn) -太平山文旅開發(fā)規(guī)劃方案融合運營規(guī)劃提案
- 2024年空氣清新香片項目綜合評估報告
- 賓館房租合同延期申請書
- 遠程辦公安全防護的重要性
- 汽車模具理論培訓課件
- 寺莊葡萄種植基地項目實施方案
- 水電站大壩運行安全培訓
- 臉部護理與營養(yǎng)學教案
- 卓越研究生英語(理工篇)綜合教程2 課件 B2U2 Rural revival
- 2024年初三上學期班主任工作計劃模版(三篇)
- 教師成績進步發(fā)言稿3篇
- ISO27001:2022信息安全管理手冊+全套程序文件+表單
- 八年級歷史上冊材料題集錦(含答案)
- 國開電大2022年《小學數(shù)學教學研究》形考任務1-4答
- GB/T 30790.5-2014色漆和清漆防護涂料體系對鋼結構的防腐蝕保護第5部分:防護涂料體系
- 白蛋白臨床不合理應用及其使用指征
- 中小學教師資格考試成績復核申請表
- 五年級上冊英語課件M6U1 You can play football well
- 心肌疾病-第九版內(nèi)科學課件
- 機械制圖標準件和常用件講義課件
- 工作人員應對火災現(xiàn)場應急處置卡
評論
0/150
提交評論