




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘:概念與技術(shù) 第三章:數(shù)據(jù)倉庫與OLAP技術(shù)概述,2021/3/15,1,數(shù)據(jù)挖掘:概念與技術(shù),第三章:數(shù)據(jù)倉庫與OLAP技術(shù)概述,什么是數(shù)據(jù)倉庫? 多維數(shù)據(jù)集模型 數(shù)據(jù)倉庫體系結(jié)構(gòu) 數(shù)據(jù)倉庫實(shí)現(xiàn) 從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘,2021/3/15,2,數(shù)據(jù)挖掘:概念與技術(shù),什么是數(shù)據(jù)倉庫,多種定義方式,但不嚴(yán)格 從組織機(jī)構(gòu)的操作數(shù)據(jù)庫分離并獨(dú)立維護(hù)的決策支持?jǐn)?shù)據(jù)庫 支持信息處理,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái) 數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、時(shí)變的和非易失的數(shù)據(jù)集合,支持管理部門的決策過程。W. H. Inmon 建立數(shù)據(jù)倉庫: 構(gòu)建和使用數(shù)據(jù)倉庫的過程,2021/3/15,3,數(shù)據(jù)挖掘
2、:概念與技術(shù),數(shù)據(jù)倉庫面向主題的,圍繞主題組織數(shù)據(jù), 如顧客、產(chǎn)品、銷售等。 關(guān)注決策者的數(shù)據(jù)建模與分析,而不是組織機(jī)構(gòu)的日常操作和事務(wù)處理。 提供特定主題的簡(jiǎn)明視圖,排除對(duì)于決策支持過程無用的數(shù)據(jù),2021/3/15,4,數(shù)據(jù)挖掘:概念與技術(shù),數(shù)據(jù)倉庫集成的,由多個(gè)異構(gòu)數(shù)據(jù)源集成構(gòu)建 關(guān)系數(shù)據(jù)庫,平面文件,聯(lián)機(jī)事務(wù)記錄 應(yīng)用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù) 確保命名約定,編碼結(jié)構(gòu),屬性度量等一致性 將數(shù)據(jù)遷入數(shù)據(jù)倉庫時(shí)需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換,2021/3/15,5,數(shù)據(jù)挖掘:概念與技術(shù),數(shù)據(jù)倉庫時(shí)變的,數(shù)據(jù)倉庫中數(shù)據(jù)的時(shí)間范圍比業(yè)務(wù)操作系統(tǒng)中長(zhǎng)得多 業(yè)務(wù)操作數(shù)據(jù)庫:當(dāng)前數(shù)據(jù) 數(shù)據(jù)倉庫:提供歷史數(shù)據(jù)信息 (如
3、過去5-10年) 數(shù)據(jù)倉庫中的結(jié)構(gòu)主鍵: 都隱式或顯示包含時(shí)間元素 但業(yè)務(wù)操作數(shù)據(jù)主鍵不一定包含時(shí)間元素,2021/3/15,6,數(shù)據(jù)挖掘:概念與技術(shù),數(shù)據(jù)倉庫非易失的,物理存儲(chǔ):與操作環(huán)境分離,雖然來自其中。 數(shù)據(jù)倉庫環(huán)境中不發(fā)生數(shù)據(jù)更新操作 不需要事務(wù)處理,恢復(fù)和并發(fā)控制機(jī)制 只需要兩種數(shù)據(jù)操作: i數(shù)據(jù)初始化裝入 數(shù)據(jù)訪問,2021/3/15,7,數(shù)據(jù)挖掘:概念與技術(shù),數(shù)據(jù)倉庫與異構(gòu)數(shù)據(jù)庫,傳統(tǒng)異構(gòu)數(shù)據(jù)庫集成:查詢驅(qū)動(dòng)方法 在異構(gòu)數(shù)據(jù)庫上建立包裝程序和集成程序(中介程序) 提交查詢時(shí),使用元數(shù)據(jù)字典將查詢轉(zhuǎn)換為異構(gòu)站點(diǎn)上的查詢。然后將查詢映射和發(fā)送到局部查詢處理器,由不同站點(diǎn)返回的結(jié)果集
4、成為全局查詢結(jié)果集。 復(fù)雜的信息過濾和集成處理,與局部數(shù)據(jù)源的處理競(jìng)爭(zhēng)資源 數(shù)據(jù)倉庫:更新驅(qū)動(dòng)方法,高性能 將異構(gòu)源的信息預(yù)先集成并存儲(chǔ)在數(shù)據(jù)倉庫中,供直接查詢和分析 不包含最近的信息 支持復(fù)雜多維查詢,2021/3/15,8,數(shù)據(jù)挖掘:概念與技術(shù),數(shù)據(jù)倉庫與業(yè)務(wù)操作數(shù)據(jù)庫,OLTP (on-line transaction processing),聯(lián)機(jī)事務(wù)處理 傳統(tǒng)關(guān)系數(shù)據(jù)庫管理系統(tǒng)的主要任務(wù) 日常操作:購物,庫存,制造,銀行,工資,注冊(cè),記賬等。 OLAP (on-line analytical processing),聯(lián)機(jī)分析處理 數(shù)據(jù)倉庫系統(tǒng)的主要任務(wù) 數(shù)據(jù)分析和決策制定 區(qū)別 (OL
5、TP vs. OLAP): 用戶和系統(tǒng)的面向性:顧客事務(wù)和查詢(辦事員,打工仔)與市場(chǎng)數(shù)據(jù)分析(知識(shí)工人,老板) 數(shù)據(jù)內(nèi)容: 當(dāng)前的,細(xì)節(jié)的 vs. 歷史的, 匯總聚集的 數(shù)據(jù)庫設(shè)計(jì): E-R + 業(yè)務(wù)應(yīng)用 vs. 星形、雪花型 + 主題 視圖: 當(dāng)前的,局部的 vs. 進(jìn)化的,集成的 訪問模式: 更新 vs. 只讀 但查詢復(fù)雜,2021/3/15,9,數(shù)據(jù)挖掘:概念與技術(shù),OLTP vs. OLAP,2021/3/15,10,數(shù)據(jù)挖掘:概念與技術(shù),為什么需要分離數(shù)據(jù)倉庫,提高兩個(gè)系統(tǒng)的系能 DBMS tuned for OLTP: access methods, indexing, conc
6、urrency control, recovery Warehousetuned for OLAP: complex OLAP queries, multidimensional view, consolidation 不同的功能和不同的數(shù)據(jù): 數(shù)據(jù)不全: Decision support requires historical data which operational DBs do not typically maintain 數(shù)據(jù)聚合: DS requires consolidation (aggregation, summarization) of data from heterog
7、eneous sources 數(shù)據(jù)質(zhì)量: different sources typically use inconsistent data representations, codes and formats which have to be reconciled Note: 越來越多的系統(tǒng)直接在DBMS上進(jìn)行,2021/3/15,11,數(shù)據(jù)挖掘:概念與技術(shù),Chapter 3: Data Warehousing and OLAP Technology: An Overview,What is a data warehouse? A multi-dimensional data model
8、Data warehouse architecture Data warehouse implementation From data warehousing to data mining,2021/3/15,12,數(shù)據(jù)挖掘:概念與技術(shù),由表和電子數(shù)據(jù)表到數(shù)據(jù)立方體,數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型,以數(shù)據(jù)立方體的方式觀察數(shù)據(jù) 數(shù)據(jù)立方體,如銷售, 從多維角度對(duì)數(shù)據(jù)建模和觀察 維度表, 如 item (item_name, brand, type), or time(day, week, month, quarter, year) 事實(shí)表 (如 dollars_sold) 包含度量值和關(guān)
9、聯(lián)維度表的碼 名詞: 數(shù)據(jù)立方體成為方體(cuboid) 存放最底層匯總的方體( n-D )成為基本方體(basic cuboid) 存放最高層匯總的方體( 0-D )稱為頂點(diǎn)方體(apex cuboid),用all標(biāo)記 方體的格成為數(shù)據(jù)立方體(data cube,2021/3/15,13,數(shù)據(jù)挖掘:概念與技術(shù),3-D數(shù)據(jù)立方體,2021/3/15,14,數(shù)據(jù)挖掘:概念與技術(shù),4-D數(shù)據(jù)立方體,2021/3/15,15,數(shù)據(jù)挖掘:概念與技術(shù),數(shù)據(jù)立方體:方體的格,time,item,time,item,location,time, item, location, supplier,2021/3
10、/15,16,數(shù)據(jù)挖掘:概念與技術(shù),數(shù)據(jù)倉庫的概念建模,數(shù)據(jù)倉庫建模: dimensions week year Set_grouping hierarchy 1.10 inexpensive,2021/3/15,28,數(shù)據(jù)挖掘:概念與技術(shù),多維數(shù)據(jù),銷售量是產(chǎn)品、月份和地域的函數(shù),Product,Region,Month,維度: Product, Location, Time 分層概括路徑,Industry Region Year Category Country Quarter Product City Month Week Office Day,2021/3/15,29,數(shù)據(jù)挖掘:概念與
11、技術(shù),數(shù)據(jù)立方體例子,Total annual sales of TV in U.S.A,2021/3/15,30,數(shù)據(jù)挖掘:概念與技術(shù),立方體的相應(yīng)方體,all,product,date,country,product,date,product,country,date, country,product, date, country,0-D(頂點(diǎn)) cuboid,1-D cuboids,2-D cuboids,3-D(基本) cuboid,2021/3/15,31,數(shù)據(jù)挖掘:概念與技術(shù),瀏覽數(shù)據(jù)立方體,可視化 OLAP 能力 交互操作,2021/3/15,32,數(shù)據(jù)挖掘:概念與技術(shù),典型的
12、OLAP 操作,上卷 (drill-up,roll up): 概括數(shù)據(jù) 通過沿一個(gè)維的概念分層向上攀升或者通過維歸約,對(duì)數(shù)據(jù)立方進(jìn)行聚集 下鉆 (Drill down ,roll down): 上卷的逆操作 從高層概括到底層概括,從不太詳細(xì)到更加詳細(xì)的數(shù)據(jù) 給數(shù)據(jù)添加更多細(xì)節(jié),添加新的維到立方體來實(shí)現(xiàn) 切片和切塊(Slice and dice):投影和選擇 轉(zhuǎn)軸或旋轉(zhuǎn)(Pivot or rotate): 轉(zhuǎn)換立方體的視角, 可視化, 從3D 到 2D 平面序列 其他操作 鉆過(drill across): 涉及多個(gè)事實(shí)表的查詢 鉆透(drill through): 鉆透立方體的底層,到后端關(guān)系
13、表 (using SQL,2021/3/15,33,數(shù)據(jù)挖掘:概念與技術(shù),典型的OLAP操作,2021/3/15,34,數(shù)據(jù)挖掘:概念與技術(shù),查詢多維數(shù)據(jù)庫的星形網(wǎng)模型,星形網(wǎng)模型 由中心發(fā)出的射線組成 每條射線代表一個(gè)維的概念分層 概念分層的每個(gè)抽象級(jí)別稱為一個(gè)腳?。╢ootprint),代表諸如上卷、下鉆等OLAP操作可用的粒度,2021/3/15,35,數(shù)據(jù)挖掘:概念與技術(shù),星形網(wǎng)查詢模型,Shipping Method,AIR-EXPRESS,TRUCK,ORDER,Customer Orders,CONTRACTS,Customer,Product,PRODUCT GROUP,PRO
14、DUCT LINE,PRODUCT ITEM,SALES PERSON,DISTRICT,DIVISION,Organization,Promotion,CITY,COUNTRY,REGION,Location,DAILY,QTRLY,ANNUALY,Time,Each circle is called a footprint(腳印,2021/3/15,36,數(shù)據(jù)挖掘:概念與技術(shù),Chapter 3: Data Warehousing and OLAP Technology: An Overview,What is a data warehouse? A multi-dimensional d
15、ata model Data warehouse architecture Data warehouse implementation From data warehousing to data mining,2021/3/15,37,數(shù)據(jù)挖掘:概念與技術(shù),數(shù)據(jù)倉庫:商務(wù)分析者能得到什么,提供競(jìng)爭(zhēng)優(yōu)勢(shì) 通過提供相關(guān)信息,據(jù)此度量并作出調(diào)整,以幫助戰(zhàn)勝競(jìng)爭(zhēng)對(duì)手 提高企業(yè)生產(chǎn)力 能夠快速有效地搜集準(zhǔn)確描述組織結(jié)構(gòu)的信息 有利于顧客聯(lián)系管理 跨越了所有商務(wù),所有部門,所有市場(chǎng),提供了顧客和商品的一致視圖 降低費(fèi)用 通過一致、可靠的方式長(zhǎng)期跟蹤趨勢(shì)、模式和異常來降低費(fèi)用,2021/3/15,38,數(shù)據(jù)
16、挖掘:概念與技術(shù),建立和使用數(shù)據(jù)倉庫的技巧,商務(wù)技巧 如何存儲(chǔ)和管理數(shù)據(jù) 如何構(gòu)造數(shù)據(jù)提取程序,將將數(shù)據(jù)由DBMS轉(zhuǎn)換到DW 如何構(gòu)造倉庫刷新程序,合理保持DW中數(shù)據(jù)的當(dāng)前性 理解DW中的數(shù)據(jù)含義,理解商務(wù)需求并轉(zhuǎn)換成DW中能滿足的查詢需求 技術(shù)技巧 如何由定量信息做出估價(jià) 如何根據(jù)歷史信息得到基于推論的事實(shí) 發(fā)現(xiàn)模式和趨勢(shì),異常和模式漂移 提出相應(yīng)的管理建議 管理技巧 涉及眾多技術(shù)人員、經(jīng)銷商和最終用戶 及時(shí)和合算的方式提交結(jié)果,2021/3/15,39,數(shù)據(jù)挖掘:概念與技術(shù),數(shù)據(jù)倉庫設(shè)計(jì):商務(wù)分析框架,數(shù)據(jù)倉庫設(shè)計(jì)的四個(gè)不同視角 自頂向下視圖 選擇數(shù)據(jù)倉庫所需的相關(guān)信息 數(shù)據(jù)源視圖 揭示操
17、作數(shù)據(jù)庫系統(tǒng)收集、存儲(chǔ)和管理的信息 數(shù)據(jù)倉庫視圖 有事實(shí)表和維度組成 商務(wù)查詢視圖 從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù),2021/3/15,40,數(shù)據(jù)挖掘:概念與技術(shù),數(shù)據(jù)倉庫的設(shè)計(jì)過程,自頂向下,自底向上或二者結(jié)合的方法 Top-down: 由總體設(shè)計(jì)和規(guī)劃開始 (mature) Bottom-up: 由實(shí)驗(yàn)和原型開始 (rapid) 從軟件工程的觀點(diǎn): 瀑布模型: 在進(jìn)行下一步之前,每一步都進(jìn)行結(jié)構(gòu)化和系統(tǒng)的分析 螺旋模型: 功能漸增系統(tǒng)的快速生成,相繼版本之間的間隔很短 典型數(shù)據(jù)倉庫的設(shè)計(jì)過程 選擇待建模的商務(wù)處理, e.g., orders, invoices, etc. 選擇商務(wù)處
18、理的粒度,粒度在事實(shí)表中是原子級(jí)的 選擇用于每個(gè)事實(shí)表的維度 選擇事實(shí)表中每條記錄的度量,2021/3/15,41,數(shù)據(jù)挖掘:概念與技術(shù),數(shù)據(jù)倉庫:三層體系結(jié)構(gòu),Data Warehouse,OLAP Engine,Analysis Query Reports Data mining,Monitor & Integrator,Metadata,Data Sources,Front-End Tools,Serve,Data Marts,Data Storage,OLAP Server,2021/3/15,42,數(shù)據(jù)挖掘:概念與技術(shù),數(shù)據(jù)倉庫:三層體系結(jié)構(gòu),2021/3/15,43,數(shù)據(jù)挖掘:概念
19、與技術(shù),三種數(shù)據(jù)倉庫模型,企業(yè)數(shù)據(jù)倉庫 收集了整個(gè)組織關(guān)于主題的所有信息,跨功能的 數(shù)據(jù)集市 包含企業(yè)范圍的一個(gè)數(shù)據(jù)子集,針對(duì)特定的用戶群,限于選定的主題 獨(dú)立 vs. 依賴 (直接來自數(shù)據(jù)倉庫)數(shù)據(jù)集市 虛擬數(shù)據(jù)倉庫 操作數(shù)據(jù)庫視圖的集合 只有一些可能的數(shù)據(jù)視圖可以物化,2021/3/15,44,數(shù)據(jù)挖掘:概念與技術(shù),數(shù)據(jù)倉庫開發(fā)的推薦方法,2021/3/15,45,數(shù)據(jù)挖掘:概念與技術(shù),數(shù)據(jù)倉庫:后端開發(fā)工具和實(shí)用程序,數(shù)據(jù)抽取 get data from multiple, heterogeneous, and external sources 數(shù)據(jù)清理 detect errors in
20、 the data and rectify them when possible 數(shù)據(jù)轉(zhuǎn)換 convert data from legacy or host format to warehouse format 加載/裝入 sort, summarize, consolidate, compute views, check integrity, and build indicies and partitions 刷新 propagate the updates from the data sources to the warehouse,2021/3/15,46,數(shù)據(jù)挖掘:概念與技術(shù),元數(shù)據(jù)存
21、儲(chǔ)庫,元數(shù)據(jù)是定義數(shù)據(jù)倉對(duì)象的數(shù)據(jù). 包括: 數(shù)據(jù)倉庫結(jié)構(gòu)的描述 schema, view, dimensions, hierarchies, derived data defn, data mart locations and contents 操作元數(shù)據(jù) data lineage (history of migrated data and transformation path), currency of data (active, archived, or purged), monitoring information (warehouse usage statistics, error
22、 reports, audit trails) 用于匯總的算法 由操作DBMS到DW的映射 關(guān)于系統(tǒng)性能的數(shù)據(jù) warehouse schema, view and derived data definitions 商務(wù)元數(shù)據(jù) business terms and definitions, ownership of data, charging policies,2021/3/15,47,數(shù)據(jù)挖掘:概念與技術(shù),OLAP 服務(wù)器類型,關(guān)系OLAP服務(wù)器 (ROLAP) 使用關(guān)系的或擴(kuò)充的DBMS存儲(chǔ)并管理數(shù)據(jù)倉庫,而OLAP中間件支持其他功能 包括DBMS后端優(yōu)化,聚集導(dǎo)航邏輯實(shí)現(xiàn),附加的工具和
23、服務(wù) 更大的可伸縮性 多維OLAP服務(wù)器 (MOLAP) 基于稀疏數(shù)組的多維存儲(chǔ)引擎 對(duì)預(yù)計(jì)算的匯總數(shù)據(jù)快速索引 混合OLAP服務(wù)器 (HOLAP) (e.g., Microsoft SQLServer) 靈活性, e.g., 低級(jí)別數(shù)據(jù):關(guān)系;高級(jí)別數(shù)據(jù):數(shù)組 特殊 SQL服務(wù)器 (e.g., Redbricks) 專門支持在星形或雪花模型上的SQL查詢,2021/3/15,48,數(shù)據(jù)挖掘:概念與技術(shù),ROLAP數(shù)據(jù)存儲(chǔ),匯總事實(shí)表:基本事實(shí)表數(shù)據(jù)+匯聚數(shù)據(jù),2021/3/15,49,數(shù)據(jù)挖掘:概念與技術(shù),Chapter 3: Data Warehousing and OLAP Techno
24、logy: An Overview,What is a data warehouse? A multi-dimensional data model Data warehouse architecture Data warehouse implementation From data warehousing to data mining,2021/3/15,50,數(shù)據(jù)挖掘:概念與技術(shù),數(shù)據(jù)立方體的有效計(jì)算,數(shù)據(jù)立方體:方體的格 最底層立方:基本方體 最高層立方:頂點(diǎn)方體,僅一個(gè)單元 一個(gè)n維L層立方體有多少方體? 維災(zāi)難 數(shù)據(jù)立方體的物化 所有方體物化,不物化, or部分物化 選擇哪些方體物化
25、 Based on size, sharing, access frequency, etc,2021/3/15,51,數(shù)據(jù)挖掘:概念與技術(shù),立方體操作,DMQL立方體定義和計(jì)算 define cube salesitem, city, year: sum(sales_in_dollars) compute cube sales 轉(zhuǎn)化為類似SQL語句 (新的操作 cube by, introduced by Gray et al.96) SELECT item, city, year, SUM (amount) FROM SALES CUBE BY item, city, year 需要計(jì)算下
26、面的 Group-Bys (date, product, customer), (date,product),(date, customer), (product, customer), (date), (product), (customer) (,2021/3/15,52,數(shù)據(jù)挖掘:概念與技術(shù),冰山立方體(iceberg cube,只存放其聚集值大于某個(gè)支持度閾值的立方體單元 HAVING COUNT(*) = minsup,動(dòng)機(jī) 僅一小部分“浮于水面”的立方體單元存儲(chǔ)在稀疏立方體中 僅計(jì)算感興趣的單元數(shù)據(jù)超出某一閾值 避免立方體的爆炸性增長(zhǎng),2021/3/15,53,數(shù)據(jù)挖掘:概念與技術(shù)
27、,索引OLAP數(shù)據(jù):位圖索引,某一具體列上的索引; 列中的每一個(gè)值都有一個(gè)位向量:位操作速度快 如果給定屬性上包含n個(gè)值,則位圖索引中每項(xiàng)需要n個(gè)位。 位向量的長(zhǎng)度:基本表的記錄數(shù) 如果基表給定行上該屬性值為v,則位圖索引對(duì)應(yīng)行的該值位置1。 不適合集數(shù)很大的域,導(dǎo)致位向量很長(zhǎng),2021/3/15,54,數(shù)據(jù)挖掘:概念與技術(shù),位圖索引例子,2021/3/15,55,數(shù)據(jù)挖掘:概念與技術(shù),索引OLAP數(shù)據(jù): 連接索引,連接索引:JI(R-id, S-id) where R (R-id, ) S (S-id, ) 傳統(tǒng)的索引將給定列上的值映射到具有該值的行的列表上 在JI文件中物化關(guān)系連接,加快連
28、接速度 在數(shù)據(jù)倉庫中,連接索引維護(hù)維的屬性值與事實(shí)表的對(duì)應(yīng)行的聯(lián)系 連接索引可以跨越多維,形成符合連接索引,2021/3/15,56,數(shù)據(jù)挖掘:概念與技術(shù),連接索引例子,2021/3/15,57,數(shù)據(jù)挖掘:概念與技術(shù),OLAP 查詢的有效處理,確定哪些操作應(yīng)該在可利用的方體上執(zhí)行 將 drill, roll等操作轉(zhuǎn)化為SQL或OLAP操作 e.g., dice = selection + projection 確定相關(guān)操作 應(yīng)當(dāng)使用哪些物化的方體 假設(shè)對(duì) brand, province_or_state 處理查詢,選擇常量 “year = 2004”, 有4個(gè)物化方體可用: 1) year,
29、item_name, city 2) year, brand, country 3) year, brand, province_or_state 4) item_name, province_or_state where year = 2004 應(yīng)該選擇哪一個(gè)來處理查詢? 基于代價(jià)的估計(jì)。 采用稀疏矩陣和數(shù)據(jù)壓縮技術(shù),2021/3/15,58,數(shù)據(jù)挖掘:概念與技術(shù),Chapter 3: Data Warehousing and OLAP Technology: An Overview,What is a data warehouse? A multi-dimensional data mod
30、el Data warehouse architecture Data warehouse implementation From data warehousing to data mining,2021/3/15,59,數(shù)據(jù)挖掘:概念與技術(shù),數(shù)據(jù)倉庫的使用,三種數(shù)據(jù)倉庫應(yīng)用 信息處理 支持查詢、基本的統(tǒng)計(jì)分析、使用交叉表、表、圖表進(jìn)行報(bào)告 構(gòu)造低代價(jià)的基于Web的訪問工具。 分析處理 多維數(shù)據(jù)分析 支持OLAP操作: slice-dice, drilling, pivoting 數(shù)據(jù)挖掘 從隱藏的模式中發(fā)現(xiàn)知識(shí) 支持關(guān)聯(lián)分析,構(gòu)造分析模型,進(jìn)行分類和預(yù)測(cè),使用可視化工具提供挖掘結(jié)果,2021
31、/3/15,60,數(shù)據(jù)挖掘:概念與技術(shù),數(shù)據(jù)倉庫的漸進(jìn)使用,商務(wù)管理人員使用數(shù)據(jù)倉庫和數(shù)據(jù)集市進(jìn)行數(shù)據(jù)分析和戰(zhàn)略決策 數(shù)據(jù)倉庫使用時(shí)間越長(zhǎng),進(jìn)化的越好 開始,用于產(chǎn)生報(bào)告和回答預(yù)先定義的查詢 漸漸地,用于分析匯總和詳細(xì)的數(shù)據(jù)結(jié)果以報(bào)表和圖表提供 稍后,用于戰(zhàn)略目的,進(jìn)行多維分析和復(fù)雜的切片和切塊操作。 最后,用于知識(shí)發(fā)現(xiàn),并使用數(shù)據(jù)挖掘工具進(jìn)行戰(zhàn)略決策。 數(shù)據(jù)倉庫工具:訪問與檢索工具,數(shù)據(jù)庫報(bào)表工具,數(shù)據(jù)分析工具和數(shù)據(jù)挖掘工具,2021/3/15,61,數(shù)據(jù)挖掘:概念與技術(shù),從聯(lián)機(jī)分析處理(OLAP) 到聯(lián)機(jī)分析挖掘 (OLAM,為什么需要聯(lián)機(jī)分析挖掘? 數(shù)據(jù)倉庫中數(shù)據(jù)的高質(zhì)量 DW中包含集成
32、,一致,干凈的數(shù)據(jù) 環(huán)繞數(shù)據(jù)倉庫的信息處理基礎(chǔ)設(shè)施 ODBC, OLEDB, Web訪問, 服務(wù)機(jī)制, reporting and OLAP tools 基于OLAP的探測(cè)試數(shù)據(jù)分析 Mining with drilling, dicing, pivoting, etc. 數(shù)據(jù)挖掘功能的聯(lián)機(jī)選擇 Integration and swapping of multiple mining functions, algorithms, and tasks,2021/3/15,62,數(shù)據(jù)挖掘:概念與技術(shù),聯(lián)機(jī)分析挖掘的體系結(jié)構(gòu),2021/3/15,63,數(shù)據(jù)挖掘:概念與技術(shù),Chapter 3: Dat
33、a Warehousing and OLAP Technology: An Overview,What is a data warehouse? A multi-dimensional data model Data warehouse architecture Data warehouse implementation From data warehousing to data mining Summary,2021/3/15,64,數(shù)據(jù)挖掘:概念與技術(shù),總結(jié): 數(shù)據(jù)倉庫和OLAP技術(shù),為什么需要數(shù)據(jù)倉庫? 數(shù)據(jù)倉庫的多維數(shù)據(jù)模型 Star schema, snowflake schema, fact constellations A data cube consists of dimensions & measures OLAP 操作: drilling, rolling, slicing, dicing and pivoting 數(shù)據(jù)倉庫結(jié)構(gòu)體系 OLAP 服務(wù)器: ROLAP, MOLAP, HOLAP 數(shù)據(jù)立方體的有效計(jì)算 Partial vs. full vs. no materialization Indexing OALP data: Bitmap index and join index OLAP query processing 從 OLAP 到 OLAM
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 景觀設(shè)計(jì)高速公路施工方案
- 鋼渣采購合同年
- 中小企業(yè)融資租賃協(xié)議
- 培訓(xùn)班合作協(xié)議書
- 平?jīng)鲆簤簎型渠施工方案
- 鍍鋅板宣傳欄制作施工方案
- 項(xiàng)目委托管理合同
- 湖北省武漢市漢陽區(qū)2024-2025學(xué)年上學(xué)期元調(diào)九年級(jí)化學(xué)試題(含標(biāo)答)
- 農(nóng)機(jī)具承包合同協(xié)議
- 2025年拼音考試 測(cè)試題及答案
- 《服裝零售管理實(shí)習(xí)》課程教學(xué)大綱
- 靜脈血栓栓塞癥(VTE)患者康復(fù)指導(dǎo)方案
- 《 鐵路施工期職業(yè)病危害防護(hù)標(biāo)準(zhǔn)》
- 【MOOC】跨文化交際入門-華中師范大學(xué) 中國大學(xué)慕課MOOC答案
- 綠色金融與ESG分析
- 2024年家電市場(chǎng)發(fā)展趨勢(shì)及2025年消費(fèi)趨勢(shì)分析報(bào)告-GfK
- 2024年陜西省初中學(xué)業(yè)水平考試·數(shù)學(xué)
- 勞榮枝案件分析報(bào)告
- 火電廠汽機(jī)車間安全培訓(xùn)
- 2025初級(jí)會(huì)計(jì)理論考試100題及解析
- 社區(qū)網(wǎng)格員消防安全培訓(xùn)
評(píng)論
0/150
提交評(píng)論