《數(shù)據(jù)庫原理與應(yīng)用教程》第5版 課件 何玉潔 第12、13章 備份和恢復(fù)數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第1頁
《數(shù)據(jù)庫原理與應(yīng)用教程》第5版 課件 何玉潔 第12、13章 備份和恢復(fù)數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第2頁
《數(shù)據(jù)庫原理與應(yīng)用教程》第5版 課件 何玉潔 第12、13章 備份和恢復(fù)數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第3頁
《數(shù)據(jù)庫原理與應(yīng)用教程》第5版 課件 何玉潔 第12、13章 備份和恢復(fù)數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第4頁
《數(shù)據(jù)庫原理與應(yīng)用教程》第5版 課件 何玉潔 第12、13章 備份和恢復(fù)數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩88頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)庫原理與應(yīng)用教程(第5版)第12章備份和恢復(fù)數(shù)據(jù)庫12.1備份數(shù)據(jù)庫12.2SQLServer支持的恢復(fù)模式和備份類型12.3還原數(shù)據(jù)庫12.1備份數(shù)據(jù)庫12.1.1為什么要進(jìn)行數(shù)據(jù)備份?12.1.2備份內(nèi)容及備份時(shí)間12.1.3一些術(shù)語12.1.4備份設(shè)備2023/12/2020:39312.1.1為什么要進(jìn)行數(shù)據(jù)備份?主要目的是為了防止數(shù)據(jù)的丟失。造成數(shù)據(jù)丟失的原因包括如下幾種情況:存儲介質(zhì)故障;用戶的操作錯(cuò)誤;服務(wù)器故障;由于病毒的侵害而造成的數(shù)據(jù)丟失或損壞。由于自然災(zāi)害而造成的數(shù)據(jù)丟失或損壞。2023/12/2020:39412.1.2備份內(nèi)容及備份時(shí)間備份內(nèi)容系統(tǒng)數(shù)據(jù)庫用戶數(shù)據(jù)庫備份時(shí)間系統(tǒng)數(shù)據(jù)庫:修改之后備份用戶數(shù)據(jù)庫:周期性備份2023/12/2020:39512.1.3一些術(shù)語備份[動詞]創(chuàng)建備份[名詞]的過程,方法是通過復(fù)制SQLServer數(shù)據(jù)庫中的數(shù)據(jù)記錄或復(fù)制其事務(wù)日志中的日志記錄。備份[名詞]可用于在出現(xiàn)故障后還原或恢復(fù)數(shù)據(jù)庫的數(shù)據(jù)副本。數(shù)據(jù)庫備份還可用于將數(shù)據(jù)庫副本還原到新位置。一些術(shù)語(續(xù))3.備份設(shè)備要寫入數(shù)據(jù)庫備份及能從中還原這些備份的磁盤或磁帶設(shè)備。4.備份介質(zhì)已寫入一個(gè)或多個(gè)備份的一個(gè)或多個(gè)磁帶或磁盤文件。一些術(shù)語(續(xù))恢復(fù)(recover)將數(shù)據(jù)庫恢復(fù)到穩(wěn)定且一致的狀態(tài)?;謴?fù)(recovery)將數(shù)據(jù)庫恢復(fù)到事務(wù)一致狀態(tài)的數(shù)據(jù)庫啟動階段或RestoreWithRecovery(該選項(xiàng)含義將在12.3.1節(jié)解釋)階段。還原(restore)包括多個(gè)恢復(fù)階段的完整過程。12.1.3備份設(shè)備永久備份設(shè)備在備份之前需要預(yù)先建立臨時(shí)備份設(shè)備不需要預(yù)先建立,在備份時(shí)直接使用2023/12/2020:399用T-SQL語句創(chuàng)建備份設(shè)備sp_addumpdevice[@devtype=]‘device_type‘,[@logicalname=]‘logical_name‘,[@physicalname=]‘physical_name‘[@devtype=]‘device_type’:備份設(shè)備的類型Disk:磁盤Type:磁帶2023/12/2020:3910示例例.建立一個(gè)名為bk2的磁盤備份設(shè)備,其物理存儲位置及文件名為D:\dump\bk2.bak。EXECsp_addumpdevice'disk','bk2','D:\dump\bk2.bak'2023/12/2020:3911SQLServer支持的恢復(fù)模式和備份類型12.2.1恢復(fù)模式12.2.2備份類型及備份策略恢復(fù)模式簡單恢復(fù)模式可以最大程度地減少事務(wù)日志的管理開銷。大容量日志恢復(fù)模式只對大容量操作進(jìn)行最小記錄,使事務(wù)日志不會被大容量加載操作所填充。完整模式完整記錄所有的事務(wù),并將事務(wù)日志記錄保留到對其備份完畢為止。查看和更改恢復(fù)模式ALTERDATABASEdatabase_nameSETRECOVERY{FULL|BULK_LOGGED|SIMPLE}FULL:完整恢復(fù)模式BULK_LOGGED:大容量日志恢復(fù)模式SIMPLE:簡單恢復(fù)模式。例2.將test數(shù)據(jù)庫的恢復(fù)模式設(shè)置為完整恢復(fù)模式。ALTERDATABASEtestSETRECOVERYFULL備份類型完整備份差異備份事務(wù)日志備份2023/12/2020:3915完整備份恢復(fù)的基線。在備份時(shí)不影響用戶對數(shù)據(jù)庫的操作。備份數(shù)據(jù)文件、數(shù)據(jù)庫對象和數(shù)據(jù)的信息。備份備份過程中發(fā)生的活動。2023/12/2020:3916差異備份備份從上次完整備份之后改變的內(nèi)容備份差異備份過程中發(fā)生的活動比完整備份節(jié)約時(shí)間2023/12/2020:3917事務(wù)日志備份備份從上次日志備份之后的日志記錄備份完成后要截?cái)嗳罩緦收匣謴?fù)模式的要求不能是“簡單”的2023/12/2020:3918設(shè)計(jì)備份策略僅完整備份完整備份+日志備份完整備份+差異備份+日志備份2023/12/2020:3919僅完整備份適合于數(shù)據(jù)庫數(shù)據(jù)不是很大,而且數(shù)據(jù)更改不是很頻繁的情況。SundayMonday

Tuesday

DataLogDataLogDataLog2023/12/2020:3920完整備份+日志備份如果不允許丟失太多的數(shù)據(jù),而且又不希望經(jīng)常地進(jìn)行完整備份,則可以在完整備份中間加一些日志備份。SundayMonday

完整備份LogLogLogLogDataLogDataLog2023/12/2020:3921完整備份+差異備份+日志備份MondayTuesday完整備份差異備份差異備份...LogDataLogLogLogLogLogLog

LogData

2023/12/2020:392212.3實(shí)現(xiàn)備份用SSMS實(shí)現(xiàn)用T-SQL語句實(shí)現(xiàn)用T-SQL語句備份數(shù)據(jù)庫BACKUPDATABASE數(shù)據(jù)庫名TO{<備份設(shè)備名>}|{DISK|TAPE}={'物理備份文件名'}[WITH[DIFFERENTIAL][[,]{INIT|NOINIT}]]DIFFERENTIAL:進(jìn)行差異備份;INIT:本次備份數(shù)據(jù)庫將重寫備份設(shè)備;NOINIT:本次備份數(shù)據(jù)庫將追加到備份設(shè)備上。2023/12/2020:3924用T-SQL語句備份日志BACKUPLOG數(shù)據(jù)庫名TO{<備份設(shè)備名>}|{DISK|TAPE}={'物理備份文件名'}[WITH[{INIT|NOINIT}][{[,]NO_LOG|TRUNCATE_ONLY|NO_TRUNCATE}]]NO_LOG和TRUNCATE_ONLY:備份完日志后截?cái)嗖换顒尤罩?。NO_TRUNCATE:備份完日志后不截?cái)嗖换顒尤罩尽?023/12/2020:3925示例1例1.對“students”數(shù)據(jù)庫進(jìn)行一次完整備份,備份到MyBK_1備份設(shè)備上(假設(shè)此備份設(shè)備已創(chuàng)建好),并覆蓋掉該備份設(shè)備上已有的內(nèi)容。。BACKUPDATABASEstudentsTOMyBK_1WITHINIT2023/12/2020:3926示例2例2.對“students”數(shù)據(jù)庫進(jìn)行一次差異備份,也備份到MyBK_1備份設(shè)備上,并保留該備份設(shè)備上已有的內(nèi)容。BACKUPDATABASEstudentsTOMyBK_1WITHDIFFERENTIAL,NOINIT2023/12/2020:3927示例3例3.對“students”進(jìn)行一次事務(wù)日志備份,直接備份到D:\LogData文件夾下(假設(shè)此文件夾已存在)下的Students_log.bak文件上。BACKUPLOGstudentsTODISK='D:\LogData\Students_log.bak'2023/12/2020:392812.3還原數(shù)據(jù)庫12.3.1還原的順序12.3.2實(shí)現(xiàn)還原2023/12/2020:392912.3.1還原的順序

1.恢復(fù)最近的完整備份;

2.恢復(fù)最近的差異備份(如果有);

3.恢復(fù)自差異備份之后的所有日志備份(按備份的先后順序)。2023/12/2020:3930用SSMS工具還原數(shù)據(jù)庫還原數(shù)據(jù)庫有兩種情況:數(shù)據(jù)庫還存在,但其中的數(shù)據(jù)出現(xiàn)了損壞,即在服務(wù)器上還存在該數(shù)據(jù)庫;這種情況下在進(jìn)行實(shí)際還原前,應(yīng)該首先對數(shù)據(jù)庫進(jìn)行一次日志尾部備份,以減少數(shù)據(jù)的損失。數(shù)據(jù)庫已經(jīng)完全被損壞或者被刪除,即在服務(wù)器中已經(jīng)不存在該數(shù)據(jù)庫了。用T-SQL還原數(shù)據(jù)庫RESTOREDATABASE數(shù)據(jù)庫名FROM備份設(shè)備名

[WITHFILE=文件號[,]NORECOVERY[,]RECOVERY[,]STANDBY][;]FILE=文件號:標(biāo)識要還原的備份,文件號為1表示備份設(shè)備上的第一個(gè)備份。NORECOVERY:表明對數(shù)據(jù)庫的恢復(fù)操作還沒完成。使用此選項(xiàng)恢復(fù)的數(shù)據(jù)庫是不可用的,但可以繼續(xù)恢復(fù)后續(xù)的備份。RECOVERY:表明對數(shù)據(jù)庫的恢復(fù)操作已經(jīng)完成。STANDBY:使數(shù)據(jù)庫處于備用狀態(tài),在該狀態(tài)下只能對數(shù)據(jù)庫進(jìn)行有限的只讀訪問。2023/12/2020:3932恢復(fù)日志RESTORELOG數(shù)據(jù)庫名FROM備份設(shè)備名[WITHFILE=文件號[,]NORECOVERY[,]RECOVERY[,]STANDBY][;]2023/12/2020:3933示例1例1.假設(shè)已對students數(shù)據(jù)庫進(jìn)行了完整備份,并備份到MyBK_1備份設(shè)備上,假設(shè)此備份設(shè)備只含有對students數(shù)據(jù)庫的完整備份。則恢復(fù)students數(shù)據(jù)庫的語句為: RESTOREDATABASEstudentsFROMMyBK_12023/12/2020:3934示例2恢復(fù)順序:首先恢復(fù)完整備份然后恢復(fù)差異備份最后恢復(fù)日志備份2023/12/2020:3935完整備份到bk1設(shè)備上差異備份到bk1設(shè)備上日志備份到bk2設(shè)備上t例2.設(shè)對students數(shù)據(jù)庫進(jìn)行了下述備份過程示例2(續(xù))恢復(fù)完整備份RESTOREDATABASEStudentsFROMbk1WITHFILE=1,NORECOVERY恢復(fù)差異備份RESTOREDATABASEStudentsFROMbk1WITHFILE=2,NORECOVERY恢復(fù)日志備份RESTORELOGStudentsFROMbk22023/12/2020:3936數(shù)據(jù)庫原理與應(yīng)用教程(第5版)第13章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘13.1數(shù)據(jù)倉庫技術(shù)13.2聯(lián)機(jī)分析處理13.3數(shù)據(jù)挖掘13.1數(shù)據(jù)倉庫技術(shù)13.1.1數(shù)據(jù)倉庫的概念及特點(diǎn)13.1.2數(shù)據(jù)倉庫體系結(jié)構(gòu)13.1.3數(shù)據(jù)倉庫的分類13.1.4數(shù)據(jù)倉庫的開發(fā)13.1.5數(shù)據(jù)倉庫的數(shù)據(jù)模式數(shù)據(jù)倉庫技術(shù)數(shù)據(jù)倉庫是進(jìn)行聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘的基礎(chǔ),它從數(shù)據(jù)分析的角度將聯(lián)機(jī)事務(wù)中的數(shù)據(jù)經(jīng)過清理、轉(zhuǎn)換并加載到數(shù)據(jù)倉庫中,這些數(shù)據(jù)在數(shù)據(jù)倉庫中被合理的組織和維護(hù),以滿足聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘的要求。13.1.1數(shù)據(jù)倉庫的概念及特點(diǎn)面向主題集成的數(shù)據(jù)數(shù)據(jù)不可更新數(shù)據(jù)隨時(shí)間不斷變化使用數(shù)據(jù)倉庫是為了更好的支持制定決策面向主題主題是一種抽象,它是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用,是對企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對象,是針對某一決策問題而設(shè)置的。面向主題的數(shù)據(jù)組織方式就是完整、統(tǒng)一地刻畫各個(gè)分析對象所涉及的企業(yè)的各項(xiàng)數(shù)據(jù)以及數(shù)據(jù)之間的聯(lián)系。在關(guān)系數(shù)據(jù)庫中,每個(gè)主題由一組相關(guān)的關(guān)系表或邏輯視圖來具體實(shí)現(xiàn)。主題中的所有表都通過一個(gè)公共鍵聯(lián)系起來,數(shù)據(jù)可以存儲在不同的介質(zhì)上,而且相同的數(shù)據(jù)可以既有綜合級又有細(xì)節(jié)級。

集成的數(shù)據(jù)數(shù)據(jù)倉庫中存儲的數(shù)據(jù)是從原來分散的各個(gè)子系統(tǒng)中提取出來的,但并不是原有數(shù)據(jù)的簡單拷貝,而是經(jīng)過統(tǒng)一、綜合這樣的過程。原因:源數(shù)據(jù)不適合分析處理,在進(jìn)入數(shù)據(jù)倉庫之前必須經(jīng)過綜合、清理等過程,拋棄分析處理不需要的數(shù)據(jù)項(xiàng),增加一些可能涉及的外部數(shù)據(jù)。數(shù)據(jù)倉庫每個(gè)主題所對應(yīng)的源數(shù)據(jù)在原分散數(shù)據(jù)庫中有許多重復(fù)或不一致的地方,因而必須對數(shù)據(jù)進(jìn)行統(tǒng)一,消除不一致和錯(cuò)誤的地方,以保證數(shù)據(jù)的質(zhì)量。數(shù)據(jù)不可更新從數(shù)據(jù)的使用方式上看,數(shù)據(jù)倉庫的數(shù)據(jù)不可更新是指當(dāng)數(shù)據(jù)被存放到數(shù)據(jù)倉庫之后,最終用戶只能進(jìn)行查詢、分析操作,而不能修改其中存儲的數(shù)據(jù)。數(shù)據(jù)隨時(shí)間不斷變化數(shù)據(jù)倉庫的數(shù)據(jù)不可更新,但并不是說,數(shù)據(jù)從進(jìn)入數(shù)據(jù)倉庫以后就永遠(yuǎn)不變。從數(shù)據(jù)的內(nèi)容上看,數(shù)據(jù)倉庫存儲的是企業(yè)當(dāng)前的和歷史的數(shù)據(jù)。因而每隔一段固定的時(shí)間間隔后,操作型數(shù)據(jù)庫系統(tǒng)產(chǎn)生的數(shù)據(jù)需要經(jīng)過抽取、轉(zhuǎn)換過程以后集成到數(shù)據(jù)倉庫中。數(shù)據(jù)倉庫中的數(shù)據(jù)隨時(shí)間變化而定期地更新。數(shù)據(jù)倉庫體系結(jié)構(gòu)操作型數(shù)據(jù)與分析型數(shù)據(jù)的區(qū)別原始數(shù)據(jù)/操作型數(shù)據(jù)導(dǎo)出數(shù)據(jù)/DSS數(shù)據(jù)面向應(yīng)用,支持日常操作面向主題,支持管理需求數(shù)據(jù)詳細(xì),處理細(xì)節(jié)問題綜合性強(qiáng),或經(jīng)過提煉存取的瞬間是準(zhǔn)確值代表過去的數(shù)據(jù)可更新不可更新重復(fù)運(yùn)行啟發(fā)式運(yùn)行事務(wù)處理驅(qū)動分析處理驅(qū)動非冗余性時(shí)常有冗余處理需求事先可知,系統(tǒng)可按預(yù)計(jì)的工作量進(jìn)行優(yōu)化處理需求事先不知道對性能要求高對性能要求寬松用戶不必理解數(shù)據(jù)庫,只是輸入數(shù)據(jù)即可用戶需要理解數(shù)據(jù)庫,以從數(shù)據(jù)中得出有意義的結(jié)論數(shù)據(jù)倉庫的分類按照數(shù)據(jù)倉庫的規(guī)模與應(yīng)用層面來區(qū)分,數(shù)據(jù)倉庫大致可分為下列幾種:標(biāo)準(zhǔn)數(shù)據(jù)倉庫。數(shù)據(jù)集市。多層數(shù)據(jù)倉庫。聯(lián)合式數(shù)據(jù)倉庫。

標(biāo)準(zhǔn)數(shù)據(jù)倉庫是企業(yè)最常使用的數(shù)據(jù)倉庫,它依據(jù)管理決策的需求而將數(shù)據(jù)加以整理分析,再將其轉(zhuǎn)換到數(shù)據(jù)倉庫之中。這類數(shù)據(jù)倉庫是以整個(gè)企業(yè)為著眼點(diǎn)而建構(gòu)出來的,其數(shù)據(jù)都與整個(gè)企業(yè)的數(shù)據(jù)有關(guān),用戶可以從中得到整個(gè)組織運(yùn)作的統(tǒng)計(jì)分析信息。數(shù)據(jù)集市針對某一主題或是某個(gè)部門而構(gòu)建的數(shù)據(jù)倉庫,規(guī)模會比標(biāo)準(zhǔn)數(shù)據(jù)倉庫小,且只存儲與部門或主題相關(guān)的數(shù)據(jù),是數(shù)據(jù)體系結(jié)構(gòu)中的部門級數(shù)據(jù)倉庫。通常用于為單位的職能部門提供信息。例如,為是銷售部門、庫存和發(fā)貨部門、財(cái)務(wù)部門、高級管理部門等提供有用信息。還可用于將數(shù)據(jù)倉庫數(shù)據(jù)分段以反映按地理劃分的業(yè)務(wù),其中每個(gè)地區(qū)都是相對自治的。

多層數(shù)據(jù)倉庫是標(biāo)準(zhǔn)數(shù)據(jù)倉庫與數(shù)據(jù)集市的組合應(yīng)用方式在整個(gè)架構(gòu)之中,有一個(gè)最上層的數(shù)據(jù)倉庫提供者,它將數(shù)據(jù)提供給下層的數(shù)據(jù)集市。

數(shù)據(jù)倉庫銷售數(shù)據(jù)集市市場數(shù)據(jù)集市商店數(shù)據(jù)集市用戶用戶用戶數(shù)據(jù)倉庫的開發(fā)自頂向下,即從全面設(shè)計(jì)整個(gè)企業(yè)的數(shù)據(jù)倉庫模型開始。這是一種系統(tǒng)的解決方法,并能最大限度的減少集成問題,但費(fèi)用高,開發(fā)時(shí)間長,且缺乏靈活性,因?yàn)槭拐麄€(gè)企業(yè)的數(shù)據(jù)倉庫模型要達(dá)到一致是很困難的。自底向上,從設(shè)計(jì)和實(shí)現(xiàn)各個(gè)獨(dú)立的數(shù)據(jù)集市開始。這種方法費(fèi)用低,靈活性高,并能快速的回報(bào)投資。

推薦的數(shù)據(jù)倉庫開發(fā)方法數(shù)據(jù)倉庫的數(shù)據(jù)模式典型的數(shù)據(jù)倉庫具有為數(shù)據(jù)分析而設(shè)計(jì)的模式,供OLAP工具進(jìn)行聯(lián)機(jī)分析處理。數(shù)據(jù)通常是多維的,包括維屬性和度量屬性,維屬性是分析數(shù)據(jù)的角度,度量屬性是要分析的數(shù)據(jù),一般是數(shù)值型的。包含統(tǒng)計(jì)分析數(shù)據(jù)的表稱為事實(shí)數(shù)據(jù)表,通常比較大。

13.1.5數(shù)據(jù)倉庫的數(shù)據(jù)模式星型架構(gòu)雪花型架構(gòu)星型架構(gòu)維度表只與事實(shí)表關(guān)聯(lián),維度表彼此之間沒有任何聯(lián)系。每個(gè)維度表都有一個(gè)且只有一個(gè)列作為主碼,該主碼連接到事實(shí)數(shù)據(jù)表中的一個(gè)列上。雪花型架構(gòu)將一個(gè)維度表分解為多個(gè)表,每個(gè)表都連接到主維度表。13.2聯(lián)機(jī)分析處理聯(lián)機(jī)分析處理(OLAP)是專門為支持復(fù)雜的分析操作而設(shè)計(jì)的,側(cè)重于決策人員和高層管理人員的決策支持可以快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢以一種直觀易懂的形式將查詢結(jié)果提供給決策人員。以數(shù)據(jù)庫或數(shù)據(jù)倉庫為基礎(chǔ),其最終的數(shù)據(jù)來源來自底層的數(shù)據(jù)庫系統(tǒng)。OLAP與OLTP的區(qū)別OLTP面向的是操作人員和底層管理人員,OLAP面向的是決策人員和高層管理人員;OLTP是對基本數(shù)據(jù)的查詢和增、刪、改操作處理,它以數(shù)據(jù)庫為基礎(chǔ),OLAP更適合以數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)據(jù)分析處理。OLAP所依賴的歷史的、導(dǎo)出的及經(jīng)綜合提煉的數(shù)據(jù)均來自O(shè)LTP所依賴的底層數(shù)據(jù)庫。OLAP數(shù)據(jù)較之OLTP數(shù)據(jù)要多一步數(shù)據(jù)多維化或綜合處理的操作。OLAP的基本概念度量屬性:是決策者所關(guān)心的具有實(shí)際意義的數(shù)量。例如,銷售量、庫存量等。維度(或簡稱為維):是人們觀察數(shù)據(jù)的角度。維的層次:人們觀察數(shù)據(jù)的角度(即某個(gè)維)還可以存在細(xì)節(jié)程度不同的多個(gè)描述方面,稱這多個(gè)描述方面為維的層次。維度成員:維度的一個(gè)取值稱為該維的一個(gè)維度成員多維數(shù)組:一個(gè)多維數(shù)組可以表示為:(維1,維2,…,維n,變量)。數(shù)據(jù)單元(單元格):多維數(shù)組的取值稱為數(shù)據(jù)單元

多維度數(shù)據(jù)分析示例聯(lián)機(jī)分析處理的基本分析功能上卷:在數(shù)據(jù)立方體中執(zhí)行聚集操作,通過在維層次中上升或消除某個(gè)或某些維來觀察更概況的數(shù)據(jù)

下鉆:通過在維層次中下降或引入某個(gè)或某些維來更細(xì)致的觀察數(shù)據(jù)。

切片:在給定的數(shù)據(jù)立方體的一個(gè)維上進(jìn)行的選擇操作,結(jié)果是得到了一個(gè)二維的平面數(shù)據(jù)。

切塊:在給定的數(shù)據(jù)立方體的兩個(gè)或多個(gè)維上進(jìn)行的選擇操作,結(jié)果得到了一個(gè)子立方體。轉(zhuǎn)軸:改變維的方向,將一個(gè)三維立方體轉(zhuǎn)變?yōu)橐幌盗卸S平面。

上卷操作示意圖城市上升到地區(qū)

下鉆操作示意圖季度下降到月

切片操作示意圖時(shí)間=1季度切塊操作示意圖(地區(qū)=“江蘇”

or“浙江”)And(時(shí)間=“第一季度”

or“第二季度”)And(商品類型=“家電”

or“食品”)

轉(zhuǎn)軸操作示意圖轉(zhuǎn)軸13.3數(shù)據(jù)挖掘如何從大量的數(shù)據(jù)中及時(shí)有效地提取有用的信息,是所有經(jīng)營管理者所面臨的一個(gè)共同的難題。為了解決這一難題,有關(guān)人員逐步研究開發(fā)了一系列的技術(shù)和方法,即數(shù)據(jù)庫知識發(fā)現(xiàn)和數(shù)據(jù)庫挖掘技術(shù),其目標(biāo)就是要智能化和自動化地把數(shù)據(jù)轉(zhuǎn)換為有用的信息和知識。數(shù)據(jù)庫中的知識發(fā)現(xiàn)是識別數(shù)據(jù)庫中以前未知的、新穎的、潛在有用的和最終可被理解的模式的非平凡過程,而數(shù)據(jù)挖掘是數(shù)據(jù)庫知識發(fā)現(xiàn)過程的一個(gè)步驟。

13.3.1數(shù)據(jù)挖掘過程1.?dāng)?shù)據(jù)準(zhǔn)備數(shù)據(jù)選擇:搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。

數(shù)據(jù)預(yù)處理:研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的數(shù)據(jù)分析作準(zhǔn)備,并確定將要進(jìn)行的挖掘操作的類型。

數(shù)據(jù)轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型,這個(gè)分析模型是針對數(shù)據(jù)挖掘算法建立的。其他過程2.數(shù)據(jù)挖掘

對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘,除了選擇合適的挖掘算法外,其余一切工作都能自動地完成。3.結(jié)果分析

解釋并評估結(jié)果。其使用的分析方法一般應(yīng)視數(shù)據(jù)挖掘操作而定,通常會用到可視化技術(shù)。4.知識的同化

將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。13.3.2數(shù)據(jù)挖掘知識發(fā)現(xiàn)數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的研究的三根技術(shù)支柱:數(shù)據(jù)庫人工智能數(shù)理統(tǒng)計(jì)目前DMKD(數(shù)據(jù)挖掘與知識發(fā)現(xiàn))的主要研究內(nèi)容包括基礎(chǔ)理論、發(fā)現(xiàn)算法、數(shù)據(jù)倉庫、可視化技術(shù)、定性定量互換模型、知識表示方法、發(fā)現(xiàn)知識的維護(hù)和再利用、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中的知識發(fā)現(xiàn)以及網(wǎng)上數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘知識的分類廣義知識關(guān)聯(lián)知識分類知識預(yù)測型知識偏差型知識廣義知識廣義知識(Generalization)是指類別特征的概括性描述知識。根據(jù)數(shù)據(jù)的微觀特性發(fā)現(xiàn)其表征的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識,反映同類事物共同性質(zhì),是對數(shù)據(jù)的概括、精煉和抽象。關(guān)聯(lián)知識關(guān)聯(lián)知識(Association)是反映一個(gè)事件和其他事件之間依賴或關(guān)聯(lián)的知識。如果兩項(xiàng)或多項(xiàng)屬性之間存在關(guān)聯(lián),那么其中一項(xiàng)的屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)可分為兩步。第一步是迭代識別所有的頻繁項(xiàng)目集,要求頻繁項(xiàng)目集的支持率不低于用戶設(shè)定的最低值;第二步是從頻繁項(xiàng)目集中構(gòu)造可信度不低于用戶設(shè)定的最低值的規(guī)則。識別或發(fā)現(xiàn)所有頻繁項(xiàng)目集是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的核心,也是計(jì)算量最大的部分。分類知識分類知識(Classification&Clustering)是反映同類事物共同性質(zhì)的特征型知識和不同事物之間的差異型特征知識。最為典型的分類方法是基于決策樹的分類方法。它是從實(shí)例集中構(gòu)造決策樹,是一種有指導(dǎo)的學(xué)習(xí)方法。預(yù)測型知識預(yù)測型知識(Prediction)是根據(jù)時(shí)間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測未來的數(shù)據(jù),也可以認(rèn)為是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識。目前,時(shí)間序列預(yù)測方法有經(jīng)典的統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等。偏差型知識偏差型知識(Deviation)是對差異和極端特例的描述,揭示事物偏離常規(guī)的異?,F(xiàn)象,如標(biāo)準(zhǔn)類外的特例,數(shù)據(jù)聚類外的離群值等。所有這些知識都可以在不同的概念層次上被發(fā)現(xiàn),并隨著概念層次的提升,從微觀到中觀、到宏觀,以滿足不同用戶不同層次決策的需要。13.3.3數(shù)據(jù)挖掘的常用技術(shù)和目標(biāo)1.常用技術(shù)

人工神經(jīng)網(wǎng)絡(luò):仿照生理神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的非線形預(yù)測模型,通過學(xué)習(xí)進(jìn)行模式識別。

決策樹:代表決策集的樹形結(jié)構(gòu)。

遺傳算法:基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異以及自然選擇等設(shè)計(jì)方法的優(yōu)化技術(shù)。

近鄰算法:將數(shù)據(jù)集合中每一個(gè)記錄進(jìn)行分類的方法。

規(guī)則推導(dǎo):從統(tǒng)計(jì)意義上對數(shù)據(jù)中的“IF-Then”規(guī)則進(jìn)行尋找和推導(dǎo)。目標(biāo)數(shù)據(jù)挖掘用于實(shí)現(xiàn)特定的目標(biāo),這些目標(biāo)可以分為以下幾個(gè)主要類別:預(yù)測:數(shù)據(jù)挖掘預(yù)測數(shù)據(jù)特定屬性的未來行為。如基于對顧客購買行為的分析,什么市場和銷售策略能產(chǎn)生更多利潤等。識別:數(shù)據(jù)挖掘可以基于數(shù)據(jù)模型識別一個(gè)事件、項(xiàng)目或活動的存在。如識別一個(gè)人或一組人訪問數(shù)據(jù)庫某一部分的權(quán)限,基于DNA序列中的某個(gè)特征序列識別基因的存在,等等。目標(biāo)(續(xù))分類:數(shù)據(jù)挖掘可以劃分?jǐn)?shù)據(jù),從而根據(jù)參數(shù)組合識別不同的分類和類別。如超級市場的顧客可以被分類為:尋找折扣的顧客,忠誠并且常來的顧客,只買特定品牌商品的顧客,不經(jīng)常來的顧客,等等。優(yōu)化:數(shù)據(jù)挖掘可以優(yōu)化對有限資源的使用,如時(shí)間、空間、資金或材料,在給定的約束條件內(nèi)最大化產(chǎn)出值,如銷售量或利潤。13.3.4數(shù)據(jù)挖掘工具有各種不同類型的數(shù)據(jù)挖掘工具和方法來實(shí)現(xiàn)知識

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論