第四章旅游數(shù)據(jù)資源管理技術_第1頁
第四章旅游數(shù)據(jù)資源管理技術_第2頁
第四章旅游數(shù)據(jù)資源管理技術_第3頁
第四章旅游數(shù)據(jù)資源管理技術_第4頁
第四章旅游數(shù)據(jù)資源管理技術_第5頁
已閱讀5頁,還剩94頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第四章

旅游數(shù)據(jù)資源管理技術第一頁,共九十九頁。1第四章旅游數(shù)據(jù)資源管理技術【學習目標】掌握數(shù)據(jù)庫和數(shù)據(jù)倉庫概念了解常用的數(shù)據(jù)庫管理系統(tǒng)使用常用的數(shù)據(jù)挖掘工具進行統(tǒng)計決策【知識要點】數(shù)據(jù)庫和數(shù)據(jù)倉庫數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)挖掘工具第二頁,共九十九頁。21第一節(jié)數(shù)據(jù)管理技術的發(fā)展2第二節(jié)文件管理3第三節(jié)數(shù)據(jù)庫模型4第四節(jié)旅游企業(yè)中常用的數(shù)據(jù)庫管理系統(tǒng)本章內(nèi)容5第五節(jié)旅游企業(yè)中的數(shù)據(jù)倉庫第三頁,共九十九頁。3第一節(jié)數(shù)據(jù)管理技術的發(fā)展一、人工管理階段人工管理階段數(shù)據(jù)管理的特點人工管理階段數(shù)據(jù)與程序的關系用戶1用戶2用戶m應用程序1…應用程序2應用程序3應用程序n…數(shù)據(jù)組1數(shù)據(jù)組2數(shù)據(jù)組3數(shù)據(jù)組k…第四頁,共九十九頁。4第一節(jié)數(shù)據(jù)管理技術的發(fā)展二、文件系統(tǒng)階段文件系統(tǒng)階段數(shù)據(jù)管理的特點文件系統(tǒng)階段數(shù)據(jù)與程序的關系用戶1用戶2用戶m應用程序1…應用程序2應用程序3應用程序n…數(shù)據(jù)組1數(shù)據(jù)組2數(shù)據(jù)組3數(shù)據(jù)組k…文件管理系統(tǒng)第五頁,共九十九頁。5第一節(jié)數(shù)據(jù)管理技術的發(fā)展三、數(shù)據(jù)庫系統(tǒng)階段數(shù)據(jù)庫系統(tǒng)相關概念數(shù)據(jù)庫系統(tǒng)(DBS,DataBaseSystem)數(shù)據(jù)庫(DB,DataBase)數(shù)據(jù)庫管理系統(tǒng)(DataBaseManagementSystem)第六頁,共九十九頁。6第一節(jié)數(shù)據(jù)管理技術的發(fā)展三、數(shù)據(jù)庫系統(tǒng)階段數(shù)據(jù)庫管理階段數(shù)據(jù)與程序的關系數(shù)據(jù)庫管理階段的特點用戶1用戶2用戶m應用程序1…應用程序2應用程序3應用程序n…數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)庫第七頁,共九十九頁。7第二節(jié)文件管理一、文件概念文件系統(tǒng)在操作系統(tǒng)中的作用相關概念文件系統(tǒng)文件文件名稱、文件命名、文件類型文件屬性、文件長度、文件時間文件權限第八頁,共九十九頁。8第二節(jié)文件管理二、文件分類按文件的用途進行分類 系統(tǒng)文件、庫文件、用戶文件按文件的性質(zhì)分類 普通文件目錄文件特殊文件按文件的保護級別進行分類 源文件、目標文件、可執(zhí)行文件第九頁,共九十九頁。9第二節(jié)文件管理三、文件存取和操作文件的存取 順序訪問、隨機訪問、索引訪問文件的操作

對文件自身的操作建立、刪除、打開、關閉、讀寫

對記錄的操作插入、刪除、修改、查找第十頁,共九十九頁。10第二節(jié)文件管理四、文件的結構與處理方法文件結構 物理結構、邏輯結構文件系統(tǒng)的安全性和可恢復性 常見的文件系統(tǒng)及特點 Sysv、Minix、Ext、Ext2、NFS、Hpfs FAT(FAT12、FAT16、FAT32)、exFAT NTFS第十一頁,共九十九頁。11第三節(jié)數(shù)據(jù)庫模型一、數(shù)據(jù)庫概念數(shù)據(jù)庫系統(tǒng)

數(shù)據(jù)管理是數(shù)據(jù)處理的中心問題。數(shù)據(jù)處理是指對各種形式的數(shù)據(jù)進行收集、儲存、加工和傳播的一系列活動的總和。

數(shù)據(jù)管理指的是對數(shù)據(jù)的分類、組織、編碼、儲存、檢索和維護。

數(shù)據(jù)庫技術所研究的問題是如何科學地組織和儲存數(shù)據(jù),如何高效地處理數(shù)據(jù)以獲取其內(nèi)在信息。第十二頁,共九十九頁。12第三節(jié)數(shù)據(jù)庫模型一、數(shù)據(jù)庫概念數(shù)據(jù)庫管理系統(tǒng)是數(shù)據(jù)庫系統(tǒng)的關鍵內(nèi)容。它在操作系統(tǒng)的支持下對數(shù)據(jù)庫進行統(tǒng)一管理和控制。數(shù)據(jù)庫的維護工作、安全性和完整性都由DBMS負貴,應用程序只有通過DBMS才能執(zhí)行。數(shù)據(jù)庫管理系統(tǒng)的主要功能數(shù)據(jù)庫的定義、建立和維護功能為數(shù)據(jù)存取功能數(shù)據(jù)庫運行管理功能第十三頁,共九十九頁。13第三節(jié)數(shù)據(jù)庫模型一、數(shù)據(jù)庫概念數(shù)據(jù)庫系統(tǒng)的主要特征數(shù)據(jù)的結構化數(shù)據(jù)冗余度小數(shù)據(jù)共享具有較高的數(shù)據(jù)和程序獨立性提供各種安全性功能第十四頁,共九十九頁。14第三節(jié)數(shù)據(jù)庫模型二、關系數(shù)據(jù)庫模型

現(xiàn)實世界的數(shù)據(jù)化過程現(xiàn)實世界、信息世界和數(shù)據(jù)世界之間的關系第十五頁,共九十九頁。15第三節(jié)數(shù)據(jù)庫模型二、關系數(shù)據(jù)庫模型概念模型與數(shù)據(jù)模型概念模型實體(Entity)實體的屬性(Attribute)反映實體特性只涉及有限個屬性屬性名、屬性值屬性的域——屬性的取值范圍第十六頁,共九十九頁。16第三節(jié)數(shù)據(jù)庫模型二、關系數(shù)據(jù)庫模型概念模型與數(shù)據(jù)模型概念模型

實體集(EntityUnit)所有屬性名完全相同實體的集合實體名——實體集的名稱實體型(EntityType)實體名及其所有屬性名的集合碼或關鍵字(Key)確定實體集中唯一實體的屬性(集)第十七頁,共九十九頁。17第三節(jié)數(shù)據(jù)庫模型二、關系數(shù)據(jù)庫模型概念模型與數(shù)據(jù)模型概念模型

實體集之間的聯(lián)系一對一聯(lián)系(1:1)一對多聯(lián)系(1:n)多對多聯(lián)系(m:n)第十八頁,共九十九頁。18第三節(jié)數(shù)據(jù)庫模型實體集之間的聯(lián)系AR聯(lián)系名實體型A實體型R11(a)一對一聯(lián)系AR聯(lián)系名實體型A實體型R1n(b)一對多聯(lián)系AR聯(lián)系名實體型A實體型Rmn(c)多對多聯(lián)系第十九頁,共九十九頁。19第三節(jié)數(shù)據(jù)庫模型二、關系數(shù)據(jù)庫模型概念模型的表示方法E-R圖概念模型常用實體—聯(lián)系法表示,即E-R圖在E-R圖中,長方形表示實體,橢圓表示屬性,用無向邊把實體與其屬性連接起來。菱形表示實體間的聯(lián)系,用無向邊把菱形與有關實體連接起來并在無向邊旁標上聯(lián)系的類型。若聯(lián)系具有屬性,則也把屬性與菱形用無向邊相連。第二十頁,共九十九頁。20第三節(jié)數(shù)據(jù)庫模型教師與課程關系的E-R圖講授nm工號姓名性別生日職務職稱專業(yè)課程號名稱學時教室開課時間教師課程第二十一頁,共九十九頁。21第三節(jié)數(shù)據(jù)庫模型教務管理系統(tǒng)E-R圖編排nm系號名稱電話主任地址課程號名稱學時教室開課時間系管理選擇管理講授課程nmnm工號姓名性別生日職務職稱專業(yè)學號姓名性別生日民族入學日期籍貫學生教師11mm第二十二頁,共九十九頁。22第三節(jié)數(shù)據(jù)庫模型二、關系數(shù)據(jù)庫模型數(shù)據(jù)模型非關系模型前兩種模型統(tǒng)稱為非關系模型,它們的數(shù)據(jù)結構和圖是相互對應的。在非關系模型中,概念模型中的實體、實體型分別反映為記錄和記錄型,因此圖的結點表示記錄型,結點之間的連接弧表示記錄型之間的聯(lián)系。第二十三頁,共九十九頁。23第三節(jié)數(shù)據(jù)庫模型二、關系數(shù)據(jù)庫模型數(shù)據(jù)模型非關系模型基本層次聯(lián)系數(shù)據(jù)結構可以分解為基本層次聯(lián)系。兩個記錄型及它們之間的 一對多(一對一)的聯(lián)系 稱為基本層次聯(lián)系。父記錄和子記錄R1R2第二十四頁,共九十九頁。24第三節(jié)數(shù)據(jù)庫模型二、關系數(shù)據(jù)庫模型數(shù)據(jù)模型非關系模型層次模型若一個基本層次聯(lián)系的集合滿足下列兩個條件,則它是層次模型 ①有且僅有一個無父結點,這樣的結點稱為根結點。 ②非根結點都有且僅有一個父結點。第二十五頁,共九十九頁。25第三節(jié)數(shù)據(jù)庫模型多層層次模型RR1R2R21R22第二十六頁,共九十九頁。26第三節(jié)數(shù)據(jù)庫模型二、關系數(shù)據(jù)庫模型數(shù)據(jù)模型非關系模型網(wǎng)狀模型若一個基本層次聯(lián)系集合中,至少有一個結點有一個以上的父結點,則這種數(shù)據(jù)模型是網(wǎng)狀模型。

①可能有一個以上的結點無父結點 ②結點與其父結點間聯(lián)系可能不止一個第二十七頁,共九十九頁。27第三節(jié)數(shù)據(jù)庫模型網(wǎng)狀模型R1R2(a) (b) (c)R3R1R2R1R2R3R4第二十八頁,共九十九頁。28第三節(jié)數(shù)據(jù)庫模型二、關系數(shù)據(jù)庫模型數(shù)據(jù)模型關系模型當前廣泛應用的數(shù)據(jù)庫管理系統(tǒng)幾乎都支持關系模型,稱為關系型數(shù)據(jù)庫管理系統(tǒng)(RelationalDataBaseManagementSystem,即RDBMS)關系模型用二維表表示實體及其相互聯(lián)系對表的構成形式有一定限制第二十九頁,共九十九頁。29第三節(jié)數(shù)據(jù)庫模型二、關系數(shù)據(jù)庫模型數(shù)據(jù)模型關系模型關系模型的主要術語元組:行,對應實體,相當于記錄屬性和屬性名:列,列的名稱分量:一個元組在一個屬性上的值關系與關系名:整表是一個關系關系模式:關系名及其所有屬性名集合第三十頁,共九十九頁。30第三節(jié)數(shù)據(jù)庫模型二、關系數(shù)據(jù)庫模型數(shù)據(jù)模型關系模型關系模型對二維表的限制①表中每一列都必須是不可分的基本項。②表中沒有完全相同的兩個元組。在一個關系模式中:③不能有兩個屬性具有相同的屬性名。④屬性間順序和元組間順序都是無關緊要的。第三十一頁,共九十九頁。31第四節(jié)旅游企業(yè)中常用的數(shù)據(jù)庫管理系統(tǒng)一、Oracle數(shù)據(jù)庫管理系統(tǒng)完整的數(shù)據(jù)管理功能分布式數(shù)據(jù)庫系統(tǒng),支持Internet應用提供界面友好、功能齊全的數(shù)據(jù)庫開發(fā)工具使用PL/SQL語言執(zhí)行各種操作可開放性、可移植性、可伸縮性支持面向對象的功能,如類、方法、屬性等對象/關系型數(shù)據(jù)庫管理系統(tǒng)目前最新版本是Oracle11g第三十二頁,共九十九頁。32第四節(jié)旅游企業(yè)中常用的數(shù)據(jù)庫管理系統(tǒng)二、DB2數(shù)據(jù)庫管理系統(tǒng)具有較好的可伸縮性、高層次的數(shù)據(jù)利用性、完整性、安全性、可恢復性與平臺無關的基本功能和SQL命令數(shù)據(jù)分級技術查詢優(yōu)化器,支持多任務并行查詢網(wǎng)絡支持能力,適用于大型分布式應用系統(tǒng)可通過開放數(shù)據(jù)庫連接(ODBC)接口、Java數(shù)據(jù)庫連接(JDBC)接口,或者CORBA接口代理被任何應用程序訪問第三十三頁,共九十九頁。33第四節(jié)旅游企業(yè)中常用的數(shù)據(jù)庫管理系統(tǒng)三、MSAccess數(shù)據(jù)庫管理系統(tǒng)MicrosoftOffice組件之一桌面型數(shù)據(jù)庫管理系統(tǒng)無需編寫任何代碼,可視化操作包括表、窗體、查詢、報表、宏、模塊等要素支持ODBC與其他數(shù)據(jù)庫相連,實現(xiàn)數(shù)據(jù)交換和共享與Office辦公軟件進行數(shù)據(jù)交換和共享支持嵌入和鏈接多媒體數(shù)據(jù)第三十四頁,共九十九頁。34四大主流數(shù)據(jù)庫比較一、開放性1.SQLServer只能在windows上運行,沒有絲毫的開放性,操作系統(tǒng)的系統(tǒng)的穩(wěn)定對數(shù)據(jù)庫是十分重要的。Windows9X系列產(chǎn)品是偏重于桌面應用,NTserver只適合中小型企業(yè)。而且windows平臺的可靠性,安全性和伸縮性是非常有限的。它不象unix那樣久經(jīng)考驗,尤其是在處理大數(shù)據(jù)庫。2.Oracle能在所有主流平臺上運行(包括windows)。完全支持所有的工業(yè)標準。采用完全開放策略。可以使客戶選擇最適合的解決方案。對開發(fā)商全力支持。第三十五頁,共九十九頁。35四大主流數(shù)據(jù)庫比較一、開放性3.SybaseASE能在所有主流平臺上運行(包括windows)。但由于早期Sybase與OS集成度不高,因此VERSION11.9.2以下版本需要較多OS和DB級補丁。在多平臺的混合環(huán)境中,會有一定問題。4.DB2能在所有主流平臺上運行(包括windows)。最適于海量數(shù)據(jù)。DB2在企業(yè)級的應用最為廣泛,在全球的500家最大的企業(yè)中,幾乎85%以上用DB2數(shù)據(jù)庫服務器,而國內(nèi)到97年約占5%。第三十六頁,共九十九頁。36四大主流數(shù)據(jù)庫比較二、可伸縮性,并行性1.SQLServer并行實施和共存模型并不成熟,很難處理日益增多的用戶數(shù)和數(shù)據(jù)卷,伸縮性有限。2.Oracle并行服務器通過使一組結點共享同一簇中的工作來擴展windownt的能力,提供高可用性和高伸縮性的簇的解決方案。如果windowsNT不能滿足需要,用戶可以把數(shù)據(jù)庫移到UNIX中。Oracle的并行服務器對各種UNIX平臺的集群機制都有著相當高的集成度。第三十七頁,共九十九頁。37四大主流數(shù)據(jù)庫比較二、可伸縮性,并行性

3.SybaseASE雖然有DBSWITCH來支持其并行服務器,但DBSWITCH在技術層面還未成熟,且只支持版本12.5以上的ASESERVER。DBSWITCH技術需要一臺服務器充當SWITCH,從而在硬件上帶來一些麻煩。4.DB2具有很好的并行性。DB2把數(shù)據(jù)庫管理擴充到了并行的、多節(jié)點的環(huán)境。數(shù)據(jù)庫分區(qū)是數(shù)據(jù)庫的一部分,包含自己的數(shù)據(jù)、索引、配置文件、和事務日志。數(shù)據(jù)庫分區(qū)有時被稱為節(jié)點安全性。第三十八頁,共九十九頁。38四大主流數(shù)據(jù)庫比較三、安全認證1.SQLServer沒有獲得任何安全證書。2.OracleServer獲得最高認證級別的ISO標準認證。

3.SybaseASE獲得最高認證級別的ISO標準認證。

4.DB2獲得最高認證級別的ISO標準認證。

第三十九頁,共九十九頁。39四大主流數(shù)據(jù)庫比較四、性能1.SQLServer多用戶時性能不佳2.Oracle性能最高,保持開放平臺下的TPC-D和TPC-C的世界記錄。3.SybaseASE性能接近于SQLServer,但在UNIX平臺下的并發(fā)性要優(yōu)與SQLServer。4.DB2性能較高適用于數(shù)據(jù)倉庫和在線事物處理。

第四十頁,共九十九頁。40四大主流數(shù)據(jù)庫比較五、客戶端支持及應用模式1.SQLServerC/S結構,只支持windows客戶,可以用ADO、DAO、OLEDB、ODBC連接。2.Oracle

多層次網(wǎng)絡計算,支持多種工業(yè)標準,可以用ODBC、JDBC、OCI等網(wǎng)絡客戶連接。3.SybaseASEC/S結構,可以用ODBC、Jconnect、Ct-library等網(wǎng)絡客戶連接。4.DB2跨平臺,多層結構,支持ODBC、JDBC等客戶。第四十一頁,共九十九頁。41四大主流數(shù)據(jù)庫比較六、操作簡便1.SQLServer

操作簡單,但只有圖形界面。2.Oracle較復雜,同時提供GUI和命令行,在windowsNT和unix下操作相同。3.SybaseASE較復雜,同時提供GUI和命令行。但GUI較差,常常無法及時狀態(tài),建議使用命令行。4.DB2操作簡單,同時提供GUI和命令行,在windowsNT和unix下操作相同。第四十二頁,共九十九頁。42四大主流數(shù)據(jù)庫比較七、使用風險1.SQLserver

完全重寫的代碼,經(jīng)歷了長期的測試,不斷延遲,許多功能需要時間來證明。并不十分兼容。2.Oracle

長時間的開發(fā)經(jīng)驗,完全向下兼容。得到廣泛的應用。完全沒有風險。3.SybaseASE向下兼容,但是ct-library程序不益移植。4.DB2在巨型企業(yè)得到廣泛的應用,向下兼容性好。風險小。第四十三頁,共九十九頁。43第五節(jié)旅游企業(yè)中的數(shù)據(jù)倉庫一、數(shù)據(jù)倉庫(DataWarehouse)數(shù)據(jù)倉庫定義數(shù)據(jù)倉庫定義為面向主題的、集成的、穩(wěn)定的、不同時間的、反映歷史變化數(shù)據(jù)集合,用于支持經(jīng)營管理中決策制定過程。第四十四頁,共九十九頁。44第五節(jié)旅游企業(yè)中的數(shù)據(jù)倉庫一、數(shù)據(jù)倉庫(DataWarehouse)數(shù)據(jù)倉庫的特點面向主題集成性穩(wěn)定性反映歷史變化的面向主題的集成的隨時間變化的非易失的數(shù)據(jù)倉庫第四十五頁,共九十九頁。45特點1:數(shù)據(jù)倉庫是面向主題的基于傳統(tǒng)關系數(shù)據(jù)庫建立的各個應用系統(tǒng),是面向應用進行數(shù)據(jù)組織的;而數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題進行組織的。主題是指一個分析領域,是在較高層次上企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行利用的抽象。所謂較高層次是相對面向應用而言的,其含義是指按照主題進行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象級別。例如保險公司建立數(shù)據(jù)倉庫,所選主題可能是顧客、保險金和索賠等,而按照應用組織的數(shù)據(jù)庫則可能是汽車保險、生命保險和財產(chǎn)保險等。對于一個網(wǎng)上商城的數(shù)據(jù)倉庫來說,那么銷售分析就是一個主題,客戶屬性分析也是一個主題。第四十六頁,共九十九頁。46特點2:數(shù)據(jù)倉庫是集成的面向事務處理的操作型數(shù)據(jù)庫通常與某些特定的應用相關,數(shù)據(jù)庫之間相互獨立,并且往往是異構的。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關于整個企業(yè)的一致的全局信息。在創(chuàng)建數(shù)據(jù)倉庫時,信息集成的工作包括格式轉換、根據(jù)選擇邏輯消除沖突、運算、總結、綜合、統(tǒng)計、加時間屬性和設置缺省值等工作。還要將原始數(shù)據(jù)結構作一個從面向應用到面向主題的轉變。第四十七頁,共九十九頁。47特點2:數(shù)據(jù)倉庫是集成的數(shù)據(jù)倉庫環(huán)境下數(shù)據(jù)的集成第四十八頁,共九十九頁。48特點3:數(shù)據(jù)倉庫是穩(wěn)定的操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,數(shù)據(jù)一旦裝入其中,基本不會發(fā)生變化。數(shù)據(jù)倉庫中的每個數(shù)據(jù)項對應于一個特定時間。當對象某些屬性發(fā)生變化就會生成新的數(shù)據(jù)項。一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。因此,數(shù)據(jù)倉庫的信息具有穩(wěn)定性。第四十九頁,共九十九頁。49特點4:數(shù)據(jù)倉庫是反映歷史變化的操作型數(shù)據(jù)庫主要關心當前某一個時間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應用數(shù)據(jù)倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預測。第五十頁,共九十九頁。50數(shù)據(jù)隨時間變化數(shù)據(jù)的不可更新是指數(shù)據(jù)倉庫用戶進行分析處理時不進行數(shù)據(jù)更新工作,不是說數(shù)據(jù)倉庫從開始到刪除的整個生命周期都是永遠不變的。數(shù)據(jù)倉庫的數(shù)據(jù)隨著時間變化而定期被更新,每隔一段固定的時間間隔后,運作數(shù)據(jù)庫系統(tǒng)中產(chǎn)生的數(shù)據(jù)被抽取、轉換以后集成到數(shù)據(jù)倉庫中,而數(shù)據(jù)的過去版本仍保留在數(shù)據(jù)倉庫中。數(shù)據(jù)倉庫的數(shù)據(jù)也有存儲期限,一旦超過了這個期限,過期數(shù)據(jù)就要被刪除,只是數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)實現(xiàn)要遠遠長于操作型環(huán)境中的數(shù)據(jù)時限。第五十一頁,共九十九頁。51第五節(jié)旅游企業(yè)中的數(shù)據(jù)倉庫一、數(shù)據(jù)倉庫(DataWarehouse)數(shù)據(jù)倉庫是一個數(shù)據(jù)庫,其中的數(shù)據(jù)來自于許多系統(tǒng),旨在支持管理報表生成和決策制定。廣義上,數(shù)據(jù)倉庫實際上指的是數(shù)據(jù)存儲和工具。數(shù)據(jù)倉庫使用用戶在業(yè)務活動中收集的信息來幫助用戶決策,使用戶更好、更巧妙、更快、更有效地操作業(yè)務。數(shù)據(jù)倉庫是合理的業(yè)務智能架構的關鍵部分。第五十二頁,共九十九頁。52一、數(shù)據(jù)倉庫(DataWarehouse)企業(yè)數(shù)據(jù)倉庫的建設,是以現(xiàn)有企業(yè)業(yè)務系統(tǒng)和大量業(yè)務數(shù)據(jù)的積累為基礎。數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改 善其業(yè)務經(jīng)營的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時提供給相應的管理決策人員,是數(shù)據(jù)倉庫的根本任務。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉庫建設是一個工程,是一個過程。第五節(jié)旅游企業(yè)中的數(shù)據(jù)倉庫第五十三頁,共九十九頁。53數(shù)據(jù)倉庫進化過程最初的數(shù)據(jù)倉庫主要用于企業(yè)內(nèi)部某一部門的報表。決策者關心的重點發(fā)生了轉移——從"發(fā)生了什么"轉向"為什么會發(fā)生"。分析活動的目的就是了解報表數(shù)據(jù)的涵義,需要對更詳細的數(shù)據(jù)進行各種角度的分析。當一個公司決策過程得到量化以后,對經(jīng)營動態(tài)的情況以及這種情況為什么發(fā)生都會有所體驗,下一步就是要將信息用于預測。重在戰(zhàn)術性決策支持。重點在企業(yè)外部,為執(zhí)行公司戰(zhàn)略的員工提供支持。動態(tài)數(shù)據(jù)倉庫在決策支持領域中的角色越重要,企業(yè)實現(xiàn)決策自動化的積極性就越高。在CRM環(huán)境中,利用動態(tài)數(shù)據(jù)倉庫,根據(jù)每一位客戶的情況做出決策都是可能的。第五十四頁,共九十九頁。54數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別數(shù)據(jù)倉庫

數(shù)據(jù)庫

面向分析型數(shù)據(jù)處理

面向事務型數(shù)據(jù)處理

對多個異構的數(shù)據(jù)源的有效集成

數(shù)據(jù)庫之間相互獨立且異構

數(shù)據(jù)相對穩(wěn)定

數(shù)據(jù)實時更新

反映歷史變化

通常關心當前數(shù)據(jù)

第五十五頁,共九十九頁。55數(shù)據(jù)倉庫的體系結構第五十六頁,共九十九頁。56第五節(jié)旅游企業(yè)中的數(shù)據(jù)倉庫一、數(shù)據(jù)倉庫(DataWarehouse)當前報表架構存在的問題可訪問性及時性格式完整性目標、業(yè)務、智能第五十七頁,共九十九頁。57第五節(jié)旅游企業(yè)中的數(shù)據(jù)倉庫一、數(shù)據(jù)倉庫(DataWarehouse)數(shù)據(jù)倉庫在DSS(決策支持系統(tǒng))中的地位傳統(tǒng)輔助決策的軟件結構是“三部件”型:總控部件、數(shù)據(jù)庫部件和模型部件。問題處理和人機交互(綜合部件)模型庫管理系統(tǒng)數(shù)據(jù)庫模型程序數(shù)據(jù)庫管理系統(tǒng)第五十八頁,共九十九頁。58第五節(jié)旅游企業(yè)中的數(shù)據(jù)倉庫一、數(shù)據(jù)倉庫(DataWarehouse)數(shù)據(jù)倉庫在DSS(決策支持系統(tǒng))中的地位現(xiàn)代決策支持系統(tǒng)架構基于數(shù)據(jù)倉庫、聯(lián)機處理分析和數(shù)據(jù)挖掘。第五十九頁,共九十九頁。59第五節(jié)旅游企業(yè)中的數(shù)據(jù)倉庫一、數(shù)據(jù)倉庫(DataWarehouse)數(shù)據(jù)倉庫在DSS(決策支持系統(tǒng))中的地位數(shù)據(jù)倉庫已經(jīng)成為現(xiàn)代DSS的主要數(shù)據(jù)源傳統(tǒng)DSS架構的不足現(xiàn)代DSS架構的突破實際應用案例基于數(shù)據(jù)倉庫的高速公路營運管理輔助決策系統(tǒng)的概念模型第六十頁,共九十九頁。60第五節(jié)旅游企業(yè)中的數(shù)據(jù)倉庫二、數(shù)據(jù)挖掘(DataMining)數(shù)據(jù)挖掘的產(chǎn)生起因:豐富的數(shù)據(jù),貧乏的知識發(fā)展:20世紀80年代開始,數(shù)據(jù)挖掘技術逐步發(fā)展起來快速發(fā)展原因: 擁有巨大的數(shù)據(jù)資源,以及將這些數(shù)據(jù)資源轉換為信息和知識資源的巨大需求數(shù)據(jù)挖掘可被看作是數(shù)據(jù)管理與分析技術的自然進化產(chǎn)物第六十一頁,共九十九頁。61什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘是一個利用各種分析方法和分析工具在大規(guī)模海量數(shù)據(jù)中建立模型和發(fā)現(xiàn)數(shù)據(jù)間關系的過程,這些模型和關系可以用來做出決策和預測。顧客數(shù)據(jù)到處都是,誰才是我的顧客?銷售信息訂單目錄市場數(shù)據(jù)庫庫存信息客服信息市場信息第六十二頁,共九十九頁。62第五節(jié)旅游企業(yè)中的數(shù)據(jù)倉庫二、數(shù)據(jù)挖掘(DataMining)數(shù)據(jù)挖掘基本知識數(shù)據(jù)挖掘: 從大量數(shù)據(jù)中挖掘或抽取出知識。數(shù)據(jù)庫中知識發(fā)現(xiàn)

KDD,KnowledgeDiscoveryfromDatabase從大量數(shù)據(jù)中抽取挖掘出未知的、有價值的模式或規(guī)律等知識的復雜過程。整個知識挖掘過程由若干挖掘步驟組成,數(shù)據(jù)挖掘僅是其中一個主要步驟。第六十三頁,共九十九頁。63數(shù)據(jù)挖掘能做些什么?數(shù)據(jù)特征化和數(shù)據(jù)區(qū)分

關聯(lián)分析

分類和預測

聚類分析

孤立點分析

演變分析

第六十四頁,共九十九頁。64數(shù)據(jù)挖掘的常用方法決策樹

相關規(guī)則

神經(jīng)元網(wǎng)絡

遺傳算法

可視化

OLAP聯(lián)機分析處理

統(tǒng)計方法

第六十五頁,共九十九頁。65數(shù)據(jù)挖掘的常用方法決策樹

決策樹(DecisionTree)。決策樹方法被成功地應用于信用卡損失和不同的國際流通貨幣的時序預測等各種問題中。一般可用于探索問題、數(shù)據(jù)預處理和預測中。目前常用的有ID3、CHAID和CART等幾種典型的算法。決策樹算法的主要優(yōu)點是直觀,其缺點在于隨著數(shù)據(jù)復雜性的增加,分支數(shù)會增加,對數(shù)據(jù)倉庫的搜索次數(shù)會增加,管理難度會加大。第六十六頁,共九十九頁。66數(shù)據(jù)挖掘的常用方法神經(jīng)元網(wǎng)絡

神經(jīng)元網(wǎng)絡(NeuralNetwork)。神經(jīng)元網(wǎng)絡雖然在易用性和易理解性方面受到了限制,但其正確率很高。它通過學習發(fā)現(xiàn)規(guī)律,然后進行預測。神經(jīng)元網(wǎng)絡可用于聚類、異常發(fā)現(xiàn)、特征制取和預測。第六十七頁,共九十九頁。67數(shù)據(jù)挖掘的常用方法遺傳算法

遺傳算法(GeneticAlgorithms)。遺傳算法是霍蘭等人于20世紀40年代提出的。以生物進化的過程為基礎,加以交叉、變異和選擇運算,逐步得到問題的最優(yōu)解。第六十八頁,共九十九頁。68第五節(jié)旅游企業(yè)中的數(shù)據(jù)倉庫二、數(shù)據(jù)挖掘(DataMining)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫是創(chuàng)建商務智能過程中,繼數(shù)據(jù)庫技術后進一步的發(fā)展(超過數(shù)據(jù)庫)。數(shù)據(jù)挖掘工具是人們用于數(shù)據(jù)倉庫和商務智能推理過程中,支持決策、解決問題或創(chuàng)造競爭優(yōu)勢而挖掘有價值信息時所必需的工具。第六十九頁,共九十九頁。69ORACLE數(shù)據(jù)倉庫和數(shù)據(jù)挖掘解決方案DataWarehousingETLOLAPDataMiningM

e

t

a

d

a

t

a第七十頁,共九十九頁。70Oracle數(shù)據(jù)庫

SQL*Loader工具OracleWarehouseBuilder(OWB)

Oracle提供的數(shù)據(jù)倉庫工具及其功能介紹第七十一頁,共九十九頁。711.Oracle9i數(shù)據(jù)庫一個對象關系型數(shù)據(jù)倉庫,用于存儲大量的數(shù)據(jù)。第七十二頁,共九十九頁。722.SQL*Loader工具用于將數(shù)據(jù)裝載到數(shù)據(jù)倉庫中。這些數(shù)據(jù)包括Oracle數(shù)據(jù)庫中的數(shù)據(jù),其他數(shù)據(jù)管理系統(tǒng)中的數(shù)據(jù)和外部數(shù)據(jù)。開發(fā)人員可以利用這兩種工具將多種數(shù)據(jù)源融合在一個單一的存儲系統(tǒng)中,并加以管理,從而為最終用戶提供對這多種數(shù)據(jù)源的無縫訪問。第七十三頁,共九十九頁。733.OracleWarehouseBuilderOWB是OracleDeveloperSuits中的一個組件,是用于設計、實現(xiàn)、和管理企業(yè)數(shù)據(jù)倉庫和數(shù)據(jù)集市的集成系統(tǒng)。通過向導驅動的用戶界面來進行數(shù)據(jù)映射、元數(shù)據(jù)導入,利用預定義的轉換庫,能夠減少設計和實施時間。自動生成代碼,并且通過校驗程序保證編碼的正確性和唯一性,按照部署的要求生成不同的編碼類型。第七十四頁,共九十九頁。743.OracleWarehouseBuilder提供可視化的直觀映射和轉換工具、對多維數(shù)據(jù)的拖放功能,以及一個用于管理倉庫的系統(tǒng)外門戶解決方案,降低設計和開發(fā)數(shù)據(jù)倉庫和數(shù)據(jù)中心的復雜度。OWB為事實表和維度表提供向導和圖形編輯器。OWB全面應用Oracle9i的分區(qū)、索引和總結管理等特性,與數(shù)據(jù)庫的緊密集成允許Oracle9i作為一種轉換引擎使用,排除了增加轉換服務器的需求。第七十五頁,共九十九頁。753.OracleWarehouseBuilder利用OWB組件——文件集成器,實現(xiàn)從文本文件中提取數(shù)據(jù)。OWB包括一個全局共享庫(GlobalSharedLibrary),用于存儲可重復使用的轉換。OWB軟件還包括OraclePureIntegrate

和OWBIntegratorforSAPR/3,前者是將數(shù)據(jù)客戶集成以形成戰(zhàn)略性電子商務項目基礎的軟件,后者是對SAP特有的ERP數(shù)據(jù)進行強有力報表制作和分析的集成橋梁。第七十六頁,共九十九頁。76Oracle提供的數(shù)據(jù)挖掘工具及其功能介紹Oracle9iDataMining

Oracle9iOLAP工具集(1)OracleDiscoverer

(2)OracleExpress系列OracleExpressAnalyzer

OracleExpressObjects

OracleExpressServer第七十七頁,共九十九頁。771.Oracle9iDataMining提高應用軟件的預測力和洞察力將數(shù)據(jù)挖掘功能嵌入

Oracle9i

數(shù)據(jù)庫中

基于

Java的

APIDataMining第七十八頁,共九十九頁。78提高應用軟件的預測力和洞察力利用DM,公司能夠構建高級商務智能應用程序、對公司的數(shù)據(jù)庫進行挖掘、發(fā)現(xiàn)新的有用信息并將其集成到商務應用程序中。利用DM,公司能夠提高在客戶關系管理(CRM)、企業(yè)資源計劃(ERP)、網(wǎng)頁入口和無線應用等商務智能方面的能力。鑒別最有利可圖的消費者,避免客戶流失獲得新客戶,對已有客戶進行交叉銷售檢測欺詐行為預測零件質(zhì)量尋找病人、藥品和療效之間的關系第七十九頁,共九十九頁。79數(shù)據(jù)挖掘功能的內(nèi)嵌Oracle9iDataMining將數(shù)據(jù)挖掘功能嵌入Oracle9i

數(shù)據(jù)庫中,用于分類、預報和關聯(lián)。所有的模型構建、評分、以及元數(shù)據(jù)管理操作經(jīng)由基于Java的API來啟動并完全在該關系數(shù)據(jù)庫中發(fā)生。采用貝葉斯法則進行預測和分類

運用關聯(lián)規(guī)則檢測隱藏于數(shù)據(jù)庫中“相關”或并發(fā)事件自動提取商務信息并將其整合在其他應用軟件之中第八十頁,共九十九頁。80基于Java的API商務智能(BI)開發(fā)人員可以使用基于Java的應用程序接口(API)來開發(fā)基于預測的應用軟件。自動執(zhí)行數(shù)據(jù)挖掘進程,為消費者打分以及產(chǎn)生需求預測。通過查詢、分析和報表生成器產(chǎn)生新的數(shù)據(jù)挖掘信息。支持應用程序的集成。第八十一頁,共九十九頁。812.Oracle9iOLAP工具企業(yè)級OLAP可將跨部門的數(shù)據(jù)緊密地聯(lián)系在一起,從而使所有用戶在一個共同的信息基礎上。它幫助用戶使用數(shù)據(jù)倉庫中的所有數(shù)據(jù)。企業(yè)級OLAP還能夠超越數(shù)據(jù)倉庫的范圍,集成來自其它獨立系統(tǒng)的數(shù)據(jù),這些系統(tǒng)可能是關系型數(shù)據(jù)庫或者外部的文件系統(tǒng)。這種集成使得新型應用,如:基于事實的促銷、基于行為的定價以及產(chǎn)品利潤分析等能夠跨越單一部門的界限。第八十二頁,共九十九頁。82(1)OracleDiscoverer是Oracle公司面向決策支持系統(tǒng)OLAP工具集的組成部分。它是一個直觀的隨意查詢、報告、搜索和Web公布的工具。它能夠幫助公司內(nèi)部各個層次的商業(yè)用戶,獲得迅速訪問關系型數(shù)據(jù)庫、數(shù)據(jù)中心或者聯(lián)機事務處理系統(tǒng)中數(shù)據(jù)的能力。第八十三頁,共九十九頁。83(1)OracleDiscovererUserEdition提供了超乎尋常的易用性,通過任意深入能力、旋轉和圖表,給予用戶強大的數(shù)據(jù)探索能力。AdministrationEdition提供了一個易于使用的基于服務器的強大的最終用戶層(EndUserLayer?)。

對于那些需要集中精力處理商業(yè)問題而不是數(shù)據(jù)問題的最終用戶而言,EndUserLayer為他們隱藏了數(shù)據(jù)結構和相互關系的復雜性。第八十四頁,共九十九頁。84(2)OracleExpress系列通過使用OracleExpress:分析咨詢?nèi)藛T能夠很輕松地從各自的視角觀察數(shù)據(jù)產(chǎn)品經(jīng)理能夠跨越許多時間段和市場區(qū)域研究她負責的某個產(chǎn)品財務經(jīng)理可以集中在當前或者以前的時間段,研究所有的市場和產(chǎn)品地區(qū)經(jīng)理可在某些地區(qū)的所有時間段上考察所有產(chǎn)品策略規(guī)劃人員可以集中在公司數(shù)據(jù)的某個集上,如在當前和下個季度,僅在西部地區(qū)銷售的某個新產(chǎn)品第八十五頁,共九十九頁。85OracleExpressAnalyzer通用的、面向最終用戶的報告和分析工具,它采用面向對象技術,在OracleExpressAnalyzer中能運行任何OracleExpressObjects應用。

在OracleExpressAnalyzer的一個基石性對象是簡報(briefing)。一個簡報由若干頁組成,每一頁上包含由可重用的對象建立的面向主題的分析。這些對象是交互的、用戶能夠旋轉、深入和查詢?nèi)魏我粡埡唸箜撝械谋砀窕蛘邎D形,以運行他們自己的即席分析。第八十六頁,共九十九頁。86OracleExpressObjects是最早出現(xiàn)的用于建立C/S上OLAP應用的面向對象的可視化開發(fā)環(huán)境。提供圖形化建模和假設分析功能。通過使用標準的Microsoft對象連接嵌入技術(OLE),實現(xiàn)對第三方軟件開放。例如能夠使用一個OLE控件顯示銷售某公司產(chǎn)品的商店。通過使用代理程序、預警程序和OLE控件,可以監(jiān)控存貨水平,當存貨水平下降時向管理人員報警,自動提高主要產(chǎn)品的存貨水平。第八十七頁,共九十九頁。87OracleExpressServer是一個先進的計算機引擎和數(shù)據(jù)高速緩存。支持最能反應用戶對其業(yè)務思考方法的多維模型,而且具有分析、預測、建模,以及對數(shù)據(jù)進行假設分析(what-if)的能力。具有用于數(shù)學、財務、統(tǒng)計和時間序列管理等方面的內(nèi)置功能。第八十八頁,共九十九頁。88第五節(jié)旅游企業(yè)中的數(shù)據(jù)倉庫三、常用的數(shù)據(jù)挖掘工具數(shù)據(jù)挖掘工具查詢與報表工具智能代理多維分析工具統(tǒng)計工具數(shù)據(jù)集市小型的數(shù)據(jù)倉庫第八十九頁,共九十九頁。89數(shù)據(jù)庫設計主鍵的故事什么是主鍵?

關系數(shù)據(jù)庫為了唯一區(qū)分表的每一行記錄,必須為表確定一個主鍵。主鍵可以是一個或多個列組成,這些主鍵列的值不能重復。一個表只能有一個主鍵,但可以有多個候選索引。因為主鍵可以唯一標識某一行記錄,所以可以確保執(zhí)行數(shù)據(jù)更新、刪除的時候不會出現(xiàn)張冠李戴的錯誤。主鍵是兩個表進行關聯(lián)的基礎,所謂“關系”體現(xiàn)的是一個表的字段(外鍵)與另一個表的主鍵的關聯(lián),防止出現(xiàn)數(shù)據(jù)不一致。所以數(shù)據(jù)庫在設計時,主鍵起到了很重要的作用。

第九十頁,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論