




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第6章數(shù)據(jù)庫和數(shù)據(jù)倉庫技術6.1企業(yè)數(shù)據(jù)處理方式6.2文件組織6.3數(shù)據(jù)庫系統(tǒng)6.4數(shù)據(jù)倉庫和商業(yè)智能6.1企業(yè)數(shù)據(jù)處理方式以聯(lián)機事務處理形式處理信息以聯(lián)機分析處理形式處理信息,并利用信息進行決策在信息應用過程中管理信息圖6-1 聯(lián)機事務處理與聯(lián)機分析處理
數(shù)據(jù)項,記錄,文件,數(shù)據(jù)庫數(shù)據(jù)庫文件3文件2文件1記錄3記錄2記錄1數(shù)據(jù)項3數(shù)據(jù)項2數(shù)據(jù)項16.2文件組織6.2.1文件組織術語和概念字段記錄某個數(shù)據(jù)庫中的一份表文件,該文件存儲了選修《管理信息系統(tǒng)》課程的10級物流專業(yè)的同學名單。每列是一個字段,每行為一個記錄。從數(shù)據(jù)庫原理的角度來看,表中反映了“學生”這一類實體集(EntitySet),表中的每一行是該類型中的一個具體的實體,每個實體都具有學號、姓名、專業(yè)名稱等屬性6.2.2數(shù)據(jù)的物理組織和邏輯組織圖6-2信息的物理組織與邏輯組織圖6-4邏輯數(shù)據(jù)元素之間的關系6.2.3文件的組織方式學生數(shù)據(jù)庫學生情況文件學生成績文件記錄數(shù)據(jù)項學生1┅┅學生n學號姓名性別┅┅學號姓名性別9608101張勇男┅┅9608138王英女記錄1記錄4記錄3記錄2記錄2圖6-5磁盤順序文件
1順序文件組織2索引文件記錄地址學號姓名數(shù)學物理Basic
主關鍵字(學號)記錄地址A870701張╳687472
870701AB870705李╳958792
870705BC870707趙╳778384
870707CD870712周╳858188
870712DE870721陳╳626461
870721EF870724王╳828892
870724FG870736黃╳757477
870736G記錄地址學號姓名數(shù)學物理Basic
主關鍵字(學號)記錄地址A870712周╳858188
870701DB870724王╳828892
870705GC870707趙╳778384
870707CD870701張╳687472
870712AE870736黃╳757477
870721FF870721陳╳626461
870724BG870705李╳958792
870736E(b) 非索引順序文件 索引(a) 索引順序文件 索引3鏈表文件記錄地址職工號姓名部門編號部門指南工作年限DT入口→A1111-DTC-NW入口→B1121-NWE-C1981-DTD-D2014-DTH-E2084-NWF-F2918-NW∧-EA入口→G3001-EAI-H3101-DTJ-I3241-EA∧-J3358-DT∧-NE入口→K3861-NEL-L3871-NE∧-部門代碼(輔關鍵字符)鏈表長度(記錄個數(shù))鏈頭指針(入口地址)部門代碼(輔關鍵字符)鏈表長度(記錄個數(shù))鏈頭指針(入口地址)DT5AEA2GNW3BNE2K4倒排文件輔關鍵字指針表輔關鍵字值指針
部門編號
DT11111981201431013358
NW112120842918
EA30013241
NE38613871
工作年限N
N≤51111201420842918
5<N≤1031013861
15<N≤2030013871
N>201981
透支現(xiàn)額%
011112014208429183101386110011213001324133583871
2001981
InquiryCustomerTransactionProcessingSavingInstallDatabaseManagementSystemCheckCustomerDatabaseADatabaseManagementSystem(DBMS)isasetofcomputerprogramsthatcontrolsthecreation,maintenanceanduseoftheDatabaseofaorganizationandit’senduser.6.3.2數(shù)據(jù)庫管理系統(tǒng)圖6-8DBMS的主要功能
數(shù)據(jù)庫管理操作系統(tǒng)數(shù)據(jù)庫管理系統(tǒng)應用程序數(shù)據(jù)庫數(shù)據(jù)詞典DatabaseManagementOperatingSystemDBMSApplicationPrograms*Datadevelopment*Datainterrogation*DatabaseMaintenance*ApplicationdevelopmentDatabaseDatadictionary*DataDevelopment
由DatabaseAdministrator(DBA)開發(fā)用DatadictionaryLanguage去開發(fā).ADatadictionaryisacomputer-basedcatalogordirectorycontainingmetadatathatisdataaboutdata.數(shù)據(jù)庫查詢Databaseinterrogationquerylanguage,reportgeneratorCorporatePayrollReportingSystemHighlightyourselectionandpressEnterMainMenu.EmployeeFileMaintenanceTaxReportPrinterSQL(StructuredQueryLanguage)SELECTNAME,SSNO,DEPARTMENT,SALARYFROMEMPLOYEE,PAYROLLWHEREEMPLOYEE.SSNO=PAYROLL.SSNOAND
CLASSIFICATION=“FINANCIALANALYST”*數(shù)據(jù)庫的維護在DBMS的支持下,用UTILITY等*應用開發(fā)程序用DataManipulationLanguageDML
不必用通常程序設計語言,如COBOL圖6-9數(shù)據(jù)模型
6.3.3數(shù)據(jù)庫系統(tǒng)S1R2R4R3S6S7S9S8S5S4S3S2學號姓名年齡性別學生關系框架:學號姓名年齡性別課程關系框架:學號姓名年齡性別學習關系框架:(a)網(wǎng)絡模型(b)層次模型(c)關系模型圖6-10數(shù)據(jù)庫的三級體系結構
用戶A1工作區(qū)用戶A2工作區(qū)用戶B工作區(qū)外模式A(子模式A)外模式B(子模式B)子模式/概念模式映射A子模式/概念模式映射B概念模型(模式)模式(內模式映射)DBMSOS………..圖6-11三個不同的世界
客觀世界信息世界(概念世界)數(shù)據(jù)世界組織(事物及其聯(lián)系)實體及其聯(lián)系(概念模型)數(shù)據(jù)庫(數(shù)據(jù)模型)事物類(總體)實體集文件事物(對象、個體)實體記錄特征(性質)屬性數(shù)據(jù)項表6-7三個不同世界術語對照表
客觀事物事物類:相關性質集合人實體及聯(lián)系實體集合實體相關屬性集合數(shù)據(jù)庫文件記錄相關數(shù)據(jù)項集合存儲結構二進制數(shù)據(jù)集合加工轉換加工轉換E-R模型DBMS的數(shù)據(jù)模型DBMS的計算機世界現(xiàn)實世界認識選擇描述信息世界6.3.4.2數(shù)據(jù)庫設計步驟對現(xiàn)實世界進行需求分析了解組織機構情況,為分析信息流做準備;了解各部門業(yè)務情況,調查各部門輸入和使用的數(shù)據(jù),及處理數(shù)據(jù)的方式與算法;確定數(shù)據(jù)庫的信息組成及計算機系統(tǒng)應實現(xiàn)的功能。建立信息世界中E-R(概念)模型建立分E-R圖;綜合分E-R圖,產(chǎn)生總E-R圖。從E-R圖導出計算機世界的關系數(shù)據(jù)模型E-R圖中每個實體,都相應地轉換為一個關系將聯(lián)系轉換成一個關系某學院“教學管理”數(shù)據(jù)庫模型設計“系和教師關系”的分E-R圖設計“學生和課程關系”的分E-R圖設計“教師與課程關系”的分E-R圖將上述三個分綜合,建立學院教學管理總E-R圖將學院“教學管理E-R圖”所描述的信息(概念)世界中的概念模型轉化為計算機上由關系型DBMS支持的關系數(shù)據(jù)模型。設計“系和教師關系”的分E-R圖該學院下設四個系:管理工程系、會計系、市場營銷系和信息管理系。每個系有一個系主任主管該系工作。將“系”設為一個實體,該實體具有以下屬性:系代號、系名稱、系主任姓名、辦公地點、電話。其中系代號是主關鍵字該學院聘請了一定數(shù)量的專職教師。將“教師”設為一個實體,該實體具有以下屬性:教師編號、教師姓名、專業(yè)特長。其中教師編號是主關鍵字。學院聘請教師后,分配到各系。一個系有多個教師;一個教師只能屬于一個系。“教師”實體與“系”實體之間發(fā)生一對多(1:M)的“分配”聯(lián)系。教學管理總E-R圖
圖6-13 “教學管理”E-R圖28業(yè)務流程調查舉例——教學管理學籍處理1學生登記表學生學生檔案招生辦各院系教務處制定教學計劃2教師基本信息管理3教室管理4教學計劃教師信息教學計劃教師信息教室信息教師任課情況教學秘書人事處統(tǒng)計報表處理8制定教學計劃5成績管理7學生選課6學生成績學生檔案統(tǒng)計報表課表教務處學生教師各院系校領導上級主管各院系教務處教務處6.3.5數(shù)據(jù)庫技術的發(fā)展趨勢數(shù)據(jù)管理方式:集中式分布式數(shù)據(jù)模型:關系數(shù)據(jù)庫多媒體數(shù)據(jù)庫、面向對象數(shù)據(jù)庫
(a)(b)
圖6-14分布式數(shù)據(jù)庫的結構形式
數(shù)據(jù)庫的分布左圖:集中式數(shù)據(jù)庫右圖:分布式數(shù)據(jù)庫6.4.1數(shù)據(jù)倉庫數(shù)據(jù)倉庫之父W.H.Inmon:“數(shù)據(jù)倉庫是一個面向主題的(SubjectOriented)、集成的(Integrated)、非易失的(Non-Volatile)、隨時間變化的(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策”。
圖6-15 數(shù)據(jù)倉庫源于業(yè)務數(shù)據(jù)庫
6.4.2聯(lián)機分析處理聯(lián)機分析處理(On-LineAnalyticalProcessing,OLAP):主要是對大量多維數(shù)據(jù)的動態(tài)綜合、分析和歸納。OLAP中的一個主要操作是“多維分析”,即通過對信息的多種可能的觀察形式進行快速、穩(wěn)定、一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進行深入分析。
圖6-16多維視圖示例
切片和切塊(SliceandDice)鉆取(Drill)旋轉(Rotate)/轉軸(Pivot)從OLTP到OLAPOLAP和數(shù)據(jù)倉庫OLAP應用構建于數(shù)據(jù)倉庫而非數(shù)據(jù)庫之上,主要是由于以下三個技術方面的原因:計算機處理速度階躍式增長,單位字節(jié)的存儲和處理成本大幅度降低,是保證數(shù)據(jù)倉庫有效運行的物理基礎;決策分析理論的完善和應用使得數(shù)據(jù)倉庫中的分析技術能夠有效實現(xiàn),使得決策人員可以直接從系統(tǒng)中獲得需要的決策支持信息;數(shù)據(jù)倉庫系統(tǒng)中,數(shù)據(jù)用于支持各種分析任務,并生成多角度,多層次和不同粒度上的分析結果.OLAP中的基本概念⑴變量:從現(xiàn)實系統(tǒng)中抽象出來,用于描述數(shù)據(jù)的實際含義。維:人們觀察數(shù)據(jù)的特定角度維的層次類別:構成一個維的獨立的數(shù)據(jù)元素,是存在于層里每一個數(shù)據(jù)。維、層和類別的關系示意圖OLAP中的基本概念⑵維的取值:也稱為維的成員度量:企業(yè)收集和存儲的用于評價業(yè)務狀況的數(shù)值性數(shù)據(jù),以監(jiān)測和評估企業(yè)成效。多維數(shù)組數(shù)據(jù)單元(單元格)多維數(shù)組的取值稱為數(shù)據(jù)單元多維數(shù)據(jù)立方體OLAP的基本操作-切片(Slice)在多維數(shù)組的某一維上選定其維成員的動作稱為切片在多維數(shù)組(維1,維2,…維n,度量)中選中某一維,如維i,并取其某一維成員(設為維成員Vi),所得的多維數(shù)組的子集(維1,維2,…維成員Vi,…維n,度量)稱為在維i上的一個切片。OLAP的基本操作-切塊(Dice)數(shù)據(jù)切塊就是將完整的數(shù)據(jù)立方體切取一部分數(shù)據(jù)而得到的新的數(shù)據(jù)立方體。選取多維數(shù)組(維1,維2,…,維n,度量)中若干維度(通常是3個維度便于圖形顯示)的取值范圍,從而形成了多維數(shù)據(jù)的子集(維1,維2,…,Ai<維i<Bi,…,Bj<維j<Bj,…,維度n,度量),這個多維數(shù)據(jù)子集被稱為切塊。OLAP的基本操作-
下鉆/上卷(DrillDown/RollUp)數(shù)據(jù)下鉆(向下鉆?。┦菑妮^高的維度層次下降到較低的層次上來觀察多維數(shù)據(jù)數(shù)據(jù)上卷是下鉆的逆向操作,是對數(shù)據(jù)進行高層次聚合的操作。OLAP的基本操作-旋轉(Rotate)數(shù)據(jù)旋轉是改變維度的位置關系,使最終用戶可以從其他視角來觀察多維數(shù)據(jù)。不同維度間的旋轉維層次間的旋轉OLAP的準則(Codd1993)準則1:多維概念視圖準則2:透明性準則3:存取能力準則4:穩(wěn)定的報表功能準則5:客戶機/服務器體系結構準則6:維的等同性準則7:動態(tài)稀疏矩陣處理準則8:支持多用戶準則9:非限定的跨維操作準則10:直觀的數(shù)據(jù)處理準則11:柔性報表準則12:不受限的維與層次聚類6.4.3商業(yè)智能商業(yè)智能(BusinessIntelligence)是指通過對數(shù)據(jù)的收集、管理、分析以及轉化,使數(shù)據(jù)成為可用的信息,并在企業(yè)中共享傳遞,從而幫助企業(yè)獲得必要的洞察力和理解力,更好地輔助決策和指導行動。6.4.4數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining)是從大量數(shù)據(jù)中自動發(fā)現(xiàn)隱藏的有用知識的過程,是從大量數(shù)據(jù)中挖掘“寶藏”的過程。分類(Classification)聚類(Clustering)關聯(lián)規(guī)則發(fā)現(xiàn)(AssociationRuleDiscovery)時序模式發(fā)現(xiàn)(SequentialPatternDiscovery)商務智能、多維數(shù)據(jù)分析和數(shù)據(jù)挖掘博彩業(yè)的Harrahs(哈拉斯)借助于商業(yè)智能,判斷高價值客戶,并制定鼓勵他們更多投資的方案通過聯(lián)系分析處理(OLAP)和多維數(shù)據(jù)分析,用戶可以不同方法分析同一數(shù)據(jù),從而得到對該數(shù)據(jù)從不同層面進行解釋的結果商務智能知識發(fā)現(xiàn)、數(shù)據(jù)挖掘與商務智能20世紀80年代末,機器學習方法在數(shù)據(jù)分析中的應用導致數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD,KnowledgeDiscoveryinDatabase)的產(chǎn)生。20世紀90年代以來,以數(shù)據(jù)挖掘技術為核心的商務智能(知識發(fā)現(xiàn)在商業(yè)的應用)受到了學術界和業(yè)界的廣泛關注。數(shù)據(jù)挖掘(DataMining)數(shù)據(jù)挖掘/知識發(fā)現(xiàn)(從海量數(shù)據(jù)中淘“金”)數(shù)據(jù)挖掘的特點傳統(tǒng)的決策分析技術中,都是決策人員事先給出邏輯假設和模型,而后在數(shù)據(jù)中進行檢驗和參數(shù)評估。數(shù)據(jù)挖掘是數(shù)據(jù)驅動,始于紛繁復雜的海量數(shù)據(jù),利用強大的數(shù)據(jù)分析工具和特定的知識提取方法,從數(shù)據(jù)出發(fā),挖掘中其中有效的模式,從而獲得潛在的、新穎的以及有用的知識。數(shù)據(jù)挖掘的任務數(shù)據(jù)挖掘的基本任務是預測(prediction)和描述(description)預測就是利用數(shù)據(jù)中已知的變量和字段來確定一些感興趣的未知或未來的值,如分類等。描述則集中于尋找一種人類能夠理解和解釋的模式對數(shù)據(jù)進行刻畫,如聚類、關聯(lián)規(guī)則等。數(shù)據(jù)挖掘的分類按所挖掘的模式的類型將數(shù)據(jù)挖掘劃分為:概念描述(歸納或簡約)分類和預測聚類關聯(lián)規(guī)則其它的一些模式識別和統(tǒng)計方法數(shù)據(jù)挖掘-概念描述(歸納)概念描述與數(shù)據(jù)概化密切相關以簡潔的形式在更一般的(而不是在較低的)抽象層描述數(shù)據(jù)是很有用的允許數(shù)據(jù)集在多個抽象層概化,便于用戶考察數(shù)據(jù)的一般行為與OLAp的區(qū)別更為復雜的數(shù)據(jù)類型用戶控制與自動處理數(shù)據(jù)挖掘-分類和預測分類:給定已有的數(shù)據(jù)和類別,通過分類算法得到描述和區(qū)分數(shù)據(jù)類或概念的模型。預測:將上述分類模型應用到要進行測試的數(shù)據(jù)上,對未來或者未知的數(shù)據(jù)進行預測。貸款分類模型數(shù)據(jù)挖掘-聚類分析聚類是將一個數(shù)據(jù)集按照某個標準分成幾個簇的過程。每個簇內部的數(shù)據(jù)按照該標準具有很高相似性,而簇之間的數(shù)據(jù)的相似性很低。聚類與分類不同分類中,類標記事先給出,是一種監(jiān)督學習的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 寧波人才服務有限公司招聘真題2024
- 2025━2030年中國撕裂式排污泵項目投資可行性研究報告
- 2025-2035年全球及中國混合存儲器立方體(HMC)和高帶寬存儲器(HBM)行業(yè)市場發(fā)展現(xiàn)狀及發(fā)展前景研究報告
- 2025-2035年全球及中國手機指紋生物識別行業(yè)市場發(fā)展現(xiàn)狀及發(fā)展前景研究報告
- 2024年中國壓克力座鐘市場調查研究報告
- 2025年大功率多功能電子式電度表合作協(xié)議書
- 為未來而學為理解而教-以大概念為引領的小學語文教學研究報告【附模板】
- 過敏鼻炎治療原則
- 2025年體外震波碎石機合作協(xié)議書
- 軟皮筆記本批發(fā)企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 工資條員工工資明細表模板
- SL721-2015水利水電工程施工安全管理導則
- (正式版)JBT 11517-2024 刮板取料機
- 煤礦瓦斯抽采達標暫行規(guī)定解讀俞
- 居民心理健康知識講座課件
- 前列腺特異性抗原(PSA)的檢測課件
- 教師教學能力大賽獲獎課程標準-教師教學能力大賽
- 年產(chǎn)5萬噸丙烯直接水合制備異丙醇工藝Aspen模擬
- 2024年英語專業(yè)四級考試真題及詳細答案
- 成語故事葉公好龍
- MHT:中小學生心理健康檢測(含量表與評分說明)
評論
0/150
提交評論