數(shù)據(jù)庫原理及應用-數(shù)據(jù)庫系統(tǒng)概述_第1頁
數(shù)據(jù)庫原理及應用-數(shù)據(jù)庫系統(tǒng)概述_第2頁
數(shù)據(jù)庫原理及應用-數(shù)據(jù)庫系統(tǒng)概述_第3頁
數(shù)據(jù)庫原理及應用-數(shù)據(jù)庫系統(tǒng)概述_第4頁
數(shù)據(jù)庫原理及應用-數(shù)據(jù)庫系統(tǒng)概述_第5頁
已閱讀5頁,還剩95頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

數(shù)據(jù)庫系統(tǒng)概述目錄01數(shù)據(jù)庫系統(tǒng)的基本概念02數(shù)據(jù)管理技術(shù)03數(shù)據(jù)模型04數(shù)據(jù)庫系統(tǒng)的結(jié)構(gòu)05數(shù)據(jù)庫領域的新技術(shù)本章主要內(nèi)容本章主要介紹數(shù)據(jù)庫系統(tǒng)的基本概念、數(shù)據(jù)管理技術(shù)的產(chǎn)生和發(fā)展、數(shù)據(jù)模型、數(shù)據(jù)庫系統(tǒng)的結(jié)構(gòu)和數(shù)據(jù)庫領域的新技術(shù)等。數(shù)據(jù)庫技術(shù)主要研究如何對數(shù)據(jù)進行科學管理,從而為人們提供可共享的、安全的、可靠的數(shù)據(jù)。數(shù)據(jù)庫技術(shù)是現(xiàn)代計算機信息系統(tǒng)和計算機應用系統(tǒng)的基礎和核心。因此,掌握數(shù)據(jù)庫技術(shù)是全面認識計算機系統(tǒng)的重要環(huán)節(jié),也是適應信息化時代的重要基礎。數(shù)據(jù)庫系統(tǒng)的基本概念011.1.1數(shù)據(jù)和信息1.數(shù)據(jù)數(shù)據(jù)(Data)的概念不僅指狹義的數(shù)值數(shù)據(jù),如14.56、$8、20等,還包括文字、聲音、圖形等一切能被計算機接收且能被處理的符號。數(shù)據(jù)是對現(xiàn)實世界的抽象表示,是描述客觀事物特征或性質(zhì)的某種符號,是客觀事實的反映和記錄。單獨的數(shù)據(jù)是沒有意義的,只有把數(shù)據(jù)放到具體的上下文環(huán)境中,數(shù)據(jù)才能顯示其含義。1.1.1數(shù)據(jù)和信息2.信息信息是人們消化理解的數(shù)據(jù),是反映現(xiàn)實世界事物存在方式或運動狀態(tài)的集合,是人們進行各種活動所需要的知識。數(shù)據(jù)與信息既有聯(lián)系又有區(qū)別。信息是一個抽象概念,是反映現(xiàn)實世界的知識,是被加工成特定形式的數(shù)據(jù),用不同的數(shù)據(jù)形式可以表示同樣的信息內(nèi)容。1.1.1數(shù)據(jù)和信息3.數(shù)據(jù)和信息的關聯(lián)數(shù)據(jù)是信息的符號表示,或稱為載體,是獲取信息的原材料,隨載荷其物理設備的形式而改變;而信息是數(shù)據(jù)的內(nèi)涵,是數(shù)據(jù)的語義解釋,是對原材料加工、處理的結(jié)果,不隨載荷其物理設備的形式而改變。構(gòu)成一定含義的有用的一組數(shù)據(jù)稱為信息,信息通過數(shù)據(jù)描述,又是數(shù)據(jù)的語義解釋。但在某些不需要嚴格分辨的場合下,可以把兩者不加區(qū)分地使用,例如信息處理也可以說成數(shù)據(jù)處理。1.1.2數(shù)據(jù)庫數(shù)據(jù)庫是長期存儲在計算機內(nèi)、有組織的、可共享的、大量數(shù)據(jù)的集合。數(shù)據(jù)庫中的數(shù)據(jù)按一定的數(shù)據(jù)模型組織、描述和存儲,具有較小的冗余度、較高的數(shù)據(jù)獨立性和易擴展性,并可為各種用戶共享。概況起來,數(shù)據(jù)庫具有永久存儲、有組織、可共享三個基本特點。1.1.3數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)庫管理系統(tǒng)(DataBaseManagementSystem,簡稱DBMS)是位于用戶與操作系統(tǒng)(OS)之間的一層數(shù)據(jù)管理軟件,它為用戶或應用程序提供訪問數(shù)據(jù)庫的方法,包括數(shù)據(jù)庫的創(chuàng)建、查詢、更新及各種數(shù)據(jù)控制等,它是數(shù)據(jù)庫系統(tǒng)的核心。數(shù)據(jù)庫管理系統(tǒng)一般由計算機軟件公司提供,目前比較流行的DBMS有Informix、Sybase、MicrosoftAccess、MicrosoftSQLServer、MySQL、Oracle等。數(shù)據(jù)庫管理系統(tǒng)的主要功能包括數(shù)據(jù)定義、數(shù)據(jù)操縱、數(shù)據(jù)組織和存儲、數(shù)據(jù)庫運行管理以及數(shù)據(jù)庫的建立和維護等幾個方面。1.數(shù)據(jù)定義DBMS提供數(shù)據(jù)定義語言DDL(DataDefinitionLanguage),用戶通過它可以方便地對數(shù)據(jù)庫中的數(shù)據(jù)對象進行定義。例如,為保證數(shù)據(jù)庫安全而定義的用戶口令和存取權(quán)限,為保證正確語義而定義的完整性規(guī)則。2.數(shù)據(jù)操縱DBMS提供數(shù)據(jù)操縱語言DML(DataManipulationLanguage),實現(xiàn)對數(shù)據(jù)庫的基本操作,包括檢索、插入、修改和刪除等。一類是宿主型DML,嵌人到宿主語言中使用,例如嵌入到VB、C等高級語言中;另一類是自主型或自含型DML,可以獨立使用。3.數(shù)據(jù)組織、存儲和管理DBMS要分類組織、存儲和管理各種數(shù)據(jù),包括數(shù)據(jù)字典、用戶數(shù)據(jù)和數(shù)據(jù)的存取路徑等。要確定以何種文件結(jié)構(gòu)和存取方式在存儲設備上組織這些數(shù)據(jù),如何實現(xiàn)數(shù)據(jù)之間的聯(lián)系。數(shù)據(jù)組織和存儲的基本目標是提高存儲空間的利用率和方便存取,提供多種存取方法(如索引查找、Hash查找和順序查找等),以提高存取效率。4.數(shù)據(jù)庫運行管理數(shù)據(jù)庫在建立、運行和維護時由數(shù)據(jù)庫管理系統(tǒng)統(tǒng)一管理、統(tǒng)一控制。DBMS通過對數(shù)據(jù)的安全性控制、數(shù)據(jù)的完整性控制、多用戶環(huán)境下的并發(fā)控制以及數(shù)據(jù)庫的備份和恢復,來確保數(shù)據(jù)正確、有效,以及數(shù)據(jù)庫系統(tǒng)的正常運行。5.數(shù)據(jù)庫的建立和維護功能數(shù)據(jù)庫的建立和維護功能主要包括;(1)數(shù)據(jù)庫的初始數(shù)據(jù)的裝入、轉(zhuǎn)換;(2)數(shù)據(jù)庫的轉(zhuǎn)儲、恢復、重組織;(3)系統(tǒng)性能監(jiān)視、分析等。數(shù)據(jù)庫系統(tǒng)(DataBaseSystem,簡稱DBS)是以計算機軟硬件為工具,把數(shù)據(jù)組織成數(shù)據(jù)庫形式并對其進行存儲、管理、處理和維護的高效能的信息處理系統(tǒng)。數(shù)據(jù)庫系統(tǒng)一般由數(shù)據(jù)庫、計算機硬件系統(tǒng)、軟件系統(tǒng)(含操作系統(tǒng)、DBMS、應用程序開發(fā)工具、應用系統(tǒng))以及數(shù)據(jù)庫用戶組成,如圖所示。1.1.4數(shù)據(jù)庫系統(tǒng)1.硬件系統(tǒng)硬件系統(tǒng)指存儲和運行數(shù)據(jù)庫系統(tǒng)的硬件設備。硬件系統(tǒng)主要包括CPU、內(nèi)存、大容量的存儲設備、輸入/輸出設備和外部設備等。2.軟件系統(tǒng)軟件系統(tǒng)主要包括支持DBMS運行的操作系統(tǒng)(OperationSystem,OS)、DBMS、應用系統(tǒng),以及開發(fā)應用系統(tǒng)使用的各種高級語言和相應的編譯軟件。另外,為了提高應用系統(tǒng)的開發(fā)效率,還需要一些表格軟件、圖形系統(tǒng)等應用開發(fā)工具軟件。應用系統(tǒng)主要是指實現(xiàn)業(yè)務邏輯的應用程序,它必須為用戶提供一個友好的、人性化的操作數(shù)據(jù)的圖形用戶界面,通過數(shù)據(jù)庫語言或相應的數(shù)據(jù)訪問接口存取數(shù)據(jù)庫中的數(shù)據(jù)。數(shù)據(jù)庫系統(tǒng)的各類用戶、應用程序等對數(shù)據(jù)庫的各類操作都是通過DBMS來完成的,因此說DBMS是數(shù)據(jù)庫系統(tǒng)的核心。3.用戶數(shù)據(jù)庫系統(tǒng)中的用戶主要包括系統(tǒng)分析員、數(shù)據(jù)庫設計人員、應用程序員(ApplicationProgrammer)、終端用戶(EndUser)和數(shù)據(jù)庫管理員(DataBaseAdministrator,DBA)。系統(tǒng)分析員:主要負責應用系統(tǒng)的需求分析和規(guī)范說明,確定系統(tǒng)的軟、硬件配置,并參與數(shù)據(jù)庫系統(tǒng)的概要設計。數(shù)據(jù)庫設計人員:主要負責用戶需求調(diào)查和系統(tǒng)分析,數(shù)據(jù)庫中數(shù)據(jù)的確定和數(shù)據(jù)庫各級模式的設計。3.用戶應用程序員:主要負責設計和編寫應用系統(tǒng)的程序模塊,并進行調(diào)試和安裝,以便終端用戶對數(shù)據(jù)庫進行存取操作。終端用戶:一般為非計算機專業(yè)的人員,主要通過應用系統(tǒng)的用戶接口使用數(shù)據(jù)庫。終端用戶通常只具備領域知識,而不具備數(shù)據(jù)庫和應用程序設計的相關知識,如銀行工作人員了解賬戶操作流程、教師了解教學授課流程等。3.用戶數(shù)據(jù)庫管理員:主要負責數(shù)據(jù)庫管理系統(tǒng)和數(shù)據(jù)庫的監(jiān)管與維護工作,保證數(shù)據(jù)庫管理系統(tǒng)的服務和數(shù)據(jù)庫的可用性、可靠性、安全性和高性能等。數(shù)據(jù)庫管理員具體職責如下。①決定數(shù)據(jù)庫中的信息內(nèi)容和結(jié)構(gòu)。②決定數(shù)據(jù)庫的存儲結(jié)構(gòu)和存取策略。③定義數(shù)據(jù)的安全性要求和完整性約束。④定義數(shù)據(jù)的轉(zhuǎn)儲和重載機制。⑤監(jiān)控數(shù)據(jù)庫的使用和運行。⑥定期對數(shù)據(jù)庫進行重組或重構(gòu)。數(shù)據(jù)管理技術(shù)021.2.1術(shù)語和基本概念數(shù)據(jù)管理中涉及的一些術(shù)語和基本概念如下。(1)數(shù)據(jù)安全性:是指保護數(shù)據(jù),防止不合法使用數(shù)據(jù)造成數(shù)據(jù)的泄密和破壞,使每個用戶只能按照規(guī)定對某些數(shù)據(jù)以某種方式進行訪問和處理。(2)數(shù)據(jù)共享性:指數(shù)據(jù)可以被多個用戶、多個應用程序共同使用。(3)數(shù)據(jù)冗余度:指同一數(shù)據(jù)重復存儲時的重復度。(4)數(shù)據(jù)一致性:指同一數(shù)據(jù)不同副本的值一樣。1.2.1術(shù)語和基本概念(5)數(shù)據(jù)完整性:是指數(shù)據(jù)的正確性、有效性和相容性。(6)并發(fā)控制:指對多用戶的并發(fā)操作加以控制和協(xié)調(diào),防止因相互干擾而得到錯誤的結(jié)果。(7)數(shù)據(jù)庫恢復:將數(shù)據(jù)庫從錯誤狀態(tài)恢復到某一已知的正確狀態(tài)。(8)數(shù)據(jù)獨立性:指應用程序和數(shù)據(jù)結(jié)構(gòu)之間相互獨立、互不影響,包括物理獨立性和邏輯獨立性。20世紀40年代中期至50年代中期,計算機主要用于科學計算,處理的數(shù)據(jù)量有限,并且數(shù)據(jù)一般不需要長期存儲。硬件存儲方面只有紙帶、卡片、磁帶等,還沒有磁盤等直接存取的外部存儲設備;軟件方面只有匯編語言,還沒有操作系統(tǒng)和專門管理數(shù)據(jù)的軟件。這個階段的數(shù)據(jù)管理具有如下特點。(1)數(shù)據(jù)不保存(2)應用程序管理數(shù)據(jù)(3)數(shù)據(jù)不共享(4)數(shù)據(jù)不具有獨立性1.2.2人工管理階段在人工管理數(shù)據(jù)階段,應用程序與數(shù)據(jù)之間的對應關系如圖所示。1.2.2人工管理階段1.2.3文件系統(tǒng)管理階段20世紀50年代后期到60年代中期,計算機得到了很大程度的發(fā)展,不再局限于科學計算,已經(jīng)開始進行信息管理。此時,硬件方面已經(jīng)有了磁盤、磁鼓等直接存取存儲設備,軟件方面出現(xiàn)了高級語言和操作系統(tǒng),操作系統(tǒng)中有專門進行數(shù)據(jù)管理的軟件,稱為文件系統(tǒng)。文件系統(tǒng)把數(shù)據(jù)組織成相互獨立的數(shù)據(jù)文件,利用“按文件名訪問,按記錄進行存取”的管理技術(shù),可以對文件中的數(shù)據(jù)進行存取操作。程序與數(shù)據(jù)間的關系在高級程序設計語言出現(xiàn)之后,程序員不僅可以創(chuàng)建文件長期保存數(shù)據(jù),而且還可以編寫應用程序處理文件中的數(shù)據(jù),定義文件的結(jié)構(gòu),實現(xiàn)對文件中數(shù)據(jù)的插入、刪除、修改和查詢等操作。應用程序?qū)?shù)據(jù)文件的訪問,需要通過操作系統(tǒng)中的文件系統(tǒng)來完成,文件系統(tǒng)真正實現(xiàn)對物理磁盤中文件中數(shù)據(jù)的存取操作。文件系統(tǒng)管理階段程序與數(shù)據(jù)間的對應關系如圖所示。用文件存儲并管理數(shù)據(jù)示例設應用程序A1實現(xiàn)“學生基本信息管理”功能,應用程序A2實現(xiàn)“學生選課管理”功能。存在的問題文件系統(tǒng)管理階段對數(shù)據(jù)的管理有了很大進步,但并沒有徹底解決一些根本問題,主要體現(xiàn)在以下幾個方面:(1)程序員負擔仍然比較重;(2)易產(chǎn)生數(shù)據(jù)冗余;(3)數(shù)據(jù)獨立性較差;(4)并發(fā)控制困難;(5)數(shù)據(jù)之間聯(lián)系弱;(6)難以滿足不同用戶對數(shù)據(jù)的需求;(7)無安全控制功能。1.2.4數(shù)據(jù)庫系統(tǒng)管理階段20世紀60年代后期以來,為了解決多用戶、多應用共享數(shù)據(jù)需求,數(shù)據(jù)庫技術(shù)應運而生,出現(xiàn)了統(tǒng)一管理數(shù)據(jù)的專門軟件—數(shù)據(jù)庫管理系統(tǒng)。數(shù)據(jù)庫系統(tǒng)管理階段,用戶對數(shù)據(jù)的所有操作都是通過數(shù)據(jù)庫管理系統(tǒng)實現(xiàn)的,而且不再針對數(shù)據(jù)文件編寫應用程序。數(shù)據(jù)庫系統(tǒng)管理階段數(shù)據(jù)管理特點如圖所示。數(shù)據(jù)庫系統(tǒng)與文件系統(tǒng)管理數(shù)據(jù)的不同使用文件系統(tǒng)管理數(shù)據(jù)時,應用程序直接訪問數(shù)據(jù)文件;而使用數(shù)據(jù)庫管理數(shù)據(jù)時,應用程序通過數(shù)據(jù)庫管理系統(tǒng)訪問數(shù)據(jù)。使用數(shù)據(jù)庫管理數(shù)據(jù)時,用戶不再逐一對文件進行數(shù)據(jù)訪問,而是針對存儲某個單位或組織全部信息的數(shù)據(jù)庫進行訪問,數(shù)據(jù)文件的存儲位置和存儲結(jié)構(gòu)等信息被數(shù)據(jù)庫隱藏了,而且數(shù)據(jù)文件的這些信息由數(shù)據(jù)庫管理系統(tǒng)統(tǒng)一進行管理。數(shù)據(jù)庫系統(tǒng)階段管理數(shù)據(jù)的特點結(jié)構(gòu)化數(shù)據(jù)及其聯(lián)系的集合數(shù)據(jù)冗余度低數(shù)據(jù)獨立性高數(shù)據(jù)共享性高并能保證數(shù)據(jù)的一致性數(shù)據(jù)安全性和可靠性較高保證數(shù)據(jù)完整性數(shù)據(jù)模型03準備知識模型是對事物、對象、過程等客觀系統(tǒng)中人們感興趣的內(nèi)容的模擬和抽象表達,是理解系統(tǒng)的思維工具。數(shù)據(jù)模型也是一種模型,是計算機世界對現(xiàn)實世界數(shù)據(jù)特征的抽象、表示和處理的工具。數(shù)據(jù)庫不僅要反映數(shù)據(jù)本身內(nèi)容,而且要反映數(shù)據(jù)之間的聯(lián)系,而這種模擬是通過數(shù)據(jù)模型實現(xiàn)的。數(shù)據(jù)模型是數(shù)據(jù)庫的框架,是數(shù)據(jù)庫的核心和基礎。1.3.1兩類數(shù)據(jù)模型數(shù)據(jù)模型用于表達現(xiàn)實世界中的客觀對象,數(shù)據(jù)模型即要面向現(xiàn)實世界同時又要面向計算機世界。數(shù)據(jù)模型需滿足3個方面的要求:(1)能夠真實地模擬現(xiàn)實世界;(2)容易被人們理解;(3)能夠方便地在計算機上實現(xiàn)。在數(shù)據(jù)庫系統(tǒng)中針對不同的使用對象和應用目的,采用不同的數(shù)據(jù)模型:概念模型、邏輯模型和物理模型。1.3.1兩類數(shù)據(jù)模型根據(jù)模型應用目的的不同,模型可分為兩類,第一類是概念模型,第二類是邏輯模型和物理模型。概念模型也稱為信息模型,它按用戶的觀點對數(shù)據(jù)和信息建模,是對現(xiàn)實世界的事物及其聯(lián)系的第一層抽象,用于描述某個單位或組織所關心的信息結(jié)構(gòu),主要用于數(shù)據(jù)庫設計。邏輯模型主要包括層次模型、網(wǎng)狀模型、關系模型、面向?qū)ο竽P偷龋鼈儼从嬎銠C系統(tǒng)的觀點對數(shù)據(jù)進行建模,是對現(xiàn)實世界的第二層抽象,主要用于數(shù)據(jù)庫管理系統(tǒng)的實現(xiàn)。物理模型是對數(shù)據(jù)底層的抽象,它描述數(shù)據(jù)在磁盤或磁帶上的存儲方式和存取方法,是面向計算機系統(tǒng)的。1.3.2不同世界的劃分及相關概念人們在把客觀存在的事物以數(shù)據(jù)的形式存儲到計算機的過程中經(jīng)歷了3個領域:現(xiàn)實世界、信息世界和計算機世界。1.現(xiàn)實世界現(xiàn)實世界,即客觀世界,存在著各種各樣的事物及其之間的聯(lián)系。

例如,學校里有學生、課程、教師等實體,教師為學生授課,學生選修課程并取得成績。學生、課程、教師之間存在著聯(lián)系。現(xiàn)實世界中的每個事物都有自己的特征或性質(zhì)。

例如,要描述一門課程,通常選用課程號、課程名、課程類型、學時等特征,有了這些特征就能區(qū)分不同的課程。2.信息世界信息世界是現(xiàn)實世界在人們頭腦中的反映,是對現(xiàn)實世界的認識和抽象描述,按用戶的觀點對數(shù)據(jù)和信息進行建模。在信息世界中,與數(shù)據(jù)庫技術(shù)相關的主要概念和術(shù)語如下。實體(Entity):客觀存在并且可以相互區(qū)別的事物稱為實體。實體可以是具體的人、事、物,也可以是抽象的概念或聯(lián)系。屬性(Attribute):實體所具有的某一特性稱為屬性,一個實體可以由若干個屬性刻畫。實體型(EntityType):具有相同屬性的實體必然具有共同的特征和性質(zhì),用實體名及其屬性名集合抽象和刻畫同類實體,稱為實體型。2.信息世界實體集(EntitySet):同一類型的集合稱為實體集。例如,全體學生、全部課程、所有教師都是一個實體集。碼(Key):在實體型中,唯一標識一個實體的屬性或?qū)傩约Q為實體的碼。例如,學號是學生實體的碼、課程號是課程實體的碼。域(Domain):某一屬性的取值范圍稱為該屬性的域。例如,姓名的域是長度為10的字符串集合,性別的域為(男,女)。聯(lián)系(Relationship):在現(xiàn)實世界中,事物內(nèi)部及事物之間是有聯(lián)系的,這些聯(lián)系在信息世界中反映為實體(型)內(nèi)部的聯(lián)系和實體(型)之間的聯(lián)系。實體之間的3類聯(lián)系。一對一聯(lián)系(1∶1):如果對于實體集A中的每一個實體,實體集B中至多有一個(也可以沒有)實體與之聯(lián)系,反之亦然,則稱實體集A與實體集B具有一對一聯(lián)系,記為1∶1。一對多聯(lián)系(1∶n):如果對于實體集A中的每一個實體,實體集B中有n個實體(n≥0)與之聯(lián)系,反之,對于實體集B中的每一個實體,實體集A中至多只有一個實體與之聯(lián)系,則稱實體集A與實體集B具有一對多聯(lián)系,記為1∶n。多對多聯(lián)系(m∶n):如果對于實體集A中的每一個實體,實體集B中有n個實體(n≥0)與之聯(lián)系,反之,對于實體集B中的每一個實體,實體集A中也有m個實體(m≥0)與之聯(lián)系,則稱實體集A與實體集B具有多對多聯(lián)系,記為m∶n。3.計算機世界計算機世界又稱為數(shù)據(jù)世界,是信息世界中信息的數(shù)據(jù)化。在計算機世界中,將信息世界中的信息用字符和數(shù)值等數(shù)據(jù)表示,以便于在計算機中進行存儲,并由計算機進行識別和處理。主要概念和術(shù)語在計算機世界中,與數(shù)據(jù)庫技術(shù)相關的主要概念和術(shù)語如下:(1)字段(Field):標記實體屬性的命名單位稱為字段,又稱為數(shù)據(jù)項。字段名往往和屬性名相同。(2)記錄(Record):字段的有序集合稱為記錄,一條記錄描述一個實體。(3)文件(File):同一類記錄的集合稱為文件,一個文件描述一個實體集。(4)關鍵字(Key):能唯一標識文件中每個記錄的字段或字段集稱為記錄的關鍵字。不同世界中各概念和術(shù)語的對應關系現(xiàn)實世界是信息之源,是數(shù)據(jù)庫設計的出發(fā)點,概念模型和邏輯模型是客觀世界事物及其聯(lián)系的二級抽象,而邏輯模型是實現(xiàn)數(shù)據(jù)庫系統(tǒng)的基礎。通過上述描述,可以得出不同世界中各概念和術(shù)語的對應關系如下表所示。現(xiàn)實世界信息世界計算機世界事物總體實體集文件事物個體實體記錄特征屬性字段事物間的聯(lián)系概念模型邏輯模型客觀事物及其聯(lián)系的抽象過程為了把現(xiàn)實世界中的具體事物抽象、組織為某一數(shù)據(jù)庫管理系統(tǒng)支持的數(shù)據(jù)模型,人們通常首先將現(xiàn)實世界抽象為信息世界,然后將信息世界轉(zhuǎn)換為計算機世界。1.3.3數(shù)據(jù)模型的組成要素數(shù)據(jù)模型是對現(xiàn)實世界中客觀事物的抽象描述,這種抽象描述能確切地反映事物、事物的特征和事物之間的聯(lián)系,形成一組嚴格定義的概念的集合。這些概念精確地描述了系統(tǒng)的靜態(tài)特性、動態(tài)特性和完整性約束條件。數(shù)據(jù)模型主要由數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)操作、數(shù)據(jù)的完整性約束條件三要素組成。1.數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu),即數(shù)據(jù)的組織結(jié)構(gòu),主要描述數(shù)據(jù)庫的組成對象及對象之間的聯(lián)系。數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)模型最重要的組成部分,描述的是數(shù)據(jù)庫的靜態(tài)特征,不同的數(shù)據(jù)模型采用不同的數(shù)據(jù)結(jié)構(gòu)。在數(shù)據(jù)庫系統(tǒng)中,人們通常按照其數(shù)據(jù)結(jié)構(gòu)的類型命名數(shù)據(jù)模型,層次結(jié)構(gòu)、網(wǎng)狀結(jié)構(gòu)和關系結(jié)構(gòu)3種數(shù)據(jù)結(jié)構(gòu),對應的數(shù)據(jù)模型分別命名為層次模型、網(wǎng)狀模型和關系模型。2.數(shù)據(jù)操作數(shù)據(jù)操作是指對數(shù)據(jù)庫中各種對象(型)的實例(值)允許執(zhí)行的操作的集合,包括操作及有關的操作規(guī)則,是對系統(tǒng)動態(tài)特性的描述。數(shù)據(jù)庫主要包括檢索和更新兩大類操作,更新操作一般又包括插入、刪除和修改3類操作。數(shù)據(jù)模型必須定義這兩大類操作的確切含義、操作符號、操作規(guī)則(如優(yōu)先級)及實現(xiàn)操作的語言。3.數(shù)據(jù)的完整性約束條件數(shù)據(jù)的完整性約束條件是一組完整性規(guī)則的集合。完整性規(guī)則是給定的數(shù)據(jù)模型中數(shù)據(jù)及其聯(lián)系所具有的制約和依存規(guī)則,用以限定符合數(shù)據(jù)模型的數(shù)據(jù)庫狀態(tài)及狀態(tài)的變化,以保證數(shù)據(jù)的正確、有效和相容。數(shù)據(jù)模型還應該提供定義完整性約束條件的機制,以反映具體應用所涉及的數(shù)據(jù)必須遵守特定的語義約束條件。1.3.4常用的邏輯模型邏輯模型是對現(xiàn)實世界進行抽象的工具,它按計算機系統(tǒng)的觀點對數(shù)據(jù)建模,用于提供數(shù)據(jù)庫系統(tǒng)中信息表示和操作手段的形式框架,主要用于數(shù)據(jù)庫管理系統(tǒng)的實現(xiàn),是數(shù)據(jù)庫系統(tǒng)的核心和基礎。在數(shù)據(jù)庫領域中常用的邏輯模型主要有層次模型(HierarchicalModel)、網(wǎng)狀模型(NetworkModel)、關系模型(RelationalModel)和面向?qū)ο竽P停∣bject-OrientedModel)4種。1.層次模型層次模型是數(shù)據(jù)庫系統(tǒng)中最早出現(xiàn)的數(shù)據(jù)模型,采用層次模型的數(shù)據(jù)庫的典型代表是IBM公司的IMS(InformationManagementSystem,信息管理系統(tǒng))數(shù)據(jù)庫管理系統(tǒng)。此系統(tǒng)是IBM公司于1968年推出的第一個大型的商用數(shù)據(jù)庫管理系統(tǒng),曾得到廣泛的推廣。1.層次模型(1)層次模型的數(shù)據(jù)結(jié)構(gòu)層次模型采用樹形數(shù)據(jù)結(jié)構(gòu)(有向樹)表示各類實體及實體之間的聯(lián)系。層次模型中的樹形結(jié)構(gòu)由節(jié)點和節(jié)點之間的連線構(gòu)成,每個節(jié)點表示一個記錄類型,每個記錄類型可以包含若干個字段,記錄類型描述的是實體,字段描述的是實體的屬性。節(jié)點間帶箭頭的連線表示記錄類型之間的聯(lián)系,連線上端的節(jié)點是父節(jié)點或雙親節(jié)點,下端的節(jié)點是子節(jié)點或子女節(jié)點,同一雙親的子女節(jié)點稱為兄弟節(jié)點,沒有子女節(jié)點的節(jié)點稱為葉子節(jié)點。雖然層次模型可以方便、直接地表示實體之間的聯(lián)系,但是層次模型有以下兩方面的限制。①有且只有一個節(jié)點沒有雙親節(jié)點,這個節(jié)點稱為根節(jié)點。②根節(jié)點以外的其他節(jié)點有且只有一個雙親節(jié)點。層次模型實例1.層次模型(2)層次模型的數(shù)據(jù)操作與完整性約束條件層次模型的數(shù)據(jù)操作主要包括插入、刪除、更新和查詢4種。進行插入、刪除、更新操作時要滿足層次模型的完整性約束條件。進行插入操作時,不允許插入沒有相應雙親節(jié)點值的子女節(jié)點值。進行刪除操作時,如果刪除雙親節(jié)點值,則相應的子女節(jié)點值也將被同時刪除。層次模型的優(yōu)點層次模型的數(shù)據(jù)結(jié)構(gòu)比較簡單,易于在計算機內(nèi)實現(xiàn)。層次模型的查詢效率高。層次模型中從根節(jié)點到樹形結(jié)構(gòu)中任一節(jié)點都存在一條唯一的層次路徑,當要查詢某個節(jié)點的記錄值時,數(shù)據(jù)庫管理系統(tǒng)沿著這條路徑能很快找到該記錄值。層次模型提供了良好的完整性支持。層次模型的缺點不適合表示非層次的聯(lián)系,而現(xiàn)實世界中很多聯(lián)系是非層次性的。不能直接表示兩個以上實體型之間的復雜聯(lián)系和實體之間的多對多聯(lián)系,只能通過引入冗余節(jié)點或創(chuàng)建虛擬節(jié)點實現(xiàn),易產(chǎn)生不一致數(shù)據(jù),對插入和刪除操作的限制比較多。查詢子女節(jié)點必須通過雙親節(jié)點。由于結(jié)構(gòu)嚴密,層次命令趨于程序化。2.網(wǎng)狀模型在現(xiàn)實世界中事物之間的聯(lián)系更多的是非層次關系,使用層次模型不能直接方便地表示非層次關系,網(wǎng)狀模型則可以克服這一弊端。20世紀70年代,數(shù)據(jù)系統(tǒng)語言研究會(ConferenceOnDataSystemLanguage,CODASYL)下屬的數(shù)據(jù)庫任務組(DataBaseTaskGroup,DBTG)提出了一個系統(tǒng)方案,即DBTG系統(tǒng),又稱CODASYL系統(tǒng),是網(wǎng)狀模型的典型代表。網(wǎng)狀模型的數(shù)據(jù)結(jié)構(gòu)網(wǎng)狀模型采用圖形數(shù)據(jù)結(jié)構(gòu)(有向圖)表示各種實體及實體之間的聯(lián)系,是一種比層次模型更具普遍性的結(jié)構(gòu),它克服了層次模型的兩個限制,允許一個以上的節(jié)點無雙親,一個節(jié)點可以有多個雙親節(jié)點。它還允許兩個節(jié)點之間有多種聯(lián)系(稱之為復合聯(lián)系)。網(wǎng)狀模型可以更直接地描述現(xiàn)實世界,而層次模型實際上是網(wǎng)狀模型的一個特例。網(wǎng)狀模型中每個節(jié)點表示一個記錄類型(實體),每個記錄類型可包含若干個字段(實體的屬性),節(jié)點間的帶箭頭的連線表示記錄類型(實體)之間的一對多聯(lián)系。網(wǎng)狀模型實例網(wǎng)狀模型的數(shù)據(jù)操作與完整性約束條件網(wǎng)狀模型的數(shù)據(jù)操作主要包括插入、刪除、更新和查詢4種。進行插入、刪除、更新操作時要滿足網(wǎng)狀模型的完整性約束條件。進行插入操作時,如果沒有相應的雙親節(jié)點值也能插入它的子女節(jié)點值。進行刪除操作時,允許只刪除雙親節(jié)點值。進行更新操作時,只需更新指定記錄即可。網(wǎng)狀模型的優(yōu)點能夠更為直接地描述現(xiàn)實世界,可表示實體之間的多種聯(lián)系。具有良好的性能,存取效率較高。網(wǎng)狀模型的缺點結(jié)構(gòu)比較復雜,而且隨著應用環(huán)境的擴大,數(shù)據(jù)庫的結(jié)構(gòu)變得越來越復雜,最終用戶很難掌握。網(wǎng)狀模型的DDL和DML非常復雜,用戶不易掌握和使用。由于記錄之間的聯(lián)系實際上是通過存取路徑實現(xiàn)的,應用程序在訪問數(shù)據(jù)庫中的數(shù)據(jù)時必須指定合適的存取路徑,因此程序員必須了解系統(tǒng)結(jié)構(gòu)的細節(jié),加重了編寫應用程序的負擔。3.關系模型關系模型是目前最常用的一種數(shù)據(jù)模型。關系數(shù)據(jù)庫系統(tǒng)采用關系模型作為數(shù)據(jù)的組織方式。1970年,美國IBM公司的研究員埃德加·弗蘭克·科德(EdgarFrankCodd)首次提出了數(shù)據(jù)系統(tǒng)的關系模型,標志著數(shù)據(jù)庫系統(tǒng)新時代的來臨,開創(chuàng)了數(shù)據(jù)庫關系方法和關系數(shù)據(jù)理論的研究,為數(shù)據(jù)庫技術(shù)奠定了理論基礎。1980年后,各種關系數(shù)據(jù)庫管理系統(tǒng)的產(chǎn)品迅速出現(xiàn),如Oracle、Sybase、Informix等,關系數(shù)據(jù)庫系統(tǒng)統(tǒng)治了數(shù)據(jù)庫市場,數(shù)據(jù)庫的應用領域迅速擴大。關系模型的概念簡單、清晰,并且具有嚴格的數(shù)據(jù)基礎,形成了關系數(shù)據(jù)理論,操作也直觀、容易,因此易學易用。無論是數(shù)據(jù)庫的設計和建立,還是數(shù)據(jù)庫的使用與維護,都比較簡便。關系模型的數(shù)據(jù)結(jié)構(gòu)及概念關系模型建立在嚴格的數(shù)學概念的基礎之上,數(shù)學基礎是關系代數(shù)。關系模型是目前最重要的一種數(shù)據(jù)模型,它的數(shù)據(jù)結(jié)構(gòu)是一個規(guī)范化的二維表。它由表名、表頭和表體三部分構(gòu)成,表名為二維表的名稱,表頭為二維表的結(jié)構(gòu),表體為二維表中的數(shù)據(jù)。每一個二維表在關系數(shù)據(jù)庫中稱為關系。關系數(shù)據(jù)庫是表(關系)的集合。關系二維表實例關系模型的數(shù)據(jù)操作及完整性約束條件關系模型的數(shù)據(jù)操作主要包括插入、刪除、更新和查詢4種。進行插入、刪除、更新操作時要滿足關系模型的完整性約束條件。關系模型的完整性包括三大類:實體完整性、參照完整性和用戶自定義完整性。關系模型中的數(shù)據(jù)操作是集合操作,操作對象和操作結(jié)果都是關系。關系模型的優(yōu)點關系模型具有較強的數(shù)學理論根據(jù),是建立在嚴格的數(shù)學基礎之上的。關系模型具有單一的數(shù)據(jù)結(jié)構(gòu)。無論是事物還是事物之間的聯(lián)系,在關系模型中都是用關系表示的。對用戶來說,無論是原始數(shù)據(jù)還是用戶檢索到的數(shù)據(jù),數(shù)據(jù)的邏輯結(jié)構(gòu)都只是表,也就是關系。關系模型的存取路徑對用戶透明,從而具有更高的數(shù)據(jù)獨立性、更好的安全保密性,也簡化了程序員的工作和數(shù)據(jù)庫開發(fā)建立的工作。關系模型的缺點由于存取路徑對用戶是隱蔽的,與非關系模型相比,查詢效率較低。為了提高查詢效率,數(shù)據(jù)庫管理系統(tǒng)必須優(yōu)化用戶的查詢請求,因此增加了開發(fā)數(shù)據(jù)庫管理系統(tǒng)的難度。4.面向?qū)ο竽P兔嫦驅(qū)ο蟮幕靖拍钤?0世紀70年代被首次提出,隨后迅速滲透到計算機科學的各個分支領域,如系統(tǒng)工程、人工智能、數(shù)據(jù)庫等。面向?qū)ο髷?shù)據(jù)庫是面向?qū)ο蟾拍钆c數(shù)據(jù)庫技術(shù)相結(jié)合的產(chǎn)物,比較知名的有ObjectStore、ONTOS等。面向?qū)ο竽P褪怯妹嫦驅(qū)ο蟮乃季S方式將現(xiàn)實世界中的一切實體都模型化為對象的數(shù)據(jù)模型,它用類表示實體集,用對象表示實體,用對象之間的關聯(lián)表示實體之間的聯(lián)系。面向?qū)ο蟮幕靖拍顚ο螅∣bject)是現(xiàn)實世界中實體的模型化,包含數(shù)據(jù)和操作方法的獨立模塊,是數(shù)據(jù)和行為的統(tǒng)一體。如一個學生、一門課程均可作為對象。對于一個對象,一般應具有以下三個特征。①以一個唯一的對象標識表明其存在的獨立性。②以一組描述對象特征的屬性表明對象在某一時刻的狀態(tài)。③以一組表示對象行為的操作方法改變對象的狀態(tài)。類(Class)是共享同一屬性和方法集的所有對象的集合。一個對象是類的一個實例,如把課程定義為一個類,則某門課程(數(shù)據(jù)庫原理及應用、數(shù)據(jù)結(jié)構(gòu)等)是課程類的一個對象。面向?qū)ο竽P偷暮诵募夹g(shù)①分類分類是把一組具有相同屬性結(jié)構(gòu)和操作方法的對象歸納或映射為一個公共類的過程。對象和類的關系是“實例”(Instance-of)的關系。②概括概括是把某些類(子類)中部分具有相同特征的屬性和操作方法抽象出來,形成一個更高層次、更具一般性的超類的過程。③聚集聚集是將多個不同性質(zhì)類的對象組合成一個更高層次的復合對象的過程。④聯(lián)合聯(lián)合是將同一類對象中的幾個具有部分相同屬性值的對象組合起來,形成一個更高水平的“集合對象”的過程。數(shù)據(jù)庫系統(tǒng)的結(jié)構(gòu)041.4.1三級模式結(jié)構(gòu)數(shù)據(jù)庫系統(tǒng)的結(jié)構(gòu),是數(shù)據(jù)庫系統(tǒng)的一個總體框架,可以從不同的層次或角度進行考察。從數(shù)據(jù)庫應用程序員角度看,數(shù)據(jù)庫系統(tǒng)通常采用三級模式結(jié)構(gòu),這是數(shù)據(jù)庫系統(tǒng)的內(nèi)部體系結(jié)構(gòu)。1.模式數(shù)據(jù)模型中有“型”(Type)和“值”(Value)的概念。型是指對某一類數(shù)據(jù)的結(jié)構(gòu)和屬性的說明,值是型的一個具體賦值。例如,在描述一個學生的信息時,學生信息可以定義為(學號,姓名,性別,年齡,院系),即為學生記錄型,而(S01,韓耀飛,男,20,計算機與數(shù)據(jù)科學學院)為該記錄型的一個記錄值。模式(Schema)又稱為概念模式或邏輯模式,是對數(shù)據(jù)庫中全體數(shù)據(jù)的邏輯結(jié)構(gòu)和特征的描述,采用數(shù)據(jù)庫管理系統(tǒng)支持的數(shù)據(jù)模型定義數(shù)據(jù)庫中的數(shù)據(jù)。它僅僅涉及型的定義,不涉及具體的值。模式的一個具體值稱為模式的一個實例(Instance),同一個模式可以有多個實例。例如,學生選課數(shù)據(jù)庫模式包括學生實體、課程實體和學生選課關系的定義,而某學年學生選課數(shù)據(jù)庫的實例包括該學年學校全體在校學生記錄、開設的全部課程記錄和所有選課記錄,在該學年中,可能有學生入學,可能有學生轉(zhuǎn)專業(yè),還有可能有學生退學。因此,學生選課數(shù)據(jù)庫的實例可能隨時發(fā)生變化,而數(shù)據(jù)庫模式基本保持不變。1.模式模式是相對穩(wěn)定的,而實例是相對變化的。模式反映的是數(shù)據(jù)庫中數(shù)據(jù)的結(jié)構(gòu)及其聯(lián)系,而實例反映的是數(shù)據(jù)庫某一時刻的狀態(tài)。模式處于數(shù)據(jù)庫系統(tǒng)三級模式結(jié)構(gòu)的中間層,既不涉及數(shù)據(jù)的物理存儲細節(jié)和硬件環(huán)境,也與具體的應用程序、所使用的應用開發(fā)工具和程序設計語言無關。模式綜合考慮了所有用戶的需求,為數(shù)據(jù)庫中的數(shù)據(jù)定義了一個全局邏輯視圖。一個數(shù)據(jù)庫中只有一個模式。模式的定義不僅包括數(shù)據(jù)邏輯結(jié)構(gòu)的定義,還包括數(shù)據(jù)之間聯(lián)系的定義、數(shù)據(jù)完整性約束定義和數(shù)據(jù)安全性定義。在關系數(shù)據(jù)庫系統(tǒng)中,模式主要描述數(shù)據(jù)庫中的所有關系。數(shù)據(jù)庫系統(tǒng)的三級模式結(jié)構(gòu)2.外模式外模式又稱子模式或用戶模式,是對數(shù)據(jù)庫中局部數(shù)據(jù)的邏輯結(jié)構(gòu)和特征的描述,是用戶與數(shù)據(jù)庫系統(tǒng)的接口,是數(shù)據(jù)庫用戶的數(shù)據(jù)視圖,是與某個具體應用相關聯(lián)數(shù)據(jù)的邏輯表示。外模式通常是模式的子集,一個數(shù)據(jù)庫可以有多個外模式。同一個外模式可以被某一用戶的多個應用程序使用,但一個應用程序只能使用一個外模式。不同用戶對數(shù)據(jù)的需求不同,關心的數(shù)據(jù)就不相同。因此,不同用戶對外模式的描述不同。在關系數(shù)據(jù)庫系統(tǒng)中,外模式主要通過定義視圖實現(xiàn)。3.內(nèi)模式內(nèi)模式也稱為存儲模式或物理模式,是數(shù)據(jù)物理結(jié)構(gòu)和存儲方式的描述,是數(shù)據(jù)在數(shù)據(jù)庫內(nèi)部的表示方式。一個數(shù)據(jù)庫只有一個內(nèi)模式。在關系數(shù)據(jù)庫系統(tǒng)中,內(nèi)模式主要通過指定存儲結(jié)構(gòu)和定義索引方式實現(xiàn)在數(shù)據(jù)庫系統(tǒng)中,模式和內(nèi)模式只能各有一個,而外模式可以有多個。內(nèi)模式是數(shù)據(jù)庫實際存儲結(jié)構(gòu)和存儲方式的表示,模式是數(shù)據(jù)庫全局數(shù)據(jù)結(jié)構(gòu)和特征的抽象表示,而外模式是模式的某一部分的抽象表示。模式和外模式都是邏輯上的、抽象的,而內(nèi)模式是實際存在的。在數(shù)據(jù)庫系統(tǒng)中,模式是數(shù)據(jù)庫的中心和關鍵,它獨立于外模式和內(nèi)模式。因此,設計數(shù)據(jù)庫時首先要確定數(shù)據(jù)庫的邏輯模式。內(nèi)模式依賴于模式,獨立于外模式,與具體的存儲設備無關。它將模式中定義的數(shù)據(jù)結(jié)構(gòu)及其聯(lián)系按照一定的物理存儲策略進行組織,以達到較好的時間效率和空間效率。外模式面向具體的應用程序,定義在邏輯模式之上,但獨立于內(nèi)模式和存儲設備。當應用需求發(fā)生較大變化,外模式不能滿足要求時,就要發(fā)生改變。因此,設計外模式時應充分考慮到應用的擴充性。1.4.2二級映像和數(shù)據(jù)獨立性數(shù)據(jù)庫系統(tǒng)的三級模式結(jié)構(gòu)是對數(shù)據(jù)的三個抽象級別,它把數(shù)據(jù)的具體組織細節(jié)交給數(shù)據(jù)庫管理系統(tǒng)處理,使得用戶能在抽象的邏輯層面上處理數(shù)據(jù),而不必關心數(shù)據(jù)在計算機中的實際表示和存儲,從而減輕了用戶使用數(shù)據(jù)庫系統(tǒng)的負擔。數(shù)據(jù)庫管理系統(tǒng)在三級模式之間提供了二級映像,以實現(xiàn)這三個抽象級別的聯(lián)系和轉(zhuǎn)換,從而保證數(shù)據(jù)的獨立性。1.二級映像(1)外模式/模式映像對于每一個外模式,數(shù)據(jù)庫系統(tǒng)都定義一個外模式/模式映像,描述模式和外模式的映射關系,這些映像的定義一般放在各自的外模式中描述。(2)模式/內(nèi)模式映像該映像用于定義模式和內(nèi)模式之間的映射關系,該映像存在于模式和內(nèi)模式之間,一般放在內(nèi)模式中描述。模式/內(nèi)模式映像是唯一的,它定義了數(shù)據(jù)的全局邏輯結(jié)構(gòu)與存儲結(jié)構(gòu)之間的對應關系。2.數(shù)據(jù)獨立性(1)邏輯獨立性當模式改變時,例如在學生關系(學號,姓名,性別)中增加新屬性“年齡”,學生關系改變?yōu)?學號,姓名,性別,年齡),數(shù)據(jù)庫管理員只需對各個外模式/模式的映像做相應改變,就可以使外模式保持不變。應用程序是根據(jù)外模式編寫的,從而應用程序不必修改,實現(xiàn)了數(shù)據(jù)與應用程序的邏輯獨立性,簡稱數(shù)據(jù)的邏輯獨立性。(2)物理獨立性當數(shù)據(jù)庫的存儲結(jié)構(gòu)發(fā)生變化時,例如從順序存儲改變?yōu)殒準酱鎯Γ瑪?shù)據(jù)庫管理員通過調(diào)整模式和內(nèi)模式之間的映像,使得模式不變,從而外模式和應用程序不用改變,實現(xiàn)了數(shù)據(jù)與應用程序的物理獨立性,簡稱數(shù)據(jù)的物理獨立性。數(shù)據(jù)庫領域的新技術(shù)051.5.1數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)計算機系統(tǒng)中數(shù)據(jù)處理可以分成兩大類:操作型處理和分析性處理,又稱為聯(lián)機事務處理(On-LineTransactionProcessing,OLTP)和聯(lián)機分析處理(On-LineAnalyticalProcessing,OLAP)。OLTP是傳統(tǒng)的關系數(shù)據(jù)庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易、證券交易。隨著數(shù)據(jù)庫應用領域的擴展和變化,每個企業(yè)的數(shù)據(jù)量每2~3年就會成倍增長,企業(yè)希望最大化地利用已存在的數(shù)據(jù)資源,對自身業(yè)務運作及整個市場相關行業(yè)的態(tài)勢進行分析,做出最佳的商業(yè)決策,以提高市場競爭力。這種基于業(yè)務數(shù)據(jù)的決策分析成為OLAP,它是數(shù)據(jù)倉庫(DataWarehouse,DW)系統(tǒng)的主要應用,支持復雜的分析操作,通常是對海量的歷史數(shù)據(jù)查詢和分析,如金融風險預測預警系統(tǒng)、證券股市違規(guī)分析系統(tǒng)等,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。1.數(shù)據(jù)倉庫數(shù)據(jù)倉庫是近年來數(shù)據(jù)庫領域發(fā)展的一種新技術(shù),它建立在原有數(shù)據(jù)庫的基礎之上,是一個面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合,用于支持企業(yè)(或組織)商業(yè)決策的制訂過程。數(shù)據(jù)倉庫的基本特征①面向主題在數(shù)據(jù)倉庫中需要將應用系統(tǒng)中的數(shù)據(jù)模式抽象為面向主題的數(shù)據(jù)模式,去除應用系統(tǒng)中那些不必要、不適用于數(shù)據(jù)分析的信息,提取那些對主題有用的信息,以形成某個主題的完整且一致的數(shù)據(jù)集合。②集成按照統(tǒng)一的結(jié)構(gòu)和格式、相同的語義將這些數(shù)據(jù)進行加工和集成、統(tǒng)一和綜合,消除數(shù)據(jù)的不一致,以保證數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題的、全局的、一致的信息。③穩(wěn)定且不可更新一旦數(shù)據(jù)被加工處理存放到數(shù)據(jù)倉庫中,一般情況將作為數(shù)據(jù)檔案長期保存,不能進行修改和刪除操作,數(shù)據(jù)不可再更新。④隨時間不斷變化用戶雖然不能更改數(shù)據(jù)倉庫中的數(shù)據(jù),但隨著時間變化,數(shù)據(jù)倉庫系統(tǒng)會進行定期刷新,不斷添加新數(shù)據(jù)到數(shù)據(jù)倉庫,以隨時導出新的綜合數(shù)據(jù)和統(tǒng)計數(shù)據(jù),同時系統(tǒng)會刪除一些舊數(shù)據(jù)。數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)2.數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining,DM),是從大量數(shù)據(jù)中發(fā)現(xiàn)并提取隱藏在內(nèi)的、人們事先不知道的但又可能有潛在利用價值的信息和知識的一種新技術(shù)。數(shù)據(jù)挖掘包含以下幾層含義。①數(shù)據(jù)是真實的、大量的。②發(fā)現(xiàn)的是用戶感興趣的知識。③發(fā)現(xiàn)的知識支持特定的問題,要可理解、可運用。數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)挖掘方法①分類和預測。分類和預測類似于人類的學習過程,仔細觀察某種現(xiàn)象,然后得出該對象特征的描述或模型。②關聯(lián)分析。通過發(fā)現(xiàn)數(shù)據(jù)之間的關聯(lián),可以獲取有價值的知識,從而為決策提供依據(jù)。③聚類。聚類將數(shù)據(jù)劃分為多個有意義的子集(類),使得類內(nèi)部數(shù)據(jù)之間的差異最小,而類之間數(shù)據(jù)的差異最大。④偏差檢測。數(shù)據(jù)庫中通常會有一些異常數(shù)據(jù),從數(shù)據(jù)庫中檢測這些偏差非常有意義。1.5.2大數(shù)據(jù)技術(shù)所謂“大數(shù)據(jù)”,是指無法在合理的時間范圍內(nèi)用主流軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)是一次對國家宏觀調(diào)控、商業(yè)戰(zhàn)略決策、服務業(yè)務和管理方式及每個人的生活都具有重大影響的一次數(shù)據(jù)技術(shù)革命。大數(shù)據(jù)的應用與推廣將給市場帶來巨大的收益,這被稱為數(shù)據(jù)帶來的又一次工業(yè)革命。1.大數(shù)據(jù)產(chǎn)生的背景互聯(lián)網(wǎng)搜索引擎支持的數(shù)十億次Web搜索每天都會處理大量數(shù)據(jù)。遍及世界各地的大型商場的海量的門店每周都要處理數(shù)億次交易?,F(xiàn)代醫(yī)療行業(yè)如醫(yī)院、藥店等每天也都產(chǎn)生龐大的數(shù)據(jù)量,如醫(yī)療記錄、病人資料、醫(yī)療圖像等。我們進入了一個以數(shù)據(jù)為中心的時代——大數(shù)據(jù)時代。從數(shù)據(jù)庫技術(shù)的發(fā)展過程來看,大數(shù)據(jù)并非一個全新的概念,它與數(shù)據(jù)庫技術(shù)的研究和發(fā)展密切相關。20世紀70年代中期,數(shù)據(jù)庫研究人員就提出了“超大規(guī)模數(shù)據(jù)庫”(VeryLargeDataBase,VLDB)的概念,并在1975年召開了第一次VLDB國際會議,目前該會議在數(shù)據(jù)庫領域仍具有較高的影響力。21世紀初,“海量數(shù)據(jù)”的概念被提出,它用來表示更大的數(shù)據(jù)集和更加豐富的數(shù)據(jù)類型。20年后,隨著物聯(lián)網(wǎng)和云計算技術(shù)不斷地融入人們的生活,數(shù)據(jù)庫研究人員發(fā)現(xiàn)處理的數(shù)據(jù)呈現(xiàn)爆炸式增長,他們開始探索研究大數(shù)據(jù)技術(shù),以發(fā)現(xiàn)大數(shù)據(jù)不可忽視的商業(yè)價值。大數(shù)據(jù)是一次對國家宏觀調(diào)控、商業(yè)戰(zhàn)略決策、服務業(yè)務和管理方式及每個人的生活都具有重大影響的一次數(shù)據(jù)技術(shù)革命。大數(shù)據(jù)的應用與推廣將給市場帶來巨大的收益,這被稱為數(shù)據(jù)帶來的又一次工業(yè)革命。2.大數(shù)據(jù)的特征(1)巨量大數(shù)據(jù)的首要特征是數(shù)據(jù)量巨大,而且會持續(xù)、急劇地膨脹。國際知名的咨詢公司IDC的研究報告稱,2020年全球數(shù)據(jù)總量約40ZB,人均約5.2TB。(2)多樣大數(shù)據(jù)的多樣性通常是指異構(gòu)的數(shù)據(jù)類型、不同的數(shù)據(jù)表示和語義解釋。(3)快變大數(shù)據(jù)的快變性也稱為實時性。一方面,社會、經(jīng)濟、文化等各個領域每分鐘都產(chǎn)生大量的數(shù)據(jù),數(shù)據(jù)的到達速度快;另一方面,大數(shù)據(jù)時代很多應用要求對數(shù)據(jù)實時響應,因此能夠進行數(shù)據(jù)處理的時間很短。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。(4)價值大數(shù)據(jù)的價值是潛在的、巨大的。大數(shù)據(jù)不僅具有經(jīng)濟價值和產(chǎn)業(yè)價值,還具有科學價值。3.大數(shù)據(jù)的關鍵技術(shù)(1)大數(shù)據(jù)采集技術(shù)數(shù)據(jù)采集是指通過傳感器和智能設備、社交網(wǎng)絡和移動互聯(lián)網(wǎng)等獲取各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)的過程,是大數(shù)據(jù)知識服務模型的根本。(2)大數(shù)據(jù)預處理技術(shù)數(shù)據(jù)預處理主要是指完成對已接收數(shù)據(jù)的辨析、抽取、清洗、填補、平滑、合并、規(guī)格化及檢查一致性等操作的過程。大數(shù)據(jù)預處理技術(shù)主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約和數(shù)據(jù)變換等。(3)大數(shù)據(jù)存儲及管理技術(shù)大數(shù)據(jù)存儲與管理就是用存儲設備把采集到的數(shù)據(jù)存儲起來,建立相應的數(shù)據(jù)庫,并進行管理和調(diào)用。(4)大數(shù)據(jù)分析和挖掘技術(shù)大數(shù)據(jù)處理的核心就是對大數(shù)據(jù)進行分析,只有通過分析才能獲取很多智能的、深入的、有價值的信息。數(shù)據(jù)分析和挖掘技術(shù)主要包括分類、回歸分析、聚類、關聯(lián)規(guī)則等,它們分別從不同的角度對大數(shù)據(jù)進行挖掘。(5)大數(shù)據(jù)展示和應用技術(shù)在大數(shù)據(jù)時代,數(shù)據(jù)井噴似的增長,分析人員將這些龐大的數(shù)據(jù)匯總并進行分析,將分析結(jié)果以更便于溝通和理解的方式(如圖表、動態(tài)圖等)展現(xiàn)給用戶,減少用戶的閱讀和思考時間,以便用戶更好地做出決策。4.大數(shù)據(jù)的應用(1)金融行業(yè)在金融行業(yè)中,金融企業(yè)紛紛成立大數(shù)據(jù)研發(fā)機構(gòu),開始利用金融市場產(chǎn)生的海量數(shù)據(jù)來挖掘用戶需求、評價用戶信用、管理融資風險,大幅提高金融風險定價的效率,降低定價成本,使得對每個用戶的信用信息、消費傾向、理財習慣等有效分析成為可能。(2)醫(yī)療行業(yè)醫(yī)療行業(yè)已經(jīng)逐漸開展數(shù)字醫(yī)療,對病例、病理報告、治愈方案和藥物報告等大量數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論