管理信息系統(tǒng) 課件 (魯燕飛)第5、6章 管理信息系統(tǒng)技術(shù)基礎(chǔ)、存儲系統(tǒng)_第1頁
管理信息系統(tǒng) 課件 (魯燕飛)第5、6章 管理信息系統(tǒng)技術(shù)基礎(chǔ)、存儲系統(tǒng)_第2頁
管理信息系統(tǒng) 課件 (魯燕飛)第5、6章 管理信息系統(tǒng)技術(shù)基礎(chǔ)、存儲系統(tǒng)_第3頁
管理信息系統(tǒng) 課件 (魯燕飛)第5、6章 管理信息系統(tǒng)技術(shù)基礎(chǔ)、存儲系統(tǒng)_第4頁
管理信息系統(tǒng) 課件 (魯燕飛)第5、6章 管理信息系統(tǒng)技術(shù)基礎(chǔ)、存儲系統(tǒng)_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

5.1數(shù)據(jù)庫與數(shù)據(jù)倉庫

5.2

通信與網(wǎng)絡(luò)

5.3

大數(shù)據(jù)和云計(jì)算5.1數(shù)據(jù)庫與數(shù)據(jù)倉庫5.1.1數(shù)據(jù)庫管理系統(tǒng)1.?數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)庫管理系統(tǒng)是位于用戶與操作系統(tǒng)之間的一種數(shù)據(jù)管理軟件。數(shù)據(jù)庫管理系統(tǒng)使用戶能夠方便地定義數(shù)據(jù)和操縱數(shù)據(jù),并能夠保證數(shù)據(jù)的安全性、完整性,多用戶對數(shù)據(jù)的并發(fā)使用以及發(fā)生故障后的系統(tǒng)恢復(fù)。數(shù)據(jù)庫管理系統(tǒng)具備數(shù)據(jù)庫定義、數(shù)據(jù)庫操縱、數(shù)據(jù)庫保護(hù)和數(shù)據(jù)庫建立和維護(hù)等功能,它們實(shí)際上是由一組不同的程序模塊來完成的。不同的數(shù)據(jù)庫管理系統(tǒng),其功能不完全相同,因此它包含的程序模塊也不完全一致。例如,關(guān)系型數(shù)據(jù)庫管理系統(tǒng)沒有數(shù)據(jù)的物理描述語言,一些層次數(shù)據(jù)庫管理系統(tǒng)和網(wǎng)狀數(shù)據(jù)庫管理系統(tǒng)沒有查詢語言。2.?數(shù)據(jù)庫管理系統(tǒng)的分類數(shù)據(jù)庫管理系統(tǒng)的分類如表5.1所示。3.?數(shù)據(jù)庫管理系統(tǒng)的組成一般來說,數(shù)據(jù)庫管理系統(tǒng)由3部分組成:數(shù)據(jù)定義語言及其翻譯程序、數(shù)據(jù)操縱(或查詢)語言及其編譯(或解釋)程序、數(shù)據(jù)庫管理例行程序。其中,數(shù)據(jù)定義語言和數(shù)據(jù)操縱語言稱為數(shù)據(jù)庫語言。數(shù)據(jù)庫語言是用戶使用數(shù)據(jù)庫的接口,數(shù)據(jù)庫管理系統(tǒng)支持用戶通過數(shù)據(jù)庫語言進(jìn)行數(shù)據(jù)存取。1)?數(shù)據(jù)定義語言數(shù)據(jù)定義語言(DataDefinitionLanguage,DDL)通常被數(shù)據(jù)庫管理員或數(shù)據(jù)庫設(shè)計(jì)人員用來定義數(shù)據(jù)庫模式,如數(shù)據(jù)元素的名稱、特征、字域?qū)挾群拖嗷リP(guān)系,以及數(shù)據(jù)的密碼、完整性限定等。數(shù)據(jù)庫管理系統(tǒng)負(fù)責(zé)對數(shù)據(jù)定義語言進(jìn)行編譯,生成一系列元數(shù)據(jù),并將其存儲到數(shù)據(jù)字典或系統(tǒng)目錄中。2)?數(shù)據(jù)操縱語言數(shù)據(jù)操縱語言(DataManipulationLanguage,DML)通常用來對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行增加、刪除、修改、查詢。數(shù)據(jù)操縱語言有兩種類型:第一種是非過程化的數(shù)據(jù)操縱語言,用戶只需以交互方式指定“需要什么數(shù)據(jù)”,不必給出“如何獲得這些數(shù)據(jù)”,一個(gè)數(shù)據(jù)操縱語言語句可以檢索和處理一組記錄,因此是基于集合的。第二種是過程化的數(shù)據(jù)操縱語言語句,這種語言只能檢索和處理一組記錄,因此是基于記錄的;過程化的數(shù)據(jù)操縱語言必須嵌入某種程序設(shè)計(jì)語言中使用,被嵌入的程序設(shè)計(jì)語言稱為宿主語言(HostLanguage),如C、Java語言,嵌入的數(shù)據(jù)操縱語言稱為數(shù)據(jù)子語言(DataSub-Language)。3)?數(shù)據(jù)庫管理例行程序數(shù)據(jù)庫管理例行程序也隨著系統(tǒng)的不同而不同,通常由系統(tǒng)運(yùn)行控制程序、語言翻譯處理程序和數(shù)據(jù)庫管理系統(tǒng)的公共程序3部分組成。5.1.2數(shù)據(jù)庫系統(tǒng)結(jié)構(gòu)數(shù)據(jù)庫系統(tǒng)是一個(gè)完整的、復(fù)雜的系統(tǒng)。它不僅指數(shù)據(jù)庫和數(shù)據(jù)庫管理系統(tǒng)本身,還指引進(jìn)數(shù)據(jù)庫技術(shù)后的整個(gè)計(jì)算機(jī)系統(tǒng)。一般來說,數(shù)據(jù)庫系統(tǒng)由硬件、軟件、人員組成。數(shù)據(jù)庫系統(tǒng)的層次結(jié)構(gòu)如圖5.1所示。1.?硬件數(shù)據(jù)庫管理系統(tǒng)的硬件部分包括中央處理器、內(nèi)存、磁盤、磁帶以及其他外部設(shè)備。隨著數(shù)據(jù)庫中數(shù)據(jù)量的增大,以及數(shù)據(jù)庫管理系統(tǒng)規(guī)模的擴(kuò)大,除了要求重要處理器的運(yùn)算速度足夠快外,數(shù)據(jù)庫系統(tǒng)還要求硬件有足夠大的內(nèi)存、大容量的直接存取設(shè)備和高性能的數(shù)據(jù)通道傳輸能力。2.?軟件數(shù)據(jù)庫系統(tǒng)的軟件部分包括操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)、用于開發(fā)應(yīng)用程序的具有數(shù)據(jù)庫接口的高級語言及其編譯系統(tǒng)、以數(shù)據(jù)庫管理系統(tǒng)為核心的應(yīng)用開發(fā)工具、為某應(yīng)用環(huán)境開發(fā)的應(yīng)用系統(tǒng)。3.?人員管理、使用和開發(fā)數(shù)據(jù)庫的人員主要有數(shù)據(jù)庫管理員(DataBaseAdministrator,DBA)、系統(tǒng)分析員、數(shù)據(jù)庫設(shè)計(jì)人員、應(yīng)用程序員和最終用戶。他們不但熟悉操作系統(tǒng)、高級語言和數(shù)據(jù)庫管理系統(tǒng)等,而且對應(yīng)用系統(tǒng)的業(yè)務(wù)處理工作也很理解。1)?數(shù)據(jù)庫管理員數(shù)據(jù)庫管理員是專門監(jiān)督和管理數(shù)據(jù)庫系統(tǒng)的一個(gè)或一組人員,全面負(fù)責(zé)數(shù)據(jù)庫的管理和控制。其主要職責(zé)包括:定義數(shù)據(jù)庫的結(jié)構(gòu)和內(nèi)容;決定數(shù)據(jù)庫的存儲結(jié)構(gòu)和存儲策略;定義數(shù)據(jù)的安全性要求和完整性約束條件;監(jiān)控?cái)?shù)據(jù)庫的運(yùn)行和使用;負(fù)責(zé)數(shù)據(jù)庫的改進(jìn)和重構(gòu);規(guī)劃和實(shí)現(xiàn)數(shù)據(jù)庫信息的備份和恢復(fù);等等。2)?系統(tǒng)分析員系統(tǒng)分析員負(fù)責(zé)應(yīng)用系統(tǒng)的需求分析和規(guī)范說明,與數(shù)據(jù)庫管理員和用戶一起確定系統(tǒng)的硬件和軟件配置,并參與數(shù)據(jù)庫系統(tǒng)的概念設(shè)計(jì)。3)?數(shù)據(jù)庫設(shè)計(jì)人員數(shù)據(jù)庫設(shè)計(jì)人員一般由數(shù)據(jù)庫管理員兼任,負(fù)責(zé)數(shù)據(jù)庫中數(shù)據(jù)的確定與數(shù)據(jù)庫的存儲結(jié)構(gòu)、全局和局部邏輯結(jié)構(gòu)的設(shè)計(jì)。4)?應(yīng)用程序員應(yīng)用程序員負(fù)責(zé)設(shè)計(jì)、編寫、調(diào)試和安裝應(yīng)用系統(tǒng)程序模塊。5)?最終用戶最終用戶通過應(yīng)用程序的用戶接口,如瀏覽器、菜單、表格、圖形或報(bào)表等直觀的數(shù)據(jù)表示方式使用數(shù)據(jù)庫。5.1.3數(shù)據(jù)庫設(shè)計(jì)1.?數(shù)據(jù)庫設(shè)計(jì)的含義數(shù)據(jù)庫是管理信息系統(tǒng)開發(fā)和建設(shè)的核心技術(shù)。因此,數(shù)據(jù)庫設(shè)計(jì)在管理信息系統(tǒng)的開發(fā)中占有重要的位置,數(shù)據(jù)庫設(shè)計(jì)的好壞將直接影響整個(gè)系統(tǒng)的效率。數(shù)據(jù)庫設(shè)計(jì)是利用現(xiàn)有的數(shù)據(jù)庫管理系統(tǒng)來建立數(shù)據(jù)庫的,需要將數(shù)據(jù)庫管理系統(tǒng)與現(xiàn)實(shí)世界有機(jī)結(jié)合起來。數(shù)據(jù)庫設(shè)計(jì),尤其是大型數(shù)據(jù)庫的設(shè)計(jì)和開發(fā),是涉及多學(xué)科的綜合性技術(shù),因此數(shù)據(jù)庫設(shè)計(jì)人員需要同時(shí)具備數(shù)據(jù)庫系統(tǒng)及其實(shí)際應(yīng)用等方面的知識。他們不但要熟悉以數(shù)據(jù)庫管理系統(tǒng)為基礎(chǔ)的計(jì)算機(jī)系統(tǒng)、軟件工程的原理和方法,還要熟悉現(xiàn)實(shí)世界中處理的內(nèi)容??梢哉f,設(shè)計(jì)一個(gè)性能良好的數(shù)據(jù)庫并不是一項(xiàng)簡單的工作。由于到目前為止還沒有一個(gè)完善的數(shù)據(jù)庫設(shè)計(jì)方法和工具,因此在數(shù)據(jù)庫設(shè)計(jì)中,數(shù)據(jù)庫設(shè)計(jì)人員的知識和經(jīng)驗(yàn)是首要的。對于同一個(gè)應(yīng)用對象,同一個(gè)數(shù)據(jù)庫管理系統(tǒng),不同數(shù)據(jù)庫設(shè)計(jì)人員設(shè)計(jì)的數(shù)據(jù)庫其性能可能會有較大的差異。這就要求一方面用戶要盡可能地對數(shù)據(jù)庫系統(tǒng)的應(yīng)用提出明確的需求,另一方面數(shù)據(jù)庫設(shè)計(jì)人員要使用規(guī)范的數(shù)據(jù)庫設(shè)計(jì)方法和工具。2.?數(shù)據(jù)庫設(shè)計(jì)的方法和工具由于信息結(jié)構(gòu)的復(fù)雜性和應(yīng)用對象的多樣性,傳統(tǒng)的數(shù)據(jù)庫設(shè)計(jì)主要采用手工試湊法。隨著研究人員的不斷探索,軟件工程技術(shù)被用于進(jìn)行數(shù)據(jù)庫設(shè)計(jì),因此數(shù)據(jù)庫設(shè)計(jì)更加規(guī)范,逐漸從一種技能向一個(gè)工程技術(shù)方向轉(zhuǎn)變。由于采用了規(guī)范化設(shè)計(jì)方法設(shè)計(jì)數(shù)據(jù)庫,因此數(shù)據(jù)庫的運(yùn)行更加穩(wěn)定,同時(shí)降低了信息系統(tǒng)的維護(hù)成本。典型的數(shù)據(jù)庫設(shè)計(jì)方法如下:(1)?新奧爾良(NewOrleans)的4個(gè)階段方法。這種方法將數(shù)據(jù)庫設(shè)計(jì)分為需求分析(用戶要求分析)、概念設(shè)計(jì)(信息分析和定義)、邏輯設(shè)計(jì)(設(shè)計(jì)實(shí)現(xiàn))和物理設(shè)計(jì)(物理數(shù)據(jù)庫設(shè)計(jì))4個(gè)階段。(2)?S.B.Yao方法。S.B.Yao等人將數(shù)據(jù)庫設(shè)計(jì)分為需求分析、模式構(gòu)成、模式匯總、模式重構(gòu)、模式分析和物理數(shù)據(jù)庫設(shè)計(jì)6個(gè)步驟。(3)?L.R.Palmer方法。L.R.Palmer等人認(rèn)為數(shù)據(jù)庫設(shè)計(jì)應(yīng)該為一步接一步的過程,并采用一些輔助手段來實(shí)現(xiàn)。E-R圖、第三范式、抽象語言規(guī)范等數(shù)據(jù)庫設(shè)計(jì)方法是用于數(shù)據(jù)庫設(shè)計(jì)不同階段的具體技術(shù)和方法。數(shù)據(jù)庫設(shè)計(jì)方法的基本思想是過程迭代和逐步求精。目前,數(shù)據(jù)庫設(shè)計(jì)工具已經(jīng)有一批實(shí)用化產(chǎn)品。例如,OracleDesigner和PowerDesigner分別是Oracle公司和Sybase公司推出的數(shù)據(jù)庫設(shè)計(jì)工具。這些工具可以自動或輔助數(shù)據(jù)庫設(shè)計(jì)人員完成數(shù)據(jù)庫設(shè)計(jì)過程中的許多任務(wù)。目前,許多計(jì)算機(jī)輔助軟件工程(ComputerAidedSoftwareEngineering,CASE)工具使得數(shù)據(jù)庫設(shè)計(jì)和應(yīng)用可以同時(shí)進(jìn)行,被廣泛應(yīng)用于大型數(shù)據(jù)庫的設(shè)計(jì)。3.?數(shù)據(jù)庫設(shè)計(jì)的過程數(shù)據(jù)庫系統(tǒng)的開發(fā)過程包括數(shù)據(jù)庫系統(tǒng)設(shè)計(jì)階段、數(shù)據(jù)庫系統(tǒng)實(shí)施階段、數(shù)據(jù)庫系統(tǒng)使用階段。其中,數(shù)據(jù)庫系統(tǒng)設(shè)計(jì)階段的主要步驟包括需求分析、概念結(jié)構(gòu)設(shè)計(jì)、邏輯結(jié)構(gòu)設(shè)計(jì)和物理結(jié)構(gòu)設(shè)計(jì)。數(shù)據(jù)庫系統(tǒng)實(shí)施階段的主要步驟包括應(yīng)用程序設(shè)計(jì)與調(diào)試、系統(tǒng)性能測試與試運(yùn)行。數(shù)據(jù)庫系統(tǒng)使用階段的主要步驟包括數(shù)據(jù)庫系統(tǒng)運(yùn)行與維護(hù)、數(shù)據(jù)庫系統(tǒng)重構(gòu)。5.1.4數(shù)據(jù)倉庫在數(shù)據(jù)倉庫出現(xiàn)以前(1965—1990年),企業(yè)主要使用事務(wù)處理系統(tǒng),這個(gè)狀況持續(xù)了25年,人們將其稱為“遺留系統(tǒng)”環(huán)境。事務(wù)處理系統(tǒng)主要實(shí)現(xiàn)了數(shù)據(jù)的收集、數(shù)據(jù)的存儲、數(shù)據(jù)的在線存取。隨著時(shí)間的推移,企業(yè)數(shù)據(jù)庫中存儲了大量數(shù)據(jù),但是由于缺乏從海量數(shù)據(jù)中提取有價(jià)值知識的工具,因此管理者往往無法及時(shí)獲得重要的決策信息,數(shù)據(jù)庫變成了“數(shù)據(jù)豐富,信息貧乏”的“數(shù)據(jù)墳?zāi)埂?,于是產(chǎn)生了現(xiàn)在的數(shù)據(jù)倉庫技術(shù)。1.數(shù)據(jù)倉庫和數(shù)據(jù)倉庫系統(tǒng)的定義著名的數(shù)據(jù)倉庫專家W.H.Inmon在其著作《建立數(shù)據(jù)倉庫》(BuildingtheDataWarehouse)中對數(shù)據(jù)倉庫做了如下描述:“數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、隨時(shí)間變化的、相對穩(wěn)定的數(shù)據(jù)集合,用于支持管理決策?!痹摱x將數(shù)據(jù)倉庫與其他數(shù)據(jù)存儲系統(tǒng)(如關(guān)系數(shù)據(jù)庫系統(tǒng)和文件系統(tǒng))相區(qū)別。對于數(shù)據(jù)倉庫的概念,可以從兩個(gè)層次予以理解。首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是多個(gè)異構(gòu)的數(shù)據(jù)源的有效集成,集成后按照主題對其進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再進(jìn)行修改。根據(jù)Inmon提出的數(shù)據(jù)倉庫的概念,數(shù)據(jù)倉庫具有以下特性:(1)?面向主題:數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題進(jìn)行組織的。主題是一個(gè)抽象的概念,是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)事務(wù)型信息系統(tǒng)相關(guān)。企業(yè)數(shù)據(jù)倉庫常見的主題包括客戶、供應(yīng)商、產(chǎn)品和銷售等。(2)?集成:數(shù)據(jù)倉庫中的數(shù)據(jù)是對來自多個(gè)分散的、異構(gòu)的數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行抽取、清理,并對其進(jìn)行加工、匯總和整理而得到的。在這一過程中,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。(3)?隨時(shí)間變化:數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)地記錄了企業(yè)從過去某一時(shí)刻(如開始應(yīng)用數(shù)據(jù)倉庫的時(shí)刻)到目前各個(gè)階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來發(fā)展趨勢做出定量分析和預(yù)測。(4)?不可更新:數(shù)據(jù)倉庫中的數(shù)據(jù)主要供企業(yè)進(jìn)行決策分析使用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,某個(gè)數(shù)據(jù)一旦進(jìn)入數(shù)據(jù)倉庫,一般情況下將長期保留。也就是說,數(shù)據(jù)倉庫中有大量的查詢操作,但修改和刪除操作較少,一般只進(jìn)行定期的加載和刷新。一個(gè)完整的數(shù)據(jù)倉庫系統(tǒng)的定義是:數(shù)據(jù)倉庫系統(tǒng)=抽取/轉(zhuǎn)換/加載+數(shù)據(jù)倉庫+聯(lián)機(jī)分析處理+數(shù)據(jù)挖掘+決策支持。由該定義可以看出,數(shù)據(jù)倉庫系統(tǒng)涉及眾多關(guān)鍵技術(shù),包括數(shù)據(jù)預(yù)處理技術(shù)、數(shù)據(jù)倉庫建模技術(shù)、數(shù)據(jù)立方體技術(shù)、聯(lián)機(jī)分析處理技術(shù)、數(shù)據(jù)挖掘技術(shù)、決策支持技術(shù)等,合理使用這些關(guān)鍵技術(shù)是數(shù)據(jù)倉庫系統(tǒng)構(gòu)建成功的關(guān)鍵。2.數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉庫的建立可以看作構(gòu)造和使用數(shù)據(jù)倉庫的過程。構(gòu)造數(shù)據(jù)倉庫需要進(jìn)行數(shù)據(jù)集成、數(shù)據(jù)清理和數(shù)據(jù)統(tǒng)一。數(shù)據(jù)倉庫不是靜態(tài)的,它的任務(wù)是以企業(yè)現(xiàn)行業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ),將這些業(yè)務(wù)數(shù)據(jù)和信息加以整理、歸納和重組,并及時(shí)提供給相應(yīng)的管理者。因此,從企業(yè)角度看,建立數(shù)據(jù)倉庫既是一個(gè)過程,也是一項(xiàng)工程。數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)包含4個(gè)層次,如圖5.4所示。5.1.5聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘1.聯(lián)機(jī)分析處理技術(shù)的基本概念在線分析處理或聯(lián)機(jī)分析處理(OLAP)是一項(xiàng)廣泛應(yīng)用的數(shù)據(jù)倉庫應(yīng)用技術(shù)。數(shù)據(jù)倉庫中的信息資源要想被有效利用,就必須使用分析工具。聯(lián)機(jī)分析處理就是專門用于復(fù)雜決策分析的一種決策分析工具。它根據(jù)分析人員的要求,迅速、靈活地對大量數(shù)據(jù)進(jìn)行復(fù)雜的查詢處理,并且以直觀的、容易理解的形式呈現(xiàn)查詢結(jié)果,將其提供給決策人員,使其能夠迅速、準(zhǔn)確地掌握企業(yè)的運(yùn)營情況和市場的需求。聯(lián)機(jī)分析處理技術(shù)有兩個(gè)特點(diǎn):一是在線性(On-Line),表現(xiàn)為對用戶請求的快速響應(yīng)和交互式操作,它的實(shí)現(xiàn)是由客戶-服務(wù)器結(jié)構(gòu)完成的;二是采用多維數(shù)據(jù)庫進(jìn)行多維分析(MultidimensionalAnalysis),它是聯(lián)機(jī)分析處理技術(shù)的核心。聯(lián)機(jī)分析處理主要針對特定問題的聯(lián)機(jī)數(shù)據(jù)進(jìn)行查詢和分析。在查詢和分析匯總時(shí),系統(tǒng)首先要對原始數(shù)據(jù)按照用戶的要求進(jìn)行轉(zhuǎn)換處理,使這些數(shù)據(jù)真正反映用戶眼中問題的某個(gè)真實(shí)方面(“維”);然后以各種可能的方式對這些數(shù)據(jù)進(jìn)行快速、穩(wěn)定、一致和交互式的存取操作,并允許用戶按照需要對數(shù)據(jù)進(jìn)行深入的觀察。2.數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn),它是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的人們事先不知道、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘已被數(shù)據(jù)庫界廣泛研究,其中關(guān)聯(lián)規(guī)則的挖掘是一個(gè)重要的問題。數(shù)據(jù)挖掘使用了人工智能和傳統(tǒng)的統(tǒng)計(jì)學(xué)方法。它與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)表、聯(lián)機(jī)分析處理等)的本質(zhì)區(qū)別在于:數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識的。因此,數(shù)據(jù)挖掘得到的信息具有預(yù)先未知的、有效的和實(shí)用的3個(gè)特征。企業(yè)進(jìn)行數(shù)據(jù)挖掘,就是企業(yè)按照既定的業(yè)務(wù)目標(biāo)對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的過程。其中,未知的規(guī)律是指未曾被預(yù)料到的規(guī)律,數(shù)據(jù)挖掘就是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,有時(shí)可能是違背直覺的,甚至是出人意料的信息或知識。3.數(shù)據(jù)挖掘和數(shù)據(jù)倉庫大部分情況下,進(jìn)行數(shù)據(jù)挖掘前都要先把數(shù)據(jù)從數(shù)據(jù)倉庫中拿到數(shù)據(jù)挖掘庫或數(shù)據(jù)集市中。由于數(shù)據(jù)倉庫中的數(shù)據(jù)已被清理過,而且所有數(shù)據(jù)不一致的問題都已被解決了,因此對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行挖掘比較合適。但是,如果數(shù)據(jù)倉庫的計(jì)算資源很緊張,那么最好建立一個(gè)單獨(dú)的數(shù)據(jù)挖掘庫。數(shù)據(jù)挖掘庫可以是數(shù)據(jù)倉庫的一個(gè)邏輯上的子集,而不一定是物理上單獨(dú)的數(shù)據(jù)庫。4.數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘過程必須在一定的環(huán)境中進(jìn)行。數(shù)據(jù)挖掘環(huán)境如圖5.6所示。整個(gè)數(shù)據(jù)挖掘過程是交互的、與領(lǐng)域相關(guān)的,需要設(shè)計(jì)人員,特別是具有領(lǐng)域知識、經(jīng)驗(yàn)的專家參與,它并不是一個(gè)全自動化的過程。數(shù)據(jù)挖掘的基本過程如圖5.7所示。5.2通?信?與?網(wǎng)?絡(luò)5.2.1計(jì)算機(jī)網(wǎng)絡(luò)1.計(jì)算機(jī)網(wǎng)絡(luò)的概念計(jì)算機(jī)網(wǎng)絡(luò)是利用通信設(shè)備和通信介質(zhì)將地理位置分散的、具有獨(dú)立功能的多臺計(jì)算機(jī)連接起來,按照協(xié)議進(jìn)行數(shù)據(jù)通信,以實(shí)現(xiàn)信息傳遞和資源共享的系統(tǒng)。網(wǎng)絡(luò)按照其物理范圍可以分為局域網(wǎng)、城域網(wǎng)和廣域網(wǎng)。局域網(wǎng)的范圍在幾公里以內(nèi),一般企業(yè)的內(nèi)部網(wǎng)、校園網(wǎng)等都是典型的局域網(wǎng)。城域網(wǎng)是指一座城市的主干網(wǎng),范圍可達(dá)幾十公里,用于連接政府機(jī)構(gòu)、教育科研單位、企事業(yè)等單位內(nèi)部的局域網(wǎng),實(shí)現(xiàn)網(wǎng)絡(luò)間的通信。廣域網(wǎng)所覆蓋的范圍從幾十公里到幾千公里,用來實(shí)現(xiàn)不同地區(qū)的局域網(wǎng)或城域網(wǎng)的互聯(lián),可以提供不同地區(qū)、城市和國家計(jì)算機(jī)之間的通信。要實(shí)現(xiàn)通信,離不開通信介質(zhì)。通信介質(zhì)可以分為有線和無線兩大類。有線介質(zhì)包括雙絞線、同軸電纜和光纖。其中,雙絞線和同軸電纜為金屬導(dǎo)體,利用導(dǎo)線電流傳輸數(shù)據(jù);光纖則通過光波實(shí)現(xiàn)數(shù)據(jù)傳送。衛(wèi)星通信、紅外通信、激光通信以及微波通信屬于無線通信范疇,它們利用電磁波傳輸數(shù)據(jù)。2.計(jì)算機(jī)網(wǎng)絡(luò)的功能計(jì)算機(jī)網(wǎng)絡(luò)的功能包括支持?jǐn)?shù)據(jù)通信、實(shí)現(xiàn)資源共享、增加可靠性、提高系統(tǒng)處理能力等。1)?支持?jǐn)?shù)據(jù)通信現(xiàn)代社會信息量激增,信息交互也日益增多,早期每年有幾萬噸郵政信件要傳遞,利用計(jì)算機(jī)網(wǎng)絡(luò)傳遞信件是當(dāng)前流行的傳遞方式。電子郵件比傳統(tǒng)的通信工具有更多的優(yōu)點(diǎn),它不像電話需要通話者同時(shí)在場,也不像廣播系統(tǒng)只是單方向傳遞信息,在速度上比傳統(tǒng)郵件快得多。另外,電子郵件還可以攜帶聲音、圖像和視頻,實(shí)現(xiàn)多媒體通信。即時(shí)通信也越來越受到人們,特別是年輕人的喜愛。QQ和微信是目前較流行的聊天工具,可以實(shí)時(shí)地在通信雙方之間傳遞文字、聲音甚至視頻信息。2)?實(shí)現(xiàn)資源共享在計(jì)算機(jī)網(wǎng)絡(luò)中,有許多重要的資源,如大型數(shù)據(jù)庫、巨型計(jì)算機(jī)等,為了充分利用這些資源,應(yīng)該進(jìn)行資源共享。資源共享包括硬件資源的共享,也包括軟件資源的共享。資源共享的結(jié)果是避免重復(fù)投資和勞動,從而提高資源的利用率,使系統(tǒng)的整體性能價(jià)格比得到改善?,F(xiàn)代管理信息系統(tǒng)以數(shù)據(jù)庫為核心,數(shù)據(jù)庫中存放了企業(yè)的各種數(shù)據(jù),這些數(shù)據(jù)是企業(yè)的寶貴資源。利用計(jì)算機(jī)網(wǎng)絡(luò),這些數(shù)據(jù)資源可以很方便地傳遞到需要它的用戶手里。3)?增加可靠性在一個(gè)系統(tǒng)內(nèi),單個(gè)部件或單臺計(jì)算機(jī)的暫時(shí)失效必須通過替換資源的辦法來維持系統(tǒng)的繼續(xù)運(yùn)行。在計(jì)算機(jī)網(wǎng)絡(luò)中,各種資源(尤其是程序和數(shù)據(jù))可以存放在多臺計(jì)算機(jī)中,一旦一臺計(jì)算機(jī)出現(xiàn)故障,就可以將任務(wù)交由網(wǎng)絡(luò)中的其他計(jì)算機(jī)完成,不會出現(xiàn)單機(jī)在無后備的情況下產(chǎn)生故障使全系統(tǒng)癱瘓的現(xiàn)象,從而提高了全系統(tǒng)提供服務(wù)的可靠性。4)?提高系統(tǒng)處理能力單機(jī)的處理能力是有限的,而且由于種種原因(如時(shí)差),計(jì)算機(jī)之間的忙閑程度是不均勻的。當(dāng)一臺機(jī)器不能完成處理任務(wù)時(shí),可以按照一定的算法將任務(wù)交給不同的計(jì)算機(jī)分工協(xié)作完成,達(dá)到均衡地使用網(wǎng)絡(luò)資源進(jìn)行分布式處理的目的。利用網(wǎng)絡(luò)技術(shù),能夠?qū)⒍嗯_計(jì)算機(jī)聯(lián)成高性能的計(jì)算機(jī)系統(tǒng),使用這種系統(tǒng)解決大型復(fù)雜的問題,其費(fèi)用比采用高性能的大中型計(jì)算機(jī)低得多,甚至能夠解決連超級計(jì)算機(jī)也解決不了的問題。目前,即時(shí)通信和電子郵件已成為人們重要的通信手段。視頻點(diǎn)播、網(wǎng)絡(luò)游戲、博客、微博、微信、社交網(wǎng)絡(luò)、網(wǎng)絡(luò)社區(qū)以及電子商務(wù)正逐漸走入普通百姓的生活、學(xué)習(xí)和工作當(dāng)中。在未來,誰擁有“信息資源”,誰能有效使用“信息資源”,誰就能在各種競爭中占據(jù)主導(dǎo)地位。計(jì)算機(jī)網(wǎng)絡(luò)作為信息收集、存儲、傳輸、處理和利用的整體系統(tǒng),將在信息社會中得到更加廣泛的應(yīng)用。隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,各種網(wǎng)絡(luò)應(yīng)用層出不窮,并將逐漸深入社會的各個(gè)領(lǐng)域及人們的日常生活,改變著人們的工作、學(xué)習(xí)和生活乃至思維方式。3.網(wǎng)絡(luò)體系結(jié)構(gòu)由于計(jì)算機(jī)網(wǎng)絡(luò)很復(fù)雜,設(shè)計(jì)的軟件和硬件技術(shù)很多,由此應(yīng)該將其分層設(shè)計(jì)實(shí)現(xiàn)。計(jì)算機(jī)網(wǎng)絡(luò)各層及其協(xié)議的集合稱為網(wǎng)絡(luò)體系結(jié)構(gòu)。網(wǎng)絡(luò)體系結(jié)構(gòu)一般用模型來表達(dá)。1)?OSI模型在20世紀(jì)80年代早期,國際標(biāo)準(zhǔn)化組織(ISO)即開始致力于制定一套普遍適用的規(guī)范集合,以使得全球范圍的計(jì)算機(jī)平臺可以進(jìn)行開放式通信。國際標(biāo)準(zhǔn)化組織創(chuàng)建了一個(gè)有助于開發(fā)和理解計(jì)算機(jī)的通信模型,即開放系統(tǒng)互聯(lián)(OpenSystemsInterconnection,OSI)模型。OSI模型將網(wǎng)絡(luò)體系結(jié)構(gòu)劃分為七層:物理層、數(shù)據(jù)鏈路層、網(wǎng)絡(luò)層、傳輸層、會話層、表示層和應(yīng)用層,如圖5.8所示。OSI模型各層的主要功能如表5.2所示。2)?TCP/IP模型TCP/IP模型是由傳輸控制協(xié)議/互聯(lián)網(wǎng)協(xié)議(TransmissionControlProtocol/InternetProtocol,TCP/IP)及各協(xié)議之間的關(guān)系來描述的。通過TCP/IP,不同操作系統(tǒng)、不同架構(gòu)的多種物理網(wǎng)絡(luò)之間均可進(jìn)行通信。TCP/IP協(xié)議族的層次與OSI模型的層次并不大嚴(yán)格對應(yīng)。TCP/IP模型是四層結(jié)構(gòu),圖5.9描述了TCP/IP模型和OSI模型之間大體上的對應(yīng)關(guān)系。TCP/IP在網(wǎng)絡(luò)接口層并沒有定義具體的協(xié)議,它可以利用其他網(wǎng)絡(luò)所定義的底層協(xié)議。網(wǎng)際層對應(yīng)OSI模型的網(wǎng)絡(luò)層,主要通過IP來處理數(shù)據(jù)分組。傳輸層與OSI模型的傳輸層功能相同,提供了兩個(gè)傳輸層協(xié)議:可靠的面向連接的傳輸控制協(xié)議(TCP)和無線連接的用戶數(shù)據(jù)報(bào)協(xié)議(UDP)。應(yīng)用層包括所有高層協(xié)議。在TCP/IP模型中,IP是其核心,所有的數(shù)據(jù)傳輸都是通過IP完成的。IP是一個(gè)分組交換協(xié)議。IP只負(fù)責(zé)將數(shù)據(jù)分組傳送到目的主機(jī),無論傳輸正確與否,不做驗(yàn)證,不發(fā)確認(rèn),也不保證數(shù)據(jù)分組的到達(dá)順序,而這些問題是由傳輸層的TCP來解決的。TCP為應(yīng)用層提供了可靠的、無差錯(cuò)的通信服務(wù)。在數(shù)據(jù)分組到達(dá)目的地址后,TCP檢查數(shù)據(jù)分組在傳輸過程中是否有錯(cuò)誤,如果接收端發(fā)現(xiàn)有損壞的數(shù)據(jù)分組,就要求發(fā)送端重新發(fā)送被損壞的數(shù)據(jù)分組,確認(rèn)無誤后再將數(shù)據(jù)分組重新組合成完整的報(bào)文。5.2.2計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)1.?InternetInternet即在TCP/IP協(xié)議下實(shí)現(xiàn)的全球性的互聯(lián)網(wǎng)絡(luò)。Internet可以連接各種各樣的計(jì)算機(jī)系統(tǒng)和計(jì)算機(jī)網(wǎng)絡(luò),不論是微型的計(jì)算機(jī)還是大/中型計(jì)算機(jī),不論是局域網(wǎng)還是廣域網(wǎng),不管它們在世界上任何地方,只要遵循TCP/IP協(xié)議,就可以連入Internet。Internet提供了豐富的、瞬息萬變的信息資源,成為人們獲取信息的一種方便、快捷、有效的手段,可是說是信息社會的重要支柱。2.?IntranetIntranet(企業(yè)內(nèi)聯(lián)網(wǎng))是把Internet技術(shù)應(yīng)用到企業(yè)內(nèi)部建立的基于開放技術(shù)的新型網(wǎng)絡(luò)體系結(jié)構(gòu),可以說是組織內(nèi)部的Internet。Intranet采用瀏覽器/服務(wù)器(Browser/Server,B/S)系統(tǒng)結(jié)構(gòu)。這種結(jié)構(gòu)實(shí)質(zhì)上是C/S結(jié)構(gòu)在新的技術(shù)條件下的延伸。在傳統(tǒng)的C/S結(jié)構(gòu)中,Server僅作為數(shù)據(jù)庫服務(wù)器,進(jìn)行數(shù)據(jù)的管理,大量的應(yīng)用程序都在客戶端進(jìn)行。這樣,每個(gè)客戶都必須安裝應(yīng)用程序和工具,因而,客戶端很復(fù)雜,系統(tǒng)的靈活性、可擴(kuò)展性都受到很大的影響。在Intranet結(jié)構(gòu)下,C/S結(jié)構(gòu)自然延伸為三層或多層結(jié)構(gòu),形成B/S應(yīng)用模式。在這種方式下,Web服務(wù)器既是瀏覽服務(wù)器,又是應(yīng)用服務(wù)器,可以運(yùn)行大量的應(yīng)用程序,從而使客戶端變得很簡單。3.?虛擬專網(wǎng)(VirtualPrivateNetworks,VPN)如果一家企業(yè)是分布式的,外地員工需要像通過局域網(wǎng)一樣訪問企業(yè)內(nèi)部數(shù)據(jù),在過去,只能通過調(diào)制解調(diào)器或遠(yuǎn)程訪問服務(wù)器訪問局域網(wǎng)內(nèi)部數(shù)據(jù)。這種方式不僅價(jià)格昂貴,而且傳輸速度慢。虛擬專網(wǎng)采用加密、認(rèn)證和通道技術(shù),提供了Internet上兩點(diǎn)間的安全通信。這樣,對采用Internet技術(shù)的企業(yè)而言,好像有了一個(gè)專用的廣域網(wǎng)一樣。由于虛擬專網(wǎng)是在Internet的點(diǎn)對點(diǎn)通信,不僅適合于移動或者遠(yuǎn)程用戶,而且適用于分公司和總公司之間以及企業(yè)與供應(yīng)商、分銷商之間的通信等,從而構(gòu)成了安全的Extranet。在虛擬專網(wǎng)中,采用了協(xié)議通道技術(shù),數(shù)據(jù)包首先被加密,然后封裝到IP包中并通過Internet傳輸,在目的端由特定的主機(jī)或路由器解密。4.?ExtranetExtranet即擴(kuò)展的Intranet(ExtendedIntranet),它通過Internet把分散在不同地理位置的Intranet聯(lián)系起來。Internet不能提供數(shù)據(jù)傳輸過程的安全性,而采用Extranet進(jìn)行遠(yuǎn)程系統(tǒng)通信時(shí),可利用通道技術(shù)提高通信兩端的安全性級別。Extranet通過虛擬專用網(wǎng)絡(luò)方式使企業(yè)與其他企業(yè)或客戶聯(lián)系起來,完成共同目標(biāo)的合作網(wǎng)絡(luò)。Extranet既不像Internet那樣提供公共服務(wù),也不像Intranet那樣僅僅提供對內(nèi)服務(wù),它可以有選擇地向公眾開放其服務(wù)或向有選擇的合作者開發(fā)其服務(wù),為電子商務(wù)或其他商業(yè)應(yīng)用提供安全廣域網(wǎng)平臺。通常情況下,Extranet只是Intranet和Internet基礎(chǔ)設(shè)施上的邏輯覆蓋,而不是物理網(wǎng)絡(luò)的重構(gòu)。5.3大數(shù)據(jù)和云計(jì)算5.3.1大數(shù)據(jù)1.?大數(shù)據(jù)的概念大數(shù)據(jù)不是一個(gè)確切的概念,根據(jù)維基百科的定義,大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)的產(chǎn)生是計(jì)算機(jī)和網(wǎng)絡(luò)通信技術(shù)廣泛應(yīng)用的結(jié)果,而互聯(lián)網(wǎng)、云計(jì)算、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等新一代信息技術(shù)的發(fā)展,對大數(shù)據(jù)的產(chǎn)生起到了催化劑的作用,由此帶來了四大變化:一是數(shù)據(jù)由企業(yè)內(nèi)部向企業(yè)外部擴(kuò)展;二是數(shù)據(jù)由Web1.0向Web2.0擴(kuò)展;三是數(shù)據(jù)由互聯(lián)網(wǎng)向移動互聯(lián)網(wǎng)擴(kuò)展;四是數(shù)據(jù)由計(jì)算機(jī)/互聯(lián)網(wǎng)向物聯(lián)網(wǎng)擴(kuò)展。這四個(gè)變化,讓數(shù)據(jù)產(chǎn)生的源頭數(shù)量成倍地增加,數(shù)據(jù)量也大幅度地增長。大數(shù)據(jù)不只是數(shù)據(jù)規(guī)模大,更由于其多樣性、非結(jié)構(gòu)化特征明顯導(dǎo)致數(shù)據(jù)存儲、處理和挖掘異常困難。業(yè)界通常用4個(gè)V,即數(shù)據(jù)體量巨大(Volume)、數(shù)據(jù)類型繁多(Variety)、數(shù)據(jù)流動快(Velocity)、價(jià)值密度低(Value)來概括大數(shù)據(jù)的特征。2.?大數(shù)據(jù)分析的特征與傳統(tǒng)的數(shù)據(jù)分析方法相比,大數(shù)據(jù)時(shí)代數(shù)據(jù)分析的轉(zhuǎn)變可以用更多、更雜、更好三個(gè)特征來描述。(1)?更多:不是隨機(jī)樣本,而是全體數(shù)據(jù)。(2)?更雜:不是精確性,而是混雜性。(3)?更好:不是因果關(guān)系,而是相關(guān)關(guān)系。3.?大數(shù)據(jù)處理的總體架構(gòu)與關(guān)鍵技術(shù)大數(shù)據(jù)應(yīng)用需要一個(gè)統(tǒng)一的平臺,使得用戶能夠在統(tǒng)一的平臺上對不同類型的數(shù)據(jù)進(jìn)行處理和存儲,集成各種工具和服務(wù)來管理異構(gòu)存儲環(huán)境下的各類數(shù)據(jù),并建立一個(gè)實(shí)時(shí)預(yù)測分析解決方案,整合結(jié)構(gòu)化的數(shù)據(jù)倉庫和非結(jié)構(gòu)化的分析工具。在這個(gè)大數(shù)據(jù)平臺上,用戶可以在任何時(shí)間、任何地點(diǎn)通過任何設(shè)備進(jìn)行大數(shù)據(jù)的集中共享和協(xié)同訪問。1)?大數(shù)據(jù)平臺Hadoop的總體架構(gòu)大數(shù)據(jù)的產(chǎn)生、組織和處理主要通過分布式文件處理系統(tǒng)來實(shí)現(xiàn),其主流的技術(shù)是Hadoop+MapReduce。Apache基金會發(fā)布了基于開源技術(shù)的大數(shù)據(jù)平臺Hadoop的總體架構(gòu),如圖5.11所示。2)?大數(shù)據(jù)存儲結(jié)構(gòu)HDFS即Hadoop分布式文件系統(tǒng)(HadoopDistributedSystem),前身為Google文件系統(tǒng)(GoogleFileSystem,GFS),運(yùn)行于大規(guī)模集群之上,集群由廉價(jià)的普通計(jì)算機(jī)構(gòu)成。整個(gè)文件系統(tǒng)采用的是元數(shù)據(jù)集中管理與數(shù)據(jù)塊分散存儲相結(jié)合的模式,并通過數(shù)據(jù)復(fù)制來實(shí)現(xiàn)高度容錯(cuò)。HBase即Hadoop數(shù)據(jù)庫,是GoogleBigtable的開源實(shí)現(xiàn)。HBase建立在HDFS之上,提供高可靠性、高性能、列存儲、可伸縮、實(shí)時(shí)讀寫的分布式非關(guān)系型(NotOnlySQL,NoSQL)數(shù)據(jù)庫系統(tǒng)。3)?大數(shù)據(jù)處理框架MapReduce是一個(gè)分布式計(jì)算軟件框架?;贛apReduce編寫的應(yīng)用程序能夠運(yùn)行在由普通計(jì)算機(jī)組成的大規(guī)模集群之上,并以一種可靠、容錯(cuò)的方式并行處理TB級以上的數(shù)據(jù)集,特別適合用于海量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合處理。MapReduce采用先分后合的數(shù)據(jù)處理方式。Map即“分解”,把海量數(shù)據(jù)分割成了若干部分,分給多臺處理器并行處理;Reduce即“合并”,對各臺處理器處理后的結(jié)果進(jìn)行匯總操作以得到最終結(jié)果。4)?大數(shù)據(jù)訪問框架大數(shù)據(jù)訪問框架實(shí)現(xiàn)了對傳統(tǒng)關(guān)系數(shù)據(jù)庫和Hadoop的訪問,其主流技術(shù)包括Mahout、Pig、Hive、Sqoop等。Mahout:一個(gè)很強(qiáng)大的數(shù)據(jù)挖掘工具,是一個(gè)分布式機(jī)器學(xué)習(xí)算法的集合。Mahout最大的優(yōu)點(diǎn)就是基于Hadoop實(shí)現(xiàn),把很多以前運(yùn)行于單機(jī)上的算法,轉(zhuǎn)化為了MapReduce模式,這樣大大提升了算法可處理的數(shù)據(jù)量和處理性能。Pig:基于Hadoop的數(shù)據(jù)流處理語言,可以將類SQL的數(shù)據(jù)分析請求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的MapReduce運(yùn)算。Hive:一個(gè)數(shù)據(jù)倉庫工具,是MapReduce實(shí)現(xiàn)的用來查詢和分析結(jié)構(gòu)化數(shù)據(jù)的中間件。Hive的類SQL查詢語言可以查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)。Sqoop:用于在Hadoop與傳統(tǒng)的數(shù)據(jù)庫間進(jìn)行數(shù)據(jù)的傳遞,它可以將一個(gè)關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入Hadoop的HDFS,也可以將HDFS的數(shù)據(jù)導(dǎo)入關(guān)系數(shù)據(jù)庫。5)?大數(shù)據(jù)服務(wù)框架大數(shù)據(jù)訪問框架之上是大數(shù)據(jù)服務(wù)框架,用于實(shí)現(xiàn)對大數(shù)據(jù)的組織和調(diào)度,為大數(shù)據(jù)分析做準(zhǔn)備,其主流技術(shù)包括Zookeeper、Flume等。Zookeeper:主要用來解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問題,如統(tǒng)一命名服務(wù)、狀態(tài)同步服務(wù)、集群管理、分布式應(yīng)用配置項(xiàng)的管理等。Flume:一個(gè)分布式、高可靠、高可用的海量日志采集、聚合和傳輸?shù)南到y(tǒng),支持在系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);對數(shù)據(jù)可進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接收方。5.3.2網(wǎng)絡(luò)計(jì)算隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展以及全球經(jīng)濟(jì)模式的變化,網(wǎng)絡(luò)計(jì)算模型也在不斷發(fā)展。所謂網(wǎng)絡(luò)計(jì)算,是指網(wǎng)絡(luò)上的多臺計(jì)算機(jī)協(xié)同處理一個(gè)復(fù)雜的計(jì)算任務(wù),每臺計(jì)算機(jī)負(fù)責(zé)一部分,這樣可以大大提高運(yùn)算效率。從集中式計(jì)算到分布式計(jì)算,再到移動計(jì)算和普適計(jì)算,每種計(jì)算模型都各有特點(diǎn)。企業(yè)信息系統(tǒng)的應(yīng)用結(jié)構(gòu)也隨著計(jì)算模型的變化而變化。1.?集中式計(jì)算集中式計(jì)算誕生于早期的大型機(jī)時(shí)代,當(dāng)時(shí)計(jì)算機(jī)龐大而昂貴,一個(gè)組織機(jī)構(gòu)不可能為每個(gè)用戶單獨(dú)提供整臺計(jì)算機(jī),主機(jī)必然是共享的,所有用戶都是通過系統(tǒng)的終端設(shè)備(啞終端)使用主機(jī)的資源。終端設(shè)備僅僅是一個(gè)輸入輸出接口設(shè)備,沒有任何處理和存儲能力。主機(jī)應(yīng)用程序既負(fù)責(zé)與用戶的交互,又負(fù)責(zé)對數(shù)據(jù)的管理。這種計(jì)算機(jī)模式又稱為主機(jī)/終端模式。由于物流設(shè)備的限制,采用這種計(jì)算模式的所有計(jì)算數(shù)據(jù)和程序都只能位于主機(jī)系統(tǒng)上,從而形成典型的“集中存儲、集中計(jì)算”模式。集中式系統(tǒng)是以主機(jī)為中心的計(jì)算環(huán)境,數(shù)據(jù)管理、事務(wù)處理高度集中,初始成本高。這種模式下的信息系統(tǒng)維護(hù)與升級只涉及主機(jī),管理成本低。一般來說,集中式計(jì)算可靠、高效、安全,管理也方便。但隨著用戶的增多,對主機(jī)處理能力的要求越來越高,一旦原有主機(jī)不能滿足需要,企業(yè)要投入高昂的成本進(jìn)行主機(jī)的升級或替換。同時(shí)各主機(jī)平臺之間的差異越大,不同主機(jī)之間的資源共享和互操越困難。該模型適用于大規(guī)模集中式應(yīng)用,如科學(xué)與工程計(jì)算和集中式事務(wù)數(shù)據(jù)處理。2.?分布式計(jì)算20世紀(jì)80年代以后,隨著微型計(jì)算機(jī)技術(shù)和局域網(wǎng)的興起,計(jì)算機(jī)應(yīng)用領(lǐng)域被大大拓寬。桌面辦公應(yīng)用和數(shù)據(jù)庫技術(shù)的大力發(fā)展,使協(xié)同計(jì)算和分布式計(jì)算的理念得以迅速推廣。分布式計(jì)算又可以分為幾種不同的計(jì)算模型。1)?客戶-服務(wù)器模型隨著客戶-服務(wù)器計(jì)算模型的出現(xiàn),人們找到了解決異構(gòu)平臺之間資源共享的最佳方法,用戶可以選擇適合自己需要的客戶端、操作系統(tǒng)和應(yīng)用程序。基于客戶-服務(wù)器結(jié)構(gòu)的分布式計(jì)算逐漸成為企業(yè)應(yīng)用平臺的主流計(jì)算模型,其結(jié)構(gòu)如圖5.12所示。2)?瀏覽器-服務(wù)器模型為了解決傳統(tǒng)兩層結(jié)構(gòu)客戶-服務(wù)器模型中的固有問題,出現(xiàn)了三層客戶-服務(wù)器模型,即客戶-應(yīng)用服務(wù)器-數(shù)據(jù)庫服務(wù)器模型。在這種三層結(jié)構(gòu)中,客戶端應(yīng)用程序只完成基本的顯示、輸入和輸出;應(yīng)用邏輯在中間的應(yīng)用服務(wù)器上進(jìn)行處理,應(yīng)用服務(wù)器接收客戶端的請求,根據(jù)應(yīng)用邏輯將該請求轉(zhuǎn)化為數(shù)據(jù)庫請求與數(shù)據(jù)庫服務(wù)器進(jìn)行交互,并將交互結(jié)果返回給客戶端;而數(shù)據(jù)則放在后端的數(shù)據(jù)庫服務(wù)器上。其模型如圖5.13所示。3)?P2P計(jì)算模型P2P是在Internet上實(shí)施網(wǎng)絡(luò)計(jì)算的新模型。在這種模型下,服務(wù)器與客戶端的界限消失了,網(wǎng)絡(luò)上所有的節(jié)點(diǎn)都可以“平等”共享其他節(jié)點(diǎn)的計(jì)算資源。系統(tǒng)中的成員同時(shí)扮演服務(wù)器與客戶端的角色,網(wǎng)絡(luò)應(yīng)用的核心從中央服務(wù)器向網(wǎng)絡(luò)邊緣的終端設(shè)備擴(kuò)散。在這個(gè)分布式系統(tǒng)中,各個(gè)節(jié)點(diǎn)是邏輯對等的,節(jié)點(diǎn)之間可以直接進(jìn)行數(shù)據(jù)通信而不必通過中間的服務(wù)器,每個(gè)節(jié)點(diǎn)都可以請求服務(wù)(客戶端的特性),也可以提供服務(wù)(服務(wù)器的特性)。在P2P網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)都為網(wǎng)絡(luò)提供了一些資源,當(dāng)越來越多的節(jié)點(diǎn)加入網(wǎng)絡(luò)時(shí),網(wǎng)絡(luò)的性能就會增強(qiáng)。因此,當(dāng)網(wǎng)絡(luò)增大時(shí),它的性能也會增強(qiáng),這是與客戶-服務(wù)器計(jì)算模型的不同之處。在客戶-服務(wù)器網(wǎng)絡(luò)中,當(dāng)網(wǎng)絡(luò)增大(即越來越多的客戶端加入)時(shí),中央服務(wù)器的壓力就會增大,最后有可能會導(dǎo)致服務(wù)器癱瘓。P2P計(jì)算模型帶來的一個(gè)重要變化是改變了“內(nèi)容”所在的位置,內(nèi)容從“中心”走向“邊緣”。也就是說,內(nèi)容將不是存放在幾個(gè)主要的服務(wù)器上,而是存放在所有用戶的個(gè)人計(jì)算機(jī)上。除了幫助優(yōu)化網(wǎng)絡(luò)性能之外,P2P計(jì)算模型還可以用來消除由于單點(diǎn)故障而影響全局的危險(xiǎn)。在企業(yè)應(yīng)用方面,可以利用客戶端之間的分布式服務(wù)代替一些費(fèi)用高昂的數(shù)據(jù)中心功能,在客戶端上實(shí)現(xiàn)數(shù)據(jù)的備份和存儲。3.?移動計(jì)算移動計(jì)算是隨著移動通信、互聯(lián)網(wǎng)、數(shù)據(jù)庫、分布式計(jì)算等技術(shù)的發(fā)展而興起的新技術(shù)。移動計(jì)算是移動終端和無線網(wǎng)絡(luò)的結(jié)合。移動終端具有多樣性,如筆記本電腦、平板電腦、智能手機(jī),以及可穿戴式設(shè)備,如智能手表、手環(huán)、眼鏡等。大部分移動計(jì)算是通過移動網(wǎng)絡(luò)進(jìn)行的。除了消除時(shí)間和空間的限制,實(shí)現(xiàn)隨時(shí)隨地的通信之外,移動計(jì)算還可以實(shí)現(xiàn)產(chǎn)品和服務(wù)的可定位性。了解用戶在任何時(shí)刻的位置是為其提供相關(guān)產(chǎn)品和服務(wù)的關(guān)鍵?;诋a(chǎn)品及服務(wù)的位置而實(shí)現(xiàn)的電子商務(wù)應(yīng)用,被稱為定位電子商務(wù)。全球定位系統(tǒng)(GlobalPositioningSystem,GPS)可以將各種精確的定位信息傳遞到用戶持有的無線設(shè)備上。例如,可以利用移動設(shè)備來尋找距離最近的電影院、餐館或停車場。同時(shí)GPS還能夠?qū)⒂脩舻奈恢酶嬷?。定位服?wù)可以針對全體人員,如購物中心內(nèi)所有的顧客;也可以針對特定的目標(biāo),如依據(jù)用戶所處的不同位置及不同喜好提供不同的信息,將定位服務(wù)和個(gè)性化服務(wù)結(jié)合起來。4.?普適計(jì)算普適計(jì)算,又稱普存計(jì)算、普及計(jì)算、遍布式計(jì)算、泛在計(jì)算,是一個(gè)強(qiáng)調(diào)和環(huán)境融為一體的計(jì)算概念,而計(jì)算機(jī)本身則從人們的視線里消失。在普適計(jì)算的模式下,人們能夠在任何時(shí)間、任何地點(diǎn)、以任何方式進(jìn)行信息的獲取與處理。普適計(jì)算的含義十分廣泛,所涉及的技術(shù)包括移動通信技術(shù)、小型計(jì)算設(shè)備制造技術(shù)、小型計(jì)算設(shè)備上的操作系統(tǒng)技術(shù)及軟件技術(shù)等。在信息時(shí)代,普適計(jì)算可以降低設(shè)備使用的復(fù)雜程度,使人們的生活更輕松、更有效率。實(shí)際上,普適計(jì)算是網(wǎng)絡(luò)計(jì)算的自然延伸,它使得不僅個(gè)人電腦,而且其他小巧的智能設(shè)備也可以連接到網(wǎng)絡(luò)中,從而方便人們即時(shí)地獲得信息并采取行動??茖W(xué)家認(rèn)為,普適計(jì)算是一種狀態(tài),在這種狀態(tài)下,iPad等移動設(shè)備、谷歌文檔或遠(yuǎn)程游戲技術(shù)Online等云計(jì)算應(yīng)用程序、4G或廣域Wi-Fi等高速無線網(wǎng)絡(luò)將整合在一起,清除“計(jì)算機(jī)”作為獲取數(shù)字服務(wù)的中央媒介的地位。隨著每輛汽車、每臺照相機(jī)、每臺電腦、每塊手表以及每個(gè)電視屏幕都擁有幾乎無限的計(jì)算能力,計(jì)算機(jī)將徹底退居到“幕后”以至于用戶感覺不到它們的存在。5.3.3云計(jì)算1.?云計(jì)算的概念云計(jì)算的定義有很多種,被業(yè)界廣泛接受的是美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)所給出的定義:“云計(jì)算是一種模型,它可以隨時(shí)隨地、便捷地、隨需應(yīng)變地訪問可配置計(jì)算資源共享池中的資源(如網(wǎng)絡(luò)、服務(wù)器、存儲、應(yīng)用和服務(wù)),只需與最小的資源管理工作或服務(wù)提供商進(jìn)行交互,這些資源就能夠被迅速供應(yīng)和釋放?!痹诋?dāng)今充滿競爭的環(huán)境中,組織在提高效率和轉(zhuǎn)變IT流程以達(dá)到事半功倍的效果方面的壓力越來越大。企業(yè)需要縮短產(chǎn)品上市時(shí)間,需要更大的靈活性、更高的可用性,并降低成本來滿足不斷變化的業(yè)務(wù)需求以及加快創(chuàng)新的步伐。這些業(yè)務(wù)需求使IT團(tuán)隊(duì)面臨許多挑戰(zhàn)。一些主要挑戰(zhàn)是連續(xù)向世界各地的客戶提供服務(wù),快速更新技術(shù)和更快地調(diào)配IT資源,并在實(shí)現(xiàn)所有這一切的同時(shí)降低成本。隨著云計(jì)算這種新計(jì)算模式的出現(xiàn),這些長期挑戰(zhàn)得到了解決,通過云計(jì)算,組織和個(gè)人能夠以服務(wù)的形式獲取和調(diào)配IT資源。云計(jì)算的優(yōu)點(diǎn)主要有:(1)?降低了IT成本:用戶可根據(jù)按使用付費(fèi)或按訂閱價(jià)格購買云服務(wù),從而減少或消除了用戶的IT資金開支。(2)?業(yè)務(wù)靈活性:云計(jì)算可提供快速分配和擴(kuò)展計(jì)算容量的能力。云計(jì)算可將調(diào)配和部署新應(yīng)用程序和服務(wù)所需的時(shí)間從數(shù)月減少到數(shù)分鐘,使得企業(yè)能夠更快地對市場變化做出響應(yīng),并縮短產(chǎn)品上市時(shí)間。(3)?靈活擴(kuò)展:云計(jì)算使用戶能夠輕松增加、減少計(jì)算資源需求。用戶可單向和自動地?cái)U(kuò)展計(jì)算資源,而無須與云服務(wù)提供商進(jìn)行交互。云計(jì)算靈活的服務(wù)調(diào)配功能通??上蛟品?wù)用戶提供一種無限可擴(kuò)展的體驗(yàn)。(4)?高可用性:云計(jì)算能夠確保不同級別的資源都具有可用性,具體取決于用戶的策略和優(yōu)先級。冗余基礎(chǔ)架構(gòu)組件(服務(wù)器、網(wǎng)絡(luò)路徑和存儲設(shè)備以及群集軟件)支持云部署的容錯(cuò)功能。這些技術(shù)可覆蓋位于不同地理區(qū)域的多個(gè)數(shù)據(jù)中心,從而避免由于區(qū)域故障而引起的數(shù)據(jù)不可用情況。因此,對于企業(yè)用戶而言,云計(jì)算幫助他們降低了初始投資,需要時(shí)購買,不需要時(shí)就退購。云計(jì)算幫助企業(yè)解決了信息化基礎(chǔ)設(shè)施構(gòu)建問題,因此對于許多對成本比較敏感的中小企業(yè)而言具有極大的價(jià)值。云計(jì)算模型由三種交付模式、四種部署模型、五個(gè)基本特性構(gòu)成。2.?云交付模式云交付模式是云計(jì)算服務(wù)提供者提供的事先打包好的信息技術(shù)資源組合。三種常見的交付模式是:基礎(chǔ)設(shè)施作為服務(wù)(IaaS)、平臺作為服務(wù)(PaaS)和軟件作為服務(wù)(SaaS)。這三種模式是互相關(guān)聯(lián)的,并且可以組合起來使用。1)?基礎(chǔ)設(shè)施作為服務(wù)(IaaS)IaaS是指向用戶提供的功能用于調(diào)配處理、存儲網(wǎng)絡(luò)和其他基礎(chǔ)計(jì)算資源,用戶能夠在其中部署和運(yùn)行任意軟件(包括操作系統(tǒng)和應(yīng)用程序)。用戶不管理或控制基礎(chǔ)云基礎(chǔ)架構(gòu),但可控制操作系統(tǒng)和部署的應(yīng)用程序;可以有限制地控制選擇的網(wǎng)絡(luò)組件(例如主機(jī)防火墻)。IaaS是云服務(wù)堆棧的基本層,它是SaaS和PaaS的基礎(chǔ)。2)?平臺作為服務(wù)(PaaS)PaaS是指向用戶提供的功能將部署到云基礎(chǔ)架構(gòu)用戶創(chuàng)建的或獲得的應(yīng)用程序上,這些應(yīng)用程序是使用提供商支持的編程語言、庫、服務(wù)和工具創(chuàng)建的。用戶不管理或控制基礎(chǔ)云基礎(chǔ)架構(gòu)(包括網(wǎng)絡(luò)、服務(wù)器、操作系統(tǒng)或存儲),但可控制已部署的應(yīng)用程序,并可以控制應(yīng)用程序宿主環(huán)境的配置設(shè)置。PaaS還用作應(yīng)用程序開發(fā)環(huán)境,由云服務(wù)提供商提供相關(guān)服務(wù)。用戶可使用這些平臺對其應(yīng)用程序編碼,然后在云架構(gòu)上部署這些應(yīng)用程序。由于已部署應(yīng)用程序的工作負(fù)載各不相同,因此計(jì)算資源的可擴(kuò)展性通常由計(jì)算平臺以透明方式進(jìn)行保證。3)?軟件作為服務(wù)(SaaS)SaaS是指用戶可以使用云平臺上提供的應(yīng)用??蓮母鞣N客戶端設(shè)備通過瘦客戶端接口(例如Web瀏覽器(如基于Web的電子郵件))或程序接口訪問這些應(yīng)用程序。用戶不管理或控制基礎(chǔ)云基礎(chǔ)架構(gòu)(包括網(wǎng)絡(luò)、服務(wù)器、操作系統(tǒng)、存儲甚至單個(gè)應(yīng)用程序功能),但可控制應(yīng)用中的用戶特定設(shè)置。在SaaS模式中,應(yīng)用程序(如客戶關(guān)系管理(CRM)、電子郵件和即時(shí)消息(IM))作為云服務(wù)提供商的服務(wù)來提供。云服務(wù)提供商以獨(dú)占方式管理所需的計(jì)算基礎(chǔ)架構(gòu)和軟件來支持這些服務(wù)。SaaS模式允許用戶更改一些應(yīng)用程序配置,以自定義應(yīng)用程序。3.?云部署模型1)?公有云在公有云模式中,云基礎(chǔ)架構(gòu)被調(diào)配為由公眾公開使用,它可由企業(yè)、學(xué)院或政府組織或這些組織的組合擁有、管理和操作。它的存在以云提供商為前提。用戶使用提供商通過Internet提供的云服務(wù),并支付定量使用費(fèi)用或訂閱費(fèi)用。公有云的優(yōu)勢在于其低資金成本和良好的可擴(kuò)展性。但是,對于用戶來說,這些優(yōu)勢會帶來一些風(fēng)險(xiǎn):無法控制云中的資源,涉及機(jī)密數(shù)據(jù)的安全性,存在網(wǎng)絡(luò)性能和互操作性問題。常見的公有云服務(wù)提供商包括Amazon、Google和S。2)?私有云在私有云模式中,云基礎(chǔ)架構(gòu)被調(diào)配為由包含多個(gè)用戶(例如業(yè)務(wù)單位)的單個(gè)組織以獨(dú)占方式使用。它可由組織、第三方或它們的組合擁有、管理和操作,并且可以現(xiàn)場或異地方式存在。私有云模式具有以下兩種類型:現(xiàn)場私有云:也稱為內(nèi)部云,由組織的數(shù)據(jù)中心托管,能使組織標(biāo)準(zhǔn)化其云服務(wù)管理流程和安全性。但此模式在大小和資源可擴(kuò)展性方面具有限制,還需組織為物理資源承擔(dān)資金成本和維護(hù)成本?,F(xiàn)場私有云最適合于需要完全控制其應(yīng)用程序、基礎(chǔ)架構(gòu)配置和安全性機(jī)制的組織。外部托管的私有云:此類型的私有云在組織外部托管,由第三方組織管理。第三方組織為特定組織提供專用云環(huán)境,能完全保證隱私性和機(jī)密性。3)?社區(qū)云在社區(qū)云模式中,云基礎(chǔ)架構(gòu)被調(diào)配為由組織中的特定社區(qū)的用戶以獨(dú)占方式使用,這些用戶具有共同關(guān)心的問題(如任務(wù)、安全需求、策略和遵從性考慮事項(xiàng))。它可由社區(qū)、第三方或它們的組合中的一個(gè)或多個(gè)組織擁有、管理和操作,可以現(xiàn)場或異地方式存在。與公有云相比,社區(qū)云中的成本分散到更少的用戶身上,因此,此模式更昂貴些,但可提供更高級別的隱私性、安全性和遵從性。與私有云相比,社區(qū)云還可向組織提供對大量資源池的訪問。4)?混合云在混合云模式中,云基礎(chǔ)架構(gòu)是兩個(gè)或更多個(gè)不同的云基礎(chǔ)架構(gòu)(私有云、社區(qū)云或公有云)的組合,這些云基礎(chǔ)架構(gòu)保留唯一的實(shí)體,但由支持?jǐn)?shù)據(jù)和應(yīng)用程序移植性的標(biāo)準(zhǔn)化或?qū)S眉夹g(shù)綁定在一起?;旌夏J皆试S組織將不太關(guān)鍵的應(yīng)用程序和數(shù)據(jù)部署到公有云,從而利用公有云的可擴(kuò)展性和經(jīng)濟(jì)高效性。組織的任務(wù)關(guān)鍵型應(yīng)用程序和數(shù)據(jù)保留在可提供更高安全性的私有云上。4.?云特性根據(jù)NIST,云基礎(chǔ)架構(gòu)應(yīng)有五個(gè)基本特性。(1)?按需自助服務(wù):用戶可自動根據(jù)需要單向調(diào)配計(jì)算功能(如服務(wù)器時(shí)間和網(wǎng)絡(luò)存儲),而無須與云服務(wù)提供商進(jìn)行人工交互。云服務(wù)提供商發(fā)布服務(wù)目錄,該目錄包含有關(guān)可供用戶使用的所有云服務(wù)的信息。服務(wù)目錄包含有關(guān)服務(wù)屬性、價(jià)格和請求流程的信息。用戶可通過基于Web的用戶界面查看服務(wù)目錄,并使用它來請求服務(wù)。用戶可利用這些“隨時(shí)可用的”服務(wù)或更改一些服務(wù)參數(shù)來自定義服務(wù)。(2)?廣泛的網(wǎng)絡(luò)訪問:可通過網(wǎng)絡(luò)使用功能,并通過標(biāo)準(zhǔn)機(jī)制訪問功能,這些機(jī)制可提升異構(gòu)精簡或非精簡客戶端平臺(例如移動電話、平板電腦、筆記本電腦和工作站)的使用率。(3)?資源共用:共用提供商的計(jì)算資源,以便使用多重租用模式向多個(gè)客戶提供服務(wù),并根據(jù)用戶需求動態(tài)分配和重新分配不同的物理和虛擬資源。客戶通常無法控制或了解提供的資源的準(zhǔn)確位置,但可指定抽象級別更高的位置(例如國家/地區(qū)、州或數(shù)據(jù)中心)。存儲、處理、內(nèi)存和網(wǎng)絡(luò)帶寬都屬于資源。注意:多重租用是使用一組資源向多個(gè)獨(dú)立用戶(租戶)提供服務(wù)的體系結(jié)構(gòu)。這可降低用戶的服務(wù)成本。虛擬化支持云中的資源共用和多重租用。(4)?快速靈活:有時(shí)可自動靈活調(diào)配和發(fā)布功能,以便根據(jù)需求快速向外和向內(nèi)擴(kuò)展。對于用戶,可用于調(diào)配的功能通常顯示為無限,并且可隨時(shí)占用任意數(shù)量的資源。用戶的IT資源需求發(fā)生波動時(shí),可利用云的快速靈活性。(5)?可計(jì)量的服務(wù):云系統(tǒng)可自動控制和優(yōu)化資源使用,方法是利用與服務(wù)類型(例如存儲、處理、帶寬和活動用戶賬戶)相對應(yīng)的某個(gè)抽象級別的計(jì)量功能。通過監(jiān)控和報(bào)告資源的使用情況,可清楚地向提供商和用戶提供有關(guān)所使用服務(wù)的信息。5.?云計(jì)算的關(guān)鍵技術(shù)網(wǎng)格計(jì)算、實(shí)用計(jì)算、虛擬化和面向服務(wù)的體系結(jié)構(gòu)是云計(jì)算的支持技術(shù)。網(wǎng)格計(jì)算是分布式計(jì)算的一種形式,它使網(wǎng)絡(luò)中的大量異構(gòu)計(jì)算機(jī)的資源能夠同時(shí)共同處理一個(gè)任務(wù)。網(wǎng)格計(jì)算支持并行計(jì)算,最適合大型工作負(fù)載。實(shí)用計(jì)算是一種服務(wù)調(diào)配模式,其中,服務(wù)提供商根據(jù)需要將計(jì)算資源提供給客戶,并根據(jù)使用情況對他們進(jìn)行收費(fèi)。這類似于其他實(shí)用服務(wù)(如電),收費(fèi)是根據(jù)使用情況來計(jì)算的。虛擬化是一種從資源用戶抽象IT資源的物理特征的技術(shù)。它支持將資源作為池來查看和管理,并允許用戶在池中創(chuàng)建虛擬資源。與在非虛擬化環(huán)境中調(diào)配相比,虛擬化可以更靈活地調(diào)配IT資源,可以幫助優(yōu)化資源利用率和更高效地提供資源。面向服務(wù)的體系結(jié)構(gòu)(SOA)用于提供一組可彼此通信的服務(wù)。這些服務(wù)可共同執(zhí)行某項(xiàng)活動,或僅在服務(wù)間傳遞數(shù)據(jù)。6.1信息存儲與管理概述

6.2數(shù)據(jù)中心環(huán)境

6.3數(shù)據(jù)保護(hù):RAID

6.4智能存儲系統(tǒng)6.1信息存儲與管理概述6.1.1數(shù)據(jù)和信息概述信息對企業(yè)的重要性、企業(yè)對信息的依賴性以及信息的數(shù)量也在以驚人的速度提高。企業(yè)需要以快速、可靠的方式獲取對成功至關(guān)重要的信息。隨著企業(yè)對信息的依賴性日益提高,數(shù)據(jù)存儲、保護(hù)和管理方面的挑戰(zhàn)也隨之增大。與數(shù)據(jù)可用性和保護(hù)相關(guān)的法律、法規(guī)和合同業(yè)務(wù)進(jìn)一步增加了這些挑戰(zhàn)。隨著計(jì)算機(jī)和通信技術(shù)的進(jìn)步,數(shù)據(jù)生成和共享的速率呈指數(shù)級增長。以下是導(dǎo)致數(shù)字?jǐn)?shù)據(jù)增長的一些因素:(1)?數(shù)據(jù)處理能力的提高?,F(xiàn)代計(jì)算機(jī)的處理和存儲功能顯著提高,使得各種類型的內(nèi)容和介質(zhì)能夠從常規(guī)格式轉(zhuǎn)換為數(shù)字格式。(2)?數(shù)字存儲成本的降低。技術(shù)進(jìn)步以及存儲設(shè)備成本的降低提供了低成本存儲解決方案,這一成本優(yōu)勢提高了數(shù)字?jǐn)?shù)據(jù)生成和存儲的速率。(3)?價(jià)格合理、速度更快的通信技術(shù)的發(fā)展。(4)?應(yīng)用程序和智能設(shè)備的劇增。智能手機(jī)、平板電腦和更新的數(shù)字設(shè)備以及智能應(yīng)用程序極大地促進(jìn)了數(shù)字內(nèi)容的生成。根據(jù)數(shù)據(jù)的存儲和管理方式,數(shù)據(jù)可分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),如圖6.1所示。結(jié)構(gòu)化數(shù)據(jù)以嚴(yán)格定義的格式按行和列進(jìn)行組織,以使應(yīng)用程序能夠有效地進(jìn)行檢索和處理。結(jié)構(gòu)化數(shù)據(jù)通常使用數(shù)據(jù)庫管理系統(tǒng)(DBMS)進(jìn)行存儲。如果數(shù)據(jù)的元素不能按行和列存儲,因而難以通過應(yīng)用程序進(jìn)行查詢和檢索,則這樣的數(shù)據(jù)就是非結(jié)構(gòu)化數(shù)據(jù)。鑒于這些數(shù)據(jù)的非結(jié)構(gòu)化性質(zhì),難以使用傳統(tǒng)的客戶關(guān)系管理應(yīng)用程序?qū)ζ溥M(jìn)行檢索。如今所創(chuàng)建的絕大多數(shù)新數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù)。采用新的體系結(jié)構(gòu)、技術(shù)、技巧和技能存儲、管理、分析來自眾多源的非結(jié)構(gòu)化數(shù)據(jù)和從中實(shí)現(xiàn)價(jià)值會給行業(yè)帶來挑戰(zhàn)。大數(shù)據(jù)是一個(gè)不斷變化的新概念,是指大小超出常用軟件工具,在可接受時(shí)間限制內(nèi)具備捕獲、存儲、管理和處理能力的數(shù)據(jù)集。它包括各種源生成的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)集通常需要實(shí)時(shí)捕獲或更新以便進(jìn)行分析、預(yù)測建模和決策制訂。傳統(tǒng)的IT基礎(chǔ)架構(gòu)以及數(shù)據(jù)處理工具和方法不足以應(yīng)對大數(shù)據(jù)的數(shù)據(jù)量、多樣性、動態(tài)性和復(fù)雜性。實(shí)時(shí)分析大數(shù)據(jù)需要高性能、大規(guī)模的并行處理(MPP)數(shù)據(jù)平臺以及對數(shù)據(jù)集進(jìn)行高級分析的新技術(shù)、體系結(jié)構(gòu)和工具。數(shù)據(jù)科學(xué)是一門新興學(xué)科,它使組織能夠從大數(shù)據(jù)中獲得業(yè)務(wù)價(jià)值。數(shù)據(jù)科學(xué)是幾門現(xiàn)有學(xué)科的綜合,它使數(shù)據(jù)專家能夠開發(fā)先進(jìn)的算法來分析大量信息,從而推動創(chuàng)造新價(jià)值并做出更多數(shù)據(jù)驅(qū)動的決策。當(dāng)前希望采用數(shù)據(jù)科學(xué)技術(shù)的一些行業(yè)和市場包括醫(yī)療和科研、醫(yī)療保健、公共管理、欺詐檢測、社會媒體、銀行、保險(xiǎn)公司以及其他受益于大數(shù)據(jù)分析的基于數(shù)字信息的實(shí)體。大數(shù)據(jù)所需的存儲體系結(jié)構(gòu)管理應(yīng)簡單、高效且便宜,可同時(shí)提供對多個(gè)平臺和數(shù)據(jù)源的訪問。6.1.2存儲概述在計(jì)算環(huán)境中,用來存儲數(shù)據(jù)的設(shè)備稱為存儲設(shè)備,簡稱存儲。存儲類型取決于數(shù)據(jù)的類型及其創(chuàng)建速度和使用頻率。有多種數(shù)據(jù)存儲方式可供企業(yè)選擇,包括內(nèi)部硬盤、外部磁盤陣列和磁帶。以往,組織都將計(jì)算機(jī)(大型機(jī))和信息存儲設(shè)備(磁帶盤和磁盤組)集中放在其數(shù)據(jù)中心內(nèi)。隨著開放系統(tǒng)的演變,其成本合理性和易部署性使得各業(yè)務(wù)部門有機(jī)會擁有自己的服務(wù)器和存儲設(shè)備。在開放系統(tǒng)的早期實(shí)施中,存儲設(shè)備通常內(nèi)置于服務(wù)器之中。這些存儲設(shè)備無法與其他任何服務(wù)器共享。此方法稱為以服務(wù)器為中心的存儲體系結(jié)構(gòu)。在此體系結(jié)構(gòu)中,每臺服務(wù)器具有有限數(shù)量的存儲設(shè)備,且任何管理任務(wù)都可能會導(dǎo)致信息不可用。企業(yè)中部門服務(wù)器的激增導(dǎo)致信息支離破碎,且缺乏保護(hù)和管理,因而增加了資本性支出和運(yùn)營成本。為應(yīng)對這些難題,存儲從以服務(wù)器為中心的體系結(jié)構(gòu)演變?yōu)橐孕畔橹行牡捏w系結(jié)構(gòu),如圖6.2所示。6.1.3數(shù)據(jù)中心概述組織通過數(shù)據(jù)中心向整個(gè)企業(yè)提供集中式數(shù)據(jù)處理功能。數(shù)據(jù)中心擁有并管理大量數(shù)據(jù)。數(shù)據(jù)中心基礎(chǔ)架構(gòu)包括硬件組件、軟件組件、環(huán)境控制系統(tǒng)。大型組織通常維護(hù)多個(gè)數(shù)據(jù)中心,以便分散數(shù)據(jù)處理工作負(fù)載并在發(fā)生災(zāi)難時(shí)提供備份。一個(gè)數(shù)據(jù)中心要實(shí)現(xiàn)基本功能,必須要有以下五個(gè)核心部件。應(yīng)用程序:為計(jì)算操作提供邏輯的計(jì)算機(jī)程序。數(shù)據(jù)庫管理系統(tǒng)(DBMS):提供結(jié)構(gòu)化存儲方式,可將數(shù)據(jù)存儲在相互關(guān)聯(lián)并按邏輯組織的多個(gè)表中。主機(jī)/計(jì)算:運(yùn)行應(yīng)用程序和數(shù)據(jù)庫的計(jì)算平臺(硬件、固件和軟件)。網(wǎng)絡(luò):便于在各種網(wǎng)絡(luò)設(shè)備之間進(jìn)行通信的數(shù)據(jù)路徑。存儲裝置:持久存儲數(shù)據(jù)供后續(xù)使用的設(shè)備。這些核心元素通常被作為單獨(dú)的實(shí)體來查看和管理,但所有這些元素必須協(xié)同工作,才能滿足數(shù)據(jù)處理需求。圖6.3展示了一個(gè)在線訂單處理系統(tǒng),其中包含五個(gè)核心部件以及它們在商業(yè)處理中的應(yīng)用。數(shù)據(jù)中心的無中斷運(yùn)營對于企業(yè)的生存和成功至關(guān)重要。因此,很有必要利用可靠的存儲基礎(chǔ)設(shè)施來保證數(shù)據(jù)隨時(shí)可訪問。圖6.4所示的是對數(shù)據(jù)中心基礎(chǔ)設(shè)施的所有部件都適用的基本要求。管理數(shù)據(jù)中心涉及許多任務(wù)。關(guān)鍵的管理活動包括以下內(nèi)容:(1)?監(jiān)視:收集有關(guān)數(shù)據(jù)中心中運(yùn)行的各種元素和服務(wù)的信息的持續(xù)過程。監(jiān)視的數(shù)據(jù)中心的各個(gè)方面包括安全、性能、可用性和容量。(2)?報(bào)告:對資源性能、容量和利用率定期執(zhí)行報(bào)告。報(bào)告任務(wù)有助于建立業(yè)務(wù)合理性以及對與數(shù)據(jù)中心操作關(guān)聯(lián)的成本進(jìn)行計(jì)費(fèi)。(3)?資源調(diào)配:提供運(yùn)行數(shù)據(jù)中心所需硬件、軟件和其他資源的過程。資源調(diào)配活動主要包括可滿足容量、可用性、性能和安全要求的資源管理。虛擬化和云計(jì)算極大地改變了數(shù)據(jù)中心基礎(chǔ)架構(gòu)資源的調(diào)配和管理方式。組織正在對數(shù)據(jù)中心的各種元素快速部署虛擬化以優(yōu)化其利用率。此外,持續(xù)的IT成本壓力和隨需應(yīng)變數(shù)據(jù)處理需求也促進(jìn)了云計(jì)算的采用。6.1.4虛擬化概述虛擬化是指抽象化物理資源(如計(jì)算、存儲和網(wǎng)絡(luò))并讓其顯示為邏輯資源的技術(shù)。虛擬化已在IT行業(yè)中以不同形式存在數(shù)年。常見的虛擬化應(yīng)用有計(jì)算系統(tǒng)中使用的虛擬內(nèi)存和原始磁盤的分區(qū)。虛擬化支持共用物理資源以及提供物理資源功能的聚合視圖。通過計(jì)算虛擬化,可將共用物理服務(wù)器的CPU容量視為所有CPU處理能力的聚合。虛擬化還支持集中化管理共用資源。可根據(jù)共用物理資源創(chuàng)建和調(diào)配虛擬資源。這些虛擬資源共享共用物理資源,這樣可提高物理資源的利用率。根據(jù)業(yè)務(wù)需求,可向虛擬資源中添加容量或從中刪除容量,而不會中斷應(yīng)用程序或影響用戶。隨著IT資產(chǎn)利用率的提高,組織將節(jié)省與采購和管理新物理資源關(guān)聯(lián)的成本。此外,減少物理資源意味著降低空間和能源消耗,這將帶來更高的經(jīng)濟(jì)價(jià)值和實(shí)現(xiàn)綠色計(jì)算。除此之外,還有應(yīng)用程序虛擬化和桌面虛擬化。應(yīng)用程序虛擬化打破了應(yīng)用程序與底層平臺(OS和硬件)之間的相關(guān)性,可在虛擬化容器中封裝應(yīng)用程序和所需的OS資源。此技術(shù)支持部署應(yīng)用程序,而無須對在其中部署應(yīng)用程序的底層OS、文件系統(tǒng)或計(jì)算平臺的注冊表進(jìn)行任何更改。由于虛擬化應(yīng)用程序在單獨(dú)環(huán)境中運(yùn)行,因此可保護(hù)底層OS和其他應(yīng)用程序免遭潛在損壞。在許多方案中,如果多個(gè)應(yīng)用程序或同一應(yīng)用程序的多個(gè)版本安裝在同一計(jì)算平臺上,則可能會發(fā)生沖突。應(yīng)用程序虛擬化可通過隔離不同版本的應(yīng)用程序和關(guān)聯(lián)的O/S資源來消除此沖突。桌面虛擬化是一項(xiàng)支持從終端設(shè)備斷開用戶狀態(tài)、操作系統(tǒng)(OS)和應(yīng)用程序的技術(shù)。它打破了硬件與其OS、應(yīng)用程序、用戶配置文件和設(shè)置之間的相關(guān)性,使IT員工能夠獨(dú)立更改、更新和部署這些元素。臺式機(jī)位于數(shù)據(jù)中心且在虛擬機(jī)上運(yùn)行,而用戶會從各種客戶端設(shè)備中遠(yuǎn)程訪問這些臺式機(jī)。應(yīng)用程序執(zhí)行和數(shù)據(jù)存儲在數(shù)據(jù)中心集中執(zhí)行。由于臺式機(jī)作為虛擬機(jī)在組織的數(shù)據(jù)中心中運(yùn)行,因此可降低數(shù)據(jù)泄露和竊取的風(fēng)險(xiǎn)。它還有助于執(zhí)行集中化備份和簡化遵從性程序。虛擬桌面易于維護(hù),因?yàn)閼?yīng)用修補(bǔ)程序、部署應(yīng)用程序和OS以及集中調(diào)配或刪除用戶都很簡單。計(jì)算虛擬化是一項(xiàng)掩蔽物理硬件并將其從操作系統(tǒng)中抽象出來的技術(shù)。它支持對單個(gè)或群集物理機(jī)并行運(yùn)行多個(gè)操作系統(tǒng)。此技術(shù)支持創(chuàng)建便攜式虛擬計(jì)算系統(tǒng),稱為虛擬機(jī)(VM)。每臺虛擬機(jī)均以隔離方式運(yùn)行操作系統(tǒng)和應(yīng)用程序?qū)嵗?。?jì)算虛擬化通過位于硬件和虛擬機(jī)之間的虛擬化層來實(shí)現(xiàn)。這一層也稱為虛擬機(jī)管理程序。該虛擬機(jī)管理程序可提供硬件資源,如所有虛擬機(jī)的CPU、內(nèi)存和網(wǎng)絡(luò)。在物理服務(wù)器中,可以創(chuàng)建大量虛擬機(jī),具體取決于物理服務(wù)器的硬件功能。虛擬機(jī)是邏輯實(shí)體,但對于操作系統(tǒng)而言就像物理主機(jī)一樣,包括其自身的CPU、內(nèi)存、網(wǎng)絡(luò)控制器和磁盤。但是,所有虛擬機(jī)均以隔離方式共享相同的基本物理硬件。從虛擬機(jī)管理程序角度看,虛擬機(jī)是包括虛擬機(jī)配置文件、數(shù)據(jù)文件等的獨(dú)立文件集合。6.2數(shù)據(jù)中心環(huán)境6.2.1數(shù)據(jù)中心的關(guān)鍵部件一個(gè)數(shù)據(jù)中心的關(guān)鍵部件包括集中管理的主機(jī)、存儲、連接(或網(wǎng)絡(luò))、應(yīng)用和數(shù)據(jù)庫管理系統(tǒng)。1.?主機(jī)用戶通過應(yīng)用程序存儲和檢索數(shù)據(jù),運(yùn)行這些應(yīng)用程序的計(jì)算機(jī)稱為主機(jī)或計(jì)算系統(tǒng)。主機(jī)可以是物理機(jī),也可以是虛擬機(jī)。計(jì)算虛擬化軟件可以在一個(gè)物理計(jì)算架構(gòu)上創(chuàng)建多個(gè)虛擬機(jī)。物理機(jī)包括桌面計(jì)算機(jī)、服務(wù)器或服務(wù)器群集、虛擬服務(wù)器、筆記本電腦和移動設(shè)備。主機(jī)包含CPU、內(nèi)存、I/O設(shè)備和軟件集合,可執(zhí)行計(jì)算操作。軟件包括操作系統(tǒng)、文件系統(tǒng)、邏輯卷管理器、設(shè)備驅(qū)動程序等。這些軟件可以分別安裝,也可以成為操作系統(tǒng)的一部分。2.?存儲存儲是數(shù)據(jù)中心內(nèi)的核心元素。存儲設(shè)備可使用磁介質(zhì)、光學(xué)介質(zhì)或固態(tài)介質(zhì)。例如,磁盤、磁帶和軟盤使用磁介質(zhì),CD/DVD光盤使用光學(xué)介質(zhì),可移動閃存或閃存驅(qū)動器使用固態(tài)介質(zhì)。過去,磁帶是備份最常用的存儲設(shè)備,因?yàn)槠涑杀竞艿汀5?,磁帶在性能和管理方面具有各種限制,由于這些限制以及磁盤驅(qū)動器的實(shí)用性,磁帶不再是企業(yè)級數(shù)據(jù)中心備份目標(biāo)的首選。光盤存儲適用于小型的單用戶計(jì)算場合,還可用于小型應(yīng)用程序(如游戲)的分發(fā),或者用于將少量數(shù)據(jù)從一臺計(jì)算機(jī)轉(zhuǎn)移到另一臺計(jì)算機(jī)。能夠一次寫入、多次讀取(WORM)是光盤存儲器的優(yōu)點(diǎn)。光盤在一定程度上可以保證其內(nèi)容未經(jīng)修改。因此,對于在創(chuàng)建后不會更改、數(shù)量相對較少的固定內(nèi)容,光盤可用作成本低廉的長期存儲設(shè)備。組成陣列的光盤集合稱作光盤機(jī),仍然用作固定內(nèi)容存儲。其他形式的光盤包括CD-RW、Blue-ray(藍(lán)光)磁盤和各種各樣的DVD。光盤的缺點(diǎn)是容量和速度有限,不適用于業(yè)務(wù)數(shù)據(jù)存儲。閃存驅(qū)動器(或固態(tài)驅(qū)動器,SSD)使用半導(dǎo)體介質(zhì),可提供高性能、低功耗。它擁有極高的性能,能滿足性能敏感型應(yīng)用的需求。閃存驅(qū)動器使用基于半導(dǎo)體的固態(tài)存儲(閃存)來存取數(shù)據(jù)。與傳統(tǒng)的機(jī)械磁盤相比,閃存驅(qū)動器不含移動部件,因此沒有尋道時(shí)間和旋轉(zhuǎn)延遲。另外,因?yàn)槭腔诎雽?dǎo)體的設(shè)備,所以閃存驅(qū)動器比機(jī)械磁盤更省電。3.?連接連接是指主機(jī)之間或主機(jī)與外圍設(shè)備(如打印機(jī)或存儲設(shè)備)之間的互連。這里著重討論主機(jī)與存儲設(shè)備之間的連接。主機(jī)與存儲設(shè)備之間的連接與通信通過物理組件和接口協(xié)議來實(shí)現(xiàn)。1)?物理組件物理組件是將主機(jī)與存儲設(shè)備連接起來的硬件。連接主機(jī)與存儲設(shè)備的三個(gè)物理組件為主機(jī)接口設(shè)備、端口和纜線。主機(jī)接口設(shè)備(或主機(jī)適配器)可將主機(jī)連接到其他主機(jī)和存儲設(shè)備,主機(jī)接口設(shè)備包括主機(jī)總線適配器(HBA)和網(wǎng)絡(luò)接口卡(NIC)。HBA是特定于應(yīng)用程序的集成電路(ASIC)板,在主機(jī)與存儲設(shè)備之間發(fā)揮I/O接口作用,從而為CPU減輕了其他I/O處理負(fù)擔(dān)。一臺主機(jī)通常包含多個(gè)HBA。端口是支持主機(jī)與外部設(shè)備之間連接的特殊出口。HBA可以包含一個(gè)或多個(gè)用于將主機(jī)連接到存儲設(shè)備的端口。纜線使用銅纜或光纜介質(zhì)將主機(jī)連接到內(nèi)部或外部設(shè)備。2)?接口協(xié)議接口協(xié)議用于支持主機(jī)與存儲設(shè)備之間的通信。主機(jī)與存儲設(shè)備之間通信的常用接口協(xié)議有集成的設(shè)備電子系統(tǒng)/高級技術(shù)附件(IDE/ATA)、小型計(jì)算機(jī)系統(tǒng)接口(SCSI)、光纖通道(FC)和Internet協(xié)議(IP)。4.?應(yīng)用應(yīng)用是指提供計(jì)算操作邏輯的計(jì)算機(jī)程序。應(yīng)用程序通過向底層操作系統(tǒng)發(fā)送請求來對存儲設(shè)備執(zhí)行讀/寫(R/W)操作。應(yīng)用程序可分層放在數(shù)據(jù)庫中,數(shù)據(jù)庫再使用操作系統(tǒng)服務(wù)對存儲設(shè)備執(zhí)行讀/寫操作。數(shù)據(jù)中心環(huán)境中部署的應(yīng)用程序通常分為業(yè)務(wù)應(yīng)用程序、基礎(chǔ)架構(gòu)管理應(yīng)用程序、數(shù)據(jù)保護(hù)應(yīng)用程序和安全應(yīng)用程序。這些應(yīng)用程序包括電子郵件、企業(yè)資源規(guī)劃(ERP)、決策支持系統(tǒng)(DSS)、資源管理、備份、身份驗(yàn)證和反病毒應(yīng)用程序等。應(yīng)用程序生成的I/O(輸入/輸出)特性會影響存儲系統(tǒng)的整體性能和存儲解決方案設(shè)計(jì)。應(yīng)用程序的常見I/O特性包括:I/O的大小、特點(diǎn)及其在工作峰值產(chǎn)生的I/O數(shù)量。5.?數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)庫是一種結(jié)構(gòu)化存儲方式,可將數(shù)據(jù)存儲在相互關(guān)聯(lián)并按邏輯組織的多個(gè)表中。數(shù)據(jù)庫有助于優(yōu)化數(shù)據(jù)的存儲和檢索。DBMS可控制數(shù)據(jù)庫的創(chuàng)建、維護(hù)和使用,以及處理應(yīng)用程序的數(shù)據(jù)請求并指示操作系統(tǒng)從存儲中傳輸相應(yīng)的數(shù)據(jù)。6.2.2磁盤驅(qū)動器組件和磁盤的結(jié)構(gòu)1.?磁盤驅(qū)動器組件硬盤驅(qū)動器主要由盤片、磁盤軸、讀/寫磁頭、傳動臂組件和控制器組成,如圖6.5所示。2.?磁盤的結(jié)構(gòu)磁盤的結(jié)構(gòu)如圖6.6所示,磁盤上的數(shù)據(jù)記錄在磁道上。磁道是盤片上以磁盤軸為中心的同心環(huán),以零開始從盤片外邊緣進(jìn)行編號。盤片上每英寸的磁道數(shù)(TPI)稱為磁道密度,用來衡量盤片上磁道排布的緊密程度。6.2.3磁盤驅(qū)動器的性能磁盤驅(qū)動器是決定存儲系統(tǒng)環(huán)境總體性能的電子機(jī)械設(shè)備。1.?磁盤服務(wù)時(shí)間磁盤服務(wù)時(shí)間是指磁盤完成一個(gè)I/O請求所花費(fèi)的時(shí)間。影響磁盤服務(wù)時(shí)間的因素有3個(gè):尋道時(shí)間、旋轉(zhuǎn)延遲和數(shù)據(jù)傳輸速度。1)?尋道時(shí)間尋道時(shí)間用于描述通過徑向移動在盤片上定位讀/寫磁頭所用的時(shí)間。尋道時(shí)間具有以下規(guī)范:(1)?全程:讀/寫磁頭移動磁盤全寬(從最內(nèi)側(cè)的磁道到最外側(cè)的磁道)這一距離所用的時(shí)間。(2)?平均:讀/寫磁頭從一個(gè)隨機(jī)磁道移至另一隨機(jī)磁道平均使用的時(shí)間,通常為全程尋道時(shí)間的1/3。(3)?道間:讀/寫磁頭在相鄰的兩個(gè)磁道間移動所用的時(shí)間。上述每項(xiàng)規(guī)范都以毫秒為單位度量。磁盤的尋道時(shí)間通常由驅(qū)動器制造商指定?,F(xiàn)代磁盤的平均尋道時(shí)間通常在3~15ms的范圍內(nèi)。尋道時(shí)間對隨機(jī)磁道的I/O操作有較大影響。為了最大限度地縮短尋道時(shí)間,只能將數(shù)據(jù)寫入一部分可用柱面。這會導(dǎo)致驅(qū)動器的可用容量低于其實(shí)際容量,這稱作對驅(qū)動器采用短行程技術(shù)。2)?旋轉(zhuǎn)延遲為訪問數(shù)據(jù),傳動臂會將讀/寫磁頭從盤片上移至特定磁道,同時(shí)盤片會進(jìn)行旋轉(zhuǎn)以將所請求的扇區(qū)置于讀/寫磁頭下。盤片通過旋轉(zhuǎn)將數(shù)據(jù)置于讀/寫磁頭下所用的時(shí)間稱作旋轉(zhuǎn)延遲。此延遲取決于磁盤軸的旋轉(zhuǎn)速度,以毫秒為單位度量。平均旋轉(zhuǎn)延遲是旋轉(zhuǎn)一周所用時(shí)間的一半。與尋道時(shí)間相似,旋轉(zhuǎn)延遲對磁盤上隨機(jī)扇區(qū)的讀取/寫入產(chǎn)生的影響大于對相鄰扇區(qū)上的相同操作產(chǎn)生的影響。驅(qū)動器的旋轉(zhuǎn)延遲按以下公式計(jì)算:3)?數(shù)據(jù)傳輸速率數(shù)據(jù)傳輸速率(也稱作傳輸速度)是指單位時(shí)間驅(qū)動器可以向HBA輸送的平均數(shù)據(jù)量。在讀取操作中,數(shù)據(jù)先從磁盤盤片移至讀/寫磁頭,再移至驅(qū)動器的內(nèi)部緩沖區(qū),最后通過接口從緩沖區(qū)移至主機(jī)HBA。在寫入操作中,數(shù)據(jù)通過驅(qū)動器的接口從HBA移至磁盤驅(qū)動器的內(nèi)部緩沖區(qū),隨后從緩沖區(qū)移至讀/寫磁頭,最后從讀/寫磁頭移至盤片。讀/寫操作中的數(shù)據(jù)傳輸速率用內(nèi)部傳輸速率和外部傳輸速率加以衡量,如圖6.7所示。2.?磁盤I/O控制器的利用率磁盤I/O控制器的利用率對I/O響應(yīng)時(shí)間具有顯著影響。將磁盤視為一個(gè)包含隊(duì)列和磁盤I/O控制器的黑匣子。隊(duì)列是用于存放等待I/O控制器處理的I/O請求,磁盤I/O控制器用來處理在隊(duì)列中等待的I/O請求。I/O到達(dá)速度、隊(duì)列長度以及I/O控制器處理每個(gè)請求所用的時(shí)間決定了I/O響應(yīng)時(shí)間。如果控制器處于忙狀態(tài)或利用率很高,則隊(duì)列大小會很大且響應(yīng)時(shí)間會很長??刂破骼寐逝c平均響應(yīng)時(shí)間之間的關(guān)系滿足以下公式:當(dāng)利用率達(dá)到100%(即I/O控制器達(dá)到飽和)時(shí),響應(yīng)時(shí)間會接近于無窮大。實(shí)質(zhì)上,飽和的組件(即瓶頸)會強(qiáng)制序列化I/O請求,這意味著每個(gè)I/O請求必須等待它前面的I/O請求完成。圖6.8顯示了利用率與響應(yīng)時(shí)間的關(guān)系。該圖表明,隨著利用率提高,響應(yīng)時(shí)間的變化是非線性的。當(dāng)平均隊(duì)列大小很小時(shí),響應(yīng)時(shí)間保持在較短水平;隨著隊(duì)列負(fù)荷的增加,響應(yīng)時(shí)間緩慢增加;當(dāng)利用率超過70%時(shí),響應(yīng)時(shí)間呈指數(shù)級增加。因此,對于性能敏感型應(yīng)用程序,磁盤的利用率通常低于其I/O服務(wù)功能的70%。6.2.4基于應(yīng)用程序的需求和磁盤性能的存儲設(shè)計(jì)應(yīng)用程序的存儲需求分析通常都是從確定存儲容量開始的。這可以根據(jù)文件系統(tǒng)的大小和數(shù)量,以及應(yīng)用程序?qū)⒁褂玫臄?shù)據(jù)庫部件來評估確定。要確定應(yīng)用程序的存儲要求,首先要確定所需的存儲容量和I/O性能??赏ㄟ^應(yīng)用程序使用的文件系統(tǒng)以及數(shù)據(jù)庫組件的大小和數(shù)量輕松估計(jì)容量。應(yīng)用程序在工作負(fù)載高峰時(shí)生成的I/O大小、I/O特性和I/O數(shù)量是影響性能、I/O響應(yīng)時(shí)間和存儲系統(tǒng)設(shè)計(jì)的主要因素。I/O的磁盤服務(wù)時(shí)間(TS)是磁盤性能的一個(gè)關(guān)鍵指標(biāo);TS和磁盤利用率(U)可確定應(yīng)用程序的I/O響應(yīng)時(shí)間。如前所述,總磁盤服務(wù)時(shí)間是尋道時(shí)間、旋轉(zhuǎn)延遲和傳輸時(shí)間之和。TS可確定I/O控制器為I/O提供服務(wù)所用的時(shí)間,因此,每秒提供服務(wù)的I/O即IOPS的最大值為1/TS。上面計(jì)算的IOPS是在較高I/O控制器利用率(接近100%)下實(shí)現(xiàn)的。如果應(yīng)用程序需要縮短響應(yīng)時(shí)間,則磁盤利用率應(yīng)保持在70%以下。應(yīng)用程序所需的磁盤總數(shù)?=Max(為滿足容量所需的磁盤,為滿足性能所需的磁盤)為滿足應(yīng)用程序的容量需求,所需的磁盤數(shù)量(DC):為滿足應(yīng)用程序性能需求所需的磁盤數(shù)量(DP):根據(jù)磁盤服務(wù)時(shí)間,由磁盤提供服務(wù)的IOPS(TS):TS是I/O提供服務(wù)所用的時(shí)間,因此,由磁盤提供服務(wù)的IOPS值等于1/?TS。對于性能敏感型應(yīng)用程序,有所以,應(yīng)用程序所需的磁盤數(shù)量?=Max(DC,DP)。6.2.5閃存驅(qū)動器簡介閃存驅(qū)動器又稱為固態(tài)驅(qū)動器(SSD),是用于性能敏感型應(yīng)用程序的超高性能的新一代驅(qū)動器。它的關(guān)鍵組件包括控制器、I/O接口、大容量存儲(存儲芯片的集合)和緩存。閃存驅(qū)動器使用基于半導(dǎo)體的固態(tài)內(nèi)存(閃存)存儲和檢索數(shù)據(jù)。與傳統(tǒng)機(jī)械磁盤驅(qū)動器不同,閃存驅(qū)動器不包含運(yùn)動部件,因此,它們沒有尋道和旋轉(zhuǎn)延遲。閃存驅(qū)動器可提供較高的IOPS,且響應(yīng)時(shí)間非常短。另外,作為基于半導(dǎo)體的設(shè)備,相比機(jī)械磁盤驅(qū)動器,閃存驅(qū)動器耗電更少。閃存驅(qū)動器尤其適用于數(shù)據(jù)塊大小較小的應(yīng)用程序和需要持續(xù)較低(低于1ms)響應(yīng)時(shí)間的隨機(jī)讀取工作負(fù)載,以及需要快速處理大量信息的應(yīng)用程序(如貨幣兌換、電子交易系統(tǒng)和實(shí)時(shí)數(shù)據(jù)源處理)等場合??傮w來說,閃存驅(qū)動器可降低總體擁有成本(TCO)。利用閃存驅(qū)動器,企業(yè)可使用更少的驅(qū)動器滿足應(yīng)用程序性能要求。這樣不但可以節(jié)約驅(qū)動器成本,而且可以節(jié)省電力、冷卻和空間消耗。驅(qū)動器的數(shù)量減少,管理存儲的成本也隨之降低了。6.3數(shù)據(jù)保護(hù):RAID6.3.1RAID的實(shí)現(xiàn)方式RAID有兩種實(shí)現(xiàn)方式:硬件RAID和軟件RAID。在軟件RAID實(shí)現(xiàn)中,主機(jī)中的軟件提供RAID功能并由操作系統(tǒng)實(shí)現(xiàn)。該方式具有成本較低和簡單直觀的優(yōu)點(diǎn),但是存在以下限制:(1)?軟件RAID會影響系統(tǒng)整體性能。這是因?yàn)樾枰~外的CPU周期來執(zhí)行RAID計(jì)算。(2)?軟件RAID并不支持所有的RAID級別。(3)?軟件RAID需與主機(jī)操作系統(tǒng)綁定,因此,對軟件RAID或操作系統(tǒng)升級進(jìn)行兼容性驗(yàn)證,會降低數(shù)據(jù)處理的靈活性。在硬件RAID實(shí)現(xiàn)中,可在主機(jī)或陣列中實(shí)現(xiàn)專用硬件控制器??刂破骺≧AID是基于主機(jī)的硬件RAID實(shí)現(xiàn)方式,專用RAID控制器安裝在主機(jī)上,并且所有磁盤驅(qū)動器均與主機(jī)相連;也可將RAID控制器集成到主板上。在包含大量主機(jī)的數(shù)據(jù)中心環(huán)境下基于主機(jī)的RAID控制器不是高效的解決方案。外部RAID控制器是基于陣列的硬件RAID,它充當(dāng)主機(jī)與磁盤之間的接口,將存儲卷提供給主機(jī),主機(jī)將這些存儲卷作為物理驅(qū)動器進(jìn)行管理。RAID控制器的主要功能包括:管理與控制磁盤聚合、轉(zhuǎn)換邏輯磁盤和物理磁盤之間的I/O請求、在磁盤出故障時(shí)重新生成數(shù)據(jù)。6.3.2RAID陣列的組成如圖6.9所示,RAID陣列是一個(gè)包含大量磁盤驅(qū)動器的存儲模塊,它支持通過硬件實(shí)現(xiàn)RAID。對RAID陣列中的磁盤子集進(jìn)行組合,可以形成一個(gè)稱為“邏輯陣列”的邏輯關(guān)聯(lián),也可以將其稱為RAID集或RAID組。6.3.3RAID技術(shù)分條、數(shù)據(jù)鏡像和奇偶校驗(yàn)等RAID技術(shù)構(gòu)成了RAID分級的基礎(chǔ),決定了RAID集的數(shù)據(jù)可用性和性能特點(diǎn)。1.?分條分條是一項(xiàng)跨越多個(gè)驅(qū)動器傳播數(shù)據(jù)以并行使用驅(qū)動器的技術(shù)。與從單個(gè)磁盤進(jìn)行讀取和寫入相比,所有讀/寫磁頭同時(shí)工作,從而允許在較短時(shí)間內(nèi)處理更多數(shù)據(jù)并提升性能。在RAID集的每個(gè)磁盤中,既定數(shù)量的連續(xù)編址磁盤塊定義為條塊??缭絉AID集中所有磁盤的一組對齊的條塊稱為條帶。條塊大小描述條塊中的數(shù)據(jù)塊數(shù)量,也是可以從集合中的單個(gè)磁盤讀取和寫入的最大數(shù)據(jù)量(。一個(gè)條帶中的所有條塊都具有相同的數(shù)據(jù)塊數(shù)。具有較小的條塊大小意味著在磁盤上分布數(shù)據(jù)時(shí)會將數(shù)據(jù)分成更小的部分。條帶大小是條塊大小與RAID集中數(shù)據(jù)磁盤數(shù)的乘積。條帶寬度是指條帶中數(shù)據(jù)條的數(shù)量。如果未使用奇偶校驗(yàn)或鏡像,分條RAID不會提供任何數(shù)據(jù)保護(hù)。2.?數(shù)據(jù)鏡像鏡像是一項(xiàng)將相同數(shù)據(jù)存儲在兩臺不同的磁盤驅(qū)動器上,從而生成兩個(gè)數(shù)據(jù)拷貝的技術(shù)。如果一臺磁盤驅(qū)動器出現(xiàn)故障,那么正常運(yùn)行的磁盤驅(qū)動器上的數(shù)據(jù)將完好無損,并且控制器可繼續(xù)通過鏡像對中仍正常運(yùn)行的磁盤來滿足主機(jī)的數(shù)據(jù)請求。在用新磁盤替換故障磁盤后,控制器會從鏡像對中仍正常運(yùn)行的磁盤上拷貝數(shù)據(jù)。該過程對主機(jī)是透明的。除了提供完善的數(shù)據(jù)冗余外,鏡像還支持從磁盤故障中快速恢復(fù)數(shù)據(jù)。但是,磁盤鏡像只提供數(shù)據(jù)保護(hù),而不能代替數(shù)據(jù)備份。鏡像會不斷捕獲數(shù)據(jù)更改,而備份則捕獲數(shù)據(jù)在某個(gè)時(shí)間點(diǎn)的映像。鏡像涉及數(shù)據(jù)復(fù)制,因而所需的存儲容量是存儲數(shù)據(jù)量的兩倍。因此,鏡像的成本較高,比較適合不能承擔(dān)任何數(shù)據(jù)丟失風(fēng)險(xiǎn)的任務(wù)關(guān)鍵型應(yīng)用程序。鏡像可提高讀取性能,因?yàn)橛袃膳_磁盤可以處理讀取請求,但是寫入性能稍弱于單個(gè)磁盤的性能,因?yàn)槊總€(gè)寫入請求在磁盤驅(qū)動器上都表現(xiàn)為兩次寫入。鏡像無法與分條RAID提供相同級別的寫入性能。3.?奇偶校驗(yàn)奇偶校驗(yàn)是一種既能為分條RAID提供數(shù)據(jù)保護(hù),又能避免鏡像所需開銷的方法,是一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論