管理信息系統(tǒng) 課件 第5章 管理信息系統(tǒng)技術(shù)基礎(chǔ)_第1頁
管理信息系統(tǒng) 課件 第5章 管理信息系統(tǒng)技術(shù)基礎(chǔ)_第2頁
管理信息系統(tǒng) 課件 第5章 管理信息系統(tǒng)技術(shù)基礎(chǔ)_第3頁
管理信息系統(tǒng) 課件 第5章 管理信息系統(tǒng)技術(shù)基礎(chǔ)_第4頁
管理信息系統(tǒng) 課件 第5章 管理信息系統(tǒng)技術(shù)基礎(chǔ)_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

5.1數(shù)據(jù)庫與數(shù)據(jù)倉(cāng)庫

5.2

通信與網(wǎng)絡(luò)

5.3

大數(shù)據(jù)和云計(jì)算5.1數(shù)據(jù)庫與數(shù)據(jù)倉(cāng)庫5.1.1數(shù)據(jù)庫管理系統(tǒng)1.?數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)庫管理系統(tǒng)是位于用戶與操作系統(tǒng)之間的一種數(shù)據(jù)管理軟件。數(shù)據(jù)庫管理系統(tǒng)使用戶能夠方便地定義數(shù)據(jù)和操縱數(shù)據(jù),并能夠保證數(shù)據(jù)的安全性、完整性,多用戶對(duì)數(shù)據(jù)的并發(fā)使用以及發(fā)生故障后的系統(tǒng)恢復(fù)。數(shù)據(jù)庫管理系統(tǒng)具備數(shù)據(jù)庫定義、數(shù)據(jù)庫操縱、數(shù)據(jù)庫保護(hù)和數(shù)據(jù)庫建立和維護(hù)等功能,它們實(shí)際上是由一組不同的程序模塊來完成的。不同的數(shù)據(jù)庫管理系統(tǒng),其功能不完全相同,因此它包含的程序模塊也不完全一致。例如,關(guān)系型數(shù)據(jù)庫管理系統(tǒng)沒有數(shù)據(jù)的物理描述語言,一些層次數(shù)據(jù)庫管理系統(tǒng)和網(wǎng)狀數(shù)據(jù)庫管理系統(tǒng)沒有查詢語言。2.?數(shù)據(jù)庫管理系統(tǒng)的分類數(shù)據(jù)庫管理系統(tǒng)的分類如表5.1所示。3.?數(shù)據(jù)庫管理系統(tǒng)的組成一般來說,數(shù)據(jù)庫管理系統(tǒng)由3部分組成:數(shù)據(jù)定義語言及其翻譯程序、數(shù)據(jù)操縱(或查詢)語言及其編譯(或解釋)程序、數(shù)據(jù)庫管理例行程序。其中,數(shù)據(jù)定義語言和數(shù)據(jù)操縱語言稱為數(shù)據(jù)庫語言。數(shù)據(jù)庫語言是用戶使用數(shù)據(jù)庫的接口,數(shù)據(jù)庫管理系統(tǒng)支持用戶通過數(shù)據(jù)庫語言進(jìn)行數(shù)據(jù)存取。1)?數(shù)據(jù)定義語言數(shù)據(jù)定義語言(DataDefinitionLanguage,DDL)通常被數(shù)據(jù)庫管理員或數(shù)據(jù)庫設(shè)計(jì)人員用來定義數(shù)據(jù)庫模式,如數(shù)據(jù)元素的名稱、特征、字域?qū)挾群拖嗷リP(guān)系,以及數(shù)據(jù)的密碼、完整性限定等。數(shù)據(jù)庫管理系統(tǒng)負(fù)責(zé)對(duì)數(shù)據(jù)定義語言進(jìn)行編譯,生成一系列元數(shù)據(jù),并將其存儲(chǔ)到數(shù)據(jù)字典或系統(tǒng)目錄中。2)?數(shù)據(jù)操縱語言數(shù)據(jù)操縱語言(DataManipulationLanguage,DML)通常用來對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行增加、刪除、修改、查詢。數(shù)據(jù)操縱語言有兩種類型:第一種是非過程化的數(shù)據(jù)操縱語言,用戶只需以交互方式指定“需要什么數(shù)據(jù)”,不必給出“如何獲得這些數(shù)據(jù)”,一個(gè)數(shù)據(jù)操縱語言語句可以檢索和處理一組記錄,因此是基于集合的。第二種是過程化的數(shù)據(jù)操縱語言語句,這種語言只能檢索和處理一組記錄,因此是基于記錄的;過程化的數(shù)據(jù)操縱語言必須嵌入某種程序設(shè)計(jì)語言中使用,被嵌入的程序設(shè)計(jì)語言稱為宿主語言(HostLanguage),如C、Java語言,嵌入的數(shù)據(jù)操縱語言稱為數(shù)據(jù)子語言(DataSub-Language)。3)?數(shù)據(jù)庫管理例行程序數(shù)據(jù)庫管理例行程序也隨著系統(tǒng)的不同而不同,通常由系統(tǒng)運(yùn)行控制程序、語言翻譯處理程序和數(shù)據(jù)庫管理系統(tǒng)的公共程序3部分組成。5.1.2數(shù)據(jù)庫系統(tǒng)結(jié)構(gòu)數(shù)據(jù)庫系統(tǒng)是一個(gè)完整的、復(fù)雜的系統(tǒng)。它不僅指數(shù)據(jù)庫和數(shù)據(jù)庫管理系統(tǒng)本身,還指引進(jìn)數(shù)據(jù)庫技術(shù)后的整個(gè)計(jì)算機(jī)系統(tǒng)。一般來說,數(shù)據(jù)庫系統(tǒng)由硬件、軟件、人員組成。數(shù)據(jù)庫系統(tǒng)的層次結(jié)構(gòu)如圖5.1所示。1.?硬件數(shù)據(jù)庫管理系統(tǒng)的硬件部分包括中央處理器、內(nèi)存、磁盤、磁帶以及其他外部設(shè)備。隨著數(shù)據(jù)庫中數(shù)據(jù)量的增大,以及數(shù)據(jù)庫管理系統(tǒng)規(guī)模的擴(kuò)大,除了要求重要處理器的運(yùn)算速度足夠快外,數(shù)據(jù)庫系統(tǒng)還要求硬件有足夠大的內(nèi)存、大容量的直接存取設(shè)備和高性能的數(shù)據(jù)通道傳輸能力。2.?軟件數(shù)據(jù)庫系統(tǒng)的軟件部分包括操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)、用于開發(fā)應(yīng)用程序的具有數(shù)據(jù)庫接口的高級(jí)語言及其編譯系統(tǒng)、以數(shù)據(jù)庫管理系統(tǒng)為核心的應(yīng)用開發(fā)工具、為某應(yīng)用環(huán)境開發(fā)的應(yīng)用系統(tǒng)。3.?人員管理、使用和開發(fā)數(shù)據(jù)庫的人員主要有數(shù)據(jù)庫管理員(DataBaseAdministrator,DBA)、系統(tǒng)分析員、數(shù)據(jù)庫設(shè)計(jì)人員、應(yīng)用程序員和最終用戶。他們不但熟悉操作系統(tǒng)、高級(jí)語言和數(shù)據(jù)庫管理系統(tǒng)等,而且對(duì)應(yīng)用系統(tǒng)的業(yè)務(wù)處理工作也很理解。1)?數(shù)據(jù)庫管理員數(shù)據(jù)庫管理員是專門監(jiān)督和管理數(shù)據(jù)庫系統(tǒng)的一個(gè)或一組人員,全面負(fù)責(zé)數(shù)據(jù)庫的管理和控制。其主要職責(zé)包括:定義數(shù)據(jù)庫的結(jié)構(gòu)和內(nèi)容;決定數(shù)據(jù)庫的存儲(chǔ)結(jié)構(gòu)和存儲(chǔ)策略;定義數(shù)據(jù)的安全性要求和完整性約束條件;監(jiān)控?cái)?shù)據(jù)庫的運(yùn)行和使用;負(fù)責(zé)數(shù)據(jù)庫的改進(jìn)和重構(gòu);規(guī)劃和實(shí)現(xiàn)數(shù)據(jù)庫信息的備份和恢復(fù);等等。2)?系統(tǒng)分析員系統(tǒng)分析員負(fù)責(zé)應(yīng)用系統(tǒng)的需求分析和規(guī)范說明,與數(shù)據(jù)庫管理員和用戶一起確定系統(tǒng)的硬件和軟件配置,并參與數(shù)據(jù)庫系統(tǒng)的概念設(shè)計(jì)。3)?數(shù)據(jù)庫設(shè)計(jì)人員數(shù)據(jù)庫設(shè)計(jì)人員一般由數(shù)據(jù)庫管理員兼任,負(fù)責(zé)數(shù)據(jù)庫中數(shù)據(jù)的確定與數(shù)據(jù)庫的存儲(chǔ)結(jié)構(gòu)、全局和局部邏輯結(jié)構(gòu)的設(shè)計(jì)。4)?應(yīng)用程序員應(yīng)用程序員負(fù)責(zé)設(shè)計(jì)、編寫、調(diào)試和安裝應(yīng)用系統(tǒng)程序模塊。5)?最終用戶最終用戶通過應(yīng)用程序的用戶接口,如瀏覽器、菜單、表格、圖形或報(bào)表等直觀的數(shù)據(jù)表示方式使用數(shù)據(jù)庫。5.1.3數(shù)據(jù)庫設(shè)計(jì)1.?數(shù)據(jù)庫設(shè)計(jì)的含義數(shù)據(jù)庫是管理信息系統(tǒng)開發(fā)和建設(shè)的核心技術(shù)。因此,數(shù)據(jù)庫設(shè)計(jì)在管理信息系統(tǒng)的開發(fā)中占有重要的位置,數(shù)據(jù)庫設(shè)計(jì)的好壞將直接影響整個(gè)系統(tǒng)的效率。數(shù)據(jù)庫設(shè)計(jì)是利用現(xiàn)有的數(shù)據(jù)庫管理系統(tǒng)來建立數(shù)據(jù)庫的,需要將數(shù)據(jù)庫管理系統(tǒng)與現(xiàn)實(shí)世界有機(jī)結(jié)合起來。數(shù)據(jù)庫設(shè)計(jì),尤其是大型數(shù)據(jù)庫的設(shè)計(jì)和開發(fā),是涉及多學(xué)科的綜合性技術(shù),因此數(shù)據(jù)庫設(shè)計(jì)人員需要同時(shí)具備數(shù)據(jù)庫系統(tǒng)及其實(shí)際應(yīng)用等方面的知識(shí)。他們不但要熟悉以數(shù)據(jù)庫管理系統(tǒng)為基礎(chǔ)的計(jì)算機(jī)系統(tǒng)、軟件工程的原理和方法,還要熟悉現(xiàn)實(shí)世界中處理的內(nèi)容??梢哉f,設(shè)計(jì)一個(gè)性能良好的數(shù)據(jù)庫并不是一項(xiàng)簡(jiǎn)單的工作。由于到目前為止還沒有一個(gè)完善的數(shù)據(jù)庫設(shè)計(jì)方法和工具,因此在數(shù)據(jù)庫設(shè)計(jì)中,數(shù)據(jù)庫設(shè)計(jì)人員的知識(shí)和經(jīng)驗(yàn)是首要的。對(duì)于同一個(gè)應(yīng)用對(duì)象,同一個(gè)數(shù)據(jù)庫管理系統(tǒng),不同數(shù)據(jù)庫設(shè)計(jì)人員設(shè)計(jì)的數(shù)據(jù)庫其性能可能會(huì)有較大的差異。這就要求一方面用戶要盡可能地對(duì)數(shù)據(jù)庫系統(tǒng)的應(yīng)用提出明確的需求,另一方面數(shù)據(jù)庫設(shè)計(jì)人員要使用規(guī)范的數(shù)據(jù)庫設(shè)計(jì)方法和工具。2.?數(shù)據(jù)庫設(shè)計(jì)的方法和工具由于信息結(jié)構(gòu)的復(fù)雜性和應(yīng)用對(duì)象的多樣性,傳統(tǒng)的數(shù)據(jù)庫設(shè)計(jì)主要采用手工試湊法。隨著研究人員的不斷探索,軟件工程技術(shù)被用于進(jìn)行數(shù)據(jù)庫設(shè)計(jì),因此數(shù)據(jù)庫設(shè)計(jì)更加規(guī)范,逐漸從一種技能向一個(gè)工程技術(shù)方向轉(zhuǎn)變。由于采用了規(guī)范化設(shè)計(jì)方法設(shè)計(jì)數(shù)據(jù)庫,因此數(shù)據(jù)庫的運(yùn)行更加穩(wěn)定,同時(shí)降低了信息系統(tǒng)的維護(hù)成本。典型的數(shù)據(jù)庫設(shè)計(jì)方法如下:(1)?新奧爾良(NewOrleans)的4個(gè)階段方法。這種方法將數(shù)據(jù)庫設(shè)計(jì)分為需求分析(用戶要求分析)、概念設(shè)計(jì)(信息分析和定義)、邏輯設(shè)計(jì)(設(shè)計(jì)實(shí)現(xiàn))和物理設(shè)計(jì)(物理數(shù)據(jù)庫設(shè)計(jì))4個(gè)階段。(2)?S.B.Yao方法。S.B.Yao等人將數(shù)據(jù)庫設(shè)計(jì)分為需求分析、模式構(gòu)成、模式匯總、模式重構(gòu)、模式分析和物理數(shù)據(jù)庫設(shè)計(jì)6個(gè)步驟。(3)?L.R.Palmer方法。L.R.Palmer等人認(rèn)為數(shù)據(jù)庫設(shè)計(jì)應(yīng)該為一步接一步的過程,并采用一些輔助手段來實(shí)現(xiàn)。E-R圖、第三范式、抽象語言規(guī)范等數(shù)據(jù)庫設(shè)計(jì)方法是用于數(shù)據(jù)庫設(shè)計(jì)不同階段的具體技術(shù)和方法。數(shù)據(jù)庫設(shè)計(jì)方法的基本思想是過程迭代和逐步求精。目前,數(shù)據(jù)庫設(shè)計(jì)工具已經(jīng)有一批實(shí)用化產(chǎn)品。例如,OracleDesigner和PowerDesigner分別是Oracle公司和Sybase公司推出的數(shù)據(jù)庫設(shè)計(jì)工具。這些工具可以自動(dòng)或輔助數(shù)據(jù)庫設(shè)計(jì)人員完成數(shù)據(jù)庫設(shè)計(jì)過程中的許多任務(wù)。目前,許多計(jì)算機(jī)輔助軟件工程(ComputerAidedSoftwareEngineering,CASE)工具使得數(shù)據(jù)庫設(shè)計(jì)和應(yīng)用可以同時(shí)進(jìn)行,被廣泛應(yīng)用于大型數(shù)據(jù)庫的設(shè)計(jì)。3.?數(shù)據(jù)庫設(shè)計(jì)的過程數(shù)據(jù)庫系統(tǒng)的開發(fā)過程包括數(shù)據(jù)庫系統(tǒng)設(shè)計(jì)階段、數(shù)據(jù)庫系統(tǒng)實(shí)施階段、數(shù)據(jù)庫系統(tǒng)使用階段。其中,數(shù)據(jù)庫系統(tǒng)設(shè)計(jì)階段的主要步驟包括需求分析、概念結(jié)構(gòu)設(shè)計(jì)、邏輯結(jié)構(gòu)設(shè)計(jì)和物理結(jié)構(gòu)設(shè)計(jì)。數(shù)據(jù)庫系統(tǒng)實(shí)施階段的主要步驟包括應(yīng)用程序設(shè)計(jì)與調(diào)試、系統(tǒng)性能測(cè)試與試運(yùn)行。數(shù)據(jù)庫系統(tǒng)使用階段的主要步驟包括數(shù)據(jù)庫系統(tǒng)運(yùn)行與維護(hù)、數(shù)據(jù)庫系統(tǒng)重構(gòu)。5.1.4數(shù)據(jù)倉(cāng)庫在數(shù)據(jù)倉(cāng)庫出現(xiàn)以前(1965—1990年),企業(yè)主要使用事務(wù)處理系統(tǒng),這個(gè)狀況持續(xù)了25年,人們將其稱為“遺留系統(tǒng)”環(huán)境。事務(wù)處理系統(tǒng)主要實(shí)現(xiàn)了數(shù)據(jù)的收集、數(shù)據(jù)的存儲(chǔ)、數(shù)據(jù)的在線存取。隨著時(shí)間的推移,企業(yè)數(shù)據(jù)庫中存儲(chǔ)了大量數(shù)據(jù),但是由于缺乏從海量數(shù)據(jù)中提取有價(jià)值知識(shí)的工具,因此管理者往往無法及時(shí)獲得重要的決策信息,數(shù)據(jù)庫變成了“數(shù)據(jù)豐富,信息貧乏”的“數(shù)據(jù)墳?zāi)埂?,于是產(chǎn)生了現(xiàn)在的數(shù)據(jù)倉(cāng)庫技術(shù)。1.數(shù)據(jù)倉(cāng)庫和數(shù)據(jù)倉(cāng)庫系統(tǒng)的定義著名的數(shù)據(jù)倉(cāng)庫專家W.H.Inmon在其著作《建立數(shù)據(jù)倉(cāng)庫》(BuildingtheDataWarehouse)中對(duì)數(shù)據(jù)倉(cāng)庫做了如下描述:“數(shù)據(jù)倉(cāng)庫是一個(gè)面向主題的、集成的、隨時(shí)間變化的、相對(duì)穩(wěn)定的數(shù)據(jù)集合,用于支持管理決策?!痹摱x將數(shù)據(jù)倉(cāng)庫與其他數(shù)據(jù)存儲(chǔ)系統(tǒng)(如關(guān)系數(shù)據(jù)庫系統(tǒng)和文件系統(tǒng))相區(qū)別。對(duì)于數(shù)據(jù)倉(cāng)庫的概念,可以從兩個(gè)層次予以理解。首先,數(shù)據(jù)倉(cāng)庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉(cāng)庫是多個(gè)異構(gòu)的數(shù)據(jù)源的有效集成,集成后按照主題對(duì)其進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)一般不再進(jìn)行修改。根據(jù)Inmon提出的數(shù)據(jù)倉(cāng)庫的概念,數(shù)據(jù)倉(cāng)庫具有以下特性:(1)?面向主題:數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)是按照一定的主題進(jìn)行組織的。主題是一個(gè)抽象的概念,是指用戶使用數(shù)據(jù)倉(cāng)庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)事務(wù)型信息系統(tǒng)相關(guān)。企業(yè)數(shù)據(jù)倉(cāng)庫常見的主題包括客戶、供應(yīng)商、產(chǎn)品和銷售等。(2)?集成:數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)是對(duì)來自多個(gè)分散的、異構(gòu)的數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行抽取、清理,并對(duì)其進(jìn)行加工、匯總和整理而得到的。在這一過程中,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。(3)?隨時(shí)間變化:數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)地記錄了企業(yè)從過去某一時(shí)刻(如開始應(yīng)用數(shù)據(jù)倉(cāng)庫的時(shí)刻)到目前各個(gè)階段的信息,通過這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來發(fā)展趨勢(shì)做出定量分析和預(yù)測(cè)。(4)?不可更新:數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)主要供企業(yè)進(jìn)行決策分析使用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,某個(gè)數(shù)據(jù)一旦進(jìn)入數(shù)據(jù)倉(cāng)庫,一般情況下將長(zhǎng)期保留。也就是說,數(shù)據(jù)倉(cāng)庫中有大量的查詢操作,但修改和刪除操作較少,一般只進(jìn)行定期的加載和刷新。一個(gè)完整的數(shù)據(jù)倉(cāng)庫系統(tǒng)的定義是:數(shù)據(jù)倉(cāng)庫系統(tǒng)=抽取/轉(zhuǎn)換/加載+數(shù)據(jù)倉(cāng)庫+聯(lián)機(jī)分析處理+數(shù)據(jù)挖掘+決策支持。由該定義可以看出,數(shù)據(jù)倉(cāng)庫系統(tǒng)涉及眾多關(guān)鍵技術(shù),包括數(shù)據(jù)預(yù)處理技術(shù)、數(shù)據(jù)倉(cāng)庫建模技術(shù)、數(shù)據(jù)立方體技術(shù)、聯(lián)機(jī)分析處理技術(shù)、數(shù)據(jù)挖掘技術(shù)、決策支持技術(shù)等,合理使用這些關(guān)鍵技術(shù)是數(shù)據(jù)倉(cāng)庫系統(tǒng)構(gòu)建成功的關(guān)鍵。2.數(shù)據(jù)倉(cāng)庫系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫的建立可以看作構(gòu)造和使用數(shù)據(jù)倉(cāng)庫的過程。構(gòu)造數(shù)據(jù)倉(cāng)庫需要進(jìn)行數(shù)據(jù)集成、數(shù)據(jù)清理和數(shù)據(jù)統(tǒng)一。數(shù)據(jù)倉(cāng)庫不是靜態(tài)的,它的任務(wù)是以企業(yè)現(xiàn)行業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ),將這些業(yè)務(wù)數(shù)據(jù)和信息加以整理、歸納和重組,并及時(shí)提供給相應(yīng)的管理者。因此,從企業(yè)角度看,建立數(shù)據(jù)倉(cāng)庫既是一個(gè)過程,也是一項(xiàng)工程。數(shù)據(jù)倉(cāng)庫系統(tǒng)體系結(jié)構(gòu)包含4個(gè)層次,如圖5.4所示。5.1.5聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘1.聯(lián)機(jī)分析處理技術(shù)的基本概念在線分析處理或聯(lián)機(jī)分析處理(OLAP)是一項(xiàng)廣泛應(yīng)用的數(shù)據(jù)倉(cāng)庫應(yīng)用技術(shù)。數(shù)據(jù)倉(cāng)庫中的信息資源要想被有效利用,就必須使用分析工具。聯(lián)機(jī)分析處理就是專門用于復(fù)雜決策分析的一種決策分析工具。它根據(jù)分析人員的要求,迅速、靈活地對(duì)大量數(shù)據(jù)進(jìn)行復(fù)雜的查詢處理,并且以直觀的、容易理解的形式呈現(xiàn)查詢結(jié)果,將其提供給決策人員,使其能夠迅速、準(zhǔn)確地掌握企業(yè)的運(yùn)營(yíng)情況和市場(chǎng)的需求。聯(lián)機(jī)分析處理技術(shù)有兩個(gè)特點(diǎn):一是在線性(On-Line),表現(xiàn)為對(duì)用戶請(qǐng)求的快速響應(yīng)和交互式操作,它的實(shí)現(xiàn)是由客戶-服務(wù)器結(jié)構(gòu)完成的;二是采用多維數(shù)據(jù)庫進(jìn)行多維分析(MultidimensionalAnalysis),它是聯(lián)機(jī)分析處理技術(shù)的核心。聯(lián)機(jī)分析處理主要針對(duì)特定問題的聯(lián)機(jī)數(shù)據(jù)進(jìn)行查詢和分析。在查詢和分析匯總時(shí),系統(tǒng)首先要對(duì)原始數(shù)據(jù)按照用戶的要求進(jìn)行轉(zhuǎn)換處理,使這些數(shù)據(jù)真正反映用戶眼中問題的某個(gè)真實(shí)方面(“維”);然后以各種可能的方式對(duì)這些數(shù)據(jù)進(jìn)行快速、穩(wěn)定、一致和交互式的存取操作,并允許用戶按照需要對(duì)數(shù)據(jù)進(jìn)行深入的觀察。2.數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn),它是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的人們事先不知道、但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘已被數(shù)據(jù)庫界廣泛研究,其中關(guān)聯(lián)規(guī)則的挖掘是一個(gè)重要的問題。數(shù)據(jù)挖掘使用了人工智能和傳統(tǒng)的統(tǒng)計(jì)學(xué)方法。它與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)表、聯(lián)機(jī)分析處理等)的本質(zhì)區(qū)別在于:數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)的。因此,數(shù)據(jù)挖掘得到的信息具有預(yù)先未知的、有效的和實(shí)用的3個(gè)特征。企業(yè)進(jìn)行數(shù)據(jù)挖掘,就是企業(yè)按照既定的業(yè)務(wù)目標(biāo)對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的過程。其中,未知的規(guī)律是指未曾被預(yù)料到的規(guī)律,數(shù)據(jù)挖掘就是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識(shí),有時(shí)可能是違背直覺的,甚至是出人意料的信息或知識(shí)。3.數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫大部分情況下,進(jìn)行數(shù)據(jù)挖掘前都要先把數(shù)據(jù)從數(shù)據(jù)倉(cāng)庫中拿到數(shù)據(jù)挖掘庫或數(shù)據(jù)集市中。由于數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)已被清理過,而且所有數(shù)據(jù)不一致的問題都已被解決了,因此對(duì)數(shù)據(jù)倉(cāng)庫中的數(shù)據(jù)進(jìn)行挖掘比較合適。但是,如果數(shù)據(jù)倉(cāng)庫的計(jì)算資源很緊張,那么最好建立一個(gè)單獨(dú)的數(shù)據(jù)挖掘庫。數(shù)據(jù)挖掘庫可以是數(shù)據(jù)倉(cāng)庫的一個(gè)邏輯上的子集,而不一定是物理上單獨(dú)的數(shù)據(jù)庫。4.數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘過程必須在一定的環(huán)境中進(jìn)行。數(shù)據(jù)挖掘環(huán)境如圖5.6所示。整個(gè)數(shù)據(jù)挖掘過程是交互的、與領(lǐng)域相關(guān)的,需要設(shè)計(jì)人員,特別是具有領(lǐng)域知識(shí)、經(jīng)驗(yàn)的專家參與,它并不是一個(gè)全自動(dòng)化的過程。數(shù)據(jù)挖掘的基本過程如圖5.7所示。5.2通?信?與?網(wǎng)?絡(luò)5.2.1計(jì)算機(jī)網(wǎng)絡(luò)1.計(jì)算機(jī)網(wǎng)絡(luò)的概念計(jì)算機(jī)網(wǎng)絡(luò)是利用通信設(shè)備和通信介質(zhì)將地理位置分散的、具有獨(dú)立功能的多臺(tái)計(jì)算機(jī)連接起來,按照協(xié)議進(jìn)行數(shù)據(jù)通信,以實(shí)現(xiàn)信息傳遞和資源共享的系統(tǒng)。網(wǎng)絡(luò)按照其物理范圍可以分為局域網(wǎng)、城域網(wǎng)和廣域網(wǎng)。局域網(wǎng)的范圍在幾公里以內(nèi),一般企業(yè)的內(nèi)部網(wǎng)、校園網(wǎng)等都是典型的局域網(wǎng)。城域網(wǎng)是指一座城市的主干網(wǎng),范圍可達(dá)幾十公里,用于連接政府機(jī)構(gòu)、教育科研單位、企事業(yè)等單位內(nèi)部的局域網(wǎng),實(shí)現(xiàn)網(wǎng)絡(luò)間的通信。廣域網(wǎng)所覆蓋的范圍從幾十公里到幾千公里,用來實(shí)現(xiàn)不同地區(qū)的局域網(wǎng)或城域網(wǎng)的互聯(lián),可以提供不同地區(qū)、城市和國(guó)家計(jì)算機(jī)之間的通信。要實(shí)現(xiàn)通信,離不開通信介質(zhì)。通信介質(zhì)可以分為有線和無線兩大類。有線介質(zhì)包括雙絞線、同軸電纜和光纖。其中,雙絞線和同軸電纜為金屬導(dǎo)體,利用導(dǎo)線電流傳輸數(shù)據(jù);光纖則通過光波實(shí)現(xiàn)數(shù)據(jù)傳送。衛(wèi)星通信、紅外通信、激光通信以及微波通信屬于無線通信范疇,它們利用電磁波傳輸數(shù)據(jù)。2.計(jì)算機(jī)網(wǎng)絡(luò)的功能計(jì)算機(jī)網(wǎng)絡(luò)的功能包括支持?jǐn)?shù)據(jù)通信、實(shí)現(xiàn)資源共享、增加可靠性、提高系統(tǒng)處理能力等。1)?支持?jǐn)?shù)據(jù)通信現(xiàn)代社會(huì)信息量激增,信息交互也日益增多,早期每年有幾萬噸郵政信件要傳遞,利用計(jì)算機(jī)網(wǎng)絡(luò)傳遞信件是當(dāng)前流行的傳遞方式。電子郵件比傳統(tǒng)的通信工具有更多的優(yōu)點(diǎn),它不像電話需要通話者同時(shí)在場(chǎng),也不像廣播系統(tǒng)只是單方向傳遞信息,在速度上比傳統(tǒng)郵件快得多。另外,電子郵件還可以攜帶聲音、圖像和視頻,實(shí)現(xiàn)多媒體通信。即時(shí)通信也越來越受到人們,特別是年輕人的喜愛。QQ和微信是目前較流行的聊天工具,可以實(shí)時(shí)地在通信雙方之間傳遞文字、聲音甚至視頻信息。2)?實(shí)現(xiàn)資源共享在計(jì)算機(jī)網(wǎng)絡(luò)中,有許多重要的資源,如大型數(shù)據(jù)庫、巨型計(jì)算機(jī)等,為了充分利用這些資源,應(yīng)該進(jìn)行資源共享。資源共享包括硬件資源的共享,也包括軟件資源的共享。資源共享的結(jié)果是避免重復(fù)投資和勞動(dòng),從而提高資源的利用率,使系統(tǒng)的整體性能價(jià)格比得到改善?,F(xiàn)代管理信息系統(tǒng)以數(shù)據(jù)庫為核心,數(shù)據(jù)庫中存放了企業(yè)的各種數(shù)據(jù),這些數(shù)據(jù)是企業(yè)的寶貴資源。利用計(jì)算機(jī)網(wǎng)絡(luò),這些數(shù)據(jù)資源可以很方便地傳遞到需要它的用戶手里。3)?增加可靠性在一個(gè)系統(tǒng)內(nèi),單個(gè)部件或單臺(tái)計(jì)算機(jī)的暫時(shí)失效必須通過替換資源的辦法來維持系統(tǒng)的繼續(xù)運(yùn)行。在計(jì)算機(jī)網(wǎng)絡(luò)中,各種資源(尤其是程序和數(shù)據(jù))可以存放在多臺(tái)計(jì)算機(jī)中,一旦一臺(tái)計(jì)算機(jī)出現(xiàn)故障,就可以將任務(wù)交由網(wǎng)絡(luò)中的其他計(jì)算機(jī)完成,不會(huì)出現(xiàn)單機(jī)在無后備的情況下產(chǎn)生故障使全系統(tǒng)癱瘓的現(xiàn)象,從而提高了全系統(tǒng)提供服務(wù)的可靠性。4)?提高系統(tǒng)處理能力單機(jī)的處理能力是有限的,而且由于種種原因(如時(shí)差),計(jì)算機(jī)之間的忙閑程度是不均勻的。當(dāng)一臺(tái)機(jī)器不能完成處理任務(wù)時(shí),可以按照一定的算法將任務(wù)交給不同的計(jì)算機(jī)分工協(xié)作完成,達(dá)到均衡地使用網(wǎng)絡(luò)資源進(jìn)行分布式處理的目的。利用網(wǎng)絡(luò)技術(shù),能夠?qū)⒍嗯_(tái)計(jì)算機(jī)聯(lián)成高性能的計(jì)算機(jī)系統(tǒng),使用這種系統(tǒng)解決大型復(fù)雜的問題,其費(fèi)用比采用高性能的大中型計(jì)算機(jī)低得多,甚至能夠解決連超級(jí)計(jì)算機(jī)也解決不了的問題。目前,即時(shí)通信和電子郵件已成為人們重要的通信手段。視頻點(diǎn)播、網(wǎng)絡(luò)游戲、博客、微博、微信、社交網(wǎng)絡(luò)、網(wǎng)絡(luò)社區(qū)以及電子商務(wù)正逐漸走入普通百姓的生活、學(xué)習(xí)和工作當(dāng)中。在未來,誰擁有“信息資源”,誰能有效使用“信息資源”,誰就能在各種競(jìng)爭(zhēng)中占據(jù)主導(dǎo)地位。計(jì)算機(jī)網(wǎng)絡(luò)作為信息收集、存儲(chǔ)、傳輸、處理和利用的整體系統(tǒng),將在信息社會(huì)中得到更加廣泛的應(yīng)用。隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,各種網(wǎng)絡(luò)應(yīng)用層出不窮,并將逐漸深入社會(huì)的各個(gè)領(lǐng)域及人們的日常生活,改變著人們的工作、學(xué)習(xí)和生活乃至思維方式。3.網(wǎng)絡(luò)體系結(jié)構(gòu)由于計(jì)算機(jī)網(wǎng)絡(luò)很復(fù)雜,設(shè)計(jì)的軟件和硬件技術(shù)很多,由此應(yīng)該將其分層設(shè)計(jì)實(shí)現(xiàn)。計(jì)算機(jī)網(wǎng)絡(luò)各層及其協(xié)議的集合稱為網(wǎng)絡(luò)體系結(jié)構(gòu)。網(wǎng)絡(luò)體系結(jié)構(gòu)一般用模型來表達(dá)。1)?OSI模型在20世紀(jì)80年代早期,國(guó)際標(biāo)準(zhǔn)化組織(ISO)即開始致力于制定一套普遍適用的規(guī)范集合,以使得全球范圍的計(jì)算機(jī)平臺(tái)可以進(jìn)行開放式通信。國(guó)際標(biāo)準(zhǔn)化組織創(chuàng)建了一個(gè)有助于開發(fā)和理解計(jì)算機(jī)的通信模型,即開放系統(tǒng)互聯(lián)(OpenSystemsInterconnection,OSI)模型。OSI模型將網(wǎng)絡(luò)體系結(jié)構(gòu)劃分為七層:物理層、數(shù)據(jù)鏈路層、網(wǎng)絡(luò)層、傳輸層、會(huì)話層、表示層和應(yīng)用層,如圖5.8所示。OSI模型各層的主要功能如表5.2所示。2)?TCP/IP模型TCP/IP模型是由傳輸控制協(xié)議/互聯(lián)網(wǎng)協(xié)議(TransmissionControlProtocol/InternetProtocol,TCP/IP)及各協(xié)議之間的關(guān)系來描述的。通過TCP/IP,不同操作系統(tǒng)、不同架構(gòu)的多種物理網(wǎng)絡(luò)之間均可進(jìn)行通信。TCP/IP協(xié)議族的層次與OSI模型的層次并不大嚴(yán)格對(duì)應(yīng)。TCP/IP模型是四層結(jié)構(gòu),圖5.9描述了TCP/IP模型和OSI模型之間大體上的對(duì)應(yīng)關(guān)系。TCP/IP在網(wǎng)絡(luò)接口層并沒有定義具體的協(xié)議,它可以利用其他網(wǎng)絡(luò)所定義的底層協(xié)議。網(wǎng)際層對(duì)應(yīng)OSI模型的網(wǎng)絡(luò)層,主要通過IP來處理數(shù)據(jù)分組。傳輸層與OSI模型的傳輸層功能相同,提供了兩個(gè)傳輸層協(xié)議:可靠的面向連接的傳輸控制協(xié)議(TCP)和無線連接的用戶數(shù)據(jù)報(bào)協(xié)議(UDP)。應(yīng)用層包括所有高層協(xié)議。在TCP/IP模型中,IP是其核心,所有的數(shù)據(jù)傳輸都是通過IP完成的。IP是一個(gè)分組交換協(xié)議。IP只負(fù)責(zé)將數(shù)據(jù)分組傳送到目的主機(jī),無論傳輸正確與否,不做驗(yàn)證,不發(fā)確認(rèn),也不保證數(shù)據(jù)分組的到達(dá)順序,而這些問題是由傳輸層的TCP來解決的。TCP為應(yīng)用層提供了可靠的、無差錯(cuò)的通信服務(wù)。在數(shù)據(jù)分組到達(dá)目的地址后,TCP檢查數(shù)據(jù)分組在傳輸過程中是否有錯(cuò)誤,如果接收端發(fā)現(xiàn)有損壞的數(shù)據(jù)分組,就要求發(fā)送端重新發(fā)送被損壞的數(shù)據(jù)分組,確認(rèn)無誤后再將數(shù)據(jù)分組重新組合成完整的報(bào)文。5.2.2計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)1.?InternetInternet即在TCP/IP協(xié)議下實(shí)現(xiàn)的全球性的互聯(lián)網(wǎng)絡(luò)。Internet可以連接各種各樣的計(jì)算機(jī)系統(tǒng)和計(jì)算機(jī)網(wǎng)絡(luò),不論是微型的計(jì)算機(jī)還是大/中型計(jì)算機(jī),不論是局域網(wǎng)還是廣域網(wǎng),不管它們?cè)谑澜缟先魏蔚胤剑灰裱璗CP/IP協(xié)議,就可以連入Internet。Internet提供了豐富的、瞬息萬變的信息資源,成為人們獲取信息的一種方便、快捷、有效的手段,可是說是信息社會(huì)的重要支柱。2.?IntranetIntranet(企業(yè)內(nèi)聯(lián)網(wǎng))是把Internet技術(shù)應(yīng)用到企業(yè)內(nèi)部建立的基于開放技術(shù)的新型網(wǎng)絡(luò)體系結(jié)構(gòu),可以說是組織內(nèi)部的Internet。Intranet采用瀏覽器/服務(wù)器(Browser/Server,B/S)系統(tǒng)結(jié)構(gòu)。這種結(jié)構(gòu)實(shí)質(zhì)上是C/S結(jié)構(gòu)在新的技術(shù)條件下的延伸。在傳統(tǒng)的C/S結(jié)構(gòu)中,Server僅作為數(shù)據(jù)庫服務(wù)器,進(jìn)行數(shù)據(jù)的管理,大量的應(yīng)用程序都在客戶端進(jìn)行。這樣,每個(gè)客戶都必須安裝應(yīng)用程序和工具,因而,客戶端很復(fù)雜,系統(tǒng)的靈活性、可擴(kuò)展性都受到很大的影響。在Intranet結(jié)構(gòu)下,C/S結(jié)構(gòu)自然延伸為三層或多層結(jié)構(gòu),形成B/S應(yīng)用模式。在這種方式下,Web服務(wù)器既是瀏覽服務(wù)器,又是應(yīng)用服務(wù)器,可以運(yùn)行大量的應(yīng)用程序,從而使客戶端變得很簡(jiǎn)單。3.?虛擬專網(wǎng)(VirtualPrivateNetworks,VPN)如果一家企業(yè)是分布式的,外地員工需要像通過局域網(wǎng)一樣訪問企業(yè)內(nèi)部數(shù)據(jù),在過去,只能通過調(diào)制解調(diào)器或遠(yuǎn)程訪問服務(wù)器訪問局域網(wǎng)內(nèi)部數(shù)據(jù)。這種方式不僅價(jià)格昂貴,而且傳輸速度慢。虛擬專網(wǎng)采用加密、認(rèn)證和通道技術(shù),提供了Internet上兩點(diǎn)間的安全通信。這樣,對(duì)采用Internet技術(shù)的企業(yè)而言,好像有了一個(gè)專用的廣域網(wǎng)一樣。由于虛擬專網(wǎng)是在Internet的點(diǎn)對(duì)點(diǎn)通信,不僅適合于移動(dòng)或者遠(yuǎn)程用戶,而且適用于分公司和總公司之間以及企業(yè)與供應(yīng)商、分銷商之間的通信等,從而構(gòu)成了安全的Extranet。在虛擬專網(wǎng)中,采用了協(xié)議通道技術(shù),數(shù)據(jù)包首先被加密,然后封裝到IP包中并通過Internet傳輸,在目的端由特定的主機(jī)或路由器解密。4.?ExtranetExtranet即擴(kuò)展的Intranet(ExtendedIntranet),它通過Internet把分散在不同地理位置的Intranet聯(lián)系起來。Internet不能提供數(shù)據(jù)傳輸過程的安全性,而采用Extranet進(jìn)行遠(yuǎn)程系統(tǒng)通信時(shí),可利用通道技術(shù)提高通信兩端的安全性級(jí)別。Extranet通過虛擬專用網(wǎng)絡(luò)方式使企業(yè)與其他企業(yè)或客戶聯(lián)系起來,完成共同目標(biāo)的合作網(wǎng)絡(luò)。Extranet既不像Internet那樣提供公共服務(wù),也不像Intranet那樣僅僅提供對(duì)內(nèi)服務(wù),它可以有選擇地向公眾開放其服務(wù)或向有選擇的合作者開發(fā)其服務(wù),為電子商務(wù)或其他商業(yè)應(yīng)用提供安全廣域網(wǎng)平臺(tái)。通常情況下,Extranet只是Intranet和Internet基礎(chǔ)設(shè)施上的邏輯覆蓋,而不是物理網(wǎng)絡(luò)的重構(gòu)。5.3大數(shù)據(jù)和云計(jì)算5.3.1大數(shù)據(jù)1.?大數(shù)據(jù)的概念大數(shù)據(jù)不是一個(gè)確切的概念,根據(jù)維基百科的定義,大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)的產(chǎn)生是計(jì)算機(jī)和網(wǎng)絡(luò)通信技術(shù)廣泛應(yīng)用的結(jié)果,而互聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等新一代信息技術(shù)的發(fā)展,對(duì)大數(shù)據(jù)的產(chǎn)生起到了催化劑的作用,由此帶來了四大變化:一是數(shù)據(jù)由企業(yè)內(nèi)部向企業(yè)外部擴(kuò)展;二是數(shù)據(jù)由Web1.0向Web2.0擴(kuò)展;三是數(shù)據(jù)由互聯(lián)網(wǎng)向移動(dòng)互聯(lián)網(wǎng)擴(kuò)展;四是數(shù)據(jù)由計(jì)算機(jī)/互聯(lián)網(wǎng)向物聯(lián)網(wǎng)擴(kuò)展。這四個(gè)變化,讓數(shù)據(jù)產(chǎn)生的源頭數(shù)量成倍地增加,數(shù)據(jù)量也大幅度地增長(zhǎng)。大數(shù)據(jù)不只是數(shù)據(jù)規(guī)模大,更由于其多樣性、非結(jié)構(gòu)化特征明顯導(dǎo)致數(shù)據(jù)存儲(chǔ)、處理和挖掘異常困難。業(yè)界通常用4個(gè)V,即數(shù)據(jù)體量巨大(Volume)、數(shù)據(jù)類型繁多(Variety)、數(shù)據(jù)流動(dòng)快(Velocity)、價(jià)值密度低(Value)來概括大數(shù)據(jù)的特征。2.?大數(shù)據(jù)分析的特征與傳統(tǒng)的數(shù)據(jù)分析方法相比,大數(shù)據(jù)時(shí)代數(shù)據(jù)分析的轉(zhuǎn)變可以用更多、更雜、更好三個(gè)特征來描述。(1)?更多:不是隨機(jī)樣本,而是全體數(shù)據(jù)。(2)?更雜:不是精確性,而是混雜性。(3)?更好:不是因果關(guān)系,而是相關(guān)關(guān)系。3.?大數(shù)據(jù)處理的總體架構(gòu)與關(guān)鍵技術(shù)大數(shù)據(jù)應(yīng)用需要一個(gè)統(tǒng)一的平臺(tái),使得用戶能夠在統(tǒng)一的平臺(tái)上對(duì)不同類型的數(shù)據(jù)進(jìn)行處理和存儲(chǔ),集成各種工具和服務(wù)來管理異構(gòu)存儲(chǔ)環(huán)境下的各類數(shù)據(jù),并建立一個(gè)實(shí)時(shí)預(yù)測(cè)分析解決方案,整合結(jié)構(gòu)化的數(shù)據(jù)倉(cāng)庫和非結(jié)構(gòu)化的分析工具。在這個(gè)大數(shù)據(jù)平臺(tái)上,用戶可以在任何時(shí)間、任何地點(diǎn)通過任何設(shè)備進(jìn)行大數(shù)據(jù)的集中共享和協(xié)同訪問。1)?大數(shù)據(jù)平臺(tái)Hadoop的總體架構(gòu)大數(shù)據(jù)的產(chǎn)生、組織和處理主要通過分布式文件處理系統(tǒng)來實(shí)現(xiàn),其主流的技術(shù)是Hadoop+MapReduce。Apache基金會(huì)發(fā)布了基于開源技術(shù)的大數(shù)據(jù)平臺(tái)Hadoop的總體架構(gòu),如圖5.11所示。2)?大數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)HDFS即Hadoop分布式文件系統(tǒng)(HadoopDistributedSystem),前身為Google文件系統(tǒng)(GoogleFileSystem,GFS),運(yùn)行于大規(guī)模集群之上,集群由廉價(jià)的普通計(jì)算機(jī)構(gòu)成。整個(gè)文件系統(tǒng)采用的是元數(shù)據(jù)集中管理與數(shù)據(jù)塊分散存儲(chǔ)相結(jié)合的模式,并通過數(shù)據(jù)復(fù)制來實(shí)現(xiàn)高度容錯(cuò)。HBase即Hadoop數(shù)據(jù)庫,是GoogleBigtable的開源實(shí)現(xiàn)。HBase建立在HDFS之上,提供高可靠性、高性能、列存儲(chǔ)、可伸縮、實(shí)時(shí)讀寫的分布式非關(guān)系型(NotOnlySQL,NoSQL)數(shù)據(jù)庫系統(tǒng)。3)?大數(shù)據(jù)處理框架MapReduce是一個(gè)分布式計(jì)算軟件框架?;贛apReduce編寫的應(yīng)用程序能夠運(yùn)行在由普通計(jì)算機(jī)組成的大規(guī)模集群之上,并以一種可靠、容錯(cuò)的方式并行處理TB級(jí)以上的數(shù)據(jù)集,特別適合用于海量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合處理。MapReduce采用先分后合的數(shù)據(jù)處理方式。Map即“分解”,把海量數(shù)據(jù)分割成了若干部分,分給多臺(tái)處理器并行處理;Reduce即“合并”,對(duì)各臺(tái)處理器處理后的結(jié)果進(jìn)行匯總操作以得到最終結(jié)果。4)?大數(shù)據(jù)訪問框架大數(shù)據(jù)訪問框架實(shí)現(xiàn)了對(duì)傳統(tǒng)關(guān)系數(shù)據(jù)庫和Hadoop的訪問,其主流技術(shù)包括Mahout、Pig、Hive、Sqoop等。Mahout:一個(gè)很強(qiáng)大的數(shù)據(jù)挖掘工具,是一個(gè)分布式機(jī)器學(xué)習(xí)算法的集合。Mahout最大的優(yōu)點(diǎn)就是基于Hadoop實(shí)現(xiàn),把很多以前運(yùn)行于單機(jī)上的算法,轉(zhuǎn)化為了MapReduce模式,這樣大大提升了算法可處理的數(shù)據(jù)量和處理性能。Pig:基于Hadoop的數(shù)據(jù)流處理語言,可以將類SQL的數(shù)據(jù)分析請(qǐng)求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的MapReduce運(yùn)算。Hive:一個(gè)數(shù)據(jù)倉(cāng)庫工具,是MapReduce實(shí)現(xiàn)的用來查詢和分析結(jié)構(gòu)化數(shù)據(jù)的中間件。Hive的類SQL查詢語言可以查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)。Sqoop:用于在Hadoop與傳統(tǒng)的數(shù)據(jù)庫間進(jìn)行數(shù)據(jù)的傳遞,它可以將一個(gè)關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入Hadoop的HDFS,也可以將HDFS的數(shù)據(jù)導(dǎo)入關(guān)系數(shù)據(jù)庫。5)?大數(shù)據(jù)服務(wù)框架大數(shù)據(jù)訪問框架之上是大數(shù)據(jù)服務(wù)框架,用于實(shí)現(xiàn)對(duì)大數(shù)據(jù)的組織和調(diào)度,為大數(shù)據(jù)分析做準(zhǔn)備,其主流技術(shù)包括Zookeeper、Flume等。Zookeeper:主要用來解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問題,如統(tǒng)一命名服務(wù)、狀態(tài)同步服務(wù)、集群管理、分布式應(yīng)用配置項(xiàng)的管理等。Flume:一個(gè)分布式、高可靠、高可用的海量日志采集、聚合和傳輸?shù)南到y(tǒng),支持在系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);對(duì)數(shù)據(jù)可進(jìn)行簡(jiǎn)單處理,并寫到各種數(shù)據(jù)接收方。5.3.2網(wǎng)絡(luò)計(jì)算隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展以及全球經(jīng)濟(jì)模式的變化,網(wǎng)絡(luò)計(jì)算模型也在不斷發(fā)展。所謂網(wǎng)絡(luò)計(jì)算,是指網(wǎng)絡(luò)上的多臺(tái)計(jì)算機(jī)協(xié)同處理一個(gè)復(fù)雜的計(jì)算任務(wù),每臺(tái)計(jì)算機(jī)負(fù)責(zé)一部分,這樣可以大大提高運(yùn)算效率。從集中式計(jì)算到分布式計(jì)算,再到移動(dòng)計(jì)算和普適計(jì)算,每種計(jì)算模型都各有特點(diǎn)。企業(yè)信息系統(tǒng)的應(yīng)用結(jié)構(gòu)也隨著計(jì)算模型的變化而變化。1.?集中式計(jì)算集中式計(jì)算誕生于早期的大型機(jī)時(shí)代,當(dāng)時(shí)計(jì)算機(jī)龐大而昂貴,一個(gè)組織機(jī)構(gòu)不可能為每個(gè)用戶單獨(dú)提供整臺(tái)計(jì)算機(jī),主機(jī)必然是共享的,所有用戶都是通過系統(tǒng)的終端設(shè)備(啞終端)使用主機(jī)的資源。終端設(shè)備僅僅是一個(gè)輸入輸出接口設(shè)備,沒有任何處理和存儲(chǔ)能力。主機(jī)應(yīng)用程序既負(fù)責(zé)與用戶的交互,又負(fù)責(zé)對(duì)數(shù)據(jù)的管理。這種計(jì)算機(jī)模式又稱為主機(jī)/終端模式。由于物流設(shè)備的限制,采用這種計(jì)算模式的所有計(jì)算數(shù)據(jù)和程序都只能位于主機(jī)系統(tǒng)上,從而形成典型的“集中存儲(chǔ)、集中計(jì)算”模式。集中式系統(tǒng)是以主機(jī)為中心的計(jì)算環(huán)境,數(shù)據(jù)管理、事務(wù)處理高度集中,初始成本高。這種模式下的信息系統(tǒng)維護(hù)與升級(jí)只涉及主機(jī),管理成本低。一般來說,集中式計(jì)算可靠、高效、安全,管理也方便。但隨著用戶的增多,對(duì)主機(jī)處理能力的要求越來越高,一旦原有主機(jī)不能滿足需要,企業(yè)要投入高昂的成本進(jìn)行主機(jī)的升級(jí)或替換。同時(shí)各主機(jī)平臺(tái)之間的差異越大,不同主機(jī)之間的資源共享和互操越困難。該模型適用于大規(guī)模集中式應(yīng)用,如科學(xué)與工程計(jì)算和集中式事務(wù)數(shù)據(jù)處理。2.?分布式計(jì)算20世紀(jì)80年代以后,隨著微型計(jì)算機(jī)技術(shù)和局域網(wǎng)的興起,計(jì)算機(jī)應(yīng)用領(lǐng)域被大大拓寬。桌面辦公應(yīng)用和數(shù)據(jù)庫技術(shù)的大力發(fā)展,使協(xié)同計(jì)算和分布式計(jì)算的理念得以迅速推廣。分布式計(jì)算又可以分為幾種不同的計(jì)算模型。1)?客戶-服務(wù)器模型隨著客戶-服務(wù)器計(jì)算模型的出現(xiàn),人們找到了解決異構(gòu)平臺(tái)之間資源共享的最佳方法,用戶可以選擇適合自己需要的客戶端、操作系統(tǒng)和應(yīng)用程序。基于客戶-服務(wù)器結(jié)構(gòu)的分布式計(jì)算逐漸成為企業(yè)應(yīng)用平臺(tái)的主流計(jì)算模型,其結(jié)構(gòu)如圖5.12所示。2)?瀏覽器-服務(wù)器模型為了解決傳統(tǒng)兩層結(jié)構(gòu)客戶-服務(wù)器模型中的固有問題,出現(xiàn)了三層客戶-服務(wù)器模型,即客戶-應(yīng)用服務(wù)器-數(shù)據(jù)庫服務(wù)器模型。在這種三層結(jié)構(gòu)中,客戶端應(yīng)用程序只完成基本的顯示、輸入和輸出;應(yīng)用邏輯在中間的應(yīng)用服務(wù)器上進(jìn)行處理,應(yīng)用服務(wù)器接收客戶端的請(qǐng)求,根據(jù)應(yīng)用邏輯將該請(qǐng)求轉(zhuǎn)化為數(shù)據(jù)庫請(qǐng)求與數(shù)據(jù)庫服務(wù)器進(jìn)行交互,并將交互結(jié)果返回給客戶端;而數(shù)據(jù)則放在后端的數(shù)據(jù)庫服務(wù)器上。其模型如圖5.13所示。3)?P2P計(jì)算模型P2P是在Internet上實(shí)施網(wǎng)絡(luò)計(jì)算的新模型。在這種模型下,服務(wù)器與客戶端的界限消失了,網(wǎng)絡(luò)上所有的節(jié)點(diǎn)都可以“平等”共享其他節(jié)點(diǎn)的計(jì)算資源。系統(tǒng)中的成員同時(shí)扮演服務(wù)器與客戶端的角色,網(wǎng)絡(luò)應(yīng)用的核心從中央服務(wù)器向網(wǎng)絡(luò)邊緣的終端設(shè)備擴(kuò)散。在這個(gè)分布式系統(tǒng)中,各個(gè)節(jié)點(diǎn)是邏輯對(duì)等的,節(jié)點(diǎn)之間可以直接進(jìn)行數(shù)據(jù)通信而不必通過中間的服務(wù)器,每個(gè)節(jié)點(diǎn)都可以請(qǐng)求服務(wù)(客戶端的特性),也可以提供服務(wù)(服務(wù)器的特性)。在P2P網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)都為網(wǎng)絡(luò)提供了一些資源,當(dāng)越來越多的節(jié)點(diǎn)加入網(wǎng)絡(luò)時(shí),網(wǎng)絡(luò)的性能就會(huì)增強(qiáng)。因此,當(dāng)網(wǎng)絡(luò)增大時(shí),它的性能也會(huì)增強(qiáng),這是與客戶-服務(wù)器計(jì)算模型的不同之處。在客戶-服務(wù)器網(wǎng)絡(luò)中,當(dāng)網(wǎng)絡(luò)增大(即越來越多的客戶端加入)時(shí),中央服務(wù)器的壓力就會(huì)增大,最后有可能會(huì)導(dǎo)致服務(wù)器癱瘓。P2P計(jì)算模型帶來的一個(gè)重要變化是改變了“內(nèi)容”所在的位置,內(nèi)容從“中心”走向“邊緣”。也就是說,內(nèi)容將不是存放在幾個(gè)主要的服務(wù)器上,而是存放在所有用戶的個(gè)人計(jì)算機(jī)上。除了幫助優(yōu)化網(wǎng)絡(luò)性能之外,P2P計(jì)算模型還可以用來消除由于單點(diǎn)故障而影響全局的危險(xiǎn)。在企業(yè)應(yīng)用方面,可以利用客戶端之間的分布式服務(wù)代替一些費(fèi)用高昂的數(shù)據(jù)中心功能,在客戶端上實(shí)現(xiàn)數(shù)據(jù)的備份和存儲(chǔ)。3.?移動(dòng)計(jì)算移動(dòng)計(jì)算是隨著移動(dòng)通信、互聯(lián)網(wǎng)、數(shù)據(jù)庫、分布式計(jì)算等技術(shù)的發(fā)展而興起的新技術(shù)。移動(dòng)計(jì)算是移動(dòng)終端和無線網(wǎng)絡(luò)的結(jié)合。移動(dòng)終端具有多樣性,如筆記本電腦、平板電腦、智能手機(jī),以及可穿戴式設(shè)備,如智能手表、手環(huán)、眼鏡等。大部分移動(dòng)計(jì)算是通過移動(dòng)網(wǎng)絡(luò)進(jìn)行的。除了消除時(shí)間和空間的限制,實(shí)現(xiàn)隨時(shí)隨地的通信之外,移動(dòng)計(jì)算還可以實(shí)現(xiàn)產(chǎn)品和服務(wù)的可定位性。了解用戶在任何時(shí)刻的位置是為其提供相關(guān)產(chǎn)品和服務(wù)的關(guān)鍵?;诋a(chǎn)品及服務(wù)的位置而實(shí)現(xiàn)的電子商務(wù)應(yīng)用,被稱為定位電子商務(wù)。全球定位系統(tǒng)(GlobalPositioningSystem,GPS)可以將各種精確的定位信息傳遞到用戶持有的無線設(shè)備上。例如,可以利用移動(dòng)設(shè)備來尋找距離最近的電影院、餐館或停車場(chǎng)。同時(shí)GPS還能夠?qū)⒂脩舻奈恢酶嬷?。定位服?wù)可以針對(duì)全體人員,如購(gòu)物中心內(nèi)所有的顧客;也可以針對(duì)特定的目標(biāo),如依據(jù)用戶所處的不同位置及不同喜好提供不同的信息,將定位服務(wù)和個(gè)性化服務(wù)結(jié)合起來。4.?普適計(jì)算普適計(jì)算,又稱普存計(jì)算、普及計(jì)算、遍布式計(jì)算、泛在計(jì)算,是一個(gè)強(qiáng)調(diào)和環(huán)境融為一體的計(jì)算概念,而計(jì)算機(jī)本身則從人們的視線里消失。在普適計(jì)算的模式下,人們能夠在任何時(shí)間、任何地點(diǎn)、以任何方式進(jìn)行信息的獲取與處理。普適計(jì)算的含義十分廣泛,所涉及的技術(shù)包括移動(dòng)通信技術(shù)、小型計(jì)算設(shè)備制造技術(shù)、小型計(jì)算設(shè)備上的操作系統(tǒng)技術(shù)及軟件技術(shù)等。在信息時(shí)代,普適計(jì)算可以降低設(shè)備使用的復(fù)雜程度,使人們的生活更輕松、更有效率。實(shí)際上,普適計(jì)算是網(wǎng)絡(luò)計(jì)算的自然延伸,它使得不僅個(gè)人電腦,而且其他小巧的智能設(shè)備也可以連接到網(wǎng)絡(luò)中,從而方便人們即時(shí)地獲得信息并采取行動(dòng)。科學(xué)家認(rèn)為,普適計(jì)算是一種狀態(tài),在這種狀態(tài)下,iPad等移動(dòng)設(shè)備、谷歌文檔或遠(yuǎn)程游戲技術(shù)Online等云計(jì)算應(yīng)用程序、4G或廣域Wi-Fi等高速無線網(wǎng)絡(luò)將整合在一起,清除“計(jì)算機(jī)”作為獲取數(shù)字服務(wù)的中央媒介的地位。隨著每輛汽車、每臺(tái)照相機(jī)、每臺(tái)電腦、每塊手表以及每個(gè)電視屏幕都擁有幾乎無限的計(jì)算能力,計(jì)算機(jī)將徹底退居到“幕后”以至于用戶感覺不到它們的存在。5.3.3云計(jì)算1.?云計(jì)算的概念云計(jì)算的定義有很多種,被業(yè)界廣泛接受的是美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)所給出的定義:“云計(jì)算是一種模型,它可以隨時(shí)隨地、便捷地、隨需應(yīng)變地訪問可配置計(jì)算資源共享池中的資源(如網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、應(yīng)用和服務(wù)),只需與最小的資源管理工作或服務(wù)提供商進(jìn)行交互,這些資源就能夠被迅速供應(yīng)和釋放。”在當(dāng)今充滿競(jìng)爭(zhēng)的環(huán)境中,組織在提高效率和轉(zhuǎn)變IT流程以達(dá)到事半功倍的效果方面的壓力越來越大。企業(yè)需要縮短產(chǎn)品上市時(shí)間,需要更大的靈活性、更高的可用性,并降低成本來滿足不斷變化的業(yè)務(wù)需求以及加快創(chuàng)新的步伐。這些業(yè)務(wù)需求使IT團(tuán)隊(duì)面臨許多挑戰(zhàn)。一些主要挑戰(zhàn)是連續(xù)向世界各地的客戶提供服務(wù),快速更新技術(shù)和更快地調(diào)配IT資源,并在實(shí)現(xiàn)所有這一切的同時(shí)降低成本。隨著云計(jì)算這種新計(jì)算模式的出現(xiàn),這些長(zhǎng)期挑戰(zhàn)得到了解決,通過云計(jì)算,組織和個(gè)人能夠以服務(wù)的形式獲取和調(diào)配IT資源。云計(jì)算的優(yōu)點(diǎn)主要有:(1)?降低了IT成本:用戶可根據(jù)按使用付費(fèi)或按訂閱價(jià)格購(gòu)買云服務(wù),從而減少或消除了用戶的IT資金開支。(2)?業(yè)務(wù)靈活性:云計(jì)算可提供快速分配和擴(kuò)展計(jì)算容量的能力。云計(jì)算可將調(diào)配和部署新應(yīng)用程序和服務(wù)所需的時(shí)間從數(shù)月減少到數(shù)分鐘,使得企業(yè)能夠更快地對(duì)市場(chǎng)變化做出響應(yīng),并縮短產(chǎn)品上市時(shí)間。(3)?靈活擴(kuò)展:云計(jì)算使用戶能夠輕松增加、減少計(jì)算資源需求。用戶可單向和自動(dòng)地?cái)U(kuò)展計(jì)算資源,而無須與云服務(wù)提供商進(jìn)行交互。云計(jì)算靈活的服務(wù)調(diào)配功能通??上蛟品?wù)用戶提供一種無限可擴(kuò)展的體驗(yàn)。(4)?高可用性:云計(jì)算能夠確保不同級(jí)別的資源都具有可用性,具體取決于用戶的策略和優(yōu)先級(jí)。冗余基礎(chǔ)架構(gòu)組件(服務(wù)器、網(wǎng)絡(luò)路徑和存儲(chǔ)設(shè)備以及群集軟件)支持云部署的容錯(cuò)功能。這些技術(shù)可覆蓋位于不同地理區(qū)域的多個(gè)數(shù)據(jù)中心,從而避免由于區(qū)域故障而引起的數(shù)據(jù)不可用情況。因此,對(duì)于企業(yè)用戶而言,云計(jì)算幫助他們降低了初始投資,需要時(shí)購(gòu)買,不需要時(shí)就退購(gòu)。云計(jì)算幫助企業(yè)解決了信息化基礎(chǔ)設(shè)施構(gòu)建問題,因此對(duì)于許多對(duì)成本比較敏感的中小企業(yè)而言具有極大的價(jià)值。云計(jì)算模型由三種交付模式、四種部署模型、五個(gè)基本特性構(gòu)成。2.?云交付模式云交付模式是云計(jì)算服務(wù)提供者提供的事先打包好的信息技術(shù)資源組合。三種常見的交付模式是:基礎(chǔ)設(shè)施作為服務(wù)(IaaS)、平臺(tái)作為服務(wù)(PaaS)和軟件作為服務(wù)(SaaS)。這三種模式是互相關(guān)聯(lián)的,并且可以組合起來使用。1)?基礎(chǔ)設(shè)施作為服務(wù)(IaaS)IaaS是指向用戶提供的功能用于調(diào)配處理、存儲(chǔ)網(wǎng)絡(luò)和其他基礎(chǔ)計(jì)算資源,用戶能夠在其中部署和運(yùn)行任意軟件(包括操作系統(tǒng)和應(yīng)用程序)。用戶不管理或控制基礎(chǔ)云基礎(chǔ)架構(gòu),但可控制操作系統(tǒng)和部署的應(yīng)用程序;可以有限制地控制選擇的網(wǎng)絡(luò)組件(例如主機(jī)防火墻)。IaaS是云服務(wù)堆棧的基本層,它是SaaS和PaaS的基礎(chǔ)。2)?平臺(tái)作為服務(wù)(PaaS)PaaS是指向用戶提供的功能將部署到云基礎(chǔ)架構(gòu)用戶創(chuàng)建的或獲得的應(yīng)用程序上,這些應(yīng)用程序是使用提供商支持的編程語言、庫、服務(wù)和工具創(chuàng)建的。用戶不管理或控制基礎(chǔ)云基礎(chǔ)架構(gòu)(包括網(wǎng)絡(luò)、服務(wù)器、操作系統(tǒng)或存儲(chǔ)),但可控制已部署的應(yīng)用程序,并可以控制應(yīng)用程序宿主環(huán)境的配置設(shè)置。PaaS還用作應(yīng)用程序開發(fā)環(huán)境,由云服務(wù)提供商提供相關(guān)服務(wù)。用戶可使用這些平臺(tái)對(duì)其應(yīng)用程序編碼,然后在云架構(gòu)上部署這些應(yīng)用程序。由于已部署應(yīng)用程序的工作負(fù)載各不相同,因此計(jì)算資源的可擴(kuò)展性通常由計(jì)算平臺(tái)以透明方式進(jìn)行保證。3)?軟件作為服務(wù)(SaaS)SaaS是指用戶可以使用云平臺(tái)上提供的應(yīng)用??蓮母鞣N客戶端設(shè)備通過瘦客戶端接口(例如Web瀏覽器(如基于Web的電子郵件))或程序接口訪問這些應(yīng)用程序。用戶不管理或控制基礎(chǔ)云基礎(chǔ)架構(gòu)(包括網(wǎng)絡(luò)、服務(wù)器、操作系統(tǒng)、存儲(chǔ)甚至單個(gè)應(yīng)用程序功能),但可控制應(yīng)用中的用戶特定設(shè)置。在SaaS模式中,應(yīng)用程序(如客戶關(guān)系管理(CRM)、電子郵件和即時(shí)消息(IM))作為云服務(wù)提供商的服務(wù)來提供。云服務(wù)提供商以獨(dú)占方式管理所需的計(jì)算基礎(chǔ)架構(gòu)和軟件來支持這些服務(wù)。SaaS模式允許用戶更改一些應(yīng)用程序配置,以自定義應(yīng)用程序。3.?云部署模型1)?公有云在公有云模式中,云基礎(chǔ)架構(gòu)被調(diào)配為由公眾公開使用,它可由企業(yè)、學(xué)院或政府組織或這些組織的組合擁有、管理和操作。它的存在以云提供商為前提。用戶使用提供商通過Internet提供的云服務(wù),并支付定量使用費(fèi)用或訂閱費(fèi)用。公有云的優(yōu)勢(shì)在于其低資金成本和良好的可擴(kuò)展性。但是,對(duì)于用戶來說,這些優(yōu)勢(shì)會(huì)帶來一些風(fēng)險(xiǎn):無法控制云中的資源,涉及機(jī)密數(shù)據(jù)的安全性,存在網(wǎng)絡(luò)性能和互操作性問題。常見的公有云服務(wù)提供商包括Amazon、Google和S。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論