06 第6章 物聯(lián)網(wǎng)數(shù)據(jù)處理_第1頁
06 第6章 物聯(lián)網(wǎng)數(shù)據(jù)處理_第2頁
06 第6章 物聯(lián)網(wǎng)數(shù)據(jù)處理_第3頁
06 第6章 物聯(lián)網(wǎng)數(shù)據(jù)處理_第4頁
06 第6章 物聯(lián)網(wǎng)數(shù)據(jù)處理_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院1第五講內(nèi)容安排后臺數(shù)據(jù)庫技術(shù)數(shù)據(jù)庫概述關(guān)系型數(shù)據(jù)庫SQL查詢語言資源受限網(wǎng)絡(luò)的分級數(shù)據(jù)融合節(jié)點的分簇控制簇內(nèi)數(shù)據(jù)融合分布式數(shù)據(jù)存儲與處理數(shù)據(jù)挖掘與海計算數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)云計算概述海計算的概念與未來8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院2第五講內(nèi)容安排后臺數(shù)據(jù)庫技術(shù)數(shù)據(jù)庫概述關(guān)系型數(shù)據(jù)庫SQL查詢語言資源受限網(wǎng)絡(luò)的分級數(shù)據(jù)融合節(jié)點的分簇控制簇內(nèi)數(shù)據(jù)融合分布式數(shù)據(jù)存儲與處理數(shù)據(jù)挖掘與海計算數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)云計算概述海計算的概念與未來8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院3物聯(lián)網(wǎng)數(shù)據(jù)

2、處理物聯(lián)網(wǎng)中的個體通過感應(yīng)器來感知信息,然后通過中間傳輸網(wǎng)來傳送信息,最后在數(shù)據(jù)處理中心進(jìn)行智能處理和控制。隨著物聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用,我們將面對大量異構(gòu)的、混雜的、不完整的物聯(lián)網(wǎng)數(shù)據(jù)。在物聯(lián)網(wǎng)的萬千終端收集到這些數(shù)據(jù)后,如何對它們進(jìn)行處理、分析和使用成為物聯(lián)網(wǎng)應(yīng)用的關(guān)鍵。本講對物聯(lián)網(wǎng)中的后臺數(shù)據(jù)庫技術(shù)、數(shù)據(jù)挖掘技術(shù)和云計算與海計算技術(shù)逐一介紹。 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院4后臺數(shù)據(jù)庫技術(shù)數(shù)據(jù)庫是一項專門研究如何科學(xué)地組織和存儲數(shù)據(jù)、如何高效地獲取和處理數(shù)據(jù)的技術(shù)。主要內(nèi)容:數(shù)據(jù)庫的基本概念關(guān)系型數(shù)據(jù)庫SQL查詢語言 8/16/2022 8:07 PM石家莊經(jīng)濟

3、學(xué)院信息工程學(xué)院5數(shù)據(jù)庫概述 1.數(shù)據(jù)庫相關(guān)的基本概念 數(shù)據(jù)(Data)是描述事物的符號記錄,數(shù)字、文本、聲音和圖像等都是數(shù)據(jù)。數(shù)據(jù)有多種表現(xiàn)形式,它們都能數(shù)字化后存入計算機,數(shù)據(jù)是數(shù)據(jù)庫中存儲的基本對象。 (1)數(shù)據(jù)庫 數(shù)據(jù)庫(DataBase, DB)從字面上來看,就是存放數(shù)據(jù)的倉庫,只不過這個倉庫是在計算機存儲設(shè)備上,而且數(shù)據(jù)是按一定格式存放的。數(shù)據(jù)庫是指長期存儲在計算機內(nèi)、有組織的、可共享的大量數(shù)據(jù)的集合。數(shù)據(jù)庫中的數(shù)據(jù)按一定的數(shù)據(jù)模型組織、描述和儲存,具有較小的冗余度(redundancy)、較高的數(shù)據(jù)獨立性(independency)和易擴展性(expandability),并可為

4、各種用戶共享。 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院6數(shù)據(jù)庫概述 (2)數(shù)據(jù)庫管理系統(tǒng) 數(shù)據(jù)庫管理系統(tǒng)(DataBase Management System, DBMS)是位于用戶與操作系統(tǒng)之間的一層數(shù)據(jù)管理軟件,它允許用戶對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行操作,并將操作結(jié)果以某種格式返回給用戶。數(shù)據(jù)庫管理系統(tǒng)和操作系統(tǒng)一樣是計算機的基礎(chǔ)軟件,也是一個大型復(fù)雜的軟件系統(tǒng)。 數(shù)據(jù)庫管理系統(tǒng)的主要功能如下:數(shù)據(jù)定義功能數(shù)據(jù)組織、存儲和管理數(shù)據(jù)操縱功能數(shù)據(jù)庫的事務(wù)管理和運行管理數(shù)據(jù)庫的建立和維護(hù)功能其他功能:通信功能、數(shù)據(jù)轉(zhuǎn)換功能、異構(gòu)數(shù)據(jù)庫之間的互訪和互操作的功能等。8/16/2022

5、8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院7數(shù)據(jù)庫概述 (3)數(shù)據(jù)庫系統(tǒng) 數(shù)據(jù)庫系統(tǒng)(DataBase System,DBS)是指一個采用數(shù)據(jù)庫技術(shù)的計算機存儲系統(tǒng)。廣義地講,數(shù)據(jù)庫系統(tǒng)是由計算機硬件、操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)以及在它支持下建立起來的數(shù)據(jù)庫、應(yīng)用程序、用戶和維護(hù)人員組成的一個整體。狹義地講,數(shù)據(jù)庫系統(tǒng)由數(shù)據(jù)庫、數(shù)據(jù)庫管理系統(tǒng)和用戶組成。需要指出的是,數(shù)據(jù)庫的建立、使用和維護(hù)等工作只靠一個DBMS遠(yuǎn)遠(yuǎn)不夠,還需要專門的人員來完成,這些人員被稱為數(shù)據(jù)庫管理員(DataBase Administrator, DBA)。 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院8數(shù)據(jù)

6、庫概述 數(shù)據(jù)庫系統(tǒng) :數(shù)據(jù)庫在計算機系統(tǒng)中的層次結(jié)構(gòu): 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院9數(shù)據(jù)庫概述 2. 數(shù)據(jù)管理技術(shù)的產(chǎn)生與發(fā)展 數(shù)據(jù)庫技術(shù)是應(yīng)數(shù)據(jù)管理任務(wù)的需要而產(chǎn)生的,數(shù)據(jù)管理則是對數(shù)據(jù)進(jìn)行分類、組織、編碼、存儲、檢索和維護(hù),它是數(shù)據(jù)處理的中心問題。數(shù)據(jù)處理是指對各種數(shù)據(jù)進(jìn)行收集、存儲、加工和傳播的一系列活動的總和。在應(yīng)用需求的推動下和計算機硬件、軟件發(fā)展的基礎(chǔ)上,數(shù)據(jù)管理技術(shù)經(jīng)歷了三個階段:人工管理文件系統(tǒng)數(shù)據(jù)庫系統(tǒng)8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院10數(shù)據(jù)庫概述 數(shù)據(jù)庫技術(shù)從20世紀(jì)60年代中期產(chǎn)生到現(xiàn)在僅僅50余年的歷史,但其

7、發(fā)展速度之快、使用范圍之廣是其他技術(shù)所不及的。60年代末出現(xiàn)了最早的數(shù)據(jù)庫層次數(shù)據(jù)庫,隨后在70年代出現(xiàn)了網(wǎng)狀數(shù)據(jù)庫,在此階段層次數(shù)據(jù)庫和網(wǎng)狀數(shù)據(jù)庫占據(jù)了商用市場主流。在70年代同時出現(xiàn)了處于實驗階段的關(guān)系數(shù)據(jù)庫,后來,隨著計算機硬件性能的改善,關(guān)系系統(tǒng)的使用簡便,關(guān)系數(shù)據(jù)庫系統(tǒng)已逐漸替代了網(wǎng)狀數(shù)據(jù)庫和層次數(shù)據(jù)庫,成為當(dāng)今最流行的商用數(shù)據(jù)庫系統(tǒng)。20世紀(jì)90年代,由于計算機應(yīng)用的需求,數(shù)據(jù)庫技術(shù)與面向?qū)ο?、網(wǎng)絡(luò)技術(shù)相互滲透,對象數(shù)據(jù)庫技術(shù)和網(wǎng)絡(luò)數(shù)據(jù)庫技術(shù)得到了深入研究。 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院11數(shù)據(jù)庫概述 數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)管理結(jié)構(gòu):8/16/2022

8、8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院12數(shù)據(jù)庫概述 3. 數(shù)據(jù)庫系統(tǒng)的特點 數(shù)據(jù)庫是在計算機內(nèi)按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲和管理大量共享數(shù)據(jù)的倉庫,它可以讓各種用戶共享,并具有最小冗余度和較高的數(shù)據(jù)獨立性。DBMS在數(shù)據(jù)庫建立、運用和維護(hù)時對數(shù)據(jù)庫進(jìn)行統(tǒng)一控制,以保證數(shù)據(jù)的完整性、安全性,并會在多用戶同時使用數(shù)據(jù)庫時進(jìn)行并發(fā)控制,在發(fā)生故障時對數(shù)據(jù)庫進(jìn)行恢復(fù)。與人工管理和文件系統(tǒng)相比,數(shù)據(jù)庫系統(tǒng)的特點主要有以下幾個方面:(1)數(shù)據(jù)結(jié)構(gòu)化8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院13數(shù)據(jù)庫概述 (2)數(shù)據(jù)的共享性高、冗余度低、易擴充(3)數(shù)據(jù)獨立性高(4)數(shù)據(jù)由DBMS統(tǒng)一管理

9、和控制8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院14關(guān)系型數(shù)據(jù)庫 關(guān)系數(shù)據(jù)庫(Relational DataBase, RDB)是基于關(guān)系數(shù)據(jù)模型的數(shù)據(jù)庫系統(tǒng)。 1. 關(guān)系數(shù)據(jù)庫的研究與發(fā)展歷程 1970年,IBM公司圣何塞研究中心的研究員E.F.Codd(關(guān)系數(shù)據(jù)庫之父)發(fā)表了著名的論文A Relational Model of Data for Large Shared Data Banks(大型共享數(shù)據(jù)庫的關(guān)系數(shù)據(jù)模型),開創(chuàng)了數(shù)據(jù)庫系統(tǒng)的新局面。Codd提出了關(guān)系數(shù)據(jù)模型的概念,即數(shù)據(jù)庫管理系統(tǒng)應(yīng)該將數(shù)據(jù)組織成二維表(也稱為關(guān)系)的形式呈現(xiàn)給用戶。開發(fā)人員使用關(guān)系數(shù)據(jù)

10、模型,而不必關(guān)心數(shù)據(jù)的存儲結(jié)構(gòu),并可以使用高級語言來描述其查詢。這樣,可以大大提高數(shù)據(jù)庫應(yīng)用系統(tǒng)開發(fā)人員的工作效率。 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院15關(guān)系型數(shù)據(jù)庫 關(guān)系數(shù)據(jù)庫模型的主要特點如下:(1) 關(guān)系模型的概念單一,實體以及實體之間的聯(lián)系都用關(guān)系來表示;(2) 以關(guān)系代數(shù)為基礎(chǔ),易于形式化表示;(3) 數(shù)據(jù)獨立性強,數(shù)據(jù)的物理存儲和存取路徑對用戶隱藏;(4) 關(guān)系數(shù)據(jù)庫語言是非過程化的,這樣可以將用戶從通過編程一步一步引導(dǎo)查詢操作執(zhí)行的過程中解脫出來,大大降低了用戶編程的難度。8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院16關(guān)系型數(shù)據(jù)庫 關(guān)

11、系數(shù)據(jù)庫的發(fā)展歷程可以分為三個階段 :第一階段從20世紀(jì)70年代初期E.F.Codd提出關(guān)系模型開始。這一階段奠定了關(guān)系模型的理論基礎(chǔ),人們研究了關(guān)系數(shù)據(jù)庫語言,并開發(fā)出了關(guān)系數(shù)據(jù)庫管理系統(tǒng)的一些原型。其中,IBM公司的System R和加州大學(xué)伯克利分校的Ingres等為這一時期的代表。 第二階段從20世紀(jì)70年代后期開始,是關(guān)系數(shù)據(jù)庫的應(yīng)用階段。這一時期從理論上解決了諸如查詢優(yōu)化、并發(fā)控制、完整性機制和故障恢復(fù)等一系列重大技術(shù)問題,從而使得關(guān)系數(shù)據(jù)庫走向?qū)嵱没蜕虡I(yè)化。在這期間,出現(xiàn)了比較典型的商業(yè)關(guān)系數(shù)據(jù)庫管理系統(tǒng)如Oracle、DB2和Informix等。 8/16/2022 8:07

12、 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院17關(guān)系型數(shù)據(jù)庫 第三階段從20世紀(jì)80年代開始,自那時以來,分布式關(guān)系數(shù)據(jù)庫系統(tǒng)成為數(shù)據(jù)庫研究的重點,并且日趨成熟。目前,幾乎所有主流的DBMS產(chǎn)品都支持分布式。這個時期的代表產(chǎn)品有Oracle、Informix、DB2和SQL Server等。 2. 關(guān)系數(shù)據(jù)庫的基本概念(1)關(guān)系數(shù)據(jù)結(jié)構(gòu)關(guān)系模型的數(shù)據(jù)結(jié)構(gòu)非常簡單,只包含單一的數(shù)據(jù)結(jié)構(gòu):關(guān)系(relation)。它為人們提供了一種二維表的方法來描述數(shù)據(jù),關(guān)系模型的中心概念為關(guān)系,一個關(guān)系由模式和模式的實例兩部分構(gòu)成。8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院18關(guān)系型數(shù)據(jù)庫 關(guān)系實例關(guān)系實

13、例就是指由行和列組成的表,一般人們就用“關(guān)系”來代表關(guān)系實例。屬性關(guān)系表中的列稱為屬性,其中表的第一行是屬性名,其余各行是相應(yīng)的屬性值。域域是一組具有相同數(shù)據(jù)類型的值的集合。關(guān)系表中屬性的取值范圍就稱為域。例如,屬性“性別”的域為“男”和“女”兩個值。元組關(guān)系表中的行稱為元組或記錄。一般地,任意兩個元組不能完全相同。所有元組的集合就是關(guān)系表本身。分量元組中的每一個屬性的值稱為元組的一個分量。例如,元組(001,張三,男,18,IS)有5個分量,對應(yīng)“所在系”的分量是“IS”。對于同一屬性,分量應(yīng)該是同一類型的數(shù)據(jù),即來自同一個域,且每一個分量都必須是不可再分的數(shù)據(jù)項。8/16/2022 8:0

14、7 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院19關(guān)系型數(shù)據(jù)庫 候選碼如果關(guān)系中的某一屬性組的值能唯一地標(biāo)識一個元組,則稱該屬性為候選碼。一個關(guān)系可以有多個候選碼。在最簡單的情況下,候選碼只包含一個屬性。而在極端情況下,所有屬性都是候選碼,此時稱為全碼。主碼當(dāng)一個關(guān)系中有多個候選碼時,則從中選擇一個候選碼作為主碼。對于一個關(guān)系,只能有一個主碼。主碼是能辨識記錄的最小屬性組。例如,對于關(guān)系“學(xué)生”中學(xué)生ID可以作為主碼。主屬性和非主屬性包含在候選碼中的屬性稱為主屬性,其它的為非主屬性。8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院20關(guān)系型數(shù)據(jù)庫 關(guān)系模式關(guān)系名和其屬性集合的組合稱為關(guān)系模式。

15、設(shè)關(guān)系名為R,其屬性分別為a1、a2和a3,則關(guān)系模式可以表示為R(a1,a2,a3)。學(xué)生的關(guān)系模式可表示為:學(xué)生(學(xué)生ID,姓名,性別,年齡,所在系)。關(guān)系模式只是對數(shù)據(jù)特性的描述,因此,可以將關(guān)系模式理解為一個數(shù)據(jù)類型。這樣,關(guān)系實例就是一個具體的值。8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院21關(guān)系型數(shù)據(jù)庫 (2)關(guān)系操作關(guān)系模型給出了關(guān)系操作能力的說明,但不對RDBMS語言給出具體的語法要求,也就是說不同的RDBMS可以定義和開發(fā)不同的語言來實現(xiàn)這些操作。關(guān)系模型中常用的關(guān)系操作有查詢(Query)操作和插入(Insert)、刪除(Delete)及修改(Update

16、)操作兩大類。關(guān)系的查詢表達(dá)能力很強,是關(guān)系操作中最主要的部分。查詢操作又可以分為并(Union)、差(Except)、交(Intersection)、笛卡爾積(Cartesian Product)、投影(Project)、選擇(Select)、連接(Join)和除(Divide)等。關(guān)系操作的特點是集合操作方式,即操作的對象和結(jié)果都是集合,這種操作方式也稱為一次一集合(set-at-time)方式。8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院22關(guān)系型數(shù)據(jù)庫 并(Union)關(guān)系R與關(guān)系S各有n個屬性,且相應(yīng)的屬性值取自同一個域(以下均為此條件),則關(guān)系R與關(guān)系S的并記作R

17、U S = t|tRtS,其結(jié)果仍為n個屬性,由屬于R或?qū)儆赟 的元組組成。8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院23SQL查詢語言 結(jié)構(gòu)化查詢語言(Structured Query Language, SQL)是關(guān)系數(shù)據(jù)庫的標(biāo)準(zhǔn)語言,它具有通用、功能性強等優(yōu)點,而且它的功能不僅僅局限于查詢。目前,幾乎所有的關(guān)系數(shù)據(jù)庫管理系統(tǒng)軟件都支持SQL,有許多廠商對SQL基本命令進(jìn)行了不同程度的改善與擴充。8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院24關(guān)系型數(shù)據(jù)庫 1. SQL語言的發(fā)展歷史 在20世紀(jì)70年代初,E.F.Codd首先提出了關(guān)系模型。到了70年代中

18、期,IBM公司在研制SYSTEM R關(guān)系數(shù)據(jù)管理系統(tǒng)時,研究設(shè)計了SQL語言。最早的SQL語言公布在1976年11月的IBM Journal of R&D上。1979年,Oracle公司首先提供商用的SQL語言,同時,IBM公司在DB2和SQL/DS數(shù)據(jù)庫系統(tǒng)中也實現(xiàn)了SQL。1986年10月,美國ANSI組織采用SQL作為關(guān)系數(shù)據(jù)庫管理系統(tǒng)的標(biāo)準(zhǔn)語言,后被國際標(biāo)準(zhǔn)化組織(ISO)采納為國際標(biāo)準(zhǔn)。在1999年發(fā)布的SQL 99標(biāo)準(zhǔn)中,增加了面向?qū)ο蟮墓δ埽S后,SQL標(biāo)準(zhǔn)不斷改進(jìn),比如,SQL 2003版支持XML、Window函數(shù)和Merge語句等,SQL 2006版增強了XML對數(shù)據(jù)處理的

19、能力,SQL 2008增加了數(shù)據(jù)集成功能、改進(jìn)了分析服務(wù)、集成了Office等。SQL語言簡單易學(xué)、功能豐富,深受用戶及業(yè)界的歡迎與推崇。當(dāng)前主流的數(shù)據(jù)庫管理系統(tǒng),如Oracle、MySQL、SQL server等,都是基于SQL語言的。 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院25關(guān)系型數(shù)據(jù)庫 2. SQL語言的主要特點 SQL是一個關(guān)系數(shù)據(jù)庫語言,它的操作對象是以表的形式存放在關(guān)系數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)。SQL語言雖然名為“語言”,但其本身并不是一個完整的編程語言,比如,它不支持程序的流程控制等,SQL語言需要和其他編程語言結(jié)合起來用。SQL語言主要特點如下。綜合統(tǒng)一高度非

20、過程化當(dāng)面向過程化語言需要進(jìn)行某項操作(例如,查詢)時,必須指定存取路徑。而對于SQL語言,用戶只需提出“做什么”,而不必指明“怎么做”,也就是說,用戶無需了解存取路徑,SQL語句的執(zhí)行過程由系統(tǒng)自動完成。這種操作方式不僅大大減輕了用戶負(fù)擔(dān),而且有利于提高數(shù)據(jù)的獨立性。面向集合的操作方式SQL采用集合操作方式,不僅操作對象和查詢結(jié)果都是記錄的集合,而且插入、刪除及更新操作的對象也可以是記錄的集合。以同一種語法結(jié)構(gòu)提供兩種使用方式SQL既是獨立的語言,又是嵌入式語言。在兩種不同的使用方式下,SQL的語法結(jié)構(gòu)基本上是一致的。語言簡潔,易學(xué)易用8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程

21、學(xué)院26關(guān)系型數(shù)據(jù)庫 3. SQL的基本概念支持SQL的關(guān)系數(shù)據(jù)庫管理系統(tǒng)都支持?jǐn)?shù)據(jù)庫的三級模式(Schema)結(jié)構(gòu),該結(jié)構(gòu)如下所示:8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院27關(guān)系型數(shù)據(jù)庫 4. SQL的操作關(guān)系數(shù)據(jù)庫系統(tǒng)支持模式、外模式和內(nèi)模式的三級模式結(jié)構(gòu),它們操作的基本對象包括表(TABLE)、視圖(VIEW)和索引(INDEX)。因此,SQL的數(shù)據(jù)定義功能包括模式定義、表定義、視圖和索引定義。與表和視圖相關(guān)的一些SQL操作如下。 (1)建立表SQL中使用CREATE TABLE語句來定義表。一種簡化的定義格式如下:CREATE TABLE (,);8/16/202

22、2 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院28關(guān)系型數(shù)據(jù)庫 【例6.7】利用SQL語言建立學(xué)生表Student(Sno, Sname, Ssex, Sage, Sdept)完成上述要求的SQL語句如下:CREATE TABLE Student (Sno CHAR(8), Sname CHAR(20), Ssex CHAR(2), Sage INT, Sdept CHAR(20) );8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院29關(guān)系型數(shù)據(jù)庫 (2)建立視圖(3)數(shù)據(jù)查詢SQL的查詢功能是SQL數(shù)據(jù)庫的核心操作,它提供了SELECT語句進(jìn)行數(shù)據(jù)庫查詢,該語句使用方式靈活、功能

23、豐富。SELECT語句的格式如下:SELECT ALL|DISTINCT FROM WHERE GRROUP BY HAVINGORDER BY ASC | DESC;【例6.10】查詢所有計算機系(CS)和數(shù)學(xué)系(MA)學(xué)生的姓名和性別。SELECT Sname,SsexFROM StudentWHERE Sdept IN (CS,MA);8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院30第五講內(nèi)容安排后臺數(shù)據(jù)庫技術(shù)數(shù)據(jù)庫概述關(guān)系型數(shù)據(jù)庫SQL查詢語言資源受限網(wǎng)絡(luò)的分級數(shù)據(jù)融合節(jié)點的分簇控制簇內(nèi)數(shù)據(jù)融合分布式數(shù)據(jù)存儲與處理數(shù)據(jù)挖掘與海計算數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)云計算概述海計算的

24、概念與未來8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院31資源受限網(wǎng)絡(luò)的分級數(shù)據(jù)融合 無線傳感器網(wǎng)絡(luò)是一種資源受限的網(wǎng)絡(luò),節(jié)點僅提供有限的計算能力、通信能力和供電能力,而且,在這種網(wǎng)絡(luò)中節(jié)點過多、分布較廣。傳感器網(wǎng)絡(luò)可以根據(jù)節(jié)點間距離的遠(yuǎn)近劃分成簇(Clustering),而基于簇的分層結(jié)構(gòu)具有天然的分布式處理能力,這樣可以提高受限網(wǎng)絡(luò)的資源利用率和數(shù)據(jù)處理的效率。下面主要介紹WSN中的節(jié)點分簇控制、簇內(nèi)數(shù)據(jù)融合及分布式數(shù)據(jù)存儲與處理。 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院32節(jié)點的分簇控制 1. 分簇的網(wǎng)絡(luò)結(jié)構(gòu) 隨著無線傳感器網(wǎng)絡(luò)自組網(wǎng)規(guī)模的擴大,節(jié)點

25、鏈路處理開銷不斷加大,網(wǎng)絡(luò)對事件的響應(yīng)速度變慢,可以通過傳感器網(wǎng)絡(luò)的節(jié)點分簇控制機制來解決這些問題。 分簇是指將傳感器網(wǎng)絡(luò)中一定區(qū)域內(nèi)的節(jié)點組成稱為簇(cluster)的控制單元,每個簇成員(cluster member)都把自己感知的數(shù)據(jù)傳輸給簇頭(cluster head)。簇頭是一個分布式處理中心,即無線傳感器網(wǎng)絡(luò)中的一個匯聚節(jié)點(sink node),簇頭作為小規(guī)模范圍內(nèi)的節(jié)點控制者,它負(fù)責(zé)收集和協(xié)調(diào)簇內(nèi)節(jié)點監(jiān)測到的數(shù)據(jù),再傳輸給基站(base-station)。8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院33節(jié)點的分簇控制 傳感器網(wǎng)絡(luò)典型的兩級分簇結(jié)構(gòu):8/16/20

26、22 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院34節(jié)點的分簇控制 傳感器網(wǎng)絡(luò)是由多個簇構(gòu)成,每個簇包括簇頭和成員兩種類型的節(jié)點。處在同一簇內(nèi)的簇頭和成員節(jié)點共同維護(hù)所在簇的路由信息,簇頭節(jié)點負(fù)責(zé)所管轄簇內(nèi)數(shù)據(jù)信息的壓縮和融合處理,并與基站交換信息。這種兩級分簇結(jié)構(gòu)適用于小規(guī)模傳感器網(wǎng)絡(luò),如果網(wǎng)絡(luò)規(guī)模較大,需要在多個簇頭節(jié)點之間轉(zhuǎn)發(fā)(forward)消息,最終把數(shù)據(jù)傳輸?shù)交?,這時涉及到傳感器網(wǎng)絡(luò)的路由(routing)問題,即按照什么規(guī)則尋找下一跳節(jié)點 。8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院35節(jié)點的分簇控制 2. 節(jié)點分簇控制的優(yōu)點 采用層次結(jié)構(gòu)后,簇內(nèi)成員節(jié)點只需要

27、與所屬簇的簇頭通信,而簇頭只需要和其它簇頭交換路由信息,因此,可以降低傳感器網(wǎng)絡(luò)路由協(xié)議的復(fù)雜度,減少節(jié)點路由表項的數(shù)目,同時,路由維護(hù)開銷也隨之降低且具有較好的可擴展性,更加適合于大規(guī)模WSN的應(yīng)用場景。 在滿足一定約束條件下,例如,覆蓋范圍與采樣精度要求等,簇內(nèi)成員節(jié)點可以在某些時間段內(nèi)關(guān)閉無線通信模塊,從而大幅度減少節(jié)點空閑等待時的能量消耗。 在一個簇內(nèi)部,簇內(nèi)成員節(jié)點采集到的數(shù)據(jù)通常具有較大的相關(guān)性,因此,在簇頭節(jié)點上可以采用數(shù)據(jù)融合算法,在保證一定信息質(zhì)量的情況下減少數(shù)據(jù)通信量,可以降低數(shù)據(jù)轉(zhuǎn)發(fā)的能量開銷。8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院36節(jié)點的分簇控制

28、 3. 典型分簇控制算法根據(jù)不同的分類標(biāo)準(zhǔn),分簇控制算法可以有多種分類方法。以簇形成是否存在集中控制,可劃分為集中式、分布式算法。以是否需要預(yù)先獲得節(jié)點位置信息,可劃分為基于地理位置、不基于地理位置的算法。以每次分簇是否存在一個確定的結(jié)果,可劃分為確定性和隨機性分簇算法等。在這些算法中,LEACH是分布式、無需地理位置的隨機分簇控制算法。 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院37節(jié)點的分簇控制 典型分簇控制算法LEACHLEACH(Low-Energy Adaptive Clustering Hierarchy)是無線傳感器網(wǎng)絡(luò)中最早提出的且具有代表性的分簇算法,它使用

29、隨機輪轉(zhuǎn)在傳感器節(jié)點間平均分配能量負(fù)載。該算法工作的假設(shè)條件是傳感器網(wǎng)絡(luò)中的節(jié)點發(fā)射功率足夠大,任何節(jié)點都可以一跳到達(dá)基站,所有節(jié)點在網(wǎng)內(nèi)的地位是一樣的。8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院38節(jié)點的分簇控制 LEACH算法把時間分成很多輪(round),輪的周期固定,每輪從簇建立階段開始,這個階段形成簇,其后是穩(wěn)定工作階段,這個階段傳輸數(shù)據(jù)到基站。一定時間后進(jìn)入下一輪重新開始前面分簇、數(shù)據(jù)傳輸?shù)墓ぷ?。LEACH算法的工作過程:8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院39節(jié)點的分簇控制 LEACH算法在一輪中的工作大致分為兩步:成簇階段和數(shù)據(jù)傳輸階段

30、。(1)成簇階段當(dāng)需要建立簇時,每個節(jié)點自組織地決定在當(dāng)前輪中自己是否成為簇頭,這個決定基于傳感器網(wǎng)絡(luò)預(yù)設(shè)的簇頭比例(該值預(yù)先確定)和當(dāng)前輪數(shù)。節(jié)點n通過產(chǎn)生一個在0和1之間的隨機數(shù)來做決定,如果這個數(shù)小于閥值T(n),該節(jié)點成為這一輪的其中一個簇頭,閥值T(n)如下所示:8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院40節(jié)點的分簇控制 其中,P:預(yù)先確定的簇頭占總節(jié)點數(shù)的比值,比如,可取值0.05; r:當(dāng)前輪數(shù);G:在過去的r-1輪中尚未當(dāng)選簇頭的節(jié)點集合。每個自我選舉成為當(dāng)前輪的簇頭的節(jié)點廣播公告信息給其余節(jié)點,在廣播“簇頭公告信息”時,簇頭使用CSMA MAC協(xié)議,并且所

31、有簇頭節(jié)點用同樣的發(fā)射能量發(fā)送它們各自的公告信息。在這段時間,非簇頭節(jié)點必須打開接收設(shè)備,收聽所有簇頭節(jié)點的公告,這段時間過后,每個非簇頭節(jié)點根據(jù)收到的公告的信號強弱,決定這一輪加入哪個簇。在通信鏈路對稱的情況下,普通節(jié)點以收到的簇頭公告的信號最強的簇頭為自己所加入簇的簇頭,此時,僅需最少的發(fā)送能量就能與該簇頭通信。 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院41節(jié)點的分簇控制 在每個節(jié)點決定加入選定的簇后,它必須通知對應(yīng)的簇頭節(jié)點將其設(shè)置為簇內(nèi)成員,每個節(jié)點同樣用CSMA MAC協(xié)議把這個信息發(fā)回給簇頭,在這段時間,所有簇頭節(jié)點必須打開接收設(shè)備。簇頭節(jié)點接收到所有想加入該簇

32、的節(jié)點消息后,簇頭節(jié)點基于簇內(nèi)節(jié)點的數(shù)量建立TDMA調(diào)度方案,告訴每個簇內(nèi)節(jié)點什么時候可以發(fā)送消息,這個調(diào)度信息被廣播給簇內(nèi)節(jié)點。至此,成簇階段結(jié)束。8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院42節(jié)點的分簇控制 LEACH協(xié)議某兩輪成簇的網(wǎng)絡(luò)結(jié)構(gòu)。 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院43節(jié)點的分簇控制 (2)數(shù)據(jù)傳輸階段在數(shù)據(jù)傳輸階段,簇內(nèi)成員節(jié)點根據(jù)分配給自己的TDMA時間片向簇頭發(fā)送自己的感知數(shù)據(jù),而在其他時刻可以進(jìn)入休眠狀態(tài),從而節(jié)省能量。為了避免相鄰簇內(nèi)節(jié)點的通信干擾,各個簇之間都采用不同的CDMA碼片。當(dāng)簇頭節(jié)點接收到數(shù)據(jù)后,進(jìn)行簇內(nèi)數(shù)據(jù)融

33、合等處理,再把數(shù)據(jù)以CSMA/CA方式傳輸給基站。8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院44節(jié)點的分簇控制 4.基于分簇的無線傳感器網(wǎng)絡(luò)應(yīng)用系統(tǒng) 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院45簇內(nèi)數(shù)據(jù)融合 數(shù)據(jù)融合的概念始于20世紀(jì)70年代初期,在80年代得到了長足發(fā)展。近幾年來,數(shù)據(jù)融合技術(shù)已經(jīng)引起世界范圍內(nèi)的普遍關(guān)注,且在一些重大研究項目上取得了突破性進(jìn)展,不少數(shù)據(jù)融合技術(shù)的研究成果和實用系統(tǒng)已在1991年的海灣戰(zhàn)爭中得到實戰(zhàn)驗證,取得了理想效果。 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院461. 數(shù)據(jù)融合的原理與方法 多傳感器數(shù)

34、據(jù)融合的工作原理就像人腦綜合處理信息一樣,充分利用多個傳感器資源,通過對多傳感器及其觀測信息的合理支配和使用,把多傳感器在空間或時間上冗余或互補信息依據(jù)某種準(zhǔn)則來進(jìn)行組合,從而獲得被測對象的一致性解釋或描述。多傳感器數(shù)據(jù)融合工作過程如下: n個不同的傳感器收集觀測目標(biāo)的數(shù)據(jù); 對傳感器的輸出數(shù)據(jù)進(jìn)行特征提取和變換,得到相應(yīng)的特征矢量;簇內(nèi)數(shù)據(jù)融合 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院47 對特征矢量進(jìn)行模式識別和處理,完成各傳感器關(guān)于目標(biāo)的說明,用到的識別方法可以是聚類算法、自適應(yīng)神經(jīng)網(wǎng)絡(luò)方法,或者其他能將特征矢量變換成目標(biāo)屬性判決的統(tǒng)計模式識別法等; 將各傳感器關(guān)于目

35、標(biāo)的說明數(shù)據(jù)按同一目標(biāo)進(jìn)行分組; 利用融合算法將每一目標(biāo)的各傳感器數(shù)據(jù)進(jìn)行合成,得到該目標(biāo)的一致性解釋與描述。簇內(nèi)數(shù)據(jù)融合 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院48利用多個傳感器獲取關(guān)于對象和環(huán)境全面完整的信息的關(guān)鍵主要在于融合算法,因此,多傳感器融合系統(tǒng)的核心問題是如何選擇合適的融合算法。 目前,在不少應(yīng)用領(lǐng)域根據(jù)各自的具體應(yīng)用背景,已經(jīng)提出了許多成熟并且有效的融合方法,這些多傳感器數(shù)據(jù)融合的方法可以概括為隨機和人工智能兩大類。隨機方法有加權(quán)平均法、卡爾曼濾波法、多貝葉斯估計法、Dempster-Shafer(D-S)證據(jù)推理、產(chǎn)生式規(guī)則等。人工智能方法包括模糊邏輯理

36、論、神經(jīng)網(wǎng)絡(luò)、粗糙集理論、專家系統(tǒng)等。 信息融合方法的基本要求是要具有魯棒性和并行處理能力、融合方法的運算速度和精度、與前期預(yù)處理系統(tǒng)和后續(xù)信息識別系統(tǒng)的接口性能以及對信息樣本的要求等。 簇內(nèi)數(shù)據(jù)融合 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院492.數(shù)據(jù)融合分類 按照不同的分類標(biāo)準(zhǔn),數(shù)據(jù)融合可以有多種不同的分類方法。 根據(jù)數(shù)據(jù)進(jìn)行融合操作前后的信息量來分:無損融合(lossless aggregation)和有損融合 (lossy aggregation);根據(jù)數(shù)據(jù)融合與應(yīng)用層數(shù)據(jù)語義之間的關(guān)系來劃分:依賴于應(yīng)用的數(shù)據(jù)融合和獨立于應(yīng)用的數(shù)據(jù)融合;根據(jù)融合操作的級別劃分:數(shù)據(jù)

37、級融合、特征級融合和決策級融合三類。 簇內(nèi)數(shù)據(jù)融合 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院50(1)無損融合和有損融合 在無損數(shù)據(jù)融合中,所有的細(xì)節(jié)信息均被保留,此類融合的常見方法是剔除信息中的冗余部分。根據(jù)信息理論,無損融合中,信息量整體縮減的大小受到其熵值的限制。 例如,將多個數(shù)據(jù)分組打包成一個“大的”數(shù)據(jù)分組,而不改變各個分組所攜帶的數(shù)據(jù)內(nèi)容的方法就屬于無損融合。 時間戳融合是無損融合的另一個例子。 簇內(nèi)數(shù)據(jù)融合 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院51(1)無損融合和有損融合 有損融合通常會省略一些細(xì)節(jié)信息或降低數(shù)據(jù)的質(zhì)量,從而減少需要存儲

38、或傳輸?shù)臄?shù)據(jù)量,以達(dá)到節(jié)省存儲資源或能量的目的。在有損融合中,信息損失的上限是要保留應(yīng)用所需要的全部信息量。很多有損融合都是針對數(shù)據(jù)收集的需求而進(jìn)行網(wǎng)內(nèi)處理的必然結(jié)果。比如,溫/濕度監(jiān)測應(yīng)用中,需要查詢某一區(qū)域內(nèi)的平均溫/濕度或最低、最高溫/濕度時,網(wǎng)內(nèi)將對各個傳感器節(jié)點所報告的數(shù)據(jù)進(jìn)行計算,并只將結(jié)果數(shù)據(jù)報告給查詢者。 簇內(nèi)數(shù)據(jù)融合 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院52(2)應(yīng)用相關(guān)/無關(guān)的數(shù)據(jù)融合 數(shù)據(jù)融合都是針對應(yīng)用層數(shù)據(jù)進(jìn)行的,即數(shù)據(jù)融合需要了解應(yīng)用數(shù)據(jù)的語義。從實現(xiàn)角度看,數(shù)據(jù)融合如果在網(wǎng)絡(luò)分層結(jié)構(gòu)的應(yīng)用層實現(xiàn),則與應(yīng)用數(shù)據(jù)之間沒有語義鴻溝,可以直接對應(yīng)用

39、數(shù)據(jù)進(jìn)行融合;如果在網(wǎng)絡(luò)層實現(xiàn)數(shù)據(jù)融合,則需要跨協(xié)議層理解應(yīng)用層數(shù)據(jù)的含義,即在網(wǎng)絡(luò)層理解應(yīng)用層數(shù)據(jù),這稱為應(yīng)用相關(guān)的數(shù)據(jù)融合(Application Dependent Data Aggregation, ADDA)技術(shù)。簇內(nèi)數(shù)據(jù)融合 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院53(2)應(yīng)用相關(guān)/無關(guān)的數(shù)據(jù)融合 獨立于應(yīng)用的數(shù)據(jù)融合(Application Independent Data Aggregation, AIDA)技術(shù)可以避免ADDA的語義相關(guān)性問題,該技術(shù)把數(shù)據(jù)融合作為獨立的一層來實現(xiàn),簡化了各層之間的關(guān)系。 簇內(nèi)數(shù)據(jù)融合 8/16/2022 8:07 PM石

40、家莊經(jīng)濟學(xué)院信息工程學(xué)院54(3)根據(jù)融合操作的級別劃分1) 數(shù)據(jù)級融合數(shù)據(jù)級融合是最底層的融合,操作對象是傳感器通過采集得到的數(shù)據(jù),因此是面向數(shù)據(jù)的融合。這類融合大多數(shù)情況下僅僅依賴于傳感器類型,而不依賴于用戶需求。2) 特征級融合特征級融合通過一些特征提取手段將傳感器數(shù)據(jù)表示為一系列的特征向量,以反映事物的屬性,是面向監(jiān)測對象特征的融合。比如,在溫度監(jiān)測應(yīng)用中,特征級融合可以對溫度傳感器數(shù)據(jù)進(jìn)行綜合,表示成(地區(qū)范圍,最高溫度,最低溫度,平均溫度)的形式。3) 決策級融合決策級融合根據(jù)應(yīng)用需求進(jìn)行較高級的決策,是最高級融合。決策級融合的操作可以依據(jù)特征級融合提取的數(shù)據(jù)特征,對監(jiān)測對象進(jìn)行判

41、別、分類,并通過簡單的邏輯運算,執(zhí)行滿足應(yīng)用需求的決策。因此,決策級融合是面向應(yīng)用的融合。比如,在災(zāi)難監(jiān)測應(yīng)用中,決策級融合可能需要綜合多種類型的傳感器信息,包括溫/濕度、震動和毒性氣體等,進(jìn)而對是否發(fā)生了災(zāi)難性事故進(jìn)行判斷。簇內(nèi)數(shù)據(jù)融合 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院553. WSN中的數(shù)據(jù)融合 傳感器網(wǎng)絡(luò)應(yīng)用往往以數(shù)據(jù)為中心,人們關(guān)心的是某個區(qū)域的某個觀測指標(biāo)的值,而不是具體某個節(jié)點觀測到的值。因此,在傳感器網(wǎng)絡(luò)節(jié)點采集、處理信息的過程中,各個節(jié)點單獨傳輸數(shù)據(jù)到基站的方法顯然是不合適的。因為節(jié)點采集到的數(shù)據(jù)存在大量冗余信息,這樣會浪費大量的通信帶寬和寶貴的能量

42、資源。為避免上述問題,傳感器網(wǎng)絡(luò)采用了數(shù)據(jù)融合(數(shù)據(jù)匯聚)技術(shù)來減少網(wǎng)內(nèi)數(shù)據(jù)傳輸量。所謂傳感器數(shù)據(jù)融合是指將多個節(jié)點數(shù)據(jù)進(jìn)行處理,組合出更準(zhǔn)確高效、更符合用戶需求的數(shù)據(jù)的操作。 簇內(nèi)數(shù)據(jù)融合 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院56(1)基于卡爾曼濾波的傳感器節(jié)點數(shù)據(jù)融合 (2)基于簇內(nèi)加權(quán)數(shù)據(jù)融合 傳感器網(wǎng)絡(luò)采用分簇層次結(jié)構(gòu)后,在簇內(nèi)通常要進(jìn)行簇內(nèi)數(shù)據(jù)融合。簇內(nèi)數(shù)據(jù)融合是把一個簇內(nèi)各個簇成員節(jié)點感知到的數(shù)據(jù)按照某一規(guī)則結(jié)合為一個最佳估計值。由于傳感器節(jié)點是隨機放置的,而且各個傳感器有各自的測量誤差,因此,每個傳感器感知到的數(shù)據(jù)的權(quán)重因子也就各不相同,誤差小的節(jié)點的權(quán)重

43、應(yīng)該較大,而誤差大的節(jié)點的權(quán)重應(yīng)該較小。 簇內(nèi)數(shù)據(jù)融合 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院57簇內(nèi)加權(quán)數(shù)據(jù)融合:簇內(nèi)數(shù)據(jù)融合 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院58圖靈獎獲得者Jim Gray指出,隨著計算機處理能力的提高、網(wǎng)絡(luò)技術(shù)的不斷進(jìn)步和存儲容量的飛速發(fā)展,數(shù)據(jù)處理、存儲、傳輸越來越廉價,數(shù)據(jù)和數(shù)據(jù)組織才是真正最有價值的東西。數(shù)據(jù)的存儲和處理經(jīng)歷了由集中式向分布式發(fā)展的歷程。 1.集中式數(shù)據(jù)處理 集中式計算機網(wǎng)絡(luò)是一個大型的中央計算系統(tǒng),其終端是客戶機。數(shù)據(jù)全部存儲在中央系統(tǒng)內(nèi),由數(shù)據(jù)庫管理系統(tǒng)進(jìn)行管理,而且所有的處理都由該大型計算系統(tǒng)

44、來完成,終端只是用來輸入和輸出。在這種計算模式里,終端自己不作任何數(shù)據(jù)處理,所有任務(wù)都在中央主機上進(jìn)行處理。 集中式數(shù)據(jù)存儲、處理的主要特點是把所有數(shù)據(jù)保存在一個地方,各個遠(yuǎn)程終端通過電纜同中央計算機(主機)相連,保證了每個終端使用的都是同一信息。 分布式數(shù)據(jù)存儲與處理 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院59銀行的ATM機采用的就是集中式計算機網(wǎng)絡(luò),所有的事務(wù)都在銀行網(wǎng)絡(luò)系統(tǒng)的主機上進(jìn)行處理,終端只提供簡單的信息輸入、查詢處理。這種集中式處理結(jié)構(gòu)總體費用比較低,主機因擁有大量存儲空間和強大的計算能力而價格昂貴,但眾多的終端因功能簡單,其價格非常便宜。 集中式處理不利的

45、一面是來自所有終端的計算需求都是由中央主機完成的,使得系統(tǒng)的性能瓶頸存在于中央主機,當(dāng)用戶數(shù)量較大時,網(wǎng)絡(luò)處理速度可能有些慢。另外,如果各用戶有不同的服務(wù)需求時,在集中式計算機網(wǎng)絡(luò)上滿足這些需求可能十分困難。 分布式數(shù)據(jù)存儲與處理 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院602.分布式數(shù)據(jù)處理 個人計算機的性能不斷提高及其使用的普及使得處理能力分布到網(wǎng)絡(luò)上的所有計算機成為可能,分布式計算就是利用互聯(lián)網(wǎng)上計算機CPU的閑置處理能力來合力解決大型計算問題的一種計算科學(xué)。 例如,通過Internet上閑置主機的計算能力來尋找最大的梅森素數(shù)、尋求最為安全的密碼系統(tǒng)和尋找對抗癌癥的有

46、效藥物等。這些復(fù)雜的項目都需要驚人的計算量,僅僅由單個計算機或個人在一個能讓人接受的時間內(nèi)計算完成是決不可能的。 分布式數(shù)據(jù)存儲與處理 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院61在分布式網(wǎng)絡(luò)中,數(shù)據(jù)的計算和處理都是在本地工作站上進(jìn)行的。數(shù)據(jù)的輸出可以打印,也可以保存在本地存儲設(shè)備中,通過分布式網(wǎng)絡(luò)主要是能得到更快、更便捷的數(shù)據(jù)訪問。 分布式計算的優(yōu)點是可以快速訪問,實現(xiàn)多用戶共享使用資源,每臺計算機都可以訪問網(wǎng)絡(luò)系統(tǒng)內(nèi)部其他計算機的信息。在系統(tǒng)設(shè)計上,分布式計算結(jié)構(gòu)具有更大的靈活性,既可以為獨立計算機用戶的特殊需求服務(wù),也可以為聯(lián)網(wǎng)企業(yè)的需求提供服務(wù),實現(xiàn)系統(tǒng)內(nèi)部不同計算

47、機之間的通信。 分布式計算的缺點是對病毒比較敏感,任何用戶都可能引入被病毒感染的文件,并將病毒擴散到整個網(wǎng)絡(luò)。另外,分布式系統(tǒng)中數(shù)據(jù)分布在多個地方,難以制定一項有效的備份計劃。 分布式數(shù)據(jù)存儲與處理 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院623.分布式數(shù)據(jù)存儲 分布式數(shù)據(jù)存儲與處理技術(shù)是將數(shù)據(jù)分散存儲在多個終端節(jié)點上,采用可擴展的系統(tǒng)結(jié)構(gòu),利用多臺存儲服務(wù)器分擔(dān)存儲和處理數(shù)據(jù)的負(fù)荷,利用位置服務(wù)器定位存儲信息。這種存儲方式不但解決了傳統(tǒng)集中式存儲系統(tǒng)中單存儲服務(wù)器的性能瓶頸問題,而且提高了系統(tǒng)的可靠性、可用性和擴展性。 目前,在互聯(lián)網(wǎng)上可訪問的信息數(shù)量達(dá)秭(百萬億億)級。

48、毫無疑問,各個大型網(wǎng)站也都存儲著海量的數(shù)據(jù),這些海量數(shù)據(jù)如何有效存儲是每個大型網(wǎng)站的架構(gòu)師必須要解決的問題。分布式存儲就是為解決這個問題而發(fā)展起來的技術(shù)。 分布式數(shù)據(jù)存儲與處理 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院63分布式數(shù)據(jù)存儲子系統(tǒng)架構(gòu) :分布式數(shù)據(jù)存儲與處理 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院64這種分布式存儲技術(shù)并不是將數(shù)據(jù)存儲在某個或多個特定的節(jié)點上,而是通過網(wǎng)絡(luò)使用每臺機器上的磁盤空間,并將這些分散的存儲資源構(gòu)成一個虛擬的存儲設(shè)備,數(shù)據(jù)分散地、結(jié)構(gòu)化地存儲在網(wǎng)內(nèi)的各個地方。 結(jié)構(gòu)化數(shù)據(jù)是一種用戶定義的數(shù)據(jù)類型,它包含了一系列的屬性

49、,每一個屬性都有一個數(shù)據(jù)類型。結(jié)構(gòu)化數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫中時,可以用二維表結(jié)構(gòu)來表達(dá)這些數(shù)據(jù)。大多數(shù)系統(tǒng)都有大量的結(jié)構(gòu)化數(shù)據(jù),一般存儲在Oracle或MySQL等關(guān)系型數(shù)據(jù)庫中,當(dāng)系統(tǒng)規(guī)模大到單一節(jié)點的數(shù)據(jù)庫無法支撐時,可采用垂直擴展與水平擴展來分散數(shù)據(jù)的存儲。 分布式數(shù)據(jù)存儲與處理 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院65第五講內(nèi)容安排后臺數(shù)據(jù)庫技術(shù)數(shù)據(jù)庫概述關(guān)系型數(shù)據(jù)庫SQL查詢語言資源受限網(wǎng)絡(luò)的分級數(shù)據(jù)融合節(jié)點的分簇控制簇內(nèi)數(shù)據(jù)融合分布式數(shù)據(jù)存儲與處理數(shù)據(jù)挖掘與海計算數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)云計算概述海計算的概念與未來8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院

50、信息工程學(xué)院66數(shù)據(jù)挖掘與海計算 在物聯(lián)網(wǎng)的應(yīng)用中,感知的數(shù)據(jù)從大量終端收集到后臺數(shù)據(jù)庫,由于環(huán)境狀況、數(shù)據(jù)質(zhì)量等的影響,使得對這些數(shù)據(jù)的管理、分析和使用面臨巨大的挑戰(zhàn)。與傳統(tǒng)數(shù)據(jù)挖掘領(lǐng)域的數(shù)據(jù)特征相比,物聯(lián)網(wǎng)數(shù)據(jù)的主要特性包括時空性、關(guān)聯(lián)性、質(zhì)量不高、海量和非結(jié)構(gòu)性。本節(jié)主要介紹在處理物聯(lián)網(wǎng)數(shù)據(jù)時用到的數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)、云計算以及海計算的基本概念。 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院67隨著數(shù)據(jù)庫技術(shù)的飛速發(fā)展以及人們獲取數(shù)據(jù)手段的多樣化,人類所擁有的數(shù)據(jù)量急劇增加,人們面臨“如何有效存儲這些數(shù)據(jù)的問題“。同時,面對物聯(lián)網(wǎng)中的海量數(shù)據(jù),我們?nèi)绾翁崛〕鲇杏眯畔⒁?/p>

51、引起廣泛關(guān)注。針對這些問題,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。 1.數(shù)據(jù)倉庫 為了滿足決策支持和聯(lián)機分析應(yīng)用的需求,在20世紀(jì)90年代初,一個叫做數(shù)據(jù)倉庫(data warehouse)的概念被提出,它是現(xiàn)今流行的一種數(shù)據(jù)存儲庫的系統(tǒng)結(jié)構(gòu)。數(shù)據(jù)倉庫指的是面向主題的(subject-oriented)、集成的(integrated)、時變的(time-variant)和非易失(nonvolatile)的數(shù)據(jù)集合,用以支持管理中的決策制定過程。 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù) 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院68數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu) :數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù) 8/16/2022

52、8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院69數(shù)據(jù)處理通常分為兩大類:聯(lián)機事務(wù)處理和聯(lián)機分析處理。聯(lián)機事務(wù)處理(On-Line Transaction Processing, OLTP)系統(tǒng)也稱為面向交易的處理系統(tǒng),其基本特征是用戶的原始數(shù)據(jù)可以立即傳送到計算中心進(jìn)行處理,并在很短的時間內(nèi)給出處理結(jié)果。聯(lián)機分析處理(On-Line Analytical Processing, OLAP)系統(tǒng)是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,可以用不同的格式組織和提供數(shù)據(jù),以滿足不同用戶的各種需求,支持復(fù)雜的分析系統(tǒng),側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù) 8/16/2022 8:07 PM石

53、家莊經(jīng)濟學(xué)院信息工程學(xué)院702.數(shù)據(jù)挖掘技術(shù) (1)數(shù)據(jù)挖掘概述 數(shù)據(jù)挖掘(data mining)的概念在1995年的美國計算機年會(ACM)上被真正提出,它是指從大量數(shù)據(jù)中提取或“挖掘”知識,通俗地講,就是從大量的數(shù)據(jù)中挖掘那些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式和知識的過程。 數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的,目前,數(shù)據(jù)挖掘的應(yīng)用范圍極其廣泛,涉及到銀行、電信、保險、交通、零售等商業(yè)領(lǐng)域,能夠解決市場分析、客戶流失分析和客戶信用評分等許多典型的商業(yè)問題。 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù) 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院71(2)數(shù)據(jù)挖掘的過程 作

54、為知識發(fā)現(xiàn)的過程,數(shù)據(jù)挖掘工作的基本步驟如下: 了解相關(guān)的知識和應(yīng)用的目標(biāo); 創(chuàng)建目標(biāo)數(shù)據(jù)集,也就是選擇數(shù)據(jù); 數(shù)據(jù)清理和預(yù)處理,一般來講,此過程的工作量占到整個數(shù)據(jù)挖掘過程的60%; 數(shù)據(jù)縮減與變換,即找到有用的特征,進(jìn)行維數(shù)增減、變量增減、不變量的表示等; 選擇數(shù)據(jù)挖掘的功能,如數(shù)據(jù)特征描述、分類模型數(shù)據(jù)挖掘、回歸分析、關(guān)聯(lián)規(guī)則挖掘、聚類分析等; 選擇具體的數(shù)據(jù)挖掘算法; 進(jìn)行數(shù)據(jù)挖掘,尋找感興趣的、有用的模式; 進(jìn)行模式評估和知識表示,包括可視化、轉(zhuǎn)換和消除冗余等; 運用發(fā)現(xiàn)的知識。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù) 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院72(3)幾種常見數(shù)據(jù)

55、挖掘功能 關(guān)聯(lián)規(guī)則 分類和預(yù)測 聚類分析 離群點分析 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù) 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院73近幾年,云計算、物聯(lián)網(wǎng)和智慧地球等頗具前瞻性的概念不斷出現(xiàn),在某種程度上打破了我們原來對信息技術(shù)及應(yīng)用的固有看法。 1.云計算的發(fā)展 2007年之前幾乎還沒有人知道云計算(Cloud Computing)這個詞,似乎在一夜之間,這個概念突然風(fēng)靡全球,如今,在IT業(yè)基本上沒有人沒聽說過云計算。有人將2008年稱為云計算的應(yīng)用元年。從這一年開始,很多主流IT廠商都開始涉及云計算領(lǐng)域,主要有微軟、Oracle、VMware等軟件開發(fā)商,IBM、英特爾、惠普、S

56、UN等硬件廠商,Google、亞馬遜、Salesforce等互聯(lián)網(wǎng)服務(wù)提供商和像中國移動、AT&T等電信運營商。 云計算概述 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院74云計算是多種技術(shù)混合演進(jìn)的結(jié)果,這些技術(shù)成熟度相對較高,又有大公司的推動,所以發(fā)展極為迅速。Google、亞馬遜、IBM和微軟等大公司是云計算的先行者。亞馬遜研發(fā)了彈性計算云EC2(Elastic Computing Cloud)和簡單存儲服務(wù)S3(Simple Storage Service),為企業(yè)提供計算和存儲服務(wù)。Google公司是最大的云計算技術(shù)使用者,它的技術(shù)三大法寶為GFS(Google Fi

57、le System)、MapReduce和Bigtable。IBM公司推出的改變游戲規(guī)則的“藍(lán)云”計算平臺,為客戶帶來即買即用的云計算平臺。2008年10月,微軟公司推出了Windows Azure操作系統(tǒng),它是通過在互聯(lián)網(wǎng)架構(gòu)上打造新的云計算平臺,讓W(xué)indows真正由PC延伸到“藍(lán)天”上。 云計算概述 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院75我國也緊跟云計算的步伐。中國移動研究院已經(jīng)建立起1024個CPU的云計算試驗中心。世紀(jì)互聯(lián)推出了CloudEx產(chǎn)品線,提供互聯(lián)網(wǎng)主機服務(wù)、在線存儲虛擬化服務(wù)等。解放軍理工大學(xué)研制了云存儲系統(tǒng)MassCloud,并以它支撐基于3G的大規(guī)模視頻監(jiān)控應(yīng)用和數(shù)字地球系統(tǒng)。 云計算概述 8/16/2022 8:07 PM石家莊經(jīng)濟學(xué)院信息工程學(xué)院762.云計算的定義 云計算是一種商業(yè)計算模型,它將計算任務(wù)分布在大量網(wǎng)絡(luò)化計算機構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計算力、存儲空間和各種軟件服務(wù)。云計算把IT資源、數(shù)據(jù)和應(yīng)用作為服務(wù),通過網(wǎng)絡(luò)提供給用戶,云計算結(jié)構(gòu)如下所示。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論