支撐物聯(lián)網(wǎng)的計(jì)算機(jī)技術(shù)數(shù)據(jù)庫(kù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘_第1頁(yè)
支撐物聯(lián)網(wǎng)的計(jì)算機(jī)技術(shù)數(shù)據(jù)庫(kù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘_第2頁(yè)
支撐物聯(lián)網(wǎng)的計(jì)算機(jī)技術(shù)數(shù)據(jù)庫(kù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘_第3頁(yè)
支撐物聯(lián)網(wǎng)的計(jì)算機(jī)技術(shù)數(shù)據(jù)庫(kù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘_第4頁(yè)
支撐物聯(lián)網(wǎng)的計(jì)算機(jī)技術(shù)數(shù)據(jù)庫(kù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

計(jì)算機(jī)技術(shù):物聯(lián)網(wǎng)的計(jì)算工具高性能計(jì)算、普適計(jì)算與云計(jì)算數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)人工智能技術(shù)多媒體技術(shù)虛擬現(xiàn)實(shí)技術(shù)嵌入式技術(shù)可穿戴計(jì)算技術(shù)物聯(lián)網(wǎng)的技術(shù)體系2/85數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)庫(kù)技術(shù)的發(fā)展數(shù)據(jù)庫(kù)技術(shù)產(chǎn)生于20世紀(jì)60年代末期,短短30年間已從第一代層次、網(wǎng)狀數(shù)據(jù)庫(kù),第二代關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)發(fā)展到第三代以面向?qū)ο竽P蜑橹饕卣鞯臄?shù)據(jù)庫(kù)系統(tǒng)。隨著數(shù)據(jù)庫(kù)技術(shù)不斷應(yīng)用到新的領(lǐng)域,傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)面臨著以下新的挑戰(zhàn):

(1)信息爆炸導(dǎo)致數(shù)據(jù)量劇增。隨著社會(huì)信息化進(jìn)程的加快,信息量急劇增長(zhǎng)。如構(gòu)成人類基因組的DNA排列圖譜,每個(gè)基因組DNA排列長(zhǎng)達(dá)幾十億個(gè)元素,每個(gè)元素又是一個(gè)復(fù)雜的數(shù)據(jù)單元,據(jù)估計(jì)人類的基因組約5~6萬種,如何表示、訪問和處理這樣的圖譜結(jié)構(gòu)數(shù)據(jù),是數(shù)據(jù)庫(kù)面臨的難題。

(2)數(shù)據(jù)類型的多樣化和一體化要求。傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)基本上是面向記錄的,以字符表示的格式化數(shù)據(jù)為主,這遠(yuǎn)遠(yuǎn)不能滿足多種多樣信息類型的需求。新的數(shù)據(jù)庫(kù)系統(tǒng)應(yīng)能支持各種靜態(tài)和動(dòng)態(tài)的數(shù)據(jù),如圖形、圖像、語(yǔ)音、文本、視頻、動(dòng)畫、音樂等。(3)當(dāng)前的數(shù)據(jù)庫(kù)技術(shù)還不能處理不確定或不精確的模糊信息。目前,一般數(shù)據(jù)庫(kù)的數(shù)據(jù),除空值外都是確定的。但是實(shí)際生活中要求數(shù)據(jù)庫(kù)能表示、處理不確定或不精確的數(shù)據(jù)。數(shù)據(jù)庫(kù)技術(shù)的發(fā)展(4)數(shù)據(jù)安全性。數(shù)據(jù)庫(kù)系統(tǒng)的發(fā)展方向是在大范圍內(nèi)集成,向廣大用戶提供方便的服務(wù)。隨著移動(dòng)主機(jī)(便攜式計(jì)算機(jī))的大量涌現(xiàn),因特網(wǎng)的擴(kuò)展延伸,用戶可以隨時(shí)隨地訪問數(shù)據(jù)庫(kù)。此外,移動(dòng)主機(jī)遺失、失竊等現(xiàn)象時(shí)有發(fā)生,這就帶來嚴(yán)重的數(shù)據(jù)庫(kù)安全和保密問題。現(xiàn)有的數(shù)據(jù)庫(kù)安全措施還不能滿足這個(gè)要求。在數(shù)據(jù)庫(kù)安全模型、訪問控制、授權(quán)、審計(jì)跟蹤、數(shù)據(jù)加密、密鑰管理、并發(fā)控制等方面都還沒有形成明確的主流技術(shù)策略。(5)對(duì)數(shù)據(jù)庫(kù)理解和知識(shí)獲取的要求。目前,一方面正在被信息所淹沒,另一方面由于缺乏知識(shí)而感到饑餓。人們對(duì)數(shù)據(jù)庫(kù)的使用已不限于傳統(tǒng)的查詢,而希望把它作為知識(shí)源,從中提取一些知識(shí),希望數(shù)據(jù)庫(kù)具有推理、類比、聯(lián)想、預(yù)測(cè)能力,甚至能從中得到意想不到的發(fā)現(xiàn),希望數(shù)據(jù)庫(kù)能主動(dòng)而不是被動(dòng)地提供服務(wù)。數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)20世紀(jì)80年代中期以來,尤其是進(jìn)入90年代,數(shù)數(shù)據(jù)庫(kù)出現(xiàn)了許多新分支。數(shù)據(jù)庫(kù)與其他相關(guān)技術(shù)相結(jié)合出現(xiàn)的新分支有:與面向?qū)ο蠹夹g(shù)結(jié)合出現(xiàn)的面向?qū)ο髷?shù)據(jù)庫(kù),與分布技術(shù)相結(jié)合出現(xiàn)的分布式數(shù)據(jù)庫(kù),與并行處理技術(shù)相結(jié)合出現(xiàn)的并行數(shù)據(jù)庫(kù),與多媒體技術(shù)相結(jié)合出現(xiàn)的多媒體數(shù)據(jù)庫(kù),與人工智能技術(shù)相結(jié)合出現(xiàn)的主動(dòng)數(shù)據(jù)庫(kù)、知識(shí)庫(kù)和演繹數(shù)據(jù)庫(kù)、與模糊技術(shù)相結(jié)合出現(xiàn)的模糊數(shù)據(jù)庫(kù)等。數(shù)據(jù)庫(kù)面向不同的應(yīng)用領(lǐng)域出現(xiàn)的新分支有:面向決策支持出現(xiàn)的數(shù)據(jù)倉(cāng)庫(kù),面向工程設(shè)計(jì)出現(xiàn)的工程數(shù)據(jù)庫(kù),面向地理信息系統(tǒng)(GIS)出現(xiàn)的空間數(shù)據(jù)庫(kù),面向移動(dòng)計(jì)算環(huán)境出現(xiàn)的移動(dòng)數(shù)據(jù)庫(kù),以及實(shí)時(shí)數(shù)據(jù)庫(kù)、統(tǒng)計(jì)數(shù)據(jù)庫(kù)等。以上這些數(shù)據(jù)庫(kù)都是將要在后面各節(jié)中分別加以介紹的。數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)模糊技術(shù)新技術(shù)內(nèi)容關(guān)系模型面向?qū)ο竽P头植技夹g(shù)并行技術(shù)多媒體技術(shù)人工智能應(yīng)用領(lǐng)域圖13.1數(shù)據(jù)庫(kù)家族的新成員分布式數(shù)據(jù)庫(kù)并行數(shù)據(jù)庫(kù)多媒體數(shù)據(jù)庫(kù)主動(dòng)數(shù)據(jù)庫(kù)模糊數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)工程數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)移動(dòng)數(shù)據(jù)庫(kù)決策支持移動(dòng)計(jì)算工程設(shè)計(jì)地理信息系統(tǒng)層次網(wǎng)狀模型數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)面向?qū)ο髷?shù)據(jù)庫(kù)

面向?qū)ο髷?shù)據(jù)庫(kù)采用面向?qū)ο髷?shù)據(jù)模型,完整描述現(xiàn)實(shí)世界的數(shù)據(jù)結(jié)構(gòu),具有豐富的表達(dá)能力分布式數(shù)據(jù)庫(kù)

一個(gè)分布式數(shù)據(jù)庫(kù)是物理上分散在計(jì)算機(jī)網(wǎng)絡(luò)各結(jié)點(diǎn)上,但在邏輯上屬于同一系統(tǒng)的數(shù)據(jù)集合。它具有局部自治與全局共享性、數(shù)據(jù)的冗余性、數(shù)據(jù)的獨(dú)立性、系統(tǒng)的透明性等特點(diǎn)。分布式數(shù)據(jù)庫(kù)管理系統(tǒng)(DDBMS)支持分布式數(shù)據(jù)庫(kù)的建立、使用和維護(hù),負(fù)責(zé)實(shí)現(xiàn)局部數(shù)據(jù)管理、數(shù)據(jù)通信、分布式數(shù)據(jù)管理以及數(shù)據(jù)字典管理功能。數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)1、并行數(shù)據(jù)庫(kù)系統(tǒng)并行數(shù)據(jù)庫(kù)系統(tǒng)(ParallelDatabaseSystem,簡(jiǎn)稱PDBS)是以并行計(jì)算機(jī)為基礎(chǔ),以高性能和可擴(kuò)展性為目標(biāo),利用多處理器結(jié)構(gòu)提供比大型機(jī)系統(tǒng)高得多的性能價(jià)格比和可用性的數(shù)據(jù)庫(kù)系統(tǒng)。人們普遍認(rèn)為,并行數(shù)據(jù)庫(kù)系統(tǒng)將是未來的高性能數(shù)據(jù)庫(kù)系統(tǒng)。并行數(shù)據(jù)庫(kù)的研究主要包括以下幾個(gè)方面:一是實(shí)現(xiàn)并行數(shù)據(jù)庫(kù)操作的并行算法的研究,它要解決如何對(duì)數(shù)據(jù)庫(kù)進(jìn)行并行操作的問題;二是并行數(shù)據(jù)庫(kù)物理存儲(chǔ)結(jié)構(gòu)的研究,它要考慮如何劃分多處理機(jī)、如何劃分或共享磁盤及內(nèi)存等,以保證能實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)的并行操作;三是并行查詢優(yōu)化的研究,查詢優(yōu)化是數(shù)據(jù)庫(kù)領(lǐng)域的一個(gè)傳統(tǒng)課題,但并行查詢優(yōu)化更加復(fù)雜,實(shí)現(xiàn)起來困難得多。目前,對(duì)并行數(shù)據(jù)庫(kù)系統(tǒng)的研究已取得很大成效,出現(xiàn)了一些并行數(shù)據(jù)庫(kù)的原型系統(tǒng),如ARBRE、BUBBA、GAMMA、GRACE、ERADAT、XPRS等,一些運(yùn)行在大規(guī)模并行處理系統(tǒng)上的大型商品化數(shù)據(jù)庫(kù)管理系統(tǒng)如Oracle、Sybase等,也增加了并行處理能力。多媒體數(shù)據(jù)庫(kù)概念:媒體是指信息表示或傳播的載體。多媒體是指多種媒體形式,如數(shù)字、字符、文本、圖形、圖像、聲音、視頻的有機(jī)集成。其中數(shù)字、字符等稱為格式化數(shù)據(jù),文本、圖形、圖像、聲音、視頻等稱為非格式化數(shù)據(jù),非格式化數(shù)據(jù)具有數(shù)據(jù)量大、處理復(fù)雜等特點(diǎn)。多媒體數(shù)據(jù)庫(kù)系統(tǒng)(MultimediaDatabaseSystem,簡(jiǎn)稱MDBS)是結(jié)合數(shù)據(jù)庫(kù)技術(shù)和多媒體技術(shù),能夠有效實(shí)現(xiàn)對(duì)格式化和非格式化的多媒體數(shù)據(jù)進(jìn)行存儲(chǔ)、管理和操縱等功能的數(shù)據(jù)庫(kù)系統(tǒng)。多媒體數(shù)據(jù)庫(kù)多媒體數(shù)據(jù)特點(diǎn):(1)數(shù)據(jù)量大。格式化的數(shù)據(jù)數(shù)據(jù)量較小,最長(zhǎng)的字符型為254字節(jié)。多媒體數(shù)據(jù)的數(shù)據(jù)量一般很大,1分鐘的視頻和音頻數(shù)據(jù)往往需要幾十兆的數(shù)據(jù)空間,大小相當(dāng)于一個(gè)小型數(shù)據(jù)庫(kù)。(2)結(jié)構(gòu)復(fù)雜。傳統(tǒng)的數(shù)據(jù)以記錄為單位,一條記錄由多個(gè)字段組成,結(jié)構(gòu)簡(jiǎn)單。多媒體數(shù)據(jù)種類繁多結(jié)構(gòu)復(fù)雜,大多是非格式化數(shù)據(jù),來源于不同的媒體且具有不同的形式和格式。(3)時(shí)序性。由文字、聲音、圖象組成的復(fù)雜對(duì)象需有一定的同步機(jī)制,如畫面的配音或文字需要與畫面同步。傳統(tǒng)數(shù)據(jù)則無此要求。(4)數(shù)據(jù)傳輸?shù)倪B續(xù)性。聲音、視頻等多媒體數(shù)據(jù)的傳輸必須是連續(xù)的、穩(wěn)定的,否則會(huì)影響效果和失真。多媒體數(shù)據(jù)的這些特點(diǎn)使得其需要有特殊的數(shù)據(jù)結(jié)構(gòu)、存儲(chǔ)技術(shù)、查詢和處理方式,如支持大對(duì)象、基于相似性的檢索、連續(xù)介質(zhì)數(shù)據(jù)的檢索等。多媒體體數(shù)據(jù)庫(kù)的特征(1)與傳統(tǒng)數(shù)據(jù)庫(kù)的差異性。雖然在理論和技術(shù)上對(duì)傳統(tǒng)數(shù)據(jù)庫(kù)有很多繼承,但在其處理數(shù)據(jù)對(duì)象、數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)、應(yīng)用對(duì)象、處理方式都與傳統(tǒng)數(shù)據(jù)庫(kù)有較大差異,因此不能認(rèn)為多媒體數(shù)據(jù)庫(kù)只是對(duì)傳統(tǒng)數(shù)據(jù)庫(kù)的一種簡(jiǎn)單擴(kuò)充或者試圖用傳統(tǒng)技術(shù)來做簡(jiǎn)單的處理。(2)處理對(duì)象的復(fù)雜性。多媒體數(shù)據(jù)庫(kù)存儲(chǔ)和處理的是現(xiàn)實(shí)世界中的復(fù)雜對(duì)象,不僅要處理包括數(shù)字、字符等格式化數(shù)據(jù),還要處理圖像、音頻、視頻等非格式化數(shù)據(jù)。(3)媒體間的獨(dú)立性。多媒體數(shù)據(jù)庫(kù)面臨的數(shù)據(jù)有單一媒體數(shù)據(jù)和復(fù)合媒體數(shù)據(jù)(多種單一媒體數(shù)據(jù)的結(jié)合)。多媒體數(shù)據(jù)庫(kù)從實(shí)用性的要求出發(fā),強(qiáng)調(diào)多媒體數(shù)據(jù)庫(kù)的用戶應(yīng)可最大限度地忽略各媒體間的差異,從而實(shí)現(xiàn)對(duì)多媒體數(shù)據(jù)的管理和操作。媒體數(shù)據(jù)庫(kù)管理系統(tǒng)應(yīng)具備的基本功能

(1)有效地表示各種媒體數(shù)據(jù)。對(duì)多媒體數(shù)據(jù)根據(jù)應(yīng)用的不同采用不同的表示方法。(2)有效地處理各種媒體數(shù)據(jù)。系統(tǒng)應(yīng)能正確識(shí)別和表現(xiàn)各種媒體數(shù)據(jù)的特征、各種媒體間的空間或時(shí)間的關(guān)聯(lián)(如正確表達(dá)空間數(shù)據(jù)的相關(guān)特性和配音、文字和視頻等復(fù)合信息的同步)(3)有效地操作各種媒體信息。系統(tǒng)應(yīng)能象對(duì)格式化數(shù)據(jù)一樣對(duì)各種媒體數(shù)據(jù)進(jìn)行搜索、瀏覽等操作,且對(duì)不同的媒體可提供不同的操縱,如聲音的合成、圖形的縮放等。(4)具備開放性。系統(tǒng)應(yīng)能提供多媒體數(shù)據(jù)庫(kù)的API(應(yīng)用程序接口)、提供不同于傳統(tǒng)數(shù)據(jù)庫(kù)的特種事務(wù)處理和版本管理功能。主動(dòng)數(shù)據(jù)庫(kù)系統(tǒng)

主動(dòng)數(shù)據(jù)庫(kù)(ActiveDataBase,簡(jiǎn)稱ADB)是相對(duì)于傳統(tǒng)數(shù)據(jù)庫(kù)的被動(dòng)性而言的。傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)只能根據(jù)用戶或應(yīng)用程序的服務(wù)請(qǐng)求對(duì)數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)、檢索等操作,而不能根據(jù)發(fā)生的事件或數(shù)據(jù)庫(kù)的狀態(tài)主動(dòng)作出反應(yīng)。主動(dòng)數(shù)據(jù)庫(kù)系統(tǒng)(ADBMS)是指具有各種主動(dòng)提供服務(wù)功能,并且以一種統(tǒng)一的機(jī)制實(shí)現(xiàn)各種主動(dòng)服務(wù)的數(shù)據(jù)庫(kù)系統(tǒng)。主動(dòng)數(shù)據(jù)庫(kù)系統(tǒng)一個(gè)主動(dòng)數(shù)據(jù)庫(kù)系統(tǒng)在某一事件發(fā)生時(shí),引發(fā)數(shù)據(jù)庫(kù)管理系統(tǒng)去檢測(cè)數(shù)據(jù)庫(kù)當(dāng)前狀態(tài),若滿足指定條件,則觸發(fā)規(guī)定執(zhí)行的動(dòng)作,我們稱之為ECA規(guī)則。一個(gè)主動(dòng)數(shù)據(jù)庫(kù)系統(tǒng)可表示為:ADBS=DBS+EB+EM其中DBS代表傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng),用來存儲(chǔ)、操作、維護(hù)和管理數(shù)據(jù);EB代表ECA規(guī)則庫(kù),用來存儲(chǔ)ECA規(guī)則,每條規(guī)則指明在何種事件發(fā)生時(shí),根據(jù)給定條件,應(yīng)主動(dòng)執(zhí)行什么動(dòng)作;EM代表事件監(jiān)測(cè)器,一旦檢測(cè)到某事件發(fā)生就主動(dòng)觸發(fā)系統(tǒng),按照EB中指定的規(guī)則執(zhí)行相應(yīng)的動(dòng)作。

數(shù)據(jù)倉(cāng)庫(kù)以及數(shù)據(jù)挖掘是目前數(shù)據(jù)庫(kù)領(lǐng)域最為活躍的一個(gè)方面,受到學(xué)術(shù)界與產(chǎn)業(yè)界的廣泛關(guān)注。典型應(yīng)用環(huán)境如DSS,EIS,ERP。大型數(shù)據(jù)庫(kù)的數(shù)據(jù)倉(cāng)庫(kù)解決方案有:

InformixMetaCubeOracleExpressSybaseQuickStart

DataMart

對(duì)各類海量數(shù)據(jù)需要自動(dòng)分析、分類、匯總、發(fā)現(xiàn)和描述數(shù)據(jù)蘊(yùn)涵的趨勢(shì)、標(biāo)記異常等。數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)引入

各類管理人員需要從大量復(fù)雜的的業(yè)務(wù)數(shù)據(jù)中獲取各自權(quán)限內(nèi)的決策信息,及時(shí)把握市場(chǎng)變化脈搏,作出正確有效的判斷與抉擇;隨著數(shù)據(jù)庫(kù)系統(tǒng)的逐日運(yùn)行,數(shù)據(jù)將堆積越來越龐大;數(shù)據(jù)處理的重點(diǎn)需要從傳統(tǒng)業(yè)務(wù)擴(kuò)展到業(yè)務(wù)數(shù)據(jù)的聯(lián)機(jī)分析處理,并得到面向各種管理主題的統(tǒng)計(jì)信息和決策支持信息;數(shù)據(jù)倉(cāng)庫(kù)是基于大規(guī)模數(shù)據(jù)庫(kù)的DSS環(huán)境的核心。數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)引入數(shù)據(jù)倉(cāng)庫(kù)的基本概念多維數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)倉(cāng)庫(kù)研究?jī)?nèi)容數(shù)據(jù)挖掘通常稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD),是自動(dòng)的或方便的模式提取,這些模式代表隱藏在大型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他大量信息存儲(chǔ)中的知識(shí)。涉及的學(xué)科有:數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)學(xué)、模式識(shí)別、知識(shí)庫(kù)系統(tǒng)、知識(shí)獲取、信息檢索、高性能計(jì)算和數(shù)據(jù)可視化。數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)挖掘引入數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘的功能數(shù)據(jù)挖掘的分類與主要問題數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)挖掘大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則分類與預(yù)測(cè)聚類分析復(fù)雜類型的數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的應(yīng)用與發(fā)展趨勢(shì)數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)數(shù)據(jù)挖掘研究?jī)?nèi)容1、什么是數(shù)據(jù)倉(cāng)庫(kù)2、什么是數(shù)據(jù)挖掘3、數(shù)據(jù)挖掘的功能4、數(shù)據(jù)挖掘的分類5、數(shù)據(jù)挖掘的主要問題數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述什么是數(shù)據(jù)倉(cāng)庫(kù)1、數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生當(dāng)前的數(shù)據(jù)處理與數(shù)據(jù)分為兩類:操作型處理與數(shù)據(jù)分析型或信息型處理與數(shù)據(jù)什么是數(shù)據(jù)倉(cāng)庫(kù)1、數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生操作型處理:又稱事務(wù)處理,是指對(duì)數(shù)據(jù)庫(kù)聯(lián)機(jī)的日常操作,通常是對(duì)一個(gè)或一組記錄的查詢和修改,主要為企業(yè)的特定應(yīng)用服務(wù),所關(guān)心的是響應(yīng)時(shí)間,數(shù)據(jù)的安全性和完整性。操作型環(huán)境是以單一數(shù)據(jù)庫(kù)為中心的數(shù)據(jù)環(huán)境。什么是數(shù)據(jù)倉(cāng)庫(kù)1、數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生操作型數(shù)據(jù)(原始數(shù)據(jù))分析型數(shù)據(jù)(導(dǎo)出數(shù)據(jù))細(xì)節(jié)的綜合的,或提煉的在存取瞬間是準(zhǔn)確的代表過去的數(shù)據(jù)可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期對(duì)性能要求高對(duì)性能要求寬松一個(gè)時(shí)刻操作一個(gè)單元一個(gè)時(shí)刻操作一個(gè)集合事務(wù)驅(qū)動(dòng)分析驅(qū)動(dòng)面向應(yīng)用面向分析一次操作數(shù)據(jù)量小一次操作數(shù)據(jù)量大支持日常操作支持管理需求什么是數(shù)據(jù)倉(cāng)庫(kù)1、數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生操作型數(shù)據(jù)和分析型數(shù)據(jù)的不同而導(dǎo)致的數(shù)據(jù)分離的自然擴(kuò)展過程:操作型原子/數(shù)據(jù)倉(cāng)庫(kù)部門/數(shù)據(jù)集市個(gè)體什么是數(shù)據(jù)倉(cāng)庫(kù)2、數(shù)據(jù)倉(cāng)庫(kù)的定義數(shù)據(jù)倉(cāng)庫(kù)之父W.H.Inmon給出了定義:數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、不可更新的且隨時(shí)間不斷變化的數(shù)據(jù)集合,用來支持管理人員的決策。什么是數(shù)據(jù)倉(cāng)庫(kù)2、數(shù)據(jù)倉(cāng)庫(kù)的定義面向主題主題:是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象,即對(duì)應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對(duì)象。面向主題的數(shù)據(jù)組織方式就是對(duì)分析對(duì)象的數(shù)據(jù)的一個(gè)完整、一致的描述,能完整、統(tǒng)一地刻畫各個(gè)分析對(duì)象所涉及的企業(yè)的各項(xiàng)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。什么是數(shù)據(jù)倉(cāng)庫(kù)2、數(shù)據(jù)倉(cāng)庫(kù)的定義面向主題每個(gè)主題在數(shù)據(jù)倉(cāng)庫(kù)中都是由一組關(guān)系表實(shí)現(xiàn)的;主題的實(shí)現(xiàn)基于關(guān)系數(shù)據(jù)庫(kù);在具體實(shí)現(xiàn)中,一個(gè)主題可以劃分成多個(gè)表,主題只是一個(gè)邏輯的概念;基于一個(gè)主題的所有表都含有一個(gè)稱為公共鍵碼的屬性作為其主碼的一部分。什么是數(shù)據(jù)倉(cāng)庫(kù)2、數(shù)據(jù)倉(cāng)庫(kù)的定義面向主題CustomerIDFromdateTodateNameAddressPhoneSex…CustomerIDFromdateTodateNameAddressCreditratingemployerSex…CustomerIDActivitydateAmountLocationForitem…什么是數(shù)據(jù)倉(cāng)庫(kù)2、數(shù)據(jù)倉(cāng)庫(kù)的定義數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是集成的要統(tǒng)一源數(shù)據(jù)中所有矛盾之處,如同名異義、字長(zhǎng)不一致等等;進(jìn)行數(shù)據(jù)綜合和計(jì)算。數(shù)據(jù)綜合可以從原有數(shù)據(jù)庫(kù)抽取數(shù)據(jù)生成,但許多是在數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部生成。什么是數(shù)據(jù)倉(cāng)庫(kù)2、數(shù)據(jù)倉(cāng)庫(kù)的定義數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)是不可更新數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析使用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一般不進(jìn)行修改操作;數(shù)據(jù)庫(kù)中進(jìn)行聯(lián)機(jī)處理的數(shù)據(jù)經(jīng)過集成輸入到數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)超過存儲(chǔ)期限,這些數(shù)據(jù)將從當(dāng)前數(shù)據(jù)倉(cāng)庫(kù)中刪去;

DWMS比DBMS簡(jiǎn)單,但查詢要求高。什么是數(shù)據(jù)倉(cāng)庫(kù)2、數(shù)據(jù)倉(cāng)庫(kù)的定義數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)隨時(shí)間不斷變化數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間變化不斷增加新的內(nèi)容;數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間變化不斷刪除舊的內(nèi)容;數(shù)據(jù)倉(cāng)庫(kù)中包含有大量的綜合數(shù)據(jù),這些數(shù)據(jù)隨時(shí)間變化不斷地進(jìn)行重新綜合;數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的碼鍵包含時(shí)間項(xiàng),標(biāo)明歷史時(shí)期。什么是數(shù)據(jù)倉(cāng)庫(kù)3、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織3.1組織結(jié)構(gòu)元數(shù)據(jù)高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)2002~2003年每月銷售表2002~2003年每周銷售表2002~2003年銷售情況表2002~2003年銷售明細(xì)表什么是數(shù)據(jù)倉(cāng)庫(kù)3、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織3.1組織結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)中的不同綜合級(jí)別,稱為“粒度”。粒度越大,表示細(xì)節(jié)程度越低,綜合程度越高。

元數(shù)據(jù)(metadata):關(guān)于數(shù)據(jù)的數(shù)據(jù)。操作型環(huán)境向數(shù)據(jù)倉(cāng)庫(kù)環(huán)境轉(zhuǎn)換而建立的元數(shù)據(jù);數(shù)據(jù)倉(cāng)庫(kù)中用來與終端用戶的多維商業(yè)模型/前端工具之間建立映射,也為DSS元數(shù)據(jù)。什么是數(shù)據(jù)倉(cāng)庫(kù)3、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織3.2粒度與分割粒度是數(shù)據(jù)倉(cāng)庫(kù)的重要概念。粒度是指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。細(xì)化程度越高,粒度級(jí)就越??;細(xì)化程度越低粒度級(jí)就越大。一般采用多重粒度級(jí):高細(xì)節(jié)級(jí)、低細(xì)節(jié)級(jí)。什么是數(shù)據(jù)倉(cāng)庫(kù)3、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織3.2粒度與分割分割是數(shù)據(jù)倉(cāng)庫(kù)的重要概念。分割是指將數(shù)據(jù)分散到各自的物理單元中去以便能分別獨(dú)立處理,以提高數(shù)據(jù)處理效率。數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片。數(shù)據(jù)分割標(biāo)準(zhǔn)依據(jù)實(shí)際情況確定,一般應(yīng)包括日期項(xiàng)。分割使數(shù)據(jù)更易重構(gòu)、索引、重組、恢復(fù)、監(jiān)控。什么是數(shù)據(jù)倉(cāng)庫(kù)3、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織3.2粒度與分割簡(jiǎn)單分割實(shí)例,分片以時(shí)間標(biāo)準(zhǔn)來組織:健康保險(xiǎn)生命保險(xiǎn)事故保險(xiǎn)2001分片1分片2分片32002分片4分片5分片62003分片7分片8分片9什么是數(shù)據(jù)倉(cāng)庫(kù)3、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織3.3數(shù)據(jù)組織形式簡(jiǎn)單堆積文件:數(shù)據(jù)逐天積累輪轉(zhuǎn)綜合文件:按日、周、月、年組織數(shù)據(jù)集簡(jiǎn)化直

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論