第六章 數(shù)據(jù)挖掘概述_第1頁
第六章 數(shù)據(jù)挖掘概述_第2頁
第六章 數(shù)據(jù)挖掘概述_第3頁
第六章 數(shù)據(jù)挖掘概述_第4頁
第六章 數(shù)據(jù)挖掘概述_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第六章數(shù)據(jù)挖掘概述本章內(nèi)容數(shù)據(jù)挖掘的由來數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘的主要功能數(shù)據(jù)挖掘模型和實現(xiàn)流程數(shù)據(jù)挖掘應用數(shù)據(jù)挖掘的由來網(wǎng)絡(luò)之后的下一個技術(shù)熱點數(shù)據(jù)爆炸但知識貧乏支持數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)從商業(yè)數(shù)據(jù)到商業(yè)信息的進化網(wǎng)絡(luò)之后的下一個技術(shù)熱點網(wǎng)絡(luò)時代面臨的信息問題:信息過量,難以消化;信息真假難以辨識;信息安全難以保證;信息形式不一致,難以統(tǒng)一處理?!耙獙W會拋棄信息”

數(shù)據(jù)爆炸但知識貧乏數(shù)據(jù)庫的容量已達上萬億水平(T)--1,000,000,000,000個字節(jié)全球信息量以驚人的速度急劇增長--據(jù)估計,每二十個月將增加一倍。許多組織機構(gòu)的IT系統(tǒng)中都收集了大量的數(shù)據(jù)支持數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)激發(fā)了數(shù)據(jù)挖掘的開發(fā)、應用和研究的興趣的四個主要技術(shù)理由:超大規(guī)模數(shù)據(jù)庫的出現(xiàn),例如商業(yè)數(shù)據(jù)倉庫和計算機自動收集的數(shù)據(jù)記錄;強大的多處理器計算機。例如更快和更大的計算能力和并行體系結(jié)構(gòu);海量數(shù)據(jù)搜索,對巨大量數(shù)據(jù)的快速訪問;數(shù)據(jù)挖掘算法。

從商業(yè)數(shù)據(jù)到商業(yè)信息的進化進化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點數(shù)據(jù)搜集

(60年代)“過去五年中我的總收入是多少?”計算機、磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問

(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫(RDBMS),結(jié)構(gòu)化查詢語言(SQL)、Sybase、Informix、IBMOracle、Sybase、Informix、IBM、Microsoft在記錄級提供歷史性、動態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫;

決策支持

(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫Pilot、Comshare、Arbor、Cognos、Microstrategy在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘

(正在流行)“下個月波士頓的銷售會怎么樣?為什么?”高級算法、多處理器計算機、海量數(shù)據(jù)庫Pilot、Lockheed、IBM、SGI、其他初創(chuàng)公司提供預測性的信息數(shù)據(jù)挖掘(DataMining)的定義數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程?!布夹g(shù)角度的定義〕數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證己知的規(guī)律性,并進一步將其模型化的有效方法?!采虡I(yè)角度的定義〕數(shù)據(jù)挖掘相近的同義詞包括:數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。

數(shù)據(jù)挖掘與其他科學的關(guān)系數(shù)據(jù)挖掘數(shù)據(jù)庫系統(tǒng)統(tǒng)計學其他學科算法機器學習可視化實施數(shù)據(jù)挖掘的目的不再是單純?yōu)榱搜芯浚饕氖菫樯虡I(yè)決策提供真正有價值的信息,進而獲得利潤。所有企業(yè)面臨的一個共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少,因此需要從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也由此而得名。數(shù)據(jù)挖掘的應用數(shù)據(jù)分析和決策支持市場分析和管理目標市場,客戶關(guān)系管理(CRM),市場占有量分析,交叉銷售,市場分割風險分析和管理風險預測,客戶保持,保險業(yè)的改良,質(zhì)量控制,競爭分析欺騙檢測和異常模式的監(jiān)測(孤立點)其他的應用文本挖掘(新聞組,電子郵件,文檔)和WEB挖掘流數(shù)據(jù)挖掘DNA和生物數(shù)據(jù)分析數(shù)據(jù)挖掘應用——市場分析和管理(1)數(shù)據(jù)從那里來?信用卡交易,會員卡,商家的優(yōu)惠卷,消費者投訴電話,公眾生活方式研究目標市場構(gòu)建一系列的“客戶群模型”,這些顧客具有相同特征:興趣愛好,收入水平,消費習慣,等等確定顧客的購買模式交叉市場分析貨物銷售之間的相互聯(lián)系和相關(guān)性,以及基于這種聯(lián)系上的預測數(shù)據(jù)挖掘應用——市場分析和管理(2)顧客分析哪類顧客購買那種商品(聚類分析或分類預測)客戶需求分析確定適合不同顧客的最佳商品預測何種因素能夠吸引新顧客提供概要信息多維度的綜合報告統(tǒng)計概要信息(數(shù)據(jù)的集中趨勢和變化)數(shù)據(jù)挖掘應用——公司分析和風險管理財務(wù)計劃現(xiàn)金流轉(zhuǎn)分析和預測交叉區(qū)域分析和時間序列分析(財務(wù)資金比率,趨勢分析等等)資源計劃總結(jié)和比較資源和花費競爭對競爭者和市場趨勢的監(jiān)控將顧客按等級分組和基于等級的定價過程將定價策略應用于競爭更激烈的市場中數(shù)據(jù)挖掘應用——欺詐行為檢測和異常模式的發(fā)現(xiàn)方法:對欺騙行為進行聚類和建模,并進行孤立點分析應用:衛(wèi)生保健、零售業(yè)、信用卡服務(wù)、電信等汽車保險:相撞事件的分析洗錢:發(fā)現(xiàn)可疑的貨幣交易行為醫(yī)療保險職業(yè)病人,醫(yī)生以及相關(guān)數(shù)據(jù)分析不必要的或相關(guān)的測試電信:電話呼叫欺騙行為電話呼叫模型:呼叫目的地,持續(xù)時間,日或周呼叫次數(shù).分析該模型發(fā)現(xiàn)與期待標準的偏差零售產(chǎn)業(yè)分析師估計有38%的零售額下降是由于雇員的不誠實行為造成的反恐怖主義其他應用體育競賽美國NBA的29個球隊中,有25個球隊使用了IBM分析機構(gòu)的數(shù)據(jù)挖掘工具,通過分析每個對手的數(shù)據(jù)(蓋帽、助攻、犯規(guī)等數(shù)據(jù))來獲得比賽時的對抗優(yōu)勢。天文學JPL實驗室和Palomar天文臺就曾經(jīng)在數(shù)據(jù)挖掘工具的幫助下發(fā)現(xiàn)了22顆新的恒星網(wǎng)上沖浪通過將數(shù)據(jù)挖掘算法應用于網(wǎng)絡(luò)訪問日志,從與市場相關(guān)的網(wǎng)頁中發(fā)現(xiàn)消費者的偏愛和行為,分析網(wǎng)絡(luò)行銷的有效性,改善網(wǎng)絡(luò)站點組織。這就是新興的WEB挖掘研究數(shù)據(jù)挖掘的數(shù)據(jù)源與以前相比有了顯著的改變;數(shù)據(jù)是海量的;數(shù)據(jù)有噪聲;數(shù)據(jù)可能是非結(jié)構(gòu)化的;傳統(tǒng)的數(shù)據(jù)分析方法基于假設(shè)驅(qū)動的:一般都是先給出一個假設(shè)然后通過數(shù)據(jù)驗證數(shù)據(jù)挖掘在一定意義上是基于發(fā)現(xiàn)驅(qū)動的:模式都是通過大量的搜索工作從數(shù)據(jù)中自動提取出來。即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析方法區(qū)別數(shù)據(jù)挖掘和數(shù)據(jù)倉庫

數(shù)據(jù)挖掘和OLAP完全不同的工具,基于的技術(shù)也大相徑庭OLAP基于用戶假設(shè)。whathappened〔查詢和報表工具是告訴你數(shù)據(jù)庫中都有什么〕whatnext〔OLAP更進一步告訴你下一步會怎么樣〕whatif〔如果我采取這樣的措施又會怎么樣〕數(shù)據(jù)挖掘本質(zhì)上是一個歸納的過程,不是用于驗證某個假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。數(shù)據(jù)挖掘和OLAP有一定的互補性?;靖拍顢?shù)據(jù):是指一個有關(guān)事實F的集合(如學生檔案數(shù)據(jù)庫中有關(guān)學生基本情況的各條記錄),用來描述事物有關(guān)方面的信息。一般而言,這些數(shù)據(jù)都是準確無誤的。信息:

是事物運動的狀態(tài)和狀態(tài)變化的方式。知識人們實踐經(jīng)驗的結(jié)晶且為新的實踐所證實的;是關(guān)于事物運動的狀態(tài)和狀態(tài)變化的規(guī)律;是對信息加工提煉所獲得的抽象化產(chǎn)物。知識的形式可能是模式、關(guān)聯(lián)、變化、異常以及其他有意義的結(jié)構(gòu)。主要功能1.概念/類別描述(Concept/ClassDescription)

概念/類別描述是指對數(shù)據(jù)集做一個簡潔的總體性描述并/或描述它與某一對照數(shù)據(jù)集的差別。例1:我們收集移動電話費月消費額超出1000元的客戶資料,然后利用數(shù)據(jù)挖掘進行分析,獲得這類客戶的總體性描述:35-50歲,有工作,月收入5000元以上,擁有良好的信用度…;

主要功能例2:對比移動電話費月消費額超出1000元的客戶群與移動電話費月消費額低于100元的客戶群。利用數(shù)據(jù)挖掘可作出如下描述:移動電話月消費額超出1000元的客戶80%以上年齡在35-50歲之間,且月收入5000元以上;而移動電話月消費額低于100元的客戶60%以上要么年齡過大要么年齡過小,且月收入2000元以下。主要功能2.關(guān)聯(lián)分析(AssociationAnalysis)

從一個項目集中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,該規(guī)則顯示了給定數(shù)據(jù)集中經(jīng)常一起出現(xiàn)的屬性-值條件元組。例如:關(guān)聯(lián)規(guī)則X=>Y所表達的含義是滿足X的數(shù)據(jù)庫元組很可能滿足Y。關(guān)聯(lián)分析在交易數(shù)據(jù)分析、支持定向市場、商品目錄設(shè)計和其他業(yè)務(wù)決策等方面有著廣泛的應用。

主要功能3.分類與估值(ClassificationandEstimation)

分類指通過分析一個類別已知的數(shù)據(jù)集的特征來建立一組模型,該模型可用以預測類別未知的數(shù)據(jù)項的類別。該分類模型可以表現(xiàn)為多種形式:分類規(guī)則(IF-THEN),決策樹或者數(shù)學公式,乃至神經(jīng)網(wǎng)絡(luò)。估值與分類類似,只不過它要預測的不是類別,而是一個連續(xù)的數(shù)值。

主要功能4.聚類分析(ClusteringAnalysis)

聚類分析又稱為“同質(zhì)分組”或者“無監(jiān)督的分類”,指把一組數(shù)據(jù)分成不同的“簇”,每簇中的數(shù)據(jù)相似而不同簇間的數(shù)據(jù)則距離較遠。相似性可以由用戶或者專家定義的距離函數(shù)加以度量。好的聚類方法應保證不同類間數(shù)據(jù)的相似性盡可能地小,而類內(nèi)數(shù)據(jù)的相似性盡可能地大。

主要功能5.時間序列分析(Time-Series

Analysis)

時間序列分析即預測(Prediction),是指通過對大量時間序列數(shù)據(jù)的分析找到特定的規(guī)則和感興趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趨勢和偏差。預測的目的是對未來的情況作出估計。

主要功能6.其它功能

包括:偏差分析(DeviationAnalysis)、孤立點分析(OutlierAnalysis)等。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,可能還會繼續(xù)出現(xiàn)新的數(shù)據(jù)挖掘功能。

所有模式都是有趣的嗎?數(shù)據(jù)挖掘可能產(chǎn)生數(shù)以千計的模式或規(guī)則,但并不是所有的模式或規(guī)則都是令人感興趣的。模式興趣度的度量一個模式是有趣的,如果(1)它易于被人理解;(2)在某種程度上,對于新的或測試數(shù)據(jù)是有效的;(3)具有潛在效用;(4)新穎的;(5)符合用戶確信的某種假設(shè)模式興趣度的客觀和主觀度量客觀度量:基于所發(fā)現(xiàn)模式的結(jié)構(gòu)和關(guān)于它們的統(tǒng)計,比如:支持度、置信度等等主觀度量:基于用戶對數(shù)據(jù)的判斷。比如:出乎意料的、新穎的、可行動的等等能夠產(chǎn)生所有有趣模式并且僅產(chǎn)生有趣模式嗎?找出所有有趣的模式:數(shù)據(jù)挖掘算法的完全性問題數(shù)據(jù)挖掘系統(tǒng)能夠產(chǎn)生所有有趣的模式嗎?試探搜索vs.窮舉搜索關(guān)聯(lián)vs.分類vs.聚類只搜索有趣的模式:數(shù)據(jù)挖掘算法的最優(yōu)化問題數(shù)據(jù)挖掘系統(tǒng)可以僅僅發(fā)現(xiàn)有趣的模式嗎?方法首先生成所有模式然后過濾那些無趣的.僅僅生成有趣的模式—挖掘查詢優(yōu)化數(shù)據(jù)挖掘模型CRISP-DM(CrossIndustryStandardProcessforDataMining)模型,最先在1996年被提出,當前的白皮書版本是1.0。目的是把數(shù)據(jù)挖掘的過程標準化,使數(shù)據(jù)挖掘項目的實施速度更快、成本更低、更可靠并且更容易管理。業(yè)務(wù)理解(BusinessUnderstanding)階段確定業(yè)務(wù)目標:分析項目的背景,從業(yè)務(wù)視點分析項目的目標和需求,確定業(yè)務(wù)角度的成功標準;項目可行性分析:分析擁有的資源,條件和限制,風險估計,成本和效益估計;確定數(shù)據(jù)挖掘目標:明確確定數(shù)據(jù)挖掘的目標和成功標準,數(shù)據(jù)挖掘的目標和業(yè)務(wù)目標是不一樣的,前者指技術(shù)上的,例如生成一棵決策樹等;提出項目計劃:對整個項目做一個計劃,初步估計用到的工具和技術(shù)。

數(shù)據(jù)理解(DataUnderstanding)階段收集原始數(shù)據(jù):收集本項目所涉及到的數(shù)據(jù),如有必要,把數(shù)據(jù)裝入數(shù)據(jù)處理工具,并作一些初步的數(shù)據(jù)集成的工作,生成相應報告;描述數(shù)據(jù):對數(shù)據(jù)做一些大致的描述,例如記錄數(shù)、屬性數(shù)等,給出相應報告;探索數(shù)據(jù):對數(shù)據(jù)做簡單的統(tǒng)計分析,例如關(guān)鍵屬性的分布等;檢查數(shù)據(jù)質(zhì)量:包括數(shù)據(jù)是否完整、數(shù)據(jù)是否有錯、是否有缺失值等問題。

數(shù)據(jù)準備(DataPreparation)階段數(shù)據(jù)選擇:根據(jù)數(shù)據(jù)挖掘目標和數(shù)據(jù)質(zhì)量選擇合適的數(shù)據(jù),包括表的選擇、記錄選擇和屬性選擇;數(shù)據(jù)清潔:提高選擇好的數(shù)據(jù)的質(zhì)量,例如去除噪音,估計缺失值等;數(shù)據(jù)創(chuàng)建:在原有數(shù)據(jù)的基礎(chǔ)上是生成新的屬性或記錄;數(shù)據(jù)合并:利用表連接等方式將幾個數(shù)據(jù)集合并在一起;數(shù)據(jù)格式化:把數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘處理的格式。建立模型(Modeling)階段選擇建模技術(shù):確定數(shù)據(jù)挖掘算法和參數(shù),可能會利用多個算法;測試方案設(shè)計:設(shè)計某種測試模型的質(zhì)量和有效性的機制;模型訓練:在準備好的數(shù)據(jù)集上運行數(shù)據(jù)挖掘算法,得出一個或者多個模型;模型測試評估:根據(jù)測試方案進行測試,從數(shù)據(jù)挖掘技術(shù)的角度確定數(shù)據(jù)挖掘目標是否成功。

模型評估(Evaluation)階段結(jié)果評估:從商業(yè)角度評估得到的模型,甚至實際試用該模型測試其效果;過程回顧:回顧項目的所有流程,確定每一個階段都沒有失誤;確定下一步工作:根據(jù)結(jié)果評估和過程回顧得出的結(jié)論,確定是部署該挖掘模型還是從某個階段開始重新開始。

部署(Deployment)階段部署計劃:對在業(yè)務(wù)運作中部署模型作出計劃;監(jiān)控和維護計劃:如何監(jiān)控模型在實際業(yè)務(wù)中的使用情況,如何維護該模型;作出最終報告:項目總結(jié),項目經(jīng)驗和項目結(jié)果;項目回顧:回顧項目的實施過程,總結(jié)經(jīng)驗教訓;對數(shù)據(jù)挖掘的運行效果做一個預測。

數(shù)據(jù)挖掘模型為保證項目的可靠性和可管理性,CRISP-DM規(guī)定一個數(shù)據(jù)挖掘項目應該產(chǎn)生11個報告:

業(yè)務(wù)理解報告原始數(shù)據(jù)收集報告數(shù)據(jù)描述報告數(shù)據(jù)探索報告數(shù)據(jù)質(zhì)量報告數(shù)據(jù)集描述報告模型訓練報告模型評估報告部署計劃監(jiān)控和維護計劃總結(jié)報告通過這些報告,可以有效地控制數(shù)據(jù)挖掘項目進程,減少開發(fā)風險。

實現(xiàn)流程各步驟之間互相影響、反復調(diào)整,形成一種螺旋式上升過程。數(shù)據(jù)準備KDD的處理對象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲在數(shù)據(jù)庫系統(tǒng)中,是長期積累的結(jié)果。但往往不合適直接在這些數(shù)據(jù)上進行知識挖掘,需要做一些準備工作,也就數(shù)據(jù)的預處理。數(shù)據(jù)預處理包括數(shù)據(jù)的選擇(選擇相關(guān)數(shù)據(jù))、凈化(消除噪音、冗余數(shù)據(jù))、推測(推算缺值數(shù)據(jù))、轉(zhuǎn)換(離散型數(shù)據(jù)與連續(xù)型數(shù)據(jù)之間的轉(zhuǎn)換)、數(shù)據(jù)縮減(減少數(shù)據(jù)量)等。數(shù)據(jù)準備是KDD的第一個步驟,數(shù)據(jù)準備得好壞將直接影響數(shù)據(jù)挖掘的效率和準確度以及最終模式的有效性.。

數(shù)據(jù)挖掘數(shù)據(jù)挖掘是最為關(guān)鍵的步驟,它根據(jù)KDD的目標,選取相應算法的參數(shù),分析數(shù)據(jù),得到可能形成知識的模式模型。目前采用較多的技術(shù)有決策樹、分類、聚類、粗糙集、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。

模式的評估、解釋通過上面步驟所得到的模式,有可能是沒有意義或沒有實用價值的,因此需要評估,確定那些是有效的、有用的模式。此外,大部分模式是用數(shù)學手段描述的表達式,很難被人理解,還需要將其解釋成可理解的方式以呈現(xiàn)給用戶。

知識運用發(fā)現(xiàn)知識是為了運用,如何使知識能被運用也是KDD的步驟之一。運用知識有兩種方法:一種是只需看知識本身所描述的關(guān)系或結(jié)果,就可以對決策提供支持;一種是要求對新的數(shù)據(jù)運用知識,由此可能產(chǎn)生新的問題,而需要對知識做進一步的優(yōu)化。KDD過程可能需要多次的循環(huán)反復,每一個步驟一旦與預期目標不符,都要回到前面的步驟,重新調(diào)整,重新執(zhí)行。實現(xiàn)流程數(shù)據(jù)挖掘過程的分步實現(xiàn),不同的步驟需要不同的專業(yè)人員參與完成,大體分為三類:1)業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對象,并根據(jù)各業(yè)務(wù)對象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求。2)數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對統(tǒng)計學有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù)。3)數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù)。數(shù)據(jù)挖掘是一個多領(lǐng)域?qū)<液献鞯倪^程,也是一個在資金上和技術(shù)上高投入的過程。數(shù)據(jù)挖掘過程要反復進行,在反復過程中,不斷地趨近事物的本質(zhì),不斷地優(yōu)先問題的解決方案。體系結(jié)構(gòu):典型數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)倉庫數(shù)據(jù)清洗過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)挖掘引擎模式評估圖形用戶界面知識庫數(shù)據(jù)集成在何種數(shù)據(jù)上進行數(shù)據(jù)挖掘關(guān)系數(shù)據(jù)庫數(shù)據(jù)倉庫事務(wù)數(shù)據(jù)庫高級數(shù)據(jù)庫系統(tǒng)和信息庫空間數(shù)據(jù)庫時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫流數(shù)據(jù)多媒體數(shù)據(jù)庫面向?qū)ο髷?shù)據(jù)庫和對象-關(guān)系數(shù)據(jù)庫異種數(shù)據(jù)庫和遺產(chǎn)(legacy)數(shù)據(jù)庫文本數(shù)據(jù)庫和萬維網(wǎng)(WWW)空間數(shù)據(jù)庫空間數(shù)據(jù)庫是指在關(guān)系型數(shù)據(jù)庫(DBMS)內(nèi)部對地理信息進行物理存儲??臻g數(shù)據(jù)庫中存儲的海量數(shù)據(jù)包括對象的空間拓撲特征、非空間屬性特征以及對象在時間上的狀態(tài)變化。常見的空間數(shù)據(jù)庫數(shù)據(jù)類型地理信息系統(tǒng)(GIS)遙感圖像數(shù)據(jù)醫(yī)學圖像數(shù)據(jù)數(shù)據(jù)挖掘技術(shù)的應用:通過空間分類和空間趨勢分析,引入機器學習算法,對有用模式進行智能檢索時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫都存放與時間有關(guān)的數(shù)據(jù)。時間數(shù)據(jù)庫通常存放包含時間相關(guān)屬性的時間。時間序列數(shù)據(jù)庫存放隨時間變化的值序列。對時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫的數(shù)據(jù)挖掘,可以通過研究事物發(fā)生發(fā)展的過程,有助于揭示事物發(fā)展的本質(zhì)規(guī)律,可以發(fā)現(xiàn)數(shù)據(jù)對象的演變特征或?qū)ο笞兓厔?。流?shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫技術(shù)中的靜態(tài)數(shù)據(jù)不同,流數(shù)據(jù)是連續(xù)的、有序的、變化的、快速的、大量的數(shù)據(jù)輸入的數(shù)據(jù)。主要應用場合網(wǎng)絡(luò)監(jiān)控網(wǎng)頁點擊流股票市場流媒體…等等與傳統(tǒng)數(shù)據(jù)庫技術(shù)相比,流數(shù)據(jù)在存儲、查詢、訪問、實時性的要求等方面都有很大區(qū)別。多媒體數(shù)據(jù)庫多媒體數(shù)據(jù)庫實現(xiàn)用計算機管理龐大復雜的多媒體數(shù)據(jù),主要包括包括圖形(graphics)、圖象(image)、聲音(audio)、視頻(video)等等,現(xiàn)代數(shù)據(jù)庫技術(shù)一般將這些多媒體數(shù)據(jù)以二進制大對象的形式進行存儲。對于多媒體數(shù)據(jù)庫的數(shù)據(jù)挖掘,需要將存儲和檢索技術(shù)相結(jié)合。目前的主要方法包括構(gòu)造多媒體數(shù)據(jù)立方體、多媒體數(shù)據(jù)庫的多特征提取和基于相似性的模式匹配。多媒體挖掘(MultimeadiaMining)基于描述的檢索系統(tǒng)基于圖像的描述創(chuàng)建索引并實現(xiàn)對象檢索,如關(guān)鍵字、標題、尺寸和創(chuàng)建時間等;人工實現(xiàn)則極為費時、費力;自動實現(xiàn)則往往結(jié)果不理想。

基于內(nèi)容的檢索系統(tǒng)支持基于圖像內(nèi)容的檢索,例如顏色、質(zhì)地、形狀、對象及小波變換C-BIRD:Content-BasedImageRetrievalfromDigitallibrariesSearchbyimagecolorsbycolorpercentagebycolorlayoutby

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論