aai知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘高級(jí)人工智能史忠植3_第1頁
aai知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘高級(jí)人工智能史忠植3_第2頁
aai知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘高級(jí)人工智能史忠植3_第3頁
aai知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘高級(jí)人工智能史忠植3_第4頁
aai知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘高級(jí)人工智能史忠植3_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第九章知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)

史忠植中科院計(jì)算所2023/1/171知識(shí)發(fā)現(xiàn)關(guān)聯(lián)規(guī)則數(shù)據(jù)倉庫知識(shí)發(fā)現(xiàn)工具2023/1/172知識(shí)發(fā)現(xiàn)知識(shí)發(fā)現(xiàn)是指從數(shù)據(jù)集中抽取和精煉新的模式。范圍非常廣泛:經(jīng)濟(jì)、工業(yè)、農(nóng)業(yè)、軍事、社會(huì)數(shù)據(jù)的形態(tài)多樣化:數(shù)字、符號(hào)、圖形、圖像、聲音數(shù)據(jù)組織各不相同:結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)發(fā)現(xiàn)的知識(shí)可以表示成各種形式 規(guī)則、科學(xué)規(guī)律、方程或概念網(wǎng)。2023/1/173數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)

目前,關(guān)系型數(shù)據(jù)庫技術(shù)成熟、應(yīng)用廣泛。因此,數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabasesKDD)的研究非?;钴S。

該術(shù)語于1989年出現(xiàn),F(xiàn)ayyad定義為“KDD是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程”

2023/1/174不同的術(shù)語名稱

知識(shí)發(fā)現(xiàn)是一門來自不同領(lǐng)域的研究者關(guān)注的交叉性學(xué)科,因此導(dǎo)致了很多不同的術(shù)語名稱。

知識(shí)發(fā)現(xiàn):人工智能和機(jī)器學(xué)習(xí)界。數(shù)據(jù)挖掘(datamining): 統(tǒng)計(jì)界、數(shù)據(jù)分析、數(shù)據(jù)庫和管理信息系統(tǒng)界知識(shí)抽取(informationextraction)、信息發(fā)現(xiàn)(informationdiscovery)、智能數(shù)據(jù)分析(intelligentdataanalysis)、探索式數(shù)據(jù)分析(exploratorydataanalysis)信息收獲(informationharvesting)

數(shù)據(jù)考古(dataarcheology)2023/1/1752023/1/176知識(shí)發(fā)現(xiàn)的任務(wù)(1)數(shù)據(jù)總結(jié):對(duì)數(shù)據(jù)進(jìn)行總結(jié)與概括。傳統(tǒng)的最簡(jiǎn)單的數(shù)據(jù)總結(jié)方法是計(jì)算出數(shù)據(jù)庫的各個(gè)字段上的求和值、平均值、方差值等統(tǒng)計(jì)值,或者用直方圖、餅狀圖等圖形方式表示。分類: 根據(jù)分類模型對(duì)數(shù)據(jù)集合分類。分類屬于有導(dǎo)師學(xué)習(xí),一般需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。聚類:

根據(jù)數(shù)據(jù)的不同特征,將其劃分為不同的類。無導(dǎo)師學(xué)習(xí)2023/1/177知識(shí)發(fā)現(xiàn)的任務(wù)(2)相關(guān)性分析:發(fā)現(xiàn)特征之間或數(shù)據(jù)之間的相互依賴關(guān)系 關(guān)聯(lián)規(guī)則偏差分析:

基本思想是尋找觀察結(jié)果與參照量之間的有意義的差別。通過發(fā)現(xiàn)異常,可以引起人們對(duì)特殊情況的加倍注意。建模: 構(gòu)造描述一種活動(dòng)或狀態(tài)的數(shù)學(xué)模型2023/1/178知識(shí)發(fā)現(xiàn)的方法(1)統(tǒng)計(jì)方法:

傳統(tǒng)方法: 回歸分析、判別分析、聚類分析、探索性分析模糊集(fuzzyset)Zadeh1965支持向量機(jī)(SupportVectorMachine)Vapnik90年代初粗糙集(RoughSet)Pawlak80年代初2023/1/179知識(shí)發(fā)現(xiàn)的方法(2)機(jī)器學(xué)習(xí):

規(guī)則歸納:AQ算法決策樹:ID3、C4.5范例推理:CBR遺傳算法:GA貝葉斯信念網(wǎng)絡(luò)2023/1/1710知識(shí)發(fā)現(xiàn)的方方法(3)神經(jīng)計(jì)算:神經(jīng)網(wǎng)絡(luò)是指指一類新的計(jì)計(jì)算模型,它它是模仿人腦腦神經(jīng)網(wǎng)絡(luò)的的結(jié)構(gòu)和某些些工作機(jī)制而而建立的一種種計(jì)算模型。。常用的模型型:Hopfield網(wǎng)多層感知機(jī)自組織特征映映射反傳網(wǎng)絡(luò)可視化:2023/1/111KDD的技術(shù)難點(diǎn)動(dòng)態(tài)變化的數(shù)數(shù)據(jù)噪聲數(shù)據(jù)不完整冗余信息數(shù)據(jù)稀疏超大數(shù)據(jù)量2023/1/112關(guān)聯(lián)規(guī)則屬于知識(shí)發(fā)現(xiàn)現(xiàn)任務(wù)中的相相關(guān)性分析由于條形碼技技術(shù)的發(fā)展,零售部門可可以利用前端端收款機(jī)收集集存儲(chǔ)大量的的售貨數(shù)據(jù)。。因此,如果果對(duì)這些歷史史事務(wù)數(shù)據(jù)進(jìn)進(jìn)行分析,則則可對(duì)顧客的的購買行為提提供極有價(jià)值值的信息。例例如,可以幫幫助如何擺放放貨架上的商商品(如把顧顧客經(jīng)常同時(shí)時(shí)買的商品放放在一起),幫助如何規(guī)規(guī)劃市場(chǎng)(怎怎樣相互搭配配進(jìn)貨)。2023/1/113關(guān)聯(lián)規(guī)則的的表示關(guān)聯(lián)規(guī)則的的形式如“在購買面包包顧客中,有70%的人同時(shí)時(shí)也買了黃黃油”,可可以表示成成:面包→黃油油。用于關(guān)聯(lián)規(guī)規(guī)則發(fā)現(xiàn)的的主要對(duì)象象是事務(wù)型型數(shù)據(jù)庫,其中針對(duì)對(duì)的應(yīng)用則則是售貨數(shù)數(shù)據(jù),也稱稱貨籃數(shù)據(jù)據(jù)。一個(gè)事事務(wù)一般由由如下幾個(gè)個(gè)部分組成成:事務(wù)處處理時(shí)間,一組顧顧客購買的的物品,有有時(shí)也有顧顧客標(biāo)識(shí)號(hào)號(hào)(如信用用卡號(hào))。。2023/1/114關(guān)聯(lián)規(guī)則的的相關(guān)概念念(1)設(shè)R={I1,I2……Im}是一組物品品集,W是一組事務(wù)務(wù)集。W中的每個(gè)事事務(wù)T是一組物品品,TR。假設(shè)有一個(gè)個(gè)物品集A,一個(gè)事務(wù)T,如果AT,則稱事務(wù)T支持物品集集A。關(guān)聯(lián)規(guī)則是是如下形式式的一種蘊(yùn)蘊(yùn)含:A→B,其中A、B是兩組物品品,AI,BI,且A∩B=。2023/1/115關(guān)聯(lián)規(guī)則的的相關(guān)概念念(2)支持度物品集A的支持度::稱物品集集A具有大小為為s的支持度,如果D中有s%的事務(wù)支持持物品集XP(A)1000個(gè)顧客購物物,其中200個(gè)顧客購買買了面包,,支持度就是是20%(200/1000)。關(guān)聯(lián)規(guī)則A→B的支持度::關(guān)聯(lián)規(guī)則則A→B在事務(wù)數(shù)據(jù)據(jù)庫W中具有大小小為s的支持度,如果物品品集A∪B的支持度為為s100個(gè)顧客購買買了面包和和黃油,則則面包→黃油10%%2023/1/116關(guān)聯(lián)聯(lián)規(guī)規(guī)則則的的相相關(guān)關(guān)概概念念(3)可信信度度設(shè)W中支支持持物物品品集集A的事事務(wù)務(wù)中中,,有有c%%的事事務(wù)務(wù)同同時(shí)時(shí)也也支支持持物物品品集集B,,c%%稱為為關(guān)關(guān)聯(lián)聯(lián)規(guī)規(guī)則則A→→B的可可信信度度。。P(B|A)1000個(gè)顧顧客客購購物物,,200個(gè)顧客購購買了面面包,其其中140個(gè)買買了黃油油,則可可信度是是70%(140/200)。2023/1/117關(guān)聯(lián)規(guī)則則的相關(guān)關(guān)概念(4)最小支持持度minsup用戶規(guī)定定的關(guān)聯(lián)聯(lián)規(guī)則必必須滿足足的最小小支持度度。最小可信信度minconf用戶規(guī)定定的關(guān)聯(lián)聯(lián)規(guī)則必必須滿足足的最小小可信度度。大項(xiàng)集(大項(xiàng)集集、大物物品集largeitemset)支持度不不小于最最小支持持度minsup的物品集集2023/1/118關(guān)聯(lián)規(guī)則則發(fā)現(xiàn)任任務(wù)給定一個(gè)個(gè)事務(wù)數(shù)數(shù)據(jù)庫D,求出所有有滿足最最小支持持度和最最小可信信度的關(guān)關(guān)聯(lián)規(guī)則則。該問問題可以以分解為為兩個(gè)子子問題::求出D中滿足最最小支持持度的所所有大項(xiàng)項(xiàng)集;利用大項(xiàng)項(xiàng)集生成成滿足最最小可信信度的所所有關(guān)聯(lián)聯(lián)規(guī)則。。對(duì)于每每個(gè)大項(xiàng)項(xiàng)集A,若BA,B≠≠φ,且Confidence(B(AB))minconf,則構(gòu)成關(guān)關(guān)聯(lián)規(guī)則則B(AB)2023/1/119關(guān)聯(lián)規(guī)規(guī)則發(fā)發(fā)現(xiàn)的的基本本思路路第2個(gè)個(gè)子問問題比比較容容易。。目前前大多多數(shù)研研究集集中在在第一一個(gè)子子問題題上,,即如如何高高效地地求出出大項(xiàng)項(xiàng)集。。首先生生成長長度為為1的的大項(xiàng)項(xiàng)集((即單單個(gè)物物品)),記記為L[1];;在L[k]的基礎(chǔ)礎(chǔ)上生生成候候選物物品集集C[k+1],,候選物物品集集必須須保證證包括括所有有的大大項(xiàng)集集。用事務(wù)務(wù)數(shù)據(jù)據(jù)庫D中的事事務(wù)對(duì)對(duì)C[k+1]進(jìn)行支支持度度測(cè)試試以生生成長長度為為k+1的大項(xiàng)項(xiàng)集L[k+1],,計(jì)算每每個(gè)候候選物物品集集的支支持度度,如如果大大于minsup,,則加入入到L[k+1]中。如果L[k+1]為空集集,則則結(jié)束束,L[1]∪∪L[2]∪……即為結(jié)結(jié)果;;否則則轉(zhuǎn)(2),繼繼續(xù)。。2023/1/120思路的的正確確性利用了了大物物品集集向下下封閉閉性,,即大大物品品集X的任意意子集集一定定是大大物品品集,,反過過來說說,如如果X有一子子集不不是大大項(xiàng)集集,則則X肯定不不是。。是寬度度優(yōu)先先算法法2023/1/121經(jīng)典的Apriori算法(1)L[1]={large1-itemsets};(2)for(k=2;L[k-1]不為為空空;k++)dobegin(3)C[k]=apriori-gen(L[k-1]);//新候候選選物物品品集集(4)Foralltransactionst∈Ddobegin(5)C=subset(C[k],t);//t中的的候候選選物物品品集集(6)Forallcandidatesc∈Cdo(7)c.count++;(8)end;(9)L[k]={c∈C[k]|c.count>=minsup};(10)end;(11)Answer=L[1]∪L[2]∪…2023/1/122apriori-gen(L[k-1])分成成兩兩步步::join算法法::從從兩兩個(gè)個(gè)L[k-1]物品品集集生生成成候候選選物物品品集集C[k]insertintoC[k]selectp.item1,p.item2,...,p.item(k-1),q.item(k-1)fromL[k-1]p,L[k-1]qwherep.item1=q.item1,...,p.item(k-2)=q.item(k-2),p.item(k-1)<q.item(k-1)2023/1/123Prune算法:從從C[k]中除去大大小為k-1且不在L[k-1]中的子集集(1)Forallitemsetsc∈C[k]do(2)Forall(k-1)-subsetssofcdo(3)if(sL[k-1])(4)thendeletecfromC[k]2023/1/124舉例:L[3]為{{1,2,3},{1,2,4},{1,3,4},{1,3,5},{2,3,4}}經(jīng)過join后,C[4]={{1,2,3,4},{1,3,4,5}}由于{1,3,4,5}有子子集{1,4,5}不在L[3]中,所以經(jīng)過prune后,得到L[4]={{1,2,3,4}}2023/1/1252023/1/1262023/1/1272023/1/1282023/1/129關(guān)聯(lián)規(guī)規(guī)則發(fā)發(fā)現(xiàn)注注意的的問題題充分理理解數(shù)數(shù)據(jù)目標(biāo)明明確數(shù)據(jù)準(zhǔn)準(zhǔn)備工工作要要做好好選取適適當(dāng)?shù)牡淖钚⌒〉闹еС侄榷群涂煽尚哦榷群芎玫氐乩斫饨怅P(guān)聯(lián)聯(lián)規(guī)則則2023/1/130關(guān)聯(lián)規(guī)則則發(fā)現(xiàn)使使用步驟驟連接數(shù)據(jù)據(jù),做數(shù)數(shù)據(jù)準(zhǔn)備備給定最小小支持度度和最小小可信度度,利用用知識(shí)發(fā)發(fā)現(xiàn)工具具提供的的算法發(fā)發(fā)現(xiàn)關(guān)聯(lián)聯(lián)規(guī)則可視化顯顯示、理理解、評(píng)評(píng)估關(guān)聯(lián)聯(lián)規(guī)則2023/1/131關(guān)聯(lián)規(guī)則則在保險(xiǎn)險(xiǎn)業(yè)務(wù)中中的應(yīng)用用最小支持持度1%,最小小可信度度為50%2023/1/1322023/1/1332023/1/1342023/1/135數(shù)據(jù)倉庫在過去幾十年年,數(shù)據(jù)庫技技術(shù),特別是是OLTP(聯(lián)機(jī)事務(wù)處理理),主要是是為自動(dòng)化生生產(chǎn)、精簡(jiǎn)工工作任務(wù)和高高速采集數(shù)據(jù)據(jù)服務(wù)。它是是事務(wù)驅(qū)動(dòng)的的、面向應(yīng)用用的。20世紀(jì)80年代,人們們要利用現(xiàn)有有的數(shù)據(jù),進(jìn)進(jìn)行分析和推推理,從而為為決策提供依依據(jù)。這種需需求既要求聯(lián)聯(lián)機(jī)服務(wù),又又涉及大量用用于決策的數(shù)數(shù)據(jù)。而傳統(tǒng)統(tǒng)的數(shù)據(jù)庫系系統(tǒng)已無法滿滿足這種需求求:所需歷史數(shù)據(jù)據(jù)量很大,而而傳統(tǒng)數(shù)據(jù)庫庫一般只存儲(chǔ)儲(chǔ)短期數(shù)據(jù)。。涉及許多部門門的數(shù)據(jù),而而不同系統(tǒng)的的數(shù)據(jù)難以集集成。對(duì)大量數(shù)據(jù)的的訪問性能明明顯下降2023/1/136數(shù)據(jù)倉庫的定定義信息處理技術(shù)術(shù)的發(fā)展趨勢(shì)勢(shì)是:從大量量的事務(wù)型數(shù)數(shù)據(jù)庫中抽取取數(shù)據(jù),并將將其清理、轉(zhuǎn)轉(zhuǎn)換為新的存存儲(chǔ)格。隨著著此過程的發(fā)發(fā)展和完善,,這種九十年年代初出現(xiàn)的的支持決策的的、特殊的數(shù)數(shù)據(jù)存儲(chǔ)即被被稱為數(shù)據(jù)倉倉庫(DataWarehouse)。。Inmon將數(shù)據(jù)倉庫明明確定義為::數(shù)據(jù)倉庫(DataWarehouse)是面向主題的的,集成的,,內(nèi)容相對(duì)穩(wěn)穩(wěn)定的、不同同時(shí)間的數(shù)據(jù)據(jù)集合,用以以支持經(jīng)營管管理中的決策策制定過程。。2023/1/137數(shù)據(jù)倉倉庫的的特征征(1)數(shù)據(jù)倉倉庫中中的數(shù)數(shù)據(jù)是是面向向主題題的與傳統(tǒng)統(tǒng)數(shù)據(jù)據(jù)庫面面向應(yīng)應(yīng)用相相對(duì)應(yīng)應(yīng)的。。主題題是一一個(gè)在在較高高層次次將數(shù)數(shù)據(jù)歸歸類的的標(biāo)準(zhǔn)準(zhǔn),每每一個(gè)個(gè)主題題基本本對(duì)應(yīng)應(yīng)一個(gè)個(gè)宏觀觀的分分析領(lǐng)領(lǐng)域數(shù)據(jù)倉倉庫中中的數(shù)數(shù)據(jù)是是集成成的在數(shù)據(jù)據(jù)進(jìn)入入數(shù)據(jù)據(jù)倉庫庫之前前,必必然要要經(jīng)過過加工工與集集成。。要統(tǒng)統(tǒng)一原原始數(shù)數(shù)據(jù)中中的所所有矛矛盾之之處,,還要要進(jìn)行行數(shù)據(jù)據(jù)綜合合和計(jì)計(jì)算2023/1/138數(shù)據(jù)倉庫庫的特征征(2)數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)是穩(wěn)穩(wěn)定的數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)主要供供決策分分析之用用,所涉涉及的操操作主要要是數(shù)據(jù)據(jù)查詢,,一般不不進(jìn)行修修改操作作數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)又是是隨時(shí)間間不斷變變化的數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)不是實(shí)實(shí)時(shí)更新新的,但但并不是是永遠(yuǎn)不不變的,,也要隨隨著時(shí)間間的變化化不斷地地更新、、增刪和和重新綜綜合。更新周期期2023/1/139元數(shù)數(shù)據(jù)據(jù)元數(shù)數(shù)據(jù)據(jù)((Metadata))是關(guān)關(guān)于于數(shù)數(shù)據(jù)據(jù)的的數(shù)數(shù)據(jù)據(jù),,它它描描述述了了數(shù)數(shù)據(jù)據(jù)的的結(jié)結(jié)構(gòu)構(gòu)、、內(nèi)內(nèi)容容、、編編碼碼、、索索引引等等內(nèi)內(nèi)容容。。傳傳統(tǒng)統(tǒng)數(shù)數(shù)據(jù)據(jù)庫庫中中的的數(shù)數(shù)據(jù)據(jù)字字典典是是一一種種元元數(shù)數(shù)據(jù)據(jù),,但但在在數(shù)數(shù)據(jù)據(jù)倉倉庫庫中中,,元元數(shù)數(shù)據(jù)據(jù)的的內(nèi)內(nèi)容容比比數(shù)數(shù)據(jù)據(jù)庫庫中中的的數(shù)數(shù)據(jù)據(jù)字字典典更更加加豐豐富富和和復(fù)復(fù)雜雜。。設(shè)設(shè)計(jì)計(jì)一一個(gè)個(gè)描描述述能能力力強(qiáng)強(qiáng)、、內(nèi)內(nèi)容容完完善善的的元元數(shù)數(shù)據(jù)據(jù),,是是有有效效管管理理數(shù)數(shù)據(jù)據(jù)倉倉庫庫的的具具有有決決定定意意義義的的重重要要前前提提2023/1/140元數(shù)數(shù)據(jù)據(jù)的的重重要要性性數(shù)據(jù)據(jù)倉倉庫庫使使用用者者往往往往將將使使用用元元數(shù)數(shù)據(jù)據(jù)作作為為分分析析的的第第一一步步。。元元數(shù)數(shù)據(jù)據(jù)如如同同數(shù)數(shù)據(jù)據(jù)指指示示圖圖,,指指出出了了數(shù)數(shù)據(jù)據(jù)倉倉庫庫內(nèi)內(nèi)各各種種信信息息的的位位置置和和含含義義從操操作作型型數(shù)數(shù)據(jù)據(jù)環(huán)環(huán)境境到到數(shù)數(shù)據(jù)據(jù)倉倉庫庫的的數(shù)數(shù)據(jù)據(jù)轉(zhuǎn)轉(zhuǎn)換換是是復(fù)復(fù)雜雜的的、、多多方方面面的的,,是是數(shù)數(shù)據(jù)據(jù)倉倉庫庫建建設(shè)設(shè)的的關(guān)關(guān)鍵鍵性性步步驟驟,,元元數(shù)數(shù)據(jù)據(jù)要要包包含含對(duì)對(duì)這這種種轉(zhuǎn)轉(zhuǎn)換換的的清清晰晰描描述述,,保保證證這這種種轉(zhuǎn)轉(zhuǎn)換換是是正正確確、、適適當(dāng)當(dāng)和和合合理理的的,,并并且且是是靈靈活活可可變變的的元數(shù)數(shù)據(jù)據(jù)還還管管理理粒粒度度的的劃劃分分、、索索引引的的建建立立以以及及抽抽取取更更新新的的周周期期等等,,以以便便管管理理好好數(shù)數(shù)據(jù)據(jù)倉倉庫庫中中的的大大規(guī)規(guī)模模數(shù)數(shù)據(jù)據(jù)2023/1/141數(shù)據(jù)據(jù)倉倉庫庫的的相相關(guān)關(guān)概概念念事實(shí)實(shí)表表(Fact))::存儲(chǔ)儲(chǔ)用用戶戶需需要要查查詢?cè)兎址治鑫龅牡臄?shù)數(shù)據(jù)據(jù),,事事實(shí)實(shí)表表中中一一般般包包含含多多個(gè)個(gè)維維((Dimension))和度度量量((Measurement))。。維::代表表了了用用戶戶觀觀察察數(shù)數(shù)據(jù)據(jù)的的特特定定視視角角,,如如::時(shí)時(shí)間間維維、、地地區(qū)區(qū)維維、、產(chǎn)產(chǎn)品品維維等等。。每每一一個(gè)個(gè)維維可可劃劃分分為為不不同同的的層層次次來來取取值值,,如如時(shí)時(shí)間間維維的的值值可可按按年年份份、、季季度度、、月月份份來來劃劃分分,,描描述述了了不不同同的的查查詢?cè)儗訉哟未?。。度量:是是?shù)據(jù)的的實(shí)際意意義,描描述數(shù)據(jù)據(jù)“是什什么”,,即一個(gè)個(gè)數(shù)值的的測(cè)量指指標(biāo),如如:人數(shù)數(shù)、單價(jià)價(jià)、銷售售量等。。2023/1/142數(shù)據(jù)倉倉庫的的建模模模型型度量的的實(shí)際際數(shù)據(jù)據(jù)存放放在事事實(shí)表表中。。維的的詳細(xì)細(xì)信息息,如如不同同的層層次劃劃分和和相應(yīng)應(yīng)數(shù)據(jù)據(jù)等在在維表表中存存儲(chǔ),,事實(shí)實(shí)表中中存放放各個(gè)個(gè)維的的標(biāo)識(shí)識(shí)碼鍵鍵。事事實(shí)表表和維維表將將通過過這些些鍵關(guān)關(guān)聯(lián)起起來,,構(gòu)成成一種種星型模模型對(duì)于層層次復(fù)復(fù)雜的的維,為避避免冗冗余數(shù)數(shù)據(jù)占占用過過大的的存儲(chǔ)儲(chǔ)空間間,可可以使使用多多個(gè)表表來描描述,這種種星型型模式式的擴(kuò)擴(kuò)展稱稱為雪花模模型2023/1/143OLAP數(shù)據(jù)倉庫技技術(shù)中,多多維數(shù)據(jù)分分析(MultidimensionalDataAnalysis))方法是一種重重要的技術(shù),,也稱作聯(lián)機(jī)機(jī)分析處理((On-LineAnalyticalProcessing,簡(jiǎn)稱OLAP)或數(shù)據(jù)立方體體(DataCube)方法,主要是指通過過各種即席復(fù)復(fù)雜查詢,對(duì)對(duì)數(shù)據(jù)倉庫中中存儲(chǔ)的數(shù)據(jù)據(jù)進(jìn)行各種統(tǒng)統(tǒng)計(jì)分析的應(yīng)應(yīng)用數(shù)據(jù)倉庫是面面向決策支持持的,決策的的前提是數(shù)據(jù)據(jù)分析。在數(shù)數(shù)據(jù)分析中經(jīng)經(jīng)常要用到諸諸如求和、總總計(jì)、平均、、最大、最小小等匯集操作作,這類操作作的計(jì)算量特特別大。2023/1/144OLAP的類型ROLAP::數(shù)據(jù)保留在原原有的關(guān)系型型結(jié)構(gòu)中,并并且將聚合表表也存儲(chǔ)在關(guān)關(guān)系數(shù)據(jù)庫,在技術(shù)成熟及及各方面的適適應(yīng)性上較之之MOLAP占有一定的優(yōu)優(yōu)勢(shì),性能較較差MOLAP:數(shù)據(jù)和聚合都都存儲(chǔ)在多維維結(jié)構(gòu)中,效率較高,便于進(jìn)行優(yōu)優(yōu)化操作。維維數(shù)多數(shù)據(jù)量量大時(shí),存儲(chǔ)儲(chǔ)是難點(diǎn)。HOALP:數(shù)據(jù)保留在原原有的關(guān)系型型結(jié)構(gòu)中,聚聚合存儲(chǔ)在多多維結(jié)構(gòu)。結(jié)結(jié)合ROLAP和MOLAP兩者的優(yōu)點(diǎn)2023/1/145OLAP的分析操作OLAP的基本多維分分析操作有鉆鉆?。╮ollup和drilldown))、切片(slice))和切塊(dice)、、以及旋轉(zhuǎn)(pivot)等。鉆取是改變維維的層次,變變換分析的粒粒度。它包括括向上鉆取和和向下鉆取。rollup是在某一維上上將低層次的的細(xì)節(jié)數(shù)據(jù)概概括到高層次次的匯總數(shù)據(jù)據(jù);而drilldown則相反,它從從匯總數(shù)據(jù)深深入到細(xì)節(jié)數(shù)數(shù)據(jù)進(jìn)行觀察察切片和切塊是是在一部分維維上選定值后后,關(guān)心度量量數(shù)據(jù)在剩余余維上的分布布。如果剩余余的維只有兩兩個(gè),則是切切片,否則是是切塊旋轉(zhuǎn)是變換維維的方向,即即在表格中重重新安排維的的放置(例如如行列互換2023/1/146數(shù)據(jù)倉倉庫和和知識(shí)識(shí)發(fā)現(xiàn)現(xiàn)技術(shù)術(shù)的結(jié)結(jié)合(1)知識(shí)發(fā)發(fā)現(xiàn)成成為數(shù)數(shù)據(jù)倉倉庫中中進(jìn)行行數(shù)據(jù)據(jù)深層層分析析的一一種必必不可可少的的手段段數(shù)據(jù)倉倉庫是是面向向決策策分析析的,,數(shù)據(jù)據(jù)倉庫庫從事事務(wù)型型數(shù)據(jù)據(jù)抽取取并集集成得得到的的分析析型數(shù)數(shù)據(jù)后后,需需要各各種決決策分分析工工具對(duì)對(duì)這些些數(shù)據(jù)據(jù)進(jìn)行行分析析和挖挖掘,,得到到有用用的決決策信信息。。而知知識(shí)發(fā)發(fā)現(xiàn)技技術(shù)具具備從從大量量數(shù)據(jù)據(jù)中發(fā)發(fā)現(xiàn)有有用信信息的的能力力。2023/1/147數(shù)據(jù)倉倉庫和和知識(shí)識(shí)發(fā)現(xiàn)現(xiàn)技術(shù)術(shù)的結(jié)結(jié)合(2)數(shù)據(jù)倉倉庫為為知識(shí)識(shí)發(fā)現(xiàn)現(xiàn)提供供經(jīng)過過良好好預(yù)處處理的的數(shù)據(jù)據(jù)源知識(shí)發(fā)發(fā)現(xiàn)往往往依依賴于于經(jīng)過過良好好組織織和預(yù)預(yù)處理理的數(shù)數(shù)據(jù)源源,數(shù)數(shù)據(jù)的的好壞壞直接接影響響知識(shí)識(shí)發(fā)現(xiàn)現(xiàn)的效效果。。數(shù)據(jù)倉倉庫具具有從從各種種數(shù)據(jù)據(jù)源中中抽取取數(shù)據(jù)據(jù),并并對(duì)數(shù)數(shù)據(jù)進(jìn)進(jìn)行清清洗、、聚集集和轉(zhuǎn)轉(zhuǎn)換等等各種種處理理的能能力2023/1/148一、數(shù)據(jù)挖挖掘概念----發(fā)發(fā)展1989IJCAI會(huì)議:數(shù)數(shù)據(jù)庫中的的知識(shí)發(fā)現(xiàn)現(xiàn)討論專題題KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994KDD討論專題AdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998KDD國際會(huì)議(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2002會(huì)議,以及及SIGKDDExplorations數(shù)據(jù)挖掘方方面更多的的國際會(huì)議議PAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.2023/1/149二、數(shù)據(jù)挖掘掘軟件的發(fā)展展代特征數(shù)據(jù)挖掘算法集成分布計(jì)算模型數(shù)據(jù)模型第一代作為一個(gè)獨(dú)立的應(yīng)用支持一個(gè)或者多個(gè)算法獨(dú)立的系統(tǒng)單個(gè)機(jī)器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個(gè)算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質(zhì)、局部區(qū)域的計(jì)算機(jī)群集有些系統(tǒng)支持對(duì)象,文本和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成

多個(gè)算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計(jì)算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動(dòng)數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合

多個(gè)算法數(shù)據(jù)管理、預(yù)言模型、移動(dòng)系統(tǒng)移動(dòng)和各種計(jì)算設(shè)備普遍存在的計(jì)算模型RobertGrossman,,NationalCenterforDataMiningUniversityofIllinoisatChicago的觀點(diǎn)2023/1/150二、數(shù)據(jù)挖掘掘軟件的發(fā)展展第一代數(shù)據(jù)挖挖掘軟件2023/1/151二、、數(shù)數(shù)據(jù)據(jù)挖挖掘掘軟軟件件的的發(fā)發(fā)展展第一一代代數(shù)數(shù)據(jù)據(jù)挖挖掘掘軟軟件件CBA新加加坡坡國國立立大大學(xué)學(xué)。?;谟陉P(guān)關(guān)聯(lián)聯(lián)規(guī)規(guī)則則的的分分類類算算法法,,能能從從關(guān)關(guān)系系數(shù)數(shù)據(jù)據(jù)或或者者交交易易數(shù)數(shù)據(jù)據(jù)中中挖挖掘掘關(guān)關(guān)聯(lián)聯(lián)規(guī)規(guī)則則,,使使用用關(guān)關(guān)聯(lián)聯(lián)規(guī)規(guī)則則進(jìn)進(jìn)行行分分類類和和預(yù)預(yù)測(cè)測(cè)2023/1/152二、數(shù)據(jù)挖挖掘軟件的的發(fā)展第二代數(shù)據(jù)據(jù)挖掘軟件件特點(diǎn)與數(shù)據(jù)庫管管理系統(tǒng)((DBMS))集成支持?jǐn)?shù)據(jù)庫庫和數(shù)據(jù)倉倉庫,和它它們具有高高性能的接接口,具有有高的可擴(kuò)擴(kuò)展性能夠挖掘大大數(shù)據(jù)集、、以及更復(fù)復(fù)雜的數(shù)據(jù)據(jù)集通過支持?jǐn)?shù)數(shù)據(jù)挖掘模模式(dataminingschema)和數(shù)據(jù)挖掘掘查詢語言言增加系統(tǒng)統(tǒng)的靈活性性典型的系統(tǒng)統(tǒng)如DBMiner,能通過DMQL挖掘語言進(jìn)進(jìn)行挖掘操操作缺陷只注重模型型的生成,,如何和預(yù)預(yù)言模型系系統(tǒng)集成導(dǎo)導(dǎo)致了第

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論