




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第九章 知識發(fā)現(xiàn)和數(shù)據(jù)挖掘數(shù)據(jù)庫中知識發(fā)現(xiàn) 史忠植 中科院計算所2022/7/191高級人工智能 史忠植知識發(fā)現(xiàn)關(guān)聯(lián)規(guī)則數(shù)據(jù)倉庫知識發(fā)現(xiàn)工具2022/7/192高級人工智能 史忠植 知識發(fā)現(xiàn)知識發(fā)現(xiàn)是指從數(shù)據(jù)集中抽取和精煉新的模式。范圍非常廣泛:經(jīng)濟、工業(yè)、農(nóng)業(yè)、軍事、社會數(shù)據(jù)的形態(tài)多樣化:數(shù)字、符號、圖形、圖像、聲音數(shù)據(jù)組織各不相同:結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)發(fā)現(xiàn)的知識可以表示成各種形式規(guī)則、科學(xué)規(guī)律、方程或概念網(wǎng)。2022/7/193高級人工智能 史忠植 數(shù)據(jù)庫知識發(fā)現(xiàn) 目前, 關(guān)系型數(shù)據(jù)庫技術(shù)成熟、應(yīng)用廣泛。因此, 數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge Discovery in Databa
2、ses KDD)的研究非?;钴S。 該術(shù)語于1989年出現(xiàn),F(xiàn)ayyad定義為“KDD是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程” 2022/7/194高級人工智能 史忠植 不同的術(shù)語名稱 知識發(fā)現(xiàn)是一門來自不同領(lǐng)域的研究者關(guān)注的交叉性學(xué)科,因此導(dǎo)致了很多不同的術(shù)語名稱。 知識發(fā)現(xiàn):人工智能和機器學(xué)習(xí)界。 數(shù)據(jù)挖掘(data mining):統(tǒng)計界、數(shù)據(jù)分析、數(shù)據(jù)庫和管理信息系統(tǒng)界知識抽取 (information extraction)、信息發(fā)現(xiàn) (information discovery)、智能數(shù)據(jù)分析 (intelligent data analysi
3、s)、探索式數(shù)據(jù)分析 (exploratory data analysis)信息收獲 (information harvesting) 數(shù)據(jù)考古 (data archeology)2022/7/195高級人工智能 史忠植2022/7/196高級人工智能 史忠植知識發(fā)現(xiàn)的任務(wù)(1)數(shù)據(jù)總結(jié): 對數(shù)據(jù)進行總結(jié)與概括。傳統(tǒng)的最簡單的數(shù)據(jù)總結(jié)方法是計算出數(shù)據(jù)庫的各個字段上的求和值、平均值、方差值等統(tǒng)計值,或者用直方圖、餅狀圖等圖形方式表示。 分類:根據(jù)分類模型對數(shù)據(jù)集合分類。分類屬于有導(dǎo)師學(xué)習(xí),一般需要有一個訓(xùn)練樣本數(shù)據(jù)集作為輸入。聚類:根據(jù)數(shù)據(jù)的不同特征,將其劃分為不同的類。無導(dǎo)師學(xué)習(xí)2022/7/
4、197高級人工智能 史忠植知識發(fā)現(xiàn)的任務(wù)(2)相關(guān)性分析: 發(fā)現(xiàn)特征之間或數(shù)據(jù)之間的相互依賴關(guān)系關(guān)聯(lián)規(guī)則 偏差分析:基本思想是尋找觀察結(jié)果與參照量之間的有意義的差別。通過發(fā)現(xiàn)異常, 可以引起人們對特殊情況的加倍注意。 建模:構(gòu)造描述一種活動或狀態(tài)的數(shù)學(xué)模型 2022/7/198高級人工智能 史忠植知識發(fā)現(xiàn)的方法(1)統(tǒng)計方法:傳統(tǒng)方法: 回歸分析、判別分析、聚類分析、探索性分析模糊集(fuzzy set) Zadeh 1965支持向量機(Support Vector Machine) Vapnik 90年代初粗糙集(Rough Set) Pawlak 80年代初2022/7/199高級人工智能
5、 史忠植知識發(fā)現(xiàn)的方法(2)機器學(xué)習(xí):規(guī)則歸納:AQ算法決策樹:ID3、C4.5范例推理:CBR遺傳算法:GA貝葉斯信念網(wǎng)絡(luò)2022/7/1910高級人工智能 史忠植知識發(fā)現(xiàn)的方法(3)神經(jīng)計算:神經(jīng)網(wǎng)絡(luò)是指一類新的計算模型,它是模仿人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和某些工作機制而建立的一種計算模型。常用的模型:Hopfield網(wǎng)多層感知機自組織特征映射反傳網(wǎng)絡(luò)可視化:2022/7/1911高級人工智能 史忠植KDD的技術(shù)難點動態(tài)變化的數(shù)據(jù)噪聲數(shù)據(jù)不完整冗余信息數(shù)據(jù)稀疏超大數(shù)據(jù)量2022/7/1912高級人工智能 史忠植關(guān)聯(lián)規(guī)則屬于知識發(fā)現(xiàn)任務(wù)中的相關(guān)性分析 由于條形碼技術(shù)的發(fā)展,零售部門可以利用前端收款機
6、收集存儲大量的售貨數(shù)據(jù)。因此,如果對這些歷史事務(wù)數(shù)據(jù)進行分析,則可對顧客的購買行為提供極有價值的信息。例如,可以幫助如何擺放貨架上的商品(如把顧客經(jīng)常同時買的商品放在一起),幫助如何規(guī)劃市場(怎樣相互搭配進貨)。2022/7/1913高級人工智能 史忠植關(guān)聯(lián)規(guī)則的表示 關(guān)聯(lián)規(guī)則的形式如 “在購買面包顧客中,有70%的人同時也買了黃油”,可以表示成:面包黃油。用于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的主要對象是事務(wù)型數(shù)據(jù)庫,其中針對的應(yīng)用則是售貨數(shù)據(jù),也稱貨籃數(shù)據(jù)。一個事務(wù)一般由如下幾個部分組成:事務(wù)處理時間 ,一組顧客購買的物品,有時也有顧客標(biāo)識號(如信用卡號)。 2022/7/1914高級人工智能 史忠植關(guān)聯(lián)規(guī)則的
7、相關(guān)概念(1)設(shè)R=I1,I2Im是一組物品集,W是一組事務(wù)集。W中的每個事務(wù)T是一組物品,TR。假設(shè)有一個物品集A,一個事務(wù)T,如果AT,則稱事務(wù)T支持物品集A。關(guān)聯(lián)規(guī)則是如下形式的一種蘊含:AB,其中A、B是兩組物品,AI,BI,且AB=。2022/7/1915高級人工智能 史忠植關(guān)聯(lián)規(guī)則的相關(guān)概念(2)支持度 物品集A的支持度:稱物品集A具有大小為s的支持度,如果D中有s%的事務(wù)支持物品集X P(A)1000個顧客購物,其中200個顧客購買了面包,支持度就是20(200/1000)。 關(guān)聯(lián)規(guī)則AB的支持度:關(guān)聯(lián)規(guī)則AB在事務(wù)數(shù)據(jù)庫W中具有大小為s的支持度,如果物品集AB的支持度為s 10
8、0個顧客購買了面包和黃油,則面包黃油 102022/7/1916高級人工智能 史忠植關(guān)聯(lián)規(guī)則的相關(guān)概念(3)可信度 設(shè)W中支持物品集A的事務(wù)中,有c的事務(wù)同時也支持物品集B,c稱為關(guān)聯(lián)規(guī)則AB的可信度。 P(B|A) 1000個顧客購物,200個顧客購買了面包,其中140個買了黃油,則可信度是70(140/200)。2022/7/1917高級人工智能 史忠植關(guān)聯(lián)規(guī)則的相關(guān)概念(4)最小支持度minsup 用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小支持度。最小可信度minconf 用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小可信度。大項集(大項集、大物品集largeitemset) 支持度不小于最小支持度minsup
9、的物品集2022/7/1918高級人工智能 史忠植關(guān)聯(lián)規(guī)則發(fā)現(xiàn)任務(wù) 給定一個事務(wù)數(shù)據(jù)庫D,求出所有滿足最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。該問題可以分解為兩個子問題:求出D中滿足最小支持度的所有大項集;利用大項集生成滿足最小可信度的所有關(guān)聯(lián)規(guī)則。對于每個大項集A,若BA,B,且Confidence(B (AB))minconf,則構(gòu)成關(guān)聯(lián)規(guī)則B (AB) 2022/7/1919高級人工智能 史忠植關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的基本思路 第2個子問題比較容易。目前大多數(shù)研究集中在第一個子問題上,即如何高效地求出大項集。 首先生成長度為1的大項集(即單個物品),記為L1;在Lk的基礎(chǔ)上生成候選物品集Ck+1,候選物
10、品集必須保證包括所有的大項集。用事務(wù)數(shù)據(jù)庫D中的事務(wù)對Ck+1進行支持度測試以生成長度為k+1的大項集Lk+1,計算每個候選物品集的支持度,如果大于minsup,則加入到Lk+1中。如果Lk+1為空集,則結(jié)束,L1L2即為結(jié)果;否則轉(zhuǎn)(2),繼續(xù)。2022/7/1920高級人工智能 史忠植思路的正確性利用了大物品集向下封閉性,即大物品集X的任意子集一定是大物品集,反過來說,如果X有一子集不是大項集,則X肯定不是。是寬度優(yōu)先算法2022/7/1921高級人工智能 史忠植經(jīng)典的Apriori算法(1) L1=large 1-itemsets;(2) for (k=2; Lk-1不為空; k+) d
11、o begin(3) Ck=apriori-gen(Lk-1); / 新候選物品集(4) For all transactions tD do begin(5) C=subset(Ck,t); / t中的候選物品集(6) For all candidates cC do(7) c.count+;(8) end;(9) Lk=cCk|c.count=minsup;(10) end;(11) Answer = L1L22022/7/1922高級人工智能 史忠植apriori-gen(Lk-1) 分成兩步:join算法:從兩個Lk-1物品集生成候選物品集Ckinsert into Ckselect
12、p.item1,p.item2,.,p.item(k-1), q.item(k-1)from Lk-1 p, Lk-1 qwhere p.item1=q.item1, .,p.item(k-2)=q.item(k-2), p.item(k-1)q.item(k-1)2022/7/1923高級人工智能 史忠植Prune算法:從Ck中除去大小為k-1且不在Lk-1中的子集(1) For all itemsets cCk do(2) For all (k-1)-subsets s of c do(3) if (sLk-1)(4) then delete c from Ck2022/7/1924高級人
13、工智能 史忠植舉例:L3為1,2,3,1,2,4,1,3,4,1,3,5,2,3,4經(jīng)過join后,C4=1,2,3,4,1,3,4,5由于1,3,4,5有子集1,4,5不在L3中, 所以經(jīng)過prune后,得到L4=1,2,3,42022/7/1925高級人工智能 史忠植2022/7/1926高級人工智能 史忠植2022/7/1927高級人工智能 史忠植2022/7/1928高級人工智能 史忠植2022/7/1929高級人工智能 史忠植關(guān)聯(lián)規(guī)則發(fā)現(xiàn)注意的問題充分理解數(shù)據(jù)目標(biāo)明確數(shù)據(jù)準(zhǔn)備工作要做好選取適當(dāng)?shù)淖钚〉闹С侄群涂尚哦群芎玫乩斫怅P(guān)聯(lián)規(guī)則2022/7/1930高級人工智能 史忠植關(guān)聯(lián)規(guī)則發(fā)
14、現(xiàn)使用步驟連接數(shù)據(jù),做數(shù)據(jù)準(zhǔn)備給定最小支持度和最小可信度,利用知識發(fā)現(xiàn)工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則可視化顯示、理解、評估關(guān)聯(lián)規(guī)則2022/7/1931高級人工智能 史忠植關(guān)聯(lián)規(guī)則在保險業(yè)務(wù)中的應(yīng)用最小支持度1%,最小可信度為50%2022/7/1932高級人工智能 史忠植2022/7/1933高級人工智能 史忠植2022/7/1934高級人工智能 史忠植2022/7/1935高級人工智能 史忠植數(shù)據(jù)倉庫 在過去幾十年,數(shù)據(jù)庫技術(shù),特別是OLTP(聯(lián)機事務(wù)處理),主要是為自動化生產(chǎn)、精簡工作任務(wù)和高速采集數(shù)據(jù)服務(wù)。它是事務(wù)驅(qū)動的、面向應(yīng)用的。 20世紀(jì)80年代,人們要利用現(xiàn)有的數(shù)據(jù),進行分析和推理
15、,從而為決策提供依據(jù)。這種需求既要求聯(lián)機服務(wù),又涉及大量用于決策的數(shù)據(jù)。而傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)已無法滿足這種需求:所需歷史數(shù)據(jù)量很大,而傳統(tǒng)數(shù)據(jù)庫一般只存儲短期數(shù)據(jù)。涉及許多部門的數(shù)據(jù),而不同系統(tǒng)的數(shù)據(jù)難以集成。對大量數(shù)據(jù)的訪問性能明顯下降 2022/7/1936高級人工智能 史忠植數(shù)據(jù)倉庫的定義信息處理技術(shù)的發(fā)展趨勢是:從大量的事務(wù)型數(shù)據(jù)庫中抽取數(shù)據(jù),并將其清理、轉(zhuǎn)換為新的存儲格。隨著此過程的發(fā)展和完善,這種九十年代初出現(xiàn)的支持決策的、特殊的數(shù)據(jù)存儲即被稱為數(shù)據(jù)倉庫(Data Warehouse)。Inmon將數(shù)據(jù)倉庫明確定義為: 數(shù)據(jù)倉庫(Data Warehouse)是面向主題的,集成的,內(nèi)
16、容相對穩(wěn)定的、不同時間的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。 2022/7/1937高級人工智能 史忠植數(shù)據(jù)倉庫的特征(1) 數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題的 與傳統(tǒng)數(shù)據(jù)庫面向應(yīng)用相對應(yīng)的。主題是一個在較高層次將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個主題基本對應(yīng)一個宏觀的分析領(lǐng)域 數(shù)據(jù)倉庫中的數(shù)據(jù)是集成的 在數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必然要經(jīng)過加工與集成。要統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,還要進行數(shù)據(jù)綜合和計算2022/7/1938高級人工智能 史忠植數(shù)據(jù)倉庫的特征(2) 數(shù)據(jù)倉庫中的數(shù)據(jù)是穩(wěn)定的 數(shù)據(jù)倉庫的數(shù)據(jù)主要供決策分析之用,所涉及的操作主要是數(shù)據(jù)查詢,一般不進行修改操作 數(shù)據(jù)倉庫中的數(shù)據(jù)又是隨時間不斷變
17、化的 數(shù)據(jù)倉庫的數(shù)據(jù)不是實時更新的,但并不是永遠不變的,也要隨著時間的變化不斷地更新、增刪和重新綜合。 更新周期 2022/7/1939高級人工智能 史忠植元數(shù)據(jù)元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù),它描述了數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、編碼、索引等內(nèi)容。傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)字典是一種元數(shù)據(jù),但在數(shù)據(jù)倉庫中,元數(shù)據(jù)的內(nèi)容比數(shù)據(jù)庫中的數(shù)據(jù)字典更加豐富和復(fù)雜。設(shè)計一個描述能力強、內(nèi)容完善的元數(shù)據(jù),是有效管理數(shù)據(jù)倉庫的具有決定意義的重要前提 2022/7/1940高級人工智能 史忠植元數(shù)據(jù)的重要性 數(shù)據(jù)倉庫使用者往往將使用元數(shù)據(jù)作為分析的第一步。元數(shù)據(jù)如同數(shù)據(jù)指示圖,指出了數(shù)據(jù)倉庫內(nèi)各種信息的位置和含義 從
18、操作型數(shù)據(jù)環(huán)境到數(shù)據(jù)倉庫的數(shù)據(jù)轉(zhuǎn)換是復(fù)雜的、多方面的,是數(shù)據(jù)倉庫建設(shè)的關(guān)鍵性步驟,元數(shù)據(jù)要包含對這種轉(zhuǎn)換的清晰描述,保證這種轉(zhuǎn)換是正確、適當(dāng)和合理的,并且是靈活可變的元數(shù)據(jù)還管理粒度的劃分、索引的建立以及抽取更新的周期等,以便管理好數(shù)據(jù)倉庫中的大規(guī)模數(shù)據(jù) 2022/7/1941高級人工智能 史忠植數(shù)據(jù)倉庫的相關(guān)概念事實表(Fact):存儲用戶需要查詢分析的數(shù)據(jù),事實表中一般包含多個維(Dimension)和度量(Measurement)。維:代表了用戶觀察數(shù)據(jù)的特定視角,如:時間維、地區(qū)維、產(chǎn)品維等。每一個維可劃分為不同的層次來取值,如時間維的值可按年份、季度、月份來劃分,描述了不同的查詢層次
19、。度量:是數(shù)據(jù)的實際意義,描述數(shù)據(jù)“是什么”,即一個數(shù)值的測量指標(biāo),如:人數(shù)、單價、銷售量等。 2022/7/1942高級人工智能 史忠植數(shù)據(jù)倉庫的建模模型 度量的實際數(shù)據(jù)存放在事實表中。維的詳細信息,如不同的層次劃分和相應(yīng)數(shù)據(jù)等在維表中存儲,事實表中存放各個維的標(biāo)識碼鍵。事實表和維表將通過這些鍵關(guān)聯(lián)起來,構(gòu)成一種星型模型 對于層次復(fù)雜的維,為避免冗余數(shù)據(jù)占用過大的存儲空間,可以使用多個表來描述,這種星型模式的擴展稱為雪花模型2022/7/1943高級人工智能 史忠植OLAP數(shù)據(jù)倉庫技術(shù)中,多維數(shù)據(jù)分析(Multidimensional Data Analysis)方法是一種重要的技術(shù),也稱作
20、聯(lián)機分析處理(On-Line Analytical Processing,簡稱OLAP)或數(shù)據(jù)立方體(Data Cube)方法,主要是指通過各種即席復(fù)雜查詢,對數(shù)據(jù)倉庫中存儲的數(shù)據(jù)進行各種統(tǒng)計分析的應(yīng)用 數(shù)據(jù)倉庫是面向決策支持的,決策的前提是數(shù)據(jù)分析。在數(shù)據(jù)分析中經(jīng)常要用到諸如求和、總計、平均、最大、最小等匯集操作,這類操作的計算量特別大 。2022/7/1944高級人工智能 史忠植OLAP的類型ROLAP:數(shù)據(jù)保留在原有的關(guān)系型結(jié)構(gòu)中,并且將聚合表也存儲在關(guān)系數(shù)據(jù)庫, 在技術(shù)成熟及各方面的適應(yīng)性上較之MOLAP占有一定的優(yōu)勢,性能較差MOLAP: 數(shù)據(jù)和聚合都存儲在多維結(jié)構(gòu)中,效率較高 ,便
21、于進行優(yōu)化操作。維數(shù)多數(shù)據(jù)量大時,存儲是難點。HOALP: 數(shù)據(jù)保留在原有的關(guān)系型結(jié)構(gòu)中,聚合存儲在多維結(jié)構(gòu)。結(jié)合ROLAP和MOLAP兩者的優(yōu)點2022/7/1945高級人工智能 史忠植OLAP的分析操作OLAP的基本多維分析操作有鉆?。╮oll up和drill down)、切片(slice)和切塊(dice)、以及旋轉(zhuǎn)(pivot)等。鉆取是改變維的層次,變換分析的粒度。它包括向上鉆取和向下鉆取。roll up是在某一維上將低層次的細節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù);而drill down則相反,它從匯總數(shù)據(jù)深入到細節(jié)數(shù)據(jù)進行觀察切片和切塊是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布
22、。如果剩余的維只有兩個,則是切片,否則是切塊 旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(例如行列互換 2022/7/1946高級人工智能 史忠植數(shù)據(jù)倉庫和知識發(fā)現(xiàn)技術(shù)的結(jié)合(1) 知識發(fā)現(xiàn)成為數(shù)據(jù)倉庫中進行數(shù)據(jù)深層分析的一種必不可少的手段 數(shù)據(jù)倉庫是面向決策分析的,數(shù)據(jù)倉庫從事務(wù)型數(shù)據(jù)抽取并集成得到的分析型數(shù)據(jù)后,需要各種決策分析工具對這些數(shù)據(jù)進行分析和挖掘,得到有用的決策信息。而知識發(fā)現(xiàn)技術(shù)具備從大量數(shù)據(jù)中發(fā)現(xiàn)有用信息的能力。2022/7/1947高級人工智能 史忠植數(shù)據(jù)倉庫和知識發(fā)現(xiàn)技術(shù)的結(jié)合(2) 數(shù)據(jù)倉庫為知識發(fā)現(xiàn)提供經(jīng)過良好預(yù)處理的數(shù)據(jù)源 知識發(fā)現(xiàn)往往依賴于經(jīng)過良好組織和預(yù)處理
23、的數(shù)據(jù)源,數(shù)據(jù)的好壞直接影響知識發(fā)現(xiàn)的效果。 數(shù)據(jù)倉庫具有從各種數(shù)據(jù)源中抽取數(shù)據(jù),并對數(shù)據(jù)進行清洗、聚集和轉(zhuǎn)換等各種處理的能力2022/7/1948高級人工智能 史忠植一、數(shù)據(jù)挖掘概念-發(fā)展1989 IJCAI會議: 數(shù)據(jù)庫中的知識發(fā)現(xiàn)討論專題Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991)1991-1994 KDD討論專題Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P.
24、Smyth, and R. Uthurusamy, 1996)1995-1998 KDD國際會議 (KDD95-98)Journal of Data Mining and Knowledge Discovery (1997)1998 ACM SIGKDD, SIGKDD1999-2002 會議,以及SIGKDD Explorations數(shù)據(jù)挖掘方面更多的國際會議PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc.2022/7/1949高級人工智能 史忠植二、數(shù)據(jù)挖掘軟件的發(fā)展代特征數(shù)據(jù)挖掘算法集成分布計算模型數(shù)據(jù)模型第
25、一代作為一個獨立的應(yīng)用支持一個或者多個算法 獨立的系統(tǒng)單個機器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質(zhì)、局部區(qū)域的計算機群集有些系統(tǒng)支持對象,文本和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)言模型系統(tǒng)集成 多個算法數(shù)據(jù)管理和預(yù)言模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計算設(shè)備的數(shù)據(jù)聯(lián)合 多個算法數(shù)據(jù)管理、預(yù)言模型、移動系統(tǒng)移動和各種計算設(shè)備普遍存在的計算模型 Robert Grossman, National Center for Data Mining University of Illinois at Chicago 的觀點2022/7/1950高級人工智能 史忠植二、數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件2022/7/1951高級人工智能 史忠植二、數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件 CBA新加坡國立大學(xué)。基于關(guān)聯(lián)規(guī)則的分類算法,能從關(guān)系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,使用關(guān)聯(lián)規(guī)則進行分類和預(yù)測2022/7/1952高級人工智能 史忠植二、數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件特點與數(shù)據(jù)庫管理系統(tǒng)(DBMS)集成 支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴展性 能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集 通過支持數(shù)據(jù)挖掘模式(d
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 校本課程開發(fā)工作總結(jié)
- 養(yǎng)殖棚流轉(zhuǎn)合同范例
- 小學(xué)行為規(guī)范教育
- 腫瘤藥臨床試驗
- 義烏勞務(wù)合同范例
- 胃竇部潰瘍穿孔護理查房
- 催收公司合同范例
- 2025年無功功率自動補償裝置項目發(fā)展計劃
- 優(yōu)化工作環(huán)境之策
- 學(xué)術(shù)征途:碩士研究之旅
- 2025年西安鐵路職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫學(xué)生專用
- pisa數(shù)學(xué)素養(yǎng)測試題及答案
- 2025年臨床醫(yī)師定期考核必考復(fù)習(xí)題庫及答案(900題)
- 《游園》課件統(tǒng)編版高中語文必修下冊
- 2025年河南省中考化學(xué)二輪復(fù)習(xí)備考策略及命題趨勢 課件
- 4S店三表一卡標(biāo)準(zhǔn)模板
- 【校本教材】《身邊的化學(xué)》高中化學(xué)校本課程
- 性格色彩培訓(xùn)-團隊培訓(xùn)必備
- 【教學(xué)設(shè)計】審定新北師大版六年級下冊數(shù)學(xué)《圖形的運動》教學(xué)設(shè)計
- 護理敏感質(zhì)量指標(biāo)——疼痛評估正確率
- 推薦精選常見血液病急性白血病的MICM分型和預(yù)后
評論
0/150
提交評論