專題數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型_第1頁(yè)
專題數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型_第2頁(yè)
專題數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型_第3頁(yè)
專題數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型_第4頁(yè)
專題數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型_第5頁(yè)
已閱讀5頁(yè),還剩89頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型4.1

廣義知識(shí)

4.2

關(guān)聯(lián)知識(shí)4.3

分類知識(shí)4.4

預(yù)測(cè)型知識(shí)4.5偏差型知識(shí)24.1廣義知識(shí)從數(shù)據(jù)分析角度出發(fā),數(shù)據(jù)挖掘可以分為兩種類型:描述型數(shù)據(jù)挖掘——以簡(jiǎn)潔概述的方式表達(dá)數(shù)據(jù)中的存在一些有意義的性質(zhì)預(yù)測(cè)型數(shù)據(jù)挖掘——通過對(duì)所提供數(shù)據(jù)集應(yīng)用特定方法分析所獲得的一個(gè)或一組數(shù)據(jù)模型,并將該模型用于預(yù)測(cè)未來(lái)新數(shù)據(jù)的有關(guān)性質(zhì)。34.1廣義知識(shí)數(shù)據(jù)庫(kù)通常包含了大量細(xì)節(jié)性數(shù)據(jù),然而用戶卻常常想要得到能以簡(jiǎn)潔描述性方式所提供的概要性總結(jié)(summarized)。這樣的數(shù)據(jù)摘要能夠提供一類數(shù)據(jù)的整體情況描述;或與其它類別數(shù)據(jù)相比較的有關(guān)情況的整體描述。此外用戶通常希望能輕松靈活地獲得從不同角度和分析細(xì)度對(duì)數(shù)據(jù)所進(jìn)行的描述。描述型數(shù)據(jù)挖掘又稱為概念描述,它是數(shù)據(jù)挖掘中的一個(gè)重要組成部分。下面就將主要介紹如何有效地進(jìn)行定性歸納以獲得概念描述的有關(guān)內(nèi)容。12345概念上的層次4第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型4.1.1廣義知識(shí)的概念定義廣義知識(shí)是指類別特征的概括性描述知識(shí),也稱為概念描述。它反映同類事物共同性質(zhì),是對(duì)數(shù)據(jù)的概括、精煉和抽象。廣義知識(shí)是對(duì)大量數(shù)據(jù)的歸納、概括,提煉出帶有普遍性的、概括性的描述統(tǒng)計(jì)知識(shí)。5第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型數(shù)據(jù)庫(kù)中數(shù)據(jù)及對(duì)象在基本概念層次包含了許多細(xì)節(jié)性的數(shù)據(jù)信息。在商場(chǎng)銷售數(shù)據(jù)庫(kù)的商品信息數(shù)據(jù)中,就包含了許多諸如:商品編號(hào)、商品名稱、商品品牌等低層次信息,對(duì)這類大量的數(shù)據(jù)進(jìn)行更高層次抽象以提供一個(gè)概要性描述是十分重要的。例如:對(duì)春節(jié)所銷售商品情況進(jìn)行概要描述,對(duì)于市場(chǎng)和銷售主管來(lái)講顯然是十分重要的。最簡(jiǎn)單的描述型數(shù)據(jù)(廣義知識(shí))挖掘就是定性歸納。定性歸納常常也稱為概念描述。這里概念描述涉及一組(同一類別)的對(duì)象,諸如:商店常客等。概念描述生成對(duì)數(shù)據(jù)的定性描述和對(duì)比定性描述。定性概念描述提供了一個(gè)有關(guān)數(shù)據(jù)整體的簡(jiǎn)潔清晰描述(概念內(nèi)涵)對(duì)比定性概念描述提供了基于多組(不同類別)數(shù)據(jù)的對(duì)比概念描述(概念外延)6第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型給定存儲(chǔ)在數(shù)據(jù)庫(kù)中的大量數(shù)據(jù),能夠用簡(jiǎn)潔清晰的高層次抽象泛化名稱來(lái)描述相應(yīng)的定性概念是非常重要的,這樣用戶就可以利用基于多層次數(shù)據(jù)抽象的功能對(duì)數(shù)據(jù)中所存在的一般性規(guī)律進(jìn)行探索。例如在商場(chǎng)數(shù)據(jù)庫(kù)中,銷售主管不用對(duì)每個(gè)顧客的購(gòu)買記錄進(jìn)行檢查,而只需要對(duì)更高抽象層次的數(shù)據(jù)進(jìn)行研究即可。

如:對(duì)按地理位置進(jìn)行劃分的顧客購(gòu)買總額、每組顧客的購(gòu)買頻率以及顧客收入情況進(jìn)行更高層次的研究分析。這種多維多層次的數(shù)據(jù)泛化分析與數(shù)據(jù)倉(cāng)庫(kù)中的多維數(shù)據(jù)分析,7第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型4.1.2廣義知識(shí)的發(fā)現(xiàn)方法要順利完成概要描述任務(wù),就需要一個(gè)十分重要的數(shù)據(jù)挖掘功能:數(shù)據(jù)泛化。數(shù)據(jù)泛化是一個(gè)從相對(duì)低層概念到更高層概念且對(duì)數(shù)據(jù)庫(kù)中與任務(wù)相關(guān)的大量數(shù)據(jù)進(jìn)行抽象概述的一個(gè)分析過程。對(duì)大量數(shù)據(jù)進(jìn)行有效靈活的概述方法主要有兩種1.數(shù)據(jù)立方體2.面向?qū)傩缘囊?guī)約81.數(shù)據(jù)立方體數(shù)據(jù)立方的維是通過一系列能夠形成層次的屬性或網(wǎng)格,例如:日期(date)可以包含屬性天、周、月、季和年,這些屬性構(gòu)成了維的網(wǎng)格。利用數(shù)據(jù)立方方法(又稱為OLAP方法)進(jìn)行數(shù)據(jù)泛化,就是在數(shù)據(jù)立方中存放著預(yù)先對(duì)部分或所有維(屬性)的聚合計(jì)算結(jié)果。通常數(shù)據(jù)立方中的數(shù)據(jù)需要經(jīng)過費(fèi)時(shí)復(fù)雜的運(yùn)算操作(如:sum、count、average),不同的抽象層次均需要進(jìn)行這類運(yùn)算,將這些運(yùn)算與操作結(jié)果存放在這些數(shù)據(jù)立方中,最終所獲得的這些數(shù)據(jù)立方可用于決策支持、知識(shí)發(fā)現(xiàn),或其它許多應(yīng)用。91.數(shù)據(jù)立方體對(duì)多維數(shù)據(jù)立方的數(shù)據(jù)泛化和數(shù)據(jù)細(xì)化工作,可以通過rollup或drilldown操作實(shí)現(xiàn)上卷(roll-up):匯總數(shù)據(jù)

消減數(shù)據(jù)立方中的維數(shù)(維規(guī)約),或?qū)傩灾捣夯癁楦邔哟蔚母拍睿ǜ拍罘謱酉蛏吓噬┫裸@(drill-down):上卷的逆操作

由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù),可以通過沿維的概念分層向下或引入新的維來(lái)實(shí)現(xiàn)10111.數(shù)據(jù)立方體數(shù)據(jù)立方方法提供了一種有效的數(shù)據(jù)泛化方法,且構(gòu)成了描述型數(shù)據(jù)挖掘中一個(gè)重要功能。數(shù)據(jù)立方體方法局限性:數(shù)據(jù)類型限制

多數(shù)商用數(shù)據(jù)立方的實(shí)現(xiàn)都是將維的類型限制在數(shù)值類型方面,而且將處理限制在簡(jiǎn)單數(shù)值聚合方面。由于許多應(yīng)用涉及到更加復(fù)雜數(shù)據(jù)類型的分析,此時(shí)數(shù)據(jù)立方體的方法應(yīng)用有限。缺乏一定的標(biāo)準(zhǔn)

數(shù)據(jù)立方方法并不能解決概念描述所能解決的一些重要問題,諸如:在描述中應(yīng)該使用哪些維?在泛化過程應(yīng)該進(jìn)行到哪個(gè)抽象層次上。這些問題均要由用戶負(fù)責(zé)提供答案的。122.面向?qū)傩缘臍w約(Attribure-OrientedInduction,簡(jiǎn)稱AOI)數(shù)據(jù)立方方法是基于數(shù)據(jù)倉(cāng)庫(kù)、預(yù)先計(jì)算的具體實(shí)施方法。該方法在進(jìn)行OLAP或數(shù)據(jù)挖掘查詢處理之前,就已進(jìn)行了離線聚合計(jì)算。而AOI方法是一種在線數(shù)據(jù)分析技術(shù)方法。1989年首次提出基本思想:首先利用關(guān)系數(shù)據(jù)庫(kù)查詢來(lái)收集與任務(wù)相關(guān)的數(shù)據(jù),并通過對(duì)任務(wù)相關(guān)數(shù)據(jù)集中各屬性不同值個(gè)數(shù)的檢查完成數(shù)據(jù)泛化操作。數(shù)據(jù)泛化操作是通過屬性消減或?qū)傩苑夯ㄓ址Q為概念層次提升)操作來(lái)完成的。通過合并(泛化后)相同行并累計(jì)它們相應(yīng)的個(gè)數(shù)。這就自然減少了泛化后的數(shù)據(jù)集大小。所獲(泛化后)結(jié)果以圖表和規(guī)則等多種不同形式提供給用戶。13示例:研究生概念描述從一個(gè)大學(xué)數(shù)據(jù)庫(kù)的學(xué)生數(shù)據(jù)中挖掘出研究生的概念描述。所涉及的屬性包括:姓名、性別、專業(yè)、出生地、出生日期、居住地、電話和GPA14AOI方法的第一步就是首先利用數(shù)據(jù)庫(kù)查詢語(yǔ)言從大學(xué)數(shù)據(jù)庫(kù)中將(與本挖掘任務(wù)相關(guān)的)學(xué)生數(shù)據(jù)抽取出來(lái);然后指定一組與挖掘任務(wù)相關(guān)的屬性集(這對(duì)于用戶而言可能比較困難)。例如:假設(shè)根據(jù)屬性城市City、省Province和國(guó)家Country定義出生地(BirthPlace)維,在這些屬性中,用戶或許只考慮了城市屬性。為了對(duì)出生地進(jìn)行泛化處理,就必須將出生地泛化所涉及的其它屬性也包含進(jìn)來(lái)。換句話說(shuō),系統(tǒng)應(yīng)能自動(dòng)包含省和國(guó)家作為相關(guān)屬性,以便在歸納過程中可以從城市泛化到更高概念層次。而在另一方面,用戶或許會(huì)提供過多的屬性,這時(shí)就需要利用前面數(shù)據(jù)預(yù)處理所介紹的數(shù)據(jù)清理和維歸約方法從描述型數(shù)據(jù)挖掘中過濾掉無(wú)關(guān)或弱相關(guān)的屬性。15AOI的基本操作是數(shù)據(jù)泛化,其所涉及的操作主要有兩種:屬性消除它基于以下規(guī)則進(jìn)行:若一個(gè)屬性(在初始數(shù)據(jù)集中)有許多不同數(shù)值,且(a)該屬性無(wú)法進(jìn)行泛化操作(如:沒有定義相應(yīng)的概念層次樹),或(b)它更高層次概念是用其它屬性描述的,這時(shí)該屬性就可以從數(shù)據(jù)集中消去.屬性泛化它是基于以下規(guī)則進(jìn)行:若一個(gè)屬性(在初始數(shù)據(jù)集中)有許多不同數(shù)值,且該屬性存在一組泛化操作,則可以選擇一個(gè)泛化操作對(duì)該屬性進(jìn)行處理。16屬性消減和屬性泛化兩條規(guī)則都表明:若一個(gè)屬性有許多不同值,則應(yīng)對(duì)其應(yīng)用泛化操作。但這也提出一個(gè)問題,“究竟一個(gè)屬性應(yīng)有多少不同值才能認(rèn)為是許多呢?”。根據(jù)所涉及屬性或具體應(yīng)用情況,一個(gè)用戶或許選擇一些屬性仍保留在低層次抽象水平而對(duì)其它一些屬性進(jìn)行更高層次的泛化處理。對(duì)泛化抽象層次的控制也是相當(dāng)主觀的,這一控制也稱為屬性泛化控制。若屬性被泛化“過高”,就將會(huì)導(dǎo)致過分泛化以致所獲(結(jié)果)規(guī)則變得失去意義。另一方面,若屬性泛化沒有到達(dá)“足夠高的層次”,那么“亞泛化”也可能同樣會(huì)變得失去意義。因此在基于屬性歸納時(shí)掌握泛化平衡是非常重要的。17有許多控制泛化過程的方法,以下就是兩種常用的方法屬性泛化閾值控制

該技術(shù)就是對(duì)所有屬性統(tǒng)一設(shè)置一個(gè)泛化閾值,或每個(gè)屬性分別設(shè)置一個(gè)閾值;若一個(gè)屬性不同取值個(gè)數(shù)大于屬性泛化閾值,就需要對(duì)相應(yīng)屬性作進(jìn)一步的屬性消減或?qū)傩苑夯僮?。?shù)據(jù)挖掘系統(tǒng)通常都有一個(gè)缺省屬性閾值(一般從2到8)泛化關(guān)系閾值控制

若一個(gè)泛化關(guān)系中內(nèi)容不相同的行數(shù)(元組數(shù))大于泛化關(guān)系閾值,這就需要進(jìn)一步進(jìn)行相關(guān)屬性的泛化工作。否則就不需要作更進(jìn)一步的泛化。通常數(shù)據(jù)挖掘系統(tǒng)都預(yù)置這一閾值(一般為10到30)這兩個(gè)技術(shù)可以串行使用,即首先應(yīng)用屬性閾值控制來(lái)泛化每個(gè)屬性;然后再應(yīng)用泛化關(guān)系閾值控制來(lái)進(jìn)一步減少泛化關(guān)系的(規(guī)模)大小。18對(duì)原數(shù)據(jù)集進(jìn)行泛化的處理過程1920初始數(shù)據(jù)集結(jié)果數(shù)據(jù)集21面向?qū)傩詺w約的結(jié)果表示AOI方法的挖掘結(jié)果可以有多種輸出表示形式。22組合表表示在二維組合表中,每一行代表屬性的一個(gè)值;每一列代表其它屬性的一個(gè)值。在一個(gè)n維組合表中,列可能代表多個(gè)屬性的值并分欄顯示各屬性累計(jì)值23用圖(棒圖、餅圖和曲線)表示24轉(zhuǎn)換為邏輯規(guī)則形式通常每個(gè)泛化后的數(shù)據(jù)行代表(概念描述)規(guī)則中的一個(gè)析取項(xiàng)。由于一個(gè)大型數(shù)據(jù)庫(kù)中的數(shù)據(jù)通常具有多種不同的分布;因此一個(gè)泛化后的數(shù)據(jù)行不可能覆蓋或表達(dá)所有(100%)初始數(shù)據(jù)集中的數(shù)據(jù)行。因此定量信息,諸如滿足規(guī)則條件左邊(自然也滿足規(guī)則右邊)數(shù)據(jù)行數(shù)目與初始數(shù)據(jù)集中總行數(shù)之比,可作為所獲概念描述規(guī)則的一個(gè)度量客觀價(jià)值的重要參量,帶有這種參量的概念描述規(guī)則就稱為定量描述規(guī)則。2526第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型4.2

關(guān)聯(lián)知識(shí)4.2.1關(guān)聯(lián)知識(shí)的概念關(guān)聯(lián)知識(shí)反映一個(gè)事件和其他事件之間依賴或相互關(guān)聯(lián)的知識(shí),如果兩項(xiàng)或多項(xiàng)屬性之間存在關(guān)聯(lián),那么其中一項(xiàng)的屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測(cè)。

關(guān)聯(lián)規(guī)則挖掘就是從大量的數(shù)據(jù)中挖掘出有價(jià)值描述數(shù)據(jù)項(xiàng)之間相互聯(lián)系的有關(guān)知識(shí)。隨著收集和存儲(chǔ)在數(shù)據(jù)庫(kù)中的數(shù)據(jù)規(guī)模越來(lái)越大,人們對(duì)從這些數(shù)據(jù)中挖掘相應(yīng)的關(guān)聯(lián)知識(shí)越來(lái)越有興趣。例如:從大量的商業(yè)交易記錄中發(fā)現(xiàn)有價(jià)值的關(guān)聯(lián)知識(shí)就可幫助進(jìn)行商品目錄的設(shè)計(jì)、交叉營(yíng)銷或幫助進(jìn)行其它有關(guān)的商業(yè)決策。挖掘關(guān)聯(lián)知識(shí)的一個(gè)典型應(yīng)用實(shí)例就是市場(chǎng)購(gòu)物分析“什么商品組或集合顧客多半會(huì)在一次購(gòu)物時(shí)同時(shí)購(gòu)買”27給定:事務(wù)數(shù)據(jù)庫(kù),每個(gè)事務(wù)是一系列商品(一個(gè)消費(fèi)者一次購(gòu)買的物品)找到:所有

的規(guī)則,這些規(guī)則能夠表明這些列商品和另一系列商品相關(guān)。E.g.,購(gòu)買汽車配件的人中有98%會(huì)購(gòu)買汽車服務(wù)應(yīng)用*

MaintenanceAgreement(那些商品能夠加強(qiáng)日常消費(fèi)?)家用電器

*

(那些商品應(yīng)該保持高庫(kù)存?)28第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型4.2.2關(guān)聯(lián)知識(shí)的發(fā)現(xiàn)方法購(gòu)物模式的關(guān)聯(lián)規(guī)則:支持度與可信度關(guān)聯(lián)規(guī)則的支持度(support)和信任度(confidence)是兩個(gè)度量有關(guān)規(guī)則趣味性的方法。支持度描述了一個(gè)被挖掘出的關(guān)聯(lián)規(guī)則的有用性,信任度描述了一個(gè)被挖掘出的關(guān)聯(lián)規(guī)則的確定性。規(guī)則(computer->financial_management_software)的支持度為2%,就表示所分析的交易記錄數(shù)據(jù)中有2%交易記錄同時(shí)包含電腦和金融管理軟件(即在一起被購(gòu)買)。規(guī)則(computer->financial_management_software)的60信任度則表示有60%的顧客在購(gòu)買電腦的同時(shí)還會(huì)購(gòu)買金融管理軟件。通常如果一個(gè)關(guān)聯(lián)規(guī)則滿足最小支持度閾值(min_support)和最小信任度閾值(min_confidence),那么就認(rèn)為該關(guān)聯(lián)規(guī)則是有意義的;而用戶或?qū)<铱梢栽O(shè)置最小支持度閾值和最小信任度閾值。29第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型4.2.2關(guān)聯(lián)知識(shí)的發(fā)現(xiàn)方法基本概念:一個(gè)數(shù)據(jù)項(xiàng)的集合就稱為項(xiàng)集(Itemset)一個(gè)包含k個(gè)數(shù)據(jù)項(xiàng)(屬性)的項(xiàng)集就稱為k?項(xiàng)集。{computer,financial_management_software}就是一個(gè)2-項(xiàng)集。一個(gè)項(xiàng)集的出現(xiàn)頻度就是整個(gè)交易數(shù)據(jù)集中包含該項(xiàng)集的交易記錄數(shù),這也稱為是該項(xiàng)集的支持度(supportcount)。若一個(gè)項(xiàng)集的出現(xiàn)頻度大于最小支持度閾值乘以交易記錄集D中記錄數(shù),那么就稱該項(xiàng)集滿足最小支持度閾值滿足最小支持度閾值所對(duì)應(yīng)的交易記錄數(shù)就稱為最小支持頻度(minimumsupportcount)。滿足最小支持閾值的項(xiàng)集就稱為頻繁項(xiàng)集(frequentitemset)。所有頻繁k?項(xiàng)集的集合就記為L(zhǎng)k。30Apriori算法一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁集的算法,使用候選項(xiàng)集找頻繁項(xiàng)集。基本思想:發(fā)現(xiàn)所有的頻繁項(xiàng)集,根據(jù)定義,這些項(xiàng)集的頻度至少應(yīng)等于(預(yù)先設(shè)置的)最小支持頻度;根據(jù)所獲得的頻繁項(xiàng)集,產(chǎn)生相應(yīng)的強(qiáng)關(guān)聯(lián)規(guī)則。根據(jù)定義這些規(guī)則必須滿足最小信任度閾值。31關(guān)聯(lián)規(guī)則的分類1.基于規(guī)則中處理的變量的類別分類布爾型:性別=男->職業(yè)=“網(wǎng)絡(luò)工程師”數(shù)值型:

2.基于規(guī)則中數(shù)據(jù)的抽象層次分類3.基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù)分類單維的

多維的32Apriori算法Apriori算法是挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項(xiàng)集的基本算法,它也是一個(gè)很有影響的關(guān)聯(lián)規(guī)則挖掘算法。Apriori算法利用了一個(gè)層次順序搜索的循環(huán)方法來(lái)完成頻繁項(xiàng)集的挖掘工作。這一循環(huán)方法就是利用k-項(xiàng)集來(lái)產(chǎn)生(k+1)?項(xiàng)集。具體做法就是:首先,通過掃描數(shù)據(jù)集,產(chǎn)生一個(gè)大的候選數(shù)據(jù)項(xiàng)集,并計(jì)算每個(gè)候選數(shù)據(jù)項(xiàng)發(fā)生的次數(shù),然后基于預(yù)先給定的最小支持度生成頻繁1-項(xiàng)集的集合,該集合記作L1;然后基于L1和數(shù)據(jù)集中的數(shù)據(jù),產(chǎn)生頻繁2-項(xiàng)集L2;用同樣的方法,直到生成頻繁n-項(xiàng)集Ln,其中已不再可能生成滿足最小支持度的(N+1)-項(xiàng)集。最后,從大數(shù)據(jù)項(xiàng)集中導(dǎo)出規(guī)則。每挖掘一層,就需要掃描整個(gè)數(shù)據(jù)庫(kù)一遍。33為提高按層次搜索并產(chǎn)生相應(yīng)頻繁項(xiàng)集的處理效率。Apriori算法利用了一個(gè)重要性質(zhì),又稱為Apriori性質(zhì)來(lái)幫助有效縮小頻繁項(xiàng)集的搜索空間。34Apriori算法中的關(guān)鍵步驟35Apriori算法中的關(guān)鍵步驟36實(shí)例1假定最小事務(wù)支持計(jì)數(shù)為2(即min_sup=2/9=22%)

37383940算法描述41425.2.3從頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則

4344實(shí)例245關(guān)聯(lián)規(guī)則的應(yīng)用前件和后件規(guī)則中的信任度和支持度前件后件信任度支持度百吉餅?zāi)逃透衫?0%5%百吉餅橙汁40%3%百吉餅咖啡40%2%百吉餅雞蛋25%2%面包牛奶35%30%黃油牛奶65%20%雞蛋牛奶35%15%奶酪牛奶40%8%支持度信任度低信任度高高規(guī)則很少是正確的,但可以使用信任度多數(shù)情況下是正確的,而且可以經(jīng)常使用低規(guī)則很少是正確的,一般不被使用信任度多數(shù)情況下是正確的,但很少被使用46關(guān)聯(lián)規(guī)則的表述(TableForm)47用圖形可視化的表述關(guān)聯(lián)規(guī)則48用圖形可視化的表述關(guān)聯(lián)規(guī)則49第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型4.2.3關(guān)聯(lián)規(guī)則應(yīng)用實(shí)例例如某超級(jí)市場(chǎng)的銷售系統(tǒng),記錄了5個(gè)顧客的購(gòu)物清單

流水號(hào)所購(gòu)物品清單1球鞋、手套、網(wǎng)球拍2摩托車、手套、頭盔3球鞋、摩托車

、手套、頭盔4頭盔5摩托車、頭盔50第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型采用著名的Apriori算法多次掃描數(shù)據(jù)庫(kù),得出支持度大于(等于)40%的數(shù)據(jù)

單項(xiàng)統(tǒng)計(jì)支持度球鞋40%摩托車60%手套60%頭盔80%51第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型對(duì)支持度大于(等于)40%同時(shí)購(gòu)買兩種商品的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)

雙項(xiàng)統(tǒng)計(jì)支持度球鞋,手套40%摩托車,手套40%摩托車,頭盔60%手套,頭盔40%52第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型支持度大于(等于)40%同時(shí)購(gòu)買三種商品的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)

三項(xiàng)統(tǒng)計(jì)支持度摩托車,手套,頭盔40%53第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型得出下列規(guī)則:(1)買了摩托車的顧客同時(shí)買手套或頭盔的支持度是40%,置信度是66.6%;(2)買了手套的顧客同時(shí)買摩托車或頭盔的支持度是40%,置信度是66.6%;(3)買了頭盔的顧客同時(shí)買手套或摩托車的支持度是40%,置信度是50%。按照第(1)條關(guān)系,將摩托車降價(jià)以促銷手套或頭盔,就可能賠本;而按照第(3)條關(guān)系,將頭盔降價(jià)以促銷摩托車,就能盈利;利用第(2)條關(guān)系,將手套降價(jià)以促銷摩托車,有可能引不起顧客的興趣。

54第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型4.3

分類知識(shí)4.3.1分類知識(shí)的概念

分類:把給定的數(shù)據(jù)劃分到一定的類別中。分類是預(yù)測(cè)分類標(biāo)號(hào),即離散型。分類知識(shí):反映同類事物共同性質(zhì)的特征型知識(shí)和不同事物之間的差異型特征知識(shí)。55第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型4.3.2分類知識(shí)的發(fā)現(xiàn)方法分類過程:首先,在已知訓(xùn)練數(shù)據(jù)集上,根據(jù)屬性特征,為每一種類別找到一個(gè)合理的描述或模型,即分類規(guī)則;其次,根據(jù)規(guī)則對(duì)新數(shù)據(jù)進(jìn)行分類。56具體步驟(P83)1:建立一個(gè)模型,描述給定的數(shù)據(jù)類集或概念集(簡(jiǎn)稱訓(xùn)練集)通過分析由屬性描述的數(shù)據(jù)庫(kù)元組來(lái)構(gòu)造模型。每個(gè)元組屬于一個(gè)預(yù)定義的類,由類標(biāo)號(hào)屬性確定。用于建立模型的元組集稱為訓(xùn)練數(shù)據(jù)集,其中每個(gè)元組稱為訓(xùn)練樣本。由于給出了類標(biāo)號(hào)屬性,因此該步驟又稱為有指導(dǎo)的學(xué)習(xí)。如果訓(xùn)練樣本的類標(biāo)號(hào)是未知的,則稱為無(wú)指導(dǎo)的學(xué)習(xí)(聚類)。學(xué)習(xí)模型可用分類規(guī)則、決策樹和數(shù)學(xué)公式的形式給出。通常分類學(xué)習(xí)所獲得的模型可以表示為分類規(guī)則形式、決策樹形式,或數(shù)學(xué)公式形式。57具體步驟2.使用模型進(jìn)行分類首先對(duì)模型分類準(zhǔn)確率進(jìn)行估計(jì)如果一個(gè)學(xué)習(xí)所獲模型的準(zhǔn)確率經(jīng)測(cè)試被認(rèn)為是可以接受的,那么就可以使用這一模型對(duì)未來(lái)數(shù)據(jù)行或?qū)ο螅ㄆ漕悇e未知)進(jìn)行分類。58應(yīng)用信譽(yù)證實(shí)醫(yī)療診斷性能測(cè)試市場(chǎng)營(yíng)銷示例:現(xiàn)有一個(gè)顧客郵件地址數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)內(nèi)容包含有關(guān)顧客情況的描述(例如年齡、收入、職業(yè)和信用等級(jí)等)。利用分類數(shù)據(jù)挖掘技術(shù)可以將顧客被分類為是否會(huì)成為在本商場(chǎng)購(gòu)買商品的顧客,這個(gè)郵件地址可以給潛在顧客發(fā)送用于促銷的新商品宣傳冊(cè)和將要開始的商品打折信息。59第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型分類規(guī)則的挖掘常用方法:決策樹方法貝葉斯方法人工神經(jīng)網(wǎng)絡(luò)方法粗集方法遺傳算法60對(duì)各種分類方法比較標(biāo)準(zhǔn)預(yù)測(cè)準(zhǔn)確率——描述(學(xué)習(xí)所獲)模型能夠正確預(yù)測(cè)未知對(duì)象類別或(類別)數(shù)值的能力。速度——描述在構(gòu)造和使用模型時(shí)的計(jì)算效率。魯棒性——描述在數(shù)據(jù)帶有噪聲和有數(shù)據(jù)遺失情況下,(學(xué)習(xí)所獲)模型仍能進(jìn)行正確預(yù)測(cè)的能力??蓴U(kuò)展性——描述對(duì)處理大量數(shù)據(jù)并構(gòu)造相應(yīng)學(xué)習(xí)模型所需要的能力。易理解性——描述學(xué)習(xí)所獲模型表示的可理解程度61第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型4.4

預(yù)測(cè)型知識(shí)4.4.1預(yù)測(cè)型知識(shí)的概念預(yù)測(cè)(prediction)是構(gòu)造和使用模型評(píng)估無(wú)標(biāo)號(hào)樣本類,或評(píng)估給定的樣本可能具有的屬性或區(qū)間值預(yù)測(cè)型知識(shí):根據(jù)時(shí)間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測(cè)未來(lái)的數(shù)據(jù),也可以認(rèn)為是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí)。預(yù)測(cè)的目的是從歷史數(shù)據(jù)中自動(dòng)推導(dǎo)出對(duì)給定數(shù)據(jù)的推廣描述,從而能對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。在這種觀點(diǎn)下,分類和回歸是兩類主要預(yù)測(cè)問題。其中分類是預(yù)測(cè)離散或標(biāo)稱值,而回歸用于預(yù)測(cè)連續(xù)或有序值。一般認(rèn)為:用預(yù)測(cè)法預(yù)測(cè)類標(biāo)號(hào)為分類,用預(yù)測(cè)法預(yù)測(cè)連續(xù)值為預(yù)測(cè)。連續(xù)值的預(yù)測(cè)一般用回歸統(tǒng)計(jì)技術(shù)建模?;貧w方法包括:線性回歸、多元回歸、非線性回歸和其他回歸方法等。62第5章數(shù)據(jù)挖掘中常用算法5.3決策樹算法用于分類和預(yù)測(cè)。決策樹學(xué)習(xí)是以樣本為基礎(chǔ)的歸納學(xué)習(xí)方法?;舅惴ㄊ秦澬乃惴?,采用自頂向下的遞歸方式構(gòu)造決策樹。決策樹(DecisionTree)又稱為判定樹,是運(yùn)用于分類的一種樹結(jié)構(gòu)。其中的每個(gè)內(nèi)部結(jié)點(diǎn)(internalnode)代表對(duì)某個(gè)屬性的一次測(cè)試,每條邊代表一個(gè)測(cè)試結(jié)果,葉結(jié)點(diǎn)(leaf)代表某個(gè)類(class)或者類的分布(classdistribution),最上面的結(jié)點(diǎn)是根結(jié)點(diǎn)。決策樹提供了一種展示類似在什么條件下會(huì)得到什么值這類規(guī)則的方法。若要對(duì)一個(gè)實(shí)體分類,從樹根開始進(jìn)行測(cè)試,按特征的取值分枝向下進(jìn)入下層節(jié)點(diǎn),對(duì)該節(jié)點(diǎn)進(jìn)行測(cè)試,過程一直進(jìn)行到葉節(jié)點(diǎn),實(shí)體被判為屬于該葉節(jié)點(diǎn)所標(biāo)記的類別。決策樹方法有ID3、ID4和ID5等。63這棵決策樹對(duì)銷售記錄進(jìn)行分類,指出一個(gè)電子產(chǎn)品消費(fèi)者是否會(huì)購(gòu)買一臺(tái)計(jì)算機(jī)“buys_computer”。每個(gè)內(nèi)部結(jié)點(diǎn)(方形框)代表對(duì)某個(gè)屬性的一次檢測(cè)。每個(gè)葉結(jié)點(diǎn)(橢圓框)代表一個(gè)類: buys_computers=yes或者buys_computers=no在這個(gè)例子中,樣本向量為:(age,student,credit_rating;buys_computers)被決策數(shù)據(jù)的格式為: (age,student,credit_rating)輸入新的被決策的記錄,可以預(yù)測(cè)該記錄隸屬于哪個(gè)類。64第5章數(shù)據(jù)挖掘中常用算法5.3.1信息論的基本原理1.信息論原理信息論是為解決信息傳遞(通信)過程問題而建立的理論,也稱為統(tǒng)計(jì)通信理論。一個(gè)傳遞信息的系統(tǒng)是由信源、信宿、信道組成。信息論把通信過程看作是在隨機(jī)干擾的環(huán)境中傳遞信息的過程。在這個(gè)通信模型中,信息源和干擾(噪聲)都被理解為某種隨機(jī)過程或隨機(jī)序列。先驗(yàn)不確定性——在進(jìn)行實(shí)際通信以前,信宿對(duì)于信源狀態(tài)具有不確定性。后驗(yàn)不確定性——通信結(jié)束之后,信宿仍然具有一定程度的不確定性?!昂篁?yàn)不確定性=先驗(yàn)不確定性”——信宿根本沒有收到信息?!昂篁?yàn)不確定性=0”——信宿收到了全部信息。

65第5章數(shù)據(jù)挖掘中常用算法2.互信息的計(jì)算(1)定義設(shè)S為訓(xùn)練集,訓(xùn)練集中每個(gè)訓(xùn)練樣本有n個(gè)特征(屬性),表示為(A1,A2…An),|S|表示例子總數(shù);S中有U1、U2兩類,|Ui|表示Ui類例子總數(shù);特征Ak處有m個(gè)取值,分別為(V1,V2…Vm)。(2)概率出現(xiàn)概率:Ui類出現(xiàn)概率

P(Ui)=|Ui|/|S|條件概率:Ui類中在特征Ak處,取值Vj的例子集合Vij的條件概率P(Vj|Ui)=|Vij|/|Ui|子集概率:在特征Ak處,取值Vj的例子集合的概率為P(Vj)=|Vj|/|S|子集條件概率:在特征Ak處取值Vj的例子,屬于Ui類的例子集合Uii的概率為P(Ui|Vj)=|Uij|/|Vj|66第5章數(shù)據(jù)挖掘中常用算法(3)信息熵

信源數(shù)學(xué)模型[U,P]:消息(符號(hào))及其發(fā)生概率。自信息I(Ui):在收到Ui之前,收信者對(duì)信源發(fā)出Ui的不確定性定義為信息符號(hào)Ui的自信息量I(Ui)。它反映消息發(fā)生后所含有的信息量或者消息發(fā)生前的不確定性(隨機(jī)性)。信息熵H(U):信源輸出前的不確定性(平均)。(4)互信息后驗(yàn)熵H(U/Vj)條件熵H(H/V)平均互信息:I(U,V)67第5章數(shù)據(jù)挖掘中常用算法5.3.2ID3算法1.ID3基本思想在一實(shí)體世界中,每個(gè)實(shí)體用多個(gè)特征來(lái)描述。每個(gè)特征限于在一個(gè)離散集中取互斥的值。每個(gè)實(shí)體在世界中屬于不同的類別,為簡(jiǎn)單起見,假定有兩個(gè)類別,分別為P和N。在這兩個(gè)類別的歸納任務(wù)中,P類和N類的實(shí)體分別稱為概念的正例和反例。將一些已知的正例和反例放在一起便得到訓(xùn)練集。例P108:氣候訓(xùn)練集68第5章數(shù)據(jù)挖掘中常用算法2.ID3算法ID3算法是分類規(guī)則挖掘算法中最有影響的算法。ID3即決策樹歸納(InductionofDecisionTree)。早期的ID算法只能就兩類數(shù)據(jù)進(jìn)行挖掘(如正類和反類);經(jīng)過改進(jìn)后,現(xiàn)在ID算法可以挖掘多類數(shù)據(jù)。待挖掘的數(shù)據(jù)必須是不矛盾的、一致的,也就是說(shuō),對(duì)具有相同屬性的數(shù)據(jù),其對(duì)應(yīng)的類必須是唯一的。在ID3算法挖掘后,分類規(guī)則由決策樹來(lái)表示。69第5章數(shù)據(jù)挖掘中常用算法(1)算法的基本思想step1.任意選取一個(gè)屬性作為決策樹的根結(jié)點(diǎn),然后就這個(gè)屬性所有的取值創(chuàng)建

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論