數(shù)據(jù)倉(cāng)庫(kù) 第七章課件_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù) 第七章課件_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù) 第七章課件_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù) 第七章課件_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù) 第七章課件_第5頁(yè)
已閱讀5頁(yè),還剩161頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第七章概念描述7.1概念描述基本知識(shí)7.2數(shù)據(jù)概化與基于匯總的特征化7.3解析特征化—屬性相關(guān)分析7.4挖掘概念比較—區(qū)分不同的類第七章概念描述7.1概念描述基本知識(shí)1第七章概念描述(續(xù))

DB中存放大量細(xì)節(jié)性數(shù)據(jù),而用戶通常希望以簡(jiǎn)潔的描述形式觀察匯總的數(shù)據(jù)集。這種描述可提供某類數(shù)據(jù)的概貌以及與其他數(shù)據(jù)類的區(qū)別。此外,用戶希望方便靈活地以不同的粒度和從不同的角度描述數(shù)據(jù)集。這種描述性數(shù)據(jù)挖掘稱為概念描述,它是數(shù)據(jù)挖掘的一個(gè)重要部分。第七章概念描述(續(xù))DB中存放大27.1概念描述基本知識(shí)概念:通常指數(shù)據(jù)的匯集。概念描述:是描述式數(shù)據(jù)挖掘最基本形式,它以簡(jiǎn)潔匯總的形式描述給定數(shù)據(jù)集,提供數(shù)據(jù)的有趣的一般特性。7.1概念描述基本知識(shí)概念:通常指數(shù)據(jù)的匯集。37.1概念描述基本知識(shí)(續(xù))概念描述的組成:特征化:提供了一個(gè)有關(guān)數(shù)據(jù)整體的簡(jiǎn)潔清晰描述。(定性描述)比較:提供了基于多組不同類數(shù)據(jù)的對(duì)比概念描述。(對(duì)比定性描述)7.1概念描述基本知識(shí)(續(xù))概念描述的組成:47.1概念描述基本知識(shí)(續(xù))

概念描述與數(shù)據(jù)概化密切相關(guān)。給定存放在DB中的大量數(shù)據(jù),能夠以簡(jiǎn)潔的形式在更一般的抽象層描述數(shù)據(jù)是很有用的。允許數(shù)據(jù)集在多個(gè)抽象層概化,便于考察數(shù)據(jù)的一般行為。這種多維,多層數(shù)據(jù)概化類似于DW中的多維數(shù)據(jù)分析。而概念描述類似于DW的OLAP。7.1概念描述基本知識(shí)(續(xù)) 概念描述與數(shù)據(jù)概化密切57.1概念描述基本知識(shí)(續(xù))

大型數(shù)據(jù)庫(kù)的概念描述和數(shù)據(jù)倉(cāng)庫(kù)的OLAP有何差別?概念描述可處理復(fù)雜的數(shù)據(jù)類型和聚集。概念描述是自動(dòng)處理數(shù)據(jù)挖掘過(guò)程。7.1概念描述基本知識(shí)(續(xù)) 大型數(shù)據(jù)庫(kù)的概念描67.1概念描述基本知識(shí)(續(xù))

概念描述的方法包括多層概化、匯總、特征化和比較。這些方法形成實(shí)現(xiàn)數(shù)據(jù)挖掘的兩個(gè)主要功能模塊的基礎(chǔ):多層特征化和比較。7.1概念描述基本知識(shí)(續(xù)) 概念描述的方法包括多7第七章概念描述7.1概念描述基本知識(shí)7.2數(shù)據(jù)概化與基于匯總的特征化7.3解析特征化—屬性相關(guān)分析7.4挖掘概念比較—區(qū)分不同的類第七章概念描述7.1概念描述基本知識(shí)87.2數(shù)據(jù)概化與基于匯總的

特征化

數(shù)據(jù)概化是一個(gè)分析過(guò)程,它將DB中與任務(wù)相關(guān)的大數(shù)據(jù)集從較低的概念層抽象到較高的概念層。對(duì)大量數(shù)據(jù)進(jìn)行有效靈活的概化方法主要有兩種:數(shù)據(jù)立方體方法基于屬性的歸納方法7.2數(shù)據(jù)概化與基于匯總的

特征化 數(shù)據(jù)概化是一個(gè)91.數(shù)據(jù)立方體方法

利用數(shù)據(jù)立方體方法進(jìn)行數(shù)據(jù)概化,被分析的數(shù)據(jù)存放在一個(gè)多維數(shù)據(jù)庫(kù)中,通過(guò)對(duì)多維數(shù)據(jù)立方進(jìn)行上卷或下鉆操作,可完成數(shù)據(jù)概化和數(shù)據(jù)細(xì)化工作。1.數(shù)據(jù)立方體方法 利用數(shù)據(jù)立方體方法進(jìn)行數(shù)據(jù)概化,被101.數(shù)據(jù)立方體方法(續(xù)) 數(shù)據(jù)立方體提供了一種有效的數(shù)據(jù)概化方法,且構(gòu)成了描述性數(shù)據(jù)挖掘中一個(gè)重要功能。但由于OLAP的數(shù)據(jù)立方實(shí)現(xiàn)是將維的類型限制在簡(jiǎn)單非數(shù)值類型,且將處理限制在簡(jiǎn)單數(shù)據(jù)匯總方面,因此數(shù)據(jù)立方體并不能解決概念描述所能解決的一些重要問(wèn)題。如:描述中應(yīng)作用哪些維?概化過(guò)程應(yīng)進(jìn)行到哪個(gè)抽象層次上?這些問(wèn)題均是由用戶負(fù)責(zé)提供答案的。1.數(shù)據(jù)立方體方法(續(xù)) 數(shù)據(jù)立方體提供了一種有效的數(shù)據(jù)112.基于屬性歸納方法基本思想:首先使用RDB查詢收集任務(wù)相關(guān)的數(shù)據(jù);然后通過(guò)考察任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù),進(jìn)行概化。數(shù)據(jù)概化是通過(guò)屬性刪除或?qū)傩愿呕僮鱽?lái)完成。通過(guò)合并相同行并累計(jì)它們相應(yīng)的個(gè)數(shù)。這自然就減少了概化后數(shù)據(jù)集的大小,所獲結(jié)果以圖表、規(guī)則等多種不同形式提供給用戶。2.基于屬性歸納方法基本思想:122.基于屬性歸納方法(續(xù))例1:從一個(gè)大學(xué)數(shù)據(jù)庫(kù)的學(xué)生數(shù)據(jù)中挖掘出研究生的一般特征。給定的屬性有:姓名、性別、專業(yè)、出生地、出生日期、居住地、電話和GPA(平均等級(jí)分)。AOI方法的第一步:

利用DB查詢語(yǔ)言從大學(xué)DB中將學(xué)生數(shù)據(jù)抽取出來(lái),然后指定一組與挖掘任務(wù)相關(guān)的屬性集。2.基于屬性歸納方法(續(xù))例1:從一個(gè)大學(xué)數(shù)據(jù)庫(kù)的學(xué)生數(shù)據(jù)中132.基于屬性歸納方法(續(xù)) 由于數(shù)據(jù)挖掘查詢通常只涉及DB的一部分,選擇相關(guān)的數(shù)據(jù)集不僅使得挖掘更有效,而且與在整個(gè)DB挖掘相比,能產(chǎn)生更有意義的規(guī)則。 對(duì)用戶而言,指定挖掘的屬性可能比較困難。有時(shí),用戶只能選擇少量他感到可能重要的屬性,而遺漏在描述中可能起作用的其他屬性。2.基于屬性歸納方法(續(xù)) 由于數(shù)據(jù)挖掘查詢通常只涉及D142.基于屬性歸納方法(續(xù))如:出生地維由屬性城市、省和國(guó)家定義。在這些屬性中,用戶或許只考慮了城市屬性。為了對(duì)出生地進(jìn)行概化處理,就必須將出生地概化所涉及到的其它屬性包含進(jìn)來(lái)。換句話說(shuō),系統(tǒng)自動(dòng)地包括省和國(guó)家作為相關(guān)屬性,使得城市可以在歸納過(guò)程中概化到較高的概念層。2.基于屬性歸納方法(續(xù))如:出生地維由屬性城市152.基于屬性歸納方法(續(xù)) 另一方面,用戶可能引進(jìn)過(guò)多的屬性,如:指定所有的屬性,這樣大學(xué)DB的所有屬性都將包含在分析中,而有些屬性對(duì)有趣的描述是沒(méi)有用的。2.基于屬性歸納方法(續(xù)) 另一方面,用戶可能引進(jìn)過(guò)多的16姓名性別專業(yè)出生地出生日居住地電話GPA王東海男CS合肥市79.07.26合肥市金寨路6567李哲男CS合肥市80.12.08合肥市蕪湖路18670汪燕女PH上海市80.09.03上海市高安路1250號(hào)021-623819603.83初始工作關(guān)系:任務(wù)相關(guān)數(shù)據(jù)的集合姓名性別專業(yè)出生地出生日居住地電話GPA王東海男CS合肥市7172.基于屬性歸納方法(續(xù))對(duì)已經(jīng)準(zhǔn)備好的數(shù)據(jù),如何進(jìn)行基于屬性歸納?AOI方法的第二步:

進(jìn)行數(shù)據(jù)概化操作,可用兩種方法之一進(jìn)行:屬性刪除,屬性概化。2.基于屬性歸納方法(續(xù))對(duì)已經(jīng)準(zhǔn)備好的數(shù)據(jù),如182.基于屬性歸納方法(續(xù))屬性刪除基于如下規(guī)則:若一個(gè)屬性有許多不同數(shù)值,且(a)該屬性無(wú)法進(jìn)行概化操作(如:沒(méi)有定義相應(yīng)的概念分層),或(b)它的更高層次概念是用其他屬性描述的,則該屬性應(yīng)當(dāng)從數(shù)據(jù)集中刪除。2.基于屬性歸納方法(續(xù))屬性刪除基于如下規(guī)則:192.基于屬性歸納方法(續(xù))屬性概化基于如下規(guī)則:若一個(gè)屬性有許多不同數(shù)值,且該屬性存在一組概化操作,則可以選擇一個(gè)概化操作對(duì)該屬性進(jìn)行處理。

屬性刪除和屬性概化兩個(gè)規(guī)則都表明,如果某屬性有大量的不同值,應(yīng)當(dāng)進(jìn)行進(jìn)一步概化。這就提出一個(gè)問(wèn)題:多大才算“屬性具有大量不同值”?2.基于屬性歸納方法(續(xù))屬性概化基于如下規(guī)則:202.基于屬性歸納方法(續(xù)) 這取決于屬性或應(yīng)用,有的用戶愿意讓屬性留在較低的抽象層,而另一些用戶愿意將它們概化到較高的抽象層??刂茖傩愿呕蕉喔叩某橄髮油ǔJ窍喈?dāng)主觀的。該過(guò)程的控制稱為屬性概化控制。2.基于屬性歸納方法(續(xù)) 這取決于屬性或應(yīng)用,有的用戶212.基于屬性歸納方法(續(xù))若屬性概化得“太高”,則導(dǎo)致過(guò)分概化,產(chǎn)生的規(guī)則可能沒(méi)有多少信息。若屬性概化沒(méi)有達(dá)到“足夠高的層次”,則“亞概化”也同樣可能使得到的規(guī)則變得失去意義。因此在基于屬性歸納時(shí),掌握概化平衡非常重要。2.基于屬性歸納方法(續(xù))若屬性概化得“太高”,222.基于屬性歸納方法(續(xù)) 有許多控制概化過(guò)程的方法,下面是兩種常用的方法:(1)屬性概化閾值控制 該技術(shù)是對(duì)所有屬性統(tǒng)一設(shè)置一個(gè)概化閾值(取值范圍一般為2到8)。如果屬性的不同值個(gè)數(shù)大于屬性概化閾值,則應(yīng)當(dāng)進(jìn)行進(jìn)一步的屬性刪除或?qū)傩愿呕?.基于屬性歸納方法(續(xù)) 有許多控制概化過(guò)程的方法,下232.基于屬性歸納方法(續(xù))(2)概化關(guān)系閾值控制 為概化關(guān)系設(shè)置一個(gè)閾值(通常取值范圍為10到30)。如果概化關(guān)系中不同元組的個(gè)數(shù)超過(guò)該閾值,則應(yīng)當(dāng)進(jìn)一步概化;否則,不再進(jìn)一步概化。2.基于屬性歸納方法(續(xù))(2)概化關(guān)系閾值控制242.基于屬性歸納方法(續(xù))

這兩種技術(shù)可以順序使用:首先使用屬性概化閾值控制技術(shù)概化每個(gè)屬性,然后使用概化關(guān)系閾值控制進(jìn)一步減少概化關(guān)系的(規(guī)模)大小。無(wú)論使用哪種概化控制技術(shù),都應(yīng)當(dāng)允許用戶調(diào)整概化閾值,以便得到有趣的規(guī)則。2.基于屬性歸納方法(續(xù)) 這兩種技術(shù)可以順序使用:首252.基于屬性歸納方法(續(xù))例1(續(xù)):對(duì)前面得到的初始工作關(guān)系的每個(gè)屬性,概化過(guò)程如下:1)姓名:由于姓名存在大量不同值,并且其上沒(méi)有定義概念分層,該屬性被刪除。2)性別:由于性別只有兩個(gè)不同值,該屬性保留,并不對(duì)其進(jìn)行概化。2.基于屬性歸納方法(續(xù))例1(續(xù)):對(duì)前面得到的初始工作關(guān)262.基于屬性歸納方法(續(xù))3)專業(yè):假設(shè)定義了一個(gè)概念分層,從而可以對(duì)專業(yè)屬性進(jìn)行概化。又假設(shè)屬性概化閾值置為5,在初始數(shù)據(jù)集合中有25個(gè)不同取值。則通過(guò)對(duì)屬性概化和屬性概化控制,專業(yè)屬性被概化到指定的概念(如:科學(xué),工程,商學(xué))。2.基于屬性歸納方法(續(xù))3)專業(yè):假設(shè)定義了一個(gè)概念分層272.基于屬性歸納方法(續(xù))4)出生地:該屬性有大量不同值,因此應(yīng)當(dāng)概化它。設(shè)出生地的概念分層為:城市<省<國(guó)家。如果初始關(guān)系中,國(guó)家取值超過(guò)了屬性概化閾值,則出生地應(yīng)當(dāng)刪除,因?yàn)楸M管可以進(jìn)行概化操作,概化閾值也不會(huì)滿足。但如果假定國(guó)家的取值個(gè)數(shù)小于概化閾值,則出生地應(yīng)當(dāng)概化到出生國(guó)家。2.基于屬性歸納方法(續(xù))4)出生地:該屬性有大量不同值,282.基于屬性歸納方法(續(xù))5)出生日期:假定存在概念分層,可以將出生日期概化到年齡,而年齡概化到年齡分類,并且年齡分類的區(qū)間數(shù)小于對(duì)應(yīng)的屬性概化閾值,則應(yīng)當(dāng)對(duì)出生日期進(jìn)行概化。2.基于屬性歸納方法(續(xù))5)出生日期:假定存在概念分層,292.基于屬性歸納方法(續(xù))6)居住地:假定居住地被屬性號(hào)碼,街道,城市,省,國(guó)家定義。號(hào)碼和街道的不同值一般很多,而且這些概念的層次相當(dāng)?shù)?。因此,?hào)碼和街道應(yīng)當(dāng)刪除,將居住地概化到居住城市。這樣可包含較少的不同值。2.基于屬性歸納方法(續(xù))6)居住地:假定居住地被屬性號(hào)碼302.基于屬性歸納方法(續(xù))7)電話:與屬性姓名一樣,因包含太多不同值,應(yīng)當(dāng)在概化中刪除。8)GPA:假定存在GPA的概念分層,將平均成績(jī)分成若干區(qū)間,如:{3.75-4.0,3.5-3.75,…},也可相應(yīng)的描述為:{優(yōu)秀,良好,…},因此該屬性可以被概化。2.基于屬性歸納方法(續(xù))7)電話:與屬性姓名一樣,因包含太312.基于屬性歸納方法(續(xù)) 概化過(guò)程會(huì)產(chǎn)生一系列內(nèi)容相同的數(shù)據(jù)行,相同內(nèi)容的數(shù)據(jù)行被合并成一個(gè),并累計(jì)它們的計(jì)數(shù)值。最終結(jié)果如下表:2.基于屬性歸納方法(續(xù)) 概化過(guò)程會(huì)產(chǎn)生一系列內(nèi)容相同32性別專業(yè)出生國(guó)年齡區(qū)間出生城市GPA累計(jì)男科學(xué)中國(guó)20—25合肥良好16女工程中國(guó)25—30上海優(yōu)秀22對(duì)初始關(guān)系的數(shù)據(jù)進(jìn)行基于屬性歸納得到的廣義關(guān)系:性別專業(yè)出生國(guó)年齡區(qū)間出生城市GPA累計(jì)男科學(xué)中國(guó)20—25333.基于屬性歸納算法算法:基于屬性的歸納輸入:(1)關(guān)系DB;(2)數(shù)據(jù)挖掘命令DMQuery;(3)屬性表a_list;(4)屬性ai上的概念分層或概化操作符的集合Gen(a);(5)每個(gè)屬性ai概化閾值a_gen_thresh(a)3.基于屬性歸納算法算法:基于屬性的歸納343.基于屬性歸納算法(續(xù))輸出:主概化關(guān)系P(包含基于a_list屬性集的一個(gè)定性概念描述)

方法:(1)W←get_task_relevant_data(DMQuery,DB);//工作關(guān)系W存放任務(wù)相關(guān)的數(shù)據(jù)(2)prepare_for_generalization(W)//該步實(shí)現(xiàn)如下:3.基于屬性歸納算法(續(xù))輸出:主概化關(guān)系P(包含基于a_353.基于屬性歸納算法(續(xù))(a)掃描W,收集每個(gè)ai屬性取不同值的個(gè)數(shù)。(b)對(duì)每個(gè)屬性ai,根據(jù)給定的或缺省的屬性閾值,確定ai是否應(yīng)當(dāng)刪除;如果不刪除,則計(jì)算它的最小期望層次Li,并確定映射對(duì)(v,v’),基中v是W中ai的不同值,v’是其在層Li對(duì)應(yīng)的概化值。3.基于屬性歸納算法(續(xù))(a)掃描W,收集每個(gè)ai屬性取不363.基于屬性歸納算法(續(xù))(3)P←generalization(W) 通過(guò)用其在映射中對(duì)應(yīng)的v’替換W中每個(gè)值v,累計(jì)計(jì)數(shù)并計(jì)算所有聚集值,導(dǎo)出主概化關(guān)系P。 這一步可用下面兩種方法有效實(shí)現(xiàn):(a)對(duì)每個(gè)概化元組,通過(guò)二分檢索將它插入主關(guān)系P中。如果元組已在P中,則簡(jiǎn)單地增加它的計(jì)數(shù)值并相應(yīng)處理其他聚集值;否則,將它插入P。3.基于屬性歸納算法(續(xù))(3)P←generalizati373.基于屬性歸納算法(續(xù))(b)在大部分情況下,由于主關(guān)系層不同值的個(gè)數(shù)很少,可以將主關(guān)系編碼,作為m_維數(shù)組,其中m是P中的屬性數(shù),而每個(gè)維包含對(duì)應(yīng)的概化屬性值。數(shù)組的每個(gè)元素存放對(duì)應(yīng)的計(jì)數(shù)和其他聚集值。概化元組的插入通過(guò)對(duì)應(yīng)的數(shù)組元素上的度量聚集進(jìn)行。3.基于屬性歸納算法(續(xù))(b)在大部分情況下,由于主關(guān)系層384.基于屬性歸納結(jié)果的表示基于屬性歸納方法的挖掘結(jié)果可以有多種輸出表示形式。4.基于屬性歸納結(jié)果的表示基于屬性歸納方法的挖39地點(diǎn)商品銷售額(百萬(wàn))個(gè)數(shù)累計(jì)(千)亞洲電視15300歐洲電視12250北美電視28450亞洲電腦1201000歐洲電腦1501200北美電腦2001800表格表示描述地點(diǎn)商品銷售額個(gè)數(shù)累計(jì)(千)亞洲電視15300歐洲電視12240地點(diǎn)或商品電視電腦電視+電腦銷售額累計(jì)銷售額累計(jì)銷售額累計(jì)亞洲1530012010001351300歐洲1225015012001621450北美2845020018002282250所有地區(qū)45100047040005255000組合表表示描述地點(diǎn)電視電腦電視+電腦銷售額累計(jì)銷售額累計(jì)銷售額累計(jì)亞洲1541棒圖表示描述棒圖表示描述42第七章概念描述7.1概念描述基本知識(shí)7.2數(shù)據(jù)概化與基于匯總的特征化7.3解析特征化—屬性相關(guān)分析7.4挖掘概念比較—區(qū)分不同的類第七章概念描述7.1概念描述基本知識(shí)437.3解析特征化—屬性相關(guān)分析1.屬性相關(guān)分析意義 在挖掘定性概念描述知識(shí)過(guò)程中,DW和OLAP工具中的多維數(shù)據(jù)分析有兩個(gè)局限:一是無(wú)法處理復(fù)雜對(duì)象,二是缺乏自動(dòng)概化過(guò)程。7.3解析特征化—屬性相關(guān)分析1.屬性相關(guān)分析意義441.屬性相關(guān)分析意義(續(xù)) 通常,用戶告訴數(shù)據(jù)挖掘系統(tǒng)每個(gè)維應(yīng)當(dāng)概化到多高層次并不困難,但確定數(shù)據(jù)集的定性描述應(yīng)包含哪些屬性是一件困難的事。我們引進(jìn)一些方法進(jìn)行屬性(或維)相關(guān)分析,以過(guò)濾掉統(tǒng)計(jì)上不相關(guān)或弱相關(guān)的屬性,而保留與挖掘任務(wù)最相關(guān)的屬性。1.屬性相關(guān)分析意義(續(xù)) 通常,用戶告訴數(shù)據(jù)挖掘系451.屬性相關(guān)分析意義(續(xù))包含屬性(維)相關(guān)分析的類特征化稱為解析特征化;包含屬性(維)相關(guān)分析的類比較稱為解析比較。 直觀上,若一個(gè)屬性的取值可以幫助有效地區(qū)分不同類別的數(shù)據(jù)集,則這個(gè)屬性就被認(rèn)為是與相應(yīng)類別數(shù)據(jù)集密切相關(guān)的。1.屬性相關(guān)分析意義(續(xù))包含屬性(維)相關(guān)分析的類特征化461.屬性相關(guān)分析意義(續(xù))例:一輛汽車的顏色不太可能用于區(qū)分貴賤汽車(類別),但汽車的型號(hào)、品牌、制造商、款式和氣缸數(shù)可能是更相關(guān)的屬性。此外,即使在同一個(gè)維內(nèi),對(duì)于區(qū)分一個(gè)類與其他類,在不同的概念層也可能有很不相同的能力。1.屬性相關(guān)分析意義(續(xù))例:一輛汽車的顏色不太可能用于區(qū)分471.屬性相關(guān)分析意義(續(xù))例:在出生日維中,生日和生月都不太可能與雇員的工資相關(guān);而只有年齡區(qū)間可能與雇員的工資高度相關(guān)。這意味著相關(guān)分析應(yīng)當(dāng)在多層次進(jìn)行,并且只有那些最相關(guān)的維層次應(yīng)當(dāng)包含在分析中。1.屬性相關(guān)分析意義(續(xù))例:在出生日維中,生日和生月都不太481.屬性相關(guān)分析意義(續(xù))屬性的相關(guān)性要根據(jù)屬性區(qū)分一個(gè)類與其他類的能力來(lái)評(píng)估。在挖掘概念比較時(shí),目標(biāo)類和對(duì)比類要明顯地在挖掘查詢中給出。前面在挖掘概念特征時(shí),只有一個(gè)被特征化的類,即沒(méi)有說(shuō)明對(duì)比類。哪些對(duì)比類應(yīng)當(dāng)用于相關(guān)分析并非是明顯的。在這種情況下,除特征化的數(shù)據(jù)集外,DB中可比較的數(shù)據(jù)集都作為對(duì)比類。1.屬性相關(guān)分析意義(續(xù))屬性的相關(guān)492.屬性相關(guān)分析方法

屬性相關(guān)分析的基本思想:計(jì)算某種度量,用于量化屬性與給定類或概念的相關(guān)性。這些度量包括:信息增益,Gini索引,不確定性和相關(guān)系數(shù)。

2.屬性相關(guān)分析方法屬性相關(guān)分析的基本思想:502.屬性相關(guān)分析方法(續(xù))下面介紹一種方法,它將信息增益分析技術(shù)和基于多維數(shù)據(jù)分析的方法集成在一起。該方法刪除信息量較少的屬性,收集信息較多的屬性,用于概念描述分析。這里以ID3決策樹(shù)歸納學(xué)習(xí)方法為例進(jìn)行介紹。2.屬性相關(guān)分析方法(續(xù))下面介紹一種512.屬性相關(guān)分析方法(續(xù))

設(shè)S是訓(xùn)練樣本的集合,其中每個(gè)樣本的類標(biāo)號(hào)已知,共有m個(gè)不同類別,則S包含si個(gè)Ci類樣本,i=1,…,m。任意一個(gè)樣本屬于類Ci的概率為si/s,其中s是集合S所有樣本總數(shù)。一個(gè)決策樹(shù)可用于對(duì)數(shù)據(jù)對(duì)象進(jìn)行分類,因此決策樹(shù)可以看成是Ci的一個(gè)信息源,為產(chǎn)生相應(yīng)信息需要的信息熵為:2.屬性相關(guān)分析方法(續(xù))設(shè)S是522.屬性相關(guān)分析方法(續(xù))(7.1)若屬性A的取值為{a1,a2,…,av},且該屬性用作決策樹(shù)的一個(gè)結(jié)點(diǎn)時(shí),可將S劃分為子集{S1,S2,…,Sv}。其中Sj

包含屬性A取同一值aj的數(shù)據(jù)行;Sj包含類Ci的sij個(gè)樣本。2.屬性相關(guān)分析方法(續(xù))532.屬性相關(guān)分析方法(續(xù))根據(jù)屬性A的取值對(duì)當(dāng)前數(shù)據(jù)集劃分所獲得的信息就稱為屬性A的熵。它的計(jì)算公式如下:

(7.2)

A上該劃分得到的信息增益定義為:

Gain(A)=I(s1,s2,…,sm)-E(A)(7.3)2.屬性相關(guān)分析方法(續(xù))根據(jù)屬性A的取值對(duì)當(dāng)前數(shù)據(jù)集劃542.屬性相關(guān)分析方法(續(xù))

ID3方法根據(jù)S集合中數(shù)據(jù)對(duì)象來(lái)計(jì)算每個(gè)屬性Gain(A)值,并從中選擇出值最大的作為決策樹(shù)根結(jié)點(diǎn),并根據(jù)該屬性的取值個(gè)數(shù)將初始數(shù)據(jù)集劃分為v份,即通過(guò)不斷對(duì)每個(gè)新產(chǎn)生的數(shù)據(jù)子集循環(huán)進(jìn)行上述操作,直到產(chǎn)生所有葉結(jié)點(diǎn)為止,至此就獲得一個(gè)決策樹(shù)。2.屬性相關(guān)分析方法(續(xù)) ID3方法根據(jù)S552.屬性相關(guān)分析方法(續(xù))

概念描述的屬性相關(guān)分析,執(zhí)行步驟如下:(1)數(shù)據(jù)收集:通過(guò)查詢處理,收集目標(biāo)類和對(duì)比類的數(shù)據(jù)。(2)使用保守的AOI進(jìn)行預(yù)相關(guān)分析:這里進(jìn)行的AOI使用的屬性分析閾值要合理的大,使得更多的屬性在選定度量的進(jìn)一步相關(guān)分析中被考慮。使用保守AOI得到的關(guān)系稱作候選關(guān)系。2.屬性相關(guān)分析方法(續(xù))概念描述的屬562.屬性相關(guān)分析方法(續(xù))(3)使用選定的相關(guān)分析度量刪除不相關(guān)和弱相關(guān)屬性:使用選定的相關(guān)分析度量,評(píng)估候選關(guān)系中的每個(gè)屬性。根據(jù)計(jì)算的屬性與數(shù)據(jù)挖掘任務(wù)的相關(guān)性,對(duì)屬性排序,然后刪除不相關(guān)和弱相關(guān)屬性。其結(jié)果為初始目標(biāo)類(對(duì)比類)工作關(guān)系。(4)使用AOI產(chǎn)生概念描述:使用一組不太保守的屬性概化閾值進(jìn)行AOI。2.屬性相關(guān)分析方法(續(xù))(3)使用選定的相關(guān)分析度量刪除不573.解析特征化實(shí)例例2:使用解析特征化挖掘大學(xué)數(shù)據(jù)庫(kù)里研究生的一般特征描述。執(zhí)行步驟為:(1)收集目標(biāo)類數(shù)據(jù),它由研究生的集合組成。對(duì)比類取本科生的集合。(2)用保守的屬性概化閾值進(jìn)行基于屬性的歸納,通過(guò)屬性刪除和屬性概化進(jìn)行預(yù)相關(guān)分析(分析過(guò)程如例1)。得到下面兩張表:3.解析特征化實(shí)例例2:使用解析特征化挖掘大學(xué)數(shù)據(jù)庫(kù)里研究58性別專業(yè)出生國(guó)年齡區(qū)間GPA累計(jì)計(jì)數(shù)男科學(xué)中國(guó)21—25良16女科學(xué)外國(guó)26—30優(yōu)22男工程外國(guó)26—30優(yōu)18女科學(xué)外國(guó)26—30優(yōu)25男科學(xué)中國(guó)21—25優(yōu)21女工程中國(guó)21—25優(yōu)18由解析特征化得到的候選關(guān)系:目標(biāo)類(研究生)性別專業(yè)出生國(guó)年齡區(qū)間GPA累計(jì)計(jì)數(shù)男科學(xué)中國(guó)21—25良159由解析特征化得到的候選關(guān)系:對(duì)比類(本科生)性別專業(yè)出生國(guó)年齡區(qū)間GPA累計(jì)計(jì)數(shù)男科學(xué)外國(guó)<=20良18女商學(xué)中國(guó)<=20及格20男商學(xué)中國(guó)<=20及格22女科學(xué)中國(guó)21—25及格24男工程外國(guó)21—25良22女工程中國(guó)<=20優(yōu)24由解析特征化得到的候選關(guān)系:性別專業(yè)出生國(guó)年齡區(qū)間GPA累計(jì)603.解析特征化實(shí)例(續(xù))(3)使用選定的相關(guān)分析度量(如信息增益),評(píng)估候選關(guān)系中的屬性。設(shè):C1對(duì)應(yīng)于研究生類,有120個(gè)樣本;C2對(duì)應(yīng)于本科生類,有130個(gè)樣本。為計(jì)算每個(gè)屬性的信息增益,首先用公式(7.1)計(jì)算對(duì)給定的樣本分類所需要的期望信息:3.解析特征化實(shí)例(續(xù))(3)使用選定的相關(guān)分析度量(如信613.解析特征化實(shí)例(續(xù))3.解析特征化實(shí)例(續(xù))623.解析特征化實(shí)例(續(xù))下面計(jì)算每個(gè)屬性的信息熵,以專業(yè)為例:專業(yè)=“科學(xué)”:

S11=84S21=42I(S11,S21)=0.9183專業(yè)=“工程”:

S12=36S22=46I(S12,S22)=0.9892專業(yè)=“商學(xué)”:

S13=0S23=42I(S13,S23)=03.解析特征化實(shí)例(續(xù))下面計(jì)算每個(gè)633.解析特征化實(shí)例(續(xù))

再利用公式(7.2),如果樣本根據(jù)專業(yè)劃分,則對(duì)給定的樣本進(jìn)行分類所需的期望信息為:3.解析特征化實(shí)例(續(xù))再利用公643.解析特征化實(shí)例(續(xù))從而得到,由這樣的劃分的信息增益為:Gain(專業(yè))=I(s1,s2)-E(專業(yè))=0.2115

類似地,也可計(jì)算獲得其他屬性的信息增益,它們排序后結(jié)果為:

性別(0.0003),出生國(guó)(0.0407),專業(yè)(0.2115),GPA(0.4490),年齡區(qū)間(0.5971)3.解析特征化實(shí)例(續(xù))從而得到,由653.解析特征化實(shí)例(續(xù))若設(shè)定屬性相關(guān)閾值為0.1,以此來(lái)判斷弱相關(guān)屬性。屬性性別(0.0003)和出生國(guó)(0.0407)

的信息增益小于該閾值,因此被認(rèn)為是弱相關(guān)的,它們同時(shí)從目標(biāo)類和對(duì)比類中被刪除。由此產(chǎn)生初始目標(biāo)類工作關(guān)系。(4)最后利用前述算法對(duì)初始目標(biāo)類工作關(guān)系進(jìn)行基于屬性的歸納,并獲得研究生目標(biāo)類的概念描述。3.解析特征化實(shí)例(續(xù))若設(shè)定屬性66第七章概念描述7.1概念描述基本知識(shí)7.2數(shù)據(jù)概化與基于匯總的特征化7.3解析特征化—屬性相關(guān)分析7.4挖掘概念比較—區(qū)分不同的類第七章概念描述7.1概念描述基本知識(shí)677.4挖掘概念比較—區(qū)分

不同的類 在許多應(yīng)用中,類(或概念)比較是我們感興趣的,它挖掘?qū)⒛繕?biāo)類與對(duì)比類相區(qū)分的描述。但目標(biāo)類和對(duì)比類必須是可比較的,即它們具有相似的維或?qū)傩浴? 在前面討論中,對(duì)處理單個(gè)類中的多層數(shù)據(jù)匯總和特征化所用的技術(shù),同樣可用于處理多個(gè)可比較類的類比較。7.4挖掘概念比較—區(qū)分

不同的類 在許多應(yīng)用中,681.概念比較方法與實(shí)現(xiàn)概念比較的一般過(guò)程如下:(1)數(shù)據(jù)收集(2)屬性相關(guān)分析(3)同步概化(4)挖掘結(jié)果表示1.概念比較方法與實(shí)現(xiàn)概念比較的一般過(guò)程如下:691.概念比較方法與實(shí)現(xiàn)(續(xù))例3:在大學(xué)數(shù)據(jù)庫(kù)中挖掘研究生與本科生概念對(duì)比描述知識(shí)。給定了屬性:姓名,性別,專業(yè),出生地,出生日,居住地,電話和GPA。(1)根據(jù)挖掘任務(wù),產(chǎn)生兩條DB查詢命令,分別用于從DB中獲取初始目標(biāo)數(shù)據(jù)集(研究生)和初始對(duì)比數(shù)據(jù)集(本科生)。1.概念比較方法與實(shí)現(xiàn)(續(xù))例3:在大學(xué)數(shù)據(jù)庫(kù)中挖掘研究生與701.概念比較方法與實(shí)現(xiàn)(續(xù))(2)對(duì)兩個(gè)不同類別數(shù)據(jù)集進(jìn)行屬性相關(guān)分析,消除無(wú)關(guān)和弱屬性。如姓名,性別,出生地,居住地和電話,只留下與挖掘任務(wù)密切相關(guān)的屬性供后面的分析使用。(3)進(jìn)行同步概化:在目標(biāo)數(shù)據(jù)集和對(duì)比數(shù)據(jù)集上進(jìn)行,概化到用戶指定的閾值控制的層,得到下面兩張表: 1.概念比較方法與實(shí)現(xiàn)(續(xù))(2)對(duì)兩個(gè)不同類別數(shù)據(jù)集進(jìn)行屬71專業(yè)年齡區(qū)間GPA累計(jì)數(shù)%科學(xué)21—25良5.53%科學(xué)26—30良5.02%科學(xué)>30優(yōu)5.86%…………商學(xué)>30優(yōu)4.68%目標(biāo)類的主概化關(guān)系(研究生)專業(yè)年齡區(qū)間GPA累計(jì)數(shù)%科學(xué)21—25良5.53%科學(xué)272對(duì)比類主概化關(guān)系(本科生)專業(yè)年齡區(qū)間GPA累計(jì)數(shù)%科學(xué)16—20及格5.53%科學(xué)16—20良4.53%科學(xué)26—30良2.32%…………商學(xué)>30優(yōu)0.68%對(duì)比類主概化關(guān)系(本科生)專業(yè)年齡區(qū)間GPA累計(jì)數(shù)%科學(xué)16731.概念比較方法與實(shí)現(xiàn)(續(xù))由表可看出,與本科生相比,研究生一般趨向于年齡稍大,GPA較高。(4)最后,結(jié)果概念對(duì)比描述以表、圖或規(guī)則的形式表示。這種可視化表示包括對(duì)比度量(如累計(jì)數(shù)%),以突出目標(biāo)類和比較類之間存在的差異。例如,5.02%的研究生選擇“科學(xué)”專業(yè),年齡在26—30之間,GPA為良,而只有2.32%的本科生具有這種性質(zhì)。1.概念比較方法與實(shí)現(xiàn)(續(xù))由表可看出,與本科生742.概念比較描述的表示

概念比較描述的可視化,可以采用概化關(guān)系、交叉表、條型圖、餅圖、曲線和規(guī)則。除邏輯規(guī)則外,其他形式與概念特征化所用形式相同。這里討論用規(guī)則的形式顯示概念比較。2.概念比較描述的表示 概念比較描述的可視化,可以采752.概念比較描述的表示(續(xù))比較描述中的目標(biāo)類和對(duì)比類的區(qū)分特性,可以用量化區(qū)分規(guī)則量化地描述。量化區(qū)分規(guī)則對(duì)描述中每個(gè)概化元組附上一個(gè)統(tǒng)計(jì)興趣度度量d-權(quán)。設(shè)qa是一個(gè)概化元組,Cj是目標(biāo)類。其中,qa覆蓋目標(biāo)類的某些元組。注意,qa也可能覆蓋對(duì)比類的某些元組,因?yàn)槲覀兲幚淼氖潜容^描述。2.概念比較描述的表示(續(xù))比較描762.概念比較描述的表示(續(xù))

qa的d-權(quán)是初始目標(biāo)類工作關(guān)系中被qa覆蓋的元組數(shù)與初始目標(biāo)類和對(duì)比類工作關(guān)系中被qa覆蓋的總元組數(shù)的比。形式上,qa關(guān)于Cj的d-權(quán)定義為:2.概念比較描述的表示(續(xù))qa的d-權(quán)是初始772.概念比較描述的表示(續(xù))

其中,m是目標(biāo)類和對(duì)比類的總數(shù),Cj在{C1,…,Cm}中,而count(qa∈Cj)是類Cj中被qa覆蓋的元組數(shù)。d-權(quán)的取值范圍在[0,1](或[0%,100%])區(qū)間內(nèi)。高d-權(quán)的目標(biāo)類表明被概化元組代表的概念主要從目標(biāo)類導(dǎo)出;而低d-權(quán)表明概念主要從對(duì)比類導(dǎo)出。2.概念比較描述的表示(續(xù))其中782.概念比較描述的表示(續(xù))例4:在例3中假定對(duì)概化元組計(jì)數(shù),由前面兩張表得到概化元組:專業(yè)=“科學(xué)”,年齡區(qū)間=“21-25”,GPA=“良”的計(jì)數(shù)分布,如表所示:學(xué)生類專業(yè)年齡區(qū)間GPA計(jì)數(shù)研究生科學(xué)21—25良90本科生科學(xué)21—25良210概化元組研究生和本科生的計(jì)數(shù)分布2.概念比較描述的表示(續(xù))例4:在例3中假定對(duì)概化元組計(jì)792.概念比較描述的表示(續(xù))給定概化元組的d-權(quán)關(guān)于目標(biāo)類是90/(90+210)=30%,關(guān)于對(duì)比類是210/(90+210)=70%。即是:如果一個(gè)學(xué)生專業(yè)是科學(xué),年齡在21和25之間,GPA為良,則根據(jù)給定的數(shù)據(jù),他是研究生的概率為30%,是本科生的概率為70%。類似的,也可以導(dǎo)出其他概化元組的d-權(quán)。2.概念比較描述的表示(續(xù))給定概化802.概念比較描述的表示(續(xù))

一個(gè)確定目標(biāo)類的比較描述的量化區(qū)分規(guī)則記作:

X,target_class(X)condition(X)[d:d_weight]2.概念比較描述的表示(續(xù))一個(gè)確定812.概念比較描述的表示(續(xù))例5:根據(jù)前表中的概化元組和計(jì)數(shù)分布,一個(gè)對(duì)研究生的量化區(qū)分規(guī)則可表示如下:X,學(xué)生類(X)=“研究生”專業(yè)(X)=“科學(xué)”∧年齡區(qū)間(X)=“21-25”∧GPA(X)=“良”[d:30%]2.概念比較描述的表示(續(xù))例5:根據(jù)前表中的概化元組和計(jì)822.概念比較描述的表示(續(xù))注:一個(gè)對(duì)比規(guī)則提供了一個(gè)充分條件,但它不是一個(gè)必要條件。例如上面的規(guī)則蘊(yùn)含:若X滿足條件,則X是研究生的概率為30%;但決不表示研究生有30%可能滿足這一條件。2.概念比較描述的表示(續(xù))注:一個(gè)對(duì)比規(guī)則提供了一個(gè)充分83第七章概念描述7.1概念描述基本知識(shí)7.2數(shù)據(jù)概化與基于匯總的特征化7.3解析特征化—屬性相關(guān)分析7.4挖掘概念比較—區(qū)分不同的類第七章概念描述7.1概念描述基本知識(shí)84第七章概念描述(續(xù))

DB中存放大量細(xì)節(jié)性數(shù)據(jù),而用戶通常希望以簡(jiǎn)潔的描述形式觀察匯總的數(shù)據(jù)集。這種描述可提供某類數(shù)據(jù)的概貌以及與其他數(shù)據(jù)類的區(qū)別。此外,用戶希望方便靈活地以不同的粒度和從不同的角度描述數(shù)據(jù)集。這種描述性數(shù)據(jù)挖掘稱為概念描述,它是數(shù)據(jù)挖掘的一個(gè)重要部分。第七章概念描述(續(xù))DB中存放大857.1概念描述基本知識(shí)概念:通常指數(shù)據(jù)的匯集。概念描述:是描述式數(shù)據(jù)挖掘最基本形式,它以簡(jiǎn)潔匯總的形式描述給定數(shù)據(jù)集,提供數(shù)據(jù)的有趣的一般特性。7.1概念描述基本知識(shí)概念:通常指數(shù)據(jù)的匯集。867.1概念描述基本知識(shí)(續(xù))概念描述的組成:特征化:提供了一個(gè)有關(guān)數(shù)據(jù)整體的簡(jiǎn)潔清晰描述。(定性描述)比較:提供了基于多組不同類數(shù)據(jù)的對(duì)比概念描述。(對(duì)比定性描述)7.1概念描述基本知識(shí)(續(xù))概念描述的組成:877.1概念描述基本知識(shí)(續(xù))

概念描述與數(shù)據(jù)概化密切相關(guān)。給定存放在DB中的大量數(shù)據(jù),能夠以簡(jiǎn)潔的形式在更一般的抽象層描述數(shù)據(jù)是很有用的。允許數(shù)據(jù)集在多個(gè)抽象層概化,便于考察數(shù)據(jù)的一般行為。這種多維,多層數(shù)據(jù)概化類似于DW中的多維數(shù)據(jù)分析。而概念描述類似于DW的OLAP。7.1概念描述基本知識(shí)(續(xù)) 概念描述與數(shù)據(jù)概化密切887.1概念描述基本知識(shí)(續(xù))

大型數(shù)據(jù)庫(kù)的概念描述和數(shù)據(jù)倉(cāng)庫(kù)的OLAP有何差別?概念描述可處理復(fù)雜的數(shù)據(jù)類型和聚集。概念描述是自動(dòng)處理數(shù)據(jù)挖掘過(guò)程。7.1概念描述基本知識(shí)(續(xù)) 大型數(shù)據(jù)庫(kù)的概念描897.1概念描述基本知識(shí)(續(xù))

概念描述的方法包括多層概化、匯總、特征化和比較。這些方法形成實(shí)現(xiàn)數(shù)據(jù)挖掘的兩個(gè)主要功能模塊的基礎(chǔ):多層特征化和比較。7.1概念描述基本知識(shí)(續(xù)) 概念描述的方法包括多90第七章概念描述7.1概念描述基本知識(shí)7.2數(shù)據(jù)概化與基于匯總的特征化7.3解析特征化—屬性相關(guān)分析7.4挖掘概念比較—區(qū)分不同的類第七章概念描述7.1概念描述基本知識(shí)917.2數(shù)據(jù)概化與基于匯總的

特征化

數(shù)據(jù)概化是一個(gè)分析過(guò)程,它將DB中與任務(wù)相關(guān)的大數(shù)據(jù)集從較低的概念層抽象到較高的概念層。對(duì)大量數(shù)據(jù)進(jìn)行有效靈活的概化方法主要有兩種:數(shù)據(jù)立方體方法基于屬性的歸納方法7.2數(shù)據(jù)概化與基于匯總的

特征化 數(shù)據(jù)概化是一個(gè)921.數(shù)據(jù)立方體方法

利用數(shù)據(jù)立方體方法進(jìn)行數(shù)據(jù)概化,被分析的數(shù)據(jù)存放在一個(gè)多維數(shù)據(jù)庫(kù)中,通過(guò)對(duì)多維數(shù)據(jù)立方進(jìn)行上卷或下鉆操作,可完成數(shù)據(jù)概化和數(shù)據(jù)細(xì)化工作。1.數(shù)據(jù)立方體方法 利用數(shù)據(jù)立方體方法進(jìn)行數(shù)據(jù)概化,被931.數(shù)據(jù)立方體方法(續(xù)) 數(shù)據(jù)立方體提供了一種有效的數(shù)據(jù)概化方法,且構(gòu)成了描述性數(shù)據(jù)挖掘中一個(gè)重要功能。但由于OLAP的數(shù)據(jù)立方實(shí)現(xiàn)是將維的類型限制在簡(jiǎn)單非數(shù)值類型,且將處理限制在簡(jiǎn)單數(shù)據(jù)匯總方面,因此數(shù)據(jù)立方體并不能解決概念描述所能解決的一些重要問(wèn)題。如:描述中應(yīng)作用哪些維?概化過(guò)程應(yīng)進(jìn)行到哪個(gè)抽象層次上?這些問(wèn)題均是由用戶負(fù)責(zé)提供答案的。1.數(shù)據(jù)立方體方法(續(xù)) 數(shù)據(jù)立方體提供了一種有效的數(shù)據(jù)942.基于屬性歸納方法基本思想:首先使用RDB查詢收集任務(wù)相關(guān)的數(shù)據(jù);然后通過(guò)考察任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù),進(jìn)行概化。數(shù)據(jù)概化是通過(guò)屬性刪除或?qū)傩愿呕僮鱽?lái)完成。通過(guò)合并相同行并累計(jì)它們相應(yīng)的個(gè)數(shù)。這自然就減少了概化后數(shù)據(jù)集的大小,所獲結(jié)果以圖表、規(guī)則等多種不同形式提供給用戶。2.基于屬性歸納方法基本思想:952.基于屬性歸納方法(續(xù))例1:從一個(gè)大學(xué)數(shù)據(jù)庫(kù)的學(xué)生數(shù)據(jù)中挖掘出研究生的一般特征。給定的屬性有:姓名、性別、專業(yè)、出生地、出生日期、居住地、電話和GPA(平均等級(jí)分)。AOI方法的第一步:

利用DB查詢語(yǔ)言從大學(xué)DB中將學(xué)生數(shù)據(jù)抽取出來(lái),然后指定一組與挖掘任務(wù)相關(guān)的屬性集。2.基于屬性歸納方法(續(xù))例1:從一個(gè)大學(xué)數(shù)據(jù)庫(kù)的學(xué)生數(shù)據(jù)中962.基于屬性歸納方法(續(xù)) 由于數(shù)據(jù)挖掘查詢通常只涉及DB的一部分,選擇相關(guān)的數(shù)據(jù)集不僅使得挖掘更有效,而且與在整個(gè)DB挖掘相比,能產(chǎn)生更有意義的規(guī)則。 對(duì)用戶而言,指定挖掘的屬性可能比較困難。有時(shí),用戶只能選擇少量他感到可能重要的屬性,而遺漏在描述中可能起作用的其他屬性。2.基于屬性歸納方法(續(xù)) 由于數(shù)據(jù)挖掘查詢通常只涉及D972.基于屬性歸納方法(續(xù))如:出生地維由屬性城市、省和國(guó)家定義。在這些屬性中,用戶或許只考慮了城市屬性。為了對(duì)出生地進(jìn)行概化處理,就必須將出生地概化所涉及到的其它屬性包含進(jìn)來(lái)。換句話說(shuō),系統(tǒng)自動(dòng)地包括省和國(guó)家作為相關(guān)屬性,使得城市可以在歸納過(guò)程中概化到較高的概念層。2.基于屬性歸納方法(續(xù))如:出生地維由屬性城市982.基于屬性歸納方法(續(xù)) 另一方面,用戶可能引進(jìn)過(guò)多的屬性,如:指定所有的屬性,這樣大學(xué)DB的所有屬性都將包含在分析中,而有些屬性對(duì)有趣的描述是沒(méi)有用的。2.基于屬性歸納方法(續(xù)) 另一方面,用戶可能引進(jìn)過(guò)多的99姓名性別專業(yè)出生地出生日居住地電話GPA王東海男CS合肥市79.07.26合肥市金寨路6567李哲男CS合肥市80.12.08合肥市蕪湖路18670汪燕女PH上海市80.09.03上海市高安路1250號(hào)021-623819603.83初始工作關(guān)系:任務(wù)相關(guān)數(shù)據(jù)的集合姓名性別專業(yè)出生地出生日居住地電話GPA王東海男CS合肥市71002.基于屬性歸納方法(續(xù))對(duì)已經(jīng)準(zhǔn)備好的數(shù)據(jù),如何進(jìn)行基于屬性歸納?AOI方法的第二步:

進(jìn)行數(shù)據(jù)概化操作,可用兩種方法之一進(jìn)行:屬性刪除,屬性概化。2.基于屬性歸納方法(續(xù))對(duì)已經(jīng)準(zhǔn)備好的數(shù)據(jù),如1012.基于屬性歸納方法(續(xù))屬性刪除基于如下規(guī)則:若一個(gè)屬性有許多不同數(shù)值,且(a)該屬性無(wú)法進(jìn)行概化操作(如:沒(méi)有定義相應(yīng)的概念分層),或(b)它的更高層次概念是用其他屬性描述的,則該屬性應(yīng)當(dāng)從數(shù)據(jù)集中刪除。2.基于屬性歸納方法(續(xù))屬性刪除基于如下規(guī)則:1022.基于屬性歸納方法(續(xù))屬性概化基于如下規(guī)則:若一個(gè)屬性有許多不同數(shù)值,且該屬性存在一組概化操作,則可以選擇一個(gè)概化操作對(duì)該屬性進(jìn)行處理。

屬性刪除和屬性概化兩個(gè)規(guī)則都表明,如果某屬性有大量的不同值,應(yīng)當(dāng)進(jìn)行進(jìn)一步概化。這就提出一個(gè)問(wèn)題:多大才算“屬性具有大量不同值”?2.基于屬性歸納方法(續(xù))屬性概化基于如下規(guī)則:1032.基于屬性歸納方法(續(xù)) 這取決于屬性或應(yīng)用,有的用戶愿意讓屬性留在較低的抽象層,而另一些用戶愿意將它們概化到較高的抽象層。控制將屬性概化到多高的抽象層通常是相當(dāng)主觀的。該過(guò)程的控制稱為屬性概化控制。2.基于屬性歸納方法(續(xù)) 這取決于屬性或應(yīng)用,有的用戶1042.基于屬性歸納方法(續(xù))若屬性概化得“太高”,則導(dǎo)致過(guò)分概化,產(chǎn)生的規(guī)則可能沒(méi)有多少信息。若屬性概化沒(méi)有達(dá)到“足夠高的層次”,則“亞概化”也同樣可能使得到的規(guī)則變得失去意義。因此在基于屬性歸納時(shí),掌握概化平衡非常重要。2.基于屬性歸納方法(續(xù))若屬性概化得“太高”,1052.基于屬性歸納方法(續(xù)) 有許多控制概化過(guò)程的方法,下面是兩種常用的方法:(1)屬性概化閾值控制 該技術(shù)是對(duì)所有屬性統(tǒng)一設(shè)置一個(gè)概化閾值(取值范圍一般為2到8)。如果屬性的不同值個(gè)數(shù)大于屬性概化閾值,則應(yīng)當(dāng)進(jìn)行進(jìn)一步的屬性刪除或?qū)傩愿呕?.基于屬性歸納方法(續(xù)) 有許多控制概化過(guò)程的方法,下1062.基于屬性歸納方法(續(xù))(2)概化關(guān)系閾值控制 為概化關(guān)系設(shè)置一個(gè)閾值(通常取值范圍為10到30)。如果概化關(guān)系中不同元組的個(gè)數(shù)超過(guò)該閾值,則應(yīng)當(dāng)進(jìn)一步概化;否則,不再進(jìn)一步概化。2.基于屬性歸納方法(續(xù))(2)概化關(guān)系閾值控制1072.基于屬性歸納方法(續(xù))

這兩種技術(shù)可以順序使用:首先使用屬性概化閾值控制技術(shù)概化每個(gè)屬性,然后使用概化關(guān)系閾值控制進(jìn)一步減少概化關(guān)系的(規(guī)模)大小。無(wú)論使用哪種概化控制技術(shù),都應(yīng)當(dāng)允許用戶調(diào)整概化閾值,以便得到有趣的規(guī)則。2.基于屬性歸納方法(續(xù)) 這兩種技術(shù)可以順序使用:首1082.基于屬性歸納方法(續(xù))例1(續(xù)):對(duì)前面得到的初始工作關(guān)系的每個(gè)屬性,概化過(guò)程如下:1)姓名:由于姓名存在大量不同值,并且其上沒(méi)有定義概念分層,該屬性被刪除。2)性別:由于性別只有兩個(gè)不同值,該屬性保留,并不對(duì)其進(jìn)行概化。2.基于屬性歸納方法(續(xù))例1(續(xù)):對(duì)前面得到的初始工作關(guān)1092.基于屬性歸納方法(續(xù))3)專業(yè):假設(shè)定義了一個(gè)概念分層,從而可以對(duì)專業(yè)屬性進(jìn)行概化。又假設(shè)屬性概化閾值置為5,在初始數(shù)據(jù)集合中有25個(gè)不同取值。則通過(guò)對(duì)屬性概化和屬性概化控制,專業(yè)屬性被概化到指定的概念(如:科學(xué),工程,商學(xué))。2.基于屬性歸納方法(續(xù))3)專業(yè):假設(shè)定義了一個(gè)概念分層1102.基于屬性歸納方法(續(xù))4)出生地:該屬性有大量不同值,因此應(yīng)當(dāng)概化它。設(shè)出生地的概念分層為:城市<省<國(guó)家。如果初始關(guān)系中,國(guó)家取值超過(guò)了屬性概化閾值,則出生地應(yīng)當(dāng)刪除,因?yàn)楸M管可以進(jìn)行概化操作,概化閾值也不會(huì)滿足。但如果假定國(guó)家的取值個(gè)數(shù)小于概化閾值,則出生地應(yīng)當(dāng)概化到出生國(guó)家。2.基于屬性歸納方法(續(xù))4)出生地:該屬性有大量不同值,1112.基于屬性歸納方法(續(xù))5)出生日期:假定存在概念分層,可以將出生日期概化到年齡,而年齡概化到年齡分類,并且年齡分類的區(qū)間數(shù)小于對(duì)應(yīng)的屬性概化閾值,則應(yīng)當(dāng)對(duì)出生日期進(jìn)行概化。2.基于屬性歸納方法(續(xù))5)出生日期:假定存在概念分層,1122.基于屬性歸納方法(續(xù))6)居住地:假定居住地被屬性號(hào)碼,街道,城市,省,國(guó)家定義。號(hào)碼和街道的不同值一般很多,而且這些概念的層次相當(dāng)?shù)汀R虼?,?hào)碼和街道應(yīng)當(dāng)刪除,將居住地概化到居住城市。這樣可包含較少的不同值。2.基于屬性歸納方法(續(xù))6)居住地:假定居住地被屬性號(hào)碼1132.基于屬性歸納方法(續(xù))7)電話:與屬性姓名一樣,因包含太多不同值,應(yīng)當(dāng)在概化中刪除。8)GPA:假定存在GPA的概念分層,將平均成績(jī)分成若干區(qū)間,如:{3.75-4.0,3.5-3.75,…},也可相應(yīng)的描述為:{優(yōu)秀,良好,…},因此該屬性可以被概化。2.基于屬性歸納方法(續(xù))7)電話:與屬性姓名一樣,因包含太1142.基于屬性歸納方法(續(xù)) 概化過(guò)程會(huì)產(chǎn)生一系列內(nèi)容相同的數(shù)據(jù)行,相同內(nèi)容的數(shù)據(jù)行被合并成一個(gè),并累計(jì)它們的計(jì)數(shù)值。最終結(jié)果如下表:2.基于屬性歸納方法(續(xù)) 概化過(guò)程會(huì)產(chǎn)生一系列內(nèi)容相同115性別專業(yè)出生國(guó)年齡區(qū)間出生城市GPA累計(jì)男科學(xué)中國(guó)20—25合肥良好16女工程中國(guó)25—30上海優(yōu)秀22對(duì)初始關(guān)系的數(shù)據(jù)進(jìn)行基于屬性歸納得到的廣義關(guān)系:性別專業(yè)出生國(guó)年齡區(qū)間出生城市GPA累計(jì)男科學(xué)中國(guó)20—251163.基于屬性歸納算法算法:基于屬性的歸納輸入:(1)關(guān)系DB;(2)數(shù)據(jù)挖掘命令DMQuery;(3)屬性表a_list;(4)屬性ai上的概念分層或概化操作符的集合Gen(a);(5)每個(gè)屬性ai概化閾值a_gen_thresh(a)3.基于屬性歸納算法算法:基于屬性的歸納1173.基于屬性歸納算法(續(xù))輸出:主概化關(guān)系P(包含基于a_list屬性集的一個(gè)定性概念描述)

方法:(1)W←get_task_relevant_data(DMQuery,DB);//工作關(guān)系W存放任務(wù)相關(guān)的數(shù)據(jù)(2)prepare_for_generalization(W)//該步實(shí)現(xiàn)如下:3.基于屬性歸納算法(續(xù))輸出:主概化關(guān)系P(包含基于a_1183.基于屬性歸納算法(續(xù))(a)掃描W,收集每個(gè)ai屬性取不同值的個(gè)數(shù)。(b)對(duì)每個(gè)屬性ai,根據(jù)給定的或缺省的屬性閾值,確定ai是否應(yīng)當(dāng)刪除;如果不刪除,則計(jì)算它的最小期望層次Li,并確定映射對(duì)(v,v’),基中v是W中ai的不同值,v’是其在層Li對(duì)應(yīng)的概化值。3.基于屬性歸納算法(續(xù))(a)掃描W,收集每個(gè)ai屬性取不1193.基于屬性歸納算法(續(xù))(3)P←generalization(W) 通過(guò)用其在映射中對(duì)應(yīng)的v’替換W中每個(gè)值v,累計(jì)計(jì)數(shù)并計(jì)算所有聚集值,導(dǎo)出主概化關(guān)系P。 這一步可用下面兩種方法有效實(shí)現(xiàn):(a)對(duì)每個(gè)概化元組,通過(guò)二分檢索將它插入主關(guān)系P中。如果元組已在P中,則簡(jiǎn)單地增加它的計(jì)數(shù)值并相應(yīng)處理其他聚集值;否則,將它插入P。3.基于屬性歸納算法(續(xù))(3)P←generalizati1203.基于屬性歸納算法(續(xù))(b)在大部分情況下,由于主關(guān)系層不同值的個(gè)數(shù)很少,可以將主關(guān)系編碼,作為m_維數(shù)組,其中m是P中的屬性數(shù),而每個(gè)維包含對(duì)應(yīng)的概化屬性值。數(shù)組的每個(gè)元素存放對(duì)應(yīng)的計(jì)數(shù)和其他聚集值。概化元組的插入通過(guò)對(duì)應(yīng)的數(shù)組元素上的度量聚集進(jìn)行。3.基于屬性歸納算法(續(xù))(b)在大部分情況下,由于主關(guān)系層1214.基于屬性歸納結(jié)果的表示基于屬性歸納方法的挖掘結(jié)果可以有多種輸出表示形式。4.基于屬性歸納結(jié)果的表示基于屬性歸納方法的挖122地點(diǎn)商品銷售額(百萬(wàn))個(gè)數(shù)累計(jì)(千)亞洲電視15300歐洲電視12250北美電視28450亞洲電腦1201000歐洲電腦1501200北美電腦2001800表格表示描述地點(diǎn)商品銷售額個(gè)數(shù)累計(jì)(千)亞洲電視15300歐洲電視122123地點(diǎn)或商品電視電腦電視+電腦銷售額累計(jì)銷售額累計(jì)銷售額累計(jì)亞洲1530012010001351300歐洲1225015012001621450北美2845020018002282250所有地區(qū)45100047040005255000組合表表示描述地點(diǎn)電視電腦電視+電腦銷售額累計(jì)銷售額累計(jì)銷售額累計(jì)亞洲15124棒圖表示描述棒圖表示描述125第七章概念描述7.1概念描述基本知識(shí)7.2數(shù)據(jù)概化與基于匯總的特征化7.3解析特征化—屬性相關(guān)分析7.4挖掘概念比較—區(qū)分不同的類第七章概念描述7.1概念描述基本知識(shí)1267.3解析特征化—屬性相關(guān)分析1.屬性相關(guān)分析意義 在挖掘定性概念描述知識(shí)過(guò)程中,DW和OLAP工具中的多維數(shù)據(jù)分析有兩個(gè)局限:一是無(wú)法處理復(fù)雜對(duì)象,二是缺乏自動(dòng)概化過(guò)程。7.3解析特征化—屬性相關(guān)分析1.屬性相關(guān)分析意義1271.屬性相關(guān)分析意義(續(xù)) 通常,用戶告訴數(shù)據(jù)挖掘系統(tǒng)每個(gè)維應(yīng)當(dāng)概化到多高層次并不困難,但確定數(shù)據(jù)集的定性描述應(yīng)包含哪些屬性是一件困難的事。我們引進(jìn)一些方法進(jìn)行屬性(或維)相關(guān)分析,以過(guò)濾掉統(tǒng)計(jì)上不相關(guān)或弱相關(guān)的屬性,而保留與挖掘任務(wù)最相關(guān)的屬性。1.屬性相關(guān)分析意義(續(xù)) 通常,用戶告訴數(shù)據(jù)挖掘系1281.屬性相關(guān)分析意義(續(xù))包含屬性(維)相關(guān)分析的類特征化稱為解析特征化;包含屬性(維)相關(guān)分析的類比較稱為解析比較。 直觀上,若一個(gè)屬性的取值可以幫助有效地區(qū)分不同類別的數(shù)據(jù)集,則這個(gè)屬性就被認(rèn)為是與相應(yīng)類別數(shù)據(jù)集密切相關(guān)的。1.屬性相關(guān)分析意義(續(xù))包含屬性(維)相關(guān)分析的類特征化1291.屬性相關(guān)分析意義(續(xù))例:一輛汽車的顏色不太可能用于區(qū)分貴賤汽車(類別),但汽車的型號(hào)、品牌、制造商、款式和氣缸數(shù)可能是更相關(guān)的屬性。此外,即使在同一個(gè)維內(nèi),對(duì)于區(qū)分一個(gè)類與其他類,在不同的概念層也可能有很不相同的能力。1.屬性相關(guān)分析意義(續(xù))例:一輛汽車的顏色不太可能用于區(qū)分1301.屬性相關(guān)分析意義(續(xù))例:在出生日維中,生日和生月都不太可能與雇員的工資相關(guān);而只有年齡區(qū)間可能與雇員的工資高度相關(guān)。這意味著相關(guān)分析應(yīng)當(dāng)在多層次進(jìn)行,并且只有那些最相關(guān)的維層次應(yīng)當(dāng)包含在分析中。1.屬性相關(guān)分析意義(續(xù))例:在出生日維中,生日和生月都不太1311.屬性相關(guān)分析意義(續(xù))屬性的相關(guān)性要根據(jù)屬性區(qū)分一個(gè)類與其他類的能力來(lái)評(píng)估。在挖掘概念比較時(shí),目標(biāo)類和對(duì)比類要明顯地在挖掘查詢中給出。前面在挖掘概念特征時(shí),只有一個(gè)被特征化的類,即沒(méi)有說(shuō)明對(duì)比類。哪些對(duì)比類應(yīng)當(dāng)用于相關(guān)分析并非是明顯的。在這種情況下,除特征化的數(shù)據(jù)集外,DB中可比較的數(shù)據(jù)集都作為對(duì)比類。1.屬性相關(guān)分析意義(續(xù))屬性的相關(guān)1322.屬性相關(guān)分析方法

屬性相關(guān)分析的基本思想:計(jì)算某種度量,用于量化屬性與給定類或概念的相關(guān)性。這些度量包括:信息增益,Gini索引,不確定性和相關(guān)系數(shù)。

2.屬性相關(guān)分析方法屬性相關(guān)分析的基本思想:1332.屬性相關(guān)分析方法(續(xù))下面介紹一種方法,它將信息增益分析技術(shù)和基于多維數(shù)據(jù)分析的方法集成在一起。該方法刪除信息量較少的屬性,收集信息較多的屬性,用于概念描述分析。這里以ID3決策樹(shù)歸納學(xué)習(xí)方法為例進(jìn)行介紹。2.屬性相關(guān)分析方法(續(xù))下面介紹一種1342.屬性相關(guān)分析方法(續(xù))

設(shè)S是訓(xùn)練樣本的集合,其中每個(gè)樣本的類標(biāo)號(hào)已知,共有m個(gè)不同類別,則S包含si個(gè)Ci類樣本,i=1,…,m。任意一個(gè)樣本屬于類Ci的概率為si/s,其中s是集合S所有樣本總數(shù)。一個(gè)決策樹(shù)可用于對(duì)數(shù)據(jù)對(duì)象進(jìn)行分類,因此決策樹(shù)可以看成是Ci的一個(gè)信息源,為產(chǎn)生相應(yīng)信息需要的信息熵為:2.屬性相關(guān)分析方法(續(xù))設(shè)S是1352.屬性相關(guān)分析方法(續(xù))(7.1)若屬性A的取值為{a1,a2,…,av},且該屬性用作決策樹(shù)的一個(gè)結(jié)點(diǎn)時(shí),可將S劃分為子集{S1,S2,…,Sv}。其中Sj

包含屬性A取同一值aj的數(shù)據(jù)行;Sj包含類Ci的sij個(gè)樣本。2.屬性相關(guān)分析方法(續(xù))1362.屬性相關(guān)分析方法(續(xù))根據(jù)屬性A的取值對(duì)當(dāng)前數(shù)據(jù)集劃分所獲得的信息就稱為屬性A的熵。它的計(jì)算公式如下:

(7.2)

A上該劃分得到的信息增益定義為:

Gain(A)=I(s1,s2,…,sm)-E(A)(7.3)2.屬性相關(guān)分析方法(續(xù))根據(jù)屬性A的取值對(duì)當(dāng)前數(shù)據(jù)集劃1372.屬性相關(guān)分析方法(續(xù))

ID3方法根據(jù)S集合中數(shù)據(jù)對(duì)象來(lái)計(jì)算每個(gè)屬性Gain(A)值,并從中選擇出值最大的作為決策樹(shù)根結(jié)點(diǎn),并根據(jù)該屬性的取值個(gè)數(shù)將初始數(shù)據(jù)集劃分為v份,即通過(guò)不斷對(duì)每個(gè)新產(chǎn)生的數(shù)據(jù)子集循環(huán)進(jìn)行上述操作,直到產(chǎn)生所有葉結(jié)點(diǎn)為止,至此就獲得一個(gè)決策樹(shù)。2.屬性相關(guān)分析方法(續(xù)) ID3方法根據(jù)S1382.屬性相關(guān)分析方法(續(xù))

概念描述的屬性相關(guān)分析,執(zhí)行步驟如下:(1)數(shù)據(jù)收集:通過(guò)查詢處理,收集目標(biāo)類和對(duì)比類的數(shù)據(jù)。(2)使用保守的AOI進(jìn)行預(yù)相關(guān)分析:這里進(jìn)行的AOI使用的屬性分析閾值要合理的大,使得更多的屬性在選定度量的進(jìn)一步相關(guān)分析中被考慮。使用保守AOI得到的關(guān)系稱作候選關(guān)系。2.屬性相關(guān)分析方法(續(xù))概念描述的屬1392.屬性相關(guān)分析方法(續(xù))(3)使用選定的相關(guān)分析度量刪除不相關(guān)和弱相關(guān)屬性:使用選定的相關(guān)分析度量,評(píng)估候選關(guān)系中的每個(gè)屬性。根據(jù)計(jì)算的屬性與數(shù)據(jù)挖掘任務(wù)的相關(guān)性,對(duì)屬性排序,然后刪除不相關(guān)和弱相關(guān)屬性。其結(jié)果為初始目標(biāo)類(對(duì)比類)工作關(guān)系。(4)使用AOI產(chǎn)生概念描述:使用一組不太保守的屬性概化閾值進(jìn)行AOI。2.屬性相關(guān)分析方法(續(xù))(3)使用選定的相關(guān)分析度量刪除不1403.解析特征化實(shí)例例2:使用解析特征化挖掘大學(xué)數(shù)據(jù)庫(kù)里研究生的一般特征描述。執(zhí)行步驟為:(1)收集目標(biāo)類數(shù)據(jù),它由研究生的集合組成。對(duì)比類取本科生的集合。(2)用保守的屬性概化閾值進(jìn)行基于屬性的歸納,通過(guò)屬性刪除和屬性概化進(jìn)行預(yù)相關(guān)分析(分析過(guò)程如例1)。得到下面兩張表:3.解析特征化實(shí)例例2:使用解析特征化挖掘大學(xué)數(shù)據(jù)庫(kù)里研究141性別專業(yè)出生國(guó)年齡區(qū)間GPA累計(jì)計(jì)數(shù)男科學(xué)中國(guó)21—25良16女科學(xué)外國(guó)26—30優(yōu)22男工程外國(guó)26—30優(yōu)18女科學(xué)外國(guó)26—30優(yōu)25男科學(xué)中國(guó)21—25優(yōu)21女工程中國(guó)21—25優(yōu)18由解析特征化得到的候選關(guān)系:目標(biāo)類(研究生)性別專業(yè)出生國(guó)年齡區(qū)間GPA累計(jì)計(jì)數(shù)男科學(xué)中國(guó)21—25良1142由解析特征化得到的候選關(guān)系:對(duì)比類(本科生)性別專業(yè)出生國(guó)年齡區(qū)間GPA累計(jì)計(jì)數(shù)男科學(xué)外國(guó)<=20良18女商學(xué)中國(guó)<=20及格20男商學(xué)中國(guó)<=20及格22女科學(xué)中國(guó)21—25及格24男工程外國(guó)21—25良22女工程中國(guó)<=20優(yōu)24由解析特征化得到的候選關(guān)系:性別專業(yè)出生國(guó)年齡區(qū)間GPA累計(jì)1433.解析特征化實(shí)例(續(xù))(3)使用選定的相關(guān)分析度量(如信息增益),評(píng)估候選關(guān)系中的屬性。設(shè):C1對(duì)應(yīng)于研究生類,有120個(gè)樣本;C2對(duì)應(yīng)于本科生類,有130個(gè)樣本。為計(jì)算每個(gè)屬性的信息增益,首先用公式(7.1)計(jì)算對(duì)給定的樣本分類所需要的期望信息:3.解析特征化實(shí)例(續(xù))(3)使用選定的相關(guān)分析度量(如信1443.解析特征化實(shí)例(續(xù))3.解析特征化實(shí)例(續(xù))1453.解析特征化實(shí)例(續(xù))下面計(jì)算每個(gè)屬性的信息熵,以專業(yè)為例:專業(yè)=“科學(xué)”:

S11=84S21=42I(S11,S21)=0.9183專業(yè)=“工程”:

S12=36S22=46I(S12,S22)=0.9892專業(yè)=“商學(xué)”:

S13=0S23=42I(S13,S23)=03.解析特征化實(shí)例(續(xù))下面計(jì)算每個(gè)1463.解析特征化實(shí)例(續(xù))

再利用公式(7.2),如果樣本根據(jù)專業(yè)劃分,則對(duì)給定的樣本進(jìn)行分類所需的期望信息為:3.解析特征化實(shí)例(續(xù))再利用公1473.解析特征化實(shí)例(續(xù))從而得到,由這樣的劃分的信息增益為:Gain(專業(yè))=I(s1,s2)-E(專業(yè))=0.2115

類似地,也可計(jì)算獲得其他屬性的信息增益,它們排序后結(jié)果為:

性別(0.0003),出生國(guó)(0.0407),專業(yè)(0.2115),GPA(0.4490),年齡區(qū)間(0.5971)3.解析特征化實(shí)例(續(xù))從而得到,由1483.解析特征化實(shí)例(續(xù))若設(shè)定屬性相關(guān)閾值為0.1,以此來(lái)判斷弱相關(guān)屬性。屬性性別(0.0003)和出生國(guó)(0.0407)

的信息增益小于該閾值,因此被認(rèn)為是弱相關(guān)的,它們同時(shí)從目標(biāo)類和對(duì)比類中被刪除。由此產(chǎn)生初始目標(biāo)類工作關(guān)系。(4)最后利用前述算法對(duì)初始目標(biāo)類工作關(guān)系進(jìn)行基于屬性的歸納,并獲得研究生目標(biāo)類的概念描述。3.解析特征化實(shí)例(續(xù))若設(shè)定屬性149第七章概念描述7.1概念描述基本知識(shí)7.2數(shù)據(jù)概化與基于匯總的特征化7.3解析特征化—屬性相關(guān)分析7.4挖掘概念比較—區(qū)分不同的類第七章概念描述7.1概念描述基本知識(shí)1507.4挖掘概念比較—區(qū)分

不同的類 在許多應(yīng)用中,類(或概念)比較是我們感興趣的,它挖掘?qū)⒛繕?biāo)類與對(duì)比類相區(qū)分的描述。但目標(biāo)類和對(duì)比類必須是可比較的,即它們具有相似的維或?qū)傩浴? 在前面討論中,對(duì)處理單個(gè)類中的多層數(shù)據(jù)匯總和特征化所用的技術(shù),同樣可用于處理多個(gè)可比較類的類比較。7.4挖掘概念比較—區(qū)分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論