版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第七章 概念描述7.1 概念描述基本知識7.2 數(shù)據(jù)概化與基于匯總的特征化7.3 解析特征化屬性相關(guān)分析7.4 挖掘概念比較區(qū)分不同的類第七章概概念念描述(續(xù))DB中存存放大量量細節(jié)性性數(shù)據(jù),而用戶戶通常希希望以簡簡潔的描描述形式式觀察匯匯總的數(shù)數(shù)據(jù)集。這種描描述可提提供某類數(shù)據(jù)據(jù)的概貌貌以及與其他數(shù)數(shù)據(jù)類的的區(qū)別。此外,用戶希希望方便便靈活地地以不同同的粒度度和從不不同的角角度描述述數(shù)據(jù)集集。這種種描述性性數(shù)據(jù)挖挖掘稱為為概念描描述,它它是數(shù)據(jù)據(jù)挖掘的的一個重重要部分分。7.1概概念念描述基基本知識識概念:通常指數(shù)數(shù)據(jù)的匯匯集。概念描述述:是描述式式數(shù)據(jù)挖挖掘最基基本形式式,它以以簡潔匯匯總
2、的形形式描述述給定數(shù)數(shù)據(jù)集,提供數(shù)數(shù)據(jù)的有有趣的一一般特性性。7.1概概念念描述基基本知識識(續(xù))概念描述述的組成成:特征化:提供了了一個有有關(guān)數(shù)據(jù)據(jù)整體的的簡潔清清晰描述述。(定定性描述述)比較:提供了了基于多多組不同同類數(shù)據(jù)據(jù)的對比比概念描描述。(對比定定性描述述)7.1概概念念描述基基本知識識(續(xù))概念描述述與數(shù)據(jù)概化化密切相關(guān)關(guān)。給定定存放在在DB中中的大量量數(shù)據(jù),能夠以以簡潔的的形式在在更一般般的抽象象層描述述數(shù)據(jù)是是很有用用的。允允許數(shù)據(jù)據(jù)集在多多個抽象象層概化化,便于于考察數(shù)數(shù)據(jù)的一一般行為為。這種多維,多多層數(shù)據(jù)據(jù)概化類似于DW中的的多維數(shù)數(shù)據(jù)分析析。而概念描述述類似于DW的O
3、LAP。7.1概概念念描述基基本知識識(續(xù))大型數(shù)據(jù)據(jù)庫的概概念描述述和數(shù)據(jù)據(jù)倉庫的的OLAP有何差別別?概念描述述可處理理復雜的的數(shù)據(jù)類類型和聚聚集。概念描述述是自動動處理數(shù)數(shù)據(jù)挖掘掘過程。7.1概概念念描述基基本知識識(續(xù))概念描述述的方法法包括多層概化化、匯總總、特征征化和比比較。這些方法法形成實實現(xiàn)數(shù)據(jù)據(jù)挖掘的的兩個主主要功能能模塊的的基礎(chǔ):多層特征化和比較。第七章概概念念描述7.1概概念念描述基基本知識識7.2數(shù)數(shù)據(jù)據(jù)概化與與基于匯匯總的特特征化7.3解解析析特征化化屬性性相關(guān)分分析7.4挖挖掘掘概念比比較區(qū)區(qū)分不同同的類7.2數(shù)數(shù)據(jù)據(jù)概化與與基于匯匯總的特征化數(shù)據(jù)概化化是一個個分析
4、過過程,它它將DB中與任任務(wù)相關(guān)關(guān)的大數(shù)數(shù)據(jù)集從從較低的的概念層層抽象到到較高的的概念層層。對大大量數(shù)據(jù)據(jù)進行有有效靈活活的概化化方法主主要有兩兩種:數(shù)據(jù)立方方體方法法基于屬性性的歸納納方法1.數(shù)據(jù)據(jù)立方體體方法利用數(shù)據(jù)立方方體方法法進行數(shù)據(jù)據(jù)概化,被分析析的數(shù)據(jù)據(jù)存放在在一個多多維數(shù)據(jù)據(jù)庫中,通過對對多維數(shù)數(shù)據(jù)立方方進行上上卷或下下鉆操作作,可完完成數(shù)據(jù)據(jù)概化和和數(shù)據(jù)細細化工作作。1.數(shù)據(jù)據(jù)立方體體方法(續(xù))數(shù)據(jù)立方方體提供供了一種種有效的的數(shù)據(jù)概概化方法法,且構(gòu)構(gòu)成了描描述性數(shù)數(shù)據(jù)挖掘掘中一個個重要功功能。但但由于OLAP的數(shù)據(jù)據(jù)立方實實現(xiàn)是將將維的類類型限制制在簡單單非數(shù)值值類型,且將處
5、處理限制制在簡單單數(shù)據(jù)匯匯總方面面,因此此數(shù)據(jù)立立方體并并不能解解決概念念描述所所能解決決的一些些重要問問題。如如:描述述中應(yīng)作作用哪些些維?概概化過程程應(yīng)進行行到哪個個抽象層層次上?這些問問題均是是由用戶戶負責提提供答案案的。2.基于于屬性歸歸納方法法基本思想想:首先使用用RDB查詢收收集任務(wù)務(wù)相關(guān)的的數(shù)據(jù);然后通通過考察察任務(wù)相相關(guān)數(shù)據(jù)據(jù)中每個個屬性的的不同值值的個數(shù)數(shù),進行行概化。數(shù)據(jù)概概化是通通過屬性刪除除或?qū)傩愿呕僮鱽硗瓿伞Mㄟ^合合并相同同行并累累計它們們相應(yīng)的的個數(shù)。這自然然就減少少了概化化后數(shù)據(jù)據(jù)集的大大小,所所獲結(jié)果果以圖表表、規(guī)則則等多種種不同形形式提供供給用戶戶。2.基
6、于于屬性歸歸納方法法(續(xù))例1:從一個大大學數(shù)據(jù)據(jù)庫的學學生數(shù)據(jù)據(jù)中挖掘掘出研究究生的一一般特征征。給定定的屬性性有:姓姓名、性性別、專專業(yè)、出出生地、出生日日期、居居住地、電話和和GPA(平均等等級分)。AOI方方法的第一步:利用DB查詢語語言從大大學DB中將學學生數(shù)據(jù)據(jù)抽取出出來,然然后指定定一組與與挖掘任任務(wù)相關(guān)關(guān)的屬性性集。2.基于于屬性歸歸納方法法(續(xù))由于數(shù)據(jù)據(jù)挖掘查查詢通常常只涉及及DB的的一部分分,選擇擇相關(guān)的的數(shù)據(jù)集集不僅使使得挖掘掘更有效效,而且且與在整整個DB挖掘相相比,能能產(chǎn)生更更有意義義的規(guī)則則。對用戶而而言,指指定挖掘掘的屬性性可能比比較困難難。有時時,用戶戶只能選
7、選擇少量量他感到到可能重重要的屬屬性,而而遺漏在在描述中中可能起起作用的的其他屬屬性。2.基于于屬性歸歸納方法法(續(xù))如:出生地維由屬性性城市、省和國家定義。在在這些屬屬性中,用戶或或許只考考慮了城城市屬性性。為了了對出生生地進行行概化處處理,就就必須將將出生地地概化所所涉及到到的其它它屬性包包含進來來。換句句話說,系統(tǒng)自自動地包包括省和和國家作作為相關(guān)關(guān)屬性,使得城城市可以以在歸納納過程中中概化到到較高的的概念層層。2.基于于屬性歸歸納方法法(續(xù))另一方面面,用戶戶可能引引進過多多的屬性性,如:指定所所有的屬屬性,這這樣大學學DB的的所有屬屬性都將將包含在在分析中中,而有有些屬性性對有趣趣的
8、描述述是沒有有用的。姓名性別專業(yè)出生地出生日居住地電話GPA王東海男CS合肥市79.07.26合肥市金寨路6567李哲男CS合肥市80.12.08合肥市蕪湖路18670汪燕女PH上海市80.09.03上海市高安路1250號021-623819603.83初始工作作關(guān)系:任務(wù)相相關(guān)數(shù)據(jù)據(jù)的集合合2.基于于屬性歸歸納方法法(續(xù))對已經(jīng)準準備好的的數(shù)據(jù),如何進進行基于于屬性歸歸納?AOI方法的第第二步:進行數(shù)據(jù)據(jù)概化操操作,可可用兩種種方法之之一進行行:屬性刪除除,屬性概化化。2.基于于屬性歸歸納方法法(續(xù))屬性刪除除基于如下下規(guī)則:若一個
9、屬屬性有許許多不同同數(shù)值,且(a)該該屬性無無法進行行概化操操作(如:沒沒有定義義相應(yīng)的的概念分分層),或(b)它它的更高高層次概概念是用用其他屬屬性描述述的,則該屬屬性應(yīng)當當從數(shù)據(jù)據(jù)集中刪刪除。2.基于于屬性歸歸納方法法(續(xù))屬性概化化基于如下下規(guī)則:若一個屬屬性有許許多不同同數(shù)值,且該屬屬性存在在一組概概化操作作,則可可以選擇擇一個概概化操作作對該屬屬性進行行處理。屬性刪除除和屬性概化化兩個規(guī)則則都表明明,如果果某屬性性有大量量的不同同值,應(yīng)應(yīng)當進行行進一步步概化。這就提提出一個個問題:多大才算算“屬性性具有大大量不同同值”?2.基于于屬性歸歸納方法法(續(xù))這取決于于屬性或或應(yīng)用,有的用用
10、戶愿意意讓屬性性留在較較低的抽抽象層,而另一一些用戶戶愿意將將它們概概化到較較高的抽抽象層??刂茖傩愿鸥呕蕉喽喔叩某槌橄髮油ㄍǔJ窍嘞喈斨饔^觀的。該該過程的的控制稱稱為屬性概化化控制。2.基于于屬性歸歸納方法法(續(xù))若屬性概概化得“太高”,則導導致過分分概化,產(chǎn)生的的規(guī)則可可能沒有有多少信信息。若屬性概概化沒有有達到“足夠高高的層次次”,則則“亞概概化”也也同樣可可能使得得到的規(guī)規(guī)則變得得失去意意義。因此在基于屬屬性歸納納時,掌握概化化平衡非常重要要。2.基于于屬性歸歸納方法法(續(xù))有許多控控制概化化過程的的方法,下面是是兩種常常用的方方法:(1)屬屬性概化化閾值控控制該技術(shù)是是對所有有
11、屬性統(tǒng)統(tǒng)一設(shè)置置一個概概化閾值值(取值范圍圍一般為為2到8)。如果果屬性的的不同值值個數(shù)大大于屬性性概化閾閾值,則則應(yīng)當進進行進一一步的屬屬性刪除除或?qū)傩孕愿呕?.基于于屬性歸歸納方法法(續(xù))(2)概概化關(guān)系系閾值控控制為概化關(guān)關(guān)系設(shè)置置一個閾閾值(通通常取值值范圍為為10到到30)。如果果概化關(guān)關(guān)系中不不同元組組的個數(shù)數(shù)超過該該閾值,則應(yīng)當當進一步步概化;否則,不再進進一步概概化。2.基于于屬性歸歸納方法法(續(xù))這兩種技技術(shù)可以以順序使使用:首首先使用用屬性概化化閾值控控制技術(shù)概化化每個屬屬性,然然后使用用概化關(guān)系系閾值控控制進一步減減少概化化關(guān)系的的(規(guī)模模)大小小。無論論使用哪哪種概化
12、化控制技技術(shù),都都應(yīng)當允允許用戶戶調(diào)整概概化閾值值,以便便得到有有趣的規(guī)規(guī)則。2.基于于屬性歸歸納方法法(續(xù))例1(續(xù)續(xù)):對前面得得到的初始工作作關(guān)系的每個屬屬性,概概化過程程如下:1)姓名名:由于姓名名存在大大量不同同值,并并且其上上沒有定定義概念念分層,該屬性性被刪除除。2)性別別:由于性別別只有兩兩個不同同值,該該屬性保保留,并并不對其其進行概概化。2.基于于屬性歸歸納方法法(續(xù))3)專業(yè)業(yè):假設(shè)定義義了一個個概念分分層,從從而可以以對專業(yè)業(yè)屬性進進行概化化。又假假設(shè)屬性性概化閾閾值置為為5,在在初始數(shù)數(shù)據(jù)集合合中有25個不不同取值值。則通通過對屬屬性概化化和屬性性概化控控制,專專業(yè)屬
13、性性被概化化到指定定的概念念(如:科學,工程,商學)。2.基于于屬性歸歸納方法法(續(xù))4)出生生地:該屬性有有大量不不同值,因此應(yīng)應(yīng)當概化化它。設(shè)設(shè)出生地地的概念念分層為為:城市市省國家。如如果初始始關(guān)系中中,國家家取值超超過了屬屬性概化化閾值,則出生生地應(yīng)當當刪除,因為盡盡管可以以進行概概化操作作,概化化閾值也也不會滿滿足。但但如果假假定國家家的取值值個數(shù)小小于概化化閾值,則出生生地應(yīng)當當概化到到出生國國家。2.基于于屬性歸歸納方法法(續(xù))5)出生生日期:假定存在在概念分分層,可可以將出出生日期期概化到到年齡,而年齡齡概化到到年齡分分類,并并且年齡齡分類的的區(qū)間數(shù)數(shù)小于對對應(yīng)的屬屬性概化化閾
14、值,則應(yīng)當當對出生生日期進進行概化化。2.基于于屬性歸歸納方法法(續(xù))6)居住住地:假定居住住地被屬屬性號碼碼,街道道,城市市,省,國家定定義。號號碼和街街道的不不同值一一般很多多,而且且這些概概念的層層次相當當?shù)汀R蛞虼?,號號碼和街街道應(yīng)當當刪除,將居住住地概化化到居住住城市。這樣可可包含較較少的不不同值。2.基于于屬性歸歸納方法法(續(xù))7)電話話:與屬性姓姓名一樣樣,因包包含太多多不同值值,應(yīng)當當在概化化中刪除除。8)GPA:假定存在在GPA的概念分分層,將將平均成成績分成成若干區(qū)區(qū)間,如如:3.75-4.0,3.5-3.75,也可相應(yīng)應(yīng)的描述述為:優(yōu)秀,良良好,因此該屬屬性可以以被概化化
15、。2.基于于屬性歸歸納方法法(續(xù))概化過程程會產(chǎn)生生一系列列內(nèi)容相相同的數(shù)數(shù)據(jù)行,相同內(nèi)內(nèi)容的數(shù)數(shù)據(jù)行被被合并成成一個,并累計計它們的的計數(shù)值值。最終終結(jié)果如如下表:性別專業(yè)出生國年齡區(qū)間出生城市GPA累計男科學中國2025合肥良好16女工程中國2530上海優(yōu)秀22對初始關(guān)關(guān)系的數(shù)數(shù)據(jù)進行行基于屬屬性歸納納得到的的廣義關(guān)關(guān)系:3.基于于屬性歸歸納算法法算法:基于屬性性的歸納納輸入:(1)關(guān)關(guān)系DB;(2)數(shù)數(shù)據(jù)挖掘掘命令DMQuery;(3)屬屬性表a_list;(4)屬屬性ai上的概念念分層或或概化操操作符的的集合Gen(a);(5)每每個屬性性ai概化閾值a_gen_thresh(a)3.
16、基于于屬性歸歸納算法法(續(xù))輸出:主概化關(guān)關(guān)系P(包含基基于a_list屬性集的的一個定定性概念念描述)方法:(1)Wget_task_relevant_data(DMQuery,DB);/工作關(guān)系系W存放放任務(wù)相相關(guān)的數(shù)數(shù)據(jù)(2)prepare_for_generalization(W)/該步實現(xiàn)現(xiàn)如下:3.基于于屬性歸歸納算法法(續(xù))(a)掃描W,收集每每個ai屬性取不不同值的的個數(shù)。(b)對每個屬屬性ai,根據(jù)給給定的或或缺省的的屬性閾閾值,確確定ai是否應(yīng)當當刪除;如果不不刪除,則計算算它的最最小期望望層次Li,并確定定映射對對(v,v),基中v是W中ai的不同值值,v是其在層層Li對
17、應(yīng)的概概化值。3.基于于屬性歸歸納算法法(續(xù))(3)Pgeneralization(W)通過用其其在映射射中對應(yīng)應(yīng)的v替換W中每個值值v,累計計計數(shù)并計計算所有有聚集值值,導出出主概化化關(guān)系P。這一步可可用下面面兩種方方法有效效實現(xiàn):(a)對每個概概化元組組,通過過二分檢檢索將它它插入主主關(guān)系P中。如果果元組已已在P中,則簡簡單地增增加它的的計數(shù)值值并相應(yīng)應(yīng)處理其其他聚集集值;否否則,將將它插入入P。3.基于于屬性歸歸納算法法(續(xù))(b)在大部分分情況下下,由于于主關(guān)系系層不同同值的個個數(shù)很少少,可以以將主關(guān)關(guān)系編碼碼,作為為m_維數(shù)組組,其中中m是P中的屬性性數(shù),而而每個維維包含對對應(yīng)的概概
18、化屬性性值。數(shù)數(shù)組的每每個元素素存放對對應(yīng)的計計數(shù)和其其他聚集集值。概概化元組組的插入入通過對對應(yīng)的數(shù)數(shù)組元素素上的度度量聚集集進行。4.基于于屬性歸歸納結(jié)果果的表示示基于屬性性歸納方方法的挖挖掘結(jié)果果可以有有多種輸輸出表示示形式。地點商品銷售額(百萬)個數(shù)累計(千)亞洲電視15300歐洲電視12250北美電視28450亞洲電腦1201000歐洲電腦1501200北美電腦2001800表格表示示描述地點或商品電視電腦電視+電腦銷售額累計銷售額累計銷售額累計亞洲1530012010001351300歐洲1225015012001621450北美2845020018002282250所有地區(qū)451
19、00047040005255000組合表表表示描述棒圖表示示描述第七章概概念念描述7.1概概念念描述基基本知識識7.2數(shù)數(shù)據(jù)據(jù)概化與與基于匯匯總的特特征化7.3解解析析特征化化屬性性相關(guān)分分析7.4挖挖掘掘概念比比較區(qū)區(qū)分不同同的類7.3解解析析特征化化屬性性相關(guān)分分析1.屬性性相關(guān)分分析意義義在挖掘定定性概念念描述知知識過程程中,DW和OLAP工具中的的多維數(shù)數(shù)據(jù)分析析有兩個個局限:一是無無法處理理復雜對對象,二二是缺乏乏自動概概化過程程。1.屬性性相關(guān)分分析意義義(續(xù))通常,用用戶告訴訴數(shù)據(jù)挖挖掘系統(tǒng)統(tǒng)每個維維應(yīng)當概概化到多多高層次次并不困困難,但但確定數(shù)數(shù)據(jù)集的的定性描描述應(yīng)包包含哪些些
20、屬性是是一件困困難的事事。我們們引進一一些方法法進行屬屬性(或或維)相相關(guān)分析析,以過過濾掉統(tǒng)統(tǒng)計上不不相關(guān)或或弱相關(guān)關(guān)的屬性性,而保保留與挖挖掘任務(wù)務(wù)最相關(guān)關(guān)的屬性性。1.屬性性相關(guān)分分析意義義(續(xù))包含屬性性(維)相關(guān)分分析的類特征化化稱為解析特征征化;包含屬性性(維)相關(guān)分分析的類比較稱為解析比較較。直觀上,若一個個屬性的的取值可可以幫助助有效地地區(qū)分不不同類別別的數(shù)據(jù)據(jù)集,則則這個屬屬性就被被認為是是與相應(yīng)應(yīng)類別數(shù)數(shù)據(jù)集密密切相關(guān)關(guān)的。1.屬性性相關(guān)分分析意義義(續(xù))例:一輛汽車車的顏色色不太可可能用于于區(qū)分貴貴賤汽車車(類別別),但但汽車的的型號、品牌、制造商商、款式式和氣缸缸數(shù)可能
21、能是更相相關(guān)的屬屬性。此外,即即使在同同一個維維內(nèi),對對于區(qū)分分一個類類與其他他類,在在不同的的概念層層也可能能有很不不相同的的能力。1.屬性性相關(guān)分分析意義義(續(xù))例:在出生日日維中,生日和和生月都都不太可可能與雇雇員的工工資相關(guān)關(guān);而只只有年齡齡區(qū)間可可能與雇雇員的工工資高度度相關(guān)。這意味著著相關(guān)分分析應(yīng)當當在多層層次進行行,并且且只有那那些最相相關(guān)的維維層次應(yīng)應(yīng)當包含含在分析析中。1.屬性性相關(guān)分分析意義義(續(xù))屬性的相相關(guān)性要要根據(jù)屬屬性區(qū)分分一個類類與其他他類的能能力來評評估。在在挖掘概念比較較時,目標類和對比類要明顯地地在挖掘掘查詢中中給出。前面在在挖掘概念特征征時,只有有一個被被
22、特征化化的類,即沒有有說明對對比類。哪些對對比類應(yīng)應(yīng)當用于于相關(guān)分分析并非非是明顯顯的。在在這種情情況下,除特征征化的數(shù)數(shù)據(jù)集外外,DB中可比較較的數(shù)據(jù)據(jù)集都作作為對比比類。2.屬性性相關(guān)分分析方法法屬性相關(guān)關(guān)分析的的基本思思想:計算某種種度量,用于量量化屬性性與給定定類或概概念的相相關(guān)性。這些度度量包括括:信息息增益,Gini索引,不不確定性性和相關(guān)關(guān)系數(shù)。2.屬性性相關(guān)分分析方法法(續(xù))下面介紹紹一種方方法,它它將信息息增益分分析技術(shù)術(shù)和基于于多維數(shù)數(shù)據(jù)分析析的方法法集成在在一起。該方法法刪除信信息量較較少的屬屬性,收收集信息息較多的的屬性,用于概概念描述述分析。這里以ID3決策樹歸歸納學
23、習習方法為為例進行行介紹。2.屬性性相關(guān)分分析方法法(續(xù))設(shè)S是訓練樣樣本的集集合,其其中每個個樣本的的類標號已知,共共有m個不同類類別,則則S包含si個Ci類樣本,i=1,m。任意一一個樣本本屬于類類Ci的概率為為si/s,其中s是集合S所有樣本本總數(shù)。一個決決策樹可可用于對對數(shù)據(jù)對對象進行行分類,因此決決策樹可可以看成成是Ci的一個信信息源,為產(chǎn)生生相應(yīng)信信息需要要的信息息熵為:2.屬性性相關(guān)分分析方法法(續(xù))(7.1)若屬性A的取值值為a1,a2,av,且該屬屬性用作作決策樹樹的一個個結(jié)點時時,可將S劃分為子子集S1,S2,Sv 。其中Sj包含屬性A取同一一值aj的數(shù)據(jù)據(jù)行;Sj包含類C
24、i的sij個樣本本。2.屬性性相關(guān)分分析方法法(續(xù))根據(jù)屬性性A的取值對對當前數(shù)數(shù)據(jù)集劃劃分所獲獲得的信信息就稱稱為屬性性A的熵。它它的計算算公式如如下:(7.2)A上該劃分分得到的的信息增增益定義義為:Gain(A)=I(s1,s2,sm) -E(A)(7.3)2.屬性性相關(guān)分分析方法法(續(xù))ID3方法根據(jù)據(jù)S集合中數(shù)數(shù)據(jù)對象象來計算算每個屬屬性Gain(A)值,并從從中選擇擇出值最大的作作為決策樹根根結(jié)點,并根據(jù)據(jù)該屬性的取取值個數(shù)數(shù)將初始始數(shù)據(jù)集集劃分為為v份,即通過過不斷對對每個新新產(chǎn)生的的數(shù)據(jù)子子集循環(huán)環(huán)進行上上述操作作,直到到產(chǎn)生所所有葉結(jié)點為止止,至此此就獲得得一個決決策樹。2.
25、屬性性相關(guān)分分析方法法(續(xù))概念描述述的屬性相相關(guān)分析析,執(zhí)行行步驟如如下:(1)數(shù)數(shù)據(jù)收集集:通過查詢詢處理,收集目目標類和和對比類類的數(shù)據(jù)據(jù)。(2)使使用保守守的AOI進行預(yù)相相關(guān)分析析:這里進行行的AOI使用的屬性分析析閾值要要合理的的大,使使得更多多的屬性性在選定定度量的的進一步步相關(guān)分分析中被被考慮。使用保保守AOI得到的關(guān)關(guān)系稱作作候選關(guān)系系。2.屬性性相關(guān)分分析方法法(續(xù))(3)使使用選定定的相關(guān)關(guān)分析度度量刪除除不相關(guān)關(guān)和弱相相關(guān)屬性性:使用選定定的相關(guān)關(guān)分析度度量,評評估候選選關(guān)系中中的每個個屬性。根據(jù)計計算的屬屬性與數(shù)數(shù)據(jù)挖掘掘任務(wù)的的相關(guān)性性,對屬屬性排序序,然后后刪除不
26、不相關(guān)和和弱相關(guān)關(guān)屬性。其結(jié)果果為初始目標標類(對對比類)工作關(guān)關(guān)系。(4)使使用AOI產(chǎn)生概念念描述:使用一組組不太保保守的屬屬性概化化閾值進進行AOI。3.解解析特征征化實例例例2:使用解析析特征化化挖掘大大學數(shù)據(jù)據(jù)庫里研研究生的的一般特特征描述述。執(zhí)行行步驟為為:(1)收集目標類數(shù)數(shù)據(jù),它由研研究生的的集合組組成。對比類取本科生生的集合合。(2)用保守的的屬性概概化閾值值進行基基于屬性性的歸納納,通過過屬性刪刪除和屬屬性概化化進行預(yù)預(yù)相關(guān)分分析(分分析過程程如例1)。得到到下面兩兩張表:性別專業(yè)出生國年齡區(qū)間GPA累計計數(shù)男科學中國2125良16女科學外國2630優(yōu)22男工程外國2630
27、優(yōu)18女科學外國2630優(yōu)25男科學中國2125優(yōu)21女工程中國2125優(yōu)18由解析特特征化得得到的候選關(guān)系系:目標類(研究生生)由解析特特征化得得到的候選關(guān)系系:對比類(本科生生)性別專業(yè)出生國年齡區(qū)間GPA累計計數(shù)男科學外國 =20良18女商學中國 =20及格20男商學中國 =20及格22女科學中國2125及格24男工程外國2125良22女工程中國30優(yōu)5.86 商學30優(yōu)4.68目標類的的主概化關(guān)系(研研究生)對比類主主概化關(guān)關(guān)系(本本科生)專業(yè)年齡區(qū)間GPA累計數(shù)科學1620及格5.53 科學1620良4.53科學2630良2.32 商學30優(yōu)0.681.概念念比較方方法與實實現(xiàn)(續(xù)續(xù)
28、)由表可看看出,與與本科生生相比,研究生生一般趨趨向于年年齡稍大大,GPA較高。(4)最后,結(jié)果概念念對比描描述以表、圖圖或規(guī)則則的形式式表示。這種可可視化表表示包括括對比度量量(如累計計數(shù)),以突突出目標類和比較類之間存在在的差異異。例如如,5.02 的研究生生選擇“科學”專業(yè),年齡在在2630之間,GPA為良,而而只有2.32 的本科生生具有這這種性質(zhì)質(zhì)。2.概概念比較較描述的的表示概念比較較描述的可視化化,可以采用用概化關(guān)關(guān)系、交交叉表、條型圖圖、餅圖圖、曲線線和規(guī)則則。除邏邏輯規(guī)則則外,其其他形式式與概念特征化所用形式式相同。這里討討論用規(guī)規(guī)則的形形式顯示示概念比比較。2.概概念比較較描述的的表示(續(xù))比較描述述中的目標類和對比類的區(qū)分特特性,可可以用量化區(qū)分分規(guī)則量化地描描述。量量化區(qū)分分規(guī)則對對描述中中每個概概化元組組附上一一個統(tǒng)計計興趣度度度量d-權(quán)。設(shè)qa是一個概概化元組組,Cj是目標類類。其中中,qa覆蓋目標類的某些元元組。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高、低能校正磁鐵合作協(xié)議書
- 部編初中數(shù)學八年級下學期開學考試卷
- 2025年交配電設(shè)備設(shè)施委托管理協(xié)議(2篇)
- 2025年產(chǎn)權(quán)房屋買賣合同經(jīng)典版(三篇)
- 2025年產(chǎn)品商標設(shè)計委托合同模板(三篇)
- 2025年產(chǎn)品采購協(xié)作服務(wù)協(xié)議(2篇)
- 2025年亮化工程施工承包合同經(jīng)典版(三篇)
- 2025年中班幼兒園教師個人工作心得體會模版(4篇)
- 2025年產(chǎn)品試用協(xié)議范例(2篇)
- 2025年個人房屋裝修委托書合同(2篇)
- 招聘專員轉(zhuǎn)正述職報告
- “一帶一路”背景下的西安市文化旅游外宣翻譯研究-基于生態(tài)翻譯學理論
- 2024年江蘇省昆山市六校中考聯(lián)考(一模)化學試題
- 大學生文學常識知識競賽考試題庫500題(含答案)
- 國家電網(wǎng)智能化規(guī)劃總報告
- 邢臺市橋西區(qū)2024年事業(yè)單位考試《公共基礎(chǔ)知識》全真模擬試題含解析
- 太原頭腦外賣營銷方案
- 2023年寧夏中考物理試題(附答案)
- JBT 7041.1-2023 液壓泵 第1部分:葉片泵 (正式版)
- 2024年浙江首考英語聽力原文解惑課件
- 國家基層糖尿病防治管理指南(2022)更新要點解讀-1074177503
評論
0/150
提交評論