數(shù)據(jù)倉庫第七章_第1頁
數(shù)據(jù)倉庫第七章_第2頁
數(shù)據(jù)倉庫第七章_第3頁
數(shù)據(jù)倉庫第七章_第4頁
數(shù)據(jù)倉庫第七章_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)倉庫第七章2024/3/27數(shù)據(jù)倉庫第七章第七章概念描述(續(xù))

DB中存放大量細節(jié)性數(shù)據(jù),而用戶通常希望以簡潔的描述形式觀察匯總的數(shù)據(jù)集。這種描述可提供某類數(shù)據(jù)的概貌以及與其他數(shù)據(jù)類的區(qū)別。此外,用戶希望方便靈活地以不同的粒度和從不同的角度描述數(shù)據(jù)集。這種描述性數(shù)據(jù)挖掘稱為概念描述,它是數(shù)據(jù)挖掘的一個重要部分。數(shù)據(jù)倉庫第七章7.1概念描述基本知識概念:通常指數(shù)據(jù)的匯集。概念描述:是描述式數(shù)據(jù)挖掘最基本形式,它以簡潔匯總的形式描述給定數(shù)據(jù)集,提供數(shù)據(jù)的有趣的一般特性。數(shù)據(jù)倉庫第七章7.1概念描述基本知識(續(xù))概念描述的組成:特征化:提供了一個有關(guān)數(shù)據(jù)整體的簡潔清晰描述。(定性描述)比較:提供了基于多組不同類數(shù)據(jù)的對比概念描述。(對比定性描述)數(shù)據(jù)倉庫第七章7.1概念描述基本知識(續(xù))

概念描述與數(shù)據(jù)概化密切相關(guān)。給定存放在DB中的大量數(shù)據(jù),能夠以簡潔的形式在更一般的抽象層描述數(shù)據(jù)是很有用的。允許數(shù)據(jù)集在多個抽象層概化,便于考察數(shù)據(jù)的一般行為。這種多維,多層數(shù)據(jù)概化類似于DW中的多維數(shù)據(jù)分析。而概念描述類似于DW的OLAP。數(shù)據(jù)倉庫第七章7.1概念描述基本知識(續(xù))

大型數(shù)據(jù)庫的概念描述和數(shù)據(jù)倉庫的OLAP有何差別?概念描述可處理復(fù)雜的數(shù)據(jù)類型和聚集。概念描述是自動處理數(shù)據(jù)挖掘過程。數(shù)據(jù)倉庫第七章7.1概念描述基本知識(續(xù))

概念描述的方法包括多層概化、匯總、特征化和比較。這些方法形成實現(xiàn)數(shù)據(jù)挖掘的兩個主要功能模塊的基礎(chǔ):多層特征化和比較。數(shù)據(jù)倉庫第七章第七章概念描述7.1概念描述基本知識7.2數(shù)據(jù)概化與基于匯總的特征化7.3解析特征化—屬性相關(guān)分析7.4挖掘概念比較—區(qū)分不同的類數(shù)據(jù)倉庫第七章7.2數(shù)據(jù)概化與基于匯總的

特征化

數(shù)據(jù)概化是一個分析過程,它將DB中與任務(wù)相關(guān)的大數(shù)據(jù)集從較低的概念層抽象到較高的概念層。對大量數(shù)據(jù)進行有效靈活的概化方法主要有兩種:數(shù)據(jù)立方體方法基于屬性的歸納方法數(shù)據(jù)倉庫第七章1.數(shù)據(jù)立方體方法

利用數(shù)據(jù)立方體方法進行數(shù)據(jù)概化,被分析的數(shù)據(jù)存放在一個多維數(shù)據(jù)庫中,通過對多維數(shù)據(jù)立方進行上卷或下鉆操作,可完成數(shù)據(jù)概化和數(shù)據(jù)細化工作。數(shù)據(jù)倉庫第七章1.數(shù)據(jù)立方體方法(續(xù)) 數(shù)據(jù)立方體提供了一種有效的數(shù)據(jù)概化方法,且構(gòu)成了描述性數(shù)據(jù)挖掘中一個重要功能。但由于OLAP的數(shù)據(jù)立方實現(xiàn)是將維的類型限制在簡單非數(shù)值類型,且將處理限制在簡單數(shù)據(jù)匯總方面,因此數(shù)據(jù)立方體并不能解決概念描述所能解決的一些重要問題。如:描述中應(yīng)作用哪些維?概化過程應(yīng)進行到哪個抽象層次上?這些問題均是由用戶負責提供答案的。數(shù)據(jù)倉庫第七章2.基于屬性歸納方法基本思想:首先使用RDB查詢收集任務(wù)相關(guān)的數(shù)據(jù);然后通過考察任務(wù)相關(guān)數(shù)據(jù)中每個屬性的不同值的個數(shù),進行概化。數(shù)據(jù)概化是通過屬性刪除或?qū)傩愿呕僮鱽硗瓿?。通過合并相同行并累計它們相應(yīng)的個數(shù)。這自然就減少了概化后數(shù)據(jù)集的大小,所獲結(jié)果以圖表、規(guī)則等多種不同形式提供給用戶。數(shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù))例1:從一個大學數(shù)據(jù)庫的學生數(shù)據(jù)中挖掘出研究生的一般特征。給定的屬性有:姓名、性別、專業(yè)、出生地、出生日期、居住地、電話和GPA(平均等級分)。AOI方法的第一步:

利用DB查詢語言從大學DB中將學生數(shù)據(jù)抽取出來,然后指定一組與挖掘任務(wù)相關(guān)的屬性集。數(shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù)) 由于數(shù)據(jù)挖掘查詢通常只涉及DB的一部分,選擇相關(guān)的數(shù)據(jù)集不僅使得挖掘更有效,而且與在整個DB挖掘相比,能產(chǎn)生更有意義的規(guī)則。 對用戶而言,指定挖掘的屬性可能比較困難。有時,用戶只能選擇少量他感到可能重要的屬性,而遺漏在描述中可能起作用的其他屬性。數(shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù))如:出生地維由屬性城市、省和國家定義。在這些屬性中,用戶或許只考慮了城市屬性。為了對出生地進行概化處理,就必須將出生地概化所涉及到的其它屬性包含進來。換句話說,系統(tǒng)自動地包括省和國家作為相關(guān)屬性,使得城市可以在歸納過程中概化到較高的概念層。數(shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù)) 另一方面,用戶可能引進過多的屬性,如:指定所有的屬性,這樣大學DB的所有屬性都將包含在分析中,而有些屬性對有趣的描述是沒有用的。數(shù)據(jù)倉庫第七章姓名性別專業(yè)出生地出生日居住地電話GPA王東海男CS合肥市79.07.26合肥市金寨路6567李哲男CS合肥市80.12.08合肥市蕪湖路18670汪燕女PH上海市80.09.03上海市高安路1250號021-623819603.83初始工作關(guān)系:任務(wù)相關(guān)數(shù)據(jù)的集合數(shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù))對已經(jīng)準備好的數(shù)據(jù),如何進行基于屬性歸納?AOI方法的第二步:

進行數(shù)據(jù)概化操作,可用兩種方法之一進行:屬性刪除,屬性概化。數(shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù))屬性刪除基于如下規(guī)則:若一個屬性有許多不同數(shù)值,且(a)該屬性無法進行概化操作(如:沒有定義相應(yīng)的概念分層),或(b)它的更高層次概念是用其他屬性描述的,則該屬性應(yīng)當從數(shù)據(jù)集中刪除。數(shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù))屬性概化基于如下規(guī)則:若一個屬性有許多不同數(shù)值,且該屬性存在一組概化操作,則可以選擇一個概化操作對該屬性進行處理。

屬性刪除和屬性概化兩個規(guī)則都表明,如果某屬性有大量的不同值,應(yīng)當進行進一步概化。這就提出一個問題:多大才算“屬性具有大量不同值”?數(shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù)) 這取決于屬性或應(yīng)用,有的用戶愿意讓屬性留在較低的抽象層,而另一些用戶愿意將它們概化到較高的抽象層。控制將屬性概化到多高的抽象層通常是相當主觀的。該過程的控制稱為屬性概化控制。數(shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù))若屬性概化得“太高”,則導(dǎo)致過分概化,產(chǎn)生的規(guī)則可能沒有多少信息。若屬性概化沒有達到“足夠高的層次”,則“亞概化”也同樣可能使得到的規(guī)則變得失去意義。因此在基于屬性歸納時,掌握概化平衡非常重要。數(shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù)) 有許多控制概化過程的方法,下面是兩種常用的方法:(1)屬性概化閾值控制 該技術(shù)是對所有屬性統(tǒng)一設(shè)置一個概化閾值(取值范圍一般為2到8)。如果屬性的不同值個數(shù)大于屬性概化閾值,則應(yīng)當進行進一步的屬性刪除或?qū)傩愿呕?。?shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù))(2)概化關(guān)系閾值控制 為概化關(guān)系設(shè)置一個閾值(通常取值范圍為10到30)。如果概化關(guān)系中不同元組的個數(shù)超過該閾值,則應(yīng)當進一步概化;否則,不再進一步概化。數(shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù))

這兩種技術(shù)可以順序使用:首先使用屬性概化閾值控制技術(shù)概化每個屬性,然后使用概化關(guān)系閾值控制進一步減少概化關(guān)系的(規(guī)模)大小。無論使用哪種概化控制技術(shù),都應(yīng)當允許用戶調(diào)整概化閾值,以便得到有趣的規(guī)則。數(shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù))例1(續(xù)):對前面得到的初始工作關(guān)系的每個屬性,概化過程如下:1)姓名:由于姓名存在大量不同值,并且其上沒有定義概念分層,該屬性被刪除。2)性別:由于性別只有兩個不同值,該屬性保留,并不對其進行概化。數(shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù))3)專業(yè):假設(shè)定義了一個概念分層,從而可以對專業(yè)屬性進行概化。又假設(shè)屬性概化閾值置為5,在初始數(shù)據(jù)集合中有25個不同取值。則通過對屬性概化和屬性概化控制,專業(yè)屬性被概化到指定的概念(如:科學,工程,商學)。數(shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù))4)出生地:該屬性有大量不同值,因此應(yīng)當概化它。設(shè)出生地的概念分層為:城市<省<國家。如果初始關(guān)系中,國家取值超過了屬性概化閾值,則出生地應(yīng)當刪除,因為盡管可以進行概化操作,概化閾值也不會滿足。但如果假定國家的取值個數(shù)小于概化閾值,則出生地應(yīng)當概化到出生國家。數(shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù))5)出生日期:假定存在概念分層,可以將出生日期概化到年齡,而年齡概化到年齡分類,并且年齡分類的區(qū)間數(shù)小于對應(yīng)的屬性概化閾值,則應(yīng)當對出生日期進行概化。數(shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù))6)居住地:假定居住地被屬性號碼,街道,城市,省,國家定義。號碼和街道的不同值一般很多,而且這些概念的層次相當?shù)汀R虼?,號碼和街道應(yīng)當刪除,將居住地概化到居住城市。這樣可包含較少的不同值。數(shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù))7)電話:與屬性姓名一樣,因包含太多不同值,應(yīng)當在概化中刪除。8)GPA:假定存在GPA的概念分層,將平均成績分成若干區(qū)間,如:{3.75-4.0,3.5-3.75,…},也可相應(yīng)的描述為:{優(yōu)秀,良好,…},因此該屬性可以被概化。數(shù)據(jù)倉庫第七章2.基于屬性歸納方法(續(xù)) 概化過程會產(chǎn)生一系列內(nèi)容相同的數(shù)據(jù)行,相同內(nèi)容的數(shù)據(jù)行被合并成一個,并累計它們的計數(shù)值。最終結(jié)果如下表:數(shù)據(jù)倉庫第七章性別專業(yè)出生國年齡區(qū)間出生城市GPA累計男科學中國20—25合肥良好16女工程中國25—30上海優(yōu)秀22對初始關(guān)系的數(shù)據(jù)進行基于屬性歸納得到的廣義關(guān)系:數(shù)據(jù)倉庫第七章3.基于屬性歸納算法算法:基于屬性的歸納輸入:(1)關(guān)系DB;(2)數(shù)據(jù)挖掘命令DMQuery;(3)屬性表a_list;(4)屬性ai上的概念分層或概化操作符的集合Gen(a);(5)每個屬性ai概化閾值a_gen_thresh(a)數(shù)據(jù)倉庫第七章3.基于屬性歸納算法(續(xù))輸出:主概化關(guān)系P(包含基于a_list屬性集的一個定性概念描述)

方法:(1)W←get_task_relevant_data(DMQuery,DB);//工作關(guān)系W存放任務(wù)相關(guān)的數(shù)據(jù)(2)prepare_for_generalization(W)//該步實現(xiàn)如下:數(shù)據(jù)倉庫第七章3.基于屬性歸納算法(續(xù))(a)掃描W,收集每個ai屬性取不同值的個數(shù)。(b)對每個屬性ai,根據(jù)給定的或缺省的屬性閾值,確定ai是否應(yīng)當刪除;如果不刪除,則計算它的最小期望層次Li,并確定映射對(v,v’),基中v是W中ai的不同值,v’是其在層Li對應(yīng)的概化值。數(shù)據(jù)倉庫第七章3.基于屬性歸納算法(續(xù))(3)P←generalization(W) 通過用其在映射中對應(yīng)的v’替換W中每個值v,累計計數(shù)并計算所有聚集值,導(dǎo)出主概化關(guān)系P。 這一步可用下面兩種方法有效實現(xiàn):(a)對每個概化元組,通過二分檢索將它插入主關(guān)系P中。如果元組已在P中,則簡單地增加它的計數(shù)值并相應(yīng)處理其他聚集值;否則,將它插入P。數(shù)據(jù)倉庫第七章3.基于屬性歸納算法(續(xù))(b)在大部分情況下,由于主關(guān)系層不同值的個數(shù)很少,可以將主關(guān)系編碼,作為m_維數(shù)組,其中m是P中的屬性數(shù),而每個維包含對應(yīng)的概化屬性值。數(shù)組的每個元素存放對應(yīng)的計數(shù)和其他聚集值。概化元組的插入通過對應(yīng)的數(shù)組元素上的度量聚集進行。數(shù)據(jù)倉庫第七章4.基于屬性歸納結(jié)果的表示基于屬性歸納方法的挖掘結(jié)果可以有多種輸出表示形式。數(shù)據(jù)倉庫第七章地點商品銷售額(百萬)個數(shù)累計(千)亞洲電視15300歐洲電視12250北美電視28450亞洲電腦1201000歐洲電腦1501200北美電腦2001800表格表示描述數(shù)據(jù)倉庫第七章地點或商品電視電腦電視+電腦銷售額累計銷售額累計銷售額累計亞洲1530012010001351300歐洲1225015012001621450北美2845020018002282250所有地區(qū)45100047040005255000組合表表示描述數(shù)據(jù)倉庫第七章棒圖表示描述數(shù)據(jù)倉庫第七章第七章概念描述7.1概念描述基本知識7.2數(shù)據(jù)概化與基于匯總的特征化7.3解析特征化—屬性相關(guān)分析7.4挖掘概念比較—區(qū)分不同的類數(shù)據(jù)倉庫第七章7.3解析特征化—屬性相關(guān)分析1.屬性相關(guān)分析意義 在挖掘定性概念描述知識過程中,DW和OLAP工具中的多維數(shù)據(jù)分析有兩個局限:一是無法處理復(fù)雜對象,二是缺乏自動概化過程。數(shù)據(jù)倉庫第七章1.屬性相關(guān)分析意義(續(xù)) 通常,用戶告訴數(shù)據(jù)挖掘系統(tǒng)每個維應(yīng)當概化到多高層次并不困難,但確定數(shù)據(jù)集的定性描述應(yīng)包含哪些屬性是一件困難的事。我們引進一些方法進行屬性(或維)相關(guān)分析,以過濾掉統(tǒng)計上不相關(guān)或弱相關(guān)的屬性,而保留與挖掘任務(wù)最相關(guān)的屬性。數(shù)據(jù)倉庫第七章1.屬性相關(guān)分析意義(續(xù))包含屬性(維)相關(guān)分析的類特征化稱為解析特征化;包含屬性(維)相關(guān)分析的類比較稱為解析比較。 直觀上,若一個屬性的取值可以幫助有效地區(qū)分不同類別的數(shù)據(jù)集,則這個屬性就被認為是與相應(yīng)類別數(shù)據(jù)集密切相關(guān)的。數(shù)據(jù)倉庫第七章1.屬性相關(guān)分析意義(續(xù))例:一輛汽車的顏色不太可能用于區(qū)分貴賤汽車(類別),但汽車的型號、品牌、制造商、款式和氣缸數(shù)可能是更相關(guān)的屬性。此外,即使在同一個維內(nèi),對于區(qū)分一個類與其他類,在不同的概念層也可能有很不相同的能力。數(shù)據(jù)倉庫第七章1.屬性相關(guān)分析意義(續(xù))例:在出生日維中,生日和生月都不太可能與雇員的工資相關(guān);而只有年齡區(qū)間可能與雇員的工資高度相關(guān)。這意味著相關(guān)分析應(yīng)當在多層次進行,并且只有那些最相關(guān)的維層次應(yīng)當包含在分析中。數(shù)據(jù)倉庫第七章1.屬性相關(guān)分析意義(續(xù))屬性的相關(guān)性要根據(jù)屬性區(qū)分一個類與其他類的能力來評估。在挖掘概念比較時,目標類和對比類要明顯地在挖掘查詢中給出。前面在挖掘概念特征時,只有一個被特征化的類,即沒有說明對比類。哪些對比類應(yīng)當用于相關(guān)分析并非是明顯的。在這種情況下,除特征化的數(shù)據(jù)集外,DB中可比較的數(shù)據(jù)集都作為對比類。數(shù)據(jù)倉庫第七章2.屬性相關(guān)分析方法

屬性相關(guān)分析的基本思想:計算某種度量,用于量化屬性與給定類或概念的相關(guān)性。這些度量包括:信息增益,Gini索引,不確定性和相關(guān)系數(shù)。

數(shù)據(jù)倉庫第七章2.屬性相關(guān)分析方法(續(xù))下面介紹一種方法,它將信息增益分析技術(shù)和基于多維數(shù)據(jù)分析的方法集成在一起。該方法刪除信息量較少的屬性,收集信息較多的屬性,用于概念描述分析。這里以ID3決策樹歸納學習方法為例進行介紹。數(shù)據(jù)倉庫第七章2.屬性相關(guān)分析方法(續(xù))

設(shè)S是訓(xùn)練樣本的集合,其中每個樣本的類標號已知,共有m個不同類別,則S包含si個Ci類樣本,i=1,…,m。任意一個樣本屬于類Ci的概率為si/s,其中s是集合S所有樣本總數(shù)。一個決策樹可用于對數(shù)據(jù)對象進行分類,因此決策樹可以看成是Ci的一個信息源,為產(chǎn)生相應(yīng)信息需要的信息熵為:數(shù)據(jù)倉庫第七章2.屬性相關(guān)分析方法(續(xù))(7.1)

若屬性A的取值為{a1,a2,…,av},且該屬性用作決策樹的一個結(jié)點時,可將S劃分為子集{S1,S2,…,Sv}。其中Sj包含屬性A取同一值aj的數(shù)據(jù)行;Sj包含類Ci的sij個樣本。數(shù)據(jù)倉庫第七章2.屬性相關(guān)分析方法(續(xù))根據(jù)屬性A的取值對當前數(shù)據(jù)集劃分所獲得的信息就稱為屬性A的熵。它的計算公式如下:

(7.2)

A上該劃分得到的信息增益定義為:

Gain(A)=I(s1,s2,…,sm)-E(A)(7.3)數(shù)據(jù)倉庫第七章2.屬性相關(guān)分析方法(續(xù))

ID3方法根據(jù)S集合中數(shù)據(jù)對象來計算每個屬性Gain(A)值,并從中選擇出值最大的作為決策樹根結(jié)點,并根據(jù)該屬性的取值個數(shù)將初始數(shù)據(jù)集劃分為v份,即通過不斷對每個新產(chǎn)生的數(shù)據(jù)子集循環(huán)進行上述操作,直到產(chǎn)生所有葉結(jié)點為止,至此就獲得一個決策樹。數(shù)據(jù)倉庫第七章2.屬性相關(guān)分析方法(續(xù))

概念描述的屬性相關(guān)分析,執(zhí)行步驟如下:(1)數(shù)據(jù)收集:通過查詢處理,收集目標類和對比類的數(shù)據(jù)。(2)使用保守的AOI進行預(yù)相關(guān)分析:這里進行的AOI使用的屬性分析閾值要合理的大,使得更多的屬性在選定度量的進一步相關(guān)分析中被考慮。使用保守AOI得到的關(guān)系稱作候選關(guān)系。數(shù)據(jù)倉庫第七章2.屬性相關(guān)分析方法(續(xù))(3)使用選定的相關(guān)分析度量刪除不相關(guān)和弱相關(guān)屬性:使用選定的相關(guān)分析度量,評估候選關(guān)系中的每個屬性。根據(jù)計算的屬性與數(shù)據(jù)挖掘任務(wù)的相關(guān)性,對屬性排序,然后刪除不相關(guān)和弱相關(guān)屬性。其結(jié)果為初始目標類(對比類)工作關(guān)系。(4)使用AOI產(chǎn)生概念描述:使用一組不太保守的屬性概化閾值進行AOI。數(shù)據(jù)倉庫第七章3.解析特征化實例例2:使用解析特征化挖掘大學數(shù)據(jù)庫里研究生的一般特征描述。執(zhí)行步驟為:(1)收集目標類數(shù)據(jù),它由研究生的集合組成。對比類取本科生的集合。(2)用保守的屬性概化閾值進行基于屬性的歸納,通過屬性刪除和屬性概化進行預(yù)相關(guān)分析(分析過程如例1)。得到下面兩張表:數(shù)據(jù)倉庫第七章性別專業(yè)出生國年齡區(qū)間GPA累計計數(shù)男科學中國21—25良16女科學外國26—30優(yōu)22男工程外國26—30優(yōu)18女科學外國26—30優(yōu)25男科學中國21—25優(yōu)21女工程中國21—25優(yōu)18由解析特征化得到的候選關(guān)系:目標類(研究生)數(shù)據(jù)倉庫第七章由解析特征化得到的候選關(guān)系:對比類(本科生)性別專業(yè)出生國年齡區(qū)間GPA累計計數(shù)男科學外國<=20良18女商學中國<=20及格20男商學中國<=20及格22女科學中國21—25及格24男工程外國21—25良22女工程中國<=20優(yōu)24數(shù)據(jù)倉庫第七章3.解析特征化實例(續(xù))(3)使用選定的相關(guān)分析度量(如信息增益),評估候選關(guān)系中的屬性。設(shè):C1對應(yīng)于研究生類,有120個樣本;C2對應(yīng)于本科生類,有130個樣本。為計算每個屬性的信息增益,首先用公式(7.1)計算對給定的樣本分類所需要的期望信息:數(shù)據(jù)倉庫第七章3.解析特征化實例(續(xù))數(shù)據(jù)倉庫第七章3.解析特征化實例(續(xù))下面計算每個屬性的信息熵,以專業(yè)為例:專業(yè)=“科學”:

S11=84S21=42I(S11,S21)=0.9183專業(yè)=“工程”:

S12=36S22=46I(S12,S22)=0.9892專業(yè)=“商學”:

S13=0S23=42I(S13,S23)=0數(shù)據(jù)倉庫第七章3.解析特征化實例(續(xù))

再利用公式(7.2),如果樣本根據(jù)專業(yè)劃分,則對給定的樣本進行分類所需的期望信息為:數(shù)據(jù)倉庫第七章3.解析特征化實例(續(xù))從而得到,由這樣的劃分的信息增益為:Gain(專業(yè))=I(s1,s2)-E(專業(yè))=0.2115

類似地,也可計算獲得其他屬性的信息增益,它們排序后結(jié)果為:

性別(0.0003),出生國(0.0407),專業(yè)(0.2115),GPA(0.4490),年齡區(qū)間(0.5971)數(shù)據(jù)倉庫第七章3.解析特征化實例(續(xù))若設(shè)定屬性相關(guān)閾值為0.1,以此來判斷弱相關(guān)屬性。屬性性別(0.0003)和出生國(0.0407)

的信息增益小于該閾值,因此被認為是弱相關(guān)的,它們同時從目標類和對比類中被刪除。由此產(chǎn)生初始目標類工作關(guān)系。(4)最后利用前述算法對初始目標類工作關(guān)系進行基于屬性的歸納,并獲得研究生目標類的概念描述。數(shù)據(jù)倉庫第七章第七章概念描述7.1概念描述基本知識7.2數(shù)據(jù)概化與基于匯總的特征化7.3解析特征化—屬性相關(guān)分析7.4挖掘概念比較—區(qū)分不同的類數(shù)據(jù)倉庫第七章7.4挖掘概念比較—區(qū)分

不同的類 在許多應(yīng)用中,類(或概念)比較是我們感興趣的,它挖掘?qū)⒛繕祟惻c對比類相區(qū)分的描述。但目標類和對比類必須是可比較的,即它們具有相似的維或?qū)傩浴? 在前面討論中,對處理單個類中的多層數(shù)據(jù)匯總和特征化所用的技術(shù),同樣可用于處理多個可比較類的類比較。數(shù)據(jù)倉庫第七章1.概念比較方法與實現(xiàn)概念比較的一般過程如下:(1)數(shù)據(jù)收集(2)屬性相關(guān)分析(3)同步概化(4)挖掘結(jié)果表示數(shù)據(jù)倉庫第七章1.概念比較方法與實現(xiàn)(續(xù))例3:在大學數(shù)據(jù)庫中挖掘研究生與本科生概念對比描述知識。給定了屬性:姓名,性別,專業(yè),出生地,出生日,居住地,電話和GPA。(1)根據(jù)挖掘任務(wù),產(chǎn)生兩條DB查詢命令,分別用于從DB中獲取初始目標數(shù)據(jù)集(研究生)和初始對比數(shù)據(jù)集(本科生)。數(shù)據(jù)倉庫第七章1.概念比較方法與實現(xiàn)(續(xù))(2)對兩個不同類別數(shù)據(jù)集進行屬性相關(guān)分析,消除無關(guān)和弱屬性。如姓名,性別,出生地,居住地和電話,只留下與挖掘任務(wù)密切相關(guān)的屬性供后面的分析使用。(3)進行同步概化:在目標數(shù)據(jù)集和對比數(shù)據(jù)集上進行,概化到用戶指定的閾值控制的層,得到下面兩張表: 數(shù)據(jù)倉庫第七章專業(yè)年齡區(qū)間GPA累計數(shù)%科學21—25良5.53%科學26—30良5.02%科學>30優(yōu)5.86%…………商學>30優(yōu)4.68%目標類的主概化關(guān)系(研究生)數(shù)據(jù)倉庫第七章對比類主概化關(guān)系(本科生)專業(yè)年齡區(qū)間GPA累計數(shù)%科學16—20及格5.53%科學16—20良4.53%科學26—30良2.32%…………商學>30優(yōu)0.68%數(shù)據(jù)倉庫第七章1.概念比較方法與實現(xiàn)(續(xù))由表可看出,與本科生相比,研究生一般趨向于年齡稍大,GPA較高。(4)最后,結(jié)果概念對比描述以表、圖或規(guī)則的形式表示。這種可視化表示包括對比度量(如累計數(shù)%),以突出目標類和比較類之間存在的差異。例如,5.02%的研究生選擇“科學”專業(yè),年齡在26—30之間,GPA為良,而只有2.32%的本科生具有這種性質(zhì)。數(shù)據(jù)倉庫第七章2.概念比較描述的表示

概念比較描述的可視化,可以采用概化關(guān)系、交叉表、條型圖、餅圖、曲線和規(guī)則。除邏輯規(guī)則外,其他形式與概念特征化所用形式相同。這里討論用規(guī)則的形式顯示概念比較。數(shù)據(jù)倉庫第七章2.概念比較描述的表示(續(xù))比較描述中的目標類和對比類的區(qū)分特性,可以用量化區(qū)分規(guī)則量化地描述。量化區(qū)分規(guī)則對描述中每個概化元組附上一個統(tǒng)計興趣度度量d-權(quán)。設(shè)qa是一個概化元組,Cj是目標類。其中,qa覆蓋目標類的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論