Roughsets理論的快速入門方法_第1頁(yè)
Roughsets理論的快速入門方法_第2頁(yè)
Roughsets理論的快速入門方法_第3頁(yè)
Roughsets理論的快速入門方法_第4頁(yè)
Roughsets理論的快速入門方法_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

8.1Roughsets的快速入門方法認(rèn)真研讀RoughSetsTheory的創(chuàng)始人、波蘭數(shù)學(xué)家Z.Pawlak于1982年發(fā)表的第一篇論文“RoughSets”?!咀ⅰ浚鹤詈弥苯娱喿x英文論文原文。

研讀王玨等人1996年在《模式識(shí)別與人工智能》上發(fā)表的關(guān)于RoughSets理論及其應(yīng)用的綜述性文章。參考史忠植編著的《高級(jí)人工智能》、《知識(shí)發(fā)現(xiàn)》等教材中討論粗糙集的有關(guān)章節(jié)?!咀ⅰ浚簢?guó)內(nèi)王國(guó)胤、劉清、張文修、曾黃麟等人先后出版了關(guān)于RoughSets的教材,也可適當(dāng)參考。

8.2粗糙集理論的發(fā)展概述

8.2.1粗糙集理論的提出

自然界中大部分事物所呈現(xiàn)的信息都是:

不完整的、不確定的、模糊的和含糊的

◆經(jīng)典邏輯無(wú)法準(zhǔn)確、圓滿地描述和解決

粗糙集理論主要是為了描述并處理“含糊”信息。粗糙集理論的提出(續(xù)1)“含糊”(Vague)1904年謂詞邏輯創(chuàng)始人G.Frege(弗雷格)首次提出將含糊性歸結(jié)到“邊界線區(qū)域”(Boundaryregion)在全域上存在一些個(gè)體,它既不能被分類到某一個(gè)子集上,也不能被分類到該子集的補(bǔ)集上……“模糊集”(FuzzySets)1965年美國(guó)數(shù)學(xué)家L.A.Zadeh首次提出無(wú)法解決G.Frege提出的“含糊”問(wèn)題未給出計(jì)算含糊元素?cái)?shù)目的數(shù)學(xué)公式……粗糙集理論的提出(續(xù)2)“粗糙集”(RoughSets)1982年波蘭數(shù)學(xué)家Z.Pawlak首次提出將邊界線區(qū)域定義為“上近似集”與“下近似集”的差集指出在“真”、“假”二值之間的“含糊度”是可計(jì)算的給出計(jì)算含糊元素?cái)?shù)目的計(jì)算公式借鑒了集合論中的“等價(jià)關(guān)系”(不可區(qū)分關(guān)系)求取大量數(shù)據(jù)中的最小不變集合(稱為“核”)求解最小規(guī)則集(稱為“約簡(jiǎn)”)……粗糙集理論的提出(續(xù)3)粗糙集理論中的一些基本觀點(diǎn)“概念”就是對(duì)象的集合“知識(shí)”就是將對(duì)象進(jìn)行分類的能力(“各從其類”)“知識(shí)”是關(guān)于對(duì)象的屬性、特征或描述的刻劃不可區(qū)分關(guān)系表明兩個(gè)對(duì)象具有相同的信息提出上近似集、下近似集、分類質(zhì)量等概念……8.2.2粗糙集理論的發(fā)展歷程1970s,Pawlak和波蘭科學(xué)院、華沙大學(xué)的一些邏輯學(xué)家,在研究信息系統(tǒng)邏輯特性的基礎(chǔ)上,提出了粗糙集理論的思想。在最初的幾年里,由于大多數(shù)研究論文是用波蘭文發(fā)表的,所以未引起國(guó)際計(jì)算機(jī)界的重視,研究地域僅限于東歐各國(guó)。1982年,Pawlak發(fā)表經(jīng)典論文《Roughsets》,標(biāo)志著該理論正式誕生。粗糙集理論的發(fā)展歷程(續(xù)1)1991年,Pawlak的第一本關(guān)于粗糙集理論的專著《Roughsets:theoreticalaspectsofreasoningaboutdata》;1992年,Slowinski主編的《Intelligencedecisionsupport:handbookofapplicationsandadvancesofroughsetstheory》的出版,奠定了粗糙集理論的基礎(chǔ),有力地推動(dòng)了國(guó)際粗糙集理論與應(yīng)用的深入研究。1992年,在波蘭召開(kāi)了第一屆國(guó)際粗糙集理論研討會(huì),有15篇論文發(fā)表在1993年第18卷的《Foundationofcomputinganddecisionsciences》上。粗糙集理論的發(fā)展歷程(續(xù)2)1993和1994年,分別在加拿大、美國(guó)召開(kāi)第二、三屆國(guó)際粗糙集與知識(shí)發(fā)現(xiàn)(或軟計(jì)算)研討會(huì)。1995年,Pawlak等人在《ACMCommunications》上發(fā)表“Roughsets”,極大地?cái)U(kuò)大了該理論的國(guó)際影響。1996~1999年,分別在日本、美國(guó)、美國(guó)、日本召開(kāi)了第4-7屆粗糙集理論國(guó)際研討會(huì)。2000年,在加拿大召開(kāi)了第二屆粗糙集與計(jì)算趨勢(shì)國(guó)際會(huì)議。粗糙集理論的發(fā)展歷程(續(xù)3)2001~2002,中國(guó)分別在重慶、蘇州召開(kāi)第一、二屆粗糙集與軟計(jì)算學(xué)術(shù)會(huì)議。2003年,在重慶召開(kāi)粗糙集與軟計(jì)算國(guó)際研討會(huì)。2004年,在瑞典召開(kāi)RSCTC國(guó)際會(huì)議(年會(huì))。2005年,在加拿大召開(kāi)RSFDGrC國(guó)際會(huì)議(年會(huì))。……8.2.3粗糙集理論的優(yōu)點(diǎn)及局限性主要優(yōu)點(diǎn)除數(shù)據(jù)集之外,無(wú)需任何先驗(yàn)知識(shí)(或信息)對(duì)不確定性的描述與處理相對(duì)客觀……【說(shuō)明】:Bayes理論、模糊集理論、證據(jù)理論等都需要先驗(yàn)知識(shí),具有很大的主觀性。粗糙集理論的優(yōu)點(diǎn)及局限性(續(xù))局限性缺乏處理不精確或不確定原始數(shù)據(jù)的機(jī)制對(duì)含糊概念的刻劃過(guò)于簡(jiǎn)單無(wú)法解決所有含糊的、模糊的不確定性問(wèn)題需要其它方法的補(bǔ)充……解決辦法與模糊集理論相結(jié)合與Dempster-Shafer證據(jù)理論相結(jié)合……8.2.4粗糙集理論在知識(shí)發(fā)現(xiàn)中的作用在數(shù)據(jù)預(yù)處理過(guò)程中,粗糙集理論可以用于對(duì)遺失數(shù)據(jù)的填補(bǔ)。在數(shù)據(jù)準(zhǔn)備過(guò)程中,利用粗糙集理論的數(shù)據(jù)約簡(jiǎn)特性,對(duì)數(shù)據(jù)集進(jìn)行降維操作。在數(shù)據(jù)挖掘階段,可將粗糙集理論用于分類規(guī)則的發(fā)現(xiàn)。粗糙集理論在知識(shí)發(fā)現(xiàn)中的作用(續(xù))在數(shù)據(jù)挖掘階段的主要作用通過(guò)布爾推理挖掘出約簡(jiǎn)的規(guī)則來(lái)解釋決策通過(guò)熵理論將規(guī)則的復(fù)雜性和預(yù)測(cè)的誤差分析溶入到無(wú)條件的度量中與模糊集理論、證據(jù)理論構(gòu)成復(fù)合分析方法搜尋隱含在數(shù)據(jù)中的確定性或非確定性的規(guī)則……在解釋與評(píng)估過(guò)程中,粗糙集理論可用于對(duì)所得到的結(jié)果進(jìn)行統(tǒng)計(jì)評(píng)估。8.2.5粗糙集理論的研究現(xiàn)狀在理論研究方面數(shù)學(xué)性質(zhì):研究其代數(shù)與拓?fù)浣Y(jié)構(gòu)、收斂性等粗糙集拓廣:廣義粗糙集模型、連續(xù)屬性離散化與其它不確定性處理方法的關(guān)系和互補(bǔ):與模糊集理論、Dempster-Shafer證據(jù)理論的關(guān)系和互補(bǔ)粒度計(jì)算:粗糙集理論是其重要組成之一高效算法:導(dǎo)出規(guī)則的增量式算法、簡(jiǎn)約的啟發(fā)式算法、并行算法、現(xiàn)有算法的改進(jìn)……粗糙集理論的研究現(xiàn)狀(續(xù))在數(shù)據(jù)挖掘領(lǐng)域的應(yīng)用發(fā)現(xiàn)數(shù)據(jù)之間(精確或近似)的依賴關(guān)系評(píng)價(jià)某一分類(屬性)的重要性剔除冗余屬性數(shù)據(jù)集的降維發(fā)現(xiàn)數(shù)據(jù)模式挖掘決策規(guī)則在其它領(lǐng)域的應(yīng)用金融商業(yè)……8.3粗糙集理論的基本原理“知識(shí)”的定義使用等價(jià)關(guān)系集R對(duì)離散表示的空間U進(jìn)行劃分,知識(shí)就是R對(duì)U劃分的結(jié)果。“知識(shí)庫(kù)”的形式化定義等價(jià)關(guān)系集R中所有可能的關(guān)系對(duì)U的劃分表示為:K=(U,R)8.3.1基本概念基本概念(續(xù)1)“信息系統(tǒng)”的形式化定義S={U,Q,V,f},U:對(duì)象的有限集Q:屬性的有限集,Q=C

D,C是條件屬性子集,D是決策屬性子集V:,Vp是屬性P的域f:U×A→

V是總函數(shù),使得

對(duì)每個(gè)xi

U,q

A,有f(xi,q)

Vq一個(gè)關(guān)系數(shù)據(jù)庫(kù)可看作一個(gè)信息系統(tǒng),其“列”為“屬性”,“行”為“對(duì)象”。基本概念(續(xù)2)基本集合(Elementaryset)/原子(Atom)關(guān)系R的等價(jià)類(Equivalenceclasses)U/R表示近似空間A上所有的基本集合(原子)不可區(qū)分(等價(jià)、不分明)關(guān)系U為論域,R是U

U上的等價(jià)(Equivalence)關(guān)系(即滿足自反、對(duì)稱、傳遞性質(zhì))A={U,R}稱為近似空間,R為不分明關(guān)系(indiscernibility,或不可區(qū)分關(guān)系、等價(jià)關(guān)系)若x,y

U,(x,y)

R,則x,y在A中是不分明的(不可區(qū)分的)基本概念(續(xù)3)不可區(qū)分(等價(jià)、不分明)關(guān)系(續(xù))設(shè)P

Q,xi,xj

U,定義二元關(guān)系IND

P

稱為不分明關(guān)系為:稱xi,xj在S中關(guān)于屬性集P是不分明的,當(dāng)且僅當(dāng)p(xi)=p(xj)對(duì)所有的p

P成立,即xi,xj不能用P中的屬性加以區(qū)別。若x,y

U,(x,y)

R,則x,y在A中是不分明的(不可區(qū)分的)對(duì)所有的p

P,IND

P

是U上一種的等價(jià)關(guān)系factweatherroadtimeaccident1mistyicydayyes2foggyicynightyes3mistynoticynightyes4sunnyicydayno5foggynoticyduskyes6mistynoticynightno不可區(qū)分關(guān)系(等價(jià)關(guān)系)示例可知,U={1,2,3,4,5,6}R=2{weather,road,time,accident}若P={weather,road},則[x]IND(p)=[x]IND{weather}

[x]INP{road}={{1,3,6},{2,5},{4}}

{{1,2,4},{3,5,6}}={{1},{2},{4},{3,6},{5}}不可區(qū)分關(guān)系(等價(jià)關(guān)系)示例(續(xù))8.3.2集合的上近似&下近似

在信息系統(tǒng)S={U,Q,V,f}中,設(shè)X

U是個(gè)體全域上的子集,P

Q則X的下和上近似集及邊界區(qū)域分別為:

PX是X

U上必然被分類的那些元素的集合,即包含在X內(nèi)的最大可定義集;

X是U上可能被分類的那些元素的集合,即包含X的最小可定義集。

Bnd(X)是既不能在X

U上被分類,又不能在U-X上被分類的那些元素的集合。

圖8.1集合的上、下近似概念示意X上、下近似關(guān)系舉例:

X1={u|Flu(u)=yes}={u2,u3,u6,u7}

RX1={u2,u3}

={u2,u3,u6,u7,u5,u8}X2={u|Flu(u)=no}={u1,u4,u5,u8}

RX2={u1,u4}

={u1,u4,u5,u8,

u6,u7}TheindiscernibilityclassesdefinedbyR={Headache,Temp.}are:{u1},{u2},{u3},{u4},{u5,u7},{u6,u8}.上、下近似集的圖示:R={Headache,Temp.}U/R={{u1},{u2},{u3},{u4},{u5,u7},{u6,X1={u|Flu(u)=yes}={u2,u3,u6,u7}X2={u|Flu(u)=no}={u1,u4,u5,u8}RX1={u2,u3}

={u2,u3,u6,u7,u5,u8}RX2={u1,u4}={u1,u4,u5,u8,u6,u7}u1u4u3X1X2u5u7u2u6u88.3.3近似精度&分類質(zhì)量

設(shè)S={U,Q,V,f}為一信息系統(tǒng),且X

U,P

Q,則S上X的近似精度為:設(shè)S為一信息系統(tǒng),P

Q,且令

={X1,X2,…,Xn}是U的一個(gè)分類(子集族),其中Xi

U,則

的P-下近似和P-上近似分別表示為:分類

的近似精度為:

由屬性子集P

Q確定的分類

的分類質(zhì)量為:分類質(zhì)量表示通過(guò)屬性子集P正確分類的對(duì)象數(shù)與信息系統(tǒng)中所有對(duì)象數(shù)的比值。這是評(píng)價(jià)屬性子集P的重要性的關(guān)鍵指標(biāo)之一。

一個(gè)申請(qǐng)信用卡的訓(xùn)練集:申請(qǐng)人編號(hào)條件屬性決策屬性dc1賬號(hào)c2余額c3職業(yè)c4月消費(fèi)1銀行中(700)有低接受2銀行低(300)有高拒絕3無(wú)低(0)有中拒絕4其它機(jī)構(gòu)高(1200)有高接受5其它機(jī)構(gòu)中(800)有高拒絕6其它機(jī)構(gòu)高(1600)有低接受7銀行高(3000)無(wú)中接受8無(wú)低(0)無(wú)低拒絕

原始屬性集A={c1,c2,c3,c4}的分類質(zhì)量:令R={c2,c4},重新計(jì)算分類質(zhì)量,得

8.3.4屬性約簡(jiǎn)&“核”

屬性約簡(jiǎn)(AttributeReduction):在一個(gè)信息系統(tǒng)S中,設(shè)

是S上的一個(gè)分類,經(jīng)約簡(jiǎn)后的最小屬性子集具有同原始屬性集相同的分類質(zhì)量,即存在R

P

Q,使得

R()=P(),稱之為屬性集P的

-約簡(jiǎn),記作REDU

(P)。所有

-約簡(jiǎn)的交集稱為

-核,即CORE

(P)=

REDU

(P),核是信息系統(tǒng)中一系列最重要的屬性。

【說(shuō)明】:在大多數(shù)情況下,分類是由幾個(gè)甚至一個(gè)屬性來(lái)決定的,而不是由關(guān)系數(shù)據(jù)庫(kù)中的所有屬性的微小差異來(lái)決定。屬性約簡(jiǎn)及核的概念為提取系統(tǒng)中重要屬性及其值提供了有力的數(shù)學(xué)工具,而且這種約簡(jiǎn)是本著不破壞原始數(shù)據(jù)集的分類質(zhì)量的,通俗地說(shuō),它是完全“保真”的。

關(guān)于核的計(jì)算,有人提出了差別矩陣(discernibilitymatrix,也譯作可辨識(shí)矩陣)。在信息系統(tǒng)S=(U,C

D,V,f)中,C為條件屬性,D為決策屬性,設(shè)為對(duì)象全集U按決策屬性D被分成不相交的類族,即={X1,X2,…,Xm},則S中C的差別矩陣M(C)={mi,j}nxn定義為其中,1

i

j

n。

差別矩陣與信息系統(tǒng)的核有如下關(guān)系:對(duì)所有的c

C,c

CORE(C,D)的充要條件是,存在i,j(1

i

j

n),使得mi,j={c}?!昂笔侵阜謩e屬于兩個(gè)不同類的對(duì)象具有完全相同的條件屬性,在差別矩陣中,xi,xj是含糊的充要條件是存在i,j(1

i

j

n),使得mi,j={-1}。

申請(qǐng)人編號(hào)條件屬性

決策屬性dc1賬號(hào)c2余額c3職業(yè)c4月消費(fèi)1銀行中(700)有低接受2銀行低(300)有高拒絕3無(wú)低(0)有中拒絕4其它機(jī)構(gòu)高(1200)有高接受5其它機(jī)構(gòu)中(800)有高拒絕6其它機(jī)構(gòu)高(1600)有低接受7銀行高(3000)無(wú)中接受8無(wú)低(0)無(wú)低拒絕

因決策d={接受,拒絕},故上表按決策屬性d可分為兩個(gè)等價(jià)類:{x1,x4,x6,x7}和{x2,x3,x5,x8}。根據(jù)差別矩陣的計(jì)算公式可得:

差別矩陣與“核”有如下關(guān)系:屬性c是條件屬性C和決策屬性D的“核”的充要條件是,存在i,j(1<i<j<n),使得mij

={c}。由上述矩陣可知,存在i=4,j=5,使得m4,5={c2},故表1的“核”為{c2}。

實(shí)例:考慮下面的決策表,條件屬性為a,b,c,d,決策屬性為e。U/Aabcdeu110210u200121u320210u400222u511210uu1u2u3u4u5u1

u2a,c,d

u3

a,c,d

u4a,dca,d

u5

a,b,c,d

a,b,d

由上述差別矩陣很容易得到核為:{c}差別函數(shù)fM(S)為:c∧(a∨d),即(a∧c)∨(c∧d)得到兩個(gè)約簡(jiǎn){a,c}和{c,d}根據(jù)得到的兩個(gè)約簡(jiǎn),可得兩個(gè)約簡(jiǎn)后的新決策表U\Aaceu1120u2011u3220u4022u5120U\Acdeu1210u2121u3210u4222U5210例如:下表是醫(yī)學(xué)診斷的一個(gè)信息系統(tǒng)I=(U,A) 。其中,U={e1,e2,...,e7},A={A,T}

{F}。為方便表達(dá),用1表示“是”,0表示“否”;2表示體溫“很高”,1表示體溫“高”,0表示體溫“正常”,則表1.1的簡(jiǎn)化形式如表所示。表醫(yī)學(xué)診斷信息系統(tǒng)的描述實(shí)例頭痛A體溫T流感Fe1是正常否e2是高是e3是很高是e4否正常否e5否高否e6否很高是表簡(jiǎn)化后的決策系統(tǒng)UATFe1100e2111e3121e4000e5010e6021e1e4e5e2(T,1)(A,1)

(T,1)(A,1)e3(T,2)(A,1)

(T,2)(A,1)

(T,2)e6(A,0)

(T,2)(T,2)(T,2)表對(duì)應(yīng)決策為1的決策矩陣

將決策矩陣中的每行的元素進(jìn)行合取,然后進(jìn)行簡(jiǎn)化,得到相應(yīng)的必然規(guī)則:

(T,1)((A,1)(T,1))(A,1)(F,1)得(T,1)(A,1)(F,1) (1)

(T,2)((A,1)(T,2))((A,1)(T,2))(F,1)得(T,2)(A,1)(F,1) (2)

((A,0)(T,2))(T,2)(T,2)(F,1)得(T,2)(A,0)(F,1) (3)又由(2)和(3)式可知,不管屬性A(頭痛)是否發(fā)生,只要屬性T(體溫)“很高”(值為2)時(shí),則決策屬性F(流感)一定為1,即表明一定是得了“流感”,故有

(T,2)(F,1) (4)8.3.5屬性之間的相關(guān)程度

在信息系統(tǒng)S=(U,C

D,V,f)中,設(shè)D*={X1,X2,…,Xm},屬性子集P

C關(guān)于決策屬性D的“正區(qū)域”定義為:

P關(guān)于D的正區(qū)域表示那些根據(jù)屬性子集P就能正確分入的所有對(duì)象。條件屬性子集P

C與決策屬性D的相關(guān)程度(也稱依賴程度)定義為:顯然,0

k(P,D)

1。k(P,D)為計(jì)算條件屬性子集P與決策屬性D之間的相關(guān)程度提供了非常有力的手段。一個(gè)屬性p

P

C的有效值(significantvalue)定義為:【說(shuō)明】:屬性p的有效值越大,說(shuō)明其對(duì)條件屬性與決策屬性之間的影響越大,即其重要性也越大。8.3.6屬性的有效值(重要性)

申請(qǐng)人編號(hào)條件屬性

決策屬性dc1賬號(hào)c2余額c3職業(yè)c4月消費(fèi)1銀行中(700)有低接受2銀行低(300)有高拒絕3無(wú)低(0)有中拒絕4其它機(jī)構(gòu)高(1200)有高接受5其它機(jī)構(gòu)中(800)有高拒絕6其它機(jī)構(gòu)高(1600)有低接受7銀行高(3000)無(wú)中接受8無(wú)低(0)無(wú)低拒絕已知上表的“核”CORE(C,D)={c2},設(shè)R=CORE(C,D)={c2},計(jì)算屬性A的重要性程度:屬性的重要性計(jì)算舉例屬性的重要性計(jì)算舉例(續(xù))屬性值約簡(jiǎn)(AttributeValueReduction)也稱最小復(fù)合(MinimalComplex)。設(shè)B是一個(gè)由決策值對(duì)(d,w)表示的所有對(duì)象(概念)的下或上近似,集合B依賴于一個(gè)屬性值對(duì)的集合T,當(dāng)且僅當(dāng)集合T是B的最小復(fù)合,當(dāng)且僅當(dāng)B依賴于T,且無(wú)S

T,使得B依賴于S。8.3.7屬性值約簡(jiǎn)No.Age年齡Pregnancies妊娠

body-fatCholesterol膽固醇

Breast-cancer129..411..418..28188..197no242..561..418..28198..320no342..56029..37198..320yes429..41029..37198..320yes557..641..418..28198..320no642..561..418..28188..197yes729..411..418..28188..197no842..561..429..37198..320yes957..641..429..37198..320yes1057..641..418..28188..197no

設(shè)a=Age,b=pregnancies,c=body-fat,d=Cholesterol,條件屬性C={a,b,c,d},決策屬性D={Breast-cancer},得如下差別矩陣:得“核”CORE(C,D)={a,c,d}。經(jīng)屬性約簡(jiǎn)后,刪除多余屬性c,即pregnancies,故得如下表所示的簡(jiǎn)化決策表。No.Agebody-fatCholesterolBreast-cancer129..4118..28188..197no242..5618..28198..320no342..5629..37198..320yes429..4129..37198..320yes557..6418..28198..320no642..5618..28188..197yes729..4118..28188..197no842..5629..37198..320yes957..6429..37198..320yes1057..6418..28188..197no由上表可知,該表存在兩個(gè)決策值對(duì):(Breast-cancer,no)和(Breast-cancer,yes),且

D1=(Breast-cancer,no)={x1,x2,x5,x7,x10} D2=(Breast-cancer,yes)={x3,x4,x6,x8,x9}

此外,有如下屬性值對(duì):A1=(Age,29..41)={x1,x4,x7}A2=(Age,42..56)={x2,x3,x6,x8}A3=(Age,57..64)={x5,x9,x10}B1=(body-fat,18..28)={x1,x2,x5,x6,x7,x10}B2=(body-fat,29..37)={x3,x4,x8,x9}

C1=(Cholesterol,188..197)={x1,x6,x7,x10}C2=(Cholesterol,198..320)={x2,x3,x4,x5,x8,x9}(1)因B2=(body-fat,29..37)={x3,x4,x8,x9}

D2=(Breast-cancer)={x3,x4,x6,x8,x9},令T=B2,T即為B的最小復(fù)合,故可得規(guī)則:(body-fat,29..37)

(Breast-cancer,yes) (1)

同時(shí),根據(jù)最小復(fù)合的定義可知,任何與B2一起構(gòu)成集合T的情況,均非最小復(fù)合。

(2)由于A1

D1且A1

D2,B1

D1且B1

D2,令T={A1,B1},即T={A1,B1}={{x1,x4,x7},{x1,x2,x5,x6,x7,x10}},有且不存在T’

T,使得B依賴于T’,故可得規(guī)則(Age,29..41)&(%body-fat,18..28)

(Breast-cancer,no) (2)(3)同理,令T={A1,C1},得【說(shuō)明】:

雖然T={A1,C1}也是一個(gè)最小復(fù)合,但由于交集{x1,x7}與(2)中相同,說(shuō)明兩者實(shí)際上是同一條規(guī)則,故應(yīng)略去。

要略去哪一條規(guī)則(或者說(shuō)要保留哪一條規(guī)則),則還需考慮哪些屬性更重要,即應(yīng)取最關(guān)鍵的屬性所組成的規(guī)則。

在該例中,由差別矩陣的計(jì)算結(jié)果可知,屬性body-fat的重要性大于屬性Cholesterol,因此略去A1與C1組成的規(guī)則。屬性值約簡(jiǎn)舉例(續(xù))

(4)令T={A1,C2},得A1

C2={x4}

B2,故此種情況已被B2所包含,故不必單獨(dú)生成一條規(guī)則。(5)令T={A2,B1},得A2

B1={x2,x6}

D1,且

D2,故不能生成一條規(guī)則。(6)令T={A2,C1},得A2

C1={x6}

D2={x3,x4,x6,x8,x9},故有(Age,42..56)&(Cholesterol,188..197)

(Breast-cancer,yes)(3)

(7)令T={A2,C2},得A2

C2={x2,x3,x8}

D1,且

D2,故不能生成一條規(guī)則。(8)令T={A3,B1},得A3

B1={x5,x10}

D1={x1,x2,x5,x7,x10},故有(Age,57..64)&(body-fat,18..28)

(Breast-cancer,no)(4)

(9)令T={A3,C1},得A3

C1={x10}

A3

B1={x5,x10},故已被規(guī)則(4)所包含,無(wú)需生成一條規(guī)則。(10)令T={A3,C2},得A3

C2={x5,x9}

D1,且

D2,故不能生成一條規(guī)則。(11)令T={B1,C1},得B1

C1=C1={x1,x6,x7,x10}

D1,且

D2,故不能生成一條規(guī)則。(12)令T={B1,C2},得B1

C2={x2,x5}

D1={x1,x2,x5,x7,x10},有(body-fat,18..28)&(Cholesterol,198..320)

(Breast-cancer,no) (5)屬性值約簡(jiǎn)舉例(續(xù))因此,共得5條規(guī)則:(body-fat,29..37)

(Breast-cancer,yes) (1)(Age,29..41)&(body-fat,18..28)

(Breast-cancer,no)(2)(Age,42..56)&(Cholesterol,188..197)

(Breast-cancer,yes)(3)(Age,57..64)&(body-fat,18..28)

(Breast-cancer,no) (4)(body-fat,18..28)&(Cholesterol,198..320)

(Breast-cancer,no)(5)【注意】:若取T={A1,B1,C1},則必然存在T的真子集T’,如T’={A1,B1}

T,或{A1,C1},使得即為上述步驟(2)和(3)兩種情況,表明T={A1,B1,C1}不是最小復(fù)合。其余情況類似,故不贅述。8.4計(jì)算實(shí)例長(zhǎng)期以來(lái),中東局勢(shì)一直動(dòng)蕩不安且變幻莫測(cè),有人對(duì)該地區(qū)的局勢(shì)進(jìn)行了較深入的研究,并總結(jié)出中東局勢(shì)所牽涉的主要國(guó)家/地區(qū)及其關(guān)心的主要問(wèn)題,如下表所示。主要問(wèn)題國(guó)家地區(qū)建立自治的巴勒斯坦國(guó)(a)以色列沿著約旦河部署軍隊(duì)(b)以占領(lǐng)東耶路撒冷(c)以軍駐守在戈蘭高地(d)承認(rèn)巴勒斯坦人國(guó)籍(e)UN大會(huì)的決議(f)1:以色列反對(duì)贊同贊同贊同贊同Reject2:埃及贊同中立反對(duì)反對(duì)反對(duì)Accept3:巴勒斯坦贊同反對(duì)反對(duì)反對(duì)中立Accept4:約旦中立反對(duì)反對(duì)中立反對(duì)Reject5:敘利亞贊同反對(duì)反對(duì)反對(duì)反對(duì)Reject6:沙特阿拉伯中立贊同反對(duì)中立贊同Reject其中,聯(lián)合國(guó)(UN)大會(huì)的決議(f)為決策屬性,其它均為條件屬性。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論