已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
山東師范大學(xué)碩士學(xué)位論文 基于粗糙集理論的數(shù)據(jù)挖掘方法的研究 摘要 隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,人們在信息時(shí)代面臨著越來越多的數(shù)據(jù),如何 發(fā)現(xiàn)隱藏在眾多數(shù)據(jù)中的內(nèi)部信息成為人們研究的熱點(diǎn)問題。傳統(tǒng)的數(shù)據(jù)庫管理 系統(tǒng)已經(jīng)不能滿足人們從數(shù)據(jù)庫中抽取隱藏信息的需要,因此提出了知識發(fā)現(xiàn)和 數(shù)據(jù)挖掘的概念。知識發(fā)現(xiàn)是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的, 以及最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘是從數(shù)據(jù)庫的大量數(shù)據(jù)中提取隱 含的、未知的并有潛在價(jià)值的信息和知識的過程。數(shù)據(jù)挖掘是知識發(fā)現(xiàn)中最關(guān)鍵 的步驟,也是知識發(fā)現(xiàn)技術(shù)難點(diǎn),是目前相當(dāng)活躍的研究領(lǐng)域。 粗糙集理論是波蘭數(shù)學(xué)家p a w l a kz 于1 9 8 2 年提出的一種分析模糊和不確定 知識的強(qiáng)有力的數(shù)學(xué)工具。粗糙集理論作為人工智能領(lǐng)域的一個(gè)新的研究熱點(diǎn), 能有效地分析和處理不精確、不一致、不完整等各種不完備信息,并從中紱現(xiàn)隱 含的知識,揭示潛在的規(guī)律。這個(gè)特點(diǎn)使得粗糙集理論非常適合應(yīng)用于數(shù)據(jù)挖掘。 研究基于粗糙集理論的數(shù)據(jù)挖掘方法具有極大的理論價(jià)值和現(xiàn)實(shí)意義。 。 本課題對基于粗糙集理論的數(shù)據(jù)挖掘方法進(jìn)行了系統(tǒng)的研究,主要包括以下 內(nèi)容: l 、介紹了數(shù)據(jù)挖掘和粗糙集的相關(guān)理論。分析了數(shù)據(jù)挖掘和粗糙集的研究 現(xiàn)狀,對其技術(shù)的熱點(diǎn)、研究領(lǐng)域以及未來發(fā)展趨勢進(jìn)行了探討,為本課題的全 面開展奠定了基礎(chǔ)。 2 、對粗糙集理論的約簡算法進(jìn)行了比較深入的研究。約簡算法包括屬性約 簡和屬性值約簡,其中屬性約簡是基于粗糙集理論的數(shù)據(jù)挖掘模型中的關(guān)鍵步 驟,求取高效、快捷的屬性約簡算法是該理論研究的主要課題之_ 。論文介紹了 基本的屬性約簡和屬性值約簡算法,并歸納總結(jié)了啟發(fā)式屬性約簡算法。 3 、在目前屬性約簡算法的基礎(chǔ)上提出了一種基于屬性頻率的改進(jìn)的屬性約 簡算法。該算法基于h o r a f a 算法,是一種啟發(fā)式算法,在計(jì)算區(qū)分矩陣的基 礎(chǔ)上,最終能夠找到?jīng)Q策信息系統(tǒng)的一個(gè)較優(yōu)約簡。 4 、針對傳統(tǒng)的基于粗糙集理論的數(shù)據(jù)挖掘模型存在著不實(shí)用的特點(diǎn),在其 山東師范大學(xué)碩士學(xué)位論文 基礎(chǔ)上提出了一種改進(jìn)的模型。該模型包括數(shù)據(jù)預(yù)處理、屬性約簡和規(guī)則生成三 個(gè)模塊,最后利用算例驗(yàn)證該模型的可行性。 論文的不足在于構(gòu)造數(shù)據(jù)挖掘模型時(shí)只是利用了經(jīng)典的粗糙理論模型, 并沒有考慮粗糙集的擴(kuò)展模型,如變精度粗糙集模型或加權(quán)粗糙集模型,使得最 終模型的應(yīng)用范圍不夠廣泛?;诖植诩碚摰臄?shù)據(jù)挖掘方法研究正處于起步階 段,數(shù)據(jù)挖掘本身及粗糙集理論研究還有許多問題值得討論,論文將二者結(jié)合起 來研究肯定還有許多不完善的地方,相關(guān)工作還有待進(jìn)一步研究。 關(guān)鍵詞:知識發(fā)現(xiàn):數(shù)據(jù)挖掘;粗糙集:約簡 分類號:t p 3 1 1 山東師范大學(xué)碩士學(xué)位論文 t h er e s e a r c ho fd a t am i n i n gm e t h o db a s e do nr o u g hs e tt h e o r y a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e rt e c h n o l o g y , p e o p l ea r ec o n f r o n t e dw i t hm o r e a n dm o r ed a t ai ni n f o r m a t i o na g e h o wt of i n dt h ei n t e r n a li n f o r m a t i o ni nd a t ai sa h o tp o i n tw i t hw h i c hp e o p l ea r ec o n c e r n e d a st r a d i t i o n a ld b m sc a l l ta f f o r dt h e r e q u i r e m e n tw h i c hp e o p l ew a n tt oe x t r a c th i d d e ni n f o r m a t i o n ,t h ec o n c e p t i o n so f k d da n dd a t am i n ga r ee x p o u n d e d k n o w l e d g ed i s c o v e yi nd a t a b a s e si st h e n o n t r i v i a lp r o c e s so fi d e n t i f y i n gv a l i d ,n o v e l ,p o t e n t i a l l yu s e f u la n d u l t i m a t e l y u n d e r s t a n d a b l ep a t t e r n si nd a t a b a s e s d a t am i n i n gi st h ec o r es t e pd u r i n gt h ec o u r s e o f k n o w l e d g ed i s c o v e r yi nd a t a b a s e a tp r e s e n t ,i ti saq u i t ea c t i v er e s e a r c hf i e l d , t h et h e o r yo fr o u g hs e t s ,p r e s e n t e di n1 9 8 2b yp o l i s hm a t h e m a t i c i a np a w l a kz , i sap o w e r f u lm a t h e m a t i c a lt o o lf o ra n a l y z i n gu n c e r t a i n ,f u z z yk n o w l e d g e r o u g h s e t s , a san e wh o t s p o ti nt h ef i e l do fa r t i f i c a li n t e l l i g e n c e ,c a r le f f e c t i v e l yd e a lw i t ht h e e x p r e s s i o na n dd e d u c t i o no fi n c o m p l e t e ,u n c e r t a i nk n o w l e d g e t h et h e o r yo fr o u g h s e t si ss p e c i a l l yf i tf o rt h ea p p l i c a t i o nt od a t a - m i n i n gb e c a u s eo fi tf e a t u r e s n o wt h e m e t h o do fd a t am i n i n gb a s e do nr o u g hs e t sh a sb e c o m eo n eo ft h em a i nm e t h o d so f d a t am i n i n g t h es t u d y0 1 1d a t am i n i n gb a s e dr o u g hs e t sh a sg r e a t l yt h e o r e t i c a la n d r e n i s t i cm e a n i n g t h i st h e s i sr e s e a r c h e st h em e t h o do fd a t am i n i n gb a s e do i l r o u g hs e t s s y s t e m a t i c a l l ya n dd e e p l y t h em a i nc o n t e n t sa r el i s t e da sf o l l o w s : 1 t h ec o r r e c l a t i v et h e o r yo fr o u g hs e t sa n dd a t am i n i n gw a sd e l i v e r e di nt h i s d i s s e r t a t i o n t h et h e s i ss u m m a r i z e sa n dd i s c u s s e st h e i rd e v e l o p m e n t a lt r e n d sa n dh o t r e s e a r c hf i e l d s a l lo f t h ea b o v eb e c o m et h eb a s i sf o rt h i st h e s i s 2 t h e p a p e rr e s e a r c h e st h e r e d u c t i o na l g o r i t h md e e p l y ,w h i c hc o n s i s t so f a t t r i b u t er e d u c t i o na n da t t r i b u t ev a l u er e d u c t i o n a t t r i b u t er e d u c t i o na l g o r i t h mi st h e k e yf o rt h em o d e lo fd a t am i n i n gb a s e do nt h er o u g h s e t s 3 o nt h eb a s i so fk n o w nr e d u c t i o na l g o r i t h m s ,a ni m p r o v e da t t r i b u t er e d u c t i o n 3 山東師范大學(xué)碩士學(xué)位論文 a l g o r i t h mi sp r e s e n t e di nt h i sp a p e r t h i sh e u r i s t i c ,i m p r o v e da t t r i b u t er e d u c t i o n a l g o r i t h m ,b a s e d o nt h eh o r a f aa l g o r i t h m ,c a ng u a r a n t e ear e d u c t i o no ft h e i n f o r m a t i o ns y s t e m 4 a ni m p r o v e dm o d e lo fd a t am i n i n gb a s e do i lt h er o u g hs e t si sp r e s e n t e da f t e r l u c u b r m i n gt h ed e f i c i e n c i e s o ft h et h e o r yo ft r a d i t i o n a lr o u g hs e t s t h em o d e l c o n s i s t so fp r e v i o u sm a n a g e m e n tm o d u l e ,a t t r i b u t er e d u c t i o nm o d u l ea n dr u l e s g e n e r a t i o nm o d u l e a ni n s t a n c ei sg i v e nt op r o v et h ef e a s i b i l i t yo ft h em o d e l t h ed r a w b a c ko ft h i sp a p e ri st h a ti to n l yu s e sc l a s s i c a lr o u g hs e tc o n c e p t i o ni n m a k i n gt h ed a t am i n i n gm o d e l t h ea p p l i c a t i o nr a n g ei sn o tw i d ew i t h o u tu s i n go t h e r e x t e n d e dm o d e l d a t am i n i n gi si nab o o m i n gs t a g ea n dt h e r ea r em a n yp r o b l e m s w o r t hs t u d y i n go nt h ea p p l i c a t i o no f r o u g hs e tt h e o r yi nt h i sf i e l d o u rw o r ki s j u s ta b e g i n n i n g ,a n dr e l a t e dw o r kn e e dt ob ef u r t h e rd e v e l o p e d k e y w o r d s :k n o w l e d g ed i s c o v e r y i nd a t a b a s e ;d a t am i n i n g ;r o u g hs e t s ;r e d u c t i o n c l a s s i f i c a t i o n :t p3 】 4 獨(dú)創(chuàng)聲明 本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的 研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其 他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得( 注:如 沒有其他需要特別聲明的,本欄可空) 或其他教育機(jī)構(gòu)的學(xué)位或證書使用過的材 料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明 并表示謝意。 學(xué)位論文作者簽名:茹叉5 - - 導(dǎo)師簽字 學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者完全了解堂撞有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保 留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。 本人授權(quán)堂撞可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可 以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。( 保密的學(xué)位論文在 解密后適用本授權(quán)書) 學(xué)位論文作者簽名:威二, 導(dǎo)師簽字 簽字r 期:2 0 0 年r 月f 7 同 簽字r 期:2 0 06 年期7 r 山東師范大學(xué)碩士學(xué)位論文 1 1 引言 第一章緒論 隨著人類社會的不斷發(fā)展與進(jìn)步,在后工業(yè)時(shí)代向信息時(shí)代過渡的過程中, 人類面臨著越來越多的數(shù)據(jù)。在數(shù)據(jù)與日俱增、信息瞬息萬變的現(xiàn)實(shí)中及時(shí)做出 正確有效的決策來指導(dǎo)生產(chǎn)生活,就顯得日益重要。要做到這一點(diǎn),人們就必須 洞察深藏于龐大數(shù)據(jù)中的有益知識。所以知識發(fā)現(xiàn)( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ,k d d ) 或數(shù)據(jù)挖掘( d a t am i n i n g ,d m ) 得到了廣泛重視和迅猛發(fā)展【1 】【2 】【3 】。 數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的,它要對數(shù)據(jù)進(jìn)行微觀、中觀乃至宏 觀的統(tǒng)計(jì)、分析、綜合和推理,以指導(dǎo)實(shí)際問題的求解,發(fā)現(xiàn)事件間的相互關(guān)聯(lián), 甚至利用已有的數(shù)據(jù)對未來的活動進(jìn)行預(yù)測。如數(shù)據(jù)挖掘在零售業(yè)中的應(yīng)用,能 夠識別顧客的購買行為,發(fā)現(xiàn)顧客的購買模式和趨勢,改進(jìn)服務(wù)質(zhì)量,取得更好 的顧客保持力和滿意程度,提高貨品銷量,減少商業(yè)成本。數(shù)據(jù)挖掘在電信業(yè)中 的應(yīng)用有助于理解商業(yè)行為,確定電信模式,捕捉盜用行為,更好地利用資源和 提高服務(wù)質(zhì)量。此外,數(shù)據(jù)挖掘在金融系統(tǒng)和生物醫(yī)學(xué)等方面的研究與應(yīng)用也獲 得了大成功,并促進(jìn)了這些行業(yè)的發(fā)展。 進(jìn)行數(shù)據(jù)挖掘的方法有很多,粗糙集方法是主要方法之一。粗糙集理論是上 世紀(jì)8 0 年代初由波蘭數(shù)學(xué)家z p a w l a k 教授提出的,用于研究不完整數(shù)據(jù)和不精 確知識的表達(dá)、學(xué)習(xí)、歸納的數(shù)學(xué)分析理論【”。其特點(diǎn)是算法簡單,無需提供數(shù) 據(jù)之外的任何先驗(yàn)信息,可直接從給定問題的描述集合出發(fā),通過不可分辨關(guān)系 和等價(jià)類確定給定問題的近似域,從而找出該問題的規(guī)律。隨著數(shù)據(jù)挖掘的興起, 粗糙集理論受到越來越多研究人員的重視,因?yàn)樗哂幸韵聨讉€(gè)特點(diǎn): 1 ) 粗糙集是一個(gè)強(qiáng)大的數(shù)據(jù)分析工具。它能表達(dá)和處理不完備信息;能在 保留關(guān)鍵信息的前提下對數(shù)據(jù)進(jìn)行化簡并求得知識的最小表達(dá)式;能識別并評估 數(shù)據(jù)之闖的依賴關(guān)系,揭示出概念簡單的模式;能從經(jīng)驗(yàn)數(shù)據(jù)中獲取易于證實(shí)的 規(guī)則知識,適用于智能控制。 2 ) 粗糙集方法不需要先驗(yàn)知識。模糊集和概率統(tǒng)計(jì)方法是處理不確定信息 的常用方法,但是這些方法需要些數(shù)據(jù)的附加信息或先驗(yàn)信息,如模糊隸屬函 山東師范大學(xué)碩士學(xué)位論文 數(shù)和概率分布等,這些信息有時(shí)并不容易得到。粗糙集方法僅利用數(shù)據(jù)本身所提 供的信息,無須任何先驗(yàn)知識。 3 ) 粗糙集與模糊集分別刻畫了不完備信息的兩個(gè)方面【5 】:粗糙集以不可分 辨關(guān)系為基礎(chǔ),側(cè)重分類,模糊集基于元素對集合隸屬程度的不同,強(qiáng)調(diào)集合本 身的含混性。雖然粗糙集和模糊集特點(diǎn)不同,但它們之間有著密切的關(guān)系,有很 強(qiáng)的互補(bǔ)性【6 j 。 1 2 國內(nèi)外研究現(xiàn)狀 數(shù)據(jù)庫中的知識發(fā)現(xiàn)技術(shù)( k d d ) 是隨著數(shù)據(jù)庫和人工智能技術(shù)的發(fā)展而產(chǎn) 生的。它首次出現(xiàn)于1 9 8 9 年在美國舉行的第十一屆國際人工智能聯(lián)合學(xué)術(shù)會議 上,隨后k d d 及其核心技術(shù)數(shù)據(jù)挖掘得到了廣泛的發(fā)展。1 9 9 5 年,數(shù)據(jù)挖掘 界召開了第一屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際學(xué)術(shù)會議。隨著參與人員的不斷增多, k d d 國際會議發(fā)展成為年會。1 9 9 8 年,在美國紐約舉行的第四屆知識發(fā)現(xiàn)與數(shù) 據(jù)挖掘國際學(xué)術(shù)會議上不僅進(jìn)行了學(xué)術(shù)討論,而且有3 0 多家軟件公司展示了他 們的數(shù)據(jù)挖掘軟件產(chǎn)品,其中的一些軟件產(chǎn)品己在北美、歐洲等國得到應(yīng)用。其 它內(nèi)容的專題會議也把數(shù)據(jù)挖掘和知識發(fā)現(xiàn)列為重要議題之一,數(shù)據(jù)挖掘和知識 發(fā)現(xiàn)己成為當(dāng)前計(jì)算機(jī)科學(xué)界的一大研究熱點(diǎn)。 八十年代初,z p a w l a k 教授提出了用粗糙集理論來研究不完整數(shù)據(jù)、不精確 知識的表達(dá)、學(xué)習(xí)、歸納等方法! 把那些無法確認(rèn)的個(gè)體都?xì)w于邊界線區(qū)域,這 個(gè)區(qū)域被定義為上近似集和下近似集之差集,由于上近似集和下近似集都可以通 過等價(jià)關(guān)系給出確定的數(shù)學(xué)描述,所以含糊元素?cái)?shù)目可以被計(jì)算出來,從而真假 二值之間的含糊程度可以計(jì)算。這套方法與統(tǒng)計(jì)方法處理不確定問題不同,它不 是采用概率方法描述數(shù)據(jù)的不確定性;與這一領(lǐng)域傳統(tǒng)的模糊集合論處理不精確 數(shù)據(jù)的方法也不相同。最初關(guān)于粗糙集理論的研究主要集中在波蘭,當(dāng)時(shí)并沒有 引起國際計(jì)算機(jī)界和數(shù)學(xué)界的重視。直到1 9 9 0 年前后,由于該理論在數(shù)據(jù)的決 策與分析、模式識別、機(jī)器學(xué)習(xí)與知識發(fā)現(xiàn)等方面的成功應(yīng)用,才逐漸引起了世 界各國學(xué)者的廣泛關(guān)注。1 9 9 1 年,z p a w l a k 的專著粗糙集關(guān)于數(shù)據(jù)推理 的理論【4 】問世標(biāo)志著粗糙集理論及其應(yīng)用的研究進(jìn)入了活躍時(shí)期。1 9 9 2 年,在 波蘭召開了關(guān)于粗糙集理論的第一屆國際學(xué)術(shù)會議。1 9 9 5 年,a c m 山東師范大學(xué)碩士學(xué)位論文 c o m m u n i c a t i o n 將粗糙集列為新浮現(xiàn)的計(jì)算機(jī)科學(xué)研究課題。1 9 9 8 ,2 0 0 0 和 2 0 0 2 年,分別召開了三屆r s c t c ( r o u g hs e t sa n d c u r r e n tt r e n d si nc o m p u t i n g ) 國際會議,表明粗糙集的研究已步入發(fā)展期。目前粗糙集理論已成為計(jì)算機(jī)科學(xué) 最為活躍的研究領(lǐng)域之一,在許多應(yīng)用領(lǐng)域已得到發(fā)展,如醫(yī)療數(shù)據(jù)分析、水泥 窯生產(chǎn)控制算法、地理學(xué)、振動分析、飛行員技能評定、開關(guān)電路綜合、語言識 別、近似分類、故障診斷、成本預(yù)測等【7 1 。 國內(nèi)對粗糙集理論的研究始于9 0 年代中期,許多科研單位和高等院校競相 開展相關(guān)領(lǐng)域的基礎(chǔ)理論及應(yīng)用研究,取得了令人鼓舞的成果。2 0 0 1 年5 月, 在重慶郵電學(xué)院舉辦了首屆中國粗糙集和軟計(jì)算學(xué)術(shù)研討會( c r s s c 2 0 0 1 ) , 2 0 0 2 年1 0 月在蘇州大學(xué)舉辦了第二屆中國粗糙集和軟計(jì)算學(xué)術(shù)研討會,2 0 0 3 年 5 月,在重慶郵電學(xué)院同時(shí)舉辦第三屆中國粗糙集和軟計(jì)算學(xué)術(shù)研討會和第九屆 粗糙集、模糊集、數(shù)據(jù)挖掘與粒度計(jì)算國際學(xué)術(shù)會議( r s f d g r c 2 0 0 3 ) ,這些會 議的舉辦表明我國粗糙集理論和數(shù)據(jù)挖掘研究的隊(duì)伍正在不斷壯大,已經(jīng)得到國 際同行的重視和認(rèn)可。粗糙集理論逐漸應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域中,并在對大型數(shù)據(jù) 主 庫中不完整數(shù)據(jù)進(jìn)行分析和學(xué)習(xí)方面取得了顯著的成果,使得粗糙集理論及數(shù)據(jù) 挖掘的研究成為熱點(diǎn)領(lǐng)域。 1 3 本文的研究內(nèi)容 本文主要圍繞著數(shù)據(jù)挖掘和粗糙集理論進(jìn)行了以下幾方面的工作: 1 、介紹了數(shù)據(jù)挖掘和粗糙集理論的基本概念,深入研究了傳統(tǒng)的屬性約簡 算法。 2 、針對現(xiàn)有的屬性約簡算法的缺點(diǎn),在h o r a f a 算法的基礎(chǔ)上給出了一種 改進(jìn)算法叫3 h o r a f a 算法,能夠得到較優(yōu)的約簡。 3 、一提出了一種新的基于粗糙集理論的數(shù)據(jù)挖掘模型,在模型的約簡模塊應(yīng) 用上面提出的g h o r a f a 算法。 1 4 本文的組織結(jié)構(gòu) 本文的組織如下: 第一章為引言部分,對選題意義、研究目標(biāo)以及國內(nèi)外研究動態(tài)進(jìn)行了綜合 山東師范大學(xué)碩士學(xué)位論文 論述。 第二章歸納了數(shù)據(jù)挖掘技術(shù)的總體研究情況,包括數(shù)據(jù)挖掘的定義、挖掘的 主要過程、分類和主要技術(shù)手段。 第三章介紹了粗糙集的基本概念和理論,分析了粗糙集理論的幾個(gè)擴(kuò)展模 型,并簡要介紹了基于粗糙集理論的數(shù)據(jù)挖掘方法。 第四章詳細(xì)介紹了粗糙集理論的約簡算法,包括屬性約簡和屬性值約簡。針 對傳統(tǒng)屬性約簡算法的缺點(diǎn),提出了一種改進(jìn)的屬性約簡算法g h o r a f a 。 第五章提出了一種新的基于粗糙集理論的數(shù)據(jù)挖掘模型框架,利用該模型對 已有的信息系統(tǒng)進(jìn)行規(guī)則提取,取得了較好的結(jié)果。 山東師范大學(xué)碩士學(xué)位論文 第二章數(shù)據(jù)挖掘概述 數(shù)據(jù)挖掘是2 0 世紀(jì)9 0 年代興起的一項(xiàng)新技術(shù),國內(nèi)外學(xué)術(shù)界和企業(yè)晃都非 常重視對數(shù)據(jù)挖掘技術(shù)和軟件的研究和開發(fā)。數(shù)據(jù)挖掘是多門學(xué)科和多門技術(shù)相 結(jié)合的產(chǎn)物,也是一個(gè)非常年輕而又活躍的研究領(lǐng)域。本章概要介紹數(shù)據(jù)挖掘的 定義、挖掘過程以及分類等。 2 1 數(shù)據(jù)挖掘與知識發(fā)現(xiàn)的概述 隨著計(jì)算機(jī)、網(wǎng)絡(luò)和通訊等信息技術(shù)的高速發(fā)展,信息處理在整個(gè)社會規(guī)模 上迅速產(chǎn)業(yè)化,而這種產(chǎn)業(yè)化在技術(shù)上就表現(xiàn)為大規(guī)模數(shù)據(jù)操作的產(chǎn)業(yè)化。近些 年來,商務(wù)貿(mào)易電子化、企業(yè)和政府事務(wù)電子化的迅速普及都產(chǎn)生了大規(guī)模的數(shù) 據(jù),目益增長的科學(xué)計(jì)算和大規(guī)模的工業(yè)生產(chǎn)過程也提供了海量數(shù)據(jù),而日益成 熟的數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)管理系統(tǒng)都為這些海量數(shù)據(jù)的存儲和管理提供了技術(shù)上 的保證。另一方面,計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的長足進(jìn)步和規(guī)模的爆炸性增長,則為數(shù)據(jù) 的傳輸和遠(yuǎn)程交互提供了技術(shù)手段,國際互聯(lián)網(wǎng)更是將全球的信息源納入了一個(gè) 共同的數(shù)據(jù)庫系統(tǒng)中。 毫無疑問,這些龐大的數(shù)據(jù)庫及其中的海量數(shù)據(jù)是極其豐富的信息源,但是 僅依靠傳統(tǒng)的數(shù)據(jù)檢索機(jī)制和統(tǒng)計(jì)分析方法已遠(yuǎn)遠(yuǎn)不能滿足需要。隨著數(shù)據(jù)庫技 術(shù)的迅速發(fā)展和數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多。激增的 數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便 更好的利用這些數(shù)據(jù)。目前的數(shù)據(jù)庫系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的查詢、統(tǒng)計(jì)等功 能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展 趨勢,缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,因此就出現(xiàn)了“數(shù)據(jù)爆炸但知識貧 乏”的現(xiàn)象。 傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)已不能滿足人們對大量數(shù)據(jù)進(jìn)行知識抽取、發(fā)現(xiàn)數(shù)據(jù) 間隱藏的依賴關(guān)系,從而為決策提供科學(xué)支持的需要。在這種狀況下,用數(shù)據(jù)庫 管理系統(tǒng)來存儲數(shù)據(jù),用機(jī)器學(xué)習(xí)的方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后的知識, 這兩者的結(jié)合促成了數(shù)據(jù)庫中的知識發(fā)現(xiàn)的產(chǎn)生。因此,- - 1 7 新興的自動信息提 山東師范大學(xué)碩士學(xué)位論文 取技術(shù):知識發(fā)現(xiàn)和數(shù)據(jù)挖掘,應(yīng)運(yùn)而生并得到迅速發(fā)展。它的出現(xiàn)為自動和智 能地把海量的數(shù)據(jù)轉(zhuǎn)化成有用的信息和知識提供了有效的手段。 “知識發(fā)現(xiàn)”( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 于1 9 9 5 年在加拿大 召開的第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘國際學(xué)術(shù)會議上被賦予了確切的定義。f a y y a 定義k d d i 列為“k n o w l e 電ed i s c o v e r yi nd a t a b a s e si s t h en o n t r i v i a lp r o c e s so f i d e n t i f y i n gv a l i d ,n o v e l ,p o t e n t i a l l yu s e 柚a n du l t i m a t e l yu n d e r s t a n d a b l ep a t 【e m si n d a t a ”即“k d d 是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的以及最終可 理解的模式的非平凡過程”。 數(shù)據(jù)挖掘( d a mm i n i n g ,d m ) 有多種術(shù)語【8 ,如“知識抽取”( i n f o r m m i o n e x t r a c t i o n ) ,“信息發(fā)現(xiàn)”( i n f o r m a t i o nd i s c o v e r y ) 等,是指從數(shù)據(jù)庫的大量數(shù)據(jù) 中提取隱含的、先前的、未知的并有潛在價(jià)值的信息和知識的過程。在這個(gè)定義 中,要求數(shù)據(jù)源應(yīng)該是大量的、真實(shí)的、含有噪聲的;所發(fā)現(xiàn)的信息和知識是潛 在的并隱藏在大量數(shù)據(jù)背后的,是用戶感興趣的、可理解的、可運(yùn)用的知識。 可見這兩個(gè)術(shù)語的內(nèi)涵大致相同,但知識發(fā)現(xiàn)是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的全部 過程,而數(shù)據(jù)挖掘是此過程中的一個(gè)特定的、關(guān)鍵的步驟。數(shù)據(jù)挖掘是知識發(fā)現(xiàn) 最關(guān)鍵的步驟,也是知識發(fā)現(xiàn)技術(shù)難點(diǎn),所以在通常情況下可以不加區(qū)分的使用 二者 1 i ,12 1 。 2 2 數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘的定義有很多,表達(dá)方式雖然不同,但本質(zhì)都是一樣的。這里主要 從技術(shù)角度和商業(yè)角度給數(shù)據(jù)挖掘的定義。 從技術(shù)角度看“,數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨 機(jī)的實(shí)際數(shù)據(jù)中,提取隱含在其中的、人們不知道的、但又是潛在有用的信息和 知識的過程。 原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù):也可以是半結(jié)構(gòu)化的, 如文本、圖形和圖像數(shù)據(jù);甚至是分布在網(wǎng)絡(luò)上的異構(gòu)數(shù)據(jù)。發(fā)現(xiàn)知識的方法可 以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)的知識 可以用于信息管理,查詢優(yōu)化,決策支持和過程控制等。因此,數(shù)據(jù)挖掘是- f 3 交叉學(xué)科,它把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢提升到從數(shù)據(jù)庫中挖掘知 6 山東師范大學(xué)碩士學(xué)位論文 識,提供決策支持。在這種需求的推動下不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫技術(shù)、 人工智能技術(shù)、數(shù)理統(tǒng)計(jì)、可視化技術(shù)、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員, 投身到數(shù)據(jù)挖掘這一新興的研究領(lǐng)域,形成新的技術(shù)研究和開發(fā)熱點(diǎn)。 從商業(yè)應(yīng)用角度看j ,數(shù)據(jù)挖掘是一種嶄新的商業(yè)信息處理技術(shù)。其主要特 點(diǎn)是對商業(yè)數(shù)據(jù)庫中大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)化、分析和模式化處理,從中提 取輔助商業(yè)決策的關(guān)鍵知識,即從一個(gè)數(shù)據(jù)庫中自動發(fā)現(xiàn)相關(guān)商業(yè)模式。 在這種定義下,數(shù)據(jù)挖掘利用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的技術(shù),探求那些符合市場、 客戶行為的模式。目前,數(shù)據(jù)挖掘已經(jīng)可使挖掘技術(shù)自動化,將數(shù)據(jù)挖掘和商業(yè) 數(shù)據(jù)倉庫 5 7 1 5 8 】相結(jié)合,以適當(dāng)?shù)男问綄⑼诰蚪Y(jié)果展示給企業(yè)經(jīng)營管理人員。數(shù) 據(jù)挖掘的應(yīng)用不僅要依靠良好的算法建立模型,更重要的是如何將數(shù)據(jù)挖掘技術(shù) 集成到當(dāng)今復(fù)雜的信息技術(shù)應(yīng)用環(huán)境中。因?yàn)閿?shù)據(jù)挖掘技術(shù)不具備人所特有的經(jīng) 驗(yàn)和直覺,不能區(qū)分哪些挖掘出的模式在現(xiàn)實(shí)中有意義的,哪些沒有意義,因此 數(shù)據(jù)挖掘分析人員的參與是必不可少的。 2 3 數(shù)據(jù)挖掘的過程 數(shù)據(jù)挖掘的過程一般可以分為三個(gè)步驟:數(shù)據(jù)準(zhǔn)備、挖掘、表述和評價(jià)。 ( 1 ) 數(shù)據(jù)準(zhǔn)備:該階段可以進(jìn)一步劃分成數(shù)據(jù)集成、數(shù)據(jù)選擇和預(yù)分析兩步。 其中數(shù)據(jù)集成的目的和使用的技術(shù)與建立數(shù)據(jù)倉庫是相同的,雖然數(shù)據(jù)挖掘不一 定建立在數(shù)據(jù)倉庫的基礎(chǔ)上,但是與之協(xié)同工作必將大大提高數(shù)據(jù)挖掘的效率。 數(shù)據(jù)選擇和預(yù)分析可以縮小數(shù)據(jù)范圍,提高數(shù)據(jù)挖掘的質(zhì)量。 ( 2 ) 挖掘:在該階段使用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析。 ( 3 ) 表述和評價(jià):可以利用可視化工具將獲取的信息以用戶可以理解和觀察 的方式反映給用戶,也可以將分析結(jié)果存儲在知識庫中,供日后進(jìn)步分析和比 較。如果分析人員對結(jié)果不滿意,可重復(fù)以上三個(gè)過程,直到滿意為止。 2 4 數(shù)據(jù)挖掘的分類 從不同酌視角看,數(shù)據(jù)挖掘技術(shù)主要有以下兩種分類方法: ( 1 ) 根據(jù)挖掘知識的種類分類:( 2 ) 根據(jù)采用的技術(shù)分類。 山東師范大學(xué)碩士學(xué)位論文 2 4 1 根據(jù)挖掘知識的種類分類 著名的d a t am i n i n g 專家j i a w e ih a r t 在參考文獻(xiàn) 1 0 中認(rèn)為數(shù)據(jù)挖掘得到的 知識可以分為六大類,因此根據(jù)挖掘知識的種類可將數(shù)據(jù)挖掘分為以下幾類: 特征( c h a r a c t e r i s t i c ) 挖掘:對數(shù)據(jù)集概括總體特征,即對共性的描述。例如, 袋裝鮮牛奶的保質(zhì)期一般為十天。 關(guān)聯(lián)規(guī)則( a s s o c i 撕o n ) 挖掘6 2 :相關(guān)數(shù)據(jù)在不同屬性之間或同一屬性的不同 值之間的關(guān)聯(lián)關(guān)系。例如,購買牛奶一購買面包。 分類( c l a s s i f i c a t i o n ) :利用已知訓(xùn)練數(shù)據(jù)集的預(yù)定義類建立模型,并用模型 對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分類。例如,按每公里的油耗把汽車分類。 聚類( c l u s t e r i n g ) :按一定距離或相似性測試度把數(shù)據(jù)分成一系列相互區(qū)分的 組,組之間的差別盡可能大,組內(nèi)的差別盡可能小,與分類模式不同,進(jìn)行聚類 前并不知道將要劃分成幾個(gè)組和什么樣的組,也不知道根據(jù)哪些數(shù)據(jù)項(xiàng)來定義 組。例如,幫助市場分析人員從客戶數(shù)據(jù)庫中發(fā)現(xiàn)不同的客戶群。 趨勢分析( t r e n da n dd e r i v a t i o na n a l y s i s ) :構(gòu)造和使用模型以評估給定樣本可 能具有的屬性值或值區(qū)間。例如,股票走勢分析。 直接模式分析( p a t t e r n d i r e c t e da n a l y s i s ) :在數(shù)據(jù)中發(fā)現(xiàn)用戶指定的模式,并 標(biāo)識其特征。 2 4 2 根據(jù)挖掘采用的技術(shù)分類 數(shù)據(jù)挖掘中采用的方法綜合了數(shù)據(jù)庫、人工智能、統(tǒng)計(jì)學(xué)、模式識別、機(jī)器 學(xué)習(xí)、數(shù)據(jù)分析等領(lǐng)域的研究成果?,F(xiàn)有的數(shù)據(jù)挖掘方法主要有以下幾種: 1 決策樹方法 利用信息論中的信息增益尋找出數(shù)據(jù)集中具有最大信息的字段,建立決策樹 中的每一個(gè)結(jié)點(diǎn),再根據(jù)字段的不同取值建立樹的分支的過程,就是建立決策樹 過程。國際上最有影響的決策方法是q u i n l a n 研究的i d 3 方法。 2 神經(jīng)網(wǎng)絡(luò)方法 它模擬人腦神經(jīng)元結(jié)構(gòu),以m p 模型和h e b b 學(xué)習(xí)規(guī)則為基礎(chǔ),建立了三大 類神經(jīng)網(wǎng)絡(luò)模型。 1 ) 前饋式網(wǎng)絡(luò),以反向傳播模型,函數(shù)型網(wǎng)絡(luò)為代表,用于預(yù)測、模式識 山東師范大學(xué)碩士學(xué)位論文 別等方面。 2 ) 反饋式網(wǎng)絡(luò),以h o p f i e l d 離散模型和連續(xù)模型為代表,分別用于聯(lián)想記 憶和優(yōu)化計(jì)算。 3 ) 自組織網(wǎng)絡(luò),以a p t 模型,k o h o l o n 模型為代表,用于聚類。 3 模糊論方法 利用模糊集合理論對實(shí)際問題進(jìn)行模糊評判、模糊決策,模糊模式識別和模 糊聚類分析。模糊性是客觀存在的,系統(tǒng)的復(fù)雜性越高,模糊性越強(qiáng),這是z a d e h 總結(jié)出的互克性原理。 4 遺傳算法 這是模擬生物進(jìn)化過程的算法,由三個(gè)基本算子組成: 1 ) 選擇,是指從一個(gè)舊種群( 父代) 中選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群 ( 后代) 的過程。 2 ) 雜交,是選擇兩個(gè)不同個(gè)體的部分進(jìn)行交換,形成新的個(gè)體。 3 ) 變異,對某些個(gè)體的某些基因進(jìn)行變異。 遺傳算法己在優(yōu)化計(jì)算和分類機(jī)器學(xué)習(xí)等方面發(fā)揮了顯著的作用。 二 5 統(tǒng)計(jì)分析方法 在數(shù)據(jù)庫字段項(xiàng)之間存在兩種關(guān)系:第一,函數(shù)關(guān)系( 能用函數(shù)公式表示的 確定性關(guān)系) :第二,相關(guān)關(guān)系( 不能用函數(shù)公式表示,但仍是相關(guān)確定關(guān)系) 。 對它們的分析采用如下方法:回歸分析、相關(guān)分析、主成分分析等。 6 貝葉斯網(wǎng)絡(luò)。 貝葉斯網(wǎng)絡(luò)基于后驗(yàn)概率的貝葉斯定理,是建立在對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)處理基礎(chǔ) 上的方法。將不確定事件通過網(wǎng)絡(luò)連接起來,可以對與其他事件相關(guān)的事件結(jié)果 進(jìn)行預(yù)測,其網(wǎng)絡(luò)變量可以是可見的,也可以隱藏在訓(xùn)練樣本中。貝葉斯網(wǎng)絡(luò)具 有分類、聚類、預(yù)測和因果關(guān)系分析的功能。其優(yōu)點(diǎn)是易于理解,預(yù)測效果好, 缺點(diǎn)是對發(fā)生頻率很低的事件預(yù)測效果不好。在醫(yī)學(xué)和制造業(yè)等領(lǐng)域的應(yīng)用具有 較好的效果。 7 粗糙集方法 粗糙集理論是上世紀(jì)8 0 處z p a w l a k 針對g f i r e g e 的邊界域思想提出的,基 于給定訓(xùn)練數(shù)據(jù)內(nèi)部的等價(jià)類的建立,用一對上下近似集合來逼近數(shù)據(jù)庫中的不 9 山東師范大學(xué)碩士學(xué)位論文 精確概念。用于分類,可以發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系;用于特 征歸約,可以識別和刪除無助于給定訓(xùn)練數(shù)據(jù)分類的屬性:用于相關(guān)分析,可以 根據(jù)分類任務(wù)評估每個(gè)屬性的貢獻(xiàn)或意義。其主要思想是在保持分類能力不變的 前提下,通過知識約簡,導(dǎo)出問題的決策或分類規(guī)則。 l o 山東師范大學(xué)碩士學(xué)位論文 第三章粗糙集理論的基礎(chǔ)知識 粗糙集( r o u g hs e t ) 理論是一種刻劃不完整性和不確定性的數(shù)學(xué)工具,其主要 思想是在保持分類能力不變的前提下,通過知識約簡導(dǎo)出問題的決策或分類規(guī) 則。它能有效地分析和處理不精確、不一致、不完整等各種不完備信息,并從中 發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律。粗糙集理論已廣泛應(yīng)用于近似推理【、醫(yī)療 診斷【2 9 1 、過程控制【3 0 】、圖像處理【2 7 、粗糙控制 5 9 6 0 l i 6 “、晶體結(jié)構(gòu)分析 2 6 1 、預(yù)測 建模f 2 4 1 1 25 1 、結(jié)構(gòu)建模1 2 3 1 、投票分析1 、電力系統(tǒng)吲f 2 2 】、沖突分析1 5 0 】 5 2 等領(lǐng) 域。本章主要介紹粗糙集的基本模型、擴(kuò)展模型,并簡要說明了基于粗糙集理論 的數(shù)據(jù)挖掘方法。 3 1 粗糙集理論的基本概念 3 1 1 信息系統(tǒng) 信息系統(tǒng)( i n f o r m a t i o ns y s t e m ) 是粗糙集理論所研究的對象。若要應(yīng)用粗糙集 理論,必須事先將所研究的對象表示為信息系統(tǒng)。信息系統(tǒng)是一個(gè)數(shù)據(jù)集,經(jīng)常 表示為一張數(shù)據(jù)表。該數(shù)據(jù)表的每一行代表一個(gè)對象,這些對象可以是事例、事 件等。而數(shù)據(jù)表的每一列是對象的屬性,這些屬性可以是對象的特征、度量等。 信息系統(tǒng)s 可形式化地表示為s = ,其中: ( 1 ) u 是有限非空的對象集合,通常稱為域; ( 2 ) 一是有限非空的屬性集合,對每個(gè)屬性口e a ,都有映射a j u 一圪,其中 圯是屬性a 的值域。 如果信息系統(tǒng)s 的屬性集合爿可分為條件屬性集合c 與決策屬性集合d 兩 部分,即a = c u d 且c n d = - f g ,這種信息系統(tǒng)也可稱為決策表( 或決策系統(tǒng)) 。 例3 1 下面的表3 1 就是一個(gè)信息系統(tǒng),其中屬性集合一= b 6 ,c , d ) ,域,_ x x 2 , x 3 , x 4 , x s , x 6 。如果令c = e 6 ,c ) ,d = d ,那么弘 就是一個(gè)決策表。 山東師范大學(xué)碩士學(xué)位論文 bd x l lil l 局 l 001 l 0 0 1 五 ol1 0 焉 1 l10 托 0ol 0 3 1 2 不可辨識關(guān)系 表3 1 信息系統(tǒng)s 不可辨識關(guān)系( i n d i s c e r n i b i l i t yr e l m i o n ) 也譯作不分明關(guān)系。p a w l a k 教授所提 出的經(jīng)典粗糙集理論中的不可辨識關(guān)系總是指等價(jià)關(guān)系,即該關(guān)系是自反,對稱 和可傳遞的“1 。令s = 表示信息系統(tǒng),那么任意屬性子集b 野所對應(yīng)的不 可辨識關(guān)系n d 國可定義為: i n d ( b ) = ( x ,y ) u 2j v a b 【日( x ) = 口( y ) 】) 不可辨識關(guān)系,d 髟也稱為b 不可辨識關(guān)系,它與屬性子集曰一一對應(yīng), 所以經(jīng)??梢院唵斡洖榭?。如果f 兌糾矽,那么通過屬性子集曰,對象x , y 將是不可辨識的,即它們在屬性集合b 上是不可區(qū)分的。根據(jù)不可辨識關(guān)系 i n d r 矽可導(dǎo)出一個(gè)等價(jià)劃分u i n d f 矽,可簡記為u b 。等價(jià)劃分u b 中包含對 象x 的等價(jià)類一般記作m 口。由于等價(jià)類嘲b 內(nèi)的所有對象在屬性集合b 上都是 不可辨識,因此x 可代表等價(jià)類所有對象在b 上的取值情況,而其它對象都是冗 余的。 例3 2 以表3 ,1 的信息系統(tǒng)s 為例,令條件屬性集合c = 珥6 ,c ) ,那么c 對應(yīng)的不 可辨識關(guān)系i n d ( c ) 可以導(dǎo)出等價(jià)劃分: u c = “工7 ,曲 , x 2 ,x 3 , 柳) , x d 同樣,令決策屬性集合d = 田,那么d 所對應(yīng)的不可辨識關(guān)系1 n d 倒也可 以導(dǎo)出等價(jià)劃分: u d = x l ,x 2 ,z 3 ) , x 4 ,x 5 ,柳) 在p a w l a k 教授提出粗糙集理論以后,也出現(xiàn)了許多擴(kuò)展的和變種的粗糙集 理論舊1 4 1 ,其中一部分工作就體現(xiàn)在不可辨識關(guān)系的重定義上。比如,將上述的 不可辨識關(guān)系去除可傳遞性,就得到相似關(guān)系( 或相容關(guān)系) ,再以相似關(guān)系重定 山東師范大學(xué)碩士學(xué)位論文 義粗糙集理論中的其它基本概念,就可以得到一些與經(jīng)典粗糙集理論不同的性質(zhì) 和命題。 3 1 3 集合的近似 令信息系統(tǒng)s = 。根據(jù)對應(yīng)屬性集合b 4 的不可辨識關(guān)系1 n d 砂, 可以導(dǎo)出域u 的一個(gè)等價(jià)劃分u b 。劃分u b 中的等價(jià)類構(gòu)成信息系統(tǒng)基本集 的集合。通過這些基本集合,可以構(gòu)造集合的近似。 對任意對象集合x u ,根據(jù)屬性集合b ,z 的b 下近似星( j ) 定義為: 笪( x ) = xj x 】。x ) 或者旦( ) = i x 。: 工】。z ) 工的b 上近似百( z ) 定義為: 百( ) = x l b k n x o ) 或者百( x ) = u x 8 : z b n a 曰下近似的兩個(gè)定義是等價(jià)的。集合蓋的b 下近似有所有包含于它的等價(jià)類 合并得到。占上近似的兩個(gè)定義也是等價(jià)的。集合x 的b 上近似由所有與它交集 不為空的等價(jià)類合并得到。集合互的b 下近似內(nèi)的所有對象是根據(jù)b 上的知識 必然屬于x 的對象,而集合z 的上近似內(nèi)的對象是根據(jù)曰上的知識可能璃于x 的對象。 集合x 的邊界域b ( 矽定義為: 刪。( z ) = 曰( x ) 一旦( z ) z 的口邊界域b n e 0 0 內(nèi)的對象就是b 上近似無法確定屬于z 的對象。另外, 對象集合 ,一百( x ) 常稱為爿的b 外部域,它是由所有根據(jù)b 上的知識必定不屬 于x 的對象所組成。 如果宦p 9 = o ,那么稱z 是b 可定義的,否則就稱z 是粗糙的。顯然,一 個(gè)集合x 是否粗糙與具體的屬性集合b 上的知識相關(guān)。集合z 可視為一個(gè)概念, 如果x 在屬性集合b 上是粗糙的,那么說明口不足以完全描述x 所對應(yīng)的概念。 粗糙集理論給出了四種類型的粗糙集: ( 1 ) 若墾( x ) a 且b ( x ) u ,則稱x 為曰粗糙可定義的。 山東師范大學(xué)碩士學(xué)位論文 ( 2 ) 若星( z ) = 9 且百0 z ) 則稱z 為b 內(nèi)不可定義的。 ( 3 ) 若星( x ) a 且面( ) = u ,則稱x 為b 外不可定義的。 ( 4 ) 若曼( x ) = a 且百( ) = u ,則稱z 為b 完全不可定義的。 如果為b 粗糙可定義的,那么說明u 中韻某些對象是可以確定是屬于z 或“二如果x 為b 內(nèi)不可定義的,那么說明雖然不能確定u 中的任一對象是屬 于z 的,但是可以確定【,中的某些對象是否屬于以。如果x 為b 外不可定義的, 那么說明可以確定u 中的某些對象是否屬于x ,但是不能確定u 中的任一對象 是否屬于以r o 如果x 為曰完全不可定義的,那么說明無法確定u 中的任一對象 是否屬于j 或礎(chǔ)二 例3 3 以表3 1 的信息系統(tǒng)s 為例,令x l = x x ax 3 ) ,托= ( x 4x s , ) 。令c 礙6 ,c ) 。 由前面的例3 2 可知,不可辨識關(guān)系1 n d 習(xí)導(dǎo)出4 個(gè)等價(jià)類,分別是: 缸,奶) , x 2 ,x s , 和) , x 6 ) 那么x i 的c 下近似( 五) ,c 上近似百( 五) ,以及c 邊界域引憶1 ) 分別是: c ( x ) = l 扛k :口 c 蜀) = 即,x 3 ) , e ( 五) = u m c : x c n x l 0 ) = x ,卻,x 3 ,x 5 , b n c ( x i ) 2c ( 五) 一( x i ) 2 x i ,x s 坦的c 下近似( 五) ,c 上近似e ( 五) ,以及c 邊界域日d 恐) 分別是: ( 五) 2 u i x c :i x c o _ 恐) 2 卻, , c ( 五) 2 u i x c : x c n x 2 :g 2 x j ,卻,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版電廠煤炭采購合同與環(huán)保型付款策略3篇
- 2025年碳晶片技術(shù)培訓(xùn)及咨詢合同3篇
- 開發(fā)商繼續(xù)履行合同范本(2篇)
- 工廠員工勞動合同(2篇)
- 二零二五版貨物代理合同范本3篇
- 二零二五年度棉花價(jià)格指數(shù)編制與應(yīng)用合同4篇
- 2025年度個(gè)人購房借款合同物業(yè)管理服務(wù)協(xié)議3篇
- 二零二五年度中小企業(yè)應(yīng)收賬款質(zhì)押貸款合同范本4篇
- 2025年航空航天產(chǎn)業(yè)投資入股分紅合同3篇
- 2025年度租賃車輛智能監(jiān)控服務(wù)合同遠(yuǎn)程管理4篇
- 加強(qiáng)教師隊(duì)伍建設(shè)教師領(lǐng)域?qū)W習(xí)二十屆三中全會精神專題課
- 2024-2025學(xué)年人教版數(shù)學(xué)七年級上冊期末復(fù)習(xí)卷(含答案)
- 2025年慢性阻塞性肺疾病全球創(chuàng)議GOLD指南修訂解讀課件
- 2024年上海市中考數(shù)學(xué)真題試卷及答案解析
- 2024年全國卷1高考理綜試題及答案
- (完整版)金融市場基礎(chǔ)知識知識點(diǎn)歸納-圖文
- 五年級數(shù)學(xué)(小數(shù)乘除法)計(jì)算題專項(xiàng)練習(xí)及答案
- 小學(xué)數(shù)學(xué)知識結(jié)構(gòu)化教學(xué)
- 2022年睪丸腫瘤診斷治療指南
- 被執(zhí)行人給法院執(zhí)行局寫申請范本
- 飯店管理基礎(chǔ)知識(第三版)中職PPT完整全套教學(xué)課件
評論
0/150
提交評論