




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
粗糙集在數(shù)據(jù)挖掘中的應(yīng)用目錄TOC\o"1-2"\h\u20084引言 215954一粗糙集和數(shù)據(jù)挖掘的背景和研究現(xiàn)狀 221209二數(shù)據(jù)挖掘的基本概念和任務(wù) 3255502.1數(shù)據(jù)挖掘的任務(wù) 45250(1)關(guān)聯(lián)模式 410784(2)序列模式 415045(3)聚類模式 431300(4)分類模式 430127(5)回歸模式 427435(6)時間序列模式 4212972.2數(shù)據(jù)挖掘的方法 4669(1)統(tǒng)計(jì)分析方法 415120(2)模糊集方法 41537(3)粗糙集理論 412031(4)決策樹 58831(5)神經(jīng)網(wǎng)絡(luò) 56340(6)遺傳算法 512057(7)可視化技術(shù) 5323502.3等價類和不可分辨關(guān)系 583692.4粗糙集的上、下近似集 6298282.5粗糙集方法與其他方法的關(guān)系 818196三、粗糙集在數(shù)據(jù)挖掘中的應(yīng)用 8107453.1分類規(guī)則 8254723.2不確定性問題 8313563.3數(shù)據(jù)預(yù)處理 9277143.4屬性約簡 911886參考文獻(xiàn) 9【摘要】在大數(shù)據(jù)時代,不僅數(shù)據(jù)挖掘是人們常用的一種方法,粗糙集近些年來也被廣泛應(yīng)用到各項(xiàng)知識領(lǐng)域中。目前,數(shù)據(jù)挖掘中常用到的技術(shù)有:統(tǒng)計(jì)分析方法、決策樹、神經(jīng)網(wǎng)絡(luò)、遺傳算法、模糊集方法、粗糙集理論、可視化技術(shù)等等。在諸多方法中,粗糙集理論與方法對于處理復(fù)雜系統(tǒng)不失為一種較為有效的方法。本文從粗糙集和數(shù)據(jù)挖掘的基礎(chǔ)概念和知識出發(fā),進(jìn)一步總結(jié)了近些年來粗糙集在數(shù)據(jù)挖掘中的應(yīng)用?!娟P(guān)鍵詞】數(shù)據(jù)挖掘;粗糙集引言當(dāng)今,社會已經(jīng)進(jìn)入了網(wǎng)絡(luò)信息時代,計(jì)算機(jī)技術(shù)在這十幾年來得到了迅猛的發(fā)展,特別是存儲技術(shù)、數(shù)據(jù)庫技術(shù)和網(wǎng)絡(luò)技術(shù)。存儲設(shè)備單位價格的不斷下跌而容量的急劇擴(kuò)大,關(guān)系數(shù)據(jù)庫、對象數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、地理信息數(shù)據(jù)庫和空間數(shù)據(jù)庫的不斷成熟并得到廣泛的應(yīng)用,數(shù)據(jù)庫管理系統(tǒng)的日益普及,自動數(shù)據(jù)采集系統(tǒng)的引入以及互聯(lián)網(wǎng)絡(luò)在全球的不斷深入應(yīng)用,這些都使得人們輕而易舉地就可以獲得容量達(dá)GB甚至TB的數(shù)據(jù),并且這些數(shù)據(jù)每天都還在不斷地增長中。因此,如何從大量的、雜亂無章的、強(qiáng)干擾的數(shù)據(jù)中挖掘出潛在的、有利用價值的信息,便成為人類智能信息處理中面臨的前所未有的挑戰(zhàn)。由此產(chǎn)生了人工智能研究的一個嶄新領(lǐng)域——數(shù)據(jù)挖掘(DataMining,簡稱DM)。數(shù)據(jù)挖掘是一個多學(xué)科領(lǐng)域,它從多個學(xué)科吸取營養(yǎng)。這些學(xué)科包括數(shù)據(jù)庫技術(shù)、人工智能、機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計(jì)學(xué)、高性能計(jì)算和可視化技術(shù)等。數(shù)據(jù)挖掘是一個新興的具有廣泛應(yīng)用前景的研究領(lǐng)域。一粗糙集和數(shù)據(jù)挖掘的背景和研究現(xiàn)狀自上世紀(jì)九十年代以來,數(shù)據(jù)挖掘逐步興起。數(shù)據(jù)挖掘,簡單來說,就是在海量的數(shù)據(jù)中找到隱含的與用戶需要有關(guān)的知識,然后對其進(jìn)行分類和預(yù)測,找出對用戶有利的數(shù)據(jù)。有一個典型例子,在一個超市中,人們發(fā)現(xiàn)啤酒喝尿布這兩樣完全沒有關(guān)系的商品竟然擺放到了售貨架的同一處,然而更令人驚訝的是,這樣的擺放收到卻給超市帶來了非凡的效益,超市的營業(yè)額非但沒有減少而是大幅上升。其實(shí)這其中蘊(yùn)含著智慧,超市管理人員通過調(diào)查發(fā)現(xiàn),由于母親屬于哺乳期,在家?guī)Ш⒆拥娜蝿?wù)當(dāng)之無愧,因此外出購物,購買生活必需品便成了男人的責(zé)任。而男人大部分都是喜歡喝酒的,管理人員就猜想,如果男人來超市為自己的孩子購買尿布等必需品時,恰巧他非常喜愛的啤酒就在不遠(yuǎn)處的柜臺,根據(jù)男人的正常心理,大多數(shù)男人都會順手帶走一瓶啤酒,這樣超市的收益就可以提高。這個例子便是最經(jīng)典的數(shù)據(jù)挖掘的例子,通過對人性的心理分析和預(yù)測,得出利于自己一方的數(shù)據(jù),或者說是利益信息,這便是我們通過數(shù)據(jù)挖掘最終要達(dá)成的效果,也是我們研究數(shù)據(jù)挖掘的意義所在。粗糙集理論是波蘭數(shù)學(xué)家Z.Pawlak于1982年提出的一種數(shù)據(jù)分析理論。1991年波蘭Pawlak教授的《RoughSets:TheoreticalAspectsofReasoningaboutData》和1992年R.Slowinski主編的關(guān)于粗糙集應(yīng)用及其與相關(guān)方法比較研究的論文集的出版,在國際上有了很大的影響,由此越來越多人開始研究粗糙集。粗糙集是基于不確定信息的一門新學(xué)科。粗糙集針對無法確定的數(shù)據(jù),提出了邊界線區(qū)域的概念。同時這種邊界線區(qū)域被定義為兩個新的概念,上近似集合下近似集。粗糙集中還涉及了對于粒度的分析,同時與它相關(guān)的學(xué)科有粒計(jì)算和商空間理論。粗糙集的誕生與問世,為人工智能領(lǐng)域提供了便利。近幾年來,粗糙集理論的研究包括很多方面。如今在與其他不確定性理論的融合協(xié)作非常之多。其中包括粗糙集與概率統(tǒng)計(jì)相融合,與模糊集相融合,與神經(jīng)網(wǎng)絡(luò)相融合等。粗糙集方法與其他知識的處理方式各自有各自的獨(dú)到之處,因此與其他知識領(lǐng)域的融合也一直在探索中,尤其同遺傳算法、神經(jīng)網(wǎng)絡(luò)、等技術(shù)的相互結(jié)合,取得了良好的效果,并且是目前研究的熱點(diǎn)之一。二數(shù)據(jù)挖掘的基本概念和任務(wù)數(shù)據(jù)挖掘(DataMining,DM)是從大量的、不完全的、模糊的、隨機(jī)的數(shù)據(jù)中提取人們感興趣的知識的過程。通過數(shù)據(jù)挖掘,才能把有價值的知識、規(guī)則從數(shù)據(jù)庫的相關(guān)數(shù)據(jù)集合中抽取出來,為決策提供依據(jù)。數(shù)據(jù)挖掘和知識發(fā)現(xiàn)有密切的聯(lián)系。知識發(fā)現(xiàn)是指從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程,數(shù)據(jù)挖掘是這一過程中的一個特定步驟。知識發(fā)現(xiàn)包括數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式解釋和知識評價等多個步驟,是應(yīng)用特定數(shù)據(jù)的挖掘算法和評價解釋模式的一個循環(huán)反復(fù)過程,并要對發(fā)現(xiàn)的知識不斷求精深化,使其易于理解;數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程中的一個關(guān)鍵步驟,它利用特定的數(shù)據(jù)挖掘算法從數(shù)據(jù)中抽取模式,數(shù)據(jù)挖掘算法是數(shù)據(jù)挖掘與知識發(fā)現(xiàn)整個過程的核心。知識發(fā)現(xiàn)強(qiáng)調(diào)知識是數(shù)據(jù)挖掘的最終產(chǎn)品,利用相應(yīng)的數(shù)據(jù)挖掘算法,按指定方式和閾值提取有價值的知識,因此,知識發(fā)現(xiàn)包括數(shù)據(jù)挖掘前對數(shù)據(jù)的預(yù)處理、抽樣及轉(zhuǎn)換和數(shù)據(jù)挖掘后對知識的評價解釋等方面,而數(shù)據(jù)挖掘是知識發(fā)現(xiàn)整個過程中的一個步驟。數(shù)據(jù)挖掘的處理過程如圖1.1所示:目前數(shù)據(jù)挖掘與知識發(fā)現(xiàn)已經(jīng)成為國際上數(shù)據(jù)庫和信息決策領(lǐng)域最前沿的研究方向之一,學(xué)術(shù)界和產(chǎn)業(yè)界給予了高度的關(guān)注。到目前為止,數(shù)據(jù)挖掘已經(jīng)在很多領(lǐng)域取得了一定的成果。隨著數(shù)據(jù)挖掘與知識發(fā)現(xiàn)在國外的興起,我國也很快跟上了國際步伐,一大批數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)等領(lǐng)域的學(xué)者投入到數(shù)據(jù)挖掘與知識發(fā)現(xiàn)的研究中,并在各種刊物和會議論文集中開辟數(shù)據(jù)挖掘與知識發(fā)現(xiàn)專題。與國外相比,國內(nèi)對數(shù)據(jù)挖掘與知識發(fā)現(xiàn)的研究稍晚,沒有形成整體力量,但數(shù)據(jù)挖掘技術(shù)的研究也引起了學(xué)術(shù)界的高度重視,國家自然科學(xué)基金曾資助有關(guān)研究項(xiàng)目,許多科研單位和高等院校競相開展知識發(fā)現(xiàn)的基礎(chǔ)理論及其應(yīng)用研究,數(shù)據(jù)挖掘技術(shù)的研究已經(jīng)取得了一些成果。數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘的任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)模式,可分為以下6種:關(guān)聯(lián)模式關(guān)聯(lián)模式用于發(fā)現(xiàn)事物間的關(guān)聯(lián)規(guī)則,或稱相關(guān)程度。序列模式序列模式與關(guān)聯(lián)模式相仿,差別在于數(shù)據(jù)間關(guān)聯(lián)性與時間聯(lián)系起來。即不僅需指導(dǎo)實(shí)踐是否發(fā)生,而且需確定事件發(fā)生的時間。聚類模式聚類模式事先并不知道分組及怎樣分組,而是按某種原則將數(shù)據(jù)劃分為組,要求組之間差別盡可能大,組內(nèi)差別盡可能小。分類模式分類模式把數(shù)據(jù)集中的數(shù)據(jù)項(xiàng)映射到某個給定的類上,如決策樹方法、統(tǒng)計(jì)方法及粗糙集方法等?;貧w模式分類模式的預(yù)測值是離散的,回歸模式的預(yù)測值是連續(xù)的。時間序列模式時間序列模式根據(jù)數(shù)據(jù)隨時間變化的趨勢,發(fā)現(xiàn)某一時間段內(nèi)數(shù)據(jù)的相關(guān)處理模型,預(yù)測將來可能出現(xiàn)值的分布。數(shù)據(jù)挖掘的方法下面對現(xiàn)階段數(shù)據(jù)挖掘所采用的主要技術(shù)方法進(jìn)行簡單的介紹:統(tǒng)計(jì)分析方法統(tǒng)計(jì)分析方法是利用統(tǒng)計(jì)學(xué)、概率論的原理對關(guān)系中各屬性進(jìn)行統(tǒng)計(jì)分析,從而找出它們之間的關(guān)系和規(guī)律。統(tǒng)計(jì)分析方法是最基本的數(shù)據(jù)挖掘技術(shù)方法之一。常用的統(tǒng)計(jì)分析方法有:判別分析、因子分析、相關(guān)分析、回歸分析和偏最小二乘回歸方法等。模糊集方法模糊集是表示和處理不確定性數(shù)據(jù)的重要方法。模糊集不僅可以處理不完全數(shù)據(jù)、噪聲或不精確數(shù)據(jù),而且在開發(fā)數(shù)據(jù)的不確定性模型方面是有用的,能提供比傳統(tǒng)方法更靈巧、更平滑的性能。粗糙集理論粗糙集理論是基于一個機(jī)構(gòu)(或一組機(jī)構(gòu))關(guān)于現(xiàn)實(shí)的大量數(shù)據(jù)信息,以對觀察和測量所得數(shù)據(jù)進(jìn)行分類的能力為基礎(chǔ),從中發(fā)現(xiàn)、推理知識和分辨系統(tǒng)的某些特點(diǎn)、過程、對象等。粗糙集理論是建立在分類機(jī)制的基礎(chǔ)上,它將分類理解為在特定空間上的等價關(guān)系,而等價關(guān)系構(gòu)成了對空間的劃分。其主要思想是利用已知的知識庫,將不確定或不精確的知識庫中的知識來近似刻劃。它無需提供所處理的數(shù)據(jù)集合之外的任何先驗(yàn)信息,對問題的不確定的描述或處理是比較客觀的。決策樹利用樹形結(jié)構(gòu)來表示決策集合,這些決策集合通過對數(shù)據(jù)集的分類產(chǎn)生規(guī)則。利用訓(xùn)練集生成一個測試函數(shù),根據(jù)不同取值建立樹的分枝;在每個分支子集中重復(fù)建立下層結(jié)點(diǎn)和分支,這樣便生成一棵決策樹;然后對決策樹進(jìn)行剪枝處理,最后把決策樹轉(zhuǎn)化為規(guī)則,利用這些規(guī)則可以對新事例進(jìn)行分類。這種方法實(shí)際上是根據(jù)信息論原理,對數(shù)據(jù)庫中存在的大量數(shù)據(jù)進(jìn)行信息量分析,在計(jì)算數(shù)據(jù)特征信息的基礎(chǔ)上提取出反映類別的重要特征。神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是一類新的計(jì)算模型,它是模仿人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和某些工作機(jī)制而建立的一種計(jì)算模型。這種計(jì)算模型的特點(diǎn)是,利用大量的簡單計(jì)算單元(即神經(jīng)元)連成網(wǎng)絡(luò),來實(shí)現(xiàn)大規(guī)模并行計(jì)算。神經(jīng)網(wǎng)絡(luò)的工作機(jī)理是通過學(xué)習(xí)改變神經(jīng)元之間的連接強(qiáng)度。常用的神經(jīng)網(wǎng)絡(luò)計(jì)算模型有多層感知機(jī)、反傳網(wǎng)絡(luò)、自適應(yīng)特征映射網(wǎng)絡(luò)SOFM等。在實(shí)際應(yīng)用中,人工神經(jīng)網(wǎng)絡(luò)還常與遺傳算法、模糊集、混沌和小波等相結(jié)合。遺傳算法遺傳算法是按照自然進(jìn)化原理提出的一種優(yōu)化策略。在求解過程中,通過最好解的選擇和彼此組合,可以期望解的集合將會愈來愈好。在數(shù)據(jù)挖掘中,遺傳算法用來形容變量間的依賴關(guān)系假設(shè)。遺傳算法可以與模糊邏輯、神經(jīng)網(wǎng)絡(luò)和人工免疫等相結(jié)合進(jìn)行數(shù)據(jù)挖掘??梢暬夹g(shù)可視化技術(shù)使用戶能交互式地、直觀地分析數(shù)據(jù),并用直觀圖形將信息模式、數(shù)據(jù)的關(guān)聯(lián)或趨勢呈現(xiàn)給決策者,可視化技術(shù)將人的觀察力和智能融合入挖掘系統(tǒng),極大地改善了系統(tǒng)挖掘速度和深度。等價類和不可分辨關(guān)系不可分辨關(guān)系是粗糙集理論的最重要概念,它揭示出論域知識的顆粒狀結(jié)構(gòu),而知識的粒度又是造成使用已有知識不能精確地表示某些概念的原因。它也是論域U的等價關(guān)系,其定義如下:設(shè)U是非空的論域,當(dāng)R為U上的等價關(guān)系(equivalencerelation),則RU/為R(或U的分類)的所有等價類族,或稱U的分類:UX?,用[]RX表示R中包含X的等價類(equivalenceclass),或子集X屬于R中的一個范疇(category)。若R是由U上的劃分R表達(dá)的等價關(guān)系,RU??,稱為一個近似空間(approximationspace)。若RP?,Uxxji,∈,定義二元關(guān)系PIND)(稱為不可分辨關(guān)系如下:PIND)(=)()(,:),(jijiUxxp=∈?×∈xpxpPU,則稱ix和jx在S中關(guān)于屬性P是不可分辨的,當(dāng)且僅當(dāng))()(jixpxp=對所有的Pp∈成立,即ix和jx不能用P中的屬性加以區(qū)別。對所有的Pp∈,可以驗(yàn)證PIND)(也是一種U的等價關(guān)系。2.4粗糙集的上、下近似集為了近似地定義粗糙集,我們借用了上、下近似集的概念,粗略地來講下近似集是指當(dāng)一個集合不能利用有效的等價關(guān)系被恰當(dāng)?shù)胤诸悤r,則可以通過另外的集合來達(dá)到這個集合的近似。設(shè)UX?是任一子集,R是U上的等價關(guān)系,則有?∈=XYRUYR}{?Υ:/,?ΙΥXYRUYR:/≠∈=}{φ,分別稱它們?yōu)閄的R-下近似和R-上近似,其中φ是空集,Y是U上按等價關(guān)系R作成的等價類。下近似被解釋為所有那些被包含在X里面的等價類的并集,上近似被解釋為所有那些與X有交的等價類的并集。下近似和上近似也可以寫成下面等價的形式:R{x[]XxUX}R?∈=?:)(,{]≠∈=φ}?RxXxUXR:)。上近似和下近似之間的差被稱作X的R-邊界線集,并被表示成:XRXRXBN)()()(R???=。它是那些通過等價關(guān)系R既不能在X上分類,也不能在~X上被分類的元素的集合。這樣一個概念X被稱之為粗糙集,換句話說,粗糙集就是邊界區(qū)域不為空集的集合。以上說明:如果通過已掌握的信息看這個集合X,只能觀察到X的下和上近似,而不能觀察到X的全貌。邊界線集為空,則通過等價關(guān)系可以恰當(dāng)?shù)赜^察X;相反XBN)(≠φR,只能粗糙地觀察集合X。前者是分明的,而后者是粗糙的。形式上集合X是R-分明的當(dāng)且僅當(dāng)XBN)(=φR,否則X是R-粗糙的。X是R-可定義的,當(dāng)且僅當(dāng)XRXR)()(??=;X關(guān)于R是粗糙的,當(dāng)且僅當(dāng)XRXR)()(??≠。X的R-正區(qū)域被記為XRXPOS)()(R?=,它是如此一些個體元素的集合,這些元素完全屬于X的成員;X的R-負(fù)區(qū)域被記為XRUXNEG)()(R??=,它是如此一些個體元素的集合,這些元素不是任意模糊地用等價關(guān)系R確定的,它們不屬于X,而是屬于X的補(bǔ)集~X。其關(guān)系如圖2.2所示:Rough集示意圖由圖2.2可以看出決策表就是上面所說的POSNEGΥ(正域+負(fù)域)。定義8:設(shè)P和Q是論域U上的兩個等價關(guān)系的族集,令:稱關(guān)系Q是k()≤≤10k度依賴于關(guān)系P的,記作QPk?,其中X表示集合X的基數(shù)。若k=1,稱Q完全依賴于等價關(guān)系P,這時論域U上的所有元素根據(jù)等價關(guān)系P劃分后,都能包含在U/R中;當(dāng)ππ10k時,稱Q部分(粗糙)依賴于P,在這種情況下,論域U上只有用P來分類時,屬于U/R正區(qū)域的那些集合的元素才能正確地劃分到Q中;若k=0,則Q完全獨(dú)立于P的,論域上的所有元素都不能用P來分類于U/Q。定義1:一個近似空間(approximatespace)(或知識庫)定義為一個關(guān)系系統(tǒng)K=(U,R),其中U≠Φ(Φ為空集)是一個論域的集合,R是U上等價關(guān)系的一個族集。設(shè)P哿R,且P≠Φ,P中所有等價關(guān)系的交集稱為P上的一種不分明關(guān)系(indiscernbilityrelation),記作IND(P)[x]IND(p)=IR綴P[x]R給定近似空間K=(U,R),子集X哿U稱為U上的一個概念(concept),非空子族集P哿R所產(chǎn)生的不分明關(guān)系IND(P)的所有等價類關(guān)系的集合即U/IND(P),稱為基本知識(basicknowledge),相應(yīng)的等價類稱為基本概念(basicconcept);如果關(guān)系Q∈R,則關(guān)系Q就稱為初等知識(elementaryknowledge),相應(yīng)的等價類就稱為初等概念(elementaryconcept)。X的下近似:R*(X)={x:(x∈U)∩([x]R?X)}X的上近似:R*(X)={x:(x∈U)∩([x]R∩X≠φ)}X的邊界區(qū)域:BNR(X)=R*(X)–R*(X)若BNR(X)≠φ,則集合X就是一個粗糙概念。POSR(X)=R*(X)稱為集合X的R-正區(qū)域,NEGR(X)=U-R*(X)稱為集合X的R-反區(qū)域。UpperApproximation:RX=Y{Y∈U/R:Y∩X≠Φ}LowerApproximation:RX=Y{Y∈U/R:YX}2.5粗糙集方法與其他方法的關(guān)系粗糙集概念在某種程度上與其他處理含糊和不精確問題而研制的數(shù)學(xué)工具具有相似之處,特別是和Dempster-Shafer(DS)證據(jù)理論和模糊(Fuzzy)集理論。但是粗糙集理論和它們有很大的區(qū)別,它的主要優(yōu)勢在于它不需要任何預(yù)備的或額外的有關(guān)數(shù)據(jù)信息,比如統(tǒng)計(jì)學(xué)中的概率分布、DS證據(jù)理論中的基本概率賦值、模糊集理論中的隸屬度等。DS理論利用置信和似然推理函數(shù)作為主要的工具,而粗糙集理論利用上、下近似集。Fuzzy集理論無法計(jì)算出具體的含糊度,而粗糙集理論是可以計(jì)算的。粗糙集理論和Fuzzy集理論之間有一些重疊,但兩者不能相互替代。在粗糙集理論中,模糊性是集合(概念)的性質(zhì),它是由集合的邊界區(qū)域引起的;而不確定性是集合元素的性質(zhì),它與粗糙隸屬函數(shù)有關(guān)。Fuzzy集理論是采用隸屬度函數(shù)來處理模糊性,而基本的隸屬度是憑經(jīng)驗(yàn)或領(lǐng)域?qū)<医o出,所以具有相當(dāng)?shù)闹饔^性;而粗糙集理論則采用概念的上、下近似來處理模糊性,由此,也可以從給定的數(shù)據(jù)中導(dǎo)出類似的粗糙隸屬函數(shù)。由它們之間的比較可以看出,這兩種理論不是相互沖突,而是相互補(bǔ)充的??傊?,粗糙集理論和Fuzzy集理論對于不完全的知識來說有各自獨(dú)立的方法。盡管基本粗糙集理論與其他處理不確定性的理論相比,具有不可替代的優(yōu)越性,但是仍然存在著某些片面性與不足之處。如對原始數(shù)據(jù)本身的模糊性缺乏相應(yīng)的處理方法;對于粗糙集邊界區(qū)域的刻畫比較簡單;粗糙集的分類通常是確定的。所以粗糙集通常不單獨(dú)使用,它常與其他方法結(jié)合起來使用。另外針對粗糙集理論存在的問題,提出了一些擴(kuò)展模型,如可變精度粗糙集模型、相似模型、基于粗糙集的非單調(diào)邏輯模型、與Fuzzy集合理論結(jié)合模型、與DS理論結(jié)合模型等,從而大大地提高了粗糙集的適應(yīng)力和生命力。三、粗糙集在數(shù)據(jù)挖掘中的應(yīng)用3.1分類規(guī)則在數(shù)據(jù)挖掘分類規(guī)則領(lǐng)域,利用粗糙集的決策屬性和知識約簡提出了一個在數(shù)據(jù)集中發(fā)現(xiàn)沒有冗余屬性的最小歸納依賴關(guān)系,由此簡化了數(shù)據(jù)挖掘算法。由此解決了數(shù)據(jù)庫中數(shù)據(jù)的深層利用,使挖掘出的分類規(guī)則的條件被簡化。提高了分類規(guī)則的應(yīng)用價值。3.2不確定性問題在數(shù)據(jù)挖掘的信息系統(tǒng)中,有一些屬性是未知屬性。則這些未知屬性就很可能造成挖掘過程中的分類中斷以及分類不明確,這就間接造成了不確定性問題的產(chǎn)生。而粗糙集恰是處理不確定性問題的一類有用的工具,因此兩者的結(jié)合便可以有效的解決這個問題。3.3數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘的數(shù)據(jù)的預(yù)處理階段,粗糙集理論中的不可分辨關(guān)系可以將數(shù)據(jù)預(yù)處理中的不完備數(shù)據(jù)進(jìn)行處理,使數(shù)據(jù)挖掘算法能解決屬性值缺失的數(shù)據(jù)的處理。對于由冗余數(shù)據(jù)等其他原因產(chǎn)生的不確定數(shù)據(jù),可以通過上近似集、下近似集來解決。3.4屬性約簡屬性約簡可以通過以下方法:一是通過構(gòu)造啟發(fā)函數(shù)判斷各屬性的重要性,從而對不重要的屬性進(jìn)行約簡;二是依據(jù)近似精度對屬性進(jìn)行約簡;三是利用可辨識矩陣的對稱性。小結(jié)粗糙集的應(yīng)用非常廣泛,粗糙集與數(shù)據(jù)挖掘的結(jié)合,為更多研究提供了便利。粗糙集中的關(guān)系表同關(guān)系型數(shù)據(jù)庫中的決策表相聯(lián)系,可以為數(shù)據(jù)挖掘帶來很大的方便。利用粗糙集的約簡屬性去掉數(shù)據(jù)處理中的多余屬性等,都在數(shù)據(jù)挖掘方法中廣泛被運(yùn)用。參考文獻(xiàn)[1]Z.Pawlak.Roughsets[J].InternationalJournalofComputerandInformationSciences,1982:11(5):341–356[2]張宏宇.粗糙集理論及其在數(shù)據(jù)挖掘中的應(yīng)用研究[J].太原:山西大學(xué)2003屆碩士研究生學(xué)位論文[3]王國胤.Rough集理論與知識獲取[M].西安:交通大學(xué)出版社,2001[4]HYu,GWang,DYang.Knowledgereductionalgorithmsbasedonroughsetandconditionalinformationentropy[C].In:proceedingsofspie:dataminingandknowledgediscovery:theory,toolandtechnologyIV,volume4730:422–431[5]王國胤,于洪等.基于條件信息熵的決策表約簡[J].計(jì)算機(jī)學(xué)報(bào),2000:25(7):759–766[6]J.W.Grzymala–Busse,ChienPeiE.Wang.Classificationandruleindu
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年父母分家協(xié)議書模板
- 一年級下冊數(shù)學(xué)教案- 2024-2025學(xué)年“100以內(nèi)數(shù)的認(rèn)識”青島版五四學(xué)制
- 一年級下冊數(shù)學(xué)教案-第一單元有趣的數(shù)西師大版
- 六年級下冊數(shù)學(xué)教案-1.5已知比一個數(shù)多(少)百分之幾的數(shù)是多少求這個數(shù) -青島版
- 2025年黑龍江農(nóng)業(yè)經(jīng)濟(jì)職業(yè)學(xué)院單招職業(yè)傾向性測試題庫完整
- 2025屆黑龍江佳木斯一中高三上學(xué)期五調(diào)生物試題及答案
- 2025年度工程咨詢中間人傭金支付規(guī)范合同
- 2025年度公司股份協(xié)議書:股權(quán)激勵與業(yè)績考核
- 2025年度車輛牌照租賃與汽車后市場服務(wù)合同
- 2025年度人工智能教育培訓(xùn)合作協(xié)議書
- 2023-2024學(xué)年高中信息技術(shù)必修一滬科版(2019)第三單元項(xiàng)目六《 解決溫標(biāo)轉(zhuǎn)換問題-認(rèn)識程序和程序設(shè)計(jì)語言》教學(xué)設(shè)計(jì)
- 【湘教版】2024-2025學(xué)年七年級數(shù)學(xué)下冊教學(xué)工作計(jì)劃(及進(jìn)度表)
- 《急性左心衰》課件
- 二零二五版洗煤廠與礦業(yè)公司合作洗煤業(yè)務(wù)合同3篇
- 上海市第一至十八屆高一物理基礎(chǔ)知識競賽試題及答案
- 2024李娜一建管理講義修訂版
- 2024院感培訓(xùn)課件
- 2024-2030年中國稅務(wù)師事務(wù)所行業(yè)管理模式及投資前景展望報(bào)告版
- 護(hù)理試講考核15分鐘
- 2024預(yù)防流感課件完整版
- 2025天貓服飾春夏趨勢白皮書
評論
0/150
提交評論