數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述 6500字_第1頁(yè)
數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述 6500字_第2頁(yè)
數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述 6500字_第3頁(yè)
數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述 6500字_第4頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述6500字1在過(guò)去的數(shù)十年中,隨著計(jì)算機(jī)軟件和硬件的開展,我們產(chǎn)生和收集數(shù)據(jù)的能力已經(jīng)迅速提高。許多領(lǐng)域的大量數(shù)據(jù)集中或分布的存儲(chǔ)在數(shù)據(jù)庫(kù)中[1][2],這些領(lǐng)域包括商業(yè)、金融投資業(yè)、生產(chǎn)制造業(yè)、醫(yī)療衛(wèi)生、科學(xué)研究,以及全球信息系統(tǒng)的萬(wàn)維網(wǎng)。數(shù)據(jù)存儲(chǔ)量的增長(zhǎng)速度是驚人的。大量的、未加工的數(shù)據(jù)很難直接產(chǎn)生效益。

這些數(shù)據(jù)的真正價(jià)值在于從中找出有用的信息以供決策支持。在許多領(lǐng)域,數(shù)據(jù)分析都采用傳統(tǒng)的手工處理辦法。一些分析軟件在統(tǒng)計(jì)技術(shù)的幫忙下可將數(shù)據(jù)匯總,并生成報(bào)表。隨著數(shù)據(jù)量和多維數(shù)據(jù)的進(jìn)一步增加,高達(dá)109的數(shù)據(jù)庫(kù)和103的多維數(shù)據(jù)庫(kù)已越來(lái)越普遍。沒(méi)有強(qiáng)有力的工具,理解它們已經(jīng)遠(yuǎn)遠(yuǎn)超出了人的能力。所有這些顯示我們需要智能的數(shù)據(jù)分析工具,從大量的數(shù)據(jù)中發(fā)現(xiàn)有用的知識(shí)。數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。

數(shù)據(jù)挖掘就是指從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)的過(guò)程。包括存儲(chǔ)和處理數(shù)據(jù),選擇處理大量數(shù)據(jù)集的算法、解釋結(jié)果、使結(jié)果可視化。整個(gè)過(guò)程中支持人機(jī)交互的模式[3]。數(shù)據(jù)挖掘從許多交叉學(xué)科中得到開展,并有很好的前景。這些學(xué)科包括數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)、人工智能、模式辨認(rèn)、統(tǒng)計(jì)學(xué)、含糊推理、專家系統(tǒng)、數(shù)據(jù)可視化、空間數(shù)據(jù)分析和高性能計(jì)算等。數(shù)據(jù)挖掘綜合以上領(lǐng)域的理論、算法和辦法,已成功應(yīng)用在超市、金融、銀行[4]、生產(chǎn)企業(yè)[5]和電信,并有很好的表現(xiàn)。軟計(jì)算是能夠處理現(xiàn)實(shí)環(huán)境中一種或多種復(fù)雜信息的辦法匯合。軟計(jì)算的指導(dǎo)原那么是開發(fā)利用那些不精確性、不確定性和局部真實(shí)數(shù)據(jù)的容忍技術(shù),以獲得易處理、魯棒性好、低求解本錢和更好地與實(shí)際融合的性能。通常,軟計(jì)算試圖尋找對(duì)精確的或不精確表述問(wèn)題的近似解[6]。它是創(chuàng)立計(jì)算智能系統(tǒng)的有效工具。軟計(jì)算包括含糊集、神經(jīng)網(wǎng)絡(luò)、遺傳算法和粗集理論。

2數(shù)據(jù)挖掘中的軟計(jì)算辦法

目前,已有多種軟計(jì)算辦法被應(yīng)用于數(shù)據(jù)挖掘系統(tǒng)中,來(lái)處理一些具有挑戰(zhàn)性的問(wèn)題。軟計(jì)算辦法主要包括含糊邏輯、神經(jīng)網(wǎng)絡(luò)、遺傳算法和粗糙集等。這些辦法各具優(yōu)勢(shì),它們是互補(bǔ)的而非競(jìng)爭(zhēng)的,與傳統(tǒng)的數(shù)據(jù)分析技術(shù)相比,它能使系統(tǒng)更加智能化,有更好的可理解性,且本錢更低。下面主要對(duì)各種軟計(jì)算辦法及其混合算法做系統(tǒng)性的闡述,并著重強(qiáng)調(diào)它們?cè)跀?shù)據(jù)挖掘中的應(yīng)用情況。

2.1含糊邏輯

含糊邏輯是1965年由澤德引入的,它為處理不確定和不精確的問(wèn)題提供了一種數(shù)學(xué)工具。含糊邏輯是最早、應(yīng)用最廣泛的軟計(jì)算辦法,含糊集技術(shù)在數(shù)據(jù)挖掘領(lǐng)域也占有重要地位。從數(shù)據(jù)庫(kù)中挖掘知識(shí)主要考慮的是發(fā)現(xiàn)有興趣的模式并以簡(jiǎn)潔、可理解的方式描述出來(lái)。含糊集可以對(duì)系統(tǒng)中的數(shù)據(jù)進(jìn)行約簡(jiǎn)和過(guò)濾,提供了在高抽象層處理的便利。同時(shí),數(shù)據(jù)挖掘中的數(shù)據(jù)分析經(jīng)常面對(duì)多種類型的數(shù)據(jù),即符號(hào)數(shù)據(jù)和數(shù)字?jǐn)?shù)據(jù)。Nauck[7]研究了新的算法,可以從同時(shí)包含符號(hào)數(shù)據(jù)和數(shù)字?jǐn)?shù)據(jù)中生成混合含糊規(guī)那么。

數(shù)據(jù)挖掘中含糊邏輯主要應(yīng)用于下列幾個(gè)方面:

(1)聚類。將物理或抽象對(duì)象的匯合分組成為由類似的對(duì)象組成的多個(gè)類的過(guò)程被稱為聚類。聚類分析是一種重要的人類行為,通過(guò)聚類,人能夠辨認(rèn)密集的和稀疏的區(qū)域,因而發(fā)現(xiàn)全局的分布模式,以及數(shù)據(jù)屬性之間有趣的關(guān)系。含糊集有很強(qiáng)的搜索能力,它對(duì)發(fā)現(xiàn)的結(jié)構(gòu)感興趣,這會(huì)幫忙發(fā)現(xiàn)定性或半定性數(shù)據(jù)的依賴度。在數(shù)據(jù)挖掘中,這種能力可以幫忙阻止搜到無(wú)用和微缺乏道的知識(shí)。研究者為此開展了含糊聚類算法,并得到了廣泛應(yīng)用[8]。在高維數(shù)據(jù)挖掘中有太多的屬性要考慮,因此知識(shí)簡(jiǎn)約就非常的必要。屬性聚類的實(shí)質(zhì)就是知識(shí)簡(jiǎn)約,所謂知識(shí)約簡(jiǎn),就是在保持知識(shí)庫(kù)的分類或者決策能力不變的條件下,刪除不重要的或冗余的知識(shí),最小約簡(jiǎn)(含有最小屬性)是人們所冀望的,且約簡(jiǎn)結(jié)果是不確定的。所以含糊聚類成為知識(shí)簡(jiǎn)約的有力工具。

(2)關(guān)聯(lián)規(guī)那么。數(shù)據(jù)挖掘重要的一點(diǎn)是關(guān)聯(lián)規(guī)那么的發(fā)現(xiàn),關(guān)聯(lián)規(guī)那么挖掘是尋找給定數(shù)據(jù)集中屬性間的關(guān)聯(lián)。其中,布爾關(guān)聯(lián)規(guī)那么考慮的是關(guān)聯(lián)的屬性在與不在的二維特征,概化關(guān)聯(lián)規(guī)那么描述的是屬性的分層關(guān)系,量化關(guān)聯(lián)規(guī)那么描述的是量化的屬性(既離散化的屬性)間的關(guān)聯(lián)[9]。由于使用含糊概念表示的規(guī)那么更合乎人的思維和敘述習(xí)慣,增強(qiáng)了規(guī)那么的可理解性,所以含糊技術(shù)已成為數(shù)據(jù)挖掘系統(tǒng)中的關(guān)鍵技術(shù)。文獻(xiàn)[10]中用含糊分類開拓了概化關(guān)聯(lián)規(guī)那么。

(3)數(shù)據(jù)概化。概化發(fā)現(xiàn)是數(shù)據(jù)挖掘重要局部之一。它將大的數(shù)據(jù)集從較低的概念層抽象到較高的概念層,用可理解的信息來(lái)敘述數(shù)據(jù)庫(kù)中最重要的局部,并提供應(yīng)用戶。大數(shù)據(jù)集的語(yǔ)言概化通過(guò)有效的程度來(lái)獲得,參考的規(guī)范內(nèi)容在挖掘任務(wù)中。系統(tǒng)由概述、一致性程度真實(shí)和有效性組成。已經(jīng)發(fā)現(xiàn)的最有興趣的語(yǔ)言概化并不瑣碎,卻很人性化。實(shí)際上,它并不能自動(dòng)地進(jìn)行概化,需要人的操作。Kacprzyk和Zadrozny[11]開展了功能依賴度,語(yǔ)言概化使用了自然和可理解性的詞匯,它支持含糊元素,包括屬性間含糊的、重要的相互作用。首先,用戶必須制定概化興趣度,然后系統(tǒng)從數(shù)據(jù)庫(kù)中獲得記錄,并計(jì)算每個(gè)概化的有效性,最后,選擇最適合的語(yǔ)言概化。此辦法通過(guò)網(wǎng)絡(luò)瀏覽器已用在因特網(wǎng)上。含糊值、含糊聯(lián)系和語(yǔ)言量都通過(guò)JAVA來(lái)定義。

(4)Web應(yīng)用。通過(guò)Web日志的挖掘,來(lái)發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式。通過(guò)分析Web日志記錄中的規(guī)律,可以辨認(rèn)電子商務(wù)的潛在客戶,增強(qiáng)對(duì)最終用戶的Internet信息效勞的質(zhì)量和交付,并改良Web效勞器系統(tǒng)的性能。還可以進(jìn)一步獲得用戶訪問(wèn)的附加信息(包括Web效勞器緩沖區(qū)中用戶瀏覽Web頁(yè)面的序列等),以便于做更為詳細(xì)的Web日志分析。如通過(guò)用戶訪問(wèn)模式的學(xué)習(xí)改良其自身的Web站點(diǎn),有助于建立針對(duì)個(gè)體用戶的定制Web效勞。為了挖掘出較完全的興趣模式,吳瑞[12]提出一種新的結(jié)構(gòu)類型--FLAAT,它可發(fā)現(xiàn)那些被忽略的用戶瀏覽偏愛路徑。同時(shí)引進(jìn)含糊集來(lái)處理停留在網(wǎng)頁(yè)上的時(shí)間,以形成語(yǔ)義術(shù)語(yǔ)使挖掘出的用戶瀏覽偏愛路徑更自然、更易理解。算法能準(zhǔn)確地反映用戶的瀏覽興趣。

(5)圖像檢索。隨著近來(lái)由多種媒體數(shù)據(jù)構(gòu)成的多媒體信息倉(cāng)庫(kù)數(shù)據(jù)的增加,基于內(nèi)容的圖像檢索開始活潑在這個(gè)領(lǐng)域。和傳統(tǒng)數(shù)據(jù)庫(kù)中基于精確匹配的關(guān)鍵字來(lái)檢索信息不同,基于內(nèi)容的圖像檢索系統(tǒng)的信息是一個(gè)圖像的可視特征。如顏色、紋理、形狀等。由于檢索中查詢要求往往是根據(jù)人的主觀性所決定,因此很大程度上帶有含糊性。對(duì)于圖像紋理,習(xí)慣于用“很粗〞、“中等〞、“弱〞這樣的一些含糊概念來(lái)描述;形狀一般用“幾何形的〞、“立體形的〞或“似長(zhǎng)方形的〞、“正方形的〞等概念描述;顏色特征通常用“很艷〞、“一般〞、“暗淡〞或“大紅〞、“紫紅〞、“紅〞這樣的含糊概念來(lái)描述。所以基于內(nèi)容是圖像檢索是基于圖像的相似特征來(lái)檢索的。

2.2神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘的困難主要存在于三個(gè)方面:首先,巨量數(shù)據(jù)集的性質(zhì)往往非常復(fù)雜,非線性、時(shí)序性與噪音普遍存在;其次,數(shù)據(jù)分析的目標(biāo)具有多樣性,而復(fù)雜目標(biāo)無(wú)論在表述還是在處理上均與領(lǐng)域知識(shí)有關(guān);第三,在復(fù)雜目標(biāo)下,對(duì)巨量數(shù)據(jù)集的分析,目前還沒(méi)有現(xiàn)成的且滿足可計(jì)算條件的一般性理論與辦法。研究者們主要是將符號(hào)型機(jī)器學(xué)習(xí)辦法與數(shù)據(jù)庫(kù)技術(shù)相結(jié)合,但由于真實(shí)世界的數(shù)據(jù)關(guān)系相當(dāng)復(fù)雜,非線性程度相當(dāng)高,而且普遍存在著噪音數(shù)據(jù),因此這些辦法在很多場(chǎng)合都不適用。

因?yàn)樯窠?jīng)網(wǎng)絡(luò)的黑箱問(wèn)題,在數(shù)據(jù)挖掘的初期并不看好,然而,神經(jīng)網(wǎng)絡(luò)由于本身良好的魯棒性、自組織自適應(yīng)性、并行處理、分布存儲(chǔ)和高度容錯(cuò)等特性,以及它對(duì)未經(jīng)訓(xùn)練的數(shù)據(jù)分類模式的能力,非常適合解決數(shù)據(jù)挖掘中存在的以上問(wèn)題,因此近年來(lái)越來(lái)越受到人們的關(guān)注。規(guī)那么抽取辦法是解決“黑箱問(wèn)題〞的有效伎倆。神經(jīng)網(wǎng)絡(luò)規(guī)那么抽取的研究最早開始于80年代末。1988年,Gallant[13]設(shè)計(jì)了一個(gè)可以用if-then規(guī)那么解釋推理結(jié)論的神經(jīng)網(wǎng)絡(luò)專家系統(tǒng)。根據(jù)設(shè)計(jì)思想的不同,目前的規(guī)那么提取辦法大致可以分成兩大類,即基于結(jié)構(gòu)分析的辦法和基于性能分析的辦法。基于結(jié)構(gòu)分析的神經(jīng)網(wǎng)絡(luò)規(guī)那么抽取辦法把規(guī)那么抽取視為一個(gè)搜索過(guò)程,其根本思想是把已訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)映射成對(duì)應(yīng)的規(guī)那么。由于搜索過(guò)程的計(jì)算復(fù)雜度和神經(jīng)網(wǎng)絡(luò)輸入分量之間呈指數(shù)級(jí)關(guān)系,當(dāng)輸入分量很多時(shí),會(huì)出現(xiàn)組合爆炸。

因此,此類算法一般采用剪枝聚類等辦法來(lái)減少網(wǎng)絡(luò)中的連接以降低計(jì)算復(fù)雜度。RX算法[14]首先用權(quán)衰減辦法構(gòu)造BP網(wǎng)絡(luò)(該網(wǎng)絡(luò)中連接權(quán)的大小反映了連接的重要程度),然后對(duì)網(wǎng)絡(luò)進(jìn)行修剪,在預(yù)測(cè)精度不變的情況下刪除次要連接,在對(duì)網(wǎng)絡(luò)進(jìn)行充沛簡(jiǎn)化的條件下,對(duì)隱藏層結(jié)點(diǎn)的激活值進(jìn)行聚類,根據(jù)不同的隱藏層結(jié)點(diǎn)激活值用窮舉搜索的方法來(lái)尋找從輸入層到隱藏層和從隱藏層到輸出層的規(guī)那么.與基于結(jié)構(gòu)分析的辦法不同,基于性能分析的神經(jīng)網(wǎng)絡(luò)規(guī)那么抽取辦法并不對(duì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行分析和搜索,而是把神經(jīng)網(wǎng)絡(luò)作為一個(gè)整體來(lái)處理,這類辦法更注重的是抽取出的規(guī)那么在功能上對(duì)網(wǎng)絡(luò)的重現(xiàn)能力,即產(chǎn)生一組可以替代原網(wǎng)絡(luò)的規(guī)那么。較有代表性的算法是Sestito等人提出的相似權(quán)值法[15],這種辦法將輸出節(jié)點(diǎn)添加到輸入層去與輸入節(jié)點(diǎn)進(jìn)行比擬。1994年,Craven和Shavlik[16]為神經(jīng)網(wǎng)絡(luò)規(guī)那么抽取任務(wù)下了一個(gè)定義:給定一個(gè)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)以及用于其訓(xùn)練的訓(xùn)練集,為網(wǎng)絡(luò)產(chǎn)生一個(gè)簡(jiǎn)潔而精確的符號(hào)描述。在文獻(xiàn)[16]的根底上,1996年,Craven和Shavlik[17]提出了TREPAN算法。該算法首先用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對(duì)例如集進(jìn)行分類,然后將該匯合作為訓(xùn)練集提供應(yīng)決策樹學(xué)習(xí)算法,從而構(gòu)造出一棵與原網(wǎng)絡(luò)功能接近的、使用MOFN敘述式作為內(nèi)部劃分的決策樹。TREPAN的計(jì)算量較低。1997年,Craven和Shavlik[18]將TREPAN用于一個(gè)噪音時(shí)序任務(wù),即美元–馬克匯率預(yù)測(cè),取得了比現(xiàn)有辦法更好的效果。

2.3遺傳算法

遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法,是一種仿生全局優(yōu)化辦法。它是美國(guó)Michigan大學(xué)的Holland教授于1975年首先提出的。遺傳算法中包含了5個(gè)根本要素:①參數(shù)編碼;②初始群體的設(shè)定;③適應(yīng)度函數(shù)的設(shè)計(jì);④遺傳操作設(shè)計(jì);⑤控制參數(shù)設(shè)定。遺傳算法具有十分頑強(qiáng)的魯棒性、自適應(yīng)性,其在解決大空間、多峰值、非線性、全局優(yōu)化等復(fù)雜度高的問(wèn)題時(shí)具有獨(dú)特的優(yōu)勢(shì)。

因此,遺傳算法在數(shù)據(jù)挖掘技術(shù)越來(lái)越顯示出其重要的地位。數(shù)據(jù)挖掘最初應(yīng)用進(jìn)化計(jì)算從給定的目標(biāo)集中挖掘有趣的規(guī)那么[19],其強(qiáng)調(diào)從面向?qū)ο蟮臄?shù)據(jù)庫(kù)中發(fā)現(xiàn)數(shù)據(jù)集的共有特性。遺傳算法也應(yīng)用于其他方面如從多媒體數(shù)據(jù)庫(kù)中挖掘多媒體數(shù)據(jù)。遺傳算法在數(shù)據(jù)挖掘中主要應(yīng)用于數(shù)據(jù)回歸和關(guān)聯(lián)規(guī)那么的發(fā)現(xiàn)。

(1)回歸。除了發(fā)現(xiàn)可解釋的模式之外,數(shù)據(jù)挖掘的另外一個(gè)重要的任務(wù)就是預(yù)測(cè),即通過(guò)數(shù)據(jù)庫(kù)中的一些變量開掘其超未來(lái)的趨勢(shì)值。傳統(tǒng)的線性回歸需要先若這些屬性間沒(méi)有相關(guān)性,而遺傳算法那么可以很好的處理有相關(guān)性的變量。Xu[20]曾設(shè)計(jì)了一個(gè)多輸入單輸出的系統(tǒng),應(yīng)用遺傳算法從訓(xùn)練數(shù)據(jù)集中進(jìn)行非線性多元回歸。

(2)關(guān)聯(lián)規(guī)那么。遺傳學(xué)習(xí)首先創(chuàng)立一個(gè)由隨機(jī)產(chǎn)生的規(guī)那么組成的初始群體。每個(gè)規(guī)那么可以用一個(gè)二進(jìn)制位串表示的if-than類型。通過(guò)全局搜索,形成由當(dāng)前群體中最適合的規(guī)那么組成新的群體。遺傳算法可以獨(dú)自用于數(shù)據(jù)倉(cāng)庫(kù)中關(guān)聯(lián)規(guī)那么的挖掘,還可以和其他的數(shù)據(jù)挖掘技術(shù)相結(jié)合,示例,用于進(jìn)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以得到結(jié)構(gòu)簡(jiǎn)單、性能優(yōu)良的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[21];用于特征子集選擇[22];應(yīng)用于決策樹、分類器和含糊規(guī)那么的獲取等等。

2.4粗集粗集理論由波蘭邏輯學(xué)家Pawlak教授在20世紀(jì)80年代提出,是一種處理模糊和不確定問(wèn)題的新型數(shù)學(xué)工具。粗集理念基于給定訓(xùn)練數(shù)據(jù)內(nèi)部的等價(jià)類的建立。給定現(xiàn)實(shí)世界數(shù)據(jù),通常有些類不能被可用的屬性辨別。粗集可以用來(lái)近似定義這種類,將問(wèn)題的數(shù)據(jù)集進(jìn)行劃分,然后對(duì)劃分的每一局部確定其對(duì)某一概念的支持程度:即肯定支持此概念,肯定不支持此概念,并分別用下近似和上近似匯合來(lái)表示為正域、負(fù)域。它能有效地分析不精確、不一致、不完整等各種不完備的信息,還可以對(duì)數(shù)據(jù)進(jìn)行分析和推理,從中發(fā)現(xiàn)隱含的知識(shí)和潛在的規(guī)律。同時(shí),粗集理論在處理大數(shù)據(jù)量,打消冗余信息等方面有著良好的效果,因此廣泛應(yīng)用于數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理、規(guī)那么生成等方面。

(1)數(shù)據(jù)約簡(jiǎn)。粗集理論可提供有效辦法用于對(duì)信息系統(tǒng)中的數(shù)據(jù)進(jìn)行約簡(jiǎn)在數(shù)據(jù)挖掘系統(tǒng)的預(yù)處理階段,通過(guò)粗集理論刪除數(shù)據(jù)中的冗余信息(屬性、對(duì)象以及屬性值等),可大大提高系統(tǒng)的運(yùn)算速度。文獻(xiàn)[23]使用粗集辦法對(duì)信息系統(tǒng)進(jìn)行屬性及屬性域的約簡(jiǎn),然后使用神經(jīng)網(wǎng)絡(luò)對(duì)約簡(jiǎn)后的數(shù)據(jù)進(jìn)行分類,從而在網(wǎng)絡(luò)分類精度沒(méi)有明顯下降的前提下使網(wǎng)絡(luò)的學(xué)習(xí)速度提高到約簡(jiǎn)前的4.72倍。

(2)規(guī)那么抽取。與其它辦法(如神經(jīng)網(wǎng)絡(luò))相比,使用粗集理論生成規(guī)那么是相對(duì)簡(jiǎn)單和直接的,信息系統(tǒng)中的每一個(gè)對(duì)象既對(duì)應(yīng)一條規(guī)那么。粗集辦法生成規(guī)那么的一般步驟為:①得到條件屬性的一個(gè)約簡(jiǎn),刪去冗余屬性;②冊(cè)去每條規(guī)那么的冗余屬性值;③對(duì)殘余規(guī)那么進(jìn)行合并目前己經(jīng)產(chǎn)生了許多基于粗集理論的辦法用于從信息系統(tǒng)中抽取規(guī)那么[24]。粗集理論存在對(duì)錯(cuò)誤描述確實(shí)定性機(jī)制過(guò)于簡(jiǎn)單,而且在約簡(jiǎn)的過(guò)程中不足交互驗(yàn)證功能,因此,粗集理論與其它辦法如神經(jīng)網(wǎng)絡(luò)、遺傳算法、含糊數(shù)學(xué)、決策樹等相結(jié)合可以發(fā)揮各自的優(yōu)勢(shì),大大增強(qiáng)數(shù)據(jù)挖掘的效率。文獻(xiàn)[25]提出了一種融合粗集理論和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘新辦法,應(yīng)用于大型數(shù)據(jù)庫(kù)的分類規(guī)那么挖掘。其主要思想是首先由粗糙集理論對(duì)數(shù)據(jù)庫(kù)進(jìn)行初步約簡(jiǎn),然后借助于神經(jīng)網(wǎng)絡(luò)在自學(xué)習(xí)過(guò)程中完成對(duì)數(shù)據(jù)庫(kù)的進(jìn)一步屬性約簡(jiǎn),并過(guò)濾數(shù)據(jù)中的噪聲數(shù)據(jù),最

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論