


下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘中的軟計(jì)算方法及應(yīng)用綜述 摘 要 文章對(duì)數(shù)據(jù)挖掘中軟計(jì)算方法及應(yīng)用作了綜述。對(duì)模糊邏輯、遺傳算法、神經(jīng)網(wǎng)絡(luò)、粗集等軟計(jì)算方法,以及它們的混合算法的特點(diǎn)進(jìn)行了分析,并對(duì)它們?cè)跀?shù)據(jù)挖掘中的應(yīng)用進(jìn)行了分類(lèi)。 關(guān)鍵詞 數(shù)據(jù)挖掘;軟計(jì)算;模糊邏輯;遺傳算法;神經(jīng)網(wǎng)絡(luò);粗集 1 引言 在過(guò)去的數(shù)十年中,隨著計(jì)算機(jī)軟件和硬件的發(fā)展,我們產(chǎn)生和收集數(shù)據(jù)的能力已經(jīng)迅速提高。許多領(lǐng)域的大量數(shù)據(jù)集中或分布的存儲(chǔ)在數(shù)據(jù)庫(kù)中12,這些領(lǐng)域包括
2、商業(yè)、金融投資業(yè)、生產(chǎn)制造業(yè)、醫(yī)療衛(wèi)生、科學(xué)研究,以及全球信息系統(tǒng)的萬(wàn)維網(wǎng)。數(shù)據(jù)存儲(chǔ)量的增長(zhǎng)速度是驚人的。大量的、未加工的數(shù)據(jù)很難直接產(chǎn)生效益。這些數(shù)據(jù)的真正價(jià)值在于從中找出有用的信息以供決策支持。在許多領(lǐng)域,數(shù)據(jù)分析都采用傳統(tǒng)的手工處理方法。一些分析軟件在統(tǒng)計(jì)技術(shù)的幫助下可將數(shù)據(jù)匯總,并生成報(bào)表。隨著數(shù)據(jù)量和多維數(shù)據(jù)的進(jìn)一步增加,高達(dá)109的數(shù)據(jù)庫(kù)和103的多維數(shù)據(jù)庫(kù)已越來(lái)越普遍。沒(méi)有強(qiáng)有力的工具,理解它們已經(jīng)遠(yuǎn)遠(yuǎn)超出了人的能力。所有這些顯示我們需要智能的數(shù)據(jù)分析工具,從大量的數(shù)據(jù)中發(fā)現(xiàn)有用的知識(shí)。數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。 數(shù)據(jù)挖掘就是指從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)
3、的過(guò)程。包括存儲(chǔ)和處理數(shù)據(jù),選擇處理大量數(shù)據(jù)集的算法、解釋結(jié)果、使結(jié)果可視化。整個(gè)過(guò)程中支持人機(jī)交互的模式3。數(shù)據(jù)挖掘從許多交叉學(xué)科中得到發(fā)展,并有很好的前景。這些學(xué)科包括數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)、人工智能、模式識(shí)別、統(tǒng)計(jì)學(xué)、模糊推理、專(zhuān)家系統(tǒng)、數(shù)據(jù)可視化、空間數(shù)據(jù)分析和高性能計(jì)算等。數(shù)據(jù)挖掘綜合以上領(lǐng)域的理論、算法和方法,已成功應(yīng)用在超市、金融、銀行4、生產(chǎn)企業(yè)5和電信,并有很好的表現(xiàn)。 軟計(jì)算是能夠處理現(xiàn)實(shí)環(huán)境中一種或多種復(fù)雜信息的方法集合。軟計(jì)算的指導(dǎo)原則是開(kāi)發(fā)利用那些不精確性、不確定性和部分真實(shí)數(shù)據(jù)的容忍技術(shù),以獲得易處理、魯棒性好、低求解成本和更好地
4、與實(shí)際融合的性能。通常,軟計(jì)算試圖尋找對(duì)精確的或不精確表述問(wèn)題的近似解6。它是創(chuàng)建計(jì)算智能系統(tǒng)的有效工具。軟計(jì)算包括模糊集、神經(jīng)網(wǎng)絡(luò)、遺傳算法和粗集理論。 2 數(shù)據(jù)挖掘中的軟計(jì)算方法 目前,已有多種軟計(jì)算方法被應(yīng)用于數(shù)據(jù)挖掘系統(tǒng)中,來(lái)處理一些具有挑戰(zhàn)性的問(wèn)題。軟計(jì)算方法主要包括模糊邏輯、神經(jīng)網(wǎng)絡(luò)、遺傳算法和粗糙集等。這些方法各具優(yōu)勢(shì),它們是互補(bǔ)的而非競(jìng)爭(zhēng)的,與傳統(tǒng)的數(shù)據(jù)分析技術(shù)相比,它能使系統(tǒng)更加智能化,有更好的可理解性,且成本更低。下面主要對(duì)各種軟計(jì)算方法及其混合算法做系統(tǒng)性的闡述,并著重強(qiáng)調(diào)它們?cè)跀?shù)據(jù)挖掘中的應(yīng)用情況。 2.1模
5、糊邏輯 模糊邏輯是1965年由澤德引入的,它為處理不確定和不精確的問(wèn)題提供了一種數(shù)學(xué)工具。模糊邏輯是最早、應(yīng)用最廣泛的軟計(jì)算方法,模糊集技術(shù)在數(shù)據(jù)挖掘領(lǐng)域也占有重要地位。從數(shù)據(jù)庫(kù)中挖掘知識(shí)主要考慮的是發(fā)現(xiàn)有興趣的模式并以簡(jiǎn)潔、可理解的方式描述出來(lái)。模糊集可以對(duì)系統(tǒng)中的數(shù)據(jù)進(jìn)行約簡(jiǎn)和過(guò)濾,提供了在高抽象層處理的便利。同時(shí),數(shù)據(jù)挖掘中的數(shù)據(jù)分析經(jīng)常面對(duì)多種類(lèi)型的數(shù)據(jù),即符號(hào)數(shù)據(jù)和數(shù)字?jǐn)?shù)據(jù)。Nauck7研究了新的算法,可以從同時(shí)包含符號(hào)數(shù)據(jù)和數(shù)字?jǐn)?shù)據(jù)中生成混合模糊規(guī)則。數(shù)據(jù)挖掘中模糊邏輯主要應(yīng)用于以下幾個(gè)方面: (1)聚類(lèi)。
6、將物理或抽象對(duì)象的集合分組成為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的過(guò)程被稱(chēng)為聚類(lèi)。聚類(lèi)分析是一種重要的人類(lèi)行為,通過(guò)聚類(lèi),人能夠識(shí)別密集的和稀疏的區(qū)域,因而發(fā)現(xiàn)全局的分布模式,以及數(shù)據(jù)屬性之間有趣的關(guān)系。模糊集有很強(qiáng)的搜索能力,它對(duì)發(fā)現(xiàn)的結(jié)構(gòu)感興趣,這會(huì)幫助發(fā)現(xiàn)定性或半定性數(shù)據(jù)的依賴(lài)度。在數(shù)據(jù)挖掘中,這種能力可以幫助阻止搜到無(wú)用和微不足道的知識(shí)。研究者為此發(fā)展了模糊聚類(lèi)算法,并得到了廣泛應(yīng)用8。在高維數(shù)據(jù)挖掘中有太多的屬性要考慮,因此知識(shí)簡(jiǎn)約就非常的必要。屬性聚類(lèi)的實(shí)質(zhì)就是知識(shí)簡(jiǎn)約,所謂知識(shí)約簡(jiǎn),就是在保持知識(shí)庫(kù)的分類(lèi)或者決策能力不變的條件下,刪除不重要的或冗余的知識(shí),最小約簡(jiǎn)(含有最小屬性)是人們所期
7、望的,且約簡(jiǎn)結(jié)果是不確定的。所以模糊聚類(lèi)成為知識(shí)簡(jiǎn)約的有力工具。 (2)關(guān)聯(lián)規(guī)則。數(shù)據(jù)挖掘重要的一點(diǎn)是關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),關(guān)聯(lián)規(guī)則挖掘是尋找給定數(shù)據(jù)集中屬性間的關(guān)聯(lián)。其中,布爾關(guān)聯(lián)規(guī)則考慮的是關(guān)聯(lián)的屬性在與不在的二維特征,概化關(guān)聯(lián)規(guī)則描述的是屬性的分層關(guān)系,量化關(guān)聯(lián)規(guī)則描述的是量化的屬性(既離散化的屬性)間的關(guān)聯(lián)9。由于使用模糊概念表示的規(guī)則更符合人的思維和表達(dá)習(xí)慣,增強(qiáng)了規(guī)則的可理解性,所以模糊技術(shù)已成為數(shù)據(jù)挖掘系統(tǒng)中的關(guān)鍵技術(shù)。文獻(xiàn)10中用模糊分類(lèi)開(kāi)拓了概化關(guān)聯(lián)規(guī)則。 (3)數(shù)據(jù)概化。概化發(fā)現(xiàn)是數(shù)據(jù)挖掘重要部分之一。它
8、將大的數(shù)據(jù)集從較低的概念層抽象到較高的概念層,用可理解的信息來(lái)表達(dá)數(shù)據(jù)庫(kù)中最重要的部分,并提供給用戶。 大數(shù)據(jù)集的語(yǔ)言概化通過(guò)有效的程度來(lái)獲得,參考的標(biāo)準(zhǔn)內(nèi)容在挖掘任務(wù)中。系統(tǒng)由概述、一致性程度真實(shí)和有效性組成。已經(jīng)發(fā)現(xiàn)的最有興趣的語(yǔ)言概化并不瑣碎,卻很人性化。實(shí)際上,它并不能自動(dòng)地進(jìn)行概化,需要人的操作。Kacprzyk和Zadrozny11發(fā)展了功能依賴(lài)度,語(yǔ)言概化使用了自然和可理解性的詞匯,它支持模糊元素,包括屬性間模糊的、重要的相互作用。首先,用戶必須制定概化興趣度,然后系統(tǒng)從數(shù)據(jù)庫(kù)中獲得記錄,并計(jì)算每個(gè)概化的有效性,最后,選擇最適合的語(yǔ)言概化。此方法通過(guò)網(wǎng)絡(luò)瀏覽器已用在因特網(wǎng)上。模糊
9、值、模糊聯(lián)系和語(yǔ)言量都通過(guò)JAVA來(lái)定義。 (4)Web應(yīng)用。通過(guò)Web日志的挖掘,來(lái)發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式。通過(guò)分析Web日志記錄中的規(guī)律,可以識(shí)別電子商務(wù)的潛在客戶,增強(qiáng)對(duì)最終用戶的Internet信息服務(wù)的質(zhì)量和交付,并改進(jìn)Web服務(wù)器系統(tǒng)的性能。還可以進(jìn)一步獲得用戶訪問(wèn)的附加信息(包括Web服務(wù)器緩沖區(qū)中用戶瀏覽Web頁(yè)面的序列等),以便于做更為詳細(xì)的Web日志分析。如通過(guò)用戶訪問(wèn)模式的學(xué)習(xí)改進(jìn)其自身的Web站點(diǎn),有助于建立針對(duì)個(gè)體用戶的定制Web服務(wù)。為了挖掘出較完全的興趣模式, 吳瑞12提出一種新的結(jié)構(gòu)類(lèi)型-FLAAT,它可發(fā)現(xiàn)那些被忽略
10、的用戶瀏覽偏愛(ài)路徑。同時(shí)引進(jìn)模糊集來(lái)處理停留在網(wǎng)頁(yè)上的時(shí)間,以形成語(yǔ)義術(shù)語(yǔ)使挖掘出的用戶瀏覽偏愛(ài)路徑更自然、更易理解。算法能準(zhǔn)確地反映用戶的瀏覽興趣。 (5)圖像檢索。隨著近來(lái)由多種媒體數(shù)據(jù)構(gòu)成的多媒體信息倉(cāng)庫(kù)數(shù)據(jù)的增加,基于內(nèi)容的圖像檢索開(kāi)始活躍在這個(gè)領(lǐng)域。和傳統(tǒng)數(shù)據(jù)庫(kù)中基于精確匹配的關(guān)鍵字來(lái)檢索信息不同,基于內(nèi)容的圖像檢索系統(tǒng)的信息是一個(gè)圖像的可視特征。如顏色、紋理、形狀等。由于檢索中查詢要求往往是根據(jù)人的主觀性所決定,因此很大程度上帶有模糊性。對(duì)于圖像紋理,習(xí)慣于用“很粗”、“中等”、“弱”這樣的一些模糊概念來(lái)描述;形狀一般用“幾何形的”、“立體形的
11、”或“似長(zhǎng)方形的”、“正方形的”等概念描述;顏色特征通常用“很艷”、“一般”、 “暗淡”或“大紅”、“紫紅”、“紅”這樣的模糊概念來(lái)描述。所以基于內(nèi)容是圖像檢索是基于圖像的相似特征來(lái)檢索的。 2.2 神經(jīng)網(wǎng)絡(luò) 數(shù)據(jù)挖掘的困難主要存在于三個(gè)方面:首先,巨量數(shù)據(jù)集的性質(zhì)往往非常復(fù)雜,非線性、時(shí)序性與噪音普遍存在;其次,數(shù)據(jù)分析的目標(biāo)具有多樣性,而復(fù)雜目標(biāo)無(wú)論在表述還是在處理上均與領(lǐng)域知識(shí)有關(guān);第三,在復(fù)雜目標(biāo)下,對(duì)巨量數(shù)據(jù)集的分析,目前還沒(méi)有現(xiàn)成的且滿足可計(jì)算條件的一般性理論與方法。研究者們主要是將符號(hào)型機(jī)器學(xué)習(xí)方法與數(shù)據(jù)庫(kù)技術(shù)相結(jié)合,
12、但由于真實(shí)世界的數(shù)據(jù)關(guān)系相當(dāng)復(fù)雜,非線性程度相當(dāng)高,而且普遍存在著噪音數(shù)據(jù),因此這些方法在很多場(chǎng)合都不適用。 因?yàn)樯窠?jīng)網(wǎng)絡(luò)的黑箱問(wèn)題,在數(shù)據(jù)挖掘的初期并不看好,然而,神經(jīng)網(wǎng)絡(luò)由于本身良好的魯棒性、自組織自適應(yīng)性、并行處理、分布存儲(chǔ)和高度容錯(cuò)等特性,以及它對(duì)未經(jīng)訓(xùn)練的數(shù)據(jù)分類(lèi)模式的能力,非常適合解決數(shù)據(jù)挖掘中存在的以上問(wèn)題,因此近年來(lái)越來(lái)越受到人們的關(guān)注。 規(guī)則抽取方法是解決“黑箱問(wèn)題”的有效手段。神經(jīng)網(wǎng)絡(luò)規(guī)則抽取的研究最早開(kāi)始于80年代末。1988年,Gallant13設(shè)計(jì)了一個(gè)可以用if-then規(guī)則解釋推理結(jié)論的神經(jīng)網(wǎng)絡(luò)專(zhuān)家系統(tǒng)。根據(jù)設(shè)計(jì)思想的不同,目
13、前的規(guī)則提取方法大致可以分成兩大類(lèi),即基于結(jié)構(gòu)分析的方法和基于性能分析的方法。 基于結(jié)構(gòu)分析的神經(jīng)網(wǎng)絡(luò)規(guī)則抽取方法把規(guī)則抽取視為一個(gè)搜索過(guò)程,其基本思想是把已訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)映射成對(duì)應(yīng)的規(guī)則。由于搜索過(guò)程的計(jì)算復(fù)雜度和神經(jīng)網(wǎng)絡(luò)輸入分量之間呈指數(shù)級(jí)關(guān)系,當(dāng)輸入分量很多時(shí),會(huì)出現(xiàn)組合爆炸。因此,此類(lèi)算法一般采用剪枝聚類(lèi)等方法來(lái)減少網(wǎng)絡(luò)中的連接以降低計(jì)算復(fù)雜度。RX算法14首先用權(quán)衰減方法構(gòu)造BP網(wǎng)絡(luò)(該網(wǎng)絡(luò)中連接權(quán)的大小反映了連接的重要程度),然后對(duì)網(wǎng)絡(luò)進(jìn)行修剪,在預(yù)測(cè)精度不變的情況下刪除次要連接,在對(duì)網(wǎng)絡(luò)進(jìn)行充分簡(jiǎn)化的條件下,對(duì)隱藏層結(jié)點(diǎn)的激活值進(jìn)行聚類(lèi)
14、,根據(jù)不同的隱藏層結(jié)點(diǎn)激活值用窮舉搜索的辦法來(lái)尋找從輸入層到隱藏層和從隱藏層到輸出層的規(guī)則. 與基于結(jié)構(gòu)分析的方法不同,基于性能分析的神經(jīng)網(wǎng)絡(luò)規(guī)則抽取方法并不對(duì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行分析和搜索,而是把神經(jīng)網(wǎng)絡(luò)作為一個(gè)整體來(lái)處理,這類(lèi)方法更注重的是抽取出的規(guī)則在功能上對(duì)網(wǎng)絡(luò)的重現(xiàn)能力,即產(chǎn)生一組可以替代原網(wǎng)絡(luò)的規(guī)則。較有代表性的算法是Sestito等人提出的相似權(quán)值法15,這種方法將輸出節(jié)點(diǎn)添加到輸入層去與輸入節(jié)點(diǎn)進(jìn)行比較。1994年,Craven和Shavlik16為神經(jīng)網(wǎng)絡(luò)規(guī)則抽取任務(wù)下了一個(gè)定義:給定一個(gè)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)以及用于其訓(xùn)練的訓(xùn)練集,為網(wǎng)絡(luò)產(chǎn)生一個(gè)
15、簡(jiǎn)潔而精確的符號(hào)描述。在文獻(xiàn)16的基礎(chǔ)上,1996年,Craven和Shavlik17提出了TREPAN算法。該算法首先用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對(duì)示例集進(jìn)行分類(lèi),然后將該集合作為訓(xùn)練集提供給決策樹(shù)學(xué)習(xí)算法,從而構(gòu)造出一棵與原網(wǎng)絡(luò)功能接近的、使用MOFN表達(dá)式作為內(nèi)部劃分的決策樹(shù)。TREPAN的計(jì)算量較低。1997年,Craven和Shavlik18將TREPAN用于一個(gè)噪音時(shí)序任務(wù),即美元馬克匯率預(yù)測(cè),取得了比現(xiàn)有方法更好的效果。 2.3遺傳算法 遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法,是一種仿生全局優(yōu)化方法。它是美國(guó) Michigan大學(xué)的Holland教授于1975年首先提出的。遺傳算法中包含了5個(gè)基本要素:參數(shù)編碼;初始群體的設(shè)定;適應(yīng)度函數(shù)的設(shè)計(jì);遺傳操作設(shè)計(jì);控制參數(shù)設(shè)定。遺傳算法具有十分頑強(qiáng)的魯棒性、自適應(yīng)性,其在解決大空間
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 智能建筑與城市可持續(xù)發(fā)展研究報(bào)告
- 2025年制造業(yè)智能化生產(chǎn)設(shè)備故障率分析與降低策略報(bào)告
- 2025年制造業(yè)數(shù)字化轉(zhuǎn)型數(shù)據(jù)治理與工業(yè)物聯(lián)網(wǎng)設(shè)備接入技術(shù)研究報(bào)告
- 福建生物工程職業(yè)技術(shù)學(xué)院《健美運(yùn)動(dòng)訓(xùn)練(三)》2023-2024學(xué)年第一學(xué)期期末試卷
- 深圳信息職業(yè)技術(shù)學(xué)院《醫(yī)學(xué)遺傳學(xué)(A)》2023-2024學(xué)年第一學(xué)期期末試卷
- 河北資源環(huán)境職業(yè)技術(shù)學(xué)院《線性代數(shù)(理)》2023-2024學(xué)年第一學(xué)期期末試卷
- 南京理工大學(xué)紫金學(xué)院《測(cè)繪工程監(jiān)理學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 區(qū)塊鏈?zhǔn)称匪菰纯梢暬?洞察及研究
- 光催化自組裝納米材料-洞察及研究
- 家長(zhǎng)心理互動(dòng)活動(dòng)方案
- 艾梅乙反歧視培訓(xùn)課件
- 浙江省杭州市2024-2025學(xué)年高二下學(xué)期6月期末教學(xué)質(zhì)量檢測(cè)英語(yǔ)試題(含答案)
- 2025年河南省中考地理試題(含答案)
- 2025安全生產(chǎn)月一把手講安全公開(kāi)課三十二(91P)
- DB64-266-2018 建筑工程資料管理規(guī)程
- 人教鄂教版六年級(jí)下冊(cè)科學(xué)期末專(zhuān)題訓(xùn)練:實(shí)驗(yàn)題、綜合題(含答案)
- 2025屆湖北省武漢市武昌區(qū)南湖中學(xué)英語(yǔ)七年級(jí)第二學(xué)期期末達(dá)標(biāo)檢測(cè)試題含答案
- 2025年度安全生產(chǎn)月培訓(xùn)課件
- 2025課件:紅色基因作風(fēng)建設(shè)七一黨課
- 2025春季學(xué)期國(guó)開(kāi)電大本科《人文英語(yǔ)4》一平臺(tái)機(jī)考真題及答案(第七套)
- 2025年全國(guó)二卷高考英語(yǔ)作文深度解析及寫(xiě)作指導(dǎo)
評(píng)論
0/150
提交評(píng)論