面向領(lǐng)域的數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)挖掘一個(gè)新的理解數(shù)據(jù)挖掘-中文版_第1頁
面向領(lǐng)域的數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)挖掘一個(gè)新的理解數(shù)據(jù)挖掘-中文版_第2頁
面向領(lǐng)域的數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)挖掘一個(gè)新的理解數(shù)據(jù)挖掘-中文版_第3頁
面向領(lǐng)域的數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)挖掘一個(gè)新的理解數(shù)據(jù)挖掘-中文版_第4頁
面向領(lǐng)域的數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)挖掘一個(gè)新的理解數(shù)據(jù)挖掘-中文版_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、面向領(lǐng)域的數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)挖掘一個(gè)新的理解數(shù)據(jù)挖掘抽象:最近,在計(jì)算機(jī)、通訊、數(shù)據(jù)存儲技術(shù)、高通量數(shù)據(jù)采集技術(shù)上的進(jìn)步使得收集和存儲令人難以置信的海量數(shù)據(jù)成為可能。為從數(shù)據(jù)庫中發(fā)現(xiàn)大量知識創(chuàng)造了前所未有的機(jī)遇。數(shù)據(jù)挖掘是一種為處理大量的數(shù)據(jù)提供了新的理論,技術(shù)和工具的新興領(lǐng)域的計(jì)算智能,例如:數(shù)據(jù)分析、決策等等。有許多研究人員從事于設(shè)計(jì)有效的數(shù)據(jù)挖掘技術(shù)、方法和算法。不幸的是,大多數(shù)的數(shù)據(jù)挖掘研究人員把重心放在了發(fā)展數(shù)據(jù)挖掘的模式和方法上,只有一小部分致力于數(shù)據(jù)挖掘的基本問題。本文中我們會提出一個(gè)新的數(shù)據(jù)挖掘的理解,那就是面向領(lǐng)域的數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)挖掘(3DM)模型。數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)挖掘算法在我們的

2、實(shí)驗(yàn)室開發(fā)出來同時(shí)提出來以顯示她的有效性。1. 介紹數(shù)據(jù)挖掘是被我們從巨大的數(shù)據(jù)集總獲取知識的渴望刺激的產(chǎn)物。它使用機(jī)器學(xué)習(xí),統(tǒng)計(jì)和可視化技術(shù)去發(fā)現(xiàn)數(shù)據(jù)中的知識,并且以一種很容易為用戶理解和使用的形式表現(xiàn)出來。許多數(shù)據(jù)挖掘方法是基于機(jī)器學(xué)習(xí)算法、統(tǒng)計(jì)方法的擴(kuò)展、組合和調(diào)整和知識的提取和抽象。在過去的二十年里,許多技術(shù)被應(yīng)用在數(shù)據(jù)挖掘中,例如人工神經(jīng)網(wǎng)絡(luò),模糊集,粗糙集,決策樹,遺傳算法,最近鄰方法,基于統(tǒng)計(jì)規(guī)則歸納法,線性回歸,線性預(yù)測編碼等等。對于數(shù)據(jù)挖掘的研究有很多觀點(diǎn)?,F(xiàn)有的大量研究可以被粗略的分為三種觀點(diǎn),不管在數(shù)據(jù)挖掘的研究中采取的哪種觀點(diǎn),大多數(shù)的數(shù)據(jù)挖掘人員對發(fā)展數(shù)據(jù)挖掘模式和方

3、法的技術(shù)問題投入的大量的精力,只有少數(shù)的人關(guān)注數(shù)據(jù)挖掘的基本問題。什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘的產(chǎn)物是什么?我們這數(shù)據(jù)挖掘中在做什么?我們在數(shù)據(jù)挖掘中應(yīng)該遵守的規(guī)則是什么?數(shù)據(jù)領(lǐng)域?qū)<业南闰?yàn)知識和知識豐富的頭腦直接的關(guān)系式什么?為了回答以上問題,我們需要研究數(shù)據(jù)挖掘的過程。首先,大量相關(guān)的研究已經(jīng)被證實(shí),一個(gè)三層的概念框架被Yao提出,它包括哲學(xué)層,技術(shù)層和應(yīng)用層。這個(gè)框架的層代表了知識利用的理解,發(fā)現(xiàn)和區(qū)分。Peng為數(shù)據(jù)挖掘和知識的發(fā)現(xiàn)領(lǐng)域提出了一個(gè)系統(tǒng)框架,它的目的就是區(qū)分?jǐn)?shù)據(jù)挖掘領(lǐng)域和知識發(fā)現(xiàn)。此外,國際上還舉辦了有關(guān)數(shù)據(jù)挖掘基礎(chǔ)的研討會。遺憾的是,仍然沒有被完全認(rèn)可和沒有爭議的答案對于之

4、前提到的問題。在本文中,我們將會對基于概念上的數(shù)據(jù)挖掘模式提出一種新的理解。我們的答案將會是“數(shù)據(jù)挖掘是知識轉(zhuǎn)型的一個(gè)過程”。我們工作中關(guān)于數(shù)據(jù)挖掘技術(shù)的最經(jīng)的成果也會給以介紹以展示3DM模式的合理性。2、面向領(lǐng)域的數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)挖掘模式2.1 數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)挖掘數(shù)據(jù)挖掘是對數(shù)據(jù)中隱含的之前未知的潛在的有用知識的非一般的提取。知識可以以許多不同的方式表現(xiàn)出來,對于編碼知識有很多種形式,最簡單的格式或許是象征性的格式像公式、法則、定理等。對于人們來說以這種格式來理解和應(yīng)用是很簡單的,這些格式經(jīng)常被用在書籍、論文甚至專業(yè)系統(tǒng)中,書籍也是針對于編碼知識的人造格式。近期在計(jì)算機(jī)、通信,數(shù)字存儲技術(shù),以

5、及高吞吐量的數(shù)據(jù)采集技術(shù)上的進(jìn)步使得收集和存儲令人難以置信的大量的數(shù)據(jù)成為可能。在很多領(lǐng)域都有大量的數(shù)據(jù)產(chǎn)生,每天許多自然現(xiàn)象、法則甚至人類的經(jīng)驗(yàn)都被記錄在數(shù)據(jù)庫中。不幸的是人們無法讀到、理解或者用到這些數(shù)據(jù)中包含的知識。因此我們認(rèn)為,在數(shù)據(jù)挖掘過程中,知識以一種人類無法理解的數(shù)據(jù)形式被轉(zhuǎn)化成另外一種難以理解的抽象格式如規(guī)則、公式、定理等等。在數(shù)據(jù)挖掘中不會有新的知識產(chǎn)生,也就是說,我們只是在不產(chǎn)生新知識的過程中把知識從一種形式轉(zhuǎn)化為另外一種形式。并且,在不同 的系統(tǒng)中對于知識的轉(zhuǎn)化有許多種渠道和方式。Fig.l是知識轉(zhuǎn)化過程中的一個(gè)插曲。 從Fig.l,人們可以看到數(shù)據(jù)挖掘只是一種知識轉(zhuǎn)化過

6、程對于從數(shù)據(jù)形式到抽象形式的知識轉(zhuǎn)化。因此,在數(shù)據(jù)挖掘過程沒有新的知識產(chǎn)生?;跀?shù)據(jù)挖掘的這種理解,我們可以得到Fig.2的基于數(shù)據(jù)挖掘的數(shù)據(jù)轉(zhuǎn)化框架。 從Fig.2我們可以發(fā)現(xiàn),知識可以被編輯成自然形式、數(shù)據(jù)形式、抽象形式和神經(jīng)連接形式。那就是說,數(shù)據(jù)可以存儲在自然世界系統(tǒng)、數(shù)據(jù)系統(tǒng)、或者生物神經(jīng)網(wǎng)絡(luò)系統(tǒng)。知識以任何一種形式表示都有有一些內(nèi)涵,那就是P/s。在不同形式中的知識應(yīng)該有一些聯(lián)系,為了保證在數(shù)據(jù)挖掘過程中知識不會被改變,知識的內(nèi)涵應(yīng)該在知識的轉(zhuǎn)化過程中保持不變。否則,在知識的轉(zhuǎn)化過程中就會產(chǎn)生一些錯(cuò)誤。在數(shù)據(jù)挖掘過程中,數(shù)據(jù)形式的知識的內(nèi)涵不能改變。這個(gè)信息應(yīng)該為數(shù)據(jù)挖掘的算法提供

7、一些指導(dǎo),他同樣有助于我們在數(shù)據(jù)挖掘過程中保持?jǐn)?shù)據(jù)形式的知識不會發(fā)生改變。因此,為了保持知識在數(shù)據(jù)挖掘過程中不發(fā)生改變,我們需要了解一些數(shù)據(jù)形式的知識的內(nèi)涵,并且在保持不變的同時(shí)用他去控制數(shù)據(jù)挖掘過程,這是數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)挖掘的關(guān)鍵點(diǎn)。設(shè)計(jì)數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)挖掘算法的過程如下:步驟1:選擇一種對于被學(xué)習(xí)的領(lǐng)域問題來說合適的典型的知識代表形式。步驟2:選擇一些知識的內(nèi)涵可以以數(shù)據(jù)形式和典型形式衡量的。步驟3:以數(shù)據(jù)形式和典型形式衡量知識的內(nèi)涵。步驟4:利用內(nèi)容區(qū)控制數(shù)據(jù)挖掘過程并保持不變。知識的內(nèi)容可以以兩種不同的系統(tǒng)來衡量,數(shù)據(jù)系統(tǒng)和抽象系統(tǒng),這也許是一個(gè)問題。以數(shù)據(jù)形式和抽象形式衡量的結(jié)果是可以比較的

8、嗎?如果不是,我們怎么知道在數(shù)據(jù)挖掘過程中他有沒有改變呢?因此,需要提出一種可比對于選擇的內(nèi)容進(jìn)行較衡量的方法。也就是說,我們需要建立一些數(shù)據(jù)形式和抽象時(shí)間知識內(nèi)容的聯(lián)系。22 用戶驅(qū)動(dòng)(域驅(qū)動(dòng))數(shù)據(jù)挖掘許多真實(shí)世界的數(shù)據(jù)挖掘任務(wù),例如資本市場的數(shù)據(jù)挖掘,高度的約束前提和面向領(lǐng)域。因此,它旨在可操作的知識發(fā)現(xiàn),可以以負(fù)擔(dān)的起的重要基礎(chǔ)執(zhí)行適當(dāng)?shù)男袆?dòng)。在最近幾年,一些針對于這類工作的域驅(qū)動(dòng)或者說用戶驅(qū)動(dòng)數(shù)據(jù)挖掘方法已經(jīng)得到發(fā)展。張、曹、林為資本市場的金融數(shù)據(jù)挖掘提出了域驅(qū)動(dòng)的深度模式發(fā)掘框架。姚、趙也利用顆粒網(wǎng)絡(luò)提出了交互式用戶為導(dǎo)向的分類方法。Kuntz、Guillet、Lehn和Briand

9、為了發(fā)現(xiàn)關(guān)聯(lián)規(guī)則開發(fā)出了以人為本的過程,用戶被認(rèn)為是一種引導(dǎo)通過適應(yīng)良好的接口驅(qū)動(dòng)挖掘算法。Han和Lakshmanan把基于制約和多維挖掘融合到一個(gè)框架里,為有效和高效的數(shù)據(jù)分析與挖掘提供了一個(gè)互動(dòng)的探索環(huán)境。為了創(chuàng)造詞匯知識的基礎(chǔ),Patrick,Palko,Munro和Zappavigna 提出了一個(gè)半自動(dòng)的方法,采用訓(xùn)練從一個(gè)有豐富經(jīng)驗(yàn)的用戶去識別詞典文本流中的結(jié)構(gòu)元素。Dorado,Pedrycz和Izquierdo利用一些問題分類領(lǐng)域的知識作為訓(xùn)練程序的一部分在語義的圖像分類中。用戶驅(qū)動(dòng)或者說域驅(qū)動(dòng),數(shù)據(jù)挖掘方法有一些共同的基礎(chǔ)概念:1、 一個(gè)用戶驅(qū)動(dòng)數(shù)據(jù)挖掘程序是基于約束的。2、

10、 在一個(gè)用戶驅(qū)動(dòng)程序中用戶的興趣被考慮到。3、 在一個(gè)用戶驅(qū)動(dòng)程序中域?qū)<抑暗慕?jīng)驗(yàn)是必要的。4、 在一個(gè)用戶驅(qū)動(dòng)程序中用戶和機(jī)器的交互是必要的。2.3 有向域數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)挖掘數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)挖掘和用戶驅(qū)動(dòng)(或者域驅(qū)動(dòng))之間會沖突嗎?它們可以融入到一個(gè)系統(tǒng)里嗎?我們在這章討論這些問題!在一個(gè)數(shù)據(jù)庫管理系統(tǒng)中,不同的用戶可以根據(jù)自己的視圖操作整個(gè)數(shù)據(jù)庫系統(tǒng)中不同的數(shù)據(jù)。如果數(shù)據(jù)是以一種知識收集格式獲取的,數(shù)據(jù)庫也可以被當(dāng)做一種知識基礎(chǔ)收集。因此,不同的用戶可以找到并使用整個(gè)知識基礎(chǔ)對不同任務(wù)的不同子集。那就是說,通過他們的視圖,一個(gè)用戶可以以數(shù)據(jù)的形式利用知識的子集并且把他從數(shù)據(jù)形式變成另外一種需要

11、的形式。每一個(gè)用戶都可以進(jìn)行知識轉(zhuǎn)變?nèi)匀灰砸环N數(shù)據(jù)驅(qū)動(dòng)方法。在一域驅(qū)動(dòng)數(shù)據(jù)挖掘過程中,用戶的興趣、約束和早期的領(lǐng)域知識都很重要。用戶和機(jī)器間的合作是必要的。數(shù)據(jù)挖掘過程可能被用戶控制。由于這個(gè)原因,這種挖掘過程的知識資源包括數(shù)據(jù)和用戶,不僅僅數(shù)據(jù)。因此,早期的領(lǐng)域知識同樣是數(shù)據(jù)挖掘過程的資源。一個(gè)用戶對數(shù)據(jù)挖掘過程的控制同樣被當(dāng)做一種數(shù)據(jù)挖掘過程的動(dòng)態(tài)輸入被采用。這樣,一個(gè)數(shù)據(jù)挖掘過程不僅僅從數(shù)據(jù)中也從人中采集知識。數(shù)據(jù)不是知識的唯一資源,插圖Fig.3就是這種想法。從以上討論,我們知道域驅(qū)動(dòng)數(shù)據(jù)挖掘和數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)挖掘不沖突。它們可以融入一個(gè)系統(tǒng)中,為了提高例如面向領(lǐng)域數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)挖掘過程仍然

12、有很多工作要做,1.設(shè)計(jì)一種格式編譯早期域知識。2.設(shè)計(jì)一種格式為特殊的任務(wù)編譯用戶的興趣和限制。3.設(shè)計(jì)一種格式編譯用戶的控制。4.設(shè)計(jì)一種數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)挖掘方法可以把數(shù)據(jù)早期域知識,用戶的興趣,用戶的限制,用戶的控制收集在一起當(dāng)做它的輸入。這里,最初的數(shù)據(jù),針對特殊任務(wù)的早期域知識,用戶興趣和限制可以被當(dāng)做一個(gè)3DM系統(tǒng)的靜態(tài)輸入進(jìn)行收集,增長數(shù)據(jù)和用戶控制當(dāng)做它的動(dòng)態(tài)輸入。3 數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)挖掘方法基于知識的不確定行根據(jù)以上對3DM模式的討論,數(shù)據(jù)挖掘是知識轉(zhuǎn)化的過程和在這個(gè)過程中知識的屬性應(yīng)該保持不變。因此,知識的屬性可以為設(shè)計(jì)數(shù)據(jù)挖掘算法庫提供一些指導(dǎo)。知識的不確定性是知識的一種重要屬性

13、,wang測量并比較知識的不確定性分別以數(shù)據(jù)形式在決策表和象征性的方式在決策規(guī)則。這證明了從決策表中的局部少量確定性可以表現(xiàn)出決策表的不確定性并且可以控制規(guī)則的產(chǎn)生進(jìn)程。為了證實(shí)3DM模式在此文提議的有效行,我們提出了一些數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)挖掘方法,例如,數(shù)據(jù)驅(qū)動(dòng)的默認(rèn)規(guī)則生成算法中,數(shù)據(jù)驅(qū)動(dòng)決策樹預(yù)剪枝運(yùn)算法則和從概念格子框架數(shù)據(jù)驅(qū)動(dòng)知識的獲取。在這些數(shù)據(jù)挖掘方法中,知識不確定性被當(dāng)做一種知識特性使用來控制數(shù)據(jù)挖掘過程。在數(shù)據(jù)驅(qū)動(dòng)的默認(rèn)規(guī)則生成算法中,根據(jù)一個(gè)決策表的條件屬性集,決策表的條件等級并且要首先計(jì)算對決策表局部最小值的確定a(a 是對決策表局部最小值的確定)。因此,a作為閾值使用Skow

14、ron的命題默認(rèn)規(guī)則生成算法來生成一個(gè)規(guī)則系統(tǒng)。使用22型UCI數(shù)據(jù)傳輸轉(zhuǎn)換器,我們測試了數(shù)據(jù)驅(qū)動(dòng)的默認(rèn)規(guī)則生成算法。實(shí)驗(yàn)結(jié)果表明,當(dāng)從l到a的降低時(shí)隨著門檻的降低,正確識別率迅速增加,然而,在門檻從a到0的進(jìn)一步增長之后,正確識別率發(fā)生一些變化。在本規(guī)則生成過程,從一個(gè)生成較少規(guī)則的數(shù)據(jù)集中,得到了較高的正確識別率。根據(jù)一個(gè)決策樹定義的不確定性,可以在數(shù)據(jù)驅(qū)動(dòng)的決策樹中學(xué)習(xí)算法基于知識的不確定性,全局確定性決策表與一個(gè)給定的條件屬性作為分裂屬性選擇的度量,并控制其預(yù)剪枝過程決策樹的生長。如果一個(gè)條件類用于生成決策樹節(jié)點(diǎn)的確定性不低于本樹節(jié)點(diǎn)的決策表的全局確定性,我們應(yīng)該停止進(jìn)一步分裂這個(gè)節(jié)點(diǎn)

15、并且為它生成一個(gè)葉子節(jié)點(diǎn)。換句話說,如果一個(gè)用來生成決策樹節(jié)點(diǎn)的條件類的確定性大于參考其分裂屬性的決策表的父節(jié)點(diǎn)的完全確定性,這個(gè)節(jié)點(diǎn)可以被當(dāng)做葉子節(jié)點(diǎn)采用。用這種方法創(chuàng)建的決策樹有很高的精確性但是樹會很小。使用14型UCI數(shù)據(jù)傳輸轉(zhuǎn)換器,我們測試了基于知識的不確定性的數(shù)據(jù)驅(qū)動(dòng)的決策樹學(xué)習(xí)算法,它與預(yù)剪枝算法j-pruning和后剪枝方法減少錯(cuò)誤修剪的比較。實(shí)驗(yàn)結(jié)果證明這種算法有更高的測試準(zhǔn)確性并且相對于算法j-pruning和REP產(chǎn)生了更小的樹。Tapio Elomaa 證明了考慮到驗(yàn)證集的問題REP算法可以產(chǎn)生有最少錯(cuò)誤的最小樹。因此,如果訓(xùn)練集和驗(yàn)證集可以很好的代對象,對于生成一個(gè)決策

16、樹來說REP算法是一個(gè)完美的方法。從實(shí)驗(yàn)結(jié)果我們可以發(fā)現(xiàn),基于知識的不確定性的數(shù)據(jù)驅(qū)動(dòng)決策樹學(xué)習(xí)算法甚至比REP更好。從這個(gè)觀點(diǎn)出發(fā),基于知識的不確定性的數(shù)據(jù)驅(qū)動(dòng)決策樹學(xué)習(xí)算法有比REP更好的適應(yīng)性。進(jìn)一步講,該算法不需要利用設(shè)置在每個(gè)修剪過程驗(yàn)證的可行性驗(yàn)證,并且不需要再結(jié)束學(xué)習(xí)進(jìn)程之前產(chǎn)生一個(gè)總樹。因此,相對于REP算法來說需要更少的時(shí)間和更小的空間。在基于概念格數(shù)據(jù)驅(qū)動(dòng)知識收集中,利用一個(gè)決策表和決策規(guī)則的不確定因素,決策表,決策規(guī)則和概念格三種表示模型的知識不確定因素的關(guān)系被發(fā)現(xiàn)通過分析它們的知識表示方式。那也證明了a也可以被視為一種門檻對于從概念格中獲取不確定規(guī)則。此外,一個(gè)規(guī)則定義的新穎性也是用來修剪冗余規(guī)則的算法。UCI的八種資料組被用來測試這種算法并且與LACS做比較。試驗(yàn)機(jī)構(gòu)證明對于不同的數(shù)據(jù)集,算法LACS的價(jià)值觀念的純度和概念的強(qiáng)度也

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論