




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、2000年9月文章編號:100026788(2000 0920056208系統(tǒng)工程理論與實(shí)踐第9期數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)湯宇松, 劉相峰, 黃亞樓, 盧桂章(南開大學(xué)計(jì)算機(jī)與系統(tǒng)科學(xué)系, 天津300071摘要:隨著海量數(shù)據(jù)庫技術(shù)的不斷發(fā)展, 出現(xiàn)了數(shù)據(jù)豐富但知識貧乏的現(xiàn)象為解決這一問題, 近年來, 提出了數(shù)據(jù)挖掘(D ata M ining 和知識發(fā)現(xiàn)(KDD 技術(shù)本文介紹了數(shù)據(jù)挖掘系統(tǒng)的概念及具體的運(yùn)做流程, 并提出了一個(gè)原形系統(tǒng)的構(gòu)建模型最后, 指出在數(shù)據(jù)挖掘技術(shù)發(fā)展中面臨的一些問題關(guān)鍵詞:數(shù)據(jù)庫; 數(shù)據(jù)挖掘; 原形系統(tǒng)中圖分類號:T P 182A rchetypal D esign fo r
2、D ata M in ing SystemTAN G Yu 2song , L I U X iang 2feng , HU AN G Ya 2lou , LU Gu i 2zhang(D ep t . of Compu ter &System Science , N ankai U n iv . , T ian jin 300071Abstract :In th is paper , w e discu ss the techno logy of data m in ing , analysis how D ataM in ing w o rk s , and give an arch
3、etypal design fo r data m in ing system . In the end , w e. list som e p rob lem s that no t be so lved w ell in the mo st real data m in ing system sKeywords :database ; data m in ing ; archetypal system1引言數(shù)據(jù)庫技術(shù)的發(fā)展提供了存儲海量數(shù)據(jù)信息的可能, 但當(dāng)面對越來越多迅速膨脹的超級數(shù)據(jù)庫時(shí), 人們卻無從著手去理解數(shù)據(jù)中包含的信息, 更難以獲得有價(jià)值的信息! 原有的決策支持系統(tǒng)(D SS
4、已不能滿足需要, 人們迫切需要把這些看似分散的數(shù)據(jù), 提煉成一條條有價(jià)值的信息, 來指導(dǎo)今后的行為隨著數(shù)據(jù)庫技術(shù)和計(jì)算機(jī)硬件的進(jìn)一步發(fā)展, 出現(xiàn)了數(shù)據(jù)挖掘(D ata M in ing 技術(shù), 為解決上述問題提供了較好的方案對于數(shù)據(jù)挖掘技術(shù)的研究, 在國外已經(jīng)有幾年的歷史了, 國內(nèi)也已經(jīng)起步關(guān)于這方面的文章雖然很多, 但往往將重點(diǎn)放在局部的具體挖掘算法上, 很少對整個(gè)系統(tǒng)的構(gòu)建進(jìn)行論述數(shù)據(jù)挖掘系統(tǒng)是一個(gè)有機(jī)的整體, 各個(gè)部分之間有著密切的關(guān)系, 應(yīng)該說所有的算法都是為某一個(gè)挖掘系統(tǒng)服務(wù)的, 如果不仔細(xì)的對系統(tǒng)結(jié)構(gòu)進(jìn)行分析, 勢必會導(dǎo)致各種算法之間的重復(fù)工作, 從而不利于多種不同算法的嵌入而且對
5、算法來講, 只有與系統(tǒng)其他模塊緊密結(jié)合, 才能充分發(fā)揮作用為此, 本文從系統(tǒng)的結(jié)構(gòu)入手, 提出一個(gè)具有基本功能的系統(tǒng)框架, 對各個(gè)部分的數(shù)據(jù)流和控制流的走向進(jìn)行較為細(xì)致的分析2應(yīng)用數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)和前提數(shù)據(jù)挖掘是一種從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱藏的預(yù)測性信息的技術(shù), 它能挖掘出數(shù)據(jù)間潛在的模式(pattern , 找出最有價(jià)值的信息和知識(know ledge , 指導(dǎo)商業(yè)行為或輔助科學(xué)研究其中, 模式是利用挖掘算法得到的結(jié)果, 是對一種可能性分布的簡單描述; 知識或信息是通過對模式進(jìn)行處理而得到的易于理解的結(jié)果從廣義上講, 數(shù)據(jù)挖掘?qū)l(fā)現(xiàn)兩種類型的模式:預(yù)測型的(p redictive
6、和信息型的(info rm ative 模式, 收稿日期:1999201231或分別稱做監(jiān)督型的(supervised 和非監(jiān)督型的(un supervised 從挖掘過程則亦可稱為證明驅(qū)動(V erificati on 2driven 或發(fā)現(xiàn)驅(qū)動(D iscovery 2driven 類型1 預(yù)測型的模式, 通過輸入集合的值來計(jì)算某一屬性, 或某幾種屬性的值, 預(yù)測型的模式用來解決一個(gè)指定的問題, 從數(shù)據(jù)庫中的一些屬性來預(yù)測另外一個(gè)或多個(gè)屬性值它的重要特征是利用已知的屬性值去合理地猜測一個(gè)未知的屬性值2 信息型的模式, 用于預(yù)測將來要發(fā)生的事情; 信息型模式不解決某一個(gè)指定問題, 而是提供給
7、某領(lǐng)域的專家以前可能不知道的有興趣的模式信息型模式比預(yù)測型模式難評估, 因?yàn)樗鼈兊膬r(jià)值在于, 是否提供給某領(lǐng)域?qū)<乙恍┙ㄗh和這些建議的有效性數(shù)據(jù)挖掘工具通過預(yù)測未來趨勢及行為, 為公司作出前攝的(p roactive 、基于知識的決策在典型的決策支持系統(tǒng)中, 數(shù)據(jù)挖掘可自動提供對未來情況的分析結(jié)果, 這遠(yuǎn)遠(yuǎn)超過傳統(tǒng)工具所提供的歷史情況分析數(shù)據(jù)挖掘的思想早在計(jì)算機(jī)應(yīng)用于商業(yè)之初就有, 數(shù)據(jù)挖掘技術(shù)是長期研究和產(chǎn)品不斷發(fā)展的結(jié)果, 隨著數(shù)據(jù)存儲技術(shù)的發(fā)展和實(shí)時(shí)數(shù)據(jù)導(dǎo)航技術(shù)的出現(xiàn), 數(shù)據(jù)挖掘利用并發(fā)展了這些技術(shù), 它由四個(gè)成熟技術(shù)支持:大規(guī)模數(shù)據(jù)采集功能強(qiáng)大的并行處理機(jī)數(shù)據(jù)挖掘算法數(shù)據(jù)庫技術(shù)數(shù)據(jù)挖掘
8、是一個(gè)集多種領(lǐng)域知識為一體的綜合技術(shù)它包含了統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、人工智能、不確定性理論、數(shù)據(jù)庫、知識獲取、模式識別、信息抽取、可視化、分布式多媒體環(huán)境的智能代理、數(shù)字庫(D igit L ib raries 和管理信息系統(tǒng)3數(shù)據(jù)挖掘的過程所有的數(shù)據(jù)挖掘系統(tǒng)都要有數(shù)據(jù)準(zhǔn)備、執(zhí)行挖掘算法和表達(dá)結(jié)果等幾個(gè)階段數(shù)據(jù)挖掘過程細(xì)分為以下幾個(gè)步驟:1 理解和定義問題2 數(shù)據(jù)的搜集和抽取3 數(shù)據(jù)凈化4 數(shù)據(jù)引擎5 算法引擎6 運(yùn)行數(shù)據(jù)挖掘算法7 評估結(jié)果8 重新精化數(shù)據(jù)和問題9 使用結(jié)果上述的九個(gè)步驟在數(shù)據(jù)挖掘過程中要反復(fù)多次如下圖所示其中, 每一個(gè)步驟都是必不可少的, 下面分別討論各個(gè)步驟(圖1 :1 理解和
9、定義問題理解和定義問題是解決任何事情的必經(jīng)步驟, 這個(gè)過程往往容易被人們簡單化但在數(shù)據(jù)挖掘過程中, 它卻要花費(fèi)很多的時(shí)間數(shù)據(jù)挖掘不同于一般意義的分析過程, 不是簡單的把數(shù)據(jù)挖掘算法應(yīng)用到數(shù)據(jù)庫上, 然后得到一些結(jié)果因此如果沒有很好的理解問題, 得到的結(jié)果將沒有任何用處一個(gè)問題有多種解決辦法, 但有些是行得通, 有些是行不通的即使是行得通的辦法, 也要考慮其執(zhí)行效率等方面的問題2 數(shù)據(jù)的搜集和抽取一旦問題定義完畢, 就要進(jìn)行相關(guān)數(shù)據(jù)的搜集大多數(shù)情況下, 相關(guān)數(shù)據(jù)是從已存在的數(shù)據(jù)庫或數(shù)據(jù) 圖1倉庫中提取的通常, 數(shù)據(jù)挖掘算法不能直接在任何一個(gè)隨意的數(shù)據(jù)庫中工作我們需要從相關(guān)的數(shù)據(jù)庫中提取數(shù)據(jù), 并
10、將它們存儲為數(shù)據(jù)挖掘算法可以識別的格式在數(shù)據(jù)挖掘算法中, 一般采用標(biāo)準(zhǔn)數(shù)據(jù)庫查詢語言SQL , 或自行設(shè)計(jì)DM QL 1因?yàn)橥诰蛩惴ǖ拇蟛糠謺r(shí)間都花費(fèi)在對數(shù)據(jù)庫的訪問上, 所以通過數(shù)據(jù)庫管理系統(tǒng)的查詢引擎, 可以大大提高數(shù)據(jù)挖掘過程的速度對于實(shí)際的數(shù)據(jù)庫系統(tǒng), 它包含了多個(gè)原始的數(shù)據(jù)庫, 這就是后面提到的靜態(tài)數(shù)據(jù)庫概念而對于某一個(gè)特定的挖掘任務(wù), 需要從中提取更進(jìn)一層的關(guān)聯(lián)數(shù)據(jù)庫, 這就是在實(shí)際應(yīng)用中的定制數(shù)據(jù)庫在大多數(shù)情況下, 最好的方法是創(chuàng)建一個(gè)全新的數(shù)據(jù)庫, 但這通常是不可行的在統(tǒng)計(jì)學(xué)中曾經(jīng)探討過怎樣采集數(shù)據(jù)的問題, 但將這些方法應(yīng)用于數(shù)據(jù)挖掘中來發(fā)現(xiàn)復(fù)雜模式時(shí), 都不十分合適這是一個(gè)有
11、待研究的問題目前, 數(shù)據(jù)挖掘算法通常是基于一個(gè)抽取出來的二維關(guān)系表對于用戶所提出的發(fā)現(xiàn)任務(wù), 確定感興趣的屬性域, 進(jìn)行各種數(shù)據(jù)匯集的操作利用抽樣技術(shù)對數(shù)據(jù)庫中符合條件的元組進(jìn)行抽樣統(tǒng)計(jì)學(xué)工具已經(jīng)給出了各種抽樣方法、諸如純隨機(jī)抽樣(簡單隨機(jī)抽樣 、機(jī)械抽樣(等距抽樣 、分層抽樣、典型抽樣等, 具體進(jìn)行統(tǒng)計(jì)運(yùn)算, 對相同元組進(jìn)行歸并, 增加必要的統(tǒng)計(jì)屬性域3 數(shù)據(jù)凈化和數(shù)據(jù)理解一旦搜集完相關(guān)的數(shù)據(jù), 接下來就要花費(fèi)一些時(shí)間來處理數(shù)據(jù)庫這有兩方面的原因:a 數(shù)據(jù)分析者要理解數(shù)據(jù)庫的內(nèi)涵, 而不是僅停留在知道數(shù)據(jù)庫中有哪些字段b 在數(shù)據(jù)搜集的過程中(通常是由幾個(gè)庫抽取出信息組成一個(gè)新的數(shù)據(jù)庫 , 不
12、可避免的存在著一些錯誤另外對于關(guān)聯(lián)庫本身, 在產(chǎn)生時(shí)經(jīng)常出現(xiàn)如下的錯誤:如a 字段值輸入錯誤;b 字段名稱發(fā)生錯誤;c 字段內(nèi)容不詳;d 對于同一字段的同一內(nèi)容的不同表達(dá)方式, 也可能會造成算法對數(shù)據(jù)含義理解的不確切性凈化帶噪音的數(shù)據(jù)是一個(gè)復(fù)雜、牽扯到多方面的過程數(shù)據(jù)凈化過程的步驟, 按順序如下:檢查拼寫錯誤去掉重復(fù)的(D up licate 記錄補(bǔ)上不完全的(Incomp lete 記錄解決不一致的(Incon sisten t 記錄用測試查詢來驗(yàn)證數(shù)據(jù)根據(jù)驗(yàn)證結(jié)果反復(fù)迭代上述步驟數(shù)據(jù)凈化的目標(biāo)是保證所表達(dá)數(shù)據(jù)的一致性(Con sisten tly , 確保數(shù)據(jù)的參照完整性(R eferen
13、 tial更改和修復(fù)數(shù)據(jù), 需要有一個(gè)描述整個(gè)凈化過In tegrity 和數(shù)據(jù)的精確性為了在將來可以很容易的擴(kuò)充、程的步驟在數(shù)據(jù)凈化階段, 通常采用統(tǒng)計(jì)學(xué)提供的技術(shù)來檢測異常值, 必要時(shí)平滑數(shù)據(jù)和估計(jì)噪音參數(shù)用于處理對丟失數(shù)據(jù)的評估方法也是必要的4 數(shù)據(jù)引擎前面所涉及的步驟都是在談?wù)撊绾萎a(chǎn)生和凈化一個(gè)挖掘的基礎(chǔ), 即一個(gè)從原始的靜態(tài)數(shù)據(jù)庫到一個(gè)定制數(shù)據(jù)庫的過程這個(gè)定制數(shù)據(jù)庫由所有要在數(shù)據(jù)挖掘過程中使用到的信息組成在這個(gè)過程中, 存在著三個(gè)問題:在靜態(tài)數(shù)據(jù)庫中包含了許多可以忽略掉的屬性如何選擇靜態(tài)數(shù)據(jù)庫中包含的所有屬性的子集, 是一個(gè)重點(diǎn)另外, 定制數(shù)據(jù)庫中包含的數(shù)據(jù)信息量有可能遠(yuǎn)遠(yuǎn)超過我們所
14、要求的在有限時(shí)間內(nèi)所能處理的信息量, 因此, 我們必須從中找出樣本數(shù)據(jù)庫2存在于定制數(shù)據(jù)庫中的信息, 對于某一特定的問題, 可能有不同的表達(dá)方式在數(shù)據(jù)挖掘的過程中, 探索對這些問題的不同解決方案時(shí), 數(shù)據(jù)引擎要重復(fù)多次來形成針對某個(gè)任務(wù)的定制數(shù)據(jù)庫對于數(shù)據(jù)挖掘的全過程而言, 靜態(tài)數(shù)據(jù)庫只形成一次, 而定制數(shù)據(jù)庫在數(shù)據(jù)引擎的過程中要形成多次, 以便決定不同屬性的使用, 不同樣本的大小和對要解決問題的不同的精確定義在生成定制數(shù)據(jù)庫的過程中, 人為的智力因素很多注意到, 大多數(shù)成功的機(jī)器學(xué)習(xí)的例子要?dú)w功于問題的公式化和表達(dá)方式的制定3, 它分別映射為數(shù)據(jù)挖掘的問題定義和數(shù)據(jù)規(guī)劃到此為止, 上述步驟均
15、為整個(gè)過程的數(shù)據(jù)準(zhǔn)備階段, 工作量之大約占全部的60%而且也是較難深入的部分5 算法規(guī)劃在選擇了定制數(shù)據(jù)庫后, 有很多的數(shù)據(jù)挖掘算法, 但我們需要知道選擇哪種算法和怎樣應(yīng)用它算法的選擇直接影響著所挖掘模式的質(zhì)量另外, 即使選定了某一種算法, 這個(gè)算法中參數(shù)的改變也會影響所產(chǎn)生的模式例如用C 4. 5分類樹算法產(chǎn)生的模式, 受參數(shù)的影響就很大在許多時(shí)候, 有效的數(shù)據(jù)挖掘算法也可能不能直接用來解決問題, 還需做一些輔助的工作來修改算法這可能因?yàn)閿?shù)據(jù)挖掘系統(tǒng)中的工具集不全, 或者還沒有一個(gè)解決某種特定問題的合適算法6 運(yùn)行數(shù)據(jù)挖掘算法如何運(yùn)行數(shù)據(jù)挖掘算法是數(shù)據(jù)挖掘分析者和相關(guān)領(lǐng)域?qū)<易铌P(guān)心的階段因?yàn)?/p>
16、只有這個(gè)階段才能給出人們所關(guān)心的東西這個(gè)階段稱之為真正意義上的數(shù)據(jù)挖掘4所有的數(shù)據(jù)挖掘算法都要事先提出一些標(biāo)準(zhǔn)來度量產(chǎn)生的模式, 并在搜尋所有模式的過程中, 使用這些標(biāo)準(zhǔn)來決定保留什么, 丟棄什么, 哪些模式需要繼續(xù)挖掘目前, 通常利用一些簡單的統(tǒng)計(jì)屬性作為評估標(biāo)準(zhǔn), 如支持度(Suppo rt 、置信度(Confidence 和感興趣度(In teresting 等對預(yù)測型模式好壞的判斷比較容易由于可預(yù)測型模式是預(yù)測某一屬性的值, 而這個(gè)屬性的值又存在于訓(xùn)練集合中, 所以一般來說, 通過把預(yù)測的值與存在于訓(xùn)練集中的那個(gè)屬性的實(shí)際輸出值相比較, 計(jì)算模式的誤差程度, 從而做出對模式的評估相比較
17、, 對信息型模式的評估較難, 然而, 一些數(shù)學(xué)方法可以較有效地找出一些潛在的有興趣的模式7 結(jié)果的初步評估用來評估可預(yù)測型模式好壞的方法依賴于所要解決的問題, 所以僅僅給出某種模式的精確度是沒有用的最重要的是, 使用模式模擬實(shí)際的行為并給出使用它的結(jié)果報(bào)告但要注意, 由于數(shù)據(jù)挖掘所找到的模式可能只是某一段時(shí)間內(nèi)的較短暫的規(guī)律, 所以即使我們選用了各種評判方法, 如數(shù)學(xué)的或其他的非客觀性的方法, 它也只是一種估測真正的檢測只能在實(shí)際的應(yīng)用中進(jìn)行在實(shí)際的應(yīng)用中, 相關(guān)領(lǐng)域的專家對某種模式的解釋是很必要的一般來講, 專家對一種模式的態(tài)度可能會是下面幾種情況之一:專家對模式很滿意, 但是認(rèn)為他已經(jīng)知道
18、了模式包含的內(nèi)容專家對模式很滿意, 但是認(rèn)為他對一些模式所包含的內(nèi)容感到有些驚奇專家對模式很不滿意對于第一種情況, 沒有什么不知道的新模式被發(fā)現(xiàn), 所以原有模式可以繼續(xù)被很好的使用對于后兩種情況, 就涉及到有必要重新精化數(shù)據(jù)挖掘的問題8 重新精化數(shù)據(jù)和問題如果專家對生成模式的評價(jià)是:這不是我想要的那么, 就要重新進(jìn)行新一輪的數(shù)據(jù)挖掘過程通常, 數(shù)據(jù)挖掘的過程是由粗略到細(xì)致, 由簡單到復(fù)雜的過程依照這個(gè)原則, 可以很好地在分析者和領(lǐng)域?qū)<抑g進(jìn)行溝通經(jīng)過幾次反復(fù)精化之后, 如果模式的執(zhí)行情況足夠好, 而且得到了專家的認(rèn)可, 就可以進(jìn)入到使用結(jié)果的階段了在這一部分中, 涉及到對獲得的結(jié)果或知識的表
19、達(dá)問題, 數(shù)據(jù)可視化(D ata V isualizati on 是一種表達(dá)方式數(shù)據(jù)的可視化問題是數(shù)據(jù)挖掘中一個(gè)重要的組成部分, 它把挖掘到的信息組成和提供成易于做決策的表達(dá)方式可以說, 沒有提供很好的數(shù)據(jù)可視化的數(shù)據(jù)挖掘系統(tǒng), 不是一個(gè)完善的系統(tǒng)目前的絕大多數(shù)數(shù)據(jù)挖掘系統(tǒng)提供的數(shù)據(jù)可視化部分是各種三維圖形的表示9 使用結(jié)果在前面討論了數(shù)據(jù)挖掘的許多準(zhǔn)備工作及論證所挖掘出的模式的有效性一旦當(dāng)?shù)竭_(dá)了數(shù)據(jù)挖掘的最后一步, 我們就可以應(yīng)用基于所發(fā)現(xiàn)模式的決策了4數(shù)據(jù)挖掘系統(tǒng)的原型框架根據(jù)上面對數(shù)據(jù)挖掘過程的論述, 提出一個(gè)挖掘系統(tǒng)的原型結(jié)構(gòu)(見圖2 圖2圖2中黑粗線表示各種形式的數(shù)據(jù)流, 如原始數(shù)據(jù)
20、、處理后的數(shù)據(jù)等; 雙線代表模式、知識; 細(xì)線表示控制流, 即用戶對流程的控制信息, 如制定挖掘任務(wù), 選取閾值、選取算法等系統(tǒng)分成三個(gè)部分:第9期 數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì) 61 數(shù)據(jù)流, 構(gòu)成從原始數(shù)據(jù)到最終知識這樣一個(gè)完整的挖掘數(shù)據(jù)流程, 控制實(shí)現(xiàn)模塊, 直接控制數(shù)據(jù)流, 它們是一些處理函數(shù)庫 用戶控制接口, 用戶通過它控制整個(gè)數(shù)據(jù)挖掘流程各個(gè)階段的工作 數(shù)據(jù)流和控制實(shí)現(xiàn)模塊處于服務(wù)器端, 用戶控制接口處于客戶端 系統(tǒng)的輸入是原始數(shù)據(jù), 即日常事 務(wù)處理所得到的大量原始數(shù)據(jù), 可以是多樣異構(gòu)的數(shù)據(jù)庫或文件數(shù)據(jù) 系統(tǒng)的輸出是知識, 即經(jīng)過挖掘得 到的有價(jià)值的信息 知識的表示形式有多種, 如自然語言
21、、 邏輯規(guī)則, 圖形表示等 系統(tǒng)的運(yùn)做流程, 首先要從用戶提出的要求開始 按照用戶的要求, 選取相應(yīng)的數(shù)據(jù), 在此基礎(chǔ)上, 由 系統(tǒng)自動或由用戶自己選擇待發(fā)現(xiàn)模式的形式, 找到相應(yīng)的算法, 自動或人為的制定所需的所有參數(shù), 進(jìn) 行挖掘 將得到的結(jié)果進(jìn)行知識表達(dá), 自動或人為的根據(jù)得到的知識, 進(jìn)行下一輪的挖掘或填寫到知識庫 中 每次得到的知識, 不僅僅提交給用戶, 還應(yīng)當(dāng)以某種形式存儲起來, 供系統(tǒng)挖掘新知識時(shí)使用, 這樣, 就 可以在進(jìn)行更高層知識的發(fā)現(xiàn)時(shí), 不用重新創(chuàng)建所有的數(shù)據(jù), 從而達(dá)到基于知識的挖掘 下面, 分別論述這 幾個(gè)模塊: 1 用戶 數(shù)據(jù)挖掘是一個(gè)知識發(fā)現(xiàn)的過程, 需要用戶大
22、量的介入 用戶可能要擔(dān)當(dāng)多種角色: 數(shù)據(jù)專家, 數(shù)據(jù)挖 掘?qū)<液拖嚓P(guān)領(lǐng)域的專家, 相應(yīng)的, 他所需要承擔(dān)的工作也是多樣的 一般來講, 用戶往往提出一些具體的要求, 而不是無的放矢 通常, 這個(gè)要求限定了數(shù)據(jù)的來源, 應(yīng)用 的范圍, 結(jié)果的形式, 評判的標(biāo)準(zhǔn), 甚至暗含了應(yīng)該使用什么類型的算法 如: 在服裝店中, 經(jīng)理提出在第二 季度童裝的銷售中哪些種類的服裝銷售量相關(guān), 要求發(fā)生的概率大概在 70% 以上 這里, 用戶限定了數(shù)據(jù) 的范圍是整個(gè)數(shù)據(jù)庫中的時(shí)間屬于第二季度范圍內(nèi)的童裝數(shù)據(jù)部分, 結(jié)果的形式為: 任意前件的銷售量的 增減其他后件銷售量的增減 評判標(biāo)準(zhǔn)是最小可信度為 70% 挖掘算法應(yīng)
23、選擇關(guān)聯(lián)規(guī)則類 理者, 而不是數(shù)據(jù)庫專家和數(shù)據(jù)挖掘?qū)<?2 轉(zhuǎn)換器 挖掘效率, 提高知識發(fā)現(xiàn)的起點(diǎn)和準(zhǔn)確度 它具有下列子模塊: a 數(shù)據(jù)收集與數(shù)據(jù)轉(zhuǎn)換 征表示, 減少有效變量的數(shù)目, 其操作包括過濾、 剪枝等 該模塊不需考慮數(shù)據(jù)本身的內(nèi)涵 b 數(shù)據(jù)簡化與數(shù)據(jù)凈化 身的內(nèi)容的理解 c 元數(shù)據(jù) © 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. 由于用戶提出的問題是千差萬別的, 所以相對應(yīng)的結(jié)果模式就存在著很大的不同 如: 什么事件發(fā)生 將導(dǎo)致另外其他什么事件的發(fā)生, 什么事件共同發(fā)生, 根據(jù)
24、數(shù)據(jù)推導(dǎo)出暗含的公式, 或指定前件及后件的 個(gè)數(shù), 前件或后件中必然包含的項(xiàng)目, 要挖掘出時(shí)間序列的關(guān)系等等 所有的這些, 在理想的挖掘系統(tǒng)的用 戶界面中, 應(yīng)接受用戶以一種接近自然語言提出的問題 因?yàn)橄到y(tǒng)最終面對的使用者絕大部分是高層的管 位于用戶層之下的轉(zhuǎn)換器模塊, 其目的是接受用戶指定的要求, 將其轉(zhuǎn)化為數(shù)據(jù)庫模塊的輸入?yún)?shù): 如字段名, 概念層次范圍等; 挖掘核心的輸入?yún)?shù): 如結(jié)果模式, 算法類型, 相關(guān)的參數(shù)及評判標(biāo)準(zhǔn)等 3 數(shù)據(jù)預(yù)處理 此模塊的輸入為轉(zhuǎn)化器的輸出中提供的挖掘任務(wù)所涉及到的對應(yīng)于數(shù)據(jù)庫中真正的字段及任務(wù)指定 的范圍, 輸出則為數(shù)據(jù)挖掘內(nèi)核提供干凈、 準(zhǔn)確、 簡化的數(shù)
25、據(jù) 其作用是減少挖掘內(nèi)核的數(shù)據(jù)處理量, 提高 主要針對現(xiàn)實(shí)中異構(gòu)和多樣的原始數(shù)據(jù)環(huán)境, 將它們轉(zhuǎn)變成易于系統(tǒng)處理的統(tǒng)一格式的數(shù)據(jù) 數(shù)據(jù)收 集提供跨平臺的多種異構(gòu)數(shù)據(jù)庫的訪問能力, 包括數(shù)據(jù)接口驅(qū)動和內(nèi)部數(shù)據(jù)結(jié)構(gòu) 數(shù)據(jù)轉(zhuǎn)換找到數(shù)據(jù)的特 數(shù)據(jù)簡化主要有兩個(gè)途徑: 屬性選擇和數(shù)據(jù)抽樣, 分別針對數(shù)據(jù)庫中的屬性與記錄 屬性選擇現(xiàn)有的 算法有 R elief 算法和 LV F 算法, 利用基于數(shù)據(jù)內(nèi)容的加權(quán), 主要問題在于權(quán)值的表示閾值的確定 基于 Rough Set 的數(shù)據(jù)濃縮可以同時(shí)實(shí)現(xiàn)屬性和實(shí)例的簡約 5 該模塊完成數(shù)據(jù)的選擇抽取, 簡化的數(shù)據(jù)需要 做凈化處理; 完成數(shù)據(jù)最后的處理, 將抽取的正確
26、可靠的數(shù)據(jù)提交給挖掘內(nèi)核 該模塊必須參照對數(shù)據(jù)本 62 系統(tǒng)工程理論與實(shí)踐 2000 年 9 月 元數(shù)據(jù)是管理數(shù)據(jù)的數(shù)據(jù), 指導(dǎo)整個(gè)數(shù)據(jù)預(yù)處理 對于一個(gè)設(shè)計(jì)較好的數(shù)據(jù)庫系統(tǒng)而言, 除了存儲數(shù) 據(jù)外, 還應(yīng)具備數(shù)據(jù)庫維護(hù)表等, 負(fù)責(zé)維護(hù)數(shù)據(jù)庫 一般來講, 挖掘任務(wù)中往往包含了層次關(guān)系的挖掘, 這 就要求數(shù)據(jù)預(yù)處理模塊能根據(jù)用戶的要求, 構(gòu)建相應(yīng)的庫結(jié)構(gòu)邏輯層次圖, 使用戶對數(shù)據(jù)庫中包含信息的 范圍有所了解, 便于有目的地進(jìn)行任務(wù)的制定 每次挖掘結(jié)束所得到的知識, 在將其存入知識庫的同時(shí), 還 要反映在這個(gè)邏輯層次圖上, 便于后續(xù)挖掘工作的進(jìn)行 4 挖掘內(nèi)核 進(jìn)行實(shí)際的挖掘操作, 從預(yù)處理完的數(shù)據(jù)
27、中發(fā)現(xiàn)模式、 規(guī)則 該模塊實(shí)現(xiàn)各種挖掘技術(shù), 每種挖掘技術(shù) 構(gòu)成一個(gè)子模塊, 它們在功能上是相互獨(dú)立的 每種挖掘技術(shù)包含一些不同的具體實(shí)現(xiàn)算法 如最常用的 分類、 聚類、 關(guān)聯(lián)分析和可視化等挖掘技術(shù) 分類內(nèi)核, 發(fā)現(xiàn)能夠從給定的若干域預(yù)測指定域的模式 具體實(shí)現(xiàn)方法有決策樹、 回歸分析、 神經(jīng)網(wǎng) 絡(luò)、 統(tǒng)計(jì)分析等方法 聚類內(nèi)核, 將數(shù)據(jù)劃分為若干個(gè)子集目前算法有簡單距離聚類、 IRCH、 terva l、 SCAN 、 I E B In DB CL QU 等改進(jìn)的聚類算法 關(guān) 聯(lián) 分 析, 根 據(jù) 事 務(wù) 同 時(shí) 發(fā) 生 的 幾 率 尋 找 事 務(wù) 間 的 關(guān) 聯(lián) 規(guī) 則 主 要 算 法 有 A
28、 p rio ri 經(jīng) 典 算 法、 A p rio riT I , 和 DH P 等改進(jìn)算法 D 可視化, 從多角度展示數(shù)據(jù)分布, 利用人本身的觀察判斷能力發(fā)現(xiàn)潛在模式 5 模式表達(dá) 挖掘內(nèi)核得到的模式并不是最終知識, 模式有可能是冗余的, 無效的, 甚至是錯誤的, 這就需要做進(jìn)一 步的處理模式表達(dá)實(shí)現(xiàn)對模式的解釋表達(dá), 使用戶能夠理解, 進(jìn)而能夠做出評估判斷該模塊主要使用一 些可視化技術(shù)和傳統(tǒng)的知識表達(dá)技術(shù) 6 模式管理器 該模塊是用戶的控制接口, 用戶通過它控制整個(gè)挖掘流程, 使挖掘工作能夠不斷反饋進(jìn)行下去 包括 下列子模塊 數(shù)據(jù)定義, 控制數(shù)據(jù)預(yù)處理模塊 定義系統(tǒng)使用的數(shù)據(jù)結(jié)構(gòu)、 處理
29、操作, 確定一些閾值 挖掘向?qū)? 控制挖掘內(nèi)核接收從用戶對模式判斷得到的反饋信息, 調(diào)整挖掘技術(shù)和挖掘算法, 它包 括技術(shù)和算法的選取, 算法參數(shù)的設(shè)定等 模式篩選, 數(shù)據(jù)挖掘是一個(gè)反復(fù)的過程, 過程的終止條件是用戶對發(fā)現(xiàn)的知識滿意, 因此用戶對發(fā) 現(xiàn)模式的判斷和篩選就是整個(gè)系統(tǒng)的反饋環(huán)節(jié) 用戶對模式進(jìn)行判斷和篩選, 如果滿意, 模式就成為知識, 經(jīng)過一些表達(dá)處理, 添加到知識庫里去 如果不滿意, 就要反饋?zhàn)饔糜谕诰蛳驅(qū)? 進(jìn)而調(diào)整挖掘內(nèi)核的操 作, 實(shí)現(xiàn)挖掘流程的繼續(xù), 并逐漸接近用戶的挖掘目標(biāo) 5 數(shù)據(jù)挖掘面臨的問題 目前, 數(shù)據(jù)挖掘技術(shù)雖然得到了大范圍的應(yīng)用, 并也取得了顯著的成效, 但
30、仍存在著許多尚未解決的 問題 在數(shù)據(jù)準(zhǔn)備階段, 尚沒有較好的方法快速去除或修改噪音數(shù)據(jù)及處理空缺的數(shù)據(jù) 挖掘的對象問題數(shù)據(jù)挖掘需要面對更大型的數(shù)據(jù)庫、 更高的維數(shù)和屬性之間更復(fù)雜的關(guān)系而目 前的很多數(shù)據(jù)挖掘系統(tǒng)還沒有建立在較先進(jìn)的數(shù)據(jù)倉庫基礎(chǔ)上 即使建立在關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)挖掘系 統(tǒng), 也沒有深入到考慮各個(gè)表, 乃至各子數(shù)據(jù)庫之間關(guān)聯(lián)關(guān)系的程度, 而往往只是停留在人為抽取的簡單 二維表中, 如交易表 (T ran saction T ab le 數(shù)據(jù)挖掘系統(tǒng)目前還不能支持多平臺, 導(dǎo)致支持的局限性及不易與其他系統(tǒng)集成 在算法執(zhí)行的過程中, 只考慮算法本身的復(fù)雜度, 缺乏對所利用的硬件環(huán)境資源的
31、考慮, 從而導(dǎo)致 算法的實(shí)際的執(zhí)行時(shí)間過長 多種形式的輸入數(shù)據(jù) 在數(shù)據(jù)挖掘的定義中所提到的數(shù)據(jù)的概念, 其范圍很廣, 包含結(jié)構(gòu)化數(shù)據(jù)和 © 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. 第9期 數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì) 63 多種半結(jié)構(gòu)、 無結(jié)構(gòu)的數(shù)據(jù)類型, 而目前的絕大部分工作還只停留在對結(jié)構(gòu)化數(shù)據(jù)的研究上 在知識的表達(dá)及對問題的解釋上, 應(yīng)超越傳統(tǒng)的關(guān)聯(lián)規(guī)則的表達(dá)形式, 引入模糊的表達(dá)概念, 從而 符合實(shí)際的狀態(tài)分布 數(shù)據(jù)挖掘的結(jié)果應(yīng)能用廣義的或多層概念的術(shù)語來解釋, 目前的系統(tǒng)往往缺乏對整
32、 體挖掘結(jié)果的總結(jié)與概括 在數(shù)據(jù)可視化方面, 還只停留在對結(jié)果的簡單圖形描述, 而沒有體現(xiàn)到可視化的真正內(nèi)涵: 即通過 對數(shù)據(jù)庫各個(gè)屬性及關(guān)系的圖形描述, 把暗含的關(guān)系展現(xiàn)在操作者面前, 通過人的最敏感的模糊識別來發(fā) 現(xiàn)深層次的關(guān)系 目前, 所有的數(shù)據(jù)挖掘系統(tǒng), 由于不是面向任務(wù) ( 或問題 的系統(tǒng), 而導(dǎo)致系統(tǒng)不易被掌握, 從而偏離 了數(shù)據(jù)挖掘容易使用的目標(biāo) 沒有較好的算法來確定各種評判標(biāo)準(zhǔn)的閾值, 如支持度、 可信度及感興趣度的取值 應(yīng)該使數(shù)據(jù)挖掘過程的背景知識可用 目前的數(shù)據(jù)挖掘系統(tǒng)或工具很少能真正讓用戶參與到挖掘 過程中 將相關(guān)領(lǐng)域的知識融入數(shù)據(jù)挖掘系統(tǒng)中是一個(gè)重要但沒有很好解決的問題 知識的維護(hù)和更新: 新的數(shù)據(jù)積累可能導(dǎo)致以前發(fā)現(xiàn)的知識失效, 這些知識需要動態(tài)維護(hù)和及時(shí)更 新 證實(shí)技術(shù)的局限, 如何證實(shí)所得到的結(jié)果, 目前的技術(shù)還很不成熟 上面只是目前數(shù)據(jù)挖掘技術(shù)所面臨問題的一部分, 這些問題很多是非常困難的 它們的解決, 將使對 數(shù)據(jù)挖掘技術(shù)的研究更加深入 6 結(jié)束語 隨著各行各業(yè)數(shù)據(jù)量的劇增, 為了從數(shù)據(jù)中及時(shí)、 準(zhǔn)確的獲取信息, 出現(xiàn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 初中語文生活美文婚姻是合同愛情是藝術(shù)
- 2024浙江金華市金東糧食收儲有限責(zé)任公司招聘3人筆試參考題庫附帶答案詳解
- 2024浙江衢州田園體育旅游發(fā)展有限公司招聘外包制人員2人筆試參考題庫附帶答案詳解
- 2024武漢市新洲區(qū)道觀河水庫管理處公開招聘工作人員筆試參考題庫附帶答案詳解
- 2024廣西崇左寧明縣國林林業(yè)開發(fā)有限公司招聘11人筆試參考題庫附帶答案詳解
- 2024年濱州國有資本投資運(yùn)營集團(tuán)有限公司公開招聘工作人員(含補(bǔ)錄)(11名)筆試參考題庫附帶答案詳解
- 商務(wù)報(bào)告合同范例
- 2024年合肥市醫(yī)療器械檢驗(yàn)檢測中心有限公司社會招聘筆試參考題庫附帶答案詳解
- 2024國家能源集團(tuán)浙江電力有限公司第二批所屬部分企業(yè)系統(tǒng)內(nèi)招聘9人筆試參考題庫附帶答案詳解
- 新常態(tài)下石油企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)管理體系建設(shè)思考
- 2024年同等學(xué)力申碩英語考試真題
- 幕墻工程材料見證取樣檢測要求
- 《現(xiàn)代家政導(dǎo)論》電子教案 1.2模塊一項(xiàng)目二家政學(xué)內(nèi)容和價(jià)值認(rèn)知
- 《網(wǎng)絡(luò)數(shù)據(jù)安全管理?xiàng)l例》課件
- 黑龍江省龍東地區(qū) 2024-2025學(xué)年九年級上學(xué)期期中聯(lián)考道德與法治試卷
- 統(tǒng)編版語文八年級下冊第六單元名著導(dǎo)讀《鋼鐵是怎樣煉成的》公開課一等獎創(chuàng)新教學(xué)設(shè)計(jì)
- 內(nèi)部審核與質(zhì)量管理制度
- 2024至2030年中國特鋼行業(yè)“十四五”分析及發(fā)展前景預(yù)測研究分析報(bào)告
- 第一課我的服飾巧搭配(課件)鄂教版勞動六年級上冊
- 江蘇2024年江蘇省新聞出版學(xué)校招聘人員筆試歷年典型考題及考點(diǎn)附答案解析
- 大酒店風(fēng)險(xiǎn)分級管控和隱患排查治理雙體系文件
評論
0/150
提交評論