數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿1-概述)_第1頁(yè)
數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿1-概述)_第2頁(yè)
數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿1-概述)_第3頁(yè)
數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿1-概述)_第4頁(yè)
數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿1-概述)_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、裝訂線數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)講稿 主講:劉以安PAGE PAGE 24前期基礎(chǔ)礎(chǔ)課程:數(shù)據(jù)庫(kù)庫(kù)、人工工智能參考書:知識(shí)識(shí)發(fā)現(xiàn),清華華大學(xué)出出版社,史忠植植編,220044第1章 概述述隨著信息息社會(huì)和和知識(shí)經(jīng)經(jīng)濟(jì)時(shí)代代的來(lái)臨臨,信息息正以前前所未有有的速度度膨脹。面對(duì)浩浩如煙海海的信息息資源,人類的的自然智智能越來(lái)來(lái)越顯得得難于駕駕馭。如如何用人人造的智智能去模模仿和擴(kuò)擴(kuò)展人類類的自然然智能,實(shí)現(xiàn)信信息的智智能化處處理,是是信息社社會(huì)和知知識(shí)經(jīng)濟(jì)濟(jì)所面臨臨的一個(gè)個(gè)重大課課題。人工智能能作為一一門研究究機(jī)器(計(jì)算機(jī)機(jī))智能能的學(xué)科科,其目目的是要要用人工工的方法法和技術(shù)術(shù),研制制智能機(jī)機(jī)器或智智能系

2、統(tǒng)統(tǒng),來(lái)模模仿、延延伸和拓拓展人的的智能。因此,人工智智能是人人類邁向向信息、迎接知知識(shí)經(jīng)濟(jì)濟(jì)挑戰(zhàn)所所必須具具備的一一項(xiàng)核心心技術(shù)。難怪有有人把人人工智能能同原子子能技術(shù)術(shù)、空間間技術(shù)一一起稱為為20世世紀(jì)的三三大尖端端科技成成就。但但人工智智能系統(tǒng)統(tǒng)較率低低,不能能應(yīng)用于于實(shí)際。隨著計(jì)算算機(jī)、IInteerneet的普普及,以以及數(shù)據(jù)據(jù)庫(kù)(DDB)技技術(shù)的迅迅速發(fā)展展和數(shù)據(jù)據(jù)庫(kù)管理理系統(tǒng)(DBMMS)的的廣泛應(yīng)應(yīng)用,導(dǎo)導(dǎo)致許多多領(lǐng)域積積累了海海量數(shù)據(jù)據(jù)(如,從普通通的超市市業(yè)務(wù)數(shù)數(shù)據(jù)、信信用卡記記錄數(shù)據(jù)據(jù)、電話話呼叫清清單、政政府統(tǒng)計(jì)計(jì)數(shù)據(jù)到到不太普普通的天天體圖像像、分子子數(shù)據(jù)庫(kù)庫(kù)和醫(yī)療療

3、記錄等等)。現(xiàn)現(xiàn)有的DDB技術(shù)術(shù)大多可可高效地地實(shí)現(xiàn)數(shù)數(shù)據(jù)查詢?cè)?、統(tǒng)計(jì)計(jì)和維護(hù)等管管理功能能,但卻卻無(wú)法發(fā)發(fā)現(xiàn)數(shù)據(jù)據(jù)中存在在的關(guān)聯(lián)聯(lián)和規(guī)則則,無(wú)法法根據(jù)現(xiàn)現(xiàn)有的數(shù)數(shù)據(jù)預(yù)測(cè)測(cè)未來(lái)的的發(fā)展趨趨勢(shì)。數(shù)據(jù)庫(kù)庫(kù)中存在在著大量量數(shù)據(jù),卻缺乏乏從這些些數(shù)據(jù)中中自動(dòng)、高效地地獲取知知識(shí)的手手段,出出現(xiàn)了“數(shù)據(jù)豐豐富,知知識(shí)貧乏乏”的現(xiàn)象象。此外,在數(shù)據(jù)據(jù)操縱方方面:信信息的提提取及其其相關(guān)處處理技術(shù)術(shù)卻遠(yuǎn)遠(yuǎn)遠(yuǎn)落后。為此,針對(duì)龐龐大的數(shù)數(shù)據(jù)庫(kù)及及其中的的海量數(shù)數(shù)據(jù)信息息源,僅僅依靠傳傳統(tǒng)的數(shù)數(shù)據(jù)檢索索機(jī)制和和統(tǒng)計(jì)分分析方法法已遠(yuǎn)不不能滿足足需要。需求是發(fā)發(fā)展之母母,數(shù)據(jù)據(jù)管理系系統(tǒng)(DDBMSS)和人工智智能中

4、機(jī)機(jī)器學(xué)習(xí)習(xí)兩種技技術(shù)的發(fā)發(fā)展和結(jié)結(jié)合,促促成了在在數(shù)據(jù)庫(kù)庫(kù)中發(fā)現(xiàn)現(xiàn)知識(shí)這這一新技技術(shù)的誕誕生,即基于于數(shù)據(jù)庫(kù)庫(kù)知識(shí)發(fā)發(fā)現(xiàn)(KKnowwleddge Disscovveryy inn Daatabbasee,KDDD)及及其核心心技術(shù)數(shù)數(shù)據(jù)挖掘掘產(chǎn)生并并迅速發(fā)發(fā)展起來(lái)來(lái)。它的的出現(xiàn)為為自動(dòng)和智能地把把海量數(shù)數(shù)據(jù)轉(zhuǎn)化化成有用用的信息息和知識(shí)識(shí)提供了了手段。1.1 知識(shí)知識(shí)不僅僅是人工工智能領(lǐng)領(lǐng)域中研研究的重重要對(duì)象象,而且且也是知知識(shí)工程程與知識(shí)識(shí)發(fā)現(xiàn)處處理的重重要對(duì)象象。什么么是知識(shí)識(shí)?(到到目前為為止,知知識(shí)還沒(méi)沒(méi)有統(tǒng)一一的嚴(yán)格格的形式式化定義義)知識(shí)是人人們?cè)诟母脑炜陀^觀世界的的實(shí)踐中中積

5、累起起來(lái)的認(rèn)認(rèn)識(shí)和經(jīng)經(jīng)驗(yàn),是一切切智能行行為的基基礎(chǔ)。廣義地地說(shuō),知知識(shí)是人人們通過(guò)過(guò)學(xué)習(xí)、發(fā)現(xiàn)或或感悟到到的對(duì)世世界的認(rèn)認(rèn)識(shí)總和和,是人人類認(rèn)識(shí)識(shí)的結(jié)晶晶。狹義義地說(shuō),知識(shí)是是一種有有組織的的經(jīng)驗(yàn)、價(jià)值觀觀、相關(guān)關(guān)信息和和洞察力力的組合合。與知識(shí)識(shí)相關(guān)聯(lián)聯(lián)的兩個(gè)個(gè)概念是是數(shù)據(jù)和信息所謂數(shù)據(jù)據(jù)是指人人們?yōu)榱肆嗣枋隹涂陀^世界界中的具具體事物物而引入入的一些些數(shù)字、字符、文字等等符號(hào)或或符號(hào)的的組合。如,“建國(guó)550歲”中的“建國(guó)”、“50歲歲”都是數(shù)數(shù)據(jù)。所謂信息息是指不不同的有有用數(shù)據(jù)據(jù)組成的的一種結(jié)結(jié)構(gòu)。如如“建國(guó)80歲”,就是是一條信信息。數(shù)據(jù)、信息和和知識(shí)間間的關(guān)系系是:數(shù)據(jù)是信信息的載

6、載體和表表示;信息是數(shù)數(shù)據(jù)在特特定場(chǎng)合合下的含含義,或或者說(shuō)信信息是數(shù)數(shù)據(jù)的語(yǔ)語(yǔ)義。如如“建國(guó)80歲”。但相相同的數(shù)數(shù)據(jù)在不不同的場(chǎng)場(chǎng)合會(huì)有有不同的的含義。信息僅是是對(duì)客觀觀事物的的一般性性描述,它還不不是知識(shí)識(shí)。只有有經(jīng)過(guò)對(duì)對(duì)其進(jìn)行行加工、整理、解釋、挑選和和改造,形成對(duì)對(duì)客觀世世界規(guī)律律性認(rèn)識(shí)識(shí)后才能能稱為知知識(shí)??煽梢?jiàn),知知識(shí)是對(duì)對(duì)信息進(jìn)進(jìn)行智能能性加工工所形成成的對(duì)客客觀世界界規(guī)律性性的認(rèn)識(shí)識(shí)。(如,水水,在標(biāo)標(biāo)準(zhǔn)大氣氣壓下,加熱到到1000度就會(huì)會(huì)沸騰)實(shí)現(xiàn)對(duì)信信息的加加工過(guò)程程,實(shí)際際上也是是一種把把信息關(guān)關(guān)聯(lián)在一一起的過(guò)過(guò)程。因因此,也也可把有有關(guān)信息息關(guān)聯(lián)在在一起所所形成的的信

7、息結(jié)結(jié)構(gòu)稱為為知識(shí)。從從這種意意義上講講,“信息”與“關(guān)聯(lián)”是構(gòu)成成知識(shí)的的兩個(gè)要要素。信息之間間關(guān)聯(lián)的的形式很很多,其其中最常常用的一一種形式式為:如果 則 (IFF TTHENN)如,“如如果他學(xué)學(xué)過(guò)人工工智能課課程,則則他應(yīng)該該知道什什么叫知知識(shí)”。1.2 什么是是知識(shí)工工程?知識(shí)工程程的概念念出現(xiàn)于于19777年的的人工智智能聯(lián)合合會(huì)議上上,由費(fèi)費(fèi)根鮑姆姆教授提提出的,至今也也沒(méi)有嚴(yán)嚴(yán)格的定定義,但人們們普遍認(rèn)認(rèn)為,知識(shí)工工程是以以知識(shí)為為處理對(duì)對(duì)象,借用工工程化的的思想,應(yīng)用人人工智能能的原理理、方法法和技術(shù)去設(shè)計(jì)、構(gòu)造和和維護(hù)知知識(shí)型系系統(tǒng)的一一門學(xué)科科,是人工工智能的的一個(gè)應(yīng)應(yīng)用

8、分支支。知識(shí)工程程的目的的是在研研究知識(shí)識(shí)的基礎(chǔ)礎(chǔ)上,開發(fā)智能能系統(tǒng)。所以,知識(shí)工工程的核核心則是是專家系系統(tǒng)。由此知知,知識(shí)的的獲取、知識(shí)的的表示、知識(shí)的的運(yùn)用便便構(gòu)成知知識(shí)工程程的三大大要素。知識(shí)工程程的研究究?jī)?nèi)容,主要包包括:基礎(chǔ)理理論研究究、實(shí)用用技術(shù)的的開發(fā)、知識(shí)型型系統(tǒng)工工具研究究和智能能機(jī)等相相關(guān)課題題的研究究。其中,基基礎(chǔ)理論論研究包包括:知識(shí)的的本質(zhì)、知識(shí)的的表示、推理、獲取和和學(xué)習(xí)方方法等;實(shí)用技術(shù)術(shù)主要研研究解決決建立知知識(shí)系統(tǒng)統(tǒng)過(guò)程中中遇到的的問(wèn)題,包括:實(shí)用知知識(shí)表示示方法、實(shí)用知知識(shí)獲取取技術(shù)、實(shí)用知知識(shí)推理理方法、知識(shí)庫(kù)庫(kù)結(jié)構(gòu)系系統(tǒng)、知知識(shí)系統(tǒng)統(tǒng)體系結(jié)結(jié)構(gòu)、知知識(shí)

9、庫(kù)管管理技術(shù)術(shù)、知識(shí)識(shí)型系統(tǒng)統(tǒng)的調(diào)試試與評(píng)估估技術(shù)、實(shí)用解解釋技術(shù)術(shù)、實(shí)用用接口技技術(shù)等;知識(shí)型系系統(tǒng)工具具研究,主要是是為了給給系統(tǒng)的的開發(fā)提提供良好好的環(huán)境境工具,以提高高系統(tǒng)研研制的質(zhì)質(zhì)量和縮縮短系統(tǒng)統(tǒng)研制周周期等。知識(shí)工程程系統(tǒng)的的特點(diǎn)知識(shí)工程程系統(tǒng)能能解決專專家水平平的問(wèn)題題;系統(tǒng)能快快速的進(jìn)進(jìn)行假設(shè)設(shè)和搜索索解答;系統(tǒng)能做做出具有有專家水水平的解解答;系統(tǒng)具有有大量的的基礎(chǔ)知知識(shí)和通通用的問(wèn)問(wèn)題求解解能力;系統(tǒng)應(yīng)能能選擇問(wèn)問(wèn)題的恰恰當(dāng)表示示方式,其中的的知識(shí)型型系統(tǒng)是是一個(gè)符符號(hào)系統(tǒng)統(tǒng);系統(tǒng)具有有自動(dòng)推推理的能能力,能從結(jié)結(jié)構(gòu)步驟驟分析、解決、推理問(wèn)問(wèn)題等,這些都都表現(xiàn)出出具有人人

10、工智能能及其系系統(tǒng)的特特點(diǎn)。因此,同樣可以以說(shuō),知識(shí)工工程是人人工智能能的一個(gè)個(gè)重要應(yīng)應(yīng)用分支支 知識(shí)工程程與人工工智能的的關(guān)系傳統(tǒng)人工工智能不不能進(jìn)入入實(shí)用階階段,主主要原因因有人工智能能系統(tǒng)的的知識(shí)庫(kù)庫(kù)中只含含有少量量的規(guī)則則和事實(shí)實(shí);人工智能能系統(tǒng)的的效率極極低。而知識(shí)工工程是人人工智能能在知識(shí)識(shí)信息處處理方面面的發(fā)展展,它研研究如何何由計(jì)算算機(jī)表示示知識(shí),進(jìn)行問(wèn)問(wèn)題的自自動(dòng)求解解。知識(shí)識(shí)工程的的研究使使人工智智能的研研究從理理論轉(zhuǎn)向向了應(yīng)用用,從基基于推理理的模型型轉(zhuǎn)向基基于知識(shí)識(shí)的模型型,是新新一代計(jì)計(jì)算機(jī)的的重要理理論基礎(chǔ)礎(chǔ)。它的的根本目目的是在在研究知知識(shí)的基基礎(chǔ)上,開發(fā)人人工智

11、能能系統(tǒng),補(bǔ)充和和擴(kuò)大大大腦的功功能,開開創(chuàng)人-機(jī)共同同思考的的時(shí)代。知識(shí)工程程與專家家系統(tǒng)的的關(guān)系專家系統(tǒng)統(tǒng)是知識(shí)工工程的核核心。知識(shí)工工程的發(fā)發(fā)展首先先決定于于專家系系統(tǒng)的發(fā)發(fā)展,專家系系統(tǒng)的發(fā)發(fā)展必將將推動(dòng)人人工智能能的應(yīng)用用。專家系統(tǒng)統(tǒng)的開發(fā)發(fā)有三個(gè)個(gè)基本的的要素:領(lǐng)域?qū)<?、知知識(shí)工程程師、大大量實(shí)例例。在建立立專家系系統(tǒng)時(shí),首先由由知識(shí)工工程師把把領(lǐng)域?qū)<业膶iT知識(shí)識(shí)總結(jié)出出來(lái),以適當(dāng)當(dāng)?shù)男问绞酱嫒胗?jì)計(jì)算機(jī),建立起起知識(shí)庫(kù)庫(kù)(KBB),根根據(jù)這些些專門知知識(shí),系統(tǒng)可可以進(jìn)行行推理,做出判判斷和決決策,能夠解解決一些些只有人人類專家家才能解解決的困困難問(wèn)題題,專家系系統(tǒng)主要要是指

12、軟軟件系統(tǒng)統(tǒng)。通常一個(gè)個(gè)最基本本的專家家系統(tǒng)應(yīng)應(yīng)由:知知識(shí)庫(kù)、數(shù)據(jù)庫(kù)庫(kù)、推理理機(jī)、解解釋機(jī)構(gòu)構(gòu)、知識(shí)識(shí)獲取機(jī)機(jī)構(gòu)和用用戶界面面6個(gè)部部分組成成。圖1 專專家系統(tǒng)統(tǒng)的基本本結(jié)構(gòu)其主要功功能描述述如下: (1)知識(shí)庫(kù)庫(kù)(Knnowlledgge BBasee)知識(shí)庫(kù)是是指以某某種存儲(chǔ)儲(chǔ)結(jié)構(gòu)存存儲(chǔ)領(lǐng)域域?qū)<业牡闹R(shí),包括事事實(shí)和可可行的操操作與規(guī)規(guī)則等。為了建建立專家家?guī)欤栊鑼?duì)領(lǐng)域域問(wèn)題的的專家知知識(shí),用用相應(yīng)的的知識(shí)表表示方法法將其表表示出來(lái)來(lái),然后后再進(jìn)行行形式化化,并經(jīng)經(jīng)編碼放放入知識(shí)識(shí)庫(kù)中。所以,專專家?guī)斓牡慕?,首先要要解決知知識(shí)獲取取與知識(shí)識(shí)表示的的問(wèn)題。知識(shí)獲獲取是指指知識(shí)工工程師如

13、如何從領(lǐng)領(lǐng)域?qū)<壹夷抢铽@獲得將要要納入知知識(shí)庫(kù)的的知識(shí)。知識(shí)表表示要解解決的問(wèn)問(wèn)題是如如何使用用計(jì)算機(jī)機(jī)能夠理理解的形形式來(lái)表表示和存存儲(chǔ)知識(shí)識(shí)的問(wèn)題題。通常,知知識(shí)庫(kù)中中的知識(shí)識(shí)分為兩兩大類型型:一類類是領(lǐng)域域中的事事實(shí),稱稱為事實(shí)實(shí)性知識(shí)識(shí),這是是一種廣廣泛公用用的知識(shí)識(shí),也即即寫在書書本上的的知識(shí)及及常識(shí);另一類類是啟發(fā)發(fā)性知識(shí)識(shí),它是是領(lǐng)域?qū)<以陂L(zhǎng)長(zhǎng)期工作作實(shí)踐中中積累起起來(lái)的經(jīng)經(jīng)驗(yàn)總結(jié)結(jié)。(2)數(shù)數(shù)據(jù)庫(kù)也稱全局局?jǐn)?shù)據(jù)庫(kù)庫(kù)或綜合合數(shù)據(jù)庫(kù)庫(kù)。是用用于存儲(chǔ)儲(chǔ)與求解解問(wèn)題有有關(guān)的初初始數(shù)據(jù)據(jù)(如,事實(shí)、數(shù)據(jù)、初始狀狀態(tài)(證證據(jù))和推理理過(guò)程中中得到的的中間數(shù)數(shù)據(jù)。如,在醫(yī)醫(yī)療專家家系統(tǒng)中中

14、,數(shù)據(jù)據(jù)庫(kù)中存存放的僅僅是當(dāng)前前患者的的情況,如姓名名、年齡齡、癥狀狀等及推推理過(guò)程程中得到到的一些些中間結(jié)結(jié)果、病病情等;在氣象專專家系統(tǒng)統(tǒng)中,數(shù)數(shù)據(jù)庫(kù)中中存放的的是當(dāng)前前氣象要要素,如如云量、溫度、氣壓以以及推理理得到的的中間結(jié)結(jié)果等。由此看出出,專家家系統(tǒng)數(shù)數(shù)據(jù)庫(kù)只只是一個(gè)個(gè)存儲(chǔ)很很少的用用于暫存存中間信信息的工工作存儲(chǔ)儲(chǔ)器(也也稱內(nèi)涵涵數(shù)據(jù)庫(kù)庫(kù)),而而不是通通常概念念上的用用于存放放大量信信息的數(shù)數(shù)據(jù)庫(kù)(也稱外外延數(shù)據(jù)據(jù)庫(kù))。(3)推推理機(jī)推理機(jī)是是一組用用來(lái)控制制、協(xié)調(diào)調(diào)整個(gè)專專家系統(tǒng)統(tǒng)的程序序。它根根據(jù)全局局?jǐn)?shù)據(jù)庫(kù)庫(kù)的當(dāng)前前內(nèi)容,從知識(shí)識(shí)庫(kù)中選選擇可匹匹配的規(guī)規(guī)則,并并通過(guò)執(zhí)執(zhí)行規(guī)

15、則則來(lái)修改改數(shù)據(jù)庫(kù)庫(kù)中的內(nèi)內(nèi)容,再再通過(guò)不不斷地推推理導(dǎo)出出問(wèn)題的的結(jié)論。推理機(jī)機(jī)中包含含如何從從知識(shí)庫(kù)庫(kù)中選擇擇規(guī)則的的策略和和當(dāng)有多多個(gè)可用用規(guī)則時(shí)時(shí)如何消消解規(guī)則則沖突的的策略。(4)解解釋機(jī)構(gòu)構(gòu)用于向用用戶解釋釋專家系系統(tǒng)的行行為,包包括解釋釋“系統(tǒng)是是怎樣得得出這一一結(jié)論的的”、“系統(tǒng)為為什么要要提出這這樣的問(wèn)問(wèn)題來(lái)詢?cè)儐?wèn)用戶戶”等用戶戶需要解解釋的問(wèn)問(wèn)題。(5)知知識(shí)獲取取機(jī)構(gòu)知識(shí)獲取取是專家家系統(tǒng)的的一種輔輔助功能能,它可可為修改改知識(shí)庫(kù)庫(kù)中的原原有知識(shí)識(shí)和擴(kuò)充充新知識(shí)識(shí)提供相相應(yīng)手段段。知識(shí)獲取取機(jī)構(gòu)的的基本任任務(wù)是把把知識(shí)加加入到知知識(shí)庫(kù)中中,并負(fù)負(fù)責(zé)維持持知識(shí)的的一致性性及

16、完整整性,建建立起性性能良好好的知識(shí)識(shí)庫(kù)。通常,不不同的專專家系統(tǒng)統(tǒng),知識(shí)識(shí)獲取功功能和實(shí)實(shí)現(xiàn)方法法差別較較大。如如,有的系統(tǒng)統(tǒng)首先由由知識(shí)工工程師向向領(lǐng)域?qū)<耀@取取知識(shí),然后通通過(guò)相應(yīng)應(yīng)的知識(shí)識(shí)編輯軟軟件把知知識(shí)送到到知識(shí)庫(kù)庫(kù)中;有的系統(tǒng)統(tǒng)自身就就具有部部分學(xué)習(xí)習(xí)功能,由系統(tǒng)統(tǒng)直接與與領(lǐng)域?qū)<覍?duì)話話獲取知知識(shí);有的系統(tǒng)統(tǒng)具有較較強(qiáng)的學(xué)學(xué)習(xí)功能能,可在在系統(tǒng)運(yùn)運(yùn)行過(guò)程程中通過(guò)過(guò)歸納、總結(jié),得出新新的知識(shí)識(shí)??傊徊还懿捎糜梅绞?,知識(shí)獲獲取都是是目前專專家系統(tǒng)統(tǒng)研究中中的一個(gè)個(gè)重要問(wèn)問(wèn)題。所以,知知識(shí)工程程的概念念從19777年提提出至今今,現(xiàn)已成為為一門新新興的邊邊緣學(xué)科科。它是是人工智

17、智能,數(shù)數(shù)據(jù)庫(kù)技技術(shù),數(shù)數(shù)理邏輯輯,認(rèn)知知科學(xué),心理學(xué)學(xué)等學(xué)科科交叉發(fā)發(fā)展的結(jié)結(jié)果。1.3知知識(shí)發(fā)現(xiàn)現(xiàn)KDD(Knoowleedgee Diiscooverry iin DDataabasse)一一詞是于于19889年88月在美美國(guó)底特特律市召召開的第第一屆KKDD國(guó)國(guó)際學(xué)術(shù)術(shù)會(huì)議上上正式形形成的。研究的的問(wèn)題主主要有:定性知識(shí)識(shí)和定量量知識(shí)的的發(fā)現(xiàn);知識(shí)發(fā)現(xiàn)現(xiàn)方法;知識(shí)發(fā)現(xiàn)現(xiàn)的應(yīng)用用等。KDD的的含義,由Faayyaad定義義為:從從數(shù)據(jù)集集中識(shí)別別出有效效的、新新穎的、潛在有有用的,以及最最終可理理解的模模式的非非平凡過(guò)過(guò)程。涉及幾個(gè)個(gè)概念:“數(shù)據(jù)集集”、“模式”、“過(guò)程”、“有效性性”、

18、“新穎性性”、“潛在有有用性”和“最終可可理解性性”。數(shù)據(jù)集:數(shù)據(jù)庫(kù)庫(kù)記錄的的集合FF;模式:即即知識(shí),它給出出了數(shù)據(jù)據(jù)特性或或數(shù)據(jù)之之間的關(guān)關(guān)系,是是對(duì)數(shù)據(jù)據(jù)所包含含的信息息更抽象象的描述述。按功功能可以以分為預(yù)預(yù)測(cè)型模模式和描描述型模模式。在在實(shí)際應(yīng)應(yīng)用中,可以細(xì)細(xì)分為關(guān)關(guān)聯(lián)模式式、分類類模式、聚類模模式和序序列模式式等。過(guò)程:通通常在KKDD中中指多階階段的處處理,涉涉及數(shù)據(jù)據(jù)準(zhǔn)備、模式搜搜索、知知識(shí)評(píng)價(jià)價(jià)以及反反復(fù)的修修改求精精;該過(guò)過(guò)程要求求是非平平凡的,意思是是要有一一定程度度的智能能性、自自動(dòng)性;有效性:是指發(fā)發(fā)現(xiàn)的模模式對(duì)于于新的數(shù)數(shù)據(jù)仍保保持一定定的可信信度;新穎性:要求發(fā)發(fā)

19、現(xiàn)的模模式應(yīng)該該是新的的;潛在有用用性:是是指發(fā)現(xiàn)現(xiàn)的知識(shí)識(shí)將來(lái)有有實(shí)際效效用,如如,用于于決策支支持系統(tǒng)統(tǒng)里可提提高經(jīng)濟(jì)濟(jì)效益;最終可理理解性:要求發(fā)發(fā)現(xiàn)的模模式能被被用戶理理解,目目前它主主要體現(xiàn)現(xiàn)在簡(jiǎn)潔潔性上。其中,“有效性性”、“新穎性性”、“潛在有有用性”和“最終可可理解性性”綜合在在一起稱稱為興趣趣性。KDD的的研究?jī)?nèi)內(nèi)容是:如何自自動(dòng)地去去處理數(shù)數(shù)據(jù)庫(kù)中中大量的的原始數(shù)數(shù)據(jù),從從中挖掘掘搜索出出具有規(guī)規(guī)則、富富有意義義的模式式。它的發(fā)發(fā)現(xiàn)過(guò)程程主要有有三個(gè)步步驟:數(shù)據(jù)準(zhǔn)備備,又包包括數(shù)據(jù)據(jù)選取(Datta sseleectiion)、數(shù)據(jù)據(jù)預(yù)處理理(Daata preeprooc

20、esssinng)和和數(shù)據(jù)變變換(DDataa trranssforrmattionn)三個(gè)個(gè)子步驟驟;數(shù)據(jù)挖掘掘(Daata Minningg)階段段;結(jié)果解釋釋和評(píng)價(jià)價(jià)。即:KDDD=數(shù)數(shù)據(jù)準(zhǔn)備備+DMM+解釋釋評(píng)價(jià)。圖1 KDDD過(guò)程由上圖知知,知識(shí)識(shí)發(fā)現(xiàn)的的過(guò)程可可粗略的的理解為為三部曲曲:數(shù)據(jù)據(jù)準(zhǔn)備(Datta pprepparaatioon)、數(shù)據(jù)挖挖掘(DDataa miininng)以以及結(jié)果果的解釋釋評(píng)估(intterpprepparaatioon aand evaaluaatioon)。 數(shù)據(jù)據(jù)準(zhǔn)備又又可分為為:數(shù)據(jù)據(jù)選取、數(shù)據(jù)預(yù)預(yù)處理和和數(shù)據(jù)變變換三個(gè)個(gè)子步驟驟。數(shù)據(jù)選取

21、取的目的的是確定定發(fā)現(xiàn)任任務(wù)的操操作對(duì)象象,即目目標(biāo)數(shù)據(jù)據(jù)。它是是根據(jù)用用戶的需需求從原原始數(shù)據(jù)據(jù)庫(kù)中抽抽取的一一組數(shù)據(jù)據(jù)。數(shù)據(jù)預(yù)處處理一般般包括消消除噪聲聲、推導(dǎo)導(dǎo)計(jì)算缺缺值數(shù)據(jù)據(jù)、消除除重復(fù)記記錄、完完成數(shù)據(jù)據(jù)類型轉(zhuǎn)轉(zhuǎn)換(如如,把連連續(xù)值數(shù)數(shù)據(jù)轉(zhuǎn)換換為離散散型數(shù)據(jù)據(jù),以便便符號(hào)歸歸納;或或把離散散型數(shù)據(jù)據(jù)轉(zhuǎn)換為為連續(xù)值值型數(shù)據(jù)據(jù),以便便神經(jīng)網(wǎng)網(wǎng)絡(luò)歸納納)等;數(shù)據(jù)變換換的主要要目的是是消減數(shù)數(shù)據(jù)的維維數(shù)或降降維,即即從初始始特征中中找出真真正有用用的特征征,以減減少數(shù)據(jù)據(jù)開采時(shí)時(shí)要考慮慮的特征征或變量量個(gè)數(shù)。數(shù)據(jù)挖挖掘階段段:)確定定開采的的任務(wù)或或目的,如數(shù)據(jù)據(jù)總結(jié)、分類、聚類、關(guān)聯(lián)規(guī)規(guī)則

22、發(fā)現(xiàn)現(xiàn)或序列列模式發(fā)發(fā)現(xiàn)等;)確定定使用的的開采算算法。選擇實(shí)現(xiàn)現(xiàn)算法有有兩個(gè)考考慮因素素:不同的數(shù)數(shù)據(jù)有不不同的特特點(diǎn),因因此需要要用與之之相關(guān)的的算法來(lái)來(lái)挖掘;用戶或?qū)崒?shí)際運(yùn)行行系統(tǒng)的的要求,有的用用戶可能能希望獲獲取描述述型的、容易理理解的知知識(shí)(如如,采用用規(guī)則表表示的挖挖掘方法法顯然好好于神經(jīng)經(jīng)網(wǎng)絡(luò)之之類的方方法),而有的的用戶只只希望獲獲取預(yù)測(cè)測(cè)準(zhǔn)確度度盡可能能高的預(yù)預(yù)測(cè)型知知識(shí)。選選擇了挖挖掘算法法后,就就可以實(shí)實(shí)施數(shù)據(jù)據(jù)挖掘操操作,獲獲取有用用的模式式。結(jié)果解解釋和評(píng)評(píng)價(jià),對(duì)對(duì)數(shù)據(jù)挖挖掘發(fā)現(xiàn)現(xiàn)出來(lái)的的模式,應(yīng)經(jīng)用用戶或機(jī)機(jī)器評(píng)價(jià)價(jià)后才能能成為知知識(shí)。因因?yàn)椋┩诰蚓虺鰜?lái)的的模式可

23、可能存在在冗余或或無(wú)關(guān)的的模式,此時(shí)需需將其剔剔除;)挖掘掘出來(lái)的的模式可可能不滿滿足用戶戶要求,這時(shí)應(yīng)應(yīng)退回到到發(fā)現(xiàn)階階段之前前,如重重選數(shù)據(jù)據(jù)、采取取新的變變換方法法和新的的開采算算法等)KDDD最終終是要面面向人類用用戶,因因此,應(yīng)應(yīng)對(duì)挖掘掘發(fā)現(xiàn)的的模式進(jìn)進(jìn)行可視視化(如如散點(diǎn)圖圖、直方方圖等),或把把結(jié)果轉(zhuǎn)轉(zhuǎn)換為用用戶易懂懂的另一一種表示示,如把把分類決決策樹轉(zhuǎn)轉(zhuǎn)換為“iftheen”規(guī)則。由此過(guò)程程可得:1、數(shù)據(jù)據(jù)挖掘僅僅僅是整整個(gè)知識(shí)識(shí)發(fā)現(xiàn)過(guò)過(guò)程中的的一個(gè)步步驟。挖挖掘質(zhì)量量的好壞壞有兩個(gè)個(gè)影響要要素:是所采用用的數(shù)據(jù)據(jù)挖掘技技術(shù)的有有效性;是采用的的數(shù)據(jù)質(zhì)質(zhì)量和數(shù)數(shù)量(數(shù)數(shù)據(jù)量的

24、的大小)。如果果選擇了了錯(cuò)誤的的數(shù)據(jù)或或不適當(dāng)當(dāng)?shù)膶傩孕裕驅(qū)?duì)數(shù)據(jù)進(jìn)進(jìn)行了不不適當(dāng)?shù)牡霓D(zhuǎn)換,則挖掘掘的結(jié)果果不會(huì)成成功。2、整個(gè)個(gè)挖掘過(guò)過(guò)程是一一個(gè)不斷斷反饋的的過(guò)程。比如,用戶在在挖掘途途中發(fā)現(xiàn)現(xiàn)選擇的的數(shù)據(jù)不不太滿意意,或使使用的挖挖掘技術(shù)術(shù)產(chǎn)生不不了期望望的結(jié)果果。這時(shí)時(shí),用戶戶需要重重復(fù)先前前的過(guò)程程,甚至至從頭重重新開始始。3、可視視化技術(shù)術(shù)在數(shù)據(jù)據(jù)挖掘的的各個(gè)階階段都起起著重要要的作用用。特別別是在數(shù)數(shù)據(jù)準(zhǔn)備備階段,用戶可可能要使使用散點(diǎn)點(diǎn)圖、直直方圖等等統(tǒng)計(jì)可可視化技技術(shù)來(lái)顯顯示有關(guān)關(guān)數(shù)據(jù),以期對(duì)對(duì)數(shù)據(jù)有有一個(gè)初初步的了了解,從從而為更更好地選選取數(shù)據(jù)據(jù)打下基基礎(chǔ);在在挖掘階階

25、段,用用戶則要要使用與與領(lǐng)域問(wèn)問(wèn)題有關(guān)關(guān)的可視視化工具具;在表表示結(jié)果果階段,則可能能要用到到可視化化技術(shù)以以使得發(fā)發(fā)現(xiàn)的知知識(shí)更易易于理解解。問(wèn)題:數(shù)數(shù)據(jù)挖掘掘的可視視化主要要包括哪哪些研究究?jī)?nèi)容? 目前前流行的的可視化化技術(shù)主主要有哪哪幾種?答: 數(shù)數(shù)據(jù)挖掘掘的可視視化主要要研究包包括數(shù)據(jù)的可可視化: 將數(shù)數(shù)據(jù)的不不同粒度度或不同同的抽象象級(jí)別用用多種可可視化方方式進(jìn)行行描述.對(duì)被挖挖掘的原原始數(shù)據(jù)據(jù)的可視視化有助助于確定定合適的的模型進(jìn)進(jìn)行數(shù)據(jù)據(jù)挖掘處處理;數(shù)據(jù)結(jié)果果的可視視化: 將數(shù)據(jù)據(jù)挖掘后后得到的的知識(shí)和和結(jié)果用用可視化化形式表表示出來(lái)來(lái).知識(shí)表表達(dá)、解解釋和評(píng)評(píng)價(jià)的可可視化有有助

26、于理理解所獲獲得的知知識(shí)并檢檢驗(yàn)知識(shí)識(shí)的真?zhèn)蝹魏蛯?shí)用用性;數(shù)據(jù)挖掘掘過(guò)程的的可視化化:用可可視化形形式描述述各種挖挖掘過(guò)程程,用戶戶通過(guò)可可視化方方式可以以了解挖挖掘數(shù)據(jù)據(jù)的來(lái)源源、數(shù)據(jù)據(jù)的抽取取過(guò)程、具體的的挖掘計(jì)計(jì)算和推推理過(guò)程程等。目前流行行的可視視化技術(shù)術(shù)主要有有:面向像素素技術(shù):其基本本思想是是將每個(gè)個(gè)數(shù)據(jù)值值映射到到一個(gè)有有色的像像素上并并將屬于于某個(gè)屬屬性的數(shù)數(shù)據(jù)值表表示在一一個(gè)獨(dú)立立的窗口口中;幾何投影影技術(shù):其目標(biāo)標(biāo)是在多多維數(shù)據(jù)據(jù)集中找找到“有意義義”的投影影,是一一種平行行坐標(biāo)軸軸可視化化技術(shù)。該技術(shù)術(shù)通過(guò)使使用相互互平行而而且等距距的坐標(biāo)標(biāo)軸將多多維空間間映射成成兩維顯

27、顯示。基于圖標(biāo)標(biāo)技術(shù):是將一一個(gè)多級(jí)級(jí)數(shù)據(jù)項(xiàng)項(xiàng)映射成成一個(gè)圖圖標(biāo),是是一種條條狀圖技技術(shù)。在在該技術(shù)術(shù)中,用用兩維來(lái)來(lái)進(jìn)行坐坐標(biāo)顯示示,而剩剩下的維維則被映映射成條條狀圖標(biāo)標(biāo)的角度度或條狀狀圖標(biāo)的的長(zhǎng)度;層次技術(shù)術(shù):是對(duì)對(duì)多維空空間進(jìn)行行細(xì)分,然后以以一種層層次的形形式表示示這些子子空間。由于KDDD是一一門受到到來(lái)自各各種不同同領(lǐng)域的的研究者者關(guān)注的的交叉學(xué)學(xué)科(如如涉及:統(tǒng)計(jì)學(xué)學(xué)、機(jī)器器學(xué)習(xí)、數(shù)據(jù)庫(kù)庫(kù)技術(shù)、模式識(shí)識(shí)別、人人工智能能和可視視化等),因此此導(dǎo)致了了很多不不同的術(shù)術(shù)語(yǔ)名稱稱。除KKDD外外,主要要還有:“數(shù)據(jù)挖挖掘”、知識(shí)識(shí)抽?。╧noowleedgee exxtraactiio

28、n)、信息息發(fā)現(xiàn)、智能數(shù)數(shù)據(jù)分析析、探索索式數(shù)據(jù)據(jù)分析、信息收收獲、數(shù)數(shù)據(jù)考古古學(xué)(ddataa arrchaaeollogyy)、數(shù)數(shù)據(jù)捕撈撈(daata dreedgiing)等等。其中,最常用用的術(shù)語(yǔ)語(yǔ)是“知識(shí)發(fā)發(fā)現(xiàn)”和“數(shù)據(jù)挖挖掘”。19955年在加加拿大召召開了第第一屆知知識(shí)發(fā)現(xiàn)現(xiàn)和數(shù)據(jù)據(jù)挖掘(Datta MMingg, DDM)國(guó)國(guó)際學(xué)術(shù)術(shù)會(huì)議。由于把把數(shù)據(jù)庫(kù)庫(kù)中的“數(shù)據(jù)”形象地地比喻成成礦床,把KDDD比作作從數(shù)據(jù)據(jù)礦山中中找到蘊(yùn)蘊(yùn)藏的知知識(shí)金塊塊。從此此“數(shù)據(jù)挖挖掘”一詞很很快流傳傳開來(lái)。又由于數(shù)數(shù)據(jù)挖掘掘是KDDD過(guò)程程中的關(guān)關(guān)鍵步驟驟,所以以目前多多數(shù)人不不加區(qū)分分地使用用

29、知識(shí)發(fā)發(fā)現(xiàn)和數(shù)數(shù)據(jù)挖掘掘這兩個(gè)個(gè)術(shù)語(yǔ)。相對(duì)來(lái)講講,數(shù)據(jù)據(jù)挖掘主主要流行行于統(tǒng)計(jì)計(jì)界、數(shù)數(shù)據(jù)分析析、數(shù)據(jù)據(jù)庫(kù)和管管理信息息系統(tǒng)界界;而知識(shí)發(fā)發(fā)現(xiàn)主要要流行于于人工智智能和機(jī)機(jī)器學(xué)習(xí)習(xí)界。1.4 知識(shí)發(fā)發(fā)現(xiàn)的對(duì)對(duì)象知識(shí)發(fā)現(xiàn)現(xiàn)的對(duì)象象是數(shù)據(jù)據(jù)集。數(shù)數(shù)據(jù)集類類型有:關(guān)系數(shù)數(shù)據(jù)庫(kù)、面向?qū)?duì)象數(shù)據(jù)據(jù)庫(kù)、空空間數(shù)據(jù)據(jù)庫(kù)、時(shí)時(shí)態(tài)數(shù)據(jù)據(jù)庫(kù)、文文本數(shù)據(jù)據(jù)庫(kù)源、多媒體體數(shù)據(jù)庫(kù)庫(kù)、異質(zhì)質(zhì)數(shù)據(jù)庫(kù)庫(kù)以及萬(wàn)萬(wàn)維網(wǎng)(Webb)數(shù)據(jù)據(jù)庫(kù)等。其中,關(guān)系數(shù)數(shù)據(jù)庫(kù)是是典型的的結(jié)構(gòu)化化數(shù)據(jù)。目前,隨著技技術(shù)的發(fā)發(fā)展,數(shù)數(shù)據(jù)挖掘掘?qū)ο笠岩阎鸩綌U(kuò)擴(kuò)大到半半結(jié)構(gòu)化化或非結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù),如如Webb數(shù)據(jù)、圖像和和視頻數(shù)數(shù)據(jù)以及及文本數(shù)數(shù)據(jù)等。

30、1、關(guān)系系數(shù)據(jù)庫(kù)庫(kù)對(duì)關(guān)系數(shù)數(shù)據(jù)庫(kù),數(shù)據(jù)挖挖掘方法法主要是是研究數(shù)數(shù)據(jù)庫(kù)中中屬性之之間的關(guān)關(guān)系,挖挖掘出多多個(gè)屬性性取值之之間的規(guī)規(guī)則。由由于關(guān)系系數(shù)據(jù)庫(kù)庫(kù)的特點(diǎn)點(diǎn),促使使了數(shù)據(jù)據(jù)挖掘方方法的改改善。關(guān)系數(shù)據(jù)據(jù)庫(kù)的特特點(diǎn)如下下: 數(shù)據(jù)據(jù)動(dòng)態(tài)性性數(shù)據(jù)的動(dòng)動(dòng)態(tài)變化化是數(shù)據(jù)據(jù)庫(kù)的一一個(gè)主要要特點(diǎn)。由于數(shù)數(shù)據(jù)的存存取和修修改,使使數(shù)據(jù)的的內(nèi)容經(jīng)經(jīng)常發(fā)生生變化,這就要要求數(shù)據(jù)據(jù)挖掘方方法能適適應(yīng)這種種變化。漸增式式數(shù)據(jù)挖挖掘方法法就是針針對(duì)數(shù)據(jù)據(jù)變化,使挖掘掘的規(guī)則則(知識(shí))能滿足足變化后后的數(shù)據(jù)據(jù)庫(kù)內(nèi)容容。 數(shù)據(jù)據(jù)不完整整性數(shù)據(jù)不完完整性主主要反映映在數(shù)據(jù)據(jù)庫(kù)中記記錄的域域值丟失失或不存存在(空空值)。

31、這種不不完整數(shù)數(shù)據(jù)給數(shù)數(shù)據(jù)挖掘掘帶來(lái)了了困難。為此,必須對(duì)對(duì)數(shù)據(jù)進(jìn)進(jìn)行預(yù)處處理,填填補(bǔ)該數(shù)數(shù)據(jù)域的的可能值值。數(shù)據(jù)噪噪聲由于數(shù)據(jù)據(jù)錄入等等原因,造成錯(cuò)錯(cuò)誤的數(shù)數(shù)據(jù),即即數(shù)據(jù)噪噪聲。含含噪聲的的數(shù)據(jù)挖挖掘會(huì)影影響抽取取模式的的準(zhǔn)確性性,并增增加了數(shù)數(shù)據(jù)挖掘掘的困難難度。 數(shù)據(jù)據(jù)冗余性性這表現(xiàn)在在同一信信息在多多處重復(fù)復(fù)出現(xiàn)。函數(shù)依依賴是一一個(gè)通常常的冗余余形式。冗余信信息可能能造成錯(cuò)錯(cuò)誤的數(shù)數(shù)據(jù)挖掘掘,至少少有些挖挖掘的知知識(shí)是用用戶不感感興趣的的。為了了避免這這種情況況發(fā)生,數(shù)據(jù)挖挖掘時(shí),需要知知道數(shù)據(jù)據(jù)庫(kù)中有有哪些固固有的依依賴關(guān)系系。 數(shù)據(jù)據(jù)稀疏性性表現(xiàn)在實(shí)實(shí)例空間間中數(shù)據(jù)據(jù)稀疏,數(shù)據(jù)稀稀

32、疏會(huì)使使數(shù)據(jù)挖挖掘丟失失有用的的模式。 海量量數(shù)據(jù)數(shù)據(jù)庫(kù)中中的數(shù)據(jù)據(jù)在不斷斷增長(zhǎng),已出現(xiàn)現(xiàn)很多海海量數(shù)據(jù)據(jù)庫(kù)。數(shù)數(shù)據(jù)挖掘掘方法需需要逐步步適應(yīng)這這種海量量數(shù)據(jù)挖挖掘,如如建立有有效的索索引機(jī)制制和快速速查詢方方法等。2、文本本數(shù)據(jù)庫(kù)庫(kù)文本是以以文字串串形式表表示的數(shù)數(shù)據(jù)文件件。文本本分析包包括:關(guān)關(guān)鍵詞或或特征提提??;相相似檢索索;文本本聚類和和文本分分類等。文本中的的特征如如人名、地名、組織名名等是某某些文本本中的重重要信息息,特征征提取對(duì)對(duì)掌握該該文本的的內(nèi)容很很重要。 關(guān)鍵鍵詞或特特征提取取一篇文本本中,標(biāo)標(biāo)題是該該文本的的高度概概括。標(biāo)標(biāo)題中的的關(guān)鍵詞詞是標(biāo)題題的核心心內(nèi)容。關(guān)鍵詞詞的

33、提取取對(duì)于掌掌握該文文本的內(nèi)內(nèi)容至關(guān)關(guān)重要。文本中的的特征如如人名、地名、組織名名等是某某些文本本中的重重要信息息,特征征提取對(duì)對(duì)掌握該該文本的的內(nèi)容很很重要。 相似似檢索對(duì)文本中中關(guān)鍵詞詞的相似似檢索是是了解文文本內(nèi)容容的一種種重要方方法。如如,“專家系系統(tǒng)”與“人工智智能”兩個(gè)關(guān)關(guān)鍵詞是是有一定定聯(lián)系的的,研究究專家系系統(tǒng)的文文本,一一定屬于于人工智智能的研研究領(lǐng)域域。 文本本聚類對(duì)于文本本標(biāo)題中中關(guān)鍵詞詞(主題題詞)的的相似匹匹配是對(duì)對(duì)文本聚聚類的一一種簡(jiǎn)單單方法。定義關(guān)關(guān)鍵詞的的相似度度,將便便于文本本的簡(jiǎn)單單聚類,類中文文本滿足足關(guān)鍵詞詞的相似似度,類類間文本本的關(guān)鍵鍵詞超過(guò)過(guò)相似度

34、度。 文本本分類將文本分分類到各各文本類類中,一一般需要要采用一一個(gè)算法法,這些些算法包包括分類類器算法法、近鄰鄰算法等等,這需需要按文文本中的的關(guān)鍵詞詞或特征征的相似似度來(lái)區(qū)區(qū)分。3、圖像像與視頻頻數(shù)據(jù)庫(kù)庫(kù)圖像與視視頻數(shù)據(jù)據(jù)庫(kù)是典典型的多多媒體數(shù)數(shù)據(jù)庫(kù)。數(shù)據(jù)以以點(diǎn)陣信信息及幀幀形式存存儲(chǔ),數(shù)數(shù)據(jù)量很很大。圖圖像與視視頻的數(shù)數(shù)據(jù)挖掘掘包括:圖像與與視頻特特征提取取;基于于內(nèi)容的的相似檢檢索;視視頻鏡頭頭的編輯輯與組織織等。 圖像像與視頻頻特征提提取圖像與視視頻特征征有顏色色、紋理理和形狀狀等。這這些特征征提取是是用基于于內(nèi)容的的相似檢檢索。如如,海水水是藍(lán)色色、海灘灘是黃色色、房屋屋的形狀狀及

35、顏色色等,都都需要從從大量圖圖像和視視頻數(shù)據(jù)據(jù)中提取取。 基于于內(nèi)容的的相似檢檢索根據(jù)圖像像、視頻頻特征的的分布、比例等等進(jìn)行基基于內(nèi)容容的相似似檢索,可以將將圖像和和視頻數(shù)數(shù)據(jù)進(jìn)行行聚類以以及分類類,也能能完成對(duì)對(duì)新圖像像或視頻頻的識(shí)別別。如,對(duì)遙感感圖像或或視頻的的識(shí)別,這種應(yīng)應(yīng)用非常常廣泛,例如,森林火火災(zāi)的發(fā)發(fā)現(xiàn)與報(bào)報(bào)警,河河流水災(zāi)災(zāi)的預(yù)報(bào)報(bào)等。 視頻頻鏡頭的的編輯與與組織鏡頭代表表一段連連續(xù)動(dòng)作作(視頻頻數(shù)據(jù)流流)。典典型的鏡鏡頭編輯輯如足球球的射門門、某段段新聞節(jié)節(jié)目等,都需要要在冗長(zhǎng)長(zhǎng)的視頻頻數(shù)據(jù)流流中進(jìn)行行自動(dòng)裁裁取。經(jīng)過(guò)編輯輯的鏡頭頭,按某某種需要要重新組組織,將將形成特特定

36、需求求的新視視頻節(jié)目目。如足足球射門門集錦,某個(gè)新新聞事件件的連續(xù)續(xù)報(bào)道等等。4、Weeb數(shù)據(jù)據(jù)庫(kù)隨著Innterrnett的發(fā)展展和普及及,網(wǎng)站站數(shù)目的的迅速增增長(zhǎng)及上上網(wǎng)人數(shù)數(shù)的劇烈烈增多,使網(wǎng)絡(luò)絡(luò)數(shù)據(jù)量量呈指數(shù)數(shù)增長(zhǎng),Webb數(shù)據(jù)挖挖掘已成成為新課課題。WWeb數(shù)數(shù)據(jù)挖掘掘具有如如下特點(diǎn)點(diǎn): 異構(gòu)構(gòu)數(shù)據(jù)集集成和挖挖掘Web上上每一站站點(diǎn)是一一個(gè)數(shù)據(jù)據(jù)源,各各數(shù)據(jù)源源都是異異構(gòu)的,形成了了一個(gè)巨巨大的異異構(gòu)的數(shù)數(shù)據(jù)庫(kù)環(huán)環(huán)境。將將這些站站點(diǎn)的異異構(gòu)數(shù)據(jù)據(jù)進(jìn)行集集成,給給用戶提提供一個(gè)個(gè)統(tǒng)一的的視圖,才能在在Webb上進(jìn)行行數(shù)據(jù)挖挖掘。 半結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù)模型型抽取Web上上的數(shù)據(jù)據(jù)非常復(fù)復(fù)雜,

37、沒(méi)沒(méi)有特定定的模型型描述。雖然每每個(gè)站點(diǎn)點(diǎn)上的數(shù)數(shù)據(jù)是結(jié)結(jié)構(gòu)化的的,但各各自的設(shè)設(shè)計(jì)對(duì)整整個(gè)網(wǎng)絡(luò)絡(luò)而言是是一個(gè)非非完全結(jié)結(jié)構(gòu)化的的數(shù)據(jù),稱為半半結(jié)構(gòu)化化數(shù)據(jù)。對(duì)半結(jié)構(gòu)構(gòu)化數(shù)據(jù)據(jù)模型的的查詢和和集成,需要尋尋找一種種半結(jié)構(gòu)構(gòu)化模型型抽取技技術(shù)來(lái)自自動(dòng)抽取取各站點(diǎn)點(diǎn)的數(shù)據(jù)據(jù)。如,XMML是一一種半結(jié)結(jié)構(gòu)化的的數(shù)據(jù)模模型,容容易實(shí)現(xiàn)現(xiàn)Webb中的信信息共享享與交換換??傊?,WWeb數(shù)數(shù)據(jù)挖掘掘正在逐逐步形成成熱點(diǎn)。1.5 知識(shí)發(fā)發(fā)現(xiàn)的分分類知識(shí)發(fā)現(xiàn)現(xiàn)涉及多多個(gè)學(xué)科科,主要要包括數(shù)數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)學(xué)和機(jī)器器學(xué)習(xí)等等三大主主要技術(shù)術(shù)。數(shù)據(jù)庫(kù)技技術(shù)經(jīng)過(guò)過(guò)20世世紀(jì)800年代的的大發(fā)展展,除關(guān)關(guān)系數(shù)據(jù)據(jù)庫(kù)外,

38、又陸續(xù)續(xù)出現(xiàn)面面向?qū)ο笙髷?shù)據(jù)庫(kù)庫(kù)、多媒媒體數(shù)據(jù)據(jù)庫(kù)、分分布式數(shù)數(shù)據(jù)庫(kù)以以及Weeb數(shù)據(jù)據(jù)庫(kù)等。數(shù)據(jù)庫(kù)庫(kù)的應(yīng)用用從一般般查詢到到模糊查查詢和智智能查詢?cè)?,?shù)據(jù)據(jù)庫(kù)計(jì)算算已趨向向并行計(jì)計(jì)算。從從以上數(shù)數(shù)據(jù)庫(kù)中中挖掘知知識(shí)正在在興起并并已得到到迅速發(fā)發(fā)展。統(tǒng)計(jì)學(xué)是是一門古古老學(xué)科科,現(xiàn)已已逐漸走走向社會(huì)會(huì)。成為為社會(huì)調(diào)調(diào)查、了了解民意意以及制制定決策策的重要要手段。機(jī)器學(xué)習(xí)習(xí)是人工工智能的的重要分分支。它它是在專專家系統(tǒng)統(tǒng)獲取知知識(shí)出現(xiàn)現(xiàn)瓶頸后后發(fā)展起起來(lái)的。機(jī)器學(xué)學(xué)習(xí)的大大部分方方法和技技術(shù)已演演變?yōu)閿?shù)數(shù)據(jù)挖掘掘方法和和技術(shù)。知識(shí)發(fā)現(xiàn)現(xiàn)可按數(shù)數(shù)據(jù)庫(kù)類類型、知知識(shí)發(fā)現(xiàn)現(xiàn)對(duì)象、知識(shí)發(fā)發(fā)現(xiàn)任務(wù)務(wù)、知識(shí)識(shí)

39、發(fā)現(xiàn)方方法與技技術(shù),以以及應(yīng)用用等幾個(gè)個(gè)方面進(jìn)進(jìn)行分類類。(1)按按數(shù)據(jù)庫(kù)庫(kù)類型分分類知識(shí)發(fā)現(xiàn)現(xiàn)主要是是在關(guān)系系數(shù)據(jù)庫(kù)庫(kù)中挖掘掘知識(shí)。隨著數(shù)數(shù)據(jù)庫(kù)類類型的不不斷增加加,逐步步出現(xiàn)了了不同數(shù)數(shù)據(jù)庫(kù)的的知識(shí)發(fā)發(fā)現(xiàn)?,F(xiàn)現(xiàn)有:關(guān)關(guān)系數(shù)據(jù)據(jù)的知識(shí)識(shí)發(fā)現(xiàn)、模糊數(shù)數(shù)據(jù)的知知識(shí)發(fā)現(xiàn)現(xiàn)、歷史史數(shù)據(jù)的的知識(shí)發(fā)發(fā)現(xiàn)和空空間數(shù)據(jù)據(jù)的知識(shí)識(shí)發(fā)現(xiàn)等等多種不不同數(shù)據(jù)據(jù)庫(kù)的知知識(shí)發(fā)現(xiàn)現(xiàn)類型。(2)按按知識(shí)發(fā)發(fā)現(xiàn)的對(duì)對(duì)象分類類知識(shí)發(fā)現(xiàn)現(xiàn)除了對(duì)對(duì)數(shù)據(jù)庫(kù)庫(kù)這個(gè)主主要的對(duì)對(duì)象進(jìn)行行知識(shí)發(fā)發(fā)現(xiàn)外,還有文文本數(shù)據(jù)據(jù)知識(shí)發(fā)發(fā)現(xiàn)、多多媒體數(shù)數(shù)據(jù)知識(shí)識(shí)發(fā)現(xiàn)和和Webb網(wǎng)數(shù)據(jù)據(jù)知識(shí)發(fā)發(fā)現(xiàn)等。由于對(duì)對(duì)象不同同,知識(shí)識(shí)發(fā)現(xiàn)的的方法相相差很大大,文本

40、本、多媒媒體、WWeb網(wǎng)網(wǎng)數(shù)據(jù)均均是非結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù),知知識(shí)發(fā)現(xiàn)現(xiàn)的難度度將很大大。(3)按按知識(shí)發(fā)發(fā)現(xiàn)的任任務(wù)分類類知識(shí)發(fā)現(xiàn)現(xiàn)的任務(wù)務(wù)主要有有:關(guān)聯(lián)聯(lián)分析、時(shí)序模模式、聚聚類、分分類、偏偏差檢測(cè)測(cè)以及預(yù)預(yù)測(cè)六項(xiàng)項(xiàng)。故按按知識(shí)發(fā)發(fā)現(xiàn)的任任務(wù)分類類有:關(guān)關(guān)聯(lián)規(guī)則則知識(shí)發(fā)發(fā)現(xiàn)、序序列知識(shí)識(shí)發(fā)現(xiàn)、聚類知知識(shí)發(fā)現(xiàn)現(xiàn)、分類類知識(shí)發(fā)發(fā)現(xiàn)、偏偏差分析析知識(shí)發(fā)發(fā)現(xiàn)以及及預(yù)測(cè)知知識(shí)發(fā)現(xiàn)現(xiàn)等類型型。(4)按按知識(shí)發(fā)發(fā)現(xiàn)方法法和技術(shù)術(shù)分類歸納學(xué)習(xí)習(xí)類、仿仿生物技技術(shù)類、公式發(fā)發(fā)現(xiàn)類、統(tǒng)計(jì)分分析類、模糊數(shù)數(shù)學(xué)類、可視化化技術(shù)類類等等。1.6 知識(shí)發(fā)發(fā)現(xiàn)的方方法可粗分為為:統(tǒng)計(jì)計(jì)方法、機(jī)器學(xué)學(xué)習(xí)方法法、神經(jīng)經(jīng)網(wǎng)絡(luò)方方法

41、、數(shù)數(shù)據(jù)庫(kù)方方法和可可視化方方法。統(tǒng)計(jì)方法法可細(xì)分分為:回回歸分析析、判別別分析、聚類分分析、探探索性分分析等;機(jī)器學(xué)習(xí)習(xí)可細(xì)分分為:歸歸納學(xué)習(xí)習(xí)方法、基于范范例學(xué)習(xí)習(xí)、遺傳傳算法等等;神經(jīng)網(wǎng)絡(luò)絡(luò)可細(xì)分分為:前前向神經(jīng)經(jīng)網(wǎng)絡(luò)、自組織織神經(jīng)網(wǎng)網(wǎng)絡(luò)等;數(shù)據(jù)庫(kù)方方法主要要是:多多維數(shù)據(jù)據(jù)分析或或OLAAP方法法,另外外還有面面向?qū)傩孕缘臍w納納方法。對(duì)可視化化方法主主要是把把數(shù)據(jù)、信息和和知識(shí)轉(zhuǎn)轉(zhuǎn)化為可可視的表表示形式式的過(guò)程程。1.7 知識(shí)發(fā)發(fā)現(xiàn)的任任務(wù)數(shù)據(jù)挖掘掘與知識(shí)識(shí)發(fā)現(xiàn)是是一個(gè)以以數(shù)據(jù)庫(kù)庫(kù)、人工工智能、數(shù)理統(tǒng)統(tǒng)計(jì)、可可視化四四大支柱柱技術(shù)為為基礎(chǔ),多學(xué)科科交叉、滲透、融合形形成的新新的交叉叉學(xué)

42、科。數(shù)據(jù)挖掘掘的任務(wù)務(wù)是從大大量的數(shù)數(shù)據(jù)中發(fā)發(fā)現(xiàn)模式式。根據(jù)據(jù)數(shù)據(jù)挖挖掘的任任務(wù)可分分為多種種類型,其中比比較典型型的有:預(yù)測(cè)模型型關(guān)聯(lián)分析析分類分析析聚類分析析序列分析析偏差檢測(cè)測(cè)模式相似似性挖掘掘Web數(shù)數(shù)據(jù)挖掘掘預(yù)測(cè)模模型(PPreddicttivee Moodellingg):所所謂預(yù)測(cè)測(cè)即從數(shù)數(shù)據(jù)庫(kù)或或數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)中已已知的數(shù)數(shù)據(jù)推測(cè)測(cè)未知的的數(shù)據(jù)或或?qū)ο蠹心承┬傩缘牡闹捣植疾?。建立預(yù)測(cè)測(cè)模型的的常用方方法:回歸分析析線性模型型關(guān)聯(lián)規(guī)則則決策樹預(yù)預(yù)測(cè)遺傳算法法神經(jīng)網(wǎng)絡(luò)絡(luò)關(guān)聯(lián)(Asssociiatiion)分析:關(guān)聯(lián)規(guī)規(guī)則描述述了一組組數(shù)據(jù)項(xiàng)項(xiàng)之間的的密切度度或關(guān)系系。關(guān)聯(lián)聯(lián)分析用

43、用于發(fā)現(xiàn)現(xiàn)項(xiàng)目集集之間的的關(guān)聯(lián)。在關(guān)聯(lián)聯(lián)規(guī)則挖挖掘算法法中,通通常給出出了置信信度和支支持度兩兩個(gè)概念念,對(duì)于于置信度度和支持持度均大大于給定定閾值的的規(guī)則稱稱為強(qiáng)規(guī)規(guī)則,而而關(guān)聯(lián)分分析主要要就是對(duì)對(duì)強(qiáng)規(guī)則則的挖掘掘。關(guān)聯(lián)規(guī)則則挖掘近近幾年研研究較多多?,F(xiàn)在在,關(guān)聯(lián)聯(lián)規(guī)則的的挖掘已已經(jīng)從單單一概念念層次關(guān)關(guān)聯(lián)規(guī)則則的發(fā)現(xiàn)現(xiàn)發(fā)展到到多概念念層次的的關(guān)聯(lián)規(guī)規(guī)則的發(fā)發(fā)現(xiàn),并并把研究究的重點(diǎn)點(diǎn)放在提提高算法法的效率率和規(guī)模??墒湛s縮性上。它廣泛泛地運(yùn)用用于幫助助市場(chǎng)導(dǎo)導(dǎo)向、商商品目錄錄設(shè)計(jì)客客戶關(guān)系系管理)(CRRM)和和其他各各種商業(yè)業(yè)決策過(guò)過(guò)程中。關(guān)聯(lián)分析析算法:APRRIORRI算法法、DHHP

44、算法法、DIIC算法法、PAARTIITIOON算法法及它們們的各種種改進(jìn)算算法等。另外,對(duì)于大大規(guī)模、分布在在不同站站點(diǎn)上的的數(shù)據(jù)庫(kù)庫(kù)或數(shù)據(jù)據(jù)倉(cāng)庫(kù),關(guān)聯(lián)規(guī)規(guī)則的挖挖掘可以以使用并并行算法法,如:Count分布布算法、Data分布算算法、CCandiidate 分布算算法、智智能Data分布算算法(IIDD)和DMMA分布布算法等等。分類(Claassiificcatiion)分析:所謂分分類是根根據(jù)數(shù)據(jù)據(jù)的特征征為每個(gè)個(gè)類別建建立一個(gè)個(gè)模型,根據(jù)數(shù)數(shù)據(jù)的屬屬性將數(shù)數(shù)據(jù)分配配到不同同的組中中。在實(shí)際應(yīng)應(yīng)用過(guò)程程中,分分類規(guī)則則可以分分析分組組中數(shù)據(jù)據(jù)的各種種屬性,并找出出數(shù)據(jù)的的屬性模模型,從

45、從而確定定哪些數(shù)數(shù)據(jù)屬于于哪些組組。這樣樣就可以以利用該該模型來(lái)來(lái)分析已已有數(shù)據(jù)據(jù),并預(yù)預(yù)測(cè)新數(shù)數(shù)據(jù)將屬屬于哪一一個(gè)組。類的描描述可以以是顯式式的,如如用一組組特征概概念描述述;也可可以是隱隱式的,如用一一個(gè)數(shù)學(xué)學(xué)公式或或數(shù)學(xué)模模型描述述。分類類分析已已經(jīng)成功功地用于于顧客分分類、疾疾病分類類、商業(yè)業(yè)建模和和信用卡卡分析等等。分類分析析的常用用方法:約略(RRouggh)集集決策樹神經(jīng)網(wǎng)絡(luò)絡(luò)統(tǒng)計(jì)分析析法目前,分分類方法法和研究究成果很很多,判判別方法法的好壞壞,可從從下面33個(gè)方面面進(jìn)行:(1)預(yù)預(yù)測(cè)準(zhǔn)確確度(對(duì)對(duì)非樣本本數(shù)據(jù)的的判別準(zhǔn)準(zhǔn)確度); (22)計(jì)算算復(fù)雜度度; (33)模式式簡(jiǎn)潔度

46、度(在同同樣效果果情況下下,希望望決策樹樹小或規(guī)規(guī)則少)。注:在數(shù)數(shù)據(jù)庫(kù)中中,往往往存在噪噪聲數(shù)據(jù)據(jù),缺損損值和疏疏密不均均勻等問(wèn)問(wèn)題,他他們對(duì)分分類算法法獲取的的知識(shí)將將產(chǎn)生壞壞的影響響。聚類(Cluusteerinng)分分析:所所謂聚類類是指一一組彼此此間非常?!跋嗨啤钡臄?shù)據(jù)據(jù)對(duì)象的的集合。相似的的程度可可以通過(guò)過(guò)距離函函數(shù)來(lái)表表示,由由用戶或或?qū)<抑钢付?。聚類分析析是按照照某種相相近程度度度量方方法將數(shù)數(shù)據(jù)分成成互不相相同的一一些分組組。每一一個(gè)分組組中的數(shù)數(shù)據(jù)相近近,不同同分組之之間的數(shù)數(shù)據(jù)相差差較大。好的聚聚類方法法可以產(chǎn)產(chǎn)生高質(zhì)質(zhì)量的聚聚類,保保證每一一聚類內(nèi)內(nèi)部的相相似性很很高

47、,而而各聚類類之間的的相似性性很低。聚類分分析的核核心是將將某些定定性的相相近程度度測(cè)量方方法轉(zhuǎn)換換成定量量測(cè)試方方法。采采用聚類類分析,系統(tǒng)可可以根據(jù)據(jù)部分?jǐn)?shù)數(shù)據(jù)發(fā)現(xiàn)現(xiàn)規(guī)律,找出對(duì)對(duì)全體數(shù)數(shù)據(jù)的描描述。聚類分析析的常用用方法:隨機(jī)搜索索聚類法法特征聚類類CF樹序列(Seqquennce)分析:序列分分析主要要用于分分析數(shù)據(jù)據(jù)倉(cāng)庫(kù)中中的某類類與時(shí)間間相關(guān)的的數(shù)據(jù),搜索類類似的序序列或子子序列,并挖掘掘時(shí)序模模式、周周期性、趨勢(shì)和和偏離等等。例如,它它可以導(dǎo)導(dǎo)出類似似“若AT&T股票票連續(xù)上上漲兩天天且DEEC股票票不下跌跌,則第第三天IIBM股股票上漲漲的可能能性為775%”的數(shù)據(jù)據(jù)關(guān)系。序列

48、模模式可以以看成是是一種特特定的關(guān)關(guān)聯(lián)模型型,它在在關(guān)聯(lián)模模型中增增加了時(shí)時(shí)間屬性性。偏差檢檢測(cè)(DDeviiatiion Dettecttionn):用用于檢測(cè)測(cè)并解釋釋數(shù)據(jù)分分類的偏偏差,它它有助于于濾掉知知識(shí)發(fā)現(xiàn)現(xiàn)引擎所所抽取的的無(wú)關(guān)信信息,也也可濾掉掉那些不不合適的的數(shù)據(jù),同時(shí)可可產(chǎn)生新新的關(guān)注注性事實(shí)實(shí)。偏差包括括很多有有用的知知識(shí),如如以下44類:分類中的的反常實(shí)實(shí)例;模式的例例外;觀察結(jié)果果對(duì)模型型預(yù)測(cè)的的偏差;量值隨時(shí)時(shí)間的變變化。偏差檢測(cè)測(cè)的基本本方法是是尋找觀觀察結(jié)果果與參照照之間的的差別。觀察結(jié)結(jié)果常常常是某一一個(gè)域的的值或多多個(gè)域值值的匯總總。參照照是給定定模型的的預(yù)測(cè)

49、、外界提提供的標(biāo)標(biāo)準(zhǔn)或另另一觀察察。模式相相似性挖挖掘:用用于在時(shí)時(shí)間數(shù)據(jù)據(jù)庫(kù)或空空間數(shù)據(jù)據(jù)庫(kù)中搜搜索相似似模式時(shí)時(shí),從所所有對(duì)象象中找出出用戶定定義范圍圍內(nèi)的對(duì)對(duì)象;或或找出所所有元素素對(duì),元元素對(duì)中中兩者的的距離小小于用戶戶定義的的距離范范圍。模模式相似似性挖掘掘的方法法有相似似度測(cè)量量法、遺遺傳算法法等。Webb數(shù)據(jù)挖挖掘:萬(wàn)萬(wàn)維網(wǎng)是是一個(gè)巨巨大的、分布廣廣泛的和和全球性性的信息息服務(wù)中中心,其其中包含含了豐富富的超鏈鏈接信息息,為數(shù)數(shù)據(jù)挖掘掘提供了了豐富的的資源。Webb數(shù)據(jù)挖挖掘包括括Webb使用模模式挖掘掘、Weeb結(jié)構(gòu)構(gòu)挖掘和和Webb內(nèi)容挖挖掘等。Web使使用模式式挖掘:在We

50、bb環(huán)境中中,文檔檔和對(duì)象象一般都都是通過(guò)過(guò)鏈接來(lái)來(lái)便于用用戶訪問(wèn)問(wèn)。捕捉捉用戶的的存取模模式或發(fā)發(fā)現(xiàn)一個(gè)個(gè)Webb網(wǎng)站最最頻繁的的訪問(wèn)路路徑稱為為Webb使用模模式挖掘掘或Weeb路徑徑挖掘。Web結(jié)結(jié)構(gòu)挖掘掘:是挖挖掘Weeb的鏈鏈接結(jié)構(gòu)構(gòu),并找找出關(guān)于于某一主主題的權(quán)權(quán)威網(wǎng)站站。Web內(nèi)內(nèi)容挖掘掘:是指指在大量量訓(xùn)練樣樣本的基基礎(chǔ)上,得到數(shù)數(shù)據(jù)對(duì)象象之間的的內(nèi)在特特征,并并以此為為依據(jù)進(jìn)進(jìn)行有目目的的信信息篩選選,從而而獲得指指定內(nèi)容容的信息息?;赪eeb的研研究:搜搜索引擎擎的設(shè)計(jì)計(jì)、文件件自動(dòng)分分類技術(shù)術(shù)、關(guān)鍵鍵詞的自自動(dòng)提取取、半結(jié)結(jié)構(gòu)化信信息的提提取及WWeb上上新型應(yīng)應(yīng)用的研

51、研究等。1.8 數(shù)據(jù)挖挖掘的知知識(shí)表示示數(shù)據(jù)挖掘掘各種方方法獲得得的知識(shí)識(shí)的表示示形式主主要有66種:規(guī)規(guī)則、決決策樹、知識(shí)基基(濃縮縮數(shù)據(jù))、網(wǎng)絡(luò)絡(luò)權(quán)值、公式和和案例。(1)規(guī)規(guī)則規(guī)則由前前提條件件和結(jié)論兩部部分組成成。前提提條件由由字段項(xiàng)項(xiàng)(屬性性)取值值的合取取和析取取組合而而成,結(jié)結(jié)論為決決策字段段項(xiàng)(屬屬性)的的取值或或者類別別組成。如,下下例為兩兩類人群群9個(gè)元元組(記記錄)表表:身高頭發(fā)眼睛第一類人人矮金色藍(lán)色高紅色藍(lán)色高金色藍(lán)色矮金色灰色第二類人人高金色黑色矮黑色藍(lán)色高黑色藍(lán)色高黑色灰色矮黑色黑色利用數(shù)據(jù)據(jù)挖掘方方法,將將能很快快得到如如下規(guī)則則知識(shí): IIF(發(fā)發(fā)色=金金色紅

52、色)(眼睛睛=藍(lán)色色灰色)THEEN 第一一類人 IIF(發(fā)發(fā)色=黑黑色)(眼睛睛=黑色色) TTHENN 第二二類人即:凡是是具有金金色或紅紅色的頭頭發(fā),并并且同時(shí)時(shí)具有藍(lán)藍(lán)色或灰灰色眼睛睛的人屬屬于第一一類人;凡是具具有黑色色頭發(fā)或或黑色眼眼睛的人人屬于第第二類人人。(2)決決策樹如ID33方法的的決策樹樹,是由由信息量量最大的的字段(屬性)作為根根結(jié)點(diǎn),它的各各個(gè)取值值為分枝枝,對(duì)各各個(gè)分枝枝所劃分分的數(shù)據(jù)據(jù)元組(記錄)子集,重復(fù)建建樹過(guò)程程,擴(kuò)展展決策樹樹,最后后得到相相同類別別的子集集,以該該類別作作為葉結(jié)結(jié)點(diǎn)。如,上例例的人群群數(shù)據(jù)庫(kù)庫(kù),按IID3方方法得到到的決策策樹為(3)知知

53、識(shí)基(濃縮數(shù)數(shù)據(jù)) 數(shù)據(jù)挖挖掘方法法能計(jì)算算出數(shù)據(jù)據(jù)庫(kù)中字字段項(xiàng)的的重要程程度,對(duì)對(duì)于不重重要的字字段可以以刪除,對(duì)于數(shù)數(shù)據(jù)庫(kù)中中的元組組能按一一定的原原則合并并。這樣樣,通過(guò)過(guò)可大大大壓縮數(shù)數(shù)據(jù)庫(kù)中中的元組組和字段段項(xiàng),最最后得到到濃縮數(shù)數(shù)據(jù),稱稱為知識(shí)識(shí)基。它它是原數(shù)數(shù)據(jù)庫(kù)的的精華,很容易易轉(zhuǎn)換成成規(guī)則知知識(shí)。如,上例例的人群群數(shù)據(jù)庫(kù)庫(kù),通過(guò)過(guò)計(jì)算可可以得出出身高是是不重要要的字段段,刪除除該項(xiàng)后后,再合合并相同同數(shù)據(jù)元元組,得得到如下下的濃縮縮數(shù)據(jù)表表。(4)網(wǎng)網(wǎng)絡(luò)權(quán)值值 神經(jīng)經(jīng)網(wǎng)絡(luò)方方法經(jīng)過(guò)過(guò)對(duì)訓(xùn)練練樣本的的學(xué)習(xí)后后,所得得到的知知識(shí)是網(wǎng)網(wǎng)絡(luò)連接接權(quán)值和和結(jié)點(diǎn)的的閾值。一般表表示為矩矩

54、陣和向向量。如如,異或或問(wèn)題的的網(wǎng)絡(luò)權(quán)權(quán)值和閾閾值分別別如下:樣本:00 00 00 11 11 00 11 11(5)公公式對(duì)于科學(xué)學(xué)和工程程數(shù)據(jù)庫(kù)庫(kù),一般般存放的的是大量量實(shí)驗(yàn)數(shù)數(shù)據(jù)(數(shù)數(shù)值)。它們中中蘊(yùn)涵著著一定的的規(guī)律性性,通過(guò)過(guò)公式發(fā)發(fā)現(xiàn)算法法,可以以找出各各種變量量間的相相互關(guān)系系,用公公式表示示。如,太陽(yáng)陽(yáng)系行星星運(yùn)動(dòng)數(shù)數(shù)據(jù)中,包含行行星運(yùn)動(dòng)動(dòng)周期(旋轉(zhuǎn)一一周所需需時(shí)間,天),以及它它與太陽(yáng)陽(yáng)的距離離(圍繞繞太陽(yáng)旋旋轉(zhuǎn)的橢橢圓軌道道的長(zhǎng)半半軸,百百萬(wàn)公里里),具具體數(shù)據(jù)據(jù)如下表表:水星金星地球火星木星土星周期P8822536568743433.5107667.55距離d58108

55、14922877814300由此,可可得到開開普勒第第三定律律:d/P=225.(6)案案例案例是指指人們經(jīng)經(jīng)歷過(guò)的的一次完完整的事事件。當(dāng)當(dāng)人們要要解決一一個(gè)新問(wèn)問(wèn)題時(shí),總是先先回顧自自己以前前處理過(guò)過(guò)的類似似事件(案例),利用用以前案案例中解解決問(wèn)題題的方法法或者處處理的結(jié)結(jié)果,作作為參考考并進(jìn)行行適當(dāng)?shù)牡男薷模越鉀Q決當(dāng)前新新問(wèn)題。利用這這種思想想建立起起基于案案例推理理(Caase Bassed Reaasonningg,CBBR)。CBR的的基礎(chǔ)是是案例庫(kù)庫(kù),在案案例庫(kù)中中存放著著大量成成功或失失敗的案案例。CCBR利利用相似似檢索技技術(shù),對(duì)對(duì)新問(wèn)題題到案例例庫(kù)中搜搜索相似似案例,再

56、經(jīng)過(guò)過(guò)對(duì)舊案案例的修修改來(lái)解解決新問(wèn)問(wèn)題。可見(jiàn),案案例是解解決新問(wèn)問(wèn)題的一一種知識(shí)識(shí)。案例例知識(shí)一一般表示示為三元元組:?jiǎn)栴}描述述:對(duì)求求解的問(wèn)問(wèn)題及周周圍世界界或環(huán)境境的所有有特征的的描述;解描述:對(duì)問(wèn)題題求解方方案的描描述;效果描述述:描述述解決方方案后的的結(jié)果情情況,是是失敗還還是成功功。1.9 數(shù)據(jù)挖挖掘及知知識(shí)發(fā)現(xiàn)現(xiàn)的實(shí)際際應(yīng)用DM(KKDD)工具和和軟件已已在各個(gè)個(gè)部門得得到很好好的應(yīng)用用,并收收到明顯顯的效益益。1金金融方面面:銀行信信用卡和和保險(xiǎn)行行業(yè),預(yù)預(yù)測(cè)存/貸款趨趨勢(shì),優(yōu)優(yōu)化存/貸款策策略,用用DM將將市場(chǎng)分分成有意意義的群群組和部部門,從從而協(xié)助助市場(chǎng)經(jīng)經(jīng)理和業(yè)業(yè)務(wù)執(zhí)行

57、行人員更更好地集集中于有有促進(jìn)作作用的活活動(dòng)和設(shè)設(shè)計(jì)新的的市場(chǎng)運(yùn)運(yùn)動(dòng)。2在在客戶關(guān)關(guān)系管理理方面:DM能能找出產(chǎn)產(chǎn)品使用用模式或或協(xié)助了了解客戶戶行為,從而可可以改進(jìn)進(jìn)通道管管理(如如銀行分分支和AATM等等)。又又如正確確時(shí)間銷銷售(RRighhtTiimeMMarKKetiing)就是基基于顧客客生活周周期模型型來(lái)實(shí)施施的。3在在零售業(yè)業(yè)/市場(chǎng)場(chǎng)營(yíng)銷方方面:是數(shù)據(jù)據(jù)挖掘技技術(shù)應(yīng)用用最早也也是最重重要的領(lǐng)領(lǐng)域,DDM用于于顧客購(gòu)購(gòu)貨籃的的分析可可以協(xié)助助貨架布布置,促促銷活動(dòng)動(dòng)時(shí)間,促銷商商品組合合以及了了解滯銷銷和暢銷銷商品狀狀況等商商業(yè)活動(dòng)動(dòng)。通過(guò)過(guò)對(duì)一種種廠家商商品在各各連鎖店店的市場(chǎng)

58、場(chǎng)共享分分析,客客戶統(tǒng)計(jì)計(jì)以及歷歷史狀況況的分析析,可以以確定銷銷售和廣廣告業(yè)務(wù)務(wù)的有效效性。4在在過(guò)程控控制/質(zhì)質(zhì)量監(jiān)督督保證方方面:DM協(xié)協(xié)助管理理大數(shù)量量變量之之間的相相互作用用,DMM能自動(dòng)動(dòng)發(fā)現(xiàn)出出某些不不正常的的數(shù)據(jù)分分布,暴暴露制造造和裝配配操作過(guò)過(guò)程中變變化情況況和各種種因素,從而協(xié)協(xié)助質(zhì)量量工程師師很快地地注意到到問(wèn)題發(fā)發(fā)生范圍圍和采取取改正措措施。5在在遠(yuǎn)程通通訊部門門:基于DDM的分分析協(xié)助助組織策策略變更更以適應(yīng)應(yīng)外部世世界的變變化,確確定市場(chǎng)場(chǎng)變化模模式以指指導(dǎo)銷售售計(jì)劃。在網(wǎng)絡(luò)絡(luò)容量利利用方面面,DMM能提供供對(duì)客戶戶組類服服務(wù)使用用的結(jié)構(gòu)構(gòu)和模式式的了解解,從而而

59、指導(dǎo)容容量計(jì)劃劃人員對(duì)對(duì)網(wǎng)絡(luò)設(shè)設(shè)施作出出最佳投投資決策策。6化化學(xué)/制制藥行業(yè)業(yè):從各各種文獻(xiàn)獻(xiàn)資料總總自動(dòng)抽抽取有關(guān)關(guān)化學(xué)反反應(yīng)的信信息,發(fā)發(fā)現(xiàn)新的的有用化化學(xué)成分分。在遙遙感領(lǐng)域域針對(duì)每每天從衛(wèi)衛(wèi)星上及及其它方方面來(lái)的的巨額數(shù)數(shù)據(jù),對(duì)對(duì)氣象預(yù)預(yù)報(bào),臭臭氧層監(jiān)監(jiān)測(cè)等能能起很大大作用。7軍軍事方面面:使用用DM進(jìn)進(jìn)行軍事事信息系系統(tǒng)中的的目標(biāo)特特征提取取、態(tài)勢(shì)勢(shì)關(guān)聯(lián)規(guī)規(guī)則挖掘掘等??傊?,DDM可廣廣泛應(yīng)用用于銀行行金融、零售與與批發(fā)、制造、保險(xiǎn)、公共設(shè)設(shè)施、政政府、教教育、遠(yuǎn)遠(yuǎn)程通訊訊、軟件件開發(fā)、運(yùn)輸?shù)鹊雀鱾€(gè)企企事業(yè)單單位及國(guó)國(guó)防科研研上。據(jù)據(jù)報(bào)導(dǎo),DM的的投資回回報(bào)率有有達(dá)4000%甚甚至

60、100倍的事事例。1.100 知識(shí)識(shí)發(fā)現(xiàn)與與創(chuàng)新自90年年代以來(lái)來(lái),基于于數(shù)據(jù)庫(kù)庫(kù)/數(shù)據(jù)據(jù)倉(cāng)庫(kù)技技術(shù)的知知識(shí)發(fā)現(xiàn)現(xiàn)研究,一直是是人們關(guān)關(guān)注和研研究的熱熱點(diǎn)。所所謂數(shù)據(jù)據(jù)倉(cāng)庫(kù),按數(shù)據(jù)據(jù)倉(cāng)庫(kù)之之父Biill Inmmon的的定義,就是一一個(gè)“面向主主題的”、“完整的的”、“非易失失的”、“不同時(shí)時(shí)間的”、“用于支支持決策策管理的的”數(shù)據(jù)集集合。實(shí)實(shí)質(zhì)上,數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)就是是將異構(gòu)構(gòu)的數(shù)據(jù)據(jù)集成起起來(lái),經(jīng)經(jīng)過(guò)加工工整理變變成一個(gè)個(gè)可用的的數(shù)據(jù)資資源。目前,基基于數(shù)據(jù)據(jù)倉(cāng)庫(kù)的的分析工工具主要要有:數(shù)數(shù)據(jù)挖掘掘和聯(lián)機(jī)機(jī)分析處處理(OOLAPP:OnnLinne AAnallysiis PProccesss)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論