機器學(xué)習(xí)與知識發(fā)現(xiàn)課件_第1頁
機器學(xué)習(xí)與知識發(fā)現(xiàn)課件_第2頁
機器學(xué)習(xí)與知識發(fā)現(xiàn)課件_第3頁
機器學(xué)習(xí)與知識發(fā)現(xiàn)課件_第4頁
機器學(xué)習(xí)與知識發(fā)現(xiàn)課件_第5頁
已閱讀5頁,還剩119頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第9章機器學(xué)習(xí)與知識發(fā)現(xiàn)9.1機器學(xué)習(xí)概述9.2符號學(xué)習(xí)9.3神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)9.4知識發(fā)現(xiàn)與數(shù)據(jù)挖掘習(xí)題九1謝謝觀賞2019-9-21第9章機器學(xué)習(xí)與知識發(fā)現(xiàn)9.1機器學(xué)習(xí)概述1謝謝觀9.1機器學(xué)習(xí)概述

9.1.1機器學(xué)習(xí)的概念心理學(xué)中對學(xué)習(xí)的解釋是:學(xué)習(xí)是指(人或動物)依靠經(jīng)驗的獲得而使行為持久變化的過程。人工智能和機器學(xué)習(xí)領(lǐng)域的幾位著名學(xué)者也對學(xué)習(xí)提出了各自的說法。如Simon認(rèn)為:如果一個系統(tǒng)能夠通過執(zhí)行某種過程而改進(jìn)它的性能,這就是學(xué)習(xí)。Minsky認(rèn)為:學(xué)習(xí)是在人們頭腦中(心理內(nèi)部)進(jìn)行有用的變化。TomM.Mitchell在《機器學(xué)習(xí)》一書中對學(xué)習(xí)的定義是:對于某類任務(wù)T和性能度P,如果一個計算機程序在T上以P衡量的性能隨著經(jīng)驗E而自我完善,那么,我們稱這個計算機程序從經(jīng)驗E中學(xué)習(xí)。2謝謝觀賞2019-9-219.1機器學(xué)習(xí)概述9.1.1機器學(xué)習(xí)的概念2謝謝觀賞9.1.2機器學(xué)習(xí)的原理從以上對于學(xué)習(xí)的解釋可以看出:

(1)學(xué)習(xí)與經(jīng)驗有關(guān)。

(2)學(xué)習(xí)可以改善系統(tǒng)性能。

(3)學(xué)習(xí)是一個有反饋的信息處理與控制過程。因為經(jīng)驗是在系統(tǒng)與環(huán)境的交互過程中產(chǎn)生的,而經(jīng)驗中應(yīng)該包含系統(tǒng)輸入、響應(yīng)和效果等信息。因此經(jīng)驗的積累、性能的完善正是通過重復(fù)這一過程而實現(xiàn)的。

3謝謝觀賞2019-9-219.1.2機器學(xué)習(xí)的原理3謝謝觀賞2019-9-21圖

9-1機器學(xué)習(xí)原理14謝謝觀賞2019-9-21圖9-1機器學(xué)習(xí)原理14謝謝觀賞2019-9-21這里的輸入信息是指系統(tǒng)在完成某任務(wù)時,接收到的環(huán)境信息;響應(yīng)信息是指對輸入信息做出的回應(yīng);執(zhí)行是指根據(jù)響應(yīng)信息實施相應(yīng)的動作或行為。按圖9-1,機器學(xué)習(xí)的流程就是:①對于輸入信息,系統(tǒng)根據(jù)目標(biāo)和經(jīng)驗做出決策予以響應(yīng),即執(zhí)行相應(yīng)動作;②對目標(biāo)的實現(xiàn)或任務(wù)的完成情況進(jìn)行評估;③將本次的輸入、響應(yīng)和評價作為經(jīng)驗予以存儲記錄??梢钥闯?第一次決策時系統(tǒng)中還無任何經(jīng)驗,但從第二次決策開始,經(jīng)驗便開始積累。這樣,隨著經(jīng)驗的豐富,系統(tǒng)的性能自然就會不斷改善和提高。

5謝謝觀賞2019-9-21這里的輸入信息是指系統(tǒng)在完成某任務(wù)時,接收到的環(huán)境信息圖9-1所示的學(xué)習(xí)方式現(xiàn)在一般稱為記憶學(xué)習(xí)。例如,Samuel的跳棋程序就采用這種記憶學(xué)習(xí)方法。還有,基于范例的學(xué)習(xí)也可以看作是這種記憶學(xué)習(xí)的一個特例。記憶學(xué)習(xí)實際上也是人類和動物的一種基本學(xué)習(xí)方式。然而,這種依靠經(jīng)驗來提高性能的記憶學(xué)習(xí)存在嚴(yán)重不足。其一,由于經(jīng)驗積累是一個緩慢過程,所以系統(tǒng)性能的改善也很緩慢;其二,由于經(jīng)驗畢竟不是規(guī)律,故僅憑經(jīng)驗對系統(tǒng)性能的改善是有限的,有時甚至是靠不住的。所以,學(xué)習(xí)方式需要延伸和發(fā)展??上攵?如果能在積累的經(jīng)驗中進(jìn)一步發(fā)現(xiàn)規(guī)律,然后利用所發(fā)現(xiàn)的規(guī)律即知識來指導(dǎo)系統(tǒng)行為,那么,系統(tǒng)的性能將會得到更大的改善和提高,于是,我們有圖9-2所示的機器學(xué)習(xí)原理2。

6謝謝觀賞2019-9-21圖9-1所示的學(xué)習(xí)方式現(xiàn)在一般稱為記憶學(xué)習(xí)。例如,Sa圖

9-2機器學(xué)習(xí)原理2

7謝謝觀賞2019-9-21圖9-2機器學(xué)習(xí)原理2

7謝謝觀賞2019-9-21可以看出,這才是一個完整的學(xué)習(xí)過程。它可分為三個子過程,即經(jīng)驗積累過程、知識生成過程和知識運用過程。事實上,這種學(xué)習(xí)方式就是人類和動物的技能訓(xùn)練或者更一般的適應(yīng)性訓(xùn)練過程,如騎車、駕駛、體操、游泳等都是以這種方式學(xué)習(xí)的。所以,圖9-2所示這種學(xué)習(xí)方式也適合于機器的技能訓(xùn)練,如機器人的駕車訓(xùn)練。但現(xiàn)在的機器學(xué)習(xí)研究一般都省去了上面的經(jīng)驗積累過程,而是一開始就把事先組織好的經(jīng)驗數(shù)據(jù)(包括實驗數(shù)據(jù)和統(tǒng)計數(shù)據(jù))直接作為學(xué)習(xí)系統(tǒng)的輸入,然后對其歸納推導(dǎo)而得出知識,再用所得知識去指導(dǎo)行為、改善性能,其過程如圖9-3所示。在這里把組織好的經(jīng)驗數(shù)據(jù)稱為訓(xùn)練樣本或樣例,把由樣例到知識的轉(zhuǎn)換過程稱為學(xué)習(xí)或訓(xùn)練。

8謝謝觀賞2019-9-21可以看出,這才是一個完整的學(xué)習(xí)過程。它可分為三個子過程,圖

9-3機器學(xué)習(xí)原理39謝謝觀賞2019-9-21圖9-3機器學(xué)習(xí)原理39謝謝觀賞2019-9-21考察上面的圖9-1、圖9-2和圖9-3可以發(fā)現(xiàn),從經(jīng)驗數(shù)據(jù)中發(fā)現(xiàn)知識才是機器學(xué)習(xí)的關(guān)鍵環(huán)節(jié)。所以,在機器學(xué)習(xí)中,人們就進(jìn)一步把圖9-3所示的機器學(xué)習(xí)過程簡化為只有知識生成一個過程(如圖9-4所示),即只要從經(jīng)驗數(shù)據(jù)歸納推導(dǎo)出知識就算是完成了學(xué)習(xí)??梢钥闯?圖9-4所示的這類機器學(xué)習(xí)已經(jīng)與機器學(xué)習(xí)的本來含義不一致了,實際上似乎已變成純粹的知識發(fā)現(xiàn)了。

10謝謝觀賞2019-9-21考察上面的圖9-1、圖9-2和圖9-3可以發(fā)現(xiàn),從經(jīng)圖

9-4機器學(xué)習(xí)原理411謝謝觀賞2019-9-21圖9-4機器學(xué)習(xí)原理411謝謝觀賞2019-9-21圖

9-5機器學(xué)習(xí)原理512謝謝觀賞2019-9-21圖9-5機器學(xué)習(xí)原理512謝謝觀賞2019-9-219.1.3機器學(xué)習(xí)的分類從圖9-5可以看出,機器學(xué)習(xí)可分為信息、發(fā)現(xiàn)和知識三個要素,它們分別是機器學(xué)習(xí)的對象、方法和目標(biāo)。那么,談?wù)撘环N機器學(xué)習(xí),就要考察這三個要素。而分別基于這三個要素,就可以對機器學(xué)習(xí)進(jìn)行分類。例如,由于信息有語言符號型與數(shù)值數(shù)據(jù)型之分,因此基于信息,機器學(xué)習(xí)可分為符號學(xué)習(xí)和數(shù)值學(xué)習(xí);而基于知識的形式,機器學(xué)習(xí)又可分為規(guī)則學(xué)習(xí)和函數(shù)學(xué)習(xí)等;若基于發(fā)現(xiàn)的邏輯方法,則機器學(xué)習(xí)可分為歸納學(xué)習(xí)、演繹學(xué)習(xí)和類比學(xué)習(xí)等等。這樣的分類也就是分別從“從哪兒學(xué)?”、“怎樣學(xué)?”和“學(xué)什么?”這三個著眼點對機器學(xué)習(xí)進(jìn)行的分類。

13謝謝觀賞2019-9-219.1.3機器學(xué)習(xí)的分類13謝謝觀賞2019-9-21

1.基于學(xué)習(xí)策略的分類

1)模擬人腦的機器學(xué)習(xí)

(1)符號學(xué)習(xí):模擬人腦的宏觀心理級學(xué)習(xí)過程,以認(rèn)知心理學(xué)原理為基礎(chǔ),以符號數(shù)據(jù)為輸入,以符號運算為方法,用推理過程在圖或狀態(tài)空間中搜索,學(xué)習(xí)的目標(biāo)為概念或規(guī)則等。符號學(xué)習(xí)的典型方法有記憶學(xué)習(xí)、示例學(xué)習(xí)、演繹學(xué)習(xí)、類比學(xué)習(xí)、解釋學(xué)習(xí)等。

(2)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)(或連接學(xué)習(xí)):模擬人腦的微觀生理級學(xué)習(xí)過程,以腦和神經(jīng)科學(xué)原理為基礎(chǔ),以人工神經(jīng)網(wǎng)絡(luò)為函數(shù)結(jié)構(gòu)模型,以數(shù)值數(shù)據(jù)為輸入,以數(shù)值運算為方法,用迭代過程在系數(shù)向量空間中搜索,學(xué)習(xí)的目標(biāo)為函數(shù)。典型的連接學(xué)習(xí)有權(quán)值修正學(xué)習(xí)、拓?fù)浣Y(jié)構(gòu)學(xué)習(xí)等。

14謝謝觀賞2019-9-211.基于學(xué)習(xí)策略的分類14謝謝觀賞2019-9-21

2)直接采用數(shù)學(xué)方法的機器學(xué)習(xí)這種機器學(xué)習(xí)方法主要有統(tǒng)計機器學(xué)習(xí)。而統(tǒng)計機器學(xué)習(xí)又有廣義和狹義之分。廣義統(tǒng)計機器學(xué)習(xí)指以樣本數(shù)據(jù)為依據(jù),以概率統(tǒng)計理論為基礎(chǔ),以數(shù)值運算為方法的一類機器學(xué)習(xí)。在這個意義下,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)也可劃歸為統(tǒng)計學(xué)習(xí)范疇。統(tǒng)計學(xué)習(xí)又可分為以概率表達(dá)式函數(shù)為目標(biāo)和以代數(shù)表達(dá)式函數(shù)為目標(biāo)兩大類。前者的典型有貝葉斯學(xué)習(xí)、貝葉斯網(wǎng)絡(luò)學(xué)習(xí)等,后者的典型有幾何分類學(xué)習(xí)方法和支持向量機(SVM)。經(jīng)典文獻(xiàn)(1)VladimirN.Vapnik(弗拉基米爾),譯者:許建華,《統(tǒng)計學(xué)習(xí)理論》ISBN號:978-7-121-08372-3,2009-03

(2)王雙成.貝葉斯網(wǎng)絡(luò)學(xué)習(xí)、推理與應(yīng)用,立信會計出版社

15謝謝觀賞2019-9-212)直接采用數(shù)學(xué)方法的機器學(xué)習(xí)15謝謝觀賞2019-

2.基于學(xué)習(xí)方法的分類

1)歸納學(xué)習(xí)

(1)符號歸納學(xué)習(xí):典型的符號歸納學(xué)習(xí)有示例學(xué)習(xí)、決策樹學(xué)習(xí)等。

(2)函數(shù)歸納學(xué)習(xí)(發(fā)現(xiàn)學(xué)習(xí)):典型的函數(shù)歸納學(xué)習(xí)有神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)、示例學(xué)習(xí)、發(fā)現(xiàn)學(xué)習(xí)、統(tǒng)計學(xué)習(xí)等。

2)演繹學(xué)習(xí)

3)類比學(xué)習(xí)典型的類比學(xué)習(xí)有案例(范例)學(xué)習(xí)。

4)分析學(xué)習(xí)典型的分析學(xué)習(xí)有案例(范例)學(xué)習(xí)和解釋學(xué)習(xí)等。

16謝謝觀賞2019-9-212.基于學(xué)習(xí)方法的分類16謝謝觀賞2019-9-21

3.基于學(xué)習(xí)方式的分類

(1)有導(dǎo)師學(xué)習(xí)(監(jiān)督學(xué)習(xí),supervisedlearning):利用一組已知類別的樣本調(diào)整分類器的參數(shù),使其達(dá)到所要求性能的過程,也稱為監(jiān)督訓(xùn)練或有教師學(xué)習(xí)。正如人們通過已知病例學(xué)習(xí)診斷技術(shù)那樣,計算機要通過學(xué)習(xí)才能具有識別各種事物和現(xiàn)象的能力。用來進(jìn)行學(xué)習(xí)的材料就是與被識別對象屬于同類的有限數(shù)量樣本。監(jiān)督學(xué)習(xí)中在給予計算機學(xué)習(xí)樣本的同時,還告訴計算各個樣本所屬的類別。若所給的學(xué)習(xí)樣本不帶有類別信息,就是無監(jiān)督學(xué)習(xí)。任何一種學(xué)習(xí)都有一定的目的,對于模式識別來說,就是要通過有限數(shù)量樣本的學(xué)習(xí),使分類器在對無限多個模式進(jìn)行分類時所產(chǎn)生的錯誤概率最小。

(2)無導(dǎo)師學(xué)習(xí)(無監(jiān)督學(xué)習(xí),unsupervisedlearning):設(shè)計分類器時候,用于處理未被分類標(biāo)記的樣本集。輸入數(shù)據(jù)中無導(dǎo)師信號,采用聚類方法,學(xué)習(xí)結(jié)果為類別。典型的無導(dǎo)師學(xué)習(xí)有發(fā)現(xiàn)學(xué)習(xí)、聚類學(xué)習(xí)、競爭學(xué)習(xí)等。

(3)強化學(xué)習(xí)(增強學(xué)習(xí)):以環(huán)境反饋(獎/懲信號)作為輸入,以統(tǒng)計和動態(tài)規(guī)劃技術(shù)為指導(dǎo)的一種學(xué)習(xí)方法。

17謝謝觀賞2019-9-213.基于學(xué)習(xí)方式的分類17謝謝觀賞2019-9-21

4.基于數(shù)據(jù)形式的分類

(1)結(jié)構(gòu)化學(xué)習(xí):以結(jié)構(gòu)化數(shù)據(jù)為輸入,以數(shù)值計算或符號推演為方法。典型的結(jié)構(gòu)化學(xué)習(xí)有神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)、統(tǒng)計學(xué)習(xí)、決策樹學(xué)習(xí)和規(guī)則學(xué)習(xí)。

(2)非結(jié)構(gòu)化學(xué)習(xí):以非結(jié)構(gòu)化數(shù)據(jù)為輸入,典型的非結(jié)構(gòu)化學(xué)習(xí)有類比學(xué)習(xí)、案例學(xué)習(xí)、解釋學(xué)習(xí)、文本挖掘、圖像挖掘、

Web挖掘等。

18謝謝觀賞2019-9-214.基于數(shù)據(jù)形式的分類18謝謝觀賞2019-9-21

5.基于學(xué)習(xí)目標(biāo)的分類

(1)概念學(xué)習(xí):即學(xué)習(xí)的目標(biāo)和結(jié)果為概念,或者說是為了獲得概念的一種學(xué)習(xí)。典型的概念學(xué)習(xí)有示例學(xué)習(xí)。

(2)規(guī)則學(xué)習(xí):即學(xué)習(xí)的目標(biāo)和結(jié)果為規(guī)則,或者說是為了獲得規(guī)則的一種學(xué)習(xí)。典型的規(guī)則學(xué)習(xí)有決策樹學(xué)習(xí)。

(3)函數(shù)學(xué)習(xí):即學(xué)習(xí)的目標(biāo)和結(jié)果為函數(shù),或者說是為了獲得函數(shù)的一種學(xué)習(xí)。典型的函數(shù)學(xué)習(xí)有神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。

19謝謝觀賞2019-9-215.基于學(xué)習(xí)目標(biāo)的分類19謝謝觀賞2019-9-21

(4)類別學(xué)習(xí):即學(xué)習(xí)的目標(biāo)和結(jié)果為對象類,或者說是為了獲得類別的一種學(xué)習(xí)。典型的類別學(xué)習(xí)有聚類分析。

(5)貝葉斯網(wǎng)絡(luò)學(xué)習(xí):即學(xué)習(xí)的目標(biāo)和結(jié)果是貝葉斯網(wǎng)絡(luò),或者說是為了獲得貝葉斯網(wǎng)絡(luò)的一種學(xué)習(xí)。其又可分為結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí)。當(dāng)然,以上僅是機器學(xué)習(xí)的一些分類而并非全面分類。事實上,除了以上分類外,還有許多其他分法。例如,有些機器學(xué)習(xí)還需要背景知識作指導(dǎo),這就又有了基于知識的機器學(xué)習(xí)類型。

如解釋學(xué)習(xí)就是一種基于知識的機器學(xué)習(xí)。

20謝謝觀賞2019-9-21(4)類別學(xué)習(xí):即學(xué)習(xí)的目標(biāo)和結(jié)果為對象類,或者說9.2符號學(xué)習(xí)9.2.1記憶學(xué)習(xí)記憶學(xué)習(xí)也稱死記硬背學(xué)習(xí)或機械學(xué)習(xí)。這種學(xué)習(xí)方法不要求系統(tǒng)具有對復(fù)雜問題求解的能力,也就是沒有推理能力,系統(tǒng)的學(xué)習(xí)方法就是直接記錄與問題有關(guān)的信息,然后檢索并利用這些存儲的信息來解決問題。例如,對于某個數(shù)據(jù)x,經(jīng)過某種計算過程得到的結(jié)果是y,那么系統(tǒng)就把(x,y)作為聯(lián)想對存儲起來,以后再要對x

作同樣的計算時,就可通過查詢(而不是計算)直接得到y(tǒng)。又如,對于某個事實A,經(jīng)過某種推理而得到結(jié)論B,那么就可把序?qū)?A,B)作為一條規(guī)則而記錄下來,以后就可以由A直接得到B。21謝謝觀賞2019-9-219.2符號學(xué)習(xí)9.2.1記憶學(xué)習(xí)21謝謝觀賞2019-使用記憶學(xué)習(xí)方法的一個成功例子是Samuel的跳棋程序(1959年開發(fā)),這個程序是靠記住每一個經(jīng)過評估的棋局勢態(tài),來改進(jìn)弈棋的水平。程序采用極小—極大分析的搜索策略來估計可能的未來棋盤局勢,學(xué)習(xí)環(huán)節(jié)只存儲這些棋盤勢態(tài)估值及相應(yīng)的索引,以備以后弈棋使用。例如某一個勢態(tài)A輪到程序走步,這時程序考慮向前搜索三步,根據(jù)假設(shè)的端節(jié)點靜態(tài)值,用極小—極大法可求得A的倒推值A(chǔ)v。這時系統(tǒng)記住了該棋局及其倒推值[A,Av]?,F(xiàn)在假定以后弈棋中,棋局E的搜索樹端節(jié)點中出現(xiàn)了A,這時就可以檢索已存的Av來使用,而不必再去計算其靜態(tài)估值。這不僅提高了搜索效率,更重要的是A的倒推值比A的靜態(tài)值更準(zhǔn)確。用了所記憶的A倒推值,對棋局E來說,相當(dāng)于局部搜索深度加大到6,因而E的結(jié)果得到了改善。根據(jù)文獻(xiàn)報道,Samuel程序由于有機械學(xué)習(xí)機制,最后竟能戰(zhàn)勝跳棋冠軍。

22謝謝觀賞2019-9-21使用記憶學(xué)習(xí)方法的一個成功例子是Samuel的跳棋程序(機械學(xué)習(xí)是基于記憶和檢索的辦法,學(xué)習(xí)方法很簡單,但學(xué)習(xí)系統(tǒng)需要幾種能力。

(1)能實現(xiàn)有組織的存儲信息。為了使利用一個已存的信息比重新計算該值來得快,必須有一種快速存取的方法。如在Samuel的程序中,通過對棋子位置的布局上加幾個重要特征(如棋盤上棋子的數(shù)目)做為索引以利于檢索。23謝謝觀賞2019-9-21機械學(xué)習(xí)是基于記憶和檢索的辦法,學(xué)習(xí)方法很簡單,但學(xué)

(2)能進(jìn)行信息綜合。通常存儲對象的數(shù)目可能很大,為了使其數(shù)目限制在便于管理的范圍內(nèi),需要有某種綜合技術(shù)。在Samuel程序中,被存儲的對象數(shù)目就是博弈中可能出現(xiàn)的各種棋局棋子位置數(shù)目,該程序用簡單的綜合形式來減少這個數(shù)目,例如只存儲一方棋子位置,就可使存儲的棋子位置數(shù)目減少一半,也可以利用對稱關(guān)系進(jìn)行綜合。

24謝謝觀賞2019-9-21(2)能進(jìn)行信息綜合。通常存儲對象的數(shù)目可能很大,

(3)能控制檢索方向。當(dāng)存儲對象愈多時,其中可能有多個對象與給定的狀態(tài)有關(guān),這樣就要求程序能從有關(guān)的存儲對象中進(jìn)行選擇,以便把注意力集中到有希望的方向上來。Samuel程序采用優(yōu)先考慮相同評分下具有較少走步就能到達(dá)那個對象的方向。

25謝謝觀賞2019-9-21(3)能控制檢索方向。當(dāng)存儲對象愈多時,其中可能有9.2.2示例學(xué)習(xí)示例學(xué)習(xí)也稱實例學(xué)習(xí),它是一種歸納學(xué)習(xí)。示例學(xué)習(xí)是從若干實例(包括正例和反例)中歸納出一般概念或規(guī)則的學(xué)習(xí)方法。例如學(xué)習(xí)程序要學(xué)習(xí)“狗”的概念,可以先提供給程序以各種動物,并告知程序哪些動物是“狗”,哪些不是“狗”,系統(tǒng)學(xué)習(xí)后便概括出“狗”的概念模型或類型定義,利用這個類型定義就可作為動物世界中識別“狗”的分類的準(zhǔn)則。這種構(gòu)造類型定義的任務(wù)稱為概念學(xué)習(xí),當(dāng)然這個任務(wù)所使用的技術(shù)必須依賴于描述類型(概念)的方法。下面我們使用Winston(1975年開發(fā))提出的結(jié)構(gòu)化概念學(xué)習(xí)程序的例子作為模型來說明示例學(xué)習(xí)的過程。

26謝謝觀賞2019-9-219.2.2示例學(xué)習(xí)26謝謝觀賞2019-9-21

Winston的程序是在簡單的積木世界領(lǐng)域中運行,其目的是要建立積木世界中物體概念定義的結(jié)構(gòu)化表示,例如學(xué)習(xí)房子、帳篷和拱的概念,構(gòu)造出這些概念定義的結(jié)構(gòu)化描述。系統(tǒng)的輸入是積木世界某物體(或景象)的線條圖,使用語義網(wǎng)絡(luò)來表示該物體結(jié)構(gòu)化的描述。例如系統(tǒng)要學(xué)習(xí)拱橋概念,就給學(xué)習(xí)程序輸入第一個拱橋示例,得到的描述如圖9-6所示,這個結(jié)構(gòu)化的描述就是拱橋概念的定義。接著再向程序輸入第二個拱橋示例,其描述如圖9-7所示。這時學(xué)習(xí)程序可歸納出如圖9-8所示的描述。

27謝謝觀賞2019-9-21Winston的程序是在簡單的積木世界領(lǐng)域中運行,其目的圖

9-6第一個拱橋的語義網(wǎng)絡(luò)

28謝謝觀賞2019-9-21圖9-6第一個拱橋的語義網(wǎng)絡(luò)28謝謝觀賞2019-9圖

9-7第二個拱橋的語義網(wǎng)絡(luò)

29謝謝觀賞2019-9-21圖9-7第二個拱橋的語義網(wǎng)絡(luò)

29謝謝觀賞2019-圖

9-8學(xué)習(xí)程序歸納出的語義網(wǎng)絡(luò)

30謝謝觀賞2019-9-21圖9-8學(xué)習(xí)程序歸納出的語義網(wǎng)絡(luò)30謝謝觀賞2019-圖

9-9拱橋概念的語義網(wǎng)絡(luò)

31謝謝觀賞2019-9-21圖9-9拱橋概念的語義網(wǎng)絡(luò)31謝謝觀賞2019-9-2例9.1假設(shè)示例空間中有橋牌中“同花”概念的兩個示例:示例1:花色(c1,梅花)∧花色(c2,梅花)∧花色(c3,梅花)∧花色(c4,梅花)→同花(c1,c2,c3,c4)

示例2:花色(c1,紅桃)∧花色(c2,紅桃)∧花色(c3,紅桃)∧花色(c4,紅桃)→同花(c1,c2,c3,c4)

花色(c1,x)∧花色(c2,x)∧花色(c3,x)∧花色(c4,x)→同花(c1,c2,c3,c4)32謝謝觀賞2019-9-21例9.1假設(shè)示例空間中有橋牌中“同花”概念的兩個示例:例9.2假設(shè)示例空間存放有如下的三個示例:示例1:(0,2,7)

示例2:(6,-1,10)

示例3:(-1,-5,-10)這是三個3維向量,表示空間中的三個點?,F(xiàn)要求求出過這三點的曲線。對于這個問題可采用通常的曲線擬合技術(shù),歸納出規(guī)則:

(x,y,2x+3y+1)

即 z=2x+3y+1注:實際工作中,變量間未必都有線性關(guān)系,如服藥后血藥濃度與時間的關(guān)系;疾病療效與療程長短的關(guān)系;毒物劑量與致死率的關(guān)系等常呈曲線關(guān)系。曲線擬合(curvefitting)是指選擇適當(dāng)?shù)那€類型來擬合觀測數(shù)據(jù),并用擬合的曲線方程分析兩變量間的關(guān)系。33謝謝觀賞2019-9-21例9.2假設(shè)示例空間存放有如下的三個示例:33謝謝觀賞9.2.3決策樹學(xué)習(xí)

1.什么是決策樹決策樹(decisiontree)也稱判定樹,它是由對象的若干屬性、屬性值和有關(guān)決策組成的一棵樹。其中的節(jié)點為屬性(一般為語言變量),分枝為相應(yīng)的屬性值(一般為語言值)。從同一節(jié)點出發(fā)的各個分枝之間是邏輯“或”關(guān)系;根節(jié)點為對象的某一個屬性;從根節(jié)點到每一個葉子節(jié)點的所有節(jié)點和邊,按順序串連成一條分枝路徑,位于同一條分枝路徑上的各個“屬性-值”對之間是邏輯“與”關(guān)系,葉子節(jié)點為這個與關(guān)系的對應(yīng)結(jié)果,即決策。例如圖9-10就是一棵決策樹。其中,A,B,C代表屬性,ai,bj,ck代表屬性值,dl代表對應(yīng)的決策。處于同一層的屬性(如圖中的B,C)可能相同,也可能不相同,所有葉子節(jié)點(如圖中的dl,l=1,2,…,6)所表示的決策中也可能有相同者。

34謝謝觀賞2019-9-219.2.3決策樹學(xué)習(xí)34謝謝觀賞2019-9-21由圖9-10不難看出,一棵決策樹上從根節(jié)點到每一個葉子節(jié)點的分枝路徑上的諸“屬性-值”對和對應(yīng)葉子節(jié)點的決策,剛好就構(gòu)成一個產(chǎn)生式規(guī)則:諸“屬性-值”對的合取構(gòu)成規(guī)則的前提,葉子節(jié)點的決策就是規(guī)則的結(jié)論。例如,圖9-10中從根節(jié)點A到葉子節(jié)點d2的這一條分枝路徑就構(gòu)成規(guī)則:(A=a1)∧(B=b2)

=>

d2而不同分枝路徑所表示的規(guī)則之間為析取關(guān)系。

35謝謝觀賞2019-9-21由圖9-10不難看出,一棵決策樹上從根節(jié)點到每一個葉子節(jié)圖9-10決策樹示意圖

36謝謝觀賞2019-9-21圖9-10決策樹示意圖36謝謝觀賞2019-9-21例9.3

圖9-11所示是機場指揮臺關(guān)于飛機起飛的簡單決策樹。

9-11飛機起飛的簡單決策樹

37謝謝觀賞2019-9-21例9.3圖9-11所示是機場指揮臺關(guān)于飛機起飛的簡單決策例9.4

圖9-12所示是一個描述“兔子”概念的決策樹。

9-12“兔子”概念的決策樹

38謝謝觀賞2019-9-21例9.4圖9-12所示是一個描述“兔子”概念的決策樹。

2.怎樣學(xué)習(xí)決策樹決策樹是一種知識表示形式,構(gòu)造決策樹可以由人來完成,但也可以由機器從一些實例中總結(jié)、歸納出來,即由機器學(xué)習(xí)而得。機器學(xué)習(xí)決策樹也就是所說的決策樹學(xué)習(xí)。決策樹學(xué)習(xí)是一種歸納學(xué)習(xí)。由于一棵決策樹就表示了一組產(chǎn)生式規(guī)則,因此決策樹學(xué)習(xí)也是一種規(guī)則學(xué)習(xí)。特別地,當(dāng)規(guī)則是某概念的判定規(guī)則時,這種決策樹學(xué)習(xí)也就是一種概念學(xué)習(xí)。

39謝謝觀賞2019-9-212.怎樣學(xué)習(xí)決策樹39謝謝觀賞2019-9-21決策樹學(xué)習(xí)首先要有一個實例集。實例集中的實例都含有若干“屬性-值”對和一個相應(yīng)的決策、結(jié)果或結(jié)論。一個實例集中的實例要求應(yīng)該是相容的,即相同的前提不能有不同的結(jié)論(當(dāng)然,不同的前提可以有相同的結(jié)論)。對實例集的另一個要求是,其中各實例的結(jié)論既不能完全相同也不能完全不同,否則該實例集無學(xué)習(xí)意義。

40謝謝觀賞2019-9-21決策樹學(xué)習(xí)首先要有一個實例集。實例集中的實例都含有若干“決策樹學(xué)習(xí)的基本方法和步驟是:

首先,選取一個屬性,按這個屬性的不同取值對實例集進(jìn)行分類;并以該屬性作為根節(jié)點,以這個屬性的諸取值作為根節(jié)點的分枝,進(jìn)行畫樹。然后,考察所得的每一個子類,看其中的實例的結(jié)論是否完全相同。如果完全相同,則以這個相同的結(jié)論作為相應(yīng)分枝路徑末端的葉子節(jié)點;否則,選取一個非父節(jié)點的屬性,按這個屬性的不同取值對該子集進(jìn)行分類,并以該屬性作為節(jié)點,以這個屬性的諸取值作為節(jié)點的分枝,繼續(xù)進(jìn)行畫樹。如此繼續(xù),直到所分的子集全都滿足:實例結(jié)論完全相同,而得到所有的葉子節(jié)點為止。這樣,一棵決策樹就被生成。下面我們進(jìn)一步舉例說明。

41謝謝觀賞2019-9-21決策樹學(xué)習(xí)的基本方法和步驟是:41謝謝觀賞2019-表9.1汽車駕駛保險類別劃分實例集

42謝謝觀賞2019-9-21表9.1汽車駕駛保險類別劃分實例集42謝謝觀賞2019-可以看出,該實例集中共有12個實例,實例中的性別、年齡段和婚狀為3個屬性,保險類別就是相應(yīng)的決策項。為表述方便起見,我們將這個實例集簡記為

S={(1,C),(2,C),(3,C),(4,B),(5,A),(6,A),(7,C),(8,B),(9,A),

(10,A),(11,B),(12,B)}其中每個元組表示一個實例,前面的數(shù)字為實例序號,后面的字母為實例的決策項保險類別(下同)。另外,為了簡潔,在下面的決策樹中我們用“小”、“中”、“大”分別代表“<21”、

“≥21且≤25”、

“>25”這三個年齡段。

43謝謝觀賞2019-9-21可以看出,該實例集中共有12個實例,實例中的性別、年齡段顯然,S中各實例的保險類別取值不完全一樣,所以需要將S分類。對于S,我們按屬性“性別”的不同取值將其分類。

由表9.1可見,這時S應(yīng)被分類為兩個子集:S1={(3,C),(4,B),(7,C),(8,B),(11,B),(12,B)}

S2={(1,C),(2,C),(5,A),(6,A),(9,A),(10,A)}于是,我們得到以性別作為根節(jié)點的部分決策樹(見圖9-13(a))。

44謝謝觀賞2019-9-21顯然,S中各實例的保險類別取值不完全一樣,所以需要將考察S1和S2,可以看出,在這兩個子集中,各實例的保險類別也不完全相同。這就是說,還需要對S1和S2進(jìn)行分類。對于子集S1,我們按“年齡段”將其分類;同樣,對于子集S2,也按“年齡段”對其進(jìn)行分類(注意:對于子集S2,也可按屬性“婚狀”分類)。分別得到子集S11,S12,S13和S21,S22,S23。于是,我們進(jìn)一步得到含有兩層節(jié)點的部分決策樹(如圖9-13(b)所示)。

45謝謝觀賞2019-9-21考察S1和S2,可以看出,在這兩個子集中,各實例的保險類注意到,這時除了S12和S13外,其余子集中各實例的保險類別已完全相同。所以,不需再對其進(jìn)行分類,而每一個子集中那個相同的保險類別值就可作為相應(yīng)分枝的葉子節(jié)點。添上這些葉子節(jié)點,我們又進(jìn)一步得到發(fā)展了的部分決策樹(如圖9-13(c)所示)。接著對S12和S13,按屬性“婚狀”進(jìn)行分類(也只能按“婚狀”進(jìn)行分類)。由于所得子集S121,S121和S131,S132中再都只含有一個實例,因此無需對它們再進(jìn)行分類。這時這4個子集中各自唯一的保險類別值也就是相應(yīng)分枝的葉子節(jié)點。添上這兩個葉子節(jié)點,就得到如圖9-13(d)所示的決策樹。

46謝謝觀賞2019-9-21注意到,這時除了S12和S13外,其余子集中各實例的保險類圖9-13決策樹生成過程

47謝謝觀賞2019-9-21圖9-13決策樹生成過程47謝謝觀賞2019-9-21圖9-13決策樹生成過程

48謝謝觀賞2019-9-21圖9-13決策樹生成過程48謝謝觀賞2019-9-21圖9-13決策樹生成過程

49謝謝觀賞2019-9-21圖9-13決策樹生成過程49謝謝觀賞2019-9-21圖9-13決策樹生成過程

50謝謝觀賞2019-9-21圖9-13決策樹生成過程50謝謝觀賞2019-9-21由這個決策樹即得下面的規(guī)則集:

①女性且年齡在25歲以上,則給予A類保險。②女性且年齡在21歲到25歲之間,則給予A類保險。③女性且年齡在21歲以下,則給予C類保險。④男性且年齡在25歲以上,則給予B類保險。⑤男性且年齡在21歲到25歲之間且未婚,則給予C類保險。⑥男性且年齡在21歲到25歲之間且已婚,則給予B類保險。⑦男性且年齡在21歲以下且未婚,則給予C類保險。⑧

男性且年齡在21歲以下且已婚,則給予B類保險。

51謝謝觀賞2019-9-21由這個決策樹即得下面的規(guī)則集:51謝謝觀賞2019-9-

3.ID3算法

ID3算法是一個經(jīng)典的決策樹學(xué)習(xí)算法,由Quinlan于1979年提出。ID3算法的基本思想是,以信息熵為度量,用于決策樹節(jié)點的屬性選擇,每次優(yōu)先選取信息量最多的屬性或者說能使熵值變成最小的屬性,以構(gòu)造一棵熵值下降最快的決策樹,到葉子節(jié)點處的熵值為0。此時,每個葉子節(jié)點對應(yīng)的實例集中的實例屬于同一類。

52謝謝觀賞2019-9-213.ID3算法52謝謝觀賞2019-9-21

1)信息熵和條件熵

ID3算法將實例集視為一個離散的信息系統(tǒng),用信息熵(entropyofinformation)表示其信息量。實例集中實例的結(jié)論視為隨機事件,而將諸屬性看做是加入的信息源。設(shè)S是一個實例集(S也可以是子實例集),A為S中實例的一個屬性。H(S)和H(S|A)分別稱為實例集S的信息熵和條件熵,其計算公式如下:53謝謝觀賞2019-9-211)信息熵和條件熵53謝謝觀賞2019-9-21其中,μi(i=1,2,…,n)為S中各實例所有可能的結(jié)論;lb即log2。

(9-2)其中,ak(k=1,2,…,m)為屬性A的取值,Sak為按屬性A對實例集S進(jìn)行分類時所得諸子類中與屬性值ak對應(yīng)的那個子類。54謝謝觀賞2019-9-21其中,μi(i=1,2,…,n)為S中各實例所有可能的

2)基于條件熵的屬性選擇下面就是ID3算法中用條件熵指導(dǎo)屬性選擇的具體做法。對于一個待分類的實例集S,先分別計算各可取屬性Aj(j=1,2,…,l)的條件熵H(S|Aj),然后取其中條件熵最小的屬性As作為當(dāng)前節(jié)點。例如對于上例,當(dāng)?shù)谝淮螌嵗疭進(jìn)行分類時,可選取的屬性有:性別、年齡段和婚狀。先分別計算S的條件熵。55謝謝觀賞2019-9-212)基于條件熵的屬性選擇55謝謝觀賞2019-9-2按性別劃分,實例集S被分為兩個子類:S男={(3,C),(4,B),(7,C),(8,B),(11,B),(12,B)}

S女

={(1,C),(2,C),(5,A),(6,A),(9,A),(10,A)}從而,對子集S男而言,對子集S女而言,56謝謝觀賞2019-9-21按性別劃分,實例集S被分為兩個子類:S男={(3,C)于是,由公式(9-1)有:57謝謝觀賞2019-9-21于是,由公式(9-1)有:57謝謝觀賞2019-9-21又

58謝謝觀賞2019-9-21又58謝謝觀賞2019-9-21將以上3式代入公式(9-2)得:用同樣的方法可求得:可見,條件熵H(S|性別)為最小,所以,應(yīng)取“性別”這一屬性對實例集進(jìn)行分類,即以“性別”作為決策樹的根節(jié)點。

59謝謝觀賞2019-9-21將以上3式代入公式(9-2)得:用同樣的方法可求得:可見

3)決策樹學(xué)習(xí)的發(fā)展決策樹學(xué)習(xí)是一種很早就出現(xiàn)的歸納學(xué)習(xí)方法,至今仍然在不斷發(fā)展。據(jù)文獻(xiàn)記載,20世紀(jì)60年代初的“基本的感知器”(ElementaryPerceiverandMemorizer,EPAM)中就使用了決策樹學(xué)習(xí)。稍后的概念學(xué)習(xí)系統(tǒng)CLS則使用啟發(fā)式的前瞻方法來構(gòu)造決策樹。繼1979年的ID3算法之后,人們又于1986、1988年相繼提出了ID4和ID5算法。1993年J.R.Quinlan則進(jìn)一步將ID3發(fā)展成C4.5算法。另一類著名的決策樹學(xué)習(xí)算法稱為CART(ClassificationandRegressionTrees)。

60謝謝觀賞2019-9-213)決策樹學(xué)習(xí)的發(fā)展60謝謝觀賞2019-9-219.2.4演繹學(xué)習(xí)演繹學(xué)習(xí)是基于演繹推理的一種學(xué)習(xí)。

演繹推理是一種保真變換,

即若前提真則推出的結(jié)論也真。

在演繹學(xué)習(xí)中,

學(xué)習(xí)系統(tǒng)由給定的知識進(jìn)行演繹的保真推理,

并存儲有用的結(jié)論。

例如,

當(dāng)系統(tǒng)能證明A→B且B→C,

則可得到規(guī)則A→C,

那么以后再要求證C,

就不必再通過規(guī)則A→B和B→C去證明,

而直接應(yīng)用規(guī)則A→C即可。

演繹學(xué)習(xí)包括知識改造、

[JP3]知識編譯、

產(chǎn)生宏操作、

保持等價的操作和其他保真變換。

演繹學(xué)習(xí)及幾年才作為獨立的學(xué)習(xí)策略。

61謝謝觀賞2019-9-219.2.4演繹學(xué)習(xí)61謝謝觀賞2019-9-219.2.5類比學(xué)習(xí)這是一種基于類比推理的學(xué)習(xí)方法。具體來講,就是尋找和利用事物間可類比的關(guān)系,而從已有的知識推導(dǎo)出未知的知識。例如,學(xué)生在做練習(xí)時,往往在例題和習(xí)題之間進(jìn)行對比,企圖發(fā)現(xiàn)相似之處,然后利用這種相似關(guān)系解決習(xí)題中的問題。類比學(xué)習(xí)的過程包括以下主要步驟:

(1)回憶與聯(lián)想,即當(dāng)遇到新情況或新問題時,先通過回憶與聯(lián)想,找出與之相似的已經(jīng)解決了的有關(guān)問題,以獲得有關(guān)知識。

62謝謝觀賞2019-9-219.2.5類比學(xué)習(xí)62謝謝觀賞2019-9-21

(2)建立對應(yīng)關(guān)系,即建立相似問題知識和求解問題之間的對應(yīng)關(guān)系,以獲得求解問題的知識。

(3)驗證與歸納,即檢驗所獲知識的有效性,如發(fā)現(xiàn)有錯,就重復(fù)上述步驟進(jìn)行修正,直到獲得正確的知識。對于正確的知識,經(jīng)過推廣、歸納等過程取得一般性知識。63謝謝觀賞2019-9-21(2)建立對應(yīng)關(guān)系,即建立相似問題知識和求解問題之例如,設(shè)對象的知識是用框架集來表示,則類比學(xué)習(xí)可描述為把原框架中若干個槽的值傳遞給另一個目標(biāo)框架的一些槽中,這種傳遞分兩步進(jìn)行:

(1)利用原框架產(chǎn)生若干個候選的槽,這些槽值準(zhǔn)備傳遞到目標(biāo)框架中。

(2)利用目標(biāo)框架中現(xiàn)有的信息來篩選第一步提出來的某些相似性。

64謝謝觀賞2019-9-21例如,設(shè)對象的知識是用框架集來表示,則類比學(xué)習(xí)可描述9.3神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)

9.3.1生物神經(jīng)元這里的神經(jīng)元指神經(jīng)細(xì)胞,它是生物神經(jīng)系統(tǒng)的最基本的單元,其基本結(jié)構(gòu)如圖9-14所示??梢钥闯?神經(jīng)元由細(xì)胞體、樹突和軸突組成。細(xì)胞體是神經(jīng)元的主體,它由細(xì)胞核、細(xì)胞質(zhì)和細(xì)胞膜三部分構(gòu)成。從細(xì)胞體向外延伸出許多突起,其中大部分突起呈樹狀,稱為樹突。樹突起感受作用,接受來自其他神經(jīng)元的傳遞信號;另外,由細(xì)胞體伸出的一條最長的突起,用來傳出細(xì)胞體產(chǎn)生的輸出信號,稱之為軸突;軸突末端形成許多細(xì)的分枝,叫做神經(jīng)末梢;每一條神經(jīng)末梢可以與其他神經(jīng)元形成功能性接觸,該接觸部位稱為突觸。所謂功能性接觸是指并非永久性接觸,它是神經(jīng)元之間信息傳遞的奧秘之處。

65謝謝觀賞2019-9-219.3神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)9.3.1生物神經(jīng)元65謝謝觀賞2圖

9-14生物神經(jīng)元的基本結(jié)構(gòu)

66謝謝觀賞2019-9-21圖9-14生物神經(jīng)元的基本結(jié)構(gòu)66謝謝觀賞2019-9.3.2人工神經(jīng)元如果我們對生物神經(jīng)元作以適當(dāng)?shù)慕Y(jié)構(gòu)簡化和功能抽象,就得到所謂的人工神經(jīng)元。一般地,人工神經(jīng)元的結(jié)構(gòu)模型如圖9―8所示。它是一個多輸入單輸出的非線性閾值器件。其中x1,x2,…xn表示神經(jīng)元的n個輸入信號量;w1,w2,…,wn表示對應(yīng)輸入的權(quán)值,它表示各信號源神經(jīng)元與該神經(jīng)元的連接強度;A表示神經(jīng)元的輸入總和,它相應(yīng)于生物神經(jīng)細(xì)胞的膜電位,稱為激活函數(shù);y為神經(jīng)元的輸出;θ表示神經(jīng)元的閾值。于是,人工神經(jīng)元的輸入、

輸出關(guān)系可描述為:

67謝謝觀賞2019-9-219.3.2人工神經(jīng)元67謝謝觀賞2019-9-21圖

9-15人工神經(jīng)元結(jié)構(gòu)模型

68謝謝觀賞2019-9-21圖9-15人工神經(jīng)元結(jié)構(gòu)模型68謝謝觀賞2019-9-1.閾值型2.S型這類函數(shù)的輸入-輸出特性多采用指數(shù)、對數(shù)或雙曲正切等S型函數(shù)表示。例如:S型特性函數(shù)反映了神經(jīng)元的非線性輸出特性。

69謝謝觀賞2019-9-211.閾值型2.S型這類函數(shù)的輸入-輸出特性多采用指數(shù)

3.分段線性型神經(jīng)元的輸入-輸出特性滿足一定的區(qū)間線性關(guān)系,其特性函數(shù)表達(dá)為式中,K、Ak均表示常量。

70謝謝觀賞2019-9-213.分段線性型式中,K、Ak均表示常量。70謝謝觀賞以上三種特性函數(shù)的圖像依次如圖9-16(a)、(b)、(c)所示。由于特性函數(shù)的不同,神經(jīng)元也就分為閾值型、S型和分段線性型三類。另外,還有一類概率型神經(jīng)元,它是一類二值型神經(jīng)元。與上述三類神經(jīng)元模型不同,其輸出狀態(tài)為0或1是根據(jù)激勵函數(shù)值的大小,按照一定的概率確定的。

例如,一種稱為波爾茨曼機神經(jīng)元就屬此類。

71謝謝觀賞2019-9-21以上三種特性函數(shù)的圖像依次如圖9-16(a)、(b)、圖

9-16神經(jīng)元特性函數(shù)

72謝謝觀賞2019-9-21圖9-16神經(jīng)元特性函數(shù)72謝謝觀賞2019-9-29.3.3神經(jīng)網(wǎng)絡(luò)

1.分層前向網(wǎng)絡(luò)分層前向網(wǎng)絡(luò)如圖9-17(a)所示。這種網(wǎng)絡(luò)的結(jié)構(gòu)特征是,網(wǎng)絡(luò)由若干層神經(jīng)元組成,一般有輸入層、中間層(又稱隱層,可有一層或多層)和輸出層,各層順序連接;且信息嚴(yán)格地按照從輸入層進(jìn),經(jīng)過中間層,從輸出層出的方向流動。前向便因此而得名。其中輸入層是網(wǎng)絡(luò)與外部環(huán)境的接口,它接受外部輸入;隱層是網(wǎng)絡(luò)的內(nèi)部處理層,神經(jīng)網(wǎng)絡(luò)具有的模式變換能力,如模式分類、模式完善、特征抽取等,主要體現(xiàn)在隱層神經(jīng)元的處理能力上;輸出層是網(wǎng)絡(luò)的輸出接口,網(wǎng)絡(luò)信息處理結(jié)果由輸出層向外輸出。如后面將要介紹的BP網(wǎng)絡(luò)就是一種典型的分層前向網(wǎng)絡(luò)。

73謝謝觀賞2019-9-219.3.3神經(jīng)網(wǎng)絡(luò)73謝謝觀賞2019-9-21

2.反饋前向網(wǎng)絡(luò)

反饋前向網(wǎng)絡(luò)如圖9-17(b)所示。它也是一種分層前向網(wǎng)絡(luò),但它的輸出層到輸入層具有反饋連接。反饋的結(jié)果形成封閉環(huán)路,具有反饋的單元也稱為隱單元,其輸出稱為內(nèi)部輸出。

74謝謝觀賞2019-9-212.反饋前向網(wǎng)絡(luò)74謝謝觀賞2019-9-21

3.互連前向網(wǎng)絡(luò)

互連前向網(wǎng)絡(luò)如圖9-17(c)所示。它也是一種分層前向網(wǎng)絡(luò),但它的同層神經(jīng)元之間有相互連接。同一層內(nèi)單元的相互連接使它們之間有彼此牽制作用。

4.廣泛互連網(wǎng)絡(luò)所謂廣泛互連是指網(wǎng)絡(luò)中任意兩個神經(jīng)元之間都可以或可能是可達(dá)的,即存在連接路徑,廣泛互連網(wǎng)絡(luò)如圖9-17(d)所示。著名的Hopfield網(wǎng)絡(luò)、波爾茨曼機模型結(jié)構(gòu)均屬此類。

75謝謝觀賞2019-9-213.互連前向網(wǎng)絡(luò)75謝謝觀賞2019-9-21

9-17神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型

76謝謝觀賞2019-9-21圖9-17神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型76謝謝觀賞2019-9神經(jīng)網(wǎng)絡(luò)至少可以實現(xiàn)如下功能:

——數(shù)學(xué)上的映射逼近通過一組映射樣本(x

1,y

1),(x2,y2),…,(xn,yn),網(wǎng)絡(luò)以自組織方式尋找輸入與輸出之間的映射關(guān)系:yi=f(xi)。這種映射逼近能力可用于系統(tǒng)建模、模式識別與分類等。具有這種能力的典型網(wǎng)絡(luò)有BP網(wǎng)絡(luò)等。

——數(shù)據(jù)聚類、壓縮通過自組織方式對所選輸入模式聚類。若輸入模式不屬于已有的聚類,則可以產(chǎn)生新的聚類。同一聚類可對應(yīng)于多個輸入模式;另外,聚類是可變的。這是一種編碼形式,而不同于分類。典型的網(wǎng)絡(luò)如ART模型,其應(yīng)用如語音識別中用來減小輸入的維數(shù),減小存儲數(shù)據(jù)的位數(shù)等。77謝謝觀賞2019-9-21神經(jīng)網(wǎng)絡(luò)至少可以實現(xiàn)如下功能:77謝謝觀賞2019-9-

——聯(lián)想記憶實現(xiàn)模式完善、恢復(fù),相關(guān)模式的相互回憶等。典型的如Hopfield網(wǎng)絡(luò)、CPN網(wǎng)絡(luò)等。

——優(yōu)化計算和組合優(yōu)化問題求解利用神經(jīng)網(wǎng)絡(luò)的漸進(jìn)穩(wěn)定態(tài),特別是反饋網(wǎng)絡(luò)的穩(wěn)定平衡態(tài),進(jìn)行優(yōu)化計算或求解組合優(yōu)化問題的近似最優(yōu)解。像Hopfield網(wǎng)絡(luò)、波爾茨曼機等均有此能力。

78謝謝觀賞2019-9-21——聯(lián)想記憶實現(xiàn)模式完善、恢復(fù),相關(guān)模式的相互回憶等。

——模式分類現(xiàn)有的大多數(shù)神經(jīng)網(wǎng)絡(luò)模型都有這種分類能力。大多數(shù)網(wǎng)絡(luò)必須首先對樣本模式能夠進(jìn)行分類,即要離線學(xué)習(xí),像BP網(wǎng)、CPN網(wǎng)、Hopfield網(wǎng)、新認(rèn)知機等。

——概率密度函數(shù)的估計根據(jù)給定的概率密度函數(shù),通過自組織網(wǎng)絡(luò)來響應(yīng)在空間Rn中服從這一概率分布的一組向量樣本X1,X2,…,Xk。像波爾茨曼機模型、CPN網(wǎng)、SOM網(wǎng)就有這種能力。79謝謝觀賞2019-9-21——模式分類現(xiàn)有的大多數(shù)神經(jīng)網(wǎng)絡(luò)模型都有這種分類能力。9.3.4神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)

1.學(xué)習(xí)規(guī)則權(quán)值修正學(xué)派認(rèn)為:神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程就是不斷調(diào)整網(wǎng)絡(luò)的連接權(quán)值,以獲得期望的輸出的過程。所以,學(xué)習(xí)規(guī)則就是權(quán)值修正規(guī)則。典型的權(quán)值修正規(guī)則有兩種,即相關(guān)規(guī)則和誤差修正規(guī)則。相關(guān)規(guī)則的思想最早是由Hebb作為假設(shè)提出,人們稱之為Hebb規(guī)則。

80謝謝觀賞2019-9-219.3.4神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)80謝謝觀賞2019-9-21

Hebb規(guī)則可以描述為:如果神經(jīng)網(wǎng)絡(luò)中某一神經(jīng)元與另一直接與其相連的神經(jīng)元同時處于興奮狀態(tài),那么這兩個神經(jīng)元之間的連接強度應(yīng)該加強。Hebb規(guī)則可用一算法表達(dá)式表示為

式中,Wij(t+1)表示修正一次后的某一權(quán)值;η是一個正常量,決定每次權(quán)值修正量,又稱為學(xué)習(xí)因子;Xi(t)Xj(t)分別表示t時刻第i、第j個神經(jīng)元的狀態(tài)。由于Hebb規(guī)則的基本思想很容易被接受,因此得到了較廣泛的應(yīng)用。但應(yīng)該指出的是,近來神經(jīng)科學(xué)的許多發(fā)現(xiàn)都表明,Hebb規(guī)則并未準(zhǔn)確反映神經(jīng)元在學(xué)習(xí)過程中突觸變化的基本規(guī)律。81謝謝觀賞2019-9-21Hebb規(guī)則可以描述為:如果神經(jīng)網(wǎng)絡(luò)中某一神經(jīng)元與另一直誤差修正規(guī)則是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中另一類更重要的權(quán)值修正方法,像感知機學(xué)習(xí)、BP學(xué)習(xí)均屬此類。最基本的誤差修正規(guī)則,即常說的δ學(xué)習(xí)規(guī)則,可由如下四步來描述:步1選擇一組初始權(quán)值Wij(0)。步2計算某一輸入模式對應(yīng)的實際輸出與期望輸出的誤差。

步3用下式更新權(quán)值(閾值可視為輸入恒為-1的一個權(quán)值)Wij(t+1)=Wij(t)+η[dj-yj(t)]xi(t)82謝謝觀賞2019-9-21誤差修正規(guī)則是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中另一類更重要的權(quán)值修正方法,

2.學(xué)習(xí)方法分類

從不同角度考慮,神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法有不同的分類。表9.2列出了常見的幾種分類情況。

表9.2神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法的常見分類

83謝謝觀賞2019-9-212.學(xué)習(xí)方法分類表9.2神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法的常見分一般地,提供給神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的外部指導(dǎo)信息越多,神經(jīng)網(wǎng)絡(luò)學(xué)會并掌握的知識也越多,解決問題的能力就越強。但是,有時神經(jīng)網(wǎng)絡(luò)所要解決的問題預(yù)知的指導(dǎo)信息甚少,甚至沒有,在這種情況下強化學(xué)習(xí)、

無導(dǎo)師學(xué)習(xí)就顯得更有實際意義。

84謝謝觀賞2019-9-21一般地,提供給神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的外部指導(dǎo)信息越多,神經(jīng)網(wǎng)從神經(jīng)網(wǎng)絡(luò)內(nèi)部狀態(tài)變化的角度來分,學(xué)習(xí)技術(shù)分為三種,即權(quán)值修正、拓?fù)渥兓?、?quán)值與拓?fù)湫拚?。本書僅簡單介紹權(quán)值修正學(xué)習(xí)。補充學(xué)習(xí)就是一種拓?fù)渥兓瘜W(xué)習(xí)。在補充學(xué)習(xí)中,神經(jīng)網(wǎng)絡(luò)由兩類處理單元組成:受約單元和自由單元。所謂受約單元指那些已經(jīng)表示某類信息或功能的單元,它可以與其他受約單元相連,也可以與自由單元組成一種原始的神經(jīng)網(wǎng)絡(luò)。補充學(xué)習(xí)強調(diào)一組受約單元與自由單元之間的連接,自由單元可以轉(zhuǎn)化為受約單元。由此可見,自由單元的網(wǎng)絡(luò)中可能嵌有受約單元的子網(wǎng)絡(luò)。

85謝謝觀賞2019-9-21從神經(jīng)網(wǎng)絡(luò)內(nèi)部狀態(tài)變化的角度來分,學(xué)習(xí)技術(shù)分為三種,即9.3.5BP網(wǎng)絡(luò)及其學(xué)習(xí)舉例

BP(Back

Propagation)網(wǎng)絡(luò)即誤差反向傳播網(wǎng)絡(luò)是應(yīng)用最廣泛的一種神經(jīng)網(wǎng)絡(luò)模型。

(1)BP網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)為分層前向網(wǎng)絡(luò)。

(2)神經(jīng)元的特性函數(shù)為Sigmoid型(S型)函數(shù),一般取為86謝謝觀賞2019-9-219.3.5BP網(wǎng)絡(luò)及其學(xué)習(xí)舉例86謝謝觀賞2019-9-2

(3)輸入為連續(xù)信號量(實數(shù))。

(4)學(xué)習(xí)方式為有導(dǎo)師學(xué)習(xí)。

(5)學(xué)習(xí)算法為推廣的δ學(xué)習(xí)規(guī)則,稱為誤差反向傳播算法,簡稱BP學(xué)習(xí)算法。

87謝謝觀賞2019-9-21(3)輸入為連續(xù)信號量(實數(shù))。87謝謝觀賞2019

BP算法的一般步驟如下:步1初始化網(wǎng)絡(luò)權(quán)值、閾值及有關(guān)參數(shù)(如學(xué)習(xí)因子η等)。

步2計算總誤差

其中p為樣本的個數(shù),(9-3)其中ykj為輸出層節(jié)點j對第k個樣本的輸入對應(yīng)的輸出(稱為期望輸出),ykj′為節(jié)點j的實際輸出。88謝謝觀賞2019-9-21BP算法的一般步驟如下:其中p為樣本的個數(shù),(9-步3對樣本集中各個樣本依次重復(fù)以下過程,然后轉(zhuǎn)步2。首先,取一樣本數(shù)據(jù)輸入網(wǎng)絡(luò),然后按如下公式向前計算各層節(jié)點(記為j)的輸出:其中

是節(jié)點j的輸入加權(quán)和;i為j的信號源方向的相鄰層節(jié)點,Oi為節(jié)點i的輸出,節(jié)點j

的輸入;

O

0=-1,

w0j=θ(閾值)。89謝謝觀賞2019-9-21步3對樣本集中各個樣本依次重復(fù)以下過程,然后轉(zhuǎn)步2。其其次,從輸出層節(jié)點到輸入層節(jié)點以反向順序,對各連接權(quán)值wij按下面的公式進(jìn)行修正:(9-4)其中

對于輸出節(jié)點

對于中間節(jié)點

l為與節(jié)點j在輸出側(cè)有連接的節(jié)點個數(shù)。

90謝謝觀賞2019-9-21其次,從輸出層節(jié)點到輸入層節(jié)點以反向順序,對各連接權(quán)值w算法中的δj稱為節(jié)點j的誤差。它的來歷如下:于是,令

又當(dāng)j為輸出節(jié)點時

91謝謝觀賞2019-9-21算法中的δj稱為節(jié)點j的誤差。它的來歷如下:于是,令又當(dāng)j為中間節(jié)點時

可以看出,(9―1)式中Ek是網(wǎng)絡(luò)輸出ykj′

(j=1,2,…,n)的函數(shù),而ykj′又是權(quán)值wij的函數(shù),所以,Ek實際是wij的函數(shù)。網(wǎng)絡(luò)學(xué)習(xí)的目的就是要使這個誤差函數(shù)達(dá)到最小值。(9―2)式及δ的定義,就是用梯度下降法,在權(quán)值空間沿負(fù)梯度方向調(diào)整權(quán)值wij,以使(9―1)式所示的準(zhǔn)則函數(shù)達(dá)到最小。所以,BP網(wǎng)絡(luò)的學(xué)習(xí)過程就是一個非線性優(yōu)化過程。92謝謝觀賞2019-9-21當(dāng)j為中間節(jié)點時可以看出,(9―1)式中Ek是網(wǎng)絡(luò)輸出yk

例9.5

設(shè)計一個BP網(wǎng)絡(luò),對表9.3所示的樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),使學(xué)成的網(wǎng)絡(luò)能解決類似的模式分類問題。

9.3網(wǎng)絡(luò)訓(xùn)練樣本數(shù)據(jù)

93謝謝觀賞2019-9-21例9.5設(shè)計一個BP網(wǎng)絡(luò),對表9.3所示的樣本數(shù)

9-18BP網(wǎng)絡(luò)舉例

94謝謝觀賞2019-9-21圖9-18BP網(wǎng)絡(luò)舉例94謝謝觀賞2019-9-2用樣本數(shù)據(jù)按BP算法對該網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練結(jié)束后,網(wǎng)絡(luò)就可作為一種模式分類器使用。因為網(wǎng)絡(luò)的輸出向量(1,0,0)、(0,1,0)、(0,0,1)可以表示多種模式或狀態(tài)。如可以分別表示凸、凹和直三種曲線,或者三種筆劃,也可以表示某公司的銷售情況:高峰、低谷和持平等等。當(dāng)然,要使網(wǎng)絡(luò)有很好的模式分類能力,必須給以足夠多的樣例使其學(xué)習(xí),本例僅是一個簡單的示例。

95謝謝觀賞2019-9-21用樣本數(shù)據(jù)按BP算法對該網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練結(jié)束后,網(wǎng)絡(luò)9.3.6神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)模型是一個在神經(jīng)網(wǎng)絡(luò)研究和應(yīng)用中經(jīng)常提到的概念。所謂神經(jīng)網(wǎng)絡(luò)模型,它是關(guān)于一個神經(jīng)網(wǎng)絡(luò)的綜合描述和整體概念,包括網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)、輸入輸出信號類型、信息傳遞方式、神經(jīng)元特性函數(shù)、學(xué)習(xí)方式、學(xué)習(xí)算法等等。

截止目前,人們已經(jīng)提出了上百種神經(jīng)網(wǎng)絡(luò)模型,表9.4簡介了最著名的幾種。

96謝謝觀賞2019-9-219.3.6神經(jīng)網(wǎng)絡(luò)模型96謝謝觀賞2019-9-21表

9.4一些著名的神經(jīng)網(wǎng)絡(luò)模型

97謝謝觀賞2019-9-21表9.4一些著名的神經(jīng)網(wǎng)絡(luò)模型97謝謝觀賞2019-

1.按學(xué)習(xí)方式分類

神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方式包括三種:有導(dǎo)師學(xué)習(xí)、強化學(xué)習(xí)和無導(dǎo)師學(xué)習(xí)。按學(xué)習(xí)方式進(jìn)行神經(jīng)網(wǎng)絡(luò)模型分類時,可以分為相應(yīng)的三種,即有導(dǎo)師學(xué)習(xí)網(wǎng)絡(luò)、強化學(xué)習(xí)網(wǎng)絡(luò)及無導(dǎo)師學(xué)習(xí)網(wǎng)絡(luò)。

98謝謝觀賞2019-9-211.按學(xué)習(xí)方式分類98謝謝觀賞2019-9-21

2.按網(wǎng)絡(luò)結(jié)構(gòu)分類

神經(jīng)網(wǎng)絡(luò)的連接結(jié)構(gòu)分為兩大類,分層結(jié)構(gòu)與互連結(jié)構(gòu),分層結(jié)構(gòu)網(wǎng)絡(luò)有明顯的層次,信息的流向由輸入層到輸出層,因此構(gòu)成一大類網(wǎng)絡(luò),即前向網(wǎng)絡(luò)。對于互連型結(jié)構(gòu)網(wǎng)絡(luò),沒有明顯的層次,任意兩處理單元之間都是可達(dá)的,具有輸出單元到隱單元(或輸入單元)的反饋連接,這樣就形成另一類網(wǎng)絡(luò),稱之為反饋網(wǎng)絡(luò)。

99謝謝觀賞2019-9-212.按網(wǎng)絡(luò)結(jié)構(gòu)分類99謝謝觀賞2019-9-21

3.按網(wǎng)絡(luò)的狀態(tài)分類

在神經(jīng)網(wǎng)絡(luò)模型中,處理單元(即神經(jīng)元)的狀態(tài)有兩種形式:連續(xù)時間變化狀態(tài)、離散時間變化狀態(tài)。如果神經(jīng)網(wǎng)絡(luò)模型的所有處理單元狀態(tài)能在某一區(qū)間連續(xù)取值,這樣的網(wǎng)絡(luò)稱為連續(xù)型網(wǎng)絡(luò);如果神經(jīng)網(wǎng)絡(luò)模型的所有處理單元狀態(tài)只能取離散的二進(jìn)制值0或1(或-1、+1),那么稱這種網(wǎng)絡(luò)為離散型網(wǎng)絡(luò)。典型的Hopfield網(wǎng)絡(luò)同時具有這兩類網(wǎng)絡(luò),分別稱為連續(xù)型Hopfield網(wǎng)絡(luò)和離散型Hopfield網(wǎng)絡(luò)。另外,還有輸出為二進(jìn)制值0或1、

輸入為連續(xù)值的神經(jīng)網(wǎng)絡(luò)模型,如柯西機模型。

100謝謝觀賞2019-9-213.按網(wǎng)絡(luò)的狀態(tài)分類100謝謝觀賞2019-9-21

4.按網(wǎng)絡(luò)的活動方式分類

確定神經(jīng)網(wǎng)絡(luò)處理單元的狀態(tài)取值有兩種活動方式:一種是由確定性輸入經(jīng)確定性作用函數(shù),產(chǎn)生確定性的輸出狀態(tài);另一種是由隨機輸入或隨機性作用函數(shù),產(chǎn)生遵從一定概率分布的隨機輸出狀態(tài)。具有前一種活動方式的神經(jīng)網(wǎng)絡(luò),稱為確定性網(wǎng)絡(luò)。已有的大部分神經(jīng)網(wǎng)絡(luò)模型均屬此類。而后一種活動方式的神經(jīng)網(wǎng)絡(luò),稱為隨機性網(wǎng)絡(luò)。隨機性網(wǎng)絡(luò)的典型例子有:

波爾茨曼機、

柯西機和高斯機等。

101謝謝觀賞2019-9-214.按網(wǎng)絡(luò)的活動方式分類101謝謝觀賞2019-9-9.4知識發(fā)現(xiàn)與數(shù)據(jù)挖掘

9.4.1知識發(fā)現(xiàn)的一般過程

1.數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備又可分為三個子步驟:數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理和數(shù)據(jù)變換。數(shù)據(jù)選取就是確定目標(biāo)數(shù)據(jù),即操作對象,它是根據(jù)用戶的需要從原始數(shù)據(jù)庫中抽取的一組數(shù)據(jù)。數(shù)據(jù)預(yù)處理一般可能包括消除噪聲、推導(dǎo)計算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換等。當(dāng)數(shù)據(jù)開采的對象是數(shù)據(jù)倉庫時,一般來說,數(shù)據(jù)預(yù)處理已經(jīng)在生成數(shù)據(jù)倉庫時完成了。數(shù)據(jù)變換的主要目的是消減數(shù)據(jù)維數(shù),即從初始特征中找出真正有用的特征以減少數(shù)據(jù)開采時要考慮的特征或變量個數(shù)。

102謝謝觀賞2019-9-219.4知識發(fā)現(xiàn)與數(shù)據(jù)挖掘9.4.1知識發(fā)現(xiàn)的一般過程

2.數(shù)據(jù)挖掘

數(shù)據(jù)挖掘階段首先要確定開采的任務(wù)或目的是什么,如數(shù)據(jù)總結(jié)、分類、聚類、關(guān)聯(lián)規(guī)則或序列模式等。確定了開采任務(wù)后,就要決定使用什么樣的開采算法。同樣的任務(wù)可以用不同的算法來實現(xiàn),選擇實現(xiàn)算法有兩個考慮因素:一是不同的數(shù)據(jù)有不同的特點,因此需要用與之相關(guān)的算法來開采;二是用戶或?qū)嶋H運行系統(tǒng)的要求,有的用戶可能希望獲取描述型的、容易理解的知識,而有的用戶或系統(tǒng)的目的是獲取預(yù)測準(zhǔn)確度盡可能高的預(yù)測型知識。

103謝謝觀賞2019-9-212.數(shù)據(jù)挖掘103謝謝觀賞2019-9-21

3.解釋和評價數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的知識模式中可能存在冗余或無關(guān)的模式,所以還要經(jīng)過用戶或機器的評價。若發(fā)現(xiàn)所得模式不滿足用戶要求,則需要退回到發(fā)現(xiàn)階段之前,如重新選取數(shù)據(jù),采用新的數(shù)據(jù)變換方法,設(shè)定新的數(shù)據(jù)挖掘參數(shù)值,甚至換一種采掘算法。

104謝謝觀賞2019-9-213.解釋和評價104謝謝觀賞2019-9-21

4.知識表示

由于數(shù)據(jù)挖掘的最終是面向人的,因此可能要對發(fā)現(xiàn)的模式進(jìn)行可視化,或者把結(jié)果轉(zhuǎn)換為用戶易懂的另一種表示,如把分類決策樹轉(zhuǎn)換為“if-then”規(guī)則。

105謝謝觀賞2019-9-214.知識表示105謝謝觀賞2019-9-219.4.2知識發(fā)現(xiàn)的對象

1.數(shù)據(jù)庫數(shù)據(jù)庫是當(dāng)然的知識發(fā)現(xiàn)對象。當(dāng)前研究比較多的是關(guān)系數(shù)據(jù)庫的知識發(fā)現(xiàn)。其主要研究課題有:超大數(shù)據(jù)量、動態(tài)數(shù)據(jù)、

噪聲、

數(shù)據(jù)不完整性、冗余信息和數(shù)據(jù)稀疏等。

106謝謝觀賞2019-9-219.4.2知識發(fā)現(xiàn)的對象106謝謝觀賞2019-9-21

2.數(shù)據(jù)倉庫隨著計算機技術(shù)的迅猛發(fā)展,到20世紀(jì)80年代,許多企業(yè)的數(shù)據(jù)庫中已積累了大量的數(shù)據(jù)。于是,便產(chǎn)生了進(jìn)一步使用這些數(shù)據(jù)的需求(就是想通過對這些數(shù)據(jù)的分析和推理,為決策提供依據(jù))。但對于這種需求,傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)卻難以實現(xiàn)。這是因為:①傳統(tǒng)數(shù)據(jù)庫一般只存儲短期數(shù)據(jù),而決策需要大量歷史數(shù)據(jù);②決策信息涉及許多部門的數(shù)據(jù),而不同系統(tǒng)的數(shù)據(jù)難以集成。在這種情況下,數(shù)據(jù)倉庫(datawarehouse)技術(shù)便應(yīng)運而生。

107謝謝觀賞2019-9-212.數(shù)據(jù)倉庫107謝謝觀賞2019-9-21目前,人們對數(shù)據(jù)倉庫有很多不同的理解。Inmon將數(shù)據(jù)倉庫明確定義為:數(shù)據(jù)倉庫是面向主題的、集成的、內(nèi)容相對穩(wěn)定的、不同時間的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。具體來講,數(shù)據(jù)倉庫收集不同數(shù)據(jù)源中的數(shù)據(jù),將這些分散的數(shù)據(jù)集中到一個更大的庫中,最終用戶從數(shù)據(jù)倉庫中進(jìn)行查詢和數(shù)據(jù)分析。數(shù)據(jù)倉庫中的數(shù)據(jù)應(yīng)是良好定義的、一致的、不變的,數(shù)據(jù)量也應(yīng)足夠支持?jǐn)?shù)據(jù)分析、查詢、報表生成和與長期積累的歷史數(shù)據(jù)的對比。

108謝謝觀賞2019-9-21目前,人們對數(shù)據(jù)倉庫有很多不同的理解。Inmon將數(shù)據(jù)數(shù)據(jù)倉庫是一個決策支持環(huán)境,通過數(shù)據(jù)的組織給決策支持者提供分布的、跨平臺的數(shù)據(jù),使用過程中可忽略許多技術(shù)細(xì)節(jié)??傊?數(shù)據(jù)倉庫有四個基本特征:

(1)數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題的。

(2)數(shù)據(jù)倉庫的數(shù)據(jù)是集成的。

(3)數(shù)據(jù)倉庫的數(shù)據(jù)是穩(wěn)定的。

(4)數(shù)據(jù)倉庫的數(shù)據(jù)是隨時間不斷變化的。

109謝謝觀賞2019-9-21數(shù)據(jù)倉庫是一個決策支持環(huán)境,通過數(shù)據(jù)的組織給決策支持者數(shù)據(jù)倉庫是面向決策分析的,數(shù)據(jù)倉庫從事務(wù)型數(shù)據(jù)抽取并集成得到分析型數(shù)據(jù)后,需要各種決策分析工具對這些數(shù)據(jù)進(jìn)行分析和挖掘,才能得到有用的決策信息。而數(shù)據(jù)挖掘技術(shù)具備從大量數(shù)據(jù)中發(fā)現(xiàn)有用信息的能力,于是數(shù)據(jù)挖掘自然成為數(shù)據(jù)倉庫中進(jìn)行數(shù)據(jù)深層分析的一種必不可少的手段。數(shù)據(jù)挖掘往往依賴于經(jīng)過良好組織和預(yù)處理的數(shù)據(jù)源,數(shù)據(jù)的好壞直接影響數(shù)據(jù)挖掘的效果,因此數(shù)據(jù)的前期準(zhǔn)備是數(shù)據(jù)挖掘過程中一個非常重要的階段。而數(shù)據(jù)倉庫具有從各種數(shù)據(jù)源中抽取數(shù)據(jù),并對數(shù)據(jù)進(jìn)行清洗、聚集和轉(zhuǎn)移等各種處理的能力,恰好為數(shù)據(jù)挖掘提供了良好的進(jìn)行前期數(shù)據(jù)準(zhǔn)備工作的環(huán)境。

110謝謝觀賞2019-9-21數(shù)據(jù)倉庫是面向決策分析的,數(shù)據(jù)倉庫從事務(wù)型數(shù)據(jù)抽取并集

3.Web信息隨著Web的迅速發(fā)展,分布在Internet上的Web網(wǎng)頁已構(gòu)成了一個巨大的信息空間。在這個信息空間中也蘊藏著豐富的知識。因此,Web信息也就理所當(dāng)然地成為一個知識發(fā)現(xiàn)對象?;赪eb的數(shù)據(jù)挖掘稱為Web挖掘。

Web挖掘主要分為內(nèi)容發(fā)現(xiàn)、結(jié)構(gòu)發(fā)現(xiàn)和用法挖掘。內(nèi)容挖掘是指從Web文檔的內(nèi)容中提取知識。Web內(nèi)容挖掘又可分為對文本文檔(包括text、HTML等格式)和多媒體文檔(包括image、audio、video等類型)的挖掘。如對這些文檔信息進(jìn)行聚類、分類、關(guān)聯(lián)分析等。

111謝謝觀賞2019-9-213.Web信息111謝謝觀賞2019-9-21結(jié)構(gòu)挖掘包括文檔之間的超鏈結(jié)構(gòu)、文檔內(nèi)部的結(jié)構(gòu)、文檔URL中的目錄路徑結(jié)構(gòu)等,從這些結(jié)構(gòu)信息中發(fā)現(xiàn)規(guī)律,提取知識。用法挖掘就是對用戶訪問Web時在服務(wù)器留下的訪問記錄進(jìn)行挖掘,以發(fā)現(xiàn)用戶上網(wǎng)的瀏覽模式,訪問興趣、檢索頻率等信息。在用戶瀏覽模式分析中主要包括了針對用戶群的一般的訪問模式追蹤和針對單個用戶的個性化使用記錄追蹤;挖掘的對象是服務(wù)器上包括ServerLogData等日志。

112謝謝觀賞2019-9-21結(jié)構(gòu)挖掘包括文檔之間的超鏈結(jié)構(gòu)、文檔內(nèi)部的結(jié)構(gòu)、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論