高級(jí)人工智能第5講機(jī)器學(xué)習(xí)

上傳人：人*** IP屬地：河北上傳時(shí)間：2023-04-04 格式：PPT 頁數(shù)：89 大?。?.74MB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩84頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室1/89高級(jí)人工智能機(jī)器學(xué)習(xí)

2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室2/891機(jī)器學(xué)習(xí)概述

學(xué)習(xí)的基本概念

學(xué)習(xí)是人類具有的一種重要的智能行為。

西蒙的觀點(diǎn)：學(xué)習(xí)就是系統(tǒng)在不斷重復(fù)的工作中對(duì)本身能力的增強(qiáng)或者改進(jìn)，使得系統(tǒng)在下一次執(zhí)行同樣任務(wù)或類似任務(wù)時(shí)，會(huì)比現(xiàn)在做得更好或效率更高。1959年Samuel下棋程序，具有學(xué)習(xí)能力。4年后程序戰(zhàn)勝了設(shè)計(jì)者，又3年后戰(zhàn)勝了美國(guó)一個(gè)冠軍。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室3/891機(jī)器學(xué)習(xí)概述

機(jī)器學(xué)習(xí)的定義

機(jī)器學(xué)習(xí)是研究如何使用機(jī)器來模擬人類學(xué)習(xí)活動(dòng)的一門學(xué)科。稍為嚴(yán)格的提法是：機(jī)器學(xué)習(xí)是一門研究機(jī)器獲取新知識(shí)和新技能，并識(shí)別現(xiàn)有知識(shí)的學(xué)問。

2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室4/891機(jī)器學(xué)習(xí)概述如果一個(gè)計(jì)算機(jī)程序要完成某類任務(wù)T，其完成任務(wù)的性能可以用P衡量，該程序根據(jù)經(jīng)驗(yàn)E改進(jìn)P，則稱該程序針對(duì)任務(wù)T以性能P衡量從經(jīng)驗(yàn)E中學(xué)習(xí)(T.Mitchell，機(jī)器學(xué)習(xí))對(duì)于一個(gè)學(xué)習(xí)系統(tǒng)，必須明確：任務(wù)的種類衡量性能提高的標(biāo)準(zhǔn)經(jīng)驗(yàn)的來源2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室5/891機(jī)器學(xué)習(xí)概述

機(jī)器學(xué)習(xí)的發(fā)展

機(jī)器學(xué)習(xí)是人工智能應(yīng)用研究較為重要的分支，它的發(fā)展過程大體上可分為4個(gè)時(shí)期：（1）第一階段是在50年代中葉到60年代中葉，屬于熱烈時(shí)期。在這個(gè)時(shí)期，所研究的是“沒有知識(shí)”的學(xué)習(xí)，即“無知”學(xué)習(xí)；其研究目標(biāo)是各類自組織系統(tǒng)和自適應(yīng)系統(tǒng)；指導(dǎo)本階段研究的理論基礎(chǔ)是早在40年代就開始研究的神經(jīng)網(wǎng)絡(luò)模型。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室6/895.1機(jī)器學(xué)習(xí)概述（2）第二階段在60年代中葉至70年代中葉，被稱為機(jī)器學(xué)習(xí)的冷靜時(shí)期。本階段的研究目標(biāo)是模擬人類的概念學(xué)習(xí)過程，并采用邏輯結(jié)構(gòu)或圖結(jié)構(gòu)作為機(jī)器內(nèi)部描述。（3）第三階段從70年代中葉至80年代中葉，稱為復(fù)興時(shí)期。在這個(gè)時(shí)期，人們從學(xué)習(xí)單個(gè)概念擴(kuò)展到學(xué)習(xí)多個(gè)概念，探索不同的學(xué)習(xí)策略和各種學(xué)習(xí)方法。本階段已開始把學(xué)習(xí)系統(tǒng)與各種應(yīng)用結(jié)合起來。（4）機(jī)器學(xué)習(xí)的最新階段始于1986年。一方面，由于神經(jīng)網(wǎng)絡(luò)研究的重新興起，另一方面，對(duì)實(shí)驗(yàn)研究和應(yīng)用研究得到前所未有的重視。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室7/895.1機(jī)器學(xué)習(xí)概述

機(jī)器學(xué)習(xí)研究與應(yīng)用的發(fā)展趨勢(shì)（1）

從有教師指導(dǎo)的歸納學(xué)習(xí)向無教師指導(dǎo)的發(fā)現(xiàn)學(xué)習(xí)轉(zhuǎn)變。以數(shù)據(jù)挖掘?yàn)楹诵募夹g(shù)的發(fā)現(xiàn)學(xué)習(xí)成為最有價(jià)值的機(jī)器學(xué)習(xí)技術(shù)。

（2）

從面向確定性環(huán)境的觀察學(xué)習(xí)到面向不確定性環(huán)境的統(tǒng)計(jì)學(xué)習(xí)轉(zhuǎn)變。概率理論和統(tǒng)計(jì)分析處理不確定問題。

（3）

從缺乏堅(jiān)實(shí)理論的經(jīng)驗(yàn)性學(xué)習(xí)到具有嚴(yán)密數(shù)學(xué)基礎(chǔ)的學(xué)習(xí)理論轉(zhuǎn)變。粗糙集和統(tǒng)計(jì)學(xué)習(xí)理論。

2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室8/895.2學(xué)習(xí)的一般形式在學(xué)習(xí)智能體中，對(duì)執(zhí)行元件進(jìn)行反饋并加以修正的元件是學(xué)習(xí)元件執(zhí)行器環(huán)境傳感器智能體性能標(biāo)準(zhǔn)評(píng)論元件學(xué)習(xí)元件問題產(chǎn)生器執(zhí)行元件反饋學(xué)習(xí)的目標(biāo)知識(shí)變化2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室9/895.2學(xué)習(xí)的一般形式學(xué)習(xí)元件的設(shè)計(jì)影響學(xué)習(xí)元件設(shè)計(jì)的主要因素：執(zhí)行元件的哪個(gè)組成部分進(jìn)行學(xué)習(xí)—誰要學(xué)習(xí)(who)組成部分從學(xué)習(xí)中得到什么反饋—怎么學(xué)習(xí)(how)組成部分是如何表示的—學(xué)習(xí)什么(what)決定智能體學(xué)習(xí)本質(zhì)的最重要因素是學(xué)習(xí)中的反饋類型2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室10/895.2學(xué)習(xí)的一般形式學(xué)習(xí)的三種類型有監(jiān)督(有指導(dǎo))學(xué)習(xí)—從其輸入/輸出的實(shí)例中學(xué)習(xí)一個(gè)函數(shù)無監(jiān)督(無指導(dǎo))學(xué)習(xí)—在未提供明確的輸出值情況下，學(xué)習(xí)輸入的模式主要在概率推理系統(tǒng)的上下文中研究無監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)—從強(qiáng)化物中學(xué)習(xí)，而不是根據(jù)指導(dǎo)進(jìn)行學(xué)習(xí)2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室11/895.2學(xué)習(xí)的一般形式學(xué)習(xí)過程中的知識(shí)表示如何表示學(xué)到的信息(各種方案—智能體的任何組成部分)邏輯公式(學(xué)到的規(guī)則)貝葉斯網(wǎng)絡(luò)(學(xué)到的概率描述)線性加權(quán)函數(shù)(作為學(xué)習(xí)得到的啟發(fā)函數(shù))先驗(yàn)知識(shí)的可用性—大部分人類學(xué)習(xí)發(fā)生在具有大量背景知識(shí)的上下文環(huán)境中不同的背景知識(shí)會(huì)導(dǎo)致對(duì)同一事物的不同認(rèn)識(shí)(如物理學(xué)家和畫家對(duì)云室照片的看法)2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室12/895.2學(xué)習(xí)的一般形式關(guān)于學(xué)習(xí)的幾個(gè)一般性問題是否可能獨(dú)立于學(xué)習(xí)算法確定學(xué)習(xí)問題中的固有難度？能否知道需要多少訓(xùn)練樣例才能必要地或者充分地保證學(xué)習(xí)成功？(必要或充分條件)如果允許學(xué)習(xí)系統(tǒng)與施教者(人類)提問，而不是僅僅觀察訓(xùn)練集中的隨機(jī)樣本，會(huì)對(duì)所需樣例有什么影響？能否刻畫出學(xué)習(xí)系統(tǒng)在學(xué)到目標(biāo)函數(shù)之前出錯(cuò)的概率？能否刻畫出一類學(xué)習(xí)問題的固有計(jì)算復(fù)雜度？2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室13/895.3常見的幾種學(xué)習(xí)方法5.3.1機(jī)械學(xué)習(xí)1.機(jī)械學(xué)習(xí)的模式

機(jī)械學(xué)習(xí)是最簡(jiǎn)單的機(jī)器學(xué)習(xí)方法。機(jī)械學(xué)習(xí)就是記憶，即把新的知識(shí)存儲(chǔ)起來，供需要時(shí)檢索調(diào)用，而不需要計(jì)算和推理。機(jī)械學(xué)習(xí)又是最基本的學(xué)習(xí)過程。任何學(xué)習(xí)系統(tǒng)都必須記住它們獲取的知識(shí)。在機(jī)械學(xué)習(xí)系統(tǒng)中，知識(shí)的獲取是以較為穩(wěn)定和直接的方式進(jìn)行的，不需要系統(tǒng)進(jìn)行過多的加工。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室14/895.3常見的幾種學(xué)習(xí)方法5.3.1機(jī)械學(xué)習(xí)2.數(shù)據(jù)化簡(jiǎn)

Lenat,HayesRoth，和Klahr等人于1979年關(guān)于機(jī)械學(xué)習(xí)提出一種有趣的觀點(diǎn)。他們指出，可以把機(jī)械學(xué)習(xí)看成是數(shù)據(jù)化簡(jiǎn)分級(jí)中的第一級(jí)。數(shù)據(jù)化簡(jiǎn)與計(jì)算機(jī)語言編譯類似；其目的是把原始信息變成可執(zhí)行的信息。在機(jī)械學(xué)習(xí)中我們只記憶計(jì)算的輸入輸出，忽略了計(jì)算過程，這樣就把計(jì)算問題化簡(jiǎn)成存取問題。

2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室15/895.3常見的幾種學(xué)習(xí)方法5.3.1機(jī)械學(xué)習(xí)存儲(chǔ)計(jì)算推導(dǎo)歸納算法與理論機(jī)械記憶搜索規(guī)則2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室16/895.3常見的幾種學(xué)習(xí)方法5.3.1機(jī)械學(xué)習(xí)3.主要問題對(duì)于機(jī)械學(xué)習(xí)，需要注意3個(gè)重要的問題：存儲(chǔ)組織，穩(wěn)定性和存儲(chǔ)與計(jì)算之間的權(quán)衡。（1）存儲(chǔ)組織信息：采用適當(dāng)?shù)拇鎯?chǔ)方式，使檢索速度盡可能地快，是機(jī)械學(xué)習(xí)中的重要問題。（2）環(huán)境的穩(wěn)定性與存儲(chǔ)信息的適用性問題：機(jī)械學(xué)習(xí)系統(tǒng)必須保證所保存的信息適應(yīng)于外界環(huán)境變化的需要，這也就是所謂的信息適用性問題。（3）存儲(chǔ)與計(jì)算之間的權(quán)衡：對(duì)于機(jī)械學(xué)習(xí)來說很重要的一點(diǎn)是它不能降低系統(tǒng)的效率。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室17/895.3常見的幾種學(xué)習(xí)方法5.3.2基于解釋的學(xué)習(xí)解釋學(xué)習(xí)（explanation最初是由美國(guó)Illinois大學(xué)的DeJong于1983年提出來的。在經(jīng)驗(yàn)學(xué)習(xí)的基礎(chǔ)上，運(yùn)用領(lǐng)域知識(shí)對(duì)單個(gè)例子的問題求解作出解釋，這是一種關(guān)于知識(shí)間因果關(guān)系的推理分析，可產(chǎn)生一般的控制策略。

解釋學(xué)習(xí)根據(jù)任務(wù)所在領(lǐng)域知識(shí)和正在學(xué)習(xí)的概念知識(shí)，對(duì)當(dāng)前實(shí)例進(jìn)行分析和求解，得出一個(gè)表征求解過程的因果解釋樹，以獲取新的知識(shí)。在獲取新的知識(shí)過程中，通過對(duì)屬性、表征現(xiàn)象和內(nèi)在關(guān)系等進(jìn)行解釋而學(xué)習(xí)到新的知識(shí)。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室18/895.3常見的幾種學(xué)習(xí)方法5.3.2基于解釋的學(xué)習(xí)

解釋學(xué)習(xí)一般包括下列3個(gè)步驟：（1）

利用基于解釋的方法對(duì)訓(xùn)練例子進(jìn)行分析與解釋。（2）

對(duì)例子的結(jié)構(gòu)進(jìn)行概括性解釋。（3）

從解釋結(jié)構(gòu)中識(shí)別出訓(xùn)練例子的特性，獲取一般控制知識(shí)。

1986年Mitchell，Keller和Kedar-Cabelli等人為基于解釋的學(xué)習(xí)提出了一個(gè)統(tǒng)一的算法EBG(Explanation-Based

Generalization)，該算法建立了基于解釋的概括過程，并運(yùn)用知識(shí)的邏輯表示和演繹推理進(jìn)行問題求解。

2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室19/895.3常見的幾種學(xué)習(xí)方法5.3.2基于解釋的學(xué)習(xí)

操作規(guī)則目標(biāo)概念訓(xùn)練實(shí)例新規(guī)則領(lǐng)域知識(shí)2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室20/895.3常見的幾種學(xué)習(xí)方法5.3.2基于解釋的學(xué)習(xí)

EBG求解問題的形式可描述于下:給定：

(1)目標(biāo)概念描述TC；

(2)訓(xùn)練實(shí)例TE；

(3)領(lǐng)域知識(shí)DT；

(4)操作準(zhǔn)則OC。求解：訓(xùn)練實(shí)例的一般化概括，使之滿足：

(1)目標(biāo)概念的充分概括描述TC；

(2)操作準(zhǔn)則OC。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室21/895.3常見的幾種學(xué)習(xí)方法5.3.2基于解釋的學(xué)習(xí)

其中，領(lǐng)域知識(shí)DT是相關(guān)領(lǐng)域的實(shí)施和規(guī)則，在學(xué)習(xí)系統(tǒng)中作為背景知識(shí)，用于證明訓(xùn)練實(shí)例TE為什么可以作為目標(biāo)概念的一個(gè)實(shí)例，從而形成相應(yīng)的解釋。訓(xùn)練實(shí)例TE是為學(xué)習(xí)系統(tǒng)提供一個(gè)例子，在學(xué)習(xí)過程中起著重要的作用，它應(yīng)能充分地說明目標(biāo)概念TC。操作規(guī)則OC用于指導(dǎo)學(xué)習(xí)系統(tǒng)對(duì)目標(biāo)概念進(jìn)行取舍，使得通過學(xué)習(xí)產(chǎn)生的關(guān)于目標(biāo)概念TC的一般性描述成為可用的一般性知識(shí)?；诮忉尩膶W(xué)習(xí)從本質(zhì)上說屬于演繹學(xué)習(xí)，它是根據(jù)給定的領(lǐng)域知識(shí)，進(jìn)行保真的演繹推理，存儲(chǔ)有用結(jié)論，經(jīng)過知識(shí)的求精和編輯，產(chǎn)生適合以后求解類似問題的控制知識(shí)。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室22/895.3常見的幾種學(xué)習(xí)方法5.3.3基于事例的學(xué)習(xí)

當(dāng)無法建立好的模型時(shí)，可通過記錄事例進(jìn)行學(xué)習(xí)。

采用基于事例的學(xué)習(xí)：首先，任何時(shí)候都可以應(yīng)用相容啟發(fā)方法，把某個(gè)預(yù)先觀察過的事物的特性賦予一個(gè)從未見過的新事物；其次，學(xué)會(huì)如何用于k維樹結(jié)構(gòu)迅速找到特征空間內(nèi)的最近鄰物體。

相容啟發(fā)：無論何時(shí)要猜測(cè)某事物的特性，除了提供一套參考事例外不知道其他情況；通過測(cè)量其他事物的已知特性，找到最相近的事例，該事例的特性特性是已知的。作為猜測(cè)：所求未知特性是與最相似事例的已知特性一樣的。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室23/895.3常見的幾種學(xué)習(xí)方法5.3.3基于概念的學(xué)習(xí)

歸納學(xué)習(xí)的定義（1）歸納（induction）是人類拓展認(rèn)識(shí)能力的重要方法，是一種從個(gè)別到一般的，從部分到整體的推理行為。（2）歸納推理是應(yīng)用歸納方法，從足夠多的具體事例中歸納出一般性知識(shí)，提取事物的一般規(guī)律；它是一種從個(gè)別到一般的推理。（3）歸納學(xué)習(xí)（inductionlearning）是應(yīng)用歸納推理進(jìn)行學(xué)習(xí)的一種方法。

從應(yīng)用角度看，歸納學(xué)習(xí)可分為概念學(xué)習(xí)、概念聚集和啟發(fā)學(xué)習(xí)三種。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室24/895.3常見的幾種學(xué)習(xí)方法5.3.3基于概念的學(xué)習(xí)

概念學(xué)習(xí)研究的路線：

（1）基于工程方法的概念學(xué)習(xí)，它從可能的學(xué)習(xí)機(jī)理出發(fā)，試圖試驗(yàn)并確定概念學(xué)習(xí)的工程方法。

（2）基于認(rèn)知建模的概念學(xué)習(xí)，開發(fā)出人類概念學(xué)習(xí)的計(jì)算理論。概念學(xué)習(xí)的任務(wù)：構(gòu)造類型定義、分類程序（分類）2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室25/895.3常見的幾種學(xué)習(xí)方法5.3.4基于類比的學(xué)習(xí)

1.類比推理和類比學(xué)習(xí)形式類比推理是由新情況與已知情況在某些方面的相似來推出它們?cè)谄渌嚓P(guān)方面的相似。顯然，類比推理是在兩個(gè)相似域之間進(jìn)行的：類比推理的目的是從源域中選出與當(dāng)前問題最近似的問題及其求解方法以求解決當(dāng)前的問題，或者建立起目標(biāo)域中已有命題間的聯(lián)系，形成新知識(shí)。

2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室26/895.3常見的幾種學(xué)習(xí)方法5.3.4基于類比的學(xué)習(xí)

類比推理過程如下：

(1)回憶與聯(lián)想遇到新情況或新問題時(shí)，首先通過回憶與聯(lián)想在S中找出與當(dāng)前情況相似的情況，這些情況是過去已經(jīng)處理過的，有現(xiàn)成的解決方法及相關(guān)的知識(shí)。

(2)選擇從找出的相似情況中選出與當(dāng)前情況最相似的情況及其有關(guān)知識(shí)。

2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室27/895.3常見的幾種學(xué)習(xí)方法5.3.4基于類比的學(xué)習(xí)

(3)建立對(duì)應(yīng)映射在S與T的相似情況之間建立相似元素的對(duì)應(yīng)關(guān)系，并建立起相應(yīng)的映射。

(4)轉(zhuǎn)換在上一步建立的映射下，把S中的有關(guān)知識(shí)引到T中來，從而建立起求解當(dāng)前問題的方法或者學(xué)習(xí)到關(guān)于T的新知識(shí)。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室28/895.3常見的幾種學(xué)習(xí)方法5.3.4基于類比的學(xué)習(xí)

2.類比學(xué)習(xí)過程與研究類型類比學(xué)習(xí)主要包括如下四個(gè)過程：

(1)輸入一組已知條件（已解決問題）和一組未完全確定的條件（新問題）。

(2)對(duì)輸入的兩組條件，根據(jù)其描述，按某種相似性的定義尋找兩者可類比的對(duì)應(yīng)關(guān)系。

2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室29/895.3常見的幾種學(xué)習(xí)方法5.3.5基于類比的學(xué)習(xí)

(3)按相似變換的方法，將已有問題的概念、特性、方法、關(guān)系等映射到新問題上，以獲得待求解新問題所需的新知識(shí)。

(4)對(duì)類推得到的新問題的知識(shí)進(jìn)行校驗(yàn)。驗(yàn)證正確的知識(shí)存入知識(shí)庫中，而暫時(shí)還無法驗(yàn)證的知識(shí)只能作為參考性知識(shí)，置于數(shù)據(jù)庫中。

2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室30/895.4

歸納學(xué)習(xí)歸納學(xué)習(xí)也可以稱作歸納推理或簡(jiǎn)稱歸納，其任務(wù)是：給定函數(shù)f(未知)的實(shí)例集合，返回一個(gè)近似于f的函數(shù)h—h稱為假設(shè)，所有h的集合稱為假設(shè)空間一個(gè)好的假設(shè)應(yīng)該能夠預(yù)測(cè)未見過的實(shí)例—這就是基本的歸納問題問題實(shí)例—用一個(gè)單變量函數(shù)來擬合若干數(shù)據(jù)點(diǎn)，選擇最高次數(shù)為k的多項(xiàng)式集合作為假設(shè)h的集合，即假設(shè)空間H2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室31/895.4

歸納學(xué)習(xí)數(shù)據(jù)擬合2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室32/895.4

歸納學(xué)習(xí)Ockham剃刀原則上圖中顯示了擬合兩兩一組數(shù)據(jù)的不同函數(shù)—與所有數(shù)據(jù)一致的函數(shù)稱為一致假設(shè)如何在多個(gè)一致假設(shè)之間進(jìn)行選擇？答案—奧卡姆剃刀原則(Ockham’srazor)—優(yōu)先選擇與數(shù)據(jù)一致的最簡(jiǎn)單假設(shè)原因—比數(shù)據(jù)本身更復(fù)雜的假設(shè)不能從數(shù)據(jù)中提取任何模式此外，對(duì)于非確定性函數(shù)，在假設(shè)的復(fù)雜度和數(shù)據(jù)擬合度之間進(jìn)行折中不可避免2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室33/895.4

歸納學(xué)習(xí)假設(shè)空間的選擇如果假設(shè)空間包含真實(shí)函數(shù)，那么學(xué)習(xí)的問題就是可實(shí)現(xiàn)的，否則是不可實(shí)現(xiàn)的—但是真實(shí)函數(shù)是未知的，因此不能確定一個(gè)給定的學(xué)習(xí)問題是否可實(shí)現(xiàn)解決方案：使用先驗(yàn)知識(shí)得到一個(gè)假設(shè)空間，真實(shí)的函數(shù)一定包含在該假設(shè)空間采用最大可能的假設(shè)空間—在假設(shè)空間的表達(dá)能力和在該空間中找到簡(jiǎn)單的一致假設(shè)之間存在一個(gè)折中—也要考慮較強(qiáng)的表示能力2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室34/895.4

歸納學(xué)習(xí)歸納學(xué)習(xí)假設(shè)和歸納偏置歸納學(xué)習(xí)假設(shè)—任一假設(shè)如果在足夠大的訓(xùn)練樣例集中很好地逼近目標(biāo)函數(shù)，它也能在未見實(shí)例中很好地逼近目標(biāo)函數(shù)歸納偏置—?dú)w納學(xué)習(xí)需要某種形式的預(yù)先假定如果學(xué)習(xí)器不對(duì)目標(biāo)概念的形式作預(yù)先假定，它從根本上無法對(duì)未見實(shí)例進(jìn)行分類歸納學(xué)習(xí)算法的有偏性是對(duì)未見數(shù)據(jù)分類的依據(jù)—有偏性越強(qiáng)，則歸納能力越強(qiáng)2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室35/895.5決策樹決策樹歸納是歸納學(xué)習(xí)算法中最簡(jiǎn)單也是最成功的算法之一—好的入門決策樹以事物的屬性描述集合作為輸入，輸出通常是一個(gè)分類(離散的輸出)—一般是二值分類(真或假)例子：星期六上午是否適合打網(wǎng)球?qū)傩?{outlook，humidity，wind}屬性值={sunny,overcast,rain,high,normal,strong,weak}2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室36/895.5決策樹OutlookWindHumiditySunnyOvercastRainHighNormal StrongWeakYesNoYesNoYes2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室37/895.5決策樹決策樹學(xué)習(xí)的適用問題決策樹適合具有以下特征的學(xué)習(xí)：實(shí)例是由“屬性-值”對(duì)表示的—固定的屬性+離散或連續(xù)的取值目標(biāo)函數(shù)具有離散的輸出值析取表達(dá)式訓(xùn)練數(shù)據(jù)可以包含錯(cuò)誤—決策樹學(xué)習(xí)的魯棒性好訓(xùn)練數(shù)據(jù)可以包含缺少屬性值的實(shí)例2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室38/895.5決策樹

決策樹算法決策樹學(xué)習(xí)包括2個(gè)步驟：從實(shí)例中歸納出決策樹(建立決策樹)利用決策樹對(duì)新實(shí)例進(jìn)行分類判斷如何建立決策樹：如果存在一些正例和反例，選擇劃分它們的最佳屬性如果剩下的都是正例或者反例，則分類已經(jīng)完成，回答Yes或No如果沒有剩下實(shí)例，則返回一個(gè)缺省值如果沒有剩下的屬性但還有剩下的實(shí)例，則數(shù)據(jù)中含有噪聲2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室39/895.5決策樹決策樹建樹算法

FunctionDecision-Tree-Learning(examples,attributes,default)returnadecisiontree

Input:{examples},{attributes},default

if{examples}=emptythenreturndefault

elseif{examples}=sameclassthenreturntheclassification

elseif{attributes}=emptythenreturnMajority-value(examples)

elseBest←Choose-Attr(attributes,examples) Tree←anewdecisiontreewithrootattr-test=Best M←Majority-Value(examples)

foreachBest=Vido Examplesi←{examplesofBest=Vi} Subtree←Decision-Tree-Learning(Examplesi,attributes-Best,M) addabranchBest=Vi&SubtreetoTree

returnTree2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室40/895.5決策樹TheTDIDTfamilytreeCLS(1963)ACLS(1981)ID3(1979)ASSISTANT(1984)ID3(Quinlan,1979,1985)是一種自頂向下增長(zhǎng)樹的貪婪算法，在每個(gè)節(jié)點(diǎn)選取能最好的分類樣例的屬性。繼續(xù)這個(gè)過程直到這棵樹能完美分類訓(xùn)練樣例，或所有的屬性都已被使用過。Hunt’sConceptLearningSystemframework,CLSconstructsadecisiontreethatattemptstominimizethecostofclassifyinganobject.ACLS(PatersonandNiblett)是ID3的推廣。允許用于描述事例的每個(gè)屬性取任意多個(gè)整數(shù)值。而ID3和CLS只允許每個(gè)屬性取有限個(gè)離散值。使得算法可以處理圖像識(shí)別等更復(fù)雜問題。ASSISTANT(Kononenko,BratkoandRoskar)允許事例的屬性取連續(xù)的實(shí)數(shù)值；某些分類值可以屬于另一個(gè)分類；還可以從所提供的數(shù)據(jù)中選擇一個(gè)“較好”的訓(xùn)練集。用于醫(yī)學(xué)診斷問題?；镜臎Q策樹學(xué)習(xí)算法2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室41/895.5決策樹最為典型的決策樹學(xué)習(xí)算法是由J.RossQuinlan1979年提出的ID3算法。ID3（IterativeDichotomiser，迭代的二分器)算法是一種基于信息熵的決策樹算法，以Shannon的信息論為依據(jù)。ID3改進(jìn)、優(yōu)化：C4.5算法：1993年，Quinlan出版了專著《機(jī)器學(xué)習(xí)規(guī)劃》對(duì)C4.5算法進(jìn)行詳細(xì)描述。CART(ClassificationandRegressionTree)算法：描述了二叉決策樹的產(chǎn)生，可對(duì)連續(xù)型因變量進(jìn)行處理。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室42/895.5決策樹決策樹（又稱判定樹decisiontree)是一種樹結(jié)構(gòu)，其節(jié)點(diǎn)分為兩類：一類是內(nèi)節(jié)點(diǎn)，另一類是葉節(jié)點(diǎn)。

內(nèi)節(jié)點(diǎn)：一般用一個(gè)屬性名來標(biāo)記，代表對(duì)該屬性的測(cè)試。與內(nèi)節(jié)點(diǎn)連接的邊表示對(duì)該屬性測(cè)試的輸出。

葉節(jié)點(diǎn)：每個(gè)葉節(jié)點(diǎn)表示分類結(jié)果，一般用類標(biāo)號(hào)屬性值來標(biāo)記。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室43/895.5決策樹如何構(gòu)造一顆具有較高分類準(zhǔn)確率的決策樹？

關(guān)鍵：如何確定當(dāng)前要以哪個(gè)屬性作為測(cè)試屬性？1948年Shannon提出并發(fā)展了信息論，研究以數(shù)學(xué)的方法度量并研究信息。通過通信后對(duì)信源中各種符號(hào)出現(xiàn)的不確定程度的消除來度量信息量的大小。

（1）自信息量

設(shè)系統(tǒng)S中有多個(gè)可能發(fā)生的事件：a1,a2,…an，事件ai發(fā)生的概率為p(ai),i=1,2,…,n，p(ai)∈[0,1]p(ai)越大，事件ai不確定程度越低，反之，則越高。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室44/895.5決策樹用-logp(ai)表示事件ai的不確定程度，稱為ai的自信息量I(ai)I(ai)=-logp(ai)//log以2為底

（2）信息熵（entropy）如果將S看作一個(gè)信源，a1,a2,…an看成信源S發(fā)出的n種類型的信息，則信源S的不確定性可以用平均自信息量來度量，記為H(S)，定義：

2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室45/895.5決策樹決策樹的學(xué)習(xí)

決策樹學(xué)習(xí)的過程是從空樹開始，從訓(xùn)練集中不斷選擇測(cè)試屬性，逐步創(chuàng)建決策樹的過程。

設(shè)X為訓(xùn)練集，分為m類，第i類中的訓(xùn)練實(shí)例集合記為Ci，i=1,2,,…,m，那么X中任意一個(gè)實(shí)例屬于類Ci的概率估計(jì)值為：p(Ci)=|Ci|/|X|其中|X|表示集合X中的元素個(gè)數(shù)。訓(xùn)練集X關(guān)于類簇C={C1,C2,…,Cm}的分類不確定性可用下列的信息熵來度量：2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室46/895.5決策樹

在C已知的情況下（訓(xùn)練集中已確定），H(X,C)簡(jiǎn)寫為H(X)。

構(gòu)造決策樹的目的：將訓(xùn)練集X的不確定程度H(X)降至最低。從而可以對(duì)未知數(shù)據(jù)（X集以外的數(shù)據(jù)）進(jìn)行分類預(yù)測(cè)。

構(gòu)造決策樹的過程是從空樹開始不斷添加節(jié)點(diǎn)的過程，關(guān)鍵是選擇測(cè)試屬性，使得構(gòu)造起來的“半”決策樹最大限度減低訓(xùn)練集X的信息熵H(X)。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室47/895.5決策樹

IDcolorsizeactageinflated1YELLOWSMALLSTRETCHADULTT2YELLOWSMALLSTRETCHCHILDT3YELLOWSMALLDIPCHILDF4YELLOWLARGESTRETCHADULTT5YELLOWLARGEDIPADULTT6YELLOWLARGEDIPCHILDF7PURPLESMALLSTRETCHCHILDT8PURPLESMALLDIPADULTT9PURPLESMALLDIPCHILDF10PURPLELARGESTRETCHCHILDT2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室48/895.5決策樹設(shè)A={a1,a2,…,ar}為候選的測(cè)試屬性，那么屬性A對(duì)X形成一個(gè)劃分{[a1],[a2],…,[ar]}，其中[ai]表示X中在屬性A上取值為ai的實(shí)例集合，i=1,2,…,r?，F(xiàn)對(duì)任意i∈{1,2,…,r}，考慮類[ai]。令則{}形成[ai]的一個(gè)劃分，于是類[ai]關(guān)于類簇{}的分類不確定性程度為：2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室49/895.5決策樹其中，表示類[ai]中任意一個(gè)實(shí)例屬于的概率，令稱E(A)為由屬性A劃分成子集的信息熵。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室50/895.5決策樹當(dāng)選擇A作為測(cè)試屬性時(shí)，導(dǎo)致訓(xùn)練集X的信息熵的壓縮量為H(X,C)-E(A)該壓縮量成為信息增益（informationgain），記為gain(A)gain(A)=H(X,C)-E(A)構(gòu)造決策樹時(shí)，選擇當(dāng)前具有最大信息增益的屬性作為當(dāng)前節(jié)點(diǎn)的測(cè)試屬性，這使得X的信息熵下降最快，構(gòu)造的決策樹高度也相對(duì)較低。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室51/895.5決策樹示例：

（1）創(chuàng)建根節(jié)點(diǎn)

先計(jì)算gain(color)。inflated為類標(biāo)號(hào)屬性，對(duì)X的劃分為C={[T],[F]}={{1,2,3,4,5,7,8,10},{3,6,9}}={C1,C2}

其中

C1={1,2,3,4,5,7,8,10}=[T]C2={3,6,9}=[F]2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室52/895.5決策樹

H(X,C)=-p(C1)logp(C1)-p(C2)logp(C2)

2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室53/895.5決策樹屬性color對(duì)X形成的劃分為{{1,2,3,4,5,6},{7,8,9,10}}={[YELLOW],[PURPLE]}其中

[YELLOW]={1,2,3,4,5,6},[PURPLE]={7,8,9,10}與是

=[YELLOW]∩C1={1,2,3,4,5,6}∩{1,2,4,5,7,8,10}={1,2,4,5}=[YELLOW]∩C2={1,2,3,4,5,6}∩{3,6,9}={3,6}2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室54/895.5決策樹=[PURPLE]∩C1={7,8,9,10}∩{1,2,4,5,7,8,10}={7,8,10}=[PURPLE]∩C2={7,8,9,10}∩{3,6,9}={9}2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室55/895.5決策樹

這樣

gain(color)=H(X,C)-E(color)=0.88-0.88=0同樣的方法，可得

gain(size)=0gain(act)=0.88gain(age)=0.28act具有最高信息增益，選為根節(jié)點(diǎn)。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室56/895.5決策樹IDcolorsizeageinflated1YELLOWSMALLADULTT2YELLOWSMALLCHILDT4YELLOWLARGEADULTT7PURPLESMALLCHILDT10PURPLELARGECHILDT

actDIPSTRETCHIDcolorsizeageinflated3YELLOWSMALLCHILDF5YELLOWLARGEADULTT6YELLOWLARGECHILDF8PURPLESMALLADULTT9PURPLESMALLCHILDF2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室57/895.5決策樹（2）創(chuàng)建子節(jié)點(diǎn)

左邊的表類標(biāo)號(hào)屬性均為T，故創(chuàng)建葉節(jié)點(diǎn)。

右邊的表，作為新數(shù)據(jù)集，依據(jù)步驟（1），計(jì)算信息增益，選擇測(cè)試屬性，構(gòu)造內(nèi)節(jié)點(diǎn)，直到得到一顆完整的決策樹。actTageFTDIPSTRECHADULTCHILD2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室58/895.5決策樹

決策樹剪枝

噪聲數(shù)據(jù)和獨(dú)立（異常)點(diǎn)造成產(chǎn)生的分枝異常，過少的實(shí)例失去了統(tǒng)計(jì)意義，分枝不具代表性。

剪枝：減少異常分枝出現(xiàn)。

先剪枝技術(shù)：提前終止決策樹的“生長(zhǎng)”

后剪枝技術(shù)：對(duì)創(chuàng)建完畢的決策樹進(jìn)行剪枝，剪去“畸形發(fā)展”的分枝。

2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室59/895.5決策樹

從決策樹提取分類規(guī)則

決策樹：分類規(guī)則集act=STRETCH→inflated=Tact=DIP∧age=CHILD→inflated=Fact=DIP∧age=ADULT→inflated=T2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室60/895.5決策樹

決策樹學(xué)習(xí)的問題過度擬合（運(yùn)用剪枝技術(shù)）連續(xù)值屬性（連續(xù)值域分割為離散區(qū)間集合）屬性選擇度量（信息增益偏袒具有較多值的屬性）2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室61/895.5決策樹2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室62/895.5決策樹2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室63/895.5決策樹2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室64/895.5決策樹2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室65/895.5決策樹2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室66/89屬性的選擇（174個(gè)）5.5決策樹2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室67/895.5決策樹在機(jī)器人足球傳球應(yīng)用首先設(shè)定傳球隊(duì)員的位置，隨機(jī)設(shè)置接球和其他隊(duì)員的位置；傳球隊(duì)員確認(rèn)要傳球；其他隊(duì)員進(jìn)行跑位；傳球隊(duì)員根據(jù)決策樹確定接球隊(duì)員。接球隊(duì)員和其他隊(duì)員（指對(duì)手球員）都采用已經(jīng)訓(xùn)練好的截球動(dòng)作去獲得控球權(quán)。接球隊(duì)員獲得控球權(quán)就認(rèn)為是一次成功的傳球，否則，就認(rèn)為失敗。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室68/895.5決策樹2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室69/89傳球決策樹的生成：5.5決策樹2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室70/89序號(hào)屬性有否其他選擇餓否價(jià)格餐館類型餐館顧客人數(shù)等待時(shí)間（分鐘）決策：是否等待1是是$$$法式有人0-10是2是是$中餐客滿30~60否3否否$快餐有人0~10是4是是$中餐客滿10~30是5是否$$$法式客滿〉60否6否是$$意大利式有人0~10是7否否$快餐無人0~10否8否是$$中餐有人0~10是9否否$快餐客滿〉60否10是是$$$意大利式客滿10~30否11是否$中餐無人0~10否12否是$快餐客滿30~60是練習(xí)5.5決策樹2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室71/895.6強(qiáng)化學(xué)習(xí)概述

人類通常從與外界環(huán)境的交互中學(xué)習(xí)。所謂強(qiáng)化（reinforcement）學(xué)習(xí)是指從環(huán)境狀態(tài)到行為映射的學(xué)習(xí)，以使系統(tǒng)行為從環(huán)境中獲得的累積獎(jiǎng)勵(lì)值最大。在強(qiáng)化學(xué)習(xí)中，我們?cè)O(shè)計(jì)算法來把外界環(huán)境轉(zhuǎn)化為最大化獎(jiǎng)勵(lì)量的方式的動(dòng)作。我們并沒有直接告訴主體要做什么或者要采取哪個(gè)動(dòng)作,而是主體通過看哪個(gè)動(dòng)作得到了最多的獎(jiǎng)勵(lì)來自己發(fā)現(xiàn)。主體的動(dòng)作的影響不只是立即得到的獎(jiǎng)勵(lì)，而且還影響接下來的動(dòng)作和最終的獎(jiǎng)勵(lì)。試錯(cuò)搜索(trial-and-errorsearch)和延期強(qiáng)化(delayedreinforcement)這兩個(gè)特性是強(qiáng)化學(xué)習(xí)中兩個(gè)最重要的特性。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室72/895.6強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)技術(shù)是從控制理論、統(tǒng)計(jì)學(xué)、心理學(xué)等相關(guān)學(xué)科發(fā)展而來，最早可以追溯到巴甫洛夫的條件反射實(shí)驗(yàn)。但直到上世紀(jì)八十年代末、九十年代初強(qiáng)化學(xué)習(xí)技術(shù)才在人工智能、機(jī)器學(xué)習(xí)和自動(dòng)控制等領(lǐng)域中得到廣泛研究和應(yīng)用，并被認(rèn)為是設(shè)計(jì)智能系統(tǒng)的核心技術(shù)之一。特別是隨著強(qiáng)化學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)研究取得突破性進(jìn)展后，對(duì)強(qiáng)化學(xué)習(xí)的研究和應(yīng)用日益開展起來，成為目前機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)之一。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室73/895.6強(qiáng)化學(xué)習(xí)強(qiáng)化思想最先來源于心理學(xué)的研究。1911年Thorndike提出了效果律（LawofEffect）：一定情景下讓動(dòng)物感到舒服的行為，就會(huì)與此情景增強(qiáng)聯(lián)系（強(qiáng)化），當(dāng)此情景再現(xiàn)時(shí)，動(dòng)物的這種行為也更易再現(xiàn)；相反，讓動(dòng)物感覺不舒服的行為，會(huì)減弱與情景的聯(lián)系，此情景再現(xiàn)時(shí)，此行為將很難再現(xiàn)。換個(gè)說法，哪種行為會(huì)“記住”，會(huì)與刺激建立聯(lián)系，取決于行為產(chǎn)生的效果。動(dòng)物的試錯(cuò)學(xué)習(xí),包含兩個(gè)含義：選擇（selectional）和聯(lián)系（associative），對(duì)應(yīng)計(jì)算上的搜索和記憶。所以，1954年，Minsky在他的博士論文中實(shí)現(xiàn)了計(jì)算上的試錯(cuò)學(xué)習(xí)。同年，F(xiàn)arley和Clark也在計(jì)算上對(duì)它進(jìn)行了研究。強(qiáng)化學(xué)習(xí)一詞最早出現(xiàn)于科技文獻(xiàn)是1961年Minsky的論文“StepsTowardArtificialIntelligence”，此后開始廣泛使用。1969年，Minsky因在人工智能方面的貢獻(xiàn)而獲得計(jì)算機(jī)圖靈獎(jiǎng)。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室74/895.6強(qiáng)化學(xué)習(xí)1953到1957年，Bellman提出了求解最優(yōu)控制問題的一個(gè)有效方法：動(dòng)態(tài)規(guī)劃（dynamicprogramming）Bellman于1957年還提出了最優(yōu)控制問題的隨機(jī)離散版本，就是著名的馬爾可夫決策過程（MDP,Markovdecisionprocesse），1960年Howard提出馬爾可夫決策過程的策略迭代方法，這些都成為現(xiàn)代強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)。1972年，Klopf把試錯(cuò)學(xué)習(xí)和時(shí)序差分結(jié)合在一起。1978年開始，Sutton、Barto、Moore，包括Klopf等對(duì)這兩者結(jié)合開始進(jìn)行深入研究。1989年Watkins提出了Q-學(xué)習(xí)[Watkins1989]，也把強(qiáng)化學(xué)習(xí)的三條主線扭在了一起。1992年，Tesauro用強(qiáng)化學(xué)習(xí)成功了應(yīng)用到西洋雙陸棋（backgammon）中，稱為TD-Gammon。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室75/895.6強(qiáng)化學(xué)習(xí)

基本模型：Agent環(huán)境狀態(tài)s獎(jiǎng)勵(lì)r動(dòng)作a2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室76/895.6強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)系統(tǒng)接受環(huán)境狀態(tài)的輸入s，根據(jù)內(nèi)部的推理機(jī)制，系統(tǒng)輸出相應(yīng)的行為動(dòng)作a。環(huán)境在系統(tǒng)動(dòng)作作用a下，變遷到新的狀態(tài)s′。系統(tǒng)接受環(huán)境新狀態(tài)的輸入，同時(shí)得到環(huán)境對(duì)于系統(tǒng)的瞬時(shí)獎(jiǎng)懲反饋r。對(duì)于強(qiáng)化學(xué)習(xí)系統(tǒng)來講，其目標(biāo)是學(xué)一個(gè)行為策略π：S→A，使系統(tǒng)選擇的動(dòng)作能夠獲得環(huán)境獎(jiǎng)勵(lì)的累計(jì)值最大。

在學(xué)習(xí)過程中，強(qiáng)化學(xué)習(xí)技術(shù)的基本原理是：如果系統(tǒng)某個(gè)動(dòng)作導(dǎo)致環(huán)境正的獎(jiǎng)勵(lì)，那么系統(tǒng)以后產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)便會(huì)加強(qiáng)。反之系統(tǒng)產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)便減弱。這和生理學(xué)中的條件反射原理是接近的。2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室77/895.6強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)分類

強(qiáng)化學(xué)習(xí)算法可劃分為兩類：一類算法是先進(jìn)行模型的學(xué)習(xí)，再根據(jù)模型知識(shí)推導(dǎo)最優(yōu)策略，這類算法被稱為模型相關(guān)算法(Model-based)；另一類算法是直接計(jì)算最優(yōu)策略，這類算法被稱為模型無關(guān)算法(Model-free)。模型相關(guān)的強(qiáng)化學(xué)習(xí)算法包括時(shí)序差分算法(TD)、Sarsa算法和Dyna算法等。模型無關(guān)的強(qiáng)化學(xué)習(xí)算法包括蒙特卡羅算法(MonteCarlo)、Q學(xué)習(xí)算法和R學(xué)習(xí)算法等。

2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室78/895.6強(qiáng)化學(xué)習(xí)ReinforcementLearning–Learnfrominteractionlearnfromitsownexperience,andtheobjectiveistogetasmuchrewardaspossible.Thelearnerisnottoldwhichactionstotake,butinsteadmustdiscoverwhichactionsyieldthemostrewardbytryingthem.RLSystemInputsOutputs(“actions”)TrainingInfo=evaluations(“rewards”/“penalties”)與監(jiān)督學(xué)習(xí)對(duì)比SupervisedLearning–Learnfromexamplesprovidedbyaknowledgableexternalsupervisor.2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室79/895.6強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)的應(yīng)用

（1）

在游戲比賽中應(yīng)用Samuel在跳棋游戲中應(yīng)用了時(shí)序差分的思想。

（2）在控制系統(tǒng)中應(yīng)用

倒立擺控制過程控制2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室80/895.6強(qiáng)化學(xué)習(xí)

（3）

在機(jī)器人中應(yīng)用機(jī)器人導(dǎo)航系統(tǒng)

機(jī)器人協(xié)調(diào)動(dòng)作

機(jī)器人路徑規(guī)劃

機(jī)器人足球比賽中的2vs.1問題2023/4/3合肥工業(yè)大學(xué)人工智能與數(shù)據(jù)挖掘研究室81/895.7

集體學(xué)習(xí)—Boosting方法歸納學(xué)習(xí)通常是從假設(shè)空間中選出一個(gè)假設(shè)對(duì)新實(shí)例進(jìn)行分類預(yù)測(cè)集體學(xué)習(xí)是從假設(shè)空間中選擇一個(gè)作為整體的假設(shè)集合稱為集體，將它們對(duì)新實(shí)例的分類預(yù)測(cè)進(jìn)行合成，然后再輸出結(jié)果動(dòng)機(jī)—多個(gè)分類器出錯(cuò)的概率總會(huì)比

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

高級(jí)人工智能第5講機(jī)器學(xué)習(xí)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔