版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第2版人工智能通識(shí)教程第7章周蘇教授QQ:81505050強(qiáng)化學(xué)習(xí)導(dǎo)讀案例:谷歌制定新“守則”,確保機(jī)器人決策更安全谷歌的DeepMind機(jī)器人團(tuán)隊(duì)公布了三項(xiàng)新進(jìn)展,稱這將幫助機(jī)器人在實(shí)驗(yàn)室外做出更快、更好、更安全的決策。其中一項(xiàng)包括一個(gè)通過(guò)“機(jī)器人守則”收集訓(xùn)練數(shù)據(jù)的系統(tǒng),以確保你的機(jī)器人辦公室助理可以為你拿取更多的打印紙,但不會(huì)攻擊碰巧擋道的人類同事。01強(qiáng)化學(xué)習(xí)的定義02與監(jiān)督學(xué)習(xí)的區(qū)別03強(qiáng)化學(xué)習(xí)基礎(chǔ)理論04強(qiáng)化學(xué)習(xí)分類目錄/CONTENTS05強(qiáng)化學(xué)習(xí)的應(yīng)用強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,是一種廣泛應(yīng)用于創(chuàng)建智能系統(tǒng)的模式,它研究的主要問(wèn)題是:一個(gè)智能體如何在環(huán)境未知,只提供對(duì)環(huán)境的感知和偶爾的獎(jiǎng)勵(lì)情況下,對(duì)某項(xiàng)任務(wù)變得精通。在強(qiáng)化學(xué)習(xí)中,智能體在沒(méi)有“老師”的情況下,通過(guò)考慮執(zhí)行的最終成功或失敗,根據(jù)獎(jiǎng)勵(lì)與懲罰,主動(dòng)從自己的經(jīng)驗(yàn)中學(xué)習(xí),以使未來(lái)的獎(jiǎng)勵(lì)最大化。第7章強(qiáng)化學(xué)習(xí)由于強(qiáng)化學(xué)習(xí)涉及的知識(shí)面廣,尤其是涵蓋了諸多數(shù)學(xué)知識(shí),如貝爾曼方程、最優(yōu)控制等,更需要對(duì)強(qiáng)化學(xué)習(xí)有系統(tǒng)性的梳理與認(rèn)識(shí)。需要對(duì)強(qiáng)化學(xué)習(xí)在機(jī)器學(xué)習(xí)領(lǐng)域中的定位以及與其他機(jī)器學(xué)習(xí)之間的異同進(jìn)行辨析。第7章強(qiáng)化學(xué)習(xí)PART01強(qiáng)化學(xué)習(xí)的定義強(qiáng)化學(xué)習(xí),又稱增強(qiáng)學(xué)習(xí)或評(píng)價(jià)學(xué)習(xí),它側(cè)重在線學(xué)習(xí)并試圖在探索和利用之間保持平衡,用于描述和解決智能體在與環(huán)境的交互過(guò)程中,以“試錯(cuò)”的方式,通過(guò)學(xué)習(xí)策略達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的問(wèn)題。7.1強(qiáng)化學(xué)習(xí)的定義與監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)不要求預(yù)先給定任何數(shù)據(jù),主要表現(xiàn)在強(qiáng)化信號(hào)上,通過(guò)接收環(huán)境對(duì)動(dòng)作的獎(jiǎng)勵(lì)(反饋)獲得學(xué)習(xí)信息并更新模型參數(shù)。由環(huán)境提供的強(qiáng)化信號(hào)是對(duì)產(chǎn)生動(dòng)作的好壞作一種評(píng)價(jià)(通常為標(biāo)量信號(hào)),而不是告訴強(qiáng)化學(xué)習(xí)系統(tǒng)如何去產(chǎn)生正確的動(dòng)作。由于外部環(huán)境提供的信息很少,強(qiáng)化學(xué)習(xí)系統(tǒng)必須靠自身的經(jīng)歷進(jìn)行學(xué)習(xí),進(jìn)而在行動(dòng)—評(píng)價(jià)的環(huán)境中獲得知識(shí),改進(jìn)行動(dòng)方案以適應(yīng)環(huán)境。7.1強(qiáng)化學(xué)習(xí)的定義強(qiáng)化學(xué)習(xí)問(wèn)題主要在信息論、博弈論、自動(dòng)控制等領(lǐng)域討論,用于解釋有限理性條件下的平衡態(tài)、設(shè)計(jì)推薦系統(tǒng)和機(jī)器人交互系統(tǒng)。一些復(fù)雜的強(qiáng)化學(xué)習(xí)算法在一定程度上具備解決復(fù)雜問(wèn)題的通用智能,可以在圍棋和電子游戲中達(dá)到人類水平。7.1強(qiáng)化學(xué)習(xí)的定義強(qiáng)化學(xué)習(xí)的歷史主要沿兩條主線發(fā)展而來(lái),第一條主線是心理學(xué)上模仿動(dòng)物學(xué)習(xí)方式的試錯(cuò)法,第二條主線是求解最優(yōu)控制問(wèn)題,兩條主線最初是獨(dú)立發(fā)展的。心理學(xué)上的試錯(cuò)法從20世紀(jì)50年代末、60年代初貫穿在人工智能的發(fā)展中,并且一定程度上促進(jìn)了強(qiáng)化學(xué)習(xí)的發(fā)展。20世紀(jì)80年代初期,試錯(cuò)法隨著人工智能的熱潮而被學(xué)者們廣泛研究。而求解最優(yōu)控制法則是利用動(dòng)態(tài)規(guī)劃法求解最優(yōu)值函數(shù)。到20世紀(jì)80年代末,基于時(shí)間差分法求解的第三條主線開(kāi)始出現(xiàn),它吸收前面兩條主線的思想,奠定了現(xiàn)代強(qiáng)化學(xué)習(xí)在機(jī)器學(xué)習(xí)領(lǐng)域中的地位(表7-1)。7.1.1發(fā)展歷史表7-1強(qiáng)化學(xué)習(xí)中有影響力的算法7.1.1發(fā)展歷史有理由相信,深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合體——深度強(qiáng)化學(xué)習(xí)是人工智能的未來(lái)之路。智能的系統(tǒng)必須能夠在沒(méi)有持續(xù)監(jiān)督信號(hào)的情況下自主學(xué)習(xí),而深度強(qiáng)化學(xué)習(xí)正是自主學(xué)習(xí)的最佳代表,能夠給人工智能帶來(lái)更多發(fā)展空間與想象力。人工智能系統(tǒng)必須能夠自己去判斷對(duì)與錯(cuò),而不是告訴系統(tǒng)或者通過(guò)一種監(jiān)督模擬的方法實(shí)現(xiàn)。7.1.1發(fā)展歷史強(qiáng)化學(xué)習(xí)是從動(dòng)物學(xué)習(xí)、參數(shù)擾動(dòng)自適應(yīng)控制等理論發(fā)展而來(lái)的,其基本原理是:如果智能體的某個(gè)行為策略導(dǎo)致環(huán)境正的獎(jiǎng)賞(強(qiáng)化信號(hào)),那么該智能體以后產(chǎn)生這個(gè)行為策略的趨勢(shì)便會(huì)加強(qiáng)。智能體的目標(biāo)是在每個(gè)離散狀態(tài)發(fā)現(xiàn)最優(yōu)策略,以使期望的折扣獎(jiǎng)賞最大化。7.1.2基本模型和原理強(qiáng)化學(xué)習(xí)把學(xué)習(xí)看作試探評(píng)價(jià)過(guò)程。智能體選擇一個(gè)動(dòng)作用于環(huán)境,環(huán)境接受該動(dòng)作后狀態(tài)發(fā)生變化,同時(shí)產(chǎn)生一個(gè)強(qiáng)化信號(hào)(獎(jiǎng)或懲)反饋給智能體,智能體根據(jù)強(qiáng)化信號(hào)和環(huán)境當(dāng)前狀態(tài)再選擇下一個(gè)動(dòng)作,選擇的原則是使受到正強(qiáng)化(獎(jiǎng))的概率增大。選擇的動(dòng)作不僅影響立即強(qiáng)化值,而且影響環(huán)境下一時(shí)刻的狀態(tài)及最終的強(qiáng)化值。7.1.2基本模型和原理強(qiáng)化學(xué)習(xí)系統(tǒng)需要使用某種隨機(jī)單元,動(dòng)態(tài)地調(diào)整參數(shù),以達(dá)到強(qiáng)化信號(hào)最大,智能體在可能動(dòng)作空間中進(jìn)行搜索并發(fā)現(xiàn)正確的動(dòng)作。強(qiáng)化學(xué)習(xí)的常見(jiàn)模型是標(biāo)準(zhǔn)的馬爾可夫決策過(guò)程(MarkovDecisionProcess,MDP)。按給定條件,強(qiáng)化學(xué)習(xí)可分為基于模式強(qiáng)化學(xué)習(xí)和無(wú)模式強(qiáng)化學(xué)習(xí),以及主動(dòng)強(qiáng)化學(xué)習(xí)和被動(dòng)強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)的變體包括逆向強(qiáng)化學(xué)習(xí)、階層強(qiáng)化學(xué)習(xí)和部分可觀測(cè)系統(tǒng)的強(qiáng)化學(xué)習(xí)。求解強(qiáng)化學(xué)習(xí)問(wèn)題所使用的算法可分為策略搜索算法和值函數(shù)算法兩類??梢栽趶?qiáng)化學(xué)習(xí)中使用深度學(xué)習(xí)模型,形成深度強(qiáng)化學(xué)習(xí)。7.1.2基本模型和原理強(qiáng)化學(xué)習(xí)主要由智能體和環(huán)境組成,兩者間通過(guò)獎(jiǎng)勵(lì)、狀態(tài)、動(dòng)作3個(gè)信號(hào)進(jìn)行交互。由于智能體和環(huán)境的交互方式與人類和環(huán)境的交互方式類似,可以認(rèn)為強(qiáng)化學(xué)習(xí)是一套通用的學(xué)習(xí)框架,用來(lái)解決通用人工智能問(wèn)題,因此它也被稱為通用人工智能的機(jī)器學(xué)習(xí)方法。7.1.3網(wǎng)絡(luò)模型設(shè)計(jì)強(qiáng)化學(xué)習(xí)實(shí)際上是智能體在與環(huán)境進(jìn)行交互的過(guò)程中,學(xué)會(huì)最佳決策序列。強(qiáng)化學(xué)習(xí)的基本組成元素定義如下。(1)智能體:強(qiáng)化學(xué)習(xí)的本體,作為學(xué)習(xí)者或者決策者。(2)環(huán)境:強(qiáng)化學(xué)習(xí)智能體以外的一切,主要由狀態(tài)集組成。(3)狀態(tài):表示環(huán)境的數(shù)據(jù)。狀態(tài)集是環(huán)境中所有可能的狀態(tài)。(4)動(dòng)作:智能體可以做出的動(dòng)作。可以做出的所有動(dòng)作稱為動(dòng)作集。7.1.3網(wǎng)絡(luò)模型設(shè)計(jì)(5)獎(jiǎng)勵(lì):智能體在執(zhí)行一個(gè)動(dòng)作后,獲得的正/負(fù)獎(jiǎng)勵(lì)信號(hào)。獎(jiǎng)勵(lì)集是智能體可以獲得的所有反饋信息,正/負(fù)獎(jiǎng)勵(lì)信號(hào)亦可稱作正/負(fù)反饋信號(hào)。(6)策略:從環(huán)境狀態(tài)到動(dòng)作的映射學(xué)習(xí),該映射關(guān)系稱為策略。通俗地說(shuō),智能體選擇動(dòng)作的思考過(guò)程即為策略。(7)目標(biāo):智能體自動(dòng)尋找在連續(xù)時(shí)間序列里的最優(yōu)策略,這通常指最大化長(zhǎng)期累積獎(jiǎng)勵(lì)。7.1.3網(wǎng)絡(luò)模型設(shè)計(jì)在強(qiáng)化學(xué)習(xí)中,每一個(gè)自主體由兩個(gè)神經(jīng)網(wǎng)絡(luò)模塊組成,即行動(dòng)網(wǎng)絡(luò)和評(píng)估網(wǎng)絡(luò)。行動(dòng)網(wǎng)絡(luò)是根據(jù)當(dāng)前的狀態(tài)而決定下一個(gè)時(shí)刻施加到環(huán)境上去的最好動(dòng)作。圖7-3強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)模型設(shè)計(jì)7.1.3網(wǎng)絡(luò)模型設(shè)計(jì)對(duì)于行動(dòng)網(wǎng)絡(luò),強(qiáng)化學(xué)習(xí)算法允許它的輸出結(jié)點(diǎn)進(jìn)行隨機(jī)搜索,有了來(lái)自評(píng)估網(wǎng)絡(luò)的內(nèi)部強(qiáng)化信號(hào)后,行動(dòng)網(wǎng)絡(luò)的輸出結(jié)點(diǎn)即可有效地完成隨機(jī)搜索,并且大大提高選擇好的動(dòng)作的可能性,同時(shí)可以在線訓(xùn)練整個(gè)行動(dòng)網(wǎng)絡(luò)。用一個(gè)輔助網(wǎng)絡(luò)來(lái)為環(huán)境建模,評(píng)估網(wǎng)絡(luò)可單步和多步預(yù)報(bào)當(dāng)前由行動(dòng)網(wǎng)絡(luò)施加到環(huán)境上的動(dòng)作強(qiáng)化信號(hào),根據(jù)當(dāng)前狀態(tài)和模擬環(huán)境預(yù)測(cè)其標(biāo)量值。可以提前向行動(dòng)網(wǎng)絡(luò)提供有關(guān)將候選動(dòng)作的強(qiáng)化信號(hào),以及更多的獎(jiǎng)懲信息(內(nèi)部強(qiáng)化信號(hào)),以減少不確定性并提高學(xué)習(xí)速度。7.1.3網(wǎng)絡(luò)模型設(shè)計(jì)進(jìn)化強(qiáng)化學(xué)習(xí)對(duì)評(píng)估網(wǎng)絡(luò)使用時(shí)序差分預(yù)測(cè)方法TD和反向傳播BP算法進(jìn)行學(xué)習(xí),而對(duì)行動(dòng)網(wǎng)絡(luò)進(jìn)行遺傳操作,使用內(nèi)部強(qiáng)化信號(hào)作為行動(dòng)網(wǎng)絡(luò)的適應(yīng)度函數(shù)。網(wǎng)絡(luò)運(yùn)算分成兩個(gè)部分,即前向信號(hào)計(jì)算和遺傳強(qiáng)化計(jì)算。在前向信號(hào)計(jì)算時(shí),對(duì)評(píng)估網(wǎng)絡(luò)采用時(shí)序差分預(yù)測(cè)方法,由評(píng)估網(wǎng)絡(luò)對(duì)環(huán)境建模,可以進(jìn)行外部強(qiáng)化信號(hào)的多步預(yù)測(cè),為行動(dòng)網(wǎng)絡(luò)提供更有效的內(nèi)部強(qiáng)化信號(hào),使它產(chǎn)生更恰當(dāng)?shù)男袆?dòng)。內(nèi)部強(qiáng)化信號(hào)使行動(dòng)網(wǎng)絡(luò)、評(píng)估網(wǎng)絡(luò)在每一步都可以進(jìn)行學(xué)習(xí),而不必等待外部強(qiáng)化信號(hào),從而大大加速了兩個(gè)網(wǎng)絡(luò)的學(xué)習(xí)。7.1.3網(wǎng)絡(luò)模型設(shè)計(jì)以采用強(qiáng)化學(xué)習(xí)方法研究未知環(huán)境下機(jī)器人導(dǎo)航問(wèn)題為例,由于環(huán)境的復(fù)雜性和不確定性,這些問(wèn)題變得更為復(fù)雜,因此,在強(qiáng)化學(xué)習(xí)的設(shè)計(jì)中要考慮:(1)如何表示狀態(tài)空間和動(dòng)作空間。(2)如何選擇建立信號(hào)以及如何通過(guò)學(xué)習(xí)來(lái)修正不同狀態(tài)-動(dòng)作對(duì)的值。(3)如何根據(jù)這些值來(lái)選擇合適的動(dòng)作。7.1.4設(shè)計(jì)考慮在標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)中,智能體作為學(xué)習(xí)系統(tǒng),獲取外部環(huán)境的當(dāng)前狀態(tài)信息,對(duì)環(huán)境采取試探行為并獲取環(huán)境反饋的對(duì)此動(dòng)作的評(píng)價(jià)和新的環(huán)境狀態(tài)。如果智能體的某個(gè)動(dòng)作導(dǎo)致環(huán)境正的獎(jiǎng)賞(立即報(bào)酬),那么智能體以后產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)便會(huì)加強(qiáng);反之,智能體產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)將減弱。在學(xué)習(xí)系統(tǒng)的控制行為與環(huán)境反饋的狀態(tài)及評(píng)價(jià)的反復(fù)交互作用中,以學(xué)習(xí)方式不斷修改從狀態(tài)到動(dòng)作的映射策略,以達(dá)到優(yōu)化系統(tǒng)性能目的。學(xué)習(xí)從環(huán)境狀態(tài)到行為的映射,使得智能體選擇的行為能夠獲得環(huán)境最大的獎(jiǎng)賞,使外部環(huán)境對(duì)學(xué)習(xí)系統(tǒng)在某種意義下的評(píng)價(jià)(或整個(gè)系統(tǒng)的運(yùn)行性能)為最佳。7.1.4設(shè)計(jì)考慮強(qiáng)化學(xué)習(xí)使人們從手動(dòng)構(gòu)造行為和標(biāo)記監(jiān)督學(xué)習(xí)所需的大量數(shù)據(jù)集(或人工編寫(xiě)控制策略)中解脫出來(lái)。它在機(jī)器人技術(shù)中的應(yīng)用中特別有價(jià)值,該領(lǐng)域需要能夠處理連續(xù)的、高維的、部分可觀測(cè)環(huán)境的方法,在這樣的環(huán)境中,成功的行為可能包含成千上萬(wàn)甚至數(shù)百萬(wàn)的基元?jiǎng)幼鳌?.1.5數(shù)據(jù)依賴性強(qiáng)化學(xué)習(xí)的方法有很多且錯(cuò)綜復(fù)雜,這是因?yàn)椴⒉淮嬖谝环N公認(rèn)的最佳方法。(1)智能體整體的設(shè)計(jì)限制了學(xué)習(xí)所需的信息類型?!せ谀P偷膹?qiáng)化學(xué)習(xí)智能體需要(或者配備有)環(huán)境的轉(zhuǎn)移模型,并學(xué)習(xí)效用函數(shù)。·無(wú)模型強(qiáng)化學(xué)習(xí)智能體可以學(xué)習(xí)一個(gè)動(dòng)作效用函數(shù)或?qū)W習(xí)一個(gè)策略?;谀P秃蜔o(wú)模型方法相比,核心問(wèn)題是智能體函數(shù)的最佳表示方式。隨著環(huán)境變得更加復(fù)雜,基于模型方法的優(yōu)勢(shì)將變得越發(fā)明顯。7.1.5數(shù)據(jù)依賴性(2)效用函數(shù)可以通過(guò)如下幾種方法進(jìn)行學(xué)習(xí)?!ぶ苯有в霉烙?jì)將觀測(cè)到的總獎(jiǎng)勵(lì)用于給定狀態(tài),作為學(xué)習(xí)其效用的樣本直接來(lái)源?!ぷ赃m應(yīng)動(dòng)態(tài)規(guī)劃(ADP)從觀測(cè)中學(xué)習(xí)模型和獎(jiǎng)勵(lì)函數(shù),然后使用價(jià)值或策略迭代來(lái)獲得效用或最優(yōu)策略。ADP較好地利用了環(huán)境的鄰接結(jié)構(gòu)作為狀態(tài)效用的局部約束?!r(shí)序差分(TD)方法調(diào)整效用估計(jì),使其與后繼狀態(tài)的效用估計(jì)相一致。它是ADP方法的一個(gè)簡(jiǎn)單近似,且學(xué)習(xí)時(shí)不需要預(yù)先知道轉(zhuǎn)移模型。此外,使用一個(gè)學(xué)習(xí)模型來(lái)產(chǎn)生偽經(jīng)驗(yàn)可以學(xué)習(xí)得更快。7.1.5數(shù)據(jù)依賴性(3)可以通過(guò)ADP方法或TD方法學(xué)習(xí)動(dòng)作效用函數(shù)或Q函數(shù)。在使用TD方法時(shí),在學(xué)習(xí)或動(dòng)作選擇階段都不需要模型,簡(jiǎn)化了學(xué)習(xí)問(wèn)題,但同時(shí)潛在地限制了它在復(fù)雜環(huán)境中的學(xué)習(xí)能力,因?yàn)橹悄荏w無(wú)法模擬可能的動(dòng)作過(guò)程的結(jié)果。進(jìn)行動(dòng)作選擇時(shí),它必須在這些動(dòng)作的價(jià)值估計(jì)的有用新信息之間進(jìn)行權(quán)衡。探索問(wèn)題的精確解是無(wú)法獲得的,但一些簡(jiǎn)單的啟發(fā)式可以給出一個(gè)合理的結(jié)果。同時(shí)探索性智能體也必須注意避免過(guò)早陷入終止態(tài)。7.1.5數(shù)據(jù)依賴性(4)在大的狀態(tài)空間中,強(qiáng)化學(xué)習(xí)算法必須進(jìn)行函數(shù)近似表示,以便在狀態(tài)空間進(jìn)行泛化。深度強(qiáng)化學(xué)習(xí)采用深度神經(jīng)網(wǎng)絡(luò)作為近似函數(shù),已經(jīng)在一些困難問(wèn)題上取得了相當(dāng)大的成功。獎(jiǎng)勵(lì)設(shè)計(jì)和分層強(qiáng)化學(xué)習(xí)有助于學(xué)習(xí)復(fù)雜的行為,特別是在獎(jiǎng)勵(lì)稀少且需要長(zhǎng)動(dòng)作序列才能獲得獎(jiǎng)勵(lì)的情況下。7.1.5數(shù)據(jù)依賴性(5)策略搜索方法直接對(duì)策略的表示進(jìn)行操作,并試圖根據(jù)觀測(cè)到的表現(xiàn)對(duì)其進(jìn)行改進(jìn),在隨機(jī)領(lǐng)域中,性能的劇烈變化是一個(gè)嚴(yán)重的問(wèn)題,而在模擬領(lǐng)域中可以通過(guò)預(yù)先固定隨機(jī)程度來(lái)克服這個(gè)難點(diǎn)。(6)難以獲得正確的獎(jiǎng)勵(lì)函數(shù)時(shí),通過(guò)觀測(cè)專家行為進(jìn)行學(xué)徒學(xué)習(xí)是一種有效的解決方案,模仿學(xué)習(xí)將問(wèn)題轉(zhuǎn)換為從專家的狀態(tài)—?jiǎng)幼鲗?duì)中進(jìn)行學(xué)習(xí)的監(jiān)督學(xué)習(xí)問(wèn)題,逆強(qiáng)化學(xué)習(xí)從專家的行為中推斷有關(guān)獎(jiǎng)勵(lì)函數(shù)的信息。7.1.5數(shù)據(jù)依賴性PART02與監(jiān)督學(xué)習(xí)的區(qū)別從嚴(yán)格意義上說(shuō),AlphaGo程序在人機(jī)圍棋對(duì)弈中打敗韓國(guó)圍棋大師李世石。其中對(duì)人工智能、機(jī)器學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)這3種技術(shù)都有所使用,但使用得更多的還是深度強(qiáng)化學(xué)習(xí)。7.2與監(jiān)督學(xué)習(xí)的區(qū)別機(jī)器學(xué)習(xí)方法主要分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的共同點(diǎn)是兩者都需要大量的數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練,但兩者的學(xué)習(xí)方式不盡相同,兩者所需的數(shù)據(jù)類型也有差異,監(jiān)督學(xué)習(xí)需要多樣化的標(biāo)簽數(shù)據(jù),強(qiáng)化學(xué)習(xí)則需要帶有回報(bào)的交互數(shù)據(jù)。7.2與監(jiān)督學(xué)習(xí)的區(qū)別強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)不同之處具體有以下5個(gè)方面。(1)沒(méi)有監(jiān)督者,只有獎(jiǎng)勵(lì)信號(hào)。監(jiān)督學(xué)習(xí)要基于大量作為訓(xùn)練與學(xué)習(xí)目標(biāo)的標(biāo)注數(shù)據(jù)進(jìn)行,而強(qiáng)化學(xué)習(xí)中沒(méi)有監(jiān)督者,它不是由已經(jīng)標(biāo)注好的樣本數(shù)據(jù)來(lái)告訴系統(tǒng)什么是最佳動(dòng)作。換言之,智能體不能夠馬上獲得監(jiān)督信號(hào),只是從環(huán)境的反饋中獲得獎(jiǎng)勵(lì)信號(hào)。(2)反饋延遲。實(shí)際上是延遲獎(jiǎng)勵(lì),環(huán)境可能不會(huì)在每一步動(dòng)作上都給與獎(jiǎng)勵(lì),有時(shí)候需要完成一連串的動(dòng)作,甚至是完成整個(gè)任務(wù)后才能獲得獎(jiǎng)勵(lì)。7.2與監(jiān)督學(xué)習(xí)的區(qū)別(3)試錯(cuò)學(xué)習(xí)。因?yàn)闆](méi)有監(jiān)督,所以沒(méi)有直接的指導(dǎo)信息,智能體要與環(huán)境不斷進(jìn)行交互,通過(guò)試錯(cuò)的方式來(lái)獲得最優(yōu)策略。(4)智能體的動(dòng)作會(huì)影響其后續(xù)數(shù)據(jù)。智能體選擇不同動(dòng)作會(huì)進(jìn)入不同的狀態(tài)。由于強(qiáng)化學(xué)習(xí)基于馬爾可夫決策過(guò)程(當(dāng)前狀態(tài)只與上一個(gè)狀態(tài)有關(guān),與其他狀態(tài)無(wú)關(guān)),因此下一個(gè)時(shí)間步所獲得的狀態(tài)變化,環(huán)境的反饋也會(huì)隨之發(fā)生變化。(5)時(shí)間序列很重要。強(qiáng)化學(xué)習(xí)更加注重輸入數(shù)據(jù)的序列性,下一個(gè)時(shí)間步t的輸入依賴于前一個(gè)時(shí)間步t-1的狀態(tài)(即馬爾可夫?qū)傩裕?.2與監(jiān)督學(xué)習(xí)的區(qū)別一般而言,監(jiān)督學(xué)習(xí)是通過(guò)對(duì)數(shù)據(jù)進(jìn)行分析,找到數(shù)據(jù)的表達(dá)模型,隨后利用該模型,在新輸入的數(shù)據(jù)上進(jìn)行決策。下圖為監(jiān)督學(xué)習(xí)的一般方法,主要分為訓(xùn)練階段和預(yù)測(cè)階段。7.2.1學(xué)習(xí)方式在訓(xùn)練階段,首先根據(jù)原始數(shù)據(jù)進(jìn)行特征提?。ā疤卣鞴こ獭保?。得到數(shù)據(jù)特征后,可以使用決策樹(shù)、隨機(jī)森林等機(jī)器學(xué)習(xí)算法去分析數(shù)據(jù)之間的關(guān)系,最終得到關(guān)于輸入數(shù)據(jù)的模型。在預(yù)測(cè)階段,同樣按照特征工程的方法抽取數(shù)據(jù)的特征,使用訓(xùn)練階段得到的模型對(duì)特征向量進(jìn)行預(yù)測(cè),最終得到數(shù)據(jù)所屬的分類標(biāo)簽。值得注意的是,驗(yàn)證模型使用驗(yàn)證集數(shù)據(jù)對(duì)模型進(jìn)行反向驗(yàn)證,確保模型的正確性和精度。7.2.1學(xué)習(xí)方式深度學(xué)習(xí)的一般方法與傳統(tǒng)機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的一般方法相比少了特征工程,從而大大降低了業(yè)務(wù)領(lǐng)域門(mén)檻與人力成本。7.2.1學(xué)習(xí)方式監(jiān)督學(xué)習(xí)分為預(yù)測(cè)和訓(xùn)練兩個(gè)階段,學(xué)習(xí)只能發(fā)生在訓(xùn)練階段,該階段會(huì)出現(xiàn)一個(gè)監(jiān)督信號(hào)(即具有學(xué)習(xí)的能力,數(shù)學(xué)上稱為“差分信號(hào)”)。例如在語(yǔ)音識(shí)別任務(wù)中,需要收集大量的語(yǔ)音語(yǔ)料數(shù)據(jù)和該語(yǔ)料對(duì)應(yīng)標(biāo)注好的文本內(nèi)容。有了原始的語(yǔ)音數(shù)據(jù)和對(duì)應(yīng)的語(yǔ)音標(biāo)注數(shù)據(jù)后,可通過(guò)監(jiān)督學(xué)習(xí)方法收集數(shù)據(jù)中的模式,例如對(duì)語(yǔ)音分類、判別該語(yǔ)音音素所對(duì)應(yīng)的單詞等。7.2.1學(xué)習(xí)方式上述標(biāo)注語(yǔ)音文本內(nèi)容相當(dāng)于一個(gè)監(jiān)督信號(hào),等語(yǔ)音識(shí)別模型訓(xùn)練完成后,在預(yù)測(cè)階段就不再需要該監(jiān)督信號(hào),生成的語(yǔ)言識(shí)別模型僅用作新數(shù)據(jù)的預(yù)測(cè)。如果想要重新修改監(jiān)督信號(hào),則需要對(duì)語(yǔ)言識(shí)別模型進(jìn)行重新訓(xùn)練。由于監(jiān)督學(xué)習(xí)的訓(xùn)練階段非常耗時(shí),現(xiàn)在有許多學(xué)者對(duì)遷移學(xué)習(xí)進(jìn)行深入研究,以期望縮短監(jiān)督學(xué)習(xí)的訓(xùn)練時(shí)間。強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)截然不同,其學(xué)習(xí)過(guò)程與生物的自然學(xué)習(xí)過(guò)程非常類似。具體而言,智能體在與環(huán)境的互動(dòng)過(guò)程中,通過(guò)不斷探索與試錯(cuò)的方式,利用基于正/負(fù)獎(jiǎng)勵(lì)的方式進(jìn)行學(xué)習(xí)。7.2.1學(xué)習(xí)方式強(qiáng)化學(xué)習(xí)不需要像監(jiān)督學(xué)習(xí)那樣依賴先驗(yàn)知識(shí)數(shù)據(jù)。例如線上游戲,越來(lái)越多的用戶使用移動(dòng)終端進(jìn)行游戲,使數(shù)據(jù)的獲取來(lái)源更為廣泛。比如圍棋游戲,圍棋的棋譜可以很容易得到,這些棋譜是人類玩家的動(dòng)作行為記錄,如果只用監(jiān)督學(xué)習(xí)進(jìn)行建模,模型學(xué)習(xí)出的對(duì)弈技能很有可能只局限在所收集的有限棋譜內(nèi)。當(dāng)出現(xiàn)新的下棋方式時(shí),模型可能會(huì)因?yàn)檎也坏饺肿顑?yōu)解而使得棋力大減。7.2.2先驗(yàn)知識(shí)與標(biāo)識(shí)數(shù)據(jù)強(qiáng)化學(xué)習(xí)通過(guò)自我博弈方式產(chǎn)生更多的標(biāo)準(zhǔn)數(shù)據(jù)。在強(qiáng)化學(xué)習(xí)中,如果有基本棋譜,便可以利用系統(tǒng)自我學(xué)習(xí)和獎(jiǎng)勵(lì)的方式,系統(tǒng)自動(dòng)學(xué)習(xí)更多的棋譜或者使用兩個(gè)智能體進(jìn)行互相博弈,進(jìn)而為系統(tǒng)自身補(bǔ)充更多的棋譜信息,不受標(biāo)注數(shù)據(jù)和先驗(yàn)知識(shí)的限制??傊瑥?qiáng)化學(xué)習(xí)可以利用較少的訓(xùn)練信息,讓系統(tǒng)不斷地自主學(xué)習(xí),自我補(bǔ)充更多的信息,進(jìn)而免受監(jiān)督者的限制。7.2.2先驗(yàn)知識(shí)與標(biāo)識(shí)數(shù)據(jù)另外,可以使用遷移學(xué)習(xí)來(lái)減少標(biāo)注數(shù)據(jù)的數(shù)量,因?yàn)樗谝欢ǔ潭壬贤黄屏吮O(jiān)督學(xué)習(xí)中存在的限制,提前在大量標(biāo)注數(shù)據(jù)信息中提取其高維特征,從而減少后續(xù)復(fù)用模型的輸入數(shù)據(jù)。遷移學(xué)習(xí)是把已經(jīng)訓(xùn)練好的模型參數(shù)遷移到新的模型以幫助訓(xùn)練新模型??紤]到大部分?jǐn)?shù)據(jù)或任務(wù)存在相關(guān)性,通過(guò)遷移學(xué)習(xí)可以將已經(jīng)學(xué)到的模型參數(shù)(也可理解為模型學(xué)到的知識(shí))通過(guò)某種方式分享給新模型,進(jìn)而不需要從零開(kāi)始學(xué)習(xí),加快并優(yōu)化新模型的學(xué)習(xí)效率。7.2.2先驗(yàn)知識(shí)與標(biāo)識(shí)數(shù)據(jù)PART03強(qiáng)化學(xué)習(xí)基礎(chǔ)理論強(qiáng)化學(xué)習(xí)的基本元素包括智能體、環(huán)境、狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì),智能體通過(guò)狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)與環(huán)境進(jìn)行交互,不斷地根據(jù)環(huán)境的反饋信息進(jìn)行試錯(cuò)學(xué)習(xí)。7.3強(qiáng)化學(xué)習(xí)基礎(chǔ)理論在強(qiáng)化學(xué)習(xí)中,可以將數(shù)百種不同的算法按智能體所處的環(huán)境分成兩種類型:一種是環(huán)境已知,叫作基于模型,就是智能體已經(jīng)對(duì)環(huán)境進(jìn)行建模;另一種是環(huán)境未知,叫作免模型。7.3.1基于模型與免模型環(huán)境(1)基于模型的強(qiáng)化學(xué)習(xí)。例如,工廠載貨機(jī)器人通過(guò)傳感器感應(yīng)地面上的航線來(lái)控制其行走。由于地面上的航線是事先規(guī)劃好的,工廠的環(huán)境也是可控已知的,因此可以將其視為基于模型的任務(wù)。圖7-7基于模型的任務(wù):工廠AGV自動(dòng)載重車7.3.1基于模型與免模型環(huán)境在這些方法中,智能體使用環(huán)境的轉(zhuǎn)移模型來(lái)幫助解釋獎(jiǎng)勵(lì)信號(hào)并決定如何行動(dòng)。模型最初可能是未知的,在這種情況下,智能體通過(guò)觀測(cè)其行為的影響來(lái)學(xué)習(xí)模型;或者它也可能是已知的,例如,國(guó)際象棋程序可能知道國(guó)際象棋的規(guī)則,即便它不知道如何選擇好的走法。在部分可觀測(cè)的環(huán)境中,轉(zhuǎn)移模型對(duì)于狀態(tài)估計(jì)也是很有用的?;谀P偷膹?qiáng)化學(xué)習(xí)系統(tǒng)通常會(huì)學(xué)習(xí)一個(gè)效用函數(shù)U(s)。在強(qiáng)化學(xué)習(xí)的相關(guān)文獻(xiàn)中,更多地涉及運(yùn)籌學(xué)而不是經(jīng)濟(jì)學(xué),效用函數(shù)通常稱為價(jià)值函數(shù)并表示為V(s)。7.3.1基于模型與免模型環(huán)境不過(guò)在現(xiàn)實(shí)情況下,環(huán)境的狀態(tài)轉(zhuǎn)移概率、獎(jiǎng)勵(lì)函數(shù)往往很難提前獲取,甚至很難知道環(huán)境中一共有多少個(gè)狀態(tài)。7.3.1基于模型與免模型環(huán)境(2)無(wú)模型強(qiáng)化學(xué)習(xí)。例如汽車的自動(dòng)駕駛系統(tǒng),在現(xiàn)實(shí)交通環(huán)境下,很多事情是無(wú)法預(yù)先估計(jì)的,例如路人的行為、往來(lái)車輛的行走軌跡等情況,因此可以將其視為免模型的任務(wù)。在這種方式中,智能體不知道環(huán)境的轉(zhuǎn)移模型,也不會(huì)學(xué)習(xí)它。相反,它直接學(xué)習(xí)如何采取行為方式,可以使用動(dòng)態(tài)規(guī)劃法求解。其中主要有以下兩種形式,動(dòng)作效用函數(shù)學(xué)習(xí)和策略搜索??梢允褂妹商乜宸ê蜁r(shí)間差分法來(lái)求解,還可以使用值函數(shù)近似、梯度策略等方法。7.3.1基于模型與免模型環(huán)境在強(qiáng)化學(xué)習(xí)中,“探索”的目的是找到更多有關(guān)環(huán)境的信息,而“利用”的目的是利用已知的環(huán)境信息來(lái)最大限度地提高獎(jiǎng)勵(lì)。簡(jiǎn)而言之,“探索”是嘗試新的動(dòng)作行為,而“利用”則是從已知?jiǎng)幼髦羞x擇下一步的行動(dòng)。例如在一些策略游戲中,探索階段玩家并不知道地圖上被遮蓋的地方到底有什么,敵人是否在那里,所以需要一個(gè)探路者游走于未知地圖區(qū)域進(jìn)行探索,以便能夠獲得更多地圖相關(guān)的環(huán)境知識(shí),便于玩家制定作戰(zhàn)策略。當(dāng)開(kāi)拓完地圖之后,就能全面了解地圖上的環(huán)境狀態(tài)信息。接下來(lái)玩家便可以利用探索到的信息,去找到一個(gè)最優(yōu)的作戰(zhàn)策略。7.3.2探索與利用實(shí)際上,“探索”和“利用”哪個(gè)重要,以及如何權(quán)衡兩者之間的關(guān)系,是需要深入思考的。在基于模型的環(huán)境下,已經(jīng)知道環(huán)境的所有信息(環(huán)境完備信息),智能體不需要在環(huán)境中進(jìn)行探索,而只要簡(jiǎn)單利用環(huán)境中已知信息即可;可是在免模型環(huán)境下,探索和利用兩者同等重要,既需要知道更多有關(guān)環(huán)境的信息,又需要針對(duì)這些已知信息來(lái)提高獎(jiǎng)勵(lì)。7.3.2探索與利用不過(guò),“探索”和“利用”兩者本身是矛盾的,因?yàn)樵趯?shí)際運(yùn)行中,算法能夠嘗試的次數(shù)是有限的,增加了探索的次數(shù)則利用次數(shù)會(huì)降低,反之亦然。這就是強(qiáng)化學(xué)習(xí)中的探索—利用困境。如果想要最大化累積獎(jiǎng)勵(lì),就必須在探索和利用之間進(jìn)行權(quán)衡。7.3.2探索與利用在求解強(qiáng)化學(xué)習(xí)問(wèn)題時(shí),具體還有免模型預(yù)測(cè)和免模型控制,以及基于模型預(yù)測(cè)和基于模型控制。“預(yù)測(cè)”的目的是驗(yàn)證未來(lái)——對(duì)于一個(gè)給定的策略,智能體需要去驗(yàn)證該策略能夠到達(dá)的理想狀態(tài)值,以確定該策略的好壞。而“控制”則是優(yōu)化未來(lái)——給出一個(gè)初始化策略,智能體希望基于該給定的初始化策略,找到一個(gè)最優(yōu)的策略。7.3.3預(yù)測(cè)與控制相比較而言,“預(yù)測(cè)”和“控制”是探索和利用的抽象詞語(yǔ)。預(yù)測(cè)對(duì)應(yīng)于探索,希望在未知的環(huán)境中探索更多可能的策略,然后驗(yàn)證該策略的狀態(tài)值函數(shù)??刂茖?duì)應(yīng)于利用,在未知的環(huán)境中找到一些策略,希望在這些策略中找到一個(gè)最好的策略。7.3.3預(yù)測(cè)與控制PART04強(qiáng)化學(xué)習(xí)分類在強(qiáng)化學(xué)習(xí)中,智能體是在沒(méi)有“老師”的情況下,通過(guò)考慮自己的最終成功或失敗,根據(jù)獎(jiǎng)勵(lì)與懲罰,主動(dòng)地從自己的經(jīng)驗(yàn)中學(xué)習(xí),以使未來(lái)的獎(jiǎng)勵(lì)最大化。例如,策略搜索是用于強(qiáng)化學(xué)習(xí)問(wèn)題的方法。從某些層面來(lái)說(shuō),策略搜索是各種方法中最簡(jiǎn)單的一種,其核心思想是,只要策略的表現(xiàn)有所改進(jìn),就繼續(xù)調(diào)整策略,直到停止。7.4強(qiáng)化學(xué)習(xí)分類考慮學(xué)習(xí)下國(guó)際象棋的問(wèn)題。我們首先將其視為監(jiān)督學(xué)習(xí)問(wèn)題。下棋智能體函數(shù)把棋盤(pán)局面作為輸入并返回對(duì)應(yīng)的棋子招式,因此,我們通過(guò)為它提供關(guān)于國(guó)際象棋棋盤(pán)局面的樣本來(lái)訓(xùn)練此函數(shù),其中每個(gè)樣本都標(biāo)有正確的走法。假設(shè)我們恰好有一個(gè)可用數(shù)據(jù)庫(kù),其中包括數(shù)百萬(wàn)局象棋大師的對(duì)局,每場(chǎng)對(duì)局都包含一系列的局面和走法。除少數(shù)例外,我們認(rèn)為獲勝者的招式即便不總是完美的,但也是較好的。因此,我們得到了一個(gè)很有前途的訓(xùn)練集。現(xiàn)在的問(wèn)題在于,與所有可能的國(guó)際象棋局面構(gòu)成的空間(約1040個(gè))相比,樣本相當(dāng)少(約108個(gè))。7.4.1從獎(jiǎng)勵(lì)中學(xué)習(xí)在新的對(duì)局中,人們很快就會(huì)遇到與數(shù)據(jù)庫(kù)中的局面明顯不同的局面。那么,此時(shí)經(jīng)過(guò)訓(xùn)練的智能體很可能會(huì)失效——不僅是因?yàn)樗恢雷约合缕宓哪繕?biāo)是什么(把對(duì)手將死),它甚至不知道這些招式對(duì)棋子的局面有什么影響。當(dāng)然,國(guó)際象棋只是真實(shí)世界的一小部分。對(duì)于更加實(shí)際的問(wèn)題,我們需要更大的專業(yè)數(shù)據(jù)庫(kù),而它們實(shí)際上并不存在。7.4.1從獎(jiǎng)勵(lì)中學(xué)習(xí)取而代之的另一種選擇是使用強(qiáng)化學(xué)習(xí),在這種學(xué)習(xí)中,智能體將與世界進(jìn)行互動(dòng),并不時(shí)收到反映其表現(xiàn)的獎(jiǎng)勵(lì)(強(qiáng)化)。例如,在國(guó)際象棋中,獲勝的獎(jiǎng)勵(lì)為1,失敗的獎(jiǎng)勵(lì)為0,平局的獎(jiǎng)勵(lì)為1/2。強(qiáng)化學(xué)習(xí)的目標(biāo)也是相同的:最大化期望獎(jiǎng)勵(lì)總和。強(qiáng)化學(xué)習(xí)不同于“僅僅解決MDP(馬爾可夫決策過(guò)程)”,因?yàn)橹悄荏w沒(méi)有將MDP作為待解決的問(wèn)題,智能體本身處于MDP中。它可能不知道轉(zhuǎn)移模型或獎(jiǎng)勵(lì)函數(shù),它必須采取行動(dòng)以了解更多信息。想象一下,你正在玩一個(gè)你不了解規(guī)則的新游戲,那么在采取若干個(gè)行動(dòng)后,裁判會(huì)告訴你“你輸了”。這個(gè)簡(jiǎn)單的例子就是強(qiáng)化學(xué)習(xí)的一個(gè)縮影。7.4.1從獎(jiǎng)勵(lì)中學(xué)習(xí)從人工智能系統(tǒng)設(shè)計(jì)者的角度看來(lái),向智能體提供獎(jiǎng)勵(lì)信號(hào)通常比提供有標(biāo)簽的行動(dòng)樣本要容易得多。首先,獎(jiǎng)勵(lì)函數(shù)通常非常簡(jiǎn)潔且易于指定;它只需幾行代碼就可以告訴國(guó)際象棋智能體這局比賽是贏了還是輸了,或者告訴賽車智能體它贏得或輸?shù)袅吮荣悾蛘咚罎⒘?。其次,我們不必是相關(guān)領(lǐng)域的專家,即不需要能在任何情況下提供正確動(dòng)作,但如果我們?cè)噲D應(yīng)用監(jiān)督學(xué)習(xí)的方法,那么這些將是必要的。7.4.1從獎(jiǎng)勵(lì)中學(xué)習(xí)然而,事實(shí)證明,一點(diǎn)點(diǎn)的專業(yè)知識(shí)對(duì)強(qiáng)化學(xué)習(xí)會(huì)有很大的幫助??紤]國(guó)際象棋和賽車比賽的輸贏獎(jiǎng)勵(lì)(被稱為稀疏獎(jiǎng)勵(lì)),因?yàn)樵诮^大多數(shù)狀態(tài)下,智能體根本沒(méi)有得到任何有信息量的獎(jiǎng)勵(lì)信號(hào)。在網(wǎng)球和板球等游戲中,我們可以輕松地為每次擊球得分與跑壘得分提供額外的獎(jiǎng)勵(lì)。在賽車比賽中,我們可以獎(jiǎng)勵(lì)在賽道上朝著正確方向前進(jìn)的智能體。在學(xué)習(xí)爬行時(shí),任何向前的運(yùn)動(dòng)都是一種進(jìn)步。這些中間獎(jiǎng)勵(lì)將使學(xué)習(xí)變得更加容易。7.4.1從獎(jiǎng)勵(lì)中學(xué)習(xí)只要我們可以為智能體提供正確的獎(jiǎng)勵(lì)信號(hào),強(qiáng)化學(xué)習(xí)就提供了一種非常通用的構(gòu)建人工智能系統(tǒng)的方法。對(duì)模擬環(huán)境來(lái)說(shuō)尤其如此,因?yàn)樵谶@種情況下,我們不乏獲得經(jīng)驗(yàn)的機(jī)會(huì)。在強(qiáng)化學(xué)習(xí)系統(tǒng)中引入深度學(xué)習(xí)作為工具,也使新的應(yīng)用成為可能,其中包括從原始視覺(jué)輸入學(xué)習(xí)玩電子游戲、控制機(jī)器人以及玩紙牌游戲。7.4.1從獎(jiǎng)勵(lì)中學(xué)習(xí)考慮一個(gè)簡(jiǎn)單情形:有少量動(dòng)作和狀態(tài),且環(huán)境完全可觀測(cè),其中智能體已經(jīng)有了能決定其動(dòng)作的固定策略。智能體將嘗試學(xué)習(xí)效用函數(shù)——從狀態(tài)出發(fā),采用策略得到的期望總折扣獎(jiǎng)勵(lì),稱之為被動(dòng)學(xué)習(xí)智能體。被動(dòng)學(xué)習(xí)任務(wù)類似于策略評(píng)估任務(wù),可以將其表述為直接效用估計(jì)、自適應(yīng)動(dòng)態(tài)規(guī)劃和時(shí)序差分學(xué)習(xí)。7.4.2被動(dòng)強(qiáng)化學(xué)習(xí)被動(dòng)學(xué)習(xí)智能體有一個(gè)固定的策略來(lái)決定其行為,而主動(dòng)學(xué)習(xí)智能體可以自主決定采取什么動(dòng)作。可以從自適應(yīng)動(dòng)態(tài)規(guī)劃(ADP)智能體開(kāi)始入手,并考慮如何對(duì)它進(jìn)行修改以利用這種新的自由度。智能體首先需要學(xué)習(xí)一個(gè)完整的轉(zhuǎn)移模型,其中包含所有動(dòng)作可能導(dǎo)致的結(jié)果及概率,而不僅僅是固定策略下的模型。7.4.3主動(dòng)強(qiáng)化學(xué)習(xí)我們假設(shè)效用函數(shù)可以用表格的形式表示,其中每個(gè)狀態(tài)有一個(gè)輸出值。這種方法適用于狀態(tài)多達(dá)106的狀態(tài)空間,這對(duì)我們處在二維網(wǎng)格環(huán)境中的玩具模型來(lái)說(shuō)已經(jīng)足夠了。但在有更多狀態(tài)的現(xiàn)實(shí)環(huán)境中,其收斂速度會(huì)很慢。西洋雙陸棋比大多數(shù)真實(shí)世界的應(yīng)用簡(jiǎn)單,但它的狀態(tài)已經(jīng)多達(dá)約1020個(gè)。我們不可能為了學(xué)習(xí)如何玩游戲而簡(jiǎn)單地訪問(wèn)每一個(gè)狀態(tài)。7.4.4強(qiáng)化學(xué)習(xí)中的泛化一些領(lǐng)域過(guò)于復(fù)雜,以至于很難在其中定義強(qiáng)化學(xué)習(xí)所需的獎(jiǎng)勵(lì)函數(shù)。例如,我們到底想讓自動(dòng)駕駛汽車做什么?當(dāng)然,我們希望它到達(dá)目的地花費(fèi)的時(shí)間不要大長(zhǎng),但它也不應(yīng)開(kāi)得大快,以免帶來(lái)不必要的危險(xiǎn)或超速罰單;它應(yīng)該節(jié)省能源:它應(yīng)該避免碰撞或由于突然變速給乘客帶來(lái)的劇烈晃動(dòng),但它仍可以在緊急情況下猛踩利車,等等,為這些因素分配權(quán)重比較困難。7.4.5學(xué)徒學(xué)習(xí)與逆強(qiáng)化學(xué)習(xí)更糟糕的是,我們幾乎必然會(huì)忘記一些重要的因素,例如它有義務(wù)為其他司機(jī)著想。忽略一個(gè)因素通常會(huì)導(dǎo)致學(xué)習(xí)系統(tǒng)為被忽略的因素分配一個(gè)極端值,在這種情況下,汽車可能會(huì)為了使剩余的因素最大化而進(jìn)行極不負(fù)責(zé)任的駕駛。7.4.5學(xué)徒學(xué)習(xí)與逆強(qiáng)化學(xué)習(xí)問(wèn)題的一種解決方法是在模擬中進(jìn)行大量的測(cè)試并關(guān)注有問(wèn)題的行為,再嘗試通過(guò)修改獎(jiǎng)勵(lì)函數(shù)以消除這些行為。另一種解決方法是尋找有關(guān)適合的獎(jiǎng)勵(lì)函數(shù)的其他信息來(lái)源。這種信息來(lái)源之一是獎(jiǎng)勵(lì)函數(shù)已經(jīng)完成優(yōu)化(或幾乎完成優(yōu)化)的智能體的行為,在這個(gè)例子中來(lái)源可以是專業(yè)的人類駕駛員。學(xué)徒學(xué)習(xí)研究這樣的問(wèn)題:在提供了一些對(duì)專家行為觀測(cè)的基礎(chǔ)上,如何讓學(xué)習(xí)表現(xiàn)得較好。以專業(yè)駕駛算法為例,告訴學(xué)習(xí)者“像這樣去做”,至少有兩種方法來(lái)解決學(xué)徒學(xué)習(xí)問(wèn)題。7.4.5學(xué)徒學(xué)習(xí)與逆強(qiáng)化學(xué)習(xí)第一種方法:假設(shè)環(huán)境是可觀測(cè)的,對(duì)觀測(cè)到的狀態(tài)-動(dòng)作對(duì)應(yīng)用監(jiān)督學(xué)習(xí)方法以學(xué)習(xí)其中的策略,這被稱作模仿學(xué)習(xí)。它在機(jī)器人技術(shù)方面取得了成果,但也面臨學(xué)習(xí)較為脆弱這類問(wèn)題:訓(xùn)練集中的微小誤差將隨著時(shí)間累積增長(zhǎng),并最終導(dǎo)致學(xué)習(xí)失敗。并且,模仿學(xué)習(xí)最多只能復(fù)現(xiàn)教師的表現(xiàn),而不能超越教師的表現(xiàn)。當(dāng)人類通過(guò)模仿進(jìn)行學(xué)習(xí)時(shí),有時(shí)會(huì)用貶義詞:模仿得像笨拙的猿一樣,來(lái)形容他們的做法。這意味著,模仿學(xué)習(xí)者不明白為什么它應(yīng)該執(zhí)行指定的動(dòng)作。7.4.5學(xué)徒學(xué)習(xí)與逆強(qiáng)化學(xué)習(xí)第二種方法旨在理解原因:觀察專家的行為(和結(jié)果狀態(tài)),并試圖找出專家最大化的獎(jiǎng)勵(lì)函數(shù),然后就可以得到一個(gè)關(guān)于這個(gè)獎(jiǎng)勵(lì)函數(shù)的最優(yōu)策略。人們期望這種方法能從相對(duì)較少的專家行為樣本中得到較為健壯的策略,畢竟強(qiáng)化學(xué)習(xí)領(lǐng)域本身是基于獎(jiǎng)勵(lì)函數(shù)(而不是策略或價(jià)值函數(shù))是對(duì)任務(wù)最簡(jiǎn)潔、最健壯和可遷移的定義這樣一種想法的。此外,如果學(xué)習(xí)者恰當(dāng)?shù)乜紤]了專家可能存在的次優(yōu)問(wèn)題,那么通過(guò)優(yōu)化真實(shí)獎(jiǎng)勵(lì)函數(shù)的某個(gè)較為精確的近似函數(shù),學(xué)習(xí)者可能會(huì)比專家表現(xiàn)得更好。我們稱該方法為逆強(qiáng)化學(xué)習(xí):通過(guò)觀察策略來(lái)學(xué)習(xí)獎(jiǎng)勵(lì),而不是通過(guò)觀察獎(jiǎng)勵(lì)來(lái)學(xué)習(xí)策略。7.4.5學(xué)徒學(xué)習(xí)與逆強(qiáng)化學(xué)習(xí)PART05強(qiáng)化學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)已經(jīng)被許多傳統(tǒng)制造業(yè)、互聯(lián)網(wǎng)公司應(yīng)用到各種領(lǐng)域,與之相比,強(qiáng)化學(xué)習(xí)的應(yīng)用還相對(duì)有限。強(qiáng)化學(xué)習(xí)的應(yīng)用包括游戲方面的應(yīng)用(其中轉(zhuǎn)移模型是已知的,目標(biāo)是學(xué)習(xí)效用函數(shù))和機(jī)器人方面的應(yīng)用(其中模型最初是未知的)等等。圖7-8強(qiáng)化學(xué)習(xí)的現(xiàn)實(shí)應(yīng)用場(chǎng)景7.5強(qiáng)化學(xué)習(xí)的應(yīng)用強(qiáng)化學(xué)習(xí)模仿人類和動(dòng)物的學(xué)習(xí)方法。在現(xiàn)實(shí)生活中可以找到很多符合強(qiáng)化學(xué)習(xí)模型的例子,例如父母的表?yè)P(yáng)、學(xué)校的好成績(jī)、工作的高薪資等,這些都是積極獎(jiǎng)勵(lì)的例子。無(wú)論是工廠的機(jī)器人進(jìn)行生產(chǎn),還是商業(yè)交易中的信貸分配,人們或者機(jī)器人不斷與環(huán)境進(jìn)行交流以獲得反饋信息的過(guò)程,都與強(qiáng)化學(xué)習(xí)的過(guò)程相仿。更加真實(shí)的案例是阿爾法狗圍棋程序的出現(xiàn),其通過(guò)每步走棋的反饋來(lái)調(diào)整下圍棋的策略,最終贏了人類最頂尖的圍棋職業(yè)選手。阿爾法狗中所使用到的深度強(qiáng)化學(xué)習(xí)也緊隨深度學(xué)習(xí)之后,成為人工智能領(lǐng)域最熱門(mén)的話題之一。事實(shí)上,強(qiáng)化學(xué)習(xí)也確實(shí)可以通過(guò)對(duì)現(xiàn)實(shí)問(wèn)題的表示和人類學(xué)習(xí)方式的模擬解決很多的現(xiàn)實(shí)問(wèn)題。7.5強(qiáng)化學(xué)習(xí)的應(yīng)用一方面,強(qiáng)化學(xué)習(xí)需要收集大量數(shù)據(jù),并且是現(xiàn)實(shí)環(huán)境中建立起來(lái)的數(shù)據(jù),而不是簡(jiǎn)單的仿真模擬數(shù)據(jù)。強(qiáng)化學(xué)習(xí)可以通過(guò)自我博弈的方式自動(dòng)生成大量高質(zhì)量的可用于訓(xùn)練模型的數(shù)據(jù)。另一方面,與部分算法的研究成果易復(fù)現(xiàn)不同的是,復(fù)現(xiàn)基于強(qiáng)化學(xué)習(xí)的研究成果較為困難,即便是對(duì)于強(qiáng)化學(xué)習(xí)的研究者來(lái)說(shuō),需要重復(fù)實(shí)現(xiàn)已有的研究成果也十分困難。究其原因是強(qiáng)化學(xué)習(xí)對(duì)初始化和訓(xùn)練過(guò)程的動(dòng)態(tài)變化都十分敏感,其樣本數(shù)據(jù)基于在線采集的方式。如果沒(méi)有在恰當(dāng)?shù)臅r(shí)機(jī)遇到良好的訓(xùn)練樣本,可能會(huì)給策略帶來(lái)崩潰式的災(zāi)難,從而無(wú)法學(xué)習(xí)到最優(yōu)策略。隨著機(jī)器學(xué)習(xí)被應(yīng)用到實(shí)際任務(wù)中,可重復(fù)性、穩(wěn)健性以及預(yù)估錯(cuò)誤的能力變得不可缺失。7.5強(qiáng)化學(xué)習(xí)的應(yīng)用因此,就目前情況而言,對(duì)于需要持續(xù)控制的關(guān)鍵任務(wù),強(qiáng)化學(xué)習(xí)可能并不是最理想的選擇。即便如此,依然有不少有趣的實(shí)際應(yīng)用和產(chǎn)品是基于強(qiáng)化學(xué)習(xí)的,而由強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的自適應(yīng)序列決策能夠給包括個(gè)性化、自動(dòng)化在內(nèi)的許多應(yīng)用帶來(lái)廣泛的益處和更多的可能性。7.5強(qiáng)化學(xué)習(xí)的應(yīng)用強(qiáng)化學(xué)習(xí)應(yīng)用于游戲博弈這一領(lǐng)域已有20多年歷史,其中最轟動(dòng)的莫過(guò)于谷歌DeepMind研發(fā)的阿爾法狗圍棋程序使用基于強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)的蒙特卡洛樹(shù)搜索模型,并做有機(jī)融合,在圍棋比賽中擊敗了最高水平的人類選手。強(qiáng)化學(xué)習(xí)的應(yīng)用案例還有很多,例如愛(ài)奇藝使用強(qiáng)化學(xué)習(xí)處理自適應(yīng)碼流播放,使得基于智能推薦的視頻觀看率提升了15%;又如阿里巴巴使用深度強(qiáng)化學(xué)習(xí)方法求解新的三維裝箱問(wèn)題,提高了菜鳥(niǎo)網(wǎng)絡(luò)的貨物裝箱打包效率,節(jié)省了貨物的打包空間。強(qiáng)化學(xué)習(xí)讓機(jī)器人處理一些難以想象的任務(wù)變得可能,但這僅僅是強(qiáng)化學(xué)習(xí)的開(kāi)始,這一技術(shù)將會(huì)帶來(lái)更多的商業(yè)價(jià)值和技術(shù)突破!7.5.1游戲博弈強(qiáng)化學(xué)習(xí)在無(wú)線電控制直升機(jī)飛行中的應(yīng)用中,通過(guò)在大型MDP上使用策略搜索來(lái)完成,并且與模仿學(xué)習(xí)以及對(duì)人類專家飛行員進(jìn)行觀測(cè)的逆強(qiáng)化學(xué)習(xí)相結(jié)合。7.5.2機(jī)器人大狗逆強(qiáng)化學(xué)習(xí)也已經(jīng)成功應(yīng)用于解釋人類行為,其中包括基于十?dāng)?shù)萬(wàn)千米北斗導(dǎo)航數(shù)據(jù)實(shí)現(xiàn)的出租車司機(jī)目的地預(yù)測(cè)和路線選擇,以及通過(guò)對(duì)長(zhǎng)達(dá)數(shù)小時(shí)的視頻觀測(cè)實(shí)現(xiàn)的對(duì)復(fù)雜環(huán)境中行人的詳細(xì)身體運(yùn)動(dòng)的分析。在機(jī)器人領(lǐng)域,一次專家的演示就足以讓四足動(dòng)物機(jī)器大狗學(xué)習(xí)到涉及25個(gè)特征的獎(jiǎng)勵(lì)函數(shù),并能讓它靈活地穿越之前未觀測(cè)過(guò)的巖石地形區(qū)域。
圖7-9四足動(dòng)物機(jī)器大狗7.5.2機(jī)器人大狗在自動(dòng)化領(lǐng)域,還有非常多使用強(qiáng)化學(xué)習(xí)來(lái)控制機(jī)器人進(jìn)而獲得優(yōu)異性能的實(shí)際應(yīng)用案例,如吳恩達(dá)教授所帶領(lǐng)的團(tuán)隊(duì)利用強(qiáng)化學(xué)習(xí)算法開(kāi)發(fā)了世界上最先進(jìn)的直升機(jī)自動(dòng)控制系統(tǒng)之一。7.5.2機(jī)器人大狗制造企業(yè)大量使用強(qiáng)化學(xué)習(xí)算法訓(xùn)練工業(yè)機(jī)器人,使它們能夠更好地完成某一項(xiàng)工作。如圖7-10所示,機(jī)器人使用深度強(qiáng)化學(xué)習(xí)在工廠進(jìn)行分揀工作,目標(biāo)是從一個(gè)箱子中選出一個(gè)物品,并把該物品放到另外一個(gè)容器中。在學(xué)習(xí)階段,無(wú)論該動(dòng)作成功還是失敗,機(jī)器人都會(huì)記住這次的動(dòng)作和獎(jiǎng)勵(lì),然后不斷地訓(xùn)練自己,最終能以更快、更精確的方式完成分揀工作。7.5.3制造業(yè)中國(guó)的智能制造發(fā)展迅速,工廠為了讓機(jī)器制造更加方便、快捷,正在積極地研發(fā)智能制造來(lái)裝備機(jī)器人。未來(lái)的工廠將會(huì)裝備大量的智能機(jī)器人,強(qiáng)化學(xué)習(xí)在未來(lái)智能制造的技術(shù)應(yīng)用將會(huì)進(jìn)一步被推廣,其自動(dòng)化前景更是引人注目。7.5.3制造業(yè)在醫(yī)學(xué)領(lǐng)域,醫(yī)生的主要責(zé)任是為病人找到有效的治療方案,而動(dòng)態(tài)治療方案一直是熱門(mén)的研究方向。想要更好地進(jìn)行動(dòng)態(tài)治療方案的研究,疾病的治療數(shù)據(jù)對(duì)于從業(yè)者和研究者來(lái)說(shuō)是彌足珍貴的。尤其是諸如類風(fēng)濕、癌癥等不能夠馬上治愈,需要長(zhǎng)期服用藥物和配合長(zhǎng)期治療療程的疾病治療數(shù)據(jù)。在這個(gè)過(guò)程中,強(qiáng)化學(xué)習(xí)可以利用這些有效的或無(wú)效的醫(yī)療數(shù)據(jù)作為獎(jiǎng)勵(lì)或者是懲罰,從患者身上收集各種臨床指標(biāo)數(shù)據(jù)作為狀態(tài)輸入,并利用有效的臨床數(shù)據(jù)作為治療策略的訓(xùn)練數(shù)據(jù),從而針對(duì)不同患者的臨床反應(yīng),找到最合適該患者的動(dòng)態(tài)治療方案。7.5.4醫(yī)療服務(wù)業(yè)電子商務(wù)最初主要解決了線下零售商的通病——信息不透明所導(dǎo)致的價(jià)格居高不下、物流不發(fā)達(dá)造成的局部市場(chǎng)價(jià)格壟斷。近年來(lái),線下門(mén)店的價(jià)格與電商的價(jià)格差別已經(jīng)不是很明顯,部分用戶反而轉(zhuǎn)回線下零售商,為的是獲得更好的購(gòu)物體驗(yàn)。未來(lái),對(duì)于零售商或者電子商務(wù)而言,需要主動(dòng)迎合客戶的購(gòu)買(mǎi)習(xí)慣和定制客戶的購(gòu)買(mǎi)需求,只有個(gè)性化、私人訂制才能在新購(gòu)物時(shí)代為用戶提供更好的消費(fèi)體驗(yàn)。7.5.5電子商務(wù)淘寶使用強(qiáng)化學(xué)習(xí)優(yōu)化商品搜索技術(shù)構(gòu)建的虛擬淘寶模擬器,可以讓算法從買(mǎi)家的歷史行為中學(xué)習(xí),規(guī)劃最佳商品搜索顯示策略,并能在真實(shí)環(huán)境下讓電商網(wǎng)站的收入提高2%。事實(shí)上,強(qiáng)化學(xué)習(xí)算法可以讓電商分析用戶的瀏覽軌跡和購(gòu)買(mǎi)行為,并據(jù)此制定對(duì)應(yīng)的產(chǎn)品和服務(wù),以匹配用戶的興趣。當(dāng)用戶的購(gòu)買(mǎi)需求或者狀態(tài)發(fā)生改變的時(shí)候,可以自適應(yīng)地去學(xué)習(xí),然后根據(jù)用戶的點(diǎn)擊、購(gòu)買(mǎi)反饋?zhàn)鳛楠?jiǎng)勵(lì),找到一條更優(yōu)的策略方法:推薦適合用戶自身購(gòu)買(mǎi)力的產(chǎn)品、推薦用戶更感興趣的產(chǎn)品等,進(jìn)而更好地服務(wù)用戶。7.5.5電子商務(wù)此外,一項(xiàng)研究也揭示了谷歌使用強(qiáng)化學(xué)習(xí)作為廣告的推薦框架,從而大大提高了其的廣告收益。
圖7-11應(yīng)用推薦系統(tǒng)為電商網(wǎng)站帶來(lái)點(diǎn)擊量7.5.5電子商務(wù)第2版人工智能通識(shí)教程第8章周蘇教授QQ:81505050數(shù)據(jù)挖掘?qū)ёx案例:葡萄酒的品質(zhì)奧利·阿什菲爾特是普林斯頓大學(xué)的一位經(jīng)濟(jì)學(xué)家,他的日常工作就是琢磨數(shù)據(jù),利用統(tǒng)計(jì)學(xué),他從大量的數(shù)據(jù)資料中提取出隱藏在數(shù)據(jù)背后的信息。他說(shuō),“酒是一種農(nóng)產(chǎn)品,每年都會(huì)受到氣候條件的強(qiáng)烈影響。”因此奧利采集了法國(guó)波爾多地區(qū)的氣候數(shù)據(jù)加以研究,他給出的統(tǒng)計(jì)方程與數(shù)據(jù)高度吻合。01從數(shù)據(jù)到知識(shí)02數(shù)據(jù)挖掘方法03數(shù)據(jù)挖掘經(jīng)典算法04機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘目錄/CONTENTS數(shù)據(jù)挖掘是人工智能和數(shù)據(jù)庫(kù)領(lǐng)域研究的熱點(diǎn)問(wèn)題,它是指從大量的數(shù)據(jù)中通過(guò)算法搜索其中隱含的、先前未知的并有潛在價(jià)值的信息的非平凡的決策支持過(guò)程(圖8-2)。持續(xù)重視數(shù)據(jù)挖掘,其主要原因是存在著可以廣泛使用的大量數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí),可以廣泛用于各種應(yīng)用,包括商務(wù)管理,生產(chǎn)控制,市場(chǎng)分析,工程設(shè)計(jì)和科學(xué)探索等。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)學(xué)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)、模式識(shí)別和可視化技術(shù)等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。第8章數(shù)據(jù)挖掘
圖8-2數(shù)據(jù)挖掘建模第8章數(shù)據(jù)挖掘PART01從數(shù)據(jù)到知識(shí)如今,現(xiàn)實(shí)社會(huì)有大量的數(shù)據(jù)唾手可得。就不同領(lǐng)域來(lái)說(shuō),大部分?jǐn)?shù)據(jù)都十分有用,但前提是人們有能力從中提取出感興趣的內(nèi)容。例如,一家大型連鎖店有關(guān)于其數(shù)百萬(wàn)顧客購(gòu)物習(xí)慣的數(shù)據(jù),社會(huì)媒體和其他互聯(lián)網(wǎng)服務(wù)提供商有成千上萬(wàn)用戶的數(shù)據(jù),但這只是記錄誰(shuí)在什么時(shí)候買(mǎi)了什么的原始數(shù)字,似乎毫無(wú)用處。8.1從數(shù)據(jù)到知識(shí)數(shù)據(jù)不等于信息,而信息也不等于知識(shí)。了解數(shù)據(jù)(將其轉(zhuǎn)化為信息)并利用數(shù)據(jù)(再將其轉(zhuǎn)化為知識(shí))是一項(xiàng)巨大的工程。如果某人需要處理100萬(wàn)人的數(shù)據(jù),每個(gè)人僅用時(shí)10秒,這項(xiàng)任務(wù)還是需要一年才能完成。由于每個(gè)人可能一周要買(mǎi)好幾十件產(chǎn)品,等數(shù)據(jù)分析結(jié)果出來(lái)都已經(jīng)過(guò)了一年了。當(dāng)然,這種人類需要花費(fèi)大量時(shí)間才能完成的任務(wù)可以交由計(jì)算機(jī)來(lái)完成,但往往我們并不確定到底想要計(jì)算機(jī)尋找什么樣的答案。8.1從數(shù)據(jù)到知識(shí)數(shù)據(jù)存儲(chǔ)在稱為數(shù)據(jù)庫(kù)的計(jì)算機(jī)系統(tǒng)中,數(shù)據(jù)庫(kù)程序具有內(nèi)置功能,可以分析數(shù)據(jù),并按用戶要求呈現(xiàn)出不同形式。假如我們擁有充足的時(shí)間和敏銳的直覺(jué),就可以從數(shù)據(jù)中分析出有用的規(guī)律來(lái)調(diào)整經(jīng)營(yíng)模式,從而獲取更大的利潤(rùn)。然而,時(shí)間和直覺(jué)是有所收獲的重要前提,如果能自動(dòng)生成這些數(shù)據(jù)間的聯(lián)系無(wú)疑對(duì)商家來(lái)說(shuō)更有吸引力。8.1從數(shù)據(jù)到知識(shí)所有人工智能方法都可以用于數(shù)據(jù)挖掘,特別是神經(jīng)網(wǎng)絡(luò)及模糊邏輯,但有一些格外特殊,其中一種技術(shù)就是決策樹(shù)(圖8-3),它是數(shù)據(jù)挖掘時(shí)常用的技術(shù),可用于市場(chǎng)定位,找出最相關(guān)的數(shù)據(jù)來(lái)預(yù)測(cè)結(jié)果。如果我們想要得到購(gòu)買(mǎi)意大利通心粉的人口統(tǒng)計(jì)數(shù)據(jù),首先,將數(shù)據(jù)庫(kù)切分為購(gòu)買(mǎi)意大利通心粉的顧客和不買(mǎi)的顧客,再檢查每個(gè)獨(dú)立個(gè)體的數(shù)據(jù),從中找到最不平均的切分。我們可能會(huì)發(fā)現(xiàn)最具差異的數(shù)據(jù)就是購(gòu)買(mǎi)者的性別,與女性相比,男性更傾向于購(gòu)買(mǎi)意大利通心粉,然后,可以將數(shù)據(jù)庫(kù)按性別分割,再分別對(duì)每一半數(shù)據(jù)重復(fù)同樣的操作。8.1.1決策樹(shù)分析圖8-3用于預(yù)測(cè)結(jié)果的決策樹(shù)示例8.1.1決策樹(shù)分析計(jì)算機(jī)可能會(huì)發(fā)現(xiàn)男性中差異最大的因素是年齡,而女性中差異最大的是平均收入。繼續(xù)這一過(guò)程將數(shù)據(jù)分析變得更加詳細(xì),直到每一類別里的數(shù)據(jù)都少到無(wú)法再次利用為止。市場(chǎng)部一定十分樂(lè)于知道30%的意大利通心粉買(mǎi)家為20多歲的男子,職業(yè)女性買(mǎi)走了另外20%的意大利通心粉。針對(duì)這些人口統(tǒng)計(jì)數(shù)據(jù)設(shè)計(jì)廣告和特價(jià)優(yōu)惠一定會(huì)卓有成效。至于擁有大學(xué)學(xué)歷的20多歲未婚男子買(mǎi)走5%的意大利通心粉這樣的數(shù)據(jù),可能就無(wú)關(guān)緊要了。8.1.1決策樹(shù)分析購(gòu)物車分析是十分流行的策略,它可以幫助我們找到顧客經(jīng)常一起購(gòu)買(mǎi)的商品。假設(shè)研究發(fā)現(xiàn),許多購(gòu)買(mǎi)意大利通心粉的顧客會(huì)同時(shí)購(gòu)買(mǎi)意大利面醬,我們就可以確定那些只買(mǎi)意大利通心粉但沒(méi)有買(mǎi)面醬的個(gè)體,在他們下次購(gòu)物時(shí)向其提供面醬的折扣。此外,我們還可以優(yōu)化貨物的擺放位置,既保證顧客能找到自己想要的產(chǎn)品,又能讓他們?cè)趯ふ业倪^(guò)程中路過(guò)可能會(huì)沖動(dòng)購(gòu)物的商品。8.1.2購(gòu)物車分析購(gòu)物車分析面臨的問(wèn)題是我們需要考慮大量可能的產(chǎn)品組合。一個(gè)大型超市可能有成千上萬(wàn)條產(chǎn)品線,僅僅是考慮所有可能的配對(duì)就有上億種可能性,而三種產(chǎn)品組合的可能性將超過(guò)萬(wàn)億。很明顯,采取這樣的方式是不實(shí)際的,但有兩種可以讓這一任務(wù)變簡(jiǎn)單的方法。第一種是放寬對(duì)產(chǎn)品類別的定義。我們可以將所有冷凍魚(yú)的銷售捆綁起來(lái)考慮,而不是執(zhí)著于顧客買(mǎi)的到底是檸檬味的多佛比目魚(yú)還是油炸鱈魚(yú)。類似地,我們也可以只考慮散裝啤酒和特色啤酒,而不是追蹤每一個(gè)獨(dú)立品牌。8.1.2購(gòu)物車分析第二種是只考慮購(gòu)買(mǎi)量充足的產(chǎn)品。如果僅有10%的顧客購(gòu)買(mǎi)尿片,所有尿片與其他產(chǎn)品的組合購(gòu)買(mǎi)率最多只有10%。大大削減需要考慮的產(chǎn)品數(shù)量后,我們就可以把握所有的產(chǎn)品組合,放棄那些購(gòu)買(mǎi)量不足的產(chǎn)品即可?,F(xiàn)在,有了成對(duì)的產(chǎn)品組合,可能設(shè)計(jì)三種產(chǎn)品的組合耗時(shí)更短,我們只需要考慮存在共同產(chǎn)品的兩組產(chǎn)品對(duì)。比如,知道顧客會(huì)同時(shí)購(gòu)買(mǎi)啤酒和紅酒,并且也會(huì)同時(shí)購(gòu)買(mǎi)啤酒和零食,那么我們就可以思考啤酒、紅酒和零食是否有可能被同時(shí)購(gòu)買(mǎi)。接著,我們可以合并有兩件共同商品的三件商品組合,并依此類推。在此過(guò)程中,我們隨時(shí)可以丟棄那些購(gòu)買(mǎi)量不足的組合方式。8.1.2購(gòu)物車分析在眾多的分類模型中,應(yīng)用最為廣泛的兩種分類模型是決策樹(shù)模型和樸素貝葉斯模型(NBC)。樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)以及穩(wěn)定的分類效率。同時(shí),NBC模型所需估計(jì)的參數(shù)很少,對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實(shí)際上并非總是如此,這是因?yàn)镹BC模型假設(shè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的,這給NBC模型的正確分類帶來(lái)了一定影響。在屬性個(gè)數(shù)比較多或者屬性之間相關(guān)性較大時(shí),NBC模型的分類效率比不上決策樹(shù)模型。而在屬性相關(guān)性較小時(shí),NBC模型的性能最為良好。8.1.3貝葉斯網(wǎng)絡(luò)了解哪些數(shù)據(jù)常常共存固然有用,但有時(shí)候我們更需要理解為什么會(huì)發(fā)生這樣的情況。假設(shè)我們經(jīng)營(yíng)一家婚姻介紹所,我們想要知道促成成功配對(duì)的因素有哪些。數(shù)據(jù)庫(kù)中包含所有客戶的信息以及用于評(píng)價(jià)約會(huì)經(jīng)歷的反饋表。我們可能會(huì)猜想,兩個(gè)高個(gè)子的人會(huì)不會(huì)比兩個(gè)身高差距懸殊的人相處得更好。為此,我們形成一個(gè)假說(shuō),即身高差對(duì)約會(huì)是否成功具有影響。有一種驗(yàn)證此類假說(shuō)的統(tǒng)計(jì)方法叫做貝葉斯網(wǎng)絡(luò),其數(shù)學(xué)計(jì)算極其復(fù)雜,但自動(dòng)化操作相對(duì)容易得多。8.1.3貝葉斯網(wǎng)絡(luò)貝葉斯網(wǎng)絡(luò)的核心是貝葉斯定理,該公式可以將數(shù)據(jù)的概率轉(zhuǎn)換為假說(shuō)的概率。就本例而言,我們首先建立兩條相互矛盾的假說(shuō),一條認(rèn)為兩組數(shù)據(jù)相互影響,另一條認(rèn)為兩組數(shù)據(jù)彼此獨(dú)立,再根據(jù)收集到的信息計(jì)算兩條假說(shuō)的概率,選擇可能性最大的作為結(jié)論。8.1.3貝葉斯網(wǎng)絡(luò)需要注意的是,我們無(wú)法分辨哪一塊數(shù)據(jù)是原因,哪一塊數(shù)據(jù)是結(jié)果。僅就數(shù)學(xué)而言,成功的交往關(guān)系可以推導(dǎo)出人們身高相同,盡管其他一些事實(shí)顯示并非如此,這也無(wú)法證明數(shù)據(jù)之間存在因果關(guān)系,只是暗示二者之間存在某種聯(lián)系??赡艽嬖谄渌麑⒍呗?lián)系起來(lái)的事實(shí),只是我們沒(méi)有關(guān)注甚至沒(méi)有記錄,又或者數(shù)據(jù)間的這種聯(lián)系只是偶然而已。8.1.3貝葉斯網(wǎng)絡(luò)鑒于計(jì)算機(jī)的強(qiáng)大功能,我們不必手動(dòng)設(shè)計(jì)每一條假設(shè),而是通過(guò)計(jì)算機(jī)來(lái)驗(yàn)證所有假設(shè)。在本例中,我們考慮的客戶品質(zhì)特征不可能超過(guò)20種,所以要檢測(cè)的假設(shè)數(shù)量是有限的。如果我們認(rèn)為有兩種可能影響結(jié)果的特征,那么假設(shè)數(shù)量將增加380條,但也還算合理。如果特征數(shù)量變成四條,那么工作量就將高達(dá)6840條,應(yīng)該還是可以接受的。購(gòu)物車分析和貝葉斯網(wǎng)絡(luò)都是機(jī)器學(xué)習(xí)技術(shù),計(jì)算機(jī)的確在逐漸發(fā)掘以前未知的信息。8.1.3貝葉斯網(wǎng)絡(luò)PART02數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘是一種決策支持過(guò)程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)等,高度自動(dòng)化地分析企業(yè)的每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律,作出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),作出正確的決策。知識(shí)發(fā)現(xiàn)過(guò)程由以下三個(gè)階段組成(圖8-4):①數(shù)據(jù)準(zhǔn)備;②數(shù)據(jù)挖掘(規(guī)律尋找);③結(jié)果(規(guī)律)表達(dá)和解釋。數(shù)據(jù)挖掘可以與用戶或知識(shí)庫(kù)交互。8.2數(shù)據(jù)挖掘方法
圖8-4知識(shí)發(fā)現(xiàn)過(guò)程數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘結(jié)果表達(dá)8.2數(shù)據(jù)挖掘方法數(shù)據(jù)準(zhǔn)備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來(lái);規(guī)律表示是盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來(lái)。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。8.2數(shù)據(jù)挖掘方法20世紀(jì)90年代,隨著數(shù)據(jù)庫(kù)系統(tǒng)的廣泛應(yīng)用和網(wǎng)絡(luò)技術(shù)的高速發(fā)展,數(shù)據(jù)庫(kù)技術(shù)也進(jìn)入一個(gè)全新的階段,即從過(guò)去僅管理一些簡(jiǎn)單數(shù)據(jù)發(fā)展到管理由各種計(jì)算機(jī)所產(chǎn)生的圖形、圖像、音頻、視頻、電子檔案、Web頁(yè)面等多種類型的復(fù)雜數(shù)據(jù),并且數(shù)據(jù)量也越來(lái)越大。數(shù)據(jù)庫(kù)在給我們提供豐富信息的同時(shí),也體現(xiàn)出明顯的海量信息特征。8.2.1數(shù)據(jù)挖掘的發(fā)展信息爆炸時(shí)代,海量信息給人們帶來(lái)許多負(fù)面影響,最主要的就是有效信息難以提煉,過(guò)多無(wú)用的信息必然會(huì)產(chǎn)生信息距離和有用知識(shí)的丟失,這也就是約翰·內(nèi)斯伯特稱為的“信息豐富而知識(shí)貧乏”窘境。這里,所謂信息狀態(tài)轉(zhuǎn)移距離,是對(duì)一個(gè)事物信息狀態(tài)轉(zhuǎn)移所遇到障礙的測(cè)度。因此,人們希望能對(duì)海量數(shù)據(jù)進(jìn)行深入分析,發(fā)現(xiàn)并提取隱藏在其中的信息,以更好地利用這些數(shù)據(jù)。但僅以數(shù)據(jù)庫(kù)系統(tǒng)的錄入、查詢、統(tǒng)計(jì)等功能,無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì),更缺乏挖掘數(shù)據(jù)背后隱藏知識(shí)的手段。正是在這樣的條件下,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。8.2.1數(shù)據(jù)挖掘的發(fā)展數(shù)據(jù)的類型可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的,甚至是異構(gòu)型的。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的、非數(shù)學(xué)的,也可以是歸納的。最終被發(fā)現(xiàn)了的知識(shí)可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等。數(shù)據(jù)挖掘的對(duì)象可以是任何類型的數(shù)據(jù)源??梢允顷P(guān)系數(shù)據(jù)庫(kù),其中包含結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)源;也可以是數(shù)據(jù)倉(cāng)庫(kù)、文本、多媒體數(shù)據(jù)、空間數(shù)據(jù)、時(shí)序數(shù)據(jù)、Web數(shù)據(jù),其中包含半結(jié)構(gòu)化數(shù)據(jù)甚至異構(gòu)性數(shù)據(jù)的數(shù)據(jù)源。8.2.2數(shù)據(jù)挖掘的對(duì)象發(fā)現(xiàn)知識(shí)的方法可以是數(shù)字的、非數(shù)字的,也可以是歸納的。最終被發(fā)現(xiàn)的知識(shí)可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等。在實(shí)施數(shù)據(jù)挖掘之前,先制定采取什么樣的步驟,每一步都做什么,達(dá)到什么樣的目標(biāo)是必要的,有了好的計(jì)劃才能保證數(shù)據(jù)挖掘有條不紊地實(shí)施并取得成功。很多軟件供應(yīng)商和數(shù)據(jù)挖掘顧問(wèn)公司都提供了一些數(shù)據(jù)挖掘過(guò)程模型,來(lái)指導(dǎo)他們的用戶一步步地進(jìn)行數(shù)據(jù)挖掘工作。8.2.3數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘過(guò)程模型主要包括定義問(wèn)題、建立數(shù)據(jù)挖掘庫(kù)、分析數(shù)據(jù)、準(zhǔn)備數(shù)據(jù)、建立模型、評(píng)價(jià)模型和實(shí)施。(1)定義問(wèn)題。在開(kāi)始知識(shí)發(fā)現(xiàn)之前最先的也是最重要的要求就是了解數(shù)據(jù)和業(yè)務(wù)問(wèn)題。必須要對(duì)目標(biāo)有一個(gè)清晰明確的定義,即決定到底想干什么。比如,想提高電子信箱的利用率時(shí),想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價(jià)值”,要解決這兩個(gè)問(wèn)題而建立的模型幾乎是完全不同的,必須做出決定。8.2.3數(shù)據(jù)挖掘的步驟(2)建立數(shù)據(jù)挖掘庫(kù)。包括以下幾個(gè)步驟:數(shù)據(jù)收集,數(shù)據(jù)描述,選擇,數(shù)據(jù)質(zhì)量評(píng)估和數(shù)據(jù)清理,合并與整合,構(gòu)建元數(shù)據(jù),加載數(shù)據(jù)挖掘庫(kù),維護(hù)數(shù)據(jù)挖掘庫(kù)。(3)分析數(shù)據(jù)。目的是找到對(duì)預(yù)測(cè)輸出影響最大的數(shù)據(jù)字段,和決定是否需要定義導(dǎo)出字段。如果數(shù)據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時(shí)和累人的事情,這時(shí)需要選擇一個(gè)具有好的界面和功能強(qiáng)大的工具軟件來(lái)協(xié)助你完成這些事情。8.2.3數(shù)據(jù)挖掘的步驟(4)準(zhǔn)備數(shù)據(jù)。這是建立模型之前的最后一步數(shù)據(jù)準(zhǔn)備工作??梢园汛瞬襟E分為四個(gè)部分:選擇變量,選擇記錄,創(chuàng)建新變量,轉(zhuǎn)換變量。(5)建立模型。建立模型是一個(gè)反復(fù)的過(guò)程。需要仔細(xì)考察不同的模型以判斷哪個(gè)模型對(duì)面對(duì)的商業(yè)問(wèn)題最有用。先用一部分?jǐn)?shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來(lái)測(cè)試和驗(yàn)證這個(gè)得到的模型。有時(shí)還有第三個(gè)數(shù)據(jù)集,稱為驗(yàn)證集,因?yàn)闇y(cè)試集可能受模型的特性的影響,這時(shí)需要一個(gè)獨(dú)立的數(shù)據(jù)集來(lái)驗(yàn)證模型的準(zhǔn)確性。訓(xùn)練和測(cè)試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分成兩個(gè)部分,一個(gè)用于模型訓(xùn)練,另一個(gè)用于模型測(cè)試。8.2.3數(shù)據(jù)挖掘的步驟(6)評(píng)價(jià)模型。模型建立好之后,必須評(píng)價(jià)得到的結(jié)果、解釋模型的價(jià)值。從測(cè)試集中得到的準(zhǔn)確率只對(duì)用于建立模型的數(shù)據(jù)有意義。在實(shí)際應(yīng)用中,需要進(jìn)一步了解錯(cuò)誤的類型和由此帶來(lái)的相關(guān)費(fèi)用的多少。經(jīng)驗(yàn)證明,有效的模型并不一定是正確的模型。造成這一點(diǎn)的直接原因就是模型建立中隱含的各種假定,因此,直接在現(xiàn)實(shí)世界中測(cè)試模型很重要。先在小范圍內(nèi)應(yīng)用,取得測(cè)試數(shù)據(jù),覺(jué)得滿意之后再向大范圍推廣。8.2.3數(shù)據(jù)挖掘的步驟(7)實(shí)施。模型建立并經(jīng)驗(yàn)證之后,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應(yīng)用到不同的數(shù)據(jù)集上。例如,按上述思路建立的一個(gè)數(shù)據(jù)挖掘系統(tǒng)原型示意如右圖所示。8.2.3數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘分為有指導(dǎo)的數(shù)據(jù)挖掘和無(wú)指導(dǎo)的數(shù)據(jù)挖掘。有指導(dǎo)的數(shù)據(jù)挖掘是利用可用的數(shù)據(jù)建立一個(gè)模型,這個(gè)模型是對(duì)一個(gè)特定屬性的描述。無(wú)指導(dǎo)的數(shù)據(jù)挖掘是在所有的屬性中尋找某種關(guān)系。具體而言,分類、估值和預(yù)測(cè)屬于有指導(dǎo)的數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則和聚類屬于無(wú)指導(dǎo)的數(shù)據(jù)挖掘。圖8-6有指導(dǎo)的數(shù)據(jù)挖掘原型示意8.2.4數(shù)據(jù)挖掘分析方法(1)分類。它首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘技術(shù),建立一個(gè)分類模型,再將該模型用于對(duì)沒(méi)有分類的數(shù)據(jù)進(jìn)行分類。(2)估值。估值與分類類似,但估值最終的輸出結(jié)果是連續(xù)型的數(shù)值,估值的量并非預(yù)先確定。估值可以作為分類的準(zhǔn)備工作。(3)預(yù)測(cè)。它是通過(guò)分類或估值來(lái)進(jìn)行,通過(guò)分類或估值的訓(xùn)練得出一個(gè)模型,如果對(duì)于檢驗(yàn)樣本組而言該模型具有較高的準(zhǔn)確率,可將該模型用于對(duì)新樣本的未知變量進(jìn)行預(yù)測(cè)。8.2.4數(shù)據(jù)挖掘分析方法(4)相關(guān)性分組或關(guān)聯(lián)規(guī)則。其目的是發(fā)現(xiàn)哪些事情總是一起發(fā)生。(5)聚類。它是自動(dòng)尋找并建立分組規(guī)則的方法,它通過(guò)判斷樣本之間的相似性,把相似樣本劃分在一個(gè)簇中。8.2.4數(shù)據(jù)挖掘分析方法數(shù)據(jù)挖掘有很多用途,例如可以在患者群的數(shù)據(jù)庫(kù)中查出某藥物和其副作用的關(guān)系。這種關(guān)系可能在1000人中也不會(huì)出現(xiàn)一例,但藥物學(xué)相關(guān)的項(xiàng)目就可以運(yùn)用此方法減少對(duì)藥物有不良反應(yīng)的病人數(shù)量,還有可能挽救生命;但這當(dāng)中還是存在著數(shù)據(jù)庫(kù)可能被濫用的問(wèn)題。數(shù)據(jù)挖掘用其他方法不可能實(shí)現(xiàn)的方法來(lái)發(fā)現(xiàn)信息,但它必須受到規(guī)范,應(yīng)當(dāng)在適當(dāng)?shù)恼f(shuō)明下使用。如果數(shù)據(jù)是收集自特定的個(gè)人,那么就會(huì)出現(xiàn)一些涉及保密、法律和倫理的問(wèn)題。8.2.4數(shù)據(jù)挖掘分析方法與數(shù)據(jù)挖掘有關(guān)還存在隱私保護(hù)問(wèn)題,例如:一個(gè)雇主可以通過(guò)訪問(wèn)醫(yī)療記錄來(lái)篩選出那些有糖尿病或者嚴(yán)重心臟病的人,從而意圖削減保險(xiǎn)支出。對(duì)于政府和商業(yè)數(shù)據(jù)的挖掘,可能會(huì)涉及到的,是國(guó)家安全或者商業(yè)機(jī)密之類的問(wèn)題。這對(duì)于保密也是個(gè)不小的挑戰(zhàn)。8.2.4數(shù)據(jù)挖掘分析方法PART03數(shù)據(jù)挖掘經(jīng)典算法數(shù)據(jù)挖掘的經(jīng)典算法主要有神經(jīng)網(wǎng)絡(luò)法、決策樹(shù)法、遺傳算法、粗糙集法、模糊集法、關(guān)聯(lián)規(guī)則法等。8.3數(shù)據(jù)挖掘經(jīng)典算法神經(jīng)網(wǎng)絡(luò)法是模擬生物神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能,是一種通過(guò)訓(xùn)練來(lái)學(xué)習(xí)的非線性預(yù)測(cè)模型,它將每一個(gè)連接看作一個(gè)處理單元,試圖模擬人腦神經(jīng)元的功能,可完成分類、聚類、特征挖掘等多種數(shù)據(jù)挖掘任務(wù)。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法主要表現(xiàn)在權(quán)值的修改上。其優(yōu)點(diǎn)是具有抗干擾、非線性學(xué)習(xí)、聯(lián)想記憶功能,對(duì)復(fù)雜情況能得到精確的預(yù)測(cè)結(jié)果;缺點(diǎn)首先是不適合處理高維變量,不能觀察中間的學(xué)習(xí)過(guò)程,具有“黑箱”性,輸出結(jié)果也難以解釋;其次是需較長(zhǎng)的學(xué)習(xí)時(shí)間。神經(jīng)網(wǎng)絡(luò)法主要應(yīng)用于數(shù)據(jù)挖掘的聚類技術(shù)中。8.3.1神經(jīng)網(wǎng)絡(luò)法決策樹(shù)是根據(jù)對(duì)目標(biāo)變量產(chǎn)生效用的不同而建構(gòu)分類的規(guī)則,通過(guò)一系列的規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過(guò)程,其表現(xiàn)形式是類似于樹(shù)形結(jié)構(gòu)的流程圖。最典型的算法是J.R.昆蘭于1986年提出的ID3算法和在此基礎(chǔ)上提出的極其流行的C4.5分類決策樹(shù)算法。8.3.2決策樹(shù)法采用決策樹(shù)法的優(yōu)點(diǎn)是決策制定的過(guò)程是可見(jiàn)的,不需要長(zhǎng)時(shí)間構(gòu)造過(guò)程、描述簡(jiǎn)單,易于理解,分類速度快;缺點(diǎn)是很難基于多個(gè)變量組合發(fā)現(xiàn)規(guī)則。決策樹(shù)法擅長(zhǎng)處理非數(shù)值型數(shù)據(jù),而且特別適合大規(guī)模的數(shù)據(jù)處理。決策樹(shù)提供了一種展示類似在什么條件下會(huì)得到什么值這類規(guī)則的方法。比如,在貸款申請(qǐng)中,要對(duì)申請(qǐng)的風(fēng)險(xiǎn)大小做出判斷。8.3.2決策樹(shù)法C4.5算法繼承了ID3算法的優(yōu)點(diǎn),并在以下幾方面對(duì)ID3算法進(jìn)行了改進(jìn):(1)用信息增益率選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足;(2)在樹(shù)構(gòu)造過(guò)程中進(jìn)行剪枝;(3)能夠完成對(duì)連續(xù)屬性的離散化處理;(4)能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。C4.5算法產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高。缺點(diǎn)是:在構(gòu)造樹(shù)的過(guò)程中,需要對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的低效。8.3.2決策樹(shù)法遺傳算法模擬了自然選擇和遺傳中發(fā)生的繁殖、交配和基因突變現(xiàn)象,采用遺傳結(jié)合、遺傳交叉變異及自然選擇等操作來(lái)生成實(shí)現(xiàn)規(guī)則的,是一種基于進(jìn)化理論的機(jī)器學(xué)習(xí)方法。它的基本觀點(diǎn)是“適者生存”原理,具有隱含并行性、易于和其他模型結(jié)合等性質(zhì)。主要優(yōu)點(diǎn)是可以處理許多數(shù)據(jù)類型,同時(shí)可以并行處理各種數(shù)據(jù);缺點(diǎn)是需要的參數(shù)太多,編碼困難,一般計(jì)算量比較大。遺傳算法常用于優(yōu)化神經(jīng)元網(wǎng)絡(luò),能夠解決其他技術(shù)難以解決的問(wèn)題。8.3.3遺傳算法粗糙集法也稱粗糙集理論,是由波蘭數(shù)學(xué)家帕拉克在20世紀(jì)80年代初提出的一種處理含糊、不精確、不完備問(wèn)題的數(shù)學(xué)工具,可以處理數(shù)據(jù)約簡(jiǎn)、數(shù)據(jù)相關(guān)性發(fā)現(xiàn)、數(shù)據(jù)意義的評(píng)估等問(wèn)題。其優(yōu)點(diǎn)是算法簡(jiǎn)單,在其處理過(guò)程中不需要數(shù)據(jù)的先驗(yàn)知識(shí),能自動(dòng)找出問(wèn)題的內(nèi)在規(guī)律;缺點(diǎn)是難以直接處理連續(xù)屬性,須先進(jìn)行屬性離散化。粗糙集理論主要應(yīng)用于近似推理、數(shù)字邏輯分析和化簡(jiǎn)、建立預(yù)測(cè)模型等問(wèn)題。8.3.4粗糙集法模糊集法是利用模糊集合理論對(duì)問(wèn)題進(jìn)行模糊評(píng)判、模糊決策、模糊模式識(shí)別和模糊聚類分析。模糊集合理論是用隸屬度來(lái)描述模糊事物的屬性。系統(tǒng)的復(fù)雜性越高,模糊性就越強(qiáng)。8.3.5模糊集法關(guān)聯(lián)規(guī)則反映了事物之間的相互依賴性或關(guān)聯(lián)性,其算法思想是:首先找出頻繁性至少和預(yù)定意義的最小支持度一樣的所有頻集,然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。最小支持度和最小可信度是為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則給定的2個(gè)閾值。在這個(gè)意義上,數(shù)據(jù)挖掘的目的就是從源數(shù)據(jù)庫(kù)中挖掘出滿足最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。8.3.6關(guān)聯(lián)規(guī)則法關(guān)聯(lián)規(guī)則法中最著名的算法是R.阿格拉瓦爾等人提出的阿普里里算法,這是一種挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推,分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡(jiǎn)稱頻集。8.3.6關(guān)聯(lián)規(guī)則法PART04機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘從數(shù)據(jù)分析的角度來(lái)看,數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)有相似之處也有不同之處。例如,數(shù)據(jù)挖掘并沒(méi)有機(jī)器學(xué)習(xí)探索人的學(xué)習(xí)機(jī)制這一科學(xué)發(fā)現(xiàn)任務(wù),數(shù)據(jù)挖掘中的數(shù)據(jù)分析是針對(duì)海量數(shù)據(jù)進(jìn)行的。從某種意義上說(shuō),機(jī)器學(xué)習(xí)的科學(xué)成分更重一些,而數(shù)據(jù)挖掘的技術(shù)成分更重一些。機(jī)器學(xué)習(xí)是一門(mén)多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門(mén)學(xué)科。其專門(mén)研究計(jì)算機(jī)是怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu),使之不斷改善自身的性能。8.4機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘數(shù)據(jù)挖掘是從海量數(shù)據(jù)中獲取有效的、新穎的、
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)人健身房設(shè)備租賃合同(2024版)3篇
- 2025版仲裁申請(qǐng)書(shū)行政公文范本制作與培訓(xùn)服務(wù)合同2篇
- 2025版論行政合同中行政主體權(quán)益保護(hù)與義務(wù)履約4篇
- 2024版商業(yè)房產(chǎn)銷售合同條款樣本
- 2025年度文化創(chuàng)意產(chǎn)業(yè)園區(qū)土地承包協(xié)議范本4篇
- 2025年度茶葉行業(yè)人才培訓(xùn)與就業(yè)合作合同4篇
- 二零二五年方管行業(yè)質(zhì)量標(biāo)準(zhǔn)制定合同3篇
- 2025年度智能家居系統(tǒng)瓷磚采購(gòu)合同協(xié)議書(shū)4篇
- 專利技術(shù)成果應(yīng)用許可合同2024版一
- 二零二五年度裝配式建筑構(gòu)件設(shè)計(jì)、制造與施工合同3篇
- 寒潮雨雪應(yīng)急預(yù)案范文(2篇)
- 垃圾車駕駛員聘用合同
- 變壓器搬遷施工方案
- 單位轉(zhuǎn)賬個(gè)人合同模板
- 八年級(jí)語(yǔ)文下冊(cè) 成語(yǔ)故事 第十五課 諱疾忌醫(yī) 第六課時(shí) 口語(yǔ)交際教案 新教版(漢語(yǔ))
- 2024年1月高考適應(yīng)性測(cè)試“九省聯(lián)考”數(shù)學(xué) 試題(學(xué)生版+解析版)
- EPC項(xiàng)目采購(gòu)階段質(zhì)量保證措施
- T-NAHIEM 101-2023 急診科建設(shè)與設(shè)備配置標(biāo)準(zhǔn)
- 四川2024年專業(yè)技術(shù)人員公需科目“數(shù)字經(jīng)濟(jì)與驅(qū)動(dòng)發(fā)展”參考答案(通用版)
- 煤炭裝卸服務(wù)合同
- 廣東省佛山市順德區(qū)2023學(xué)年中考一模物理試題(含答案解析)
評(píng)論
0/150
提交評(píng)論