神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制_第1頁
神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制_第2頁
神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制_第3頁
神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制_第4頁
神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制第1頁/共20頁神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制NeuralNetworkbasedLearningControl第2頁/共20頁7.1ReinforcementLearning(再勵(lì)學(xué)習(xí),自強(qiáng)式學(xué)習(xí))神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法有三類:監(jiān)督學(xué)習(xí)SupervisedLearning—例如BP

—有明確的“教師”信號無監(jiān)督學(xué)習(xí)UnsupervisedLearning

—沒有任何“教師”信號

—只是通過輸入數(shù)據(jù)的內(nèi)部信息

相當(dāng)自組織?類方法。

—例如

再勵(lì)學(xué)習(xí)ReinforcementLearning源于心理學(xué)

簡單的說,一個(gè)人有筆錢,有幾個(gè)投資選擇A.B.C.他投B,賺錢了,再投B。untilB不賺錢了,或有

突發(fā)事件使他覺得A更好,于是將錢投到A。第3頁/共20頁由Barto等人提出的ReinforcementLearning可稱為ASE/ACE模型,即由

ASE:AssociativeSearchElement:關(guān)聯(lián)搜索單元

ACE:AdaptiveCriticElement:自適應(yīng)評判單元

構(gòu)成。

ASE的作用是確定控制信號y

ACE則對再勵(lì)信號r進(jìn)行改善,得到

ASE和ACE各有n路輸入通道,由系統(tǒng)狀態(tài)S解碼而成(這與cmac相同),且每一時(shí)刻只選一個(gè),即

控制信號的確定和各通道權(quán)值的修正如下:第4頁/共20頁其中,和分別為ASE和ACE各通道的權(quán)值;

是經(jīng)改善的再勵(lì)信號,α、β、γ和δ有關(guān)系數(shù),noise為隨機(jī)噪聲。第5頁/共20頁DECODERCart—PolesystemV1,..v2vnW1,w2wn第6頁/共20頁Cart-Pole的數(shù)學(xué)模型Failure的條件顯然,各單元的輸出幾乎完全取決于被選通道的權(quán)值,

ASE略受噪聲的影響。

各權(quán)值的學(xué)習(xí)幾乎獨(dú)立,只有那些曾經(jīng)被選中的通道才會得到修正,其他則不變。

這樣,一旦碰到完全新的情況,則可能輸出一個(gè)完全錯(cuò)誤的控制信號,導(dǎo)致FAIL第7頁/共20頁TwoapproachestoNeuralNetworkbasedLearningControl7.2DirectInverseModelling7.3LearningControlwithaDistalTeacher(DistalLearning)第8頁/共20頁ThecontrolproblemLearnerEnvironmentintentionactionoutcomeInverseModelEnvironmenty*x[n-1]u[n-1]y[n-1]第9頁/共20頁1.TheDirectInverseModelingapproachtolearninganinversemodelEnvironmentInverseModelx[n-1]y[n]u[n-1]+-第10頁/共20頁2.ThedistallearningapproachtolearninganinversemodelEnvironmentForwardModelx[n-1]y[n]u[n-1]+-2.1Learningtheforwardmodelusingthepredictionerrory[n]-y’[n]y’[n]第11頁/共20頁2.2Learningtheinversemodelviaforwardmodelusingtheperformanceerrory*[n]-y[n]InverseModely*[n-1]x[n-1]u[n-1]y[n]forwardModely*[n]-y[n]第12頁/共20頁Thecontrolsystems1.Thedirestinversemodelingapproach

EnvironmentInverseModely[n]u[n-1]+-y*[n]第13頁/共20頁1.2Eg.LearningcontrolofCSTRusingCMACCMACmemoryCMACtrainingCMACresponseCSTRPcontrollerextremecontrollercontrolSwitchreferenceCoordinatorSdepedudupueucSo第14頁/共20頁TheCSTRsystem(continuous-stirredtankreactor)Andthismaybetransformedtothedimensionlessformas:第15頁/共20頁Where,x1istheconversionraterelatingtothereactionconcentration;x2isthereactiontemperatureinthedimensionlessform;UfandUcarecontrolvariablescorrespondingtotheinputflowrateFandcoolanttemperatureTc,respectively.aresystemparameters.

第16頁/共20頁Temperaturecontrolfeedproductjacket第17頁/共20頁CMACbasedlearningcontrolapproachCurrentoutcomestateSo(x1,x2,dx1),currentsettingx1e(k),nextsettingx1e[k+1],where,dx1[k]=x1[k]–x1[k-1]Leted=x1e[k+1]–x1[k-1],ep=x1e[k]-x1[k],where,ed=differencebetweennextsettingandcurrentoutput,ep=currentdeviationbetweendesiredandactualoutputIF|ed|>threshold,THENtaketheextremecontrol,i.e.,IFed>threshold,THENUc=UmaxIFed<-threshold,THENUc=UminOTHERWISEtakethelearningcontrolUc=Up+UdUp=ep*Kp,Ud=CMACresponse第18頁/共20頁CMACtraining

So(x1[k+1],x2[k+1],dx1[k+1])astheinputtotheCMACUc[k]asthe“teachersignal”forthetraining

ConsiderthatSoistheresultcausedbyUc[k],therefore,ifthein

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論