雙足機(jī)器人的步態(tài)規(guī)劃與步態(tài)規(guī)劃控制_第1頁(yè)
雙足機(jī)器人的步態(tài)規(guī)劃與步態(tài)規(guī)劃控制_第2頁(yè)
雙足機(jī)器人的步態(tài)規(guī)劃與步態(tài)規(guī)劃控制_第3頁(yè)
雙足機(jī)器人的步態(tài)規(guī)劃與步態(tài)規(guī)劃控制_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

雙足機(jī)器人的步態(tài)規(guī)劃與步態(tài)規(guī)劃控制

0雙足機(jī)器人路徑規(guī)劃及控制策略由于雙足機(jī)器人和虛擬機(jī)器人的運(yùn)行過(guò)程中穩(wěn)定性較低,并且具有與其他機(jī)器人相比特殊的抗障性,因此近年來(lái),雙足機(jī)器人控制系統(tǒng)的設(shè)計(jì)已成為研究的熱點(diǎn)之一。在雙足機(jī)器人跨越障礙物的控制問(wèn)題中,主要涉及到其穩(wěn)定性控制器設(shè)計(jì)問(wèn)題和路徑規(guī)劃問(wèn)題。Vukobratovic等人提出的基于零力矩點(diǎn)(ZeroMomentPoint)方法上的控制策略,以及Grizzle等人提出的混合零動(dòng)力法(HybridZeroDynamics)。這些方法都保證了機(jī)器人能夠克服外界干擾穩(wěn)定行走。在路徑規(guī)劃問(wèn)題中,Kuffner等人推導(dǎo)了搜索樹(shù)算法應(yīng)用在越障問(wèn)題中。JoelChestnutt等人將這一算法改進(jìn)并作為人形機(jī)器人HondaASIMO的路徑規(guī)劃策略,但是該算法只適用于障礙物的運(yùn)動(dòng)速度可預(yù)測(cè)的情況并且為了避免過(guò)長(zhǎng)的計(jì)算時(shí)間,需要將軌跡規(guī)劃限制在15步之內(nèi)。然而目前對(duì)雙足機(jī)器人的路徑規(guī)劃和控制方法都需要機(jī)器人和動(dòng)態(tài)環(huán)境的精確建模,以及復(fù)雜計(jì)算。而通常障礙物的速度很難預(yù)測(cè),用這些方法設(shè)計(jì)雙足機(jī)器人的控制系統(tǒng)應(yīng)用于復(fù)雜的動(dòng)態(tài)環(huán)境中,有一定局限性且缺少靈活性。因此解決雙足機(jī)器人在復(fù)雜環(huán)境中行走問(wèn)題的關(guān)鍵是如何設(shè)計(jì)路徑規(guī)劃策略使其能夠成功跨越運(yùn)動(dòng)障礙物而并不需要精確的環(huán)境模型,并且對(duì)其步態(tài)的控制策略使其在機(jī)械系統(tǒng)受限的條件下各關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)能夠跟蹤上理想運(yùn)動(dòng)軌跡。為解決上述問(wèn)題,本文提出了一種將機(jī)器人的路徑規(guī)劃和步態(tài)控制分別獨(dú)立設(shè)計(jì)的控制策略。將控制系統(tǒng)分為底層控制和上層控制兩部分。底層控制是基于CMAC(小腦模型連接控制)記憶特征步態(tài)的關(guān)節(jié)點(diǎn)軌跡。上層控制基于FQL(模糊Q學(xué)習(xí)算法),通過(guò)學(xué)習(xí)算法對(duì)機(jī)器人跨越障礙物時(shí)腳步特征值進(jìn)行訓(xùn)練,使其能夠成功跨越動(dòng)態(tài)障礙物。1底層控制姿態(tài)人形或雙足機(jī)器人在動(dòng)態(tài)環(huán)境中行走的控制策略設(shè)計(jì)可以分為底層控制(關(guān)節(jié)點(diǎn)軌跡、動(dòng)力學(xué)穩(wěn)定性)和上層控制(路徑規(guī)劃)兩部分。通常底層控制使用基于內(nèi)部和外部信息的反饋結(jié)構(gòu)。底層控制目的是產(chǎn)生雙足機(jī)器人關(guān)節(jié)點(diǎn)軌跡并控制對(duì)理想軌跡的跟蹤。底層控制(步態(tài))的控制任務(wù)可以分為三部分:(1)從神經(jīng)網(wǎng)絡(luò)以及模糊推理系統(tǒng)的輸出計(jì)算擺動(dòng)腿軌跡。(2)根據(jù)軀干傾斜角的修正,調(diào)節(jié)平均速度。(3)PD控制器確保每個(gè)關(guān)節(jié)點(diǎn)都能跟蹤上參考軌跡。而上層控制器的控制目標(biāo)是需要通過(guò)對(duì)環(huán)境的視覺(jué)感知預(yù)測(cè)機(jī)器人的運(yùn)動(dòng)路徑,實(shí)際上為對(duì)機(jī)器人的腳步規(guī)劃使其在動(dòng)態(tài)環(huán)境中能成功跨越運(yùn)動(dòng)障礙物,因此上層控制需要使用預(yù)測(cè)算法。圖1給出了雙足機(jī)器人的控制系統(tǒng)結(jié)構(gòu)圖。1.1特征南向度cmc網(wǎng)絡(luò)該層控制的主要思想是通過(guò)一系列參考軌跡的加權(quán)得到雙足機(jī)器人關(guān)節(jié)點(diǎn)軌跡。每一種特征參考步態(tài)由三個(gè)參數(shù)決定,步長(zhǎng)、邁步持續(xù)時(shí)間、邁步高度。與某一步態(tài)相關(guān)的關(guān)節(jié)點(diǎn)軌跡通過(guò)神經(jīng)網(wǎng)絡(luò)記憶,最后若干參考軌跡經(jīng)過(guò)模糊推理系統(tǒng)得到機(jī)器人關(guān)節(jié)點(diǎn)軌跡,使用PD控制器跟蹤關(guān)節(jié)點(diǎn)的參考軌跡。我們選擇小腦模型連接控制(CMAC:CerebellarModelArticulationController)記憶雙足機(jī)器人特征步態(tài)的關(guān)節(jié)點(diǎn)軌跡,控制思想如圖2所示。CMAC網(wǎng)絡(luò).從總體看是一種非線性的映射,但它的自適應(yīng)學(xué)習(xí)是線性映射部分,所以其學(xué)習(xí)算法是一種簡(jiǎn)單的線性優(yōu)化,且不存在局部極小值問(wèn)題,具有學(xué)習(xí)算法簡(jiǎn)單,收斂速度快等優(yōu)點(diǎn)。CMAC的基本思想在于:在輸入空間中給出一個(gè)狀態(tài),從存儲(chǔ)單元中找到對(duì)應(yīng)于該狀態(tài)的地址,將這些存儲(chǔ)單元中的內(nèi)容求和得到CMAC的輸出,將此相應(yīng)值與期望輸出值進(jìn)行比較,并根據(jù)學(xué)習(xí)算法修改這些已激活的存儲(chǔ)單元的內(nèi)容。可以分為三層映射過(guò)程。(1)輸入編碼,X→M,映射:輸入變量xi的域可通過(guò)量化函數(shù)被近似的離散化。每個(gè)輸入變量所屬的量化間隔在每個(gè)量化層中都有所重疊,但任意兩個(gè)單元都不完全相同。每?jī)蓚€(gè)量化層都相差一量化步長(zhǎng)△q。當(dāng)輸入信號(hào)落入某一量化間隔中時(shí),所對(duì)應(yīng)的存儲(chǔ)單元被激活。該層映射將輸入矢量X映射為一相關(guān)的二進(jìn)制地址向量:xi映射至向量mi,(2)地址計(jì)算,M→A映射:A為一與權(quán)值表相聯(lián)系的地址矢量集合,由映射向量mi的元素組合而成。(3)輸出映射,A→Y映射:這一映射包括查詢權(quán)值表和加入地址位置的內(nèi)容,以求得網(wǎng)絡(luò)的輸出值,采用下列計(jì)算公式:其中,(X)T為輸入向量的轉(zhuǎn)置向量。CMAC神經(jīng)網(wǎng)絡(luò)權(quán)值修正由公式(3)給出:其中,分別為網(wǎng)絡(luò)在ti時(shí)刻和前一時(shí)刻網(wǎng)絡(luò)激勵(lì)權(quán)值;β為學(xué)習(xí)率,在間取值;N為泛化參數(shù),e為期望輸出和網(wǎng)絡(luò)實(shí)際輸出間的差值。1.2雙足機(jī)器人動(dòng)力學(xué)模型上層控制的目的是在動(dòng)態(tài)環(huán)境中給出腳步規(guī)劃。因此,該層控制策略需要使用基于在線優(yōu)化或?qū)W習(xí)過(guò)程的預(yù)測(cè)方法。以往的路徑規(guī)劃算法都需要考慮到機(jī)器人關(guān)節(jié)點(diǎn)軌跡,而我們認(rèn)為機(jī)器人的上層控制和底層控制可以分別獨(dú)立設(shè)計(jì)。實(shí)際上,上層控制是一個(gè)學(xué)習(xí)過(guò)程,在機(jī)器人的在線控制中這個(gè)學(xué)習(xí)過(guò)程的計(jì)算時(shí)間是關(guān)鍵問(wèn)題。因此為了在學(xué)習(xí)過(guò)程中減小計(jì)算時(shí)間,我們考慮應(yīng)用只考慮到動(dòng)態(tài)環(huán)境的學(xué)習(xí)模型,(例如,訓(xùn)練階段使用無(wú)需考慮雙足機(jī)器人的動(dòng)力學(xué)特性的模型)。我們選擇的控制算法是基于模糊Q學(xué)習(xí)算法的(FQL)。Q學(xué)習(xí)(Q-Learning)算法是一種強(qiáng)化學(xué)習(xí)策略,解決了Agent與環(huán)境交互的問(wèn)題,并基于一系列獎(jiǎng)懲函數(shù)估計(jì)值找到Agent的動(dòng)作序列。算法的目的是系統(tǒng)通過(guò)學(xué)習(xí)可以找到使得回報(bào)最高的動(dòng)作序列。模糊Q學(xué)習(xí)算法是在傳統(tǒng)的Q學(xué)習(xí)算法中加入模糊邏輯,可以用來(lái)解決狀態(tài)—?jiǎng)幼鲗?duì)在連續(xù)空間中的取值問(wèn)題。上層控制可以分為四個(gè)部分:第一部分為輸入狀態(tài)空間X(t)的模糊化。狀態(tài)空間包含障礙物速度、高度及障礙物與機(jī)器人間的距離。第二部分為通過(guò)模糊Q學(xué)習(xí)算法,對(duì)每一個(gè)激活規(guī)則選擇一個(gè)動(dòng)作(例如某一種步態(tài)),由3個(gè)特征量表示,雙足機(jī)器人的邁步步長(zhǎng)、邁步高度以及每一步持續(xù)時(shí)間。第三部分為對(duì)考慮到機(jī)器人腳步的落點(diǎn)位置和運(yùn)動(dòng)障礙物位置的動(dòng)力學(xué)環(huán)境的仿真。我們將雙足機(jī)器人或人形機(jī)器人的行走過(guò)程認(rèn)為是由一系列單足支撐動(dòng)作組成的。行走過(guò)程中,始終只有一條腿與地面接觸,雙足同時(shí)與地面接觸是瞬間完成的。第四部分給出了增強(qiáng)信號(hào)。增強(qiáng)信號(hào)以獎(jiǎng)懲函數(shù)的形式給出,獎(jiǎng)懲函數(shù)給出了選擇的動(dòng)作(碰撞或成功跨越障礙物)的信息。步長(zhǎng)、邁步持續(xù)時(shí)間、邁步高度()3個(gè)變量決定機(jī)器人是否能夠成功跨越障礙物。2基于模糊q學(xué)習(xí)的個(gè)人狀態(tài)空間轉(zhuǎn)換算法設(shè)計(jì)在本節(jié)中,我們給出的仿真實(shí)例為雙足機(jī)器人與運(yùn)動(dòng)障礙物在徑向平面內(nèi)相對(duì)運(yùn)動(dòng),障礙物可以在[00.5]m/s的范圍內(nèi)以任意速度運(yùn)動(dòng),并且速度可以任意變化。障礙物長(zhǎng)度為0.1m,高度為0.1m。機(jī)器人步長(zhǎng)范圍為[00.5]m/s,邁步最高高度范圍為[0.080.2]m。在路徑規(guī)劃算法的設(shè)計(jì)中,我們對(duì)步長(zhǎng),邁步持續(xù)時(shí)間()以及邁步高度分別編寫模糊Q學(xué)習(xí)算法。對(duì)步長(zhǎng)及邁步持續(xù)時(shí)間的學(xué)習(xí),選擇障礙物速度vo和機(jī)器人及障礙物間的距離dobs作為狀態(tài)空間輸入量。機(jī)器人及障礙物間的距離dobs定義為機(jī)器人前足與障礙物前沿的距離;障礙物速度vobs取為機(jī)器人每步跨越時(shí)間內(nèi)障礙物的平均速度。這兩個(gè)量都在每個(gè)雙足支撐階段不斷更新。對(duì)于邁步高度的訓(xùn)練則選擇障礙物速度vobs和步長(zhǎng)Lstep作為學(xué)習(xí)算法的輸入量。這3個(gè)狀態(tài)空間的輸入量的模糊化函數(shù)都選為三角隸屬度函數(shù)。實(shí)際上在雙足機(jī)器人跨越障礙物的過(guò)程中,并不需要每一步都調(diào)整邁步高度,我們選擇機(jī)器人在跨越前均以0.08m的邁步高度行走。只在跨越當(dāng)前步利用模糊Q學(xué)習(xí)算法訓(xùn)練邁步高度。經(jīng)過(guò)步長(zhǎng)規(guī)劃算法的在線學(xué)習(xí),得到特征參考步態(tài)的3個(gè)參數(shù),步長(zhǎng)、邁步持續(xù)時(shí)間、邁步高度。利用3次樣條插值(CubicSpline)得到機(jī)器人關(guān)節(jié)點(diǎn)理想軌跡,通過(guò)CMAC神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),最終通過(guò)模糊推理系統(tǒng)實(shí)現(xiàn)對(duì)關(guān)節(jié)點(diǎn)軌跡的記憶。3運(yùn)動(dòng)軌跡的創(chuàng)造圖4為在障礙物以任意速度運(yùn)動(dòng)的情況下,經(jīng)過(guò)FQL(模糊Q學(xué)習(xí))算法訓(xùn)練,跨越障礙物的最后5步,步長(zhǎng)、邁步持續(xù)時(shí)間、邁步高度()序列。圖中左上圖表示了機(jī)器人調(diào)整步長(zhǎng)跨越障礙物的步長(zhǎng)序列。矩形代表運(yùn)動(dòng)障礙物,兩點(diǎn)表示每一步兩足的落點(diǎn)位置。理想運(yùn)動(dòng)軌跡經(jīng)過(guò)CMAC(小腦神經(jīng)網(wǎng)絡(luò))的記憶,得出的擺動(dòng)腿胯關(guān)節(jié)擺動(dòng)角θ2和膝關(guān)節(jié)擺動(dòng)角θ3隨支撐腿擺動(dòng)角的變化規(guī)律,圖5所示。可以看出CMAC神經(jīng)網(wǎng)絡(luò)對(duì)經(jīng)過(guò)FQL算法訓(xùn)練后的理想軌跡有很好的記憶效果,并且無(wú)明顯畸變值出現(xiàn)。由于坐標(biāo)系的建立是以每一個(gè)跨步過(guò)程中支撐足和地面的接觸點(diǎn)為坐標(biāo)原點(diǎn)的,因此擺動(dòng)腿的運(yùn)動(dòng)軌跡是以0為原點(diǎn)描述的。我們用Matlab進(jìn)行機(jī)器人邁步的動(dòng)態(tài)仿真,圖6表示了機(jī)器人在最后一步跨越障礙物過(guò)程中的擺動(dòng)腿的運(yùn)動(dòng)軌跡,扇形區(qū)域?yàn)橹瓮冗\(yùn)動(dòng)軌跡,黑色原點(diǎn)表示關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)軌跡??梢钥闯龈鶕?jù)本文提出的控制策略控制雙足機(jī)器人跨越動(dòng)態(tài)障礙物,各關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)軌跡平滑。4qp的聯(lián)合仿真在雙足機(jī)器人跨越動(dòng)態(tài)障礙物的控制策略設(shè)計(jì)問(wèn)題中,關(guān)鍵問(wèn)題是對(duì)機(jī)器人步態(tài)以及腳步規(guī)劃算法的設(shè)計(jì)。我們提出了一種上層控制和底層控制分別獨(dú)立設(shè)計(jì)的控制策略,底層控制是基于小腦神經(jīng)網(wǎng)絡(luò)(CMAC)的,上層控制基于模糊Q學(xué)習(xí)算法(FQL)。在機(jī)器人與障礙物徑向相對(duì)運(yùn)動(dòng)的仿真實(shí)例結(jié)果表明了在無(wú)需對(duì)動(dòng)態(tài)環(huán)境精確建模的前提

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論