智能機器人原理與應用 課件 第14章 家庭智能服務機器人雜亂環(huán)境中推抓技能學習_第1頁
智能機器人原理與應用 課件 第14章 家庭智能服務機器人雜亂環(huán)境中推抓技能學習_第2頁
智能機器人原理與應用 課件 第14章 家庭智能服務機器人雜亂環(huán)境中推抓技能學習_第3頁
智能機器人原理與應用 課件 第14章 家庭智能服務機器人雜亂環(huán)境中推抓技能學習_第4頁
智能機器人原理與應用 課件 第14章 家庭智能服務機器人雜亂環(huán)境中推抓技能學習_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

北京信息科技大學自動化學院智能機器人原理與應用“智能檢測技術與模式識別”研究所14家庭智能服務機器人雜亂環(huán)境中推抓技能學習雜亂環(huán)境中機器人推動與抓取技能自主學習問題被學者廣泛研究,實現(xiàn)二者之間的協(xié)同是提升抓取效率的關鍵,本文提出一種基于生成對抗網(wǎng)絡與模型泛化的深度強化學習算法GARL-DQN。首先,將生成對抗網(wǎng)絡嵌入到傳統(tǒng)DQN中,訓練推動與抓取之間的協(xié)同進化;其次,將MDP中部分參數(shù)基于目標對象公式化,借鑒事后經(jīng)驗回放機制(HER)提高經(jīng)驗池樣本利用率;然后,針對圖像狀態(tài)引入隨機(卷積)神經(jīng)網(wǎng)絡來提高算法的泛化能力;最后,設計了12個測試場景,在抓取成功率與平均運動次數(shù)指標上與其他4種方法進行對比,在規(guī)則物塊場景中兩個指標分別為91.5%和3.406;在日常工具場景中兩個指標分別為85.2%和8.6,驗證了GARL-DQN算法在解決機器人推抓協(xié)同及模型泛化問題上的有效性。14.1家庭智能空間服務機器人操作技能框架本文提出一種機器人自監(jiān)督學習方法GARL-DQN,用于訓練雜亂場景中機器人推抓之間的協(xié)同。首先,將兩個RGB-D相機采集到的當前環(huán)境中的圖像狀態(tài)信息送入經(jīng)驗池中,并通過重力方向正投影構建RGB、Depth以及Mask目標掩碼高度圖。其次,將上述高度圖經(jīng)過特征提取網(wǎng)絡進行特征提取。將提取到的特征經(jīng)過隨機網(wǎng)絡層處理,以提高該算法的泛化性。然后,將特征輸入到推動與抓取網(wǎng)絡中用于生成推動與抓取功用性圖。最后,將抓取網(wǎng)絡作為判別器,推動網(wǎng)絡作為生成器,評估當前狀態(tài)是否可以對目標物體執(zhí)行抓取,以便在推動與抓取之間進行選擇。兩個網(wǎng)絡交替訓練,提高訓練速度?;贕ARL-DQN的深度強化學習機器人操作技能框架如圖14.1所示。圖14.1基于GARL-DQN的深度強化學習機器人操作技能框架模型泛化與遷移學習密切相關,用于從源任務轉(zhuǎn)移知識來提高目標任務的性能。然而,強化學習與監(jiān)督學習不同的是,將源任務上預先訓練的模型進行微調(diào)以適應目標任務往往是無益的。因此,本小節(jié)構建了一種隨機卷積網(wǎng)絡來增強GARL-DQN算法的泛化能力。算法具體如下:引入一個隨機網(wǎng)絡

,將其先驗參數(shù)進行初始化,對強化學習模型的初始狀態(tài)用網(wǎng)絡層

進行處理并將處理后的結(jié)果輸入到卷積神經(jīng)網(wǎng)絡中。在每一輪迭代后,該卷積神經(jīng)網(wǎng)絡都會重新初始化網(wǎng)絡

的權重,使其可以在有噪聲的特征空間上學習。14.2GARL-DQN算法設計14.2.1GARL-DQN的泛化模型建模為了實現(xiàn)推抓之間的協(xié)同,在訓練環(huán)境中,機器人通過RGB-D相機采集到當前時刻的圖像狀態(tài)信息,分別經(jīng)過視覺特征提取網(wǎng)絡與隨機卷積網(wǎng)絡

提取特征,作為抓取網(wǎng)絡算法的輸入。該算法是異策略算法,將目標策略與行為策略分開訓練,在保證探索的同時求得全局最優(yōu)解。將面向目標的抓取網(wǎng)絡表示為

,在訓練場景中隨機指定目標物體

并將抓取獎勵表示為

,

的定義方式如下:14.2GARL-DQN算法設計14.2.2GARL-DQN抓取網(wǎng)絡目標重標記策略可分為以下兩種情況:若機器人未抓取到任何物體則認為是失敗的回合,不存入經(jīng)驗池中;若機器人抓取到非目標物體或者為移動遮擋物所做的抓取動作,將非目標物體標記為,并對樣本元組進行轉(zhuǎn)換存儲到經(jīng)驗池中。本章將推動動作作為抓取動作的輔助動作,目標為減小目標物體周圍的“空間占有率”。但本文的目標為減少機器人的總運動次數(shù),故應盡可能地降低推動動作的頻率。考慮到機器人推抓之間的相互作用復雜且耦合度較高,故將基于目標的推動網(wǎng)絡作為生成器,使得動作價值函數(shù)不斷逼近抓取網(wǎng)絡學習到的閾值,由抓取網(wǎng)絡作為判別器來判斷當前狀態(tài)是否適合抓取。14.2GARL-DQN算法設計14.2.3GARL-DQN的推動網(wǎng)絡建模本節(jié)給出抓取網(wǎng)絡與推動網(wǎng)絡之間的生成對抗網(wǎng)絡建模使得該算法可以更好地擬合出動作參數(shù),學習到最優(yōu)的推抓位置參數(shù)與角度參數(shù)?;趦蓚€網(wǎng)絡之間的零和博弈,將目標設置為一個狀態(tài)的收益分布而不是收益均值,將平均回報向量轉(zhuǎn)化為回報分布函數(shù)。將動作價值函數(shù)表示為隨機變量,建立期望值與期望函數(shù)之間的關系:

,將定義在分布上的貝爾曼算子表示為

,最終得到最終得到貝爾曼方程如式(1)與式(2)所示:

(1)

(2)14.2GARL-DQN算法設計14.2.3GARL-DQN的生成對抗網(wǎng)絡建模本章目標為最小化輸出與真實分布之間的距離。一方面,推動網(wǎng)絡的目標為產(chǎn)生最優(yōu)狀態(tài)-動作值分布的現(xiàn)實樣本,另一方面,抓取網(wǎng)絡旨在將真實樣本與從推動網(wǎng)絡輸出的樣本進行對比,判斷當前時刻狀態(tài)是否達到抓取閾值。在每個回合中,推動網(wǎng)絡接收當前時刻狀態(tài),在對分布估計中的每個動作返回一個樣本,執(zhí)行最優(yōu)動作。然后,機器人接收環(huán)境獎勵值并轉(zhuǎn)換到狀態(tài),將元組保存到經(jīng)驗池中

。每次更新時,從經(jīng)驗池均勻采樣,并根據(jù)公式更新抓取網(wǎng)絡和判別網(wǎng)絡。

14.2GARL-DQN算法設計14.2.3GARL-DQN的生成對抗網(wǎng)絡建模14.3實驗14.3.1實驗環(huán)境搭建為驗證本章算法對于機器人目標物體抓取任務的性能,在V-REP3.5.0動力學仿真軟件中模擬該任務的實驗場景。該軟件內(nèi)部的運動學模塊可準確地模擬真實機器人的運動軌跡,同時具有重力等物理引擎可模擬真實物體屬性。使用RGB-D相機采集工作空間狀態(tài)信息,該相機可以提供RGB圖像以及每個像素的深度信息,并將深度值快速轉(zhuǎn)換為點云信息用于3D感知。仿真實驗環(huán)境如圖14.2所示。工作空間中配置了裝有RG2夾具的UR5機械臂模型,并在工作空間正上方與斜上方45°的位置均安裝RGB-D相機,該相機會在每次機械臂執(zhí)行完動作后采集圖像信息,提供完整且大小為640×480的深度信息。圖14.2仿真環(huán)境場景14.3實驗14.3.2訓練階段為驗證推動與抓取操作之間的協(xié)同性,工作空間中被隨機初始化為m個隨機目標塊和n個不同形狀的基本塊,目標塊形狀與顏色隨機匹配,在前1000回合中基本塊的個數(shù)為3,后1500回合訓練中基本塊個數(shù)為8。并將該算法與以下基線方法進行比較:RAND:不經(jīng)過監(jiān)督訓練而采取隨機像素點抓?。籊rasp-Only:是一種貪婪的確定性抓取策略,它使用單個FCN網(wǎng)絡進行抓取,該網(wǎng)絡使用二分類(來自試錯)的監(jiān)督。在此策略下的機器人僅執(zhí)行抓取動作;VPG:在輸入中通過添加目標掩碼來學習面向目標的推動與抓取策略,是一種使用并行結(jié)構作為目標不可知任務預測推動與抓取的功用性圖的方法,在目標掩碼中根據(jù)最大Q值執(zhí)行推動或抓取動作。GIT:一種深度強化學習方法,使用目標分割網(wǎng)絡提取特征來增強機器人感知,基于DQN二分類器進行機器人推動與抓取訓練。14.3實驗14.3.2訓練階段將機器人執(zhí)行動作的最大閾值設置為30,當動作數(shù)超過閾值或所有目標物體均被成功抓取時,則重置環(huán)境。計算每50次迭代中的平均成功抓取率并繪制曲線。該過程中目標物體被隨機指定,訓練2500次后繪制訓練性能對比如圖14.3所示。圖14.3訓練階段抓取成功率對比14.3實驗14.3.3測試階段測試階段設置了兩種實驗場景,與上述四種方法進行對比。規(guī)則物塊場景中目標物體被其他基本塊緊緊包圍,目標塊與訓練時相同,用于驗證推抓之間的協(xié)同;日常工具場景中物體為訓練過程中從未見過的物體,用于驗證算法的泛化能力。(1)規(guī)則物塊場景下的算法效率驗證本節(jié)設計了如圖6所示的8個測試案例,每個場景包含一個目標物體。對每個案例進行30輪實驗,若機器人在5次內(nèi)成功抓取目標物體,則記為一輪成功案例,旨在保證抓取成功率的同時,減少平均運動次數(shù)。與上述4種方法對比如圖7和圖8所示。由于每個測試場景中目標物體分布不同,故本文算法表現(xiàn)略顯不同,表14.1中展示了不同方法的平均性能對比。平均移動次數(shù)定義為方法抓取成功率(%)平均運動次數(shù)(次)RAND17.54.7750.60Grasping-only35.04.3250.98VPG70.04.0250.83GIT87.53.6750.90OURS(GARL-DQN)91.53.4060.50表14.1規(guī)則物塊案例平均表現(xiàn)

14.3實驗14.3.3測試階段(2)日常工具場景下的模型泛化能力驗證本節(jié)設置了如圖9所示的4個測試案例,每個場景中包含不同高度和形狀復雜的日常工具,場景中每個物體被依次設置為目標物體,直接應用訓練階段訓練好的模型進行測試,用于驗證GARL-DQN算法的泛化能力。抓取閾值設置為目標物體的數(shù)量。表14.2展示了本方法與其他4種方法的平均性能對比。方法抓取成功率(%)平均運動次數(shù)(次)RAND15.515.14Grasping-only34.212.63VPG52.410.81GIT61.39.85OURS(GARL-DQN)85.28.60表14.2日常工具案例平均表現(xiàn)14.3實驗14.3.4測試階段結(jié)果分析由規(guī)則物塊構建的8種測試場景模擬了真實世界中目標物體被緊緊包圍的場景,由于沒有足夠空間供抓取,用于檢驗GARL-DQN算法中的推抓協(xié)同。表14.1展示了8個測試案例的表現(xiàn),RAND和Grasping-only兩種方法在每個測試案例中都具有較高的運動次數(shù)和較低的成功率,抓取成功率在10~35%之間,但運動次數(shù)在4.3以上。VPG方法對于每個測試案例有不同的表現(xiàn),可以體現(xiàn)出來推動動作對抓取動作的影響,減少了運動次數(shù),抓取成功率在60~75%之間,運動次數(shù)在4.0左右。GIT采用二分類器來訓練推抓之間的協(xié)同作用,每個測試案例的抓取成功率都有提高,同時減少了運動次數(shù),抓取成功率在85%以上,運動次數(shù)在3.6左右。而本文采取基于生成對抗網(wǎng)絡的GARL-DQN訓練框架,以3.4次的平均運動次數(shù)實現(xiàn)了91.5%的抓取成功率,性能達到最優(yōu)。14.3實驗14.3.4測試階段結(jié)果分析表14.2中展示了日常工具場景中不同算法的表現(xiàn),用于驗證GARL-DQN算法的泛化能力。RAND和Grasping-only兩種方法策略的完成率很低,即使能夠完成任務,其平均抓取成功率也保持在15-30%之間??傮w成功率仍然較低,對于日常工具場景的泛化能力依然較弱。RADN隨機選擇動作,忽略了雜波環(huán)境對目標的影響,從而導致在面對目標運動時出現(xiàn)過多錯誤動作。Grasping-only對于目標物體采取僅抓取策略,雖然對目標周圍的雜波環(huán)境有一定改善,但影響較小導致該算法成功率較低。VPG方法僅依靠預測動作的Q值選擇動作,不能有效判斷目標所處的雜波狀態(tài),有較多錯誤抓取動作和冗余推動動作,導致抓取成功率僅在50%左右,較規(guī)則物塊場景成功率有明顯降低,原因在于其僅依賴DQN無法實現(xiàn)良好的算法遷移,當機器人面對新環(huán)境時,無法很好地將模型應用在新場景中,故導致抓取率降低。同時,平均運動次數(shù)將近11次,即無法在一輪中實現(xiàn)全部目標物體的抓取。GIT使

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論