版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
北京信息科技大學(xué)自動(dòng)化學(xué)院智能機(jī)器人原理與應(yīng)用“智能檢測(cè)技術(shù)與模式識(shí)別”研究所14家庭智能服務(wù)機(jī)器人雜亂環(huán)境中推抓技能學(xué)習(xí)雜亂環(huán)境中機(jī)器人推動(dòng)與抓取技能自主學(xué)習(xí)問(wèn)題被學(xué)者廣泛研究,實(shí)現(xiàn)二者之間的協(xié)同是提升抓取效率的關(guān)鍵,本文提出一種基于生成對(duì)抗網(wǎng)絡(luò)與模型泛化的深度強(qiáng)化學(xué)習(xí)算法GARL-DQN。首先,將生成對(duì)抗網(wǎng)絡(luò)嵌入到傳統(tǒng)DQN中,訓(xùn)練推動(dòng)與抓取之間的協(xié)同進(jìn)化;其次,將MDP中部分參數(shù)基于目標(biāo)對(duì)象公式化,借鑒事后經(jīng)驗(yàn)回放機(jī)制(HER)提高經(jīng)驗(yàn)池樣本利用率;然后,針對(duì)圖像狀態(tài)引入隨機(jī)(卷積)神經(jīng)網(wǎng)絡(luò)來(lái)提高算法的泛化能力;最后,設(shè)計(jì)了12個(gè)測(cè)試場(chǎng)景,在抓取成功率與平均運(yùn)動(dòng)次數(shù)指標(biāo)上與其他4種方法進(jìn)行對(duì)比,在規(guī)則物塊場(chǎng)景中兩個(gè)指標(biāo)分別為91.5%和3.406;在日常工具場(chǎng)景中兩個(gè)指標(biāo)分別為85.2%和8.6,驗(yàn)證了GARL-DQN算法在解決機(jī)器人推抓協(xié)同及模型泛化問(wèn)題上的有效性。14.1家庭智能空間服務(wù)機(jī)器人操作技能框架本文提出一種機(jī)器人自監(jiān)督學(xué)習(xí)方法GARL-DQN,用于訓(xùn)練雜亂場(chǎng)景中機(jī)器人推抓之間的協(xié)同。首先,將兩個(gè)RGB-D相機(jī)采集到的當(dāng)前環(huán)境中的圖像狀態(tài)信息送入經(jīng)驗(yàn)池中,并通過(guò)重力方向正投影構(gòu)建RGB、Depth以及Mask目標(biāo)掩碼高度圖。其次,將上述高度圖經(jīng)過(guò)特征提取網(wǎng)絡(luò)進(jìn)行特征提取。將提取到的特征經(jīng)過(guò)隨機(jī)網(wǎng)絡(luò)層處理,以提高該算法的泛化性。然后,將特征輸入到推動(dòng)與抓取網(wǎng)絡(luò)中用于生成推動(dòng)與抓取功用性圖。最后,將抓取網(wǎng)絡(luò)作為判別器,推動(dòng)網(wǎng)絡(luò)作為生成器,評(píng)估當(dāng)前狀態(tài)是否可以對(duì)目標(biāo)物體執(zhí)行抓取,以便在推動(dòng)與抓取之間進(jìn)行選擇。兩個(gè)網(wǎng)絡(luò)交替訓(xùn)練,提高訓(xùn)練速度。基于GARL-DQN的深度強(qiáng)化學(xué)習(xí)機(jī)器人操作技能框架如圖14.1所示。圖14.1基于GARL-DQN的深度強(qiáng)化學(xué)習(xí)機(jī)器人操作技能框架模型泛化與遷移學(xué)習(xí)密切相關(guān),用于從源任務(wù)轉(zhuǎn)移知識(shí)來(lái)提高目標(biāo)任務(wù)的性能。然而,強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)不同的是,將源任務(wù)上預(yù)先訓(xùn)練的模型進(jìn)行微調(diào)以適應(yīng)目標(biāo)任務(wù)往往是無(wú)益的。因此,本小節(jié)構(gòu)建了一種隨機(jī)卷積網(wǎng)絡(luò)來(lái)增強(qiáng)GARL-DQN算法的泛化能力。算法具體如下:引入一個(gè)隨機(jī)網(wǎng)絡(luò)
,將其先驗(yàn)參數(shù)進(jìn)行初始化,對(duì)強(qiáng)化學(xué)習(xí)模型的初始狀態(tài)用網(wǎng)絡(luò)層
進(jìn)行處理并將處理后的結(jié)果輸入到卷積神經(jīng)網(wǎng)絡(luò)中。在每一輪迭代后,該卷積神經(jīng)網(wǎng)絡(luò)都會(huì)重新初始化網(wǎng)絡(luò)
的權(quán)重,使其可以在有噪聲的特征空間上學(xué)習(xí)。14.2GARL-DQN算法設(shè)計(jì)14.2.1GARL-DQN的泛化模型建模為了實(shí)現(xiàn)推抓之間的協(xié)同,在訓(xùn)練環(huán)境中,機(jī)器人通過(guò)RGB-D相機(jī)采集到當(dāng)前時(shí)刻的圖像狀態(tài)信息,分別經(jīng)過(guò)視覺(jué)特征提取網(wǎng)絡(luò)與隨機(jī)卷積網(wǎng)絡(luò)
提取特征,作為抓取網(wǎng)絡(luò)算法的輸入。該算法是異策略算法,將目標(biāo)策略與行為策略分開(kāi)訓(xùn)練,在保證探索的同時(shí)求得全局最優(yōu)解。將面向目標(biāo)的抓取網(wǎng)絡(luò)表示為
,在訓(xùn)練場(chǎng)景中隨機(jī)指定目標(biāo)物體
并將抓取獎(jiǎng)勵(lì)表示為
,
的定義方式如下:14.2GARL-DQN算法設(shè)計(jì)14.2.2GARL-DQN抓取網(wǎng)絡(luò)目標(biāo)重標(biāo)記策略可分為以下兩種情況:若機(jī)器人未抓取到任何物體則認(rèn)為是失敗的回合,不存入經(jīng)驗(yàn)池中;若機(jī)器人抓取到非目標(biāo)物體或者為移動(dòng)遮擋物所做的抓取動(dòng)作,將非目標(biāo)物體標(biāo)記為,并對(duì)樣本元組進(jìn)行轉(zhuǎn)換存儲(chǔ)到經(jīng)驗(yàn)池中。本章將推動(dòng)動(dòng)作作為抓取動(dòng)作的輔助動(dòng)作,目標(biāo)為減小目標(biāo)物體周圍的“空間占有率”。但本文的目標(biāo)為減少機(jī)器人的總運(yùn)動(dòng)次數(shù),故應(yīng)盡可能地降低推動(dòng)動(dòng)作的頻率??紤]到機(jī)器人推抓之間的相互作用復(fù)雜且耦合度較高,故將基于目標(biāo)的推動(dòng)網(wǎng)絡(luò)作為生成器,使得動(dòng)作價(jià)值函數(shù)不斷逼近抓取網(wǎng)絡(luò)學(xué)習(xí)到的閾值,由抓取網(wǎng)絡(luò)作為判別器來(lái)判斷當(dāng)前狀態(tài)是否適合抓取。14.2GARL-DQN算法設(shè)計(jì)14.2.3GARL-DQN的推動(dòng)網(wǎng)絡(luò)建模本節(jié)給出抓取網(wǎng)絡(luò)與推動(dòng)網(wǎng)絡(luò)之間的生成對(duì)抗網(wǎng)絡(luò)建模使得該算法可以更好地?cái)M合出動(dòng)作參數(shù),學(xué)習(xí)到最優(yōu)的推抓位置參數(shù)與角度參數(shù)。基于兩個(gè)網(wǎng)絡(luò)之間的零和博弈,將目標(biāo)設(shè)置為一個(gè)狀態(tài)的收益分布而不是收益均值,將平均回報(bào)向量轉(zhuǎn)化為回報(bào)分布函數(shù)。將動(dòng)作價(jià)值函數(shù)表示為隨機(jī)變量,建立期望值與期望函數(shù)之間的關(guān)系:
,將定義在分布上的貝爾曼算子表示為
,最終得到最終得到貝爾曼方程如式(1)與式(2)所示:
(1)
(2)14.2GARL-DQN算法設(shè)計(jì)14.2.3GARL-DQN的生成對(duì)抗網(wǎng)絡(luò)建模本章目標(biāo)為最小化輸出與真實(shí)分布之間的距離。一方面,推動(dòng)網(wǎng)絡(luò)的目標(biāo)為產(chǎn)生最優(yōu)狀態(tài)-動(dòng)作值分布的現(xiàn)實(shí)樣本,另一方面,抓取網(wǎng)絡(luò)旨在將真實(shí)樣本與從推動(dòng)網(wǎng)絡(luò)輸出的樣本進(jìn)行對(duì)比,判斷當(dāng)前時(shí)刻狀態(tài)是否達(dá)到抓取閾值。在每個(gè)回合中,推動(dòng)網(wǎng)絡(luò)接收當(dāng)前時(shí)刻狀態(tài),在對(duì)分布估計(jì)中的每個(gè)動(dòng)作返回一個(gè)樣本,執(zhí)行最優(yōu)動(dòng)作。然后,機(jī)器人接收環(huán)境獎(jiǎng)勵(lì)值并轉(zhuǎn)換到狀態(tài),將元組保存到經(jīng)驗(yàn)池中
。每次更新時(shí),從經(jīng)驗(yàn)池均勻采樣,并根據(jù)公式更新抓取網(wǎng)絡(luò)和判別網(wǎng)絡(luò)。
14.2GARL-DQN算法設(shè)計(jì)14.2.3GARL-DQN的生成對(duì)抗網(wǎng)絡(luò)建模14.3實(shí)驗(yàn)14.3.1實(shí)驗(yàn)環(huán)境搭建為驗(yàn)證本章算法對(duì)于機(jī)器人目標(biāo)物體抓取任務(wù)的性能,在V-REP3.5.0動(dòng)力學(xué)仿真軟件中模擬該任務(wù)的實(shí)驗(yàn)場(chǎng)景。該軟件內(nèi)部的運(yùn)動(dòng)學(xué)模塊可準(zhǔn)確地模擬真實(shí)機(jī)器人的運(yùn)動(dòng)軌跡,同時(shí)具有重力等物理引擎可模擬真實(shí)物體屬性。使用RGB-D相機(jī)采集工作空間狀態(tài)信息,該相機(jī)可以提供RGB圖像以及每個(gè)像素的深度信息,并將深度值快速轉(zhuǎn)換為點(diǎn)云信息用于3D感知。仿真實(shí)驗(yàn)環(huán)境如圖14.2所示。工作空間中配置了裝有RG2夾具的UR5機(jī)械臂模型,并在工作空間正上方與斜上方45°的位置均安裝RGB-D相機(jī),該相機(jī)會(huì)在每次機(jī)械臂執(zhí)行完動(dòng)作后采集圖像信息,提供完整且大小為640×480的深度信息。圖14.2仿真環(huán)境場(chǎng)景14.3實(shí)驗(yàn)14.3.2訓(xùn)練階段為驗(yàn)證推動(dòng)與抓取操作之間的協(xié)同性,工作空間中被隨機(jī)初始化為m個(gè)隨機(jī)目標(biāo)塊和n個(gè)不同形狀的基本塊,目標(biāo)塊形狀與顏色隨機(jī)匹配,在前1000回合中基本塊的個(gè)數(shù)為3,后1500回合訓(xùn)練中基本塊個(gè)數(shù)為8。并將該算法與以下基線方法進(jìn)行比較:RAND:不經(jīng)過(guò)監(jiān)督訓(xùn)練而采取隨機(jī)像素點(diǎn)抓??;Grasp-Only:是一種貪婪的確定性抓取策略,它使用單個(gè)FCN網(wǎng)絡(luò)進(jìn)行抓取,該網(wǎng)絡(luò)使用二分類(來(lái)自試錯(cuò))的監(jiān)督。在此策略下的機(jī)器人僅執(zhí)行抓取動(dòng)作;VPG:在輸入中通過(guò)添加目標(biāo)掩碼來(lái)學(xué)習(xí)面向目標(biāo)的推動(dòng)與抓取策略,是一種使用并行結(jié)構(gòu)作為目標(biāo)不可知任務(wù)預(yù)測(cè)推動(dòng)與抓取的功用性圖的方法,在目標(biāo)掩碼中根據(jù)最大Q值執(zhí)行推動(dòng)或抓取動(dòng)作。GIT:一種深度強(qiáng)化學(xué)習(xí)方法,使用目標(biāo)分割網(wǎng)絡(luò)提取特征來(lái)增強(qiáng)機(jī)器人感知,基于DQN二分類器進(jìn)行機(jī)器人推動(dòng)與抓取訓(xùn)練。14.3實(shí)驗(yàn)14.3.2訓(xùn)練階段將機(jī)器人執(zhí)行動(dòng)作的最大閾值設(shè)置為30,當(dāng)動(dòng)作數(shù)超過(guò)閾值或所有目標(biāo)物體均被成功抓取時(shí),則重置環(huán)境。計(jì)算每50次迭代中的平均成功抓取率并繪制曲線。該過(guò)程中目標(biāo)物體被隨機(jī)指定,訓(xùn)練2500次后繪制訓(xùn)練性能對(duì)比如圖14.3所示。圖14.3訓(xùn)練階段抓取成功率對(duì)比14.3實(shí)驗(yàn)14.3.3測(cè)試階段測(cè)試階段設(shè)置了兩種實(shí)驗(yàn)場(chǎng)景,與上述四種方法進(jìn)行對(duì)比。規(guī)則物塊場(chǎng)景中目標(biāo)物體被其他基本塊緊緊包圍,目標(biāo)塊與訓(xùn)練時(shí)相同,用于驗(yàn)證推抓之間的協(xié)同;日常工具場(chǎng)景中物體為訓(xùn)練過(guò)程中從未見(jiàn)過(guò)的物體,用于驗(yàn)證算法的泛化能力。(1)規(guī)則物塊場(chǎng)景下的算法效率驗(yàn)證本節(jié)設(shè)計(jì)了如圖6所示的8個(gè)測(cè)試案例,每個(gè)場(chǎng)景包含一個(gè)目標(biāo)物體。對(duì)每個(gè)案例進(jìn)行30輪實(shí)驗(yàn),若機(jī)器人在5次內(nèi)成功抓取目標(biāo)物體,則記為一輪成功案例,旨在保證抓取成功率的同時(shí),減少平均運(yùn)動(dòng)次數(shù)。與上述4種方法對(duì)比如圖7和圖8所示。由于每個(gè)測(cè)試場(chǎng)景中目標(biāo)物體分布不同,故本文算法表現(xiàn)略顯不同,表14.1中展示了不同方法的平均性能對(duì)比。平均移動(dòng)次數(shù)定義為方法抓取成功率(%)平均運(yùn)動(dòng)次數(shù)(次)RAND17.54.7750.60Grasping-only35.04.3250.98VPG70.04.0250.83GIT87.53.6750.90OURS(GARL-DQN)91.53.4060.50表14.1規(guī)則物塊案例平均表現(xiàn)
14.3實(shí)驗(yàn)14.3.3測(cè)試階段(2)日常工具場(chǎng)景下的模型泛化能力驗(yàn)證本節(jié)設(shè)置了如圖9所示的4個(gè)測(cè)試案例,每個(gè)場(chǎng)景中包含不同高度和形狀復(fù)雜的日常工具,場(chǎng)景中每個(gè)物體被依次設(shè)置為目標(biāo)物體,直接應(yīng)用訓(xùn)練階段訓(xùn)練好的模型進(jìn)行測(cè)試,用于驗(yàn)證GARL-DQN算法的泛化能力。抓取閾值設(shè)置為目標(biāo)物體的數(shù)量。表14.2展示了本方法與其他4種方法的平均性能對(duì)比。方法抓取成功率(%)平均運(yùn)動(dòng)次數(shù)(次)RAND15.515.14Grasping-only34.212.63VPG52.410.81GIT61.39.85OURS(GARL-DQN)85.28.60表14.2日常工具案例平均表現(xiàn)14.3實(shí)驗(yàn)14.3.4測(cè)試階段結(jié)果分析由規(guī)則物塊構(gòu)建的8種測(cè)試場(chǎng)景模擬了真實(shí)世界中目標(biāo)物體被緊緊包圍的場(chǎng)景,由于沒(méi)有足夠空間供抓取,用于檢驗(yàn)GARL-DQN算法中的推抓協(xié)同。表14.1展示了8個(gè)測(cè)試案例的表現(xiàn),RAND和Grasping-only兩種方法在每個(gè)測(cè)試案例中都具有較高的運(yùn)動(dòng)次數(shù)和較低的成功率,抓取成功率在10~35%之間,但運(yùn)動(dòng)次數(shù)在4.3以上。VPG方法對(duì)于每個(gè)測(cè)試案例有不同的表現(xiàn),可以體現(xiàn)出來(lái)推動(dòng)動(dòng)作對(duì)抓取動(dòng)作的影響,減少了運(yùn)動(dòng)次數(shù),抓取成功率在60~75%之間,運(yùn)動(dòng)次數(shù)在4.0左右。GIT采用二分類器來(lái)訓(xùn)練推抓之間的協(xié)同作用,每個(gè)測(cè)試案例的抓取成功率都有提高,同時(shí)減少了運(yùn)動(dòng)次數(shù),抓取成功率在85%以上,運(yùn)動(dòng)次數(shù)在3.6左右。而本文采取基于生成對(duì)抗網(wǎng)絡(luò)的GARL-DQN訓(xùn)練框架,以3.4次的平均運(yùn)動(dòng)次數(shù)實(shí)現(xiàn)了91.5%的抓取成功率,性能達(dá)到最優(yōu)。14.3實(shí)驗(yàn)14.3.4測(cè)試階段結(jié)果分析表14.2中展示了日常工具場(chǎng)景中不同算法的表現(xiàn),用于驗(yàn)證GARL-DQN算法的泛化能力。RAND和Grasping-only兩種方法策略的完成率很低,即使能夠完成任務(wù),其平均抓取成功率也保持在15-30%之間??傮w成功率仍然較低,對(duì)于日常工具場(chǎng)景的泛化能力依然較弱。RADN隨機(jī)選擇動(dòng)作,忽略了雜波環(huán)境對(duì)目標(biāo)的影響,從而導(dǎo)致在面對(duì)目標(biāo)運(yùn)動(dòng)時(shí)出現(xiàn)過(guò)多錯(cuò)誤動(dòng)作。Grasping-only對(duì)于目標(biāo)物體采取僅抓取策略,雖然對(duì)目標(biāo)周圍的雜波環(huán)境有一定改善,但影響較小導(dǎo)致該算法成功率較低。VPG方法僅依靠預(yù)測(cè)動(dòng)作的Q值選擇動(dòng)作,不能有效判斷目標(biāo)所處的雜波狀態(tài),有較多錯(cuò)誤抓取動(dòng)作和冗余推動(dòng)動(dòng)作,導(dǎo)致抓取成功率僅在50%左右,較規(guī)則物塊場(chǎng)景成功率有明顯降低,原因在于其僅依賴DQN無(wú)法實(shí)現(xiàn)良好的算法遷移,當(dāng)機(jī)器人面對(duì)新環(huán)境時(shí),無(wú)法很好地將模型應(yīng)用在新場(chǎng)景中,故導(dǎo)致抓取率降低。同時(shí),平均運(yùn)動(dòng)次數(shù)將近11次,即無(wú)法在一輪中實(shí)現(xiàn)全部目標(biāo)物體的抓取。GIT使
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《癌癥疼痛診療規(guī)范》課件
- 《孔子的簡(jiǎn)介》課件
- 人物訪談報(bào)告培訓(xùn)課件
- 單位管理制度集合大合集員工管理十篇
- 單位管理制度集粹匯編人事管理篇十篇
- 單位管理制度匯編大合集人力資源管理篇十篇
- 《神經(jīng)收集電子教案》課件
- 單位管理制度分享匯編【人力資源管理】
- 單位管理制度范例選集職員管理篇
- 單位管理制度呈現(xiàn)合集職員管理篇
- 樂(lè)山英文介紹
- 工程量清單清單計(jì)價(jià)封面
- 壓濾機(jī)產(chǎn)品質(zhì)量檢測(cè)報(bào)告
- 日產(chǎn)5000噸水泥生產(chǎn)線建筑工程施工組織設(shè)計(jì)
- 267條表情猜成語(yǔ)【動(dòng)畫版】
- 三戰(zhàn)課件(輿論戰(zhàn)、法律戰(zhàn)、心理戰(zhàn))
- 農(nóng)民工工資專用賬戶資金管理協(xié)議
- 統(tǒng)編版語(yǔ)文二年級(jí)上冊(cè) 句子練習(xí)專項(xiàng)練習(xí)題(試題)( 無(wú)答案)
- 上海市歷年中考語(yǔ)文現(xiàn)代文閱讀真題40篇(2003-2021)
- 產(chǎn)品拆解:飛書(shū)多維表格怎么用
- 意識(shí)障礙的診斷鑒別診斷及處理
評(píng)論
0/150
提交評(píng)論