基于積分強化學(xué)習(xí)的多消防巡檢協(xié)作機器人系統(tǒng)的制作方法

上傳人：水*** IP屬地：中國上傳時間：2023-10-07 格式：DOCX 頁數(shù)：52 大?。?63.42KB 積分：12 舉報 版權(quán)申訴

基于積分強化學(xué)習(xí)的多消防巡檢協(xié)作機器人系統(tǒng)的制作方法_第2頁

基于積分強化學(xué)習(xí)的多消防巡檢協(xié)作機器人系統(tǒng)的制作方法_第3頁

基于積分強化學(xué)習(xí)的多消防巡檢協(xié)作機器人系統(tǒng)的制作方法_第4頁

基于積分強化學(xué)習(xí)的多消防巡檢協(xié)作機器人系統(tǒng)的制作方法_第5頁

已閱讀5頁，還剩47頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

基于積分學(xué)習(xí)多消防巡作機人系的制作方法本發(fā)明屬于機器領(lǐng)域，涉及基于分強化學(xué)習(xí)的多防巡檢協(xié)作機器人統(tǒng)。背技：目前常見的消防檢機器人主要結(jié)為：在驅(qū)動方面用輪式驅(qū)動；在機人的四周安裝火焰測器和溫度傳感以便于火情的檢；機器人前方配備像頭以便將巡檢畫通過無線模塊傳到控制室；在機人上方還安裝了底固定但可旋轉(zhuǎn)的消噴頭，用于外接管或小型水泵實對著火點的撲滅；機器人控制方面，著多機協(xié)同思想理論的發(fā)展，為完成對大型區(qū)域的檢，同時為了提巡檢效率和降低檢難度性，通常采用多個消防巡檢器人相互配合完成業(yè)，在多消防巡機器人的協(xié)同控上采用集中式控制方式，即通過一個控程序，完成對有機器人的巡檢任務(wù)分配以及工調(diào)度，巡檢實現(xiàn)具體方是將事先將使用光雷達構(gòu)建好的圖和規(guī)劃好的巡檢線經(jīng)過區(qū)域劃分后別導(dǎo)入到各個機人的內(nèi)部，每個器人啟動后便會自按照它們所獲取到規(guī)劃路線對地圖標注的重點區(qū)域行巡檢，另外在需遠程完成一些特定滅火或巡檢操作，由消防人員通遙控器遠程進行操。但上述系統(tǒng)也存許多缺陷，首先式驅(qū)動使得機器在應(yīng)對階梯和崎嶇面的通過性能較差且轉(zhuǎn)向和旋轉(zhuǎn)的活性不夠高；而利用火焰探測器和度傳感器對火焰檢的準確度和及時不能得到很好的證，且火焰檢測的圍也較?。黄浯卧跍y到火焰之后，能實現(xiàn)報警功能將著火點的位置和過攝像頭獲取到達情狀況圖像傳輸消防控制室，少的消防巡檢機器人可以配合自身攜帶消防噴頭，在消人員的遠程遙控實現(xiàn)對著火點的撲，但總體來說缺乏火情應(yīng)對方面的活性和主動性；后在多機器人協(xié)作制方面，集中式控的方式使得每個獨的機器人沒有自己選擇作和相互協(xié)調(diào)的能力，使得整系統(tǒng)的巡檢效率魯棒性和可擴展都較差，而且每個器人在巡檢過程中時間最優(yōu)和能量優(yōu)也不能得到保，這樣會降低整體續(xù)航能力和對外界抗擾動能力，且自主控制方面和能化程度上還有待高。技實要素：有鑒于此，本發(fā)的目的在于提供種基于積分強化習(xí)的多消防巡檢協(xié)機器人系統(tǒng)。為達到上述目的本發(fā)明提供如下術(shù)方案：基于積分強化學(xué)的多消防巡檢協(xié)機器人系統(tǒng)，包硬件層、交互層、知層和控制層；所述硬件層采用dsp作控制器，將里計和陀螺儀采集的數(shù)據(jù)送入dsp內(nèi)部進行處理，實計算出機器人在檢地圖中的位置通過上位機向dsp發(fā)送速度指令，dsp將取到速度信息編碼以控制伺服電機運轉(zhuǎn)；消防巡檢機器人采用的是履式驅(qū)動；當(dāng)機械需要動作時，由位機中的ros系統(tǒng)通過在moveit！平對機械臂將要移到的目標點進行動軌跡規(guī)劃，將規(guī)好的運動軌跡離散化發(fā)送到dsp中，dsp獲得各個軸的角速度加速度后控制機械臂的伺服電運動以到達目標。1、履帶驅(qū)動系統(tǒng)履帶為兩段，每由單獨的伺服電驅(qū)動。前段履帶于在遇到較高障礙時將機器人的底盤起以便順利通過通過調(diào)整前段履來調(diào)整機器人的高，為機械臂提供更的操作半徑；后段履帶主要起機人的驅(qū)動作用，由個伺服電機同軸驅(qū)，轉(zhuǎn)向時將一側(cè)履帶進行減速制即可。伺服電機的定電壓為24v，輸功率為100w，上層pc發(fā)布的x，y軸的速度信息通過dsp編碼后轉(zhuǎn)化伺服電的轉(zhuǎn)速，以實現(xiàn)向和驅(qū)動。2、機械臂伺服控機器人上方設(shè)置軸的機械臂，機臂前段設(shè)置能夠動的爪狀夾持裝置夾持裝置上設(shè)置滅裝置；加裝滅火置后配合機械臂現(xiàn)對著火點實現(xiàn)精撲滅；四軸的機械由四個伺服電機動每個軸的運動每個軸的運動信息上位機ros系統(tǒng)中的moveit！進行路徑規(guī)劃后產(chǎn)。①完成“眼在外”下對機械臂的標定通過“眼在手”的標定形式完將目標點在世界坐系下的坐標到相于機械臂坐標系的坐變換。對與“眼在手外”的標定式，機械手基座標系tg到相機坐標系tc的變矩陣tgc是恒定的，標定板坐系tb到機械臂末端坐標系te的變換陣tbe是恒定的，坐標變換的系滿足下式：對第i個時刻：tbci＝tbe*tegi*tgc(1-1)第i1個時刻：tbci1tbe*tegi1*tgc(1-2)-1-1-1-1-1整理得：(tegi)*(teg)i1tgc*(tbc)i*(tbc)i1*tgc(1-3)則a＝(tegi)*(teg)i就是物體相對于機械臂末坐標系te下的運動關(guān)。②利用moveit完成對機械臂的運軌跡規(guī)劃利用moveit！控制機械臂的各獨立功能部件組起來，然后通過ros中的action和service通方式供用戶使用在moveit！中，創(chuàng)建一個符合機臂真實尺寸和軸數(shù)模型urdf模型，輸入模型之，利用moveit！的setupassistant按自己的設(shè)定生成相的配置文件，內(nèi)包括機械臂的碰矩陣以避免規(guī)劃的軌跡使得各軸間發(fā)生碰撞，各關(guān)節(jié)的連接信息以定義的初始位置等然后再添加機械的控制插件controller，controller包括定義follow_joint_trajectory節(jié)點設(shè)置各個軸的名字最后再編寫程序現(xiàn)pc與機械臂過socket通信方式連接，過訂閱joint_state話在rviz中觀察到機械臂實時運動軌跡。由快速卷積神經(jīng)絡(luò)完成對火焰的識檢測，識別成功后過深度攝像頭的云數(shù)據(jù)得到著火相對于機器人的三坐標，再通過tf標變化就能得知械臂末端需要到達位置，之后由內(nèi)集成好的算法完成對跡的求解。求解來的軌跡信息是大量離散的點構(gòu)成，軌跡信息包括要到該點每個軸的速度、角加速度當(dāng)求解出的點足夠時，擬合出一條分光滑的運動軌，將這些離散的點的信息通過話發(fā)布和訂閱之后使得機臂按照規(guī)劃的點滑地運動至目標。所述感知層用于圖的激光雷達、障的紅外線傳感、檢測火焰的火焰測器、溫度傳感器realsensed435i深度攝像頭里程計和陀螺儀①紅外傳感器障利用紅外傳感器時檢測巡檢機器在巡檢過程中遇的障礙物，當(dāng)前方障礙物時，紅外傳器檢測出機器人障礙物之間的歐里得距離，將這些離與dsp中獲得的里計和陀螺儀數(shù)據(jù)算出障礙物的具體標。獲取坐標后立即由控制算法計出避障路徑，避障路徑是弧形，并且在整個過程要求保持與障礙物一個最小距離，障結(jié)束后，要立回到先前規(guī)劃好的優(yōu)巡檢路徑。②基于快速卷神經(jīng)網(wǎng)絡(luò)的火焰別采用快速卷積神網(wǎng)絡(luò)fasterr-cnn對火焰征進行提取檢測步驟如下：②-1：輸入拍到的火焰圖片；②-2.：將圖片送卷積神經(jīng)網(wǎng)絡(luò)cnn中進行征提??；②-3：特征提后特征映射，特映射將共同作用于續(xù)的全連接層和域生成網(wǎng)絡(luò)rpn；2222②-3.1：特征射進入rpn，首先經(jīng)過一系列區(qū)域候選建議框?qū)⑦@些建議框再分別饋入到個1×1的卷積層，其中第一卷積層用于進行域分類，即通過計算生成建框的交并比iou值來區(qū)分負樣本；另一個于邊界框回歸判定，通過非最化抑制后以生成精確的目標檢測。②-3.2：特征射進入roi池化層，用于續(xù)網(wǎng)絡(luò)的計算。②-4：將池化的特征映射經(jīng)過連接層后，再次利softmax對建議框進行分類，識別檢測框中的是否為物，對建議框再次行邊界框回歸判定rpn生成檢測框具體方法是通過一滑動框?qū)斎胩赜成渖匣瑒?，在每像素點上生成9個議框，這些建議的大小為128、256、512，長寬為1：1、1：2、2：1，利用這些檢測框交并比iou交集比來區(qū)別正負樣，正樣本的iou值大0.7，iou值小于0.3的負本，正負樣本的例設(shè)置為1：1。針對圖中火焰的不同特，采用引導(dǎo)錨定的法來加快rpn的檢測速度，改進的稀疏定策略為：其中x，y為像點坐標，f(x，y)表示生成火焰顏色掩碼，1則該像素點生成建議框，0則生成，mr(x，y)、mg(x，y)、mb(x，分別為圖像像素點的rgb通道值，tr事先設(shè)定的閾值。另外利用邊界回判定去修正檢測的原理為將原始建議框a經(jīng)過映射g得到一個更接近真情況的回歸建議f。這種映射g通過平移和縮放到：先平移：fx＝aw·dx(a)ax(2-2)fy＝ah·dy(a)ay(2-3)再縮放：fw＝aw·exp(dw(a))(2-4)fh＝ah·exp(dh(a))(2-5)其中x，y，w，分別表示建議框中心坐標，寬、高dx、dy、dw、dh分別為變換關(guān)系，當(dāng)始框a和真實框f差距不時，將這種變換為線性的。輸出是識別為火的概率。所述交互層為：巡檢過程中需要時將攝像頭所捕到的畫面通過無線絡(luò)發(fā)送到控制室和動終端，并配套發(fā)有相應(yīng)的app，在遠程終端對檢機器人進行相應(yīng)的控，以實現(xiàn)操作人對想要再次巡檢區(qū)域的巡查。在檢到火焰后，立即向制室發(fā)出警報信并且能立即自動做出相應(yīng)的滅火措。在實施滅火措施后，若火情仍然不到抑制，即將動模式切換到遠程控模式，由控制室的專業(yè)人員全面管巡檢機器人的制，手動控制履帶轉(zhuǎn)和機械臂動作以現(xiàn)對著火點的精撲滅，并根據(jù)火判斷是否需要做出斷電源、關(guān)閉燃氣門、轉(zhuǎn)移易燃物作。將每個巡檢器都能人與整個消系統(tǒng)進行并網(wǎng)，若取措施后火情仍較大，向控制室出接管消防網(wǎng)絡(luò)的tttttttttttttttt求，在得到控制同意下或消防控室一分鐘內(nèi)未做應(yīng)答，將建筑內(nèi)局的噴淋管網(wǎng)打開，時發(fā)出全面消防報，打開所有消通道與應(yīng)急照明設(shè)。在機器人頂端安急停按鍵。在火撲滅后，將著火在巡檢地圖上標注重點巡檢區(qū)域。所述控制層為：設(shè)整個消防巡檢域下共有n個機器人協(xié)同檢，n個機器人從各自初始位置(xi0，yi0)到達各自的目的(xid，yid)，i∈{1，2，...，n}，設(shè)第i消防巡檢機器人t時刻的位置li(t)＝[lix(t)，，速度vi(t)＝[vix(t)，viy(t)]，制器輸入ui(t)＝[uix(t)，uiy(t)]，制輸入和未知的環(huán)境擾動wi(t)＝[wix(t)，wiy(t)]，為避免執(zhí)器飽和，對輸入行約束，要求|u(t)|≤λ其中λ為正常。設(shè)兩個巡檢機人之間的距離rij(t)＝||li(t)-lj(t)||，為免兩個巡檢機器發(fā)生碰撞需要設(shè)一個安全距離rs，要求巡檢過程中的任時刻都要滿足rij(t)≥rs，設(shè)當(dāng)n個機器人到達巡檢目的地保證rij(t)＞＞rs，此時i≠j。則考慮第i個消防檢機器人的二階性動力學(xué)模型為：其中系統(tǒng)矩陣為，輸入矩陣為b，輸出矩陣為c，干擾矩陣為d，為機器人在t時刻狀態(tài)，為輸入，yi(t)為統(tǒng)唯一輸出。將全局動力學(xué)模寫為：其中為kronecker乘積x(t)＝[x1(t)，x2(t)，...，xn(t)]y(t)＝[y1(t)，y2(t)，...，yn(t)]，in為n單位矩陣，且設(shè)l(t)＝[l1t，，...，lnt]，ld＝[l1d，l2d，，lnd]，u0＝[u1，，...，un]分別為n個機器人的在t時刻的位、目標點位置和制輸入。為使n個消防巡檢器人在未知的擾下實現(xiàn)在連續(xù)時間連續(xù)狀態(tài)和控制入空間中的最小間和能量的最優(yōu)制，并且在整個程中要避免碰撞，慮以下成本函數(shù)：其中ζ>0，用表示巡檢過程中間的比重，r為正定矩陣。為求解器人最小到達時間t未知路徑規(guī)劃問題，入雙曲正切函數(shù)將本函數(shù)改寫成無積分的形式以便解，另外為避免行器飽和，還想對輸入進行約束，此將常見的u(t)ru(t)線二次型改寫成二次型性能函數(shù)φ(u(t))用于近最小能量成本并且獲輸入約束，且避免兩個機器人間發(fā)生碰撞引入了工勢場函數(shù)，將成函數(shù)近似改寫為∞ttttttt22∞ttttttt22ttt∞tv(x(t)，u(t))＝ζtanh(l(t)-ld)(l(t)-ld)φ(u(t))λr(t)fr(rij(t))dt(4-4)其中ζ為正常，tanh為雙曲正切函數(shù)，函數(shù)為單調(diào)遞增奇函數(shù)且連續(xù)可微，成本函數(shù)irl可解的形式。將ζ改寫ζtanh(l(t)-ld)(l(t)-ld)，當(dāng)機器人當(dāng)位置l(t)距離目標點ld時ζtanh(l(t)-ld)近似為ζ，到達標點時ξtanh(l(t)-ld)(l(t)-ld)＝，將未知時間的t積分轉(zhuǎn)化為與到達時t無關(guān)的無窮積分，以實對值函數(shù)的最優(yōu)解。將u(t)ru(t)線性次型改寫成非二型性能函數(shù)φ(u(t)用于逼近最小能成本并且捕獲輸約束：其中輸入約束|u(t)|≤λ，λ和σ均為正數(shù)，r＝diag(r1，r2...rm)＞0。為避免任何一對檢機器人發(fā)生碰，加入人工勢場數(shù)fr(rij(t))使得兩個機器人之間發(fā)出斥勢場使得二者互避開，為使得入勢場函數(shù)之后的v(x(t)，u(t))有，設(shè)計權(quán)重矩陣λr(t)，于抵消非零尾部將排斥函數(shù)fr(rij(t))定高斯函數(shù)的形式且該高斯函數(shù)總是于0：其中s越大則排斥數(shù)的陡度就越大σ越大排斥范圍也越大。捕捉排斥距離rij(t)，求排斥函數(shù)中的s和σ，設(shè)有：fr(rs)＝k0；fr(rsδ)k1(4-7)其中0＜k1＜k01；δ為正增量，代入得：通過權(quán)重矩陣λr(t)＝[λ12(t)λ13(t)，...，λn-1n(t)]來使得引入人工勢場函數(shù)后值函數(shù)是有界的且權(quán)重矩陣取決與目標點的距離。λr(t)＝βtanh(||li(t)-lid||||lj(t)-ljd||)(4-9)當(dāng)機器人原理目點時λr(t)＝β，當(dāng)機器到達目標點時λr(t)＝0，β為碰撞系數(shù)，β大小由巡檢過程中免碰撞的重要性定。下面利用(4-4)中成本函數(shù)求解最控制輸入，(4-4)式兩邊對t求導(dǎo)貝爾曼方程寫為：v(x(t))，u(t))＝ζtanh(l(t)-ld)(l(t)-ld)-φ(u(t))λr(t)fr(rij(t))(4-10)令fζ(t)＝ζtanh(l(t)(l(t)-ld)，定義優(yōu)值函數(shù)為：v*(x(t)，u(t))＝min∫tζ(t)φ(u(t))λr(t)fr(rij(t))dt(4-11)根據(jù)(4-10)式義hjb方程為：**其中在穩(wěn)定性條件有(4-12)式兩邊同時u求導(dǎo)得：移項后得最優(yōu)控輸入u為：將(4-14)代入(4-5)中得：其中l(wèi)為全為一的向量，將(4-14)代入(4-15)中得：其中將(4-16)代入(4-12)得：利用基于積分強學(xué)習(xí)的策略迭代法求解hjb方程，積分強化學(xué)習(xí)用(t，tt)內(nèi)的信號用學(xué)習(xí)，不需要知系統(tǒng)具體的動力學(xué)型。首先將值函數(shù)改成積分差值的形，得到如下的貝曼方程：為能夠在線實時求解(4-18)，引入actor-critic神網(wǎng)絡(luò)算法來實現(xiàn)略迭代過程中的實時新。首先通過critic神經(jīng)網(wǎng)對值函數(shù)v(x)進行近似逼近，因為而其中第一項為求得的二次型，對第二項進行逼，并設(shè)用神經(jīng)網(wǎng)絡(luò)對v0(x)進逼近得：其中wc為critic經(jīng)網(wǎng)絡(luò)的權(quán)重，ψc(x)為基函數(shù)，εc(x)為近誤差；將(4-20)兩邊x求微分得：將(4-20)代入(4-18)中得到新的貝爾曼程：其中εe(t)＝εc(x(tt))εc(x(t))為貝曼方程誤差，δψc(x(t)＝ψc(x(tt)-ψc(x(t)。為確定wc，將(4-20)寫成：其中為v0(x)的近似，為理想的逼近系，則(4-22)式為：令**為貝爾曼跟蹤誤，并構(gòu)造以下目函數(shù)，通過使得εe(t)最小化來調(diào)critic神經(jīng)網(wǎng)的權(quán)重系數(shù)：將(4-25)式兩對求導(dǎo)，再由鏈式則得：其中βc>0為學(xué)習(xí)，為δψc的近似值將ee代入到(4-26)得神網(wǎng)絡(luò)的權(quán)重系數(shù)的更新應(yīng)服從將得到的理想權(quán)系數(shù)代入到(4-14)中可得優(yōu)控制策略，然通過critic逼近的值函數(shù)所求的最優(yōu)策略卻并能保證閉環(huán)系統(tǒng)穩(wěn)定性，要為執(zhí)行引入actor神經(jīng)網(wǎng)絡(luò)保證收斂到最優(yōu)的同時還能夠保證統(tǒng)的穩(wěn)定性：為actor神經(jīng)網(wǎng)絡(luò)最優(yōu)逼近系數(shù)，的更新由以下李普諾夫函數(shù)來確：當(dāng)wa滿足下式，所逼近的策略得系統(tǒng)一致最終有，通過得到u(t)。其中k1，k2為計好的正常數(shù)，基于(4-19)、(4-27)(4-28)和(4-30)，分別利用critic和actor算法現(xiàn)對值函數(shù)和策略數(shù)的同步更新，計一種基于策略代的在線積分強化習(xí)算法來求解hjb方，以求解最優(yōu)控輸入。算法：基于策略代的在線irl算法初始化：給定一可行的執(zhí)行器輸入step1：策略評估給定初始利用下式求解step2：策略改進將代入下式更新step3：令返回step1，直收斂到最小值本發(fā)明的有益效在于：1.本發(fā)明在多防巡檢協(xié)作機器系統(tǒng)中采用分布式制方式，使得系下各個機器人的自主、靈活性、可靠和響應(yīng)速度都得了提高。2.本發(fā)明在每消防巡檢機器人頂部設(shè)計了一款四的機械臂，利用機械臂配合特制的滅器可以在發(fā)現(xiàn)火之后自主對著火做出精準撲滅，還以由消防人員遠程動控制機械臂完關(guān)閉電源開關(guān)、氣閥門和移除可燃等操作，顯著提高在發(fā)現(xiàn)火情后的動性與可操作性3.本發(fā)明為更精準地識別火焰降低虛警率，配合度攝像頭realsensed435i獲到的畫面，提出了種基于視覺識別改進快速卷積神網(wǎng)絡(luò)完成對火焰識別檢測，同時入通過引導(dǎo)錨定方法使得快速卷積經(jīng)網(wǎng)絡(luò)中的rpn檢測度得到了提高。4.本發(fā)明在控器算法中設(shè)計的似值函數(shù)可以將最路徑規(guī)劃問題中小到達時間t未知的有積分轉(zhuǎn)化成無窮分的形式以便于求，并引入了非二型性能函數(shù)用于近最小能量成本捕獲輸入約束。5.本發(fā)明引入人工勢場函數(shù)來免多消防巡檢協(xié)作器人系統(tǒng)在巡檢程中機器人之間發(fā)生撞，并設(shè)計了一特殊的權(quán)重系數(shù)陣來抵消非零尾部6.本發(fā)明在多器人控制算法中用積分強化學(xué)習(xí)算以解決巡檢機器系統(tǒng)矩陣未知的問題并利用critic和actor神經(jīng)絡(luò)算法在線實時步迭代求解貝爾曼方程以獲最優(yōu)策略，顯著提高了多消防巡協(xié)作機器人系統(tǒng)的檢效率與魯棒性。本發(fā)明的其他優(yōu)、目標和特征在種程度上將在隨的說明書中進行闡，并且在某種程度，基于對下文的察研究對本領(lǐng)域術(shù)人員而言將是顯易見的，或者可以本發(fā)明的實踐中到教導(dǎo)。本發(fā)明目標和其他優(yōu)點可通過下面的說明書實現(xiàn)和獲得。附圖說明為了使本發(fā)明的的、技術(shù)方案和點更加清楚，下將結(jié)合附圖對本發(fā)作優(yōu)選的詳細描述其中：圖1為硬件底層圖圖2為坐標變換示圖；圖3為運動軌跡生流程圖；圖4為消防巡檢機人避障流程圖；圖5為快速卷積神網(wǎng)絡(luò)訓(xùn)練過程；圖6為消防巡檢機人交互結(jié)構(gòu)；圖7為消防巡檢機人整體結(jié)構(gòu)圖；圖8為多消防巡檢作機器人系統(tǒng)巡示意圖；圖9為操作機械臂滅火情工作流程；圖10為消防巡機器人工作流程。具體實施方式以下通過特定的體實例說明本發(fā)的實施方式，本域技術(shù)人員可由本明書所揭露的內(nèi)容易地了解本發(fā)明其他優(yōu)點與功效本發(fā)明還可以通過外不同的具體實施式加以實施或應(yīng)，本說明書中的項細節(jié)也可以基于同觀點與應(yīng)用，在有背離本發(fā)明的神下進行各種修或改變。需要說明是，以下實施例所提供的圖示僅示意方式說明本明的基本構(gòu)想，在沖突的情況下，以實施例及實施例的特征可以相互合。其中，附圖僅用示例性說明，表的僅是示意圖，非實物圖，不能理為對本發(fā)明的限制為了更好地說明發(fā)明的實施例，圖某些部件會有省、放大或縮小，并代表實際產(chǎn)品的寸；對本領(lǐng)域技人員來說，附圖中些公知結(jié)構(gòu)及其說可能省略是可以解的。本發(fā)明實施例的圖中相同或相似標號對應(yīng)相同或似的部件；在本發(fā)的描述中，需要理的是，若有術(shù)語“上”、“下”“左”、“右”、“前”、“后等指示的方位或置關(guān)系為基于附圖示的方位或位置系，僅是為了便于描本發(fā)明和簡化描，而不是指示或示所指的裝置或元必須具有特定的方、以特定的方位造和操作，因此圖中描述位置關(guān)系用語僅用于示例性明，不能理解為本發(fā)明的限制，于本領(lǐng)域的普通技人員而言，可以根具體情況理解上術(shù)語的具體含義針對每個單獨的防巡檢機器人，發(fā)明為快速準確發(fā)現(xiàn)火情，在配合焰探測器和溫度傳器的基礎(chǔ)上加入深度攝像頭realsensed435i，該深攝像頭可以通過對場的特征提取，實較遠距離的火情別，且識別準確度快速性與傳感器相都有所提高。同該深度攝像頭將檢圖像實時傳輸?shù)娇厥遗c移動終端便控制人員觀察，可以隨時接受控室和移動終端發(fā)出控制指令。巡檢機人發(fā)現(xiàn)火情后應(yīng)即向主控室發(fā)出報信號，但這遠遠夠，因此為了提巡檢機器人發(fā)現(xiàn)情后的處理能力在機器人的上方還配了一個四軸的機臂，該機械臂前配有夾爪，設(shè)置夾爪裝可以有利于續(xù)設(shè)備添加；可以發(fā)現(xiàn)火情之后，必要情況下，可在消防人員遠程控下通過機械臂完成電源的切斷、燃閥門和可燃物的除等工作。另外可在機械臂的夾爪處裝特制的滅火裝(如特制的小型滅火器)以配合機臂實現(xiàn)對著火點的精確滅，從而在最大度上避免火勢蔓，造成更大的經(jīng)濟失。在多消防巡檢機人協(xié)同控制上，求多機器人在巡過程中要完成在避、執(zhí)行器輸入存在束、外界擾動未下可以做到最小達時間t未知的最優(yōu)在線路徑規(guī)劃，另整個系統(tǒng)的巡檢率、魯棒性和可展性都要得到保證且整個巡檢過程中器人之間不能發(fā)碰撞。為達到上述要求本發(fā)明的軟硬件計方案如下：本發(fā)明設(shè)計的新多消防巡檢協(xié)作器人系統(tǒng)采用分設(shè)計的思想，分別硬件層、交互層、知層和控制層組，第一部分至第部分介紹整個多消巡檢協(xié)作機器人系下每個機器人的體軟硬件結(jié)構(gòu)，四部分介紹實現(xiàn)多防巡檢協(xié)作機器人統(tǒng)的具體控制算實現(xiàn)。第一部分消防巡機器人的硬件層計硬件層由dsp作為制器，將里程計陀螺儀采集到的數(shù)送入dsp內(nèi)部進行處理，可以實時算出機器人在巡地圖中的位置。過上位機向dsp發(fā)送速度指令，dsp獲取到速度信息碼后以控制伺服機的運轉(zhuǎn)；消防巡機器人采用的是履帶驅(qū)動旨在提高消巡檢機器人的復(fù)路段的通過能力(如階梯)與轉(zhuǎn)向靈活性當(dāng)機械臂需要動時，由上位機中的ros系統(tǒng)通過在moveit！平臺機械臂將要移動的目標點進行運動跡規(guī)劃，將規(guī)劃的運動軌跡離散化后送到dsp中，dsp獲得的個軸的角速度、速度后控制機械臂的伺服電機動以到達目標點硬件層的底層設(shè)發(fā)案圖如圖1所示。1、履帶驅(qū)動系統(tǒng)為適應(yīng)各種巡檢境，提高巡檢過中的靈活性與通性，該巡檢機器人用了履帶式驅(qū)動。帶結(jié)構(gòu)設(shè)計成兩，每段由單獨的服電機驅(qū)動。前段帶主要用于在遇到高障礙物時可以機器人的底盤抬以便順利通過，另還可以通過調(diào)整前履帶來調(diào)整機器的高度，可以為械臂提供更大的操半徑；后半段履帶要起機器人的驅(qū)作用，由一個伺電機同軸驅(qū)動，轉(zhuǎn)時將一側(cè)的履帶進減速制動即可。服電機的額定電為24v，輸出功率為100w，上層pc發(fā)的x，y軸的速度信息通過dsp編后轉(zhuǎn)化伺服電機轉(zhuǎn)速，以實現(xiàn)轉(zhuǎn)向驅(qū)動。2、機械臂伺服控為提高巡檢機器發(fā)現(xiàn)火情時的處能力，在機器人方安裝了一個四軸機械臂。該機械臂段安裝了一個可轉(zhuǎn)動的爪狀夾持置，可以根據(jù)具體要-1-1-1-1-1在夾持裝置上安特制的小型滅火置(如滅火器和小型水泵)。加裝滅火裝置后可以配合機臂實現(xiàn)對著火點現(xiàn)精準撲滅；未裝滅火裝置也可以發(fā)現(xiàn)火情時，根據(jù)情程度，決定是由消防人員手動制機械臂將局部電切斷、關(guān)閉燃氣閥、將周圍的易燃移除和將防火門閉等，爭取在最大度上阻止火勢蔓延減小經(jīng)濟損失。軸的機械臂由四伺服電機驅(qū)動每個的運動，每個軸的動信息由上位機ros系統(tǒng)的moveit！進行路徑規(guī)劃產(chǎn)生。①完成“眼在外”下對機械臂的標定通過“眼在手”(eye-to-hand)的標定形完成將目標點在世坐標系下的坐標到相對于機械坐標系的坐標變。對與“眼在手外”的標定方式機械手基座坐標系tg相機坐標系tc的變換矩陣tgc是定的，標定板坐系tb到機械臂末端坐標te的變換矩陣tbe是恒定的坐標變換的關(guān)系足下式：對第i個時刻：tbci1tbe*tegi1*tgc(1-1)第i1個時刻：tbci1tbe*tegi1*tgc(1-2)整理得：(tegi)*(teg)i1tgc*(tbc)i*(tbc)i1*tgc(1-3)則a＝(tegi)*(teg)i就是物體相對于機械臂末坐標系te下的運動關(guān)。坐標變換的示意如圖2所示。②利用moveit完成對機械臂的運軌跡規(guī)劃ros(robotoperatingsystem)是專用于實現(xiàn)機器人系控制的操作系統(tǒng)可在linux環(huán)境下進開發(fā)，由于其操作式簡單、功能強、可擴展能力強，其適用于機器人種具有復(fù)雜、多點的控制系統(tǒng)。機械臂控制中，ros系統(tǒng)中有專門的集工具用于完成機臂的運動軌跡規(guī)，它就是moveit！。moveit！可以作是一個“集成器”，利它可以將控制機臂的各個獨立功能部件組合起來然后通過ros中的action和service通方式供用戶使。在moveit！中先要創(chuàng)建一個符機械臂真實尺寸軸數(shù)的模型(urdf模型)，輸入模型之后，用moveit！的setupassistant照自己的設(shè)定生相應(yīng)的配置文件，內(nèi)容括機械臂的碰撞陣以避免規(guī)劃出軌跡使得各軸之間生碰撞，各個關(guān)節(jié)連接信息以及定的初始位置等。后再添加機械臂的制插件(controller)，controller主要包括定義follow_joint_trajectory節(jié)點和設(shè)置各個軸名字，最后再編程序?qū)崿F(xiàn)pc與機械臂通過socket通信方式連接，通過訂joint_state話題可以在rviz中觀到機械臂的實時運動軌跡。先由快速卷神經(jīng)網(wǎng)絡(luò)完成對焰的識別檢測，別成功后通過深度像頭的點云數(shù)據(jù)可得到著火點相對機器人的三維坐，再通過tf坐標變化就能得知機械臂末需要到達的位置之后由內(nèi)部集成的算法(通常采用三次樣條插補)立即完成軌跡的求解。求出來的軌跡信息是大量離散的點構(gòu)的，這些點的信包括要達到該點個軸的角速度、加速度。當(dāng)求解出點足夠多時，就能合出一條十分光的運動軌跡，將些點的信息通過話發(fā)布和訂閱之后就以使得機械臂按規(guī)劃的點平滑地動至目標點。moveit！生成運動軌跡的程圖如圖3所示。第二部分消防巡機器人感知層設(shè)消防巡檢機器人感知層設(shè)計主要括用于建圖的激雷達、避障的紅外傳感器、檢測火焰火焰探測器、溫傳感器和realsensed435i深度像頭、里程計和陀螺儀等①紅外傳感器障利用紅外傳感器時檢測巡檢機器在巡檢過程中遇的障礙物，當(dāng)前方障礙物時，紅外傳器可以檢測出機人與障礙物之間歐幾里得距離，將些距離與dsp中獲得里程計和陀螺儀據(jù)就可以推算出障物的具體坐標。取坐標后，可以即由控制算法設(shè)出避障路徑，該障路徑通常是弧形，并且在整個過程要求保持與障礙有一個最小距離避障結(jié)束后，要立回到先前規(guī)劃好的優(yōu)巡檢路徑。避流程圖如圖4所示。②基于快速卷神經(jīng)網(wǎng)絡(luò)的火焰別在巡檢過程中，火焰的檢測是尤關(guān)鍵的，隨著計機技術(shù)的快速發(fā)展利用視覺對火焰進檢測比固定的火探測器更加的快準確。但由于在巡場景下存在較多與焰顏色相似的物，且火焰的形狀紋理較為多樣，因在圖像中檢測火焰位置是一項較為難的任務(wù)。本發(fā)采用快速卷積神經(jīng)絡(luò)(fasterr-cnn)火焰特征進行提檢測，不僅可以準的識別出火焰，能精確的計算出火焰生的位置，可以大程度上的降低焰檢測的虛警率。該快速卷積神經(jīng)絡(luò)的訓(xùn)練步驟如：②-1.輸入拍攝到火焰圖片；②-2.將圖片送入積神經(jīng)網(wǎng)絡(luò)(cnn)中進行特提取；②-3.特征提取后征映射(featuremaps)，這特征映射將共同作于后續(xù)的全連接層和rpn(區(qū)生成網(wǎng)絡(luò))；②-3.1特征映進入rpn，首先經(jīng)過一系的區(qū)域候選建議，也就是錨(anchors)，將這建議框再分別饋到兩個1×1的卷積層，其中第一卷積層用于進行區(qū)域類，即通過計算成建議框的iou(交并比)值來區(qū)正負樣本；另一個由于界框回歸判定，過非最大化抑制以生成更精確的目檢測框。②-3.2特征映進入roi池化層，用于后網(wǎng)絡(luò)的計算。2222②-4.將池化后的征映射經(jīng)過全連層后，會再次利用softmax對建議框進行分類，即識別檢框框中的是否為體，同時為了進步提高目標檢測框精確度，會對建議再次進行邊界框歸判定。訓(xùn)練過程示意圖圖5所示。上述步驟利用rpn成檢測框(anchors)是fasterr-cnn相與傳統(tǒng)檢測算的最大優(yōu)勢。rpn生檢測框的具體方法通過一個滑動框輸入特征映射上滑動，在每個像素上生成9個建議框，這些議框的大小可以128、256、512，長寬比為：1、1：2、2：1，并利用些檢測框的交集(iou)來區(qū)別正負樣本，正樣本iou值大于0.7，iou值小于0.3的負樣本，正負樣本比例設(shè)置為1：1。通過這樣的方法劃出的建議框數(shù)仍然很大，因此本明針對圖像中火焰的同特征，可采用導(dǎo)錨定的方法來快rpn的檢測速度，改進的稀疏錨定策為：其中x，y為像點坐標，f(x，y)表示生成火焰顏色掩碼，1則該像素點生成建議框，0則生成，mr(x，y)、mg(x，y)、mb(x，分別為圖像像素點的rgb通道值，tr事先設(shè)定的閾值。另外利用邊界回判定(boundingboxregression)去修檢測框的原理為原始的建議框a經(jīng)過映g得到一個更接近真實情況的歸建議框f。這種映射系g通常可以通過移和縮放得到：先平移：fx＝aw.dx(a)ax(2-2)fy＝ah.dy(a)ay(2-3)再縮放：fw＝aw.exp(dw(a))(2-4)fh＝ah.exp*dh(a))(2-5)其中x，y，w，分別表示建議框中心坐標，寬、高dx、dy、dw、dh分別為我們要找的變關(guān)系，當(dāng)原始框a和真實f差距不大時，通?？蓪⑦@種變換視為線性的輸出是識別為火的概率。第三部分消防巡機器人交互層設(shè)在巡檢過程中需實時將攝像頭所捉到的畫面通過線網(wǎng)絡(luò)發(fā)送到控制和移動終端，并配開發(fā)有相應(yīng)的app，可以時隨地在pc、web、手、pad等終端接受到巡檢面和報警信號，可以在遠程終端巡檢機器人進行相的控制，以實現(xiàn)操人員對想要再次檢的區(qū)域的巡查在檢測到火焰后，該立即向控制室發(fā)警報信號并且能即自動的做出相的滅火措施。在實滅火措施之后，若情仍然得不到抑，應(yīng)該能夠立即自動模式切換到遠操控模式，由控制內(nèi)的專業(yè)人員全接管巡檢機器人控制，手動控制履運tttttt轉(zhuǎn)和機械臂動作實現(xiàn)對著火點的準撲滅，并根據(jù)情判斷是否需要做切斷電源、關(guān)閉燃閥門、轉(zhuǎn)移易燃等操作。另外，將每個巡檢機器都人與整個消防系統(tǒng)行并網(wǎng)，若采取施后火情仍然較，均可以向控制室出接管消防網(wǎng)絡(luò)的求，在得到控制同意下或消防控室一分鐘內(nèi)未做出答，可以將建筑局部的噴淋管網(wǎng)開，同時發(fā)出全消防警報，打開所消防通道與應(yīng)急照設(shè)施，以便最大度的減少財產(chǎn)損和人員傷亡和為救爭取寶貴時間。同為了避免巡檢機人的在巡檢過程的突發(fā)故障，應(yīng)該機器人頂端安裝急按鍵，避免對周人員造成傷害。在火情撲滅后，將該著火點在巡檢地圖標注為重點巡檢域，以便后期巡。消防巡檢機器人交互結(jié)構(gòu)示意圖如6所示。第四部分多消防檢協(xié)作機器人系控制算法由于通常的消防檢任務(wù)都需要由個機器人協(xié)同完，且在整個多機器控制過程中要求實在巡檢過程中最到達時間下的最路徑規(guī)劃，這樣才在保證對巡檢范圍面覆蓋的同時又以保證多機器人檢系統(tǒng)的續(xù)航時間且在巡檢過程中通對巡檢環(huán)境存在干擾是未知的。外為避免執(zhí)行器飽，一般都要求對執(zhí)器的輸入進行約；同時為了安全見，整個巡檢過程機器人之間不能發(fā)碰撞。針對上述消防巡檢協(xié)作機人系統(tǒng)的控制要求需要設(shè)計一款最小達時間t和對外界擾動未、系統(tǒng)部分模型知、輸入存在約束，且要求機人二者之間能避碰撞，另外對于際情況下很難采取精確的外部信息，此要將離線求解為在線求解，所本發(fā)明設(shè)計了一款于積分強化學(xué)習(xí)和ac神網(wǎng)絡(luò)算法的最優(yōu)制器。設(shè)整個消防巡檢域下共有n個機器人協(xié)同檢，n個機器人從各自初始位置(xi0，yi0)到達各自的目的(xid，yid)，i∈{1，2，...，n}，設(shè)第i消防巡檢機器人t時刻的位置li(t)＝[lix(t)，，速度vi(t)＝[vix(t)，viy(t)]，制器輸入ui(t)＝[uix(t)，uiy(t)]，制輸入和未知的環(huán)境擾動wi(t)＝[wix(t)，wiy(t)]，同時為避執(zhí)行器飽和，對入進行約束，要求|u(t)|≤，其中λ為正常數(shù)。設(shè)兩巡檢機器人之間距離rij(t)＝||li(t)-lj(t)||，為免兩個巡檢機器發(fā)生碰撞需要設(shè)一個安全距離rs，要求巡檢過程中的任時刻都要滿足rij(t)≥rs，且我假設(shè)當(dāng)n個機器人到達巡目的地后保證rij(t)＞＞rs，此i≠j。則考慮第i個消防檢機器人的二階性動力學(xué)模型為：其中系統(tǒng)矩陣為，輸入矩陣為b，輸出矩陣為c，干擾矩陣為d，為機器人在t時刻狀態(tài)，為輸入，yi(t)為統(tǒng)唯一輸出。將全局動力學(xué)模寫為：其中tttttt∞tttttt∞tttttt為kronecker乘積x(t)＝[x1(t)，x2(t)，...，xn(t)]y(t)＝[y1(t)，y2(t)，...，yn(t)]，in為n單位矩陣，且設(shè)l(t)＝[l1t，，...，lnt]，ld＝[l1d，l2d，，lnd]，u0＝[u1，，...，un]分別為n個機器人的在t時刻的位、目標點位置和制輸入。為了使n個消防巡機器人可以在未的擾動下實現(xiàn)在連時間、連續(xù)狀態(tài)控制輸入空間中最小時間和能量最優(yōu)控制，并且整個過程中要避免撞，因此考慮以成本函數(shù)：其中ζ>0，用表示巡檢過程中間的比重，r為正定矩陣。為求解器人最小到達時間t未知路徑規(guī)劃問題，入雙曲正切函數(shù)將本函數(shù)改寫成無積分的形式以便解，另外為避免行器飽和，還想對輸入進行約束，此將常見的u(t)ru(t)線二次型改寫成二次型性能函數(shù)φ(u(t)用逼近最小能量成本并且獲輸入約束，且了避免兩個機器之間發(fā)生碰撞引入人工勢場函數(shù)，所將成本函數(shù)近似寫為：v(x(t)，u(t))＝ζtanh(l(t)-ld)(l(t)-ld)φ(u(t))λr(t)fr(rij(t))dt(4-4)其中ζ為正常，tanh為雙曲正切函數(shù)，函數(shù)為單調(diào)遞增奇函數(shù)且連續(xù)可微，因此改寫后的成本函數(shù)依是irl可解的形式。將ζ改寫ζtanh(l(t)-ld)(l(t)-ld)當(dāng)機器人當(dāng)前位置l(t)距離目標點ld時ζtanh(l(t)-ld)(l(t)-ld)似為ζ，到達標點時ξtanh(l(t)-ld)(l(t)-ld)＝0，這樣來就將可以將未時間的t積分轉(zhuǎn)化為與到達時間t無關(guān)的無窮積分，以實現(xiàn)值函數(shù)的最優(yōu)求。又因為機器人系通常對輸入有約，所以將常見的u(t)ru(t)線性次型改寫成非二次型性函數(shù)φ(u(t)用于逼近最能量成本并且捕輸入約束：其中輸入約束|u(t)|≤λ，λ和σ均為正數(shù)，r＝diag(r1，r2...rm)＞0。為了避免任何一巡檢機器人發(fā)生撞，我們加入了工勢場函數(shù)fr(rij(t))使得兩個機器人間發(fā)出排斥勢場得二者相互避開且為了使得加入勢函數(shù)之后的v(x(t)，有界還設(shè)計了一個特殊權(quán)重矩陣λr(t)，用抵消非零尾部。將排函數(shù)fr(rij(t))定義高斯數(shù)的形式，且該高函數(shù)總是大于0：其中s越大則排斥數(shù)的陡度就越大σ越大排斥范圍也越大。了捕捉排斥距離rij(t)，解排斥函數(shù)中的s和σ，假設(shè)：fr(rs)＝k0；fr(rsδ)k1(4-7)其中0＜k1＜k01；δ為正增量。將上式代入得：t22ttt22tt*∞t*通過權(quán)重矩陣λr(t)＝[λ12(t)λ13(t)，...，λn-1n(t)]來使得引入人工勢場函數(shù)后值函數(shù)是有界的且權(quán)重矩陣取決與目標點的距離。λr(t)＝βtanh(||li(t)-lid||||lj(t)-ljd||)(4-9)可以看出，當(dāng)機人原理目標點時λr(t)＝β，當(dāng)器人到達目標點時λr(t)＝0，因此β碰撞系數(shù)，β的大小由巡過程中避免碰撞重要性決定。下面利用(4-4)中成本函數(shù)求解最控制輸入，顯然v可微，(4-4)式兩邊對t求導(dǎo)，所以貝爾曼程可寫為：v(x(t)，u(t))＝-ζtanh(l(t)-ld)t(l(t)-ld)-φ(u(t))λr(t)fr(rij(t))(4-10)令fζ(t)＝ζtanh(l(t)(l(t)-ld)，定義優(yōu)值函數(shù)為：v(x)t)，u(t))＝min∫tζ(t)φ(u(t))λr(t)根據(jù)(4-10)式義hjb方程為：其中在穩(wěn)定性條件有(4-12)式兩邊同時u求導(dǎo)可得：移項后可得最優(yōu)制輸入u為：將(4-14)代入(4-5)中得：其中l(wèi)為全為一的向量，將(4-14)代入(4-15)中得：其中將(4-16)代入(4-12)得：但在實際情況下，方程很難直接求解，且于系統(tǒng)模型部分知，hjb方程中的是不能直接求得，因此可以利用于積分強化學(xué)習(xí)策略迭代算法求解方程，積分強化習(xí)使用(t，tt)內(nèi)的信號于學(xué)習(xí)，不需要道系統(tǒng)具體的動力學(xué)模型。首先將值函數(shù)改成積分差值的形，可得到如下的爾曼方程：為了能夠在線實地求解(4-18)，引入了actor-critic神經(jīng)網(wǎng)絡(luò)算法來實策略迭代過程中的時更新。首先通critic神經(jīng)網(wǎng)絡(luò)對值函數(shù)v(x)進行近似逼近，因為而其中第一項為求得的二次型，此只需要對第二進行逼近，并設(shè)用神經(jīng)網(wǎng)絡(luò)對v0(x)進逼近得：其中wc為critic經(jīng)網(wǎng)絡(luò)的權(quán)重，ψc(x)為基函數(shù)，εc(x)為近誤差；將(4-20)兩邊x求微分可得：將(4-20)代入(4-18)中可以得到新的貝曼方程：其中εe(t)＝εc(x(tt))εc(x(t))為貝曼方程誤差，δψc(x(t)＝ψc(x(tt)-ψc(x(t)。但由于critic經(jīng)網(wǎng)絡(luò)的系數(shù)wc是未知的因此(4-18)還是不能直求解，為了確定wc，此我們直接將(4-20)改寫成其中為v0(x)的近似，為理想的逼近系，則(4-22)式為：令為貝爾曼跟蹤誤，并構(gòu)造以下目函數(shù)，通過使得εe(t)最小化來調(diào)critic神經(jīng)網(wǎng)的權(quán)重系數(shù)：將(4-25)式兩對求導(dǎo)，再由鏈式則可得：其中βc>0為學(xué)習(xí)，為δψc的近似值將ee代入到(4-26)可critic神經(jīng)網(wǎng)的權(quán)重系數(shù)的更新應(yīng)服從將得到的理想權(quán)系數(shù)代入到(4-14)中可得優(yōu)控制策略，然通過critic逼近的值函數(shù)所求的最優(yōu)策略卻并能保證閉環(huán)系統(tǒng)穩(wěn)定性，因此要為行器引入actor神經(jīng)絡(luò)來保證收斂到優(yōu)解的同時還能夠證系統(tǒng)的穩(wěn)定性**為actor神經(jīng)網(wǎng)絡(luò)最優(yōu)逼近系數(shù)，的更新由以下李普諾夫函數(shù)來確：可以證明，當(dāng)wa滿足式時，所逼近的略可以使得系統(tǒng)致最終有界，時可以通過得到u(t)。其中k1、k2為計好的正常數(shù)，基于(4-19)、(4-27)(4-28)和(4-30)，分別利用critic和actor算法現(xiàn)對值函數(shù)和策略數(shù)的同步更新，計一種基于策略代的在線積分強化習(xí)算法來求解hjb方，以求解最優(yōu)控輸入。算法：基于策略代的在線irl算法初始化：給定一可行的執(zhí)行器輸入step1：策略評估給定初始利用下式求解step2：策略改進將代入下式更新step3：令返回step1，直收斂到最小值消防巡檢機器人體結(jié)構(gòu)圖如圖7所示。多消防巡檢協(xié)作器人系統(tǒng)巡檢示圖如圖8所示。其中整個正方形為待巡檢的區(qū)域虛線為區(qū)域劃分，淺色五角星表示點巡檢區(qū)域，深色角星表示火情發(fā)點，雙向箭頭表機器人之間存在信交互。操作機械臂撲滅情工作流程圖如9所示。消防巡檢機器人作流程圖如圖10所示。最后說明的是，上實施例僅用以明本發(fā)明的技術(shù)案而非限制，盡管照較佳實施例對本明進行了詳細說，本領(lǐng)域的普通術(shù)人員應(yīng)當(dāng)理解，以對本發(fā)明的技術(shù)案進行修改或者同替換，而不脫本技術(shù)方案的宗旨范圍，其均應(yīng)涵蓋本發(fā)明的權(quán)利要范圍當(dāng)中。技特：1.基于積分強學(xué)習(xí)的多消防巡協(xié)作機器人系統(tǒng)，特征在于：包括次連接的硬件層、交層、感知層和控層；所述硬件層采用dsp作控制器，將里計和陀螺儀采集的數(shù)據(jù)送入dsp內(nèi)部進行處理，實計算出機器人在檢地圖中的位置通過上位機向dsp發(fā)送速度指令，dsp將取到速度信息編碼以控制伺服電機運轉(zhuǎn)；消防巡檢機器人采用的是履式驅(qū)動；當(dāng)機械需要動作時，由位機中的ros系統(tǒng)通過在moveit！平對機械臂將要移到的目標點進行動軌跡規(guī)劃，將規(guī)好的運動軌跡離散化發(fā)送到dsp中，dsp獲得各個軸的角速度加速度后控制機械臂的伺服電運動以到達目標；所述感知層用于圖的激光雷達、障的紅外線傳感、檢測火焰的火焰測器、溫度傳感器realsensed435i深度攝像頭里程計和陀螺儀2.根據(jù)權(quán)利要1所述的基于積強化學(xué)習(xí)的多消防檢協(xié)作機器人系，其特征在于：所述件層包括履帶驅(qū)系統(tǒng)和機械臂伺控制；1、履帶驅(qū)動系統(tǒng)履帶為兩段，每由單獨的伺服電驅(qū)動；前段履帶于在障礙物時將機人的底盤抬起以便利通過，通過調(diào)前段履帶來調(diào)整器人的高度，為機臂提供更大的操作徑；后半段履帶要起機器人的驅(qū)作用，由一個伺服機同軸驅(qū)動，轉(zhuǎn)向?qū)⒁粋?cè)的履帶進減速制動；伺服機的額定電壓為24v，輸出功率為100w，層pc發(fā)布的x，y軸的速信息通過dsp編碼后轉(zhuǎn)伺服電機的轉(zhuǎn)速，以現(xiàn)轉(zhuǎn)向和驅(qū)動；2、機械臂伺服控機器人上方設(shè)置軸的機械臂，機臂前段設(shè)置能夠動的爪狀夾持裝置夾持裝置上設(shè)置滅裝置；加裝滅火置后配合機械臂現(xiàn)對著火點實現(xiàn)精撲滅；四軸的機械由四個伺服電機動每個軸的運動每個軸的運動信息上位機ros系統(tǒng)中的moveit！進行路徑規(guī)劃后產(chǎn)；①完成“眼在外”下對機械臂的標定通過“眼在手”的標定形式完將目標點在世界坐系下的坐標到相于機械臂坐標系的坐變換；對與“眼在手外”的標定式，機械手基座標系tg到相機坐標系tc的變矩陣tgc是恒定的，標定板坐系tb到機械臂末端坐標系te的變換陣tbe是恒定的，坐標變換的系滿足下式：-1-1-1-1-1對第i個時刻：tbci＝tbe*tegi*tgc(1-1)第i1個時刻：tbci1tbe*tegi1*tgc(1-2)整理得：(tegi)*(teg)i1tgc*(tbc)i*(tbc)i1*tgc(1-3)則a＝(tegi)*(teg)i就是物體相對于機械臂末坐標系te下的運動關(guān)；②利用moveit完成對機械臂的運軌跡規(guī)劃利用moveit！控制機械臂的各獨立功能部件組起來，然后通過ros中的action和service通方式供用戶使用在moveit！中，創(chuàng)建一個符合機臂真實尺寸和軸數(shù)模型urdf模型，輸入模型之，利用moveit！的setupassistant按自己的設(shè)定生成相的配置文件，內(nèi)包括機械臂的碰矩陣以避免規(guī)劃的軌跡使得各軸間發(fā)生碰撞，各關(guān)節(jié)的連接信息以定義的初始位置等然后再添加機械的控制插件controller，controller包括定義follow_joint_trajectory節(jié)點設(shè)置各個軸的名字最后再編寫程序現(xiàn)pc與機械臂過socket通信方式連接，過訂閱joint_state話在rviz中觀察到機械臂實時運動軌跡；由快速卷積神經(jīng)絡(luò)完成對火焰的識檢測，識別成功后過深度攝像頭的云數(shù)據(jù)得到著火相對于機器人的三坐標，再通過tf標變化就能得知械臂末端需要到達位置，之后由內(nèi)集成好的算法完成對跡的求解；求解來的軌跡信息是大量離散的點構(gòu)成，軌跡信息包括要到該點每個軸的速度、角加速度當(dāng)求解出的點足夠時，擬合出一條分光滑的運動軌，將這些離散的點的信息通過話發(fā)布和訂閱之后使得機臂按照規(guī)劃的點滑地運動至目標。3.根據(jù)權(quán)利要1所述的基于積強化學(xué)習(xí)的多消防檢協(xié)作機器人系，其特征在于：所述知層包括紅外傳器避障和基于快卷積神經(jīng)網(wǎng)絡(luò)的火識別；①紅外傳感器障利用紅外傳感器時檢測巡檢機器在巡檢過程中遇的障礙物，當(dāng)前方障礙物時，紅外傳器檢測出機器人障礙物之間的歐里得距離，將這些離與dsp中獲得的里計和陀螺儀數(shù)據(jù)算出障礙物的具體標；獲取坐標后立即由控制算法計出避障路徑，避障路徑是弧形，并且在整個過程要求保持與障礙物一個最小距離，障結(jié)束后，要立回到先前規(guī)劃好的優(yōu)巡檢路徑；②基于快速卷神經(jīng)網(wǎng)絡(luò)的火焰別采用快速卷積神網(wǎng)絡(luò)fasterr-cnn對火焰征進行提取檢測步驟如下：②-1：輸入拍到的火焰圖片；②-2.：將圖片送卷積神經(jīng)網(wǎng)絡(luò)cnn中進行征提?。?222②-3：特征提后特征映射，特映射將共同作用于續(xù)的全連接層和域生成網(wǎng)絡(luò)rpn：②-3.1：特征射進入rpn，首先經(jīng)過一系列區(qū)域候選建議框?qū)⑦@些建議框再分別饋入到個1×1的卷積層，其中第一卷積層用于進行域分類，即通過計算生成建框的交并比iou值來區(qū)分負樣本；另一個于邊界框回歸判定，通過非最化抑制后以生成精確的目標檢測；②-3.2：特征射進入roi池化層，用于續(xù)網(wǎng)絡(luò)的計算；②-4：將池化的特征映射經(jīng)過連接層后，再次利softmax對建議框進行分類，識別檢測框中的是否為物，對建議框再次行邊界框回歸判定rpn生成檢測框具體方法是通過一滑動框?qū)斎胩赜成渖匣瑒?，在每像素點上生成9個議框，這些建議的大小為128、256、512，長寬為1∶1、1∶2、2∶1，利用這些檢測框交并比iou交集比來區(qū)別正負樣，正樣本的iou值大0.7，iou值小于0.3的負本，正負樣本的例設(shè)置為1∶1；針對圖中火焰的不同特，采用引導(dǎo)錨定的法來加快rpn的檢測速度，改進的稀疏定策略為：其中x，y為像點坐標，f(x，y)表示生成火焰顏色掩碼，1則該像素點生成建議框，0則生成，mr(x，y)、mg(x，y)、mb(x，分別為圖像像素點的rgb通道值，tr事先設(shè)定的閾值；另外利用邊界回判定去修正檢測的原理為將原始建議框a經(jīng)過映射g得到一個更接近真情況的回歸建議f；這種映射g通過平移和縮放到：先平移：fx＝aw.dx(a)ax(2-2)fy＝ah.dy(a)ay(2-3)再縮放：fw＝aw.exp(dw(a))(2-4)fh＝ah.exp(dh(a))(2-5)其中x，y，w，分別表示建議框中心坐標，寬、高dx、dy、dw、dh分別為變換關(guān)系，當(dāng)始框a和真實框f差距不時，將這種變換為線性的；輸出是識別為火的概率。4.根據(jù)權(quán)利要1所述的基于積強化學(xué)習(xí)的多消防檢協(xié)作機器人系，其特征在于：所述互層為：在巡檢程中需要實時將像頭所捕捉到的畫通過無線網(wǎng)絡(luò)發(fā)送控制室和移動終，并配套開發(fā)有應(yīng)的app，在遠程終端對巡檢機器人進相應(yīng)的控制，以現(xiàn)操作人員對想再次巡檢的區(qū)域的查；在檢測到火后，立即向控制發(fā)出警報信號并能立即自動的做出應(yīng)的滅火措施；在施滅火措施之后若火情仍然得不抑制，即將自動模切tttttttttttttttt換到遠程操控模，由控制室內(nèi)的業(yè)人員全面接管檢機器人的控制，動控制履帶運轉(zhuǎn)和械臂動作以實現(xiàn)著火點的精準撲，并根據(jù)火情判斷否需要做出切斷電、關(guān)閉燃氣閥門轉(zhuǎn)移易燃物操作將每個巡檢機器都人與整個消防系統(tǒng)行并網(wǎng)，若采取施后火情仍然較，向控制室發(fā)出接消防網(wǎng)絡(luò)的請求，得到控制室同意或消防控制室一鐘內(nèi)未做出應(yīng)答，建筑內(nèi)局部的噴淋網(wǎng)打開，同時發(fā)全面消防警報，開所有消防通道與急照明設(shè)施；在機人頂端安裝急停鍵；在火情撲滅，將著火點在巡檢圖上標注為重點巡區(qū)域。5.根據(jù)權(quán)利要1所述的基于積強化學(xué)習(xí)的多消防檢協(xié)作機器人系，其特征在于：所述制層為：設(shè)整個消防巡檢域下共有n個機器人協(xié)同檢，n個機器人從各自初始位置(xi0，yi0)到達各自的目的(xid，yid)，i∈{1，2，...，n}，設(shè)第i消防巡檢機器人t時刻的位置lj(t)＝[lix(t)，，速度vi(t)＝[vix(t)，viy((t)]，控制器輸入ui(t)＝[uix(t)，，控制輸和未知的環(huán)境擾動wi(t)＝[wix(t)，，為避免行器飽和，對輸進行約束，要求|u(t)|≤λ其中λ為正常。設(shè)兩個巡檢機人之間的距離rij(t)＝||li(t)-lj(t)||，為免兩個巡檢機器發(fā)生碰撞需要設(shè)一個安全距離rs，要求巡檢過程中的任時刻都要滿足rij(t)≥rs，設(shè)當(dāng)n個機器人到達巡檢目的地保證rij(t)＞＞rs，此時i≠j；則考慮第i個消防檢機器人的二階性動力學(xué)模型為：其中系統(tǒng)矩陣為，輸入矩陣為b，輸出矩陣為c，干擾矩陣為d，為機人在t時刻的狀態(tài)為輸入，yi(t)為系統(tǒng)唯一出。將全局動力學(xué)模寫為：其中為kronecker乘積，x(t)＝[x1(t)x2(t)，...，xn(t)]y(t)＝[y1(t)，y2(t)，，yn(t)]，in為n階單矩陣，且設(shè)l(t)＝[l1t，l2t，...，lnt]，＝[l1d，l2d，...，lnd]，u0＝[u1，u2，...un]分別為n個機器人的在t時刻的位置、目標點位置和控輸入；為使n個消防巡檢器人在未知的擾下實現(xiàn)在連續(xù)時間連續(xù)狀態(tài)和控制入空間中的最小間和能量的最優(yōu)制，并且在整個程中要避免碰撞，慮以下成本函數(shù)：其中ζ＞0，用表示巡檢過程中時的比重，r為正定矩陣；為求解機人最小到達時間t未知路徑規(guī)劃問題，入雙曲正切函數(shù)將本函數(shù)改寫成無積分的形式以便解，另外為避免行器飽和，還想對輸入進行約束，u(t)ru(t)線性次型改寫成非二次性能函數(shù)φ(u(t)用于逼近最小能成本并且捕獲輸入約，且為避免兩個器人之間發(fā)生碰引入了人

人人文庫> 全部分類> 行業(yè)資料 > 工業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于積分強化學(xué)習(xí)的多消防巡檢協(xié)作機器人系統(tǒng)的制作方法

文檔簡介

溫馨提示

最新文檔

評論

基于積分強化學(xué)習(xí)的多消防巡檢協(xié)作機器人系統(tǒng)的制作方法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔