仿真機(jī)器人足球整體性能的優(yōu)化與實(shí)現(xiàn)畢業(yè)論文

上傳人：d*** IP屬地：天津上傳時(shí)間：2021-05-17 格式：DOCX 頁(yè)數(shù)：40 大?。?02.64KB 積分：35 舉報(bào) 版權(quán)申訴

仿真機(jī)器人足球整體性能的優(yōu)化與實(shí)現(xiàn)畢業(yè)論文_第2頁(yè)

仿真機(jī)器人足球整體性能的優(yōu)化與實(shí)現(xiàn)畢業(yè)論文_第3頁(yè)

仿真機(jī)器人足球整體性能的優(yōu)化與實(shí)現(xiàn)畢業(yè)論文_第4頁(yè)

仿真機(jī)器人足球整體性能的優(yōu)化與實(shí)現(xiàn)畢業(yè)論文_第5頁(yè)

已閱讀5頁(yè)，還剩35頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、中圖分類號(hào)：TP393.17本科生畢業(yè)設(shè)計(jì)（申請(qǐng)學(xué)士學(xué)位）論文題目2D仿真機(jī)器人足球整體性能的優(yōu)化與實(shí)現(xiàn)作者姓名龐偉所學(xué)專業(yè)名稱指導(dǎo)教師計(jì)算機(jī)科學(xué)與技術(shù)趙瑞斌2012年3月10日學(xué) 號(hào)： 2008210775論文答辯日期： 2011 年 5 月 13 日指導(dǎo) 教師：（簽字）滁州學(xué)院本科畢業(yè)設(shè)計(jì)（論文）原創(chuàng)性聲明本人鄭重聲明：所呈交的設(shè)計(jì)（論文）是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外，本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果。本人完全意識(shí)到本聲明的法律后果由本人承擔(dān)。目錄摘要 11 緒論 21.1 背景及意義 21.2 RoboCu

2、p 機(jī)器人世界杯 21.3 RoboCup 仿真比賽 31.4 論文組織結(jié)構(gòu) 32 RoboCup 仿真比賽綜述 42.1 RoboCup 仿真平臺(tái)簡(jiǎn)介 42.2 比賽服務(wù)器端 42.3 球員客戶端 62.4 仿真平臺(tái)主要特點(diǎn) 73 多智能體系統(tǒng)架構(gòu) 73.1 團(tuán)隊(duì)整體策略 73.1.1 角色和陣型 83.1.2 局部通訊模型 93.2 智能體體系結(jié)構(gòu) 113.2.1 建模 113.2.2 通訊 133.2.3 動(dòng)作 133.2.4知識(shí)庫(kù) 143.2.5 規(guī)劃決策 154 異構(gòu)智能體的選擇和辨識(shí) 174.1 在線教練設(shè)計(jì) 174.2 異構(gòu)智能體簡(jiǎn)介 184.3 異構(gòu)智能體的選擇 194.3.1

3、指標(biāo)提煉 194.3.2 指標(biāo)歸一化 204.3.3 分配算法 214.4 異構(gòu)智能體識(shí)別 214.5 小結(jié) 225 智能體間的配合與對(duì)抗 235.1 智能體間的配合傳球 235.1.1傳球路線的搜索 235.1.2傳球路線的決策 245.1.3更多的配合 265.2 智能體間的對(duì)抗射門 265.2.1領(lǐng)先一步模型 265.2.2射門成功率分析 265.2.3射門動(dòng)作的測(cè)試 285.2.4其他對(duì)抗動(dòng)作 296 系統(tǒng)架構(gòu) 29結(jié)論與展望 31參考文獻(xiàn) 32致謝 332D仿真機(jī)器人足球整體性能的優(yōu)化與實(shí)現(xiàn)摘要：隨著計(jì)算機(jī)技術(shù)的告訴發(fā)展，分布式人工智能中的多智能體系統(tǒng)(MAS: Multi-a

4、ge nt System )的理論與及應(yīng)用研究已經(jīng)成為人工智能研究的熱點(diǎn)。RoboCup ( Robot World Cup，即機(jī)器人足球世界杯)作為人工智能和機(jī)器人學(xué)新的標(biāo)準(zhǔn)問(wèn)題，具有多智能體系統(tǒng)的諸多特征，是各種新理論和技術(shù)良好的試驗(yàn)平臺(tái)。本文首先介紹了RoboCup的研究背景，然后介紹了rcssserver的的仿真環(huán)境。從第三章開始切入本文正題，首先從團(tuán)隊(duì)整體策略和智能體體系結(jié)構(gòu)兩方面講解了多智能體系統(tǒng)架構(gòu)，其中應(yīng)用了混合型的智能體體系結(jié)構(gòu)將智能體架構(gòu)分為建模模塊、通訊模塊、動(dòng)作模塊、知識(shí) 庫(kù)模塊、規(guī)劃決策模塊和反應(yīng)模塊。第四章講解了利用在線教練實(shí)現(xiàn)異構(gòu)智能體的選擇和辨識(shí)，并給出了

5、智能體的選擇和分配的框架。第五章在異構(gòu)智能體的前提下重新完成了智能體間配合和對(duì)抗中典型動(dòng)作的精煉。整體上對(duì)仿真機(jī)器人足球系統(tǒng)進(jìn)行了優(yōu)化。關(guān)鍵詞：RoboCup;分布式人工智能；多智能體系統(tǒng)Optimization and Implementation of the 2D simulation of theoverall performance of the robot soccerAbstract:With the developme nt of the computer tech no logy, research on the theory and applicati on of Mul

6、ti-age nt system (MAS) has become a hotspot of Artificial In tellige nee. As a new sta ndard problem of AI and Robotics, RoboCup en vir onment is a typical MAS and it is a good test bed for the theory and tech no logy in this doma in. First,this paper i ntroduces the research backgro und of RoboCup.

7、Sec ond, the simulati on en vir onment of robot soccer. After prese nting the aim of this thesis, first it in troduces the architecture of the multi-age nt system from two aspects of the team s overall strategy and the age nt architecture, it apply the hybird age nt architecture in the team. The arc

8、hitecture con sists of modeli ng, com muni cati on, acti ons, domain knowledge, deliberative reasoning and reactive module. Accomplished the assig nment and recog niti on of heteroge neous age nt by an on li ne coach in chapter four, some essential guidelines are abstracted and the framework of assi

9、gnment is set up with these guidelines. Refined the typical actions with heterogeneous agents in chapter five. It optimizatio n the simulatio n system as a whole.Key words：RoboCup; Distributed Artificial In tellige nee; Multi-age nt system1緒論1.1背景及意義智能體（Agent）和多智能體系統(tǒng)（MAS : Multi-age nt System ）是當(dāng)今人工

10、智能領(lǐng)域的研究熱點(diǎn) 之一，其應(yīng)用背景包括各類自主機(jī)器人、網(wǎng)絡(luò)信息代理、分布式過(guò)程控制和新一代軟件工程。Age nt的理論和研究技術(shù)最早源于分布式人工智能，但從80年代末開始，Age nt理論及技術(shù)研究從分布式人工智能中拓展出來(lái)，并與許多其他領(lǐng)域的知識(shí)互相借鑒，在許多不同于人工智能領(lǐng)域得到了廣泛的應(yīng)用?，F(xiàn)在對(duì)Age nt的特性研究中，認(rèn)為一個(gè) Age nt最基本的特性應(yīng)該包含反應(yīng)性、自主性、面向目標(biāo)和社會(huì)性，然后根據(jù)其應(yīng)用情況可以擁有其它特性：移動(dòng)性、自適應(yīng)性、反應(yīng)性、理性、持續(xù) 性、自啟動(dòng)和自利等特性。Age nt概念的提出為人們提供了一種系統(tǒng)分析、計(jì)算和問(wèn)題求解風(fēng)范。多智能體系統(tǒng)的協(xié)作求

11、解問(wèn)題的能力超過(guò)單個(gè)的Age nt是MAS產(chǎn)生的最直接原因，導(dǎo)致 MAS研究逐漸興起的其他原因還包括：與已有系統(tǒng)或軟件的互操作；提高系統(tǒng)的效率和魯棒性等。與單個(gè) Age nt相比，MAS具有以下特點(diǎn)：每個(gè)Age nt僅擁有不完全的信息和問(wèn)題求解能力，不存在全局控制，數(shù)據(jù)是分布的，計(jì)算過(guò)程是并行的。基于MAS的模型概念模型代表了一種分析、設(shè)計(jì)和實(shí)現(xiàn)復(fù)雜、大型系統(tǒng)的方法途徑。如何在多Age nt動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)Age nt的靈活性和動(dòng)作執(zhí)行性，是當(dāng)前 MAS的研究熱點(diǎn)。此時(shí)，RoboCup作為人工智能和機(jī)器人學(xué)新的標(biāo)準(zhǔn)問(wèn)題被提了出來(lái)，其具有 MAS的諸多特征，成為各種新理論及技術(shù)的良好試驗(yàn)平臺(tái)。1

12、.2 RoboCup機(jī)器人世界杯RoboCup機(jī)器人世界杯是國(guó)際上一項(xiàng)為促進(jìn)分布式人工智能、智能機(jī)器人技術(shù)及相關(guān)領(lǐng)域的研究與發(fā)展而舉行的大型比賽和學(xué)術(shù)活動(dòng)。它通過(guò)提供一個(gè)標(biāo)準(zhǔn)的平臺(tái)來(lái)檢驗(yàn)各種智能機(jī)器人技術(shù)。它的最終夢(mèng)想是在 2050年組建一支能夠打敗人類足球世界杯冠軍的機(jī)器人足球隊(duì)23。機(jī)器人足球賽的最初想法由加拿大不列顛哥倫比亞大學(xué)的Alan Mackworth教授于1992年正式提出。日本學(xué)者立即對(duì)這一想法進(jìn)行了系統(tǒng)的調(diào)研和可行性分析。1993年，Minoru Asada、Hiroaki Kitano和Yasuo Kuniyoshi等著名學(xué)者創(chuàng)辦了 RoboCup機(jī)器人世界杯（Robo

13、t World Cup，簡(jiǎn)稱RoboCup ）。與此同時(shí)，一些研究人員開始將機(jī)器人足球作為研究課題。隸屬于日本政府的電子技術(shù)實(shí)驗(yàn)室（ETL）的Itsuki Noda以機(jī)器人足球?yàn)楸尘罢归_多智能體系統(tǒng)的研究，日本大坂大學(xué)的淺田蟋、美國(guó)卡耐基-梅隆大學(xué)的Veloso等也開展了同類工作。1997年，在國(guó)際最權(quán)威的人工智能系列學(xué)術(shù)大會(huì)-第15屆國(guó)際人工智能聯(lián)合大會(huì)（ The 15th In ternatio nal Joi nt Co nference on Artificial In tellige nee ，簡(jiǎn)稱 IJCAI -97 ）上，機(jī)器人足球被正式列為人工智能的一項(xiàng)挑戰(zhàn)。至此，機(jī)器人足球

14、成為人工智能和機(jī)器人學(xué) 新的標(biāo)準(zhǔn)問(wèn)題。將機(jī)器人足球作為未來(lái)人工智能和機(jī)器人學(xué)標(biāo)準(zhǔn)問(wèn)題是十分恰當(dāng)?shù)?，主要是由于機(jī)器人足球具有以下特點(diǎn)：（1）典型性：RoboCup機(jī)器人足球隊(duì)的研制涉及當(dāng)前人工智能研究的大多數(shù)主要熱點(diǎn)，因而構(gòu) 成一個(gè)典型問(wèn)題。（2）可行性：多Age nt系統(tǒng)多數(shù)實(shí)際背景十分復(fù)雜，以致研究人員在目前條件下難以把握，無(wú)法兼顧具體細(xì)節(jié)分析與探索基本問(wèn)題。而在機(jī)器人足球中則較易兼顧二者，易于深入。（3）客觀性：比賽提供了一種實(shí)驗(yàn)平臺(tái)和評(píng)價(jià)各種理論與技術(shù)的客觀方法，便于研究者的“觀察”和相互交流。（4）綜合性：在以往的研究中，各種技術(shù)通常被分為開發(fā)和考察，綜合集成工作一般由面向最終用戶

15、的應(yīng)用部門來(lái)完成，這種方式不利于相關(guān)技術(shù)在更高層次上的銜接和更深層次上的創(chuàng)新，而機(jī)器人足球是一個(gè)深層次的綜合平臺(tái)”。因此，開展機(jī)器人足球的研究是人工智能從基礎(chǔ)理論走向?qū)嶋H應(yīng)用的一個(gè)戰(zhàn)略性步驟。1.3 RoboCup仿真比賽RoboCup仿真機(jī)器人足球比賽是在 RoboCup官方提供的仿真平臺(tái)上進(jìn)行的，因此設(shè)計(jì)者不必考慮硬件實(shí)現(xiàn)，而將研究集中在動(dòng)態(tài)不確定環(huán)境下的問(wèn)題求解與多智能體合作。RoboCup仿真球隊(duì)決策的難點(diǎn)在于以下幾點(diǎn)：（1）問(wèn)題復(fù)雜：RoboCup仿真機(jī)器人足球比賽中，如果對(duì)于場(chǎng)上的22名球員的位置和速度、球的位置和速度等特征完全描述，無(wú)疑狀態(tài)空間極其巨大。如何合理的描述狀態(tài)并

16、求解決策問(wèn)題，是一個(gè)十分重要的難點(diǎn)，而且RoboCup仿真平臺(tái)中的噪聲也是必須要考慮的問(wèn)題。（2）信息不完全：RoboCup仿真球隊(duì)的球員不能完全了解場(chǎng)上的所有信息，仿真平臺(tái)限制了球員獲取信息的途徑，每一個(gè)球員都必須依賴自身獲得的有限信息進(jìn)行決策。如何獲得更多的有效信息，如何利用有限信息進(jìn)行合理的決策，是RoboCup球隊(duì)決策的一個(gè)重要問(wèn)題。（3）決策的實(shí)時(shí)性：RoboCup仿真環(huán)境是一個(gè)實(shí)時(shí)動(dòng)態(tài)環(huán)境，環(huán)境可能發(fā)生不可預(yù)期的改變，這將使得原有的決策不再適用。這種情況下，要求Age nt能夠根據(jù)場(chǎng)上情況變化，及時(shí)做出反應(yīng)，決策必須實(shí)時(shí)高效。（4）多智能體的對(duì)抗與合作：RoboCup仿真機(jī)器

17、人足球比賽中，存在多個(gè)獨(dú)立決策的球員，他們之間既存在合作（同一球隊(duì)內(nèi)）也存在對(duì)抗（兩支球隊(duì)之間）。如何使球員間協(xié)商、規(guī)劃以實(shí)現(xiàn)合作完成任務(wù)并在對(duì)抗中取得最大效益，這是RoboCup仿真足球的一個(gè)重要研究問(wèn)題。（5）通訊帶寬有限且不可靠：多智能體的合作中，通訊能夠起到非常重要的作用。而RoboCup 仿真平臺(tái)對(duì)球員間的通訊給與了一定的限制。在有限帶寬且不可靠的通訊上，如何保證合作的順利進(jìn)行，這也是需要解決的問(wèn)題。1.4論文組織結(jié)構(gòu)第1部分，緒論，介紹機(jī)器人足球的研究背景及RoboCup。第2部分，RoboCup仿真比賽綜述，介紹RoboCup仿真比賽以及RoboCup仿真平臺(tái)。第3部分，多智能

18、體系統(tǒng)架構(gòu)，從總體上介紹了仿真機(jī)器人足球比賽的相關(guān)知識(shí)。第4部分，異構(gòu)智能體的選擇和辨識(shí)，介紹仿真機(jī)器人足球比賽中異構(gòu)智能體的概念和用法。第5部分，智能體間的配合與對(duì)抗，介紹仿真機(jī)器人足球系統(tǒng)的決策方法以及實(shí)現(xiàn)。第6部分，系統(tǒng)架構(gòu)，介紹仿真機(jī)器人足球系統(tǒng)整體的架構(gòu)。2 RoboCup仿真比賽綜述RoboCup仿真機(jī)器人足球比賽是 RoboCup比賽中參加人數(shù)最多、歷史最久的子項(xiàng)目，僅需要幾臺(tái)計(jì)算機(jī)就可以進(jìn)行比賽，全部的活動(dòng)由計(jì)算機(jī)進(jìn)行模擬，可以避免機(jī)械電路的各種硬件限制，將精力集中于高層的算法研究中，在實(shí)時(shí)異步有噪聲的對(duì)抗環(huán)境下，研究多智能體間的合作與對(duì)抗問(wèn)題。2.1 RoboCup仿真

19、平臺(tái)簡(jiǎn)介RoboCup仿真平臺(tái)是一套能夠不同語(yǔ)言編寫的自主球員進(jìn)行足球比賽的系統(tǒng)。比賽的執(zhí)行采用的是服務(wù)器客戶端(server/clie nt)模式，服務(wù)器端程序rcssserve提供了一個(gè)虛擬場(chǎng)地并且模擬包括球和球員在內(nèi)的所有物體的移動(dòng)，每個(gè)客戶端程序相當(dāng)于一個(gè)球員的大腦，控制場(chǎng)上該球員的移動(dòng)。服務(wù)器端和客戶端之間是通過(guò)UDP/IP協(xié)議進(jìn)行信息交互的，也就是說(shuō)，開發(fā)者可以使用任何支持UDP/IP協(xié)議程序的語(yǔ)言來(lái)設(shè)計(jì)球隊(duì)程序。通過(guò)UDP/IP協(xié)議，客戶端程序可以發(fā)送指令去控制相應(yīng)的場(chǎng)上球員，而服務(wù)器端按照規(guī)則給每個(gè)客戶端發(fā)送它所能獲得的信息。每個(gè)客戶端只允許控制一名球員，所以每隊(duì)必須同時(shí)

20、運(yùn)行與比賽球員數(shù)目相等的客戶端程序。客戶端之間的通訊必須通過(guò)服務(wù) 器端根據(jù)規(guī)則來(lái)進(jìn)行轉(zhuǎn)發(fā)，任何不經(jīng)過(guò)服務(wù)器客戶端直接聯(lián)系的行為都是違反規(guī)則的。當(dāng)一場(chǎng)比賽開始時(shí)，雙方11個(gè)獨(dú)立球員的程序，連接到服務(wù)器端進(jìn)行比賽，每個(gè)隊(duì)的目標(biāo)就是將球踢進(jìn)對(duì)方球門的同時(shí)阻止球進(jìn)入自己的球門。2.2比賽服務(wù)器端比賽服務(wù)器端包括兩個(gè)主要程序：rcssserver和rcssmonitor。 rcssserver作為一個(gè)服務(wù)器程序模擬所有球員、球的移動(dòng)、球員通訊以及根據(jù)比賽規(guī)則控制比賽進(jìn)程。rcssm on itor是一個(gè)程序?qū)膔cssserver那里獲得的場(chǎng)上比賽信息顯示到一個(gè)虛擬的足球場(chǎng)地上，由客戶端程序控制的隊(duì)

21、員可以在場(chǎng)上跑動(dòng)、踢球等。rcssserver主要由球場(chǎng)仿真模塊、裁判模塊和消息板模塊三個(gè)部分組成，如圖2-1所示。圖 2-1 rcssserver結(jié)構(gòu)圖球場(chǎng)仿真模塊計(jì)算球場(chǎng)上對(duì)象的運(yùn)動(dòng)，檢測(cè)他們之間的碰撞。球場(chǎng)上的對(duì)象包括每隊(duì)各11名隊(duì)員、球、球門、標(biāo)記及標(biāo)志線等。其中球和球員都具有大小、位置、速度、加速度等屬性，球員則還有方向、耐力等屬性。球員與球的屬性每個(gè)周期末更新一次，計(jì)算的依據(jù)是動(dòng)力學(xué)定律。如果球員與球員或球之間發(fā)生重疊，則作碰撞處理。裁判模塊依據(jù)比賽規(guī)則控制比賽的進(jìn)程。由于仿真比賽環(huán)境具有動(dòng)態(tài)、實(shí)時(shí)、不確定、多主體對(duì)抗等特點(diǎn)，比賽不可能按照事先的設(shè)計(jì)按部就班的進(jìn)行，還需要在

22、比賽中有一個(gè)“智能”裁判。目前這個(gè)內(nèi)嵌的人工裁判只是部分實(shí)現(xiàn)，可以檢測(cè)一些簡(jiǎn)單的形式，如進(jìn)球、界外球、越位等。然而，還是有一些很難檢測(cè)的狀態(tài)，如雙方對(duì)峙、誰(shuí)都不踢球，這就需要一個(gè)人為裁判。所有的參賽球隊(duì)都必須遵守一個(gè)“紳士協(xié)定”，包括不能利用比賽漏洞等有礙比賽公平的做法。消息板模塊負(fù)責(zé)客戶端之間的通訊。每個(gè)客戶端程序通過(guò)UDP的socket來(lái)連接server。同樣，通過(guò)socket，客戶端程序可以發(fā)送命令來(lái)控制球員，也可以接受球員的感知信息。rcssserver采用離散化模式運(yùn)行，即所有程序運(yùn)行都是以仿真周期為單位。在每個(gè)仿真周（simulatorstep，缺省為100毫秒）結(jié)束前，se

23、rver收集所有球員程序的行為請(qǐng)求，直到每個(gè)周期末才統(tǒng)一執(zhí)行并更新場(chǎng)上信息。在每個(gè)周期的開始，server根據(jù)各個(gè)球員的狀態(tài)（包括可視范圍、獲得時(shí)間等）發(fā)送相應(yīng)的已更新的場(chǎng)上信息，體現(xiàn)了球員感知信息和行動(dòng)的異步性。如果一個(gè)球員在一個(gè)周期內(nèi)發(fā)送了多于一條的獨(dú)立行為請(qǐng)求，server將只執(zhí)行第一個(gè)。因此，球?yàn)榱吮ＷC執(zhí)行自己的真實(shí)意圖，每周期就只能發(fā) 送一條獨(dú)立行為請(qǐng)求；另一方面，如果球員在一個(gè)周期內(nèi)沒有發(fā)送行為請(qǐng)求，他將失去該周期的行動(dòng)機(jī)會(huì)，對(duì)于這樣一個(gè)實(shí)時(shí)對(duì)抗的環(huán)境無(wú)疑是很不利的。在rcssserver平臺(tái)上比賽時(shí)，所有仿真比賽場(chǎng)景都可以通過(guò)一個(gè)可視化程序rcssmonitor顯示在電腦

24、屏幕上。它通過(guò)一個(gè)特殊的端口（缺省為6000）直接和服務(wù)器端連接，獲得比一般球員程序更全面、更準(zhǔn)確的信息，使得用戶可以生動(dòng)地看到比賽的整個(gè)過(guò)程，并且可以控制比賽的進(jìn)程。另外，球場(chǎng)和球場(chǎng)上的對(duì)象都是二維的，任何對(duì)象都沒有高度的概念。球用一個(gè)實(shí)心原點(diǎn)表示。場(chǎng)上每個(gè) 隊(duì)員用一個(gè)圓圈表示，從圓心處引出兩條線段，紅色線段代表球員脖子的朝向，黑色線段代表球員身體的朝向。當(dāng)球員體力低于2400時(shí)圓圈一周會(huì)變成紅色代表此球員體力不支。如圖2-2所示。MPJ 0:0 MPJ1before_kkk_oM 0 LTMA_HP|o n35mDntcrii.0.j pw&p* lajx fwp* Jprcfi： -

25、jH砂8亦Cl弊川 4 fl 1宵疋込麗陽(yáng)iMf IS.Cl.b緲帀dv 鯽別號(hào) vie*圖2-2球場(chǎng)界面2.3球員客戶端一個(gè)球員客戶端程序通過(guò) UDP接口連接到服務(wù)器端。通過(guò)這個(gè)接口，客戶端程序可以發(fā)送命令來(lái)控制場(chǎng)上的一個(gè)球員行動(dòng)以及接收到這名球員的感知信息。換句話說(shuō)，一個(gè)球員客戶端就是球員的大腦：從服務(wù)器端接收到感知信息，并且發(fā)送命令到服務(wù)器端。如果球員程序都是獨(dú)立的進(jìn)程，通過(guò)一個(gè)特定的端口和服務(wù)器端連接。當(dāng)一個(gè)球員程序和服務(wù)器端建立好連接以后，所有通訊信息都通過(guò)這個(gè)端口傳輸。一個(gè)球隊(duì)最多可以連接12名隊(duì)員，其中包括11名隊(duì)員（其中一個(gè)是守門員）和1名場(chǎng)上教練。這些球員程序向服務(wù)器

26、端發(fā)送請(qǐng)求執(zhí)行相應(yīng)行為（如踢球、轉(zhuǎn)身、跑步等），服務(wù)器端分析處理這些請(qǐng)求，相應(yīng)的更新場(chǎng)上比賽狀態(tài)。另一方面，服務(wù)器端給所有隊(duì)員提供他們可以感知到的信息，如球員可以看到的視覺信息、球員自身的狀態(tài)信息等。由于服務(wù)器端實(shí)際上是一種以離散時(shí)間片（或稱為周期）為時(shí)間單位工作的實(shí)時(shí)系統(tǒng)，球員程序必須在每個(gè)指定仿真周期內(nèi)及時(shí)做出決策并及時(shí)將請(qǐng)求發(fā)送給服務(wù)器端，否則將錯(cuò)過(guò)執(zhí)行動(dòng)作的機(jī)會(huì)。這就要求球員決策要有比較高的實(shí)時(shí)性。正式比賽中每個(gè)客戶端程序只能控制一個(gè)場(chǎng)上隊(duì)員。因此，要組成一支球隊(duì)就需要同樣數(shù)量的程序分別控制每個(gè)隊(duì)員。球員之間的通訊必須經(jīng)過(guò)比賽平臺(tái)按照say和hear命令協(xié)議執(zhí)行，而且通訊環(huán)境具

27、有單信道、窄帶寬等特點(diǎn)。仿真比賽平臺(tái)的一個(gè)目的就是要評(píng)估多智能體系統(tǒng)，智能體之間的高效通訊也是其中的一個(gè)判別標(biāo)準(zhǔn)。為了盡可能模擬現(xiàn)實(shí)環(huán)境，比賽平臺(tái)還加了很多限制。比如，每個(gè)隊(duì)員都有一定的視野范圍，每次只能獲得局部信息，即包括可視范圍內(nèi)的對(duì)象信息，而且是有隨機(jī)噪音的；每個(gè)球員都有自己的體力值，隨跑動(dòng)衰減，每周期可以自動(dòng)恢復(fù)一些，這樣就限制球員要注意調(diào)整跑動(dòng)速度，合理分配體力，也更符合現(xiàn)實(shí)。另外，為了反映出實(shí)際比賽中球以及球員運(yùn)動(dòng)的不確定性，server還引入了風(fēng)及噪聲的干擾及對(duì)行為參數(shù)的干擾，使比賽更趨于真實(shí)，正如現(xiàn)實(shí)比賽很難無(wú)風(fēng)和噪聲的干擾，快速跑動(dòng)中的隊(duì)員不太可能急轉(zhuǎn)彎等等，但這也增

28、大了準(zhǔn)確建模的難度6。2.4仿真平臺(tái)主要特點(diǎn)通過(guò)上面的介紹可以看到，RoboCup仿真平臺(tái)提供了一個(gè)很好的、全分布的、包括合作與對(duì)抗的多智能體實(shí)時(shí)環(huán)境，非常有挑戰(zhàn)性。其具體特點(diǎn)總結(jié)如下：(1) 狀態(tài)空間極大：僅僅考慮 22個(gè)球員的位置和速度情況：每個(gè)隊(duì)員的位置范圍處于68X105 的賽場(chǎng)上，最大速度為1.0，保留到小數(shù)點(diǎn)后一位，再加上速度方向的考慮，共有680X1050X10X360=109 種可能，這樣就存在(109) 22=10198個(gè)狀態(tài)，如果再增加足球狀態(tài)等信息，則狀態(tài)空間將更為巨大。(2) 動(dòng)態(tài)、實(shí)時(shí)、不確定的環(huán)境：在服務(wù)器端，整個(gè)系統(tǒng)按照100毫秒的周期運(yùn)轉(zhuǎn)，所有的球員都必須按照

29、則個(gè)周期運(yùn)行，意味著球員的所有決策必須實(shí)時(shí)完成，由于多智能體的存在，環(huán)境在動(dòng)態(tài)的變化，無(wú)法預(yù)知。(3) 感知和行為異步：由于比賽時(shí)間以周期為單位離散，感知和行為就無(wú)法同步，所以光靠傳統(tǒng)人工智能方法使用感知來(lái)激發(fā)行動(dòng)是遠(yuǎn)遠(yuǎn)不夠的。(4) 球員能力受限：場(chǎng)上所有球員的能力都是參照真實(shí)球員有所限制的，如體力、加速度、最大速度、慣性等。(5) 視覺受限：每個(gè)球員的視覺都是局部的，受到球員視角和視距的限制，也就是說(shuō)球員在任何時(shí)刻都只能獲得一部分球場(chǎng)上的信息，這就給球員正確分析場(chǎng)上形勢(shì)，進(jìn)而產(chǎn)生決策帶來(lái)了困難。(6) 通訊受限：球員之間的通訊環(huán)境具有單信道、窄帶寬等特點(diǎn)，即每隊(duì)球員公用一條信道，每個(gè)球

30、員一個(gè)周期內(nèi)只能聽”到隊(duì)友一條消息，而且信道容量很有限(缺省為10字節(jié))。(7) 多智能體的對(duì)抗與合作：本方智能體是合作關(guān)系，要協(xié)調(diào)個(gè)體目標(biāo)與全局目標(biāo)的沖突；而對(duì)抗智能體的競(jìng)爭(zhēng)關(guān)系則意味著執(zhí)行任務(wù)時(shí)要遇到更多的障礙。RoboCup仿真比賽充分體現(xiàn)了人類足球的特點(diǎn)，也集中了許多人工智能領(lǐng)域關(guān)注的重點(diǎn)問(wèn)題。用戶可以運(yùn)用包括數(shù)學(xué)建模、搜索推理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、動(dòng)態(tài)規(guī)劃等各種知識(shí)、技術(shù)來(lái)開發(fā) 球隊(duì)，并通過(guò)該平臺(tái)進(jìn)行實(shí)踐、檢驗(yàn)，很好的推動(dòng)了相關(guān)學(xué)科理論的研究。3多智能體系統(tǒng)架構(gòu)多智能體系統(tǒng)是多個(gè)自主智能體的集合，當(dāng)這些智能體為了一個(gè)共同的目標(biāo)協(xié)調(diào)合作時(shí)，稱之為形成了一個(gè)團(tuán)隊(duì)。一個(gè)有共同目標(biāo)的多

31、智能體系統(tǒng)需要在設(shè)計(jì)之初就從整體上考慮其協(xié)作方法本章首先站在團(tuán)隊(duì)整體的高度，結(jié)合具體的領(lǐng)域知識(shí)，探討基于站位和通訊的協(xié)作策略；然后介紹了智能體所采用的混合型體系結(jié)構(gòu)；最后從程序設(shè)計(jì)的角度說(shuō)明系統(tǒng)架構(gòu)的具體實(shí)現(xiàn)。3.1團(tuán)隊(duì)整體策略足球比賽是個(gè)集體的項(xiàng)目，由11個(gè)場(chǎng)上隊(duì)員共同完成多進(jìn)球贏得比賽的任務(wù)。但是，每個(gè)智能體只擁有局部的視覺，而且其執(zhí)行的動(dòng)作也只能直接影響到局部的環(huán)境。如何進(jìn)行全局決策，達(dá)到多智能體間的配合，必須是基于領(lǐng)域知識(shí)的合作，可以通過(guò)預(yù)定義模式或?qū)崟r(shí)通訊完成。在仿真比賽中，預(yù)定義模式一般由陣型體現(xiàn)，通過(guò)陣型的概念對(duì)智能體進(jìn)行角色分配，使其在全場(chǎng)比賽中保持協(xié)調(diào)。陣型通過(guò)提供

32、一個(gè)事先制定的準(zhǔn)則從宏觀上對(duì)智能體行為進(jìn)行控制，讓所有的智能體都按照該準(zhǔn)則行動(dòng)，從而整個(gè)球隊(duì)體現(xiàn)出一定的協(xié)調(diào)性。另一方面，由RoboCup中通訊帶寬受到極大限制，仿真比賽的實(shí)時(shí)動(dòng)態(tài)特性讓通訊只能是作為配合的輔助作用。3.1.1角色和陣型角色的概念和真實(shí)人類足球比賽中的概念相仿，代表一個(gè)球員在比賽中承擔(dān)的責(zé)任，如前鋒、中場(chǎng)、后衛(wèi)、守門員等。每種角色都包括了這個(gè)角色的一些性質(zhì)，如活動(dòng)區(qū)域、初始位置等，當(dāng)然不同角色的活動(dòng)區(qū)域可以相互重疊。每個(gè)角色都有不同的行為模式，每個(gè)智能體的行為決策會(huì)受到它當(dāng)前扮演角色的影響。陣型是一組特定角色的集合，如果把參加足球比賽的球員進(jìn)行角色細(xì)分，可以分為諸如左前

33、鋒、右后衛(wèi)等11個(gè)不同的角色。陣型最主要的任務(wù)是定義各個(gè)角色的場(chǎng)上位置，使智能體的分布能對(duì)賽場(chǎng)有盡可能大的覆蓋，同時(shí)維護(hù)在比賽過(guò)程中陣型的銜接。我們基于FCP的SBSP策略進(jìn)行站位的訓(xùn)練，SBSP要求陣型在定義角色的同時(shí)，定義每個(gè)角色的基本位置Home（ x,y），對(duì)足球的吸引權(quán)重Weight（ x,y），還有對(duì)雙方越位線的考慮等。如果足球的位置為Ball （ x,y），簡(jiǎn)化的說(shuō)，角色的場(chǎng)上位置應(yīng)該是：Positioning （ x,y）=Home （ x,y） +Weight （ x,y） *Ball （ x,y）這種方法保證了比賽過(guò)程中隊(duì)形的協(xié)調(diào)，不會(huì)出現(xiàn)很多智能體集中于某一處（比如圍著足

34、球）導(dǎo)致其他的空當(dāng)，基本可以覆蓋場(chǎng)上大概空間。但是，這種加權(quán)和的方法缺少靈活性，如果需要對(duì) 某些敏感區(qū)域進(jìn)行細(xì)節(jié)調(diào)整，比如重新考慮雙方禁區(qū)范圍內(nèi)的站位，就需要增加（條件，規(guī)則）進(jìn) 行補(bǔ)充?；赟BSP的站位系統(tǒng)是預(yù)定義的，而比賽情況總是千變?nèi)f化的，智能體扮演的角色和對(duì)應(yīng)的站位還可以根據(jù)實(shí)際情況變換。比賽時(shí)，由于控球、盯人等原因，使智能體偏離原扮演角色所處的區(qū)域，導(dǎo)致場(chǎng)上出現(xiàn)空當(dāng)無(wú)人防守，此時(shí)就需要其他智能體能夠彌補(bǔ)這個(gè)角色缺失引起的危險(xiǎn)。偏離原角色的智能體因位置的改變選擇了其他角色的行為，比如中場(chǎng)球員在帶球長(zhǎng)驅(qū)直入后，考慮到實(shí)際情況（比如單刀等）選擇前鋒行為，此時(shí)，一方面前鋒的角色會(huì)出

35、現(xiàn)重疊，另一方面中場(chǎng)線也會(huì)因?yàn)樵撉騿T的缺失減弱了中場(chǎng)能力，應(yīng)該讓被重疊的前鋒或者其他的不重要角色去扮演缺失的中場(chǎng)角色，以免被對(duì)方乘虛反擊。除了基本確定位置的方法，球員站位時(shí)還應(yīng)該考慮一些場(chǎng)上的基本情況，如是否越位，實(shí)際站位的時(shí)候就應(yīng)該把上述情況綜合起來(lái)考慮，如圖3-1所示為完整的站位策略。同時(shí)為了應(yīng)對(duì)場(chǎng)上千變?nèi)f化的情況，還應(yīng)該制定多種站位策略，在不同的情況下采用不同的站位策略，增強(qiáng)球隊(duì)的實(shí)戰(zhàn)能力。智能體除了因?yàn)榻巧兓a(chǎn)生站位調(diào)整外，智能體的異構(gòu)類型也可作調(diào)整。陣型規(guī)定了角色的任務(wù)，也間接的提出了對(duì)角色的素質(zhì)要求，選擇更符合角色能力要求的異構(gòu)智能體可以在比賽開始時(shí)確定，更佳方法則應(yīng)

36、該根據(jù)比賽情況進(jìn)行微調(diào)。比賽過(guò)程中可以進(jìn)行最多三次換人，將更符合要求的異構(gòu)智能體換上場(chǎng)，充當(dāng)對(duì)應(yīng)角色，這一點(diǎn)可以通過(guò)在線教練來(lái)完成。3.1.2局部通訊模型RoboCup仿真平臺(tái)模擬了低帶寬不可靠的通訊能力，每條消息最多包括10個(gè)字節(jié)的可見字符（共1074種可能），而且在50米之內(nèi)只能聽到分別來(lái)自每一個(gè)隊(duì)伍的最多一條消息。因此，隊(duì)員間的合作無(wú)法主要依靠通訊完成，通訊只能作為配合的輔助作用。由于智能體對(duì)環(huán)境的感知是局部的，不同的智能體可能擁有對(duì)環(huán)境的不同認(rèn)識(shí)，因此通訊的主要作用是保證每個(gè)智能體所獨(dú)立維護(hù)的世界模型的一致性。另外，在某些時(shí)候，通訊還被用于傳遞輔助決策信息。解決以局部視覺來(lái)維護(hù)全

37、局世界模型是一個(gè)非常迫切的問(wèn)題，因?yàn)?，?dāng)所有智能體都按照相同的整體策略框架來(lái)進(jìn)行決策時(shí)，如果基于相同的世界模型作為決策依據(jù)，對(duì)其他智能體的預(yù)測(cè)就比較準(zhǔn)確，那么就會(huì)使整個(gè)球隊(duì)體現(xiàn)出一定的協(xié)調(diào)性。通過(guò)視覺參數(shù)的設(shè)置和視覺動(dòng)作的調(diào)整來(lái)維護(hù) 世界模型是智能體的底層工作。根據(jù)智能體的決策結(jié)果，即他要做的基本動(dòng)作（奔跑、轉(zhuǎn)身、踢球等）以及他所希望觀察到的多個(gè)目標(biāo)，每個(gè)目標(biāo)賦予一定的收益，在不和基本動(dòng)作沖突前提下的綜合收益最大的視線即為目標(biāo)方向8，這使得智能體能夠維護(hù)場(chǎng)上的大部分信息。我們借用圖5-2的分區(qū)方式，以圖中的10個(gè)邊界點(diǎn)和其他22個(gè)運(yùn)動(dòng)對(duì)象的實(shí)時(shí)位置作為期望目標(biāo)，根據(jù)目標(biāo)的重要程度和目

38、標(biāo)在世界模型中的更新程度綜合給出其收益，選擇能獲取最大收益的視覺動(dòng)作，以轉(zhuǎn)頭指令（turn_ neck）實(shí)現(xiàn)這個(gè)動(dòng)作。但是，先驗(yàn)知識(shí)相對(duì)動(dòng)態(tài)比賽存在的缺陷，最大收益視覺動(dòng)作必定會(huì) 放棄某些目標(biāo)位置，為了彌補(bǔ)可能缺失的信息，以通訊的方式進(jìn)行有益補(bǔ)充。是否需要在球后面是否在球的后面Xu把球的X位置設(shè)置為自身的X是否超出X最大值把X最大值設(shè)置為自身的X是否小于X最小值把X最小值設(shè)置為自身的X是否越位把越位線設(shè)置為自身的X得到最終站位位置圖3-1陣型決定站位流程圖由于每條通訊消息長(zhǎng)度的限制，不可能交流全部的世界模型；另一方面，智能體的全局協(xié)調(diào)由陣型指導(dǎo)，而智能體的動(dòng)作只能影響局部環(huán)境。因此，我們

39、將通訊作為對(duì)小范圍局部配合的補(bǔ)充，由于消息內(nèi)容是局部區(qū)域的世界模型，運(yùn)動(dòng)對(duì)象（足球和球員）的位置比較接近，因此，采用類似于差分的近距離編碼方式，可以傳遞更多的信息量，比如每次可以傳送四個(gè)球員的位置信息。為了進(jìn)一步的提高通訊效率，避免重復(fù)交流同樣的內(nèi)容，計(jì)劃按照FCP的智能通訊思想9 （ FCP提出該方法時(shí)通訊長(zhǎng)度限制為 512字節(jié)），構(gòu)建一個(gè)聽覺世界模型。聽覺世界模型唯一的由聽覺消息來(lái)維護(hù)，已在聽覺世界模型中存在的信息將不再被重復(fù)廣播。除了對(duì)世界模型的共享外，通訊還用來(lái)提供部分的輔助決策信息，用來(lái)對(duì)某些非正常隊(duì)友的提醒，如接球點(diǎn)。圖3-1局部通訊模型圖3-1中的聽覺世界模型唯一的由隊(duì)友

40、間的通訊來(lái)維持，它刪減世界模型中的重復(fù)消息，然后局部區(qū)域內(nèi)的對(duì)象位置被編碼，最后疊加可選的部分決策信息封裝，廣播消息。3.2智能體體系結(jié)構(gòu)智能體如何扮演團(tuán)隊(duì)成員，作為團(tuán)隊(duì)的一部分而共同達(dá)成團(tuán)隊(duì)目標(biāo)，不僅和團(tuán)隊(duì)的整體策略相關(guān)，也和智能體本身的體系結(jié)構(gòu)有關(guān)。智能體體系結(jié)構(gòu)研究的是如何推理決策的問(wèn)題，即協(xié)調(diào)智能體各功能模塊進(jìn)行從感知序列到智能體動(dòng)作的映射?；诜?hào)推理系統(tǒng)的慎思體系結(jié)構(gòu)采用傳統(tǒng)人工智能中符號(hào)推理的基本原理，試圖通過(guò)建立比較完整的符號(hào)系統(tǒng)進(jìn)行知識(shí)推理來(lái)使智能體具有自主思考的能力以及與其他智能體和環(huán)境進(jìn)行協(xié)調(diào) 行動(dòng)的能力?；谛袨橹髁x的體系結(jié)構(gòu)在快速性和實(shí)時(shí)性上有長(zhǎng)處，但是難以產(chǎn)生復(fù)雜

41、、高級(jí)的智能行為。針對(duì)仿真比賽實(shí)時(shí)、不確定的環(huán)境特點(diǎn)，將基于符號(hào)推理系統(tǒng)和行為主義的體系結(jié)構(gòu)結(jié)合起來(lái)的混合系統(tǒng)成為了多智能體體系結(jié)構(gòu)的一個(gè)趨勢(shì)，以實(shí)現(xiàn)系統(tǒng)快速、有效的運(yùn)行?；旌闲徒Y(jié)構(gòu)的智能體中包含感知、建模、通訊、動(dòng)作、知識(shí)庫(kù)、規(guī)劃決策和反應(yīng)等模塊，如圖3-2所示。智能體通過(guò)感知模塊來(lái)獲取外部環(huán)境，并對(duì)環(huán)境信息做出一定的抽象，根據(jù)信息的類型，感知模塊將經(jīng)過(guò)抽象的信息送到不同的處理模塊。智能體間的交流依賴于通訊模塊，通過(guò)通訊模塊共享相互的世界模型和決策信息。建模模塊根據(jù)對(duì)外界環(huán)境的感知、智能體間的通訊以及對(duì)發(fā)送動(dòng) 作的預(yù)測(cè)來(lái)建立整個(gè)外部環(huán)境的描述。規(guī)劃決策模塊在知識(shí)庫(kù)的指導(dǎo)下，根據(jù)當(dāng)前世

42、界模型和智能體間的交流進(jìn)行決策，選擇最佳動(dòng)作。智能體在感知的基礎(chǔ)上條件反射產(chǎn)生動(dòng)作，構(gòu)成了反應(yīng)模塊。智能體所選擇的最終動(dòng)作作用于外部環(huán)境，進(jìn)而影響智能體將來(lái)的感知。3.2.1建模建模模塊有兩個(gè)功能，一是維護(hù)和更新智能體對(duì)外部環(huán)境（包括其他智能體）的認(rèn)識(shí)，二是根據(jù)當(dāng)前的世界模型對(duì)近期的情況做出預(yù)測(cè)，并由決策模塊調(diào)用分析。圖3-3表示了建模模塊的內(nèi)部結(jié)構(gòu)，世界模型只是智能體對(duì)整個(gè)世界的認(rèn)識(shí)和反映，它既不一定正確，也不一定全面。在仿真比賽中，世界模型在初始化時(shí)就產(chǎn)生了很多靜止對(duì)象，比如球門、邊線以及固定標(biāo)志等，這是用來(lái)自定位的。在比賽過(guò)程中，還維護(hù)著場(chǎng)上運(yùn)動(dòng)對(duì)象的狀態(tài)，包括足球的位置、速度，其他

43、智能體（10個(gè)隊(duì)友，11個(gè)對(duì)方）的位置、速度、身體朝向、頭部朝向等，以及智能體本身的位置、速度、身體朝向、頭部朝向、視覺參數(shù)、體力、基本指令執(zhí)行次數(shù)等，還有比賽狀態(tài)，例如比賽時(shí) 間、比分、比賽模式（如界外球模式、任意球模式）等。智能體在生存期間，通過(guò)感知、隊(duì)友間的通訊（包括教練指示）以及已請(qǐng)求執(zhí)行的動(dòng)作來(lái)修正模型，感知信息包括 sen se_body消息、視覺消息和裁判消息，其中隊(duì)友間的通訊和裁判消息構(gòu)成了智能體的聽覺消息。sen se_body消息用來(lái)更新智能體本身的一些物理狀態(tài)，比如視覺模式參數(shù)、速度絕對(duì)值、體力值、頭頸的相對(duì)角度、各基本指令的已執(zhí)行次數(shù)等。根據(jù)動(dòng)作模塊中記錄的已請(qǐng)

44、求執(zhí)行指令的次數(shù)，對(duì)照sense_body消息中反饋的基本指令已執(zhí)行次數(shù)，可以推知該指令是否被仿真平臺(tái)丟失，決策規(guī) 劃模塊可以據(jù)此決定是否需要重發(fā)該指令，反應(yīng)模塊也據(jù)此進(jìn)行發(fā)送時(shí)機(jī)的動(dòng)態(tài)調(diào)整。裁判消息主要用來(lái)廣播比賽狀態(tài)，在每次裁判鳴哨時(shí)，都會(huì)將相關(guān)情況（如犯規(guī)、進(jìn)球、開球等）通報(bào)至所有的智能體。通訊模塊是和其他智能體的交流，由于是經(jīng)由仿真平臺(tái)間接轉(zhuǎn)發(fā)，而且是低帶寬不可靠的，我們只是作為對(duì)維護(hù)世界模型的一個(gè)有益補(bǔ)充。最重要的是視覺消息，視覺消息中的數(shù)據(jù)都是基于智能體（觀察者）的相對(duì)坐標(biāo)。因此，智能體首先根據(jù)視覺消息中靜止對(duì)象信息完成自定位，然后進(jìn)行對(duì)其他運(yùn)動(dòng)對(duì)象的更新。由于視覺消息的

45、局部性，不可能保證所有對(duì)象都是最近一個(gè)周期看到的，因此，還需要記錄下每個(gè)對(duì)象的最近觀察時(shí)間以供可信度分析。同時(shí)視覺消息是帶有噪聲的，UvA以Particle Filter的方法降低噪聲10，提高自定位準(zhǔn)確性。模型除了被規(guī)劃模塊用來(lái)建立行動(dòng)計(jì)劃外，還提供了預(yù)測(cè)的基礎(chǔ)。根據(jù)當(dāng)前世界模型預(yù)測(cè)將可能出現(xiàn)的情況，并將行動(dòng)的建議遞交給決策模塊。在仿真比賽中最典型的預(yù)測(cè)是截球技術(shù)，給定足球的位置和速度，預(yù)測(cè)智能體最快的截球時(shí)間；預(yù)測(cè)模塊還體現(xiàn)在對(duì)對(duì)手的行為建模上，比如經(jīng)過(guò) 學(xué)習(xí)發(fā)現(xiàn)對(duì)方4號(hào)球員拿球后，總是傳球給 6號(hào)，那么當(dāng)4號(hào)控球時(shí)，就預(yù)測(cè)認(rèn)為即將傳球給6號(hào),這樣的預(yù)測(cè)結(jié)果對(duì)決策模塊有更大的幫助，比

46、如預(yù)先去盯防對(duì)方6號(hào)。3.2.2通訊可通訊是智能體的基本特征之一，而且通訊語(yǔ)言的完善程度和靈活性直接影響到智能體表現(xiàn)出的智能程度，通訊模塊包括語(yǔ)言理解、語(yǔ)言生成、物理通信，以及詞法庫(kù)、語(yǔ)法庫(kù)、語(yǔ)義庫(kù)等多個(gè) 部分。這些都是多智能體理論的基礎(chǔ)，但仿真比賽為了能夠體現(xiàn)分布式多智能體的特點(diǎn)，避免由于通訊過(guò)度成為實(shí)質(zhì)上的集中式控制，因此，仿真平臺(tái)對(duì)通訊做了諸多限制。在3.1.2節(jié)中描述的局部通訊模型可以保證系統(tǒng)的魯棒性，在通訊功能故障時(shí)，不會(huì)很大的影響系統(tǒng)的表現(xiàn)性能。但是，由于最多只能傳送10個(gè)字節(jié)的可見字符，還存在相當(dāng)大的編碼量化誤差，通訊僅僅起到輔助功能，世界模型的完備更多的依賴于視覺動(dòng)作的請(qǐng)求

47、。目前通訊還用來(lái)輔助決策信息的交流，如果較好的解決了完備世界模型和知識(shí)庫(kù)戰(zhàn)術(shù)，那通訊將主要被用作戰(zhàn)術(shù)模式在觸發(fā)、切換和中止時(shí)的多智能體交流。3.2.3動(dòng)作動(dòng)作模塊是智能體在外部世界能完成的可能動(dòng)作集合。決策給出最終選擇的動(dòng)作后，需要分解成更基本的符合仿真平臺(tái)動(dòng)作接口的指令序列，這個(gè)工作由動(dòng)作模塊完成。由于仿真比賽動(dòng)態(tài)實(shí)時(shí) 的特點(diǎn)，一般情況下動(dòng)作模塊并不保存指令序列，每個(gè)周期從新決策，將指令序列最前面的基本動(dòng) 作發(fā)送至仿真平臺(tái)請(qǐng)求執(zhí)行。決策的連續(xù)一致性由規(guī)劃決策模塊維護(hù)。仿真比賽中主要包括以下的動(dòng)作，這些動(dòng)作建立了智能體的個(gè)人技術(shù)。跑位：智能體根據(jù)陣型和角色計(jì)算出自己的期望位置，向其靠攏。向

48、某個(gè)目標(biāo)點(diǎn)移動(dòng)的技術(shù)被稱為跑位。跑位的一個(gè)重要參數(shù)是跑動(dòng)速度，因?yàn)楸寂苊钚枰馁M(fèi)體力，而體力對(duì)隊(duì)員技術(shù)的發(fā) 揮有很大的影響。截球：智能體根據(jù)足球和本身的狀態(tài)，試圖搶在其他隊(duì)員之前追逐到足球。帶球：智能體保證對(duì)足球控制的同時(shí)，推進(jìn)足球的位置。加速球：將足球按期望速度（矢量）踢出。原先由于仿真平臺(tái)的參數(shù)限制，需要多個(gè)周期才能將足球加速到最大速度，現(xiàn)在基本可在1-2個(gè)周期內(nèi)實(shí)現(xiàn)任意的期望足球速度。傳球：傳球建立在加速球的基礎(chǔ)上，給定傳球路線后，調(diào)用加速球動(dòng)作完成，關(guān)鍵在于傳球路線如何選擇。過(guò)人：一對(duì)一的技術(shù)體現(xiàn)，在晃過(guò)對(duì)手的同時(shí)，保持對(duì)足球的控制。和帶球的不同在于，過(guò)人需要突破近距離對(duì)手的封

49、鎖，帶球則避免出現(xiàn)近距離對(duì)手的情況。射門：臨門一腳，是進(jìn)球贏得比賽、檢驗(yàn)團(tuán)隊(duì)整體性能的最后一環(huán)。護(hù)球：在不能射門、過(guò)人、傳球、帶球的最后情況下，維持足球在控制范圍內(nèi)不被對(duì)方搶去，等待機(jī)會(huì)。圭寸斷：圭寸球和斷球，當(dāng)對(duì)方控球時(shí)，圭寸死其傳球、帶球路線，必要時(shí)可以從其腳下?lián)寯嘧闱颍?進(jìn)而反擊。盯人：盯防對(duì)方的無(wú)球隊(duì)員，避免其接應(yīng)控球隊(duì)員。324知識(shí)庫(kù)知識(shí)庫(kù)是對(duì)實(shí)際足球知識(shí)的認(rèn)識(shí)，通過(guò)請(qǐng)教專家，事先建立的規(guī)則。針對(duì)前鋒、中場(chǎng)、后衛(wèi)等角色的職責(zé)，給出其實(shí)現(xiàn)戰(zhàn)術(shù)，包括局部配合的進(jìn)攻與防守戰(zhàn)術(shù)、全隊(duì)的進(jìn)攻與防守戰(zhàn)術(shù)以及定位球戰(zhàn)術(shù)。局部配合進(jìn)攻包括二過(guò)一 ”戰(zhàn)術(shù)配合、三過(guò)二”戰(zhàn)術(shù)配合和反切配合等。二

50、過(guò)一 ”是兩個(gè)進(jìn)攻球員，通過(guò)傳球配合突破一個(gè)防守隊(duì)員，是更多配合的基礎(chǔ)，可以在任何位置上運(yùn)用這種方法來(lái)擺脫對(duì)方的搶截或突破防線。二過(guò)一 ”一般由相距10米左右的隊(duì)員進(jìn)行配合，傳球的目標(biāo)盡可能是接球者位置或者稍微靠前一點(diǎn)。三過(guò)二”是比賽中局部區(qū)域內(nèi)三個(gè)球員通過(guò)連續(xù)的配合突破兩個(gè)防守者的戰(zhàn)術(shù)。由于這種配合有兩個(gè)隊(duì)友可以同時(shí)接應(yīng)傳球，因此使控球者的傳球路線更多，且進(jìn)攻面擴(kuò) 大，但是較難在機(jī)器人足球比賽中達(dá)到流暢的配合實(shí)現(xiàn)。局部配合防守戰(zhàn)術(shù)包括補(bǔ)位、圍搶和造越位戰(zhàn)術(shù)。補(bǔ)位是指當(dāng)防守過(guò)程中一個(gè)防守隊(duì)員被對(duì)手突破時(shí)，另外一個(gè)隊(duì)員立即上前進(jìn)行封堵，即動(dòng)態(tài)角色變換。圍搶是指在某局部位置上，防守一方利用人

51、數(shù)上的相對(duì)優(yōu)勢(shì)（通常是兩三個(gè)球員）同時(shí)圍堵對(duì)方的控球隊(duì)員，以求在短暫時(shí)間內(nèi)達(dá)到搶斷或者破壞對(duì)方的目的。造越位技術(shù)是利用規(guī) 則而設(shè)計(jì)的一種防守戰(zhàn)術(shù)，但由于其配合難度大，一旦不成功會(huì)給對(duì)手很大的機(jī)會(huì)，因此較少使用。全隊(duì)進(jìn)攻戰(zhàn)術(shù)是指比賽中一方獲得足球后，通過(guò)隊(duì)員之間的傳遞配合達(dá)到射門的目的而采用的配合方法，包括邊路進(jìn)攻、中路進(jìn)攻、快速反擊。與局部進(jìn)攻戰(zhàn)術(shù)相比，全隊(duì)進(jìn)攻戰(zhàn)術(shù)的進(jìn)攻面比較廣。利用球場(chǎng)兩側(cè)地區(qū)發(fā)起進(jìn)攻的方法叫邊路進(jìn)攻，是全隊(duì)進(jìn)攻的主要形式之一，其主要特點(diǎn)是有利于發(fā)揮進(jìn)攻速度，打破對(duì)方防線制造缺口，下底傳中是其代表方法。中路進(jìn)攻是利用球場(chǎng)中間區(qū)域組織的進(jìn)攻，由于中路防守最為嚴(yán)密，因

52、此難度較大。比賽中當(dāng)對(duì)方進(jìn)攻時(shí)，后衛(wèi)線往往壓至中場(chǎng)附近，防守人數(shù)也由于插上進(jìn)攻和助攻而相對(duì)減少，此時(shí)如能抓住對(duì)方防守空隙較大和回防較慢的機(jī)會(huì)，趁其失球發(fā)動(dòng)快速反擊，往往能夠取得良好效果，但是實(shí)現(xiàn)難度也比較大。中路進(jìn)攻和快速反擊都比較冒險(xiǎn)，要求有準(zhǔn)確、快速的傳球配合，還要求配合默契，有善于跑位策應(yīng)的隊(duì)友。全隊(duì)防守戰(zhàn)術(shù)可以分成兩種基本類型，盯人緊逼防守和區(qū)域緊逼防守。盯人緊逼防守即人盯人防守，各自都有明確的防守對(duì)象，在規(guī)定的范圍內(nèi)盯人緊逼，不交換看守，此方法主要用戶在非 play_on模式下使用來(lái)阻止對(duì)手順利拿到球。區(qū)域緊逼防守是盯人和區(qū)域相結(jié)合的方法，緊逼和保護(hù)相結(jié)合，在個(gè)人的防區(qū)內(nèi)緊逼。

53、防守最根本的原則就是緊逼和保護(hù)，只有緊逼才能有效的主動(dòng)搶斷，壓制對(duì)手技術(shù)的優(yōu)勢(shì)而獲取主動(dòng)權(quán)；保護(hù)是為了更好的緊逼和控制空當(dāng)。定位球戰(zhàn)術(shù)是指在比賽中，利用死球”后重新開始比賽的機(jī)會(huì)組織進(jìn)攻與防守配合的戰(zhàn)術(shù)方法。定位球戰(zhàn)術(shù)包括中圈開球、角球、任意球、界外球等，有時(shí)起決定勝負(fù)作用。在配合上要利用簡(jiǎn)練的一次配合取得射門機(jī)會(huì)，配合越復(fù)雜成功率就越低。故要進(jìn)行專門性的研究，禾U用足球的先驗(yàn)知識(shí)，預(yù)先計(jì)劃詳細(xì)的分解序列，才能在比賽中奏效。325規(guī)劃決策智能體的規(guī)戈肪莫塊負(fù)責(zé)建立中短期的行動(dòng)計(jì)劃，再經(jīng)決策得出動(dòng)作的選擇結(jié)果。智能體的規(guī)劃是一個(gè)局部的規(guī)劃。局部性體現(xiàn)在兩個(gè)方面，一方面，每個(gè)智能體根據(jù)自

54、身維護(hù)的世界模型，以及已往的知識(shí)規(guī)劃自身行為，而不是由某個(gè)智能體對(duì)全局進(jìn)行規(guī)劃并將命令分發(fā)給其他智能體；另一方面，智能體并不需要對(duì)它的目標(biāo)作出完全的規(guī)劃，而只要生成近期的動(dòng)作序列就可以了。因?yàn)槭?界是不斷變化的，很多情況無(wú)法預(yù)料，長(zhǎng)期的規(guī)劃很可能會(huì)因?yàn)榍闆r的變化而失去意義。在自主式智能系統(tǒng)中，一般遵循感知-推理-動(dòng)作”的基本規(guī)律進(jìn)行決策，根據(jù)實(shí)現(xiàn)手段的不同，仿真比賽中有兩種比較典型的結(jié)構(gòu)：從上到下”和從下到上”從上到下”是傳統(tǒng)的層次結(jié)構(gòu)，層次向上，智能增加，但是精度降低；層次向下則相反。在最高層只有一個(gè)任務(wù)，經(jīng)逐層分析規(guī)劃，生成越來(lái)越多的子任務(wù)，低層模塊往往只需要考慮專門范圍內(nèi)的局部問(wèn)題

55、；在高層往往使用智能推理方法，低層模塊則采用數(shù)值算法。這種結(jié)構(gòu)體現(xiàn)了分而治之和逐層求精的原則，較好的解決了智能和控制精度的關(guān)系，但是反應(yīng)性較差。從下到上”則基于行為主義的思想，首先遍歷智能體所有的可能動(dòng)作，給出可行動(dòng)作的評(píng)價(jià)值，進(jìn)而決策模塊在可行動(dòng)作集中仲裁出一個(gè)最佳動(dòng)作，TsinghuAeolus11就是采用這種結(jié)構(gòu)進(jìn)行決策?？紤]到我們一開始對(duì)領(lǐng)域知識(shí)缺乏透徹的理解，難以找到有效的評(píng)價(jià)函數(shù)，所以從整體上選擇了從上到下的決策結(jié)構(gòu)，也借鑒了從下而上的思路完成對(duì) 某些動(dòng)作的評(píng)價(jià)和選擇，以更好的進(jìn)入機(jī)器人足球仿真比賽領(lǐng)域。足球隊(duì)中每一個(gè)隊(duì)員都扮演著一個(gè)角色，所有的角色被分成兩種狀態(tài)，非控球狀態(tài)和

56、控球狀態(tài)。所謂的控球狀態(tài)是指智能體能夠踢到足球(兩質(zhì)點(diǎn)間距不大于kickable_area),也叫控球者；否則為非控球狀態(tài)，即非控球者。對(duì)非控球狀態(tài)的隊(duì)員，分別考慮下面的兩種情況，以決策樹形式進(jìn)行規(guī)劃。(1)自己是本方能最快截球的隊(duì)員這種情況意味著我方尚無(wú)其他人控制足球，所以足球處于無(wú)人控制狀態(tài)或者足球已被對(duì)方隊(duì)員所控制。而如果足球處于無(wú)人控制狀態(tài)則又可以分解為兩種情況，自己是所有人中的最快截球隊(duì)員或者某個(gè)對(duì)手能比自己更快的截球。所以一共分成三種情況：足球已被對(duì)方控制、自己是所有隊(duì)員中最快截球的、某個(gè)對(duì)手是所有隊(duì)員中最快截球的。如果足球已經(jīng)被對(duì)方控制，則選擇圭寸斷動(dòng)作，盡可能的圭寸住對(duì)方的帶球、傳球路線，如果可能的話，靠近對(duì)方控球者后進(jìn)行拼搶，將足球從對(duì)方腳下斷下。如果自己是所有隊(duì)員中最快截球的，那么執(zhí)行相應(yīng)的截球動(dòng)作即可。對(duì)第三種情況，則直接實(shí)行對(duì)對(duì)手預(yù)計(jì)截球點(diǎn)的封斷，但是考慮到對(duì)手可能存在截球失誤，有時(shí)候我們不進(jìn)行對(duì)預(yù)計(jì)截球點(diǎn)的封斷，仍然執(zhí)行截球動(dòng)作。(2)自己不是本方最快截球的隊(duì)員這意味著對(duì)足球的處理將交由本方最快截球的隊(duì)友來(lái)完成，所以候選動(dòng)作成為了跑位和盯人。一般情況下選擇跑位，跑位的依據(jù)是當(dāng)前的足球位置和自身扮演的角色。當(dāng)足球靠近我方禁區(qū) 附近，就需要先考慮盯人，由于我們采用433陣型，有四個(gè)后衛(wèi)，必要時(shí)三個(gè)中

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

仿真機(jī)器人足球整體性能的優(yōu)化與實(shí)現(xiàn)畢業(yè)論文

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

仿真機(jī)器人足球整體性能的優(yōu)化與實(shí)現(xiàn)畢業(yè)論文

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔