強(qiáng)化學(xué)習(xí)人工智能系統(tǒng)的風(fēng)險(xiǎn)評估(中文版)_第1頁
強(qiáng)化學(xué)習(xí)人工智能系統(tǒng)的風(fēng)險(xiǎn)評估(中文版)_第2頁
強(qiáng)化學(xué)習(xí)人工智能系統(tǒng)的風(fēng)險(xiǎn)評估(中文版)_第3頁
強(qiáng)化學(xué)習(xí)人工智能系統(tǒng)的風(fēng)險(xiǎn)評估(中文版)_第4頁
強(qiáng)化學(xué)習(xí)人工智能系統(tǒng)的風(fēng)險(xiǎn)評估(中文版)_第5頁
已閱讀5頁,還剩144頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

強(qiáng)化學(xué)習(xí)人工智能系統(tǒng)的風(fēng)險(xiǎn)評估超越技術(shù)關(guān)于蘭德研究誠信有限的印刷和電子分發(fā)權(quán)使用其任何研究產(chǎn)品均需獲得蘭德公司的許可。有關(guān)重印和重復(fù)使用許可的信息,請?jiān)L問本報(bào)告討論了國防部(DoD)在國防部應(yīng)用中部署一種稱為強(qiáng)化學(xué)習(xí)(RL)的人工智能什么風(fēng)險(xiǎn)(即,技術(shù)故障導(dǎo)致任務(wù)失敗)或部隊(duì)結(jié)構(gòu)在吸收此類技術(shù)這項(xiàng)研究由國防部負(fù)責(zé)研究和工程的副部長辦公室贊助,并在蘭德公司國家安全研究部),我們要感謝JillCrisman對本研究的贊助;JoelPredd、ChristopherMouton和強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)ivKhan,他們參加了有益的討論。v中多個(gè)在線玩家可以同時(shí)玩。在這些和其他突出的例子中,常見的是AI的學(xué)習(xí)組件,通常涉及某種形式的RL。強(qiáng)化學(xué)習(xí)是一個(gè)過程,通過這個(gè)過程,智能體與世界的模型進(jìn)行解決某些問題或執(zhí)行某些任務(wù)的經(jīng)常失敗的解釋。從這個(gè)角度來看,挑戰(zhàn)是人工智能系不幸的是,在國防部應(yīng)用中部署RL系統(tǒng)所涉及的許多挑戰(zhàn)和風(fēng)險(xiǎn)都是未知的,特別是強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)vi?在復(fù)雜的國防部應(yīng)用中開發(fā)和部署RL可能面臨的主要技術(shù)挑戰(zhàn)是什么??國防部在使用這種技術(shù)時(shí)可能面臨哪些主要的非技術(shù)性挑戰(zhàn),例如由RL部署引起方法的研討會。躍進(jìn)方法。個(gè)框架將允許國防部參與者自由討論,他們可能有操作經(jīng)驗(yàn),但很少或沒有人工智能經(jīng)驗(yàn)。我們首先考慮在我們的研討會中應(yīng)用正式的基于風(fēng)險(xiǎn)的框架,但是我們的文獻(xiàn)回顧總結(jié)vii為期一天的研討會中引入不必要的復(fù)雜性我們決定修改Mayer等人開發(fā)的框架。3為了我們的目的研討會在一天內(nèi)分三場會議。第一次會議最初集中在爬行-步行-跑步和大躍進(jìn)情景背主要結(jié)論此,TE可以成為一個(gè)費(fèi)力的強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)viii用中可能存在的所有挑戰(zhàn)的解決方案。建議計(jì)新穎算法以解決特定問題的能力;訓(xùn)練RL的數(shù)據(jù)工程技能;RL訓(xùn)練的建模環(huán)境;以及供了一種為更廣泛的AI進(jìn)行引導(dǎo)訓(xùn)練的方法。ix 三摘要 五 Xi第1 1 1 2 3 4 5 游戲 7 結(jié)論 第2 21 21 25 26 28 29 30 結(jié)論 41第3 43 44大躍進(jìn)情景46強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)x第4 49 49結(jié)果 50 62第5 建議 64 68 69 縮寫 77參考文獻(xiàn) 79xi圖 3 6 22 44 45 56 57 就表1.1.計(jì)算機(jī)解2.2.幾個(gè)大型DL模型的2.3.使用某種形式RL314.1.評級挑戰(zhàn)的4.2.第51小節(jié): 53 的 60 xii 的1人工智能(AI)是一個(gè)術(shù)語,通常用于描述一臺機(jī)器,它執(zhí)行通常為人類智能保留的任狹義人工智能與廣義人工智能對國防部來說很重要,至少有兩個(gè)原因:首先,狹義AI往強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)2失敗可能是災(zāi)難性的,并且是不可挽回的。下面是機(jī)器學(xué)習(xí)(ML)的概述,更具體地說,是強(qiáng)化學(xué)習(xí)(RL);AI的這些領(lǐng)域在最以及所涉及的潛在挑戰(zhàn)和風(fēng)險(xiǎn)。?AI:人工智能廣泛地涵蓋了不同形式的機(jī)器智能。人工智能的先驅(qū)之一馬文·明斯基(MarvinMinsky)將人工智能的流行概念總結(jié)為“會思考的機(jī)器”。在人工智能4RL被認(rèn)為是ML的一個(gè)子集,因?yàn)閿?shù)理。狹義人工智能與廣義人工智能以及強(qiáng)化學(xué)習(xí)概述3許多專家認(rèn)為,在不久的將來,人工智能的能力將超過人類。[7]事實(shí)上,人工智能在游戲領(lǐng)域的最新進(jìn)展涉及復(fù)雜的多人戰(zhàn)略游戲,其中人工智能的水平足以擊敗最好的人類玩人工智能的分類從狹義到廣義力別AI進(jìn)化劃來源:改編自SeppHochreiter,“TowardaBroadAI”,ACM通信,計(jì)算機(jī)協(xié)會,卷。65,不。4,2022;和YoelvicBengio,YannLecun,andGeoffreyHinton,“DeepLearningforAI,”CommunicationsoftheACM,AssociationforComputingMachinery,Vol.64,不。2021年7月強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)4人工智能的范圍從狹窄的特定于任務(wù)的技能(如圖像識別)到由廣泛的認(rèn)知技能組合世界中存在的許多屬性。例如,人們不會認(rèn)為在星際爭霸中據(jù)。相反,機(jī)器只使用輸入數(shù)據(jù)進(jìn)行學(xué)習(xí),并試圖識別模式和關(guān)聯(lián),),狹義人工智能與廣義人工智能以及強(qiáng)化學(xué)習(xí)概述5論,在該理論中,行為通過獎(jiǎng)勵(lì)(懲罰)而加強(qiáng)(削弱),導(dǎo)致行為的重復(fù)(滅絕)。]經(jīng)典的解釋使用大鼠作為模型,也可以用同樣的方法來解釋RL,如圖1.2所示。一只老),強(qiáng)化學(xué)習(xí)的基本概念:老鼠智能體學(xué)會在迷宮中導(dǎo)航刑罰賞賜A環(huán)境環(huán)境注:老鼠特工首先觀察環(huán)境(1)。它采取行動(dòng)(2),導(dǎo)致獎(jiǎng)勵(lì)或懲罰(3)。強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)6物如何在該環(huán)境中發(fā)揮作用。1.3)。17模型指的是是否存在關(guān)于代理人與環(huán)境之間相互作用的動(dòng)態(tài)的知識。具體來說,RL的簡化分類資料來源:改編自HaoDong,ZihanDing和ShanghangZhang,深度強(qiáng)化學(xué)習(xí):基礎(chǔ),研究和應(yīng)用,Springer,2020。型的強(qiáng)化學(xué)習(xí)技術(shù)的簡要調(diào)查”,第24屆系統(tǒng)理論、控制與計(jì)算國際會議(ICSTCC)論文集,2020狹義人工智能與廣義人工智能以及強(qiáng)化學(xué)習(xí)概述7受計(jì)算能力和獲勝策略或訓(xùn)練示例限制的測試示例。例如,在井字游戲中,計(jì)算機(jī)可以生大的飛躍(即,確定所有可能游戲的所有可能結(jié)果)以超越計(jì)算能力。國際象棋就是這樣一種游戲,但仍然可以使用復(fù)雜的樹搜索方法來預(yù)測可能的前進(jìn)路線強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)8AlphaGo(開始,中間,結(jié)束)可能移動(dòng)的數(shù)量在國際象棋中為35,而在圍棋中為300。在國際象棋中,得分的結(jié)束狀態(tài)很簡單(將死),而在圍棋中則更復(fù)雜--計(jì)數(shù)區(qū)域,或者玩家的宙,而我們看到的只是眼前的一個(gè)池塘。26AlphaGo算法在Silveretal.[27]Alp狹義人工智能與廣義人工智能以及強(qiáng)化學(xué)習(xí)概述9絡(luò)。AlphaGoZero雖然AlphaGo利用專家游戲來引導(dǎo)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,但隨后的AlphaGoZero算法沒有使Dota2前一部分是電腦游戲重大進(jìn)步的一個(gè)樣本,但肯定不是全面的。31RL是最近許多火車進(jìn)步的組成部分,日。強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)算法。在這樣的環(huán)境中,考慮RL在涉及戰(zhàn)略決策的國防部應(yīng)用中的效用變得很自然。隊(duì)合作獲得優(yōu)勢。表1.1幾種著名的計(jì)算機(jī)求解游戲的特點(diǎn)板狀態(tài)空間信息隨機(jī)性玩家合作地平線2去2卡變化很2長B長來源:AskePlaat的特征數(shù)據(jù),學(xué)習(xí)游戲:強(qiáng)化學(xué)習(xí)和游戲,SpringerNature,2020;Yin等人,2021;和云龍陸和李文新,“技術(shù)和范式在現(xiàn)代游戲AI系統(tǒng),”算法,卷。15,No.8,2022.[1]撲克的范圍因其變化和玩家數(shù)量而有很大差異(MichaelJohanson,“MeasuringtheSizeofLargeNo-LimitPokerGames,”arXivpreprintarXiv:1302.7008,2013)。b未找到國家空間估計(jì)數(shù)。狹義人工智能與廣義人工智能以及強(qiáng)化學(xué)習(xí)概述?完全或不完全信息博弈國際象棋是一種完全信息的游戲,在這種游戲中,玩家可比如撲克,玩家擁有其他人不知道的信息。在這種情況下,制定策略包括猜測對手?具有隨機(jī)元素的博弈在游戲中加入擲骰子或洗牌,會給游戲增加一個(gè)隨機(jī)元素。根據(jù)索蘭和維耶的說法首先,與當(dāng)前狀態(tài)一起,參與者的行為決定了每個(gè)參與者獲得的即時(shí)MikePreuss,“RTSAIProblemsandTechniques,”inNewtonLee,ed.計(jì)35DiogoM.Costa,“游戲和謎題的計(jì)算復(fù)雜性”,碩士論文,哈佛大學(xué),2018年7月;MarcinPrzybylko,隨機(jī)游戲及其復(fù)雜性,NouvelleCalédonie,2019年;ConstantinosDaskalakis,強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)約翰遜和特雷德韋考慮在戰(zhàn)術(shù)戰(zhàn)場管理系統(tǒng)中使用人工智能。[36]如圖1.4所示,這樣一個(gè)系統(tǒng)在游戲中,游戲就是現(xiàn)實(shí)Man,andCybernetics(1999年IEEE系統(tǒng)、人與網(wǎng)絡(luò)國際會議)。號99CH37028),Vol.722,1999狹義人工智能與廣義人工智能以及強(qiáng)化學(xué)習(xí)概述戰(zhàn)術(shù)決策域資料來源:轉(zhuǎn)載自JohnsonandTreadway,2019,p.72.與它的環(huán)境相互作用,并探索它的決定的后果,這種風(fēng)險(xiǎn)可能是不可接受的。還考際上很少存在這樣的場景,對于如游戲中所示的許多訓(xùn)練示例的需要可能需要在某些情強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)將專業(yè)知識從游戲轉(zhuǎn)移到現(xiàn)實(shí)擬合游戲中生成的數(shù)據(jù)。換句話說,學(xué)會玩游戲的RL成為游戲中的專家。領(lǐng)域泛化是AI態(tài),這是特別困難的。[42]如果我們考慮圖1.4中的域,域中的復(fù)雜性存在于環(huán)境、戰(zhàn)術(shù)、下,風(fēng)險(xiǎn)來自于讓一種類型的戰(zhàn)斗專家負(fù)責(zé)另更差,因?yàn)樗爬怂谋憩F(xiàn)。),狹義人工智能與廣義人工智能以及強(qiáng)化學(xué)習(xí)概述那么它們就不太可能實(shí)用。風(fēng)險(xiǎn)是不可接受的損失之前,一個(gè)實(shí)現(xiàn)訓(xùn)練有素的系統(tǒng)。而不會有不可接受的風(fēng)險(xiǎn)。不及物性與戰(zhàn)略深度強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)么許多這類游戲需要大量的策略來成功訓(xùn)練。54Sanjaya等人使用國際象棋移動(dòng)55的開放數(shù)狹義人工智能與廣義人工智能以及強(qiáng)化學(xué)習(xí)概述59統(tǒng)做出的決策會造成不可接受的損失。RL是一種功能強(qiáng)大的算法工具,在游戲領(lǐng)域取得了巨大成功。在這一領(lǐng)域,強(qiáng)化學(xué)習(xí)解問題。這樣的系統(tǒng)將具有超過當(dāng)前游戲的復(fù)雜性。此程序。RL的一些風(fēng)險(xiǎn)因素來自其他形式的人工智能的經(jīng)驗(yàn),例如資源限制或不一致的組為了考慮RL系統(tǒng)的失敗風(fēng)險(xiǎn),研究AI系統(tǒng)的部署以及導(dǎo)致它們失敗的因素是有用的。雖然我們的研究并沒有關(guān)注涉及RL的應(yīng)用,但與其使用失敗相關(guān)的類別和因素預(yù)計(jì)將),強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)20表2.1AI失敗的風(fēng)險(xiǎn)類別和風(fēng)險(xiǎn)因素資料來源:轉(zhuǎn)載自Westenberger,Schleman和Schlegel,2022年?!癉eepReinforcementLearningThatMatters”,論文發(fā)表于第三十二屆人工智能進(jìn)步協(xié)會人工智能會議3GabrielDulac-Arnold,NirLevine,DanielJ.Mankowitz,JerryLi,CosminPaduraru,SvenGowal和5DarioAmodei,ChrisOlah,JacobSteinhardt,PaulChristiano,JohnSchulman,andDanMané,?ConcreteProblemsinAISafety,”arXivpreprintarXiv:1606.06565,2016.RL在更廣泛問題中的進(jìn)一步技術(shù)挑戰(zhàn)21同樣,每個(gè)領(lǐng)域的經(jīng)驗(yàn)性質(zhì)都可能導(dǎo)致似乎在某些應(yīng)用中起作用的解決方案,而不相信這些解決方案具有普遍性。例如,Amodei等人將一個(gè)挑戰(zhàn)列為“對分布這個(gè)挑戰(zhàn)與RL代理在環(huán)境變化時(shí)按預(yù)期響應(yīng)有關(guān)。Padakandla的一份調(diào)查報(bào)告使用了術(shù)語“動(dòng)態(tài)變化的環(huán)境”,并提出了針對不同應(yīng)用的各種方法,使用不同類型的RL,具有各91,2022。強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)22增長。如果我們以游戲Dota2為例,RL解決游戲所需的計(jì)算被報(bào)告為每秒770petaflops),petaflops/s。15OpenAI提供了一個(gè)圖表,顯示了AI在基準(zhǔn)測試方面的進(jìn)展,以及每個(gè)基準(zhǔn)測試所需的總計(jì)算量的估計(jì)如圖2.1所示AI所需計(jì)算能力隨時(shí)間變化的圖資料來源:轉(zhuǎn)載自DarioAmodei和DannyHernandez,“AIandCompute”網(wǎng)頁,OpenAI,2018年5月RL在更廣泛問題中的進(jìn)一步技術(shù)挑戰(zhàn)23訓(xùn)練大規(guī)模模型所需的總能量可能相當(dāng)可觀。例如,第一列中顯示的神經(jīng)架構(gòu)搜索(NAS)模型估計(jì)需要7.5兆瓦時(shí)(MWh),大約是11個(gè)消費(fèi)者一個(gè)月的平均零售電力需強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)24表2.2幾個(gè)大型DL模型的功效估計(jì)技術(shù)進(jìn)化的格哈德開關(guān)Transformer十月b來源:Patterson等人的特征數(shù)據(jù),2021年注:GPU=圖形處理單元;kW=千瓦;TPU=張量處理單元;W=瓦特。aTFLOPS=1012浮點(diǎn)運(yùn)算/秒。bZetaflops=1021浮點(diǎn)運(yùn)算/秒。c運(yùn)行能量是平均處理器功率乘以處理器數(shù)量得出的。約為13,000個(gè)消費(fèi)者的平均住宅電力需求。20求。Ivanov等人發(fā)現(xiàn),訓(xùn)練Transformer模型(用于表2-2的數(shù)據(jù))的關(guān)鍵瓶頸之一是數(shù)MachineLearningandSystems,RL在更廣泛問題中的進(jìn)一步技術(shù)挑戰(zhàn)25的輸入。這些數(shù)據(jù)可能需要在訓(xùn)練過程中以某種方式進(jìn)行模擬,但是在方式更具競爭力。DNN代表一組復(fù)雜的互連節(jié)點(diǎn),它們處理輸入數(shù)據(jù)以做出決策。鑒于DNN的黑盒性質(zhì),在確認(rèn)診斷時(shí)認(rèn)為它是多余的,否則會懷疑它。總的來說,這項(xiàng)工作森建議之間的比較,25S.P.Somashekhar,Martín-J.安德魯·塞普爾韋達(dá)放大圖片作者:Norden,AmitRauthan,CognitiveComputingSystemforLungandColorectalCancerTreatment的早期經(jīng)驗(yàn)”,Journalof強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)26蘭所報(bào)告的那樣,有幾種這樣的工具就是這種情況。28另一個(gè)由于缺乏解釋性而產(chǎn)生的潛在風(fēng)險(xiǎn)是人類傾向于將AI擬人化。擬人化可能會導(dǎo)致用戶假設(shè)一些共同的動(dòng)機(jī)或思維過程,這可能會影響對人工智能行為的正確評估。確認(rèn)偏差(Confirmationbias),傾向于給予數(shù)據(jù)更大的權(quán)重來確認(rèn)我們自己的假設(shè),也象。RL在更廣泛問題中的進(jìn)一步技術(shù)挑戰(zhàn)2731一個(gè)設(shè)計(jì)不好的獎(jiǎng)勵(lì)函數(shù)會導(dǎo)致一種叫做獎(jiǎng)勵(lì)黑客的現(xiàn)象。[32]獎(jiǎng)勵(lì)黑客是指代理人因問題,正在研究一系列方法。36任何基于RL的國防部系統(tǒng)都必須確保意外行為不會通過獎(jiǎng)勵(lì)黑客或不安全操作導(dǎo)致不強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)28化學(xué)習(xí)系統(tǒng)都有這樣的弱點(diǎn),攻擊可能會導(dǎo)致不可接受的高成本,影RL在更廣泛問題中的進(jìn)一步技術(shù)挑戰(zhàn)29家交互的例子可以基本上被RL代理模仿時(shí),這種類型的學(xué)習(xí)是有用的。當(dāng)示例是次優(yōu)的(即,沒有被專家證明)或嘈雜的情況下,離線訓(xùn)練表現(xiàn)得更好。離線強(qiáng)化學(xué)習(xí)作。45這種學(xué)習(xí)的應(yīng)用的一個(gè)例子是自動(dòng)駕駛,46其中可以通過跟隨現(xiàn)有駕駛員來收集數(shù)據(jù)。例子。期行為的可接受偏差到具有不可接受的高負(fù)面后果的不確強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)30訓(xùn)。訓(xùn)發(fā)生,特別是如果失去其能力的風(fēng)險(xiǎn)大于它正在創(chuàng)建的風(fēng)險(xiǎn)。如果任何故障的嚴(yán)重后果,可能別無選擇,只能使系統(tǒng)脫機(jī)。在這種情況下,圍繞失敗案例進(jìn)行培訓(xùn)可能是一執(zhí)行完整的重新認(rèn)證可能是不可行的。因此,除非有適當(dāng)?shù)木徑夥椒▉硖幚泶祟惽闆r,否則故障模式可能會成為關(guān)鍵問題。收集大型數(shù)據(jù)集是可行的。從一個(gè)點(diǎn)到另一個(gè)點(diǎn)旅行的目標(biāo)是一個(gè)明確的目標(biāo)。該應(yīng)用出了這些因素。RL在更廣泛問題中的進(jìn)一步技術(shù)挑戰(zhàn)31表2.3使用某種形式的RL的商業(yè)應(yīng)用示例公司應(yīng)用州測策今aTekedraMawakana,“與UPS合作實(shí)現(xiàn)我們的使命”,Waypoint博客,Waymo,2020年1月29日;Waymo,“同一個(gè)司機(jī),不同的車輛:將Waymo自動(dòng)駕駛技術(shù)帶到卡車上”,Waypoint博客,2018年3月9日;Waymo,“WaymoVia正在與J.B.HunttoCarryFreightAcrossTexas,”Waypointblog,June10,2021a;ChrisBrown,“WaymoOutlinesPlanstoIntegrateAutonomousTruckinginFleets,”FleetForward,July14,2020.[2]EricWalz,“Waymo正在紐約市部署其自動(dòng)駕駛汽車”,F(xiàn)utureCar,2021年12月10日。cNuro,“FindaCareerThatDelivers,”網(wǎng)頁,未注明日期。[4]TomWarren,“IntelAcquiringMobileye'sSelf-DrivingCarTechnologyin$15BillionDeal,”TheVerge,March13,2017.e卡內(nèi)基梅隆大學(xué)視聽中心,“研究主題”,網(wǎng)頁,卡內(nèi)基梅隆大學(xué)機(jī)器人研究所,未注明日期。fAptiv,“自主移動(dòng)性”,網(wǎng)頁,未注明日期;NiclasCarlstr?m,“利用低層雷達(dá)數(shù)據(jù)增強(qiáng)雷達(dá)跟蹤Waymo還在舊金山進(jìn)行出租車服務(wù)的試點(diǎn)測試。強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)32真實(shí)世界的數(shù)據(jù)用于訓(xùn)練目的。RL帶來了獎(jiǎng)勵(lì)最大化的風(fēng)險(xiǎn),這與程序員的意圖不一獎(jiǎng)勵(lì)正如Waymo在2019年的一篇博客文章中所報(bào)道的那樣,Waymo發(fā)現(xiàn)從好的情況中學(xué)據(jù)意味著機(jī)器沒有信息可以模仿,也不知道如何在碰撞中做出反應(yīng)。RL在更廣泛問題中的進(jìn)一步技術(shù)挑戰(zhàn)3353WaymoDriver系統(tǒng)的驗(yàn)證是通過在公共道路上進(jìn)行一系列測試、模擬和操作來進(jìn)行人或卡車在路上扔垃圾。終在測試階段與乘客一起進(jìn)行測試。其目的是讓駕駛員從所有這些什么情況,然后又動(dòng)了起來,又停了下來。這輛車最終以手動(dòng)模式駕駛,但這一失敗為Waymo提供了一個(gè)很好的機(jī)會,讓它訓(xùn)練司機(jī)軟件如何應(yīng)對交通錐。一旦新的培訓(xùn)完強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)34航程DeepRL和IL為這個(gè)基于Python的軟件工具包提供了基線代理。模擬使人們能夠開發(fā)代57GMCruiseVoyage是Udacity的分拆,現(xiàn)在已被GMCruise收購(截至2021年)Cruise使用機(jī)器學(xué)習(xí)收集關(guān)于U形轉(zhuǎn)彎事件的獨(dú)特和指定情況的數(shù)據(jù)。然而,檢測器方法識別離散事件,并RL在更廣泛問題中的進(jìn)一步技術(shù)挑戰(zhàn)35Mobileye為處理Mobileye的視聽系統(tǒng)而設(shè)計(jì),稱為說,碰撞大大減少。例如,吉田出租車公司發(fā)現(xiàn),一旦他們的汽車安裝了該系統(tǒng),碰撞事故減少了85%。64作為響應(yīng)。訓(xùn)練偏好是大量吸收訓(xùn)練數(shù)據(jù)以做出增量決策。雖然Mobileye使用深度神經(jīng)6560AndrewJ.Hawkins,“IntelIsTakingItsSelf-DrivingCompanyMobileyePublicin2022,”TheVerge,December7,2021b.65ShaiShalev-Shwartz,ShakedShammah和AmnonShashua,“Safe,Multi-Agent,ReinforcementLearningforAutonomousDriving”,arXiv預(yù)印本arXiv:1610.03295,2016年10月強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)36來自侵權(quán)法。[66]目標(biāo)是確保自主系統(tǒng)永遠(yuǎn)不會成為事故的原因,因此從這些概念中開發(fā)運(yùn)營,只有20輛車接觸;沒有一輛車報(bào)告受傷。總體而言,Waymo在其主頁上吹70End-to-EndAutonomousDrivingModels,”ProceeRL在更廣泛問題中的進(jìn)一步技術(shù)挑戰(zhàn)37間重新訓(xùn)練,測試和部署系統(tǒng)更新以對抗這種攻擊及其變體。4.強(qiáng)化學(xué)習(xí)通常是解決過程中的一項(xiàng)任務(wù),而不是解決大規(guī)模問題的一般方法。其正如第1章所討論的,強(qiáng)化學(xué)習(xí)在學(xué)習(xí)和贏得不同復(fù)雜程度的游戲方面非常成功。過渡到現(xiàn)實(shí)世界的應(yīng)用程序會導(dǎo)致與問題的復(fù)雜性,大小以及RL從有限的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的困總的來說,在這方面的許多問題仍然有待解決,可轉(zhuǎn)移到實(shí)際系統(tǒng),魯棒性和代理驗(yàn)證。由于這些問題,可以說強(qiáng)化學(xué)習(xí)不是汽車運(yùn)動(dòng)規(guī)劃的適當(dāng)方法。然而,當(dāng)與其他方法相結(jié)合時(shí),它在解決復(fù)雜的優(yōu)用。76“AdversarialDiscriminativeFeatureSeparationforGeneralizationinReinforcementLearning”,2022年國際神經(jīng)網(wǎng)絡(luò)聯(lián)合會議(IJCNN)論文集,2022年。76B.Udugama,“ReviewofDeepReinforcementLearningforAutonomousDriving”,arXiv預(yù)印本強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)38路線規(guī)劃和控制。境魯棒性的挑戰(zhàn)。在“從窄到寬”的應(yīng)用空間中,我們期望RL成為國防部考慮的可行方)?如,內(nèi)容推薦)或有助于模擬(例如,控制理論、博弈論)78YuxiLi,“ReinforcementLearningin84李,2022。RL在更廣泛問題中的進(jìn)一步技術(shù)挑戰(zhàn)39度)。域都很復(fù)雜)。默認(rèn)情況下,當(dāng)在文獻(xiàn)中識別為漏洞時(shí),預(yù)期風(fēng)險(xiǎn)在狹義應(yīng)表2.4三類問題的觀察或預(yù)期RL風(fēng)險(xiǎn)總結(jié)風(fēng)險(xiǎn)描述自主國防部廣泛驅(qū)動(dòng)望低高高低高高高高高強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)40表2.4-續(xù)風(fēng)險(xiǎn)描述自主國防部廣泛驅(qū)動(dòng)識低低高高缺乏可解釋性/信任不完整模型/對不確定性的響應(yīng)低高高高高高高高高高高注:低、中、高是指使用RL的風(fēng)險(xiǎn)水平。的國防部應(yīng)用程序中的評估。RL在更廣泛問題中的進(jìn)一步技術(shù)挑戰(zhàn)4143常涵蓋24小時(shí)的空中行動(dòng)。因此,雖然AOC的一些要素可能參與監(jiān)督當(dāng)天ATO的執(zhí)行,和DavidBlancett,現(xiàn)代戰(zhàn)爭的聯(lián)合全域指揮與控制:識別和開發(fā)人工智能應(yīng)用的強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)44空氣任務(wù)周期行ATOATO制作和傳播資料來源:改編自Lingel等人,2020年。3探索挑戰(zhàn)的情景45圖3.2描述了這種情況的概況。隨著技術(shù)水平的進(jìn)步,AOC隨著時(shí)間的推移從“爬行”階段過渡到“行走”階段(圖3.2場景概述-爬行-步行-跑步?人員配備水平基本維管?減少人員配置,但允許24/7?單個(gè)大型RL代理/系統(tǒng)幾乎自主?最少的人員配置,以確保RL系注:Comms=通信。強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)46與“傳統(tǒng)”AOC相關(guān)的人員配備水平。情景概述-大躍進(jìn)?RL?RL代理/系統(tǒng)的有限、小規(guī)模部署?人員配置水平基本維持現(xiàn)狀?單個(gè)大型RL代理?最少的人員配置,以確保RL系注:Comms=通信。探索挑戰(zhàn)的情景47 系統(tǒng)部署在AOC內(nèi)有限的小規(guī)?;A(chǔ)上(圖3.3的左側(cè))送到該系統(tǒng)中,以接收最終的決策輸出。49了一種混合方法,與蘭德公司和國防部人員一起在為期一天的研討會上收集了三次會議在每次會議開始時(shí),我們簡要介紹了一個(gè)復(fù)雜的軍事場景,RL可以在未來應(yīng)用。每個(gè)),緩解措施。發(fā)方法,以確定基于技術(shù)的挑戰(zhàn):應(yīng)用程序通知部隊(duì)規(guī)劃技術(shù)驚喜,蘭德公司,RR-A701-1,2021強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)50所考慮的每個(gè)場景的其他因素相關(guān)的六個(gè)標(biāo)準(zhǔn)來評估挑戰(zhàn)(表4.1和第3章)。被要求完成評估調(diào)查,因此本次分析共有10份已完成的調(diào)查。每次挑戰(zhàn)的平均評分見表字描述了所有參與者的每個(gè)評估陳述的平均得分,并記錄了等于或大于95%、98%和99%置信區(qū)間的p值。2表4.1評級挑戰(zhàn)的類別和描述影響類別國防部檢測和預(yù)防的障礙國防部不太可能在此挑戰(zhàn)被實(shí)現(xiàn)之前檢測到它,或者即使檢測到它除了國防部檢測和預(yù)防的障礙之外,很少有障礙可以阻止這一挑戰(zhàn)術(shù)準(zhǔn)備或?qū)κ值哪芰虿捎眉夹g(shù)的意圖,改變外部因素緩解困難如果這一挑戰(zhàn)得以實(shí)現(xiàn),國防部將難以緩解其影響(例如,通過權(quán)限、如果不加以緩解,這一挑戰(zhàn)將嚴(yán)重限制(直接或間接)國對國家安全的影響如果不加以緩解,這一挑戰(zhàn)將(直接或間接)嚴(yán)重?fù)p害美國的國家安全(挑戰(zhàn)識別框架和研討會51表4.2三大挑戰(zhàn),按優(yōu)先級和研討會分項(xiàng)列出國防部的障礙檢測影響和其他緩解措施對國家可能面臨的挑戰(zhàn)的影響描述優(yōu)先預(yù)防障礙困難操作安全事件爬-走-跑AirForce,簡稱123對系統(tǒng)缺乏信任和了解123部隊(duì)重組),3強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)52表4.2-續(xù)國防部檢測的障礙預(yù)防挑戰(zhàn)描述優(yōu)先級其他障礙緩解難度對業(yè)務(wù)的影響對國家安全的影響發(fā)生可能性技術(shù)走1233123來源:作者對調(diào)查結(jié)果的分析注:評價(jià)陳述按從強(qiáng)烈不同意(1)到強(qiáng)烈同意(5)的量表評分所示數(shù)字代表10份已完成參與者調(diào)查的平均數(shù)。p值等于或高于95%置信區(qū)間。bp值等于或高于98%置信區(qū)間。cp值等于或高于99%置信區(qū)間。識和專業(yè)知識的勞動(dòng)力來部署和維護(hù)RL模型和系統(tǒng),例如ML職業(yè)領(lǐng)域。這可能會導(dǎo)致缺解(兩者的平均得分都為3.7)。所討論的潛在緩解措施包括促進(jìn)發(fā)展文職人員隊(duì)伍所需的技能和專門知識或擴(kuò)大工程系列,但如果沒有多余的能力,這也可能帶來其他挑戰(zhàn)。還討論了外包這一備選辦法,),挑戰(zhàn)識別框架和研討會53表4.3頂級力量重組挑戰(zhàn)國防部的障礙檢測和預(yù)防挑戰(zhàn)描述優(yōu)先其他障礙緩解難度對業(yè)務(wù)的影響對國家安全的影響發(fā)生可能性要部署的勞動(dòng)力1跑2345對系統(tǒng)缺乏信任和了解123來源:作者對調(diào)查結(jié)果的分析注:評價(jià)陳述按從強(qiáng)烈不同意(1)到強(qiáng)烈同意(5)的量表評分所示數(shù)字代表10份已完成參與者調(diào)查的平均數(shù)。p值等于或高于95%置信區(qū)間。bp值等于或高于98%置信區(qū)間。cp值等于或高于99%置信區(qū)間。強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)54行員留用獎(jiǎng)金為模式的制度在這種情況下是否有效。這一備選辦法不僅影響到部隊(duì)的組它再試一次或轉(zhuǎn)換到另一個(gè)工具。如果沒有這種訓(xùn)練,在步行階段設(shè)想的人類-智能體團(tuán)),可以通過擴(kuò)大與測試或使用RL系統(tǒng)相關(guān)的額外需求相稱的勞動(dòng)力來緩解挑戰(zhàn)識別框架和研討會55大躍進(jìn)大躍進(jìn)情景中最優(yōu)先的挑戰(zhàn)是觀察到?jīng)]有任何故障模式不會導(dǎo)致災(zāi)難性的任務(wù)失),致認(rèn)為,克服缺乏信任可能是一個(gè)困難的命題(緩解難度的平均得分為3.6)。參與者似乎也同意盲目信任可能對國家安全產(chǎn)生重大影響爬-走-跑與大躍進(jìn)),但危害性不大的地方,但與大躍進(jìn)相關(guān)的三個(gè)不同挑戰(zhàn)被認(rèn)為對國家安全的影挑戰(zhàn)大得多(表4.4):強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)56對國家安全的平均影響對國家安全的平均影響平均發(fā)生概率來源:作者對調(diào)查結(jié)果的分析注:相應(yīng)的圖形代碼見表4.4結(jié)論。技術(shù)挑戰(zhàn)附錄A的方框中總結(jié)了每種就業(yè)概念的挑戰(zhàn)、影響和潛在緩解措施。在本節(jié)中,我們在的緩解措施。挑戰(zhàn)識別框架和研討會57部隊(duì)重組-對行動(dòng)的平均影響與平均可能性對業(yè)務(wù)的平均影響對業(yè)務(wù)的平均影響●.o8●平均發(fā)生概率來源:作者對調(diào)查結(jié)果的分析注:相應(yīng)的圖形代碼見表4.4走行動(dòng)方針的直接影響的擔(dān)憂之外,與會者還表示了對如果系統(tǒng)出錯(cuò)誰將負(fù)責(zé)的擔(dān)憂。如果潛在的緩解措施包括以某種方式將人類保持在決策循環(huán)中,特別是與目標(biāo)開發(fā)和武器強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)58表4.4圖4.1和4.2的圖形代碼圖爬-走-跑CWR1網(wǎng)絡(luò)和國防部缺乏部署模型的CWR11集成測試很難(多個(gè)工具到單個(gè)gonculator很難)。CWCWR13組織問題:什么組織監(jiān)督它?誰擁有它?誰是收購負(fù)責(zé)人、CWR14當(dāng)局、安全許可問題(例如,AOC在附屬的秘密級別,其他在不同的級別。如何在正確的層面上監(jiān)督操作概念的執(zhí)行。工作人員是否被批準(zhǔn)為機(jī)密或最高?)大躍進(jìn)GL1沒有不是災(zāi)難性任務(wù)故障GL2的故障模式對系統(tǒng)缺乏信任GL6在兩種不同情況下或與多個(gè)聯(lián)合特遣部隊(duì)一起執(zhí)行指揮控制的含義挑戰(zhàn)識別框架和研討會59兩種就業(yè)觀念思考步行跑步?減少人員配置,但允許24/7人工?單個(gè)大型RL代理/系統(tǒng)幾乎自主?最少的人員配置,以確保RL系注:Comms=通信。么這個(gè)挑戰(zhàn)可能會更加困難。與會者指出,空中交通管制的評估階段(以及聯(lián)合目標(biāo)選時(shí)間框架內(nèi)對系統(tǒng)進(jìn)行再培訓(xùn)的挑戰(zhàn)。如果系統(tǒng)出現(xiàn)災(zāi)難性的錯(cuò)誤強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)60表4.5技術(shù)挑戰(zhàn)挑戰(zhàn)描述優(yōu)先國防部檢測的障礙,預(yù)防其他障礙緩解難度對業(yè)務(wù)的影響對國家安全的影響發(fā)生可能性走1233123來源:作者對調(diào)查結(jié)果的分析注:評價(jià)陳述按從強(qiáng)烈不同意(1)到強(qiáng)烈同意(5)的量表評分所示數(shù)字代表10份已完成參與者調(diào)查的平均數(shù)。p值等于或高于95%置信區(qū)間。bp值等于或高于98%置信區(qū)間。cp值等于或高于99%置信區(qū)間。),不加以緩解,將對行動(dòng)和國家安全產(chǎn)生嚴(yán)重影響(分別為3.55和3.44)。挑戰(zhàn)識別框架和研討會61一個(gè)潛在的緩解措施是進(jìn)行額外的研究和開發(fā),以找到使用RL的“正確問題”。另一個(gè)而不一定是現(xiàn)有或更傳統(tǒng)的工具和方法的替代品。運(yùn)行),練的某個(gè)部分預(yù)期在現(xiàn)實(shí)中遇到的更廣泛的各種雷達(dá),然后專注于剩余的已知或預(yù)期的雷法可能是不可行的。強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)62行,特別是如果在任務(wù)期間發(fā)生問題。將在其上進(jìn)行訓(xùn)練,克服分類以及監(jiān)督和判斷RL正確操作的能力可能具有挑戰(zhàn)性。5.在現(xiàn)階段,商業(yè)世界所看到的成本和收益對國防部來說似乎幾乎是不正常的。公司在人工智能上花費(fèi)了數(shù)十億美元,但沒有明確的利潤。63(例如,在游戲中擊敗世界專家)對于任務(wù)失敗的確切的小后果(即,輸?shù)舯龋?,以及測量故障的潛在頻率都是有問題的。強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)64?在廣泛的應(yīng)用中,RL的失敗,例如在我們的研討會上考慮的操作級C2示例,可能在驗(yàn)證和確認(rèn)過程中。?國防部應(yīng)該開發(fā)訪問和生成與國防部問題相關(guān)的高質(zhì)量數(shù)據(jù)的方法,這些數(shù)據(jù)是RL算法訓(xùn)練所需的。這項(xiàng)建議可分為幾個(gè)方面:–現(xiàn)有數(shù)據(jù)。數(shù)據(jù)類型、格式、分類甚至實(shí)用程序的多樣性在國防部中可能各不相–數(shù)據(jù)難以捕獲,本質(zhì)上過于稀疏,或存在很大的不確定性。訓(xùn)練一個(gè)廣泛的、基于決策的應(yīng)用程序的一個(gè)問題可能是,可能沒有足夠的現(xiàn)有數(shù)據(jù)來訓(xùn)練或生成需的示例數(shù)據(jù)的卷中,特別是在響應(yīng)RL探索時(shí)。模擬RL系統(tǒng)探索和學(xué)習(xí)所需的一結(jié)論和建議65以補(bǔ)充RL系統(tǒng)或用于創(chuàng)建決策數(shù)據(jù)以響應(yīng)RL動(dòng)作,并且R件可能特別重要。–生成動(dòng)態(tài)數(shù)據(jù),以針對測試和評估(TE&)期間發(fā)現(xiàn)的問題案例進(jìn)行訓(xùn)練,或者使RL系統(tǒng)對意外挑戰(zhàn)更加強(qiáng)大。強(qiáng)化學(xué)習(xí)通過廣泛的探索來學(xué)習(xí),但要確保種途徑來幫助解決這一問題。首先,&不應(yīng)將TE與培訓(xùn)分開考慮。在TE期間收集些挑戰(zhàn)。–RL的風(fēng)險(xiǎn)框架對于指導(dǎo)哪些應(yīng)用程序可能存在與預(yù)期收益相關(guān)的過高風(fēng)險(xiǎn)具有強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)66–決策中的不確定性(不可解釋性)需要在失敗的類型和可能性方面得到更好的限制。代替可解釋的AI(即,如果系統(tǒng)的決定是可以解釋的,并且可能是可以類后果的狹窄應(yīng)用中。方面的權(quán)衡,以及它們?nèi)绾巫詈玫嘏c其他技術(shù)競爭和協(xié)同工作。這種方法需要個(gè)RL挑戰(zhàn)(例如,安全行為或獎(jiǎng)勵(lì)黑客),而忽略其他人,并不適合在DoD場景的學(xué)習(xí)方式。我們認(rèn)為RL系統(tǒng)像生物系統(tǒng)一樣學(xué)習(xí)的假設(shè),充其量是建立在大腦結(jié)論和建議67更好的系統(tǒng)??紤]到國防部目前的局限性,一種漸進(jìn)的方法可能會導(dǎo)致性能的提能的RL系統(tǒng)。?圖3.1所示的空中交通管制就是國防部可以應(yīng)用這種方法的一個(gè)例子雖然全面的發(fā)展計(jì)劃超出了本報(bào)告的范圍,但國防部可能希望考慮以下建議:–對ATC的現(xiàn)有流程進(jìn)行成本、效益和風(fēng)險(xiǎn)分析,以確定每個(gè)子流程的最佳技術(shù)解–開發(fā)由此產(chǎn)生的技術(shù),以補(bǔ)充和支持現(xiàn)有的部隊(duì)結(jié)構(gòu)。這種方法有幾個(gè)優(yōu)點(diǎn):種機(jī)制&,確保最終的技術(shù)按預(yù)期運(yùn)行;第三,它降低了整體ATC的風(fēng)險(xiǎn),因?yàn)榧夹g(shù)過渡可以更精細(xì)地控制。),人類決策,無法提供有效訓(xùn)練RL所需的大量輸入數(shù)據(jù)和示例。其次,RL需要探索且,它們可能受到用于制定AOD的數(shù)據(jù)中的深度不確定性的影響。在這種情況強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)68找到國防部任務(wù)中的“甜蜜點(diǎn)”,在那里RL可以得到充分的訓(xùn)練,以補(bǔ)充或超過人類的決提供最大價(jià)值時(shí)需要考慮的因素。69我們召集了來自陸軍、空軍和蘭德公司的11位專家參加了一個(gè)研討會,以確定在復(fù)雜的專家啟發(fā)式研討會方法“鑒于目前復(fù)雜的軍事情況,可能會出現(xiàn)哪些挑戰(zhàn)緩解公開討論,以引出與每項(xiàng)已確定挑戰(zhàn)相關(guān)的影響和潛在緩解“這一特定挑戰(zhàn)的含義是什么?”“國防部如何緩解這一挑戰(zhàn)??根據(jù)評價(jià)說明評價(jià)挑戰(zhàn)的封閉式調(diào)查強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)70表A.1工作坊參與者背景參與者會員5522435-2-總注:SME=主題專家。表A.2評估聲明和定義評價(jià)語句定義除了國防部檢測和預(yù)防的障礙之外,很少有障礙可以阻止這一挑戰(zhàn)術(shù)準(zhǔn)備或?qū)κ值哪芰虿捎眉夹g(shù)的意圖,改變外部因素的力量,美國的響如果這一挑戰(zhàn)得以實(shí)現(xiàn),國防部將難以減輕其影響(例如,通如果不加以緩解,這一挑戰(zhàn)將(直接或間接)嚴(yán)重限制國資料來源:摘自Mayeretal.,2021年71表B.1查明的挑戰(zhàn)爬-走-跑類別挑戰(zhàn)標(biāo)題和/或描述影響爬-走-跑勞動(dòng)力培訓(xùn)、用戶友好性、所需用勵(lì)(例如,培訓(xùn)、“創(chuàng)智贏家”強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)72表B.1-續(xù)“gonculator”很難)。AOC之前進(jìn)行部署前培訓(xùn),或保AOC的操作員可能只有部AOC在附屬機(jī)密級別,其他在不?)研討會中確定的挑戰(zhàn)、影響和緩解戰(zhàn)略73表B.1-續(xù)影響緩解策略大躍進(jìn)部隊(duì)重組沒有不是災(zāi)難性任務(wù)失敗的故障對系統(tǒng)缺乏信任和了解義難到高技能),步行階段技術(shù)確定是否需要再培訓(xùn);可能無法機(jī)強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)74表B.1-續(xù)?)更多的計(jì)算資源,以更快地重新訓(xùn)練可解釋性人類可解釋的在人類表研討會中確定的挑戰(zhàn)、影響和緩解戰(zhàn)略75表B.1-續(xù)為RL提供了優(yōu)勢量化優(yōu)勢與潛在劣勢;更多研究獎(jiǎng)勵(lì)黑客缺乏人類元素的直覺反應(yīng)(如何讓系統(tǒng)模仿)在合同中確保AI不會系統(tǒng)故障無快速解決方案;上游故障;問題難以發(fā)現(xiàn)運(yùn)行階段再培訓(xùn)可行性(我們能負(fù)擔(dān)得起再培訓(xùn)嗎?我們要下線?)更多的計(jì)算資源,以更快地重新訓(xùn)練強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)76表B.1-續(xù)可解釋性人類可解釋的在人類表究在合同中確保AI不會系統(tǒng)故障無快速解決方案;上游故障;問題難以發(fā)現(xiàn)77AIAOCATOC2DoDMLNASORL/s每秒&79Agarwal,Alekh,SarahBird,MarkusCozowicz,LuongHoang,JohnLangford,StephenLee,JiajiLi,DanMelamed,GalOshri,andOswaldoRibas,“MakingContextualDecisionswithLowTechnicalDebt,”arXivpreprintarXiv:1606.03966,2016.Amodei,Dario,ChrisOlah,JacobSteinhardt,PaulChristiano,JohnSchulman,andDanMané,?ConcreteProblemsinAISafety,”arXivpreprintarXiv:1606.06565,2016.Ananthaswamy,Anil,“日:/en/solutions/autonomous-mobility學(xué)習(xí),第一卷。112,2023。Balduzzi,David,MartaGarnelo,YoramBachrach,WojciechCzarnecki,JulienPerolat,集,2019年。的?”汽車和司機(jī),2020年2月2018年12月10日。截至2023-/2019/08/learning-to-drive-beyond-pureimitation_26.html年9Bar-Hillel,Maya,andAvishaiMargalit,“HowViciousAreCyclesofIntransitiveChoice??理論與決策,卷。1988年24日。械協(xié)會,第64卷,第7期,2021年。Berner,Christopher,GregBrockman,BrookeChan,VickiCheung,PrzemysbawDabiak,ChristyDennison,DavidFarhi,QuirinFischer,ShariqHashme,andChrisHesse,“Dota2withLargeScaleDeepReinforcementLearning,”arXivpreprintarXiv:1912.06680,2019.Biggio,Battista和FabioRoli,“WildPatterns:TenYearsAftertheRiseofAdversarialMachineLearning”,PatternRecognition,Vol.84,2018年12月1日?;仡櫋保?020年先進(jìn)電氣和通信技術(shù)國際研討會(ISAECT)會議記錄,2020年。對抗示例”,2019年IEEE嵌入式軟件和系統(tǒng)國際會議(ICESS)論文集,2019年。Borne,KyleDavid,“Targe強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)80ComparisonBetweenGoandChess”,ProceedingsofThirdAustralianandNewZealandConferenceonIntelligentInformationSystems,1995。AssociationforComputingMachinery,Vol.42,不。1999年11月。至2023年10卡森,蒂莫西N,DanielFriedChen,Minmin,AlexBeutel,PaulCovington,SagarJa屆ACMWeb搜索和數(shù)據(jù)挖掘國際會議論文集,2019年。量化泛化”,2019年國際機(jī)器學(xué)習(xí)會議論文集GoogleResearch博客,2018年6月4日。截至Tops,”AdvancesinNeuralInformationProcessingSystems,Vol.33,2020年。引用81達(dá)斯,A.,V.Shroff,A.Jain和G.Sharma,“KnowledgeTransferBetweenSimilarAtaGamesUsingDeepQ-NetworkstoImprovePerformance,”Proceedingsofthe12thInternationalConferenceonComputingCommunicationandNetworkingTechnologies(ICCCNT),2021。雜性”,未發(fā)表的手稿,2022年4月。Demontis,Ambra,MauraPintor,LucaDemetrio,KathrinGrosse,Hsiao-YingLin,ChengfangFang,BattistaBiggio和FabioRoli,“ASurveyonReinforcementLearningSecuritywithApplicationtoAutonomousDriving”,arXiv預(yù)印本arXiv:2212.06123,2022。Desislavov,Radosvet,F(xiàn)ernandoMartínez-Plumed和JoséHernán-Orallo,“深度學(xué)習(xí)推理中的計(jì)算和能耗趨勢”,arXiv預(yù)印本arXiv:2109.05472,2021。董浩、丁子瀚和張上航,深度強(qiáng)化學(xué)習(xí):基礎(chǔ)知識、研究與應(yīng)用,Springer,2020年。技術(shù)、電子和微電子國際會議(MIPRO),2018年。Du,SimonS.,沙姆灣Kakade,RuosongWang,andLinF.楊,“一個(gè)好的表示是否足以實(shí)現(xiàn)樣Dulac-Arnold,Gabriel,NirLevine,DanielJ.Mankowitz,JerryLi,CosminPaduraru,SvenGowal,andToddHester,“ChallengesofReal-WorldReinforcementLearning:Definitions,BenchmarksandAnalysis,”MachineLearning,Vol.110,不。2021年9月。“注意義務(wù)”,牛津參考條目,牛津大學(xué)出版社,未注明日期。Faul,AnitaC.,機(jī)器學(xué)習(xí)簡明介紹,CRC出版社,2019年。Fedus,William,JeffDean,andBarretZoph,“AReviewofSparseExpertModelsinDeepLearning,”arXivpreprintarXiv:2209.01667,2022.9/手表?v=zR11FLZ-O9M&list=PLrAXtmErZgOeiKm4sgNOknGvNjby9efdf/info2040/2015/10/21/Garcia,Javier,andFernandoFernández,“AComprehensiveSurveyonSafeReinforcementLearning,”JournalofMachineLearningResearch,Vol.號162015年1月。Gleave,Adam,MichaelDennis,CodyWild,NeelKant,SergeyLevine,andStuartRussell,“AdversarialPolicies,”webpage,GitHub,undated.截至2023年10月6日:https://adversarialpolicies.github.io/強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)82AIExceedHumanPerformance?來自AI專家的證據(jù),“人工智能研究雜志,第62卷,2018年。遭遇訓(xùn)練Waymo的自動(dòng)駕駛技術(shù)”,Waypoint博客,Waymo,2020年2月6日。截至2023年10Hailu,G.,和G.Sommer,“OnAmountandQualProceedingsofthe1999IEEEInternationalConferenceonSystems,Man,andCybernetics(1999年IEEE系統(tǒng)、人和控制論國際會議論文集)。99CH37028),Vol.722,1999年。10日。TheVerge,2021年7月月7日b。18)上發(fā)表的論文,新奧爾良,路易斯安那州,2018年2月2日至7日。ComputingMachinery,Vol.65,不。2022年4月4日1012004年12月伊拉希島M.Usama,J.Qadir,M.聯(lián)合Janjua,A.Al-Fuqaha,D.T.Hoang,和D.月inNeuralInformationProcessingSystems,Vol.32,2019.引用83MachineLearningandSystems,Vol.3,2021。卷。號111,2021年3月11日。RideswithWaymo#54,2021年5月12日。preprintarXiv:1302.7008,2013.智能雜志,卷。40,不。2019年1月。道最好的,”2022年3月18日。調(diào)查”,信息融合,卷。2022年9月8inStrategicGames,AssociationfortheAdvancementofArtificialIntelligence,2017.仿學(xué)習(xí)技術(shù)調(diào)查”,IEEE智能交通系統(tǒng)學(xué)報(bào),第11卷。23,不。2022年9月9日。preprintarXiv:2202.11296,2022./LiangZhang和DavidBlancett,現(xiàn)代戰(zhàn)爭的聯(lián)合全域指揮與控制:識別和開發(fā)人工智能應(yīng)用的分析框架,蘭德公司,RR-A4408/1-AF,2020。截至強(qiáng)化學(xué)習(xí)AI系統(tǒng)的風(fēng)險(xiǎn)評估:超越技術(shù)84Liu,Y.,C.Wu,X.Xi,Y.Li,G.曹,W.Cao和H.Wang,“AdversarialProceedingsofthe2022InternationalJointConferenceonNeuralNetworks(IJCNN),2022。跡,176B參數(shù)語言模型”,arXiv預(yù)印本arXiv:2211.02001,2022。SurveyonModel-BasedReinforcementLearning,”eprintarXiv:2206.0932,June2022.2023年10Mayer,LaurenA.,JonSchmid,SydneyLitterer和MarjoryS.Blumenthal,一種結(jié)構(gòu)化的A701-1,2021年。截至2023年10月3日:/en-us/ai/PlacementMethodologyforFastChipDesign,”Nature,Vol.594號,不。7862,2021。解釋。解釋機(jī)器學(xué)習(xí)模型檢測短聊天GPT生成的文本的決策,“arXiv預(yù)印本arXiv:2301.13852,2023。2023年10月3日:人工通用智能雜志,第11卷,第2號,2020年3月2日。Advances”,MachineLearningandKnowledgeExtraction,Vol.號42022年1月1日年。引用85Nowé,Ann,PeterVrancx,andYann-Micha?lDeHauwere,“GameTheoryandMulti-AgentReinforcementLearning,”inM.Wie應(yīng),學(xué)習(xí)和優(yōu)化,卷。12,Springer,2012.https://www.nuro.ai/careers/frontier/Onta?ón,Santiago,GabrielSynnaeve,AlbertoUriarte,F(xiàn)lorianRichoux,DavidChurchill,andMikePreuss,“RTSAIProblemsandTechniques,”inNewtonLee,ed.計(jì)算機(jī)圖形和游戲百科全書,S

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論