強化學習成為人工智能的主流_第1頁
強化學習成為人工智能的主流_第2頁
強化學習成為人工智能的主流_第3頁
強化學習成為人工智能的主流_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、強化學習成為人工智能的主流人工智能即將成為主流的革命性技術,而開發(fā)人員現(xiàn)在已擁有了可以開始使用這種技術的工具。2018年人工智能領域最值得關注的趨勢之一,就是強化學習的逐漸成熟,已成為構建和訓練統(tǒng)計模型以投入實際使用的主流方法。正如我在2018年年初時所談到的,強化學習在企業(yè)人工智能項目中扮演著越來越重要的角色。該技術已經(jīng)突破了傳統(tǒng)的機器人、游戲和仿真應用領域,在IT運營管理、能源、醫(yī)療保健、商業(yè)、運輸和金融等領域的前沿人工智能應用中也大展身手。它甚至成為社交媒體、自然語言處理、機器翻譯、計算機視覺、數(shù)字助理等新一代人工智能解決方案不可或缺的組成部分。為了加強強化學習算法在企業(yè)人工智能中的應用

2、,開發(fā)人員需要用到在這些項目上進行協(xié)作以及將得到的模型部署到生產(chǎn)環(huán)境中的工具。在這方面,業(yè)界最近出現(xiàn)了一些重要的應用案例說明,提供給強化學習人工智能計劃的開源工作臺、庫和Devops流水線已經(jīng)成熟。迭代強化學習開發(fā)工作臺不斷發(fā)展的強化學習正悄悄地滲透到我們的生活中通過我們認為理所當然的主流應用(比如多人在線游戲),或者通過非常前衛(wèi)的應用(比如機器人),以至于我們甚至意識不到該技術正在悄悄地滲透到主流中。強化學習代理已經(jīng)達到了能夠像超人那樣玩游戲,例如開放人工智能五子棋比賽。開發(fā)人員可以利用越來越多的開源強化學習框架來進行游戲和機器人開發(fā),這包括OpenAI的Roboschool、Unity技術

3、公司的機器學習代理,以及英特爾的Nervana教練。還可以使用能夠應對各種挑戰(zhàn)的開源強化學習框架。例如,谷歌的TensorFlow代理支持高效的分批強化學習工作流,UCBerkeley的RayRLLib提供了一個靈活的基于任務的編程模型,用于在TensorFlow和PyTorch中開發(fā)基于代理的強化學習應用程序。很多人工智能開發(fā)人員的建模工具包所缺少的是一個快速的迭代強化學習工作臺,它集成了現(xiàn)有的人工智能框架,并且能解決很多建模和訓練難題。對此,谷歌最近發(fā)布了Dopamine,這是一個基于TensorFlow的框架和代碼庫,用于在Python2.7中快速迭代強化學習算法原型。Dopamine在

4、GitHub的“最酷開源項目”內(nèi)部排名中名列前茅,它支持以下核心功能:根據(jù)新的研究思路來開發(fā)強化學習實驗:Dopamine包括緊湊的、詳細說明的Python代碼,其重點放在Arcade學習環(huán)境(一種成熟而且容易理解的基準方法)上,以及在單個GPU境中執(zhí)行的四個基于價值的代理:DeepQ-Networks(DQN、C51、一個精心設計的Rainbow代理的簡化版本,以及ImplicitQuantile網(wǎng)絡代理。從強化學習實驗中獲得可再現(xiàn)的結果:Dopamine包括完整的測試套件,并且為利用Arcade學習環(huán)境實現(xiàn)了標準的經(jīng)瞬框架。根據(jù)已建立的訓練方法對強化學習結果進行基準測試:Dopamine包

5、括由Arcade學習環(huán)境支持的、在60個游戲中所提供的4個代理的所有訓練數(shù)據(jù),可作為使用我們的框架所訓練的代理的Python文件,也可以作為JSONK據(jù)文件,以便與其他框架下訓練過的代理進行比較,還包括一個網(wǎng)站,用于為所有提供的代理在所有60個游戲中進行可視化訓練。為強化學習開發(fā)團隊使用框架時提供加速器:Dopamine包括一組colabs,闡明怎樣在框架中創(chuàng)建和訓練強化學習代理,以及怎樣進行基準測試。它還包括可下載的訓練深度網(wǎng)絡、原始統(tǒng)計日志和用于Tensorboard繪圖的Tensorflow事件文件。模塊化強化學習代理開發(fā)庫強化學習的進展依賴于構建能夠在各種真實場景中自主采取最佳行動的智

6、能代理。人工智能研究人員正在不斷推動智能和分布式代理(由訓練過的強化學習模型提供支持)的發(fā)展。例如,UCBerkeley最近發(fā)表了關于分布式代理環(huán)境中加速循環(huán)迭代強化學習的研究結果。這涉及到一次訓練一個代理模塊,而其他代理模塊遵循簡單的腳本行為,然后環(huán)境“用神經(jīng)網(wǎng)絡策略替換另一個模塊的腳本組件,在先前訓練過的模塊保持不變的情況下繼續(xù)訓練?!睘榱思铀購娀瘜W習優(yōu)化智能人工智能機器人的開發(fā),谷歌的DeepMind小組最近開源了TRFL它是用于在TensorFlow中開發(fā)強化學習代理的一個新構件庫。它包括算法、損失函數(shù)和其他強化學習操作,DeepMind的研究工程團隊已經(jīng)在內(nèi)部成功地將其應用于強化學習

7、代理(例如,DQN深層確定性策略梯度(DDPG和重要性加權參與者學習器體系結構)。使用一致的API,這些構建模塊可以用來構建新的強化學習代理。DeepMind還開源了完整的強化學習代理實現(xiàn),包括表示價值和策略的深度網(wǎng)絡計算圖等組件,以及環(huán)境的學習模型、偽獎勵函數(shù)和重放系統(tǒng)等。這樣做是為了幫助強化學習社區(qū)更快地識別和修復這些代理中的漏洞,同時提高使用這些代理的強化學習項目在社區(qū)中的結果可再現(xiàn)性。DeepMind將繼續(xù)維護、添加新功能,并接收社區(qū)對TRFL庫的貢獻。端到端強化學習Devops流水線工具強化學習建模通常是脫離生產(chǎn)應用完成的,只有經(jīng)過訓練的模型在模擬器中經(jīng)過驗證后才被提供給操作環(huán)境。隨

8、著強化學習成為更多人工智能應用的基礎,建??蚣軕粩喟l(fā)展才能處理更多的實時在線應用的內(nèi)嵌訓練。與其他人工智能方法一樣,越來越多的強化學習項目集成到了驅動數(shù)據(jù)準備、建模、訓練和其他流水線工作負載的Devops流水線中??紤]到這一點,臉書最近開源編輯了強化學習工具包Horizon,它被設計為部署到人工智能Devops流水線中??梢酝ㄟ^GitHub下載開源Horizon代碼。Horizon結合了強化學習技術,臉書一直在運營中使用該技術開發(fā)可擴展的生產(chǎn)應用程序。例如,這一社交媒體巨頭將強化學習用于生產(chǎn)人工智能應用程序,預測用戶最可能對哪些通知作出響應,個性化臉書的虛擬消息助理的建議,以及根據(jù)用戶的位置

9、或者他們的無線信號強度來決定要傳輸給用戶的視頻質量等級。Horizon是一個端到端的流水線,用于以強化學習為中心的人工智能項目,這些項目的數(shù)據(jù)集非常龐大,來自目標應用程序的反饋循環(huán)很慢,并且由于涉及到生產(chǎn)應用程序,因此強化學習實驗失敗的商業(yè)風險很高。它支持在高維離散和連續(xù)動作空間中的強化學習建模。它包括離散動作空間具有競爭結構的DQN的實現(xiàn),以及連續(xù)動作空間DDPG勺實現(xiàn),它包含自動化工作流程,用于在多GPU布式環(huán)境中訓練流行的深度強化學習算法,以及用于在單機上進行CPUGPU多GPLWI練。它包括用于數(shù)據(jù)預處理、特征規(guī)范化、分布式訓練和優(yōu)化服務的實用工具。為滿足臉書的規(guī)模要求,Horizon

10、被設計成支持強化學習建模和應用程序訓練,其數(shù)據(jù)集可能具有數(shù)百甚至數(shù)千種特征類型,每一特征類型都具有獨特的統(tǒng)計分布。它使用Spark進行數(shù)據(jù)準備和降維,使用PyTorch框架進行強化學習建模和訓練,使用Caffe2人工智能框架和開放神經(jīng)網(wǎng)絡交換(OpenNeuralNetworkExchange)進行強化學習建模,以便應用于數(shù)千種生產(chǎn)環(huán)境中。為了減少將次優(yōu)強化學習模型部署到生產(chǎn)應用程序中的風險,Horizon采用了一種稱為“反事實策略評估”的功能,該功能支持數(shù)據(jù)科學家在部署經(jīng)過訓練的模型之前離線評估強化學習算法的性能。如果沒有這種自動化功能,開發(fā)人員需要進行昂貴而且耗時的A/B測試,才能在無數(shù)的

11、選擇中搜索出最優(yōu)強化學習模型和超參數(shù)。在強化學雪訓練工作流程中,Horizon使用逐步重要抽樣估計器、逐步直接抽樣估計器、逐步雙穩(wěn)健估計器和順序雙穩(wěn)健估計器等反事實策略評估方法對訓練過的模型進行評分。為了支持對強化學習算法的性能進行測試,臉書已經(jīng)將Horizon與流行的基準測試庫OpenAIGym的Cartpole和Pendulum環(huán)境以及定制的Gridworld環(huán)境集成在一起。Horizon包括用于對數(shù)據(jù)預處理、特征規(guī)范化和其他Horizon強化學習建模、訓練和服務特性進行單元、集成和性能測試的工具。它評估具有不同配置的離散動作DQN參數(shù)動作DQNffiDDPG型一一快如使用Q學習與SARSA1行對比,有或者沒有雙重Q學習等,以確保強化學習模型的魯棒性和正確性。它對目標平臺的預構建Docker鏡像執(zhí)行集成測試??梢圆捎眠@些工具來開始實際操作學習如果你是人工智能開發(fā)人員,可能對這里列出的很多算法還不太熟悉。然而,你可能已經(jīng)開始將強化學習引入到了開發(fā)項目中,至少嘗試使用了開源工具。2019年,我們將看到,人工智能行業(yè)會把應用最廣泛的強化學習框架整

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論