版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
人工智能技術介紹PPT人工智能技術概述第一節(jié)深度學習與國際象棋第二節(jié)智能問答第三節(jié)深度學習與智能圍棋第四節(jié)更多人機交互大戰(zhàn)第三節(jié)目錄content人工智能技術概述第一節(jié)自動化技術發(fā)展趨勢自動化技術自動化技術是一門涉及學科較多、應用廣泛的綜合性系統(tǒng)工程,其對象為大規(guī)模、復雜的工程和非工程系統(tǒng)廣義內涵包括三方面的含義:代替人體力勞動的機器人;代替或輔助人腦力勞動的程序;對人機進行協(xié)調、管理、控制和優(yōu)化的智能系統(tǒng)研究內容包括自動控制和信息處理兩方面,應用包括過程自動化、機械制造自動化、管理自動化和家庭自動化等不斷提高傳統(tǒng)行業(yè)的技術水平和市場競爭力,并與光電子、計算機、信息技術等融合和創(chuàng)新,不斷創(chuàng)造和形成新的經濟增長點和管理戰(zhàn)略哲理智能科學發(fā)展趨勢智能科學智能屬于哲學問題,智能科學研究智能的本質和實現技術,是由腦科學、認知科學、人工智能等綜合形成的交叉學科腦科學從分子水平、神經回路、行為實驗研究自然智能機理,目的在于闡明人類大腦的結構與功能,以及人類行為與心理活動的物質基礎認知科學是研究人類感知、學習、記憶、思維、意識等人腦心智活動過程的科學,是心理學、信息學、神經科學和自然哲學的交叉人工智能是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學自動化技術智能科學人工智能技術在科學發(fā)展過程中,在那些已經建立起來的學科之間,還存在著一些被人忽視的無人區(qū),正是從這些領域里可能得到最大的收獲?!Z伯特·維納《控制論》,1948人工智能技術的挑戰(zhàn)人-信息人-機器人-環(huán)境科技進步改變著我們的生活,但卻使人們在信息、機器高度密集的環(huán)境中,變得更為被動和無奈。信息越來越多,甚至成為垃圾,對信息的有效組織和挖掘極度匱乏,人與信息的共生環(huán)境尚未建立。簡單的體力勞動已可以被機器所替代,但腦力勞動,特別是智力尚未完全轉移和擴展到機器上。需要更好地尊重、理解并滿足人的各種需要,以人為本,促進人與物理時空環(huán)境的和諧發(fā)展。人工智能技術發(fā)展的特征人工智能由人類設計,為人類服務,本質為計算,基礎為數據。必須體現服務人類的特點,而不應該傷害人類,特別是不應該有目的性地做出傷害人類的行為。以人為本人工智能技術發(fā)展的特征環(huán)境增強人工智能能感知環(huán)境,能產生反應,能與人交互,能與人互補。能夠幫助人類做人類不擅長、不喜歡但機器能夠完成的工作,而人類則適合于去做更需要創(chuàng)造性、洞察力、想象力的工作。人工智能技術發(fā)展的特征學習適應人工智能有適應特性,有學習能力,有演化迭代,有連接擴展。人工智能可以應對不斷變化的現實環(huán)境,從而使人工智能系統(tǒng)在各行各業(yè)產生豐富的應用。。人機博弈棋類游戲是人類智慧的結晶,自古以來就有著廣泛的愛好者群體,也產生了一代又一代的偶像級棋王。選擇棋類游戲作為人工智能研究的對象,不僅是因為棋類游戲規(guī)則清晰,勝負判斷一目了然,而且也更容易在愛好者群體中產生共鳴,因此人工智能研究者前赴后繼投身到對不同棋類游戲的挑戰(zhàn)中?;迎h(huán)節(jié):人機小挑戰(zhàn)機器學習之父
機器博弈的水平實際上代表了當時計算機體系架構與計算機科學的最高水平。早在1962年,就職于IBM的阿瑟?薩繆爾就在內存僅為32k的IBM7090晶體管計算機上開發(fā)出了西洋跳棋(Checkers)AI程序,并擊敗了當時全美最強的西洋棋選手之一的羅伯特?尼雷,引起了轟動。值得一提的是,薩繆爾所研制的下棋程序是世界上第一個有自主學習功能的游戲程序,因此他也被后人稱之為“機器學習之父”。阿瑟?薩繆爾里程碑事件1997年IBM公司“更深的藍”(DeeperBlue)戰(zhàn)勝世界國際象棋棋王卡斯帕羅夫,這是基于知識規(guī)則引擎和強大計算機硬件的人工智能系統(tǒng)的勝利2011年IBM公司的問答機器人“沃森”在美國智力問答競賽節(jié)目中大勝人類冠軍,這是基于自然語言理解和知識圖譜的人工智能系統(tǒng)的勝利2016年谷歌公司AlphaGo戰(zhàn)勝了圍棋世界冠軍李世石,2017年初AlphaGo升級版Master橫掃全球60位頂尖高手,這是基于蒙特卡洛樹搜索和深度學習的人工智能系統(tǒng)的勝利真正引起中國人廣泛關注的機器博弈史上三個里程碑事件是:PART2深度學習與國際象棋機器學習人機對抗歷史深藍成功秘訣國際象棋國際象棋起源于亞洲,后由阿拉伯人傳入歐洲,成為國際通行棋種,也是一項受到廣泛喜愛的智力競技運動,據稱全世界有多達三億的國際象棋愛好者,甚至在1924年曾一度被列為奧林匹克運動會正式比賽項目。國際象棋棋盤由橫縱各8格、顏色一深一淺交錯排列的64個小方格組成,棋子共32個,分為黑白兩方,每方各16個。和8×8的西洋跳棋Checkers相比,國際象棋的狀態(tài)復雜度(指從初始局面出發(fā),產生的所有合法局面的總和)從1021上升到1046,博弈樹復雜度(指從初始局面開始,其最小搜索樹的所有葉子節(jié)點的總和)也從1031上升到10123。19581973198319871988198919911993人機對抗歷史從1958年開始,人工智能研究者對國際象棋的挑戰(zhàn)持續(xù)了半個多世紀:1958年名為“思考”
IBM704成為第一臺能同人下國際象棋的計算機,處理速度每秒200步;1973年B.Slate和Atkin開發(fā)了國際象棋軟件“CHESS4.0”,成為未來國際象棋AI程序基礎;1983年,KenThompson開發(fā)了國際象棋硬件“BELLE”,達到大師水平;1987年,美國卡內基梅隆大學設計的國際象棋計算機程序“深思”(DeepThought)以每秒鐘75萬步的處理速度露面,其水平相當于擁有2450國際等級分的棋手;1988年,“深思”擊敗丹麥特級大師拉爾森;1989年,“深思”已經有6臺信息處理器,每秒處理速度達到200萬步,但還是在與世界棋王卡斯帕羅夫的人機大戰(zhàn)中以0比2敗北;1991年,由CHESSBASE公司研制的國際象棋計算機程序“弗里茨”(Fretz)問世;1993年,“深思”二代擊敗了丹麥國家隊,并在與前女子世界冠軍小波爾加的對抗中獲勝。深藍一戰(zhàn)卡斯帕羅夫
1995年,IBM公司設計了全球第一臺采用并行化系統(tǒng)、以RS/6000SP為基礎、集成了總計256塊處理器以及480顆專門為國際象棋對弈設計的VLSI加速芯片的國際象棋計算機“深藍”,重達1270公斤。
1996年2月10日至17日,為了紀念首臺通用計算機ENIAC誕生50周年,“深藍”在美國費城向國際象棋世界冠軍、世界排名第一的加里?卡斯帕羅夫發(fā)起了挑戰(zhàn)。
在6局的人機對弈比賽中,“深藍”并未占到什么便宜,棋王卡斯帕羅夫以4比2的總比分輕松獲勝,但“深藍”贏得了六場比賽中的一場勝利,這也是計算機第一次在與頂級選手的對弈中取得勝局?!吧钏{”升級改造
第一次對決落敗之后,IBM對“深藍”計算機進行了升級,97型深藍取名“更深的藍”(DeeperBlue)。團隊還豐富了象棋加速芯片中的象棋知識,使它能夠識別不同的棋局,并從眾多可能性中找出最佳行棋方案?!案畹乃{”每秒可檢索1億到2億個棋局,系統(tǒng)能夠搜尋和估算出當前局面往后的12步行棋方案,最多可達20步,而人類棋手的極限是10步。即使按照一盤棋平均走80步,每步棋可能的落子位置為35個計算,其狀態(tài)復雜度和博弈樹復雜度也遠非超級計算機所能窮舉,為了在合理的時間內完成走棋任務,必須要進行剪枝搜索。
運算能力“更深的藍”(DeeperBlue)運算速度為每秒2億步棋,計算能力為每秒113.8億次浮點運算,是1996年版本的2倍,其運算能力在當時的全球超級計算機中也能排在第259位。剪枝搜索象棋知識“更深的藍”出師告捷
1997年5月,IBM公司再次邀請加里?卡斯帕羅夫到美國紐約曼哈頓進行第二次人機大戰(zhàn),同樣是6盤棋制比賽。
在前5局里,卡斯帕羅夫為了避免在計算力方面用人腦與“更深的藍”進行直接較量,他采取了獨特的行棋策略來對付“更深的藍”,但是這個奇招并沒有取得明顯的效果,“更深的藍”總是能夠憑借準確無誤的局面判斷和精確的計算給出最強的應手。
最終前五局雙方2.5對2.5打平,尤其是第三、第四、第五局連續(xù)三場和局,卡斯帕羅夫的助手看見他坐在房間的角落里,雙手捂面,仿佛已經失去了斗志。在最后一局中,卡斯帕羅夫失去耐心,回到了“正常”的下法,在第七回合就犯了一個不可挽回的低級錯誤,局勢急轉直下,最終在第六盤決勝局中僅僅走了19步就向“更深的藍”俯首稱臣。
最終卡斯帕羅夫1勝2負3平,以2.5比3.5的總比分輸給“更深的藍”。“更深的藍”贏得了這場備受世人矚目的人機大戰(zhàn),也標志著國際象棋近2000年的發(fā)展歷史走向了新時代。人機博弈勝負已明“深藍”并不是終結,卡斯帕羅夫也沒有服氣。1999年,“弗里茨”升級為“更弗里茨”(DeepFritz),并在2001年擊敗了卡斯帕羅夫。
當今國際象棋男子等級分排名最高的選手是出生于1990年的挪威特級大師卡爾森(MagnusCarlsen),他的等級分是2863分,而至少有10款開源國際象棋引擎等級分達到了3000分以上。
人與機器的國際象棋之爭已勝負分明,國際象棋領域的人機博弈也畫上了句號,取而代之的是2010年開始舉辦的機機博弈——國際象棋引擎競賽TCEC(ThoresenChessEngineCompetition)。加速芯片:“深藍”的成功秘訣“深藍”計算機在硬件上將通用計算機處理器與象棋加速芯片相結合,采用混合決策的方法,即在通用處理器上執(zhí)行運算分解任務,交給象棋加速芯片并行處理復雜的棋步自動推理,然后將推理得到的可能行棋方案結果返回通用處理器,最后由通用處理器決策出最終的行棋方案。
97型深藍與1996年相比,運算速度差不多提高了兩倍,象棋加速芯片的升級功不可沒。升級后的象棋加速芯片能夠從棋局中抽取更多的特征,并在有限的時間內計算出當前盤面往后12步甚至20步的行棋方案,從而讓“深藍”更準確地評估盤面整體局勢。知識規(guī)則引擎:“深藍”的成功秘訣“深藍”在軟件設計上采用了超大規(guī)模知識庫結合優(yōu)化搜索的方法。一方面,“深藍”存儲了國際象棋100多年來70萬份國際特級大師的棋譜,利用知識庫在開局和殘局階段節(jié)省處理時間并得出更合理的行棋方案。
另一方面,“深藍”采用Alpha-Beta剪枝搜索算法和基于規(guī)則的方法對棋局進行評價,通過縮小搜索空間的上界和下界提高搜索效率,同時根據棋子的重要程度、棋子的位置、棋子對的關系等特征對棋局進行更有效的評價。剪枝搜索算法示意圖PART3智力問答Watson自然語言處理知識圖譜自主學習Watson認知計算系統(tǒng)平臺問世在“深藍”之后,IBM公司又選擇了一個新的領域挑戰(zhàn)人類極限——DeepQA,不僅僅把DeepQA項目看成一個問答游戲系統(tǒng),而且將其稱之為認知計算系統(tǒng)平臺。認知計算被定義為一種全新的計算模式,它包含數據分析、自然語言處理和機器學習領域的大量技術創(chuàng)新,能夠幫助人類從大量非結構化數據中找出有用的答案。IBM公司對其寄予厚望,并用公司創(chuàng)始人Thomas?J?Watson的名字將這個平臺命名為Watson。如果說“深藍”只是在做非常大規(guī)模的計算,是人類數學能力的體現,那么Watson就是將機器學習、大規(guī)模并行計算、語義處理等領域整合在一個體系架構下來理解人類自然語言的嘗試。Watson問答系統(tǒng)能力解析理解(Understanding)與用戶進行交互,根據用戶問題通過自然語言理解技術分析包括結構化數據和圖文、音視頻、圖像等非結構化所有類型的數據,最終實現用戶提出問題的有效應答。推理(Reasoning)通過假設生成,透過數據揭示洞察、模式和關系,將散落在各處的知識片段連接起來進行推理、分析、對比、歸納、總結和論證,從而獲取深入的理解和決策的證據。學習(Learning)通過以證據為基礎的學習能力,從大數據中快速提取關鍵信息,像人類一樣學習和記憶這些知識,并可以通過專家訓練,在不斷與人的交互中通過經驗學習來獲取反饋,優(yōu)化模型。
交互(interacting)通過精細的個性化分析能力,獲得用戶的語義、情緒等信息,進一步利用文本分析與心理語言學模型對海量數據進行深入分析,掌握用戶個性特質,構建全方位用戶畫像,實現更加自然的互動交流。Watson研發(fā)團隊全面?zhèn)鋺?zhàn)IBM公司調動其全球研發(fā)團隊參與到DeepQA項目中,這些團隊分工極為細致,讓它的各個團隊都發(fā)揮出最大的效率,目標就是在2011年的綜藝節(jié)目《危險邊緣》(QuizShowJeopardy!)中一鳴驚人。
問答搜索:以色列海法團隊負責深度開放域問答系統(tǒng)工程的搜索;
詞語連接:日本東京團隊負責在問答中將詞意和詞語連接;
數據支持:中國北京和上海團隊則負責以不同的資源給Watson提供數據支持
算法研究:此外還有專門研究算法的團隊和研究博弈下注策略的團隊等。團隊分工算法研究數據支持詞語連接問答搜索
Watson包括90臺IBM小型機服務器、360個Power750系列處理器以及IBM研發(fā)的DeepQA系統(tǒng)。Power750系列處理器是當時RISC(精簡指令集計算機)架構中最強的處理器,可以支持Watson在不超過3秒鐘的時間內得出可靠答案。
1.攝像頭拍照,OCR識別文字,得到文字文本。2.提取專有名詞基本信息,為其打上分類標簽。7.語音合成引擎將答案文本轉換成語音并播放出來,完成回答。3.提取文字結構信息,減少冗余搜索。4.
逐級分解每個問題,直到獲得所有子問題的答案。5.在自身知識圖譜中搜索并匯集特定實體的屬性信息,實現實體屬性完整勾畫。6.運用算法評估可能答案,可信度最高且超過51%,執(zhí)行器按下信號燈。文字識別實體抽取關系抽取問題分析答案生成判斷決策回答問題Watson的工作過程Watson挑戰(zhàn)成功最終比分成績?yōu)閃atson:$77147,Jennings:$24000,Rutter:$21600,比賽塵埃落定,人類已經和Watson相距太遠。
2011年2月14日-16日,做好一切準備的Watson開始了與人類的對決。Watson在第一輪中就奠定了領先地位,但在比賽中出現了幾個糟糕的回答。
比如一個美國城市類的問題,Watson的答案為多倫多。這道題的回答讓人大跌眼鏡,主要原因是Watson沒有為答案設置邊緣條件。
另一道回答奧利奧餅干是什么時候被推出的時候,幾秒前人類選手Jennings回答相同問題時剛被告知“20年”錯了,Watson還是繼續(xù)回答“1920年”。這是因為研究團隊為了簡化Watson的編程,讓它對其他玩家的回答“裝聾作啞”,結果吃了大虧。
Watson進入商業(yè)化運營階段如今,Watson已經被運用到超過35個國家的17個產業(yè)領域,超過7.7萬名開發(fā)者參與到WatsonDeveloperCloud平臺來實施他們的商業(yè)夢想,WatsonAPI的月調用量也已高達13億次,并仍在增長。借著這次Watson人機大戰(zhàn)的風頭,2012年IBM公司的小型機占據了全球將近2/3的市場份額,Watson也于2013年開始進入商業(yè)化運營,陸續(xù)推出的相關產品:Watson相關產品Watson發(fā)現顧問(WatsonDiscoveryAdvisor)Watson參與顧問(WatsonEngagementAdvisor)Watson分析(WatsonAnalytics)Watson探索(WatsonExplorer)Watson知識工作室(WatsonKnowledgeStudio)Watson腫瘤治療(WatsonforOncology)Watson臨床試驗匹配(WatsonforClinicalTrialMatching)Watson成功秘訣:自然語言處理“Jeopardy!”這類問答類節(jié)目,對于人類而言規(guī)則很簡單,但是對于Watson則意味著眾多挑戰(zhàn)。
它不僅要理解主持人提問的自然語言,還需要分析這些語言是否包含諷刺、雙關、修飾等,以正確判斷題目的意思,并評估各種答案的可能性,給出最后的選擇。
自然語言處理研究實現人與計算機之間用自然語言進行有效通信的各種理論和方法,是計算機科學與人工智能研究中的重要方向之一。
自然語言處理技術廣泛應用
Watson的成功得益于自然語言處理技術多年的積累,同樣也帶動了這個領域進入了一個更加快速的發(fā)展階段:2011年10月蘋果公司在發(fā)布新品時集成Siri智能語音助手,把聊天問答系統(tǒng)帶入了成熟商業(yè)化階段;2013年谷歌公司開源Word2Vec引爆深度學習這個新的熱點,機器翻譯、文檔摘要、關系抽取等任務不斷取得重要進展,從此人工智能走向第三次高潮。蘋果Siri智能語音助手谷歌公司開源Word2VecWatson成功秘訣:知識圖譜
知識圖譜本質上是一種基于圖的數據結構,由節(jié)點(Point)和邊(Edge)組成。在知識圖譜中,每個節(jié)點表示現實世界中存在的“實體”,每條邊為實體與實體之間的“關系”??梢哉f,知識圖譜就是把異構信息連接在一起而得到的一個關系網絡,提供了從“關系”的角度去分析問題的能力。
2012年谷歌公司推出知識圖譜搜索服務,國內互聯網公司百度和搜狗也分別推出“知心”和“知立方”來改進其搜索質量。在搜索引擎中引入知識圖譜大幅的地提升和優(yōu)化了搜索體驗。谷歌改進知識圖譜添加比較及過濾等新功能知識圖譜的廣泛應用知識圖譜也被廣泛應用于聊天機器人和問答系統(tǒng)中,用于輔助深度理解人類的語言和支持推理,并提升人機問答的用戶體驗。
此外,在金融、農業(yè)、電商、醫(yī)療健康、環(huán)境保護等垂直領域,知識圖譜同樣得到了廣泛的應用。知識圖譜問答系統(tǒng)金融農業(yè)電商醫(yī)療健康環(huán)保PART4圍棋AlphaGo機器學習蒙特卡洛樹搜索深度學習
圍棋復雜度增加8*8格國際象棋的狀態(tài)復雜度為1046,博弈樹復雜度為10123。19*19格的圍棋,其狀態(tài)復雜度已上升到10172,博弈樹復雜度則達到驚人的10360,因此也被視為人類在棋類人機對抗中最后的堡壘。國際象棋圍棋人機對抗的嘗試與探索
在很長一段時間里,靜態(tài)方法成了主流研究方向,中山大學化學系教授陳志行開發(fā)的圍棋博弈程序“手談”和開源軟件GNUGO在2003年以前能夠在9*9圍棋中達到人類5-7級水平。
2006年S.Gelly等人提出的UCT算法(UpperConfidenceBoundApplytoTree,上限置信區(qū)間算法),該算法在蒙特卡洛樹搜索中使用UCB公式解決了探索和利用的平衡,并采用隨機模擬對圍棋局面進行評價。該程序的勝率竟然比先前最先進的蒙特卡羅擴展算法高出了幾乎一倍,但它也僅能在9路圍棋中偶爾戰(zhàn)勝人類職業(yè)棋手,在19路圍棋中還遠遠不能與人類抗衡。靜態(tài)方法UCT算法陳志行手談AlphaGo橫空出世這是圍棋歷史上一次史無前例的突破,人工智能程序能在不讓子的情況下,第一次在完整的圍棋競技中擊敗專業(yè)選手。AlphaGo大戰(zhàn)樊麾2016年D.Silver等人在世界頂級科學雜志《Nature》發(fā)表文章,稱被谷歌公司收購的DeepMind團隊開發(fā)出AlphaGo在沒有任何讓子情況下,以5:0完勝歐洲圍棋冠軍、職業(yè)二段選手樊麾。AlphaGo系統(tǒng)簡介監(jiān)督、強化學習該系統(tǒng)通過對16萬局人類高手棋譜中的3000萬手盤面進行監(jiān)督學習和強化學習;策略、價值網絡使用策略網絡和估值網絡實現落子決策和局勢評估;蒙特卡洛算法通過與蒙特卡洛樹搜索算法結合,極大地改善了搜索決策的質量;
異步分布并行算法提出異步分布式并行算法,使其可運行于CPU/GPU集群上。系統(tǒng)AlphaGo所向披靡
2016年3月AlphaGo與李世石進行圍棋人機大戰(zhàn),以4比1的總比分獲勝;
2016年末2017年初,它以Master為帳號與中日韓數十位圍棋高手快棋對決,連續(xù)60局全勝。
2017年5月在中國烏鎮(zhèn)圍棋峰會上,它與柯潔對戰(zhàn),以3比0的總比分獲勝。圍棋界公認AlphaGo的棋力已經超過人類職業(yè)圍棋頂尖水平,其最新版本自我估分在4500分左右,實力水平大約在13段左右,人類選手中已然無敵。AlphaGo大戰(zhàn)李世石Master大戰(zhàn)聶衛(wèi)平AlphaGo大戰(zhàn)柯潔AlphaGo新技能AlphaGo通過學習大量棋譜,以及更大規(guī)模的自我對弈完成學習,這種深度學習的能力使得它能不斷學習進化。AlphaGo發(fā)現了人類沒有的圍棋著法,初步展示了機器發(fā)現“新事物”的創(chuàng)造性。這意味著它的增強學習算法可以從大數據中發(fā)現新的規(guī)律和知識,為人類擴展自己的知識體系開辟了新的認知通道。AlphaGo展現了曾被認為是人類獨有、計算機難以做到的“棋感直覺”這些技術使得人工智能程序初步具備了既可以考慮局部得失,又可以考慮全局態(tài)勢的能力,從而具備了一種全局性“直覺”能力。深度學習發(fā)現新著法棋感知覺新技能AlphaGoZero青出于藍
學習策略整合策略、價值網絡舍棄快速走子網絡引入殘差結構2.舍棄快速走子網絡,不再進行隨機模擬,而是完全使用神經網絡得到的結果替換隨機模擬,從而在提升學習速率的同時,增強神經網絡估值的準確性。1.AlphaGoZero將策略網絡和價值網絡整合在一起,使用純粹的深度強化學習方法進行端到端的自我對弈學習,神經網絡的權值完全從隨機初始化開始,使用強化學習進行自我博弈和提升。3.AlphaGoZero神經網絡中還引入了殘差結構,可使用更深的神經網絡進行特征表征提取,從而能在更加復雜的棋盤局面中進行學習。AlphaGoZero青出于藍
AlphaGo最高需要1920塊CPU和280塊GPU訓練,AlphaGoLee用了176塊GPU和48塊TPU,而AlphaGoZero僅僅使用了單機4塊TPU便完成了訓練任務。硬件結構
AlphaGoZero僅用3天的時間便達到了AlphaGoLee的水平,21天后達到AlphaGoMaster的水平。AlphaGoZero成功證明了在沒有人類指導和經驗的前提下,深度強化學習方法在圍棋領域里仍然能夠出色的完成指定的任務,甚至于比有人類經驗知識指導時,完成的更加出色。AlphaGo成功秘訣:蒙特卡洛樹搜索在機器博弈中,每步行棋方案的運算時間、堆??臻g都是有限的,只能給出局部最優(yōu)解,因此2006年提出的蒙特卡洛樹搜索就成為隨機搜索算法的首選。應用意義它結合了隨機模擬的一般性和樹搜索的準確性,近年來在圍棋等完全信息博弈、多人博弈及隨機類博弈難題上取得了成功應用。理論上,蒙特卡洛樹搜索可被用在以{狀態(tài),行動}定義并用模擬預測輸出結果的任何領域。
它結合了廣度優(yōu)先搜索和深度優(yōu)先搜索,會較好地集中到“更值得搜索的變化”(雖然不一定準確),同時可以給出一個同樣不怎么準確的全局評估結果,最后隨著搜索樹的自動生長,可以保證在足夠大的運算能力和足夠長的時間后收斂到完美解。AlphaGo成功秘訣:強化學習目標:從一個已經標記的訓練集中進行學習。機器學習有監(jiān)督學習SupervisedLearning無監(jiān)督學習UnsupervisedLearning強化學習ReinforcementLearning目標:從一堆未標記樣本中發(fā)現隱藏的結構。目標:在當前行動和未來狀態(tài)中獲得最大回報。在邊獲得樣例邊學習的過程中,不斷迭代“在當前模型的情況下,如何選擇下一步的行動才對完善當前的模型最有利”的過程直到模型收斂。強化學習的廣泛應用阿里巴巴公司在雙11推薦場景中,使用了深度強化學習與自適應在線學習建立決策引擎,對海量用戶行為以及百億級商品特征進行實時分析,提高人和商品的配對效率,將手機用戶點擊率提升了10-20%。無人駕駛廣告投放強化學習在機器博弈以外還有很多應用,例如無人駕駛和廣告投放等。
01人機大戰(zhàn):深度學習算法的標志性成果最復雜(注:狀態(tài)復雜度與博弈復雜度)的智力游戲:看似簡單,實為復雜,具有10的170次方狀態(tài)復雜空間涉及邏輯推理,形象思維,優(yōu)化選擇等多種人類智能(注:國際象棋只有邏輯推理,沒有形象思維)02接近人類公認是人工智能領域長期以來的重大挑戰(zhàn)03標志性國際學術界曾經普遍認為解決圍棋問題需要15-20年時間04挑戰(zhàn)為什么做圍棋AI?創(chuàng)新性投入力度業(yè)內龍頭
目前技術優(yōu)勢:起步早,算法新,技術強,資源雄厚最近一年專注于強化學習研究
擬于近期公布新論文和數據,并從此退出圍棋AI領域GoogleDeepmind簡介傳統(tǒng)圍棋AI算法—MCTS(蒙特卡洛樹搜索)雙人一人一步雙方信息完備(棋類—完全信息,牌類—不完全信息)零和動態(tài)博弈問題計算機下棋棋類要素的數字化——恰當的數據結構棋盤、棋子、棋規(guī)(著法規(guī)則,勝負規(guī)則)用著法推演局面——博弈樹展開從有利局面選擇當前著法——博弈搜索局面評估——指標定義與綜合展開深度為4的博弈樹本方本方本方對方對方Ply1Ply3Ply4Ply2Ply0根節(jié)點為當前局面葉節(jié)點為展開終點雙方輪流出手偶數層為本方奇數層為對方圍棋落子蒙特卡洛數學模型及評估圍棋對弈過程可以看做一個馬爾科夫過程:五元組:{T,S,A(i),P(·|i,a),r(i,a)}T:決策時刻S:狀態(tài)空間,S={i}A(i):可行動集合(可落子點)P(·|i,a):狀態(tài)i下選擇行動a的概率r(i,a):狀態(tài)i下選擇行動a后課獲得的收益從當前局面的所有可落子點中隨機(或者給勝率高的點分配更多的計算力)選擇一個點落子重復以上過程直到勝負可判斷為止經多次模擬后(計算越多越精確),選擇勝率最大的點落子傳統(tǒng)圍棋AI算法—數學模型MCTS(蒙特卡洛樹搜索)基本思想與特點:-將可能出現的狀態(tài)轉移過程用狀態(tài)樹表示-從初始狀態(tài)開始重復抽樣,逐步擴展樹中的節(jié)點-某個狀態(tài)再次被訪問時,可以利用已有的結果,提高了效率-在抽樣過程中可以隨時得到行為的評價選擇-從根節(jié)點出發(fā)自上而下地選擇一個落子點擴展-向選定的點添加一個或多個子節(jié)點模擬-對擴展出的節(jié)點用蒙特卡洛方法進行模擬回溯-根據模擬結果依次向上更新祖先節(jié)點估計值13個卷積層,每層192個卷積核,每個卷積核3*3,參數個數800萬+GPU3ms/步預測準確率57%PolicyNetwork(策略網絡)在每個分支節(jié)點直接判斷形勢與Rollout隨機模擬相結合,互為補充ValueNetwork(價值網絡)給勝率高的點分配更多的計算力任意時間算法,計算越多越精確1、選取2、展開3、評估4、倒傳MCTS(蒙特卡洛樹搜索)通過隨機模擬走子勝率來判定形勢速度很快(1ms/盤)隨機性與合理性的平衡Rollout(隨機模擬走子)AlphaGo的實現原理控制寬度(250)控制深度(150)基本算法快速模擬圍棋是完全信息博弈,從理論上來說可以通過暴力搜索所有可能的對弈過程來確定最優(yōu)的走法PolicyNetwork策略網絡:落子棋感深度神經網絡的有監(jiān)督學習,目標是獲得在圍棋盤面下的落子棋感學習職業(yè)棋手和業(yè)余高段棋手的棋譜(數十萬份棋譜,上億數量級的落子方式)把當前局面作為輸入,預測下一步的走棋。它的預測不只給出最強的一手,而是對棋盤上所有可能的下一著給一個分數用PolicyNetwork作為第一感,將計算力分配到最有希望的選點分枝數從上百個減少到幾個優(yōu)先計算PolicyNetwork分數高的點,計算力充沛時,適當分配到其他分值較低的點PolicyNetwork—輸入特征3×224248×552128×272192×132192×132128×1322048204820482048192×32192×32128×3248×523×112192×32192×32192×132192×132128×132128×27248×5248×552128×321000局部感知域權重共享特征訓練卷積層+池化層模型結構13個卷積層,每層192個3*3卷積核數百萬個參數訓練數據KGS6d以上對局,17萬,職業(yè)對局8萬。訓練數據量5000萬+訓練時間幾十天運算速度GPU,3ms預測準確率57%左右互博,自我進化Agent通過和環(huán)境s的交互,選擇下一步的動作a,這個動作會影響環(huán)境s,給Agent一個reward,Agent然后繼續(xù)和環(huán)境交互。根據游戲結果迭代更新轉移概率和評估函數神經網絡結構與策略網絡相同訓練方法:自我對局目標:校正價值導向將策略網絡權值作為初始值,自我對弈更新權值,從而提升棋力Pros:棋藝更高(win80%ofthegameswithSLpolicynetwork)Cons:走法集中,不適應MCTS多搜索范圍的需求強化學習(RL)Fast-Rollout快速走子Rollout(隨機模擬走子)通過隨機模擬走子勝率來判定形勢速度快隨機性,合理性的平衡原因:1.策略網絡的運行速度較慢(3ms)
快速走子在2us2.用來評估盤面。在同等時間下,模擬走子速度快乃至使用隨機走子,雖然單次估值精度低,但可以多模擬幾次算平均值,效果未必不好。提升棋力結構:局部特征匹配+線性回歸特征:圍棋專業(yè)知識ValueNetwork:勝負棋感深度神經網絡的增強型學習(DeepMind獨創(chuàng))通過自我博弈,學習不同盤面下的勝負情況(三千萬盤自我對局)獲取在圍棋盤面的勝負棋感(注:對每一個落子點給一個當時的快速的勝負感(估算),這個勝負估算并不是根據分析計算出來的,而是直覺)(通過AlphaGo幾千萬盤的訓練學習得來的)形勢判斷:-1:白棋必勝<0:白棋優(yōu)勢0:雙方均勢>0:黑棋優(yōu)勢1:黑棋必勝ValueNetwork模型模型結構13個卷積層,每層192個卷積核,每個卷積核3*3數百萬個參數訓練數據PolicyNetwork自我對弈棋譜。3000萬+特定盤面+勝負結果訓練時間幾十天運算速度GPU,3ms方法:在每個分支節(jié)點,使用ValueNetwork直接判斷形勢與Rollout隨機模擬相結合,互為補充效果:職業(yè)水平,AlphaGoMCTS在對局中實時搜索Step1:基于策略網絡落子,可能性大的落子拓展節(jié)點Step2:對未來走勢進行評估,同時使用估值網絡和快速走子,綜合兩者預測未來走法Step3:評估結果作為下一步走法的Q值。重新模擬。Step4:結合下一步走法的Q值和策略網絡進行再一次模擬。如果出現同樣走法,Q值起平均。新分數=調整后的初始分+0.5*通過模擬(策略網絡+快速走棋)得到的贏棋概率+0.5*估值網絡的局面評估分Step5:反復循環(huán)直到n次,或者timeout,選擇被選擇次數最多的走法作為下一步Put-TogetherAlphaGoZero第3天,下了490萬局棋,打敗老大老三戰(zhàn)績老三學棋過程剛開始,隨機下子熱衷于吃子,完全不顧死活發(fā)現了如果先占住棋盤的邊和角,后面占便宜學會了如何「打劫」、「征子」懂得看「棋形」第21天,敗了老二第40天,完整走過了一個人類棋手學棋的全過程棋盤/黑子/白子棋子被圍起來就死規(guī)則棋士柯潔10月19日02:22一個純凈、純粹自我學習的AlphaGo是最強的...對于AlphaGo的自我進步來講...人類太多余了老大AlphaGoLee,2016年3月4:1打敗韓國棋手李世石老二AlphaGoMaster,2017年5月3:0打敗中國棋手柯潔老三AlphaGoZero,2017年10月宣布自學圍棋40天,打敗所有人AlphaGoZero解析人類經驗由于樣本空間大小的限制,往往都收斂于局部最優(yōu)而不自知(或無法發(fā)現),阿法元不再被人類認知所局限,而能夠發(fā)現新知識,發(fā)展新策略區(qū)別1:特征提取層采用40個殘差模塊,每個模塊包含2個卷積層。運用殘差模塊提升了網絡深度,更深的網絡能更有效地直接從棋盤上提取特征區(qū)別2:同時訓練走子策略(policy)網絡和勝率值(value)網絡啟示深度學習訓練過程需要消耗大量人類標注樣本,而這對于小樣本應用領域(比如醫(yī)療圖像處理)是不可能辦到的。所以減少樣本和人類標注的方法非常重要開局和收官和專業(yè)棋手的下法并無區(qū)別,但是中盤難于理解;機器經驗與人類經驗有很大差別,我們又該如何去選擇和利用呢?智能圍棋與蒙特卡洛樹搜索沒有棋感直覺不行,完全依賴棋感直覺也不行直覺需要通過嚴格的數學模型和計算方法,對棋感直覺進行驗證AlphaGo使用蒙特卡洛樹搜索,對落子棋感和勝負感進行計算驗證。蒙特卡洛樹搜索:搜索驗證基于數學期望的勝負評估模型(勝率)基于蒙特卡洛模擬進行勝負結果采樣(模擬采樣比直覺更可靠)根據模擬采樣結果驗證盤面勝負的數學期望可靠程度與采樣規(guī)模相關(采樣越大,離真理會更近些)蒙特卡洛模擬采樣:勝負棋感驗證智能圍棋與神經網絡谷歌的AlphaGo是深度學習算法的標志性成果;深度卷積神經網絡(DeepConvolutionalNeuralNetwork,DCNN),是近年發(fā)展起來,并引起
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 云南蝴蝶泉導游詞
- DB12T 481-2013 洗染業(yè)皮具護理服務規(guī)范
- 七夕節(jié)促銷活動策劃
- 高等數學教程 上冊 第4版 測試題及答案 高數2-測試一 - 答案
- 影響貨幣供給量的因素有哪些
- 陽江職業(yè)技術學院附屬實驗學校八年級上學期語文第一次月考試卷
- 三年級數學(上)計算題專項練習附答案
- 膠管采購合同(2篇)
- 南京工業(yè)大學浦江學院《商務談判》2023-2024學年第一學期期末試卷
- 江蘇盱眙經濟開發(fā)區(qū)圣山路及新海大道道路改造工程施工組織設計
- 親子鑒定報告樣本
- 心理健康的重要性課件
- 社區(qū)管理與服務創(chuàng)新課件
- 2024年度醫(yī)院皮膚科中醫(yī)帶教計劃課件
- 海鮮自助策劃方案
- 你演我猜規(guī)則介紹+題目
- 社會主義新農村建設
- 消防專業(yè)職業(yè)生涯規(guī)劃
- 執(zhí)照-航空法規(guī)
- 急性化膿性膽囊炎查房課件
- 中國信通院-數字化供應鏈標桿案例匯編(2023)-2023.11
評論
0/150
提交評論