版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人工智能技術(shù)介紹PPT人工智能技術(shù)概述第一節(jié)深度學(xué)習(xí)與國(guó)際象棋第二節(jié)智能問(wèn)答第三節(jié)深度學(xué)習(xí)與智能?chē)宓谒墓?jié)更多人機(jī)交互大戰(zhàn)第三節(jié)目錄content人工智能技術(shù)概述第一節(jié)自動(dòng)化技術(shù)發(fā)展趨勢(shì)自動(dòng)化技術(shù)自動(dòng)化技術(shù)是一門(mén)涉及學(xué)科較多、應(yīng)用廣泛的綜合性系統(tǒng)工程,其對(duì)象為大規(guī)模、復(fù)雜的工程和非工程系統(tǒng)廣義內(nèi)涵包括三方面的含義:代替人體力勞動(dòng)的機(jī)器人;代替或輔助人腦力勞動(dòng)的程序;對(duì)人機(jī)進(jìn)行協(xié)調(diào)、管理、控制和優(yōu)化的智能系統(tǒng)研究?jī)?nèi)容包括自動(dòng)控制和信息處理兩方面,應(yīng)用包括過(guò)程自動(dòng)化、機(jī)械制造自動(dòng)化、管理自動(dòng)化和家庭自動(dòng)化等不斷提高傳統(tǒng)行業(yè)的技術(shù)水平和市場(chǎng)競(jìng)爭(zhēng)力,并與光電子、計(jì)算機(jī)、信息技術(shù)等融合和創(chuàng)新,不斷創(chuàng)造和形成新的經(jīng)濟(jì)增長(zhǎng)點(diǎn)和管理戰(zhàn)略哲理智能科學(xué)發(fā)展趨勢(shì)智能科學(xué)智能屬于哲學(xué)問(wèn)題,智能科學(xué)研究智能的本質(zhì)和實(shí)現(xiàn)技術(shù),是由腦科學(xué)、認(rèn)知科學(xué)、人工智能等綜合形成的交叉學(xué)科腦科學(xué)從分子水平、神經(jīng)回路、行為實(shí)驗(yàn)研究自然智能機(jī)理,目的在于闡明人類(lèi)大腦的結(jié)構(gòu)與功能,以及人類(lèi)行為與心理活動(dòng)的物質(zhì)基礎(chǔ)認(rèn)知科學(xué)是研究人類(lèi)感知、學(xué)習(xí)、記憶、思維、意識(shí)等人腦心智活動(dòng)過(guò)程的科學(xué),是心理學(xué)、信息學(xué)、神經(jīng)科學(xué)和自然哲學(xué)的交叉人工智能是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門(mén)新的技術(shù)科學(xué)自動(dòng)化技術(shù)智能科學(xué)人工智能技術(shù)在科學(xué)發(fā)展過(guò)程中,在那些已經(jīng)建立起來(lái)的學(xué)科之間,還存在著一些被人忽視的無(wú)人區(qū),正是從這些領(lǐng)域里可能得到最大的收獲?!Z伯特·維納《控制論》,1948人工智能技術(shù)的挑戰(zhàn)人-信息人-機(jī)器人-環(huán)境科技進(jìn)步改變著我們的生活,但卻使人們?cè)谛畔ⅰC(jī)器高度密集的環(huán)境中,變得更為被動(dòng)和無(wú)奈。信息越來(lái)越多,甚至成為垃圾,對(duì)信息的有效組織和挖掘極度匱乏,人與信息的共生環(huán)境尚未建立。簡(jiǎn)單的體力勞動(dòng)已可以被機(jī)器所替代,但腦力勞動(dòng),特別是智力尚未完全轉(zhuǎn)移和擴(kuò)展到機(jī)器上。需要更好地尊重、理解并滿足人的各種需要,以人為本,促進(jìn)人與物理時(shí)空環(huán)境的和諧發(fā)展。人工智能技術(shù)發(fā)展的特征人工智能由人類(lèi)設(shè)計(jì),為人類(lèi)服務(wù),本質(zhì)為計(jì)算,基礎(chǔ)為數(shù)據(jù)。必須體現(xiàn)服務(wù)人類(lèi)的特點(diǎn),而不應(yīng)該傷害人類(lèi),特別是不應(yīng)該有目的性地做出傷害人類(lèi)的行為。以人為本人工智能技術(shù)發(fā)展的特征環(huán)境增強(qiáng)人工智能能感知環(huán)境,能產(chǎn)生反應(yīng),能與人交互,能與人互補(bǔ)。能夠幫助人類(lèi)做人類(lèi)不擅長(zhǎng)、不喜歡但機(jī)器能夠完成的工作,而人類(lèi)則適合于去做更需要?jiǎng)?chuàng)造性、洞察力、想象力的工作。人工智能技術(shù)發(fā)展的特征學(xué)習(xí)適應(yīng)人工智能有適應(yīng)特性,有學(xué)習(xí)能力,有演化迭代,有連接擴(kuò)展。人工智能可以應(yīng)對(duì)不斷變化的現(xiàn)實(shí)環(huán)境,從而使人工智能系統(tǒng)在各行各業(yè)產(chǎn)生豐富的應(yīng)用。。人機(jī)博弈棋類(lèi)游戲是人類(lèi)智慧的結(jié)晶,自古以來(lái)就有著廣泛的愛(ài)好者群體,也產(chǎn)生了一代又一代的偶像級(jí)棋王。選擇棋類(lèi)游戲作為人工智能研究的對(duì)象,不僅是因?yàn)槠孱?lèi)游戲規(guī)則清晰,勝負(fù)判斷一目了然,而且也更容易在愛(ài)好者群體中產(chǎn)生共鳴,因此人工智能研究者前赴后繼投身到對(duì)不同棋類(lèi)游戲的挑戰(zhàn)中。互動(dòng)環(huán)節(jié):人機(jī)小挑戰(zhàn)機(jī)器學(xué)習(xí)之父
機(jī)器博弈的水平實(shí)際上代表了當(dāng)時(shí)計(jì)算機(jī)體系架構(gòu)與計(jì)算機(jī)科學(xué)的最高水平。早在1962年,就職于IBM的阿瑟?薩繆爾就在內(nèi)存僅為32k的IBM7090晶體管計(jì)算機(jī)上開(kāi)發(fā)出了西洋跳棋(Checkers)AI程序,并擊敗了當(dāng)時(shí)全美最強(qiáng)的西洋棋選手之一的羅伯特?尼雷,引起了轟動(dòng)。值得一提的是,薩繆爾所研制的下棋程序是世界上第一個(gè)有自主學(xué)習(xí)功能的游戲程序,因此他也被后人稱之為“機(jī)器學(xué)習(xí)之父”。阿瑟?薩繆爾里程碑事件1997年IBM公司“更深的藍(lán)”(DeeperBlue)戰(zhàn)勝世界國(guó)際象棋棋王卡斯帕羅夫,這是基于知識(shí)規(guī)則引擎和強(qiáng)大計(jì)算機(jī)硬件的人工智能系統(tǒng)的勝利2011年IBM公司的問(wèn)答機(jī)器人“沃森”在美國(guó)智力問(wèn)答競(jìng)賽節(jié)目中大勝人類(lèi)冠軍,這是基于自然語(yǔ)言理解和知識(shí)圖譜的人工智能系統(tǒng)的勝利2016年谷歌公司AlphaGo戰(zhàn)勝了圍棋世界冠軍李世石,2017年初AlphaGo升級(jí)版Master橫掃全球60位頂尖高手,這是基于蒙特卡洛樹(shù)搜索和深度學(xué)習(xí)的人工智能系統(tǒng)的勝利真正引起中國(guó)人廣泛關(guān)注的機(jī)器博弈史上三個(gè)里程碑事件是:PART2深度學(xué)習(xí)與國(guó)際象棋機(jī)器學(xué)習(xí)人機(jī)對(duì)抗歷史深藍(lán)成功秘訣國(guó)際象棋國(guó)際象棋起源于亞洲,后由阿拉伯人傳入歐洲,成為國(guó)際通行棋種,也是一項(xiàng)受到廣泛喜愛(ài)的智力競(jìng)技運(yùn)動(dòng),據(jù)稱全世界有多達(dá)三億的國(guó)際象棋愛(ài)好者,甚至在1924年曾一度被列為奧林匹克運(yùn)動(dòng)會(huì)正式比賽項(xiàng)目。國(guó)際象棋棋盤(pán)由橫縱各8格、顏色一深一淺交錯(cuò)排列的64個(gè)小方格組成,棋子共32個(gè),分為黑白兩方,每方各16個(gè)。和8×8的西洋跳棋Checkers相比,國(guó)際象棋的狀態(tài)復(fù)雜度(指從初始局面出發(fā),產(chǎn)生的所有合法局面的總和)從1021上升到1046,博弈樹(shù)復(fù)雜度(指從初始局面開(kāi)始,其最小搜索樹(shù)的所有葉子節(jié)點(diǎn)的總和)也從1031上升到10123。19581973198319871988198919911993人機(jī)對(duì)抗歷史從1958年開(kāi)始,人工智能研究者對(duì)國(guó)際象棋的挑戰(zhàn)持續(xù)了半個(gè)多世紀(jì):1958年名為“思考”
IBM704成為第一臺(tái)能同人下國(guó)際象棋的計(jì)算機(jī),處理速度每秒200步;1973年B.Slate和Atkin開(kāi)發(fā)了國(guó)際象棋軟件“CHESS4.0”,成為未來(lái)國(guó)際象棋AI程序基礎(chǔ);1983年,KenThompson開(kāi)發(fā)了國(guó)際象棋硬件“BELLE”,達(dá)到大師水平;1987年,美國(guó)卡內(nèi)基梅隆大學(xué)設(shè)計(jì)的國(guó)際象棋計(jì)算機(jī)程序“深思”(DeepThought)以每秒鐘75萬(wàn)步的處理速度露面,其水平相當(dāng)于擁有2450國(guó)際等級(jí)分的棋手;1988年,“深思”擊敗丹麥特級(jí)大師拉爾森;1989年,“深思”已經(jīng)有6臺(tái)信息處理器,每秒處理速度達(dá)到200萬(wàn)步,但還是在與世界棋王卡斯帕羅夫的人機(jī)大戰(zhàn)中以0比2敗北;1991年,由CHESSBASE公司研制的國(guó)際象棋計(jì)算機(jī)程序“弗里茨”(Fretz)問(wèn)世;1993年,“深思”二代擊敗了丹麥國(guó)家隊(duì),并在與前女子世界冠軍小波爾加的對(duì)抗中獲勝。深藍(lán)一戰(zhàn)卡斯帕羅夫
1995年,IBM公司設(shè)計(jì)了全球第一臺(tái)采用并行化系統(tǒng)、以RS/6000SP為基礎(chǔ)、集成了總計(jì)256塊處理器以及480顆專(zhuān)門(mén)為國(guó)際象棋對(duì)弈設(shè)計(jì)的VLSI加速芯片的國(guó)際象棋計(jì)算機(jī)“深藍(lán)”,重達(dá)1270公斤。
1996年2月10日至17日,為了紀(jì)念首臺(tái)通用計(jì)算機(jī)ENIAC誕生50周年,“深藍(lán)”在美國(guó)費(fèi)城向國(guó)際象棋世界冠軍、世界排名第一的加里?卡斯帕羅夫發(fā)起了挑戰(zhàn)。
在6局的人機(jī)對(duì)弈比賽中,“深藍(lán)”并未占到什么便宜,棋王卡斯帕羅夫以4比2的總比分輕松獲勝,但“深藍(lán)”贏得了六場(chǎng)比賽中的一場(chǎng)勝利,這也是計(jì)算機(jī)第一次在與頂級(jí)選手的對(duì)弈中取得勝局。“深藍(lán)”升級(jí)改造
第一次對(duì)決落敗之后,IBM對(duì)“深藍(lán)”計(jì)算機(jī)進(jìn)行了升級(jí),97型深藍(lán)取名“更深的藍(lán)”(DeeperBlue)。團(tuán)隊(duì)還豐富了象棋加速芯片中的象棋知識(shí),使它能夠識(shí)別不同的棋局,并從眾多可能性中找出最佳行棋方案?!案畹乃{(lán)”每秒可檢索1億到2億個(gè)棋局,系統(tǒng)能夠搜尋和估算出當(dāng)前局面往后的12步行棋方案,最多可達(dá)20步,而人類(lèi)棋手的極限是10步。即使按照一盤(pán)棋平均走80步,每步棋可能的落子位置為35個(gè)計(jì)算,其狀態(tài)復(fù)雜度和博弈樹(shù)復(fù)雜度也遠(yuǎn)非超級(jí)計(jì)算機(jī)所能窮舉,為了在合理的時(shí)間內(nèi)完成走棋任務(wù),必須要進(jìn)行剪枝搜索。
運(yùn)算能力“更深的藍(lán)”(DeeperBlue)運(yùn)算速度為每秒2億步棋,計(jì)算能力為每秒113.8億次浮點(diǎn)運(yùn)算,是1996年版本的2倍,其運(yùn)算能力在當(dāng)時(shí)的全球超級(jí)計(jì)算機(jī)中也能排在第259位。剪枝搜索象棋知識(shí)“更深的藍(lán)”出師告捷
1997年5月,IBM公司再次邀請(qǐng)加里?卡斯帕羅夫到美國(guó)紐約曼哈頓進(jìn)行第二次人機(jī)大戰(zhàn),同樣是6盤(pán)棋制比賽。
在前5局里,卡斯帕羅夫?yàn)榱吮苊庠谟?jì)算力方面用人腦與“更深的藍(lán)”進(jìn)行直接較量,他采取了獨(dú)特的行棋策略來(lái)對(duì)付“更深的藍(lán)”,但是這個(gè)奇招并沒(méi)有取得明顯的效果,“更深的藍(lán)”總是能夠憑借準(zhǔn)確無(wú)誤的局面判斷和精確的計(jì)算給出最強(qiáng)的應(yīng)手。
最終前五局雙方2.5對(duì)2.5打平,尤其是第三、第四、第五局連續(xù)三場(chǎng)和局,卡斯帕羅夫的助手看見(jiàn)他坐在房間的角落里,雙手捂面,仿佛已經(jīng)失去了斗志。在最后一局中,卡斯帕羅夫失去耐心,回到了“正?!钡南路?,在第七回合就犯了一個(gè)不可挽回的低級(jí)錯(cuò)誤,局勢(shì)急轉(zhuǎn)直下,最終在第六盤(pán)決勝局中僅僅走了19步就向“更深的藍(lán)”俯首稱臣。
最終卡斯帕羅夫1勝2負(fù)3平,以2.5比3.5的總比分輸給“更深的藍(lán)”。“更深的藍(lán)”贏得了這場(chǎng)備受世人矚目的人機(jī)大戰(zhàn),也標(biāo)志著國(guó)際象棋近2000年的發(fā)展歷史走向了新時(shí)代。人機(jī)博弈勝負(fù)已明“深藍(lán)”并不是終結(jié),卡斯帕羅夫也沒(méi)有服氣。1999年,“弗里茨”升級(jí)為“更弗里茨”(DeepFritz),并在2001年擊敗了卡斯帕羅夫。
當(dāng)今國(guó)際象棋男子等級(jí)分排名最高的選手是出生于1990年的挪威特級(jí)大師卡爾森(MagnusCarlsen),他的等級(jí)分是2863分,而至少有10款開(kāi)源國(guó)際象棋引擎等級(jí)分達(dá)到了3000分以上。
人與機(jī)器的國(guó)際象棋之爭(zhēng)已勝負(fù)分明,國(guó)際象棋領(lǐng)域的人機(jī)博弈也畫(huà)上了句號(hào),取而代之的是2010年開(kāi)始舉辦的機(jī)機(jī)博弈——國(guó)際象棋引擎競(jìng)賽TCEC(ThoresenChessEngineCompetition)。加速芯片:“深藍(lán)”的成功秘訣“深藍(lán)”計(jì)算機(jī)在硬件上將通用計(jì)算機(jī)處理器與象棋加速芯片相結(jié)合,采用混合決策的方法,即在通用處理器上執(zhí)行運(yùn)算分解任務(wù),交給象棋加速芯片并行處理復(fù)雜的棋步自動(dòng)推理,然后將推理得到的可能行棋方案結(jié)果返回通用處理器,最后由通用處理器決策出最終的行棋方案。
97型深藍(lán)與1996年相比,運(yùn)算速度差不多提高了兩倍,象棋加速芯片的升級(jí)功不可沒(méi)。升級(jí)后的象棋加速芯片能夠從棋局中抽取更多的特征,并在有限的時(shí)間內(nèi)計(jì)算出當(dāng)前盤(pán)面往后12步甚至20步的行棋方案,從而讓“深藍(lán)”更準(zhǔn)確地評(píng)估盤(pán)面整體局勢(shì)。知識(shí)規(guī)則引擎:“深藍(lán)”的成功秘訣“深藍(lán)”在軟件設(shè)計(jì)上采用了超大規(guī)模知識(shí)庫(kù)結(jié)合優(yōu)化搜索的方法。一方面,“深藍(lán)”存儲(chǔ)了國(guó)際象棋100多年來(lái)70萬(wàn)份國(guó)際特級(jí)大師的棋譜,利用知識(shí)庫(kù)在開(kāi)局和殘局階段節(jié)省處理時(shí)間并得出更合理的行棋方案。
另一方面,“深藍(lán)”采用Alpha-Beta剪枝搜索算法和基于規(guī)則的方法對(duì)棋局進(jìn)行評(píng)價(jià),通過(guò)縮小搜索空間的上界和下界提高搜索效率,同時(shí)根據(jù)棋子的重要程度、棋子的位置、棋子對(duì)的關(guān)系等特征對(duì)棋局進(jìn)行更有效的評(píng)價(jià)。剪枝搜索算法示意圖PART3智力問(wèn)答Watson自然語(yǔ)言處理知識(shí)圖譜自主學(xué)習(xí)Watson認(rèn)知計(jì)算系統(tǒng)平臺(tái)問(wèn)世在“深藍(lán)”之后,IBM公司又選擇了一個(gè)新的領(lǐng)域挑戰(zhàn)人類(lèi)極限——DeepQA,不僅僅把DeepQA項(xiàng)目看成一個(gè)問(wèn)答游戲系統(tǒng),而且將其稱之為認(rèn)知計(jì)算系統(tǒng)平臺(tái)。認(rèn)知計(jì)算被定義為一種全新的計(jì)算模式,它包含數(shù)據(jù)分析、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)領(lǐng)域的大量技術(shù)創(chuàng)新,能夠幫助人類(lèi)從大量非結(jié)構(gòu)化數(shù)據(jù)中找出有用的答案。IBM公司對(duì)其寄予厚望,并用公司創(chuàng)始人Thomas?J?Watson的名字將這個(gè)平臺(tái)命名為Watson。如果說(shuō)“深藍(lán)”只是在做非常大規(guī)模的計(jì)算,是人類(lèi)數(shù)學(xué)能力的體現(xiàn),那么Watson就是將機(jī)器學(xué)習(xí)、大規(guī)模并行計(jì)算、語(yǔ)義處理等領(lǐng)域整合在一個(gè)體系架構(gòu)下來(lái)理解人類(lèi)自然語(yǔ)言的嘗試。Watson問(wèn)答系統(tǒng)能力解析理解(Understanding)與用戶進(jìn)行交互,根據(jù)用戶問(wèn)題通過(guò)自然語(yǔ)言理解技術(shù)分析包括結(jié)構(gòu)化數(shù)據(jù)和圖文、音視頻、圖像等非結(jié)構(gòu)化所有類(lèi)型的數(shù)據(jù),最終實(shí)現(xiàn)用戶提出問(wèn)題的有效應(yīng)答。推理(Reasoning)通過(guò)假設(shè)生成,透過(guò)數(shù)據(jù)揭示洞察、模式和關(guān)系,將散落在各處的知識(shí)片段連接起來(lái)進(jìn)行推理、分析、對(duì)比、歸納、總結(jié)和論證,從而獲取深入的理解和決策的證據(jù)。學(xué)習(xí)(Learning)通過(guò)以證據(jù)為基礎(chǔ)的學(xué)習(xí)能力,從大數(shù)據(jù)中快速提取關(guān)鍵信息,像人類(lèi)一樣學(xué)習(xí)和記憶這些知識(shí),并可以通過(guò)專(zhuān)家訓(xùn)練,在不斷與人的交互中通過(guò)經(jīng)驗(yàn)學(xué)習(xí)來(lái)獲取反饋,優(yōu)化模型。
交互(interacting)通過(guò)精細(xì)的個(gè)性化分析能力,獲得用戶的語(yǔ)義、情緒等信息,進(jìn)一步利用文本分析與心理語(yǔ)言學(xué)模型對(duì)海量數(shù)據(jù)進(jìn)行深入分析,掌握用戶個(gè)性特質(zhì),構(gòu)建全方位用戶畫(huà)像,實(shí)現(xiàn)更加自然的互動(dòng)交流。Watson研發(fā)團(tuán)隊(duì)全面?zhèn)鋺?zhàn)IBM公司調(diào)動(dòng)其全球研發(fā)團(tuán)隊(duì)參與到DeepQA項(xiàng)目中,這些團(tuán)隊(duì)分工極為細(xì)致,讓它的各個(gè)團(tuán)隊(duì)都發(fā)揮出最大的效率,目標(biāo)就是在2011年的綜藝節(jié)目《危險(xiǎn)邊緣》(QuizShowJeopardy!)中一鳴驚人。
問(wèn)答搜索:以色列海法團(tuán)隊(duì)負(fù)責(zé)深度開(kāi)放域問(wèn)答系統(tǒng)工程的搜索;
詞語(yǔ)連接:日本東京團(tuán)隊(duì)負(fù)責(zé)在問(wèn)答中將詞意和詞語(yǔ)連接;
數(shù)據(jù)支持:中國(guó)北京和上海團(tuán)隊(duì)則負(fù)責(zé)以不同的資源給Watson提供數(shù)據(jù)支持
算法研究:此外還有專(zhuān)門(mén)研究算法的團(tuán)隊(duì)和研究博弈下注策略的團(tuán)隊(duì)等。團(tuán)隊(duì)分工算法研究數(shù)據(jù)支持詞語(yǔ)連接問(wèn)答搜索
Watson包括90臺(tái)IBM小型機(jī)服務(wù)器、360個(gè)Power750系列處理器以及IBM研發(fā)的DeepQA系統(tǒng)。Power750系列處理器是當(dāng)時(shí)RISC(精簡(jiǎn)指令集計(jì)算機(jī))架構(gòu)中最強(qiáng)的處理器,可以支持Watson在不超過(guò)3秒鐘的時(shí)間內(nèi)得出可靠答案。
1.攝像頭拍照,OCR識(shí)別文字,得到文字文本。2.提取專(zhuān)有名詞基本信息,為其打上分類(lèi)標(biāo)簽。7.語(yǔ)音合成引擎將答案文本轉(zhuǎn)換成語(yǔ)音并播放出來(lái),完成回答。3.提取文字結(jié)構(gòu)信息,減少冗余搜索。4.
逐級(jí)分解每個(gè)問(wèn)題,直到獲得所有子問(wèn)題的答案。5.在自身知識(shí)圖譜中搜索并匯集特定實(shí)體的屬性信息,實(shí)現(xiàn)實(shí)體屬性完整勾畫(huà)。6.運(yùn)用算法評(píng)估可能答案,可信度最高且超過(guò)51%,執(zhí)行器按下信號(hào)燈。文字識(shí)別實(shí)體抽取關(guān)系抽取問(wèn)題分析答案生成判斷決策回答問(wèn)題Watson的工作過(guò)程Watson挑戰(zhàn)成功最終比分成績(jī)?yōu)閃atson:$77147,Jennings:$24000,Rutter:$21600,比賽塵埃落定,人類(lèi)已經(jīng)和Watson相距太遠(yuǎn)。
2011年2月14日-16日,做好一切準(zhǔn)備的Watson開(kāi)始了與人類(lèi)的對(duì)決。Watson在第一輪中就奠定了領(lǐng)先地位,但在比賽中出現(xiàn)了幾個(gè)糟糕的回答。
比如一個(gè)美國(guó)城市類(lèi)的問(wèn)題,Watson的答案為多倫多。這道題的回答讓人大跌眼鏡,主要原因是Watson沒(méi)有為答案設(shè)置邊緣條件。
另一道回答奧利奧餅干是什么時(shí)候被推出的時(shí)候,幾秒前人類(lèi)選手Jennings回答相同問(wèn)題時(shí)剛被告知“20年”錯(cuò)了,Watson還是繼續(xù)回答“1920年”。這是因?yàn)檠芯繄F(tuán)隊(duì)為了簡(jiǎn)化Watson的編程,讓它對(duì)其他玩家的回答“裝聾作啞”,結(jié)果吃了大虧。
Watson進(jìn)入商業(yè)化運(yùn)營(yíng)階段如今,Watson已經(jīng)被運(yùn)用到超過(guò)35個(gè)國(guó)家的17個(gè)產(chǎn)業(yè)領(lǐng)域,超過(guò)7.7萬(wàn)名開(kāi)發(fā)者參與到WatsonDeveloperCloud平臺(tái)來(lái)實(shí)施他們的商業(yè)夢(mèng)想,WatsonAPI的月調(diào)用量也已高達(dá)13億次,并仍在增長(zhǎng)。借著這次Watson人機(jī)大戰(zhàn)的風(fēng)頭,2012年IBM公司的小型機(jī)占據(jù)了全球?qū)⒔?/3的市場(chǎng)份額,Watson也于2013年開(kāi)始進(jìn)入商業(yè)化運(yùn)營(yíng),陸續(xù)推出的相關(guān)產(chǎn)品:Watson相關(guān)產(chǎn)品Watson發(fā)現(xiàn)顧問(wèn)(WatsonDiscoveryAdvisor)Watson參與顧問(wèn)(WatsonEngagementAdvisor)Watson分析(WatsonAnalytics)Watson探索(WatsonExplorer)Watson知識(shí)工作室(WatsonKnowledgeStudio)Watson腫瘤治療(WatsonforOncology)Watson臨床試驗(yàn)匹配(WatsonforClinicalTrialMatching)Watson成功秘訣:自然語(yǔ)言處理“Jeopardy!”這類(lèi)問(wèn)答類(lèi)節(jié)目,對(duì)于人類(lèi)而言規(guī)則很簡(jiǎn)單,但是對(duì)于Watson則意味著眾多挑戰(zhàn)。
它不僅要理解主持人提問(wèn)的自然語(yǔ)言,還需要分析這些語(yǔ)言是否包含諷刺、雙關(guān)、修飾等,以正確判斷題目的意思,并評(píng)估各種答案的可能性,給出最后的選擇。
自然語(yǔ)言處理研究實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法,是計(jì)算機(jī)科學(xué)與人工智能研究中的重要方向之一。
自然語(yǔ)言處理技術(shù)廣泛應(yīng)用
Watson的成功得益于自然語(yǔ)言處理技術(shù)多年的積累,同樣也帶動(dòng)了這個(gè)領(lǐng)域進(jìn)入了一個(gè)更加快速的發(fā)展階段:2011年10月蘋(píng)果公司在發(fā)布新品時(shí)集成Siri智能語(yǔ)音助手,把聊天問(wèn)答系統(tǒng)帶入了成熟商業(yè)化階段;2013年谷歌公司開(kāi)源Word2Vec引爆深度學(xué)習(xí)這個(gè)新的熱點(diǎn),機(jī)器翻譯、文檔摘要、關(guān)系抽取等任務(wù)不斷取得重要進(jìn)展,從此人工智能走向第三次高潮。蘋(píng)果Siri智能語(yǔ)音助手谷歌公司開(kāi)源Word2VecWatson成功秘訣:知識(shí)圖譜
知識(shí)圖譜本質(zhì)上是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(Point)和邊(Edge)組成。在知識(shí)圖譜中,每個(gè)節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的“實(shí)體”,每條邊為實(shí)體與實(shí)體之間的“關(guān)系”。可以說(shuō),知識(shí)圖譜就是把異構(gòu)信息連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò),提供了從“關(guān)系”的角度去分析問(wèn)題的能力。
2012年谷歌公司推出知識(shí)圖譜搜索服務(wù),國(guó)內(nèi)互聯(lián)網(wǎng)公司百度和搜狗也分別推出“知心”和“知立方”來(lái)改進(jìn)其搜索質(zhì)量。在搜索引擎中引入知識(shí)圖譜大幅的地提升和優(yōu)化了搜索體驗(yàn)。谷歌改進(jìn)知識(shí)圖譜添加比較及過(guò)濾等新功能知識(shí)圖譜的廣泛應(yīng)用知識(shí)圖譜也被廣泛應(yīng)用于聊天機(jī)器人和問(wèn)答系統(tǒng)中,用于輔助深度理解人類(lèi)的語(yǔ)言和支持推理,并提升人機(jī)問(wèn)答的用戶體驗(yàn)。
此外,在金融、農(nóng)業(yè)、電商、醫(yī)療健康、環(huán)境保護(hù)等垂直領(lǐng)域,知識(shí)圖譜同樣得到了廣泛的應(yīng)用。知識(shí)圖譜問(wèn)答系統(tǒng)金融農(nóng)業(yè)電商醫(yī)療健康環(huán)保PART4圍棋AlphaGo機(jī)器學(xué)習(xí)蒙特卡洛樹(shù)搜索深度學(xué)習(xí)
圍棋復(fù)雜度增加8*8格國(guó)際象棋的狀態(tài)復(fù)雜度為1046,博弈樹(shù)復(fù)雜度為10123。19*19格的圍棋,其狀態(tài)復(fù)雜度已上升到10172,博弈樹(shù)復(fù)雜度則達(dá)到驚人的10360,因此也被視為人類(lèi)在棋類(lèi)人機(jī)對(duì)抗中最后的堡壘。國(guó)際象棋圍棋人機(jī)對(duì)抗的嘗試與探索
在很長(zhǎng)一段時(shí)間里,靜態(tài)方法成了主流研究方向,中山大學(xué)化學(xué)系教授陳志行開(kāi)發(fā)的圍棋博弈程序“手談”和開(kāi)源軟件GNUGO在2003年以前能夠在9*9圍棋中達(dá)到人類(lèi)5-7級(jí)水平。
2006年S.Gelly等人提出的UCT算法(UpperConfidenceBoundApplytoTree,上限置信區(qū)間算法),該算法在蒙特卡洛樹(shù)搜索中使用UCB公式解決了探索和利用的平衡,并采用隨機(jī)模擬對(duì)圍棋局面進(jìn)行評(píng)價(jià)。該程序的勝率竟然比先前最先進(jìn)的蒙特卡羅擴(kuò)展算法高出了幾乎一倍,但它也僅能在9路圍棋中偶爾戰(zhàn)勝人類(lèi)職業(yè)棋手,在19路圍棋中還遠(yuǎn)遠(yuǎn)不能與人類(lèi)抗衡。靜態(tài)方法UCT算法陳志行手談AlphaGo橫空出世這是圍棋歷史上一次史無(wú)前例的突破,人工智能程序能在不讓子的情況下,第一次在完整的圍棋競(jìng)技中擊敗專(zhuān)業(yè)選手。AlphaGo大戰(zhàn)樊麾2016年D.Silver等人在世界頂級(jí)科學(xué)雜志《Nature》發(fā)表文章,稱被谷歌公司收購(gòu)的DeepMind團(tuán)隊(duì)開(kāi)發(fā)出AlphaGo在沒(méi)有任何讓子情況下,以5:0完勝歐洲圍棋冠軍、職業(yè)二段選手樊麾。AlphaGo系統(tǒng)簡(jiǎn)介監(jiān)督、強(qiáng)化學(xué)習(xí)該系統(tǒng)通過(guò)對(duì)16萬(wàn)局人類(lèi)高手棋譜中的3000萬(wàn)手盤(pán)面進(jìn)行監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí);策略、價(jià)值網(wǎng)絡(luò)使用策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)實(shí)現(xiàn)落子決策和局勢(shì)評(píng)估;蒙特卡洛算法通過(guò)與蒙特卡洛樹(shù)搜索算法結(jié)合,極大地改善了搜索決策的質(zhì)量;
異步分布并行算法提出異步分布式并行算法,使其可運(yùn)行于CPU/GPU集群上。系統(tǒng)AlphaGo所向披靡
2016年3月AlphaGo與李世石進(jìn)行圍棋人機(jī)大戰(zhàn),以4比1的總比分獲勝;
2016年末2017年初,它以Master為帳號(hào)與中日韓數(shù)十位圍棋高手快棋對(duì)決,連續(xù)60局全勝。
2017年5月在中國(guó)烏鎮(zhèn)圍棋峰會(huì)上,它與柯潔對(duì)戰(zhàn),以3比0的總比分獲勝。圍棋界公認(rèn)AlphaGo的棋力已經(jīng)超過(guò)人類(lèi)職業(yè)圍棋頂尖水平,其最新版本自我估分在4500分左右,實(shí)力水平大約在13段左右,人類(lèi)選手中已然無(wú)敵。AlphaGo大戰(zhàn)李世石Master大戰(zhàn)聶衛(wèi)平AlphaGo大戰(zhàn)柯潔AlphaGo新技能AlphaGo通過(guò)學(xué)習(xí)大量棋譜,以及更大規(guī)模的自我對(duì)弈完成學(xué)習(xí),這種深度學(xué)習(xí)的能力使得它能不斷學(xué)習(xí)進(jìn)化。AlphaGo發(fā)現(xiàn)了人類(lèi)沒(méi)有的圍棋著法,初步展示了機(jī)器發(fā)現(xiàn)“新事物”的創(chuàng)造性。這意味著它的增強(qiáng)學(xué)習(xí)算法可以從大數(shù)據(jù)中發(fā)現(xiàn)新的規(guī)律和知識(shí),為人類(lèi)擴(kuò)展自己的知識(shí)體系開(kāi)辟了新的認(rèn)知通道。AlphaGo展現(xiàn)了曾被認(rèn)為是人類(lèi)獨(dú)有、計(jì)算機(jī)難以做到的“棋感直覺(jué)”這些技術(shù)使得人工智能程序初步具備了既可以考慮局部得失,又可以考慮全局態(tài)勢(shì)的能力,從而具備了一種全局性“直覺(jué)”能力。深度學(xué)習(xí)發(fā)現(xiàn)新著法棋感知覺(jué)新技能AlphaGoZero青出于藍(lán)
學(xué)習(xí)策略整合策略、價(jià)值網(wǎng)絡(luò)舍棄快速走子網(wǎng)絡(luò)引入殘差結(jié)構(gòu)2.舍棄快速走子網(wǎng)絡(luò),不再進(jìn)行隨機(jī)模擬,而是完全使用神經(jīng)網(wǎng)絡(luò)得到的結(jié)果替換隨機(jī)模擬,從而在提升學(xué)習(xí)速率的同時(shí),增強(qiáng)神經(jīng)網(wǎng)絡(luò)估值的準(zhǔn)確性。1.AlphaGoZero將策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)整合在一起,使用純粹的深度強(qiáng)化學(xué)習(xí)方法進(jìn)行端到端的自我對(duì)弈學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)的權(quán)值完全從隨機(jī)初始化開(kāi)始,使用強(qiáng)化學(xué)習(xí)進(jìn)行自我博弈和提升。3.AlphaGoZero神經(jīng)網(wǎng)絡(luò)中還引入了殘差結(jié)構(gòu),可使用更深的神經(jīng)網(wǎng)絡(luò)進(jìn)行特征表征提取,從而能在更加復(fù)雜的棋盤(pán)局面中進(jìn)行學(xué)習(xí)。AlphaGoZero青出于藍(lán)
AlphaGo最高需要1920塊CPU和280塊GPU訓(xùn)練,AlphaGoLee用了176塊GPU和48塊TPU,而AlphaGoZero僅僅使用了單機(jī)4塊TPU便完成了訓(xùn)練任務(wù)。硬件結(jié)構(gòu)
AlphaGoZero僅用3天的時(shí)間便達(dá)到了AlphaGoLee的水平,21天后達(dá)到AlphaGoMaster的水平。AlphaGoZero成功證明了在沒(méi)有人類(lèi)指導(dǎo)和經(jīng)驗(yàn)的前提下,深度強(qiáng)化學(xué)習(xí)方法在圍棋領(lǐng)域里仍然能夠出色的完成指定的任務(wù),甚至于比有人類(lèi)經(jīng)驗(yàn)知識(shí)指導(dǎo)時(shí),完成的更加出色。AlphaGo成功秘訣:蒙特卡洛樹(shù)搜索在機(jī)器博弈中,每步行棋方案的運(yùn)算時(shí)間、堆??臻g都是有限的,只能給出局部最優(yōu)解,因此2006年提出的蒙特卡洛樹(shù)搜索就成為隨機(jī)搜索算法的首選。應(yīng)用意義它結(jié)合了隨機(jī)模擬的一般性和樹(shù)搜索的準(zhǔn)確性,近年來(lái)在圍棋等完全信息博弈、多人博弈及隨機(jī)類(lèi)博弈難題上取得了成功應(yīng)用。理論上,蒙特卡洛樹(shù)搜索可被用在以{狀態(tài),行動(dòng)}定義并用模擬預(yù)測(cè)輸出結(jié)果的任何領(lǐng)域。
它結(jié)合了廣度優(yōu)先搜索和深度優(yōu)先搜索,會(huì)較好地集中到“更值得搜索的變化”(雖然不一定準(zhǔn)確),同時(shí)可以給出一個(gè)同樣不怎么準(zhǔn)確的全局評(píng)估結(jié)果,最后隨著搜索樹(shù)的自動(dòng)生長(zhǎng),可以保證在足夠大的運(yùn)算能力和足夠長(zhǎng)的時(shí)間后收斂到完美解。AlphaGo成功秘訣:強(qiáng)化學(xué)習(xí)目標(biāo):從一個(gè)已經(jīng)標(biāo)記的訓(xùn)練集中進(jìn)行學(xué)習(xí)。機(jī)器學(xué)習(xí)有監(jiān)督學(xué)習(xí)SupervisedLearning無(wú)監(jiān)督學(xué)習(xí)UnsupervisedLearning強(qiáng)化學(xué)習(xí)ReinforcementLearning目標(biāo):從一堆未標(biāo)記樣本中發(fā)現(xiàn)隱藏的結(jié)構(gòu)。目標(biāo):在當(dāng)前行動(dòng)和未來(lái)狀態(tài)中獲得最大回報(bào)。在邊獲得樣例邊學(xué)習(xí)的過(guò)程中,不斷迭代“在當(dāng)前模型的情況下,如何選擇下一步的行動(dòng)才對(duì)完善當(dāng)前的模型最有利”的過(guò)程直到模型收斂。強(qiáng)化學(xué)習(xí)的廣泛應(yīng)用阿里巴巴公司在雙11推薦場(chǎng)景中,使用了深度強(qiáng)化學(xué)習(xí)與自適應(yīng)在線學(xué)習(xí)建立決策引擎,對(duì)海量用戶行為以及百億級(jí)商品特征進(jìn)行實(shí)時(shí)分析,提高人和商品的配對(duì)效率,將手機(jī)用戶點(diǎn)擊率提升了10-20%。無(wú)人駕駛廣告投放強(qiáng)化學(xué)習(xí)在機(jī)器博弈以外還有很多應(yīng)用,例如無(wú)人駕駛和廣告投放等。
01人機(jī)大戰(zhàn):深度學(xué)習(xí)算法的標(biāo)志性成果最復(fù)雜(注:狀態(tài)復(fù)雜度與博弈復(fù)雜度)的智力游戲:看似簡(jiǎn)單,實(shí)為復(fù)雜,具有10的170次方狀態(tài)復(fù)雜空間涉及邏輯推理,形象思維,優(yōu)化選擇等多種人類(lèi)智能(注:國(guó)際象棋只有邏輯推理,沒(méi)有形象思維)02接近人類(lèi)公認(rèn)是人工智能領(lǐng)域長(zhǎng)期以來(lái)的重大挑戰(zhàn)03標(biāo)志性國(guó)際學(xué)術(shù)界曾經(jīng)普遍認(rèn)為解決圍棋問(wèn)題需要15-20年時(shí)間04挑戰(zhàn)為什么做圍棋AI?創(chuàng)新性投入力度業(yè)內(nèi)龍頭
目前技術(shù)優(yōu)勢(shì):起步早,算法新,技術(shù)強(qiáng),資源雄厚最近一年專(zhuān)注于強(qiáng)化學(xué)習(xí)研究
擬于近期公布新論文和數(shù)據(jù),并從此退出圍棋AI領(lǐng)域GoogleDeepmind簡(jiǎn)介傳統(tǒng)圍棋AI算法—MCTS(蒙特卡洛樹(shù)搜索)雙人一人一步雙方信息完備(棋類(lèi)—完全信息,牌類(lèi)—不完全信息)零和動(dòng)態(tài)博弈問(wèn)題計(jì)算機(jī)下棋棋類(lèi)要素的數(shù)字化——恰當(dāng)?shù)臄?shù)據(jù)結(jié)構(gòu)棋盤(pán)、棋子、棋規(guī)(著法規(guī)則,勝負(fù)規(guī)則)用著法推演局面——博弈樹(shù)展開(kāi)從有利局面選擇當(dāng)前著法——博弈搜索局面評(píng)估——指標(biāo)定義與綜合展開(kāi)深度為4的博弈樹(shù)本方本方本方對(duì)方對(duì)方Ply1Ply3Ply4Ply2Ply0根節(jié)點(diǎn)為當(dāng)前局面葉節(jié)點(diǎn)為展開(kāi)終點(diǎn)雙方輪流出手偶數(shù)層為本方奇數(shù)層為對(duì)方圍棋落子蒙特卡洛數(shù)學(xué)模型及評(píng)估圍棋對(duì)弈過(guò)程可以看做一個(gè)馬爾科夫過(guò)程:五元組:{T,S,A(i),P(·|i,a),r(i,a)}T:決策時(shí)刻S:狀態(tài)空間,S={i}A(i):可行動(dòng)集合(可落子點(diǎn))P(·|i,a):狀態(tài)i下選擇行動(dòng)a的概率r(i,a):狀態(tài)i下選擇行動(dòng)a后課獲得的收益從當(dāng)前局面的所有可落子點(diǎn)中隨機(jī)(或者給勝率高的點(diǎn)分配更多的計(jì)算力)選擇一個(gè)點(diǎn)落子重復(fù)以上過(guò)程直到勝負(fù)可判斷為止經(jīng)多次模擬后(計(jì)算越多越精確),選擇勝率最大的點(diǎn)落子傳統(tǒng)圍棋AI算法—數(shù)學(xué)模型MCTS(蒙特卡洛樹(shù)搜索)基本思想與特點(diǎn):-將可能出現(xiàn)的狀態(tài)轉(zhuǎn)移過(guò)程用狀態(tài)樹(shù)表示-從初始狀態(tài)開(kāi)始重復(fù)抽樣,逐步擴(kuò)展樹(shù)中的節(jié)點(diǎn)-某個(gè)狀態(tài)再次被訪問(wèn)時(shí),可以利用已有的結(jié)果,提高了效率-在抽樣過(guò)程中可以隨時(shí)得到行為的評(píng)價(jià)選擇-從根節(jié)點(diǎn)出發(fā)自上而下地選擇一個(gè)落子點(diǎn)擴(kuò)展-向選定的點(diǎn)添加一個(gè)或多個(gè)子節(jié)點(diǎn)模擬-對(duì)擴(kuò)展出的節(jié)點(diǎn)用蒙特卡洛方法進(jìn)行模擬回溯-根據(jù)模擬結(jié)果依次向上更新祖先節(jié)點(diǎn)估計(jì)值13個(gè)卷積層,每層192個(gè)卷積核,每個(gè)卷積核3*3,參數(shù)個(gè)數(shù)800萬(wàn)+GPU3ms/步預(yù)測(cè)準(zhǔn)確率57%PolicyNetwork(策略網(wǎng)絡(luò))在每個(gè)分支節(jié)點(diǎn)直接判斷形勢(shì)與Rollout隨機(jī)模擬相結(jié)合,互為補(bǔ)充ValueNetwork(價(jià)值網(wǎng)絡(luò))給勝率高的點(diǎn)分配更多的計(jì)算力任意時(shí)間算法,計(jì)算越多越精確1、選取2、展開(kāi)3、評(píng)估4、倒傳MCTS(蒙特卡洛樹(shù)搜索)通過(guò)隨機(jī)模擬走子勝率來(lái)判定形勢(shì)速度很快(1ms/盤(pán))隨機(jī)性與合理性的平衡Rollout(隨機(jī)模擬走子)AlphaGo的實(shí)現(xiàn)原理控制寬度(250)控制深度(150)基本算法快速模擬圍棋是完全信息博弈,從理論上來(lái)說(shuō)可以通過(guò)暴力搜索所有可能的對(duì)弈過(guò)程來(lái)確定最優(yōu)的走法PolicyNetwork策略網(wǎng)絡(luò):落子棋感深度神經(jīng)網(wǎng)絡(luò)的有監(jiān)督學(xué)習(xí),目標(biāo)是獲得在圍棋盤(pán)面下的落子棋感學(xué)習(xí)職業(yè)棋手和業(yè)余高段棋手的棋譜(數(shù)十萬(wàn)份棋譜,上億數(shù)量級(jí)的落子方式)把當(dāng)前局面作為輸入,預(yù)測(cè)下一步的走棋。它的預(yù)測(cè)不只給出最強(qiáng)的一手,而是對(duì)棋盤(pán)上所有可能的下一著給一個(gè)分?jǐn)?shù)用PolicyNetwork作為第一感,將計(jì)算力分配到最有希望的選點(diǎn)分枝數(shù)從上百個(gè)減少到幾個(gè)優(yōu)先計(jì)算PolicyNetwork分?jǐn)?shù)高的點(diǎn),計(jì)算力充沛時(shí),適當(dāng)分配到其他分值較低的點(diǎn)PolicyNetwork—輸入特征3×224248×552128×272192×132192×132128×1322048204820482048192×32192×32128×3248×523×112192×32192×32192×132192×132128×132128×27248×5248×552128×321000局部感知域權(quán)重共享特征訓(xùn)練卷積層+池化層模型結(jié)構(gòu)13個(gè)卷積層,每層192個(gè)3*3卷積核數(shù)百萬(wàn)個(gè)參數(shù)訓(xùn)練數(shù)據(jù)KGS6d以上對(duì)局,17萬(wàn),職業(yè)對(duì)局8萬(wàn)。訓(xùn)練數(shù)據(jù)量5000萬(wàn)+訓(xùn)練時(shí)間幾十天運(yùn)算速度GPU,3ms預(yù)測(cè)準(zhǔn)確率57%左右互博,自我進(jìn)化Agent通過(guò)和環(huán)境s的交互,選擇下一步的動(dòng)作a,這個(gè)動(dòng)作會(huì)影響環(huán)境s,給Agent一個(gè)reward,Agent然后繼續(xù)和環(huán)境交互。根據(jù)游戲結(jié)果迭代更新轉(zhuǎn)移概率和評(píng)估函數(shù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與策略網(wǎng)絡(luò)相同訓(xùn)練方法:自我對(duì)局目標(biāo):校正價(jià)值導(dǎo)向?qū)⒉呗跃W(wǎng)絡(luò)權(quán)值作為初始值,自我對(duì)弈更新權(quán)值,從而提升棋力Pros:棋藝更高(win80%ofthegameswithSLpolicynetwork)Cons:走法集中,不適應(yīng)MCTS多搜索范圍的需求強(qiáng)化學(xué)習(xí)(RL)Fast-Rollout快速走子Rollout(隨機(jī)模擬走子)通過(guò)隨機(jī)模擬走子勝率來(lái)判定形勢(shì)速度快隨機(jī)性,合理性的平衡原因:1.策略網(wǎng)絡(luò)的運(yùn)行速度較慢(3ms)
快速走子在2us2.用來(lái)評(píng)估盤(pán)面。在同等時(shí)間下,模擬走子速度快乃至使用隨機(jī)走子,雖然單次估值精度低,但可以多模擬幾次算平均值,效果未必不好。提升棋力結(jié)構(gòu):局部特征匹配+線性回歸特征:圍棋專(zhuān)業(yè)知識(shí)ValueNetwork:勝負(fù)棋感深度神經(jīng)網(wǎng)絡(luò)的增強(qiáng)型學(xué)習(xí)(DeepMind獨(dú)創(chuàng))通過(guò)自我博弈,學(xué)習(xí)不同盤(pán)面下的勝負(fù)情況(三千萬(wàn)盤(pán)自我對(duì)局)獲取在圍棋盤(pán)面的勝負(fù)棋感(注:對(duì)每一個(gè)落子點(diǎn)給一個(gè)當(dāng)時(shí)的快速的勝負(fù)感(估算),這個(gè)勝負(fù)估算并不是根據(jù)分析計(jì)算出來(lái)的,而是直覺(jué))(通過(guò)AlphaGo幾千萬(wàn)盤(pán)的訓(xùn)練學(xué)習(xí)得來(lái)的)形勢(shì)判斷:-1:白棋必勝<0:白棋優(yōu)勢(shì)0:雙方均勢(shì)>0:黑棋優(yōu)勢(shì)1:黑棋必勝ValueNetwork模型模型結(jié)構(gòu)13個(gè)卷積層,每層192個(gè)卷積核,每個(gè)卷積核3*3數(shù)百萬(wàn)個(gè)參數(shù)訓(xùn)練數(shù)據(jù)PolicyNetwork自我對(duì)弈棋譜。3000萬(wàn)+特定盤(pán)面+勝負(fù)結(jié)果訓(xùn)練時(shí)間幾十天運(yùn)算速度GPU,3ms方法:在每個(gè)分支節(jié)點(diǎn),使用ValueNetwork直接判斷形勢(shì)與Rollout隨機(jī)模擬相結(jié)合,互為補(bǔ)充效果:職業(yè)水平,AlphaGoMCTS在對(duì)局中實(shí)時(shí)搜索Step1:基于策略網(wǎng)絡(luò)落子,可能性大的落子拓展節(jié)點(diǎn)Step2:對(duì)未來(lái)走勢(shì)進(jìn)行評(píng)估,同時(shí)使用估值網(wǎng)絡(luò)和快速走子,綜合兩者預(yù)測(cè)未來(lái)走法Step3:評(píng)估結(jié)果作為下一步走法的Q值。重新模擬。Step4:結(jié)合下一步走法的Q值和策略網(wǎng)絡(luò)進(jìn)行再一次模擬。如果出現(xiàn)同樣走法,Q值起平均。新分?jǐn)?shù)=調(diào)整后的初始分+0.5*通過(guò)模擬(策略網(wǎng)絡(luò)+快速走棋)得到的贏棋概率+0.5*估值網(wǎng)絡(luò)的局面評(píng)估分Step5:反復(fù)循環(huán)直到n次,或者timeout,選擇被選擇次數(shù)最多的走法作為下一步Put-TogetherAlphaGoZero第3天,下了490萬(wàn)局棋,打敗老大老三戰(zhàn)績(jī)老三學(xué)棋過(guò)程剛開(kāi)始,隨機(jī)下子熱衷于吃子,完全不顧死活發(fā)現(xiàn)了如果先占住棋盤(pán)的邊和角,后面占便宜學(xué)會(huì)了如何「打劫」、「征子」懂得看「棋形」第21天,敗了老二第40天,完整走過(guò)了一個(gè)人類(lèi)棋手學(xué)棋的全過(guò)程棋盤(pán)/黑子/白子棋子被圍起來(lái)就死規(guī)則棋士柯潔10月19日02:22一個(gè)純凈、純粹自我學(xué)習(xí)的AlphaGo是最強(qiáng)的...對(duì)于AlphaGo的自我進(jìn)步來(lái)講...人類(lèi)太多余了老大AlphaGoLee,2016年3月4:1打敗韓國(guó)棋手李世石老二AlphaGoMaster,2017年5月3:0打敗中國(guó)棋手柯潔老三AlphaGoZero,2017年10月宣布自學(xué)圍棋40天,打敗所有人AlphaGoZero解析人類(lèi)經(jīng)驗(yàn)由于樣本空間大小的限制,往往都收斂于局部最優(yōu)而不自知(或無(wú)法發(fā)現(xiàn)),阿法元不再被人類(lèi)認(rèn)知所局限,而能夠發(fā)現(xiàn)新知識(shí),發(fā)展新策略區(qū)別1:特征提取層采用40個(gè)殘差模塊,每個(gè)模塊包含2個(gè)卷積層。運(yùn)用殘差模塊提升了網(wǎng)絡(luò)深度,更深的網(wǎng)絡(luò)能更有效地直接從棋盤(pán)上提取特征區(qū)別2:同時(shí)訓(xùn)練走子策略(policy)網(wǎng)絡(luò)和勝率值(value)網(wǎng)絡(luò)啟示深度學(xué)習(xí)訓(xùn)練過(guò)程需要消耗大量人類(lèi)標(biāo)注樣本,而這對(duì)于小樣本應(yīng)用領(lǐng)域(比如醫(yī)療圖像處理)是不可能辦到的。所以減少樣本和人類(lèi)標(biāo)注的方法非常重要開(kāi)局和收官和專(zhuān)業(yè)棋手的下法并無(wú)區(qū)別,但是中盤(pán)難于理解;機(jī)器經(jīng)驗(yàn)與人類(lèi)經(jīng)驗(yàn)有很大差別,我們又該如何去選擇和利用呢?智能?chē)迮c蒙特卡洛樹(shù)搜索沒(méi)有棋感直覺(jué)不行,完全依賴棋感直覺(jué)也不行直覺(jué)需要通過(guò)嚴(yán)格的數(shù)學(xué)模型和計(jì)算方法,對(duì)棋感直覺(jué)進(jìn)行驗(yàn)證AlphaGo使用蒙特卡洛樹(shù)搜索,對(duì)落子棋感和勝負(fù)感進(jìn)行計(jì)算驗(yàn)證。蒙特卡洛樹(shù)搜索:搜索驗(yàn)證基于數(shù)學(xué)期望的勝負(fù)評(píng)估模型(勝率)基于蒙特卡洛模擬進(jìn)行勝負(fù)結(jié)果采樣(模擬采樣比直覺(jué)更可靠)根據(jù)模擬采樣結(jié)果驗(yàn)證盤(pán)面勝負(fù)的數(shù)學(xué)期望可靠程度與采樣規(guī)模相關(guān)(采樣越大,離真理會(huì)更近些)蒙特卡洛模擬采樣:勝負(fù)棋感驗(yàn)證智能?chē)迮c神經(jīng)網(wǎng)絡(luò)谷歌的AlphaGo是深度學(xué)習(xí)算法的標(biāo)志性成果;深度卷積神經(jīng)網(wǎng)絡(luò)(DeepConvolutionalNeuralNetwork,DCNN),是近年發(fā)展起來(lái),并引起
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版幽默詼諧離婚合同范本版B版
- 2024年鋼材市場(chǎng)調(diào)查調(diào)研合同
- 2024水泥涵管抗震性能檢測(cè)與銷(xiāo)售服務(wù)合同3篇
- 2024年特色種植技術(shù)合作合同3篇
- 2024年虛擬現(xiàn)實(shí)教育應(yīng)用開(kāi)發(fā)與技術(shù)合作合同
- 2023-2024年中級(jí)經(jīng)濟(jì)師之中級(jí)經(jīng)濟(jì)師經(jīng)濟(jì)基礎(chǔ)知識(shí)能力提升A卷(附答案)
- 2023-2024年一級(jí)注冊(cè)建筑師之建筑經(jīng)濟(jì)施工與設(shè)計(jì)業(yè)務(wù)管理考前沖刺模擬B卷(含答案)
- 2024年版家庭事務(wù)協(xié)調(diào)指南與協(xié)議模板版B版
- 2024年設(shè)備購(gòu)買(mǎi)與轉(zhuǎn)讓合同6篇
- 2024版建筑工程特定條款合同書(shū)版B版
- 2025年高考語(yǔ)文備考之名著閱讀《鄉(xiāng)土中國(guó)》重要概念解釋一覽表
- JG197-2006 預(yù)應(yīng)力混凝土空心方樁
- 醫(yī)院護(hù)理培訓(xùn)課件:《安全注射》
- 變、配電室門(mén)禁管理制度
- 11304+《管理案例分析》紙考2023.12
- 《淺談跳繩體育游戲的實(shí)踐研究》 論文
- 《勇敢面對(duì)挫折和困難》參考課件
- 小學(xué)體育期末檢測(cè)方案
- 手術(shù)室交接班制度
- 2023-2024學(xué)年福建省莆田市荔城區(qū)中山中學(xué)、九中聯(lián)考九年級(jí)(上)期末數(shù)學(xué)試卷
- 接觸網(wǎng)設(shè)備故障應(yīng)急處理
評(píng)論
0/150
提交評(píng)論