


版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
【計(jì)算機(jī)論文】谷歌教AI畫畫:會(huì)讓它像人類那樣思考嗎?
以下是文章主要內(nèi)容:想象一下,有人叫你畫一頭豬和一輛卡車。你可能會(huì)畫成這樣:谷歌教AI畫畫:會(huì)讓它像人類那樣思考嗎?這很簡(jiǎn)單。但接著,想象下你被要求畫個(gè)豬卡車。作為人類,你會(huì)直觀地想到如何將豬和卡車這兩個(gè)物體的特征結(jié)合起來,也許你會(huì)畫成下面這樣:谷歌教AI畫畫:會(huì)讓它像人類那樣思考嗎?看看那條小小的、彎曲的豬尾巴,看看駕駛室有點(diǎn)圓的窗口,該窗口也會(huì)讓你想到眼睛。車輪變成了蹄狀,又或者說豬腳變得像車輪。如果你這么畫,同為人類的我會(huì)主觀地認(rèn)為這是對(duì)“豬卡車”很有創(chuàng)意的一種解讀。谷歌的AI繪畫系統(tǒng)SketchRNN直到最近,只有人類能夠完成這種概念轉(zhuǎn)變,但現(xiàn)在并不只有人類能夠做到了。該豬卡車實(shí)際上是極具吸引力的人工智能系統(tǒng)SketchRNN輸出的作品,該系統(tǒng)是谷歌探究AI能否創(chuàng)作藝術(shù)的新項(xiàng)目的一部分。該項(xiàng)目名為ProjectMagenta,由道格·艾克(DougEck)領(lǐng)導(dǎo)。上周,我在谷歌大腦(GoogleBrain)團(tuán)隊(duì)位于山景城的辦公室拜訪了艾克。該辦公室也是Magenta項(xiàng)目的所在地。艾克非常聰明,也很謙遜。他于2000年在印第安納大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位,后來專注于研究音樂和機(jī)器學(xué)習(xí)技術(shù),一開始是在蒙特利爾大學(xué)(人工智能的溫床)擔(dān)任教授,后來到谷歌供職。在谷歌,他最初從事GoogleMusic音樂服務(wù)項(xiàng)目,后來轉(zhuǎn)到谷歌大腦團(tuán)隊(duì)參與Magenta項(xiàng)目。據(jù)艾克說,他打造可創(chuàng)作藝術(shù)的AI工具的雄心最初只是夸夸其談,“但經(jīng)過幾輪的反復(fù)思考后,我覺得,‘我們當(dāng)然需要做這個(gè),這非常重要。’”正如他和他的同事大衛(wèi)·哈(DavidHa)所寫到的,SketchRNN的意義不僅僅在于學(xué)習(xí)如何畫畫,而在于“用類似于人類的方式概括歸納抽象的概念?!彼麄儾⒉幌胍蛟煲慌_(tái)能夠畫豬的機(jī)器。他們想要打造一臺(tái)能夠識(shí)別和輸出“豬的特征”的機(jī)器,即便機(jī)器得到的是諸如卡車的提示性語言,它也能夠不受影響,作出準(zhǔn)確的判斷。隱含的觀點(diǎn)是,當(dāng)人的畫畫的時(shí)候,他們會(huì)對(duì)這個(gè)世界做抽象的概念。他們會(huì)去畫“豬”的廣義概念,而不是畫特定的動(dòng)物。也就是說,我們的大腦如何存儲(chǔ)“豬的特征”信息和我們?nèi)绾萎嬝i之間存在關(guān)聯(lián)性。學(xué)習(xí)如何畫豬,你可能就能學(xué)到人腦合成豬的特征的能力。這是谷歌的AI軟件的運(yùn)作模式。谷歌開發(fā)了一款名為“Quick,Draw!”的游戲,在人們玩該款游戲時(shí),它會(huì)生成一個(gè)涵蓋人類各種各樣的繪圖(如豬、雨、救火車、瑜伽動(dòng)作、花園和貓頭鷹)的龐大數(shù)據(jù)庫。當(dāng)我們畫的時(shí)候,我們是將豐富多彩、熙熙攘攘的世界壓縮成少數(shù)的一些線條或者筆畫。正是這些簡(jiǎn)單的筆畫構(gòu)成了SketchRNN底層的數(shù)據(jù)集。借助谷歌開源的TensorFlow軟件庫,每一種繪圖——貓,瑜伽動(dòng)作,雨——都能夠用于訓(xùn)練一種特定的神經(jīng)網(wǎng)絡(luò)。這有別于引起媒體廣泛報(bào)道的那種基于照片的繪圖系統(tǒng),比如機(jī)器能夠渲染出梵高或者原來的DeepDream風(fēng)格的照片,又或者能夠畫出任何的形狀,然后給它填充“貓的特征”。這些項(xiàng)目都讓人類覺得很不可思議。它們相當(dāng)有趣,因?yàn)樗鼈兯a(chǎn)生的圖像看起來就像來自人類對(duì)現(xiàn)實(shí)世界的觀察,盡管不完全像。像人那樣用繪圖表達(dá)所看到的東西然而,SketchRNN的輸出作品一點(diǎn)都稱不上不可思議。“它們感覺很真實(shí),”艾克說,“我不想說‘很像人類的作品,’但它們感覺很真實(shí),那些像素生成工具則不然?!边@是Magenta團(tuán)隊(duì)的核心洞見?!叭祟悺⒉皇前咽澜绠?dāng)成一個(gè)像素網(wǎng)格去理解,而是發(fā)展出抽象的概念去表示我們所看到的東西?!卑撕痛笮l(wèi)·哈在描述其工作的論文中寫道,“我們從小時(shí)候就能夠通過用鉛筆或者蠟筆在紙上繪畫來傳達(dá)我們所看到的東西?!比绻祟惸軌蜃龅竭@一點(diǎn),那谷歌會(huì)希望機(jī)器也能夠做到。去年,谷歌CEO桑達(dá)爾·皮查伊(SundarPichai)稱他的公司“以人工智能為先”。對(duì)于谷歌來說,AI是其“將全世界的信息組織起來,使之隨處可得,隨處可用”初始使命的一種自然而然的延伸?,F(xiàn)在不同的地方在于,信息由人工智能來組織,然后使得它們能為廣大用戶使用。Magenta是谷歌組織和理解一個(gè)特定的人類領(lǐng)域的瘋狂嘗試之一。機(jī)器學(xué)習(xí)是谷歌所采用的各種工具最廣泛的一個(gè)概念。它是通過編程讓計(jì)算機(jī)自學(xué)如何執(zhí)行各種不同的任務(wù)的一種方式,常見的方式是給計(jì)算機(jī)注入標(biāo)簽數(shù)據(jù)來進(jìn)行“訓(xùn)練”。進(jìn)行機(jī)器學(xué)習(xí)的一種熱門方式是,借助以人腦的連接系統(tǒng)為原型的神經(jīng)網(wǎng)絡(luò)。不同的節(jié)點(diǎn)(人工神經(jīng)元)會(huì)相互連接,它們有著不同的權(quán)重,會(huì)響應(yīng)部分輸入信息,但不響應(yīng)其它的輸入信息。近年來,多層級(jí)神經(jīng)網(wǎng)絡(luò)被證明在解決棘手的問題上非常成功,尤其是在翻譯和圖像識(shí)別/操縱上。谷歌在這些新架構(gòu)上重新構(gòu)建了很多的核心服務(wù)。這些神經(jīng)網(wǎng)絡(luò)模擬人類大腦的運(yùn)作過程,其互相連接的層可識(shí)別輸入信息(比如圖像)不同的模式。低級(jí)別的層可能含有響應(yīng)光明與黑暗簡(jiǎn)單的像素級(jí)模式的神經(jīng)元。高級(jí)別的層則可能會(huì)響應(yīng)狗的臉、汽車或者蝴蝶。構(gòu)建帶有這種架構(gòu)和機(jī)制的網(wǎng)絡(luò)會(huì)帶來不可思議的成效。原本極其困難的計(jì)算難題變成了調(diào)整模型的訓(xùn)練,然后讓一些圖形處理單元運(yùn)算一會(huì)的問題。正如吉迪恩·劉易斯-克勞斯(GideonLewis-Kraus)在《紐約時(shí)報(bào)》所描述的,谷歌翻譯(GoogleTranslate)曾是一個(gè)開發(fā)超過10年的復(fù)雜系統(tǒng)。該公司后來利用深度學(xué)習(xí)系統(tǒng)僅僅花了9個(gè)月就重新構(gòu)造了一個(gè)谷歌翻譯系統(tǒng)?!霸揂I系統(tǒng)一夜之間就有了巨大的提升,這種提升相當(dāng)于老系統(tǒng)在整個(gè)生命周期積累的全部提升?!眲⒁姿?克勞斯寫道。正因?yàn)榇?,神?jīng)網(wǎng)絡(luò)的使用量和類型呈現(xiàn)井噴式增長(zhǎng)。SketchRNN方面,他們使用可處理輸入序列的遞歸神經(jīng)網(wǎng)絡(luò)。他們用人們畫各種不同的東西時(shí)連續(xù)畫下的筆畫來訓(xùn)練該網(wǎng)絡(luò)。用最簡(jiǎn)單的話來說,這種訓(xùn)練就是一個(gè)編碼的過程。數(shù)據(jù)(繪圖)輸入之后,該網(wǎng)絡(luò)會(huì)嘗試想出它在處理的東西的一般性規(guī)則。那些概括是數(shù)據(jù)的模型,數(shù)據(jù)存儲(chǔ)在描述網(wǎng)絡(luò)中的神經(jīng)元的傾向的數(shù)學(xué)計(jì)算當(dāng)中。那個(gè)結(jié)構(gòu)被稱作潛伏空間或者Z(zed),是豬的特征或者卡車的特征又或者瑜伽動(dòng)作的特征方面的信息存儲(chǔ)的地方。正如AI行業(yè)人士所說的,叫系統(tǒng)做個(gè)樣本,即叫它畫出它訓(xùn)練的東西來,SketchRNN就會(huì)畫出豬或者卡車又或者瑜伽動(dòng)作。它所畫的東西,就是它所學(xué)到的東西。SketchRNN能夠?qū)W到什么?SketchRNN能夠?qū)W到什么呢?下圖是一個(gè)接受過消防車?yán)L畫訓(xùn)練的神經(jīng)網(wǎng)絡(luò)所生成的新消防車。在該模型中,有個(gè)名為“溫度”的變量,它可讓研究人員上下調(diào)整輸出的隨機(jī)性。在下圖中,偏藍(lán)色的圖像是“溫度”下調(diào)后的產(chǎn)物,偏紅色的圖像則是“溫度”上調(diào)后的產(chǎn)物。谷歌教AI畫畫:會(huì)讓它像人類那樣思考嗎?又或者,你可能更喜歡貓頭鷹:谷歌教AI畫畫:會(huì)讓它像人類那樣思考嗎?最好的一個(gè)例子就是瑜伽動(dòng)作:谷歌教AI畫畫:會(huì)讓它像人類那樣思考嗎?這些畫看似人的作品,但它們并不是由人親自繪畫的。它們是對(duì)人類可能會(huì)如何畫這種東西的一種重造。有的畫畫得很不錯(cuò),有的則畫得沒那么好,但如果你是在跟AI玩看圖說詞游戲,那你應(yīng)該不難看出它們是什么。SketchRNN還能夠接受以人工繪圖為形式的輸入。你傳送某種繪圖,然后它就會(huì)嘗試去理解它。如果你給一個(gè)接受過貓數(shù)據(jù)訓(xùn)練的模型輸入一張三眼貓繪圖,那會(huì)發(fā)生什么呢?谷歌教AI畫畫:會(huì)讓它像人類那樣思考嗎?看到?jīng)]?看該模型在右邊的各種輸出圖像(同樣用藍(lán)色和紅色來表示不同的“溫度”),它剔除了第三只眼睛!為什么呢?因?yàn)樵撃P鸵呀?jīng)通過學(xué)習(xí)知道,貓有兩只三角形的耳朵,臉部左右兩邊都有胡須,臉圓圓的,只有兩只眼睛。當(dāng)然,該模型完全不知道耳朵實(shí)際上是什么東西,不知道貓的胡須是否會(huì)動(dòng),甚至不知道臉是什么,也不知道我們的眼睛能夠?qū)D像傳輸?shù)轿覀兊拇竽X。它對(duì)于這些繪圖指代的是什么一無所知。但它確實(shí)知道人類是如何表示貓、豬、瑜伽動(dòng)作或者帆船的?!爱?dāng)我們開始生成帆船的繪圖時(shí),該模型會(huì)基于所輸入的那張繪圖得出數(shù)百張顯示其它帆船模型的繪圖。”谷歌的艾克表示,“我們都能看出它們畫的是什么,因?yàn)樵撃P褪抢盟械挠?xùn)練數(shù)據(jù)得出理想的帆船圖像。它并不是畫出特定的帆船,而是畫出帆船的特征。”成為人工智能運(yùn)動(dòng)的一份子是一件令人興奮的事情,它是有史以來最令人興奮的技術(shù)項(xiàng)目之一,至少對(duì)那些參與其中的人來說是如此,對(duì)于很多其他的人來說也是如此——它甚至能夠擊倒道格·艾克。我是指訓(xùn)練神經(jīng)網(wǎng)絡(luò)畫雨天。輸入一副蓬松的云繪圖,然后就會(huì)出現(xiàn)下面的情況:雨從你給該模型傳送的云下下來。那是因?yàn)楹芏嗳水嬘晏斓臅r(shí)候都是先畫出一朵云來,然后再在下面畫雨。如果該神經(jīng)網(wǎng)絡(luò)看到云,那它就會(huì)在那個(gè)云的形狀下面畫出雨來。(有意思的是,那些數(shù)據(jù)是關(guān)于一連串的筆畫,因此如果你先畫的是雨,那該模型就不會(huì)先畫云朵。)這可以說是一項(xiàng)令人欣喜的工作,但在對(duì)人類如何思考實(shí)施逆向工程的漫長(zhǎng)項(xiàng)目中,這算是一項(xiàng)巧妙的附帶項(xiàng)目,還是很重要的一塊拼圖?艾克認(rèn)為繪圖最吸引人的地方在于,它們用如此少的信息來包含如此多的意義?!澳惝嬕粡埿δ槪恍鑾讉€(gè)筆畫就能畫出來?!彼f道。筆畫看起來跟人臉以像素為基礎(chǔ)的照片完全不一樣。但3歲的小孩也能夠分辨出人臉,也能分辨它開心與否。艾克認(rèn)為這是一種信息壓縮,對(duì)于這種編碼,SketchRNN會(huì)解碼,任何隨心所欲地進(jìn)行重新編碼。SketchRNN覆蓋范圍有限OpenAI研究者安德烈·卡帕錫(AndrejKarpathy)目前在AI研究成果傳播上扮演著重要角色,他說,“我非常支持SketchRNN項(xiàng)目,它真的很酷?!钡仓赋觯麄兙凸P畫的重要性給他們的模型引入了很強(qiáng)的假設(shè),這意味著他們對(duì)于整個(gè)人工智能開發(fā)事業(yè)的貢獻(xiàn)相對(duì)沒那么大?!拔覀冮_發(fā)的生成模型通常都會(huì)嘗試盡可能全面地注重?cái)?shù)據(jù)集的細(xì)節(jié),不管你給它們注入什么數(shù)據(jù),不管是圖像、音頻、文本還是別的東西,它們都適用?!彼f,“除了圖像以外,這些數(shù)據(jù)沒有一樣是由筆畫組成的?!彼a(bǔ)充道,“對(duì)于人們作出很強(qiáng)的假設(shè),將它們編碼到模型中,在各自的特定領(lǐng)域取得更令人印象深刻的成果,我完全能夠接受?!卑撕痛笮l(wèi)·哈正在打造的東西更接近于玩國際象棋的AI,而不是能夠判斷出任意游戲的規(guī)則,也能夠玩這些游戲的AI。對(duì)于卡帕錫來說,兩人當(dāng)前項(xiàng)目覆蓋的范圍似乎比較有限。理解人類的思考方式不過,他們覺得線條畫對(duì)于理解人類的思考方式至關(guān)重要,并不是沒有原因的。除了這兩位谷歌人員之外,也有別的研究者被筆畫的力量所吸引。2012年,喬治亞理工大學(xué)的詹姆斯·海斯(JamesHays)聯(lián)手柏林工業(yè)大學(xué)的馬賽厄斯·艾茲(MathiasEitz)和馬克·亞歷克莎(MarcAlexa)打造了一個(gè)筆畫數(shù)據(jù)集,以及一個(gè)識(shí)別筆畫的機(jī)器學(xué)習(xí)系統(tǒng)。對(duì)于他們而言,繪圖是一種“通用的溝通”形式,是某種所有有標(biāo)準(zhǔn)認(rèn)知功能的人都能夠做和做過的事情?!白允非皶r(shí)代以來,人們都用繪圖式的巖石畫或者洞穴畫來描繪視覺世界?!彼麄儗懙?,“這種象形文字比語言要早幾千年出現(xiàn),如今人人都會(huì)繪畫和識(shí)別繪圖中的物體。”他們提到了多倫多大學(xué)神經(jīng)系統(tǒng)科學(xué)家德克·沃爾特(DirkWalther)在《美國國家科學(xué)院院刊》上發(fā)表的論文,該論文說“簡(jiǎn)單抽象的繪圖激活我們的大腦的方式與真實(shí)的刺激物相似?!蔽譅柼睾驮撜撐牡暮现呒俣?,線條畫“可捕捉我們自然世界的本質(zhì),”盡管逐個(gè)像素來看,貓的線條畫看上去一點(diǎn)都不像貓的照片。如果說我們大腦中的神經(jīng)元是在神經(jīng)網(wǎng)絡(luò)模擬的分層結(jié)構(gòu)內(nèi)運(yùn)作,那繪圖可能是掌握存儲(chǔ)我們對(duì)于物體的簡(jiǎn)化概念(沃爾特所說的“本質(zhì)”)的層級(jí)的一種方式。也就是說:它們可能能夠讓我們真正理解我們的祖先很久以前進(jìn)化成現(xiàn)代形態(tài)的時(shí)候人類開始采用的那種新思考方式。繪圖,不管是在洞穴的墻壁上還是在紙巾的背面上,或許描繪了從識(shí)別馬到識(shí)別馬的特征的進(jìn)化,從畫出日常經(jīng)歷到畫出抽象的象征性思維的進(jìn)化,這也是人類進(jìn)化成現(xiàn)代形態(tài)的過程。人類的現(xiàn)代生活大多數(shù)都源自那一轉(zhuǎn)變:語言,金錢,數(shù)學(xué)計(jì)算,最后是電腦運(yùn)算本身。因此,如果繪圖最終在意義重大的人工智能的打造上扮演重要的角色,那就最好不過了。然而,對(duì)于人類來說,繪圖是對(duì)真實(shí)物品的一種描繪。我們能夠輕易理解抽象的四線表示法和物品本身之間的關(guān)系。該概念對(duì)于我們來說有某種意義。對(duì)于SketchRNN來說,繪圖就是一連串的筆畫,是經(jīng)過一定的時(shí)間形成的一個(gè)形狀。機(jī)器的任務(wù)是抓住我們的繪圖所描述的東西的本質(zhì),嘗試?yán)盟鼈儊砝斫膺@個(gè)世界。SketchRNN團(tuán)隊(duì)正在探索多個(gè)不同的方向。他們可能會(huì)開發(fā)一個(gè)嘗試通過人類反饋提升繪畫能力的系統(tǒng)。他們可能會(huì)在一種以上的繪圖上訓(xùn)練模型。也許他們將會(huì)找到辦法去判斷他們受過繪圖中的豬特征識(shí)別訓(xùn)練的模型能否推廣到識(shí)別照片級(jí)圖像中豬的特征。我個(gè)人很希望看到他們的模型能夠接入其它在傳統(tǒng)的貓圖上訓(xùn)練過的模式。SketchRNN只是“第一步”但他們自己也坦言,SketchRNN只是“第一步”,要學(xué)習(xí)的還有很多。這些解碼繪圖的機(jī)器要參與的人類藝術(shù)歷史相當(dāng)悠久。在給《紐約客》(TheNewYorker)撰寫有關(guān)歐洲洞穴壁畫的文章時(shí),朱迪思·瑟曼(JudithThurman)寫道,舊石器時(shí)代的藝術(shù)在“長(zhǎng)達(dá)2.5萬年的時(shí)間里幾乎沒有變化,幾乎沒有任何的創(chuàng)新或者抵制活動(dòng)?!彼赋觯鞘恰坝杏涗浀臍v史的四倍長(zhǎng)”。計(jì)算機(jī),尤其是新的人工智能技術(shù),正在動(dòng)搖長(zhǎng)久以來人類對(duì)于自己擅長(zhǎng)做的事情的觀念。人類在1990年代在西洋跳棋比賽中輸給機(jī)器,之后下國際象棋也輸給機(jī)器,近年則是在圍棋比賽中輸給AlphaGo
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 電焊工施工合同協(xié)議書
- 湖北省隨州市部分高中2024-2025學(xué)年高一下學(xué)期2月聯(lián)考地理試卷(含答案)
- 洗衣設(shè)備購銷合同共
- 健身房運(yùn)營(yíng)管理作業(yè)指導(dǎo)書
- 會(huì)議策劃與活動(dòng)執(zhí)行服務(wù)協(xié)議
- 健康科技在老年健康管理中的應(yīng)用解決方案
- 水利建設(shè)工程施工合同協(xié)議書
- 大學(xué)生科普小說讀后感
- 觀看紀(jì)錄片長(zhǎng)江觀后感
- 車隊(duì)土石方運(yùn)輸合同
- 化學(xué)電源電化學(xué)原理
- 英語國家概況謝福之chapter-1
- 高頻訂單失衡及價(jià)差因子
- 部門預(yù)算與預(yù)算管理(PPT-38頁)課件
- (KPI績(jī)效考核)某制造業(yè)公司X年績(jī)效考核全套考核指標(biāo)
- 布朗德戰(zhàn)略導(dǎo)向的薪酬管理體系
- SOP標(biāo)準(zhǔn)作業(yè)指導(dǎo)書樣板
- 食品經(jīng)營(yíng)餐飲操作流程(共1頁)
- JTS 144-1-2010 港口工程荷載規(guī)范
- 產(chǎn)液剖面介紹
- 美國UNF和unc螺紋標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論