版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1.1工業(yè)化、信息化社會(huì)的結(jié)晶——人工智能誕生1.2人類智能與人工智能1.3人工智能解決的主要問(wèn)題1.4人工智能的主要學(xué)習(xí)方式1.5學(xué)習(xí)人工智能的意義1.1工業(yè)化、信息化社會(huì)的結(jié)晶
——人工智能誕生人類科技的每一次重大發(fā)展都起源于各種早期的原始創(chuàng)新。近六十年來(lái),人工智能也正在一步步地實(shí)現(xiàn)中。特別是由于人工智能在近二十年的快速發(fā)展,推動(dòng)人類社會(huì)進(jìn)入了科技發(fā)展的新時(shí)代——人工智能時(shí)代,讓我們享受到了前所未有的工作與生活上的便利。如今,人類一直以來(lái)的設(shè)想——?jiǎng)?chuàng)造出有智力且能與人合作、交流的人工智能機(jī)器也正在逐步變?yōu)楝F(xiàn)實(shí)。在如今人工智能應(yīng)用最廣泛的幾大領(lǐng)域中,我們已經(jīng)能夠發(fā)現(xiàn)智能機(jī)器的身影。如圖1.1所示;當(dāng)你對(duì)手機(jī)語(yǔ)音助手說(shuō)一句話時(shí),手機(jī)能自動(dòng)識(shí)別出你所說(shuō)話的內(nèi)容,并反饋你所需要的天氣、新聞、熱門(mén)娛樂(lè)等內(nèi)容,這是人工智能在語(yǔ)音識(shí)別中的應(yīng)用。可以說(shuō),人工智能的誕生是人類科學(xué)技術(shù)發(fā)展的必然產(chǎn)物。讓機(jī)器擁有人類的智能成為人類夢(mèng)寐以求的事情,人工智能的概念也就逐步產(chǎn)生了。近二十年來(lái),人工智能的理論與技術(shù)得到了突飛猛進(jìn)的發(fā)展,其應(yīng)用也日益滲透到人類的生產(chǎn)、科研、軍事和日常生活的方方面面,例如智慧城市管理、智慧醫(yī)療、智慧旅游、智能家居、智能機(jī)器人、軍事智能化決策與管理等。人工智能的迅速發(fā)展將深刻改變世界政治和經(jīng)濟(jì)格局,改變?nèi)祟惿鐣?huì)生活。當(dāng)前,人工智能已經(jīng)成為國(guó)際競(jìng)爭(zhēng)的新焦點(diǎn)。人工智能是引領(lǐng)未來(lái)的戰(zhàn)略性技術(shù),世界各主要發(fā)達(dá)國(guó)家均把發(fā)展人工智能作為提升國(guó)家競(jìng)爭(zhēng)力、維護(hù)國(guó)家安全的重大戰(zhàn)略,加緊出臺(tái)規(guī)劃和政策,圍繞核心技術(shù)、頂尖人才、標(biāo)準(zhǔn)規(guī)范等強(qiáng)化部署,力圖在新一輪國(guó)際科技競(jìng)爭(zhēng)中掌握主導(dǎo)權(quán)。人工智能已經(jīng)成為經(jīng)濟(jì)發(fā)展的新引擎,新技術(shù)、新產(chǎn)品、新產(chǎn)業(yè)、新業(yè)態(tài)、新模式層出不窮,將引發(fā)經(jīng)濟(jì)結(jié)構(gòu)的重大變革,深刻改變?nèi)祟惿a(chǎn)生活方式和思維模式,實(shí)現(xiàn)社會(huì)生產(chǎn)力的整體躍升。為搶抓人工智能發(fā)展的重大戰(zhàn)略機(jī)遇,構(gòu)筑我國(guó)人工智能發(fā)展的先發(fā)優(yōu)勢(shì),加快建設(shè)創(chuàng)新型國(guó)家和世界科技強(qiáng)國(guó),黨中央和國(guó)務(wù)院高度重視人工智能的理論創(chuàng)新和技術(shù)應(yīng)用,出臺(tái)了一系列文件和戰(zhàn)略規(guī)劃。例如《國(guó)務(wù)院關(guān)于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知(國(guó)發(fā)〔2017〕35號(hào))》對(duì)我國(guó)未來(lái)人工智能的發(fā)展進(jìn)行了頂層設(shè)計(jì),出臺(tái)了中長(zhǎng)期戰(zhàn)略規(guī)劃,這是我國(guó)人工智能發(fā)展的綱領(lǐng)性文件,必將有力推動(dòng)我國(guó)人工智能的理論創(chuàng)新和技術(shù)應(yīng)用。1.1.1人工智能發(fā)展歷程簡(jiǎn)介歷史上,有關(guān)人工智能的概念與研究大致經(jīng)歷了三個(gè)發(fā)展時(shí)期。人工智能在各個(gè)歷史時(shí)期的研究側(cè)重點(diǎn)有所不同,其成果如表1.1所示。下面分別介紹人工智能在各個(gè)歷史時(shí)期的發(fā)展?fàn)顩r。1.人工智能的萌芽早在1950年,計(jì)算機(jī)科學(xué)家阿蘭·圖靈就提出了著名的圖靈測(cè)試。在這個(gè)測(cè)試中,一位測(cè)試員與一個(gè)密室里的一臺(tái)機(jī)器和人分別進(jìn)行對(duì)話。如果測(cè)試員分辨不出對(duì)話目標(biāo)是人還是機(jī)器,那么就認(rèn)為機(jī)器通過(guò)測(cè)試。這種想法對(duì)人工智能的發(fā)展產(chǎn)生了深遠(yuǎn)的影響。在原始的、與人工智能相關(guān)的概念中,模擬人類智能的想法一直處于探索之中,其中的一個(gè)重要進(jìn)展是研究和人類大腦細(xì)胞具有類似功能的人工神經(jīng)元模型。早在20世紀(jì)40年代,也就是1943年,心理學(xué)家W.S.McCulloch和數(shù)學(xué)家W.Pitts提出了著名的M-P模型,這標(biāo)志著人類開(kāi)始用數(shù)學(xué)模型化的方法研究人腦的功能。這種模型可以用非線性特征加布爾運(yùn)算實(shí)現(xiàn)計(jì)算,從而來(lái)刻畫(huà)網(wǎng)絡(luò)各單元的動(dòng)態(tài)變化。該模型的基本特點(diǎn)是神經(jīng)元的連接權(quán)值固定,因此這一模型賦予形式神經(jīng)元的功能是較弱的,但由于網(wǎng)絡(luò)中有足夠多的節(jié)點(diǎn),且節(jié)點(diǎn)間有豐富的連接,因此這種網(wǎng)絡(luò)的計(jì)算潛力是巨大的。在此基礎(chǔ)上,1949年,心理學(xué)家Hebb提出了改變神經(jīng)元連接強(qiáng)度(即連接權(quán))的學(xué)習(xí)規(guī)則,使神經(jīng)網(wǎng)絡(luò)具有了可塑性。他認(rèn)為學(xué)習(xí)過(guò)程發(fā)生在突觸,連接權(quán)的調(diào)整正比于兩相連神經(jīng)元之間激活值的乘積,這就是著名的Hebb學(xué)習(xí)規(guī)則。這一規(guī)則仍是現(xiàn)代神經(jīng)網(wǎng)絡(luò)中一個(gè)極為重要的學(xué)習(xí)規(guī)則。到目前為止,大部分神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)規(guī)則仍采用Hebb規(guī)則及其改進(jìn)型。Hebb還提出了下面兩條關(guān)于網(wǎng)絡(luò)功能的論點(diǎn):(1)神經(jīng)細(xì)胞可通過(guò)聯(lián)系強(qiáng)化成小集團(tuán),形成神經(jīng)細(xì)胞集合;(2)表象的分布性,許多細(xì)胞共同參與反映某事物的表象。上述論點(diǎn)說(shuō)明人腦中不存在中央控制單元,闡明了人腦的記憶具有分布式的特點(diǎn)。實(shí)際上,對(duì)有關(guān)腦切除與記憶損失的研究結(jié)論證實(shí)了上述論點(diǎn)的正確性。上述M-P模型和Hebb學(xué)習(xí)規(guī)則極大地推進(jìn)了之后大規(guī)模人工神經(jīng)網(wǎng)絡(luò)理論研究和應(yīng)用發(fā)展。這些早期的有關(guān)人工智能的研究,為之后人工智能及相關(guān)理論的進(jìn)一步發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。1954年,美國(guó)人喬治·戴沃爾設(shè)計(jì)了世界上第一臺(tái)可編程機(jī)器人。1956年,包括馬文·明斯基、約翰·麥卡錫、克勞德·艾爾伍德·香農(nóng)等著名學(xué)者在內(nèi)的多名科學(xué)家,在美國(guó)達(dá)特茅斯學(xué)院組織交流討論會(huì),并為使用機(jī)器來(lái)模擬人類智能的領(lǐng)域確定了名字——“人工智能”。人工智能從此正式誕生。1958年,Rosenblatt提出了著名的感知機(jī)模型,這是有關(guān)人工智能的最早、最著名的學(xué)習(xí)算法之一,它可以完成一些簡(jiǎn)單的分類任務(wù),是人工智能中有關(guān)機(jī)器學(xué)習(xí)的經(jīng)典方法之一。2.人工智能發(fā)展的低谷時(shí)期人工智能經(jīng)過(guò)初步發(fā)展,隨后又誕生了相關(guān)的應(yīng)用成果,由于當(dāng)時(shí)的計(jì)算機(jī)缺乏足夠的計(jì)算能力以滿足大型神經(jīng)網(wǎng)絡(luò)的運(yùn)行,加上馬文·明斯基又是業(yè)界赫赫有名的權(quán)威人士,使得人們對(duì)人工智能的信心逐漸喪失,包含神經(jīng)網(wǎng)絡(luò)在內(nèi)的人工智能相關(guān)的研究陷入了第一次低谷。雖然這個(gè)時(shí)候人工智能不再有剛開(kāi)始研究時(shí)的熱度,但相關(guān)理論的研究仍在逐步發(fā)展。1972年,芬蘭教授圖沃·科荷倫提出了自組織映射理論,而這正是現(xiàn)代神經(jīng)網(wǎng)絡(luò)的雛形。如今許多神經(jīng)網(wǎng)絡(luò)模型正是基于圖沃·科荷倫的工作來(lái)進(jìn)行的。與此同時(shí),美國(guó)科學(xué)家詹姆斯·安德森提出了盒中腦網(wǎng)絡(luò),可以實(shí)現(xiàn)一定的分類和知識(shí)處理功能。1980年,日本科學(xué)家福島邦彥為了解決視覺(jué)模式識(shí)別的相關(guān)問(wèn)題,提出了一種“新認(rèn)知機(jī)”。這種理論與生物視覺(jué)理論相結(jié)合,產(chǎn)生了一種新的神經(jīng)網(wǎng)絡(luò)模型,其具有一定的、像人類一樣的模式識(shí)別能力。而大約在這個(gè)時(shí)期,專家系統(tǒng),即一種可以根據(jù)一定的規(guī)則解決某個(gè)領(lǐng)域問(wèn)題的程序系統(tǒng),同樣取得了一定的進(jìn)展??突仿〈髮W(xué)曾開(kāi)發(fā)了名為XCON的專家系統(tǒng),在當(dāng)時(shí)XCON擁有巨大的商業(yè)價(jià)值,對(duì)人工智能的發(fā)展產(chǎn)生了巨大的影響。大約在20世紀(jì)80年代,在機(jī)器學(xué)習(xí)相關(guān)的領(lǐng)域中,產(chǎn)生了基于概率統(tǒng)計(jì)的決策樹(shù)等人工智能方法。之后,由于人們對(duì)專家系統(tǒng)等人工智能方法的期望過(guò)高,對(duì)專家系統(tǒng)的投資并不能取得相應(yīng)的回報(bào),使得人們對(duì)相關(guān)人工智能領(lǐng)域的投資慢慢減少,人工智能再次步入低谷。3.人工智能的復(fù)興與穩(wěn)步發(fā)展進(jìn)入20世紀(jì)80年代,以美國(guó)為發(fā)端,神經(jīng)網(wǎng)絡(luò)的研究又獲得了重大的突破。其標(biāo)志性事件是1982年美國(guó)加州理工學(xué)院的生物物理學(xué)家約翰·霍普菲爾德在美國(guó)國(guó)家科學(xué)院的刊物上發(fā)表了著名的“Hopfield模型”理論。這是一個(gè)非線性動(dòng)力系統(tǒng)的理論模型。他在這種網(wǎng)絡(luò)模型的研究中首次引入了網(wǎng)絡(luò)能量函數(shù)的概念,并給出了網(wǎng)絡(luò)穩(wěn)定性判據(jù),還研究了神經(jīng)網(wǎng)絡(luò)的動(dòng)力學(xué)漸近行為,并在神經(jīng)計(jì)算和聯(lián)想記憶方面作出了開(kāi)創(chuàng)性的工作。如果把網(wǎng)絡(luò)的各平衡點(diǎn)設(shè)想為存儲(chǔ)于該網(wǎng)絡(luò)中的信息,則網(wǎng)絡(luò)的穩(wěn)定性將保證這一網(wǎng)絡(luò)的動(dòng)力學(xué)性質(zhì)隨時(shí)間的演化收斂到這些平衡點(diǎn)之一,從而使網(wǎng)絡(luò)具有聯(lián)想記憶的特性。信息存儲(chǔ)于整個(gè)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)中,因而是分布式存儲(chǔ),這種信息存儲(chǔ)方式不同于把信息孤立地存儲(chǔ)于互不聯(lián)系的存儲(chǔ)單元之中,從而使其具有較大的容錯(cuò)能力。這就從根本上克服了以邏輯推理為基礎(chǔ)的人工智能理論和馮·諾依曼計(jì)算機(jī)在處理視覺(jué)、聽(tīng)覺(jué)、形象思維、聯(lián)想記憶和運(yùn)動(dòng)控制等方面的缺陷。1984年,約翰·?霍普菲爾德又提出了用運(yùn)算放大器實(shí)現(xiàn)該網(wǎng)絡(luò)模型的電子線路,為神經(jīng)網(wǎng)絡(luò)的工程實(shí)現(xiàn)提供了有重要參考價(jià)值的實(shí)現(xiàn)途徑。人類又重新燃起研究人工神經(jīng)網(wǎng)絡(luò)的信心,這使得人工智能的研究進(jìn)入了一個(gè)全新的時(shí)期。這一時(shí)期的人們更加注重于基于實(shí)際問(wèn)題的相關(guān)智能算法的研究。20世紀(jì)90年代,基于統(tǒng)計(jì)學(xué)的人工智能方法登上了歷史舞臺(tái),這使得人們的研究重點(diǎn)轉(zhuǎn)向如何讓計(jì)算機(jī)模擬人類的一系列行為。除了已有的感知機(jī)、決策樹(shù)等方法,還產(chǎn)生了開(kāi)創(chuàng)性的支持向量機(jī)方法,這是一種使用有監(jiān)督學(xué)習(xí)規(guī)則實(shí)現(xiàn)二分類任務(wù)的線性分類器,在一些領(lǐng)域中取得了較為良好的分類效果。2000年以后,更進(jìn)一步發(fā)展出了諸如隨機(jī)森林和大規(guī)模感知機(jī)等人工智能方法。這些基于概率統(tǒng)計(jì)的算法成功應(yīng)用到了多個(gè)領(lǐng)域中,如語(yǔ)音識(shí)別、網(wǎng)頁(yè)搜索等。2006年,杰弗里·欣頓提出了基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)[1,2],這是一種早先提出的將多個(gè)數(shù)字神經(jīng)元分層并連接形成的神經(jīng)網(wǎng)絡(luò)。這種早期的以“連接”為主的學(xué)習(xí)方式再次引起了人們的注意,并廣泛應(yīng)用于模式識(shí)別等頗具實(shí)際價(jià)值的領(lǐng)域中。此后,受益于計(jì)算機(jī)軟件與硬件性能提高,以神經(jīng)網(wǎng)絡(luò)為代表的人工智能技術(shù)不斷發(fā)展,其后產(chǎn)生的深度學(xué)習(xí)算法更是被廣泛應(yīng)用于多個(gè)領(lǐng)域的產(chǎn)品開(kāi)發(fā)中。至此人工智能發(fā)展的高潮再次來(lái)臨。2018年,杰弗里·欣頓榮獲了計(jì)算機(jī)領(lǐng)域的最高獎(jiǎng)項(xiàng)——圖靈獎(jiǎng)。如今,世界范圍內(nèi)的大量科學(xué)家和學(xué)者的研究不斷推動(dòng)著人工智能技術(shù)的發(fā)展,而一些比較突出的研究成果已經(jīng)應(yīng)用到了實(shí)際中。此外,一些科技巨頭推出的人工智能開(kāi)發(fā)平臺(tái)也為人工智能的發(fā)展起到了推動(dòng)作用,例如谷歌研發(fā)的TensorFlow。人工智能在世界范圍內(nèi)的再一次復(fù)興與發(fā)展自然也對(duì)我國(guó)的科學(xué)研究產(chǎn)生了巨大的影響。20世紀(jì)90年代,國(guó)內(nèi)對(duì)于人工神經(jīng)網(wǎng)絡(luò)方面的研究也有了長(zhǎng)足的進(jìn)步,可以利用人工神經(jīng)網(wǎng)絡(luò)解決多種非線性系統(tǒng)方面的問(wèn)題,并已獲得了重要的研究成果,引發(fā)了國(guó)內(nèi)外學(xué)者的廣泛關(guān)注。此外,我國(guó)也陸續(xù)創(chuàng)辦了一系列人工神經(jīng)網(wǎng)絡(luò)的期刊,并組織開(kāi)辦了相關(guān)的學(xué)術(shù)會(huì)議,推動(dòng)了我國(guó)人工智能的進(jìn)一步發(fā)展。1.1.2當(dāng)代人工智能技術(shù)的進(jìn)展和展望互聯(lián)網(wǎng)技術(shù)的日益發(fā)展和層出不窮的新的技術(shù)概念,使得人工智能的發(fā)展進(jìn)入了一個(gè)蓬勃的時(shí)期。比如大數(shù)據(jù)概念的提出,使人工智能在多個(gè)領(lǐng)域中的應(yīng)用成為可能。同時(shí)由于人工智能的不斷發(fā)展,對(duì)數(shù)據(jù)的解析能力也不斷增強(qiáng),又進(jìn)一步促進(jìn)了計(jì)算機(jī)處理海量數(shù)據(jù)的能力。除此之外,云計(jì)算、物聯(lián)網(wǎng)和5G等技術(shù)的產(chǎn)生和應(yīng)用,也從多個(gè)方面支撐著人工智能技術(shù)的不斷發(fā)展。在這樣的背景下,多學(xué)科交叉成為人工智能發(fā)展的新方向,如在圖像分類識(shí)別、圖像智能跟蹤、語(yǔ)音識(shí)別、文本挖掘、無(wú)人駕駛等領(lǐng)域,很多研究成果已經(jīng)從實(shí)驗(yàn)室走到了人們的現(xiàn)實(shí)生活中,例如智能無(wú)人駕駛汽車(見(jiàn)圖1.4)。當(dāng)前,人臉識(shí)別的準(zhǔn)確率最高可達(dá)99%,已經(jīng)廣泛應(yīng)用到了安檢、購(gòu)物、金融和手機(jī)開(kāi)機(jī)等日常生活中。
目前,人工智能正在加速與各個(gè)行業(yè)進(jìn)行深度融合,在許多領(lǐng)域中掀起了技術(shù)革命。未來(lái)新興產(chǎn)業(yè)發(fā)展也會(huì)逐漸依賴于人工智能的理論與技術(shù)。目前,多家科技巨頭紛紛布局人工智能產(chǎn)業(yè)領(lǐng)域,其中有谷歌、Facebook、微軟、蘋(píng)果、英特爾、甲骨文、IBM等一批國(guó)外企業(yè),也包括阿里、騰訊、百度等眾多國(guó)內(nèi)知名企業(yè)。
未來(lái)的人工智能發(fā)展將包含數(shù)據(jù)、算法、芯片、軟件等設(shè)計(jì),而這些研究?jī)?nèi)容將廣泛應(yīng)用于機(jī)械制造、智能醫(yī)療、智慧城市、智能家居和智能駕駛等方面,產(chǎn)生巨大的經(jīng)濟(jì)效益,因此各大科技巨頭都在搶占未來(lái)人工智能產(chǎn)業(yè)的制高點(diǎn)。由此可見(jiàn),人工智能在未來(lái)的發(fā)展無(wú)可限量。同樣,未來(lái)人工智能將加速各個(gè)學(xué)科領(lǐng)域的相互交叉與滲透。人工智能未來(lái)將進(jìn)入生物啟發(fā)的智能階段,將神經(jīng)科學(xué)、腦科學(xué)等領(lǐng)域的發(fā)現(xiàn)轉(zhuǎn)變?yōu)榭梢员挥?jì)算機(jī)識(shí)別的模型,雖然現(xiàn)在國(guó)際上有學(xué)者質(zhì)疑人工智能的概念與科學(xué)研究倫理,但不可否認(rèn)的是,人工智能確實(shí)給人類社會(huì)的發(fā)展增添了重要的推動(dòng)力。人工智能將成為未來(lái)各國(guó)產(chǎn)業(yè)發(fā)展的重要競(jìng)爭(zhēng)領(lǐng)域之一。1.2人類智能與人工智能1.2.1人類智能與人工智能概述在人工智能高速發(fā)展的過(guò)程中,總有一些人對(duì)人工智能表示擔(dān)憂。人們擔(dān)心人工智能如果按照這樣的趨勢(shì)發(fā)展下去,將來(lái)一定會(huì)誕生可能威脅到人類生存的智能體,因此他們建議應(yīng)該嚴(yán)防人工智能的過(guò)度發(fā)展。一方面,人們主要擔(dān)憂如果真的誕生了智力程度不輸給人類的智能體,加上計(jì)算機(jī)自身計(jì)算能力和存儲(chǔ)信息的能力遠(yuǎn)遠(yuǎn)超過(guò)人類,這樣的智能體非常有可能威脅到人類自身的生存。另一方面,如果誕生了這樣的智能體,對(duì)人類社會(huì)的倫理道德也是一次前所未有的巨大挑戰(zhàn)。其實(shí),當(dāng)前人工智能的發(fā)展還停留在非常早期的階段。首先,目前人工智能賴以發(fā)展的各種理論基礎(chǔ)、經(jīng)典算法,都是在較長(zhǎng)的時(shí)間之前就已經(jīng)誕生了的,并被不斷地分析和證明。人工智能長(zhǎng)足發(fā)展得益于目前各種算法所要具備的兩大條件,即海量的數(shù)據(jù)與硬件計(jì)算能力的提升。另外,硬件技術(shù)的發(fā)展,又為這樣大批量數(shù)據(jù)的學(xué)習(xí)帶來(lái)了運(yùn)算時(shí)間上的保證。此外,神經(jīng)網(wǎng)絡(luò)專用硬件的發(fā)展也為人工智能的應(yīng)用提供了支持。上述基礎(chǔ)條件保證了人工智能的發(fā)展和應(yīng)用,也進(jìn)一步推動(dòng)了人工智能領(lǐng)域的深入研究。但同時(shí)我們需要認(rèn)識(shí)到,目前已有的人工智能技術(shù)距離達(dá)到人類智力尚有很遠(yuǎn)的距離,在許多領(lǐng)域內(nèi)人工智能還無(wú)法勝任,因此,目前有關(guān)人工智能超越人類智能的擔(dān)憂是完全沒(méi)有必要的。人類在研究自然、改造自然的過(guò)程中,逐漸認(rèn)識(shí)到了研究人腦的物質(zhì)結(jié)構(gòu)、意識(shí)活動(dòng)和生物特征的極端重要性。雖然人們已能從神經(jīng)結(jié)構(gòu)、細(xì)胞體構(gòu)成和分子生物學(xué)的水平上初步探明人類大腦組織的特征,并已可以通過(guò)生理實(shí)驗(yàn)證明許多大腦的認(rèn)知機(jī)理,而且從定性上掌握了人腦的信息處理具有并行運(yùn)算、分布式存儲(chǔ)、自學(xué)習(xí)和聯(lián)想記憶的特點(diǎn)。人腦神經(jīng)生理學(xué)的研究表明,人的大腦由1011~1012個(gè)神經(jīng)元組成,而其中每一個(gè)神經(jīng)元又與其他102~104個(gè)神經(jīng)元相連,全部大腦神經(jīng)元經(jīng)神經(jīng)元之間的神經(jīng)鍵結(jié)合,構(gòu)成拓?fù)渖蠘O其復(fù)雜的神經(jīng)網(wǎng)絡(luò)。人腦具有層次結(jié)構(gòu),其中最復(fù)雜的部分是處于大腦最外層的大腦皮層。在大腦皮層中密布著由大量神經(jīng)元構(gòu)成的神經(jīng)網(wǎng)絡(luò),這就使它具有高度的分析與綜合能力。大腦皮層是人腦思維活動(dòng)的物質(zhì)基礎(chǔ),是腦神經(jīng)系統(tǒng)的核心部分。人們通過(guò)長(zhǎng)期的研究,進(jìn)一步探明了人類大腦皮層是由許多不同的功能區(qū)構(gòu)成的。在每個(gè)功能區(qū)中,又包含許多負(fù)責(zé)某一具體功能的神經(jīng)元群。更進(jìn)一步細(xì)分,某一層神經(jīng)元僅對(duì)水平光線產(chǎn)生反應(yīng),而另一層神經(jīng)元只對(duì)垂直光線產(chǎn)生反應(yīng)。需要特別指出的是,大腦皮層的這種區(qū)域性結(jié)構(gòu),雖然是由人的遺傳特性所決定的,具有先天性,但各區(qū)域所具有的功能大部分是人在后天通過(guò)對(duì)環(huán)境的適應(yīng)和學(xué)習(xí)而得來(lái)的,神經(jīng)元的這種特性稱為自組織特性。人類大腦的定義有廣義和狹義之分:狹義指的是中樞神經(jīng)系統(tǒng),廣義則指的是整個(gè)神經(jīng)系統(tǒng)。因此從廣義上來(lái)理解,人腦科學(xué)與神經(jīng)生物學(xué)是同一概念。人的大腦是生物體內(nèi)結(jié)構(gòu)和功能最復(fù)雜的器官,同時(shí)它也是極為精巧和完善的信息處理系統(tǒng),人腦的智能活動(dòng)研究必須是多層次的,人腦科學(xué)發(fā)展有一個(gè)顯著特點(diǎn),即對(duì)人腦的研究很大程度上依賴于技術(shù)的發(fā)展和完善。分子生物學(xué)方法、神經(jīng)電生物學(xué)方法、神經(jīng)系統(tǒng)成像方法以及復(fù)雜系統(tǒng)的非線性方法是目前腦科學(xué)研究的最新趨勢(shì)。由于腦神經(jīng)細(xì)胞的數(shù)量巨大(約為1011~1012個(gè)神經(jīng)元)和連接的高度復(fù)雜性,使得人們直到目前為止還不能完全掌握人腦的物質(zhì)組成結(jié)構(gòu)、大腦思維、意識(shí)和精神活動(dòng)的特點(diǎn)。但是,人類的大腦是讓我們能夠認(rèn)識(shí)世界、改造世界的核心,人類社會(huì)正是在認(rèn)識(shí)世界與改造世界的過(guò)程之中,才一步步走向現(xiàn)代化的。人工智能的概念是20世紀(jì)由計(jì)算機(jī)科學(xué)家們共同提出的,它可以被定義為兩部分,即“人工”和“智能”?!叭斯ぁ?,顧名思義,就是指人造。目前的人工智能都可以看作是人工創(chuàng)造出來(lái)的一種系統(tǒng);而“智能”所涉及的概念就包含了許多方面的內(nèi)容,它的概念正是通過(guò)人類智能的概念來(lái)設(shè)定的。人工智能的任務(wù)就是像人類智能一樣去學(xué)習(xí)并運(yùn)用知識(shí),完成人類的工作,為人類分擔(dān)一部分工作量。但是,人工智能并不等同于人類智能。1.2.2人類智能與人工智能的比較人工智能正是通過(guò)對(duì)人類智能的研究,才能夠有所發(fā)展的。例如,當(dāng)今應(yīng)用廣泛的以神經(jīng)網(wǎng)絡(luò)為代表的人工智能技術(shù)起初正是通過(guò)模擬人類大腦的最基本的單元——神經(jīng)元來(lái)實(shí)現(xiàn)一定的識(shí)別功能的,比如最初的M-P神經(jīng)元。圖1.6是生物神經(jīng)元模型的示意圖。神經(jīng)元包含細(xì)胞體、樹(shù)突和軸突三個(gè)主要組成部分。樹(shù)突充當(dāng)神經(jīng)元的輸入端,接收來(lái)自其他神經(jīng)元的神經(jīng)信號(hào)輸入并送入細(xì)胞體。軸突充當(dāng)神經(jīng)元的輸出端,負(fù)責(zé)將細(xì)胞體產(chǎn)生的神經(jīng)信號(hào)傳導(dǎo)出去。細(xì)胞體是神經(jīng)元新陳代謝的中心,也是接收與處理信息的部件。樹(shù)突圍繞細(xì)胞體形成樹(shù)狀結(jié)構(gòu),通過(guò)突觸接收其他神經(jīng)元輸入的信號(hào)。軸突是細(xì)胞體向外延伸最長(zhǎng)、最粗的一條樹(shù)枝纖維體,它是神經(jīng)元的輸出通道。神經(jīng)元的輸出信號(hào)通過(guò)此通道,從細(xì)胞體遠(yuǎn)距離地傳送到神經(jīng)系統(tǒng)的其他部分。突觸是一個(gè)神經(jīng)元的軸突與另一個(gè)神經(jīng)元的樹(shù)突之間的功能性接觸點(diǎn),在突觸處兩個(gè)神經(jīng)元并不相通,它僅僅是彼此發(fā)生功能聯(lián)系的界面。關(guān)于突觸傳遞,已知的有電傳遞和化學(xué)傳遞兩種。神經(jīng)元之間相互作用的機(jī)理至今仍未完全搞清楚,一般說(shuō)突觸可分為興奮型和抑制型兩種。若突觸后膜的電位超過(guò)引起神經(jīng)激發(fā)的閾值即為興奮型,否則為抑制型。一個(gè)神經(jīng)元將所有與其輸入通路相連的突觸上的興奮電流收集起來(lái),若興奮電流占主導(dǎo)地位,則該神經(jīng)元被激活,并將這個(gè)信息通過(guò)與其輸出通道相連的突觸傳送給其他神經(jīng)元。人腦中有的神經(jīng)元只與鄰近很少幾個(gè)神經(jīng)元通信,而有的神經(jīng)元卻與幾千個(gè)神經(jīng)元相連。突觸的另一個(gè)特點(diǎn)是具有可塑性,即神經(jīng)元的神經(jīng)鍵(突觸)隨著動(dòng)作電位的脈沖激勵(lì)方式與強(qiáng)度的變化,其電位傳遞作用可增強(qiáng)或減弱,這是人工神經(jīng)網(wǎng)絡(luò)權(quán)值學(xué)習(xí)的生物學(xué)基礎(chǔ)。圖1.7是簡(jiǎn)單的M-P神經(jīng)元模型的示意圖,它模擬了生物神經(jīng)元的功能。在這個(gè)模型中,x1、x2和x3分別代表神經(jīng)元的輸入,通過(guò)分別與權(quán)值w1、w2和w3相乘匯總到達(dá)神經(jīng)元細(xì)胞體中,這一過(guò)程類似于生物神經(jīng)元樹(shù)突傳遞興奮的過(guò)程。匯總之后的數(shù)值通過(guò)函數(shù)f(·)的映射得到輸出值y,從而能夠?qū)⑿盘?hào)傳遞出去,這就類似于生物神經(jīng)元軸突傳遞信號(hào)的過(guò)程。通過(guò)對(duì)人類大腦神經(jīng)元的抽象與模擬,可以實(shí)現(xiàn)人工神經(jīng)元以及人工神經(jīng)網(wǎng)絡(luò)在現(xiàn)代社會(huì)的大規(guī)模應(yīng)用。可以說(shuō),人工智能一直在模仿人類智能。上述案例說(shuō)明,人工智能通過(guò)模擬人類智能,可以實(shí)現(xiàn)一些簡(jiǎn)單的任務(wù),如面部識(shí)別、語(yǔ)音識(shí)別、文字識(shí)別等。然而,人類智能是抽象的、復(fù)雜的,也是難以被認(rèn)識(shí)的。而人工智能則是在一定的條件下,盡可能地模擬人類智能的某一些方面的功能。所以它們的區(qū)別在于:在依托的載體方面,人類智能的實(shí)現(xiàn)依托于有著復(fù)雜生物結(jié)構(gòu)的大腦,而人工智能則是依靠現(xiàn)有計(jì)算機(jī)的計(jì)算能力和相應(yīng)的各種算法;在功能上,雖然人工智能可以實(shí)現(xiàn)一些簡(jiǎn)單的功能,但在許多復(fù)雜的環(huán)境中,人工智能仍然無(wú)法應(yīng)用。當(dāng)前,人工智能應(yīng)用最多的算法是深度神經(jīng)網(wǎng)絡(luò)。然而,深度神經(jīng)網(wǎng)絡(luò)應(yīng)用的領(lǐng)域大多數(shù)都需要大量的數(shù)據(jù),深度神經(jīng)網(wǎng)絡(luò)仍然無(wú)法進(jìn)行常識(shí)性的推理。深度神經(jīng)網(wǎng)絡(luò)確實(shí)對(duì)人類大腦進(jìn)行了性能優(yōu)異的模擬,但其規(guī)模依然完全無(wú)法與人類大腦的規(guī)模相比。人類所生活的世界包含多種環(huán)境因素,不同的環(huán)境因素交織在一起使得這樣的環(huán)境中的信息難以被數(shù)據(jù)化,也就難以被模擬出來(lái)。這也是目前人工智能難以解決的一個(gè)方面。因此,人工智能無(wú)論在神經(jīng)元規(guī)模上,還是在處理數(shù)據(jù)的復(fù)雜度與對(duì)數(shù)據(jù)抽象的能力上,都與人類智能有著本質(zhì)的不同。要想進(jìn)一步發(fā)展人工智能,人類無(wú)論是在認(rèn)識(shí)自己的智力的道路上,還是在將這種生物上的功能完整模擬出來(lái)的道路上,仍然有相當(dāng)長(zhǎng)的距離要走。1.2.3人工智能對(duì)人類社會(huì)發(fā)展的深刻影響和挑戰(zhàn)1.人工智能的發(fā)展對(duì)未來(lái)人類職業(yè)的影響人工智能技術(shù)如今正加速與各行各業(yè)進(jìn)行融合。越來(lái)越多原本由人類負(fù)責(zé)的工作崗位正在被搭載人工智能系統(tǒng)的機(jī)器所代替。在與機(jī)械相關(guān)的企業(yè)中,人類是很容易被人工智能替代的。相比人類,機(jī)械永遠(yuǎn)不會(huì)疲勞,產(chǎn)品出現(xiàn)誤差概率較小,同時(shí)采用智能的機(jī)械代替人類工作,可以提高勞動(dòng)生產(chǎn)率,從而提高經(jīng)濟(jì)效益。在與數(shù)據(jù)相關(guān)的行業(yè)中,人工智能正逐步取代人類。在諸如金融數(shù)據(jù)的后臺(tái)事務(wù)處理等任務(wù)中,人工智能強(qiáng)大計(jì)算能力,迅速實(shí)現(xiàn)信息數(shù)據(jù)計(jì)算與轉(zhuǎn)換,誤差降到最小,提升了數(shù)據(jù)處理的速度與精度。人工智能產(chǎn)生很多間接影響。進(jìn)一步改善了人類生存環(huán)境,人類壽命將進(jìn)一步延長(zhǎng),這也為養(yǎng)生和保健等行業(yè)帶來(lái)了新的就業(yè)崗位。此外,人工智能的發(fā)展將進(jìn)一步推動(dòng)社會(huì)的信息化,例如智慧城市、智能政務(wù)、智慧醫(yī)療等,使更多的職業(yè)要求從業(yè)者具備智能與信息處理知識(shí)和能力。在這個(gè)過(guò)程中,首先要面臨的就是當(dāng)前社會(huì)中人口的職業(yè)轉(zhuǎn)化問(wèn)題。據(jù)估計(jì),到2030年,中國(guó)將有約1億人口面臨職業(yè)變遷,人們的工作內(nèi)容也將被自動(dòng)化系統(tǒng)大幅度取代。由此可見(jiàn),新的技術(shù)可能會(huì)造成崗位數(shù)量的減少,但同樣也會(huì)帶來(lái)新的就業(yè)機(jī)會(huì)與新的經(jīng)濟(jì)增長(zhǎng)動(dòng)力。所以,人工智能將給社會(huì)帶來(lái)機(jī)遇和挑戰(zhàn),只有成功實(shí)現(xiàn)社會(huì)轉(zhuǎn)型,才能推動(dòng)社會(huì)不斷前進(jìn)。2.人工智能的發(fā)展對(duì)倫理道德和社會(huì)法制的影響如果人工智能發(fā)展程度很高,就會(huì)不可避免地涉及倫理道德與社會(huì)法制的問(wèn)題。假設(shè)人工智能具有人類同等甚至以上的智力水平,人工智能是否應(yīng)被授予與人類相同的倫理與法律地位?這個(gè)問(wèn)題放到現(xiàn)在或許還難以被定論,但在某些領(lǐng)域,這種類型的問(wèn)題其實(shí)已經(jīng)是人類不得不面對(duì)的問(wèn)題了。比如無(wú)人駕駛問(wèn)題,醫(yī)生使用人工智能技術(shù)識(shí)別人體組織圖像上的病變組織時(shí),假設(shè)識(shí)別出現(xiàn)了一定偏差,相關(guān)的法律中對(duì)這種情況的鑒定仍舊較為模糊。在未來(lái),如果產(chǎn)生了擁有人類智力程度的智能體,社會(huì)倫理道德與法制又將如何對(duì)待它們?到那時(shí),我們將不得不重新審視人工智能在人類社會(huì)中的法律地位,也不得不重新審視人類自身與人工智能的關(guān)系。人類必將邁入人工智能時(shí)代,我們需要謹(jǐn)慎界定人機(jī)之間的關(guān)系格局?!敖⑷斯ぶ悄芊煞ㄒ?guī)、倫理規(guī)范和政策體系,形成人工智能安全評(píng)估和管控能力”,這是國(guó)務(wù)院在《新一代人工智能發(fā)展規(guī)劃》中提出的意見(jiàn)。同時(shí),為智能社會(huì)劃清倫理道德界限也是國(guó)際社會(huì)的普遍共識(shí)。目前,多家科研機(jī)構(gòu)與科技巨頭成立了AI倫理委員會(huì),也有越來(lái)越多的專家學(xué)者不斷呼吁,給人工智能確定盡可能明確的法律法規(guī),確保社會(huì)的穩(wěn)定??傊?dāng)前法律法規(guī)對(duì)人工智能技術(shù)涉及領(lǐng)域的規(guī)范依舊不足。隨著人工智能技術(shù)在社會(huì)中的應(yīng)用范圍不斷擴(kuò)大、水平不斷提升,人工智能必將促進(jìn)相關(guān)法律的制定和完善。由此可見(jiàn),人工智能的發(fā)展對(duì)倫理道德和社會(huì)法制必將產(chǎn)生巨大的影響。3.人工智能的發(fā)展對(duì)軍事領(lǐng)域的影響人工智能將在軍事領(lǐng)域產(chǎn)生深遠(yuǎn)的影響。習(xí)近平主席已經(jīng)指出,“要加快軍事智能化發(fā)展,提高基于網(wǎng)絡(luò)信息體系的聯(lián)合作戰(zhàn)能力、全域作戰(zhàn)能力”。將人工智能應(yīng)用于戰(zhàn)場(chǎng),可以使戰(zhàn)場(chǎng)空間進(jìn)一步擴(kuò)展,增加戰(zhàn)場(chǎng)中的作戰(zhàn)要素,改變當(dāng)前戰(zhàn)場(chǎng)的制勝機(jī)制。在戰(zhàn)場(chǎng)態(tài)勢(shì)的感知上,在作戰(zhàn)任務(wù)的規(guī)劃上,在作戰(zhàn)行動(dòng)實(shí)施上,為戰(zhàn)場(chǎng)的局勢(shì)分析以及戰(zhàn)場(chǎng)態(tài)勢(shì)變化的感知提供更加有力的幫助。此外,通過(guò)人工智能技術(shù),可以對(duì)當(dāng)前戰(zhàn)場(chǎng)中的作戰(zhàn)效果進(jìn)行數(shù)據(jù)分析與分級(jí)分類,依據(jù)分析結(jié)果對(duì)下一步的打擊行動(dòng)做出正確指示。將人工智能與戰(zhàn)場(chǎng)的戰(zhàn)術(shù)結(jié)合,可以開(kāi)辟出許多新的作戰(zhàn)方式;通過(guò)人工智能技術(shù)與戰(zhàn)場(chǎng)作戰(zhàn)武器相結(jié)合,可以構(gòu)建出一體化聯(lián)合作戰(zhàn)體系,在作戰(zhàn)空間的奪取中占據(jù)主導(dǎo)權(quán)。智能化也可以突破人體自身的諸多限制,為作戰(zhàn)行動(dòng)提供新的戰(zhàn)術(shù)。4.兩起典型的人工智能應(yīng)用引起的轟動(dòng)效應(yīng)盡管人工智能與人類智能相比還有著巨大的差距,但憑借著現(xiàn)代計(jì)算機(jī)的強(qiáng)大計(jì)算能力以及信息存儲(chǔ)能力,人工智能在一些領(lǐng)域的成功應(yīng)用,仍然給人類社會(huì)帶來(lái)巨大的震撼。有兩起典型的事件為人們所熟知,一是AlphaGo戰(zhàn)勝李世石,二是索菲亞公民權(quán)事件,它們是人工智能給人類社會(huì)帶來(lái)沖擊的兩大代表性事件。如圖1.8所示,2016年谷歌的圍棋人工智能AlphaGo向韓國(guó)棋手李世石發(fā)起圍棋挑戰(zhàn),并最終以總比分4∶1戰(zhàn)勝對(duì)手,取得人機(jī)對(duì)決中的勝利。這場(chǎng)勝利讓人工智能的熱度空前高漲。在圍棋領(lǐng)域,人類的地位已經(jīng)受到了來(lái)自人工智能的挑戰(zhàn)。
與早年間的“深藍(lán)”計(jì)算機(jī)通過(guò)暴力計(jì)算的方式戰(zhàn)勝人類不同,AlphaGo真正對(duì)圍棋的大量對(duì)局信息進(jìn)行了學(xué)習(xí),可以判斷多種情形下的落子位置,再加上計(jì)算機(jī)不會(huì)受到情緒以及諸多外界因素的干擾,也不會(huì)疲勞,使得采用人工智能技術(shù)的計(jì)算機(jī)在圍棋對(duì)決中更勝一籌。在這次對(duì)決之后,AlphaGo之父——德米斯·哈撒比斯表示,下一步將會(huì)讓計(jì)算機(jī)自己學(xué)習(xí)如何下圍棋,不再接受來(lái)自人類對(duì)局的知識(shí),從而真正實(shí)現(xiàn)自主學(xué)習(xí)。在這之后,AlphaGo的繼任者——AlphaZero[9]則能夠根據(jù)給定的游戲規(guī)則,從零開(kāi)始自動(dòng)學(xué)習(xí)游戲技巧。2018年,AlphaZero登上了《科學(xué)》雜志的封面。除了在圍棋中的應(yīng)用,還有一條新聞讓人類產(chǎn)生了對(duì)人工智能的恐慌,這就是著名的索菲亞公民權(quán)事件。圖1.9展示了機(jī)器人設(shè)計(jì)師戴維·漢森與他的機(jī)器人索菲亞。2016年,漢森主導(dǎo)設(shè)計(jì)的類人機(jī)器人索菲亞在節(jié)目中表達(dá)了自己的愿望,稱想去上學(xué),想要成立家庭。在之后的電視報(bào)道與媒體采訪中,索菲亞更是以一連串的驚人言論讓自己聲名鵲起,甚至在一次采訪節(jié)目中回答:“我會(huì)毀滅人類?!彼某霈F(xiàn),讓許多人產(chǎn)生了對(duì)擁有人類智力的機(jī)器人的恐慌。對(duì)于索菲亞是否真的具有人類的情感與意識(shí),漢森已經(jīng)說(shuō)過(guò):“目前能夠進(jìn)行對(duì)話的人工智能,都是由人工編程的,索菲亞也是如此。目前沒(méi)有一個(gè)機(jī)器人能夠像人類一樣理解世界,具有自我意識(shí)?!彼鞣苼喗o人們帶來(lái)更多的還是關(guān)于人工智能不斷發(fā)展的擔(dān)憂。畢竟,不論什么樣的技術(shù)都是為人類服務(wù)的,人類不想創(chuàng)造出一個(gè)可能會(huì)威脅到人類生存的未知個(gè)體。從另一方面看,人工智能又會(huì)促進(jìn)人類文明的發(fā)展,人類未來(lái)將會(huì)以更加先進(jìn)的方式生存下去。這便是人工智能不斷發(fā)展與人類自身發(fā)展的一種矛盾。但不論是什么技術(shù)的發(fā)展,都是在矛盾中不斷前進(jìn)的。所以,人工智能仍將一步步地持續(xù)發(fā)展下去。1.3人工智能解決的主要問(wèn)題1.3.1分類及預(yù)測(cè)分類及預(yù)測(cè)是目前人工智能應(yīng)用非常廣泛的領(lǐng)域。這種問(wèn)題是指在給定的數(shù)據(jù)中,采用何種方法,能將含有不同特征的數(shù)據(jù)分成不同的類型,或是根據(jù)前一段時(shí)間范圍內(nèi)數(shù)據(jù)蘊(yùn)含的規(guī)律預(yù)測(cè)出數(shù)據(jù)在之后時(shí)間的值。圖1.10為數(shù)據(jù)分類及預(yù)測(cè)整個(gè)過(guò)程的大致流程。在解決這類問(wèn)題的時(shí)候,往往是通過(guò)已知一定量的數(shù)據(jù),讓我們的機(jī)器學(xué)習(xí)模型去學(xué)習(xí)其中包含的特征與規(guī)律,最終能夠識(shí)別給定的數(shù)據(jù)類型或是預(yù)測(cè)出符合數(shù)據(jù)規(guī)律的某條曲線。模型一般使用有監(jiān)督學(xué)習(xí)的學(xué)習(xí)方法。有監(jiān)督學(xué)習(xí)是當(dāng)前較為高效的學(xué)習(xí)方式,它使用一定量的數(shù)據(jù),通過(guò)一定的預(yù)處理提取出數(shù)據(jù)的特征值,經(jīng)過(guò)學(xué)習(xí)模型的學(xué)習(xí),得到預(yù)測(cè)值與真實(shí)值之間的誤差,再通過(guò)反饋學(xué)習(xí)的機(jī)制將誤差縮小并更新學(xué)習(xí)模型內(nèi)部的多種參數(shù),從而完成整個(gè)學(xué)習(xí)過(guò)程。1.3.2行為決策人工智能可以解決的第二類問(wèn)題就是行為決策。大家所熟識(shí)的戰(zhàn)勝李世石的AlphaGo,就是采用這種方法訓(xùn)練得到的。在決策問(wèn)題的場(chǎng)景中,我們往往會(huì)關(guān)注某種行為是否能夠獲得更好的收益,也就是通過(guò)做出決策指導(dǎo)目標(biāo)來(lái)獲得更好的實(shí)際效果。通常,我們使用強(qiáng)化學(xué)習(xí)的學(xué)習(xí)方式來(lái)解決這種問(wèn)題。例如,在游戲中,假設(shè)有某一個(gè)地圖,如圖1.11所示。我們按下某一個(gè)游戲按鍵控制目標(biāo)到達(dá)下一個(gè)地點(diǎn)后,目標(biāo)行走正常且沒(méi)有踩到陷阱,那么就會(huì)產(chǎn)生一個(gè)獎(jiǎng)勵(lì)值,鼓勵(lì)我們繼續(xù)執(zhí)行相關(guān)動(dòng)作。如果中途踩到陷阱,則會(huì)產(chǎn)生一個(gè)負(fù)面的懲罰值,告知學(xué)習(xí)模型不要再走這一路線。學(xué)習(xí)算法能夠經(jīng)過(guò)不斷的嘗試,最終走到終點(diǎn),達(dá)到我們期望的目的。在這個(gè)例子中,目標(biāo)在地圖中所處的位置就是強(qiáng)化學(xué)習(xí)中的狀態(tài)信息,目標(biāo)按某一方向進(jìn)行移動(dòng)就是強(qiáng)化學(xué)習(xí)中的動(dòng)作,獎(jiǎng)勵(lì)值就是回報(bào),目標(biāo)所處的可以與自身交互并且給予它獎(jiǎng)勵(lì)或懲罰的地圖,就是強(qiáng)化學(xué)習(xí)中的環(huán)境。狀態(tài)、動(dòng)作、回報(bào)值、環(huán)境,再加上我們自身——也就是決策主體,就構(gòu)成了強(qiáng)化學(xué)習(xí)模型的主要組成部分,如圖1.12所示。在當(dāng)前的人工智能研究中,強(qiáng)化學(xué)習(xí)也是一個(gè)重要的方向之一。通過(guò)不斷的訓(xùn)練,采用這種學(xué)習(xí)方式的模型可以獲得比人類更好的決策能力,從AlphaGo身上可見(jiàn)一斑。雖然提出強(qiáng)化學(xué)習(xí)概念的時(shí)間較早,也有了一些研究成果[12],但如何真正大規(guī)模應(yīng)用到實(shí)際領(lǐng)域中仍然比較困難,相關(guān)的研究仍在不斷進(jìn)行之中。1.3.3數(shù)據(jù)生成無(wú)監(jiān)督學(xué)習(xí)的一個(gè)重要的應(yīng)用,就是生成對(duì)抗網(wǎng)絡(luò)。生成對(duì)抗網(wǎng)絡(luò)是無(wú)監(jiān)督學(xué)習(xí)應(yīng)用中的一種有很大應(yīng)用前景的方向,它的誕生曾在以深度學(xué)習(xí)為代表的人工智能領(lǐng)域中掀起了一場(chǎng)革命,在數(shù)據(jù)生成領(lǐng)域中獲得了顯著的效果。生成對(duì)抗網(wǎng)絡(luò)至少包含兩個(gè)模塊,即生成模型和判別模型。使用生成對(duì)抗網(wǎng)絡(luò)生成數(shù)據(jù)的過(guò)程可以看作生成模型和判別模型兩方互相“博弈”的過(guò)程。假設(shè)給定一定數(shù)量的樣本數(shù)據(jù),生成模型會(huì)利用學(xué)習(xí)模型將服從某種概率分布的噪聲數(shù)據(jù)映射到給定的真實(shí)數(shù)據(jù)空間去,從而生成與給定原始數(shù)據(jù)相類似的假數(shù)據(jù)。而判別模型則會(huì)識(shí)別出給定的原始數(shù)據(jù)與生成數(shù)據(jù)之間的區(qū)別,判斷出生成的數(shù)據(jù)是不是真實(shí)的。這樣,生成模型會(huì)根據(jù)原始數(shù)據(jù)與判別模型的識(shí)別結(jié)果,不斷學(xué)習(xí)并更新自身內(nèi)部的參數(shù),生成新的合成數(shù)據(jù),力求讓判別模型分辨不出自己生成的數(shù)據(jù)是真還是假;判別模型也會(huì)通過(guò)更新自身的參數(shù),從而增強(qiáng)自身的“鑒偽”能力。這樣雙方不斷進(jìn)行博弈,最終,生成模型生成的數(shù)據(jù)能夠讓判別模型無(wú)法識(shí)別真假,也就是判別模型識(shí)別生成的數(shù)據(jù)是真或假的概率為0.5時(shí),整個(gè)生成對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)過(guò)程也就結(jié)束了。生成對(duì)抗網(wǎng)絡(luò)的基本模型如圖1.13所示。圖1.13生成對(duì)抗網(wǎng)絡(luò)的基本模型利用這樣的方法可以生成諸如圖像、音頻、文本等數(shù)據(jù)。最初的生成對(duì)抗網(wǎng)絡(luò)不要求生成模型和判別模型必須是某種神經(jīng)網(wǎng)絡(luò),只要是能夠?qū)崿F(xiàn)生成和判別的函數(shù)即可。由于神經(jīng)網(wǎng)絡(luò)在人工智能中的廣泛使用,兩種模型大都是神經(jīng)網(wǎng)絡(luò)模型。例如生成對(duì)抗網(wǎng)絡(luò)在圖像領(lǐng)域的應(yīng)用中,使用了與圖像密切相關(guān)的卷積神經(jīng)網(wǎng)絡(luò)1.3.4遷移學(xué)習(xí)在前面的內(nèi)容中曾經(jīng)提到過(guò),當(dāng)前以深度學(xué)習(xí)為代表的人工智能方法無(wú)法將某種領(lǐng)域的任務(wù)融會(huì)貫通并應(yīng)用到其他領(lǐng)域的任務(wù)中。其實(shí),在一些相近的應(yīng)用場(chǎng)景下,使用名為遷移學(xué)習(xí)的學(xué)習(xí)方法,可以將學(xué)習(xí)模型學(xué)到的特征運(yùn)用到相似場(chǎng)景的任務(wù)中去。圖1.14為遷移學(xué)習(xí)的學(xué)習(xí)過(guò)程示意圖。假設(shè)存在由特征空間等信息組成的源域和與源域?qū)?yīng)的學(xué)習(xí)任務(wù),同樣由特征空間等信息組成的目標(biāo)域和與目標(biāo)域?qū)?yīng)的學(xué)習(xí)任務(wù),且源域與目標(biāo)域并不等同。這時(shí)通過(guò)遷移學(xué)習(xí),可以利用源域及其學(xué)習(xí)任務(wù)中包含的知識(shí),幫助完成在目標(biāo)域中進(jìn)行的學(xué)習(xí)任務(wù)。與傳統(tǒng)執(zhí)行單任務(wù)的機(jī)器學(xué)習(xí)方法不同,遷移學(xué)習(xí)可以針對(duì)多個(gè)源域中的任務(wù)進(jìn)行學(xué)習(xí)并將學(xué)到的知識(shí)轉(zhuǎn)移到目前正在執(zhí)行的學(xué)習(xí)任務(wù)中,從而將它們整合起來(lái),送到同一學(xué)習(xí)系統(tǒng)中去。目前,遷移學(xué)習(xí)在圖像、文本等領(lǐng)域均有應(yīng)用。1.4人工智能的主要學(xué)習(xí)方式機(jī)器學(xué)習(xí)與深度學(xué)習(xí)都是人工智能中的重要概念。通常來(lái)講,人工智能涉及的范圍是最廣的。人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)三者的關(guān)系如圖1.15所示。1.4.1機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)是一種實(shí)現(xiàn)人工智能的方法。在人工智能發(fā)展史中已經(jīng)介紹過(guò),人工智能包含非常多的研究領(lǐng)域,包括早期的專家系統(tǒng)、進(jìn)化計(jì)算,以及現(xiàn)在流行的計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、推薦系統(tǒng)等。一些經(jīng)典的學(xué)習(xí)算法例如有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)等,正是機(jī)器學(xué)習(xí)中提出的概念,而所有的相關(guān)研究領(lǐng)域都會(huì)使用機(jī)器學(xué)習(xí)算法來(lái)實(shí)現(xiàn)人們的一個(gè)個(gè)設(shè)想。機(jī)器學(xué)習(xí)最基本的做法就是,通過(guò)對(duì)已有的數(shù)據(jù)進(jìn)行分析,學(xué)習(xí)數(shù)據(jù)中蘊(yùn)含的規(guī)律,從而解決諸如分類、決策等特定的任務(wù)。傳統(tǒng)機(jī)器學(xué)習(xí)算法對(duì)小批量數(shù)據(jù)的學(xué)習(xí)十分有效。在處理小批量數(shù)據(jù)時(shí),機(jī)器學(xué)習(xí)算法首先會(huì)進(jìn)行一定的特征處理工作。此外,由于處理的數(shù)據(jù)量相對(duì)較小,研究人員需要付出的計(jì)算代價(jià)也就較小。特別是在早期的機(jī)器學(xué)習(xí)研究中,由于當(dāng)時(shí)的計(jì)算機(jī)CPU處理數(shù)據(jù)的速度較慢,導(dǎo)致相關(guān)研究只針對(duì)較小數(shù)量的數(shù)據(jù)。這就使得研究人員更加集中精力尋求有效的特征提取算法來(lái)分析、學(xué)習(xí)數(shù)據(jù)中的特征,以期能夠在有限的條件下獲得更好的實(shí)驗(yàn)結(jié)果。機(jī)器學(xué)習(xí)主要有有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩大類算法,有監(jiān)督學(xué)習(xí)算法主要有支持向量機(jī)、決策樹(shù)、樸素貝葉斯分類、最小二乘法、邏輯回歸、集成方法等六種算法;無(wú)監(jiān)督學(xué)習(xí)主要有聚類算法、主成分分析、奇異值分解和獨(dú)立成分分析。下面簡(jiǎn)要介紹四種主要的機(jī)器學(xué)習(xí)算法及其應(yīng)用領(lǐng)域。1.支持向量機(jī)SVM屬于有監(jiān)督學(xué)習(xí)方式,是一類按監(jiān)督學(xué)習(xí)方式對(duì)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,其決策邊界是對(duì)學(xué)習(xí)樣本求解的最大邊距超平面。SVM使用鉸鏈損失(HingeLoss)函數(shù)計(jì)算經(jīng)驗(yàn)風(fēng)險(xiǎn),并在求解系統(tǒng)中加入了正則化項(xiàng)以優(yōu)化結(jié)構(gòu)風(fēng)險(xiǎn)。SVM是一個(gè)具有稀疏性和穩(wěn)健性的分類器,可以通過(guò)核方法進(jìn)行非線性分類,該方法是常見(jiàn)的核學(xué)習(xí)方法之一。SVM在模式識(shí)別領(lǐng)域應(yīng)用廣泛,包括人像識(shí)別、文本分類、手寫(xiě)字符識(shí)別、生物信息學(xué)等。2.決策樹(shù)決策樹(shù)屬于有監(jiān)督學(xué)習(xí)方式,是在已知各種事件發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹(shù)來(lái)求取凈現(xiàn)值的期望值大于等于零的概率、評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,也是一種直觀運(yùn)用概率分析的圖解法。由于這種決策分支畫(huà)成圖形很像一棵樹(shù)的枝干,故稱決策樹(shù)。決策樹(shù)的生成算法有ID3、C4.5和C5.0等。3.聚類算法聚類算法就是根據(jù)特定的規(guī)則,將數(shù)據(jù)進(jìn)行分類。分類的輸入項(xiàng)是數(shù)據(jù)的特征,輸出項(xiàng)是分類標(biāo)簽,它屬于無(wú)監(jiān)督學(xué)習(xí)算法。它只需要一定量的數(shù)據(jù),而不需要標(biāo)記結(jié)果,可通過(guò)學(xué)習(xí)訓(xùn)練,發(fā)現(xiàn)屬性相同的群體。聚類算法用途廣泛,例如在商業(yè)上,聚類算法可以幫助市場(chǎng)分析人員從消費(fèi)者數(shù)據(jù)庫(kù)中區(qū)分出不同的消費(fèi)群體來(lái),并且概括出每一類消費(fèi)者的消費(fèi)習(xí)慣。它可作為數(shù)據(jù)挖掘中的一個(gè)模塊,也可以作為一個(gè)單獨(dú)的工具以發(fā)現(xiàn)數(shù)據(jù)庫(kù)中分布的一些深層信息,并且概括出每一類的特點(diǎn),或者把注意力放在某一個(gè)特定的類上以做進(jìn)一步分析。聚類算法可以分為劃分法、層次法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法。4.主成分分析主成分分析是一種統(tǒng)計(jì)方法,是數(shù)學(xué)上處理降維的一種方法,也屬于無(wú)監(jiān)督學(xué)習(xí)。它通過(guò)正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫作主成分。主成分分析的原理是設(shè)法將原來(lái)的變量重新組合成一組新的無(wú)關(guān)的綜合變量,同時(shí)根據(jù)實(shí)際需要從中取出幾個(gè)較少的綜合變量盡可能多地反映原來(lái)變量的統(tǒng)計(jì)信息。為了全面、系統(tǒng)地分析所要研究的實(shí)際問(wèn)題,人們必須考慮眾多影響因素,這些因素在多元統(tǒng)計(jì)分析中也稱為變量,變量太多會(huì)增加計(jì)算量和分析問(wèn)題的復(fù)雜性。由于每個(gè)變量都在不同程度上反映了所研究問(wèn)題的某些信息,因而所得的統(tǒng)計(jì)數(shù)據(jù)反映的信息會(huì)存在一定程度的重疊,因此在用統(tǒng)計(jì)方法研究多變量問(wèn)題時(shí),人們希望在進(jìn)行定量分析的過(guò)程中涉及的變量較少,得到的信息量較多。主成分分析正好具有這兩個(gè)方面的優(yōu)點(diǎn),是解決這類問(wèn)題的理想工具之一。主成分分析在人口統(tǒng)計(jì)學(xué)、數(shù)量地理學(xué)、分子動(dòng)力學(xué)模擬、數(shù)學(xué)建模、數(shù)理分析等學(xué)科中均有應(yīng)用。1.4.2深度學(xué)習(xí)如圖1.15所示,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中一個(gè)新的研究方向,深度學(xué)習(xí)是一類模式分析方法的統(tǒng)稱[1]。深度學(xué)習(xí)是比機(jī)器學(xué)習(xí)更復(fù)雜的學(xué)習(xí)算法,在語(yǔ)音和圖像識(shí)別方面的應(yīng)用取得了十分顯著的效果,其性能遠(yuǎn)遠(yuǎn)超過(guò)先前相關(guān)機(jī)器學(xué)習(xí)算法的性能,是當(dāng)前人工智能領(lǐng)域十分熱門(mén)的研究方向。深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,深度學(xué)習(xí)過(guò)程中獲得的信息有助于對(duì)文字、圖像和聲音等數(shù)據(jù)予以解釋。它的最終目標(biāo)是讓機(jī)器能夠像人一樣具有思維與學(xué)習(xí)的能力,能夠識(shí)別文字、圖像和聲音等數(shù)據(jù),實(shí)現(xiàn)人機(jī)交互。深度學(xué)習(xí)有如下特點(diǎn):(1)網(wǎng)絡(luò)模型隱含層的層數(shù)多,可以有100多層的隱含層。(2)樣本的特征不是專家人工標(biāo)記的,而是通過(guò)逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新特征空間,從而使分類或預(yù)測(cè)更容易。與用人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來(lái)學(xué)習(xí)特征,能夠更準(zhǔn)確和快速地刻畫(huà)數(shù)據(jù)豐富的內(nèi)在信息。對(duì)于不同的具體問(wèn)題,通過(guò)設(shè)計(jì)相應(yīng)的神經(jīng)元計(jì)算節(jié)點(diǎn)數(shù)和多層運(yùn)算層次結(jié)構(gòu),并選擇合適的輸入層和輸出層,然后利用先進(jìn)算法對(duì)網(wǎng)絡(luò)的參數(shù)進(jìn)行學(xué)習(xí)和優(yōu)化,直到網(wǎng)絡(luò)達(dá)到收斂狀態(tài),建立起從輸入到輸出的函數(shù)關(guān)系。該方法即使不能準(zhǔn)確地找到輸入與輸出的函數(shù)關(guān)系,但也可以盡可能地逼近其關(guān)聯(lián)關(guān)系。這樣的復(fù)雜多層訓(xùn)練好后,就可以實(shí)現(xiàn)對(duì)復(fù)雜任務(wù)處理的自動(dòng)化要求。深度學(xué)習(xí)的概念起源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多層隱含層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過(guò)組合低層特征形成更加抽象的高層表示屬性類別或特征,它能夠?qū)C(jī)器學(xué)習(xí)無(wú)法勝任的大批量數(shù)據(jù)任務(wù)實(shí)現(xiàn)有效的分析,再加上GPU的發(fā)展,使得以神經(jīng)網(wǎng)絡(luò)為主的深度學(xué)習(xí)算法能夠同時(shí)處理大量數(shù)據(jù)。一些特有的網(wǎng)絡(luò)諸如殘差網(wǎng)絡(luò)以及之前提到的生成對(duì)抗網(wǎng)絡(luò)被相繼提出,越來(lái)越多的人將它看作一種單獨(dú)的學(xué)習(xí)種類。深度學(xué)習(xí)在搜索技術(shù)、數(shù)據(jù)挖掘、機(jī)器翻譯、自然語(yǔ)言處理、多媒體學(xué)習(xí)、語(yǔ)音和圖像識(shí)別、推薦和個(gè)性化技術(shù)以及其他相關(guān)領(lǐng)域都取得了豐碩的成果。深度學(xué)習(xí)可使機(jī)器模仿人類的視聽(tīng)和思考等活動(dòng),解決了很多復(fù)雜的模式識(shí)別難題,使得人工智能相關(guān)技術(shù)取得了巨大的進(jìn)步。深度學(xué)習(xí)的思想源于人腦的啟發(fā)。在看到一個(gè)蘋(píng)果后,具有復(fù)雜結(jié)構(gòu)的大腦(見(jiàn)圖1.16)可經(jīng)過(guò)重重抽象將看到的蘋(píng)果圖像簡(jiǎn)化為某種信息,識(shí)別出這是一個(gè)蘋(píng)果。深度學(xué)習(xí)的過(guò)程與此類似。深度學(xué)習(xí)利用神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)具體事物數(shù)據(jù)進(jìn)行抽象,實(shí)現(xiàn)學(xué)習(xí)。深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)包含很多個(gè)隱含層,如圖1.17所示。一般來(lái)說(shuō),隱含層越多,每層隱含層包含的神經(jīng)元數(shù)量越多,抽象事物數(shù)據(jù)的能力就越強(qiáng)。通過(guò)多層處理,逐漸將初始的“低層”特征表示轉(zhuǎn)化為“高層”特征表示后,用“簡(jiǎn)單模型”即可完成復(fù)雜的分類等學(xué)習(xí)任務(wù)。由此可將深度學(xué)習(xí)理解為“特征學(xué)習(xí)”。以往機(jī)器學(xué)習(xí)用于現(xiàn)實(shí)任務(wù)時(shí),描述樣本的特征通常需由人類專家來(lái)設(shè)計(jì),稱為“特征工程”。眾所周知,特征的好壞對(duì)泛化性能有至關(guān)重要的影響,由人類專家設(shè)計(jì)出好特征是一件很困難的事;特征學(xué)習(xí)則通過(guò)機(jī)器學(xué)習(xí)技術(shù)自身來(lái)產(chǎn)生好的特征,這使機(jī)器學(xué)習(xí)向“全自動(dòng)數(shù)據(jù)分析”邁進(jìn)了重要一步。近年來(lái),研究人員也逐漸將這幾類方法結(jié)合起來(lái),對(duì)原本是以有監(jiān)督學(xué)習(xí)為基礎(chǔ)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)合自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行無(wú)監(jiān)督的預(yù)訓(xùn)練,進(jìn)而利用鑒別信息微調(diào)網(wǎng)絡(luò)參數(shù)形成的卷積深度置信網(wǎng)絡(luò)。與傳統(tǒng)的學(xué)習(xí)方法相比,深度學(xué)習(xí)方法預(yù)設(shè)了更多的模型參數(shù),因此模型訓(xùn)練難度更大。根據(jù)統(tǒng)計(jì)學(xué)習(xí)的一般規(guī)律知道,模型參數(shù)越多,需要參與訓(xùn)練的數(shù)據(jù)量也越大。深度學(xué)習(xí)可以處理傳統(tǒng)機(jī)器學(xué)習(xí)無(wú)法勝任的大批量數(shù)據(jù)。當(dāng)深度網(wǎng)絡(luò)的復(fù)雜度足夠高時(shí),深度學(xué)習(xí)能夠不對(duì)原始數(shù)據(jù)作特征處理,即可完成預(yù)定的數(shù)據(jù)分析任務(wù)。當(dāng)然,這必須要有性能足夠優(yōu)異的硬件以及設(shè)計(jì)良好的深度學(xué)習(xí)算法才能夠?qū)崿F(xiàn)。深度學(xué)習(xí)以多層神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),發(fā)展出了許多具有重要研究與應(yīng)用價(jià)值的神經(jīng)網(wǎng)絡(luò),如GoogleNet、AlexNet等。在神經(jīng)網(wǎng)絡(luò)中,每個(gè)神經(jīng)元都會(huì)給輸入指定一個(gè)權(quán)重,所以網(wǎng)絡(luò)的輸出由這些權(quán)重共同控制。假設(shè)有一張?zhí)O果的圖片,在輸入神經(jīng)網(wǎng)絡(luò)時(shí),蘋(píng)果的圖片將被細(xì)分為一組數(shù)據(jù),以這組數(shù)據(jù)來(lái)表示蘋(píng)果的屬性。而神經(jīng)元將會(huì)一一檢查這些數(shù)據(jù),并經(jīng)過(guò)層層權(quán)重計(jì)算,得到一個(gè)輸出,這個(gè)輸出就代表深度網(wǎng)絡(luò)對(duì)這張?zhí)O果圖片的認(rèn)知。之后,這個(gè)認(rèn)知將被用來(lái)與真實(shí)蘋(píng)果的標(biāo)志作對(duì)比,從而得到一個(gè)誤差。神經(jīng)網(wǎng)絡(luò)中最經(jīng)典的算法——反向傳播算法將根據(jù)這一誤差,更新整個(gè)網(wǎng)絡(luò)的權(quán)重參數(shù),使得下次輸入新的蘋(píng)果圖片時(shí),這個(gè)誤差能夠變小,不斷進(jìn)行這樣的訓(xùn)練,最后誤差趨于很小的值。當(dāng)神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)多張?zhí)O果圖片的訓(xùn)練后,最終即可獲得識(shí)別給定任意蘋(píng)果圖片為蘋(píng)果的能力。這便是早期的神經(jīng)網(wǎng)絡(luò)算法的原理。此時(shí)的神經(jīng)網(wǎng)絡(luò)可能只會(huì)識(shí)別某種蘋(píng)果,而不能識(shí)別多種水果。同樣的,再使用其他種類的蘋(píng)果、香蕉、橘子等海量水果圖片進(jìn)行訓(xùn)練,足夠復(fù)雜的神經(jīng)網(wǎng)絡(luò)就可以獲得識(shí)別各種水果的能力,這時(shí)的神經(jīng)網(wǎng)絡(luò)算法便可以稱作是具有足夠強(qiáng)的水果識(shí)別能力的深度學(xué)習(xí)系統(tǒng)。如今,通過(guò)這樣的深度學(xué)習(xí)訓(xùn)練過(guò)的神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別上的表現(xiàn)優(yōu)于人類,例如分辨雙胞胎,識(shí)別血液樣本中的病變細(xì)胞等。在其他領(lǐng)域中,深度學(xué)習(xí)也表現(xiàn)出了巨大的潛力,具有很高的實(shí)際應(yīng)用價(jià)值。1.5學(xué)習(xí)人工智能的意義人工智能的產(chǎn)生是社會(huì)發(fā)展的要求和必然結(jié)果,人工智能的迅速發(fā)展將深刻改變?nèi)祟惿鐣?huì)生活,改變世界。國(guó)務(wù)院《新一代人工智能發(fā)展規(guī)劃》指出,到2025年,中國(guó)人工智能核心產(chǎn)業(yè)規(guī)模將超過(guò)4?000億元,帶動(dòng)相關(guān)產(chǎn)業(yè)規(guī)模超過(guò)5萬(wàn)億元。因此,在這個(gè)信息化的新一代智能社會(huì),每個(gè)人都應(yīng)跟上時(shí)代的步伐,了解并學(xué)習(xí)人工智能的相關(guān)知識(shí)。1.5.1學(xué)習(xí)人工智能的必要性對(duì)于青少年來(lái)說(shuō),學(xué)習(xí)人工智能對(duì)掌握數(shù)學(xué)知識(shí)有強(qiáng)有力的助推作用。同時(shí),人工智能還與生物知識(shí)緊密相連,學(xué)習(xí)人工智能可使青少年對(duì)生物知識(shí)有更深層次的理解,例如前面提到的基本M-P模型就是模擬了生物神經(jīng)元的功能。人工智能所追求的目標(biāo)是實(shí)現(xiàn)人類大腦的功能,雖然目前的研究進(jìn)展遠(yuǎn)未達(dá)到這個(gè)程度,但提前學(xué)習(xí)無(wú)疑會(huì)對(duì)將來(lái)進(jìn)行與人工智能相關(guān)專業(yè)的學(xué)習(xí)產(chǎn)生更為積極的影響。對(duì)于普通大學(xué)生來(lái)說(shuō),學(xué)習(xí)人工智能可對(duì)自己未來(lái)的職業(yè)規(guī)劃有更清醒的認(rèn)識(shí),提早找到自己的感興趣點(diǎn)。在我國(guó),人工智能也被列為重點(diǎn)發(fā)展的學(xué)科門(mén)類,國(guó)內(nèi)高校逐步成立人工智能學(xué)院,人工智能的就業(yè)前景是十分美好的。因此,如果能夠較早地接觸人工智能的相關(guān)知識(shí),無(wú)論是對(duì)于自身未來(lái)的職業(yè)發(fā)展,還是對(duì)國(guó)家相關(guān)產(chǎn)業(yè)的戰(zhàn)略發(fā)展,乃至對(duì)于整個(gè)人類科學(xué)的進(jìn)步,都具有十分重要的意義。對(duì)于普通社會(huì)大眾來(lái)說(shuō),學(xué)習(xí)人工智能可以了解前沿知識(shí)應(yīng)用,與時(shí)俱進(jìn),拓寬知識(shí)面,享受人工智能帶來(lái)的便利。綜上所述,學(xué)習(xí)人工智能的具體意義如下:(1)由于人工智能是一門(mén)多學(xué)科交叉的學(xué)科,不僅涉及數(shù)學(xué)、計(jì)算機(jī)等學(xué)科,還涉及控制論、智能信息處理、通信技術(shù)、傳感器技術(shù)、神經(jīng)科學(xué)等眾多學(xué)科,因此學(xué)習(xí)人工智能可以極大地?cái)U(kuò)展知識(shí)面,做到觸類旁通。(2)學(xué)習(xí)人工智能可以幫助我們找準(zhǔn)人類對(duì)于自身的定位。就目前來(lái)說(shuō),人類是地球上最高形態(tài)的智慧存在,但對(duì)于整個(gè)宇宙來(lái)說(shuō),人類并不一定是生命進(jìn)化的最終形態(tài)。因此,學(xué)習(xí)人工智能知識(shí),可以幫助人們消除對(duì)人工智能技術(shù)發(fā)展的種種擔(dān)憂。1.5.2學(xué)習(xí)人工智能知識(shí)的方式人工智能是一個(gè)寬泛的概念,它是一個(gè)多學(xué)科交叉的研究領(lǐng)域,不僅涉及數(shù)學(xué)、計(jì)算機(jī)科學(xué)等,還涉及神經(jīng)科學(xué)、語(yǔ)言學(xué)、心理學(xué)等眾多學(xué)科,如圖1.18所示。學(xué)習(xí)人工智能主要包含對(duì)兩大方面知識(shí)的學(xué)習(xí):一個(gè)是基礎(chǔ)學(xué)科知識(shí),另一個(gè)是計(jì)算機(jī)學(xué)科知識(shí)。至于其他學(xué)科,以后大家對(duì)某一領(lǐng)域感興趣,想從事相關(guān)的學(xué)習(xí)研究時(shí),可以再去對(duì)相關(guān)學(xué)科進(jìn)行學(xué)習(xí)。例如文本挖掘領(lǐng)域中,需要對(duì)語(yǔ)言學(xué)做額外的研究學(xué)習(xí)。關(guān)于基礎(chǔ)學(xué)科知識(shí)部分,最核心、最基本的就是數(shù)學(xué)知識(shí)的學(xué)習(xí)。數(shù)學(xué)是人工智能發(fā)展的基石。數(shù)學(xué)既提供了人工智能算法、模型以及正確性的重要依據(jù),也提供了人工智能可能性的指示與預(yù)判。在人工智能學(xué)科部分,有關(guān)矩陣、函數(shù)和概率統(tǒng)計(jì)的知識(shí)是使用最多的。要想學(xué)習(xí)好人工智能的基礎(chǔ)知識(shí),首先就要把以上這幾部分知識(shí)掌握好,擁有扎實(shí)的數(shù)學(xué)功底。此外,腦科學(xué)與生物方面的知識(shí)對(duì)于學(xué)習(xí)人工智能也有很大的幫助。畢竟人工智能一直在模擬人類大腦的機(jī)制,而生物知識(shí)包含了細(xì)胞、動(dòng)物行為、感官等多方面的知識(shí),這對(duì)學(xué)習(xí)人工智能無(wú)疑是很有幫助的。關(guān)于計(jì)算機(jī)學(xué)科知識(shí)的學(xué)習(xí),如果說(shuō)數(shù)學(xué)知識(shí)是學(xué)習(xí)人工智能的基本原理部分,那么計(jì)算機(jī)知識(shí)就是幫助我們實(shí)現(xiàn)這些基本原理的工具。計(jì)算機(jī)知識(shí)涉及的概念包含許多方面,但要想通過(guò)數(shù)學(xué)知識(shí)完成人工智能的課題,就先要學(xué)習(xí)基礎(chǔ)的編程知識(shí)。通過(guò)編程,將數(shù)學(xué)符號(hào)轉(zhuǎn)換為計(jì)算機(jī)符號(hào),讓計(jì)算機(jī)能夠理解你的思路,才能完成人工智能的最終應(yīng)用。因此,軟件編程知識(shí)的學(xué)習(xí)對(duì)于人工智能學(xué)科來(lái)說(shuō)是必不可少的。目前,人工智能應(yīng)用與人們生活直接相關(guān)的主要有智能圖像識(shí)別和語(yǔ)音識(shí)別。學(xué)習(xí)智能圖像識(shí)別和語(yǔ)音識(shí)別,首先要從基礎(chǔ)知識(shí)學(xué)起。因?yàn)橹悄軋D像識(shí)別和語(yǔ)音識(shí)別都涉及很高深的數(shù)學(xué)知識(shí),基礎(chǔ)知識(shí)的掌握程度決定了理解深度。學(xué)習(xí)智能圖像識(shí)別和語(yǔ)音識(shí)別與學(xué)習(xí)其他學(xué)科技術(shù)是一樣的,都需要遵循循序漸進(jìn)的思路。最后,我們可以在日常的學(xué)習(xí)中開(kāi)展與人工智能相關(guān)的編程實(shí)踐,一定要通過(guò)不斷的思考和動(dòng)手實(shí)踐加深對(duì)編程語(yǔ)言理解,在開(kāi)源平臺(tái)上尋找一些智能圖像識(shí)別和語(yǔ)音識(shí)別的小程序、小實(shí)例,通過(guò)編程來(lái)實(shí)現(xiàn)對(duì)應(yīng)的功能,并弄清其中的原理。例如在開(kāi)源深度學(xué)習(xí)平臺(tái)TensorFlow上,利用Python語(yǔ)言進(jìn)行圖形分類、音頻處理、推薦系統(tǒng)和自然語(yǔ)言處理等場(chǎng)景下的應(yīng)用編程學(xué)習(xí)。通過(guò)編程實(shí)踐不僅可以加深對(duì)計(jì)算機(jī)語(yǔ)言的理解,而且可以更好地打下人工智能知識(shí)的基礎(chǔ)。此外,在學(xué)習(xí)編程的過(guò)程中也要思考人工智能如何與編程相結(jié)合,通過(guò)實(shí)際案例可以加深對(duì)于人工智能與計(jì)算機(jī)編程之間聯(lián)系的理解。同時(shí),也可以思考并嘗試在這些實(shí)例或者程序上增加一些有趣的功能。只有理論與實(shí)踐相結(jié)合,才能對(duì)智能圖像識(shí)別和語(yǔ)音識(shí)別知識(shí)理解得更加透徹。我們應(yīng)當(dāng)善加利用周邊的學(xué)習(xí)資源,多動(dòng)手、多思考、多提問(wèn),逐步培養(yǎng)良好的探索智能圖像和語(yǔ)音識(shí)別知識(shí)的習(xí)慣。2.1數(shù)字圖像識(shí)別概述2.2基于人工智能的數(shù)字圖像識(shí)別新技術(shù)2.3深度神經(jīng)網(wǎng)絡(luò)在數(shù)字圖像處理中的典型應(yīng)用2.4幾種圖像智能目標(biāo)跟蹤算法簡(jiǎn)介2.5智能數(shù)字圖像識(shí)別技術(shù)的主要應(yīng)用領(lǐng)域2.6智能數(shù)字圖像識(shí)別技術(shù)的未來(lái)展望2.1數(shù)字圖像識(shí)別概述2.1.1數(shù)字圖像處理的概念及應(yīng)用數(shù)字圖像處理是將圖像轉(zhuǎn)換成數(shù)字信號(hào)并利用計(jì)算機(jī)對(duì)其進(jìn)行處理,從而滿足各種應(yīng)用的需要。由于人類的信息獲取80%左右來(lái)自視覺(jué),因此數(shù)字圖像處理目前已被廣泛應(yīng)用于科學(xué)研究、工農(nóng)業(yè)生產(chǎn)、生物醫(yī)學(xué)工程、航空航天、軍工、工業(yè)檢測(cè)、機(jī)器人視覺(jué)、公安偵察等,該學(xué)科已成為一門(mén)應(yīng)用廣泛、效益巨大的工程學(xué)科。數(shù)字圖像處理作為一門(mén)學(xué)科,形成于20世紀(jì)60年代初期。早期的數(shù)字圖像處理主要是改善圖像的質(zhì)量,增強(qiáng)人的視覺(jué)效果。1964年,美國(guó)噴氣推進(jìn)實(shí)驗(yàn)室對(duì)航天探測(cè)器徘徊者7號(hào)發(fā)回的幾千張?jiān)虑蛘掌褂昧藬?shù)字圖像處理技術(shù)進(jìn)行處理,獲得了月球的地形圖、彩色圖及全景鑲嵌圖,為人類成功登月奠定了堅(jiān)實(shí)的基礎(chǔ),也推動(dòng)了數(shù)字圖像處理這門(mén)學(xué)科的成熟與發(fā)展。數(shù)字圖像處理在醫(yī)學(xué)領(lǐng)域也取得了巨大的成就。1972年,英國(guó)EMI公司工程師Housfield發(fā)明了用于頭顱疾病診斷的X射線計(jì)算機(jī)斷層攝影裝置;1975年EMI公司又成功研制出全身用的CT裝置,獲得了人體各個(gè)部位鮮明清晰的斷層圖像。這項(xiàng)無(wú)損傷診斷技術(shù)為人類的健康檢查做出了杰出的貢獻(xiàn),并于1979年獲得了諾貝爾獎(jiǎng)。2.1.2數(shù)字圖像識(shí)別的概念及應(yīng)用圖像識(shí)別,顧名思義,就是對(duì)圖像做出各種處理、分析,最終識(shí)別出我們所要關(guān)注的目標(biāo)。數(shù)字圖像識(shí)別技術(shù)是一門(mén)重要的信息處理技術(shù),也是當(dāng)前人工智能領(lǐng)域一個(gè)非常活躍、應(yīng)用前景非常廣闊的研究課題,可用計(jì)算機(jī)及其相應(yīng)算法替代人類去快速分析、處理和識(shí)別海量的數(shù)字圖像信息,為科學(xué)研究、工農(nóng)業(yè)生產(chǎn)活動(dòng)、軍事、安防等服務(wù)。數(shù)字圖像識(shí)別過(guò)程分為圖像信息的獲取、圖像預(yù)處理、圖像特征抽取和選擇、圖像分類器設(shè)計(jì)和分類決策等。隨著科學(xué)技術(shù)的飛速發(fā)展和工業(yè)、農(nóng)業(yè)、醫(yī)療、軍事、安防等領(lǐng)域?qū)?shù)字圖像識(shí)別技術(shù)的廣泛需求,科學(xué)工作者對(duì)數(shù)字圖像識(shí)別技術(shù)的研究日益深入,認(rèn)識(shí)越來(lái)越深刻。因此,研究數(shù)字圖像識(shí)別技術(shù)具有重大的理論意義和應(yīng)用價(jià)值。經(jīng)典的數(shù)字圖像識(shí)別方法主要通過(guò)圖像的各種特征,包括顏色、紋理、形狀和空間關(guān)系等要素來(lái)實(shí)現(xiàn)識(shí)別。20世紀(jì)90年代,人工神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)相結(jié)合,促進(jìn)了圖像識(shí)別技術(shù)的發(fā)展,圖像識(shí)別技術(shù)在車牌識(shí)別、人臉識(shí)別、物體檢測(cè)等方面得到廣泛的應(yīng)用。但是,傳統(tǒng)的圖像識(shí)別技術(shù)是以淺層次結(jié)構(gòu)模型為主,需要人為對(duì)圖像進(jìn)行預(yù)處理和特征標(biāo)注,這降低了圖像識(shí)別的準(zhǔn)確率和識(shí)別速度,增加了難度。針對(duì)此問(wèn)題,科學(xué)工作者開(kāi)始研究更深層次的網(wǎng)絡(luò)結(jié)構(gòu)模型,用模型自身提取圖像特征,避免人為干預(yù)。經(jīng)過(guò)科學(xué)家多年的共同努力,許多深度學(xué)習(xí)模型被提出,如:深度信念網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、生成式對(duì)抗網(wǎng)絡(luò)、膠囊網(wǎng)絡(luò)等。深度學(xué)習(xí)的目的是通過(guò)構(gòu)建一個(gè)多層網(wǎng)絡(luò),在此網(wǎng)絡(luò)上計(jì)算機(jī)自動(dòng)學(xué)習(xí)并得到數(shù)據(jù)隱含在內(nèi)部的關(guān)系,提取出更高維、更抽象的數(shù)據(jù),使學(xué)習(xí)到的特征更具有表達(dá)力。因此深度學(xué)習(xí)在圖像識(shí)別中的應(yīng)用研究是現(xiàn)在和未來(lái)很長(zhǎng)一段時(shí)間內(nèi)圖像識(shí)別領(lǐng)域的重要研究課題?;谟?jì)算機(jī)及其有關(guān)算法的數(shù)字圖像識(shí)別技術(shù)和人類的數(shù)字圖像識(shí)別在原理上有相同之處,只是機(jī)器在識(shí)別圖像時(shí)缺少人類的情感、好惡等主觀因素的影響。人類在進(jìn)行圖像識(shí)別時(shí),一般是根據(jù)圖像所具有的本身特征,首先將圖像進(jìn)行預(yù)先分類,然后通過(guò)不同類別圖像所具有的特征將圖像識(shí)別出來(lái)。當(dāng)人看到一張圖片時(shí),大腦會(huì)迅速搜索此圖片或與其相似的圖片是否曾見(jiàn)過(guò)。在搜索過(guò)程中,大腦會(huì)根據(jù)記憶中已經(jīng)分好的圖像類別進(jìn)行識(shí)別。機(jī)器進(jìn)行數(shù)字圖像識(shí)別與人類進(jìn)行圖像識(shí)別的過(guò)程是很相似的。它借助計(jì)算機(jī)技術(shù)和信號(hào)處理、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)等技術(shù),首先通過(guò)訓(xùn)練大量圖像,分類提取并存儲(chǔ)圖像的重要特征,排除多余的信息,然后在進(jìn)行圖像識(shí)別測(cè)試時(shí),識(shí)別出圖像的類別和屬性。機(jī)器識(shí)別圖像的速度和準(zhǔn)確性取決于識(shí)別系統(tǒng)的硬件平臺(tái)性能和所采用的數(shù)字圖像識(shí)別算法。當(dāng)前數(shù)字圖像識(shí)別面臨的主要任務(wù)是研究新的識(shí)別方法,構(gòu)造新的識(shí)別系統(tǒng),開(kāi)拓更廣泛的應(yīng)用領(lǐng)域。雖然人類的視覺(jué)識(shí)別能力很強(qiáng)大,但是面對(duì)高度信息化,經(jīng)濟(jì)、科技和文化高速發(fā)展的社會(huì),人類自身的視覺(jué)識(shí)別能力已經(jīng)遠(yuǎn)遠(yuǎn)滿足不了實(shí)際應(yīng)用的需要,因此,基于計(jì)算機(jī)的智能圖像識(shí)別技術(shù)應(yīng)運(yùn)而生。這就像人類研究生物細(xì)胞,完全靠肉眼來(lái)觀察細(xì)胞的結(jié)構(gòu)是不可能的,需要借助顯微鏡才能精確觀測(cè)細(xì)胞的各種信息。數(shù)字圖像識(shí)別技術(shù)的產(chǎn)生就是為了讓計(jì)算機(jī)代替人類去處理大量的圖像信息,解決人類無(wú)法識(shí)別或者識(shí)別率特別低、識(shí)別速度慢的問(wèn)題。數(shù)字圖像識(shí)別系統(tǒng)的流程圖如圖2.1所示。數(shù)字圖像預(yù)處理可在圖像識(shí)別過(guò)程中減少后續(xù)算法的復(fù)雜度并提高識(shí)別效率,且能借助降噪手段,將原圖還原為一張質(zhì)量清晰的點(diǎn)線圖。數(shù)字圖像預(yù)處理的目的是正確提取圖像的各個(gè)特征。在數(shù)字圖像預(yù)處理的過(guò)程中,圖像分割的質(zhì)量直接影響著最終的識(shí)別結(jié)果,而特征提取對(duì)目標(biāo)圖像識(shí)別的精度和速度具有重要影響。特征提取就是將圖像上的特征點(diǎn)劃分為不同特征子集的過(guò)程,這些特征子集通常是孤立的點(diǎn)集、連續(xù)的曲線集或者連通的區(qū)域集。一般情況下,數(shù)字圖像的特征包含顏色、紋理、形狀以及圖像各部分之間的空間關(guān)系。數(shù)字圖像識(shí)別以圖像提取的特征為基礎(chǔ),特征提取必須排除輸入的多余信息,抽出關(guān)鍵的信息,再經(jīng)過(guò)特征的整合處理,把分階段獲得的信息整合成一個(gè)完整的知覺(jué)映像。在數(shù)字圖像預(yù)處理中,需要加強(qiáng)抗干擾能力,從而保證較高的匹配率,提高匹配速度。數(shù)字圖像處理主要包括以下幾種處理方法,如圖2.2所示。1.圖像變換由于圖像陣列很大,直接在空間域中進(jìn)行處理,涉及的計(jì)算量也很大。因此,往往采用各種圖像變換的方法,如傅里葉變換、沃爾什變換、離散余弦變換等處理技術(shù),將空間域的處理轉(zhuǎn)換為變換域處理,不僅可減少計(jì)算量,而且可獲得更有效的處理、。目前新興的小波變換在時(shí)域和頻域中都具有良好的局部化特性,在數(shù)字圖像處理中也有著廣泛而有效的應(yīng)用。2.圖像增強(qiáng)和復(fù)原圖像增強(qiáng)和復(fù)原的目的是提高圖像的質(zhì)量,如去除噪聲,提高圖像的清晰度等。圖像增強(qiáng)是為了突出圖像中所感興趣的部分,如強(qiáng)化圖像高頻分量,可使圖像中物體輪廓清晰,細(xì)節(jié)明顯,而不考慮圖像降質(zhì)的原因;強(qiáng)化低頻分量可減少圖像中噪聲的影響。圖像復(fù)原要求對(duì)圖像降質(zhì)的原因有一定的了解,一般講應(yīng)根據(jù)降質(zhì)過(guò)程建立“降質(zhì)模型”,再采用某種濾波方法,恢復(fù)或重建原來(lái)的圖像。3.圖像分割圖像分割是數(shù)字圖像處理中的關(guān)鍵技術(shù)之一。圖像分割是將圖像中有意義的特征部分提取出來(lái),包括圖像的邊緣、區(qū)域和空間位置等,這是進(jìn)一步進(jìn)行圖像識(shí)別、分析和理解的基礎(chǔ)。雖然目前已研究出不少邊緣提取、區(qū)域分割的方法,但還沒(méi)有一種普遍適用于各種圖像分割的有效方法。4.圖像描述圖像描述是圖像識(shí)別和理解的必要前提。作為最簡(jiǎn)單的二值圖像可采用其幾何特性描述物體的特征,一般圖像的描述方法采用二維形狀描述,它有邊界描述和區(qū)域描述兩類方法。對(duì)于特殊的紋理圖像,可采用二維紋理特征描述。隨著數(shù)字圖像處理研究的深入發(fā)展,已經(jīng)開(kāi)始進(jìn)行三維物體描述的研究,并提出了體積描述、表面描述、廣義圓柱體描述等方法。5.圖像分類(識(shí)別)圖像分類(識(shí)別)屬于模式識(shí)別的范疇,其主要內(nèi)容是圖像經(jīng)過(guò)某些預(yù)處理后,進(jìn)行圖像分割和特征提取,從而進(jìn)行判決分類。常采用的經(jīng)典模式識(shí)別方法,有統(tǒng)計(jì)模式分類和句法(結(jié)構(gòu))模式分類。近年來(lái)新發(fā)展起來(lái)的模糊模式識(shí)別和人工神經(jīng)網(wǎng)絡(luò)模式分類在圖像識(shí)別中也越來(lái)越受到重視,特別是基于卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的智能圖像識(shí)別技術(shù)發(fā)展迅猛,近年來(lái)取得重大突破,例如人臉識(shí)別、超分辨率重建、翻譯等應(yīng)用。2.2基于人工智能的數(shù)字圖像識(shí)別新技術(shù)2.2.1數(shù)字圖像的數(shù)據(jù)結(jié)構(gòu)首先我們來(lái)解釋一下數(shù)字圖像的存儲(chǔ)方式。數(shù)字圖像實(shí)際上是巨大的數(shù)字矩陣。矩陣中的每個(gè)數(shù)字對(duì)應(yīng)于其像素的亮度。對(duì)于灰度圖像,只需要一個(gè)矩陣,矩陣中的每個(gè)數(shù)字的取值區(qū)間都是0到255。該范圍是存儲(chǔ)圖像信息的效率與人眼的靈敏度之間的折衷,如圖2.3所示。彩色圖像同樣是一個(gè)矩陣,只是矩陣中的每一個(gè)點(diǎn)不是一個(gè)值,而是包含3個(gè)值的數(shù)組。描述彩色圖像有三種模型,分別是RGB顏色模型、YUV顏色模型和HSV顏色模型。在RGB顏色模型中,包含紅、綠、藍(lán)三個(gè)顏色通道。YUV顏色模型、HSV顏色模型與RGB顏色模型都是描述彩色空間的模型,只是產(chǎn)生顏色的方式不同而已。三種顏色模型可以相互轉(zhuǎn)換,并滿足一定的數(shù)學(xué)關(guān)系。例如YUV顏色模型和RGB顏色模型之間的轉(zhuǎn)換公式如下:式(2.1)中,R、G、B取值范圍均為0~255。在實(shí)際應(yīng)用中,可根據(jù)應(yīng)用的需要采用不同的顏色模型來(lái)實(shí)現(xiàn)彩色圖像顯示。例如,在多媒體計(jì)算機(jī)技術(shù)中,用得最多的是RGB顏色模型,而YUV顏色模型主要用于PAL制式的電視系統(tǒng)。2.2.2卷積神經(jīng)網(wǎng)絡(luò)的工作原理簡(jiǎn)介卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),也是深度學(xué)習(xí)的代表模型之一。CNN具有表征學(xué)習(xí)能力,能夠按其階層結(jié)構(gòu)對(duì)輸入信息進(jìn)行平移不變分類,因此也被稱為平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)仿照生物的視知覺(jué)機(jī)制構(gòu)建,可以進(jìn)行監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí),其權(quán)值共享機(jī)制大大提高了網(wǎng)絡(luò)的計(jì)算效率,為卷積神經(jīng)網(wǎng)絡(luò)層數(shù)加深提供了有效的支持。因?yàn)殡S著CNN層數(shù)的加深,輸入圖像的特征被提取得更加充分,從而可以提高圖像識(shí)別率,所以CNN成為圖像分類識(shí)別領(lǐng)域的一種十分重要的模型和方法。1.卷積神經(jīng)網(wǎng)絡(luò)的工作原理由于使用梯度下降法進(jìn)行學(xué)習(xí),CNN的輸入特征需要進(jìn)行標(biāo)準(zhǔn)化處理。即將學(xué)習(xí)數(shù)據(jù)輸入到CNN前,需要對(duì)輸入數(shù)據(jù)進(jìn)行歸一化,若輸入數(shù)據(jù)為像素,也可將分布于[0,255]的原始像素值歸一化至[0,1]區(qū)間。輸入特征的標(biāo)準(zhǔn)化有利于提升CNN的學(xué)習(xí)效率和表現(xiàn)。CNN學(xué)習(xí)的過(guò)程其實(shí)就是根據(jù)輸出值和實(shí)際值之間的誤差,修正網(wǎng)絡(luò)參數(shù)使得損失函數(shù)逐漸收斂的過(guò)程。在學(xué)習(xí)的過(guò)程中,數(shù)字圖像可以作為一個(gè)整體輸入,往后的每一層都會(huì)對(duì)圖像進(jìn)行卷積處理,這個(gè)過(guò)程也是特征提取的過(guò)程。在整個(gè)CNN中靠前的卷積層往往卷積核尺寸較大,這樣的設(shè)計(jì)可以大范圍地提取圖像特征;在整個(gè)CNN中靠后的卷積核尺寸一般較小,這樣可以更精細(xì)地處理前面比較粗糙的特征,達(dá)到精致整合特征的目的。將卷積層提取的特征輸入到全連接層,全連接層將其特征轉(zhuǎn)換成為特征向量,輸入到分類器進(jìn)行分類,最終完成圖像的識(shí)別。CNN在訓(xùn)練過(guò)程中,各層權(quán)值的調(diào)整采用梯度下降法,從后往前依次修正網(wǎng)絡(luò)的權(quán)重,損失函數(shù)收斂到規(guī)定值時(shí)就會(huì)停止各層權(quán)值的調(diào)整。2.卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)CNN發(fā)展比較曲折,在機(jī)器硬件迅速發(fā)展后,CNN成為數(shù)字圖像處理領(lǐng)域最有力的工具,在目標(biāo)檢測(cè)和目標(biāo)識(shí)別上的應(yīng)用非常廣泛。CNN的結(jié)構(gòu)組成有卷積層、激勵(lì)層、池化層和全連接層。圖2.4展示了一個(gè)簡(jiǎn)單的CNN結(jié)構(gòu)示意圖。1)卷積層卷積層的功能是對(duì)輸入數(shù)字圖像數(shù)據(jù)進(jìn)行特征提取,其內(nèi)部包含多個(gè)卷積核,組成卷積核的每個(gè)元素都相應(yīng)有一個(gè)權(quán)重系數(shù)和一個(gè)偏差量,類似于一個(gè)前饋神經(jīng)網(wǎng)絡(luò)的神經(jīng)元。卷積層內(nèi)每個(gè)神經(jīng)元都與前一層中位置接近的區(qū)域的多個(gè)神經(jīng)元相連,區(qū)域的大小取決于卷積核的大小,且區(qū)域的大小被稱為感受野。卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí),將整張圖像作為一個(gè)整體輸入到卷積神經(jīng)網(wǎng)絡(luò)中,卷積層中的卷積核和圖像進(jìn)行卷積計(jì)算并輸出特征圖。卷積神經(jīng)網(wǎng)絡(luò)里面的卷積層采取權(quán)值共享的機(jī)制,這種計(jì)算方法和人工神經(jīng)網(wǎng)絡(luò)中全連接的計(jì)算方法有本質(zhì)的區(qū)別。即不是每一個(gè)值都進(jìn)行一對(duì)一的連接計(jì)算,而是幾個(gè)參數(shù)集合和整個(gè)特征圖進(jìn)行連接結(jié)算,這個(gè)參數(shù)集合稱為卷積核。這樣,卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)會(huì)大量減少,在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練迭代的過(guò)程中,計(jì)算量會(huì)大幅度減少,卷積神經(jīng)網(wǎng)絡(luò)參數(shù)更新會(huì)更加迅速,以加快卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度。卷積核就像一個(gè)特征提取器,里面的參數(shù)在最開(kāi)始時(shí)是隨機(jī)賦予的值,但是在訓(xùn)練的過(guò)程中,特征提取器里面參數(shù)的值在不停地更新,這是為了達(dá)到更好的特征提取效果。卷積核尺寸的大小決定了在特征圖上提取特征的數(shù)量。通過(guò)卷積核的特征提取,特征圖的感受野不斷地變化,通過(guò)卷積核在特征圖上滑動(dòng)將前面提取的簡(jiǎn)單的特征不停地融合,最后圖像的特征被集合到特征圖上的一個(gè)感受野里。卷積核的尺寸大小非常重要,特征的提取和融合效果會(huì)影響特征圖每個(gè)感受野里面的圖像完整性。圖2.5給出了卷積的過(guò)程。下面由式(2.3)給出卷積的計(jì)算過(guò)程。式(2.3)中,*?代表卷積,Wl-1代表第l?-?1層權(quán)重,bl-1代表第l?-?1層的偏置。從式(2.3)可以看出卷積核在卷積過(guò)程中是權(quán)值共享的,這樣可以大大減少計(jì)算量和卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)量。從圖2.5中可以看出影響下一層特征圖的因素包括卷積核的大小和滑動(dòng)步長(zhǎng),當(dāng)卷積核在特征圖上滑動(dòng)時(shí),如果因?yàn)椴介L(zhǎng)問(wèn)題,卷積核越過(guò)了特征圖的邊界,則需要邊界填充。卷積層參數(shù)包括卷積核大小、步長(zhǎng)和填充,三者共同決定了卷積層輸出特征圖的尺寸。其中卷積核大小可以指定為小于輸入圖像尺寸的任意值,卷積核越大,可提取的輸入特征越復(fù)雜。卷積步長(zhǎng)定義了卷積核相鄰兩次掃過(guò)特征圖時(shí)位置的距離。當(dāng)卷積步長(zhǎng)為1時(shí),卷積核會(huì)逐個(gè)掃過(guò)特征圖的元素,當(dāng)步長(zhǎng)為n時(shí)會(huì)在下一次掃描跳過(guò)n?-?1個(gè)像素。2)激勵(lì)層卷積神經(jīng)網(wǎng)絡(luò)的激勵(lì)層是對(duì)卷積后的值進(jìn)行非線性變換。非線性變換在卷積神經(jīng)網(wǎng)絡(luò)中非常重要。非線性變換[15-17]相當(dāng)于對(duì)圖像進(jìn)行扭曲,以提高卷積神經(jīng)網(wǎng)絡(luò)的泛化能力。泛化能力(GeneralizationAbility)是指機(jī)器學(xué)習(xí)算法對(duì)新鮮樣本的適應(yīng)能力,即在原有的數(shù)據(jù)集上添加新的數(shù)據(jù)集,通過(guò)訓(xùn)練輸出一個(gè)合理的結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)相對(duì)于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)層數(shù)較深,經(jīng)過(guò)龐大的前向計(jì)算以后,在卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行反向傳播計(jì)算時(shí)會(huì)產(chǎn)生梯度彌散和梯度爆炸現(xiàn)象。為了避免這種現(xiàn)象的發(fā)生,激勵(lì)層中激活函數(shù)的選取非常重要。一般可以在激勵(lì)層中選取修正線性單元,其激勵(lì)函數(shù)如圖2.6所示。3)池化層(PoolingLayer)池化就是降低特征圖的維數(shù),提取特征圖中的主要特征,防止卷積神經(jīng)網(wǎng)絡(luò)提取特征過(guò)于精細(xì),限制了訓(xùn)練出來(lái)的模型對(duì)數(shù)字圖像的分類識(shí)別效果,也就是增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的泛化能力。經(jīng)過(guò)卷積提取特征輸出特征圖,如果特征圖的尺寸較大,計(jì)算量也隨之上升,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練也會(huì)變緩慢且遲鈍,所以經(jīng)過(guò)池化會(huì)降低特征圖的維度,也會(huì)使得卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練變得簡(jiǎn)單。池化主要分為最大值池化和平均池化,池化層的池化操作類似于卷積層的卷積操作,即在特征圖上進(jìn)行滑動(dòng),對(duì)特征圖上的特征進(jìn)行二次提取。池化和卷積不同之處在于,一個(gè)池化窗口在特征圖上的池化區(qū)域不用像卷積一樣每個(gè)像素點(diǎn)相乘然后疊加,而是提取這個(gè)區(qū)域像素值最大的點(diǎn)或者這個(gè)池化區(qū)域像素點(diǎn)相加的平均值。采樣函數(shù)如式(2.4)所示:式(2.4)中,Rk代表池化的區(qū)域。最大值池化和平均池化的函數(shù)表達(dá)式分別如式(2.5)和式(2.6)所示。簡(jiǎn)單的池化過(guò)程如圖2.7所示。4)全連接層為了將卷積和池化后的特征轉(zhuǎn)變?yōu)樘卣飨蛄?,卷積神經(jīng)網(wǎng)絡(luò)的最后一層一般是全接層,全連接層會(huì)連接所有的像素點(diǎn),然后將特征圖的像素點(diǎn)進(jìn)一步整合提取特征。全連接層類似于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),前后相互連接,然后將特征向量輸入分類器,根據(jù)特征向量的概率值判斷類別。全連接層的函數(shù)表達(dá)式如式(2.7)所示。式中,n代表l?-?1層特征點(diǎn)的個(gè)數(shù),l表示當(dāng)前的層數(shù),Wl-1代表第l?-?1層的權(quán)重,bl-1代表第l?-?1層的偏置,激活函數(shù)用f?(·)表示,代表輸出。2.2.3反向傳播算法BP神經(jīng)網(wǎng)絡(luò)更新權(quán)重采取梯度下降法。根據(jù)前向計(jì)算得出的結(jié)果和實(shí)際值之間的誤差得到損失函數(shù)。對(duì)損失函數(shù)求導(dǎo),因?yàn)閾p失函數(shù)的變量較多,可通過(guò)矩陣的方式進(jìn)行排列計(jì)算,導(dǎo)數(shù)的矩陣稱為梯度。在對(duì)損失函數(shù)尋求最小值的過(guò)程中通過(guò)梯度來(lái)更新權(quán)重和偏置。給定一組輸入值和實(shí)際值(xi,yi),
,設(shè)權(quán)重為W,偏置為b,網(wǎng)絡(luò)的損失函數(shù)為實(shí)際值和輸出值的誤差,常用的損失函數(shù)為均方誤差的形式,表達(dá)式可以采用式(2.8)的形式。式(2.8)中,
表示為損失函數(shù),
表示正則化項(xiàng),正則化的目的是防止網(wǎng)絡(luò)的權(quán)重幅度變化過(guò)大。網(wǎng)絡(luò)權(quán)重的更新和偏置參數(shù)的更新分別由式(2.9)和式(2.10)表示。在上面兩個(gè)式子中,α代表網(wǎng)絡(luò)的學(xué)習(xí)率,用來(lái)控制權(quán)重和偏置變化幅度的步長(zhǎng)。根據(jù)高等數(shù)學(xué)中復(fù)合函數(shù)求偏導(dǎo)的鏈?zhǔn)椒▌t,通過(guò)理論推導(dǎo)可得隱含層第l層的殘差項(xiàng)
為詳細(xì)推導(dǎo)過(guò)程見(jiàn)參考文獻(xiàn)[18]。2.2.4三種典型用于數(shù)字圖像檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò)模型簡(jiǎn)介數(shù)字圖像檢測(cè)是圖像識(shí)別的基礎(chǔ),因此下面首先介紹三種典型的用于數(shù)字圖像檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò)模型。1.?R-CNN圖像檢測(cè)模型[19]R-CNN圖像檢測(cè)流程圖如圖2.8所示。當(dāng)我們輸入一張圖片時(shí),需要搜索出所有可能是待識(shí)別物體的區(qū)域,通過(guò)傳統(tǒng)算法我們可能搜索出上千個(gè)候選框。然后從總流程圖中可以看到,搜索出的候選框是矩形的,而且是大小各不相同的。然而,CNN要求輸入圖片的大小是固定的,如果把搜索到的候選框(矩形框)不做處理,就直接輸入到CNN中是不行的。因此對(duì)于每個(gè)輸入的候選框都需要縮放到固定的尺度大小。一般有各向異性縮放和各向同性縮放兩種縮放方法??s放完成后,可以得到指定大小的圖片,然后用這上千個(gè)候選框圖片,繼續(xù)訓(xùn)練CNN。然而一張圖片中人工標(biāo)注的數(shù)據(jù)就只標(biāo)注了正確的邊界框,我們搜索出來(lái)的上千個(gè)矩形框也不可能會(huì)出現(xiàn)一個(gè)與人工標(biāo)注完全匹配的候選框。因此需要用交并比為上千個(gè)邊界框打標(biāo)簽,以便下一步CNN訓(xùn)練使用。如果用選擇性搜索挑選出來(lái)的候選框與物體的人工標(biāo)注矩形框的重疊區(qū)域IOU大于0.5,那么我們就把這個(gè)候選框標(biāo)注成物體圖像類別,否則我們就把它當(dāng)作背景圖像類別。R-CNN圖像檢測(cè)流程如下:1)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)階段實(shí)現(xiàn)數(shù)字圖像檢測(cè)的具體神經(jīng)網(wǎng)絡(luò)有多個(gè)可選方案:這里第一選擇是經(jīng)典的Alexnet模型[20];第二選擇是VGG16模型[21]。VGG16模型雖然識(shí)別精度高,但計(jì)算量是Alexnet模型的7倍,所以一般選用Alexnet模型。Alexnet模型的特征提取部分包含了5個(gè)卷積層、2個(gè)全連接層,在Alexnet模型中p5層神經(jīng)元個(gè)數(shù)為9216,f6、f7的神經(jīng)元個(gè)數(shù)都是4096。通過(guò)這個(gè)網(wǎng)絡(luò)訓(xùn)練完畢后,最后提取特征時(shí)每個(gè)輸入候選框圖片都能得到一個(gè)4096維的特征向量。2)有監(jiān)督的網(wǎng)絡(luò)預(yù)訓(xùn)練階段物體檢測(cè)的一個(gè)難點(diǎn)在于,物體標(biāo)簽訓(xùn)練數(shù)據(jù)一般偏少,如果直接采用隨機(jī)初始化CNN參數(shù)的方法,那么一般訓(xùn)練數(shù)據(jù)量是遠(yuǎn)遠(yuǎn)不夠的。在這種情況下,最好是通過(guò)某種方法進(jìn)行初始化,然后再進(jìn)行有監(jiān)督的參數(shù)微調(diào)。有些文獻(xiàn)采用的是有監(jiān)督的預(yù)訓(xùn)練,所以在設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)的時(shí)候,直接用Alexnet模型,然后采用它的參數(shù)作為初始的參數(shù)值,最后再微調(diào)訓(xùn)練。網(wǎng)絡(luò)優(yōu)化求解采用隨機(jī)梯度下降法,學(xué)習(xí)速率一般取0.001。3)?Fine-Tuning[22]階段采用選擇性搜索搜索出來(lái)的候選框,經(jīng)過(guò)處理達(dá)到指定大小后,便繼續(xù)對(duì)上面預(yù)訓(xùn)練的CNN模型進(jìn)行微調(diào)訓(xùn)練。假設(shè)要檢測(cè)的物體類別有N類,那么我們就需要把上面預(yù)訓(xùn)練階段的CNN模型的最后一層給替換掉,替換成N?+?1個(gè)輸出神經(jīng)元(加1表示還有一個(gè)背景),然后這一層直接采用參數(shù)隨機(jī)初始化的方法,其他網(wǎng)絡(luò)層的參數(shù)不變;接著就可以開(kāi)始繼續(xù)隨機(jī)梯度下降訓(xùn)練了。2.?Faster-RCNN目標(biāo)圖像檢測(cè)模型[23]Faster-RCNN目標(biāo)圖像檢測(cè)模型有兩個(gè)關(guān)鍵點(diǎn):一是使用區(qū)域選取網(wǎng)絡(luò)代替原來(lái)的選擇性搜索方法產(chǎn)生建議窗口;二是產(chǎn)生建議窗口的CNN和目標(biāo)檢測(cè)的CNN共享。整體框架流程如下:(1)?Faster-RCNN把整張圖片輸入CNN,進(jìn)行特征提取。(2)?Faster-RCNN用PRN生成建議窗口,每張圖片生成300個(gè)建議窗口。(3)?Faster-RCNN把建議窗口映射到CNN的最后一層卷積特征圖上。(4)通過(guò)感興趣區(qū)域,池化層使每個(gè)RoI生成固定尺寸的特征圖。(5)??利用Softmax損失[24]和平滑L1損失[25]對(duì)分類概率和邊框回歸聯(lián)合訓(xùn)練。Faster-RCNN目標(biāo)圖像檢測(cè)流程圖如圖2.9所示。3.?SSD圖像目標(biāo)檢測(cè)模型[26]SSD圖像目標(biāo)檢測(cè)模型的主要優(yōu)點(diǎn)有:數(shù)字圖像目標(biāo)檢測(cè)速度比Faster-RCNN目標(biāo)檢測(cè)模型快,精度比Yolo模型高[27]。為提高不同尺度下的結(jié)果預(yù)測(cè)準(zhǔn)確率,采用特征金字塔預(yù)測(cè)方式和End-To-End訓(xùn)練方式,即使分辨率比較低的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 故宮模板課件教學(xué)課件
- 街心廣場(chǎng)課件教學(xué)課件
- 2024年度批量貨物搬運(yùn)與運(yùn)輸合同
- 2024年度某大型工程建設(shè)項(xiàng)目施工合同
- 2024年人工智能研究員全職合同
- 2024國(guó)際許可合同的格式國(guó)際許可合同的種類
- 2024年廣告牌更新改造施工合同
- 2024規(guī)范的辦公室裝修合同范本
- 2024店面租房合同范本下載
- 2024年店面租賃升級(jí)協(xié)議
- 肺脹病(中醫(yī)臨床路徑
- 鋼結(jié)構(gòu)防塵網(wǎng)施工方案
- “一戶一表”改造工程施工組織方案
- 大型及分布式光伏電站視頻監(jiān)控典型配置方案V1.0
- 《十字繡》教學(xué)設(shè)計(jì)及反思
- 橋梁形象進(jìn)度圖
- C站使用說(shuō)明JRC
- 習(xí)作:推薦一個(gè)好地方 推薦ppt課件
- 角的度量 華應(yīng)龍(課堂PPT)
- 公路銑刨機(jī)整機(jī)的設(shè)計(jì)含全套CAD圖紙
- 機(jī)器人學(xué)課程教學(xué)大綱
評(píng)論
0/150
提交評(píng)論