第二課(機器學(xué)習(xí)與人工智能)_第1頁
第二課(機器學(xué)習(xí)與人工智能)_第2頁
第二課(機器學(xué)習(xí)與人工智能)_第3頁
第二課(機器學(xué)習(xí)與人工智能)_第4頁
第二課(機器學(xué)習(xí)與人工智能)_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1.什么是機器學(xué)習(xí)2.機器學(xué)習(xí)的定義3.機器學(xué)習(xí)的范圍4.機器學(xué)習(xí)的方法5.機器學(xué)習(xí)的應(yīng)用–大數(shù)據(jù)6.機器學(xué)習(xí)的子類–深度學(xué)習(xí)7.機器學(xué)習(xí)的父類–人工智能中間的是GeoffreyHinton,加拿大多倫多大學(xué)的教授,被聘為“Google大腦”的負(fù)責(zé)人。右邊的是YannLeCun,紐約大學(xué)教授,如今是Facebook人工智能實驗室的主任。左邊的是AndrewNg,吳恩達(dá),斯坦福大學(xué)副教授,“百度大腦”的負(fù)責(zé)人與百度首席科學(xué)家。這三位都是目前業(yè)界炙手可熱的大牛,互聯(lián)網(wǎng)界大鱷爭相聘請。而他們的研究方向,則全部都是機器學(xué)習(xí)的子類–深度學(xué)習(xí)。左圖時WindowsPhone上的語音助手Cortana,《光環(huán)》。右圖是蘋果的siri。他們背后的核心技術(shù)是什么?為什么它能夠聽懂人的語音?這個技術(shù)正是機器學(xué)習(xí)。機器學(xué)習(xí)是所有語音助手產(chǎn)品能夠跟人交互的關(guān)鍵技術(shù)。

1、什么是機器學(xué)習(xí)經(jīng)典的“等人問題”當(dāng)你跟一個愛遲到的人約會,為了避免浪費過多時間,你會選擇什么策略?

第一種方法是搜索知識:例如我們常用的百度。但很遺憾,沒有人會把如何等人這個問題作為知識傳授。第二種是經(jīng)驗法:回憶過往跟小Y相約的經(jīng)歷,看看跟他相約的次數(shù)中,遲到占了多大的比例,從而預(yù)測他這次遲到的可能性。假設(shè)我跟小Y約過5次,他遲到的次數(shù)是1次,那么他按時到的比例為80%,我心中的閾值為70%,我認(rèn)為這次小Y應(yīng)該不會遲到,因此我按時出門。如果小Y在5次遲到的次數(shù)中占了4次,也就是他按時到達(dá)的比例為20%,由于這個值低于我的閾值,因此我選擇推遲出門的時間。

依據(jù)數(shù)據(jù)所做的判斷跟機器學(xué)習(xí)的思想根本上是一致的。一般的機器學(xué)習(xí)模型至少考慮兩個量:一個是因變量,也就是我們希望預(yù)測的結(jié)果,在這個例子里就是小Y遲到與否的判斷。另一個是自變量,也就是用來預(yù)測小Y是否遲到的量。假設(shè)我把時間作為自變量,譬如我發(fā)現(xiàn)小Y所有遲到的日子基本都是星期五,而在非星期五情況下他基本不遲到。于是我可以建立一個模型,來模擬小Y遲到與否跟日子是否是星期五的概率。這樣的圖就是一個最簡單的機器學(xué)習(xí)模型,稱之為決策樹。再增加一些自變量:小Y的開車技術(shù)、當(dāng)天路況、天氣。在這樣的情況下,決策樹就無法很好地支撐了,因為決策樹只能預(yù)測離散值。就需要更換模型,例如機器學(xué)習(xí)中的線型回歸來預(yù)測。就是機器學(xué)習(xí)的過程:把所有的自變量和因變量輸入,計算機自動生成模型,再根據(jù)當(dāng)前的情況,給出我是否需要遲出門,需要遲幾分鐘的決策。機器學(xué)習(xí)方法是計算機利用已有的數(shù)據(jù)(經(jīng)驗),得出了某種模型(遲到的規(guī)律),并利用此模型預(yù)測未來(是否遲到)的一種方法。2、機器學(xué)習(xí)的定義

從廣義上來說,機器學(xué)習(xí)是一種能夠賦予機器學(xué)習(xí)的能力以此讓它完成直接編程無法完成的功能的方法。從實踐的意義上來說,機器學(xué)習(xí)是一種利用數(shù)據(jù),訓(xùn)練模型,使用模型預(yù)測的一種方法。房價模型:房價=面積*a+b3、機器學(xué)習(xí)的范圍

機器學(xué)習(xí)和模式識別,統(tǒng)計學(xué)習(xí),數(shù)據(jù)挖掘,計算機視覺,語音識別,自然語言處理的關(guān)系。

從范圍上來說,機器學(xué)習(xí)跟模式識別,統(tǒng)計學(xué)習(xí),數(shù)據(jù)挖掘是類似的;機器學(xué)習(xí)與其他領(lǐng)域的處理技術(shù)的結(jié)合,形成了計算機視覺、語音識別、自然語言處理等交叉學(xué)科。一般說數(shù)據(jù)挖掘時,等同于說機器學(xué)習(xí)。

模式識別

范圍:模式識別=機器學(xué)習(xí)。區(qū)別:“模式識別源自工業(yè)界,而機器學(xué)習(xí)來自于計算機學(xué)科。

模式識別是70年代和80年代非常流行的一個術(shù)語。它強調(diào)的是如何讓一個計算機程序去做一些看起來很“智能”的事情,例如識別“3”這個數(shù)字,如何區(qū)分“3”和“B”或者“3”和“8”。

數(shù)據(jù)挖掘

數(shù)據(jù)挖掘=機器學(xué)習(xí)+數(shù)據(jù)庫。數(shù)據(jù)挖掘僅僅是一種思考方式,告訴我們應(yīng)該嘗試從數(shù)據(jù)中挖掘出知識,但不是每個數(shù)據(jù)都能挖掘出金子的,也可能挖出石頭。所以說一個系統(tǒng)絕對不會因為裝了一個數(shù)據(jù)挖掘模塊就變得無所不能,恰恰相反,一個擁有數(shù)據(jù)挖掘思維的人員才是關(guān)鍵。大部分?jǐn)?shù)據(jù)挖掘中的算法是機器學(xué)習(xí)的算法在數(shù)據(jù)庫中的優(yōu)化。統(tǒng)計學(xué)習(xí)統(tǒng)計學(xué)習(xí)近似等于機器學(xué)習(xí)。機器學(xué)習(xí)中大多數(shù)方法來自統(tǒng)計學(xué)。例如著名的支持向量機算法,就是源自統(tǒng)計學(xué)科。區(qū)別:統(tǒng)計學(xué)習(xí)者重點關(guān)注的是統(tǒng)計模型的發(fā)展與優(yōu)化,偏數(shù)學(xué);而機器學(xué)習(xí)者更關(guān)注的是能夠解決問題,偏實踐。計算機視覺

計算機視覺=圖像處理+機器學(xué)習(xí)。圖像處理技術(shù)用于將圖像處理為適合進(jìn)入機器學(xué)習(xí)模型中的輸入,機器學(xué)習(xí)則負(fù)責(zé)從圖像中識別出相關(guān)的模式。應(yīng)用:百度識圖、手寫字符識別、車牌識別。這個領(lǐng)域是應(yīng)用前景非?;馃岬?,同時也是研究的熱門方向。語音識別語音識別=語音處理+機器學(xué)習(xí)。語音識別就是音頻處理技術(shù)與機器學(xué)習(xí)的結(jié)合。語音識別技術(shù)一般不會單獨使用,一般會結(jié)合自然語言處理的相關(guān)技術(shù),如siri。自然語言處理自然語言處理=文本處理+機器學(xué)習(xí)。自然語言處理技術(shù)主要是讓機器理解人類的語言的一門領(lǐng)域。在自然語言處理技術(shù)中,大量使用了編譯原理相關(guān)的技術(shù),例如詞法分析,語法分析等等,除此之外,在理解這個層面,則使用了語義理解,機器學(xué)習(xí)等技術(shù)。作為唯一由人類自身創(chuàng)造的符號,自然語言處理一直是機器學(xué)習(xí)界不斷研究的方向。如微軟小冰聊天機器人。百度機器學(xué)習(xí)專家余凱:“聽與看,說白了就是阿貓和阿狗都會的,而只有語言才是人類獨有的”。4、機器學(xué)習(xí)的方法1、回歸算法,包括線性回歸和邏輯回歸房價求解問題是線性回歸——擬合出一條直線最佳匹配所有的數(shù)據(jù)。一般使用“最小二乘法”來求解?!白钚《朔ā保簽榱吮M可能減小我們直線擬合出的值和觀測數(shù)據(jù)的誤差,需要使所有誤差的平方和最小。最小二乘法將最優(yōu)問題轉(zhuǎn)化為求函數(shù)極值問題?!皵?shù)值計算”是專門用來提升計算機進(jìn)行各類計算時的準(zhǔn)確性和效率問題。例如,著名的“梯度下降”以及“牛頓法”就是數(shù)值計算中的經(jīng)典算法,也非常適合來處理求解函數(shù)極值的問題。梯度下降法是解決回歸模型中最簡單且有效的方法之一。

邏輯回歸與線性回歸類似。線性回歸處理的是數(shù)值問題,也就是最后預(yù)測出的結(jié)果是數(shù)字,例如房價。而邏輯回歸屬于分類算法,也就是說,邏輯回歸預(yù)測結(jié)果是離散的分類,例如判斷這封郵件是否是垃圾郵件,以及用戶是否會點擊此廣告等等。2、神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò),ANN算法是80年代機器學(xué)習(xí)界非常流行的算法,不過在90年代中途衰落?,F(xiàn)在,攜著“深度學(xué)習(xí)”之勢,神經(jīng)網(wǎng)絡(luò)重新成為最強大的機器學(xué)習(xí)算法之一。神經(jīng)網(wǎng)絡(luò)的誕生起源于對大腦工作機理的研究。早期生物界學(xué)者們使用神經(jīng)網(wǎng)絡(luò)來模擬大腦。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機理:——分解與整合。下圖的網(wǎng)絡(luò),分成輸入層,隱藏層,和輸出層。輸入層負(fù)責(zé)接收信號,隱藏層負(fù)責(zé)對數(shù)據(jù)的分解與處理,最后的結(jié)果被整合到輸出層。每層中的一個圓代表一個處理單元,可以認(rèn)為是模擬了一個神經(jīng)元,若干個處理單元組成了一個層,若干個層再組成了一個網(wǎng)絡(luò),也就是”神經(jīng)網(wǎng)絡(luò)”。LeNet——基于多個隱層構(gòu)建的神經(jīng)網(wǎng)絡(luò)可以識別多種手寫數(shù)字,達(dá)到很高的識別精度與擁有較好的魯棒性。3、SVM(支持向量機)支持向量機是邏輯回歸算法的強化:通過給予更嚴(yán)格的優(yōu)化條件,借助特定的核函數(shù)

,獲得比邏輯回歸更好的分類界線。通過跟高斯“核”的結(jié)合,支持向量機可以表達(dá)出非常復(fù)雜的分類界線,從而達(dá)成很好的的分類效果。“核函數(shù)”事實上就是一種特殊的函數(shù),最典型的特征就是可以將低維的空間映射到高維的空間。

如何在二維平面劃分出一個圓形的分類界線?在二維平面可能會很困難,但是通過“核”可以將二維空間映射到三維空間,然后使用一個線性平面就可以達(dá)成類似效果。也就是說,二維平面劃分出的非線性分類界線可以等價于三維平面的線性分類界線。4、聚類算法前面的算法中的一個顯著特征就是我的訓(xùn)練數(shù)據(jù)中包含了標(biāo)簽,訓(xùn)練出的模型可以對其他未知數(shù)據(jù)預(yù)測標(biāo)簽。也就是有監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)不含標(biāo)簽,算法的目的是通過訓(xùn)練,推測出這些數(shù)據(jù)的標(biāo)簽,聚類算法是典型代表。舉例:根據(jù)距離的遠(yuǎn)近將數(shù)據(jù)劃分為多個族群。用肉眼可以看出有四個點群,但是怎么通過計算機程序找出這幾個點群——K-Means目標(biāo)是找出有幾個種群,同時找出種群的中心點:1、隨機在圖中取K(這里K=2)個種子點(灰色)。2、對圖中的所有點求到這K個種子點的距離,A,B屬于上面的種子點,C,D,E屬于下面中部的種子點。3、移動種子點到屬于他的“點群”的中心,不斷重復(fù)第2)和第3)步,直到,種子點沒有移動,就找到了種群及中心。5、降維算法主要特征是將數(shù)據(jù)從高維降低到低維層次。維度是數(shù)據(jù)的特征量,例如,房價包含房子的長、寬、面積與房間數(shù)量四個特征,維度為4維。長與寬事實上與面積表示的信息重疊了,例如面積=長×寬。通過降維算法我們就可以去除冗余信息,將特征減少為面積與房間數(shù)量兩個特征,即從4維的數(shù)據(jù)壓縮到2維。降維算法的主要作用是壓縮數(shù)據(jù)與提升機器學(xué)習(xí)其他算法的效率。通過降維算法,可以將具有幾千個特征的數(shù)據(jù)壓縮至若干個特征。另外,降維算法的另一個好處是數(shù)據(jù)的可視化,例如將5維的數(shù)據(jù)壓縮至2維,然后可以用二維平面來可視。6、推薦算法

推薦算法在電商界,如亞馬遜,天貓,京東有廣泛的運用。主要特征是自動向用戶推薦他們最感興趣的東西。推薦算法有兩個主要的類別:

一類是基于物品內(nèi)容的推薦,是將與用戶購買的內(nèi)容近似的物品推薦給用戶,這樣的前提是每個物品都得有若干個標(biāo)簽,因此才可以找出與用戶購買物品類似的物品,這樣推薦的好處是關(guān)聯(lián)程度較大,但是由于每個物品都需要貼標(biāo)簽,因此工作量較大。另一類是基于用戶相似度的推薦,則是將與目標(biāo)用戶興趣相同的其他用戶購買的東西推薦給目標(biāo)用戶,例如小A歷史上買了物品B和C,經(jīng)過算法分析,發(fā)現(xiàn)另一個與小A近似的用戶小D購買了物品E,于是將物品E推薦給小A。

在一般的電商應(yīng)用中,一般是兩類混合使用。最有名的算法就是協(xié)同過濾算法。基于人口統(tǒng)計學(xué)的推薦基于內(nèi)容的推薦基于商品的協(xié)同過濾推薦5、機器學(xué)習(xí)的應(yīng)用——大數(shù)據(jù)2010年以前,機器學(xué)習(xí)的應(yīng)用在某些特定領(lǐng)域發(fā)揮了巨大的作用,如車牌識別,網(wǎng)絡(luò)攻擊防范,手寫字符識別等等。2010年以后,隨著大數(shù)據(jù)概念的興起,機器學(xué)習(xí)大量的應(yīng)用都與大數(shù)據(jù)高度耦合,幾乎可以認(rèn)為大數(shù)據(jù)是機器學(xué)習(xí)應(yīng)用的最佳場景。Google利用大數(shù)據(jù)預(yù)測了H1N1在美國某小鎮(zhèn)的爆發(fā)百度預(yù)測2014年世界杯,從淘汰賽到?jīng)Q賽全部預(yù)測正確機器學(xué)習(xí)模型的數(shù)據(jù)越多,機器學(xué)習(xí)的預(yù)測的效率就越好大數(shù)據(jù)并不等同于機器學(xué)習(xí),機器學(xué)習(xí)也不等同于大數(shù)據(jù)。大數(shù)據(jù)中包含有分布式計算,內(nèi)存數(shù)據(jù)庫,多維分析等等多種技術(shù)。

機器學(xué)習(xí)僅僅是大數(shù)據(jù)分析中的一種而已。盡管機器學(xué)習(xí)的一些結(jié)果具有很大的魔力,在某種場合下是大數(shù)據(jù)價值最好的說明。但這并不代表機器學(xué)習(xí)是大數(shù)據(jù)下的唯一的分析方法。四種數(shù)據(jù)分析技術(shù):1.大數(shù)據(jù),小分析:即數(shù)據(jù)倉庫領(lǐng)域的OLAP分析思路,也就是多維分析思想。2.大數(shù)據(jù),大分析:這個代表的就是數(shù)據(jù)挖掘與機器學(xué)習(xí)分析法。3.流式分析:這個主要指的是事件驅(qū)動架構(gòu)。4.查詢分析:經(jīng)典代表是NoSQL數(shù)據(jù)庫。6、機器學(xué)習(xí)的子類–深度學(xué)習(xí)

近來,機器學(xué)習(xí)的發(fā)展產(chǎn)生了一個新的方向,即“深度學(xué)習(xí)”。

深度學(xué)習(xí)就是傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)發(fā)展到了多隱藏層的情況。自從90年代以后,神經(jīng)網(wǎng)絡(luò)已經(jīng)消寂了一段時間。由于神經(jīng)網(wǎng)絡(luò)在隱藏層擴大到兩個以上,其訓(xùn)練速度就會非常慢,因此實用性一直低于支持向量機。2006年,GeoffreyHinton在科學(xué)雜志《Science》上發(fā)表了一篇文章,論證了兩個觀點:1.多隱層的神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類;2.深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度,可以通過“逐層初始化”來有效克服。具有多個隱藏層的神經(jīng)網(wǎng)絡(luò)被稱為深度神經(jīng)網(wǎng)絡(luò),基于深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)研究稱之為深度學(xué)習(xí)。7、機器學(xué)習(xí)的父類–人工智能

Artificial

Intelligence,簡稱AI50年代就提出的老概念,各種小說、電影都在以各種方式展現(xiàn)對于人工智能的想象。但事實上,自從50年代以后,人工智能的發(fā)展并沒有取得足夠震撼的科學(xué)進(jìn)步。人工智能發(fā)展:早期的邏輯推理——中期的專家系統(tǒng)——機器學(xué)習(xí)出現(xiàn)基于機器學(xué)習(xí)的圖像識別和語音識別在某些垂直領(lǐng)域達(dá)到了跟人相媲美的程度。人類區(qū)別于其他物體,植物,動物的最主要區(qū)別,是“智慧”。智慧的最佳體現(xiàn)是什么?計算能力?——“天才”——分布式計算反應(yīng)能力?——“聰明”——事件驅(qū)動架構(gòu)推理能力?——“福爾摩斯”——專家系統(tǒng)知識能力?——

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論