機器學習的定義_第1頁
機器學習的定義_第2頁
機器學習的定義_第3頁
機器學習的定義_第4頁
機器學習的定義_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、機器學習的定義從廣義上來說,機器學習是一種能夠賦予機器學習的能力以此讓它完成直接編程無法完成的功能的方法。但從實踐的意義上來說,機器學習是一種通過利用數(shù)據(jù),訓練出模型,然后使用模型預測的一種方法。機器學習的范圍其實,機器學習跟模式識別,統(tǒng)計學習,數(shù)據(jù)挖掘,計算機視覺,語音識別,自然語言處理等領域有著很深的聯(lián)系。從范圍上來說,機器學習跟模式識別,統(tǒng)計學習,數(shù)據(jù)挖掘是類似的,同時,機器學習與其他領域的處理技術的結合,形成了計算機視覺、語音識別、自然語言處理等交叉學科。因此,一般說數(shù)據(jù)挖掘時,可以等同于說機器學習。同時,我們平常所說的機器學習應用,應該是通用的,不僅僅模式識別模式識別=機器學習。兩者

2、的主要區(qū)別在于前者是從工業(yè)界發(fā)展起來的概念,后者則主要源自計算機學科。在著名的PatternRecognitionAndMachineLearning»這本書中,ChristopherM.Bishop在開頭是這樣說的“模式識別源自工業(yè)界,而機器學習來自于計算機學科。不過,它們中的活動可以被視為同一個領域的兩個方面,同時在過去的10年間,它們都有了長足的發(fā)展”。數(shù)據(jù)挖掘數(shù)據(jù)挖掘=機器學習+數(shù)據(jù)庫。這幾年數(shù)據(jù)挖掘的概念實在是太耳熟能詳。幾乎等同于炒作。但凡說數(shù)據(jù)挖掘都會吹噓數(shù)據(jù)挖掘如何如何,例如從數(shù)據(jù)中挖出金子,以及將廢棄的數(shù)據(jù)轉化為價值等等。但是,我盡管可能會挖出金子,但我也可能挖的是

3、“石頭”啊。這個說法的意思是,數(shù)據(jù)挖掘僅僅是一種思考方式,告訴我們應該嘗試從數(shù)據(jù)中挖掘出知識,但不是每個數(shù)據(jù)都能挖掘出金子的,所以不要神話它。一個系統(tǒng)絕對不會因為上了一個數(shù)據(jù)挖掘模塊就變得無所不能(這是舊M最喜歡吹噓的),恰恰相反,一個擁有數(shù)據(jù)挖掘思維的人員才是關鍵,而且他還必須對數(shù)據(jù)有深刻的認識,這樣才可能從數(shù)據(jù)中導出模式指引業(yè)務的改善。大部分數(shù)據(jù)挖掘中的算法是機器學習的算法在數(shù)據(jù)庫中的優(yōu)化。統(tǒng)計學習統(tǒng)計學習近似等于機器學習。統(tǒng)計學習是個與機器學習高度重疊的學科。因為機器學習中的大多數(shù)方法來自統(tǒng)計學,甚至可以認為,統(tǒng)計學的發(fā)展促進機器學習的繁榮昌盛。例如著名的支持向量機算法,就是源自統(tǒng)計學科

4、。但是在某種程度上兩者是有分別的,這個分別在于:統(tǒng)計學習者重點關注的是統(tǒng)計模型的發(fā)展與優(yōu)化,偏數(shù)學,而機器學習者更關注的是能夠解決問題,偏實踐,因此機器學習研究者會重點研究學習算法在計算機上執(zhí)行的效率與準確性的提升。計算機視覺計算機視覺=圖像處理+機器學習。圖像處理技術用于將圖像處理為適合進入機器學習模型中的輸入,機器學習則負責從圖像中識別出相關的模式。計算機視覺相關的應用非常的多,例如百度識圖、手寫字符識別、車牌識別等等應用。這個領域是應用前景非?;馃岬?,同時也是研究的熱門方向。隨著機器學習的新領域深度學習的發(fā)展,大大促進了計算機圖像識別的效果,因此未來計算機視覺界的發(fā)展前景不可估量。語音識

5、別語音識別=語音處理+機器學習。語音識別就是音頻處理技術與機器學習的結合。語音識別技術一般不會單獨使用,一般會結合自然語言處理的相關技術。目前的相關應用有蘋果的語音助手siri等。自然語言處理自然語言處理=文本處理+機器學習。自然語言處理技術主要是讓機器理解人類的語言的一門領域。在自然語言處理技術中,大量使用了編譯原理相關的技術,例如詞法分析,語法分析等等,除此之外,在理解這個層面,則使用了語義理解,機器學習等技術。作為唯一由人類自身創(chuàng)造的符號,自然語言處理一直是機器學習界不斷研究的方向。按照百度機器學習專家余凱的說法“聽與看,說白了就是阿貓和阿狗都會的,而只有語言才是人類獨有的"。

6、如何利用機器學習技術進行自然語言的的深度理解,一直是工業(yè)和學術界關注的焦點??梢钥闯鰴C器學習在眾多領域的外延和應用。機器學習技術的發(fā)展促使了很多智能領域的進步,改善著我們的生活。局限在結構化數(shù)據(jù),還有圖像,音頻等應用。機器學習的方法1、回歸算法在大部分機器學習課程中,回歸算法都是介紹的第一個算法。原因有兩個:一.回歸算法比較簡單,介紹它可以讓人平滑地從統(tǒng)計學遷移到機器學習中。二.回歸算法是后面若干強大算法的基石,如果不理解回歸算法,無法學習那些強大的算法。回歸算法有兩個重要的子類:即線性回歸和邏輯回歸。線性回歸就是我們前面說過的房價求解問題。如何擬合出一條直線最佳匹配我所有的數(shù)據(jù)?一般使用“最

7、小二乘法”來求解。“最小二乘法”的思想是這樣的,假設我們擬合出的直線代表數(shù)據(jù)的真實值,而觀測到的數(shù)據(jù)代表擁有誤差的值。為了盡可能減小誤差的影響,需要求解一條直線使所有誤差的平方和最小。最小二乘法將最優(yōu)問題轉化為求函數(shù)極值問題。函數(shù)極值在數(shù)學上我們一般會采用求導數(shù)為0的方法。但這種做法并不適合計算機,可能求解不出來,也可能計算量o計算機科學界專門有一個學科叫“數(shù)值計算”,專門用來提升計算機進行各類計算時的準確性和效率問題。例如,著名的“梯度下降”以及“牛頓法”就是數(shù)值計算中的經(jīng)典算法,也非常適合來處理求解函數(shù)極值的問題。梯度下降法是解決回歸模型中最簡單且有效的方法之一。從嚴格意義上來說,由于后文

8、中的神經(jīng)網(wǎng)絡和推薦算法中都有線性回歸的因子,因此梯度下降法在后面的算法實現(xiàn)中也有應用。邏輯回歸是一種與線性回歸非常類似的算法,但是,從本質上講,線型回歸處理的問題類型與邏輯回歸不一致。線性回歸處理的是數(shù)值問題,也就是最后預測出的結果是數(shù)字,例如房價。而邏輯回歸屬于分類算法,也就是說,邏輯回歸預測結果是離散的分類,例如判斷這封郵件是否是垃圾郵件,以及用戶是否會點擊此)口專專。實現(xiàn)方面的話,邏輯回歸只是對對線性回歸的計算結果加上了一個Sigmoid函數(shù),將數(shù)值結果轉化為了0到1之間的概率(Sigmoid函數(shù)的圖像一般來說并不直觀,你只需要理解對數(shù)值越大,函數(shù)越逼近1,數(shù)值越小,函數(shù)越逼近0),接著

9、我們根據(jù)這個概率可以做預測,例如概率大于0.5,則這封郵件就是垃圾郵件,或者月中瘤是否是惡性的等等。從直觀上來說,邏輯回歸是畫出了一條分類線,見下圖。目標:預?輸入:腫?患者的年t輸出:良,卜X爻X年齡ooO:體積圖7邏輯回歸的直觀解釋假設我們有一組月中瘤患者的數(shù)據(jù),這些患者的月中瘤中有些是良性的(圖中的藍色點),有些是惡性的(圖中的紅色點)。這里月中瘤的紅藍色可以被稱作數(shù)據(jù)的“標簽”。同時每個數(shù)據(jù)包括兩個“特征”:患者的年齡與月中瘤的大小。我們將這兩個特征與標簽映射到這個二維空間上,形成了我上圖的數(shù)據(jù)。當我有一個綠色的點時,我該判斷這個月中瘤是惡性的還是良性的呢?根據(jù)紅藍點我們訓練出了一個邏

10、輯回歸模型,也就是圖中的分類線。這時,根據(jù)綠點出現(xiàn)在分類線的左側,因此我們判斷它的標簽應該是紅色,也就是說屬于惡性月中瘤。邏輯回歸算法劃出的分類線基本都是線性的(也有劃出非線性分類線的邏輯回歸,不過那樣的模型在處理數(shù)據(jù)量較大的時候效率會很低),這意味著當兩類之間的界線不是線性時,邏輯回歸的表達能力就不足。下面的兩個算法是機器學習界最強大且重要的算法,都可以擬合出非線性的分類線。2、神經(jīng)網(wǎng)絡神經(jīng)網(wǎng)絡(也稱之為人工神經(jīng)網(wǎng)絡,ANN算法是80年代機器學習界非常流行的算法,不過在90年代中途衰落。現(xiàn)在,攜著“深度學習”之勢,神經(jīng)網(wǎng)絡重裝歸來,重新成為最強大的機器學習算法之一。神經(jīng)網(wǎng)絡的誕生起源于對大腦

11、工作機理的研究。早期生物界學者們使用神經(jīng)網(wǎng)絡來模擬大腦。機器學習的學者們使用神經(jīng)網(wǎng)絡進行機器學習的實驗,發(fā)現(xiàn)在視覺與語音的識別上效果都相當好。在BP算法(加速神經(jīng)網(wǎng)絡訓練過程的數(shù)值算法)誕生以后,神經(jīng)網(wǎng)絡的發(fā)展進入了一個熱潮。BP算法的發(fā)明人之一是前面介紹的機器學習大牛GeoffreyHinton(圖1中的中間者)。具體說來,神經(jīng)網(wǎng)絡的學習機理是什么?簡單來說,就是分解與整合。在著名的Hubel-Wiesel試驗中,學者們研究貓的視覺分析機理是這樣的。Hubei&Weiselfeaturalhierarhypercomplex/cellscomplexcellssimplecellsJ

12、r圖8Hubel-Wiesel試驗與大腦視覺機理比方說,一個正方形,分解為四個折線進入視覺處理的下一層中。四個神經(jīng)元分別處理一個折線。每個折線再繼續(xù)被分解為兩條直線,每條直線再被分解為黑白兩個面。于是,一個復雜的圖像變成了大量的細節(jié)進入神經(jīng)元,神經(jīng)元處理以后再進行整合,最后得出了看到的是正方形的結論。這就是大腦視覺識別的機理,也是神經(jīng)網(wǎng)絡工作的機理。讓我們看一個簡單的神經(jīng)網(wǎng)絡的邏輯架構。在這個網(wǎng)絡中,分成輸入層,隱藏層,和輸出層。輸入層負責接收信號,隱藏層負責對數(shù)據(jù)的分解與處理,最后的結果被整合到輸出層。每層中的一個圓代表一個處理單元,可以認為是模擬了一個神經(jīng)元,若干個處理單元組成了一個層,若

13、干個層再組成了一個網(wǎng)絡,也就是"神經(jīng)網(wǎng)絡”。圖9神經(jīng)網(wǎng)絡的邏輯架構在神經(jīng)網(wǎng)絡中,每個處理單元事實上就是一個邏輯回歸模型,邏輯回歸模型接收上層的輸入,把模型的預測結果作為輸出傳輸?shù)较乱粋€層次。通過這樣的過程,神經(jīng)網(wǎng)絡可以完成非常復雜的非線性分類。下圖會演示神經(jīng)網(wǎng)絡在圖像識別領域的一個著名應用,這個程序叫做LeNet,是一個基于多個隱層構建的神經(jīng)網(wǎng)絡。通過LeNet可以識別多種手寫數(shù)字,并且達到很高的識別精度與擁有較好的魯棒性。圖10LeNet的效果展示右下方的方形中顯示的是輸入計算機的圖像,方形上方的紅色字樣"answer”后面顯示的是計算機的輸出。左邊的三條豎直的圖像列顯示

14、的是神經(jīng)網(wǎng)絡中三個隱藏層的輸出,可以看出,隨著層次的不斷深入,越深的層次處理的細節(jié)越低,例如層3基本處理的都已經(jīng)是線的細節(jié)了。LeNet的發(fā)明人就是前文介紹過的機器學習的大牛YannLeCun(圖1右者)。進入90年代,神經(jīng)網(wǎng)絡的發(fā)展進入了一個瓶頸期。其主要原因是盡管有BP算法的加速,神經(jīng)網(wǎng)絡的訓練過程仍然很困難。因此90年代后期支持向量機(SVM)算法取代了神經(jīng)網(wǎng)絡的地位。3、SVM(支持向量機)支持向量機算法是誕生于統(tǒng)計學習界,同時在機器學習界大放光彩的經(jīng)典算法。支持向量機算法從某種意義上來說是邏輯回歸算法的強化:通過給予邏輯回歸算法更嚴格的優(yōu)化條件,支持向量機算法可以獲得比邏輯回歸更好的

15、分類界線。但是如果沒有某類函數(shù)技術,則支持向量機算法最多算是一種更好的線性分類技術。但是,通過跟高斯“核”的結合,支持向量機可以表達出非常復雜的分類界線,從而達成很好的的分類效果?!昂恕笔聦嵣暇褪且环N特殊的函數(shù),最典型的特征就是可以將低維的空間映射到高維的空間。例如下圖所示:圖11支持向量機圖例我們?nèi)绾卧诙S平面劃分出一個圓形的分類界線?在二維平面可能會很困難,但是通過“核”可以將二維空間映射到三維空間,然后使用一個線性平面就可以達成類似效果。也就是說,二維平面劃分出的非線性分類界線可以等價于三維平面的線性分類界線。于是,我們可以通過在三維空間中進行簡單的線性劃分就可以達到在二維平面中的非線性

16、劃分效果。圖12三維空間的切割支持向量機是一種數(shù)學成分很濃的機器學習算法(相對的,神經(jīng)網(wǎng)絡則有生物科學成分)。在算法的核心步驟中,有一步證明,即將數(shù)據(jù)從低維映射到高維不會帶來最后計算復雜性的提升。于是,通過支持向量機算法,既可以保持計算效率,又可以獲得非常好的分類效果。因此支持向量機在90年代后期一直占據(jù)著機器學習中最核心的地位,基本取代了神經(jīng)網(wǎng)絡算法。直到現(xiàn)在神經(jīng)網(wǎng)絡借著深度學習重新興起,兩者之間才又發(fā)生了微妙的平衡轉變。4、聚類算法前面的算法中的一個顯著特征就是我的訓練數(shù)據(jù)中包含了標簽,訓練出的模型可以對其他未知數(shù)據(jù)預測標簽。在下面的算法中,訓練數(shù)據(jù)都是不含標簽的,而算法的目的則是通過訓練

17、,推測出這些數(shù)據(jù)的標簽。這類算法有一個統(tǒng)稱,即無監(jiān)督算法(前面有標簽的數(shù)據(jù)的算法則是有監(jiān)督算法)。無監(jiān)督算法中最典型的代表就是聚類算法。讓我們還是拿一個二維的數(shù)據(jù)來說,某一個數(shù)據(jù)包含兩個特征。我希望通過聚類算法,給他們中不同的種類打上標簽,我該怎么做呢?簡單來說,聚類算法就是計算種群中的距離,根據(jù)距離的遠近將數(shù)據(jù)劃分為多個族群。聚類算法中最典型的代表就是K-Means算法。5、降維算法降維算法也是一種無監(jiān)督學習算法,其主要特征是將數(shù)據(jù)從高維降低到低維層次。在這里,維度其實表示的是數(shù)據(jù)的特征量的大小,例如,房價包含房子的長、寬、面積與房間數(shù)量四個特征,也就是維度為4維的數(shù)據(jù)??梢钥闯鰜恚L與寬事

18、實上與面積表示的信息重疊了,例如面積土:x寬。通過降維算法我們就可以去除冗余信息,將特征減少為面積與房間數(shù)量兩個特征,即從4維的數(shù)據(jù)壓縮到2維。于是我們將數(shù)據(jù)從高維降低到低維,不僅利于表示,同時在計算上也能帶來加速。剛才說的降維過程中減少的維度屬于肉眼可視的層次,同時壓縮也不會帶來信息的損失(因為信息冗余了)。如果肉眼不可視,或者沒有冗余的特征,降維算法也能工作,不過這樣會帶來一些信息的損失。但是,降維算法可以從數(shù)學上證明,從高維壓縮到的低維中最大程度地保留了數(shù)據(jù)的信息。因此,使用降維算法仍然有很多的好處。降維算法的主要作用是壓縮數(shù)據(jù)與提升機器學習其他算法的效率。通過降維算法,可以將具有幾千個

19、特征的數(shù)據(jù)壓縮至若干個特征。另外,降維算法的另一個好處是數(shù)據(jù)的可視化,例如將5維的數(shù)據(jù)壓縮至2維,然后可以用二維平面來可視。降維算法的主要代表是PCAB法(即主成分分析算法)。6、推薦算法推薦算法是目前業(yè)界非?;鸬囊环N算法,在電商界,如亞馬遜,天貓,京東等得到了廣泛的運用。推薦算法的主要特征就是可以自動向用戶推薦他們最感興趣的東西,從而增加購買率,提升效益。推薦算法有兩個主要的類別:一類是基于物品內(nèi)容的推薦,是將與用戶購買的內(nèi)容近似的物品推薦給用戶,這樣的前提是每個物品都得有若干個標簽,因此才可以找出與用戶購買物品類似的物品,這樣推薦的好處是關聯(lián)程度較大,但是由于每個物品都需要貼標簽,因此工作量較大。另一類是基于用戶相似度的推薦,則是將與目

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論