版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、人工智能應(yīng)用概論第3章 機器學(xué)習(xí)人工智能應(yīng)用概論第3章 機器學(xué)習(xí)PART1機器學(xué)習(xí)的定義PART1機器學(xué)習(xí)的定義機器學(xué)習(xí)的定義1在維基百科上,對機器學(xué)習(xí)提出以下幾種定義:“機器學(xué)習(xí)是一門人工智能的科學(xué),該領(lǐng)域的主要研究對象是人工智能,特別是如何在經(jīng)驗學(xué)習(xí)中改善具體算法的性能”;“機器學(xué)習(xí)是對能通過經(jīng)驗自動改進的計算機算法的研究”;“機器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗,以此優(yōu)化計算機程序的性能標準”。機器學(xué)習(xí)的定義1在維基百科上,對機器學(xué)習(xí)提出以下幾種定義:機器學(xué)習(xí)的定義1.1三個關(guān)鍵詞:算法、經(jīng)驗、性能 機器學(xué)習(xí)是數(shù)據(jù)通過算法構(gòu)建出模型并對模型進行評估,評估的性能如果達到要求就拿這個模型來測試其他的
2、數(shù)據(jù),如果達不到要求就調(diào)整算法來重新建立模型,再次進行評估,如此循環(huán)往復(fù),最終獲得滿意的經(jīng)驗來處理其他的數(shù)據(jù)。機器學(xué)習(xí)的定義1.1三個關(guān)鍵詞:算法、經(jīng)驗、性能 PART2機器學(xué)習(xí)的歷史PART2機器學(xué)習(xí)的歷史機器學(xué)習(xí)的發(fā)展歷史2.1機器學(xué)習(xí)是人工智能應(yīng)用研究比較重要的分支,它的發(fā)展過程大體上可分為4個階段:第一階段是在50年代中葉到60年代中葉,屬于熱烈時期;第二階段在60年代中葉至70年代中葉,被稱為機器學(xué)習(xí)的冷靜時期;第三階段從70年代中葉至80年代中葉,稱為復(fù)興時期;機器學(xué)習(xí)的最新階段始于1986年。一方面,由于神經(jīng)網(wǎng)絡(luò)研究的重新興起,另一方面,對實驗研究和應(yīng)用研究得到前所未有的重視。我
3、國的機器學(xué)習(xí)研究開始進入穩(wěn)步發(fā)展和逐漸繁榮的新時期。機器學(xué)習(xí)的發(fā)展歷史2.1機器學(xué)習(xí)是人工智能應(yīng)用研究比較重要的機器學(xué)習(xí)的發(fā)展現(xiàn)狀2.2在搜索引擎方面Google的成功,使得Internet搜索引擎成為新興產(chǎn)業(yè)。機器學(xué)習(xí)技術(shù)正在支撐著各類搜索引擎;DARPA(美國國防先進研究項目局)于2003年開始啟動5年期PAL計劃,這是一個以機器學(xué)習(xí)為核心的計劃(涉及到AI的其他分支,如知識表示和推理、自然語言處理等);汽車自動駕駛。機器學(xué)習(xí)的主要任務(wù)是從立體視覺中學(xué)習(xí)如何行駛,根據(jù)觀察人類的駕駛行為記錄各種圖像和操縱指令,并將它們進行正確分類;在對天文物體進行分類、計算機系統(tǒng)性能預(yù)測、信用卡盜用檢測、郵
4、政服務(wù)屬性識別、網(wǎng)絡(luò)文檔自動分類等方面,機器學(xué)習(xí)也在快速發(fā)展壯大。機器學(xué)習(xí)的發(fā)展現(xiàn)狀2.2在搜索引擎方面Google的成功,使PART3機器學(xué)習(xí)的分類PART3機器學(xué)習(xí)的分類機器學(xué)習(xí)的分類3.1監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)強化學(xué)習(xí)機器學(xué)習(xí)的分類3.1監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)強化學(xué)習(xí)機器學(xué)習(xí)的分類 - 監(jiān)督學(xué)習(xí)3.2監(jiān)督學(xué)習(xí)是從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)一個函數(shù)(模型),當新的數(shù)據(jù)到來時,可以根據(jù)這個函數(shù)(模型)預(yù)測結(jié)果;在監(jiān)督式學(xué)習(xí)下,輸入數(shù)據(jù)被稱為“訓(xùn)練數(shù)據(jù)”,每組訓(xùn)練數(shù)據(jù)有一個明確的標識或結(jié)果,如,對防垃圾郵件系統(tǒng)中“垃圾郵件”、“非垃圾郵件”;在建立模型時,監(jiān)督式學(xué)習(xí)建立一個學(xué)習(xí)過程,將
5、預(yù)測結(jié)果與“測試數(shù)據(jù)”的實際結(jié)果進行比較,不斷調(diào)整預(yù)測模型,直到模型的預(yù)測結(jié)果達到一個預(yù)期的準確率。常見的監(jiān)督學(xué)習(xí)算法包括回歸分析和統(tǒng)計分類。機器學(xué)習(xí)的分類 - 監(jiān)督學(xué)習(xí)3.2監(jiān)督學(xué)習(xí)是從給定的訓(xùn)練數(shù)機器學(xué)習(xí)的分類 - 無監(jiān)督學(xué)習(xí)3.3在無監(jiān)督式學(xué)習(xí)中,數(shù)據(jù)并不被特別標識,學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu);常見的應(yīng)用場景包括關(guān)聯(lián)規(guī)則的學(xué)習(xí)以及聚類等。常見算法包括Apriori算法和k-Means算法。監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別:訓(xùn)練集目標是否被標注。他們都有訓(xùn)練集,且都有輸入和輸出。機器學(xué)習(xí)的分類 - 無監(jiān)督學(xué)習(xí)3.3在無監(jiān)督式學(xué)習(xí)中,數(shù)據(jù)機器學(xué)習(xí)的分類 - 半監(jiān)督學(xué)習(xí)3.4半監(jiān)督學(xué)習(xí)是
6、介于監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之間一種機器學(xué)習(xí)方式,主要考慮如何利用少量的標注樣本和大量的未標注樣本進行訓(xùn)練和分類的問題;應(yīng)用場景包括分類和回歸,算法包括一些對常用監(jiān)督式學(xué)習(xí)算法的延伸,這些算法首先試圖對未標識數(shù)據(jù)進行建模,在此基礎(chǔ)上再對標識的數(shù)據(jù)進行預(yù)測,如圖論推理算法(Graph Inference)或者拉普拉斯支持向量機(Laplacian SVM)等;半監(jiān)督學(xué)習(xí)從誕生以來,主要用于處理人工合成數(shù)據(jù),無噪聲干擾的樣本數(shù)據(jù)是當前大部分半監(jiān)督學(xué)習(xí)方法使用的數(shù)據(jù),而在實際生活中用到的數(shù)據(jù)卻大部分不是無干擾的,通常都比較難以得到純樣本數(shù)據(jù)。機器學(xué)習(xí)的分類 - 半監(jiān)督學(xué)習(xí)3.4半監(jiān)督學(xué)習(xí)是介于監(jiān)督學(xué)機器
7、學(xué)習(xí)的分類 - 強化學(xué)習(xí)3.5強化學(xué)習(xí)通過觀察來學(xué)習(xí)動作的完成,每個動作都會對環(huán)境有所影響,學(xué)習(xí)對象根據(jù)觀察到的周圍環(huán)境的反饋來做出判斷;在強化學(xué)習(xí)下,輸入數(shù)據(jù)直接反饋到模型,模型必須對此立刻做出調(diào)整;常見的應(yīng)用場景包括動態(tài)系統(tǒng)以及機器人控制等。常見算法包括Q-Learning 以及時間差學(xué)習(xí)(Temporal difference learning)。機器學(xué)習(xí)的分類 - 強化學(xué)習(xí)3.5強化學(xué)習(xí)通過觀察來學(xué)習(xí)動機器學(xué)習(xí)的分類 - 總結(jié)3.6在企業(yè)數(shù)據(jù)應(yīng)用的場景下,人們最常用的可能就是監(jiān)督式學(xué)習(xí)和無監(jiān)督式學(xué)習(xí)的模型。在圖像識別等領(lǐng)域,由于存在大量的非標識的數(shù)據(jù)和少量的可標識數(shù)據(jù),目前半監(jiān)督式學(xué)習(xí)
8、是一個很熱的話題。強化學(xué)習(xí)更多地應(yīng)用在機器人控制及其他需要進行系統(tǒng)控制的領(lǐng)域。機器學(xué)習(xí)的分類 - 總結(jié)3.6在企業(yè)數(shù)據(jù)應(yīng)用的場景下,人們PART4機器學(xué)習(xí)的算法PART4機器學(xué)習(xí)的算法4.1機器學(xué)習(xí)的常用算法回歸算法(監(jiān)督學(xué)習(xí))神經(jīng)網(wǎng)絡(luò)(監(jiān)督學(xué)習(xí))SVM支持向量機(監(jiān)督學(xué)習(xí))聚類算法(無監(jiān)督學(xué)習(xí))降維算法(無監(jiān)督學(xué)習(xí))推薦算法(特殊)其他算法4.1機器學(xué)習(xí)的常用算法回歸算法(監(jiān)督學(xué)習(xí))常見算法 - 回歸算法4.2回歸算法有兩個重要的子類:即線性回歸和邏輯回歸;線性回歸就是如何擬合出一條直線最佳匹配所有的數(shù)據(jù),邏輯回歸是一種與線性回歸非常類似的算法;線性回歸處理的問題類型與邏輯回歸不一致:線性回
9、歸處理的是數(shù)值問題,也就是最后預(yù)測出的結(jié)果是數(shù)字,例如房價。邏輯回歸屬于分類算法,也就是說,邏輯回歸預(yù)測結(jié)果是離散的分類,例如判斷這封郵件是否是垃圾郵件,以及用戶是否會點擊此廣告等等。常見算法 - 回歸算法4.2回歸算法有兩個重要的子類:即線常見算法 - 回歸算法4.3假設(shè)有一組腫瘤患者的數(shù)據(jù),這些患者的腫瘤中有些是良性的(圖中的藍色點),有些是惡性的(圖中的紅色點)。這里腫瘤的紅藍色可以被稱作數(shù)據(jù)的“標簽”。同時每個數(shù)據(jù)包括兩個“特征”:患者的年齡與腫瘤的大小。我們將這兩個特征與標簽映射到這個二維空間上,形成了上圖的數(shù)據(jù)。當有一個綠色的點時,該判斷這個腫瘤是惡性的還是良性的呢?根據(jù)紅藍點我們
10、訓(xùn)練出了一個邏輯回歸模型,也就是圖中的分類線。這時,根據(jù)綠點出現(xiàn)在分類線的左側(cè),因此我們判斷它的標簽應(yīng)該是紅色,也就是說屬于惡性腫瘤。邏輯回歸算法劃出的分類線基本都是線性的(也有劃出非線性分類線的邏輯回歸,不過那樣的模型在處理數(shù)據(jù)量較大的時候效率會很低),這意味著當兩類之間的界線不是線性時,邏輯回歸的表達能力就不足。常見算法 - 回歸算法4.3假設(shè)有一組腫瘤患者的數(shù)據(jù),這些常見算法 - 神經(jīng)網(wǎng)絡(luò)4.4神經(jīng)網(wǎng)絡(luò)(也稱之為人工神經(jīng)網(wǎng)絡(luò),ANN)的誕生起源于對大腦工作機理的研究。早期生物界學(xué)者們使用神經(jīng)網(wǎng)絡(luò)來模擬大腦,后來,機器學(xué)習(xí)的學(xué)者們使用神經(jīng)網(wǎng)絡(luò)進行機器學(xué)習(xí)的實驗,發(fā)現(xiàn)在視覺與語音的識別上效果
11、都相當好。神經(jīng)網(wǎng)絡(luò)算法是80年代機器學(xué)習(xí)界非常流行的算法。不過,進入90年代,神經(jīng)網(wǎng)絡(luò)的發(fā)展進入了一個瓶頸期。其主要原因是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程很困難?,F(xiàn)在,攜著“深度學(xué)習(xí)”之勢,神經(jīng)網(wǎng)絡(luò)重裝歸來,重新成為最強大的機器學(xué)習(xí)算法之一。常見算法 - 神經(jīng)網(wǎng)絡(luò)4.4神經(jīng)網(wǎng)絡(luò)(也稱之為人工神經(jīng)網(wǎng)絡(luò)常見算法 - 神經(jīng)網(wǎng)絡(luò)4.5 比方說,一個正方形,分解為四個折線進入視覺處理的下一層中。四個神經(jīng)元分別處理一個折線。每個折線再繼續(xù)被分解為兩條直線,每條直線再被分解為黑白兩個面。于是,一個復(fù)雜的圖像變成了大量的細節(jié)進入神經(jīng)元,神經(jīng)元處理以后再進行整合,最后得出了看到的是正方形的結(jié)論。這就是大腦視覺識別的機理,也是
12、神經(jīng)網(wǎng)絡(luò)工作的機理。常見算法 - 神經(jīng)網(wǎng)絡(luò)4.5 比方說,一個正方形,分解為常見算法 - SVM支持向量機4.6SVM算法是誕生于統(tǒng)計學(xué)習(xí)界,同時在機器學(xué)習(xí)界大放光彩的經(jīng)典算法。從某種意義上來說,支持向量機算法是邏輯回歸算法的強化:通過給予邏輯回歸算法更嚴格的優(yōu)化條件,支持向量機算法可以獲得比邏輯回歸更好的分類界線。支持向量機是一種數(shù)學(xué)成分很濃的機器學(xué)習(xí)算法(相對的,神經(jīng)網(wǎng)絡(luò)則有生物科學(xué)成分)。通過支持向量機算法,既可以保持計算效率,又可以獲得非常好的分類效果。因此支持向量機在90年代后期一直占據(jù)著機器學(xué)習(xí)中最核心的地位,基本取代了神經(jīng)網(wǎng)絡(luò)算法。直到現(xiàn)在神經(jīng)網(wǎng)絡(luò)借著深度學(xué)習(xí)重新興起,兩者之間才
13、又發(fā)生了微妙的平衡轉(zhuǎn)變。常見算法 - SVM支持向量機4.6SVM算法是誕生于統(tǒng)計常見算法 - SVM支持向量機4.7通過跟高斯函數(shù)的結(jié)合,支持向量機可以表達出非常復(fù)雜的分類界線,從而達成很好的分類效果。比如,可以將低維的空間映射到高維的空間。如何在二維平面劃分出一個圓形的分類界線?在二維平面可能會很困難,但是通過高斯函數(shù)可以將二維空間映射到三維空間,然后使用一個線性平面就可以達成類似效果。常見算法 - SVM支持向量機4.7通過跟高斯函數(shù)的結(jié)合,常見算法 - 聚類算法4.8聚類算法是無監(jiān)督學(xué)習(xí)算法中最典型的代表。聚類算法就是計算種群中的距離,根據(jù)距離的遠近將數(shù)據(jù)劃分為多個族群。聚類算法中最典
14、型的代表就是K-Means算法。常見算法 - 聚類算法4.8聚類算法是無監(jiān)督學(xué)習(xí)算法中最典常見算法 - 降維算法4.9降維算法也是一種無監(jiān)督學(xué)習(xí)算法,主要特征是將數(shù)據(jù)從高維降低到低維。維度表示數(shù)據(jù)的特征量的大小。例如,房價包含房子的長、寬、面積與房間數(shù)量四個特征,也就是維度為4維的數(shù)據(jù)??梢钥闯鰜?,長與寬事實上與面積表示的信息重疊了,例如面積=長 寬。通過降維算法,可以去除冗余信息,將特征減少為面積與房間數(shù)量兩個特征,即從4維的數(shù)據(jù)壓縮到2維。這樣,不僅利于表示,同時提高計算的性能。降維算法的主要作用是壓縮數(shù)據(jù)與提升機器學(xué)習(xí)的效率。通過降維算法,可以將具有幾千個特征的數(shù)據(jù)壓縮至若干個特征。另外
15、,降維算法的另一個好處是數(shù)據(jù)的可視化,例如將5維的數(shù)據(jù)壓縮至2維,然后可以用二維平面來可視。降維算法的主要代表是PCA算法(即主成分分析算法)。常見算法 - 降維算法4.9降維算法也是一種無監(jiān)督學(xué)習(xí)算法常見算法 - 推薦算法4.10 推薦算法是目前業(yè)界非?;鸬囊环N算法,如亞馬遜,天貓,京東等都在廣泛地運用。推薦算法的主要特征就是可以自動向用戶推薦他們最感興趣的東西,從而增加購買率,提升效益。常見算法 - 推薦算法4.10 推薦算法是目前業(yè)界非?;鸪R娝惴?- 推薦算法4.11推薦算法有兩個主要的類別:一類是基于物品內(nèi)容的推薦,是將與用戶購買的內(nèi)容近似的物品推薦給用戶,這樣的前提是每個物品都得有
16、若干個標簽,因此才可以找出與用戶購買物品類似的物品,這樣推薦的好處是關(guān)聯(lián)程度較大。另一類是基于用戶相似度的推薦,則是將與目標用戶興趣(注:用戶畫像)相同的其他用戶購買的東西推薦給目標用戶,例如小A歷史上買了物品B和C,經(jīng)過算法分析,發(fā)現(xiàn)另一個與小A近似的用戶小D購買了物品E,于是將物品E推薦給小A。兩類推薦都有各自的優(yōu)缺點,在一般的電商應(yīng)用中,一般是兩類混合使用。推薦算法中最有名的算法就是協(xié)同過濾算法。常見算法 - 推薦算法4.11推薦算法有兩個主要的類別:一常見算法 - 其他算法4.12 除了以上算法之外,機器學(xué)習(xí)界還有其他的如高斯判別,樸素貝葉斯,決策樹等等算法。但是上面列的六個算法是使用
17、最多,影響最廣,種類最全的典型。機器學(xué)習(xí)界的一個特色就是算法眾多,發(fā)展百花齊放。 除了這些算法以外,有一些算法的名字在機器學(xué)習(xí)領(lǐng)域中也經(jīng)常出現(xiàn)。但他們本身并不算是一個機器學(xué)習(xí)算法,而是為了解決某個子問題而誕生的??梢岳斫馑麄?yōu)橐陨纤惴ǖ淖铀惴?,用于大幅度提高?xùn)練過程。其中的代表有:梯度下降法,主要運用在線性回歸,邏輯回歸,神經(jīng)網(wǎng)絡(luò),推薦算法中;牛頓法,主要運用在線性回歸中;BP算法,主要運用在神經(jīng)網(wǎng)絡(luò)中;SMO算法,主要運用在SVM中。常見算法 - 其他算法4.12 除了以上算法之外,機器學(xué)機器學(xué)習(xí)的基本過程4.13 計算機從給定的數(shù)據(jù)中學(xué)習(xí)規(guī)律,即從觀測數(shù)據(jù)(樣本)中尋找規(guī)律、建立模型,并利
18、用學(xué)習(xí)到的規(guī)律(模型)對未知或無法觀測的數(shù)據(jù)進行預(yù)測。機器學(xué)習(xí)的基本過程4.13 計算機從給定的數(shù)據(jù)中學(xué)習(xí)規(guī)律,PART5機器學(xué)習(xí)的操作流程PART5機器學(xué)習(xí)的操作流程機器學(xué)習(xí)的操作流程5.1操作流程主要分7步:數(shù)據(jù)導(dǎo)入;數(shù)據(jù)預(yù)處理;特征工程;拆分;訓(xùn)練模型;評估模型;預(yù)測新數(shù)據(jù)。機器學(xué)習(xí)的操作流程5.1操作流程主要分7步:數(shù)據(jù)導(dǎo)入;機器學(xué)習(xí)示例5.2預(yù)測美國某大學(xué)某人是否是終身教授:機器學(xué)習(xí)示例5.2預(yù)測美國某大學(xué)某人是否是終身教授:機器學(xué)習(xí)的常見應(yīng)用5.3 機器學(xué)習(xí)已廣泛應(yīng)用于數(shù)據(jù)挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫(yī)學(xué)診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序
19、、語音和手寫識別、戰(zhàn)略游戲和機器人等領(lǐng)域。機器學(xué)習(xí)的常見應(yīng)用5.3 機器學(xué)習(xí)已廣泛應(yīng)用于數(shù)據(jù)挖掘、計流行的開源機器學(xué)習(xí)框架5.4TensorFlow是谷歌基于C+開發(fā)、發(fā)布的第二代機器學(xué)習(xí)系統(tǒng)。開發(fā)目的是用于進行機器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)的研究。目前Google 的Google App 的語音識別、Gmail 的自動回復(fù)功能、Google Photos 的圖片搜索等都在使用 TensorFlow 。GitHub項目地址:/tensorflow/tensorflowScikit-Learn是用于機器學(xué)習(xí)的Python 模塊,它建立在SciPy之上?;竟δ苤饕环譃榱鶄€部分:分類、回歸、聚類、數(shù)據(jù)降
20、維、模型選擇、數(shù)據(jù)預(yù)處理。GitHub項目地址:/scikit-learn/scikit-learnCaffe 是由神經(jīng)網(wǎng)絡(luò)中的表達式、速度及模塊化產(chǎn)生的深度學(xué)習(xí)框架。Caffe是一個基于C+/CUDA架構(gòu)框架,開發(fā)者能夠利用它自由的組織網(wǎng)絡(luò),目前支持卷積神經(jīng)網(wǎng)絡(luò)和全連接神經(jīng)網(wǎng)絡(luò)(人工神經(jīng)網(wǎng)絡(luò))。在Linux上,C+可以通過命令行來操作接口,運算上支持CPU和GPU直接無縫切換。GitHub項目地址:/BVLC/caffeKeras是基于Python開發(fā)的極其精簡并高度模塊化的神經(jīng)網(wǎng)絡(luò)庫,在TensorFlow 或 Theano 上都能夠運行,是一個高度模塊化的神經(jīng)網(wǎng)絡(luò)庫,支持GPU和CPU運
21、算。Keras側(cè)重于開發(fā)快速實驗,用可能最少延遲實現(xiàn)從理念到結(jié)果的轉(zhuǎn)變,即為做好一項研究的關(guān)鍵。GitHub項目地址:/fchollet/keras流行的開源機器學(xué)習(xí)框架5.4TensorFlow是谷歌基于C流行的開源機器學(xué)習(xí)框架5.5PredictionIO 是面向開發(fā)人員和數(shù)據(jù)科學(xué)家的開源機器學(xué)習(xí)服務(wù)器。它支持事件采集、算法調(diào)度、評估以及經(jīng)由REST APIs的預(yù)測結(jié)果查詢。使用者可以通過PredictionIO做一些預(yù)測,比如個性化推薦、發(fā)現(xiàn)內(nèi)容等。PredictionIO 基于 REST API(應(yīng)用程序接口)標準,不過它還包含 Ruby、Python、Scala、Java 等編程語言
22、的 SDK(軟件開發(fā)工具包)。其開發(fā)語言是Scala語言,數(shù)據(jù)庫方面使用的是MongoDB數(shù)據(jù)庫,計算系統(tǒng)采用Hadoop系統(tǒng)架構(gòu)。GitHub項目地址:/PredictionIO/PredictionIOMahout 是Apache Software Foundation(ASF) 旗下的一個開源項目,提供一些可擴展的機器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實現(xiàn),包括聚類、分類、推薦過濾、頻繁子項挖掘。傳統(tǒng)的Mahout是提供的是Java的API,用戶應(yīng)用會編譯成MapReduce的job,運行在MapReduce的框架上。從現(xiàn)在看來,
23、這種方式開發(fā)效率低,運行速度慢,已經(jīng)過時了。Mahout已經(jīng)不再開發(fā)和維護新的基于MR的算法,而轉(zhuǎn)向支持Scala。GitHub項目地址:/apache/mahoutSpark MLlib是Spark對常用的機器學(xué)習(xí)算法的實現(xiàn)庫,同時包括相關(guān)的測試和數(shù)據(jù)生成器。Spark的設(shè)計初衷就是為了支持一些迭代的Job,這正好符合很多機器學(xué)習(xí)算法的特點。Spark基于內(nèi)存的計算模型天生就擅長迭代計算,多個步驟計算直接在內(nèi)存中完成,只有在必要時才會操作磁盤和網(wǎng)絡(luò)。 GitHub項目地址:/apache/spark流行的開源機器學(xué)習(xí)框架5.5PredictionIO 是面向Spark MLlib介紹5.6Spark MLlib是Spark對常用的機器學(xué)習(xí)算法的實現(xiàn)庫,同時包括相關(guān)的測試和數(shù)據(jù)生成器。MLlib目前支持4種常見的機器學(xué)習(xí)問題:分類、回歸、聚類和協(xié)同過濾。Spark MLlib介紹5.6Spark MLlib是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度智能車位銷售代理合作協(xié)議書4篇
- 2025年度草原生態(tài)旅游投資合作草場租賃合同3篇
- 2025年度生態(tài)旅游項目土地承包合作協(xié)議范本4篇
- 2025版新能源汽車研發(fā)與制造承包合同范本3篇
- 二零二五版高校學(xué)生實習(xí)實訓(xùn)合同示范文本3篇
- 2025年度冷鏈物流保障下餐飲原材料集中采購合同2篇
- 2025年食品安全追溯食品運輸采購合同3篇
- 2025版害蟲防治產(chǎn)品認證與推廣服務(wù)合同3篇
- 二零二五年度酒店行業(yè)顧客信息保密與隱私保護協(xié)議范本4篇
- 教育行業(yè)售后服務(wù)模式在小區(qū)超市的應(yīng)用
- 2025新譯林版英語七年級下單詞表
- 新疆2024年中考數(shù)學(xué)試卷(含答案)
- 2024-2030年中國連續(xù)性腎臟替代治療(CRRT)行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報告
- 跨學(xué)科主題學(xué)習(xí):實施策略、設(shè)計要素與評價方式(附案例)
- 場地委托授權(quán)
- 2024年四川省成都市龍泉驛區(qū)中考數(shù)學(xué)二診試卷(含答案)
- 項目工地春節(jié)放假安排及安全措施
- 印染廠安全培訓(xùn)課件
- 紅色主題研學(xué)課程設(shè)計
- 裝置自動控制的先進性說明
- 《企業(yè)管理課件:團隊管理知識點詳解PPT》
評論
0/150
提交評論