![機(jī)器學(xué)習(xí)的定義_第1頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-5/23/1968f78e-2e2e-4f32-94cf-bff777487f52/1968f78e-2e2e-4f32-94cf-bff777487f521.gif)
![機(jī)器學(xué)習(xí)的定義_第2頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-5/23/1968f78e-2e2e-4f32-94cf-bff777487f52/1968f78e-2e2e-4f32-94cf-bff777487f522.gif)
![機(jī)器學(xué)習(xí)的定義_第3頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-5/23/1968f78e-2e2e-4f32-94cf-bff777487f52/1968f78e-2e2e-4f32-94cf-bff777487f523.gif)
![機(jī)器學(xué)習(xí)的定義_第4頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-5/23/1968f78e-2e2e-4f32-94cf-bff777487f52/1968f78e-2e2e-4f32-94cf-bff777487f524.gif)
![機(jī)器學(xué)習(xí)的定義_第5頁(yè)](http://file1.renrendoc.com/fileroot_temp2/2020-5/23/1968f78e-2e2e-4f32-94cf-bff777487f52/1968f78e-2e2e-4f32-94cf-bff777487f525.gif)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
-機(jī)器學(xué)習(xí)的定義從廣義上來(lái)說(shuō),機(jī)器學(xué)習(xí)是一種能夠賦予機(jī)器學(xué)習(xí)的能力以此讓它完成直接編程無(wú)法完成的功能的方法。但從實(shí)踐的意義上來(lái)說(shuō),機(jī)器學(xué)習(xí)是一種通過(guò)利用數(shù)據(jù),訓(xùn)練出模型,然后使用模型預(yù)測(cè)的一種方法。機(jī)器學(xué)習(xí)的范圍其實(shí),機(jī)器學(xué)習(xí)跟模式識(shí)別,統(tǒng)計(jì)學(xué)習(xí),數(shù)據(jù)挖掘,計(jì)算機(jī)視覺(jué),語(yǔ)音識(shí)別,自然語(yǔ)言處理等領(lǐng)域有著很深的聯(lián)系。從范圍上來(lái)說(shuō),機(jī)器學(xué)習(xí)跟模式識(shí)別,統(tǒng)計(jì)學(xué)習(xí),數(shù)據(jù)挖掘是類(lèi)似的,同時(shí),機(jī)器學(xué)習(xí)與其他領(lǐng)域的處理技術(shù)的結(jié)合,形成了計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言處理等交叉學(xué)科。因此,一般說(shuō)數(shù)據(jù)挖掘時(shí),可以等同于說(shuō)機(jī)器學(xué)習(xí)。同時(shí),我們平常所說(shuō)的機(jī)器學(xué)習(xí)應(yīng)用,應(yīng)該是通用的,不僅僅模式識(shí)別模式識(shí)別=機(jī)器學(xué)習(xí)。兩者的主要區(qū)別在于前者是從工業(yè)界發(fā)展起來(lái)的概念,后者則主要源自計(jì)算機(jī)學(xué)科。在著名的Pattern Recognition And Machine Learning這本書(shū)中,Christopher M. Bishop在開(kāi)頭是這樣說(shuō)的“模式識(shí)別源自工業(yè)界,而機(jī)器學(xué)習(xí)來(lái)自于計(jì)算機(jī)學(xué)科。不過(guò),它們中的活動(dòng)可以被視為同一個(gè)領(lǐng)域的兩個(gè)方面,同時(shí)在過(guò)去的10年間,它們都有了長(zhǎng)足的發(fā)展”。數(shù)據(jù)挖掘數(shù)據(jù)挖掘=機(jī)器學(xué)習(xí)+數(shù)據(jù)庫(kù)。這幾年數(shù)據(jù)挖掘的概念實(shí)在是太耳熟能詳。幾乎等同于炒作。但凡說(shuō)數(shù)據(jù)挖掘都會(huì)吹噓數(shù)據(jù)挖掘如何如何,例如從數(shù)據(jù)中挖出金子,以及將廢棄的數(shù)據(jù)轉(zhuǎn)化為價(jià)值等等。但是,我盡管可能會(huì)挖出金子,但我也可能挖的是“石頭”啊。這個(gè)說(shuō)法的意思是,數(shù)據(jù)挖掘僅僅是一種思考方式,告訴我們應(yīng)該嘗試從數(shù)據(jù)中挖掘出知識(shí),但不是每個(gè)數(shù)據(jù)都能挖掘出金子的,所以不要神話(huà)它。一個(gè)系統(tǒng)絕對(duì)不會(huì)因?yàn)樯狭艘粋€(gè)數(shù)據(jù)挖掘模塊就變得無(wú)所不能(這是IBM最喜歡吹噓的),恰恰相反,一個(gè)擁有數(shù)據(jù)挖掘思維的人員才是關(guān)鍵,而且他還必須對(duì)數(shù)據(jù)有深刻的認(rèn)識(shí),這樣才可能從數(shù)據(jù)中導(dǎo)出模式指引業(yè)務(wù)的改善。大部分?jǐn)?shù)據(jù)挖掘中的算法是機(jī)器學(xué)習(xí)的算法在數(shù)據(jù)庫(kù)中的優(yōu)化。統(tǒng)計(jì)學(xué)習(xí)統(tǒng)計(jì)學(xué)習(xí)近似等于機(jī)器學(xué)習(xí)。統(tǒng)計(jì)學(xué)習(xí)是個(gè)與機(jī)器學(xué)習(xí)高度重疊的學(xué)科。因?yàn)闄C(jī)器學(xué)習(xí)中的大多數(shù)方法來(lái)自統(tǒng)計(jì)學(xué),甚至可以認(rèn)為,統(tǒng)計(jì)學(xué)的發(fā)展促進(jìn)機(jī)器學(xué)習(xí)的繁榮昌盛。例如著名的支持向量機(jī)算法,就是源自統(tǒng)計(jì)學(xué)科。但是在某種程度上兩者是有分別的,這個(gè)分別在于:統(tǒng)計(jì)學(xué)習(xí)者重點(diǎn)關(guān)注的是統(tǒng)計(jì)模型的發(fā)展與優(yōu)化,偏數(shù)學(xué),而機(jī)器學(xué)習(xí)者更關(guān)注的是能夠解決問(wèn)題,偏實(shí)踐,因此機(jī)器學(xué)習(xí)研究者會(huì)重點(diǎn)研究學(xué)習(xí)算法在計(jì)算機(jī)上執(zhí)行的效率與準(zhǔn)確性的提升。計(jì)算機(jī)視覺(jué)計(jì)算機(jī)視覺(jué)=圖像處理+機(jī)器學(xué)習(xí)。圖像處理技術(shù)用于將圖像處理為適合進(jìn)入機(jī)器學(xué)習(xí)模型中的輸入,機(jī)器學(xué)習(xí)則負(fù)責(zé)從圖像中識(shí)別出相關(guān)的模式。計(jì)算機(jī)視覺(jué)相關(guān)的應(yīng)用非常的多,例如百度識(shí)圖、手寫(xiě)字符識(shí)別、車(chē)牌識(shí)別等等應(yīng)用。這個(gè)領(lǐng)域是應(yīng)用前景非?;馃岬模瑫r(shí)也是研究的熱門(mén)方向。隨著機(jī)器學(xué)習(xí)的新領(lǐng)域深度學(xué)習(xí)的發(fā)展,大大促進(jìn)了計(jì)算機(jī)圖像識(shí)別的效果,因此未來(lái)計(jì)算機(jī)視覺(jué)界的發(fā)展前景不可估量。語(yǔ)音識(shí)別語(yǔ)音識(shí)別=語(yǔ)音處理+機(jī)器學(xué)習(xí)。語(yǔ)音識(shí)別就是音頻處理技術(shù)與機(jī)器學(xué)習(xí)的結(jié)合。語(yǔ)音識(shí)別技術(shù)一般不會(huì)單獨(dú)使用,一般會(huì)結(jié)合自然語(yǔ)言處理的相關(guān)技術(shù)。目前的相關(guān)應(yīng)用有蘋(píng)果的語(yǔ)音助手siri等。自然語(yǔ)言處理自然語(yǔ)言處理=文本處理+機(jī)器學(xué)習(xí)。自然語(yǔ)言處理技術(shù)主要是讓機(jī)器理解人類(lèi)的語(yǔ)言的一門(mén)領(lǐng)域。在自然語(yǔ)言處理技術(shù)中,大量使用了編譯原理相關(guān)的技術(shù),例如詞法分析,語(yǔ)法分析等等,除此之外,在理解這個(gè)層面,則使用了語(yǔ)義理解,機(jī)器學(xué)習(xí)等技術(shù)。作為唯一由人類(lèi)自身創(chuàng)造的符號(hào),自然語(yǔ)言處理一直是機(jī)器學(xué)習(xí)界不斷研究的方向。按照百度機(jī)器學(xué)習(xí)專(zhuān)家余凱的說(shuō)法“聽(tīng)與看,說(shuō)白了就是阿貓和阿狗都會(huì)的,而只有語(yǔ)言才是人類(lèi)獨(dú)有的”。如何利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行自然語(yǔ)言的的深度理解,一直是工業(yè)和學(xué)術(shù)界關(guān)注的焦點(diǎn)??梢钥闯鰴C(jī)器學(xué)習(xí)在眾多領(lǐng)域的外延和應(yīng)用。機(jī)器學(xué)習(xí)技術(shù)的發(fā)展促使了很多智能領(lǐng)域的進(jìn)步,改善著我們的生活。局限在結(jié)構(gòu)化數(shù)據(jù),還有圖像,音頻等應(yīng)用。機(jī)器學(xué)習(xí)的方法1、回歸算法在大部分機(jī)器學(xué)習(xí)課程中,回歸算法都是介紹的第一個(gè)算法。原因有兩個(gè):一.回歸算法比較簡(jiǎn)單,介紹它可以讓人平滑地從統(tǒng)計(jì)學(xué)遷移到機(jī)器學(xué)習(xí)中。二.回歸算法是后面若干強(qiáng)大算法的基石,如果不理解回歸算法,無(wú)法學(xué)習(xí)那些強(qiáng)大的算法?;貧w算法有兩個(gè)重要的子類(lèi):即線(xiàn)性回歸和邏輯回歸。線(xiàn)性回歸就是我們前面說(shuō)過(guò)的房?jī)r(jià)求解問(wèn)題。如何擬合出一條直線(xiàn)最佳匹配我所有的數(shù)據(jù)?一般使用“最小二乘法”來(lái)求解。“最小二乘法”的思想是這樣的,假設(shè)我們擬合出的直線(xiàn)代表數(shù)據(jù)的真實(shí)值,而觀(guān)測(cè)到的數(shù)據(jù)代表?yè)碛姓`差的值。為了盡可能減小誤差的影響,需要求解一條直線(xiàn)使所有誤差的平方和最小。最小二乘法將最優(yōu)問(wèn)題轉(zhuǎn)化為求函數(shù)極值問(wèn)題。函數(shù)極值在數(shù)學(xué)上我們一般會(huì)采用求導(dǎo)數(shù)為0的方法。但這種做法并不適合計(jì)算機(jī),可能求解不出來(lái),也可能計(jì)算量太大。計(jì)算機(jī)科學(xué)界專(zhuān)門(mén)有一個(gè)學(xué)科叫“數(shù)值計(jì)算”,專(zhuān)門(mén)用來(lái)提升計(jì)算機(jī)進(jìn)行各類(lèi)計(jì)算時(shí)的準(zhǔn)確性和效率問(wèn)題。例如,著名的“梯度下降”以及“牛頓法”就是數(shù)值計(jì)算中的經(jīng)典算法,也非常適合來(lái)處理求解函數(shù)極值的問(wèn)題。梯度下降法是解決回歸模型中最簡(jiǎn)單且有效的方法之一。從嚴(yán)格意義上來(lái)說(shuō),由于后文中的神經(jīng)網(wǎng)絡(luò)和推薦算法中都有線(xiàn)性回歸的因子,因此梯度下降法在后面的算法實(shí)現(xiàn)中也有應(yīng)用。邏輯回歸是一種與線(xiàn)性回歸非常類(lèi)似的算法,但是,從本質(zhì)上講,線(xiàn)型回歸處理的問(wèn)題類(lèi)型與邏輯回歸不一致。線(xiàn)性回歸處理的是數(shù)值問(wèn)題,也就是最后預(yù)測(cè)出的結(jié)果是數(shù)字,例如房?jī)r(jià)。而邏輯回歸屬于分類(lèi)算法,也就是說(shuō),邏輯回歸預(yù)測(cè)結(jié)果是離散的分類(lèi),例如判斷這封郵件是否是垃圾郵件,以及用戶(hù)是否會(huì)點(diǎn)擊此廣告等等。實(shí)現(xiàn)方面的話(huà),邏輯回歸只是對(duì)對(duì)線(xiàn)性回歸的計(jì)算結(jié)果加上了一個(gè)Sigmoid函數(shù),將數(shù)值結(jié)果轉(zhuǎn)化為了0到1之間的概率(Sigmoid函數(shù)的圖像一般來(lái)說(shuō)并不直觀(guān),你只需要理解對(duì)數(shù)值越大,函數(shù)越逼近1,數(shù)值越小,函數(shù)越逼近0),接著我們根據(jù)這個(gè)概率可以做預(yù)測(cè),例如概率大于0.5,則這封郵件就是垃圾郵件,或者腫瘤是否是惡性的等等。從直觀(guān)上來(lái)說(shuō),邏輯回歸是畫(huà)出了一條分類(lèi)線(xiàn),見(jiàn)下圖。圖7 邏輯回歸的直觀(guān)解釋假設(shè)我們有一組腫瘤患者的數(shù)據(jù),這些患者的腫瘤中有些是良性的(圖中的藍(lán)色點(diǎn)),有些是惡性的(圖中的紅色點(diǎn))。這里腫瘤的紅藍(lán)色可以被稱(chēng)作數(shù)據(jù)的“標(biāo)簽”。同時(shí)每個(gè)數(shù)據(jù)包括兩個(gè)“特征”:患者的年齡與腫瘤的大小。我們將這兩個(gè)特征與標(biāo)簽映射到這個(gè)二維空間上,形成了我上圖的數(shù)據(jù)。當(dāng)我有一個(gè)綠色的點(diǎn)時(shí),我該判斷這個(gè)腫瘤是惡性的還是良性的呢?根據(jù)紅藍(lán)點(diǎn)我們訓(xùn)練出了一個(gè)邏輯回歸模型,也就是圖中的分類(lèi)線(xiàn)。這時(shí),根據(jù)綠點(diǎn)出現(xiàn)在分類(lèi)線(xiàn)的左側(cè),因此我們判斷它的標(biāo)簽應(yīng)該是紅色,也就是說(shuō)屬于惡性腫瘤。邏輯回歸算法劃出的分類(lèi)線(xiàn)基本都是線(xiàn)性的(也有劃出非線(xiàn)性分類(lèi)線(xiàn)的邏輯回歸,不過(guò)那樣的模型在處理數(shù)據(jù)量較大的時(shí)候效率會(huì)很低),這意味著當(dāng)兩類(lèi)之間的界線(xiàn)不是線(xiàn)性時(shí),邏輯回歸的表達(dá)能力就不足。下面的兩個(gè)算法是機(jī)器學(xué)習(xí)界最強(qiáng)大且重要的算法,都可以擬合出非線(xiàn)性的分類(lèi)線(xiàn)。2、神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)(也稱(chēng)之為人工神經(jīng)網(wǎng)絡(luò),ANN)算法是80年代機(jī)器學(xué)習(xí)界非常流行的算法,不過(guò)在90年代中途衰落。現(xiàn)在,攜著“深度學(xué)習(xí)”之勢(shì),神經(jīng)網(wǎng)絡(luò)重裝歸來(lái),重新成為最強(qiáng)大的機(jī)器學(xué)習(xí)算法之一。神經(jīng)網(wǎng)絡(luò)的誕生起源于對(duì)大腦工作機(jī)理的研究。早期生物界學(xué)者們使用神經(jīng)網(wǎng)絡(luò)來(lái)模擬大腦。機(jī)器學(xué)習(xí)的學(xué)者們使用神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí)的實(shí)驗(yàn),發(fā)現(xiàn)在視覺(jué)與語(yǔ)音的識(shí)別上效果都相當(dāng)好。在BP算法(加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程的數(shù)值算法)誕生以后,神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個(gè)熱潮。BP算法的發(fā)明人之一是前面介紹的機(jī)器學(xué)習(xí)大牛Geoffrey Hinton(圖1中的中間者)。具體說(shuō)來(lái),神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機(jī)理是什么?簡(jiǎn)單來(lái)說(shuō),就是分解與整合。在著名的Hubel-Wiesel試驗(yàn)中,學(xué)者們研究貓的視覺(jué)分析機(jī)理是這樣的。圖8 Hubel-Wiesel試驗(yàn)與大腦視覺(jué)機(jī)理比方說(shuō),一個(gè)正方形,分解為四個(gè)折線(xiàn)進(jìn)入視覺(jué)處理的下一層中。四個(gè)神經(jīng)元分別處理一個(gè)折線(xiàn)。每個(gè)折線(xiàn)再繼續(xù)被分解為兩條直線(xiàn),每條直線(xiàn)再被分解為黑白兩個(gè)面。于是,一個(gè)復(fù)雜的圖像變成了大量的細(xì)節(jié)進(jìn)入神經(jīng)元,神經(jīng)元處理以后再進(jìn)行整合,最后得出了看到的是正方形的結(jié)論。這就是大腦視覺(jué)識(shí)別的機(jī)理,也是神經(jīng)網(wǎng)絡(luò)工作的機(jī)理。讓我們看一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)的邏輯架構(gòu)。在這個(gè)網(wǎng)絡(luò)中,分成輸入層,隱藏層,和輸出層。輸入層負(fù)責(zé)接收信號(hào),隱藏層負(fù)責(zé)對(duì)數(shù)據(jù)的分解與處理,最后的結(jié)果被整合到輸出層。每層中的一個(gè)圓代表一個(gè)處理單元,可以認(rèn)為是模擬了一個(gè)神經(jīng)元,若干個(gè)處理單元組成了一個(gè)層,若干個(gè)層再組成了一個(gè)網(wǎng)絡(luò),也就是”神經(jīng)網(wǎng)絡(luò)”。圖9 神經(jīng)網(wǎng)絡(luò)的邏輯架構(gòu)在神經(jīng)網(wǎng)絡(luò)中,每個(gè)處理單元事實(shí)上就是一個(gè)邏輯回歸模型,邏輯回歸模型接收上層的輸入,把模型的預(yù)測(cè)結(jié)果作為輸出傳輸?shù)较乱粋€(gè)層次。通過(guò)這樣的過(guò)程,神經(jīng)網(wǎng)絡(luò)可以完成非常復(fù)雜的非線(xiàn)性分類(lèi)。下圖會(huì)演示神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域的一個(gè)著名應(yīng)用,這個(gè)程序叫做LeNet,是一個(gè)基于多個(gè)隱層構(gòu)建的神經(jīng)網(wǎng)絡(luò)。通過(guò)LeNet可以識(shí)別多種手寫(xiě)數(shù)字,并且達(dá)到很高的識(shí)別精度與擁有較好的魯棒性。圖10 LeNet的效果展示右下方的方形中顯示的是輸入計(jì)算機(jī)的圖像,方形上方的紅色字樣“answer”后面顯示的是計(jì)算機(jī)的輸出。左邊的三條豎直的圖像列顯示的是神經(jīng)網(wǎng)絡(luò)中三個(gè)隱藏層的輸出,可以看出,隨著層次的不斷深入,越深的層次處理的細(xì)節(jié)越低,例如層3基本處理的都已經(jīng)是線(xiàn)的細(xì)節(jié)了。LeNet的發(fā)明人就是前文介紹過(guò)的機(jī)器學(xué)習(xí)的大牛Yann LeCun(圖1右者)。進(jìn)入90年代,神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個(gè)瓶頸期。其主要原因是盡管有BP算法的加速,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程仍然很困難。因此90年代后期支持向量機(jī)(SVM)算法取代了神經(jīng)網(wǎng)絡(luò)的地位。3、SVM(支持向量機(jī))支持向量機(jī)算法是誕生于統(tǒng)計(jì)學(xué)習(xí)界,同時(shí)在機(jī)器學(xué)習(xí)界大放光彩的經(jīng)典算法。支持向量機(jī)算法從某種意義上來(lái)說(shuō)是邏輯回歸算法的強(qiáng)化:通過(guò)給予邏輯回歸算法更嚴(yán)格的優(yōu)化條件,支持向量機(jī)算法可以獲得比邏輯回歸更好的分類(lèi)界線(xiàn)。但是如果沒(méi)有某類(lèi)函數(shù)技術(shù),則支持向量機(jī)算法最多算是一種更好的線(xiàn)性分類(lèi)技術(shù)。但是,通過(guò)跟高斯“核”的結(jié)合,支持向量機(jī)可以表達(dá)出非常復(fù)雜的分類(lèi)界線(xiàn),從而達(dá)成很好的的分類(lèi)效果?!昂恕笔聦?shí)上就是一種特殊的函數(shù),最典型的特征就是可以將低維的空間映射到高維的空間。例如下圖所示: 圖11 支持向量機(jī)圖例我們?nèi)绾卧诙S平面劃分出一個(gè)圓形的分類(lèi)界線(xiàn)?在二維平面可能會(huì)很困難,但是通過(guò)“核”可以將二維空間映射到三維空間,然后使用一個(gè)線(xiàn)性平面就可以達(dá)成類(lèi)似效果。也就是說(shuō),二維平面劃分出的非線(xiàn)性分類(lèi)界線(xiàn)可以等價(jià)于三維平面的線(xiàn)性分類(lèi)界線(xiàn)。于是,我們可以通過(guò)在三維空間中進(jìn)行簡(jiǎn)單的線(xiàn)性劃分就可以達(dá)到在二維平面中的非線(xiàn)性劃分效果。圖12 三維空間的切割支持向量機(jī)是一種數(shù)學(xué)成分很濃的機(jī)器學(xué)習(xí)算法(相對(duì)的,神經(jīng)網(wǎng)絡(luò)則有生物科學(xué)成分)。在算法的核心步驟中,有一步證明,即將數(shù)據(jù)從低維映射到高維不會(huì)帶來(lái)最后計(jì)算復(fù)雜性的提升。于是,通過(guò)支持向量機(jī)算法,既可以保持計(jì)算效率,又可以獲得非常好的分類(lèi)效果。因此支持向量機(jī)在90年代后期一直占據(jù)著機(jī)器學(xué)習(xí)中最核心的地位,基本取代了神經(jīng)網(wǎng)絡(luò)算法。直到現(xiàn)在神經(jīng)網(wǎng)絡(luò)借著深度學(xué)習(xí)重新興起,兩者之間才又發(fā)生了微妙的平衡轉(zhuǎn)變。4、聚類(lèi)算法前面的算法中的一個(gè)顯著特征就是我的訓(xùn)練數(shù)據(jù)中包含了標(biāo)簽,訓(xùn)練出的模型可以對(duì)其他未知數(shù)據(jù)預(yù)測(cè)標(biāo)簽。在下面的算法中,訓(xùn)練數(shù)據(jù)都是不含標(biāo)簽的,而算法的目的則是通過(guò)訓(xùn)練,推測(cè)出這些數(shù)據(jù)的標(biāo)簽。這類(lèi)算法有一個(gè)統(tǒng)稱(chēng),即無(wú)監(jiān)督算法(前面有標(biāo)簽的數(shù)據(jù)的算法則是有監(jiān)督算法)。無(wú)監(jiān)督算法中最典型的代表就是聚類(lèi)算法。讓我們還是拿一個(gè)二維的數(shù)據(jù)來(lái)說(shuō),某一個(gè)數(shù)據(jù)包含兩個(gè)特征。我希望通過(guò)聚類(lèi)算法,給他們中不同的種類(lèi)打上標(biāo)簽,我該怎么做呢?簡(jiǎn)單來(lái)說(shuō),聚類(lèi)算法就是計(jì)算種群中的距離,根據(jù)距離的遠(yuǎn)近將數(shù)據(jù)劃分為多個(gè)族群。聚類(lèi)算法中最典型的代表就是K-Means算法。5、降維算法降維算法也是一種無(wú)監(jiān)督學(xué)習(xí)算法,其主要特征是將數(shù)據(jù)從高維降低到低維層次。在這里,維度其實(shí)表示的是數(shù)據(jù)的特征量的大小,例如,房?jī)r(jià)包含房子的長(zhǎng)、寬、面積與房間數(shù)量四個(gè)特征,也就是維度為4維的數(shù)據(jù)??梢钥闯鰜?lái),長(zhǎng)與寬事實(shí)上與面積表示的信息重疊了,例如面積=長(zhǎng) 寬。通過(guò)降維算法我們就可以去除冗余信息,將特征減少為面積與房間數(shù)量?jī)蓚€(gè)特征,即從4維的數(shù)據(jù)壓縮到2維。于是我們將數(shù)據(jù)從高維降低到低維,不僅利于表示,同時(shí)在計(jì)算上也能帶來(lái)加速。剛才說(shuō)的降維過(guò)程中減少的維度屬于肉眼可視的層次,同時(shí)壓縮也不會(huì)帶來(lái)信息的損失(因?yàn)樾畔⑷哂嗔?。如果肉眼不可視,或者沒(méi)有冗余的特征,降維算法也能工作,不過(guò)這樣會(huì)帶來(lái)一些信息的損失。但是,降維算法可以從數(shù)學(xué)上證明,從高維壓縮到的低維中最大程度地保留了數(shù)據(jù)的信息。因此,使用降維算法仍然有很多的好處。降維算法的主要作用是壓縮數(shù)據(jù)與提升機(jī)器學(xué)習(xí)其他算法的效率。通過(guò)降維算法,可以將具有幾千個(gè)特征的數(shù)據(jù)壓縮至若干個(gè)特征。另外,降維算法的另一個(gè)好處是數(shù)據(jù)的可視化,例如將5維的數(shù)據(jù)壓縮至2維,然后可以用二維平面來(lái)可視。降維算法的主要代表是PCA算法(即主成分分析算法)。6、推薦算法推薦算法是目前業(yè)界非?;鸬囊环N算法,在電商界,如亞馬遜,天貓,京東等得到了廣泛的運(yùn)用。推薦算法的主要特征就是可以自動(dòng)向用戶(hù)推薦他們最感興趣的東西,從而增加購(gòu)買(mǎi)率,提升效益。推薦算法有兩個(gè)主要的類(lèi)別:一類(lèi)是基于物品內(nèi)容的推薦,是將與用戶(hù)購(gòu)買(mǎi)的內(nèi)容近似的物品推薦給用戶(hù),這樣的前提是每個(gè)物品都得有若干個(gè)標(biāo)簽,因此才可以找出與用戶(hù)購(gòu)買(mǎi)物品類(lèi)似的物品,這樣推薦的好處是關(guān)聯(lián)程度較大,但是由于每個(gè)物品都需要貼標(biāo)簽,因此工作量較大。另一類(lèi)是基于用戶(hù)相似度的推薦,則是將與目標(biāo)用戶(hù)興趣相同的其他用戶(hù)購(gòu)買(mǎi)的東西
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 化妝品銷(xiāo)售合同書(shū)年
- 機(jī)械設(shè)備購(gòu)銷(xiāo)合同協(xié)議書(shū)范本
- 房屋建筑工程保修合同書(shū)范本
- 通信工程承包合同模板
- 蘇州室內(nèi)裝修合同范本
- 鑄件加工合同范本
- 銷(xiāo)售員合同協(xié)議書(shū)
- 數(shù)據(jù)產(chǎn)業(yè)能否促進(jìn)經(jīng)濟(jì)快速發(fā)展
- 課程游戲化背景下師幼互動(dòng)模式的創(chuàng)新研究
- 檔案敘事與共情:理論闡釋與實(shí)證分析
- 復(fù)工復(fù)產(chǎn)消防安全培訓(xùn)
- 城市道路交通安全評(píng)價(jià)標(biāo)準(zhǔn) DG-TJ08-2407-2022
- 統(tǒng)編版高中政治選擇性必修2《法律與生活》知識(shí)點(diǎn)復(fù)習(xí)提綱詳細(xì)版
- 急腹癥的診斷思路
- 培訓(xùn)機(jī)構(gòu)安全隱患排查記錄(帶附件)
- 2024小說(shuō)推文行業(yè)白皮書(shū)
- 研究性成果及創(chuàng)新性成果怎么寫(xiě)(通用6篇)
- 特殊感染手術(shù)管理考試試題及答案
- 旅館治安管理制度及突發(fā)事件應(yīng)急方案三篇
- 土地增值稅清算底稿中稅協(xié)版
- 小區(qū)綠化養(yǎng)護(hù)方案及報(bào)價(jià)(三篇)
評(píng)論
0/150
提交評(píng)論