有監(jiān)督學(xué)習(xí)方法

上傳人：d*** IP屬地：天津上傳時(shí)間：2022-04-02 格式：DOCX 頁數(shù)：10 大?。?5.43KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩5頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、非監(jiān)督學(xué)習(xí)法本章重點(diǎn)1, 什么叫非監(jiān)督學(xué)習(xí)方法，什么叫有監(jiān)督學(xué)習(xí)方法？2, 非監(jiān)督學(xué)習(xí)方法主要的用途3, 非監(jiān)督學(xué)習(xí)方法的兩種基本處理方法：按分布密集程度劃分，與按相似度聚類劃分4, 按分布密度程度劃分的基本方法5, 動態(tài)聚類方法與分級聚類方法的概念6, 典型的動態(tài)聚類方法c-均值算法與isodata算法7, 使用非歐氏距離計(jì)算相似度的動態(tài)聚類方法8, 分級聚類方法本章課前思考題1, 如果給機(jī)器一維數(shù)據(jù)，機(jī)器能自動地找出其中存在的規(guī)律嗎？2, 有人把非監(jiān)督學(xué)習(xí)方法叫無教師的學(xué)習(xí)，而把第二章、第三章討論的內(nèi)容成為有監(jiān)督學(xué)習(xí)，又稱有教師的學(xué)習(xí)，你知道誰是教師嗎？教師的作用體現(xiàn)在哪里？3, 機(jī)器能總

2、結(jié)數(shù)據(jù)中存在的哪些規(guī)律呢？4, 機(jī)器能總結(jié)天氣變化的規(guī)律，給出天氣預(yù)報(bào)嗎？5, 機(jī)器能炒股嗎？6, 非監(jiān)督學(xué)習(xí)方法與數(shù)據(jù)有關(guān)系嗎？知識樹5.1引言以前各章討論的分類器設(shè)計(jì)方法都是在樣本集中的類別標(biāo)簽已知的條件下進(jìn)行的，這些樣本稱為訓(xùn)練樣本。在樣本標(biāo)簽已知的情況下，可以統(tǒng)計(jì)出各類訓(xùn)練樣本不同的描述量，如其概率分布，或在特征空間分布的區(qū)域等，利用這些參數(shù)進(jìn)行分類器設(shè)計(jì)，稱為有監(jiān)督的學(xué)習(xí)方法。然而在實(shí)際應(yīng)用中，不少情況下無法預(yù)先知道樣本的標(biāo)簽，也就是說沒有訓(xùn)練樣本，因而只能從原先沒有樣本標(biāo)簽的樣本集開始進(jìn)行分類器設(shè)計(jì)，這就是通常說的無監(jiān)督學(xué)習(xí)方法。對一個(gè)具體問題來說有監(jiān)督與無監(jiān)督的作法是不相同的。人

3、們?nèi)粘Ｉ钪薪?jīng)常要觀察事物與分析事物，從中尋找其規(guī)律性，這就是非監(jiān)督學(xué)習(xí)方法要解決的問題。例如人們見到圖5.1的道路圖時(shí)，會發(fā)現(xiàn)中間有一條帶與圖中其它區(qū)域不同，見到圖5.3會發(fā)現(xiàn)在這個(gè)二維空間中有數(shù)據(jù)顯現(xiàn)出聚成兩類的現(xiàn)象。這就是事物（對我們來說就是數(shù)據(jù)集）自身體現(xiàn)出的一些規(guī)律性，非監(jiān)督學(xué)習(xí)方法就是尋找數(shù)據(jù)集中體現(xiàn)出來的規(guī)律性。從中我們可以強(qiáng)調(diào)非監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)方法的以下幾種不同點(diǎn)：1 .有監(jiān)督學(xué)習(xí)方法必須要有訓(xùn)練集與測試樣本。在訓(xùn)練集中找規(guī)律，而對測試樣本使用這種規(guī)律；而非監(jiān)督學(xué)習(xí)沒有訓(xùn)練集這一說，只有一組數(shù)據(jù)，在該組數(shù)據(jù)集內(nèi)尋找規(guī)律。2 .有監(jiān)督學(xué)習(xí)方法的目的就是識別事物，識別的結(jié)果表現(xiàn)

4、在給待識別數(shù)據(jù)加上了標(biāo)號。因此訓(xùn)練樣本集必須由帶標(biāo)號的樣本組成。而非監(jiān)督學(xué)習(xí)方法只有要分析的數(shù)據(jù)集本身，預(yù)先沒有什么標(biāo)號。如果發(fā)現(xiàn)數(shù)據(jù)集呈現(xiàn)某種聚集性，則可按自然的聚集性分類，但不以與某種預(yù)先的分類標(biāo)號對上號為目的。例如圖1 .1道路圖像，有監(jiān)督學(xué)習(xí)方法的目的是找到“道路”，而非監(jiān)督學(xué)習(xí)方法則只是將中間一條帶狀區(qū)域區(qū)分開來，本質(zhì)上講與“道路”這個(gè)標(biāo)號沒有關(guān)系。3 .非監(jiān)督學(xué)習(xí)方法在尋找數(shù)據(jù)集中的規(guī)律性，這種規(guī)律性并不一定要達(dá)到劃分?jǐn)?shù)據(jù)集的目的，也就是說不一定要“分類”。這一點(diǎn)是比有監(jiān)督學(xué)習(xí)方法的用途要廣泛。譬如分析一堆數(shù)據(jù)的主分量，或分析數(shù)據(jù)集有什么特點(diǎn)都可以歸于非監(jiān)督學(xué)習(xí)方法的范疇。4 .用

5、非監(jiān)督學(xué)習(xí)方法分析數(shù)據(jù)集的主分量與用k-l變換計(jì)算數(shù)據(jù)集的主分量又有區(qū)別。應(yīng)該說后者從方法上講不是一種學(xué)習(xí)方法。因此用k-l變換找主分量不屬于非監(jiān)督學(xué)習(xí)方法，即方法上不是。而通過學(xué)習(xí)逐漸找到規(guī)律性這體現(xiàn)了學(xué)習(xí)方法這一點(diǎn)。在人工神經(jīng)元網(wǎng)絡(luò)中尋找主分量的方法屬于非監(jiān)督學(xué)習(xí)方法。以上四點(diǎn)是對非監(jiān)督學(xué)習(xí)方法的定義，及與有監(jiān)督學(xué)習(xí)方法的區(qū)別。例如圖5.1表示對一幅道路圖像按路面與非路面分類可用兩種不同做法，其中左圖是在圖像中路面區(qū)與非路面中各找一個(gè)窗口，將其中每個(gè)象素分別作為這兩類的訓(xùn)練樣本集，用這兩個(gè)樣本集在特征空間的分布參數(shù)進(jìn)行設(shè)計(jì)。而無監(jiān)督學(xué)習(xí)方法則不同，它不預(yù)先選擇樣本類別的樣本集，而是將整幅圖

6、的像素都作為待分類樣本集，通過它們在特征空間中表現(xiàn)出來的聚類現(xiàn)象，把不同類別劃分開。圖5.1的有監(jiān)督學(xué)習(xí)中，樣本集分布呈現(xiàn)交迭情況，而無監(jiān)督學(xué)習(xí)方法由于沒有類別樣本指導(dǎo)，無法確定它們的交迭情況，只能按分布的聚類情況進(jìn)行劃分。在類似于該例的實(shí)際應(yīng)用問題中，預(yù)先選定不同類別的樣本往往不可能，如時(shí)間不允許，或無法用人工干予等因素。另外在某些有監(jiān)督學(xué)習(xí)方法中，也往往需要利用聚類方法將樣本按其分布劃分成若干子類等。聚類方法就是無監(jiān)督學(xué)習(xí)方法的一個(gè)內(nèi)容，它是經(jīng)常應(yīng)用的一門技術(shù)。圖5.1無監(jiān)督學(xué)習(xí)方法可以分成兩大類，一類為基于概率密度函數(shù)估計(jì)的直接方法，指設(shè)法找到各類別在特征空間的分布參數(shù)再進(jìn)行分類。另一類

7、稱為基于樣本間相似性度量的間接聚類方法，其原理是設(shè)法定出不同類別的核心或初始類核，然后依據(jù)樣本與這些核心之間的相似性度量將樣本聚集成不同類別。下面分別討論這兩種方法。最常用的基于概率密度估計(jì)的直接方法的例子是直方圖方法。例如我們統(tǒng)計(jì)一所學(xué)校中學(xué)生身高分布就往往可采用直方圖方法，把身高劃分成一段段，如1米到1米75算一段，然后對每一段統(tǒng)計(jì)身高在此范圍內(nèi)的學(xué)生數(shù)，得到直方圖。如果這個(gè)學(xué)校的男女學(xué)生數(shù)目相近，則我們就會發(fā)現(xiàn)該直方圖會體現(xiàn)出有兩個(gè)分布高峰。那么找到兩高峰中的谷點(diǎn)，就會將學(xué)生劃分成兩類。因此，使用概率統(tǒng)計(jì)方法的關(guān)鍵是能找出各個(gè)峰值區(qū)，這就是5.2節(jié)中的主要內(nèi)容。另一種方法則在5.3節(jié)中再

8、進(jìn)一步討論。5.2單峰子類的分離方法對于樣本在某一種度量中的分布統(tǒng)計(jì)，一般稱為直方圖統(tǒng)計(jì)，在樣本數(shù)量很大時(shí)，又可作為概率統(tǒng)計(jì)的估計(jì)。由于這種方法基于將樣本投影到某個(gè)坐標(biāo)軸上，因而稱為投影方法。使用投影方法有兩個(gè)組成部分，一個(gè)是如何設(shè)計(jì)合適的坐標(biāo)系統(tǒng)，另一是如何設(shè)計(jì)直方圖。如果對于各類別的類條件概率分布一無所知，我們只按待分類樣本在特征空間的自然聚集進(jìn)行劃分。如圖5.2所示的一維特征空間中，樣本在整個(gè)特征空間中呈現(xiàn)出兩個(gè)分布高峰，如果從分布的谷點(diǎn)將此特征空間劃分為兩個(gè)區(qū)，則對應(yīng)每個(gè)區(qū)域，樣本分布就只有一個(gè)峰值，這些區(qū)域被稱為單峰區(qū)域，而每個(gè)單峰區(qū)域則被看作不同的決策域。落在同一單峰區(qū)域的待分類樣

9、本就被劃分成同一類，稱為單峰子類。下面討論一些單峰子類的劃分算法。圖5.25.2.1 投影法投影法的原理很簡單，拿圖5.3顯示的一個(gè)二維空間為例。在該分類問題中，兩個(gè)類別分別在其特征空間中形成兩個(gè)聚類，圖中用兩個(gè)區(qū)域的輪廓勾出這兩類樣本聚類的區(qū)域。對人來說一旦畫出這兩類的空間分布，可以很容易地判斷出這兩類在特征空間聚集的區(qū)域，但是對計(jì)算機(jī)來說，要識別出這兩類的分布情況，直接從二維的圖形來說是很困難的，更不用說在高維特征空間直接對樣本的分布作出判斷了。一個(gè)辦法是如果將樣本對某個(gè)方向的軸作投影，或換句話說只取這些樣本的某一分量的統(tǒng)計(jì)值來看，樣本的分布往往顯現(xiàn)出高峰與低谷，找到低谷，將峰值分別劃分在

10、不同的區(qū)域中，每個(gè)區(qū)域只有一個(gè)高峰，并把聚在同一高峰下的樣本劃分為一類，這是計(jì)算機(jī)容易做到的。對于樣本在某一種度量中的分布統(tǒng)計(jì)，一般稱為直方圖統(tǒng)計(jì)，在樣本數(shù)量很大時(shí)，又可作為概率統(tǒng)計(jì)的估計(jì)。由于這種方法基于將樣本投影到某個(gè)坐標(biāo)軸上，因而稱為投影方法。圖5.3使用投影方法有兩個(gè)組成部分，一個(gè)是如何設(shè)計(jì)合適的坐標(biāo)系統(tǒng)，另一是如何設(shè)計(jì)直方圖。在樣本屬性完全不知的情況下，如何選擇坐標(biāo)系統(tǒng)，是比較困難的，因?yàn)檫@時(shí)還沒有一個(gè)準(zhǔn)則函數(shù)來表征這樣一個(gè)坐標(biāo)系統(tǒng)的性質(zhì)。一種啟發(fā)式的辦法是使待分類的樣本在某個(gè)坐標(biāo)軸方向具有最大的分散性，這可以采用上一章討論過的k-l變換方法。具體說來是用混合樣本協(xié)方差矩陣作為k-l

11、變換的產(chǎn)生矩陣，找到其特征值，并按大小排序，對應(yīng)最大特征值的特征向量對此混合樣本來說，離散程度最大，預(yù)期能發(fā)現(xiàn)明顯的峰值，但是這種方法并不能保證分出各個(gè)聚類，例如圖5.4所示情況，其兩個(gè)特征向量都只呈現(xiàn)單峰狀態(tài)，無法用此法將他們分開。圖5.4投影法的具體算法分以下幾個(gè)步驟：步驟1:計(jì)算樣本協(xié)方差矩陣具有最大特征值的特征向量uj,把數(shù)據(jù)投影至ijuj軸上。步驟2:用直方圖方法求數(shù)據(jù)的邊緣概率密度函數(shù)。步驟3:在直方圖的峰值間求最小值，在這些最小點(diǎn)作垂直于uj的各個(gè)超平面把數(shù)據(jù)劃分為若干個(gè)聚類。步驟4:如果在這個(gè)軸上沒有這樣的最小值，則用下一個(gè)最大特征值對應(yīng)的特征向量重復(fù)以上過程。步驟5:對每個(gè)得

12、到的子集（聚類）重復(fù)上述過程，直到每個(gè)集不能再分（為單峰）為止。5.2.2 基于對稱集性質(zhì)的單峰子集分離法不要求在一個(gè)多維空間中給單峰區(qū)域下嚴(yán)格的定義是困難的。譬如一個(gè)單峰區(qū)域的數(shù)據(jù)集用?表示，峰值在處形成，則可寫在（5-1）但是僅滿足（5-1）式的區(qū)域并不能保證是單峰區(qū)。另一方面，如果考慮數(shù)據(jù)丫，其中任何一對點(diǎn)y1和y2之間的距離用式的性質(zhì)外，還具有以下性質(zhì)：表示，該數(shù)據(jù)集丫除了具備（5-1）篇二：有監(jiān)督學(xué)習(xí)（supervisedlearning）和無監(jiān)督學(xué)習(xí)（unsupervisedlearning）有監(jiān)督學(xué)習(xí)（supervisedlearning）和無監(jiān)督學(xué)習(xí)（unsupervisedl

13、earning）機(jī)器學(xué)習(xí)的常用方法，主要分為有監(jiān)督學(xué)習(xí)（supervisedlearning）和無監(jiān)督學(xué)習(xí)（unsupervisedlearning）。監(jiān)督學(xué)習(xí)，就是人們常說的分類，通過已有的訓(xùn)練樣本（即已知數(shù)據(jù)以及其對應(yīng)的輸出）去訓(xùn)練得到一個(gè)最優(yōu)模型（這個(gè)模型屬于某個(gè)函數(shù)的集合，最優(yōu)則表示在某個(gè)評價(jià)準(zhǔn)則下是最佳的），再利用這個(gè)模型將所有的輸入映射為相應(yīng)的輸出，對輸出進(jìn)行簡單的判斷從而實(shí)現(xiàn)分類的目的，也就具有了對未知數(shù)據(jù)進(jìn)行分類的能力。在人對事物的認(rèn)識中，我們從孩子開始就被大人們教授這是鳥啊、那是豬啊、那是房子啊，等等。我們所見到的景物就是輸入數(shù)據(jù)，而大人們對這些景物的判斷結(jié)果（是房子還是鳥啊

14、）就是相應(yīng)的輸出。當(dāng)我們見識多了以后，腦子里就慢慢地得到了一些泛化的模型，這就是訓(xùn)練得到的那個(gè)（或者那些）函數(shù)，從而不需要大人在旁邊指點(diǎn)的時(shí)候，我們也能分辨的出來哪些是房子，哪些是鳥。監(jiān)督學(xué)習(xí)里典型的例子就是knn、svmi無監(jiān)督學(xué)習(xí)（也有人叫非監(jiān)督學(xué)習(xí)，反正都差不多）則是另一種研究的比較多的學(xué)習(xí)方法，它與監(jiān)督學(xué)習(xí)的不同之處，在于我們事先沒有任何訓(xùn)練樣本，而需要直接對數(shù)據(jù)進(jìn)行建模。這聽起來似乎有點(diǎn)不可思議，但是在我們自身認(rèn)識世界的過程中很多處都用到了無監(jiān)督學(xué)習(xí)。比如我們?nèi)⒂^一個(gè)畫展，我們完全對藝術(shù)一無所知，但是欣賞完多幅作品之后，我們也能把它們分成不同的派別(比如哪些更朦朧一點(diǎn)，哪些更寫實(shí)一

15、些，即使我們不知道什么叫做朦朧派，什么叫做寫實(shí)派，但是至少我們能把他們分為兩個(gè)類)。無監(jiān)督學(xué)習(xí)里典型的例子就是聚類了。聚類的目的在于把相似的東西聚在一起，而我們并不關(guān)心這一類是什么。因此，一個(gè)聚類算法通常只需要知道如何計(jì)算相似度就可以開始工作了。那么，什么時(shí)候應(yīng)該采用監(jiān)督學(xué)習(xí)，什么時(shí)候應(yīng)該采用非監(jiān)督學(xué)習(xí)呢？我也是從一次面試的過程中被問到這個(gè)問題以后才開始認(rèn)真地考慮答案。一種非常簡單的回答就是從定義入手，如果我們在分類的過程中有訓(xùn)練樣本(trainingdata),則可以考慮用監(jiān)督學(xué)習(xí)的方法；如果沒有訓(xùn)練樣本，則不可能用監(jiān)督學(xué)習(xí)的方法。但是事實(shí)上，我們在針對一個(gè)現(xiàn)實(shí)問題進(jìn)行解答的過程中，即使我們

16、沒有現(xiàn)成的訓(xùn)練樣本，我們也能夠憑借自己的雙眼，從待分類的數(shù)據(jù)中人工標(biāo)注一些樣本，并把他們作為訓(xùn)練樣本，這樣的話就可以把條件改善，用監(jiān)督學(xué)習(xí)的方法來做。當(dāng)然不得不說的是有時(shí)候數(shù)據(jù)表達(dá)的會非常隱蔽，也就是說我們手頭的信息不是抽象的形式，而是具體的一大堆數(shù)字，這樣我們很難憑借人本身對它們簡單地進(jìn)行分類。這個(gè)說的好像有點(diǎn)不大明白，舉個(gè)例子說就是在bag-of-words模型的時(shí)候，我們利用k-means的方法聚類從而對數(shù)據(jù)投影，這時(shí)候用k-means就是因?yàn)槲覀儺?dāng)前到手的只有一大堆數(shù)據(jù)，而且是很高維的，當(dāng)我們想把他們分為50個(gè)類的時(shí)候，我們已經(jīng)無力將每個(gè)數(shù)據(jù)標(biāo)記說這個(gè)數(shù)應(yīng)該是哪個(gè)類，那個(gè)數(shù)又應(yīng)該是哪個(gè)

17、類了。所以說遇到這種情況也只有無監(jiān)督學(xué)習(xí)能夠幫助我們了。那么這么說來，能不能再深入地問下去，如果有訓(xùn)練樣本(或者說如果我們可以獲得到一些訓(xùn)練數(shù)據(jù)的話)，監(jiān)督學(xué)習(xí)就會比無監(jiān)督學(xué)習(xí)更合適呢？(照我們單純地想，有高人教總比自己領(lǐng)悟來的準(zhǔn)，來的快吧！)我覺得一般來說，是這樣的，但是這要具體看看訓(xùn)練數(shù)據(jù)的獲取。本人在最近課題的研究中，手動標(biāo)注了大量的訓(xùn)練樣本(當(dāng)然這些樣本基本準(zhǔn)確了)，而且把樣本畫在特征空間中發(fā)現(xiàn)線性可分性非常好，只是在分類面附近總有一些混淆的數(shù)據(jù)樣本，從而用線性分類器進(jìn)行分類之后這樣樣本會被誤判。然而，如果用混合高斯模型(gmm)來分的話，這些易混淆的點(diǎn)被正確分類的更多了。對這個(gè)現(xiàn)象的

18、一個(gè)解釋，就是不管是訓(xùn)練樣本，還是待聚類的數(shù)據(jù)，并不是所有數(shù)據(jù)都是相互獨(dú)立同分布的。換句話說，數(shù)據(jù)與數(shù)據(jù)的分布之間存在聯(lián)系。在我閱讀監(jiān)督學(xué)習(xí)的大量材料中，大家都沒有對訓(xùn)練數(shù)據(jù)的這一假設(shè)(獨(dú)立同分布)進(jìn)行說明，直到我閱讀到一本書的提示后才恍然大悟。對于不同的場景，正負(fù)樣本的分布如果會存在偏移(可能是大的偏移，也可能偏移比較小)，這樣的話用監(jiān)督學(xué)習(xí)的效果可能就不如用非監(jiān)督學(xué)習(xí)了。篇三：監(jiān)督學(xué)習(xí)算法基礎(chǔ)知識整理第三章監(jiān)督學(xué)習(xí)算法監(jiān)督學(xué)習(xí)又稱為分類(classification)或者歸納學(xué)習(xí)(inductivelearning)。幾乎適用于所有領(lǐng)域，包括文本和網(wǎng)頁處理。給出一個(gè)數(shù)據(jù)集d,機(jī)器學(xué)習(xí)的目標(biāo)

19、就是產(chǎn)生一個(gè)聯(lián)系屬性值集合a和類標(biāo)集合c的分類/預(yù)測函數(shù)(classification/predictionfunction),這個(gè)函數(shù)可以用于預(yù)測新的屬性集合的類標(biāo)。這個(gè)函數(shù)又被稱為分類模型(classificationmodel)預(yù)測模型(predictionmodel)。這個(gè)分類模型可以是任何形式的，例如決策樹、規(guī)則集、貝葉斯模型或者一個(gè)超平面。在監(jiān)督學(xué)習(xí)(supervisedlearning)中，已經(jīng)有數(shù)據(jù)給出了類標(biāo)；與這一方式相對的是無監(jiān)督學(xué)習(xí)(unsupervisedlearning),在這種方式中，所有的類屬性都是未知的，算法需要根據(jù)數(shù)據(jù)集的特征自動產(chǎn)生類屬性。其中算法中用于進(jìn)行

20、學(xué)習(xí)的數(shù)據(jù)集叫做訓(xùn)練數(shù)據(jù)集，當(dāng)使用學(xué)習(xí)算法用訓(xùn)練數(shù)據(jù)集學(xué)習(xí)得到一個(gè)模型以后，我們使用測試數(shù)據(jù)集來評測這個(gè)模型的精準(zhǔn)度。機(jī)器學(xué)習(xí)的最基本假設(shè)：訓(xùn)練數(shù)據(jù)的分布應(yīng)該與測試數(shù)據(jù)的分布一致。訓(xùn)練算法：訓(xùn)練算法就是給定一組樣本，我們計(jì)算這些參數(shù)的方法。本節(jié)簡要介紹以下幾種常用的機(jī)器學(xué)習(xí)算法，比如決策樹，樸素貝葉斯，神經(jīng)網(wǎng)絡(luò)，支持向量機(jī)，線性最小平方擬合，knn,最大嫡等。3.1 兩類感知器見課本3.2 多類感知器見課本3.3 決策樹算法決策樹學(xué)習(xí)算法是分類算法中最廣泛應(yīng)用的一種技術(shù)，這種算法的分類精度與其他算法相比具有相當(dāng)?shù)母偁幜?，并且十分高效。決策樹是一個(gè)預(yù)測模型；他代表的是對象屬性與對象值之間的一種映

21、射關(guān)系。樹中每個(gè)節(jié)點(diǎn)表示某個(gè)對象屬性，而每個(gè)分叉路徑則代表的某個(gè)可能的屬性值，而每個(gè)葉結(jié)點(diǎn)則對應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對象的值(類別)。決策樹僅有單一輸出，若欲有復(fù)數(shù)輸出，可以建立獨(dú)立的決策樹以處理不同輸出。如何構(gòu)造精度高、規(guī)模小的決策樹是決策樹算法的核心內(nèi)容。決策樹構(gòu)造可以分兩步進(jìn)行。決策樹的生成：由訓(xùn)練樣本集生成決策樹的過程。一般情況下，訓(xùn)練樣本數(shù)據(jù)集是根據(jù)實(shí)際需要有歷史的、有一定綜合程度的，用于數(shù)據(jù)分析處理的數(shù)據(jù)集。1. 樹以代表訓(xùn)練樣本的單個(gè)結(jié)點(diǎn)開始。2. 如果樣本都在同一個(gè)類.則該結(jié)點(diǎn)成為樹葉，并用該類標(biāo)記。3. 否則，算法選擇最有分類能力的屬性作為決策樹的當(dāng)前結(jié)點(diǎn)。

22、4. 根據(jù)當(dāng)前決策結(jié)點(diǎn)屬性取值的不同，將訓(xùn)練樣本數(shù)據(jù)集分為若干子集，每個(gè)取值形成一個(gè)分枝。5. 針對上一步得到的一個(gè)子集，重復(fù)進(jìn)行先前步驟，形成每個(gè)劃分樣本上的決策樹。6. 遞歸劃分步驟僅當(dāng)下列條件之一成立時(shí)停止：(a) 給定結(jié)點(diǎn)的所有樣本屬于同一類。(b) 沒有剩余屬性可以用來進(jìn)一步劃分樣本。以樣本組中個(gè)數(shù)最多的類別作為類別標(biāo)記。決策樹的剪技：決策樹的剪枝是對上一階段生成的決策樹進(jìn)行檢驗(yàn)、校正和修下的過程，主要是用新的樣本數(shù)扼集(稱為測試數(shù)據(jù)集)中的數(shù)據(jù)校驗(yàn)決策樹生成過程中產(chǎn)生的初步規(guī)則，將那些影響預(yù)衡準(zhǔn)確性的分枝剪除。由于數(shù)據(jù)表示不當(dāng)、有噪聲或者由于決策樹生成時(shí)產(chǎn)生重復(fù)的子樹等原因，都會造

23、成產(chǎn)生的決策樹過大。因此，簡化決策樹是一個(gè)不可缺少的環(huán)節(jié)。尋找一棵最優(yōu)決策樹，主要應(yīng)解決以下3個(gè)最優(yōu)化問題：1. 生成最少數(shù)目的葉子節(jié)點(diǎn)；2. 生成的每個(gè)葉子節(jié)點(diǎn)的深度最小；3. 生成的決策樹葉子節(jié)點(diǎn)最少且每個(gè)葉子節(jié)點(diǎn)的深度最小。例如，對于表3-1所示的貸款申請的數(shù)據(jù)集，可以學(xué)習(xí)到一種決策樹結(jié)構(gòu)，表示為圖3-1。表3-1貸款申請數(shù)據(jù)根據(jù)數(shù)據(jù)集建立的一種決策樹結(jié)構(gòu)如下：圖3-1對應(yīng)與表3-1的決策樹樹中包含了決策點(diǎn)和葉子節(jié)點(diǎn)，決策點(diǎn)包含針對數(shù)據(jù)實(shí)例某個(gè)屬性的一些測試，而一個(gè)葉子節(jié)點(diǎn)則代表了一個(gè)類標(biāo)。一棵決策樹的構(gòu)建過程是不斷的分隔訓(xùn)練數(shù)據(jù)，以使得最終分隔所得到的各個(gè)子集盡可能的純。一個(gè)純的子集中

24、的數(shù)據(jù)實(shí)例類標(biāo)全部一致。決策樹的建立并不是唯一的，在實(shí)際中，我們希望得到一棵盡量小且準(zhǔn)確的決策樹。決策樹的典型算法有id3,c4.5,cart(分類與回歸樹)等。依次得到改進(jìn)。相對于其它算法，決策樹易于理解和實(shí)現(xiàn)，人們在通過解釋后都有能力去理解決策樹所表達(dá)的意義。決策樹可以同時(shí)處理不同類型的屬性，并且在相對短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。3.4貝葉斯分類算法貝葉斯分類器的分類原理是通過某對象的先驗(yàn)概率，利用貝葉斯公式計(jì)算出其后驗(yàn)概率，即該對象屬于某一類的概率，選擇具有最大后驗(yàn)概率的類作為該對象所屬的類。目前研究較多的貝葉斯分類器主要有四種，分別是：naivebayes、ta

25、n、ban和gbn。準(zhǔn)備知識條件概率：設(shè)a,b是兩個(gè)事件，且pr(a)?0稱pr(b|a)?發(fā)生的條件事件b發(fā)生的條件概率。乘法公式：設(shè)pr(a)?0則有pr(ab)?pr(b|a)pr(a)全概率公式：設(shè)隨機(jī)事件a1,a2,.,an以及b滿足：(1)a1,a2,an兩兩互不相容；？an?s或者b?an;(3)pr(a)?0(n=1,2,)，則有n?1n?1?pr(ab)為在條件a下pr(a)pr(b)?pr(an)pr(b|an),稱為全概率公式。n?1?全概率公式的應(yīng)用：把事件b看作是某一個(gè)過程的結(jié)果，把a(bǔ)1,a2,an看作該過程的若干個(gè)原因，根據(jù)歷史資料，每個(gè)原因發(fā)生的概率已知(即pr(

26、ai)已知)，且每一個(gè)原因?qū)Y(jié)果的影響已知(即pr(b|ai)已知)則可用全概率公式計(jì)算結(jié)果發(fā)生的概率，即求pr(b)。貝葉斯公式：設(shè)隨機(jī)事件a1,a2,an以及b滿足：(1)a1,a2,an兩兩互不相容；(2)pra(nb)?prb()?an?1?n?s或者b?an;(3)pr(a)?0(n=1,2,),貝Un?1pra(nb|?)pbr(an|(?prbn?1a|ja)p)nr(,稱為貝葉斯公式。)par)j(貝葉斯公式的使用：把事件b看作某一過程的結(jié)果，把a(bǔ)1,a2,an看作該過程的若干原因，根據(jù)歷史資料，每一原因發(fā)生的概率已知(即pr(an)已知)，如果已知事件b已經(jīng)發(fā)生，要求此時(shí)是由

27、第i個(gè)原因引起的概率，用貝葉斯公式(即求pr(ai|b)。樸素貝葉斯(naivebayes,nb)算法在貝葉斯分類中，在數(shù)據(jù)集合d中，令a1,a2,an為用離散值表示的屬性集合，設(shè)c具有|c|個(gè)不同值的類別屬性，即c1,c2,c|c|,我們設(shè)所有的屬性都是條件獨(dú)立于類別，給定一個(gè)測試樣例d,觀察到屬性值a1到a|a|,其中ai是ai可能的一個(gè)取值，那么預(yù)測彳1就是類別cj,使得pr(c=cj|a=a1,a|a|=a|a|)最大。cj被稱為最大后驗(yàn)概率假設(shè)。根據(jù)貝葉斯公式，有pr(c?cj)?pr(ai?ai|c?cj)|a|pr(a1?a1,.,a|a|?a|a|c?cj)?pr(c?c)?p

28、r(a?a|c?c)kiikk?1i?1|c|i?1|a|因?yàn)榉帜笇γ恳粋€(gè)訓(xùn)練類別都是一樣的，所以如果僅僅需要總體上最可能的類別為所有測試樣例做預(yù)測，那么只需要上式的分子部分即可。通過下式來判斷最有可能的類別：c?argmaxpr(c?cj)?pr(ai?ai|c?cj)cji?1|a|例如，假設(shè)我們有圖4-1中的訓(xùn)練數(shù)據(jù)，有兩個(gè)屬性a和b,還有類別c,對于一個(gè)測試樣例：a=mb=q求c=?圖4-1訓(xùn)練數(shù)據(jù)計(jì)算如下：對于類別為t的概率1222pr(c?t)?pr(aj?aj|c?t)?pr(c?t)?pr(a?m|c?t)?pr(b?q|c?t)?25525j?12類似的，對于類別為f的概率1

29、121pr(c?f)?pr(aj?aj|c?f)?25525j?12因此c=t的可能性較大，因此將此種情況下的類別判斷為t。樸素貝葉斯分類將每篇文檔看作一“袋子”的詞，需要做以下假設(shè)，這也是篇四：監(jiān)督分類是需要學(xué)習(xí)訓(xùn)練的分類方法監(jiān)督分類是需要學(xué)習(xí)訓(xùn)練的分類方法，如最大似然分類，人工神經(jīng)網(wǎng)絡(luò)分類，即是需要事先為每類地物在遙感圖像上采集樣本數(shù)據(jù)，之后通過學(xué)習(xí)訓(xùn)練過程才來分類；非監(jiān)督分類不需要人工采集地物樣本點(diǎn)數(shù)據(jù)，多是通過聚類的方法來自動分類，主要有isodata,k均值等.總體來說，監(jiān)督分類的效果要優(yōu)于非監(jiān)督分類.遙感影像的分類方法按照是否有先驗(yàn)類別可以分為監(jiān)督分類和非監(jiān)督分類，這兩種分類法有著

30、本質(zhì)的區(qū)別但也存在一定的聯(lián)系.監(jiān)督分類的主要方法最大似然判別法.也稱為貝葉斯(bayes)分類，是基于圖像統(tǒng)計(jì)的監(jiān)督分類法，也是典型的和應(yīng)用最廣的監(jiān)督分類方法.它建立在bayes準(zhǔn)則的基礎(chǔ)上，偏重于集群分布的統(tǒng)計(jì)特性，分類原理是假定訓(xùn)練樣本數(shù)據(jù)在光譜空間的分布是服從高斯正態(tài)分布規(guī)律的，做出樣本的概率密度等值線，確定分類，然后通過計(jì)算標(biāo)本(像元)屬于各組(類)的概率，將標(biāo)本歸屬于概率最大的一組.用最大似然法分類，具體分為三步：首先確定各類的訓(xùn)練樣本，再根據(jù)訓(xùn)練樣本計(jì)算各類的統(tǒng)at特征值，建立分類判別函數(shù)，最后逐點(diǎn)掃描影像各像元，將像元特征向量代入判別函數(shù)，求出其屬于各類的概率，將待判斷像元?dú)w屬于

31、最大判別函數(shù)值的一組.bayes判別分類是建立在bayes決策規(guī)則基礎(chǔ)上的模式識別，它的分類錯誤最小精度最高，是一種最好的分類方法.但是傳統(tǒng)的人工采樣方法由于工作量大，效率低，加上人為誤差的干擾，使得分類結(jié)果的精度較差.利用gis數(shù)據(jù)來輔助bayes分類，可以提高分類精度，再通過建立知識庫，以知識來指導(dǎo)分類的進(jìn)行，可以減少分類錯誤的發(fā)生1,這正是bayes分類的發(fā)展趨勢和提高其分類精度的有效途徑.神經(jīng)元網(wǎng)絡(luò)分類法.是最近發(fā)展起來的一種具有人工智能的分類方法，包才bp神經(jīng)網(wǎng)絡(luò)、kohonen神經(jīng)網(wǎng)絡(luò)、徑向基神經(jīng)網(wǎng)絡(luò)、模糊神經(jīng)網(wǎng)絡(luò)、小波神經(jīng)網(wǎng)絡(luò)等各種神經(jīng)網(wǎng)絡(luò)分類法.bp神經(jīng)網(wǎng)絡(luò)模型(前饋網(wǎng)絡(luò)型)是

32、神經(jīng)網(wǎng)絡(luò)的重要模型之一，也是目前應(yīng)用最廣的神經(jīng)網(wǎng)絡(luò)模型，它由輸入層、隱含層、輸出層三部分組成，所采取的學(xué)習(xí)過程由正向傳播過程和反向傳播過程組成.傳統(tǒng)的bp網(wǎng)絡(luò)模型把一組樣本的輸入/輸出問題作為一個(gè)非線性優(yōu)化問題，它雖然比一般統(tǒng)計(jì)方法要好，但是卻存在學(xué)習(xí)速度慢，不易U斂，效率不高的缺點(diǎn).采用動量法和學(xué)習(xí)率自適應(yīng)調(diào)整的策略，可以提高學(xué)習(xí)效率并增加算法的可靠性3.模糊分類法.由于現(xiàn)實(shí)世界中眾多的自然或半自然現(xiàn)象很難明確劃分種類，反映在遙感影像上，也存在一些混合像素問題，并有大量的同譜異物或者同物異譜現(xiàn)象發(fā)生，使得像元的類別難以明確確定.模糊分類方法忽略了監(jiān)督分類的訓(xùn)練過程所存在的模糊性，沿用傳統(tǒng)的方

33、法假定訓(xùn)練樣本由一組可明確定義、歸類，并且具有代表性的目標(biāo)(像素)構(gòu)成.監(jiān)督分類中的模糊分類可以利用神經(jīng)元網(wǎng)絡(luò)所具有的良好學(xué)習(xí)歸納機(jī)制、抗差能力和易于擴(kuò)展成為動態(tài)系統(tǒng)等特點(diǎn)，設(shè)計(jì)一個(gè)基于神經(jīng)元網(wǎng)絡(luò)技術(shù)的模糊分類法來實(shí)現(xiàn).模糊神經(jīng)網(wǎng)絡(luò)模型由art發(fā)展到artmap再到fasart、簡化的fasart模型4,使得模糊神經(jīng)網(wǎng)絡(luò)的監(jiān)督分類功能不斷完善、分類精確度不斷增加.最小距離分類法和fisher判別分類法.它們都是基于圖像統(tǒng)計(jì)的常用的監(jiān)督分類法,偏重于幾何位置.最小距離分類法的原則是各像元點(diǎn)劃歸到距離它最近距離的類別中心所在的類,fisher判別分類采用fisher準(zhǔn)則即“組間最大距離”的原則,要

34、求組間距離最大而組內(nèi)的離散性最小，也就是組間均值差異最大而組內(nèi)離差平方和最小.用這兩種分類法進(jìn)行分類，其分類精度取決于對已知地物類別的了解和訓(xùn)練統(tǒng)計(jì)的精度，也與訓(xùn)練樣本數(shù)量有關(guān).針對最小距離分類法受模式散布影響、分類精度不高的缺點(diǎn)，人們提出了一種自適應(yīng)的最小距離分類法，在訓(xùn)練過程中，將各類樣本集合自適應(yīng)地分解為子集樹，定義待分類點(diǎn)到子集樹的距離作為分類依據(jù)2,這種方法有效地提高了最小距離法的分類正確率和分類速度，效率較高.fisher判別分類也可以通過增加樣本數(shù)量進(jìn)行嚴(yán)密的統(tǒng)計(jì)分類來增加分類精度。非監(jiān)督分類的主要方法動態(tài)聚類.它是按某些原則選擇一些代表點(diǎn)作為聚類的核心，然后將其余待分點(diǎn)按某種方

35、法（判據(jù)準(zhǔn)則）分到各類中去，完成初始分類，之后再重新計(jì)算各聚類中心，把各點(diǎn)按初始分類判據(jù)重新分到各類，完成第一次迭代.然后修改聚類中心進(jìn)行下一次迭代，對上次分類結(jié)果進(jìn)行修改，如此反復(fù)直到滿意為止.動態(tài)聚類的方法是目前非監(jiān)督分類中比較先進(jìn)、也較為常用的方法.典型的聚類過程包括以下幾步：選定初始集群中心；用一判據(jù)準(zhǔn)則進(jìn)行分類；循環(huán)式的檢查和修改；輸出分類結(jié)果.聚類的方法主要有基于最鄰近規(guī)則的試探法、k-means均值算法、迭代自組織的數(shù)據(jù)分析法（isodata）等.其中比較成熟的是k-means和isodata算法，它們較之其他分類方法的優(yōu)點(diǎn)是把分析判別的統(tǒng)計(jì)聚類算法和簡單多光譜分類融合在一起，使

36、聚類更準(zhǔn)確、客觀.但這些傳統(tǒng)的建立在統(tǒng)計(jì)方法之上的分類法存在著一定的缺點(diǎn)：很難確定初始化條件；很難確定全局最優(yōu)分類中心和類別個(gè)數(shù)；很難融合地學(xué)專家知識.基于尺度空間的分層聚類方法（sshc）是一種以熱力學(xué)非線性動力機(jī)制為理論基礎(chǔ)的新型聚類算法10,它與傳統(tǒng)聚類算法相比最大的優(yōu)點(diǎn)是其樣本空間可服從自由分布，可獲取最優(yōu)聚類中心點(diǎn)及類別，可在聚類過程中融合后驗(yàn)知識，有更多的靈活性和實(shí)用性.模糊聚類法.模糊分類根據(jù)是否需要先驗(yàn)知識也可以分為監(jiān)督分類和非監(jiān)督分類.事實(shí)上,由于遙感影像的復(fù)雜性和不精確性等特點(diǎn)，預(yù)先很難獲得所有有代表性樣本的各類別的精確含量，因此很多情況下用純粹的監(jiān)督方法作模糊分類并不現(xiàn)實(shí)

37、.模糊聚類屬于非監(jiān)督分類的一種，它根據(jù)樣本間的統(tǒng)計(jì)量的相似程度作為模糊隸屬度，在無預(yù)知類別的前提下對數(shù)據(jù)集中各點(diǎn)作含量劃分.模糊聚類算法有多種，如基于模糊等價(jià)關(guān)系的模糊聚類分析法、基于最大模糊支撐樹的模糊聚類分析法等11,最典型的模糊聚類法是模糊迭代自組織的數(shù)據(jù)分析法fussy-isodata.但純粹的非監(jiān)督分類對影像一無所知的情況下進(jìn)行所得到的結(jié)果往往與實(shí)際特征存在一定的差異，因此聚類結(jié)果的精度并不一定能夠滿足實(shí)際應(yīng)用的要求，還需要地學(xué)知識的輔助，也就是部分監(jiān)督的fussy-isodata聚類.系統(tǒng)聚類.這種方法是將影像中每個(gè)像元各自看作一類，計(jì)算各類間均值的相關(guān)系數(shù)矩陣，從中選擇最相關(guān)的兩

38、類進(jìn)行合并形成新類，并重新計(jì)算各新類間的相關(guān)系數(shù)矩陣，再將最相關(guān)的兩類合并，這樣繼續(xù)下去，按照逐步結(jié)合的方法進(jìn)行類與類之間的合并.直到各個(gè)新類間的相關(guān)系數(shù)小于某個(gè)給定的閾值為止.分裂法.又稱等混合距離分類法，它與系統(tǒng)聚類的方法相反，在開始時(shí)將所有像元看成一類，求出各變量的均值和均方差，按照一定公式計(jì)算分裂后兩類的中心，再算出各像元到這兩類中心的聚類，將像元?dú)w并到距離最近的那一類去，形成兩個(gè)新類.然后再對各個(gè)新類進(jìn)行分類，只要有一個(gè)波段的均方差大于規(guī)定的閾值，新類就要分裂.遙感影像的監(jiān)督分類是在已知類別的訓(xùn)練場地上提取各類別訓(xùn)練樣本，通過選擇特征變量、確定判別函數(shù)或判別式把影像中的各個(gè)像元點(diǎn)劃歸

39、到各個(gè)給定類的分類.它的基本思想是：首先根據(jù)類別的先驗(yàn)知識確定判別函數(shù)和相應(yīng)的判別準(zhǔn)則，利用一定數(shù)量的已知類別樣本的觀測值確定判別函數(shù)中的待定參數(shù)，然后將未知類別的樣本的觀測值代入判別函數(shù)，再根據(jù)判別準(zhǔn)則對該樣本的所屬類別做出判定.遙感影像的非監(jiān)督分類也稱為聚類，它是事先無法知道類別的先驗(yàn)知識，在沒有類別先驗(yàn)知識的情況下將所有樣本劃分為若干類別的方法.它的基本思想是事先不知道類別的先驗(yàn)知識，僅根據(jù)地物的光譜特征的相關(guān)性或相似性來進(jìn)行分類，再根據(jù)實(shí)地調(diào)查數(shù)據(jù)比較后確定其類別屬性.遙感影像的監(jiān)督分類和非監(jiān)督分類方法，是影像分類的最基本、最概括的兩種方法.傳統(tǒng)的監(jiān)督分類和非監(jiān)督分類方法雖然各有優(yōu)勢，

40、但是也都存在一定的不足.新方法、新理論、新技術(shù)的引入，為遙感影像分類提供了廣闊的前景，監(jiān)督分類與非監(jiān)督分類的混合使用更是大大的提高了分類的精度.計(jì)算機(jī)技術(shù)對影像分類的促進(jìn)與發(fā)展.計(jì)算機(jī)技術(shù)的引進(jìn)，解決了影像分類中海量數(shù)據(jù)的計(jì)算與管理問題；計(jì)算機(jī)技術(shù)支持下的gis用來輔助影像分類，主要通過四種模式進(jìn)行12:gis數(shù)據(jù)作為影像分析的訓(xùn)練樣本和先驗(yàn)信息；利用gis技術(shù)對研究區(qū)域場景和影像分層分析；gis建立面向?qū)ο蟮挠跋穹诸悾惶崛『屯诰騡is中的知識進(jìn)行專家分析.這些模式促進(jìn)了gis與遙感的結(jié)合，提高了影像分類精確性和準(zhǔn)確性，使得影像分類邁入了新的天地.數(shù)學(xué)方法的引入和模型研究的進(jìn)展為影像分類注入了

41、新的活力.不同的數(shù)學(xué)方法被引用到模型研究上來，為模型研究的發(fā)展提供了廣闊的天地，相應(yīng)地，在遙感影像分類中也產(chǎn)生了大量不同形式的分類模型.如徑向基函數(shù)（rbf）與粗糙理論結(jié)合的基于粗糙理論的rbf網(wǎng)絡(luò)模型應(yīng)用于遙感分類5,對于提供分類精度、增加收斂性都有很好的作用；而基于rbf映射理論的神經(jīng)網(wǎng)絡(luò)模型更是融合了參數(shù)化統(tǒng)計(jì)分布模型和非參數(shù)化線性感知器映射模型的優(yōu)點(diǎn)，不僅學(xué)習(xí)速度快，而且有高度復(fù)雜的映射能力6.又如模糊數(shù)學(xué)理論應(yīng)用于影像分類產(chǎn)生模糊聚類，對影像中混合像元的分類有很好的效果；模糊理論與各種模型結(jié)合，更使得影像分類方法的不斷完善，分類精度不斷提高.人工智能技術(shù)對影像分類的促進(jìn).專家分類系統(tǒng)

42、被用于影像分類中，利用地學(xué)知識和專家系統(tǒng)來輔助遙感影像分類12,大大提高了影像分類和信息提取的精度.人工神經(jīng)網(wǎng)絡(luò)由大量神經(jīng)元相互連接構(gòu)成網(wǎng)絡(luò)結(jié)構(gòu)，通過模擬人腦神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能應(yīng)用于影像分類，具有一定的智能推理能力.同時(shí)，它還引入了動量法和學(xué)習(xí)自適率調(diào)整的策略，并與地學(xué)知識集成，很好的解決了專一的bp神經(jīng)網(wǎng)絡(luò)法分類白缺點(diǎn)和不足，提高了分類效率和分類精度.監(jiān)督分類與非監(jiān)督分類的結(jié)合.由于遙感數(shù)據(jù)的數(shù)據(jù)量大、類別多以及同物異譜和同譜異物現(xiàn)象的存在，用單一的分類方法對影像進(jìn)行分類其精確度往往不能滿足應(yīng)用目的要求.用監(jiān)督分類與非監(jiān)督分類相結(jié)合的方法來對影像進(jìn)行分類，卻常?？梢缘竭_(dá)需要的目的.利用這種

43、方法分類時(shí)首先用監(jiān)督分類法如多層神經(jīng)網(wǎng)絡(luò)的bp算法將遙感圖像概略地劃分為幾個(gè)大類，再用非監(jiān)督分類法如k-means聚類和isodata聚類對第一步已分出的各個(gè)大類進(jìn)行細(xì)分，直到滿足要求為止13.監(jiān)督分類與非監(jiān)督分類的結(jié)合的復(fù)合分類方法，改變了傳統(tǒng)的單一的分類方法對影像進(jìn)行分類的弊端，彌補(bǔ)了其不足，為影像分類開辟了廣闊的前景.篇五：監(jiān)督學(xué)習(xí)一、監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)是指：利用一組已知類別的樣本調(diào)整分類器的參數(shù)，使其達(dá)到所要求性能的過程，也稱為監(jiān)督訓(xùn)練或有教師學(xué)習(xí)。監(jiān)督學(xué)習(xí)是從標(biāo)記的訓(xùn)練數(shù)據(jù)來推斷一個(gè)功能的機(jī)器學(xué)習(xí)任務(wù)。訓(xùn)練數(shù)據(jù)包括一套訓(xùn)練示例。在監(jiān)督學(xué)習(xí)中，每個(gè)實(shí)例都是由一個(gè)輸入對象（通常為矢量）和一個(gè)期望的輸出值（也稱為監(jiān)督信號）組成。監(jiān)督學(xué)習(xí)算法是分析該訓(xùn)練數(shù)據(jù)，并產(chǎn)生一個(gè)推斷的功能，其可以用于映射出新的實(shí)例。一個(gè)最佳的方案將允許該算法來正確地決定那些看不見的實(shí)例的類標(biāo)簽。這就要求學(xué)習(xí)算法是在一種合理的方式從一種從訓(xùn)練數(shù)據(jù)到

人人文庫> 全部分類> 應(yīng)用文書 > 作業(yè)報(bào)告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

有監(jiān)督學(xué)習(xí)方法

文檔簡介

溫馨提示

最新文檔

評論

有監(jiān)督學(xué)習(xí)方法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔