有監(jiān)督學(xué)習(xí)方法_第1頁
有監(jiān)督學(xué)習(xí)方法_第2頁
有監(jiān)督學(xué)習(xí)方法_第3頁
有監(jiān)督學(xué)習(xí)方法_第4頁
有監(jiān)督學(xué)習(xí)方法_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、非監(jiān)督學(xué)習(xí)法本章重點(diǎn)1, 什么叫非監(jiān)督學(xué)習(xí)方法,什么叫有監(jiān)督學(xué)習(xí)方法?2, 非監(jiān)督學(xué)習(xí)方法主要的用途3, 非監(jiān)督學(xué)習(xí)方法的兩種基本處理方法:按分布密集程度劃分,與按相似度聚類劃分4, 按分布密度程度劃分的基本方法5, 動態(tài)聚類方法與分級聚類方法的概念6, 典型的動態(tài)聚類方法c-均值算法與isodata算法7, 使用非歐氏距離計(jì)算相似度的動態(tài)聚類方法8, 分級聚類方法本章課前思考題1, 如果給機(jī)器一維數(shù)據(jù),機(jī)器能自動地找出其中存在的規(guī)律嗎?2, 有人把非監(jiān)督學(xué)習(xí)方法叫無教師的學(xué)習(xí),而把第二章、第三章討論的內(nèi)容成為有監(jiān)督學(xué)習(xí),又稱有教師的學(xué)習(xí),你知道誰是教師嗎?教師的作用體現(xiàn)在哪里?3, 機(jī)器能總

2、結(jié)數(shù)據(jù)中存在的哪些規(guī)律呢?4, 機(jī)器能總結(jié)天氣變化的規(guī)律,給出天氣預(yù)報(bào)嗎?5, 機(jī)器能炒股嗎?6, 非監(jiān)督學(xué)習(xí)方法與數(shù)據(jù)有關(guān)系嗎?知識樹5.1引言以前各章討論的分類器設(shè)計(jì)方法都是在樣本集中的類別標(biāo)簽已知的條件下進(jìn)行的,這些樣本稱為訓(xùn)練樣本。在樣本標(biāo)簽已知的情況下,可以統(tǒng)計(jì)出各類訓(xùn)練樣本不同的描述量,如其概率分布,或在特征空間分布的區(qū)域等,利用這些參數(shù)進(jìn)行分類器設(shè)計(jì),稱為有監(jiān)督的學(xué)習(xí)方法。然而在實(shí)際應(yīng)用中,不少情況下無法預(yù)先知道樣本的標(biāo)簽,也就是說沒有訓(xùn)練樣本,因而只能從原先沒有樣本標(biāo)簽的樣本集開始進(jìn)行分類器設(shè)計(jì),這就是通常說的無監(jiān)督學(xué)習(xí)方法。對一個(gè)具體問題來說有監(jiān)督與無監(jiān)督的作法是不相同的。人

3、們?nèi)粘I钪薪?jīng)常要觀察事物與分析事物,從中尋找其規(guī)律性,這就是非監(jiān)督學(xué)習(xí)方法要解決的問題。例如人們見到圖5.1的道路圖時(shí),會發(fā)現(xiàn)中間有一條帶與圖中其它區(qū)域不同,見到圖5.3會發(fā)現(xiàn)在這個(gè)二維空間中有數(shù)據(jù)顯現(xiàn)出聚成兩類的現(xiàn)象。這就是事物(對我們來說就是數(shù)據(jù)集)自身體現(xiàn)出的一些規(guī)律性,非監(jiān)督學(xué)習(xí)方法就是尋找數(shù)據(jù)集中體現(xiàn)出來的規(guī)律性。從中我們可以強(qiáng)調(diào)非監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)方法的以下幾種不同點(diǎn):1 .有監(jiān)督學(xué)習(xí)方法必須要有訓(xùn)練集與測試樣本。在訓(xùn)練集中找規(guī)律,而對測試樣本使用這種規(guī)律;而非監(jiān)督學(xué)習(xí)沒有訓(xùn)練集這一說,只有一組數(shù)據(jù),在該組數(shù)據(jù)集內(nèi)尋找規(guī)律。2 .有監(jiān)督學(xué)習(xí)方法的目的就是識別事物,識別的結(jié)果表現(xiàn)

4、在給待識別數(shù)據(jù)加上了標(biāo)號。因此訓(xùn)練樣本集必須由帶標(biāo)號的樣本組成。而非監(jiān)督學(xué)習(xí)方法只有要分析的數(shù)據(jù)集本身,預(yù)先沒有什么標(biāo)號。如果發(fā)現(xiàn)數(shù)據(jù)集呈現(xiàn)某種聚集性,則可按自然的聚集性分類,但不以與某種預(yù)先的分類標(biāo)號對上號為目的。例如圖1 .1道路圖像,有監(jiān)督學(xué)習(xí)方法的目的是找到“道路”,而非監(jiān)督學(xué)習(xí)方法則只是將中間一條帶狀區(qū)域區(qū)分開來,本質(zhì)上講與“道路”這個(gè)標(biāo)號沒有關(guān)系。3 .非監(jiān)督學(xué)習(xí)方法在尋找數(shù)據(jù)集中的規(guī)律性,這種規(guī)律性并不一定要達(dá)到劃分?jǐn)?shù)據(jù)集的目的,也就是說不一定要“分類”。這一點(diǎn)是比有監(jiān)督學(xué)習(xí)方法的用途要廣泛。譬如分析一堆數(shù)據(jù)的主分量,或分析數(shù)據(jù)集有什么特點(diǎn)都可以歸于非監(jiān)督學(xué)習(xí)方法的范疇。4 .用

5、非監(jiān)督學(xué)習(xí)方法分析數(shù)據(jù)集的主分量與用k-l變換計(jì)算數(shù)據(jù)集的主分量又有區(qū)別。應(yīng)該說后者從方法上講不是一種學(xué)習(xí)方法。因此用k-l變換找主分量不屬于非監(jiān)督學(xué)習(xí)方法,即方法上不是。而通過學(xué)習(xí)逐漸找到規(guī)律性這體現(xiàn)了學(xué)習(xí)方法這一點(diǎn)。在人工神經(jīng)元網(wǎng)絡(luò)中尋找主分量的方法屬于非監(jiān)督學(xué)習(xí)方法。以上四點(diǎn)是對非監(jiān)督學(xué)習(xí)方法的定義,及與有監(jiān)督學(xué)習(xí)方法的區(qū)別。例如圖5.1表示對一幅道路圖像按路面與非路面分類可用兩種不同做法,其中左圖是在圖像中路面區(qū)與非路面中各找一個(gè)窗口,將其中每個(gè)象素分別作為這兩類的訓(xùn)練樣本集,用這兩個(gè)樣本集在特征空間的分布參數(shù)進(jìn)行設(shè)計(jì)。而無監(jiān)督學(xué)習(xí)方法則不同,它不預(yù)先選擇樣本類別的樣本集,而是將整幅圖

6、的像素都作為待分類樣本集,通過它們在特征空間中表現(xiàn)出來的聚類現(xiàn)象,把不同類別劃分開。圖5.1的有監(jiān)督學(xué)習(xí)中,樣本集分布呈現(xiàn)交迭情況,而無監(jiān)督學(xué)習(xí)方法由于沒有類別樣本指導(dǎo),無法確定它們的交迭情況,只能按分布的聚類情況進(jìn)行劃分。在類似于該例的實(shí)際應(yīng)用問題中,預(yù)先選定不同類別的樣本往往不可能,如時(shí)間不允許,或無法用人工干予等因素。另外在某些有監(jiān)督學(xué)習(xí)方法中,也往往需要利用聚類方法將樣本按其分布劃分成若干子類等。聚類方法就是無監(jiān)督學(xué)習(xí)方法的一個(gè)內(nèi)容,它是經(jīng)常應(yīng)用的一門技術(shù)。圖5.1無監(jiān)督學(xué)習(xí)方法可以分成兩大類,一類為基于概率密度函數(shù)估計(jì)的直接方法,指設(shè)法找到各類別在特征空間的分布參數(shù)再進(jìn)行分類。另一類

7、稱為基于樣本間相似性度量的間接聚類方法,其原理是設(shè)法定出不同類別的核心或初始類核,然后依據(jù)樣本與這些核心之間的相似性度量將樣本聚集成不同類別。下面分別討論這兩種方法。最常用的基于概率密度估計(jì)的直接方法的例子是直方圖方法。例如我們統(tǒng)計(jì)一所學(xué)校中學(xué)生身高分布就往往可采用直方圖方法,把身高劃分成一段段,如1米到1米75算一段,然后對每一段統(tǒng)計(jì)身高在此范圍內(nèi)的學(xué)生數(shù),得到直方圖。如果這個(gè)學(xué)校的男女學(xué)生數(shù)目相近,則我們就會發(fā)現(xiàn)該直方圖會體現(xiàn)出有兩個(gè)分布高峰。那么找到兩高峰中的谷點(diǎn),就會將學(xué)生劃分成兩類。因此,使用概率統(tǒng)計(jì)方法的關(guān)鍵是能找出各個(gè)峰值區(qū),這就是5.2節(jié)中的主要內(nèi)容。另一種方法則在5.3節(jié)中再

8、進(jìn)一步討論。5.2單峰子類的分離方法對于樣本在某一種度量中的分布統(tǒng)計(jì),一般稱為直方圖統(tǒng)計(jì),在樣本數(shù)量很大時(shí),又可作為概率統(tǒng)計(jì)的估計(jì)。由于這種方法基于將樣本投影到某個(gè)坐標(biāo)軸上,因而稱為投影方法。使用投影方法有兩個(gè)組成部分,一個(gè)是如何設(shè)計(jì)合適的坐標(biāo)系統(tǒng),另一是如何設(shè)計(jì)直方圖。如果對于各類別的類條件概率分布一無所知,我們只按待分類樣本在特征空間的自然聚集進(jìn)行劃分。如圖5.2所示的一維特征空間中,樣本在整個(gè)特征空間中呈現(xiàn)出兩個(gè)分布高峰,如果從分布的谷點(diǎn)將此特征空間劃分為兩個(gè)區(qū),則對應(yīng)每個(gè)區(qū)域,樣本分布就只有一個(gè)峰值,這些區(qū)域被稱為單峰區(qū)域,而每個(gè)單峰區(qū)域則被看作不同的決策域。落在同一單峰區(qū)域的待分類樣

9、本就被劃分成同一類,稱為單峰子類。下面討論一些單峰子類的劃分算法。圖5.25.2.1 投影法投影法的原理很簡單,拿圖5.3顯示的一個(gè)二維空間為例。在該分類問題中,兩個(gè)類別分別在其特征空間中形成兩個(gè)聚類,圖中用兩個(gè)區(qū)域的輪廓勾出這兩類樣本聚類的區(qū)域。對人來說一旦畫出這兩類的空間分布,可以很容易地判斷出這兩類在特征空間聚集的區(qū)域,但是對計(jì)算機(jī)來說,要識別出這兩類的分布情況,直接從二維的圖形來說是很困難的,更不用說在高維特征空間直接對樣本的分布作出判斷了。一個(gè)辦法是如果將樣本對某個(gè)方向的軸作投影,或換句話說只取這些樣本的某一分量的統(tǒng)計(jì)值來看,樣本的分布往往顯現(xiàn)出高峰與低谷,找到低谷,將峰值分別劃分在

10、不同的區(qū)域中,每個(gè)區(qū)域只有一個(gè)高峰,并把聚在同一高峰下的樣本劃分為一類,這是計(jì)算機(jī)容易做到的。對于樣本在某一種度量中的分布統(tǒng)計(jì),一般稱為直方圖統(tǒng)計(jì),在樣本數(shù)量很大時(shí),又可作為概率統(tǒng)計(jì)的估計(jì)。由于這種方法基于將樣本投影到某個(gè)坐標(biāo)軸上,因而稱為投影方法。圖5.3使用投影方法有兩個(gè)組成部分,一個(gè)是如何設(shè)計(jì)合適的坐標(biāo)系統(tǒng),另一是如何設(shè)計(jì)直方圖。在樣本屬性完全不知的情況下,如何選擇坐標(biāo)系統(tǒng),是比較困難的,因?yàn)檫@時(shí)還沒有一個(gè)準(zhǔn)則函數(shù)來表征這樣一個(gè)坐標(biāo)系統(tǒng)的性質(zhì)。一種啟發(fā)式的辦法是使待分類的樣本在某個(gè)坐標(biāo)軸方向具有最大的分散性,這可以采用上一章討論過的k-l變換方法。具體說來是用混合樣本協(xié)方差矩陣作為k-l

11、變換的產(chǎn)生矩陣,找到其特征值,并按大小排序,對應(yīng)最大特征值的特征向量對此混合樣本來說,離散程度最大,預(yù)期能發(fā)現(xiàn)明顯的峰值,但是這種方法并不能保證分出各個(gè)聚類,例如圖5.4所示情況,其兩個(gè)特征向量都只呈現(xiàn)單峰狀態(tài),無法用此法將他們分開。圖5.4投影法的具體算法分以下幾個(gè)步驟:步驟1:計(jì)算樣本協(xié)方差矩陣具有最大特征值的特征向量uj,把數(shù)據(jù)投影至ijuj軸上。步驟2:用直方圖方法求數(shù)據(jù)的邊緣概率密度函數(shù)。步驟3:在直方圖的峰值間求最小值,在這些最小點(diǎn)作垂直于uj的各個(gè)超平面把數(shù)據(jù)劃分為若干個(gè)聚類。步驟4:如果在這個(gè)軸上沒有這樣的最小值,則用下一個(gè)最大特征值對應(yīng)的特征向量重復(fù)以上過程。步驟5:對每個(gè)得

12、到的子集(聚類)重復(fù)上述過程,直到每個(gè)集不能再分(為單峰)為止。5.2.2 基于對稱集性質(zhì)的單峰子集分離法不要求在一個(gè)多維空間中給單峰區(qū)域下嚴(yán)格的定義是困難的。譬如一個(gè)單峰區(qū)域的數(shù)據(jù)集用?表示,峰值在處形成,則可寫在(5-1)但是僅滿足(5-1)式的區(qū)域并不能保證是單峰區(qū)。另一方面,如果考慮數(shù)據(jù)丫,其中任何一對點(diǎn)y1和y2之間的距離用式的性質(zhì)外,還具有以下性質(zhì):表示,該數(shù)據(jù)集丫除了具備(5-1)篇二:有監(jiān)督學(xué)習(xí)(supervisedlearning)和無監(jiān)督學(xué)習(xí)(unsupervisedlearning)有監(jiān)督學(xué)習(xí)(supervisedlearning)和無監(jiān)督學(xué)習(xí)(unsupervisedl

13、earning)機(jī)器學(xué)習(xí)的常用方法,主要分為有監(jiān)督學(xué)習(xí)(supervisedlearning)和無監(jiān)督學(xué)習(xí)(unsupervisedlearning)。監(jiān)督學(xué)習(xí),就是人們常說的分類,通過已有的訓(xùn)練樣本(即已知數(shù)據(jù)以及其對應(yīng)的輸出)去訓(xùn)練得到一個(gè)最優(yōu)模型(這個(gè)模型屬于某個(gè)函數(shù)的集合,最優(yōu)則表示在某個(gè)評價(jià)準(zhǔn)則下是最佳的),再利用這個(gè)模型將所有的輸入映射為相應(yīng)的輸出,對輸出進(jìn)行簡單的判斷從而實(shí)現(xiàn)分類的目的,也就具有了對未知數(shù)據(jù)進(jìn)行分類的能力。在人對事物的認(rèn)識中,我們從孩子開始就被大人們教授這是鳥啊、那是豬啊、那是房子啊,等等。我們所見到的景物就是輸入數(shù)據(jù),而大人們對這些景物的判斷結(jié)果(是房子還是鳥啊

14、)就是相應(yīng)的輸出。當(dāng)我們見識多了以后,腦子里就慢慢地得到了一些泛化的模型,這就是訓(xùn)練得到的那個(gè)(或者那些)函數(shù),從而不需要大人在旁邊指點(diǎn)的時(shí)候,我們也能分辨的出來哪些是房子,哪些是鳥。監(jiān)督學(xué)習(xí)里典型的例子就是knn、svmi無監(jiān)督學(xué)習(xí)(也有人叫非監(jiān)督學(xué)習(xí),反正都差不多)則是另一種研究的比較多的學(xué)習(xí)方法,它與監(jiān)督學(xué)習(xí)的不同之處,在于我們事先沒有任何訓(xùn)練樣本,而需要直接對數(shù)據(jù)進(jìn)行建模。這聽起來似乎有點(diǎn)不可思議,但是在我們自身認(rèn)識世界的過程中很多處都用到了無監(jiān)督學(xué)習(xí)。比如我們?nèi)⒂^一個(gè)畫展,我們完全對藝術(shù)一無所知,但是欣賞完多幅作品之后,我們也能把它們分成不同的派別(比如哪些更朦朧一點(diǎn),哪些更寫實(shí)一

15、些,即使我們不知道什么叫做朦朧派,什么叫做寫實(shí)派,但是至少我們能把他們分為兩個(gè)類)。無監(jiān)督學(xué)習(xí)里典型的例子就是聚類了。聚類的目的在于把相似的東西聚在一起,而我們并不關(guān)心這一類是什么。因此,一個(gè)聚類算法通常只需要知道如何計(jì)算相似度就可以開始工作了。那么,什么時(shí)候應(yīng)該采用監(jiān)督學(xué)習(xí),什么時(shí)候應(yīng)該采用非監(jiān)督學(xué)習(xí)呢?我也是從一次面試的過程中被問到這個(gè)問題以后才開始認(rèn)真地考慮答案。一種非常簡單的回答就是從定義入手,如果我們在分類的過程中有訓(xùn)練樣本(trainingdata),則可以考慮用監(jiān)督學(xué)習(xí)的方法;如果沒有訓(xùn)練樣本,則不可能用監(jiān)督學(xué)習(xí)的方法。但是事實(shí)上,我們在針對一個(gè)現(xiàn)實(shí)問題進(jìn)行解答的過程中,即使我們

16、沒有現(xiàn)成的訓(xùn)練樣本,我們也能夠憑借自己的雙眼,從待分類的數(shù)據(jù)中人工標(biāo)注一些樣本,并把他們作為訓(xùn)練樣本,這樣的話就可以把條件改善,用監(jiān)督學(xué)習(xí)的方法來做。當(dāng)然不得不說的是有時(shí)候數(shù)據(jù)表達(dá)的會非常隱蔽,也就是說我們手頭的信息不是抽象的形式,而是具體的一大堆數(shù)字,這樣我們很難憑借人本身對它們簡單地進(jìn)行分類。這個(gè)說的好像有點(diǎn)不大明白,舉個(gè)例子說就是在bag-of-words模型的時(shí)候,我們利用k-means的方法聚類從而對數(shù)據(jù)投影,這時(shí)候用k-means就是因?yàn)槲覀儺?dāng)前到手的只有一大堆數(shù)據(jù),而且是很高維的,當(dāng)我們想把他們分為50個(gè)類的時(shí)候,我們已經(jīng)無力將每個(gè)數(shù)據(jù)標(biāo)記說這個(gè)數(shù)應(yīng)該是哪個(gè)類,那個(gè)數(shù)又應(yīng)該是哪個(gè)

17、類了。所以說遇到這種情況也只有無監(jiān)督學(xué)習(xí)能夠幫助我們了。那么這么說來,能不能再深入地問下去,如果有訓(xùn)練樣本(或者說如果我們可以獲得到一些訓(xùn)練數(shù)據(jù)的話),監(jiān)督學(xué)習(xí)就會比無監(jiān)督學(xué)習(xí)更合適呢?(照我們單純地想,有高人教總比自己領(lǐng)悟來的準(zhǔn),來的快吧!)我覺得一般來說,是這樣的,但是這要具體看看訓(xùn)練數(shù)據(jù)的獲取。本人在最近課題的研究中,手動標(biāo)注了大量的訓(xùn)練樣本(當(dāng)然這些樣本基本準(zhǔn)確了),而且把樣本畫在特征空間中發(fā)現(xiàn)線性可分性非常好,只是在分類面附近總有一些混淆的數(shù)據(jù)樣本,從而用線性分類器進(jìn)行分類之后這樣樣本會被誤判。然而,如果用混合高斯模型(gmm)來分的話,這些易混淆的點(diǎn)被正確分類的更多了。對這個(gè)現(xiàn)象的

18、一個(gè)解釋,就是不管是訓(xùn)練樣本,還是待聚類的數(shù)據(jù),并不是所有數(shù)據(jù)都是相互獨(dú)立同分布的。換句話說,數(shù)據(jù)與數(shù)據(jù)的分布之間存在聯(lián)系。在我閱讀監(jiān)督學(xué)習(xí)的大量材料中,大家都沒有對訓(xùn)練數(shù)據(jù)的這一假設(shè)(獨(dú)立同分布)進(jìn)行說明,直到我閱讀到一本書的提示后才恍然大悟。對于不同的場景,正負(fù)樣本的分布如果會存在偏移(可能是大的偏移,也可能偏移比較小),這樣的話用監(jiān)督學(xué)習(xí)的效果可能就不如用非監(jiān)督學(xué)習(xí)了。篇三:監(jiān)督學(xué)習(xí)算法基礎(chǔ)知識整理第三章監(jiān)督學(xué)習(xí)算法監(jiān)督學(xué)習(xí)又稱為分類(classification)或者歸納學(xué)習(xí)(inductivelearning)。幾乎適用于所有領(lǐng)域,包括文本和網(wǎng)頁處理。給出一個(gè)數(shù)據(jù)集d,機(jī)器學(xué)習(xí)的目標(biāo)

19、就是產(chǎn)生一個(gè)聯(lián)系屬性值集合a和類標(biāo)集合c的分類/預(yù)測函數(shù)(classification/predictionfunction),這個(gè)函數(shù)可以用于預(yù)測新的屬性集合的類標(biāo)。這個(gè)函數(shù)又被稱為分類模型(classificationmodel)預(yù)測模型(predictionmodel)。這個(gè)分類模型可以是任何形式的,例如決策樹、規(guī)則集、貝葉斯模型或者一個(gè)超平面。在監(jiān)督學(xué)習(xí)(supervisedlearning)中,已經(jīng)有數(shù)據(jù)給出了類標(biāo);與這一方式相對的是無監(jiān)督學(xué)習(xí)(unsupervisedlearning),在這種方式中,所有的類屬性都是未知的,算法需要根據(jù)數(shù)據(jù)集的特征自動產(chǎn)生類屬性。其中算法中用于進(jìn)行

20、學(xué)習(xí)的數(shù)據(jù)集叫做訓(xùn)練數(shù)據(jù)集,當(dāng)使用學(xué)習(xí)算法用訓(xùn)練數(shù)據(jù)集學(xué)習(xí)得到一個(gè)模型以后,我們使用測試數(shù)據(jù)集來評測這個(gè)模型的精準(zhǔn)度。機(jī)器學(xué)習(xí)的最基本假設(shè):訓(xùn)練數(shù)據(jù)的分布應(yīng)該與測試數(shù)據(jù)的分布一致。訓(xùn)練算法:訓(xùn)練算法就是給定一組樣本,我們計(jì)算這些參數(shù)的方法。本節(jié)簡要介紹以下幾種常用的機(jī)器學(xué)習(xí)算法,比如決策樹,樸素貝葉斯,神經(jīng)網(wǎng)絡(luò),支持向量機(jī),線性最小平方擬合,knn,最大嫡等。3.1 兩類感知器見課本3.2 多類感知器見課本3.3 決策樹算法決策樹學(xué)習(xí)算法是分類算法中最廣泛應(yīng)用的一種技術(shù),這種算法的分類精度與其他算法相比具有相當(dāng)?shù)母偁幜?,并且十分高效。決策樹是一個(gè)預(yù)測模型;他代表的是對象屬性與對象值之間的一種映

21、射關(guān)系。樹中每個(gè)節(jié)點(diǎn)表示某個(gè)對象屬性,而每個(gè)分叉路徑則代表的某個(gè)可能的屬性值,而每個(gè)葉結(jié)點(diǎn)則對應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對象的值(類別)。決策樹僅有單一輸出,若欲有復(fù)數(shù)輸出,可以建立獨(dú)立的決策樹以處理不同輸出。如何構(gòu)造精度高、規(guī)模小的決策樹是決策樹算法的核心內(nèi)容。決策樹構(gòu)造可以分兩步進(jìn)行。決策樹的生成:由訓(xùn)練樣本集生成決策樹的過程。一般情況下,訓(xùn)練樣本數(shù)據(jù)集是根據(jù)實(shí)際需要有歷史的、有一定綜合程度的,用于數(shù)據(jù)分析處理的數(shù)據(jù)集。1. 樹以代表訓(xùn)練樣本的單個(gè)結(jié)點(diǎn)開始。2. 如果樣本都在同一個(gè)類.則該結(jié)點(diǎn)成為樹葉,并用該類標(biāo)記。3. 否則,算法選擇最有分類能力的屬性作為決策樹的當(dāng)前結(jié)點(diǎn)。

22、4. 根據(jù)當(dāng)前決策結(jié)點(diǎn)屬性取值的不同,將訓(xùn)練樣本數(shù)據(jù)集分為若干子集,每個(gè)取值形成一個(gè)分枝。5. 針對上一步得到的一個(gè)子集,重復(fù)進(jìn)行先前步驟,形成每個(gè)劃分樣本上的決策樹。6. 遞歸劃分步驟僅當(dāng)下列條件之一成立時(shí)停止:(a) 給定結(jié)點(diǎn)的所有樣本屬于同一類。(b) 沒有剩余屬性可以用來進(jìn)一步劃分樣本。以樣本組中個(gè)數(shù)最多的類別作為類別標(biāo)記。決策樹的剪技:決策樹的剪枝是對上一階段生成的決策樹進(jìn)行檢驗(yàn)、校正和修下的過程,主要是用新的樣本數(shù)扼集(稱為測試數(shù)據(jù)集)中的數(shù)據(jù)校驗(yàn)決策樹生成過程中產(chǎn)生的初步規(guī)則,將那些影響預(yù)衡準(zhǔn)確性的分枝剪除。由于數(shù)據(jù)表示不當(dāng)、有噪聲或者由于決策樹生成時(shí)產(chǎn)生重復(fù)的子樹等原因,都會造

23、成產(chǎn)生的決策樹過大。因此,簡化決策樹是一個(gè)不可缺少的環(huán)節(jié)。尋找一棵最優(yōu)決策樹,主要應(yīng)解決以下3個(gè)最優(yōu)化問題:1. 生成最少數(shù)目的葉子節(jié)點(diǎn);2. 生成的每個(gè)葉子節(jié)點(diǎn)的深度最小;3. 生成的決策樹葉子節(jié)點(diǎn)最少且每個(gè)葉子節(jié)點(diǎn)的深度最小。例如,對于表3-1所示的貸款申請的數(shù)據(jù)集,可以學(xué)習(xí)到一種決策樹結(jié)構(gòu),表示為圖3-1。表3-1貸款申請數(shù)據(jù)根據(jù)數(shù)據(jù)集建立的一種決策樹結(jié)構(gòu)如下:圖3-1對應(yīng)與表3-1的決策樹樹中包含了決策點(diǎn)和葉子節(jié)點(diǎn),決策點(diǎn)包含針對數(shù)據(jù)實(shí)例某個(gè)屬性的一些測試,而一個(gè)葉子節(jié)點(diǎn)則代表了一個(gè)類標(biāo)。一棵決策樹的構(gòu)建過程是不斷的分隔訓(xùn)練數(shù)據(jù),以使得最終分隔所得到的各個(gè)子集盡可能的純。一個(gè)純的子集中

24、的數(shù)據(jù)實(shí)例類標(biāo)全部一致。決策樹的建立并不是唯一的,在實(shí)際中,我們希望得到一棵盡量小且準(zhǔn)確的決策樹。決策樹的典型算法有id3,c4.5,cart(分類與回歸樹)等。依次得到改進(jìn)。相對于其它算法,決策樹易于理解和實(shí)現(xiàn),人們在通過解釋后都有能力去理解決策樹所表達(dá)的意義。決策樹可以同時(shí)處理不同類型的屬性,并且在相對短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。3.4貝葉斯分類算法貝葉斯分類器的分類原理是通過某對象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對象所屬的類。目前研究較多的貝葉斯分類器主要有四種,分別是:naivebayes、ta

25、n、ban和gbn。準(zhǔn)備知識條件概率:設(shè)a,b是兩個(gè)事件,且pr(a)?0稱pr(b|a)?發(fā)生的條件事件b發(fā)生的條件概率。乘法公式:設(shè)pr(a)?0則有pr(ab)?pr(b|a)pr(a)全概率公式:設(shè)隨機(jī)事件a1,a2,.,an以及b滿足:(1)a1,a2,an兩兩互不相容;?an?s或者b?an;(3)pr(a)?0(n=1,2,),則有n?1n?1?pr(ab)為在條件a下pr(a)pr(b)?pr(an)pr(b|an),稱為全概率公式。n?1?全概率公式的應(yīng)用:把事件b看作是某一個(gè)過程的結(jié)果,把a(bǔ)1,a2,an看作該過程的若干個(gè)原因,根據(jù)歷史資料,每個(gè)原因發(fā)生的概率已知(即pr(

26、ai)已知),且每一個(gè)原因?qū)Y(jié)果的影響已知(即pr(b|ai)已知)則可用全概率公式計(jì)算結(jié)果發(fā)生的概率,即求pr(b)。貝葉斯公式:設(shè)隨機(jī)事件a1,a2,an以及b滿足:(1)a1,a2,an兩兩互不相容;(2)pra(nb)?prb()?an?1?n?s或者b?an;(3)pr(a)?0(n=1,2,),貝Un?1pra(nb|?)pbr(an|(?prbn?1a|ja)p)nr(,稱為貝葉斯公式。)par)j(貝葉斯公式的使用:把事件b看作某一過程的結(jié)果,把a(bǔ)1,a2,an看作該過程的若干原因,根據(jù)歷史資料,每一原因發(fā)生的概率已知(即pr(an)已知),如果已知事件b已經(jīng)發(fā)生,要求此時(shí)是由

27、第i個(gè)原因引起的概率,用貝葉斯公式(即求pr(ai|b)。樸素貝葉斯(naivebayes,nb)算法在貝葉斯分類中,在數(shù)據(jù)集合d中,令a1,a2,an為用離散值表示的屬性集合,設(shè)c具有|c|個(gè)不同值的類別屬性,即c1,c2,c|c|,我們設(shè)所有的屬性都是條件獨(dú)立于類別,給定一個(gè)測試樣例d,觀察到屬性值a1到a|a|,其中ai是ai可能的一個(gè)取值,那么預(yù)測彳1就是類別cj,使得pr(c=cj|a=a1,a|a|=a|a|)最大。cj被稱為最大后驗(yàn)概率假設(shè)。根據(jù)貝葉斯公式,有pr(c?cj)?pr(ai?ai|c?cj)|a|pr(a1?a1,.,a|a|?a|a|c?cj)?pr(c?c)?p

28、r(a?a|c?c)kiikk?1i?1|c|i?1|a|因?yàn)榉帜笇γ恳粋€(gè)訓(xùn)練類別都是一樣的,所以如果僅僅需要總體上最可能的類別為所有測試樣例做預(yù)測,那么只需要上式的分子部分即可。通過下式來判斷最有可能的類別:c?argmaxpr(c?cj)?pr(ai?ai|c?cj)cji?1|a|例如,假設(shè)我們有圖4-1中的訓(xùn)練數(shù)據(jù),有兩個(gè)屬性a和b,還有類別c,對于一個(gè)測試樣例:a=mb=q求c=?圖4-1訓(xùn)練數(shù)據(jù)計(jì)算如下:對于類別為t的概率1222pr(c?t)?pr(aj?aj|c?t)?pr(c?t)?pr(a?m|c?t)?pr(b?q|c?t)?25525j?12類似的,對于類別為f的概率1

29、121pr(c?f)?pr(aj?aj|c?f)?25525j?12因此c=t的可能性較大,因此將此種情況下的類別判斷為t。樸素貝葉斯分類將每篇文檔看作一“袋子”的詞,需要做以下假設(shè),這也是篇四:監(jiān)督分類是需要學(xué)習(xí)訓(xùn)練的分類方法監(jiān)督分類是需要學(xué)習(xí)訓(xùn)練的分類方法,如最大似然分類,人工神經(jīng)網(wǎng)絡(luò)分類,即是需要事先為每類地物在遙感圖像上采集樣本數(shù)據(jù),之后通過學(xué)習(xí)訓(xùn)練過程才來分類;非監(jiān)督分類不需要人工采集地物樣本點(diǎn)數(shù)據(jù),多是通過聚類的方法來自動分類,主要有isodata,k均值等.總體來說,監(jiān)督分類的效果要優(yōu)于非監(jiān)督分類.遙感影像的分類方法按照是否有先驗(yàn)類別可以分為監(jiān)督分類和非監(jiān)督分類,這兩種分類法有著

30、本質(zhì)的區(qū)別但也存在一定的聯(lián)系.監(jiān)督分類的主要方法最大似然判別法.也稱為貝葉斯(bayes)分類,是基于圖像統(tǒng)計(jì)的監(jiān)督分類法,也是典型的和應(yīng)用最廣的監(jiān)督分類方法.它建立在bayes準(zhǔn)則的基礎(chǔ)上,偏重于集群分布的統(tǒng)計(jì)特性,分類原理是假定訓(xùn)練樣本數(shù)據(jù)在光譜空間的分布是服從高斯正態(tài)分布規(guī)律的,做出樣本的概率密度等值線,確定分類,然后通過計(jì)算標(biāo)本(像元)屬于各組(類)的概率,將標(biāo)本歸屬于概率最大的一組.用最大似然法分類,具體分為三步:首先確定各類的訓(xùn)練樣本,再根據(jù)訓(xùn)練樣本計(jì)算各類的統(tǒng)at特征值,建立分類判別函數(shù),最后逐點(diǎn)掃描影像各像元,將像元特征向量代入判別函數(shù),求出其屬于各類的概率,將待判斷像元?dú)w屬于

31、最大判別函數(shù)值的一組.bayes判別分類是建立在bayes決策規(guī)則基礎(chǔ)上的模式識別,它的分類錯誤最小精度最高,是一種最好的分類方法.但是傳統(tǒng)的人工采樣方法由于工作量大,效率低,加上人為誤差的干擾,使得分類結(jié)果的精度較差.利用gis數(shù)據(jù)來輔助bayes分類,可以提高分類精度,再通過建立知識庫,以知識來指導(dǎo)分類的進(jìn)行,可以減少分類錯誤的發(fā)生1,這正是bayes分類的發(fā)展趨勢和提高其分類精度的有效途徑.神經(jīng)元網(wǎng)絡(luò)分類法.是最近發(fā)展起來的一種具有人工智能的分類方法,包才bp神經(jīng)網(wǎng)絡(luò)、kohonen神經(jīng)網(wǎng)絡(luò)、徑向基神經(jīng)網(wǎng)絡(luò)、模糊神經(jīng)網(wǎng)絡(luò)、小波神經(jīng)網(wǎng)絡(luò)等各種神經(jīng)網(wǎng)絡(luò)分類法.bp神經(jīng)網(wǎng)絡(luò)模型(前饋網(wǎng)絡(luò)型)是

32、神經(jīng)網(wǎng)絡(luò)的重要模型之一,也是目前應(yīng)用最廣的神經(jīng)網(wǎng)絡(luò)模型,它由輸入層、隱含層、輸出層三部分組成,所采取的學(xué)習(xí)過程由正向傳播過程和反向傳播過程組成.傳統(tǒng)的bp網(wǎng)絡(luò)模型把一組樣本的輸入/輸出問題作為一個(gè)非線性優(yōu)化問題,它雖然比一般統(tǒng)計(jì)方法要好,但是卻存在學(xué)習(xí)速度慢,不易U斂,效率不高的缺點(diǎn).采用動量法和學(xué)習(xí)率自適應(yīng)調(diào)整的策略,可以提高學(xué)習(xí)效率并增加算法的可靠性3.模糊分類法.由于現(xiàn)實(shí)世界中眾多的自然或半自然現(xiàn)象很難明確劃分種類,反映在遙感影像上,也存在一些混合像素問題,并有大量的同譜異物或者同物異譜現(xiàn)象發(fā)生,使得像元的類別難以明確確定.模糊分類方法忽略了監(jiān)督分類的訓(xùn)練過程所存在的模糊性,沿用傳統(tǒng)的方

33、法假定訓(xùn)練樣本由一組可明確定義、歸類,并且具有代表性的目標(biāo)(像素)構(gòu)成.監(jiān)督分類中的模糊分類可以利用神經(jīng)元網(wǎng)絡(luò)所具有的良好學(xué)習(xí)歸納機(jī)制、抗差能力和易于擴(kuò)展成為動態(tài)系統(tǒng)等特點(diǎn),設(shè)計(jì)一個(gè)基于神經(jīng)元網(wǎng)絡(luò)技術(shù)的模糊分類法來實(shí)現(xiàn).模糊神經(jīng)網(wǎng)絡(luò)模型由art發(fā)展到artmap再到fasart、簡化的fasart模型4,使得模糊神經(jīng)網(wǎng)絡(luò)的監(jiān)督分類功能不斷完善、分類精確度不斷增加.最小距離分類法和fisher判別分類法.它們都是基于圖像統(tǒng)計(jì)的常用的監(jiān)督分類法,偏重于幾何位置.最小距離分類法的原則是各像元點(diǎn)劃歸到距離它最近距離的類別中心所在的類,fisher判別分類采用fisher準(zhǔn)則即“組間最大距離”的原則,要

34、求組間距離最大而組內(nèi)的離散性最小,也就是組間均值差異最大而組內(nèi)離差平方和最小.用這兩種分類法進(jìn)行分類,其分類精度取決于對已知地物類別的了解和訓(xùn)練統(tǒng)計(jì)的精度,也與訓(xùn)練樣本數(shù)量有關(guān).針對最小距離分類法受模式散布影響、分類精度不高的缺點(diǎn),人們提出了一種自適應(yīng)的最小距離分類法,在訓(xùn)練過程中,將各類樣本集合自適應(yīng)地分解為子集樹,定義待分類點(diǎn)到子集樹的距離作為分類依據(jù)2,這種方法有效地提高了最小距離法的分類正確率和分類速度,效率較高.fisher判別分類也可以通過增加樣本數(shù)量進(jìn)行嚴(yán)密的統(tǒng)計(jì)分類來增加分類精度。非監(jiān)督分類的主要方法動態(tài)聚類.它是按某些原則選擇一些代表點(diǎn)作為聚類的核心,然后將其余待分點(diǎn)按某種方

35、法(判據(jù)準(zhǔn)則)分到各類中去,完成初始分類,之后再重新計(jì)算各聚類中心,把各點(diǎn)按初始分類判據(jù)重新分到各類,完成第一次迭代.然后修改聚類中心進(jìn)行下一次迭代,對上次分類結(jié)果進(jìn)行修改,如此反復(fù)直到滿意為止.動態(tài)聚類的方法是目前非監(jiān)督分類中比較先進(jìn)、也較為常用的方法.典型的聚類過程包括以下幾步:選定初始集群中心;用一判據(jù)準(zhǔn)則進(jìn)行分類;循環(huán)式的檢查和修改;輸出分類結(jié)果.聚類的方法主要有基于最鄰近規(guī)則的試探法、k-means均值算法、迭代自組織的數(shù)據(jù)分析法(isodata)等.其中比較成熟的是k-means和isodata算法,它們較之其他分類方法的優(yōu)點(diǎn)是把分析判別的統(tǒng)計(jì)聚類算法和簡單多光譜分類融合在一起,使

36、聚類更準(zhǔn)確、客觀.但這些傳統(tǒng)的建立在統(tǒng)計(jì)方法之上的分類法存在著一定的缺點(diǎn):很難確定初始化條件;很難確定全局最優(yōu)分類中心和類別個(gè)數(shù);很難融合地學(xué)專家知識.基于尺度空間的分層聚類方法(sshc)是一種以熱力學(xué)非線性動力機(jī)制為理論基礎(chǔ)的新型聚類算法10,它與傳統(tǒng)聚類算法相比最大的優(yōu)點(diǎn)是其樣本空間可服從自由分布,可獲取最優(yōu)聚類中心點(diǎn)及類別,可在聚類過程中融合后驗(yàn)知識,有更多的靈活性和實(shí)用性.模糊聚類法.模糊分類根據(jù)是否需要先驗(yàn)知識也可以分為監(jiān)督分類和非監(jiān)督分類.事實(shí)上,由于遙感影像的復(fù)雜性和不精確性等特點(diǎn),預(yù)先很難獲得所有有代表性樣本的各類別的精確含量,因此很多情況下用純粹的監(jiān)督方法作模糊分類并不現(xiàn)實(shí)

37、.模糊聚類屬于非監(jiān)督分類的一種,它根據(jù)樣本間的統(tǒng)計(jì)量的相似程度作為模糊隸屬度,在無預(yù)知類別的前提下對數(shù)據(jù)集中各點(diǎn)作含量劃分.模糊聚類算法有多種,如基于模糊等價(jià)關(guān)系的模糊聚類分析法、基于最大模糊支撐樹的模糊聚類分析法等11,最典型的模糊聚類法是模糊迭代自組織的數(shù)據(jù)分析法fussy-isodata.但純粹的非監(jiān)督分類對影像一無所知的情況下進(jìn)行所得到的結(jié)果往往與實(shí)際特征存在一定的差異,因此聚類結(jié)果的精度并不一定能夠滿足實(shí)際應(yīng)用的要求,還需要地學(xué)知識的輔助,也就是部分監(jiān)督的fussy-isodata聚類.系統(tǒng)聚類.這種方法是將影像中每個(gè)像元各自看作一類,計(jì)算各類間均值的相關(guān)系數(shù)矩陣,從中選擇最相關(guān)的兩

38、類進(jìn)行合并形成新類,并重新計(jì)算各新類間的相關(guān)系數(shù)矩陣,再將最相關(guān)的兩類合并,這樣繼續(xù)下去,按照逐步結(jié)合的方法進(jìn)行類與類之間的合并.直到各個(gè)新類間的相關(guān)系數(shù)小于某個(gè)給定的閾值為止.分裂法.又稱等混合距離分類法,它與系統(tǒng)聚類的方法相反,在開始時(shí)將所有像元看成一類,求出各變量的均值和均方差,按照一定公式計(jì)算分裂后兩類的中心,再算出各像元到這兩類中心的聚類,將像元?dú)w并到距離最近的那一類去,形成兩個(gè)新類.然后再對各個(gè)新類進(jìn)行分類,只要有一個(gè)波段的均方差大于規(guī)定的閾值,新類就要分裂.遙感影像的監(jiān)督分類是在已知類別的訓(xùn)練場地上提取各類別訓(xùn)練樣本,通過選擇特征變量、確定判別函數(shù)或判別式把影像中的各個(gè)像元點(diǎn)劃歸

39、到各個(gè)給定類的分類.它的基本思想是:首先根據(jù)類別的先驗(yàn)知識確定判別函數(shù)和相應(yīng)的判別準(zhǔn)則,利用一定數(shù)量的已知類別樣本的觀測值確定判別函數(shù)中的待定參數(shù),然后將未知類別的樣本的觀測值代入判別函數(shù),再根據(jù)判別準(zhǔn)則對該樣本的所屬類別做出判定.遙感影像的非監(jiān)督分類也稱為聚類,它是事先無法知道類別的先驗(yàn)知識,在沒有類別先驗(yàn)知識的情況下將所有樣本劃分為若干類別的方法.它的基本思想是事先不知道類別的先驗(yàn)知識,僅根據(jù)地物的光譜特征的相關(guān)性或相似性來進(jìn)行分類,再根據(jù)實(shí)地調(diào)查數(shù)據(jù)比較后確定其類別屬性.遙感影像的監(jiān)督分類和非監(jiān)督分類方法,是影像分類的最基本、最概括的兩種方法.傳統(tǒng)的監(jiān)督分類和非監(jiān)督分類方法雖然各有優(yōu)勢,

40、但是也都存在一定的不足.新方法、新理論、新技術(shù)的引入,為遙感影像分類提供了廣闊的前景,監(jiān)督分類與非監(jiān)督分類的混合使用更是大大的提高了分類的精度.計(jì)算機(jī)技術(shù)對影像分類的促進(jìn)與發(fā)展.計(jì)算機(jī)技術(shù)的引進(jìn),解決了影像分類中海量數(shù)據(jù)的計(jì)算與管理問題;計(jì)算機(jī)技術(shù)支持下的gis用來輔助影像分類,主要通過四種模式進(jìn)行12:gis數(shù)據(jù)作為影像分析的訓(xùn)練樣本和先驗(yàn)信息;利用gis技術(shù)對研究區(qū)域場景和影像分層分析;gis建立面向?qū)ο蟮挠跋穹诸悾惶崛『屯诰騡is中的知識進(jìn)行專家分析.這些模式促進(jìn)了gis與遙感的結(jié)合,提高了影像分類精確性和準(zhǔn)確性,使得影像分類邁入了新的天地.數(shù)學(xué)方法的引入和模型研究的進(jìn)展為影像分類注入了

41、新的活力.不同的數(shù)學(xué)方法被引用到模型研究上來,為模型研究的發(fā)展提供了廣闊的天地,相應(yīng)地,在遙感影像分類中也產(chǎn)生了大量不同形式的分類模型.如徑向基函數(shù)(rbf)與粗糙理論結(jié)合的基于粗糙理論的rbf網(wǎng)絡(luò)模型應(yīng)用于遙感分類5,對于提供分類精度、增加收斂性都有很好的作用;而基于rbf映射理論的神經(jīng)網(wǎng)絡(luò)模型更是融合了參數(shù)化統(tǒng)計(jì)分布模型和非參數(shù)化線性感知器映射模型的優(yōu)點(diǎn),不僅學(xué)習(xí)速度快,而且有高度復(fù)雜的映射能力6.又如模糊數(shù)學(xué)理論應(yīng)用于影像分類產(chǎn)生模糊聚類,對影像中混合像元的分類有很好的效果;模糊理論與各種模型結(jié)合,更使得影像分類方法的不斷完善,分類精度不斷提高.人工智能技術(shù)對影像分類的促進(jìn).專家分類系統(tǒng)

42、被用于影像分類中,利用地學(xué)知識和專家系統(tǒng)來輔助遙感影像分類12,大大提高了影像分類和信息提取的精度.人工神經(jīng)網(wǎng)絡(luò)由大量神經(jīng)元相互連接構(gòu)成網(wǎng)絡(luò)結(jié)構(gòu),通過模擬人腦神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能應(yīng)用于影像分類,具有一定的智能推理能力.同時(shí),它還引入了動量法和學(xué)習(xí)自適率調(diào)整的策略,并與地學(xué)知識集成,很好的解決了專一的bp神經(jīng)網(wǎng)絡(luò)法分類白缺點(diǎn)和不足,提高了分類效率和分類精度.監(jiān)督分類與非監(jiān)督分類的結(jié)合.由于遙感數(shù)據(jù)的數(shù)據(jù)量大、類別多以及同物異譜和同譜異物現(xiàn)象的存在,用單一的分類方法對影像進(jìn)行分類其精確度往往不能滿足應(yīng)用目的要求.用監(jiān)督分類與非監(jiān)督分類相結(jié)合的方法來對影像進(jìn)行分類,卻常??梢缘竭_(dá)需要的目的.利用這種

43、方法分類時(shí)首先用監(jiān)督分類法如多層神經(jīng)網(wǎng)絡(luò)的bp算法將遙感圖像概略地劃分為幾個(gè)大類,再用非監(jiān)督分類法如k-means聚類和isodata聚類對第一步已分出的各個(gè)大類進(jìn)行細(xì)分,直到滿足要求為止13.監(jiān)督分類與非監(jiān)督分類的結(jié)合的復(fù)合分類方法,改變了傳統(tǒng)的單一的分類方法對影像進(jìn)行分類的弊端,彌補(bǔ)了其不足,為影像分類開辟了廣闊的前景.篇五:監(jiān)督學(xué)習(xí)一、監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)是指:利用一組已知類別的樣本調(diào)整分類器的參數(shù),使其達(dá)到所要求性能的過程,也稱為監(jiān)督訓(xùn)練或有教師學(xué)習(xí)。監(jiān)督學(xué)習(xí)是從標(biāo)記的訓(xùn)練數(shù)據(jù)來推斷一個(gè)功能的機(jī)器學(xué)習(xí)任務(wù)。訓(xùn)練數(shù)據(jù)包括一套訓(xùn)練示例。在監(jiān)督學(xué)習(xí)中,每個(gè)實(shí)例都是由一個(gè)輸入對象(通常為矢量)和一個(gè)期望的輸出值(也稱為監(jiān)督信號)組成。監(jiān)督學(xué)習(xí)算法是分析該訓(xùn)練數(shù)據(jù),并產(chǎn)生一個(gè)推斷的功能,其可以用于映射出新的實(shí)例。一個(gè)最佳的方案將允許該算法來正確地決定那些看不見的實(shí)例的類標(biāo)簽。這就要求學(xué)習(xí)算法是在一種合理的方式從一種從訓(xùn)練數(shù)據(jù)到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論