機器學習經(jīng)典算法培訓教材講義課件_第1頁
機器學習經(jīng)典算法培訓教材講義課件_第2頁
機器學習經(jīng)典算法培訓教材講義課件_第3頁
機器學習經(jīng)典算法培訓教材講義課件_第4頁
機器學習經(jīng)典算法培訓教材講義課件_第5頁
已閱讀5頁,還剩85頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

經(jīng)典算法經(jīng)典算法機器學習十大經(jīng)典算法C4.5分類與回歸樹樸素貝葉斯支持向量機(SVM)K近鄰(KNN)AdaBoostK均值(K-means)最大期望(EM)Apriori算法Pagerank機器學習十大經(jīng)典算法C4.5機器學習方法的分類基于學習方式的分類(1)有監(jiān)督學習:輸入數(shù)據(jù)中有導師信號,以概率函數(shù)、代數(shù)函數(shù)或人工神經(jīng)網(wǎng)絡為基函數(shù)模型,采用迭代計算方法,學習結果為函數(shù)。(2)無監(jiān)督學習:輸入數(shù)據(jù)中無導師信號,采用聚類方法,學習結果為類別。典型的無導師學習有發(fā)現(xiàn)學習、聚類、競爭學習等。(3)強化學習(增強學習):以環(huán)境反饋(獎/懲信號)作為輸入,以統(tǒng)計和動態(tài)規(guī)劃技術為指導的一種學習方法。機器學習方法的分類基于學習方式的分類有監(jiān)督學習(用于分類)標定的訓練數(shù)據(jù)訓練過程:根據(jù)目標輸出與實際輸出的誤差信號來調(diào)節(jié)參數(shù)典型方法全局:BN,NN,SVM,DecisionTree局部:KNN、CBR(Case-basereasoning)S(x)>=0ClassAS(x)<0ClassBS(x)=0ObjectsX2(area)(perimeter)X1ObjectFeatureRepresentation有監(jiān)督學習(用于分類)標定的訓練數(shù)據(jù)S(x)>=0S(x)<無監(jiān)督學習(用于聚類)不存在標定的訓練數(shù)據(jù)學習機根據(jù)外部數(shù)據(jù)的統(tǒng)計規(guī)律(e.g.Cohension&divergence)來調(diào)節(jié)系統(tǒng)參數(shù),以使輸出能反映數(shù)據(jù)的某種特性。典型方法K-means、SOM….示例:聚類無監(jiān)督學習(用于聚類)不存在標定的訓練數(shù)據(jù)示例:聚類半監(jiān)督學習結合(少量的)標定訓練數(shù)據(jù)和(大量的)未標定數(shù)據(jù)來進行學習典型方法Co-training、EM、Latentvariables….半監(jiān)督學習結合(少量的)標定訓練數(shù)據(jù)和(大量的)未標定數(shù)據(jù)來一、C4.5C4.5由J.RossQuinlan在ID3的基礎上提出的。ID3算法用來構造決策樹。決策樹是一種類似流程圖的樹結構,其中每個內(nèi)部節(jié)點(非樹葉節(jié)點)表示在一個屬性上的測試,每個分枝代表一個測試輸出,而每個樹葉節(jié)點存放一個類標號。一旦建立好了決策樹,對于一個未給定類標號的元組,跟蹤一條有根節(jié)點到葉節(jié)點的路徑,該葉節(jié)點就存放著該元組的預測。決策樹的優(yōu)勢在于不需要任何領域知識或參數(shù)設置,產(chǎn)生的分類規(guī)則易于理解,準確率較高。適合于探測性的知識發(fā)現(xiàn)。缺點是:在構造樹的過程中,需要對數(shù)據(jù)集進行多次的順序掃描和排序,因而導致算法的低效。一、C4.5C4.5由J.RossQu增益比率度量是用增益度量Gain(S,A)和分裂信息度量SplitInformation(S,A)來共同定義的設S代表訓練數(shù)據(jù)集,由s個樣本組成。A是S的某個屬性,有m個不同的取值,根據(jù)這些取值可以把S劃分為m個子集,Si表示第i個子集(i=1,2,…,m),|Si|表示子集Si中的樣本數(shù)量。增益比率度量是用增益度量Gain(S,A)和分裂信息度量Sp數(shù)據(jù)集如圖1所示,它表示的是天氣情況與去不去打高爾夫球之間的關系數(shù)據(jù)集如圖1所示,它表示的是天氣情況與去不去打高爾夫球之間的二、分類和回歸樹(ClassificationandRegressionTrees——CART,可簡寫為C&RT)CART算法中的每一次分裂把數(shù)據(jù)分為兩個子集,每個子集中的樣本比被劃分之前具有更好的一致性。它是一個遞歸的過程,也就是說,這些子集還會被繼續(xù)劃分,這個過程不斷重復,直到滿足終止準則,然后通過修剪和評估,得到一棵最優(yōu)的決策樹。二、分類和回歸樹(ClassificationandRe在ID3算法中,用“熵”來度量數(shù)據(jù)集隨機性的程度。在CART中我們把這種隨機性的程度稱為“雜度”(impurity,也稱為“不純度”),并且用“吉尼”(gini)指標來衡量它。在ID3算法中,用“熵”來度量數(shù)據(jù)集隨機性的程度。在決策樹停止生長的條件滿足以下一個即停止生長。(1)節(jié)點達到完全純性;(2)數(shù)樹的深度達到用戶指定的深度;(3)節(jié)點中樣本的個數(shù)少于用戶指定的個數(shù);(4)異質(zhì)性指標下降的最大幅度小于用戶指定的幅度。決策樹停止生長的條件滿足以下一個即停止生長。剪枝:完整的決策樹對訓練樣本特征的描述可能“過于精確”(受噪聲數(shù)據(jù)的影響),缺少了一般代表性而無法較好的用對新數(shù)據(jù)做分類預測,出現(xiàn)”過度擬合”。移去對樹的精度影響不大的劃分。使用成本復雜度方法,即同時度量錯分風險和樹的復雜程度,使二者越小越好。剪枝方式:A、預修剪(prepruning):停止生長策略B、后修剪(postpruning):在允許決策樹得到最充分生長的基礎上,再根據(jù)一定的規(guī)則,自下而上逐層進行剪枝。剪枝:完整的決策樹對訓練樣本特征的描述可能“過于精確”(受噪優(yōu)點(1)可自動忽略對目標變量沒有貢獻的屬性變量,也為判斷屬性變量的重要性,減少變量數(shù)據(jù)提供參考;(2)在面對諸如存在缺失值、變量數(shù)多等問題時C&RT顯得非常穩(wěn)?。╮obust);(3)估計模型通常不用花費很長的訓練時間;(4)推理過程完全依據(jù)屬性變量的取值特點(與C5.0不同,C&RT的輸出字段既可以是數(shù)值型,也可以是分類型)(5)比其他模型更易于理解——從模型中得到的規(guī)則能得到非常直觀的解釋,決策推理過程可以表示成IF…THEN的形式(6)目標是定類變量為分類樹,若目標變量是定距變量,則為回歸樹;(7)通過檢測輸入字段,通過度量各個劃分產(chǎn)生的異質(zhì)性的減小程度,找到最佳的一個劃分。(8)非常靈活,可以允許有部分錯分成本,還可指定先驗概率分布,可使用自動的成本復雜性剪枝來得到歸納性更強的樹優(yōu)點(1)可自動忽略對目標變量沒有貢獻的屬性變量,也為判斷屬三、樸素貝葉斯機器學習的任務:在給定訓練數(shù)據(jù)D時,確定假設空間H中的最佳假設。最佳假設:一種方法是把它定義為在給定數(shù)據(jù)D以及H中不同假設的先驗概率的有關知識下的最可能假設。貝葉斯理論提供了一種計算假設概率的方法,基于假設的先驗概率、給定假設下觀察到不同數(shù)據(jù)的概率以及觀察到的數(shù)據(jù)本身。主要應用在電子郵件過濾和文本分類的研究三、樸素貝葉斯機器學習的任務:在給定訓練數(shù)據(jù)D時,確定假設空樸素貝葉斯算法原理:樸素貝葉斯算法原理:機器學習經(jīng)典算法培訓教材講義課件機器學習經(jīng)典算法培訓教材講義課件機器學習經(jīng)典算法培訓教材講義課件機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓四、KNNK-近鄰分類算法(KNearestNeighbors,簡稱KNN)通過計算每個訓練數(shù)據(jù)到待分類元組的距離,取和待分類元組距離最近的K個訓練數(shù)據(jù),K個數(shù)據(jù)中哪個類別的訓練數(shù)據(jù)占多數(shù),則待分類元組就屬于哪個類別。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT四、KNNK-近鄰分類算法(KNearestNeighbK的值一般選取為√q(q為訓練元組的數(shù)目,商業(yè)算法通常以10作為默認值)機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPTK的值一般選取為√q(q為訓練元組的數(shù)目,商業(yè)算法通常以1

盡管近鄰法有其優(yōu)良品質(zhì),但是它的一個嚴重弱點與問題是需要存儲全部訓練樣本,以及繁重的距離計算量。但以簡單的方式降低樣本數(shù)量,只能使其性能降低,這也是不希望的。該算法比較適用于樣本容量比較大的類域的自動分類,而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培五、SVMSVM的主要思想可以概括為兩點:(1)它是針對線性可分情況進行分析,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進行線性分析成為可能;(2)它基于結構風險最小化理論之上在特征空間中建構最優(yōu)分割超平面,使得學習器得到全局最優(yōu)化,并且在整個樣本空間的期望風險以某個概率滿足一定上界。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT五、SVMSVM的主要思想可以概括為兩點:機器學習經(jīng)典算法培SVM的應用主要于模式識別領域:手寫數(shù)字識別、語音識別、人臉識別、文本分類如何針對不同的問題選擇不同的核函數(shù)仍然是一個懸而未決的問題。標準的SVM對噪聲是不具有魯棒性的。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPTSVM的應用主要于模式識別領域:手寫數(shù)字識別、語音識別、人臉六、AdaBoostAdaboost是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT六、AdaBoostAdaboost是一種迭代算法,其核心思Adaboost算法本身是通過改變數(shù)據(jù)分布來實現(xiàn)的,它根據(jù)每次訓練集之中每個樣本的分類是否正確,以及上次的總體分類的準確率,來確定每個樣本的權值。將修改過權值的新數(shù)據(jù)集送給下層分類器進行訓練,最后將每次得到的分類器最后融合起來,作為最后的決策分類器。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPTAdaboost算法本身是通過改變數(shù)據(jù)分布來實現(xiàn)的,它根據(jù)每Adaboost有很多優(yōu)點:1)adaboost是一種有很高精度的分類器2)可以使用各種方法構建子分類器,adaboost算法提供的是框架3)當使用簡單分類器時,計算出的結果是可以理解的。而且弱分類器構造極其簡單4)簡單,不用做特征篩選5)不用擔心overfitting機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPTAdaboost有很多優(yōu)點:機器學習經(jīng)典算法培訓教材PPT(adaboost算法的一些實際可以使用的場景:1)用于二分類或多分類的應用場景2)用于做分類任務的baseline3)用于特征選擇(featureselection)4)Boosting框架用于對badcase的修正機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPTadaboost算法的一些實際可以使用的場景:1)用于二分類七、K-meansK-means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。該算法認為簇是由距離靠近的對象組成的,因此把得到緊湊且獨立的簇作為最終目標。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT七、K-meansK-means算法是很典型的基于距離的聚類K-means步驟1設置初始類別中心和類別數(shù);2根據(jù)類別中心對數(shù)據(jù)進行類別劃分;3重新計算當前類別劃分下每類的中心;4在得到類別中心下繼續(xù)進行類別劃分;5如果連續(xù)兩次的類別劃分結果不變則停止算法;否則循環(huán)步驟2~5;機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPTK-means步驟1設置初始類別中心和類別數(shù);機器學習經(jīng)典機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓k-means算法的性能分析主要優(yōu)點:是解決聚類問題的一種經(jīng)典算法,簡單、快速。對處理大數(shù)據(jù)集,該算法是相對可伸縮和高效率的。當結果簇是密集的而簇間區(qū)別是明顯的時,它的效果較好。主要缺點必須事先給出k(要生成的簇的數(shù)目),而且對初值敏感,對于不同的初始值,可能會導致不同結果。不適合于發(fā)現(xiàn)非凸面形狀的簇或者大小差別很大的簇。對于“躁聲”和孤立點數(shù)據(jù)是敏感的,因為簇的中心是通過計算數(shù)據(jù)的平均值得到的,這些數(shù)據(jù)的存在會使聚類的中心發(fā)生很大的偏移。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPTk-means算法的性能分析主要優(yōu)點:機器學習經(jīng)典算法培訓教八、EM機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT八、EM機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓九、Apriori算法Apriori算法是一種最有影響的挖掘布爾關聯(lián)規(guī)則頻繁項集的算法。Apriori算法使用頻繁項集的先驗知識,使用一種稱作逐層搜索的迭代方法,k項集用于探索(k+1)項集。首先,通過掃描事務(交易)記錄,找出所有的頻繁1項集,該集合記做L1,然后利用L1找頻繁2項集的集合L2,L2找L3,如此下去,直到不能再找到任何頻繁k項集。最后再在所有的頻繁集中找出強規(guī)則,即產(chǎn)生用戶感興趣的關聯(lián)規(guī)則。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT九、Apriori算法Apriori算法是一種最有影響的挖掘步驟1:發(fā)現(xiàn)頻繁項集頻繁項集發(fā)現(xiàn)過程:(1)掃描(2)計數(shù)(3)比較(4)產(chǎn)生頻繁項集(5)連接、剪枝,產(chǎn)生候選項集重復步驟(1)~(5)直到不能發(fā)現(xiàn)更大頻集

機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT步驟1:發(fā)現(xiàn)頻繁項集頻繁項集發(fā)現(xiàn)過程:機器學習經(jīng)典算法培訓教步驟2:產(chǎn)生關聯(lián)規(guī)則根據(jù)前面提到的置信度的定義,關聯(lián)規(guī)則的產(chǎn)生如下:(1)對于每個頻繁項集L,產(chǎn)生L的所有非空子集;(2)對于L的每個非空子集S,如果則輸出規(guī)則“S→L-S”。注:L-S表示在項集L中除去S子集的項集。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT步驟2:產(chǎn)生關聯(lián)規(guī)則根據(jù)前面提到的置信度的定義,關聯(lián)規(guī)則的產(chǎn)機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓Apriori算法可以提高數(shù)據(jù)訪問效率,提升發(fā)現(xiàn)頻繁項集的速度局限性:可能產(chǎn)生大量的候選集可能需要重復掃描數(shù)據(jù)庫機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓十、Pagerank基本思想:如果網(wǎng)頁T存在一個指向網(wǎng)頁A的連接,則表明T的所有者認為A比較重要,從而把T的一部分重要性得分賦予A。這個重要性得分值為:PR(T)/C(T)其中PR(T)為T的PageRank值,C(T)為T的出鏈數(shù),則A的PageRank值為一系列類似于T的頁面重要性得分值的累加。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT十、Pagerank基本思想:如果網(wǎng)頁T存在一個指向網(wǎng)頁A的機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓優(yōu)點:是一個與查詢無關的靜態(tài)算法,所有網(wǎng)頁的PageRank值通過離線計算獲得;有效減少在線查詢時的計算量,極大降低了查詢響應時間。不足:人們的查詢具有主題特征,PageRank忽略了主題相關性,導致結果的相關性和主題性降低;另外,PageRank有很嚴重的對新網(wǎng)頁的歧視機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT優(yōu)點:是一個與查詢無關的靜態(tài)算法,所有網(wǎng)頁的PageRank本次課題結束,謝謝機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT本次課題結束,謝謝機器學習經(jīng)典算法培訓教材PPT(45張)培經(jīng)典算法經(jīng)典算法機器學習十大經(jīng)典算法C4.5分類與回歸樹樸素貝葉斯支持向量機(SVM)K近鄰(KNN)AdaBoostK均值(K-means)最大期望(EM)Apriori算法Pagerank機器學習十大經(jīng)典算法C4.5機器學習方法的分類基于學習方式的分類(1)有監(jiān)督學習:輸入數(shù)據(jù)中有導師信號,以概率函數(shù)、代數(shù)函數(shù)或人工神經(jīng)網(wǎng)絡為基函數(shù)模型,采用迭代計算方法,學習結果為函數(shù)。(2)無監(jiān)督學習:輸入數(shù)據(jù)中無導師信號,采用聚類方法,學習結果為類別。典型的無導師學習有發(fā)現(xiàn)學習、聚類、競爭學習等。(3)強化學習(增強學習):以環(huán)境反饋(獎/懲信號)作為輸入,以統(tǒng)計和動態(tài)規(guī)劃技術為指導的一種學習方法。機器學習方法的分類基于學習方式的分類有監(jiān)督學習(用于分類)標定的訓練數(shù)據(jù)訓練過程:根據(jù)目標輸出與實際輸出的誤差信號來調(diào)節(jié)參數(shù)典型方法全局:BN,NN,SVM,DecisionTree局部:KNN、CBR(Case-basereasoning)S(x)>=0ClassAS(x)<0ClassBS(x)=0ObjectsX2(area)(perimeter)X1ObjectFeatureRepresentation有監(jiān)督學習(用于分類)標定的訓練數(shù)據(jù)S(x)>=0S(x)<無監(jiān)督學習(用于聚類)不存在標定的訓練數(shù)據(jù)學習機根據(jù)外部數(shù)據(jù)的統(tǒng)計規(guī)律(e.g.Cohension&divergence)來調(diào)節(jié)系統(tǒng)參數(shù),以使輸出能反映數(shù)據(jù)的某種特性。典型方法K-means、SOM….示例:聚類無監(jiān)督學習(用于聚類)不存在標定的訓練數(shù)據(jù)示例:聚類半監(jiān)督學習結合(少量的)標定訓練數(shù)據(jù)和(大量的)未標定數(shù)據(jù)來進行學習典型方法Co-training、EM、Latentvariables….半監(jiān)督學習結合(少量的)標定訓練數(shù)據(jù)和(大量的)未標定數(shù)據(jù)來一、C4.5C4.5由J.RossQuinlan在ID3的基礎上提出的。ID3算法用來構造決策樹。決策樹是一種類似流程圖的樹結構,其中每個內(nèi)部節(jié)點(非樹葉節(jié)點)表示在一個屬性上的測試,每個分枝代表一個測試輸出,而每個樹葉節(jié)點存放一個類標號。一旦建立好了決策樹,對于一個未給定類標號的元組,跟蹤一條有根節(jié)點到葉節(jié)點的路徑,該葉節(jié)點就存放著該元組的預測。決策樹的優(yōu)勢在于不需要任何領域知識或參數(shù)設置,產(chǎn)生的分類規(guī)則易于理解,準確率較高。適合于探測性的知識發(fā)現(xiàn)。缺點是:在構造樹的過程中,需要對數(shù)據(jù)集進行多次的順序掃描和排序,因而導致算法的低效。一、C4.5C4.5由J.RossQu增益比率度量是用增益度量Gain(S,A)和分裂信息度量SplitInformation(S,A)來共同定義的設S代表訓練數(shù)據(jù)集,由s個樣本組成。A是S的某個屬性,有m個不同的取值,根據(jù)這些取值可以把S劃分為m個子集,Si表示第i個子集(i=1,2,…,m),|Si|表示子集Si中的樣本數(shù)量。增益比率度量是用增益度量Gain(S,A)和分裂信息度量Sp數(shù)據(jù)集如圖1所示,它表示的是天氣情況與去不去打高爾夫球之間的關系數(shù)據(jù)集如圖1所示,它表示的是天氣情況與去不去打高爾夫球之間的二、分類和回歸樹(ClassificationandRegressionTrees——CART,可簡寫為C&RT)CART算法中的每一次分裂把數(shù)據(jù)分為兩個子集,每個子集中的樣本比被劃分之前具有更好的一致性。它是一個遞歸的過程,也就是說,這些子集還會被繼續(xù)劃分,這個過程不斷重復,直到滿足終止準則,然后通過修剪和評估,得到一棵最優(yōu)的決策樹。二、分類和回歸樹(ClassificationandRe在ID3算法中,用“熵”來度量數(shù)據(jù)集隨機性的程度。在CART中我們把這種隨機性的程度稱為“雜度”(impurity,也稱為“不純度”),并且用“吉尼”(gini)指標來衡量它。在ID3算法中,用“熵”來度量數(shù)據(jù)集隨機性的程度。在決策樹停止生長的條件滿足以下一個即停止生長。(1)節(jié)點達到完全純性;(2)數(shù)樹的深度達到用戶指定的深度;(3)節(jié)點中樣本的個數(shù)少于用戶指定的個數(shù);(4)異質(zhì)性指標下降的最大幅度小于用戶指定的幅度。決策樹停止生長的條件滿足以下一個即停止生長。剪枝:完整的決策樹對訓練樣本特征的描述可能“過于精確”(受噪聲數(shù)據(jù)的影響),缺少了一般代表性而無法較好的用對新數(shù)據(jù)做分類預測,出現(xiàn)”過度擬合”。移去對樹的精度影響不大的劃分。使用成本復雜度方法,即同時度量錯分風險和樹的復雜程度,使二者越小越好。剪枝方式:A、預修剪(prepruning):停止生長策略B、后修剪(postpruning):在允許決策樹得到最充分生長的基礎上,再根據(jù)一定的規(guī)則,自下而上逐層進行剪枝。剪枝:完整的決策樹對訓練樣本特征的描述可能“過于精確”(受噪優(yōu)點(1)可自動忽略對目標變量沒有貢獻的屬性變量,也為判斷屬性變量的重要性,減少變量數(shù)據(jù)提供參考;(2)在面對諸如存在缺失值、變量數(shù)多等問題時C&RT顯得非常穩(wěn)?。╮obust);(3)估計模型通常不用花費很長的訓練時間;(4)推理過程完全依據(jù)屬性變量的取值特點(與C5.0不同,C&RT的輸出字段既可以是數(shù)值型,也可以是分類型)(5)比其他模型更易于理解——從模型中得到的規(guī)則能得到非常直觀的解釋,決策推理過程可以表示成IF…THEN的形式(6)目標是定類變量為分類樹,若目標變量是定距變量,則為回歸樹;(7)通過檢測輸入字段,通過度量各個劃分產(chǎn)生的異質(zhì)性的減小程度,找到最佳的一個劃分。(8)非常靈活,可以允許有部分錯分成本,還可指定先驗概率分布,可使用自動的成本復雜性剪枝來得到歸納性更強的樹優(yōu)點(1)可自動忽略對目標變量沒有貢獻的屬性變量,也為判斷屬三、樸素貝葉斯機器學習的任務:在給定訓練數(shù)據(jù)D時,確定假設空間H中的最佳假設。最佳假設:一種方法是把它定義為在給定數(shù)據(jù)D以及H中不同假設的先驗概率的有關知識下的最可能假設。貝葉斯理論提供了一種計算假設概率的方法,基于假設的先驗概率、給定假設下觀察到不同數(shù)據(jù)的概率以及觀察到的數(shù)據(jù)本身。主要應用在電子郵件過濾和文本分類的研究三、樸素貝葉斯機器學習的任務:在給定訓練數(shù)據(jù)D時,確定假設空樸素貝葉斯算法原理:樸素貝葉斯算法原理:機器學習經(jīng)典算法培訓教材講義課件機器學習經(jīng)典算法培訓教材講義課件機器學習經(jīng)典算法培訓教材講義課件機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓四、KNNK-近鄰分類算法(KNearestNeighbors,簡稱KNN)通過計算每個訓練數(shù)據(jù)到待分類元組的距離,取和待分類元組距離最近的K個訓練數(shù)據(jù),K個數(shù)據(jù)中哪個類別的訓練數(shù)據(jù)占多數(shù),則待分類元組就屬于哪個類別。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT四、KNNK-近鄰分類算法(KNearestNeighbK的值一般選取為√q(q為訓練元組的數(shù)目,商業(yè)算法通常以10作為默認值)機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPTK的值一般選取為√q(q為訓練元組的數(shù)目,商業(yè)算法通常以1

盡管近鄰法有其優(yōu)良品質(zhì),但是它的一個嚴重弱點與問題是需要存儲全部訓練樣本,以及繁重的距離計算量。但以簡單的方式降低樣本數(shù)量,只能使其性能降低,這也是不希望的。該算法比較適用于樣本容量比較大的類域的自動分類,而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培五、SVMSVM的主要思想可以概括為兩點:(1)它是針對線性可分情況進行分析,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進行線性分析成為可能;(2)它基于結構風險最小化理論之上在特征空間中建構最優(yōu)分割超平面,使得學習器得到全局最優(yōu)化,并且在整個樣本空間的期望風險以某個概率滿足一定上界。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT五、SVMSVM的主要思想可以概括為兩點:機器學習經(jīng)典算法培SVM的應用主要于模式識別領域:手寫數(shù)字識別、語音識別、人臉識別、文本分類如何針對不同的問題選擇不同的核函數(shù)仍然是一個懸而未決的問題。標準的SVM對噪聲是不具有魯棒性的。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPTSVM的應用主要于模式識別領域:手寫數(shù)字識別、語音識別、人臉六、AdaBoostAdaboost是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT六、AdaBoostAdaboost是一種迭代算法,其核心思Adaboost算法本身是通過改變數(shù)據(jù)分布來實現(xiàn)的,它根據(jù)每次訓練集之中每個樣本的分類是否正確,以及上次的總體分類的準確率,來確定每個樣本的權值。將修改過權值的新數(shù)據(jù)集送給下層分類器進行訓練,最后將每次得到的分類器最后融合起來,作為最后的決策分類器。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPTAdaboost算法本身是通過改變數(shù)據(jù)分布來實現(xiàn)的,它根據(jù)每Adaboost有很多優(yōu)點:1)adaboost是一種有很高精度的分類器2)可以使用各種方法構建子分類器,adaboost算法提供的是框架3)當使用簡單分類器時,計算出的結果是可以理解的。而且弱分類器構造極其簡單4)簡單,不用做特征篩選5)不用擔心overfitting機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPTAdaboost有很多優(yōu)點:機器學習經(jīng)典算法培訓教材PPT(adaboost算法的一些實際可以使用的場景:1)用于二分類或多分類的應用場景2)用于做分類任務的baseline3)用于特征選擇(featureselection)4)Boosting框架用于對badcase的修正機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPTadaboost算法的一些實際可以使用的場景:1)用于二分類七、K-meansK-means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。該算法認為簇是由距離靠近的對象組成的,因此把得到緊湊且獨立的簇作為最終目標。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT七、K-meansK-means算法是很典型的基于距離的聚類K-means步驟1設置初始類別中心和類別數(shù);2根據(jù)類別中心對數(shù)據(jù)進行類別劃分;3重新計算當前類別劃分下每類的中心;4在得到類別中心下繼續(xù)進行類別劃分;5如果連續(xù)兩次的類別劃分結果不變則停止算法;否則循環(huán)步驟2~5;機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPTK-means步驟1設置初始類別中心和類別數(shù);機器學習經(jīng)典機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓k-means算法的性能分析主要優(yōu)點:是解決聚類問題的一種經(jīng)典算法,簡單、快速。對處理大數(shù)據(jù)集,該算法是相對可伸縮和高效率的。當結果簇是密集的而簇間區(qū)別是明顯的時,它的效果較好。主要缺點必須事先給出k(要生成的簇的數(shù)目),而且對初值敏感,對于不同的初始值,可能會導致不同結果。不適合于發(fā)現(xiàn)非凸面形狀的簇或者大小差別很大的簇。對于“躁聲”和孤立點數(shù)據(jù)是敏感的,因為簇的中心是通過計算數(shù)據(jù)的平均值得到的,這些數(shù)據(jù)的存在會使聚類的中心發(fā)生很大的偏移。機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPTk-means算法的性能分析主要優(yōu)點:機器學習經(jīng)典算法培訓教八、EM機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT八、EM機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓教材工作匯報課件PPT機器學習經(jīng)典算法培訓教材PPT(45張)培訓課件培訓講義培訓九、Apriori算法Apriori算法是一種最有影響的挖掘布爾關聯(lián)規(guī)則頻繁項集的算法。Apriori算法使用頻繁項集的先驗知識,使用一種稱作逐層搜索的迭代方法,k項集用于探索(k+1)項集。首先,通過掃描事務(交易)記錄,找出所有的頻繁1項集,該集合記做L1,然后利用L1找頻繁2項集的集合L2,L2找L3,如此下去,直到不能再找到任何頻繁k項集。最后再在所有的頻繁集中找出強規(guī)則,即產(chǎn)生用戶感興趣的關聯(lián)規(guī)則。機器學習經(jīng)典算法培訓教材PPT(45張)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論