機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件

上傳人：x*** IP屬地：貴州上傳時(shí)間：2023-01-04 格式：PPT 頁數(shù)：90 大?。?.71MB 積分：25 舉報(bào) 版權(quán)申訴

機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件_第2頁

機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件_第3頁

機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件_第4頁

機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件_第5頁

已閱讀5頁，還剩85頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

經(jīng)典算法經(jīng)典算法機(jī)器學(xué)習(xí)十大經(jīng)典算法C4.5分類與回歸樹樸素貝葉斯支持向量機(jī)（SVM)K近鄰（KNN）AdaBoostK均值（K-means）最大期望（EM）Apriori算法Pagerank機(jī)器學(xué)習(xí)十大經(jīng)典算法C4.5機(jī)器學(xué)習(xí)方法的分類基于學(xué)習(xí)方式的分類（1）有監(jiān)督學(xué)習(xí)：輸入數(shù)據(jù)中有導(dǎo)師信號(hào)，以概率函數(shù)、代數(shù)函數(shù)或人工神經(jīng)網(wǎng)絡(luò)為基函數(shù)模型，采用迭代計(jì)算方法，學(xué)習(xí)結(jié)果為函數(shù)。（2）無監(jiān)督學(xué)習(xí)：輸入數(shù)據(jù)中無導(dǎo)師信號(hào)，采用聚類方法，學(xué)習(xí)結(jié)果為類別。典型的無導(dǎo)師學(xué)習(xí)有發(fā)現(xiàn)學(xué)習(xí)、聚類、競(jìng)爭(zhēng)學(xué)習(xí)等。（3）強(qiáng)化學(xué)習(xí)（增強(qiáng)學(xué)習(xí)）：以環(huán)境反饋（獎(jiǎng)/懲信號(hào)）作為輸入，以統(tǒng)計(jì)和動(dòng)態(tài)規(guī)劃技術(shù)為指導(dǎo)的一種學(xué)習(xí)方法。機(jī)器學(xué)習(xí)方法的分類基于學(xué)習(xí)方式的分類有監(jiān)督學(xué)習(xí)（用于分類）標(biāo)定的訓(xùn)練數(shù)據(jù)訓(xùn)練過程：根據(jù)目標(biāo)輸出與實(shí)際輸出的誤差信號(hào)來調(diào)節(jié)參數(shù)典型方法全局：BN,NN,SVM,DecisionTree局部：KNN、CBR(Case-basereasoning)S(x)>=0ClassAS(x)<0ClassBS(x)=0ObjectsX2(area)(perimeter)X1ObjectFeatureRepresentation有監(jiān)督學(xué)習(xí)（用于分類）標(biāo)定的訓(xùn)練數(shù)據(jù)S(x)>=0S(x)<無監(jiān)督學(xué)習(xí)（用于聚類）不存在標(biāo)定的訓(xùn)練數(shù)據(jù)學(xué)習(xí)機(jī)根據(jù)外部數(shù)據(jù)的統(tǒng)計(jì)規(guī)律（e.g.Cohension&divergence）來調(diào)節(jié)系統(tǒng)參數(shù)，以使輸出能反映數(shù)據(jù)的某種特性。典型方法K-means、SOM….示例：聚類無監(jiān)督學(xué)習(xí)（用于聚類）不存在標(biāo)定的訓(xùn)練數(shù)據(jù)示例：聚類半監(jiān)督學(xué)習(xí)結(jié)合（少量的）標(biāo)定訓(xùn)練數(shù)據(jù)和（大量的）未標(biāo)定數(shù)據(jù)來進(jìn)行學(xué)習(xí)典型方法Co-training、EM、Latentvariables….半監(jiān)督學(xué)習(xí)結(jié)合（少量的）標(biāo)定訓(xùn)練數(shù)據(jù)和（大量的）未標(biāo)定數(shù)據(jù)來一、C4.5C4.5由J.RossQuinlan在ID3的基礎(chǔ)上提出的。ID3算法用來構(gòu)造決策樹。決策樹是一種類似流程圖的樹結(jié)構(gòu)，其中每個(gè)內(nèi)部節(jié)點(diǎn)（非樹葉節(jié)點(diǎn)）表示在一個(gè)屬性上的測(cè)試，每個(gè)分枝代表一個(gè)測(cè)試輸出，而每個(gè)樹葉節(jié)點(diǎn)存放一個(gè)類標(biāo)號(hào)。一旦建立好了決策樹，對(duì)于一個(gè)未給定類標(biāo)號(hào)的元組，跟蹤一條有根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑，該葉節(jié)點(diǎn)就存放著該元組的預(yù)測(cè)。決策樹的優(yōu)勢(shì)在于不需要任何領(lǐng)域知識(shí)或參數(shù)設(shè)置，產(chǎn)生的分類規(guī)則易于理解，準(zhǔn)確率較高。適合于探測(cè)性的知識(shí)發(fā)現(xiàn)。缺點(diǎn)是：在構(gòu)造樹的過程中，需要對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序，因而導(dǎo)致算法的低效。一、C4.5C4.5由J.RossQu增益比率度量是用增益度量Gain(S，A)和分裂信息度量SplitInformation(S，A)來共同定義的設(shè)S代表訓(xùn)練數(shù)據(jù)集，由s個(gè)樣本組成。A是S的某個(gè)屬性，有m個(gè)不同的取值，根據(jù)這些取值可以把S劃分為m個(gè)子集，Si表示第i個(gè)子集（i=1,2,…,m），|Si|表示子集Si中的樣本數(shù)量。增益比率度量是用增益度量Gain(S，A)和分裂信息度量Sp數(shù)據(jù)集如圖1所示，它表示的是天氣情況與去不去打高爾夫球之間的關(guān)系數(shù)據(jù)集如圖1所示，它表示的是天氣情況與去不去打高爾夫球之間的二、分類和回歸樹（ClassificationandRegressionTrees——CART，可簡(jiǎn)寫為C&RT）CART算法中的每一次分裂把數(shù)據(jù)分為兩個(gè)子集，每個(gè)子集中的樣本比被劃分之前具有更好的一致性。它是一個(gè)遞歸的過程，也就是說，這些子集還會(huì)被繼續(xù)劃分，這個(gè)過程不斷重復(fù)，直到滿足終止準(zhǔn)則，然后通過修剪和評(píng)估，得到一棵最優(yōu)的決策樹。二、分類和回歸樹（ClassificationandRe在ID3算法中，用“熵”來度量數(shù)據(jù)集隨機(jī)性的程度。在CART中我們把這種隨機(jī)性的程度稱為“雜度”（impurity，也稱為“不純度”），并且用“吉尼”(gini)指標(biāo)來衡量它。在ID3算法中，用“熵”來度量數(shù)據(jù)集隨機(jī)性的程度。在決策樹停止生長(zhǎng)的條件滿足以下一個(gè)即停止生長(zhǎng)。（1）節(jié)點(diǎn)達(dá)到完全純性；（2）數(shù)樹的深度達(dá)到用戶指定的深度；（3）節(jié)點(diǎn)中樣本的個(gè)數(shù)少于用戶指定的個(gè)數(shù)；（4）異質(zhì)性指標(biāo)下降的最大幅度小于用戶指定的幅度。決策樹停止生長(zhǎng)的條件滿足以下一個(gè)即停止生長(zhǎng)。剪枝：完整的決策樹對(duì)訓(xùn)練樣本特征的描述可能“過于精確”（受噪聲數(shù)據(jù)的影響），缺少了一般代表性而無法較好的用對(duì)新數(shù)據(jù)做分類預(yù)測(cè)，出現(xiàn)”過度擬合”。移去對(duì)樹的精度影響不大的劃分。使用成本復(fù)雜度方法，即同時(shí)度量錯(cuò)分風(fēng)險(xiǎn)和樹的復(fù)雜程度，使二者越小越好。剪枝方式：A、預(yù)修剪（prepruning）：停止生長(zhǎng)策略B、后修剪（postpruning）：在允許決策樹得到最充分生長(zhǎng)的基礎(chǔ)上，再根據(jù)一定的規(guī)則，自下而上逐層進(jìn)行剪枝。剪枝：完整的決策樹對(duì)訓(xùn)練樣本特征的描述可能“過于精確”（受噪優(yōu)點(diǎn)（1）可自動(dòng)忽略對(duì)目標(biāo)變量沒有貢獻(xiàn)的屬性變量，也為判斷屬性變量的重要性，減少變量數(shù)據(jù)提供參考；（2）在面對(duì)諸如存在缺失值、變量數(shù)多等問題時(shí)C&RT顯得非常穩(wěn)健（robust）；（3）估計(jì)模型通常不用花費(fèi)很長(zhǎng)的訓(xùn)練時(shí)間；（4）推理過程完全依據(jù)屬性變量的取值特點(diǎn)（與C5.0不同，C&RT的輸出字段既可以是數(shù)值型，也可以是分類型）（5）比其他模型更易于理解——從模型中得到的規(guī)則能得到非常直觀的解釋，決策推理過程可以表示成IF…THEN的形式（6）目標(biāo)是定類變量為分類樹，若目標(biāo)變量是定距變量，則為回歸樹；（7）通過檢測(cè)輸入字段，通過度量各個(gè)劃分產(chǎn)生的異質(zhì)性的減小程度，找到最佳的一個(gè)劃分。（8）非常靈活，可以允許有部分錯(cuò)分成本，還可指定先驗(yàn)概率分布，可使用自動(dòng)的成本復(fù)雜性剪枝來得到歸納性更強(qiáng)的樹優(yōu)點(diǎn)（1）可自動(dòng)忽略對(duì)目標(biāo)變量沒有貢獻(xiàn)的屬性變量，也為判斷屬三、樸素貝葉斯機(jī)器學(xué)習(xí)的任務(wù)：在給定訓(xùn)練數(shù)據(jù)D時(shí)，確定假設(shè)空間H中的最佳假設(shè)。最佳假設(shè)：一種方法是把它定義為在給定數(shù)據(jù)D以及H中不同假設(shè)的先驗(yàn)概率的有關(guān)知識(shí)下的最可能假設(shè)。貝葉斯理論提供了一種計(jì)算假設(shè)概率的方法，基于假設(shè)的先驗(yàn)概率、給定假設(shè)下觀察到不同數(shù)據(jù)的概率以及觀察到的數(shù)據(jù)本身。主要應(yīng)用在電子郵件過濾和文本分類的研究三、樸素貝葉斯機(jī)器學(xué)習(xí)的任務(wù)：在給定訓(xùn)練數(shù)據(jù)D時(shí)，確定假設(shè)空樸素貝葉斯算法原理：樸素貝葉斯算法原理：機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)四、KNNK-近鄰分類算法（KNearestNeighbors，簡(jiǎn)稱KNN）通過計(jì)算每個(gè)訓(xùn)練數(shù)據(jù)到待分類元組的距離，取和待分類元組距離最近的K個(gè)訓(xùn)練數(shù)據(jù)，K個(gè)數(shù)據(jù)中哪個(gè)類別的訓(xùn)練數(shù)據(jù)占多數(shù)，則待分類元組就屬于哪個(gè)類別。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT四、KNNK-近鄰分類算法（KNearestNeighbK的值一般選取為√q(q為訓(xùn)練元組的數(shù)目，商業(yè)算法通常以10作為默認(rèn)值)機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTK的值一般選取為√q(q為訓(xùn)練元組的數(shù)目，商業(yè)算法通常以1

盡管近鄰法有其優(yōu)良品質(zhì)，但是它的一個(gè)嚴(yán)重弱點(diǎn)與問題是需要存儲(chǔ)全部訓(xùn)練樣本，以及繁重的距離計(jì)算量。但以簡(jiǎn)單的方式降低樣本數(shù)量，只能使其性能降低，這也是不希望的。該算法比較適用于樣本容量比較大的類域的自動(dòng)分類，而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培五、SVMSVM的主要思想可以概括為兩點(diǎn)：(1)它是針對(duì)線性可分情況進(jìn)行分析，對(duì)于線性不可分的情況，通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分，從而使得高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析成為可能；(2)它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面，使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿足一定上界。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT五、SVMSVM的主要思想可以概括為兩點(diǎn)：機(jī)器學(xué)習(xí)經(jīng)典算法培SVM的應(yīng)用主要于模式識(shí)別領(lǐng)域:手寫數(shù)字識(shí)別、語音識(shí)別、人臉識(shí)別、文本分類如何針對(duì)不同的問題選擇不同的核函數(shù)仍然是一個(gè)懸而未決的問題。標(biāo)準(zhǔn)的SVM對(duì)噪聲是不具有魯棒性的。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTSVM的應(yīng)用主要于模式識(shí)別領(lǐng)域:手寫數(shù)字識(shí)別、語音識(shí)別、人臉六、AdaBoostAdaboost是一種迭代算法，其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器（弱分類器），然后把這些弱分類器集合起來，構(gòu)成一個(gè)更強(qiáng)的最終分類器（強(qiáng)分類器）。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT六、AdaBoostAdaboost是一種迭代算法，其核心思Adaboost算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的，它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類是否正確，以及上次的總體分類的準(zhǔn)確率，來確定每個(gè)樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練，最后將每次得到的分類器最后融合起來，作為最后的決策分類器。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTAdaboost算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的，它根據(jù)每Adaboost有很多優(yōu)點(diǎn):1)adaboost是一種有很高精度的分類器2)可以使用各種方法構(gòu)建子分類器，adaboost算法提供的是框架3)當(dāng)使用簡(jiǎn)單分類器時(shí)，計(jì)算出的結(jié)果是可以理解的。而且弱分類器構(gòu)造極其簡(jiǎn)單4)簡(jiǎn)單，不用做特征篩選5)不用擔(dān)心overfitting機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTAdaboost有很多優(yōu)點(diǎn):機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(adaboost算法的一些實(shí)際可以使用的場(chǎng)景：1）用于二分類或多分類的應(yīng)用場(chǎng)景2）用于做分類任務(wù)的baseline3）用于特征選擇（featureselection)4）Boosting框架用于對(duì)badcase的修正機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTadaboost算法的一些實(shí)際可以使用的場(chǎng)景：1）用于二分類七、K-meansK-means算法是很典型的基于距離的聚類算法，采用距離作為相似性的評(píng)價(jià)指標(biāo)，即認(rèn)為兩個(gè)對(duì)象的距離越近，其相似度就越大。該算法認(rèn)為簇是由距離靠近的對(duì)象組成的，因此把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT七、K-meansK-means算法是很典型的基于距離的聚類K-means步驟1設(shè)置初始類別中心和類別數(shù);2根據(jù)類別中心對(duì)數(shù)據(jù)進(jìn)行類別劃分;3重新計(jì)算當(dāng)前類別劃分下每類的中心;4在得到類別中心下繼續(xù)進(jìn)行類別劃分;5如果連續(xù)兩次的類別劃分結(jié)果不變則停止算法；否則循環(huán)步驟2～5;機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTK-means步驟1設(shè)置初始類別中心和類別數(shù);機(jī)器學(xué)習(xí)經(jīng)典機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)k-means算法的性能分析主要優(yōu)點(diǎn)：是解決聚類問題的一種經(jīng)典算法，簡(jiǎn)單、快速。對(duì)處理大數(shù)據(jù)集，該算法是相對(duì)可伸縮和高效率的。當(dāng)結(jié)果簇是密集的而簇間區(qū)別是明顯的時(shí)，它的效果較好。主要缺點(diǎn)必須事先給出k（要生成的簇的數(shù)目），而且對(duì)初值敏感，對(duì)于不同的初始值，可能會(huì)導(dǎo)致不同結(jié)果。不適合于發(fā)現(xiàn)非凸面形狀的簇或者大小差別很大的簇。對(duì)于“躁聲”和孤立點(diǎn)數(shù)據(jù)是敏感的，因?yàn)榇氐闹行氖峭ㄟ^計(jì)算數(shù)據(jù)的平均值得到的，這些數(shù)據(jù)的存在會(huì)使聚類的中心發(fā)生很大的偏移。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTk-means算法的性能分析主要優(yōu)點(diǎn)：機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教八、EM機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT八、EM機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)九、Apriori算法Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。Apriori算法使用頻繁項(xiàng)集的先驗(yàn)知識(shí)，使用一種稱作逐層搜索的迭代方法，k項(xiàng)集用于探索(k+1)項(xiàng)集。首先，通過掃描事務(wù)（交易）記錄，找出所有的頻繁1項(xiàng)集，該集合記做L1，然后利用L1找頻繁2項(xiàng)集的集合L2，L2找L3，如此下去，直到不能再找到任何頻繁k項(xiàng)集。最后再在所有的頻繁集中找出強(qiáng)規(guī)則，即產(chǎn)生用戶感興趣的關(guān)聯(lián)規(guī)則。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT九、Apriori算法Apriori算法是一種最有影響的挖掘步驟1：發(fā)現(xiàn)頻繁項(xiàng)集頻繁項(xiàng)集發(fā)現(xiàn)過程：（1）掃描（2）計(jì)數(shù)（3）比較（4）產(chǎn)生頻繁項(xiàng)集（5）連接、剪枝，產(chǎn)生候選項(xiàng)集重復(fù)步驟（1）~（5）直到不能發(fā)現(xiàn)更大頻集

機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT步驟1：發(fā)現(xiàn)頻繁項(xiàng)集頻繁項(xiàng)集發(fā)現(xiàn)過程：機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教步驟2：產(chǎn)生關(guān)聯(lián)規(guī)則根據(jù)前面提到的置信度的定義，關(guān)聯(lián)規(guī)則的產(chǎn)生如下：（1）對(duì)于每個(gè)頻繁項(xiàng)集L，產(chǎn)生L的所有非空子集；（2）對(duì)于L的每個(gè)非空子集S，如果則輸出規(guī)則“S→L－S”。注：L－S表示在項(xiàng)集L中除去S子集的項(xiàng)集。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT步驟2：產(chǎn)生關(guān)聯(lián)規(guī)則根據(jù)前面提到的置信度的定義，關(guān)聯(lián)規(guī)則的產(chǎn)機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)Apriori算法可以提高數(shù)據(jù)訪問效率，提升發(fā)現(xiàn)頻繁項(xiàng)集的速度局限性：可能產(chǎn)生大量的候選集可能需要重復(fù)掃描數(shù)據(jù)庫機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)十、Pagerank基本思想：如果網(wǎng)頁T存在一個(gè)指向網(wǎng)頁A的連接，則表明T的所有者認(rèn)為A比較重要，從而把T的一部分重要性得分賦予A。這個(gè)重要性得分值為：PR（T）/C(T)其中PR（T）為T的PageRank值，C(T)為T的出鏈數(shù)，則A的PageRank值為一系列類似于T的頁面重要性得分值的累加。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT十、Pagerank基本思想：如果網(wǎng)頁T存在一個(gè)指向網(wǎng)頁A的機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)優(yōu)點(diǎn)：是一個(gè)與查詢無關(guān)的靜態(tài)算法，所有網(wǎng)頁的PageRank值通過離線計(jì)算獲得；有效減少在線查詢時(shí)的計(jì)算量，極大降低了查詢響應(yīng)時(shí)間。不足：人們的查詢具有主題特征，PageRank忽略了主題相關(guān)性，導(dǎo)致結(jié)果的相關(guān)性和主題性降低；另外，PageRank有很嚴(yán)重的對(duì)新網(wǎng)頁的歧視機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT優(yōu)點(diǎn)：是一個(gè)與查詢無關(guān)的靜態(tài)算法，所有網(wǎng)頁的PageRank本次課題結(jié)束，謝謝機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT本次課題結(jié)束，謝謝機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培經(jīng)典算法經(jīng)典算法機(jī)器學(xué)習(xí)十大經(jīng)典算法C4.5分類與回歸樹樸素貝葉斯支持向量機(jī)（SVM)K近鄰（KNN）AdaBoostK均值（K-means）最大期望（EM）Apriori算法Pagerank機(jī)器學(xué)習(xí)十大經(jīng)典算法C4.5機(jī)器學(xué)習(xí)方法的分類基于學(xué)習(xí)方式的分類（1）有監(jiān)督學(xué)習(xí)：輸入數(shù)據(jù)中有導(dǎo)師信號(hào)，以概率函數(shù)、代數(shù)函數(shù)或人工神經(jīng)網(wǎng)絡(luò)為基函數(shù)模型，采用迭代計(jì)算方法，學(xué)習(xí)結(jié)果為函數(shù)。（2）無監(jiān)督學(xué)習(xí)：輸入數(shù)據(jù)中無導(dǎo)師信號(hào)，采用聚類方法，學(xué)習(xí)結(jié)果為類別。典型的無導(dǎo)師學(xué)習(xí)有發(fā)現(xiàn)學(xué)習(xí)、聚類、競(jìng)爭(zhēng)學(xué)習(xí)等。（3）強(qiáng)化學(xué)習(xí)（增強(qiáng)學(xué)習(xí)）：以環(huán)境反饋（獎(jiǎng)/懲信號(hào)）作為輸入，以統(tǒng)計(jì)和動(dòng)態(tài)規(guī)劃技術(shù)為指導(dǎo)的一種學(xué)習(xí)方法。機(jī)器學(xué)習(xí)方法的分類基于學(xué)習(xí)方式的分類有監(jiān)督學(xué)習(xí)（用于分類）標(biāo)定的訓(xùn)練數(shù)據(jù)訓(xùn)練過程：根據(jù)目標(biāo)輸出與實(shí)際輸出的誤差信號(hào)來調(diào)節(jié)參數(shù)典型方法全局：BN,NN,SVM,DecisionTree局部：KNN、CBR(Case-basereasoning)S(x)>=0ClassAS(x)<0ClassBS(x)=0ObjectsX2(area)(perimeter)X1ObjectFeatureRepresentation有監(jiān)督學(xué)習(xí)（用于分類）標(biāo)定的訓(xùn)練數(shù)據(jù)S(x)>=0S(x)<無監(jiān)督學(xué)習(xí)（用于聚類）不存在標(biāo)定的訓(xùn)練數(shù)據(jù)學(xué)習(xí)機(jī)根據(jù)外部數(shù)據(jù)的統(tǒng)計(jì)規(guī)律（e.g.Cohension&divergence）來調(diào)節(jié)系統(tǒng)參數(shù)，以使輸出能反映數(shù)據(jù)的某種特性。典型方法K-means、SOM….示例：聚類無監(jiān)督學(xué)習(xí)（用于聚類）不存在標(biāo)定的訓(xùn)練數(shù)據(jù)示例：聚類半監(jiān)督學(xué)習(xí)結(jié)合（少量的）標(biāo)定訓(xùn)練數(shù)據(jù)和（大量的）未標(biāo)定數(shù)據(jù)來進(jìn)行學(xué)習(xí)典型方法Co-training、EM、Latentvariables….半監(jiān)督學(xué)習(xí)結(jié)合（少量的）標(biāo)定訓(xùn)練數(shù)據(jù)和（大量的）未標(biāo)定數(shù)據(jù)來一、C4.5C4.5由J.RossQuinlan在ID3的基礎(chǔ)上提出的。ID3算法用來構(gòu)造決策樹。決策樹是一種類似流程圖的樹結(jié)構(gòu)，其中每個(gè)內(nèi)部節(jié)點(diǎn)（非樹葉節(jié)點(diǎn)）表示在一個(gè)屬性上的測(cè)試，每個(gè)分枝代表一個(gè)測(cè)試輸出，而每個(gè)樹葉節(jié)點(diǎn)存放一個(gè)類標(biāo)號(hào)。一旦建立好了決策樹，對(duì)于一個(gè)未給定類標(biāo)號(hào)的元組，跟蹤一條有根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑，該葉節(jié)點(diǎn)就存放著該元組的預(yù)測(cè)。決策樹的優(yōu)勢(shì)在于不需要任何領(lǐng)域知識(shí)或參數(shù)設(shè)置，產(chǎn)生的分類規(guī)則易于理解，準(zhǔn)確率較高。適合于探測(cè)性的知識(shí)發(fā)現(xiàn)。缺點(diǎn)是：在構(gòu)造樹的過程中，需要對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序，因而導(dǎo)致算法的低效。一、C4.5C4.5由J.RossQu增益比率度量是用增益度量Gain(S，A)和分裂信息度量SplitInformation(S，A)來共同定義的設(shè)S代表訓(xùn)練數(shù)據(jù)集，由s個(gè)樣本組成。A是S的某個(gè)屬性，有m個(gè)不同的取值，根據(jù)這些取值可以把S劃分為m個(gè)子集，Si表示第i個(gè)子集（i=1,2,…,m），|Si|表示子集Si中的樣本數(shù)量。增益比率度量是用增益度量Gain(S，A)和分裂信息度量Sp數(shù)據(jù)集如圖1所示，它表示的是天氣情況與去不去打高爾夫球之間的關(guān)系數(shù)據(jù)集如圖1所示，它表示的是天氣情況與去不去打高爾夫球之間的二、分類和回歸樹（ClassificationandRegressionTrees——CART，可簡(jiǎn)寫為C&RT）CART算法中的每一次分裂把數(shù)據(jù)分為兩個(gè)子集，每個(gè)子集中的樣本比被劃分之前具有更好的一致性。它是一個(gè)遞歸的過程，也就是說，這些子集還會(huì)被繼續(xù)劃分，這個(gè)過程不斷重復(fù)，直到滿足終止準(zhǔn)則，然后通過修剪和評(píng)估，得到一棵最優(yōu)的決策樹。二、分類和回歸樹（ClassificationandRe在ID3算法中，用“熵”來度量數(shù)據(jù)集隨機(jī)性的程度。在CART中我們把這種隨機(jī)性的程度稱為“雜度”（impurity，也稱為“不純度”），并且用“吉尼”(gini)指標(biāo)來衡量它。在ID3算法中，用“熵”來度量數(shù)據(jù)集隨機(jī)性的程度。在決策樹停止生長(zhǎng)的條件滿足以下一個(gè)即停止生長(zhǎng)。（1）節(jié)點(diǎn)達(dá)到完全純性；（2）數(shù)樹的深度達(dá)到用戶指定的深度；（3）節(jié)點(diǎn)中樣本的個(gè)數(shù)少于用戶指定的個(gè)數(shù)；（4）異質(zhì)性指標(biāo)下降的最大幅度小于用戶指定的幅度。決策樹停止生長(zhǎng)的條件滿足以下一個(gè)即停止生長(zhǎng)。剪枝：完整的決策樹對(duì)訓(xùn)練樣本特征的描述可能“過于精確”（受噪聲數(shù)據(jù)的影響），缺少了一般代表性而無法較好的用對(duì)新數(shù)據(jù)做分類預(yù)測(cè)，出現(xiàn)”過度擬合”。移去對(duì)樹的精度影響不大的劃分。使用成本復(fù)雜度方法，即同時(shí)度量錯(cuò)分風(fēng)險(xiǎn)和樹的復(fù)雜程度，使二者越小越好。剪枝方式：A、預(yù)修剪（prepruning）：停止生長(zhǎng)策略B、后修剪（postpruning）：在允許決策樹得到最充分生長(zhǎng)的基礎(chǔ)上，再根據(jù)一定的規(guī)則，自下而上逐層進(jìn)行剪枝。剪枝：完整的決策樹對(duì)訓(xùn)練樣本特征的描述可能“過于精確”（受噪優(yōu)點(diǎn)（1）可自動(dòng)忽略對(duì)目標(biāo)變量沒有貢獻(xiàn)的屬性變量，也為判斷屬性變量的重要性，減少變量數(shù)據(jù)提供參考；（2）在面對(duì)諸如存在缺失值、變量數(shù)多等問題時(shí)C&RT顯得非常穩(wěn)健（robust）；（3）估計(jì)模型通常不用花費(fèi)很長(zhǎng)的訓(xùn)練時(shí)間；（4）推理過程完全依據(jù)屬性變量的取值特點(diǎn)（與C5.0不同，C&RT的輸出字段既可以是數(shù)值型，也可以是分類型）（5）比其他模型更易于理解——從模型中得到的規(guī)則能得到非常直觀的解釋，決策推理過程可以表示成IF…THEN的形式（6）目標(biāo)是定類變量為分類樹，若目標(biāo)變量是定距變量，則為回歸樹；（7）通過檢測(cè)輸入字段，通過度量各個(gè)劃分產(chǎn)生的異質(zhì)性的減小程度，找到最佳的一個(gè)劃分。（8）非常靈活，可以允許有部分錯(cuò)分成本，還可指定先驗(yàn)概率分布，可使用自動(dòng)的成本復(fù)雜性剪枝來得到歸納性更強(qiáng)的樹優(yōu)點(diǎn)（1）可自動(dòng)忽略對(duì)目標(biāo)變量沒有貢獻(xiàn)的屬性變量，也為判斷屬三、樸素貝葉斯機(jī)器學(xué)習(xí)的任務(wù)：在給定訓(xùn)練數(shù)據(jù)D時(shí)，確定假設(shè)空間H中的最佳假設(shè)。最佳假設(shè)：一種方法是把它定義為在給定數(shù)據(jù)D以及H中不同假設(shè)的先驗(yàn)概率的有關(guān)知識(shí)下的最可能假設(shè)。貝葉斯理論提供了一種計(jì)算假設(shè)概率的方法，基于假設(shè)的先驗(yàn)概率、給定假設(shè)下觀察到不同數(shù)據(jù)的概率以及觀察到的數(shù)據(jù)本身。主要應(yīng)用在電子郵件過濾和文本分類的研究三、樸素貝葉斯機(jī)器學(xué)習(xí)的任務(wù)：在給定訓(xùn)練數(shù)據(jù)D時(shí)，確定假設(shè)空樸素貝葉斯算法原理：樸素貝葉斯算法原理：機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)四、KNNK-近鄰分類算法（KNearestNeighbors，簡(jiǎn)稱KNN）通過計(jì)算每個(gè)訓(xùn)練數(shù)據(jù)到待分類元組的距離，取和待分類元組距離最近的K個(gè)訓(xùn)練數(shù)據(jù)，K個(gè)數(shù)據(jù)中哪個(gè)類別的訓(xùn)練數(shù)據(jù)占多數(shù)，則待分類元組就屬于哪個(gè)類別。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT四、KNNK-近鄰分類算法（KNearestNeighbK的值一般選取為√q(q為訓(xùn)練元組的數(shù)目，商業(yè)算法通常以10作為默認(rèn)值)機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTK的值一般選取為√q(q為訓(xùn)練元組的數(shù)目，商業(yè)算法通常以1

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔