




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
經(jīng)典算法經(jīng)典算法機(jī)器學(xué)習(xí)十大經(jīng)典算法C4.5分類與回歸樹樸素貝葉斯支持向量機(jī)(SVM)K近鄰(KNN)AdaBoostK均值(K-means)最大期望(EM)Apriori算法Pagerank機(jī)器學(xué)習(xí)十大經(jīng)典算法C4.5機(jī)器學(xué)習(xí)方法的分類基于學(xué)習(xí)方式的分類(1)有監(jiān)督學(xué)習(xí):輸入數(shù)據(jù)中有導(dǎo)師信號(hào),以概率函數(shù)、代數(shù)函數(shù)或人工神經(jīng)網(wǎng)絡(luò)為基函數(shù)模型,采用迭代計(jì)算方法,學(xué)習(xí)結(jié)果為函數(shù)。(2)無監(jiān)督學(xué)習(xí):輸入數(shù)據(jù)中無導(dǎo)師信號(hào),采用聚類方法,學(xué)習(xí)結(jié)果為類別。典型的無導(dǎo)師學(xué)習(xí)有發(fā)現(xiàn)學(xué)習(xí)、聚類、競(jìng)爭(zhēng)學(xué)習(xí)等。(3)強(qiáng)化學(xué)習(xí)(增強(qiáng)學(xué)習(xí)):以環(huán)境反饋(獎(jiǎng)/懲信號(hào))作為輸入,以統(tǒng)計(jì)和動(dòng)態(tài)規(guī)劃技術(shù)為指導(dǎo)的一種學(xué)習(xí)方法。機(jī)器學(xué)習(xí)方法的分類基于學(xué)習(xí)方式的分類有監(jiān)督學(xué)習(xí)(用于分類)標(biāo)定的訓(xùn)練數(shù)據(jù)訓(xùn)練過程:根據(jù)目標(biāo)輸出與實(shí)際輸出的誤差信號(hào)來調(diào)節(jié)參數(shù)典型方法全局:BN,NN,SVM,DecisionTree局部:KNN、CBR(Case-basereasoning)S(x)>=0ClassAS(x)<0ClassBS(x)=0ObjectsX2(area)(perimeter)X1ObjectFeatureRepresentation有監(jiān)督學(xué)習(xí)(用于分類)標(biāo)定的訓(xùn)練數(shù)據(jù)S(x)>=0S(x)<無監(jiān)督學(xué)習(xí)(用于聚類)不存在標(biāo)定的訓(xùn)練數(shù)據(jù)學(xué)習(xí)機(jī)根據(jù)外部數(shù)據(jù)的統(tǒng)計(jì)規(guī)律(e.g.Cohension&divergence)來調(diào)節(jié)系統(tǒng)參數(shù),以使輸出能反映數(shù)據(jù)的某種特性。典型方法K-means、SOM….示例:聚類無監(jiān)督學(xué)習(xí)(用于聚類)不存在標(biāo)定的訓(xùn)練數(shù)據(jù)示例:聚類半監(jiān)督學(xué)習(xí)結(jié)合(少量的)標(biāo)定訓(xùn)練數(shù)據(jù)和(大量的)未標(biāo)定數(shù)據(jù)來進(jìn)行學(xué)習(xí)典型方法Co-training、EM、Latentvariables….半監(jiān)督學(xué)習(xí)結(jié)合(少量的)標(biāo)定訓(xùn)練數(shù)據(jù)和(大量的)未標(biāo)定數(shù)據(jù)來一、C4.5C4.5由J.RossQuinlan在ID3的基礎(chǔ)上提出的。ID3算法用來構(gòu)造決策樹。決策樹是一種類似流程圖的樹結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)(非樹葉節(jié)點(diǎn))表示在一個(gè)屬性上的測(cè)試,每個(gè)分枝代表一個(gè)測(cè)試輸出,而每個(gè)樹葉節(jié)點(diǎn)存放一個(gè)類標(biāo)號(hào)。一旦建立好了決策樹,對(duì)于一個(gè)未給定類標(biāo)號(hào)的元組,跟蹤一條有根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑,該葉節(jié)點(diǎn)就存放著該元組的預(yù)測(cè)。決策樹的優(yōu)勢(shì)在于不需要任何領(lǐng)域知識(shí)或參數(shù)設(shè)置,產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高。適合于探測(cè)性的知識(shí)發(fā)現(xiàn)。缺點(diǎn)是:在構(gòu)造樹的過程中,需要對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的低效。一、C4.5C4.5由J.RossQu增益比率度量是用增益度量Gain(S,A)和分裂信息度量SplitInformation(S,A)來共同定義的設(shè)S代表訓(xùn)練數(shù)據(jù)集,由s個(gè)樣本組成。A是S的某個(gè)屬性,有m個(gè)不同的取值,根據(jù)這些取值可以把S劃分為m個(gè)子集,Si表示第i個(gè)子集(i=1,2,…,m),|Si|表示子集Si中的樣本數(shù)量。增益比率度量是用增益度量Gain(S,A)和分裂信息度量Sp數(shù)據(jù)集如圖1所示,它表示的是天氣情況與去不去打高爾夫球之間的關(guān)系數(shù)據(jù)集如圖1所示,它表示的是天氣情況與去不去打高爾夫球之間的二、分類和回歸樹(ClassificationandRegressionTrees——CART,可簡(jiǎn)寫為C&RT)CART算法中的每一次分裂把數(shù)據(jù)分為兩個(gè)子集,每個(gè)子集中的樣本比被劃分之前具有更好的一致性。它是一個(gè)遞歸的過程,也就是說,這些子集還會(huì)被繼續(xù)劃分,這個(gè)過程不斷重復(fù),直到滿足終止準(zhǔn)則,然后通過修剪和評(píng)估,得到一棵最優(yōu)的決策樹。二、分類和回歸樹(ClassificationandRe在ID3算法中,用“熵”來度量數(shù)據(jù)集隨機(jī)性的程度。在CART中我們把這種隨機(jī)性的程度稱為“雜度”(impurity,也稱為“不純度”),并且用“吉尼”(gini)指標(biāo)來衡量它。在ID3算法中,用“熵”來度量數(shù)據(jù)集隨機(jī)性的程度。在決策樹停止生長(zhǎng)的條件滿足以下一個(gè)即停止生長(zhǎng)。(1)節(jié)點(diǎn)達(dá)到完全純性;(2)數(shù)樹的深度達(dá)到用戶指定的深度;(3)節(jié)點(diǎn)中樣本的個(gè)數(shù)少于用戶指定的個(gè)數(shù);(4)異質(zhì)性指標(biāo)下降的最大幅度小于用戶指定的幅度。決策樹停止生長(zhǎng)的條件滿足以下一個(gè)即停止生長(zhǎng)。剪枝:完整的決策樹對(duì)訓(xùn)練樣本特征的描述可能“過于精確”(受噪聲數(shù)據(jù)的影響),缺少了一般代表性而無法較好的用對(duì)新數(shù)據(jù)做分類預(yù)測(cè),出現(xiàn)”過度擬合”。移去對(duì)樹的精度影響不大的劃分。使用成本復(fù)雜度方法,即同時(shí)度量錯(cuò)分風(fēng)險(xiǎn)和樹的復(fù)雜程度,使二者越小越好。剪枝方式:A、預(yù)修剪(prepruning):停止生長(zhǎng)策略B、后修剪(postpruning):在允許決策樹得到最充分生長(zhǎng)的基礎(chǔ)上,再根據(jù)一定的規(guī)則,自下而上逐層進(jìn)行剪枝。剪枝:完整的決策樹對(duì)訓(xùn)練樣本特征的描述可能“過于精確”(受噪優(yōu)點(diǎn)(1)可自動(dòng)忽略對(duì)目標(biāo)變量沒有貢獻(xiàn)的屬性變量,也為判斷屬性變量的重要性,減少變量數(shù)據(jù)提供參考;(2)在面對(duì)諸如存在缺失值、變量數(shù)多等問題時(shí)C&RT顯得非常穩(wěn)健(robust);(3)估計(jì)模型通常不用花費(fèi)很長(zhǎng)的訓(xùn)練時(shí)間;(4)推理過程完全依據(jù)屬性變量的取值特點(diǎn)(與C5.0不同,C&RT的輸出字段既可以是數(shù)值型,也可以是分類型)(5)比其他模型更易于理解——從模型中得到的規(guī)則能得到非常直觀的解釋,決策推理過程可以表示成IF…THEN的形式(6)目標(biāo)是定類變量為分類樹,若目標(biāo)變量是定距變量,則為回歸樹;(7)通過檢測(cè)輸入字段,通過度量各個(gè)劃分產(chǎn)生的異質(zhì)性的減小程度,找到最佳的一個(gè)劃分。(8)非常靈活,可以允許有部分錯(cuò)分成本,還可指定先驗(yàn)概率分布,可使用自動(dòng)的成本復(fù)雜性剪枝來得到歸納性更強(qiáng)的樹優(yōu)點(diǎn)(1)可自動(dòng)忽略對(duì)目標(biāo)變量沒有貢獻(xiàn)的屬性變量,也為判斷屬三、樸素貝葉斯機(jī)器學(xué)習(xí)的任務(wù):在給定訓(xùn)練數(shù)據(jù)D時(shí),確定假設(shè)空間H中的最佳假設(shè)。最佳假設(shè):一種方法是把它定義為在給定數(shù)據(jù)D以及H中不同假設(shè)的先驗(yàn)概率的有關(guān)知識(shí)下的最可能假設(shè)。貝葉斯理論提供了一種計(jì)算假設(shè)概率的方法,基于假設(shè)的先驗(yàn)概率、給定假設(shè)下觀察到不同數(shù)據(jù)的概率以及觀察到的數(shù)據(jù)本身。主要應(yīng)用在電子郵件過濾和文本分類的研究三、樸素貝葉斯機(jī)器學(xué)習(xí)的任務(wù):在給定訓(xùn)練數(shù)據(jù)D時(shí),確定假設(shè)空樸素貝葉斯算法原理:樸素貝葉斯算法原理:機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)四、KNNK-近鄰分類算法(KNearestNeighbors,簡(jiǎn)稱KNN)通過計(jì)算每個(gè)訓(xùn)練數(shù)據(jù)到待分類元組的距離,取和待分類元組距離最近的K個(gè)訓(xùn)練數(shù)據(jù),K個(gè)數(shù)據(jù)中哪個(gè)類別的訓(xùn)練數(shù)據(jù)占多數(shù),則待分類元組就屬于哪個(gè)類別。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT四、KNNK-近鄰分類算法(KNearestNeighbK的值一般選取為√q(q為訓(xùn)練元組的數(shù)目,商業(yè)算法通常以10作為默認(rèn)值)機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTK的值一般選取為√q(q為訓(xùn)練元組的數(shù)目,商業(yè)算法通常以1
盡管近鄰法有其優(yōu)良品質(zhì),但是它的一個(gè)嚴(yán)重弱點(diǎn)與問題是需要存儲(chǔ)全部訓(xùn)練樣本,以及繁重的距離計(jì)算量。但以簡(jiǎn)單的方式降低樣本數(shù)量,只能使其性能降低,這也是不希望的。該算法比較適用于樣本容量比較大的類域的自動(dòng)分類,而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培五、SVMSVM的主要思想可以概括為兩點(diǎn):(1)它是針對(duì)線性可分情況進(jìn)行分析,對(duì)于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析成為可能;(2)它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿足一定上界。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT五、SVMSVM的主要思想可以概括為兩點(diǎn):機(jī)器學(xué)習(xí)經(jīng)典算法培SVM的應(yīng)用主要于模式識(shí)別領(lǐng)域:手寫數(shù)字識(shí)別、語音識(shí)別、人臉識(shí)別、文本分類如何針對(duì)不同的問題選擇不同的核函數(shù)仍然是一個(gè)懸而未決的問題。標(biāo)準(zhǔn)的SVM對(duì)噪聲是不具有魯棒性的。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTSVM的應(yīng)用主要于模式識(shí)別領(lǐng)域:手寫數(shù)字識(shí)別、語音識(shí)別、人臉六、AdaBoostAdaboost是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT六、AdaBoostAdaboost是一種迭代算法,其核心思Adaboost算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來確定每個(gè)樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練,最后將每次得到的分類器最后融合起來,作為最后的決策分類器。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTAdaboost算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的,它根據(jù)每Adaboost有很多優(yōu)點(diǎn):1)adaboost是一種有很高精度的分類器2)可以使用各種方法構(gòu)建子分類器,adaboost算法提供的是框架3)當(dāng)使用簡(jiǎn)單分類器時(shí),計(jì)算出的結(jié)果是可以理解的。而且弱分類器構(gòu)造極其簡(jiǎn)單4)簡(jiǎn)單,不用做特征篩選5)不用擔(dān)心overfitting機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTAdaboost有很多優(yōu)點(diǎn):機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(adaboost算法的一些實(shí)際可以使用的場(chǎng)景:1)用于二分類或多分類的應(yīng)用場(chǎng)景2)用于做分類任務(wù)的baseline3)用于特征選擇(featureselection)4)Boosting框架用于對(duì)badcase的修正機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTadaboost算法的一些實(shí)際可以使用的場(chǎng)景:1)用于二分類七、K-meansK-means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大。該算法認(rèn)為簇是由距離靠近的對(duì)象組成的,因此把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT七、K-meansK-means算法是很典型的基于距離的聚類K-means步驟1設(shè)置初始類別中心和類別數(shù);2根據(jù)類別中心對(duì)數(shù)據(jù)進(jìn)行類別劃分;3重新計(jì)算當(dāng)前類別劃分下每類的中心;4在得到類別中心下繼續(xù)進(jìn)行類別劃分;5如果連續(xù)兩次的類別劃分結(jié)果不變則停止算法;否則循環(huán)步驟2~5;機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTK-means步驟1設(shè)置初始類別中心和類別數(shù);機(jī)器學(xué)習(xí)經(jīng)典機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)k-means算法的性能分析主要優(yōu)點(diǎn):是解決聚類問題的一種經(jīng)典算法,簡(jiǎn)單、快速。對(duì)處理大數(shù)據(jù)集,該算法是相對(duì)可伸縮和高效率的。當(dāng)結(jié)果簇是密集的而簇間區(qū)別是明顯的時(shí),它的效果較好。主要缺點(diǎn)必須事先給出k(要生成的簇的數(shù)目),而且對(duì)初值敏感,對(duì)于不同的初始值,可能會(huì)導(dǎo)致不同結(jié)果。不適合于發(fā)現(xiàn)非凸面形狀的簇或者大小差別很大的簇。對(duì)于“躁聲”和孤立點(diǎn)數(shù)據(jù)是敏感的,因?yàn)榇氐闹行氖峭ㄟ^計(jì)算數(shù)據(jù)的平均值得到的,這些數(shù)據(jù)的存在會(huì)使聚類的中心發(fā)生很大的偏移。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTk-means算法的性能分析主要優(yōu)點(diǎn):機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教八、EM機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT八、EM機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)九、Apriori算法Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。Apriori算法使用頻繁項(xiàng)集的先驗(yàn)知識(shí),使用一種稱作逐層搜索的迭代方法,k項(xiàng)集用于探索(k+1)項(xiàng)集。首先,通過掃描事務(wù)(交易)記錄,找出所有的頻繁1項(xiàng)集,該集合記做L1,然后利用L1找頻繁2項(xiàng)集的集合L2,L2找L3,如此下去,直到不能再找到任何頻繁k項(xiàng)集。最后再在所有的頻繁集中找出強(qiáng)規(guī)則,即產(chǎn)生用戶感興趣的關(guān)聯(lián)規(guī)則。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT九、Apriori算法Apriori算法是一種最有影響的挖掘步驟1:發(fā)現(xiàn)頻繁項(xiàng)集頻繁項(xiàng)集發(fā)現(xiàn)過程:(1)掃描(2)計(jì)數(shù)(3)比較(4)產(chǎn)生頻繁項(xiàng)集(5)連接、剪枝,產(chǎn)生候選項(xiàng)集重復(fù)步驟(1)~(5)直到不能發(fā)現(xiàn)更大頻集
機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT步驟1:發(fā)現(xiàn)頻繁項(xiàng)集頻繁項(xiàng)集發(fā)現(xiàn)過程:機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教步驟2:產(chǎn)生關(guān)聯(lián)規(guī)則根據(jù)前面提到的置信度的定義,關(guān)聯(lián)規(guī)則的產(chǎn)生如下:(1)對(duì)于每個(gè)頻繁項(xiàng)集L,產(chǎn)生L的所有非空子集;(2)對(duì)于L的每個(gè)非空子集S,如果則輸出規(guī)則“S→L-S”。注:L-S表示在項(xiàng)集L中除去S子集的項(xiàng)集。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT步驟2:產(chǎn)生關(guān)聯(lián)規(guī)則根據(jù)前面提到的置信度的定義,關(guān)聯(lián)規(guī)則的產(chǎn)機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)Apriori算法可以提高數(shù)據(jù)訪問效率,提升發(fā)現(xiàn)頻繁項(xiàng)集的速度局限性:可能產(chǎn)生大量的候選集可能需要重復(fù)掃描數(shù)據(jù)庫機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)十、Pagerank基本思想:如果網(wǎng)頁T存在一個(gè)指向網(wǎng)頁A的連接,則表明T的所有者認(rèn)為A比較重要,從而把T的一部分重要性得分賦予A。這個(gè)重要性得分值為:PR(T)/C(T)其中PR(T)為T的PageRank值,C(T)為T的出鏈數(shù),則A的PageRank值為一系列類似于T的頁面重要性得分值的累加。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT十、Pagerank基本思想:如果網(wǎng)頁T存在一個(gè)指向網(wǎng)頁A的機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)優(yōu)點(diǎn):是一個(gè)與查詢無關(guān)的靜態(tài)算法,所有網(wǎng)頁的PageRank值通過離線計(jì)算獲得;有效減少在線查詢時(shí)的計(jì)算量,極大降低了查詢響應(yīng)時(shí)間。不足:人們的查詢具有主題特征,PageRank忽略了主題相關(guān)性,導(dǎo)致結(jié)果的相關(guān)性和主題性降低;另外,PageRank有很嚴(yán)重的對(duì)新網(wǎng)頁的歧視機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT優(yōu)點(diǎn):是一個(gè)與查詢無關(guān)的靜態(tài)算法,所有網(wǎng)頁的PageRank本次課題結(jié)束,謝謝機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT本次課題結(jié)束,謝謝機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培經(jīng)典算法經(jīng)典算法機(jī)器學(xué)習(xí)十大經(jīng)典算法C4.5分類與回歸樹樸素貝葉斯支持向量機(jī)(SVM)K近鄰(KNN)AdaBoostK均值(K-means)最大期望(EM)Apriori算法Pagerank機(jī)器學(xué)習(xí)十大經(jīng)典算法C4.5機(jī)器學(xué)習(xí)方法的分類基于學(xué)習(xí)方式的分類(1)有監(jiān)督學(xué)習(xí):輸入數(shù)據(jù)中有導(dǎo)師信號(hào),以概率函數(shù)、代數(shù)函數(shù)或人工神經(jīng)網(wǎng)絡(luò)為基函數(shù)模型,采用迭代計(jì)算方法,學(xué)習(xí)結(jié)果為函數(shù)。(2)無監(jiān)督學(xué)習(xí):輸入數(shù)據(jù)中無導(dǎo)師信號(hào),采用聚類方法,學(xué)習(xí)結(jié)果為類別。典型的無導(dǎo)師學(xué)習(xí)有發(fā)現(xiàn)學(xué)習(xí)、聚類、競(jìng)爭(zhēng)學(xué)習(xí)等。(3)強(qiáng)化學(xué)習(xí)(增強(qiáng)學(xué)習(xí)):以環(huán)境反饋(獎(jiǎng)/懲信號(hào))作為輸入,以統(tǒng)計(jì)和動(dòng)態(tài)規(guī)劃技術(shù)為指導(dǎo)的一種學(xué)習(xí)方法。機(jī)器學(xué)習(xí)方法的分類基于學(xué)習(xí)方式的分類有監(jiān)督學(xué)習(xí)(用于分類)標(biāo)定的訓(xùn)練數(shù)據(jù)訓(xùn)練過程:根據(jù)目標(biāo)輸出與實(shí)際輸出的誤差信號(hào)來調(diào)節(jié)參數(shù)典型方法全局:BN,NN,SVM,DecisionTree局部:KNN、CBR(Case-basereasoning)S(x)>=0ClassAS(x)<0ClassBS(x)=0ObjectsX2(area)(perimeter)X1ObjectFeatureRepresentation有監(jiān)督學(xué)習(xí)(用于分類)標(biāo)定的訓(xùn)練數(shù)據(jù)S(x)>=0S(x)<無監(jiān)督學(xué)習(xí)(用于聚類)不存在標(biāo)定的訓(xùn)練數(shù)據(jù)學(xué)習(xí)機(jī)根據(jù)外部數(shù)據(jù)的統(tǒng)計(jì)規(guī)律(e.g.Cohension&divergence)來調(diào)節(jié)系統(tǒng)參數(shù),以使輸出能反映數(shù)據(jù)的某種特性。典型方法K-means、SOM….示例:聚類無監(jiān)督學(xué)習(xí)(用于聚類)不存在標(biāo)定的訓(xùn)練數(shù)據(jù)示例:聚類半監(jiān)督學(xué)習(xí)結(jié)合(少量的)標(biāo)定訓(xùn)練數(shù)據(jù)和(大量的)未標(biāo)定數(shù)據(jù)來進(jìn)行學(xué)習(xí)典型方法Co-training、EM、Latentvariables….半監(jiān)督學(xué)習(xí)結(jié)合(少量的)標(biāo)定訓(xùn)練數(shù)據(jù)和(大量的)未標(biāo)定數(shù)據(jù)來一、C4.5C4.5由J.RossQuinlan在ID3的基礎(chǔ)上提出的。ID3算法用來構(gòu)造決策樹。決策樹是一種類似流程圖的樹結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)(非樹葉節(jié)點(diǎn))表示在一個(gè)屬性上的測(cè)試,每個(gè)分枝代表一個(gè)測(cè)試輸出,而每個(gè)樹葉節(jié)點(diǎn)存放一個(gè)類標(biāo)號(hào)。一旦建立好了決策樹,對(duì)于一個(gè)未給定類標(biāo)號(hào)的元組,跟蹤一條有根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑,該葉節(jié)點(diǎn)就存放著該元組的預(yù)測(cè)。決策樹的優(yōu)勢(shì)在于不需要任何領(lǐng)域知識(shí)或參數(shù)設(shè)置,產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高。適合于探測(cè)性的知識(shí)發(fā)現(xiàn)。缺點(diǎn)是:在構(gòu)造樹的過程中,需要對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的低效。一、C4.5C4.5由J.RossQu增益比率度量是用增益度量Gain(S,A)和分裂信息度量SplitInformation(S,A)來共同定義的設(shè)S代表訓(xùn)練數(shù)據(jù)集,由s個(gè)樣本組成。A是S的某個(gè)屬性,有m個(gè)不同的取值,根據(jù)這些取值可以把S劃分為m個(gè)子集,Si表示第i個(gè)子集(i=1,2,…,m),|Si|表示子集Si中的樣本數(shù)量。增益比率度量是用增益度量Gain(S,A)和分裂信息度量Sp數(shù)據(jù)集如圖1所示,它表示的是天氣情況與去不去打高爾夫球之間的關(guān)系數(shù)據(jù)集如圖1所示,它表示的是天氣情況與去不去打高爾夫球之間的二、分類和回歸樹(ClassificationandRegressionTrees——CART,可簡(jiǎn)寫為C&RT)CART算法中的每一次分裂把數(shù)據(jù)分為兩個(gè)子集,每個(gè)子集中的樣本比被劃分之前具有更好的一致性。它是一個(gè)遞歸的過程,也就是說,這些子集還會(huì)被繼續(xù)劃分,這個(gè)過程不斷重復(fù),直到滿足終止準(zhǔn)則,然后通過修剪和評(píng)估,得到一棵最優(yōu)的決策樹。二、分類和回歸樹(ClassificationandRe在ID3算法中,用“熵”來度量數(shù)據(jù)集隨機(jī)性的程度。在CART中我們把這種隨機(jī)性的程度稱為“雜度”(impurity,也稱為“不純度”),并且用“吉尼”(gini)指標(biāo)來衡量它。在ID3算法中,用“熵”來度量數(shù)據(jù)集隨機(jī)性的程度。在決策樹停止生長(zhǎng)的條件滿足以下一個(gè)即停止生長(zhǎng)。(1)節(jié)點(diǎn)達(dá)到完全純性;(2)數(shù)樹的深度達(dá)到用戶指定的深度;(3)節(jié)點(diǎn)中樣本的個(gè)數(shù)少于用戶指定的個(gè)數(shù);(4)異質(zhì)性指標(biāo)下降的最大幅度小于用戶指定的幅度。決策樹停止生長(zhǎng)的條件滿足以下一個(gè)即停止生長(zhǎng)。剪枝:完整的決策樹對(duì)訓(xùn)練樣本特征的描述可能“過于精確”(受噪聲數(shù)據(jù)的影響),缺少了一般代表性而無法較好的用對(duì)新數(shù)據(jù)做分類預(yù)測(cè),出現(xiàn)”過度擬合”。移去對(duì)樹的精度影響不大的劃分。使用成本復(fù)雜度方法,即同時(shí)度量錯(cuò)分風(fēng)險(xiǎn)和樹的復(fù)雜程度,使二者越小越好。剪枝方式:A、預(yù)修剪(prepruning):停止生長(zhǎng)策略B、后修剪(postpruning):在允許決策樹得到最充分生長(zhǎng)的基礎(chǔ)上,再根據(jù)一定的規(guī)則,自下而上逐層進(jìn)行剪枝。剪枝:完整的決策樹對(duì)訓(xùn)練樣本特征的描述可能“過于精確”(受噪優(yōu)點(diǎn)(1)可自動(dòng)忽略對(duì)目標(biāo)變量沒有貢獻(xiàn)的屬性變量,也為判斷屬性變量的重要性,減少變量數(shù)據(jù)提供參考;(2)在面對(duì)諸如存在缺失值、變量數(shù)多等問題時(shí)C&RT顯得非常穩(wěn)健(robust);(3)估計(jì)模型通常不用花費(fèi)很長(zhǎng)的訓(xùn)練時(shí)間;(4)推理過程完全依據(jù)屬性變量的取值特點(diǎn)(與C5.0不同,C&RT的輸出字段既可以是數(shù)值型,也可以是分類型)(5)比其他模型更易于理解——從模型中得到的規(guī)則能得到非常直觀的解釋,決策推理過程可以表示成IF…THEN的形式(6)目標(biāo)是定類變量為分類樹,若目標(biāo)變量是定距變量,則為回歸樹;(7)通過檢測(cè)輸入字段,通過度量各個(gè)劃分產(chǎn)生的異質(zhì)性的減小程度,找到最佳的一個(gè)劃分。(8)非常靈活,可以允許有部分錯(cuò)分成本,還可指定先驗(yàn)概率分布,可使用自動(dòng)的成本復(fù)雜性剪枝來得到歸納性更強(qiáng)的樹優(yōu)點(diǎn)(1)可自動(dòng)忽略對(duì)目標(biāo)變量沒有貢獻(xiàn)的屬性變量,也為判斷屬三、樸素貝葉斯機(jī)器學(xué)習(xí)的任務(wù):在給定訓(xùn)練數(shù)據(jù)D時(shí),確定假設(shè)空間H中的最佳假設(shè)。最佳假設(shè):一種方法是把它定義為在給定數(shù)據(jù)D以及H中不同假設(shè)的先驗(yàn)概率的有關(guān)知識(shí)下的最可能假設(shè)。貝葉斯理論提供了一種計(jì)算假設(shè)概率的方法,基于假設(shè)的先驗(yàn)概率、給定假設(shè)下觀察到不同數(shù)據(jù)的概率以及觀察到的數(shù)據(jù)本身。主要應(yīng)用在電子郵件過濾和文本分類的研究三、樸素貝葉斯機(jī)器學(xué)習(xí)的任務(wù):在給定訓(xùn)練數(shù)據(jù)D時(shí),確定假設(shè)空樸素貝葉斯算法原理:樸素貝葉斯算法原理:機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材講義課件機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)四、KNNK-近鄰分類算法(KNearestNeighbors,簡(jiǎn)稱KNN)通過計(jì)算每個(gè)訓(xùn)練數(shù)據(jù)到待分類元組的距離,取和待分類元組距離最近的K個(gè)訓(xùn)練數(shù)據(jù),K個(gè)數(shù)據(jù)中哪個(gè)類別的訓(xùn)練數(shù)據(jù)占多數(shù),則待分類元組就屬于哪個(gè)類別。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT四、KNNK-近鄰分類算法(KNearestNeighbK的值一般選取為√q(q為訓(xùn)練元組的數(shù)目,商業(yè)算法通常以10作為默認(rèn)值)機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTK的值一般選取為√q(q為訓(xùn)練元組的數(shù)目,商業(yè)算法通常以1
盡管近鄰法有其優(yōu)良品質(zhì),但是它的一個(gè)嚴(yán)重弱點(diǎn)與問題是需要存儲(chǔ)全部訓(xùn)練樣本,以及繁重的距離計(jì)算量。但以簡(jiǎn)單的方式降低樣本數(shù)量,只能使其性能降低,這也是不希望的。該算法比較適用于樣本容量比較大的類域的自動(dòng)分類,而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培五、SVMSVM的主要思想可以概括為兩點(diǎn):(1)它是針對(duì)線性可分情況進(jìn)行分析,對(duì)于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析成為可能;(2)它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿足一定上界。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT五、SVMSVM的主要思想可以概括為兩點(diǎn):機(jī)器學(xué)習(xí)經(jīng)典算法培SVM的應(yīng)用主要于模式識(shí)別領(lǐng)域:手寫數(shù)字識(shí)別、語音識(shí)別、人臉識(shí)別、文本分類如何針對(duì)不同的問題選擇不同的核函數(shù)仍然是一個(gè)懸而未決的問題。標(biāo)準(zhǔn)的SVM對(duì)噪聲是不具有魯棒性的。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTSVM的應(yīng)用主要于模式識(shí)別領(lǐng)域:手寫數(shù)字識(shí)別、語音識(shí)別、人臉六、AdaBoostAdaboost是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT六、AdaBoostAdaboost是一種迭代算法,其核心思Adaboost算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來確定每個(gè)樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練,最后將每次得到的分類器最后融合起來,作為最后的決策分類器。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTAdaboost算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的,它根據(jù)每Adaboost有很多優(yōu)點(diǎn):1)adaboost是一種有很高精度的分類器2)可以使用各種方法構(gòu)建子分類器,adaboost算法提供的是框架3)當(dāng)使用簡(jiǎn)單分類器時(shí),計(jì)算出的結(jié)果是可以理解的。而且弱分類器構(gòu)造極其簡(jiǎn)單4)簡(jiǎn)單,不用做特征篩選5)不用擔(dān)心overfitting機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTAdaboost有很多優(yōu)點(diǎn):機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(adaboost算法的一些實(shí)際可以使用的場(chǎng)景:1)用于二分類或多分類的應(yīng)用場(chǎng)景2)用于做分類任務(wù)的baseline3)用于特征選擇(featureselection)4)Boosting框架用于對(duì)badcase的修正機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTadaboost算法的一些實(shí)際可以使用的場(chǎng)景:1)用于二分類七、K-meansK-means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大。該算法認(rèn)為簇是由距離靠近的對(duì)象組成的,因此把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT七、K-meansK-means算法是很典型的基于距離的聚類K-means步驟1設(shè)置初始類別中心和類別數(shù);2根據(jù)類別中心對(duì)數(shù)據(jù)進(jìn)行類別劃分;3重新計(jì)算當(dāng)前類別劃分下每類的中心;4在得到類別中心下繼續(xù)進(jìn)行類別劃分;5如果連續(xù)兩次的類別劃分結(jié)果不變則停止算法;否則循環(huán)步驟2~5;機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTK-means步驟1設(shè)置初始類別中心和類別數(shù);機(jī)器學(xué)習(xí)經(jīng)典機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)k-means算法的性能分析主要優(yōu)點(diǎn):是解決聚類問題的一種經(jīng)典算法,簡(jiǎn)單、快速。對(duì)處理大數(shù)據(jù)集,該算法是相對(duì)可伸縮和高效率的。當(dāng)結(jié)果簇是密集的而簇間區(qū)別是明顯的時(shí),它的效果較好。主要缺點(diǎn)必須事先給出k(要生成的簇的數(shù)目),而且對(duì)初值敏感,對(duì)于不同的初始值,可能會(huì)導(dǎo)致不同結(jié)果。不適合于發(fā)現(xiàn)非凸面形狀的簇或者大小差別很大的簇。對(duì)于“躁聲”和孤立點(diǎn)數(shù)據(jù)是敏感的,因?yàn)榇氐闹行氖峭ㄟ^計(jì)算數(shù)據(jù)的平均值得到的,這些數(shù)據(jù)的存在會(huì)使聚類的中心發(fā)生很大的偏移。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPTk-means算法的性能分析主要優(yōu)點(diǎn):機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教八、EM機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT八、EM機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)教材工作匯報(bào)課件PPT機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)培訓(xùn)課件培訓(xùn)講義培訓(xùn)九、Apriori算法Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。Apriori算法使用頻繁項(xiàng)集的先驗(yàn)知識(shí),使用一種稱作逐層搜索的迭代方法,k項(xiàng)集用于探索(k+1)項(xiàng)集。首先,通過掃描事務(wù)(交易)記錄,找出所有的頻繁1項(xiàng)集,該集合記做L1,然后利用L1找頻繁2項(xiàng)集的集合L2,L2找L3,如此下去,直到不能再找到任何頻繁k項(xiàng)集。最后再在所有的頻繁集中找出強(qiáng)規(guī)則,即產(chǎn)生用戶感興趣的關(guān)聯(lián)規(guī)則。機(jī)器學(xué)習(xí)經(jīng)典算法培訓(xùn)教材PPT(45張)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 供熱應(yīng)急搶險(xiǎn)管理辦法
- 便民流動(dòng)攤位管理辦法
- 急性創(chuàng)傷骨折患者的康復(fù)干預(yù)方案研究
- 共同體理論下的社區(qū)安全韌性建設(shè)路徑探索與實(shí)踐進(jìn)路
- 礦山節(jié)能技術(shù)-洞察及研究
- 煤礦機(jī)電管理績(jī)效評(píng)價(jià)與改進(jìn)策略
- 歷史焦點(diǎn)人物康熙帝研究
- 自動(dòng)控制技術(shù)的應(yīng)用與發(fā)展故事
- 機(jī)場(chǎng)商業(yè)投訴管理辦法
- 煤礦突發(fā)事故應(yīng)急預(yù)案
- 2023年醫(yī)技類-康復(fù)醫(yī)學(xué)(副高)考試歷年真題薈萃帶答案
- 改進(jìn)維持性血液透析患者貧血狀況PDCA
- 公司崗位職級(jí)管理制度
- 漏肩風(fēng)(肩周炎)中醫(yī)臨床路徑及入院標(biāo)準(zhǔn)2020版
- 光面爆破知識(shí)講座課件
- 高鐵站裝飾裝修方案
- DB4401-T 112.1-2021 城市道路占道施工交通組織和安全措施設(shè)置+第1部分:交通安全設(shè)施設(shè)置-(高清現(xiàn)行)
- 質(zhì)量整改通知單(樣板)
- 杭州市高級(jí)中學(xué)2022年高一新生素質(zhì)測(cè)試(分班考)模擬試卷
- 《碳纖維片材加固混凝土結(jié)構(gòu)技術(shù)規(guī)程》(2022年版)
- 智能建筑項(xiàng)目設(shè)計(jì)方案(模板)
評(píng)論
0/150
提交評(píng)論