版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
決策樹、Adaboost北京10月機器學(xué)習(xí)班
鄒博
2023年11月1日1?復(fù)習(xí):熵sqrt(1-4x)<exp(-2x),0<x<1/4H(Y|X)=H(X,Y)-H(X)條件熵定義H(Y|X)=H(Y)-I(X,Y)根據(jù)互信息定義展開得到有些文獻將I(X,Y)=H(Y)–H(Y|X)作為互信息的定義式對偶式H(X|Y)=H(X,Y)-H(Y)H(X|Y)=H(X)-I(X,Y)I(X,Y)=H(X)+H(Y)-H(X,Y)有些文獻將該式作為互信息的定義式試證明:H(X|Y)≤H(X), H(Y|X)≤H(Y)2?強大的Venn圖:幫助記憶3?等式變化根據(jù)H(Y|X)=H(Y)-I(X,Y)得到I(X,Y)=H(Y)-H(Y|X)I(X,Y):在X中包含的關(guān)于Y的信息4?k近鄰分類5?決策樹(DecisionTree)一種描述概念空間的有效的歸納推理辦法?;跊Q策樹的學(xué)習(xí)方法可以進行不相關(guān)的多概念學(xué)習(xí),具有簡單快捷的優(yōu)勢,已經(jīng)在各個領(lǐng)域取得廣泛應(yīng)用。決策樹是一種樹型結(jié)構(gòu),其中每個內(nèi)部結(jié)點表示在一個屬性上的測試,每個分支代表一個測試輸出,每個葉結(jié)點代表一種類別。6?決策樹示意圖7?決策樹學(xué)習(xí)決策樹學(xué)習(xí)是以實例為基礎(chǔ)的歸納學(xué)習(xí)。決策樹學(xué)習(xí)采用的是自頂向下的遞歸方法,其基本思想是以信息熵為度量構(gòu)造一棵熵值下降最快的樹,到葉子節(jié)點處的熵值為零,此時每個葉節(jié)點中的實例都屬于同一類。8?決策樹學(xué)習(xí)算法的特點決策樹學(xué)習(xí)算法的最大優(yōu)點是,它可以自學(xué)習(xí)。在學(xué)習(xí)的過程中,不需要使用者了解過多背景知識,只需要對訓(xùn)練例子進行較好的標注,就能夠進行學(xué)習(xí)。從一類無序、無規(guī)則的事物(概念)中推理出決策樹表示的分類規(guī)則。9?決策樹學(xué)習(xí)的生成算法ID3C4.5CART10?信息增益當(dāng)熵和條件熵中的概率由數(shù)據(jù)估計(特別是極大似然估計)得到時,所對應(yīng)的熵和條件熵分別稱為經(jīng)驗熵和經(jīng)驗條件熵。信息增益表示得知特征A的信息而使得類X的信息的不確定性減少的程度。定義:特征A對訓(xùn)練數(shù)據(jù)集D的信息增益g(D,A),定義為集合D的經(jīng)驗熵H(D)與特征A給定條件下D的經(jīng)驗條件熵H(D|A)之差,即:g(D,A)=H(D)–H(D|A)即訓(xùn)練數(shù)據(jù)集類別和特征的互信息。11?基本記號設(shè)訓(xùn)練數(shù)據(jù)集為D,|D|表示其容量,即樣本個數(shù)。設(shè)有K個類Ck,k=1,2,…,K,|Ck|為屬于類Ck的樣本個數(shù)。Σk|Ck|=|D|。設(shè)特征A有n個不同的取值{a1,a2…an},根據(jù)特征A的取值講D劃分為n個子集D1,D2,…Dn,|Di|為Di的樣本個數(shù),Σi|Di|=D。記子集Di中屬于類Ck的樣本的集合為Dik,|Dik|為Dik的樣本個數(shù)。12?信息增益的計算方法計算數(shù)據(jù)集D的經(jīng)驗熵計算特征A對數(shù)據(jù)集D的經(jīng)驗條件熵H(D|A)計算信息增益:g(D,A)=H(D)–H(D|A)13?經(jīng)驗條件熵H(D|A)14?其他目標信息增益率:gr(D,A)=g(D,A)/H(A)基尼指數(shù):15?討論考察基尼指數(shù)的圖像、熵、分類誤差率三者之間的關(guān)系使用1-x近似代替-lnx16?三種決策樹學(xué)習(xí)算法適應(yīng)信息增益來進行特征選擇的決策樹學(xué)習(xí)過程,即為ID3決策。所以如果是取值更多的屬性,更容易使得數(shù)據(jù)更“純”(尤其是連續(xù)型數(shù)值),其信息增益更大,決策樹會首先挑選這個屬性作為樹的頂點。結(jié)果訓(xùn)練出來的形狀是一棵龐大且深度很淺的樹,這樣的劃分是極為不合理的。C4.5:信息增益率CART:基尼系數(shù)一個屬性的信息增益越大,表明屬性對樣本的熵減少的能力更強,這個屬性使得數(shù)據(jù)由不確定性變成確定性的能力越強。17?提升方法一個概念如果存在一個多項式的學(xué)習(xí)算法能夠?qū)W習(xí)它,并且正確率很高,那么,這個概念是強可學(xué)習(xí)的;一個概念如果存在一個多項式的學(xué)習(xí)算法能夠?qū)W習(xí)它,并且學(xué)習(xí)的正確率僅比隨機猜測略好,那么,這個概念是弱可學(xué)習(xí)的;強可學(xué)習(xí)與弱可學(xué)習(xí)是等價的。在學(xué)習(xí)中,如果已經(jīng)發(fā)現(xiàn)了“弱學(xué)習(xí)算法”,能否將他提升為“強學(xué)習(xí)算法”。18?Adaboost設(shè)訓(xùn)練數(shù)據(jù)集T={(x1,y1),(x2,y2)…(xN,yN)}初始化訓(xùn)練數(shù)據(jù)的權(quán)值分布19?Adaboost:對于m=1,2,…M使用具有權(quán)值分布Dm的訓(xùn)練數(shù)據(jù)集學(xué)習(xí),得到基本分類器計算Gm(x)在訓(xùn)練數(shù)據(jù)集上的分類誤差率計算Gm(x)的系數(shù)20?Adaboost:對于m=1,2,…M更新訓(xùn)練數(shù)據(jù)集的權(quán)值分布這里,Zm是規(guī)范化因子它使Dm+1成為一個概率分布21?Adaboost構(gòu)建基本分類器的線性組合得到最終分類器22?舉例給定下列訓(xùn)練樣本,試用AdaBoost算法學(xué)習(xí)一個強分類器。23?解初始化訓(xùn)練數(shù)據(jù)的權(quán)值分布W1i=0.124?m=1對于m=1在權(quán)值分布為D1的訓(xùn)練數(shù)據(jù)上,閾值v取2.5時誤差率最低,故基本分類器為:25?m=1G1(x)在訓(xùn)練數(shù)據(jù)集上的誤差率e1=P(G1(xi)≠yi)=0.3計算G1的系數(shù):26?m=1更新訓(xùn)練數(shù)據(jù)的權(quán)值分布:D2=(0.0715,0.0715,0.0715,0.0715,0.0715,0.0715,0.1666,0.1666,0.1666,0.0715)f1(x)=0.4236G1(x)分類器sign(f1(x))在訓(xùn)練數(shù)據(jù)集上有3個誤分類點。27?m=2對于m=2在權(quán)值分布為D2的訓(xùn)練數(shù)據(jù)上,閾值v取8.5時誤差率最低,故基本分類器為:28?m=2G2(x)在訓(xùn)練數(shù)據(jù)集上的誤差率e2=P(G2(xi)≠yi)=0.2143計算G2的系數(shù):29?m=2更新訓(xùn)練數(shù)據(jù)的權(quán)值分布:D3=(0.0455,0.0455,0.0455,0.1667,0.1667,0.01667,0.1060,0.1060,0.1060,0.0455)f2(x)=0.4236G1(x)+0.6496G2(x)分類器sign(f2(x))在訓(xùn)練數(shù)據(jù)集上有3個誤分類點。30?m=3對于m=3在權(quán)值分布為D3的訓(xùn)練數(shù)據(jù)上,閾值v取5.5時誤差率最低,故基本分類器為:31?m=3G3(x)在訓(xùn)練數(shù)據(jù)集上的誤差率e3=P(G3(xi)≠yi)=0.1820計算G3的系數(shù):32?m=3更新訓(xùn)練數(shù)據(jù)的權(quán)值分布:D4=(0.125,0.125,0.125,0.102,0.102,0.102,0.065,0.065,0.065,0.125)f3(x)=0.4236G1(x)+0.6496G2(x)+0.7514G3(x)分類器sign(f3(x))在訓(xùn)練數(shù)據(jù)集上有0個誤分類點。33?誤差上限當(dāng)G(xi)≠yi時,yi*f(xi)<0,因而exp(-yi*f(xi))≥1,前半部分得證。34?后半部分35?訓(xùn)練誤差界36?訓(xùn)練誤差界37?取γ1,γ2…的最大值,記做γ38?總結(jié)AdaBoost的訓(xùn)練誤差是以指數(shù)速率下降的AdaBoost算法不需要事先知道下界γ,AdaBoost具有自適應(yīng)性,它能適應(yīng)若分類器格子的訓(xùn)練誤差率。(“適應(yīng)”Adaptive的由來)39?感謝大家!懇請大家批評指正!40?ASMS3000決策分析平臺
1、決策分析平臺的重要性2、訂票、出票、送票統(tǒng)計3、銷售數(shù)據(jù)分析、坐席工作效率分析與航線銷售對比分析的查看與統(tǒng)計4、盈利分析5、員工業(yè)績統(tǒng)計分析6、問題考核?1.1決策分析平臺的重要性全方位的統(tǒng)計公司銷售上的各類數(shù)據(jù),有利于代理人的領(lǐng)導(dǎo)層掌握公司運轉(zhuǎn)狀態(tài),針對現(xiàn)有的情況作出進一步的決策。
準確把握員工的工作效率利用決策分析平臺的各類員工工作效率的分析,制定有效地獎懲措施,解決工作效率存在的問題。盈利分析
管理層通過具體的盈利數(shù)據(jù),查看公司的一段時間內(nèi)各個階段的盈利數(shù)據(jù),通過對比分析原因,制訂下階段的策略。?2.1訂票、出票、送票統(tǒng)計三個報表的統(tǒng)計數(shù)據(jù)來源1、訂票統(tǒng)計:訂單來源的統(tǒng)計,以訂票員為主,包含未出票的訂單。2、出票統(tǒng)計:出票來源地統(tǒng)計,以出票員為主,只統(tǒng)計已經(jīng)出票的數(shù)據(jù)。3、送票統(tǒng)計:送票員的統(tǒng)計,以市內(nèi)配送統(tǒng)計為主,統(tǒng)計送票員送票的數(shù)據(jù)。?3.1銷售數(shù)據(jù)分析航空公司銷售對比分析查看一段時期內(nèi)各個航空公司的銷售情況,給決策層提供參考的有力依據(jù),及時調(diào)整策略來平衡各個航空公司之間的銷售情況。坐席工作效率報表呼叫中心各個坐席的工作效率統(tǒng)計分析,為決策層考核呼叫中心員工的業(yè)績提供數(shù)據(jù)依據(jù)。航線銷售分析提供一段時期內(nèi)所有航線的銷售張數(shù)和銷售情況,包含退廢票。客戶部統(tǒng)計查詢會員一段時期內(nèi)具體的出票情況,給決策層提供有力的依據(jù),查看該會員為公司創(chuàng)造的利潤價值,是否提供更好的服務(wù)。?4.1盈利分析統(tǒng)計指定時間的訂單數(shù)和毛利1、在此模塊中提供四種統(tǒng)計的方式,可是查詢到所要的數(shù)據(jù),同時系統(tǒng)也會在下面提供柱形分析圖,給客戶一個直觀簡單的參考。?5.1員工業(yè)績統(tǒng)計分析客戶出票統(tǒng)計查詢指定客戶的出票量查詢客服創(chuàng)建用戶的數(shù)量查詢一段時間內(nèi)指定客戶所付款的票數(shù)會員創(chuàng)建報表查詢一個客服一段時間內(nèi)所建立的所有客戶會員分析報表分析客戶的貢獻度、創(chuàng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度物流服務(wù)合同標的與服務(wù)內(nèi)容2篇
- 2025年度航空航天零部件采購合同模板3篇
- 2025彩妝造型行業(yè)消費者權(quán)益保護合作協(xié)議3篇
- 泰州職業(yè)技術(shù)學(xué)院《城市更新與方法》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024版:變壓器買賣雙方權(quán)益保障合同3篇
- 2024年足療服務(wù)人員聘用協(xié)議樣本版B版
- 二零二五版2025年度個體美容美發(fā)店合伙合作協(xié)議3篇
- 二零二五版物聯(lián)網(wǎng)技術(shù)在農(nóng)業(yè)應(yīng)用合伙協(xié)議3篇
- 二零二五年度綠色建筑門窗安裝及節(jié)能認證協(xié)議3篇
- 二零二五版貨物搬運與物流信息平臺建設(shè)合同3篇
- 《精密板料矯平機 第1部分:型式和基本參數(shù)》
- 監(jiān)理報告范本
- 店鋪交割合同范例
- 大型活動LED屏幕安全應(yīng)急預(yù)案
- 2024年內(nèi)蒙古包頭市中考道德與法治試卷
- 湖南省長沙市2024-2025學(xué)年高二上學(xué)期期中考試地理試卷(含答案)
- 自來水質(zhì)量提升技術(shù)方案
- 金色簡約蛇年年終總結(jié)匯報模板
- 農(nóng)用地土壤環(huán)境質(zhì)量類別劃分技術(shù)指南(試行)(環(huán)辦土壤2017第97號)
- 反向開票政策解讀課件
- 工程周工作計劃
評論
0/150
提交評論