




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
分類其他技術(shù)第1頁,課件共134頁,創(chuàng)作于2023年2月7/30/20231數(shù)據(jù)挖掘:概念與技術(shù)第5章分類:其他技術(shù)基于規(guī)則的分類最近鄰分類貝葉斯分類神經(jīng)網(wǎng)絡(luò)支持向量機組合方法不平衡類問題多類問題第2頁,課件共134頁,創(chuàng)作于2023年2月7/30/20232數(shù)據(jù)挖掘:概念與技術(shù)5.1基于規(guī)則的分類器第3頁,課件共134頁,創(chuàng)作于2023年2月7/30/20233數(shù)據(jù)挖掘:概念與技術(shù)基于規(guī)則的分類器使用一組“if…then…”規(guī)則進行分類規(guī)則:(Condition)y其中
Condition
是屬性測試的合取
y
是類標(biāo)號左部:規(guī)則的前件或前提右部:規(guī)則的結(jié)論分類規(guī)則的例子:(BloodType=Warm)(LayEggs=Yes)Birds(TaxableIncome<50K)(Refund=Yes)Evade=No7/30/20234數(shù)據(jù)挖掘:概念與技術(shù)第4頁,課件共134頁,創(chuàng)作于2023年2月基于規(guī)則的分類器:例脊椎動物數(shù)據(jù)集名稱體溫表皮覆蓋胎生水生動物飛行動物有腿冬眠類標(biāo)號人類蟒蛇鮭魚鯨青蛙巨蜥蝙蝠鴿子貓虹鳉美洲鱷企鵝豪豬鰻鱺蠑螈
恒溫冷血冷血恒溫冷血冷血恒溫恒溫恒溫冷血冷血恒溫恒溫冷血冷血毛發(fā)鱗片鱗片毛發(fā)無鱗片毛發(fā)羽毛軟毛鱗片鱗片羽毛剛毛鱗片無是否否是否否是否是是否否是否否否否是是半否否否否是半半否是半否否否否否否是是否否否否否否否是否否否是是是是是否是是是否是否是否否是否是否否否否否是否是哺乳類爬行類魚類哺乳類兩棲類爬行類哺乳類鳥類哺乳類魚類爬行類鳥類哺乳類魚類兩棲類7/30/20235數(shù)據(jù)挖掘:概念與技術(shù)第5頁,課件共134頁,創(chuàng)作于2023年2月基于規(guī)則的分類器的使用規(guī)則r
覆蓋實例x,如果該實例的屬性滿足規(guī)則r的條件r1:(胎生=否)(飛行動物=是)→鳥類r2:(胎生=否)(水生動物=是)→魚類r3:(胎生=是)(體溫=恒溫)→哺乳類r4:(胎生=否)(飛行動物=否)→爬行類r5:(水生動物=半)→兩棲類規(guī)則r1覆蓋“鷹”=>鳥類規(guī)則r3
覆蓋“灰熊”=>哺乳類名稱體溫表皮覆蓋胎生水生動物飛行動物有腿冬眠類標(biāo)號鷹灰熊
恒溫恒溫羽毛軟毛否是否否是否是是否是??7/30/20236數(shù)據(jù)挖掘:概念與技術(shù)第6頁,課件共134頁,創(chuàng)作于2023年2月規(guī)則的質(zhì)量用覆蓋率和準(zhǔn)確率度量規(guī)則的覆蓋率(coverage):滿足規(guī)則前件的記錄所占的比例規(guī)則的準(zhǔn)確率(accuracy):在滿足規(guī)則前件的記錄中,滿足規(guī)則后件的記錄所占的比例規(guī)則:(Status=Single)NoCoverage=40%,Accuracy=50%Tid
Refund
Marital
Status
Taxable
Income
Class
1Yes
Single
125KNo2No
Married
100K
No3No
Single
70K
No
4
Yes
Married
120K
No
5
No
Divorced
95K
Yes
6
No
Married
60K
No
7
Yes
Divorced
220K
No
8
No
Single
85K
Yes
9No
Married
75K
No
10NoSingle90K
Yes10
7/30/20237數(shù)據(jù)挖掘:概念與技術(shù)第7頁,課件共134頁,創(chuàng)作于2023年2月如何用規(guī)則分類一組規(guī)則r1:(胎生=否)(飛行動物=是)→鳥類r2:(胎生=否)(水生動物=是)→魚類r3:(胎生=是)(體溫=恒溫)→哺乳類r4:(胎生=否)(飛行動物=
否)→爬行類r5:(水生動物=半)→兩棲類待分類記錄狐猴觸發(fā)規(guī)則r3,它分到哺乳類海龜觸發(fā)規(guī)則r4和r5----沖突狗鯊未觸發(fā)任何規(guī)則名稱體溫胎生飛行動物水生動物類狐猴恒溫是否否?海龜冷血否否半水生?狗鯊冷血是否是?7/30/20238數(shù)據(jù)挖掘:概念與技術(shù)第8頁,課件共134頁,創(chuàng)作于2023年2月規(guī)則的分類器的特征互斥規(guī)則集每個記錄最多被一個規(guī)則覆蓋如果規(guī)則都是相互獨立的,分類器包含互斥規(guī)則如果規(guī)則集不是互斥的一個記錄可能被多個規(guī)則觸發(fā)如何處理?
有序規(guī)則集基于規(guī)則的序vs基于類的序無序規(guī)則集–使用投票策略7/30/20239數(shù)據(jù)挖掘:概念與技術(shù)第9頁,課件共134頁,創(chuàng)作于2023年2月規(guī)則的分類器的特征(續(xù))窮舉規(guī)則集每個記錄至少被一個規(guī)則覆蓋如果規(guī)則集涵蓋了屬性值的所有可能組合,則規(guī)則集具有窮舉覆蓋如果規(guī)則集不是窮舉的一個記錄可能不被任何規(guī)則觸發(fā)如何處理?
使用缺省類7/30/202310數(shù)據(jù)挖掘:概念與技術(shù)第10頁,課件共134頁,創(chuàng)作于2023年2月有序規(guī)則集根據(jù)規(guī)則優(yōu)先權(quán)將規(guī)則排序定秩(rank)有序規(guī)則集又成決策表(decisionlist)對記錄進行分類時由被觸發(fā)的,具有最高秩的規(guī)則確定記錄的類標(biāo)號如果沒有規(guī)則被觸發(fā),則指派到缺省類r1:(胎生=否)(飛行動物=是)→鳥類r2:(胎生=否)(水生動物=是)→魚類r3:(胎生=是)(體溫=恒溫)→哺乳類r4:(胎生=否)(飛行動物=否)→爬行類r5:(水生動物=半)→兩棲類名稱體溫胎生飛行動物水生動物類海龜冷血否否半水生?7/30/202311數(shù)據(jù)挖掘:概念與技術(shù)第11頁,課件共134頁,創(chuàng)作于2023年2月規(guī)則定序方案基于規(guī)則的序根據(jù)規(guī)則的質(zhì)量排序基于類的序?qū)儆谕活惖囊?guī)則放在一起基于類信息(如類的分布、重要性)對每類規(guī)則排序基于規(guī)則的排序(表皮覆蓋=羽毛,飛行動物=是)鳥類(體溫=恒溫,胎生=是)哺乳類(體溫=恒溫,胎生=否)鳥類(水生動物=半)兩棲類(表皮覆蓋=鱗片,水生動物=否)爬行類(表皮覆蓋=鱗片,水生動物=是)魚類(表皮覆蓋=無)兩棲類基于類的排序(表皮覆蓋=羽毛,飛行動物=是)鳥類(體溫=恒溫,胎生=否)鳥類(體溫=恒溫,胎生=是)哺乳類(水生動物=半)兩棲類(表皮覆蓋=無)==>兩棲類(表皮覆蓋=鱗片,水生動物=否)爬行類(表皮覆蓋=鱗片,水生動物=是)魚類7/30/202312數(shù)據(jù)挖掘:概念與技術(shù)第12頁,課件共134頁,創(chuàng)作于2023年2月如何建立基于規(guī)則的分類器直接方法:直接由數(shù)據(jù)提取規(guī)則例如:RIPPER,CN2,Holte’s1R間接方法:由其他分類模型提取規(guī)則(例如,從決策樹、神經(jīng)網(wǎng)絡(luò)等).例如:C4.5rules7/30/202313數(shù)據(jù)挖掘:概念與技術(shù)第13頁,課件共134頁,創(chuàng)作于2023年2月直接方法:順序覆蓋基本思想依次對每個類建立一個或多個規(guī)則對第i類建立規(guī)則第i類記錄為正例,其余為負例建立一個第i類的規(guī)則r,盡可能地覆蓋正例,而不覆蓋負例刪除r覆蓋的所有記錄,在剩余數(shù)據(jù)集上學(xué)習(xí)下一個規(guī)則,直到所有第i類記錄都被刪除7/30/202314數(shù)據(jù)挖掘:概念與技術(shù)第14頁,課件共134頁,創(chuàng)作于2023年2月直接方法:順序覆蓋順序覆蓋(sequentialcovering)算法
1:令E是訓(xùn)練記錄,A是屬性—值對的集合{(Aj,vj)}2:令Yo是類的有序集{y1,y2,...,yk}3:令R={}是初始規(guī)則列表
4:for每個類y∈Yo
{yk}do5: while終止條件不滿足do6:r←Learn-One-Rule(E,A,y)7:從E中刪除被r覆蓋的訓(xùn)練記錄
8:追加r到規(guī)則列表尾部:RR
r9:endwhile10:endfor11:把默認規(guī)則{}→yk插入到規(guī)則列表R尾部7/30/202315數(shù)據(jù)挖掘:概念與技術(shù)第15頁,課件共134頁,創(chuàng)作于2023年2月順序覆蓋:例(a)Originaldata(b)Step1(c)Step2(c)Step37/30/202316數(shù)據(jù)挖掘:概念與技術(shù)第16頁,課件共134頁,創(chuàng)作于2023年2月刪除實例為什么要刪除實例?否則,下一個規(guī)則將與前面的規(guī)則相同為什么刪除正實例?確保下一個規(guī)則不同為什么刪除負實例?防止低估規(guī)則的準(zhǔn)確率比較圖中的規(guī)則R2和R37/30/202317數(shù)據(jù)挖掘:概念與技術(shù)第17頁,課件共134頁,創(chuàng)作于2023年2月Learn-One-Rule規(guī)則增長實例刪除規(guī)則評估停止準(zhǔn)則規(guī)則剪枝7/30/202318數(shù)據(jù)挖掘:概念與技術(shù)第18頁,課件共134頁,創(chuàng)作于2023年2月規(guī)則增長兩種策略一般到特殊從初始規(guī)則r:{}→y開始反復(fù)加入合取項,得到更特殊的規(guī)則,直到不能再加入特殊到一般隨機地選擇一個正例作為初始規(guī)則反復(fù)刪除合取項,得到更一般的規(guī)則,直到不能再刪除問題加入/刪除合取項有多種選擇,如何選擇?何時停止加入/刪除合取項? 需要評估標(biāo)準(zhǔn)7/30/202319數(shù)據(jù)挖掘:概念與技術(shù)第19頁,課件共134頁,創(chuàng)作于2023年2月規(guī)則增長:例一般到特殊體溫=恒溫,表皮覆蓋=毛發(fā),胎生=是,水生動物=否,飛行動物=否,有腿=是,冬眠=否=>哺乳類表皮覆蓋=毛發(fā),胎生=是,水生動物=否,飛行動物=否,有腿=是,冬眠=否=>哺乳類體溫=恒溫,表皮覆蓋=毛發(fā),胎生=是,水生動物=否,飛行動物=否,有腿=是=>哺乳類{}=>哺乳類表皮覆蓋=毛發(fā)=>哺乳類體溫=恒溫=>哺乳類有腿=否=>哺乳類體溫=恒溫,有腿=是=>哺乳類體溫=恒溫,胎生=是=>哺乳類特殊到一般7/30/202320數(shù)據(jù)挖掘:概念與技術(shù)第20頁,課件共134頁,創(chuàng)作于2023年2月規(guī)則評估常用的度量準(zhǔn)確率似然比LaplaceM-estimateFOIL信息增益7/30/202321數(shù)據(jù)挖掘:概念與技術(shù)第21頁,課件共134頁,創(chuàng)作于2023年2月規(guī)則評估(續(xù))準(zhǔn)確率Accuracyn:被規(guī)則覆蓋的實例數(shù)nc:被規(guī)則正確分類的實例數(shù)問題:準(zhǔn)確率高的規(guī)則可能覆蓋率太低似然比(越高越好)k是類的個數(shù)fi是被規(guī)則覆蓋的類i的樣本的觀測頻度ei是規(guī)則作隨機猜測的期望頻度7/30/202322數(shù)據(jù)挖掘:概念與技術(shù)第22頁,課件共134頁,創(chuàng)作于2023年2月規(guī)則評估:例例:60個正例和100個反例 規(guī)則r1:覆蓋50個正例和5個反例(acc=90.9%) 規(guī)則r2:覆蓋2個正例和0個反例(acc=100%)使用準(zhǔn)確率,r2好使用似然比r1:正類的期望頻度為e+=5560/160=20.625
負類的期望頻度為e=55100/160=34.375r2:正類的期望頻度為e+=260/160=0.75
負類的期望頻度為e=2100/160=1.25R(r1)=2[50log2(50/20.625)+5log2(5/34.375)]=99.9R(r2)=2[2log2(2/0.75)+0log2(0/1.25)]=5.66r1比r2好7/30/202323數(shù)據(jù)挖掘:概念與技術(shù)第23頁,課件共134頁,創(chuàng)作于2023年2月規(guī)則評估(續(xù))
考慮規(guī)則覆蓋率的評估度量n是規(guī)則覆蓋的樣例數(shù),f+是規(guī)則覆蓋的正例數(shù),k是類的總數(shù),p+是正類的先驗概率當(dāng)規(guī)則的覆蓋率很高時,兩個度量都漸近地趨向于規(guī)則的準(zhǔn)確率f+/n
繼續(xù)前例r1的Laplace度量為51/57=89.47%,很接近它的準(zhǔn)確率r2的Laplace度量(75%)比它的準(zhǔn)確率小很多7/30/202324數(shù)據(jù)挖掘:概念與技術(shù)第24頁,課件共134頁,創(chuàng)作于2023年2月規(guī)則評估(續(xù))
考慮規(guī)則的支持度計數(shù)的評估度量規(guī)則的支持度計數(shù)對應(yīng)于它所覆蓋的正例數(shù)FOIL信息增益(FirstOrderInductiveLeanerinformationgain)設(shè)規(guī)則r:A→+覆蓋p0個正例和n0個反例;規(guī)則r’:A
B→+覆蓋p1個正例和n1個反例.擴展后規(guī)則的FOIL信息增益定義為該度量與p1和p1/(p1+n1)成正比,所以它更傾向于選擇那些高支持度計數(shù)和高準(zhǔn)確率的規(guī)則繼續(xù)前例r1和r2的FOIL信息增益分別為43.12和2,因此規(guī)則r1比r2好7/30/202325數(shù)據(jù)挖掘:概念與技術(shù)第25頁,課件共134頁,創(chuàng)作于2023年2月停止條件與規(guī)則剪枝停止條件計算增益如果增益不顯著,則丟棄新規(guī)則規(guī)則剪枝類似于決策樹后剪枝降低錯誤剪枝:
刪除規(guī)則中的合取項比較剪枝前后的錯誤率如果降低了錯誤率,則剪掉該合取項7/30/202326數(shù)據(jù)挖掘:概念與技術(shù)第26頁,課件共134頁,創(chuàng)作于2023年2月直接方法:RIPPER對于2類問題,選定一個類為正類,另一個為負類從正類學(xué)習(xí)規(guī)則負類時缺省類多類問題按類的大?。▽儆谔囟惖膶嵗嫉谋壤χT類排序從最小的類開始學(xué)習(xí)規(guī)則,其余類都看做負類對次小類學(xué)習(xí)規(guī)則,如此下去7/30/202327數(shù)據(jù)挖掘:概念與技術(shù)第27頁,課件共134頁,創(chuàng)作于2023年2月直接方法:RIPPER(續(xù))
規(guī)則增長:由空規(guī)則開始只要能夠提高FOIL信息增益就增加一個合取項當(dāng)規(guī)則不再覆蓋負實例時就停止剪枝剪枝度量:
v=(pn)/(p+n)
p:驗證集中被規(guī)則覆蓋的正實例數(shù)
n:驗證集中被規(guī)則覆蓋的負實例數(shù)剪枝方法:如果剪掉合取項可以提高v就剪7/30/202328數(shù)據(jù)挖掘:概念與技術(shù)第28頁,課件共134頁,創(chuàng)作于2023年2月直接方法:RIPPER(續(xù))
建立規(guī)則集:使用順序覆蓋算找出覆蓋當(dāng)前正實例的最佳規(guī)則刪除被規(guī)則覆蓋的所有正實例和負實例當(dāng)一個規(guī)則加入規(guī)則集時,計算新的描述長度當(dāng)新的描述長度比已經(jīng)得到的描述長度多d位時,就停止增加新規(guī)則7/30/202329數(shù)據(jù)挖掘:概念與技術(shù)第29頁,課件共134頁,創(chuàng)作于2023年2月直接方法:RIPPER(續(xù))
優(yōu)化規(guī)則集:對規(guī)則集R中的每個規(guī)則r考慮2個替換的規(guī)則:替換規(guī)則(r*):重新增長新規(guī)則編輯的規(guī)則(r’):把一個新的合取項增加到規(guī)則r比較替換前后的規(guī)則集選擇最小化MDL的規(guī)則集對剩下的正實例,重復(fù)規(guī)則產(chǎn)生和優(yōu)化7/30/202330數(shù)據(jù)挖掘:概念與技術(shù)第30頁,課件共134頁,創(chuàng)作于2023年2月規(guī)則提取的間接方法決策樹從根結(jié)點到葉結(jié)點的每一條路徑都可以表示為一個分類規(guī)則路徑中的測試條件構(gòu)成規(guī)則前件的合取項,葉結(jié)點的類標(biāo)號賦給規(guī)則后件7/30/202331數(shù)據(jù)挖掘:概念與技術(shù)第31頁,課件共134頁,創(chuàng)作于2023年2月間接方法:C4.5rules(續(xù))
從未剪枝的決策樹提取規(guī)則規(guī)則產(chǎn)生對每個規(guī)則r:Ay,考慮替換規(guī)則r’:A’y其中A’由刪除A的一個合取項得到比較r與所有r’的悲觀誤差如果r’的悲觀誤差小,則剪枝重復(fù)該過程,直到不能改進7/30/202332數(shù)據(jù)挖掘:概念與技術(shù)第32頁,課件共134頁,創(chuàng)作于2023年2月間接方法:C4.5rules規(guī)則定序不是對規(guī)則定序,而是對規(guī)則的子集定序(classordering)每個規(guī)則子集是一組具有相同規(guī)則后件(class)的規(guī)則計算每個子集的描述長度描述長度=L(error)+g
L(model)g
是參數(shù),考慮規(guī)則集中冗余屬性(缺省值g=0.5)7/30/202333數(shù)據(jù)挖掘:概念與技術(shù)第33頁,課件共134頁,創(chuàng)作于2023年2月C4.5vsC4.5rulesvsRIPPERC4.5rules:(胎生=否,飛行動物=是)=>鳥類(胎生=否,水生動物=是)=>魚類(胎生=是)=>哺乳類(胎生=否,飛行動物=否,水生動物=否)=>爬行類()=>兩棲類
胎生水生?飛行?哺乳類魚類兩棲類鳥類爬行類YesNoYesSometimesNoYesNo7/30/202334數(shù)據(jù)挖掘:概念與技術(shù)第34頁,課件共134頁,創(chuàng)作于2023年2月基于規(guī)則的分類器的特征表達能力與決策樹一樣高容易解釋容易產(chǎn)生能夠快速對新實例分類性能可與決策樹相媲美7/30/202335數(shù)據(jù)挖掘:概念與技術(shù)第35頁,課件共134頁,創(chuàng)作于2023年2月5.2最近鄰分類器第36頁,課件共134頁,創(chuàng)作于2023年2月7/30/202336數(shù)據(jù)挖掘:概念與技術(shù)急切學(xué)習(xí)vs惰性學(xué)習(xí)急切學(xué)習(xí)(EagerLearner)兩步過程:(1)歸納(2)演繹惰性學(xué)習(xí)(lazylearner)把訓(xùn)練數(shù)據(jù)建模過程推遲到需要對樣本分類時例子Rote-learner(死記硬背)記住所有的訓(xùn)練數(shù)據(jù),僅當(dāng)記錄的屬性值與一個訓(xùn)練記錄完全匹配才對它分類最近鄰(Nearestneighbor)使用“最近”的k
個點(最近鄰)進行分類7/30/202337數(shù)據(jù)挖掘:概念與技術(shù)第37頁,課件共134頁,創(chuàng)作于2023年2月最近鄰分類器基本思想:Ifitwalkslikeaduck,quackslikeaduck,thenit’sprobablyaduck訓(xùn)練記錄待分類記錄計算距離選擇k個“最近”的記錄7/30/202338數(shù)據(jù)挖掘:概念與技術(shù)第38頁,課件共134頁,創(chuàng)作于2023年2月最近鄰分類器要求存放訓(xùn)練記錄計算記錄間距離的度量k值,最近鄰數(shù)對未知記錄分類:計算域各訓(xùn)練記錄的距離找出k
個最近鄰使用最近鄰的類標(biāo)號決定未知記錄的類標(biāo)號(例如,多數(shù)表決)7/30/202339數(shù)據(jù)挖掘:概念與技術(shù)第39頁,課件共134頁,創(chuàng)作于2023年2月最近鄰定義
記錄x的k-最近鄰是與x之間距離最小的k個訓(xùn)練數(shù)據(jù)點7/30/202340數(shù)據(jù)挖掘:概念與技術(shù)第40頁,課件共134頁,創(chuàng)作于2023年2月1nearest-neighborVoronoiDiagram7/30/202341數(shù)據(jù)挖掘:概念與技術(shù)第41頁,課件共134頁,創(chuàng)作于2023年2月
k-最近鄰分類算法k-最近鄰分類算法1:令k是最近鄰數(shù)目,D是訓(xùn)練樣例的集合2:for每個測試樣例z=(x',y')do3:計算z和每個樣例(x,y)D之間的距離d(x',x)4:選擇離z最近的k個訓(xùn)練樣例的集合DzD5:6:endfor距離加權(quán)表決7/30/202342數(shù)據(jù)挖掘:概念與技術(shù)第42頁,課件共134頁,創(chuàng)作于2023年2月k-最近鄰k值的選擇:如果k
太小,則對噪聲點敏感如果k
太大,鄰域可能包含很多其他類的點定標(biāo)問題(規(guī)范化)屬性可能需要規(guī)范化,防止距離度量被具有很大值域的屬性所左右7/30/202343數(shù)據(jù)挖掘:概念與技術(shù)第43頁,課件共134頁,創(chuàng)作于2023年2月k-NN的特點k-NN的特點是一種基于實例的學(xué)習(xí)需要一個鄰近性度量來確定實例間的相似性或距離不需要建立模型,但分類一個測試樣例開銷很大需要計算域所有訓(xùn)練實例之間的距離基于局部信息進行預(yù)測,對噪聲非常敏感最近鄰分類器可以生成任意形狀的決策邊界決策樹和基于規(guī)則的分類器通常是直線決策邊界需要適當(dāng)?shù)泥徑远攘亢蛿?shù)據(jù)預(yù)處理防止鄰近性度量被某個屬性左右7/30/202344數(shù)據(jù)挖掘:概念與技術(shù)第44頁,課件共134頁,創(chuàng)作于2023年2月5.3貝葉斯分類器第45頁,課件共134頁,創(chuàng)作于2023年2月7/30/202345數(shù)據(jù)挖掘:概念與技術(shù)貝葉斯定理每個記錄用一個d維特征向量X=(x1,x2,…,xd)表示假定有k個類y1,y2,…,yk.給定X,X屬于yj類的后驗概率P(yj|X)
滿足貝葉斯(Bayes)定理
MAP(maximumposteriorihypothesis,最大后驗假設(shè))將X指派到具有最大后驗概率P(yj|X)的類yj,即將X指派到P(X|yj)P(yj)
最大的類yj7/30/202346數(shù)據(jù)挖掘:概念與技術(shù)第46頁,課件共134頁,創(chuàng)作于2023年2月樸素貝葉斯分類樸素貝葉斯分類(Na?veBayesClassifier)工作原理給定一個未知的數(shù)據(jù)樣本X,分類法將預(yù)測X屬于具有最高后驗概率的類.即,未知的樣本分配給類yj,當(dāng)且僅當(dāng) 根據(jù)貝葉斯定理,我們有由于P(X)
對于所有類為常數(shù),只需要最大化P(X|yj)P(yj)即可.7/30/202347數(shù)據(jù)挖掘:概念與技術(shù)第47頁,課件共134頁,創(chuàng)作于2023年2月樸素貝葉斯分類(續(xù))估計P(yj)類yj的先驗概率可以用下式估計P(yj)=nj/n
其中,nj是類yj中的訓(xùn)練樣本數(shù),而n是訓(xùn)練樣本總數(shù)估計P(X|yj)為便于估計P(X|yj),假定類條件獨立----給定樣本的類標(biāo)號,假定屬性值條件地相互獨立.于是,P(X|Y=yj)可以用下式估計
其中,P(xi|yj)可以由訓(xùn)練樣本估值7/30/202348數(shù)據(jù)挖掘:概念與技術(shù)第48頁,課件共134頁,創(chuàng)作于2023年2月樸素貝葉斯分類(續(xù))估計P(xi|yj)設(shè)第i個屬性Ai是分類屬性,則
P(xi|yj)=nij/nj
其中nij是在屬性Ai上具有值xi的yj類的訓(xùn)練樣本數(shù),而nj是yj類的訓(xùn)練樣本數(shù)設(shè)第i個屬性Ai是連續(xù)值屬性把Ai離散化假定Ai服從高斯分布其中,ij,ij分別為給定yj類的訓(xùn)練樣本在屬性Ai上的均值和標(biāo)準(zhǔn)差7/30/202349數(shù)據(jù)挖掘:概念與技術(shù)第49頁,課件共134頁,創(chuàng)作于2023年2月樸素貝葉斯分類樸素貝葉斯分類器所需要的信息計算每個類的先驗概率P(yj) P(yj)=nj/n
其中,nj是yi類的訓(xùn)練樣本數(shù),而n是訓(xùn)練樣本總數(shù)對于離散屬性Ai,設(shè)的不同值為ai1,ai2,…,ail
,對于每個類yj,計算后驗概率P(aik|yj),1klP(aik|yj)=nikj/nj其中nikj是在屬性Ai上具有值aik
的yj類的訓(xùn)練樣本數(shù),而nj是yj類的訓(xùn)練樣本數(shù)對于連續(xù)屬性Ai
和每個類yj,計算yj類樣本的均值ij,標(biāo)準(zhǔn)差ij7/30/202350數(shù)據(jù)挖掘:概念與技術(shù)第50頁,課件共134頁,創(chuàng)作于2023年2月貝葉斯分類器:例例:P(Yes)=3/10P(No)=7/10P(有房=是|No)=3/7P(有房=否|No)=4/7P(有房=是|Yes)=0P(有房=否|Yes)=1P(婚姻狀況=單身|No)=2/7P(婚姻狀況=離婚|No)=1/7P(婚姻狀況=已婚|No)=4/7P(婚姻狀況=單身|Yes)=2/3P(婚姻狀況=離婚|Yes)=1/3P(婚姻狀況=已婚|Yes)=0年收入:類=No:樣本均值=110樣本方差=2975類=Yes:樣本均值=90樣本方差=25Tid有房婚姻狀況年收入拖欠貸款12345678910是否否是否否是否否否單身已婚單身已婚離婚已婚離婚單身已婚單身125K100K70K120K95K60K220K85K75K90KNoNoNoNoYesNoNoYesNoYes7/30/202351數(shù)據(jù)挖掘:概念與技術(shù)第51頁,課件共134頁,創(chuàng)作于2023年2月貝葉斯分類器:例(續(xù))X=(有房=否,婚姻狀況=已婚,年收入=$120K)計算P(X|No)和P(X|Yes)
P(X|No)=P(有房=否|No)P(婚姻狀況=已婚|No)P(年收入=$120K|No) =4/74/70.0072=0.0024P(X|Yes)=P(有房=否|Yes)P(婚姻狀況=已婚|Yes)P(年收入=$120K|Yes) =101.2109=0計算P(X|No)P(No)和P(X|Yes)P(Yes)
P(X|No)P(No)=0.00240.7=0.00168P(X|Yes)P(Yes)=00.3=0因為P(X|No)P(No)>P(X|Yes)P(Yes),所以X分類為No7/30/202352數(shù)據(jù)挖掘:概念與技術(shù)第52頁,課件共134頁,創(chuàng)作于2023年2月貝葉斯分類器問題如果諸條件概率P(Xi=xi|Y=yj)中的一個為0,則它們的乘積(計算P(X|Y=yj)的表達式)為0很可能每個P(X|Y=yj)都為0解決方法使用Laplace估計:
原估計:P(Xi=xi|Y=yj)=nij/nj7/30/202353數(shù)據(jù)挖掘:概念與技術(shù)第53頁,課件共134頁,創(chuàng)作于2023年2月貝葉斯分類器的特點對孤立的噪聲點的魯棒性個別點對概率估計的影響很小容易處理缺失值在估計概率時忽略缺失值的訓(xùn)練實例對不相關(guān)屬性的魯棒性各類在不相關(guān)屬性上具有類似分布類條件獨立假設(shè)可能不成立使用其他技術(shù),如貝葉斯信念網(wǎng)絡(luò)(BayesianBeliefNetworks,BBN)7/30/202354數(shù)據(jù)挖掘:概念與技術(shù)第54頁,課件共134頁,創(chuàng)作于2023年2月貝葉斯信念網(wǎng)絡(luò)貝葉斯信念網(wǎng)絡(luò)(Bayesianbeliefnetwork)允許在變量的子集間定義類條件獨立性因果關(guān)系圖模型表示變量之間的依賴給出聯(lián)合概率分布的說明圖示節(jié)點:隨機變量邊:依賴X,Y
是Z的父節(jié)點/前驅(qū),
并且Y
是P的父節(jié)點/前驅(qū)Z
和P之間沒有依賴關(guān)系圖中沒有環(huán)XYZP7/30/202355數(shù)據(jù)挖掘:概念與技術(shù)第55頁,課件共134頁,創(chuàng)作于2023年2月貝葉斯信念網(wǎng)絡(luò):例變量LungCance(LC)值的條件概率表(CPT),給出其雙親結(jié)點FamilyHistory和Smoke的每個可能值的組合的條件概率7/30/202356數(shù)據(jù)挖掘:概念與技術(shù)第56頁,課件共134頁,創(chuàng)作于2023年2月貝葉斯信念網(wǎng)絡(luò):例(續(xù))給出了LungCancer的CPT.對于其雙親值的每個可能組合,表中給出了LungCancer的每個值的條件概率.例如,由左上角和右下角,我們分別看到
P(LungCancer=“yes”|FamilyHistory=“yes”,Smoker=“yes”)=0.8 P(LungCancer=“no”|FamilyHistory=“no”,Smoker=“no”)=0.9對應(yīng)于屬性或變量Z1,…,Zn的任意元組(z1,…,zn)的聯(lián)合概率由下式計算 其中,P(zi|parents(zi))的值對應(yīng)于Zi的CPT中的表目7/30/202357數(shù)據(jù)挖掘:概念與技術(shù)第57頁,課件共134頁,創(chuàng)作于2023年2月訓(xùn)練貝葉斯信念網(wǎng)絡(luò)若干情況給定網(wǎng)絡(luò)結(jié)構(gòu)和所有可觀測變量只需要學(xué)習(xí)CPT網(wǎng)絡(luò)結(jié)構(gòu)已知,而某些變量是隱藏的使用梯度下降法或類似于神經(jīng)網(wǎng)絡(luò)的方法訓(xùn)練信念網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)未知,所有的變量可以觀測搜索模型空間,構(gòu)造網(wǎng)絡(luò)拓撲結(jié)構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)未知,所有變量是隱藏的沒有已知的好算法D.Heckerman,Bayesiannetworksfordatamining7/30/202358數(shù)據(jù)挖掘:概念與技術(shù)第58頁,課件共134頁,創(chuàng)作于2023年2月訓(xùn)練貝葉斯信念網(wǎng)絡(luò)梯度下降法設(shè)S是s個訓(xùn)練樣本X1,X2,...,Xs的集合,wijk是具有雙親Ui=uik的變量Y=yij的CPT項wijk可以看作權(quán),類似于神經(jīng)網(wǎng)絡(luò)中隱藏單元的權(quán).權(quán)的集合記作w
這些權(quán)被初始化為隨機概率值.梯度下降策略采用貪心爬山法.在每次迭代中,修改這些權(quán),并最終收斂到一個局部最優(yōu)解基于w的每個可能設(shè)置都等可能的假定,該方法搜索能最好地對數(shù)據(jù)建模wijk值.目標(biāo)是最大化7/30/202359數(shù)據(jù)挖掘:概念與技術(shù)第59頁,課件共134頁,創(chuàng)作于2023年2月訓(xùn)練貝葉斯信念網(wǎng)絡(luò):梯度下降法給定網(wǎng)絡(luò)結(jié)構(gòu)和wijk的初值,該算法按以下步驟處理計算梯度:對每個i,j,k,計算沿梯度方向前進一小步:用下式更新權(quán)值
l是表示步長的學(xué)習(xí)率,設(shè)置為一個小常數(shù)重新規(guī)格化權(quán)值:由于權(quán)值wijk是概率值,它們必須在0.0和1.0之間,并且對于所有的i,k,必須有7/30/202360數(shù)據(jù)挖掘:概念與技術(shù)第60頁,課件共134頁,創(chuàng)作于2023年2月BBN的特點BBN提供了一種用圖形模型來捕獲特定領(lǐng)域的先驗知識的方法。網(wǎng)絡(luò)還可以用來對變量間的因果依賴關(guān)系進行編碼構(gòu)造網(wǎng)絡(luò)可能既費時又費力。然而,一旦網(wǎng)絡(luò)結(jié)構(gòu)確定下來,添加新變量就十分容易貝葉斯網(wǎng)絡(luò)很適合處理不完整的數(shù)據(jù)。對有屬性遺漏的實例可以通過對該屬性的所有可能取值的概率求和或求積分來加以處理因為數(shù)據(jù)和先驗知識以概率的方式結(jié)合起來了,所以該方法對模型的過分?jǐn)M合問題是非常魯棒的7/30/202361數(shù)據(jù)挖掘:概念與技術(shù)第61頁,課件共134頁,創(chuàng)作于2023年2月使用BBN進行推理舉例E:鍛煉,D:飲食,HD:心臟病,Hb:胸口痛,BP:血壓,CP:胸痛鍛煉飲食心口痛心臟病血壓胸痛D=健康D=健康D=不健康健康不健康健康不健康BP=高7/30/202362數(shù)據(jù)挖掘:概念與技術(shù)第62頁,課件共134頁,創(chuàng)作于2023年2月情況一:沒有先驗信息通過計算先驗概率P(HD=Yes)和P(HD=No)來確定一個人是否可能患心臟病設(shè)∈{Yes,No}表示鍛煉的兩個值,∈{健康,不健康}表示飲食的兩個值,由全概率公式P(HD=Yes)=
= =0.250.70.25+0.450.70.75+0.550.30.25+0.750.30.75 =0.49因為P(HD=No)=1P(HD=Yes)=0.51,所以,此人不得心臟病的機率略微大一點7/30/202363數(shù)據(jù)挖掘:概念與技術(shù)第63頁,課件共134頁,創(chuàng)作于2023年2月情況二:高血壓如果一個人有高血壓,可以通過比較后驗概率P(HD=Yes|BP=高)和P(HD=No|BP=高)來診斷他是否患有心臟病先用全概率公式,計算P(BP=高)P(BP=高)= =0.850.49+0.20.51=0.5185其中{Yes,No}
用貝葉斯公式計算此人患心臟病的后驗概率7/30/202364數(shù)據(jù)挖掘:概念與技術(shù)第64頁,課件共134頁,創(chuàng)作于2023年2月情況三情況三:高血壓、飲食健康、經(jīng)常鍛煉身體患心臟病的后驗概率7/30/202365數(shù)據(jù)挖掘:概念與技術(shù)第65頁,課件共134頁,創(chuàng)作于2023年2月5.4人工神經(jīng)網(wǎng)絡(luò)第66頁,課件共134頁,創(chuàng)作于2023年2月7/30/202366數(shù)據(jù)挖掘:概念與技術(shù)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)最早是由心理學(xué)家和神經(jīng)學(xué)家提出的,旨在尋求開發(fā)和測試神經(jīng)的計算模擬神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,其中每個連接都與一個權(quán)相關(guān)聯(lián)在學(xué)習(xí)階段,通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測輸入樣本的正確類標(biāo)記神經(jīng)網(wǎng)絡(luò)的優(yōu)點對噪音數(shù)據(jù)的高承受能力對未知樣本的分類能力神經(jīng)網(wǎng)絡(luò)缺點需要很長的訓(xùn)練時間,因而對于有足夠長訓(xùn)練時間的應(yīng)用更合適很難解釋蘊涵在學(xué)習(xí)權(quán)之中的符號含義它需要大量的參數(shù),這些通常主要靠經(jīng)驗確定,如網(wǎng)絡(luò)拓撲或“結(jié)構(gòu)”7/30/202367數(shù)據(jù)挖掘:概念與技術(shù)第67頁,課件共134頁,創(chuàng)作于2023年2月多層前饋神經(jīng)網(wǎng)絡(luò)后向傳播是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法后向傳播算法在多層前饋(multilayerfeed-forward)神經(jīng)網(wǎng)絡(luò)上學(xué)習(xí)例:一個多層前饋神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本X={x1,x2,...,xi}饋入輸入層.每層之間存在加權(quán)連接;其中,wij表示由某層的單元j到前一層的單元i的權(quán)7/30/202368數(shù)據(jù)挖掘:概念與技術(shù)第68頁,課件共134頁,創(chuàng)作于2023年2月多層前饋神經(jīng)網(wǎng)絡(luò)(續(xù))輸入同時提供給稱作輸入層的單元層隱藏層的數(shù)量是任意的,實踐中通常只用一層輸出層發(fā)布給定樣本的網(wǎng)絡(luò)預(yù)測隱藏層和輸出層的單元,有時稱作neurodes(源于符號生物學(xué)),或輸出單元包含n個隱藏層的網(wǎng)絡(luò)稱作n+1層神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)是前饋的,如果其權(quán)都不回送到輸入單元,或前一層的輸出單元網(wǎng)絡(luò)是全連接的,如果每個單元都向下一層的每個單元提供輸入給定足夠多的隱藏單元,線性閾值函數(shù)的多層前饋神經(jīng)網(wǎng)絡(luò)可以逼近任何函數(shù)7/30/202369數(shù)據(jù)挖掘:概念與技術(shù)第69頁,課件共134頁,創(chuàng)作于2023年2月多層前饋神經(jīng)網(wǎng)絡(luò)(續(xù))定義網(wǎng)絡(luò)拓撲用戶必須說明輸入層的單元數(shù),隱藏層數(shù),每一隱藏層的單元數(shù)和輸出層的單元數(shù)對于“最好的”隱藏層單元數(shù)沒有明確的規(guī)則網(wǎng)絡(luò)設(shè)計是一個實驗過程,并可能影響結(jié)果訓(xùn)練網(wǎng)絡(luò)的準(zhǔn)確性.權(quán)的初值也可能影響結(jié)果的準(zhǔn)確性一旦網(wǎng)絡(luò)經(jīng)過訓(xùn)練,并且其準(zhǔn)確率不能被接受,則通常用不同的網(wǎng)絡(luò)拓撲或使用不同的初始權(quán)值,重復(fù)訓(xùn)練過程對訓(xùn)練樣本中每個屬性的值進行規(guī)格化將有助于加快學(xué)習(xí)過程通常,對輸入值規(guī)格化,使得它們落入0.0和1.0之間離散值屬性可以重新編碼,使得每個域值一個輸入單元例如,如果屬性A的定義域為(a0,a1,a2),則可以分配三個輸入單元I0,I1,I2表示A
7/30/202370數(shù)據(jù)挖掘:概念與技術(shù)第70頁,課件共134頁,創(chuàng)作于2023年2月后向傳播基本思想迭代地處理一組訓(xùn)練樣本,將每個樣本的網(wǎng)絡(luò)預(yù)測與實際知道的類標(biāo)號比較,進行學(xué)習(xí).對于每個訓(xùn)練樣本,修改權(quán)值,使得網(wǎng)絡(luò)預(yù)測和實際類之間的均方誤差最小盡管不能保證,一般地,權(quán)將最終收斂,學(xué)習(xí)過程停止步驟解釋初始化權(quán):網(wǎng)絡(luò)的權(quán)被初始化為很小的隨機數(shù)(例如,由-1.0到1.0,或由-0.5到0.5),每個單元有一個偏置,也類似地初始化為小隨機數(shù)每個樣本X按以下步驟處理向前傳播輸入后向傳播誤差重復(fù)以上兩步,直至終止條件滿足7/30/202371數(shù)據(jù)挖掘:概念與技術(shù)第71頁,課件共134頁,創(chuàng)作于2023年2月后向傳播(續(xù))向前傳播輸入計算隱藏層和輸出層每個單元的凈輸入和輸出對于輸入層的單元j,它的輸出等于它的輸入;Oj
=Ij.給定隱藏層或輸出層的單元j,到單元j的凈輸入Ij是 其中,wij是由上一層的單元i到單元j的連接的權(quán);Oi是上一層的單元i的輸出;而
j是單元j的偏差(用來改變單元的活性)給定單元j的凈輸入Ij,則單元j的輸出Oj用下式(logistic函數(shù))計算 該函數(shù)又稱擠壓函數(shù),因為它將一個較大的輸入值域映射到較小的區(qū)間0到17/30/202372數(shù)據(jù)挖掘:概念與技術(shù)第72頁,課件共134頁,創(chuàng)作于2023年2月一個神經(jīng)元(Neuron)一個隱藏或輸出單元j:j的輸入是來自前一層的輸出.這些與對應(yīng)的權(quán)相乘,以形成加權(quán)和,加權(quán)和加到與單元j相聯(lián)的偏差上,一個非線性的活化函數(shù)用于凈輸入激活函數(shù)輸出輸入(上一層的輸出)加權(quán)和權(quán)值偏置7/30/202373數(shù)據(jù)挖掘:概念與技術(shù)第73頁,課件共134頁,創(chuàng)作于2023年2月神經(jīng)網(wǎng)絡(luò)的激活函數(shù)
線性函數(shù)S型函數(shù)雙曲正切函數(shù)符號函數(shù)7/30/202374數(shù)據(jù)挖掘:概念與技術(shù)第74頁,課件共134頁,創(chuàng)作于2023年2月后向傳播(續(xù))后向傳播誤差通過更新權(quán)和反映網(wǎng)絡(luò)預(yù)測誤差的偏置,向后傳播誤差對于輸出層單元j,誤差Errj用下式計算 其中,Oj是單元j的實際輸出,而Tj是j基于給定訓(xùn)練樣本的已知類標(biāo)號的真正輸出,Oj(1-Oj)是logistic函數(shù)的導(dǎo)數(shù)隱藏層單元j的誤差是 其中,wkj是由下一較高層中單元k到單元j的連接權(quán),而Errk是單元k的誤差7/30/202375數(shù)據(jù)挖掘:概念與技術(shù)第75頁,課件共134頁,創(chuàng)作于2023年2月后向傳播(續(xù))后向傳播誤差(續(xù))更新權(quán)和偏置,以反映傳播的誤差權(quán)由下式更新 其中,wij是權(quán)wij的改變;變量l是學(xué)習(xí)率,通常取0和1之間的值.學(xué)習(xí)率幫助避免陷入判定空間的局部最小學(xué)習(xí)率調(diào)整規(guī)則:將學(xué)習(xí)率設(shè)置為1/t.其中t是已對訓(xùn)練樣本集迭代的次數(shù)偏置由下式更新 其中,j是偏置j的改變7/30/202376數(shù)據(jù)挖掘:概念與技術(shù)第76頁,課件共134頁,創(chuàng)作于2023年2月后向傳播(續(xù))實例更新VS.周期更新實例更新(caseupdate):每處理一個樣本就更新權(quán)值和偏置周期更新(epochupdate):處理完訓(xùn)練集中的所有樣本之后再更新權(quán)值和偏置終止條件前一周期所有的wij都小于某個指定的閾值,或前一周期未正確分類的樣本百分比小于某個閾值,或超過預(yù)先指定的周期數(shù)實踐中,權(quán)值收斂可能需要數(shù)十萬個周期7/30/202377數(shù)據(jù)挖掘:概念與技術(shù)第77頁,課件共134頁,創(chuàng)作于2023年2月后向傳播算法輸入D:由訓(xùn)練元組和它們的相關(guān)聯(lián)的目標(biāo)值組成的數(shù)據(jù)集l:學(xué)習(xí)率Network:多層前饋網(wǎng)絡(luò)輸出:訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)方法:(1)初始化network的權(quán)和偏置(2)while(終止條件不滿足){(3)for(D中每個訓(xùn)練元組X){(4)//向前傳播輸入(5)for
每個輸入層單元j{(6)Oj
=Ij
;//輸入單元的輸出是它的實際輸入值(7)for(隱藏或輸出層每個單元j){(8)//相對于前一層i,計算單元j的凈輸入(9)//計算單元j的輸出
7/30/202378數(shù)據(jù)挖掘:概念與技術(shù)第78頁,課件共134頁,創(chuàng)作于2023年2月后向傳播算法(續(xù))(10)//后向傳播誤差(11)for輸出層每個單元j
(12)Errj
=Oj(1
Oj)(Tj
Oj);//計算誤差(13)for(由最后一個到第一個隱藏層,對于隱藏層每個單元j)(14)//計算下一個較高層k的誤差(15)fornetwor中每個權(quán)wij{(16)wij
=(l)ErrjOi
;//權(quán)值增量(17)wij=wij+wij
;}//權(quán)值更新(18)fornetwor中每個偏差
j{(19)j=(l)Errj;
//偏置增量(20)j=j+j;}//偏置更新
(21)}}7/30/202379數(shù)據(jù)挖掘:概念與技術(shù)第79頁,課件共134頁,創(chuàng)作于2023年2月后向傳播:例一個多層前饋神經(jīng)網(wǎng)絡(luò)第一個訓(xùn)練樣本X={1,0,1}(其類標(biāo)號為1)7/30/202380數(shù)據(jù)挖掘:概念與技術(shù)第80頁,課件共134頁,創(chuàng)作于2023年2月后向傳播:例(續(xù))初始輸入、權(quán)值和偏差值凈輸入和輸出的計算計算每個結(jié)點的誤差x1x2x3w14w15w24w25w34w35w46w564561010.2-0.30.40.1-0.50.2-0.3-0.2-0.40.20.1單元j凈輸入Ij輸出Oj4560.2+00.50.4=0.70.3+0+0.2+0.2=0.1(-0.3)(0.332)-(0.2)(0.525)+0.1=-0.1051+(1+e0.7)=0.331+(1+e-0.1)=0.5251+(1+e-0.105)=0.474單元jErrj
654(0.474)(1-0.474)(1-0.474)=0.1311(0.525)(1-0.525)(0.1311)(-0.2)=-0.0065(0.332)(1-0.332)(0.1311)(-0.3)=-0.020877/30/202381數(shù)據(jù)挖掘:概念與技術(shù)第81頁,課件共134頁,創(chuàng)作于2023年2月后向傳播:例(續(xù))計算權(quán)和偏置的更新權(quán)或偏差
新值
w46w56w14w15w24w25w34w35654
-0.3+(0.9)(0.1311)(0.332)=-0.261-0.2+(0.9)(0.1311)(0.525)=-0.1380.2+(0.9)(-0.0087)(1)=0.192-0.3+(0.9)(0.0065)(1)=-0.3060.4+(0.9)(-0.0087)(0)=0.40.1+(0.9)(-0.0065)(0)=0.1-0.5+(0.9)(-0.0087)(1)=-0.5080.1+(0.9)(-0.0065)(1)=0.1940.1+(0.9)(0.1311)=0.2180.2+(0.9)(-0.0065)=0.194-0.4+(0.9)(-0.0087)=-0.4087/30/202382數(shù)據(jù)挖掘:概念與技術(shù)第82頁,課件共134頁,創(chuàng)作于2023年2月神經(jīng)網(wǎng)絡(luò)的特點至少含有一個隱藏層的多層神經(jīng)網(wǎng)絡(luò)是一種普適近似(universalapproximator),即可以用來近似任何目標(biāo)函數(shù)ANN可以處理冗余特征權(quán)值在訓(xùn)練過程中自動學(xué)習(xí),冗余特征的權(quán)值非常小神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)中的噪聲非常敏感使用確認集來確定模型的泛化誤差每次迭代把權(quán)值減少一個因子使用的梯度下降方法經(jīng)常會收斂到局部最小值權(quán)值更新公式中加上一個動量項訓(xùn)練ANN是一個很耗時的過程,但分類非???/30/202383數(shù)據(jù)挖掘:概念與技術(shù)第83頁,課件共134頁,創(chuàng)作于2023年2月5.5支持向量機第84頁,課件共134頁,創(chuàng)作于2023年2月7/30/202384數(shù)據(jù)挖掘:概念與技術(shù)支持向量機支持向量機(SupportVectorMachines,SVM)源于Vapnik和Chervonenkis的統(tǒng)計學(xué)習(xí)理論的早期工作第一篇論文是Boser,Guyon和Vapnik[BGV92]的文章優(yōu)點對復(fù)雜的非線性邊界的建模能力與其它模型相比,它們不太容易過分?jǐn)M合支持向量機還提供了學(xué)習(xí)模型的緊湊表示廣泛的使用范圍SVM可以用來預(yù)測和分類它們已經(jīng)用在許多領(lǐng)域,包括手寫數(shù)字識別、對象識別、演說人識別,以及基準(zhǔn)時間序列預(yù)測檢驗7/30/202385數(shù)據(jù)挖掘:概念與技術(shù)第85頁,課件共134頁,創(chuàng)作于2023年2月支持向量機兩個線性可分的類找到這樣一個超平面,使得所有的方塊位于這個超平面的一側(cè),而所有的圓圈位于它的另一側(cè)可能存在無窮多個那樣的超平面7/30/202386數(shù)據(jù)挖掘:概念與技術(shù)第86頁,課件共134頁,創(chuàng)作于2023年2月決策邊界的邊緣找這樣的超平面,它最大化邊緣B1比B2好7/30/202387數(shù)據(jù)挖掘:概念與技術(shù)第87頁,課件共134頁,創(chuàng)作于2023年2月SVM的決策邊界和邊緣7/30/202388數(shù)據(jù)挖掘:概念與技術(shù)第88頁,課件共134頁,創(chuàng)作于2023年2月邊緣方塊的類標(biāo)號為+1,圓圈的類標(biāo)號為1z的類標(biāo)號y
調(diào)整決策邊界的參數(shù)w和b,兩個平行的超平面bi1和bi2可以表示如下bi1:wx+b=1bi2:wx+b=1可以證明,邊緣d7/30/202389數(shù)據(jù)挖掘:概念與技術(shù)第89頁,課件共134頁,創(chuàng)作于2023年2月邊緣推導(dǎo)w的方向垂直于決策邊界如果xa和xb是任意兩個位于決策邊界上的點,則wxa+b=0,wxb+b=0于是w(xb
xa)=0.由于xb
xa是決策超平面中任意向量,于是w的方向必然垂直于決策邊界令x1是bi1上的數(shù)據(jù)點,x2是bi2上的數(shù)據(jù)點.代入bi1和bi2相減得到w.(x1
x2)=2由令u=w,v=x1
x2,得到||w||||x1
x2||cos(w,x1
x2)=27/30/202390數(shù)據(jù)挖掘:概念與技術(shù)第90頁,課件共134頁,創(chuàng)作于2023年2月邊緣推導(dǎo)(續(xù))但||x1
x2||cos(w,x1
x2)=d于是||w||d=2,即7/30/202391數(shù)據(jù)挖掘:概念與技術(shù)第91頁,課件共134頁,創(chuàng)作于2023年2月SVMSVM的訓(xùn)練階段從訓(xùn)練數(shù)據(jù)中估計決策邊界的參數(shù)w和b
最大化邊緣d,并滿足wxi+b≥1
如果yi
=1wxi+b≤1
如果yi
=1
即yi(wxi
+b)≥1
最大化d等價于最小化這是一個凸二次優(yōu)化問題,可以通過標(biāo)準(zhǔn)的拉格朗日乘子(Lagrangemultiplier)方法求解7/30/202392數(shù)據(jù)挖掘:概念與技術(shù)第92頁,課件共134頁,創(chuàng)作于2023年2月SVM(續(xù))拉格朗日算子其中,參數(shù)i稱為拉格朗日乘子對Lp關(guān)于w和b求偏導(dǎo),并令它們等于零因為拉格朗日乘子i是未知的,因此仍然不能得到w和b的解(5-38)(5-39)(5-40)7/30/202393數(shù)據(jù)挖掘:概念與技術(shù)第93頁,課件共134頁,創(chuàng)作于2023年2月SVM(續(xù))使用Karuch-Kuhn-Tucher(KKT)條件:i
≥0i
[yi(wxi+b)1]=0
(5.42)除非訓(xùn)練實例滿足方程yi(wxi
+b)=1,否則拉格朗日乘子i必須為零i
>0的訓(xùn)練實例位于超平面bi1或bi2上,稱為支持向量(5.39)和(5.40)代入到公式(5.38)中這是Lp的對偶問題(最大化問題).可以使用數(shù)值計算技術(shù),如二次規(guī)劃來求解(5-43)7/30/202394數(shù)據(jù)挖掘:概念與技術(shù)第94頁,課件共134頁,創(chuàng)作于2023年2月SVM(續(xù))解出i后,用(5.39)求w,再用(5.42)求b決策邊界為z可以按以下的公式來分類
如果f(z)=1,則檢驗實例z被分為到正類,否則分到負類7/30/202395數(shù)據(jù)挖掘:概念與技術(shù)第95頁,課件共134頁,創(chuàng)作于2023年2月SVM:例例:二維數(shù)據(jù)集包含8個訓(xùn)練實例使用二次規(guī)劃方法,求解優(yōu)化問題LD,得到i.w1=iyixi1=65.526110.3858+65.5261(1)0.4871=6.64w2=iyixi2=65.526110.4687+65.5261(1)0.611=9.32b(1)=1wx1=1(6.64)(0.3858)(9.32)(0.4687)=7.9300b(2)=1wx2=1(6.64)(0.4871)(9.32)(0.611)=7.9289b=(b(1)+b(2))/2=7.93i7/30/202396數(shù)據(jù)挖掘:概念與技術(shù)第96頁,課件共134頁,創(chuàng)作于2023年2月SVM:不可分情況如果不是線性可分的,怎么辦?軟邊緣(softmargin)允許一定訓(xùn)練誤差引入松馳變量i其中C和k是用戶指定的參數(shù),對誤分訓(xùn)練實例加罰
取k=1,
C根據(jù)模型在確認集上的性能選擇7/30/202397數(shù)據(jù)挖掘:概念與技術(shù)第97頁,課件共134頁,創(chuàng)作于2023年2月SVM:不可分情況(續(xù))拉格朗日算子其中,前面兩項是需要最小化的目標(biāo)函數(shù),第三項表示與松弛變量相關(guān)的不等式約束,而最后一項是要求i的值非負的結(jié)果KKT條件i
≥0,i
≥0,i
≥0i
{yi(wxi+b)1+i}=0ii=07/30/202398數(shù)據(jù)挖掘:概念與技術(shù)第98頁,課件共134頁,創(chuàng)作于2023年2月SVM:不可分情況(續(xù))令L關(guān)于w,b和i的一階導(dǎo)數(shù)為零7/30/202399數(shù)據(jù)挖掘:概念與技術(shù)第99頁,課件共134頁,創(chuàng)作于2023年2月SVM:不可分情況(續(xù))對偶拉格朗日問題其形式與可分情況相同,但是0≤i≤C
7/30/2023100數(shù)據(jù)挖掘:概念與技術(shù)第100頁,課件共134頁,創(chuàng)作于2023年2月非線性SVM使用非線性變換例:7/30/2023101數(shù)據(jù)挖掘:概念與技術(shù)第101頁,課件共134頁,創(chuàng)作于2023年2月非線性SVM(續(xù))非線性SVM的優(yōu)化問題約束條件:yi(w(xi)+b)≥1,i=1,2,...,N
對偶拉格朗日問題參數(shù)w和b
7/30/2023102數(shù)據(jù)挖掘:概念與技術(shù)第102頁,課件共134頁,創(chuàng)作于2023年2月非線性SVM(續(xù))實例z分類點積(xi)(xj)
計算問題能否在原空間直接計算?例:7/30/2023103數(shù)據(jù)挖掘:概念與技術(shù)第103頁,課件共134頁,創(chuàng)作于2023年2月核技術(shù)Mercer定理:
核函數(shù)K可以表示為K(u,v)=(u)(v),當(dāng)且僅當(dāng)對于任意滿足g(x)2dx為有限值的函數(shù)g(x),則K(x,y)g(x)g(y)dxdy≥0滿足定理5.1的核函數(shù)稱為正定(positivedefinite)核函數(shù)常用核函數(shù)7/30/2023104數(shù)據(jù)挖掘:概念與技術(shù)第104頁,課件共134頁,創(chuàng)作于2023年2月SVM的特點SVM學(xué)習(xí)問題可以表示為凸優(yōu)化問題,因此可以利用已知的有效算法發(fā)現(xiàn)目標(biāo)函數(shù)的全局最小值SVM通過最大化決策邊界的邊緣來控制模型的能力需要提供其他參數(shù),如使用的核函數(shù)類型、為了引入松弛變量所需的代價函數(shù)C等分類屬性處理每個分類屬性值引入一個啞變量,轉(zhuǎn)化為二元變量可以推廣到多類問題7/30/2023105數(shù)據(jù)挖掘:概念與技術(shù)第105頁,課件共134頁,創(chuàng)作于2023年2月多類問題SVM是對二類問題設(shè)計的還有一些方法也是針對二類問題的如何處理多類問題?訓(xùn)練令Y={y1,y2,...,yK}是類標(biāo)號的集合1-r方法:分解成K個二類問題每一個類yiY創(chuàng)建一個二類問題,其中所有屬于yi的樣本都被看作正類,而其他樣本作為負類1-1方法:構(gòu)建K(K
1)/2個二類分類器每一個分類器用來區(qū)分一對類(yi,yj)為類(yi,yj)構(gòu)建二類分類器時,不屬于yi或yj的樣本被忽略掉7/30/2023106數(shù)據(jù)挖掘:概念與技術(shù)第106頁,課件共134頁,創(chuàng)作于2023年2月多類問題(續(xù))分類投票表決票的計算1-r方法如果一個樣本被分為正類,則正類得一票如果一個樣本被分為負類,則除正類之外的所有類都得到一票1-1方法如果Cj把樣本分到y(tǒng)i類,則yi類得一票沖突處理分到多數(shù)類/少數(shù)類7/30/2023107數(shù)據(jù)挖掘:概念與技術(shù)第107頁,課件共134頁,創(chuàng)作于2023年2月多類問題:例例:Y={y1,y2,y3,y4}1-r方法建立4個分類器設(shè)這4個分類器分別把檢驗實例x分類為+,,,使用簡單的多數(shù)表決,y1得到最高的票4,而其他類僅僅得到3票,因此檢驗實例被分類為y11-1方法建立6個分類器假設(shè)它們對x如下表y1和y4都得到2票,而y2和y3僅僅得到1票二類分類器類對+:y1:y2
+:y1:y3
+:y1:y4
+:y2:y3
+:y2:y4
+:y3:y4
分類++++7/30/2023108數(shù)據(jù)挖掘:概念與技術(shù)第108頁,課件共134頁,創(chuàng)作于2023年2月5.6組合方法第109頁,課件共134頁,創(chuàng)作于2023年2月7/30/2023109數(shù)據(jù)挖掘:概念與技術(shù)一般思想聚集多個分類器的預(yù)測來提高分類準(zhǔn)確率稱為組合(ensemble)或分類器組合(classifiercombination)方法7/30/2023110數(shù)據(jù)挖掘:概念與技術(shù)第110頁,課件共134頁,創(chuàng)作于2023年2月Whydoesitwork?假定有25基分類器每個基分類器的誤差均為
=0.35假定基分類器是獨立的組合分類器錯誤預(yù)測的概率為:7/30/2023111數(shù)據(jù)挖掘:概念與技術(shù)第111頁,課件共134頁,創(chuàng)作于2023年2月BaggingBagging又稱自助聚集(bootstrapaggregating)訓(xùn)練階段使用自助抽樣產(chǎn)生多個訓(xùn)練數(shù)據(jù)集有放回、等概率、等容量抽樣在每個訓(xùn)練數(shù)據(jù)集上使用相同的分類算法建立基分類器分類:x是待分類實例每個基分類器獨立地對x產(chǎn)生類預(yù)測,算作一票統(tǒng)計得票,并將x指派到得票最高的類7/30/2023112數(shù)據(jù)挖掘:概念與技術(shù)第112頁,課件共
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 勘察設(shè)計合同住建部
- 2025年咸寧貨運從業(yè)資格證考試模擬考試題庫
- 2025年西雙版納貨運運輸駕駛員從業(yè)資格證考試試題
- 電商總監(jiān)勞務(wù)合同5篇
- 2023年高考真題全國乙卷地理試卷解析
- 微晶玻璃管戰(zhàn)略市場規(guī)劃報告
- 加班裝貨送貨合同范本
- 鹵肉店培訓(xùn)合同范本
- 廚房技術(shù)購買合同范本
- 1+X無人機模擬題與答案
- 牙周炎-侵襲性牙周炎
- 心理委員工作記錄表
- 新教科版五下科學(xué)1-5《當(dāng)環(huán)境改變了》公開課課件
- 教師的十大轉(zhuǎn)變課件
- 焦化廠生產(chǎn)工序及工藝流程圖
- 可下載打印的公司章程
- 中藥熏洗法課件
- 本特利探頭應(yīng)用
- 城市雕塑藝術(shù)工程工程量計價清單定額2022年版
- QMR-110-00員工手部、接觸面等微生物檢驗記錄記錄
- 外陰及陰道炎癥
評論
0/150
提交評論