統(tǒng)計(jì)機(jī)器學(xué)習(xí)簡介_第1頁
統(tǒng)計(jì)機(jī)器學(xué)習(xí)簡介_第2頁
統(tǒng)計(jì)機(jī)器學(xué)習(xí)簡介_第3頁
統(tǒng)計(jì)機(jī)器學(xué)習(xí)簡介_第4頁
統(tǒng)計(jì)機(jī)器學(xué)習(xí)簡介_第5頁
已閱讀5頁,還剩120頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

統(tǒng)計(jì)機(jī)器學(xué)習(xí)簡介什么是機(jī)器學(xué)習(xí)“機(jī)器學(xué)習(xí)是一門的科學(xué),該領(lǐng)域的主要研究對象是人工智能,特別是如何在經(jīng)驗(yàn)學(xué)習(xí)中改善具體算法的性能?!薄皺C(jī)器學(xué)習(xí)是對能通過經(jīng)驗(yàn)自動改進(jìn)的計(jì)算機(jī)算法的研究?!薄皺C(jī)器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗(yàn),以此優(yōu)化計(jì)算機(jī)程序的性能標(biāo)準(zhǔn)?!笔裁词菣C(jī)器學(xué)習(xí)總結(jié):人工智能的重要組成部分利用經(jīng)驗(yàn)數(shù)據(jù)改善系統(tǒng)自身性能已廣泛應(yīng)用于多個領(lǐng)域;大數(shù)據(jù)分析網(wǎng)絡(luò)搜索金融市場預(yù)測……為什么需要機(jī)器學(xué)習(xí)?美國航空航天局JPL實(shí)驗(yàn)室的科學(xué)家在《Science》(2001年9月)上撰文指出:機(jī)器學(xué)習(xí)對科學(xué)研究的整個過程正起到越來越大的支持作用,……,該領(lǐng)域在今后的若干年內(nèi)將取得穩(wěn)定而快速的發(fā)展Machinelearningformsthecoreofmaypresent-dayAIapplications為什么需要機(jī)器學(xué)習(xí)?2004年,機(jī)器學(xué)習(xí)被MITTechnologyReview列入10EmergingTechnologiesthatwillChangeYourWorld2010年度圖靈獎授予機(jī)器學(xué)習(xí)理論創(chuàng)始人、哈佛大學(xué)LeslieValiant教授2011年度圖靈獎授予概率圖模型奠基者、加州大學(xué)洛杉磯分校JudeaPearl教授圖靈獎連續(xù)兩年頒發(fā)給機(jī)器學(xué)習(xí)先驅(qū)開創(chuàng)者深度學(xué)習(xí)與機(jī)器學(xué)習(xí)深度學(xué)習(xí)(deeplearning)是機(jī)器學(xué)習(xí)領(lǐng)域中一系列試圖使用多重非線性變換對數(shù)據(jù)進(jìn)行多層抽象的算法,本質(zhì)上是機(jī)器學(xué)習(xí)中特征學(xué)習(xí)方法的一類。至今已有多種深度學(xué)習(xí)框架:深度神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò),深度信念網(wǎng)絡(luò)。已被應(yīng)用于多個領(lǐng)域:計(jì)算機(jī)視覺,語音識別,自然語言處理。大數(shù)據(jù)與機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)幾乎無處不在,即便我們沒有專程調(diào)用它,也經(jīng)常出現(xiàn)在大數(shù)據(jù)應(yīng)用中。機(jī)器學(xué)習(xí)對大數(shù)據(jù)應(yīng)用的貢獻(xiàn)主要體現(xiàn)在:促進(jìn)數(shù)據(jù)科學(xué)家們的多產(chǎn)性發(fā)現(xiàn)一些被忽視的方案上述價值來自于機(jī)器學(xué)習(xí)的核心功能:讓分析算法無需人類干預(yù)和顯式程序即可對最新數(shù)據(jù)進(jìn)行學(xué)習(xí)。這就允許數(shù)據(jù)科學(xué)家們根據(jù)典型數(shù)據(jù)集創(chuàng)建一個模型,然后利用算法自動概括和學(xué)習(xí)這些范例和新的數(shù)據(jù)源。機(jī)器學(xué)習(xí)示例SARSRiskAgeGenderBloodPressureChestX-RayPre-HospitalAttributesAlbuminBloodpO2WhiteCountRBCCountIn-HospitalAttributesBooksandReferences主要參考書李航,《統(tǒng)計(jì)學(xué)習(xí)方法》,清華大學(xué)出版社,2012.

其他參考書米歇爾著,曾華軍等譯,《機(jī)器學(xué)習(xí)》,機(jī)械工業(yè)出版社,2008迪達(dá)等著,李宏東等譯,《模式分類》(第2版),機(jī)械工業(yè)出版社,2003提綱機(jī)器學(xué)習(xí)方法概述貝葉斯決策理論BayesianDecisionTheory常見統(tǒng)計(jì)學(xué)習(xí)方法機(jī)器學(xué)習(xí)的難題與挑戰(zhàn)附錄:1、參考資料2、代表性機(jī)器學(xué)習(xí)開發(fā)包介紹一、統(tǒng)計(jì)學(xué)習(xí)方法概述12機(jī)器學(xué)習(xí)的發(fā)展機(jī)器學(xué)習(xí)=

神經(jīng)科學(xué)與認(rèn)知科學(xué)+

數(shù)學(xué)+

計(jì)算平凡解問題James(19世紀(jì)末):神經(jīng)元相互連接McCulloch,Pitts(20世紀(jì)中期):“興奮”和“抑制”Hebb(20世紀(jì)中期):學(xué)習(xí)律神經(jīng)科學(xué)Barlow:功能單細(xì)胞假設(shè)Hebb:神經(jīng)集合體假設(shè)Rosenblatt:感知機(jī)(1956)Rumelhart:BP(1986)PAC(Valiant1984)Schapire:弱學(xué)習(xí)定理(1990)Freund:AdaBoost(1996)線性不可分問題(Minsky1969)Vapnik:SVM(1991)有限樣本統(tǒng)計(jì)理論線性空間表示?i.i.d問題一致性假設(shè)30年Widrow:Madline(1960)Samuel:符號機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)研究歷程?泛化理論王玨,機(jī)器學(xué)習(xí)研究回顧與趨勢,2004.9學(xué)習(xí)系統(tǒng)的一般模型System……InputVariables:HiddenVariables:OutputVariables:機(jī)器學(xué)習(xí)的基本問題和方法機(jī)器學(xué)習(xí)根據(jù)給定的訓(xùn)練樣本求對某系統(tǒng)輸入輸出之間依賴關(guān)系的估計(jì),使它能夠?qū)ξ粗敵鲎鞒霰M可能準(zhǔn)確的預(yù)測。機(jī)器學(xué)習(xí)問題的表示根據(jù)n個獨(dú)立同分布觀測樣本確定預(yù)測函數(shù)f(x,w)。在一組函數(shù){f(x,w)}中求一個最優(yōu)的函數(shù)f(x,w0)對依賴關(guān)系進(jìn)行估計(jì),使預(yù)測的期望風(fēng)險最小。環(huán)境學(xué)習(xí)環(huán)節(jié)知識庫執(zhí)行環(huán)節(jié)Simon的學(xué)習(xí)模型學(xué)習(xí)問題的一般表示學(xué)習(xí)目標(biāo)Givenani.i.d.l-slez1,…,zldrawnfromafixeddistributionF(z)Forafunctionclass’lossfunctionsQ(z,),withinWewishtominimizetherisk,findingafunction*Inthecaseofequalrisk,itbecomestominimizetheerrorratio.相關(guān)概念損失函數(shù)lossfunction(L,Q):theerrorofagivenfunctiononagivenexle風(fēng)險函數(shù)riskfunctional(R):theexpectedlossofagivenfunctiononanexledrawnfromF(x,y)學(xué)習(xí)問題的一般表示學(xué)習(xí)的目的在于使期望風(fēng)險最小化。由于可利用的信息只有樣本,期望風(fēng)險往往無法計(jì)算。經(jīng)驗(yàn)風(fēng)險最小化歸納原則(TheEmpiricalRiskMinimization(ERM)InductivePrinciple)核心思想:用樣本定義經(jīng)驗(yàn)風(fēng)險。Definetheempiricalrisk(sle/trainingerror):Definetheempiricalriskminimizer:Least-squaresandMaximum-likelihoodarerealisationsofERMERM準(zhǔn)則與統(tǒng)計(jì)學(xué)習(xí)理論的發(fā)展經(jīng)驗(yàn)風(fēng)險最小并不意謂著期望風(fēng)險最小!!例子:神經(jīng)網(wǎng)絡(luò)的過學(xué)習(xí)問題。訓(xùn)練誤差小并不總能導(dǎo)致好的預(yù)測效果.若對有限的樣本來說學(xué)習(xí)能力過強(qiáng),足以記住每個樣本,此時經(jīng)驗(yàn)風(fēng)險很快就可以收斂到很小甚至零,但卻根本無法保證它對未來樣本能給出好的預(yù)測.需要建立在小樣本情況下有效的學(xué)習(xí)方法小樣本條件下的統(tǒng)計(jì)學(xué)習(xí)理論支持向量機(jī)(SVM)WhyLearningisDifficult?Givenafiniteamountoftrainingdata,youhavetoderivearelationforaninfinitedomainInfact,thereisaninfinitenumberofsuchrelations...thehiddentestpoints...LearningasaSearchProblem三類基本的機(jī)器學(xué)習(xí)問題(1)模式分類問題:輸出y是類別標(biāo)號,兩類情況下y={1,-1},預(yù)測函數(shù)稱作指示函數(shù)(IndicatorFunction),損失函數(shù)定義見下式,使期望風(fēng)險最小就是Bayes決策中使錯誤率最小。三類基本的機(jī)器學(xué)習(xí)問題(2)回歸問題:輸出y是連續(xù)變量,它是x的函數(shù),損失函數(shù)定義見下式:三類基本的機(jī)器學(xué)習(xí)問題(3)概率密度估計(jì)問題:根據(jù)訓(xùn)練樣本確定x的概率分布p(x,w),則損失函數(shù)可定義為:統(tǒng)計(jì)學(xué)習(xí)的基本方法有監(jiān)督/無監(jiān)督學(xué)習(xí)有監(jiān)督(Supervised):分類、回歸無監(jiān)督(Unsupervised):概率密度估計(jì)、聚類、降維半監(jiān)督(Semi-supervised):EM、Co-training其他學(xué)習(xí)方法增強(qiáng)學(xué)習(xí)(ReinforcementLearning)多任務(wù)學(xué)習(xí)(Multi-tasklearning)有監(jiān)督學(xué)習(xí)標(biāo)定的訓(xùn)練數(shù)據(jù)訓(xùn)練過程:根據(jù)目標(biāo)輸出與實(shí)際輸出的誤差信號來調(diào)節(jié)參數(shù)典型方法全局:BN,NN,SVM,DecisionTree局部:KNN、CBR(Case-basereasoning)S(x)>=0ClassAS(x)<0ClassBS(x)=0ObjectsX2(area)(perimeter)X1ObjectFeatureRepresentationA11,A12,…,A1mA21,A22,…,A2m……An1,An2,…,AnmninstancemattributesOutputC1C2……CnTraining√√……√Taska1,a2,…,am?無監(jiān)督學(xué)習(xí)不存在標(biāo)定的訓(xùn)練數(shù)據(jù)學(xué)習(xí)機(jī)根據(jù)外部數(shù)據(jù)的統(tǒng)計(jì)規(guī)律(e.g.Cohension&divergence)來調(diào)節(jié)系統(tǒng)參數(shù),以使輸出能反映數(shù)據(jù)的某種特性。典型方法K-means、SOM….示例:聚類A11,A12,…,A1mA21,A22,…,A2m……An1,An2,…,AnmninstancemattributesOutputC1C2……CnXX……XTask半監(jiān)督學(xué)習(xí)結(jié)合(少量的)標(biāo)定訓(xùn)練數(shù)據(jù)和(大量的)未標(biāo)定數(shù)據(jù)來進(jìn)行學(xué)習(xí)典型方法Co-training、EM、Latentvariables….A11,A12,…,A1mA21,A22,…,A2m……An1,An2,…,AnmninstancemattributesOutputC1?……Cn√X……√Taska1,a2,…,am?其他學(xué)習(xí)方法增強(qiáng)學(xué)習(xí)(ReinforcementLearning):外部環(huán)境對輸出只給出評價信息而非正確答案,學(xué)習(xí)機(jī)通過強(qiáng)化受獎勵的動作來改善自身的性能。訓(xùn)練數(shù)據(jù)包含部分學(xué)習(xí)目標(biāo)信息多任務(wù)學(xué)習(xí):Learnsaproblemtogetherwithotherrelatedproblemsatthesametime,usingasharedrepresentation.學(xué)習(xí)機(jī)(LM)環(huán)境輸入輸出評價信息學(xué)習(xí)模型(1)單學(xué)習(xí)模型LinearmodelsKernelmethodsNeuralnetworksProbabilisticmodelsDecisiontrees……學(xué)習(xí)模型(2)模型組合組合多個“弱”學(xué)習(xí)模型來達(dá)到更優(yōu)的性能

1+1>1?Boosting:結(jié)合低性能學(xué)習(xí)模型來產(chǎn)生一個強(qiáng)大的分類器組Bagging:結(jié)合多個不穩(wěn)定學(xué)習(xí)模型來產(chǎn)生穩(wěn)定預(yù)測主動學(xué)習(xí)(Activelearning):主動選擇訓(xùn)練樣本BoostingBoosting是個非常強(qiáng)大的學(xué)習(xí)方法,它組合許多“弱”分類器來產(chǎn)生一個強(qiáng)大的分類器組。弱分類器:性能只比隨機(jī)選擇好一點(diǎn),設(shè)計(jì)簡單且計(jì)算花費(fèi)低。最常用的弱分類器是決策樹。常見的Boosting算法離散AdaBoost,實(shí)數(shù)AdaBoost,LogitBoost和GentleAdaBoost它們有非常類似的總體結(jié)構(gòu)。Boosting兩類問題的算法:訓(xùn)練(step1~3)和估計(jì)(step4)為每一個樣本初始化使它們具有相同的權(quán)值(step2),然后一個弱分類器f(x)在具有權(quán)值的訓(xùn)練數(shù)據(jù)上進(jìn)行訓(xùn)練,計(jì)算錯誤率和換算系數(shù)cm(step3.2),被錯分的樣本的權(quán)重會增加,所有的權(quán)重進(jìn)行歸一化,并繼續(xù)尋找若其他分類器M-1次,最后得到的分類器F(x)是這些獨(dú)立的弱分類器組合的符號函數(shù)(step4)。Bagging基本假設(shè):Combiningmanyunstablepredictorstoproduceaensemble(stable)predictor.UnstablePredictor:訓(xùn)練數(shù)據(jù)的微小變化可能使得預(yù)測模型產(chǎn)生大的改變不穩(wěn)定模型:NeuralNets,trees穩(wěn)定模型:SVM,KNN.Eachpredictorinensembleiscreatedbytakingabootstrapsleofthedata.引導(dǎo)樣本:obtainedbydrawingNexleatrandom,withreplacement.Encouragespredictorstohaveuncorrelatederrors.UnlabeledDataSet主動學(xué)習(xí)IntermediateSetClustering(Kclusters)(DiversityCriterion)BatchSelectcentroidofeachcluster(RepresentativenessCriterion)SelectMmostinformativeexamples(InformativenessCriterion)(1)(2)(3)產(chǎn)生式模型vs判別式模型Generativemodels:

建模(聯(lián)合)概率分布:利用Bayes’theorem典型方法:BN、HMM、CMF問題的可解釋性好Discriminativemodels:

直接用函數(shù)(而非概率)來建模典型方法:SVM、LDA一般來說,性能更好二、貝葉斯決策理論Bayes決策理論有什么用?用不同方法可能得到多個不同的估計(jì),哪個估計(jì)更好一些?統(tǒng)計(jì)決策理論:比較統(tǒng)計(jì)過程的形式化理論決策是從樣本空間S,到?jīng)Q策空間Θ的一個映射,表示為D:S

Θ評價決策有多種標(biāo)準(zhǔn),對于同一個問題,采用不同的標(biāo)準(zhǔn)會得到不同意義下“最優(yōu)”的決策。Bayes決策常用的準(zhǔn)則最小錯誤率準(zhǔn)則最小風(fēng)險準(zhǔn)則最小條件錯誤率準(zhǔn)則:在限定一類錯誤率條件下

使另一類錯誤率為最小最小最大決策準(zhǔn)則:Minimizingthemaximum

possibleloss(orMaximizingtheminimumgain)LinearDecisionBoundaryx1x2x3hyperplanex1x2Non-linearDecisionBoundaryx1x2x1x2x3問題描述:ClassificationProblem給定:m個類,訓(xùn)練樣本和未知數(shù)據(jù)目標(biāo):給每個輸入數(shù)據(jù)標(biāo)記一個類屬性兩個階段:建模/學(xué)習(xí):基于訓(xùn)練樣本學(xué)習(xí)分類規(guī)則.分類/測試:對輸入數(shù)據(jù)應(yīng)用分類規(guī)則P(f1)f1鵝卵石救命稻草桿PebblesStrawspebblesStrawsf1f2決策邊界最大后驗(yàn)(MaximumAPosterior,MAP)分類什么是最優(yōu)分類器?已有:類條件概率密度函數(shù)Thisiscalledtheclass-conditionalprobabilitydescribingtheprobabilityofoccurrenceofthefeaturesoncategory.欲求:后驗(yàn)概率makeadecisionthatmaximizetheconditionalprobabilityoftheobject,givencertainfeaturemeasurements.Alsocalledposteriorprobabilityfunction.p(x|ω1)p(x|ω2)類條件概率密度函數(shù)p(ω1|x)后驗(yàn)概率p(ω2|x)Bayes最小錯誤率(MAP)決策M(jìn)AP決策:以后驗(yàn)概率為判決函數(shù):Choosecategory/classthathasthemaximumThisproducestheoptimalperformance:minimumprobabilityoferror:AclassifierthatachievesthisoptimalperformanceiscalledBayesianclassifier.MAP決策的錯誤率Bayes決策是一致最優(yōu)決策。使得每個觀測值下的條件錯誤率最小因而保證了(平均)錯誤率最小。MAP決策的擴(kuò)展:最小Bayesian風(fēng)險決策的風(fēng)險:做決策要考慮決策可能引起的損失。以醫(yī)生根據(jù)白細(xì)胞濃度判斷一個人是否患血液病為例:沒病(ω1)被判為有病(ω2),還可以做進(jìn)一步檢查,損失不大;有病(ω2)被判為無病(ω1),損失嚴(yán)重。DecisionRisktableTherisktomakeadecision:classifyx(belongtoclassi)toclassj,so:DecisionRule:Bayes決策:討論基于Bayes決策的最優(yōu)分類器Bayes決策的三個前提:類別數(shù)確定各類的先驗(yàn)概率P(Ci)已知各類的條件概率密度函數(shù)p(x|Ci)已知問題的轉(zhuǎn)換:基于樣本估計(jì)P(Ci)和p(x|Ci)基于樣本直接確定判別函數(shù)

學(xué)習(xí)問題三、主要統(tǒng)計(jì)學(xué)習(xí)方法簡介統(tǒng)計(jì)學(xué)習(xí)方法統(tǒng)計(jì)推理用數(shù)據(jù)的似然度(likelihood)和假設(shè)(Hypothesis)的概率去預(yù)測新實(shí)例的值樸素Bayes方法(Na?veBayes,NB)基于實(shí)例的學(xué)習(xí)最近鄰方法(NearestNeighbor)神經(jīng)網(wǎng)絡(luò)(NeuralNetworks)支持向量機(jī)(SupportVectorMachine)決策樹典型聚類方法:K-Means……§3.1Bayesian學(xué)習(xí)基本思想給定訓(xùn)練數(shù)據(jù),計(jì)算每個假設(shè)的概率利用此概率來進(jìn)行預(yù)測(注:預(yù)測時利用所有的假設(shè),而不僅僅利用最好的一個)參數(shù)估計(jì)問題若訓(xùn)練數(shù)據(jù)獨(dú)立同分布(i.e.,i.i.d),則對分類問題,需要估計(jì)兩個參數(shù):類的先驗(yàn)概率P(Ci)和類條件概率密度p(x|Ci)對分類問題,假設(shè)hi可直接視為類屬性CiBayesian學(xué)習(xí):參數(shù)估計(jì)的方法類的先驗(yàn)概率P(Ci)的估計(jì):用訓(xùn)練數(shù)據(jù)中各類出現(xiàn)的頻率估計(jì)依靠經(jīng)驗(yàn)類條件概率密度p(x|Ci)估計(jì)的兩種主要方法:參數(shù)估計(jì):概率密度函數(shù)的形式已知,而表征函數(shù)的參數(shù)未知,通過訓(xùn)練數(shù)據(jù)來估計(jì)最大似然估計(jì)Bayes估計(jì)(最大后驗(yàn)估計(jì))非參數(shù)估計(jì):密度函數(shù)的形式未知,也不作假設(shè),利用訓(xùn)練數(shù)據(jù)直接對概率密度進(jìn)行估計(jì)KN-近鄰法Parzen窗法簡化模型:簡單貝葉斯Na?veBayes簡單貝葉斯學(xué)習(xí)模型(NB)將訓(xùn)練實(shí)例表示成屬性(特征)向量A和決策類別變量C。假定特征向量的各分量間相對于決策變量是相對獨(dú)立的,也就是說各分量獨(dú)立地作用于決策變量。降低了學(xué)習(xí)的復(fù)雜性在許多領(lǐng)域,表現(xiàn)出相當(dāng)?shù)慕研院透咝訬B的特點(diǎn)結(jié)構(gòu)簡單-只有兩層結(jié)構(gòu)推理復(fù)雜性與網(wǎng)絡(luò)節(jié)點(diǎn)個數(shù)呈線性關(guān)系Ca1a2an-1anNB用于分類NB假設(shè):設(shè)樣本A表示成屬性向量,如果屬性ak對于給定的類別獨(dú)立,那么P(A|Ci)可以分解成幾個分量的積:簡單貝葉斯分類(SBC:SimpleBayesianClassifier)一般認(rèn)為,只有在獨(dú)立性假定成立的時候,SBC才能獲得精度最優(yōu)的分類效率;或者在屬性相關(guān)性較小的情況下,能獲得近似最優(yōu)的分類效果。擴(kuò)展:貝葉斯網(wǎng)(BayesNetwork) =P(A)P(S)P(T|A)P(L|S)P(B|S) P(C|T,L)P(D|T,L,B)P(A,S,T,L,B,C,D)

條件獨(dú)立性假設(shè)有效的表示CPT:

TLBD=0D=10000.10.90010.70.30100.80.20110.90.1...LungCancerSmokingChestX-rayBronchitisDyspnoeaTuberculosisVisittoAsiaP(D|T,L,B)P(B|S)P(S)P(C|T,L)P(L|S)P(A)P(T|A)貝葉斯網(wǎng)絡(luò)是表示變量間概率依賴關(guān)系的有向無環(huán)圖§3.2基于實(shí)例的學(xué)習(xí)Bayeis方法的缺陷參數(shù)估計(jì)誤差不描述概率分布,而直接描述決策規(guī)則,如最近鄰規(guī)則:直接從訓(xùn)練數(shù)據(jù)構(gòu)造假設(shè)K近鄰方法K-NN最近鄰方法NN:K=1K-NN方法對輸入樣本x,從訓(xùn)練樣本中找到與x距離最近的K個最近樣本,以它們最可能的類標(biāo)簽來分類xxk=1k=6K-NN的性能亞優(yōu):在訓(xùn)練樣本足夠的情況下,錯誤概率小于最優(yōu)錯誤率的兩倍.Where:istheprobabilityoferrorforBayesianinference(Optimal)andNNrule;不能在有限的樣本下獲得同樣的斷言.K-NN的關(guān)鍵問題距離度量最常用方法:euclidean更好的距離度量:normalizeeachvariablebystandarddeviation離散數(shù)據(jù):HammingdistanceK的選擇Increasingkreducesvariance,increasesbias高維空間的可區(qū)分性差Forhigh-dimensionalspace,problemthatthenearestneighbormaynotbeverycloseatall!大數(shù)據(jù)量時計(jì)算開銷大Mustmakeapassthroughthedataforeachclassification.Thiscanbeprohibitiveforlargedatasets.Indexingthedatacanhelp;forexleKDtreesEuclideanDistanceEuclideanDistancebetweenxandpkis:ThedecisionrulebasedonthismetriciscalledtheminimumEuclideanDistance(MED)classifier.

MahalanobisDistance用方差的倒數(shù)來進(jìn)行加權(quán),相當(dāng)于使決策界從方差較大的一方朝方差較小一方移動:Letthedistributionbeapproximatedbyamultivariatenormaldensity.TheMahalanobisdistancefromxtomisgivenby:Whereisthecovariancematrixandistheslemeanoftheprototype.胞體(Soma)枝蔓(Dendrite)胞體(Soma)

軸突(Axon)突觸(Synapse)

人工神經(jīng)元模擬生物神經(jīng)元的一階特性。輸入: X=(x1,x2,…,xn)聯(lián)接權(quán): W=(w1,w2,…,wn)T網(wǎng)絡(luò)輸入: net=∑xiwi向量形式: net=XW激活函數(shù): f網(wǎng)絡(luò)輸出: o=f(net)InputsignalSynapticweightsSummingfunctionActivationfunctionLocalFieldvOutputox1x2xnw2wnw1w0x0=+1§3.3神經(jīng)網(wǎng)絡(luò)(NN):模擬人腦的學(xué)習(xí)……x1x2…xno1o2onwnmw11w1mw2mwn1輸出層輸入層 典型網(wǎng)絡(luò)結(jié)構(gòu):簡單單級網(wǎng)輸出層x1o1w11w1mx2o2w2m………xnomwn1輸入層 V典型網(wǎng)絡(luò)結(jié)構(gòu):單級橫向反饋網(wǎng)典型網(wǎng)絡(luò)結(jié)構(gòu):多級網(wǎng)輸出層隱藏層輸入層o1o2om…x1x2xn………………典型網(wǎng)絡(luò)結(jié)構(gòu):循環(huán)網(wǎng)x1o1輸出層隱藏層輸入層x2o2omxn…………………§3.4支持向量機(jī)SVM是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,是由Boser,Guyon,Vapnik于1992年提出,目前已經(jīng)取得了廣泛的成功應(yīng)用。統(tǒng)計(jì)學(xué)習(xí)理論的主要目標(biāo)專門研究小樣本下的機(jī)器學(xué)習(xí)規(guī)律追求現(xiàn)有信息條件下的最優(yōu)結(jié)果(結(jié)構(gòu)風(fēng)險最小化)Vapnik結(jié)構(gòu)風(fēng)險最小化原則實(shí)際風(fēng)險由兩部分組成:經(jīng)驗(yàn)風(fēng)險(訓(xùn)練誤差)VC置信范圍(VCconfidence):學(xué)習(xí)機(jī)器的VC維及訓(xùn)練樣本數(shù)有關(guān)。VC維反映了函數(shù)集的學(xué)習(xí)能力,VC維越大則學(xué)習(xí)機(jī)器越復(fù)雜(容量越大)結(jié)構(gòu)風(fēng)險最小化(SRM)的基本思想在有限訓(xùn)練樣本下,學(xué)習(xí)機(jī)器的VC維越高則置信范圍越大,真實(shí)風(fēng)險與經(jīng)驗(yàn)風(fēng)險之間可能的差別越大.這就是為什么會出現(xiàn)過學(xué)習(xí)現(xiàn)象的原因。機(jī)器學(xué)習(xí)過程不但要使經(jīng)驗(yàn)風(fēng)險最小,還要使VC維盡量小以縮小置信范圍,才能取得較小的實(shí)際風(fēng)險,即對未來樣本有較好的推廣性。結(jié)構(gòu)風(fēng)險最小化示意圖最優(yōu)分類面最優(yōu)分類面分類間隔(Margin).分類間隔最大:實(shí)際上就是對推廣能力的控制,這是SVM的核心思想之一.輸入:S={(xi,yi)Rn

{-1,1}},對應(yīng)于yi,xi

可表示為兩類:

xiH1,yi=-1 xiH2,yi=1目標(biāo):

找到一個分類函數(shù)

(x)=wx+b能夠?qū)τ?xùn)練數(shù)據(jù)xi正確分類,對其他的輸入能夠正確推廣.進(jìn)一步說:找到一個超平面H:wx+b=0和兩個與H平行且等距離的H1:wx+b=1 H2:wx+b=-1數(shù)學(xué)模型最優(yōu)分類面-直觀描述(a)小的分類間隔(smallmargin)(b)大的分類間隔(largermargin).最優(yōu)分類面就是要求分類面能將兩類正確分開(訓(xùn)練錯誤率為0),且使分類間隔最大A-A+MalignantBenignA+A-支持向量直觀地說,支持向量是兩類集合邊界上的點(diǎn)。所有非支持向量的數(shù)據(jù)都可以從訓(xùn)練數(shù)據(jù)集合中去掉而不影響問題解的結(jié)果。對于新的數(shù)據(jù)點(diǎn)x,要對其進(jìn)行分類只需要計(jì)算

f(x)=sign(wox+bo)

其中wo和bo是支持向量對應(yīng)的參數(shù)。SVM的分類問題SVM分類問題大致有三種:線性可分問題、近似線性可分問題、線性不可分問題線性可分問題近似線性可分問題線性不可分問題SVMLearningFindingtheDecisionBoundaryLet{x1,...,xn}beourdatasetandletyi

?{1,-1}betheclasslabelofxiThedecisionboundaryshouldclassifyallpointscorrectlyTThedecisionboundarycanbefoundbysolvingthefollowingconstrainedoptimizationproblemTheDualProblemItisknownasthedualproblem:ifweknoww,weknowallai;ifweknowallai,weknowwTheoriginalproblemisknownastheprimalproblemTheobjectivefunctionofthedualproblemneedstobemaximized!Thedualproblemistherefore:PropertiesofaiwhenweintroducetheLagrangemultipliersTheresultwhenwedifferentiatetheoriginalLagrangianw.r.t.bExtensiontoNon-linearDecisionBoundarySofar,wehaveonlyconsideredlarge-marginclassifierwithalineardecisionboundaryHowtogeneralizeittobecomenonlinear?Keyidea:transformxitoahigherdimensionalspaceto“makelifeeasier”Inputspace:thespacethepointxiarelocatedFeaturespace:thespaceoff(xi)aftertransformationWhytransform?Linearoperationinthefeaturespaceisequivalenttonon-linearoperationininputspaceClassificationcanbecomeeasierwithapropertransformation.IntheXORproblem,forexle,addinganewfeatureofx1x2maketheproblemlinearlyseparableTransformingtheDataComputationinthefeaturespacecanbecostlybecauseitishighdimensionalThefeaturespaceistypicallyinfinite-dimensional!Thekerneltrickcomestorescuef()f()f()f()f()f()f()f()f(.)f()f()f()f()f()f()f()f()f()f()FeaturespaceInputspaceNote:featurespaceisofhigherdimensionthantheinputspaceinpracticeTheKernelTrickRecalltheSVMoptimizationproblemThedatapointsonlyappearasinnerproductAslongaswecancalculatetheinnerproductinthefeaturespace,wedonotneedthemappingexplicitlyManycommongeometricoperations(angles,distances)canbeexpressedbyinnerproductsDefinethekernelfunctionKbyExlesofKernelFunctionsPolynomialkernelwithdegreedRadialbasisfunctionkernelwithwidthsCloselyrelatedtoradialbasisfunctionneuralnetworksThefeaturespaceisinfinite-dimensionalSigmoidwithparameterkandq

ItdoesnotsatisfytheMercerconditiononallkandq§3.6DecisionTreesAteachstep,choosethefeaturethat“reducesentropy”most.Worktowards“nodepurity”.Allthedataf1f2Choosef2Choosef1DecisionTreesCART(Breiman,1984)C4.5(Quinlan,1993)J48§3.7聚類方法:K-MeansGivenasetofexlesDn={z1,z2,···,zn}SearchforKprototypesμkofdisjointsubsetsSkofDninordertominimize

whereμkisthemeanoftheexlesinsubsetSk:Wecoulduseanydistance,notjusttheEuclideandistance...BatchK-MeansInitialization:selectrandomlyKexleszjinDnasinitialvaluesofeachμkAteachbatchiteration:Foreachprototypeμk,putintheemptiedsetSktheexlesofDnthatareclosertoμkthantoanyotherμj≠k.Re-computethevalueofeachμkastheaverageoftheexlesinSk.Thealgorithmstopswhennoprototypemovesanymore.ItcanbeshownthattheK-Meanscriterionwillneverincrease.BatchK-Means(圖示1)BatchK-Means(圖示2)BatchK-Means(圖示3)四、機(jī)器學(xué)習(xí)的難題與挑戰(zhàn)

注:以下部分內(nèi)容引自周志華《機(jī)器學(xué)習(xí)挑戰(zhàn)》

王玨《機(jī)器學(xué)習(xí)的難題與分析》機(jī)器學(xué)習(xí)的難題(1)維數(shù)災(zāi)難問題維數(shù)災(zāi)難問題維數(shù)災(zāi)難問題維數(shù)災(zāi)難問題機(jī)器學(xué)習(xí)的難題(2)訓(xùn)練數(shù)據(jù)問題PU學(xué)習(xí)問題:只有正例和未標(biāo)記數(shù)據(jù)的學(xué)習(xí)問題,從僅部分標(biāo)記的正例和其它的未標(biāo)記數(shù)據(jù)上學(xué)習(xí)最優(yōu)分類器數(shù)據(jù)推廣性機(jī)器學(xué)習(xí)的難題(3)結(jié)構(gòu)輸出問題挑戰(zhàn)(1):泛化能力共性問題:幾乎所有的領(lǐng)域,都希望越準(zhǔn)越好提高泛化能力是永遠(yuǎn)的追求目前泛化能力最強(qiáng)的技術(shù):支持向量機(jī)(SVM)產(chǎn)生途徑:理論->實(shí)踐集成學(xué)習(xí)(ensemblelearning)

產(chǎn)生途徑:實(shí)踐->理論挑戰(zhàn)(1):泛化能力(續(xù))第一個挑戰(zhàn):今后10年能否更“準(zhǔn)”?如果能,會從哪兒來?挑戰(zhàn)(2):速度共性問題:幾乎所有的領(lǐng)域,都希望越快越好加快速度也是永遠(yuǎn)的追求“訓(xùn)練速度”vs.“測試速度訓(xùn)練速度快的往往測試速度慢:k近鄰測試速度快的往往訓(xùn)練速度慢:神經(jīng)網(wǎng)絡(luò)挑戰(zhàn)(2):速度(續(xù))第二個挑戰(zhàn):今后10年能否更“快”?能做到“訓(xùn)練快”、“測試也快”嗎?如果能,如何做?挑戰(zhàn)(3):可理解性共性問題:絕大多數(shù)領(lǐng)域都希望有“可理解性”例子:醫(yī)療診斷地震預(yù)測目前強(qiáng)大的技術(shù)幾乎都是(或基本上是)“黑盒子”神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、集成學(xué)習(xí)“黑盒子”能滿足需要嗎?挑戰(zhàn)(3):可理解性(續(xù))第三個挑戰(zhàn):今后10年能否產(chǎn)生“白盒子”?是和“黑盒子”完全不同的東西,還是從“黑盒子”變出來?挑戰(zhàn)(4):數(shù)據(jù)利用能力傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)—>對有標(biāo)記數(shù)據(jù)進(jìn)行學(xué)習(xí)“標(biāo)記”——>事件所對應(yīng)的結(jié)果共性問題:

隨著數(shù)據(jù)收集能力飛速提高、Internet的出現(xiàn),在大多數(shù)領(lǐng)域中都可以很容易地獲得大量未標(biāo)記數(shù)據(jù)例子:醫(yī)學(xué)圖象分析垃圾郵件過濾沒有標(biāo)記的數(shù)據(jù)是沒用的嗎?挑戰(zhàn)(4):數(shù)據(jù)利用能力(續(xù))共性問題:

在絕大多數(shù)領(lǐng)域中都會遇到“壞”數(shù)據(jù),有時甚至只有“壞”數(shù)據(jù)例子:海軍艦隊(duì)

Web“壞”數(shù)據(jù)——>大量噪音、屬性缺失、不一致、……傳統(tǒng)的“壞”數(shù)據(jù)處理方式—>“扔掉”“壞”數(shù)據(jù)一點(diǎn)用也沒有嗎?第四個挑戰(zhàn):今后10年能否“數(shù)據(jù)通吃”?如何“吃”?挑戰(zhàn)(4):數(shù)據(jù)利用能力(續(xù))挑戰(zhàn)(5):代價敏感目前的機(jī)器學(xué)習(xí)技術(shù)—>降低錯誤率“錯誤”是沒有區(qū)別的嗎?把“好”當(dāng)成“壞”把“壞”當(dāng)成“好”共性問題:大多數(shù)領(lǐng)域中的錯誤代價都不一樣例子:入侵檢測癌癥診斷一樣嗎?第五個挑戰(zhàn):今后10年能否“趨利避害”?在達(dá)到較低的總錯誤率的基礎(chǔ)上,如何“趨”、如何“避”?挑戰(zhàn)(5):代價敏感(續(xù))挑戰(zhàn):……More……

在任何一個挑戰(zhàn)上取得突破性進(jìn)展,都可能成為對機(jī)器學(xué)習(xí)的重要貢獻(xiàn)MagicofMachineLearningMagicofMachineLearning主流期刊和會議Journals:JournalofMachineLearningResearchMachineLearningIEEETransactionsonPatternAnalysisandMachineIntelligenceNeuralComputationIEEETransactionsonNeuralNetworksIEEETransactionsonKnowledgeandDataEngineeringConferences:NIPS:NeuralInformationProcessingSystemsCOLT:ComputationalLearningTheoryICML:InternationalConferenceonMachineLearningKDD:KnowledgeDiscoveryandDataMininginDatabase相關(guān)資料Books:C.Bishop.NeuralNetworksforPatternRecognition,1995.V.Vapnik.TheNatureofStatisticalLearningTheory,1995.T.Hastie,R.Tibshirani,J.Friedman.TheelementsofStatisticalLearning,2001.B.Sch?lkopf,A.J.Smola.LearningwithKernels,2002.附錄、典型機(jī)器學(xué)習(xí)包介紹典型的機(jī)器學(xué)習(xí)開發(fā)包OpenCV:MachineLearningLibrary介紹內(nèi)容來自《OpenCV機(jī)器學(xué)習(xí)中文參考手冊》Weka:Machinelearning/dataminingsoftwarewritteninJava介紹的PPT節(jié)選自E.Frank《MachineLearningwithWEKA》SVM開發(fā)包LIBSVMSVM-Light…………OpenCVstructureCXCOREbasicstructuresandalgoritms,XMLsupport,drawingfunctionsCVImageprocessingandvisionHighGUIGUI,ImageandVideoI/OMLMachineLearningalgorithmsCVCamvideostreamprocessingOpenCV-ML:Overview機(jī)器學(xué)習(xí)庫(MLL)是一些用于分類、回歸和數(shù)據(jù)聚類的類和函數(shù)通用類和函數(shù)CvStatModelNormalBayes分類器CvNormalBayesClassifier

K近鄰算法CvKNearest支持向量機(jī)CvSVM決策樹CvDTreeSplitBoostingCvBoostRandomTreesCvRTreesExpectation-MaximizationCvEM神經(jīng)網(wǎng)絡(luò)CvANN_MLP

使用前添加ml.lib及相應(yīng)的頭文件目錄CvStatModel:ML庫中的統(tǒng)計(jì)模型基類classCvStatModel{public: virtual~CvStatModel(); virtualvoidclear()=0; virtualvoidsave(constchar*filename,constchar* name=0)=0; virtualvoidload(constchar*filename,constchar* name=0)=0; virtualvoidwrite(CvFileStorage*storage,constchar* name)=0; virtualvoidread(CvFileStorage*storage, CvFileNode*node)=0;};NormalBayes分類器CvNormalBayesClassifier:對正態(tài)分布的數(shù)據(jù)的貝葉斯分類器這個簡單的分類器模型是建立在每一個類別的特征向量服從正態(tài)分布的基礎(chǔ)上的,因此,整個分布函數(shù)被假設(shè)為一個高斯分布,每一類別一組系數(shù)。當(dāng)給定了訓(xùn)練數(shù)據(jù),算法將會估計(jì)每一個類別的向量均值和方差矩陣,然后根據(jù)這些進(jìn)行預(yù)測。CvNormalBayesClassifier::train模型訓(xùn)練CvNormalBayesClassifier::predict對未知的樣本或或本集進(jìn)行預(yù)測K近鄰算法CvKNearest這個算法首先貯藏所有的訓(xùn)練樣本,然后通過分析(包括選舉,計(jì)算加權(quán)和等方式)一個新樣本周圍K個最近鄰以給出該樣本的相應(yīng)值。這種方法有時候被稱作“基于樣本的學(xué)習(xí)”,即為了預(yù)測,我們對于給定的輸入搜索最近的已知其相應(yīng)的特征向量CvKNearest::train訓(xùn)練KNN模型CvKNearest::find_nearest尋找輸入向量的最近鄰支持向量機(jī)CvSVMvirtualbooltrain(constCvMat*_train_data,constCvMat*_responses,constCvMat*_var_idx=0,constCvMat*_sle_idx=0,CvSVMParams_params=CvSVMParams());virtualfloatpredict(constCvMat*_sle)const;virtualintget_support_vector_count()const;virtualconstfloat*get_support_vector(inti)const;CvSVMParams:SVM訓(xùn)練參數(shù)struct支持向量機(jī)CvSVMParams:SVM訓(xùn)練參數(shù)structsvm_type,SVM的類型:CvSVM::C_SVC-n分類器,允許用異常值懲罰因子C

CvSVM::NU_SVC-n類似然不完全分類的分類器。CvSVM::ONE_CLASS-單分類器CvSVM::EPS_SVR-回歸,異常值懲罰因子C被采用。CvSVM::NU_SVR-回歸;nu代替了pkernel_type//核類型:CvSVM::LINEAR,CvSVM::POLY,CvSVM::,CvSVM::SIGMOID

C,nu,p:在一般的SVM優(yōu)化求解時的參數(shù)。class_weights:可選權(quán)重,賦給指定的類別,權(quán)重越大,某一類別的誤分類數(shù)據(jù)的懲罰項(xiàng)就越大。term_crit:SVM的迭代訓(xùn)練過程的中止CvKNearest樣例使用kNN進(jìn)行2維樣本集的分類,樣本集的分布為

混合高斯分布#include"ml.h"#include"highgui.h”intmain(intargc,char**argv){constintK=10;inti,j,k,accuracy;floatresponse;inttrain_sle_count=100;CvRNGrng_state=cvRNG(-1);CvMat*trainData=cvCreateMat(train_sle_count,2,CV_32FC1);CvMat*trainClasses=cvCreateMat(train_sle_count,1,CV_32FC1);

IplImage*img=cvCreateImage(cvSize(500,500),8,3);float_sle[2];CvMatsle=cvMat(1,2,CV_32FC1,_sle);cvZero(img);//formthetrainingslesCvMattrainData1,trainData2,trainClasses1,trainClasses2;cvGetRows(trainData,&trainData1,0,train_sle_count/2);cvRandArr(&rng_state,&trainData1,CV_RAND_NORMAL,cvScalar(200,200),cvScalar(50,50));cvGetRows(trainData,&trainData2,train_sle_count/2,train_sle_count);cvRandArr(&rng_state,&trainData2,CV_RAND_NORMAL,cvScalar(300,300),cvScalar(50,50));cvG

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論