FAFU機(jī)器學(xué)習(xí) 07-1NNndayes中文_第1頁(yè)
FAFU機(jī)器學(xué)習(xí) 07-1NNndayes中文_第2頁(yè)
FAFU機(jī)器學(xué)習(xí) 07-1NNndayes中文_第3頁(yè)
FAFU機(jī)器學(xué)習(xí) 07-1NNndayes中文_第4頁(yè)
FAFU機(jī)器學(xué)習(xí) 07-1NNndayes中文_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器學(xué)習(xí)基礎(chǔ)kNN和Bayes主要分類方法邏輯回歸線性判別分析決策樹(shù)歸納最近的鄰居貝葉斯分類方法反向傳播分類支持向量機(jī)集合方法…最近鄰分類器最近鄰分類器需要三件事存儲(chǔ)記錄的集合用于計(jì)算記錄之間距離的距離度量k的值,即要檢索的最近鄰數(shù)對(duì)未知記錄進(jìn)行分類:計(jì)算到其他培訓(xùn)記錄的距離確定k個(gè)最近鄰使用最近鄰的類標(biāo)簽來(lái)確定未知記錄的類標(biāo)簽(例如,通過(guò)采取多數(shù)票)最近鄰的定義1個(gè)最近鄰Voronoi,Dirichlet,。n,;。最近鄰分類器計(jì)算兩點(diǎn)之間的距離:歐幾里得距離從最近鄰列表中確定類取K個(gè)最近鄰中類標(biāo)簽的多數(shù)票根據(jù)距離給選票加權(quán)權(quán)重因子,w=1/D2最近鄰分類器計(jì)算兩點(diǎn)之間的距離:歐幾里得距離閔可夫斯基距離曼哈頓標(biāo)稱屬性的距離二進(jìn)制屬性的距離序數(shù)變量距離混合類型的距離最近鄰分類器類sklearn.neighbors.distancemetric這個(gè)類為快速距離度量函數(shù)提供了統(tǒng)一的接口??梢酝ㄟ^(guò)get_metric類方法和度量字符串標(biāo)識(shí)符訪問(wèn)各種度量>>>從sklearn.neighbors導(dǎo)入DistanceMetric>>>dist=distanceMetric.get_metric(“euclidean”)>>>X=[[0,1,2],[3,4,5]]>>>Dist.pairwise(X)數(shù)組([[0,5.19615242],[5.19615242,0.]])最近鄰分類器類sklearn.neighbors.distancemetric用于實(shí)值向量空間的度量:最近鄰分類器選擇K:的值如果k太小,對(duì)噪聲點(diǎn)敏感如果k太大,則鄰域可能包括來(lái)自其他類的點(diǎn)最近鄰分類器縮放問(wèn)題可能必須對(duì)屬性進(jìn)行縮放,以防止距離度量被其中一個(gè)屬性所支配例:一個(gè)人的身高可由1.5米至1.8米不等一個(gè)人的體重可以從90磅到300磅不等一個(gè)人的收入可能從1萬(wàn)美元到100萬(wàn)美元不等最近鄰分類器k-NN分類器是懶學(xué)習(xí)者(,)它不顯式地構(gòu)建模型不同于急切的學(xué)習(xí)者()如決策樹(shù)歸納對(duì)未知記錄進(jìn)行分類比較昂貴sklearn.neighborssklearn.neighbors

提供無(wú)監(jiān)督和基于監(jiān)督鄰居的學(xué)習(xí)方法的功能。無(wú)監(jiān)督最近鄰居是許多其他學(xué)習(xí)方法的基礎(chǔ),特別是流形學(xué)習(xí)(StandStand)和譜聚類(Posiple)。基于監(jiān)督鄰域的學(xué)習(xí)有兩種類型:對(duì)具有離散標(biāo)簽的數(shù)據(jù)進(jìn)行分類,對(duì)具有連續(xù)標(biāo)簽的數(shù)據(jù)進(jìn)行回歸。NearestNeighbors

近鄰實(shí)現(xiàn)了無(wú)監(jiān)督的最近鄰學(xué)習(xí)。它充當(dāng)三種不同的最近鄰算法的統(tǒng)一接口:BallTree、KDTree和基于中例程的暴力算法sklearn.metrics.pairwise.鄰域搜索算法的選擇通過(guò)關(guān)鍵字“algorithm”來(lái)控制,該關(guān)鍵字必須是['auto'、'ball\utree'、'kd_tree'、'brute']之一。當(dāng)傳遞默認(rèn)值“auto”時(shí),算法嘗試從訓(xùn)練數(shù)據(jù)中確定最佳方法。

FindingtheNearestNeighbors>>>from

sklearn.neighbors

importNearestNeighbors

>>>import

numpy

as

np

>>>X=np.array([[-1,-1],[-2,-1],[-3,-2],[1,1],[2,1],[3,2]])>>>nbrs=NearestNeighbors(n_neighbors=2,algorithm='ball_tree').fit(X)

>>>distances,indices=nbrs.kneighbors(X)

>>>indicesarray([[0,1],[1,0],[2,1],[3,4],[4,3],[5,4]]...)

>>>distancesarray([[0.,1.],[0.,1.],[0.,1.41421356],[0.,1.],[0.,1.],[0.,1.41421356]])

NearestNeighborsClassificationscikit-learnimplementstwodifferentnearestneighborsclassifiers:KNeighborsClassifier基于每個(gè)查詢點(diǎn)的k個(gè)最近鄰來(lái)實(shí)現(xiàn)學(xué)習(xí),其中k是用戶指定的整數(shù)值RadiusNeighborsClassifier基于每個(gè)訓(xùn)練點(diǎn)固定半徑r內(nèi)的鄰域數(shù)來(lái)實(shí)現(xiàn)學(xué)習(xí),其中r是用戶指定的浮點(diǎn)值。sklearn.neighbors.KNeighborsClassifier>>>X=[[0],[1],[2],[3]]>>>y=[0,0,1,1]

>>>from

sklearn.neighbors

importKNeighborsClassifier>>>neigh=KNeighborsClassifier(n_neighbors=3)>>>neigh.fit(X,y)KNeighborsClassifier(...)>>>print(neigh.predict([[1.1]]))[0]>>>print(neigh.predict_proba([[0.9]]))[[0.666666670.33333333]]sklearn.neighbors.RadiusNeighborsClassifier>>>X=[[0],[1],[2],[3]]>>>y=[0,0,1,1]>>>from

sklearn.neighbors

importRadiusNeighborsClassifier

>>>neigh=RadiusNeighborsClassifier(radius=1.0)

>>>neigh.fit(X,y)RadiusNeighborsClassifier(...)>>>print(neigh.predict([[1.5]]))[0]NearestCentroidClassifierThe

NearestCentroid

(最近質(zhì)心分類)classifierisasimplealgorithmthatrepresentseachclassbythecentroidofitsmembers.Ineffect,thismakesitsimilartothelabelupdatingphaseofthe

sklearn.KMeans

algorithm.Italsohasnoparameterstochoose,makingitagoodbaselineclassifier.Itdoes,however,sufferonnon-convexclasses,aswellaswhenclasseshavedrasticallydifferentvariances,asequalvarianceinalldimensionsisassumed.分類器的每個(gè)成員的質(zhì)心都是由一個(gè)簡(jiǎn)單的質(zhì)心表示的。實(shí)際上,這使其類似于sklearn.KMeans公司算法。它也沒(méi)有參數(shù)可供選擇,這使得它成為一個(gè)很好的基線分類器。然而,在非凸類上,以及當(dāng)類具有完全不同的方差時(shí),它確實(shí)受到影響,因?yàn)榧僭O(shè)所有維度的方差相等。>>>from

sklearn.neighbors.nearest_centroid

importNearestCentroid

>>>import

numpy

as

np

>>>X=np.array([[-1,-1],[-2,-1],[-3,-2],[1,1],[2,1],[3,2]])

>>>y=np.array([1,1,1,2,2,2])>>>clf=NearestCentroid()

>>>clf.fit(X,y)NearestCentroid(metric='euclidean',shrink_threshold=None)>>>print(clf.predict([[-0.8,-1]]))[1]NearestNeighborsRegressionscikitlearn實(shí)現(xiàn)了兩個(gè)不同的鄰居回歸函數(shù):KneighborsRegregator基于每個(gè)查詢點(diǎn)的最近鄰來(lái)實(shí)現(xiàn)學(xué)習(xí),其中是用戶指定的整數(shù)值radiusNeighborsRegressor基于查詢點(diǎn)固定半徑內(nèi)的鄰居進(jìn)行學(xué)習(xí),其中是用戶指定的浮點(diǎn)值。sklearn.neighbors.KNeighborsRegressor>>>y=[0,0,1,1]>>>from

sklearn.neighbors

importKNeighborsRegressor>>>neigh=KNeighborsRegressor(n_neighbors=2)>>>neigh.fit(X,y)KNeighborsRegressor(...)>>>print(neigh.predict([[1.5]]))[0.5]sklearn.neighbors.RadiusNeighborsRegressor>>>X=[[0],[1],[2],[3]]>>>y=[0,0,1,1]

>>>from

sklearn.neighbors

importRadiusNeighborsRegressor>>>neigh=RadiusNeighborsRegressor(radius=1.0)>>>neigh.fit(X,y)RadiusNeighborsRegressor(...)>>>print(neigh.predict([[1.5]]))[0.5]BayesianClassification貝葉斯分類器與決策樹(shù)決策樹(shù):預(yù)測(cè)類標(biāo)簽貝葉斯分類器:統(tǒng)計(jì)分類器;預(yù)測(cè)類成員概率基于Bayes定理的后驗(yàn)概率估計(jì)天真的貝葉斯分類器:假設(shè)屬性獨(dú)立的簡(jiǎn)單分類器適用于大型數(shù)據(jù)庫(kù)時(shí)效率高在性能上可與決策樹(shù)相媲美PosteriorProbability設(shè)X是一個(gè)類標(biāo)簽未知的數(shù)據(jù)樣本假設(shè)X屬于一個(gè)特殊的類CiP(Hi|X)是以X為條件的Hi的后驗(yàn)概率給定X的屬性值,數(shù)據(jù)示例X屬于類Ci的概率e、g.,給定X=(年齡:31歲…40,收入:中等,學(xué)生:是,學(xué)分:一般),X購(gòu)買電腦的概率是多少?BayesTheorem分類意味著確定所有C1,…Cm類中P(Hi|X)的最高值 如果P(H1|X)>P(H0|X),則X購(gòu)買計(jì)算機(jī) 如果P(H0|X)>P(H1|X),則X不購(gòu)買計(jì)算機(jī) 用Bayes定理計(jì)算P(Hi|X)ClassPriorProbabilityP(Hi)是X屬于特定類Ci的類先驗(yàn)概率可以從訓(xùn)練數(shù)據(jù)樣本中用ni/n估計(jì)n是訓(xùn)練數(shù)據(jù)樣本的總數(shù)ni是類Ci的訓(xùn)練數(shù)據(jù)樣本數(shù)ClassPriorProbabilityP(Hi)isclasspriorprobabilitythatXbelongstoaparticularclassCiCanbeestimatedbyni/nfromtrainingdatasamplesnisthetotalnumberoftrainingdatasamplesni

isthenumberoftrainingdatasamplesofclassCiDescriptorPriorProbabilityP(X)是X的先驗(yàn)概率觀察X屬性值的概率假設(shè)X=(x1,x2,…,xd),它們是獨(dú)立的,那么P(X)=P(x1)P(x2)…P(xd)P(xj)=nj/n,其中nj是屬性Aj的值為xj的訓(xùn)練示例數(shù)n是訓(xùn)練樣本的總數(shù)所有類的常數(shù)DescriptorPriorProbabilityDescriptorPosteriorProbabilityP(X|Hi)是給定Hi的X的后驗(yàn)概率在Ci類中觀察X的概率假設(shè)X=(x1,x2,…,xd),它們是獨(dú)立的,那么P(X|Hi)=P(x1|Hi)P(x2|Hi)…P(xd|Hi)P(xj|Hi)=ni,j/ni,其中ni,j是類Ci中屬性Aj的值為xj的訓(xùn)練示例數(shù)ni是Ci中訓(xùn)練實(shí)例的個(gè)數(shù)DescriptorPosteriorProbabilityP(X|Hi)isposteriorprobabilityofXgivenHiProbabilitythatobserveXinclassCiAssumeX=(x1,x2,…,xd)andtheyareindependent,thenP(X|Hi)=P(x1|Hi)P(x2|Hi)…P(xd|Hi)P(xj|Hi)=ni,j/ni,where

ni,j

isnumberoftrainingexamplesinclassCihavingvaluexjforattributeAjni

isnumberoftrainingexamplesinCiDescriptorPosteriorProbabilityP(X|Hi)isposteriorprobabilityofXgivenHiProbabilitythatobserveXinclassCiAssumeX=(x1,x2,…,xd)andtheyareindependent,thenP(X|Hi)=P(x1|Hi)P(x2|Hi)…P(xd|Hi)P(xj|Hi)=ni,j/ni,where

ni,j

isnumberoftrainingexamplesinclassCihavingvaluexjforattributeAjni

isnumberoftrainingexamplesinCiBayesianClassifier–BasicEquationWeatherDatasetExampleWeatherDatasetExample:ClassifyingXAnunseensampleX=<rain,hot,high,false>P(p)P(X|p)=P(p)P(rain|p)P(hot|p)P(high|p)P(false|p)

P(n)P(X|n)=P(n)P(rain|n)P(hot|n)P(high|n)P(false|n)

WeatherDatasetExample:ClassifyingXGivenatrainingset,wecancomputeprobabilities:AnunseensampleX=<rain,hot,high,false>P(p)P(X|p)=P(p)P(rain|p)P(hot|p)P(high|p)P(false|p)

=9/14·3/9·2/9·3/9·6/9·=0.010582WeatherDatasetExample:ClassifyingXGivenatrainingset,wecancomputeprobabilities:AnunseensampleX=<rain,hot,high,false>P(p)P(X|p)=0.010582P(n)P(X|n)=P(n)P(rain|n)P(hot|n)P(high|n)P(false|n)

=5/14·2/5·2/5·4/5·2/5=0.018286WeatherDatasetExample:ClassifyingXGivenatrainingset,wecancomputeprobabilities:AnunseensampleX=<rain,hot,high,false>P(p)P(X|p)=0.010582P(n)P(X|n)=0.018286SampleXisclassifiedinclassn(don’tplay)AvoidingtheZero-ProbabilityProblemDescriptorposteriorprobabilitygoesto0ifanyofprobabilityis0:

Ex.Supposeadatasetwith1000tuplesforaclassC,income=low(0),income=medium(990),andincome=high(10)UseLaplaciancorrection(orLaplacianestimator)Adding1toeachcaseProb(income=low|H)=1/1003Prob(income=medium|H)=991/1003Prob(income=high|H)=11/1003IndependenceHypothesismakescomputationpossibleyieldsoptimalclassifierswhensatisfiedbutisseldomsatisfiedinpractice,asattributes(variables)areoftencorrelatedAttemptstoovercomethislimitation:Bayesiannetworks,thatcombineBayesianreasoningwi

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論