




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
機器學(xué)習(xí)基礎(chǔ)kNN和Bayes主要分類方法邏輯回歸線性判別分析決策樹歸納最近的鄰居貝葉斯分類方法反向傳播分類支持向量機集合方法…最近鄰分類器最近鄰分類器需要三件事存儲記錄的集合用于計算記錄之間距離的距離度量k的值,即要檢索的最近鄰數(shù)對未知記錄進(jìn)行分類:計算到其他培訓(xùn)記錄的距離確定k個最近鄰使用最近鄰的類標(biāo)簽來確定未知記錄的類標(biāo)簽(例如,通過采取多數(shù)票)最近鄰的定義1個最近鄰Voronoi,Dirichlet,。n,;。最近鄰分類器計算兩點之間的距離:歐幾里得距離從最近鄰列表中確定類取K個最近鄰中類標(biāo)簽的多數(shù)票根據(jù)距離給選票加權(quán)權(quán)重因子,w=1/D2最近鄰分類器計算兩點之間的距離:歐幾里得距離閔可夫斯基距離曼哈頓標(biāo)稱屬性的距離二進(jìn)制屬性的距離序數(shù)變量距離混合類型的距離最近鄰分類器類sklearn.neighbors.distancemetric這個類為快速距離度量函數(shù)提供了統(tǒng)一的接口。可以通過get_metric類方法和度量字符串標(biāo)識符訪問各種度量>>>從sklearn.neighbors導(dǎo)入DistanceMetric>>>dist=distanceMetric.get_metric(“euclidean”)>>>X=[[0,1,2],[3,4,5]]>>>Dist.pairwise(X)數(shù)組([[0,5.19615242],[5.19615242,0.]])最近鄰分類器類sklearn.neighbors.distancemetric用于實值向量空間的度量:最近鄰分類器選擇K:的值如果k太小,對噪聲點敏感如果k太大,則鄰域可能包括來自其他類的點最近鄰分類器縮放問題可能必須對屬性進(jìn)行縮放,以防止距離度量被其中一個屬性所支配例:一個人的身高可由1.5米至1.8米不等一個人的體重可以從90磅到300磅不等一個人的收入可能從1萬美元到100萬美元不等最近鄰分類器k-NN分類器是懶學(xué)習(xí)者(,)它不顯式地構(gòu)建模型不同于急切的學(xué)習(xí)者()如決策樹歸納對未知記錄進(jìn)行分類比較昂貴sklearn.neighborssklearn.neighbors
提供無監(jiān)督和基于監(jiān)督鄰居的學(xué)習(xí)方法的功能。無監(jiān)督最近鄰居是許多其他學(xué)習(xí)方法的基礎(chǔ),特別是流形學(xué)習(xí)(StandStand)和譜聚類(Posiple)?;诒O(jiān)督鄰域的學(xué)習(xí)有兩種類型:對具有離散標(biāo)簽的數(shù)據(jù)進(jìn)行分類,對具有連續(xù)標(biāo)簽的數(shù)據(jù)進(jìn)行回歸。NearestNeighbors
近鄰實現(xiàn)了無監(jiān)督的最近鄰學(xué)習(xí)。它充當(dāng)三種不同的最近鄰算法的統(tǒng)一接口:BallTree、KDTree和基于中例程的暴力算法sklearn.metrics.pairwise.鄰域搜索算法的選擇通過關(guān)鍵字“algorithm”來控制,該關(guān)鍵字必須是['auto'、'ball\utree'、'kd_tree'、'brute']之一。當(dāng)傳遞默認(rèn)值“auto”時,算法嘗試從訓(xùn)練數(shù)據(jù)中確定最佳方法。
FindingtheNearestNeighbors>>>from
sklearn.neighbors
importNearestNeighbors
>>>import
numpy
as
np
>>>X=np.array([[-1,-1],[-2,-1],[-3,-2],[1,1],[2,1],[3,2]])>>>nbrs=NearestNeighbors(n_neighbors=2,algorithm='ball_tree').fit(X)
>>>distances,indices=nbrs.kneighbors(X)
>>>indicesarray([[0,1],[1,0],[2,1],[3,4],[4,3],[5,4]]...)
>>>distancesarray([[0.,1.],[0.,1.],[0.,1.41421356],[0.,1.],[0.,1.],[0.,1.41421356]])
NearestNeighborsClassificationscikit-learnimplementstwodifferentnearestneighborsclassifiers:KNeighborsClassifier基于每個查詢點的k個最近鄰來實現(xiàn)學(xué)習(xí),其中k是用戶指定的整數(shù)值RadiusNeighborsClassifier基于每個訓(xùn)練點固定半徑r內(nèi)的鄰域數(shù)來實現(xiàn)學(xué)習(xí),其中r是用戶指定的浮點值。sklearn.neighbors.KNeighborsClassifier>>>X=[[0],[1],[2],[3]]>>>y=[0,0,1,1]
>>>from
sklearn.neighbors
importKNeighborsClassifier>>>neigh=KNeighborsClassifier(n_neighbors=3)>>>neigh.fit(X,y)KNeighborsClassifier(...)>>>print(neigh.predict([[1.1]]))[0]>>>print(neigh.predict_proba([[0.9]]))[[0.666666670.33333333]]sklearn.neighbors.RadiusNeighborsClassifier>>>X=[[0],[1],[2],[3]]>>>y=[0,0,1,1]>>>from
sklearn.neighbors
importRadiusNeighborsClassifier
>>>neigh=RadiusNeighborsClassifier(radius=1.0)
>>>neigh.fit(X,y)RadiusNeighborsClassifier(...)>>>print(neigh.predict([[1.5]]))[0]NearestCentroidClassifierThe
NearestCentroid
(最近質(zhì)心分類)classifierisasimplealgorithmthatrepresentseachclassbythecentroidofitsmembers.Ineffect,thismakesitsimilartothelabelupdatingphaseofthe
sklearn.KMeans
algorithm.Italsohasnoparameterstochoose,makingitagoodbaselineclassifier.Itdoes,however,sufferonnon-convexclasses,aswellaswhenclasseshavedrasticallydifferentvariances,asequalvarianceinalldimensionsisassumed.分類器的每個成員的質(zhì)心都是由一個簡單的質(zhì)心表示的。實際上,這使其類似于sklearn.KMeans公司算法。它也沒有參數(shù)可供選擇,這使得它成為一個很好的基線分類器。然而,在非凸類上,以及當(dāng)類具有完全不同的方差時,它確實受到影響,因為假設(shè)所有維度的方差相等。>>>from
sklearn.neighbors.nearest_centroid
importNearestCentroid
>>>import
numpy
as
np
>>>X=np.array([[-1,-1],[-2,-1],[-3,-2],[1,1],[2,1],[3,2]])
>>>y=np.array([1,1,1,2,2,2])>>>clf=NearestCentroid()
>>>clf.fit(X,y)NearestCentroid(metric='euclidean',shrink_threshold=None)>>>print(clf.predict([[-0.8,-1]]))[1]NearestNeighborsRegressionscikitlearn實現(xiàn)了兩個不同的鄰居回歸函數(shù):KneighborsRegregator基于每個查詢點的最近鄰來實現(xiàn)學(xué)習(xí),其中是用戶指定的整數(shù)值radiusNeighborsRegressor基于查詢點固定半徑內(nèi)的鄰居進(jìn)行學(xué)習(xí),其中是用戶指定的浮點值。sklearn.neighbors.KNeighborsRegressor>>>y=[0,0,1,1]>>>from
sklearn.neighbors
importKNeighborsRegressor>>>neigh=KNeighborsRegressor(n_neighbors=2)>>>neigh.fit(X,y)KNeighborsRegressor(...)>>>print(neigh.predict([[1.5]]))[0.5]sklearn.neighbors.RadiusNeighborsRegressor>>>X=[[0],[1],[2],[3]]>>>y=[0,0,1,1]
>>>from
sklearn.neighbors
importRadiusNeighborsRegressor>>>neigh=RadiusNeighborsRegressor(radius=1.0)>>>neigh.fit(X,y)RadiusNeighborsRegressor(...)>>>print(neigh.predict([[1.5]]))[0.5]BayesianClassification貝葉斯分類器與決策樹決策樹:預(yù)測類標(biāo)簽貝葉斯分類器:統(tǒng)計分類器;預(yù)測類成員概率基于Bayes定理的后驗概率估計天真的貝葉斯分類器:假設(shè)屬性獨立的簡單分類器適用于大型數(shù)據(jù)庫時效率高在性能上可與決策樹相媲美PosteriorProbability設(shè)X是一個類標(biāo)簽未知的數(shù)據(jù)樣本假設(shè)X屬于一個特殊的類CiP(Hi|X)是以X為條件的Hi的后驗概率給定X的屬性值,數(shù)據(jù)示例X屬于類Ci的概率e、g.,給定X=(年齡:31歲…40,收入:中等,學(xué)生:是,學(xué)分:一般),X購買電腦的概率是多少?BayesTheorem分類意味著確定所有C1,…Cm類中P(Hi|X)的最高值 如果P(H1|X)>P(H0|X),則X購買計算機 如果P(H0|X)>P(H1|X),則X不購買計算機 用Bayes定理計算P(Hi|X)ClassPriorProbabilityP(Hi)是X屬于特定類Ci的類先驗概率可以從訓(xùn)練數(shù)據(jù)樣本中用ni/n估計n是訓(xùn)練數(shù)據(jù)樣本的總數(shù)ni是類Ci的訓(xùn)練數(shù)據(jù)樣本數(shù)ClassPriorProbabilityP(Hi)isclasspriorprobabilitythatXbelongstoaparticularclassCiCanbeestimatedbyni/nfromtrainingdatasamplesnisthetotalnumberoftrainingdatasamplesni
isthenumberoftrainingdatasamplesofclassCiDescriptorPriorProbabilityP(X)是X的先驗概率觀察X屬性值的概率假設(shè)X=(x1,x2,…,xd),它們是獨立的,那么P(X)=P(x1)P(x2)…P(xd)P(xj)=nj/n,其中nj是屬性Aj的值為xj的訓(xùn)練示例數(shù)n是訓(xùn)練樣本的總數(shù)所有類的常數(shù)DescriptorPriorProbabilityDescriptorPosteriorProbabilityP(X|Hi)是給定Hi的X的后驗概率在Ci類中觀察X的概率假設(shè)X=(x1,x2,…,xd),它們是獨立的,那么P(X|Hi)=P(x1|Hi)P(x2|Hi)…P(xd|Hi)P(xj|Hi)=ni,j/ni,其中ni,j是類Ci中屬性Aj的值為xj的訓(xùn)練示例數(shù)ni是Ci中訓(xùn)練實例的個數(shù)DescriptorPosteriorProbabilityP(X|Hi)isposteriorprobabilityofXgivenHiProbabilitythatobserveXinclassCiAssumeX=(x1,x2,…,xd)andtheyareindependent,thenP(X|Hi)=P(x1|Hi)P(x2|Hi)…P(xd|Hi)P(xj|Hi)=ni,j/ni,where
ni,j
isnumberoftrainingexamplesinclassCihavingvaluexjforattributeAjni
isnumberoftrainingexamplesinCiDescriptorPosteriorProbabilityP(X|Hi)isposteriorprobabilityofXgivenHiProbabilitythatobserveXinclassCiAssumeX=(x1,x2,…,xd)andtheyareindependent,thenP(X|Hi)=P(x1|Hi)P(x2|Hi)…P(xd|Hi)P(xj|Hi)=ni,j/ni,where
ni,j
isnumberoftrainingexamplesinclassCihavingvaluexjforattributeAjni
isnumberoftrainingexamplesinCiBayesianClassifier–BasicEquationWeatherDatasetExampleWeatherDatasetExample:ClassifyingXAnunseensampleX=<rain,hot,high,false>P(p)P(X|p)=P(p)P(rain|p)P(hot|p)P(high|p)P(false|p)
P(n)P(X|n)=P(n)P(rain|n)P(hot|n)P(high|n)P(false|n)
WeatherDatasetExample:ClassifyingXGivenatrainingset,wecancomputeprobabilities:AnunseensampleX=<rain,hot,high,false>P(p)P(X|p)=P(p)P(rain|p)P(hot|p)P(high|p)P(false|p)
=9/14·3/9·2/9·3/9·6/9·=0.010582WeatherDatasetExample:ClassifyingXGivenatrainingset,wecancomputeprobabilities:AnunseensampleX=<rain,hot,high,false>P(p)P(X|p)=0.010582P(n)P(X|n)=P(n)P(rain|n)P(hot|n)P(high|n)P(false|n)
=5/14·2/5·2/5·4/5·2/5=0.018286WeatherDatasetExample:ClassifyingXGivenatrainingset,wecancomputeprobabilities:AnunseensampleX=<rain,hot,high,false>P(p)P(X|p)=0.010582P(n)P(X|n)=0.018286SampleXisclassifiedinclassn(don’tplay)AvoidingtheZero-ProbabilityProblemDescriptorposteriorprobabilitygoesto0ifanyofprobabilityis0:
Ex.Supposeadatasetwith1000tuplesforaclassC,income=low(0),income=medium(990),andincome=high(10)UseLaplaciancorrection(orLaplacianestimator)Adding1toeachcaseProb(income=low|H)=1/1003Prob(income=medium|H)=991/1003Prob(income=high|H)=11/1003IndependenceHypothesismakescomputationpossibleyieldsoptimalclassifierswhensatisfiedbutisseldomsatisfiedinpractice,asattributes(variables)areoftencorrelatedAttemptstoovercomethislimitation:Bayesiannetworks,thatcombineBayesianreasoningwi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 智慧環(huán)衛(wèi)信息管理平臺建設(shè)方案
- 基于云計算技術(shù)的智慧環(huán)衛(wèi)解決方案
- 展臺搭建合同范本
- 稅務(wù)系統(tǒng)納稅信用管理政策解讀
- 重型柴油車遠(yuǎn)程在線監(jiān)控系統(tǒng)項目 投標(biāo)方案(技術(shù)方案)
- 三農(nóng)村創(chuàng)業(yè)投資手冊
- 企業(yè)供應(yīng)鏈管理的數(shù)字化轉(zhuǎn)型及優(yōu)化策略研究
- 三農(nóng)產(chǎn)品質(zhì)量安全追溯系統(tǒng)建設(shè)手冊
- 新零售技術(shù)應(yīng)用與發(fā)展趨勢分析報告
- 停車場車輛出入智能管理系統(tǒng)
- “一大”代表人生歷程與啟示匯總課件
- 2022年《經(jīng)濟金融基礎(chǔ)知識》近年真題考試題庫匯總(含答案)
- 《二手車鑒定評估與貿(mào)易》全套教學(xué)課件
- 音樂簡譜基礎(chǔ)知識
- 護(hù)士電子化注冊信息系統(tǒng)醫(yī)療機構(gòu)版醫(yī)療機構(gòu)快速閱讀手冊
- 購房人家庭唯一住房承諾表
- 【525心理輔導(dǎo)系列】有你的世界才精彩課件-心理健康
- 2021年新湘教版九年級數(shù)學(xué)中考總復(fù)習(xí)教案
- 北師大版 三年級下冊數(shù)學(xué)教案-整理與復(fù)習(xí)
- 煤礦竣工驗收竣工報告
- 北京華恒智信人力資源顧問有限公司ppt課件
評論
0/150
提交評論