FAFU機(jī)器學(xué)習(xí) 07-1NNndayes中文

上傳人：秋*** IP屬地：陜西上傳時(shí)間：2023-11-05 格式：PPTX 頁數(shù)：44 大?。?.08MB 積分：20 舉報(bào) 版權(quán)申訴

FAFU機(jī)器學(xué)習(xí) 07-1NNndayes中文_第2頁

FAFU機(jī)器學(xué)習(xí) 07-1NNndayes中文_第3頁

FAFU機(jī)器學(xué)習(xí) 07-1NNndayes中文_第4頁

FAFU機(jī)器學(xué)習(xí) 07-1NNndayes中文_第5頁

已閱讀5頁，還剩39頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

機(jī)器學(xué)習(xí)基礎(chǔ)kNN和Bayes主要分類方法邏輯回歸線性判別分析決策樹歸納最近的鄰居貝葉斯分類方法反向傳播分類支持向量機(jī)集合方法…最近鄰分類器最近鄰分類器需要三件事存儲記錄的集合用于計(jì)算記錄之間距離的距離度量k的值，即要檢索的最近鄰數(shù)對未知記錄進(jìn)行分類:計(jì)算到其他培訓(xùn)記錄的距離確定k個(gè)最近鄰使用最近鄰的類標(biāo)簽來確定未知記錄的類標(biāo)簽（例如，通過采取多數(shù)票）最近鄰的定義1個(gè)最近鄰Voronoi，Dirichlet，。n，；。最近鄰分類器計(jì)算兩點(diǎn)之間的距離:歐幾里得距離從最近鄰列表中確定類取K個(gè)最近鄰中類標(biāo)簽的多數(shù)票根據(jù)距離給選票加權(quán)權(quán)重因子，w=1/D2最近鄰分類器計(jì)算兩點(diǎn)之間的距離:歐幾里得距離閔可夫斯基距離曼哈頓標(biāo)稱屬性的距離二進(jìn)制屬性的距離序數(shù)變量距離混合類型的距離最近鄰分類器類sklearn.neighbors.distancemetric這個(gè)類為快速距離度量函數(shù)提供了統(tǒng)一的接口。可以通過get_metric類方法和度量字符串標(biāo)識符訪問各種度量>>>從sklearn.neighbors導(dǎo)入DistanceMetric>>>dist=distanceMetric.get_metric（“euclidean”）>>>X=[[0，1，2]，[3，4，5]]>>>Dist.pairwise(X)數(shù)組([[0，5.19615242]，[5.19615242，0.]])最近鄰分類器類sklearn.neighbors.distancemetric用于實(shí)值向量空間的度量:最近鄰分類器選擇K:的值如果k太小，對噪聲點(diǎn)敏感如果k太大，則鄰域可能包括來自其他類的點(diǎn)最近鄰分類器縮放問題可能必須對屬性進(jìn)行縮放，以防止距離度量被其中一個(gè)屬性所支配例:一個(gè)人的身高可由1.5米至1.8米不等一個(gè)人的體重可以從90磅到300磅不等一個(gè)人的收入可能從1萬美元到100萬美元不等最近鄰分類器k-NN分類器是懶學(xué)習(xí)者（，）它不顯式地構(gòu)建模型不同于急切的學(xué)習(xí)者（）如決策樹歸納對未知記錄進(jìn)行分類比較昂貴sklearn.neighborssklearn.neighbors

提供無監(jiān)督和基于監(jiān)督鄰居的學(xué)習(xí)方法的功能。無監(jiān)督最近鄰居是許多其他學(xué)習(xí)方法的基礎(chǔ)，特別是流形學(xué)習(xí)（StandStand）和譜聚類（Posiple）。基于監(jiān)督鄰域的學(xué)習(xí)有兩種類型：對具有離散標(biāo)簽的數(shù)據(jù)進(jìn)行分類，對具有連續(xù)標(biāo)簽的數(shù)據(jù)進(jìn)行回歸。NearestNeighbors

近鄰實(shí)現(xiàn)了無監(jiān)督的最近鄰學(xué)習(xí)。它充當(dāng)三種不同的最近鄰算法的統(tǒng)一接口：BallTree、KDTree和基于中例程的暴力算法sklearn.metrics.pairwise.鄰域搜索算法的選擇通過關(guān)鍵字“algorithm”來控制，該關(guān)鍵字必須是['auto'、'ball\utree'、'kd_tree'、'brute']之一。當(dāng)傳遞默認(rèn)值“auto”時(shí)，算法嘗試從訓(xùn)練數(shù)據(jù)中確定最佳方法。

FindingtheNearestNeighbors>>>from

sklearn.neighbors

importNearestNeighbors

>>>import

numpy

>>>X=np.array([[-1,-1],[-2,-1],[-3,-2],[1,1],[2,1],[3,2]])>>>nbrs=NearestNeighbors(n_neighbors=2,algorithm='ball_tree').fit(X)

>>>distances,indices=nbrs.kneighbors(X)

>>>indicesarray([[0,1],[1,0],[2,1],[3,4],[4,3],[5,4]]...)

>>>distancesarray([[0.,1.],[0.,1.],[0.,1.41421356],[0.,1.],[0.,1.],[0.,1.41421356]])

NearestNeighborsClassificationscikit-learnimplementstwodifferentnearestneighborsclassifiers:KNeighborsClassifier基于每個(gè)查詢點(diǎn)的k個(gè)最近鄰來實(shí)現(xiàn)學(xué)習(xí)，其中k是用戶指定的整數(shù)值RadiusNeighborsClassifier基于每個(gè)訓(xùn)練點(diǎn)固定半徑r內(nèi)的鄰域數(shù)來實(shí)現(xiàn)學(xué)習(xí)，其中r是用戶指定的浮點(diǎn)值。sklearn.neighbors.KNeighborsClassifier>>>X=[[0],[1],[2],[3]]>>>y=[0,0,1,1]

>>>from

sklearn.neighbors

importKNeighborsClassifier>>>neigh=KNeighborsClassifier(n_neighbors=3)>>>neigh.fit(X,y)KNeighborsClassifier(...)>>>print(neigh.predict([[1.1]]))[0]>>>print(neigh.predict_proba([[0.9]]))[[0.666666670.33333333]]sklearn.neighbors.RadiusNeighborsClassifier>>>X=[[0],[1],[2],[3]]>>>y=[0,0,1,1]>>>from

sklearn.neighbors

importRadiusNeighborsClassifier

>>>neigh=RadiusNeighborsClassifier(radius=1.0)

>>>neigh.fit(X,y)RadiusNeighborsClassifier(...)>>>print(neigh.predict([[1.5]]))[0]NearestCentroidClassifierThe

NearestCentroid

(最近質(zhì)心分類)classifierisasimplealgorithmthatrepresentseachclassbythecentroidofitsmembers.Ineffect,thismakesitsimilartothelabelupdatingphaseofthe

sklearn.KMeans

algorithm.Italsohasnoparameterstochoose,makingitagoodbaselineclassifier.Itdoes,however,sufferonnon-convexclasses,aswellaswhenclasseshavedrasticallydifferentvariances,asequalvarianceinalldimensionsisassumed.分類器的每個(gè)成員的質(zhì)心都是由一個(gè)簡單的質(zhì)心表示的。實(shí)際上，這使其類似于sklearn.KMeans公司算法。它也沒有參數(shù)可供選擇，這使得它成為一個(gè)很好的基線分類器。然而，在非凸類上，以及當(dāng)類具有完全不同的方差時(shí)，它確實(shí)受到影響，因?yàn)榧僭O(shè)所有維度的方差相等。>>>from

sklearn.neighbors.nearest_centroid

importNearestCentroid

>>>import

numpy

>>>X=np.array([[-1,-1],[-2,-1],[-3,-2],[1,1],[2,1],[3,2]])

>>>y=np.array([1,1,1,2,2,2])>>>clf=NearestCentroid()

>>>clf.fit(X,y)NearestCentroid(metric='euclidean',shrink_threshold=None)>>>print(clf.predict([[-0.8,-1]]))[1]NearestNeighborsRegressionscikitlearn實(shí)現(xiàn)了兩個(gè)不同的鄰居回歸函數(shù)：KneighborsRegregator基于每個(gè)查詢點(diǎn)的最近鄰來實(shí)現(xiàn)學(xué)習(xí)，其中是用戶指定的整數(shù)值radiusNeighborsRegressor基于查詢點(diǎn)固定半徑內(nèi)的鄰居進(jìn)行學(xué)習(xí)，其中是用戶指定的浮點(diǎn)值。sklearn.neighbors.KNeighborsRegressor>>>y=[0,0,1,1]>>>from

sklearn.neighbors

importKNeighborsRegressor>>>neigh=KNeighborsRegressor(n_neighbors=2)>>>neigh.fit(X,y)KNeighborsRegressor(...)>>>print(neigh.predict([[1.5]]))[0.5]sklearn.neighbors.RadiusNeighborsRegressor>>>X=[[0],[1],[2],[3]]>>>y=[0,0,1,1]

>>>from

sklearn.neighbors

importRadiusNeighborsRegressor>>>neigh=RadiusNeighborsRegressor(radius=1.0)>>>neigh.fit(X,y)RadiusNeighborsRegressor(...)>>>print(neigh.predict([[1.5]]))[0.5]BayesianClassification貝葉斯分類器與決策樹決策樹：預(yù)測類標(biāo)簽貝葉斯分類器：統(tǒng)計(jì)分類器；預(yù)測類成員概率基于Bayes定理的后驗(yàn)概率估計(jì)天真的貝葉斯分類器：假設(shè)屬性獨(dú)立的簡單分類器適用于大型數(shù)據(jù)庫時(shí)效率高在性能上可與決策樹相媲美PosteriorProbability設(shè)X是一個(gè)類標(biāo)簽未知的數(shù)據(jù)樣本假設(shè)X屬于一個(gè)特殊的類CiP（Hi|X）是以X為條件的Hi的后驗(yàn)概率給定X的屬性值，數(shù)據(jù)示例X屬于類Ci的概率e、g.，給定X=(年齡：31歲…40，收入：中等，學(xué)生：是，學(xué)分：一般），X購買電腦的概率是多少？BayesTheorem分類意味著確定所有C1，…Cm類中P（Hi|X）的最高值如果P（H1|X）>P（H0|X），則X購買計(jì)算機(jī) 如果P（H0|X）>P（H1|X），則X不購買計(jì)算機(jī) 用Bayes定理計(jì)算P（Hi|X）ClassPriorProbabilityP（Hi）是X屬于特定類Ci的類先驗(yàn)概率可以從訓(xùn)練數(shù)據(jù)樣本中用ni/n估計(jì)n是訓(xùn)練數(shù)據(jù)樣本的總數(shù)ni是類Ci的訓(xùn)練數(shù)據(jù)樣本數(shù)ClassPriorProbabilityP(Hi)isclasspriorprobabilitythatXbelongstoaparticularclassCiCanbeestimatedbyni/nfromtrainingdatasamplesnisthetotalnumberoftrainingdatasamplesni

isthenumberoftrainingdatasamplesofclassCiDescriptorPriorProbabilityP（X）是X的先驗(yàn)概率觀察X屬性值的概率假設(shè)X=（x1，x2，…，xd），它們是獨(dú)立的，那么P（X）=P（x1）P（x2）…P（xd）P（xj）=nj/n，其中nj是屬性Aj的值為xj的訓(xùn)練示例數(shù)n是訓(xùn)練樣本的總數(shù)所有類的常數(shù)DescriptorPriorProbabilityDescriptorPosteriorProbabilityP（X|Hi）是給定Hi的X的后驗(yàn)概率在Ci類中觀察X的概率假設(shè)X=（x1，x2，…，xd），它們是獨(dú)立的，那么P（X|Hi）=P（x1|Hi）P（x2|Hi）…P（xd|Hi）P（xj|Hi）=ni，j/ni，其中ni，j是類Ci中屬性Aj的值為xj的訓(xùn)練示例數(shù)ni是Ci中訓(xùn)練實(shí)例的個(gè)數(shù)DescriptorPosteriorProbabilityP(X|Hi)isposteriorprobabilityofXgivenHiProbabilitythatobserveXinclassCiAssumeX=(x1,x2,…,xd)andtheyareindependent,thenP(X|Hi)=P(x1|Hi)P(x2|Hi)…P(xd|Hi)P(xj|Hi)=ni,j/ni,where

ni,j

isnumberoftrainingexamplesinclassCihavingvaluexjforattributeAjni

ni,j

isnumberoftrainingexamplesinclassCihavingvaluexjforattributeAjni

=5/14·2/5·2/5·4/5·2/5=0.018286WeatherDatasetExample:ClassifyingXGivenatrainingset,wecancomputeprobabilities:AnunseensampleX=<rain,hot,high,false>P(p)P(X|p)=0.010582P(n)P(X|n)=0.018286SampleXisclassifiedinclassn(don’tplay)AvoidingtheZero-ProbabilityProblemDescriptorposteriorprobabilitygoesto0ifanyofprobabilityis0:

Ex.Supposeadatasetwith1000tuplesforaclassC,income=low(0),income=medium(990),andincome=high(10)UseLaplaciancorrection(orLaplacianestimator)Adding1toeachcaseProb(income=low|H)=1/1003Prob(income=medium|H)=991/1003Prob(income=high|H)=11/1003IndependenceHypothesismakescomputationpossibleyieldsoptimalclassifierswhensatisfiedbutisseldomsatisfiedinpractice,asattributes(variables)areoftencorrelatedAttemptstoovercomethislimitation:Bayesiannetworks,thatcombineBayesianreasoningwi

人人文庫> 全部分類> 應(yīng)用文書 > 技術(shù)指導(dǎo)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

FAFU機(jī)器學(xué)習(xí) 07-1NNndayes中文

文檔簡介

溫馨提示

最新文檔

評論

FAFU機(jī)器學(xué)習(xí) 07-1NNndayes中文

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔