電子商務(wù)-愛情片or動作片knn算法_第1頁
電子商務(wù)-愛情片or動作片knn算法_第2頁
電子商務(wù)-愛情片or動作片knn算法_第3頁
電子商務(wù)-愛情片or動作片knn算法_第4頁
電子商務(wù)-愛情片or動作片knn算法_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

內(nèi)容提要問題提出:愛情片or動作片KNN算法問題求解:愛情片or動作片總結(jié)與練習(xí)問題提出:愛情片or動作片問題提出愛情片vs

動作片問題提出:愛情片or動作片問題提出景愛情片動作片問題提出:愛情片or動作片問題提出鏡頭次數(shù)vs

打斗場景次數(shù)名稱打斗次數(shù)次數(shù)類型California

Man3104RomanceHe’s

Not

Really

into

Dudes2100RomanceBeautiful

Woman181RomanceKevin

Longblade10110ActionRobo

Slayer

3000995ActionAmped

II982Action?1890Unknown問題提出:愛情片or動作片200問題提出鏡頭次數(shù)vs

打斗場景次數(shù)1200204060打斗場景次數(shù)80100120KNN(K最近鄰)算法KNN算法KNN(K-Nearest

Neighbor,K最近鄰)算法基于實例的學(xué)習(xí)方法數(shù)據(jù)挖掘十大經(jīng)典算法之一著名的模式識別統(tǒng)計學(xué)方法之一最好的文本分類算法之一KNN算法KNN算法基本思想如果一個實例在特征空間

中的K個最相似(即特征空間中最近鄰)的實例中的

大多數(shù)屬于某一個類別,

則該實例也屬于這個類別。所選擇的鄰居都是已經(jīng)正

確分類的實例。少數(shù)服從多數(shù)KNN算法KNN算法基本思想算法分析:算法原理:設(shè)有N個樣本分布到c個類為1,…,i,…c,每類有Ni個樣本,i=1…c。在全部樣本中找出k個最近距離的近鄰,k個近鄰分布于c個類中的數(shù)目用ki表示。k近鄰的判別函數(shù)為:gi

(x)

ki

,KNN算法KNN算法基本思想算法分析:決策規(guī)則:如果g

j

(x)

a為x

j,那么決策如右圖示例中:k1=4,k2=0,k3=1,所以j=1,。ix

1KNN算法KNN算法主要因素實例集實例x表示為特征向量<a1(x),a2(x),...,an(x)>其中ar(x)表示實例x的第r個屬性值。例如:人<

,身高,體重><30,

175,

140>,黃藥師<78,

170,

120>KNN算法KNN算法主要因素距離或相似的衡量(Euclidean)距離【歐式距離】計算曼哈頓(Manhattan)距離、切比(Chebyshev)距離、明

(Minkowsky)距離等KNN算法KNN算法主要因素K的大小K太小:分類結(jié)果易受噪聲點影響K太大:近鄰中又可能包含太多的其他類別的點K值可采用交叉檢驗來確定經(jīng)驗規(guī)則:K一般低于訓(xùn)練樣本數(shù)的平方根KNN算法KNN算法描述計算出樣本數(shù)據(jù)和待分類數(shù)據(jù)的距離為待分類數(shù)據(jù)選擇K個與其距離最小的樣本統(tǒng)計出K個樣本中大多數(shù)樣本所屬的分類判別:確定待分類數(shù)據(jù)所屬的分類KNN算法KNN算法實現(xiàn):偽代碼1

搜索k近鄰的算法:kNN(A[n],k)23

#輸入:A[n]為N個訓(xùn)練樣本在空間中的坐標,k為近鄰數(shù)4

#輸出:x所屬的類別56

取A[1]~A[k]作為x的初始近鄰,計算與測試樣本x間的歐式距離d(x,A[i]),i=1,2,.....,k;7

按d(x,

A[i])升序排序8

取最遠樣本距離D=max{d(x,a[j])

|

j=1,2,...,k}910

for(i=k+1;i<=n;i++)#繼續(xù)計算剩下的n-k個數(shù)據(jù)的歐氏距離111213計算A[i]與x間的距離d(x,A[i])if(d(x,A[i]))<Dthen

用A[i]代替最遠樣本#將后面計算的數(shù)據(jù)直接進行即可14最后的K個數(shù)據(jù)是有大小順序的,再進行K個樣本的統(tǒng)計即可計算前k個樣本A[i](i=1,2,..,k)所屬類別的概率具有最大概率的類別即為樣本x的類問題求解:愛情片or動作片問題求解距離計算(歐式距離)2ba11

bK值選取按照經(jīng)驗規(guī)則選取K值k

6

2問題求解:愛情片or動作片問題求解計算結(jié)果名稱類別與未知

的距離California

ManRomance20.5He’s

Not

Really

into

DudesRomance18.7Beautiful

WomanRomance19.2Kevin

LongbladeAction115.3Robo

Slayer

3000Action117.4Amped

IIAction118.9問題求解:愛情片or動作片問題求解分類決策(判別)K=2No1:

18.7

--

He’s

Not

Really

into

Dudes

RomanceNo2:

19.2

--

Beautiful

Woman

--

Romance名稱打斗次數(shù)次數(shù)類型?1890Romance總結(jié)與練習(xí)總結(jié)優(yōu)點:易于理解,易于實現(xiàn),無需訓(xùn)練精度高,對個別異常值不敏感缺點:計算量較大,空間開銷較大總結(jié)與練習(xí)擴展學(xué)習(xí)利用KNN算法改進的配對效果(MachineLearning

in

Action《機器學(xué)習(xí)實戰(zhàn)》)-總結(jié)與練習(xí)練習(xí)編程實現(xiàn)KNN算法,處理品質(zhì)數(shù)據(jù)。

的品

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論