




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、KNN:K最近鄰分類算法K-Nearest Neighbor ClassificationKNN算法怎么來的?KNN算法是怎么來的電影名稱打斗次數(shù)接吻次數(shù)電影類型California Man 3104RomanceHes Not Really into Dudes 2100RomanceBeautiful Woman 181RomanceKevin Longblade 10110ActionRobo Slayer 3000 995ActionAmped II 982Action未知1890Unknown猜猜看:最后一行未知電影屬于什么類型的電影。KNN算法是怎么來的點X坐標(biāo)Y坐標(biāo)點類型A點 3
2、104RomanceB點 2100RomanceC點 181RomanceD點 10110ActionE點 995ActionF點 982ActionG點1890Unknown猜猜看:最后一行未知點屬于什么類型的點。KNN算法是怎么來的想一想:下面圖片中只有三種豆,有三個豆是未知的種類,如何判定他們的種類?1968年,Cover和Hart提出了最初的近鄰法。最近鄰算法提供一種思路,即:未知的豆離哪種豆最近就認(rèn)為未知豆和該豆是同一種類。由此,我們引出最近鄰算法的定義:為了判定未知樣本的類別,以全部訓(xùn)練樣本作為代表點,計算未知樣本與所有訓(xùn)練樣本的距離,并以最近鄰者的類別作為決策未知樣本類別的唯一依
3、據(jù)。但是,最近鄰算法明顯是存在缺陷的,我們來看一個例子。KNN算法是怎么來的問題:有一個未知形狀X(圖中綠色的圓點),如何判斷X是什么形狀?K-最近鄰算法顯然,通過上面的例子我們可以明顯發(fā)現(xiàn)最近鄰算法的缺陷對噪聲數(shù)據(jù)過于敏感,為了解決這個問題,我們可以可以把位置樣本周邊的多個最近樣本計算在內(nèi),擴大參與決策的樣本量,以避免個別數(shù)據(jù)直接決定決策結(jié)果。由此,我們引進K-最近鄰算法。KNN算法是用來干什么的 K-最近鄰算法是最近鄰算法的一個延伸?;舅悸肥牵哼x擇未知樣本一定范圍內(nèi)確定個數(shù)的K個樣本,該K個樣本大多數(shù)屬于某一類型,則未知樣本判定為該類型。 下面借助圖形解釋一下。KNN算法的實現(xiàn)步驟算法步
4、驟:算法步驟:step.1-初始化距離為最大值初始化距離為最大值step.2-計算未知樣本和每個訓(xùn)練樣本的距離計算未知樣本和每個訓(xùn)練樣本的距離diststep.3-得到目前得到目前K個最臨近樣本中的最大距離個最臨近樣本中的最大距離maxdiststep.4-如果如果dist小于小于maxdist,則將該訓(xùn)練樣本作為,則將該訓(xùn)練樣本作為K-最近最近鄰樣本鄰樣本step.5-重復(fù)步驟重復(fù)步驟2、3、4,直到未知樣本和所有訓(xùn)練樣本的,直到未知樣本和所有訓(xùn)練樣本的距離都算完距離都算完step.6-統(tǒng)計統(tǒng)計K個最近鄰樣本中每個類別出現(xiàn)的次數(shù)個最近鄰樣本中每個類別出現(xiàn)的次數(shù)step.7-選擇出現(xiàn)頻率最大的
5、類別作為未知樣本的類別選擇出現(xiàn)頻率最大的類別作為未知樣本的類別KNN算法的缺陷觀察下面的例子,我們看到,對于位置樣本X,通過KNN算法,我們顯然可以得到X應(yīng)屬于紅點,但對于位置樣本Y,通過KNN算法我們似乎得到了Y應(yīng)屬于藍(lán)點的結(jié)論,而這個結(jié)論直觀來看并沒有說服力。KNN算法的具體實現(xiàn)由上面的例子可見:該算法在分類時有個重要的不足是,當(dāng)樣本不平衡時,即:一個類的樣本容量很大,而其他類樣本數(shù)量很小時,很有可能導(dǎo)致當(dāng)輸入一個未知樣本時,該樣本的K個鄰居中大數(shù)量類的樣本占多數(shù)。 但是這類樣本并不接近目標(biāo)樣本,而數(shù)量小的這類樣本很靠近目標(biāo)樣本。這個時候,我們有理由認(rèn)為該位置樣本屬于數(shù)量小的樣本所屬的一類
6、,但是,KNN卻不關(guān)心這個問題,它只關(guān)心哪類樣本的數(shù)量最多,而不去把距離遠(yuǎn)近考慮在內(nèi),因此,我們可以采用權(quán)值的方法來改進。和該樣本距離小的鄰居權(quán)值大,和該樣本距離大的和該樣本距離小的鄰居權(quán)值大,和該樣本距離大的鄰居權(quán)值則相對較小,由此,將距離遠(yuǎn)近的因素也考慮鄰居權(quán)值則相對較小,由此,將距離遠(yuǎn)近的因素也考慮在內(nèi),避免因一個樣本過大導(dǎo)致誤判的情況。在內(nèi),避免因一個樣本過大導(dǎo)致誤判的情況。KNN算法的缺陷從算法實現(xiàn)的過程大家可以發(fā)現(xiàn),該算法存兩個嚴(yán)重的問題,第一個是需要存儲全部的訓(xùn)練樣本,第二個是需要進行繁重的距離計算量。對此,提出以下應(yīng)對策略。KNN算法的改進:分組快速搜索近鄰法其基本思想是:將樣
7、本集按近鄰關(guān)系分解成組,給出每組質(zhì)心的位置,以質(zhì)心作為代表點,和未知樣本計算距離,選出距離最近的一個或若干個組,再在組的范圍內(nèi)應(yīng)用一般的knn算法。由于并不是將未知樣本與所有樣本計算距離,故該改進算法可以減少計算量,但并不能減少存儲量。KNN算法的改進:壓縮近鄰算法利用現(xiàn)在的樣本集,采取一定的算法產(chǎn)生一個新的樣本集,該樣本集擁有比原樣本集少的多的樣本數(shù)量,但仍然保持有對未知樣本進行分類的能力?;舅悸罚憾x兩個存儲器,一個用來存放生成的樣本集,稱為output樣本集;另一個用來存放原來的樣本集,稱為original樣本集。 1.初始化:output樣本集為空集,原樣本集存入original樣本集,從original樣本集中任意選擇一個樣本移動到output樣本集中; 2.在original樣本集中選擇第i個樣本,并使用output樣本集中的樣本對其進行最近鄰算法分類,若分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025江蘇揚州人才集團下屬企業(yè)招聘6人筆試備考試題參考答案詳解
- 2025江蘇興化市招聘教師67人筆試參考題庫附答案解析完整參考答案詳解
- 2024年河北邯鄲成安縣事業(yè)單位招聘工作人員255名筆試備考題庫及一套答案詳解
- 2025年鄂爾多斯市公務(wù)員考試行測試卷歷年真題附答案詳解
- 江西省上饒市鄱陽縣2024-2025學(xué)年高二上學(xué)期第二次月考物理試卷(解析版)
- 浙江省“桐·浦·富·興”教研聯(lián)盟2024-2025學(xué)年高二下學(xué)期5月調(diào)研測試 語文 PDF版含答案
- 小雞的春節(jié)開心果
- 房地產(chǎn)開發(fā)過程中的文化因素
- 幼兒春節(jié)故事大匯集
- 神秘魅惑的異域風(fēng)情妝容
- 2023電氣裝置安裝工程 旋轉(zhuǎn)電機施工及驗收規(guī)范
- 2025-2030年中國航空密封件行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- GB 45673-2025危險化學(xué)品企業(yè)安全生產(chǎn)標(biāo)準(zhǔn)化通用規(guī)范
- 第六單元 年、月、日 單元測試(含答案)2024-2025學(xué)年三年級下冊數(shù)學(xué)人教版
- 山東開放大學(xué)招聘真題2024
- 2025-2030中國工業(yè)鉸接式機器人行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 國家開放大學(xué)2025年《機電控制工程基礎(chǔ)》形考任務(wù)1-4答案
- 合資公司的組織結(jié)構(gòu)與運營規(guī)范
- 基層醫(yī)療衛(wèi)生機構(gòu)信息化建設(shè)中的醫(yī)療信息化服務(wù)創(chuàng)新與產(chǎn)業(yè)鏈協(xié)同發(fā)展路徑報告
- 降雨誘發(fā)裂隙邊坡滑動失穩(wěn)的試驗機理分析
- 拆鋼管架合同協(xié)議
評論
0/150
提交評論