最近鄰居法記憶基礎(chǔ)推論法_第1頁
最近鄰居法記憶基礎(chǔ)推論法_第2頁
最近鄰居法記憶基礎(chǔ)推論法_第3頁
最近鄰居法記憶基礎(chǔ)推論法_第4頁
最近鄰居法記憶基礎(chǔ)推論法_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

最近鄰居法記憶基礎(chǔ)推論法1第一頁,共二十二頁,編輯于2023年,星期六按過去經(jīng)驗(yàn)作判斷醫(yī)生看病咳嗽感冒?氣喘?Sars?認(rèn)人2第二頁,共二十二頁,編輯于2023年,星期六何謂最近鄰居法?最近鄰居法KNN(K-NearestNeighbor)又稱為:記憶基礎(chǔ)推論法MBR(Memory-BasedReasoning)指的是根據(jù)現(xiàn)有的資料庫,先找出新資料的鄰近資料,然後根據(jù)鄰近資料對(duì)新資料進(jìn)行分類和預(yù)測。3第三頁,共二十二頁,編輯于2023年,星期六最近鄰居法(距離函數(shù)與組合函數(shù)示意圖)年齡收入買筆記型電腦不買筆記型電腦4第四頁,共二十二頁,編輯于2023年,星期六KNN使用到的函數(shù)距離函數(shù)(Distancefunction)負(fù)責(zé)判斷兩筆資料差異到底有多大距離愈?。罕硎静町愑〗M合函數(shù)(Combinationfunction)將鄰近資料的結(jié)果組合,以產(chǎn)生分類5第五頁,共二十二頁,編輯于2023年,星期六KNN如何運(yùn)作?選擇適當(dāng)?shù)臍v史資料資料涵蓋範(fàn)圍將資料作前處理減少資料量決定距離函數(shù)、組合函數(shù)6第六頁,共二十二頁,編輯于2023年,星期六若屬性量化差異太大收入與年齡:這兩個(gè)屬性量化差異太大將資料標(biāo)準(zhǔn)化:0~1之間(A-Min)/(Max-Min)7第七頁,共二十二頁,編輯于2023年,星期六若屬性為類別型態(tài)學(xué)歷:小學(xué)、國中、高中、大學(xué)、研究所顏色:藍(lán)、綠、紅、黃、8第八頁,共二十二頁,編輯于2023年,星期六距離函數(shù)的特性(補(bǔ)充)明確界定

-d(A,B)>=0;

-每一筆資料都一定有鄰近資料的存在區(qū)辨性

-d(A,A)=0;

-與自己最相符合的資料就是它本身可互換性

-d(A,B)=d(B,A);三角不等式

-d(A,B)<=d(A,C)+d(C,B);

-新增一筆資料,不會(huì)改變現(xiàn)有資料的距離9第九頁,共二十二頁,編輯于2023年,星期六常見的距離函數(shù)絕對(duì)值:|A-B|平方差:(A-B)2標(biāo)準(zhǔn)化絕對(duì)值:|A-B|/(最大差值)

數(shù)值都在0~1之間10第十頁,共二十二頁,編輯于2023年,星期六組合函數(shù)民主式(基礎(chǔ)方式)讓最近的K個(gè)鄰近資料,以「投票」的方式選出答案鄰近資料(K個(gè))必須是奇數(shù)個(gè)加權(quán)投票式著重「加權(quán)」對(duì)於愈鄰近的資料加權(quán)愈重11第十一頁,共二十二頁,編輯于2023年,星期六如何獲得最佳結(jié)果?選擇正確的訓(xùn)練資料組增加罕見分類項(xiàng)的資料數(shù)量選擇距離函數(shù)選擇適合的鄰近資料數(shù)量需根據(jù)資料的分佈狀況與面對(duì)的問題決定組合函數(shù)類別性資料加權(quán)投票12第十二頁,共二十二頁,編輯于2023年,星期六KNN的優(yōu)點(diǎn)結(jié)論容易推測能運(yùn)用在任何資料型態(tài)、甚至是非關(guān)聯(lián)式資料上在任何數(shù)量的變數(shù)下都能運(yùn)作良好訓(xùn)練資料組容易建立13第十三頁,共二十二頁,編輯于2023年,星期六KNN的缺點(diǎn)在預(yù)測階段上,運(yùn)算作業(yè)繁複訓(xùn)練資料組需要大量記錄高度依賴距離函數(shù)和組合函數(shù)14第十四頁,共二十二頁,編輯于2023年,星期六案例研究:新聞報(bào)導(dǎo)分類選擇測試資料組

-道瓊的新聞稿(49652篇)設(shè)定距離函數(shù)

-利用已存在的距離函數(shù)“相關(guān)回饋”,比對(duì)其相似度(去除無意義,常出現(xiàn)的詞、給予權(quán)值、注意複合字…)設(shè)定組合函數(shù)

-加權(quán)技術(shù)、低於門檻值的編號(hào)剔除設(shè)定鄰近資料數(shù)量15第十五頁,共二十二頁,編輯于2023年,星期六何謂分類型的問題分類(預(yù)測)型的問題將某一人、事、物,作分類(預(yù)測)16第十六頁,共二十二頁,編輯于2023年,星期六KNN本質(zhì):本身是一個(gè)分類器收入年齡職業(yè)…分類器好差銀行客戶信用分類信用:17第十七頁,共二十二頁,編輯于2023年,星期六分類模型:兩階段模式建構(gòu)階段挑選輸出、輸入屬性資料處理定義距離與組合函數(shù)運(yùn)用階段可對(duì)一未知資料作分類18第十八頁,共二十二頁,編輯于2023年,星期六輸入與輸出屬性輸出屬性:分類的目標(biāo)屬性又稱為:分類屬性or目標(biāo)屬性輸入屬性:與分類有關(guān)的屬性19第十九頁,共二十二頁,編輯于2023年,星期六分組思考請(qǐng)想出一個(gè)適合用KNN作分類預(yù)測的實(shí)用例子請(qǐng)思考建構(gòu)階段挑選輸出、輸入屬性資料處理定義距離與組合函數(shù)運(yùn)用階段可對(duì)一未知資料作分類20第二十頁,共二

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論