




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1本講內(nèi)容 k-NN分類(lèi) 預(yù)測(cè) 分類(lèi)的準(zhǔn)確性2k-Nearest Neighbors Definition: Given a query point p, and a distance function dist(), let qk be a point in the database such that count( q| dist(p,q) =dist(p,qk), q D ) = k-1 The k-nearest neighbors of p are all points q such that dist(p,q) = dist(p,qk)pqkk=103k-NN分類(lèi) 每個(gè)訓(xùn)練樣本都看
2、作n維空間中的一個(gè)點(diǎn)。 給定一個(gè)未知樣本(類(lèi)似于查詢(xún)點(diǎn)q), 首先找到該樣本的k個(gè)近鄰,將這k個(gè)近鄰按照類(lèi)標(biāo)號(hào)進(jìn)行分組,未知樣本最終被分到組員最多的那個(gè)組。4本講內(nèi)容 k-NN分類(lèi) 預(yù)測(cè) 分類(lèi)的準(zhǔn)確性5What Is Prediction? Prediction is similar to classificationlFirst, construct a modellSecond, use model to predict unknown value Major method for prediction: regressionlLinear and multiple regressionl
3、Non-linear regression Prediction is different from classificationlClassification refers to predict categorical class labellPrediction models continuous-valued functions6 有一些軟件包解決回歸問(wèn)題。例如:lSAS(http:/)lSPSS(http:/)lS-Plus(http:/)。7Linear regression 在線(xiàn)性回歸線(xiàn)性回歸中,數(shù)據(jù)用直線(xiàn)建模。是最簡(jiǎn)單的回歸形式。 雙變量回歸將一個(gè)隨機(jī)變量Y(稱(chēng)作響應(yīng)響應(yīng)變量變量
4、)視為另一個(gè)隨機(jī)變量X(稱(chēng)為預(yù)測(cè)預(yù)測(cè)變量變量)的線(xiàn)性函數(shù)。即:Y = + X 8Linear regression 在線(xiàn)性回歸線(xiàn)性回歸中,數(shù)據(jù)用直線(xiàn)建模。是最簡(jiǎn)單的回歸形式。 雙變量回歸將一個(gè)隨機(jī)變量Y(稱(chēng)作響應(yīng)變量響應(yīng)變量)視為另一個(gè)隨機(jī)變量X(稱(chēng)為預(yù)測(cè)變量預(yù)測(cè)變量)的線(xiàn)性函數(shù)。即:Y = + X 其中,和是回歸系數(shù)回歸系數(shù) 建模的過(guò)程主要是求回歸系數(shù),常用的方法:l最小二乘法9用最小二乘法求回歸系數(shù) 給定s個(gè)樣本或形如(x1,y1), (x2,y2), (xs,ys)的數(shù)據(jù)點(diǎn),回歸系數(shù)和可以用下式計(jì)算: 其中,是x1, x2 ,., xs的平均值,而 是y1, y2 ,., ys的平均值。
5、 與其它復(fù)雜的回歸方法相比,線(xiàn)性回歸常常給出很好的近似。siisiiixxyyxx121)()(xyxy10用最小二乘法求回歸系數(shù):例子11 用方程Y = + X表示年薪和工作年數(shù)之間的關(guān)系。 給定左圖數(shù)據(jù),計(jì)算出 = 9.1, = 55.4。 用最小二乘法求回歸系數(shù):例子xy6 .23) 1 . 9)(7 . 3(4 .555 . 3) 1 . 916(.) 1 . 98() 1 . 93()4 .5583)(1 . 916(.)4 .5557)(1 . 98()4 .5530)(1 . 93(22212用k-NN進(jìn)行線(xiàn)性回歸 給定樣本x, 根據(jù)訓(xùn)練集求出它的k個(gè)近鄰,則:)(1xNxykY
6、kii13multiple regression 多元回歸多元回歸是線(xiàn)性回歸的擴(kuò)展,涉及多個(gè)預(yù)測(cè)變量。 響應(yīng)變量Y可以是一個(gè)多維特征向量的線(xiàn)性函數(shù)。 基于兩個(gè)預(yù)測(cè)屬性或變量X1和X2的多元回歸模型的例子是 最小二乘法同樣可以用在這里求解,1和2 2211XXY14Non-linear regression 通過(guò)在基本線(xiàn)性模型上添加多項(xiàng)式項(xiàng),多項(xiàng)式回歸多項(xiàng)式回歸可以用于建模。 通過(guò)對(duì)變量進(jìn)行變換,可以將非線(xiàn)性模型轉(zhuǎn)換成線(xiàn)性的,然后用最小二乘法求解。15Non-linear regression 例 下面的三次多項(xiàng)式 通過(guò)定義如下新變量: X1 = X X 2 = X 2 X 3 =X 3 可以轉(zhuǎn)
7、換成線(xiàn)性形式,結(jié)果為: 33221XXXY332211XXXY16本講內(nèi)容 k-NN分類(lèi) 預(yù)測(cè) 分類(lèi)的準(zhǔn)確性17評(píng)估分類(lèi)法的準(zhǔn)確率 保持和k-交叉確認(rèn)是兩種常用的評(píng)估分類(lèi)法準(zhǔn)確率的技術(shù) 18保持法 給定數(shù)據(jù)隨機(jī)地劃分成兩個(gè)獨(dú)立的集合:訓(xùn)練集和測(cè)試集。通常,三分之二的數(shù)據(jù)分配到訓(xùn)練集,其余三分之一分配到測(cè)試集。 隨機(jī)選樣:隨機(jī)選樣:是保持方法的一種變形,它將保持方法重復(fù)k次??傮w準(zhǔn)確率估計(jì)取k次迭代的平均值。19k-交叉確認(rèn) 初試數(shù)據(jù)被劃分成k個(gè)互不相交的子集S 1 , S 2 ,. , S k,每個(gè)子集的大小大致相等。 訓(xùn)練和測(cè)試進(jìn)行k次。在第i次迭代,S i用作測(cè)試集,其余的子集都用于訓(xùn)練集
8、。即,第一次迭代在子集S 2,.,S k上訓(xùn)練,而在S1上測(cè)試;第二次迭代的分類(lèi)法在子集S 1, S 3,.,S k上訓(xùn)練,而在S2上測(cè)試;如此下去。 準(zhǔn)確率是k次迭代過(guò)程中分類(lèi)結(jié)果正確的樣本數(shù)除以樣本總數(shù)。 20提高準(zhǔn)確率的方法 裝袋(Bagging)和 推進(jìn) (Boosting) 假定你是一個(gè)病人,希望根據(jù)你的癥狀進(jìn)行診斷。你可能選擇看多個(gè)醫(yī)生,而不是一個(gè)。如果某種診斷比其它診斷出現(xiàn)的次數(shù)多,你可能將它作為最終或最好的診斷?,F(xiàn)在,將醫(yī)生換成分類(lèi)法,你就可以直觀地理解裝袋。 假定你根據(jù)醫(yī)生以前診斷的準(zhǔn)確率,對(duì)每個(gè)醫(yī)生的診斷“值”或價(jià)值賦予一個(gè)權(quán)值,則最終的診斷是加權(quán)的診斷的組合。這就是推進(jìn)的
9、基本思想。 21總結(jié) Classification is an extensively studied problem (mainly in statistics, machine learning & neural networks) Classification is probably one of the most widely used data mining techniques with a lot of extensions Scalability is still an important issue for database applications: thus combining classification with database techniques should be a promising topic Research directions: classification of non-relational data, e.g., text, spatial, multimedia, etc.22作業(yè)1:1.Explain why RainForest is a scalable method for decision-tree inductio
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年食品質(zhì)檢員的考試結(jié)構(gòu)與答案
- 2024年汽車(chē)美容行業(yè)的新興技術(shù)試題及答案
- 2024年電瓶檢測(cè)與更換流程試題及答案
- 汽車(chē)美容師市場(chǎng)營(yíng)銷(xiāo)與客戶(hù)需求識(shí)別試題及答案
- 心理健康教育活動(dòng)課
- 果汁店創(chuàng)新創(chuàng)業(yè)計(jì)劃書(shū)
- 2024年公務(wù)員省考與汽車(chē)行業(yè)方位試題及答案
- 汽車(chē)售后服務(wù)發(fā)展的重要性分析試題及答案
- 2024年汽車(chē)維修工電工基礎(chǔ)知識(shí)試題及答案
- 2024年汽車(chē)美容師客戶(hù)反饋處理試題及答案
- (08)第6課:竇娥冤-高中語(yǔ)文【統(tǒng)編版必修下冊(cè)】課文詳解+教案設(shè)計(jì)
- 外固定架課件
- 結(jié)業(yè)證書(shū)文檔模板可編輯
- 《雷鋒叔叔你在哪里》教學(xué)案例
- DB32-T 2798-2015高性能瀝青路面施工技術(shù)規(guī)范-(高清現(xiàn)行)
- DBS62∕002-2021 食品安全地方標(biāo)準(zhǔn) 黃芪
- 譯林版五年級(jí)英語(yǔ)下冊(cè) Unit 6 第4課時(shí) 教學(xué)課件PPT小學(xué)公開(kāi)課
- API-620 大型焊接低壓儲(chǔ)罐設(shè)計(jì)與建造
- 部編統(tǒng)編版五年級(jí)下冊(cè)道德與法治全冊(cè)教案教學(xué)設(shè)計(jì)與每課知識(shí)點(diǎn)總結(jié)
- 浙江省杭州市介紹(課堂PPT)
- 路面及綠化帶拆除和修復(fù)方案
評(píng)論
0/150
提交評(píng)論