機(jī)器學(xué)習(xí)總結(jié)

上傳人：b*** IP屬地：天津上傳時(shí)間：2022-09-21 格式：DOCX 頁(yè)數(shù)：46 大?。?6.84KB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩41頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選公文范文機(jī)器學(xué)習(xí)總結(jié)篇一：機(jī)器學(xué)習(xí)總結(jié)目錄、L 刖2NaiveBayes2Linear Regression & Logistic Regression3Bias-variance trade-off & Regularization5SVM精選公文范文Optimization13EM15MixturesofGaussians 16ME17HMM18MEMM 21CRF22DecisionTree23ID3 2424CART24ModelTree24ModelCombination26Bagging27RandomForest28Boosting28AdaBoost28FeatureSel

2、ection29KNN29KDTree30PCA&精選公文范文SVD31Collaborative filtering33CF as supervised learning34CF as matrix factorization35刖言花了將近四個(gè)月時(shí)間，終于把機(jī)器學(xué)習(xí)最基本的東西大致過(guò)了一遍了，這中間還包括一個(gè)多月的時(shí)間用于復(fù)習(xí)數(shù) 學(xué)了（坑爹?。?，很久沒(méi)有花這么大的精力學(xué)一樣?xùn)|西了，很高興的是，在比較深入的去了解后，我還沒(méi)有對(duì)機(jī)器學(xué)習(xí) 失去興趣?，這至少說(shuō)明，這個(gè)東西是真真正正吸引我的。這陣子雜七雜八的看了不少東西，為了避免以后全還回去了，我決定一邊精選公文范文精選公文范文復(fù)

3、習(xí)一邊寫個(gè)總結(jié)，把這些七七八八的東西都塞一塊兒吧。這里涵蓋了絕大多數(shù)我學(xué)過(guò)的機(jī)器學(xué)習(xí)相關(guān)的東西，有一些算法可能被我略過(guò)去了，比如k-means，層次聚類， Apriori等，冠冕堂皇的原因是這些算法比較簡(jiǎn)單，相信不那么容易忘記，其實(shí) 真正的原因是寫到最后實(shí)在疲了，懶得繼續(xù)了 -_-!。我最初對(duì)機(jī)器學(xué)習(xí)產(chǎn)生興趣是源于吳軍博士的數(shù)學(xué)之美，不能不說(shuō)這本書(shū)實(shí)在是真好，反正我是結(jié)結(jié)實(shí)實(shí)的上套了，另外一個(gè)比較幸運(yùn)的事情是，在我剛決定學(xué)習(xí)機(jī)器學(xué)習(xí)時(shí)，正好有一家叫“培樂(lè)園”的針對(duì)互聯(lián)網(wǎng)高端技術(shù)的培訓(xùn)機(jī)構(gòu)開(kāi)張了，我也有幸成為了第一批學(xué)員，不得不說(shuō)培樂(lè)園在機(jī)器學(xué)習(xí)方面對(duì)我的影響和數(shù)學(xué)之美

4、一樣巨大，正是蔣龍老師的課程讓我了解了機(jī)器學(xué) 習(xí)的框架，從而在后面的學(xué)習(xí)中不至于像無(wú)頭蒼蠅似的到處亂撞，另外，Andrew Ng和龍星計(jì)劃的機(jī)器學(xué)習(xí)課程對(duì)我?guī)?精選公文范文6精選公文范文助也都非常的大，感謝這些無(wú)私分享的老師們！最后，作為機(jī)器學(xué)習(xí)的菜鳥(niǎo)，我只能說(shuō)，路漫漫其修遠(yuǎn)兮，努力吧！KejunkjliueNaive BayesNB是基于貝葉斯定理和條件獨(dú)立性假設(shè)的分類器，貝葉斯定理簡(jiǎn)單的說(shuō) 就是已知條件概率p和先驗(yàn)概率p的情況下求p的方法，因?yàn)橛行r(shí)候計(jì)算p 和p比較容易，而計(jì)算p很困難，這時(shí) 候就可以通過(guò)貝葉斯定理將困難的問(wèn)題轉(zhuǎn)化為簡(jiǎn)單問(wèn)題解決，從另一個(gè)角度看，貝葉斯定

5、理也可以理解為通過(guò)生成模型 p求解判別模型p的方法，這里就必須提到條件獨(dú)立性假設(shè)了，因?yàn)镹B是生成模型，也就是對(duì)聯(lián)合概率分布p= p *p建模，由于x的結(jié)構(gòu)一般很復(fù)雜，直接建模會(huì)很困難，因此幾乎所有的生成模型都對(duì)x的結(jié)構(gòu)做了一定的假設(shè)，NB做的假設(shè)是在給定y的前提下，x的各個(gè) 精選公文范文精選公文范文 feature是條件獨(dú)立的（非常強(qiáng)的假設(shè)，也許這就是該分類器名字里naive的來(lái) 歷吧），這樣就可以很容易的將p分解為 x的各個(gè)feature條件概率的乘積。NB的模型學(xué)習(xí)采用MLE，這里有一個(gè)0概率問(wèn)題，就是如果訓(xùn)練數(shù)據(jù)中某個(gè)的組合沒(méi)有出現(xiàn)過(guò)的話，所有包含該feature

6、的x屬于類y概率會(huì)變?yōu)?，這顯然不合理，一種最簡(jiǎn)單的平滑方式是Laplace平滑（即+1平滑，分子加1，分母加上分子可能取值的個(gè)數(shù)），這樣平滑后的p仍然是一個(gè)概率分布，或者可以引入一些先驗(yàn)知識(shí)，比如，采用如下的公式：/ count + weight，這里 weight 和 assumedprob 對(duì) 應(yīng)的是先驗(yàn)知識(shí)，而count是訓(xùn)練樣本總數(shù)，prob是調(diào)整前的條件概率p。對(duì)條件概率p的估計(jì)，當(dāng)feature取值為離散值時(shí)，只需要簡(jiǎn)單的統(tǒng)計(jì)訓(xùn)練樣本中的頻率即可，當(dāng)feature取值為連續(xù)值時(shí)，有兩種處理方案：1、計(jì)算給定y時(shí)feature的均值和方差，得到概率密精選公文范文8

7、精選公文范文度。2、將連續(xù)值切分為多個(gè)區(qū)間，也就是將特征離散化，這樣估計(jì)方法就和離散值一樣了。NB有很多優(yōu)點(diǎn)，訓(xùn)練簡(jiǎn)單，模型易于解釋，不容易o(hù)verfitting，在小數(shù)據(jù)集上也能工作的相當(dāng)不錯(cuò)，缺點(diǎn)就是條件獨(dú)立性假設(shè)似乎過(guò)強(qiáng)了一些，導(dǎo)致精度可能沒(méi)有其它分類器高。Linear Regression & Logistic RegressionLinear Regression 其實(shí)就是用一條函數(shù)曲線去擬合一組數(shù)據(jù)，Regression 中文翻譯叫“回歸”，關(guān)于這個(gè)名字，我覺(jué)得培樂(lè)園的蔣龍老師解釋的非常好，數(shù)據(jù)的內(nèi)在規(guī)律就像是一股力量，拉動(dòng) 著我們擬合的函數(shù)曲線“回歸”到正確的

8、位置。Linear Regression 的基本形式是 y=wx+b，這里的Linear應(yīng)該是指對(duì)w的 Linear，對(duì)于乂，我們可以做變換，比如添加高次feature，就可以擬合非線性的情況，因此，對(duì)于原始輸入x，方程未必是線性的。關(guān)于在Linear Regression中如何添加feature來(lái)擬合非線性情況，這就是一個(gè)很有技術(shù)含量的活兒了（至少我不懂），聽(tīng)說(shuō)過(guò)什么feature learning啥的，以后再看吧，另外還有一種思路就是做特征離散化，我的理解就是將連續(xù)值的 feature打散成許多小區(qū)間（和前面NB 處理連續(xù)feature的一種思路差不多），通過(guò)這種

9、方式，可能我們就不需要費(fèi)勁的去發(fā)掘高次feature 了？Linear Regression 的 lost function 是關(guān)于w的二次函數(shù)，通過(guò)gradient descend 或者 quasi newton method 的 Ibfgs 等方法可以得到全局最優(yōu)解，當(dāng)feature 數(shù)量不是非常大時(shí)，也可以用最小二乘法求解：這里解釋下最小二乘法（不得不提下，要不最近線代就白復(fù)習(xí)了），其實(shí)，最初我們想解的是這個(gè)方程：Ax=b （這里x是前面的theta/w），但由于這個(gè)方程一般無(wú)解（一般m很大，n很小，再加上有噪聲，所以無(wú)解），無(wú)解的原因是因精選公文范文10為b不在矩陣A

10、的列空間中，如果我們能把b映射到矩陣A的列空間中，顯然這個(gè)方程就有解了，那么，怎么映射呢？在滿足最小平方誤差的情況下，答案顯然是將b投影到A的列空間中，這樣，b 和投影向量的差的長(zhǎng)度最小，自然就滿足了最小平方誤差（A= 0，也就是b減去它在A的列空間的投影應(yīng)該和A 的每一個(gè)列向量垂直）。關(guān)于最小二乘法的另一個(gè)問(wèn)題是， A A可能不可逆，出現(xiàn)這個(gè)問(wèn)題有兩種可能，1、A的某些，列是完全線性相關(guān)的，2、m小于n。解決這個(gè)問(wèn)題的方法是加入L2 regularization，這時(shí)求解theta的式子就變成了一舉兩得，我喜歡?。，另外還順帶解決了 overfitting的問(wèn) 題，真是、在使

11、用 gradient descend 或者 quasi newton method求解w時(shí)，有幾個(gè)點(diǎn)我想精選公文范文11提一下：、1、mean normalization，在訓(xùn)練前對(duì)每個(gè)feature的值做/ s，這里p是均值， s是標(biāo)準(zhǔn)差，通過(guò)這種方式可以使各個(gè) feature的值域類似，這樣lost function的等高線會(huì)更“圓”，收斂會(huì)更快。2、關(guān)于 learning rate a，對(duì)于 a 的取值，太大會(huì)導(dǎo)致震蕩，無(wú)法收斂，太小會(huì)導(dǎo)致收斂過(guò)慢，因此我們需要通過(guò)多次實(shí)驗(yàn)來(lái) 取一個(gè)合適的值，另外對(duì)于gradient descend，和 quasi newton method

12、不同的是，learning ratea不需要做動(dòng)態(tài)調(diào)整，保持一個(gè)固定值即可。3、除了 batch gradient descend 夕卜，還有一種 Stochastic Gradient Descent 的方法，這種方法和 batch gradient descend 的區(qū)別是，每次只使用1條或者若干條樣本進(jìn)行訓(xùn) 練，該方法不保證每次迭代lost function 都變小，但是最終一定能收斂到全局最精選公文范文精選公文范文優(yōu)值附近，非常適合大數(shù)據(jù)情況下的模型訓(xùn)練（屬于 online learning），Stochastic Gradient Descent 有時(shí)候會(huì)有 pe

13、riodic variation，一個(gè)解決辦法是動(dòng)態(tài)調(diào)整a，比如設(shè)置a=4/ +，另外一個(gè)要注意的地方就是在每輪迭代時(shí)對(duì)訓(xùn)練樣本做隨機(jī) 排序。關(guān)于Linear Regression中的參數(shù)項(xiàng) b，它的一個(gè)作用是，調(diào)節(jié)誤差項(xiàng)的均值，因?yàn)閷?duì)于Linear Regression來(lái)說(shuō)，要求誤差項(xiàng)是均值為0的高斯分布，這時(shí)候b 就剛好可以做這個(gè)調(diào)節(jié)。另外，估計(jì)誤差項(xiàng)的方差時(shí)，我們采用如下的公式：，這里的p是feature 個(gè)數(shù)，這也說(shuō)明了，模型總是傾向于 overfitting的，而且當(dāng)feature越多時(shí)，越容易 overfitting。想提下的還有 Locally weighted

14、linear regression，從名字可以看出，它就是加上了權(quán)重的Linear Regression，那么權(quán)重怎么計(jì)算呢？簡(jiǎn)單的說(shuō)就是，離待預(yù)測(cè)的點(diǎn)越近權(quán)重越大，否則越小，而精選公文范文13精選公文范文且權(quán)重的衰減呈高斯分布，lost function 是：，權(quán)重是：，米用最小二乘法的計(jì)算公式是： pinvX Wy （這里W是一個(gè)對(duì)角矩陣），這應(yīng)該算是一種無(wú)參數(shù)方法吧，有點(diǎn)像KNN,缺點(diǎn)就是，每來(lái)一個(gè) 待預(yù)測(cè)的數(shù)據(jù)，都得重新 train 一個(gè) model。這里還想記下的一個(gè)問(wèn)題是，訓(xùn)練一個(gè)模型需要多少數(shù)據(jù)究竟是由什么因素決定的？比如，兩個(gè)Linear Regression

15、模型的參數(shù)個(gè)數(shù)一樣，那它們訓(xùn)練需要的數(shù)據(jù)一定是一樣多嗎？是不是還和數(shù) 據(jù)的分布有關(guān)呢？這個(gè)問(wèn)題我也沒(méi)想清楚，可能得等了解learning theory以后再說(shuō)吧。接下來(lái)說(shuō) Logistic Regression， Logistic Regression 其實(shí)就是在 Linear Regression 上套了一個(gè) Sigmoid function，但是這兩個(gè)模型的作用就完全不一樣了，Linear Regression主要用于預(yù)測(cè)連續(xù) 值，用于回歸問(wèn)題，而 Logistic Regression 精選公文范文14精選公文范文主要用于預(yù)測(cè)0-1值，用于分類，且輸出的是概率值（屬于概

16、率模型，這點(diǎn)和 svm不一樣）。一個(gè)有意思的事情是，log/p）=wx，這個(gè)值叫做幾率，解釋了 wx的含義。 Linear Regression的學(xué)習(xí)采用log最大似然估計(jì)，的是，對(duì)其求導(dǎo)后，梯度函數(shù)它們倆的h完全不同了哦）。，有趣外形和Linear Regression十分相似（注 *意、，Bias-variance trade-off &Regularization這應(yīng)該是初學(xué)機(jī)器學(xué)習(xí)最重要的兩個(gè)問(wèn)題了，放在一起說(shuō)吧。當(dāng)我們做模型訓(xùn)練時(shí)，數(shù)據(jù)一般分為 training set 和 testing set，訓(xùn)練的目標(biāo) 有兩個(gè)：1、模型能良好的擬合training set。2、模型在

17、testing set上的表現(xiàn)應(yīng)該和 training set 接近。先上圖：精選公文范文15結(jié)合該圖可以看出，當(dāng)bias較大（模型比較簡(jiǎn)單）時(shí)，模型在training set和 testing set上的表現(xiàn)都很差，但此時(shí)兩者比較接近，這就是 underfitting，而當(dāng) variance較大（模型比較復(fù)雜）時(shí)，模型在training set上表現(xiàn)很好，而在testing set上表現(xiàn)很差，這就是 overfitting，因此，我們需要在bias和variance上做一個(gè)權(quán)衡，以期獲得最好的模型，這就是 cross validation 的意義。在這里模型復(fù)雜度不單單指模型本

18、身，而是O, d是模型的參數(shù)空間，n是訓(xùn)練樣本數(shù)，所以，即使模型參數(shù)非常多，但如果訓(xùn)練樣本也非常多，這個(gè)模型的variance也會(huì)很小，所以，variance 過(guò)大（o verfitting）的問(wèn)題總能通過(guò)增加訓(xùn)練樣本解決。最后，再附兩張bias和variance的經(jīng)典圖，第一張是high bias，第二張是 high variance。篇二：機(jī)器學(xué)習(xí)算法優(yōu)缺點(diǎn)改進(jìn)總精選公文范文Lecture 1 Introduction to Supervised Learning(1 ) Expectatin Maximization AlgorithmLinear Regression Alg

19、orithmLocal Weighted Regressionk-Nearest Neighbor Algorithm for RegressionLinear ClassifierPerceptron AlgorithmFisher Discriminant Analysis or Linear Discriminant Analysisk-NN Algorithm for ClassifierBayesian Decision MethodLecture 2 Feed-forward Neural Networks and BP AlgorithmMultilayer Perceptron

20、BP AlgorithmLecture 3 Rudiments of Support Vector MachineSupport Vector Machine (此算法是重點(diǎn)，必考題)精選公文范文17精選公文范文此處有一道必考題Lecture 4 Introduction to Decision Rule MiningDecision Tree AlgorithmID3 AlgorithmAlgorithm粗糙集Lecture 5 Classifier Assessment and Ensemble MethodsBaggingBootingAdaboostingLecture 6 Intr

21、oduction to Association Rule MiningApriori AlgorithmsFP-tree AlgorithmsLecture 7 Introduction to Custering Analysisk-means Algorithmsfuzzy c-means Algorithmsk-mode AlgorithmsDBSCAN Algorithms精選公文范文Lecture 8 Basics of Feature SelectionRelief AlgorithmsReliefF AlgorithmsmRMR Algorithms 最小冗余最大相關(guān)算法attr

22、ibute reduction Algorithms比較了幾種分類算法性質(zhì)。(以下兩個(gè)表格來(lái)自兩篇該領(lǐng)域經(jīng)典論文)Lecture 1 Introduction to Supervised Learning(1)Expectatin Maximization Algorithm算法思想：EM算法又稱期望最大化算法，是對(duì) 參數(shù)極大似然估計(jì)的一種迭代優(yōu)化策略，它是一種可以從非完整的數(shù)據(jù)集中對(duì)參數(shù)進(jìn)行極大似然估計(jì)的算法,應(yīng)用于缺損數(shù)據(jù)，截尾數(shù)據(jù)，帶有噪聲的非完整數(shù)據(jù)。最大期望算法經(jīng)過(guò)兩個(gè)步驟交替進(jìn)行計(jì)算:精選公文范文第一步計(jì)算期望（E）：也就是將隱藏的變量對(duì)象能夠觀察到的一樣包含在內(nèi)，從

23、而計(jì)算最大似然的期望值；另外一步是最大化（M），也就是最大化在E步上找到的最大似然期望值，從而計(jì)算參數(shù)的似然估計(jì)。M步上找到的參數(shù)然后用于另一個(gè)E步計(jì)算。重復(fù)上面2步直至收斂。優(yōu)點(diǎn)：1）M步僅涉及完全數(shù)據(jù)極大似然，通常計(jì)算比較簡(jiǎn)單2）收斂是穩(wěn)定的，因?yàn)槊看蔚?似然函數(shù)是不斷增加的。缺點(diǎn)：1）表現(xiàn)在對(duì)缺失數(shù)據(jù)較多或是多維高斯分布的情形下，計(jì)算量大，收斂速度較慢。2）對(duì)于某些特殊的模型，要計(jì)算算法中的M步，即完成對(duì)似然函數(shù)的估計(jì) 是比較困難的。3）在某些情況下，要獲得EM算法中E步的期望顯式是非常困難的4）EM 算法的收斂速度，非常依賴初始值的設(shè) 置，設(shè)置不當(dāng)，計(jì)算代價(jià)相當(dāng)大。

24、精選公文范文5）EM算法中的M-Step依然是采用求導(dǎo)函數(shù)的方法，所以它找到的是極值點(diǎn), 即局部最優(yōu)解，而不一定是全局最優(yōu)解。改進(jìn)：針對(duì)1）改進(jìn)：擴(kuò)大參數(shù)空間來(lái)加快收斂針對(duì)2）改進(jìn)：ECM算法，該算法通過(guò)在M步構(gòu)建計(jì)算比較簡(jiǎn)單的小循環(huán) 對(duì)EM算法進(jìn)行了改進(jìn)，從而使期望函數(shù) 極大化更加容易和有效，從而解決這一問(wèn)題。針對(duì)3）改進(jìn)：MCEM算法，將E 步積分求期望用蒙特卡洛模擬方法來(lái)實(shí) 現(xiàn)，使得E步求期望更容易實(shí)現(xiàn)。針對(duì)4）初始值的獲取可以通過(guò) k-means算法，層次聚類算法或是數(shù)據(jù)數(shù) 據(jù)進(jìn)行隨機(jī)分割，然后重復(fù)EM效果進(jìn)行初始點(diǎn)選擇。針對(duì)5）結(jié)合遺傳算法的全局搜索能力，擴(kuò)大EM算法的搜

25、索空間，有效降精選公文范文21精選公文范文低EM算法對(duì)初始值的依賴度，改善局部最優(yōu)值的缺陷。（2）Linear Regression Algorithm算法思想：線性回歸是利用稱為線性回歸方程的最小平方函數(shù)對(duì)一個(gè)或多個(gè)自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。這種函數(shù)是一個(gè)或多個(gè)稱為回歸系數(shù)的模型參數(shù)的線性組合。只有一個(gè)自變量的情況稱為簡(jiǎn)單回歸，大于一個(gè)自變量情況的叫做多元回歸?；貧w模型：i其中？和。是未知參數(shù)，對(duì)于每個(gè)訓(xùn)練樣本可得到h，用來(lái)預(yù)測(cè)真實(shí)值y。損失函數(shù)：即誤差值的平方。1：對(duì)于訓(xùn)練集，求取0，使得損失函數(shù)最小。（使用最小二乘法，梯度下降法）2：對(duì)于新輸入

26、x，其預(yù)測(cè)輸出為0Tx 精選公文范文22優(yōu)點(diǎn)：結(jié)果易于理解，實(shí)現(xiàn)簡(jiǎn)單，計(jì)算簡(jiǎn)單缺點(diǎn)：1）對(duì)于非線性的數(shù)據(jù)擬合效果不好（原因：因?yàn)榫€性回歸將數(shù)據(jù) 視為線性的，可能出現(xiàn)欠擬合現(xiàn)象，導(dǎo)致結(jié)果不能取得最好的預(yù)測(cè)效果）2）如果訓(xùn)練數(shù)據(jù)如果有些數(shù)據(jù)偏差特別大，這回造成最后訓(xùn)練的模型可能對(duì)整體具備很好的準(zhǔn)確性改進(jìn)：針對(duì)2）改進(jìn)：局部加權(quán) 回歸數(shù)據(jù)都不（3）Local Weighted Regression算法思想：給每個(gè)待預(yù)測(cè)點(diǎn)周圍的點(diǎn)賦予一定的權(quán)重，越近的點(diǎn)權(quán)重越高，以此來(lái)選出該預(yù)測(cè)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)子集,然后在此數(shù)據(jù) 子集上基于最小均方差進(jìn)行普通的回歸. 局部加權(quán)回歸實(shí)質(zhì)上是對(duì)于需要預(yù)測(cè)的點(diǎn)，

27、只是根據(jù)其附近的點(diǎn)進(jìn)行訓(xùn)練，其他的沒(méi)有改變。精選公文范文對(duì)于局部線性加權(quán)算法：1：對(duì)于輸入X,找到訓(xùn)練集中與x 鄰域的訓(xùn)練樣2：對(duì)于其鄰域的訓(xùn)練樣本，求取9, 使得其Ex的鄰域）最小。其中w為權(quán) 重值。3.預(yù)測(cè)輸出為9Tx4.對(duì)于新輸入，重復(fù)1-3過(guò)程。其中t為帶寬常量，距離輸入越遠(yuǎn)，權(quán)重越小，反之越大。優(yōu)點(diǎn)：1）局部加權(quán)回歸還是對(duì)訓(xùn) 練數(shù)據(jù)擬合的比較好2）不太依賴特征的選擇，而且只需要用線性模型就能夠訓(xùn)練出不錯(cuò)的擬合模型、缺點(diǎn)：1）計(jì)算量較大。（因?yàn)榫?部加權(quán)回歸的損失數(shù)隨著預(yù)測(cè)值的不同而不同，這樣9就無(wú)法事先確定，每次預(yù)測(cè)時(shí)都需要掃描所有的數(shù)據(jù)并重新計(jì)算9）2）局部加權(quán)回歸容易

28、出現(xiàn)過(guò)擬合現(xiàn) 象，過(guò)擬合現(xiàn)象很明顯3）關(guān)注局部的訓(xùn)練數(shù)據(jù)，忽略了全精選公文范文局?jǐn)?shù)據(jù)，如果預(yù)測(cè)點(diǎn)在出現(xiàn)偏差的訓(xùn)練數(shù)據(jù)附近，那么預(yù)測(cè)值會(huì)偏差很大。改進(jìn)：（4）k-Nearest Neighbor Algorithm for Regression算法思想：通過(guò)找出一個(gè)樣本的k個(gè)最近鄰居，將這些鄰居的屬性的平均值賦給該樣本，就可以得到該樣本的屬性。更有用的方法是將不同距離的鄰居對(duì)該樣本產(chǎn) 生的影響給予不同的權(quán)值，如權(quán)值與距離成正比。如果一個(gè)樣本在特征空間中的k個(gè) 最相似的樣本中的大多數(shù)屬于某一個(gè)類別，則該樣本也屬于這個(gè)類別。KNN算法不僅可以用于分類，還可以用于回歸。通過(guò)找出一個(gè)樣本

29、的k個(gè) 最近鄰居，將這些鄰居的屬性的平均值賦給該樣本，就可以得到該樣本的屬性。更有用的方法是將不同距離的鄰居對(duì)該樣本產(chǎn)生的影響給予不同的權(quán)值，如權(quán) 精選公文范文25精選公文范文值與距離成反比。優(yōu)點(diǎn)：1）簡(jiǎn)單、有效。2）重新訓(xùn)練的代價(jià)較低（類別體系的變化和訓(xùn)練集的變化，在Web環(huán)境和電子商務(wù)應(yīng)用中是很常見(jiàn)的）。3）計(jì)算時(shí)間和空間線性于訓(xùn)練集的規(guī)模（在一些場(chǎng)合不算太大）。4）由于KNN方法主要靠周圍有限的鄰近的樣本，而不是靠判別類域的方法來(lái)確定所屬類別的，因此對(duì)于類域的交叉或重疊較多的待分樣本集來(lái)說(shuō)， KNN方法較其他方法更為適合。5）該算法比較適用于樣本容量比較大的類域的自

30、動(dòng)分類，而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。缺點(diǎn)：（1）KNN在對(duì)屬性較多的訓(xùn)練樣本進(jìn)行分類時(shí)，由于計(jì)算量大而使其效率大大降低，效果不是很理想。（2）當(dāng)樣本不平衡時(shí)，如一個(gè)類的精選公文范文樣本容量很大，而其他類樣本容量很小時(shí)，有可能導(dǎo)致當(dāng)輸入一個(gè)新樣本時(shí)，該樣本的K個(gè)鄰居中大容量類的樣本占多數(shù)。（3）對(duì)數(shù)據(jù)的局部結(jié)構(gòu)比較敏感。如果查詢點(diǎn)是位于訓(xùn)練集較密集的區(qū) 域，那預(yù)測(cè)相對(duì)比其他稀疏集來(lái)說(shuō)更準(zhǔn) 確。（4）對(duì)k值敏感。（5）維數(shù)災(zāi)難：臨近距離可能被不相干屬性主導(dǎo)（因此特征選擇問(wèn)題）改進(jìn)：（1）分類效率：事先對(duì)樣本屬性進(jìn) 行約簡(jiǎn)，刪除對(duì)分類結(jié)果影響較小的屬性

31、，快速的得出待分類樣本的類別。該算法比較適用于樣本容量比較大的類域的自動(dòng)分類，而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。（2）分類效果：采用權(quán)值的方法（和該樣本距離小的鄰居權(quán)值大）來(lái)改進(jìn)， Han等人于2002年嘗試?yán)秘澬姆ǎ?對(duì)文件分類實(shí)做可調(diào)整權(quán)重的k最近鄰精選公文范文27精選公文范文居法WAkNN，以促進(jìn)分類效果；而Li 等人于2004年提出由于不同分類的文件本身有數(shù)量上有差異，因此也應(yīng)該依照訓(xùn)練集合中各種分類的文件數(shù)量，選取不同數(shù)目的最近鄰居，來(lái)參與分類。（3）該算法在分類時(shí)有個(gè)主要的不足是，當(dāng)樣本不平衡時(shí)，如一個(gè)類的樣本容量很大，而其他類樣本容量很

32、小時(shí)，有可能導(dǎo)致當(dāng)輸入一個(gè)新樣本時(shí)，該樣本的K個(gè)鄰居中大容量類的樣本占多數(shù)。該算法只計(jì)算“最近的”鄰居樣本，某一類的樣本數(shù)量很大，那么或者這類樣本并不接近目標(biāo)樣本，或者這類樣本很靠近目標(biāo)樣本。無(wú)論怎樣，數(shù)量并不能影響運(yùn)行結(jié)果。可以采用權(quán)值的方法（和該樣本距離小的鄰居權(quán)值大）來(lái)改進(jìn)。（4）K值的選擇會(huì)對(duì)算法的結(jié)果產(chǎn)生重大影響。K值較小意味著只有與輸入實(shí)例較近的訓(xùn)練實(shí)例才會(huì)對(duì)預(yù)測(cè)結(jié)果起作用，但容易發(fā)生過(guò)擬合；如果K值較大，優(yōu)點(diǎn)是可以減少學(xué)習(xí)的估計(jì)誤差，精選公文范文28但缺點(diǎn)是學(xué)習(xí)的近似誤差增大，這時(shí)與輸入實(shí)例較遠(yuǎn)的訓(xùn)練實(shí)例也會(huì)對(duì)預(yù)測(cè)起作用，是預(yù)測(cè)發(fā)生錯(cuò)誤。在實(shí)際應(yīng)用中，

33、 K值一般選擇一個(gè)較小的數(shù)值，通常采用交叉驗(yàn)證的方法來(lái)選擇最優(yōu)的K值。隨著訓(xùn)練實(shí)例數(shù)目趨向于無(wú)窮和 K=1 時(shí)，誤差率不會(huì)超過(guò)貝葉斯誤差率的2 倍，如果K也趨向于無(wú)窮，則誤差率趨向于貝葉斯誤差率。（5）該方法的另一個(gè)不足之處是計(jì) 算量較大，因?yàn)閷?duì)每一個(gè)待分類的文本都要計(jì)算它到全體已知樣本的距離，才能求得它的K個(gè)最近鄰點(diǎn)。目前常用的解決方法是事先對(duì)已知樣本點(diǎn)進(jìn)行剪輯，事先去除對(duì)分類作用不大的樣本。篇三：面試備用：18大機(jī)器學(xué)習(xí)經(jīng) 典算法總結(jié)學(xué)習(xí)18大經(jīng)典數(shù)據(jù)挖掘算法大概花了將近2個(gè)月的時(shí)間，自己把18大數(shù)據(jù)挖掘的經(jīng)典算法進(jìn)行了學(xué)習(xí) 并且進(jìn)行了代碼實(shí)現(xiàn)，涉及到了決策分類，聚類，鏈

34、接挖掘，關(guān)聯(lián)挖掘，模式精選公文范文29精選公文范文挖掘等等方面。也算是對(duì)數(shù)據(jù)挖掘領(lǐng)域的小小入門了吧。下面就做個(gè)小小的總結(jié)，后面都是我自己相應(yīng)算法的博文鏈接，希望能夠幫助大家學(xué)習(xí)。算法。算法與ID3算法一樣，都是數(shù)學(xué)分類算法，算法是ID3算法的一個(gè) 改進(jìn)。ID3算法米用信息增益進(jìn)彳丁決策判斷，而采用的是增益率。詳細(xì)介紹鏈接： HYPERLINK http:/androidlushangderen/article/details/ http:/androidlushangderen/article/details/ 42395865算法。CART算法的全稱是分類回歸樹(shù)算法，他是一個(gè)

35、二元分類，采用的是類似于熵的基尼指數(shù)作為分類決策，形成決策樹(shù)后之后還要進(jìn)行剪枝，我自己在實(shí)現(xiàn)整個(gè)算法的時(shí)候采用的是代價(jià) 復(fù)雜度算法，詳細(xì)介紹鏈接： HYPERLINK http:/androidlushangdere http:/androidlushangderen/article/details/42558235算法。給定一些已經(jīng)訓(xùn)練好的數(shù)據(jù)，輸入一個(gè)新的測(cè)試數(shù)據(jù)點(diǎn)，計(jì)算包含于精選公文范文30此測(cè)試數(shù)據(jù)點(diǎn)的最近的點(diǎn)的分類情況，哪個(gè)分類的類型占多數(shù)，則此測(cè)試點(diǎn)的分類與此相同，所以在這里，有的時(shí)候可以復(fù)制不同的分類點(diǎn)不同的權(quán)重。近的點(diǎn)的權(quán)重大點(diǎn)，遠(yuǎn)的點(diǎn)自然就小點(diǎn)。詳細(xì)介紹鏈接

36、： HYPERLINK http:/androidlushangderen/article/details/ http:/androidlushangderen/article/details/ 42613011Bayes算法。樸素貝葉斯算法是貝葉斯算法里面一種比較簡(jiǎn)單的分類算法，用到了一個(gè)比較重要的貝葉斯定理，用一句簡(jiǎn)單的話概括就是條件概率的相互轉(zhuǎn)換推導(dǎo)。詳細(xì)介紹鏈接： HYPERLINK http:/androidlushangderen/article/details/ http:/androidlushangderen/article/details/ 42680161算法。支

37、持向量機(jī)算法是一種對(duì)線性和非線性數(shù)據(jù)進(jìn)行分類的方法，非線性數(shù)據(jù)進(jìn)行分類的時(shí)候可以通過(guò)核函數(shù) 轉(zhuǎn)為線性的情況再處理。其中的一個(gè)關(guān) 鍵的步驟是搜索最大邊緣超平面。精選公文范文詳細(xì)介紹鏈接：精選公文范文31精選公文范文 HYPERLINK http:/androidlushangderen/article/details/ http:/androidlushangderen/article/details/ 42780439算法。期望最大化算法，可以拆分為2個(gè)算法，1個(gè)E-Step期望化步驟，和 1個(gè)M-Step最大化步驟。他是一種算法框架，在每次計(jì)算結(jié)果之后，逼近統(tǒng)計(jì) 模型參數(shù)的最大似然或

38、最大后驗(yàn)估計(jì)。詳細(xì)介紹鏈接： HYPERLINK http:/androidlushangderen/article/details/ http:/androidlushangderen/article/details/ 42921789算法。Apriori算法是關(guān)聯(lián)規(guī)則挖掘算法，通過(guò)連接和剪枝運(yùn)算挖掘出頻繁項(xiàng)集，然后根據(jù)頻繁項(xiàng)集得到關(guān)聯(lián)規(guī)則，關(guān)聯(lián)規(guī)則的導(dǎo)出需要滿足最小置信度的要求。詳細(xì)介紹鏈接： HYPERLINK http:/androidlushangderen/article/details/ http:/androidlushangderen/article/details/

39、 43059211算法。這個(gè)算法也有被稱為 FP-growth算法，這個(gè)算法克服了 Apriori 算法的產(chǎn)生過(guò)多侯選集的缺點(diǎn)，通過(guò)遞精選公文范文32精選公文范文歸的產(chǎn)生頻度模式樹(shù)，然后對(duì)樹(shù)進(jìn)行挖掘，后面的過(guò)程與Apriori算法一致。詳細(xì)介紹鏈接： HYPERLINK http:/androidlushangderen/article/details/ http:/androidlushangderen/article/details/ 43234309算法。PageRank算法最早產(chǎn)生于 Google,核心思想是通過(guò)網(wǎng)頁(yè)的入鏈數(shù)作為一個(gè)網(wǎng)頁(yè)好快的判定標(biāo)準(zhǔn)，如果1個(gè) 網(wǎng)頁(yè)內(nèi)部包含了多

40、個(gè)指向外部的鏈接，則PR值將會(huì)被均分，PageRank算法也會(huì)遭到Link Span攻擊。詳細(xì)介紹鏈接： HYPERLINK http:/androidlushangderen/article/details/ http:/androidlushangderen/article/details/ 43311943算法。HITS算法是另外一個(gè)鏈接算法，部分原理與PageRank算法是比較相似的，HITS算法引入了權(quán)威值和中心值的概念，HITS算法是受用戶查詢條件影響的，他一般用于小規(guī)模的數(shù)據(jù)鏈接分析，也更容易遭受到攻擊。詳細(xì)介紹鏈接： HYPERLINK http:/android

41、lushangderen/article/details/ http:/androidlushangderen/article/details/ 精選公文范文33精選公文范文43311943算法。K-Means算法是聚類算法，k 在在這里指的是分類的類型數(shù)，所以在開(kāi)始設(shè)定的時(shí)候非常關(guān)鍵，算法的原理是首先假定k個(gè)分類點(diǎn)，然后根據(jù)歐式距離計(jì)算分類，然后去同分類的均值作為新的聚簇中心，循環(huán)操作直到收斂。詳細(xì)介紹鏈接： HYPERLINK http:/androidlushangderen/article/details/ http:/androidlushangderen/article/details/ 43373159算法。BIRCH算法利用構(gòu)建CF聚類特征樹(shù)作為算法的核心，通過(guò)樹(shù)的形式，BIRCH算法掃描數(shù)據(jù)庫(kù)，在內(nèi)存中建立一棵初始的CF-樹(shù)，

人人文庫(kù)> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

機(jī)器學(xué)習(xí)總結(jié)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

機(jī)器學(xué)習(xí)總結(jié)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔