機(jī)器學(xué)習(xí)總結(jié)_第1頁(yè)
機(jī)器學(xué)習(xí)總結(jié)_第2頁(yè)
機(jī)器學(xué)習(xí)總結(jié)_第3頁(yè)
機(jī)器學(xué)習(xí)總結(jié)_第4頁(yè)
機(jī)器學(xué)習(xí)總結(jié)_第5頁(yè)
已閱讀5頁(yè),還剩41頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選公文范文機(jī)器學(xué)習(xí)總結(jié)篇一:機(jī)器學(xué)習(xí)總結(jié)目錄、L 刖2NaiveBayes2Linear Regression & Logistic Regression3Bias-variance trade-off & Regularization5SVM精選公文范文Optimization13EM15MixturesofGaussians 16ME17HMM18MEMM 21CRF22DecisionTree23ID3 2424CART24ModelTree24ModelCombination26Bagging27RandomForest28Boosting28AdaBoost28FeatureSel

2、ection29KNN29KDTree30PCA&精選公文范文SVD31Collaborative filtering33CF as supervised learning34CF as matrix factorization35刖言花了將近四個(gè)月時(shí)間,終于把機(jī)器 學(xué)習(xí)最基本的東西大致過(guò)了一遍了,這 中間還包括一個(gè)多月的時(shí)間用于復(fù)習(xí)數(shù) 學(xué)了(坑爹?。?,很久沒(méi)有花這么大的精 力學(xué)一樣?xùn)|西了,很高興的是,在比較 深入的去了解后,我還沒(méi)有對(duì)機(jī)器學(xué)習(xí) 失去興趣?,這至少說(shuō)明,這個(gè)東西是真 真正正吸引我的。這陣子雜七雜八的看了不少東西, 為了避免以后全還回去了,我決定一邊 精選公文范文精選公文范文 復(fù)

3、習(xí)一邊寫個(gè)總結(jié),把這些七七八八的 東西都塞一塊兒吧。這里涵蓋了絕大多數(shù)我學(xué)過(guò)的機(jī)器 學(xué)習(xí)相關(guān)的東西,有一些算法可能被我 略過(guò)去了,比如k-means,層次聚類, Apriori等,冠冕堂皇的原因是這些算法 比較簡(jiǎn)單,相信不那么容易忘記,其實(shí) 真正的原因是寫到最后實(shí)在疲了,懶得 繼續(xù)了 -_-!。我最初對(duì)機(jī)器學(xué)習(xí)產(chǎn)生興趣是源于 吳軍博士的數(shù)學(xué)之美,不能不說(shuō)這本 書(shū)實(shí)在是真好,反正我是結(jié)結(jié)實(shí)實(shí)的上 套了,另外一個(gè)比較幸運(yùn)的事情是,在 我剛決定學(xué)習(xí)機(jī)器學(xué)習(xí)時(shí),正好有一家 叫“培樂(lè)園”的針對(duì)互聯(lián)網(wǎng)高端技術(shù)的培 訓(xùn)機(jī)構(gòu)開(kāi)張了,我也有幸成為了第一批 學(xué)員,不得不說(shuō)培樂(lè)園在機(jī)器學(xué)習(xí)方面 對(duì)我的影響和數(shù)學(xué)之美

4、一樣巨大, 正是蔣龍老師的課程讓我了解了機(jī)器學(xué) 習(xí)的框架,從而在后面的學(xué)習(xí)中不至于 像無(wú)頭蒼蠅似的到處亂撞,另外,Andrew Ng和龍星計(jì)劃的機(jī)器學(xué)習(xí)課程對(duì)我?guī)?精選公文范文6精選公文范文 助也都非常的大,感謝這些無(wú)私分享的 老師們!最后,作為機(jī)器學(xué)習(xí)的菜鳥(niǎo),我只 能說(shuō),路漫漫其修遠(yuǎn)兮,努力吧!KejunkjliueNaive BayesNB是基于貝葉斯定理和條件獨(dú)立 性假設(shè)的分類器,貝葉斯定理簡(jiǎn)單的說(shuō) 就是已知條件概率p和先驗(yàn)概率p的情 況下求p的方法,因?yàn)橛行r(shí)候計(jì)算p 和p比較容易,而計(jì)算p很困難,這時(shí) 候就可以通過(guò)貝葉斯定理將困難的問(wèn)題 轉(zhuǎn)化為簡(jiǎn)單問(wèn)題解決,從另一個(gè)角度看, 貝葉斯定

5、理也可以理解為通過(guò)生成模型 p求解判別模型p的方法,這里就必須提 到條件獨(dú)立性假設(shè)了,因?yàn)镹B是生成 模型,也就是對(duì)聯(lián)合概率分布p= p *p建 模,由于x的結(jié)構(gòu)一般很復(fù)雜,直接建 模會(huì)很困難,因此幾乎所有的生成模型 都對(duì)x的結(jié)構(gòu)做了 一定的假設(shè),NB做的 假設(shè)是在給定y的前提下,x的各個(gè) 精選公文范文精選公文范文 feature是條件獨(dú)立的(非常強(qiáng)的假設(shè), 也許這就是該分類器名字里naive的來(lái) 歷吧),這樣就可以很容易的將p分解為 x的各個(gè)feature條件概率的乘積。NB的模型學(xué)習(xí)采用MLE,這里有 一個(gè)0概率問(wèn)題,就是如果訓(xùn)練數(shù)據(jù)中 某個(gè)的組合沒(méi)有出現(xiàn)過(guò)的話,所有包含 該feature

6、的x屬于類y概率會(huì)變?yōu)?, 這顯然不合理,一種最簡(jiǎn)單的平滑方式是Laplace平滑 (即+1平滑,分子加1,分母加上分子 可能取值的個(gè)數(shù)),這樣平滑后的p仍然 是一個(gè)概率分布,或者可以引入一些先 驗(yàn)知識(shí),比如,采用如下的公式:/ count + weight,這里 weight 和 assumedprob 對(duì) 應(yīng)的是先驗(yàn)知識(shí),而count是訓(xùn)練樣本總 數(shù),prob是調(diào)整前的條件概率p。對(duì)條件概率p的估計(jì),當(dāng)feature取 值為離散值時(shí),只需要簡(jiǎn)單的統(tǒng)計(jì)訓(xùn)練 樣本中的頻率即可,當(dāng)feature取值為連 續(xù)值時(shí),有兩種處理方案:1、計(jì)算給定y時(shí)feature的均值和方差,得到概率密精選公文范文8

7、精選公文范文 度。2、將連續(xù)值切分為多個(gè)區(qū)間,也就 是將特征離散化,這樣估計(jì)方法就和離 散值一樣了。NB有很多優(yōu)點(diǎn),訓(xùn)練簡(jiǎn)單,模型易 于解釋,不容易o(hù)verfitting,在小數(shù)據(jù)集 上也能工作的相當(dāng)不錯(cuò),缺點(diǎn)就是條件 獨(dú)立性假設(shè)似乎過(guò)強(qiáng)了一些,導(dǎo)致精度 可能沒(méi)有其它分類器高。Linear Regression & Logistic RegressionLinear Regression 其實(shí)就是用一條 函數(shù)曲線去擬合一組數(shù)據(jù),Regression 中文翻譯叫“回歸”,關(guān)于這個(gè)名字,我 覺(jué)得培樂(lè)園的蔣龍老師解釋的非常好, 數(shù)據(jù)的內(nèi)在規(guī)律就像是一股力量,拉動(dòng) 著我們擬合的函數(shù)曲線“回歸”到正確的

8、 位置。Linear Regression 的 基本形 式 是 y=wx+b,這里的Linear應(yīng)該是指對(duì)w的 Linear,對(duì)于乂,我們可以做變換,比如 添加高次feature,就可以擬合非線性的 情況,因此,對(duì)于原始輸入x,方程未必 是線性的。關(guān)于在Linear Regression中如何添 加feature來(lái)擬合非線性情況,這就是一 個(gè)很有技術(shù)含量的活兒了(至少我不 懂),聽(tīng)說(shuō)過(guò)什么feature learning啥的, 以后再看吧,另外還有一種思路就是做 特征離散化,我的理解就是將連續(xù)值的 feature打散成許多小區(qū)間(和前面NB 處理連續(xù)feature的一種思路差不多),通 過(guò)這種

9、方式,可能我們就不需要費(fèi)勁的 去發(fā)掘高次feature 了?Linear Regression 的 lost function 是 關(guān)于w的二次函數(shù),通過(guò)gradient descend 或者 quasi newton method 的 Ibfgs 等方法可以得到全局最優(yōu)解,當(dāng)feature 數(shù)量不是非常大時(shí),也可以用最小二乘 法求解:這里解釋下最小二乘法(不得不提 下,要不最近線代就白復(fù)習(xí)了),其實(shí), 最初我們想解的是這個(gè)方程:Ax=b (這 里x是前面的theta/w),但由于這個(gè)方程 一般無(wú)解(一般m很大,n很小,再加 上有噪聲,所以無(wú)解),無(wú)解的原因是因 精選公文范文10為b不在矩陣A

10、的列空間中,如果我們 能把b映射到矩陣A的列空間中,顯然 這個(gè)方程就有解了,那么,怎么映射呢? 在滿足最小平方誤差的情況下,答案顯 然是將b投影到A的列空間中,這樣,b 和投影向量的差的長(zhǎng)度最小,自然就滿 足了最小平方誤差(A= 0,也就是b減去它在A的列空間的投影應(yīng)該和A 的每一個(gè)列向量垂直)。關(guān)于最小二乘法的另一個(gè)問(wèn)題是, A A可能不可逆,出現(xiàn)這個(gè)問(wèn)題有兩種 可能,1、A的某些,列是完全線性相關(guān)的,2、m小于n。 解決這個(gè)問(wèn)題的方法是加入L2 regularization,這時(shí)求解theta的式子就 變成了一舉兩得,我喜歡?。,另外還順帶解決了 overfitting的問(wèn) 題,真是、在使

11、用 gradient descend 或者 quasi newton method求解w時(shí),有幾個(gè)點(diǎn)我想 精選公文范文11提一下:、1、mean normalization,在訓(xùn)練前 對(duì)每個(gè)feature的值做/ s,這里p是均值, s是標(biāo)準(zhǔn)差,通過(guò)這種方式可以使各個(gè) feature的值域類似,這樣lost function的 等高線會(huì)更“圓”,收斂會(huì)更快。2、 關(guān)于 learning rate a,對(duì)于 a 的 取值,太大會(huì)導(dǎo)致震蕩,無(wú)法收斂,太 小會(huì)導(dǎo)致收斂過(guò)慢,因此我們需要通過(guò)多次實(shí)驗(yàn)來(lái) 取一個(gè)合適的值,另外對(duì)于gradient descend,和 quasi newton method

12、 不同的 是,learning ratea不需要做動(dòng)態(tài)調(diào)整,保 持一個(gè)固定值即可。3、 除了 batch gradient descend 夕卜, 還有一種 Stochastic Gradient Descent 的 方法,這種方法和 batch gradient descend 的區(qū)別是, 每次只使用1條或者若干條樣本進(jìn)行訓(xùn) 練,該方法不保證每次迭代lost function 都變小,但是最終一定能收斂到全局最 精選公文范文精選公文范文 優(yōu)值附近,非常適合大數(shù)據(jù)情況下的模 型訓(xùn)練(屬于 online learning),Stochastic Gradient Descent 有時(shí)候會(huì)有 pe

13、riodic variation, 一個(gè)解決辦法是動(dòng)態(tài)調(diào)整a, 比如設(shè)置a=4/ +,另外一個(gè)要注意的地 方就是在每輪迭代時(shí)對(duì)訓(xùn)練樣本做隨機(jī) 排序。關(guān)于Linear Regression中的參數(shù)項(xiàng) b,它的一個(gè)作用是,調(diào)節(jié)誤差項(xiàng)的均值, 因?yàn)閷?duì)于Linear Regression來(lái)說(shuō),要求誤 差項(xiàng)是均值為0的高斯分布,這時(shí)候b 就剛好可以做這個(gè)調(diào)節(jié)。另外,估計(jì)誤差項(xiàng)的方差時(shí),我們 采用如下的公式:,這里的p是feature 個(gè)數(shù),這也說(shuō)明了,模型總是傾向于 overfitting的,而且當(dāng)feature越多時(shí),越 容易 overfitting。想提下 的還有 Locally weighted

14、linear regression,從名字可以看出, 它就 是加上了權(quán)重的Linear Regression,那么 權(quán)重怎么計(jì)算呢?簡(jiǎn)單的說(shuō)就是,離待 預(yù)測(cè)的點(diǎn)越近權(quán)重越大,否則越小,而 精選公文范文13精選公文范文 且權(quán)重的衰減呈高斯分布,lost function 是:,權(quán)重是:,米用最小二乘法的計(jì)算公式是: pinvX Wy (這里W是一個(gè)對(duì)角矩陣),這應(yīng)該算是一種無(wú)參數(shù)方法 吧,有點(diǎn)像KNN,缺點(diǎn)就是,每來(lái)一個(gè) 待預(yù)測(cè)的數(shù)據(jù),都得重新 train 一個(gè) model。這里還想記下的一個(gè)問(wèn)題是,訓(xùn)練 一個(gè)模型需要多少數(shù)據(jù)究竟是由什么因 素決定的?比如,兩個(gè)Linear Regression

15、 模型的參數(shù)個(gè)數(shù)一樣,那它們訓(xùn)練需要 的數(shù)據(jù)一定是一樣多嗎?是不是還和數(shù) 據(jù)的分布有關(guān)呢?這個(gè)問(wèn)題我也沒(méi)想清 楚,可能得等了解learning theory以后再 說(shuō)吧。接 下來(lái)說(shuō) Logistic Regression, Logistic Regression 其實(shí)就是在 Linear Regression 上套了一個(gè) Sigmoid function, 但是這兩個(gè)模型的作用就完全不一樣 了,Linear Regression主要用于預(yù)測(cè)連續(xù) 值,用于回 歸問(wèn)題,而 Logistic Regression 精選公文范文14精選公文范文主要用于預(yù)測(cè)0-1值,用于分類,且輸 出的是概率值(屬于概

16、率模型,這點(diǎn)和 svm不一樣)。一個(gè)有意思的事情是,log/p)=wx, 這個(gè)值叫做幾率,解釋了 wx的含義。 Linear Regression的學(xué)習(xí)采用log最大似 然估計(jì),的是,對(duì)其求導(dǎo)后,梯度函數(shù)它們倆的h完全不同了哦)。,有 趣外形和Linear Regression十分相似(注 *意、,Bias-variance trade-off &Regularization這應(yīng)該是初學(xué)機(jī)器學(xué)習(xí)最重要的兩 個(gè)問(wèn)題了,放在一起說(shuō)吧。當(dāng)我們做模型訓(xùn)練時(shí),數(shù)據(jù)一般分 為 training set 和 testing set,訓(xùn)練的目標(biāo) 有兩個(gè):1、模型能良好的擬合training set。2、模型在

17、testing set上的表現(xiàn)應(yīng)該 和 training set 接近。先上圖:精選公文范文15結(jié)合該圖可以看出,當(dāng)bias較大(模 型比較簡(jiǎn)單)時(shí),模型在training set和 testing set上的表現(xiàn)都很差,但此時(shí)兩者 比較接近,這就是 underfitting,而當(dāng) variance較大(模型比較復(fù)雜)時(shí),模型 在training set上表現(xiàn)很好,而在testing set上表現(xiàn)很差,這就是 overfitting,因 此,我們需要在bias和variance上做一 個(gè)權(quán)衡,以期獲得最好的模型,這就是 cross validation 的意義。在這里模型復(fù)雜度不單單指模型本

18、身,而是O, d是模型的參數(shù)空間,n是 訓(xùn)練樣本數(shù),所以,即使模型參數(shù)非常 多,但如果訓(xùn)練樣本也非常多,這個(gè)模 型的variance也會(huì)很小,所以,variance 過(guò)大(o verfitting)的問(wèn)題總能通過(guò)增加 訓(xùn)練樣本解決。最后,再附兩張bias和variance的 經(jīng)典圖,第一張是high bias,第二張是 high variance。篇二:機(jī)器學(xué)習(xí)算法優(yōu)缺點(diǎn)改進(jìn)總精選公文范文Lecture 1 Introduction to Supervised Learning(1 ) Expectatin Maximization AlgorithmLinear Regression Alg

19、orithmLocal Weighted Regressionk-Nearest Neighbor Algorithm for RegressionLinear ClassifierPerceptron AlgorithmFisher Discriminant Analysis or Linear Discriminant Analysisk-NN Algorithm for ClassifierBayesian Decision MethodLecture 2 Feed-forward Neural Networks and BP AlgorithmMultilayer Perceptron

20、BP AlgorithmLecture 3 Rudiments of Support Vector MachineSupport Vector Machine (此算 法是重點(diǎn),必考題)精選公文范文17精選公文范文此處有一道必考題Lecture 4 Introduction to Decision Rule MiningDecision Tree AlgorithmID3 AlgorithmAlgorithm粗糙集Lecture 5 Classifier Assessment and Ensemble MethodsBaggingBootingAdaboostingLecture 6 Intr

21、oduction to Association Rule MiningApriori AlgorithmsFP-tree AlgorithmsLecture 7 Introduction to Custering Analysisk-means Algorithmsfuzzy c-means Algorithmsk-mode AlgorithmsDBSCAN Algorithms精選公文范文Lecture 8 Basics of Feature SelectionRelief AlgorithmsReliefF AlgorithmsmRMR Algorithms 最小冗余最 大相關(guān)算法attr

22、ibute reduction Algorithms比較了幾種分類算法性質(zhì)。(以下兩 個(gè)表格來(lái)自兩篇該領(lǐng)域經(jīng)典論文)Lecture 1 Introduction to Supervised Learning(1)Expectatin Maximization Algorithm算法思想:EM算法又稱期望最大化算法,是對(duì) 參數(shù)極大似然估計(jì)的一種迭代優(yōu)化策 略,它是一種可以從非完整的數(shù)據(jù)集中 對(duì)參數(shù)進(jìn)行極大似然估計(jì)的算法,應(yīng)用于 缺損數(shù)據(jù),截尾數(shù)據(jù),帶有噪聲的非完 整數(shù)據(jù)。最大期望算法經(jīng)過(guò)兩個(gè)步驟交替進(jìn)行計(jì)算:精選公文范文第一步計(jì)算期望(E):也就是將隱 藏的變量對(duì)象能夠觀察到的一樣包含在 內(nèi),從

23、而計(jì)算最大似然的期望值;另外一步是最大化(M),也就是最 大化在E步上找到的最大似然期望值, 從而計(jì)算參數(shù)的似然估計(jì)。M步上找到 的參數(shù)然后用于另一個(gè)E步計(jì)算。重復(fù)上面2步直至收斂。優(yōu)點(diǎn):1)M步僅涉及完全數(shù)據(jù)極 大似然,通常計(jì)算比較簡(jiǎn)單2)收斂是穩(wěn)定的,因?yàn)槊看蔚?似然函數(shù)是不斷增加的。缺點(diǎn):1)表現(xiàn)在對(duì)缺失數(shù)據(jù)較多 或是多維高斯分布的情形下,計(jì)算量大, 收斂速度較慢。2)對(duì)于某些特殊的模型,要計(jì)算算 法中的M步,即完成對(duì)似然函數(shù)的估計(jì) 是比較困難的。3)在某些情況下,要獲得EM算法 中E步的期望顯式是非常困難的4)EM 算法的收斂速度,非常依賴初始值的設(shè) 置,設(shè)置不當(dāng),計(jì)算代價(jià)相當(dāng)大。

24、精選公文范文5)EM算法中的M-Step依然是采用 求導(dǎo)函數(shù)的方法,所以它找到的是極值點(diǎn), 即局部最優(yōu)解,而不一定是全局最優(yōu)解。改進(jìn):針對(duì)1)改進(jìn):擴(kuò)大參數(shù)空 間來(lái)加快收斂針對(duì)2)改進(jìn):ECM算法,該算法 通過(guò)在M步構(gòu)建計(jì)算比較簡(jiǎn)單的小循環(huán) 對(duì)EM算法進(jìn)行了改進(jìn),從而使期望函數(shù) 極大化更加容易和有效,從而解決這一 問(wèn)題。針對(duì)3)改進(jìn):MCEM算法,將E 步積分求期望用蒙特卡洛模擬方法來(lái)實(shí) 現(xiàn),使得E步求期望更容易實(shí)現(xiàn)。針對(duì)4)初始值的獲取可以通過(guò) k-means算法,層次聚類算法或是數(shù)據(jù)數(shù) 據(jù)進(jìn)行隨機(jī)分割,然后重復(fù)EM效果進(jìn)行初 始點(diǎn)選擇。針對(duì)5)結(jié)合遺傳算法的全局搜索能 力,擴(kuò)大EM算法的搜

25、索空間,有效降 精選公文范文21精選公文范文低EM算法對(duì)初始值的依賴度,改善局部 最優(yōu)值的缺陷。(2)Linear Regression Algorithm算法思想:線性回歸是利用稱為線性回歸方程 的最小平方函數(shù)對(duì)一個(gè)或多個(gè)自變量和 因變量之間關(guān)系進(jìn)行建模的一種回歸分 析。這種函數(shù)是一個(gè)或多個(gè)稱為回歸系 數(shù)的模型參數(shù)的線性組合。只有一個(gè)自 變量的情況稱為簡(jiǎn)單回歸,大于一個(gè)自變 量情況的叫做多元回歸?;貧w模型:i其中?和。是未知參數(shù),對(duì)于每 個(gè)訓(xùn)練樣本可得到h,用來(lái)預(yù)測(cè)真實(shí)值y。 損失函數(shù):即誤差值的平方。1:對(duì)于訓(xùn)練集,求取0,使得損失 函數(shù)最小。(使用最小二乘法,梯度下降 法)2:對(duì)于新輸入

26、x,其預(yù)測(cè)輸出為0Tx 精選公文范文22優(yōu)點(diǎn):結(jié)果易于理解,實(shí)現(xiàn)簡(jiǎn)單, 計(jì)算簡(jiǎn)單缺點(diǎn):1)對(duì)于非線性的數(shù)據(jù)擬合 效果不好(原因:因?yàn)榫€性回歸將數(shù)據(jù) 視為線性的,可能出現(xiàn)欠擬合現(xiàn)象,導(dǎo)致結(jié)果不 能取得最好的預(yù)測(cè)效果)2)如果訓(xùn)練數(shù)據(jù)如果有些數(shù)據(jù)偏差 特別大,這回造成最后訓(xùn)練的模型可能 對(duì)整體具備很好的準(zhǔn)確性改進(jìn):針對(duì)2)改進(jìn):局部加權(quán) 回歸數(shù)據(jù)都不(3)Local Weighted Regression算法思想:給每個(gè)待預(yù)測(cè)點(diǎn)周圍的點(diǎn)賦予一定 的權(quán)重,越近的點(diǎn)權(quán)重越高,以此來(lái)選出 該預(yù)測(cè)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)子集,然后在此數(shù)據(jù) 子集上基于最小均方差進(jìn)行普通的回歸. 局部加權(quán)回歸實(shí)質(zhì)上是對(duì)于需要預(yù)測(cè)的 點(diǎn),

27、只是根據(jù)其附近的點(diǎn)進(jìn)行訓(xùn)練,其 他的沒(méi)有改變。精選公文范文對(duì)于局部線性加權(quán)算法:1:對(duì)于輸入X,找到訓(xùn)練集中與x 鄰域的訓(xùn)練樣2:對(duì)于其鄰域的訓(xùn)練樣本,求取9, 使得其Ex的鄰域)最小。其中w為權(quán) 重值。3.預(yù)測(cè)輸出為9Tx4.對(duì)于新輸入,重復(fù)1-3過(guò)程。其中t為帶寬常量,距離輸入越 遠(yuǎn),權(quán)重越小,反之越大。優(yōu)點(diǎn):1)局部加權(quán)回歸還是對(duì)訓(xùn) 練數(shù)據(jù)擬合的比較好2)不太依賴特征的選擇,而且只需 要用線性模型就能夠訓(xùn)練出不錯(cuò)的擬合 模型、缺點(diǎn):1)計(jì)算量較大。(因?yàn)榫?部加權(quán)回歸的損失數(shù)隨著預(yù)測(cè)值的不同 而不同,這樣9就無(wú)法事先確定,每次預(yù)測(cè)時(shí)都需 要掃描所有的數(shù)據(jù)并重新計(jì)算9)2)局部加權(quán)回歸容易

28、出現(xiàn)過(guò)擬合現(xiàn) 象,過(guò)擬合現(xiàn)象很明顯3)關(guān)注局部的訓(xùn)練數(shù)據(jù),忽略了全精選公文范文 局?jǐn)?shù)據(jù),如果預(yù)測(cè)點(diǎn)在出現(xiàn)偏差的訓(xùn)練 數(shù)據(jù)附近,那么預(yù)測(cè)值會(huì)偏差很大。改進(jìn):(4)k-Nearest Neighbor Algorithm for Regression算法思想:通過(guò)找出一個(gè)樣本的k個(gè)最近鄰居, 將這些鄰居的屬性的平均值賦給該樣 本,就可以得到該樣本的屬性。更有用 的方法是將不同距離的鄰居對(duì)該樣本產(chǎn) 生的影響給予不同的權(quán)值,如權(quán)值與距 離成正比。如果一個(gè)樣本在特征空間中的k個(gè) 最相似的樣本中的大多數(shù)屬于某一個(gè)類 別,則該樣本也屬于這個(gè)類別。KNN算法不僅可以用于分類,還可 以用于回歸。通過(guò)找出一個(gè)樣本

29、的k個(gè) 最近鄰居,將這些鄰居的屬性的平均值 賦給該樣本,就可以得到該樣本的屬性。 更有用的方法是將不同距離的鄰居對(duì)該 樣本產(chǎn)生的影響給予不同的權(quán)值,如權(quán) 精選公文范文25精選公文范文 值與距離成反比。優(yōu)點(diǎn):1)簡(jiǎn)單、有效。2)重新訓(xùn)練的代價(jià)較低(類別體系 的變化和訓(xùn)練集的變化,在Web環(huán)境和 電子商務(wù)應(yīng)用中是很常見(jiàn)的)。3)計(jì)算時(shí)間和空間線性于訓(xùn)練集的 規(guī)模(在一些場(chǎng)合不算太大)。4)由于KNN方法主要靠周圍有限 的鄰近的樣本,而不是靠判別類域的方 法來(lái)確定所屬類別的,因此對(duì)于類域的 交叉或重疊較多的待分樣本集來(lái)說(shuō), KNN方法較其他方法更為適合。5)該算法比較適用于樣本容量比較 大的類域的自

30、動(dòng)分類,而那些樣本容量 較小的類域采用這種算法比較容易產(chǎn)生 誤分。缺點(diǎn):(1)KNN在對(duì)屬性較多的訓(xùn)練樣 本進(jìn)行分類時(shí),由于計(jì)算量大而使其效 率大大降低,效果不是很理想。(2)當(dāng)樣本不平衡時(shí),如一個(gè)類的精選公文范文 樣本容量很大,而其他類樣本容量很小 時(shí),有可能導(dǎo)致當(dāng)輸入一個(gè)新樣本時(shí), 該樣本的K個(gè)鄰居中大容量類的樣本占 多數(shù)。(3)對(duì)數(shù)據(jù)的局部結(jié)構(gòu)比較敏感。 如果查詢點(diǎn)是位于訓(xùn)練集較密集的區(qū) 域,那預(yù)測(cè)相對(duì)比其他稀疏集來(lái)說(shuō)更準(zhǔn) 確。(4)對(duì)k值敏感。(5)維數(shù)災(zāi)難:臨近距離可能被不 相干屬性主導(dǎo)(因此特征選擇問(wèn)題)改進(jìn):(1)分類效率:事先對(duì)樣本屬性進(jìn) 行約簡(jiǎn),刪除對(duì)分類結(jié)果影響較小的屬 性

31、,快速的得出待分類樣本的類別。該 算法比較適用于樣本容量比較大的類域 的自動(dòng)分類,而那些樣本容量較小的類 域采用這種算法比較容易產(chǎn)生誤分。(2)分類效果:采用權(quán)值的方法(和該樣本距離小的鄰居權(quán)值大)來(lái)改進(jìn), Han等人于2002年嘗試?yán)秘澬姆ǎ?對(duì)文件分類實(shí)做可調(diào)整權(quán)重的k最近鄰 精選公文范文27精選公文范文 居法WAkNN,以促進(jìn)分類效果;而Li 等人于2004年提出由于不同分類的文件 本身有數(shù)量上有差異,因此也應(yīng)該依照 訓(xùn)練集合中各種分類的文件數(shù)量,選取 不同數(shù)目的最近鄰居,來(lái)參與分類。(3)該算法在分類時(shí)有個(gè)主要的不 足是,當(dāng)樣本不平衡時(shí),如一個(gè)類的樣 本容量很大,而其他類樣本容量很

32、小時(shí), 有可能導(dǎo)致當(dāng)輸入一個(gè)新樣本時(shí),該樣 本的K個(gè)鄰居中大容量類的樣本占多 數(shù)。該算法只計(jì)算“最近的”鄰居樣本, 某一類的樣本數(shù)量很大,那么或者這類 樣本并不接近目標(biāo)樣本,或者這類樣本 很靠近目標(biāo)樣本。無(wú)論怎樣,數(shù)量并不 能影響運(yùn)行結(jié)果。可以采用權(quán)值的方法(和該樣本距離小的鄰居權(quán)值大)來(lái)改 進(jìn)。(4)K值的選擇會(huì)對(duì)算法的結(jié)果產(chǎn)生重大影響。K值較小意味著只有與輸 入實(shí)例較近的訓(xùn)練實(shí)例才會(huì)對(duì)預(yù)測(cè)結(jié)果 起作用,但容易發(fā)生過(guò)擬合;如果K值 較大,優(yōu)點(diǎn)是可以減少學(xué)習(xí)的估計(jì)誤差, 精選公文范文28但缺點(diǎn)是學(xué)習(xí)的近似誤差增大,這時(shí)與 輸入實(shí)例較遠(yuǎn)的訓(xùn)練實(shí)例也會(huì)對(duì)預(yù)測(cè)起 作用,是預(yù)測(cè)發(fā)生錯(cuò)誤。在實(shí)際應(yīng)用中,

33、 K值一般選擇一個(gè)較小的數(shù)值,通常采 用交叉驗(yàn)證的方法來(lái)選擇最優(yōu)的K值。 隨著訓(xùn)練實(shí)例數(shù)目趨向于無(wú)窮和 K=1 時(shí),誤差率不會(huì)超過(guò)貝葉斯誤差率的2 倍,如果K也趨向于無(wú)窮,則誤差率趨 向于貝葉斯誤差率。(5)該方法的另一個(gè)不足之處是計(jì) 算量較大,因?yàn)閷?duì)每一個(gè)待分類的文本 都要計(jì)算它到全體已知樣本的距離,才 能求得它的K個(gè)最近鄰點(diǎn)。目前常用的 解決方法是事先對(duì)已知樣本點(diǎn)進(jìn)行剪 輯,事先去除對(duì)分類作用不大的樣本。篇三:面試備用:18大機(jī)器學(xué)習(xí)經(jīng) 典算法總結(jié)學(xué)習(xí)18大經(jīng)典數(shù)據(jù)挖掘算法大概花了將近2個(gè)月的時(shí)間,自己 把18大數(shù)據(jù)挖掘的經(jīng)典算法進(jìn)行了學(xué)習(xí) 并且進(jìn)行了代碼實(shí)現(xiàn),涉及到了決策分 類,聚類,鏈

34、接挖掘,關(guān)聯(lián)挖掘,模式 精選公文范文29精選公文范文 挖掘等等方面。也算是對(duì)數(shù)據(jù)挖掘領(lǐng)域 的小小入門了吧。下面就做個(gè)小小的總 結(jié),后面都是我自己相應(yīng)算法的博文鏈 接,希望能夠幫助大家學(xué)習(xí)。算法。算法與ID3算法一樣,都是 數(shù)學(xué)分類算法,算法是ID3算法的一個(gè) 改進(jìn)。ID3算法米用信息增益進(jìn)彳丁決策 判斷,而采用的是增益率。詳細(xì)介紹鏈接: HYPERLINK http:/androidlushangderen/article/details/ http:/androidlushangderen/article/details/ 42395865算法。CART算法的全稱是分類回 歸樹(shù)算法,他是一個(gè)

35、二元分類,采用的 是類似于熵的基尼指數(shù)作為分類決策, 形成決策樹(shù)后之后還要進(jìn)行剪枝,我自 己在實(shí)現(xiàn)整個(gè)算法的時(shí)候采用的是代價(jià) 復(fù)雜度算法,詳細(xì)介紹鏈接: HYPERLINK http:/androidlushangdere http:/androidlushangderen/article/details/42558235算法。給定一些已經(jīng)訓(xùn)練好的數(shù)據(jù), 輸入一個(gè)新的測(cè)試數(shù)據(jù)點(diǎn),計(jì)算包含于 精選公文范文30此測(cè)試數(shù)據(jù)點(diǎn)的最近的點(diǎn)的分類情況, 哪個(gè)分類的類型占多數(shù),則此測(cè)試點(diǎn)的 分類與此相同,所以在這里,有的時(shí)候可 以復(fù)制不同的分類點(diǎn)不同的權(quán)重。近的 點(diǎn)的權(quán)重大點(diǎn),遠(yuǎn)的點(diǎn)自然就小點(diǎn)。詳細(xì)介紹鏈接

36、: HYPERLINK http:/androidlushangderen/article/details/ http:/androidlushangderen/article/details/ 42613011Bayes算法。樸素貝葉斯算法是貝葉 斯算法里面一種比較簡(jiǎn)單的分類算法, 用到了一個(gè)比較重要的貝葉斯定理,用 一句簡(jiǎn)單的話概括就是條件概率的相互 轉(zhuǎn)換推導(dǎo)。詳細(xì)介紹鏈接: HYPERLINK http:/androidlushangderen/article/details/ http:/androidlushangderen/article/details/ 42680161算法。支

37、持向量機(jī)算法是一種對(duì)線 性和非線性數(shù)據(jù)進(jìn)行分類的方法,非線 性數(shù)據(jù)進(jìn)行分類的時(shí)候可以通過(guò)核函數(shù) 轉(zhuǎn)為線性的情況再處理。其中的一個(gè)關(guān) 鍵的步驟是搜索最大邊緣超平面。精選公文范文詳細(xì)介紹鏈接:精選公文范文31精選公文范文 HYPERLINK http:/androidlushangderen/article/details/ http:/androidlushangderen/article/details/ 42780439算法。期望最大化算法,可以拆分 為2個(gè)算法,1個(gè)E-Step期望化步驟,和 1個(gè)M-Step最大化步驟。他是一種算法 框架,在每次計(jì)算結(jié)果之后,逼近統(tǒng)計(jì) 模型參數(shù)的最大似然或

38、最大后驗(yàn)估計(jì)。詳細(xì)介紹鏈接: HYPERLINK http:/androidlushangderen/article/details/ http:/androidlushangderen/article/details/ 42921789算法。Apriori算法是關(guān)聯(lián)規(guī)則挖掘 算法,通過(guò)連接和剪枝運(yùn)算挖掘出頻繁 項(xiàng)集,然后根據(jù)頻繁項(xiàng)集得到關(guān)聯(lián)規(guī)則, 關(guān)聯(lián)規(guī)則的導(dǎo)出需要滿足最小置信度的 要求。詳細(xì)介紹鏈接: HYPERLINK http:/androidlushangderen/article/details/ http:/androidlushangderen/article/details/

39、 43059211算法。這個(gè)算法也有被稱為 FP-growth算法,這個(gè)算法克服了 Apriori 算法的產(chǎn)生過(guò)多侯選集的缺點(diǎn),通過(guò)遞 精選公文范文32精選公文范文 歸的產(chǎn)生頻度模式樹(shù),然后對(duì)樹(shù)進(jìn)行挖 掘,后面的過(guò)程與Apriori算法一致。詳細(xì)介紹鏈接: HYPERLINK http:/androidlushangderen/article/details/ http:/androidlushangderen/article/details/ 43234309算法。PageRank算法最早產(chǎn)生于 Google,核心思想是通過(guò)網(wǎng)頁(yè)的入鏈數(shù)作 為一個(gè)網(wǎng)頁(yè)好快的判定標(biāo)準(zhǔn),如果1個(gè) 網(wǎng)頁(yè)內(nèi)部包含了多

40、個(gè)指向外部的鏈接, 則PR值將會(huì)被均分,PageRank算法也 會(huì)遭到Link Span攻擊。詳細(xì)介紹鏈接: HYPERLINK http:/androidlushangderen/article/details/ http:/androidlushangderen/article/details/ 43311943算法。HITS算法是另外一個(gè)鏈接算 法,部分原理與PageRank算法是比較相 似的,HITS算法引入了權(quán)威值和中心值 的概念,HITS算法是受用戶查詢條件影 響的,他一般用于小規(guī)模的數(shù)據(jù)鏈接分 析,也更容易遭受到攻擊。詳細(xì)介紹鏈接: HYPERLINK http:/android

41、lushangderen/article/details/ http:/androidlushangderen/article/details/ 精選公文范文33精選公文范文43311943算法。K-Means算法是聚類算法,k 在在這里指的是分類的類型數(shù),所以在 開(kāi)始設(shè)定的時(shí)候非常關(guān)鍵,算法的原理 是首先假定k個(gè)分類點(diǎn),然后根據(jù)歐式 距離計(jì)算分類,然后去同分類的均值作 為新的聚簇中心,循環(huán)操作直到收斂。詳細(xì)介紹鏈接: HYPERLINK http:/androidlushangderen/article/details/ http:/androidlushangderen/article/details/ 43373159算法。BIRCH算法利用構(gòu)建CF聚 類特征樹(shù)作為算法的核心,通過(guò)樹(shù)的形 式,BIRCH算法掃描數(shù)據(jù)庫(kù),在內(nèi)存中 建立一棵初始的CF-樹(shù),

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論