機(jī)器學(xué)習(xí)基礎(chǔ)

上傳人：t*** IP屬地：天津上傳時間：2023-02-26 格式：DOCX 頁數(shù)：20 大小：226.42KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩15頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

前言：找工作時（IT行業(yè)），除了常見的軟件開發(fā)以外，機(jī)器學(xué)習(xí)崗位也可以當(dāng)作是一個選擇，不少計算機(jī)方向的研究生都會接觸這個，如果你的研究方向是機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘之類，且又對其非常感興趣的話，可以考慮考慮該崗位，畢竟在機(jī)器智能沒達(dá)到人類水平之前，機(jī)器學(xué)習(xí)可以作為一種重要手段，而隨著科技的不斷發(fā)展，相信這方面的人才需求也會越來越大?？v觀IT行業(yè)的招聘崗位，機(jī)器學(xué)習(xí)之類的崗位還是挺少的，國內(nèi)大點(diǎn)的公司里百度，阿里，騰訊，網(wǎng)易，搜狐，華為（華為的崗位基本都是隨機(jī)分配，機(jī)器學(xué)習(xí)等崗位基本面向的是博士）等會有相關(guān)職位，另外一些國內(nèi)的中小型企業(yè)和外企也會招一小部分。當(dāng)然了，其中大部分還是百度北京要人最多，上百人。阿里的算法崗位很大一部分也是搞機(jī)器學(xué)習(xí)相關(guān)的。另外本人有幸簽約了網(wǎng)易杭州研究院的深度學(xué)習(xí)算法崗位，打算從事機(jī)器學(xué)習(xí)領(lǐng)域至少5年。非常感謝小易收留了我！下面是本人在找機(jī)器學(xué)習(xí)崗位工作時，總結(jié)的常見機(jī)器學(xué)習(xí)算法（主要是一些常規(guī)分類器）大概流程和主要思想，希望對大家找機(jī)器學(xué)習(xí)崗位時有點(diǎn)幫助。實(shí)際上在面試過程中，懂這些算法的基本思想和大概流程是遠(yuǎn)遠(yuǎn)不夠的，那些面試官往往問的都是一些公司內(nèi)部業(yè)務(wù)中的課題，往往要求你不僅要懂得這些算法的理論過程，而且要非常熟悉怎樣使用它，什么場合用它，算法的優(yōu)缺點(diǎn)，以及調(diào)參經(jīng)驗(yàn)等等。說白了，就是既要會點(diǎn)理論，也要會點(diǎn)應(yīng)用，既要有點(diǎn)深度,也要有點(diǎn)廣度，否則運(yùn)氣不好的話很容易就被刷掉，因?yàn)槊總€面試官愛好不同。樸素貝葉斯:有以下幾個地方需要注意：如果給出的特征向量長度可能不同，這是需要?dú)w一化為通長度的向量（這里以文本分類為例），比如說是句子單詞的話，則長度為整個詞匯量的長度，對應(yīng)位置是該單詞出現(xiàn)的次數(shù)。計算公式如下：心|如）p（w|Ci）其中一項(xiàng)條件概率可以通過樸素貝葉斯條件獨(dú)立展開。要注意一點(diǎn)就是 ' 的計算方法，而由樸素貝葉斯的前提假設(shè)可知，P（W0,WlfW2.^|ci）因此一般有兩種，一種是在類PIci）P（wl.Ici）p（w2Ici）---P（WN|Ci）因此一般有兩種，一種是在類別為ci的那些樣本集中，找到wj出現(xiàn)次數(shù)的總和，然后除以該樣本的總和；第二種方法是類別為ci的那些樣本集中,找到wj出現(xiàn)次數(shù)的總和，然后除以該樣本中所有特征出現(xiàn)次數(shù)的總和。p（w|c￡）如果 ■ 中的某一項(xiàng)為0則其聯(lián)合概率的乘積也可能為0即2中公式的分子為0為了避免這種現(xiàn)象出現(xiàn)，一般情況下會將這一項(xiàng)初始化為1,當(dāng)然為了保證概率相等，分母應(yīng)對應(yīng)初始化為2（這里因?yàn)槭?類,所以加2,如果是k類就需要加k,術(shù)語上叫做laplace光滑，分母加k的原因是使之滿足全概率公式）。樸素貝葉斯的優(yōu)點(diǎn)：對小規(guī)模的數(shù)據(jù)表現(xiàn)很好，適合多分類任務(wù)，適合增量式訓(xùn)練。缺點(diǎn)：對輸入數(shù)據(jù)的表達(dá)形式很敏感。決策樹：決策樹中很重要的一點(diǎn)就是選擇一個屬性進(jìn)行分枝，因此要注意一下信息增益的計算公式，并深入理解它。信息熵的計算公式如下：H=-&=/（叫）姬戶（叫）其中的n代表有n個分類類別（比如假設(shè)是2類問題，那么n=2）。分別計算這2類樣本在總樣本中出現(xiàn)的概率pl和p2,這樣就可以計算出未選中屬性分枝前的信息熵。現(xiàn)在選中一個屬性Xi用來進(jìn)行分枝，此時分枝規(guī)則是：如果Xi=VX的話，將樣本分到樹的一個分支；如果不相等則進(jìn)入另一個分支。很顯然，分支中的樣本很有可能包括2個類別，分別計算這2個分支的熵H1和H2,計算出分枝后的總信息熵H'=p1*H1+p2*H2.,則此時的信息增益AH=H-H'。以信息增益為原則，把所有的屬性都測試一邊，選擇一個使增益最大的屬性作為本次分枝屬性。決策樹的優(yōu)點(diǎn)：計算量簡單，可解釋性強(qiáng)，比較適合處理有缺失屬性值的樣本，能夠處理不相關(guān)的特征；缺點(diǎn)：容易過擬合（后續(xù)出現(xiàn)了隨機(jī)森林，減小了過擬合現(xiàn)象）；Logistic回歸：Logistic是用來分類的，是一種線性分類器，需要注意的地方有：1.logistic函數(shù)表達(dá)式為:2.logsite回歸方法主要是用最大似然估計來學(xué)習(xí)的，所以單個樣本的后驗(yàn)概率為:2.logsite回歸方法主要是用最大似然估計來學(xué)習(xí)的，所以單個樣本的后驗(yàn)概率為:p（y|眄&）=（加3）尸（］—加仗））丄到整個樣本的后驗(yàn)概率：=P（y\x；到整個樣本的后驗(yàn)概率：=P（y\x；e）m=np（y?I曲;9）i=l=n（m*＞））0（i-m円））f￡=1其中：=hff?=1-he（x）/(X/IXFF1O-*1-*1-.XI/00通過對數(shù)進(jìn)一步化簡為：0(0)二log￡(0)m.=力y?logh(K⑷)+(1-0)log(l-i=l3.其實(shí)它的lossfunetion為-1（0,）因此我們需使lossfunetion最小，可采用梯度下降法得到。梯度下降法公式為：急⑹=—（1i"）]_爲(wèi)）敘必）=（"為一（1一叭—；（五））何巧（1-g（幾）崙幾=（y（i-g（必））一（1一咖儼①））叼—（y—加仗））叼Oj：=Oj+a（瀘-加（k⑵））①學(xué)）Logistic回歸優(yōu)點(diǎn)：1、實(shí)現(xiàn)簡單；2、分類時計算量非常小，速度很快，存儲資源低；缺點(diǎn)：1、容易欠擬合，一般準(zhǔn)確度不太高2、只能處理兩分類問題（在此基礎(chǔ)上衍生出來的softmax可以用于多分類），且必須線性可分；線性回歸：線性回歸才是真正用于回歸的，而不像logistic回歸是用于分類，其基本思想是用梯度下降法對最小二乘法形式的誤差函數(shù)進(jìn)行優(yōu)化，當(dāng)然也可以用normalequation直接求得參數(shù)的解，結(jié)果為：w=（込「巧而在LWLR（局部加權(quán)線性回歸）中，參數(shù)的計算表達(dá)式為：w=（x7WX）~1XrWy因?yàn)榇藭r優(yōu)化的是：1.Fit9toiiiiniiiiize刀嚴(yán)⑵（滬）-產(chǎn)①何尸2*Output由此可見LWLR與LR不同，LWLR是一個非參數(shù)模型，因?yàn)槊看芜M(jìn)行回歸計算都要遍歷訓(xùn)練樣本至少一次。線性回歸優(yōu)點(diǎn)：實(shí)現(xiàn)簡單，計算簡單；缺點(diǎn):不能擬合非線性數(shù)據(jù)；KNN算法：KNN即最近鄰算法，其主要過程為：計算訓(xùn)練樣本和測試樣本中每個樣本點(diǎn)的距離(常見的距離度量有歐式距離，馬氏距離等)；對上面所有的距離值進(jìn)行排序；選前k個最小距離的樣本；根據(jù)這k個樣本的標(biāo)簽進(jìn)行投票，得到最后的分類類別；如何選擇一個最佳的K值，這取決于數(shù)據(jù)。一般情況下，在分類時較大的K值能夠減小噪聲的影響。但會使類別之間的界限變得模糊。一個較好的K值可通過各種啟發(fā)式技術(shù)來獲取，比如，交叉驗(yàn)證。另外噪聲和非相關(guān)性特征向量的存在會使K近鄰算法的準(zhǔn)確性減小。近鄰算法具有較強(qiáng)的一致性結(jié)果。隨著數(shù)據(jù)趨于無限，算法保證錯誤率不會超過貝葉斯算法錯誤率的兩倍。對于一些好的K值，K近鄰保證錯誤率不會超過貝葉斯理論誤差率。注：馬氏距離一定要先給出樣本集的統(tǒng)計性質(zhì)，比如均值向量，協(xié)方差矩陣等。關(guān)于馬氏距離的介紹如下：2氏距離是由印度統(tǒng)計學(xué)家日哈拉諾比斯(F.c.Mahalanobis)提出的，表示數(shù)據(jù)的協(xié)方差距離。它是一種有效的*同的是它考慮到各種特性之間的聯(lián)系〔例如：一條關(guān)于身高的信息會帶來一條關(guān)于體重的信息，因?yàn)閮烧呤怯嘘P(guān)聯(lián)的)于測量尺度。對于一個均值為p=慶耐嘰…訕協(xié)方差矩陣為另的多變量向量工=Dm(x)=J(H_滬￡_1(￡_甘)2氏距離也可法定義為兩個服從.同一分布并且其協(xié)方差矩陣為E的隨機(jī)變量云與曠的差異程度：y)=如果協(xié)方差矩陣為單位矩陣，日氏距離就簡化為歐氏距離，如果協(xié)方差矩陣為對角陣，其也可稱說正規(guī)代的歐氏距離?邂恥占色諸L其中弧是磯的標(biāo)準(zhǔn)差。KNN算法的優(yōu)點(diǎn)：思想簡單，理論成熟，既可以用來做分類也可以用來做回歸；可用于非線性分類；訓(xùn)練時間復(fù)雜度為0(n)；準(zhǔn)確度高，對數(shù)據(jù)沒有假設(shè)，對outlier不敏感；缺點(diǎn):計算量大;樣本不平衡問題(即有些類別的樣本數(shù)量很多，而其它樣本的數(shù)量很少)；需要大量的內(nèi)存；SVM:要學(xué)會如何使用libsvm以及一些參數(shù)的調(diào)節(jié)經(jīng)驗(yàn)，另外需要理清楚svm算法的一些思路：svm中的最優(yōu)分類面是對所有樣本的幾何裕量最大(為什么要選擇最大間隔分類器，請從數(shù)學(xué)角度上說明？網(wǎng)誤分次數(shù)罟J易深度學(xué)習(xí)崗位面試過程中有被問到。答案就是幾何間隔與樣本的誤分次數(shù)間存在關(guān)系： ' ，其中的分母就是樣本到分類間隔距離，分子中的R是所有樣本中的最長向量值)，即：s.t. +b)>7,i=1, m經(jīng)過一系列推導(dǎo)可得為優(yōu)化下面原始目標(biāo)：mi"說#|血『s..t.y^(wT^+b)>1.i=1,...,m下面來看看拉格朗日理論：inin^,f(w)s.t. <(}. ….用hi(w)=0,i=1....J.Tosolveit,westartbydefiningthegeneralizedLagrangiank i￡(S巴P)=f(w)+工gg’(w)+力妙仏)?i=l可以將1中的優(yōu)化目標(biāo)轉(zhuǎn)換為拉格朗日的形式(通過各種對偶優(yōu)化，KKD條件)，最后目標(biāo)函數(shù)為:￡(?M)=別訓(xùn)F我們只需要最小化上述目標(biāo)函數(shù)，其中的a為原始優(yōu)化問題中的不等式約束拉格朗日系數(shù)。對2中最后的式子分別w和b求導(dǎo)可得：w=52他卩⑷玄⑴.2=1=o.=o.i=l由上面第1式子可以知道，如果我們優(yōu)化出了a,則直接可以求出w了，即模型的參數(shù)搞定。而上面第2個式子可以作為后續(xù)優(yōu)化的一個約束條件。u.m幺一二工u.m幺一二工y?瀘匕禺33少〉. m叫）=￡>i=LS.t.di>0,t=1m而這個函數(shù)可以用常用的優(yōu)化方法求得a,進(jìn)而求得w和b。按照道理，svm簡單理論應(yīng)該到此結(jié)束。不過還是要補(bǔ)充一點(diǎn)，即在預(yù)測時有:YY1YY1=力側(cè)⑴仗⑷店〉+b.i=i那個尖括號我們可以用核函數(shù)代替，這也是svm經(jīng)常和核函數(shù)扯在一起的原因。最后是關(guān)于松弛變量的引入，因此原始的目標(biāo)優(yōu)化公式為：與前面的相比只是a多了個上界。SVM算法優(yōu)點(diǎn):可用于線性/非線性分類，也可以用于回歸;低泛化誤差;容易解釋;計算復(fù)雜度較低;缺點(diǎn):對參數(shù)和核函數(shù)的選擇比較敏感;原始的SVM只比較擅長處理二分類問題;Boosting主要以Adaboost為例，首先來看看Adaboost的流程圖，如下:從圖中可以看到，在訓(xùn)練過程中我們需要訓(xùn)練出多個弱分類器（圖中為3個），每個弱分類器是由不同權(quán)重的樣本（圖中為5個訓(xùn)練樣本）訓(xùn)練得到（其中第一個弱分類器對應(yīng)輸入樣本的權(quán)值是一樣的），而每個弱分類器對最終分類結(jié)果的作用也不同，是通過加權(quán)平均輸出的，權(quán)值見上圖中三角形里面的數(shù)值。那么這些弱分類器和其對應(yīng)的權(quán)值是怎樣訓(xùn)練出來的呢？下面通過一個例子來簡單說明。書中（machinelearninginaction）假設(shè)的是5個訓(xùn)練樣本，每個訓(xùn)練樣本的維度為2，在訓(xùn)練第一個分類器時5個樣本的權(quán)重各為0.2.注意這里樣本的權(quán)值和最終訓(xùn)練的弱分類器組對應(yīng)的權(quán)值a是不同的，樣本的權(quán)重只在訓(xùn)練過程中用到，而a在訓(xùn)練過程和測試過程都有用到?，F(xiàn)在假設(shè)弱分類器是帶一個節(jié)點(diǎn)的簡單決策樹，該決策樹會選擇2個屬性（假設(shè)只有2個屬性）的一個，然后計算出這個屬性中的最佳值用來分類。Adaboost的簡單版本訓(xùn)練過程如下：訓(xùn)練第一個分類器，樣本的權(quán)值D為相同的均值。通過一個弱分類器，得到這5個樣本（請對應(yīng)書中的例子來看，依舊是machinelearninginaction）的分類預(yù)測標(biāo)簽。與給出的樣本真實(shí)標(biāo)簽對比，就可能出現(xiàn)誤差（即錯誤）。如果某個樣本預(yù)測錯誤，則它對應(yīng)的錯誤值為該樣本的權(quán)重，如果分類正確，則錯誤值為0.最后累加5個樣本的錯誤率之和，記為￡。通過￡來計算該弱分類器的權(quán)重a,公式如下：通過a來計算訓(xùn)練下一個弱分類器樣本的權(quán)重D,如果對應(yīng)樣本分類正確，則減小該樣本的權(quán)重，公式為:Sum(D)如果樣本分類錯誤，則增加該樣本的權(quán)重，公式為:Sum(D)循環(huán)步驟1,2,3來繼續(xù)訓(xùn)練多個分類器，只是其D值不同而已。測試過程如下：輸入一個樣本到訓(xùn)練好的每個弱分類中，則每個弱分類都對應(yīng)一個輸出標(biāo)簽，然后該標(biāo)簽乘以對應(yīng)的a最后求和得到值的符號即為預(yù)測標(biāo)簽值。Boosting算法的優(yōu)點(diǎn)：低泛化誤差；容易實(shí)現(xiàn)，分類準(zhǔn)確率較高，沒有太多參數(shù)可以調(diào)；缺點(diǎn)：對outlier比較敏感；聚類：根據(jù)聚類思想劃分：1.基于劃分的聚類：K-means,k-medoids(每一個類別中找一個樣本點(diǎn)來代表),CLARANS.k-means是使下面的表達(dá)式值最?。簓=EE(巧-1=1k-means算法的優(yōu)點(diǎn)：k-means算法是解決聚類問題的一種經(jīng)典算法，算法簡單、快速。對處理大數(shù)據(jù)集，該算法是相對可伸縮的和高效率的，因?yàn)樗膹?fù)雜度大約是O(nkt)，其中n是所有對象的數(shù)目，k是簇的數(shù)目,t是迭代的次數(shù)。通常k<<n。這個算法通常局部收斂。算法嘗試找出使平方誤差函數(shù)值最小的k個劃分。當(dāng)簇是密集的、球狀或團(tuán)狀的，且簇與簇之間區(qū)別明顯時,聚類效果較好。缺點(diǎn)：k-平均方法只有在簇的平均值被定義的情況下才能使用，且對有些分類屬性的數(shù)據(jù)不適合。要求用戶必須事先給出要生成的簇的數(shù)目k。對初值敏感，對于不同的初始值，可能會導(dǎo)致不同的聚類結(jié)果。（4）不適合于發(fā)現(xiàn)非凸面形狀的簇，或者大小差別很大的簇。（5）對于"噪聲"和孤立點(diǎn)數(shù)據(jù)敏感，少量的該類數(shù)據(jù)能夠?qū)ζ骄诞a(chǎn)生極大影響。基于層次的聚類：自底向上的凝聚方法，比如AGNES。自上向下的分裂方法，比如DIANA?；诿芏鹊木垲悾篋BSACN,OPTICS,BIRCH（CF-Tree）,CURE.基于網(wǎng)格的方法：STING,WaveCluster.基于模型的聚類：EM,SOM,COBWEB.以上這些算法的簡介可參考聚類（百度百科）。推薦系統(tǒng):推薦系統(tǒng)的實(shí)現(xiàn)主要分為兩個方面：基于內(nèi)容的實(shí)現(xiàn)和協(xié)同濾波的實(shí)現(xiàn)。基于內(nèi)容的實(shí)現(xiàn)：不同人對不同電影的評分這個例子，可以看做是一個普通的回歸問題，因此每部電影都需要提前提取出一個特征向量（即x值），然后針對每個用戶建模，即每個用戶打的分值作為y值，利用這些已有的分值y和電影特征值x就可以訓(xùn)練回歸模型了（最常見的就是線性回歸）。這樣就可以預(yù)測那些用戶沒有評分的電影的分?jǐn)?shù)。（值得注意的是需對每個用戶都建立他自己的回歸模型）從另一個角度來看，也可以是先給定每個用戶對某種電影的喜好程度（即權(quán)值），然后學(xué)出每部電影的特征，最后采用回歸來預(yù)測那些沒有被評分的電影。當(dāng)然還可以是同時優(yōu)化得到每個用戶對不同類型電影的熱愛程度以及每部電影的特征。具體可以參考Ng在coursera上的ml教程：/course/ml基于協(xié)同濾波的實(shí)現(xiàn)：協(xié)同濾波（CF）可以看做是一個分類問題，也可以看做是矩陣分解問題。協(xié)同濾波主要是基于每個人自己的喜好都類似這一特征，它不依賴于個人的基本信息。比如剛剛那個電影評分的例子中，預(yù)測那些沒有被評分的電影的分?jǐn)?shù)只依賴于已經(jīng)打分的那些分?jǐn)?shù)，并不需要去學(xué)習(xí)那些電影的特征。SVD將矩陣分解為三個矩陣的乘積，公式如下所示：Datamxn二zuzVTmxmmxnnxn

中間的矩陣sigma為對角矩陣，對角元素的值為Data矩陣的奇異值（注意奇異值和特征值是不同的），且已經(jīng)從大到小排列好了。即使去掉特征值小的那些特征，依然可以很好的重構(gòu)出原始矩陣。如下圖所示：￡■T￡■TData u其中更深的顏色代表去掉小特征值重構(gòu)時的三個矩陣。果m代表商品的個數(shù)，n代表用戶的個數(shù)，則U矩陣的每一行代表商品的屬性，現(xiàn)在通過降維U矩陣（取深色部分）后，每一個商品的屬性可以用更低的維度表示（假設(shè)為k維）。這樣當(dāng)新來一個用戶的商品推薦向量X,則可以根據(jù)公式X'*U1*inv（S1）得到一個k維的向量，然后在V中尋找最相似的那一個用戶（相似度測量可用余弦公式等），根據(jù)這個用戶的評分來推薦（主要是推薦新用戶未打分的那些商品）。具體例子可以參考網(wǎng)頁:SVD在推薦系統(tǒng)中的應(yīng)用另外關(guān)于SVD分解后每個矩陣的實(shí)際含義可以參考google吳軍的《數(shù)學(xué)之美》一書（不過個人感覺吳軍解釋UV兩個矩陣時好像弄反了，不知道大家怎樣認(rèn)為）?；蛘邊⒖糾achinelearninginaction其中的svd章節(jié)。pLSA:pLSA由LSA發(fā)展過來，而早期LSA的實(shí)現(xiàn)主要是通過SVD分解。pLSA的模型圖如下:公式中的意義如下:⑴以P佩)的概率選中文檔也;⑵以卩(和的概率選中主題匸；(3)以刑九)的概率產(chǎn)生一個單詞。我們可以.觀察到的數(shù)據(jù)就是“廠叫)對，而忑是隱含變量的聯(lián)合分布為■ Kp(&.如=P(dj)P(wjM).jp(wjldf)=工戸(吟|殊)刊琵同人k=\具體可以參考2010龍星計劃：機(jī)器學(xué)習(xí)中對應(yīng)的主題模型那一講LDA：主題模型，概率圖如下:和pLSA不同的是LDA中假設(shè)了很多先驗(yàn)分布，且一般參數(shù)的先驗(yàn)分布都假設(shè)為Dirichlet分布，其原因是共軛分布時先驗(yàn)概率和后驗(yàn)概率的形式相同。GDBT：GBDT(GradientBoostingDecisionTree)又叫MART(MultipleAdditiveRegressionTree)，好像在阿里內(nèi)部用得比較多(所以阿里算法崗位面試時可能會問到)，它是一種迭代的決策樹算法，該算法由多棵決策樹組成，所有樹的輸出結(jié)果累加起來就是最終答案。它在被提出之初就和SVM一起被認(rèn)為是泛化能力(generalization)較強(qiáng)的算法。近些年更因?yàn)楸挥糜谒阉髋判虻臋C(jī)器學(xué)習(xí)模型而引起大家關(guān)注。GBDT是回歸樹，不是分類樹。其核心就在于，每一棵樹是從之前所有樹的殘差中來學(xué)習(xí)的。為了防止過擬合，和Adaboosting—樣，也加入了boosting這一項(xiàng)。

關(guān)于GDBT的介紹可以可以參考：GBDT（MART）迭代決策樹入門教程|簡介Regularization:作用是（網(wǎng)易電話面試時有問到）：數(shù)值上更容易求解；特征數(shù)目太大時更穩(wěn)定；控制模型的復(fù)雜度，光滑性。復(fù)雜性越小且越光滑的目標(biāo)函數(shù)泛化能力越強(qiáng)。而加入規(guī)則項(xiàng)能使目標(biāo)函數(shù)復(fù)雜度減小，且更光滑。減小參數(shù)空間；參數(shù)空間越小，復(fù)雜度越低。系數(shù)越小，模型越簡單，而模型越簡單則泛化能力越強(qiáng)（Ng宏觀上給出的解釋）?？梢钥闯墒菣?quán)值的高斯先驗(yàn)。異常檢測：可以估計樣本的密度函數(shù)，對于新樣本直接計算其密度，如果密度值小于某一閾值，則表示該樣本異常。而密度函數(shù)一般采用多維的高斯分布。如果樣本有n維，則每一維的特征都可以看作是符合高斯分布的，即使這些特征可視化出來不太符合高斯分布，也可以對該特征進(jìn)行數(shù)學(xué)轉(zhuǎn)換讓其看起來像高斯分布，比如說x=log（x+c）,x=x人（1/c）等。異常檢測的算法流程如下：AnomalydetectionalgorithmChoosefeaturesthatyouthinkmightbeindicativeofanomalousexamples.Fitparameters 打,…，血i=l5.Givennewexample^;fcompute“（〃）:u 1 f?_ \2"仗）=h譏心；“嚴(yán)巧）=n礦（—篤）；=i 丿=］嘗伽力Anomalyif卩（広）＜e其中的E也是通過交叉驗(yàn)證得到的，也就是說在進(jìn)行異常檢測時，前面的p（x）的學(xué)習(xí)是用的無監(jiān)督，后面的參數(shù)￡學(xué)習(xí)是用的有監(jiān)督。那么為什么不全部使用普通有監(jiān)督的方法來學(xué)習(xí)呢（即把它看做是一個普通的二分類問題）？主要是因?yàn)樵诋惓z測中，異常的樣本數(shù)量非常少而正常樣本數(shù)量非常多，因此不足以學(xué)習(xí)到好的異常行為模型的參數(shù),因?yàn)楹竺嫘聛淼漠惓颖究赡芡耆桥c訓(xùn)練樣本中的模式不同。另外，上面是將特征的每一維看成是相互獨(dú)立的高斯分布，其實(shí)這樣的近似并不是最好的，但是它的計算量較小,因此也常被使用。更好的方法應(yīng)該是將特征擬合成多維高斯分布，這時有特征之間的相關(guān)性，但隨之計算量會變復(fù)雜,且樣本的協(xié)方差矩陣還可能出現(xiàn)不可逆的情況（主要在樣本數(shù)比特征數(shù)小，或者樣本特征維數(shù)之間有線性關(guān)系時）。上面的內(nèi)容可以參考Ng的/course/mlEM算法：有時候因?yàn)闃颖镜漠a(chǎn)生和隱含變量有關(guān)（隱含變量是不能觀察的），而求模型的參數(shù)時一般采用最大似然估計，由于含有了隱含變量，所以對似然函數(shù)參數(shù)求導(dǎo)是求不出來的，這時可以采用EM算法來求模型的參數(shù)的（對應(yīng)模型參數(shù)個數(shù)可能有多個），EM算法一般分為2步：E步：選取一組參數(shù)，求出在該參數(shù)下隱含變量的條件概率值；M步：結(jié)合E步求出的隱含變量條件概率，求出似然函數(shù)下界函數(shù)（本質(zhì)上是某個期望函數(shù)）的最大值。重復(fù)上面2步直至收斂。公式如下所示：（E-step）ForeachsetQ3））工⑴;0）.（M-step）Set心辱普HQ（日））噸？（*））?M步公式中下界函數(shù)的推導(dǎo)過程：TOC\o"1-5"\h\z\o"CurrentDocument"乂21。呂戸（工⑴；0） =工噸力如哲宀刃 ⑴i * 曲）\o"CurrentDocument"=少嗚％?）強(qiáng)絆 ⑵\o"CurrentDocument"2刁護(hù)3血唱即 ⑶EM算法一個常見的例子就是GMM模型，每個樣本都有可能由k個高斯產(chǎn)生，只不過由每個高斯產(chǎn)生的概率不同而已，因此每個樣本都有對應(yīng)的高斯分布（k個中的某一個），此時的隱含變量就是每個樣本對應(yīng)的某個高斯分布。GMM的E步公式如下（計算每個樣本對應(yīng)每個高斯的概率）：

(E-step)Foreachz?j,setwj4）：=卩（?。?引北⑷;血如S）更具體的計算公式為:戸仗⑹涉）戸（/戸仗⑹涉）戸（/）_引"｝妙叢另）-刀1嚴(yán)仗（叫卻）=Z“Q）譏沖='）M步公式如下（計算每個高斯的比重，均值，方差這3個參數(shù)）：(M-step)Updatetheparameters:(M-step)Updatetheparameters:關(guān)于EM算法可以參考Ng的cs229課程資料或者網(wǎng)易公開課：斯坦福大學(xué)公開課：機(jī)器學(xué)習(xí)課程Apriori:Apriori是關(guān)聯(lián)分析中比較早的一種方法，主要用來挖掘那些頻繁項(xiàng)集合。其思想是：如果一個項(xiàng)目集合不是頻繁集合，那么任何包含它的項(xiàng)目集合也一定不是頻繁集合;如果一個項(xiàng)目集合是頻繁集合，那么它的任何非空子集也是頻繁集合;Aprioir需要掃描項(xiàng)目表多遍，從一個項(xiàng)目開始掃描，舍去掉那些不是頻繁的項(xiàng)目，得到的集合稱為L,然后對L中的每個元素進(jìn)行自組合，生成比上次掃描多一個項(xiàng)目的集合，該集合稱為C,接著又掃描去掉那些非頻繁的項(xiàng)目，重復(fù)…看下面這個例子：TranwEGtionnumber0Tra

人人文庫> 全部分類> 行業(yè)資料 > 各類標(biāo)準(zhǔn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

機(jī)器學(xué)習(xí)基礎(chǔ)

文檔簡介

溫馨提示

最新文檔

評論

機(jī)器學(xué)習(xí)基礎(chǔ)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔