機器學習基礎_第1頁
機器學習基礎_第2頁
機器學習基礎_第3頁
機器學習基礎_第4頁
機器學習基礎_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

前言:找工作時(IT行業(yè)),除了常見的軟件開發(fā)以外,機器學習崗位也可以當作是一個選擇,不少計算機方向的研究生都會接觸這個,如果你的研究方向是機器學習/數(shù)據(jù)挖掘之類,且又對其非常感興趣的話,可以考慮考慮該崗位,畢竟在機器智能沒達到人類水平之前,機器學習可以作為一種重要手段,而隨著科技的不斷發(fā)展,相信這方面的人才需求也會越來越大??v觀IT行業(yè)的招聘崗位,機器學習之類的崗位還是挺少的,國內(nèi)大點的公司里百度,阿里,騰訊,網(wǎng)易,搜狐,華為(華為的崗位基本都是隨機分配,機器學習等崗位基本面向的是博士)等會有相關職位,另外一些國內(nèi)的中小型企業(yè)和外企也會招一小部分。當然了,其中大部分還是百度北京要人最多,上百人。阿里的算法崗位很大一部分也是搞機器學習相關的。另外本人有幸簽約了網(wǎng)易杭州研究院的深度學習算法崗位,打算從事機器學習領域至少5年。非常感謝小易收留了我!下面是本人在找機器學習崗位工作時,總結的常見機器學習算法(主要是一些常規(guī)分類器)大概流程和主要思想,希望對大家找機器學習崗位時有點幫助。實際上在面試過程中,懂這些算法的基本思想和大概流程是遠遠不夠的,那些面試官往往問的都是一些公司內(nèi)部業(yè)務中的課題,往往要求你不僅要懂得這些算法的理論過程,而且要非常熟悉怎樣使用它,什么場合用它,算法的優(yōu)缺點,以及調(diào)參經(jīng)驗等等。說白了,就是既要會點理論,也要會點應用,既要有點深度,也要有點廣度,否則運氣不好的話很容易就被刷掉,因為每個面試官愛好不同。樸素貝葉斯:有以下幾個地方需要注意:如果給出的特征向量長度可能不同,這是需要歸一化為通長度的向量(這里以文本分類為例),比如說是句子單詞的話,則長度為整個詞匯量的長度,對應位置是該單詞出現(xiàn)的次數(shù)。計算公式如下:心|如)p(w|Ci)其中一項條件概率可以通過樸素貝葉斯條件獨立展開。要注意一點就是 ' 的計算方法,而由樸素貝葉斯的前提假設可知,P(W0,WlfW2.^|ci)因此一般有兩種,一種是在類PIci)P(wl.Ici)p(w2Ici)---P(WN|Ci)因此一般有兩種,一種是在類別為ci的那些樣本集中,找到wj出現(xiàn)次數(shù)的總和,然后除以該樣本的總和;第二種方法是類別為ci的那些樣本集中,找到wj出現(xiàn)次數(shù)的總和,然后除以該樣本中所有特征出現(xiàn)次數(shù)的總和。p(w|c£)如果 ■ 中的某一項為0則其聯(lián)合概率的乘積也可能為0即2中公式的分子為0為了避免這種現(xiàn)象出現(xiàn),一般情況下會將這一項初始化為1,當然為了保證概率相等,分母應對應初始化為2(這里因為是2類,所以加2,如果是k類就需要加k,術語上叫做laplace光滑,分母加k的原因是使之滿足全概率公式)。樸素貝葉斯的優(yōu)點:對小規(guī)模的數(shù)據(jù)表現(xiàn)很好,適合多分類任務,適合增量式訓練。缺點:對輸入數(shù)據(jù)的表達形式很敏感。決策樹:決策樹中很重要的一點就是選擇一個屬性進行分枝,因此要注意一下信息增益的計算公式,并深入理解它。信息熵的計算公式如下:H=-&=/(叫)姬戶(叫)其中的n代表有n個分類類別(比如假設是2類問題,那么n=2)。分別計算這2類樣本在總樣本中出現(xiàn)的概率pl和p2,這樣就可以計算出未選中屬性分枝前的信息熵。現(xiàn)在選中一個屬性Xi用來進行分枝,此時分枝規(guī)則是:如果Xi=VX的話,將樣本分到樹的一個分支;如果不相等則進入另一個分支。很顯然,分支中的樣本很有可能包括2個類別,分別計算這2個分支的熵H1和H2,計算出分枝后的總信息熵H'=p1*H1+p2*H2.,則此時的信息增益AH=H-H'。以信息增益為原則,把所有的屬性都測試一邊,選擇一個使增益最大的屬性作為本次分枝屬性。決策樹的優(yōu)點:計算量簡單,可解釋性強,比較適合處理有缺失屬性值的樣本,能夠處理不相關的特征;缺點:容易過擬合(后續(xù)出現(xiàn)了隨機森林,減小了過擬合現(xiàn)象);Logistic回歸:Logistic是用來分類的,是一種線性分類器,需要注意的地方有:1.logistic函數(shù)表達式為:2.logsite回歸方法主要是用最大似然估計來學習的,所以單個樣本的后驗概率為:2.logsite回歸方法主要是用最大似然估計來學習的,所以單個樣本的后驗概率為:p(y|眄&)=(加3)尸(]—加仗))丄到整個樣本的后驗概率:=P(y\x;到整個樣本的后驗概率:=P(y\x;e)m=np(y?I曲;9)i=l=n(m*>))0(i-m円))f£=1其中:=hff?=1-he(x)/(X/IXFF1O-*1-*1-.XI/00通過對數(shù)進一步化簡為:0(0)二log£(0)m.=力y?logh(K⑷)+(1-0)log(l-i=l3.其實它的lossfunetion為-1(0,)因此我們需使lossfunetion最小,可采用梯度下降法得到。梯度下降法公式為:急⑹=—(1i")]_爲)敘必)=("為一(1一叭—;(五))何巧(1-g(幾)崙幾=(y(i-g(必))一(1一咖儼①))叼—(y—加仗))叼Oj:=Oj+a(瀘-加(k⑵))①學)Logistic回歸優(yōu)點:1、 實現(xiàn)簡單;2、 分類時計算量非常小,速度很快,存儲資源低;缺點:1、 容易欠擬合,一般準確度不太高2、 只能處理兩分類問題(在此基礎上衍生出來的softmax可以用于多分類),且必須線性可分;線性回歸:線性回歸才是真正用于回歸的,而不像logistic回歸是用于分類,其基本思想是用梯度下降法對最小二乘法形式的誤差函數(shù)進行優(yōu)化,當然也可以用normalequation直接求得參數(shù)的解,結果為:w=(込「巧而在LWLR(局部加權線性回歸)中,參數(shù)的計算表達式為:w=(x7WX)~1XrWy因為此時優(yōu)化的是:1.Fit9toiiiiniiiiize刀嚴⑵(滬)-產(chǎn)①何尸2*Output由此可見LWLR與LR不同,LWLR是一個非參數(shù)模型,因為每次進行回歸計算都要遍歷訓練樣本至少一次。線性回歸優(yōu)點:實現(xiàn)簡單,計算簡單;缺點:不能擬合非線性數(shù)據(jù);KNN算法:KNN即最近鄰算法,其主要過程為:計算訓練樣本和測試樣本中每個樣本點的距離(常見的距離度量有歐式距離,馬氏距離等);對上面所有的距離值進行排序;選前k個最小距離的樣本;根據(jù)這k個樣本的標簽進行投票,得到最后的分類類別;如何選擇一個最佳的K值,這取決于數(shù)據(jù)。一般情況下,在分類時較大的K值能夠減小噪聲的影響。但會使類別之間的界限變得模糊。一個較好的K值可通過各種啟發(fā)式技術來獲取,比如,交叉驗證。另外噪聲和非相關性特征向量的存在會使K近鄰算法的準確性減小。近鄰算法具有較強的一致性結果。隨著數(shù)據(jù)趨于無限,算法保證錯誤率不會超過貝葉斯算法錯誤率的兩倍。對于一些好的K值,K近鄰保證錯誤率不會超過貝葉斯理論誤差率。注:馬氏距離一定要先給出樣本集的統(tǒng)計性質,比如均值向量,協(xié)方差矩陣等。關于馬氏距離的介紹如下:2氏距離是由印度統(tǒng)計學家日哈拉諾比斯(F.c.Mahalanobis)提出的,表示數(shù)據(jù)的協(xié)方差距離。它是一種有效的*同的是它考慮到各種特性之間的聯(lián)系〔例如:一條關于身高的信息會帶來一條關于體重的信息,因為兩者是有關聯(lián)的)于測量尺度。對于一個均值為p=慶耐嘰…訕協(xié)方差矩陣為另的多變量向量工=Dm(x)=J(H_滬£_1(£_甘)2氏距離也可法定義為兩個服從.同一分布并且其協(xié)方差矩陣為E的隨機變量云與曠的差異程度:y)=如果協(xié)方差矩陣為單位矩陣,日氏距離就簡化為歐氏距離,如果協(xié)方差矩陣為對角陣,其也可稱說正規(guī)代的歐氏距離?邂恥占色諸L其中弧是磯的標準差。KNN算法的優(yōu)點:思想簡單,理論成熟,既可以用來做分類也可以用來做回歸;可用于非線性分類;訓練時間復雜度為0(n);準確度高,對數(shù)據(jù)沒有假設,對outlier不敏感;缺點:計算量大;樣本不平衡問題(即有些類別的樣本數(shù)量很多,而其它樣本的數(shù)量很少);需要大量的內(nèi)存;SVM:要學會如何使用libsvm以及一些參數(shù)的調(diào)節(jié)經(jīng)驗,另外需要理清楚svm算法的一些思路:svm中的最優(yōu)分類面是對所有樣本的幾何裕量最大(為什么要選擇最大間隔分類器,請從數(shù)學角度上說明?網(wǎng)誤分次數(shù)罟J易深度學習崗位面試過程中有被問到。答案就是幾何間隔與樣本的誤分次數(shù)間存在關系: ' ,其中的分母就是樣本到分類間隔距離,分子中的R是所有樣本中的最長向量值),即:s.t. +b)>7,i=1, m經(jīng)過一系列推導可得為優(yōu)化下面原始目標:mi"說#|血『s..t.y^(wT^+b)>1.i=1,...,m下面來看看拉格朗日理論:inin^,f(w)s.t. <(}. ….用hi(w)=0,i=1....J.Tosolveit,westartbydefiningthegeneralizedLagrangiank i£(S巴P)=f(w)+工gg’(w)+力妙仏)?i=l可以將1中的優(yōu)化目標轉換為拉格朗日的形式(通過各種對偶優(yōu)化,KKD條件),最后目標函數(shù)為:£(?M)=別訓F我們只需要最小化上述目標函數(shù),其中的a為原始優(yōu)化問題中的不等式約束拉格朗日系數(shù)。對2中最后的式子分別w和b求導可得:w=52他卩⑷玄⑴.2=1=o.=o.i=l由上面第1式子可以知道,如果我們優(yōu)化出了a,則直接可以求出w了,即模型的參數(shù)搞定。而上面第2個式子可以作為后續(xù)優(yōu)化的一個約束條件。u.m幺一二工u.m幺一二工y?瀘匕禺33少〉. m叫)=£>i=LS.t.di>0,t=1m而這個函數(shù)可以用常用的優(yōu)化方法求得a,進而求得w和b。按照道理,svm簡單理論應該到此結束。不過還是要補充一點,即在預測時有:YY1YY1=力側⑴仗⑷店〉+b.i=i那個尖括號我們可以用核函數(shù)代替,這也是svm經(jīng)常和核函數(shù)扯在一起的原因。最后是關于松弛變量的引入,因此原始的目標優(yōu)化公式為:與前面的相比只是a多了個上界。SVM算法優(yōu)點:可用于線性/非線性分類,也可以用于回歸;低泛化誤差;容易解釋;計算復雜度較低;缺點:對參數(shù)和核函數(shù)的選擇比較敏感;原始的SVM只比較擅長處理二分類問題;Boosting主要以Adaboost為例,首先來看看Adaboost的流程圖,如下:從圖中可以看到,在訓練過程中我們需要訓練出多個弱分類器(圖中為3個),每個弱分類器是由不同權重的樣本(圖中為5個訓練樣本)訓練得到(其中第一個弱分類器對應輸入樣本的權值是一樣的),而每個弱分類器對最終分類結果的作用也不同,是通過加權平均輸出的,權值見上圖中三角形里面的數(shù)值。那么這些弱分類器和其對應的權值是怎樣訓練出來的呢?下面通過一個例子來簡單說明。書中(machinelearninginaction)假設的是5個訓練樣本,每個訓練樣本的維度為2,在訓練第一個分類器時5個樣本的權重各為0.2.注意這里樣本的權值和最終訓練的弱分類器組對應的權值a是不同的,樣本的權重只在訓練過程中用到,而a在訓練過程和測試過程都有用到。現(xiàn)在假設弱分類器是帶一個節(jié)點的簡單決策樹,該決策樹會選擇2個屬性(假設只有2個屬性)的一個,然后計算出這個屬性中的最佳值用來分類。Adaboost的簡單版本訓練過程如下:訓練第一個分類器,樣本的權值D為相同的均值。通過一個弱分類器,得到這5個樣本(請對應書中的例子來看,依舊是machinelearninginaction)的分類預測標簽。與給出的樣本真實標簽對比,就可能出現(xiàn)誤差(即錯誤)。如果某個樣本預測錯誤,則它對應的錯誤值為該樣本的權重,如果分類正確,則錯誤值為0.最后累加5個樣本的錯誤率之和,記為£。通過£來計算該弱分類器的權重a,公式如下:通過a來計算訓練下一個弱分類器樣本的權重D,如果對應樣本分類正確,則減小該樣本的權重,公式為:Sum(D)如果樣本分類錯誤,則增加該樣本的權重,公式為:Sum(D)循環(huán)步驟1,2,3來繼續(xù)訓練多個分類器,只是其D值不同而已。測試過程如下:輸入一個樣本到訓練好的每個弱分類中,則每個弱分類都對應一個輸出標簽,然后該標簽乘以對應的a最后求和得到值的符號即為預測標簽值。Boosting算法的優(yōu)點:低泛化誤差;容易實現(xiàn),分類準確率較高,沒有太多參數(shù)可以調(diào);缺點:對outlier比較敏感;聚類:根據(jù)聚類思想劃分:1.基于劃分的聚類:K-means,k-medoids(每一個類別中找一個樣本點來代表),CLARANS.k-means是使下面的表達式值最?。簓=EE(巧-1=1k-means算法的優(yōu)點:k-means算法是解決聚類問題的一種經(jīng)典算法,算法簡單、快速。對處理大數(shù)據(jù)集,該算法是相對可伸縮的和高效率的,因為它的復雜度大約是O(nkt),其中n是所有對象的數(shù)目,k是簇的數(shù)目,t是迭代的次數(shù)。通常k<<n。這個算法通常局部收斂。算法嘗試找出使平方誤差函數(shù)值最小的k個劃分。當簇是密集的、球狀或團狀的,且簇與簇之間區(qū)別明顯時,聚類效果較好。缺點:k-平均方法只有在簇的平均值被定義的情況下才能使用,且對有些分類屬性的數(shù)據(jù)不適合。要求用戶必須事先給出要生成的簇的數(shù)目k。對初值敏感,對于不同的初始值,可能會導致不同的聚類結果。(4) 不適合于發(fā)現(xiàn)非凸面形狀的簇,或者大小差別很大的簇。(5) 對于"噪聲"和孤立點數(shù)據(jù)敏感,少量的該類數(shù)據(jù)能夠對平均值產(chǎn)生極大影響?;趯哟蔚木垲悾鹤缘紫蛏系哪鄯椒?,比如AGNES。自上向下的分裂方法,比如DIANA?;诿芏鹊木垲悾篋BSACN,OPTICS,BIRCH(CF-Tree),CURE.基于網(wǎng)格的方法:STING,WaveCluster.基于模型的聚類:EM,SOM,COBWEB.以上這些算法的簡介可參考聚類(百度百科)。推薦系統(tǒng):推薦系統(tǒng)的實現(xiàn)主要分為兩個方面:基于內(nèi)容的實現(xiàn)和協(xié)同濾波的實現(xiàn)?;趦?nèi)容的實現(xiàn):不同人對不同電影的評分這個例子,可以看做是一個普通的回歸問題,因此每部電影都需要提前提取出一個特征向量(即x值),然后針對每個用戶建模,即每個用戶打的分值作為y值,利用這些已有的分值y和電影特征值x就可以訓練回歸模型了(最常見的就是線性回歸)。這樣就可以預測那些用戶沒有評分的電影的分數(shù)。(值得注意的是需對每個用戶都建立他自己的回歸模型)從另一個角度來看,也可以是先給定每個用戶對某種電影的喜好程度(即權值),然后學出每部電影的特征,最后采用回歸來預測那些沒有被評分的電影。當然還可以是同時優(yōu)化得到每個用戶對不同類型電影的熱愛程度以及每部電影的特征。具體可以參考Ng在coursera上的ml教程:/course/ml基于協(xié)同濾波的實現(xiàn):協(xié)同濾波(CF)可以看做是一個分類問題,也可以看做是矩陣分解問題。協(xié)同濾波主要是基于每個人自己的喜好都類似這一特征,它不依賴于個人的基本信息。比如剛剛那個電影評分的例子中,預測那些沒有被評分的電影的分數(shù)只依賴于已經(jīng)打分的那些分數(shù),并不需要去學習那些電影的特征。SVD將矩陣分解為三個矩陣的乘積,公式如下所示:Datamxn二zuzVTmxmmxnnxn

中間的矩陣sigma為對角矩陣,對角元素的值為Data矩陣的奇異值(注意奇異值和特征值是不同的),且已經(jīng)從大到小排列好了。即使去掉特征值小的那些特征,依然可以很好的重構出原始矩陣。如下圖所示:£■T£■TData u其中更深的顏色代表去掉小特征值重構時的三個矩陣。果m代表商品的個數(shù),n代表用戶的個數(shù),則U矩陣的每一行代表商品的屬性,現(xiàn)在通過降維U矩陣(取深色部分)后,每一個商品的屬性可以用更低的維度表示(假設為k維)。這樣當新來一個用戶的商品推薦向量X,則可以根據(jù)公式X'*U1*inv(S1)得到一個k維的向量,然后在V中尋找最相似的那一個用戶(相似度測量可用余弦公式等),根據(jù)這個用戶的評分來推薦(主要是推薦新用戶未打分的那些商品)。具體例子可以參考網(wǎng)頁:SVD在推薦系統(tǒng)中的應用另外關于SVD分解后每個矩陣的實際含義可以參考google吳軍的《數(shù)學之美》一書(不過個人感覺吳軍解釋UV兩個矩陣時好像弄反了,不知道大家怎樣認為)。或者參考machinelearninginaction其中的svd章節(jié)。pLSA:pLSA由LSA發(fā)展過來,而早期LSA的實現(xiàn)主要是通過SVD分解。pLSA的模型圖如下:公式中的意義如下:⑴以P佩)的概率選中文檔也;⑵以卩(和的概率選中主題匸;(3)以刑九)的概率產(chǎn)生一個單詞。我們可以.觀察到的數(shù)據(jù)就是“廠叫)對,而忑是隱含變量的聯(lián)合分布為■ Kp(&.如=P(dj)P(wjM).jp(wjldf)=工戸(吟|殊)刊琵同人k=\具體可以參考2010龍星計劃:機器學習中對應的主題模型那一講LDA:主題模型,概率圖如下:和pLSA不同的是LDA中假設了很多先驗分布,且一般參數(shù)的先驗分布都假設為Dirichlet分布,其原因是共軛分布時先驗概率和后驗概率的形式相同。GDBT:GBDT(GradientBoostingDecisionTree)又叫MART(MultipleAdditiveRegressionTree),好像在阿里內(nèi)部用得比較多(所以阿里算法崗位面試時可能會問到),它是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的輸出結果累加起來就是最終答案。它在被提出之初就和SVM一起被認為是泛化能力(generalization)較強的算法。近些年更因為被用于搜索排序的機器學習模型而引起大家關注。GBDT是回歸樹,不是分類樹。其核心就在于,每一棵樹是從之前所有樹的殘差中來學習的。為了防止過擬合,和Adaboosting—樣,也加入了boosting這一項。

關于GDBT的介紹可以可以參考:GBDT(MART)迭代決策樹入門教程|簡介Regularization:作用是(網(wǎng)易電話面試時有問到):數(shù)值上更容易求解;特征數(shù)目太大時更穩(wěn)定;控制模型的復雜度,光滑性。復雜性越小且越光滑的目標函數(shù)泛化能力越強。而加入規(guī)則項能使目標函數(shù)復雜度減小,且更光滑。減小參數(shù)空間;參數(shù)空間越小,復雜度越低。系數(shù)越小,模型越簡單,而模型越簡單則泛化能力越強(Ng宏觀上給出的解釋)??梢钥闯墒菣嘀档母咚瓜闰?。異常檢測:可以估計樣本的密度函數(shù),對于新樣本直接計算其密度,如果密度值小于某一閾值,則表示該樣本異常。而密度函數(shù)一般采用多維的高斯分布。如果樣本有n維,則每一維的特征都可以看作是符合高斯分布的,即使這些特征可視化出來不太符合高斯分布,也可以對該特征進行數(shù)學轉換讓其看起來像高斯分布,比如說x=log(x+c),x=x人(1/c)等。異常檢測的算法流程如下:AnomalydetectionalgorithmChoosefeaturesthatyouthinkmightbeindicativeofanomalousexamples.Fitparameters 打,…,血i=l5.Givennewexample^;fcompute“(〃):u 1 f?_ \2"仗)=h譏心;“嚴巧)=n礦(—篤);=i 丿=]嘗伽力Anomalyif卩(広)<e其中的E也是通過交叉驗證得到的,也就是說在進行異常檢測時,前面的p(x)的學習是用的無監(jiān)督,后面的參數(shù)£學習是用的有監(jiān)督。那么為什么不全部使用普通有監(jiān)督的方法來學習呢(即把它看做是一個普通的二分類問題)?主要是因為在異常檢測中,異常的樣本數(shù)量非常少而正常樣本數(shù)量非常多,因此不足以學習到好的異常行為模型的參數(shù),因為后面新來的異常樣本可能完全是與訓練樣本中的模式不同。另外,上面是將特征的每一維看成是相互獨立的高斯分布,其實這樣的近似并不是最好的,但是它的計算量較小,因此也常被使用。更好的方法應該是將特征擬合成多維高斯分布,這時有特征之間的相關性,但隨之計算量會變復雜,且樣本的協(xié)方差矩陣還可能出現(xiàn)不可逆的情況(主要在樣本數(shù)比特征數(shù)小,或者樣本特征維數(shù)之間有線性關系時)。上面的內(nèi)容可以參考Ng的/course/mlEM算法:有時候因為樣本的產(chǎn)生和隱含變量有關(隱含變量是不能觀察的),而求模型的參數(shù)時一般采用最大似然估計,由于含有了隱含變量,所以對似然函數(shù)參數(shù)求導是求不出來的,這時可以采用EM算法來求模型的參數(shù)的(對應模型參數(shù)個數(shù)可能有多個),EM算法一般分為2步:E步:選取一組參數(shù),求出在該參數(shù)下隱含變量的條件概率值;M步:結合E步求出的隱含變量條件概率,求出似然函數(shù)下界函數(shù)(本質上是某個期望函數(shù))的最大值。重復上面2步直至收斂。公式如下所示:(E-step)ForeachsetQ3)) 工⑴;0).(M-step)Set心辱普HQ(日))噸?(*))?M步公式中下界函數(shù)的推導過程:TOC\o"1-5"\h\z\o"CurrentDocument"乂21。呂戸(工⑴;0) =工噸力如哲宀刃 ⑴i * 曲)\o"CurrentDocument"=少嗚%?)強絆 ⑵\o"CurrentDocument"2刁護3血唱即 ⑶EM算法一個常見的例子就是GMM模型,每個樣本都有可能由k個高斯產(chǎn)生,只不過由每個高斯產(chǎn)生的概率不同而已,因此每個樣本都有對應的高斯分布(k個中的某一個),此時的隱含變量就是每個樣本對應的某個高斯分布。GMM的E步公式如下(計算每個樣本對應每個高斯的概率):

(E-step)Foreachz?j,setwj4):=卩(小)=引北⑷;血如S)更具體的計算公式為:戸仗⑹涉)戸(/戸仗⑹涉)戸(/)_引"}妙叢另)-刀1嚴仗(叫卻)=Z“Q)譏沖=')M步公式如下(計算每個高斯的比重,均值,方差這3個參數(shù)):(M-step)Updatetheparameters:(M-step)Updatetheparameters:關于EM算法可以參考Ng的cs229課程資料或者網(wǎng)易公開課:斯坦福大學公開課:機器學習課程Apriori:Apriori是關聯(lián)分析中比較早的一種方法,主要用來挖掘那些頻繁項集合。其思想是:如果一個項目集合不是頻繁集合,那么任何包含它的項目集合也一定不是頻繁集合;如果一個項目集合是頻繁集合,那么它的任何非空子集也是頻繁集合;Aprioir需要掃描項目表多遍,從一個項目開始掃描,舍去掉那些不是頻繁的項目,得到的集合稱為L,然后對L中的每個元素進行自組合,生成比上次掃描多一個項目的集合,該集合稱為C,接著又掃描去掉那些非頻繁的項目,重復…看下面這個例子:TranwEGtionnumber0Tra

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論