機(jī)器學(xué)習(xí)斯坦福大學(xué)講義

上傳人：1*** IP屬地：廣西上傳時(shí)間：2024-04-21 格式：DOCX 頁數(shù)：35 大?。?82.87KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩30頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

機(jī)器學(xué)習(xí)——斯坦福大學(xué)講義第一課機(jī)器學(xué)習(xí)的動(dòng)機(jī)與應(yīng)用工具：需正版：Matlab，免費(fèi)：Octave

定義〔ArthurSamuel1959〕：在不直接針對問題進(jìn)行編程的情況下，賦予計(jì)算機(jī)學(xué)習(xí)能力的研究領(lǐng)域。例：Arthur的下棋程序，計(jì)算走每一步獲勝的概率，最終打敗程序作者本人?！哺杏X使用決策樹思想〕定義2〔TomMitchell1998〕：一個(gè)合理的學(xué)習(xí)問題應(yīng)該這樣定義：對一個(gè)計(jì)算機(jī)程序來說，給它一個(gè)任務(wù)T和一個(gè)性能測量方法P，如果在經(jīng)驗(yàn)E的影響下，P對T的測量結(jié)果得到了改良，那么就說改程序從E中學(xué)習(xí)了。如上例：E：程序不斷和自己下棋的經(jīng)歷，T：下棋，P：和人類選手對弈的勝率課程的四大局部：1、有監(jiān)督學(xué)習(xí)〔1〕回歸問題例：收集某地房屋價(jià)格統(tǒng)計(jì)、房屋大小和價(jià)格對應(yīng)情況：畫出一條擬合曲線，就可以通過房屋大小估計(jì)價(jià)格。-有監(jiān)督學(xué)習(xí)即給出一個(gè)數(shù)據(jù)集〔正確的房屋價(jià)格及對應(yīng)大小〕-此例為回歸問題?；貧w意味著需要預(yù)測的變量是連續(xù)的〔2〕分類問題分類問題中需要處理的變量是離散的例：判斷腫瘤是惡性還是兩性-收集腫瘤大小和惡性/良性數(shù)據(jù)，大小為橫軸，是否是惡性為縱軸〔只有0,1〕畫圖-腫瘤可能由多個(gè)因素導(dǎo)致，引入年齡，大小為橫軸，年齡為縱軸，惡性以叉表示，良性以圓圈表示畫圖，分析患腫瘤的區(qū)域-還可引入更多屬性，畫在多維空間中-無限維空間如何處理？將無限維映射到內(nèi)存的算法？2、學(xué)習(xí)理論學(xué)習(xí)理論即解釋學(xué)習(xí)型算法有效的原因〔學(xué)習(xí)算法的理論根底〕尋找什么樣的算法能很好地近似不同的函數(shù)，訓(xùn)練集的規(guī)模是否適宜3、無監(jiān)督學(xué)習(xí)例：如上述腫瘤例子，圖中的點(diǎn)不知道正確答案，而是由你從中找去一定的結(jié)構(gòu)，即聚類。應(yīng)用于生物基因工程，圖像處理，計(jì)算機(jī)視覺等領(lǐng)域例：雞尾酒會(huì)問題在嘈雜的雞尾酒會(huì)中，將你感興趣的聲音提取出來運(yùn)用兩個(gè)不同位置的麥克分開來自不同位置的聲音還能應(yīng)用于文本處理等領(lǐng)域使用ICA算法，Matlab一行代碼即可解決4、強(qiáng)化學(xué)習(xí)通過決策產(chǎn)生的結(jié)論或?qū)蝈e(cuò)，故產(chǎn)生一系列的決策。例：對一個(gè)模型飛機(jī)編寫一個(gè)起飛程序，飛機(jī)在程序做了一連串錯(cuò)誤決策是才會(huì)墜毀，只要做出連續(xù)的整體還不錯(cuò)的決策，即可保持飛機(jī)正常飛行強(qiáng)化學(xué)習(xí)的根本概念：回報(bào)函數(shù)〔正反應(yīng)及負(fù)反應(yīng)〕，程序做出正確決策時(shí)給出正反應(yīng)，反之亦然。程序不斷做出決策，在不斷嘗試獲得盡量多的正反應(yīng)時(shí)，逐漸學(xué)習(xí)并做出正確決策關(guān)鍵在于要定義什么是正確決策，什么是錯(cuò)誤決策，再設(shè)計(jì)算法獲取盡量多的正反應(yīng)第二課監(jiān)督學(xué)習(xí)應(yīng)用與梯度下降本課內(nèi)容：1、線性回歸2、梯度下降3、正規(guī)方程組〔復(fù)習(xí)〕監(jiān)督學(xué)習(xí)：告訴算法每個(gè)樣本的正確答案，學(xué)習(xí)后的算法對新的輸入也能輸入正確的答案1、線性回歸例：Alvin汽車，先讓人開車，Alvin攝像頭觀看〔訓(xùn)練〕，而后實(shí)現(xiàn)自動(dòng)駕駛。本質(zhì)是一個(gè)回歸問題，汽車嘗試預(yù)測行駛方向。例：上一節(jié)課的房屋大小與價(jià)格數(shù)據(jù)集引入通用符號：m=訓(xùn)練樣本數(shù)x=輸入變量〔特征〕y=輸出變量〔目標(biāo)變量〕(x,y)–一個(gè)樣本

–第i個(gè)訓(xùn)練樣本=本例中：m：數(shù)據(jù)個(gè)數(shù)，x：房屋大小，y：價(jià)格監(jiān)督學(xué)習(xí)過程：1)將訓(xùn)練樣本提供應(yīng)學(xué)習(xí)算法2)算法生成一個(gè)輸出函數(shù)〔一般用h表示，成為假設(shè)〕3)這個(gè)函數(shù)接收輸入，輸出結(jié)果。〔本例中為，接收房屋面積，輸出房價(jià)〕將x映射到y(tǒng)。如下列圖所示：對假設(shè)進(jìn)行線性表示：通常來說，回歸問題有多個(gè)輸入特征。如上例中，我們還房屋的臥室數(shù)，即有個(gè)第二個(gè)特征。即表示大小，表示臥室數(shù)，那么可將假設(shè)寫成：。為了將公式寫整潔，定義，那么h可寫成：n=特征數(shù)目，：參數(shù)。選擇的目的，是使h(x)與y的平方差盡量小。又由于有m個(gè)訓(xùn)練樣本，需要計(jì)算每個(gè)樣本的平方差，最后為了簡化結(jié)果乘以1/2，即：我們要做的就是求：min(J())求min(J())方法：梯度下降和正規(guī)方程組2、梯度下降梯度下降是一種搜索算法，根本思想：先給出參數(shù)向量一個(gè)初始值，比方0向量；不斷改變，使得J()不斷縮小。改變的方法：梯度下降如下圖，水平坐標(biāo)軸表示，垂直坐標(biāo)表示J()一開始選擇0向量作為初始值，假設(shè)該三維圖為一個(gè)三維地表，0向量的點(diǎn)位于一座“山”上。梯度下降的方法是，你環(huán)視一周，尋找下降最快的路徑，即為梯度的方向，每次下降一小步，再環(huán)視四周，繼續(xù)下降，以此類推。結(jié)果到達(dá)一個(gè)局部最小值，如下列圖：當(dāng)然，假設(shè)初始點(diǎn)不同，那么結(jié)果可能為另一個(gè)完全不同的局部最小值，如下：說明梯度下降的結(jié)果依賴于參數(shù)初始值。梯度下降算法的數(shù)學(xué)表示：為賦值運(yùn)算符，即表示程序中的的賦值語句。每一次將減去對求偏導(dǎo)的結(jié)果，即沿最陡峭的“山坡”下降將偏導(dǎo)數(shù)展開分析：代入上式：：學(xué)習(xí)速度，即決定你下山時(shí)每一步邁多大。設(shè)的過小，收斂時(shí)間長，設(shè)的過大，可能會(huì)超過最小值〔1〕批梯度下降算法：上述為處理一個(gè)訓(xùn)練樣本的公式，將其派生成包含m個(gè)訓(xùn)練樣本的算法，循環(huán)下式直至收斂：復(fù)雜度分析：對于每個(gè)的每次迭代，即上式所示，時(shí)間為O(m)每次迭代〔走一步〕需要計(jì)算n個(gè)特征的梯度值，復(fù)雜度為O(mn)一般來說，這種二次函數(shù)的的三維圖形為一個(gè)碗狀，有一個(gè)唯一的全局最小值。其等高線為一個(gè)套一個(gè)的橢圓形，運(yùn)用梯度下降會(huì)快速收斂到圓心。梯度下降性質(zhì)：接近收斂時(shí)，每次的步子會(huì)越來越小。其原因是每次減去乘以梯度，但是梯度會(huì)越來越小，所以步子會(huì)越來越小。下列圖為使用梯度下降擬合的上例房屋大小和價(jià)格的曲線檢測是否收斂的方法：1)檢測兩次迭代的改變量，假設(shè)不再變化，那么判定收斂2)更常用的方法：檢驗(yàn)，假設(shè)不再變化，判定收斂批梯度下降算法的優(yōu)點(diǎn)是能找到局部最優(yōu)解，但是假設(shè)訓(xùn)練樣本m很大的話，其每次迭代都要計(jì)算所有樣本的偏導(dǎo)數(shù)的和，時(shí)間過慢，于是采用下述另一種梯度下降方法?！?〕隨機(jī)梯度下降算法〔增量梯度下降算法〕：每次計(jì)算不需要再遍歷所有數(shù)據(jù)，而是只需計(jì)算樣本i即可。即批梯度下降中，走一步為考慮m個(gè)樣本；隨機(jī)梯度下降中，走一步只考慮1個(gè)樣本。每次迭代復(fù)雜度為O(n)。當(dāng)m個(gè)樣本用完時(shí)，繼續(xù)循環(huán)到第1個(gè)樣本。上述使用了迭代的方法求最小值，實(shí)際上對于這類特定的最小二乘回歸問題，或者普通最小二乘問題，存在其他方法給出最小值，接下來這種方法可以給出參數(shù)向量的解析表達(dá)式，如此一來就不需要迭代求解了。3、正規(guī)方程組給定一個(gè)函數(shù)J，J是一個(gè)關(guān)于參數(shù)數(shù)組的函數(shù)，定義J的梯度關(guān)于的導(dǎo)數(shù)，它自己也是一個(gè)向量。向量大小為n+1維〔從0到n〕，如下：所以，梯度下降算法可寫成：更普遍的講，對于一個(gè)函數(shù)f，f的功能是將一個(gè)m*n的矩陣映射到實(shí)數(shù)空間上，即：假設(shè)輸入為m*n大小的矩陣A，定義f關(guān)于矩陣A的導(dǎo)數(shù)為：導(dǎo)數(shù)本身也是個(gè)矩陣，包含了f關(guān)于A的每個(gè)元素的偏導(dǎo)數(shù)。如果A是一個(gè)方陣，即n*n的矩陣，那么將A的跡定義為A的對角元素之和，即：trA即為tr(A)的簡化。一些關(guān)于跡運(yùn)算符和導(dǎo)數(shù)的定理：1)trAB=trBA2)trABC=trCAB=trBCA3)4)5)假設(shè)，tra=a6)有了上述性質(zhì)，可以開始推導(dǎo)了：定義矩陣X，稱為設(shè)計(jì)矩陣，包含了訓(xùn)練集中所有輸入的矩陣，第i行為第i組輸入數(shù)據(jù)，即：那么由于，所以可得：又因?yàn)閷τ谙蛄縵，有，那么有：由上述最后一個(gè)性質(zhì)可得：通過上述6個(gè)性質(zhì)，推導(dǎo)：倒數(shù)第三行中，運(yùn)用最后一個(gè)性質(zhì)將置為0，那么有：稱為正規(guī)方程組可得：第三課欠擬合與過擬合概念本次課程大綱：1、局部加權(quán)回歸：線性回歸的變化版本2、概率解釋：另一種可能的對于線性回歸的解釋3、Logistic回歸：基于2的一個(gè)分類算法4、感知器算法：對于3的延伸，簡要講復(fù)習(xí)：

–第i個(gè)訓(xùn)練樣本令，以參數(shù)向量為條件，對于輸入x，輸出為：n為特征數(shù)量定義本錢函數(shù)J，定義為：m為訓(xùn)練樣本通過正規(guī)方程組推導(dǎo)的結(jié)論：1、過擬合與欠擬合通常，你選擇交給學(xué)習(xí)算法處理的特征的方式對算法的工作過程有很大影響。例：上次課的例子中，用x1表示房間大小。通過線性回歸，在橫軸為房間大小，縱軸為價(jià)格的圖中，畫出擬合曲線?；貧w的曲線方程為：假設(shè)定義特征集合為：x1表示房子大小，x2表示房子大小的平方，使用相同的算法，擬合得到一個(gè)二次函數(shù)，在圖中即為一個(gè)拋物線，即：以此類推，假設(shè)訓(xùn)練集有7個(gè)數(shù)據(jù)，那么可擬合出最高6次的多項(xiàng)式，可以找到一條完美的曲線，該曲線經(jīng)過每個(gè)數(shù)據(jù)點(diǎn)。但是這樣的模型又過于復(fù)雜，擬合結(jié)果僅僅反映了所給的特定數(shù)據(jù)的特質(zhì)，不具有通過房屋大小來估計(jì)房價(jià)的普遍性。而線性回歸的結(jié)果可能無法捕獲所有訓(xùn)練集的信息。所以，對于一個(gè)監(jiān)督學(xué)習(xí)模型來說，過小的特征集合使得模型過于簡單，過大的特征集合使得模型過于復(fù)雜。對于特征集過小的情況，稱之為欠擬合〔underfitting〕；對于特征集過大的情況，稱之為過擬合〔overfitting〕解決此類學(xué)習(xí)問題的方法：1)特征選擇算法：一類自動(dòng)化算法，在這類回歸問題中選擇用到的特征2)非參數(shù)學(xué)習(xí)算法：緩解對于選取特征的需求，引出局部加權(quán)回歸參數(shù)學(xué)習(xí)算法〔parametriclearningalgorithm〕定義：參數(shù)學(xué)習(xí)算法是一類有固定數(shù)目參數(shù)，以用來進(jìn)行數(shù)據(jù)擬合的算法。設(shè)該固定的參數(shù)集合為。線性回歸即使參數(shù)學(xué)習(xí)算法的一個(gè)例子非參數(shù)學(xué)習(xí)算法〔Non-parametriclearningalgorithm〕定義：一個(gè)參數(shù)數(shù)量會(huì)隨m〔訓(xùn)練集大小〕增長的算法。通常定義為參數(shù)數(shù)量雖m線性增長。換句話說，就是算法所需要的東西會(huì)隨著訓(xùn)練集合線性增長，算法的維持是基于整個(gè)訓(xùn)練集合的，即使是在學(xué)習(xí)以后。2、局部加權(quán)回歸〔LocallyWeightedRegression〕一種特定的非參數(shù)學(xué)習(xí)算法。也稱作Loess。算法思想：假設(shè)對于一個(gè)確定的查詢點(diǎn)x，在x處對你的假設(shè)h(x)求值。對于線性回歸，步驟如下：1)擬合出，使最小2)返回對于局部加權(quán)回歸，當(dāng)要處理x時(shí)：1)檢查數(shù)據(jù)集合，并且只考慮位于x周圍的固定區(qū)域內(nèi)的數(shù)據(jù)點(diǎn)2)對這個(gè)區(qū)域內(nèi)的點(diǎn)做線性回歸，擬合出一條直線3)根據(jù)這條擬合直線對x的輸出，作為算法返回的結(jié)果用數(shù)學(xué)語言描述即：1)擬合出，使最小2)w為權(quán)值，有很多可能的選擇，比方：-其意義在于，所選取的x(i)越接近x，相應(yīng)的w(i)越接近1；x(i)越遠(yuǎn)離x，w(i)越接近0。直觀的說，就是離得近的點(diǎn)權(quán)值大，離得遠(yuǎn)的點(diǎn)權(quán)值小。-這個(gè)衰減函數(shù)比擬具有普遍意義，雖然它的曲線是鐘形的，但不是高斯分布。-被稱作波長函數(shù)，它控制了權(quán)值隨距離下降的速率。它越小，鐘形越窄，w衰減的很快；它越大，衰減的就越慢。3)返回總結(jié)：對于局部加權(quán)回歸，每進(jìn)行一次預(yù)測，都要重新擬合一條曲線。但如果沿著x軸對每個(gè)點(diǎn)都進(jìn)行同樣的操作，你會(huì)得到對于這個(gè)數(shù)據(jù)集的局部加權(quán)回歸預(yù)測結(jié)果，追蹤到一條非線性曲線。

*局部加權(quán)回歸的問題：由于每次進(jìn)行預(yù)測都要根據(jù)訓(xùn)練集擬合曲線，假設(shè)訓(xùn)練集太大，每次進(jìn)行預(yù)測的用到的訓(xùn)練集就會(huì)變得很大，有方法可以讓局部加權(quán)回歸對于大型數(shù)據(jù)集更高效，詳情參見AndrewMoore的關(guān)于KD-tree的工作。3、概率解釋概率解釋所解決的問題：在線性回歸中，為什么選擇最小二乘作為計(jì)算參數(shù)的指標(biāo)，使得假設(shè)預(yù)測出的值和真正y值之間面積的平方最小化？我們提供一組假設(shè)，證明在這組假設(shè)下最小二乘是有意義的，但是這組假設(shè)不唯一，還有其他很多方法可以證明其有意義。〔1〕假設(shè)1：假設(shè)輸入與輸出為線性函數(shù)關(guān)系，表示為：其中，為誤差項(xiàng)，這個(gè)參數(shù)可以理解為對未建模效應(yīng)的捕獲，如果還有其他特征，這個(gè)誤差項(xiàng)表示了一種我們沒有捕獲的特征，或者看成一種隨機(jī)的噪聲。假設(shè)服從某個(gè)概率分布，如高斯分布〔正態(tài)分布〕：，表示一個(gè)均值是0，方差是的高斯分布。高斯分布的概率密度函數(shù)：根據(jù)上述兩式可得：即，在給定了特征與參數(shù)之后，輸出是一個(gè)服從高斯分布的隨機(jī)變量,可描述為：*為什么選取高斯分布？1)便于數(shù)學(xué)處理2)對絕大多數(shù)問題，如果使用了線性回歸模型，然后測量誤差分布，通常會(huì)發(fā)現(xiàn)誤差是高斯分布的。3)中心極限定律：假設(shè)干獨(dú)立的隨機(jī)變量之和趨向于服從高斯分布。假設(shè)誤差有多個(gè)因素導(dǎo)致，這些因素造成的效應(yīng)的總和接近服從高斯分布。注意：并不是一個(gè)隨機(jī)變量，而是一個(gè)嘗試估計(jì)的值，就是說它本身是一個(gè)常量，只不過我們不知道它的值，所以上式中用分號表示。分號應(yīng)讀作“以…作為參數(shù)”，上式讀作“給定x(i)以為參數(shù)的y(i)的概率服從高斯分布”。假設(shè)每個(gè)為IID〔independentlyandidenticallydistributed〕獨(dú)立同分布即誤差項(xiàng)彼此之間是獨(dú)立的，并且他們服從均值和方差相同的高斯分布〔2〕假設(shè)2：設(shè)的似然性為〔即給定x(i)以為參數(shù)的y(i)的概率〕：由于是獨(dú)立同分布，所以上式可寫成所有分布的乘積：〔3〕假設(shè)3：極大似然估計(jì)：選取使似然性最大化〔數(shù)據(jù)出現(xiàn)的可能性盡可能大〕定義對數(shù)似然函數(shù)為：上式兩個(gè)加項(xiàng)，前一項(xiàng)為常數(shù)。所以，使似然函數(shù)最大，就是使后一項(xiàng)最小，即：這一項(xiàng)就是之前的，由此得證，即之前的最小二乘法計(jì)算參數(shù)，實(shí)際上是假設(shè)了誤差項(xiàng)滿足高斯分布，且獨(dú)立同分布的情況，使似然最大化來計(jì)算參數(shù)。注意：高斯分布的方差對最終結(jié)果沒有影響，由于方差一定為正數(shù)，所以無論取什么值，最后結(jié)果都相同。這個(gè)性質(zhì)會(huì)在下節(jié)課講到。4、Logistic回歸這是我們要學(xué)習(xí)的第一個(gè)分類算法。之前的回歸問題嘗試預(yù)測的變量y是連續(xù)變量，在這個(gè)分類算法中，變量y是離散的，y只取{0,1}兩個(gè)值。一般這種離散二值分類問題用線性回歸效果不好。比方x<=3，y=0；x>3，y=1，那么當(dāng)x>3的樣本占得比例很大是，線性回歸的直線斜率就會(huì)越來越小，y=0.5時(shí)對應(yīng)的x判決點(diǎn)就會(huì)比3大，造成預(yù)測錯(cuò)誤。假設(shè)y取值{0,1}，首先改變假設(shè)的形式，使假設(shè)得到的值總在[0,1]之間，即：所以，選取如下函數(shù)：其中：g函數(shù)一般被稱為logistic函數(shù)，圖像如下：z很小時(shí)，g(z)趨于0，z很大時(shí)，g(z)趨于1，z=0時(shí)，g(z)=0.5對假設(shè)的概率解釋：假設(shè)給定x以為參數(shù)的y=1和y=0的概率：可以簡寫成：參數(shù)的似然性：求對數(shù)似然性：為了使似然性最大化，類似于線性回歸使用梯度下降的方法，求對數(shù)似然性對的偏導(dǎo)，即：因?yàn)榍笞畲笾?，此時(shí)為梯度上升。偏導(dǎo)數(shù)展開：那么：即類似上節(jié)課的隨機(jī)梯度上升算法，形式上和線性回歸是相同的，只是符號相反，為logistic函數(shù)，但實(shí)質(zhì)上和線性回歸是不同的學(xué)習(xí)算法。5、感知器算法在logistic方法中，g(z)會(huì)生成[0,1]之間的小數(shù)，但如何是g(z)只生成0或1？所以，感知器算法將g(z)定義如下：同樣令，和logistic回歸的梯度上升算法類似，學(xué)習(xí)規(guī)那么如下：盡管看起來和之前的學(xué)習(xí)算法類似，但感知器算法是一種非常簡便的學(xué)習(xí)算法，臨界值和輸出只能是0或1，是比logistic更簡單的算法。后續(xù)講到學(xué)習(xí)理論是，會(huì)將其作為根本的構(gòu)造步驟。第四課牛頓方法本次課程大綱：1、牛頓方法：對Logistic模型進(jìn)行擬合2、指數(shù)分布族3、廣義線性模型〔GLM〕：聯(lián)系Logistic回歸和最小二乘模型復(fù)習(xí)：Logistic回歸：分類算法假設(shè)給定x以為參數(shù)的y=1和y=0的概率：求對數(shù)似然性：對其求偏導(dǎo)數(shù)，應(yīng)用梯度上升方法，求得：本次課程介紹的牛頓方法是一種比梯度上升快很多的方法，用于擬合Logistic回歸1、牛頓方法假設(shè)有函數(shù)，需要找使=0的步驟：1)給出一個(gè)的初始值2)對求導(dǎo)，求導(dǎo)數(shù)為0時(shí)的值〔就是求切線與x軸交點(diǎn)〕3)重復(fù)步驟2因?yàn)樵擖c(diǎn)的導(dǎo)數(shù)值即為切線斜率，而斜率=該點(diǎn)y軸的值/該點(diǎn)x軸的變化值，所以每次的變化值：*使用這個(gè)方法需要f滿足一定條件，適用于Logistic回歸和廣義線性模型*一般初始化為0應(yīng)用于Logistic回歸：求對數(shù)似然的最大值，即求為0時(shí)的，根據(jù)上述推論，更新規(guī)那么如下：牛頓方法的收斂速度：二次收斂每次迭代使解的有效數(shù)字的數(shù)目加倍：假設(shè)當(dāng)前誤差是0.1，一次迭代后，誤差為0.001，再一次迭代，誤差為0.0000001。該性質(zhì)當(dāng)解距離最優(yōu)質(zhì)的足夠近才會(huì)發(fā)現(xiàn)。牛頓方法的一般化：是一個(gè)向量而不是一個(gè)數(shù)字，一般化的公式為：是目標(biāo)函數(shù)的梯度，H為Hessian矩陣，規(guī)模是n*n，n為特征的數(shù)量，它的每個(gè)元素表示一個(gè)二階導(dǎo)數(shù)：上述公式的意義就是，用一個(gè)一階導(dǎo)數(shù)的向量乘以一個(gè)二階導(dǎo)數(shù)矩陣的逆優(yōu)點(diǎn)：假設(shè)特征數(shù)和樣本數(shù)合理，牛頓方法的迭代次數(shù)比梯度上升要少得多缺點(diǎn)：每次迭代都要重新計(jì)算Hessian矩陣，如果特征很多，那么H矩陣計(jì)算代價(jià)很大2、指數(shù)分布族回憶學(xué)過的兩種算法：對于：假設(shè)y屬于實(shí)數(shù)，滿足高斯分布，得到基于最小二乘法的線性回歸；假設(shè)y取{0,1}，滿足伯努利分布，得到Logistic回歸。問題：如Logistic回歸中，為何選擇sigmoid函數(shù)？sigmoid函數(shù)是最自然的默認(rèn)選擇。接下來，會(huì)以這兩個(gè)算法為例，說明它們都是廣義線性模型的特例?？紤]上述兩個(gè)分布，伯努利分布和高斯分布：1)伯努利分布設(shè)有一組只能取0或1的數(shù)據(jù)，用伯努利隨機(jī)變量對其建模：，那么，改變參數(shù)φ，y=1這一事件就會(huì)有不同概率，會(huì)得到一類概率分布〔而非固定的〕。2)高斯分布，改變參數(shù)μ，也會(huì)得到不同的高斯分布，即一類概率分布。上述這些分布都是一類分布的特例，這類分布稱為指數(shù)分布族。指數(shù)分布族的定義：假設(shè)一類概率分布可以寫成如下形式，那么它就屬于指數(shù)分布族：η-自然參數(shù)，通常是一個(gè)實(shí)數(shù)T(y)–充分統(tǒng)計(jì)量，通常，T(y)=y，實(shí)際上是一個(gè)概率分布的充分統(tǒng)計(jì)量〔統(tǒng)計(jì)學(xué)知識〕對于給定的a，b，T三個(gè)函數(shù)，上式定義了一個(gè)以η為參數(shù)的概率分布集合，即改變?chǔ)强梢缘玫讲煌母怕史植肌ＷC明伯努利分布是指數(shù)分布族：可知：由上式可見，η=log(φ/(1-φ))，可解出：φ=1/(1+exp(-η))，發(fā)現(xiàn)得到logistic函數(shù)〔之后討論其原因〕，那么：證明高斯分布是指數(shù)分布族：，設(shè)方差為1〔方差并不影響結(jié)果，僅僅是變量y的比例因子〕這種情況下高斯密度函數(shù)為：可得：*指數(shù)分布族包括：高斯分布〔正態(tài)分布〕，多元正態(tài)分布；伯努利分布〔01問題建?！常囗?xiàng)式分布〔對k個(gè)結(jié)果的事件建?！常徊此煞植肌矊τ?jì)數(shù)過程建?！常毁ゑR分布，指數(shù)分布〔對實(shí)數(shù)的間隔問題建?！常沪路植?，Dirichlet分布〔對小數(shù)建模〕；Wishart分布〔協(xié)方差矩陣的分布〕…3、廣義線性模型GLM選定了一個(gè)指數(shù)分布族后，怎樣來推導(dǎo)出一個(gè)GLM呢？假設(shè)：〔1〕，即假設(shè)試圖預(yù)測的變量y在給定x，以θ作為參數(shù)的條件概率，屬于以η作為自然參數(shù)的指數(shù)分布族例：假設(shè)要統(tǒng)計(jì)網(wǎng)站點(diǎn)擊量y，用泊松分布建模〔2〕給定x，目標(biāo)是求出以x為條件的T(y)的期望E[T(y)|x]，即讓學(xué)習(xí)算法輸出h(x)=E[T(y)|x]〔3〕，即自然參數(shù)和輸入特征x之間線性相關(guān)，關(guān)系由θ決定。僅當(dāng)η是實(shí)數(shù)時(shí)才有意義。假設(shè)η是一個(gè)向量，推導(dǎo)伯努利分布的GLM：，伯努利分布屬于指數(shù)分布族對給定的x，θ，學(xué)習(xí)算法進(jìn)行一次預(yù)測的輸出：得到logistic回歸算法。正那么響應(yīng)函數(shù)：g(η)=E[y;η]，將自然參數(shù)η和y的期望聯(lián)系起來正那么關(guān)聯(lián)函數(shù)：g-1推導(dǎo)多項(xiàng)式分布的GLM：多項(xiàng)式分布是在k個(gè)可能取值上的分布，即y∈{1,…,k}，如將收到的郵件分成k類，診斷某病人為k種病中的一種等問題?！?〕將多項(xiàng)式分布寫成指數(shù)分布族的形式：設(shè)多項(xiàng)式分布的參數(shù)：，且，φi表示第i個(gè)取值的概率分布，最后一個(gè)參數(shù)可以由前k-1個(gè)推導(dǎo)出，所以只將前k-1個(gè)視為參數(shù)。多項(xiàng)式分布是少數(shù)幾個(gè)T(y)!=y的分布，T(1)~T(k)都定義成一個(gè)k-1維的列向量，表示為：這樣定義T(y)是為了將多項(xiàng)式分布寫成指數(shù)分布族形式。

*定義符號：指示函數(shù)，1{.}1{True}=1,1{False}=0，即大括號內(nèi)命題為真，值為1,；否那么為0。例：1{2=3}=0,1{1+1=2}=1用T(y)i表示T(y)的第i個(gè)元素，那么T(y)i=1{y=i}根據(jù)參數(shù)φ的意義〔φi表示第i個(gè)取值的概率分布〕，可推出：可得：證明多項(xiàng)式分布式指數(shù)分布族。再用η表示φ：〔2〕根據(jù)上述假設(shè)〔3〕中自然參數(shù)和輸入x的線性關(guān)系，可求得：〔3〕根據(jù)上述假設(shè)〔2〕中的輸出h(x)=E[T(y)|x]，可求得：稱這種回歸算法為softmax回歸，是logistic回歸的推廣。

Softmax回歸的訓(xùn)練方法和logistic相似，通過極大似然估計(jì)找到參數(shù)θ，其對數(shù)似然性為：再通過梯度上升或牛頓方法找對數(shù)似然性的最大值，即可求出參數(shù)θ。第五課生成學(xué)習(xí)算法本次課程大綱：1、生成學(xué)習(xí)算法2、高斯判別分析〔GDA，GaussianDiscriminantAnalysis〕-高斯分布〔簡要〕-比照生成學(xué)習(xí)算法&判別學(xué)習(xí)算法〔簡要〕3、樸素貝葉斯4、Laplace平滑復(fù)習(xí)：分類算法：給出一個(gè)訓(xùn)練集，假設(shè)使用logistic回歸算法，其工作方式是觀察這組數(shù)據(jù)，嘗試找到一條直線將圖中不同的類分開，如下列圖。之前講的都是判別學(xué)習(xí)算法，本課介紹一種不同的算法：生成學(xué)習(xí)算法。1、生成學(xué)習(xí)算法例：對惡性腫瘤和良性腫瘤的分類除了尋找一個(gè)將兩類數(shù)據(jù)區(qū)分的直線外，還可以用如下方法：1)遍歷訓(xùn)練集，找到所有惡性腫瘤樣本，直接對惡性腫瘤的特征建模；同理，對良性腫瘤建模。2)對一個(gè)新的樣本分類時(shí)，即有一個(gè)新的病人時(shí)，要判斷其是惡性還是良性，用該樣本分別匹配惡性腫瘤模型和良性腫瘤模型，看哪個(gè)模型匹配的更好，預(yù)測屬于惡性還是良性。這種方法就是生成學(xué)習(xí)算法。兩種學(xué)習(xí)算法的定義：1)判別學(xué)習(xí)算法：-直接學(xué)習(xí)p(y|x)，即給定輸入特征，輸出所屬的類-或?qū)W習(xí)得到一個(gè)假設(shè)hθ(x)，直接輸出0或12)生成學(xué)習(xí)算法：-對p(x|y)進(jìn)行建模，p(x|y)表示在給定所屬的類的情況下，顯示某種特征的概率。處于技術(shù)上的考慮，也會(huì)對p(y)進(jìn)行建模。-p(x|y)中的x表示一個(gè)生成模型對樣本特征建立概率模型，y表示在給定樣本所屬類的條件下例：在上例中，假定一個(gè)腫瘤情況y為惡性和良性，生成模型會(huì)對該條件下的腫瘤病癥x的概率分布進(jìn)行建模-對p(x|y)和p(y)建模后，根據(jù)貝葉斯公式p(y|x)=p(xy)/p(x)=p(x|y)p(y)/p(x)，可以計(jì)算：p(y=1|x)=p(x|y=1)p(y=1)/p(x)，其中，p(x)=p(x|y=0)p(y=0)+p(x|y=1)p(y=1)2、高斯判別分析GDAGDA是一種生成學(xué)習(xí)算法。GDA的假設(shè)條件：1)假設(shè)輸入特征x∈Rn，并且是連續(xù)值。2)假設(shè)p(x|y)滿足高斯分布*高斯分布根底知識：設(shè)隨機(jī)變量z滿足多元高斯分布，z~N(μ,∑)，均值向量為μ，協(xié)方差矩陣為∑。其概率密度函數(shù)為：多元高斯分布為一元高斯分布的推廣，也是鐘形曲線，z是一個(gè)高維向量。多元高斯分布注意兩個(gè)參數(shù)即可：-均值向量μ-協(xié)方差矩陣∑=E[(Z-E[Z])(Z-E[Z])T]=E[(x-μ)(x-μ)T]多元高斯分布圖：左圖：μ=0，∑=I〔單位矩陣〕中圖：μ=0，∑=0.6I，圖形變陡峭右圖：μ=0，∑=2I，圖形變扁平三圖中μ=0，∑如下：可見增加矩陣對角元素的值，即變量間增加相關(guān)性，高斯曲面會(huì)沿z1=z2〔兩個(gè)水平軸〕方向趨于扁平。其水平面投影圖如下：即增加∑對角線的元素，圖形會(huì)沿45°角，偏轉(zhuǎn)成一個(gè)橢圓形狀。假設(shè)∑對角線元素為負(fù)，圖形如下：∑分別為：不同μ的圖形如下：μ分別為：μ決定分布曲線中心的位置。GDA擬合：給出訓(xùn)練樣本如下列圖所示：-觀察正樣本〔圖中的x〕，擬合正樣本的高斯分布，如圖中左下方的圓，表示p(x|y=1)-觀察負(fù)樣本〔圖中的圈〕，擬合負(fù)樣本的高斯分布，如圖中右上方的圓，表示p(x|y=0)-通過這兩個(gè)高斯分布的密度函數(shù)，定義出兩個(gè)類別的分隔器，即圖中的直線-這條分隔器直線比之前的logistic擬合的直線要復(fù)雜GDA模型：寫出其概率分布：參數(shù)包括φ，μ0，μ1，∑，對數(shù)似然性為：由于第一個(gè)等式為xy的聯(lián)合概率，將這個(gè)模型命名為聯(lián)合似然性〔Jointlikelihood〕。*比照logistic回歸中的對數(shù)似然性：由于計(jì)算的是y在x條件下的概率，將此模型命名為條件似然性〔conditionallikelihood〕通過對上面對數(shù)似然性求極大似然估計(jì)，參數(shù)的結(jié)果為：φ：訓(xùn)練樣本中標(biāo)簽為1的樣本所占的比例μ0：分母為標(biāo)簽為0的樣本數(shù)，分子是對標(biāo)簽為0的樣本的x(i)求和，結(jié)合起來就是對對標(biāo)簽為0的樣本的x(i)求均值，與高斯分布參數(shù)μ為均值的意義相符μ1：與μ0同理，標(biāo)簽改為1GDA預(yù)測：預(yù)測結(jié)果應(yīng)該是給定x的情況下最可能的y，等式左邊的運(yùn)算符argmax表示計(jì)算p(y|x)最大時(shí)的y值，預(yù)測公式如下：因?yàn)閜(x)獨(dú)立于y，所以可以忽略p(x)。

*如果p(y)為均勻分布，即每種類型的概率都相同，那么也可以忽略p(y)，要求的就是使p(x|y)最大的那個(gè)y。不過這種情況并不常見。GDA和logistic回歸的聯(lián)系：例：假設(shè)有一個(gè)一維訓(xùn)練集，包含一些正樣本和負(fù)樣本，如下列圖x軸的叉和圈，設(shè)叉為0，圈為1，用GDA對兩類樣本分別擬合高斯概率密度函數(shù)p(x|y=0)和p(x|y=1)，如下列圖的兩個(gè)鐘形曲線。沿x軸遍歷樣本，在x軸上方畫出其相應(yīng)的p(y=1|x)。如選x軸靠左的點(diǎn)，那么它屬于1的概率幾乎為0，p(y=1|x)=0，兩條鐘形曲線交點(diǎn)處，屬于0或1的概率相同，p(y=1|x)=0.5，x軸靠右的點(diǎn)，輸出1的概率幾乎為1，p(y=1|x)=1。最終發(fā)現(xiàn)，得到的曲線和sigmoid函數(shù)曲線很相似。簡單來講，就是當(dāng)使用GDA模型時(shí)，p(x|y)屬于高斯分布，計(jì)算p(y|x)時(shí)，幾乎能得到和logistic回歸中使用的sigmoid函數(shù)一樣的函數(shù)。但實(shí)際上還是存在本質(zhì)區(qū)別的。使用生成學(xué)習(xí)算法的優(yōu)缺點(diǎn)：給出兩個(gè)推論：推論1：x|y服從高斯分布

p(y=1|x)是logistic函數(shù)該推論在反方向不成立。推論2：x|y=1~Poisson(λ1)，x|y=0~Poisson(λ0)

p(y=1|x)是logistic函數(shù)推論2的推廣，即x|y的分布屬于指數(shù)分布族，均可推出結(jié)論。顯示了logistic回歸在建模假設(shè)選擇方面的魯棒性。優(yōu)點(diǎn)：推論1反方向不成立，因?yàn)閤|y服從高斯分布這個(gè)假設(shè)更強(qiáng)，GDA模型做出了一個(gè)更強(qiáng)的假設(shè)，所以，假設(shè)x|y服從或近似服從高斯分布，那么GDA會(huì)比logistic回歸更好，因?yàn)樗昧烁嚓P(guān)于數(shù)據(jù)的信息，即算法知道數(shù)據(jù)服從高斯分布。缺點(diǎn)：如果不確定x|y的分布情況，那么判別算法logistic回歸性能更好。例如，預(yù)先假設(shè)數(shù)據(jù)服從高斯分布，但是實(shí)際上數(shù)據(jù)服從泊松分布，根據(jù)推論2，logistic回歸仍能獲得不錯(cuò)的效果。生成學(xué)習(xí)算法比判決學(xué)習(xí)算法需要更少的數(shù)據(jù)。如GDA的假設(shè)較強(qiáng)，所以用較少的數(shù)據(jù)能擬合出不錯(cuò)的模型。而logistic回歸的假設(shè)較弱，對模型的假設(shè)更為健壯，擬合數(shù)據(jù)需要更多的樣本。3、樸素貝葉斯另一種生成學(xué)習(xí)算法。例：垃圾郵件分類實(shí)現(xiàn)一個(gè)垃圾郵件分類器，以郵件輸入流作為輸入，確定郵件是否為垃圾郵件。輸出y為{0,1}，1為垃圾郵件，0為非垃圾郵件。首先，要將郵件文本表示為一個(gè)輸入向量x，設(shè)一個(gè)含有n個(gè)詞的字典，那么向量x的第i個(gè)元素{0,1}表示字典中的第i個(gè)詞是否出現(xiàn)在郵件中，x例如如下：要對p(x|y)建模，x是一個(gè)n維的{0,1}向量，假設(shè)n=50000，那么x有2^50000種可能的值，一種方法是用多項(xiàng)式分布進(jìn)行建模〔伯努利分布對01建模，多項(xiàng)式分布對k個(gè)結(jié)果建模〕，這樣就需要2^50000-1個(gè)參數(shù)，可見參數(shù)過多，下面介紹樸素貝葉斯的方法。假設(shè)xi在給定y的時(shí)候是條件獨(dú)立的，那么x在給定y下的概率可簡化為：這個(gè)假設(shè)直觀理解為，一封郵件是不是垃圾郵件(y)，以及一些詞是否出現(xiàn)在郵件中，這些并不會(huì)幫助你預(yù)測其他的詞是否出現(xiàn)在郵件中。雖然這個(gè)假設(shè)不是完全正確的，但是樸素貝葉斯依然應(yīng)用于對郵件進(jìn)行分類，對網(wǎng)頁進(jìn)行分類等用途。

*對于樸素貝葉斯，我的理解為：通過指定一些垃圾郵件的關(guān)鍵詞來計(jì)算某個(gè)郵件是垃圾郵件的概率。具體講，就是給定字典后，給出每個(gè)詞的p(xi|y=1)，即這個(gè)詞xi在垃圾郵件中出現(xiàn)的概率，然后對于一個(gè)郵件，將郵件所有詞的p(xi|y)的相乘，就是郵件為垃圾郵件的概率。再簡化一些，規(guī)定p(xi|y=1)={0,1}，即劃定一些關(guān)鍵詞，這些關(guān)鍵詞在郵件中出現(xiàn)的概率就是這封郵件為垃圾郵件的概率。模型參數(shù)包括：Φi|y=1=p(xi=1|y=1)Φi|y=0=p(xi=1|y=0)Φy=p(y=1)聯(lián)合似然性：求得參數(shù)結(jié)果：Φi|y=1的分子為標(biāo)記為1的郵件中出現(xiàn)詞j的郵件數(shù)目和，分母為垃圾郵件數(shù)，總體意義就是訓(xùn)練集中出現(xiàn)詞j的垃圾郵件在垃圾郵件中的比例。Φi|y=0就是出現(xiàn)詞j的非垃圾郵件在非垃圾郵件中的比例。Φy就是垃圾郵件在所有郵件中的比例。求出上述參數(shù)，就知道了p(x|y)和p(y)，用伯努利分布對p(y)建模，用上式中p(xi|y)的乘積對p(x|y)建模，通過貝葉斯公式就可求得p(y|x)

*實(shí)際操作中，例如將最近兩個(gè)月的郵件都標(biāo)記上“垃圾”或“非垃圾”，然后得到(x(1),y(1))…(x(m),y(m))，x(i)為詞向量，標(biāo)記出現(xiàn)在第i個(gè)郵件中的詞，y(i)為第i個(gè)郵件是否是垃圾郵件。用郵件中的所有出現(xiàn)的詞構(gòu)造字典，或者選擇出現(xiàn)次數(shù)k次以上的詞構(gòu)造字典。樸素貝葉斯的問題：設(shè)有一封新郵件中出現(xiàn)一個(gè)字典沒有的新詞，設(shè)其標(biāo)號為30000，因?yàn)檫@個(gè)詞在垃圾郵件和非垃圾郵件中都不存在，那么p(x3000|y=1)=0，p(x30000|y=0)=0，計(jì)算p(y=1|x)如下：p(y=1|x)=p(x|y=1)p(y=1)/(p(x|y=1)p(y=1)+p(x|y=0)p(y=0))由于p(x|y=1)=p(x|y=0)=0〔p(x30000|y=1)=p(x30000|y=0)=0，那么乘積為0〕，那么p(y=1|x)=0/0，那么結(jié)果是未定義的。其問題在于，統(tǒng)計(jì)上認(rèn)為p(x30000|y)=0是不合理的。即在過去兩個(gè)月郵件里未出現(xiàn)過這個(gè)詞，就認(rèn)為其出現(xiàn)概率為0，并不合理。概括來講，即之前沒有見過的事件，就認(rèn)為這些事件不會(huì)發(fā)生，是不合理的。通過Laplace平滑解決這個(gè)問題。4、Laplace平滑根據(jù)極大似然估計(jì)，p(y=1)=#”1”s/(#”0”s+#”1”s)，即y為1的概率是樣本中1的數(shù)目在所有樣本中的比例。Laplace平滑就是將分子分母的每一項(xiàng)都加1,，即：p(y=1)=(#”1”s+1)

/(#”0”s+1+#”1”s+1)例：給出一支球隊(duì)5場比賽的結(jié)果作為樣本，5場比賽都輸了，記為0，那么要預(yù)測第六場比賽的勝率，按照樸素貝葉斯為：p(y=1)=0/(5+0)=0，即樣本中沒有勝場，那么勝率為0，顯然這是不合理的。按照Laplace平滑處理，p(y=1)=0+1/(5+1+0+1)=1/7，并不為0，且隨著負(fù)場次的增加，p(y=1)會(huì)一直減小，但不會(huì)為0。更一般的，假設(shè)y取k中可能的值，比方嘗試估計(jì)多項(xiàng)式分布的參數(shù)，得到下式：即值為j的樣本所占比例，對其用Laplace平滑如下式：對于樸素貝葉斯，得到的結(jié)果為：在分子上加1，分母上加2，解決了0概率的問題。第六課樸素貝葉斯本次課程大綱：1、樸素貝葉斯-樸素貝葉斯事件模型2、神經(jīng)網(wǎng)絡(luò)〔簡要〕3、支撐向量機(jī)〔SVM〕鋪墊–最大間隔分類器復(fù)習(xí)：1、樸素貝葉斯一種生成學(xué)習(xí)算法，對p(x|y)建模。例：垃圾郵件分類以郵件輸入流作為輸入，輸出y為{0,1}，1為垃圾郵件，0為非垃圾郵件。將郵件文本表示為一個(gè)輸入向量x1〕xi∈{0,1}，表示字典中的第i個(gè)詞是否出現(xiàn)在郵件中2〕x長度為n，n為字典的詞數(shù)3〕該模型稱為多元伯努利事件模型假設(shè)xi在給定y的時(shí)候是條件獨(dú)立的，那么x在給定y下的概率可簡化為：根據(jù)樸素貝葉斯公式，求p(y|x)最大時(shí)的y：算法變化版本：1〕讓xi取多個(gè)值，xi∈{1,2,…,k}，類似上式有：p(x|y)=∏p(xi|y)，但是p(xi|y)變成多項(xiàng)式分布，而不是伯努利分布。例：估計(jì)房屋面積預(yù)測房屋能否被賣掉，將房屋面積分成幾個(gè)離散區(qū)間，如0-,1000為xi=1,1000-1500為xi=2，1500-2000為xi=3,2000以上為xi=4

2〕如上例處理郵件〔文本〕中，x向量記錄每個(gè)詞出現(xiàn)的次數(shù)〔而不是是否出現(xiàn)〕多項(xiàng)式事件模型接上例，給出一封郵件，將它表示成特征向量：，ni表示郵件中詞的數(shù)量，xj是個(gè)到詞典的索引，表示該詞在詞典的位置。如郵件中有300個(gè)詞，那么特征向量x(i)長度為300，假設(shè)詞典有50000個(gè)詞，每個(gè)元素xj的取值范圍為{1,2,…,50000}那么生成模型的聯(lián)合概率p(xy)為：n為郵件長度上式理解：郵件內(nèi)容滿足一些概率分布，有一些隨機(jī)分布在生成這些郵件。過程為：首先確定y，即是否為垃圾郵件，決定一個(gè)人是否向你發(fā)送垃圾郵件后，遍歷郵件的300個(gè)詞，按照某種概率分布生成一些詞，基于他們是否向你發(fā)送垃圾郵件模型參數(shù)：表示某人決定向你發(fā)送垃圾郵件(y=1)時(shí)，選擇詞k的概率，類似有：給出訓(xùn)練集后，求極大似然估計(jì)：得到：上面第一個(gè)式子，分子的意思是，對所有標(biāo)簽為1的郵件求和，之后對垃圾郵件中的詞k求和，所以分子實(shí)際上就是訓(xùn)練集中所有垃圾郵件中詞k出現(xiàn)的次數(shù)。分母是訓(xùn)練集中所有垃圾郵件的長度。比值的含義就是所有垃圾郵件中，詞k占的比例。表示生成垃圾郵件時(shí)選擇詞k的概率。應(yīng)用Laplace平滑，分子加1，分母加總詞數(shù)〔字典大小，xi可能取值的數(shù)目〕：事實(shí)上，多項(xiàng)式事件模型比之前的模型要好，可能是因?yàn)榭紤]了詞出現(xiàn)的次數(shù)這個(gè)因素。但此問題仍存在爭論。非線性分類算法例：logistic回歸中，假設(shè)值小于0.5預(yù)測0，大于0.5預(yù)測1。即給定一個(gè)訓(xùn)練集，logistic回歸會(huì)找到一條直線〔牛頓方法或梯度下降〕，將正負(fù)樣本合理分開。但有時(shí)數(shù)據(jù)不能被一條直線分開，需要一種算法，學(xué)習(xí)非線性的分界線。上一講的推論：x|y=1~ExpFamily(η1)，x|y=0~ExpFamily(η0)

p(y=1|x)是logistic函數(shù)即x|y的分布屬于指數(shù)分布族，可推出后驗(yàn)分布是logistic函數(shù)。樸素貝葉斯模型也屬于指數(shù)分布族，所以也是用logistic線性分類器。下面介紹一種非線性分類器。2、神經(jīng)網(wǎng)絡(luò)假設(shè)特征是x0,x1,x2,x3，x0設(shè)置為1，用連線表示logistic回歸單元，圓圈表示計(jì)算節(jié)點(diǎn)，下列圖中間的節(jié)點(diǎn)以x0等特征作為輸入，hθ(x)作為輸出，這是一個(gè)sigmoid函數(shù)。為了找到非線性的界限，需要找到一種方式，表示出能夠輸出非線性分界限的假設(shè)。將之前畫的小單元拼在一起，得到神經(jīng)網(wǎng)絡(luò)。特征輸入到假設(shè)干個(gè)sigmoid單元，在輸入到另外一個(gè)sigmoid單元，得到輸出。中間節(jié)點(diǎn)的輸出值設(shè)為a1,a2,a3。這些中間節(jié)點(diǎn)稱為隱藏層，神經(jīng)網(wǎng)絡(luò)可以由多個(gè)隱層。每個(gè)中間節(jié)點(diǎn)有一系列參數(shù)：a2,a3同理。g為sigmoid函數(shù)。最終的輸出值為：其中，a向量由a1,a2,a3組成。一種學(xué)習(xí)模型參數(shù)的方法是，利用本錢函數(shù)J(θ)，使用梯度下降使J(θ)最小。即用梯度下降使得神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果和你觀察到的訓(xùn)練集中的樣本標(biāo)簽盡可能接近。在神經(jīng)網(wǎng)絡(luò)中，這種方法稱為反向傳播。3、支撐向量機(jī)鋪墊–最大間隔分類器另外一種能生成非線性分類器的學(xué)習(xí)算法。本節(jié)課先介紹另外一類線性分類器，在下一講或者下下講中，利用支撐向量機(jī)的想法，進(jìn)行一些巧妙的改動(dòng)和擴(kuò)展，讓它可以生成非線性分界線。兩種對于分類的直觀理解：1)考慮logistic回歸，計(jì)算θTx：輸出1

<=>θTx>=0；輸出0

<=>θTx<0如果θTx>>0，相當(dāng)確定的預(yù)測y=1；如果θTx<<0，相當(dāng)確定的預(yù)測y=0對于所有的i，如果y=1，θTx(i)>>0，如果y=0，θTx(i)<<0，那么我們認(rèn)為分類器是良好的。即如果我們根據(jù)訓(xùn)練集找到了參數(shù)，我們的學(xué)習(xí)算法不僅需要保證分類結(jié)果正確，更要進(jìn)一步保證分類結(jié)果確實(shí)定性。2)假設(shè)訓(xùn)練集是線性可分割的，即一定有一條直線可以將訓(xùn)練集分開。那么直觀來看，我們一定會(huì)選擇和正負(fù)樣本都有一定距離的直線。后面講到分類器的幾何間隔時(shí)，再正式討論。支撐向量機(jī)中改動(dòng)的符號：輸出y∈{-1,+1}h輸出的假設(shè)值也改為{-1,+1}g(z)={1,如果z>=0;

-1,如果z<0}之前在使用式：hθ(x)=g(θTx)時(shí)，假設(shè)x0=1且x為n+1維向量，現(xiàn)在忽略這兩個(gè)假設(shè)，表示為：hw.b(x)=g(wTx+b)，這里的b相當(dāng)于原來的θ0，w相當(dāng)于原來θ除去θ0剩余局部，長度為n維。將截距b單提出來，方便引出支撐向量機(jī)。函數(shù)間隔：一個(gè)超平面(w,b)和某個(gè)特定訓(xùn)練樣本(x(i),y(i))對應(yīng)的函數(shù)間隔定義為：參數(shù)(w,b)定義了一個(gè)分類器，例如定義了一個(gè)線性分界線。如果y(i)=1，為了獲得較大的函數(shù)間隔，需要令wTx(i)+b>>0；如果y(i)=-1，為了獲得較大的函數(shù)間隔，需要令wTx(i)+b<<0如果y(i)(wTx(i)+b)>0，意味著分類結(jié)果正確一個(gè)超平面(w,b)和整個(gè)訓(xùn)練集的函數(shù)間隔定義為：即相對于整個(gè)訓(xùn)練集的函數(shù)間隔定義為所有相對于樣本的函數(shù)間隔的最壞情形〔上述講到，分界線距離樣本越遠(yuǎn)效果越好〕。幾何間隔：幾何距離定義為：一個(gè)訓(xùn)練樣本對應(yīng)的點(diǎn)到由超平面確定的分隔線的距離。如下列圖A到分隔線的距離AB就是幾何距離。和分隔線垂直的單位向量表示為：w/||w||，AB這段距離表示為γ(i)，γ上有小三角表示函數(shù)間隔，沒有表示幾何間隔。假設(shè)A點(diǎn)表示x(i)，那么點(diǎn)B表示為：由于點(diǎn)B在分隔線上，它應(yīng)該還滿足：可以解出：上式說明，對于一個(gè)訓(xùn)練樣本x(i)，到由參數(shù)w和b確定的分隔平面之間的距離，可以由上式得到。由于上述一直假設(shè)對樣本進(jìn)行了正確的分類，所以更一般的，將幾何間隔定義為：這個(gè)定義和函數(shù)間隔很相似，不同點(diǎn)是對向量w進(jìn)行了標(biāo)準(zhǔn)化。同樣，希望幾何間隔也是越大越好。結(jié)論：如果||w||=1，函數(shù)間隔等于幾何間隔。更一般的，幾何間隔等于函數(shù)間隔除以||w||。一個(gè)超平面(w,b)和整個(gè)訓(xùn)練集的幾何間隔定義為：和函數(shù)間隔類似，取樣本中最小的幾何間隔。最大間隔分類器可以看做是支撐向量機(jī)的前身，是一種學(xué)習(xí)算法，選擇特定的w和b，使幾何間隔最大化。最大分類間隔是下述這樣的優(yōu)化問題：即選擇γ，w，b是γ最大，同時(shí)滿足條件：所選取的最大幾何間隔必須保證每個(gè)樣本的結(jié)合間隔至少為γ。最大間隔分類器的效果和logistic回歸結(jié)果差不多好，深入研究這個(gè)分分類器，可以用一種更巧妙的方法讓其支持無限維的特征空間，得到有效的非線性分類器第七課最優(yōu)間隔分類器問題本次課程大綱：1、最優(yōu)間隔分類器2、原始優(yōu)化問題&對偶優(yōu)化問題〔KKT條件〕3、SVM對偶問題4、核方法〔下一講〕復(fù)習(xí)：支撐向量機(jī)中改動(dòng)的符號：輸出y∈{-1,+1}h輸出的假設(shè)值也改為{-1,+1}g(z)={1,如果z>=0;

-1,如果z<0}hw.b(x)=g(wTx+b)，這里的b相當(dāng)于原來的θ0，w相當(dāng)于原來θ除去θ0剩余局部，長度為n維。將截距b單提出來，方便引出支撐向量機(jī)。函數(shù)間隔：一個(gè)超平面(w,b)和某個(gè)特定訓(xùn)練樣本(x(i),y(i))對應(yīng)的函數(shù)間隔定義為：參數(shù)(w,b)定義了一個(gè)分類器，例如定義了一個(gè)線性分界線。如果y(i)=1，為了獲得較大的函數(shù)間隔，需要令wTx(i)+b>>0；如果y(i)=-1，為了獲得較大的函數(shù)間隔，需要令wTx(i)+b<<0如果y(i)(wTx(i)+b)>0，意味著分類結(jié)果正確一個(gè)超平面(w,b)和整個(gè)訓(xùn)練集的函數(shù)間隔定義為：即相對于整個(gè)訓(xùn)練集的函數(shù)間隔定義為所有相對于樣本的函數(shù)間隔的最壞情形〔上述講到，分界線距離樣本越遠(yuǎn)效果越好〕。幾何間隔：幾何間隔定義為：這個(gè)定義和函數(shù)間隔很相似，不同點(diǎn)是對向量w進(jìn)行了標(biāo)準(zhǔn)化。同樣，希望幾何間隔也是越大越好。結(jié)論：如果||w||=1，函數(shù)間隔等于幾何間隔。更一般的，幾何間隔等于函數(shù)間隔除以||w||。一個(gè)超平面(w,b)和整個(gè)訓(xùn)練集的幾何間隔定義為：和函數(shù)間隔類似，取樣本中最小的幾何間隔。性質(zhì)：可以任意比例縮放w和b，因?yàn)槿我饪s放w和b都不會(huì)改變超平面wTx+b=0的位置。這一性質(zhì)在后續(xù)討論中帶來很大便利。1、最優(yōu)間隔分類器最優(yōu)間隔分類器可以看做是支撐向量機(jī)的前身，是一種學(xué)習(xí)算法，選擇特定的w和b，使幾何間隔最大化。最優(yōu)分類間隔是下述這樣的優(yōu)化問題：即選擇γ，w，b使γ最大，同時(shí)滿足條件：所選取的最大幾何間隔必須保證每個(gè)樣本的幾何間隔至少為γ。即，找到一個(gè)超平面，在將正負(fù)樣本分開的同時(shí)，使超平面到正負(fù)樣本間的距離盡可能大。由于w和b可隨意縮放，約束條件||w||=1，使得函數(shù)間隔等于幾何間隔。但是這個(gè)約束本身是一個(gè)非常糟糕的非凸性約束。要求解的參數(shù)w

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

機(jī)器學(xué)習(xí)斯坦福大學(xué)講義

文檔簡介

溫馨提示

最新文檔

評論

機(jī)器學(xué)習(xí)斯坦福大學(xué)講義

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔