機(jī)器學(xué)習(xí)期末復(fù)習(xí)_第1頁
機(jī)器學(xué)習(xí)期末復(fù)習(xí)_第2頁
機(jī)器學(xué)習(xí)期末復(fù)習(xí)_第3頁
機(jī)器學(xué)習(xí)期末復(fù)習(xí)_第4頁
機(jī)器學(xué)習(xí)期末復(fù)習(xí)_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、機(jī)器學(xué)習(xí)是怎樣的學(xué)科:致力于研究如何通過計(jì)算的手段,利用經(jīng)驗(yàn)來改善系統(tǒng)自身的性能。機(jī)器學(xué)習(xí)主要分為兩大類:監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)、強(qiáng)化學(xué)習(xí)(AlphaGo)、半監(jiān)督學(xué)習(xí)。機(jī)器學(xué)習(xí)所要研究的主要內(nèi)容是關(guān)于計(jì)算機(jī)在從數(shù)據(jù)中產(chǎn)生“模型”的算法,即“學(xué)習(xí)算法”。(有了學(xué)習(xí)算法,我們把經(jīng)驗(yàn)提供給它,他就能基于這些數(shù)據(jù)產(chǎn)生模型)。學(xué)習(xí)的特點(diǎn):數(shù)據(jù)驅(qū)動(dòng),以方法為中心,概率統(tǒng)計(jì)優(yōu)化為基礎(chǔ)。從數(shù)據(jù)中學(xué)得模型的過程稱為“學(xué)習(xí)”或“訓(xùn)練”,這個(gè)過程通過執(zhí)行某個(gè)學(xué)習(xí)算法來完成。訓(xùn)練過程中使用的數(shù)據(jù)稱為“訓(xùn)練數(shù)據(jù)”,每一個(gè)樣本稱為“訓(xùn)練樣本”,訓(xùn)練樣本組成的集合稱為“訓(xùn)練集”。三要素:模型、策略、算法。學(xué)得模型后,使用其進(jìn)

2、行預(yù)測得過程稱為“測試”。被測樣本稱為“測試樣本”。機(jī)器學(xué)習(xí)的目標(biāo)是使學(xué)得的模型能很好地適用于“新樣本”。獨(dú)立同分布學(xué)得模型適用于新樣本的能力,稱為“泛化”能力。具有強(qiáng)泛化能力的模型能很好地適用于整個(gè)樣本空間?!皧W卡姆剃刀”原則,是一種常用地、自然科學(xué)研究中最基礎(chǔ)地原則,即“諾有多個(gè)假設(shè)與觀察一致,則選最簡單地那個(gè)”。(采用這個(gè)原則,則所描繪地曲線更平滑,更簡單)。20世紀(jì)50年代-70年代初,人工智能處于“推理期”。20世紀(jì)70年代中期開始,人工智能進(jìn)入“知識(shí)期”。20世紀(jì)80年代:被研究最多的應(yīng)用最廣的是“從樣本中學(xué)習(xí)”,其中的兩個(gè)主流技術(shù):符號(hào)主義學(xué)習(xí)(決策樹,ILP:歸納邏輯程序設(shè)計(jì))

3、,基于神經(jīng)網(wǎng)絡(luò)的連接主義學(xué)習(xí)20世紀(jì)90年代中期:統(tǒng)計(jì)學(xué)習(xí):代表性技術(shù),支持向量機(jī)21世紀(jì)以來,連接主義學(xué)習(xí)“深度學(xué)習(xí)”即很多層的神經(jīng)網(wǎng)絡(luò)1980年夏,美國卡耐基梅隆大學(xué) 舉辦了 第一屆機(jī)器學(xué)習(xí)研討會(huì)(IWML)。同年 策略分析與信息系統(tǒng)連出三期機(jī)器學(xué)習(xí)專輯。1986年,第一本機(jī)器學(xué)習(xí)專業(yè)期刊Machine Learning創(chuàng)刊。1989年,人工智能領(lǐng)域地權(quán)威期刊Artificial Intelligence出版機(jī)器學(xué)習(xí)專輯。2006年,卡耐基梅隆大學(xué) 宣告成立世界上第一個(gè)“機(jī)器學(xué)習(xí)系”。經(jīng)驗(yàn)誤差:學(xué)習(xí)器在訓(xùn)練集上的誤差稱為“訓(xùn)練誤差”或“經(jīng)驗(yàn)誤差”。泛化誤差:在新樣本上的誤差稱為“泛化誤差”

4、?!皽y試誤差”作為泛化誤差的近似。模型評(píng)估時(shí)用來測試模型的數(shù)據(jù)集叫什么集:A訓(xùn)練集B測試集C評(píng)估集D驗(yàn)證集(訓(xùn)練集是用來訓(xùn)練模型的,通過嘗試不同的方法和思路使用訓(xùn)練集來訓(xùn)練不同的模型,再通過驗(yàn)證集使用交叉驗(yàn)證來挑選最優(yōu)的模型,通過不斷的迭代來改善模型在驗(yàn)證集上的性能,最后再通過測試集來評(píng)估模型的性能。將一個(gè)數(shù)據(jù)集D分為訓(xùn)練集S和測試集T的方法:留出法:直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合,其中一個(gè)作為S一個(gè)作為T。注意點(diǎn):訓(xùn)練/測試集的劃分要盡可能保持?jǐn)?shù)據(jù)分布一致。單次使用留出法得到的估計(jì)結(jié)果往往不夠穩(wěn)定可靠。一般采用若干次隨機(jī)劃分、重復(fù)進(jìn)行實(shí)驗(yàn)評(píng)估后取平均值作為結(jié)果。常見做法是將大約2/34/

5、5的樣本用于訓(xùn)練剩余樣本用于測試。保留類別比例的采樣方式通常稱為“分層采樣”。交叉驗(yàn)證法:(可能大題)將數(shù)據(jù)集D劃分為k個(gè)大小相似的的互斥子集,每個(gè)子集盡可能保持?jǐn)?shù)據(jù)分布的一致性,即通過分層采樣得到。然后每次用k-1個(gè)子集的并集作為訓(xùn)練集,余下的一個(gè)子集作為測試集并進(jìn)行K次訓(xùn)練和測試。例如:5折交叉驗(yàn)證,D分為D1D5,第一次取4個(gè)子集的并集,D2-D5作為訓(xùn)練集,D1作為測試集。第二次取D1、D3、D4、D5的并集作為訓(xùn)練集,D2作為測試集。以此類推,最后將5次測試結(jié)果平均得到返回結(jié)果。其中,如果D一共有m個(gè)樣本,k=m,則得到交叉驗(yàn)證法的特例:留一法。因?yàn)閙個(gè)樣本只有唯一的劃分方式,即劃分

6、為m個(gè)子集,每一個(gè)子集只有一個(gè)樣本。這樣所用的訓(xùn)練集只比原數(shù)據(jù)少一個(gè)樣本。留一法的優(yōu)點(diǎn):評(píng)估結(jié)果往往被認(rèn)為比較精確(并非最精確),缺點(diǎn):數(shù)據(jù)集較大時(shí),訓(xùn)練m個(gè)模型的計(jì)算開銷可能難以忍受。自助法:(這種方法 有一些樣本永遠(yuǎn)取不到)建立一個(gè)新的數(shù)據(jù)集D在D中隨機(jī)取一個(gè)樣本復(fù)制到D中,進(jìn)行m次后,D中的樣本數(shù)量和D一樣,這時(shí)將D作為訓(xùn)練集DD(表示D中不包括D的部分)作為測試集。因?yàn)槭菑?fù)制到D中所以D中的一部分樣本會(huì)取不到,則不被取到的概率為(1-1/m)m取極限得到=1/e0.368,即數(shù)據(jù)集D中約有36.8%的樣本未出現(xiàn)在D中。得到結(jié)果也稱為“包外估計(jì)”。在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練/測試集時(shí)

7、很有用此外,自助法能從初始數(shù)據(jù)集中產(chǎn)生多個(gè)不同的訓(xùn)練集,對(duì)集成學(xué)習(xí)有很大好處。但是自助法改變了初始數(shù)據(jù)集的分布,這會(huì)引入估計(jì)偏差。所以數(shù)據(jù)足夠多的時(shí)候其他兩種方法更加常用。錯(cuò)誤率與精度錯(cuò)誤率:分類錯(cuò)誤的樣本占樣本總數(shù)的比例。精度:分類正確的樣本數(shù)占樣本總數(shù)的比例。查準(zhǔn)率、查全率與F1認(rèn)為是正例的樣本中:真正例 TP 假正例 FP 認(rèn)為是假例的樣本中:假反例 FN 真反例 TN查準(zhǔn)率P:TP/(TP+FP) 即在查到的正例中正確的占比。查全率R:TP/(TP+FN) 即在所有正確的例子中查到的正例的占比。一般來說,查準(zhǔn)率高,查全率偏低,查全率高,查準(zhǔn)率偏低。根據(jù)這一現(xiàn)象可以得到“P-R曲線”,當(dāng)

8、R(X軸)相同時(shí),P(Y軸)越大越好。曲線和P=R的直線的交點(diǎn)稱為平衡點(diǎn)。越大越優(yōu)。因?yàn)槠胶恻c(diǎn)過于簡化,所以用F1來衡量優(yōu)劣:F1=(2*P*R)/(P+R)=(2*TP)/(樣本總數(shù)+TP-TN)=1/F1=1/2*(1/P+1/R)有時(shí)因?yàn)閳鼍暗男枰?,可能回偏向查全率或者查?zhǔn)率,則有了F1的變形:FF=(1+)*P*R)/(*P)+R)當(dāng)=1時(shí),則為標(biāo)準(zhǔn)的F1;1時(shí)查全率有更大影響;1,0其中1表示高,0表示矮。如果不存在“序”關(guān)系,k個(gè)屬性就用k維向量表示。線性回歸目的是求出f(x)=wT x+b的函數(shù)使得帶入的值經(jīng)過函數(shù)計(jì)算后得到的f(x)與預(yù)測的y近似。所以為了近似,則需要做差最小。

9、使用均方誤差得到:(w*,b*)=arg min(i=1m) (f(xi)-yi) 不方便同時(shí)做上下標(biāo) 簡單表示 =arg min(i=1m) (yi-wxi-b) 這里我理解的是承接上面簡化屬性值僅有一個(gè)分別對(duì)w和b做偏導(dǎo)得到書上P51的3.5和3.6,然后兩個(gè)式子=0,解后得到3.7和3.8的解。(過程作業(yè)有寫,需要熟悉)此時(shí)如果使用原本的數(shù)據(jù)集,而不簡化,即f(x)=wT x+byi 稱為“多元線性回歸” 最小二乘法就是通過使兩個(gè)式子的均方誤差最小化,來求得函數(shù)的未知值。來近似標(biāo)準(zhǔn)函數(shù),可以百度關(guān)鍵詞“最小二乘法”,其中原理的部分較好理解。對(duì)數(shù)線性回歸:即之前的線性回歸是為了逼近y值,如

10、果要使得函數(shù)逼近與y相關(guān)的值,例如lny,就是改變指數(shù)尺度=lny=wT x+b 這一式子則稱為對(duì)數(shù)線性回歸,本質(zhì)是使得e底的wT x+b逼近y。該式子在本質(zhì)上仍然是線性回歸。P56 圖3.1 表現(xiàn)得較為明顯。如果有g(shù)(.)使得y=g-1(wT x+b)這樣得到得模型稱為“廣義線性模型”,函數(shù)g(.)稱為“聯(lián)系函數(shù)”,則對(duì)數(shù)線性回歸是廣義線性模型在g(.)=ln(.)時(shí)得特例。我這里認(rèn)為g(.)中.表示輸入值。對(duì)數(shù)幾率回歸:是分類問題通過找一個(gè)單調(diào)可微函數(shù)g(.)將分類任務(wù)的真實(shí)標(biāo)記y與線性回歸模型的預(yù)測值f(x)聯(lián)系起來。設(shè)預(yù)測值z(mì)=wT x+b 則將z的值通過“單位越階函數(shù)” P57 (3

11、.16) 與輸出標(biāo)記y一致。即通過g(.)獲取到的函數(shù)為P57 圖3.2 中的黑線。紅色部分則為判斷的輸出標(biāo)記。因?yàn)橄M瘮?shù)值接近0或1,所用用y=1/1+e-z作為“替代函數(shù)”且可微。帶入z=wT x+b,得到P58 (3.18) (3.19)則為了求“對(duì)數(shù)幾率”,最后就是求ln(y/1-y),將y和1-y分別視為為1和為0的概率,則有P59 (3.23) (3.24) 作業(yè)有相關(guān)內(nèi)容。熵模型:百度內(nèi)容:給定一個(gè)概率分布,則熵的定義為:Hp=p(x)logp(x)放到作業(yè)中即 -plnq 大致意思是要求一個(gè)函數(shù)的最小值就取它的負(fù),這樣反過來求它的最大值。線性判別分析:是一種經(jīng)典的線性學(xué)習(xí)方法

12、,再二分類問題上提出。簡稱LDA:給定訓(xùn)練集例集,設(shè)法將樣例投影到一條直線上,使得同類的樣例的投影盡可能得靠近,異類樣例盡可能遠(yuǎn)離;對(duì)新樣本進(jìn)行分析時(shí),將樣本投影到這條直線上,再根據(jù)位置判斷類別??焖倥袛嗍欠窨梢跃€性可分:將兩類樣本包起來,類似連接每類樣例的最外層樣本,形成一個(gè)封閉的圖形,如果兩個(gè)類別不重疊,則可以線性可分,反之不可。多類別學(xué)習(xí):有些二分類學(xué)習(xí)方法可直接推廣到多分類,但是再更多情形下,我們是基于一些基本策略,利用二類學(xué)習(xí)器來解決多分類問題。即多次利用二分類來解決多分類。最經(jīng)典的拆分策略有三種:“一對(duì)一”(OvO),“一對(duì)其余”(OvR)和“多對(duì)多”(MvM)。OvR只需要N個(gè)分

13、類器,OvO需要N(N-1)/2個(gè)分類器。通常,OvO的存儲(chǔ)開銷和測試時(shí)間開銷比OvR更大,但是OvO每次只用到兩類樣例,OvR則是全部樣例。所以在類別多的的情況下OvO的訓(xùn)練時(shí)間開銷通常比OvR更小。取決于具體數(shù)據(jù)分布。 P64 圖3.4 (大題)信息增益:信息熵:是度量樣本集合純度最常用的一種指標(biāo)。集合D的信息熵定義為Ent(D) 值越小表示純度越高。神經(jīng)元模型:“M-P神經(jīng)元模型” P97 圖5.1 xi為輸入 y為輸出 Wi為對(duì)應(yīng)xi的連接權(quán)重激勵(lì)函數(shù):類似神經(jīng)傳播,當(dāng)一個(gè)電位超過一定值,則激活神經(jīng)元,從而進(jìn)行再傳遞。類似地接收到帶權(quán)重地輸入信號(hào),將總輸入值和閥值進(jìn)行比較,然后通過“激

14、勵(lì)函數(shù)”處理產(chǎn)生輸出。所以這里地激勵(lì)函數(shù)最好是躍階函數(shù)(即只有y=1或y=0)但是實(shí)際用Sigmoid函數(shù)將值壓縮在0-1之間。(1表示興奮,0表示抑制)把許多個(gè)這樣地神經(jīng)元按一定地層次結(jié)構(gòu)連接起來,就得到了神經(jīng)網(wǎng)絡(luò)。感知機(jī)和多層網(wǎng)絡(luò):要求會(huì)計(jì)算“與”、“或”、“非”:這里用躍階函數(shù)計(jì)算。wi和的值是可變化的,設(shè)定值后。帶入x1和x2計(jì)算,達(dá)到x1與x2 x1或x2 非x 的效果。 y=f(i wi*xi-)深度學(xué)習(xí): “深”在哪里?參數(shù)越多、“容量”越大、復(fù)雜模型典型的深度學(xué)習(xí)模型就是很深層的神經(jīng)網(wǎng)絡(luò),顯然,對(duì)神經(jīng)網(wǎng)絡(luò)模型,提高容量的一個(gè)簡單辦法是增加隱層的數(shù)目=隱層數(shù)目大?!岸嚯[層”是指三

15、個(gè)及以上隱層。深度學(xué)習(xí)通常有八九層甚至更多隱層。支持向量機(jī):兩大重點(diǎn):最大間隔、核技巧在樣本空間中,劃分超平面可通過如下線性方程描述:wT x+b=0間隔:距離超平面最近的幾個(gè)訓(xùn)練樣本點(diǎn)中,兩個(gè)異類支持向量到超平面的距離之和稱為“間隔”。最大間隔:找到滿足式子P122 (6.3)中約束的參數(shù)w和b,使得間隔最大。支持向量機(jī)(SVM)的基本型:P123 (6.6)函數(shù)間隔:實(shí)際上是|wT x+b|,函數(shù)間隔代表了我們認(rèn)為特征是正例還是反例的確信度。針對(duì)全局樣本的定義的函數(shù)間隔:意思就是找到訓(xùn)練樣本中函數(shù)間隔最小的那個(gè)樣本,并且要讓它的函數(shù)間隔最大。幾何間隔:幾何間隔首先簡單一點(diǎn)說就是點(diǎn)到直線距離

16、。在式子中的表現(xiàn)為|w|。硬間隔:要求所有樣本均滿足約束。P122 (6.3)軟間隔:允許某些樣本不滿足約束。P130 (6.28) 常用的“軟間隔支持向量機(jī)”在P130 P131min 和 s.t. 部分。線性間隔:不需要升維,就可以找到一個(gè)超平面將訓(xùn)練樣本正確分類。非線性間隔:需要升維,才能將訓(xùn)練樣本分類。組合,有 線性軟間隔、線性硬間隔、非線性軟間隔、非線性硬間隔。對(duì)偶問題:作業(yè)大題。主要還是求偏導(dǎo)。因?yàn)樵诮鈱?duì)偶問題時(shí),有用到二次規(guī)劃算法,該問題的規(guī)模正比于訓(xùn)練樣本數(shù),這會(huì)在實(shí)際任務(wù)中造成很大的開銷。為了避開這個(gè)障礙,人們通過利用問題本身的特性,提出了很多高效算法,SMO(Sequent

17、ial Minimal Optimization)是其中一個(gè)著名的代表。核函數(shù):在樣本無法線性可分的情況下,可以將原始空間映射到一個(gè)更高維的特征空間,使得樣本在這個(gè)空間內(nèi)線性可分。在將其轉(zhuǎn)換為對(duì)偶問題時(shí)。可以設(shè)想一個(gè)函數(shù)k(xi,xj)用來計(jì)算xi與xj在特征空間的內(nèi)積。這函數(shù)稱為“核函數(shù)”,這一方法稱為“核技巧”。核方法:是解決非線性問題模式分析問題的一種有效途徑,其核心思想是:首先,通過某種非線性映射將原始數(shù)據(jù)嵌入到合適的高維特征空間;然后,利用通用的線性學(xué)習(xí)器在這個(gè)新的空間中分析和處理模式。其表現(xiàn)形式:P137 (6.58)高斯核:高斯核函數(shù)(Gaussian kernel),也稱徑向基

18、 (RBF) 函數(shù),是常用的一種核函數(shù)。它可以將有限維數(shù)據(jù)映射到高維空間,我們來看一下高斯核函數(shù)的定義: 上述公式涉及到兩個(gè)向量的歐式距離(2范數(shù))計(jì)算,而且,高斯核函數(shù)是兩個(gè)向量歐式距離的單調(diào)函數(shù)。 是帶寬,控制徑向作用范圍,換句話說, 控制高斯核函數(shù)的局部作用范圍。當(dāng)xx 和xx 的歐式距離處于某一個(gè)區(qū)間范圍內(nèi)的時(shí)候,假設(shè)固定xx,k(x,x)k(x,x) 隨x的變化而變化的相當(dāng)顯著。從二十世紀(jì)二三十年代開始出現(xiàn)了 頻率主義學(xué)派 和 貝葉斯學(xué)派 的爭論。貝葉斯的判定準(zhǔn)則:P151-P153 判定西瓜是好是壞的例題。(大題)判定過程中如果某一屬性全是好或者壞,即另一個(gè)判斷概率為0,則需要修正。會(huì)有題目給一個(gè)集合,然后用k-means算法思想去劃分集合內(nèi)的數(shù)。10,12,7,5,6,20,54,61,99類似這樣,然后分成3類。距離計(jì)算:需要滿足一些基本性質(zhì),非負(fù)性:dist(xi,xj)=0同一性:dist(xi,xj)=0,當(dāng)且僅當(dāng)xi=xj對(duì)稱性:dist(xi,xj)=dist(xj,xi)直遞性:dist(xi,xj)=dist(xi,xk)+dist(xk,xj)計(jì)算距離時(shí)最常用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論