機器學習綜述課件_第1頁
機器學習綜述課件_第2頁
機器學習綜述課件_第3頁
機器學習綜述課件_第4頁
機器學習綜述課件_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、管窺機器學習鄒博 2014年10月18日2/60機器學習在具體學習機器學習的過程中,往往是因為推導造成的障礙了解基本的高等數學知識是必要的機器學習比想象中要簡單的多舉例:kNN用于分類、基本的聚類過程3/60本次目標了解機器學習中的相關基本概念和常用方法初步掌握極大似然估計、梯度下降法的一般性計算套路熟悉最小二乘法的目標函數建立和解決方案了解期望最大化算法(EM算法)的思路4/60若干概念交叉驗證泛化能力VC維監(jiān)督學習無監(jiān)督學習強化學習5/60機器學習算法的分類監(jiān)督K近鄰回歸SVM決策樹樸素貝葉斯BP神經網絡非監(jiān)督聚類AprioriFP-growth6/60交叉驗證交叉驗證(Cross-val

2、idation)也稱為交叉比對,主要用于建模應用中。在給定的建模樣本中,拿出大部分樣本進行建模型,留小部分樣本用剛建立的模型進行預報,并求這小部分樣本的預報誤差,記錄它們的平方加和。這個過程一直進行,直到所有的樣本都被預報了一次而且僅被預報一次。把每個樣本的預報誤差平方加和,稱為PRESS(predicted Error Sum of Squares)。交叉驗證是常用的精度測試方法,其目的是為了得到可靠穩(wěn)定的模型。例如10折交叉驗證(10-fold cross validation),將數據集分成十份,輪流將其中9份做訓練1份做測試,10次的結果的均值作為對算法精度的估計,一般還需要進行多次1

3、0折交叉驗證求均值,例如:10次10折交叉驗證,以求更精確一點。7/60交叉驗證的形式Holdout 驗證通常來說,Holdout 驗證并非一種交叉驗證,因為數據并沒有交叉使用。 隨機從最初的樣本中選出部分,形成交叉驗證數據,而剩余的就當做訓練數據。 一般來說,少于原本樣本三分之一的數據被選做驗證數據。K-fold cross-validationK折交叉驗證,初始采樣分割成K個子樣本,一個單獨的子樣本被保留作為驗證模型的數據,其他K-1個樣本用來訓練。交叉驗證重復K次,每個子樣本驗證一次,平均K次的結果或者使用其它結合方式,最終得到一個單一估測。這個方法的優(yōu)勢在于,同時重復運用隨機產生的子樣

4、本進行訓練和驗證,每次的結果驗證一次,10折交叉驗證是最常用的。留一驗證意指只使用原本樣本中的一項來當做驗證資料, 而剩余的則留下來當做訓練資料。 這個步驟一直持續(xù)到每個樣本都被當做一次驗證資料。 事實上,這等同于 K-fold 交叉驗證是一樣的,其中K為原本樣本個數。8/60泛化能力概括地說,所謂泛化能力(generalization ability)是指機器學習算法對新鮮樣本的適應能力。學習的目的是學到隱含在數據對背后的規(guī)律,對具有同一規(guī)律的學習集以外的數據,經過訓練的算法也能給出合適的輸出,該能力稱為泛化能力。通常期望經訓練樣本訓練的算法具有較強的泛化能力,也就是對新輸入給出合理響應的能

5、力。應當指出并非訓練的次數越多越能得到正確的輸入輸出映射關系。算法的性能主要用它的泛化能力來衡量。9/60VC維對于一個分類H,我們定義它的Vapnik Chervonenkis dimension, 記做VC(H):指的是能夠被H打散的最大集合的數目。打散:shatter如果H能夠打散任意數目的集合,我們定義VC(H)=10/60VC維考慮如圖所示,3個點的集合:11/603個點可完全分開(zero training error)12/60一個集合,不是所有Note that the VC dimension of H here is 3 even though there may be s

6、ets of size 3 that it cannot shatter. For instance, if we had a set of three points lying in a straight line (left figure), then there is no way to find a linear separator for the labeling of the three points shown below (right figure):13/60再次強調在VC維的定義下,為了證明VC(H)至少是d,我們只需要證明至少存在一個大小是d的集合是可以被打散的。如果對于

7、任意的樣本數,總能找到一個樣本集,它能夠被某分類H打散,則該分類H的VC維就是無窮大,這個分類H的學習性能也就是最好的。VC維反映了分類集的學習能力,VC維越大則學習機器越復雜(容量越大),遺憾的是,目前尚沒有通用的關于任意分類集VC維計算的理論,只對一些特殊的分類集知道其VC維。例如在N維空間中線形分類器的VC維是N+1。14/60從下面幾個問題入手機器學習k近鄰向量距離聚類回歸樸素貝葉斯微積分工具:最小二乘法、極大似然估計、梯度下降法15/60k近鄰分類(屬于有監(jiān)督學習)16/60向量間相似度計算的方法歐式距離Pearson相關系數(Pearson correlation)余弦相似度(co

8、sine similarity)17/60k-均值聚類(屬于無監(jiān)督學習)創(chuàng)建k個點作為起始質心(如:隨機選擇起始質心)當任意一個點的簇分配結果發(fā)生改變時對數據集中的每個數據點對每個質心計算質心與數據點之間的距離將數據點分配到距其最近的簇對每個簇,計算簇中所有點的均值并作為質心思考:點的簇分配結果發(fā)生改變的標準如何判斷?實踐中可以選擇誤差的平方和最小更深層的問題:為何如此選擇?18/60利用SSE進行聚類后處理SSE: Sum of Squared Error 誤差平方和19/60二分k-均值聚類后的結果20/60線性回歸y=ax+b21/60多個變量的情形考慮兩個變量22/60最小二乘的目標函

9、數m為樣本個數,則一個比較“符合常理”的誤差函數為:繼續(xù)提問:如何解釋和定義“符合常理”?23/60使用極大似然估計解釋最小二乘24/60似然函數25/60對數似然26/60計算極大似然函數的最優(yōu)解27/60最小二乘意義下的參數最優(yōu)解28/60廣義逆矩陣(偽逆)若A為非奇異矩陣,則線性方程組Ax=b的解為其中A的A的逆矩陣 滿足 (I為單位矩陣)。若A是奇異陣或長方陣, x=A+ b。A+叫做A的偽逆陣。1955年R.彭羅斯證明了對每個mn階矩陣A,都存在惟一的nm階矩陣X,滿足:AXA=A;XAX=X;(AX)*I;(XA)*I。通常稱X為A的穆爾-彭羅斯廣義逆矩陣,簡稱M-P逆,記作A+。

10、在矛盾線性方程組Axb的最小二乘解中, x=A+b是范數最小的一個解。在奇異值分解SVD的問題中,將繼續(xù)該話題的討論。29/60用回歸解決分類問題,如何?30/60最簡單的例子:一維回歸31/60Logistic函數32/60Logistic回歸方程的建立33/60梯度下降34/60Logistic回歸的過程描述假定有M個樣本X,每個樣本都是N維的。那么,設需要求的參數記做w,則w是N維向量。y = Logistic(Xw)上式就是要學習的目標函數。未知參數是N個實參數w。使用極大似然估計,能夠建立關于w的方程。用梯度下降法,求該方程的梯度,設置合適的學習率解這N個參數w。35/60貝葉斯準則

11、條件概率公式P(x|y) = P(x,y) / P(y) P(x,y) = P(x|y) * P(y)P(y|x) = P(x,y) / P(x) P(x,y) = P(y|x) * P(x)則P(x|y) * P(y) = P(y|x) * P(x)從而: P(x|y) = P(y|x) * P(x)/ P(y) 分類原則:在給定的條件下,哪種分類發(fā)生的概率大,則屬于那種分類。36/60Bayes的實例37/60后驗概率c1、c2表示左右兩個信封。P(R),P(B)表示摸到紅球、黑球的概率。P(R)=P(R|c1)*P(c1) + P(R|c2)*P(c2):全概率公式P(c1|R)=P(R

12、|c1)*P(c1)/P(R)P(R|c1)=2/4P(R|c2)=1/3P(c1)=P(c2)=1/2如果摸到一個紅球,那么,這個信封有1美元的概率是0.6如果摸到一個黑球,那么,這個信封有1美元的概率是3/738/60樸素貝葉斯的假設一個特征出現的概率,與它相鄰的特征沒有關系(特征獨立性)每個特征同等重要(特征均衡性)39/60以文本分類為例樣本:1000封郵件,每個郵件被標記為垃圾郵件或者非垃圾郵件分類目標:給定第1001封郵件,確定它是垃圾郵件還是非垃圾郵件方法:樸素貝葉斯40/60分析類別c:垃圾郵件c1,非垃圾郵件c2詞匯表:統計1000封郵件中出現的所有單詞,記單詞數目為N,即形

13、成詞匯表。將每個樣本si向量化:初始化N維向量xi,若詞wj在si中出現,則xij=1,否則,為0。從而得到1000個N維向量x。使用:P(c|x)=P(x|c)*P(c) / P(x)41/60分解P(c|x)=P(x|c)*P(c) / P(x)P(x|c)=P(x1,x2xN|c)=P(x1|c)*P(x2|c)P(xN|c)P(x)=P(x1,x2xN)=P(x1)*P(x2)P(xN)帶入公式: P(c|x)=P(x|c)*P(c) / P(x)等式右側各項的含義:P(xi|cj):在cj(此題目,cj要么為垃圾郵件1,要么為非垃圾郵件0)的前提下,第i個單詞xi出現的概率P(xi)

14、:在所有樣本中,單詞xi出現的概率P(cj) :(垃圾郵件)cj出現的概率42/60EM算法的典型題目三硬幣模型假設有3枚硬幣,分別記做A,B,C。拋硬幣過程中,這些硬幣正面出現的概率分別是,p,q。進行如下試驗:先拋硬幣A,如果正面朝上,則拋硬幣B;如果反面朝上,則拋硬幣C。拋完B或者C后,如果正面朝上,記為1,否則記為0;獨立重復n次試驗(這里,n=10),觀測結果如下:1,1,0,1,0,0,1,0,11。試估計,p,q的值。43/60EM的推導將觀測變量記做Y,待估計參數記做(,p,q)P(y|)=z P(y,z|)= zP(z|)P(y|z, )=P(z=0|)P(y|z=0, )+

15、P(z=1|)P(y|z=1, )=py(1-p)1-y+ (1-)qy(1-q)1-y應用極大似然估計P(Y|)= pyi(1-p)1-yi+ (1-)qyi(1-q)1-yi44/60別忘了機器學習的第一步:建?;实鄄皇歉F人,在守財奴之中也有窮人,所以,有一些_并不是_。45/60使用離散數學分析該題目p:這個人是皇帝q:這個人是窮人r:這個人是守財奴皇帝不是窮人:pq在守財奴之中也有窮人:x(xr xq)46/60分析過程r:這個人是守財奴p:這個人是皇帝有一些 守財奴 并不是 皇帝 。 47/60這部分的參考文獻Prof. Andrew Ng, Machine Learning, St

16、anford University高等數學,高等教育出版社,同濟大學數學教研室 主編, 1996Mia Hubert, Peter J. Rousseeuw, Karlien Vanden Branden, ROBPCA: a New Approach to Robust Principal Component Analysis, October 27, 2003(PCA)/view/3709181.htm(泛化能力)/kardi/tutorial/Regression/KernelRegression/KernelRegression.htm(核回歸)/wuyuegb2312/archive

17、/2012/12/03/2799893.html(VC維)/v_july_v/article/details/7624837(SVM)/2008/09/21/the-magical-bayesian-method(Bayes)/jerrylead/tag/Machine%20Learning(機器學習)/view/3068725.htm(SVD)/vincentff7/(廣義逆矩陣)/wiki/%E5%A5%87%E5%BC%82%E5%80%BC%E5%88%86%E8%A7%A3(SVD)/ningyaliuhebei/article/details/7104951(SVD)/view/1

18、86428.htm(凸函數)/articles/auQFju(Logistic回歸)48/60復習微積分當xU(x0,r)時,有g(x)f(x) h(x)成立,并且 , ,那么自然常數:49/60導數簡單的說,導數就是曲線的斜率,是曲線變化快慢的反應二階導數是斜率變化快慢的反應,表征曲線的凸凹性在GIS中,往往一條二階導數連續(xù)的曲線,我們稱之為“光順”的。還記得高中物理老師時常念叨的嗎:加速度的方向總是指向軌跡曲線凹的一側50/60常用函數的導數51/60應用已知函數f(x)=xx,x0求f(x)的最小值附: =?在計算機算法跳躍表Skip List的分析中,用到了該常數。52/60Taylo

19、r公式 Maclaurin公式53/60Taylor公式的應用數值計算:初等函數值的計算注:待驗證54/60凸函數f(x)在區(qū)間I上連續(xù),如果對I上任意兩點x1,x2,恒有f(x1+x2)/2)0,則f(x)是凸的;若f(x)0,則f(x)是凹的即:一元二階可微的函數在區(qū)間上是凸的,當且僅當它的二階導數是非負的56/60凸函數凸函數更一般的表述意義:可以在確定函數的凸凹性之后,對函數進行不等式替換。這將在EM算法等后續(xù)內容中涉及。57/60方向導數如果函數z=f(x,y)在點P(x,y)是可微分的,那么,函數在該點沿任一方向L的方向導數都存在,且有:其中,為x軸到方向L的轉角。58/60梯度設

20、函數z=f(x,y)在平面區(qū)域D內具有一階連續(xù)偏導數,則對于每一個點P(x,y)D,向量為函數z=f(x,y)在點P的梯度,記做gradf(x,y)梯度的方向是函數在該點變化最快的方向考慮一座解析式為H(x,y)的山。在(x0,y0)點的梯度是在該點坡度最陡的方向。梯度下降法思考:如果下山方向和梯度呈夾角,下降速度是多少?59/60 感謝大家!懇請大家批評指正!11醉翁亭記 1反復朗讀并背誦課文,培養(yǎng)文言語感。2結合注釋疏通文義,了解文本內容,掌握文本寫作思路。3把握文章的藝術特色,理解虛詞在文中的作用。4體會作者的思想感情,理解作者的政治理想。一、導入新課范仲淹因參與改革被貶,于慶歷六年寫下

21、岳陽樓記,寄托自己“先天下之憂而憂,后天下之樂而樂”的政治理想。實際上,這次改革,受到貶謫的除了范仲淹和滕子京之外,還有范仲淹改革的另一位支持者北宋大文學家、史學家歐陽修。他于慶歷五年被貶謫到滁州,也就是今天的安徽省滁州市。也是在此期間,歐陽修在滁州留下了不遜于岳陽樓記的千古名篇醉翁亭記。接下來就讓我們一起來學習這篇課文吧!【教學提示】結合前文教學,有利于學生把握本文寫作背景,進而加深學生對作品含義的理解。二、教學新課目標導學一:認識作者,了解作品背景作者簡介:歐陽修(10071072),字永叔,自號醉翁,晚年又號“六一居士”。吉州永豐(今屬江西)人,因吉州原屬廬陵郡,因此他又以“廬陵歐陽修”

22、自居。謚號文忠,世稱歐陽文忠公。北宋政治家、文學家、史學家,與韓愈、柳宗元、王安石、蘇洵、蘇軾、蘇轍、曾鞏合稱“唐宋八大家”。后人又將其與韓愈、柳宗元和蘇軾合稱“千古文章四大家”。關于“醉翁”與“六一居士”:初謫滁山,自號醉翁。既老而衰且病,將退休于潁水之上,則又更號六一居士??陀袉栐唬骸傲缓沃^也?”居士曰:“吾家藏書一萬卷,集錄三代以來金石遺文一千卷,有琴一張,有棋一局,而常置酒一壺?!笨驮唬骸笆菫槲逡粻?,奈何?”居士曰:“以吾一翁,老于此五物之間,豈不為六一乎?”寫作背景:宋仁宗慶歷五年(1045年),參知政事范仲淹等人遭讒離職,歐陽修上書替他們分辯,被貶到滁州做了兩年知州。到任以后,他

23、內心抑郁,但還能發(fā)揮“寬簡而不擾”的作風,取得了某些政績。醉翁亭記就是在這個時期寫就的。目標導學二:朗讀文章,通文順字1初讀文章,結合工具書梳理文章字詞。2朗讀文章,劃分文章節(jié)奏,標出節(jié)奏劃分有疑難的語句。節(jié)奏劃分示例環(huán)滁/皆山也。其/西南諸峰,林壑/尤美,望之/蔚然而深秀者,瑯琊也。山行/六七里,漸聞/水聲潺潺,而瀉出于/兩峰之間者,釀泉也。峰回/路轉,有亭/翼然臨于泉上者,醉翁亭也。作亭者/誰?山之僧/曰/智仙也。名之者/誰?太守/自謂也。太守與客來飲/于此,飲少/輒醉,而/年又最高,故/自號曰/醉翁也。醉翁之意/不在酒,在乎/山水之間也。山水之樂,得之心/而寓之酒也。節(jié)奏劃分思考“山行/

24、六七里”為什么不能劃分為“山/行六七里”?明確:“山行”意指“沿著山路走”,“山行”是個狀中短語,不能將其割裂?!巴?蔚然而深秀者”為什么不能劃分為“望之蔚然/而深秀者”?明確:“蔚然而深秀”是兩個并列的詞,不宜割裂,“望之”是總起詞語,故應從其后斷句。【教學提示】引導學生在反復朗讀的過程中劃分朗讀節(jié)奏,在劃分節(jié)奏的過程中感知文意。對于部分結構復雜的句子,教師可做適當的講解引導。目標導學三:結合注釋,翻譯訓練1學生結合課下注釋和工具書自行疏通文義,并畫出不解之處。【教學提示】節(jié)奏劃分與明確文意相輔相成,若能以節(jié)奏劃分引導學生明確文意最好;若學生理解有限,亦可在解讀文意后把握節(jié)奏劃分。2以四人

25、小組為單位,組內互助解疑,并嘗試用“直譯”與“意譯”兩種方法譯讀文章。3教師選擇疑難句或值得翻譯的句子,請學生用兩種翻譯方法進行翻譯。翻譯示例:若夫日出而林霏開,云歸而巖穴暝,晦明變化者,山間之朝暮也。野芳發(fā)而幽香,佳木秀而繁陰,風霜高潔,水落而石出者,山間之四時也。直譯法:那太陽一出來,樹林里的霧氣散開,云霧聚攏,山谷就顯得昏暗了,朝則自暗而明,暮則自明而暗,或暗或明,變化不一,這是山間早晚的景色。野花開放,有一股清幽的香味,好的樹木枝葉繁茂,形成濃郁的綠蔭。天高氣爽,霜色潔白,泉水淺了,石底露出水面,這是山中四季的景色。意譯法:太陽升起,山林里霧氣開始消散,煙云聚攏,山谷又開始顯得昏暗,清

26、晨自暗而明,薄暮又自明而暗,如此暗明變化的,就是山中的朝暮。春天野花綻開并散發(fā)出陣陣幽香,夏日佳樹繁茂并形成一片濃蔭,秋天風高氣爽,霜色潔白,冬日水枯而石底上露,如此,就是山中的四季。【教學提示】翻譯有直譯與意譯兩種方式,直譯鍛煉學生用語的準確性,但可能會降低譯文的美感;意譯可加強譯文的美感,培養(yǎng)學生的翻譯興趣,但可能會降低譯文的準確性。因此,需兩種翻譯方式都做必要引導。全文直譯內容見我的積累本。目標導學四:解讀文段,把握文本內容1賞析第一段,說說本文是如何引出“醉翁亭”的位置的,作者在此運用了怎樣的藝術手法。明確:首先以“環(huán)滁皆山也”五字領起,將滁州的地理環(huán)境一筆勾出,點出醉翁亭坐落在群山之

27、中,并縱觀滁州全貌,鳥瞰群山環(huán)抱之景。接著作者將“鏡頭”全景移向局部,先寫“西南諸峰,林壑尤美”,醉翁亭坐落在有最美的林壑的西南諸峰之中,視野集中到最佳處。再寫瑯琊山“蔚然而深秀”,點山“秀”,照應上文的“美”。又寫釀泉,其名字透出了泉與酒的關系,好泉釀好酒,好酒叫人醉?!白砦掏ぁ钡拿直惆抵型赋?,然后引出“醉翁亭”來。作者利用空間變幻的手法,移步換景,由遠及近,為我們描繪了一幅幅山水特寫。2第二段主要寫了什么?它和第一段有什么聯系?明確:第二段利用時間推移,抓住朝暮及四季特點,描繪了對比鮮明的晦明變化圖及四季風光圖,寫出了其中的“樂亦無窮”。第二段是第一段“山水之樂”的具體化。3第三段同樣是

28、寫“樂”,但卻是寫的游人之樂,作者是如何寫游人之樂的?明確:“滁人游”,前呼后應,扶老攜幼,自由自在,熱鬧非凡;“太守宴”,溪深魚肥,泉香酒洌,美味佳肴,應有盡有;“眾賓歡”,投壺下棋,觥籌交錯,說說笑笑,無拘無束。如此勾畫了游人之樂。4作者為什么要在第三段寫游人之樂?明確:寫滁人之游,描繪出一幅太平祥和的百姓游樂圖。游樂場景映在太守的眼里,便多了一層政治清明的意味。太守在游人之樂中酒酣而醉,此醉是為山水之樂而醉,更是為能與百姓同樂而醉。體現太守與百姓關系融洽,“政通人和”才能有這樣的樂。5第四段主要寫了什么?明確:寫宴會散、眾人歸的情景。目標導學五:深入解讀,把握作者思想感情思考探究:作者以一個“樂”字貫穿全篇,卻有兩個句子別出深意,不單單是在寫樂,而是另有所指,表達出另外一種情緒,請你找出這兩個句子,說說這種情緒是什么。明確:醉翁之意不在酒,在乎山水之間也。醉能同其樂,醒能述以文者,太守也。這種情緒是作者遭貶謫后的抑郁,作者并未在文中袒露胸懷,只含蓄地說:“醉能同其樂,醒能述以文者,太守也?!贝司渑c醉翁亭的名稱、“醉翁之

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論