版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
機(jī)器學(xué)習(xí)入門蔣龍2012年6月17日Outline計算機(jī)自動從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,并應(yīng)用于解決新問題給定數(shù)據(jù)(X1,Y1),(X2,Y2),…,(Xn,Yn),機(jī)器自動學(xué)習(xí)X和Y之間的關(guān)系,從而對新的Xi,能夠預(yù)測Yi垃圾郵件識別:(郵件1,垃圾),(郵件2,正常),(郵件3,垃圾),…(郵件N,正常)郵件X=>垃圾or正常?從輸入規(guī)則到輸入數(shù)據(jù)從機(jī)器執(zhí)行到機(jī)器決策什么是機(jī)器學(xué)習(xí)基于規(guī)則的問題解決框架測試數(shù)據(jù)發(fā)現(xiàn)規(guī)律預(yù)測預(yù)測結(jié)果規(guī)則郵件XiYi:垃圾or正常發(fā)件人郵件地址異常;標(biāo)題含有“低價促銷”…機(jī)器學(xué)習(xí)執(zhí)行框架訓(xùn)練數(shù)據(jù)測試數(shù)據(jù)學(xué)習(xí)預(yù)測預(yù)測結(jié)果模型訓(xùn)練過程應(yīng)用過程(X1,Y1)(X2,Y2)…(Xn,Yn)XiYi1,8,27,64,?125f(n)=n^31,3,6,10,?15f(n)=f(n-1)+nf(n)=(n^2+n)/2智商測試1,3,6,10,?151,8,27,64,?125假設(shè)構(gòu)造
f(n)=n^3K=3,a1=1,a2,…,ak,b=0f(n)=(n^2+n)/2K=2,a1=1/2,a2=1/2,a3,..,ak,b=0發(fā)現(xiàn)規(guī)律的過程模型(族)參數(shù)參數(shù)參數(shù)參數(shù)估計假設(shè)選擇確定策略(目標(biāo)):準(zhǔn)確解釋已知數(shù)據(jù)f(1)=1,f(2)=3,f(3)=6,f(4)=10模型訓(xùn)練:確定模型參數(shù)調(diào)整參數(shù)的值以滿足策略需要優(yōu)化算法K=2,a1=1/2,a2=1/2,a3,..,ak,b=0=>f(n)=(n^2+n)/2發(fā)現(xiàn)規(guī)律的過程模型問題的影響因素(特征)有哪些?它們之間的關(guān)系如何?策略什么樣的模型是好的模型算法如何高效的找到最優(yōu)參數(shù)機(jī)器學(xué)習(xí)三要素又一道智商測試:6,34,102,228,?f(n)=3*n^3+2*n^2+n為什么需要機(jī)器學(xué)習(xí)計算能力大數(shù)據(jù),快速信息交換能力強(qiáng)不受情緒影響應(yīng)用人機(jī)對弈天氣預(yù)測圖象處理語音識別自然語言處理為什么需要機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí)給定數(shù)據(jù)(X1,Y1),(X2,Y2),…,(Xn,Yn)對新的Xi,預(yù)測其Yi分類,回歸非監(jiān)督學(xué)習(xí)給定數(shù)據(jù)X1,X2,…,Xnf(Xi),f(Xi,Xj)概率估計,降維,聚類監(jiān)督VS非監(jiān)督批量在線主動學(xué)習(xí)(Activelearning)新數(shù)據(jù)在線VS批量學(xué)習(xí)效果,真實(shí)效果封閉測試(close),開放測試(opentest)交叉驗(yàn)證(crossvalidation)N-foldcrossvalidation驗(yàn)證集Validationdataset效果評測更好的效果?更多數(shù)據(jù)1,2,?3or4or…?更好的模型泛化能力效果評測什么是機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)的執(zhí)行框架學(xué)習(xí)過程的階段機(jī)器學(xué)習(xí)三要素監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)批量與在線學(xué)習(xí)效果評測小結(jié)Outline最常見的機(jī)器學(xué)習(xí)任務(wù)定義:給定一個對象X,將其劃分到預(yù)定義好的某一個類別yi中輸入X輸出Y(取值于有限集{y1,y2,…yn})應(yīng)用:人群,新聞分類,Query分類,商品分類,網(wǎng)頁分類,垃圾郵件過濾,網(wǎng)頁排序分類類別數(shù)量二值分類Y的取值只有兩種,如:email是否垃圾郵件多值分類Y的取值大于兩個,如:網(wǎng)頁分類{政治,經(jīng)濟(jì),體育,…}類別關(guān)系水平分類類別之間無包含關(guān)系層級分類類別形成等級體系不同類型的分類新聞分類任務(wù)為任一新聞,例如{股市,反彈,有力,基金,建倉,加速…}指定其類別=>{軍事,財經(jīng),科技,生活…}基于規(guī)則的方式列舉每個類別的常用詞軍事:導(dǎo)彈,軍艦,軍費(fèi),。。。科技:云計算,siri,移動互聯(lián)網(wǎng),。。。問題如果保證列舉全?沖突如何處理?蘋果:科技?生活?不同的詞有不同的重要度,如何決定?如果類別很多怎么辦?新聞分類確定模型(線性假設(shè))訓(xùn)練數(shù)據(jù)(谷歌推出新措施打擊Google+垃圾信息,科技)(安信地板否認(rèn)為萬科提供E0級產(chǎn)品,房產(chǎn))(歐洲央行超預(yù)期“撒錢”釋放流動…,財經(jīng))機(jī)器學(xué)習(xí)策略調(diào)整每個詞對每個類別的預(yù)測能力(wij),盡可能對訓(xùn)練數(shù)據(jù)正確分類基于機(jī)器學(xué)習(xí)的分類新聞分類特征表示:X={昨日,是,國內(nèi),投資,市場…}特征選擇:X={國內(nèi),投資,市場…}模型選擇:樸素貝葉斯分類器訓(xùn)練數(shù)據(jù)準(zhǔn)備:(X,Y)1,(X,Y)2,(X,Y)3,…模型訓(xùn)練:learn.exetrainingDataFilemodel預(yù)測(分類):classify.exemodelnewDataFile評測:Accuracy:90%分類任務(wù)解決流程概率分類器NB,ME計算待分類對象屬于每個類別的概率,選擇概率最大的類別作為最終輸出空間分割Perceptron,SVM其他KNN1234+++++++****#****####分類技術(shù)樸素貝葉斯(Na?veBeyes,NB)分類器概率模型基于貝葉斯原理P(X):待分類對象自身的概率,可忽略P(yi):每個類別的先驗(yàn)概率,如P(軍事)P(X|yi):每個類別產(chǎn)生該對象的概率P(xi|yi):每個類別產(chǎn)生該特征的概率,如P(蘋果|科技)樸素貝葉斯分類策略:最大似然估計(maximumlikelihoodestimation,MLE)P(Yi)Count(yi):類別為yi的對象在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù)例如:總共訓(xùn)練數(shù)據(jù)1000篇,其中軍事類300篇,科技類240篇,生活類140篇,….P(軍事)=0.3,p(科技)=0.24,p(生活)=0.14,…模型訓(xùn)練/參數(shù)估計最大似然估計(maximumlikelihoodestimation,MLE)P(Yi)Count(xj,yi):特征xj和類別yi在訓(xùn)練數(shù)據(jù)中同時出現(xiàn)的次數(shù)例如:總共訓(xùn)練數(shù)據(jù)1000篇,其中軍事類300篇,科技類240篇,生活類140篇,….軍事類新聞中,谷歌出現(xiàn)15次,投資出現(xiàn)9次,上漲出現(xiàn)36次P(谷歌|軍事)=0.05,p(投資|軍事)=0.03,p(上漲|軍事)=0.12…模型訓(xùn)練/參數(shù)估計P(yi)P(軍事)=0.3,p(科技)=0.24,p(生活)=0.14,…P(xi|yi)P(谷歌|軍事)=0.05,p(投資|軍事)=0.03,p(上漲|軍事)=0.12…P(谷歌|科技)=0.15,p(投資|科技)=0.10,p(上漲|科技)=0.04…P(谷歌|生活)=0.08,p(投資|生活)=0.13,p(上漲|生活)=0.18…….模型示例分類原則給定X,計算所有的p(yi|X),選擇概率值最大的yi作為輸出X={國內(nèi),投資,市場…}P(軍事|X)=P(國內(nèi)|軍事)*p(投資|軍事)*p(市場|軍事)…p(軍事)同樣計算P(科技|X)P(生活|X)…二值和多值分類同樣的做法預(yù)測測試數(shù)據(jù)(微軟更新必應(yīng)搜索,科技)(安街首名企精裝直降30萬,房產(chǎn))(國際板利空突襲周一大盤堪憂,財經(jīng))…混淆表混淆表(confusiontable)分類器預(yù)測的類別y1y2實(shí)際的類別y1C11C12y2C21C22評測準(zhǔn)確度Accuracy:
(C11+C22)/(C11+C12+C21+C22)精確率Precision(y1):C11/(C11+C21)召回率Recall(y1):C11/(C11+C12)混淆表(confusiontable)分類器預(yù)測的類別y1y2實(shí)際的類別y1C11C12y2C21C22評測指標(biāo)準(zhǔn)確度Accuracy:
(50+35)/(35+5+10+50)=85%精確率Precision(軍事):50/(50+5)=90.9%召回率Recall(軍事):50/(50+10)=83.3%混淆表(confusiontable)分類器預(yù)測的類別軍事科技實(shí)際的類別軍事(60)5010科技(40)535評測指標(biāo)優(yōu)點(diǎn)簡單有效結(jié)果是概率,對二值和多值同樣適用缺點(diǎn)獨(dú)立性假設(shè)有時不合理=>最大熵分類樸素貝葉斯分類特點(diǎn)什么是分類?類型有哪些?機(jī)器學(xué)習(xí)處理分類問題的步驟樸素貝葉斯分類模型,策略,方法分類問題評測小結(jié)Outline機(jī)器學(xué)習(xí)與自然語言處理課程介紹理論內(nèi)容分類問題概述(特點(diǎn),實(shí)例,評測)樸素貝葉斯分類最大熵分類SVM分類特征選擇實(shí)訓(xùn):文本分類應(yīng)用(新聞分類/Query分類), 分別用樸素貝葉斯方法,最大熵和SVM方法完成分類算法及應(yīng)用理論內(nèi)容回歸問題概述(特點(diǎn),評測)線性回歸邏輯回歸實(shí)訓(xùn):廣告點(diǎn)擊率預(yù)估應(yīng)用(邏輯回歸)回歸模型谷歌,百度的主要收入來源廣告廣告搜索廣告模型給定一個廣告和一個特定的Query,預(yù)測該廣告被點(diǎn)擊的可能性特征,即Xi廣告質(zhì)量廣告創(chuàng)意與用戶query的相關(guān)性價格,成交量,…搜索廣告CTR預(yù)估理論內(nèi)容馬爾科夫模型語言模型隱馬爾科夫模型實(shí)訓(xùn):中文分詞應(yīng)用Query拼寫糾錯圖模型及應(yīng)用Query拼寫糾錯Query拼寫糾錯基于隱馬爾可夫模型的Query拼寫糾錯迪斯尼玩具迪士尼玩具迪蒂狄斯士尼妮昵玩完丸具居巨思Query拼寫糾錯理論內(nèi)容聚類問題概述(特點(diǎn),評測)層級聚類與K均值聚類上下文相似度計算實(shí)訓(xùn)Query聚類應(yīng)用(層級聚類和K均值聚類)聚類算法及應(yīng)用Query聚類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024高考地理一輪復(fù)習(xí)一等值線專練含解析
- 小學(xué)2025年教育教學(xué)工作計劃
- 工程竣工財務(wù)決算資料清單
- 工程項(xiàng)目安全生產(chǎn)操作規(guī)程
- 二零二五年股份制企業(yè)股東墊資及利潤分成協(xié)議3篇
- 小動物三年級作文300字
- 2024年深圳信息職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試歷年參考題庫含答案解析
- 芯軸粗車一序作業(yè)指導(dǎo)書.文檔
- 第3章電阻式傳感器講解學(xué)習(xí)
- 2024年陜西正和醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點(diǎn)附帶答案
- 醫(yī)院后勤保障管理組織架構(gòu)圖
- 南寧市中小學(xué)學(xué)籍管理系統(tǒng)數(shù)據(jù)采集表
- 中空吹塑成型課件
- 領(lǐng)先閱讀X計劃第四級Bug Hunt 教學(xué)設(shè)計
- 《詩詞格律》word版
- 預(yù)算第二十三講
- 高中體育與健康人教版全一冊 6.2田徑—短跑 課件(共11張PPT)
- 蔬菜供貨服務(wù)保障方案
- WordA4信紙(A4橫條直接打印版)
- 吹塑成型技術(shù)
- 線路巡視試題
評論
0/150
提交評論