版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
機(jī)器學(xué)習(xí)入門蔣龍2012年6月17日Outline計(jì)算機(jī)自動(dòng)從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,并應(yīng)用于解決新問(wèn)題給定數(shù)據(jù)(X1,Y1),(X2,Y2),…,(Xn,Yn),機(jī)器自動(dòng)學(xué)習(xí)X和Y之間的關(guān)系,從而對(duì)新的Xi,能夠預(yù)測(cè)Yi垃圾郵件識(shí)別:(郵件1,垃圾),(郵件2,正常),(郵件3,垃圾),…(郵件N,正常)郵件X=>垃圾or正常?從輸入規(guī)則到輸入數(shù)據(jù)從機(jī)器執(zhí)行到機(jī)器決策什么是機(jī)器學(xué)習(xí)基于規(guī)則的問(wèn)題解決框架測(cè)試數(shù)據(jù)發(fā)現(xiàn)規(guī)律預(yù)測(cè)預(yù)測(cè)結(jié)果規(guī)則郵件XiYi:垃圾or正常發(fā)件人郵件地址異常;標(biāo)題含有“低價(jià)促銷”…機(jī)器學(xué)習(xí)執(zhí)行框架訓(xùn)練數(shù)據(jù)測(cè)試數(shù)據(jù)學(xué)習(xí)預(yù)測(cè)預(yù)測(cè)結(jié)果模型訓(xùn)練過(guò)程應(yīng)用過(guò)程(X1,Y1)(X2,Y2)…(Xn,Yn)XiYi1,8,27,64,?125f(n)=n^31,3,6,10,?15f(n)=f(n-1)+nf(n)=(n^2+n)/2智商測(cè)試1,3,6,10,?151,8,27,64,?125假設(shè)構(gòu)造
f(n)=n^3K=3,a1=1,a2,…,ak,b=0f(n)=(n^2+n)/2K=2,a1=1/2,a2=1/2,a3,..,ak,b=0發(fā)現(xiàn)規(guī)律的過(guò)程模型(族)參數(shù)參數(shù)參數(shù)參數(shù)估計(jì)假設(shè)選擇確定策略(目標(biāo)):準(zhǔn)確解釋已知數(shù)據(jù)f(1)=1,f(2)=3,f(3)=6,f(4)=10模型訓(xùn)練:確定模型參數(shù)調(diào)整參數(shù)的值以滿足策略需要優(yōu)化算法K=2,a1=1/2,a2=1/2,a3,..,ak,b=0=>f(n)=(n^2+n)/2發(fā)現(xiàn)規(guī)律的過(guò)程模型問(wèn)題的影響因素(特征)有哪些?它們之間的關(guān)系如何?策略什么樣的模型是好的模型算法如何高效的找到最優(yōu)參數(shù)機(jī)器學(xué)習(xí)三要素又一道智商測(cè)試:6,34,102,228,?f(n)=3*n^3+2*n^2+n為什么需要機(jī)器學(xué)習(xí)計(jì)算能力大數(shù)據(jù),快速信息交換能力強(qiáng)不受情緒影響應(yīng)用人機(jī)對(duì)弈天氣預(yù)測(cè)圖象處理語(yǔ)音識(shí)別自然語(yǔ)言處理為什么需要機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí)給定數(shù)據(jù)(X1,Y1),(X2,Y2),…,(Xn,Yn)對(duì)新的Xi,預(yù)測(cè)其Yi分類,回歸非監(jiān)督學(xué)習(xí)給定數(shù)據(jù)X1,X2,…,Xnf(Xi),f(Xi,Xj)概率估計(jì),降維,聚類監(jiān)督VS非監(jiān)督批量在線主動(dòng)學(xué)習(xí)(Activelearning)新數(shù)據(jù)在線VS批量學(xué)習(xí)效果,真實(shí)效果封閉測(cè)試(close),開(kāi)放測(cè)試(opentest)交叉驗(yàn)證(crossvalidation)N-foldcrossvalidation驗(yàn)證集Validationdataset效果評(píng)測(cè)更好的效果?更多數(shù)據(jù)1,2,?3or4or…?更好的模型泛化能力效果評(píng)測(cè)什么是機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)的執(zhí)行框架學(xué)習(xí)過(guò)程的階段機(jī)器學(xué)習(xí)三要素監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)批量與在線學(xué)習(xí)效果評(píng)測(cè)小結(jié)Outline最常見(jiàn)的機(jī)器學(xué)習(xí)任務(wù)定義:給定一個(gè)對(duì)象X,將其劃分到預(yù)定義好的某一個(gè)類別yi中輸入X輸出Y(取值于有限集{y1,y2,…yn})應(yīng)用:人群,新聞分類,Query分類,商品分類,網(wǎng)頁(yè)分類,垃圾郵件過(guò)濾,網(wǎng)頁(yè)排序分類類別數(shù)量二值分類Y的取值只有兩種,如:email是否垃圾郵件多值分類Y的取值大于兩個(gè),如:網(wǎng)頁(yè)分類{政治,經(jīng)濟(jì),體育,…}類別關(guān)系水平分類類別之間無(wú)包含關(guān)系層級(jí)分類類別形成等級(jí)體系不同類型的分類新聞分類任務(wù)為任一新聞,例如{股市,反彈,有力,基金,建倉(cāng),加速…}指定其類別=>{軍事,財(cái)經(jīng),科技,生活…}基于規(guī)則的方式列舉每個(gè)類別的常用詞軍事:導(dǎo)彈,軍艦,軍費(fèi),。。??萍迹涸朴?jì)算,siri,移動(dòng)互聯(lián)網(wǎng),。。。問(wèn)題如果保證列舉全?沖突如何處理?蘋果:科技?生活?不同的詞有不同的重要度,如何決定?如果類別很多怎么辦?新聞分類確定模型(線性假設(shè))訓(xùn)練數(shù)據(jù)(谷歌推出新措施打擊Google+垃圾信息,科技)(安信地板否認(rèn)為萬(wàn)科提供E0級(jí)產(chǎn)品,房產(chǎn))(歐洲央行超預(yù)期“撒錢”釋放流動(dòng)…,財(cái)經(jīng))機(jī)器學(xué)習(xí)策略調(diào)整每個(gè)詞對(duì)每個(gè)類別的預(yù)測(cè)能力(wij),盡可能對(duì)訓(xùn)練數(shù)據(jù)正確分類基于機(jī)器學(xué)習(xí)的分類新聞分類特征表示:X={昨日,是,國(guó)內(nèi),投資,市場(chǎng)…}特征選擇:X={國(guó)內(nèi),投資,市場(chǎng)…}模型選擇:樸素貝葉斯分類器訓(xùn)練數(shù)據(jù)準(zhǔn)備:(X,Y)1,(X,Y)2,(X,Y)3,…模型訓(xùn)練:learn.exetrainingDataFilemodel預(yù)測(cè)(分類):classify.exemodelnewDataFile評(píng)測(cè):Accuracy:90%分類任務(wù)解決流程概率分類器NB,ME計(jì)算待分類對(duì)象屬于每個(gè)類別的概率,選擇概率最大的類別作為最終輸出空間分割Perceptron,SVM其他KNN1234+++++++****#****####分類技術(shù)樸素貝葉斯(Na?veBeyes,NB)分類器概率模型基于貝葉斯原理P(X):待分類對(duì)象自身的概率,可忽略P(yi):每個(gè)類別的先驗(yàn)概率,如P(軍事)P(X|yi):每個(gè)類別產(chǎn)生該對(duì)象的概率P(xi|yi):每個(gè)類別產(chǎn)生該特征的概率,如P(蘋果|科技)樸素貝葉斯分類策略:最大似然估計(jì)(maximumlikelihoodestimation,MLE)P(Yi)Count(yi):類別為yi的對(duì)象在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù)例如:總共訓(xùn)練數(shù)據(jù)1000篇,其中軍事類300篇,科技類240篇,生活類140篇,….P(軍事)=0.3,p(科技)=0.24,p(生活)=0.14,…模型訓(xùn)練/參數(shù)估計(jì)最大似然估計(jì)(maximumlikelihoodestimation,MLE)P(Yi)Count(xj,yi):特征xj和類別yi在訓(xùn)練數(shù)據(jù)中同時(shí)出現(xiàn)的次數(shù)例如:總共訓(xùn)練數(shù)據(jù)1000篇,其中軍事類300篇,科技類240篇,生活類140篇,….軍事類新聞中,谷歌出現(xiàn)15次,投資出現(xiàn)9次,上漲出現(xiàn)36次P(谷歌|軍事)=0.05,p(投資|軍事)=0.03,p(上漲|軍事)=0.12…模型訓(xùn)練/參數(shù)估計(jì)P(yi)P(軍事)=0.3,p(科技)=0.24,p(生活)=0.14,…P(xi|yi)P(谷歌|軍事)=0.05,p(投資|軍事)=0.03,p(上漲|軍事)=0.12…P(谷歌|科技)=0.15,p(投資|科技)=0.10,p(上漲|科技)=0.04…P(谷歌|生活)=0.08,p(投資|生活)=0.13,p(上漲|生活)=0.18…….模型示例分類原則給定X,計(jì)算所有的p(yi|X),選擇概率值最大的yi作為輸出X={國(guó)內(nèi),投資,市場(chǎng)…}P(軍事|X)=P(國(guó)內(nèi)|軍事)*p(投資|軍事)*p(市場(chǎng)|軍事)…p(軍事)同樣計(jì)算P(科技|X)P(生活|X)…二值和多值分類同樣的做法預(yù)測(cè)測(cè)試數(shù)據(jù)(微軟更新必應(yīng)搜索,科技)(安街首名企精裝直降30萬(wàn),房產(chǎn))(國(guó)際板利空突襲周一大盤堪憂,財(cái)經(jīng))…混淆表混淆表(confusiontable)分類器預(yù)測(cè)的類別y1y2實(shí)際的類別y1C11C12y2C21C22評(píng)測(cè)準(zhǔn)確度Accuracy:
(C11+C22)/(C11+C12+C21+C22)精確率Precision(y1):C11/(C11+C21)召回率Recall(y1):C11/(C11+C12)混淆表(confusiontable)分類器預(yù)測(cè)的類別y1y2實(shí)際的類別y1C11C12y2C21C22評(píng)測(cè)指標(biāo)準(zhǔn)確度Accuracy:
(50+35)/(35+5+10+50)=85%精確率Precision(軍事):50/(50+5)=90.9%召回率Recall(軍事):50/(50+10)=83.3%混淆表(confusiontable)分類器預(yù)測(cè)的類別軍事科技實(shí)際的類別軍事(60)5010科技(40)535評(píng)測(cè)指標(biāo)優(yōu)點(diǎn)簡(jiǎn)單有效結(jié)果是概率,對(duì)二值和多值同樣適用缺點(diǎn)獨(dú)立性假設(shè)有時(shí)不合理=>最大熵分類樸素貝葉斯分類特點(diǎn)什么是分類?類型有哪些?機(jī)器學(xué)習(xí)處理分類問(wèn)題的步驟樸素貝葉斯分類模型,策略,方法分類問(wèn)題評(píng)測(cè)小結(jié)Outline機(jī)器學(xué)習(xí)與自然語(yǔ)言處理課程介紹理論內(nèi)容分類問(wèn)題概述(特點(diǎn),實(shí)例,評(píng)測(cè))樸素貝葉斯分類最大熵分類SVM分類特征選擇實(shí)訓(xùn):文本分類應(yīng)用(新聞分類/Query分類), 分別用樸素貝葉斯方法,最大熵和SVM方法完成分類算法及應(yīng)用理論內(nèi)容回歸問(wèn)題概述(特點(diǎn),評(píng)測(cè))線性回歸邏輯回歸實(shí)訓(xùn):廣告點(diǎn)擊率預(yù)估應(yīng)用(邏輯回歸)回歸模型谷歌,百度的主要收入來(lái)源廣告廣告搜索廣告模型給定一個(gè)廣告和一個(gè)特定的Query,預(yù)測(cè)該廣告被點(diǎn)擊的可能性特征,即Xi廣告質(zhì)量廣告創(chuàng)意與用戶query的相關(guān)性價(jià)格,成交量,…搜索廣告CTR預(yù)估理論內(nèi)容馬爾科夫模型語(yǔ)言模型隱馬爾科夫模型實(shí)訓(xùn):中文分詞應(yīng)用Query拼寫(xiě)糾錯(cuò)圖模型及應(yīng)用Query拼寫(xiě)糾錯(cuò)Query拼寫(xiě)糾錯(cuò)基于隱馬爾可夫模型的Query拼寫(xiě)糾錯(cuò)迪斯尼玩具迪士尼玩具迪蒂狄斯士尼妮昵玩完丸具居巨思Query拼寫(xiě)糾錯(cuò)理論內(nèi)容聚類問(wèn)題概述(特點(diǎn),評(píng)測(cè))層級(jí)聚類與K均值聚類上下文相似度計(jì)算實(shí)訓(xùn)Query聚類應(yīng)用(層級(jí)聚類和K均值聚類)聚類算法及應(yīng)用Query聚類
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 孔乙己學(xué)習(xí)課件
- 第17課《昆明的雨》八年級(jí)語(yǔ)文上冊(cè)精講同步課堂(統(tǒng)編版)
- 愛(ài)車講堂 課件
- 西南林業(yè)大學(xué)《材料化學(xué)》2022-2023學(xué)年第一學(xué)期期末試卷
- 西南林業(yè)大學(xué)《地理信息系統(tǒng)原理》2023-2024學(xué)年第一學(xué)期期末試卷
- 應(yīng)對(duì)挫折課件
- 西京學(xué)院《機(jī)械制造工藝》2023-2024學(xué)年第一學(xué)期期末試卷
- 幼兒園小班兒歌《鈴兒響叮當(dāng)》課件
- 西京學(xué)院《電機(jī)學(xué)》2021-2022學(xué)年期末試卷
- 醫(yī)保課件 模板
- 【勞動(dòng)教育項(xiàng)目案例一等獎(jiǎng)】“追根稻底”-小學(xué)勞動(dòng)項(xiàng)目實(shí)踐活動(dòng)方案
- Trip+itinerary-夏威夷旅游英語(yǔ)行程單
- 教科版科學(xué)實(shí)驗(yàn)?zāi)夸?-6年級(jí)(新版)2022
- 電氣火災(zāi)消防安全培訓(xùn)課件
- 齒輪泵泵體的加工工藝與專用夾具設(shè)計(jì)說(shuō)明書(shū)
- 甲狀腺癌診療指南
- 管理培訓(xùn)互動(dòng)游戲游戲-先救誰(shuí)
- fg-400變頻器說(shuō)明書(shū)
- 行業(yè)產(chǎn)教融合共同體申報(bào)書(shū)
- 2023年國(guó)債資金管理辦法
- 傳染病首診醫(yī)生負(fù)責(zé)制度傳染病首診負(fù)責(zé)制
評(píng)論
0/150
提交評(píng)論