版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
統(tǒng)計(jì)學(xué)習(xí)方法統(tǒng)計(jì)學(xué)習(xí)方法pdf
統(tǒng)計(jì)學(xué)習(xí)是關(guān)于計(jì)算機(jī)基于數(shù)據(jù)構(gòu)建概率統(tǒng)計(jì)模型并運(yùn)用模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測與分析的一門學(xué)科,也稱統(tǒng)計(jì)機(jī)器學(xué)習(xí)以下是小編分享給大家的統(tǒng)計(jì)學(xué)習(xí)的資料,希望可以幫到你!
統(tǒng)計(jì)學(xué)習(xí)方法一
統(tǒng)計(jì)學(xué)習(xí)
統(tǒng)計(jì)學(xué)習(xí)的對(duì)象是數(shù)據(jù),它從數(shù)據(jù)出發(fā),提取數(shù)據(jù)的特征,抽象出數(shù)據(jù)的模型,發(fā)現(xiàn)數(shù)據(jù)中的知識(shí),又回到對(duì)數(shù)據(jù)的分析與預(yù)測中去。統(tǒng)計(jì)學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)是同類數(shù)據(jù)具有一定的統(tǒng)計(jì)規(guī)律性,這是統(tǒng)計(jì)學(xué)習(xí)的前提。
統(tǒng)計(jì)學(xué)習(xí)的目的就是考慮學(xué)習(xí)什么樣的模型和如何學(xué)習(xí)模型。
統(tǒng)計(jì)學(xué)習(xí)方法包括模型的假設(shè)空間、模型選擇的準(zhǔn)則以及模型學(xué)習(xí)的算法。實(shí)現(xiàn)統(tǒng)計(jì)學(xué)習(xí)的步驟如下:
(1)得到一個(gè)有限的訓(xùn)練數(shù)據(jù)集合;
(2)確定包含所有可能的模型的假設(shè)空間,即學(xué)習(xí)模型的集合;
(3)確定模型選擇的準(zhǔn)則,即學(xué)習(xí)的策略;
(4)實(shí)現(xiàn)求解最優(yōu)模型的算法,即學(xué)習(xí)的算法;
(5)通過學(xué)習(xí)方法選擇最優(yōu)模型;
(6)利用學(xué)習(xí)的最優(yōu)模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測或分析。統(tǒng)計(jì)學(xué)習(xí)方法二
監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)模型,對(duì)測試數(shù)據(jù)進(jìn)行預(yù)測,訓(xùn)練集通常表示為
人們根據(jù)輸入、輸出變量的不同類型,對(duì)預(yù)測任務(wù)給予不同的名稱:輸入變量和輸出變量均為連續(xù)變量的預(yù)測問題稱為回歸問題;輸出變量為有限個(gè)離散變量的預(yù)測問題稱為分類問題;輸入變量與輸出變量均為變量序列的預(yù)測問題稱為標(biāo)注問題。
監(jiān)督學(xué)習(xí)假設(shè)輸入與輸出的隨機(jī)變量X和Y遵循聯(lián)合概率分布P(X,Y),P(X,Y)表示分布函數(shù),或分布密度函數(shù)。統(tǒng)計(jì)學(xué)習(xí)假設(shè)數(shù)據(jù)存在一定的統(tǒng)計(jì)規(guī)律,X和Y具有聯(lián)合概率分布的假設(shè)就是監(jiān)督學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)。
監(jiān)督學(xué)習(xí)的模型可以是概率模型或非概率模型,由條件概率分布P(Y|X)或決策函數(shù)Y=f(X)表示,隨具體學(xué)習(xí)方法而定。
監(jiān)督學(xué)習(xí)分為學(xué)習(xí)和預(yù)測兩個(gè)過程,由學(xué)習(xí)系統(tǒng)與預(yù)測系統(tǒng)組成,如下圖:
學(xué)習(xí)過程中,學(xué)習(xí)系統(tǒng)利用給定的訓(xùn)練數(shù)據(jù)集,通過學(xué)習(xí)得到一個(gè)模型,表示為條件概率分布P(Y|X)或決策函數(shù)Y=f(X)。預(yù)測過程中,預(yù)測系統(tǒng)對(duì)于給定的測試樣本集中的輸入統(tǒng)計(jì)學(xué)習(xí)方法三
統(tǒng)計(jì)學(xué)習(xí)三要素
統(tǒng)計(jì)學(xué)習(xí)=模型+策略+算法
模型
統(tǒng)計(jì)學(xué)習(xí)中,首先要考慮學(xué)習(xí)什么樣的模型,在監(jiān)督學(xué)習(xí)中,模型就是所要學(xué)習(xí)的條件概率分布或決策函數(shù),由決策函數(shù)表示的模型為非概率模型,由條件概率分布表示的模型為概率模型。
策略
有了模型的假設(shè)空間,統(tǒng)計(jì)學(xué)習(xí)接著需要考慮的是按照什么樣的準(zhǔn)則學(xué)習(xí)或選擇最優(yōu)的模型。監(jiān)督學(xué)習(xí)實(shí)際上就是一個(gè)經(jīng)驗(yàn)風(fēng)險(xiǎn)或者結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)的最優(yōu)化問題。風(fēng)險(xiǎn)函數(shù)度量平均意義下模型預(yù)測的好壞,模型每一次預(yù)測的好壞用損失函數(shù)來度量。
監(jiān)督學(xué)習(xí)問題就是從假設(shè)空間F中選擇模型f作為決策函數(shù),對(duì)于給定的輸入X,由f(X)給出相應(yīng)的輸出Y,這個(gè)輸出的預(yù)測值f(X)與真實(shí)值Y可能一致也可能不一致,用一個(gè)損失函數(shù)來度量預(yù)測錯(cuò)誤的程度。損失函數(shù)記為L(Y,f(X))。常用的損失函數(shù)有以下幾種:
算法
統(tǒng)計(jì)學(xué)習(xí)問題歸結(jié)為以上的最優(yōu)化問題,這樣,統(tǒng)計(jì)學(xué)習(xí)的算法就是求解最優(yōu)化問題的算法。如果最優(yōu)化問題有顯示的解析解,這個(gè)最優(yōu)化問題就比較簡單,但通常這個(gè)解析解不存在,所以就需要利用數(shù)值計(jì)算的方法來求解。統(tǒng)計(jì)學(xué)習(xí)可以利用已有的最優(yōu)化算法,也可以開發(fā)獨(dú)自的最優(yōu)化算法。統(tǒng)計(jì)學(xué)習(xí)方法四
模型評(píng)估與模型選擇
當(dāng)損失函數(shù)給定時(shí),基于損失函數(shù)的模型的訓(xùn)練誤差和模型的測試誤差就自然成為學(xué)習(xí)方法評(píng)估的標(biāo)準(zhǔn)。
訓(xùn)練誤差是模型Y=f(x)關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失:
下圖給出了M=0,M=1,M=3,M=9時(shí)的多項(xiàng)式函數(shù)擬合的情況,其中綠色曲線為真模型,紅色為預(yù)測模型。
其中,M=0和M=1模型簡單,擬合不足,訓(xùn)練誤差較大;M=9模型復(fù)雜,過擬合,訓(xùn)練誤差為0,但基本不具備推廣性;M=3模型復(fù)雜度適中,泛化能力強(qiáng),效果最好。
下圖描述了訓(xùn)練誤差和測試誤差與模型的復(fù)雜度之間的關(guān)系:
當(dāng)模型的復(fù)雜度增大時(shí),訓(xùn)練誤差會(huì)逐漸減小并趨向于0,而測試誤差會(huì)先減少,達(dá)到最小值后又增大。模型選擇的典型方法是正則化與交叉驗(yàn)證。統(tǒng)計(jì)學(xué)習(xí)方法五
正則化與交叉驗(yàn)證
模型選擇的典型方法是正則化,正則化的一般形式如下:
其中,第一項(xiàng)是經(jīng)驗(yàn)風(fēng)險(xiǎn),第二項(xiàng)是正則化項(xiàng),正則化項(xiàng)可以取不同的形式,例如,正則化項(xiàng)可以是模型參數(shù)向量的范數(shù)?;貧w問題中,損失函數(shù)是平方損失,正則化項(xiàng)可以是參數(shù)向量的L2范數(shù):
正則化項(xiàng)也可以是參數(shù)向量的L1范數(shù):
經(jīng)驗(yàn)風(fēng)險(xiǎn)較小的模型可能較復(fù)雜,這時(shí)正則化項(xiàng)的值會(huì)較大,正則化的作用是選擇經(jīng)驗(yàn)風(fēng)險(xiǎn)與模型復(fù)雜度同時(shí)較小的模型。
正則化符合奧卡姆剃刀原理,在所有可能的模型中,能夠很好的解釋已知數(shù)據(jù)并且十分簡單的模型才是最好的模型。從貝葉斯估計(jì)的角度來看,正則化項(xiàng)對(duì)應(yīng)于模型的先驗(yàn)概率,可以假設(shè)復(fù)雜的模型有較小的先驗(yàn)概率,簡單的模型有較大的先驗(yàn)概率。
模型選擇的另一種方法是交叉驗(yàn)證,使用交叉驗(yàn)證的前提是數(shù)據(jù)不充足,常見的有簡單交叉驗(yàn)證、S折交叉驗(yàn)證和留一交叉驗(yàn)證。如果數(shù)據(jù)充足,選擇模型的一種簡單方法是隨機(jī)的將數(shù)據(jù)集分成三部分,分別為訓(xùn)練集、驗(yàn)證集和測試集,訓(xùn)練集用來訓(xùn)練模型,驗(yàn)證集用于模型的選擇,而測試集用于最終對(duì)學(xué)習(xí)方法的評(píng)估。如果數(shù)據(jù)不充足,可以采用交叉驗(yàn)證的方法來選擇模型。統(tǒng)計(jì)學(xué)習(xí)方法六
泛化能力統(tǒng)計(jì)學(xué)習(xí)方法七
生成模型與判別模型
判別模型
該模型主要對(duì)p(y|x)建模,通過x來預(yù)測y。在建模的過程中不需要關(guān)注聯(lián)合概率分布。只關(guān)心如何優(yōu)化p(y|x)使得數(shù)據(jù)可分。通常,判別式模型在分類任務(wù)中的表現(xiàn)要好于生成式模型。但判別模型建模過程中通常為有監(jiān)督的,而且難以被擴(kuò)展成無監(jiān)督的。
常見的判別式模型有:
Logisticregression
Lineardiscriminantanalysis
Supportvectormachines
Boosting
Conditionalrandomfields
Linearregression
Neuralnetworks
生成模型
該模型對(duì)觀察序列的聯(lián)合概率分布p(x,y)建模,在獲取聯(lián)合概率分布之后,可以通過貝葉斯公式得到條件概率分布。生成式模型所帶的信息要比判別式模型更豐富。除此之外,生成式模型較為容易的實(shí)現(xiàn)增量學(xué)習(xí)。
常見的生成式模型有:
Gaussianmixturemodelandothertypesofmixturemodel
HiddenMarkovmodel
NaiveBayes
AODE
LatentDirichletallocation
RestrictedBoltzmannMachine
由上可知,判別模型與生成模型的最重要的不同是,訓(xùn)練時(shí)的目標(biāo)不同,判別模型主要優(yōu)化條件概率分布,使得x,y更加對(duì)應(yīng),在分類中就是更可分。而生成模型主要是優(yōu)化訓(xùn)練數(shù)據(jù)的聯(lián)合分布概率。而同時(shí),生成模型可以通過貝葉斯得到判別模型,但判別模型無法得到生成模型。統(tǒng)計(jì)學(xué)習(xí)方法八
分類問題、標(biāo)注問題和回歸問題
前面提到過,輸入變量和輸出變量均為連續(xù)變量的預(yù)測問題稱為回歸問題;輸出變量為有限個(gè)離散變量的預(yù)測問題稱為分類問題;輸入變量與輸出變量均為變量序列的預(yù)測問題稱為標(biāo)注問題。
對(duì)于二分類問題,常用的評(píng)價(jià)指標(biāo)是精確率和召回率。通常以關(guān)注的類為正類,其他類為負(fù)類,分類器在測試數(shù)據(jù)集上的預(yù)測或正確或不正確,4中情況出現(xiàn)的總數(shù)分別記為:
TP——將正類預(yù)測為正類數(shù);
FN——將正類預(yù)測為負(fù)類數(shù);
FP——將負(fù)類預(yù)測為正類數(shù);
TN——將負(fù)類預(yù)測為負(fù)類數(shù)。
則,精確率定義為:
許多統(tǒng)計(jì)方法可以用于分類,包括k近鄰法、感知機(jī)、樸素貝葉斯法、決策樹、決策列表、邏輯斯諦回歸模型、支持向量機(jī)、提升方法、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、Winnow等。
標(biāo)注問題的輸入是一個(gè)觀測序列,輸出是一個(gè)標(biāo)記序列。標(biāo)注問題在信息抽取、自然語言處理等領(lǐng)域被廣泛采用。例如,自然語言處理中的詞性標(biāo)注就是一個(gè)典型的標(biāo)注問題:給定一個(gè)由單詞組成的句子,對(duì)這個(gè)句子中的每一個(gè)單詞進(jìn)行詞性標(biāo)注,即對(duì)一個(gè)單詞序列預(yù)測其對(duì)應(yīng)的詞性標(biāo)記序列。標(biāo)注常用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年熟料運(yùn)輸項(xiàng)目風(fēng)險(xiǎn)管理服務(wù)合同3篇
- 二零二五年度化肥品牌推廣與宣傳合同4篇
- 二零二五年度汽車銷售代理傭金結(jié)算合同
- 2025年度門面房使用權(quán)轉(zhuǎn)讓及租賃期滿續(xù)約合同
- 二零二五年度互聯(lián)網(wǎng)平臺(tái)法律合規(guī)審查委托合同
- 2025年度二零二五年度特色書店門市租賃服務(wù)合同
- 二零二五年度住宅小區(qū)車位租賃及社區(qū)服務(wù)合同
- 二零二四年上海應(yīng)屆生落戶合同解除賠償條件協(xié)議3篇
- 二零二五年度金融服務(wù)居間合同補(bǔ)充協(xié)議3篇
- 2025年度私人車位租賃與車位使用規(guī)則合同
- 氧化鋁生產(chǎn)工藝教學(xué)拜耳法
- 2023年十八項(xiàng)醫(yī)療核心制度考試題與答案
- 氣管切開患者氣道濕化的護(hù)理進(jìn)展資料 氣管切開患者氣道濕化
- 管理模板:某跨境電商企業(yè)組織結(jié)構(gòu)及部門職責(zé)
- 底架總組裝工藝指導(dǎo)書
- 簡單臨時(shí)工勞動(dòng)合同模板(3篇)
- 聚酯合成反應(yīng)動(dòng)力學(xué)
- 自動(dòng)控制原理全套課件
- 上??萍即髮W(xué),面試
- 《五年級(jí)奧數(shù)總復(fù)習(xí)》精編課件
- TS2011-16 帶式輸送機(jī)封閉棧橋圖集
評(píng)論
0/150
提交評(píng)論