小樣本類人概念學(xué)習(xí)貝葉斯學(xué)習(xí)課件_第1頁
小樣本類人概念學(xué)習(xí)貝葉斯學(xué)習(xí)課件_第2頁
小樣本類人概念學(xué)習(xí)貝葉斯學(xué)習(xí)課件_第3頁
小樣本類人概念學(xué)習(xí)貝葉斯學(xué)習(xí)課件_第4頁
小樣本類人概念學(xué)習(xí)貝葉斯學(xué)習(xí)課件_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

貝葉斯學(xué)習(xí)小樣本下的類機(jī)器學(xué)習(xí)1Sample:BigdataSample:smallmount深度學(xué)習(xí)是基于大數(shù)據(jù)通過多層網(wǎng)絡(luò)實(shí)現(xiàn)機(jī)器自動(dòng)識(shí)別有效的特征,顯然數(shù)據(jù)越多其效果相對就會(huì)越好。在沒有大數(shù)據(jù)情況下,深度學(xué)習(xí)的效果將會(huì)顯著下降。對于人類來說,沒有知識(shí)的積累,沒有相應(yīng)的專業(yè)知識(shí),依然能夠模仿學(xué)習(xí),因?yàn)槿祟惷鎸δ吧h(huán)境依然能夠通過學(xué)習(xí)做出適應(yīng)變化?!靶颖緳C(jī)器學(xué)習(xí)”作為機(jī)器學(xué)習(xí)的另一條途徑,由相關(guān)領(lǐng)域內(nèi)的專家人工提取出有用的特征,配合少量的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)。在此主要以Bayesian學(xué)習(xí)方法為核心。1、小樣本機(jī)器學(xué)習(xí)2Bayesian頻率學(xué)派VS貝葉斯學(xué)派2、Bayesian基礎(chǔ)知識(shí)頻率派把需要推斷的參數(shù)Θ看做是固定的未知常數(shù),是確定的一個(gè)值,同時(shí)樣本X是隨機(jī)的,所以頻率派重點(diǎn)研究樣本空間,大部分的概率計(jì)算都是針對樣本X的分布;

貝葉斯派的觀點(diǎn)則截然相反,他們認(rèn)為參數(shù)Θ是隨機(jī)變量,而樣本X是固定的,由于樣本是固定的,所以他們重點(diǎn)研究的是參數(shù)Θ的分布。例如:只看下面有什么牌來決策的就是頻率學(xué)派除了看下面有什么牌,還考慮了這個(gè)牌是誰打出的,什么時(shí)候打出的,這個(gè)人打出所有牌友什么聯(lián)系等一系列問題的就是貝葉斯學(xué)派;概率論Bayesianandprobability2.13可以根據(jù)觀察到的每個(gè)訓(xùn)練樣例能夠增量地降低或升高某假設(shè)的估計(jì)概率。先驗(yàn)知識(shí)可以與觀察數(shù)據(jù)一起決定假設(shè)的最終概率;貝葉斯方法可允許假設(shè)做出不確定性的預(yù)測;新的實(shí)例分類可由多個(gè)假設(shè)一起做出預(yù)測,用它們的概率來加權(quán);0102030405在貝葉斯方法計(jì)算復(fù)雜度較高時(shí),它們?nèi)钥勺鳛橐粋€(gè)最優(yōu)的決策標(biāo)準(zhǔn)衡量其他方法;2、Bayesian基礎(chǔ)知識(shí)2.2貝葉斯學(xué)習(xí)方法的特性42、Bayesian基礎(chǔ)知識(shí)2.2貝葉斯學(xué)習(xí)應(yīng)用領(lǐng)域52、Bayesian基礎(chǔ)知識(shí)2.3貝葉斯學(xué)習(xí)方法的難度難度之一:獲取先驗(yàn)知識(shí)需要概率的先驗(yàn)知識(shí),當(dāng)概率預(yù)先未知時(shí),可以基于背景知識(shí)、預(yù)先準(zhǔn)備好的數(shù)據(jù)以及基準(zhǔn)分布的假定來估計(jì)這些概率;難度之二:計(jì)算復(fù)雜度一般情況下,確定貝葉斯最優(yōu)假設(shè)的計(jì)算代價(jià)比較大(在某些特定情形下,這種計(jì)算代價(jià)可以大大降低)。62、Bayesian基礎(chǔ)知識(shí)2.4理論知識(shí)—先驗(yàn)概率VS后驗(yàn)概率先驗(yàn)概率是指根據(jù)以往經(jīng)驗(yàn)和分析得到的概率,它往往作為“由因求果”問題中的“因”出現(xiàn)。后驗(yàn)概率是指在得到“結(jié)果”的信息后重新修正的概率,是基于新的信息,修正原來的先驗(yàn)概率后所獲得的更接近實(shí)際情況的概率估計(jì)。先驗(yàn)概率和后驗(yàn)概率是相對的。如果以后還有新的信息引入,更新了現(xiàn)在所謂的后驗(yàn)概率,得到了新的概率值,那么這個(gè)新的概率值被稱為后驗(yàn)概率72、Bayesian基礎(chǔ)知識(shí)2.4理論知識(shí)—貝葉斯法則用P(h)表示在沒有訓(xùn)練數(shù)據(jù)前假設(shè)h擁有的先驗(yàn)概率,反映了h是正確假設(shè)的機(jī)會(huì)的背景知識(shí),如果沒有P(h),可以簡單地先賦予相同的先驗(yàn)概率類似地,P(D)表示訓(xùn)練數(shù)據(jù)D的先驗(yàn)概率,P(D|h)表示假設(shè)h成立時(shí)D的概率機(jī)器學(xué)習(xí)中,關(guān)心的是P(h|D),即給定D時(shí)h的成立的概率,稱為h的后驗(yàn)概率82、Bayesian基礎(chǔ)知識(shí)2.4理論知識(shí)—貝葉斯的簡單應(yīng)用Google基于貝葉斯方法的拼寫檢查P(c)表示某個(gè)正確的詞的出現(xiàn)“概率”,它可以用“頻率”代替。P(w|c)表示在試圖拼寫c的情況下,出現(xiàn)拼寫錯(cuò)誤w的概率。By

Bayesian’Theoremthisisequivalentto:SinceP(w)isthesameforeverypossible

c,wecanignoreit,giving:9樸素貝葉斯分類器2.5樸素貝葉斯分類器樸素貝葉斯分類模型(Na?veBayes或SimpleBayesian)假定特征向量的各分量間相對于決策變量是相對獨(dú)立的,各分量獨(dú)立地作用于決策變量。樸素貝葉斯的思想基礎(chǔ):對于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。2、Bayesian基礎(chǔ)知識(shí)102.5.1樸素貝葉斯分類器數(shù)學(xué)定義2、Bayesian基礎(chǔ)知識(shí)設(shè)為一個(gè)待分類項(xiàng),而

為F的一個(gè)特征屬性有類別集合樸素貝葉斯分類器是計(jì)算出概率最大的那個(gè)分類,即求下面算式的最大值:如果則由于各個(gè)特征屬性是條件獨(dú)立:112.5.1樸素貝葉斯分類器流程圖2、Bayesian基礎(chǔ)知識(shí)輸出:特征屬性和訓(xùn)練樣本輸入:特征屬性和訓(xùn)練樣本輸出:分類器輸入:分類器和待分類項(xiàng)輸出:待分類項(xiàng)與類別的映射關(guān)系122.5.2樸素貝葉斯分類器應(yīng)用——檢測SNS社區(qū)中不真實(shí)賬號(hào)2、Bayesian基礎(chǔ)知識(shí)設(shè)C=0表示真實(shí)賬號(hào),C=1表示不真實(shí)賬號(hào)特征屬性:a1:日志數(shù)量/注冊天數(shù),a2:好友數(shù)量/注冊天數(shù),a3:是否使用真實(shí)頭像。1確定特征屬性及劃分劃分:a1:{a<=0.05,0.05<a<0.2,a>=0.2},a1:{a<=0.1,0.1<a<0.8,a>=0.8},a3:{a=0(不是),a=1(是)}使用運(yùn)維人員曾經(jīng)人工檢測過的1萬個(gè)賬號(hào)作為訓(xùn)練樣本2獲取訓(xùn)練樣本3計(jì)算訓(xùn)練樣本中每個(gè)類別的頻率用訓(xùn)練樣本中真實(shí)賬號(hào)和不真實(shí)賬號(hào)數(shù)量分別除以一萬,得到:P(C=0)=8900/10000=0.89;P(C=1)=110/10000=0.114計(jì)算每個(gè)類別條件下各個(gè)特征屬性劃分的頻率5使用分類器進(jìn)行鑒別P(C=0)P(x|C=0)=P(C=0)P(0.05<a1<0.2|C=0)P0.1<a2<0.8|C=0)P(a3=0|C=0)=0.89*0.5*0.7*0.2=0.0623P(C=1)P(x|C=1)=P(C=1)P(0.05<a1<0.2|C=1)P0.1<a2<0.8|C=1)P(a3=0|C=1)=0.89*0.5*0.7*0.2=0.0623上面訓(xùn)練得到的分類器鑒別一個(gè)賬號(hào),這個(gè)賬號(hào)使用非真實(shí)頭像,日志數(shù)量與注冊天數(shù)的比率為0.1,好友數(shù)與注冊天數(shù)的比率為0.2可以看到,雖然這個(gè)用戶沒有使用真實(shí)頭像,但是通過分類器的鑒別,更傾向于將此賬號(hào)歸入真實(shí)賬號(hào)類別。這個(gè)例子也展示了當(dāng)特征屬性充分多時(shí),樸素貝葉斯分類對個(gè)別屬性的抗干擾性。133、Bayesian

network3.1貝葉斯網(wǎng)絡(luò)(Bayesian

network)簡介父節(jié)點(diǎn)葉節(jié)點(diǎn)因果關(guān)系相互獨(dú)立Bayesiannetwork又稱信念網(wǎng)絡(luò)有向無環(huán)圖模型沒有形成閉環(huán)143、Bayesian

network3.1貝葉斯網(wǎng)絡(luò)(Bayesian

network)簡介貝葉斯網(wǎng)絡(luò)模型具有如下幾個(gè)優(yōu)勢:01貝葉斯學(xué)習(xí)能夠方便的處理不完全數(shù)據(jù)。例如考慮具有相關(guān)關(guān)系的多個(gè)輸入變量的分類或回歸問題,當(dāng)變量中有某個(gè)缺值時(shí),它們的預(yù)測結(jié)果就會(huì)出現(xiàn)很大的偏差。而貝葉斯則提供了較為直觀的概率關(guān)聯(lián)關(guān)系模型。02貝葉斯學(xué)習(xí)能夠?qū)W習(xí)變量間的因果關(guān)系。因果關(guān)系是數(shù)據(jù)挖掘中極為重要的模式。在數(shù)據(jù)分析中,因果關(guān)系有利于對領(lǐng)域知識(shí)的理解;在干擾較多時(shí),便于作出精確的預(yù)測。03貝葉斯網(wǎng)絡(luò)與貝葉斯統(tǒng)計(jì)相結(jié)合能夠充分利用領(lǐng)域知識(shí)和樣本數(shù)據(jù)的信息。貝葉斯網(wǎng)絡(luò)用弧表示變量間的依賴關(guān)系,用概率分布表來表示依賴關(guān)系的強(qiáng)弱,將先驗(yàn)信息與樣本知識(shí)有機(jī)結(jié)合起來。15ChestClinic(Data)美國有30%的人吸煙每10萬人中就就有70人患有肺癌每10萬人中就就有10人患有肺結(jié)核每10萬人中就就有800人患有支氣管炎10%人存在呼吸困難癥狀,大部分人是哮喘、支氣管炎和其他非肺結(jié)核、非肺癌性疾病引起3、Bayesian

network3.2貝葉斯網(wǎng)絡(luò)應(yīng)用實(shí)例—胸部疾病診所(ChestClinic)構(gòu)建模型根據(jù)所調(diào)研的數(shù)據(jù)可以建立如下BN模型:DiagnosemodelData、knowledgetomodelbasedBayesiannetworktheory163、Bayesian

network3.2貝葉斯網(wǎng)絡(luò)應(yīng)用實(shí)例—胸部疾病診所(ChestClinic)更新模型上述的BN模型對胸部疾病診所意義不大,因?yàn)樗鼪]有用到來胸部疾病診所病人的案例數(shù)據(jù),不能反映真實(shí)病人的情況。當(dāng)診所診治了數(shù)千病人后,會(huì)發(fā)現(xiàn)調(diào)研中所描述的情況與實(shí)際診所數(shù)據(jù)顯示的情況是完全不同的,實(shí)際診所數(shù)據(jù)顯示:Tomodel50%的病人吸煙1%患有肺結(jié)核5.5%得了肺癌45%患有不同程度支氣管炎導(dǎo)入新數(shù)據(jù)導(dǎo)入新數(shù)據(jù)導(dǎo)入新數(shù)據(jù)數(shù)據(jù)更新173、Bayesian

network3.2貝葉斯網(wǎng)絡(luò)應(yīng)用實(shí)例—胸部疾病診所網(wǎng)絡(luò)添加新證據(jù)針對一個(gè)具體的病人,經(jīng)過醫(yī)生的詢問,發(fā)現(xiàn)病人呼吸困難,將呼吸困難概率==100%,這個(gè)信息輸入到網(wǎng)絡(luò),更新網(wǎng)路數(shù)據(jù);將新的證據(jù)加入到貝葉斯網(wǎng)絡(luò)中,發(fā)現(xiàn)各個(gè)節(jié)點(diǎn)的概率發(fā)生相應(yīng)的改變;“”支氣管炎,從45%到83.4%;病人是抽煙者的幾率也會(huì)隨之增大,從50%到63.4%;近期訪問過亞洲的幾率也會(huì)增大:從1%到1.03%,顯然是不重要的;X光照片不正常的幾率也會(huì)上漲,從11%到16%;導(dǎo)入新數(shù)據(jù)數(shù)據(jù)更新數(shù)據(jù)更新數(shù)據(jù)更新數(shù)據(jù)更新183、Bayesian

network3.2貝葉斯網(wǎng)絡(luò)應(yīng)用實(shí)例—胸部疾病診所(ChestClinic)繼續(xù)添加證據(jù)按照流程依此問病人一些問題,如她最近是不是去過亞洲國家,如果答案是“是”?,F(xiàn)在獲得的信息就影響了BN模型,BN模型的參數(shù)會(huì)發(fā)生進(jìn)一步的改變。將VisitToAsia==100%導(dǎo)入模型。導(dǎo)入新數(shù)據(jù)患肺結(jié)核的幾率顯然增大,從2%到9%.而患有癌癥、支氣管炎以及該患者是吸煙患者的幾率都有所減少。為什么呢?因?yàn)榇藭r(shí)呼吸困難的原因相對更傾向于肺結(jié)核。數(shù)據(jù)更新數(shù)據(jù)更新193、Bayesian

network3.2貝葉斯網(wǎng)絡(luò)應(yīng)用實(shí)例—胸部疾病診所(ChestClinic)繼續(xù)添加證據(jù)繼續(xù)問患者一些問題,假設(shè)患者是個(gè)吸煙者,即Smoker==100%;

則網(wǎng)絡(luò)變?yōu)?;最大假設(shè)為了確認(rèn)為病人做一個(gè)X光透視,結(jié)果顯示其正常,即Normal

==100%。依然是最大假設(shè)通過證據(jù)的添加可以確認(rèn)為Bronchitis20BayesiannetworkmodelParameterlearning&&structurelearning貝葉斯網(wǎng)絡(luò)模型是由網(wǎng)絡(luò)結(jié)構(gòu)和條件概率分布表(CPT)組成的。貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)包括結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí)兩個(gè)內(nèi)容。結(jié)構(gòu)學(xué)習(xí),即利用訓(xùn)練樣本集,盡可能結(jié)合先驗(yàn)知識(shí),確定最合適的貝葉斯網(wǎng)絡(luò)模型結(jié)構(gòu)。參數(shù)學(xué)習(xí)是在給定結(jié)構(gòu)下,確定貝葉斯網(wǎng)絡(luò)模型的參數(shù),即每個(gè)結(jié)點(diǎn)上的CPT表。按照學(xué)習(xí)的目的以及訓(xùn)練樣本集是否完整,可以把學(xué)習(xí)方法歸為以下幾類。3、Bayesian

network3.3貝葉斯網(wǎng)絡(luò)的構(gòu)建結(jié)構(gòu)觀測值方法已知完整最大似然估計(jì)法(MLE)已知部分EM算法、GreedyHill-climbingmethod未知完整搜索整個(gè)空間未知部分結(jié)構(gòu)算法、EM算法、Boundconstruction213、Bayesian

network3.3.1結(jié)構(gòu)學(xué)習(xí)Bayesiannetwork結(jié)構(gòu)學(xué)習(xí)就是在給定一個(gè)數(shù)據(jù)樣本集合D的前提下,盡可能結(jié)合先驗(yàn)知識(shí),尋找一個(gè)與訓(xùn)練樣本集D匹配最好的網(wǎng)絡(luò)結(jié)構(gòu),對于含有n個(gè)變量的數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí),可能的結(jié)構(gòu)數(shù)目為:

(★)因此貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)是一個(gè)NP難問題。目前貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)的方法主要分成兩類:基于評分搜索的方法(scoreandsearchmethod)基于條件獨(dú)立測試的方法(Conditional

Independence

Testing

based

Method)基于隨機(jī)抽樣的學(xué)習(xí)方法223、Bayesian

network3.3.1結(jié)構(gòu)學(xué)習(xí)——基于評分搜索的方法ScoreandSearchMethod基于評分搜索的方法將BN結(jié)構(gòu)學(xué)習(xí)視為組合優(yōu)化問題,首先通過定義評分函數(shù)對BN結(jié)構(gòu)空間中的不同元素與樣本數(shù)據(jù)的擬合程度進(jìn)行度量,然后利用搜索算法確定評分最高的網(wǎng)絡(luò)結(jié)構(gòu),即與數(shù)據(jù)擬合最好的網(wǎng)絡(luò)結(jié)構(gòu)。BN結(jié)構(gòu)學(xué)習(xí)可定義為優(yōu)化模型:G為候選網(wǎng)絡(luò)結(jié)構(gòu)搜索空間,它定義了樣本數(shù)據(jù)集D中所有變量(節(jié)點(diǎn))之間可能連接關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu)集合;Ω為網(wǎng)絡(luò)變量之間需要滿足的約束條件集合,最基本的約束是所有節(jié)點(diǎn)間的連接構(gòu)成一個(gè)有向無環(huán)圖;F為評分函數(shù),表示從搜索空間G到實(shí)數(shù)集R的一個(gè)映射,函數(shù)的極值點(diǎn)即為網(wǎng)絡(luò)的最優(yōu)結(jié)構(gòu)。OPTIMIZATION

MODEL233、Bayesian

network3.3.1結(jié)構(gòu)學(xué)習(xí)——評分函數(shù)AIC(AkaikeInformationCriterion)評分K2評分(又稱CH評分)BD(BayesianDirichlet)評分MDL(MinimumDescriptionLength)評分BIC(BayesianInformationCriterion)評分243、Bayesian

network3.3.1結(jié)構(gòu)學(xué)習(xí)——基于貝葉斯統(tǒng)計(jì)的評分函數(shù)主要思想是在給定先驗(yàn)知識(shí)和樣本數(shù)據(jù)條件下,選擇后驗(yàn)概率值最大的網(wǎng)絡(luò)結(jié)構(gòu),即假設(shè)數(shù)據(jù)集D的樣本變量是完整獨(dú)立同分布數(shù)據(jù),G是樣本變量集的BN結(jié)構(gòu)是結(jié)構(gòu)G的先驗(yàn)分布,一般假設(shè)均勻分布是參數(shù)的ΘG先驗(yàn)分布在給定結(jié)構(gòu)G時(shí),服從均勻分布,那么可以得到如下的K2評分當(dāng)服從Ditichlet分布,那么可以得到相應(yīng)的BD評分當(dāng)253、Bayesian

networkBayesiannetworkK2ScoreFunction263、Bayesian

network3.3.1結(jié)構(gòu)學(xué)習(xí)——基于信息理論的評分函數(shù)基于信息理論的評分函數(shù)主要是利用編碼理論和信息論中的最小描述長度(MDL)原理來實(shí)現(xiàn)的,基本思想源自對數(shù)據(jù)的存儲(chǔ)。按照MDL原理,BN結(jié)構(gòu)學(xué)習(xí)就是要找到使得網(wǎng)絡(luò)的描述長度和樣本的編碼長度之和最小的圖模型,這意味著MDL評分準(zhǔn)則趨向于尋找一個(gè)結(jié)構(gòu)較簡單的網(wǎng)絡(luò)MDL評分函數(shù)其不依賴于先驗(yàn)概率網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度的懲罰函數(shù)壓縮后的數(shù)據(jù)長度當(dāng)數(shù)據(jù)D服從多項(xiàng)分布時(shí),MDL評分函數(shù)等于BIC評分函數(shù),進(jìn)一步簡化,得到AIC評分函數(shù)273、Bayesian

network3.3.1結(jié)構(gòu)學(xué)習(xí)——搜索策略Search在定義了評分函數(shù)的情況下,貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)問題就變成了一個(gè)搜索問題,搜索策略是為了搜索某個(gè)評分函數(shù)下分值最高的網(wǎng)絡(luò)結(jié)構(gòu)。當(dāng)節(jié)點(diǎn)的個(gè)數(shù)大于1時(shí),尋找最優(yōu)的模型是NP問題,常采用啟發(fā)式搜索?;谠u分搜索的BN結(jié)構(gòu)學(xué)習(xí)算法算法……………283、Bayesian

network3.3.1結(jié)構(gòu)學(xué)習(xí)——基于條件獨(dú)立測試的方法在BN結(jié)構(gòu)中,給定任意兩個(gè)變量X和Y,如果兩個(gè)變量之間存在有向連接,則稱X和Y具有依賴性或關(guān)聯(lián)性;如果不存在連接,它們具有獨(dú)立性。用于獨(dú)立性檢驗(yàn)的常用方法有:檢驗(yàn)(1)(2)基于互信息的檢驗(yàn)基于互信息的檢驗(yàn)的具體方法:之間的互信息

互信息越小,變量Xi和Xj之間獨(dú)立的可能性就越大。之間的互信息

互信息越小,變量Xi和Xj之間獨(dú)立的可能性就越大。在基于互信息的獨(dú)立性檢驗(yàn)方法中,當(dāng)或者小于給定閾值時(shí),則Xi和Xj

是獨(dú)立或條件獨(dú)立的,對應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)中節(jié)點(diǎn)Xi和Xj就不存在邊,否則是依賴的,存在邊。293、Bayesian

network3.3.1結(jié)構(gòu)學(xué)習(xí)——基于隨機(jī)抽樣的學(xué)習(xí)方法基于評分搜索的學(xué)習(xí)方法過程簡單、規(guī)范,但存在搜索空間巨大、可能收斂于局部最優(yōu)解等問題;基于依賴分析的學(xué)習(xí)方法學(xué)習(xí)效率較高,而且能夠獲得全局最優(yōu)解,但存在節(jié)點(diǎn)之間的獨(dú)立性或條件獨(dú)立性判斷困難和高階的條件獨(dú)立性檢驗(yàn)的結(jié)果不夠可靠等問題;將隨機(jī)抽樣的思想引入評分搜索學(xué)習(xí)方法的搜索過程是解決評分搜索算法收斂于局部最優(yōu)的有效途徑之一。303、Bayesian

network3.3.1結(jié)構(gòu)學(xué)習(xí)——MCMC(MarkovChainMonteCarlo)隨機(jī)抽樣馬爾科夫鏈:前一個(gè)狀態(tài)只與當(dāng)前狀態(tài)有關(guān),而與其他狀態(tài)無關(guān),MarkovChain體現(xiàn)的是狀態(tài)空間的轉(zhuǎn)換關(guān)系,下一個(gè)狀態(tài)只決定與當(dāng)前的狀態(tài)。Example人按其經(jīng)濟(jì)狀況分成3類:下層(lower-class)、中層(middle-class)、上層(upper-class),用1,2,3分別代表這三個(gè)階層。發(fā)現(xiàn)決定一個(gè)人的收入階層的最重要的因素就是其父母的收入階層。如果一個(gè)人的收入屬于下層類別,那么他的孩子屬于下層收入的概率是0.65,屬于中層收入的概率是0.28,屬于上層收入的概率是0.07。事實(shí)上,從父代到子代,收入階層的變化的轉(zhuǎn)移概率如下使用矩陣的表示方式,轉(zhuǎn)移概率矩陣記為31Example從第7代人開始,這個(gè)分布就穩(wěn)定不變了,事實(shí)上,在這個(gè)問題中,從任意初始概率分布開始都會(huì)收斂到這個(gè)上面這個(gè)穩(wěn)定的結(jié)果。3.3.1結(jié)構(gòu)學(xué)習(xí)——MCMC(MarkovChainMonteCarlo)隨機(jī)抽樣馬爾科夫鏈:前一個(gè)狀態(tài)只與當(dāng)前狀態(tài)有關(guān),而與其他狀態(tài)無關(guān),MarkovChain體現(xiàn)的是狀態(tài)空間的轉(zhuǎn)換關(guān)系,下一個(gè)狀態(tài)只決定與當(dāng)前的狀態(tài)。3、Bayesian

network32Example3.3.1結(jié)構(gòu)學(xué)習(xí)——MCMC(MarkovChainMonteCarlo)隨機(jī)抽樣馬爾科夫鏈:前一個(gè)狀態(tài)只與當(dāng)前狀態(tài)有關(guān),而與其他狀態(tài)無關(guān),MarkovChain體現(xiàn)的是狀態(tài)空間的轉(zhuǎn)換關(guān)系,下一個(gè)狀態(tài)只決定與當(dāng)前的狀態(tài)。3、Bayesian

networkBayesiannetwork馬氏鏈定理33Example3.3.1結(jié)構(gòu)學(xué)習(xí)——MCMC(MarkovChainMonteCarlo)隨機(jī)抽樣馬爾科夫鏈:前一個(gè)狀態(tài)只與當(dāng)前狀態(tài)有關(guān),而與其他狀態(tài)無關(guān),MarkovChain體現(xiàn)的是狀態(tài)空間的轉(zhuǎn)換關(guān)系,下一個(gè)狀態(tài)只決定與當(dāng)前的狀態(tài)。3、Bayesian

networkBayesiannetwork細(xì)致平穩(wěn)條件定理34Example3.3.1結(jié)構(gòu)學(xué)習(xí)——MCMC(MarkovChainMonteCarlo)隨機(jī)抽樣馬爾科夫鏈:前一個(gè)狀態(tài)只與當(dāng)前狀態(tài)有關(guān),而與其他狀態(tài)無關(guān),MarkovChain體現(xiàn)的是狀態(tài)空間的轉(zhuǎn)換關(guān)系,下一個(gè)狀態(tài)只決定與當(dāng)前的狀態(tài)。3、Bayesian

network把原來具有轉(zhuǎn)移矩陣Q的普通的馬氏鏈改造為滿足細(xì)致平穩(wěn)條件Q’的馬氏鏈,由此馬氏鏈Q(jìng)’的平穩(wěn)分布就是p(x)35Example3.3.1結(jié)構(gòu)學(xué)習(xí)——MCMC(MarkovChainMonteCarlo)隨機(jī)抽樣馬爾科夫鏈:前一個(gè)狀態(tài)只與當(dāng)前狀態(tài)有關(guān),而與其他狀態(tài)無關(guān),MarkovChain體現(xiàn)的是狀態(tài)空間的轉(zhuǎn)換關(guān)系,下一個(gè)狀態(tài)只決定與當(dāng)前的狀態(tài)。3、Bayesian

network36Example3.3.1結(jié)構(gòu)學(xué)習(xí)——MCMC(MarkovChainMonteCarlo)隨機(jī)抽樣馬爾科夫鏈:前一個(gè)狀態(tài)只與當(dāng)前狀態(tài)有關(guān),而與其他狀態(tài)無關(guān),MarkovChain體現(xiàn)的是狀態(tài)空間的轉(zhuǎn)換關(guān)系,下一個(gè)狀態(tài)只決定與當(dāng)前的狀態(tài)。3、Bayesian

networkBayesiannetworkMCMC采樣法37Example3.3.1結(jié)構(gòu)學(xué)習(xí)——MCMC(MarkovChainMonteCarlo)隨機(jī)抽樣馬爾科夫鏈:前一個(gè)狀態(tài)只與當(dāng)前狀態(tài)有關(guān),而與其他狀態(tài)無關(guān),MarkovChain體現(xiàn)的是狀態(tài)空間的轉(zhuǎn)換關(guān)系,下一個(gè)狀態(tài)只決定與當(dāng)前的狀態(tài)。3、Bayesian

networkBayesiannetworkMHS采樣法由于α(i,j)太小的話,馬氏鏈容易原地踏步,拒絕大量的跳轉(zhuǎn),這使得馬氏鏈遍歷所有的狀態(tài)空間花費(fèi)時(shí)間長,收斂到平穩(wěn)分布P(x)速度太慢,對MCMCsamplingmethod改造得到Metropolis-hastings抽樣方法383、Bayesian

network3.3.2參數(shù)學(xué)習(xí)貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí)的目標(biāo)是:給定網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)G和訓(xùn)練樣本集D,利用先驗(yàn)知識(shí),確定貝葉斯網(wǎng)絡(luò)模型各節(jié)點(diǎn)處的條件概率密度,記為:p(?/D,G)。一般,先驗(yàn)分布服從一定的概率分布族,如β分布、多項(xiàng)分布、正態(tài)分布、泊松分布;然后利用一定的策略估計(jì)這些分布的參數(shù)常見的學(xué)習(xí)方法有:最大似然估計(jì)(MLE)方法、貝葉斯估計(jì)(BE)方法和不完備數(shù)據(jù)下參數(shù)學(xué)習(xí)等.前兩種方法均需要數(shù)據(jù)樣本集滿足獨(dú)立同分布假設(shè)。即給定關(guān)于n個(gè)變量的數(shù)據(jù)集D包含m個(gè)樣本則D中各樣本滿足下面兩個(gè)條件:393、Bayesian

network3.3.2參數(shù)學(xué)習(xí)——最大似然估計(jì)方法最大似然估計(jì)方法是依據(jù)參數(shù)與數(shù)據(jù)集與的似然程度來選擇參數(shù)。似然函數(shù)的一般形式為:最大似然估計(jì)選擇使似然函數(shù)值最大的參數(shù)Θ*,即根據(jù)數(shù)據(jù)集的獨(dú)立同分布假設(shè)和貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)特征,可得:403、Bayesian

network3.3.2參數(shù)學(xué)習(xí)——貝葉斯估計(jì)方法貝葉斯方法按如下步驟來學(xué)習(xí)未知網(wǎng)絡(luò)參數(shù)向量:貝葉斯方法對未知參數(shù)的估計(jì)綜合了它的先驗(yàn)信息和樣本信息,如果沒有任何先驗(yàn)知識(shí)用于確定先驗(yàn)分布P(θ),可以選擇均勻分布作為參數(shù)θ的先驗(yàn)分布P(θ),但這一選擇在未知參數(shù)無界的情況下存在困難??蛇x取共軛分布為參數(shù)θ的先驗(yàn)分布P(θ),即滿足:參數(shù)θ后驗(yàn)分布和先驗(yàn)分布屬于同一類型的分布。常用的共軛分布有:二項(xiàng)分布、多項(xiàng)分布、正態(tài)分布、Gamma分布、Poisson分布和Dirichlet分布,其中Dirichlet分布最為常用。413、Bayesian

network3.3.2參數(shù)學(xué)習(xí)——貝葉斯估計(jì)方法貝葉斯方法按如下步驟來學(xué)習(xí)未知網(wǎng)絡(luò)參數(shù)向量:可選取共軛分布為參數(shù)θ的先驗(yàn)分布P(θ),即滿足:參數(shù)θ后驗(yàn)分布和先驗(yàn)分布屬于同一類型的分布。常用的共軛分布有:二項(xiàng)分布、多項(xiàng)分布、正態(tài)分布、Gamma分布、Poisson分布和Dirichlet分布,其中Dirichlet分布最為常用。423、Bayesian

network3.3.2參數(shù)學(xué)習(xí)——貝葉斯估計(jì)方法貝葉斯方法按如下步驟來學(xué)習(xí)未知網(wǎng)絡(luò)參數(shù)向量:433、Bayesian

network3.3.2參數(shù)學(xué)習(xí)——EM(ExpectationMaximization)方法當(dāng)部分?jǐn)?shù)據(jù)缺失或者無法觀察到時(shí),可采用EM方法。其核心思想是:假設(shè)要估計(jì)知道A和B兩個(gè)參數(shù),在開始狀態(tài)下二者都是未知的,首先賦予A某種初值,以此得到B的估計(jì)值,然后從B的當(dāng)前值出發(fā),重新估計(jì)A的取值,這個(gè)過程一直持續(xù)到收斂為止。似然函數(shù)L(θ)>=J(z,Q),那么可以通過不斷的最大化下界J,來使得L(θ)不斷提高,最終達(dá)到它的最大值。由Jensen不等式可知=443、Bayesian

network3.3.2參數(shù)學(xué)習(xí)——EM(ExpectationMaximization)方法當(dāng)部分?jǐn)?shù)據(jù)缺失或者無法觀察到時(shí),可采用EM方法。其核心思想是:假設(shè)要估計(jì)知道A和B兩個(gè)參數(shù),在開始狀態(tài)下二者都是未知的,首先賦予A某種初值,以此得到B的估計(jì)值,然后從B的當(dāng)前值出發(fā),重新估計(jì)A的取值,這個(gè)過程一直持續(xù)到收斂為止。當(dāng)Jensen不等式變成等式時(shí),說明調(diào)整后的概率能夠等價(jià)于根據(jù)Jensen不等式,要想讓等式成立,需要讓隨機(jī)變量變成常數(shù)值,這里得到:由于至此,在固定參數(shù)Θ后,的計(jì)算公式就是后驗(yàn)概率,解決了如何選擇的問題這一步就是E步,建立的下界,接下來的M步,就是在給定后,調(diào)整Θ,去極大化的下界453、Bayesian

network3.3.2參數(shù)學(xué)習(xí)——EM(Expecta

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論