產(chǎn)生式判別式_第1頁
產(chǎn)生式判別式_第2頁
產(chǎn)生式判別式_第3頁
產(chǎn)生式判別式_第4頁
產(chǎn)生式判別式_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、產(chǎn)生式判別式第1頁,共22頁,2022年,5月20日,9點24分,星期日內(nèi)容提要摘要簡介產(chǎn)生式模型(Generative Model)判別式模型(Discriminative Model )兩者之間的關系 實驗分析第2頁,共22頁,2022年,5月20日,9點24分,星期日摘要產(chǎn)生式模型:無窮樣本=概率密度模型 = 產(chǎn)生模型=預測判別式模型:有限樣本=判別函數(shù) = 預測模型=預測 第3頁,共22頁,2022年,5月20日,9點24分,星期日簡介簡單的說,假設o是觀察值,q是模型。如果對P(o|q)建模,就是Generative模型。其基本思想是首先建立樣本的概率密度模型,再利用模型進行推理預測

2、。要求已知樣本無窮或盡可能的大。這種方法一般建立在bayes理論的基礎之上。第4頁,共22頁,2022年,5月20日,9點24分,星期日簡介如果對條件概率 P(q|o)建模,就是Discrminative模型。基本思想是有限樣本條件下建立判別函數(shù),不考慮樣本的產(chǎn)生模型,直接研究預測模型。代表性理論為統(tǒng)計學習理論。這兩種方法目前交叉較多。 第5頁,共22頁,2022年,5月20日,9點24分,星期日產(chǎn)生式模型估計的是聯(lián)合概率分布(joint probability distribution),p(class, context)=p(class|context)*p(context)。 p(con

3、text|class)*p(class)用于隨機生成的觀察值建模,特別是在給定某些隱藏參數(shù)情況下。在機器學習中,用于直接對數(shù)據(jù)建模,或作為生成條件概率密度函數(shù)的中間步驟。通過使用貝葉斯規(guī)則可以從生成模型中得到條件分布。第6頁,共22頁,2022年,5月20日,9點24分,星期日產(chǎn)生式模型特點:主要是對后驗概率建模,從統(tǒng)計的角度表示數(shù)據(jù)的分布情況,能夠反映同類數(shù)據(jù)本身的相似度。優(yōu)點:由于產(chǎn)生式方法可以在聯(lián)合分布空間插入變量、不變量、獨立性、先驗分布等關系的知識。因此,在聯(lián)合分布空間,通用性(或稱多面性)是其本質(zhì)。這包括了系統(tǒng)中的未知的、觀察到的、輸入或輸出變量,這就使得產(chǎn)生式概率分布成為一個非常

4、靈活的建模工具。第7頁,共22頁,2022年,5月20日,9點24分,星期日產(chǎn)生式模型缺點產(chǎn)生式分類器需產(chǎn)生的所有變量的聯(lián)合概率 分布僅僅是分類任務的中間目標,對該中間目標優(yōu)化的過程,犧牲了最終分類判別任務上的資源和性能,影響了最終的分類性能。第8頁,共22頁,2022年,5月20日,9點24分,星期日產(chǎn)生式模型常用方法 Gaussians, Naive Bayes, Mixtures of multinomialsMixtures of Gaussians, HMMsBayesian networksMarkov random fields 第9頁,共22頁,2022年,5月20日,9點24

5、分,星期日判別式模型又可以稱為條件模型,或條件概率模型。估計的是條件概率分布(conditional distribution)判別式方法并不對系統(tǒng)中變量和特征的基本分布建模,僅僅對輸入到輸出之間映射的最優(yōu)化感興趣。因此,僅需調(diào)整由此產(chǎn)生的分類邊界,沒有形成可對系統(tǒng)中變量建模的生成器的中間目標,可以得到準確率更高的分類器。第10頁,共22頁,2022年,5月20日,9點24分,星期日判別式模型主要特點:尋找不同類別之間的最優(yōu)分類面,反映的是異類數(shù)據(jù)之間的差異。優(yōu)點:相比純概率方法或產(chǎn)生式模型,分類邊界更靈活; 能清晰的分辨出多類或某一類與其他類之間的差異特征,適用于較多類別的識別判別模型的性能

6、比產(chǎn)生模型要簡單,比較容易學習第11頁,共22頁,2022年,5月20日,9點24分,星期日判別式模型缺點:不能反映訓練數(shù)據(jù)本身的特性。可以告訴你的是1還是2,但沒有辦法把整個場景描述出來;判別式方法在訓練時需要考慮所有的數(shù)據(jù)元組,當數(shù)據(jù)量很大時,該方法的效率并不高;缺乏靈活的建模工具和插入先驗知識的方法。因此,判別式技術就像一個黑匣子,變量之間的關系不像在產(chǎn)生式模型中那樣清晰可見。第12頁,共22頁,2022年,5月20日,9點24分,星期日判別式模型常見的主要有:logistic regressionSVMsneural networksNearest neighborConditiona

7、l random fields(CRF): 目前最新提出的熱門模型,從NLP領域產(chǎn)生的,正在向ASR和CV上發(fā)展。 第13頁,共22頁,2022年,5月20日,9點24分,星期日判別式模型主要應用:Image and document classificationBiosequence analysisTime series prediction 第14頁,共22頁,2022年,5月20日,9點24分,星期日兩者之間的關系由生成模型可以得到判別模型,但由判別模型得不到生成模型。例如當樣本的各屬性之間相互獨立的并且滿足高斯概率密度分布時,可以由Nave Bayes分類算法得到Logistic R

8、egression分類算法第15頁,共22頁,2022年,5月20日,9點24分,星期日實驗分析實驗內(nèi)容 對于UCI的Adult 數(shù)據(jù)集、Breast Cancer數(shù)據(jù)集、Ionosphere數(shù)據(jù)集以及Optical Recognition of Hand Written Digits 數(shù)據(jù)集,分別用Nave Bayes算法與Logistic Regression算法對其進行分類,并對這兩種算法進行比較分析。第16頁,共22頁,2022年,5月20日,9點24分,星期日實驗分析實驗結(jié)果圖1 breast cancer 數(shù)據(jù)集上NB與LR分類結(jié)果比較 第17頁,共22頁,2022年,5月20日,

9、9點24分,星期日實驗分析實驗結(jié)果圖2 ionosphere 數(shù)據(jù)集上NB與LR分類結(jié)果比較 第18頁,共22頁,2022年,5月20日,9點24分,星期日實驗分析實驗結(jié)果圖3 adult 數(shù)據(jù)集上NB與LR分類結(jié)果比較 第19頁,共22頁,2022年,5月20日,9點24分,星期日實驗分析實驗結(jié)果圖4 lymphography 數(shù)據(jù)集上NB與LR分類結(jié)果比較 第20頁,共22頁,2022年,5月20日,9點24分,星期日實驗分析結(jié)果分析從實驗結(jié)果可見,在breast_cancer和lymphography數(shù)據(jù)集上NaiveBayes分類器的分類效果明顯優(yōu)于Logistic Regression分類器在四個數(shù)據(jù)集中,adult數(shù)據(jù)集的數(shù)據(jù)量最大,因此在這個數(shù)據(jù)集上可以看出Logistic Regression分類器的訓練時間明顯大于NaiveBayes分類器。第21頁,共22頁,2022年,5月20日,9點24分,星期日實驗分析結(jié)果分析對于adult和ionosphere數(shù)據(jù)集,圖中顯示NaiveBayes分類器的分類正確率曲線與Logistic Regression分類器的分類正確率曲線有交叉的現(xiàn)象。當訓練數(shù)據(jù)較少的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論