版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第二章預(yù)備知識(shí)統(tǒng)計(jì)自然語(yǔ)言處理CompanyLogo第二章預(yù)備知識(shí)概率論基本概念1信息論基本概念2支持向量機(jī)3CompanyLogo2.1概率論基本概念2.1.1概率2.1.2最大似然估計(jì)2.1.3條件概率2.1.4貝葉斯法則2.1.5隨機(jī)變量2.1.6二項(xiàng)式分布2.1.7聯(lián)合概率分布和條件概率分布2.1.8貝葉斯決策理論2.1.9期望和方差CompanyLogo2.1.1概率CompanyLogo2.1.2最大似然估計(jì)
2.1.2最大似然估計(jì)CompanyLogo2.1.3條件概率CompanyLogo2.1.3條件概率CompanyLogo2.1.3條件概率由上公式可得稱為概率的乘法定理或乘法規(guī)則。其一般形式表示為這一規(guī)則在自然語(yǔ)言處理中使用得非常普遍。CompanyLogo2.1.3條件概率條件概率的三個(gè)基本性質(zhì):(1)非負(fù)性(2)規(guī)范性(3)可列可加性如果事件兩兩互不相容,則CompanyLogo2.1.4貝葉斯法則CompanyLogo2.1.4貝葉斯法則當(dāng)n=1時(shí)CompanyLogo2.1.4貝葉斯法則注:(arg
max{X}表示使得X最大的參數(shù))CompanyLogo2.1.4貝葉斯法則CompanyLogo2.1.4貝葉斯法則2.1.5隨機(jī)變量隨機(jī)變量(randomvariable)
一個(gè)隨機(jī)試驗(yàn)可能有多種不同的的結(jié)果,到底會(huì)出現(xiàn)哪一種,存在一定的概率,即隨機(jī)會(huì)而定。簡(jiǎn)單地說,隨機(jī)變量就是試驗(yàn)結(jié)果的函數(shù)。設(shè)X為一離散型隨機(jī)變量,其全部可能的值為。那么,稱為X的概率函數(shù)。顯然,,有時(shí)也稱為隨機(jī)變量X的概率分布,此時(shí),函數(shù),稱為X的分布函數(shù)。CompanyLogo2.1.6二項(xiàng)式分布CompanyLogo2.1.6二項(xiàng)式分布CompanyLogo2.1.6二項(xiàng)式分布2.1.7聯(lián)合概率分布和條件概率分布聯(lián)合概率分布(jointdistribution)
假設(shè)為一個(gè)二維的離散型隨機(jī)變量,全部可能的取值為;全部可能的取值為那么,的聯(lián)合概率分布為條件概率分布
一個(gè)隨機(jī)變量或向量X的條件概率分布就是在某種給定的條件之下X的概率分布??紤]在給定條件下的概率分布,實(shí)際是求條件概率根據(jù)條件概率的定義可得
2.17聯(lián)合概率分布和條件概率分布由于,故有類似地,
CompanyLogo2.1.8貝葉斯決策理論貝葉斯決策理論是統(tǒng)計(jì)方法處理模式分類問題的基本理論之一CompanyLogo2.1.8貝葉斯決策理論CompanyLogo2.1.9期望和方差CompanyLogo2.1.9期望和方差2.2信息論的基本概念2.2.1熵2.2.2聯(lián)合熵和條件熵2.2.3互信息2.2.4相對(duì)熵2.2.5交叉熵2.2.6困惑度2.2.7噪聲信道模型CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.1熵CompanyLogo2.2.2聯(lián)合熵和條件熵CompanyLogo2.2.2聯(lián)合熵和條件熵CompanyLogo2.2.2聯(lián)合熵和條件熵CompanyLogo2.2.2聯(lián)合熵和條件熵
2.2.2聯(lián)合熵和條件熵2.2.2聯(lián)合熵和條件熵2.2.2聯(lián)合熵和條件熵
2.2.2聯(lián)合熵和條件熵2.2.2聯(lián)合熵和條件熵
2.2.2聯(lián)合熵和條件熵2.2.2聯(lián)合熵和條件熵2.2.2聯(lián)合熵和條件熵
2.2.2聯(lián)合熵和條件熵
2.2.2聯(lián)合熵和條件熵2.2.2聯(lián)合熵和條件熵
2.2.2聯(lián)合熵和條件熵
2.2.2聯(lián)合熵和條件熵
2.2.3互信息
2.2.3互信息2.2.3互信息2.2.4相對(duì)熵
2.2.4相對(duì)熵
2.2.4相對(duì)熵互信息實(shí)際上就是衡量一個(gè)聯(lián)合分布與獨(dú)立性差距多大的測(cè)度:證明:2.2.5交叉熵
2.2.5交叉熵
2.2.5交叉熵
2.2.6困惑度在自然語(yǔ)言處理中,我們所說的語(yǔ)言模型的困惑度通常是指語(yǔ)言模型對(duì)于測(cè)試數(shù)據(jù)的困惑度。一般情況下將所有的數(shù)據(jù)分成兩部分,一部分作為訓(xùn)練數(shù)據(jù),用于估計(jì)模型的參數(shù);另一部分作為測(cè)試數(shù)據(jù),用于評(píng)估語(yǔ)言模型的質(zhì)量。
2.2.7噪聲信道模型
2.2.7噪聲信道模型
2.2.7噪聲信道模型
2.2.7噪聲信道模型
2.2.7噪聲信道模型
2.2.7噪聲信道模型
2.2.7噪聲信道模型
2.3支持向量機(jī)2.3.1線性分類2.3.2線性不可分2.3.3構(gòu)造核函數(shù)
2.3支持向量機(jī)支持向量機(jī)(supportvectormachine,SVM)
支持向量機(jī)是近幾年來發(fā)展起來的新型分類方法,是在高維特征空間使用線性函數(shù)假設(shè)空間的學(xué)習(xí)系統(tǒng),在分類方面具有良好的性能。在自然語(yǔ)言處理中,SVM廣泛應(yīng)用于短語(yǔ)識(shí)別、語(yǔ)義消歧、文本自動(dòng)分類和信息過濾等方面。
2.3.1線性分類兩類問題(正類和負(fù)類)的分類通常用一個(gè)實(shí)數(shù)函數(shù)(n為輸入維數(shù),R為實(shí)數(shù))。通常執(zhí)行如下操作:當(dāng)時(shí),將輸入賦給正類,否則,將其賦給負(fù)類。當(dāng)是線性函數(shù)時(shí),可以寫成如下形式其中,是控制函數(shù)的參數(shù),決策規(guī)則由函數(shù)給出,通常2.3.1線性分類
該分類方法的幾何解釋是,方程式定義的超平面將輸入空間分成兩半,一半為負(fù)類,一半為正類。當(dāng)b的值變化時(shí),超平面平行移動(dòng)。
2.3.2線性不可分
對(duì)于非線性問題,可以把樣本映射到某個(gè)高維特征空間,在高維特征空間中使用線性學(xué)習(xí)器。因此,假設(shè)集是如下類型的函數(shù):其中,是從輸入空間到某個(gè)特征空間的映射。也就是說,建立非線性分類器需要分兩布:首先使用一個(gè)非線性映射函數(shù)將數(shù)據(jù)變換到一個(gè)特征空間F,然后在這個(gè)特征空間上使用線性分類器。
2.3.2線性不可分
線性分類器的一個(gè)重要性質(zhì)是可以表示成對(duì)偶形式,這意味著假設(shè)可以表達(dá)為訓(xùn)練點(diǎn)和線性組合,因此,決策規(guī)則(分類函數(shù))可以用測(cè)試點(diǎn)和訓(xùn)練點(diǎn)的內(nèi)積來表示:其中,是樣本數(shù)目;是個(gè)正值導(dǎo)數(shù),可通過學(xué)習(xí)獲得;為類別標(biāo)記。如果有一種方法可以在特征空間中直接計(jì)算內(nèi)積,就像在原始輸入點(diǎn)的函數(shù)中一樣,那么,就有可能將兩個(gè)步驟融合到一起建立一個(gè)非線性分類器。這樣,在高維空間內(nèi)實(shí)際上只需要進(jìn)行內(nèi)積運(yùn)算,而這種內(nèi)積運(yùn)算是可以利用原空間中的函數(shù)實(shí)現(xiàn)的,我們甚至沒有必要知道變換的形式。這種直接計(jì)算的方法稱為核函數(shù)方法。2.3.4構(gòu)造核函數(shù)
定義核是一個(gè)函數(shù),對(duì)所有滿足:這里的是從到(內(nèi)積)特征空間的映射。一旦有了核函數(shù),決策規(guī)則就可以通過對(duì)核函數(shù)的次計(jì)算得到:那么,這種方法的關(guān)鍵就是如何找到一個(gè)可以高效計(jì)算的核函數(shù)。
2.3.3構(gòu)造核函數(shù)
核函數(shù)要適合某個(gè)特征空間必須是對(duì)稱的,即并且,滿足下面的不等式:其中,是歐式模函數(shù)。但是,這些條件對(duì)于保證特征空間的存在是不充分的,還必須滿足Mercer定理的條件,對(duì)X的任意有限子集,相
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度智能棉紗供應(yīng)鏈管理服務(wù)合同4篇
- 2025年度個(gè)人股份轉(zhuǎn)讓與資產(chǎn)評(píng)估及定價(jià)合同4篇
- 2025年度門窗定制項(xiàng)目質(zhì)量監(jiān)督與驗(yàn)收合同4篇
- 二零二五版環(huán)保型工程材料供貨及技術(shù)服務(wù)合同3篇
- 二零二五年度酒店租賃合同范本2篇
- 二零二五年度智能設(shè)備代理銷售授權(quán)委托合同范本4篇
- 二零二五版企業(yè)ERP合同簽訂的合同履行與變更管理3篇
- 2025年度健身房連鎖門店承包經(jīng)營(yíng)合同4篇
- 二零二五年度美團(tuán)外賣商家食品安全合作協(xié)議4篇
- 二零二五版建筑工程合同造價(jià)編制與審核3篇
- DB33T 2570-2023 營(yíng)商環(huán)境無(wú)感監(jiān)測(cè)規(guī)范 指標(biāo)體系
- 上海市2024年中考英語(yǔ)試題及答案
- 房屋市政工程生產(chǎn)安全重大事故隱患判定標(biāo)準(zhǔn)(2024版)宣傳海報(bào)
- 垃圾車駕駛員聘用合同
- 2025年道路運(yùn)輸企業(yè)客運(yùn)駕駛員安全教育培訓(xùn)計(jì)劃
- 南京工業(yè)大學(xué)浦江學(xué)院《線性代數(shù)(理工)》2022-2023學(xué)年第一學(xué)期期末試卷
- 2024版機(jī)床維護(hù)保養(yǎng)服務(wù)合同3篇
- 《論拒不執(zhí)行判決、裁定罪“執(zhí)行能力”之認(rèn)定》
- 工程融資分紅合同范例
- 2024國(guó)家安全員資格考試題庫(kù)加解析答案
- 通信工程建設(shè)標(biāo)準(zhǔn)強(qiáng)制性條文匯編(2023版)-定額質(zhì)監(jiān)中心
評(píng)論
0/150
提交評(píng)論