第2講統(tǒng)計自然語言處理的數(shù)學基礎(chǔ)市公開課一等獎省賽課獲獎?wù)n件

上傳人：1*** IP屬地：湖北上傳時間：2024-08-19 格式：PPTX 頁數(shù)：70 大?。?.76MB 積分：6 舉報 版權(quán)申訴

第2講統(tǒng)計自然語言處理的數(shù)學基礎(chǔ)市公開課一等獎省賽課獲獎?wù)n件_第2頁

第2講統(tǒng)計自然語言處理的數(shù)學基礎(chǔ)市公開課一等獎省賽課獲獎?wù)n件_第3頁

第2講統(tǒng)計自然語言處理的數(shù)學基礎(chǔ)市公開課一等獎省賽課獲獎?wù)n件_第4頁

第2講統(tǒng)計自然語言處理的數(shù)學基礎(chǔ)市公開課一等獎省賽課獲獎?wù)n件_第5頁

已閱讀5頁，還剩65頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

統(tǒng)計自然語言處理

基礎(chǔ)理論孫越恒第1頁主要內(nèi)容概率論基礎(chǔ)一些基本概念貝葉斯法則幾個慣用分布預計概率密度方法信息論基礎(chǔ)第2頁模型假如Output1總是和Ouput靠近，Output2總是和Output偏離，我們就認為模型1比模型2好第3頁模型由體系結(jié)構(gòu)和參數(shù)兩部分組成舉例：住宅樓體系結(jié)構(gòu)?多層板樓?高層板樓?高層塔樓參數(shù)?層數(shù)：?戶型：三室一廳，兩室一廳，……?層高：?供熱方式：地熱？暖氣片？第4頁1.一些基本概念?

試驗一個可觀察結(jié)果人工或自然過程，其產(chǎn)生結(jié)果可能不止一個，且不能事先確定會產(chǎn)生什么結(jié)果比如：連擲兩次硬幣?樣本空間是一個試驗全部可能出現(xiàn)結(jié)果集合舉例：連擲兩次硬幣

–Ω={HH,HT,TH,TT},H：面朝上；T：面朝下第5頁?

事件一個試驗一些可能結(jié)果集合，是樣本空間一個子集舉例：連擲兩次硬幣?A：最少一次面朝上A={HT,TH,HH},?B：第二次面朝下B={HT,TT}第6頁概率(probability)

概率是從隨機試驗中事件到實數(shù)域函數(shù)，用以表示事件發(fā)生可能性。假如用P(A)作為事件A概率，Ω是試驗樣本空間，則概率函數(shù)必須滿足以下公理：公理1：P(A)≥0公理2：P(Ω)=1公理3：假如對任意i和j(i≠j)，事件Ai和Aj不相交(Ai∩Aj＝Φ)，則有第7頁舉例?連續(xù)三次擲硬幣

–樣本空間

?Ω={HHH,HHT,HTH,HTT,THH,THT,TTH,TTT} –事件A：恰好兩次面朝下

?A={HTT,THT,TTH} –做1000次試驗，計數(shù)得386次為兩次面朝下

?預計：P(A)=386/1000=0.386 –繼續(xù)做7組試驗，得：373，399，382，355，372，

406，359，共8組試驗

–計算平均值：P(A)=(0.386+0.373+…)/8=0.379，或累計：P(A)=(386+373+…)/8000=3032/8000=0.379 –統(tǒng)一分布假設(shè)為：3/8=0.375第8頁聯(lián)合概率A和B

兩個事件聯(lián)合概率就是A和B兩個事件同時出現(xiàn)概率A和B聯(lián)合概率表示為：P(A,B)或P(A∩B)舉例：連擲兩次硬幣

?事件A：第一次面朝上，A={HH,HT}?事件B：第二次面朝下，B={HT,TT}?聯(lián)合事件A∩B={HT}第9頁條件概率(conditionalprobability)假如A和B是樣本空間Ω

P(A1,A2,…,An)=P(A1)×P(A2|A1)×P(A3|A1,A2)×…×P(An|A1,A2,…,An-1)?舉例1：詞性標注

–P(det,adj,n)=P(det)×P(adj|det)×P(n|det,adj)?舉例2：計算一個句子概率

–p(w1,w2,…,wn)=p(w1)p(w2|w1)……p(wn|w1…wn-1)第11頁獨立和條件獨立?

獨立

P(A,B)=P(A)×P(B)?P(A|B)=P(A),P(B|A)=P(B)?條件獨立

–P(A,B|C)=P(A|B,C)×P(B|C)=P(A|C)×P(B|C) ?P(A|B,C)=P(A|C),P(B|A,C)=P(B|C) –Na?veBayesian：假定各特征之間條件獨立

?P(A1,A2,…,An|B)=Πi=1,…,nP(Ai|B)

第12頁全概率公式（1）設(shè)Ω

為試驗E樣本空間，B1,B2,…Bn

為Ω一組事件，且他們兩兩互斥，且每次試驗中最少發(fā)生一個。即：

則稱B1,B2,…Bn為樣本空間Ω一個劃分。第13頁全概率公式（2）設(shè)A為Ω事件，B1,B2,…Bn

為Ω一個劃分，且P(Bi)>0(i=1,2,…,n)，則全概率公式為：第14頁隨機變量(RandomVariable)?隨機變量是一個函數(shù)X:Ω→R。Ω是樣本空間，R是實數(shù)集合–用于討論和事件空間相關(guān)數(shù)值出現(xiàn)概率–數(shù)值也比事件更易于處理?舉例：–[X=0]={TT}；[X=1]={TH,HT}；[X=2]={HH}–X是兩次擲硬幣面朝上次數(shù)?數(shù)值能夠是連續(xù)值，也能夠是離散值第15頁期望(expectation)–

舉例：?六面擲骰子問題：E(X)=1?1/6+2?1/6+3?1/6+4?1/6+5?1/6+6?1/6=3.5第16頁方差(variance)舉例——考試名次第17頁協(xié)方差與相關(guān)系數(shù)協(xié)方差：能夠衡量隨機變量X與Y之間統(tǒng)計獨立程度。

任意兩個隨機變量X和Y協(xié)方差，記為Cov(X,Y),定義為：相關(guān)系數(shù)：其中，是隨機變量X標準差，是隨機變量Y標準差。-1≤ρ≤1，ρ>0正相關(guān)，ρ<0負相關(guān)，ρ=0不相關(guān)第18頁聯(lián)合分布和邊緣分布X和Y聯(lián)合分布為：則(X,Y)關(guān)于X邊緣分布為：(X,Y)關(guān)于Y邊緣分布為：第19頁2.貝葉斯法則(Bayes’theorem)假如

A為樣本空間Ω事件，B1,B2,…,Bn

為Ω一個劃分，且P(A)>0，P(Bi)>0(i=1,2,…,n)，那么當n=1時，第20頁2.貝葉斯法則(2)文字描述：

后驗概率

=(似然函數(shù)*先驗概率)/證據(jù)因子貝葉斯公式給出了“結(jié)果”事件A已發(fā)生條件下，“原因”事件B條件概率。對結(jié)果事件任何觀察都將增加我們對原因事件B真正分布知識第21頁貝葉斯決議理論假設(shè)研究分類問題有N個類別，各類別狀態(tài)用

Ci表示，i=1,2,…,N；對應(yīng)于各類別Ci出現(xiàn)先驗概率為P(Ci)；在特征空間已觀察到某一向量是d維特征空間上某一點，且條件概率密度函數(shù)是已知。那么，利用貝葉斯公式我們能夠得到后驗概率：第22頁基于最小錯誤率貝葉斯決議規(guī)則第23頁例：

假設(shè)某一個特殊句法結(jié)構(gòu)極少出現(xiàn)，平均大約每100,000個句子中才可能出現(xiàn)一次。我們開發(fā)了一個程序來判斷某個句子中是否存在這種特殊句法結(jié)構(gòu)。假如句子中確實含有該特殊句法結(jié)構(gòu)時，程序判斷結(jié)果為“存在”概率為0.95。假如句子中實際上不存在該句法結(jié)構(gòu)時，程序錯誤地判斷為“存在”概率為0.005。那么，這個程序測得句子含有該特殊句法結(jié)構(gòu)結(jié)論是正確概率有多大？第24頁解：假設(shè)G表示事件“句子確實存在該特殊句法結(jié)構(gòu)”，T表示事件“程序判斷結(jié)論是存在該特殊句法結(jié)構(gòu)”。那么，我們有：第25頁3.幾個慣用分布（1）二項式分布第26頁二項式分布第27頁在自然語言處理中，我們經(jīng)常以句子為處理單位。普通地，我們假設(shè)一個語句獨立于它前面其它語句，句子概率分布近似地認為符合二項式分布。第28頁（2）正態(tài)分布其中和都是常數(shù)，任意，>0，則稱X服從參數(shù)為和正態(tài)分布.記作第29頁標準正態(tài)分布正態(tài)分布稱為標準正態(tài)分布.其密度函數(shù)和分布函數(shù)慣用

和

表示：第30頁4.概率密度預計方法類先驗概率預計：用訓練數(shù)據(jù)中各類出現(xiàn)頻率預計依靠經(jīng)驗類條件概率密度預計兩種主要方法：參數(shù)預計：概率密度函數(shù)形式已知，而表征函數(shù)參數(shù)未知，經(jīng)過訓練數(shù)據(jù)來預計最大似然預計Bayes預計非參數(shù)預計：密度函數(shù)形式未知，也不作假設(shè)，利用訓練數(shù)據(jù)直接對概率密度進行預計Parzen窗法kn-近鄰法第31頁（1）最大似然預計先看一個簡單例子：一只野兔從前方竄過.是誰打中呢？

某位同學與一位獵人一起外出打獵.假如要你推測，你會怎樣想呢?只聽一聲槍響，野兔應(yīng)聲倒下.第32頁

你就會想，只發(fā)一槍便打中,獵人命中概率普通大于這位同學命中概率.看來這一槍是獵人射中.

這個例子所作推斷已經(jīng)表達了最大似然法基本思想.第33頁假設(shè)：概率密度函數(shù)形式已知預計參數(shù)θ是確定而未知獨立地按概率密度p(x|θ)抽取樣本集

K={x1,x2,…,xN}，用K預計未知參數(shù)θ第34頁最大似然預計-似然函數(shù)似然函數(shù)：對數(shù)(loglarized)似然函數(shù)：第35頁第36頁最大似然預計示意圖第37頁計算方法最大似然預計量使似然函數(shù)梯度為0：第38頁舉例：第39頁（2）貝葉斯預計-最大后驗概率用一組樣本集K={x1,x2,…,xN}預計未知參數(shù)θ未知參數(shù)θ

視為隨機變量，先驗分布為p(θ)，而在已知樣本集K出現(xiàn)條件下后驗概率為：p(θ|K)最大后驗概率預計-Maximumaposteriori(MAP)第40頁貝葉斯預計-最小風險參數(shù)預計條件風險：給定x條件下，預計量期望損失參數(shù)預計風險：預計量條件風險期望貝葉斯預計：使風險最小預計第41頁貝葉斯預計-最小風險-續(xù)損失函數(shù)：誤差平方第42頁信息論基礎(chǔ)自信息量信息熵聯(lián)合熵條件熵互信息相對熵交叉熵噪聲信道模型統(tǒng)計機器翻譯框架第43頁信息度量我們經(jīng)常說信息很多或信息極少，但卻難以說清到底是多少50萬字《史記》有多少信息量？莎士比亞全集有多少信息量？信息是有用，那么這個作用怎樣可觀、定量表達出來？第44頁信息論?1948年美國Shannon“通信數(shù)學原理”，用概率測度和數(shù)理統(tǒng)計方法，系統(tǒng)地討論了通信基本問題，奠定了信息論基礎(chǔ)?信息度量有三個基本方向：結(jié)構(gòu)、統(tǒng)計和語義?香農(nóng)所說信息是狹義信息，是統(tǒng)計信息，依據(jù)是概率不確定性度量?為何用不確定性度量？第45頁概念1：自信息量任意隨機事件自信息量定義為該事件發(fā)生概率對數(shù)負值。

設(shè)事件xi概率為p(xi)，則它自信息量定義式為：

I(xi)=-logp(xi)

小概率事件所包含不確定性大，其自信息量大；大約率事件所包含不確定性小，其自信息量小。I(xi)含義：在事件xi發(fā)生以前等于事件xi發(fā)生不確定性大小；

在事件xi發(fā)生以后等于事件xi所含有或能提供信息量。第46頁概念2：信息熵第47頁熵表示信源X每發(fā)一個符號（不論發(fā)什么符號）所提供平均信息量。熵也能夠被視為描述一個隨機變量不確定性數(shù)量。一個隨機變量熵越大，它不確定性越大。那么，正確預計其值可能性就越小。越不確定隨機變量越需要大信息量用以確定其值。第48頁一本50萬字書有多少信息量？7000漢字，等概率出現(xiàn)13比特10%漢字占了文本95%8-9比特上下文相關(guān)性5比特總信息量是250萬比特第49頁概念3：聯(lián)合熵(jointentropy)第50頁第51頁概念4：條件熵(conditionalentropy)能夠證實，第52頁概念5：互信息(mutualinformation)獲取到信息和要研究事物有“相關(guān)性”時，有利于消除不確定性假如(X,Y)~p(x,y)，X,Y之間互信息I(X;Y)為：

I(X;Y)=H(X)–H(X|Y)

互信息I(X;Y)是在知道了Y值后X不確定性降低許。即，Y值透露了多少關(guān)于X信息量。第53頁依據(jù)定義，展開H(X)和H(X|Y)輕易得到：點互信息：第54頁?

比如計算兩個詞搭配

I(偉大,祖國)=log2p(偉大,祖國)/(p(偉大)p(祖國))

I(,祖國)=log2p(,祖國)/(p()p(祖國))

?I(x,y)>>0：x和y關(guān)聯(lián)強度大?I(x,y)=0：x和y無關(guān)?I(x,y)<<0：x和y含有互補分布互信息在統(tǒng)計自然語言處理中應(yīng)用非常廣泛，如詞語聚類和詞義消歧等！第55頁互信息、條件熵與聯(lián)合熵關(guān)系第56頁概念6：相對熵(relativeentropy）相對熵(relativeentropy）或Kullback-Leiblerdivergence，KL距離)

兩個概率分布p(x)和q(x)相對熵定義為：該定義中約定0log(0/q)=0,plog(p/0)=∞第57頁相對熵示意圖第58頁概念7：交叉熵(crossentropy)假如一個隨機變量X~p(x)，q(x)為用于近似p(x)概率分布，那么，隨機變量X和模型q之間交叉熵定義為：交叉熵概念是用來衡量預計模型與真實概率分布之間差異情況。第59頁對于語言L=(Xi)~p(x)與其模型q交叉熵定義為:

為隨機變量(x1,x2,…,xn),表示長度為n自然語言序列，其中每個隨機變量xi(i=1，2，…，n)代表自然語言序列上一個語言單位詞。xi可在其所代表詞集X中取值。自然語言序列可被視為離散平穩(wěn)有記憶信源。

第60頁我們能夠假設(shè)這種語言是“理想”，即n趨于無窮大時，其全部“單詞”概率和為1。那么能夠假定語言L是穩(wěn)態(tài)遍歷(stationaryer

人人文庫> 全部分類> 應(yīng)用文書 > 作業(yè)報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第2講統(tǒng)計自然語言處理的數(shù)學基礎(chǔ)市公開課一等獎省賽課獲獎?wù)n件

文檔簡介

溫馨提示

最新文檔

評論

第2講統(tǒng)計自然語言處理的數(shù)學基礎(chǔ)市公開課一等獎省賽課獲獎?wù)n件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔