第2講統(tǒng)計自然語言處理的數(shù)學(xué)基礎(chǔ)市公開課一等獎省賽課獲獎?wù)n件_第1頁
第2講統(tǒng)計自然語言處理的數(shù)學(xué)基礎(chǔ)市公開課一等獎省賽課獲獎?wù)n件_第2頁
第2講統(tǒng)計自然語言處理的數(shù)學(xué)基礎(chǔ)市公開課一等獎省賽課獲獎?wù)n件_第3頁
第2講統(tǒng)計自然語言處理的數(shù)學(xué)基礎(chǔ)市公開課一等獎省賽課獲獎?wù)n件_第4頁
第2講統(tǒng)計自然語言處理的數(shù)學(xué)基礎(chǔ)市公開課一等獎省賽課獲獎?wù)n件_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

統(tǒng)計自然語言處理

基礎(chǔ)理論孫越恒第1頁主要內(nèi)容概率論基礎(chǔ)一些基本概念貝葉斯法則幾個慣用分布預(yù)計概率密度方法信息論基礎(chǔ)第2頁模型假如Output1總是和Ouput靠近,Output2總是和Output偏離,我們就認(rèn)為模型1比模型2好第3頁模型由體系結(jié)構(gòu)和參數(shù)兩部分組成舉例:住宅樓體系結(jié)構(gòu)?多層板樓?高層板樓?高層塔樓參數(shù)?層數(shù):?戶型:三室一廳,兩室一廳,……?層高:?供熱方式:地?zé)幔颗瘹馄???頁1.一些基本概念?

試驗一個可觀察結(jié)果人工或自然過程,其產(chǎn)生結(jié)果可能不止一個,且不能事先確定會產(chǎn)生什么結(jié)果比如:連擲兩次硬幣?樣本空間是一個試驗全部可能出現(xiàn)結(jié)果集合舉例:連擲兩次硬幣

–Ω={HH,HT,TH,TT},H:面朝上;T:面朝下第5頁?

事件一個試驗一些可能結(jié)果集合,是樣本空間一個子集舉例:連擲兩次硬幣?A:最少一次面朝上A={HT,TH,HH},?B:第二次面朝下B={HT,TT}第6頁概率(probability)

概率是從隨機試驗中事件到實數(shù)域函數(shù),用以表示事件發(fā)生可能性。假如用P(A)作為事件A概率,Ω是試驗樣本空間,則概率函數(shù)必須滿足以下公理:公理1:P(A)≥0公理2:P(Ω)=1公理3:假如對任意i和j(i≠j),事件Ai和Aj不相交(Ai∩Aj=Φ),則有第7頁舉例?連續(xù)三次擲硬幣

–樣本空間

?Ω={HHH,HHT,HTH,HTT,THH,THT,TTH,TTT} –事件A:恰好兩次面朝下

?A={HTT,THT,TTH} –做1000次試驗,計數(shù)得386次為兩次面朝下

?預(yù)計:P(A)=386/1000=0.386 –繼續(xù)做7組試驗,得:373,399,382,355,372,

406,359,共8組試驗

–計算平均值:P(A)=(0.386+0.373+…)/8=0.379,或累計:P(A)=(386+373+…)/8000=3032/8000=0.379 –統(tǒng)一分布假設(shè)為:3/8=0.375第8頁聯(lián)合概率A和B

兩個事件聯(lián)合概率就是A和B兩個事件同時出現(xiàn)概率A和B聯(lián)合概率表示為:P(A,B)或P(A∩B)舉例:連擲兩次硬幣

?事件A:第一次面朝上,A={HH,HT}?事件B:第二次面朝下,B={HT,TT}?聯(lián)合事件A∩B={HT}第9頁條件概率(conditionalprobability)假如A和B是樣本空間Ω

上兩個事件,P(B)>0,那么在給定B時A條件概率P(A|B)為:條件概率P(A|B)給出了在已知事件B發(fā)生情況下,事件A發(fā)生概率。普通地,P(A|B)≠P(A)第10頁概率乘法原理?P(A,B)=P(A|B)×P(B)=P(B|A)×P(A)?ChainRule(鏈?zhǔn)揭?guī)則)

P(A1,A2,…,An)=P(A1)×P(A2|A1)×P(A3|A1,A2)×…×P(An|A1,A2,…,An-1)?舉例1:詞性標(biāo)注

–P(det,adj,n)=P(det)×P(adj|det)×P(n|det,adj)?舉例2:計算一個句子概率

–p(w1,w2,…,wn)=p(w1)p(w2|w1)……p(wn|w1…wn-1)第11頁獨立和條件獨立?

獨立

P(A,B)=P(A)×P(B)?P(A|B)=P(A),P(B|A)=P(B)?條件獨立

–P(A,B|C)=P(A|B,C)×P(B|C)=P(A|C)×P(B|C) ?P(A|B,C)=P(A|C),P(B|A,C)=P(B|C) –Na?veBayesian:假定各特征之間條件獨立

?P(A1,A2,…,An|B)=Πi=1,…,nP(Ai|B)

第12頁全概率公式(1)設(shè)Ω

為試驗E樣本空間,B1,B2,…Bn

為Ω一組事件,且他們兩兩互斥,且每次試驗中最少發(fā)生一個。即:

則稱B1,B2,…Bn為樣本空間Ω一個劃分。第13頁全概率公式(2)設(shè)A為Ω事件,B1,B2,…Bn

為Ω一個劃分,且P(Bi)>0(i=1,2,…,n),則全概率公式為:第14頁隨機變量(RandomVariable)?隨機變量是一個函數(shù)X:Ω→R。Ω是樣本空間,R是實數(shù)集合–用于討論和事件空間相關(guān)數(shù)值出現(xiàn)概率–數(shù)值也比事件更易于處理?舉例:–[X=0]={TT};[X=1]={TH,HT};[X=2]={HH}–X是兩次擲硬幣面朝上次數(shù)?數(shù)值能夠是連續(xù)值,也能夠是離散值第15頁期望(expectation)–

舉例:?六面擲骰子問題:E(X)=1?1/6+2?1/6+3?1/6+4?1/6+5?1/6+6?1/6=3.5第16頁方差(variance)舉例——考試名次第17頁協(xié)方差與相關(guān)系數(shù)協(xié)方差:能夠衡量隨機變量X與Y之間統(tǒng)計獨立程度。

任意兩個隨機變量X和Y協(xié)方差,記為Cov(X,Y),定義為:相關(guān)系數(shù):其中,是隨機變量X標(biāo)準(zhǔn)差,是隨機變量Y標(biāo)準(zhǔn)差。-1≤ρ≤1,ρ>0正相關(guān),ρ<0負相關(guān),ρ=0不相關(guān)第18頁聯(lián)合分布和邊緣分布X和Y聯(lián)合分布為:則(X,Y)關(guān)于X邊緣分布為:(X,Y)關(guān)于Y邊緣分布為:第19頁2.貝葉斯法則(Bayes’theorem)假如

A為樣本空間Ω事件,B1,B2,…,Bn

為Ω一個劃分,且P(A)>0,P(Bi)>0(i=1,2,…,n),那么當(dāng)n=1時,第20頁2.貝葉斯法則(2)文字描述:

后驗概率

=(似然函數(shù)*先驗概率)/證據(jù)因子貝葉斯公式給出了“結(jié)果”事件A已發(fā)生條件下,“原因”事件B條件概率。對結(jié)果事件任何觀察都將增加我們對原因事件B真正分布知識第21頁貝葉斯決議理論假設(shè)研究分類問題有N個類別,各類別狀態(tài)用

Ci表示,i=1,2,…,N;對應(yīng)于各類別Ci出現(xiàn)先驗概率為P(Ci);在特征空間已觀察到某一向量是d維特征空間上某一點,且條件概率密度函數(shù)是已知。那么,利用貝葉斯公式我們能夠得到后驗概率:第22頁基于最小錯誤率貝葉斯決議規(guī)則第23頁例:

假設(shè)某一個特殊句法結(jié)構(gòu)極少出現(xiàn),平均大約每100,000個句子中才可能出現(xiàn)一次。我們開發(fā)了一個程序來判斷某個句子中是否存在這種特殊句法結(jié)構(gòu)。假如句子中確實含有該特殊句法結(jié)構(gòu)時,程序判斷結(jié)果為“存在”概率為0.95。假如句子中實際上不存在該句法結(jié)構(gòu)時,程序錯誤地判斷為“存在”概率為0.005。那么,這個程序測得句子含有該特殊句法結(jié)構(gòu)結(jié)論是正確概率有多大?第24頁解:假設(shè)G表示事件“句子確實存在該特殊句法結(jié)構(gòu)”,T表示事件“程序判斷結(jié)論是存在該特殊句法結(jié)構(gòu)”。那么,我們有:第25頁3.幾個慣用分布(1)二項式分布第26頁二項式分布第27頁在自然語言處理中,我們經(jīng)常以句子為處理單位。普通地,我們假設(shè)一個語句獨立于它前面其它語句,句子概率分布近似地認(rèn)為符合二項式分布。第28頁(2)正態(tài)分布其中和都是常數(shù),任意,>0,則稱X服從參數(shù)為和正態(tài)分布.記作第29頁標(biāo)準(zhǔn)正態(tài)分布正態(tài)分布稱為標(biāo)準(zhǔn)正態(tài)分布.其密度函數(shù)和分布函數(shù)慣用

表示:第30頁4.概率密度預(yù)計方法類先驗概率預(yù)計:用訓(xùn)練數(shù)據(jù)中各類出現(xiàn)頻率預(yù)計依靠經(jīng)驗類條件概率密度預(yù)計兩種主要方法:參數(shù)預(yù)計:概率密度函數(shù)形式已知,而表征函數(shù)參數(shù)未知,經(jīng)過訓(xùn)練數(shù)據(jù)來預(yù)計最大似然預(yù)計Bayes預(yù)計非參數(shù)預(yù)計:密度函數(shù)形式未知,也不作假設(shè),利用訓(xùn)練數(shù)據(jù)直接對概率密度進行預(yù)計Parzen窗法kn-近鄰法第31頁(1)最大似然預(yù)計先看一個簡單例子:一只野兔從前方竄過.是誰打中呢?

某位同學(xué)與一位獵人一起外出打獵.假如要你推測,你會怎樣想呢?只聽一聲槍響,野兔應(yīng)聲倒下.第32頁

你就會想,只發(fā)一槍便打中,獵人命中概率普通大于這位同學(xué)命中概率.看來這一槍是獵人射中.

這個例子所作推斷已經(jīng)表達了最大似然法基本思想.第33頁假設(shè):概率密度函數(shù)形式已知預(yù)計參數(shù)θ是確定而未知獨立地按概率密度p(x|θ)抽取樣本集

K={x1,x2,…,xN},用K預(yù)計未知參數(shù)θ第34頁最大似然預(yù)計-似然函數(shù)似然函數(shù):對數(shù)(loglarized)似然函數(shù):第35頁第36頁最大似然預(yù)計示意圖第37頁計算方法最大似然預(yù)計量使似然函數(shù)梯度為0:第38頁舉例:第39頁(2)貝葉斯預(yù)計-最大后驗概率用一組樣本集K={x1,x2,…,xN}預(yù)計未知參數(shù)θ未知參數(shù)θ

視為隨機變量,先驗分布為p(θ),而在已知樣本集K出現(xiàn)條件下后驗概率為:p(θ|K)最大后驗概率預(yù)計-Maximumaposteriori(MAP)第40頁貝葉斯預(yù)計-最小風(fēng)險參數(shù)預(yù)計條件風(fēng)險:給定x條件下,預(yù)計量期望損失參數(shù)預(yù)計風(fēng)險:預(yù)計量條件風(fēng)險期望貝葉斯預(yù)計:使風(fēng)險最小預(yù)計第41頁貝葉斯預(yù)計-最小風(fēng)險-續(xù)損失函數(shù):誤差平方第42頁信息論基礎(chǔ)自信息量信息熵聯(lián)合熵條件熵互信息相對熵交叉熵噪聲信道模型統(tǒng)計機器翻譯框架第43頁信息度量我們經(jīng)常說信息很多或信息極少,但卻難以說清到底是多少50萬字《史記》有多少信息量?莎士比亞全集有多少信息量?信息是有用,那么這個作用怎樣可觀、定量表達出來?第44頁信息論?1948年美國Shannon“通信數(shù)學(xué)原理”,用概率測度和數(shù)理統(tǒng)計方法,系統(tǒng)地討論了通信基本問題,奠定了信息論基礎(chǔ)?信息度量有三個基本方向:結(jié)構(gòu)、統(tǒng)計和語義?香農(nóng)所說信息是狹義信息,是統(tǒng)計信息,依據(jù)是概率不確定性度量?為何用不確定性度量?第45頁概念1:自信息量任意隨機事件自信息量定義為該事件發(fā)生概率對數(shù)負值。

設(shè)事件xi概率為p(xi),則它自信息量定義式為:

I(xi)=-logp(xi)

小概率事件所包含不確定性大,其自信息量大;大約率事件所包含不確定性小,其自信息量小。I(xi)含義:在事件xi發(fā)生以前等于事件xi發(fā)生不確定性大?。?/p>

在事件xi發(fā)生以后等于事件xi所含有或能提供信息量。第46頁概念2:信息熵第47頁熵表示信源X每發(fā)一個符號(不論發(fā)什么符號)所提供平均信息量。熵也能夠被視為描述一個隨機變量不確定性數(shù)量。一個隨機變量熵越大,它不確定性越大。那么,正確預(yù)計其值可能性就越小。越不確定隨機變量越需要大信息量用以確定其值。第48頁一本50萬字書有多少信息量?7000漢字,等概率出現(xiàn)13比特10%漢字占了文本95%8-9比特上下文相關(guān)性5比特總信息量是250萬比特第49頁概念3:聯(lián)合熵(jointentropy)第50頁第51頁概念4:條件熵(conditionalentropy)能夠證實,第52頁概念5:互信息(mutualinformation)獲取到信息和要研究事物有“相關(guān)性”時,有利于消除不確定性假如(X,Y)~p(x,y),X,Y之間互信息I(X;Y)為:

I(X;Y)=H(X)–H(X|Y)

互信息I(X;Y)是在知道了Y值后X不確定性降低許。即,Y值透露了多少關(guān)于X信息量。第53頁依據(jù)定義,展開H(X)和H(X|Y)輕易得到:點互信息:第54頁?

比如計算兩個詞搭配

I(偉大,祖國)=log2p(偉大,祖國)/(p(偉大)p(祖國))

I(,祖國)=log2p(,祖國)/(p()p(祖國))

?I(x,y)>>0:x和y關(guān)聯(lián)強度大?I(x,y)=0:x和y無關(guān)?I(x,y)<<0:x和y含有互補分布互信息在統(tǒng)計自然語言處理中應(yīng)用非常廣泛,如詞語聚類和詞義消歧等!第55頁互信息、條件熵與聯(lián)合熵關(guān)系第56頁概念6:相對熵(relativeentropy)相對熵(relativeentropy)或Kullback-Leiblerdivergence,KL距離)

兩個概率分布p(x)和q(x)相對熵定義為:該定義中約定0log(0/q)=0,plog(p/0)=∞第57頁相對熵示意圖第58頁概念7:交叉熵(crossentropy)假如一個隨機變量X~p(x),q(x)為用于近似p(x)概率分布,那么,隨機變量X和模型q之間交叉熵定義為:交叉熵概念是用來衡量預(yù)計模型與真實概率分布之間差異情況。第59頁對于語言L=(Xi)~p(x)與其模型q交叉熵定義為:

為隨機變量(x1,x2,…,xn),表示長度為n自然語言序列,其中每個隨機變量xi(i=1,2,…,n)代表自然語言序列上一個語言單位詞。xi可在其所代表詞集X中取值。自然語言序列可被視為離散平穩(wěn)有記憶信源。

第60頁我們能夠假設(shè)這種語言是“理想”,即n趨于無窮大時,其全部“單詞”概率和為1。那么能夠假定語言L是穩(wěn)態(tài)遍歷(stationaryer

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論