版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
統(tǒng)計(jì)自然語(yǔ)言處理基本概念第一頁(yè),共七十三頁(yè),編輯于2023年,星期三模型真實(shí)世界中的系統(tǒng)模型1InputOutput模型2Output1Output2如果Output1總是和Ouput接近,Output2總是和Output偏離,我們就認(rèn)為模型1比模型2好第二頁(yè),共七十三頁(yè),編輯于2023年,星期三
真實(shí)系統(tǒng)模型1模型2InputOutput第三頁(yè),共七十三頁(yè),編輯于2023年,星期三第四頁(yè),共七十三頁(yè),編輯于2023年,星期三模型由體系結(jié)構(gòu)和參數(shù)兩部分構(gòu)成舉例:住宅樓多層板樓高層板樓高層塔樓參數(shù)層數(shù):戶型:三室一廳,兩室一廳,……舉架高度:供熱方式:地?zé)??暖氣片?第五?yè),共七十三頁(yè),編輯于2023年,星期三目錄樣本空間(SampleSpace)估計(jì)器(Estimator)和隨機(jī)過(guò)程(StochasticProcess)信息論(InformationTheory)數(shù)據(jù)集分類(DataSetClassification)性能評(píng)價(jià)(PerformanceMeasure)第六頁(yè),共七十三頁(yè),編輯于2023年,星期三樣本空間
(SampleSpace)第七頁(yè),共七十三頁(yè),編輯于2023年,星期三試驗(yàn)(Experiment)試驗(yàn)一個(gè)可觀察結(jié)果的人工或自然的過(guò)程,其產(chǎn)生的結(jié)果可能不止一個(gè),且不能事先確定會(huì)產(chǎn)生什么結(jié)果例如連擲兩次硬幣樣本空間是一個(gè)試驗(yàn)的全部可能出現(xiàn)的結(jié)果的集合舉例連擲兩次硬幣={HH,HT,TH,TT},H:面朝上;T:面朝下第八頁(yè),共七十三頁(yè),編輯于2023年,星期三事件(Event)事件一個(gè)試驗(yàn)的一些可能結(jié)果的集合,是樣本空間的一個(gè)子集舉例:連擲兩次硬幣A:至少一次面朝上B:第二次面朝下A={HT,TH,HH},B={HT,TT}第九頁(yè),共七十三頁(yè),編輯于2023年,星期三事件的概率事件的概率重復(fù)m試驗(yàn),如果事件A出現(xiàn)的次數(shù)為n,則事件A的概率為P(A)=n/m,這稱為概率的頻率解釋,或稱統(tǒng)計(jì)解釋頻率的穩(wěn)定性又稱為經(jīng)驗(yàn)大數(shù)定理舉例:連擲兩次硬幣A:至少一次面朝上B:第二次面朝下P(A)=3/4,P(B)=1/2當(dāng)試驗(yàn)不能重復(fù)時(shí),概率失去其頻率解釋的含義,此時(shí)概率還有其他解釋:貝葉斯學(xué)派和信念學(xué)派一個(gè)人出生時(shí)的體重,一個(gè)人只能出生一次第十頁(yè),共七十三頁(yè),編輯于2023年,星期三舉例舉例:連續(xù)三次擲硬幣樣本空間={HHH,HHT,HTH,HTT,THH,THT,TTH,TTT}事件A:恰好兩次面朝下A={HTT,THT,TTH}做1000次試驗(yàn),計(jì)數(shù)得386次為兩次面朝下估計(jì):P(A)=386/1000=0.386繼續(xù)做7組試驗(yàn),得:373,399,382,355,372,406,359,共8組試驗(yàn)計(jì)算平均值:P(A)=(0.386+0.373+…)/8=0.379,或累計(jì):P(A)=(386+373+…)/8000=3032/8000=0.379統(tǒng)一的分布假設(shè)為:3/8=0.375第十一頁(yè),共七十三頁(yè),編輯于2023年,星期三概率空間概率空間的三個(gè)公理P(A)0P()=1P(AB)=P(A)+P(B)ifAB=這三條公理也是概率的原始定義推論:P()=0;ABP(A)<P(B);P(ā)=1-P(A)不是所有0和1之間的值都是概率例如:|cos(x)|就不是概率第十二頁(yè),共七十三頁(yè),編輯于2023年,星期三概率空間圖示ABAB第十三頁(yè),共七十三頁(yè),編輯于2023年,星期三聯(lián)合事件A和B兩個(gè)事件的聯(lián)合概率就是A和B兩個(gè)事件同時(shí)出現(xiàn)的概率A和B的聯(lián)合概率表示為:P(A,B)或P(AB)舉例:連擲兩次硬幣事件A:第一次面朝上,A={HH,HT}事件B:第二次面朝下,B={HT,TT}聯(lián)合事件AB={HT}第十四頁(yè),共七十三頁(yè),編輯于2023年,星期三條件概率在事件B發(fā)生的條件下事件A發(fā)生的概率P(A|B)=P(A,B)/P(B)P(A|B)=(c(A,B)/T)/(c(B)/T)=c(A,B)/c(B)c(A)代表事件A出現(xiàn)的次數(shù),c(B)同理T是試驗(yàn)總次數(shù)舉例:兩次擲硬幣問(wèn)題事件A:第一次面朝上,A={HH,HT}事件B:第二次面朝下,B={HT,TT}AB={HT}P(A|B)=1/2條件概率可以被視為從另外一個(gè)樣本空間產(chǎn)生第十五頁(yè),共七十三頁(yè),編輯于2023年,星期三概率的乘法原理P(A,B)=P(A|B)P(B)=P(B|A)P(A)ChainRuleP(A1,A2,…,An)=P(A1)P(A2|A1)P(A3|A1,A2)…P(An|A1,A2,…,An)舉例1:詞性標(biāo)注P(det,adj,n)=P(det)P(adj|det)P(n|det,adj)舉例2:計(jì)算一個(gè)句子的概率p(w1,w2,…,wn)=p(w1)p(w2|w1)……p(wn|w1…wn-1)第十六頁(yè),共七十三頁(yè),編輯于2023年,星期三獨(dú)立和條件獨(dú)立獨(dú)立定義:P(A,B)=P(A)P(B)P(A|B)=P(A),P(B|A)=P(B)條件獨(dú)立定義:P(A,B|C)=P(A|B,C)P(B|C)=P(A|C)P(B|C)P(A|B,C)=P(A|C),P(B|A,C)=P(B|C)Na?veBaiysian:假定各特征之間條件獨(dú)立P(A1,A2,…,An|B)=i=1,…,nP(Ai|B)避免一個(gè)錯(cuò)誤:P(A|B,C)=P(A|B)P(A|C)第十七頁(yè),共七十三頁(yè),編輯于2023年,星期三獨(dú)立和條件獨(dú)立獨(dú)立不意味著條件獨(dú)立舉例:色盲和血緣關(guān)系A(chǔ):甲是色盲B:乙是色盲C:甲和乙有血緣關(guān)系P(A,B)=P(A)P(B)P(A,B|C)P(A|C)P(B|C)條件獨(dú)立不意味著獨(dú)立P(肺癌,買雪茄|吸煙)=P(肺癌|吸煙)P(買雪茄|吸煙)P(肺癌,買雪茄)P(肺癌)P(買雪茄)第十八頁(yè),共七十三頁(yè),編輯于2023年,星期三Bayes’Rule根據(jù)乘法原理:P(A,B)=P(A)P(B|A)=P(B)P(A|B)得到貝葉斯原理:P(A|B)=P(A)P(B|A)/P(B)應(yīng)用1argmaxAP(A|B)=argmaxAP(A)P(B|A)/P(B)=argmaxAP(A)P(B|A)應(yīng)用2A1,A2,…,An是特征,B是結(jié)論P(yáng)(B|A1,A2,…,An)=P(A1,A2,…,An|B)P(B)/P(A1,A2,…,An)其中:P(A1,A2,…,An|B)=i=1,nP(Ai|B)第十九頁(yè),共七十三頁(yè),編輯于2023年,星期三Bayes舉例應(yīng)用3英漢統(tǒng)計(jì)機(jī)器翻譯P(CW1,…,CWm|EW1,…,EWn)=P(EW1,…,EWn|CW1,…,CWm)P(CW1,…,CWm)/P(EW1,…,EWn)漢語(yǔ)句子CW1,…,CWm英語(yǔ)句子EW1,…,EWm翻譯模型:P(EW1,…,EWn|CW1,…,CWm)目標(biāo)語(yǔ)語(yǔ)言模型:P(CW1,…,CWm)第二十頁(yè),共七十三頁(yè),編輯于2023年,星期三隨機(jī)變量(RandomVariable)隨機(jī)變量是一個(gè)函數(shù)X:R。是樣本空間,R是實(shí)數(shù)集合人們常常關(guān)心和樣本點(diǎn)有關(guān)的數(shù)量指標(biāo)數(shù)值也比事件更易于處理,舉例打靶的環(huán)數(shù)舉例:[X=0]={TT};[X=1]={TH,HT};[X=2]={HH}X是兩次擲硬幣面朝上的次數(shù)數(shù)值可以是連續(xù)值,也可以是離散值PX(x)=P(X=x)=dfP(Ax),Ax={a:X(a)=x},通常簡(jiǎn)寫(xiě)作P(x)第二十一頁(yè),共七十三頁(yè),編輯于2023年,星期三期望Expectation期望是隨機(jī)變量的均值E(X)=xX()xPX(x)(對(duì)于離散值)E(X)=RxP(x)dx(對(duì)于連續(xù)值)舉例:六面擲骰子問(wèn)題:E(X)=3.511/6+21/6+31/6+41/6+51/6+61/6=3.5兩次六面擲骰子得到的點(diǎn)數(shù)和:E(X)=721/36+32/36+43/36+……=7方差(Variance)E((X-E(X))2)=xX()(x-E(X))2PX(x)(對(duì)于離散值)E((X-E(X))2)=R(x-E(X))2P(x)dx(對(duì)于連續(xù)值)王勵(lì)勤和王皓的期望接近,王勵(lì)勤的方差大第二十二頁(yè),共七十三頁(yè),編輯于2023年,星期三概率分布多項(xiàng)式分布(MultinomialDistribution)P(n1,,nm)=n!/(n1!nm!)p1n1pmnmini=n,做n次試驗(yàn)輸出第i種結(jié)果的次數(shù)是ni,第i種結(jié)果出現(xiàn)的概率是pi二項(xiàng)式分布(BinomialDistribution)輸出:0或1做n次試驗(yàn)關(guān)心的是試驗(yàn)成功的次數(shù)的概率Pb(r|n)=Cnrpr(1-p)n-rCnr是從n個(gè)元素中任意取出r個(gè)元素的組合數(shù)p是成功的概率如果是等概率分布,則p=1/2,Pb(r|n)=Cnr/2n第二十三頁(yè),共七十三頁(yè),編輯于2023年,星期三協(xié)方差和相關(guān)系數(shù)協(xié)方差(Covariance)Cxy=E[(X-E(X))(Y-E(Y))]相關(guān)系數(shù)(CorrelationCoefficient)xy=Cxy/(xy)x是隨機(jī)變量X的方差y是隨機(jī)變量Y的方差-11,>0正相關(guān),<0負(fù)相關(guān),=0不相關(guān)第二十四頁(yè),共七十三頁(yè),編輯于2023年,星期三參數(shù)估計(jì)
ParameterEstimation第二十五頁(yè),共七十三頁(yè),編輯于2023年,星期三參數(shù)估計(jì)研究對(duì)象的全體所構(gòu)成的集合成為總體(population)數(shù)理統(tǒng)計(jì)的任務(wù):已經(jīng)知道總體的一部分個(gè)體的指標(biāo)變量值,以此為出發(fā)點(diǎn)來(lái)推斷總體分布的性質(zhì)簡(jiǎn)單樣本(simplesample)是指這樣的樣本(X1,X2,…,Xn),它的分量Xi,i=1,…,n是獨(dú)立同分布的隨機(jī)變量(向量)第二十六頁(yè),共七十三頁(yè),編輯于2023年,星期三估計(jì)器設(shè)(X1,X2,…,Xn)為一個(gè)樣本,它的一個(gè)與總體分布無(wú)關(guān)的函數(shù)(或向量函數(shù))f(X1,X2,…,Xn)稱為一個(gè)統(tǒng)計(jì)量(statistics)舉例:擲硬幣問(wèn)題X:面朝上/面朝下T(X1,X2,…,Xn):面朝上的次數(shù)估計(jì)器(Estimator)根據(jù)樣本計(jì)算參數(shù)一個(gè)估計(jì)器是隨機(jī)變量的函數(shù),同時(shí)其自身也可以視為一個(gè)隨機(jī)變量估計(jì)器的準(zhǔn)確率依賴于采樣數(shù)據(jù)的大小第二十七頁(yè),共七十三頁(yè),編輯于2023年,星期三參數(shù)估計(jì)所有參數(shù)都是從一個(gè)有限的樣本集合中估計(jì)出來(lái)的一個(gè)好的估計(jì)器的標(biāo)準(zhǔn):無(wú)偏(unbias):期望等于真實(shí)值有效(efficient):方差小一致(consistent):估計(jì)的準(zhǔn)確性隨樣板數(shù)量的增加而提高一些常用的估計(jì)方法極大似然估計(jì)最小二成估計(jì)貝葉斯估計(jì)第二十八頁(yè),共七十三頁(yè),編輯于2023年,星期三極大似然估計(jì)極大似然估計(jì)MaximumLikelihoodEstimation(MLE)選擇一組參數(shù),使似然函數(shù)L()達(dá)到最大L()=f(x1,x2,…,xn|)=i=1,nf(xi|)舉例:罐里有黑球和白球,比例3:1,今連續(xù)抽取兩球全為黑球,問(wèn)罐里黑球多還是白球多?設(shè)黑球概率為p,抽取n次拿到x次黑球的概率符合二項(xiàng)分布:fn(x,p)=Cnxpx(1-p)n-x今抽取兩次全是黑球f2(2,p)=C22p2(1-p)0=p2若p=1/4,則f2(2,p)=1/16;若p=3/4,則f2(2,p)=9/16選擇概率大的:p=3/4,黑球多第二十九頁(yè),共七十三頁(yè),編輯于2023年,星期三隨機(jī)過(guò)程隨機(jī)過(guò)程(StochasticProcess)X(t),tTX是一組隨機(jī)變量T是過(guò)程的索引集合,例如時(shí)間或位置如果T是可數(shù)集,則X(t)是離散時(shí)間過(guò)程舉例:詞性標(biāo)注C(t),C是詞性,t是位置C(1)=noun,C(2)=verb,…,C(n)=pron第三十頁(yè),共七十三頁(yè),編輯于2023年,星期三馬爾可夫過(guò)程馬爾可夫過(guò)程,也稱馬爾可夫鏈MarcovChain離散時(shí)間,離散狀態(tài)無(wú)后效性:已知現(xiàn)在狀態(tài),則未來(lái)和過(guò)去無(wú)關(guān)P(Xn=xn|X1=x1,X2=x2,…,Xn-1=xn-1)=P(Xn=xn|Xn-1=xn-1)舉例:拼音輸入法一本[書(shū)](輸,淑,叔,舒,……)P(書(shū)|一,本)=P(書(shū)|本)第三十一頁(yè),共七十三頁(yè),編輯于2023年,星期三信息論第三十二頁(yè),共七十三頁(yè),編輯于2023年,星期三信息控制論創(chuàng)始人(維納NorbertWiener)信息既不是物質(zhì)也不是能量,是人類在適應(yīng)外部世界時(shí)以及在感知外部世界時(shí)而作出協(xié)調(diào)時(shí)與外部環(huán)境交換內(nèi)容的總和。信息論奠基者(香農(nóng)ClauseShannon)信息就是能夠用來(lái)消除不確定性的東西,是一個(gè)事件發(fā)生概率的對(duì)數(shù)的負(fù)值RobertM.Losee信息可以被定義為一個(gè)處理過(guò)程的特征,這些特征就是輸入和處理過(guò)程中產(chǎn)生的信息信息存在于客體間的差別,而非客體本身題帕三絕新消息的信息量大布什是美國(guó)總統(tǒng)(熟知,信息量小)馬其頓總統(tǒng)遇難(新知,信息量大)第三十三頁(yè),共七十三頁(yè),編輯于2023年,星期三信息論1948年美國(guó)Shannan香農(nóng)“通信的數(shù)學(xué)理論”,用概率測(cè)度和數(shù)理統(tǒng)計(jì)的方法,系統(tǒng)地討論了通信的基本問(wèn)題,奠定了信息論的基礎(chǔ)信息的度量有三個(gè)基本方向:結(jié)構(gòu)的、統(tǒng)計(jì)的和語(yǔ)義的香農(nóng)所說(shuō)的信息是狹義的信息,是統(tǒng)計(jì)信息,依據(jù)是概率的不確定性度量第三十四頁(yè),共七十三頁(yè),編輯于2023年,星期三自信息量自信息量(Self-information)I(X)=-logP(X)小概率事件包含的信息量大,大概率事件包含的信息量小第三十五頁(yè),共七十三頁(yè),編輯于2023年,星期三互信息
MutualInformationI(x,y)=log2p(x,y)/(p(x)p(y))比如計(jì)算兩個(gè)詞的搭配I(偉大,祖國(guó))=log2p(偉大,祖國(guó))/(p(偉大)p(祖國(guó)))此值較高,說(shuō)明“偉大”和“祖國(guó)”是一個(gè)比較強(qiáng)的搭配I(的,祖國(guó))=log2p(的,祖國(guó))/(p(的)p(祖國(guó)))此值較低,因?yàn)閜(的)太高,“的”和“祖國(guó)”不是一個(gè)穩(wěn)定的搭配I(x,y)>>0:x和y關(guān)聯(lián)強(qiáng)度大I(x,y)=0:x和y無(wú)關(guān)I(x,y)<<0:x和y具有互補(bǔ)的分布第三十六頁(yè),共七十三頁(yè),編輯于2023年,星期三熵(Entropy)熵(Entropy)Chaos(混沌),無(wú)序物理學(xué):除非施加能量,否則熵不會(huì)降低舉例:把房間弄亂很容易,整理干凈不容易是不確定性(Uncertainty)的衡量不確定性越高,熵越高,我們從一次實(shí)驗(yàn)中得到的信息量越大第三十七頁(yè),共七十三頁(yè),編輯于2023年,星期三熵的公式熵H(X)=-xp(x)logxp(x)假設(shè)PX(x)是隨機(jī)變量X的分布基本輸出字母表是單位:bits熵是X的平均信息量,是自信息量的期望E(X)=xp(x)
xI(X)=-logp(x),取2為底,I(X)=-log2p(x)E(I(X)=E(-log2p(x))=xp(x)(-log2p(x))
=H(X)H(X)=H(p)=Hp(X)=HX(p)=H(pX)第三十八頁(yè),共七十三頁(yè),編輯于2023年,星期三熵的例子擲均勻硬幣,={H,T}p(H)=.5,p(T)=.5H(p)=-0.5log20.5+(-0.5log20.5)=132面的均勻骰子,擲骰子H(p)=-32((1/32)log2(1/32))=5事實(shí)上,21=2,25=32(perplexity)擲不均勻硬幣p(H)=0.2,p(T)=0.8,H(p)=0.722p(H)=0.01,p(T)=0.99,H(p)=0.081第三十九頁(yè),共七十三頁(yè),編輯于2023年,星期三好書(shū)店,差書(shū)店第四十頁(yè),共七十三頁(yè),編輯于2023年,星期三什么時(shí)候H(p)=0?試驗(yàn)結(jié)果事先已經(jīng)知道即:x,p(x)=1;y,p(y)=0ifyx熵有沒(méi)有上限?沒(méi)有一般的上限對(duì)于||=n,H(p)log2n均衡分布的熵是最大的第四十一頁(yè),共七十三頁(yè),編輯于2023年,星期三等概率分布2個(gè)輸出的等概率分布,H(p)=1bit32個(gè)輸出的等概率分布,H(p)=5bits43億輸出的等概率分布,H(p)=32bits非等概率分布32個(gè)輸出,2個(gè)0.5,其余為0,H(p)=1bit怎樣比較具有不同數(shù)量輸出的“熵”第四十二頁(yè),共七十三頁(yè),編輯于2023年,星期三混亂度Perplexity混亂度G(p)=2H(p)平均每次試驗(yàn)有多少種可能的結(jié)果在NLP中,如果詞表中的詞具有統(tǒng)一的分布概率,則最難預(yù)測(cè),熵最大,混亂度最高反之,分布越不均衡,熵越小,混亂度越小第四十三頁(yè),共七十三頁(yè),編輯于2023年,星期三聯(lián)合熵和條件熵兩個(gè)隨機(jī)變量:X(空間是),Y()聯(lián)合熵(JointEntropy)(X,Y)被視為一個(gè)事件H(X,Y)=-xyp(x,y)log2p(x,y)條件熵(ConditionalEntropy)H(Y|X)=-xyp(x,y)log2p(y|x)p(x,y)是加權(quán),權(quán)值是沒(méi)有條件的第四十四頁(yè),共七十三頁(yè),編輯于2023年,星期三條件熵H(Y|X)=xp(x)H(Y|X=x)=xp(x)(-yp(y|x)log2p(y|x))=-xyp(y|x)p(x)log2p(y|x)=-xyp(x,y)log2p(y|x)第四十五頁(yè),共七十三頁(yè),編輯于2023年,星期三熵的性質(zhì)熵的非負(fù)的H(X)0ChainRuleH(X,Y)=H(Y|X)+H(X)H(X,Y)=H(X|Y)+H(Y)H(X,Y)H(X)+H(Y),X和Y獨(dú)立時(shí)相等H(Y|X)H(Y),條件熵比熵小第四十六頁(yè),共七十三頁(yè),編輯于2023年,星期三熵的編碼意義如果一個(gè)符號(hào)序列是滿足概率分布p的隨機(jī)過(guò)程產(chǎn)生的,那么對(duì)這個(gè)序列進(jìn)行編碼至少需要的bit數(shù)是H(p)壓縮問(wèn)題如果數(shù)據(jù)中有很多重復(fù)的模式,則易于壓縮,因?yàn)殪匦》駝t,熵大,不容易壓縮第四十七頁(yè),共七十三頁(yè),編輯于2023年,星期三編碼實(shí)例怎樣給ISOLatin1編碼?通常用8位經(jīng)驗(yàn)表明:有的字符經(jīng)常出現(xiàn),有的字符很少出現(xiàn)我們可以給經(jīng)常出現(xiàn)的字用較少的bit來(lái)表示,給很少出現(xiàn)的字符用較多的bit來(lái)表示假設(shè):p(‘a(chǎn)’)=0.3,p(‘b’)=0.3,p(‘c’)=0.3,其余p(x)=0.0004編碼:a:00,b:01,c:10,其余:11b1b2…b8對(duì)于符號(hào)串:acbbécbaac,編碼為:
acbbécbaac0010010111000011111001000010如果每個(gè)符號(hào)用8位編碼,需要80位,現(xiàn)在需要28位第四十八頁(yè),共七十三頁(yè),編輯于2023年,星期三語(yǔ)言的熵p(cn+1|c1…cn)ci是語(yǔ)言中的一個(gè)字符c1…cn是歷史h舉例:漢語(yǔ),n=3p(趙|圍魏救):高p(去|我曾經(jīng)):低計(jì)算語(yǔ)言的條件熵-hHcp(c,h)log2p(c|h)第四十九頁(yè),共七十三頁(yè),編輯于2023年,星期三各種語(yǔ)言的熵按字母計(jì)算的零階熵法文:3.98bits 意大利文:4.00bits西班牙文:4.01bits 英文:4.03bits德文:4.10bits 俄問(wèn):4.35bits中文(按漢字計(jì)算):9.65bits中文(按筆畫(huà)計(jì)算):3.43bits按詞匯計(jì)算的零階熵英語(yǔ):10.0bits 漢語(yǔ):11.46bits說(shuō)明漢語(yǔ)的詞匯豐富語(yǔ)言的冗余度英語(yǔ):73%;俄語(yǔ):70%;漢語(yǔ):63%;古文更低第五十頁(yè),共七十三頁(yè),編輯于2023年,星期三Kullback-Leibler距離假設(shè)通過(guò)一組試驗(yàn)估計(jì)得到的概率分布為p,樣本空間,隨機(jī)變量X真實(shí)的分布為q,相同的和X現(xiàn)在的問(wèn)題是:p和q相比,誤差多大?Kullback-Leibler距離給出的答案是:D(q||p)=xq(x)log2q(x)/p(x) =Eplog(q(x)/p(x))第五十一頁(yè),共七十三頁(yè),編輯于2023年,星期三KL距離(相對(duì)熵)習(xí)慣上0log0=0plog(p/0)=DistanceorDivergence(分歧)不對(duì)稱D(q||p)D(p||q)也不滿足三角不等式事實(shí)上,D(q||p)不是距離,而是分歧H(q)+D(q||p):根據(jù)q分布,對(duì)p進(jìn)行編碼需要的bit數(shù)(交叉熵)第五十二頁(yè),共七十三頁(yè),編輯于2023年,星期三平均互信息隨機(jī)變量:X;Y;pXY(X,Y);pX(x);pY(y)兩個(gè)離散集之間的平均互信息I(X,Y)=D(p(x,y)||p(x)p(y))=xyp(x,y)log2(p(x,y)/p(x)p(y))這里說(shuō)的是兩個(gè)離散集的平均互信息互信息衡量已知Y的分布時(shí),對(duì)X的預(yù)測(cè)有多大的幫助,或者說(shuō)Y的知識(shí)降低了H(X)或者說(shuō)p(x,y)和p(x)p(y)之間的距離第五十三頁(yè),共七十三頁(yè),編輯于2023年,星期三第五十四頁(yè),共七十三頁(yè),編輯于2023年,星期三互信息的性質(zhì)I(X,Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)I(X,Y)=H(X)+H(Y)-H(X,Y)因?yàn)椋篐(X,Y)=H(X|Y)+H(Y)I(X,X)=H(X)(因?yàn)镠(X,X)=0)I(X,Y)=I(Y,X)I(X,Y)0第五十五頁(yè),共七十三頁(yè),編輯于2023年,星期三交叉熵
Cross-Entropy典型情況:我們得到一個(gè)觀察序列T={t1,t2,…tn},ti估計(jì):y:p(y)=c(y)/|T|,定義:c(y)=|{tT,t=y}|但是,真實(shí)的q不知道,再大的數(shù)據(jù)也不夠問(wèn)題:用p對(duì)q進(jìn)行估計(jì)是否準(zhǔn)確?方法:用一個(gè)不同的觀察序列T’估計(jì)實(shí)際的q第五十六頁(yè),共七十三頁(yè),編輯于2023年,星期三交叉熵Hp’(p)=H(p’)+D(p’||p)Hp’(p)=-xp’(x)log2p(x)p’當(dāng)然也不是真實(shí)的分布,但是我們視為真實(shí)世界的分布,以便測(cè)試p交叉混亂度:Gp’(p)=2Hp’(p)第五十七頁(yè),共七十三頁(yè),編輯于2023年,星期三條件交叉熵實(shí)踐中計(jì)算的往往是條件交叉熵兩個(gè)樣本空間樣本空間:,隨機(jī)變量Y,yY上下文樣本空間:,隨機(jī)變量X,xX實(shí)驗(yàn)得到的分布p(y|x),“真實(shí)”分布p’(y|x)Hp’(p)=-y,xp’(y,x)log2p(y|x)條件交叉熵中的權(quán)值是p’(y,x),不是p’(y|x)第五十八頁(yè),共七十三頁(yè),編輯于2023年,星期三在實(shí)際應(yīng)用中,在全部?jī)蓚€(gè)樣本空間上做累加通常不是很方便,因此常常簡(jiǎn)化使用如下公式:Hp’(p)=-y,xp’(y,x)log2p(y|x)=-1/|T’|i=1…|T’|log2p(yi|xi)事實(shí)上,就是在T’上進(jìn)行累加,然后歸一化
=-1/|T’|log2i=1…|T’|p(yi|xi)第五十九頁(yè),共七十三頁(yè),編輯于2023年,星期三舉例={a,b,…,z},概率分布(估計(jì)值)p(a)=0.25,p(b)=0.5,p()=1/64,{c,…,r},p()=0,{s,…,z}測(cè)試數(shù)據(jù)為:barb,p’(a)=p’(r)=0.25,p’(b)=0.5在上做累加abcd…qrs…z-p’()log2p()0.50.50001.500=2.5也可以在測(cè)試數(shù)據(jù)上進(jìn)行累加,然后歸一化si barb-log2p(si)1261=10(1/4)10=2.5第六十頁(yè),共七十三頁(yè),編輯于2023年,星期三H(p)和Hp’(p)之間可能有各種關(guān)系包括‘’,‘’,‘’舉例(參照上例)H(P)=2.5測(cè)試數(shù)據(jù):barbHp’(p)=1/4(1+2+6+1)=2.5測(cè)試數(shù)據(jù):probableHp’(p)=1/8(6+6+6+1+2+1+6+6)=4.25測(cè)試數(shù)據(jù):abbaHp’(p)=1/4(2+1+1+2)=1.5第六十一頁(yè),共七十三頁(yè),編輯于2023年,星期三交叉熵的使用不是比較數(shù)據(jù),而是比較分布如果我們有兩個(gè)分布p和q,哪一個(gè)更好呢?面對(duì)“真實(shí)數(shù)據(jù)”S,p和q誰(shuí)的交叉熵低
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《約哈里之窗》課件
- 2024年濱??h人民醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫(kù)頻考點(diǎn)附帶答案
- 2024年渠縣中醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫(kù)頻考點(diǎn)附帶答案
- 2024年淮南市紡織廠職工醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫(kù)頻考點(diǎn)附帶答案
- 家庭生活小幫手(說(shuō)課稿)-2023-2024學(xué)年三年級(jí)下冊(cè)綜合實(shí)踐活動(dòng)滬科黔科版
- 周圍靜脈輸液法操作并發(fā)癥及預(yù)防
- 2024預(yù)防艾滋病主題班會(huì)
- 2024年浠水縣紅十字會(huì)醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫(kù)頻考點(diǎn)附帶答案
- 頭孢菌素臨床應(yīng)用
- 2024年江西省紅十字醫(yī)院江西省職業(yè)病醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫(kù)頻考點(diǎn)附帶答案
- 車間現(xiàn)場(chǎng)安全培訓(xùn)內(nèi)容課件參考
- 油藏工程-油藏物質(zhì)平衡方法-1課件
- 三上書(shū)法《撇》教學(xué)課件
- 河北省廊坊市藥品零售藥店企業(yè)藥房名單目錄
- 超星爾雅學(xué)習(xí)通《三國(guó)志導(dǎo)讀》章節(jié)測(cè)試(含答案)
- 簡(jiǎn)單的個(gè)人原因辭職報(bào)告(通用17篇)
- 交響曲欣賞-完整版PPT
- 公司軟件銷售管理制度
- micro810可編程控制器用戶手冊(cè)
- CVC導(dǎo)管維護(hù)技術(shù)評(píng)分標(biāo)準(zhǔn)
- 東風(fēng)7C型(DF7C)內(nèi)燃機(jī)車
評(píng)論
0/150
提交評(píng)論