信息論與編碼理論第2章 信息的統(tǒng)計(jì)度量_第1頁(yè)
信息論與編碼理論第2章 信息的統(tǒng)計(jì)度量_第2頁(yè)
信息論與編碼理論第2章 信息的統(tǒng)計(jì)度量_第3頁(yè)
信息論與編碼理論第2章 信息的統(tǒng)計(jì)度量_第4頁(yè)
信息論與編碼理論第2章 信息的統(tǒng)計(jì)度量_第5頁(yè)
已閱讀5頁(yè),還剩48頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

信息論與編碼理論

第2章信息的統(tǒng)計(jì)度量主要內(nèi)容

從概率的角度研究問(wèn)題自信息量互信息量平均自信息量平均互信息量信息的大小多個(gè)信息之間關(guān)聯(lián)的密切程度2.1自信息和條件自信息2.1.1自信息量事件發(fā)生的概率越大,它發(fā)生后提供的信息量越小。張三今天吃飯了事件發(fā)生的概率越小,一旦該事件發(fā)生,它提供的信息量就越大。某沿海地區(qū)發(fā)生海嘯2.1.1自信息定義2-1

任意隨機(jī)事件的自信息量定義為該事件發(fā)生概率的對(duì)數(shù)的負(fù)值。假設(shè)事件xi發(fā)生的概率為p(xi),則其自信息定義式為根據(jù)該公式可能提出的問(wèn)題底數(shù)是多少?常用底數(shù):2真的成反比嗎?I(x)≥0規(guī)定:0log0=0自信息量的含義自信息量表示一個(gè)事件是否發(fā)生的不確定性的大小。自信息量表示一個(gè)事件的發(fā)生帶給我們的信息量的大小。自信息量表示為了確定一個(gè)事件是否發(fā)生,所需的信息量的大小。自信息量表示為了將事件的信息量表示出來(lái),所需的二進(jìn)制位的個(gè)數(shù)。這個(gè)個(gè)數(shù)就是該二進(jìn)制碼的長(zhǎng)度,簡(jiǎn)稱碼長(zhǎng)。自信息量的例子假設(shè)“張三今天吃飯了”這個(gè)事件發(fā)生的概率是99.99%,則該事件的自信息量為:這表明該事件的不確定性很小。假設(shè)“某沿海地區(qū)發(fā)生海嘯”這個(gè)事件發(fā)生的概率是0.01%,則該事件的自信息量為:這表明該事件的不確定性很大。聯(lián)合自信息量定義2-2

二維聯(lián)合集XY上的元素(xiyj)的聯(lián)合自信息量定義為聯(lián)合自信息量衡量的是多個(gè)事件同時(shí)出現(xiàn)的不確定性的大??;兩個(gè)事件同時(shí)發(fā)生帶給我們的信息量的大小;為了確定兩個(gè)事件是否能同時(shí)發(fā)生,所需的信息量的大小;或者,將該信息量表示出來(lái),所需的二進(jìn)制位的個(gè)數(shù),即碼長(zhǎng)。2.1.2條件自信息量定義2-3

事件xi在事件yj給定的條件下的條件自信息量定義為:含義:知道事件yj之后,仍然保留的關(guān)于事件xi的不確定性;或者,事件yj發(fā)生之后,事件xi再發(fā)生,能夠帶來(lái)的信息量。p(x):x出現(xiàn)的概率I(x):x的不確定性p(x|y):y出現(xiàn)之后

x出現(xiàn)的概率I(x|y):知道y之后仍然保留的關(guān)于

x的不確定性衡量的都是不確定性先驗(yàn)概率后驗(yàn)概率條件自信息量的例子事件:x=“某沿海地區(qū)發(fā)生海嘯”y=“海底發(fā)生了地震”概率:p(x)=0.01%p(x|y)=1%事件x的自信息量為:事件x在事件y發(fā)生的情況下的條件自信息量為:2.2互信息量舉例張三今天沒(méi)來(lái)上課張三有可能病了為什么沒(méi)來(lái)上課就會(huì)猜到生病了?因?yàn)槎哂嘘P(guān)系互信息衡量的就是這種關(guān)系的大小象形字,本意:絞繩用的工具,又象握手互相,兩者或者多者相互作用兩個(gè)或者多個(gè)事件之間關(guān)聯(lián)的密切程度2.2.1互信息量定義2-4

隨機(jī)事件yj的出現(xiàn)給出關(guān)于事件xi的信息量,定義為互信息量。定義式:?jiǎn)挝唬和孕畔⒘炕バ畔⒘康暮x

還可表示為:含義:本身的不確定性,減去知道了事件y之后仍然保留的不確定性,即由y所提供的關(guān)于x的信息量,或者說(shuō)由y所消除的x的不確定性?;バ畔⒘?原有的不確定性-仍然保留的不確定性對(duì)數(shù)的幾個(gè)性質(zhì):互信息量的例子事件:x=“某沿海地區(qū)發(fā)生海嘯”y=“海底發(fā)生了地震”概率:p(x)=0.01%p(x|y)=1%前面已求出自信息量和條件自信息量為:而x和y的互信息量為:2.2.2互信息量的性質(zhì)概率乘法公式全概率公式x1x2…xn和y1p(x1y1)p(x2y1)…p(xny1)p(y1)y2p(x1y2)p(x2y2)…p(xny2)p(y2)………………ymp(x1ym)p(x2ym)…p(xnym)p(ym)和p(x1)p(x2)…p(xn)1全概率公式互信息量的性質(zhì)1

互信息量的互易性I(x;y)=I(y;x)證明:含義:由y所提供的關(guān)于x的信息量等于由x

所提供的關(guān)于y的信息量概率乘法公式全概率公式互信息量的性質(zhì)2

互信息量可為0當(dāng)事件x、y統(tǒng)計(jì)獨(dú)立時(shí),互信息量為0證明:含義:當(dāng)兩個(gè)事件相互獨(dú)立時(shí),一個(gè)事件不能提供另一個(gè)事件的任何信息。即一個(gè)事件發(fā)生之后,對(duì)于確定另一個(gè)事件是否發(fā)生沒(méi)有任何幫助。p(x|y)=p(x)無(wú)論是否知道y,都對(duì)x出現(xiàn)的概率沒(méi)有影響說(shuō)明x和y沒(méi)有什么關(guān)系概率乘法公式全概率公式互信息量的性質(zhì)3

互信息量可正可負(fù)正:y的出現(xiàn)有助于肯定x的出現(xiàn)

x:張三病了。

y:張三沒(méi)來(lái)上課。負(fù):y的出現(xiàn)有助于否定x的出現(xiàn)

x:李四考了全班第一名。

y:李四沒(méi)有復(fù)習(xí)功課。無(wú)論正負(fù),互信息量的絕對(duì)值越大,x和y的關(guān)系越密切?;叵胱孕畔⒘縄(x)I(x)≥0:x的出現(xiàn)或多或少總能帶來(lái)一些信息互信息量的性質(zhì)4

互信息量不大于其中任一事件的自信息量證明同理:I(x;y)=I(y;x)≤I(y)互信息量=原有的不確定性-仍然保留的不確定性2.3離散集的平均自信息量(熵)離散集X={x1,x2,…,xn}離散集的概率分布表示為離散集中的每一個(gè)事件都有自己的自信息量所有這些自信息量的均值,就是離散集的平均自信息量定義2-5

集X上,隨機(jī)變量I(xi)的數(shù)學(xué)期望定義為平均自信息量。又稱作集X的信息熵,簡(jiǎn)稱熵。H(X)又可記作H(p1,p2,…,pn)平均自信息量含義集合中所有事件是否發(fā)生的平均不確定性的大小。集合中事件發(fā)生,帶給我們的平均信息量的大小。確定集合中到底哪個(gè)事件發(fā)生時(shí),所需的平均信息量的大小。如果用二進(jìn)制數(shù)據(jù)將集合中的各個(gè)元素表示出來(lái),所需的二進(jìn)制位的個(gè)數(shù)的平均值,即平均碼長(zhǎng)。系統(tǒng)的凌亂程度。熵的單位同自信息量的單位熵的例子【例2-6】系統(tǒng)1系統(tǒng)2中2.3.2熵函數(shù)的數(shù)學(xué)特性對(duì)稱性非負(fù)性確定性擴(kuò)展性可加性極值性上凸性熵函數(shù)的數(shù)學(xué)特性1

對(duì)稱性集合中各分量的次序任意變更時(shí),熵值(平均自信息量)不變從熵(平均自信息量)的公式上來(lái)看,該結(jié)論是明顯的深層含義:熵是有局限性的。它僅與隨機(jī)變量的總體結(jié)構(gòu)有關(guān),抹煞了個(gè)體的特性。例2-7“加權(quán)熵”晴多云雨冰雹A地1/21/41/81/8B地1/21/81/81/4加權(quán)熵晴多云雨冰雹A地1/21/41/81/8B地1/21/81/81/4權(quán)重1112例2-8熵函數(shù)的數(shù)學(xué)特性2

非負(fù)性H(X)≥0源于自信息量的非負(fù)性。什么時(shí)候?yàn)?:有且僅有一個(gè)pi=1,其余的pi=0,即確定事件集。熵函數(shù)的數(shù)學(xué)特性3

確定性集合中只要有一個(gè)事件為必然事件,則其余事件為不可能事件,熵為0。H(1,0)=H(1,0,0)=…=H(1,0,…,0)=0熵函數(shù)的數(shù)學(xué)特性4

擴(kuò)展性集合X有q個(gè)事件,集合Y比X僅僅是多了一個(gè)概率接近0的事件,則兩個(gè)集合的熵值一樣。證明:含義:集合中,一個(gè)事件發(fā)生的概率比其它事件發(fā)生的概率小得多時(shí),該小概率事件可以忽略不計(jì),不用考慮。抓主要矛盾【例2-9】

《中華字?!分惺珍浟硕噙_(dá)85000個(gè)漢字,而據(jù)統(tǒng)計(jì),常用漢字不過(guò)3000個(gè)。如果需要在短時(shí)間內(nèi)編寫(xiě)一個(gè)計(jì)算機(jī)用的漢字字庫(kù),我們就要利用熵的擴(kuò)展性,先對(duì)這3000個(gè)常用漢字編碼,有時(shí)間再逐步完善補(bǔ)充。熵函數(shù)的數(shù)學(xué)特性5

可加性H(X,Y)=H(X)+H(Y|X)當(dāng)X、Y相互獨(dú)立時(shí),H(X,Y)=H(X)+H(Y)熵函數(shù)的數(shù)學(xué)特性6

極值性各事件等概率發(fā)生時(shí),熵最大最大熵定理例子

最大熵定理【例2-11】自然界總是向著最大熵方向演化,而人們總想減少熵。但是熵減的過(guò)程通常讓人覺(jué)得痛苦。科學(xué)家找規(guī)律,將未知變已知:減少熵。尋找規(guī)律的過(guò)程不輕松。在深度學(xué)習(xí)的分類問(wèn)題中,提高分類準(zhǔn)確率,意味著離等概分布越來(lái)越遠(yuǎn):減少熵。但是提高分類準(zhǔn)確率并不容易。小A小B放的時(shí)候鞋放原裝鞋盒,鞋盒貼有信息的一面沖外,整齊碼放。隨便把鞋往一個(gè)鞋盒一放,胡亂地堆在床底下。用的時(shí)候只有一個(gè)鞋盒的概率為1,其余鞋盒的概率都為0,此時(shí)熵為0。等概分布,熵最大。結(jié)果為了減少熵,需要仔細(xì)收納自己的鞋,這個(gè)過(guò)程需要一定的自控力,持之以恒才能做到。不需要對(duì)抗自然界熵不斷增加的趨勢(shì),但是在獲取需要的鞋的時(shí)候,卻很費(fèi)勁。熵函數(shù)的數(shù)學(xué)特性7

上凸性H(p1,p2,…,pq)是概率分布(p1,p2,…,pq)的嚴(yán)格上凸函數(shù)如果f[

X1+(1-

)X2]

f(X1)+(1-

)f(X2),其中0<

<1,則稱f(X)為上凸函數(shù)。如果f[

X1+(1-

)X2]>

f(X1)+(1-

)f(X2),則稱f(X)為嚴(yán)格上凸函數(shù)。上凸函數(shù)的直觀意義除上凸函數(shù)之外,還有下凸函數(shù)對(duì)于凸函數(shù),有詹森(Jenson)不等式E[f(x)]

f(E[x])2.3.3條件熵定義2-7

條件自信息量的概率均值(數(shù)學(xué)期望)定義為條件熵。含義當(dāng)?shù)玫郊蟈的條件下,集合Y中仍然保留的平均不確定性。當(dāng)已知集合X中某事件發(fā)生的條件下,集合Y中的事件再發(fā)生,進(jìn)一步帶給我們的平均信息量的大小。當(dāng)已知集合X中某事件發(fā)生的條件下,確定集合Y中到底哪個(gè)事件發(fā)生時(shí),所需的平均信息量的大小。當(dāng)?shù)玫郊蟈的條件下,用二進(jìn)制數(shù)據(jù)將集合Y中的各個(gè)元素表示出來(lái),進(jìn)一步所需的平均碼長(zhǎng)。2.3.4聯(lián)合熵定義2-8聯(lián)合集XY上,每對(duì)元素xy的自信息量的概率平均值定義為聯(lián)合熵。聯(lián)合熵又稱為共熵。第2個(gè)關(guān)系第3個(gè)關(guān)系第1個(gè)關(guān)系2.3.5各種熵之間的關(guān)系“=”成立的條件是X和Y統(tǒng)計(jì)獨(dú)立H(X,Y)=H(X)+H(Y),H(Y|X)=H(Y)2.3.6交叉熵和相對(duì)熵對(duì)同一個(gè)集合,兩種不同分布之間的關(guān)系。定義2-9概率分布和之間的交叉熵定義為:通常P是事件集合真實(shí)的概率,Q是擬合的。含義:用擬合分布Q表示真實(shí)分布P時(shí)所需要的二進(jìn)制位的個(gè)數(shù)的平均值。2.3.6交叉熵和相對(duì)熵定義2-10相對(duì)熵,又叫KL散度,定義為:相對(duì)熵和交叉熵有如下關(guān)系:含義:相對(duì)熵表示用擬合分布表示時(shí),多出來(lái)的二進(jìn)制位的個(gè)數(shù)。交叉熵與相對(duì)熵只相差H(P),認(rèn)為兩者之間沒(méi)有本質(zhì)區(qū)別相對(duì)熵一定大于等于0;交叉熵一定大于等于H(P)Q和P越接近,交叉熵和相對(duì)熵越小,因此兩者可以用來(lái)衡量擬合分布Q與真實(shí)分布P的接近程度:越小擬合的越好。例2-14

通常將交叉熵H(P,Q)用作機(jī)器學(xué)習(xí)中分類問(wèn)題的損失函數(shù)(損失函數(shù)是訓(xùn)練出的概率與真實(shí)概率之間的差別)。算法1的交叉熵算法2的交叉熵算法1的交叉熵小于算法2的交叉熵,說(shuō)明算法1的預(yù)測(cè)值更接近實(shí)際值,算法1好于算法2。

貓青蛙老鼠標(biāo)簽010算法1的預(yù)測(cè)值0.30.60.1算法2的預(yù)測(cè)值0.30.40.32.4離散集的平均互信息量x1x2…xn和y1p(x1y1)p(x2y1)…p(xny1)p(y1)y2p(x1y2)p(x2y2)…p(xny2)p(y2)………………ymp(x1ym)p(x2ym)…p(xnym)p(ym)和p(x1)p(x2)…p(xn)1xip(y1|xi)=p(xiy1)/p(xi)p(y2|xi)=p(xiy2)/p(xi)…p(ym|xi)=p(xiym)/p(xi)p(xi)yjp(x1|yj)=p(x1yj)/p(yj)p(x2|yj)=p(x2yj)/p(yj)…p(xn|yj)=p(xnyj)/p(yj)p(yj)聯(lián)合概率和先驗(yàn)概率后驗(yàn)概率條件概率2.4.1平均互信息量定義2-11平均互信息量互信息量的均值含義:知道了集合Y之后,平均Y中的一個(gè)事件消除掉的關(guān)于集合X中一個(gè)事件的不確定性。由集合Y中一個(gè)事件平均能夠提供出來(lái)的關(guān)于集合X中一個(gè)事件的信息量。表示了兩個(gè)集合之間關(guān)系的密切程度。平均互信息量的性質(zhì)1

非負(fù)性I(X;Y)≥0互信息I(x;y)可正、可負(fù)、可為0平均互信息I(X;Y)可正、可為0何時(shí)為0?何時(shí)為0?x和y相互獨(dú)立時(shí)X和Y相互獨(dú)立時(shí)平均互信息量的性質(zhì)2

互易性(對(duì)稱性)I(X;Y)=I(Y;X)證明:對(duì)稱性表明:從集合Y中獲得的關(guān)于X的信息量(I(X;Y))等于從集合X中獲得的關(guān)于Y的信息量(I(Y;X))。平均互信息量的性質(zhì)3

極值性I(X;Y)

H(X)I(X;Y)

H(Y)證明:因?yàn)镮(X;Y)=H(X)-H(X|Y),而且H(X|Y)0。平均互信息量的性質(zhì)4

凸函數(shù)性平均互信息量是先驗(yàn)概率p(x)和后驗(yàn)概率p(y|x)的凸函數(shù)2.4.3平均互信息量和各類熵的關(guān)系回憶互信息量和自信息量的關(guān)系I(x;y)=I(x)-I(x|y)因此,猜想平均互信息量和熵之間有如下關(guān)系I(X;Y)=H(X)-H(X|Y)證明:同理:I(X;Y)=H(Y)-H(Y|X)由H(X,Y)=H(X)+H(Y|X),得I(X;Y)

=H(X)+H(Y)-H(X,Y)這些關(guān)系可以用維拉圖表示I(X;Y)=H(X)-H(X|Y)的應(yīng)用例2-15

機(jī)器學(xué)習(xí)訓(xùn)練數(shù)據(jù)中可能包含很多特征,如何選擇?

4個(gè)特征,以及標(biāo)簽的概率分布特征和標(biāo)簽之間的條件概率序號(hào)特征1外表特征2性格特征3身高特征4上進(jìn)標(biāo)簽1帥不好矮不上進(jìn)不嫁2不帥好矮上進(jìn)不嫁3帥好矮上進(jìn)嫁4不帥非常好高上進(jìn)嫁5帥不好矮上進(jìn)不嫁6帥不好矮上進(jìn)不嫁7帥好高不上進(jìn)嫁8不帥好中上進(jìn)嫁9帥非常

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論