信息的度量與應用_第1頁
信息的度量與應用_第2頁
信息的度量與應用_第3頁
信息的度量與應用_第4頁
信息的度量與應用_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

信息的度量與應用第一頁,共二十七頁,2022年,8月28日幾個例子:例12

當你要到大會堂去找某一個人時,甲告訴你兩條消息:(1)此人不坐在前十排,(2)他也不坐在后十排;乙只告訴你一條消息:此人坐在第十五排。問誰提供的信息量大?乙雖然只提供了一條消息,但這一條消息對此人在什么位置上這一不確定性消除得更多,所以后者包含的信息量應比前者提供的兩條消息所包含的總信息量更大例13

假如在盛夏季節(jié)氣象臺突然預報“明天無雪”的消息。在明天是否下雪的問題上,根本不存在不確定性,所以這條消息包含的信息量為零。第二頁,共二十七頁,2022年,8月28日是否存在信息量的度量公式基于前面的觀點,美國貝爾實驗室的學者香農(nóng)(Shannon)應用概率論知識和邏輯方法推導出了信息量的計算公式Inhiswords"Ijustwonderedhowthingswereputtogether."ClaudeElwoodShannon(April30,1916-February24,2001)hasbeencalled"thefatherofinformationtheory".第三頁,共二十七頁,2022年,8月28日Shannon提出的四條基本性質(不妨稱它們?yōu)楣恚┕?信息量是該事件發(fā)生概率的連續(xù)函數(shù)公理2如果事件A發(fā)生必有事件B發(fā)生,則得知事件A發(fā)生的信息量大于或等于得知事件B發(fā)生的信息量。公理3如果事件A和事件B的發(fā)生是相互獨立的,則獲知A、B事件將同時發(fā)生的信息量應為單獨獲知兩事件發(fā)生的信息量之和。公理4任何信息的信息量均是有限的。將某事件發(fā)生的信息記為M,該事件發(fā)生的概率記為p,記M的信息量為I(M)。上述公理怎樣推出信息量的計算公式呢第四頁,共二十七頁,2022年,8月28日定理11.2

滿足公理1—公理4的信息量計算公式為I(M)=-Clogap,其中C是任意正常數(shù),對數(shù)之底a可取任意為不為1的正實數(shù)。證明:由公理1I(M)=f(p),函數(shù)f連續(xù)。由公理2若A發(fā)生必有B發(fā)生,則pA≤pB,有f(pA)≥f(PB),故函數(shù)f是單調(diào)不增的。由公理3若A、B是兩個獨立事件,則A、B同時發(fā)生的概率為pApB,有f(PAPB)=f(pA)+f(pB)。先作變量替換令p=a-q,即q=-logaP記

,又有:,g亦為連續(xù)函數(shù)。

第五頁,共二十七頁,2022年,8月28日g(x+y)=g(x)+g(y)的連續(xù)函數(shù)有怎樣的性質

首先,由g(0)=g(0+0)=2g(0)得出g(0)=0或g(0)=∞。但由公理4,后式不能成立,故必有g(0)=0。記g(1)=C,容易求得g(2)=2C,g(3)=3C,…,一般地,有g(n)=nC。進而

,可得。于是對一切正有理數(shù)m/n,g(m/n)=(m/n)C。由連續(xù)性可知:對一切非負實數(shù)x,有g(x)=Cx

當x取負實數(shù)時,由g(x)+g(-x)=g(0)=0,可得出g(x)=―g(―x)=cx也成立,從而對一切實數(shù)x,g(x)=Cx,故g(q)=Cq?,F(xiàn)作逆變換q=-logap,

得I(M)=f(P)=-ClogaP(11.3)

證畢。

第六頁,共二十七頁,2022年,8月28日各種信息量單位若取a=2,C=1,此時信息量單位稱為比特若取a=10,C=1,此時信息量單位稱為迪吉特若取a=e,C=1,此時信息量單位稱為奈特第七頁,共二十七頁,2022年,8月28日例14

設劇院有1280個座位,分為32排,每排40座?,F(xiàn)欲從中找出某人,求以下信息的信息量。(i)某人在第十排;(ii)某人在第15座;(iii)某人在第十排第15座。解:

在未知任何信息的情況下,此人在各排的概率可以認為是相等的,他坐在各座號上的概率也可以認為是相等的,故

(i)“某人在第十排”包含的信息量為

(比特)

(ii)“某人在第15座”包含的信息量為

(比特)

(iii)“某人在第十排第15座”包含的信息量為

(比特)5bit+5.32bit=10.32bit這一例子反映了對完全獨立的幾條信息,其總信息量等于各條信息的信息量之和。對于相應不獨立的信息,要計算在已獲得某信息后其余信息的信息量時,需要用到條件概率公式,可以參閱信息論書籍。第八頁,共二十七頁,2022年,8月28日

至此,我們已經(jīng)引入了信息度量的定量公式。如前所述,它是信息對消除問題的不確定性的度量。這種講法似乎有點難以為人們所接受,其實,這只是人們的習慣在起作用。這里,我們不妨來作一比較。在人們搞清熱的奧秘以前,溫度也是一個較為抽象的概念,因它實質上是物體分子運動平均速度的一種映。人們天生就知道冷和熱,但如何來度量它卻曾經(jīng)是一個難題。只有在解決了這一問題以后,以定量分析為主的熱力學才能得到飛速的發(fā)展。信息問題也是這樣,人們對各種信息包含的實質“內(nèi)容”究竟有多少往往也有一個直觀的感覺,但用什么方法來度量它,卻比“今天15度”這樣的講法更不易理解,因為它是通過較為抽象的概率來計算的。第九頁,共二十七頁,2022年,8月28日平均信息量(熵)問題

設某一實驗可能有N種結果,它們出現(xiàn)的概率分別為p1,…,pN,則事先告訴你將出現(xiàn)第i種結果的信息,其信息量為-log2pi,而該實驗的不確定性則可用這組信息的平均信息量(或熵)來表示例15

投擲一枚骼子的結果有六種,即出現(xiàn)1—6點、出現(xiàn)每種情況的概率均為1/6,故熵H=log26≈2.585(比特)。

投擲一枚硬幣的結果為正、反面兩種,出現(xiàn)的概率均為1/2,故熵H=log22=1(比特)。向石塊上猛摔一只雞蛋,其結果必然是將雞蛋摔破,出現(xiàn)的概率為1,故熵H=log21=0從例子可以看出,熵實質上反映的是問題的“模糊度”,熵為零時問題是完全清楚的,熵越大則問題的模糊程度也越大第十頁,共二十七頁,2022年,8月28日離散型概率分布的隨機試驗,熵的定義為:(11.5)連續(xù)型概率分布的隨機試驗,熵的定義為:

(11.6)熵具有哪些有趣的性質定理11.3

若實驗僅有有限結果S1,…,Sn,其發(fā)生的概率分別為P1,…,Pn,則當時,此實驗具有最大熵。此定理既可化為條件極值問題證明之,也可以利用凸函數(shù)性質來證明,請大家自己去完成第十一頁,共二十七頁,2022年,8月28日定理9.4

若實驗是連續(xù)型隨機試驗,其概率分布P(x)在[a,b]區(qū)間以外均為零,則當P(x)平均分布時具有最大熵。定理9.5

對于一般連續(xù)型隨機試驗,在方差一定的前提下,正態(tài)分布具有最大的熵。

定理9.6

最大熵原理,即受到相互獨立且均勻而小的隨機因素影響的系統(tǒng),其狀態(tài)的概率分布將使系統(tǒng)的熵最大。上述結果并非某種巧合。根據(jù)概率論里的中心極限定理,若試驗結果受到大量相互獨立的隨機因素的影響,且每一因素的影響均不突出時,試驗結果服從正態(tài)分布。最大熵原理則說明,自然現(xiàn)象總是不均勻逐步趨于均勻的,在不加任何限止的情況下,系統(tǒng)將處于熵最大的均勻狀態(tài)。第十二頁,共二十七頁,2022年,8月28日例16

有12個外表相同的硬幣,已知其中有一個是假的,可能輕些也可能重些?,F(xiàn)要求用沒有砝碼的天平在最少次數(shù)中找出假幣,問應當怎樣稱法。

解假幣可輕可重,每枚硬幣都可能是假幣。故此問題共有24種情況,每種情況的概率為1/24。所以此問題的熵為log224。確定最少次數(shù)的下界實驗最多可能出現(xiàn)三種結果,根據(jù)定理11.3,這種實驗在可能出現(xiàn)的各種事件具有相等的概率時,所提供的平均信息量最大,故實驗提供的平均信息量不超過log23。

設最少需稱k次,則這k次實驗提供的總信息量不超過klog23=log23k,又問題的模糊度(熵)為log224

必要條件:log23k≥log224,得k≥3。第十三頁,共二十七頁,2022年,8月28日稱三次足夠了嗎?實驗方法:使每次實驗提供盡可能大的平均信息量。

第一次:將12枚硬幣平分成三堆,取兩堆稱,出現(xiàn)兩中情況情況1兩堆重量相等假幣在未秤的4枚中。任取其中的3枚加上從已秤過的8枚中任取的1枚,平分成兩堆稱。出現(xiàn)兩種情況情況1.1兩堆重量相等最后剩下的一枚是假幣,再稱一次知其比真幣輕還是重。情況1.2兩堆重量不相等設右重左輕,并設真幣在左邊,若假幣在右邊,則比真幣重,若在左邊,則輕。取右邊兩個稱。第十四頁,共二十七頁,2022年,8月28日情況2兩堆重量不相等設右邊較重。先從左邊取出兩枚,再將右邊的取兩枚放到左邊,將原來左邊的兩枚中取出一枚放于右邊情況2.1兩堆重量相等取出的兩枚中輕的為假幣,再稱一次即可找出假幣。情況2.2兩堆重量不相等若右邊較重,則假幣在右邊原來的兩枚及左邊未動過的一枚中(若為前者,則假幣偏重;若為后者,則假幣偏輕),于是再稱一次即可找出假幣。若第二次稱時左邊較重,則假幣必在交換位置的三枚中,可類似區(qū)分真?zhèn)?。三次是最少次?shù)!第十五頁,共二十七頁,2022年,8月28日英文的熵是多少呢?例17

在人類活動中,大量信息是通過文字或語言來表達的,而文學或語言則是一串符號的組合。據(jù)此,我們可以計算出每一語種里每一符號的平均信息量。例如,表11-2、表11-3、表11-4分別是英語、德語和俄語中每一符號(字母與空格,標點符號不計)在文章中出現(xiàn)的概率的統(tǒng)計結果(漢語因符號繁多,難以統(tǒng)計)第十六頁,共二十七頁,2022年,8月28日表11-2(英語)符號iPi符號iPi符號Pi符號Pi空格ETOANI0.20.1050.0720.06540.0630.0590.065RSHDLCF0.0540.0520.0470.0350.0290.0230.0225UMPYWGV0.02250.0210.01750.0120.0120.0110.008BKXJQZ0.0050.0030.0020.0010.0010.001第十七頁,共二十七頁,2022年,8月28日表11-3(德語)符號iPi符號iPi符號Pi符號Pi空格ENSIRA

0.1440.1440.08650.06460.06280.06220.0594DTUHLCG0.05460.05360.04220.03610.03450.02550.0236OMBWZVF0.02110.01720.01380.01130.00920.00790.0078KPJJQY0.00710.00670.00280.00080.00050.0000第十八頁,共二十七頁,2022年,8月28日表11-4(俄語)符號iPi符號iPi符號Pi符號Pi空格OEЁAИTHC

0.1750.0900.0720.0620.0620.0530.0530.045PBЛКМДПу

0.0400.0380.0350.0280.0260.0250.0230.021ЯЫэъьБГЧй

0.0180.0160.0160.0140.0140.0130.0120.010ХЖЮЩЦШЭФ

0.0090.0070.0060.0060.0040.0030.0030.002第十九頁,共二十七頁,2022年,8月28日以英文為例,可計算得:

(比特/每符號)

對于有27個符號的信息源,可能達到的最大平均信息量為:

(比特/每符號)由此可計算出英語表達的多余度為:(即15%)英文的多余度第二十頁,共二十七頁,2022年,8月28日事實上,英語在表達意思上的確存在著富余。例如Q后出現(xiàn)U的概率幾乎是1,T后出現(xiàn)H的概率也很大,等等。這種多余是完全必要的,沒有多余度的語言是死板的,沒有文采的,它是存在語法的必要條件。但對于電報編碼、計算機文字處理來講,這種多余度的存在常常會造成浪費。有人在上述討論的基礎上研究了符號編碼問題,使得每一符號的平均信息量達到十分接近Hmax的程度,但由于譯電過于復雜,這種方法尚未實際應用。第二十一頁,共二十七頁,2022年,8月28日信息通道的容量問題問題背景:

信息的傳遞是需要時間的。用n個符號S1、…、Sn來表達信息,各符號傳遞所需時間是各不相同的,設分別為t1、…、tn,并設各符號出現(xiàn)的概率分別為p1、…、pn。這樣,就出現(xiàn)了兩方面的問題。一、pi是確定的,如何縮短傳遞確定信息所需的時間。二、ti是確定的,如何使單位時間傳遞的平均信息量最大。單位時間內(nèi)信息通道能夠傳遞的最大平均信息量稱為此信息通道的容量

第二十二頁,共二十七頁,2022年,8月28日如何求信息通道的容量?每一符號的平均信息量為:每一符號所需的平均時間為:故單位時間內(nèi)傳遞的平均信息量應為:第二十三頁,共二十七頁,2022年,8月28日問題化為:(11.7)利用拉格朗日乘子法,(11.7)式可化為無約束極值問題:

(11.8)記(11.8)式的目標函數(shù)為f(p,λ),即求解方程組:(11.9)第二十四頁,共二十七頁,2022年,8月28日方程組(11.9)的解為:

由于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論