信息的度量與應(yīng)用_第1頁
信息的度量與應(yīng)用_第2頁
信息的度量與應(yīng)用_第3頁
信息的度量與應(yīng)用_第4頁
信息的度量與應(yīng)用_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、信息的度量與應(yīng)用第1頁,共27頁,2022年,5月20日,0點58分,星期一幾個例子:例12 當你要到大會堂去找某一個人時,甲告訴你兩條消息:(1)此人不坐在前十排,(2)他也不坐在后十排;乙只告訴你一條消息:此人坐在第十五排。問誰提供的信息量大? 乙雖然只提供了一條消息,但這一條消息對此人在什么位置上這一不確定性消除得更多,所以后者包含的信息量應(yīng)比前者提供的兩條消息所包含的總信息量更大例13 假如在盛夏季節(jié)氣象臺突然預報“明天無雪”的消息。在明天是否下雪的問題上,根本不存在不確定性,所以這條消息包含的信息量為零。 第2頁,共27頁,2022年,5月20日,0點58分,星期一是否存在信息量的度

2、量公式 基于前面的觀點,美國貝爾實驗室的學者香農(nóng)(Shannon)應(yīng)用概率論知識和邏輯方法推導出了信息量的計算公式 In his words I just wondered how things were put together.Claude Elwood Shannon (April 30, 1916 - February 24, 2001) has been called the father of information theory. 第3頁,共27頁,2022年,5月20日,0點58分,星期一Shannon提出的四條基本性質(zhì) (不妨稱它們?yōu)楣?)公理1信息量是該事件發(fā)生概率的連續(xù)

3、函數(shù) 公理2如果事件A發(fā)生必有事件B發(fā)生,則得知事件A發(fā)生的信息量大于或等于得知事件B發(fā)生的信息量。 公理3如果事件A和事件B的發(fā)生是相互獨立的,則獲知A、B事件將同時發(fā)生的信息量應(yīng)為單獨獲知兩事件發(fā)生的信息量之和。 公理4任何信息的信息量均是有限的。 將某事件發(fā)生的信息記為M,該事件發(fā)生的概率記為p,記M的信息量為I(M)。 上述公理怎樣推出信息量的計算公式呢第4頁,共27頁,2022年,5月20日,0點58分,星期一定理11.2 滿足公理1公理4的信息量計算公式為I(M)=Clogap,其中C是任意正常數(shù),對數(shù)之底a可取任意為不為1的正實數(shù)。 證明:由公理1 I(M)=f(p),函數(shù)f連續(xù)

4、。 由公理2 若A發(fā)生必有B發(fā)生,則pApB, 有f(pA)f(PB) ,故函數(shù)f是單調(diào)不增的。 由公理3 若A、B是兩個獨立事件,則A、B同時發(fā)生 的概率為pApB,有f(PAPB)=f(pA)+f(pB)。 先作變量替換 令p=a-q,即q=logaP 記 ,又 有: ,g亦為連續(xù)函數(shù)。 第5頁,共27頁,2022年,5月20日,0點58分,星期一 g(x+y)=g(x)+g(y)的連續(xù)函數(shù)有怎樣的性質(zhì) 首先,由g(0)=g(0+0)=2g(0)得出g(0)=0或g(0)=。 但由公理4,后式不能成立,故必有g(shù)(0)=0。 記g(1)=C,容易求得g(2)=2C,g(3)=3C,一般地,

5、有g(shù)(n)=nC。進而 ,可得 。 于是對一切正有理數(shù) m/n,g(m/n) =(m/n)C。由連續(xù)性可知:對一切非負實數(shù)x,有g(shù)(x)=Cx 當x取負實數(shù)時,由g(x)+g(x)=g(0)=0,可得出g(x)=g(x)=cx也成立,從而對一切實數(shù)x,g(x)=Cx, 故g(q)=Cq。 現(xiàn)作逆變換q=logap, 得I(M)=f(P)=ClogaP (11.3) 證畢。 第6頁,共27頁,2022年,5月20日,0點58分,星期一各種信息量單位 若取a=2,C=1,此時信息量單位稱為比特若取a=10,C=1,此時信息量單位稱為迪吉特若取a=e,C=1,此時信息量單位稱為奈特第7頁,共27頁,

6、2022年,5月20日,0點58分,星期一例14 設(shè)劇院有1280個座位,分為32排,每排40座。現(xiàn)欲從中找出某人,求以下信息的信息量。(i)某人在第十排;(ii)某人在第15座;(iii)某人在第十排第15座。 解: 在未知任何信息的情況下, 此人在各排的概率可以認為是相等的,他坐在各座號上的概率也可以認為是相等的,故 (i)“某人在第十排”包含的信息量為 (比特) (ii)“某人在第15座”包含的信息量為 (比特) (iii)“某人在第十排第15座”包含的信息量為 (比特) 5bit+5.32bit=10.32bit這一例子反映了對完全獨立的幾條信息,其總信息量等于各條信息的信息量之和。對

7、于相應(yīng)不獨立的信息,要計算在已獲得某信息后其余信息的信息量時,需要用到條件概率公式,可以參閱信息論書籍。 第8頁,共27頁,2022年,5月20日,0點58分,星期一 至此,我們已經(jīng)引入了信息度量的定量公式。如前所述,它是信息對消除問題的不確定性的度量。這種講法似乎有點難以為人們所接受,其實,這只是人們的習慣在起作用。這里,我們不妨來作一比較。在人們搞清熱的奧秘以前,溫度也是一個較為抽象的概念,因它實質(zhì)上是物體分子運動平均速度的一種映。人們天生就知道冷和熱,但如何來度量它卻曾經(jīng)是一個難題。只有在解決了這一問題以后,以定量分析為主的熱力學才能得到飛速的發(fā)展。信息問題也是這樣,人們對各種信息包含的

8、實質(zhì)“內(nèi)容”究竟有多少往往也有一個直觀的感覺,但用什么方法來度量它,卻比“今天15度”這樣的講法更不易理解,因為它是通過較為抽象的概率來計算的。 第9頁,共27頁,2022年,5月20日,0點58分,星期一平均信息量(熵)問題 設(shè)某一實驗可能有N種結(jié)果,它們出現(xiàn)的概率分別為p1,pN,則事先告訴你將出現(xiàn)第i種結(jié)果的信息,其信息量為log2pi,而該實驗的不確定性則可用這組信息的平均信息量(或熵) 來表示例15 投擲一枚骼子的結(jié)果有六種,即出現(xiàn)16點、出現(xiàn)每 種情況的概率均為1/6,故熵 H=log262.585(比特)。 投擲一枚硬幣的結(jié)果為正、反面兩種,出現(xiàn)的概率均為1/2,故熵 H=log

9、22=1(比特)。 向石塊上猛摔一只雞蛋,其結(jié)果必然是將雞蛋摔破,出現(xiàn)的概率為1,故熵H=log21=0 從例子可以看出,熵實質(zhì)上反映的是問題的“模糊度”,熵為零時問題是完全清楚的,熵越大則問題的模糊程度也越大 第10頁,共27頁,2022年,5月20日,0點58分,星期一離散型概率分布的隨機試驗,熵的定義為 : (11.5)連續(xù)型概率分布的隨機試驗,熵的定義為 : (11.6)熵具有哪些有趣的性質(zhì) 定理11.3 若實驗僅有有限結(jié)果S1,Sn,其發(fā)生的概率分別為 P1,Pn,則當 時,此實驗具有最大熵。 此定理既可化為條件極值問題證明之,也可以利用凸函數(shù)性質(zhì)來證明,請大家自己去完成 第11頁,

10、共27頁,2022年,5月20日,0點58分,星期一定理9.4 若實驗是連續(xù)型隨機試驗,其概率分布P(x)在a,b區(qū)間以外均為零,則當 P(x)平均分布時具有最大熵。 定理9.5 對于一般連續(xù)型隨機試驗,在方差一定的前提下,正態(tài)分布具有最大的熵。 定理9.6 最大熵原理,即受到相互獨立且均勻而小的隨機因素影響的系統(tǒng),其狀態(tài)的概率分布將使系統(tǒng)的熵最大。 上述結(jié)果并非某種巧合。根據(jù)概率論里的中心極限定理,若試驗結(jié)果受到大量相互獨立的隨機因素的影響,且每一因素的影響均不突出時,試驗結(jié)果服從正態(tài)分布。最大熵原理則說明,自然現(xiàn)象總是不均勻逐步趨于均勻的,在不加任何限止的情況下,系統(tǒng)將處于熵最大的均勻狀態(tài)

11、。 第12頁,共27頁,2022年,5月20日,0點58分,星期一例16 有12個外表相同的硬幣,已知其中有一個是假的,可能輕些也可能重些?,F(xiàn)要求用沒有砝碼的天平在最少次數(shù)中找出假幣,問應(yīng)當怎樣稱法。 解 假幣可輕可重,每枚硬幣都可能是假幣。故此問題共有 24種情況,每種情況的概率為1/24。所以此問題的熵為log224。 確定最少次數(shù)的下界實驗最多可能出現(xiàn)三種結(jié)果 ,根據(jù)定理11.3,這種實驗在可能出現(xiàn)的各種事件具有相等的概率時,所提供的平均信息量最大,故實驗提供的平均信息量不超過log23。 設(shè)最少需稱k次,則這k次實驗提供的總信息量 不超過klog23=log23k,又問題的模糊度(熵)

12、為log224 必要條件: log23klog224 ,得 k3。第13頁,共27頁,2022年,5月20日,0點58分,星期一稱三次足夠了嗎?實驗方法:使每次實驗提供盡可能大的平均信息量。 第一次:將12枚硬幣平分成三堆,取兩堆稱,出現(xiàn)兩中情況 情況1 兩堆重量相等假幣在未秤的4枚中。任取其中的3枚加上從已秤過的8枚中任取的1枚,平分成兩堆稱。出現(xiàn)兩種情況 情況1.1 兩堆重量相等最后剩下的一枚是假幣,再稱一次知其比真幣輕還是重。 情況1.2 兩堆重量不相等設(shè)右重左輕,并設(shè)真幣在左邊,若假幣在右邊,則比真幣重,若在左邊,則輕。取右邊兩個稱 。第14頁,共27頁,2022年,5月20日,0點5

13、8分,星期一情況2 兩堆重量不相等設(shè)右邊較重 。先從左邊取出兩枚,再將右邊的取兩枚放到左邊,將原來左邊的兩枚中取出一枚放于右邊 情況2.1 兩堆重量相等取出的兩枚中輕的為假幣,再稱一次即可找出假幣。情況2.2 兩堆重量不相等若右邊較重,則假幣在右邊原來的兩枚及左邊未動過的一枚中(若為前者,則假幣偏重;若為后者,則假幣偏輕),于是再稱一次即可找出假幣。若第二次稱時左邊較重,則假幣必在交換位置的三枚中,可類似區(qū)分真?zhèn)?。三次是最少次數(shù)!第15頁,共27頁,2022年,5月20日,0點58分,星期一英文的熵是多少呢?例17 在人類活動中,大量信息是通過文字或語言來表達的,而文學或語言則是一串符號的組

14、合。據(jù)此,我們可以計算出每一語種里每一符號的平均信息量。例如,表11-2、表11-3、表11-4分別是英語、德語和俄語中每一符號(字母與空格,標點符號不計)在文章中出現(xiàn)的概率的統(tǒng)計結(jié)果(漢語因符號繁多,難以統(tǒng)計) 第16頁,共27頁,2022年,5月20日,0點58分,星期一表11-2(英語) 符號iPi符號iPi符號Pi符號Pi空格ETOANI0.20.1050.0720.06540.0630.0590.065RSHDLCF0.0540.0520.0470.0350.0290.0230.0225UMPYWGV0.02250.0210.01750.0120.0120.0110.008BKXJQ

15、Z0.0050.0030.0020.0010.0010.001第17頁,共27頁,2022年,5月20日,0點58分,星期一表11-3(德語) 符號iPi符號iPi符號Pi符號Pi空格ENSIRA 0.1440.1440.08650.06460.06280.06220.0594 DTUHLCG 0.05460.05360.04220.03610.03450.02550.0236 OMBWZVF 0.02110.01720.01380.01130.00920.00790.0078 KPJJQY 0.00710.00670.00280.00080.00050.0000 第18頁,共27頁,2022

16、年,5月20日,0點58分,星期一表11-4(俄語) 符號iPi符號iPi符號Pi符號Pi空格OE ATHC 0.1750.0900.0720.0620.0620.0530.0530.045 PB 0.0400.0380.0350.0280.0260.0250.0230.021 0.0180.0160.0160.0140.0140.0130.0120.010 0.0090.0070.0060.0060.0040.0030.0030.002 第19頁,共27頁,2022年,5月20日,0點58分,星期一以英文為例,可計算得: (比特/每符號) 對于有27個符號的信息源,可能達到的最大平均信息量為

17、: (比特/每符號)由此可計算出英語表達的多余度為: (即15%) 英文的多余度第20頁,共27頁,2022年,5月20日,0點58分,星期一 事實上,英語在表達意思上的確存在著富余。例如Q后出現(xiàn)U的概率幾乎是1,T后出現(xiàn)H的概率也很大,等等。這種多余是完全必要的,沒有多余度的語言是死板的,沒有文采的,它是存在語法的必要條件。但對于電報編碼、計算機文字處理來講,這種多余度的存在常常會造成浪費。有人在上述討論的基礎(chǔ)上研究了符號編碼問題,使得每一符號的平均信息量達到十分接近Hmax的程度,但由于譯電過于復雜,這種方法尚未實際應(yīng)用。第21頁,共27頁,2022年,5月20日,0點58分,星期一信息通

18、道的容量問題 問題背景: 信息的傳遞是需要時間的。用n個符號S1、Sn來表達信息,各符號傳遞所需時間是各不相同的,設(shè)分別為t1、tn,并設(shè)各符號出現(xiàn)的概率分別為p1、pn。這樣,就出現(xiàn)了兩方面的問題。 一、pi是確定的,如何縮短傳遞確定信息所需的時間。二、ti是確定的,如何使單位時間傳遞的平均信息量最大。單位時間內(nèi)信息通道能夠傳遞的最大平均信息量稱為此信息通道的容量 第22頁,共27頁,2022年,5月20日,0點58分,星期一如何求信息通道的容量?每一符號的平均信息量為: 每一符號所需的平均時間為: 故單位時間內(nèi)傳遞的平均信息量應(yīng)為:第23頁,共27頁,2022年,5月20日,0點58分,星期一問題化為:(11.7)利用拉格朗日乘子法,(11.7)式可化為無約束極值問題: (11.8)記(11.8)式的目標函數(shù)為f(p,),即求解方程組:(11.9)第24頁,共27頁,2022年,5月20日,0點58分,星期一方程組(11.9

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論