信息論基礎第2章_第1頁
信息論基礎第2章_第2頁
信息論基礎第2章_第3頁
信息論基礎第2章_第4頁
信息論基礎第2章_第5頁
已閱讀5頁,還剩105頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

02-9月-23§2-1信源特性與分類

(一)信源的統(tǒng)計特性

1)什么是信源?

信源是信息的來源,實際通信中常見的信源有:語音、文字、圖像、數(shù)據(jù)…。在信息論中,信源是產(chǎn)生消息(符號)、消息(符號)序列以及連續(xù)消息的來源,數(shù)學上,信源是產(chǎn)生隨機變量U,隨機序列U和隨機過程U(t,ω)的源。

2)信源的主要特性

信源的最基本的特性是具有統(tǒng)計不確定性,它可用概率統(tǒng)計特性來描述。

02-9月-23(二)信源的描述與分類

1)單消息(符號)信源:它是最簡單也是最基本的信源,是組成實際信源的基本單元。它可以用信源取值隨機變量的范圍U和對應概率分布P(u)共同組成的二元序?qū)U,P(u)]來表示。

對離散信源

例:對于二進制數(shù)據(jù)、數(shù)字信源:U={0,1},則有

02-9月-23對于連續(xù)變量信源

其中:

2)實際信源

實際信源在離散情況下是消息序列信源,在連續(xù)情況下是隨機過程信源,它們分別代表數(shù)字與模擬信源。

①離散序列信源

i=1,2,…nl=1,2,…L其中,i=1,2,…n為每個消息(符號)取值的種類數(shù)

l=1,2,…L為消息(符號)序列的長度應注意的是i和l是代表兩個不同范疇的變量,表示不同的概念,切勿混淆。

(二)信源的描述與分類

(續(xù))02-9月-23信源輸出是一組隨機序列(矢量):

其樣值為:

對應概率為:

由于每個隨機變量U={1,2,…n}有n種取值,則有種可能取值。

對消息序列信源有:

2)實際信源(續(xù))02-9月-23例:最簡單L=3的三位PCM信源:這時L=3,n=2,即i={0,1},則有:

?。╇x散無記憶信源

ⅱ)離散有記憶信源大部分實際信源屬于這類,尤其當L足夠大時,

2)實際信源(續(xù))02-9月-23這里需要進一步解釋有兩點:首先,我們稱僅對轉移概率平穩(wěn)的為齊次;其次,當齊次馬氏鏈滿足不可約、非周期性條件時,稱為遍歷,它與起始條件分布無關。在實際信源中,數(shù)字圖像信源往往采用馬氏鏈模型。

2)實際信源(續(xù))02-9月-23②連續(xù)信源在實際的連續(xù)信源中,可以采用兩種方法進行分析一類是將連續(xù)信源離散化隨機序列信源另一類是仍然采用隨機過程來分析下面,首先要回答什么樣的信源可以進行離散化處理?實際上,只要滿足一個非常寬松的條件,即滿足限時(T)、限頻(F)的連續(xù)消息信源,即滿足物理可實現(xiàn)條件下,均可離散化為隨機序列。

類似于在信號分析中對周期性確知信號的正交展開,這里也可以類似的對非確知連續(xù)隨機信號在滿足限時(T)、限頻(F)條件下展開成類似的離散隨機序列信號。

2)實際信源(續(xù))02-9月-232)實際信源(續(xù))02-9月-23下面,我們給出三類最常用的展開式:?。└妒霞墧?shù)展開式—對限時(T)、限頻(F)信號;ⅱ)取樣函數(shù)展開式—對限頻(F)、限時(T)信號;ⅲ)K-L展開式—展成線性無關或統(tǒng)計獨立序列。

下面逐一討論?。┫迺r(T)、限頻(F)過程的付氏展開:U(t,ω)

這里,為一周期性隨機過程;“a.e.”為almosteverywhere,幾乎處處含義下相等(收斂)

02-9月-23類似于周期性確知信號,在時域內(nèi)可做下列付氏級數(shù)展開:當時,

其中:

ⅱ)限頻(F)、限時(T)過程H(f,ω)的取樣函數(shù)展開

常用的展開式(續(xù)):02-9月-23常用的展開式(續(xù)):這里,為一頻域中周期性隨機過程,同理,類似于對周期性確知信號,在頻域可做下列付氏級數(shù)展開:當時,

由于

現(xiàn)令

02-9月-23則有

常用的展開式(續(xù)):02-9月-23ⅲ)K-L展開(Karhunen-Loeve展開)上述兩類展開,在一般情況下其展開系數(shù)之間是統(tǒng)計關聯(lián)的,即展開后的離散隨機序列是有記憶的。這給進一步分析帶來了一定的困難。能否在理論上尋找一類展開,展開后的隨機序列是相互統(tǒng)計獨立的,或者至少是線性無關的。滿足這一要求的是K-L展開。

設:隨機過程U(t,w),t∈T,若E[U(t,w)]=0,則有R(t1,t2)=E[U(t1,w)U(t2,w)],又設在區(qū)間T=[a,b]時,有一組完備正交函數(shù),即其中i=1,2,…n,且n為有限或可數(shù)。

常用的展開式(續(xù)):02-9月-23則

注意:是單邊展開。

我們希望各ai之間線性無關,即

常用的展開式(續(xù)):02-9月-23兩邊同乘并在[a,b]內(nèi)對t2積分,由歸一性可得:

可見,正交函數(shù)系應滿足下列積分方程:

下面簡要介紹積分方程的概念,所謂積分方程,是指未知函數(shù)在積分號內(nèi)的方程式,我們這里討論的是最常見的線性積分方程。即一般積分方程可寫為:

常用的展開式(續(xù)):02-9月-23常用的展開式(續(xù)):對照上述K-L展開應滿足的積分方程,可得:

僅有是未知的。這類積分方程又稱為齊次第二類線性積分方程,其核是對稱型的,求解比較容易。它要求特征值

為某些離散值,而與之對應的正交函數(shù)則是積分方程的特征函數(shù)。

可見,當已知時,可求解上述積分方程,得特征值

和相應特征函數(shù),然后即可將U(t,ω)展成為:

展開后所得的函數(shù)是線性無關的隨機變量。若U(t,ω)為一正態(tài)隨機過程,則不僅線性無關而且是統(tǒng)計獨立的隨機變量

02-9月-23可見,K-L展開主要優(yōu)點在于展成的系數(shù)是線性無關的,且對正態(tài)是統(tǒng)計獨立的,因此展開后可作為無記憶信源來處理。另外據(jù)分析它的收斂速度也比較快。但是可惜目前尚未找到它的快速收斂算法,另外在概念上又不像付氏展開、取樣展開那樣直觀,所以在實際問題中很少應用,而是將它作為理論上最優(yōu)變換的一個參考標準。

常用的展開式(續(xù))02-9月-23(三)實際信源舉例

下面僅以最常見的圖像與語音信源為例1)圖像信源圖像信源一般可以引用一個五元的隨機場來表示:

(簡化)

主要統(tǒng)計特性:初步可以認為是一個近似的平穩(wěn)遍歷過程

①幅度概率分布:它主要采用專用儀器測試并用直方圖分析,但未得出一致性結論,主要原因是其分布與圖像類型密切相關,比如對準動態(tài)型,其分布接近于正態(tài)分布,而對于動態(tài)型,其分布則接近于對數(shù)正態(tài)分布。

②自相關函數(shù):一般可認為即相關函數(shù)呈指數(shù)分布。

02-9月-231)圖像信源(續(xù))02-9月-23電視信號還可以進一步劃分為行內(nèi)、行間、場間不同情況,其相應的相關函數(shù)與功率譜分布如下:

1)圖像信源(續(xù))02-9月-23對于數(shù)字型圖像信號,可以采用馬氏鏈模型

而為相鄰像素之間的相關系數(shù)。

2)語音信源可以近似用一個一維隨機過程U(ω,t)表示。嚴格的講,它是一個非平穩(wěn)過程,但是對于短時段(5-50ms)可認為是平穩(wěn)的,且某些是隨機噪聲(清輔音)而某些時段則呈現(xiàn)周期性特征(濁音),還有一些短時段是二者的混合。

1)圖像信源(續(xù))02-9月-23非參數(shù)描述:①幅度概率分布

語音的一階近似:Laplace分布

二階近似:Gama分布

2)語音信源(續(xù))02-9月-23②短時相關函數(shù)

③短時功率譜

2)語音信源(續(xù))02-9月-23參數(shù)表示法

①共振峰

②基音:最低基本頻率男100-200Hz,女200-400Hz。③音素英語為例:27=128–28=256種每秒平均發(fā)出10個音素

2)語音信源(續(xù))02-9月-23§2-2離散信源的信息熵

(一)信息熵與信息量的基本概念

上一節(jié)我們引用概率論來描述信源,然而信源是信息的來源,那么信息與概率到底是什么樣的關系呢?本節(jié),我們首先從直觀概念出發(fā),推導出信源的信息度量公式:信息熵H(U),再進一步探討它的基本概念與基本性質(zhì),最后再用嚴格的公理化結構證明熵的唯一性。

信息的定量化,首先是1928年Hartley研究了具有個組合的信息源(即由N種m位符號所構成的信源),它給出了最早的信息度量公式:

這一度量公式對后來Shannon建立概率信息的度量公式有很大的啟發(fā),仙農(nóng)保留了對數(shù)度量的合理性,并將它從特殊的非概率(等概率)情況推廣到一般的不等概率信源。下面將從直觀概念來推廣。

02-9月-23對于單個消息信源U,發(fā)送某個消息,對應概率為,這時信源輸出的信息量為I,則有:

小概率事件,一當出現(xiàn)必然使人感到意外,因此產(chǎn)生的信息量就越大;幾乎不可能事件一旦出現(xiàn),將是一條爆炸性的新聞,一鳴驚人。大概率事件,是預料之中的,即使發(fā)生,也沒什么信息量,特別是當必然事件發(fā)生了,它不會給人以任何信息量。另外,從直觀概念上講,由兩個不同的消息(相對獨立)所提供的信息應等于它們分別提供的信息之和,即滿足可加性:

I(A

B)=I(A)+I(B)

(一)信息熵與信息量的基本概念(續(xù))

02-9月-23由對概率的遞降性和可加性可以導出這類函數(shù)應是概率的對數(shù)函數(shù):

稱為單個消息信源的非平均自信息量。同理可定義:

(一)信息熵與信息量的基本概念(續(xù))

(當pi,qj獨立)

02-9月-23至此,我們從直觀概念引入了信源輸出的單個消息(符號)的非平均信息量的表達式。

(一)信息熵與信息量的基本概念(續(xù))

然而,對于信源而言,即使是單消息(符號),它亦含有有限種的,i=1,2…n,因此由它給出的信息量應是n種可能的統(tǒng)計平均值,即

其中“E”表示求概率的統(tǒng)計平均值,即求數(shù)學期望值。02-9月-23同理可定義:(一)信息熵與信息量的基本概念(續(xù))

稱H(U)[H(V)]為信源[信宿]的信息熵,H(V/U)﹑H(U/V)為條件熵,H(U,V)為聯(lián)合熵。

02-9月-23信息熵H(U)是某個具體單個消息()的非平均自信息量的統(tǒng)計平均值,是描述信源統(tǒng)計的一個客觀物理量。它首先是1948年仙農(nóng)給出的,后來Feinstein等人又從數(shù)學上嚴格的證明了當信息滿足對概率遞降性和可加性條件下,上述信息熵的表達形式是唯一的。

熵這個名詞是仙農(nóng)從物理學中的統(tǒng)計熱力學借用過來的,在物理學中稱它為熱熵是表示分子混亂程度的一個物理量,這里,仙農(nóng)引用它來描述信源的平均不確定性,含義是類似的。但是在熱力學中已知任何孤立系統(tǒng)的演化,熱熵只能增加不能減少;而在信息論中,信息熵正相反,只會減少,不會增加。所以有人稱信息熵為負熱熵。

(一)信息熵與信息量的基本概念(續(xù))

02-9月-23信息熵的單位與公式中的對數(shù)取底有關。通信與信息中最常用的是以2為底,這時單位為比特(bit);理論推導中用以e為底較方便,這時單位為奈特(Nat);工程上用以10為底較方便,這時單位為笛特(Det)。它們之間可以引用對數(shù)換底公式進行互換。比如:1bit=0.693Nat=0.301Det

最后,有必要闡述一下信息熵與信息量之間的關系:信息熵是表征信源本身統(tǒng)計特性的一個物理量,它是信源平均不確定性的度量,是從總體統(tǒng)計特性上對信源的一個客觀描述。信息量一般是針對接收者而言的,是一個相對量,是指接收者從信源中所獲得的信息度量。我們又稱它為互信息量I(U;V)。當通信中無干擾時,接受者獲得的信息量數(shù)量上就等于信源給出的信息熵,但是兩者的概念不一樣;當信道有干擾時,不僅概念上不一樣,而且數(shù)量上也不相等。信息熵也可理解為信源輸出的信息量。

(一)信息熵與信息量的基本概念(續(xù))

02-9月-23(二)熵的數(shù)學性質(zhì)

主要用三個定理加以概括。定理2-2-1:熵函數(shù)H(U)具有以下主要性質(zhì):

nHHH02-9月-235>可加性:

(二)熵的數(shù)學性質(zhì)(續(xù))

證明:1>,2>,3>由熵的定義顯見。

5>可加性:

02-9月-23(二)熵的數(shù)學性質(zhì)(續(xù))

02-9月-23定理2-2-2:熵函數(shù)H(U)具有極值性,即

(二)熵的數(shù)學性質(zhì)(續(xù))

用圖形表示為:

證明:先證明一個常用不等式:

02-9月-23(二)熵的數(shù)學性質(zhì)(續(xù))

令f(x)=logx–(x-1),則,可見當x=1時,f(x)=0,它是f(x)的極值。且,故此極值為極大值。所以有:f(x)≤f(1)=0,當且僅當x=1時取等號。這時f(x)=logx-(x-1)≤0=>logx≤(x-1)現(xiàn)令,則有,兩邊取統(tǒng)計平均值

求得:

結論:等概率分布時熵最大,不確定性最大。故這一定理又被稱為離散信源最大熵定理。

02-9月-23(二)熵的數(shù)學性質(zhì)(續(xù))

nCnH(U)02-9月-23(二)熵的數(shù)學性質(zhì)(續(xù))

則稱為凸函數(shù)(下凸)。其含義為:凸集合中函數(shù)的線性組合不小于凸集合中線性組合的函數(shù)。02-9月-23(二)熵的數(shù)學性質(zhì)(續(xù))

若不等號相反,即則稱為上凸()或凹函數(shù)。

若將上述“”﹑“”改為“>”﹑“<”則分別稱為嚴格凸和嚴格凹。上述凹凸函數(shù)可以用下列形象直觀圖形來表示:

02-9月-23在[a,b]上定義的下凸函數(shù)

凹凸函數(shù)的形象直觀圖形02-9月-23在[a,b]上定義的上凸函數(shù)

凹凸函數(shù)的形象直觀圖形02-9月-23由上述凸函數(shù)性質(zhì),我們只需證明熵函數(shù)滿足下列不等式。即熵函數(shù)為上凸函數(shù)。

(二)熵的數(shù)學性質(zhì)(續(xù))

(對照上凸函數(shù)性質(zhì),即)

其中,而因此定理2-2-3的證明,只需證:

02-9月-23(Jensen不等式)

證明中,我們引用了著名的Jensen不等式。在概率論中它引用了一些知名的不等式:他們有Holder﹑Schwartz﹑Minkorsky﹑Markov﹑Chebysher﹑Absolute以及Jensen不等式。本書中歸一化的僅引用Jensen不等式。其含義為:若f(x)是隨機變量X()的凸函數(shù),則有:

(二)熵的數(shù)學性質(zhì)(續(xù))

——下凸時

——上凸時上式證明中要注意:logx為上凸函數(shù)。

02-9月-23上一節(jié),我們研究了單個消息(符號)的離散信源的熵,這一節(jié)我們將它推廣至更加結合實際的離散序列。

§2-3離散序列信源的熵02-9月-23一﹑離散無記憶信源的序列熵與消息熵設:信源輸出隨機矢量為:樣函數(shù)為:對應概率為:

其中:

當信源無記憶時:

這時,有:

無記憶02-9月-23一﹑離散無記憶信源的序列熵與消息熵02-9月-23而:

一﹑離散無記憶信源的序列熵與消息熵結論:無記憶離散信源的消息序列熵就等于各消息(符號)熵之和,平穩(wěn)時為單個消息熵H(U)的L倍(L為消息序列長度),而消息序列平均每個消息的熵就等于單個消息信源的熵。

02-9月-23有記憶必須引入條件熵,而且當序列長度足夠長時分析起來更加困難。下面,我們從最簡單的L=2,兩個消息序列入手:1>兩個消息的聯(lián)合熵與條件熵:

二﹑離散有記憶信源的序列熵與消息(符號)熵

02-9月-23則有如下定理:定理2-3-1:由兩個消息(符號)組成的聯(lián)合信源有如下結論:二﹑離散有記憶信源的序列熵與消息(符號)熵

(續(xù))①

這兩個不等式又稱為Shannon不等式。證明:先證①式:02-9月-23同理:

二﹑離散有記憶信源的序列熵與消息(符號)熵

(續(xù))02-9月-23再證明②:(由熵的極值性)同理可證:

二﹑離散有記憶信源的序列熵與消息(符號)熵

(續(xù))02-9月-23推論:U1與U2相互獨立時,顯然有:由于實際信源是由有限個消息(符號)序列所組成,對這類消息(符號)序列信源,我們有如下定理:定理2-3-2:對消息序列信源遵從下列熵的鏈規(guī)則:其序列熵:消息熵:二﹑離散有記憶信源的序列熵與消息(符號)熵

(續(xù))02-9月-23證明:二﹑離散有記憶信源的序列熵與消息(符號)熵

(續(xù))02-9月-23二﹑離散有記憶信源的序列熵與消息(符號)熵

(續(xù))推論:當信源無記憶時,顯然有:

如果以上離散序列信源進一步滿足平穩(wěn)(廣義)特性則有如下定理:定理2-3-3:對于離散、平穩(wěn)、有記憶信源,下列結論成立:(1)是L的單調(diào)非增函數(shù);(2);(3)是L的單調(diào)非增函數(shù);(4)02-9月-23證明:(1)由Shannon不等式可知熵絕不因附加條件的增加而有所增加,同時,由信源的平穩(wěn)性有:二﹑離散有記憶信源的序列熵與消息(符號)熵

(續(xù))結論(1)得證。

其中不等式是引用Shannon不等式。(2)02-9月-23結論:L個消息的平均消息熵HL(U)不小于單個消息的最小條件熵。

(3)由熵的鏈規(guī)則有:

二﹑離散有記憶信源的序列熵與消息(符號)熵

(續(xù))02-9月-23比較上述兩式中的最后一項,有隨著L的增大,所增加項的熵越來越小,所以平均消息熵也將隨L的增大而減小。即:(4)由平均消息熵的定義,有將L+K項分為兩大類:一類為前L-1項,看作一個聯(lián)合熵,另一類是后K+1項,每一項看作條件熵。二﹑離散有記憶信源的序列熵與消息(符號)熵

(續(xù))02-9月-23當L固定,,則可得:由于上式對任意的L均成立,故有同時由結論(2)有:從而,必然有:其中稱為極限熵。

結論:對于平穩(wěn)信源,從理論上看求極限熵已解決,但是實際上求解仍相當困難。二﹑離散有記憶信源的序列熵與消息(符號)熵

(續(xù))02-9月-23當平穩(wěn)信源又進一步滿足遍歷性(即滿足不可約與非周期條件),則信源具有與起始條件p(ui)無關的平穩(wěn)分布pi,則可進一步有下述可工程實用化的定理:定理2-3-4:對于平穩(wěn)、遍歷、馬氏鏈信源,下列結論成立:其中pi,為平穩(wěn)分布,pij為轉移概率分布。證明:平穩(wěn)、遍歷、馬氏鏈信源的平穩(wěn)分布是下列聯(lián)立方程的解:(唯一解)二﹑離散有記憶信源的序列熵與消息(符號)熵

(續(xù))02-9月-23求解的pj即為上述公式的平穩(wěn)分布pi。由定理2-2-3結論(4)有:

推論:若將條件轉移概率pji改為狀態(tài)轉移概率p(sj/si)則有:這里狀態(tài):二﹑離散有記憶信源的序列熵與消息(符號)熵

(續(xù))02-9月-23這一推廣,可將高階馬氏鏈納入一階狀態(tài)馬氏鏈來處理。從而大大方便了對有限記憶信源的處理與分析。對一般的離散、有記憶信源有下列定理:定理2-3-5:對離散、有記憶信源下列結論成立:證明:由Shannon不等式,顯見。它指出:無記憶信源的熵不小于有記憶信源的熵。二﹑離散有記憶信源的序列熵與消息(符號)熵

(續(xù))02-9月-23仍然先討論單個消息的互信息,再推廣至消息序列的互信息。

§2-4互信息

一〉單個消息的互信息

信息熵是信源輸出的信息量,而真正被接收者收到的信息量則是互信息。它是與發(fā)、收雙方都有關系的相對量,是指接收者從信源發(fā)送者中可獲得的信息量,也可以認為是發(fā)送者傳送給接收者的信息量。由仙農(nóng)不等式:即:

若令U1=U為發(fā)送者,U2=V為接收者。則它們之間的互信息量I(U;V)可定義為:

02-9月-23一〉單個消息的互信息(續(xù))稱為互信息密度。對互信息,我們有如下定理:定理2-4-1:互信息有下列基本性質(zhì):①②——非負性;③02-9月-23證明:①由定義有:

一〉單個消息的互信息(續(xù))02-9月-23一〉單個消息的互信息(續(xù))②由互信息定義及Shannon不等式,顯見即③同理,顯見且當U=V時,若U、V統(tǒng)計獨立時,即接受者V不能從發(fā)送者U中獲得任何信息。(熵的非負性)02-9月-23至此,我們已討論了熵H(U)、H(V),條件熵H(U/V)、H(V/U),聯(lián)合熵H(U,V)以及互信息I(U;V),它們之間可以用下列形象、直觀圖形表示:一〉單個消息的互信息(續(xù))02-9月-23下面,我們進一步討論互信息的性質(zhì)定理2-4-2:互信息I(U;V)是的上凸(凸)函數(shù);是的下凸(凸)函數(shù)。證明:為了證明方便,我們將互信息改寫為:當條件概率Pji不變時,,這時,一〉單個消息的互信息(續(xù))02-9月-23所以要證明I(pi)是pi的上凸函數(shù),只需證:(按上凸函數(shù)定義)即:一〉單個消息的互信息(續(xù)),02-9月-23上凸性得證。一〉單個消息的互信息(續(xù))02-9月-23一〉單個消息的互信息(續(xù))再證下凸性,這時,可認為為不變值,則同理,可設:而要證下凸性,只需證即:02-9月-23下凸性亦得證。一〉單個消息的互信息(續(xù))02-9月-23類似于信源熵,我們在研究單個消息互信息的基礎上,進一步拓廣至消息序列的互信息。為此有如下定理:定理2-4-3:若U=(U1…Ul…UL),V=(V1…Vl…VL)分別為發(fā)送和接受的消息序列,則有:二>消息序列的互信息I(U;V)

①若各發(fā)送Ul統(tǒng)計獨立:則:②U,V

間信道無記憶:則:上述①②均滿足:則:02-9月-23證明:①二>消息序列的互信息I(U;V)

(續(xù))02-9月-23①式得證二>消息序列的互信息I(U;V)

(續(xù))02-9月-23②②式得證。二>消息序列的互信息I(U;V)

(續(xù))02-9月-23③若同時滿足上述①,②條件,顯然①,②兩式結論同時成立。故③式得證,即:若進一步又滿足平穩(wěn)性(推移不變與序號無關)定理2-4-4:類似于熵的鏈規(guī)則,互信息也有下述鏈規(guī)則:二>消息序列的互信息I(U;V)

(續(xù))02-9月-23證明:先證l=2,這時,有:二>消息序列的互信息I(U;V)

(續(xù))02-9月-23推廣之,得:進一步,當l=3,二>消息序列的互信息I(U;V)

(續(xù))02-9月-23其中:即將m’個元素歸并為一個子集合,其對應概率:在信息處理中,經(jīng)常要對所獲得的數(shù)據(jù)進行進一步分類,并進行歸并處理。即將可接受到的有限數(shù)據(jù)空間(Y,q)歸并為另一類處理后的有限數(shù)據(jù)空間[z=D(y),p].它可表示為:三>信息不增性原理—信號數(shù)據(jù)處理定理02-9月-23下面,將進一步討論,經(jīng)過數(shù)據(jù)處理以后與處理前相比較,兩者從發(fā)送端可獲得的互信息量是增加了還是減少了,為此有下列定理:定理2-4-5:在信息處理中,數(shù)據(jù)經(jīng)歸并處理后有如下結論:三>信息不增性原理—信號數(shù)據(jù)處理定理(續(xù))I(X;Y)≥I[X;D(Y)]

H(X)≥I(X;)證明:①設:

02-9月-23三>信息不增性原理—信號數(shù)據(jù)處理定理(續(xù))則有:這時,由此可見,經(jīng)過分類、歸并處理后信息只能減少,不能增加,故稱為信息不增性原理。02-9月-23三>信息不增性原理—信號數(shù)據(jù)處理定理(續(xù))

先證即:02-9月-23三>信息不增性原理—信號數(shù)據(jù)處理定理(續(xù))同理,可證:故結論②成立。它說明,要想減少信息損失,必須付出代價。比如,多次接觸信源,但無論接觸多少次,也決不會獲得超過信源可提供的信息熵H(X)。02-9月-23它表征信源信息率的多余程度,是描述信源客觀統(tǒng)計特性的一個物理量。由廣義Shannon不等式有:§2-5冗余度

可見對于有記憶信源,最小單個消息熵應為H∞(U),即從理論上看,對有記憶信源只需傳送H∞(U)即可。但是這必需要掌握信源全部概率統(tǒng)計特性。這顯然是不現(xiàn)實的。實際上,往往只能掌握有限的L維,這時只需傳送HL(U),那么與理論值

H∞(U)相比,就多傳送了HL(U)-H∞(U)。02-9月-23正由于信源存在著冗余度,即存在著不必要傳送的信息,因此信源也就存在進一步壓縮信息率的可能性。冗余度越大,壓縮潛力也就越大??梢娝切旁淳幋a,數(shù)據(jù)壓縮的前提與理論基礎。

為了定量描述信源有效性,可定義:信源效率:信源冗余度:(相對剩余)§2-5冗余度(續(xù))02-9月-23下面,以英文為例,計算文字信源的冗余度:首先給出英文字母(含空檔)出現(xiàn)概率如下:字母字母

pi字母空檔ETOANIR0.20.1050.0720.06540.0630.0590.0550.054SHDLCF.UMP0.05020.0470.0350.0290.0230.02250.0210.0175Y.WGBVKXJ.QZ0.0120.0110.01050.0080.0030.0020.0010.001

pi

pi§2-5冗余度(續(xù))02-9月-23下面,首先求得獨立等概率情況H0,即其次,計算獨立不等概率情況H1,再次,若僅考慮字母有一維相關性,求H2,還可進一步求出:H3=3.1bit,最后,利用統(tǒng)計推斷方法求出H∞,由于采用的逼近的方法和所取的樣本的不同,推算值也有不同,這里采用Shannon的推斷值。這樣,可以計算出η=0.29,R=0.71。這一結論說明,英文信源,從理論上看71%是多余成分。§2-5冗余度(續(xù))02-9月-23直觀地說100頁英文書,理論上看僅有29頁是有效的,其余71頁是多余的。正是由于這一多余量的存在,才有可能對英文信源進行壓縮編碼。對于其它文字,也有不少人作了大量的統(tǒng)計工作,現(xiàn)簡述如下:§2-5冗余度(續(xù))02-9月-23至于,其它類型信源,比如話音,圖象等,它們大部分屬于限失真信源,其冗余度與理論壓縮可能性,將在第四章R(D)函數(shù)中討論。§2-5冗余度(續(xù))02-9月-23在通信中模擬信號比如語音、圖像未數(shù)字化以前均屬于連續(xù)信源。它在概念上與離散信源是不同的,但也有不少類似之處。對連續(xù)信源的分析,也可以類似于離散信源從單個連續(xù)消息(變量)開始,再推廣至連續(xù)消息序列。對于連續(xù)隨機變量可采用概率密度來描述:對連續(xù)隨機序列可采用相應的序列概率密度來描述;而對于連續(xù)的隨機過程一般也可以按照取樣定理分解為連續(xù)隨機變量序列來描述。§2-6連續(xù)信源的熵與互信息

02-9月-23連續(xù)隨機變量可以看作是離散隨機變量的極限,故可采用離散隨機變量來逼近。下面,將采用這一觀點討論連續(xù)信源的信息熵與信息量。首先類比概率pi與概率密度p(u):(一)單個連續(xù)消息的隨機變量信源

§2-6連續(xù)信源的熵與互信息

02-9月-23(一)單個連續(xù)消息的隨機變量信源(續(xù))

令u∈[a,b],且a<b,現(xiàn)將它均勻的劃分為n份,每份寬度為△=,則u處于第i個區(qū)間的概率為pi,則pi=

(中值定理)即當p(u)為u的連續(xù)函數(shù)時,由中值定理,必存在一個ui值,使上式成立。再按照離散信源的信息熵的定義有:02-9月-23于是我們定義前一項取有限值的項為連續(xù)信源的信息熵,并記為Hc(U).(一)單個連續(xù)消息的隨機變量信源(續(xù))

即:Hc(U)=

也可記為:Hc(U)=其中R1=表示實軸。02-9月-23這里應注意的是Hc(U)是連續(xù)信源的熵,而不是連續(xù)信源輸出的信息量,而連續(xù)信源輸出的信息量是Hn(U).這就是說,在離散信源中信源輸出信息量就是信源熵,兩者是一個概念;但是在連續(xù)信源中則是兩個概念,且不相等。連續(xù)信源輸出信息量Hn(U)是一個絕對值,他取值于∞,而連續(xù)信源的熵Hc(U)則是一個相對值,他取值是有限的。連續(xù)信源的熵Hc(U)是一個過渡性的概念,它雖然也具有可加性,但不一定滿足非負性,它可以不具有信息的全部特征。比如,對一個均勻分布的連續(xù)信源,按照定義,有(一)單個連續(xù)消息的隨機變量信源(續(xù))

02-9月-23(一)單個連續(xù)消息的隨機變量信源(續(xù))

顯然,當b-a<1時,Hc(U)<0,這說明它不具備非負性。但是連續(xù)信源輸出的信息量由于有一個無限大量的存在,Hn(U)仍大于0。這里,我們?nèi)詫c(U)定義為連續(xù)信源的熵,理由有二:一是由于它在形式上與離散熵相似:離散熵:H(U)=連續(xù)熵:Hc(U)=

02-9月-23另一個更重要的原因是在于實際處理問題時,比如互信息、信道容量、信息率失真函數(shù)等可涉及到的僅是熵的差值,即互信息。這時,只要相差的兩個連續(xù)熵在逼近時可取的Δ是一致的,兩個同樣的無限大的尾巴就可以互相抵消。可見,Hc(U)是具有相對性,它是為了引入互信息等重要概念而引入的一個過渡性的概念。同理,還可進一步定義如下連續(xù)隨機變量的熵:(一)單個連續(xù)消息的隨機變量信源(續(xù))

02-9月-23且有:(一)單個連續(xù)消息的隨機變量信源(續(xù))

條件熵與聯(lián)合熵:02

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論