版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第2章離散無記憶信源與信息熵
2.1離散無記憶信源2.2自信息和熵2.3熵函數(shù)的性質(zhì)2.4聯(lián)合事件的熵及其關(guān)系2.5連續(xù)信源的信息測度習(xí)題2
信息理論的研究對象是以各類信息的獲取、表示、傳輸和處理為目的的信息系統(tǒng)。圖2-1給出了一個典型的通信系統(tǒng)物理模型。在這樣的通信系統(tǒng)中,一個貫穿始終的、最基本的問題便是信息,即信源輸出的是信息,在系統(tǒng)中傳輸?shù)氖切畔ⅲ邮照攉@得的也是信息。可見,在信息理論的學(xué)習(xí)和研究中,首先需要對信息給出一個明確的、可以度量的工程概念。本章我們從離散無記憶信源的統(tǒng)計特性入手,給出信息理論中的基本概念——信息熵,討論信源信息熵的基本性質(zhì)。圖2-1通信系統(tǒng)物理模型2.1離散無記憶信源
1.信源的概念信源是信息的來源,以輸出符號(消息)的形式輸出信息(見圖2-2)。由于我們關(guān)心的是信源輸出的信息,因此信源研究的主要對象是載荷信息的消息,而對信源內(nèi)部的結(jié)構(gòu)和輸出消息的機理一般不需要作深入了解。此處我們從最簡單的信源入手,討論信源的描述和主要類型,建立離散無記憶信源的數(shù)學(xué)模型。圖2-2信源模型由于信源輸出的消息載荷著信息,因此這種消息所具有的一個基本的屬性便是隨機性。正如緒論中所述,通信過程中收信者在收到消息之前,對信源發(fā)出的消息是不確定的。例如,擲一個均勻的骰子。雖然我們知道骰子上的數(shù)字只能有1、2、3、4、5、6,即投擲骰子所得到的消息的集合中只有這六種消息,但是骰子穩(wěn)定之前我們并不知道骰子將呈現(xiàn)出哪一種消息。因此,對于信源輸出的這種隨機出現(xiàn)的消息,需要用隨機變量加以表示。如果我們已知信源的消息集合(即樣本空間或值域)和消息發(fā)生的概率分布,那么便可以使用由樣本空間和它的概率分布所構(gòu)成的概率空間來描述信源。設(shè)信源輸出的消息X為隨機變量,其樣本空間(值域)為R。若在此值域上隨機變量X的概率分布為P,則此信源可以表示為[R,P]或[X,P],并將這種表示稱為信源的概率空間。因此,信源可以用概率空間作為其數(shù)學(xué)模型。
2.離散無記憶信源的概念在本課程的教學(xué)中我們主要涉及數(shù)字信息系統(tǒng)中的信息傳遞。在這種數(shù)字信息系統(tǒng)中,信源輸出消息是一個離散隨機變量或由離散隨機變量構(gòu)成的隨機變量序列。本教材中我們主要以離散信源作為研究對象,討論離散信源的信息概念與度量,以及離散信息系統(tǒng)中信息傳遞的特點與定量關(guān)系。這種考慮與目前以計算機和信息處理技術(shù)為手段的電子信息系統(tǒng)和通信系統(tǒng)的應(yīng)用是相一致的。為了便于學(xué)習(xí)和理解信息理論中的基本概念和基本關(guān)系,我們首先從最簡單的離散信源,即離散無記憶信源入手展開討論。離散無記憶信源是最簡單的離散信源,其主要特點是離散和無記憶。離散:信源可能輸出的消息的種類是有限的或者是可數(shù)的。消息的樣本空間R是一個離散集合。由于信源的每一次輸出都是按照消息發(fā)生的概率輸出R中的一種消息,因此信源輸出的消息可以用離散隨機變量X表示。無記憶:不同的信源輸出消息之間相互獨立。對于離散無記憶信源,如果已知信源輸出消息的取值集合:
R=[a1,a2,…,an]
和每一消息發(fā)生的概率:
P(a1)=p1,P(a2)=p2,…,P(an)=pn則該離散無記憶信源的概率空間為
其中,每一消息發(fā)生的概率滿足:(2.1)(2.2)在上面給出的投擲骰子輸出消息的隨機試驗中,每次試驗的結(jié)果必然是1、2、3、4、5、6六種不同消息中的一個,并且每一次試驗中出現(xiàn)哪一種消息是隨機的,但是必定出現(xiàn)其中某一種消息,并且兩次不同投擲所出現(xiàn)的消息之間沒有關(guān)聯(lián)。如果這顆骰子是均勻的,則由大量的試驗可以知道,這個信源的六種消息發(fā)生的概率均等,即分別為1/6。因此,這樣的信源是一個離散無記憶信源,其概率空間為2.2自信息和熵在狹義的通信系統(tǒng)的討論中,我們把信源看做一個輸出消息和消息序列的設(shè)備。2.1節(jié)我們根據(jù)信源輸出消息所具有的隨機性關(guān)系,從信源的外部特性給出了信源的描述方法,即信源的概率空間。然而,信源的基本功能和作用是輸出信息,從本質(zhì)上講,信源是一個產(chǎn)生并輸出信息的設(shè)備,消息僅僅是信源所輸出的信息的載體。因此,對于信源我們更感興趣的是它輸出的消息中含有多少信息,它輸出信息的能力有多大。因此,只有透過信源的外部表現(xiàn)——消息及消息的概率空間,研究信源的信息特性,我們才能掌握信源的本質(zhì),并在信息的輸出、傳輸和接收過程中對信息給出定量的理論分析。下面我們將從信息的基本屬性出發(fā),分析和度量信源的信息特性。首先,我們以離散無記憶信源為對象,引出自信息和熵的定義與度量,并對信息理論中最重要的基本概念——熵的物理含義和數(shù)學(xué)性質(zhì)進行深入分析。2.2.1自信息觀察一個由n種符號構(gòu)成的離散無記憶信源:由于信源按照符號發(fā)生的概率隨機地輸出消息,因此在信源輸出消息之前,我們不能夠確定信源將要輸出的是哪一個消息,即收信者對信源的輸出具有不確定性。只有當(dāng)信源輸出某一消息且這個消息在無干擾通信系統(tǒng)中傳輸并被收信者收到后,收信者才能消除這種不確定性。由香農(nóng)關(guān)于信息的定義可知,這種能夠消除不確定性的東西就是信息。由此還可進一步看出,如果某一消息發(fā)生的不確定性大,則一旦它發(fā)生并被接收到,收信者消除的不確定性就大,從該消息獲得的信息量也就多。因此,信源輸出消息所載荷的信息量的大小與該消息發(fā)生的不確定性的大小相聯(lián)系。由于信源輸出的消息ai依據(jù)概率P(ai)發(fā)生,因此ai是否發(fā)生的不確定性便與其發(fā)生的概率P(ai)有關(guān)。可以看出,消息ai發(fā)生所含有的信息量I(ai)應(yīng)當(dāng)是ai發(fā)生的先驗概率P(ai)=pi的函數(shù),即
I(ai)=f[P(ai)]=f[pi](2.3)由于這種函數(shù)關(guān)系反映的是信源輸出某種消息時該消息所載荷的信息量,因此稱I(ai)為信源輸出消息ai,消息ai所載荷的自信息。顯然,函數(shù)f[P(ai)]應(yīng)當(dāng)滿足下面四個條件。(1)f[P(ai)]是P(ai)的單調(diào)函數(shù)。消息發(fā)生的信息量是消息發(fā)生不確定性的度量。如果消息發(fā)生的概率小,則我們對該消息是否會發(fā)生的不確定性就大(難以猜測),該消息一旦發(fā)生,它所含有的信息量也就大;反之,若消息發(fā)生的概率大,則猜測它發(fā)生的可能性就大而不確定性小。因此,作為度量消息不確定性的函數(shù),I(ai)應(yīng)當(dāng)是P(ai)的單調(diào)減函數(shù)。這一要求與日常生活中的情況也是相符合的。例如新聞發(fā)布兩種消息,A:某地區(qū)下了暴雨;B:某地區(qū)下了百年不遇的特大暴雨。顯然,人們對A、B兩種消息的關(guān)注或震驚程度有很大差異。由于消息B發(fā)生的可能性很小,因此它的發(fā)生使人們得到的信息量要比消息A的信息量大得多。
(2)當(dāng)P(ai)=1時,f[P(ai)]=0。對于發(fā)生概率為1的必然事件,在其發(fā)生前已可確知,不存在不確定性。因此,發(fā)生概率為1的必然事件所含有的信息量也就為0。
(3)當(dāng)P(ai)→0時,
f[P(ai)]→∞。對于幾乎不可能發(fā)生的事件,一旦它意外地發(fā)生了,就會帶來極大的信息量。
(4)信息的度量應(yīng)當(dāng)具有可加性。在收到信源發(fā)出的數(shù)個相互獨立的消息時,收信者所獲得的信息量應(yīng)為各消息所含有的信息量之和。依據(jù)信息度量的函數(shù)關(guān)系和應(yīng)當(dāng)滿足的四個條件,我們可以很容易地確定這一函數(shù)關(guān)系能夠取對數(shù)形式。下面我們給出信源消息所含自信息的定義。設(shè)離散信源X為
如果消息ai已發(fā)生,則該消息發(fā)生所含有的自信息定義為(2.4)可以很容易地證明,自信息的定義滿足上面提出的四個要求。說明:
(1)此自信息的定義是根據(jù)消息發(fā)生的概率建立的一個工程定義,而不是根據(jù)這個消息對人的實際意義而建立的定義。這一純粹技術(shù)性的定義僅僅抓住了“信息”一詞在通常概念中所包含的豐富內(nèi)容的一小部分。
(2)自信息I(ai)有兩種含義:在消息ai發(fā)生之前,自信息I(ai)表示ai發(fā)生的不確定性;在消息ai發(fā)生以后,自信息I(ai)表示ai所含有的(或提供的)信息量。
(3)在式(2.4)中關(guān)于對數(shù)的底未作明確規(guī)定。這是因為對數(shù)的底僅僅影響到度量的單位,實際中可根據(jù)具體情況和習(xí)慣來確定。如果取對數(shù)的底為2,則所得信息量的單位為比特(bit,binaryunit),此時logx用lbx表示。如果取對數(shù)的底為e,則所得信息量的單位為奈特(nat,natureunit),此時logex用lnx表示。如果取對數(shù)的底為10,則所得信息量的單位為哈特(Hart,Hartley),此時log10x用lgx表示。(2.5)本書一般采用底為2的對數(shù)表示,并簡寫為log,此類情況全書不再說明(僅在強調(diào)或部分定理證明和公式推理中有特別注明時采用其他對數(shù)底)。根據(jù)對數(shù)的換底公式:
可以得到不同底數(shù)時信息量的換算關(guān)系:
(4)在上面的討論中,消息ai是隨機變量X的一個樣值,因而消息ai的自信息I(ai)=I(X=ai)是隨機變量X的函數(shù),因此I(ai)也是一個隨機變量。
I(ai)是一個隨機變量并不難理解。因為ai發(fā)生可以使收信者獲得大小為I(ai)的自信息,然而在信源未發(fā)出消息之前,收信者不僅對ai是否發(fā)生具有不確定性,而且對于能夠獲得多少自信息也是不確定的。因此,伴隨著X=ai的隨機發(fā)生而發(fā)生的自信息I(ai)是一個隨機變量,并且與隨機變量X具有相同的概率分布,即自信息I(ai)是一個發(fā)生概率為P(X=ai)的隨機變量。
【例2.1】有一個輸出兩種消息的離散無記憶信源,其概率空間為
如果在信源輸出消息之前我們猜測a1或a2發(fā)生,顯然這兩種猜測的困難程度不同。由于a1發(fā)生的概率接近于1,即a1發(fā)生的可能性很大,因此我們對a1是否發(fā)生的不確定性將比較小。同理,因為a2發(fā)生的可能性小,所以對a2是否會發(fā)生的不確定性就比較大。由定義式(2.4)計算消息a1、a2的自信息,可以得到:
可見,自信息I(a1)、I(a2)確實是關(guān)于a1、a2發(fā)生的不確定性的度量。如果已知信源輸出消息a1,則由“a1已發(fā)生”可使我們消除大小為I(a1)的不確定性,故a1發(fā)生了載荷大小為0.014比特的信息量。同理,如果a2發(fā)生,則它所包含的信息量為6.644比特。通過這個例子我們可進一步明確自信息的兩種含義,即在信源輸出消息ai之前,自信息I(ai)是關(guān)于ai發(fā)生的不確定性的度量,而在信源輸出消息ai之后,自信息I(ai)表示ai所含有的信息量。例2.1中的信源只有兩種不同的消息,我們稱這類信源為二進制離散信源。二進制離散信源所具有的兩種消息可以分別使用二進制數(shù)0和1表示。
【例2.2】在一個拋硬幣的隨機試驗中,正反兩面出現(xiàn)的概率相等。如果將正、反兩面分別看做0和1兩種不同的消息,則這一隨機試驗可表示為一個等概率輸出0或1的二進制離散無記憶信源。此二進制離散無記憶信源的概率空間為
在這一隨機實驗中,可以求出消息0、1發(fā)生所包含的自信息為
由于消息0和1發(fā)生的概率相同,因此在信源輸出消息之前,我們關(guān)于信源輸出0或1的不確定性是相同的,而在信源輸出0或1之后,它們所攜帶的信息量也相同。因此,消息0和消息1的自信息相同(均為1比特)。應(yīng)當(dāng)注意:信息單位的“比特”與計算機術(shù)語中的“比特”的意義是不同的。在計算機技術(shù)中,比特表示二進制數(shù)碼中的“位”,為binarydigit的縮寫,而信息理論中的比特是使用以2為底的對數(shù)關(guān)系進行信息度量時的信息單位。在例2.2中,由于信源是等概率的二進制信源,因此在用以2為底的對數(shù)關(guān)系對其輸出信息量進行度量時,它所輸出的每一位二進制碼所含有的自信息量恰為一個比特。2.2.2信源的信息熵式(2.4)定義的自信息給出了信源輸出的某一個消息所含有的信息量。自信息從信源輸出的每一個消息所含有的信息量描述了信源的信息特性。然而,自信息是一個伴隨著信源隨機地輸出某一消息而產(chǎn)生的隨機變量。由于不同消息的自信息不同,因此自信息只是從局部依消息發(fā)生的概率對個別信源消息的信息特性給出的一種描述。在實際信息系統(tǒng)分析中,人們往往關(guān)心的并不是信源輸出的個別消息,而是由整個消息集合所構(gòu)成的信源的信息特性。因此我們需要給出一個確定的量,能夠從信源總體上來度量信源輸出信息的大小,描述信源總體輸出信息的能力。為此,我們定義信源X中每一消息所包含自信息的數(shù)學(xué)期望為信源X的平均信息量,也稱為信源的信息熵(簡稱熵),記做H(X),即對于概率空間為
的離散無記憶信源X,其平均信息量(即信源的信息熵)為(2.6)在下面的討論中,有時將熵的定義式寫做:
這時,X也表示信源X的消息所構(gòu)成的集合;x為集合中的某一消息,即X的某一取值;表示對X的全空間進行求和運算。(2.7)說明:
(1)在定義式(2.6)中,關(guān)于對數(shù)的底我們并未作明確規(guī)定。應(yīng)用中可根據(jù)實際情況和習(xí)慣確定對數(shù)的底,如以2、e、10等為底數(shù)。由于熵是信源的平均信息量,因此相應(yīng)于底2、e或10,熵的單位分別為比特/符號、奈特/符號或哈特/符號。
(2)對于一般的信源X,其消息集合中可能包含不可能發(fā)生的消息(即該消息發(fā)生的概率為0)。根據(jù)若消息ak發(fā)生的概率為0,在定義式(2.7)表示的熵的計算中,規(guī)定
【例2.3】某班下午的工作安排有三種情況:a自習(xí),b上課,c文體活動。假設(shè)每天下午獨立地、隨機地發(fā)出一個工作安排的通知,且這三種安排發(fā)生的概率分別是1/2、3/8和1/8。若某同學(xué)得到了工作安排為a、b或c的一個通知,則此通知中含有多少信息量?如果每天發(fā)出一個通知,則一個通知中含有的平均信息量為多少?解:此信源的概率空間為
可以求出這三種安排的通知含有的自信息分別為一個通知中含有的平均信息量即為此信源的熵:
根據(jù)自信息的定義,自信息量的大小與消息發(fā)生的概率成反比,此處便有:
I(a)<I(b)<I(c)然而,考察每一通知的自信息對信源信息熵的貢獻:
可以看出,雖然某消息ai的自信息隨著該消息出現(xiàn)概率的減小而增大,但是由于消息ai出現(xiàn)的概率(頻次)較小,因此對信源總體輸出的平均信息量H(X)的貢獻并不是很大。由信息熵的定義可以看出,消息ai對信源X輸出平均信息量的貢獻為-P(ai)logP(ai)在這一函數(shù)關(guān)系中,由于P(ai)減小的速度比-logP(ai)增加的速度更快,因此平均來講它對信源總體的貢獻還是減小了,其極限情況為由此可以使我們進一步明確:自信息I(ai)是對消息ai是否發(fā)生的不確定性和消息ai所含有信息量的度量,而熵H(X)是自信息的統(tǒng)計平均值,是對信源總體信息特性的度量。作為從統(tǒng)計平均意義上表征信源總體特性的物理量,信源的信息熵具有下面兩種物理含義:
(1)信息熵H(X)表示了信源輸出后每個消息所提供的平均信息量。
(2)信息熵H(X)表示了信源輸出前關(guān)于信源的平均不確定性。例如有兩個信源:
在信源X、Y未輸出消息之前,直觀分析可看出,信源X輸出消息a1的可能性是99%,因此我們對X的平均不確定性較小;對信源Y,它輸出b1、b2的可能性均為0.5,因此我們對于信源Y輸出哪一個消息的平均不確定性較大。利用信源信息熵的定義式(2.6)可以對信源X、Y輸出消息前的這種不確定性加以度量,則有:H(X)=0.08比特/符號,H(Y)=1比特/符號可見,信源的信息熵確實反映出了信源輸出消息的平均不確定程度的大小。說明:信源的信息熵H(X)并不表示接收者所獲得的平均信息量,接收者所獲得的平均信息量一般也不一定等于信源的信息熵H(X)。只有在傳輸信源輸出消息的信道無噪,接收者正確無誤地接收到信源發(fā)出的消息,消除了大小為H(X)的平均不確定性時,接收者才由通信系統(tǒng)獲得大小為H(X)的平均信息量。2.3熵函數(shù)的性質(zhì)由上面的討論我們知道,式(2.6)定義的熵從總體上描述了信源的平均不確定性和平均信息量。作為統(tǒng)計平均意義上表征信源總體特性的物理量,熵是表征信源輸出隨機變量X的一個數(shù)字特征,只與信源消息的概率分布有關(guān)。無論信源是否輸出了消息,只要這些消息的發(fā)生具有一定的概率分布,則該信源的信息熵就存在,根據(jù)信源的這組概率分布便可求出信源的信息熵。
【例2.4】設(shè)有一個離散無記憶的二進制信源,其概率空間為
可以知道,此信源的信息熵為
由此可以看出,H(X)是概率分布p、1-p的函數(shù),常記做H2(p)或H2(p,1-p),下標(biāo)2表示信源是二進制的或稱二元信源。由式(2.8)可知,H2(p)是p的函數(shù),可以做出H2(p)的函數(shù)曲線,如圖2-3所示。(2.8)圖2-3H2(p)的函數(shù)曲線例2.2為二進制信源在0、1等概率分布時的一個特例,即當(dāng)信源符號0、1等概率分布時,消息的自信息為I(X=0)=I(X=1)=1比特由熵函數(shù)式可知,對于此等概率分布的二進制信源,信息熵:雖然信源消息的自信息與信源的信息熵在數(shù)值上相等,但是它們的含義是不同的。自信息I(X)=0、I(X)=1反映的是信源符號0、1含有的信息量為1比特,發(fā)生概率分別為的隨機變量;H(X)則表明信源每輸出一個符號平均含有1比特的信息量,信息熵H(X)是取決于信源概率分布的一個確定量。作為概率分布P的函數(shù),由圖2-3可以看出熵函數(shù)所具有的一些基本性質(zhì)。如果二元信源的輸出是確定的(p=0或p=1),則該信源不能提供任何信息。當(dāng)信源符號0、1等概率發(fā)生時,二元信源的熵達到其最大值,且為1比特/符號。下面我們從信源的信息熵與概率分布的函數(shù)關(guān)系,討論熵函數(shù)的性質(zhì)。若信源X的概率空間為它的熵與信源符號的個數(shù)n及其概率分布P有關(guān)。信息熵H(X)是p1、p2、…、pn的n元函數(shù)(,其中有n-1個獨立變量),因此也稱為熵函數(shù),記做:(2.9)其中,P為概率矢量,它的n個分量為p1、p2、…、pn,并且依概率分布的條件有:
信源的熵函數(shù)H(P)具有下面一些基本性質(zhì)。
1.對稱性當(dāng)變量p1、p2、…、pn的位置任意互換時,熵函數(shù)的值不變,即H(p1,p2,…,pn)=H(p2,p1,…,pn)=H(pn,p1,…,pn-1)
(2.10)對稱性進一步表明,熵是信源總體特性的描述,它只與隨機變量的總體統(tǒng)計結(jié)構(gòu)有關(guān)。由概率分布律可知,n個符號的概率矢量由數(shù)1分割成n個正實數(shù)取值的組合所構(gòu)成,而熵函數(shù)只與這n個實數(shù)的組合有關(guān),與這n個實數(shù)和信源的n個符號采取何種對應(yīng)關(guān)系無關(guān)。例如,下面三個信源:我們可以用a1、a2、a3分別表示自習(xí)、上課和文體活動三個具體消息,而b1、b2、b3分別表示晴、霧、雨三個消息。在這三個信源中,X與Z所包含的具體消息(符號)的含義不同,而X與Y兩信源中某一消息的概率不同。但是由于它們的符號個數(shù)及其概率組合相同,因此它們的信息熵是相同的,即從信源的總體統(tǒng)計特性看它們是相同的。由此可以看出,這種熵的定義有其局限性,未能反映出信源輸出的消息本身所含有的主觀意義。
2.非負性H(X)≥0
(2.11)根據(jù)概率分布律,隨機變量X的所有取值的概率pi均在0和1之間,當(dāng)取對數(shù)的底大于1時,有故有
這種非負性對于離散信源的熵是合適的。對于連續(xù)信源,這種非負性并不存在。
3.確定性H(1,0)=H(1,0,0)=…=H(1,0,0,…,0)=0
(2.12)對于信源的一組概率分布P=(p1,p2,…,pn),若某信源符號發(fā)生的概率pk=1,則依概率分布滿足的條件可知,其他信源符號發(fā)生的概率必定全部為0。因此信源輸出的隨機變量成為一個確定量,即幾乎處處輸出發(fā)生概率為1的那個符號,對于這種信源的不確定性為0。由于熵是不確定性的度量,因此確知的信源的熵為0。
4.擴展性
此性質(zhì)的證明也較簡明。根據(jù)熵的定義式(2.6),寫出式(2.13)左端的熵函數(shù),應(yīng)用極限關(guān)系
即可得出此性質(zhì)成立的結(jié)論。(2.13)此性質(zhì)說明,當(dāng)信源的消息個數(shù)增多時,若增加的消息發(fā)生的概率極?。ń咏?),而原有消息的概率在信源總體上幾乎沒有改變,則信源的熵不變。從某一消息的自信息考慮,雖然這些概率很小的新事件發(fā)生后會給予接收者較多的信息,但對于信源總體而言,這種概率很小的消息幾乎不會出現(xiàn),它在熵的計算中占的比重很小??梢?,熵的擴展性也是其總體統(tǒng)計平均性的一種體現(xiàn)。
5.可加性統(tǒng)計獨立的信源X和Y的聯(lián)合信源的熵等于分別熵之和,即:H(XY)=H(X)+H(Y)在對信息概念的討論中,為了使先后收到的信息可簡單地相加,規(guī)定信息的度量方式必須滿足可加性。下面我們以相互統(tǒng)計獨立的情況為例,證明熵函數(shù)具有這種性質(zhì)。證明:設(shè)有兩個隨機變量X和Y,其中X有n種取值,概率分布為q1,q2,…,qn,Y有m種取值,概率分布為r1,r2,…,rm。由熵函數(shù)的定義式可知X和Y的熵分別為現(xiàn)在考察由相互獨立的X、Y構(gòu)成的聯(lián)合信源XY。聯(lián)合信源XY有nm種取值可能,它的概率分布為X、Y的聯(lián)合概率分布,即P(X=xi,Y=yj)=P(xi,yj)=pij
i=1,2,…,n;j=1,2,…,m聯(lián)合信源的熵為由于X與Y相互獨立,有pij=qi·rj,因此:對于X和Y非相互獨立的一般情況也有類似的結(jié)論,只是性質(zhì)的表達和證明過程要復(fù)雜一些。
6.極值性(最大熵定理)
即當(dāng)信源符號等概率分布時,熵達到其最大值。為了證明式(2.14),首先證明下面兩個引理。(2.14)
引理2.1lnx≤x-1x>0
(2.15)證明:構(gòu)造輔助函數(shù)f(x)=lnx-(x-1),計算其極大值。
令上式為0,可以求出f(x)在x=1處取得極值。由可知,當(dāng)x>0時,f(x)是上凸函數(shù)。因此,在x=1處函數(shù)f(x)有極大值,f(x)的極大值為
f(x=1)=0
因此
f(x)=lnx-(x-1)≤0x>0即lnx<x-1證畢。
引理2.2
式中,,。(2.16)證明:考察易知ri/pi>0,由式(2.15)可知
因此
證畢。在式(2.16)中,若令,則式(2.16)成為:
此即式(2.14)表示的最大熵定理。(2.17)最大熵定理表明,對于一個輸出n種消息的信源,在其可能的概率分布中,當(dāng)信源輸出的消息為等概率分布時,信源的信息熵最大,且該最大的信息熵為logn。對于二進制信源,例2.4已經(jīng)表明,當(dāng)p(0)=p(1)=1/2時信源的信息熵最大,即二進制信源的最大熵為
比特/符號
7.上凸性熵函數(shù)H(p1,p2,…,pn)是概率矢量P=(p1,p2,…,pn)的上凸函數(shù),即對于概率矢量P、Q和α(0<α<1),有:
(2.18)證明:設(shè)K為n維隨機變量的概率分布構(gòu)成的集合。在K中任意找出兩組不同的概率分布:P=(p1,p2,…,pn)Q=(q1,q2,…,qn)顯然,這兩組概率分布滿足概率分布律,即在這兩組概率分布下,分別有熵函數(shù)H(P)和H(Q)。取0<α<1,由概率矢量P、Q的線性組合可構(gòu)成一組新的概率分布R:因為
且
這組新的概率分布R滿足概率分布律,故有:
R=αP+(1-α)Q∈K在由P、Q的線性組合得到的新的概率分布R下,熵函數(shù)為由于對數(shù)函數(shù)是上凸函數(shù),因此式(2.19)的第三項中:同理,式(2.19)的第四項中因此式(2.19)中的后兩項:
故有:
即式(2.18)表示的上凸函數(shù)關(guān)系成立,熵函數(shù)是上凸函數(shù)。證畢。利用熵函數(shù)的上凸性,我們也可以找出信源的最大熵和達到最大熵時信源消息的概率分布。
【例2.5】已知信源X輸出n種符號,試用求導(dǎo)法計算此信源的最大熵,以及達到最大熵時n個信源符號的概率分布。解:因為熵函數(shù)是上凸函數(shù),所以若它的極值存在,則必為極大值,且該極大值即為給定信源的最大熵。設(shè)P=(p1,p2,…,pn)為信源X的一組概率矢量,其熵函數(shù):
滿足條件:
題中所求為熵函數(shù)H(P)在此條件下的條件極值。首先以λ為待定常數(shù)作輔助函數(shù):
對于i=1,2,…,n,計算輔助函數(shù)Φ(P)關(guān)于pi的偏導(dǎo):令
得到:
注意,此為一個由n個方程構(gòu)成的方程組。解此方程組得到熵函數(shù)H(P)取得極值的概率分布,即得到:由于pi是與i無關(guān)的常數(shù),且必須滿足概率分布的條件,可知熵函數(shù)H(P)的極值點概率分布必為
因此熵函數(shù)H(P)的最大值為因此對于具有n種輸出符號的信源X,當(dāng)信源符號等概率分布時,信源的信息熵H(X)達到其最大值logn。此結(jié)論與關(guān)于熵的極值性的討論結(jié)果是相同的。2.4聯(lián)合事件的熵及其關(guān)系
2.3節(jié)我們從信源輸出隨機變量X的概率空間出發(fā),對信源符號的不確定性進行了分析并引出了信源符號的自信息和信源的熵。然而,在對一個通信系統(tǒng)進行分析時,我們遇到的往往并不是單個的隨機變量,而是由若干隨機變量構(gòu)成的聯(lián)合事件。因此需要對由若干隨機變量組成的聯(lián)合事件所具有的不確定性加以討論。此處,我們以兩個隨機變量為例,在2.3節(jié)討論的熵的概念與定義的基礎(chǔ)上,討論聯(lián)合事件的熵及其關(guān)系。2.4.1聯(lián)合事件的概率空間與概率關(guān)系設(shè)有兩個離散隨機變量X、Y,其中:
X∈{x1,x2,…,x
r}
Y∈{y1,y2,…,ys}
(2.20)X和Y構(gòu)成的聯(lián)合事件用二維隨機變量(X,Y)表示。二維隨機變量(X,Y)的性質(zhì)不僅與X和Y有關(guān),而且依賴于兩者之間的關(guān)系。因此對于由X和Y組成的聯(lián)合事件,僅僅單獨研究X或Y是不夠的,還需要將(X,Y)作為一個整體來研究。
1.聯(lián)合概率分布已知二維隨機變量(X,Y)的取值為(xi,yj),其發(fā)生的概率為聯(lián)合概率P(xi,yj),它們滿足:
因此,聯(lián)合事件(X,Y)的概率空間為
[XY,P(xi,yj)]
(2.22)(2.21)
2.邊緣概率分布對于二維隨機變量(X,Y),X和Y也是隨機變量,將隨機變量X和Y各自的概率分布分別稱為二維隨機變量(X,Y)關(guān)于X和Y的邊緣概率分布,并且邊緣概率分布由聯(lián)合概率分布決定。依據(jù)二維隨機變量(X,Y)的聯(lián)合概率分布P(xi,yj),可以求出某一隨機變量的邊緣概率分布,即(2.23)(2.24)它們滿足:
3.條件概率分布對于二維隨機變量(X,Y),如果已知其聯(lián)合概率分布P(xi,yj)和某一事件X或Y的邊緣概率分布P(xi)和P(yj),則可以求出在某事件已發(fā)生的條件下另一事件發(fā)生的概率,并將此概率稱為條件概率。已知X=xi已發(fā)生的條件下Y=yj發(fā)生的條件概率分布為
同理,已知Y=yj已發(fā)生的條件下X=xi發(fā)生的條件概率分布為(2.25)(2.26)其中,設(shè)P(xi)>0,P(yj)>0i=1,2,…,r;j=1,2,…,s條件概率分布滿足:2.4.2聯(lián)合熵、無條件熵和條件熵對于由X、Y組成的聯(lián)合事件,由于(X,Y)是一個隨機矢量,因此我們對聯(lián)合事件(X,Y)的某一樣值是否發(fā)生具有不確定性。聯(lián)合事件(X,Y)的平均不確定性大小可以用聯(lián)合事件(X,Y)的聯(lián)合熵進行度量。若已知聯(lián)合事件(X,Y)的概率空間為[XY,P(xi,yj)],則聯(lián)合事件(X,Y)的聯(lián)合熵為(2.28)若已知某一隨機變量的邊緣概率分布,則根據(jù)熵的定義式(2.6)可以寫出聯(lián)合事件(X,Y)中關(guān)于某一隨機變量的熵,即(2.29)(2.30)
H[X]和H[Y]分別表示聯(lián)合事件(X,Y)中關(guān)于隨機變量X和Y的平均不確定性,它們被稱為無條件熵或邊緣熵。對于由多個隨機變量組成的聯(lián)合事件,我們不僅要了解它們的聯(lián)合不確定性和某一分量的不確定性,還需要了解在某些隨機變量已出現(xiàn)的條件下,關(guān)于另一隨機變量的不確定性。這種平均不確定性即為條件熵。設(shè)已知聯(lián)合事件(X,Y)中xi已發(fā)生時yj發(fā)生的概率為條件概率P(yj|xi),則定義已知X時關(guān)于Y的條件熵為
它表示在隨機變量X已知時,我們對于隨機變量Y仍存在的平均不確定性。同理,已知Y時關(guān)于X的條件熵為(2.31)(2.32)2.4.3各種熵之間的關(guān)系
1.條件熵條件熵滿足如下性質(zhì):H(Y|X)≤H(Y)
(2.33)當(dāng)且僅當(dāng)X與Y統(tǒng)計獨立時等式成立。證明:由于對數(shù)函數(shù)是上凸函數(shù),因此應(yīng)用顏森不等式:
當(dāng)X、Y統(tǒng)計獨立時:P(xi,yj)=P(xi)·P(yj)由式(2.34)第三步可看出等式成立。同理,存在:H(X|Y)≤H(X)此性質(zhì)表明,在聯(lián)合事件中某一隨機變量的條件熵是有界的,它小于等于該隨機變量的無條件熵。
2.聯(lián)合熵、無條件熵和條件熵的關(guān)系(2.35)所以H(XY)=H(Y|X)+H(X)
(2.36)可見,關(guān)于聯(lián)合事件(X,Y)的不確定性等于關(guān)于X的不確定性與一旦觀測到X之后仍然保留的關(guān)于Y的不確定性之和。同理,可得到:H(XY)=H(X|Y)+H(Y)
(2.37)若聯(lián)合事件(X,Y)中各分量相互獨立,又由于P(yj|xi)=P(yj),則(2.38)
同理,依據(jù)P(xi|yj)=P(xi)有:H(X|Y)=H(X)
(2.39)因此,若聯(lián)合事件(X,Y)中各分量相互獨立,則它們的聯(lián)合熵為H(XY)=H(X)+H(Y)
(2.40)
【例2.6】已知隨機變量X和Y組成聯(lián)合事件(X,Y)。二維隨機變量(X,Y)的聯(lián)合概率分布如表2-1所示。(1)計算聯(lián)合事件(X,Y)的聯(lián)合熵H(XY);(2)計算隨機變量X和Y的邊緣熵H(X)和H(Y);(3)計算條件熵H(Y|X)和H(X|Y);(4)驗證聯(lián)合熵與邊緣熵、條件熵之間的關(guān)系。表2-1P(xi,yj)解:
(1)依據(jù)聯(lián)合事件(X,Y)的聯(lián)合概率分布計算(X,Y)的聯(lián)合熵H(XY)為
(2)依據(jù)邊緣概率的計算關(guān)系,首先求出隨機變量X的邊緣概率為因此隨機變量X的邊緣熵H(X)為
同理,可以求出隨機變量Y的邊緣概率和邊緣熵H(Y):計算得到隨機變量Y的邊緣熵為
(3)已知聯(lián)合事件(X,Y)的聯(lián)合概率P(xi,yj)和隨機變量X的邊緣概率P(xi)。依據(jù)條件概率的計算關(guān)系,可以求出在已知X=xi發(fā)生的條件下關(guān)于Y=yj發(fā)生的條件概率分布P(yj|xi),其中i=1,2,3,4,j=1,2,3,如表2-2所示。表2-2P(yj|xi)可以求出已知X時關(guān)于Y的條件熵為同理,依據(jù)可以得到已知Y=yj發(fā)生的條件下,關(guān)于X=xi發(fā)生的條件概率分布P(xi|yj)(如表2-3所示)。表2-3P(xi|yj)可以求出已知X時關(guān)于Y的條件熵為
(4)由上述計算結(jié)果可以驗證聯(lián)合熵、邊緣熵和條件熵之間滿足的關(guān)系。下面驗證某一隨機變量的無條件熵與條件熵的關(guān)系。由計算結(jié)果可以看出,在聯(lián)合事件(X,Y)中,關(guān)于隨機變量X的邊緣熵為當(dāng)已知隨機變量Y時,關(guān)于隨機變量X的條件熵為
顯然,隨機變量X的條件熵與其無條件熵的關(guān)系滿足:H(X|Y)<H(X)同理,隨機變量Y的條件熵與其無條件熵的關(guān)系也滿足:H(Y|X)<H(Y)由此可以看出,對于聯(lián)合事件(X,Y),某一隨機變量的條件熵小于等于該隨機變量的無條件熵。下面由計算結(jié)果驗證邊緣熵、條件熵和聯(lián)合熵之間的關(guān)系。由此例計算得到的聯(lián)合事件(X,Y)的邊緣熵:H(X)=1.906比特/符號,H(Y)=1.5比特/符號條件熵:H(Y|X)=1.172比特/符號,H(X|Y)=1.578比特/符號聯(lián)合熵:H(XY)=3.078比特/符號可以看出,它們之間滿足:H(X)+H(Y|X)=1.906+1.172=3.078=H(XY)和H(Y)+H(X|Y)=1.5+1.578=3.078=H(XY)即聯(lián)合事件(X,Y)的不確定性(聯(lián)合事件的聯(lián)合熵H(XY))等于關(guān)于某一隨機變量的不確定性與一旦觀測到該隨機變量后仍然保留的關(guān)于另一隨機變量的不確定性之和。2.5連續(xù)信源的信息測度至此,我們所研究的都是取值為有限或可數(shù)的離散信源,它們輸出的消息屬于時間離散、取值有限或可數(shù)的隨機序列,其統(tǒng)計特性可以用聯(lián)合概率分布來描述,而某些實際信源的輸出是時間和取值都是連續(xù)的消息。例如語音信號X(t)、電視信號X(x0,y0,t)等都是時間的連續(xù)波形。當(dāng)固定某一時刻t=t0時,它們的可能取值也是連續(xù)的。這樣的信源稱為隨機波形信源。隨機波形信源輸出的消息是隨機的,因此,可以用隨機過程{x(t)}來描述。2.5.1連續(xù)信源的差熵基本連續(xù)信源的輸出是取值連續(xù)的單個隨機變量,可用變量的概率密度、變量間的條件概率密度和聯(lián)合概率密度來描述。變量的一維概率密度函數(shù)為
一維概率分布函數(shù)為
條件概率密度函數(shù)為pY|X(y|x),pX|Y(x|y)聯(lián)合概率密度函數(shù)為它們之間的關(guān)系為(2.42)(2.41)
這些邊緣概率密度函數(shù)滿足:
其中,X和Y的取值域為全實數(shù)集R。(2.44)(2.43)若概率密度在有限區(qū)域內(nèi)分布,則可認為在該區(qū)間之外所有概率密度函數(shù)為零。上述密度函數(shù)中的腳標(biāo)表示所牽涉的變量的總體,而自變量(如x,y,…)則是具體取值。因為概率密度函數(shù)是不同的函數(shù),所以用腳標(biāo)來加以區(qū)分,以免混淆。為了簡化書寫,往往省去腳標(biāo),但在使用時要注意上述問題。基本連續(xù)信源的數(shù)學(xué)模型為并滿足:
其中,R是全實數(shù)集,是連續(xù)變量X的取值范圍。根據(jù)前述的離散化原則,連續(xù)變量X可量化分層后用離散變量描述。量化單位越小,則所得的離散變量和連續(xù)變量越接近。因此,連續(xù)變量的信息測度可以用離散變量的信息測度來逼近。假定連續(xù)信源X的概率密度函數(shù)p(x)如圖2-4所示。圖2-4概率密度分布我們把取值區(qū)間[a,b]分割成n個小區(qū)間,各小區(qū)間設(shè)有等寬。那么,X處于第i區(qū)間的概率Pi是(2.45)其中,xi是a+(i-1)Δ到a+iΔ之間的某一值。當(dāng)p(x)是x的連續(xù)函數(shù)時,由積分中值定理可知,必存在一個xi值使式(2.45)成立。這樣,連續(xù)變量X就可用取值為xi(i=1,2,…,n)的離散變量Xn來近似,連續(xù)信源X就被量化成離散信源:且
這時離散信源Xn的熵是當(dāng)n→∞,Δ→0時,離散隨機變量Xn趨于連續(xù)隨機變量X,而離散信源Xn的熵H(Xn)的極限值就是連續(xù)信源的信息熵,即(2.46)一般情況下,式(2.46)的第一項是定值。當(dāng)Δ→0時,第二項是趨于無限大的常數(shù)。所以避開第二項,定義連續(xù)信源的熵為(2.47)由式(2.47)可知,所定義的連續(xù)信源的熵并不是實際信源輸出的絕對熵,而連續(xù)信源的絕對熵應(yīng)該還要加上一項無限大的常數(shù)項。這一點是可以理解的,因為連續(xù)信源的可能取值數(shù)是無限多個,若設(shè)取值是等概率分布,那么信源的不確定性為無限大。當(dāng)確知輸出為某值后,所獲得的信息量也將為無限大??梢?,h(X)已不能代表信源的平均不確定性大小,也不能代表連續(xù)信源輸出的信息量。既然如此,為什么要定義連續(xù)信源的熵為式(2.47)呢?一方面,因為這樣定義可與離散信源的熵在形式上統(tǒng)一起來,另一方面,因為在實際問題中常常討論的是熵之間的差值問題,如平均互信息。在討論熵差時,無限大常數(shù)項將有兩項,一項為正,一項為負,只要兩者離散逼近時所取的間隔Δ一致,這兩個無限大項就將互相抵消掉。因此在任何包含有熵差的問題中,式(2.47)定義的連續(xù)信源的熵具有信息的特性。由此可見,連續(xù)信源的熵稱為差熵,以區(qū)別于原來的絕對熵。同理,我們可以定義兩個連續(xù)變量X、Y的聯(lián)合熵和條件熵,即(2.48)(2.49)(2.50)2.5.2差熵的基本性質(zhì)差熵仍然具有可加性、凸?fàn)钚院蜆O值性,但卻不存在非負性和變換不變性等。因此,連續(xù)信源的差熵具有如下性質(zhì)。
(1)可加性。h(XY)=h(X)+h(Y|X)
(2.51)h(XY)=h(Y)+h(X|Y)
(2.52)并且類似于離散情況,可以證得:h(X|Y)≤h(X)或h(Y|X)≤h(Y)
(2.53)當(dāng)且僅當(dāng)X與Y統(tǒng)計獨立時,式(2.52)和式(2.53)成立。進而可得:h(XY)≤h(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年滬教版選修4歷史上冊階段測試試卷
- 2025年粵教版九年級地理上冊月考試卷含答案
- 2025年粵教版八年級地理上冊月考試卷含答案
- 2025年浙科版七年級生物上冊月考試卷含答案
- 2025年冀少新版九年級歷史上冊月考試卷含答案
- 2025年新科版選修化學(xué)上冊月考試卷
- 二零二五年度云計算數(shù)據(jù)中心托管服務(wù)合同2篇
- 2025年度智能穿戴設(shè)備生產(chǎn)承攬合同補充協(xié)議3篇
- 二零二五年度定制化儲藏室貨架設(shè)計與安裝合同2篇
- 2025年度嬰幼兒奶粉市場調(diào)研與品牌推廣合作合同4篇
- 人教版三年級上冊豎式計算練習(xí)300題及答案
- 【“凡爾賽”網(wǎng)絡(luò)流行語的形成及傳播研究11000字(論文)】
- ppr管件注塑工藝
- 液化氣站其他危險和有害因素辨識及分析
- 建筑工程施工安全管理思路及措施
- 高中語文教學(xué)課例《勸學(xué)》課程思政核心素養(yǎng)教學(xué)設(shè)計及總結(jié)反思
- 中國農(nóng)業(yè)銀行小微企業(yè)信貸業(yè)務(wù)貸后管理辦法規(guī)定
- 初中英語-Unit2 My dream job(writing)教學(xué)課件設(shè)計
- 市政道路建設(shè)工程竣工驗收質(zhì)量自評報告
- 優(yōu)秀支行行長推薦材料
- 中國版梅尼埃病診斷指南解讀
評論
0/150
提交評論