信息熵、相對(duì)熵、交叉熵的理解_第1頁
信息熵、相對(duì)熵、交叉熵的理解_第2頁
信息熵、相對(duì)熵、交叉熵的理解_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、信息熵、相對(duì)熵、交叉熵的理解信息熵、相對(duì)熵、交叉熵信息論與信息熵提到這三個(gè)概念,就不得不提到信息論。人們通常將香農(nóng)于1948年10月發(fā)表于貝爾系統(tǒng)技術(shù)學(xué)報(bào)上的論文AMathematicalTheorofCommunication(通信的數(shù)學(xué)理論)作為現(xiàn)代信息論研究的開端。香農(nóng)也被稱為是“信息論之父”。其實(shí)熵這個(gè)概念是香農(nóng),從熱力學(xué)中借鑒過來的,熱力學(xué)中的熱熵是表示分子狀態(tài)混亂程度的物理量。香農(nóng)用信息熵的概念來描述信源的不確定度。信息論的基本想法是一個(gè)不太可能發(fā)生的事件居然發(fā)生了,要比一個(gè)非??赡馨l(fā)生的事件發(fā)生帶來的信息要多。例如,說明天會(huì)發(fā)生日食,遠(yuǎn)比說明天太陽能照常升起帶來的有效信息要多。為

2、了有效量化這一思想,特別是要符合以下三個(gè)性質(zhì):非??赡馨l(fā)生的時(shí)間信息量要少,并且在極端情況下,確保能發(fā)生的事件應(yīng)該沒有信息量。較不可能發(fā)生的事應(yīng)具有更高的信息量。獨(dú)立事件應(yīng)具有增量的信息。例如,投擲硬幣兩次正面面朝上的信息量,應(yīng)該是投擲一次正面朝上的兩倍為滿足以上的三個(gè)性質(zhì),我們首先定義一個(gè)自信息的概念。假設(shè)對(duì)弈事件疋=乙其自信息定義為:I(x)=-logP(x)需要解釋一下,此處的log以e為底,單位為奈特(nats),而對(duì)于以2為底的log,其單位通常為比特(bit)或者香農(nóng)(shannons)。我們這里除非特殊提到,默認(rèn)底數(shù)為e。自信息有兩層含義:表示事件發(fā)生前,事件發(fā)生的可能性。表示時(shí)

3、間發(fā)生后,時(shí)間所包含的信息量,是提供給信宿的信息量,也是解除這種不太確定性所需的信息量。那對(duì)于整個(gè)的概率分布,就可以定義出香農(nóng)熵或稱信息熵的概念,從而可以量化事件發(fā)生的信息,其定義如下:一個(gè)分布的信息熵是指一個(gè)分布中所發(fā)生事件的期望信息總和。H(x)=(%)=-log?(x)=ptlogS)其實(shí)在這個(gè)公式中可以看出,越不可能發(fā)生的事件,熵就越大,包含的信息也就越多。再延伸一點(diǎn),可以看出對(duì)于那些相對(duì)確定(即輸出幾乎可以確定)的分布,其熵會(huì)較低,反之熵會(huì)較高。對(duì)于連續(xù)的分布,信息熵被稱為微分熵。例如,在二值分布中,其信息熵的公式為:(p-1)log(1-p)-plog(p)從下圖可以看出,當(dāng)概率較

4、為不確定時(shí),熵最大。相對(duì)熵(KL散度)對(duì)于兩個(gè)基于自變量的單獨(dú)的概率分布模型卩3)和Q(x),可以使用KL散度(Kullback-Leibler)即相對(duì)熵來衡量?jī)蓚€(gè)分布的差異。其公式定義如下:%(P=EpogP(x)-logg(x)_Dkl(PIIQ)不等于Dkl(QP)(前者表示從q到P的KL散度,后者KL不完全等價(jià)于距離公式,表示從p到q的KL散度),因?yàn)樽钚』瘍蓚€(gè)分布之間的KL散度,無非就兩個(gè)任務(wù)。一種任務(wù),讓近似分布Q在真實(shí)分布P高概率的地方,放置高概率;另一種任務(wù),讓近似分布Q在真實(shí)分布p低概率的部分很少放置高概率。從下面這兩個(gè)圖的例子上來解釋:的任務(wù)可簡(jiǎn)寫成最小化DKL(Pq)或者

5、DKL(q|P)o不同的目標(biāo)函數(shù)會(huì)產(chǎn)生不同的效果。下面這幅圖的左邊這幅圖,目標(biāo)就是在p(x)高概率的地方,q(x)放置高概率,也就是要最小化Dkl(pIIq)o而右邊這幅圖,目標(biāo)是在p(x)低概率的地方避免放置高概率,最小化Dkl(qIIp),可以看到的是,q(x)擬合到了p(x)的左邊的峰上,但其實(shí)可以選擇右邊的峰,得到相同的KL散度值。我個(gè)人的理解是,第一個(gè)任務(wù),我們只需要在p(x)高概率的地方出現(xiàn)高概率,那這樣只要在p(x)兩個(gè)峰的位置產(chǎn)生更多的高概率,就可以了,至于是否在低概率的地方,放置多少高概率,我并不關(guān)心。第二個(gè)任務(wù)也是同樣的想法,不同的是,這樣會(huì)把p(x)的低概率的地方會(huì)將q(x)包裹起來。交叉熵講完KL散度也就是相對(duì)熵,就可以來看一下什么是交叉熵了。交叉熵結(jié)合softmax現(xiàn)在在深度學(xué)習(xí)和機(jī)器學(xué)習(xí)中使用最廣,尤其是在判別模型中。首先是交叉熵的定義。Nmohy.pfxjioaotxj接下來回顧下,相對(duì)熵的定義。Dkl二J燉黑二fp(xJ(logP(xJ-logQ(xJ)其實(shí)可以看出Dkl可以拆分成日(卩)+H(P,Q)o也就是說H(P,Q)=H(x)+Dkl(PIIQ)從這也很好的解釋了,為什么在用交叉熵作為loss值而不用相對(duì)熵。首先P是真值,也是我們要去逼近的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論