信息增益,熵計算_第1頁
信息增益,熵計算_第2頁
信息增益,熵計算_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、信息增益計算和原理當(dāng)我們需要對一個隨機事件的概率分布進行預(yù)測時,我們的預(yù)測應(yīng)當(dāng)滿足全部已知的條件,而對未知的情況不要做任何主觀假設(shè)。在這種情況下,概率分布最均勻,預(yù)測的風(fēng)險最小。因為這時概率分布的信息熵最大,所以稱之為“最大熵法”。最大熵法在數(shù)學(xué)形式上很漂亮,但是實現(xiàn)起來比較復(fù)雜,但把它運用于金融領(lǐng)域的誘惑也比較大,比如說決定股票漲落的因素可能有幾十甚至上百種,而最大熵方法恰恰能找到一個同時滿足成千上萬種不同條件的模型。這里我們先不討論算法(這里用的是),把一棵決策樹建立起來再說。我們要建立的決策樹的形式類似于“如果天氣怎么樣,去玩;否則,怎么著怎么著”的樹形分叉。那么問題是用哪個屬性(即變量

2、,如天氣、溫度、濕度和風(fēng)力)最適合充當(dāng)這顆樹的根節(jié)點,在它上面沒有其他節(jié)點,其他的屬性都是它的后續(xù)節(jié)點。借用信息論的概念,我們用一個統(tǒng)計量,信息增益()來衡量一個屬性區(qū)分以上數(shù)據(jù)樣本的能力。信息增益量越大,這個屬性作為一棵樹的根節(jié)點就能使這棵樹更簡潔,比如說一棵樹可以這么讀成,如果風(fēng)力弱,就去玩;風(fēng)力強,再按天氣、溫度等分情況討論,此時用風(fēng)力作為這棵樹的根節(jié)點就很有價值。如果說,風(fēng)力弱,再又天氣晴朗,就去玩;如果風(fēng)力強,再又怎么怎么分情況討論,這棵樹相比就不夠簡潔了。計算信息增益的公式需要用到熵()。1計算熵1U0二uoLirgf卑百孚XS2網(wǎng)即入ssmniraXuoLirgfSfLOUXS2

3、I0L?pjuaurq入ssdmniraXCOOJuoLirgfXS28mnuuX呵網(wǎng)即UOO/.&LCEjCOOJuoLirgfSfLOUXS2L?pjCOQJuaurqUO2tsmjCOOJuoLirgfXS24L?pj呵入SSO/.&LCEjXS2了mnuuXUOmniraXpo(UOD詠OnqoapXfUJbGLffjmsJjnUJTCTjjL左西qyjAfsuija我們檢查的屬性是是否出去玩。用對上面數(shù)據(jù)的變量的各個取值排個序(這個工作簿里把這個詞去掉),一共是條記錄,你能數(shù)出取值為的記錄有個,取值為的有個,我們說這個樣本里有個正例,個負例,記為+是樣本的意思。這里熵記為計算公式為:

4、解釋一下,9/是1正4例的個數(shù)與總記錄之比,同樣5/是1負4例占總記錄的比例。總結(jié):在這個例子中,我們的輸出屬性(我們要檢查的屬性)只有兩個取值,同樣地,如果輸出屬性的取值大于2,公式是對成的,一樣的形式,連加就是,找到各個取值的個數(shù),求出各自的比例。如果樣本具有二元輸出屬性,其熵的公式為:其中,、分別為正例和負例占總記錄的比例。輸出屬性取值大于的情況,公式是對稱的。2分別以增益和作為根節(jié)點,計算其信息可以數(shù)得,屬性中取值為正例6個,負例2個;同樣,取值為以計算相應(yīng)的熵為:的記錄有的記錄有條,其中的記錄個,正例負例個個。我們可現(xiàn)在就可以計算出相應(yīng)的信息增益了:這個公式的奧秘在于,是屬性取值為的個數(shù)占總記錄的比例,同樣是其取值為的記錄個數(shù)與總記錄數(shù)之比。同理,如果以作為根節(jié)點:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論