




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、模型真實世界中的系統(tǒng)模型1InputOutput模型2Output1Output2如果Output1總是和Ouput接近,Output2總是和Output偏離,我們就認(rèn)為模型1比模型2好第1頁/共72頁 真實系統(tǒng)模型1模型2InputOutput第2頁/共72頁 模型由體系結(jié)構(gòu)和參數(shù)兩部分構(gòu)成 舉例:住宅樓 多層板樓 高層板樓 高層塔樓 參數(shù) 層數(shù): 戶型:三室一廳,兩室一廳, 舉架高度: 供熱方式:地?zé)??暖氣片??頁/共72頁目錄 樣本空間(Sample Space) 估計器(Estimator)和隨機(jī)過程(Stochastic Process) 信息論(Information Theor
2、y) 數(shù)據(jù)集分類(Data Set Classification) 性能評價(Performance Measure)第4頁/共72頁樣本空間(Sample Space)第5頁/共72頁試驗(Experiment) 試驗 一個可觀察結(jié)果的人工或自然的過程,其產(chǎn)生的結(jié)果可能不止一個,且不能事先確定會產(chǎn)生什么結(jié)果 例如 連擲兩次硬幣 樣本空間 是一個試驗的全部可能出現(xiàn)的結(jié)果的集合 舉例 連擲兩次硬幣 =HH, HT, TH, TT, H:面朝上; T:面朝下第6頁/共72頁事件(Event) 事件 一個試驗的一些可能結(jié)果的集合,是樣本空間的一個子集 舉例:連擲兩次硬幣 A: 至少一次面朝上 B:
3、第二次面朝下 A=HT, TH, HH, B=HT, TT第7頁/共72頁事件的概率 事件的概率 重復(fù)m試驗,如果事件A出現(xiàn)的次數(shù)為n,則事件A的概率為P(A)=n/m,這稱為概率的頻率解釋,或稱統(tǒng)計解釋 頻率的穩(wěn)定性又稱為經(jīng)驗大數(shù)定理 舉例:連擲兩次硬幣 A: 至少一次面朝上 B: 第二次面朝下 P(A)=3/4, P(B)=1/2 當(dāng)試驗不能重復(fù)時,概率失去其頻率解釋的含義,此時概率還有其他解釋:貝葉斯學(xué)派和信念學(xué)派 一個人出生時的體重,一個人只能出生一次第8頁/共72頁舉例 舉例:連續(xù)三次擲硬幣 樣本空間 =HHH,HHT,HTH,HTT,THH,THT,TTH,TTT 事件A:恰好兩次
4、面朝下 A=HTT,THT,TTH 做1000次試驗,計數(shù)得386次為兩次面朝下 估計:P(A)=386/1000=0.386 繼續(xù)做7組試驗,得:373,399,382,355,372,406,359,共8組試驗 計算平均值:P(A)=(0.386+0.373+)/8=0.379,或累計:P(A)=(386+373+)/8000=3032/8000=0.379 統(tǒng)一的分布假設(shè)為:3/8=0.375第9頁/共72頁概率空間 概率空間的三個公理 P(A)0 P()=1 P(AB)=P(A)+P(B) if AB= 這三條公理也是概率的原始定義 推論: P()=0; A BP(A)0正相關(guān),0:x
5、和y關(guān)聯(lián)強(qiáng)度大 I(x,y)=0:x和y無關(guān) I(x,y)0:x和y具有互補(bǔ)的分布第34頁/共72頁熵(Entropy) 熵(Entropy) Chaos(混沌),無序 物理學(xué):除非施加能量,否則熵不會降低 舉例:把房間弄亂很容易,整理干凈不容易 是不確定性(Uncertainty)的衡量 不確定性越高,熵越高,我們從一次實驗中得到的信息量越大第35頁/共72頁熵的公式 熵H(X)=-xp(x)logxp(x) 假設(shè)PX(x)是隨機(jī)變量X的分布 基本輸出字母表是 單位:bits 熵是X的平均信息量,是自信息量的期望 E(X)=x p(x) x I(X)=-logp(x),取2為底,I(X)=-
6、log2p(x) E(I(X)=E(-log2p(x)= x p(x)(-log2p(x) = H(X) H(X)=H(p)=Hp(X)=HX(p)=H(pX)第36頁/共72頁熵的例子 擲均勻硬幣,=H,T p(H)=.5, p(T)=.5 H(p)=-0.5log20.5+(-0.5log20.5)=1 32面的均勻骰子,擲骰子 H(p)=-32(1/32)log2(1/32)=5 事實上,21=2, 25=32(perplexity) 擲不均勻硬幣 p(H)=0.2, p(T)=0.8, H(p)=0.722 p(H)=0.01, p(T)=0.99, H(p)=0.081第37頁/共7
7、2頁好書店,差書店第38頁/共72頁 什么時候H(p)=0? 試驗結(jié)果事先已經(jīng)知道 即:x, p(x)=1; y, p(y)=0 if yx 熵有沒有上限? 沒有一般的上限 對于|=n,H(p)log2n 均衡分布的熵是最大的第39頁/共72頁 等概率分布 2個輸出的等概率分布,H(p)=1bit 32個輸出的等概率分布,H(p)=5bits 43億輸出的等概率分布,H(p)=32bits 非等概率分布 32個輸出,2個0.5,其余為0,H(p)=1bit 怎樣比較具有不同數(shù)量輸出的“熵”第40頁/共72頁混亂度Perplexity 混亂度 G(p)=2H(p) 平均每次試驗有多少種可能的結(jié)果
8、 在NLP中,如果詞表中的詞具有統(tǒng)一的分布概率,則最難預(yù)測,熵最大,混亂度最高 反之,分布越不均衡,熵越小,混亂度越小第41頁/共72頁聯(lián)合熵和條件熵 兩個隨機(jī)變量:X(空間是),Y() 聯(lián)合熵(Joint Entropy) (X,Y)被視為一個事件 H(X,Y)=-x yp(x,y)log2p(x,y) 條件熵(Conditional Entropy) H(Y|X)=-x yp(x,y)log2p(y|x) p(x,y)是加權(quán),權(quán)值是沒有條件的第42頁/共72頁條件熵 H(Y|X)=xp(x)H(Y|X=x) = xp(x)(- yp(y|x)log2p(y|x)=-x yp(y|x)p(x
9、)log2p(y|x)= -x yp(x,y)log2p(y|x)第43頁/共72頁熵的性質(zhì) 熵的非負(fù)的 H(X)0 Chain Rule H(X,Y)=H(Y|X)+H(X) H(X,Y)=H(X|Y)+H(Y) H(X,Y)H(X)+H(Y),X和Y獨(dú)立時相等 H(Y|X)H(Y),條件熵比熵小第44頁/共72頁熵的編碼意義 如果一個符號序列是滿足概率分布p的隨機(jī)過程產(chǎn)生的,那么對這個序列進(jìn)行編碼至少需要的bit數(shù)是H(p) 壓縮問題 如果數(shù)據(jù)中有很多重復(fù)的模式,則易于壓縮,因為熵小 否則,熵大,不容易壓縮第45頁/共72頁編碼實例 怎樣給ISO Latin 1編碼? 通常用8位 經(jīng)驗表明
10、:有的字符經(jīng)常出現(xiàn),有的字符很少出現(xiàn) 我們可以給經(jīng)常出現(xiàn)的字用較少的bit來表示,給很少出現(xiàn)的字符用較多的bit來表示 假設(shè):p(a)=0.3, p(b)=0.3, p(c)=0.3, 其余p(x)=0.0004 編碼:a:00, b:01, c:10, 其余:11b1b2b8 對于符號串:acbbcbaac,編碼為: a c b b c b a a c 0010010111000011111001000010 如果每個符號用8位編碼,需要80位,現(xiàn)在需要28位第46頁/共72頁語言的熵 p(cn+1|c1cn) ci是語言中的一個字符 c1cn是歷史h 舉例:漢語,n=3 p(趙|圍魏救):
11、高 p(去|我曾經(jīng)):低 計算語言的條件熵 -hH cp(c,h)log2p(c|h)第47頁/共72頁各種語言的熵 按字母計算的零階熵 法文:3.98 bits意大利文:4.00 bits 西班牙文:4.01 bits英文:4.03 bits 德文:4.10 bits俄問:4.35 bits 中文(按漢字計算):9.65 bits 中文(按筆畫計算):3.43 bits 按詞匯計算的零階熵 英語:10.0 bits漢語:11.46 bits 說明漢語的詞匯豐富 語言的冗余度 英語:73%; 俄語:70%;漢語:63%;古文更低第48頁/共72頁Kullback-Leibler距離 假設(shè)通過一
12、組試驗估計得到的概率分布為p,樣本空間,隨機(jī)變量X 真實的分布為q,相同的和X 現(xiàn)在的問題是:p和q相比,誤差多大? Kullback-Leibler距離給出的答案是: D(q|p)=xq(x)log2q(x)/p(x) =Eplog(q(x)/p(x)第49頁/共72頁KL距離(相對熵) 習(xí)慣上 0log0=0 plog(p/0)= Distance or Divergence(分歧) 不對稱D(q|p)D(p|q) 也不滿足三角不等式 事實上,D(q|p)不是距離,而是分歧 H(q)+D(q|p):根據(jù)q分布,對p進(jìn)行編碼需要的bit數(shù)(交叉熵)第50頁/共72頁平均互信息 隨機(jī)變量:X;
13、Y;pXY(X,Y);pX(x);pY(y) 兩個離散集之間的平均互信息 I(X,Y)=D(p(x,y)|p(x)p(y) = x y p(x,y)log2(p(x,y)/p(x)p(y) 這里說的是兩個離散集的平均互信息 互信息衡量已知Y的分布時,對X的預(yù)測有多大的幫助,或者說Y的知識降低了H(X) 或者說p(x,y)和p(x)p(y)之間的距離第51頁/共72頁第52頁/共72頁互信息的性質(zhì) I(X,Y)=H(X)-H(X|Y) =H(Y)-H(Y|X) I(X,Y)=H(X)+H(Y)-H(X,Y) 因為:H(X,Y)=H(X|Y)+H(Y) I(X,X)=H(X)(因為H(X,X)=0
14、) I(X,Y)=I(Y,X) I(X,Y)0第53頁/共72頁交叉熵Cross-Entropy 典型情況: 我們得到一個觀察序列 T=t1,t2,tn, ti 估計: y : p(y)=c(y)/|T|, 定義:c(y)=|tT, t=y| 但是,真實的q不知道,再大的數(shù)據(jù)也不夠 問題:用p對q進(jìn)行估計是否準(zhǔn)確? 方法:用一個不同的觀察序列T估計實際的q第54頁/共72頁交叉熵 Hp(p)=H(p)+D(p|p) Hp(p)=-xp(x)log2p(x) p當(dāng)然也不是真實的分布,但是我們視為真實世界的分布,以便測試p 交叉混亂度:Gp(p)=2Hp(p)第55頁/共72頁條件交叉熵 實踐中計
15、算的往往是條件交叉熵 兩個樣本空間 樣本空間:,隨機(jī)變量Y,yY 上下文樣本空間:,隨機(jī)變量X,xX 實驗得到的分布p(y|x), “真實”分布p(y|x) Hp(p)=-y, x p(y,x)log2p(y|x) 條件交叉熵中的權(quán)值是p(y,x),不是p(y|x)第56頁/共72頁 在實際應(yīng)用中,在全部兩個樣本空間上做累加通常不是很方便,因此常常簡化 使用如下公式: Hp(p)=-y, x p(y,x)log2p(y|x) =-1/|T|i=1|T|log2p(yi|xi) 事實上,就是在T上進(jìn)行累加,然后歸一化 = -1/|T|log2 i=1|T|p(yi|xi)第57頁/共72頁舉例
16、=a,b,z,概率分布(估計值) p(a)=0.25, p(b)=0.5, p()=1/64, c,r, p()=0, s,z 測試數(shù)據(jù)為:barb,p(a)=p(r)=0.25, p(b)=0.5 在上做累加 a b c d q r s z -p()log2p() 0.5 0.5 0 0 0 1.5 0 0=2.5 也可以在測試數(shù)據(jù)上進(jìn)行累加,然后歸一化 si b a r b -log2p(si) 1 2 6 1 = 10 (1/4)10=2.5第58頁/共72頁 H(p)和Hp(p)之間可能有各種關(guān)系 包括, , 舉例(參照上例) H(P)=2.5 測試數(shù)據(jù):barb Hp(p) =1/4
17、(1+2+6+1)=2.5 測試數(shù)據(jù):probable Hp(p) = 1/8(6+6+6+1+2+1+6+6)=4.25 測試數(shù)據(jù):abba Hp(p) = 1/4(2+1+1+2)=1.5第59頁/共72頁交叉熵的使用 不是比較數(shù)據(jù),而是比較分布 如果我們有兩個分布p和q,哪一個更好呢? 面對“真實數(shù)據(jù)”S,p和q誰的交叉熵低,誰就更好 HT(p)= -1/|S|log2 i=1|S|p(yi|xi) HT(q)= -1/|S|log2 i=1|S|q(yi|xi)第60頁/共72頁第61頁/共72頁數(shù)據(jù)集分類第62頁/共72頁 訓(xùn)練集Training Set 用來獲得模型參數(shù) 測試集Te
18、sting Set 從訓(xùn)練集以外獨(dú)立采樣 反映系統(tǒng)面對真實世界的處理能力 測試集經(jīng)常被無意識地“做了手腳” 交叉確認(rèn)集Cross-Validation Set 從訓(xùn)練集和測試集以外獨(dú)立采樣 主要用來幫助做設(shè)計決策第63頁/共72頁測試集 測試集 從訓(xùn)練集去評價系統(tǒng)的性能,結(jié)果往往過于樂觀 如果模型的參數(shù)比需要的多很多時,獲得100%的準(zhǔn)確率也是可能的 過擬和(Over-fitting)常常出現(xiàn)在訓(xùn)練數(shù)據(jù)的數(shù)量不足以支持模型的復(fù)雜程度之時 為此,我們需要另一個數(shù)據(jù)集來模擬用戶的真實需要第64頁/共72頁 在設(shè)計階段,不允許偷看測試數(shù)據(jù)的細(xì)節(jié),以保證測試數(shù)據(jù)不被污染 你不能參照測試數(shù)據(jù)來決定模型的復(fù)雜度,特征空間的維數(shù),以及什么時候決定停止訓(xùn)練過程等 設(shè)計決策可以參照交叉確認(rèn)數(shù)據(jù)進(jìn)行 每一個階
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 牙醫(yī)藥品知識培訓(xùn)課件
- 教育投資績效評估表格(年份對比)
- 心理咨詢技能實務(wù)試題
- 印刷材料采購與使用協(xié)議
- 山東省菏澤市2024-2025學(xué)年高二上學(xué)期1月期末生物學(xué)試題(含答案)
- 健康醫(yī)療智能硬件開發(fā)合作契約書
- 秘密花園的閱讀引導(dǎo):英文名著導(dǎo)讀教案
- 智慧城市智慧交通系統(tǒng)智能調(diào)度預(yù)案
- 產(chǎn)品定制開發(fā)合同書及產(chǎn)品質(zhì)量保障承諾書
- 大數(shù)據(jù)分析平臺開發(fā)合作協(xié)議
- GB/T 1692-2008硫化橡膠絕緣電阻率的測定
- GB 15603-1995常用化學(xué)危險品貯存通則
- 人教版PEP初中英語中考總復(fù)習(xí):復(fù)習(xí)重點(diǎn)課件
- 數(shù)字化消防管理解決方案
- 二類汽修廠汽車維修管理新規(guī)制度匯編
- 交接班流程綱要綱要圖
- 浙江省衢州市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會明細(xì)
- 初中英語《Unit5-Do-you-remember-what-you-were-doing》教學(xué)課件設(shè)計
- 品德家庭小賬本
- 癥狀性大腦中動脈慢性閉塞血管內(nèi)開通治療課件
- 大象版科學(xué)四年級下冊第一單元測試卷(含答案)
評論
0/150
提交評論