概率密度函數(shù)的估計(jì)..ppt_第1頁(yè)
概率密度函數(shù)的估計(jì)..ppt_第2頁(yè)
概率密度函數(shù)的估計(jì)..ppt_第3頁(yè)
概率密度函數(shù)的估計(jì)..ppt_第4頁(yè)
概率密度函數(shù)的估計(jì)..ppt_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余45頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第四章概率密度函數(shù)的估計(jì) 概率密度估計(jì)的基礎(chǔ)知識(shí)參數(shù)估計(jì)理論極大似然估計(jì) MLE 貝葉斯估計(jì) 或稱最大后驗(yàn)估計(jì) 貝葉斯學(xué)習(xí)非參數(shù)估計(jì)理論密度估計(jì)Parzen窗估計(jì)K近鄰估計(jì) KNE 4 1概率密度估計(jì)的基礎(chǔ)知識(shí)貝葉斯分類器中只要知道先驗(yàn)概率 條件概率或后驗(yàn)概概率P i P x i P i x 就可以設(shè)計(jì)分類器了 現(xiàn)在來(lái)研究如何用已知訓(xùn)練樣本的信息去估計(jì)P i P x i P i x 一 參數(shù)估計(jì)與非參數(shù)估計(jì)參數(shù)估計(jì) 先假定研究的問(wèn)題具有某種數(shù)學(xué)模型 如正態(tài)分布 二項(xiàng)分布 再用已知類別的學(xué)習(xí)樣本估計(jì)里面的參數(shù) 非參數(shù)估計(jì) 不假定數(shù)學(xué)模型 直接用已知類別的學(xué)習(xí)樣本的先驗(yàn)知識(shí)直接估計(jì)數(shù)學(xué)模型 二 監(jiān)督參數(shù)估計(jì)與非監(jiān)督參數(shù)估計(jì)監(jiān)督參數(shù)估計(jì) 樣本所屬的類別及類條件總體概率概率密度函數(shù)的形式已知 而表征概率密度函數(shù)的某些參數(shù)是未知的 目的在于 由已知類別的樣本集對(duì)總體分布的某些參數(shù)進(jìn)行統(tǒng)計(jì)推斷 此種情況下的估計(jì)問(wèn)題稱為監(jiān)督參數(shù)估計(jì) 非監(jiān)督參數(shù)估計(jì) 已知總體概率密度函數(shù)形式但未知樣本所屬類別 要求推斷出概率密度函數(shù)的某些參數(shù) 稱這種推斷方法為非監(jiān)督情況下的參數(shù)估計(jì) 注 監(jiān)督與非監(jiān)督是針對(duì)樣本所屬類別是已知還是未知而言的 三 參數(shù)估計(jì)的基本概念1 統(tǒng)計(jì)量 樣本中包含著總體的信息 總希望通過(guò)樣本集把有關(guān)信息抽取出來(lái) 也就是說(shuō) 針對(duì)不同要求構(gòu)造出樣本的某種函數(shù) 該函數(shù)稱為統(tǒng)計(jì)量 2 參數(shù)空間 在參數(shù)估計(jì)中 總假設(shè)總體概率密度函數(shù)的形式已知 而未知的僅是分布中的參數(shù) 將未知參數(shù)記為 于是將總體分布未知參數(shù)的全部可容許值組成的集合稱為參數(shù)空間 記為 3 點(diǎn)估計(jì) 估計(jì)量和估計(jì)值 點(diǎn)估計(jì)問(wèn)題就是構(gòu)造一個(gè)統(tǒng)計(jì)量作為參數(shù)的估計(jì) 在統(tǒng)計(jì)學(xué)中稱為的估計(jì)量 若是屬于類別的幾個(gè)樣本觀察值 代入統(tǒng)計(jì)量d就得到對(duì)于第i類的的具體數(shù)值 該數(shù)值就稱為的估計(jì)值 4 區(qū)間估計(jì) 除點(diǎn)估計(jì)外 還有另一類估計(jì)問(wèn)題 要求用區(qū)間作為可能取值范圍得一種估計(jì) 此區(qū)間稱為置信區(qū)間 該類估計(jì)問(wèn)題稱為區(qū)間估計(jì) 5 參數(shù)估計(jì)方法 參數(shù)估計(jì)是統(tǒng)計(jì)學(xué)的經(jīng)典問(wèn)題 解決方法很多 在此只考慮兩種常用方法 一種是最大似然估計(jì)方法 另一種是貝葉斯估計(jì)方法 1 最大似然估計(jì) 把參數(shù)看作是確定而未知的 最好的估計(jì)值是在獲得實(shí)際觀察樣本的最大的條件下得到的 2 貝葉斯估計(jì) 把未知的參數(shù)當(dāng)作具有某種分布的隨機(jī)變量 樣本的觀察結(jié)果使先驗(yàn)分布轉(zhuǎn)化為后驗(yàn)分布 再根據(jù)后驗(yàn)分布修正原先對(duì)參數(shù)的估計(jì) 6 參數(shù)估計(jì)的評(píng)價(jià) 評(píng)價(jià)一個(gè)估計(jì)的 好壞 不能按一次抽樣結(jié)果得到的估計(jì)值與參數(shù)真值的偏差大小來(lái)確定 而必須從平均和方差的角度出發(fā)進(jìn)行分析 即關(guān)于估計(jì)量性質(zhì)的定義 4 2參數(shù)估計(jì)理論一 極大似然估計(jì)假定 待估參數(shù) 是確定的未知量 按類別把樣本分成M類X1 X2 X3 XM其中第i類的樣本共N個(gè)Xi X1 X2 XN T并且是獨(dú)立從總體中抽取的 Xi中的樣本不包含 i j 的信息 所以可以對(duì)每一類樣本獨(dú)立進(jìn)行處理 第i類的待估參數(shù)根據(jù)以上四條假定 我們下邊就可以只利用第i類學(xué)習(xí)樣本來(lái)估計(jì)第i類的概率密度 其它類的概率密度由其它類的學(xué)習(xí)樣本來(lái)估計(jì) 1 一般原則 第i類樣本的類條件概率密度 P Xi i P Xi i i P Xi i 原屬于i類的學(xué)習(xí)樣本為Xi X1 X2 XN Ti 1 2 M求 i的極大似然估計(jì)就是把P Xi i 看成 i的函數(shù) 求出使它極大時(shí)的 i值 學(xué)習(xí)樣本獨(dú)立從總體樣本集中抽取的 N個(gè)學(xué)習(xí)樣本出現(xiàn)概率的乘積取對(duì)數(shù) 對(duì) i求導(dǎo) 并令它為0 有時(shí)上式是多解的 上圖有5個(gè)解 只有一個(gè)解最大即 P Xi i 2 多維正態(tài)分布情況 已知 未知 估計(jì) 服從正態(tài)分布所以在正態(tài)分布時(shí) 代入上式得 所以 有 這說(shuō)明未知均值的極大似然估計(jì)正好是訓(xùn)練樣本的算術(shù)平均 均未知A 一維情況 n 1對(duì)于每個(gè)學(xué)習(xí)樣本只有一個(gè)特征的簡(jiǎn)單情況 n 1 由上式得即學(xué)習(xí)樣本的算術(shù)平均樣本方差 討論 1 正態(tài)總體均值的極大似然估計(jì)即為學(xué)習(xí)樣本的算術(shù)平均2 正態(tài)總體方差的極大似然估計(jì)與樣本的方差不同 當(dāng)N較大的時(shí)候 二者的差別不大 B 多維情況 n個(gè)特征 推導(dǎo)過(guò)程 作為練習(xí) 估計(jì)值 結(jié)論 的估計(jì)即為學(xué)習(xí)樣本的算術(shù)平均 估計(jì)的協(xié)方差矩陣是矩陣的算術(shù)平均 n n陣列 n n個(gè)值 二 貝葉斯估計(jì)極大似然估計(jì)是把待估的參數(shù)看作固定的未知量 而貝葉斯估計(jì)則是把待估的參數(shù)作為具有某種先驗(yàn)分布的隨機(jī)變量 通過(guò)對(duì)第i類學(xué)習(xí)樣本Xi的觀察 通過(guò)貝葉斯準(zhǔn)則將概率密度分布P Xi 轉(zhuǎn)化為后驗(yàn)概率P Xi 進(jìn)而求使得后驗(yàn)概率分布最大的參數(shù)估計(jì) 也稱最大后驗(yàn)估計(jì) 估計(jì)步驟 確定 的先驗(yàn)分布P 待估參數(shù)為隨機(jī)變量 用第i類樣本xi x1 x2 xN T求出樣本的聯(lián)合概率密度分布P xi 它是 的函數(shù) 利用貝葉斯公式 求 的后驗(yàn)概率 下面以正態(tài)分布的均值估計(jì)為例說(shuō)明貝葉斯估計(jì)的過(guò)程 一維正態(tài)分布 已知 2 估計(jì) 假設(shè)概率密度服從正態(tài)分布P X N 2 P N 0 02 第i類學(xué)習(xí)樣本xi x1 x2 xN T i 1 2 M第i類概率密度P x i xi P x xi 所以由貝葉斯公式 則可得后驗(yàn)概率 因?yàn)镹個(gè)樣本是獨(dú)立抽取的 所以上式可以寫成其中為比例因子 只與x有關(guān) 與 無(wú)關(guān) P Xk N 2 P u N 0 02 其中a a 包含了所有與 無(wú)關(guān)的因子 P Xi 是u的二次函數(shù)的指數(shù)函數(shù) P Xi 仍然是一個(gè)正態(tài)函數(shù) P Xi N N N2 另外后驗(yàn)概率可以直接寫成正態(tài)形式 比較以上兩個(gè)式子 對(duì)應(yīng)的系數(shù)應(yīng)該相等 解以上兩式得將 N 代入P Xi 可以得到后驗(yàn)概率 再用公式 對(duì) 的估計(jì)為若令P N 0 02 N 0 1 即為標(biāo)準(zhǔn)正態(tài)分布 且總體分布的方差也為1 則此時(shí)估計(jì)與極大似然估計(jì)相似 只是分母不同 三 貝葉斯學(xué)習(xí)1 貝葉斯學(xué)習(xí)的概念 通過(guò)已有的概率分布和觀測(cè)數(shù)據(jù)推理求出 的后驗(yàn)概率之后 直接去推導(dǎo)總體分布 形式已知 即當(dāng)觀察一個(gè)樣本時(shí) N 1就會(huì)有一個(gè) 的估計(jì)值的修正值 當(dāng)觀察N 4時(shí) 對(duì) 進(jìn)行修正 向真正的 靠近 當(dāng)觀察N 9時(shí) 對(duì) 進(jìn)行修正 向真正的 靠的更近 當(dāng)觀察N個(gè)樣本后 N就反映了觀察到N個(gè)樣本后對(duì) 的最好推測(cè) 而 N2反映了這種推測(cè)的不確定性 N N2 N2隨觀察樣本增加而單調(diào)減小 且當(dāng)N N2 0 當(dāng)N P xi 越來(lái)越尖峰突起 于是N P xi 函數(shù) 即收斂于一個(gè)以真實(shí)參數(shù)為中心的函數(shù) 這個(gè)過(guò)程成為貝葉斯學(xué)習(xí) 2 類概率密度的估計(jì)在求出u的后驗(yàn)概率P xi 后 可以直接利用式推斷類條件概率密度 即P x xi P x i xi 一維正態(tài) 已知 2 未知 的后驗(yàn)概率為 結(jié)論 把第i類的先驗(yàn)概率P i 與第i類概率密度P x xi 相乘可以得到第i類的后驗(yàn)概率P i x 根據(jù)后驗(yàn)概率可以分類 對(duì)于正態(tài)分布P x xi 用樣本估計(jì)出來(lái)的 N代替原來(lái)的 用代替原來(lái)的方差即可 把估計(jì)值 N作為 的實(shí)際值 那么使方差由原來(lái)的變?yōu)?使方差增大 也就是說(shuō) 用 的估計(jì)值 N代替真實(shí)值 將引起不確定性增加 多維正態(tài) 已知 估計(jì) 設(shè)P x N P N 0 0 根據(jù)Bayes公式 仿上面步驟可以得到 N N有以下關(guān)系 其中a與 無(wú)關(guān) 這就是在多維情況下 對(duì) 的估計(jì) 4 3非參數(shù)估計(jì)參數(shù)估計(jì)要求密度函數(shù)的形式已知 但這種假定有時(shí)并不成立 常見(jiàn)的一些函數(shù)形式很難擬合實(shí)際的概率密度 經(jīng)典的密度函數(shù)都是單峰的 而在許多實(shí)際情況中卻是多峰的 因此用非參數(shù)估計(jì) 非參數(shù)估計(jì) 直接用已知類別樣本去估計(jì)總體密度分布 方法有 用樣本直接去估計(jì)類概率密度p x i 以此來(lái)設(shè)計(jì)分類器 如窗口估計(jì) 用學(xué)習(xí)樣本直接估計(jì)后驗(yàn)概率p i x 作為分類準(zhǔn)則來(lái)設(shè)計(jì)分類器 如KN近鄰法 1 密度估計(jì)原理 一個(gè)隨機(jī)變量X落在區(qū)域R的概率為PP X 為P X 在R內(nèi)的變化值 P X 就是要求的總體概率密度 假設(shè)有N個(gè)樣本X X1 X2 XN T都是按照P X 從總體中獨(dú)立抽取的 若N個(gè)樣本中有k個(gè)落入在R內(nèi)的概率符合二項(xiàng)分布其中 P是樣本X落入R內(nèi)的概率 Pk是k個(gè)樣本落入R內(nèi)的概率數(shù)學(xué)期望 E k k NP 對(duì)概率P的估計(jì) 是P的一個(gè)比較好的估計(jì)設(shè)P x 在R內(nèi)連續(xù)變化 當(dāng)R逐漸減小的時(shí)候 小到使P x 在其上幾乎沒(méi)有變化時(shí) 則其中是R包圍的體積 條件密度的估計(jì) V足夠小 討論 當(dāng)V固定的時(shí)候N增加 k也增加 當(dāng)時(shí)只反映了P x 的空間平均估計(jì)而反映不出空間的變化 N固定 體積變小當(dāng)時(shí) k 0時(shí)時(shí)所以起伏比較大 噪聲比較大 需要對(duì)V進(jìn)行改進(jìn) 對(duì)體積V進(jìn)行改進(jìn) 為了估計(jì)X點(diǎn)的密度 我們構(gòu)造一串包括X的區(qū)域序列 R1 R2 RN 對(duì)R1采用一個(gè)樣本進(jìn)行估計(jì) 對(duì)R2采用二個(gè)樣本進(jìn)行估計(jì) 設(shè)VN是RN的體積 KN是N個(gè)樣本落入VN的樣本數(shù) 則 密度的第N次估計(jì) 其中 VN是RN的體積 KN是N個(gè)樣本落入VN的樣本數(shù) PN x 是P x 的第N次估計(jì) 若PN x 收斂于P x 應(yīng)滿足三個(gè)條件 當(dāng)N 時(shí) VN N VN 0這時(shí)雖然樣本數(shù)多 但由于VN 落入VN內(nèi)的樣本KN也減小 所以空間變化才反映出來(lái) N KN N與KN同向變化 KN的變化遠(yuǎn)小于N的變化 因此盡管在R內(nèi)落入了很多的樣本 但同總數(shù)N比較 仍然是很小的一部分 如何選擇VN滿足以上條件 使體積VN以N的某個(gè)函數(shù)減小 如 h為常數(shù) 窗口法 使KN作為N的某個(gè)函數(shù) 例VN的選擇使RN正好包含KN個(gè)近鄰V1 K1 V2 K2 VR KR KN近鄰法 2 Parzen窗口估計(jì)假設(shè)RN為一個(gè)d維的超立方體 hN為超立方體的長(zhǎng)度 超立方體體積為 d 1 窗口為一線段d 2 窗口為一平面d 3 窗口為一立方體d 3 窗口為一超立方體窗口的選擇 方窗函數(shù) 指數(shù)窗函數(shù) 正態(tài)窗函數(shù) u u u hN 正態(tài)窗函數(shù) u 是以原點(diǎn)x為中心的超立方體 在xi落入方窗時(shí) 則有在VN內(nèi)為1不在VN內(nèi)為0落入VN的樣本數(shù)為所有為1者之和 密度估計(jì) 討論 每個(gè)樣本對(duì)估計(jì)所起的作用依賴于它到x的距離 即 x xi hN 2時(shí) xi在VN內(nèi)為1 否則為0 稱為的窗函數(shù) 取0 1兩種值 但有時(shí)可以取0 0 1 0 2 多種數(shù)值 例如隨xi離x接近的程度 取值由0 0 1 0 2 到1 要求估計(jì)的PN x 應(yīng)滿足 為滿足這兩個(gè)條件 要求窗函數(shù)滿足 窗長(zhǎng)度hN對(duì)PN x 的影響若hN太大 PN x 是P x 的一個(gè)平坦 分辨率低的估計(jì) 有平均誤差若hN太小 PN x 是P x 的一個(gè)不穩(wěn)定的起伏大的估計(jì) 有噪聲誤差為了使這些誤差不嚴(yán)重 hN應(yīng)很好選擇 例1 對(duì)于一個(gè)二類 1 2 識(shí)別問(wèn)題 隨機(jī)抽取 1類的6個(gè)樣本X x1 x2 x6 1 x1 x2 x6 x1 3 2 x2 3 6 x3 3 x4 6 x5 2 5 x6 1 1 估計(jì)P x 1 即PN x 解 選正態(tài)窗函數(shù) 0 1 2 3 4 5 6 x6 x5 x3 x1 x2 x4 x x是一維的上式用圖形表示是6個(gè)分別以3 2 3 6 3 6 2 5 1 1為中心的丘形曲線 正態(tài)曲線 而PN x 則是這些曲線之和 由圖看出 每個(gè)樣本對(duì)估計(jì)的貢獻(xiàn)與樣本間的距離有關(guān) 樣本越多 PN x 越準(zhǔn)確 例2 設(shè)待估計(jì)的P x 是個(gè)均值為0 方差為1的正態(tài)密度函數(shù) 若隨機(jī)地抽取X樣本中的1個(gè) 16個(gè) 256個(gè)作為學(xué)習(xí)樣本xi 試用窗口法估計(jì)PN x 解 設(shè)窗口函數(shù)為正態(tài)的 1 0hN 窗長(zhǎng)度 N為樣本數(shù) h1為選定可調(diào)節(jié)的參數(shù) 討論 由圖看出 PN x 隨N h1的變化情況 當(dāng)N 1時(shí) PN x 是一個(gè)以第一個(gè)樣本為中心的正態(tài)形狀的小丘 與窗函數(shù)差不多 當(dāng)N 16及N 256時(shí)h1 0 25曲線起伏很大 噪聲大h1 1起伏減小h1 4曲線平坦 平均誤差 當(dāng)N 時(shí) PN x 收斂于一平滑的正態(tài)曲線 估計(jì)曲線較好 例3 待估的密度函數(shù)為兩個(gè)均勻分布密度的混合密度解 此為多峰情況的估計(jì)設(shè)窗函數(shù)為正態(tài) 2 5 x 2 0 x 2 其它 當(dāng)N 1 16 256 時(shí)的PN x 估計(jì)如圖所示 當(dāng)N 1時(shí) PN x 實(shí)際是窗函數(shù) 當(dāng)N 16及N 256時(shí)h1 0 25曲線起伏大 h1 1曲線起伏減小h1 4曲線平坦 當(dāng)N 時(shí) 曲線較好 結(jié)論 由上例知窗口法的優(yōu)點(diǎn)是應(yīng)用的普遍性 對(duì)規(guī)則分布 非規(guī)則分布 單鋒或多峰分布都可用此法進(jìn)行密度估計(jì) 要求樣本足夠多 才能有較好的估計(jì) 因此使計(jì)算量 存儲(chǔ)量增大 3 KN近鄰估計(jì) 在窗口法中存在一個(gè)問(wèn)題是對(duì)hN的選擇問(wèn)題 若hN選太小 則大部分體積將是空的 即不包含樣本 從而使PN x 估計(jì)不穩(wěn)定 若hN選太大 則PN x 估計(jì)較平坦 反映不出總體分布的變化 而KN近鄰法的思想是以x為中心建立空包 使V 直到捕捉到KN個(gè)樣本為止 因此稱其為KN 近鄰估計(jì) V的改進(jìn)體現(xiàn)為 樣本密度大 VN 樣本密度小 VN P x 的估計(jì)為 使PN x 收斂于P x 的充分必要條件 N與KN同相變化 KN的變化遠(yuǎn)小于N的變化 V1為N 1時(shí)的VN值 KN近鄰估計(jì)對(duì)KN和VN都作了限制KN近鄰法作后驗(yàn)概率的估計(jì)由KN近鄰估計(jì)知N個(gè)已知類別樣本落入VN內(nèi)為KN個(gè)樣本的概率密度估計(jì)為 N個(gè)樣本落入VN內(nèi)有KN個(gè) KN個(gè)樣本內(nèi)有Ki個(gè)樣本屬于 i類則聯(lián)合概率密度 根據(jù)Bayes公式可求出后驗(yàn)概率 類別為 i的后驗(yàn)概率就是落在VN內(nèi)屬于 i的樣本ki與VN內(nèi)總樣本數(shù)KN的比值 K近鄰分類準(zhǔn)則 對(duì)于待分樣本x 找出它的k個(gè)近鄰 檢查它的類別 把x歸于樣本最多的那個(gè)類別 K近鄰分類的錯(cuò)誤率隨K Pk 最低的錯(cuò)誤率為Bayes分類 P PK

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論