下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
最大似然估計概述最大似然估計是一種統(tǒng)計方法,它用來求一個樣本集的相關概率密度函數的參數。這個方法最早是遺傳學家以及統(tǒng)計學家羅納德·費雪爵士在1912年至1922年間開始使用的。“似然”是對likelihood的一種較為貼近文言文的翻譯,“似然”用現代的中文來說即“可能性”。故而,假設稱之為“最大可能性估計”那么更加通俗易懂。最大似然法明確地使用概率模型,其目標是尋找能夠以較高概率產生觀察數據的系統(tǒng)發(fā)生樹。最大似然法是一類完全基于統(tǒng)計的系統(tǒng)發(fā)生樹重建方法的代表。該方法在每組序列比對中考慮了每個核苷酸替換的概率。最大似然法是要解決這樣一個問題:給定一組數據和一個參數待定的模型,如何確定模型的參數,使得這個確定參數后的模型在所有模型中產生數據的概率最大。通俗一點講,就是在什么情況下最有可能發(fā)生的事件。舉個例子,假設有一個罐子,里面有黑白兩種顏色的球,數目多少不知,兩種顏色的比例也不知。我們想知道罐中白球和黑球的比例,但我們不能把罐中的球全部拿出來數?,F在我們可以每次任意從已經搖勻的罐中拿一個球出來,記錄球的顏色,然后把拿出來的球再放回罐中。這個過程可以重復,我們可以用記錄的球的顏色來估計罐中黑白球的比例。假設在前面的一百次重復記錄中,有七十次是白球,請問罐中白球所占的比例最有可能是多少?
我想很多人立馬有答案:70%。這個答案是正確的。可是為什么呢?〔常識嘛!這還要問?!〕其實,在很多常識的背后,都有相應的理論支持。在上面的問題中,就有最大似然法的支持例如,轉換出現的概率大約是顛換的三倍。在一個三條序列的比對中,如果發(fā)現其中有一列為一個C,一個T和一個G,我們有理由認為,C和T所在的序列之間的關系很有可能更接近。由于被研究序列的共同祖先序列是未知的,概率的計算變得復雜;又由于可能在一個位點或多個位點發(fā)生屢次替換,并且不是所有的位點都是相互獨立,概率計算的復雜度進一步加大。盡管如此,還是能用客觀標準來計算每個位點的概率,計算表示序列關系的每棵可能的樹的概率。然后,根據定義,概率總和最大的那棵樹最有可能是反映真實情況的系統(tǒng)發(fā)生樹。最大似然估計的原理給定一個概率分布D,假定其概率密度函數〔連續(xù)分布〕或概率聚集函數〔離散分布〕為fD,以及一個分布參數θ,我們可以從這個分布中抽出一個具有n個值的采樣,通過利用fD,我們就能計算出其概率:但是,我們可能不知道θ的值,盡管我們知道這些采樣數據來自于分布D。那么我們如何才能估計出θ呢?一個自然的想法是從這個分布中抽出一個具有n個值的采樣X1,X2,...,Xn,然后用這些采樣數據來估計θ.一旦我們獲得,我們就能從中找到一個關于θ的估計。最大似然估計會尋找關于θ的最可能的值〔即,在所有可能的θ取值中,尋找一個值使這個采樣的“可能性”最大化〕。這種方法正好同一些其他的估計方法不同,如θ的非偏估計,非偏估計未必會輸出一個最可能的值,而是會輸出一個既不高估也不低估的θ值。要在數學上實現最大似然估計法,我們首先要定義可能性:并且在θ的所有取值上,使這個[[函數最大化。這個使可能性最大的值即被稱為θ的最大似然估計。注意這里的可能性是指不變時,關于θ的一個函數。最大似然估計函數不一定是惟一的,甚至不一定存在。最大似然估計的例子離散分布,離散有限參數空間考慮一個拋硬幣的例子。假設這個硬幣正面跟反面輕重不同。我們把這個硬幣拋80次〔即,我們獲取一個采樣并把正面的次數記下來,正面記為H,反面記為T〕。并把拋出一個正面的概率記為p,拋出一個反面的概率記為1?p〔因此,這里的p即相當于上邊的θ〕。假設我們拋出了49個正面,31個反面,即49次H,31次T。假設這個硬幣是我們從一個裝了三個硬幣的盒子里頭取出的。這三個硬幣拋出正面的概率分別為p=1/3,p=1/2,p=2/3.這些硬幣沒有標記,所以我們無法知道哪個是哪個。使用最大似然估計,通過這些試驗數據〔即采樣數據〕,我們可以計算出哪個硬幣的可能性最大。這個可能性函數取以下三個值中的一個:我們可以看到當時,可能性函數取得最大值。這就是p的最大似然估計.離散分布,連續(xù)參數空間現在假設例子1中的盒子中有無數個硬幣,對于中的任何一個p,都有一個拋出正面概率為p的硬幣對應,我們來求其可能性函數的最大值:其中.我們可以使用微分法來求最值。方程兩邊同時對p取微分,并使其為零。在不同比例參數值下一個二項式過程的可能性曲線t=3,n=10;其最大似然估計值發(fā)生在其眾數(數學)并在曲線的最大值處。其解為p=0,p=1,以及p=49/80.使可能性最大的解顯然是p=49/80〔因為p=0和p=1這兩個解會使可能性為零〕。因此我們說最大似然估計值為..這個結果很容易一般化。只需要用一個字母t代替49用以表達伯努利試驗中的被觀察數據〔即樣本〕的'成功'次數,用另一個字母n代表伯努利試驗的次數即可。使用完全同樣的方法即可以得到最大似然估計值:對于任何成功次數為t,試驗總數為n的伯努利試驗。連續(xù)分布,連續(xù)參數空間最常見的連續(xù)概率分布是正態(tài)分布,其概率密度函數如下:其n個正態(tài)隨機變量的采樣的對應密度函數〔假設其獨立并服從同一分布〕為:或:,這個分布有兩個參數:μ,σ2.有人可能會擔憂兩個參數與上邊的討論的例子不同,上邊的例子都只是在一個參數上對可能性進行最大化。實際上,在兩個參數上的求最大值的方法也差不多:只需要分別把可能性在兩個參數上最大化即可。當然這比一個參數麻煩一些,但是一點也不復雜。使用上邊例子同樣的符號,我們有θ=(μ,σ2).最大化一個似然函數同最大化它的自然對數是等價的。因為自然對數log是一個連續(xù)且在似然函數的值域內嚴格遞增的函數。[注意:可能性函數〔似然函數〕的自然對數跟信息熵以及Fisher信息聯系緊密。求對數通常能夠一定程度上簡化運算,比方在這個例子中可以看到:這個方程的解是.這確實是這個函數的最大值,因為它是μ里頭惟一的拐點并且二階導數嚴格小于零。同理,我們對σ求導,并使其為零。這個方程的解是.因此,其關于θ=(μ,σ2)的最大似然估計為:..性質泛函不變性〔Functionalinvariance〕如果是θ的一個最大似然估計,那么α=g(θ)的最大似然估計是.函數g無需是一個——映射。漸近線行為最大似然估計函數在采樣樣本總數趨于無窮的時候到達最小方差〔其證明可見于Cramer-Raolowerbound〕。當最大似然估計非偏時,等價的,在極限的情況下我們可以稱其有最小的均方差。對于獨立的觀察來說,最大似然估計函數經常趨于正態(tài)分布。偏差最大似然估計的非偏估計偏差是非常重要的。考慮這樣一個例子,標有1到n的n張票放在一個盒子中。從盒子中隨機抽取票。如果n是未知的話,那么n的最大似然估計值就是抽出的票上標有的n,盡管其期望值的只有(n+1)/2.為了估計出最高的n值,我們能確定的只能是n值不小于抽出來的票上的值。最大似然估計法的思想很簡單:在已經得到試驗結果的情況下,我們應該尋找使這個結果出現的可能性最大的那個作為真的估計。
我們分兩種情進行分析:
1.離散型總體
設為離散型隨機變量,其概率分布的形式為,那么樣本的概率分布為,在固定時,上式表示取值的概率;當固定時,它是的函數,我們把它記為并稱為似然函數。似然函數的值的大小意味著該樣本值出現的可能性的大小。既然已經得到了樣本值,那它出現的可能性應該是大的,即似然函數的值應該是大的。因而我們選擇使到達最大值的那個作為真的估計。2.連續(xù)型總體
設為連續(xù)型隨機變量,其概率密度函數為那么為從該總體抽出的樣本。因為相互獨立且同分布,于是,樣本的聯合概率密度函數為
,在是固定時,它是在處的密度,它的大小與落在附近的概率的大小成正比,而當樣本值固定時,它是的函數。我們仍把它記為并稱為似然函數。類似于剛剛的討論,我們選擇使最大的那個作為真的估計。
總之,在有了試驗結果即樣本值時,似然函數反映了的各個不同值導出這個結果的可能性的大小。我們選擇使到達最大值的那個作為真的估計。這種求點估計的方法就叫作最大似然法。
7.2.2最大似然估計的求法
假定現在我們已經觀測到一組樣本要去估計未知參數。一種直觀的想法是,哪一組能數值使現在的樣本出現的可能性最大,哪一組參數可能就是真正的參數,我們就要用它作為參數的估計值。這里,假定我們有一組樣本.如果對參數的兩組不同的值和,似然函數有如下關系
,
那么,從又是概率密度函數的角度來看,上式的意義就是參數使出現的可能性比參數使出現的可能性大,當然參數比更像是真正的參數.這樣的分析就導致了參數估計的一種方法,即用使似然函數到達最大值的點,作為未知參數的估計,這就是所謂的最大似然估計?,F在我們討論求最大似然估計的具體方法.為簡單起見,以下記,求θ的極大似然估計就歸結為求的最大值點.由于對數函數是單調增函數,所以
(7.2.1)
與有相同的最大值點。而在許多情況下,求的最大值點比擬簡單,于是,我們就將求的最大值點改為求的最大值點.對關于求導數,并命其等于零,得到方程組
,
(7.2.2)
稱為似然方程組。解這個方程組,又能驗證它是一個極大值點,那么它必是,也就是的最大值點
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 商業(yè)綜合體施工合同類型
- 寫字樓租賃解除合同樣本
- 辦公室裝修項目管理合同范本
- 城市規(guī)劃高速公路合同管理辦法
- 產業(yè)跨界創(chuàng)新園租賃合同
- 比的意義課程設計制作
- 2024年度安全生產及環(huán)境保護義務合同版B版
- 深圳二手房合同稅費解析
- 無人機大賽課程設計論文
- 汽車企業(yè)行政助理協議
- 支撐梁拆除安全協議書
- 2024-2030年中國充血性心力衰竭(CHF)治療設備行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報告
- 五年級道德與法治上冊說課稿《古代科技 耀我中華(第一課時) 》部編版
- 小學語文大單元設計論文
- Unit 6 教學教學設計 2024-2025學年人教版七年級英語上冊
- Visio商業(yè)圖表制作分析智慧樹知到期末考試答案章節(jié)答案2024年上海商學院
- 競爭性談判工作人員簽到表及競爭性談判方案
- 山東省淄博市張店區(qū)2023-2024學年九年級上學期1月期末化學試題(含解析)
- 廈門旅游課件
- 人工智能導論智慧樹知到期末考試答案章節(jié)答案2024年哈爾濱工程大學
- 單位食堂供餐方案(2篇)
評論
0/150
提交評論