S02.多變量半?yún)?shù)有限混合模型的可識別性研究

上傳人：y*** IP屬地：天津上傳時間：2022-01-14 格式：DOCX 頁數(shù)：11 大?。?8.94KB 積分：18 舉報 版權申訴

已閱讀5頁，還剩6頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、參賽隊員：郭屹峰學校:廣東實驗中省份:廣東省指導教師:郭衛(wèi)東論文題目:多變量半?yún)?shù)有限混合模型的可識別性研究論文題目：多變量半?yún)?shù)有限混合模型的可識別性研究摘要：任何一個統(tǒng)計模型在其應用之前都要確定參數(shù)推斷是否有意義。如果一個模型不能由唯一的一組參數(shù)所確定，那么這個模型是不可識別的。進而也是沒有實用價值的。有限混合模型為研究現(xiàn)實世界中的異質(zhì)性問題提供一個很好的方法。在實際應用中，參數(shù)有限混合模型被廣泛地應用到生物、醫(yī)學、社會學、經(jīng) 濟、金融等領域。然而，參數(shù)有限混合模型的統(tǒng)計推斷嚴重依賴于混合分布族的選擇，因而導致其缺乏靈活性。故非參數(shù)有限混合模型和半?yún)?shù)有限混合模型成為當今統(tǒng)計前沿

2、的一個熱點和重點。統(tǒng)計頂級期刊Annals of Statistics于 2006年和2007年先后發(fā)表了兩篇關于單變量半?yún)?shù)有限混合模型的高質(zhì)量文章。然而，多變量半?yún)?shù)有限混合模型卻遲遲沒有結(jié)果發(fā)表。本論文重點關注多變量參數(shù)有限混合模型的可識別性問題，為此模型的參數(shù)估計和假設檢驗提供理論保障。1. 有限混合模型的重要性在現(xiàn)實的復雜世界中，存在著大量的異質(zhì)性現(xiàn)象。例如在醫(yī)學中，由于自身條件的差異，所有的病人事實上都是不完全一樣的。而忽略這種異質(zhì)性所得到的醫(yī)學數(shù)據(jù)分析結(jié)果展示的只是所謂的“平均”病人的結(jié)果。因此在醫(yī)學中，個性化醫(yī) 療變得越來越重要。而對于一名統(tǒng)計學家來說，辨別病人之間的

3、異質(zhì)性，并將這些異質(zhì)性融入到統(tǒng)計模型中是一個重要的任務。有限混合模型為處理這種帶有異質(zhì)性問題提供了很好的思路。因此其在生物學、醫(yī)學、社會學、經(jīng)濟學和金融學等眾多領域有著廣泛的應用。在給出有限混合模型之前，我們首先展示兩個實際數(shù)據(jù)的例子。一個是R軟件包中的Old Faithful數(shù)據(jù)集。此數(shù)據(jù)集記錄了美國黃石國家公園（YellowstoneNational Park）里的Old Faithful間歇泉每次噴發(fā)所持續(xù)的時間以及兩次噴發(fā)之間的等待時間，單位均是：分鐘。由下面的直方圖（見圖 1的左圖）我們可以發(fā)現(xiàn)：Old Faithful間歇泉兩次噴發(fā)之間的等待時間呈現(xiàn)雙峰分布，說明等待時間數(shù)

4、據(jù)中存在異質(zhì)性。故我們不能用一個單一分布來擬合，而要用混合分布擬合。同時我們還注意到每個混合分布是接近對稱分布的。另一個是瑞士心理學家Jean Piaget用于評價兒童對物質(zhì)世界理解力的實驗數(shù)據(jù)。此實驗首先發(fā)給每個兒童一張紙，紙上分別畫有指向11，4，2，7，10，5，1，8點鐘方向的8個帶有蓋子的矩形器皿（見圖1的右圖）。然后要求每個兒童畫出每個器皿中液體的水平線，接下來度量出此條水平線與水平軸之間的夾角，用角度來表示。最后給出一個帶有符號的角度值，其中符號對應的是器皿中水平線斜率的符號。與上一個數(shù)據(jù)不同的是，此數(shù)據(jù)考慮的不再是一個變量，而不是八個變量。有限混合模型通過引進一個離散的

5、潛在結(jié)構(gòu)來描述數(shù)據(jù)中的異質(zhì)性。假設一組隨機樣本錯誤!未找到引用源。來自下面的混合分布密度函數(shù):mj=i其中，m表示混合元的個數(shù)，可以是已知的也可以是未知的。例如在Old Faithful間歇泉兩次噴發(fā)的等待時間可以認為 m=2 ;而對于第二個數(shù)據(jù)混合元個數(shù)m很難確定，盡管有文獻采用m=2或者m=3.混合比例錯誤!未找到引用源。表示第j個混合元的比例，滿足對所有的j,錯誤!未找到引用源。并且錯誤!未找到引用源。.錯誤!未找到引用源。表示第j個混合元的密度函數(shù)。1M圖1 :左圖為Old Faithful間歇泉兩次噴發(fā)之間等待時間的直方圖；右圖為 Jean Piaget心理實驗8個不同指向的矩

6、形器皿的示意圖。在有限混合分布（1）中，如果混合元錯誤!未找到引用源。為某一參數(shù)分布族，則這類有限混合模型稱為參數(shù)有限混合模型。例如，若錯誤!未找到引用源。為正態(tài)分布錯誤!未找到引用源。的密度函數(shù)，貝U有限混合模型為常見的高斯混合模型。此類模型的統(tǒng)計推斷問題只涉及到歐氏空間上的參數(shù)推斷，即關于錯誤!未找到引用源。的推斷問題。在過去若干年中，研究者提出了關于參數(shù) 錯誤!未找到引用源。的各種估計方法。這些方法主要有以下幾個類型：1）矩估計方法(見 Lindsay 和 Basak , 1993 ); 2)極大似然估計方法(見 Lindsay, 1983a,b );3) Bayes 方法(見

7、Diebolt 和 Robert , 1994 ； Escobar 和 West , 1995 ); 4)最小距離方法（見Titterington 等人，1985 ）以及其他方法。盡管參數(shù)有限混合模型因其相對比較簡單而得到廣泛的應用，但是由于實際應用中對子總體通常知之甚少，故參數(shù)有限混合模型中混合元的選擇是非常困難的。因為參數(shù)有限混合模型的參數(shù)推斷非常依賴于分布族的假設，故當分布族選擇錯誤時，參數(shù)推斷的結(jié)果是毫無意義的。因此參數(shù)有限混合模型是缺乏靈活性的。針對參數(shù)有限混合模型的缺陷，另一種思路是不假設混合元服從某個參數(shù)族而假設其是完全未知的光滑函數(shù)。這種有限混合模型稱為非參數(shù)有限混合模型

8、。值得注意的是，如果沒有額外的假設或者信息，非參數(shù)有限混合模型通常是不可識別的。所謂可識別性，是指由模型（1 ）能夠唯一的確定所有的錯誤!未找到引用源。和錯誤!未找到引用源。對于下面的非參數(shù)有限混合模型:mkj=i 戶 1其中，錯誤!未找到引用源。為k變量的隨機向量。錯誤!未找到引用源。為第j個混合元的第錯誤!未找到引用源。個邊緣密度函數(shù)，錯誤!未找到引用源。，錯誤!未找到引用源。Hettmansperger 和 Thomas (2000 )以及 Cru乙Medina和Hettmansperger（2004 ）給出了非參數(shù)有限混合模型（2）中混合比例錯誤!未找到引用源。的估計方法。對于

9、多變量非參數(shù)有限混合模型（2），模型的可識別性問題是一個重要的理論問題。Hall和Zhou （2003 ）證明了在m=2的情況下，只有當錯誤味找到引用源。同時滿足一些正則條件下，非參數(shù)有限混合模型（2）才是可識別的，進而才是可以被估計的；而當錯誤!未找到引用源。時，模型是不可識別的。Hall等人（2005 ）以及Kasahara和Shimotsu （ 2008 ）試圖給出混合元個數(shù) m>2的一般性結(jié)果，卻發(fā)現(xiàn)一般性結(jié)果是相當難以找到的。后來，Aliman等人（2009 ）利用Kruskal（ 1977 ）的一個定理給出了對于任何變量個數(shù) 錯誤!未找到引用源。，不論混合元

10、個數(shù)m為多少，非參數(shù)有限混合模型（2）的可識別性條件：只要邊緣密度函數(shù)錯誤!未找到引用源。在除一個Lebesgue測度為0的集合外是線性獨立的。由上面的結(jié)果可以看出，對于非參數(shù)有限混合模型（2）,至少需要變量個數(shù)錯誤!未找到引用源。模型才可識別。而現(xiàn)實問題中很多涉及到k=1或者k=2，例如我們前面的Old Faithful間歇泉的噴發(fā)等待時間就是一個k=1的問題。為了使得單變量情況下能夠刻畫數(shù)據(jù)中的異質(zhì)性，建立的模型需要對混合元的分布加一些適當?shù)臈l件。Bordes等人（2006 ）和Hunter等人（2007 ）獨立的研究了下面的單變量位置變化的半?yún)?shù)有限混合模型:G(町=AFx |i

11、j + (1 pj X e R 其中，錯誤!未找到引用源。為混合比例，錯誤!未找到引用源。為兩個位置參數(shù),錯誤!未找到引用源。為一個未知的關于零對稱的分布函數(shù)。因為模型（3）不僅涉及到未知參數(shù) 錯誤!未找到引用源。，而且還有未知的分布函數(shù)F,因此其是一個半?yún)?shù)模型。在F關于零對稱的假設下，Bordes等人（2006 ）和Hunter等人（2007 ）采用不同的方法證明了模型（3）的可識別性。注意到，半?yún)?shù)有限混合模型（3）只能夠處理單變量的數(shù)據(jù)。而對于變量個數(shù) 錯誤!未找到引用源。的情況，盡管可以轉(zhuǎn)化為模型（3 ）一維一維來處理，但是這樣做忽略了多變量之間的關聯(lián)信息，勢必會影響到參數(shù)估

12、計的效率。因此本文將研究下面多變量位置變化的半?yún)?shù)有限混合模型:Gfs) = AF(x |i J -1-(1 IjFfx ud X e Rk 其中，錯誤!未找到引用源。為混合比例，錯誤!未找到引用源。為兩個k維的位置參數(shù)，錯誤!未找到引用源。為一個未知的關于原點對稱的多元分布函數(shù)。2. 可識別性在給出未知參數(shù)的估計之前，我們必須討論模型（4 ）的可識別性問題。否則參數(shù)估計是無意義的。首先注意到：若模型（4）是可識別的，則對于錯誤!未找到引用源。與錯誤!未找到引用源。的置換，模型（4）所對應的混合分布G（x）應該是不變的。這個特殊的可識別性問題經(jīng)常稱為“標簽轉(zhuǎn)換（label switch

13、i ng） ”問題。在模型（4）中，此問題可以通過限制錯誤!未找到引用源。容易得到解決。F面為了表達方便，我們首先約定一些符號。記錯誤!未找到引用源。表示關于原點對稱的所有分布函數(shù)的集合。對于兩個錯誤!未找到引用源。維向量錯誤!未找到引用源。和錯誤!未找到引用源。，錯誤!未找到引用源。意味著對于所有的錯誤!未找到引用源。，均有錯誤!未找到引用源。；而錯誤!未找到引用源。則意味著至少存在一個錯誤!未找到引用源。，使得錯誤!未找到引用源。記錯誤!未找到引用源。為錯誤!未找到引用源。空間上所有滿足錯誤!未找到引用源。的向量所構(gòu)成的集合。記錯誤!未找到引用源。則半?yún)?shù)有限混合模型（

14、4）的參數(shù)空間為錯誤!未找到引用源。對于模型（4），若存在另外一組參數(shù) 錯誤!未找到引用源。也滿足它，即對任意的錯誤!未找到引用源。，有XFO-卩 J + （1-一瞼）二肝心一卩；）+ a 巧 FXx- hi）（ S）成立。那么如果模型（4）是可識別的，則必須有：錯誤!未找到引用源。F面我們給出模型（4）可識別的主要結(jié)果:定理2.1.若存在錯誤!未找到引用源。上的兩組參數(shù)向量錯誤!未找到引用源。和錯誤!未找到引用源。滿足方程（4），則有錯誤!未找到引用源。證明：記隨機向量錯誤!未找到引用源。則由特征函數(shù)定義有:1 I 涉JxriFQr 如+ 1 I） f 5 仗陀）丿酒Jr*=骯L

15、鬥+CL-町云丿產(chǎn)=A+（1 A） coE（tpg）+ i伽in（円Q十（1 i） s= （j4 +畑G）其中：錯誤!未找到引用源。表示關于原點對稱的隨機向量錯誤!未找到引用源。的特征函數(shù)。錯誤!未找到引用源。，錯誤!未找到引用源。由（5）式和特征函數(shù)的定義有:U +阿也（幼-（川+ i叫©式兩邊同時乘以錯誤!未找到引用源。的共軛，得其中：錯誤!未找到引用源。，錯誤!未找到引用源。錯誤!未找到引用源。（6）（7）因為錯誤!未找到引用源。和錯誤!未找到引用源。均是關于原點對稱的隨機向量, 則相應的特征函數(shù) 錯誤!未找到引用源。和錯誤!未找到引用源。均為實值函數(shù)。因此對于所有使得錯誤

16、!未找到引用源。的t，均有錯誤!未找到引用源。也是一個實值函數(shù)。由于在錯誤!未找到引用源。的一個領域內(nèi)有錯誤!未找到引用源。是不為0的，進而，錯誤!未找到引用源。的虛部在錯誤!未找到引用源。的一個領域內(nèi)是等于0的，即:W 血(4 - 口0 + Afl r sint(pi 一 A；) + (1 -仏)+ Cl-入)1 -巧血訃仏一礙) = 0(3)由正弦函數(shù)的解析性知其在整個錯誤!未找到引用源。上也是恒等于0的。假設錯誤!未找到引用源。是關于錯誤!未找到引用源。對稱的隨機向量，則丫可以表示為錯誤!未找到引用源。，其中錯誤!未找到引用源。為關于原點對稱的隨機向量。對于錯誤!未找到引用源。

17、上的每個單位向量錯誤!未找到引用源。，錯誤!未找到引用源。記錯誤!未找到引用源。，則錯誤!未找到引用源。為一維隨機變量，且其分布關于0對稱。由Bordes等人（2006）的定理2.1知，單變量的兩混合元的混合分布是可識別的。故選取一組線性無關的向量錯誤!未找到引用源。，由錯誤!未找到引用源。，可知錯誤!未找到引用源。將錯誤!未找到引用源。帶回（8）式，則對所有的錯誤!未找到引用源。，有Ml - A0 血0(應-|ij= (1- 2l)卅血舊仏一(9) 成立。因為錯誤!未找到引用源。非恒等于0，因此有錯誤!未找到引用源。由錯誤!未找到引用源。知錯誤!未找到引用源。并且錯誤!未找到引用源。從而到引用源。是一個離散的集合。對于連續(xù)函數(shù) 錯誤!未找到引用源。和錯誤!未找到引用源。，在這個離散的集合之外具有是相等的，從而有錯誤

人人文庫> 全部分類> 應用文書 > 作業(yè)報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

S02.多變量半?yún)?shù)有限混合模型的可識別性研究

文檔簡介

溫馨提示

最新文檔

評論

S02.多變量半?yún)?shù)有限混合模型的可識別性研究

文檔簡介

溫馨提示

最新文檔

評論

相關文檔