(概率論與數(shù)理統(tǒng)計專業(yè)論文)不平衡數(shù)據(jù)問題的統(tǒng)計分析.pdf_第1頁
(概率論與數(shù)理統(tǒng)計專業(yè)論文)不平衡數(shù)據(jù)問題的統(tǒng)計分析.pdf_第2頁
(概率論與數(shù)理統(tǒng)計專業(yè)論文)不平衡數(shù)據(jù)問題的統(tǒng)計分析.pdf_第3頁
(概率論與數(shù)理統(tǒng)計專業(yè)論文)不平衡數(shù)據(jù)問題的統(tǒng)計分析.pdf_第4頁
(概率論與數(shù)理統(tǒng)計專業(yè)論文)不平衡數(shù)據(jù)問題的統(tǒng)計分析.pdf_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

摘要 文 1 1 2 3 】給出了幾種對縱向不平衡數(shù)據(jù)建模時的參數(shù)做估計的方法( 極大似 然估計) 在眾多文獻中,對不平衡數(shù)據(jù)還有一些處理方法,本文在前人研究的基礎(chǔ)上 給出綜述,建立簡單的模型并進行隨機數(shù)據(jù)擬合來驗證這些方法的優(yōu)劣,以及對將 來這個問題的研究方向做出展望 本文共分四章第一部分是引言,主要介紹數(shù)據(jù)不平衡的定義第一章介紹中位 數(shù)平滑法,嘗試用中位數(shù)平滑法處理不平衡數(shù)據(jù)第二章介紹幾種估計方法并建模 給出估計第三章主要是應(yīng)用舉例,進行隨機數(shù)據(jù)擬合來驗證這些方法的優(yōu)劣 關(guān)鍵詞:不平衡;相關(guān) a b s t r a c t i np a p e r l l 2 】,s e v e r a lm e t h o d so fp 甜鋤e t e re s t l m a 乞ea b o u tl 。n g i t u d i n a lu m b a l a n c ed a t am o d l i n g a n dt h e r ea r em s o8 0 m ep r o c e s s e st ou n b a l a n c ed a t ei nm a n y o t h e rd o c u m e 玨t s a no u t l i n eo ft h i 8s u b j e c tb a 8 e do 玨p r e v i o u 8s t u d i e si i l 地i sp a - p e r t h e n ,t h ea 肛t h o rb u i l da8 i m p l em o d e l ,矗tt h er a n d o h ld a t at oi d e n t i f ,t h ep r 0 8 a n dc o n so ft h e 8 ed a t a ,a n dr n a k ep r o s p e c tt ot h es t u d yo ft h i sp m b l e m t h e r e 村ef o u rc h 嬸t e r s 遜t h i sp 氌t e r 。t h e 缸8 tp a r ti 8 啦r o d u c t i o nw h i c ht e hu s a b o u tt h ec o n c e d t i o no fu n b a l a n c ed a 七a ,a n dt h em e t h o d su s en l e d i a nn u m b e rw a s i n t r o d u c e di nc h a p t e r1 t h ea u t 量l o rm a d ea 玨a 名t e h l p ta td e a l i n gw i t ht h eu n b a l 8 n c e d a t ai nm e d i a nn u m b e r i nc h a p t e r2 ,e s t i m a t em e t h o d sw e r eq u o t a t e d ,a n de v a l u a t i o n w a 8g i v e nb ym o d i i n g i nt h et h i r dc h a p t e r ,s o m ee x a m p l e sw e r eq u o t a t e dt oi d e r l t i 母 t h ed r o sa n dc o n s 西t h e s er a n d o md a t a 。 k e y w o r d s 1 1 1 l b a l a n c ed a t ac o r r e l a t i o n l l 獨創(chuàng)性聲明 本人聲驥所呈交的學(xué)位論文蔻本人在導(dǎo)耀捂芬下進行的研究王俸及取得的研 究成果據(jù)我所知,除了文中特剝加以標(biāo)注和致謝的地方外,論文中不戴含其他人 已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得東北師范大學(xué)或其他教脊機構(gòu)的學(xué) 位或證書麗使用過的材料與我一闋工作的同志對率研究所做的任何貢獻均已在論 文孛癢了睽確戇巍硬并表示澍意。 學(xué)位論文作者簽名 襲。糸 日期 驢喵年| 鼉i j 學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者完全了鰓農(nóng)北師范大學(xué)有關(guān)像鬻、使用學(xué)位論文的蟪定,即: 東囂幫范大學(xué)蠢較鑲餐著志藿家蠢關(guān)部 j 交援?dāng)v送突學(xué)位論文豹復(fù)零 孚程磁盤,競 許論文被鴦闋和借闋。本人授權(quán)東北師范大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編 入有關(guān)數(shù)據(jù)庫進行檢索,可以采用影印、縮印或其它復(fù)制手段保存、匯編學(xué)位論文。 ( 保密的論文在解密后應(yīng)遵守此規(guī)定) 佟考簽名:耋:! 叁 日期:塑塑璺璺 學(xué)位論文作者畢業(yè)后去向 工作單位 揍導(dǎo)教耀簽名:避章 隧瀨_ i ! ! 堡塑 t 穹 廈。、m 菇一中孝 遴最遮繾:墨! ! 量叁鎏苧三墨 電話i 旦絲絲夠7 中 囊鵜簽| ! 竺 引言 當(dāng)觀測的對象可以分為幾類時,對他們分別觀測可以得到幾組數(shù)據(jù),如果我們 將觀測的幾類對象作為橫向坐標(biāo),由于觀測時間或地點的差異,觀測結(jié)果可能有所 不同,我們將其作為縱向坐標(biāo),這樣我們得到了一個數(shù)據(jù)陣我們可以單獨研究某 一對象,也可以研究在這一時間點所有對象的情況,也可以求出兩個不同行也不同 列的點彼此間的關(guān)系但是,在實際觀測中,我們未必能夠得到一個完整的數(shù)據(jù)陣, 受到一些觀測條件的限制,可能會出現(xiàn)這樣的情況,對某些對象觀測的點數(shù)可能會 比較多,其它的觀測次數(shù)比較少或者觀測的次數(shù)相同,但觀測的時間或地點卻不 同我們把這稱為數(shù)據(jù)的不平衡數(shù)據(jù)不平衡后,會不會使研究的結(jié)果產(chǎn)生影響呢。 我所研究的就是這一問題。 本文嘗試用多種方法來處理這一問題,包括對總體均值的極大似然估計,以及 中位數(shù)平滑法等等 中位數(shù)平滑法等等 第一章中位數(shù)平滑法 1 雙向表 考慮這樣一個數(shù)據(jù)集,其中觀測值寫作:, ;1 ,;j = 1 ,j 并且以 長方形表格的形式顯示 13 l 挈l l爹l j , 口nj 我們稱其為一個雙向表這數(shù)據(jù)結(jié)構(gòu)涉及三個變量:行因索p ,有,個水平戲位級, 即( 1 墨p 墨j ) ;剃因素q ,有j 個水平或位級,邵( 1 qs 刃;當(dāng)p i ,印= j 霹,對應(yīng)輟,我翻有j 了令怒測壤,籜每囂每襄戇每令綴合騫一個鬣潦繁。 2 雙因子方麓分量模型 我們建立雙因子方差分量模型為 百玨= 弘+ 也t + | 毛+ 小 在這溪墼中、弘怒整個表夔總薅憨穰;搿囂素懿第j 令承乎對總瘁魂篷懿影嚷楚8 ; 稱為行效應(yīng):列曝豢盼籌j 個水平對總體均值的影響是島,稱為列效應(yīng):e 。怒溟差 現(xiàn)在,我們想蒙得到,n 。,島的估計,最簡單的方法莫過于直接求均值估計,即 ij f :1 = 蜘,( = j ) 1 = t ,端1 j 威一匹虢,】一磚 j = l , 島一【”。引一皿 t = 1 它茲不霆之處密子:步數(shù)纂元鶼大撬動影韻總薅均德、囂效應(yīng)與裂效應(yīng)。愛羚, 數(shù)據(jù)的不平衡也會對信計結(jié)果產(chǎn)奎影響 不平衡 在實際觀測中,我們未必能夠彳辱到一個完整的數(shù)據(jù)陣,受到一些觀測條件的限 制,可能會出現(xiàn)這樣的情提:對某魑對象怒測的點數(shù)可能會比較多,其它的賊測次數(shù) 跑較鄉(xiāng)?;蛟B測戇次數(shù)耀霹,毽麓溪麓霹楚或建點嫠不淹,我察據(jù)這舔菇數(shù)糖豹不 平衡 2 當(dāng)數(shù)撼苓平衡對,缺失點必麓按o 處瑾,辯絡(luò)皋產(chǎn)生較大影響,我們嘗試尾中位 數(shù)取代均值做估計 1 中位數(shù)平滑法簡介 我髓瑗在對數(shù)據(jù)表述轉(zhuǎn)速代運算,接行計算每符瓣申位數(shù),然鼴及該行的每個 蕊測餐審減去這拿孛位數(shù)簸然后對予結(jié)果褥爨鵝表,按襄計算每魏戇孛往數(shù),及該 列的每個觀測值中減去這個中位數(shù)值當(dāng)然,如果一個行或列有中緞數(shù)o ,這行或列 沒變化不停這樣做,直到所有行或列都有零中儻數(shù)為止 為了更正式表示這個過程,我們建立模型為 我們記第n 次迭代結(jié)榮厝時的值為 礬,需m 扣1 + n m 十西岫+ e 擘 ( 1 1 2 ) 我嬲記第1 次遙我蔻# 艟拐戇條搏 m ( o ) :o 。l o = o ,6 ,1 = o ,詰1 ,;,= l 。, 一次遮代中懿具體步驟魏下: 行: n :一m 謝( e 爭1 1 撐1 ,;j = 1 、j ) m l “1 一m e d e ”1 b l ,l , d 鎏= e 驢n 一8 魁 江l :,f ;,= l ,j ) 捌: 妒= ,n e d ( d 孑。h = 1 ,tj = l ,j ) m 驢一m e d n :“一1 + n “1 4 一l ,一,) e 霉= 嘞 螂一穢;囊= l ,f ;,= l ,毋 公共值與效應(yīng): m f ”) = m n 一1 + m 驢+ m 擴 3 f 1 13 1 f 114 1 f 1 1 ( 1 1 6 ) ( 11 ,7 1 ( 1 1 島) ( 1 1 9 ) 血:州= o :n “+ 口:一m p 妒= 妒一一m 驢+ 妒 ( 1 1 1 0 ) ( 1 1 1 1 ) 為了便于保存中間結(jié)果,我們寫出有關(guān)行和列的計算表格,在表1 和表2 中草 擬出這些計算表格的圖式表1 表示在第n 次迭代的行中位數(shù)平滑,表2 表示在第 n 次迭代的列中位數(shù)平滑 表1 前一次 l ,j lj新m e d 1 e 器。)e 凈1 ) o ,】o p _ 1 1 i e 贍- 1 e 垮1 ) n , n n - 1 前一次 6 p _ 1 妒q f m :n m ( n 一1 ) 表2 1 0 1j 前一次 1 齠。d 凈1 1n p + n p 1 i 賦。d 易_ 1 n r + 。p 。1 新n l c d b p 6 , m 驢) 前一次 6 p - 1 一m 擴6 9 一一,7 l l 叫m l ”+ m ( n 1 ) 以上是中位數(shù)平滑法的基本步驟,迭代到最后時,m 驢n t “i 妒,n 為。 我們可以用最終得到的”z 估計公共值,標(biāo)記著前一次的列和行在最后一步成為行效 應(yīng)和列效應(yīng)的估計用各點數(shù)據(jù)的剩余值( 表中數(shù)) 估計偏差巳, 4 2 朋中位數(shù)平滑法處理實際問題 現(xiàn)搬,我們用中位數(shù)平滑法來處理實際問題,考察美國的嬰兒死亡率:行差別反 映地區(qū)的不同,包括東北、中北、南部、西部四火地區(qū);縱差別反映父親受教育年限, 包括小予等予八年、九年剄十一年,十二年、十三列卡五年、大于十簸年,根據(jù)所得 懿數(shù)據(jù)蠲表3 懿下: 表3 地區(qū),受教顰限 1 6 東北 2 5 32 5 31 8 21 8 31 6 3 中j e 3 2 12 9 o1 8 。82 4 31 9 0 鬻幫 3 8 湛3 圭固 l 。3王5 。7 王6 。8 舀幫 2 5 ,42 l ,l2 0 32 4 o1 7 5 現(xiàn)在,我們用中位數(shù)平滑法處理此問題,襲4 是最終的迭代結(jié)果 表4 l 地區(qū)、受教年限 1 6 l 東j 一l 。l0 。50 00 、?0 ;7 中北 1 1 0 4,4 ,oo 71 2 i 南部 1 125oo 14 5o o l 西部 一2 95 6o 231oo m = 2 0 6 如= ( 7 ,4 ,5 8 ,一0 。8 ,0 ,一3 ,4 ) 訊= ( 一l6 ,3 + o 一o 4 ,o 4 ) 表中的剩余值為e 。的估計 我們?nèi)斓絤 的一個岱汁2 0 6 ,并量發(fā)蠛磷部地區(qū)父親受教育年限小于等于八 年秘大鑲差 下麗,我們嘗試用均值來分析幼兒死亡率,褥結(jié)果如下( 表5 ) 表5 地區(qū),受教年限 1 6 i 東北 一3 oo 91 20 。llo l 孛襲 一e 。王0 62 2 圭。9一o 2 l 南部6 92 9。1 46 42 ,l 西部 一3 84 42 34 6 1 3 5 慨= 2 2 8 2 6 j 燃( 7 5 8 ,3 7 6 ,一3 ,6 8 ,一2 2 4 ,一5 。4 2 ) 哦= ( 一2 1 4 ,1 8 2 ,1 5 0 ,一1 1 8 ) 液中的剩余值為的估計 誑見,由于均值分析必須保證殘蒺每行的朔與每列的和為o ,導(dǎo)致本來殿屬于南 幫受教育最步的父親的大殘差1 1 2 分散甍它所在酌行與列中,餐很多小殘藏膨藤 舉例,假設(shè)粱種原因,我們?nèi)笔Я藮|北地聰9 一1 1 ,中北地區(qū)小于等于8 ,南部地 醫(yī)1 2 ,疆部逑醫(yī)太于等予1 6 魏足綴數(shù)據(jù),逮辯數(shù)器已不平鴦;我懿麓否曩濺蠢方法 計算睨? 我們?nèi)杂弥匈艛?shù)乎潛法,拋去裝失的點不管,最終得結(jié)果如下液6 表6 地區(qū)受教年限8 9 1 11 21 3 1 5 1 6 l 東j e 國0 。0一l + 88 ,0 中北 0 01 _ 92 1o2 南部 3 74 74 o 一4 3 匿幫 1 87 30 22 2 m = 2 u r 6 7 = ( 5 4 66 ,一1 7 ,o 一3 6 ) a 。= ( 一1 o ,16 ,一1 1 ,10 ) 表中的剩余值為e 。,的估計 我們發(fā)現(xiàn)m 的值變化不會由于少數(shù)點的缺失受太大的影響假是與缺失點同行 或嗣列的菜些,藏酶偏差受翔較大子貔,南部魏區(qū)父受教肖,j 、于等予8 年的绱差已畝 1 13 變?yōu)? 7 我粕薅垮董| 萋方法求囊鰹下( 表7 ) 6 表7 地區(qū),受教年限 8爭l l1 21 3 一1 5 1 6 東北 ,1 4 4 2 1 6o 8 32 0 3 孛襲 圭。8 60 毒3 。鑫3王,鑫3 南部 6 ,0 71 0 6 7 7 9 3 4 7 西部 4 5 36 0 41 13 3 3 仇= 2 2 6 4 屯= ( 7 1 9 ,硅。3 9 ,3 5 4 ,一2 ,o ,一5 。2 7 ) 氐裟( 一3 1 ,o 1 ,2 9 ,0 1 ) 表中黲糕余筐為粕,翡售計 數(shù)據(jù)不平衡后,缺必點所在行和所在列的殘差受到較大影響,和已經(jīng)不為0 比 中位數(shù)方法更不理想的是由于備行或各列缺失點數(shù)的不同,使行鼴素或列因素的估 計嬲現(xiàn)較大偏整,和不為o 可見、數(shù)據(jù)不平衡使一些原肖方法失效,我們在下一章中討論如何處理數(shù)據(jù)不 孚餐匏閹瑟 第二章極大似然估計 l 。d 邀l e 的方法 d i 9 9 1 e 在1 9 8 8 零繪出了一秘方法,求出了各個點均蠖與點與患之楚蟄窮差黲 極大似然估計我們假定整個實驗包括m 個觀測對象,對第i 個觀測對象觀測他;次 ( 1 f m ) ,這樣我們一共觀測n = n 1 + 扎2 + + 禮。次其中“魁隨機變量, 為籍i 個觀測對象的第j 次測量+ 一( l ,2 ,。1 ) ,y 一( k ,k ,) p n 。= e k 奶】,地一e 班】,牲一e y 】 我們假定y 在一些變形后滿足一個多元正態(tài)分每,郄y m v n ( 弘,礦) ,為了 完成對這個模型的分析,我們需要找到n 維向疑p 與n 他維方差陣v 的輿體形 式 對均值# l ,我們假定線性模型p = x p ,其中x 鬼n 咒維協(xié)變蹙:日懸一個口1 繚參數(shù)陣,靜? 1 l _ 艫l 一,跏。可蔫蘆個參數(shù)線性表出,對y 我們需要假設(shè)之 閽是彼此獨立黲( 盡管在測震過程中蠢可麓產(chǎn)生程度懿結(jié)果) 這襻礦是一個對凳 塊矩陣,( 因為c 。v ( m a 、k 女) = o ,i j ) ,每一塊m = ”8 r ( k ) 我們選擇一個簡單而又能滿足上述條件的模型, m 。= 趣,+ z 咄。+ 戳+ 虹( o u ) ( 2 11 ) 其中z 峨,蹩測量誤差,疆立闋分帶于n 固,r 2 ) ;識愛映觀測對象之闡的藕關(guān)往、獨 立圊分布于n ( 0 , 哩) ;峨似巧) ) 是關(guān)于i 獨立螅穩(wěn)定熬菇矮避程,有 扛 玨:( 。) j = o ,c o v ( 崴( ) 致( s ) ) = 礦2 | 。( t s | ) 一般情況下選擇礦( 。) 一e 。p ( 乜岱) 最焉,我們令幻怒l ,的測量時闖,是一個單位降;j 怒一個元索都為1 的 陣;硪f ) 是一令對囂疼,第( 舞,1 ) 個元素為p ( 一赴| ) 對應(yīng)方差陣為 k 鬈丁2 f + y 2 j + 盯2 兄( o ) 我們建立極大似然方程并做檢驗 現(xiàn)在,我們建立的模型中有參數(shù)口,r 2 ,y 2 和。為了簡化,我們新定義參數(shù)妒= ( l ,妒2 ,妒3 ) ,其中張= 丁2 拶2 ,軌= 礦2 礦,妒3 = ,裔礦一口2 礦。( 妒) ,這樣極大儆然 s 方程為 l ( 口,a 2 ,) = 一扣l n ( 盯2 ) + l n 叭妒) i + ( x 口) 儼( 妒) 一1 ( 可一x p ) a 2 ( 2 1 2 ) 給出這些參數(shù)的估計即可 求得參數(shù)的估計為 d = x 7 ( 中) 一1 x r l x k ( 垂) 一1 ( 21 3 ) u n r ( d ) = 一2 【x 7 ( 西) 一1 x 一1( 2 1 4 ) i 2 = n 一1 ( 可一x 自) 7 y o ( 妒) 一1 ( 可一x 自) ( 2 1 5 ) 對于中的估計,我們令 一x = b ( 屯) 對所有的蟲、有 b ( 垂) y o ( 妒) 一1 b ( 中) = y o ( 妒) 一1 b ( 西)( 2 1 6 ) 使方程圳v o ( 妒) l + n f n h _ 1 可y o ( 妒) _ 1 b ( 蟲) 9 達到最小值的妒就是它的極大似然估 計 這種方法是d 譫g l e 在處理重復(fù)測量問題時所采取的方法它避免了數(shù)據(jù)不平衡 時缺失點對本行或本列的影響、把所有數(shù)據(jù)放在一起處理,解決了問題 我選擇了一種簡單的模型,:,= “+ u + 即所有的。服從一個均值z 、q 。, 獨立同分布于n ( 0 ,r 2 ) ,反映行列影響:測量誤差。獨立同分布于n ( 0 礦) 此時, 參數(shù)有口2 “r 2 、建立新的極大似然方程為: l ( 1 ,口2 ,r 2 ,p ) :一; n l n ( 2 ) + l 。l y l + ( 一c 廠) v 一1 ( 一u )( 2 1 7 ) 其中 c 廠= ( p ,弘,“,) j v = ( r 2 ) “( t 2 + n 口2 ) 其中 v 1 n l l n l n n 1 0 n “ n ,。= 下2 + ( 幾一1 ) 盯2 ( r 2 + 佗盯2 ) 7 - 2 ) 9 計 8 “= ( 一1 ) + ( a 2 ) f 2 + 鈴群2 ) r 2 ,j ) 先薅對盯2 ,r 2 ,“求導(dǎo),令露函數(shù)為o ,聯(lián)立解方程,即可求出它們的極大似然估 1 0 2 核丞數(shù)估計方法 在菜螳實際問題中,均假與測量的時間有關(guān),即肛為t 的函數(shù),此時用上述方法 建模就不是很好z e g e r ( 1 9 9 4 ) 用一種改進的模烈對均值重新進行估計,他是這樣建 模的 k 吣一五 日零磊+ 弘( o 韜) + 筏( o ) ( 2 。2 1 ; 此時舡一忍沁p + “( 奶) ,麓中五奶聲的取法與d i g 科e 一致,置t ,為協(xié)變量;盧為參 數(shù)肛( 幻) 襲示均值的一部分照t 影響,眥( 幻) 爛縱向相關(guān),均值為0 ,也是t 的函 數(shù)五,燎謾差 程徽蘆懿售計時,走令聲的褪篷鴦o ,估詩弘+ 我秘薅棱函數(shù)傣計方法,給蠱 帶寬毳一蠢( 9 ( t ) ) 卸1 2 5 ,冀申茬是一個正常數(shù),敬囂受番數(shù) k ( u ) = e 一“2( 2 2 2 ) q :,( = ) _ 1 ( 一如) h ( ) q 奶渤凈。,是( 奶) ) 鍪l 凳t 曦。( 蕊。 得到的櫻估計為 豇( = 翟1 器l a q ( t ”) 甄, 估計,時用迭代的方法,先給出初始值屆吼令r 爨 ( 22 ) ,鴦 r 鏊,= z 玩,+ 弘( ,) + 玩( u ) 用核估計得到“川( n 再令 觀= 一肛( 幻) f 2 2 1 3 1 f 22 ,喜 f 2 2 5 1 = k c 。一x 咄,口盹代入 ( 22 8 ) 代入( 2 2 + l j ,蠢 s 囂= 鼉奶蘆五+ 溉( 奶) 2 ,2 ) 用d i g g l e 的方法得到蘆的估計盧弘再令一2 ,一,一。p 1 1 1 褥用核估計得到 肛叭幻) ,不停迭代直到二者都收斂為止,即p 叫如) 和盧趨于定值,就是它們的估 十 程求鎊方差匏佶計時,技l 令磊秀濺璧淡簇,獯立囂分布予n ( o ,) ,溉( 島 是美予i 獨立靜穩(wěn)定翡嵩凝避程, e 瞰( o 玎) 】一o l l 俐( 暇( t ) ,暇( s ) ) 一吒“陋一8 限 k 的掩方差陣k = a :j + 霆魄,盞) ,露( :,t 0 是令方陣,繁0 ,奄) 令囂索鴦聯(lián)一t :1 ) 1 2 3 對均值,標(biāo)準(zhǔn)差以及相關(guān)系數(shù)建模并求估計 2 0 0 5 年,h u a n g 用一種方法對均值,標(biāo)準(zhǔn)差以及相關(guān)系數(shù)建模并求估計,具體方 法如下: e 殘( 棼 = m ( t ;砩 ( 2 3 ,1 ) ,5 翟 誓妨) = d i ( 亡l8 ,6 ) ( 2 3 ,2 ) g o r r k ( t 1 ) ,k ( 亡2 ) ) = n ( t 1 ,t 2 ;n ,6 ,c ) ( 23 3 ) 可見對標(biāo)準(zhǔn)差建模時照顧與均值模型有公共參數(shù)6 ,對相關(guān)系數(shù)建模時與均值 模型有公共參數(shù)6 ,與標(biāo)準(zhǔn)簸模型有公共參數(shù)( ,嗡這襻便極好的繇釋了三者的關(guān) 系。 這艟先將( t ) 標(biāo)準(zhǔn)化。 q ( t ) 一 k ( t ) 一m ;( t ;6 ) 哦( t ;n ,6 )( 234 ) 它的均 藪為0 ,方差為l ,可分為三部分。 e ;( ) 羔蘆 駐) 毛+ 弘2 0 ) g ;0 ) + p 3 8 ) 印( )( 2 ,3 ,善) 其中、8 是與時間獨立的個體間影響:矗( t ) 是測撼誤差,隨時間改燮:叩( t ) 是個縱向 序列相關(guān)過程,p 1 ( ) 、f z 2 ( f ) ,“3 ( t ) 是權(quán)重函數(shù)并隨時間變化而變化有 ( ? 8 、r ( 霉:1 ) ,臻2 ) ) 燃p ( t l 、t ! ) 數(shù) 令c 一( ( b ,c 。,啦,c 3 ) ,它們分別是弘1 ( t ) ,砌( z ) 腳( ) ,p ( t 1 、z 2 ) 的參數(shù),有相關(guān)系 ,( f l 、 2 ,。) 祟蘆l ( 屯、e 1 ) 蘆t ( 如、e 1 ) + 蘆2 t l ,。2 ) 蚌2 ( 2 ,曉) + 鰳秘i 。c 3 ) 艘l ( e 2 ,c 3 ) 尹( t l ,t 2 ;錫) + f 2 38 ) 建立迭代似然函數(shù)工( 8 ,口) ,當(dāng)日= 目時,有l(wèi) p ) 口= o 在每一次迭代中固 定口7 為前一次迭代時p 的值求日使l ( 目,日) 最大可知口= ( n ,b ,c ) ,口7 = ( n 7 ,b ,c ) , 定義似然方程: ( # ,# ) 一三籮p ,礦) + 囂( 8 ,8 ) + 霧( c ,乎;2 3 ? ) 五妒( 6 ,8 7 ) = 一 叫”( 1 ,如;口) d 黜t t ;6 ) d 如;6 ) ) ( 23 8 ) # 1 ( e 1 ,如矗) 】3 五妒( 6 ,8 7 ) = 一 喇由哪戚4 ( t ,孤6 ) ) 2 ( 2 3 9 ) t = j ( l ,鋤薯) l 妒( c ,幻= 一 叫7 ( l ,屯;) d f ( l ,。2 ;c 6 ) ) 2 1 0 ) b l ( o l ,如) d :”( 1 ;6 ) 一m ( t ) 一m 。( t ,)( 2 3 1 1 ) 婦,( 。1 ;。,= k # ) 一7 n ;( f ,f ) ) 2 一霹( ;。,6 + ) ( 2 名1 2 ) 耐“沁,t 2 ;# ) ,哦癬( ,;8 ) ,哦k t ,t 2 ;8 。) 是三個隨時聞變純靜任意j 平蔑模式 的權(quán)重函數(shù)。 最后對口和求估計即可 以上是一齙圜內(nèi)外學(xué)者對不平鍵數(shù)據(jù)的一些處理方法,還有一些我就不一一敘 述了,我想要戮突豹是當(dāng)摸登楚純辯,筑否一些方法鼴冀遴搿處理,先蓬枧褥遣一綴 平衡數(shù)據(jù)、再任意去掉一些使其不平褥,用數(shù)據(jù)撳合的方法來驗證這些方法實用與 否 1 4 第三章隨機數(shù)據(jù)模擬 現(xiàn)在,我們隨機產(chǎn)生幾組數(shù)據(jù),用中位數(shù)平滑法來驗證一下數(shù)據(jù)不平衡后的影 響 首先,我們產(chǎn)生1 9 1 9 數(shù)據(jù)陣,陣中每個數(shù)都是1 4 0 的隨機整數(shù),在任意 缺失一些數(shù)據(jù),得到矩陣m ,先后用中位數(shù)平滑法來作,結(jié)果矩陣分別是b 和a ,結(jié) 果均值是幾和m ,( 見附錄1 ) ( 產(chǎn)生程序見附錄2 ) 結(jié)果顯示,均值m 和n 相差不大,但對結(jié)果矩陣影響巨大 我們將產(chǎn)生6 6 的數(shù)據(jù)陣a ,在隨機缺失一些數(shù)據(jù),得到列向量,用極大似 然求得m ,口2 ,r 2 的估計為( 見附錄3 ) 盯2 為d ,r 2 為t ( 程序見附錄4 ) : 1 5 參考文獻 d l 職l e a n dv e r b y l ,( 1 9 9 8 ) n 。n p 踮a m e t r i ce s t i m a t i o no fc 。v a n 肌c e s t r u c t l l r ei nl o n g i t u d i n 砒d 8 t a b i o m e t r i c s ,5 4 2 g a b r 越( 1 9 6 2 ) a n t e d e p e n d e n c ea n a l y 8 i so f 舭1o r d e r e ds e to fv a r i a b l e s a n nm a t hs t a t i s t 9 3 h a u ,a n ds e v e r i n i ,( 1 9 9 8 ) e ) c t e r l e dg e n e r a l i z e de s t l m a t i n ge q u a t i o n sf o r c l u s t e r e dd a t a a ms t a t l s ta s s 3 3 4 1 h a l lp ,f i s h e rni a n dh o 母n a n n ,b ( 1 9 9 4 ) o nt h en o n p a r a m e t r i ce s t m a t i o no fc o v a “a n c ef u n c t i o n sa 皿s t a t i s t 2 2 副 h a n d ,d ja n dc r o w d e r ,m j ( 1 9 9 右) p r a c t i c a ll o n g l t u d l n a id a t aa n a l y s l s l o n d o n :e h a p m a na n dh a l l 6 1h u a n g 、w ( 2 0 0 4 ) i t e r a t i v el i k e l i h o o df u n c t i o nu n p u b l i s h e d 引 k e n w 。r dmc ( 1 0 8 7 ) am 。t h o df o rc o m p a r l n gp r o 丘1 e so fr e p e a t e dm e a s 1 1 i 徹1 e 1 1 t s a p p i s t 砒i s t3 6 8 】 l a l r d nn i ( 1 9 8 8 ) n i i s s i n gd a t ai nl o n g l t u d i n a ls t u d i e s s t a t i s t、i e d7 9 】l a i t d 、n 、i d o n n e l l y ,ca n dw a l e j h ( 1 9 0 2 ) l 。n 9 1 u d l i l a ls t u d l e sw l t l l ( 、1 j 1 l t i n t ) l 1 sr e s p o n s e s s t a t j s t 、i e t hl ( ) l a l r c 【,n 1 1 d 、a r e 、j h ( 1 9 8 2 ) r a n d o i n e f r e c t s 1 1 1 0 d e 】s 兒r i u i 】g m l ( 1 l i l a l d a c ab 】o m e ”i c s ,3 8 1 1 l m l l g ,k ya n dz c g e r 、sl ( 1 9 8 6 ) l o n g n d i n a ld a t aa n a l v s 叭1 s i “gg e l l c r a l 脅( 1l i i 】e ar i l d e l sb i o m c 塒h ,7 3 1 2 l l p s i t z ,sr ,la i r d ,nm a n dh a r r i n g t o n ,dp ( 1 9 9 1 ) g e n e r a l i z e de s “1 1 1 a t i n geq i l a t i o n s 。rc 。r r e l a t e db i n a r yd a t a :u s i n gt h eo d 出r a t l oa sam e a s ur e o fa s s o c l a t i o nb i o n l e t r i k a7 8 1 3 l l t t l e s r aa n dr u b m ,d b ( 2 0 0 2 ) s t a t i s t l c a la n a l y s i sw n l lm i s s l l l g d a t a ,2 n de d n n e w1 如r k :w l l e y 1 4 n 1 1 n 坼a n t o n ,va n dw o o d w o r t h ,gg ( 1 9 9 4 )a n a l y s i s o fl 0 n g i t u d i n a l d a t aw i t hu n e q l l a l l ys p a c e do b s e r v a t i o n sa dt i m e _ d e p e n d e n tc o r r e l a t e d e r r o r s b i o m e t r i e s 5 0 e r m r sb i o m e t r i c s 5 0 1 6 【王翻舶u 嫩l m a 惑m ( 2 0 0 i ) f o u n d a t i o n so f 艇m e8 e r i e s8 n 螄i s a n dp p e d i c t i o n t h e o r y n e wy b r k :w i l e y , 1 6 l 】p r e n t i c e ,r l a n dz h a o ,l p ( 1 9 9 1 ) e s t i m a t i n ge q u a t i o n sf o rp a r 鋤一 e t e r si nm e a n sa n d v 甜i a n c e so fm m t i 讖r i a t ed i s c r e t ea n dc o n t i n t 王o u s r e s p o 玨s 髂。b i o 磁e t 如。s ,唾7 , 【1 7 j 、v a r e ,j h ( 1 9 8 5 ) l i n e a rm o d e l sf o rt h ea n a l y s i sf o rl o n g i t u d i n a ls t u d i e s a m s t a s i s t n 3 9 1 8 1l i a n g ,k ,y a n dz e 宴鬻r ,s l ( 1 9 8 6 ) l o n g i t u d i n a ld a t aa n a l y s i sf o rd i s e r e t e l n dc o 玨t i n u o u so u t e o 羥l e s 。b i o m e t r i c s 。4 2 1 9 j ,z i m m e r m a n ,d l 【2 0 0 0 ) v i e w i n gt l 孢r r 越a 毛i o ns t r u e t u r eo fl o n g i t u d i n a l d a t at h r o u 曲ap r i s m a m s t a s i s t n ,5 4 2 0 】z i n l h l e h n a n ,dl a n dn u n e z - a n t o n ,v ( 2 0 0 1 ) p a r a m e 七r i co fg r o w 乞hc l t n e d a t a :a no v e r v i e w 。l b s t 1 0 2 l 囂h a n g 、v ( 2 0 0 5 ) a n a l y s 呈so fl 。n g i t u d i n 馥d a t 8u n b a i a n e e d 。v e rt i ! n 。 j rs t a t i s t s 。c b ( 2 0 0 5 ) 6 7 2 2 d a 、i ( 1 c h o a 9 1 i n 探索 生數(shù)據(jù)分析中阿統(tǒng)計出版社2 0 0 2 年 2 3 ll w s 、1 l a t 鋤l 。a n dj + c a r r o l l 。多無數(shù)據(jù)分析捉械工業(yè)掛 版祛1 9 。8 霉 2 4 1i ( 、i 、t 0 l t 方差估計引論中國統(tǒng)計出版社2 0 0 2 年 2 5 d m i ( 1f l e c d i n a n統(tǒng)計學(xué)中國統(tǒng)計出版社1 9 9 7 年 2 翻,o h n ,a 磁e e , 數(shù)壤絞計與數(shù)據(jù)分接飄猿王照出版事l s 年 f 2 7 】e l i s atl e e 生襻數(shù)據(jù)分析的統(tǒng)計方法中國統(tǒng)計出版社1 9 9 8 年 2 8 1 鴻詩松統(tǒng)計手冊科舉出版社2 0 0 1 年 【29 】剮儔數(shù)據(jù)模型與凝策分榜武漢大學(xué)黥峻社1 9 9 9 年 3 銻吳喜之統(tǒng)計學(xué)麓等教育出籟社2 0 0 2 簪 鎏l 】羚國澤菲參數(shù)統(tǒng)詩漤義j 衷大學(xué)窶叛李圭2 0 0 0 年 【3 2 j 朱洪文應(yīng)用統(tǒng)計高攤教育出版社2 0 0 2 華 f 3 3 】商熬璇s a s 系統(tǒng)中黧統(tǒng)計出黻漣1 9 9 8 警 【3 4 1 揚位飲顧嵐時間序列分析與動態(tài)數(shù)據(jù)建模北京理工大學(xué)出版社1 9 8 8 年 1 3 5 】田錚等譯時間序列的理論與方法高等教育出版社2 0 0 1 年 1 8 致謝 本碩士論文是在史寧中教授的鼓勵下,高巍教授的悉心指導(dǎo)下完成的,寫作過 程中自始至終得到了兩位老師在各個方面的關(guān)心和幫助攻讀碩士三年期間,老師 們指導(dǎo)我們系統(tǒng)學(xué)習(xí)了高等概率論,高等數(shù)理統(tǒng)計,多元分析,生存分析等專業(yè)知 識,閱讀了大量的文獻幾位教授廣博扎實的專業(yè)知識,深刻的數(shù)學(xué)思想,嚴(yán)謹(jǐn)?shù)?治學(xué)態(tài)度,富有啟發(fā)性的思維方法,孜孜不倦的言傳身教使我獲益匪淺,終生難忘。 同時還有幸聆聽多位國內(nèi)外學(xué)者的報告在此特向概率論與數(shù)理統(tǒng)計的各位老師致 以最誠摯的謝意! 作者衷心感謝同一專業(yè)的全體同學(xué),長期以來的共同探討開拓了作者的數(shù)學(xué)視 野。 作者衷心感謝數(shù)學(xué)系的全體老師,感謝作者的全體同學(xué),特別是在數(shù)據(jù)擬合編 程時幫助過我的柏慶昆同學(xué) 1 9 袁小慶 2 0 0 6 年3 月 黔錄l : m 篇 n = 附錄 1 91 3 3 21 1 2 5l 1 23 2 61 6 1 43 2 3 73 4 1 90 32 9 2 63 3 2 02 9 83 8 2 92 6 2 0 3 4 18 3 l 2 6 o 5 1 9 1 9 1 3 3 5 1 2 1 0 挎h強玨弘7誨如3凹0辯薅玎0 蟮始;號強6h法,蛆孵引”強 強 烈糾h并2烈鶉5 6 2弛,盤 4 ;m 倚o;強孔,笛h:辯。 玨 巧“玎 : 鷦弛弘瓣勰擬4 6懈艇引埒,躺艇8 0 ” ”弛弘惴弘5 2 u擗悖弛好硒玎如6鶘悖 弘鵂射拍。 猙9 毽弘 撼”騶7博b 弛6 3”弘垮黔孫”站撼”2美體辯 玨,3 m s:弘o扮努撈粥瑟囂b強玨2勰 坤弛於他嬲m”伸0勰加0羚:粥0 6 豁 笛3 弘 鵝n 7 m 簦 巧n站弛;烏鍪弛娼 弘伸挎n 2 m 了拍4 0 h 胛 筋6 他9 o 4 s 譴5 8 5 5 9”塔3 0 6孫於7勰 8 7 3 0 l o 5 4 3 3 1 9 5 9 6 8 7 ;4 6 2 2 3 3 2 8 8 5 2 5 6 6 5 4 2 3 3 2 6 6 2 1 4 ,9 4 l i 8 8 9 8 7 2 3 5 3 3 3 2 2 , s 8 ,7 8 了3 5 2 2 3 2 3 2 3 赫m 5 拍 娩 坦m 瓣6 8 8 2 9籀他垤 ”勰弭辯43強”持o 弛 甜7 弱 。癸”如強7拍”玨h o 抑弘 挎的巧弘,疆輻加3翳o m撼倆”強拍弛6撈擂,艙 烈糾h 2烈辯,6 2弛,強婚8,籃引3於2強9弘” 她弘瓣勰斟4 6懈放m引婚 b弛於博s 2:2濰悖強站鼴6撼,舛醛h撈孫”n 筋,如勰勰n 9 7 m 勰驛笛甜 m 坶坶h 2 m 7 硒4 0揖耵強 4 5 2 5 8 5 5 9 7 5 o 3 o 2 l , 3 l 2 8 7 3 o l o 5 4 8 s 6 6 2 3 3 l 2 3 l 9 5 9 辱8 7 ,4 6 ;i 8 8 2 2 3 3 2 i 3 3 勰弘s 2 5 6始5斟協(xié)8勰” 5 o 5 6 7 2 7 2 0 ;6 8 8 2 3 3 3 ;2 了7 8 4 4 4 ;3 s 3 7 3 2 2 2 1 3 l l 3 3 ,7 6 6 o 0 7 2 6 7 6 7 2 3 3 3 3 3 3 3 2 3 8 2 1 8 5 9 7 9 8 3 l 2 2 3 1 5 0 3 8 3 3 i 3 o 8 4 1 5 6 2 3 l l 5 5 l 7 9 3 3 2 3 ,3 ,3 2 8 3 7 2 2 3 0 3 0 6 9 9 1 2 2 l l 7 3 7 o 8 3 1 3 2 1 1 8 5 2 l 8 4 1 2 2 1 3 9 3 5 3 2 8 2 l 3 1 2 2 8 8 6 5 0 3 2 3 2 6 6 2 8 3 3 2 2 3 3 3 6 2 9 0 5 , l 1 6 3 5 7 9 8 3 3 3 2 l 4 l l 9 4 1 3 3 9 8 7 2 3 5 3 2 2 7 3 8 7 3 5 3 2 3 2 3 6 2 9 6 2 2 2 2 l l o 1 0 2 9 2 l 2 2 3 3 3 4 o 9 5 l 2 2 3 3 附錄2 : 生成1 9 + 1 9 矩陣,缺失項或9 7 f u n c t i o n 【a ,b = m a t ( m ) b = n o o r ( r a n d ( 19 ) + 4 0 ) ; a = b : f o r _ _ 1 :l :1 9 i - n o o r ( r a n d ( 1 ) + m ) : i f l o c o n t i n u e e l s e i f l _ = 1 n = 門o o r ( r a n d ( 1 ) 1 8 + 1 ) ; a ( i ,n ) = a ; e l s e f o r j = 1 :2 n 2 n 0 0 r ( r a n d ( 1 ) + l8 + 1 ) a ( j ,n ) = 。a 。; e n d e n d e n d 求行有效數(shù)的個數(shù)去掉缺火項) f l i n c t i o n k ,x = n l i m l ( a ) k = z e r o s ( 1 ,1 9 ) :x = z e r o s ( 3 8 ,2 ) ;l = 1 f o r 滓l :】:1 9 f o ri = l :1 :1 9 i f a ( i j ) = = a 。 x ( 1 ,1 ) = i ; x ( i ,2 ) 爿: l = i + l : c o n “n l l e : e l s e k ( 1 ,i ) 2 k ( 1 ,j ) + e n d e n d e n d 2 2 求行中位數(shù) f n n c t i o n c ,x 】_ m e d i ( a ) 【k ,x 卜n u m l ( a ) ; f o r i = l :1 :1 9 l _ 1 ;b = z e r o s ( 1 ,k ( 1 ,i ) ) : f o r _ 1 :l :1 9 i f a ( i j ) 一a c o n t i n u e : e l s e b ( 1 ,1 ) = a ( i j ) ; l = 1 + 1 : e n d e n d c ( i ,1 ) = m

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論