




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第六章 時(shí)間序列的平滑6.1 引論 上一章我們引進(jìn)非參數(shù)函數(shù)估計(jì)的基本概念,現(xiàn)在將它應(yīng)用到時(shí)間序列別的重要平滑問(wèn)題上. 對(duì)估計(jì)慢變化時(shí)間趨勢(shì),平滑技術(shù)是有用的圖示工具,它產(chǎn)生了時(shí)域平滑(6.2). 對(duì)將來(lái)事件和與之相聯(lián)系的現(xiàn)在與過(guò)去變量之間的關(guān)系的非參數(shù)統(tǒng)計(jì)推斷導(dǎo)致了6.3的狀態(tài)域平滑. 6.4 引入的樣條方法是對(duì)6.3引入的局部多項(xiàng)式方法的有用替代. 這此方法能夠容易地推廣到時(shí)間序列的條件方差(波動(dòng)性)的估計(jì),甚至整個(gè)條件分布的估計(jì),參閱6.5.6.2 時(shí)域平滑6.2.1 趨勢(shì)和季節(jié)分量 分析時(shí)間序列的第一步是畫數(shù)據(jù)圖. 這種方法使得人們可以從視覺(jué)上檢查一個(gè)時(shí)間序列是否像一個(gè)平穩(wěn)隨機(jī)過(guò)程.
2、如果觀察到趨勢(shì)或季節(jié)分量,在分析時(shí)間序列之前通常要將它們分離開(kāi)來(lái). 假定時(shí)間序列能夠分解成 , (6.1)其中表示慢變函數(shù),稱為“趨勢(shì)分量”,是周期函數(shù),稱為“季節(jié)分量”,是隨機(jī)分量,它被假定是零均值的平穩(wěn)序列. 在使用這種分解之前,可以先用方差穩(wěn)定變換或Box-Cox變換. 這類冪變換有如下以參數(shù)為指標(biāo)的形式 (6.2)或具有在點(diǎn)處連續(xù)的變換形式.這類變換由Box和Cox(1964)給出. 注意,由在冪變換中數(shù)據(jù)必須是非負(fù)的,因此,在使用冪變換之前,可能必須先實(shí)施平移變換. 我們的目的是估計(jì)和提取確定性分量和. 我們希望殘差分量是平穩(wěn)的,且能夠用線性和非線性技術(shù)做進(jìn)一步的分析. 通過(guò)推廣Bo
3、x和Jenkins(1970)而發(fā)展的一個(gè)替代方法是對(duì)時(shí)間序列重復(fù)應(yīng)用差分算子,直到被差分的序列表現(xiàn)為平穩(wěn)為止. 這時(shí),被差分的序列可以進(jìn)一步平衡時(shí)間序列技術(shù)來(lái)處理. 作為說(shuō)明Box和Jenkins方法的一個(gè)例子,我們先取S&P500指數(shù)的對(duì)數(shù)變換,然后計(jì)算一階差分. 圖6.1給出了這個(gè)預(yù)處理序列. 所得序列基本上是該指數(shù)中變化的每日價(jià)格的百分比. 除了幾個(gè)異常值(即1987年10月19日20.47%的市場(chǎng)崩盤,金融市場(chǎng)稱之為“黑色星期一”)外,這個(gè)序列顯示出平穩(wěn)性. 這個(gè)變換與金融工程中常用資產(chǎn)定價(jià)的幾何布朗運(yùn)動(dòng)模型的離散化有關(guān). 圖6.1 1972年1月3日至1999年12月31日(上圖)
4、和1999年1月4日至1999年12月31日(下圖)S&P500指數(shù)對(duì)數(shù)變換的差分 我們首先把注意力集中在沒(méi)有季節(jié)分量的情形,即 . (6.3)然后,我們?cè)僭?.3.8中估計(jì)趨勢(shì)和季節(jié)分量.6.2.2 滑動(dòng)平均 平均是最常用的消除隨機(jī)噪聲的技術(shù). 假定趨勢(shì)是慢變化的,使得其能夠在大小為的局部時(shí)間窗中用常數(shù)來(lái)逼近,即 . (6.4)這時(shí)能夠用該窗周圍的局部平均來(lái)估計(jì): , (6.5)隨著中心的改變,局部窗也在移動(dòng). 例如,在圖6.2中,處所得的估計(jì)是落在第一個(gè)窗內(nèi)的那些數(shù)據(jù)的平均. 窗的中心移動(dòng)到新的點(diǎn)處以構(gòu)成在這些點(diǎn)處的估計(jì). 隨著局部窗從左向右滑動(dòng),它的軌跡就是所得的滑動(dòng)平均曲線. 這是滑動(dòng)
5、平均平滑的最簡(jiǎn)單的例子. 它常常被用來(lái)驗(yàn)證時(shí)間序列的趨勢(shì). 圖6.2描繪的是從1999年1月4日到1999年12月1日S&P500指數(shù)一個(gè)月和兩個(gè)月的滑動(dòng)平均. 圖6.2 1999年1月4日至12月31日S&P500指數(shù)和它的21個(gè)交易日(粗線) 和41個(gè)交易日(虛線)的滑動(dòng)平均 在邊界處,滑動(dòng)平均估計(jì)的習(xí)慣做法是忽略超出觀察時(shí)間范圍的那些數(shù)據(jù). 例如,是用數(shù)據(jù)的平均所得的簡(jiǎn)單估計(jì)(時(shí)間點(diǎn)2右邊的數(shù)據(jù)比左邊更多). 這種不對(duì)稱平均可能會(huì)產(chǎn)生邊界偏倚. 當(dāng)邊界處趨勢(shì)陡峭且?guī)捰执髸r(shí),這種邊界效應(yīng)更為明顯. 正如圖6.2所示那樣,在右邊界處的滑動(dòng)平均低估了趨勢(shì). 該問(wèn)題能夠通過(guò)使用局部線性平滑.
6、(參見(jiàn)6.2.6)或別的邊界改善方法,比如,邊界核方法(Gasser和Mller 1979;Mller 1993)和數(shù)據(jù)削尖方法(Choi, Hall和Bousson 2000)來(lái)減弱. 滑動(dòng)平均數(shù)列(6.5)利用了時(shí)間周圍兩邊的數(shù)據(jù). 這樣它還依賴于時(shí)間之后的數(shù)據(jù). 為便于預(yù)報(bào),單變滑動(dòng)平均數(shù)列 (6.6)也常被用來(lái)驗(yàn)證時(shí)間趨勢(shì). 數(shù)列僅用直到時(shí)間的過(guò)去的數(shù)據(jù).6.2.3 核平滑 滑動(dòng)平均估計(jì)的一個(gè)改善方法是引進(jìn)一個(gè)加權(quán)設(shè)計(jì). 這允許對(duì)所給時(shí)間點(diǎn)附近的數(shù)據(jù)給予較大的權(quán)數(shù). 這也就得到了核回歸估計(jì),定義為 . (6.7)這個(gè)估計(jì)還被稱為Nadaraya-Watson估計(jì). 參閱Nadaraya
7、(1964)和Watson(1964). 當(dāng)我們使用均勻核時(shí),上述核估計(jì)就變成滑動(dòng)平均估計(jì)(6.5). 當(dāng)核函數(shù)有有界支撐時(shí),核回歸估計(jì)就是一個(gè)局部數(shù)據(jù)的加權(quán)平均. 當(dāng)核是模在零點(diǎn)的單峰函數(shù)時(shí),附近的數(shù)據(jù)點(diǎn)獲得更多的權(quán). 一般地,核函數(shù)不要求有一個(gè)有界的支撐,只要它薄尾的(如它是一個(gè)有二階矩的密度函數(shù)). 的非負(fù)性要求還能被減弱. 帶寬也不必是整數(shù). 注意,在高斯核定義中的標(biāo)準(zhǔn)化常數(shù)和核的對(duì)稱Beta族只是用來(lái)保證函數(shù)是一個(gè)概率密度函數(shù). 在核回歸估計(jì)中它們并不起作用. 在計(jì)算時(shí),我們常常標(biāo)準(zhǔn)化各種核函數(shù)使得它們?nèi)鐖D5.2那樣有相同的最大值1. 由于這種標(biāo)準(zhǔn)化,(6.7)可以直觀地理解為數(shù)據(jù)點(diǎn)
8、的有效平均. 當(dāng)核函數(shù)有在中的支撐時(shí)(這樣的核還可看作是單邊核),核回歸估計(jì)所使用的數(shù)據(jù)僅到時(shí)間. 這是單邊滑動(dòng)平均(6.6)的推廣. 如同在核密度估計(jì)中那樣,在核回歸估計(jì)中帶寬是一個(gè)重要參數(shù). 如同在圖6.2中所顯示的那樣,大的帶寬產(chǎn)生過(guò)度平滑的估計(jì),遺漏趨勢(shì)和所估計(jì)的峰和谷的度量上的一些可能的細(xì)節(jié). 特別地,當(dāng)使用大的帶寬時(shí),估計(jì)可能產(chǎn)生大的偏差. 當(dāng)使用小的帶寬時(shí),僅有幾個(gè)局部的數(shù)據(jù)被使用,降低了估計(jì)的方差,卻導(dǎo)致所得估計(jì)是一條波動(dòng)的曲線. 例如,用帶寬,滑動(dòng)平均估計(jì)(6.5)簡(jiǎn)單地復(fù)制原始數(shù)據(jù). 為了得到滿意的結(jié)果需要反復(fù)嘗試和修正. 帶寬的數(shù)據(jù)驅(qū)動(dòng)選擇能夠幫助我們確定所要的平滑度.
9、正如在6.2.9所看到的那樣,漸近方差本質(zhì)上依賴于所研究的過(guò)程的相關(guān)結(jié)構(gòu). 因此,針對(duì)獨(dú)立數(shù)據(jù)的由數(shù)據(jù)驅(qū)動(dòng)選擇的帶寬在時(shí)域平滑中效果不佳. 實(shí)際上,Altman(1990),Chu和Marron(1991a)以及Hart(1991)指出,對(duì)相依數(shù)據(jù),通常的留一在外(leave-one-out) 交叉核實(shí)方法效果不好. 這些作者提出了幾個(gè)修正的方法. 對(duì)帶寬選擇的嵌入方法由Ray和Tsay(1997)以及Beran和Feng(2000)提出. 以上考慮能夠通過(guò)計(jì)算核回歸估計(jì)的偏倚和方差得到理解. 經(jīng)過(guò)直接計(jì)算,在模型(6.3)下,核估計(jì)得偏倚為.它不依賴于誤差過(guò)程. 它實(shí)際上是一個(gè)逼近誤差. 當(dāng)
10、帶寬取得小時(shí),逼近誤差小,從而偏倚也小. 另一方面,當(dāng)取得大時(shí),大多數(shù)逼近誤差是大的歸因于和間的距離是大的,因此,偏倚可能是大的. 這個(gè)線性估計(jì)的方差還能夠被計(jì)算. 令是過(guò)程的自協(xié)方差函數(shù),則 . (6.8)該方差依賴于自相關(guān)函數(shù). 進(jìn)一步簡(jiǎn)化需要漸近分析. 我們將在6.2.9中討論. 在那里我們將看到當(dāng)時(shí)方差的漸近行為. 但我們現(xiàn)在可以指出,當(dāng)帶寬小時(shí),核平滑的方差增大,這歸因于在局部領(lǐng)域中數(shù)據(jù)點(diǎn)數(shù)太小的緣故.6.2.4 核平滑的變種 核平滑有許多變種. (6.7)中的分母對(duì)相對(duì)于求導(dǎo)數(shù)和數(shù)學(xué)上的分析是不方便的. 代替用核函數(shù)的高度作為權(quán),我們還可用核函數(shù)下方的面積作為權(quán). 由于核函數(shù)下方的
11、總面積是1,分母不需要. 這就是隱含在Gasser-Mller估計(jì)中的基本思想. 在現(xiàn)在的框架下,令,其中和. Gasser和Mller(1979)提出了以下的估計(jì):.由于總的權(quán),所以沒(méi)有分母. Gasser-Mller估計(jì)是對(duì)Priestley和Chao(1972)早期版本的一種修正. Priestley和Chao(1972)給出的估計(jì)定義為.這個(gè)估計(jì)簡(jiǎn)單地去掉了Nadaraya-Watson估計(jì)的分母. 通過(guò)積分和變量變換逼近黎曼和,對(duì)適當(dāng)選擇的,我們得到總的權(quán),如果不太接近邊界,且相對(duì)于小,并使得和大,則上述積分近似地等同于.事實(shí)上,只要的支撐限制在區(qū)間內(nèi),等式就精確地成立. 換句話,對(duì)
12、不在邊界區(qū)域的點(diǎn),總的權(quán)近似于1. 以上觀點(diǎn)依賴于設(shè)計(jì)點(diǎn)為等間隔的. 事實(shí)上,Priestley和Chao估計(jì)僅能用于等間隔情形. 它不能用于6.3所討論的狀態(tài)域平滑.6.2.5 濾波 核回歸是用于工程的卷積濾波的一種特殊形式. 一般地,一個(gè)長(zhǎng)度為的線性濾波定義為 . (6.9)當(dāng)有支撐時(shí),核回歸對(duì)應(yīng). 濾波能夠被設(shè)計(jì)為擁有各種性質(zhì). 例如,它能夠被設(shè)計(jì)成可以去掉高頻信號(hào)(低通濾波),或低頻信號(hào)(高通濾波)或超出某個(gè)頻率范圍的信號(hào)(帶通濾波);見(jiàn)2.3.3.核平滑是一種低通濾波. 線性濾波變換可以用遞推方式來(lái)定義. 例如,單邊滑動(dòng)平均可以對(duì)某個(gè),利用下式來(lái)定義,這等價(jià)于用的如下的加權(quán)滑動(dòng)平均:
13、.由于權(quán)以指數(shù)速度快速衰減,以上濾波實(shí)際上僅用了時(shí)刻附近的局部數(shù)據(jù). 平滑的有效性依賴于參數(shù). 這種方法稱為指數(shù)平滑. 指數(shù)平滑是用的的一種特殊的核平滑. 這是一種單邊平滑. 它僅使用直到現(xiàn)大時(shí)刻的數(shù)據(jù). 關(guān)于這方面內(nèi)容的進(jìn)一步討論可參見(jiàn)Gijbels、Pope和Wand(1999).6.2.6 局部線性平滑 局部常數(shù)逼近(6.4)能夠通過(guò)使用局部線性逼近來(lái)改善. 我們把趨勢(shì)通過(guò)如下線性函數(shù)局部地近似為的函數(shù).這樣,就近似地看做上述局部線性模型的截距. 可見(jiàn)圖6.3中時(shí)刻處的圖示. 窗內(nèi)的數(shù)據(jù)用一個(gè)線性回歸來(lái)擬合. 對(duì)局部窗附件的數(shù)據(jù)用最小二乘方法,我們通過(guò)相對(duì)于和極小化下式可得到局部截距的估
14、計(jì).這里引進(jìn)核權(quán)是為了減少距離給定時(shí)間點(diǎn)較遠(yuǎn)的數(shù)據(jù)的貢獻(xiàn). 令和是最小二乘解. 這里用下標(biāo)是為了表示所得的解依賴于給定的時(shí)間點(diǎn). 這時(shí),用局部截距來(lái)估計(jì),它有如下的精確表示 , (6.10)其中. 當(dāng)從1取到時(shí)就得到整個(gè)趨勢(shì)函數(shù). 這樣,局部線性平滑實(shí)際上是一種移動(dòng)線性回歸方法. 正如圖6.3所示那樣,在處的估計(jì)由一個(gè)新的局部最小二乘問(wèn)題得到. 在每個(gè)數(shù)據(jù)窗中擬合的直線用實(shí)線表示. 估計(jì)的局部截距的值位于虛垂直線和局部直線的交叉處. 局部斜率是時(shí)間趨勢(shì)導(dǎo)數(shù)的估計(jì). 此外,這些局部窗還可以互相重疊(見(jiàn)圖6.2). S-Plus函數(shù)“l(fā)ls.s”已寫成程序差可用于計(jì)算圖6.3中的平滑曲線. 這個(gè)S
15、-Plus函數(shù)能夠從本書的網(wǎng)址獲得. 圖6.3 使用Epanechnikov核和帶寬所得的1999年1月4日至1999年12月31日S&P500指數(shù)局部線性擬合. 在每個(gè)窗中的虛拋物線表示每個(gè)局部數(shù)據(jù)點(diǎn)所得的權(quán) 局部線性平滑能夠很容易地堆廣到局部多項(xiàng)式平滑. 局部多項(xiàng)式擬合和它的應(yīng)用的全面介紹可參閱Fan和Gijbels(1996). 局部多項(xiàng)式擬合的優(yōu)點(diǎn)總結(jié)在6.3.3中. 注意,(6.11)中的權(quán)滿足 (6.11)這就蘊(yùn)涵了如果趨勢(shì)是線性的,則局部線性平滑是無(wú)偏的:.換句話,無(wú)論趨勢(shì)函數(shù)多以陡峭,只估計(jì)線性趨勢(shì)時(shí),局部線性平滑就是無(wú)偏的. 這對(duì)在內(nèi)部以及邊界處的點(diǎn)的同樣成立. 也就是說(shuō)對(duì)于
16、估計(jì)陡峭趨勢(shì),局部線性估計(jì)將有小的偏倚. 另一方面,因?yàn)轭愃朴冢?.11)的方程即便是近似地也都不成立,因此,對(duì)估計(jì)邊界區(qū)域附近的點(diǎn)估計(jì)陡峭趨勢(shì),核平滑將有較大的偏差.6.2.7 其他的平滑方法 核局部線性平滑有許多別的方法. 例如,Gasser和Mller(1979)使用了不同于核和局部線性平滑的權(quán)形式,Jones(1997)介紹了局部線性平滑的各種形式. Fan和Gijbels(1996)給出了各種平滑技術(shù)的概述,包括樣本和正交級(jí)數(shù)方法. 核回歸和局部多項(xiàng)式建模是基于在許多格子點(diǎn)上的局部近似. 諸如樣條這樣的全局逼近方法還能夠用于對(duì)時(shí)間域的平滑. 這些思想將在關(guān)于狀態(tài)域平滑的6.4中介紹.
17、 對(duì)諸如時(shí)域平滑這樣的等間隔設(shè)計(jì),正交級(jí)數(shù)方法也非常容易使用. 其基本思想是先用正交矩陣對(duì)數(shù)據(jù)進(jìn)行變換,然后,在高頻點(diǎn)向零點(diǎn)有選擇地調(diào)整系數(shù)(或向零點(diǎn)收縮它們). 平滑估計(jì)能夠通過(guò)tapered系數(shù)的逆變換來(lái)獲得. 常用的正交變換包括傅里葉變換和小波變換. 它們的統(tǒng)計(jì)應(yīng)用可參閱Ogden(1997)、Efromovich(1999)和Vidakovic(1999)等近期出版的專著.6.2.8 季節(jié)分量修正 有許多實(shí)用的修正季節(jié)分量的方法. 在此我們概要地介紹一個(gè)方法以說(shuō)明其基本大意. 假定(6.1)中的季節(jié)分量的周期是,即 . (6.12)后一個(gè)約束是一個(gè)可識(shí)別條件. 若此約束不成立時(shí),只要加
18、一個(gè)常數(shù)到趨勢(shì)分量,并在季節(jié)分量修正中減去相同的常數(shù). 歸因于約束(6.12),當(dāng)是一個(gè)奇數(shù)時(shí),趨勢(shì)能夠方便地用具有的滑動(dòng)平均(6.5)來(lái)估計(jì). 在(6.5)中季節(jié)分量平均掉,因而對(duì)趨勢(shì)估計(jì)沒(méi)有貢獻(xiàn). 當(dāng)周期是偶數(shù)時(shí),用如下稍加修改的形式估計(jì)趨勢(shì).季節(jié)分量能夠按如下步驟來(lái)估計(jì). 就一個(gè)例子來(lái)說(shuō),我們假定要處理的月度數(shù)據(jù),且周期. 在3月的季節(jié)分量的值能用在3月所得一切觀測(cè)值的移去趨勢(shì)分量后的平均來(lái)很好地近似. 這就得到估計(jì),其中表示的整數(shù)部分,. 在上述求和中對(duì)上下限所作的限制是為了保證數(shù)據(jù)不要太接近邊界使得在趨勢(shì)估計(jì)中邊界影響達(dá)到最小. 這種初步估計(jì)可能不能精確地滿足約束(6.12). 但這
19、能夠容易地通過(guò)用下式估計(jì)季節(jié)分量來(lái)作修正. 以上方法還被用于沒(méi)有趨勢(shì)分量的情形. 在這種情形,不需要移去趨勢(shì),即令6.2.9 理論概況* 問(wèn)題(6.3)的理論表述應(yīng)該得到注意. 一個(gè)簡(jiǎn)單的方式是把所得的時(shí)間序列看作是來(lái)自如下連續(xù)過(guò)程的離散化樣本路徑這種表述常常被用在金融時(shí)間序列建模中. 時(shí)間單位通常取年,每星期數(shù)據(jù)被看作是以的速度抽自連續(xù)過(guò)程. 對(duì)金融中的期權(quán)定價(jià)和風(fēng)險(xiǎn)管理,這種表述是非常有效的. 然而,在時(shí)域平滑方面,這種述有一些缺點(diǎn). 首先,為了能夠相容地估計(jì),我們需要在給定的時(shí)間的周圍用大小為的窗局部化數(shù)據(jù). 但是,只要過(guò)程是連續(xù)的,所有的局部數(shù)據(jù)都是高度相關(guān)的,且當(dāng)時(shí),相關(guān)系數(shù)趨于1.
20、 這就蘊(yùn)涵了局部數(shù)據(jù)變化不大,因而也就不需要局部平滑. 正如在圖6.2中所看到的那樣,局部數(shù)據(jù)變化很大,局部平滑就能改善趨勢(shì)估計(jì). 這樣,以上表述從理論的觀點(diǎn)來(lái)看似乎是病態(tài)的. 其次,在以上的表述下,趨勢(shì)和隨機(jī)誤差有相似的光滑度(兩者都是連續(xù)的). 因此,在中沒(méi)有希望將隨機(jī)部分與趨勢(shì)部分分離開(kāi)來(lái). 一個(gè)代替的表述是推廣等間隔設(shè)計(jì)的非線性回歸模型到時(shí)間序列框架. 假定所得到的時(shí)間序列是來(lái)自模型 (6.13)其中是平滑時(shí)間趨勢(shì)函數(shù),是隨機(jī)過(guò)程,. 在這種表述下,我們現(xiàn)在能夠利用平滑技術(shù)從隨機(jī)噪聲中分離出平滑趨勢(shì). 一個(gè)小的缺點(diǎn)是平滑趨勢(shì)依賴于觀測(cè)數(shù)量. 這個(gè)問(wèn)題早就出現(xiàn)在具有固定設(shè)計(jì)的非參數(shù)回歸文
21、獻(xiàn)中. 實(shí)際上它不是一個(gè)嚴(yán)重問(wèn)題. 漸近理論畢竟只是一個(gè)工具,為我們理解理論性質(zhì)提供簡(jiǎn)化的結(jié)構(gòu). 用建模趨勢(shì)是捕捉趨勢(shì)比噪聲變化更慢這一特征的簡(jiǎn)單的技術(shù)手段. 在以上兩種表述之間選擇哪一個(gè)依賴于所研究的問(wèn)題. 在縱向數(shù)據(jù)和泛函數(shù)據(jù)分析中,Hart和Wehrly(1986)以及Silverman(1996)基本上是用前一種表述:人們通過(guò)模型觀測(cè)到大量獨(dú)立序列. 這種表述對(duì)他們的問(wèn)題是適合的. 對(duì)時(shí)域平滑,模型(6.13)常被假定. 例如見(jiàn)Hall和Hart(1990),Robinson(1997),以及Johnstone和Silverman(1997). 這就保證了能捕捉到時(shí)間趨勢(shì)比隨機(jī)噪聲更光
22、滑這一特征. 進(jìn)一步,它也保證了能相容地估計(jì)時(shí)間趨勢(shì). 由公式(6.13)能夠獲得核和局部線性平滑的漸近性質(zhì). 估計(jì)的偏倚與具有均勻設(shè)計(jì)的獨(dú)立樣本情形是相同的. 核和局部線性平滑的方差經(jīng)繁瑣的計(jì)算也可得到. 它們依賴于噪聲過(guò)程的協(xié)方差結(jié)構(gòu). 一般地,我們假定的自方差函數(shù)滿足, (6.14)其中是常數(shù). 在2.5.2中定義的分式ARIMA過(guò)程就滿足(6.14). 我們將估計(jì)(6.10)重寫為. 對(duì)任何,使用和(6.11),我們得到偏倚. (6.15)注意,這個(gè)偏倚不依賴于誤差過(guò)程. 它完全是局部線性擬合的近似誤差. 為理論敘述的簡(jiǎn)單,我們假定有有界支撐. 這個(gè)假定可以冗長(zhǎng)的敘述為代價(jià)而得到減弱.
23、 特別地,可以使用像高斯核這樣的輕尾核. 由表示. 在下面的定理中我們總結(jié)了漸近偏倚和方差,定理的證明放在6.6.1. 注意,由于時(shí)間單位的尺度,和用在一般的非參數(shù)回歸中的帶寬是相同的. 定理6.1 假定有有界支撐,滿足和,且當(dāng)時(shí),帶寬. (a)如果存在,且在點(diǎn)處連續(xù),則. (b)如果自方差函數(shù)滿足(6.14),我們有 (6.16) 定理6.1表明,過(guò)程的協(xié)方差結(jié)構(gòu)對(duì)漸近方差有強(qiáng)烈的影響. 反過(guò)來(lái)這也影響到漸近最優(yōu)帶寬,并解釋了為什么獨(dú)立數(shù)據(jù)的數(shù)據(jù)驅(qū)動(dòng)帶寬選擇不能直接應(yīng)用到相依數(shù)據(jù). 對(duì)核估計(jì)的類似于定理6.1的結(jié)果由Hall和Hart(1990)證明. 最近,這些結(jié)果被Beran和Feng(
24、2000)用不同于6.6.1給出的方法推廣到局部多項(xiàng)式擬合. 他們還證明了對(duì)anti-persistent過(guò)程,漸近方差具有階. 局部線性估計(jì)的漸近正態(tài)性也可以被建立. 如果誤差過(guò)程是高斯的,則它的加權(quán)平均估計(jì)(6.10)還是高斯的. 這樣,局部線性估計(jì)的漸近正態(tài)性直接由定理6.1得到. 此外,在正態(tài)假定下,Csrg和Mielniczuk(1995)建立了類似于定理5.4的最大偏差的漸近分布. 然而,對(duì)的正態(tài)假定并不是本質(zhì)的. 正如在Robinson(1997)中所證明的那樣,這個(gè)條件可以去掉. 我們?cè)诖烁乓財(cái)⑹鲇糜诒菊碌募夹g(shù). 令是相對(duì)于它自身域的鞅差序列,即假定是一雙邊無(wú)窮階滑動(dòng)平均過(guò)程
25、:且是一致可積的,并滿足分式ARIMA過(guò)程滿足這三個(gè)假定. 考慮加權(quán)和,它是鞅差序列的和. 由鞅的性質(zhì),假定這個(gè)方差存在. 下面的定理由Robinson(1997)給出. 類似的結(jié)果還可在Ibragimov和Linnik(1971)中發(fā)現(xiàn). 定理6.2 在上面所述的條件下,倘若,則有. 對(duì)于局部線性估計(jì)(6.10),易見(jiàn)這時(shí)漸近正態(tài)性變?yōu)轵?yàn)證定理6.2中所敘述的條件. 我們略去細(xì)節(jié).6.3 狀態(tài)域平滑6.3.1 非參數(shù)自回歸 狀態(tài)域平滑與非參數(shù)預(yù)報(bào)密切相關(guān). 考慮一個(gè)平穩(wěn)時(shí)間序列. 為了簡(jiǎn)單起見(jiàn),我們考慮僅基于變量的預(yù)報(bào). 基于的的最優(yōu)預(yù)報(bào)是給定時(shí),的條件期望,它在所有的預(yù)報(bào)函數(shù)中極小化MSE
26、.這個(gè)函數(shù)還稱為階為1的自回歸函數(shù). 當(dāng)是零均值平穩(wěn)高斯過(guò)程時(shí),這個(gè)條件均值是線性函數(shù),條件方差是常數(shù). 這就得到一個(gè)AR(1)模型.一般地,函數(shù)不必是線性的,條件方差也不必是常數(shù). 然而,總是能夠以如下方式表示數(shù)據(jù), (6.17)其中. 這里,的條件均值為零,條件方差為1,即. 非參數(shù)平滑技術(shù)還能夠用于包括自回歸函數(shù)的估計(jì)以外的領(lǐng)域. 考慮一個(gè)雙變量序列,它可以被看作是來(lái)自平穩(wěn)過(guò)程的一個(gè)實(shí)現(xiàn). 我們的興趣是估計(jì)回歸函數(shù). 為便于對(duì)問(wèn)題的理解,我們記, (6.18)其中滿足.顯然,這個(gè)結(jié)構(gòu)包括通過(guò)取而把估計(jì)的自回歸函數(shù)作為一個(gè)特定的例子. 下面是三個(gè)有用的例子. 例6.1 考慮平穩(wěn)時(shí)間序列.
27、對(duì)給定的,我們?nèi)? 則目標(biāo)函數(shù)變?yōu)?條件方差可以通過(guò)用來(lái)估計(jì). 特別地,當(dāng)小得如例1.1中所給的利率差分?jǐn)?shù)據(jù),基本上就如同條件方差. 換句話,對(duì)下面圖6.4中所給的數(shù)據(jù),均值回歸函數(shù)是波動(dòng)函數(shù)的平方.這就是由Stanton(1997)以及Fan和Yao(1998)所給出的波動(dòng)估計(jì)的基礎(chǔ). 圖6.4 對(duì)12個(gè)月國(guó)庫(kù)券回報(bào)用局部線性擬合估計(jì)條件方差. (a)具有Epanechnikov核和帶寬索的局部線性擬合的圖示;(b)估計(jì)條件標(biāo)準(zhǔn)差用局部線性擬合(實(shí)曲線), Fan和Yao(1998)的基于殘差的方法(短虛曲線)和具有和的參數(shù)模型(長(zhǎng)虛曲線) 例6.2 再考慮平穩(wěn)時(shí)間序列. 我們?nèi)?,它是區(qū)間上
28、的示性函數(shù),. 則目標(biāo)函數(shù)變?yōu)?特別地,如果,我們就得到條件分布估計(jì). 進(jìn)一步,如果和,則當(dāng)取值小時(shí),基本上就如同給定時(shí)的條件密度. 這個(gè)條件密度函數(shù)對(duì)了解給定時(shí)分布的全貌是非常有用的. 特別地,自回歸函數(shù)是這個(gè)分布的中心,波動(dòng)函數(shù)是這個(gè)分布的擴(kuò)展. 這個(gè)思想形成了Fan、Yao和Tong(1996)估計(jì)條件密度(6.5)和與它們相關(guān)的泛函(10.3),以及Hall,Wolff和Yao(1999)估計(jì)條件分布函數(shù)(10.3),Polonik和Yao(2000)估計(jì)最小量預(yù)報(bào)區(qū)域(10.4)等所用方法的起源. 例6.3 對(duì)給定的時(shí)間序列,多步預(yù)報(bào)能夠通過(guò)令和來(lái)完成,其中是預(yù)報(bào)步長(zhǎng)數(shù). 對(duì)這種情形
29、,我們用非參數(shù)方法,基于變量來(lái)估計(jì)最優(yōu)步預(yù)報(bào),下面的圖6.6畫出了山貓數(shù)據(jù)的一步和兩步預(yù)報(bào). 把這個(gè)方法和例6.1和例6.2中的技術(shù)結(jié)合起來(lái),我們能夠估計(jì)多步預(yù)報(bào)的條件方差和條件密度.6.3.2 局部多項(xiàng)式擬合 局部多項(xiàng)式擬合是一個(gè)用途廣泛的非參數(shù)技術(shù). 它擁有多種好的統(tǒng)計(jì)性質(zhì). 關(guān)于這些內(nèi)容可參閱Fan和Gijbels(1996). 令是定義在(6.18)中的回歸函數(shù)階導(dǎo)數(shù). 局部多項(xiàng)式技術(shù)可非常方便地用來(lái)估計(jì),包括回歸函數(shù)本身. 由于回歸函數(shù)的形式?jīng)]有被指定,因而距離遠(yuǎn)的數(shù)據(jù)點(diǎn)對(duì)提供了很少的信息. 因此,我們只能使用附近的局部數(shù)據(jù)點(diǎn). 假定在點(diǎn)處有階導(dǎo)數(shù). 由泰勒展開(kāi),對(duì)局部鄰域的,我們有
30、 . (6.19)在統(tǒng)計(jì)建模方面,對(duì)周圍的局部點(diǎn),我們建模為 . (6.20)參數(shù)依賴于,故稱之為局部參數(shù). 顯然,局部參數(shù). 用局部數(shù)據(jù)擬合局部模型(6.20)可極小化, (6.21)其中是控制局部鄰域大小的帶寬. 作為一個(gè)說(shuō)明的例子,我們?nèi)?,其中?2個(gè)月國(guó)庫(kù)券回報(bào). 帶寬為,它是由預(yù)漸近代入法(見(jiàn)6.3.5)用C-程序“l(fā)ls.c”計(jì)算得到的. 在點(diǎn)處(百分?jǐn)?shù)),線段用來(lái)擬合在陰影區(qū)域中的局部數(shù)據(jù),在此對(duì)每個(gè)數(shù)據(jù),權(quán)用虛曲線(對(duì)應(yīng)于Epanechnikov核)表示. 在點(diǎn)處局部截距是擬合的線段和垂直線段間的交點(diǎn). 這就構(gòu)成了在點(diǎn)處的回歸函數(shù)的估計(jì). 沿著水平軸滑動(dòng)這個(gè)窗,我們就獲得在區(qū)間
31、3,14上要估計(jì)的曲線. 條件標(biāo)準(zhǔn)差被展示在圖6.4(b)中. 基于殘差來(lái)估計(jì)條件方差的方法由Fan和Yao(1998)提出,其計(jì)算通過(guò)C程序“autovar.c”來(lái)實(shí)現(xiàn)(還可見(jiàn)8.7.2),為比較方便,它用短虛曲線表示. 參數(shù)模型常被用來(lái)對(duì)生產(chǎn)率動(dòng)態(tài)的波動(dòng)進(jìn)行建模,它用長(zhǎng)的虛曲線表示. 正如人們所看到的那樣,在參數(shù)和非參數(shù)方法之間還存在本質(zhì)差異,這對(duì)參數(shù)擬合是否合適提出了疑問(wèn). 選擇帶寬預(yù)漸近代入方法由Fan和Gijbels(1995)提出,見(jiàn)6.3.5. 用,表示最小二乘問(wèn)題(6.21)的解. 的局部多項(xiàng)式估計(jì)是. 這里,我們不用記號(hào)是為了避免由估計(jì)回歸的階導(dǎo)函數(shù)所帶來(lái)的混淆. 事實(shí)上,導(dǎo)
32、數(shù)是用局部斜率來(lái)估計(jì),而不是用估計(jì)的回歸函數(shù)的導(dǎo)數(shù)來(lái)估計(jì). 當(dāng),局部多項(xiàng)式擬合退化為該回歸估計(jì),它還被稱為Nadaraya-Watson估計(jì). 因此,從局部逼近的觀點(diǎn)來(lái)看,核回歸估計(jì)是基于局部常數(shù)逼近的. 見(jiàn)(6.19). 使用矩陣記號(hào)來(lái)表示局部多項(xiàng)式回歸更為方便. 用表示相應(yīng)于(6.21)的設(shè)計(jì)矩陣:,且令.則加權(quán)最小二乘問(wèn)題(6.21)能夠?qū)憺椋?(6.22)其中,是對(duì)角矩陣,它的第個(gè)元素為. 解向量為. (6.23) 為了實(shí)現(xiàn)局部多項(xiàng)式估計(jì),我們需要選擇階,帶寬和核. 當(dāng)然,這些參數(shù)相互關(guān)聯(lián). 當(dāng)時(shí),局部多項(xiàng)式擬合就變成全局多項(xiàng)式擬合,階決定模型的復(fù)雜性. 與參數(shù)模型不同,局部多項(xiàng)式擬合
33、的復(fù)雜性主要是由帶寬來(lái)控制. 因此,通常是較小的,故而選擇的問(wèn)題就變得不重要了. 如果目的是估計(jì),則當(dāng)是奇數(shù),局部多項(xiàng)式擬合自動(dòng)修正邊界偏倚. 進(jìn)一步,當(dāng)是奇數(shù),與階擬合(則是偶數(shù))相比較,階擬合包含了一個(gè)多余參數(shù),但沒(méi)有增加估計(jì)的方差. 不過(guò)這個(gè)多余參數(shù)創(chuàng)造了一個(gè)降低偏倚的機(jī)會(huì),特別是在邊界區(qū)域. 見(jiàn)Fan(1992)、Fan和Gijbels(1992)、Hastie和Loader(1993)、Ruppert和Wand(1994). 因?yàn)檫@些理由,奇數(shù)階擬合(選擇使和是奇數(shù))比偶數(shù)階擬合(選擇使得是偶數(shù))更好. 基于理論和實(shí)際的考慮,在Fan和Gijbels(1996)中推薦階. 如果主要目
34、的是估計(jì)回歸函數(shù),我們使用局部線性擬合,如果目標(biāo)函數(shù)是一階導(dǎo)數(shù),我們就使用局部平方擬合,等等. 另一方面,帶寬的選擇在多項(xiàng)式擬合中起著重要作用. 太大的帶寬引起過(guò)度平滑,產(chǎn)生過(guò)大的建模偏倚,而太小的帶寬會(huì)導(dǎo)致不足平滑,獲得受干擾的估計(jì). 帶寬可由使用者通過(guò)目測(cè)檢查所得到的估計(jì)曲線來(lái)主觀選擇,或由數(shù)據(jù)通過(guò)極小化的估計(jì)理論風(fēng)險(xiǎn)來(lái)自動(dòng)選擇(見(jiàn)6.3.5). 由于估計(jì)基于局部回歸(6.21),我們有理由要求一個(gè)非負(fù)權(quán)函數(shù)K. Fan, Gasser, Gijbels, Brockmann和Engel(1995)已證明,對(duì)所有的選擇和,最優(yōu)權(quán)函數(shù)是,它被稱為Epanechnikov核. 這樣,它是一個(gè)萬(wàn)
35、能的加權(quán)方式,并對(duì)比較其他核提供了一個(gè)有用的基準(zhǔn). 正如在5.5所證明的那樣,對(duì)實(shí)際中使用的和,其他核具有幾乎相同的有效性. 因此,核函數(shù)的選擇并不是至關(guān)重要的. 將局部多項(xiàng)式估計(jì)與其他估計(jì)進(jìn)行比較,包括Nadaraya-Watson估計(jì)、Gasser和Mller估計(jì)和Priestley和Chao估計(jì). 實(shí)際上,由Fan(1993a)可知,局部線性擬合在所有線性估計(jì)中是漸近最小最大的,而在所有可能的估計(jì)中幾乎是最小最大的. 這種最小最大性質(zhì)由Fan,Gasser,Gijbels,Brockmann和Engel(1995)推廣到更一般的局部多項(xiàng)式擬合.6.3.3 局部多項(xiàng)式估計(jì)的性質(zhì) 整個(gè)這一節(jié)
36、中,我們假定是平穩(wěn)序列. 令是有隨機(jī)變量生成的事件的域. 令和是它們相應(yīng)的和混合系數(shù). 用表示單位向量,其位置的元素為1. 令 (6.24)和是矩陣,它位于的元素是. 首先,我們?nèi)菀鬃C明估計(jì)能夠?qū)憺椋?(6.25)其中有效核是核和一個(gè)多項(xiàng)式函數(shù)的乘積,其定義如下. (6.26)以上表達(dá)式顯示除了“核”依賴于設(shè)計(jì)點(diǎn)和位置外,估計(jì)看起來(lái)就像傳統(tǒng)的核估計(jì). 這就解釋了為什么局部多項(xiàng)式擬合能夠自動(dòng)地適應(yīng)各種設(shè)計(jì)框架和邊界估計(jì). 圖6.5給出了局部常數(shù)擬合的有效核函數(shù)和對(duì)Epanechnikov核在點(diǎn)和處的局部線性擬合. 它們滿足如下矩性質(zhì).圖6.5 對(duì)局部常數(shù)擬合和具有核為Epanechnikov核的
37、局部線性擬合在內(nèi)點(diǎn)處(權(quán)由表示)和邊界點(diǎn)(權(quán)由表示)分配給局部數(shù)據(jù)點(diǎn)的有效權(quán). 水平實(shí)線和虛線分別是真實(shí)函數(shù)和估計(jì)的函數(shù)在點(diǎn)和的高度. 它們的差是在這兩個(gè)點(diǎn)處的偏倚. (a)Nadaraya-Watson估計(jì);(b)局部線性擬合. 為清楚起見(jiàn),數(shù)據(jù)()不包含噪聲 命題6.1 有效權(quán)滿足如下有限矩性質(zhì):,其中如果,則,否則為1. 證明 由的定義 .從而得到所要的結(jié)論. 作為命題6.1的結(jié)果,當(dāng)真實(shí)的回歸函數(shù)是階為的多項(xiàng)式時(shí),的局部多項(xiàng)式估計(jì)的無(wú)偏倚的. 為了獲得更多有關(guān)有效核的知識(shí),我們提供它的漸近形式. 我們首先引進(jìn)一些記號(hào). 令是矩陣,它的第元素為,其中. 定義等價(jià)核如下, (6.27)其中
38、是的元素. 命題6.2 在定理5.5的條件下,如果的邊緣密度在點(diǎn)處有連續(xù)的導(dǎo)數(shù),則在對(duì)和一致地有,其中. 對(duì)高階核而言,等價(jià)核滿足如下矩條件:. 證明 注意到基本上和具有誘導(dǎo)核的核密度估計(jì)是相同的. 因此,由定理5.5,對(duì)一致地有, (6.28)把(6.28)代入的每一個(gè)元素就立即得到,或等價(jià)地有,其中,因此,把這個(gè)式子代入的定義,我們得到.這就證明了第一個(gè)結(jié)果. 第二個(gè)結(jié)果用與命題6.1相同的證明可得. 由(6.25)和命題6.2,有. (6.29)因此,使用局部多項(xiàng)式估計(jì)就像使用具有已知設(shè)計(jì)密度的核回歸估計(jì)一樣. 這就解釋了為什么局部多項(xiàng)式擬合適應(yīng)于多種設(shè)計(jì)密度. 反過(guò)來(lái),核回歸估計(jì)在的導(dǎo)
39、數(shù)偏大的區(qū)域有大的偏倚,即它不能適應(yīng)高偏斜設(shè)計(jì). 為了搞清楚這一點(diǎn),想象真實(shí)的回歸函數(shù)在這樣的區(qū)域內(nèi)有大的斜率. 對(duì)給定的,由于設(shè)計(jì)密度的導(dǎo)數(shù)是大的,故而在的一邊比另一邊有更多的點(diǎn). 當(dāng)使用局部平均時(shí),由于局部數(shù)據(jù)呈現(xiàn)對(duì)稱狀態(tài),故Nadaraya-Watson估計(jì)向著有更多局部數(shù)據(jù)點(diǎn)的那一邊產(chǎn)生偏倚. 由于局部數(shù)據(jù)多是非對(duì)稱的,故而這個(gè)問(wèn)題在邊界區(qū)域更顯著,見(jiàn)圖6.5. 另一方面,如果需要,局部多項(xiàng)式擬合造出非對(duì)稱權(quán)以補(bǔ)償這類設(shè)計(jì)偏倚(圖6.5(b). 因此,它適合于各種設(shè)計(jì)密度和邊界區(qū)域. 我們現(xiàn)在給出局部多項(xiàng)式估計(jì)的漸近偏倚和方差表達(dá)式. 對(duì)獨(dú)立數(shù)據(jù),我們通過(guò)在設(shè)計(jì)矩陣上加條件來(lái)獲得偏倚和
40、方差表達(dá)式. 然而,對(duì)諸如在例6.1-6.3中所給出的時(shí)間序列,加在上的條件將意味著幾乎是加在整個(gè)序列上. 因此,我們用漸近正態(tài)性而不是用條件期望來(lái)導(dǎo)出漸近偏倚和方差. 正如在5.3所解釋的那樣,狀態(tài)局部化減弱了局部數(shù)據(jù)的相依結(jié)構(gòu). 因此,人們期望對(duì)獨(dú)立數(shù)據(jù)的結(jié)果對(duì)具有某種混合條件的平穩(wěn)序列依然成立. 混合條件和窗的大小是有關(guān)系的. 這點(diǎn)的嚴(yán)格敘述由在6.6.2中的條件1(iv)給出. 下面屬于Masry和Fan(1997)的定理的證明將在6.6.2中概要地給出. 定理6.3 在6.6.2的條件1下,如果,且在點(diǎn)處是連續(xù)的,則當(dāng)時(shí),其中,是矩陣,它的第元素是是維向量,其第個(gè)元素為. 注意,由等
41、價(jià)核的定義易見(jiàn)和因此,定理6.1的直接推論是導(dǎo)數(shù)估計(jì)是漸近正態(tài)的: (6.30)當(dāng)時(shí),(6.30)給出本身的漸近正態(tài)性. 局部多項(xiàng)式估計(jì)的漸近偏倚和漸近方差被自然地定義為, (6.31). (6.32)對(duì)給定的權(quán)函數(shù),理想的帶寬應(yīng)極小化這就得到漸近最優(yōu)帶寬, (6.33)其中.然而,由于這種理想帶寬依賴于未知函數(shù),故它不是直接可用的. 我們將在6.3.5中提出方法來(lái)估計(jì)它. 正如在上一節(jié)所敘述的那樣,當(dāng)是奇數(shù)時(shí),局部多項(xiàng)式擬合自動(dòng)地適應(yīng)邊界區(qū)域. 為了說(shuō)明這一點(diǎn),我們沿用Gasser和Mller(1979)的公式表示. 假定有有界支撐,記為. 則當(dāng)核有有界支撐時(shí),是右邊界點(diǎn). 我們現(xiàn)在考慮在邊
42、界點(diǎn)處的行為. 為此,令. 在定義和中,我們用分別代替和,這就得到了和. 類似地,在邊界定義等價(jià)核為則我們有下列結(jié)果,它的證明非常類似于定理6.3的證明. 定理6.4 假定6.6.2中條件1成立,且. 如果,和在點(diǎn)0處是右連續(xù)的,則當(dāng),其中. 作為定理6.4的推論,在邊界點(diǎn)處,我們有如下漸近偏倚和方差:和.將它們與(6.31)和(6.32)相比較. 注意,當(dāng)是對(duì)稱的且是偶數(shù)時(shí),可以證明(Ruppert和Wand1994)(6.31)中的系數(shù)是零. 在此,偏倚在內(nèi)點(diǎn)比在邊界點(diǎn)有較小的階. 這就是所謂的邊界效應(yīng). 當(dāng)是奇數(shù)時(shí),偏倚在內(nèi)點(diǎn)和邊界點(diǎn)具有相同的階. 實(shí)際上,它們?cè)邳c(diǎn)處甚至是連續(xù)的,該點(diǎn)是
43、內(nèi)點(diǎn)和邊界點(diǎn)之間的界. 因此,當(dāng)是奇數(shù)時(shí),局部多項(xiàng)式擬合并沒(méi)有產(chǎn)生額外的邊界偏倚. 假定奇數(shù),且是對(duì)稱的. 可以證明,對(duì)階和階的局部多項(xiàng)式擬合有相同的漸近方差(參閱Fan和Gijbels,1996的3.3). 但后者有更多的參數(shù)以減少建模偏倚,特別是在邊界區(qū)域. 這就是我們推薦適用奇數(shù)階擬合的理論背景. 這真是一個(gè)奇妙的世界! 下面引理對(duì)導(dǎo)出局部多項(xiàng)式估計(jì)是非常有用的. 它是Mack和Silverman(1982)的結(jié)果的推廣. 引理6.1 令是平穩(wěn)序列,滿足混合條件,其中和. 進(jìn)一步假定對(duì)某個(gè)和區(qū)間,有且,其中表示的聯(lián)保密度. 此外,我們假定6.6.2中條件1(ii)和(iii)成立. 令為
44、具有界支撐的有界函數(shù),滿足Lipschitz條件. 則倘若,且對(duì)某個(gè)和,我們有. 注意,由于,當(dāng)混合系數(shù)指數(shù)衰減,則引理6.1的最后一個(gè)條件自動(dòng)成立. 一般地,當(dāng)相當(dāng)大時(shí),上述引理中的最后一個(gè)條件成立. 我們現(xiàn)在敘述和證明局部多項(xiàng)式估計(jì)結(jié)果的一致收斂性. 定理6.5 假定引理6.1的條件成立,設(shè)計(jì)密度在上是一致連續(xù)的,且. 則 . 在定理6.5中取第元素,我們有 .特別地,局部多項(xiàng)式估計(jì)有如下的一致收斂性:.6.3.4 標(biāo)準(zhǔn)誤差和估計(jì)偏度 局部多項(xiàng)式估計(jì)的標(biāo)準(zhǔn)誤差對(duì)構(gòu)造置信區(qū)間是有用的. 為了導(dǎo)出它們,我們暫時(shí)假定是來(lái)自某總體的獨(dú)立樣本. 則由(6.23)有.注意,. 由于所有運(yùn)算都是對(duì)局部地
45、進(jìn)行,故而上述條件方差幾乎是常數(shù). 使用這種局部同方差性,我們有.當(dāng)然,這個(gè)近似僅對(duì)那些成立,但是,那些點(diǎn)實(shí)際是用于計(jì)算方差的數(shù)據(jù)點(diǎn). 由此,我們有.條件方差可以用一個(gè)先導(dǎo)帶寬和平方殘差通過(guò)平滑來(lái)估計(jì),其中. 這就得到協(xié)方差矩陣的一個(gè)估計(jì) . (6.34)這是在Fan和Gijbels(1995)中提出的估計(jì)條件方差的預(yù)漸近替代方法. 相反,許多作者使用了漸近替代方法,將估計(jì)代入諸如(6.31)和(6.32)的漸近表達(dá)式中. 這不僅導(dǎo)致了更多的未知函數(shù)需要估計(jì),而且也降低了估計(jì)的準(zhǔn)確性. 回憶定理6.3中關(guān)于的定義. 與上面的討論一樣,我們可以得到對(duì)于獨(dú)立樣本的局部多項(xiàng)式估計(jì)的偏倚是,其中,其第
46、元素由下式給出 . 由Fan和Gijbels(1995)提出的預(yù)漸近替代方法首先是利用階局部多項(xiàng)式擬合和先導(dǎo)帶寬來(lái)估計(jì)和. 這樣就給出了的估計(jì)和估計(jì)的偏倚向量 , (6.35) 對(duì)于相依數(shù)據(jù)而言,上面的討論卻不一定成立. 但是,如5.3所闡述的一樣,局部數(shù)據(jù)的行為非常像局部獨(dú)立數(shù)據(jù). 這樣,(6.34)和(6.35)給出了在混合條件下的漸近偏倚和漸近方差的一個(gè)相合估計(jì). 實(shí)際上,利用(6.28)和核類似的表示,我們很容易地看出上述偏倚和方差的估計(jì)相合的. 的偏倚可以通過(guò)的元素來(lái)估計(jì),我們記它為. 類似地,的對(duì)角元素就是的估計(jì)方差,相應(yīng)地,我們記為. 由定理6.3可知,關(guān)于的水平的點(diǎn)置信區(qū)間大致
47、是, (6.36)其中是標(biāo)準(zhǔn)正態(tài)分布的分位數(shù). 估計(jì)偏倚涉及到高階導(dǎo)數(shù)的估計(jì),而這在普通樣本量下通常估計(jì)得不好. 正因?yàn)檫@個(gè)原因,在置信區(qū)間的構(gòu)造中常常忽略掉偏倚. 有人甚至討論說(shuō),參數(shù)模型的置信區(qū)間忽略了偏倚,卻也逼近得很準(zhǔn)確. 為簡(jiǎn)單起見(jiàn),我們稱下的區(qū)間(6.36)為點(diǎn)置信區(qū)間. 圖6.6描述了估計(jì)回歸函數(shù)和以及它們相應(yīng)的逐點(diǎn)置信區(qū)間.6.3.5 帶寬選擇 如5.3的解釋一樣,對(duì)于特定混合條件下的數(shù)據(jù)平穩(wěn)序列,狀態(tài)域平滑和獨(dú)立數(shù)據(jù)的非參數(shù)回歸表現(xiàn)很相似,因?yàn)榧哟凹记扇趸司植繑?shù)據(jù)間的相依性. 也部分地因?yàn)榇嗽颍瑢?duì)于狀態(tài)域平滑問(wèn)題的帶寬選擇沒(méi)有太多的研究. 然而,期望對(duì)于獨(dú)立數(shù)據(jù)的帶寬選擇
48、方法能繼續(xù)應(yīng)用到特定混合條件下的相依數(shù)據(jù)上來(lái)也是合理的. 下面我們就一些有用的方法做一總結(jié). 當(dāng)數(shù)據(jù)沒(méi)有足夠強(qiáng)的混合性時(shí),減小方差的一般方法就是增加帶寬. 交駐核實(shí)方法在平價(jià)一個(gè)估計(jì)的好壞以及估計(jì)預(yù)測(cè)誤差時(shí)是非常有用的一個(gè)方法. 它的基本思想就是留下一個(gè)數(shù)據(jù)點(diǎn)作為模型的核實(shí)數(shù)據(jù),而用其他所有的數(shù)據(jù)點(diǎn)來(lái)建立模型. 具體定義如下, , (6.37)其中是在及帶寬下的局部多項(xiàng)式估計(jì)(6.25),但是估計(jì)的時(shí)沒(méi)有用到第個(gè)觀察值. (6.37)中的加法項(xiàng)是用為訓(xùn)練數(shù)據(jù)集時(shí),第個(gè)數(shù)據(jù)點(diǎn)的平方預(yù)測(cè)誤差. 這種交叉核實(shí)方法的想法來(lái)自Allen(1974)和Stone(1974),但是計(jì)算卻很麻煩. 為了便于計(jì)
49、算,一個(gè)改進(jìn)的方法由Wahba(1977)以及Craven和Wahba(1979)提出,稱為廣義交叉核實(shí)方法(generalized cross-validation(GCV). 這個(gè)準(zhǔn)則具體描述如下. 由(6.25)可知,數(shù)據(jù)擬合值可以表示為, 圖6.6 山貓數(shù)據(jù)的局部線性擬合. (a)一步預(yù)測(cè);(b)兩步預(yù)測(cè). 虛線表示逐點(diǎn)的置信水平為95%的置信區(qū)間其中為帽子矩陣,依賴于協(xié)變量,帶寬和. 被稱為平滑矩陣. 這樣,GCV方法選擇帶寬使得下式最小 , (6.38)其中為殘差平方和的均值. 交叉核實(shí)方法的一個(gè)缺點(diǎn)就是它本身固有的多變性(參閱Hall和johnstone, 1992). 此外,它
50、也不能直接應(yīng)用到估計(jì)導(dǎo)數(shù)曲線的帶寬選擇上. 嵌入方法就避免了這些問(wèn)題. 它的基本思想就是尋找?guī)捠沟霉烙?jì)積分均方誤差(Mean integrated square error (MISE)達(dá)到最小. 對(duì)于預(yù)漸近替代方法,對(duì)給定的權(quán)重函數(shù),MISE則定義為 , (6.39)其中和由(6.36)給出. 這個(gè)方法是由Fan和Gijbels(1995)提出的,它依賴于先導(dǎo)帶寬. 先導(dǎo)帶寬可以通過(guò)他們提出的殘差平方準(zhǔn)則(Residual squares criterion (RSC)來(lái)選擇(參閱Fan和Gijbels(1995). 在本書中,所有的自動(dòng)帶寬選擇都可以應(yīng)用這種方法得到,而且可以通過(guò)本書提供
51、的C程序“l(fā)ls.c”來(lái)實(shí)現(xiàn). 這里包括了譜密度估計(jì)(7.3)和條件方差估計(jì)(8.7)的帶寬選擇方式. 殘差平方準(zhǔn)則是一種自動(dòng)選取帶寬的方法. 假設(shè)我們想利用階局部多項(xiàng)式擬合方法在某一區(qū)間上來(lái)估計(jì),其中為奇數(shù). 定義,其中是矩陣的第一個(gè)對(duì)角元素. 由(6.34)可知,是估計(jì)的方差縮減量,因此,相當(dāng)于局部數(shù)據(jù)點(diǎn)的有效個(gè)數(shù). 當(dāng)很小時(shí),會(huì)變大,當(dāng)較大時(shí),如果局部擬合的偏倚較大,則也會(huì)很大. 因此,RSC折中了兩種矛盾的需要. 記為RSC在區(qū)間上的積分表示. 在實(shí)際中,積分可用區(qū)間網(wǎng)格點(diǎn)求和來(lái)代替. 記最小化所得的為. 這個(gè)帶寬在實(shí)踐中起到了一定的作用. 為了得到最優(yōu)帶寬,還需要一些修正. 記,.這
52、個(gè)修正的常數(shù)依賴于核,略微比1小. 殘差平方準(zhǔn)則選擇的帶寬為.更多的細(xì)節(jié)可以參閱Fan和Gijbels(1995). 由Ruppert,Wand和Sheather(1995)提出的嵌入方法是一種漸近替代方法. 它首先估計(jì)出導(dǎo)數(shù),方差和設(shè)計(jì)密度,然后將其代入到漸近偏倚和漸近方差表達(dá)式中,最后選擇帶寬使得被估計(jì)的MISE最小. 先導(dǎo)帶寬就是利用這種方法導(dǎo)出的. 由Ruppert(1997)提出的經(jīng)驗(yàn)偏倚方法依賴于對(duì)偏倚的不同估計(jì). 首先在的一列網(wǎng)格點(diǎn)處計(jì)算出,通過(guò)它經(jīng)驗(yàn)地估計(jì)出一列偏倚,并將其看成的函數(shù). 記為一正整數(shù),并且記為鄰域內(nèi)一列值,分別計(jì)算,. 然后對(duì)某個(gè)整數(shù),通過(guò)普通的最小二乘方法使用模型 (6.40)去擬合合成數(shù)據(jù). 表達(dá)式(6.40)是的漸近“期望值”,因此,使用這個(gè)模型也顯得比較自然. 然后為估計(jì)我們可得到偏倚估計(jì)是 . (6.41) 關(guān)于帶寬選擇的更多的細(xì)節(jié)可以在上面引用的文章中找到. 它們也可以在Fan和Gijbels(1996)的第四章和Fan和Gijbels(2000)中找到.6.4 樣條方法 樣條方法對(duì)于非參數(shù)建模是非常有用的一種方法. 它建立在全局逼
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司下游合同范例
- 農(nóng)村養(yǎng)豬場(chǎng)彩鋼棚合同范例
- 農(nóng)莊住宿餐飲合同范例
- 做磚合同范例
- 個(gè)人分股合同范例
- 關(guān)于經(jīng)營(yíng)餐飲合同范例
- 全款買車正規(guī)合同范例
- 五金采購(gòu)合同范例
- 出國(guó)派遣勞務(wù)合同范本
- 保溫采購(gòu)合同范例
- 自驅(qū)型成長(zhǎng):如何培養(yǎng)孩子的自律力
- 談心談話記錄100條范文(6篇)
- 物聯(lián)網(wǎng)設(shè)備管理平臺(tái)項(xiàng)目實(shí)施服務(wù)方案
- 機(jī)械加工廠安全生產(chǎn)和環(huán)境保護(hù)應(yīng)急預(yù)案
- (完整word版)A3試卷模板
- 2023年福建省中考英語(yǔ)聽(tīng)力試題(試題卷+音頻+錄音原文)
- 公司的JMP軟件培訓(xùn)教程
- 筑基功法精選
- 歐洲電力市場(chǎng)深度報(bào)告:歐洲電力市場(chǎng)供需格局和電價(jià)分析
- 橋梁實(shí)心墩(高墩) 翻模工程專項(xiàng)施工方案
- 寧夏水利建筑工程預(yù)算定額
評(píng)論
0/150
提交評(píng)論