用 R 也能做精算-actuar 包學(xué)習(xí)筆記_第1頁
用 R 也能做精算-actuar 包學(xué)習(xí)筆記_第2頁
用 R 也能做精算-actuar 包學(xué)習(xí)筆記_第3頁
用 R 也能做精算-actuar 包學(xué)習(xí)筆記_第4頁
用 R 也能做精算-actuar 包學(xué)習(xí)筆記_第5頁
已閱讀5頁,還剩81頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

用R也能做精算—actuar包學(xué)習(xí)筆李Email:引 數(shù)據(jù)描 構(gòu)造分組數(shù)據(jù)對 分組數(shù)據(jù)分布 計(jì)算數(shù)據(jù)經(jīng)驗(yàn) 損失分 損失分布種 損失分布的估 損失隨機(jī)變量的修 風(fēng)險理 復(fù)合分 連續(xù)分布的離散 復(fù)合分布的計(jì) VaR和 保單組合的模 復(fù)合層次模型的模 模擬結(jié)果的處 信度理 信度理論簡 層次信度模 信度回歸模 Chapter引本文是對R中精算學(xué)專用包actuar使用的一個簡單教程。actuar項(xiàng)目開始于2005年,在2006年2月首次提供公開下載,其目的就是將一些常用的精算功能引入R最新的版本是1.1-,且該包仍在不斷完善中。actuar是一個集成化的精算函數(shù)系統(tǒng),雖然其他R包中的很多函數(shù)可以供精算師使用,但是為了達(dá)到某個目的而尋找某個包的某個函數(shù)是一個費(fèi)時費(fèi)力的過程,因此,actuar將精算建模中常用的函數(shù)匯集到一個包中,方便了人們的使用。目前,該包提供的函數(shù)主要涉及風(fēng)險理論,損失分布和信度理論,特別是為非壽險研究提供了很多方便的工具。如題所示,本文是我在學(xué)習(xí)actuar包過程中的學(xué)習(xí)筆記,主要涉及這個包中一些函數(shù)的使用方法和細(xì)節(jié),對一些方法的結(jié)論也有稍許探討,因此能簡略的地方簡略,而討論的地方可能講的會比較詳細(xì)。文章主要是針對R語言的初學(xué)者,因此每種函數(shù)或數(shù)據(jù)的結(jié)構(gòu)進(jìn)行了盡可能式開始咯!Chapter數(shù)據(jù)描構(gòu)造分組數(shù)據(jù)對損失數(shù)據(jù)的類型主要分為分組數(shù)據(jù)和非分組數(shù)據(jù)。對于非分組數(shù)據(jù)的描述方法大家會比較熟悉,無論是數(shù)量上,還是圖形上的,比如均值、方差、直方圖、柱形圖還有核密度估計(jì)等。因此下文的某些部分只介紹如何處理分組數(shù)據(jù)。分組數(shù)據(jù)是精算研究中經(jīng)常見到的數(shù)據(jù)類型,雖然原始的損失數(shù)據(jù)比分組數(shù)據(jù)包含有更多的信息,但是某些情況下受條件所限,只能獲得某個損失所在的范圍。與此同時,將數(shù)據(jù)分組也是處理原始數(shù)據(jù)的基本方法,通過將數(shù)據(jù)分到不同的組中,我們可以看到各組中數(shù)據(jù)的相對頻數(shù),有助于對數(shù)據(jù)形成直觀的印象(比如我們對連續(xù)變量繪制直方圖);而且在生存函數(shù)的估計(jì)中,數(shù)據(jù)量經(jīng)常成千上萬,一種處理方法是選定合適的時間或損失額度間隔,對數(shù)據(jù)進(jìn)行分組,然后再使用分組數(shù)據(jù)進(jìn)行生存函數(shù)的估計(jì),這樣可以有效減小計(jì)算量?,F(xiàn)在假設(shè)我們要把一組連續(xù)變量分為r組:(c0,c1],(c1,c2],...,(cr?1,cr],那么就需要定義r+1個邊界c0,c1,...,cr。實(shí)際中的損失數(shù)據(jù)或生存數(shù)據(jù)都是取非負(fù)值,因此c0經(jīng)常取。對于分組數(shù)據(jù)來說,只需要知道每個組的數(shù)值范圍及落在該組的觀測頻數(shù),因此要構(gòu)造一個完整的分組數(shù)據(jù)只需要提供上面兩個信息即可。下面是分組數(shù)據(jù)的構(gòu)造函數(shù),注意這個函數(shù)是構(gòu)造一個分組數(shù)據(jù)的結(jié)構(gòu),而非對現(xiàn)有連續(xù)數(shù)據(jù)進(jìn)行分組,該函數(shù)返回一個分組數(shù)據(jù)的對象(groupeddataobject)。函數(shù)語法使用說明Group定義的是分組的邊界值,freq1和freq2(還可以定義freq3及更多)是每條分組數(shù)據(jù)的頻數(shù)。Group,freq1和freq2可以隨意命名,比如我們可以將Group改為“分?jǐn)?shù)檔,將freq1freq2“一班“一班Group向量要比freq向量多出一個長度(邊界數(shù)比組數(shù)多1)返回的是一個數(shù)據(jù)框。特別要注意對第一列的處理,見下面例子例子options(digits=x=grouped.data(Group=c(0,25,50,100,150,250,500),Line.1= 31,57,42,65,84),Line.2=c(26,33,31,19,16,x 23456改成左閉右開區(qū)間,并自定義行名稱x1=grouped.data(Group=c(0,25,50,100,150,250,500),Line.1= 31,57,42,65,84),Line.2=c(26,33,31,19,16, right=F,s= BCDEF為避免修改原始數(shù)據(jù)x,以下我們將x賦值到x2,對x2進(jìn)行操作x2=提取某個組的數(shù)據(jù)(某行)x2[1,GroupLine.11(0, 提取第一條分組數(shù)據(jù)(某列)x2[,[1]3031574265提取各組的邊界值。如果引用第一列你期待會出現(xiàn)什么結(jié)果呢x2[, 02550100150250如同任何對數(shù)據(jù)框的操作,也可以對數(shù)據(jù)框中的數(shù)據(jù)進(jìn)行修改。特別需要注意的是對第一列的修改,一定要同時指定分組區(qū)間的左右的邊界值。比如下面這條命令將第一組的右邊界由25改為2,同時第二組的左邊界也同時變?yōu)?:(x2[1,1]=c(0,[1]0體會這樣修改波及的范圍(x2[c(3,4),1]=c(55,110,[1]55110如果只指定一個邊界的話,那就默認(rèn)左右邊界值相同,所以不要這樣做。下面這條命令將會導(dǎo)致第一組的左右邊界都變?yōu)?0。(x2[1,1]=[1]數(shù)據(jù)落在每組中的頻數(shù)呢?答案就是使用cut函數(shù)。例子生成100個服從均值為5的指數(shù)分布的隨機(jī)數(shù)z=rexp(100,rate=指定邊界點(diǎn),也是劃分點(diǎn)break.points=c(0,1,4,8,14,(tz=table(cut(z,breaks= (8,14] 用匯總結(jié)果直接構(gòu)造分組數(shù)據(jù)對象grouped.data(Group=break.points,freq=Group1 2 3 4(8, 5(14, 分組數(shù)據(jù)分布grouped.data對象,我們就可以對該對象進(jìn)行一系列操作。首先是繪制分組數(shù)據(jù)的經(jīng)繪制直方圖。由于數(shù)據(jù)已經(jīng)被劃分好組別,因此R會應(yīng)用分組數(shù)據(jù)對象x的第一列劃分組距并繪制直方圖,這在繪制非等距直方圖時是十分方便的。由于每次只能繪制一組頻率,因此繪圖時需要指定頻率所在的列,如果不指定,默認(rèn)繪制第一組頻率)。例子layout(matrix(1:3,1,hist(x[,-3],main="Histogramofhist(x[,-2],main="Histogramofhist(x,main="HistogramforUnspecified0.0010.0020.0030.0010.0020.003 0.0010.0020.003

Histogramof

HistogramforUnspecified

x[, x[, 繪制拱形圖。如同對連續(xù)的隨機(jī)變量可以繪制經(jīng)驗(yàn)分布函數(shù)圖一樣,對于分組數(shù)據(jù)也可以繪制“拱形圖”(ogie,也就是令分組臨界點(diǎn)的函數(shù)值等于累計(jì)頻率,對臨界點(diǎn)間的函數(shù)值使用線性插值的方法構(gòu)造的一條曲線。累計(jì)頻率曲線的公式如下:

(cj?x)Fn(cj?1)+(x?cj?1)Fn(cj x x≤

cj?1<x≤

x>函數(shù)ogie(x)輸入的是分組數(shù)據(jù)對象x,返回的是一個階梯函數(shù)對象(StepunctionClass,也就是說實(shí)現(xiàn)了分組數(shù)據(jù)對象向階梯函數(shù)對象的轉(zhuǎn)換。如果給定函數(shù)的橫坐標(biāo),就可以返回相對應(yīng)的函數(shù)值,這點(diǎn)和ecdf是相同的。我們可以通過ots返回階梯函數(shù)對象的臨界間斷點(diǎn),通過plot繪制階梯函數(shù)。例子得到一個階梯函數(shù)Fnt=返回臨界點(diǎn) 02550100150250返回臨界點(diǎn)對應(yīng)的累積頻率值[1]0.000000.097090.197410.381880.517800.72816對函數(shù)作圖,得到ogive曲線 x計(jì)算數(shù)據(jù)經(jīng)驗(yàn)首先是計(jì)算經(jīng)驗(yàn)1一階矩。函數(shù)mean是一個泛型函數(shù)(genericfunction)2,除可以作用于通常的非分組數(shù)據(jù)向量對象(ector)以外,還可以作用于分組數(shù)據(jù)對象(grouped.data),計(jì)算分組數(shù)據(jù)的均值。非分組數(shù)據(jù)的經(jīng)驗(yàn)均值就是將所有數(shù)據(jù)算術(shù)平均,分組數(shù)據(jù)的經(jīng)驗(yàn)均值定義為:rnj21∑n(cj?1+cj rnj2該公式使用每組觀測數(shù)乘以兩端邊界點(diǎn)的均值,得到該組的總值,將所有r個組的總值相加再除以樣本量n,就得到每個觀測均值的估計(jì)。該公式假設(shè)每組內(nèi)的觀測值分布是均勻的。以上文中的分組數(shù)據(jù)對象x為例x 231文中經(jīng)常會提到“經(jīng)驗(yàn)*,比如經(jīng)驗(yàn)分布函數(shù),經(jīng)驗(yàn)一階矩等,個人理解所謂經(jīng)驗(yàn)就是將樣本當(dāng)成總體去對待,比如經(jīng)驗(yàn)方差是除以樣本量,而樣本方差是除以n-,或者說在bootstrap方法中,使用經(jīng)驗(yàn)分布函數(shù)去代替總體。2又譯作類函數(shù),泛型函數(shù)將作用對象的屬性也作為一個參數(shù)輸入,對于不同的對象類別采用不同的方法,并得到同的輸出。actuar包中使得mean函數(shù)可以作用于aggregateDist和grouped.data對象,在加載actuar包后,可以通過命令methods(mean)查看mean函數(shù)的所有方法。456Line.1 如果直接用公式(2.2)計(jì)算,Line.1的均值等價于((0+25)/2*30+(25+50)/2*31+(50+100)/2*57+(100 150)/2*42++(150+250)/2*65+(250+500)/2* [1]如果說均值函數(shù)mean()只能計(jì)算一階矩,那么emm函數(shù)則可以計(jì)算任意階的經(jīng)驗(yàn)原點(diǎn)矩。首先引入actuar包中的兩個數(shù)據(jù)集。其中dental是非分組數(shù)據(jù),gdental是分組數(shù)據(jù)。[1] 403512593171511107 ( ( 89103emm函數(shù)可以計(jì)算任意階經(jīng)驗(yàn)原點(diǎn)矩,其使用方法是這樣的其中,order是階數(shù),可以賦值給它一個向量,這樣就能一次性計(jì)算多個原點(diǎn)矩。x可以是數(shù)據(jù)向量或者是矩陣,對于矩陣,emm將每一列視為一條數(shù)據(jù)。非分組數(shù)據(jù)k階經(jīng)驗(yàn)矩的計(jì)算公式為n1∑n

非分組數(shù)據(jù)向量形式

emm(dental,[1]數(shù)據(jù)矩陣形式xx=matrix(1:9,3,147258369下面代碼的輸出結(jié)果:第一行是xx第一列的均值和二階矩,第二行是xx第二列的均值和emm(xx,258如果是分組數(shù)據(jù),x也可以是由grouped.data()生成的分組數(shù)據(jù)對象。分組數(shù)據(jù)k階經(jīng)驗(yàn)∑ ∑例子emm(gdental,

n

?cj?1j(k+1)·(cj?

[1]3.533e+023.577e+05有時候,損失數(shù)據(jù)會有保單限額u的存在(有關(guān)保單限額的介紹參見2.3節(jié)),超過u的損失額度被強(qiáng)制定義為u。elev函數(shù)可以計(jì)算經(jīng)驗(yàn)有限期望值(empiricallimitedexpectedvalue),其中x可以是非分組數(shù)據(jù),也可以是分組數(shù)據(jù)。nnj?[X∧u]=f(u)=1∑min(x, nnj對于分組數(shù)據(jù),還要考慮u是否是位于分組的邊界值上,因此經(jīng)驗(yàn)有限期望公式比較復(fù)雜,我們注意到,有限期望值是上限值u的函數(shù),不同的u計(jì)算出的經(jīng)驗(yàn)有限期望值是不一樣的。elev直接返回一個函數(shù)對象,如果要具體計(jì)算某一個u的經(jīng)驗(yàn)有限期望值,只需要特別指定u即可。例子非分組數(shù)據(jù),返回的lev是上限u的函數(shù)lev=這里將保單限額u設(shè)為200[1]返回lev函數(shù)的拐點(diǎn),注意到拐點(diǎn)都發(fā)生在數(shù)據(jù)點(diǎn),而觀察下圖可知拐點(diǎn)間的函數(shù)都是線 46107141259317351567分組數(shù)據(jù)lev2=[1]分別對非分組數(shù)據(jù)和分組數(shù)據(jù)的有限期望函數(shù)作圖par(mfrow=c(1,plot(lev,type="o",pch=plot(lev2,type="o",pch=200elev(x= elev(x=200Empirical100Empirical100Empirical Chapter損失分損失分布種根據(jù)損失額的特征,損失分布常選用具有非負(fù)支集(密度函數(shù)f(x)的支集指的是使得f(x)?=0的x的集合)的連續(xù)分布。R中對于一些分布提供了d,p,q,r四種函數(shù),分別密度函數(shù)、分布函數(shù)、分布函數(shù)的反函數(shù)(分位數(shù))和生成該分布的隨機(jī)數(shù)。actuar包提供了[5]的附錄A中所列示的連續(xù)分布族相配套的這四種函數(shù)(除去逆高斯和對數(shù)t分布,但包括對數(shù)Gamma分布),這些分布中R的基礎(chǔ)包stats中并不自帶,但有些分布在精算研究中卻很重要(比如常用的后尾分布pareto分布)。此外,actuar包還對這些連續(xù)分布提供了m、lev和mgf三種函數(shù),m是計(jì)算理論原點(diǎn)矩,lev是計(jì)算有限期望值,mgf是計(jì)算矩母函數(shù)。密度函數(shù)、分布函數(shù)、原點(diǎn)矩、有限期望值及其k次方都可以通過查詢該附錄得到。對于經(jīng)驗(yàn)數(shù)據(jù),如上面所介紹的,actuar包中提供了emm和elev來計(jì)算經(jīng)驗(yàn)原點(diǎn)矩和經(jīng)驗(yàn)有限期望值(這兩個函數(shù)的前綴都是empirical)。需要注意的是,這些分布有的需要指定rate參數(shù)或scale參數(shù),scale=1/rate,因此兩者在本質(zhì)上是等價的,[5]中使用的是scale參數(shù),在指定參數(shù)時千萬不要弄混。例子這里以雙參數(shù)pareto分布為例par(mfrow=c(1,繪制密度函數(shù)曲線curve(dpareto(x,shape=2,scale=2),from=0.001,to= main="density繪制分布函數(shù)曲線curve(ppareto(x,shape=2,scale=2),from=0.001,to= main="cumulativedistributiondensity cumulativedistributiondpareto(x,shape=2,scale=ppareto(x,shape=2,scale= dpareto(x,shape=2,scale=ppareto(x,shape=2,scale= pareto分布中位數(shù)qpareto(0.5,shape=2,scale=[1]生成5個pareto分布隨機(jī)數(shù)rpareto(5,shape=2,scale=[1]7.910250.098170.188240.48281求E(X1.5),注意pareto分布是厚尾分布,其k階矩要求?1<k<α,α是shape參mpareto(order=1.5,shape=2,scale=[1]求E[(X5)1.5],注意同樣要求?1<k<αlevpareto(limit=5,shape=2,scale=2,order=[1]指數(shù)分布矩母函數(shù),均值=1/2。矩母函數(shù)形式為MX(tμ/(μt),μ為rate參數(shù)curve(mgfexp(x,rate=2),-1,mgfexp(x,rate=0.81.0mgfexp(x,rate=0.81.01.21.41.61.8x損失分布的估矩估計(jì)和極大似然估計(jì)是分布參數(shù)估計(jì)的基本方法。在R中,MASS包中的?tdistr函數(shù)可以進(jìn)行極大似然估計(jì)。在actuar包中,mde函數(shù)則提供了三種距離最小化的分布擬合方法(miniumdistanceestimates)。Cram′er-vonMises方法(CvM)最小化理論分布函數(shù)和經(jīng)驗(yàn)分布函數(shù)(對于分組數(shù)據(jù)是ogive)的距離。未分組數(shù)據(jù)分組數(shù)據(jù)

∑d(θ) wj(F(xj;θ)? ∑∑r∑d(θ) wj(F(cj;θ)?n(cj))2 在這里,F(xiàn)(xθ)是理論分布函數(shù),θ是其參數(shù);Fn(x)是經(jīng)驗(yàn)分布函數(shù)ecdf;F?n(x)是分組數(shù)據(jù)的經(jīng)驗(yàn)分布函數(shù)ogive;wj是賦予每個觀測或組別的權(quán)重,默認(rèn)都取1。修正卡方法僅應(yīng)用于分組數(shù)據(jù),通過最小化各組期望頻數(shù)與實(shí)際觀測頻數(shù)的平方誤差得到。其中n

∑d(θ) j(cj;θ)?F(cj?1;θ))?j ∑jnjwj默認(rèn)情況下為n?1jLAS法(layeraverageseverity)也僅應(yīng)用于分組數(shù)據(jù)。通過最小化各組內(nèi)的理論和經(jīng)驗(yàn)∑r∑d(θ) wj(LAS(cj?1,cj;θ)?L?Sn(cj?1, L?Sn(x,?n[X?n[Xj理論分布的有限期望函數(shù),而?n是經(jīng)驗(yàn)分布的有限期望函數(shù)。wj默認(rèn)情況下為n?1j該函數(shù)調(diào)用stats包中的optim函數(shù)做最優(yōu)化函數(shù)語法mde(x,fun,start,measure=c("CvM","chi-使用說明x是分組數(shù)據(jù)對象的或未分組的數(shù)據(jù)fun是待擬合的分布,CvM法和修正卡方法需要指定分布函數(shù):p**。LAS法需要指定理論有限期望函數(shù)lev**。start指定參數(shù)初始值。形式必須以列表的形式,形式可以見例子,有幾個參數(shù)就要指定measure是指定方法。weight指定權(quán)重,否則采用默認(rèn)權(quán)重…是其他參數(shù),可以指定optim函數(shù)中的參數(shù),比如使用L-BFGS-B方法進(jìn)行優(yōu)化可以添加參數(shù)oBFGS-B。mde輸出(list),rate是參數(shù)估計(jì)結(jié)果,distance是最小化后的距離。我們可以對上面的gdental數(shù)據(jù)進(jìn)行分布擬合,這是一個分組數(shù)據(jù),在為參數(shù)估計(jì)賦初始值時,假設(shè)數(shù)據(jù)來自均值為200的指數(shù)分布例子首先觀察一下數(shù)據(jù)的分布CvM法(mde.est1=mde(gdental,pexp,start=list(rate=1/200),measure=mu1=修正卡方法(mde.est2=mde(gdental,pexp,start=list(rate=1/200),measure="chi-mu2=LAS法(mde.est3=mde(gdental,levexp,start=list(rate= measure=mu3=做圖,可以看出CvM法和修正卡方法估計(jì)結(jié)果相似,而LAS法損失分布尾部擬合效果較*exp(1)^(-*===+col*exp(1)^(-*===+col*exp(1)^(-*===+collegend(2700,0.0025,legend=c("CvM","chi-square", col=c("red","blue","green"),lty=Histogram 我們還可以對非分組數(shù)據(jù)進(jìn)行分布擬合,下面的一個例子是一個混合分布例子10,θ=2)。dat=c(rgamma(200,shape=2,scale=2),rgamma(200,shape= scale=混合分布密度dfn=function(x,a,alpha1,alpha2,theta) a*dgamma(x,shape=alpha1,scale=theta)+(1-a) dgamma(x,shape=alpha2,scale=+混合分布函數(shù)pfn=function(x,a,alpha1,alpha2,theta) a*pgamma(x,shape=alpha1,scale=theta)+(1-a) pgamma(x,shape=alpha2,scale=+使用mde估計(jì)混合分布的參數(shù),對于非分組數(shù)據(jù)只能使用CvM法mde.est4=mde(dat,pfn,start=list(a=0.4,alpha1=1,alpha2= theta=2.5),measure=(para=aalpha1alpha2 0.50532.055210.5406plot(density(dat),ylim=c(0,0.1),main="fittedcurve(dfn(x,a=para[1],alpha1=para[2],alpha2= theta=para[4]),from=-8,to=40,col="red",add=legend(20,0.08,legend=c("kerneldensity","CvM"),col= "red"),lty= kernelkerneldensity N=400Bandwidth=在此,我們感興趣的是將最小距離法與極大似然法的參數(shù)估計(jì)效果進(jìn)行以下對比。因此不妨做一個實(shí)驗(yàn):簡單起見,先從單參數(shù)擬合問題開始,這是一個一維優(yōu)化問題。首先生成50組來自于rate=1的指數(shù)分布隨機(jī)數(shù),每組的個數(shù)都為10。然后,對于每一組隨機(jī)數(shù),分別用基于距離的估計(jì)方法和極大似然估計(jì)進(jìn)行參數(shù)估計(jì),將50次模擬結(jié)果的均值和標(biāo)準(zhǔn)差記錄下來。之后,隨機(jī)數(shù)的個數(shù)由10增加到20,30…200。不斷增大樣本量,并重復(fù)之前的過程。最終得到的結(jié)Minimum Maximum———————————————————————————————————————————————————————————————————— —— —————————— ——parameterparameter0.81.01.2 可以看出,在單參數(shù)估計(jì)中,尤其是在樣本量較大時,兩種方法估計(jì)的結(jié)果相差不大,而且極大似然估計(jì)的方差要最小距離法的估計(jì)方差略小,因此極大似然估計(jì)的穩(wěn)健性要優(yōu)于最小距離估計(jì)。那么,兩種方法對于異常值的穩(wěn)健性如何呢?在上面生成的所有組隨機(jī)數(shù)中,先剔除兩個指數(shù)分布隨機(jī)數(shù),再混入兩個來自[20,300]均勻分布的隨機(jī)數(shù),再重新對參數(shù)進(jìn)行估計(jì),結(jié)果很明顯,最小距離法估計(jì)的結(jié)果很穩(wěn)定,而極大似然法估計(jì)的參數(shù)結(jié)果受異常值的影響很大!因此,如果損失數(shù)據(jù)存在有少量極端損失,使用最小距離法往往更加穩(wěn)健。———————— —————————— —————————————— ————————————parameterparameter0.40.60.8對于兩參數(shù)的估計(jì),由于某些分布要求參數(shù)恒為正,使mde函數(shù)經(jīng)常會報(bào)錯,通常的解θ=exp(τ 當(dāng)算法在迭代時,讓τ在(?∞∞)范圍內(nèi)變動,同時θ恒為正。當(dāng)估計(jì)出τ的值后,再例子pgammalog=function(x,logshape,logscale) pgamma(x,exp(logshape),+aa=rgamma(200,shape=3,scale=estlog=mde(aa,pgammalog,start=list(logshape=1.3,logscale= measure="CvM",method="L-BFGS-B",lower=c(0.5,- upper=c(1,5,logshapelogscale 損失隨機(jī)變量的修我們知道,由于某些保險條款規(guī)則的存在,保險實(shí)際賠付額往往和實(shí)際損失數(shù)額是不相等的。假定我們定義實(shí)際損失數(shù)額為隨機(jī)變量X,實(shí)際賠付額為Y,那么Y=f(X)。具體說來,f包括以下幾種情況:免賠額(deductible額(ordinarydeductible)和絕對免賠額(franhisedeductible)。一般免賠額的數(shù)學(xué)形式絕對免賠額的數(shù)學(xué)形式

Y=(X?

= X≤X?dX>

Y= X≤ X>

最大保障損失(maximumcoveredloss):是保險人對于單個損失支付的最大賠付額。無數(shù)學(xué)形式Y(jié)=X∧u= X≤ X>

其中隨機(jī)變量Xu稱為有限損失隨機(jī)變量,其期望E(Xu)稱為有限期望值(也就是前面介紹的lev)。前面提到過保單限額的概念,在那里也用符號u表示。保單限額(policylimit)與最大保障損失的區(qū)別在于:當(dāng)存在免賠額時,保單限額=最大保障損失-免賠額。因此當(dāng)不通貨膨脹和共同保險(coinsurance:通貨膨脹是指未來的賠付額等于當(dāng)前損失額乘以一個通脹因子,Y=(1+r)X;而共同保險是指對每一次損失,保險公司只賠付一定的比例Y=αX(0<α<1)是對原始損失變量乘以一個常量得到賠付額,在沒有免賠額和賠償限額的情況下,兩者數(shù)學(xué)形式上是相同的。當(dāng)存在賠額和賠償限額時,通貨膨脹的數(shù)學(xué)形式為:Y而共同保險的數(shù)學(xué)形式為

(1+r)X?dd<(1+r)X≤ (1+r)X≤ (1+r)X≤ X≤

Y α(X?d)d<X≤ u<

可以看出,通貨膨脹首先對隨機(jī)變量X進(jìn)行通脹修正,再進(jìn)行免賠額和賠償限額的修正;共同保險首先對隨機(jī)變量X進(jìn)行免賠額和賠償限額的修正,再進(jìn)行共保修正,兩者的順序是不嚴(yán)格的說,Y是可以進(jìn)一步區(qū)分為costperlossYL)和costperpymetYP)。兩者的區(qū)別在于,YL是指每次損失帶來保險公司的賠付額,而YP是指每次賠付帶來保險公司的賠付額。如果沒有免賠額,那么兩者自然是等價的,但是由于免賠額的存在,每次損失保險公司不一定要賠償,YL可以等于,而每次賠付保險公司必然有正的賠付額,YP嚴(yán)格大于。因此當(dāng)損失額X大于免賠額,YP=YL,否則YL=0而YP沒有定義。以一般免賠額為例:YL=(X?

= X≤X?dX>

PY無定義XPX? X>

為什么會有YL和YP在,當(dāng)損失額小于免賠額d時,被保險人可能根本不會去保險公司報(bào)案,因此小于d的損失數(shù)據(jù)要么不完全,要么干脆無法獲得,因此精算師索性將這部分損失數(shù)據(jù)忽略,只考慮導(dǎo)致正的賠付額的損失。如果只考慮正的賠付額那么YP就是一個條件隨機(jī)變量,也就是以X>d為條件,也就是:YP=L> 這樣YP的分布就是一個條件分布,而且YP的取值恒大于0當(dāng)精算師需要根據(jù)賠付數(shù)據(jù)Y對損失額X進(jìn)行建模時,就需要建立兩者之間的聯(lián)系。什么樣的聯(lián)系呢?就是根據(jù)兩個隨機(jī)變量間的變換關(guān)系得到兩個隨機(jī)變量間分布密度和分布函數(shù)間的關(guān)系。大體的建模過程可以表述為:假定X的原始分布形式,然后根據(jù)變換關(guān)系得到Y(jié)的修正分布形式。在這個過程中,原將實(shí)際賠付數(shù)據(jù)帶入修正分布中,使用極大似然或其他估計(jì)方法估計(jì)得到修正分布的參數(shù)。根據(jù)原始分布和修正分布的關(guān)系得到原始分布的參數(shù)actuar包中,coverage這個函數(shù)可以完成將原始分布變換為修正分布的工作。coverage輸出的函數(shù)語法coverage(pdf,cdf,deductible=0,franchise=FALSE,limit=Inf,coinsurance=1,inflation=0,per.loss=FALSE)使用說明如果pdf和cdf同時指定,那么輸出是修正后的pdf,如果只指定cdf,那么輸出的是修正后的cdf。特別注意的是如果存在deductible或limit,那么cdf必須指定。deductible設(shè)置免賠額d,franchise控制是絕對免賠額還是一般免賠額,默認(rèn)為FALSE,limit設(shè)置最大保障損失u,默認(rèn)為無上限coinsurance是共保因子α,取值為0-1之間的數(shù)in?ation是通脹率r,取值為0-1之間的數(shù)per.loss控制是采用YP還是YL,默認(rèn)采用YPcoverage返回的是一個函數(shù)對象,如果存在重概率點(diǎn)(probabilitymass),那么這個函數(shù)對象在不同的點(diǎn)返回的值的意義是不同的。由于此時分布密度函數(shù)pdf并不是完全連續(xù),在probabilitymass點(diǎn),其“分布密度”的取值其實(shí)是一個概率值,而其他點(diǎn)的取值則是密度值,在繪制對應(yīng)的分布密度圖像時,應(yīng)該對probability進(jìn)行強(qiáng)調(diào)。例子假設(shè)原始損失服從形狀參數(shù)shape=3,尺度參數(shù)scale=1的Gamma分布。首先計(jì)算修正后的密度函數(shù),然后分別作出YP和YL的分布密度函數(shù)和分布函數(shù)。在作圖時,有以下兩點(diǎn)需要注意:1.修正后的密度函數(shù)是連續(xù)分布與離散分布的混合,因此重概率點(diǎn)用加粗的點(diǎn)標(biāo)出2.在出現(xiàn)重概率點(diǎn)時,對應(yīng)的分布函數(shù)存在跳躍par(mfrow=c(2,YP的免賠額=1,限額=7。首先繪制原始分布的密度曲線,然后繪制YP的密度曲線f=coverage(pdf=dgamma,cdf=pgamma,deductible=1,limit=curve(dgamma(x,3,1),xlim=c(0,10),ylim=c(0,0.3),ylab= main="pdfofpercurve(f(x,3,1),xlim=c(0.01,5.99),col=4,add=points(6,f(6,3,1),pch=21,bg=YL的免賠額=1,限額=7。首先繪制原始分布的密度曲線,然后繪制YL的密度曲線f1=coverage(pdf=dgamma,cdf=pgamma,deductible=1,limit= per.loss=curve(dgamma(x,3,1),xlim=c(0,10),ylim=c(0,0.3),ylab= main="pdfofpercurve(f1(x,3,1),xlim=c(0.01,5.99),col=4,add=points(6,f1(6,3,1),pch=21,bg=points(0,f1(0,3,1),pch=21,bg=下面是YP、YL和原始分布的分布函數(shù)曲線F=coverage(cdf=pgamma,deductible=1,limit=curve(pgamma(x,3,1),xlim=c(0,10),ylim=c(0,1),ylab= main="cdfofpercurve(F(x,3,1),xlim=c(0,5.99),col=4,add=curve(F(x,3,1),xlim=c(6,10),col=4,add=F1=coverage(cdf=pgamma,deductible=1,limit=7,per.loss=curve(pgamma(x,3,1),xlim=c(0,10),ylim=c(0,1),ylab= main="cdfofpercurve(F1(x,3,1),xlim=c(0,5.99),col=4,add=curve(F1(x,3,1),xlim=c(6,10),col=4,add=0.150.200.250.150.150.200.250.150.200.25 cdfofper cdfofper02 802 8xxChapter風(fēng)險理復(fù)合分本部分主要介紹風(fēng)險理論中的聚合風(fēng)險模型。在機(jī)動車保險中,對于一輛或一批機(jī)動車,其每年發(fā)生的事故次數(shù)N服從一個離散分布,每次事故的損失金額X服從一個連續(xù)分布。那么,這一年總的損失額S可以表示為:S=X1+X2+...+ 可以看出S是一個隨機(jī)和,我們把事故次數(shù)N的分布稱作索賠頻率分布(frequencydistribution),每次損失額X的分布稱作索賠強(qiáng)度分布(severitydistribution),S的分布稱為復(fù)合分布(compounddistribution)。上一小節(jié)講如何估計(jì)分布的參數(shù),假設(shè)我們已經(jīng)將頻率分布和強(qiáng)度分布的參數(shù)估計(jì)出來了,那么現(xiàn)在的問題就是如何得到總損失額S的分布,事實(shí)上,就保險公司的整體運(yùn)營來講,精算師可能更關(guān)心這個分布。對于S的分布,我們有: XFS(x)=P(S≤x)=∑P(S≤x|N=n)pn=∑ X X其中,pn=P(N=n)是頻率分布,F(xiàn)X(x)是強(qiáng)度分布,F(xiàn)?n(x)是強(qiáng)度分布的n重卷XX≥ n=XF?n(xF?n(x) n=XX

F?(n?1)(x?y)fX(y)n=2,3,..連續(xù)分布的離散為什么要對連續(xù)分布進(jìn)行離散化?通常我們假設(shè)索賠強(qiáng)度分布是連續(xù)分布,如果要得到總損失S的分布,根據(jù)式(4.2),需要求得X的n充卷積,這就需要進(jìn)行多重積分,如果被積函數(shù)的形式比較復(fù)雜,那么這將變成一個十分艱難的工作。因此實(shí)際操作中通常對連續(xù)的索賠強(qiáng)度分布進(jìn)行離散化處理,采用數(shù)值迭代方法計(jì)算總損失額的分布,這樣就能在保證足夠精度的前提下顯著提高計(jì)算速度。從某種程度上來將,對索賠強(qiáng)度的離散化更加接近實(shí)際,因?yàn)閾p失額度通常是貨幣單位的整數(shù)倍所謂離散化就是將連續(xù)分布的支集區(qū)域劃分為若干小區(qū)域,然后以這個區(qū)域中的某一個點(diǎn)代替原來連續(xù)分布在這片小區(qū)域的取值概率。這個“代表點(diǎn)”可以是區(qū)域的左右端點(diǎn),也可以是區(qū)域中點(diǎn)。此外,我們通常只對分布的“主體”進(jìn)行離散化。什么叫做分布的“主體?以正態(tài)分布為例,其分布的支集為(,),顯然不可能對其全部取值范圍進(jìn)行離散化,由于正態(tài)分布在兩側(cè)的取值概率很小,可以忽略不計(jì),我們于是可以以均值為中心,以若干倍標(biāo)準(zhǔn)差為半徑劃定一個區(qū)域,在這個區(qū)域上進(jìn)行離散化,這個區(qū)域上的分布函數(shù)就是該分布的“主體,區(qū)域的大小則依賴于研究的精確程度。定義F(x)為連續(xù)分布函數(shù),fx為離散化后的概率函數(shù)。目前,actuar包中的discretize函數(shù)支持四種離散化方法。上端離散化,或者說對F(x)向前微分fx=F(x+h)?F 對于xa,ah,bh,離散化后的cdf總是在原cdf之上下端離散化,或者說對F(x)向后微分xf=F x=xF(x)?F(x?h)x=a+h,...,

離散化后的cdf總是在原cdf之下中點(diǎn)離散化xf=F(a+ x=xF(x+h/2)?F(x?h/2)x=a+h,...,b?

cdf正好從中間穿過離散化后的cdf無偏離散化,或者說是局部一階矩匹配hE(X∧a)?E(X∧a+h)+1?F x=hfx=

a<x<

h ?1+F x=h離散后的分布和原分布在區(qū)間[a,b]內(nèi)有相同的取值概率和期望值discretize函數(shù)返回的是一串fx概率值,如果要對其進(jìn)行做圖需要進(jìn)行特殊處理函數(shù)語法discretize(cdf,from,to,step=1,method=c("upper","lower","rounding","unbiased"),lev,by=step,xlim=NULL)使用說明cdf必須是一個含x的表達(dá)式fromto分別指定ab,也就是分布主體的范圍,step指定步長hlev只在method=ubiased”時才指定byxlim與前面參數(shù)等價,詳見幫助文檔例子假設(shè)要對分布Gamma(11)進(jìn)行離散化。fu,?,fr和fb分別對應(yīng)上端離散化,下端離散=="upper",from=to=+step==="lower",from=to=+step==="rounding",from+to=5,step=fb=discretize(pgamma(x,1),method="unbiased",lev= 1),from=0,to=5,step=作出離散化后的函數(shù)圖像。函數(shù)stepfun返回一個階梯函數(shù),di?nv是差分的逆,具體使curve(pgamma(x,1),xlim=c(0,x=seq(0,5,plot(stepfun(head(x,-1),diffinv(fu)),pch=19,,col= add=plot(stepfun(x,diffinv(fl)),pch=19,,col="red",add=plot(stepfun(head(x,-1),diffinv(fr)),pch=19,,col= add=plot(stepfun(x,diffinv(fb)),pch=19,,col="yellow",add=legend(3,0.4,legend=c("Upper","Lower","Midpoint", col=c("blue","red","green","yellow"),pch=19,lty=pgamma(x,x復(fù)合分布的計(jì)不需要對索賠強(qiáng)度的分布進(jìn)行離散化而只是利用其前k階矩的信息。函數(shù)aggregateDist提供Panjer遞推法。索賠頻率分布僅支持(a,b,0)分布族和(a,b,1)分布族1,索賠強(qiáng)度分布卷積法。使用(4.2(4.3)進(jìn)行計(jì)算,頻率分布可以是任何離散分布,強(qiáng)度分布需要輸入離散化后的分布。這種方法只能解決小型問題。正態(tài)近似法。給定頻率分布和強(qiáng)度分布就可以利用公μS=E(S)=E(N)? Sσ2=Var(S)=E(N)Var(X)+Var(N S計(jì)算復(fù)合分布的均值和方差,再利F(x)≈Φ(x?μS 計(jì)算復(fù)合分布的分布函數(shù)。這種方法僅利用了前二階矩的信息,對于大樣本近似效果較好γS2SF(x)=Φ(?3+√9+1+6x?μSγS2S其中γS是偏度系數(shù)。正態(tài)冪近似法的原理是對標(biāo)準(zhǔn)化后的隨機(jī)變量S泰勒展開為標(biāo)準(zhǔn)正態(tài)隨機(jī)變量及其2次冪的線性組合,也就是令Sg(Y),Y服從標(biāo)準(zhǔn)正態(tài)分布。這種近似法在xμS時可以進(jìn)行,在γS1時效果較好。因此可以對分布的右尾進(jìn)行近似。隨機(jī)模擬法。通過生成N和X的隨機(jī)數(shù)并計(jì)算得到S,再用S的經(jīng)驗(yàn)分布近似FS(x)。這種方法通過調(diào)用simul函數(shù)(后面會詳細(xì)講)對頻率分布和強(qiáng)度分布進(jìn)行模擬,適用于復(fù)雜系aggregateDist的參數(shù)依據(jù)所選方法的不同而不同。從下面函數(shù)的語法可以看出,該函數(shù)是先定方法,再選參數(shù),因此在使用說明中,只介紹和此種方法有關(guān)的參數(shù)。函數(shù)語法aggregateDist(method=c("recursive","convolution","normal","npower","simulation"),model.freq=NULL,model.sev=NULL,p0=NULL,x.scale=1,moments,nb.simul,...,tol=1e-06,maxit=500,echo=FALSE)使用說明遞推法中:method=“recursie,model.freq必須是”binomial”,”geometric”,”negative四個分布規(guī)定的一致。model.sev是一個向量,向量的每個元素依次是X0,1,2...個貨幣單位的概率,注意這個向量的第一個元素必須是X取0的概率,如果X不能取到某個值(比如2),那么向量的對應(yīng)位置(這里是第三個元素)一定要寫成0,通常model.sev可以直接調(diào)用函數(shù)discretize的結(jié)果。P0是頻數(shù)分布在N=0時的概率,也就是(a,b,0)分布族零調(diào)整的概率。x.scale指定X的貨幣單位,比如1元,100元等。1(a,b,0)分布族和(a,b,1)分布族是一類滿足遞推關(guān)系分布的總稱,包括泊松,二項(xiàng),幾何和負(fù)二項(xiàng)分布及其在點(diǎn)概率調(diào)整后的分布,對該分布族的具體說明可以參閱[5]卷積法中:method=”convolution”,model.freq是一個向量,向量的每個元素依次是N0,1,2...的概率,第一個元素必須是N0的概率。model.sev的使用方法與遞推法相同。x.scale指定X的貨幣單位,比如1元,100元等。S正態(tài)近似法和正態(tài)冪近似法:method=”normal”或”npower”,moments是一個向量,分別是S的均值、方差和偏度系數(shù),moments=c(μS,σ2,γS),其中正態(tài)近似只需指定前兩個元素即可。注意這種近似法需要滿足xμS且γS1,否則會發(fā)生報(bào)錯。S模擬法中:method=”simulation”,具體使用方法可以參考后文中對simul函數(shù)的介紹nb.simul是模擬的次數(shù)函數(shù)返回的是一個aggregateDist對象,可以對其進(jìn)行五數(shù)總括(summary),輸出結(jié)果(print),求均值(mean),求分位數(shù)(quantile),做圖(plot),求節(jié)點(diǎn)(konts)等操作。例子首先是卷積法,假設(shè):強(qiáng)度分布,貨幣單位數(shù)X從0到10,頻率分布,N從0到8,貨幣單位數(shù)設(shè)為25。通過作圖觀察S的最大值是不是102582000?par(mfrow=c(2,fx1=c(0,0.15,0.2,0.25,0.125,0.075,0.05,0.05,0.05, pn1=c(0.05,0.1,0.15,0.2,0.25,0.15,0.06,0.03,Fs1=aggregateDist("convolution",model.freq=pn1,model.sev= x.scale=遞推法,首先對Gamma分布進(jìn)行離散化得到強(qiáng)度分布,頻數(shù)分布選用poisson分布,特別指定poisson分布參數(shù)lambda=10。fx2=discretize(pgamma(x,2,1),from=0,to=22,step= method="unbiased",lev=levgamma(x,2,Fs2=aggregateDist("recursive",model.freq="poisson",model.sev= lambda=10,x.scale=正態(tài)近似和正態(tài)冪近似,注意正態(tài)冪近似的有效范圍Fs3=aggregateDist("normal",moments=c(200,Fs4=aggregateDist("npower",moments=c(200,200,模擬法model.freq=expression(data=model.sev=expression(data=rgamma(100,Fs5=aggregateDist("simulation",nb.simul=1000, AggregateClaimAmountEmpiricalMin.1stQu.Median Mean3rdQu. AggregateClaimAmount

AggregateClaimAmount AggregateClaimAmount

AggregateClaimAmount xxAggregateClaimAmountApproximation xVaR計(jì)算出復(fù)合分布(也就是總索賠額的分布)后,我們可以求得該分布的VaR和VaR(value-at-VaRp=inf{x:P(S>x)≤ TVaRp=ES> 函數(shù)VaR和TVaR用來計(jì)算這兩個指標(biāo),TVaR也可寫作CTE(ConditionalTailExpec-函數(shù)語法VaR(x,conf.level=c(0.9,0.95,0.99),names=TRUE,TVaR(x,conf.level=c(0.9,0.95,0.99),names=TRUE,使用說明x目前僅支持aggregateDist對象,依據(jù)計(jì)算復(fù)合分布時采用的不同方法,計(jì)算VaRTVaR的方法也有所區(qū)別,具體請參閱幫助文檔conf.level指定置信水平,默認(rèn)值是0.9,0.95和0.99names控制輸出是否包含名稱,默認(rèn)是TURE例子VaR(Fs5,names=[1]56685901然后計(jì)算其98%的TVaRTVaR(Fs5,conf.level=Chapter保單組合的模復(fù)合層次模型的模在信度理論的研究中,方法的比較通常需要數(shù)據(jù)去支持,數(shù)據(jù)一般有兩個來源:實(shí)際數(shù)據(jù)和模擬數(shù)據(jù)。實(shí)際數(shù)據(jù)如果拿得到當(dāng)然好,但當(dāng)實(shí)際數(shù)據(jù)不足夠或者無法獲得時,常常需要對損失數(shù)據(jù)進(jìn)行模擬。根據(jù)(4.1可知,如果要得到某個保單組合在一段時期內(nèi)的總賠付額,需要同時模擬索賠頻率分布和索賠強(qiáng)度分布?;氐缴衔哪M復(fù)合分布的例子,如果認(rèn)為某保單組合2010年賠付的次數(shù)服從均值為100的oisson分布,每次賠付的賠付額服從參數(shù)為(10,2)的Gamma分布。在一次模擬中,可以首先生成一個oisson隨機(jī)數(shù)N0,然后再生成N0個Gamma分布隨機(jī)數(shù),加總起來,就得到一個總賠付額的模擬值。如此模擬1000次,就可以得到總賠付額的經(jīng)驗(yàn)分布。上面的簡單例子說明,如果要模擬一個保單組合的總賠付額,我們首先要模擬索賠頻率分布,然后根據(jù)模擬出的索賠頻率,再對每一次索賠模擬出索賠額,也就是索賠強(qiáng)度。但是有時候,無論是索賠頻率還是索賠強(qiáng)度都會受到客觀環(huán)境(外生變量)的影響,比如不同的風(fēng)險類別(class,同一類別中的不同保單(cotract,以及同一保單不同的事故年度(ear,這些外生變量通過決定分布的參數(shù)進(jìn)而影響分布。因此索賠頻率和索賠強(qiáng)度的模擬可以通過復(fù)合層次模型(compoundhierarhicalmodel)來完成。例如,考慮如下三層復(fù)合層次模型Sijt=Xijt1+···+ 其中i1Ij1Jit1nij,同時jtjΦi~j~Gamma(Φi, Φi~jujΨi~Lognormal(Θij,j~N(Ψi, Ψi~N(2,隨機(jī)變量Φi,Λij,Ψi和Θij在精算文獻(xiàn)中通常被稱作風(fēng)險參數(shù);wijt是先驗(yàn)的權(quán)重。用以損失頻率Nijt的分布為例,Φi是第一層分布,在Φi確定后,通過參數(shù)的傳遞,可以確定第二層分布ji當(dāng)Φi和j都確定后,就可以得到第三層分布也就是Nijt的分布。在這里需要對權(quán)重wijt(exposurebase)小,風(fēng)險基礎(chǔ)是非壽險精算的一個基本概念,其大小通常用風(fēng)險單位數(shù)來衡量。舉例來說:考慮承保一輛汽車,保單期限為一年,那么年初投保的話這輛汽車在整個一年內(nèi)都將面臨著發(fā)生事故的風(fēng)險,因此風(fēng)險單位數(shù)為1車年,如果是在年中投保,那么截止至年末的評估日,風(fēng)險單位數(shù)只有0.5車年;考慮每份保單承保一個車隊(duì),年初投保,保單期限也為一年,那么車隊(duì)100于100車年。在模型(5.2中,索賠頻率分布服從oisson分布,其參數(shù)的形式是wijtΛij,wijt反映了在特定的風(fēng)險類別下(i,j)各年(t)風(fēng)險單位數(shù)的大小,Λij是不同風(fēng)險類別(i,j)所導(dǎo)致的對基本風(fēng)險單位的調(diào)整因子。風(fēng)險單位數(shù)越大,調(diào)整因子越大,那么對應(yīng)的oisson分布的均值參數(shù)也越大。通常IJt都是已經(jīng)確定好的數(shù)值,比如I2J14J23n11=n144,n21n22n235I,J,t分別與前面的風(fēng)險類別、保單和事故年度相對應(yīng),那么上面的賦值就可以解讀為(參見下面的樹形示意圖):我們要模擬一個保單組合,這個組合中包含2個風(fēng)險類別,類別1中有4份保單,類別2中有3份保單,類別1的每份保單保障時間都4年2中的每份保單的保障年度都5年,因此我們總共需模擬4×4+3×5=31次索賠頻率()要模擬該次索賠的索賠強(qiáng)度。索賠頻率和強(qiáng)度的模擬可以分別使用模型(5.2(5.3)標(biāo)紅字的部分屬于對損失數(shù)據(jù)實(shí)際模擬的過程,并不包含在層次模型的結(jié)構(gòu)范疇內(nèi),畫出來只是為了幫助讀者對整個流程有一個總體的把握。如果僅看示意圖的上半部分,也就是模型部分,每個分叉處我們稱之為節(jié)點(diǎn)(nodes),也就是對應(yīng)的I,J,t,所謂層次模型就是通過對參數(shù)的層層遞歸,從高層逐步將隨機(jī)生成的參數(shù)傳遞到低層,來反映風(fēng)險類別、保單和事故年度的影響。simpf(simulationportfolio,也可以寫simul,兩個函數(shù)等價)可以對復(fù)合層次模型模擬。關(guān)于復(fù)合層次模型及其模擬的更詳細(xì)的介紹,請參閱文獻(xiàn)[4]。函數(shù)語法simul(nodes,model.freq=NULL,model.sev=NULL,weights=或simpf(nodes,model.freq=NULL,model.sev=NULL,weights=使用說明nodes是一個list對象,組成該list對象的每一個元素是一個數(shù)值向量,每個數(shù)值向量指定在該層次下的節(jié)點(diǎn)數(shù),需要按由高層到低層的順序指定,比如I,J,t的順序。model.freq和model.sev指定每一層的頻數(shù)和頻率的隨機(jī)分布。隨機(jī)分布的指定采用用R中的表達(dá)式(expression)形式,且要與R中生成隨機(jī)數(shù)的語法保持一致(比如rgamma),weights指定權(quán)重,按照I,J,t的順序依次指定例子如果你覺得上面說的還是不太明白,那就看一下這個例子。還是考慮上面的復(fù)合層次模型,首先指定各節(jié)點(diǎn)處I,J,t的取值。nodes=list(class=2,contract=c(4,3),year=c(4,4, 4,5,5,接著指定權(quán)重:類別1(I1的第一份保單(J1的各年權(quán)重(n114是一個長度為4的向量,緊接著是類別1(I1的第二份保單(J2的各年權(quán)重(n124),也是一個長度為4的向量,依此類推,每張保單每一年有一個權(quán)重,因此共需要31個。簡便起見,權(quán)重采用生隨機(jī)數(shù)的方法進(jìn)行賦值,服從0.52.5之間的均勻分布wijt=runif(31,0.5,索賠頻率分布的模型。其中class對應(yīng)Φi,contract對應(yīng)ji對應(yīng)jtjΦi。我們可以對參數(shù)進(jìn)行更為靈活的指定,比如對參數(shù)進(jìn)行數(shù)學(xué)變換contract=,或者跨層調(diào)用year=rpois(weights*contract*class)mf=expression(class=rexp(2),contract=rgamma(class, year=rpois(weights*索賠強(qiáng)度分布的模型ms=expression(class=rnorm(2,sqrt(0.1)),contract= 1),year=rlnorm(contract,對構(gòu)建好的復(fù)合層次模型進(jìn)行實(shí)際模擬pf=simpf(nodes=nodes,model.freq=mf,model.sev=ms,weights=PortfolioofclaimFrequencymodel contract~rgamma(class, ~rpois(weights*Severity ~rnorm(2,contract~rnorm(class,1) ~rlnorm(contract,1)Numberofclaimsper110011120230131101144341211210422151352300220函數(shù)simpf將模擬好的結(jié)果對象存儲在pf中,默認(rèn)輸出索賠頻率和索賠強(qiáng)度的模型,以及1的第二份保單,其第二年發(fā)生的案件數(shù)為2。模擬結(jié)果的處函數(shù)語法aggregate(x,by=names(x$nodes),FUN=sum,classification=TRUE,prefix=NULL,...)frequency(x,by=names(x$nodes),classification=TRUE,prefix=NULL,...)severity(x,by=head(names(x$node),-1),splitcol=NULL,classification=TRUE,prefix=NULL,...)weights(object,classification=TRUE,prefix=NULL,使用說明x是一個portfolio對象,通常是simul的返回值by是匯總依據(jù),是層次模型不同層次的名稱,如class,contractyear等,可以一次指FUN是匯總方式,默認(rèn)是求和(sum),可以改成計(jì)數(shù)(length),求平均(mean),中位數(shù)(median),最大值(max),最小值(min)等。classi?cation控制是否輸出分類指標(biāo),默認(rèn)是輸出(TRUE)pre?x為被匯總列添加前綴splitcol提取某一年的賠付次數(shù),具體使用方法見例子例子默認(rèn)情況下,函數(shù)aggregate返回某保單在某一年的總索賠數(shù)額,也就是Sijt。的原理類似于Excel中的數(shù)據(jù)透視表11121314212223按保單類別和保單年度分別進(jìn)行匯總,返回某類別保單在某一年的平均索賠額度。比如,第一個類別總共有四張保單,其中第三張保單在第一年發(fā)生一次索賠,總的賠付額為5.25,第四張保單在第一年發(fā)生四次索賠,總的賠付額為9.90。因此第一類別第一年度平均賠付=(9.908+5.251)/(1+4)=3.032aggregate(pf,by=c("class","year"),FUN=classyear.1year.2year.3year.4year.5 6.9977.376 2301.317123.50488.28946.307函數(shù)frequency返回某份保單在某一年的發(fā)生的索賠案件數(shù)量,也就是simpf默認(rèn)輸出的第二部分。該函數(shù)是aggregate的一個封裝,當(dāng)aggregate中的FUN=length時,兩者是等價的。同樣,我們可以通過by參數(shù)進(jìn)行分門別類的匯總。frequency(pf,prefix=110011120230131101144341211210422151352300220frequency(pf,by=12最后,函數(shù)seeriy(pf)返回每次賠付的索賠數(shù)額,也就是式(5.1中的Xijtu。由于某個類別的某張保單,在保障時期內(nèi)可能有多次索賠,因此索賠的數(shù)量可能會多于保障時期數(shù)。而由于返回?cái)?shù)據(jù)的組織形式是一個矩陣,矩陣的每一行代表一張保單,矩陣的每一列代表這張保單所發(fā)生的一次索賠。因此矩陣的列數(shù)等于∑∑ 次數(shù)小于最大次數(shù)時,空缺的數(shù)據(jù)用NA表示。11121314212223可以看出,函數(shù)將每次賠付依次列出,但卻丟失了索賠發(fā)生時間的信息??梢酝ㄟ^設(shè)置參數(shù)splitcol來,結(jié)果保存在split處,剩余結(jié)果保存在main里。從輸出的結(jié)果可以看出,在第一個保單年度,第一類別的第四張保單有四次賠付,而第二類別的第三張保單沒有任何賠付。severity(pf,splitcol=1112131421222311121314212223把前兩個事故年度發(fā)生的賠案提取出來,在$split處,剩余結(jié)果保存$main里severity(pf,splitcol=c(1,classcontract 1 2 claim.8 11121314212223函數(shù)weights返回每份保單在每個年度的權(quán)重,通過和wijt進(jìn)行對比可以更好的理解權(quán)賦值的順序11121314212223aggregate(pf,classification=FALSE,)/weights(pf,classification=Chapter信度理信度理論簡在保險實(shí)踐中,通常需要對風(fēng)險類別進(jìn)行劃分,并按照風(fēng)險的高低收取不同的費(fèi)率,比如我國的交強(qiáng)險就將車輛類別和使用性質(zhì)作為費(fèi)率因子。風(fēng)險分類的過程潛在假設(shè)了同一類別內(nèi)的風(fēng)險是同質(zhì)的,但是沒有任何費(fèi)率厘定系統(tǒng)是完美的,即便兩個風(fēng)險屬于同一個類別,它們在風(fēng)險水平上也會具有異質(zhì)性,這種異質(zhì)性來源于我們沒有考慮到的風(fēng)險因素,還以交強(qiáng)險為例,兩輛商用性質(zhì)的貨車可能因?yàn)樗緳C(jī)年齡或行駛區(qū)域的不同具有相異的風(fēng)險水平??紤]在某一個風(fēng)險類別中,如果一個新投保的保單沒有任何先驗(yàn)的損失經(jīng)驗(yàn),那么只能對其收取手冊費(fèi)率M,手冊費(fèi)率反映了該風(fēng)險類別內(nèi)全部保單組合的平均賠付水平;如果該保單有若干年的損失經(jīng)驗(yàn),那么根據(jù)該損失經(jīng)驗(yàn)是否高于或低于手冊費(fèi)率M可以適當(dāng)增加或降低費(fèi)率,以實(shí)現(xiàn)對所有投保人的公平。但是,過去的損失經(jīng)驗(yàn)具有隨機(jī)性,較大的損失經(jīng)驗(yàn)可能是由于隨機(jī)波動造成的,自然而然地,我們就想到了令費(fèi)率等于過去損失經(jīng)驗(yàn)與手冊費(fèi)率的的某種加權(quán)。所謂信度理論就是一系列數(shù)量方法,使得保險人可以根據(jù)保單以往的損失經(jīng)驗(yàn),對其數(shù)學(xué)上,可以表示為:π=Z·ˉ+(1?Z)· 其中π是信度保費(fèi),Z是信度因子,ˉ是過去損失經(jīng)驗(yàn)的平均,M是手冊費(fèi)率。信度因子Z反映了過去損失數(shù)據(jù)的可信程度,一方面我們要考慮數(shù)據(jù)量的大小,另一方面要考慮損失假設(shè)對于某份保單,我們已經(jīng)具有前n期的損失數(shù)據(jù)X1,X2,...,Xn,那么π就是要預(yù)測的第n+1ˉ作為前nn+1期保費(fèi)的無偏估計(jì),而信度理論告訴我們最優(yōu)的估計(jì)是對樣本均值和手冊費(fèi)率的一個加權(quán),是第n+1年保費(fèi)的一個有偏估計(jì)。當(dāng)然,信度保費(fèi)是一個線性估計(jì)量,是前n期損失數(shù)據(jù)的線性組合;而所謂的“最優(yōu)”是在最小化平方誤差的準(zhǔn)則之下的,通過犧牲一定的偏差,顯著地降低估計(jì)的方差,進(jìn)而得到較低的平方誤差。信度通??梢苑譃橛邢薏▌有哦群妥罹_信度。有限波動信度建立在傳統(tǒng)的統(tǒng)計(jì)學(xué)的框內(nèi),類似于抽樣理論中在一定的相對誤差和置信水平下確定樣本量的思想,通過對

正態(tài)√似,得到“完全可信”條件下所需要的樣本量,也就是經(jīng)驗(yàn)損失ˉ完全可以作為下一期保費(fèi)。當(dāng)數(shù)據(jù)不滿足完全可信條件時,通過平方根準(zhǔn)則Z= nn0確定信度因子。最精確信度包括¨hlmann和¨hlmann–Straub模型,通過構(gòu)造過去經(jīng)驗(yàn)損失X1,X2,...,Xn的線性組合,在最小化平方誤差的準(zhǔn)則下得到第n+1期保費(fèi)的線性估計(jì)在估計(jì)模型的參數(shù)時需要有多張√保單多期的數(shù)據(jù),更為重要的是需要假設(shè)損失數(shù)據(jù)來自于同一個風(fēng)險類別。關(guān)于這兩種信度的詳細(xì)論述可以參閱[5]和[2,為了更好的理解下面的內(nèi)容,筆者強(qiáng)烈建議閱讀一下這兩本書。層次信度模層次信度模型(HierarhicalCredibiliyModel)是由Jeell在1975年提出的。在上一小節(jié)中,我們提到在計(jì)算信度保費(fèi)時需要假設(shè)保單來自同一個風(fēng)險類別,而層次信度模型可以利用來自于不同風(fēng)險類別的并行數(shù)據(jù),只要這些損失數(shù)據(jù)具有某種層次結(jié)構(gòu),4.1小節(jié)就是講述如何模擬這種損失數(shù)據(jù)的。事實(shí)上,保險公司可以用整個業(yè)務(wù)類別(比如火險)的損失數(shù)據(jù),只要這種業(yè)務(wù)的保單具按不同層次進(jìn)行劃分。層次信度模型可以將保費(fèi)在來自于具有層次結(jié)構(gòu)的保單組合的不同保單中進(jìn)行分配,也就得到每張保單的信度保費(fèi)。此外,擬合層次信度模型時需要測量每個節(jié)點(diǎn)保單的同質(zhì)性,因此該模型也用于評價費(fèi)率因子制定的好壞??紤]一個兩層的信度模型:在一個保單組合中,損失數(shù)據(jù)按照不同的類別(class)進(jìn)行劃分,每個類別包含不同的合同(contract)Xijt為每風(fēng)險單位的損失(該年度總損失Sijt/wijt),i1I表示類別j1Jii個類別的不同合同t1nij表示不同年度的觀測。每個觀測都對應(yīng)一個權(quán)重wijt,表示對應(yīng)的風(fēng)險單位數(shù)。在4.1節(jié),我們介紹了如何模擬具有這種層次結(jié)構(gòu)的數(shù)據(jù),不過在那一小節(jié),我們稱之為三層(各年t的索賠頻率和強(qiáng)度作為一層)。我們分別用隨機(jī)變量Φi和Θij代表不同類別和合同的風(fēng)險水平,模型有如下隨機(jī)變量Φ1ΦI獨(dú)立同分布i隨機(jī)變量Θi1ΘiJ條件獨(dú)立,給定Φii隨機(jī)變量Xij1,..., 條件獨(dú)立,給定Φi和Θij對于所有t,u=1EjtjΦi]=μ(Θij,Cov(Xijt,Xiju)

σ2(Θij,Φiσ2(Θij,Φi),t=μ=EEjii 合同內(nèi)方差的期望合同間方差(類別內(nèi)方差

v=EEσ2jii a=E[Vrjii 類別間方差

b=VrEjii 可以看出,B¨hlmannB¨hlmannStraub模型是層次信度模型的特例(層數(shù)為1)。我們的目標(biāo)就是根據(jù)歷史的損失經(jīng)驗(yàn),估計(jì)每份合同的風(fēng)險保費(fèi)μ(Θij,Φi),然而首先需要估計(jì)μ(Φi)=Ejii。在最小化均方誤差的準(zhǔn)則下,對應(yīng)的最優(yōu)線性估計(jì)量為?ij =zijXijw+(1?zij)?i ?i =ziXizw+(1?i

其中的信度因子為

wijΣ+

∑ ∑

∑ ∑iziΣ+ iziΣ+數(shù)據(jù)的加權(quán)平均為

∑ wijt∑t=1

∑ ij∑

下面分別介紹μ,va,b的估計(jì)方法。首先是聚合保費(fèi)μ的估計(jì)量為

?=

∑ ∑ΣzΣ

∑ ∑

? ?1∑I∑∑I∑

∑∑∑ ? ii=1j=1

有三種估計(jì)ab的方法,關(guān)于這三種估計(jì)方法的更詳細(xì)討論請參見迭代偽估計(jì)量(iterativepseudoestimator)∑ ∑?

?

i=1

?

II??b=1∑zII?

? 這些估計(jì)量看起來簡單直觀。之所??b稱為偽估計(jì)量是因?yàn)榈仁接覀?cè)的信度因子需要假設(shè)μ,va,b已知,而在估計(jì)時這些量只能使用其估計(jì)值。方程兩邊的相互決定的特性也決定了只能B¨hlmann(B¨hlmann∑∑ ∑∑Ai

?

)2?

?

=

w∑∑ ∑∑B

?

)2?(I? d=

z∑∑∑ ∑∑∑ˉzzw

ziΣX

i=1注意到E(Ai)=cia,E(B)=db,因此有B¨hlmann–Gisler估計(jì)量II?=1∑max(Ai, II?b=max(B, dB¨hlmannGisler估計(jì)量首先在0處截?cái)?,然后再取平均,因此是有偏的估?jì)量Ohlsson估計(jì)量(Ohlssonestimator)∑?′∑?′

Ii=1Ib′d

B¨hlmannGisler原理類似,只不過Ohlsson估計(jì)量將求平均方式改為加權(quán)平均。?′和b′可以為負(fù)值,但在實(shí)務(wù)中通常在0處截?cái)啵虼艘彩且粋€有偏的估計(jì)量。Ohlsson估計(jì)量和B¨hlmannGisler估計(jì)量原理相似,主要是為了避免迭代估計(jì)量復(fù)雜的迭代關(guān)系,簡化了中在actuar包的cm函數(shù)支持這三種方法擬合層次信度模型,cm是credibilitymodel的縮寫“由cm的工作方式Rlm相似,因此取名cm,該包的作者在幫助文檔和發(fā)表的文章中不遺余力地重復(fù)著這個冷笑話...cm是一個通用的信度模型函數(shù),支持B¨hlmann,B¨hlmann–Straub,層次信度模型和Hachemeister的信度回歸模型,本小結(jié)將介紹前三種方函數(shù)語法cm(formula,data,ratios,weights,subset,regformula=NULL,regdata,ercept=FALSE,method=c("Buhlmann-Gisler","Ohlsson","iterative"),tol=sqrt(.Machine$double.eps),maxit=100,echo=FALSE)使用說明formulalm中的公式寫法,但是?左邊不需指定因變量。?左邊按順序指定分層的因子,比如一個保單組合分為不同的類別(class),在每個類別中又區(qū)分為不同的合同(contract),如果令:表示兩個因子的交互作用,令+表示不同項(xiàng)的分割,那么可以令?rmula=?class+class:contract。年的每風(fēng)險單位的損失額Xijt和各年風(fēng)險風(fēng)險單位數(shù)wijt(可選,如果擬合B¨hlmann模ratios和weights指明哪些列是Xijt或wijt,weights可選取觀測的子集進(jìn)行模型擬合,需要輸入邏輯表達(dá)式,要使該參數(shù)有效data(data.frame)形式regformula,regdata和ercept是信度回歸模型的參數(shù),將在下一小節(jié)講述method是a,b參數(shù)的估計(jì)方法,默認(rèn)是Buhlmann-Gisler法。當(dāng)層數(shù)為1B¨hlmannB¨hlmannStraub時,三種方法估計(jì)結(jié)果相同tol指定迭代收斂的條件,maxit指定最大迭代次數(shù),echo指定是否輸出迭代過程,默認(rèn)例子B¨hlmanndat1=data.frame(plyhder=c(1,2),ratio.1=c(NA, ratio.2=c(10000/50,21000/110),ratio.3=c(13000/60, weight.1=c(NA,100),weight.2=c(50,110),weight.3= fit1=cm(~plyhder,dat1,ratios=ratio.1:ratio.3,weights=cm(formula=~plyhder,data=dat1,ratios=ratio.1:r

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論