統(tǒng)計資料的整理統(tǒng)計量數(shù)-朝陽科技大學課件_第1頁
統(tǒng)計資料的整理統(tǒng)計量數(shù)-朝陽科技大學課件_第2頁
統(tǒng)計資料的整理統(tǒng)計量數(shù)-朝陽科技大學課件_第3頁
統(tǒng)計資料的整理統(tǒng)計量數(shù)-朝陽科技大學課件_第4頁
統(tǒng)計資料的整理統(tǒng)計量數(shù)-朝陽科技大學課件_第5頁
已閱讀5頁,還剩177頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第四章統(tǒng)計資料的整理:統(tǒng)計量數(shù)第四章統(tǒng)計資料的整理:統(tǒng)計量數(shù)1學習目標介紹常用的統(tǒng)計量數(shù)來表達資料的特性。學習集中趨勢的統(tǒng)計量數(shù)。學習位置的統(tǒng)計量數(shù)。學習分散程度的統(tǒng)計量數(shù)。學習如何建立全方位的統(tǒng)計圖—盒鬚圖。學習形狀的統(tǒng)計量數(shù)有偏度與峰度。學習如何計算分組資料。認識謝比雪夫不等式與經(jīng)驗法則。學習Z分數(shù)的應用。洞悉平均數(shù)、變異數(shù)及標準差的重要性質。學習目標介紹常用的統(tǒng)計量數(shù)來表達資料的特性。2本章架構4.1集中趨勢統(tǒng)計量數(shù)4.2位置統(tǒng)計量數(shù)4.3分散程度統(tǒng)計量數(shù)4.4全方位的統(tǒng)計圖—盒鬚圖4.5形狀統(tǒng)計量數(shù)4.6分組資料的統(tǒng)計量數(shù)4.7謝比雪夫不等式與經(jīng)驗法則4.8z分數(shù)的應用4.9樣本平均數(shù)、樣本變異數(shù)及樣本標準差的重要性質本章架構4.1集中趨勢統(tǒng)計量數(shù)34.1集中趨勢統(tǒng)計量數(shù)4.1.1平均數(shù)(mean)4.1.2中位數(shù)(median)4.1.3眾數(shù)(mode)4.1.4集中趨勢統(tǒng)計量數(shù)的比較4.1集中趨勢統(tǒng)計量數(shù)4.1.1平均數(shù)(mean)44.1集中趨勢統(tǒng)計量數(shù)(續(xù))所謂集中趨勢統(tǒng)計量數(shù)是以一個數(shù)值來描述樣本資料中,那一個分數(shù)或數(shù)值是最具代表性,或集中在那個中心位置。最常見的集中量數(shù)有三種,即眾數(shù)(Mode)、中位數(shù)(Median)、和算術平均數(shù)(Mean),到底用那一個集中量數(shù)和資料衡量尺度以及研究之目的有關。4.1集中趨勢統(tǒng)計量數(shù)(續(xù))所謂集中趨勢統(tǒng)計量數(shù)是以一個數(shù)54.1.1平均數(shù)平均數(shù)(mean)為所有數(shù)值總和除以所有數(shù)值的個數(shù),當資料是屬量資料時適用。母體平均數(shù)(μ)樣本平均數(shù)()4.1.1平均數(shù)平均數(shù)(mean)6臺積電股價報價2003年7月14日臺積電股價基本面訊息資料來源:中時理財網(wǎng)臺積電股價報價2003年7月14日臺積電股價基本面訊息7臺灣電力公司近五年經(jīng)營績效資料來源:臺灣電力公司網(wǎng)站臺灣電力公司近五年經(jīng)營績效8例4.1平均數(shù)若全班12位學生的體重分別為38、46、43、51、54、50、40、48、39、42、54、35公斤,試求其母體平均數(shù)?若以上資料為抽自全班60位同學的樣本觀察值,則其樣本平均數(shù)為何?解:例4.1平均數(shù)若全班12位學生的體重分別為38、46、49例4.2平均數(shù)已知樣本資料2,3,5,10,15,若其中有所誤植,15應為85才正確,問平均數(shù)有何變化?解:

根據(jù)誤植的資料,則樣本平均數(shù)為(2+3+5+10+15)/15=7;若將15改為85,則樣本平均值變?yōu)?1,為原值的三倍。由上例可以知道平均數(shù)對於極端值(如上例中之85)的敏感度很強,這是採用平均數(shù)作為集中趨勢統(tǒng)計量數(shù)應特別留意之處。為此,我們介紹中位數(shù)來克服這樣的疑慮。例4.2平均數(shù)已知樣本資料2,3,5,10,15,若其中10平均數(shù)性質ΣXi=n;ΣXi=Nμ(Xi-)離差值

Σ(Xi-)=0minΣ(Xi-A)2

?Σ(Xi-)2

最小易受離群值(outlier)影響,可用修正平均數(shù)改善。變數(shù)變換:Y=aX+b

?

=a+b平均數(shù)性質ΣXi=n;ΣXi=Nμ11修正平均數(shù)調(diào)查大學生每周上網(wǎng)時數(shù),今隨機抽取n=16學生其資料如下:4,5,6,8,9,10,12,14,15,15,15,16,17,18,20,26求平均數(shù)求5%修正平均數(shù)Sol:(1)=13.125(2)修正平均數(shù)=12.86註:求修正平均數(shù)前需先將原資料排序修正平均數(shù)調(diào)查大學生每周上網(wǎng)時數(shù),今隨機抽取n=16學生其資124.1.2中位數(shù)中位數(shù)(median)將資料由小到大(或由大到?。╉樞蚺帕嗅幔混吨行牡臄?shù)值稱之,通常以表示,當資料是屬量資料時適用。計算方法將資料由小到大排序寫成x(1),x(2),…,x(n)

4.1.2中位數(shù)中位數(shù)(median)13例4.3續(xù)例4.1求12位學生的體重之中位數(shù)?解:全班12位學生的體重分別為38、46、43、51、54、50、40、48、39、42、54、35公斤。將12位學生的體重由小到大排序如下:35,38,39,40,42,43,46,48,50,51,54,54,因為n=12為偶數(shù),故中位數(shù)為排序第六和第七位數(shù)值的平均,即例4.3續(xù)例4.1求12位學生的體重之中位數(shù)?14例4.4續(xù)例4.2已知樣本資料2,3,5,10,15,若其中有所誤植,15應為85才正確,請討論中位數(shù)的變化情形。解:

若是誤植資料,其中位數(shù)為5,但經(jīng)訂正使用85取代15,則中位數(shù)依然為5,由此可知,中位數(shù)完全不受影響。由上例可知,中位數(shù)可能只用資料的一個或兩個數(shù)值,故對極端值不敏感。但其數(shù)學運算卻不易操作,比如說,我們無法直接將兩組資料的個別中位數(shù)作運算而求得合併兩組資料後的中位數(shù),因此中位數(shù)不常用來作統(tǒng)計推論。例4.4續(xù)例4.2已知樣本資料2,3,5,10,15,154.1.3眾數(shù)眾數(shù):指資料中出現(xiàn)次數(shù)最多的數(shù)或分組名稱。當數(shù)據(jù)或名稱各只出現(xiàn)一次時,眾數(shù)便不存在,但因次數(shù)可能相同,故眾數(shù)可能不唯一。屬質資料的集中趨勢統(tǒng)計量數(shù),用眾數(shù)(mode)表示最為適當。

4.1.3眾數(shù)眾數(shù):16例4.5眾數(shù)擲一公正的骰子10次,其點數(shù)分別為3、6、2、6、1、4、6、5、3、5,求其眾數(shù)?解:點數(shù)的出現(xiàn)次數(shù)分別為點數(shù)1:1次、點數(shù)2:1次、點數(shù)3:2次、點數(shù)4:1次、點數(shù)5:2次、點數(shù)6:3次,故M0=6。例4.5眾數(shù)擲一公正的骰子10次,其點數(shù)分別為3、6、217例4.6

某科技大學管理學院院長欲瞭解所屬各碩士班的報名情形,得知資料如下:財金系250人,企管系308人,資管系169人,保險系145人,會計系178人,休閒系134人,問那一碩士班最為熱門?

解:

各碩士班乃屬質資料,故以眾數(shù)代表最為合適,即表示眾數(shù)為企管系,報名人數(shù)最多,是為某一年度最熱門的碩士班。例4.6某科技大學管理學院院長欲瞭解所屬各碩士班的報名184.1.4集中趨勢統(tǒng)計量數(shù)的比較當資料是對稱分配時,則平均數(shù)、中位數(shù)及眾數(shù)三者皆相等。當數(shù)據(jù)是屬量資料時,則適用平均數(shù)或中位數(shù)。若為屬質資料時,則應以眾數(shù)為最佳選擇。以極端值而言,平均數(shù)受其影響最為明顯,相較之下,中位數(shù)與眾數(shù)則對極端值不敏感。平均數(shù)易於作數(shù)學運算,但中位數(shù)與眾數(shù)則不易達成某些簡單的數(shù)學運算目的。4.1.4集中趨勢統(tǒng)計量數(shù)的比較當資料是對稱分配時,則19平均數(shù)易於數(shù)學計算之特性

例如兩組樣本資料的個數(shù)與平均數(shù)分別為n1和n2及和,則將兩組資料合併後的樣本平均數(shù)為

平均數(shù)具有如此的功能,但中位數(shù)和眾數(shù)則無法同理得知,也就是說,兩組資料合併後的中位數(shù)和眾數(shù)都無法以一關係式來直接代表。

平均數(shù)易於數(shù)學計算之特性例如兩組樣本204.2位置統(tǒng)計量數(shù)4.2.1百分位數(shù)(percentile)4.2.2四分位數(shù)(quartile)4.2位置統(tǒng)計量數(shù)4.2.1百分位數(shù)(percenti214.2.1百分位數(shù)百分位數(shù)(percentile)通常以第k個百分數(shù)稱之,並寫成Pk,代表資料中在此分數(shù)下有多少百分比之樣本是在此分數(shù)之下。設樣本數(shù)為n,則

4.2.1百分位數(shù)百分位數(shù)(percentile)224.2.1百分位數(shù)求百分位數(shù)Pk之步驟:(1)將原始資料排序(2)求位址i:

i=n/100×k(3)(i)i

Z

(整數(shù)),i

進位如

i

=3.2

Pk=X(4)(ii)i

Z

(整數(shù))如i

=5

Pk=(X(5)+X(6))/24.2.1百分位數(shù)求百分位數(shù)Pk之步驟:23兒童的身高所謂的矮小是相對的。一個排在第3百分位數(shù)的兒童,比排在第50百分位數(shù)的矮,但這個第50百分位數(shù)的兒童,也比第97百分位數(shù)的兒童矮。在臨床上,排在第三百分位數(shù)以下的兒童才算是所謂的矮。人的高度分佈是平均的,所以大約有3%的兒童,其身高低於第三百分位數(shù),這是正常的。如果他們的高度遠低於第三百分位數(shù),他們便可能是患病。

兒童的身高所謂的矮小是相對的。一個排在第3百分位數(shù)的兒童,比24例4.7續(xù)例4.1全班12位學生的體重分別為38,46,43,51,54,50,40,48,39,42,54,35公斤,求P20。解:因為不是整數(shù),所以取第三小的數(shù),即。

例4.7續(xù)例4.1全班12位學生的體重分別為38,46,254.2.2四分位數(shù)四分位數(shù)(quartile):是將N分成四等份,因此第一個四分位之分數(shù)是指有25%的樣本數(shù)目(N)的分數(shù)低於此分數(shù)。P25,稱為第一個四分位數(shù)或下四分位數(shù)Q1。P50,稱為第二個四分位數(shù)Q2,就是中位數(shù),所以P50=Q2=Me。P75,稱為第三個四分位數(shù)或上四分位數(shù)Q3。註:十分位數(shù)是將N分成四等份:D1,D2,…,D10

Di=Pk,k=0.1×100×i4.2.2四分位數(shù)四分位數(shù)(quartile):26例4.8續(xù)例4.1全班12位學生的體重分別為38,46,43,51,54,50,40,48,39,42,54,35公斤,求Q1、Q2、Q3。解:

例4.8續(xù)例4.1全班12位學生的體重分別為38,46,27平均數(shù)、中位數(shù)及眾數(shù)三者之關係單峰右偏:Mo<Me<μ單峰左偏:μ<Me<Mo單峰對稱:μ=Me=Mo註:Me,Mo,Pk不受離群值影響,但平均數(shù)會受離 群值影響。平均數(shù)、中位數(shù)及眾數(shù)三者之關係單峰右偏:Mo<Me284.3分散程度統(tǒng)計量數(shù)4.3.1全距(range)4.3.2四分位距(inter-quartilerang,IQR)4.3.3平均絕對離差(meanabsolutedeviation,MAD)4.3.4變異數(shù)(variance)與標準差(standarddeviation)4.3.5變異係數(shù)(coefficientofvariation,CV)4.3分散程度統(tǒng)計量數(shù)4.3.1全距(range)294.3分散程度統(tǒng)計量數(shù)(續(xù))分散程度統(tǒng)計量數(shù)可用來描述資料整體之異質性或是變化、變異之程度,兩個樣本的分配可能有同樣的集中量數(shù),但卻有不同的分散程度統(tǒng)計量數(shù)。

例如有兩種基金的平均年報酬率相同,但第一種基金的年報酬率之範圍在-10%到20%之間,第二種基金的年報酬率之範圍在-30%到40%之間,雖然它們的平均數(shù)相同,但第二種基金的範圍較第一種基金來得大,故第二種基金的年報酬率之離散情形較大。故我們在分析資料時,需要同時考量集中趨勢量數(shù)與分散程度統(tǒng)計量數(shù)。4.3分散程度統(tǒng)計量數(shù)(續(xù))分散程度統(tǒng)計量數(shù)可用來描述資料304.3.1全距全距(range)R=x(n)-x(1),容易受到極端值的影響。4.3.1全距全距(range)31例4.9哪一生產(chǎn)線的產(chǎn)品較符合公司的標準?假設某公司有兩條生產(chǎn)線A和B,都是生產(chǎn)6公分長的鐵釘,測量某天A和B生產(chǎn)線的鐵釘各100個,得以下資料:A生產(chǎn)線的最長和最短分別為5.98公分和6.02公分,B生產(chǎn)線則為5.96公分和6.05公分,問哪一生產(chǎn)線較符合公司的標準?解:利用已知資料可得,A生產(chǎn)線的全距為0.04公分,而B生產(chǎn)線則為0.09公分,由此可知,B生產(chǎn)線的產(chǎn)品較為參差不齊,故以A生產(chǎn)線的產(chǎn)品較符合標準。例4.9哪一生產(chǎn)線的產(chǎn)品較符合公司的標準?假設某公司有兩324.3.2四分位距四分位距(inter-quartile,IQR)IQR=Q3-Q1,四分位距是考慮資料中間百分之五十的距離,故較不受極端值的影響。4.3.2四分位距四分位距(inter-quartil33例4.10續(xù)例4.8全班12位學生的體重分別為38,46,43,51,54,50,40,48,39,42,54,35公斤,試求出其四分位距。解:利用例4.8的結果,我們得知例4.10續(xù)例4.8全班12位學生的體重分別為38,46344.3.3平均絕對離差平均絕對離差(meanabsolutedeviation,簡寫為MAD)是指將每一資料點到平均數(shù)的差取絕對值後,即離差的絕對值,加總起來再除以n。平均絕對離差的值愈大代表資料愈分散;反之,即表示資料較為集中。4.3.3平均絕對離差平均絕對離差(meanabsolu354.3.3平均絕對離差(續(xù))平均絕對離差(MAD):離差:離差和:4.3.3平均絕對離差(續(xù))平均絕對離差(MAD):36例4.11續(xù)例4.1全班12位學生的體重分別為38,46,43,51,54,50,40,48,39,42,54,35公斤,試求MAD。解:

例4.11續(xù)例4.1全班12位學生的體重分別為38,46,374.3.4變異數(shù)與標準差變異數(shù)(variance)與標準差(standarddeviation)母體變異數(shù)(σ2):母體標準差(σ):樣本變異數(shù)(s2):樣本標準差(s):註:標準差與變異數(shù)之單位分別為資料相同單位與平方 單位4.3.4變異數(shù)與標準差變異數(shù)(variance)與標準差38母體變異數(shù)之簡便計算公式母體變異數(shù)之簡便計算公式39重要觀念計算變異數(shù)時用到的觀念為什麼計算變異數(shù)時,須除以N或是n-1?因為取平均可避免資料個數(shù)多寡的效應,也就是說,若不取平均,則對個數(shù)較多的一組資料是種“懲罰”,因它的離差平方和會相對地較大,若不取平均將失去比較資料間分散程度的意義。變數(shù)變換:Y=aX+bSy2=a2?Sx2兩組資料之變異數(shù)比較需在單位相同情況下重要觀念計算變異數(shù)時用到的觀念40共同基金的績效評比基金在各評估期間之報酬率,係基金在該期間之淨值累計報酬率。國際上評估基金績效所慣用的期間包括過去一個月、三個月、六個月、一年、三年、五年、十年及自基金成立日起至今第七個評估期間?;疬^去一年以內(nèi)的績效,可視為短期績效,三年為中期績效,三年以上為長期績效。一般而言,中、長期績效較能反應基金經(jīng)理人的能力;短期績效則反應基金經(jīng)理人之基本理念、操作型態(tài)是否與最近市場走勢一致。

標準差可衡量基金報酬率的波動程度,是一個常用的風險指標。標準差愈大表示報酬率好的時候與不好的時候相差愈大。共同基金的績效評比基金在各評估期間之報酬率,係基金在該期間之41共同基金的績效評比實例資料來源:92年06月份基金績效評比表—邱顯比教授、李存修教授製作

共同基金的績效評比實例42例4.12母體資料和樣本資料的變化就以下列資料:3,5,10,1,6,分別視為母體和樣本資料,求變異數(shù)及標準差?解:若為母體資料,則=5, ,。若為樣本資料,則,,。註:n2=(n-1)S2例4.12母體資料和樣本資料的變化就以下列資料:3,5,434.3.5變異係數(shù)若有兩組資料的單位不同時,我們該如何比較它們的分散情形呢?計算平均絕對偏差、變異數(shù)和標準差時都要利用平均數(shù),因此它們也容易受到平均數(shù)的大小影響,是故無法直接利用前面所定義的統(tǒng)計量數(shù)來作分析。此時可以計算相對分散程度統(tǒng)計量數(shù),即為變異係數(shù)(coefficientofvariation,簡寫成CV)來衡量資料相對的分散情形。

4.3.5變異係數(shù)若有兩組資料的單位不同時,我們該如何比較444.3.5變異係數(shù)母體變異係數(shù)樣本變異係數(shù)

註:變異係數(shù)使用時機

(1)單位不相同

(2)單位相同但平均數(shù)差異很大註:變異係數(shù)是沒有單位

4.3.5變異係數(shù)母體變異係數(shù)45例4.13體重或身高哪一項分散程度較大?假設取樣30位十歲兒童的平均身高為135公分,標準差10公分;平均體重為20公斤,標準差為2.5公斤,試問身高和體重哪一項分散程度較大?解:乍看之下,身高的標準差遠大於體重的標準差,但因兩者的單位不同,不宜直接由標準差的大小來說明分散程度。此時可利用變異係數(shù)來回答本問題 由此可知,十歲兒童體重的分散程度較身高來得大。例4.13體重或身高哪一項分散程度較大?假設取樣30位十46體重哪一群分散程度較大?假設各取樣30位十歲兒童與成年人其平均體重依序為20公斤、60公斤;標準差依序為2.5公斤、12公斤;,試問兒童與成年人的體重哪一個分散程度較大?解:乍看之下兩者的單位雖相同,成年人體重的變異數(shù)遠大於兒童體重的變異數(shù),但因兩者平均數(shù)差異過大,不宜直接由變異數(shù)的大小來說明分散程度。此時可利用變異係數(shù)來回答本問題由此可知,十歲兒童體重的分散程度較成年人體重來得小。體重哪一群分散程度較大?假設各取樣30位十歲兒童與成年人其平474.4全方位的統(tǒng)計圖—盒鬚圖盒鬚圖(boxandwhiskerplot)又稱為箱型圖(boxplot)。盒鬚圖乃依據(jù)五個彙整量數(shù)—最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù),以及最大值—所畫出的一種表示資料特性的統(tǒng)計圖形。4.4全方位的統(tǒng)計圖—盒鬚圖盒鬚圖(boxandwhi484.4全方位的統(tǒng)計圖—盒鬚圖(續(xù))

圖4.2典型的箱型圖4.4全方位的統(tǒng)計圖—盒鬚圖(續(xù))圖4.2典型的箱型圖494.4全方位的統(tǒng)計圖—盒鬚圖(續(xù)1)診斷偏離值(outlier)的步驟計算四分位距(IQR),即IQR=Q3-Q1。以Q1為起點,計算所謂的下圍籬值(lowerfence),即Q1-1.5IQR;再以Q3為起點,計算上圍籬值(upperfence),即Q3+1.5IQR。若有觀測值落在上、下圍籬值之外,即稱為偏離值,也就是說,若觀測值小於下圍籬值或大於上圍籬值時稱之。註:利用Z分數(shù)判斷,當|

Zi|>3Xi為偏離值(當資料呈鐘形分布)4.4全方位的統(tǒng)計圖—盒鬚圖(續(xù)1)診斷偏離值(outlie50例4.14基金報酬率是否有偏離值?假設某一年有12檔基金的報酬率(%)如下:

15、12、35、14、16、14、17、20、18、17、15、14

請繪製盒鬚圖,並判斷是否有偏離值?解:首先,我們計算出x(1)=12,Q1=14,Me=15.5,Q3=17.5,x(12)=35。然後根據(jù)這五個統(tǒng)計量數(shù)繪製如圖4.3之盒鬚圖。(此圖係以SPSS統(tǒng)計軟體繪製,Excel軟體無此功能。)例4.14基金報酬率是否有偏離值?假設某一年有12檔基金的51例4.14基金報酬率是否有偏離值?(續(xù))由圖4.3可知,存在一個偏離值,即報酬率35%的那一檔基金。圖4.312檔基金報酬率之盒鬚圖RETURN4030201012例4.14基金報酬率是否有偏離值?(續(xù))由圖4.3可知,存524.5形狀統(tǒng)計量數(shù)4.5.1偏度(skewness)4.5.2峰度(kurtosis)4.5形狀統(tǒng)計量數(shù)4.5.1偏度(skewness)534.5形狀統(tǒng)計量數(shù)(續(xù))形狀統(tǒng)計量數(shù)(measureofshape)是用以表示資料是否對稱於中心點及寬闊或高聳的程度,主要的統(tǒng)計量數(shù)有偏度和峰度兩種。4.5形狀統(tǒng)計量數(shù)(續(xù))形狀統(tǒng)計量數(shù)(measureof544.5.1偏度偏度(skewness)用來說明一組資料是否對稱於中心位置,通常以β1表示。樣本偏度

(1)β1>0,單峰右偏(2)β1<0,單峰左偏(3)β1=0,單峰對偏4.5.1偏度偏度(skewness)554.5.1偏度(續(xù))圖4.4對稱資料中位數(shù)=平均數(shù)=眾數(shù)4.5.1偏度(續(xù))圖4.4對稱資料中位數(shù)=平均數(shù)56圖4.5右偏資料4.5.1偏度(續(xù)2)眾數(shù)中位數(shù)平均數(shù)圖4.5右偏資料4.5.1偏度(續(xù)2)眾數(shù)中位數(shù)平均57圖4.6左偏資料4.5.1偏度(續(xù)3)平均數(shù)中位數(shù)眾數(shù)圖4.6左偏資料4.5.1偏度(續(xù)3)平均數(shù)中位數(shù)眾584.5.2峰度峰度:用來說明一組資料的分配高聳或寬闊的情況,通常以β2表示。(1)β2>0,高狹峰(2)β2<0,低闊峰(3)β2=0,常態(tài)峰4.5.2峰度峰度:59例4.15壽險業(yè)保單繼續(xù)率的分析長期壽險契約的保單繼續(xù)率一直是衡量壽險公司經(jīng)營績效的重要指標,尤其是第一年度(第十三個月)的保單繼續(xù)率,更是重要,因為對壽險公司而言,每件契約第一年所需負擔的成本最高,因此就單一保單而言,只有在保戶續(xù)年度持續(xù)繳交保費時,才能將保單的成本攤平.就臺灣壽險公司1999年度長期壽險契約繼續(xù)率分析我國壽險業(yè)在保單繼續(xù)率上的表現(xiàn)作一基本的敘述統(tǒng)計分析,如下表所示:例4.15壽險業(yè)保單繼續(xù)率的分析長期壽險契約的保單繼續(xù)率604.6分組資料的統(tǒng)計量數(shù)4.6.1分組資料的樣本平均數(shù)、樣本變異數(shù)與樣本標準差4.6.2分組資料的中位數(shù)與百分位數(shù)4.6分組資料的統(tǒng)計量數(shù)4.6.1分組資料的樣本平均數(shù)、614.6.1分組資料的樣本平均數(shù)、樣本變異數(shù)與

樣本標準差令xj為第j組的組中點,組中點=(組上限+組下限)÷2=(組上界+組下界)÷2樣本平均數(shù):樣本變異數(shù):樣本標準差:4.6.1分組資料的樣本平均數(shù)、樣本變異數(shù)與

樣本標準差令62例4.16分組資料的樣本平均數(shù)、樣本變異數(shù)與樣本標準差就表4.3的次數(shù)分配表求分組資料的樣本平均數(shù)、樣本變異數(shù)及樣本標準差。例4.16分組資料的樣本平均數(shù)、樣本變異數(shù)與樣本標準差63例4.16分組資料的樣本平均數(shù)、樣本變異數(shù)與樣本標準差(續(xù))解:例4.16分組資料的樣本平均數(shù)、樣本變異數(shù)與樣本標準差644.6.2分組資料的中位數(shù)與百分位數(shù)分組資料的中位數(shù)第n/2項所對應的組別應是中位數(shù)所在的組別,當然我們知道其組界,故當組的下界等於前一組的上界,即,利用線性內(nèi)插法可得4.6.2分組資料的中位數(shù)與百分位數(shù)分組資料的中位數(shù)654.6.2分組資料的中位數(shù)與百分位數(shù)(續(xù))求分組資料的百分位數(shù)(Pk)的步驟求位置指標。判斷Pk所在組別。利用線性內(nèi)插法可得4.6.2分組資料的中位數(shù)與百分位數(shù)(續(xù))求分組資料的百分664.6.2分組資料的中位數(shù)與百分位數(shù)(續(xù)1)計算分組資料知中位數(shù)與百分位數(shù)有兩點值得特別注意:計算分組資料的中位數(shù)和百分位數(shù)是要用組界來運算,不宜用組限。為了決定位置,習慣上要先計算或,此時不管所得的結果是否為整數(shù),都可直接帶入式子計算,不用像計算未分組資料時都取整數(shù)值。4.6.2分組資料的中位數(shù)與百分位數(shù)(續(xù)1)計算分組資料知67例4.17分組資料的中位數(shù)與百分位數(shù)依例4.16所得次數(shù)分配表,求中位數(shù)P30、Q1及Q3?解:因n/2=25,故Me落於第5組,

因為,所以落於第4組,例4.17分組資料的中位數(shù)與百分位數(shù)依例4.16所得次數(shù)68例4.17分組資料的中位數(shù)與百分位數(shù)(續(xù))因為,所以Q1落於第3組,因為,所以Q3落於第6組,例4.17分組資料的中位數(shù)與百分位數(shù)(續(xù))因為694.7謝比雪夫不等式與經(jīng)驗法則4.7.1謝比雪夫不等式(Chebyshev’sInequality)4.7.2經(jīng)驗法則(empiricalrule)4.7謝比雪夫不等式與經(jīng)驗法則4.7.1謝比雪夫不等式704.7.1謝比雪夫不等式謝比雪夫不等式(Chebyshev’sInequality):對於任何的資料分配,觀測值落於平均數(shù)兩邊k個標準差的區(qū)間內(nèi)之機率(比例)至少為,其中k為大於1的任意數(shù)。謝比雪夫不等式可適用於任何資料型態(tài),使用它時並不需對資料作任何假設,只要知道平均數(shù)和標準差就可以推估有多少比例的資料會落在某一範圍內(nèi)。數(shù)學式:P(|X–μ|kσ),k>14.7.1謝比雪夫不等式謝比雪夫不等式(Chebyshev71圖4.8謝比雪夫不等式之圖示4.7.1謝比雪夫不等式(續(xù))

圖4.8謝比雪夫不等式之圖示4.7.1謝比雪夫不等式(續(xù)72例4.18謝比雪夫不等式就例3.6之五十筆樣本資料,試問有多少比例的觀察值落於樣本平均數(shù)左右兩個樣本標準差的區(qū)間內(nèi)?解:根據(jù)謝比雪夫不等式的結論,則至少有75%的資料落於該區(qū)間內(nèi)。本例中,我們可以實際瞭解真正的情形。首先計算,,所以因為k=2,故,實際計數(shù)後得知有的資料落於該區(qū)間內(nèi)。例4.18謝比雪夫不等式就例3.6之五十筆樣本資料,試問734.7.2經(jīng)驗法則經(jīng)驗法則(empiricalrule):當資料呈現(xiàn)對稱分配或鐘形分配時,則約有68%的資料落在平均數(shù)左右一個標準差的區(qū)間內(nèi)。約有95%的資料落在平均數(shù)左右二個標準差的區(qū)間內(nèi)。約有99.7%的資料落在平均數(shù)左右三個標準差的區(qū)間內(nèi)。數(shù)學式:P(|X–μ|kσ)68%,k=195%,k=299.7%,k=34.7.2經(jīng)驗法則經(jīng)驗法則(empiricalrule74經(jīng)驗法則的應用根據(jù)經(jīng)驗法則吾人可預測共同基金的報酬率分布情況:平均報酬率加上兩個標準差大約是最佳狀況時的報酬率;平均報酬率剪去兩個標準差大約是最差狀況時的報酬率。換言之,四個標準差大約是最好與最壞時的差距。經(jīng)驗法則的應用根據(jù)經(jīng)驗法則吾人可預測共同基金的報酬率分布情況75例4.19續(xù)例4.18試依經(jīng)驗法則驗證相關的結論。解:在的區(qū)間有33個數(shù)據(jù),占33/50=66%。在的區(qū)間有49個數(shù)據(jù),占49/50=98%。在的區(qū)間有50個數(shù)據(jù),占50/50=100%。 以上三個比例和經(jīng)驗法則的結論都非常接近,因為資料具有近似對稱分配的性質。例4.19續(xù)例4.18試依經(jīng)驗法則驗證相關的結論。76謝比雪夫不等式與經(jīng)驗法則例:自某大學四年級N=1080學生,測驗智力測驗,得其IQ分數(shù)之平均數(shù)(μ)=120,標準差(σ)=8。假設資料呈鐘形分布時,試回答下列問題。(1)試利用謝比雪夫定理求出分數(shù)108~132區(qū)間至 少有多少人?(2)試利用經(jīng)驗法則求區(qū)間[a,b]內(nèi)約有1026個學 生?(3)設依此成績學校給予IQ分數(shù)前27名學生獎金做 為鼓勵,試問最低分數(shù)為多少?謝比雪夫不等式與經(jīng)驗法則例:自某大學四年級N=1080學77統(tǒng)計資料的整理統(tǒng)計量數(shù)-朝陽科技大學課件78統(tǒng)計資料的整理統(tǒng)計量數(shù)-朝陽科技大學課件79統(tǒng)計資料的整理統(tǒng)計量數(shù)-朝陽科技大學課件804.8z分數(shù)的應用z分數(shù)(zscore)代表任一觀測值(x)與平均數(shù)間的距離有幾個標準差的意義。母體的z分數(shù)樣本的z分數(shù)註:z分數(shù)沒有單位4.8z分數(shù)的應用z分數(shù)(zscore)81z分數(shù)的性質Σzi=0Σ(zi-)=0變異數(shù):Sz2=1,σz2=

1母體:ΣZi2=N

樣本:ΣZi2=n–1註:若資料呈鐘形分布經(jīng)轉換成Z分數(shù)時, 當|Zi|>3,則Xi為離群值。z分數(shù)的性質Σzi=082例4.20統(tǒng)計學成績進步抑或退步?小明在班上的統(tǒng)計學期中考成績65分,全班的平均是62分,標準差5分;另其期末考成績?yōu)?6分,班上的平均是80分,標準差3分,試問小明的成績在班上名次是進步或退步呢?另外,小明期中考成績以相同班上名次則期末考須考幾分?(假設期中考、期末考成績均呈鐘形分布)解:(1)若以數(shù)學的基本觀念而言,76分絕對高於62分,但若 換算兩次考試的z分數(shù),期中考的z分數(shù)為0.6,正數(shù)表 示高於全班平均;至於期末考則為-1.33,表示在 全班平均以下,所以小明的成績就全班而言是退步 了。 (2)利用期中考、期末考成績的z分數(shù)相等。例4.20統(tǒng)計學成績進步抑或退步?小明在班上的統(tǒng)計學期中83統(tǒng)計資料的整理統(tǒng)計量數(shù)-朝陽科技大學課件84統(tǒng)計資料的整理統(tǒng)計量數(shù)-朝陽科技大學課件85z分數(shù)的應用隨機抽出n=5個樣本並轉換成Z分分數(shù),其分別為

Z1=1.4,Z2=-0.8,Z3=-1.2,Z4=1.6(1)試問Z5之值為何?(2)若=30,S=3,試問x5之值為何?解:(1)Σ

Zi=0Z5=-1(2)Z5=(X5-)/sX5=27z分數(shù)的應用隨機抽出n=5個樣本並轉換成Z分分數(shù),其分別為864.9樣本平均數(shù)、樣本變異數(shù)及

樣本標準差的重要性質平移:將資料同加一個常數(shù)項的方式。令zi=xi+c,i=1,2,…,n,則

4.9樣本平均數(shù)、樣本變異數(shù)及

樣本標準差的重要性質平移:874.9樣本平均數(shù)、樣本變異數(shù)及

樣本標準差的重要性質(續(xù))平移後之樣本變異數(shù):4.9樣本平均數(shù)、樣本變異數(shù)及

樣本標準差的重要性質(續(xù))884.9樣本平均數(shù)、樣本變異數(shù)及

樣本標準差的重要性質(續(xù)1)調(diào)整尺度:將原有的每一個觀測值同時乘以k倍。令zi=kxi,i=1,2,…,n,則4.9樣本平均數(shù)、樣本變異數(shù)及

樣本標準差的重要性質(續(xù)1894.9樣本平均數(shù)、樣本變異數(shù)及

樣本標準差的重要性質(續(xù)2)調(diào)整尺度後之樣本變異數(shù):4.9樣本平均數(shù)、樣本變異數(shù)及

樣本標準差的重要性質(續(xù)2904.9樣本平均數(shù)、樣本變異數(shù)及

樣本標準差的重要性質(續(xù)3)線性轉換(lineartransformation):綜合以上兩種代數(shù)運算,得zi=kxi+c為一線性轉換。4.9樣本平均數(shù)、樣本變異數(shù)及

樣本標準差的重要性質(續(xù)391第四章統(tǒng)計資料的整理:統(tǒng)計量數(shù)第四章統(tǒng)計資料的整理:統(tǒng)計量數(shù)92學習目標介紹常用的統(tǒng)計量數(shù)來表達資料的特性。學習集中趨勢的統(tǒng)計量數(shù)。學習位置的統(tǒng)計量數(shù)。學習分散程度的統(tǒng)計量數(shù)。學習如何建立全方位的統(tǒng)計圖—盒鬚圖。學習形狀的統(tǒng)計量數(shù)有偏度與峰度。學習如何計算分組資料。認識謝比雪夫不等式與經(jīng)驗法則。學習Z分數(shù)的應用。洞悉平均數(shù)、變異數(shù)及標準差的重要性質。學習目標介紹常用的統(tǒng)計量數(shù)來表達資料的特性。93本章架構4.1集中趨勢統(tǒng)計量數(shù)4.2位置統(tǒng)計量數(shù)4.3分散程度統(tǒng)計量數(shù)4.4全方位的統(tǒng)計圖—盒鬚圖4.5形狀統(tǒng)計量數(shù)4.6分組資料的統(tǒng)計量數(shù)4.7謝比雪夫不等式與經(jīng)驗法則4.8z分數(shù)的應用4.9樣本平均數(shù)、樣本變異數(shù)及樣本標準差的重要性質本章架構4.1集中趨勢統(tǒng)計量數(shù)944.1集中趨勢統(tǒng)計量數(shù)4.1.1平均數(shù)(mean)4.1.2中位數(shù)(median)4.1.3眾數(shù)(mode)4.1.4集中趨勢統(tǒng)計量數(shù)的比較4.1集中趨勢統(tǒng)計量數(shù)4.1.1平均數(shù)(mean)954.1集中趨勢統(tǒng)計量數(shù)(續(xù))所謂集中趨勢統(tǒng)計量數(shù)是以一個數(shù)值來描述樣本資料中,那一個分數(shù)或數(shù)值是最具代表性,或集中在那個中心位置。最常見的集中量數(shù)有三種,即眾數(shù)(Mode)、中位數(shù)(Median)、和算術平均數(shù)(Mean),到底用那一個集中量數(shù)和資料衡量尺度以及研究之目的有關。4.1集中趨勢統(tǒng)計量數(shù)(續(xù))所謂集中趨勢統(tǒng)計量數(shù)是以一個數(shù)964.1.1平均數(shù)平均數(shù)(mean)為所有數(shù)值總和除以所有數(shù)值的個數(shù),當資料是屬量資料時適用。母體平均數(shù)(μ)樣本平均數(shù)()4.1.1平均數(shù)平均數(shù)(mean)97臺積電股價報價2003年7月14日臺積電股價基本面訊息資料來源:中時理財網(wǎng)臺積電股價報價2003年7月14日臺積電股價基本面訊息98臺灣電力公司近五年經(jīng)營績效資料來源:臺灣電力公司網(wǎng)站臺灣電力公司近五年經(jīng)營績效99例4.1平均數(shù)若全班12位學生的體重分別為38、46、43、51、54、50、40、48、39、42、54、35公斤,試求其母體平均數(shù)?若以上資料為抽自全班60位同學的樣本觀察值,則其樣本平均數(shù)為何?解:例4.1平均數(shù)若全班12位學生的體重分別為38、46、4100例4.2平均數(shù)已知樣本資料2,3,5,10,15,若其中有所誤植,15應為85才正確,問平均數(shù)有何變化?解:

根據(jù)誤植的資料,則樣本平均數(shù)為(2+3+5+10+15)/15=7;若將15改為85,則樣本平均值變?yōu)?1,為原值的三倍。由上例可以知道平均數(shù)對於極端值(如上例中之85)的敏感度很強,這是採用平均數(shù)作為集中趨勢統(tǒng)計量數(shù)應特別留意之處。為此,我們介紹中位數(shù)來克服這樣的疑慮。例4.2平均數(shù)已知樣本資料2,3,5,10,15,若其中101平均數(shù)性質ΣXi=n;ΣXi=Nμ(Xi-)離差值

Σ(Xi-)=0minΣ(Xi-A)2

?Σ(Xi-)2

最小易受離群值(outlier)影響,可用修正平均數(shù)改善。變數(shù)變換:Y=aX+b

?

=a+b平均數(shù)性質ΣXi=n;ΣXi=Nμ102修正平均數(shù)調(diào)查大學生每周上網(wǎng)時數(shù),今隨機抽取n=16學生其資料如下:4,5,6,8,9,10,12,14,15,15,15,16,17,18,20,26求平均數(shù)求5%修正平均數(shù)Sol:(1)=13.125(2)修正平均數(shù)=12.86註:求修正平均數(shù)前需先將原資料排序修正平均數(shù)調(diào)查大學生每周上網(wǎng)時數(shù),今隨機抽取n=16學生其資1034.1.2中位數(shù)中位數(shù)(median)將資料由小到大(或由大到小)順序排列後,位於中心的數(shù)值稱之,通常以表示,當資料是屬量資料時適用。計算方法將資料由小到大排序寫成x(1),x(2),…,x(n)

4.1.2中位數(shù)中位數(shù)(median)104例4.3續(xù)例4.1求12位學生的體重之中位數(shù)?解:全班12位學生的體重分別為38、46、43、51、54、50、40、48、39、42、54、35公斤。將12位學生的體重由小到大排序如下:35,38,39,40,42,43,46,48,50,51,54,54,因為n=12為偶數(shù),故中位數(shù)為排序第六和第七位數(shù)值的平均,即例4.3續(xù)例4.1求12位學生的體重之中位數(shù)?105例4.4續(xù)例4.2已知樣本資料2,3,5,10,15,若其中有所誤植,15應為85才正確,請討論中位數(shù)的變化情形。解:

若是誤植資料,其中位數(shù)為5,但經(jīng)訂正使用85取代15,則中位數(shù)依然為5,由此可知,中位數(shù)完全不受影響。由上例可知,中位數(shù)可能只用資料的一個或兩個數(shù)值,故對極端值不敏感。但其數(shù)學運算卻不易操作,比如說,我們無法直接將兩組資料的個別中位數(shù)作運算而求得合併兩組資料後的中位數(shù),因此中位數(shù)不常用來作統(tǒng)計推論。例4.4續(xù)例4.2已知樣本資料2,3,5,10,15,1064.1.3眾數(shù)眾數(shù):指資料中出現(xiàn)次數(shù)最多的數(shù)或分組名稱。當數(shù)據(jù)或名稱各只出現(xiàn)一次時,眾數(shù)便不存在,但因次數(shù)可能相同,故眾數(shù)可能不唯一。屬質資料的集中趨勢統(tǒng)計量數(shù),用眾數(shù)(mode)表示最為適當。

4.1.3眾數(shù)眾數(shù):107例4.5眾數(shù)擲一公正的骰子10次,其點數(shù)分別為3、6、2、6、1、4、6、5、3、5,求其眾數(shù)?解:點數(shù)的出現(xiàn)次數(shù)分別為點數(shù)1:1次、點數(shù)2:1次、點數(shù)3:2次、點數(shù)4:1次、點數(shù)5:2次、點數(shù)6:3次,故M0=6。例4.5眾數(shù)擲一公正的骰子10次,其點數(shù)分別為3、6、2108例4.6

某科技大學管理學院院長欲瞭解所屬各碩士班的報名情形,得知資料如下:財金系250人,企管系308人,資管系169人,保險系145人,會計系178人,休閒系134人,問那一碩士班最為熱門?

解:

各碩士班乃屬質資料,故以眾數(shù)代表最為合適,即表示眾數(shù)為企管系,報名人數(shù)最多,是為某一年度最熱門的碩士班。例4.6某科技大學管理學院院長欲瞭解所屬各碩士班的報名1094.1.4集中趨勢統(tǒng)計量數(shù)的比較當資料是對稱分配時,則平均數(shù)、中位數(shù)及眾數(shù)三者皆相等。當數(shù)據(jù)是屬量資料時,則適用平均數(shù)或中位數(shù)。若為屬質資料時,則應以眾數(shù)為最佳選擇。以極端值而言,平均數(shù)受其影響最為明顯,相較之下,中位數(shù)與眾數(shù)則對極端值不敏感。平均數(shù)易於作數(shù)學運算,但中位數(shù)與眾數(shù)則不易達成某些簡單的數(shù)學運算目的。4.1.4集中趨勢統(tǒng)計量數(shù)的比較當資料是對稱分配時,則110平均數(shù)易於數(shù)學計算之特性

例如兩組樣本資料的個數(shù)與平均數(shù)分別為n1和n2及和,則將兩組資料合併後的樣本平均數(shù)為

平均數(shù)具有如此的功能,但中位數(shù)和眾數(shù)則無法同理得知,也就是說,兩組資料合併後的中位數(shù)和眾數(shù)都無法以一關係式來直接代表。

平均數(shù)易於數(shù)學計算之特性例如兩組樣本1114.2位置統(tǒng)計量數(shù)4.2.1百分位數(shù)(percentile)4.2.2四分位數(shù)(quartile)4.2位置統(tǒng)計量數(shù)4.2.1百分位數(shù)(percenti1124.2.1百分位數(shù)百分位數(shù)(percentile)通常以第k個百分數(shù)稱之,並寫成Pk,代表資料中在此分數(shù)下有多少百分比之樣本是在此分數(shù)之下。設樣本數(shù)為n,則

4.2.1百分位數(shù)百分位數(shù)(percentile)1134.2.1百分位數(shù)求百分位數(shù)Pk之步驟:(1)將原始資料排序(2)求位址i:

i=n/100×k(3)(i)i

Z

(整數(shù)),i

進位如

i

=3.2

Pk=X(4)(ii)i

Z

(整數(shù))如i

=5

Pk=(X(5)+X(6))/24.2.1百分位數(shù)求百分位數(shù)Pk之步驟:114兒童的身高所謂的矮小是相對的。一個排在第3百分位數(shù)的兒童,比排在第50百分位數(shù)的矮,但這個第50百分位數(shù)的兒童,也比第97百分位數(shù)的兒童矮。在臨床上,排在第三百分位數(shù)以下的兒童才算是所謂的矮。人的高度分佈是平均的,所以大約有3%的兒童,其身高低於第三百分位數(shù),這是正常的。如果他們的高度遠低於第三百分位數(shù),他們便可能是患病。

兒童的身高所謂的矮小是相對的。一個排在第3百分位數(shù)的兒童,比115例4.7續(xù)例4.1全班12位學生的體重分別為38,46,43,51,54,50,40,48,39,42,54,35公斤,求P20。解:因為不是整數(shù),所以取第三小的數(shù),即。

例4.7續(xù)例4.1全班12位學生的體重分別為38,46,1164.2.2四分位數(shù)四分位數(shù)(quartile):是將N分成四等份,因此第一個四分位之分數(shù)是指有25%的樣本數(shù)目(N)的分數(shù)低於此分數(shù)。P25,稱為第一個四分位數(shù)或下四分位數(shù)Q1。P50,稱為第二個四分位數(shù)Q2,就是中位數(shù),所以P50=Q2=Me。P75,稱為第三個四分位數(shù)或上四分位數(shù)Q3。註:十分位數(shù)是將N分成四等份:D1,D2,…,D10

Di=Pk,k=0.1×100×i4.2.2四分位數(shù)四分位數(shù)(quartile):117例4.8續(xù)例4.1全班12位學生的體重分別為38,46,43,51,54,50,40,48,39,42,54,35公斤,求Q1、Q2、Q3。解:

例4.8續(xù)例4.1全班12位學生的體重分別為38,46,118平均數(shù)、中位數(shù)及眾數(shù)三者之關係單峰右偏:Mo<Me<μ單峰左偏:μ<Me<Mo單峰對稱:μ=Me=Mo註:Me,Mo,Pk不受離群值影響,但平均數(shù)會受離 群值影響。平均數(shù)、中位數(shù)及眾數(shù)三者之關係單峰右偏:Mo<Me1194.3分散程度統(tǒng)計量數(shù)4.3.1全距(range)4.3.2四分位距(inter-quartilerang,IQR)4.3.3平均絕對離差(meanabsolutedeviation,MAD)4.3.4變異數(shù)(variance)與標準差(standarddeviation)4.3.5變異係數(shù)(coefficientofvariation,CV)4.3分散程度統(tǒng)計量數(shù)4.3.1全距(range)1204.3分散程度統(tǒng)計量數(shù)(續(xù))分散程度統(tǒng)計量數(shù)可用來描述資料整體之異質性或是變化、變異之程度,兩個樣本的分配可能有同樣的集中量數(shù),但卻有不同的分散程度統(tǒng)計量數(shù)。

例如有兩種基金的平均年報酬率相同,但第一種基金的年報酬率之範圍在-10%到20%之間,第二種基金的年報酬率之範圍在-30%到40%之間,雖然它們的平均數(shù)相同,但第二種基金的範圍較第一種基金來得大,故第二種基金的年報酬率之離散情形較大。故我們在分析資料時,需要同時考量集中趨勢量數(shù)與分散程度統(tǒng)計量數(shù)。4.3分散程度統(tǒng)計量數(shù)(續(xù))分散程度統(tǒng)計量數(shù)可用來描述資料1214.3.1全距全距(range)R=x(n)-x(1),容易受到極端值的影響。4.3.1全距全距(range)122例4.9哪一生產(chǎn)線的產(chǎn)品較符合公司的標準?假設某公司有兩條生產(chǎn)線A和B,都是生產(chǎn)6公分長的鐵釘,測量某天A和B生產(chǎn)線的鐵釘各100個,得以下資料:A生產(chǎn)線的最長和最短分別為5.98公分和6.02公分,B生產(chǎn)線則為5.96公分和6.05公分,問哪一生產(chǎn)線較符合公司的標準?解:利用已知資料可得,A生產(chǎn)線的全距為0.04公分,而B生產(chǎn)線則為0.09公分,由此可知,B生產(chǎn)線的產(chǎn)品較為參差不齊,故以A生產(chǎn)線的產(chǎn)品較符合標準。例4.9哪一生產(chǎn)線的產(chǎn)品較符合公司的標準?假設某公司有兩1234.3.2四分位距四分位距(inter-quartile,IQR)IQR=Q3-Q1,四分位距是考慮資料中間百分之五十的距離,故較不受極端值的影響。4.3.2四分位距四分位距(inter-quartil124例4.10續(xù)例4.8全班12位學生的體重分別為38,46,43,51,54,50,40,48,39,42,54,35公斤,試求出其四分位距。解:利用例4.8的結果,我們得知例4.10續(xù)例4.8全班12位學生的體重分別為38,461254.3.3平均絕對離差平均絕對離差(meanabsolutedeviation,簡寫為MAD)是指將每一資料點到平均數(shù)的差取絕對值後,即離差的絕對值,加總起來再除以n。平均絕對離差的值愈大代表資料愈分散;反之,即表示資料較為集中。4.3.3平均絕對離差平均絕對離差(meanabsolu1264.3.3平均絕對離差(續(xù))平均絕對離差(MAD):離差:離差和:4.3.3平均絕對離差(續(xù))平均絕對離差(MAD):127例4.11續(xù)例4.1全班12位學生的體重分別為38,46,43,51,54,50,40,48,39,42,54,35公斤,試求MAD。解:

例4.11續(xù)例4.1全班12位學生的體重分別為38,46,1284.3.4變異數(shù)與標準差變異數(shù)(variance)與標準差(standarddeviation)母體變異數(shù)(σ2):母體標準差(σ):樣本變異數(shù)(s2):樣本標準差(s):註:標準差與變異數(shù)之單位分別為資料相同單位與平方 單位4.3.4變異數(shù)與標準差變異數(shù)(variance)與標準差129母體變異數(shù)之簡便計算公式母體變異數(shù)之簡便計算公式130重要觀念計算變異數(shù)時用到的觀念為什麼計算變異數(shù)時,須除以N或是n-1?因為取平均可避免資料個數(shù)多寡的效應,也就是說,若不取平均,則對個數(shù)較多的一組資料是種“懲罰”,因它的離差平方和會相對地較大,若不取平均將失去比較資料間分散程度的意義。變數(shù)變換:Y=aX+bSy2=a2?Sx2兩組資料之變異數(shù)比較需在單位相同情況下重要觀念計算變異數(shù)時用到的觀念131共同基金的績效評比基金在各評估期間之報酬率,係基金在該期間之淨值累計報酬率。國際上評估基金績效所慣用的期間包括過去一個月、三個月、六個月、一年、三年、五年、十年及自基金成立日起至今第七個評估期間?;疬^去一年以內(nèi)的績效,可視為短期績效,三年為中期績效,三年以上為長期績效。一般而言,中、長期績效較能反應基金經(jīng)理人的能力;短期績效則反應基金經(jīng)理人之基本理念、操作型態(tài)是否與最近市場走勢一致。

標準差可衡量基金報酬率的波動程度,是一個常用的風險指標。標準差愈大表示報酬率好的時候與不好的時候相差愈大。共同基金的績效評比基金在各評估期間之報酬率,係基金在該期間之132共同基金的績效評比實例資料來源:92年06月份基金績效評比表—邱顯比教授、李存修教授製作

共同基金的績效評比實例133例4.12母體資料和樣本資料的變化就以下列資料:3,5,10,1,6,分別視為母體和樣本資料,求變異數(shù)及標準差?解:若為母體資料,則=5, ,。若為樣本資料,則,,。註:n2=(n-1)S2例4.12母體資料和樣本資料的變化就以下列資料:3,5,1344.3.5變異係數(shù)若有兩組資料的單位不同時,我們該如何比較它們的分散情形呢?計算平均絕對偏差、變異數(shù)和標準差時都要利用平均數(shù),因此它們也容易受到平均數(shù)的大小影響,是故無法直接利用前面所定義的統(tǒng)計量數(shù)來作分析。此時可以計算相對分散程度統(tǒng)計量數(shù),即為變異係數(shù)(coefficientofvariation,簡寫成CV)來衡量資料相對的分散情形。

4.3.5變異係數(shù)若有兩組資料的單位不同時,我們該如何比較1354.3.5變異係數(shù)母體變異係數(shù)樣本變異係數(shù)

註:變異係數(shù)使用時機

(1)單位不相同

(2)單位相同但平均數(shù)差異很大註:變異係數(shù)是沒有單位

4.3.5變異係數(shù)母體變異係數(shù)136例4.13體重或身高哪一項分散程度較大?假設取樣30位十歲兒童的平均身高為135公分,標準差10公分;平均體重為20公斤,標準差為2.5公斤,試問身高和體重哪一項分散程度較大?解:乍看之下,身高的標準差遠大於體重的標準差,但因兩者的單位不同,不宜直接由標準差的大小來說明分散程度。此時可利用變異係數(shù)來回答本問題 由此可知,十歲兒童體重的分散程度較身高來得大。例4.13體重或身高哪一項分散程度較大?假設取樣30位十137體重哪一群分散程度較大?假設各取樣30位十歲兒童與成年人其平均體重依序為20公斤、60公斤;標準差依序為2.5公斤、12公斤;,試問兒童與成年人的體重哪一個分散程度較大?解:乍看之下兩者的單位雖相同,成年人體重的變異數(shù)遠大於兒童體重的變異數(shù),但因兩者平均數(shù)差異過大,不宜直接由變異數(shù)的大小來說明分散程度。此時可利用變異係數(shù)來回答本問題由此可知,十歲兒童體重的分散程度較成年人體重來得小。體重哪一群分散程度較大?假設各取樣30位十歲兒童與成年人其平1384.4全方位的統(tǒng)計圖—盒鬚圖盒鬚圖(boxandwhiskerplot)又稱為箱型圖(boxplot)。盒鬚圖乃依據(jù)五個彙整量數(shù)—最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù),以及最大值—所畫出的一種表示資料特性的統(tǒng)計圖形。4.4全方位的統(tǒng)計圖—盒鬚圖盒鬚圖(boxandwhi1394.4全方位的統(tǒng)計圖—盒鬚圖(續(xù))

圖4.2典型的箱型圖4.4全方位的統(tǒng)計圖—盒鬚圖(續(xù))圖4.2典型的箱型圖1404.4全方位的統(tǒng)計圖—盒鬚圖(續(xù)1)診斷偏離值(outlier)的步驟計算四分位距(IQR),即IQR=Q3-Q1。以Q1為起點,計算所謂的下圍籬值(lowerfence),即Q1-1.5IQR;再以Q3為起點,計算上圍籬值(upperfence),即Q3+1.5IQR。若有觀測值落在上、下圍籬值之外,即稱為偏離值,也就是說,若觀測值小於下圍籬值或大於上圍籬值時稱之。註:利用Z分數(shù)判斷,當|

Zi|>3Xi為偏離值(當資料呈鐘形分布)4.4全方位的統(tǒng)計圖—盒鬚圖(續(xù)1)診斷偏離值(outlie141例4.14基金報酬率是否有偏離值?假設某一年有12檔基金的報酬率(%)如下:

15、12、35、14、16、14、17、20、18、17、15、14

請繪製盒鬚圖,並判斷是否有偏離值?解:首先,我們計算出x(1)=12,Q1=14,Me=15.5,Q3=17.5,x(12)=35。然後根據(jù)這五個統(tǒng)計量數(shù)繪製如圖4.3之盒鬚圖。(此圖係以SPSS統(tǒng)計軟體繪製,Excel軟體無此功能。)例4.14基金報酬率是否有偏離值?假設某一年有12檔基金的142例4.14基金報酬率是否有偏離值?(續(xù))由圖4.3可知,存在一個偏離值,即報酬率35%的那一檔基金。圖4.312檔基金報酬率之盒鬚圖RETURN4030201012例4.14基金報酬率是否有偏離值?(續(xù))由圖4.3可知,存1434.5形狀統(tǒng)計量數(shù)4.5.1偏度(skewness)4.5.2峰度(kurtosis)4.5形狀統(tǒng)計量數(shù)4.5.1偏度(skewness)1444.5形狀統(tǒng)計量數(shù)(續(xù))形狀統(tǒng)計量數(shù)(measureofshape)是用以表示資料是否對稱於中心點及寬闊或高聳的程度,主要的統(tǒng)計量數(shù)有偏度和峰度兩種。4.5形狀統(tǒng)計量數(shù)(續(xù))形狀統(tǒng)計量數(shù)(measureof1454.5.1偏度偏度(skewness)用來說明一組資料是否對稱於中心位置,通常以β1表示。樣本偏度

(1)β1>0,單峰右偏(2)β1<0,單峰左偏(3)β1=0,單峰對偏4.5.1偏度偏度(skewness)1464.5.1偏度(續(xù))圖4.4對稱資料中位數(shù)=平均數(shù)=眾數(shù)4.5.1偏度(續(xù))圖4.4對稱資料中位數(shù)=平均數(shù)147圖4.5右偏資料4.5.1偏度(續(xù)2)眾數(shù)中位數(shù)平均數(shù)圖4.5右偏資料4.5.1偏度(續(xù)2)眾數(shù)中位數(shù)平均148圖4.6左偏資料4.5.1偏度(續(xù)3)平均數(shù)中位數(shù)眾數(shù)圖4.6左偏資料4.5.1偏度(續(xù)3)平均數(shù)中位數(shù)眾1494.5.2峰度峰度:用來說明一組資料的分配高聳或寬闊的情況,通常以β2表示。(1)β2>0,高狹峰(2)β2<0,低闊峰(3)β2=0,常態(tài)峰4.5.2峰度峰度:150例4.15壽險業(yè)保單繼續(xù)率的分析長期壽險契約的保單繼續(xù)率一直是衡量壽險公司經(jīng)營績效的重要指標,尤其是第一年度(第十三個月)的保單繼續(xù)率,更是重要,因為對壽險公司而言,每件契約第一年所需負擔的成本最高,因此就單一保單而言,只有在保戶續(xù)年度持續(xù)繳交保費時,才能將保單的成本攤平.就臺灣壽險公司1999年度長期壽險契約繼續(xù)率分析我國壽險業(yè)在保單繼續(xù)率上的表現(xiàn)作一基本的敘述統(tǒng)計分析,如下表所示:例4.15壽險業(yè)保單繼續(xù)率的分析長期壽險契約的保單繼續(xù)率1514.6分組資料的統(tǒng)計量數(shù)4.6.1分組資料的樣本平均數(shù)、樣本變異數(shù)與樣本標準差4.6.2分組資料的中位數(shù)與百分位數(shù)4.6分組資料的統(tǒng)計量數(shù)4.6.1分組資料的樣本平均數(shù)、1524.6.1分組資料的樣本平均數(shù)、樣本變異數(shù)與

樣本標準差令xj為第j組的組中點,組中點=(組上限+組下限)÷2=(組上界+組下界)÷2樣本平均數(shù):樣本變異數(shù):樣本標準差:4.6.1分組資料的樣本平均數(shù)、樣本變異數(shù)與

樣本標準差令153例4.16分組資料的樣本平均數(shù)、樣本變異數(shù)與樣本標準差就表4.3的次數(shù)分配表求分組資料的樣本平均數(shù)、樣本變異數(shù)及樣本標準差。例4.16分組資料的樣本平均數(shù)、樣本變異數(shù)與樣本標準差154例4.16分組資料的樣本平均數(shù)、樣本變異數(shù)與樣本標準差(續(xù))解:例4.16分組資料的樣本平均數(shù)、樣本變異數(shù)與樣本標準差1554.6.2分組資料的中位數(shù)與百分位數(shù)分組資料的中位數(shù)第n/2項所對應的組別應是中位數(shù)所在的組別,當然我們知道其組界,故當組的下界等於前一組的上界,即,利用線性內(nèi)插法可得4.6.2分組資料的中位數(shù)與百分位數(shù)分組資料的中位數(shù)1564.6.2分組資料的中位數(shù)與百分位數(shù)(續(xù))求分組資料的百分位數(shù)(Pk)的步驟求位置指標。判斷Pk所在組別。利用線性內(nèi)插法可得4.6.2分組資料的中位數(shù)與百分位數(shù)(續(xù))求分組資料的百分1574.6.2分組資料的中位數(shù)與百分位數(shù)(續(xù)1)計算分組資料知中位數(shù)與百分位數(shù)有兩點值得特別注意:計算分組資料的中位數(shù)和百分位數(shù)是要用組界來運算,不宜用組限。為了決定位置,習慣上要先計算或,此時不管所得的結果是否為整數(shù),都可直接帶入式子計算,不用像計算未分組資料時都取整數(shù)值。4.6.2分組資料的中位數(shù)與百分位數(shù)(續(xù)1)計算分組資料知158例4.17分組資料的中位數(shù)與百分位數(shù)依例4.16所得次數(shù)分配表,求中位數(shù)P30、Q1及Q3?解:因n/2=25,故Me落於第5組,

因為,所以落於第4組,例4.17分組資料的中位數(shù)與百分位數(shù)依例4.16所得次數(shù)159例4.17分組資料的中位數(shù)與百分位數(shù)(續(xù))因為,所以Q1落於第3組,因為,所以Q3落於第6組,例4.17分組資料的中位數(shù)與百分位數(shù)(續(xù))因為1604.7謝比雪夫不等式與經(jīng)驗法則4.7.1謝比雪夫不等式(Chebyshev’sInequality)4.7.2經(jīng)驗法則(empiricalrule)4.7謝比雪夫不等式與經(jīng)驗法則4.7.1謝比雪夫不等式1614.7.1謝比雪夫不等式謝比雪夫不等式(Chebyshev’sInequality):對於任何的資料分配,觀測值落於平均數(shù)兩邊k個標準差的區(qū)間內(nèi)之機率(比例)至少為,其中k為大於1的任意數(shù)。謝比雪夫不等式可適用於任何資料型態(tài),使用它時並不需對資料作任何假設,只要知道平均數(shù)和標準差就可以推估有多少比例的資料會落在某一範圍內(nèi)。數(shù)學式:P(|X–μ|kσ),k>14.7.1謝比雪夫不等式謝比雪夫不等式(Chebyshev162圖4.8謝比雪夫不等式之圖示4.7.1謝比雪夫不等式(續(xù))

圖4.8謝比雪夫不等式之圖示4.7.1謝比雪夫不等式(續(xù)163例4.18謝比雪夫不等式就例3.6之五十筆樣本資料,試問有多少比例的觀察值落於

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論