統(tǒng)計(jì)學(xué)第三章描述統(tǒng)計(jì)_第1頁(yè)
統(tǒng)計(jì)學(xué)第三章描述統(tǒng)計(jì)_第2頁(yè)
統(tǒng)計(jì)學(xué)第三章描述統(tǒng)計(jì)_第3頁(yè)
統(tǒng)計(jì)學(xué)第三章描述統(tǒng)計(jì)_第4頁(yè)
統(tǒng)計(jì)學(xué)第三章描述統(tǒng)計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩159頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章 描述統(tǒng)計(jì)第一節(jié) 數(shù)據(jù)預(yù)處理一、缺失值處理二、數(shù)據(jù)分組三、次數(shù)分配四、分布曲線一、缺失值處理缺失值是指在數(shù)據(jù)采集與整理過(guò)程中丟失的內(nèi)容。缺失值的處理一般有兩種方式:一是刪除對(duì)應(yīng)的記錄,這種方式在數(shù)據(jù)缺失非常少的情況下是可行的,但如果各個(gè)項(xiàng)目中都有少數(shù)的數(shù)據(jù)缺失存在,對(duì)所有缺失的記錄都進(jìn)行刪除可能就會(huì)使總樣本量變得非常小,從而損失許多有用信息。缺失值處理的第二種方式是進(jìn)行插值處理,所謂插值,是指人為地用一個(gè)數(shù)值去替代缺失的數(shù)值。插值處理根據(jù)插值的不同,有如下一些方法:1、隨機(jī)插值根據(jù)缺失值的各種可能情況,等概率地進(jìn)行插值。例如在調(diào)查中,某人的性別缺失,其性別有兩種可能性,一是“男”,二是“女”,可以簡(jiǎn)單地?cái)S一枚硬幣,如果正面朝上,則賦值為“男”,如果反面朝上,則賦值為“女”。2、依概率插值隨機(jī)插值是假定一個(gè)變量取各種值的可能性是相等的,但有些情況下,我們可以事先知道一個(gè)變量取各種值的概率,例如,在對(duì)某單位的調(diào)查中,發(fā)現(xiàn)該單位女性占的比例是75%,男性的比例是25%,在這次調(diào)查中某人的性別缺失,則在對(duì)其的性別進(jìn)行賦值時(shí),不是按50%概率賦為“女”,而是按75%概率賦為“女”。3、就近插值就近插值是指根據(jù)缺失記錄附近的其他記錄的情況對(duì)缺失值進(jìn)行插值,例如在上例中,“張三”的性別出現(xiàn)缺失,此時(shí)可以用其鄰近的“李四”的性別數(shù)據(jù)替代“張三”的性別數(shù)據(jù),由于“李四”的性別為“女”,所以將“張三”的性別也賦為“女”。就近插值是依概率插值的一種簡(jiǎn)化處理,設(shè)想在整個(gè)單位的職工中,女性占的比例是75%,則在一般情況下,與張三鄰近的記錄性別為“女”的概率也應(yīng)當(dāng)為75%,就近插值實(shí)際上就是依概率插值。使用就近插值時(shí),需要對(duì)抽樣過(guò)程進(jìn)行必要的了解,如果抽樣時(shí)性別有交叉的情況,例如經(jīng)常是調(diào)查完一名男性后就調(diào)查一名女性,則使用就近插值就會(huì)出現(xiàn)較多的錯(cuò)誤。4、分類插值依概率插值是將記錄置于總體的背景上進(jìn)行插值,沒(méi)有充分利用記錄的其他信息。如果在記錄的其他信息中有某些項(xiàng)目與缺失項(xiàng)目存在相關(guān)性,則可以根據(jù)這些輔助信息對(duì)總體進(jìn)行分類,在每一類內(nèi)部進(jìn)行插值處理。例如,“張三”的職業(yè)是“護(hù)士”,假定該單位中95%的“護(hù)士”性別為“女”,則在進(jìn)行插值時(shí),就不是使用全單位的女性比例75%,而是使用“護(hù)士”中的女性比例95%對(duì)“張三”的性別進(jìn)行賦值。二、數(shù)據(jù)分組數(shù)據(jù)采集中的要求是盡可能完整地保留原始狀況,但在進(jìn)行數(shù)據(jù)處理時(shí),可能需要對(duì)數(shù)據(jù)進(jìn)行一定的歸類,以便于分析。這種數(shù)據(jù)歸類的過(guò)程,稱為數(shù)據(jù)分組。數(shù)據(jù)分組中需要考慮的內(nèi)容包括:1、分組標(biāo)志2、組數(shù)3、組距4、組限5、組中值1、分組標(biāo)志一批數(shù)據(jù)可以按不同的標(biāo)志進(jìn)行分組,選擇分組標(biāo)志要根據(jù)研究目的進(jìn)行。例如要研究受教育程度對(duì)收入的影響,則分組應(yīng)當(dāng)按學(xué)歷和月收入兩個(gè)標(biāo)志進(jìn)行,而沒(méi)有必要再使用身高、體重等標(biāo)志進(jìn)行分組。一般來(lái)說(shuō),分組標(biāo)志的選擇有兩個(gè)原則:自然原則和根據(jù)差異性進(jìn)行分組的原則。2、組數(shù)按同一標(biāo)志,可以將數(shù)據(jù)分成不同數(shù)量的組,例如按年齡分組,可以分為兒童、成年人兩組,也可以分為青少年、中年、老年三個(gè)組,也可以按10年或者5年為一段分為更多的組。組數(shù)的確定受自然標(biāo)志和規(guī)模標(biāo)志兩個(gè)因素的影響。自然標(biāo)志的不同,對(duì)于分組的細(xì)化程度也會(huì)有所不同;組數(shù)的確定還受到規(guī)模的影響,樣本量較大時(shí),組數(shù)也可以更大一些,反之則組數(shù)應(yīng)當(dāng)小一些。分組的一條原則:不要把組分的太細(xì)。初接觸統(tǒng)計(jì)分析的工作人員往往傾向于將數(shù)據(jù)分組分得很細(xì),以求保留更多的原始信息。需要提醒的是,數(shù)據(jù)分組過(guò)細(xì)后,最終的統(tǒng)計(jì)結(jié)果會(huì)表現(xiàn)為一個(gè)較大的表格,有時(shí)反而不利于閱讀和判斷。3、組距組距是指每個(gè)組的范圍跨度。組距的確定受自然和社會(huì)規(guī)律以及適當(dāng)平衡兩個(gè)因素影響。從自然和社會(huì)規(guī)律方面來(lái)說(shuō),組距的確定是客觀的,例如青少年的分組,是按年齡進(jìn)行劃分的,這種劃分方法不能被改變;按適當(dāng)平衡確定組距是針對(duì)一些沒(méi)有客觀標(biāo)準(zhǔn)的標(biāo)志進(jìn)行分組時(shí)采用的方法,例如按收入進(jìn)行分組時(shí),組距的確定并沒(méi)有客觀標(biāo)準(zhǔn)。此時(shí),可以根據(jù)樣本的結(jié)構(gòu)劃分組距,以使每一組的樣本數(shù)大致接近。4、組限組限指組與組之間的界限,組限與組距是一對(duì)相互影響的關(guān)系,組距調(diào)整了,組限也就發(fā)生了變化,反之,組限一旦確定下來(lái),組距也就確定了,組距等于組的上限與下限之差。組限的確定有時(shí)是客觀的,需要根據(jù)實(shí)際研究的內(nèi)容進(jìn)行調(diào)整。例如未成年人與成年人的分組界限是16歲,這是按國(guó)際標(biāo)準(zhǔn)的就業(yè)人口界限確定的。但如果分組的目的是研究樣本的民事行為能力,則這一分組界限就需要調(diào)整為18歲。另外,組限的確定應(yīng)該使得每組相對(duì)比較平衡,即每組的樣本量應(yīng)當(dāng)相對(duì)比較接近。有些時(shí)候,一個(gè)組可能會(huì)缺失上限或者缺失下限。對(duì)于連續(xù)型的變量來(lái)說(shuō),相鄰組的上限和下限會(huì)是同一的,例如在對(duì)收入進(jìn)行分組時(shí),“600-800元”和“800-1000元”就出現(xiàn)了重合,此時(shí),統(tǒng)計(jì)慣例是將重合的值計(jì)入后一組。即上述兩組的劃分為“600-800元(不含)”,和“800元-1000元(不含)”。5、組中值組中值是一個(gè)組中處于中間位置的值,往往用以代表一個(gè)組的平均狀況。對(duì)于缺上限或者缺下限的組,組中值的計(jì)算有幾種不同的情況:(1)根據(jù)鄰近組組距推算(2)對(duì)于缺下限組而言,當(dāng)鄰近組組距過(guò)大時(shí),使用上限的一半計(jì)算。例如,關(guān)于收入的分組是“500元以下”、“500-1500元”、“1500-2500元”、“2500-4000元”、“4000元以上”。此時(shí),計(jì)算第一組的組中值為500的一半,即250元。(3)根據(jù)現(xiàn)實(shí)情況人為確定有些情況下,一個(gè)組的上下限雖然不能確定,但可以進(jìn)行模糊地判斷,此時(shí)就可以利用這種模糊判斷的結(jié)果,確定該組的組中值。例如在收入數(shù)據(jù)中,“5000元以上組”的組中值可以根據(jù)城市中高收入人群的平均收入情況確定為“8000元”,這種確定的依據(jù)是現(xiàn)實(shí)的社會(huì)經(jīng)濟(jì)經(jīng)驗(yàn)數(shù)值。三、次數(shù)分配次數(shù)分配是指觀察值按分組標(biāo)志分配在各組內(nèi)的記錄數(shù)。各組中觀察值的數(shù)量稱為次數(shù),也稱頻數(shù)。各組次數(shù)與總次數(shù)的比例,稱為頻率。有時(shí)候,出于統(tǒng)計(jì)分析的目的,需要對(duì)高于或低于某一組的所有觀察值的次數(shù)進(jìn)行統(tǒng)計(jì),這樣形成的次數(shù)分配表,稱為累積次數(shù)分配表。四、分布曲線1、概念2、分布曲線的類型1、概念在平面直角坐標(biāo)系上,以分組標(biāo)志為橫軸,次數(shù)或者頻率為縱軸,可以畫出次數(shù)分配的直方圖。例如一次次數(shù)分配情況可以表示為:將直方圖的頂端用折線連接,可以獲得次數(shù)分配的折線圖,折線圖的含義與直方圖是一致的,均反映不同組的次數(shù)分配情況,折線越高的地方,反映該組的次數(shù)越多,反之則越少。當(dāng)樣本量較大,組距較小時(shí),折線圖會(huì)越來(lái)越平滑,直至成為一條曲線。這種曲線稱為次數(shù)分布曲線,反映出數(shù)據(jù)的分布規(guī)律。分布曲線2、分布曲線的類型數(shù)據(jù)的分布特征不同,形成的分布曲線也表現(xiàn)出各種不同的類型,常見的分布曲線的類型有下列各種:(1)鐘形分布(2)J形分布(3)U形分布(4)多峰分布(1)鐘形分布鐘形分布是社會(huì)經(jīng)濟(jì)現(xiàn)象中最常見的分布形式,具體表現(xiàn)為中間隆起,兩側(cè)逐漸降低。鐘形分布表明數(shù)據(jù)具有集中的趨勢(shì),大多數(shù)數(shù)據(jù)集中在中間,越往兩端,數(shù)據(jù)越少。在遠(yuǎn)離中心的位置,只有極少數(shù)的數(shù)據(jù)。鐘形分布的中間隆起部分稱為峰,兩側(cè)稱為尾。一個(gè)典型的鐘形分布的例子鐘形分布根據(jù)鐘的特點(diǎn)可以進(jìn)一步分為偏態(tài)的鐘形分布和對(duì)稱的鐘形分布。由于兩側(cè)的數(shù)據(jù)不對(duì)稱,因此這種鐘形分布稱為偏態(tài)的鐘形分布。根據(jù)較長(zhǎng)的尾所指的方向不同,將偏態(tài)又可分為正偏(右偏)和負(fù)偏(左偏)兩種,上圖中較長(zhǎng)的尾部指向左方,即數(shù)據(jù)的負(fù)方向,所以稱為負(fù)偏態(tài),或者左偏態(tài)。左右對(duì)稱的鐘形分布是一種特殊情況,因?yàn)樽匀滑F(xiàn)象中嚴(yán)格呈現(xiàn)出左右對(duì)稱的是非常少見的。對(duì)稱的鐘形分布大多數(shù)是屬于數(shù)據(jù)經(jīng)過(guò)處理后的分布形式。其中最典型的對(duì)稱鐘形分布是正態(tài)分布(Normal Distribution)。正態(tài)分布圖(2)J形分布J形分布一般是累積分布的表現(xiàn)形式,在圖形上表現(xiàn)為一條從下向上單調(diào)變化的曲線。根據(jù)J形分布的方向,又可分為正J形和反J形。所謂反J形,是指曲線單調(diào)遞減的情況,一般是用于描述向上累積的現(xiàn)象。(3)U形分布U形分布是指中間凹陷,兩端翹起的分布形式,反映出某一個(gè)社會(huì)經(jīng)濟(jì)現(xiàn)象在開始和結(jié)束時(shí)某項(xiàng)活動(dòng)比較頻繁,而在中間則相對(duì)比較穩(wěn)定。U形曲線一般用于描述具有生命或者質(zhì)量特征的現(xiàn)象,例如人和動(dòng)物的死亡率數(shù)據(jù),人和動(dòng)物一樣,在幼年和老年的死亡率都比較高,中年的死亡率較低,從而表現(xiàn)為U形曲線。產(chǎn)品的故障率也具有這樣的特征,產(chǎn)品使用初期和老化期的故障率都比較高,中間階段則故障率比較低。U形曲線因形狀像浴缸,又稱為浴缸曲線。是兩個(gè)不同的因素同時(shí)對(duì)一個(gè)社會(huì)經(jīng)濟(jì)現(xiàn)象起作用的結(jié)果。如產(chǎn)品故障率,同時(shí)受產(chǎn)品自身缺陷和老化兩個(gè)因素影響,在使用初期,自身缺陷造成的故障率較高,在使用后期,則老化引起的故障率較高,中間階段則正好處于兩個(gè)故障率均較低的階段。浴缸曲線的確定對(duì)廠商服務(wù)質(zhì)量的確定也有幫助。反U形曲線,雖形似鐘形曲線,但它的分布卻與時(shí)間有關(guān),可以反映出新產(chǎn)品上市時(shí)的情況。(4)多峰分布多峰分布是指超過(guò)一個(gè)隆起部分的分布,數(shù)列有若干個(gè)隆起部分,反映出影響數(shù)據(jù)的主要因素有若干個(gè)不同的水平,受不同水平影響的數(shù)據(jù)分別以不同的中心點(diǎn)聚集,從而形成若干個(gè)峰值。例如如果將某次調(diào)查中男女受訪者的身高數(shù)據(jù)放在一起觀察,就會(huì)發(fā)現(xiàn)數(shù)據(jù)表現(xiàn)出兩個(gè)峰值,男性的平均身高和女性的平均身高分別為175CM和162CM。案例洛倫茲曲線基尼系數(shù)第二節(jié) 總量指標(biāo)和相對(duì)指標(biāo)一、總量指標(biāo)和相對(duì)指標(biāo)二、描述總量指標(biāo)和相對(duì)指標(biāo)的一些常用術(shù)語(yǔ)一、總量指標(biāo)和相對(duì)指標(biāo)總量指標(biāo)是反映社會(huì)經(jīng)濟(jì)現(xiàn)象總體規(guī)?;蛩降闹笜?biāo),又稱為絕對(duì)數(shù)。例如一個(gè)國(guó)家一定時(shí)期內(nèi)的人口數(shù)、一個(gè)地區(qū)的土地面積等等。相對(duì)指標(biāo)是兩個(gè)有聯(lián)系的總量指標(biāo)對(duì)比計(jì)算的比率,又稱為相對(duì)數(shù)。根據(jù)相比較的總量指標(biāo)之間的關(guān)系不同,相對(duì)指標(biāo)可以劃分為若干種類型:結(jié)構(gòu)相對(duì)指標(biāo)、比例相對(duì)指標(biāo)、強(qiáng)度相對(duì)指標(biāo)、比較相對(duì)指標(biāo)、動(dòng)態(tài)相對(duì)指標(biāo)。5、動(dòng)態(tài)相對(duì)指標(biāo)二、描述總量指標(biāo)和相對(duì)指標(biāo)的一些常用術(shù)語(yǔ)1、靜態(tài)比較與動(dòng)態(tài)比較2、基期與報(bào)告期3、時(shí)期和時(shí)點(diǎn)1、靜態(tài)比較與動(dòng)態(tài)比較將同一時(shí)期的統(tǒng)計(jì)指標(biāo)放在一起進(jìn)行比較,稱為靜態(tài)比較。如果是用不同單位的同一時(shí)期指標(biāo)進(jìn)行相互比較,則可稱為橫向比較。同一單位或者不同單位的同一時(shí)期數(shù)據(jù),稱為橫斷面數(shù)據(jù),表示按某一時(shí)間進(jìn)行攔腰截?cái)嗪?,所觀察到的數(shù)據(jù)。將不同時(shí)期的統(tǒng)計(jì)指標(biāo)放在一起進(jìn)行比較,稱為動(dòng)態(tài)比較。將同一單位的不同時(shí)期指標(biāo)進(jìn)行相互比較,又稱為縱向比較。2、基期與報(bào)告期在進(jìn)行動(dòng)態(tài)比較時(shí),有時(shí)會(huì)用當(dāng)前的數(shù)據(jù)與過(guò)去某一時(shí)間的數(shù)據(jù)進(jìn)行對(duì)比。此時(shí),將當(dāng)前的數(shù)據(jù)稱為報(bào)告期數(shù)據(jù),將用于比較的過(guò)去的數(shù)據(jù)稱為基期數(shù)據(jù)。如果觀察的是若干個(gè)時(shí)期的數(shù)據(jù),每個(gè)時(shí)期的數(shù)據(jù)均與同一個(gè)基期數(shù)據(jù)進(jìn)行對(duì)比,則這種比較方法,稱為定基比較。例如,將某一時(shí)期1999年、2000年、2001年和2002年的GNP數(shù)值與1999年進(jìn)行比較,所獲得的3個(gè)比例,稱為定基增長(zhǎng)率。如果在觀察若干個(gè)時(shí)期的數(shù)據(jù)時(shí),每一數(shù)據(jù)均與前一時(shí)期進(jìn)行對(duì)比,則這種比較方法稱為環(huán)比比較。例如,觀察1999年至2002年的GNP增長(zhǎng)情況,其中2000年與1999年進(jìn)行比較,2001年與2000年進(jìn)行比較,2002年與2001年進(jìn)行比較,則獲得的一組增長(zhǎng)率數(shù)據(jù),稱為環(huán)比增長(zhǎng)率。3、時(shí)期和時(shí)點(diǎn)時(shí)期是指兩個(gè)時(shí)間點(diǎn)之間的一段時(shí)間,時(shí)點(diǎn)是指某一特定的時(shí)刻。時(shí)期指標(biāo)往往是具有動(dòng)態(tài)特征的指標(biāo),例如在連續(xù)的一段時(shí)間內(nèi)所進(jìn)行的生產(chǎn)活動(dòng),要進(jìn)行統(tǒng)計(jì)時(shí),就必須采用時(shí)期指標(biāo)。時(shí)點(diǎn)指標(biāo)是具有靜態(tài)特征的指標(biāo),反映的是過(guò)去所有活動(dòng)的結(jié)果,例如某一時(shí)點(diǎn)上的國(guó)民財(cái)富積累情況,等等。第三節(jié) 平均指標(biāo)平均指標(biāo)指同類社會(huì)經(jīng)濟(jì)現(xiàn)象在一定時(shí)間、地點(diǎn)條件下所達(dá)到的一般水平。平均指標(biāo)是數(shù)據(jù)描述中最基本的指標(biāo)之一。常用的平均指標(biāo)包括下列七類:一、算術(shù)平均數(shù)(Arithmetic Mean)二、調(diào)和平均數(shù)(Harmonic Mean)三、幾何平均數(shù)(Geometric Mean)四、眾數(shù)(Mode)五、中位數(shù)(Median)六、分位數(shù)七、截尾均值一、算術(shù)平均數(shù)(Arithmetic Mean)算術(shù)平均數(shù)也稱均值,是所有數(shù)的總和與數(shù)量之商。用公式表示如下:對(duì)于分組數(shù)據(jù),計(jì)算算術(shù)平均數(shù)時(shí),可使用加權(quán)算術(shù)平均數(shù)方法。例子:評(píng)價(jià)一個(gè)網(wǎng)站加權(quán)算術(shù)平均數(shù)適用于三種不同的場(chǎng)合:分組頻數(shù)數(shù)列、分組頻率數(shù)列、具有不同權(quán)重的變量求平均。二、調(diào)和平均數(shù)(Harmonic Mean)調(diào)和平均數(shù)是根據(jù)標(biāo)志值的倒數(shù)計(jì)算出來(lái)的平均指標(biāo),其意義與算術(shù)平均數(shù)一致。可以這樣理解,調(diào)和平均數(shù)是在數(shù)據(jù)來(lái)源不同的情況下計(jì)算算術(shù)平均數(shù)的一種方法,調(diào)和平均數(shù)都可以通過(guò)數(shù)據(jù)轉(zhuǎn)換,調(diào)整成算術(shù)平均數(shù)進(jìn)行計(jì)算。案例:已知某人分幾次購(gòu)買蘋果的情況如下:使用調(diào)和平均數(shù)計(jì)算蘋果的平均價(jià)格,方法如下:此例也可轉(zhuǎn)化為算術(shù)平均數(shù)進(jìn)行計(jì)算,根據(jù)“購(gòu)買數(shù)量=購(gòu)買金額/蘋果價(jià)格”,可以計(jì)算出所購(gòu)買蘋果的總數(shù)量,如下表:根據(jù)算術(shù)平均數(shù)的計(jì)算公式,也可計(jì)算蘋果的平均價(jià)格,即3.91元/公斤。根據(jù)本例也可以看出,調(diào)和平均數(shù)實(shí)際上只是將進(jìn)行數(shù)據(jù)轉(zhuǎn)換的步驟綜合在計(jì)算公式中而已,實(shí)際上所計(jì)算的,仍然是算術(shù)平均數(shù)。三、幾何平均數(shù)(Geometric Mean)幾何平均數(shù)是在數(shù)列具有連乘積特征的情況下所計(jì)算的平均數(shù)。算術(shù)平均數(shù)的特征是各個(gè)參與平均的變量之間是平行的關(guān)系,變量之間可以直接相加,獲得總和。例如,三個(gè)人的收入分別為100元、110元和120,則計(jì)算三個(gè)數(shù)的和,可得到三個(gè)人的總收入值為330元。幾何平均數(shù)的特征是參與平均的變量之間是連續(xù)的關(guān)系,變量之間是通過(guò)相乘的方式來(lái)獲得累積效果的。例如,某人在銀行存款,本金為1000元,三年的存款利息率分別為10%,15%和20%,則三年后此人的銀行存款本息之和為:1000元×(1+10%)×(1+15%)×(1+20%)=1518元這種具有連乘積特征的變量關(guān)系,在進(jìn)行平均計(jì)算時(shí),需采用幾何平均數(shù)的方式。以上述的某人存款的數(shù)據(jù)為例,此人存款三年的平均利息率為:幾何平均數(shù)也有加權(quán)形式,加權(quán)幾何平均數(shù)的計(jì)算公式為:四、眾數(shù)(Mode)眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值。對(duì)于輕微偏態(tài)的單峰分布數(shù)據(jù)來(lái)說(shuō),眾數(shù)反映的是數(shù)據(jù)的集中趨勢(shì)位置,因此可以反映一組數(shù)據(jù)的平均狀態(tài)。相對(duì)于算術(shù)平均數(shù),眾數(shù)更注重大多數(shù)的特征,而不關(guān)注極端數(shù)據(jù)的特征,這樣,眾數(shù)就是一個(gè)較為穩(wěn)健的統(tǒng)計(jì)量。在我們對(duì)一組數(shù)列進(jìn)行統(tǒng)計(jì)分析時(shí),選擇統(tǒng)計(jì)方法主要有兩個(gè)原則:1、靈敏:可以非常準(zhǔn)確的反映出這組數(shù)據(jù)的變化狀況;2、穩(wěn)?。阂坏┰跀?shù)列中出現(xiàn)小的差錯(cuò),可以被排除在外。分組數(shù)列的眾數(shù)例子:對(duì)于上例,計(jì)算眾數(shù)如下:五、中位數(shù)(Median)中位數(shù)是位于統(tǒng)計(jì)數(shù)列中間位置上的數(shù)。在數(shù)列中,有一半的數(shù)據(jù)大于中位數(shù),一半的數(shù)據(jù)小于中位數(shù),因此中位數(shù)可以反映數(shù)列的一般水平。中位數(shù)的位置計(jì)算公式為中位數(shù)不容易受到極端值的影響,數(shù)列中有個(gè)別數(shù)值出現(xiàn)異常,一般不會(huì)影響到中位數(shù)的大小。因此,中位數(shù)是一個(gè)比較穩(wěn)健的統(tǒng)計(jì)量。對(duì)于上例,計(jì)算中位數(shù)如下:七、截尾均值截尾均值是指在一個(gè)數(shù)列中,去掉兩端的極端值后所計(jì)算的算術(shù)平均數(shù),也稱為切尾均值。最常見的截尾均值的例子是在一些比賽中,計(jì)算選手的最終得分需要“去掉一個(gè)最高分,去掉一個(gè)最低分”,這種處理方法,即為計(jì)算截尾均值的方法。截尾均值由于去掉了數(shù)列中影響數(shù)據(jù)穩(wěn)定性的極端值,從而具有較好的穩(wěn)健性,不易受到極端值的干擾。極端值的判定根據(jù)分析目的的不同,可以有下列各種不同的方法:1、確定兩端或者一端固定數(shù)量的值為極端值2、確定一個(gè)固定范圍外的數(shù)值為極端值3、根據(jù)數(shù)據(jù)的統(tǒng)計(jì)結(jié)果來(lái)確定極端值1、確定兩端或者一端固定數(shù)量的值為極端值例如確定最大值和最小值為極端值,而不去觀察這兩個(gè)值本身是多少。2、確定一個(gè)固定范圍外的數(shù)值為極端值在數(shù)據(jù)處理時(shí),人為地確定一個(gè)取值范圍,超出這范圍內(nèi)的數(shù)值一律被當(dāng)作極端值。例如在計(jì)算平均收入時(shí),將10000元以上的收入值統(tǒng)一判定為極端值,不進(jìn)行平均計(jì)算。3、根據(jù)數(shù)據(jù)的統(tǒng)計(jì)結(jié)果來(lái)確定極端值這種方法的特點(diǎn)是不事先確定極端值的范圍,而是根據(jù)數(shù)據(jù)的實(shí)際數(shù)值,來(lái)推算極端值的范圍。例如在計(jì)算收入數(shù)據(jù)時(shí),約定以中位數(shù)的3倍作為極端值的范圍,這樣,對(duì)于不同的工資水平的地區(qū),極端值的范圍也就有所不同了。第四節(jié) 離散程度指標(biāo)一、極差(Range)二、內(nèi)距(Inter-Quartile Range)三、四分展布四、平均絕對(duì)差(Mean Absolute Deviation)五、方差(Variance)和標(biāo)準(zhǔn)差六、離散系數(shù)(Coefficient of Variation)一、極差(Range)極差是數(shù)據(jù)的最大值與最小值之差,用公式表示如下:極差反映出數(shù)據(jù)在空間上的分布范圍,一般情況下,分布范圍越大,表明數(shù)據(jù)整體越離散。極差是一個(gè)不夠穩(wěn)健的統(tǒng)計(jì)量,個(gè)別極端值的存在,可能會(huì)對(duì)極差造成很大的影響。二、內(nèi)距(Inter-Quartile Range)內(nèi)距也稱四分位差,是指第三四分位數(shù)與第一四分位數(shù)之差。用公式表示如下:內(nèi)距由于使用的是第三四分位和第一四分位的差,受兩端的極端值影響較小,因此更為穩(wěn)定。內(nèi)距反映的處于中間位置的一半數(shù)據(jù)的分布范圍,該范圍的大小,可以反映整個(gè)數(shù)列的離散程度。三、四分展布1、秩2、深度3、中位數(shù)4、四分?jǐn)?shù)1、秩秩是指將一個(gè)數(shù)列排序后所處的位置。將數(shù)據(jù)進(jìn)行排序后,從最小值向最大值計(jì)算的名次,稱為數(shù)據(jù)的升秩;從最大值向最小值計(jì)算的名次,稱為數(shù)據(jù)的降秩。顯然,對(duì)于任何一個(gè)數(shù)據(jù)而言,有:升秩+降秩=N+12、深度升秩和降秩中的最小值,稱為一個(gè)數(shù)據(jù)的深度。例子:有一個(gè)數(shù)列:3,7,9,12,18,24,26可知:Me=12四、平均絕對(duì)差(Mean Absolute Deviation)極差和內(nèi)距都是根據(jù)數(shù)據(jù)所處的位置來(lái)進(jìn)行計(jì)算的離散指標(biāo),未能充分利用所有數(shù)據(jù)的信息。平均絕對(duì)差是指各個(gè)標(biāo)志值對(duì)其算術(shù)平均數(shù)的平均離差。平均絕對(duì)差的計(jì)算公式推導(dǎo):平均絕對(duì)差的計(jì)算公式:五、方差(Variance)和標(biāo)準(zhǔn)差平均絕對(duì)差使用絕對(duì)值來(lái)消除離差的正負(fù)號(hào),在數(shù)學(xué)處理中,具有一些不方便之處。方差是使用求平方的方式來(lái)消除正負(fù)號(hào),便于數(shù)學(xué)處理。方差的計(jì)算公式:利用上例數(shù)據(jù),計(jì)算方差:方差的簡(jiǎn)捷計(jì)算方法:利用上例數(shù)據(jù),計(jì)算方差:計(jì)算方差的另一種方法:五、方差方差的計(jì)算器計(jì)算方法:按計(jì)算器的2nd+ON/C鍵進(jìn)入統(tǒng)計(jì)功能,計(jì)算器的左上角會(huì)出現(xiàn)STAT的符號(hào)。計(jì)算器上有幾個(gè)功能鍵是和統(tǒng)計(jì)有關(guān)的,詳見黑板上圖。幾個(gè)鍵的功能分別為:第一個(gè)鍵為整個(gè)的統(tǒng)計(jì)功能提供數(shù)據(jù)。數(shù)據(jù)輸入的方法標(biāo)準(zhǔn)差:方差的平方根稱為標(biāo)準(zhǔn)差。在現(xiàn)實(shí)生活中,還存在一種是非標(biāo)志變量,這種變量在統(tǒng)計(jì)中成為一種成數(shù)現(xiàn)象。成數(shù)(P)是在是非標(biāo)志中選擇是的比例:成數(shù)方差的計(jì)算:結(jié)論:如果已知一組數(shù)是是非標(biāo)志,其成數(shù)為p,則這組數(shù)的方差為p(1-p)。六、離散系數(shù)(Coefficient of Variation)當(dāng)幾組數(shù)據(jù)的平均水平不同時(shí),標(biāo)準(zhǔn)差的含義也有所不同。為了對(duì)水平不同的數(shù)據(jù)進(jìn)行離散程度的比較,需要計(jì)算標(biāo)準(zhǔn)差相對(duì)于平均數(shù)的大小,稱為離散系數(shù)。第五節(jié) 其他內(nèi)容一、數(shù)據(jù)變換二、探索性數(shù)據(jù)分析三、對(duì)誤差的描述四、箱線圖一、數(shù)據(jù)變換1、原點(diǎn)變換2、尺度變換3、一般線性變換4、中心化變換5、極差變換6、標(biāo)準(zhǔn)化變換7、非線性變換數(shù)據(jù)變換是為了更好地顯示數(shù)據(jù),以便于分析人員對(duì)數(shù)據(jù)的特征進(jìn)行掌握。數(shù)據(jù)變換原則上應(yīng)當(dāng)是單調(diào)的,也就是說(shuō),經(jīng)過(guò)變換后的數(shù)據(jù)順序,與變換前沒(méi)有發(fā)生改變。1、原點(diǎn)變換對(duì)于數(shù)據(jù)絕對(duì)值比較大,遠(yuǎn)離原點(diǎn)的情況,可以通過(guò)這種方式,將數(shù)據(jù)調(diào)整到原點(diǎn)附近,以便于觀察。2、尺度變換尺度變換的例子:三匹馬的體重分別為200kg、201kg、202kg,三只螞蟻的體重分別為500mg、1000mg、1500mg,無(wú)法在同一坐標(biāo)系上表示出馬和螞蟻的體重離散程度。可以將螞蟻的體重稱上5000000,進(jìn)行尺度變換,將螞蟻的體重變?yōu)?50kg、500k、750kg,從而可以將這些數(shù)據(jù)在同一坐標(biāo)系中表示出來(lái)。對(duì)于數(shù)據(jù)差異較大或者較小,普通坐標(biāo)系無(wú)法容納的情況,通過(guò)這種變換,能夠使之尺度發(fā)生變化,適應(yīng)常規(guī)尺度。3、一般線性變換一般線性變換是原點(diǎn)變換與尺度變換同時(shí)作用的結(jié)果。4、中心化變換中心化變換可以將數(shù)據(jù)批調(diào)整到以平均值為中心。5、標(biāo)準(zhǔn)化變換標(biāo)準(zhǔn)化變換是將數(shù)據(jù)批進(jìn)行原點(diǎn)和尺度的同時(shí)變換,使之與標(biāo)準(zhǔn)正態(tài)分布的規(guī)格相一致。例子:歌手大獎(jiǎng)賽A地區(qū)歌手得分分別為:80、85、87、90、92;B地區(qū)歌手得分分別為:93.7、93.4、93.0、94.2、94.7;C地區(qū)歌手得分分別為:9.7、9.6、9.4、9.6、9.5。假定打分是同樣分布的一批歌手,因?yàn)楦鞯氐拇蚍智闆r不同,不能簡(jiǎn)單的比較各個(gè)地區(qū)的歌手好壞。為了比較這三個(gè)不同的數(shù)據(jù)批,可以將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換。A地區(qū)歌手得分標(biāo)準(zhǔn)化變換后的分?jǐn)?shù)為: -1.632、-0.432、0.048、0.768、1.248;B地區(qū)歌手得分標(biāo)準(zhǔn)化變換后的分?jǐn)?shù)為: -0.168、-0.670、-1341、0.670、1.508。經(jīng)過(guò)標(biāo)準(zhǔn)化變化的兩批數(shù)據(jù)狀況分析:可以看出B地區(qū)最高分的表現(xiàn)比平均水平高出1.508,而A地區(qū)的最高分僅高出1.248,說(shuō)明B地區(qū)最高分的表現(xiàn)更出眾。6、規(guī)格化變換(極差變換)規(guī)格化變換是將數(shù)據(jù)批調(diào)整至最大值為1,最小值為0的區(qū)間。7、非線性變換非線性變換主要用于數(shù)據(jù)序列的變化規(guī)律不均勻的場(chǎng)合中,例如,當(dāng)處理一批平均水平不同的數(shù)據(jù)時(shí),需要將數(shù)據(jù)進(jìn)行對(duì)數(shù)變換,以求在同一坐標(biāo)系內(nèi)反映不同的數(shù)據(jù)批。例如:我國(guó)的移動(dòng)電話的數(shù)量,可以用黑板上的圖來(lái)表示。因?yàn)閿?shù)量太大,不能進(jìn)行原點(diǎn)變換等其他變換方式。我們需要找到一種方式進(jìn)行變換,其一是要使得數(shù)據(jù)能夠保持原有的單調(diào)變化,其二是能夠使得這個(gè)變化過(guò)程在整個(gè)圖中都表示出來(lái)。我們可以采用對(duì)數(shù)變換的方式。本例中我們?nèi)∫?0為底的對(duì)數(shù)。300部手機(jī)取對(duì)數(shù)后為2.477,10萬(wàn)部手機(jī)取對(duì)數(shù)后為5,7000萬(wàn)步手機(jī)取對(duì)數(shù)后為7.845,3億部手機(jī)取對(duì)數(shù)后為8.477。再在圖中就可以很清楚的表示出來(lái)了。二、探索性數(shù)據(jù)分析探索性數(shù)據(jù)分析是描述統(tǒng)計(jì)中一個(gè)重要的課題。數(shù)據(jù)分析人員經(jīng)常要面對(duì)紛繁復(fù)雜的原始數(shù)據(jù),如果不能掌握數(shù)據(jù)的基本規(guī)律,就不可能有針對(duì)性地采用各種統(tǒng)計(jì)方法。在實(shí)踐中,數(shù)據(jù)分析往往分為兩個(gè)步驟:探索性數(shù)據(jù)分析與證實(shí)分析。探索性數(shù)據(jù)分析是從復(fù)雜的數(shù)據(jù)中分離出數(shù)據(jù)的基本模式和特點(diǎn),讓分析者發(fā)現(xiàn)其中的規(guī)律,以便選擇分析方法。對(duì)于在探索性數(shù)據(jù)分析中發(fā)現(xiàn)的數(shù)據(jù)規(guī)律,分析者需要使用特定的統(tǒng)計(jì)模型進(jìn)行證實(shí)分析,以確定規(guī)律是否正確。探索性數(shù)據(jù)分析與證實(shí)分析在一次數(shù)據(jù)分析中往往要多次交替使用,在證實(shí)分析結(jié)束后,分析人員可能會(huì)發(fā)現(xiàn)更多有待探索的數(shù)據(jù)模式,從而需要再次使用探索性數(shù)據(jù)分析工具。探索性數(shù)據(jù)分析有四大主題,分別是:1、耐抗性2、殘差3、重新表達(dá)4、圖示1、耐抗性所謂耐抗性,是指分析方法對(duì)于數(shù)據(jù)局部不良行為的非敏感性。原始數(shù)據(jù)來(lái)源不可能保證所有的數(shù)據(jù)均準(zhǔn)確無(wú)誤,在數(shù)據(jù)存在少量錯(cuò)誤的情況下,如何能夠不被錯(cuò)誤數(shù)據(jù)所誤導(dǎo),而認(rèn)識(shí)到數(shù)據(jù)的本來(lái)面目,十分重要。2、殘差殘差是指從數(shù)據(jù)中減去一個(gè)總括統(tǒng)計(jì)量或擬合模型后的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論