版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第5章統(tǒng)計量及其分布【考試要求】5.1總體與樣本
總體樣本
5.2樣本的分布與數(shù)值特征
樣本數(shù)據(jù)的整理與顯示樣本的數(shù)值特征
5.3統(tǒng)計量與抽樣分布
統(tǒng)計量的概念抽樣分布與正態(tài)總體有關的抽樣分布
【要點詳解】
§5.1總體與樣本1.總體
總體:在數(shù)理統(tǒng)計中研究對象的全體。
個體:構成總體的每一個成員。
注:由于每一項統(tǒng)計研究通常關心的是總體和個體的某個(或多個)特定的數(shù)量指標,所以,在具體的研究案例中通常用對應的數(shù)量指標表示總體和個體。數(shù)理統(tǒng)計的研究目的就是想了解總體X的分布特征和統(tǒng)計規(guī)律。
【例題5.1】要了解某市工業(yè)企業(yè)生產(chǎn)設備情況,則總體是()。A.該市全部工業(yè)企業(yè)B.該市重點工業(yè)企業(yè)C.該市重點工業(yè)企業(yè)的每一臺設備D.該市工業(yè)企業(yè)的全部生產(chǎn)設備E.該市工業(yè)企業(yè)的每一臺設備的運轉情況
【答案】D
【解析】在數(shù)理統(tǒng)計中將研究對象的全體稱為總體,構成總體的每一個成員稱為個體。要了解某市工業(yè)企業(yè)生產(chǎn)設備情況,則統(tǒng)計總體應該為該市工業(yè)企業(yè)的全部生產(chǎn)設備。
2.樣本
樣本:從總體中抽取部分個體組成的集合。
樣品:樣本中所含的個體。
樣本容量:樣本中樣品的個數(shù)。獲取樣本的方法可以分為兩大類:概率抽樣和非概率抽樣。
概率抽樣(簡單隨機抽樣)的特征
①獨立性
樣本中每一個樣品的取值不受其他樣品取值的影響,即X1,X2,…,Xn相互獨立。②同分布
每一個個體入選樣本的機會等于它在總體中出現(xiàn)的概率,即每一個樣本Xi與總體X具有相同的分布。根據(jù)這兩個特征,概率抽樣所獲得的樣本也稱為獨立同分布樣本。簡記為:其中:F(x)為總體分布,X1,X2,…,Xn為樣本容量為n的隨機樣本,i.i.d.表示獨立同分布。在一次抽樣中具體抽到的觀察值,通常記作:
x1,x2,…,xnx1,x2,…,xn稱為X1,X2,…,Xn的觀察值,或簡稱為樣本觀察值。
【例題5.2】對某家公司進行審計,該公司年度內(nèi)的所有發(fā)票是55400張,審計人員從中隨機抽查了100張發(fā)票進行審查,發(fā)現(xiàn)有2張發(fā)票有差錯,則樣本容量是()。A.2B.98C.100D.55400E.55300
【答案】C
【解析】該題中總體是55400張發(fā)票,樣本是100張發(fā)票。樣本容量是100。
§5.2樣本的分布與數(shù)值特征1.樣本數(shù)據(jù)的整理與顯示
(1)頻數(shù)統(tǒng)計與頻率分布①離散隨機變量頻數(shù):如果總體X是離散隨機變量,其可能的取值為a1,a2,…,ak,統(tǒng)計樣本觀察值x1,x2,…,xn中取到ai的個數(shù),記作ni,i=1,2,…,k。
頻率:ai的頻數(shù)ni除以樣本容量n,記作fi根據(jù)頻數(shù)統(tǒng)計表或頻率分布表做條形圖。條形圖的橫軸為樣本數(shù)據(jù)的取值,縱軸為該取值的頻數(shù)或頻率。
②連續(xù)隨機變量
如果總體X是連續(xù)隨機變量,其可能的取值不可能一一列舉,這時數(shù)據(jù)整理的一般方法是進行分組統(tǒng)計,將其可能取值分成k個小區(qū)間:[a0,a1),[a1,a2),…,[ak-1,ak),統(tǒng)計樣本觀察值x1,x2,…,xn落在每一個小區(qū)間的頻數(shù)ni,并計算相應頻率fi,i=1,2,…,k
根據(jù)頻率分布表可以做直方圖。直方圖的橫軸為樣本數(shù)據(jù)的取值,縱軸為該取值的頻數(shù)或頻率。和條形圖不同的是,直方圖條塊之間沒有空隙,它是以直方的面積表示取值概率,而條形圖只是以直方的高度表示取值概率。樣本直方圖近似反映了總體的概率分布情況。(2)樣本經(jīng)驗分布函數(shù)經(jīng)驗分布函數(shù):設總體X的分布函數(shù)為F(x),從中獲得的樣本觀察值為x1,x2,…,xn,將樣本觀察值從小到大排列,構成次序觀察值x(1),x(2),…,x(n),令則稱Fn(x)為該樣本的經(jīng)驗分布函數(shù)。
2.樣本的數(shù)值特征
常用的樣本數(shù)值特征可以分為三大類:①分布的集中趨勢測量值,反映各數(shù)據(jù)向中心值靠攏或聚集的程度;②分布的離散程度測量值,反映各數(shù)據(jù)遠離其中心值的趨勢;③分布的形狀測量值,反映數(shù)據(jù)分布的偏斜和聳立程度。(1)反映中心趨勢的樣本特征值
集中趨勢:一組數(shù)據(jù)向某一中心值靠攏的程度,它反映了一組數(shù)據(jù)中心點的位置所在。常用的中心趨勢特征值有三個:樣本均值、樣本中位數(shù)和樣本眾數(shù)。①樣本均值
樣本均值:一組數(shù)據(jù)加權平均的結果,通常記作。
?簡單平均數(shù)
如果樣本數(shù)據(jù)為點數(shù)據(jù)x1,x2,…,xn,則均值為簡單平均數(shù)
?加權平均值
如果樣本數(shù)據(jù)為區(qū)間數(shù)據(jù),假設各區(qū)間的組中值為xi,各組頻數(shù)為ni,i=1,2,…,k,則均值為加權平均值均值是實際中應用最廣泛的一種度量數(shù)據(jù)中心趨勢的特征值。它的缺點是易受極端值的影響。②樣本中位數(shù)
樣本中位數(shù):一組數(shù)據(jù)排序后處于中間位置上的特征值,通常記作Me。設樣本數(shù)據(jù)從小到大排序后為x(1),x(2),…,x(n),則樣本中位數(shù)為:
?優(yōu)缺點
樣本中位數(shù)是一組數(shù)據(jù)中間位置上的代表值,它不易受極端值的影響,對中心位置的度量相對穩(wěn)定,但缺點是它只用到樣本數(shù)據(jù)的排序信息,相對均值而言,有信息的浪費。③樣本眾數(shù)
樣本眾數(shù):一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的特征值,通記作M0。
?優(yōu)缺點樣本眾數(shù)不易受極端值的影響,但是有些數(shù)據(jù)可能會不存在眾數(shù),而有些數(shù)據(jù)可能會存在多個樣本眾數(shù)。
【例題5.3】某班共有60名學生,在期末的統(tǒng)計學考試中,男生的平均考試成績?yōu)?5分,標準差為6分;女生的平均考試成績?yōu)?0分,標準差為6分。如果該班的男女學生各占一半,則全班的平均考試成績?yōu)椋ǎ.75B.76C.77.5D.78E.80
【答案】C
【解析】設男生成績?yōu)閤,女生成績?yōu)閥,男女各30人,故全班的平均考試成績?yōu)椋?/p>
【例題5.4】下列關于樣本眾數(shù)的敘述,不正確的是()。A.一組數(shù)據(jù)可能存在多個眾數(shù)B.眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的值C.一組數(shù)據(jù)的眾數(shù)是惟一的D.眾數(shù)不受極端值的影響E.眾數(shù)是一個位置代表值
【答案】C
【解析】樣本眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的特征值,通常記作M0。一組數(shù)據(jù)的頂峰所對應的數(shù)值即為樣本眾數(shù)。樣本眾數(shù)不易受極端值的影響,但是有些數(shù)據(jù)可能會不存在眾數(shù),而有些數(shù)據(jù)可能會存在多個眾數(shù)。(2)反映離散程度的樣本特征值
數(shù)據(jù)的離散程度:反映的數(shù)據(jù)偏離中心值的程度。數(shù)據(jù)的離散程度越大,中心特征值對數(shù)據(jù)的代表性就越差,反之就越好。反映數(shù)據(jù)離散程度的特征值主要有樣本方差(或樣本標準差),極差,四分位差。①樣本方差和標準差
樣本方差:各變量值與其平均數(shù)離差平方的平均數(shù),通常記作s2。樣本方差開方后即得樣本標準差,樣本標準差通常記作s。
?計算公式
如果樣本數(shù)據(jù)為點數(shù)據(jù)x1,x2,…,xn,則樣本方差和樣本標準差分別為:如果樣本數(shù)據(jù)為區(qū)間數(shù)據(jù),假設各區(qū)間的組中值為xi,各組頻數(shù)為ni,i=1,2,…,k,則樣本方差和樣本標準差分別為:②樣本極差
樣本極差:一組數(shù)據(jù)的最大值與最小值之差,通常記作R。
?優(yōu)缺點
樣本極差直觀地反映了數(shù)據(jù)最大的離散程度,但缺點是只利用了一組數(shù)據(jù)兩端的信息,極易受特征值的影響,而且也不能反映中間數(shù)據(jù)的離散程度。③樣本四分位差
四分位差:將樣本數(shù)據(jù)排序,位于25%分位點的樣本值稱為四分位點,記作Q1,位于75%分位點的樣本值稱為四分之三分位點,記作Q3。Q3與Q1之差記作Qd。
Qd=Q3—Q1
?含義:樣本四分位差反映了中心位置附近,聚集程度最高的數(shù)據(jù)的離散程度。四分位差越小,說明中間數(shù)據(jù)越集中,反之數(shù)據(jù)的離散程度越大。
【例題5.5】假定一個樣本由5個數(shù)據(jù)組成:3,7,8,9,13。該樣本的方差為()。A.8B.9.7C.10.4D.13E.15
【答案】D
【解析】5個數(shù)據(jù)的均值為:根據(jù)未分組數(shù)據(jù)的樣本方差公式可得:
【例題5.6】計算樣本方差時,如果從每個數(shù)據(jù)中減去常數(shù)a,則計算結果與原方差相比()。A.變大B.不變C.變小D.減少了aE.無法確定
【答案】B【解析】設原始數(shù)據(jù)為x1,x2,…,xn,均值為,則該組數(shù)據(jù)的方差為。若令=x1-a,=x2-a,…,=xn-a,則新數(shù)據(jù)組的均值,所以新數(shù)據(jù)組的方差為:(3)反映形狀特點的樣本特征值
數(shù)據(jù)的形狀特征主要是考察數(shù)據(jù)的分布是否對稱,峰形是高聳還是扁平。這涉及兩個特征值:偏態(tài)和峰態(tài)。①偏態(tài)
偏態(tài):對數(shù)據(jù)分布對稱性的度量,偏態(tài)系數(shù)通常簡記為SK。如果樣本數(shù)據(jù)為點數(shù)據(jù)x1,x2,…,xn,則樣本偏態(tài)系數(shù)為:如果樣本數(shù)據(jù)為區(qū)間數(shù)據(jù),假設各區(qū)間的組中值為xi,各組頻數(shù)為ni,i=1,2,…,k,則樣本偏態(tài)系數(shù)為:其中:s為樣本標準差。
?結果解釋
如果數(shù)據(jù)呈現(xiàn)對稱分布特征,則SK趨向于0。在對稱分布場合,有均值=中位數(shù)=眾數(shù)的優(yōu)良屬性,統(tǒng)計上稱為“三線合一”。如果SK>0,稱為正偏分布,正偏分布意味著取值小的數(shù)據(jù)發(fā)生概率大。在正偏分布場合,通常是眾數(shù)<中位數(shù)<均值。如果SK<0,稱為負偏分布,負偏分布意味著取值大的數(shù)據(jù)發(fā)生概率大。在負偏分布場合,通常是均值<中位數(shù)<眾數(shù)(圖5-1)。圖5-1不同偏態(tài)分布的特征
②峰態(tài)
峰態(tài):對數(shù)據(jù)分布高聳或扁平程度的度量,峰態(tài)系數(shù)通常簡記為K。如果樣本數(shù)據(jù)為點數(shù)據(jù)x1,x2,…,xn,則樣本峰態(tài)系數(shù)為:如果樣本數(shù)據(jù)為區(qū)間數(shù)據(jù),假設各區(qū)間的組中值為xi,各組頻數(shù)為ni,i=1,2,…,k,則樣本峰態(tài)系數(shù)為:其中:s為樣本標準差。
?結果解釋
峰態(tài)系數(shù)實際上是以標準正態(tài)分布的峰形作為參考,標準正態(tài)分布的K=0。比標準正態(tài)分布的峰形高聳,稱為尖峰分布,尖峰分布的K>0。比標準正態(tài)分布的峰形扁平,稱為平峰分布,平峰分布的K<0。在其他統(tǒng)計屬性近似時,平峰分布的數(shù)據(jù)比尖峰分布的數(shù)據(jù)更加分散。
【例題5.7】如果峰態(tài)系數(shù)K>0,表明該組數(shù)據(jù)是()。A.尖峰分布B.平峰分布C.左偏分布D.右偏分布E.對稱分布
【答案】A
【解析】峰態(tài)是數(shù)據(jù)分布高聳或扁平程度的度量,峰態(tài)系數(shù)用K表示。峰態(tài)通常是與標準正態(tài)分布相比較而言的。如果一組數(shù)據(jù)服從標準正態(tài)分布,則峰態(tài)系數(shù)的值等于0;若峰態(tài)系數(shù)的值明顯不等于0,則表明分布比正態(tài)分布更平或更尖,通常稱為平峰分布或尖峰分布。平峰分布的K<0,尖峰分布的K>0。
【例題5.8】隨機抽取25個網(wǎng)絡用戶,得到他們的年齡數(shù)據(jù),如表5-1所示。表5-1則偏態(tài)系數(shù)和峰態(tài)系數(shù)分別為()。A.1.08,0.77B.1.05,0.72C.1.00,0.77D.0.77,1.08E.0.29,1.02
【答案】A【解析】均值由均值可得:偏態(tài)系數(shù):峰態(tài)系數(shù):
§5.3統(tǒng)計量與抽樣分布1.統(tǒng)計量的概念
定義:設總體X的分布函數(shù)為F(x,θ),其中θ為未知參數(shù),從總體中隨機抽取樣本容量為n的一個樣本X1,X2,…,Xn,稱不含未知參數(shù)θ的樣本實值函數(shù)T為統(tǒng)計量,記T為T=T(X1,X2,…,Xn)。統(tǒng)計量的兩個特別重要特征:①統(tǒng)計量中不能含有未知參數(shù);②統(tǒng)計量是樣本的函數(shù)。
【例題5.9】設是來自兩點分布的一個樣本,其中0<p<1,p未知,下列樣本的函數(shù)不是統(tǒng)計量的是()。A.B.C.D.E.【答案】D【解析】統(tǒng)計量是用來描述樣本特征的概括性數(shù)字度量,不含有未知參數(shù)。D項中含有未知參數(shù)EX1=p。
2.抽樣分布
抽樣分布:統(tǒng)計量是隨機變量的函數(shù),統(tǒng)計量的分布稱為抽樣分布。
?尋找抽樣分布的方法①精確方法當總體分布己知,通過總體分布的屬性推導出統(tǒng)計量分布的顯式表達。②大樣本方法漸近分布:隨著樣本容量n的無限遞增,統(tǒng)計量通常逼近于一個穩(wěn)定的極限的分布。
大樣本方法:將上面的漸近分布作為抽樣分布在大樣本場合的一種近似分布。
3.與正態(tài)總體有關的抽樣分布
(1)三大檢驗分布①分布
?定義
設隨機變量X1,X2,…,Xn獨立同分布于標準正態(tài)分布則它們的平方和服從自由度為n的分布,記作Y~。
?密度函數(shù)
(n)分布的密度函數(shù)為:
?均值和方差
(n)均值和方差分別為:E(X)=n,Var(X)=2n。
?可加性
相互獨立的分布之和仍然服從分布。
②t分布
?定義
設X~N(0,1),Y~(n),且X與Y相互獨立,則服從自由度為n的t分布,記作T~t(n)。
?密度函數(shù)
t(n)分布的密度函數(shù)為:
?均值和方差
其均值和方差分別為:
?收斂性
當n→+∞時,t(n)分布收斂到N(0,1)分布。③F分布
?定義
設X~(n),Y~(m),且X與Y相互獨立,則服從自由度為n和m的F分布,記作F~F(n,m)。
?密度函數(shù)
F(n,m)分布的密度函數(shù)為:其中n,m為正整數(shù)。
?均值和方差
其均值和方差分別為:
【例題5.10】設總體X服從正態(tài)分布,總體Y服從正態(tài)分布,且X與Y相互獨立。是來自總體X的簡單隨機樣本,是來自總體Y的簡單隨機樣本,令其中a+b=1,若要使Z的方差最小,則a的取值為()。[2008年春季真題]
A.1/2B.C.D.E.
【答案】E
【解析】因,則,故,同理,,故
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專項消防設備增設協(xié)議樣本版A版
- 2025年度廠房裝飾裝修工程節(jié)能合同范本4篇
- 2025年度創(chuàng)新產(chǎn)業(yè)園廠房轉租服務合同標準4篇
- 做菜知識培訓課件圖片
- 二零二五年度體育場館建設擔保協(xié)議3篇
- 2025年度高原地區(qū)柴油發(fā)電機組銷售及售后服務合同3篇
- 《社區(qū)調(diào)解實務講解》課件
- 2024年04月河南鄭州銀行信息科技部社會招考筆試歷年參考題庫附帶答案詳解
- 個人對公司長期借款合同(2024年版)
- 專業(yè)美甲技術勞務合作協(xié)議樣本(2024版)版B版
- 科室醫(yī)療質量與安全管理小組工作制度
- 中華民族共同體概論課件第五講大一統(tǒng)與中華民族共同體初步形成(秦漢時期)
- 初二生地會考試卷及答案-文檔
- 私營企業(yè)廉潔培訓課件
- 施工單位值班人員安全交底和要求
- 中國保險用戶需求趨勢洞察報告
- 數(shù)字化轉型指南 星展銀行如何成為“全球最佳銀行”
- 中餐烹飪技法大全
- 靈芝孢子油減毒作用課件
- 現(xiàn)場工藝紀律檢查表
- 醫(yī)院品管圈與護理質量持續(xù)改進PDCA案例降低ICU病人失禁性皮炎發(fā)生率
評論
0/150
提交評論