生物統(tǒng)計學(xué)第一講2_第1頁
生物統(tǒng)計學(xué)第一講2_第2頁
生物統(tǒng)計學(xué)第一講2_第3頁
生物統(tǒng)計學(xué)第一講2_第4頁
生物統(tǒng)計學(xué)第一講2_第5頁
已閱讀5頁,還剩88頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

GangDong生物統(tǒng)計學(xué)2023-03-30

SchoolofLifeSciences,ShanxiUniversityUS-ChinaCarbonConsortiumBiostatistics

第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

一、統(tǒng)計學(xué)的根本概念總體是研究目確實定的、符合指定條件的全部觀察對象。簡言之,指總體就是要研究的全部對象。個體是構(gòu)成總體的根本單元。1、總體和個體總體分為有限總體和無限總體〔1〕有限總體:指要研究的個體數(shù)目有限的總體,如山大生科院2023年新生入學(xué)英語成績?!?〕無限總體:指要研究的個體極多或無限多的總體,如小麥魯麥10號的產(chǎn)量、我國新生兒體重、羊毛細度。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

一、統(tǒng)計學(xué)的根本概念從總體中抽取一局部個體就構(gòu)成樣本。2、樣本樣本是總體的一局部,樣本中包含的個體數(shù)目稱為樣本含量或樣本容量,常用“n〞表示。通常將樣本單位數(shù)不少于30個〔n≥30〕的樣本稱為大樣本,樣本單位數(shù)不及30個〔n<30〕的樣本稱為小樣本。統(tǒng)計分析的核心就是由樣本的信息推斷總體的信息。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

一、統(tǒng)計學(xué)的根本概念變量:性質(zhì)相同的事物間表現(xiàn)出的差異性或差異特征,用數(shù)據(jù)表示,稱為變量或變數(shù)。由于實驗?zāi)康牟煌x擇的變量也不相同。3、變量、參數(shù)和統(tǒng)計量

變量通常用“x〞表示,如十個人的身高為158cm、168cm、159cm、163cm、178cm、174cm、171cm、165cm、169cm、185cm,可以用x1、x2、x3、……、x10表示,變量測得的數(shù)據(jù)稱為變量值或觀測值,也稱為資料。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

一、統(tǒng)計學(xué)的根本概念變量按其性質(zhì)可分為連續(xù)型變量和非連續(xù)變量。連續(xù)型變量是能夠用度量衡等計量工具直接測定的變量,如長度、體積、時間、重量、血壓、電流等。這類數(shù)據(jù)可以是整數(shù),也可以是小數(shù)。非連續(xù)型變量是用計數(shù)方式得來的,只能取整數(shù),如動物的頭數(shù)、種子的粒數(shù)、人數(shù)、細菌數(shù)。所得數(shù)據(jù)是不連續(xù)的,也稱為離散型變量。3、變量、參數(shù)和統(tǒng)計量

第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

一、統(tǒng)計學(xué)的根本概念變量還可以分為定性變量和定量變量兩類。定量變量也稱為數(shù)值變量,表現(xiàn)為數(shù)值的大小。如身高、體重、血壓等。定性變量也稱為分類變量,表示某個體屬于幾種互不相容的類型中的一種,如人的性別有男、女兩種類型;血型有A、B、AB、O四種;豌豆花的顏色有白色、紅色、紫色等。3、變量、參數(shù)和統(tǒng)計量

第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

一、統(tǒng)計學(xué)的根本概念描述總體特征的數(shù)量稱為參數(shù),常用希臘字母表示。如用“μ〞表示總體平均數(shù)、用“σ〞表示總體標準差。描述樣本特征的數(shù)量稱為統(tǒng)計量,常用英語字母表示,如用“〞表示樣本平均數(shù),用“s〞表示樣本標準差。3、變量、參數(shù)和統(tǒng)計量

第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

一、統(tǒng)計學(xué)的根本概念錯誤:指調(diào)查所得的結(jié)果由于觀察、測量、登記和計算等方面的過失或被調(diào)查者提供的虛假資料而造成的過失。錯誤是人為因素造成的,在試驗過程中可以完全防止。誤差:指試驗中由于不可控制因素所引起的觀測值偏離真實值的差異。又分為系統(tǒng)誤差和隨機誤差兩類:①系統(tǒng)誤差:指抽樣方法不對,代表性缺乏而產(chǎn)生的誤差,又稱為偏差;偏差可以盡量防止。②隨機誤差:指嚴格遵循了隨機抽樣原那么,由于抽樣的隨機性而產(chǎn)生的樣本統(tǒng)計量與總體參數(shù)之間仍存在代表性誤差,稱為隨機誤差或偶然性誤差,隨機誤差不可防止。4、誤差與錯誤

第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

一、統(tǒng)計學(xué)的根本概念隨機誤差,也叫抽樣誤差(samplingerror),是由于試驗中無法控制的內(nèi)在和外在的偶然因素所造成的試驗結(jié)果與真實結(jié)果之間的差異。如試驗動物的初始條件、飼養(yǎng)條件、管理措施等盡管在試驗中力求一致,但也不可能到達絕對一致,所以隨機誤差帶有偶然性質(zhì),在試驗中,即使十分小心也是不可防止的。如果通過良好的試驗設(shè)計、正確的試驗操作,增加抽樣或試驗次數(shù),隨機誤差可能減小,但不可能完全消滅。統(tǒng)計上的試驗誤差一般都指隨機誤差。隨機誤差越小,試驗精確性越高。4、誤差與錯誤

第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

一、統(tǒng)計學(xué)的根本概念系統(tǒng)誤差,也叫片面誤差

(lopsidederror),是由于試驗處理以外的其他條件控制不一致所產(chǎn)生的帶有傾向性的或定向性的偏差。系統(tǒng)誤差主要由一些相對固定的因素引起的,如儀器調(diào)校的差異、各批藥品間的差異、不同操作者操作習(xí)慣的差異等。系統(tǒng)誤差影響試驗的準確性。只要試驗工作做得精細,系統(tǒng)誤差是可以克服的。4、誤差與錯誤

第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

一、統(tǒng)計學(xué)的根本概念一個總體中所有對象有大有小,參差不齊,即個體之間存在著廣泛的變異。造成生物體變異的原因很多,如遺傳因素、環(huán)境因素、隨機因素等。5、統(tǒng)計數(shù)據(jù)的不齊性身高:影響因素有遺傳、營養(yǎng)、鍛煉、勞動強度、睡眠、健康等。玉米株高:影響因素,肥力、水分、光照、溫度、通風等。如:在研究玉米的抗鹽性時,要使玉米生長一致,首先選擇籽粒飽滿一致的種子,讓其萌發(fā),再選擇萌發(fā)一致的幼苗,其他因素完全相同,個體間仍有很大差異。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

一、統(tǒng)計學(xué)的根本概念抽樣的概念:抽樣:是從總體中獲得樣本的過程。抽樣最根本的原那么就是隨機抽樣。隨機抽樣:所謂隨機抽樣是指抽樣時,不摻雜人們的主觀愿望,總體中的每一個個體被抽取的時機均等。通過隨機抽樣獲得的樣本稱為隨機樣本。6、抽樣第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

一、統(tǒng)計學(xué)的根本概念抽樣的方法:〔1〕簡單隨機抽樣:抽簽、抓鬮〔2〕使用隨機數(shù)字表〔見附表1〕〔3〕分層抽樣、系統(tǒng)抽樣〔等距抽樣〕、整群抽樣等6、抽樣

第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

一、統(tǒng)計學(xué)的根本概念抽樣的分類:6、抽樣

放回式抽樣是指從總體中抽取一個個體,記下它的特征以后,放回總體中,在進行第二次抽樣,如明信片〔六位數(shù)〕,中獎率1000000分之一。非放回式抽樣是指從總體中抽取個體后,不再放回,如福彩〔30選7〕,中獎率2035800分之一。一般來說,樣本含量越大,越能代表總體。但樣本太大,工作量就大。因此樣本含量必須適宜。后面會講解必要抽樣數(shù)目的計算方法,即能夠符合抽樣要求的最小樣本含量。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

二、數(shù)據(jù)資料的收集

調(diào)查試驗資料搜集的方法第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

二、數(shù)據(jù)資料的收集

1、調(diào)查是對已經(jīng)存在的事情的資料按某種方案進行收集的方法。如地質(zhì)調(diào)查、水樣調(diào)查、山西省內(nèi)的昆蟲調(diào)查等等。資料的調(diào)查又可以分為兩種:普查和抽樣調(diào)查。普查是對研究對象的全部個體逐一進行調(diào)查的方法。抽樣調(diào)查是根據(jù)一定的原那么從研究對象中抽取一局部具有代表性的個體進行調(diào)查的方法。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

二、數(shù)據(jù)資料的收集

2、試驗是對已有的或沒有的事物加以處理的方法。采用合理的試驗設(shè)計能夠以較少的投入獲得較大的收獲,起到“事半功倍〞的效果。常見的試驗設(shè)計方法有:比照設(shè)計、隨機區(qū)組設(shè)計、平衡不完全區(qū)組設(shè)計、裂區(qū)設(shè)計、拉丁方設(shè)計、正交設(shè)計、正交旋轉(zhuǎn)設(shè)計等等。試驗設(shè)計須遵循的三大原那么是:隨機、重復(fù)和局部控制。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

三、數(shù)據(jù)資料的分類和整理

1、數(shù)據(jù)資料的類型

數(shù)量性狀資料:即定量變量資料,包括計量資料和計數(shù)資料兩種。計量資料:是通過直接計量而來的,即能用度量衡等計量工具直接測定的數(shù)據(jù)資料。例如長度、體積、時間、重量、血壓、電流等。這類數(shù)據(jù)可以是整數(shù),也可以是小數(shù)。也稱為連續(xù)型變量資料。計數(shù)資料:指用計數(shù)方式而得來的數(shù)據(jù),計數(shù)數(shù)據(jù)以1為單位,只能用整數(shù)表示。如動物的頭數(shù)、種子的粒數(shù)、人數(shù)、細菌數(shù)。所得數(shù)據(jù)是不連續(xù)的。也稱為非連續(xù)變量資料或離散型數(shù)據(jù)資料。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

三、數(shù)據(jù)資料的分類和整理

1、數(shù)據(jù)資料的類型

質(zhì)量性狀資料:即定性變量資料。指一些能觀察到而不易直接測量的性狀,如顏色、性別、生死、狀態(tài)等。對于質(zhì)量性狀的分析,必需將質(zhì)量性狀數(shù)量化。數(shù)量化的常用方法有以下兩種。規(guī)類計數(shù)法按照質(zhì)量形狀的類別進行分組,然后分別統(tǒng)計各組出現(xiàn)的次數(shù),如豌豆雜交試驗中所觀察到的花的顏色可以歸類統(tǒng)計如下表:性狀分離紅花白花總計次數(shù)(f)次數(shù)百分率(%)70575.8922424.11929100豌豆雜交二代花色別離情況第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

三、數(shù)據(jù)資料的分類和整理

1、數(shù)據(jù)資料的類型

等級評分法將質(zhì)量性狀分為假設(shè)干等級,然后統(tǒng)計各級別出現(xiàn)的次數(shù),例如對學(xué)生考試成績進行分級統(tǒng)計如下表。生科班及格率為96.88%。2023級生科班植物學(xué)考試成績匯總表成績類別不及格及格良好優(yōu)秀總計分數(shù)次數(shù)(f)60分以下460-69分3670-79分3980分以上49128第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

三、數(shù)據(jù)資料的分類和整理

1、數(shù)據(jù)資料的類型

兩種不同類型的資料相互間是有區(qū)別的,但有時可根據(jù)研究的目的和統(tǒng)計方法的要求將一種類型資料轉(zhuǎn)化成另一種類型的資料。例如,獸醫(yī)臨床化驗動物的白細胞總數(shù)得到的資料屬于計數(shù)資料,根據(jù)化驗的目的,可按白細胞總數(shù)過高、正常或過低分為三組,清點各組的次數(shù),計數(shù)資料就需要轉(zhuǎn)化為質(zhì)量性狀資料。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

三、數(shù)據(jù)資料的分類和整理

2、原始數(shù)據(jù)的檢查和核對

對于直接調(diào)查取得的原始數(shù)據(jù)從完整性和準確性兩個方面去審核?!?〕完整性:指應(yīng)調(diào)查的單位或個體是否有遺漏,所調(diào)查的工程或指標是否齊全,調(diào)查時不能有偏見?!?〕準確性:指數(shù)據(jù)是否符合實際,計算是否有錯誤。對于間接獲得的第二手數(shù)據(jù),要注意數(shù)據(jù)的真實性、適用性和時效性。數(shù)據(jù)的篩選。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

三、數(shù)據(jù)資料的分類和整理

準確性(accuracy),也叫準確度,指在調(diào)查或試驗中某一試驗指標或性狀的觀測值與其真值接近的程度。設(shè)某一試驗指標或性狀的真值為μ,觀測值為x,假設(shè)x與μ相差的絕對值|x-μ|越小,那么觀測值x的準確性越高;反之那么低。

精確性(precision),也叫精確度,指調(diào)查或試驗中同一試驗指標或性狀的重復(fù)觀測值彼此接近的程度。假設(shè)觀測值彼此接近,即任意二個觀測值xi、xj相差的絕對值|xi-xj|越小,那么觀測值精確性越高;反之那么低。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

三、數(shù)據(jù)資料的分類和整理

3、數(shù)據(jù)排序

數(shù)據(jù)整理完畢后一般還要排序,便于分析和整理,如繪制成頻數(shù)表或頻數(shù)圖。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

次數(shù)統(tǒng)計表的結(jié)構(gòu)和要求:結(jié)構(gòu)簡單,層次清楚,安排合理,重點突出,數(shù)據(jù)準確??倷M標目(或空白)縱標目1縱標目2……橫標目1橫標目2數(shù)字資料……表號標題1、標題簡明扼要、準確地說明表的內(nèi)容,有時須注明時間、地點。2、標目標目分橫標目和縱標目兩項。橫標目列在表的左側(cè),縱標目列在表的上端,標目需注明計算單位,如%、kg、cm等等。3、數(shù)字一律用阿拉伯數(shù)字,數(shù)字以小數(shù)點對齊,小數(shù)位數(shù)一致,無數(shù)字的用“─〞表示,數(shù)字是“0〞的,那么填寫“0〞。4、線條多用三線表,上下兩條邊線略粗。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

三、數(shù)據(jù)資料的分類和整理

計數(shù)資料的整理根本上采用單項式分組法進行整理。特點:用樣本變量自然值進行分組,每組用一個或幾個變量值來表示。17121413141211

14131614141317151414161414151514141411131214131413151413151413141516161413141513151315151514141614151713161416151314141414161213121412151615161413151714131412171415100只來亨雞每月的產(chǎn)蛋數(shù)11~17來亨雞每月產(chǎn)蛋數(shù)變動范圍:分為7組統(tǒng)計各組次數(shù)計算頻率和累積頻率制表每月產(chǎn)蛋數(shù)次數(shù)頻率累積頻率

FrequencyPercentCumulativePercent1120.020.021270.070.0913190.190.2814350.350.6315210.210.8416110.110.951750.051.00100只來亨雞每月產(chǎn)蛋數(shù)次數(shù)分布表1.自然值進行分組,最大值17,最小值11。2.數(shù)據(jù)主要集中在14,向兩側(cè)分布逐漸減少。計量資料的整理一般采用組距式〔組限式〕分組法。全距組數(shù)組距組限歸組制表第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

三、數(shù)據(jù)資料的分類和整理

150尾鰱魚體長(cm)56496278414765455855596569627352526051627866455858605752514856465870727677566658585553506563576585

5958546248634661625738585254556652485675725737467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263

(1)求全距,又稱極差

(range):R=Xmax-Xmin

=85-37=48(cm)〔2〕確定組數(shù)和組距〔classboundary〕

組數(shù)是根據(jù)樣本觀測數(shù)的多少及組距的大小來確定的,同時考慮到對資料要求的精確度以及進一步計算是否方便。組數(shù)組距多小統(tǒng)計數(shù)精確,計算不方便少大統(tǒng)計數(shù)不精確,計算方便組數(shù)確實定樣本容量分組數(shù)

30~60

5~860~100

7~10100~200

9~12200~500

10~18>500

15~30樣本容量與分組數(shù)的關(guān)系組距確實定即每組內(nèi)的上下限范圍。組距=全距/組數(shù)=48/10=4.810組5cm〔3〕確定組限〔classlimit〕和組中值〔classmidvalue〕組限是指每個組變量值的起止界限。上限下限組中值

是兩個組限的中間值。組中值=下限+上限

2=組距2下限+=組距2上限-第一組的組中值最好接近于資料的最小值150尾鰱魚體長(cm)56496278414765455855596569627352526051627866455858605752514856465870727677566658585553506563576585

5958546248634661625738585254556652485675725737

467656637565485255546271486258465738545365428366485358464626367655605458495256826365547565864677706940565861545352435264585854785256615954596468515968635263最小一組的下限必須小于資料中的最小值,最大一組的上限必須大于資料中的最大值;組限可取到10分位或5分位上;臨界值就高不就低。35~,40~,45~,…,85~?!?〕分組確定好組數(shù)和各組上下限后,可按原始資料中各觀測值的次序,將各個數(shù)值歸于各組,計算各組的觀測數(shù)次數(shù)、頻率、累積頻率,制成一個次數(shù)分布表。計數(shù)的方法卡片法唱票法畫“正〞字畫“”組限組中值次數(shù)頻率累積頻率

FrequencyPercentCumulativePercent35~37.530.02000.020040~42.540.02670.046745~47.5170.11330.160050~52.5280.18670.3467

55~57.540

0.26660.613360~62.5250.16670.780065~67.5170.11330.897370~72.560.04000.933375~77.570.04670.980080~82.520.01330.993385~87.510.00671.0000150尾鰱魚體長的次數(shù)分布表次數(shù)分布圖和頻率分布圖定義:把次數(shù)〔頻率〕分布資料畫成統(tǒng)計圖形特點:直觀、形象包括:條形圖、餅圖、直方圖、多邊形圖和散點圖第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

三、數(shù)據(jù)資料的分類和整理

統(tǒng)計圖繪制的根本要求:

標題簡明扼要,列于圖的下方;縱、橫兩軸應(yīng)有刻度,注明單位;橫軸由左至右,縱軸由下而上,數(shù)值由小到大;圖形長寬比例約5:4或6:5;圖中需用不同顏色或線條代表不同事物時,應(yīng)有圖例說明。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

三、數(shù)據(jù)資料的分類和整理

月產(chǎn)蛋數(shù)次數(shù)分布柱形圖月產(chǎn)蛋數(shù)頻率分布柱形圖1、條形圖〔barchart〕,又稱柱形圖計數(shù)資料特點:

柱形之間要間隔一定的距離屬性資料2、餅圖(piechart)來亨雞月產(chǎn)蛋次數(shù)分布圖計數(shù)資料屬性資料鰱魚體長次數(shù)分布圖3、直方圖(histogram),又稱矩形圖計量資料354045505560657075808590特點:

各組之間沒有距離

4、多邊形圖(polygon),又稱折線圖(broken-linechart)計量資料鰱魚體長次數(shù)分布圖5、散點圖(scatter)

1234564321

1234564321

1234564321a.正向直線關(guān)系b.負向直線關(guān)系c.曲線關(guān)系集中性

是變量在趨勢上有著向某一中心聚集,或者說以某一數(shù)值為中心而分布的性質(zhì)。離散性

是變量有著離中分散變異的性質(zhì)。變量的分布具有兩種明顯的根本特征:集中性和離散性第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

三、數(shù)據(jù)資料的分類和整理

第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

集中性離散性平均數(shù)變異數(shù)算術(shù)平均數(shù)中位數(shù)眾數(shù)幾何平均數(shù)極差方差標準差變異系數(shù)調(diào)和平均數(shù)第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述

數(shù)據(jù)集中點的度量——平均數(shù)據(jù)變異程度的度量——標準差、變異系數(shù)數(shù)據(jù)分布的對稱程度和陡峭程度的度量——偏斜度和峭度第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔一〕平均數(shù)平均數(shù)是數(shù)據(jù)集中點的度量,是統(tǒng)計學(xué)中最常用的統(tǒng)計量,是計量資料的代表值,表示資料中觀測數(shù)的中心位置,并且可作為資料的代表與另一組相比較,以確定二者的差異情況。由于計算平均數(shù)的方法不同,它通??煞譃樗阈g(shù)平均數(shù)、幾何平均數(shù)、眾數(shù)、中位數(shù)四種。我們常說的平均數(shù)其實就是最常用的算術(shù)平均數(shù)。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔一〕平均數(shù)1、算術(shù)平均數(shù)(arithmeticmean)定義:總體或樣本資料中所有觀測數(shù)的總和除以觀測數(shù)的個數(shù)所得的商,簡稱平均數(shù)、均數(shù)或均值。式中“Σ〞讀sigma,是“σ〞的大寫形式,為求和符號是n個數(shù)值為X1、X2、X3、……、Xn求和后除以n所得的商。用“〞表示,計算公式如下:第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述

〔一〕平均數(shù)1、算術(shù)平均數(shù)(arithmeticmean)算術(shù)平均數(shù)的基本特征如下:①算術(shù)平均數(shù)的計算與每個觀察值都有關(guān)②若每個xi都乘以相同的系數(shù)k,他們的平均數(shù)也乘以k。③若每個xi都加上相同的數(shù)A,他們的平均數(shù)也應(yīng)加上A④加權(quán)平均數(shù):如果是n1個數(shù)的平均數(shù),是n2個數(shù)的平均數(shù),那么全部n1+n2個數(shù)的平均數(shù)就叫加權(quán)平均數(shù)。如下式所示:第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔一〕平均數(shù)2、中位數(shù)(median)定義:資料中所有觀測數(shù)依大小順序排列,居于中間位置的觀測數(shù)稱為中位數(shù)或中數(shù)。有序數(shù)列中點上的數(shù),即n個數(shù)按大小排列,位于中間位置上的那個數(shù),如果是偶數(shù)個數(shù)據(jù),那么是中間兩個數(shù)的平均值。中位數(shù)將該組數(shù)值分為兩半,理論上有50%的變量小于md

,有50%的變量值大于md,故又稱百分之五十位數(shù),記為P50。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔一〕平均數(shù)2、中位數(shù)(median)當觀測值個數(shù)n為奇數(shù)時,(n+1)/2位置的觀測值,即x(n+1)/2為中位數(shù):當觀測值個數(shù)為偶數(shù)時,n/2和(n/2+1)位置的兩個觀測值之和的1/2為中位數(shù),即:第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔一〕平均數(shù)3、眾數(shù)(mode)注意:〔1〕對于某些數(shù)據(jù)而言,如均勻分布,并不存在眾數(shù);〔2〕對于某些數(shù)據(jù)存在兩個或兩個以上的眾數(shù);〔3〕主要用來描述頻率分布。定義:指具有最高頻數(shù)的組值或中值。即資料中出現(xiàn)次數(shù)最多的那個觀測值或次數(shù)最多一組的組中值或中點值。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述

〔一〕平均數(shù)平均數(shù)的計算方法1、對于非頻數(shù)資料:平均數(shù)計算用Excel非常方便,求和函數(shù)是“Sum〞,計算單元格中所有數(shù)值的和;平均數(shù)函數(shù)是“Average〞,計算單元格中所有數(shù)值的平均值。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔一〕平均數(shù)平均數(shù)的計算方法2、對于頻數(shù)資料:其中,X=組值或中值;f為頻數(shù);k=組數(shù);N=總頻數(shù);fx=表示f與x的乘積。注意離散型數(shù)據(jù)和連續(xù)型數(shù)據(jù)的區(qū)別,都可以用Excel編輯函數(shù)運算。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔一〕平均數(shù)平均數(shù)的計算方法3、對于頻率資料:其中,X=組值或中值;p為頻率;k=組數(shù);px表示p與x的乘積。對于開口組,中值取組限。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔一〕平均數(shù)例:用一種復(fù)合飼料養(yǎng)豬,每天增重的kg數(shù)及其相應(yīng)概率如下:每天增重kg數(shù)(中值)0.51.01.52.0概率0.100.200.500.20求:這批豬平均每天增重多少?解:每天增重的平均值也稱為數(shù)學(xué)期望3、對于頻率資料:0.10×0.5+0.20×1.0+0.50×1.5+0.20×2.0=1.4第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述

〔二〕變異性度量1、范圍〔range,R〕:也叫極差,是資料中最大觀察值與最小觀察值的差數(shù)。R=最大值-最小值

極差由資料中兩個極端觀察值決定,沒有充分利用資料的全部信息,易受資料中異常極端數(shù)據(jù)的影響、不能全面反映事物變異的實際情況,精確度較差。一般只做簡單參考,說明大致情況。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量2、離均差:也叫離差:指每個數(shù)據(jù)偏離平均值的程度=但由于離均差之和等于零,不能直接算出離均差的平均數(shù)。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量一般解決方法是求離均差的絕對值的和,然后處以n,得到的值稱為平均離差。平均離差(meandeviation,MD):

第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量離均差雖然可以很好地反映樣本數(shù)據(jù)的離散程度,但是由于取絕對值符號,在數(shù)學(xué)中運算很不方便。為了更好地反映樣本的離散程度,又便于運算,把各個離差平方,即可消除正負值,并可以增加變異度量值的靈敏度。將各個離差平方的總和得到的數(shù)值稱為離均差平方和,用SS表示。3、方差和標準差第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量3、方差和標準差

由于各個樣本含量不同,為了消除變量個數(shù)多少的影響,用總離差平方和除以觀察值數(shù)減1,得到離差平方和的平均數(shù),稱為方差或均方,常用符號s2表示,計算公式為:注意:方差等于離差平方和除以n-1,n-1稱為自由度〔degreeoffreedom〕,用“df〞表示。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量3、方差和標準差

對于一個具有n個觀察值的樣本,其平均數(shù)為,當平均數(shù)固定時,n個觀察值只有n-1個可以自由取值,最后一個數(shù)不能自由取值,所以自由度是n-1。如:5個數(shù)的平均值是10,前四個數(shù)任意確定以后,如任選8、12、14、7,最后一個數(shù)不能自由取值,只能是9。自由度的統(tǒng)計學(xué)意義不必深究。

自由度指當以樣本的統(tǒng)計量來估計總體的參數(shù)時,樣本中可以自由變動的變量的個數(shù)。自由度=樣本個數(shù)-樣本數(shù)據(jù)受約束條件的個數(shù)第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量3、方差和標準差方差開方后得到的值稱為標準差,用“S〞或“SD〞表示。標準差(standarddeviation,SD):統(tǒng)計結(jié)果表明57%數(shù)據(jù)落在mean±MD,而68.27%數(shù)據(jù)落在mean±SD內(nèi),用標準差估計數(shù)據(jù)的離散程度最可靠。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述

〔二〕變異性度量標準差的計算方法在實際計算時,如果遇到較大的數(shù)值時,為了簡化計算SD的過程,要進行數(shù)據(jù)編碼:一組數(shù)據(jù)都減去同一個數(shù),得到的一組數(shù)據(jù)的標準差不變。但它們的平均值要減去這個數(shù)。如:數(shù)據(jù)97、98、99都減去96得到數(shù)據(jù)1、2、3,兩組數(shù)據(jù)97、98、99和1、2、3的標準差相等,S1=S2=1。數(shù)據(jù)編碼后,大大簡化了手動計算,但現(xiàn)在電腦的廣泛應(yīng)用,編碼已經(jīng)沒有多大意義了。不過學(xué)會編碼,在日后的學(xué)習(xí)和統(tǒng)計分析中還是比較方便的。Excel程序中用函數(shù)Stdev可以自動計算給定樣本的標準差。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量非頻數(shù)資料的標準差計算方法x=411x2=18841x’=6x’2=769名男子前臂長〔cm〕標準差計算前臂長x2x’=x-45x’245202500421764-39441936-11411681-416472209245025005254722092446211611492401416第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述18841-411*41199-1S==3.0(cm)76-

6*699-1S==3.0(cm)第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量頻數(shù)資料的標準差計算方法頻數(shù)資料的組值也可以先進行編碼,然后進行計算。例:株高x次數(shù)ffxfx27917962418021601280081324319683826492403448332492066784325221168851857225861867396總和201646135524s=20-1135524-=1.7502(cm)1646220第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量標準差的特性標準差的大小,受多個觀測數(shù)影響,如果觀測數(shù)與觀測數(shù)間差異較大,那么離均差也大,因而標準差也大,反之那么小。各觀測數(shù)加上或減去一個常數(shù),其標準差不變。各觀測數(shù)乘以或除以一個常數(shù)a,其標準差擴大或縮小a倍。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量標準差的作用表示變量分布的離散程度??梢愿爬ü烙嫵鲎兞康拇螖?shù)分布及各類觀測數(shù)在總體中所占的比例。估計平均數(shù)的標準誤。進行平均數(shù)的區(qū)間估計和變異系數(shù)計算。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量4、變異系數(shù)和標準誤

變異系數(shù)〔coefficientofvariability,CV〕定義:樣本的標準差除以樣本平均數(shù),所得到的比值就是變異系數(shù)。其計算公式如下:特點:是樣本變量的相對變異量,不帶單位??梢员容^不同樣本相對變異程度的大小。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量4、變異系數(shù)和標準誤

例:調(diào)查高稈水稻的株高,調(diào)查結(jié)果為:矮稈水稻的株高調(diào)查結(jié)果為:問哪種水稻長勢整齊?雖然S1>S2,但CV1=0.04;CV2=0.05。所以高稈水稻比矮稈水稻長勢整齊。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量4、變異系數(shù)的用途

比較度量衡單位不同的多組資料的變異度。例:某地20歲男子100人,其身高均數(shù)為166.06cm,標準差為4.95cm;其體重均數(shù)為53.72kg,標準差為4.96kg。比較身高與體重的變異情況。身高:CV=2.98%體重:CV=9.23%該地20歲男子體重的變異大于身高的變異。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量4、變異系數(shù)的用途

比較均數(shù)相差懸殊的多組資料的變異度。某地不同年齡組男子身高(CM)的變異程度年齡組人數(shù)均數(shù)標準差變異系數(shù)3-3.5歲10096.13.10.03230-35歲100170.25.00.03兒童身高的變異大于成年人身高的變異。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量4、變異系數(shù)和標準誤

標準誤〔standarderror,SE〕在科研工作中,描述樣本時,還經(jīng)常用到標準誤。在描述樣本數(shù)據(jù)時要注意區(qū)分標準差和標準誤。標準差是表示個體間變異大小的指標,一般用“SD〞表示。它反映了樣本數(shù)據(jù)對平均數(shù)的離散程度,是數(shù)據(jù)精密度的衡量指標。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量4、變異系數(shù)和標準誤

標準誤〔standarderror,SE〕在一般的科學(xué)研究中,對于標準差的大小,原那么上應(yīng)該控制在均值的12%以內(nèi)。標準誤〔SE〕是樣本平均數(shù)的抽樣誤差,常用SE或來表示。表示樣本平均數(shù)與總體平均數(shù)的接近程度,其大小反映了抽樣誤差的大小,是衡量測定結(jié)果可靠性的指標。所以在學(xué)術(shù)期刊上發(fā)表文章,描述數(shù)據(jù)時一定要寫清是mean±SD還是mean±SE。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述4、變異系數(shù)和標準誤

例:兩個同學(xué)去同一塊玉米田調(diào)查玉米株高,甲同學(xué)隨機調(diào)查了64株,調(diào)查結(jié)果為:,乙同學(xué)隨機調(diào)查了36株,調(diào)查結(jié)果為:,哪位同學(xué)調(diào)查數(shù)據(jù)可靠?

從變異系數(shù)上看,CV1=4.8/120=0.04,CV2=4.5/135=0.033,CV1>CV2,乙同學(xué)調(diào)查數(shù)據(jù)的整齊性好。但是從數(shù)據(jù)的可靠性來看,即從標準誤上看,乙組數(shù)據(jù)的標準誤大于甲組SE1<SE2,說明乙同學(xué)的抽樣誤差大于甲同學(xué),甲組同學(xué)的數(shù)據(jù)更可靠。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量5、偏斜度樣本平均數(shù)和標準差是統(tǒng)計學(xué)中最常用的統(tǒng)計量,能夠?qū)颖具M行定量描述,但他們卻不能對變量分布特征進行量化。如對分布曲線的偏斜度和陡峭度就不能進行量化。偏斜度和陡峭度也是描述數(shù)據(jù)分布規(guī)律的兩個重要統(tǒng)計量。為了讓大家了解兩個概念,先介紹中心矩的概念。第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量5、偏斜度m1、m2、m3、m4分別稱為一階中心矩、二階中心矩、三階中心矩、四階中心矩。一階中心矩是離均差的和除以n,而不是n-1,其他中心矩也是如此。我們分別令:第二章統(tǒng)計數(shù)據(jù)的收集、整理與描述

四、樣本數(shù)據(jù)分布特征的描述〔二〕變異性度量5、偏斜度偏斜度〔Skewness〕:變量數(shù)據(jù)圍繞眾數(shù)呈不對稱分布的程度,用“g1〞表示。偏斜度是一個純數(shù),不帶任何單位,它的大小說

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論