統(tǒng)計分析和prism軟件使用201512_第1頁
統(tǒng)計分析和prism軟件使用201512_第2頁
統(tǒng)計分析和prism軟件使用201512_第3頁
統(tǒng)計分析和prism軟件使用201512_第4頁
統(tǒng)計分析和prism軟件使用201512_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、統(tǒng)計基礎和統(tǒng)計基礎和prism軟件使用軟件使用仝鑫 魏健2015-12目錄目錄線性回歸和prism軟件應用t檢驗、F檢驗(方差分析)和prism軟件應用假設檢驗(參數(shù)檢驗和非參數(shù)檢驗)統(tǒng)計學基礎知識The Gaussian Distribution The Gaussian function describing this shape is defined as follows:where m represents the populationmean and s the standard deviation.Few biological distributions, if any, real

2、ly follow the Gaussian distribution一、統(tǒng)計學基礎知識The Central Limit TheoremIf your samples are large enough, the distribution of means will follow a Gaussian distribution even if the population is not Gaussian.N=10 or so is generally enough一、統(tǒng)計量(Descriptive Statistics:column statistics in prism)Measures o

3、f LocationA typical or central value that best describes the data(central tendency).Mean(平均值)Median(中數(shù))Mode(眾數(shù))Geometric mean(幾何均數(shù))Measures of DispersionDescribe spread (variation) of the data around that central value.Range(范圍)Variance(方差)Standard Deviation(標準偏差)Standard Error(樣本間標準誤=SD/n Coefficie

4、nt of variation(變異系數(shù))Confidence Interval(置信區(qū)間)No single parameter can fully describe distribution of data in the sample. Moststatistics software will provide a comprehensive table describing the distribution.Measures of Location: MeanMeanMore commonly referred to as “the average”.It is the sum of th

5、e data points divided by the number of data points.Migration AssayCell #Distance travelled(Microns)14922731324245786807628399200M=76.78 microns = 77 micronsM 492713224 788062 392009Measures of Dispersion: VarianceVariance Defined as the average of the square distance of each value from the mean.To c

6、alculate variance, it is first necessaryto calculate the mean score then measurethe amount that each score deviates fromthe mean. The formula for calculating variance is:1)(22NMXSMeasures of Dispersion:Standard DeviationStandard DeviationThe most common and useful measure of dispersion.Tells you how

7、 tightly each sample is clustered around the mean. When the samples are tightly bunched together, the Gaussian curve is narrow and the standard deviation is small.When the samples are spread apart, the Gaussian curve is flat and the standard deviation is large. The formula to calculate standard devi

8、ation is:SD = square root of the variance.標準偏差(SD) 和標準誤( SEM)Standard deviation refers to the amount you expect an individual measurement to vary from the average.標準差(standard deviation)衡量的是樣本值對樣本平均值的離散程度,反應個體間變異的大小,是量度數(shù)據(jù)精密度的指標。Standard error of the mean is how much you expect a value averaged from

9、several measurements to vary from the true mean. 標準誤(standard error)衡量的是樣本平均值對總體平均值的離散程度,反映抽樣誤差的大小,是量度結果精密度的指標。Should we show standard deviation or standard error?Use Standard Deviation If the scatter is caused by biological variability and you want to show that variability. For example: You aliquot

10、 10 plates each with a different cell line and measure integrin expression of each.Use standard error If the variability is caused by experimental imprecision and you want to show the precision of the calculated mean. Then show the 95% confidence interval of the mean. For example: You aliquot 10 pla

11、tes of the same cell line and measure integrin expression of each.Precision of the Mean在統(tǒng)計學中,樣本的置信區(qū)間(Confidence intervals)是對這個樣本的總體某參數(shù)的區(qū)間估計。展現(xiàn)的是這個參數(shù)的真實值有一定概率落在測量結果的周圍的程度。“一定概率”:稱為置信水平。當求取90% 置信區(qū)間時 Z=1.645 當求取95% 置信區(qū)間時 Z=1.96當求取99% 置信區(qū)間時 Z=2.576The formula for calculating CI:CI = X (SEM x Z)X is the

12、sample mean and Z is the critical value for the normal distribution.For the 95% CI, Z=1.96.For our data set:95% CI=77 (19x1.96)=77 32CI 95%=45-109This means that theres a 95% chance that the CI you calculated contains the population mean.CI: A Practical ExampleData set AData set B8090855290308844796

13、892778855856288758688Data set AData set BMean86.164.1SD4.119.3SEM1.36.1Low 95% CI83.250.3High 95% CI89.077.9Between these two data sets, which mean do you think best reflects the population mean and why?Interpret CI of a meanSD/SEM/95% CI error barsSDSEM95% CI二、The Null Hypothesis(假設檢定) Appears in t

14、he form Ho: m1 = m2Where; Ho = null hypothesism1 = mean of population 1m2 = mean of population 2 An alternate form is Ho: m1-m2=0 The null hypothesis is presumed true until statistical evidence in the form of a hypothesis test proves otherwise.(非此即彼)非此即彼)檢驗統(tǒng)計量檢驗統(tǒng)計量 用于假設檢驗問題的統(tǒng)計量稱為用于假設檢驗問題的統(tǒng)計量稱為檢驗統(tǒng)計量檢

15、驗統(tǒng)計量。 與參數(shù)估計相同,需要考慮:與參數(shù)估計相同,需要考慮: 總體是否正態(tài)分布;總體是否正態(tài)分布; 大樣本還是小樣本;大樣本還是小樣本; 總體方差已知還是總體方差已知還是未知。未知。假設檢驗的一些基本概念假設檢驗的一些基本概念假設檢驗的一些基本概念the difference you observed from sampling true difference of population. All you can do is calculate probabilities(P value:0,1). Before thinking about P values, you should:1)

16、 Assess the science. 2) Review the assumptions of the analysis you chose P values(Small P and big P see page 35 and 37)顯著性水平顯著性水平(threshold significance level)用樣本推斷用樣本推斷H0是否正確,必有犯錯誤的可能。是否正確,必有犯錯誤的可能。 原假設原假設H0正確,而被我們拒絕,犯這種錯誤的概率或風險用正確,而被我們拒絕,犯這種錯誤的概率或風險用 表示。表示。把把 稱為假設檢驗中的稱為假設檢驗中的顯著性水平顯著性水平, 即決策中的風險。即決

17、策中的風險。例:0.05時的接受域和拒絕域接受域接受域:原假設為真時允許范圍內(nèi)的變動,應該:原假設為真時允許范圍內(nèi)的變動,應該接受原假設。接受原假設。拒絕域拒絕域:當原假設為真時只有很小的概率出現(xiàn),因而當統(tǒng)計量的結果落入這一區(qū)域:當原假設為真時只有很小的概率出現(xiàn),因而當統(tǒng)計量的結果落入這一區(qū)域便應便應拒絕原假設拒絕原假設,這一區(qū)域便稱作拒絕域。,這一區(qū)域便稱作拒絕域。 假設檢驗的一些基本概念假設檢驗的一些基本概念雙側檢驗與單側檢驗雙側檢驗與單側檢驗假設檢驗根據(jù)實際的需要可以分為假設檢驗根據(jù)實際的需要可以分為 :雙側檢驗(雙尾)雙側檢驗(雙尾): 指只強調(diào)差異而不強調(diào)方向性的檢驗。指只強調(diào)差異而

18、不強調(diào)方向性的檢驗。單側檢驗(單尾)單側檢驗(單尾):強調(diào)某一方向性的檢驗。:強調(diào)某一方向性的檢驗。 左側檢驗左側檢驗 右側檢驗右側檢驗大還是小比是否有差異,不關心,只關注0101011010:mmmmmmmmHHmmmmmmmm1110011010:HHHH假設檢驗中的單側檢驗示意圖 拒絕域 拒絕域 (a)右側檢驗 (b)左側檢驗假設檢驗的一些基本概念假設檢驗的一些基本概念假設檢驗中的兩類錯誤假設檢驗中的兩類錯誤 假設檢驗假設檢驗是依據(jù)樣本提供的信息進行推斷的是依據(jù)樣本提供的信息進行推斷的,即由部分來推即由部分來推斷總體斷總體,因而假設檢驗不可能絕對準確因而假設檢驗不可能絕對準確,是可能犯錯

19、誤的。是可能犯錯誤的。 兩類錯誤:兩類錯誤: 錯誤錯誤(I型錯誤型錯誤): H0為真時卻被拒絕為真時卻被拒絕,棄真錯誤棄真錯誤; 錯誤錯誤(II型錯誤型錯誤): H0為假時卻被接受為假時卻被接受,取偽錯誤。取偽錯誤。 假設檢驗中各種可能結果的概率:假設檢驗中各種可能結果的概率: 接受接受H0 ,拒絕拒絕H1 拒絕拒絕H0,接受接受H1 H0為真為真 1 (正確決策正確決策) (棄真錯誤棄真錯誤) H0為偽為偽 (取偽錯誤取偽錯誤) 1- (正確決策正確決策)X(1) 與與 是兩個前提下的概率。即是兩個前提下的概率。即 是拒絕原假設是拒絕原假設H0時犯錯時犯錯誤的概率,這時前提是誤的概率,這時前

20、提是H0為真;為真; 是接受原假設是接受原假設H0時時犯錯犯錯誤的概率,這時前提是誤的概率,這時前提是H0為偽。所以為偽。所以 不等于不等于1。(2)對于固定的對于固定的n, 與與 一般情況下不能同時減小。對于固定一般情況下不能同時減小。對于固定的的n, 越小越小, Z /2越大越大,從而接受假設區(qū)間從而接受假設區(qū)間(-Z /2, Z /2)越大越大,H0就越容易被接受就越容易被接受,從而從而“取偽取偽”的概率的概率 就越大就越大; 反之亦然反之亦然。即樣本容量一定時,。即樣本容量一定時,“棄真棄真”概率概率 和和“取偽取偽”概率概率 不不能同時減少,一個減少,另一個就增大。能同時減少,一個減

21、少,另一個就增大。與 (3)要想減少要想減少 與與 ,一個方法就是要增大樣本容量一個方法就是要增大樣本容量n。與概率從而減少了兩種錯誤的變小,則分布就瘦長,變小,就會中,在樣本平均數(shù)的分布若增大mnnnNXn22),(與Statistical Power(統(tǒng)計功效)Hypothesis TestingObserve PhenomenonPropose HypothesisDesign StudyCollect and Analyze DataInterpret ResultsDraw ConclusionsvvvStatistics are an importantPart of the st

22、udy designNonparametric tests and parametric tests(參數(shù)檢驗和非參數(shù)檢驗)ANOVA, t tests, and many statistical tests :sampled data from populations that follow a Gaussian bell-shaped distribution.many kinds of biological data follow a bell-shaped distribution that is approximately Gaussian.a Gaussian distributi

23、on :Normality test(正態(tài)性檢驗):Normality tests can help you decide when to use nonparametric tests, but the decision should not be an automatic one.examine the frequency distribution or the cumulative frequency distribution.使用服從使用服從T分布的統(tǒng)計量檢驗正態(tài)總分布的統(tǒng)計量檢驗正態(tài)總體平均值的方法。體平均值的方法。是定量資料分析中最常用的假設檢驗是定量資料分析中最常用的假設檢驗方法

24、方法t檢驗和prism軟件應用三、t檢驗、F檢驗(方差分析)和prism軟件應用t檢驗類型1 1、樣本均數(shù)與已知某總體均數(shù)、樣本均數(shù)與已知某總體均數(shù)比較的比較的t t檢驗檢驗 use the column statistics analysis2 2、配對設計(、配對設計(paired design)均數(shù)比較的均數(shù)比較的t t檢驗檢驗目的:推斷兩個未知總體均數(shù)1與2是否有差別,用配對設計。3 3、兩個獨立樣本(、兩個獨立樣本(unpaired design)均數(shù)比較的)均數(shù)比較的t t檢驗檢驗目的:推斷兩個未知總體的均數(shù)1與2是否有差別,用成組設計。 適用于樣本均數(shù)與已知總體均數(shù)0的比較,其比

25、較目的是檢驗樣本均數(shù)所代表的總體均數(shù)是否與已知總體均數(shù)0有差別。 已知總體均數(shù)0一般為標準值、理論值或經(jīng)大量觀察得到的較穩(wěn)定的指標值。 單樣t檢驗的應用條件是總體標準未知的小樣本資料( 如n50),且服從正態(tài)分布。 一、樣本均數(shù)與已知某總體均數(shù)的比較(單樣本t檢驗)二、配對設計均數(shù)比較的t檢驗(配對t檢驗)配對設計處理分配方式主要有三種情況:兩個同質(zhì)受試對象分別接受兩種處理,如把同窩、同性別和體重相近的動物配成一對,或把同性別和年齡相近的相同病情病人配成一對;同一受試對象或同一標本的兩個部分,隨機分配接受兩種不同處理;自身對比(self-contrast)。即將同一受試對象處理(實驗或治療)前

26、后的結果進行比較,如對高血壓患者治療前后、運動員體育運動前后的某一生理指標進行比較。 案例1 6L1 Tm1t ratioTesting if pairs follow a Gaussian distribution獨立樣本:又稱非配對樣本或成組樣本。是指一組數(shù)據(jù)與另一組數(shù)據(jù)沒有任何關系,也就是說,兩樣本資料是相互獨立的。u兩組的樣本容量盡可能相同,可以提高檢驗的精確度。u其均數(shù)差異顯著性的t檢驗,又分為兩總體方差相等(方差齊性)和方差不等兩種檢驗方法(Levenes Test for equality of variance)。u若兩總體方差不等,即方差不齊,可采用t檢驗,或進行變量變換,或

27、用秩和檢驗方法處理。 三、兩個獨立樣本均數(shù)比較的t檢驗(兩獨立樣本的t檢驗)案例2 6L1rs和16L1rs Tm1nonparametric testChoosing when to use a nonparametric test is not straightforward The Mann-Whitney test Wilcoxon matched pairs test -unpaired data總結應用條件:t 檢驗:1. 小樣本(n50)計量資料 2.樣本來自正態(tài)分布總體 3.總體標準差未知 4.兩樣本均數(shù)比較時,要求兩樣本相 應的總體方差相等(方差齊性)2022-1-15 把所

28、有觀察值之間的變異分解為幾個部分。即把描寫觀察值之間的變異的離均差平方和分解為某些因素的離均差平方和及隨機抽樣誤差的離均差平方和,進而計算其相應的均方差,構成F統(tǒng)計量。 分類: 單因素方差分析:因素只有一個,這個因素的水平2。多因素(2)方差分析:因素2,各因素的水平2方差分析(ANOVA,F(xiàn)檢驗)和prism軟件應用 在試驗中所考慮的因素只有一個時,稱為單因素實驗。 它是最簡單的一種,它適用于只研究一個試驗因素的資料,目的在于正確判斷該試驗因素各處理的相對效果(各水平的優(yōu)劣)1.各樣本是相互獨立的隨機樣本;各樣本是相互獨立的隨機樣本;2.各樣本數(shù)據(jù)均服從正態(tài)分布;各樣本數(shù)據(jù)均服從正態(tài)分布;3.相互比較的各樣本的總體方差相等,相互比較的各樣本的總體方差相等, 即方差齊性即方差齊性(homogeneity of variance)。單因素方差分析(one way ANOVA) ordinary one-way ANOVA Repeated measures one-way ANOVA Non parameters :Kruskal-Wallis test; Fredmans test案例3NaCl濃度對6L1rs顆粒影響

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論