第四章-生物信息學(xué)常用概率統(tǒng)計方法_第1頁
第四章-生物信息學(xué)常用概率統(tǒng)計方法_第2頁
第四章-生物信息學(xué)常用概率統(tǒng)計方法_第3頁
第四章-生物信息學(xué)常用概率統(tǒng)計方法_第4頁
第四章-生物信息學(xué)常用概率統(tǒng)計方法_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第四章 生物信息學(xué)常用概率統(tǒng)計方法簡介,統(tǒng)計生物信息學(xué)解決問題步驟,在掌握基本資料分布的基礎(chǔ)上,提出檢驗假設(shè) 將數(shù)據(jù)資料進(jìn)行合理的分類和整理,建立數(shù)據(jù)文件 借助于相關(guān)統(tǒng)計軟件,根據(jù)研究者的實驗設(shè)計和研究目的,對數(shù)據(jù)文件中的數(shù)據(jù)進(jìn)行統(tǒng)計分析(可能需要建立統(tǒng)計模型) 對統(tǒng)計結(jié)果做出合理的解釋,最最關(guān)鍵!,概率統(tǒng)計學(xué)基礎(chǔ),確定性現(xiàn)象:在一定條件下,一定會發(fā)生或一定不會發(fā)生的現(xiàn)象。其表現(xiàn)結(jié)果為兩種事件:肯定發(fā)生某種結(jié)果的叫必然事件;肯定不發(fā)生某種結(jié)果的叫不可能事件。 隨機現(xiàn)象:在同樣條件下可能會出現(xiàn)兩種或多種結(jié)果,究竟會發(fā)生哪種結(jié)果,事先不能確定。其表現(xiàn)結(jié)果稱為隨機事件。 隨機事件的特征:隨機性;規(guī)律

2、性:每次發(fā)生的可能性的大小是確定的。 概率(probability):隨機事件發(fā)生的可能性大小,用大寫的P 表示;取值0,1。,頻率 frequency 樣本的實際發(fā)生率稱為頻率。設(shè)在相同條件下,獨立重復(fù)進(jìn)行n次試驗,事件A出現(xiàn)f 次,則事件A出現(xiàn)的頻率為f / n 頻率與概率間的關(guān)系: 樣本頻率總是圍繞概率上下波動 樣本含量n越大,波動幅度越小,頻率越接近概率,概率計算的基本法則 加法法則 乘法法則 互補原則 完全事件系的概率,小概率事件 必然事件 P= 1 不可能事件 P=0 隨機事件 0P1 將P 0.05(5)或P 0.01(1)稱為小概率事件(習(xí)慣),統(tǒng)計學(xué)上認(rèn)為不大可能發(fā)生,隨機變

3、量及其分布,隨機變量(random variable) 簡稱變量(variable),統(tǒng)計上習(xí)慣用大寫拉丁字母表示 ,如X、Y 、Z、 變量值習(xí)慣用小寫拉丁字母表示 ,如性別x11(男)、x2 1(男)、x3 0(女) 、 隨機變量特征 是一個變量 取值隨試驗結(jié)果而改變,本例中,性別、體重、療效分別為三個隨機變量,分別用X, Y, Z表示 其中,性別變量有若干取值:x1=1, x2=1;體重變量也有若干取值: y1=66, y2=78;,隨機變量的分類 離散型變量(discrete variable),相當(dāng)于計數(shù)資料,變量的所有取值是有限個,如性別、年齡、血型等 連續(xù)性變量( continuo

4、us variable),相當(dāng)于計量資料,變量的取值有無窮多個,如身高、體重、血壓、體溫等 有序變量( ordinal variable),相當(dāng)于等級資料,如尿糖等級( +、+、+、+)、脈搏等級(速脈、正常、緩脈)等,隨機變量概率分布(probability distribution) 事件概率表示了一次試驗中某個結(jié)果發(fā)生可能性的大小 要想全面了解試驗中某種變量的變化趨勢,必須知道該變量在試驗中全部可能的結(jié)果以及各種可能結(jié)果發(fā)生的概率隨機變量的概率分布 概率分布通常用表格、圖形、函數(shù)來表示 根據(jù)隨機變量的不同,可分為離散變量的概率分布與連續(xù)變量的概率分布,離散隨機變量的概率分布 設(shè)離散型隨機

5、變量 的所有可能取值是 ,而取值 的概率為 稱此式為X的分布律(列)或概率分布 (Probability distribution),即,隨機變量X的概率分布全面表達(dá)了X的所有可能取值以及取各個值的概率情況,離散隨機變量分布律的表示方法,公式法,表格法,性質(zhì),例 設(shè)X的分布律為,求 P(0X2),P(0X2)=P(X=1)+P(X=2) =1/2+1/6=2/3,分布律確定概率,解,幾種常見的離散型分布,二項分布(Binomial distribution),定義:在n重貝努利試驗中,若以X表示事件A發(fā)生的次數(shù), 則X可能的取值為0,1,2,3,n,若隨機變量X的分布律滿足:,其中0 p 1,

6、 則稱X服從參數(shù)為 n, p 的二項分布(也稱Bernoulli 分布),記為XB( n, p),泊松分布(Poisson distribution) 若隨機變量 X 的分布律為: 其中 0, 則稱X服從參數(shù)為的泊松分布,記為XP(),連續(xù)型隨機變量的概率分布 連續(xù)型隨機變量的取值為一個范圍,當(dāng)變量在該范圍內(nèi)取值時,概率是固定的,而當(dāng)變量取某一個具體固定值則是無意義的,因為在連續(xù)尺度上,某一點的概率=0 對這種類型的隨機變量不能象離散型的那樣用分布律描述,而是用概率密度描述,連續(xù)型隨機變量概率密度的定義及性質(zhì) 定義:設(shè)X是一個隨機變量,其分布函數(shù)為F(x).若存在非負(fù)函數(shù) f(x) , 使對任

7、意實數(shù)x,有 則稱X為連續(xù)型隨機變量,f(x)稱為X的概率密度函數(shù),簡稱概率密度,概率密度f(x)的性質(zhì) 連續(xù)型隨機變量X的值落入?yún)^(qū)間 a , b 內(nèi)的概率為,頻數(shù)分布:用來統(tǒng)計每個變量值所處的區(qū)域,從而將資料進(jìn)行收集整理,頻數(shù)分布直方圖,從頻數(shù)表及頻數(shù)分布圖上可得知:該數(shù)值變量資料頻數(shù)分布呈現(xiàn)中間頻數(shù)多,左右兩側(cè)基本對稱的分布。所以我們通俗地認(rèn)為該資料服從正態(tài)分布。,正態(tài)分布: 通俗地講: 如果把變量資料編制頻數(shù)表后繪制頻數(shù)分布圖(又稱直方圖,它用矩形面積表示數(shù)值變量資料的頻數(shù)分布,每條直條的寬表示組距,直條的面積表示頻數(shù)(或頻率)大小,直條與直條之間不留空隙),若頻數(shù)分布呈現(xiàn)中間為最多,左

8、右兩側(cè)基本對稱,越靠近中間頻數(shù)越多,離中間越遠(yuǎn),頻數(shù)越少,形成一個中間頻數(shù)多,兩側(cè)頻數(shù)逐漸減少且基本對稱的分布,那我們一般認(rèn)為該數(shù)值變量服從或近似服從數(shù)學(xué)上的正態(tài)分布。,正態(tài)分布的數(shù)理統(tǒng)計學(xué)概念 如果隨機變量(X)的概率密度函數(shù)為: -x+ 則該隨機變量服從正態(tài)分布。 式中為總體標(biāo)準(zhǔn)差;為總體均數(shù); =3.14159; e=2.71828。,正態(tài)分布曲線特性 若某一隨機變量的概率密度函數(shù)(頻率曲線方程)為上式,則稱該變量X服從參數(shù)為和的正態(tài)分布,記為:XN(,2),其中為位置參數(shù),為形狀參數(shù) 曲線位于橫軸上方,呈鐘形,以均數(shù)所在處最高,且以均數(shù)為中心左右對稱,正態(tài)分布曲線由兩個參數(shù)決定,即總體

9、均數(shù)和總體標(biāo)準(zhǔn)差 在不變的情況下,函數(shù)曲線形狀不變,若變大時,曲線位置向右移;若變小時,曲線位置向左移,故稱為位置參數(shù) 在不變的情況下,函數(shù)曲線位置不變,若變大時,曲線形狀變的越來越“胖”和“矮”;若變小時,曲線形狀變的越來越“瘦”和“高”,故稱為形態(tài)參數(shù)或變異度參數(shù),N(,0.52)、N(,12)、N(,22),N(1 ,2)、N(2 ,2),正態(tài)曲線下面積分布規(guī)律 對于服從正態(tài)分布的隨機變量X,隨機變量值出現(xiàn)在某一區(qū)間(x1,x2)的概率與正態(tài)分布概率密度曲線與橫軸在該區(qū)間所圍成的區(qū)域的面積大小相對應(yīng)(相等) 正態(tài)分布概率密度曲線與橫軸圍成的區(qū)域的總面積等于1 正態(tài)分布概率密度曲線下橫軸上

10、一定區(qū)間的面積可用數(shù)學(xué)知識求出 實際應(yīng)用中,由于所有正態(tài)分布都可通過變量變換為標(biāo)準(zhǔn)正態(tài)分布,為省去積分計算不同正態(tài)分布曲線下橫軸上一定區(qū)間面積的繁瑣過程,專門編制了標(biāo)準(zhǔn)正態(tài)分布曲線下橫軸上一定區(qū)間面積分布表,可求正態(tài)分布曲線下一定區(qū)間面積,標(biāo)準(zhǔn)正態(tài)分布 若某一隨機變量X,其總體均數(shù)=0,總體標(biāo)準(zhǔn)差=1,即XN(0,1),則稱變量X服從標(biāo)準(zhǔn)正態(tài)分布。習(xí)慣把服從標(biāo)準(zhǔn)正態(tài)分布的變量用字母U或Z表示,此時,我們把 U 或 Z 稱為標(biāo)準(zhǔn)正態(tài)變量,標(biāo)準(zhǔn)正態(tài)分布是正態(tài)分布中的一個典型分布,數(shù)理統(tǒng)計上證明:對一服從正態(tài)分布的隨機變量(X),若進(jìn)行特定的變量變換,可將任何一服從正態(tài)分布的隨機變量(X)轉(zhuǎn)變成服從

11、標(biāo)準(zhǔn)正態(tài)分布的隨機變量(U或Z),這種變量變換過程稱為變量的標(biāo)準(zhǔn)化,也稱為U或Z變換,標(biāo)準(zhǔn)正態(tài)分布曲線特征 標(biāo)準(zhǔn)正態(tài)分布曲線下對稱于0的區(qū)間,面積相等,各占50%,即左右各為0.5 標(biāo)準(zhǔn)正態(tài)分布曲線的縱坐標(biāo)與面積關(guān)系圖,縱坐標(biāo)從移到u所對應(yīng)區(qū)域的面積為上圖紅色區(qū)域面積的大小,該區(qū)域面積用(u)表示,可通過查標(biāo)準(zhǔn)正態(tài)分布曲線面積分布表得到(u)大小 u值查表所對應(yīng)的面積是區(qū)間(-,u)所對應(yīng)的面積,即(u) 若u=-1.96,那么(-1.96)則表示從移到1.96所對應(yīng)區(qū)域的面積,通過查標(biāo)準(zhǔn)正態(tài)分布曲線面積分布表得到(-1.96)=0.025,雙尾概率u,單尾概率u/2,總體與抽樣分布,總體(p

12、opulation):根據(jù)研究目的確定的同質(zhì)研究對象的全體(集合) 總體分為有限總體與無限總體 樣本(sample) :從總體中隨機抽取的部分觀察單位,隨機抽樣(sampling):為了保證樣本的可靠性和代表性,需要采用隨機的抽樣方法(在總體中每個個體具有相同的機會被抽到)。,在隨機抽樣過程中,不可避免會產(chǎn)生一定的隨機誤差(random error):排除系統(tǒng)誤差后尚存的誤差,受多種無法控制的因素的影響 特點:大小方向不一的隨機變化 隨機測量誤差(random measurement error) 提高操作者熟練程度可以減少這種誤差 隨機抽樣誤差( random sampling error)

13、:由抽樣造成的樣本統(tǒng)計量和總體參數(shù)間的差異不可避免,但有一定的分布規(guī)律,可估計,抽樣分布(sampling distribution):從同一個總體中隨機抽出容量相同的各種樣本,從這些樣本計算出的某統(tǒng)計量所有可能值的概率分布,稱為這個統(tǒng)計量的抽樣分布 抽樣分布是從n次樣本抽樣得出的某個統(tǒng)計量的概率分布 ,目的是為了消除抽樣中的隨機誤差 抽樣分布屬于概率分布的范疇,常見的描述抽樣分布的參數(shù)有:均值、方差、標(biāo)準(zhǔn)差、置信區(qū)間等,平均數(shù)(average)反映了資料的集中趨勢( central tendency ) 算術(shù)均數(shù)(arithmetic mean),簡稱均數(shù) (mean) 幾何均數(shù)(geome

14、tric mean) 中位數(shù) (median) 眾數(shù)(mode),均數(shù)(mean),為求和符號,讀成sigma 適用條件:資料呈正態(tài)或近似正態(tài),幾何均數(shù)(geometric mean),中位數(shù)(median),中位數(shù)是將一批數(shù)據(jù)從小至大排列后位次居中的數(shù)據(jù)值,符號為Md,反映一批觀察值在位次上的平均水平。 適用條件:適合各種類型的資料。尤其適合于大樣本偏態(tài)分布的資料; 資料有不確定數(shù)值;資料分布不明等,中位數(shù)計算公式與實例,先將觀察值按從小到大順序排列,再按以下公式計算:,特點:僅僅利用了中間的12個數(shù)據(jù),眾數(shù)(mode),出現(xiàn)次數(shù)(或頻數(shù))最多的觀察值;在頻數(shù)分布圖中對應(yīng)于高峰所在位置的觀察

15、值。適用于大樣本;較粗糙,均數(shù)、中位數(shù)、眾數(shù)三者關(guān)系,正態(tài)分布時: 均數(shù)中位數(shù)眾數(shù) 正偏態(tài)分布時:均數(shù)中位數(shù)眾數(shù) 負(fù)偏態(tài)分布時:均數(shù)中位數(shù)眾數(shù),正偏態(tài)分布,負(fù)偏態(tài)分布,方差 (variance)也稱均方差(mean square deviation),樣本觀察值的離均差平方和的均值。表示一組資料數(shù)據(jù)的平均離散趨勢,標(biāo)準(zhǔn)差(standard deviation)即方差的正平方根;其單位與原變量X 的單位相同。,標(biāo)準(zhǔn)差的計算,參數(shù)估計是指用樣本的各個指標(biāo)來推斷總體的各個指標(biāo),分為點估計(point estimation)與區(qū)間估計,參數(shù)的估計,點估計:由樣本統(tǒng)計量 直接估計得到總體參數(shù):,區(qū)間估計

16、:在一定置信度(Confidence level)下,同時考慮抽樣誤差,置信區(qū)間,置信區(qū)間:如果能夠進(jìn)行重復(fù)抽樣試驗,平均有(1-)的區(qū)間包含了總體參數(shù),即該區(qū)間中包含有總體參數(shù)的概率為100(1-)% 例如:95可信區(qū)間是指:從總體中作100次隨機抽樣,每個樣本可算得一個可信區(qū)間,得100個可信區(qū)間,平均有95個可信區(qū)間包括(估計正確),只有5個可信區(qū)間不包括(估計錯誤),置信區(qū)間的計算公式,95可信區(qū)間 99可信區(qū)間 公式 區(qū)間范圍 窄 寬 估計錯誤的概率 大(0.05) ?。?.01) 可信度 低 高,假設(shè)檢驗的步驟及有關(guān)概念,總體間差異: 1. 個體差異,抽樣誤差所致; 2. 總體間固

17、有差異 判斷差別屬于哪一種情況的統(tǒng)計學(xué)檢驗,就是假設(shè)檢驗(test of hypothesis)。 t檢驗是最常用的一種假設(shè)檢驗之一。 小概率思想: P(0.05) 樣本差別無統(tǒng)計學(xué)意義,假設(shè)檢驗的步驟 建立假設(shè)與確定檢驗水準(zhǔn)() 建立假設(shè): H0: 12 無效假設(shè)(null hypothesis) H1: 12 備擇假設(shè)(alternative hypothesis) 檢驗水準(zhǔn)(level of a test):=0.05(雙側(cè)) 選定方法和計算統(tǒng)計量 根據(jù)統(tǒng)計推斷目的、設(shè)計、資料組數(shù)、樣本含量、等選擇方法。如兩組小樣本比較用t檢驗、大樣本比較u檢驗、方差齊性檢驗用F檢驗 確定P值,作出判斷 P(0.05) 樣本差別有統(tǒng)計學(xué)意義 P (0.05) 樣本差別無統(tǒng)計學(xué)意義,型錯誤和型錯誤

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論