生物芯片的數(shù)據(jù)處理及應(yīng)用_第1頁(yè)
生物芯片的數(shù)據(jù)處理及應(yīng)用_第2頁(yè)
生物芯片的數(shù)據(jù)處理及應(yīng)用_第3頁(yè)
生物芯片的數(shù)據(jù)處理及應(yīng)用_第4頁(yè)
生物芯片的數(shù)據(jù)處理及應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩62頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、LOGO生物芯片的數(shù)生物芯片的數(shù)據(jù)處理及應(yīng)用據(jù)處理及應(yīng)用 2013.11.11 李丹李丹 生物芯片的數(shù)據(jù)處理及應(yīng)用生物芯片的數(shù)據(jù)處理及應(yīng)用v 生物芯片作為一種高通量的技術(shù)平臺(tái)為探索生物的復(fù)雜生物芯片作為一種高通量的技術(shù)平臺(tái)為探索生物的復(fù)雜性提供了強(qiáng)有力的工具性提供了強(qiáng)有力的工具。在在生命科學(xué)、藥物研發(fā)、臨床疾生命科學(xué)、藥物研發(fā)、臨床疾病檢測(cè)和診斷病檢測(cè)和診斷、環(huán)境、農(nóng)林業(yè)環(huán)境、農(nóng)林業(yè)等領(lǐng)域都得到了廣泛的應(yīng)用等領(lǐng)域都得到了廣泛的應(yīng)用。通過(guò)生物芯片的一次檢測(cè),可以產(chǎn)生大量的數(shù)據(jù)。通過(guò)生物芯片的一次檢測(cè),可以產(chǎn)生大量的數(shù)據(jù)。如何如何在浩瀚如海的芯片數(shù)據(jù)中,通過(guò)有效的數(shù)據(jù)處理和分析方在浩瀚如海的芯片數(shù)

2、據(jù)中,通過(guò)有效的數(shù)據(jù)處理和分析方法法。發(fā)現(xiàn)基因表達(dá),基因的結(jié)構(gòu)和基因功能可能存在的聯(lián)發(fā)現(xiàn)基因表達(dá),基因的結(jié)構(gòu)和基因功能可能存在的聯(lián)系,將無(wú)機(jī)的數(shù)據(jù)信息與有機(jī)的生命活動(dòng)聯(lián)系起來(lái),闡釋系,將無(wú)機(jī)的數(shù)據(jù)信息與有機(jī)的生命活動(dòng)聯(lián)系起來(lái),闡釋生命的特征和規(guī)律以及基因的功能,是生物信息學(xué)研究的生命的特征和規(guī)律以及基因的功能,是生物信息學(xué)研究的重要課題重要課題。Contents生物芯片的原理(基因芯片甲基化芯片)生物芯片的原理(基因芯片甲基化芯片)1芯片芯片數(shù)據(jù)數(shù)據(jù)預(yù)處理預(yù)處理2差異基因篩選差異基因篩選3基因功能注釋與功能富集分析基因功能注釋與功能富集分析4基因芯片的應(yīng)用基因芯片的應(yīng)用5R, G一、基因一、基

3、因芯片的檢測(cè)原理芯片的檢測(cè)原理最根本的原理:堿基互補(bǔ)配對(duì)原則 核酸分子特異性雜交基因芯片(gene chip),又稱(chēng)DNA微陣列(microarray),是由大量DNA或寡核苷酸探針密集排列所形成的探針陣列,其工作的基本原理是通過(guò)雜交檢測(cè)信息通過(guò)雜交檢測(cè)信息該技術(shù)實(shí)現(xiàn)了在微芯片固相載體上對(duì)大量目的DNA的特異雜交檢測(cè),具有高通量、多樣化、微量化、集成化、自動(dòng)化等顯著優(yōu)點(diǎn),在生物學(xué)領(lǐng)域具有十分廣泛的應(yīng)用前景。一、一、基因芯片實(shí)驗(yàn)流程基因芯片實(shí)驗(yàn)流程v甲基化特異性?xún)?nèi)切酶甲基化特異性?xún)?nèi)切酶v蛋白或抗體富集(蛋白或抗體富集(MeDIP) Nimblegen和Agilent公司的甲基化芯片:不能精確定量

4、、無(wú)法提供單堿基分辨率、假陰性和假陽(yáng)性較高、需要高達(dá)10ug的DNA、價(jià)格高昂等v重亞硫酸鹽修飾(重亞硫酸鹽修飾(Bisulfite Modification) Illumina公司的甲基化芯片:可提供單堿基分辨率并可精確定量v GoldenGate Panel Iv HumanMethylation27K BeadChip 14495個(gè)基因啟動(dòng)子和轉(zhuǎn)錄起始位點(diǎn)附近的 27,578個(gè)CpG位點(diǎn)v HumanMethylation450K BeadChip 可檢測(cè)全基因組450000多個(gè)CpG位點(diǎn); 96%的CpG島; CpG島以外的CpG位點(diǎn) (啟動(dòng)子區(qū)、5UTR區(qū)、第一外顯子區(qū)、gene b

5、ody區(qū)、3UTR區(qū)、基因間區(qū)域以及CpG島外低密度分布的CpG位點(diǎn)); 每張芯片可平行檢測(cè)12個(gè)樣本二、二、芯片芯片數(shù)據(jù)數(shù)據(jù)預(yù)處理預(yù)處理數(shù)據(jù)過(guò)濾 -背景校正、去除表達(dá)水平是負(fù)值或很小的數(shù)據(jù)或者明顯的噪聲數(shù)據(jù)數(shù)據(jù)轉(zhuǎn)換 - 總量 or log重復(fù)數(shù)據(jù)合并缺失數(shù)據(jù)的處理- k 近鄰,重復(fù)值,基因間的相 關(guān)性(行均值)數(shù)據(jù)標(biāo)準(zhǔn)化 - 實(shí)驗(yàn)/片內(nèi)標(biāo)準(zhǔn)化,實(shí)驗(yàn)/片間標(biāo)準(zhǔn)化數(shù)據(jù)預(yù)處理一般流程數(shù)據(jù)預(yù)處理一般流程所有芯片最終都是根據(jù)掃描出來(lái)的熒光值來(lái)所有芯片最終都是根據(jù)掃描出來(lái)的熒光值來(lái)判定表達(dá)的強(qiáng)弱。因此芯片數(shù)據(jù)的處理方法判定表達(dá)的強(qiáng)弱。因此芯片數(shù)據(jù)的處理方法具有普遍適用性。包括具有普遍適用性。包括mRNA

6、,miRNA,LncRNA以及前面介紹的以及前面介紹的2種芯片。種芯片。v(一)背景的校正(一)背景的校正-預(yù)處理的第一步預(yù)處理的第一步v 原因原因:序列上點(diǎn)的熒光強(qiáng)度是由背景熒光和標(biāo)記:序列上點(diǎn)的熒光強(qiáng)度是由背景熒光和標(biāo)記DNA產(chǎn)生的熒光的共產(chǎn)生的熒光的共同作用,因此,為獲取與真實(shí)量成比例的數(shù)值,應(yīng)當(dāng)減去對(duì)應(yīng)于背景同作用,因此,為獲取與真實(shí)量成比例的數(shù)值,應(yīng)當(dāng)減去對(duì)應(yīng)于背景的熒光強(qiáng)度值,的熒光強(qiáng)度值,背景校正熒光強(qiáng)度背景校正熒光強(qiáng)度才真正反映了基因真實(shí)的水平。才真正反映了基因真實(shí)的水平。v 方法方法:v 1、局部背景校正、局部背景校正v 2、亞?wèn)鸥癖尘靶U問(wèn)鸥癖尘靶U齰 3、分組背景校正

7、、分組背景校正v 4、空白點(diǎn)背景校正、空白點(diǎn)背景校正v 5、對(duì)照點(diǎn)背景校正(內(nèi)參)、對(duì)照點(diǎn)背景校正(內(nèi)參)(二)弱信號(hào)的處理(二)弱信號(hào)的處理原因原因:在芯片上存在很多弱信號(hào)點(diǎn),這些點(diǎn)的信號(hào)強(qiáng)度雖然很弱,但可能:在芯片上存在很多弱信號(hào)點(diǎn),這些點(diǎn)的信號(hào)強(qiáng)度雖然很弱,但可能 并不是低質(zhì)量的點(diǎn),因此不能武斷地把弱信號(hào)點(diǎn)全部刪除。并不是低質(zhì)量的點(diǎn),因此不能武斷地把弱信號(hào)點(diǎn)全部刪除。弱信號(hào)點(diǎn)的分類(lèi):弱信號(hào)點(diǎn)的分類(lèi):(1)噪聲引起,當(dāng)前景信號(hào)強(qiáng)度值接近背景信號(hào)強(qiáng)度值時(shí),噪聲會(huì)掩蓋)噪聲引起,當(dāng)前景信號(hào)強(qiáng)度值接近背景信號(hào)強(qiáng)度值時(shí),噪聲會(huì)掩蓋前景強(qiáng)度值,經(jīng)過(guò)背景校正后得到的紅綠熒光信號(hào)比值有較大波動(dòng)。前景強(qiáng)度

8、值,經(jīng)過(guò)背景校正后得到的紅綠熒光信號(hào)比值有較大波動(dòng)。(2)重要信息點(diǎn),如一個(gè)通路起點(diǎn)的啟動(dòng)基因,只需要少量的表達(dá)就能)重要信息點(diǎn),如一個(gè)通路起點(diǎn)的啟動(dòng)基因,只需要少量的表達(dá)就能激發(fā)和促進(jìn)通路下游基因的表達(dá),這些信號(hào)點(diǎn)真實(shí)地反映了基因表達(dá)激發(fā)和促進(jìn)通路下游基因的表達(dá),這些信號(hào)點(diǎn)真實(shí)地反映了基因表達(dá)的實(shí)際水平。的實(shí)際水平。v弱信號(hào)的處理方法:弱信號(hào)的處理方法:v 分離噪聲和有價(jià)值意義的弱信號(hào)點(diǎn)分離噪聲和有價(jià)值意義的弱信號(hào)點(diǎn)v (1)重復(fù)芯片實(shí)驗(yàn):觀(guān)察弱信號(hào)點(diǎn)的穩(wěn)定性,從而判斷其可信性。)重復(fù)芯片實(shí)驗(yàn):觀(guān)察弱信號(hào)點(diǎn)的穩(wěn)定性,從而判斷其可信性。 缺點(diǎn):成本較高,提高芯片數(shù)據(jù)的復(fù)雜性缺點(diǎn):成本較高,提高

9、芯片數(shù)據(jù)的復(fù)雜性 (2)找到一個(gè)適當(dāng)?shù)男盘?hào)強(qiáng)度閾值,低于該值的點(diǎn)刪掉,高于該值的)找到一個(gè)適當(dāng)?shù)男盘?hào)強(qiáng)度閾值,低于該值的點(diǎn)刪掉,高于該值的信號(hào)點(diǎn)認(rèn)為是一些真正的弱信號(hào)點(diǎn),應(yīng)當(dāng)進(jìn)入后續(xù)的數(shù)據(jù)分析,挖掘信號(hào)點(diǎn)認(rèn)為是一些真正的弱信號(hào)點(diǎn),應(yīng)當(dāng)進(jìn)入后續(xù)的數(shù)據(jù)分析,挖掘出具有生物意義的信息。出具有生物意義的信息。 信號(hào)強(qiáng)度閾值信號(hào)強(qiáng)度閾值 信噪比信噪比 通過(guò)背景、空白點(diǎn)或陰性對(duì)照點(diǎn)確定弱信號(hào)的閾值通過(guò)背景、空白點(diǎn)或陰性對(duì)照點(diǎn)確定弱信號(hào)的閾值 使用信號(hào)強(qiáng)度的累積分布函數(shù)確定閾值使用信號(hào)強(qiáng)度的累積分布函數(shù)確定閾值(三)數(shù)據(jù)的對(duì)數(shù)轉(zhuǎn)換(三)數(shù)據(jù)的對(duì)數(shù)轉(zhuǎn)換轉(zhuǎn)換原因:轉(zhuǎn)換原因:1、生物學(xué)上易于理解和解釋、生物學(xué)上易

10、于理解和解釋如:若兩個(gè)基因在對(duì)照樣本中的背景校正強(qiáng)度值均為1000,而在另外一個(gè)實(shí)驗(yàn)條件下的背景校正強(qiáng)度值分別為100,10000,從絕對(duì)值上看,相差很大,但其實(shí)各自發(fā)生了10倍的變化。取對(duì)數(shù): lg100=2, lg1000=3, lg10000=4 對(duì)數(shù)變換減弱了方差和平均值,使低強(qiáng)度值處的倍數(shù)改變與高強(qiáng)度值處發(fā)生的倍數(shù)改變具有可比性。2、使數(shù)據(jù)的分布滿(mǎn)足對(duì)稱(chēng)性和近似正態(tài)分布、滿(mǎn)足常用統(tǒng)計(jì)分析方法、使數(shù)據(jù)的分布滿(mǎn)足對(duì)稱(chēng)性和近似正態(tài)分布、滿(mǎn)足常用統(tǒng)計(jì)分析方法3、使用的方便性、使用的方便性如:如果使用以2為底的對(duì)數(shù),要選擇具有4倍以上變化的基因可以在比值直方圖的log2比值為2處截圖數(shù)據(jù)轉(zhuǎn)換數(shù)

11、據(jù)轉(zhuǎn)換- log2Ratio使數(shù)據(jù)的分布滿(mǎn)足對(duì)稱(chēng)性和近似正態(tài)分布,滿(mǎn)足常用統(tǒng)計(jì)分析方法- oligo 芯片(Affymetrix)在寡核苷酸單色實(shí)驗(yàn)中,結(jié)果是基因表達(dá)的熒光信號(hào)強(qiáng)度(四)重復(fù)數(shù)據(jù)合并(四)重復(fù)數(shù)據(jù)合并 重復(fù)能減少統(tǒng)計(jì)量的變異,從重復(fù)芯片得到的數(shù)據(jù)可以使用正規(guī)的統(tǒng)計(jì)方法進(jìn)行分析。只有重復(fù)才能計(jì)算均數(shù),而均數(shù)比單個(gè)值具有更強(qiáng)的穩(wěn)定性。重復(fù)的類(lèi)型重復(fù)的類(lèi)型 - 單張芯片上的重復(fù),有意設(shè)計(jì)的重復(fù)點(diǎn)(重復(fù)點(diǎn)在單張芯片上應(yīng)合理布局,這樣能較好地反映一張芯片上的變異,而不應(yīng)把重復(fù)點(diǎn)排列在一起) - 不同芯片的重復(fù)(1)技術(shù)重復(fù),(2)生物學(xué)重復(fù)技術(shù)重復(fù)不能提供數(shù)據(jù)的獨(dú)立性,即使對(duì)重復(fù)進(jìn)行平均

12、,重復(fù)間相同的系統(tǒng)效應(yīng)仍然存在。而生物學(xué)重復(fù)能提供更為獨(dú)立的實(shí)驗(yàn)結(jié)果重復(fù)數(shù)據(jù)的合并 - 均值或中位數(shù)或眾數(shù),集中趨勢(shì)指標(biāo)(常用,要掌握)(五)缺失數(shù)據(jù)的處理(五)缺失數(shù)據(jù)的處理(一一)數(shù)據(jù)缺失類(lèi)型數(shù)據(jù)缺失類(lèi)型 非隨機(jī)缺失非隨機(jī)缺失 基因表達(dá)豐度過(guò)高或過(guò)低基因表達(dá)豐度過(guò)高或過(guò)低 隨機(jī)缺失隨機(jī)缺失 與基因表達(dá)豐度無(wú)關(guān),數(shù)據(jù)與基因表達(dá)豐度無(wú)關(guān),數(shù)據(jù) 補(bǔ)缺主要針對(duì)隨機(jī)缺失情況補(bǔ)缺主要針對(duì)隨機(jī)缺失情況(二二)數(shù)據(jù)補(bǔ)缺方法數(shù)據(jù)補(bǔ)缺方法當(dāng)點(diǎn)為空點(diǎn)或相對(duì)背景強(qiáng)度高于絕對(duì)信號(hào)強(qiáng)度時(shí),該點(diǎn)的數(shù)據(jù)出現(xiàn)缺失。由于缺失值容易干擾統(tǒng)計(jì)學(xué)分析或影響基因聚類(lèi)的穩(wěn)定性。會(huì)導(dǎo)致下游數(shù)據(jù)分析出現(xiàn)問(wèn)題,一般會(huì)采用特定的數(shù)值來(lái)代替缺失

13、值。 k近鄰法近鄰法n選擇與具有缺失值基因的選擇與具有缺失值基因的k k個(gè)鄰居基因個(gè)鄰居基因n用鄰居基因的加權(quán)平均估計(jì)缺失值用鄰居基因的加權(quán)平均估計(jì)缺失值參數(shù)參數(shù): :n鄰居個(gè)數(shù)鄰居個(gè)數(shù)n距離函數(shù)距離函數(shù)(六)數(shù)據(jù)的標(biāo)準(zhǔn)化(歸一化)(六)數(shù)據(jù)的標(biāo)準(zhǔn)化(歸一化)芯片實(shí)驗(yàn)的變異芯片實(shí)驗(yàn)的變異=系統(tǒng)變異系統(tǒng)變異+隨機(jī)變異隨機(jī)變異系統(tǒng)變異系統(tǒng)變異=生物學(xué)差異生物學(xué)差異+系統(tǒng)誤差系統(tǒng)誤差標(biāo)準(zhǔn)化的目的就是消除系統(tǒng)誤差,使不同次實(shí)驗(yàn)具有可比性標(biāo)準(zhǔn)化的目的就是消除系統(tǒng)誤差,使不同次實(shí)驗(yàn)具有可比性引起系統(tǒng)誤差的因素包括:引起系統(tǒng)誤差的因素包括:熒光物質(zhì)的物理和化學(xué)屬性,熒光物質(zhì)的物理和化學(xué)屬性,cy3和和cy5

14、的染色效率差異的染色效率差異芯片的制作(不同點(diǎn)樣頭間的差異,芯片的空間位置不同)芯片的制作(不同點(diǎn)樣頭間的差異,芯片的空間位置不同)1.芯片的掃描過(guò)程(掃描儀的屬性設(shè)置)芯片的掃描過(guò)程(掃描儀的屬性設(shè)置)用于歸一化的非差異表達(dá)基因的選擇用于歸一化的非差異表達(dá)基因的選擇- 全部基因、管家基因全部基因、管家基因全部基因全部基因假設(shè)假設(shè):(:(1)染色體)染色體/基因組范圍的檢測(cè)時(shí),僅有比例非常小的基因在基因組范圍的檢測(cè)時(shí),僅有比例非常小的基因在兩個(gè)樣品中的表達(dá)有差異兩個(gè)樣品中的表達(dá)有差異(2)上調(diào)和下調(diào)基因的表達(dá)水平具有對(duì)稱(chēng)性,當(dāng)芯片上的基因數(shù)目)上調(diào)和下調(diào)基因的表達(dá)水平具有對(duì)稱(chēng)性,當(dāng)芯片上的基因

15、數(shù)目很大,通常大于很大,通常大于5000時(shí)在各種實(shí)驗(yàn)條件下具有差異的基因數(shù)目時(shí)在各種實(shí)驗(yàn)條件下具有差異的基因數(shù)目不超過(guò)不超過(guò)10%局限性:生物樣品的表達(dá)量上確實(shí)存在差異,因此用全局基因或絕局限性:生物樣品的表達(dá)量上確實(shí)存在差異,因此用全局基因或絕大多數(shù)基因(對(duì)表達(dá)水平兩端的數(shù)據(jù)截尾),進(jìn)行歸一化,在大多數(shù)基因(對(duì)表達(dá)水平兩端的數(shù)據(jù)截尾),進(jìn)行歸一化,在準(zhǔn)確性上受到一定程度的限制。準(zhǔn)確性上受到一定程度的限制。管家基因管家基因/持家基因持家基因定義:在各種條件下具有穩(wěn)定表達(dá)的基因定義:在各種條件下具有穩(wěn)定表達(dá)的基因局限性:局限性:管家基因的表達(dá)也有變化管家基因的表達(dá)也有變化管家基因的確定困難(條件

16、特異的)管家基因的確定困難(條件特異的)管家基因一般具有較高的表達(dá)強(qiáng)度,因此對(duì)低表達(dá)基因的歸一化管家基因一般具有較高的表達(dá)強(qiáng)度,因此對(duì)低表達(dá)基因的歸一化效果不好效果不好歸一化方法的分類(lèi)歸一化方法的分類(lèi)- 序列內(nèi)的歸一化(片內(nèi)標(biāo)準(zhǔn)化)序列內(nèi)的歸一化(片內(nèi)標(biāo)準(zhǔn)化)- 染色互換配對(duì)設(shè)計(jì)的芯片的歸一化染色互換配對(duì)設(shè)計(jì)的芯片的歸一化- 多張芯片間的歸一化(片間標(biāo)準(zhǔn)化)多張芯片間的歸一化(片間標(biāo)準(zhǔn)化)片內(nèi)標(biāo)準(zhǔn)化(片內(nèi)標(biāo)準(zhǔn)化(cDNA芯片芯片lowess標(biāo)準(zhǔn)化)標(biāo)準(zhǔn)化)Lowess Normalization 目前實(shí)驗(yàn)室常用的芯片為單通道的寡核苷酸芯片,對(duì)于affymetrix公司的寡核苷酸芯片,實(shí)驗(yàn)室最常

17、用的預(yù)處理算法為RMA三、三、差異基因篩選差異基因篩選v 差異表達(dá)基因也可以稱(chēng)為陽(yáng)性基因,包括上調(diào)差異表達(dá)基因也可以稱(chēng)為陽(yáng)性基因,包括上調(diào)表達(dá)基因和下調(diào)表達(dá)基因,通常采用基因在實(shí)驗(yàn)表達(dá)基因和下調(diào)表達(dá)基因,通常采用基因在實(shí)驗(yàn)組和對(duì)照組中信號(hào)的比值衡量基因在兩種狀態(tài)下組和對(duì)照組中信號(hào)的比值衡量基因在兩種狀態(tài)下基因的表達(dá)差異?;虻谋磉_(dá)差異。三、三、差異基因篩選差異基因篩選1、倍數(shù)法、倍數(shù)法實(shí)驗(yàn)條件下的表達(dá)值(熒光強(qiáng)度值)對(duì)照條件下的表達(dá)值(熒光強(qiáng)度值)通常以2倍差異為閾值,判斷基因是否差異表達(dá)通常大于2或者小于0.5即認(rèn)為表達(dá)有差異這個(gè)篩選標(biāo)準(zhǔn)是可以改變的,如(0.333,3),(0.667,1.

18、5)這種方法簡(jiǎn)單、直觀(guān)。但是其閾值的劃分主觀(guān)性較強(qiáng),未考慮到生物學(xué)變異和實(shí)驗(yàn)系統(tǒng)誤差,缺乏生物學(xué)和統(tǒng)計(jì)學(xué)支持。這種方法適用于預(yù)實(shí)驗(yàn)和實(shí)驗(yàn)初篩,或輔助其他差異基因篩選方法。2、t檢驗(yàn)法檢驗(yàn)法 運(yùn)用t檢驗(yàn)法可以判斷基因在兩種不同條件下的表達(dá)差異是否具有顯著性零假設(shè)H0:1=2,即假設(shè)某基因在兩種不同條件下的平均表達(dá)水平相等備擇假設(shè)H1:1!=2在實(shí)際操作中在實(shí)際操作中,經(jīng)常經(jīng)常結(jié)合結(jié)合t檢驗(yàn)分析和檢驗(yàn)分析和倍數(shù)分析倍數(shù)分析對(duì)數(shù)據(jù)進(jìn)行篩選?;鹕綀D對(duì)數(shù)據(jù)進(jìn)行篩選?;鹕綀D(Volcanoplot右圖右圖)是用是用p-value值與值與fold change值兩個(gè)因素共同繪制的,用于顯值兩個(gè)因素共同繪制的

19、,用于顯示兩組樣品數(shù)據(jù)的顯著性差異。通常當(dāng)示兩組樣品數(shù)據(jù)的顯著性差異。通常當(dāng)p-value0.05且且Foldchange2時(shí),我們認(rèn)時(shí),我們認(rèn)為這些基因在兩組樣品中具有顯著性差異為這些基因在兩組樣品中具有顯著性差異。3、SAM (significance analysis of microarrays)(一一) 多重假設(shè)檢驗(yàn)問(wèn)題多重假設(shè)檢驗(yàn)問(wèn)題 型錯(cuò)誤(假陽(yáng)性)即在假設(shè)檢驗(yàn)作推斷結(jié)論時(shí),拒絕了實(shí)際上正確的檢驗(yàn)假設(shè),即將無(wú)差異表達(dá)的基因判斷為差異表達(dá)。 型錯(cuò)誤(假陰性)即不拒絕實(shí)際上不正確的,即將有差異表達(dá)的基因判斷為無(wú)差異表達(dá)。 在進(jìn)行差異基因挑選時(shí),整個(gè)差異基因篩選過(guò)程需要做成千上萬(wàn)次假設(shè)

20、檢驗(yàn),導(dǎo)致假陽(yáng)性率的累積增大。對(duì)于這種多重假設(shè)檢驗(yàn)帶來(lái)的放大的假陽(yáng)性率,需要進(jìn)行糾正。常用的糾正策略有Bonferroni效正,控制FDR(false discovery rate)值等。Bonferroni(邦弗朗尼邦弗朗尼)校正校正 如果在同一數(shù)據(jù)集上同時(shí)檢驗(yàn)n個(gè)獨(dú)立的假設(shè),那么用于每一假設(shè)的統(tǒng)計(jì)顯著水平,應(yīng)為僅檢驗(yàn)一個(gè)假設(shè)時(shí)的顯著水平的1/n。Benjamini于1995年提出一種方法,通過(guò)控制FDR(False Discovery Rate)來(lái)決定P值的域值. 假設(shè)你挑選了R個(gè)差異表達(dá)的基因,其中有S個(gè)是真正有差異表達(dá)的,另外有V個(gè)其實(shí)是沒(méi)有差異表達(dá)的,是假陽(yáng)性的。實(shí)踐中希望錯(cuò)誤比例Q

21、=V/R平均而言不 能超過(guò)某個(gè)預(yù)先設(shè)定的值(比如0.05),在統(tǒng)計(jì)學(xué)上,這也就等價(jià)于控制FDR不能超過(guò)5%。設(shè)總共有m個(gè)候選基因,每個(gè)基因?qū)?yīng)的p值從小到大排列分別是 p(1),p(2),.,p(m),則若想控制fdr不能超過(guò)q,則只需找到最大的正整數(shù)i,使得 p(i)= (i*q)/m.然后,挑選對(duì)應(yīng)p(1),p(2),.,p(i)的基因做為差異表達(dá)基因,這樣就能從統(tǒng)計(jì)學(xué)上保證fdr不超過(guò)q。篩選差異基因后需要做進(jìn)一步的研究和分析篩選差異基因后需要做進(jìn)一步的研究和分析1.篩選分子標(biāo)志物2.選擇自己感興趣的基因,做實(shí)驗(yàn)室的確證3.利用數(shù)據(jù)庫(kù),做功能分析(基因功能及通路功能富集)4.預(yù)測(cè)分子通路

22、5.基因和蛋白質(zhì)相互作用分析四、基因注釋與功能富集分析四、基因注釋與功能富集分析(一)基因注釋數(shù)據(jù)庫(kù)(一)基因注釋數(shù)據(jù)庫(kù) GO數(shù)據(jù)庫(kù) KEGG數(shù)據(jù)庫(kù)(二)功能富集分析(二)功能富集分析 超幾何分布 富集分析軟件BiNGOGO-function(一)基因注釋數(shù)據(jù)庫(kù)(一)基因注釋數(shù)據(jù)庫(kù)1、研究人員已經(jīng)掌握了大量的、研究人員已經(jīng)掌握了大量的全基因組數(shù)據(jù)全基因組數(shù)據(jù),同時(shí)關(guān)于,同時(shí)關(guān)于基因基因、基因產(chǎn)物基因產(chǎn)物以及以及生物學(xué)通路生物學(xué)通路的數(shù)據(jù)也越來(lái)越多,解釋生物學(xué)實(shí)驗(yàn)的結(jié)果,尤其從的數(shù)據(jù)也越來(lái)越多,解釋生物學(xué)實(shí)驗(yàn)的結(jié)果,尤其從基因組角度,需要系統(tǒng)的方法。基因組角度,需要系統(tǒng)的方法。 2、在基因組范圍

23、內(nèi)、在基因組范圍內(nèi)描述蛋白質(zhì)功能描述蛋白質(zhì)功能十分復(fù)雜,最好的工具就是計(jì)算機(jī)十分復(fù)雜,最好的工具就是計(jì)算機(jī)程序,提供結(jié)構(gòu)化的標(biāo)準(zhǔn)的生物學(xué)模型,以便計(jì)算機(jī)程序進(jìn)行分析,程序,提供結(jié)構(gòu)化的標(biāo)準(zhǔn)的生物學(xué)模型,以便計(jì)算機(jī)程序進(jìn)行分析,成為從整體水平系統(tǒng)研究基因及其產(chǎn)物的一項(xiàng)基本需求。成為從整體水平系統(tǒng)研究基因及其產(chǎn)物的一項(xiàng)基本需求。 基因注釋數(shù)據(jù)庫(kù)產(chǎn)生的原因基因注釋數(shù)據(jù)庫(kù)產(chǎn)生的原因1 1、基因本體(基因本體(gene ontology, GOgene ontology, GO)數(shù)據(jù)庫(kù))數(shù)據(jù)庫(kù) 基因本體數(shù)據(jù)庫(kù)是GO組織(Gene Ontology Consortium)在2000年構(gòu)建的一個(gè)結(jié)構(gòu)化的標(biāo)準(zhǔn)

24、的標(biāo)準(zhǔn)生物學(xué)模型,旨在建立基因及其產(chǎn)物知識(shí)的標(biāo)準(zhǔn)詞匯體系,涵蓋了基因的細(xì)胞組分(細(xì)胞組分(cellular component)、分子功能()、分子功能(molecular function)、生物學(xué)過(guò)生物學(xué)過(guò)程(程(biological process)。 GO注釋體系特點(diǎn)注釋體系特點(diǎn)v GO通過(guò)控制注釋詞匯的層次結(jié)構(gòu)使得研究人員能夠從不同層面查詢(xún)和使用通過(guò)控制注釋詞匯的層次結(jié)構(gòu)使得研究人員能夠從不同層面查詢(xún)和使用基因注釋信息?;蜃⑨屝畔?。v 從整體上來(lái)看從整體上來(lái)看GO注釋系統(tǒng)是一個(gè)有向無(wú)環(huán)圖注釋系統(tǒng)是一個(gè)有向無(wú)環(huán)圖(Directed Acyclic Graphs),包含包含三個(gè)分支三個(gè)

25、分支,即即: 生物學(xué)過(guò)程生物學(xué)過(guò)程(biological process),分子功能,分子功能(molecular function)和細(xì)胞組分和細(xì)胞組分(cellular component)。v 注釋系統(tǒng)中每一個(gè)結(jié)點(diǎn)注釋系統(tǒng)中每一個(gè)結(jié)點(diǎn)(node)都是基因或蛋白的一種描述都是基因或蛋白的一種描述,結(jié)點(diǎn)之間保持嚴(yán)格結(jié)點(diǎn)之間保持嚴(yán)格的關(guān)系的關(guān)系,即即“is a”或或“part of”。24th Feb 2006 Jane Lomaxcellmembrane chloroplastmitochondrial chloroplastmembrane membraneis-apart-of膜膜 葉綠

26、體葉綠體線(xiàn)粒體膜線(xiàn)粒體膜 葉綠體膜葉綠體膜 細(xì)胞細(xì)胞 Ontology Structure(本體結(jié)構(gòu)本體結(jié)構(gòu))神經(jīng)源性分化因子6(NEUROD6)NEUROD6gene and proteinsexact match舉例舉例 人民衛(wèi)生出版社8年制及7年制臨床醫(yī)學(xué)等專(zhuān)業(yè)用生物信息學(xué)此圖顯示了該基因產(chǎn)物的基本信息,包括類(lèi)型、物種、此圖顯示了該基因產(chǎn)物的基本信息,包括類(lèi)型、物種、別名來(lái)源和序列別名來(lái)源和序列 此圖顯示了該基因產(chǎn)物此圖顯示了該基因產(chǎn)物的術(shù)語(yǔ)關(guān)聯(lián)(的術(shù)語(yǔ)關(guān)聯(lián)(term associations)圖,圖中)圖,圖中記錄名稱(chēng)記錄名稱(chēng)“Term”是是GO記錄的名字,記錄的名字,“Ontolog

27、y”是該基因是該基因產(chǎn)物的特性,如要查看產(chǎn)物的特性,如要查看其分子功能,可點(diǎn)擊其其分子功能,可點(diǎn)擊其中的一條記錄中的一條記錄“nervous system development”。 此圖上部先對(duì)神經(jīng)源性分化此圖上部先對(duì)神經(jīng)源性分化因子因子6的相關(guān)信息做簡(jiǎn)單描的相關(guān)信息做簡(jiǎn)單描述,中間述,中間術(shù)語(yǔ)系譜(術(shù)語(yǔ)系譜(term lineage)成階梯狀分布,記成階梯狀分布,記錄了錄了GO數(shù)據(jù)庫(kù)中全部分子數(shù)據(jù)庫(kù)中全部分子功能所處的位置和關(guān)系。下功能所處的位置和關(guān)系。下方方“External Reference”提提供了與外部相關(guān)數(shù)據(jù)的鏈接。供了與外部相關(guān)數(shù)據(jù)的鏈接。 點(diǎn)擊上圖右上方的可視化視圖(gra

28、phical view)就更清晰地顯示了分子功能記錄之間構(gòu)成的復(fù)雜網(wǎng)狀結(jié)構(gòu),既有上下隸屬關(guān)系,也存在平行關(guān)系。v 京都基因與基因組百科全書(shū)京都基因與基因組百科全書(shū)(Kyoto encyclopedia of genes and genomes, KEGG) 是系統(tǒng)分析基因功能、基因組信息是系統(tǒng)分析基因功能、基因組信息的數(shù)據(jù)庫(kù),它整合了的數(shù)據(jù)庫(kù),它整合了基因組學(xué)基因組學(xué)、生物化學(xué)生物化學(xué)以及以及系統(tǒng)功能組系統(tǒng)功能組學(xué)學(xué)的信息,有助于研究者把基因及表達(dá)信息作為一個(gè)整體的信息,有助于研究者把基因及表達(dá)信息作為一個(gè)整體網(wǎng)絡(luò)進(jìn)行研究。網(wǎng)絡(luò)進(jìn)行研究。v KEGG提供的提供的整合代謝途徑查詢(xún)整合代謝途徑查詢(xún)

29、十分出色,包括碳水化合十分出色,包括碳水化合物、核苷酸、氨基酸等代謝及有機(jī)物的生物降解,不僅提物、核苷酸、氨基酸等代謝及有機(jī)物的生物降解,不僅提供了所有可能的代謝途徑,還對(duì)催化各步反應(yīng)的酶進(jìn)行了供了所有可能的代謝途徑,還對(duì)催化各步反應(yīng)的酶進(jìn)行了全面的注解,包含其氨基酸序列、到全面的注解,包含其氨基酸序列、到PDB數(shù)據(jù)庫(kù)的鏈接等。數(shù)據(jù)庫(kù)的鏈接等。此外,此外,KEGG還提供基于還提供基于Java的圖形工具訪(fǎng)問(wèn)基因組圖譜、的圖形工具訪(fǎng)問(wèn)基因組圖譜、比較基因組圖譜和操作表達(dá)圖譜,以及其他序列比較、圖比較基因組圖譜和操作表達(dá)圖譜,以及其他序列比較、圖形比較和通路計(jì)算的工具。因此,形比較和通路計(jì)算的工具。

30、因此,KEGG數(shù)據(jù)庫(kù)是進(jìn)行數(shù)據(jù)庫(kù)是進(jìn)行生生物體內(nèi)代謝分析、代謝網(wǎng)絡(luò)分析物體內(nèi)代謝分析、代謝網(wǎng)絡(luò)分析等研究的強(qiáng)有力工具之一。等研究的強(qiáng)有力工具之一。2 2、KEGG(KEGG(京都基因與基因組百科全書(shū)京都基因與基因組百科全書(shū)) )v KEGG目前共包含了目前共包含了18個(gè)子數(shù)據(jù)庫(kù),它們被分類(lèi)成系統(tǒng)信個(gè)子數(shù)據(jù)庫(kù),它們被分類(lèi)成系統(tǒng)信息、基因組信息和化學(xué)信息三個(gè)類(lèi)別息、基因組信息和化學(xué)信息三個(gè)類(lèi)別 。KEGG存儲(chǔ)內(nèi)容存儲(chǔ)內(nèi)容 PATHWAY數(shù)據(jù)庫(kù)儲(chǔ)存了基因功能的相關(guān)信息,通過(guò)圖形來(lái)表示細(xì)胞內(nèi)的生物學(xué)過(guò)程,例如代謝,膜運(yùn)輸,信號(hào)傳導(dǎo)和細(xì)胞的生長(zhǎng)周期。 基因組信息存儲(chǔ)在GENES數(shù)據(jù)庫(kù)里,包括全部完整的基

31、因組序列和部分測(cè)序的基因組序列,并伴有實(shí)時(shí)更新的基因相關(guān)功能的注釋。 KEGG中化學(xué)信息的5個(gè)數(shù)據(jù)庫(kù)被稱(chēng)為KEGG LIGAND數(shù)據(jù)庫(kù),包含化學(xué)物質(zhì)、酶分子、酶化反應(yīng)等信息。KEGG BRITE數(shù)據(jù)庫(kù)是一個(gè)包含多個(gè)生物學(xué)對(duì)象的基于功能進(jìn)行等級(jí)劃分的本體論數(shù)據(jù)庫(kù),它包括分子、細(xì)胞、物種、疾病、藥物、以及它們之間的關(guān)系。 一些小的通路模塊被存儲(chǔ)在MODULE數(shù)據(jù)庫(kù)中,該數(shù)據(jù)庫(kù)還存儲(chǔ)了其他的一些相關(guān)功能的模塊以及化合物信息。 KEGG DRUG數(shù)據(jù)庫(kù)存儲(chǔ)了目前在日本所有非處方藥和美國(guó)的大部分處方藥品。 KEGG DISEASE是一個(gè)存儲(chǔ)疾病基因、通路、藥物、以及疾病診斷標(biāo)記等信息的新型數(shù)據(jù)庫(kù)。 輸入

32、syn:ssr3451KEGG PathwayKEGG通路符號(hào)注釋通路符號(hào)注釋SummaryvKEGG數(shù)據(jù)庫(kù)包含多個(gè)子數(shù)據(jù)庫(kù),全方位地對(duì)基數(shù)據(jù)庫(kù)包含多個(gè)子數(shù)據(jù)庫(kù),全方位地對(duì)基因進(jìn)行了注釋因進(jìn)行了注釋。vKEGG Pathway數(shù)據(jù)庫(kù)包含了各種代謝途徑的信數(shù)據(jù)庫(kù)包含了各種代謝途徑的信息,并提供息,并提供KGML格式下載格式下載基因芯片數(shù)據(jù)感興趣基因(差異表達(dá)基因)背景基因顯著性計(jì)算顯著的基因功能集合(具有顯著性的功能或通路)(二)功能富集分析流程(二)功能富集分析流程1、富集分析統(tǒng)計(jì)原理、富集分析統(tǒng)計(jì)原理v富集分析方法通常是分析一組基因在某個(gè)功能結(jié)富集分析方法通常是分析一組基因在某個(gè)功能結(jié)點(diǎn)上是

33、否點(diǎn)上是否過(guò)出現(xiàn)過(guò)出現(xiàn)(over-presentation)。v即,一組基因與該功能結(jié)點(diǎn)的注釋基因的交疊是即,一組基因與該功能結(jié)點(diǎn)的注釋基因的交疊是否否非隨機(jī)的多非隨機(jī)的多。v通常使用超幾何分布型來(lái)檢驗(yàn)一組基因通常使用超幾何分布型來(lái)檢驗(yàn)一組基因(如差異表如差異表達(dá)的基因達(dá)的基因) 在某個(gè)功能類(lèi)的顯著性。在某個(gè)功能類(lèi)的顯著性。超幾何分布超幾何分布v若若M件產(chǎn)品中有件產(chǎn)品中有K件次品,則隨機(jī)抽取件次品,則隨機(jī)抽取N次(不放次(不放回),抽取到次品數(shù)回),抽取到次品數(shù)X大于等于大于等于y的概率是的概率是:10K)()(1) 1()(yxMNKMxNxyXPyXPMNKy假設(shè)假設(shè) M=1000,K=200, N=100, y=50,則:,則:13-8.6597e )()(1)50(490

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論