生物信息學(xué)第二版基因表達數(shù)據(jù)分析_第1頁
生物信息學(xué)第二版基因表達數(shù)據(jù)分析_第2頁
生物信息學(xué)第二版基因表達數(shù)據(jù)分析_第3頁
生物信息學(xué)第二版基因表達數(shù)據(jù)分析_第4頁
生物信息學(xué)第二版基因表達數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩113頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、會計學(xué)1生物信息學(xué)第二版基因表達數(shù)據(jù)分析生物信息學(xué)第二版基因表達數(shù)據(jù)分析第一節(jié)第一節(jié) 引言引言 Introduction基因表達組學(xué)與基因組學(xué)相比較基因表達組學(xué)與基因組學(xué)相比較1.表達組信息是動態(tài)的;表達組信息是動態(tài)的;2.表達組學(xué)的數(shù)據(jù),更多的是數(shù)值分析;表達組學(xué)的數(shù)據(jù),更多的是數(shù)值分析;3.轉(zhuǎn)錄組學(xué)中除了模式識別外,系統(tǒng)建模也十分重要。轉(zhuǎn)錄組學(xué)中除了模式識別外,系統(tǒng)建模也十分重要。第二節(jié)第二節(jié)基因表達測定平臺基因表達測定平臺與數(shù)據(jù)庫與數(shù)據(jù)庫Microarray Platform and Databases 1.cDNA 芯片芯片 2.Affymetrix芯片芯片 3.下一代測序技術(shù)技術(shù)如:

2、下一代測序技術(shù)技術(shù)如:Roche-454, Illumina MiSeq,Ion Torrent PGM 一、基因表達測定平臺介紹一、基因表達測定平臺介紹二、二、MicroarrayMicroarray技術(shù)與技術(shù)與RNA-SeqRNA-Seq技術(shù)的比較技術(shù)的比較常用基因表達數(shù)據(jù)庫常用基因表達數(shù)據(jù)庫名稱名稱數(shù)據(jù)庫內(nèi)容數(shù)據(jù)庫內(nèi)容Gene Expression Omnibus (GEO)目前最常用的基因表達數(shù)據(jù)(目前最常用的基因表達數(shù)據(jù)(NCBI)Expression Atlas歐洲生物信息學(xué)中心的基因表達數(shù)據(jù)庫歐洲生物信息學(xué)中心的基因表達數(shù)據(jù)庫SMDStanford基因表達數(shù)據(jù)庫基因表達數(shù)據(jù)庫RN

3、A-Seq Atlas正常組織的基因表達譜數(shù)據(jù)正常組織的基因表達譜數(shù)據(jù)GEPdb基因型、表型和基因表達關(guān)系基因型、表型和基因表達關(guān)系GXD老鼠發(fā)育基因表達信息老鼠發(fā)育基因表達信息EMAGE老鼠胚胎的時空表達信息老鼠胚胎的時空表達信息AGEMAP老鼠老化的基因表達數(shù)據(jù)老鼠老化的基因表達數(shù)據(jù)數(shù)據(jù)庫名稱數(shù)據(jù)庫名稱數(shù)據(jù)庫內(nèi)容數(shù)據(jù)庫內(nèi)容GENT腫瘤組織與正常組織的表達數(shù)據(jù)腫瘤組織與正常組織的表達數(shù)據(jù)ParkDB帕金森病的基因表達數(shù)據(jù)庫帕金森病的基因表達數(shù)據(jù)庫cMAP小分子化合物對人細胞基因表達的影響小分子化合物對人細胞基因表達的影響Anticancer drug gene expression data

4、base抗癌化合物的基因表達數(shù)據(jù)抗癌化合物的基因表達數(shù)據(jù)CGED癌癥基因表達數(shù)據(jù)庫(包括臨床信息)癌癥基因表達數(shù)據(jù)庫(包括臨床信息)Preprocessing of Microarray Data and Analysis of Differentially Expression Gene )22/()11(BCHICHBCHICHRatio一、基因芯片數(shù)據(jù)預(yù)處理一、基因芯片數(shù)據(jù)預(yù)處理(一)基因芯片數(shù)據(jù)的提取(一)基因芯片數(shù)據(jù)的提取cDNA微陣列芯片熒光信號微陣列芯片熒光信號 定性信息提?。憾ㄐ孕畔⑻崛。篜/A/M(Present/Absent/Marginal) 定量信息提取:基于探針集匯總

5、后的基因水平的熒定量信息提?。夯谔结樇瘏R總后的基因水平的熒光信號強度值光信號強度值 原位合成芯片原位合成芯片對芯片數(shù)據(jù)做對數(shù)化轉(zhuǎn)換后,數(shù)據(jù)可近似正態(tài)分布對芯片數(shù)據(jù)做對數(shù)化轉(zhuǎn)換后,數(shù)據(jù)可近似正態(tài)分布 高表達基因的數(shù)據(jù)缺失高表達基因的數(shù)據(jù)缺失missing values = 0 expressionmissing values = 1 expression (arbitrary signal)missing values = row (gene)averagemissing values = column (array)average選擇與具有缺失值基因的選擇與具有缺失值基因的k個鄰居基因個鄰居

6、基因用鄰居基因的加權(quán)平均估計缺失值用鄰居基因的加權(quán)平均估計缺失值參數(shù)參數(shù)鄰居個數(shù)鄰居個數(shù)距離函數(shù)距離函數(shù)假設(shè):假設(shè): R=k*G方法方法:c=log2k:中值或均值:中值或均值全局標化全局標化(global normalization)為什么為什么方法方法: scatter-plot smoother lowess擬合擬合 c(A)為)為M 對對A 的擬合函數(shù)的擬合函數(shù)標化后的數(shù)據(jù)標化后的數(shù)據(jù)為什么為什么 一張芯片的不同區(qū)域運用不同的點樣針點樣,從而引入點樣針帶來的一張芯片的不同區(qū)域運用不同的點樣針點樣,從而引入點樣針帶來的系統(tǒng)誤差。系統(tǒng)誤差。method(3)片間標化()片間標化(multi

7、ple-slide normalization)(1) 提取定性信號提取定性信號(2)提取定量信號)提取定量信號1分析方法分析方法23456RG2log)/(log2GRM = log2R - log2GA = (log2R + log2G)/2789實驗條件下的表達值實驗條件下的表達值對照條件下的表達值對照條件下的表達值 通常以通常以2倍差異為閾值,判斷基因是否差異表達倍差異為閾值,判斷基因是否差異表達 運用運用t 檢驗法可以判斷基因在兩不同條件下的表檢驗法可以判斷基因在兩不同條件下的表達差異是否具有顯著性達差異是否具有顯著性 兩種或多種條件間下基因表達量的比較,用方差分析。兩種或多種條件間

8、下基因表達量的比較,用方差分析。它將基因在樣本之間的總變異分解為組間變異和組內(nèi)它將基因在樣本之間的總變異分解為組間變異和組內(nèi)變異兩部分。通過方差分析的假設(shè)檢驗判斷組間變異變異兩部分。通過方差分析的假設(shè)檢驗判斷組間變異是否存在,如果存在則表明基因在不同條件下的表達是否存在,如果存在則表明基因在不同條件下的表達有差異。有差異。 GSE5281數(shù)據(jù)是利用數(shù)據(jù)是利用Affymetrix公司的寡核苷酸芯片公司的寡核苷酸芯片HG-U133 Plus 2.0 Array檢測阿爾海茨默病病人和正常老年人大腦中六個不同區(qū)域的檢測阿爾海茨默病病人和正常老年人大腦中六個不同區(qū)域的基因表達情況,本例僅選擇其中一個區(qū)域

9、基因表達情況,本例僅選擇其中一個區(qū)域內(nèi)側(cè)顳回(內(nèi)側(cè)顳回(middle temporal gyrus,MTG)的數(shù)據(jù)進行說明)的數(shù)據(jù)進行說明 。第一步:導(dǎo)入芯片數(shù)據(jù)第一步:導(dǎo)入芯片數(shù)據(jù) 使用使用“import data”下的下的“General Format Importer”導(dǎo)入基因芯片導(dǎo)入基因芯片數(shù)據(jù),數(shù)據(jù)間用數(shù)據(jù),數(shù)據(jù)間用Tab鍵分隔(或使用鍵分隔(或使用Excell文件),也可使用文件),也可使用“Data Import Wizard”進行導(dǎo)入進行導(dǎo)入 。導(dǎo)入芯片數(shù)據(jù)導(dǎo)入芯片數(shù)據(jù) 第二步:選擇文件類型第二步:選擇文件類型 每張芯片用單獨的文件存儲每張芯片用單獨的文件存儲,多個文件保存在一

10、個文件夾多個文件保存在一個文件夾 “Array are saved in separate files stored in one folder” 若多張芯片數(shù)據(jù)組織成一個矩陣形式若多張芯片數(shù)據(jù)組織成一個矩陣形式,存儲在一個文件中存儲在一個文件中“Array are saved in horizontally aligned file” 選擇記憶芯片數(shù)據(jù)文件類型選擇記憶芯片數(shù)據(jù)文件類型 第三步:選擇芯片數(shù)據(jù)文件所存儲的路徑第三步:選擇芯片數(shù)據(jù)文件所存儲的路徑 注意路徑中不能包含中文注意路徑中不能包含中文 第四步:選擇基因芯片平臺第四步:選擇基因芯片平臺 第五步:選擇文件格式第五步:選擇文件格式

11、 第六步:數(shù)據(jù)的過濾和標準化第六步:數(shù)據(jù)的過濾和標準化 第七步:基因注釋第七步:基因注釋 由于基因芯片檢測的是探針的表達情況,而探針和基因之間往往不由于基因芯片檢測的是探針的表達情況,而探針和基因之間往往不是一一對應(yīng),所以,在數(shù)據(jù)導(dǎo)入后軟件會詢問是否需要進行基因注是一一對應(yīng),所以,在數(shù)據(jù)導(dǎo)入后軟件會詢問是否需要進行基因注釋,及是否需要將探針轉(zhuǎn)換成相應(yīng)的基因名釋,及是否需要將探針轉(zhuǎn)換成相應(yīng)的基因名(gene symbol)(gene symbol)或或EntrezEntrez ID ID第八步:運行第八步:運行SAM SAM FDR=0.01, delta=0.68 選出選出2209個在阿爾海茨

12、默病病人和正常人腦組織中表達發(fā)生顯著個在阿爾海茨默病病人和正常人腦組織中表達發(fā)生顯著性改變的基因。性改變的基因。 SAMSAM的參數(shù)設(shè)定的參數(shù)設(shè)定第九步:第九步:SAM PlotSAM Plot SAM PlotSAM Plot Clustering Analysis and Classification 基于物體的相似性將物體分成不同的組基于物體的相似性將物體分成不同的組 樣本樣本基因基因三、距離(相似性)尺度函數(shù)三、距離(相似性)尺度函數(shù)幾何距離幾何距離 線性相關(guān)系數(shù)線性相關(guān)系數(shù)非線性相關(guān)系數(shù)非線性相關(guān)系數(shù) 互信息互信息 (一)層次聚類(一)層次聚類類間相似性度量方法類間相似性度量方法20

13、00年年Alizadeh等運用等運用基因芯片數(shù)據(jù),基于層基因芯片數(shù)據(jù),基于層次聚類算法證實了次聚類算法證實了DLBCL腫瘤病人在腫瘤病人在mRNA層面確實存在兩層面確實存在兩種亞型種亞型基本思想基本思想基本思想基本思想在不斷的學(xué)習(xí)過在不斷的學(xué)習(xí)過程中,輸出層的程中,輸出層的神經(jīng)元根據(jù)輸入神經(jīng)元根據(jù)輸入樣本的特點進行樣本的特點進行權(quán)重調(diào)整,最后權(quán)重調(diào)整,最后拓樸結(jié)構(gòu)發(fā)生了拓樸結(jié)構(gòu)發(fā)生了改變。改變。 雙向聚類就是識別基因表達譜矩陣中同質(zhì)的子矩陣,雙向聚類就是識別基因表達譜矩陣中同質(zhì)的子矩陣,運用特定的基因子類識別樣本子類。運用特定的基因子類識別樣本子類。 雙向聚類識別同質(zhì)的子結(jié)構(gòu)雙向聚類識別同質(zhì)的

14、子結(jié)構(gòu)(二)(二)k k 近鄰分類法近鄰分類法 基因基因1 1基因基因2 2 判斷新樣本類別判斷新樣本類別決策樹應(yīng)用于腫瘤基因表達譜的分類分析決策樹應(yīng)用于腫瘤基因表達譜的分類分析決策樹分類算法決策樹分類算法output訓(xùn)練集訓(xùn)練集決策樹決策樹input決策樹的修剪決策樹的修剪消除決策樹的過適應(yīng)問題消除決策樹的過適應(yīng)問題 消除訓(xùn)練集中的異常和噪聲消除訓(xùn)練集中的異常和噪聲2.分類效能分類效能靈敏度(靈敏度(sensitivity,recall)特異性(特異性(specificity)陽性預(yù)測率(陽性預(yù)測率(positive predictive value,precision)陰性預(yù)測率(陰性預(yù)測

15、率(negative predictive value)均衡正確率(均衡正確率(balanced accuracy)正確率(正確率(correct or accuracy)Software Tools for Gene Expression Profile Analysis一、一、R R程序示例程序示例R程序程序說明說明a = 49 ;sqrt(a)賦值可用賦值可用“=”,也可用,也可用“-”;R的語的語句可以寫在一行,用句可以寫在一行,用“;”分開分開seq(0, 5, length=6)seq 是是R的一個函數(shù);具體可以輸入命的一個函數(shù);具體可以輸入命令令“? seq”查找查找seq的具體

16、使用方法的具體使用方法plot(sin(seq(0, 2*pi, length=100)plot 是畫圖函數(shù),是畫圖函數(shù),a = The dog ate my homework 是一個字符串是一個字符串sub(dog,cat,a)sub的功能是將的功能是將a中的中的“dog”用用“cat”替替代,代, 結(jié)果為結(jié)果為The cat ate my homework“a = (1+1=3););aa 是一個邏輯變量,是一個邏輯變量, 結(jié)果為:結(jié)果為:FALSER R程序程序說明說明x - 1:6“:”在這里是在這里是from : to的意思的意思,結(jié)結(jié)果是果是1,2,3,4,5,6。dim(x)-c

17、(3,4); xdim函數(shù)是維數(shù)的意思,這里的功能是函數(shù)是維數(shù)的意思,這里的功能是將將x變?yōu)樽優(yōu)?X4維的基陣維的基陣a = c(7,5,1); a2C函數(shù)的功能是組合,這里將函數(shù)的功能是組合,這里將3個數(shù)組合個數(shù)組合賦值給賦值給a, a2是是5doe = list(name=john,age=28,married=F)doe是是list, 與向量的差別是可以由不同的與向量的差別是可以由不同的變量組合變量組合doe$name; doe$ageR語言中,特殊符號的作用語言中,特殊符號的作用BioConductorBioConductor 命令命令說明說明source(http:/biocondu

18、/biocLite.R);biocLite(c(affy, limma)首先在首先在R環(huán)境下安裝環(huán)境下安裝affy, limma兩個程序包。兩個程序包。 library(affy) library(limma)將兩個軟件包裝載,前者用于將兩個軟件包裝載,前者用于Affymetrix預(yù)處理;后者用于預(yù)處理;后者用于差異表達分析差異表達分析phenoData - read.AnnotatedDataFrame(system.file(extdata, pdata.txt, package=arrays)將實驗數(shù)據(jù)的表型信息,讀給將實驗數(shù)據(jù)的表型信息,讀給變量變量phenoData, 數(shù)據(jù)在安裝數(shù)據(jù)在安裝好的系統(tǒng)里好的系統(tǒng)里BioConductorBioConductor 命令命令說明說明celfiles - system.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論