生物信息學(xué)第二版基因表達數(shù)據(jù)_第1頁
生物信息學(xué)第二版基因表達數(shù)據(jù)_第2頁
生物信息學(xué)第二版基因表達數(shù)據(jù)_第3頁
生物信息學(xué)第二版基因表達數(shù)據(jù)_第4頁
生物信息學(xué)第二版基因表達數(shù)據(jù)_第5頁
已閱讀5頁,還剩107頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1整理課件第五章

基因表達數(shù)據(jù)分析生物信息學(xué)2整理課件第一節(jié)引言Introduction3整理課件基因表達組學(xué)與基因組學(xué)相比較表達組信息是動態(tài)的;表達組學(xué)的數(shù)據(jù),更多的是數(shù)值分析;轉(zhuǎn)錄組學(xué)中除了模式識別外,系統(tǒng)建模也十分重要。4整理課件真核生物基因表達的根本方式5整理課件基因表達調(diào)控示意圖6整理課件基因表達的時空性7整理課件基因表達測定方法RT-qPCR8整理課件近20年來三種不同高通量基因表達測定技術(shù)的應(yīng)用趨勢9整理課件高通量基因表達測定的應(yīng)用實例1.測定組織特異性基因表達2.基因功能分類3.癌癥的分類和預(yù)測4.臨床治療效果預(yù)測5.基因與小分子藥物、疾病之間的關(guān)聯(lián)6.干細胞的全能型、自我更新和細胞命運決定研究10整理課件7.動植物的發(fā)育研究8.環(huán)境對細胞基因表達的作用9.環(huán)境監(jiān)測10.物種的繁育11整理課件第二節(jié)基因表達測定平臺與數(shù)據(jù)庫MicroarrayPlatformandDatabases12整理課件1.cDNA芯片2.Affymetrix芯片

3.下一代測序技術(shù)技術(shù)如:Roche-454,IlluminaMiSeq,IonTorrentPGM一、基因表達測定平臺介紹13整理課件二、Microarray技術(shù)與RNA-Seq技術(shù)的比較1.RNA-Seq技術(shù)對沒有參考基因組信息的非模式生物,也可測定轉(zhuǎn)錄信息;2.RNA-Seq技術(shù)可以測定轉(zhuǎn)錄邊界的精度到達一個堿基,RNA-Seq可以用來研究復(fù)雜的轉(zhuǎn)錄關(guān)系;3.RNA-Seq可以同時測定序列的變異;4.RNA-Seq背景信號很小,測定的動態(tài)范圍很大。14整理課件RNA-Seq在基因表達的定量上準(zhǔn)確性很高;RNA-Seq在測定技術(shù)上和生物上重復(fù)性很高;RNA-Seq的測定需要很少的RNA樣本。在應(yīng)用上RNA-Seq技術(shù)對ISOFORM的測定和等位基因的區(qū)分比芯片技術(shù)有很好的優(yōu)勢。15整理課件三、基因表達數(shù)據(jù)庫常用基因表達數(shù)據(jù)庫名稱數(shù)據(jù)庫內(nèi)容GeneExpressionOmnibus(GEO)目前最常用的基因表達數(shù)據(jù)(NCBI)ExpressionAtlas歐洲生物信息學(xué)中心的基因表達數(shù)據(jù)庫SMDStanford基因表達數(shù)據(jù)庫RNA-SeqAtlas正常組織的基因表達譜數(shù)據(jù)GEPdb基因型、表型和基因表達關(guān)系GXD老鼠發(fā)育基因表達信息EMAGE老鼠胚胎的時空表達信息AGEMAP老鼠老化的基因表達數(shù)據(jù)16整理課件疾病相關(guān)基因表達數(shù)據(jù)庫數(shù)據(jù)庫名稱數(shù)據(jù)庫內(nèi)容GENT腫瘤組織與正常組織的表達數(shù)據(jù)ParkDB帕金森病的基因表達數(shù)據(jù)庫cMAP小分子化合物對人細胞基因表達的影響Anticancerdruggeneexpressiondatabase抗癌化合物的基因表達數(shù)據(jù)CGED癌癥基因表達數(shù)據(jù)庫(包括臨床信息)17整理課件第三節(jié)

數(shù)據(jù)預(yù)處理與差異表達分析

PreprocessingofMicroarrayDataandAnalysisofDifferentiallyExpressionGene18整理課件一、基因芯片數(shù)據(jù)預(yù)處理〔一〕基因芯片數(shù)據(jù)的提取cDNA微陣列芯片熒光信號19整理課件定性信息提?。篜/A/M〔Present/Absent/Marginal〕定量信息提取:基于探針集匯總后的基因水平的熒光信號強度值原位合成芯片20整理課件〔二〕數(shù)據(jù)對數(shù)化轉(zhuǎn)換對芯片數(shù)據(jù)做對數(shù)化轉(zhuǎn)換后,數(shù)據(jù)可近似正態(tài)分布21整理課件〔三〕數(shù)據(jù)過濾數(shù)據(jù)過濾的目的是去除表達水平是負值或很小的數(shù)據(jù)或者明顯的噪聲數(shù)據(jù)。過閃耀現(xiàn)象物理因素導(dǎo)致的信號污染雜交效能低點樣問題其他22整理課件〔四〕補缺失值1.數(shù)據(jù)缺失類型非隨機缺失基因表達豐度過高或過低。隨機缺失與基因表達豐度無關(guān),數(shù)據(jù)補缺主要針對隨機缺失情況。23整理課件高表達基因的數(shù)據(jù)缺失24整理課件2.數(shù)據(jù)補缺方法〔1〕簡單補缺法missingvalues=0expressionmissingvalues=1expression〔arbitrarysignal〕missingvalues=row〔gene〕averagemissingvalues=column〔array〕average25整理課件〔2〕k近鄰法選擇與具有缺失值基因的k個鄰居基因用鄰居基因的加權(quán)平均估計缺失值參數(shù)鄰居個數(shù)距離函數(shù)26整理課件27整理課件〔3〕回歸法28整理課件〔五〕數(shù)據(jù)標(biāo)準(zhǔn)化1.為什么要進行數(shù)據(jù)標(biāo)準(zhǔn)化:存在不同來源的系統(tǒng)誤差染料物理特性差異〔熱光敏感性,半衰期等〕染料的結(jié)合效率點樣針差異數(shù)據(jù)收集過程中的掃描設(shè)施不同芯片間的差異實驗條件差異29整理課件2.運用哪些基因進行標(biāo)準(zhǔn)化處理芯片上大局部基因〔假設(shè)芯片上大局部基因在不同條件下表達量相同〕不同條件間穩(wěn)定表達的基因〔如持家基因〕控制序列〔spikedcontrol〕在不同條件下表達水平相同的合成DNA序列或外源的DNA序列。30整理課件3.cDNA芯片數(shù)據(jù)標(biāo)準(zhǔn)化處理〔1〕片內(nèi)標(biāo)化〔within-slidenormalization〕方法全局標(biāo)化、熒光強度依賴的標(biāo)準(zhǔn)化、點樣針組內(nèi)標(biāo)準(zhǔn)化。31整理課件假設(shè):R=k*G方法:c=log2k:中值或均值全局標(biāo)化〔globalnormalization〕32整理課件熒光強度依賴的標(biāo)化〔intensitydependentnormalization〕為什么方法:scatter-plotsmootherlowess擬合c〔A〕為M對A的擬合函數(shù)標(biāo)化后的數(shù)據(jù)33整理課件點樣針依賴的標(biāo)化〔within-print-tip-groupnormalization〕為什么一張芯片的不同區(qū)域運用不同的點樣針點樣,從而引入點樣針帶來的系統(tǒng)誤差。method34整理課件〔2〕染色互換實驗〔dye-swapexperiment〕的標(biāo)化實驗組對照組芯片1cy5〔R〕cy3〔G’〕芯片2cy3〔G〕cy5〔R’〕前提假設(shè):c︽c’方法:35整理課件線性標(biāo)化法〔linearscalingmethods〕與芯片內(nèi)標(biāo)化的尺度調(diào)整〔scaleadjustment〕方法類似。非線性標(biāo)化法〔non-linearmethods〕分位數(shù)標(biāo)化法〔quantilenormalization〕兩張芯片的表達數(shù)據(jù)的分位數(shù)標(biāo)化至相同,即分布于對角線上?!?〕片間標(biāo)化〔multiple-slidenormalization〕36整理課件4.芯片數(shù)據(jù)標(biāo)準(zhǔn)化對每個探針對計算RR=〔PM–MM〕/〔PM+MM〕比較R與定義的閾值Tau〔小的正值,默認值為0.015〕單側(cè)的Wilcoxon’sSignedRanktest產(chǎn)生p值,根據(jù)p值定義定量信號值PresentcallMarginalcallAbsentcall〔1〕提取定性信號37整理課件38整理課件分析步驟獲取探針?biāo)綌?shù)據(jù)→背景值效正→標(biāo)準(zhǔn)化處理→探針特異背景值效正→探針集信號的匯總〔2〕提取定量信號39整理課件1分析方法40整理課件241整理課件342整理課件443整理課件544整理課件645整理課件M=log2R-log2GA=〔log2R+log2G〕/2746整理課件847整理課件948整理課件前面提及的標(biāo)準(zhǔn)化方法僅效正了數(shù)據(jù)分布的中心,在不同的柵格間log-Ratios的方差也不同。49整理課件50整理課件二、差異表達分析根本原理與方法〔一〕倍數(shù)法實驗條件下的表達值對照條件下的表達值通常以2倍差異為閾值,判斷基因是否差異表達51整理課件〔二〕t檢驗法運用t檢驗法可以判斷基因在兩不同條件下的表達差異是否具有顯著性

52整理課件〔三〕方差分析53整理課件兩種或多種條件間下基因表達量的比較,用方差分析。它將基因在樣本之間的總變異分解為組間變異和組內(nèi)變異兩局部。通過方差分析的假設(shè)檢驗判斷組間變異是否存在,如果存在那么說明基因在不同條件下的表達有差異。54整理課件〔四〕SAM法〔significanceanalysisofmicroarrays〕1.多重假設(shè)檢驗問題Ⅰ型錯誤〔假陽性〕在假設(shè)檢驗作推斷結(jié)論時,拒絕了實際上正確的檢驗假設(shè),即將無差異表達的基因判斷為差異表達。Ⅱ型錯誤〔假陰性〕不拒絕實際上不正確的,即將有差異表達的基因判斷為無差異表達。55整理課件在進行差異基因挑選時,整個差異基因篩選過程需要做成千上萬次假設(shè)檢驗,導(dǎo)致假陽性率的累積增大。對于這種多重假設(shè)檢驗帶來的放大的假陽性率,需要進行糾正。常用的糾正策略有Bonferroni效正,控制FDR〔falsediscoveryrate〕值等。56整理課件2.分析步驟計算統(tǒng)計量擾動實驗條件,計算擾動后的基因表達的相對差異統(tǒng)計量計算擾動后的平均相對差異統(tǒng)計量57整理課件確定差異表達基因閾值以最小的正值和最大的負值作為統(tǒng)計閾值,運用該閾值,統(tǒng)計在值中超過該閾值的假陽性基因個數(shù),估計假陽性發(fā)現(xiàn)率FDR值。調(diào)整FDR值的大小得到差異表達基因。58整理課件59整理課件〔五〕信息熵運用信息熵進行差異基因挑選時,不需要用到樣本的類別信息,所以運用信息熵找到的差異基因是指在所有條件下表達波動比較大的基因。60整理課件三、差異表達分析應(yīng)用以一套阿爾海茨默病相關(guān)的基因表達譜數(shù)據(jù)〔GSE5281〕為例,詳細介紹如何利用BRB-ArrayTools軟件進行數(shù)據(jù)預(yù)處理,并對處理過的標(biāo)準(zhǔn)化的基因芯片數(shù)據(jù)利用SAM軟件進行差異表達分析的過程。61整理課件GSE5281數(shù)據(jù)是利用Affymetrix公司的寡核苷酸芯片HG-U133Plus2.0Array檢測阿爾海茨默病病人和正常老年人大腦中六個不同區(qū)域的基因表達情況,本例僅選擇其中一個區(qū)域—內(nèi)側(cè)顳回〔middletemporalgyrus,MTG〕的數(shù)據(jù)進行說明。62整理課件第一步:導(dǎo)入芯片數(shù)據(jù)使用“importdata〞下的“GeneralFormatImporter〞導(dǎo)入基因芯片數(shù)據(jù),數(shù)據(jù)間用Tab鍵分隔〔或使用Excell文件〕,也可使用“DataImportWizard〞進行導(dǎo)入。63整理課件導(dǎo)入芯片數(shù)據(jù)64整理課件第二步:選擇文件類型每張芯片用單獨的文件存儲,多個文件保存在一個文件夾“Arrayaresavedinseparatefilesstoredinonefolder〞假設(shè)多張芯片數(shù)據(jù)組織成一個矩陣形式,存儲在一個文件中“Arrayaresavedinhorizontallyalignedfile〞65整理課件選擇記憶芯片數(shù)據(jù)文件類型66整理課件第三步:選擇芯片數(shù)據(jù)文件所存儲的路徑注意路徑中不能包含中文67整理課件第四步:選擇基因芯片平臺68整理課件第五步:選擇文件格式69整理課件第六步:數(shù)據(jù)的過濾和標(biāo)準(zhǔn)化70整理課件第七步:基因注釋由于基因芯片檢測的是探針的表達情況,而探針和基因之間往往不是一一對應(yīng),所以,在數(shù)據(jù)導(dǎo)入后軟件會詢問是否需要進行基因注釋,及是否需要將探針轉(zhuǎn)換成相應(yīng)的基因名(genesymbol)或EntrezID71整理課件第八步:運行SAMFDR=0.01,delta=0.68選出2209個在阿爾海茨默病病人和正常人腦組織中表達發(fā)生顯著性改變的基因。72整理課件SAM的參數(shù)設(shè)定73整理課件第九步:SAMPlot

74整理課件SAMPlot

75整理課件第四節(jié)

聚類分析與分類分析

ClusteringAnalysisandClassification76整理課件一、聚類目的基于物體的相似性將物體分成不同的組77整理課件二、基因表達譜數(shù)據(jù)的聚類對基因進行聚類識別功能相關(guān)的基因識別基因共表達模式對樣本進行聚類質(zhì)量控制檢查樣本是否按類別分組發(fā)現(xiàn)亞型78整理課件

樣本基因79整理課件三、距離〔相似性〕尺度函數(shù)幾何距離線性相關(guān)系數(shù)非線性相關(guān)系數(shù)互信息80整理課件四、聚類算法層次聚類算法將研究對象按照它們的相似性關(guān)系用樹形圖進行呈現(xiàn),進行層次聚類時不需要預(yù)先設(shè)定類別個數(shù),樹狀的聚類結(jié)構(gòu)可以展示嵌套式的類別關(guān)系?!惨弧硨哟尉垲?1整理課件82整理課件在對含非單獨對象的類進行合并或分裂時,常用的類間度量方法。類間相似性度量方法83整理課件2000年Alizadeh等運用基因芯片數(shù)據(jù),基于層次聚類算法證實了DLBCL腫瘤病人在mRNA層面確實存在兩種亞型84整理課件〔二〕k均值聚類根本思想85整理課件〔三〕自組織映射聚類根本思想在不斷的學(xué)習(xí)過程中,輸出層的神經(jīng)元根據(jù)輸入樣本的特點進行權(quán)重調(diào)整,最后拓樸結(jié)構(gòu)發(fā)生了改變。86整理課件〔四〕雙向聚類雙向聚類就是識別基因表達譜矩陣中同質(zhì)的子矩陣,運用特定的基因子類識別樣本子類。

87整理課件雙向聚類識別同質(zhì)的子結(jié)構(gòu)88整理課件五、分類分析〔一〕線性判別分類器89整理課件〔二〕k近鄰分類法90整理課件〔三〕PAM方法

〔predictionanalysisformicroarray〕根本思想每類樣本的質(zhì)心向所有樣本的質(zhì)心進行收縮,即收縮每個基因的類均值,收縮的數(shù)量由值決定。當(dāng)收縮過程發(fā)生時,某些基因在不同類中將會有相同的類均值,這些基因就不具有類間的區(qū)別效能。91整理課件基因1基因292整理課件分析步驟計算統(tǒng)計量對公式經(jīng)過變換得到93整理課件收縮各類的均值判斷新樣本類別94整理課件〔四〕決策樹根本思想決策樹又稱多級分類器,它可以把一個復(fù)雜的多類別分類問題轉(zhuǎn)化為假設(shè)干個簡單的分類問題來解決。決策樹的結(jié)構(gòu):一個樹狀的結(jié)構(gòu),內(nèi)部節(jié)點上選用一個屬性進行分割,每個分叉都是分割的一個局部,葉子節(jié)點表示一個分布。95整理課件決策樹應(yīng)用于腫瘤基因表達譜的分類分析96整理課件分析步驟:提取分類規(guī)那么,進行分類預(yù)測在構(gòu)造決策樹的過程中最重要的一點是在每一個分割節(jié)點確定用哪個屬性來分類〔或分裂〕這就涉及到關(guān)于使用什么準(zhǔn)那么來衡量使用A屬性比使用B屬性更合理決策樹分類算法output訓(xùn)練集決策樹input97整理課件衡量準(zhǔn)那么信息增益——informationgain基尼指數(shù)——Giniindex98整理課件決策樹的修剪消除決策樹的過適應(yīng)問題消除訓(xùn)練集中的異常和噪聲99整理課件〔五〕分類效能評價1.構(gòu)建訓(xùn)練集和檢驗集n倍交叉驗證〔n-foldcrossvalidation〕Bagging〔bootstrapaggregating〕無放回隨機抽樣留一法交叉驗證〔leave-one-outcrossvalidation,LOOCV〕100整理課件2.分類效能靈敏度〔sensitivity,recall〕特異性〔specificity〕陽性預(yù)測率〔positivepredictivevalue,precision〕陰性預(yù)測率〔negativepredictivevalue〕均衡正確率〔balancedaccuracy〕正確率〔correctoraccuracy〕101整理課件第五節(jié)

基因表達譜數(shù)據(jù)分析軟件

SoftwareToolsforGeneExpressionProfileAnalysis102整理課件一、R程序例如R程序說明a=49;sqrt(a)賦值可用“=”,也可用“-〉”;R的語句可以寫在一行,用“;”分開seq(0,5,length=6)seq是R的一個函數(shù);具體可以輸入命令“?seq”查找seq的具體使用方法plot(sin(seq(0,2*pi,length=100)))plot是畫圖函數(shù),a="Thedogatemyhomework"a是一個字符串sub("dog","cat",a)sub的功能是將a中的“dog”用“cat”替代,結(jié)果為"Thecatatemyhomework“a=(1+1==3);aa是一個邏輯變量,結(jié)果為:FALSE103整理課件R程序說明x<-1:6“:”在這里是"from:to"的意思,結(jié)果是1,2,3,4,5,6。dim(x)<-c(3,4);xdim函數(shù)是維數(shù)的意思,這里的功能是將x變?yōu)?X4維的基陣a=c(7,5,1);a[2]C函數(shù)的功能是組合,這里將3個數(shù)組合賦值給a,a[2]是5doe=list(name="john",age=28,married=F)doe是list,與向量的差別是可以由不同的變量組合doe$name;doe$ageR語言中,特殊符號$的作用104整理課件二、BioConductor命令例如BioConductor命令說明source("/biocLite.R");biocLite(c("affy","lim

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論