




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、生物信息學,第五章 基因表達數(shù)據(jù)分析,蘇州大學 沈百榮 首都醫(yī)科大學 李冬果,生物信息學,第一節(jié) 引言 Introduction,基因表達組學與基因組學相比較 表達組信息是動態(tài)的; 表達組學的數(shù)據(jù),更多的是數(shù)值分析; 轉(zhuǎn)錄組學中除了模式識別外,系統(tǒng)建模也十分重要。,真核生物基因表達的基本方式,基因表達調(diào)控示意圖,基因表達的時空性,基因表達測定方法RT-qPCR,近20年來三種不同高通量基因表達測定技術的應用趨勢,高通量基因表達測定的應用實例,1.測定組織特異性基因表達 2.基因功能分類 3.癌癥的分類和預測 4.臨床治療效果預測 5.基因與小分子藥物、疾病之間的關聯(lián) 6.干細胞的全能型、自我更
2、新和細胞命運決定研究,7.動植物的發(fā)育研究 8.環(huán)境對細胞基因表達的作用 9.環(huán)境監(jiān)測 10.物種的繁育,第二節(jié) 基因表達測定平臺與數(shù)據(jù)庫,Microarray Platform and Databases,1.cDNA 芯片 2.Affymetrix芯片 3.下一代測序技術技術如:Roche-454, Illumina MiSeq,Ion Torrent PGM,一、基因表達測定平臺介紹,二、Microarray技術與RNA-Seq技術的比較,1.RNA-Seq技術對沒有已知參考基因組信息的非模式生物,也可測定轉(zhuǎn)錄信息; 2.RNA-Seq技術可以測定轉(zhuǎn)錄邊界的精度達到一個堿基,RNA-Se
3、q可以用來研究復雜的轉(zhuǎn)錄關系; 3.RNA-Seq可以同時測定序列的變異; 4.RNA-Seq背景信號很小,測定的動態(tài)范圍很大。,RNA-Seq在基因表達的定量上準確性很高; RNA-Seq在測定技術上和生物上重復性很高; RNA-Seq的測定需要很少的RNA樣本。 在應用上RNA-Seq技術對ISOFORM的測定和等位基因的區(qū)分比芯片技術有很好的優(yōu)勢。,三、基因表達數(shù)據(jù)庫,疾病相關基因表達數(shù)據(jù)庫,第三節(jié)數(shù)據(jù)預處理與差異表達分析,Preprocessing of Microarray Data and Analysis of Differentially Expression Gene,一、基
4、因芯片數(shù)據(jù)預處理,(一)基因芯片數(shù)據(jù)的提取,cDNA微陣列芯片熒光信號,定性信息提?。篜/A/M(Present/Absent/Marginal) 定量信息提?。夯谔结樇瘏R總后的基因水平的熒光信號強度值,原位合成芯片,(二)數(shù)據(jù)對數(shù)化轉(zhuǎn)換,對芯片數(shù)據(jù)做對數(shù)化轉(zhuǎn)換后,數(shù)據(jù)可近似正態(tài)分布,(三)數(shù)據(jù)過濾,數(shù)據(jù)過濾的目的是去除表達水平是負值或很小的數(shù)據(jù)或者明顯的噪聲數(shù)據(jù)。 過閃耀現(xiàn)象 物理因素導致的信號污染 雜交效能低 點樣問題 其他,(四)補缺失值,1.數(shù)據(jù)缺失類型 非隨機缺失 基因表達豐度過高或過低。 隨機缺失 與基因表達豐度無關,數(shù)據(jù)補缺主要針對隨機缺失情況。,高表達基因的數(shù)據(jù)缺失,2.數(shù)據(jù)
5、補缺方法,(1)簡單補缺法,missing values = 0 expression missing values = 1 expression (arbitrary signal) missing values = row (gene)average missing values = column (array)average,(2)k近鄰法,選擇與具有缺失值基因的k個鄰居基因 用鄰居基因的加權平均估計缺失值 參數(shù) 鄰居個數(shù) 距離函數(shù),(3)回歸法,(五)數(shù)據(jù)標準化,1.為什么要進行數(shù)據(jù)標準化:存在不同來源的系統(tǒng)誤差 染料物理特性差異(熱光敏感性,半衰期等) 染料的結合效率 點樣針差異 數(shù)
6、據(jù)收集過程中的掃描設施 不同芯片間的差異 實驗條件差異,2.運用哪些基因進行標準化處理 芯片上大部分基因(假設芯片上大部分基因在不同條件下表達量相同) 不同條件間穩(wěn)定表達的基因(如持家基因) 控制序列(spiked control) 在不同條件下表達水平相同的合成DNA序列或外源的DNA序列。,3. cDNA芯片數(shù)據(jù)標準化處理,(1)片內(nèi)標化(within-slide normalization)方法 全局標化、熒光強度依賴的標準化、點樣針組內(nèi)標準化。,假設: R=k*G 方法: c=log2k:中值或均值,全局標化(global normalization),熒光強度依賴的標化(intens
7、ity dependent normalization),為什么 方法: scatter-plot smoother lowess擬合 c(A)為M 對A 的擬合函數(shù) 標化后的數(shù)據(jù),點樣針依賴的標化(within-print-tip- group normalization),為什么 一張芯片的不同區(qū)域運用不同的點樣針點樣,從而引入點樣針帶來的系統(tǒng)誤差。 method,(2)染色互換實驗(dye-swap experiment)的標化 實驗組 對照組 芯片1 cy5(R) cy3(G) 芯片2 cy3(G) cy5(R) 前提假設:cc 方法:,線性標化法(linear scaling met
8、hods) 與芯片內(nèi)標化的尺度調(diào)整(scale adjustment)方法類似。 非線性標化法(non-linear methods) 分位數(shù)標化法(quantile normalization) 兩張芯片的表達數(shù)據(jù)的分位數(shù)標化至相同,即分布于對角線上。,(3)片間標化(multiple-slide normalization),4. 芯片數(shù)據(jù)標準化,對每個探針對計算R R = (PM MM )/ (PM + MM ) 比較R與定義的閾值Tau(小的正值,默認值為0.015 ) 單側的Wilcoxons Signed Rank test產(chǎn)生p值,根據(jù)p值定義定量信號值 Present call
9、 Marginal call Absent call,(1) 提取定性信號,分析步驟 獲取探針水平數(shù)據(jù)背景值效正標準化處理探針特異背景值效正探針集信號的匯總,(2)提取定量信號,1,分析方法,2,3,4,5,6,M = log2R - log2G A = (log2R + log2G)/2,7,8,9,前面提及的標準化方法僅效正了數(shù)據(jù)分布的中心,在不同的柵格間log-Ratios 的方差也不同。,二、差異表達分析基本原理與方法,(一)倍數(shù)法,實驗條件下的表達值,對照條件下的表達值,通常以2倍差異為閾值,判斷基因是否差異表達,(二)t 檢驗法,運用t 檢驗法可以判斷基因在兩不同條件下的表達差異是
10、否具有顯著性,(三)方差分析,兩種或多種條件間下基因表達量的比較,用方差分析。它將基因在樣本之間的總變異分解為組間變異和組內(nèi)變異兩部分。通過方差分析的假設檢驗判斷組間變異是否存在,如果存在則表明基因在不同條件下的表達有差異。,(四)SAM 法(significance analysis of microarrays),1. 多重假設檢驗問題 型錯誤(假陽性) 在假設檢驗作推斷結論時,拒絕了實際上正確的檢驗假設,即將無差異表達的基因判斷為差異表達。 型錯誤(假陰性) 不拒絕實際上不正確的,即將有差異表達的基因判斷為無差異表達。,在進行差異基因挑選時,整個差異基因篩選過程需要做成千上萬次假設檢驗,
11、導致假陽性率的累積增大。對于這種多重假設檢驗帶來的放大的假陽性率,需要進行糾正。常用的糾正策略有Bonferroni效正,控制FDR(false discovery rate)值等。,2. 分析步驟 計算統(tǒng)計量 擾動實驗條件,計算擾動后的基因表達的相對差異統(tǒng)計量 計算擾動后的平均相對差異統(tǒng)計量,確定差異表達基因閾值 以最小的正值和最大的負值作為統(tǒng)計閾 值,運用該閾值,統(tǒng)計在值中超 過該閾值的假陽性基因個數(shù),估計假陽性發(fā)現(xiàn)率FDR值。 調(diào)整FDR值的大小得到差異表達基因。,(五)信息熵,運用信息熵進行差異基因挑選時,不需要用到樣本的類別信息,所以運用信息熵找到的差異基因是指在所有條件下表達波動比
12、較大的基因。,三、差異表達分析應用,以一套阿爾海茨默病相關的基因表達譜數(shù)據(jù)(GSE5281)為例,詳細介紹如何利用BRB-ArrayTools軟件進行數(shù)據(jù)預處理,并對處理過的標準化的基因芯片數(shù)據(jù)利用SAM軟件進行差異表達分析的過程。,GSE5281數(shù)據(jù)是利用Affymetrix公司的寡核苷酸芯片HG-U133 Plus 2.0 Array檢測阿爾海茨默病病人和正常老年人大腦中六個不同區(qū)域的基因表達情況,本例僅選擇其中一個區(qū)域內(nèi)側顳回(middle temporal gyrus,MTG)的數(shù)據(jù)進行說明 。,第一步:導入芯片數(shù)據(jù),使用“import data”下的“General Format I
13、mporter”導入基因芯片數(shù)據(jù),數(shù)據(jù)間用Tab鍵分隔(或使用Excell文件),也可使用“Data Import Wizard”進行導入 。,導入芯片數(shù)據(jù),第二步:選擇文件類型,每張芯片用單獨的文件存儲,多個文件保存在一個文件夾 “Array are saved in separate files stored in one folder” 若多張芯片數(shù)據(jù)組織成一個矩陣形式,存儲在一個文件中 “Array are saved in horizontally aligned file”,選擇記憶芯片數(shù)據(jù)文件類型,第三步:選擇芯片數(shù)據(jù)文件所存儲的路徑,注意路徑中不能包含中文,第四步:選擇基因芯片
14、平臺,第五步:選擇文件格式,第六步:數(shù)據(jù)的過濾和標準化,第七步:基因注釋,由于基因芯片檢測的是探針的表達情況,而探針和基因之間往往不是一一對應,所以,在數(shù)據(jù)導入后軟件會詢問是否需要進行基因注釋,及是否需要將探針轉(zhuǎn)換成相應的基因名(gene symbol)或Entrez ID,第八步:運行SAM,FDR=0.01, delta=0.68,選出2209個在阿爾海茨默病病人和正常人腦組織中表達發(fā)生顯著性改變的基因。,SAM的參數(shù)設定,第九步:SAM Plot,SAM Plot,第四節(jié) 聚類分析與分類分析,Clustering Analysis and Classification,一、聚類目的,基于
15、物體的相似性將物體分成不同的組,二、基因表達譜數(shù)據(jù)的聚類,對基因進行聚類 識別功能相關的基因 識別基因共表達模式 對樣本進行聚類 質(zhì)量控制 檢查樣本是否按已知類別分組 發(fā)現(xiàn)亞型,樣本,基因,三、距離(相似性)尺度函數(shù),幾何距離 線性相關系數(shù) 非線性相關系數(shù) 互信息,四、聚類算法,層次聚類算法將研究對象按照它們的相似性關系用樹形圖進行呈現(xiàn),進行層次聚類時不需要預先設定類別個數(shù),樹狀的聚類結構可以展示嵌套式的類別關系。,(一)層次聚類,在對含非單獨對象的類進行合并或分裂時,常用的類間度量方法。,類間相似性度量方法,2000年Alizadeh等運用基因芯片數(shù)據(jù),基于層次聚類算法證實了DLBCL腫瘤病
16、人在mRNA層面確實存在兩種亞型,(二)k 均值聚類,基本思想,(三)自組織映射聚類,基本思想 在不斷的學習過程中,輸出層的神經(jīng)元根據(jù)輸入樣本的特點進行權重調(diào)整,最后拓樸結構發(fā)生了改變。,(四)雙向聚類,雙向聚類就是識別基因表達譜矩陣中同質(zhì)的子矩陣,運用特定的基因子類識別樣本子類。,雙向聚類識別同質(zhì)的子結構,五、分類分析,(一)線性判別分類器,(二)k 近鄰分類法,(三)PAM方法 (prediction analysis for microarray),基本思想 每類樣本的質(zhì)心向所有樣本的質(zhì)心進行收縮,即收縮每個基因的類均值,收縮的數(shù)量由值決定。當收縮過程發(fā)生時,某些基因在不同類中將會有相同
17、的類均值,這些基因就不具有類間的區(qū)別效能。,基因1,基因2,分析步驟,計算統(tǒng)計量 對公式經(jīng)過變換得到,收縮各類的均值,判斷新樣本類別,(四)決策樹,基本思想 決策樹又稱多級分類器,它可以把一個復雜的多類別分類問題轉(zhuǎn)化為若干個簡單的分類問題來解決。 決策樹的結構:一個樹狀的結構,內(nèi)部節(jié)點上選用一個屬性進行分割,每個分叉都是分割的一個部分,葉子節(jié)點表示一個分布。,決策樹應用于腫瘤基因表達譜的分類分析,分析步驟:提取分類規(guī)則,進行分類預測 在構造決策樹的過程中最重要的一點是在每一個分割節(jié)點確定用哪個屬性來分類(或分裂) 這就涉及到關于使用什么準則來衡量使用A屬性比使用B屬性更合理,衡量準則 信息增益
18、information gain 基尼指數(shù)Gini index,決策樹的修剪 消除決策樹的過適應問題 消除訓練集中的異常和噪聲,(五)分類效能評價,1.構建訓練集和檢驗集 n倍交叉驗證(n-fold cross validation) Bagging(bootstrap aggregating) 無放回隨機抽樣 留一法交叉驗證 (leave-one-out cross validation,LOOCV),2.分類效能 靈敏度(sensitivity,recall) 特異性(specificity) 陽性預測率(positive predictive value,precision) 陰性預測率(negat
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高中信息技術必修二2.3《信息系統(tǒng)的優(yōu)勢和局限性》教學設計
- 2025年鶴壁職業(yè)技術學院單招職業(yè)技能測試題庫完整版
- 農(nóng)產(chǎn)品批發(fā)綜合市場項目風險分析與應對措施
- 2025至2030年中國成人發(fā)飾數(shù)據(jù)監(jiān)測研究報告
- 二零二五年度新能源汽車動力電池合作開發(fā)協(xié)議
- 二零二五年度體育賽事運營補充協(xié)議對合同主體變更的市場推廣協(xié)議
- 二零二五年度終止合同關于健康醫(yī)療信息化終止合作協(xié)議
- 二零二五年度綠色建筑用電租賃與節(jié)能減排合同
- 二零二五年度不納入社保體系的勞務合作協(xié)議
- 二零二五年度財稅代理記賬合同范本
- 廖常初《FX系列LC編程及應用》課后習題答案
- 輪狀病毒性腸炎
- 世界社會主義五百年
- 加氫裂化操作工題庫(合并版)
- 正大集團大豬場開發(fā)流程
- 高中政治必修四知識體系每單元的總體框架
- 房地產(chǎn)金融創(chuàng)新與風險防范的理論演進
- GB/T 41255-2022智能工廠通用技術要求
- GB/T 41029-2021石油天然氣鉆井海洋棄井作業(yè)規(guī)程
- 深入推進依法行政
- GB/T 4026-1992電器設備接線端子和特定導線線端的識別及應用字母數(shù)字系統(tǒng)的通則
評論
0/150
提交評論