2020年7基因芯片數據分析參照模板課件_第1頁
2020年7基因芯片數據分析參照模板課件_第2頁
2020年7基因芯片數據分析參照模板課件_第3頁
2020年7基因芯片數據分析參照模板課件_第4頁
2020年7基因芯片數據分析參照模板課件_第5頁
已閱讀5頁,還剩95頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第七章基因芯片數據分析MicroarrayDataAnalysis第七章基因芯片數據分析MicroarrayDataA第一節(jié)芯片平臺及數據庫(GeneralMicroarrayPlatformandDatabase)一、cDNA微陣列芯片第一節(jié)芯片平臺及數據庫一、cDNA微陣列芯片寡核苷酸芯片類似于cDNA芯片,但是在探針的設計上優(yōu)于cDNA芯片,它的探針并不是來源于cDNA克隆,而是預先設計并合成的代表每個基因特異片段的約50mer左右長度的序列,然后將其點樣到特定的基質上制備成芯片,從而克服了探針序列太長導致的非特異性交叉雜交和由于探針雜交條件變化巨大導致的數據結果的不可靠。二、寡核苷酸芯片

寡核苷酸芯片類似于cDNA芯片,但是在探針的設計上優(yōu)于cD五、基因表達倉庫GeneExpressionOmnibus,GEO六、斯坦福微陣列數據庫TheStanfordMicroarrayDatabase,SMD五、基因表達倉庫第二節(jié)基因芯片數據預處理

(GeneralMicroarrayDataTypeandDatabase)一、基因芯片數據提取與過濾(一)

cDNA微陣列芯片第二節(jié)基因芯片數據預處理

(GeneralMicroar(二)

Affymetrix公司的原位合成芯片定性信息提?。篜/A/M(Present/Absent/Marginal)定量信息提取:基于探針集匯總后的基因水平的熒光信號強度值(二)Affymetrix公司的原位合成芯片定性信息提?。簲祿^濾

數據過濾的目的是去除表達水平是負值或很小的數據、或者明顯的噪聲數據。過閃耀現象物理因素導致的信號污染雜交效能低點樣問題其它數據過濾數據過濾的目的是去除表達水平是負值或很小的數據二、數據補缺(一)數據缺失類型非隨機缺失基因表達豐度過高或過低隨機缺失與基因表達豐度無關,數據補缺主要針對隨機缺失情況二、數據補缺(一)數據缺失類型(二)數據補缺方法1、簡單補缺法missingvalues=0expressionmissingvalues=1expression(arbitrarysignal)missingvalues=row(gene)averagemissingvalues=column(array)average(二)數據補缺方法1、簡單補缺法missingvalues2、K近鄰法選擇與具有缺失值基因的k個鄰居基因用鄰居基因的加權平均估計缺失值參數:鄰居個數距離函數2、K近鄰法選擇與具有缺失值基因的k個鄰居基因3、回歸法3、回歸法三、數據標準化(一)為什么要進行數據標準化存在不同來源的系統(tǒng)誤差染料物理特性差異(熱和光敏感性,半衰期等)染料連接效能點樣針差異數據收集過程中掃描設施不同芯片差異實驗條件差異三、數據標準化(一)為什么要進行數據標準化(二)運用哪些基因進行標準化處理芯片上大部分基因(假設芯片上大部分基因在不同條件下表達量相同)不同條件間穩(wěn)定表達的基因(如持家基因)控制序列(spikedcontrol)合成DNA序列或外源的DNA序列,在不同條件下表達水平相同。(二)運用哪些基因進行標準化處理1、片內標化(Within-slidenormalization)

(1)全局標化(Globalnormalization)(三)cDNA芯片數據標準化處理假設:R=k*G方法:C=log2k:中值或均值1、片內標化(Within-slidenormalizat

(2)熒光強度依賴的標化(Intensitydependentnormalization)為什么方法:scatter-plotsmootherlowess擬合c(A)為MvsA的擬合函數標化后的數據(2)熒光強度依賴的標化(Intensityd

(3)點樣針依賴的標化(Within-print-tip-groupnormalization)

為什么一張芯片的不同區(qū)域運用不同的點樣針點樣,從而引入點樣針帶來的系統(tǒng)誤差。method(3)點樣針依賴的標化(Within-print-(4)尺度調整(Scaleadjustment)為什么調整不同柵格(grids)間的數據離散度方法:計算不同柵格的尺度因子

(4)尺度調整(Scaleadjustment)2、片間標化(Multiple-slidenormalization)線性標化法(Linearscalingmethods)與芯片內標化的尺度調整(Scaleadjustment)方法類似非線性標化法(non-linearmethods)分位數標化法(Quantilenormalization)兩張芯片的表達數據的分位數標化至相同,即分布于對角線上。2、片間標化(Multiple-slidenormaliz3、染色互換實驗(dye-swapexperiment)的標化

實驗組對照組芯片1cy5(R)cy3(G’)芯片2cy3(G)cy5(R’)前提假設:c︽c’方法:3、染色互換實驗(dye-swapexperiment)

1、提取定性信號(1)對每個探針對計算R

R=(PM-MM)/(PM+MM)(2)比較R與定義的閾值Tau(小的正值,默認值為0.015).(3)單側的Wilcoxon’sSignedRanktest產生p值,根據p值定義定量信號值PresentcallMarginalcallAbsentcall(四)Affymetrix芯片數據標準化1、提取定性信號(四)Affymetrix芯片數據標準2、提取定量信號(1)分析步驟獲取探針水平數據背景值效正標準化處理探針特異背景值效正探針集信號的匯總2、提取定量信號

(2)分析方法

(2)分析方法2020年7基因芯片數據分析參照模板課件2020年7基因芯片數據分析參照模板課件2020年7基因芯片數據分析參照模板課件2020年7基因芯片數據分析參照模板課件2020年7基因芯片數據分析參照模板課件M=log2R-log2GA=(log2R+log2G)/2M=log2R-log2G2020年7基因芯片數據分析參照模板課件2020年7基因芯片數據分析參照模板課件

前面提及的標準化方法僅效正了數據分布的中心,在不同的柵格間log-Ratios的方差也不同。前面提及的標準化方法僅效正了數據分布的中心,在不同2020年7基因芯片數據分析參照模板課件第三節(jié)差異表達分析

(AnalysisofDifferentiallyExpressionGene)一、倍數法實驗條件下的表達值對照條件下的表達值通常以2倍差異為閾值,判斷基因是否差異表達第三節(jié)差異表達分析

(AnalysisofDiffer二、統(tǒng)計學方法

1、t檢驗法運用t檢驗法可以判斷基因在兩不同條件下的表達差異是否具有顯著性二、統(tǒng)計學方法1、t檢驗法運用t檢驗法可以判斷基因在兩不同2、方差分析

方差分析可用于基因在兩種或多種條件間的表達量的比較,它將基因在樣本之間的總變異分解為組間變異和組內變異兩部分。通過方差分析的假設檢驗判斷組間變異是否存在,如果存在則表明基因在不同條件下的表達有差異。2、方差分析方差分析可用于基因在兩種或多種條件間的表達量的三、SAM

(SignificanceAnalysisofMicroarrays)(一)多重假設檢驗問題Ⅰ型錯誤(假陽性)即在假設檢驗作推斷結論時,拒絕了實際上正確的檢驗假設,即將無差異表達的基因判斷為差異表達。Ⅱ型錯誤(假陰性)即不拒絕實際上不正確的,即將有差異表達的基因判斷為無差異表達。在進行差異基因挑選時,整個差異基因篩選過程需要做成千上萬次假設檢驗,導致假陽性率的累積增大。對于這種多重假設檢驗帶來的放大的假陽性率,需要進行糾正。常用的糾正策略有Bonferroni效正,控制FDR(FalseDiscoveryRate)值等。三、SAM

(SignificanceAnalysis(二)分析步驟計算統(tǒng)計量擾動實驗條件,計算擾動后的基因表達的相對差異統(tǒng)計量計算擾動后的平均相對差異統(tǒng)計量(二)分析步驟確定差異表達基因閾值:以最小的正值和最大的負值作為統(tǒng)計閾值,運用該閾值,統(tǒng)計在值中超過該閾值的假陽性基因個數,估計假陽性發(fā)現率FDR值。通過調整FDR值的大小得到差異表達基因。2020年7基因芯片數據分析參照模板課件四、信息熵

運用信息熵進行差異基因挑選時,不需要用到樣本的類別信息,所以運用信息熵找到的差異基因是指在所有條件下表達波動比較大的基因。

四、信息熵運用信息熵進行差異基因挑選時,不需要用到第四節(jié)基因芯片數據的聚類分析

(ClusterAnalysisofMicroarrayData)

(一)相似性測度幾何距離線性相關系數非線性相關系數互信息其它

第四節(jié)基因芯片數據的聚類分析

(ClusterAnaly(二)層次聚類層次聚類算法將研究對象按照它們的相似性關系用樹形圖進行呈現,進行層次聚類時不需要預先設定類別個數,樹狀的聚類結構可以展示嵌套式的類別關系。(二)層次聚類層次聚類算法將研究對象按照它們的相似性關系用樹在對含非單獨對象的類進行合并或分裂時,常用的類間度量方法在對含非單獨對象的類進行合并或分裂時,常用的類間度量方法(三)k均值聚類基本思想(三)k均值聚類基本思想(四)自組織映射聚類基本思想:在不斷的學習過程中,輸出層的神經元根據輸入樣本的特點進行權重調整,最后拓樸結構發(fā)生了改變(四)自組織映射聚類基本思想:在不斷的學習過程中,輸出層的神第五節(jié)基因芯片數據的分類分析

(ClassificationofMicroarrayData)

一、線性判別分類器第五節(jié)基因芯片數據的分類分析

(Classificatio二、k近鄰分類法

基本思想二、k近鄰分類法三、決策樹(一)基本思想決策樹又稱為多級分類器,利用決策樹分類可以把一個復雜的多類別分類問題轉化為若干個簡單的分類問題來解決決策樹的結構:一個樹性的結構,內部節(jié)點上選用一個屬性進行分割,每個分叉都是分割的一個部分,葉子節(jié)點表示一個分布三、決策樹(一)基本思想(二)分析步驟:提取分類規(guī)則,進行分類預測在構造決策樹的過程中最重要的一點是在每一個分裂節(jié)點確定用那個屬性來分類(或分裂)這就涉及到關于使用什么準則來衡量使用A屬性比使用B屬性更合理決策樹分類算法output訓練集決策樹input(二)分析步驟:提取分類規(guī)則,進行分類預測決策樹分類算法ou(三)衡量準則信息增益——Informationgain基尼指數——Giniindex(三)衡量準則第六節(jié)常用的表達譜分析軟件

(GeneralMicroarrayAnalysisSoftware)ArrayToolsDChip(DNA-ChipAnalyzer)SAMR語言和BioConductor:affy、marray、limmaMatlab:BioinformaticsToolbox第六節(jié)常用的表達譜分析軟件

(GeneralMicroa第七章基因芯片數據分析MicroarrayDataAnalysis第七章基因芯片數據分析MicroarrayDataA第一節(jié)芯片平臺及數據庫(GeneralMicroarrayPlatformandDatabase)一、cDNA微陣列芯片第一節(jié)芯片平臺及數據庫一、cDNA微陣列芯片寡核苷酸芯片類似于cDNA芯片,但是在探針的設計上優(yōu)于cDNA芯片,它的探針并不是來源于cDNA克隆,而是預先設計并合成的代表每個基因特異片段的約50mer左右長度的序列,然后將其點樣到特定的基質上制備成芯片,從而克服了探針序列太長導致的非特異性交叉雜交和由于探針雜交條件變化巨大導致的數據結果的不可靠。二、寡核苷酸芯片

寡核苷酸芯片類似于cDNA芯片,但是在探針的設計上優(yōu)于cD五、基因表達倉庫GeneExpressionOmnibus,GEO六、斯坦福微陣列數據庫TheStanfordMicroarrayDatabase,SMD五、基因表達倉庫第二節(jié)基因芯片數據預處理

(GeneralMicroarrayDataTypeandDatabase)一、基因芯片數據提取與過濾(一)

cDNA微陣列芯片第二節(jié)基因芯片數據預處理

(GeneralMicroar(二)

Affymetrix公司的原位合成芯片定性信息提?。篜/A/M(Present/Absent/Marginal)定量信息提?。夯谔结樇瘏R總后的基因水平的熒光信號強度值(二)Affymetrix公司的原位合成芯片定性信息提取:數據過濾

數據過濾的目的是去除表達水平是負值或很小的數據、或者明顯的噪聲數據。過閃耀現象物理因素導致的信號污染雜交效能低點樣問題其它數據過濾數據過濾的目的是去除表達水平是負值或很小的數據二、數據補缺(一)數據缺失類型非隨機缺失基因表達豐度過高或過低隨機缺失與基因表達豐度無關,數據補缺主要針對隨機缺失情況二、數據補缺(一)數據缺失類型(二)數據補缺方法1、簡單補缺法missingvalues=0expressionmissingvalues=1expression(arbitrarysignal)missingvalues=row(gene)averagemissingvalues=column(array)average(二)數據補缺方法1、簡單補缺法missingvalues2、K近鄰法選擇與具有缺失值基因的k個鄰居基因用鄰居基因的加權平均估計缺失值參數:鄰居個數距離函數2、K近鄰法選擇與具有缺失值基因的k個鄰居基因3、回歸法3、回歸法三、數據標準化(一)為什么要進行數據標準化存在不同來源的系統(tǒng)誤差染料物理特性差異(熱和光敏感性,半衰期等)染料連接效能點樣針差異數據收集過程中掃描設施不同芯片差異實驗條件差異三、數據標準化(一)為什么要進行數據標準化(二)運用哪些基因進行標準化處理芯片上大部分基因(假設芯片上大部分基因在不同條件下表達量相同)不同條件間穩(wěn)定表達的基因(如持家基因)控制序列(spikedcontrol)合成DNA序列或外源的DNA序列,在不同條件下表達水平相同。(二)運用哪些基因進行標準化處理1、片內標化(Within-slidenormalization)

(1)全局標化(Globalnormalization)(三)cDNA芯片數據標準化處理假設:R=k*G方法:C=log2k:中值或均值1、片內標化(Within-slidenormalizat

(2)熒光強度依賴的標化(Intensitydependentnormalization)為什么方法:scatter-plotsmootherlowess擬合c(A)為MvsA的擬合函數標化后的數據(2)熒光強度依賴的標化(Intensityd

(3)點樣針依賴的標化(Within-print-tip-groupnormalization)

為什么一張芯片的不同區(qū)域運用不同的點樣針點樣,從而引入點樣針帶來的系統(tǒng)誤差。method(3)點樣針依賴的標化(Within-print-(4)尺度調整(Scaleadjustment)為什么調整不同柵格(grids)間的數據離散度方法:計算不同柵格的尺度因子

(4)尺度調整(Scaleadjustment)2、片間標化(Multiple-slidenormalization)線性標化法(Linearscalingmethods)與芯片內標化的尺度調整(Scaleadjustment)方法類似非線性標化法(non-linearmethods)分位數標化法(Quantilenormalization)兩張芯片的表達數據的分位數標化至相同,即分布于對角線上。2、片間標化(Multiple-slidenormaliz3、染色互換實驗(dye-swapexperiment)的標化

實驗組對照組芯片1cy5(R)cy3(G’)芯片2cy3(G)cy5(R’)前提假設:c︽c’方法:3、染色互換實驗(dye-swapexperiment)

1、提取定性信號(1)對每個探針對計算R

R=(PM-MM)/(PM+MM)(2)比較R與定義的閾值Tau(小的正值,默認值為0.015).(3)單側的Wilcoxon’sSignedRanktest產生p值,根據p值定義定量信號值PresentcallMarginalcallAbsentcall(四)Affymetrix芯片數據標準化1、提取定性信號(四)Affymetrix芯片數據標準2、提取定量信號(1)分析步驟獲取探針水平數據背景值效正標準化處理探針特異背景值效正探針集信號的匯總2、提取定量信號

(2)分析方法

(2)分析方法2020年7基因芯片數據分析參照模板課件2020年7基因芯片數據分析參照模板課件2020年7基因芯片數據分析參照模板課件2020年7基因芯片數據分析參照模板課件2020年7基因芯片數據分析參照模板課件M=log2R-log2GA=(log2R+log2G)/2M=log2R-log2G2020年7基因芯片數據分析參照模板課件2020年7基因芯片數據分析參照模板課件

前面提及的標準化方法僅效正了數據分布的中心,在不同的柵格間log-Ratios的方差也不同。前面提及的標準化方法僅效正了數據分布的中心,在不同2020年7基因芯片數據分析參照模板課件第三節(jié)差異表達分析

(AnalysisofDifferentiallyExpressionGene)一、倍數法實驗條件下的表達值對照條件下的表達值通常以2倍差異為閾值,判斷基因是否差異表達第三節(jié)差異表達分析

(AnalysisofDiffer二、統(tǒng)計學方法

1、t檢驗法運用t檢驗法可以判斷基因在兩不同條件下的表達差異是否具有顯著性二、統(tǒng)計學方法1、t檢驗法運用t檢驗法可以判斷基因在兩不同2、方差分析

方差分析可用于基因在兩種或多種條件間的表達量的比較,它將基因在樣本之間的總變異分解為組間變異和組內變異兩部分。通過方差分析的假設檢驗判斷組間變異是否存在,如果存在則表明基因在不同條件下的表達有差異。2、方差分析方差分析可用于基因在兩種或多種條件間的表達量的三、SAM

(SignificanceAnalysisofMicroarrays)(一)多重假設檢驗問題Ⅰ型錯誤(假陽性)即在假設檢驗作推斷結論時,拒絕了實際上正確的檢驗假設,即將無差異表達的基因判斷為差異表達。Ⅱ型錯誤(假陰性)即不拒絕實際上不正確的,即將有差異表達的基因判斷為無差異表達。在進行差異基因挑選時,整個差異基因篩選過程需要做成千上萬次假設檢驗,導致假陽性率的累積增大。對于這種多重假設檢驗帶來的放大的假陽性率,需要進行糾正。常用的糾正策略有Bonferroni效正,控制FDR(FalseDiscoveryRate)值等。三、SAM

(SignificanceAnalysis(二)分析步驟計算統(tǒng)計量擾動實驗條件,計算擾動后的基因表達的相對差異統(tǒng)計量計算擾動后的平均相對差異統(tǒng)計量(二)分析步驟確定差異表達基因閾值:以最小的正值和最大的負值作為統(tǒng)計閾值,運用該閾值,統(tǒng)計在值中超過該閾值的假陽性基因個數,估計假陽性發(fā)現率FDR值。通過調整FDR值的大小得到差異表達基因。2020年7基因芯片數據分析參照模板課件四、信息熵

運用信息熵進行差異基因挑選時,不需要用到樣本的類別信息,所以運用信息熵找到的差異基因是指在所有條件下表達波動比較大的基因。

四、信息熵運用信息熵進行差異基因挑選時,不需要用到第四節(jié)基因芯片數據的聚類分析

(ClusterAnalysisofMicroarrayData)

(一)相似性測度幾何距離線性相關系數非線性相關系數互信息其它

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論