




已閱讀5頁,還剩107頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第五章基因表達數(shù)據(jù)分析 生物信息學 第一節(jié)引言Introduction 基因表達組學與基因組學相比較表達組信息是動態(tài)的 表達組學的數(shù)據(jù) 更多的是數(shù)值分析 轉(zhuǎn)錄組學中除了模式識別外 系統(tǒng)建模也十分重要 真核生物基因表達的基本方式 基因表達調(diào)控示意圖 基因表達的時空性 基因表達測定方法RT qPCR 近20年來三種不同高通量基因表達測定技術(shù)的應(yīng)用趨勢 高通量基因表達測定的應(yīng)用實例 1 測定組織特異性基因表達2 基因功能分類3 癌癥的分類和預(yù)測4 臨床治療效果預(yù)測5 基因與小分子藥物 疾病之間的關(guān)聯(lián)6 干細胞的全能型 自我更新和細胞命運決定研究 7 動植物的發(fā)育研究8 環(huán)境對細胞基因表達的作用9 環(huán)境監(jiān)測10 物種的繁育 第二節(jié)基因表達測定平臺與數(shù)據(jù)庫 MicroarrayPlatformandDatabases 1 cDNA芯片2 Affymetrix芯片3 下一代測序技術(shù)技術(shù)如 Roche 454 IlluminaMiSeq IonTorrentPGM 一 基因表達測定平臺介紹 二 Microarray技術(shù)與RNA Seq技術(shù)的比較 1 RNA Seq技術(shù)對沒有已知參考基因組信息的非模式生物 也可測定轉(zhuǎn)錄信息 2 RNA Seq技術(shù)可以測定轉(zhuǎn)錄邊界的精度達到一個堿基 RNA Seq可以用來研究復雜的轉(zhuǎn)錄關(guān)系 3 RNA Seq可以同時測定序列的變異 4 RNA Seq背景信號很小 測定的動態(tài)范圍很大 RNA Seq在基因表達的定量上準確性很高 RNA Seq在測定技術(shù)上和生物上重復性很高 RNA Seq的測定需要很少的RNA樣本 在應(yīng)用上RNA Seq技術(shù)對ISOFORM的測定和等位基因的區(qū)分比芯片技術(shù)有很好的優(yōu)勢 三 基因表達數(shù)據(jù)庫 疾病相關(guān)基因表達數(shù)據(jù)庫 第三節(jié)數(shù)據(jù)預(yù)處理與差異表達分析 PreprocessingofMicroarrayDataandAnalysisofDifferentiallyExpressionGene 一 基因芯片數(shù)據(jù)預(yù)處理 一 基因芯片數(shù)據(jù)的提取 cDNA微陣列芯片熒光信號 定性信息提取 P A M Present Absent Marginal 定量信息提取 基于探針集匯總后的基因水平的熒光信號強度值 原位合成芯片 二 數(shù)據(jù)對數(shù)化轉(zhuǎn)換 對芯片數(shù)據(jù)做對數(shù)化轉(zhuǎn)換后 數(shù)據(jù)可近似正態(tài)分布 三 數(shù)據(jù)過濾 數(shù)據(jù)過濾的目的是去除表達水平是負值或很小的數(shù)據(jù)或者明顯的噪聲數(shù)據(jù) 過閃耀現(xiàn)象物理因素導致的信號污染雜交效能低點樣問題其他 四 補缺失值 1 數(shù)據(jù)缺失類型非隨機缺失基因表達豐度過高或過低 隨機缺失與基因表達豐度無關(guān) 數(shù)據(jù)補缺主要針對隨機缺失情況 高表達基因的數(shù)據(jù)缺失 2 數(shù)據(jù)補缺方法 1 簡單補缺法 missingvalues 0expressionmissingvalues 1expression arbitrarysignal missingvalues row gene averagemissingvalues column array average 2 k近鄰法 選擇與具有缺失值基因的k個鄰居基因用鄰居基因的加權(quán)平均估計缺失值參數(shù)鄰居個數(shù)距離函數(shù) 3 回歸法 五 數(shù)據(jù)標準化 1 為什么要進行數(shù)據(jù)標準化 存在不同來源的系統(tǒng)誤差染料物理特性差異 熱光敏感性 半衰期等 染料的結(jié)合效率點樣針差異數(shù)據(jù)收集過程中的掃描設(shè)施不同芯片間的差異實驗條件差異 2 運用哪些基因進行標準化處理芯片上大部分基因 假設(shè)芯片上大部分基因在不同條件下表達量相同 不同條件間穩(wěn)定表達的基因 如持家基因 控制序列 spikedcontrol 在不同條件下表達水平相同的合成DNA序列或外源的DNA序列 3 cDNA芯片數(shù)據(jù)標準化處理 1 片內(nèi)標化 within slidenormalization 方法全局標化 熒光強度依賴的標準化 點樣針組內(nèi)標準化 假設(shè) R k G方法 c log2k 中值或均值 全局標化 globalnormalization 熒光強度依賴的標化 intensitydependentnormalization 為什么方法 scatter plotsmootherlowess擬合c A 為M對A的擬合函數(shù)標化后的數(shù)據(jù) 點樣針依賴的標化 within print tip groupnormalization 為什么一張芯片的不同區(qū)域運用不同的點樣針點樣 從而引入點樣針帶來的系統(tǒng)誤差 method 2 染色互換實驗 dye swapexperiment 的標化實驗組對照組芯片1cy5 R cy3 G 芯片2cy3 G cy5 R 前提假設(shè) c c 方法 線性標化法 linearscalingmethods 與芯片內(nèi)標化的尺度調(diào)整 scaleadjustment 方法類似 非線性標化法 non linearmethods 分位數(shù)標化法 quantilenormalization 兩張芯片的表達數(shù)據(jù)的分位數(shù)標化至相同 即分布于對角線上 3 片間標化 multiple slidenormalization 4 芯片數(shù)據(jù)標準化 對每個探針對計算RR PM MM PM MM 比較R與定義的閾值Tau 小的正值 默認值為0 015 單側(cè)的Wilcoxon sSignedRanktest產(chǎn)生p值 根據(jù)p值定義定量信號值PresentcallMarginalcallAbsentcall 1 提取定性信號 分析步驟獲取探針水平數(shù)據(jù) 背景值效正 標準化處理 探針特異背景值效正 探針集信號的匯總 2 提取定量信號 1 分析方法 2 3 4 5 6 M log2R log2GA log2R log2G 2 7 8 9 前面提及的標準化方法僅效正了數(shù)據(jù)分布的中心 在不同的柵格間log Ratios的方差也不同 二 差異表達分析基本原理與方法 一 倍數(shù)法 實驗條件下的表達值 對照條件下的表達值 通常以2倍差異為閾值 判斷基因是否差異表達 二 t檢驗法 運用t檢驗法可以判斷基因在兩不同條件下的表達差異是否具有顯著性 三 方差分析 兩種或多種條件間下基因表達量的比較 用方差分析 它將基因在樣本之間的總變異分解為組間變異和組內(nèi)變異兩部分 通過方差分析的假設(shè)檢驗判斷組間變異是否存在 如果存在則表明基因在不同條件下的表達有差異 四 SAM法 significanceanalysisofmicroarrays 1 多重假設(shè)檢驗問題 型錯誤 假陽性 在假設(shè)檢驗作推斷結(jié)論時 拒絕了實際上正確的檢驗假設(shè) 即將無差異表達的基因判斷為差異表達 型錯誤 假陰性 不拒絕實際上不正確的 即將有差異表達的基因判斷為無差異表達 在進行差異基因挑選時 整個差異基因篩選過程需要做成千上萬次假設(shè)檢驗 導致假陽性率的累積增大 對于這種多重假設(shè)檢驗帶來的放大的假陽性率 需要進行糾正 常用的糾正策略有Bonferroni效正 控制FDR falsediscoveryrate 值等 2 分析步驟計算統(tǒng)計量擾動實驗條件 計算擾動后的基因表達的相對差異統(tǒng)計量計算擾動后的平均相對差異統(tǒng)計量 確定差異表達基因閾值以最小的正值和最大的負值作為統(tǒng)計閾值 運用該閾值 統(tǒng)計在值中超過該閾值的假陽性基因個數(shù) 估計假陽性發(fā)現(xiàn)率FDR值 調(diào)整FDR值的大小得到差異表達基因 五 信息熵 運用信息熵進行差異基因挑選時 不需要用到樣本的類別信息 所以運用信息熵找到的差異基因是指在所有條件下表達波動比較大的基因 三 差異表達分析應(yīng)用 以一套阿爾海茨默病相關(guān)的基因表達譜數(shù)據(jù) GSE5281 為例 詳細介紹如何利用BRB ArrayTools軟件進行數(shù)據(jù)預(yù)處理 并對處理過的標準化的基因芯片數(shù)據(jù)利用SAM軟件進行差異表達分析的過程 GSE5281數(shù)據(jù)是利用Affymetrix公司的寡核苷酸芯片HG U133Plus2 0Array檢測阿爾海茨默病病人和正常老年人大腦中六個不同區(qū)域的基因表達情況 本例僅選擇其中一個區(qū)域 內(nèi)側(cè)顳回 middletemporalgyrus MTG 的數(shù)據(jù)進行說明 第一步 導入芯片數(shù)據(jù) 使用 importdata 下的 GeneralFormatImporter 導入基因芯片數(shù)據(jù) 數(shù)據(jù)間用Tab鍵分隔 或使用Excell文件 也可使用 DataImportWizard 進行導入 導入芯片數(shù)據(jù) 第二步 選擇文件類型 每張芯片用單獨的文件存儲 多個文件保存在一個文件夾 Arrayaresavedinseparatefilesstoredinonefolder 若多張芯片數(shù)據(jù)組織成一個矩陣形式 存儲在一個文件中 Arrayaresavedinhorizontallyalignedfile 選擇記憶芯片數(shù)據(jù)文件類型 第三步 選擇芯片數(shù)據(jù)文件所存儲的路徑 注意路徑中不能包含中文 第四步 選擇基因芯片平臺 第五步 選擇文件格式 第六步 數(shù)據(jù)的過濾和標準化 第七步 基因注釋 由于基因芯片檢測的是探針的表達情況 而探針和基因之間往往不是一一對應(yīng) 所以 在數(shù)據(jù)導入后軟件會詢問是否需要進行基因注釋 及是否需要將探針轉(zhuǎn)換成相應(yīng)的基因名 genesymbol 或EntrezID 第八步 運行SAM FDR 0 01 delta 0 68 選出2209個在阿爾海茨默病病人和正常人腦組織中表達發(fā)生顯著性改變的基因 SAM的參數(shù)設(shè)定 第九步 SAMPlot SAMPlot 第四節(jié)聚類分析與分類分析 ClusteringAnalysisandClassification 一 聚類目的 基于物體的相似性將物體分成不同的組 二 基因表達譜數(shù)據(jù)的聚類 對基因進行聚類識別功能相關(guān)的基因識別基因共表達模式對樣本進行聚類質(zhì)量控制檢查樣本是否按已知類別分組發(fā)現(xiàn)亞型 樣本 基因 三 距離 相似性 尺度函數(shù) 幾何距離線性相關(guān)系數(shù)非線性相關(guān)系數(shù)互信息 四 聚類算法 層次聚類算法將研究對象按照它們的相似性關(guān)系用樹形圖進行呈現(xiàn) 進行層次聚類時不需要預(yù)先設(shè)定類別個數(shù) 樹狀的聚類結(jié)構(gòu)可以展示嵌套式的類別關(guān)系 一 層次聚類 在對含非單獨對象的類進行合并或分裂時 常用的類間度量方法 類間相似性度量方法 2000年Alizadeh等運用基因芯片數(shù)據(jù) 基于層次聚類算法證實了DLBCL腫瘤病人在mRNA層面確實存在兩種亞型 二 k均值聚類 基本思想 三 自組織映射聚類 基本思想在不斷的學習過程中 輸出層的神經(jīng)元根據(jù)輸入樣本的特點進行權(quán)重調(diào)整 最后拓樸結(jié)構(gòu)發(fā)生了改變 四 雙向聚類 雙向聚類就是識別基因表達譜矩陣中同質(zhì)的子矩陣 運用特定的基因子類識別樣本子類 雙向聚類識別同質(zhì)的子結(jié)構(gòu) 五 分類分析 一 線性判別分類器 二 k近鄰分類法 三 PAM方法 predictionanalysisformicroarray 基本思想每類樣本的質(zhì)心向所有樣本的質(zhì)心進行收縮 即收縮每個基因的類均值 收縮的數(shù)量由值決定 當收縮過程發(fā)生時 某些基因在不同類中將會有相同的類均值 這些基因就不具有類間的區(qū)別效能 基因1 基因2 分析步驟 計算統(tǒng)計量對公式經(jīng)過變換得到 收縮各類的均值 判斷新樣本類別 四 決策樹 基本思想決策樹又稱多級分類器 它可以把一個復雜的多類別分類問題轉(zhuǎn)化為若干個簡單的分類問題來解決 決策樹的結(jié)構(gòu) 一個樹狀的結(jié)構(gòu) 內(nèi)部節(jié)點上選用一個屬性進行分割 每個分叉都是分割的一個部分 葉子節(jié)點表示一個分布 決策樹應(yīng)用于腫瘤基因表達譜的分類分析 分析步驟 提取分類規(guī)則 進行分類預(yù)測在構(gòu)造決策樹的過程中最重要的一點是在每一個分割節(jié)點確定用哪個屬性來分類 或分裂 這就涉及到關(guān)于使用什么準則來衡量使用A屬性比使用B屬性更合理 衡量準則信息增益 informationgain基尼指數(shù) Giniindex 決策樹的修剪消除決策樹的過適應(yīng)問題消除訓練集中的異常和噪聲 五 分類效能評價 1 構(gòu)建訓練集和檢驗集n倍交叉驗證 n foldcrossvalidation Bagging bootstrapaggregating 無放回隨機抽樣留一法交叉驗證 leave one outcrossvalidation LOOCV 2 分類效能靈敏度 sensitivity recall 特異性 specificity 陽性預(yù)測率 positivepredictivevalue precision 陰
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年高考生物三年高考真題及模擬題分類匯編專題12種群和群落含解析
- 再生障礙性貧血護理教學查房
- 家庭教育書分享
- 中醫(yī)艾灸護理程序圖解
- 國畫動物美術(shù)課件
- 腫瘤科春季健康宣教內(nèi)容
- 幼兒園睿思維培訓
- 綠化工程造價培訓
- 酒障病人的護理
- 2025年音樂產(chǎn)業(yè)音樂版權(quán)運營與音樂科技創(chuàng)新融合發(fā)展的技術(shù)創(chuàng)新報告
- 陜西2025中考試題及答案
- 供應(yīng)風險管理制度
- 直播間貨盤管理制度
- 2025至2030中國心臟電生理標測、導航和記錄設(shè)備行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 2025泰山護理職業(yè)學院教師招聘考試試題
- 2025年重慶市中考歷史真題(原卷版)
- 吉林省國資委監(jiān)管企業(yè)招聘筆試真題2024
- 項目管理中的資源優(yōu)化配置
- 2025年重慶市中考道德與法治試卷真題(含標準答案)
- 2025年北京昌平區(qū)東小口鎮(zhèn)城市協(xié)管員招聘題庫帶答案分析
- 10kV供配電系統(tǒng)電氣設(shè)備改造 投標方案
評論
0/150
提交評論