公用數(shù)據(jù)庫基因組表達譜數(shù)據(jù)挖掘策略及分析方法_第1頁
公用數(shù)據(jù)庫基因組表達譜數(shù)據(jù)挖掘策略及分析方法_第2頁
公用數(shù)據(jù)庫基因組表達譜數(shù)據(jù)挖掘策略及分析方法_第3頁
公用數(shù)據(jù)庫基因組表達譜數(shù)據(jù)挖掘策略及分析方法_第4頁
公用數(shù)據(jù)庫基因組表達譜數(shù)據(jù)挖掘策略及分析方法_第5頁
已閱讀5頁,還剩69頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

李曦副教授中南大學(xué)湘雅醫(yī)院臨床藥理研究所公用數(shù)據(jù)庫基因組表達譜數(shù)據(jù)挖掘策略及分析方法NatureReviewsGenetics

16,

85–97

(2015)什么是數(shù)據(jù)挖掘從海量數(shù)據(jù)中揭示潛在的生物學(xué)規(guī)律。為什么要學(xué)習(xí)數(shù)據(jù)挖掘把握自己的命運最大化利用已有數(shù)據(jù)尋找新的課題數(shù)據(jù)挖掘的步驟生物醫(yī)學(xué)研究人員的優(yōu)勢數(shù)據(jù)處理步驟、統(tǒng)計分析均有工具可以完成數(shù)據(jù)挖掘表型的確定數(shù)據(jù)的選擇數(shù)據(jù)挖掘結(jié)果的解讀生物醫(yī)學(xué)數(shù)據(jù)挖掘所需技能必備技能:基本的生物信息學(xué)知識各種數(shù)據(jù)庫的使用、數(shù)據(jù)庫信息的解讀基本的生物統(tǒng)計學(xué)知識分析方法的選擇,分析軟件的使用可選技能:R語言的基本操作R包的使用Linux系統(tǒng)的基本操作生物信息學(xué)分析軟件的使用基因組表達譜數(shù)據(jù)挖掘流程確定研究策略獲取表達譜數(shù)據(jù)處理表達譜數(shù)據(jù)統(tǒng)計分析驗證分析數(shù)據(jù)挖掘案例分析策略核心思路:影響腦膠質(zhì)瘤發(fā)生發(fā)展的基因可能影響腦膠質(zhì)瘤的預(yù)后分析流程:獲取包含腦膠質(zhì)瘤組織和正常腦組織的全基因組表達數(shù)據(jù)的多個數(shù)據(jù)集鑒定在腦膠質(zhì)瘤組織和正常腦組織中差異表達的基因在自己收集的樣本中驗證這些基因分析這些基因與腫瘤分級以及總生存期之間的關(guān)系策略舉例影響阿糖胞苷藥物敏感性的基因可能影響AML預(yù)后。影響鉑類藥物敏感性的基因可能影響多種腫瘤的預(yù)后。在高低腫瘤分級中存在差異的基因可能影響癌癥預(yù)后?!芯坎呗匀绾未_定研究策略可以千變?nèi)f化研究策略決定了論文的上限應(yīng)根據(jù)自身專業(yè)選擇有意義的研究策略包含基因組表達譜數(shù)據(jù)的數(shù)據(jù)庫GeneExpressionOmnibus(GEO)

/geoArrayExpresshttps://www.ebi.ac.uk/arrayexpress/TheCancerGenomeAtlas(TCGA)/InternationalCancerGenomeConsortium/GEO數(shù)據(jù)庫關(guān)鍵名詞Profile:數(shù)據(jù)庫整理好的單個基因的概述Datasets:見GDS和GSE。GSM:單個樣本的實驗數(shù)據(jù)GDS:數(shù)據(jù)庫整理好的關(guān)于某個話題的GSM集合。一個GDS中的所有GSM為同一平臺。GSE:一個實驗項目中的多個GSM合集,可能使用多個平臺。GPL:芯片平臺,如Affymetrix,Agilent等。Profile示例實驗描述實驗結(jié)果展示Value:歸一化的相對表達量Rank:探針表達值在所有表達值中的排名的百分比。Rank越高,表達越高。Datasets示例芯片介紹芯片注釋文件樣本描述Limma法分析的TOP250結(jié)果https://paolo.shinyapps.io/ShinyVolcanoPlot/韋恩圖http://bioinformatics.psb.ugent.be/webtools/Venn/通路分析/生存分析驗證Survexpresshttp://bioinformatica.mty.itesm.mx:8080/Biomatec/SurvivaX.jspKMPlotter/analysis//輸入基因名選擇分析表型GEO數(shù)據(jù)本機處理統(tǒng)計分析+作圖軟件SPSSGraphadRKaplan-Meier法單因素生存分析分類變量做生存曲線圖Cox回歸模型單因素或多因素生存分析分類或連續(xù)變量計算HR和95%CI生存分析P值HR雙擊彈出謝謝!腫瘤靶向藥物的個體化治療數(shù)量性狀連續(xù)變量,如:身高、體重、藥物劑量等質(zhì)量性狀分類變量,如:性別、療效、等級等其他類型性狀時間依賴性變量,如:生存期,中位生存時間等

研究表型參數(shù)檢驗(符合正態(tài)分布時)T檢驗(獨立樣本或配對樣本):兩樣本均數(shù)比較方差分析:兩個以上樣本均數(shù)比較線性回歸分析:多個因素對因變量的影響

非參數(shù)檢驗(不符合正態(tài)分布時)Mann-WhitneyU檢測:兩獨立樣本Kolmogorov-Smirnov檢測:兩獨立樣本McNemar檢驗:配對樣本Kruskal-Wallis檢驗:多獨立樣本數(shù)量性狀常用統(tǒng)計分析方法卡方檢驗:單因素對因變量的影響邏輯回歸:多個因素對因變量的影響質(zhì)量性狀常用統(tǒng)計分析方法A:期望值>5且樣本量>40,用Pearson卡方。

B:1<期望值<5且樣本量>40,用連續(xù)校正。(僅用于四格表資料)

C:期望值<5或樣本量≤40,用Fisher精確檢驗。還有問題解決不了怎么辦?加入達人學(xué)社QQ群(加群請注明信息:單位+專業(yè)+姓名,每人限加一個群)33405037、491043563496353730、496740737496974932、273757394大神幫你解決高難文獻群內(nèi)共享資

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論