BCC精品培訓關聯(lián)分析_第1頁
BCC精品培訓關聯(lián)分析_第2頁
BCC精品培訓關聯(lián)分析_第3頁
BCC精品培訓關聯(lián)分析_第4頁
BCC精品培訓關聯(lián)分析_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、全基因組關聯(lián)分析周家蓬博士QQ群:259804181基本概念歷史、現(xiàn)狀和趨勢一般流程研究策略應用價值全基因組關聯(lián)研究 Genome-wide association study (GWAS) 檢測全基因組范圍的遺傳變異與可觀測性狀間的遺傳關聯(lián)遺傳變異的檢測 SNP芯片 Affymetrix: 500K chip (Randomly distributed) Illumina: 550K chip (gene-based) 高通量測序 Illumina/Solexa: DNA-seq, RNA-seq遺傳變異的數(shù)量 “單倍型圖譜計劃 1”(Nature 2005)SNP: 1M “單倍型圖譜計劃

2、 2”(Nature 2007)SNP: 4M “單倍型圖譜計劃 3”(Nature 2010)SNP: 10M SNP和SNP基因型TTCAGTCAGATTCCAGCCCTTCAGTCAGATTCCAGCCC樣本樣本1樣本樣本2TTCAGTCAGATTCCAGCCCTTCAGTCAGAGTCCAGCCC表型 & 模型和算法 表型:質量性狀和數(shù)量性狀 表型校正:去除outliers,取特征值,取剩余值 模型:混合線性模型方程組 算法:SNP,單倍型,CNV,Gene-set(SNPs) Add.,Dom.,Rec.,Int. Frequentist,Bayesian 方差/秩和,均值/

3、中位數(shù) 打分值,似然比 Bonferroni,F(xiàn)DR,Permutation,Bootstrap編碼基因型For one marker with two alleles, there can be three possible genotypes:GenotypeCodingAA2Aa1aa0病例/對照設計的數(shù)據(jù)結構individualaffectiongenderSNP 1SNP 2SNP n11F21221M22130F12241F11250M0-91sample idcase/controlgenotypes遺傳假設和遺傳模型Genotypic modelHypothesis: all

4、3 different genotypes have different effectsGenotypeGenotypic ValueAAAAAaAaaaaaAA vs. Aa vs. aaDominant modelHypothesis: the genetic effects of AA and Aa are the sameGenotypeGenotypic ValueAAA-AaA-aaaaAA and Aa vs. aa遺傳假設和遺傳模型(續(xù))Recessive modelHypothesis: the genetic effects of Aa and aa are the sam

5、eGenotypeGenotypic ValueAAA-Aaa-aaaaAA vs. Aa and aa遺傳假設和遺傳模型(續(xù))Allelic modelHypothesis: the genetic effects of allele A and allele a are differentGenotypeGenotypic ValueAA2AAaA+ aaa2aA vs. a遺傳假設和遺傳模型(續(xù))卡方檢驗w Genotypic modelw Null hypothesis: Independence AAAaaacasesnAAnAanaacontrolsmAAmAamaajiijH.0

6、 :df = 2w Chi-squared test statistic:w O is the observed cell countsw E is the expected cell counts, under null hypothesis of independence 統(tǒng)計量cells all22E)(O ENE)alcolumn tot totalrow(R code Statistics hist(Statistics, prob=T) curve( dchisq(x, df=5), col=blue, add=TRUE ) curve( dchisq(x, df=2), col=

7、red, add=TRUE ) P-1-pchisq(10,df=2);P1 0.006737947 統(tǒng)計量統(tǒng)計量Histogram of StatisticsStatisticsDensity051015200.000.050.100.15P 值值GWAS的歷史 2005年,Science雜志報道了第一篇GWAS研究:年齡相關性黃斑變性 之后陸續(xù)出現(xiàn)了有關冠心病、肥胖、2型糖尿病、甘油三酯、精神分裂癥以及相關表型的報道GWAS的現(xiàn)狀GWAS的趨勢探求因果關系 邏輯推理:歸納法(從特殊到一般)、演繹法(從一般到特殊) “穆勒五法”:求同法、求異法、求同求異法、共變法、排除法 全基因組關聯(lián)研究主

8、要基于共變法思想 科學技術史之父薩頓認為科學是人類唯一具有累積性和繼承性的活動一般流程A. 使用SNP分型芯片獲得高通量的基因型B. 對基因型進行質量評估和控制C. 若為質量性狀,需進行群體分層檢測;如為數(shù)量性狀,則對表型進行協(xié)變量校正D. 采用若干遺傳模型進行全基因組關聯(lián)分析E. 增加額外的數(shù)據(jù)進行結果驗證AHMU案例A. Illumina Human 610Quad BeadChipB. Call rate 90%, MAF 1%, HWE P 0.8)對填充基因型進行篩選過濾4. 進行關聯(lián)分析常用軟件 BEAGLE、IMPUTE、MACH和PLINK等通路分析 定義 將SNPs按照生物學

9、通路分組,比較各通路在病例/對照或連續(xù)性狀數(shù)量上的差異 成功案例 克隆病、I型糖尿病、類風濕性關節(jié)炎、精神分裂癥、乳腺癌等通路分析 分析步驟1. 選擇生物通路(KEGG)2. 選擇Tag SNPs (HapMap)3. 多因素分析4. 顯著SNPs結果綜合常用軟件 GSEA、IPA等互作分析 定義 研究基因-基因、基因-環(huán)境間交互作用 成功案例 老年黃斑變性、帕金森病、直腸癌、膀胱癌,哮喘等互作分析 分析步驟1. 選擇顯著及近似顯著SNPs2. 選擇風險環(huán)境因素3. 構建互作模型4. 多因素分析常用軟件 PLINK、Random Jungle、BEAM等其他策略 兩階段法 精細定位/目標測序

10、表型/性狀聯(lián)合 單倍型分析遺傳變異的檢測 SNP芯片 Affymetrix: 500K chip (Randomly distributed) Illumina: 550K chip (gene-based) 高通量測序 Illumina/Solexa: DNA-seq, RNA-seq高通量測序 Next-generation sequencing (NGS) 平行測序SNP分型:coverage & variant frequency參考基因組序列參考基因組序列個體正向序列個體正向序列個體反向序列個體反向序列遺傳變異的種類 單核苷酸多態(tài)性 Single nucleotide pol

11、ymorphism SNP占總變異的90% 插入缺失 Insertion-deletion InDel1-50bp DNA片段 結構變異 Structural variation SV50bp DNA片段遺傳變異的數(shù)量 “千人基因組計劃”(Nature 2012) SNP: 38M InDel: 1.4M SV: 14K 效應大小 vs. 變異頻率家系病例或極端性狀個體 Nat Rev Genet. 2010 Jun;11(6):415-25. 外顯子突變是孟德爾疾病主要病因;多向性效應影響復雜疾病 價格相對低廉 目前主要用于檢測孟德爾疾病 新的策略或方法:Lasso,折疊法,聚合法外顯子組測

12、序Lasso 嶺回歸: |beta|2t Lasso回歸: |beta|t 貝葉斯: 全概率&損失函數(shù) 機器學習: SVM低覆蓋度測序+缺失基因型填充Pasaniuc et. al., 2012策略評估 Pasaniuc等證實覆蓋度低至0.1-0.5X依然可以通過后續(xù)的填充方法獲得高密度芯片的效果策略評估(續(xù)) Howie等發(fā)明了一種pre-phasing的填充方法,該方法通過對GWAS樣本個體進行連鎖相構建,進而利用參考庫的單倍型進行缺失基因型填充NGS-GWAS 水稻農(nóng)藝性狀14種 運用重測序技術對517個中國水稻地方品系進行進化及GWAS分析1X重測序KNN基因型填充算法MLM遺

13、傳模型 Nat Genet. 2010 Oct; 42: 961967. 高密度芯片低覆蓋度測序基本特點芯片基于正常人群中的高頻SNP標記設計,沒有與疾病相關的突變信息可以同時檢測到人群中的高頻SNP和未被發(fā)現(xiàn)的低頻突變最高分辨率根據(jù)不同的芯片型號,一般在30-100bp精確到單個堿基覆蓋范圍只能局限于芯片內(nèi)容,無法獲得全部基因組信息僅受到能夠定位到基因組的reads數(shù)據(jù)量影響,可獲得全基因組的信息技術原理雜交原理,實驗環(huán)境和樣本對實驗重復有很大影響合成測序,重復性好動態(tài)量程弱信號被舍棄,強信號會飽和 沒有局限數(shù)據(jù)產(chǎn)出選擇 不可以可以背景噪音高低數(shù)據(jù)延展性隨著人類基因組的進一步完善,測序數(shù)據(jù)可

14、以進一步深挖高密度芯片 vs. 低覆蓋度測序測序成本GWAS: Array-based vs. NGS-based基本流程 高通量測序基因分型: CLC Genomics Workbench & Server BWA/Bowtie + SAMtools/GATK + IGV 全基因組關聯(lián)分析: PLINK,TASSEL,QTDT/FBAT BEAGLE/IMPUTE + SNPTEST 可視化和注釋: IGV/gPlink + ANNOVAR/Annotation.plGWAS模塊植物育種植物育種動物育種動物育種人類疾病人類疾病TASSELQTDTFBATPBATPLINKSNPTES

15、TMENDELBEAMIMPUTE BEAGLE METAL HAPLOVIEW FASTSNPLinux C/C+ R Perl Python MySQL應用 藥物治療 抗抑郁藥、精神疾病藥物、丙型肝炎治療,肝損害等副作用,為個體化醫(yī)療奠定理論基礎 意義 中國每年因藥物不良反應住院治療的病人已逾250萬人,其中約20萬人因此死亡,個體化醫(yī)療勢在必行丙型肝炎治療 丙肝 全球1.7億人感染的病毒性疾病,無根治辦法,治療效果因人而異 IL28B基因 TT基因型攜帶者痊愈率約1/4;CC基因型攜帶者痊愈率達4/5 09年GWAS最具價值成果 正在美國申請專利應用 動植物育種 在牛豬雞、玉米小麥等方面,歐美農(nóng)業(yè)部

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論