全基因組重測序數據分析詳細說明_第1頁
全基因組重測序數據分析詳細說明_第2頁
全基因組重測序數據分析詳細說明_第3頁
全基因組重測序數據分析詳細說明_第4頁
全基因組重測序數據分析詳細說明_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1 / 17全基因組重測序數據分析1.簡介(Introduction)通過高通量測序識別發(fā)現 de novo 的 somatic 和 germ line 突變, 結構變異-SNV, 包括重 排突變(deletioin, duplicati on 以及 copy number variatio n )以及 SNP 的座位;針對重排 突變和 SNP 的功能性進行綜合分析;我們將分析基因功能(包括miRNA ),重組率(Recomb in ation )情況,雜合性缺失(LOH )以及進化選擇與mutation 之間的關系;以及這些關系將怎樣使得在disease ( cancer)genome 中的

2、 mutation 產生對應的易感機制和功能。我們將在基因組學以及比較基因組學,群體遺傳學綜合層面上深入探索疾病基因組和癌癥基因組。SeqtiEflce VarijifliGniMkrosccppk tadsubcbromosoEnjilQ-rn*a*l iaUiiLi BwiBCl rMWB-tl BrWIlH I-laf rfrsvilvIFIMO.r*BMul BbHirKiLhnMolccil&r gtBCilc dt teflon實驗設計與樣本(1)Case-Control 對照組設計(2 )家庭成員組設計:父母-子女組(4 人、3 人組或多人); 初級數據分析1.數據量產出

3、:總堿基數量、Total Mapping Reads 、Uniquely Mapping Reads統(tǒng)計,測序深度分析。2 .一致性序列組裝:與參考基因組序列(Refere nee gen ome seque nee )的比對分析,禾 U用貝葉斯統(tǒng)計模型檢測出每個堿基位點的最大可能性基因型,并組裝出該個體基因組的一致序列。3. SNP 檢測及在基因組中的分布:提取全基因組中所有多態(tài)性位點,結合質量值、測序深 度、重復性等因素作進一步的過濾篩選,最終得到可信度高的SNP 數據集。并根據參考基因組信息對檢測到的變異進行注釋。4 .In Del 檢測及在基因組的分布:在進行 mappi ng 的過程

4、中,進行容 gap 的比對并檢測可 信的 shortIn Del。在檢測過程中,gap 的長度為 15 個堿基。對于每個 In Del 的檢測,至少 需要 3 個 Paired-End序列的支持。5. Structure Variation 檢測及在基因組中的分布:能夠檢測到的結構變異類型主要有:插入、缺失、復制、倒位、易位等。根據測序個體序列與參考基因組序列比對分析結果,檢測全基 因組水平的結構變異并對檢測到的變異進行注釋。C hroiniicwiial toloKPne.(.(.(.(.(.OLoi.olm(.(.(.(.(.(.bssvEb-i3Gswnic1X4如flCACAD4Ext

5、m 361776177Initofl 34 / 175.結構變異(Structure Variation )結構變異(Structure Variation SV)是基因組變異的一類主要來源,主要由大片段序列(一般 1kb)的拷貝數變異(copy number variatio n, CNV)以及非平衡倒位(un bala nee in version )事件構成。目前主要一些基因組研究探測識別的SV 大約有 20,000 個(DGV 數據庫)。在某些區(qū)域上,甚至 SV 形成的速率要大于 SNP 的速率,并與疾病臨床表型具有很大關聯。我們不僅可以通過測序方式識別公共的SV,也可以識別全新的 S

6、V。全新的 SV 的生成一般在 germ line 和突變機制方面都具有所報道。然而,當前對SV 的精確解析需要更好的算法實現。同時,我們也需要對SV 的形成機制要有更重要的認知,尤其是 SV 否起始于祖先基因組座位的插入或缺失,而不簡單的根據等位基因頻率或則與參考基因組序列比對判斷。SV 的功能性也結合群體遺傳學和進化生物學結合起來,我們綜合的考察SV 的形成機制類別。SV 形成機制分析,包括以下幾種可能存在的主要機制的識別發(fā)現:(A)同源性介導的直系同源序列區(qū)段重組(NAHR);(B )與 DNA 雙鏈斷裂修復或復制叉停頓修復相關的非同源重組(NHR);(C) 通過擴展和壓縮機制形成可變數

7、量的串聯重復序列(VNTR);(D) 轉座元件插入(一般主要是長/短間隔序列元件LINE/SINE 或者伴隨 TEI 相關事件 的兩者的組合)。結構變異探測和擴增子(Amplicon )的探測與識別分析:如下圖所示KWH汁日 E 陰5 / 176. 測序深度分析測序深度分析就是指根據基因組框內覆蓋度深度與期望覆蓋度深度進行關聯,并識別出 SV。我們也將采用不同算法識別原始測序數據中的缺失片段(deletion )和重復片段(duplication )。7. SV 探測識別結果的整合與FDR 推斷(可選步驟)(1). PCR 或者芯片方式驗證 SV(2).計算 FDR-錯誤發(fā)現率(配合驗證試驗由

8、客戶指定)篩選 SV 檢出結果用于 SV 的合并和后續(xù)分析:我們通過不同方式探測識別SV 的目的極大程度的檢出SV,并且降低其 FDR( =10% )。通過下屬篩選方法決定后續(xù)分析所使用到的 SV 集合。每種 SV 探測識別算法得到的SV 的 FDR 要求小于 10%,并將各自符合條件的 SV 合并;對于 FDR 大于 10%的算法計算識別的 SV 結果,如果有 PCR 和芯片平 臺驗證數據,同樣可以納入后續(xù)SV 分析中。最后,針對不同算法得到的SV,整合處理根據 breakpoint 斷點左右重合覆蓋度的置信區(qū)間來評定;8. 變異屬性分析(1) n eutral coalesce nt 分析

9、測序數據可以探測到低頻率的變異體(MAF=5% )。根據來自群體遺傳學理論(neutralcoalesce nt 理論)的期望值可以計算低頻度變異的分布。我們用不同等位基因頻率下每Mb變異數目與 n eutral coalesce nt選擇下的期望值比值,即每 Mb 基因組 win dows 內的 theta觀測值,來刻畫和反映自然純化選擇與種群(cancer cell-line 可以特定的認為是可以區(qū)分的種群)增長速率。該分布分別考察SNP (藍色線),In del (紅色線),具有基因型的大片6 / 17段缺失(黑色線),以及外顯子區(qū)域上的SNP (綠色線)在不同等位基因頻率區(qū)間上的the

10、ta情況(參見下圖)。Variant allele frequency(2).全新變異體(novel variant)的等位基因頻率和數量分布分析對象包括全新預測的SNP , in del , large deletio n,以及外顯子 SNP 在每個等位基因頻率類別下的數目比率(fraction )(參見下圖);全新預測是指預測分析結果與dbSNP (當前版本 129 )以及 deletion 數據庫 dbVar ( 2010 年 6 月份版本)和已經發(fā)表的有關 in dels 研究的基因組數據經過比較后識別確定的全新的SNP,in del 以及 deletion。dbSNP 包含SNP 和

11、 in dels; dbVAR 包含有 deletio n, duplicatio n, 以及 mobile eleme nt in sertio n。dbRIP 以及其他基因組學研究(JC Ventrer 以及 Watson 基因組,炎黃計劃亞洲人基因組)結果 提 供 的shortin dels禾口largedeleti on。7 / 170.0 0.2 04 0.6 0.8 1-0Variant allele frequency(3).變異體的大小分布以及新穎性分布計算 SNP , Deletion,以及 Insertion 大小分布;計算 SNP , Deletion,以及 Insert

12、ion 中屬 于全新預測結果的數目占已有各自參考數據庫數目的比例(相對于 dbSNP 數據庫;dbSNP包含 SNP 和 indels;dbVAR 包含有 deletion,duplication, 以及 mobile element insertion。 dbRIP 以及其他基因組學研究(JC Ventrer 以及 Watson 基因組,炎黃計劃亞洲人基因組)結果提供的 short in dels 和 large deletion )其中,可以給出 LINE,Alu 的特征位置。DeletionsSNPs Insartionsoc upoelr642o,aa0.0-100kbkb “Otvi

13、pObp 10 kh37G543?1O匸也AQgain仝孑8 / 17(4).結構變異 SV 的斷點聯結點(BreakPoint Junction) 分析9 / 17根據 SV 不同檢出結果經過一些列篩選步驟構建所有結構變異SV 的斷點聯結點數據庫,保留長度大于等于 50bp 的 SV ;分析斷點聯結點處具有 homology 或者 microhomology 的 SV ; 并將同一染色體,起始和終止位置坐標下的不同SV 進行去冗余處理。分析識別 SV 的斷點聯結點(Breakpoint):將 Breakpoint 按照可能形成的方式可以分類為 以下幾類:(a) 非等位基因同源重組型( non

14、-allelic homologous recombination-NAHR);(b) 非同源重組 (non homologous recomb in atio n-NHR) , 包括 non homologous en d-jo ining(NHEJ)和 fork stalling /template switching ( FoSTeS/MMBIR );(c)可變串聯重復(VNTR)(d)轉座插入元件(TEI )。SV 形成偏好性分析分析 SV 形成機制與斷裂點臨近區(qū)域序列的關系,包括染色質界標(端粒,中心粒),重組 高發(fā)熱點區(qū)域,重復序列以及GC含量,短DNA motif 和微同源區(qū)域(

15、microhomologyregion )。313V5IInsertiontraceFomwaiofimechanismstackedhts-tognvnBMAHRDBNHR(3 TEIVWTR飛10 / 179.突變率估計針對以家庭成員為單位的測序方案,我們主要探測de novo 的突變(DNM );通過采用不同的方法/算法,我們給出每個家庭一份推斷的DNM 報表;(1) 根據基因型推斷結果,分別對每人每堿基位置上的de novo 突變進行綜合度量;(2) 采用貝葉斯方法計算家庭組設計中DNM 的后驗概率10. SNP,SNV 功能分析與注釋(1).祖先等位基因的注釋+ NHRBackgro

16、und-p- Expectation0510152025Lenqfri ol microhomoloq (bp)Dtan tQ lelomeFiM1,206a.e Oe+O7 -C.Oa-i-OC-1 0fl+D8 rDtstsnce toeerrtncfnereeNAUR NHR TEIDe-tanw tn窮用eny txwdwn1,2+W-w-U NAH Fl NHR TEI.4.3 o ovlluQAA15co11 / 17通過將人類(NCBI36),黑猩猩(chimpanzee2.1 ),猩猩(PPYG2)以及恒河猴(MMUL1) 4 種基因組進行基因組比對,發(fā)現保守的序列區(qū)域,計算祖

17、先等位基因;以及 duplicatio n/deleti on 事件的進化分析。12 / 17(2).分析基因結構序列上不同區(qū)域的多樣性( Diversity )與分歧進化(diverge nee )根據基因型分析結果計算基因結構序列上的多樣性程度,即雜合度(heterozygosity);雜合度指標可以說明選擇效應的存在以及局部變異的結構分布特征模式。我們將考慮基因5 UTR上游 200bp,5 UTR,第一個外顯子,第一個內含子,中間外顯子,中間內含子,最末外顯子和內含子,以及 3 UTR 及其下游 200bp 區(qū)域左右考察的范圍(參見下圖 a)。分析編碼 轉錄本的起始/終止位置臨近區(qū)域的

18、多樣性和進化分歧度(參見下圖 b)。(3).疾病變異體探測將樣本測序中分析得到 SV 與 HGMD 疾病變異體數據進行比對,得到交叉記錄的錯義和無 義的 SNP ;通過將 HGMD 疾病關聯突變與 CUI (疾病概念分類標識數據庫) 比對獲得 HGMD 中所有 SV 的疾病表型,并獲得 HGMD 與測序數據分析得到的 SV 的疾病表型;并通過 Fisher 檢驗和 Bonferroni 多重假設檢驗校正計算樣本SV 所富集的疾病表型。Jd0 008-0.4-0.20.00.UU120.00060.00000.016-0.01213 / 17(5).變異的功能性分析與注釋(4).拷貝數變異 CN

19、V 所含基因的功能注釋將 CNV 是否覆蓋區(qū)段重復 SD 區(qū)域分類為 2 大類, 計算,顯著性在橫軸表示;各種顯著性功能在縱軸表示。每類 CNV 的所含基因的功能富集情況pHddwCAH/Liwi tswrbppmg 5Ca如屮沖呂站-LogJPrthjPi0E初PmiMHMftBM14 / 17(a). SNP, Indels 以及大的結構變異 SV 的功能注釋;(b).對包含翻譯起始注釋信息的轉錄本編碼區(qū)上的SNP 分類為:同義 SNP ,非同義 SNP 和無義SNP (引入終止子),干擾終止子的 SNP,以及干擾剪接位點的 SNP ;為了降低假 陽性,我們采用嚴格的篩選方式過濾來自 in

20、 dels 的錯誤;(c)對錯義編碼區(qū)突變的功能性分析:通過信息學分析算法評估相對于生殖系變異的體細 胞突變對蛋白質的結構和功能的影響效應。(6). SNV,SNP 與 miRNA 研究之間的關聯分析miRNA 是起重要的調控作用的小分子,我們將對miRNA 的 pri-mRNA ,pre-miRNA 以及miRNA 靶基因序列進行分析,識別潛在的 SNP 功能位點。據文獻研究提供證據表明Humanpre-miRNA 的二級結構中存在不同位置上的SNP,我們將通過熱力學穩(wěn)定性分析方法評估SNP 對 pre-miRNA 結構的影響;另外,我們也將對miRNA-Target 靶基因相互作用位點做分

21、析,評估對 SNP 對靶基因靶向性的影響。MIR*19MIR(7). SNV,SNP 與 GWAS 研究之間的關聯分析分析 GWAS 研究中得到的易感基因在基因組上不同坐標上的OR 值分布情況;將當前已知的 GWAS 研究成果與 SNP 進行比較;根據 LD 連鎖不平衡將 SNP 與易感基因的關系進 行深入討論;直接與間接關聯方法可以分別識別與表型相關的SNP,對于不易獲得(missing)和定位的 SNP,通過 LD 連鎖不平衡推斷疾病易感基因突變座位。15 / 17(8)生物學通路(代謝通路,信號通路)分析生物學通路(Biological pathway ),包括代謝通路和信號轉導通路是生

22、物功能的重要組成 部分,我們將各種形式的突變、變異,包括SNV 和 SNP,的對應基因放到生物學通路中進行綜合分析,考察功能性突變對pathway 的影響程度和影響的規(guī)律。通過GSEA (配合芯片表達譜數據),KS 檢驗,超幾何分布檢驗等方法對變異基因在某些pathway 的富集程度進行排序,識別發(fā)生功能改變的潛在通路。(9).蛋白質-蛋白質相互作用(PPI )網絡分析蛋白質相互作用也是生物分子功能增益和缺失的重要途徑,因此我們針對蛋白質相互作用網絡中的突變的蛋白及其收到影響的網絡節(jié)點蛋白進行系統(tǒng)分析,并對收到影響的網絡子結構進行功能注釋分析和聚類富分析。我們采用網絡分析算法對由于各種突變所受

23、到影響的子網 絡(subnetwork )進行功能富集度的分析;RujsphiorvijiiQO嚴汕仙ataGrowlbipnkgf創(chuàng) 516 / 17(10) .順式基因調控網絡模塊(CRM )分析(a) 啟動子序列分析包括動子區(qū)域上的 Motif 預測,并與已知轉錄因子數據庫 TRANSFAC 和 JASPAR 中的 TFBS 結合位點進行比對;啟動子區(qū)域上保守性分析,分析突變位置和保守性區(qū)域的關聯;(b) 計算全基因組保守性。確定TFBS 的保守性以及 mutation 位置的保守性;(11 )重排(arrangements )與突變(mutation )的全基因組統(tǒng)計(a).體細胞(s

24、omatic)和生殖系(germline )重排(arrangements )體細胞突變是相對于germ line 突變的一類需要重要分析的內容,我們針對Case-control設計的測序方案可以分別分析突變的情況,包括SNV , in del,以及 CNV ;如果僅在tumor/disease(Case 組)出現而不在 normal (對照組)出現的突變我們可以認為是somatic體細胞突變。 將 somatic mutation 與 dbSNP 數據庫比對可以發(fā)現潛在的全新的突變和有記 錄的突變位置。然后,將突變分別比對到基因區(qū)域和非基因區(qū)域?;騾^(qū)域具體包括:內含子區(qū),UTR,剪接位點區(qū)

25、和外顯子區(qū)。其中外顯子區(qū)分別統(tǒng)計:同義(synonymous ),缺失(deletion ),閱讀框移位 (frameshift ),插入(insertion ),錯義(missense ),無義(nonsense ) 以及非編碼蛋白外顯子 (non-protein coding exon)等不同類型。綜合不同方面分析的結果,17 / 17并按照突變分類給出各重排(arrangements)類型:SNV , CNV 的數目統(tǒng)計數據表(參見下圖)。對每一測序樣本分別進行標注,包括體細胞突變和生殖系突變。(b)全基因組全局重排分布特征分析主要將(a)染色體間和染色體內部的結構變異,( b)雜合體缺失(LOH )與等位基因不 平衡的狀況,(c)拷貝數變異(增益或者缺失)以及高可信度的SNV (在 1Mb 間隔區(qū)間統(tǒng)計)等不同情況配合染色體核型在環(huán)狀圖的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論