外顯子捕獲結(jié)題報告_第1頁
外顯子捕獲結(jié)題報告_第2頁
外顯子捕獲結(jié)題報告_第3頁
外顯子捕獲結(jié)題報告_第4頁
外顯子捕獲結(jié)題報告_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、 外顯子組測序結(jié)題報告外顯子捕獲結(jié)題報告2010-11-2220內(nèi)容1 項目信息12 工作流程介紹22.1 Agilent液相捕獲平臺22.2 NimbleGen 液相捕獲平臺32.3 生物信息分析流程43 分析報告5結(jié)果53.1 標(biāo)準(zhǔn)生物信息分析53.1.1 數(shù)據(jù)產(chǎn)出統(tǒng)計53.1.2 目標(biāo)區(qū)域單堿基深度分布圖63.1.3外顯子捕獲測序的均一性73.1.4一致序列組裝和SNP檢測73.1.5 SNP注釋83.1.6插入/缺失(indels)檢測93.1.7插入/缺失(indels)注釋93.2個性化分析93.2.1氨基酸替換預(yù)測93.2.2群體SNP檢測和等位基因頻率估計123.2.3孟德爾遺

2、傳病分析133.2.4 NGS-GWAS 分析143.2.5正向選擇信號的檢測144 數(shù)據(jù)分析方法說明154.1信息分析軟件及常用參數(shù)介紹154.2參考數(shù)據(jù)庫164.3數(shù)據(jù)文件格式171 項目信息PROJECT NAMECONTRACT NUMBERSAMPLE INFORMATIONSpecies InformationGenome InformationAdditional InformationCUSTOMER INFORMATIONPIContact PersonCompany NameContact MethodsNameTel E-mailNameTelE-mailCONTACT

3、INFORMATION (BGI)Sales InformationNameTelE-mailNameTelE-mailCustomer ServiceNameTelE-mailNameTelE-mailPROJECT DIRECTOR APPROVALTHE RESULTS HAVE BEEN APPROVED AND CAN BE SUBMITTEDSignature: Date: 2 工作流程介紹采用Aglient SureSelect外顯子靶向序列富集系統(tǒng)和NimbleGen SeqCap EZ人全外顯子捕獲系統(tǒng)。這兩個系統(tǒng)都采用液相系統(tǒng)進行高特異性和高覆蓋率的外顯子區(qū)域捕獲。2.1

4、Agilent液相捕獲平臺圖2.1 Aglient外顯子捕獲和測序流程基本流程:首先將基因組DNA隨機打斷成150-200bp左右的片段,隨后在片段兩端分別連接上接頭制備雜交文庫。文庫經(jīng)純化后經(jīng)過LM-PCR的線性擴增與SureSelect Biotinylated RNA Library (BAITS)進行雜交富集,再經(jīng)過LM-PCR的線性擴增,文庫檢測合格后即可上機測序(Hiseq2000測序儀)。對每個捕獲文庫進行高通量測序并保證測序深度達到要求,原始圖像文件經(jīng)過Illumina basecalling Software 1.7進行堿基讀取,獲得讀長為90bp雙末端序列(reads)。2

5、.2 NimbleGen 液相捕獲平臺圖2.2 NimbleGen外顯子捕獲和測序流程基本流程:首先將基因組DNA隨機打斷成200-300bp左右的片段,隨后在片段兩端分別連接上接頭制備雜交文庫。文庫經(jīng)純化后經(jīng)過LM-PCR的線性擴增與Biotinylated DNA Library進行雜交富集,再經(jīng)過LM-PCR的線性擴增,文庫檢測合格后即可上機測序(Hiseq2000測序儀)。對每個捕獲文庫進行高通量測序并保證測序深度達到要求,原始圖像文件經(jīng)過Illumina basecalling Software 1.7進行堿基讀取,獲得讀長為90bp雙末端序列(reads)。2.3 生物信息分析流程

6、測序完成之后,下機數(shù)據(jù)為fastq文件格式,隨后對數(shù)據(jù)進行信息分析,分析流程如下:Reference genomeReads passing quality filterMapping with SOAP2AlignmentExome regionFlanking regionAnalysisSummary of effective data effective dataSNPs/InDels detection & annotation Personalized bioinformatics analysis effective data圖2.3 外顯子測序信息分析流程(1)SOAP

7、aligner是華大自主研發(fā)的比對軟件,用于將高質(zhì)量的原始reads比對到參考基因組上,詳細(xì)說明見信息分析軟件及參數(shù)介紹部分,或者登錄網(wǎng)站(2)計算得到的Coverage和Depth是指目標(biāo)區(qū)域的覆蓋度和測序深度,計算時所用的數(shù)據(jù)是所有比對到參考基因組的reads。3 分析報告結(jié)果3.1 標(biāo)準(zhǔn)生物信息分析 3.1.1 數(shù)據(jù)產(chǎn)出統(tǒng)計基本數(shù)據(jù)分析統(tǒng)計結(jié)果主要包括:測定的序列(reads)長度、reads數(shù)量、數(shù)據(jù)產(chǎn)量、reads序列與參考基因組序列比對結(jié)果、目標(biāo)外顯子區(qū)域測序深度及覆蓋度分析、目標(biāo)外顯子區(qū)域SNP檢測及注釋等。具體統(tǒng)計結(jié)果參照表3.1。表 3.1 統(tǒng)計量詳細(xì)說明統(tǒng)計量定義及計算方法

8、Target region (bp) 設(shè)計探針覆蓋的區(qū)域,作為目標(biāo)區(qū)域,用于捕獲外顯子Raw reads測序得到的原始reads個數(shù)Raw data yield (Mb)原始reads產(chǎn)量,即所有堿基個數(shù)(以Mb為單位)Reads mapped to genome比對到參考基因組上的reads個數(shù)Reads mapped to target region 比對到目標(biāo)區(qū)域上的reads個數(shù)Data mapped to target region (Mb)比對到目標(biāo)區(qū)域上的堿基個數(shù)(以Mb為單位)Mean depth of target region目標(biāo)區(qū)域的平均深度Coverage of tar

9、get region (%)目標(biāo)區(qū)域的覆蓋度Average read length (bp)平均read長度Rate of nucleotide mismatch (%)堿基錯配率Fraction of target covered >= 4x目標(biāo)區(qū)域深度>= 4x的堿基覆蓋度Fraction of target covered >=10x目標(biāo)區(qū)域深度>= 10x的堿基覆蓋度Capture specificity (%) 唯一比對到參考基因組的唯一比對到目標(biāo)區(qū)域的reads占raw data的比例reads中,唯一比對到目標(biāo)區(qū)域的reads所占的比例Reads mapp

10、ed to flanking region 比對到側(cè)翼區(qū)(每段目標(biāo)區(qū)域兩側(cè)擴展200bp)的reads數(shù)Mean depth of flanking region側(cè)翼區(qū)域的平均深度Coverage of flanking region側(cè)翼區(qū)域的覆蓋度Fraction of flanking region covered >= 4x 側(cè)翼區(qū)域深度>= 4x的堿基覆蓋度Fraction of flanking region covered >= 10x側(cè)翼區(qū)域深度>= 10x的堿基覆蓋度Fraction of unique mapped bases on or near t

11、arget唯一比對到目標(biāo)區(qū)域和側(cè)翼區(qū)域的堿基比例Duplication rate reads重復(fù)率Mean depth of chrXX染色體的平均深度Mean depth of chrYY染色體的平均深度Sample gender樣本性別Gender test result性別測試結(jié)果3.1.2 目標(biāo)區(qū)域單堿基深度分布圖圖 3.1 目標(biāo)區(qū)域的單堿基深度分布圖橫坐標(biāo)代表測序深度,縱坐標(biāo)代表目標(biāo)區(qū)域上對應(yīng)深度的堿基數(shù)占總堿基數(shù)的百分比。目標(biāo)區(qū)域的單堿基分布近似服從泊松分布。3.1.3外顯子捕獲測序的均一性圖 3.2 目標(biāo)區(qū)域的累積深度分布圖橫坐標(biāo)代表累積測序深度,縱坐標(biāo)代表目標(biāo)區(qū)域上大于或等于對

12、應(yīng)累積深度的堿基數(shù)占總堿基數(shù)的百分比。根據(jù)表中基本數(shù)據(jù)的統(tǒng)計量及單堿基深度分布圖和累積深度分布圖,除了可以得到通過外顯子捕獲的樣本基本信息外,還可以判斷捕獲的數(shù)據(jù)是否符合要求,即進行質(zhì)控。3.1.4一致序列組裝和SNP檢測對于soap比對之后的結(jié)果,我們采用SOAPsnp軟件進行一致序列組裝,得到每個位點的基因型,進而進行SNP檢測。生成文件如下:CNS文件(*.cns):包含位點的基因型等詳細(xì)信息。SNP文件(*.snp、*.snp.filter):其中*.snp包含*.cns中所有的可能SNP位點,即基因型與參考序列基因型不一致的位點;*.snp.filter包含最終的SNP集合,即對*.

13、snp中所有SNP位點按一定標(biāo)準(zhǔn)(如質(zhì)量值、深度等)進行過濾后所得到的高置信度的SNP結(jié)果。3.1.5 SNP注釋 對最終檢測出的SNP結(jié)果,即*.snp.filter中所有SNP進行注釋分類,每個SNP的詳細(xì)信息見gff文件,gff文件的詳細(xì)說明見數(shù)據(jù)文件格式說明部分。對SNP的統(tǒng)計信息見表3.2。表 3.2 SNP統(tǒng)計CategoriesSampleIDNumber of genomic positions for calling SNPs(1) 87,444,832Number of high-confidence genotypes (2)63,608,643Number of hig

14、h-confidence genotypes in target regions33,006,340Number of known dbSNP sites in target region192,415Coverage of known dbSNP sites (3)178963 (93.01%)Number of detected SNPs on targetNumber of detected SNPs near targetTotal number of SNPs 45,671Synonymous-coding8,036Missense6,817Nonsense51Readthrough

15、9Splice site (4)347Intron27,1515' UTRs(5)1,3813' UTRs1,548Intergenic331注:(1) Number of genomic positions for calling SNPs:指*.cns文件中的所有位點,即包括捕獲的目標(biāo)區(qū)域和前后200bp的側(cè)翼區(qū)域。(2) Number of high-confidence genotypes:*.cns文件中質(zhì)量值不低于20的堿基數(shù)(3) Number of high-confidence genotypes in target regions:*.cns文件中,目標(biāo)區(qū)域

16、內(nèi)質(zhì)量值不低于20的堿基數(shù)(4) Number of known dbSNP sites in target region:目標(biāo)區(qū)域內(nèi)所有在dbSNP數(shù)據(jù)庫中已知SNP位點數(shù)。(5) Coverage of known dbSNP sites:在目標(biāo)區(qū)域內(nèi),我們所定義的高可信度的位點(即*.cns文件中堿基質(zhì)量值不低于20的位點)所覆蓋到的已知SNP位點數(shù)(dbSNP)的比例。(6) Total number of SNPs:最終得到的高可信度(采用一定的過濾標(biāo)準(zhǔn)過濾之后的結(jié)果)的SNP位點數(shù)。(7) Splice site:外顯子與內(nèi)含子交界處4bp的內(nèi)含子SNP位點?(8) 5'

17、UTRs:指初始密碼子上游200bp;3' UTRs則指終止密碼子下游200bp;3.1.6插入/缺失(indels)檢測通過對獲得的測序reads重新組裝,可發(fā)現(xiàn)外顯子區(qū)的插入與缺失(InDels)。重新組裝是運用SOAPdenovo (Li et al. Genome Res, 2010)軟件,隨后,通過LASTZ軟件將組裝的一致性序列比對到參考基因組上。將比對結(jié)果輸入到axtBest (Schwartz et al. Genome Res, 2003),以將orthologous比對與paralogous比對分離。最后,檢測到比對的斷裂點(breakpoints),以及進行后續(xù)的

18、Indels的注釋。3.1.7插入/缺失(indels)注釋對檢測出的indels結(jié)果進行統(tǒng)計,舉例統(tǒng)計信息見下表:表 3.3 InDels統(tǒng)計SampleIDSH002SH003SH005SH029SH048SH050Total number of InDels640466436629579635Ins-coding (1)825755627074Del-coding (2)7955567874735' UTRs131241010133' UTRs232017221617Intergenic593311341533563513Total insertion3452402203

19、47299331Total deletion295226216282280304Heterozygous InDels442254226440383447Homozygous InDels198212210189196188(1) 指編碼區(qū)的插入(insertion)(2) 指編碼區(qū)的缺失(deletion)3.2個性化分析3.2.1氨基酸替換預(yù)測在遺傳學(xué)中,遺傳變異對表型的影響具有很重要的意義。引起蛋白序列中單氨基酸替換的遺傳變異類型為非同義的SNP (non-synonymous single nucleotide polymorphism, nsSNP)。非同義的SNP很可能影響蛋白質(zhì)的

20、功能,從而影響表型。我們可采用SIFT (Sorting Intolerant From Tolerant)軟件和PolyPhen (Polymorphism Phenotyping)軟件進行預(yù)測,預(yù)測單氨基酸替換對蛋白質(zhì)功能的影響。SIFT簡介SIFT (Sorting Intolerant From Toleran)是一個用于預(yù)測氨基酸替換對蛋白質(zhì)功能影響的軟件,它可以判斷出這個氨基酸置換在蛋白質(zhì)功能上是無害的(functionally neutral)的還是有害的(deleterious),研究者可以由這個結(jié)果推斷是否要對這種替換做進一步的研究。詳細(xì)信息見http:/sift.jcvi.

21、org/。SIFT預(yù)測結(jié)果舉例如下:表 3.4 SIFT預(yù)測結(jié)果舉例CoordinatesCodonsSubstitutionSNP TypePredictionScore1Median Info2Gene Name10,17125881,1,C/GAGG-AGcR1260SNonsynonymousDAMAGING *Warning! Low confidence.03.38CUBN10,22062710,1,C/TACC-AtCT835INonsynonymousTOLERATED0.063.4MLLT1011,116138821,1,G/ACGT-tGTR232CNonsynonymou

22、sDAMAGING0.023.05BUD131,111830738,1,G/AACC-ACtT147TSynonymousN/AN/AN/AADORA315,29004656,1,C/TCCG-CtGP736LNonsynonymousDAMAGING0.013.05MTMR1519,12624007,1,G/ACCG-CtGP669LNonsynonymousTOLERATED0.753.02MAN2B119,15137764,1,C/TCGG-CaGR1834QNonsynonymousTOLERATED13.03NOTCH32,10103771,1,G/ACGG-CaGR29QNonsy

23、nonymousDAMAGING0.033.03KLF112,31426431,1,C/TGCA-aCAA932TNonsynonymousDAMAGING03.05XDH3,128822344,1,G/AATG-ATaM793INonsynonymousTOLERATED0.133.05MCM24,69830873,1,T/AAGA-AGtR428SNonsynonymousDAMAGING0.012.95UGT2A39,138364025,1,G/AGTG-aTGV459MNonsynonymousTOLERATED0.153.36GPSM1X,48432692,1,C/TCCT-tCTP

24、460SNonsynonymousTOLERATED0.244.32WAS7,102503456,1,G/T-NANANot scoredNANA注:1 Coordinates:突變發(fā)生的染色體編號及坐標(biāo)位置2 Codons:密碼子的變化情況3 Substitution:氨基酸的替換信息4 SNP Type:SNP的類型5 Prediction:預(yù)測結(jié)果(damaging/tolerated)6 Score:SIFT對于一個氨基酸置換的預(yù)測結(jié)果被計算為一個標(biāo)準(zhǔn)化的分值,變化范圍從0到1,當(dāng)這個值大于0.05的時候表示這個突變是可以容忍的,即對蛋白質(zhì)功能沒有影響或影響很??;小于等于0.05的時候

25、則說明這個突變是有害的,即對蛋白質(zhì)功能有較大影響。7 Median Info:中值信息。用來衡量用于比對的蛋白質(zhì)序列的多樣性情況,變化范圍從0到4.32,理論上應(yīng)該在2.75到3.5之間。如果這個值大于3.25,系統(tǒng)將會發(fā)出警告信息,因為這說明本次預(yù)測分析是基于一系列緊密聯(lián)系的蛋白質(zhì)序列的,結(jié)果可信度可能不高。8 Gene Name:發(fā)生替換所在的基因名稱PolyPhen簡介PolyPhen(Polymorphism Phenotyping)也是一種預(yù)測氨基酸置換對蛋白質(zhì)結(jié)構(gòu)和功能影響的工具。詳細(xì)信息見/pph/PolyPhen預(yù)測結(jié)

26、果主要包括三部分,Query、Prediction、Details。Query部分包含查詢信息,與輸入文件類似。Prediction部分顯示了預(yù)測的結(jié)果。Details部分顯示了PolyPhen預(yù)測的詳細(xì)信息,包括所有的數(shù)據(jù)信息。我們著重關(guān)注的為預(yù)測結(jié)果,如“This variant is predicted to be probably damaging”。詳細(xì)說明見:/pph/pph_help_text.html#OutputQueryAccession舉例如下:表 3.5 PolyPhen預(yù)測結(jié)果舉例QueryAcc numbe

27、rPositionAA1AA2Description 21040341176CY.1|hemochromatosis protein isoform 3 precursor, hereditary haemochromatosis proteinHomo sapiensPredictionThis variant is predicted to be probably damagingPredictionAvailable dataPrediction basisSubstitution effectPrediction data(1) Probably damagingFT alignmen

28、talignmentN/APSIC score difference:2.943Details PSIC PROFILE SCORES FOR TWO AMINO ACID VARIANTSScore1(2)Score2(3)|Score1-Score2|Observations(4)Diagnostics(5)Multiple alignment around substitution position+2.415-0.5282.9439precomputedSecquences: Flanks:MAPPING OF THE SUBSTITUTION SITE TO KNOWN PROTEI

29、N 3D STRUCTURESDatabaseInitial number of structuresNumber of structurePQS70903.2.2群體SNP檢測和等位基因頻率估計在群體分析中,不同于單個樣本的分析研究,它不考慮單個個體基因型的可信度,而是在群體的層面上得到位點的基因型信息,通常可以有較低的測序深度。群體分析時,對于每一個位點,通過貝葉斯算法估計每個可能基因型的概率、為SNP的概率以及群體等位基因頻率。由于較大的數(shù)據(jù)量,這樣與單個樣本的SNP檢測相比能夠更有力地檢測變異信息,其結(jié)果更具有說服力,并且能發(fā)現(xiàn)很多低頻罕見變異。這種方法成功應(yīng)用于50個藏族人(Yi e

30、t al. Science, 2010)和200個丹麥人 (Li et al. Nature Genetics, 2010)的外顯子分析。分析結(jié)果舉例如下:圖3.3 群體外顯子分析的可變位點頻譜(SFS)圖3.3為群體分析中,外顯子區(qū)域的可變等位基因的頻譜。橫坐標(biāo)表示可變等位基因頻率01,縱坐標(biāo)表示對應(yīng)頻率的SNP數(shù)目,圖中紅色表示新的SNP數(shù)目,藍(lán)色表示數(shù)據(jù)庫(dbSNP v129)中已知的SNP數(shù)目,由圖可以看出,在低頻范圍內(nèi),可以找出更多的新的SNP,這些低頻SNP很可能與罕見疾病變異密切相關(guān)。3.2.3孟德爾遺傳病分析 孟德爾遺傳病通常指單基因遺傳病,簡稱單基因?。╩onogenic

31、disease/single gene disorder),是指單一基因突變引起的疾病,符合孟德爾遺傳方式,所以也稱為孟德爾式遺傳病。對變異結(jié)果進行注釋后,我們致力于尋找候選基因,從而進一步確定致病基因。篩選候選基因的方法如下:首先,將每個病例中已知的SNPs進行過濾,采用的篩選數(shù)據(jù)庫主要包括dbSNP129、千人基因組數(shù)據(jù)庫、hapmap外顯子數(shù)據(jù)庫,以及正常樣本的數(shù)據(jù)。其次,假定候選變異都是非同義突變或者在剪接位點,因此我們可以去除其它不改變蛋白產(chǎn)物的變異。最后,我們得到在所有或大部分病例中存在的變異。這樣就大大減少了候選變異的數(shù)量,縮小了尋找范圍。改為:篩選候選基因的方法如下:首先,過濾

32、每個病例中已知的SNPs,篩選用到的數(shù)據(jù)庫包括dbSNP129,千人基因組數(shù)據(jù)庫,Hapmap外顯子數(shù)據(jù)庫以及正常對照的SNP數(shù)據(jù)。其次,假定疾病是由非同義突變或者剪接位點突變導(dǎo)致,則去除其它不改變蛋白產(chǎn)物的變異。最后,我們篩選出在所有或大部分病例中存在的變異,以減少候選變異的數(shù)量,從而縮小尋找范圍。舉例如下:表 3.6 不同范疇內(nèi)的SNPs統(tǒng)計FilterSample ASample BSample CSample DSample (A+B)Sample (A+B+C)Sample (A+B+C+D)2 affected(Whole/Locus)(Whole/Locus)(Whole/Loc

33、us)(Whole/Locus)(Whole/Locus)(Whole/Locus)(Whole/Locus)(Whole/Locus)NS/SS/Indel5796/345649/405780/405842/373964/263099/262443/203736-3964/26-30Not in dbSNP 129869/6734/9931/8891/8288/3134/368/2207-288/3-5Not in dbSNP 129, nor in eight HapMap exomes616/6520/6674/7661/7155/343/315/287-155/3-4Not in db

34、SNP 129, eight HapMap exomes, nor in dbSNP 1000 genomes309/4262/3341/6384/575/11-May1-Jan48-101/1Predicted to be damaging211/1203/1214/1212/148/13/11/136-52/1注:Whole/Locus:Whole表示整個外顯子區(qū)域,Locus表示特定的區(qū)域;NS/SS/Indel:表示非同義突變位點、剪接位點以及Indel的個數(shù)總和;2 affected:表示在兩兩不同組合病人中所檢測到的相應(yīng)信息的數(shù)量范圍。3.2.4 NGS-GWAS 分析基于芯片的G

35、WAS分析不能檢測出稀有突變(即次等位基因頻率MAF小于0.05的突變),外顯子測序技術(shù)能夠獲得MAF0.02的等位基因頻譜 (200 Danish exome, Li et al. Nature Genetics, 2010),這些有助于我們進行基于新一代測序技術(shù)的GWAS分析。3此處描述不清楚.2.5正向選擇信號的檢測通常更多的研究指向正向選擇的基因,我們可通過大量的數(shù)據(jù)集對每一個基因進行檢測,看其固定替換的比例是否顯著偏移全基因組范圍的期望,通常采用HKA test (Hudson-Kreitman-Aguadé)檢驗方法進行檢驗。最近一項研究表明這種檢驗方法在檢測正向選擇上具

36、有很大的效力(Zhai et al. Mol Biol Evol, 2009)。采用之前的研究結(jié)果進行舉例說明,顯示結(jié)果如下:表 3.7 HKA檢驗Gene SymbolDescriptionFPF/PScoreKIR3DP1killer-cell Ig-like receptor82108.20>7LILRA1leukocyte immunoglobulin-like receptor,6078.577TPTEtransmembrane phosphatase with tensin homology86165.387KIR2DL1killer cell immunoglobulin-

37、like receptor, two40313.336.05VPS13Dvacuolar protein sorting 13D isoform 13949.755.19FLGfilaggrin99283.545.03CES2carboxylesterase 2 isoform 12204.95TPRX1tetra-peptide repeat homeobox2204.95HMCN1hemicentin 162154.134.12TRPM2transient receptor potential cation channel,3248.003.92KIR2DL3killer cell imm

38、unoglobulin-like receptor, two3456.803.76KIAA1199KIAA119921121.003.75SORBS2sorbin and SH3 domain containing 2 isoform 224212.003.62TTC26tetratricopeptide repeat domain 26 isoform 11603.60SULT1C3sulfotransferase family, cytosolic, 1C, member3356.603.59HERC2hect domain and RLD 24394.783.50SGTAsmall gl

39、utamine-rich tetratricopeptide1503.37DYNC1H1cytoplasmic dynein 1 heavy chain 147114.273.37CBWD2COBW domain-containing protein 219119.003.33CSHL1chorionic somatomammotropin hormone-like 122211.003.24注:P:觀察到的多態(tài)替換數(shù);F:觀察到的固定替換數(shù);F/P:固定替換和多態(tài)替換的比值;Score:HKA檢驗的得分。4 數(shù)據(jù)分析方法說明4.1信息分析軟件及常用參數(shù)介紹1. SOAPaligner(soa

40、p2.21):用于將reads與參考序列進行比對參數(shù)設(shè)置如下:-a -b -D -o -u -p -2 -m -x -s 40 -l 35 -v 3-a查詢文件,包含single-end比對的所有reads文件或者包含pair-end比對的其中一端的所有reads的文件-b查詢文件,包含pair-end比對的另一端的reads-D參考序列索引的前綴*.index-o比對結(jié)果的輸出文件-u包含沒有比對上的reads輸出文件-p使用的線程數(shù) -2包含

41、pair-end比對中只有一端比對上的所有reads的文件-mpair-end比對最小插入片段長度-xpair-end比對最大插入片段長度-s 最小的比對長度,我們設(shè)置的參數(shù)一般為40bp-l 對于3' 端具有較高的錯誤率而無法比對整個長度的長reads,則先比對5'端設(shè)置的長度序列作為種子序列,默認(rèn)值為Reads<256bp,用reads全長表示,Reads256bp,則用256表示reads的全長。256,表示使用reads的全長。?-v一條reads中允許的最大錯配數(shù)2. SOAPsnp:主要用于一致序列的組裝參數(shù)設(shè)置如下: -i -d

42、 -o -r 0.0005 -e 0.001 -u -L 150 -T -s -2 -i將排序后的SOAP比對結(jié)果作為輸入文件-d FASTA格式的DNA參考序列-o 輸出文件(CNS文件)-r 新的純合SNP的先驗概率,默認(rèn)值為0.0005 -e 新的雜合SNP的先驗概率,默認(rèn)值為0.001 -u 秩和檢驗,檢驗可能雜合子的兩個等位基因是否具有相同的測序質(zhì)量-L最大read長度-T 進行一致序列

43、組裝的目標(biāo)區(qū)域-s 已知SNP的信息文件-2通過已知的SNP信息對SNP進行修正關(guān)于這兩個軟件的詳細(xì)信息,請登錄網(wǎng)站4.2參考數(shù)據(jù)庫1.dbSNP數(shù)據(jù)庫 /snp/organisms/human_96062.Human reference genome(人類參考基因組):UCSC (NCBI build36.3)/goldenPath/hg18/bigZips/注:我們分析中所用的染色體坐標(biāo)參照UCSC Santa Cruz hg18, build 36.33.Target regio

44、ns(目標(biāo)區(qū)域):使用的外顯子芯片探針?biāo)采w到的區(qū)域4. CCDS 數(shù)據(jù)庫/pub/CCDS/current_human/5. RefSeq gene數(shù)據(jù)庫6. Ensembl數(shù)據(jù)庫 /4.3數(shù)據(jù)文件格式1. *.fq 12.gz fastq文件 A201GMABXX:5:1:14057:2058#GATCAG/1GCTATCCAGTGAGTCCTGCAAGACTTCAGGCTCTACTACCTCCAGCAG+Feffffafffecffffffffeffffceefffcddffeecfcaddddd

45、d格式說明:每一條reads信息由四行組成,第一行以''開頭,其后接著序列的標(biāo)志信息;第二行為序列的堿基組成;第三行以'+'開頭,其后可接與第一行相同的序列標(biāo)志信息(可選);第四行為第二行序列堿基的對應(yīng)質(zhì)量值,為一一對應(yīng)關(guān)系,以ASCII碼表示。2. *.soap.gzSOAP alignment of HiSeq 2000 reads (含有比對上參考序列的所有reads信息)234 GCTATCCAGTGAGTCCTGCAAGACTTCAGGCTCTACTACCTCCAGCAGfeffffafffecffffffffeffffceefffcddffeecfc

46、adddddd1a48+chr11466536921T->0G290M 0T89格式說明(共13列):1. Read 的ID號2. Read序列的堿基組成。當(dāng)?shù)?列為- 時(即比對到負(fù)鏈),此序列為原序列的反向互補序列。3. Read序列的質(zhì)量值,和第二列的序列成一一對應(yīng)關(guān)系。計算方法為:質(zhì)量值 = 相應(yīng)的ASCII 值 - 64 ,質(zhì)量值范圍一般為040。4. best hit數(shù)。沒有hit的reads被忽略掉。5. Read來源于哪個文件(a/b),對于pair-end,包含-a b 兩個參數(shù),即含有兩個文件,對于single-end,此列僅為"a"。6. Rea

47、d長度。7. 比對參考序列的正負(fù)鏈。+為正鏈,-為負(fù)鏈。8. 染色體ID號9. Read的起始堿基在參考序列上的坐標(biāo)10. Read的堿基錯配數(shù)11. Read的錯配信息例:T->0G2 T為參考序列上的堿基類型,G為reads上的堿基類型,0為其在reads上的位置,2為對應(yīng)質(zhì)量值。12. 匹配上的堿基數(shù)13. reads的錯配情況 例:6T1A64 T和A為錯配的堿基,即在參考序列上對應(yīng)位置是T和A,但測得的reads上(第七和第九個位置)和參考序列不一致。詳細(xì)信息請登錄:3. *.cns.gz CNS文件,由SOAPsnp軟件生成,包含識別出的外顯子區(qū)域中一致序列基因型。chrY

48、140161 G G 1 G 0 0 0 T 0 0 0 0 1.00000 255.000 0格式說明:1. 染色體ID號2. 染色體上的坐標(biāo)號3. 參考序列上的基因型 (hg18, Mar. 2006)4. 樣本的一致序列二倍體基因型,.這里的基因型都是與參考序列的正鏈相關(guān)。5. 一致基因型的質(zhì)量得分6. 最佳堿基,即根據(jù)貝葉斯先驗概率,樣本在此位置最可能的等位基因型。7. 最佳堿基的質(zhì)量得分8. 唯一匹配上的最佳堿基數(shù)9. 所有匹配上的最佳堿基數(shù)10. 次佳堿基,即根據(jù)貝葉斯先驗概率,樣本在此位置次可能的等位基因型。11. 次佳堿基的質(zhì)量得分12. 唯一匹配上的次佳堿基數(shù)13. 所有匹配

49、上的次佳堿基數(shù)14. 此位點的測序深度15. 秩和檢驗的P值16. 附近區(qū)域的平均拷貝數(shù)17. 此位點是否為dbSNP4. *.snp SNP文件, 包含樣本中所有可能的SNP位點,即一致序列基因型與參考序列基因型不同的位點。chrY 2782506 A G 1 A 0 0 0 T 0 0 0 0 1.00000 255.000 1 3782506格式說明:在CNS文件中增加一列,前17列格式說明與CNS文件相同。第18列指這個SNP位點與其最相鄰的SNP位點的距離,即相隔堿基數(shù),5. *.snp.filter SNP文件,在*.snp基礎(chǔ)上按一定標(biāo)準(zhǔn)過濾之后所得到的最終SNP集合。格式說明:與*.snp說明一致。此文件中產(chǎn)生的SNP均為高置信度的SNP。過濾標(biāo)準(zhǔn):1. 位點質(zhì)量值

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論