




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1目1目 —項(xiàng)目說 二實(shí)驗(yàn)流 三實(shí)驗(yàn)結(jié) 四分析流 五分析結(jié) Reads質(zhì)量評 ReadsGC含量評 Reads核酸組成偏評 Reads重復(fù)評 差異表達(dá)GO功能分 差異表達(dá)的KEGGpathway功能分 SNP和INDEL分 SNP和INDEL的檢 SNP和INDEL的注 2附錄1結(jié)果文件存放信 附錄2分析軟件說 3—項(xiàng)目說明3 32 S1*vsS2*;S1*vsS3*;S1*vsS4*;S2*vsS3*;S2*vsS4*;S3*vsS4*; Rat(RattusnorvegicusRnor Reads保留比例為99%以上;平均長度150bp。 reads比對到參考組上差異篩選針對所有樣本采用STAR軟件統(tǒng)計(jì)的原始序列計(jì)數(shù),針對有重復(fù)樣本的實(shí)驗(yàn)設(shè)計(jì)利用DESeq2軟件對不同樣本組之間篩選差異表達(dá)的已知,針對無重復(fù)樣本的實(shí)驗(yàn)設(shè)計(jì)利用DESeq軟件對不同樣本組之間篩選差異表達(dá)的已知。GO功能富集分 SNP和INDEL析
將全部/轉(zhuǎn)錄本作為背景列表,差異/轉(zhuǎn)錄本列表作為從背景列表中篩選出來的候選列表,利用Fisher精確檢驗(yàn)計(jì)算代表GO功能集在差異/轉(zhuǎn)錄本列表中是否顯著富積的PPBenjamini&Hochberg將全部/轉(zhuǎn)錄本作為背景列表,差異/轉(zhuǎn)錄本列表作為從背景列表中篩選出來的候選列表,利用Fisher精確檢驗(yàn)計(jì)算代表KEGG功能集在差異/轉(zhuǎn)錄本列表中是否顯著富積的PPBenjamini&Hochberg采用BWA軟件對預(yù)處理序列與物種的參考組序列進(jìn)行序列比對,針對比對結(jié)果文件采用picard-tools于PCRGTAK3分別進(jìn)行SNP和INDEL 差異表達(dá)
差異基因采用皮爾遜相關(guān)系數(shù)(Pearsoncorrelationcoefficient)且滿足R2>=0.9來預(yù)測共表達(dá)對從而構(gòu)建共表達(dá)網(wǎng)絡(luò)。4二實(shí)驗(yàn)流程45三實(shí)驗(yàn)結(jié)果56四分析流程67五分析結(jié)果7本實(shí)驗(yàn)采用illuminaHiseq平臺的雙端模式對多個(gè)樣本進(jìn)行高通量,根據(jù)illumina數(shù)據(jù)的低質(zhì)量分?jǐn)?shù)集中于末端的分布特點(diǎn),利用FastQC軟件對預(yù)處理數(shù)據(jù)進(jìn)行質(zhì)量控制分析,并用fastqc-mcf進(jìn)行去除adapter,低質(zhì)量的read等。1.1RawRawreadsRawAverageCleanCleanreadsCleanAverageCleanClean Raw Rawread Raw Clean 8CleanreadpairsCleanbases
Cleanreads Cleanbases 991.1.2圖 readGC圖 Reads核酸組成偏評估是基于Reads比對組結(jié)果進(jìn)行分析的,用于檢測核酸組可從NVC(Nucleotideversuscycle)分析中檢測到。該圖用于評估所有Reads在每處位置RNA,Reads的每個(gè)位置上的期望出現(xiàn)的情況是A%=C%=G%=T%=25%。Reads重復(fù)評估是基于Reads比對組結(jié)果進(jìn)行分析的。Reads重復(fù)評估采取兩種策ReadReads;第二是基于比對的方式,比對到相同組位置的Reads被認(rèn)定為重復(fù)Reads。對于剪切體Reads,起始位置比對一致且剪切方式一致的Reads也同樣被認(rèn)定為重復(fù)Reads。結(jié)果輸出文件路徑 針對每個(gè)樣本,利用HISAT軟件將預(yù)處理序列與物種的參考組序列進(jìn)行序列比對,舉例比如人的參考組版本是rn6,已知轉(zhuǎn)錄本在組位置信息文件版本是表 Mapped Reads Reads Non-Splice ReadsProper表表 Mapped Uniquely Readsmapto Readsmapto Splice ReadsProper 從Reads比對到參考 組結(jié)果統(tǒng)計(jì)每條的序列數(shù),統(tǒng)計(jì)每一條上序列 2.2.1組位置信息和已知轉(zhuǎn)錄本在組位置信息可以把序列分為以下2種方式:read1mappedto'+'strandindicatesparentalgeneon'+'strandread1mappedto'-'strandindicatesparentalgeneon'-'strandread2mappedto'+'strandindicatesparentalgeneon'-'strandread2mappedto'-'strandindicatesparentalgeneon'+'strand2)read1mappedto'+'strandindicatesparentalgeneon'-'strandread1mappedto'-'strandindicatesparentalgeneon'+'strandread2mappedto'+'strandindicatesparentalgeneon'+'strandread2mappedto'-'strandindicatesparentalgeneon'-'strandFractionofreadsfailedtodetermine:Fractionofreadsexinedby"1++,1--,2+-,2-+":0.5016Fractionofreadsexinedby"1+-,1-+,2++,2--":0.4949FractionofreadsfailedtodetermineAB的比例分別接近0.5,那么表明實(shí)驗(yàn)是RNAseq非鏈特異性;假如AB的比例其中1個(gè)接近于1,那么表明實(shí)驗(yàn)是RNAseq鏈特異性。結(jié)果表明該實(shí)驗(yàn)是RNAseq非鏈特異性。計(jì)算比對參考組的Reads在不同成分內(nèi)的覆蓋情況(例如CDSexon、5'UTRexon、3'UTRexon、Intron、Intergenicregions)。Reads比對分布評估統(tǒng)計(jì)每個(gè)區(qū)域比對到readsreads子和內(nèi)含子(兩個(gè)不同的轉(zhuǎn)錄本元件),則按一定的優(yōu)先順序只記錄一次該Reads在優(yōu)先CDSexonsUTRexonsIntronsIntergenicregions排序。例如,如果一個(gè)Reads比對到一個(gè)屬于CDSexon和intron區(qū)域,該Reads將被標(biāo)注為屬于CDSexons。表 TotalTagsTotalAssignedTags":序列切割(spliced)一次計(jì)數(shù)成2個(gè)(tags)切割2次計(jì)數(shù)3個(gè) ,所以"Totaltags">="TotalReads";"TotalAssignedTags":能正確分配到表格中10組分類的 分配到"TSS_up_1kb"也屬于"TSS_up_5kb"和"TSS_up_10kb","TotalAssignedTags"=CDS_Exons+5'UTR_Exons+3'UTR_Exons+Introns+TSS_up_10kb+和3UTR;3)TSS10kTES10K 評估方轉(zhuǎn)錄本覆蓋勻一性分布評估用于檢測轉(zhuǎn)錄本內(nèi)reads是否均一并且是否存5/偏差。評估方法是:分析過程中將所有已知轉(zhuǎn)錄本歸一化為長度100nt區(qū)域并計(jì)算覆蓋在每個(gè)子區(qū)域位置上的reads數(shù)目。最終提供描述體5/方向的reads圖 5101595%用于分別計(jì)圖 可變性剪切位點(diǎn)注釋評估分析過程是依據(jù)各樣本比對參考組與已知模型注釋信息,比較已知plceuncton(剪切位點(diǎn))獲得當(dāng)前轉(zhuǎn)錄組內(nèi)的新pceuncton(剪切位點(diǎn)數(shù)目與比例。每個(gè)探測到的pceuncton可被劃分為3個(gè)獨(dú)立類型:1)Annotat全部屬于已知模型注釋內(nèi)的剪切位點(diǎn)、即包括剪切位點(diǎn)的5端剪切位點(diǎn)和3端剪切位點(diǎn)。2)copltenov:全部屬于新的剪切位點(diǎn)。剪切位點(diǎn)兩端均不屬于已知模型中被注釋的部分。3)partanove:某部分(5SSor3SS)屬于已知模型注釋內(nèi)的剪切位點(diǎn),另外部分(3SSor5SS)屬于新的剪切位點(diǎn)的情形。38353721112531chrom
startpositionofjunction(coordinateis0endpositionofjunction(coordinateis1numberofspliceeventssupportingthis
5101595結(jié)果輸出文件路徑 /針對每個(gè)樣本,從Reads比對到參考組的結(jié)果利用cufflinks軟件基于已知轉(zhuǎn)錄本在組上位置信息文件作為指導(dǎo)組裝樣本中的轉(zhuǎn)錄本,分別將所有樣本的Cufflinks組裝好的轉(zhuǎn)錄本進(jìn)行再次組裝。組裝轉(zhuǎn)錄本在組位置信息GTF格式文件見表5.1.1。Cufflinks組裝原理如下:首先從比對結(jié)果識別不兼容的雙端片段(pairsof‘lefragments),這些片段之間可能是由于不同形式的mRNA剪切異構(gòu)體(splicedmRNAisoforms)形成的,與組匹配且相互兼容的片段之間采用連通的圖形式表示(overlapgraph),每個(gè)片段在連通圖內(nèi)采用一個(gè)節(jié)點(diǎn)(Node)表示,連通圖的邊線位于每對兼容的片段之間,黃色,藍(lán)色與紅色片段是來源于獨(dú)立的異構(gòu)體,但其他片段可能來源于3個(gè)異構(gòu)體的任意一個(gè),異構(gòu)體(Isoform)則可利用的片段拼接起來,其次,Cufflinks軟件采用DlorthsTheorem理論重構(gòu)可能出現(xiàn)的異構(gòu)體模型。最后,轉(zhuǎn)錄本的豐度,即表達(dá)量,被計(jì)算和評估,Cufflinks軟件是采用一種統(tǒng)計(jì)學(xué)模型計(jì)算觀測到的每個(gè)片段的概率是與其來源的轉(zhuǎn)錄本的表達(dá)量成線性函數(shù)關(guān)系,因?yàn)槊慷涡蛄械碾p端是被測圖3.1.1Cufflinks組裝原理圖示表3.1.1 GTF格式說明第4 第5 第6列 得分和數(shù)字,是注釋信息可能性的說明,”.”表示為空第7 序列的方向,+代表正鏈,-代表負(fù)鏈,.代表未第9 注釋信息,包括編號,轉(zhuǎn)錄本編號,表達(dá)量針對所有樣本組裝且再次組裝的Cufflinks組裝轉(zhuǎn)錄本,采用 pare與已知pare主要給出了5種類型的輸出文件,5種類型文件的詳細(xì)說明見http://cole-trapnell-lab..io pare/#transfrag-class-codes,現(xiàn)簡要給表 Potentiallynovelisoform(fragment):atleastonesplicejunctionissharedwitha Atransfragfallingentirelywithinareferenceintron(與已知內(nèi)含子鏈特異完全匹配的轉(zhuǎn)錄本) Genericexonicoverlapwithareferencetranscript(與已知多個(gè)外顯子復(fù)雜的轉(zhuǎn)錄本)Singleexontransfragoverlapareferenceexonandatleast10bpofareference indicatingapossiblepre-mRNAfragment.(與已知單個(gè)外顯 sAnsAnintronofthetransfragoverlapsareferenceintronontheoppositestrand(likelydueto transcrip)3.2.1表 tmap文 =AABR.1ENSRNOT00000087543ENSRNOG00000040316ENSRNOT00000062051=AABR.1ENSRNOT00000062051ENSRNOG00000023659ENSRNOT00000028992=Raet1dENSRNOT00000028992ENSRNOG00000042852ENSRNOT00000062030=LOC679782 000000000000000000000000000000 Thegene_nameattributeofthereferenceGTFrecordforthistranscript,present.Otherwisegene_idis Thetranscript_idattributeofthereferenceGTFrecordforthistranscript ThetypeofrelationshipbetweentheCufflinkstranscriptsincolumn4andthereferencetranscript(asdescribedintheClassCodessection TheCufflinksinternalgeneid TheCufflinksinternaltranscriptidTheexpressionofthistranscriptexpressedasafractionofthemajorisoform
thegene.Rangesfrom1to TheexpressionofthistranscriptexpressedinFPKM Thelowerlimitofthe95%FPKMconfidenceinterval Theupperlimitofthe95%FPKMconfidenceinterval Theestimatedaveragedepthofreadcoverageacrossthetranscript. Thelengthofthetranscript TheCufflinksIDofthegene’smajorisoform Thelengthofthetranscriptinref1 列說第2 第3 第4 第5 第6列 得分和數(shù)字,是注釋信息可能性的說明,”.”表示為空第7 序列的方向,+代表正鏈,-代表負(fù)鏈,.代表未第8 9列 將已知間隔區(qū)域內(nèi)的新轉(zhuǎn)錄本利用Blastx程序與Uniprot蛋白質(zhì)序列數(shù)據(jù)庫分別進(jìn)行比對,Evalue1E-3。比對結(jié)果中Uniprot蛋白質(zhì)靶標(biāo)序列的GO注釋信息對新轉(zhuǎn)錄本進(jìn)行GO功能分類注釋。采用KEGG的KAAS注釋工具對新轉(zhuǎn)錄本進(jìn)行KEGGPathway注釋。針對新轉(zhuǎn)錄本序列的正鏈和反向互補(bǔ)鏈,利用Trinity軟件中的transdecoder程序基于模型(log似然比,基于可編碼與非編碼的log似然比)原理預(yù)測轉(zhuǎn)錄本潛在蛋白intero數(shù)據(jù)庫成員包括Coils、Gene3D、Pfam、PRINTS、ProSitePatterns、ProSiteProfiles、SMART、SUPERFAMILY、TIGRFAM、ProDom、PIR數(shù)據(jù)庫。采用interproscan軟件可以對新蛋白質(zhì)序列通過序列比對或者HMM算法等搜索與interpro蛋白質(zhì)特征序列匹配預(yù)測蛋白質(zhì)sp|Q05481|ZNF91_HUMANZincfingerprotein91OS=HomosapiensGN=ZNF91PE=2SV=2sp|O43345|ZN208_HUMANZincfingerprotein208OS=HomosapiensGN=ZNF208PE=2SV=2sp|A8MXY4|ZNF99_HUMANZincfingerprotein99OS=HomosapiensGN=ZNF99PE=2SV=3sp|A6NN14|ZN729_HUMANZincfingerprotein729OS=HomosapiensGN=ZNF729PE=2SV=4sp|P17038|ZNF43_HUMANZincfingerprotein43OS=HomosapiensGN=ZNF43PE=2SV=4sp|Q8TF20|ZN721_HUMANZincfingerprotein721OS=HomosapiensGN=ZNF721PE=2SV=2sp|Q8NB50|ZFP62_HUMANZincfingerprotein62homologOS=HomosapiensGN=ZFP62PE=1SV=3sp|Q96IR2|ZN845_HUMANZincfingerprotein845OS=HomosapiensGN=ZNF845PE=2SV=3sp|Q6ZNA1|ZN836_HUMANZincfingerprotein836OS=HomosapiensGN=ZNF836PE=2SV=2sp|Q9HCG1|ZN160_HUMANZincfingerprotein160OS=HomosapiensGN=ZNF160PE=2SV=3 E E 查詢序列IDQueryLength SbjctLength QueryAlignment SbjctAlignment EValue cellATPmotoraxonemaldyneinciliumorflagellum-dependentcelldyneinnucleotide 序列ID GeneOntologyID GO名稱 GO類別3.3.3 NON-ALCOHOLICFATTYLIVERDISEASE(NAFLD)ALZHEIMER'SDISEASEPARKINSON'SDISEASEComplementandcoagulationcascades NOD-LIKERECEPTORSIGNALINGPATHWAYOthertypesofO-glycanbiosynthesis Metabolism/GlycanbiosynthesisandmetabolismCELLADHESIONMOLECULES(CAMS) 序列ID KEGGPathwayID KEGGPathway類別 KEGGPathway名1 .1 .1 .3 . .1 .1 . .1 . . 第1 第2 第3列 區(qū)域類型genemRNAexonCDSfive_primer_UTRthree_primer_UTR,其中CDS代表潛在蛋白質(zhì)序列區(qū)域,*_UTR代表潛在UTR序列區(qū)域第4 第5 第7 第9列 編碼蛋白序列區(qū)域編號,長度,方向(+/-),類型,其中分為internal:不包括起 子的不完整蛋白質(zhì)序列; 子的不完整蛋白質(zhì)序列;complete:包括起 3.3.5interproscanZincfingerC2H2ZincfingerC2H2ZincfingerC2H2ZincfingerC2H2ZincfingerC2H2ZincfingerC2H2Zincfinger,C2H2Zincfinger,C2H2ZincfingerC2H24Zincfinger,Zincfinger,Zincfinger,Zincfinger,Zincfinger,Zincfinger,Zincfinger,Zincfinger,-Zincfinger, 蛋白質(zhì)序列長度 Interpro數(shù)據(jù)庫的成員
Interproscan預(yù)測算法各個(gè)成員預(yù)測概率值 Interproscan編號 結(jié)果輸出文件路徑在每個(gè)樣本的./ 所有樣本的整理表達(dá)水平比較分析進(jìn)行采用表達(dá)量(normalize后畫BoxplotPCA。Boxplot圖是利用數(shù)據(jù)中的五個(gè)統(tǒng)計(jì)量:最小值、第一四分位數(shù)(25%)、中位數(shù)(50%)、計(jì)算(pearsoncorrelation)相關(guān)系數(shù)R2。樣本相關(guān)系數(shù)聚類圖是通過計(jì)算樣本間相關(guān)系數(shù)構(gòu)建的層級聚類圖。PCA圖是通過降維度的方式來看樣本間的相似程度,樣本用不同圖 已知轉(zhuǎn)錄本表達(dá)量豐度Boxplot4.1.24.1.3圖 樣本的PCA針對所有樣本采用HTSeq軟件統(tǒng)計(jì)的原始序列計(jì)數(shù),針對有重復(fù)樣本的實(shí)驗(yàn)設(shè)計(jì)利用DESeq軟件對不同樣本組之間篩選差異表達(dá)的已知,根據(jù)客戶要求,分別S1*vsS2*;S1*vsS3*;S1*vsS4*;S2*vsS3*;S2*vsS4*;S3*vsS4*六處我們選擇滿足大于等于Pvalue<=0.05差異表達(dá)范圍篩選兩組之間的差異。下面展示的是S1*vsS2*組的部分結(jié)果。表 .表 表 meannormalisedcountsfrom meannormalisedcountsfrom meannormalisedcounts,averagedoverallsamplesfrombothconditions thelogarithm(tobasis2)ofthefoldchange
pvalueforthestatisticalsignificanceofthispvalueadjustedformultipletestingwiththeBenjamini-Hochbergprocedure(seetheRfunctionp.adjust),whichcontrolsfalsediscoveryrate(FDR)圖 log2(foldchange),縱坐標(biāo)代表-log10(Pvaluefoldchange2差異,綠色橫線對應(yīng)Pvalue=0.05紅色是差異區(qū)域 圖 不同差異集venn圖 差異采用相關(guān)系數(shù)(Pearsoncorrelationcoefficient)且滿足R2>=0.9來預(yù)測共表達(dá)對從而構(gòu)建共表達(dá)網(wǎng)絡(luò)。由于比較多,以下只顯示部分,客戶可用cytoscape軟件將差異對整個(gè)網(wǎng)絡(luò)文件導(dǎo)入根據(jù)需要進(jìn)行網(wǎng)絡(luò)可視化。表 圖 差異表達(dá)GO功能分采用clusterProfiler軟件進(jìn)行GO功能分析,GO功能分析是針對全/轉(zhuǎn)錄本和差異/轉(zhuǎn)錄本進(jìn)行功能注釋和歸類,如果從全/轉(zhuǎn)錄本篩選到差異/轉(zhuǎn)錄本列表,可以對差異/轉(zhuǎn)錄本列表進(jìn)行GO功能富積分析,GO功能富積分析的方法:將全部/轉(zhuǎn)錄本作為背景列表,差異/轉(zhuǎn)錄本列表作為從背景列表中篩選出來的候選列表,利用FisherGO功能集在差異/轉(zhuǎn)錄本列表中是否顯著富積的PP值經(jīng)Benjamini&Hochberg多重檢驗(yàn)糾正。表 fattyacidmetabolicsmallmoleculealcoholmetabolicsterolmetaboliccarboxylicacidorganichydroxymetabolicorganicacidsmallmoleculesecondaryalcoholcholesterolmetabolicGOGO
注釋在這個(gè)GO的總 q , 圖 顯著富積GO柱狀圖 顯著富積GO樹狀 Pathway Pathway注釋在這個(gè)pathway的 列表中pathway PBenjamini&HochbergP 個(gè)的個(gè)的
q候 GOp-差異表達(dá)的KEGGpathway功能分KEGGpathway功能分析是針對全/轉(zhuǎn)錄本和差異/轉(zhuǎn)錄本進(jìn)行KEGG數(shù)據(jù)庫PathwayKEGGpathwayGO表 KEGGPathway功能富積分析結(jié)果文CarbonSteroidFc BcellreceptorsignalingGlyoxylateandBiosynthesisofunsaturatedfattyPPARsignalingPyruvate圖 顯著富積KEGGpathway柱狀圖5.2.2差異KEGG富集散點(diǎn)富集程度通過Richfactor、Qvalue和富集到此通的個(gè)數(shù)來衡量。其中Richfactor指差異表達(dá)的中位于該pathway條目的總數(shù)。Richfactor越大,表示富集的程度越大。qvalue是做過多重假設(shè)檢驗(yàn)校正之后的Pvalue,越接近于零,表示富集越顯著。圖 顯著富積KEGGpathway從STRING蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)庫()中查詢和該物種的蛋白質(zhì)相互作用網(wǎng)絡(luò),從而構(gòu)建差異表達(dá)蛋白質(zhì)相互作用網(wǎng)絡(luò),如果物種在STRING數(shù)據(jù)庫中不存在,那么近源物種的蛋白質(zhì)相互作用網(wǎng)絡(luò),采用Blastx或者Blastp將該物物種的蛋白質(zhì)相互作用網(wǎng)絡(luò),映射的方法是如果該物種A的近源物種同源列表中的1個(gè)或者多個(gè)與該物種B的近源物種同源列表中的1個(gè)或者多個(gè)存在蛋白質(zhì)相互作用關(guān)系,那么認(rèn)為A與B存在可能的蛋白質(zhì)相互作用,從而構(gòu)建差異蛋白質(zhì)相互作用網(wǎng)絡(luò)。由于差異數(shù)目較多,選取度排序前50個(gè)來繪制蛋白質(zhì)相互作用網(wǎng)絡(luò)圖??蛻艨捎胏ytoscape軟件將差異對整個(gè)網(wǎng)絡(luò)文件導(dǎo)入根據(jù)需要進(jìn)行網(wǎng)絡(luò)可 圖5.3.1差異蛋白質(zhì)相互作用網(wǎng)絡(luò)注:strings_network.txt是該物種差異蛋白質(zhì)相互作用網(wǎng)絡(luò)文件,第1列是A對應(yīng)的蛋白,第2列是B對應(yīng)的蛋白,第3列是A和B的相互作用得分,第4列是A對應(yīng)的entrezID,第5列是A對應(yīng)的symbol,第6列是B對應(yīng)的entrezID,第7列是Bsymbol結(jié)果輸出文件路徑./5_GSEASNP和INDELSNP和INDEL采用BWA軟件對預(yù)處理序列與物種的參考組序列進(jìn)行序列比對,針對比對結(jié)果文件采用picard-tools去掉由于PCR過程的重復(fù)序列,采用GTAK3分別進(jìn)行SNP和INDEL表 每個(gè)樣本的SNP或者INDEL分析結(jié)果VCF格式文1.TC1.TG1.TA1.GCS1.GAS1.TCS1 A1 AS1 GS1 AS1 AS variant FILTER分?jǐn)?shù)與覆蓋深度比值過濾,F(xiàn)SFilter表示參考堿基和變異堿基的序列鏈方向分布偏見過濾,ReadPosRankSumFilter3置分布偏見過濾,HaplotypeScoreFilter表示基于單倍型得分過濾
變異堿基相關(guān)信息,過濾指標(biāo)的數(shù)值.ABHom/ABHet代表變異的純合和雜合;ABHom:AlleleBalanceforhets(ref/(ref+alt));ABHom:AlleleBalanceforhoms(A/(A+O));AC(AlleleCount)表示該Allele的數(shù)目;AF(AlleleFrequency)表示AlleleAN(AlleleNumber)表示AlleleBaseQRankSum:Z-scorefromWilcoxonranksumtestofAltVs.Refbasequalities;DB:覆蓋堿基的深度;Dels:FractionofReadsContainingSpanningDeletions;FS:Phred-scaledp-valueusingFisher'sexacttesttodetectstrandbias;HaplotypeScore:Consistencyofthesitewithatmosttwosegregatinghaplotypes;MLEAC:umlikelihoodexpectation(MLE)fortheallelecounts;MLEAF:umlikelihoodexpectation(MLE)fortheallelefrequency;MQ:RMSMapQuality;MQ0:TotalMapQualityZeroReads;MQRankSumZ-scoreFromWilcoxonranksumtestofAltRefreadmapqualities;OND:Overallnon-diploidSample型型):AD(REFALT深(alleles/(alleles+non-alleles));Sample型型):AD(REFALT深度):GQ(代表型準(zhǔn)確度的質(zhì)量分?jǐn)?shù)):PL(0/0純合,0/1雜合突變,1/1純合突變這三種型的值用來判斷GQ,值越大錯(cuò)誤越大)FORMAT對應(yīng)的數(shù)值。如0/1:20,4:24:97:97,0,418:0/1表示雜合,其中REF20個(gè),ALT為4個(gè),深度為24個(gè),型的準(zhǔn)確性97,(0/0,0/1,and1/1的值為97,0,418由于0為錯(cuò)誤最小值所以表型為0/1)SNP和INDEL采用ANNOVAR對所有樣本的SNP和INDEL位點(diǎn)進(jìn)行 水平(gene-based),區(qū)域水平(region-based)和已知位點(diǎn)水平(filter-based)水平的注釋。 (ncRNA_exonic)、非編碼蛋白質(zhì)的外顯子區(qū)域(ncRNA_intronic)、間隔區(qū)域(intergenic)、可變性剪切位點(diǎn)(splicing)、UTR5區(qū)域(UTR5)、UTR3區(qū)域(UTR3)、上游區(qū)域(upstream)、下游區(qū)域(downstream)、編碼蛋白質(zhì)的外顯子區(qū)域內(nèi)是否改變氨基酸(nonsynonymous、synonymous、stopgain、stoploss、frameshiftinsertion、frameshiftdeletion)編碼;區(qū)域特征水平的注釋包括跨7個(gè)物種的保守性區(qū)域(phastConsElements7way)、組的大片段重復(fù)區(qū)域(genomicSuperDups)、染色體遺傳標(biāo)記(cytoBand)、CpG島、DGV(DatabaseofGenomicVariants)GWASfilter水平的注釋包括1000GenomesProjectannotationsdbSNPannotations、ESP(exomesequencingproject)annotations、CG(completegenomics)frequencyannotationspopulationfrequencyensembleannotationsCLINVARannotations、COSMICannotations。表 每個(gè)樣本的SNP或者INDEL注釋結(jié)果文件(其他信息見結(jié)果文件1TC1TG1TA1GC1GA1TC1TA1AG1CA1CA
定位到exonic,intergenic,intronic,UTR5,UTR3,splicing,ncRNA_intronicncRNA_splicingncRNA_UTR3ncRNA_UTR5GeneDetai ExonicFun
輸出格式為 ID:轉(zhuǎn)錄本ID:外顯子編號:變異位點(diǎn),例如OR4F5: :exon1:c.A421G:p.T141A,轉(zhuǎn)錄本 表 1 1 1 1 1 1 1 1 1 1 CC.................................................................. variant型,A/G表示A是ref堿基,G是alt堿基,.表示型缺結(jié)果輸出文件路徑 類型包括SKIP、XSKIP、XMSKIP、IR、XIR、MIR、XMIR、AE和XAE。表表
Alternative5frststartAlternative3lasexon(transcriptterminalsite)
單個(gè)外顯子跳躍,ON代表包含,OFF SkippedApproximate
單個(gè)外顯子跳躍,ON代表包含,
Multi-exonSKIP(MSKIP_ON,
多個(gè)外顯子跳躍,ON代表包含, Intronretention(IR_ON, 單個(gè)內(nèi)含子延伸,ON代表延伸, ApproximateIR(XIR_on, 單個(gè)內(nèi)含子延伸,ON代表延伸, Multi-IR(MIR_ON, Alternativeexonend(5,3,
多個(gè)內(nèi)含子延伸,ON代表延伸,代表不延伸,內(nèi)含子邊界模糊53 Approximate 53 111111 -0-0-0-0+0+0++
可變性剪切特征(forTSS,TTS-insideboundaryofalternativemarginalexon;for*SKIP_ON,thecoordinatesoftheskippedexon(s);forcoordinatesofallthe
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 供貨茶葉合同范本
- 包裝食品配送合同范例
- 合作擔(dān)保合同范例
- 合租合同范本
- 化肥合作協(xié)議合同范本
- 廠房使用合同范例
- 人工勞務(wù)合同范本封皮
- 個(gè)人汽車采購合同范本
- 企業(yè)業(yè)務(wù)合同范本
- 合同范本征求意見
- 【講座培訓(xùn)】《中小學(xué)教育懲戒規(guī)則(試行)》解讀課件
- 中科大《無機(jī)化學(xué)》課件1氣體、液體和溶液的性質(zhì)
- 復(fù)婚合同協(xié)議書模板
- U8-EAI二次開發(fā)說明
- 2006 年全國高校俄語專業(yè)四級水平測試試卷
- 浙江省勞動保障監(jiān)察員培訓(xùn)監(jiān)察執(zhí)法程序(林琳)
- 新人教版數(shù)學(xué)四年級下冊全冊表格式教案
- 閩教版(2020版)六年級下冊信息技術(shù)整冊教案
- 二手房買賣合同正式版空白
- 食品銷售經(jīng)營者食品安全管理制度(零售)
- 通信電源-概述ppt課件
評論
0/150
提交評論