RNASeq測序數(shù)據(jù)分析服務(wù)流程試運行精_第1頁
RNASeq測序數(shù)據(jù)分析服務(wù)流程試運行精_第2頁
RNASeq測序數(shù)據(jù)分析服務(wù)流程試運行精_第3頁
RNASeq測序數(shù)據(jù)分析服務(wù)流程試運行精_第4頁
RNASeq測序數(shù)據(jù)分析服務(wù)流程試運行精_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

北京大學(xué)生科院/CLS生物信息平臺RNA-Seq測序數(shù)據(jù)分析服務(wù)流程(試運行.3平臺聯(lián)系人:李程(文檔撰寫:張超TableofContents1.測序質(zhì)量評定(31.1測序數(shù)據(jù)過濾(31.2質(zhì)量值分布(31.3GC含量分布(42.參考序列比對(43.基因體現(xiàn)水平(63.1基因體現(xiàn)水平定量(63.2基因體現(xiàn)水平分步(63.3生物學(xué)重復(fù)有關(guān)性分析(63.4樣本間層次聚類及PCA分析(74.差別基因分析(74.1基因體現(xiàn)原則化(74.2差別基因列表(84.3差別基因可視化(84.4差別基因聚類(95.差別體現(xiàn)基因功效分析(105.1GO富集分析(105.2信號通路富集分析(105.3癌基因功效注釋(116.基因構(gòu)造差別分析(116.1可變剪切分析(117.SNP分析(127.1SNP檢測(127.2SNP篩選(127.3GO/KEGG富集(121.測序質(zhì)量評定通過測序的數(shù)據(jù)進(jìn)行進(jìn)行質(zhì)控,確保數(shù)據(jù)質(zhì)量適合下游分析。這里我們使用fastqc和RNA-SeQC來對數(shù)據(jù)進(jìn)行質(zhì)量評定。1.1測序數(shù)據(jù)過濾測序得到的原始下機(jī)數(shù)據(jù)往往有許多問題,不能直接使用,普通會通過下列過濾,盡量確保測序數(shù)據(jù)的質(zhì)量。a.去除帶測序接頭的測序序列(reads;b.去除低質(zhì)量的reads1.2質(zhì)量值分布按照現(xiàn)有的測序技術(shù)(illumina平臺單堿基的錯誤率應(yīng)控制在1%下列,即質(zhì)量值在20以上。橫坐標(biāo)為reads的堿基位置,縱坐標(biāo)為單堿基質(zhì)量值質(zhì)量值與錯誤率的關(guān)系:Q=-10log10(e;其中Qphred為測序堿基質(zhì)量值,e為測phred序錯誤率。1.3GC含量分布對于RNA測序,鑒于序列通過超聲隨機(jī)打斷,因此理論上每個測序循環(huán)上的C、G及A、T含量應(yīng)分布相等,并且CG-content對于每個物種應(yīng)大致相似。橫坐標(biāo)為reads的堿基位置,縱坐標(biāo)為多個堿基的不同比例2.參考序列比對對于通過質(zhì)量控制的數(shù)據(jù),能夠進(jìn)行后續(xù)分析。首先需要將cleanreads比對到參考基因組上。由于測序時reads是隨機(jī)的,只有這些reads的堿基信息和質(zhì)量信息,沒有其在基因組上的位置信息,比對這一步就是給全部reads一種在基因組上位置的信息。在RNA測序中,其實測的是cDNA的序列,由于內(nèi)含子的存在,因此會較常出現(xiàn)一條read跨內(nèi)含子的狀況,tophat2能夠較好的解決這種狀況,因此我們選用tophat2來做比對。比對率間接反映了測序的質(zhì)量和建庫的質(zhì)量,若比對率低,很可能建庫時混入了其它物種的序列,造成無法比對到研究的物種參考基因組上。reads比對到基因上的位置統(tǒng)計:SampleIntragenicRateExonicRateIntronicRateIntergenicRateSplitReadsExpressionProfilingEfficiencyTranscriptsDetectedGenesDetected1BJ0.8850.7380.1470.1149,910,0100.73832,79615,434(1Sample:樣本名(2IntragenicRate:比對到基因內(nèi)的reads比例(3ExonicRate:比對到外顯子的reads比例(4IntronicRate:比對到內(nèi)含子的reads比例(5IntergenicRate:比對到基因間區(qū)的reads比例(6SplitReads:比對到兩外顯子交接處的reads數(shù)(7ExpressionProfilingEfficiency:比對到外顯子上的reads占總體的比例(8TranscriptsDetected:比對上reads數(shù)不不大于5的轉(zhuǎn)錄本數(shù)(9GenesDetected:比對上reads數(shù)不不大于5的基因數(shù)3.基因體現(xiàn)水平3.1基因體現(xiàn)水平定量在RNA-seq分析中,我們能夠通過定位到基因組區(qū)域或基因外顯子區(qū)的reads的計數(shù)來預(yù)計基因的體現(xiàn)水平。Reads計數(shù)除了與基因的真實體現(xiàn)水平成正比外,還與基因的長度和測序深度成正有關(guān)。為了使不同基因、不同實驗間預(yù)計的基因體現(xiàn)水平含有可比性,人們引入了RPKM的概念,RPKM(ReadsPerKilobasesperMillionreads是每百萬reads中來自某一基因每千堿基長度的reads數(shù)目。RPKM同時考慮了測序深度和基因長度對reads計數(shù)的影響,是現(xiàn)在最為慣用的基因體現(xiàn)水平估算辦法(Mortazavietal.,。Gene_IDSample1Sample2Sample3Sample4Sample5Sample6ENSG49.3246.9448.9122.5120.6022.95ENSG35.9234.5833.6932.8035.6532.73ENSG1.340.941.192.062.132.26ENSG1.191.201.223.003.333.06(1Gene_ID:Ensembl基因ID(2Othercolumns:各樣本中該基因的體現(xiàn)水平(RPKM3.2基因體現(xiàn)水平分步每個樣本全部基因的RPKM盒形圖能夠展示出不同實驗條件下基因體現(xiàn)水平的分布狀況。圖3.2.1不同條件下的基因體現(xiàn)水平分布圖3.3生物學(xué)重復(fù)有關(guān)性分析生物學(xué)重復(fù)重要有兩個用途:一種是證明所涉及的生物學(xué)實驗可重復(fù)性強(qiáng)、差別小,另一種用于預(yù)計生物學(xué)變異進(jìn)行差別基因檢測。樣品間基因體現(xiàn)水平有關(guān)性是檢查實驗可靠性和樣本選擇與否合理的重要指標(biāo)。有關(guān)系數(shù)越靠近1,表明樣品之間體現(xiàn)模式的相似度越高。圖3.3.1生物學(xué)重復(fù)散點圖3.4樣本間層次聚類及PCA分析當(dāng)樣本數(shù)目較多時,能夠運用基因的體現(xiàn)量進(jìn)行樣本間聚類分析及PCA分析,對樣本間關(guān)系進(jìn)行探究或者對實驗設(shè)計進(jìn)行驗證。樣本聚類距離或者PCA距離越近,闡明樣本越相似。4.差別基因分析4.1基因體現(xiàn)原則化對于有生物學(xué)重復(fù)的樣品,我們采用DESeq2提出的scalingfactor的辦法對原始的readcount進(jìn)行原則化(normalization。以消除非生物學(xué)引發(fā)的readcount的差別(最重要消除各個文庫測序數(shù)據(jù)量不同帶來的差別。對于原則化的成果,我們采用MA-plot或box-plot來評價。圖4.1.1MA-plot橫坐標(biāo)為體現(xiàn)量,縱坐標(biāo)為log后的體現(xiàn)差別倍數(shù)基于大部分基因都是非差別體現(xiàn)的,因此大多點應(yīng)在logfoldchange=0左右,并且不隨體現(xiàn)量的變化而變化。4.2差別基因列表對于有生物學(xué)重復(fù)的的樣品,我們采用DESeq2來分析差別體現(xiàn)基因。該辦法基于負(fù)二項分布模型(Kij~NB(μij,σij2來檢測差別體現(xiàn)基因。GenebaseMeanlog2FoldChangepvaluepadjFBgn000037031324.379200-1.5.6393206e-1762.9843284e-172FBgn003391317544.483454-1.6.3177309e-901.3373372e-87(1Gene:基因ID(2baseMean:全部樣本矯正后的平均reads數(shù)(3log2FoldChange:log2后的體現(xiàn)量差別(4pvalue:統(tǒng)計學(xué)差別明顯性檢查指標(biāo)(5padj:校正后的pvalue。padj越小,表達(dá)基因體現(xiàn)差別越明顯4.3差別基因可視化用火山圖能夠推斷差別基因的整體分布狀況。圖4.3.1明顯性差別體現(xiàn)基因用紅色點表達(dá);橫坐標(biāo)表達(dá)基因在不同樣本中的體現(xiàn)倍數(shù)變化;縱坐標(biāo)表達(dá)統(tǒng)計學(xué)上基因體現(xiàn)量變化差別的明顯性對于特定基因在不同實驗中的體現(xiàn)狀況,和此基因的不同轉(zhuǎn)錄本在不同實驗中的體現(xiàn)狀況。圖4.3.2左圖為regucalcin基因在兩個樣本中的體現(xiàn)差別狀況;右圖為此基因在不同轉(zhuǎn)錄本中的體現(xiàn)差別狀況4.4差別基因聚類聚類分析用于判斷差別基因在不同實驗條件下的體現(xiàn)模式。通過將體現(xiàn)模式相似或相近的基因聚集成類,從而識別未知基因的功效或已知基因的未知功效。5.差別體現(xiàn)基因功效分析5.1GO富集分析GeneOntology(簡稱GO,。研究差別基因在GeneOntology中的分布狀況將闡明差別基因富集的生物學(xué)功效。5.2信號通路富集分析在生物體內(nèi),不同基因互相協(xié)調(diào)實現(xiàn)其生物學(xué)功效,通過Pathway明顯性富集能擬定差別體現(xiàn)基因參加的最重要信號通路。KEGG(KyotoEncyclopediaofGenesandGenomes,(Kanehisa,。Pathway明顯性富集分析以KEGGPathway為單位,應(yīng)用統(tǒng)計檢查找出差別體現(xiàn)基因中明顯性富集的Pathway。5.3癌基因功效注釋原癌基因(Proto-oncogene是參加細(xì)胞生長、細(xì)胞分裂和細(xì)胞分化的正?;?,當(dāng)其發(fā)生突變后(如基因序列被變化就會變成致癌基因(Oncogene。普通在腫瘤或惡性細(xì)胞系中某些特異性癌基因會上調(diào)體現(xiàn),通過理解癌基因在實驗不同組的體現(xiàn)狀況有助于進(jìn)一步認(rèn)識疾病的發(fā)病機(jī)理。Cosmic(,有較高的權(quán)威性及可信度,通過與數(shù)據(jù)庫進(jìn)行比對,可對差別體現(xiàn)基因中的癌基因部分進(jìn)行鑒別和注釋。6.基因構(gòu)造差別分析6.1可變剪切分析對于RNA-seq,除了gene水平的差別分析外,還能夠進(jìn)行exon水平的差別分析。不用的exon體現(xiàn),表明了有著不同的剪切方式。這時能夠使用Bioconductor的DEXSeq軟件包。該分析能夠給出每個基因在不同的實驗條件下,外顯子的使用狀況。比如上圖的10號外顯子在control和knockdown兩組中的體現(xiàn)差別較大,另外顯子的體現(xiàn)量狀況,也反映到了在兩組中此基因的剪切形式有差別。7.SNP分析7.1SNP檢測SNP全稱SingleNucleotidePolymorphisms,是指在基因組上由單個核苷酸變異形成的遺傳標(biāo)記,其數(shù)量諸多,多態(tài)性豐富。普通而言,SNP是指變異頻率不不大于1%的單核苷酸變異。對RNA-seq的SNP分析可能得到基因在上的SNP位點和RNA編輯位點。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論