轉(zhuǎn)錄組ref流程工作手冊_第1頁
轉(zhuǎn)錄組ref流程工作手冊_第2頁
轉(zhuǎn)錄組ref流程工作手冊_第3頁
轉(zhuǎn)錄組ref流程工作手冊_第4頁
轉(zhuǎn)錄組ref流程工作手冊_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、轉(zhuǎn)錄組ref流程工作手冊一、Reference 流程生物學(xué)原理1.1 實驗流程圖一:轉(zhuǎn)錄組實驗流程當(dāng)我們得到樣品時,必須對其測序,才能得到分析所需的數(shù)據(jù)。測序基本過程:提取樣品總RNA后,用帶有Oligo(dT)的磁珠富集真核生物mRNA(若為原核生物,則用試劑盒去除rRNA后進(jìn)入下一步)。加入fragmentation buffer將mRNA打斷成短片段,以mRNA為模板,用六堿基隨機(jī)引物(random hexamers)合成第一條cDNA鏈,然后加入緩沖液、dNTPs、RNase H 和DNA polymerase I合成第二條cDNA鏈,在經(jīng)過QiaQuick PCR試劑盒純化并加EB緩

2、沖液洗脫之后做末端修復(fù)并連接測序接頭,然后用瓊脂糖凝膠電泳進(jìn)行片段大小選擇,最后進(jìn)行PCR擴(kuò)增,使用建好的測序文庫進(jìn)行測序。得到RNA的序列后,又可以找到它的參考序列(物種本身的基因、基因組)時,可以用reference流程對數(shù)據(jù)進(jìn)行詳細(xì)的分析。Reference后面所有的流程都是基于參考序列進(jìn)行的,所以選擇正確的參考序列十分重要。1.2信息分析流程 得到測序序列后,即可利用比對軟件,將所測序列比對到參考基因或基因組上,并進(jìn)行后續(xù)分析,信息分析流程圖如下:圖二:轉(zhuǎn)錄組信息流程1.2.1原始fq序列簡介測序得到的原始圖像數(shù)據(jù)經(jīng)base calling轉(zhuǎn)化為序列數(shù)據(jù),我們稱之為raw data或r

3、aw reads,結(jié)果以fastq文件格式存儲,fastq文件為用戶得到的最原始文件,里面存儲reads的序列以及reads的測序質(zhì)量。在fastq格式文件中每個read由四行描述:read IDTGGCGGAGGGATTTGAACCC+bbbbbbbbabbbbbbbbbbb每個序列共有4行,第1行和第3行是序列名稱(有的fq文件為了節(jié)省存儲空間會省略第三行“”后面的序列名稱),由測序儀產(chǎn)生;第2行是序列;第4行是序列的測序質(zhì)量,每個字符對應(yīng)第2行每個堿基,第四行每個字符對應(yīng)的ASCII值減去64,即為該堿基的測序質(zhì)量值,比如h 對應(yīng)的ASCII值為104,那么其對應(yīng)的堿基質(zhì)量值是40。堿基

4、質(zhì)量值范圍為0到40。表 1為Solexa測序錯誤率與測序質(zhì)量值簡明對應(yīng)關(guān)系,具體計算公式如下:Qphred =-10 log10(e)表 1 Solexa測序錯誤率與測序質(zhì)量值簡明對應(yīng)關(guān)系測序錯誤率測序質(zhì)量值對應(yīng)字符5%13M1%20T0.1%300.01%40h1.2.2原始fq序列處理 某些原始序列帶有adaptor 序列,或含有少量低質(zhì)量序列。我們首先經(jīng)過一系列數(shù)據(jù)處理以去除雜質(zhì)數(shù)據(jù),得到Clean reads。按如下步驟進(jìn)行處理:1. 去除含adaptor的reads2. 去除N的比例大于10%的reads3. 去除低質(zhì)量reads(質(zhì)量值Q *_final.sh.nohup &2.

5、4 查看任務(wù)進(jìn)展1) 操作任務(wù)的命令行:查看個人所有在跑任務(wù): qstat -u * (用戶是*)查看某一個在跑任務(wù): qstat -j 24832|less (任務(wù)號是24832)殺掉個人所有在跑任務(wù): qdel -u *殺掉某一個在跑任務(wù): qdel 24832如果是因為某一個運行文件出錯導(dǎo)致需要殺掉所要相關(guān)在跑任務(wù),應(yīng)該先殺掉這個在公共節(jié)點上跑的任務(wù)如:上面*_final.sh出錯了,可以按以下步驟處理:top -u daichm按c鍵查看詳細(xì)信息,找出所要殺掉的任務(wù),假設(shè)*_final.sh對應(yīng)的任務(wù)號是23849則可按k鍵,輸入工作號,回車然后按9再回車即可殺掉該任務(wù),再去做上面操作

6、。2) 查看整個任務(wù)進(jìn)展:a 查看*b 進(jìn)入part_shell目錄,查看相應(yīng)的任務(wù)運行信息,主要有可以查看以下幾個文件:*. globle*.log進(jìn)入下一層目錄,查看.o和.e文件。找出問題所在并進(jìn)行處理。2.5 任務(wù)完成1)結(jié)果檢查:a,結(jié)題報告是否完整生成? b,打包數(shù)據(jù)中,相關(guān)文件是否齊全? c,分析要求是否都做好了,差異分析有沒有漏掉? d,有沒有空文件產(chǎn)生?2)數(shù)據(jù)備份:由于各方面的原因,產(chǎn)生的數(shù)據(jù)有可能會丟失,建議對一些重要的數(shù)據(jù)在相對穩(wěn)定的盤陣?yán)镒龆嘁粋€備份,以免發(fā)生不必要的大麻煩。三、Reference 流程程序模塊說明配置文件:ref.lib主程序腳本:maid.shpe

7、rl reference_transcriptome_pipeline.pl -name huyang -lib ref.lib -outdir /ifs1/DGE_SR/daichm/project/HUYlfvT/result -diff -filter -2bwt -soap 2.20 -genome Populus_euphratica.0114.genome -gene Populus_euphratica.0114.cds -psl Populus_euphratica.0114.gff.psl -doall -verbose關(guān)鍵程序: reference_transcriptom

8、e_pipeline.pl其各項參數(shù)代表意思:Usage basic parameters:基本參數(shù) -name species name(necessary!)即物種名,注意不是文庫名 -lib input lib file(necessary!), a format example: file inputlib.配置文件 -outdir result dir(necessary!)結(jié)果輸出目錄 -genome genome sequence(necessary!)參考基因組 -gene gene sequence(necessary!)參考基因 -psl gene psl(necessar

9、y!)psl文件 analysis options:分析選項 -soap soap version(2.01|2.20|.)soap版本選擇,目前用soap2.20 -filter Filter reads過濾數(shù)據(jù),得到clean reads,一般也是必須選項 -div Divide analysis by chromosome name,if all chromosomes size is large.基因組大時按染色體分塊處理 -doall Do all analysis below,including 5 parts.包括以下五個選項 -basic Do basic analysis.基

10、本生物信息分析 -alter Alternative Splice analysis高級生物信息分析中的可變剪切 -novel Novel Transcript analysis高級生物信息分析中的發(fā)現(xiàn)新轉(zhuǎn)錄本 -utr ExtendGene analysis高級生物信息分析中的基因結(jié)構(gòu)優(yōu)化 -svg Produce SVG figure基因結(jié)構(gòu)以及 Reads 在基因組上分布的精確圖形 -diff Gene expression difference高級生物信息分析中的差異表達(dá)基因 -verbose output verbose information to screen輸出運行信息到標(biāo)準(zhǔn)輸

11、出上 -help output help information to screen幫助文檔分析的流程圖:使用參數(shù)說明:命令示例:1) bwt,filter對應(yīng)程序:/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/bwt_filter.sh詳細(xì)情況:a).基因組建庫:b).基因建庫:c).樣本數(shù)據(jù)過濾(舉其中一例):2) soapa).對基因組所建的庫跑soap:(舉其中一例)b).對基因所建的庫跑soap:(舉其中一例)關(guān)鍵程序:/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20re

12、lease/soap其各項參數(shù)代表意思:Usage: soap options -a query a file, *.fq, *.fa -b query b file -D reference sequences indexing table, *.index format -o output alignment file(txt) -M match mode for each read or the seed part of read, which shouldnt contain more than 2 mismaches, 4 0: exact match only 1: 1 misma

13、tch match only 2: 2 mismatch match only 4: find the best hits -u output unmapped reads file -t output reads id instead reads name, none -l align the initial n bps as a seed 256 means whole length of read -n filter low-quality reads containing n Ns before alignment, 5 -r 0,1,2 how to report repeat hi

14、ts, 0=none; 1=random one; 2=all, 1 -m minimal insert size allowed, 400 -x maximal insert size allowed, 600 -2 output file of unpaired alignment hits -v maximum number of mismatches allowed on a read. 5 bp -s minimal alignment length (for soft clip) 255 bp -g one continuous gap size allowed on a read

15、. 0 bp -R for long insert size of pair end reads RF. none(means FR pair) -e will not allow gap exist inside n-bp edge of a read, default=5 -p number of processors to use, 1 -h this help3) posCoveragea)對單樣本處理/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/samples_pos.sh其中用到的程序為:/nas/DGE_SR01/da

16、ichm/ref/posCoverageb)合并所有樣本/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/posCoverage.sh其中用到的程序為:/nas/DGE_SR01/daichm/ref/merge_poscoverage.pl4) transcript-unit/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/TranscritUnit.sha).PosCoverage.TAR其中用到的程序為:/nas/DGE_SR01/daichm/ref/Mask2Tar.p

17、lb).Filter其中用到的程序為:c).PairEndJoinTAR其中用到的程序為: /nas/DGE_SR01/daichm/ref/PairEndJoinTAR.pld).TAR2Genes其中用到的程序為: /nas/DGE_SR01/daichm/ref/TAR2Genes.ple).TARGenes2psl其中用到的程序為:/nas/DGE_SR01/daichm/ref/TARGenes2psl.pl5) important analysis step/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/analysis5

18、.pla).BasicAnalysis&DiffBasicAnalysis:/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/basic.sh其中用到的程序為:perl /nas/DGE_SR01/daichm/ref/MapReadsStat.pl perl /nas/DGE_SR01/daichm/ref/ReadsRandomInGene.plperl /nas/DGE_SR01/daichm/ref/Soap_Coverage.plperl /nas/DGE_SR01/daichm/ref/CoverageList.pl per

19、l /nas/DGE_SR01/daichm/ref/chromosome_graph_wb.pl Diff:/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/diff.sh其中用到的程序為:/nas/DGE_SR01/daichm/ref/DiffExp/DiffExp_pipeline.plb).Extend/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/extend.sh其中用到的程序為:/nas/DGE_SR01/daichm/ref/getGene.pl/share/

20、raid1/genome/bin/blat/nas/DGE_SR01/daichm/ref/pslbest.pl/nas/DGE_SR01/daichm/ref/TarBGFortholog.pl/nas/DGE_SR01/daichm/ref/UTR.plc).AlternativeSplicing/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/GeneSpliceSite.sh其中用到的程序為:/nas/DGE_SR01/daichm/ref/GeneSpliceSite.pl/ifs1/DGE_SR/daichm/project

21、/HUYlfvT/result/part_shell/JoinSplice.sh其中用到的程序為:/nas/DGE_SR01/daichm/ref/JoinTARForSoap.pl/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/2bwt-builder/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/TrimNomap.sh其中用到的程序為:/nas/DGE_SR01/daichm/ref/search_reads_TrimNomap.pl/ifs1/DGE_SR/d

22、aichm/project/HUYlfvT/result/part_shell/JunctionSoap.sh其中用到的程序為:/panfs/DGE_SR/hezengquan/soft/SOAPaligner/soap2.20release/soap/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/AlternativeSplice.sh其中用到的程序為:/nas/DGE_SR01/daichm/ref/JunctionReadsStat.pl/nas/DGE_SR01/daichm/ref/SikppedExon.pl/nas/DG

23、E_SR01/daichm/ref/MutuallyExclusiveExon.pl/nas/DGE_SR01/daichm/ref/AlternativeFirstLastExon.pl/nas/DGE_SR01/daichm/ref/A5or3SS.pl/nas/DGE_SR01/daichm/ref/RetainedIntron.pl/nas/DGE_SR01/daichm/ref/TableAS.pld).NovelTranscriptUnit/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/NovelTranscription

24、.sh其中用到的程序為:/nas/DGE_SR01/daichm/ref/NovelTranscript.pl/nas/DGE_SR01/daichm/ref/TableNovelTranscript.ple).FigureReadsGene (SVG)/ifs1/DGE_SR/daichm/project/HUYlfvT/result/part_shell/SVG.sh其中用到的程序為:/nas/DGE_SR01/daichm/ref/Figure_Reads_Gene.pl6) auto produce report htmlhtml.sh其中用到的程序為:genHTML4Trans.pl

25、lib配置示例如下:四、Reference 流程常見問題4.1 參考基因及基因組與psl文件不一致 會導(dǎo)致后續(xù)分析全部錯誤,得不到結(jié)果或得到錯誤的結(jié)果4.2 soap結(jié)果未跑完整(如出現(xiàn)段錯誤) 注意檢查soap.e*文件,看看是否有錯4.3差異分析是否按要求完成差異分析一定要注意分析要求,避免所做非所需五、Reference 流程參考文獻(xiàn)1.Audic S. et al. The significance of digital gene expression profiles. Genome Res. 1997 7 (10): 986-995.2.SOAP2: an improved ultrafast tool for short read alignment (2009) BIOINFORMATICS, doi:10.1093/bioinformatics/btp3364. Mapping and quantifying mammalian transcriptomes by RNA-Seq Nat Methods. 2008 Jul;5(7):621-8. Epub 2008 May 30六、銅人陣題目6.1 生物學(xué)知識相關(guān)1參考序列如何選擇?

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論