項(xiàng)目常見問題與解答_第1頁
項(xiàng)目常見問題與解答_第2頁
項(xiàng)目常見問題與解答_第3頁
項(xiàng)目常見問題與解答_第4頁
項(xiàng)目常見問題與解答_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、RNA-Seq項(xiàng)目常見問題與解答這兩年隨著測(cè)序成本的下降和轉(zhuǎn)錄組研究的日漸火熱,RNA-seq儼然已經(jīng)成為了分子生物學(xué)課題組推進(jìn)項(xiàng)目的首選方向。在我們接觸的轉(zhuǎn)錄組項(xiàng)目中,有些老師對(duì)項(xiàng)目分析結(jié)果存在或多或少不清楚或有疑惑的地方。那么春天來了,花兒開了,今天福利也到了,我們特意將轉(zhuǎn)錄組項(xiàng)目中常見的一些問題進(jìn)行了匯總,各位老師可以按需自取哈。1如何判定生物學(xué)重復(fù)一致性的高低?生物學(xué)重復(fù)統(tǒng)計(jì)方法及公式答:(1)皮爾遜相關(guān)系數(shù)r可以作為生物學(xué)重復(fù)相關(guān)性的評(píng)估指標(biāo),理想的生物學(xué)重復(fù)試驗(yàn)r20.92??紤]到個(gè)體差異、取材環(huán)境、時(shí)間以及人員操作熟練程度等因素對(duì)測(cè)序數(shù)據(jù)的影響,一般r20.8為可接受范圍。(2)

2、Pearson(皮爾遜)相關(guān)系數(shù):皮爾遜相關(guān)也稱為積差相關(guān)(或積矩相關(guān))是英國(guó)統(tǒng)計(jì)學(xué)家皮爾遜于20世紀(jì)提出的一種計(jì)算直線相關(guān)的方法。2DEG基因用Transcripts還是Unigenes?答:DEG基因用的是Unigene。3transcript-id代表什么意思?為什么有的基因有多個(gè)transcript-id?答:基因轉(zhuǎn)錄本id;因?yàn)榭勺兗羟械木壒?,一個(gè)基因可能有多個(gè)轉(zhuǎn)錄本。4在miRNA鑒定中,可能成為miRNA的reads是怎樣計(jì)算的?哪些條件會(huì)影響到mrd值?micro RNA在不同組織有異構(gòu)體的存在,是如何處理的?答:與 Rfam, miRbase, RepBase和 ExonIn

3、tro 序列庫進(jìn)行比對(duì),獲得 sRNA 注釋信息,以此作為預(yù)測(cè)新的 miRNA 的基礎(chǔ)。miRNA的鑒定是利用miRDeep2軟件進(jìn)行已知及新(保守及非保守)的miRNA鑒定。miDeep2會(huì)在reads比對(duì)到基因組上的位置兩端分別延伸75、15bp進(jìn)行結(jié)構(gòu)預(yù)測(cè),此軟件認(rèn)為極可能與可能是miRNA的根據(jù)是通過mrd值來區(qū)分的,mrd>-10為可能,mrd>0為極可能;影響mrd值的有reads在基因組上的分布和堿基結(jié)合的自由能等;5對(duì)于有生物學(xué)重復(fù)的項(xiàng)目,怎樣計(jì)算差異基因?答:兩兩比對(duì)使用的是R的EBseq包, 是基于負(fù)二項(xiàng)分布檢驗(yàn)的方式對(duì)reads數(shù)進(jìn)行差異顯著性檢驗(yàn),重復(fù)間的比

4、對(duì)使用的是R的DEseq包,是基于分層貝葉斯模型的原理對(duì)組合內(nèi)樣品進(jìn)行分析。6外顯子,內(nèi)含子及基因間區(qū)各自的比例如何評(píng)估建庫情況?答:理論上,來自成熟mRNA的reads應(yīng)該比對(duì)到外顯子區(qū)。但是,由于基因組注釋水平、可變剪切導(dǎo)致的內(nèi)含子序列保存,以及很多RNA(比如lncRNA)就來自基因間區(qū)和內(nèi)含子,因此有比對(duì)到內(nèi)含子和基因間區(qū)的reads。受物種等的影響外顯子所占比例不同,一般情況下外顯子區(qū)域所占比例超過70%即比較理想。7影響組裝Contig結(jié)果的因素?答:a物種的特異性;b測(cè)序質(zhì)量;c測(cè)序的數(shù)據(jù)量;dSNP的雜合率;e組裝參數(shù)的選擇。(1)、在不考慮物種特異性和測(cè)序質(zhì)量的情況下,測(cè)序的

5、數(shù)據(jù)量越大,SNP的雜合率越高,得到的短片段Contig的數(shù)目就越多。根據(jù)Trinity組裝Contig的策略,將Reads構(gòu)建K-mer庫,選取頻數(shù)最高的K-mer,按照k-1的overlap進(jìn)行延伸,用于延伸的K-mer全部從庫中清掉,因此測(cè)到的reads越多,SNP的雜合率越高,延伸完后的短片段就越多。(2)、對(duì)于組裝參數(shù)的選擇,是用于過濾低頻數(shù)K-mer,選擇的參數(shù)不同,過濾掉的K-mer數(shù)目不同,如果過濾掉的越多,那么留下的短片段的Contig就會(huì)少。所以即使用同一個(gè)軟件(Trinity)進(jìn)行組裝,如果不知道組裝參數(shù)的時(shí)候,對(duì)于組裝結(jié)果沒有很大的可比性。(3)、組裝結(jié)果的好壞最主要的

6、還是看Unigene的組裝數(shù)據(jù),包括組裝出的數(shù)目和N50。一般來說,組裝出的Unigene的數(shù)目在一個(gè)合理范圍內(nèi)(比如10W以內(nèi)),N50越大,組裝的結(jié)果越好。8轉(zhuǎn)錄組測(cè)序Contig 與transcript的區(qū)別?答:轉(zhuǎn)錄組測(cè)序的原始數(shù)據(jù)包含了很多的reads,通過序列的拼接,具有重疊區(qū)的reads會(huì)被組裝成更大的片段,稱之為contig。將reads比對(duì)回contig,通過paired-end reads能確定來自同一轉(zhuǎn)錄本的不同contig 以及這些contig之間的距離,將這些contig連在一起,最后得到兩端不能再延長(zhǎng)的序列,稱之為Unigene。Transcript即轉(zhuǎn)錄本。9不同

7、ID號(hào)代表的基因相同嗎?不同ID號(hào)功能注釋相同的,為什么?答:不同的ID可以認(rèn)為是代表不同的基因。不同的基因注釋的功能相同,原因有:一是有些長(zhǎng)的基因沒有組裝出完整的序列,而是分成了多個(gè)小片段,這種情況去進(jìn)行注釋的話會(huì)注釋到同一個(gè)功能蛋白;二是基因的核酸序列不同,但是蛋白序列具有一定的相似性或者具有相似的功能區(qū)域,這些基因在比對(duì)注釋用的蛋白序列時(shí),會(huì)注釋到相同的功能。10多個(gè)Unigene注釋一樣,序列長(zhǎng)度不同,相似性較低,為什么?答:1)首先某一基因可能比較長(zhǎng),但無參考基因組裝出的片段即Unigene很難組裝得到全長(zhǎng),得到的是這個(gè)基因上的大小不等的片段,在進(jìn)行比對(duì)的時(shí)候就會(huì)比對(duì)到同一個(gè)基因上,

8、因此他們的注釋信息一致;2)從序列來看Unigene基因的序列相似度不高,但是因?yàn)楸葘?duì)的是蛋白,所以可能他們的蛋白相似度會(huì)比較高,因此會(huì)注釋到同一基因上。11transcript_id、gene_id、length、effective_length、expected_count、TPM、FPKM、IsoPct這幾個(gè)字段的意思?答:一個(gè)Unigene可能對(duì)應(yīng)多個(gè)轉(zhuǎn)錄本。Transcript id:為組裝轉(zhuǎn)錄本編號(hào);gene_id:Unigene編號(hào);length:Unigene的長(zhǎng)度;effective_length:各個(gè)轉(zhuǎn)錄本的平均長(zhǎng)度;TPM:Transcripts per million,

9、公式為:Unigene 的reads數(shù)×106/總reads數(shù);FPKM即RPKM(雙端Reads數(shù)目/(比對(duì)到轉(zhuǎn)錄本上的片段總數(shù)*轉(zhuǎn)錄本長(zhǎng)度);IsoPct:某一個(gè)轉(zhuǎn)錄本的表達(dá)量占相應(yīng)的組裝原件表達(dá)量的百分比。12同一ID下有多條序列,想得到此序列的核苷酸信息應(yīng)選哪一條?答:同一個(gè)ID號(hào)下面好幾條序列,這個(gè)應(yīng)該是組裝過程中裝出來的轉(zhuǎn)錄本序列,來自同一個(gè)Component(具體見Trinity組裝的第二步),其ID前綴相同,后面跟著seq+數(shù)字的編號(hào)。Trinity軟件認(rèn)為這些轉(zhuǎn)錄本來源于同一個(gè)基因,因此,選取其中最長(zhǎng)的那個(gè)轉(zhuǎn)錄本的序列作為該基因的序列。13生物云轉(zhuǎn)錄組APP上的差異

10、篩選閾值采用的是哪種方法?p值與FDR值的區(qū)別是?答:生物云轉(zhuǎn)錄組APP在差異表達(dá)分析過程中采用了公認(rèn)有效的Benjamini-Hochberg方法對(duì)原有假設(shè)檢驗(yàn)得到的顯著性p值(p-value)進(jìn)行校正,并最終采用校正后的p值,即FDR(False Discovery Rate)作為差異表達(dá)基因篩選的關(guān)鍵指標(biāo),以降低對(duì)大量基因的表達(dá)值進(jìn)行獨(dú)立的統(tǒng)計(jì)假設(shè)檢驗(yàn)帶來的假陽性。p值與FDR之間沒有單純的換算公式,是在linux操作系統(tǒng)下,運(yùn)用R語言編寫的程序完成的fisher精確檢驗(yàn),在篩選過程中,默認(rèn)將FDR<0.01且差異倍數(shù)(Fold Change)2作為篩選標(biāo)準(zhǔn)。14生物云轉(zhuǎn)錄組在分析

11、差異基因時(shí),對(duì)于表達(dá)量為0的,如何計(jì)算差異倍數(shù)?答:差異基因分析軟件EBseq在分析表達(dá)量為0的基因的差異倍數(shù)時(shí),會(huì)采用貝葉斯估計(jì)給出一個(gè)估計(jì)值,然后使用這個(gè)估計(jì)值計(jì)算差異倍數(shù)。由于計(jì)算估計(jì)值時(shí)綜合考慮多項(xiàng)因素,因此不同基因間FPKM和FC不具有一致性。15如何定義的已知micRNA、保守的micRNA以及新預(yù)測(cè)的micRNA?答:已知micRNA指的是序列在miRBase數(shù)據(jù)庫中百分百的比對(duì)到該物種的序列上,如果在該物種上沒有比對(duì)上但比對(duì)上了數(shù)據(jù)庫中的其他物種上我們稱之為保守的micRNA;新預(yù)測(cè)的micRNA:通過miRDeep2軟件進(jìn)行預(yù)測(cè),有一定的read能夠比對(duì)到基因組上,并且比對(duì)位

12、置的序列可以形成發(fā)卡結(jié)構(gòu),那么就會(huì)作為新預(yù)測(cè)的miRNA。16分析時(shí)發(fā)現(xiàn)不同的名,但是他們的前體序列和成熟序列都一樣,表達(dá)量在各個(gè)樣品中也相同,為什么?答:這個(gè)是由于在染色體上的位置不同導(dǎo)致的,可以參考miRBase數(shù)據(jù)庫中的 hsa-mir-1233-1 和 hsa-mir-1233-2 這兩個(gè) ID, 它們對(duì)應(yīng)的前體序列,3' 和 5' 成熟序列均相同,但在基因組上的位置不同,軟件將它們區(qū)別成兩個(gè)不同的小RNA,又因?yàn)樗鼈兊男蛄幸恢拢员葘?duì)上的reads是一樣的,表達(dá)量因此一樣。具體見下:17測(cè)序得到的lncRNA,如何知道哪些是已知的?哪些是未知的?答:目前長(zhǎng)鏈分析結(jié)果

13、中如果分析的物種是比較常見的物種比如人、大鼠、小鼠,這些物種具有比較完整的已知lncRNA數(shù)據(jù)庫,這種情況:(1)通過確切的位置關(guān)系(位置相交則認(rèn)為相同)對(duì)預(yù)測(cè)出來的那些lncRNA鑒定其是否為已知;(2)根據(jù)fa序列進(jìn)行比對(duì),對(duì)預(yù)測(cè)出的lncRNA序列與數(shù)據(jù)庫中已知的lncRNA序列比對(duì),達(dá)到一定比對(duì)值的會(huì)認(rèn)為該預(yù)測(cè)長(zhǎng)鏈?zhǔn)且阎拈L(zhǎng)鏈。注:NONCODE DB中包含的物種主要是動(dòng)物方面的,包括:人、小鼠、大鼠、奶牛、雞、果蠅、斑馬魚、線蟲、酵母、擬南芥、黑猩猩、大猩猩、恒河猴、復(fù)鼠、鴨嘴獸、猩猩 18轉(zhuǎn)錄組測(cè)序之后,用QPCR進(jìn)行驗(yàn)證,但驗(yàn)證的基因表達(dá)趨勢(shì)與測(cè)序結(jié)果中不一致,這是什么原因?如何

14、解決呢?答:首先,我們需要確定檢驗(yàn)的樣品是否是同一批次,驗(yàn)證樣品的上下調(diào)關(guān)系是否與測(cè)序結(jié)果中的一致(這個(gè)需要根據(jù)測(cè)序公司具體的分析結(jié)果,比如某個(gè)基因的FC值對(duì)應(yīng)的樣品寫的是T01 vs T02 ,那么T01就是對(duì)照組、T02是實(shí)驗(yàn)組),若樣品不為同一批次或其上下調(diào)關(guān)系顛倒了,則勢(shì)必會(huì)導(dǎo)致驗(yàn)證基因表達(dá)趨勢(shì)不一致的情況。其次,我們需要查看驗(yàn)證基因的表達(dá)量、樣品和實(shí)驗(yàn)用的引物是否被污染,若驗(yàn)證基因表達(dá)量過低,則有可能導(dǎo)致差異不顯著,若樣品或?qū)嶒?yàn)用的引物被污染則后續(xù)結(jié)果可能也不會(huì)準(zhǔn)確,所以我們盡量不要挑選表達(dá)量太低的基因,同時(shí),需要保證樣品和實(shí)驗(yàn)引物沒有被污染。當(dāng)以上所有情況都不存在,且結(jié)果依然不一致,這時(shí)我們需要檢查QPCR結(jié)果是否正確。如果僅一個(gè)基因驗(yàn)證結(jié)果不一致,則不足以說明測(cè)序或者驗(yàn)證有問題,但當(dāng)我們選擇了15個(gè)基因甚至更多時(shí),結(jié)果依然不一致時(shí),那么我們可能需要分析測(cè)序數(shù)據(jù)的結(jié)果是否正確,同時(shí)檢查結(jié)果預(yù)期是否正確。19從NCBI上下載的數(shù)據(jù)都是SAR格式的,如何轉(zhuǎn)化成FASTQ格式?答使用軟件sra2fastq進(jìn)行轉(zhuǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論