1、基因家族分析套路作者:日期:基因家族分析套路(一)近年來(lái),測(cè)序價(jià)格的下降,導(dǎo)致越來(lái)越多的基因組完成了測(cè)序,在數(shù)據(jù)庫(kù)中形成了大量的可用資源。如何利用這些資源呢?今天小編帶你認(rèn)識(shí)一下不測(cè)序也 能發(fā)文章的思路-全基因組基因家族成員鑒定與分析(現(xiàn)在這一領(lǐng)域可是很熱 奧);一、基本分析內(nèi)容數(shù)據(jù)庫(kù)檢索與成員鑒定進(jìn)化樹(shù)構(gòu)建保守 domain和 mo ti f分析.基因結(jié)構(gòu)分析.轉(zhuǎn)錄組或熒光定量表達(dá)分析.二、數(shù)據(jù)庫(kù)檢索與成員鑒定1、數(shù)據(jù)庫(kù)檢索1 )首先了解數(shù)據(jù)庫(kù)用法,學(xué)會(huì)下載你要分析物種的基因組相關(guān)數(shù)據(jù)。一般也就是 下面這些數(shù)據(jù)庫(kù)了Brae hypod iumdb:TAIR:Rice Ge nome Anno

2、tation Project:.Phyto z o m e :E nsem ble:NCBI基因組數(shù)據(jù)庫(kù):2 )已鑒定的家族成員獲取。如何獲得其他物種已發(fā)表某個(gè)基因家族的所有成員呢,最簡(jiǎn)單的就是下載該物種蛋白序列文件(可以從上述數(shù)據(jù)庫(kù)中下載),然后按照文章中的ID,找到對(duì)應(yīng) 成員。對(duì)于沒(méi)有全基因組鑒定的,可以下列數(shù)據(jù)庫(kù)中找:a. N C B I : nucleotid e and protein db .b. EBI:.c. Un iProtKB :2、比對(duì)工具。一般使用 blast和hmm er,具體使用命令如下:Local BLASTformatdb -i d b. fas -p F/T;

3、bl a st a ll -p bl a s t p(o r else) 4 kn o wn. fas d db.fas -m 8 -b 2 (or else) e 1e-5 -o alignresu It . t xt.-b:ou tp uttw o d i ff e ren t m e m b ers in subj ec t s e que nce s ( d b ).Hmmer ( h idd e n Ma r kov Mod e 1 ) s earc h. Thesame as PS BLA ST in f u nct ion. It has a hig her se n s i t

4、ivit y , but the sp eed islower.Command: hmmbuild-infor m ataf ak now n .hmm a 1 i gnknown. fa;hmmsearchk nown.hmmdb. fas a 1 ign.out.3、過(guò)濾。Identit y :至少 50% .Co ver re g ion:也要超過(guò)50%或者蛋白結(jié)構(gòu)域的長(zhǎng)度.domain:必須要有完整的該蛋白家族的。工具p famdb ()和NCBI Batch CD- s earch .().EST支持Blast and Hmmer同時(shí)檢測(cè)到4、通過(guò)上述操作獲得某家族的所有成員基因家族

5、分析套路(二)本次主要講解在基因家族分析類(lèi)文章中,進(jìn)化部分分析的內(nèi)容。主要是進(jìn)化樹(shù)的 構(gòu)建與分析。一、構(gòu)建進(jìn)化樹(shù)的基本步驟1、多序列比對(duì). Muscl e progra m.2、Mode 1選擇.分別針對(duì)蛋白序列和核酸序列的模型選擇程序。ProtTest prog ram f o r protei n a n d ModelTe s t or Jmodetl e s t for D NA().3、算法選擇。三種. NJ, ML an d BI.4、軟件選擇ME GA (boot strap 1 ea s t 1 0 00 r e p 1 icates) , phyML and Mrbay e

6、s ().5、進(jìn)化樹(shù)修飾.M EGA: view opti o n s and s u bt r e e - d raw options. Al s o ca n b e d ecor a t e d in word ()二、具體步驟2.1 多序列比對(duì)。一般采用 mus cle。因?yàn)?MUS CLE i s on e of the be s t 一perfor m i n g m ultiple ali g n m e nt pro g rams acco rdingto pu b 1 ished ben chmar k t e s ts, wi t h acc u r a cy and sp

13、ification of these gene sets, fly contrast, the anccs*2.3.1 意義:a聚類(lèi)分析。如亞家族分類(lèi)。像MAPKKK基因家族通過(guò)進(jìn)化樹(shù)可以清楚分為MEKK , Ra f and ZIK三個(gè)亞家族.b親緣關(guān)系鑒定。在進(jìn)化樹(shù)上位于同一支的往往暗示這親緣關(guān)系很近c(diǎn)基因家族復(fù)制分析。研究基因家族復(fù)制事件 (dupli c a t i o n e vents ),兩 種復(fù)制事件類(lèi)型常采用的標(biāo)準(zhǔn):Tan dem d u plicat ion: Ide nt i ty an d cove r re g ion more th an 70 % and tigh

14、tly 1 inked (H o lub , 2001).Ch r omosomal segment d u plicat i on: Plant Geno me Duplication Database (PGD D :)2.3.2 進(jìn)化樹(shù)。一般ML樹(shù)比較準(zhǔn)確,但應(yīng)結(jié)合方法,如NJ樹(shù),相互驗(yàn)證。2.3.3 進(jìn)化部分分析:Ka Ks計(jì)算2. 3.3.1簡(jiǎn)單的方法.可以使用下面的網(wǎng)頁(yè) PAL2N AL ()2 .3 .3.2標(biāo)準(zhǔn)方法:.a. P araAT : Par a AT.pl h test, homolog s -n test.cds -a test, p ep -p proc f a

15、x t - k -o outputb . K aK s _C a lcula t or -m N G(or else) - i tes t .ax t - o te s t. ax t .kaksc.分歧時(shí)間計(jì)算:Diverg e nttime (T) ca 1 cu lation.T=Ks/2 卜入:mean 5. 1 -7.1 X10-9 .d . K a / Ks 意義:Ka/K s =1 .中性進(jìn)化。.K a/KsKa/Ks1. 正選擇。Po si t i v el y s elected g en e s and pro d uc e fi t n es s adv a nta g

