生物信息學(xué)概論第三章替換模式課件_第1頁(yè)
生物信息學(xué)概論第三章替換模式課件_第2頁(yè)
生物信息學(xué)概論第三章替換模式課件_第3頁(yè)
生物信息學(xué)概論第三章替換模式課件_第4頁(yè)
生物信息學(xué)概論第三章替換模式課件_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第三章 替換模式分析已經(jīng)發(fā)生的替換數(shù)目和性質(zhì),對(duì)于分子進(jìn)化的研究有很重要的意義.這種分析也為生物信息學(xué)的研究人員致力于識(shí)別和刻畫具有重要功能的基因部分提供了強(qiáng)有力的線索。本章內(nèi)容基因內(nèi)的替換模式估算替換數(shù)目基因間進(jìn)化率的變化分子時(shí)鐘細(xì)胞器的進(jìn)化3.1 基因內(nèi)的替換模式基因突變:一種核苷酸替換成另一種,以及插入/刪除事件有利的中性的不利的有利的變化實(shí)際上只占少數(shù)核苷酸序列的某些變化對(duì)一個(gè)生物體的影響比其他因素更大3.1.1 突變率r = K/(2T)r:替換速率(突變率)K: 來源于同一祖先的兩個(gè)序列之間的替換數(shù)量T:分叉時(shí)間 如果不同物種間的進(jìn)化率是相似的,在沒有其他證據(jù)的情況下,通過替換速率

2、(突變率),可以推測(cè)進(jìn)化事件發(fā)生的時(shí)間。 比較基因內(nèi)和基因間的替換速率(突變率)常用來確定不同基因組區(qū)域的作用大量分析證實(shí),基因不同部分的變化速度確實(shí)千差萬別,而這些速度正反映了不同部分受功能約束的程度基因區(qū)域類別人類/基因區(qū)域長(zhǎng)度替換的平均數(shù)量標(biāo)準(zhǔn)方差替換速率(個(gè)替換/位點(diǎn)/10億年)所有非編碼序列91367.914.13.33所有編碼序列44169.216.71.585端側(cè)翼序列30096.019.63.395UT509.03.01.86內(nèi)含子13141.88.13.483UT13233.011.53.003端側(cè)翼序列30076.314.33.60人、鼠、兔、牛的類球蛋白基因各部分的差異由

3、上表中,可以揭示的一個(gè)普遍規(guī)律: 內(nèi)含子和兩端側(cè)翼序列的替換積累速度最快 其次是能轉(zhuǎn)錄而不能翻譯的序列 最慢的是編碼序列 來源與球蛋白基因的數(shù)據(jù),一個(gè)核苷酸序列每一百萬年只發(fā)生0.35%的改變,對(duì)于人類來說這種改變是非常緩慢的,但是比之分子的進(jìn)化又是相當(dāng)迅速的并非三聯(lián)密碼子上的所有位置都會(huì)發(fā)生異義替換。事實(shí)上,三聯(lián)密碼子中的核苷酸可分為3類: 非簡(jiǎn)并位點(diǎn):該位點(diǎn)的變異都是導(dǎo)致替換 雙重簡(jiǎn)并位點(diǎn):該位點(diǎn)有兩種不同的核苷酸翻譯成同一種氨基酸,另外兩種不同的核苷酸則翻譯成不同的氨基酸 四重簡(jiǎn)并位點(diǎn):這一位點(diǎn)上無論是什么,都不會(huì)影響該密碼子的翻譯例:分類例子非簡(jiǎn)并位點(diǎn)苯丙氨酸(UUU)亮氨酸(CUU)

4、異亮氨酸(AUU)纈氨酸(GUU)雙重簡(jiǎn)并位點(diǎn)天冬氨酸(GAU,GAC)谷氨酸(GAA,GAG)四重簡(jiǎn)并位點(diǎn)甘氨酸(GGG,GGA,GGU,GGC)如果自然選擇在出現(xiàn)改變蛋白質(zhì)功能的變異的時(shí)候就起作用,那么很顯然,處于四重簡(jiǎn)并位點(diǎn)的核苷酸替換的積累最為迅速,而處于非簡(jiǎn)并位點(diǎn)的替換積累最為緩慢位點(diǎn)類型位點(diǎn)數(shù)目/bp替換數(shù)目替換速率(個(gè)替換/位點(diǎn)/10億年)非簡(jiǎn)并位點(diǎn)302170.56二重簡(jiǎn)并位點(diǎn)60101.67四重簡(jiǎn)并位點(diǎn)85202.35人、兔類球蛋白基因編碼序列里各種位點(diǎn)的替換率3.1.4 插入刪除情況和偽基因 在有轉(zhuǎn)錄活性的基因中,插入刪除很難發(fā)生。原因在于插入刪除會(huì)改變閱讀框。DNA和修復(fù)

5、酶經(jīng)過億萬年的進(jìn)化,已形成合理的機(jī)制,一般會(huì)使插入刪除比簡(jiǎn)單的堿基替換發(fā)生的概率小10倍 復(fù)制一條完整的基因可能形成很多復(fù)制品,其中一個(gè)提供原基因的必要功能,而其他的復(fù)制則積累了不受自然選擇的替換 某個(gè)不斷變化的復(fù)制品會(huì)出現(xiàn)一些新的重要功能,于是這個(gè)基因就變得對(duì)生物體的適應(yīng)性非常重要 更多時(shí)候復(fù)制出來的基因會(huì)成為偽基因,因?yàn)樽儺愂沟眠@樣的基因喪失了功能,失去了轉(zhuǎn)錄的活性。這些基因序列的替換積累速率相當(dāng)高,略高于同一物種的基因的3端側(cè)翼序列3.1.6 等位基因與固定絕大多數(shù)自然界現(xiàn)存的生物種群包含著大量的基因變異,從而形成等位基因。一個(gè)物種某個(gè)基因的不同版本被稱之為等位基因。- 舉個(gè)例子,人平均

6、每200個(gè)堿基對(duì)中就有一個(gè)不同于其他人。等位基因的差異變化很廣,從不會(huì)產(chǎn)生影響到產(chǎn)生嚴(yán)重后果。各種等位基因相對(duì)頻率的改變就是進(jìn)化的基礎(chǔ) 新的等位基因以非常低的頻率出現(xiàn):q = 1/2NN是這個(gè)種群中具有繁殖活性的二倍體的數(shù)量 危及生物體生存和繁殖的突變,會(huì)在自然選擇中,從基因庫(kù)里掃地出門,這種突變頻率最終降為0 如果等位基因優(yōu)勢(shì)突出,其頻率就漸漸接近于1,即該等位基因被固定 個(gè)體之間發(fā)現(xiàn)的許多變異的優(yōu)勢(shì)或劣勢(shì)都不明顯,在本質(zhì)上是選擇中性的。 基因任何中性變異被固定的概率是q 這里q為該等位基因的相對(duì)頻率基因任何中性變異最終從種群中消失的可能性為1-q,盡管基因新變異的固定概率可能很小,中性突變

7、卻能在種群中維持很長(zhǎng)的時(shí)間,固定新的中性突變的平均時(shí)間實(shí)際上相當(dāng)于繁衍4N代所經(jīng)歷的時(shí)間3.2.1 Jukes-Cantor模型在替換經(jīng)常出現(xiàn)的地方,某些位點(diǎn)就可能會(huì)發(fā)生多次替換Juke-Cantor假設(shè)每個(gè)核苷酸都有可能轉(zhuǎn)變成其他任何一個(gè)核苷酸,基于這一假設(shè),他們建立了一個(gè)數(shù)學(xué)模型假設(shè)每個(gè)核苷酸都有可能轉(zhuǎn)變成其他任何一個(gè)核苷酸,概率為。如果基因中某個(gè)位點(diǎn)在時(shí)刻t0為C,那么在時(shí)刻t1仍然是C的概率就是PC(1)=1-3在t2時(shí)刻是C的概率為: PC(2)=(1-3) PC(1)+ 1-PC(1)。在tk時(shí)刻是C的概率為: PC(k)=(1-3) PC(k-1)+ 1-PC(k-1) = +(

8、1-4)PC(k-1)。任意時(shí)間t時(shí)刻,位點(diǎn)為C的概率為(即非替換位點(diǎn)概率)PC(t) = 1/4+(3/4e-4t)估計(jì)替換數(shù)目的公式為: K = -3/4ln1-(4/3(p)這里p就是數(shù)出來的兩個(gè)序列間的不同核苷酸的分?jǐn)?shù)(錯(cuò)配位點(diǎn)與所有位點(diǎn)之間的比值,p 1)。該方程完全符合以下觀點(diǎn): 當(dāng)兩序列間只有少數(shù)錯(cuò)配時(shí),p就會(huì)很小,且任意一位點(diǎn)上發(fā)生多重替換的概率也很小 當(dāng)兩序列間錯(cuò)配數(shù)目很大時(shí),實(shí)際替換數(shù)目將大于直接計(jì)數(shù)得到的結(jié)果pKK= pK = -3/4ln1-(4/3(p)3.2.2 轉(zhuǎn)換和顛換ATCG胞嘧啶腺嘌呤胸腺嘧啶鳥嘌呤轉(zhuǎn)換 (transition)嘌呤 嘌呤嘧啶 嘧啶顛換 (t

9、ransvertion)嘌呤 嘧啶嘧啶 嘌呤在大多數(shù)DNA片段中,轉(zhuǎn)換出現(xiàn)的概率高于顛換出現(xiàn)的概率嘌呤:含氮堿基有兩個(gè)環(huán)狀結(jié)構(gòu)嘧啶:含氮堿基有一個(gè)環(huán)狀結(jié)構(gòu)3.2.3 Kimura的雙參數(shù)模型該模型考慮了轉(zhuǎn)換和顛換的不同速率。假定轉(zhuǎn)換一律以速率進(jìn)行,顛換一律以速率進(jìn)行。如果基因中某個(gè)位點(diǎn)在時(shí)刻t0為C,那么在時(shí)刻t1該位點(diǎn)保持C的概率是PCC(1)=1-23.2.4 多參數(shù)模型20世紀(jì)80年代以來,已經(jīng)產(chǎn)生出大量的序列數(shù)據(jù),對(duì)這些數(shù)據(jù)的分析結(jié)果表明:Kimua關(guān)于核苷酸以兩種速度變異的假設(shè),與Jukes-Cantor關(guān)于所有的核苷酸轉(zhuǎn)變?yōu)槠渌?種的概率都是相同的假設(shè)一樣,都過于簡(jiǎn)單既然存在4種核

10、苷酸,每一個(gè)都可以轉(zhuǎn)變?yōu)榱硗?個(gè)之一,因此就應(yīng)該有12種可能的替換每種突變類型的概率如下表所示,有了這些參數(shù),就可以建立更復(fù)雜的12參數(shù)模型由于GC含量會(huì)引起替換速率的差異,于是引進(jìn)第13個(gè)參數(shù)來彌補(bǔ)這個(gè)偏差人類基因組的Alu-Y(Sb)序列的核苷酸替換的相對(duì)頻率替換前替換后ATCG各行總計(jì)A-4.04.69.818.4-(1.5)(1.7)(3.6)(6.7)T3.3-10.42.716.4(1.2)-(3.8)(1.0)(6.0)C7.217.0-6.231.1(5.0)(33.2)-(4.5)(42.6)G23.64.66.0-34.2(37.7)(3.2)(3.7)-(44.7)各列總

11、計(jì)34.126.321.09.0(44.0)(37.8)(9.2)(18.7)3.3 基因間進(jìn)化率的變化基因內(nèi)不同部分的進(jìn)化率有著很明顯的差異,同樣,我們發(fā)現(xiàn)基因間的進(jìn)化率也是各不相同的。如果排除統(tǒng)計(jì)因素,進(jìn)化率的差別應(yīng)歸咎于兩個(gè)因素突變頻率的差異自然選擇對(duì)位置的影響程度同義替換率的差異遠(yuǎn)遠(yuǎn)不及異義替換率的差異盡管基因內(nèi)某些部位比其他區(qū)域更容易發(fā)生偶然的突變,但同義替換率的差別很少超過兩倍,而異義替換率卻有將近200倍的差異。和基因內(nèi)替換率的差別類似,基因間替換率的差別也主要由自然選擇在不同的位置的差異產(chǎn)生例:組蛋白與阿樸蛋白替換率差異組蛋白帶正電,是所有真核細(xì)胞中都存在的DNA結(jié)合蛋白組蛋白

12、上幾乎所有氨基酸都與特定的帶負(fù)電的DNA殘基直接發(fā)生相互作用因此,組蛋白氨基酸序列發(fā)生任何變化,都會(huì)影響它和DNA的反應(yīng)能力組蛋白是進(jìn)化最慢的已知蛋白種類的一種阿樸蛋白負(fù)責(zé)運(yùn)載脊椎動(dòng)物血液里的脂質(zhì),并與之發(fā)生非特異性作用它們的脂結(jié)合域主要由疏水氨基酸組成,任何疏水氨基酸在阿樸蛋白中的功能都是差不多的,它們?cè)谥Y(jié)合域中的互換不會(huì)產(chǎn)生太大的影響因此阿樸蛋白能快速積累異義替換盡管許多基因內(nèi)氨基酸的替換基本上是有害的,我們也必須指出有些基因群內(nèi)的變化是適應(yīng)自然選擇且必要的比如,人體的白細(xì)胞抗原基因(HLA)就在進(jìn)化的壓力下改變著。因此HLA位點(diǎn)內(nèi)的異義替換率就遠(yuǎn)高于它的同義替換率HLA位點(diǎn)包含一個(gè)龐大

13、的多基因家族,其蛋白質(zhì)產(chǎn)物和識(shí)別外來抗原的免疫功能相關(guān),大約90%的人從其父母繼承不同形式的HLA基因。200個(gè)人中大約會(huì)有1530個(gè)不同的等位基因如此高程度的多樣性之所以受到自然選擇的青睞,是因?yàn)樵诓煌拿庖呦到y(tǒng)下,易被單個(gè)病毒感染的個(gè)體數(shù)量可能會(huì)大大減少。宿主們迫于壓力必須維持免疫系統(tǒng)的多樣性,同時(shí)病毒也需要迅速進(jìn)化。3.4 分子時(shí)鐘在長(zhǎng)期的進(jìn)化過程中,有著相似的功能約束的位點(diǎn)的分子進(jìn)化速率幾乎完全一致。20世紀(jì)60年代最早由Emile Zuckerkandl和Linus Pauling所做的蛋白質(zhì)序列比較研究表明,蛋白質(zhì)同系物的替換率就算過了千百萬年也能保持恒定,因此他們將氨基酸的變異積

14、累比作分子鐘的滴答聲分子時(shí)鐘在不同的蛋白質(zhì)中運(yùn)行的速率是不同的,但是兩個(gè)蛋白質(zhì)同系物的差異始終和它們獨(dú)立分化的時(shí)間成正比兩序列穩(wěn)定的變異速率,不僅有助于確定物種間系統(tǒng)發(fā)生關(guān)系,而且能夠像利用放射性衰變考察地質(zhì)年代那樣,準(zhǔn)確測(cè)定序列分化發(fā)展的時(shí)間存在爭(zhēng)議:經(jīng)典進(jìn)化學(xué)家們認(rèn)為形態(tài)的進(jìn)化不夠穩(wěn)定,這與分子以穩(wěn)定的速度變異不一致;關(guān)于分化時(shí)間的確定也有不同意見,這些意見對(duì)這個(gè)假說的核心(即進(jìn)化率是穩(wěn)定的)表示質(zhì)疑3.4.1 相對(duì)速率檢測(cè)分子進(jìn)化研究中運(yùn)用的大多數(shù)分化時(shí)間是根據(jù)對(duì)極不完整的化石記錄的解釋而得來的,因此它們的準(zhǔn)確性值得懷疑。為避免使用這些不準(zhǔn)確的時(shí)間以防止出現(xiàn)問題,Sarich和Wilso

15、n發(fā)明了一個(gè)簡(jiǎn)單的測(cè)定不同家系中總替換率的方法,此方法可以不依賴分化的具體時(shí)間為了測(cè)定物種1和物種2的相對(duì)(變異)速率,我們假定以另一個(gè)不太相關(guān)的物種3作為外群或外部參考物種123人猩猩狒狒A假設(shè)兩物種的替換數(shù)目為沿著系統(tǒng)發(fā)生樹各分支的替換數(shù)目的總和,如下式所示:d13 = dA1 + dA3d23 = dA2 + dA3d12 = dA1 + dA2經(jīng)過簡(jiǎn)單代數(shù)變換,可得到物種1和物種2獨(dú)立分化后的差異dA1 = ( d12 + d13 - d23 ) / 2dA2 = ( d12 + d23 d13 ) / 2根據(jù)定義,物種1和物種2的分化起始時(shí)間是相同的,所以分子時(shí)鐘假設(shè)預(yù)測(cè)dA1和dA

16、2 的值也應(yīng)該是相等的任意基因的進(jìn)化速率在家系進(jìn)化的整個(gè)過程中保持穩(wěn)定是分子時(shí)鐘假說的前提條件。研究發(fā)現(xiàn),分子時(shí)鐘隨種群的不同而變化?,F(xiàn)在發(fā)現(xiàn)鼠和兔的替換率大體上是相同的;但是人和猿的分子進(jìn)化率只有古歐洲猴子的一半事實(shí)上,人和鼠同源基因相對(duì)進(jìn)化率的檢測(cè)表明:嚙齒動(dòng)物基因替換率是靈長(zhǎng)目的兩倍由于分子時(shí)鐘的這種不穩(wěn)定現(xiàn)象,用分子分化的時(shí)間來推測(cè)共同祖先最后出現(xiàn)的時(shí)間就可能出現(xiàn)問題。因此,在做這種推測(cè)之前,必須保證所研究的物種應(yīng)該有相同的時(shí)鐘,就像嚙齒動(dòng)物一樣3.4.2 家系中變異率的變化有幾種可能的說法對(duì)相對(duì)進(jìn)化率檢測(cè)中發(fā)現(xiàn)的進(jìn)化率的差異進(jìn)行了解釋,比如猴子的繁殖時(shí)間比人類短,嚙齒類就更短了生殖細(xì)

17、胞DNA復(fù)制的數(shù)量與替換率的關(guān)系比與分化時(shí)間的關(guān)系更為密切產(chǎn)生差異的部分原因也可能是自分化以來兩家系間的其他差異,如平均修復(fù)效率、新陳代謝率和適應(yīng)新生態(tài)環(huán)境的必要條件這些因素都很難用常規(guī)方法量化我們知道在分化之前有相似屬性,我們也知道它們的差異程度,但是對(duì)于在整個(gè)進(jìn)化過程中其他時(shí)間二者的差異我們了解的卻很少3.5 不同細(xì)胞器內(nèi)基因的進(jìn)化研究對(duì)象哺乳動(dòng)物線粒體DNA(mtDNA):平均長(zhǎng)度16000bp植物葉綠體DNA(cpDNA):平均長(zhǎng)度120000220000bp形態(tài)較小和異常的遺傳模式(哺乳動(dòng)物中,線粒體是由母親提供)令人們對(duì)它如何積累替換這一問題產(chǎn)生了興趣線粒體生物的新陳代謝使得線粒體

18、中出現(xiàn)的高濃度誘變劑(尤其是自由氧基),它能使mtDNA發(fā)生突變的速度比在細(xì)胞核中的DNA高出10倍。因此,對(duì)mtDNA的比較研究常用來探索緊密關(guān)聯(lián)的生物體種群間的關(guān)系(但對(duì)于那些分化已有千萬年之久的物種,由于每個(gè)位點(diǎn)都有可能發(fā)生多重替換,此方法用處不大)葉綠體葉綠體的替換速率遠(yuǎn)小于mtDNA,它的Ks和Ka只有同物種細(xì)胞核基因的1/4到1/5本章總結(jié)DNA和其他分子一樣,隨著時(shí)間推移積累化學(xué)損傷。當(dāng)這些損傷和DNA的修復(fù)誤差導(dǎo)致DNA分子信息內(nèi)容的改變,所謂的突變就發(fā)生了突變并不總是以相同的程度影響生物體是適應(yīng)性。自然選擇剔除了許多突變,那些被保留下來的突變就被稱為替換替換率可以衡量基因及基

19、因組其他部分功能的重要性。一些模型考慮了位點(diǎn)上多重替換發(fā)生的可能,用這些模型可以估算兩個(gè)核苷酸或氨基酸序列之間真實(shí)的替換數(shù)目相對(duì)替換率檢測(cè)表明:即使基因所受的功能約束程度差不多,某些生物體的替換率仍然比其他種類的替換率高習(xí)題3.1 假設(shè)現(xiàn)在地球有60億人口,大約平均30年是一代,請(qǐng)問多長(zhǎng)時(shí)間才能使你身上出現(xiàn)的一個(gè)中性的突變?cè)谌巳褐泄潭ㄏ聛恚?.2 用和問題3.1同樣的數(shù)據(jù),一個(gè)新的中性突變固定下來的概率為多少?這個(gè)突變消失的可能性比它大多少?3.3 下面的序列是人的前胰島素原基因的開始45個(gè)密碼子。根據(jù)遺傳密碼表,確定這45個(gè)密碼子第1、2、3位的堿基突變中哪些是同義的。在哪個(gè)位置上自然選擇影響最大,并且核苷酸最保守?ATC GCC CTG TGG ATG CGC CTC CTG CCC CTG CTG GCG CTG CTG GCCCTC TGG GGA CCT GAC CCA GCC GCA GCC TTT GTG AAC CAA CAC CTGTGC GGC TCA CAC CTG GTG GAA GCT CTC TAC CTA G

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論