版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、生物信息學(xué)考點(diǎn)整理目錄生物分子數(shù)據(jù)的收集和管理(1)數(shù)據(jù)庫搜索及序列比較(2)基因組序列分析(3)(4)基因表達(dá)數(shù)據(jù)的分析與處理(7)蛋白質(zhì)結(jié)構(gòu)預(yù)測(5)(6)(8)PART1生物信息學(xué):是生命科學(xué)、計(jì)算機(jī)科學(xué)、現(xiàn)代信息科學(xué)、數(shù)學(xué)、物理學(xué)以及化學(xué)等多個(gè)學(xué)科交叉形成的一門新學(xué)科,是利用信息技術(shù)和數(shù)學(xué)方法對生命科學(xué)研究中的生物信息進(jìn)行收集、加工、存儲(chǔ)、檢索、分析和解釋的科學(xué)。生物信息學(xué)的發(fā)展歷程:一、萌芽期(20世紀(jì)50-70年代)1、50年代:生物信息學(xué)開始孕育1953 Watson和Crick提出了DNA雙螺旋結(jié)構(gòu)。1955 F. Sanger發(fā)表了胰島素的蛋白質(zhì)序列。1956 美國田納西州首
2、次召開了“生物學(xué)中的理論研討會(huì)”。2、60年代:生物分子信息在概念上將計(jì)算生物學(xué)和計(jì)算機(jī)科學(xué)聯(lián)系起來1962 L. Pauling提出來分子進(jìn)化理論。1967 Dayhoff構(gòu)建了蛋白質(zhì)序列數(shù)據(jù)庫。3、70年代:生物信息學(xué)的真正開端(序列比對算法)1970 Needleman和Wunsch提出了著名的序列比對算法。1971 美國紐約Brookhaven國家實(shí)驗(yàn)室創(chuàng)建了蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(Protein data bank, PDB)。1974 歐洲分子生物學(xué)實(shí)驗(yàn)室(European molecular biology laboratory, EMBL)建立1977 Maxam和Gilbert發(fā)表
3、了化學(xué)降解法,Sanger和Coulson發(fā)表雙脫氧終止DNA測序法。1978 Gingeras等人研制了核酸序列中酶切位點(diǎn)識(shí)別程序。二、形成期(80年代)生物信息服務(wù)機(jī)構(gòu)和數(shù)據(jù)庫1982 建立GenBank數(shù)據(jù)庫。1984 日本國立遺傳學(xué)研究所NIG(National institute of genetics)開始信息服務(wù)。1986 創(chuàng)立SwissProt蛋白序列數(shù)據(jù)庫;美國能源部正式提出實(shí)施測定人類基因組全序列的計(jì)劃。1987 NIG發(fā)行日本DNA數(shù)據(jù)庫DDBJ(DNA Data Bank of Japan);1988 Person和Lipman發(fā)表了著名的序列比較算法FASTA; 美國
4、國家生物技術(shù)信息中心NCBI(National Center for Biotechnology Information)誕生;成立歐洲分子生物學(xué)網(wǎng)絡(luò)(EMBNet),EMBL核酸序列數(shù)據(jù)庫誕生。1989 林華安首先采用“bioinformatics”一詞。三、高速發(fā)展期(90年代至今)HGP促進(jìn)生物信息學(xué)的迅速發(fā)展1990 人類基因組計(jì)劃(Human Genome Project, HGP)正式啟動(dòng)。Altschul發(fā)表Blast(The Basic Local Alignment Search Tool )算法。1991 Venter在科學(xué)雜志上描述表達(dá)序列標(biāo)簽(Expressed Seq
5、uence Tag, EST)的建立和使用。1992 Venter在美國馬里蘭州成立基因組研究所(the institute of genome research, TIGR)。1994 歐洲生物信息學(xué)研究所(European Bioinformatics Institute, EBI)成立。1995 科學(xué)雜志刊登全基因組鳥槍法(Whole genome shotgun, WGS)完成的流感嗜血桿菌全基因組測序的論文。標(biāo)志著基因組時(shí)代的真正開始。PART21、序列比對與比對搜索基本概念在越來越多的基因組測序完成以后,尋找物種內(nèi)和物種間蛋白質(zhì)的相關(guān)性對于理解生命來說變得越來越重要。目前,序列比對
6、(sequence alignment)已經(jīng)成為生物信息處理的基本工具。任何一條由字母組合形成的DNA或蛋白質(zhì)序列都會(huì)與其他類似構(gòu)成的序列有相似性。有方法可以對這樣的相似性進(jìn)行量化評價(jià),然而要把“偶然性”的相似與真實(shí)進(jìn)化和(或)功能關(guān)系意義上的相似區(qū)分開來,還需要考慮更多的因素。2、比對序列的選擇:核酸序列還是蛋白質(zhì)序列氨基酸序列氨基酸序列比對通常具有更豐富的信息,例如,許多氨基酸具有相似的理化性質(zhì),在進(jìn)行氨基酸序列比對時(shí)可以用一打分系統(tǒng)來描述這些相關(guān)的氨基酸之間的重要相關(guān)性。核苷酸序列確定給定DNA序列和DNA數(shù)據(jù)庫中一致性搜索多態(tài)性分析所克隆的cDNA片段的一致性等3、同源性、相似性和一致
7、性同源性(homology):(1)如果兩個(gè)序列有一個(gè)共同的進(jìn)化祖先,那么它們是同源的。同源性是一種論斷,不存在同源性的程度問題,兩條序列之間要么是同源的,要么是不同源的。(簡單地說,同源序列是指從某一共同祖先經(jīng)趨異進(jìn)化而形成的不同序列)(2)兩條蛋白質(zhì)序列即使沒有統(tǒng)計(jì)上顯著的一致性(identity),它們也可能是同源的。(3)同源蛋白在三維結(jié)構(gòu)上常具有顯著的相似性(similarity)。(4)兩蛋白質(zhì)之間三維結(jié)構(gòu)的趨異比氨基酸序列一致性的趨異要慢直系同源(orthology) :不同物種內(nèi)的同源序列,它們來自于物種形成時(shí)的共同祖先基因。旁系同源(paralogy):是指同一基因組(或同一
8、物種的基因組)中,由于始祖基因的加倍而橫向/水平方向(horizontal)產(chǎn)生的幾個(gè)同源基因即:旁系同源是基因復(fù)制的結(jié)果,兩份拷貝在一個(gè)物種的歷史上是平行演化的。這樣的基因就被稱為旁系同源基因。直系同源與旁系同源的共性:它們是同源的,都源于各自的始祖基因。直系同源與旁系同源的區(qū)別:在進(jìn)化起源上,直系同源是強(qiáng)調(diào)在不同基因組中的垂直傳遞,旁系同源則是在同一基因組中的橫向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定義上對功能上沒有嚴(yán)格要求,可能相似,但也可能并不相似(盡管在結(jié)構(gòu)上具有一定程度的相似),甚至于沒有功能(如基因家族中的假基因)一致性(identity):兩氨基酸(核苷酸)序
9、列相同的程度。11/44=25%相似性(similarity):除了一致的氨基酸,還進(jìn)一步考慮了相似的氨基酸。14/44=32%相似性本身的含義,并不要求與進(jìn)化起源是否同一,與親緣關(guān)系的遠(yuǎn)近,甚至于結(jié)構(gòu)與功能有什么聯(lián)系。當(dāng)相似程度高于50%時(shí),比較容易推測檢測序列和目標(biāo)序列可能是同源序列;而當(dāng)相似性程度低于20%時(shí),就難以確定或者根本無法確定其是否具有同源性。4、多序列對比多序列比對,實(shí)質(zhì)上是一組蛋白質(zhì)之間的一系列的雙序列比對。與雙序列比對相比,多序列比對更能發(fā)現(xiàn)進(jìn)化保守關(guān)系信息。在雙序列比對中出現(xiàn)的相同氨基酸殘基,雖然在兩條序列上是保守的,但是這一事件的發(fā)生可能是偶然的。而如果在多序列比對中
10、都出現(xiàn)相同的氨基酸殘基,則說明該殘基是進(jìn)化保守的可能性更大。多序列比對可用于分析基因的起源問題。5、打分矩陣(Scoring Matrices)看書5.1、Dayhoff模型可接受點(diǎn)突變(accepted point mutation, PAM):在蛋白質(zhì)中被自然選擇接受的單個(gè)氨基酸替換Dayhoff,71組緊密相關(guān)的蛋白質(zhì)中的1572個(gè)變化表3.2 可接受點(diǎn)突變數(shù)目表3.3 氨基酸相對突變可能性表3.4 每種氨基酸出現(xiàn)的頻率5.2、PAM1矩陣表3.5 突變概率矩陣(進(jìn)化時(shí)期為一個(gè)PAM)此處PAM定義為進(jìn)化趨異(mutation probability matrix)的單位, 即兩個(gè)蛋白1
11、%氨基酸發(fā)生變化的時(shí)間PAM1矩陣基于緊密相關(guān)蛋白質(zhì)序列的比對,一致性>85%5.3、PAM250和其它矩陣表3.6 PAM250突變概率矩陣(進(jìn)化時(shí)期為一個(gè)250個(gè)PAM)反映遠(yuǎn)源相關(guān)蛋白中氨基酸的替換頻率極端情況:PAM0,PAM5.4、突變概率矩陣對數(shù)比值打分矩陣S(a, b)=10*lg(Mab/Pb), Mab的值為氨基酸殘基a突變到b的突變概率,歸一化頻率Pb代表隨機(jī)情況下殘基b出現(xiàn)的概率。利用對數(shù)比值矩陣使得我們在獲得兩序列的比對結(jié)果時(shí),可以直接把比對殘基的分值相加而非相乘,從而簡化了計(jì)算。表 3.7 PAM250對數(shù)比值矩陣 (遠(yuǎn)源蛋白)表 3.8 PAM10對數(shù)比值矩陣
12、 (保守蛋白)分值的意義?不同的打分矩陣對不同相關(guān)程度的蛋白質(zhì)序列的敏感性不同PAM矩陣的重要替代者:BLOSUM打分矩陣Henikoff 等 1992, 區(qū)塊替換矩陣(blocks substitution matrix, BLOSUM)集中關(guān)注遠(yuǎn)相關(guān)蛋白的保守區(qū)塊BLOSUM矩陣后面的數(shù)值表示了矩陣可評價(jià)的蛋白質(zhì)間的一致性程度,如, BLOSUM62矩陣可用于評價(jià)一致性<62%的蛋白質(zhì)。高值BLOSUM矩陣和低值PAM矩陣最適合研究高度保守的蛋白,低值BLOSUM矩陣和高值PAM矩陣最適合檢測遠(yuǎn)源相關(guān)蛋白。6、序列比對的數(shù)學(xué)模型:全局和局部序列比對的數(shù)學(xué)模型大體可以分為兩類,一是從全
13、長序列出發(fā),考慮序列的整體相似性,即整體比對;第二類考慮序列部分區(qū)域的相似性,即局部比對。6.1、局部相似性比對法局部相似性比對的生物學(xué)基礎(chǔ)是蛋白質(zhì)功能位點(diǎn)往往是由較短的序列片段組成的,這些部位的序列具有相當(dāng)大的保守性,盡管在序列的其它部位可能有插入、刪除或突變。此時(shí),局部相似性比對往往比整體比對具有更高的靈敏度,其結(jié)果更具生物學(xué)意義。數(shù)據(jù)庫常用的搜索程序BLAST等均采用局部相似性比對的方法,具有較快的運(yùn)行速度,而基于整體相似性比對的數(shù)據(jù)庫搜索程序則需要超級(jí)計(jì)算機(jī)或?qū)S糜?jì)算機(jī)才能實(shí)現(xiàn)。6.2、比對算法:全局和局部打分矩陣計(jì)算量巨大,目前已有快速完成比對的算法:全局比對算法(Needleman
14、-Wunsch算法):查找的是序列的全局相似性,試圖盡可能地覆蓋整條序列,從某條序列的最左端開始到最右端結(jié)束。局部比對算法(Smith-Waterman算法):查找的是序列的局部相似性,得到的比對結(jié)果可能只覆蓋了每條序列的一小部分。局部比對算法使用更為廣泛,許多數(shù)據(jù)庫搜索算法(如BLAST)使用局部比對算法7、 局部比對基本搜索工具BLAST(重點(diǎn)考點(diǎn))BLAST的廣泛:1,2,3,4,5,6,7. (P77)BLAST搜索序列數(shù)據(jù)庫的步驟:選擇Blast程序限定搜索范圍選擇和指定算法參數(shù)(1)BLAST程序家族:(2)限定搜索范圍(3)選擇和指定算法參數(shù)通用參數(shù)(general parame
15、ters)打分參數(shù)(scoring parameters)過濾和屏蔽(filters and masking)8、兩條序列比對方法采用Blast進(jìn)行序列兩兩對齊分析采用本地化軟件進(jìn)行兩條序列比對8.1、雙序列比對的顯著性:一致性百分比8.2、雙序列比對和檢測限度序列比對應(yīng)該存在一檢測限度,低于這一限度,兩個(gè)同源蛋白的差異程度較大使得它們的比對結(jié)果沒有顯著性8.3、采用本地化軟件進(jìn)行兩序列比對做多重比對分析的本地軟件也可以做兩兩比對分析,如ClustalX軟件等。Clustal是一個(gè)單機(jī)版的基于漸進(jìn)比對的多序列比對工具。其基本思想就是基于相似序列通常具有進(jìn)化相關(guān)性的這一假設(shè)。DNAStar,DN
16、AMan,MEGA等軟件也可以進(jìn)行序列比對。8.3.1、Clustal 比對后的結(jié)果的編輯BioEdit(詳細(xì)見第二講PPT)Clustal 比對后的結(jié)果的編輯在線著色軟件Boxshade9、尋找遠(yuǎn)緣相關(guān)的蛋白質(zhì):PSI-BLAST10、模式識(shí)別BLAST:PHI-BLAST11、 用BLAST來發(fā)現(xiàn)新基因本章考點(diǎn):同源性、相似性、一致性、直系同源、旁系同源、全局比對、局部比對、雙序列比對的顯著性熟悉BLAST的比對及對結(jié)果的解讀熟悉ClustalX的使用及結(jié)果的編輯熟悉BioEdit等軟件PART31、基因及其結(jié)構(gòu)基因:生命體執(zhí)行復(fù)雜功能的基本元件,對基因結(jié)構(gòu)的注釋即是確定基因在基因組中的外
17、顯子內(nèi)含子結(jié)構(gòu)?;蚍诸悾旱鞍踪|(zhì)編碼基因、RNA基因和假基因。經(jīng)過剪接、拼接等生物過程之后,最終翻譯成蛋白質(zhì)序列?;蚪Y(jié)構(gòu)復(fù)雜:(1)外顯子不連續(xù),被內(nèi)含子間隔,內(nèi)含子長度和數(shù)目差別大。(2)基因存在復(fù)雜的選擇性剪接現(xiàn)象。(3)存在基因交疊和融合等復(fù)雜生物學(xué)現(xiàn)象。蛋白質(zhì)編碼基因存在多種功能位點(diǎn)信號(hào):轉(zhuǎn)錄起始位點(diǎn)(Transcription strart site, TSS)翻譯起始位點(diǎn)(Translation strart site, TIS)剪接位點(diǎn) (splice site)翻譯終止位點(diǎn) (Translation termination site, TTS) ,Poly(A)位點(diǎn)調(diào)控元件:
18、轉(zhuǎn)錄因子結(jié)合位點(diǎn) (transcription factor binding site, TFBS), 增強(qiáng)子(enhancer)和衰減子(sliencer)2、基因結(jié)構(gòu)預(yù)測概述現(xiàn)有的基因預(yù)測方法大致可分為兩類:基于表達(dá)數(shù)據(jù)的基因預(yù)測基于機(jī)器學(xué)習(xí)方法的基因預(yù)測3、基于表達(dá)數(shù)據(jù)的基因預(yù)測方法利用基因產(chǎn)物(包括cDNA、EST以及蛋白質(zhì)等)反推基因結(jié)構(gòu)受公共數(shù)據(jù)可中是否存在待分析基因產(chǎn)物的影響,但對于基因組序列剛測序完成的物種,可采用這種方法完成該物種中基因的初步確定。cDNA和蛋白質(zhì)序列可直接用于確定基因完整的蛋白質(zhì)編碼區(qū)域,而EST僅為基因的部分轉(zhuǎn)錄片段、序列測序質(zhì)量較低且存在多種污染物,常需
19、要經(jīng)過一系列復(fù)雜的處理才能實(shí)現(xiàn)基因的識(shí)別。4、Genscan基因預(yù)測在線軟件應(yīng)用GENSCAN是一個(gè)什么樣的軟件?(詳細(xì)如何操作見第三講PPT)GENSCAN是美國麻省理工大學(xué)的Chris Burge于1997年開發(fā)成功的人類(或脊椎動(dòng)物)基因預(yù)測軟件,它根據(jù)基因的整體結(jié)構(gòu)進(jìn)行基因預(yù)測,不依賴于已有的蛋白庫,是一種"從頭預(yù)測"軟件。目前Chris Burge還開發(fā)了適用于果蠅、擬南芥菜、玉米的專用版本。對于非版本專用的物種,其預(yù)測準(zhǔn)確率會(huì)下降。PART4 引物的設(shè)計(jì)1、引物設(shè)計(jì)是PCR技術(shù)中至關(guān)重要的一環(huán)使用不合適的PCR引物容易導(dǎo)致實(shí)驗(yàn)失敗:非特異性擴(kuò)增擴(kuò)增產(chǎn)物量較少無擴(kuò)
20、增產(chǎn)物2、引物設(shè)計(jì)的原則:非特異性擴(kuò)增引物與模板的序列要緊密互補(bǔ)擴(kuò)增產(chǎn)物量較少引物與引物之間避免形成穩(wěn)定的二聚體或發(fā)夾結(jié)構(gòu)無擴(kuò)增產(chǎn)物引物不能在模板的非目的位點(diǎn)引發(fā)DNA聚合反應(yīng)(即錯(cuò)配)3、引物設(shè)計(jì)時(shí)考慮的因素引物長度堿基分布的均衡性(GC含量)Tm值引物二級(jí)結(jié)構(gòu)引物3端和引物5端引物的保守性與特異性引物長度引物長度一般為15-30bp常用的是18-27bp,太短則特異性降低容易引起錯(cuò)配,太長則結(jié)合能量過高,導(dǎo)致其延伸溫度大于74°,不易結(jié)合兩條引物的長度差不超過4bp堿基分布的均衡性(GC含量)GC含量一般為40-60%(45-55%)GC含量太低導(dǎo)致因?yàn)門m值較低,使用較低的退火
21、溫度不利于提高PCR的特異性GC含量太高也易于引發(fā)非特異擴(kuò)增避免多個(gè)重復(fù)堿基,尤其是4個(gè)或超過4個(gè)的G上下游GC含量需要相接近(5%)Tm值Tm值在58-60 (55-70)之間(軟件計(jì)算差異大,需要實(shí)驗(yàn)人員摸索)兩條引物的Tm值盡量接近,相差最好不超過2 引物的二級(jí)結(jié)構(gòu)引物的3端和5端引物的3端引物的3端末尾不能使用堿基A。因?yàn)?端的末位堿基對Taq酶的DNA合成效率有較大的影響,末位堿基為A的錯(cuò)配效率明顯高于其他3個(gè)堿基。引物3端不要出現(xiàn)3個(gè)以上的連續(xù)相同堿基,如GGG或CCC,也會(huì)使錯(cuò)誤引發(fā)幾率增加引物的延伸從3端開始,因此3端的幾個(gè)堿基與模板DNA均需嚴(yán)格配對,不能進(jìn)行任何修飾,否則不
22、能進(jìn)行有效的延伸,甚至導(dǎo)致PCR擴(kuò)增完全失敗。引物的5端引物5端可以有與模板DNA不配對堿基,在5端引入一段非模板依賴性序列,如增加酶切位點(diǎn)等。引物的保守性與特異性保守性:通用引物檢測到盡可能多的類型特異性:避免非特異性擴(kuò)增4、引物設(shè)計(jì)的軟件和工具Primer 3 (在線)Primer premier 5Primer expressOligo 6NCBI blast4.1、Primer Premier 5.0 簡介主要功能1、即引物設(shè)計(jì)2、限制性內(nèi)切酶位點(diǎn)分析3、DNA基元(motif)查找4、同源性分析PART5 SNP及測序數(shù)據(jù)分析基因組序列差異包括:核苷酸變異(單個(gè)堿基的替換+小片段的插
23、入缺失),結(jié)構(gòu)變異(長度超過1k的序列變異)結(jié)構(gòu)變異(Structure Variation, SV): 大片段插入缺失,倒位(inversion),平衡易位(balanced translocation),拷貝數(shù)變異(copy number variation) 1、什么是SNP? SNP(Single Nucleotide Polymorphism),稱為單核苷酸多態(tài)性,是DNA序列單個(gè)核苷酸上發(fā)生的一種變異。單個(gè)核苷酸在特定種群中發(fā)生變異的概率超過1%時(shí),它稱為SNP,否則稱為單核酸突變(Single Nucleotide Variation,SNV)。廣義SNP包含單個(gè)堿基的替換和小片
24、段的插入缺失,狹義SNP單指單個(gè)堿基的替換。Allele: 同一個(gè)位點(diǎn)上由SNP位點(diǎn)造成的兩種或多種等位基因形式,如A/G或C/T是兩個(gè)等位基因。2、SNP的類型:轉(zhuǎn)換(transitions):嘌呤和嘌呤之間或嘧啶和嘧啶之間的替換。A/G, C/T顛換(transversions):嘌呤和嘧啶之間的替換。 A/C, A/T, G/C, G/T轉(zhuǎn)換的發(fā)生率總是明顯高于其它幾種變異,轉(zhuǎn)換和顛換之比為2:1。轉(zhuǎn)換的幾率之所以高,可能是因?yàn)镃G序列上的C經(jīng)常甲基化并自發(fā)地脫去氨基而形成胸腺嘧啶。3、SNP的特點(diǎn)SNP廣泛地分布于基因組中,是大多數(shù)群體中最豐富的一種遺傳變異類型。它是人類可遺傳的變異中
25、最常見的一種。占所有已知多態(tài)性的90%以上。平均每5001000個(gè)堿基對中就有1個(gè),估計(jì)其總數(shù)可達(dá)300萬個(gè)甚至更多。SNP的遺傳穩(wěn)定性、遺傳分析重現(xiàn)性和準(zhǔn)確性都較以前的標(biāo)記好。SNP具有二態(tài)性的特點(diǎn)。理論上講,SNP既可能是二等位多態(tài)性,也可能是3個(gè)或4個(gè)等位多態(tài)性,但實(shí)際上,后兩者非常少見,幾乎可以忽略。因此,通常所說的SNP都是二等位多態(tài)性的。SNP的獨(dú)特之處還在于,不同于僅僅只能作為標(biāo)記起到指示路標(biāo)作用的其他分子標(biāo)記,它本身,特別是基因編碼區(qū)SNPs(cSNPs)更有可能與基因的功能相關(guān),或是由于與目標(biāo)基因位點(diǎn)連鎖而產(chǎn)生的間接相關(guān),或是導(dǎo)致基因功能變化的直接相關(guān)(即某功能基因內(nèi)的某一S
26、NPs可能是該基因產(chǎn)生作用的關(guān)鍵所在)。4、SNP在基因組上的分布在DNA任何位置,DNA都有可能發(fā)生,根據(jù)SNP在基因中的位置,可分為:基因編碼區(qū)SNPs(Coding-region SNPs,cSNPs),基因周邊SNPs(Perigenic SNPs, pSNPs)基因間SNPs (Intergenic SNPs, iSNPs)在外顯子內(nèi),其變異率僅為周圍序列的1/5,cSNP可進(jìn)一步分為:同義SNP(synonymous cSNP):堿基被替換之后,產(chǎn)生了新的密碼子,但由于生物的遺傳密碼子存在簡并現(xiàn)象,新舊密碼子仍是同義密碼子,所編碼的氨基酸種類保持不變,因此同義突變并不產(chǎn)生突變效應(yīng)。
27、非同義SNP(non-synonymous cSNP):導(dǎo)致氨基酸改變的核苷酸變異。5、常用于衡量序列核苷酸多態(tài)性的兩個(gè)指標(biāo)6、DNA序列多態(tài)性分析軟件DNASP的應(yīng)用1、首先將database表中的數(shù)據(jù)轉(zhuǎn)化為Fasta格式2、將Fasta文件導(dǎo)入DNAspPART6 分子系統(tǒng)發(fā)生分析1、 系統(tǒng)發(fā)生關(guān)系 是表示物種進(jìn)化關(guān)系的參考依據(jù)。從傳統(tǒng)意義上來說,物種的系統(tǒng)發(fā)生關(guān)系是通過比較大量不同的生物體形態(tài)學(xué)特征的差異來估計(jì)的。但是,分子水平的序列數(shù)據(jù)也能(能更好)被用于物種系統(tǒng)發(fā)生分析的研究中。2、系統(tǒng)發(fā)生樹的意義:研究物種進(jìn)化歷史有助于基因功能的研究有助于了解病毒傳播的方式有些序列比對算法要依賴于
28、進(jìn)化樹的構(gòu)建3、系統(tǒng)發(fā)生樹的基本概念:系統(tǒng)發(fā)生樹是由一系列節(jié)點(diǎn)(node)和邊(branch)組成的無環(huán)連通圖。節(jié)點(diǎn):描述分類節(jié)點(diǎn)。內(nèi)部節(jié)點(diǎn)(internal node)(分支點(diǎn)):代表進(jìn)化事件發(fā)生的位置或代表分類單元進(jìn)化歷程中的祖先;外部節(jié)點(diǎn)(terminal node)(葉節(jié)點(diǎn)),內(nèi)部節(jié)點(diǎn)外部節(jié)點(diǎn)代表實(shí)際觀察到的分類單元,又稱操作單元(operational taxonomic unit)。分支:代表物種間的進(jìn)化關(guān)系進(jìn)化分支有根樹和無根樹4、直系同源和旁系同源分子系統(tǒng)發(fā)生分析的對象往往是一組同源序列。直系同源(ortholog):由物種的分化而形成,且通常具有同樣的功能。旁系同源(para
29、log):由基因復(fù)制而產(chǎn)生,往往在行駛的功能上有所差異。構(gòu)建物種數(shù),當(dāng)使用直系同源序列,而非旁系同源序列5、選擇可供分析的序列(串聯(lián)前面的知識(shí)點(diǎn))一般情況下,蛋白質(zhì)進(jìn)化緩慢,因而適于研究遠(yuǎn)緣種間的系統(tǒng)關(guān)系,而DNA的分子鐘速度快,適宜分析近緣種間的進(jìn)化(例如,同義突變可以從核酸序列上反應(yīng)出來,其次還可以研究基因組中一些非編碼蛋白質(zhì)區(qū)域的分子進(jìn)化,如UTR和內(nèi)含子序列)多序列比對多序列比對的結(jié)果是后續(xù)構(gòu)建系統(tǒng)發(fā)生樹的基礎(chǔ),是系統(tǒng)發(fā)生分析中較為關(guān)鍵的一步,需保證所分析的序列是同源的。雖然通過對含有非同源序列的數(shù)據(jù)集進(jìn)行多序列比對,仍能構(gòu)建出一棵系統(tǒng)發(fā)生樹,然而這樣建立出的系統(tǒng)發(fā)生樹沒有任何生物學(xué)意
30、義,因?yàn)榉峭葱蛄械倪M(jìn)化過程不能代表生物體的進(jìn)化過程。多序列比對軟件,ClustalXDatabase 中的SNP數(shù)據(jù)不需要進(jìn)行比對6、構(gòu)建系統(tǒng)發(fā)生樹系統(tǒng)發(fā)生樹的構(gòu)建方法可分為兩類基于距離的方法(distance-based method):根據(jù)進(jìn)化距離模型推導(dǎo)出分類單元之間的進(jìn)化距離,然后依據(jù)一定的算法和規(guī)則構(gòu)建系統(tǒng)發(fā)生樹。主要包括非加權(quán)組平均法(UPGMA)和鄰接法(NJ)基于字母特征的方法(distance-based method):通過分析字符間的進(jìn)化關(guān)系(如核苷酸序列的變化)來構(gòu)建系統(tǒng)發(fā)生樹。這類方法主要包括最大簡約法(MP)和最大似然法(ML)等基于距離法是最常用的構(gòu)建系統(tǒng)發(fā)生樹的方法。在這種方法中,首先需要根據(jù)某種進(jìn)化距離模型計(jì)算出所有分類單元間的進(jìn)化距離(距離矩陣),然后根據(jù)不同的算法,比如依次聚類進(jìn)化距離最短的類(UPGMA),或一定的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 貴州城市職業(yè)學(xué)院《女生健美操》2023-2024學(xué)年第一學(xué)期期末試卷
- 貴陽職業(yè)技術(shù)學(xué)院《藥品與生物制品檢測》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025貴州省建筑安全員《B證》考試題庫及答案
- 貴陽人文科技學(xué)院《室內(nèi)空氣污染監(jiān)測與治理實(shí)驗(yàn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣州珠江職業(yè)技術(shù)學(xué)院《電路分析實(shí)驗(yàn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025天津市安全員-C證考試題庫
- 廣州應(yīng)用科技學(xué)院《女性文學(xué)與女性文化研究》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣州衛(wèi)生職業(yè)技術(shù)學(xué)院《城鄉(xiāng)規(guī)劃設(shè)計(jì)基礎(chǔ)II》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣州鐵路職業(yè)技術(shù)學(xué)院《電化學(xué)與腐蝕原理》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025云南省建筑安全員-C證考試(專職安全員)題庫附答案
- GB/T 29084-2012航天器接地要求
- 《網(wǎng)絡(luò)文件提交系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)【論文】12000字》
- 公司倉庫檢查表
- 數(shù)字圖像處理-第2章-數(shù)字圖像處理基礎(chǔ)課件
- 礦山檔案(臺(tái)帳) 表格參照模板參考范本
- 《機(jī)械設(shè)備維護(hù)與保養(yǎng)》課程標(biāo)準(zhǔn)
- 圓管鋼立柱柱吊裝施工方案
- 河南省對口升學(xué)文秘類專業(yè)課試題卷
- 醫(yī)療器械經(jīng)營質(zhì)量管理體系文件(全套)
- 磷酸鐵鋰電池工商業(yè)儲(chǔ)能項(xiàng)目施工組織設(shè)計(jì)方案
- 建筑節(jié)能分部工程質(zhì)量驗(yàn)收報(bào)告(樣本)
評論
0/150
提交評論