![生物信息學(xué)復(fù)習(xí)題及答案陶士珩_第1頁](http://file1.renrendoc.com/fileroot_temp2/2020-12/4/eab4140a-5205-4a58-91e8-bcead8ae788f/eab4140a-5205-4a58-91e8-bcead8ae788f1.gif)
![生物信息學(xué)復(fù)習(xí)題及答案陶士珩_第2頁](http://file1.renrendoc.com/fileroot_temp2/2020-12/4/eab4140a-5205-4a58-91e8-bcead8ae788f/eab4140a-5205-4a58-91e8-bcead8ae788f2.gif)
![生物信息學(xué)復(fù)習(xí)題及答案陶士珩_第3頁](http://file1.renrendoc.com/fileroot_temp2/2020-12/4/eab4140a-5205-4a58-91e8-bcead8ae788f/eab4140a-5205-4a58-91e8-bcead8ae788f3.gif)
![生物信息學(xué)復(fù)習(xí)題及答案陶士珩_第4頁](http://file1.renrendoc.com/fileroot_temp2/2020-12/4/eab4140a-5205-4a58-91e8-bcead8ae788f/eab4140a-5205-4a58-91e8-bcead8ae788f4.gif)
![生物信息學(xué)復(fù)習(xí)題及答案陶士珩_第5頁](http://file1.renrendoc.com/fileroot_temp2/2020-12/4/eab4140a-5205-4a58-91e8-bcead8ae788f/eab4140a-5205-4a58-91e8-bcead8ae788f5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 生物信息學(xué)復(fù)習(xí)題及答案(陶士) 珩 生物信息學(xué)復(fù)習(xí)題 一、 名詞解釋 生物信息學(xué), 二級數(shù)據(jù)庫, FASTA序列格式, genbank序列格式, Entrez,BLAST,查詢序列(query),打分矩陣(scoring matrix),空位(gap),空位罰分,E值, 低復(fù)雜度區(qū)域,點(diǎn)矩陣(dot matrix),多序列比對,分子鐘,系統(tǒng)發(fā)育(phylogeny),進(jìn)化樹的二歧分叉結(jié)構(gòu),直系同源,旁系同源,外類群,有根 樹,除權(quán)配對算法(UPGMA),鄰接法構(gòu)樹,最大簡約法構(gòu)樹,最大似然法構(gòu)樹,一致樹(consensus tree),bootstrap,開放閱讀框(ORF),密碼子偏性(c
2、odon bias),基因預(yù)測的從頭分析法,結(jié)構(gòu)域(domain),超家族,模體(motif),序列表譜(profile),PAM矩陣,BLOSUM,PSI-BLAST,RefSeq,PDB數(shù)據(jù)庫,GenPept,折疊子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表譜(profile)。 二、 問答題 1)生物信息學(xué)與計(jì)算生物學(xué)有什么區(qū)別與聯(lián)系? 2)試述生物信息學(xué)研究的基本方法。 3)試述生物學(xué)與生物信息學(xué)的相互關(guān)系。 4)美國國家生物技術(shù)信息中心(NCBI)的主要工作是什么?請列舉3個(gè)以上NCBI維護(hù)的數(shù)據(jù)庫。 5)序列的相似性與同
3、源性有什么區(qū)別與聯(lián)系? 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么? 7)簡述BLAST搜索的算法。 8)什么是物種的標(biāo)記序列? 9)什么是多序列比對過程的三個(gè)步驟? 10)簡述構(gòu)建進(jìn)化樹的步驟。 11)簡述除權(quán)配對法(UPGMA)的算法思想。 12)簡述鄰接法(NJ)的算法思想。 13)簡述最大簡約法(MP)的算法思想。 14)簡述最大似然法(ML)的算法思想。 15)UPGMA構(gòu)樹法不精確的原因是什么? 16)在MEGA2軟件中,提供了多種堿基替換距離模型,試列舉其中2種,解釋其含義。 17)試述DNA序列分析的流程及代表性
4、分析工具。 18)如何用BLAST發(fā)現(xiàn)新基因? 19)試述SCOP蛋白質(zhì)分類方案。 20)試述SWISS-PROT中的數(shù)據(jù)來源。 21)TrEMBL哪兩個(gè)部分? 22)試述PSI-BLAST 搜索的5個(gè)步驟。 三、 操作與計(jì)算題 1) 如何獲取訪問號為U49845的genbank文件?解釋如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 檢索系統(tǒng),對核酸數(shù)據(jù)搜索,輸入如下信息,將獲得什Entrez利用 )2 么結(jié)果: 。AF114696:AF114714ACCN工具在結(jié)果呈現(xiàn)上有什么BLAST2
5、相比使用BLAST套件搜索數(shù)據(jù)庫, 3) 優(yōu)點(diǎn)?格式的多序列比MEGE MEGA2如何將其它多序列比對格式文件轉(zhuǎn)化為4) 對文件? ?什么簡約信息位點(diǎn)Pi5) 以下軟件的主要用途是什么?) 6finder, ORF View, Genscan, RepeatMasker, CpGPlot, Splice neural network promoter prediction. ,空= 0= +1,失配得分 7) 為下面的序列比對確定比對得分:匹配得分 。位得分= -1TGTACGGCTATA TA TC - -CGCCT 8)UPGM重建系統(tǒng)發(fā)生樹,距離矩陣如下物ABCDB9C811D12151
6、0E1518135畫個(gè)物種棵不同的無根個(gè)物種在某位置上的核苷酸分別是T,T,C和C,為每個(gè)內(nèi)部節(jié)點(diǎn)推斷的祖先序列標(biāo)出最可能的候選核苷酸,3棵可能的無根樹中有幾棵是一樣簡約的(因?yàn)樗麄冇凶钚√鎿Q數(shù))?有幾棵樹的替換樹是2?有大于2個(gè)替換的樹嗎? 10)如何將所研究的蛋白質(zhì)與其他相關(guān)蛋白質(zhì)做結(jié)構(gòu)比對。 答案部分 一、名詞解釋: 生物信息學(xué): 研究大量生物數(shù)據(jù)復(fù)雜關(guān)系的學(xué)科,其特征是多學(xué)科交叉,以互聯(lián)網(wǎng)為媒介,數(shù)據(jù)庫為載體。利用數(shù)學(xué)知識建立各種數(shù)學(xué)模型; 利用計(jì)算機(jī)為工具對實(shí)驗(yàn)所得大量生物學(xué)數(shù)據(jù)進(jìn)行儲存、檢索、處理及分析,并以生物學(xué)知識對結(jié)果進(jìn)行解釋。 二級數(shù)據(jù)庫:在一級數(shù)據(jù)庫、實(shí)驗(yàn)數(shù)據(jù)和理論分析的
7、基礎(chǔ)上針對特定目標(biāo)衍生而來,是對生物學(xué)知識和信息的進(jìn)一步的整理。P11,第2段。 FASTA序列格式:是將DNA或者蛋白質(zhì)序列表示為一個(gè)帶有一些標(biāo)記的核苷酸或者氨基酸字符串,大于號()表示一個(gè)新文件的開始,其他無特殊要求。 genbank序列格式:是GenBank 數(shù)據(jù)庫的基本信息單位,是最為廣泛的生物信息學(xué)序列格式之一。該文件格式按域劃分為4個(gè)部分:第一部分包含整個(gè)記錄的信息(描述符);第二部分包含注釋;第三部分是引文區(qū),提供了這個(gè)記錄的科學(xué)依據(jù);第四部分是核苷酸序列本身,以“/”結(jié)尾。P13,第2段。 Entrez檢索系統(tǒng):是NCBI開發(fā)的核心檢索系統(tǒng),集成了NCBI的各種數(shù)據(jù)庫,具有鏈接
8、的數(shù)據(jù)庫多,使用方便,能夠進(jìn)行交叉索引等特點(diǎn)。P83-85。 :基本局部比對搜索工具,用于相似性搜索的工具,對需要進(jìn)行檢索的序BLAST 列與數(shù)據(jù)庫中的每個(gè)序列做相似性比較。P94 查詢序列(query sequence):也稱被檢索序列,用來在數(shù)據(jù)庫中檢索并進(jìn)行相似性比較的序列。P98,第1段。 打分矩陣(scoring matrix):在相似性檢索中對序列兩兩比對的質(zhì)量評估方法。包括基于理論(如考慮核酸和氨基酸之間的類似性)和實(shí)際進(jìn)化距離(如PAM)兩類方法。P29,第2段。 空位(gap):在序列比對時(shí),由于序列長度不同,需要插入一個(gè)或幾個(gè)位點(diǎn)以取得最佳比對結(jié)果,這樣在其中一序列上產(chǎn)生中
9、斷現(xiàn)象,這些中斷的位點(diǎn)稱為空位。P29,第2段。 空位罰分:空位罰分是為了補(bǔ)償插入和缺失對序列相似性的影響,序列中的空位的引入不代表真正的進(jìn)化事件,所以要對其進(jìn)行罰分,空位罰分的多少直接影響對比的結(jié)果。P37,倒數(shù)第2段。 E值:衡量序列之間相似性是否顯著的期望值。E值大小說明了可以找到與查詢序列(query)相匹配的隨機(jī)或無關(guān)序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味著序列的相似性偶然發(fā)生的機(jī)會越小,也即相似性越能反映真實(shí)的生物學(xué)意義。P95 低復(fù)雜度區(qū)域:BLAST搜索的過濾選項(xiàng)。指序列中包含的重復(fù)度高的區(qū)域,如poly(A)。P100,第一段。 點(diǎn)矩陣(dot ma
10、trix):構(gòu)建一個(gè)二維矩陣,其X軸是一條序列,Y軸是另一個(gè)序列,然后在2個(gè)序列相同堿基的對應(yīng)位置(x,y)加點(diǎn),如果兩條序列完全相同則會形成一條主對角線,如果兩條序列相似則會出現(xiàn)一條或者幾條直線;如果完全沒有相似性則不能連成直線。P39-41。 多序列比對:通過序列的相似性檢索得到許多相似性序列,將這些序列做一個(gè)總體的比對,以觀察它們在結(jié)構(gòu)上的異同,來回答大量的生物學(xué)問題。P48,需要概括。 分子鐘:認(rèn)為分子進(jìn)化速率是恒定的或者幾乎恒定的假說,從而可以通過分子進(jìn)化推斷出物種起源的時(shí)間。P112-113 系統(tǒng)發(fā)育分析:通過一組相關(guān)的基因或者蛋白質(zhì)的多序列比對或其他性狀,可以研究推斷不同物種或基
11、因之間的進(jìn)化關(guān)系。P112,第一段。 進(jìn)化樹的二歧分叉結(jié)構(gòu):指在進(jìn)化樹上任何一個(gè)分支節(jié)點(diǎn),一個(gè)父分支都只能被分成兩個(gè)子分支。P113,最后一段。 系統(tǒng)發(fā)育圖:P114 直系同源:指由于物種形成事件來自一個(gè)共同祖先的不同物種中的同源序列,具有相似或不同的功能。P28,P146 旁系(并系)同源:指同一個(gè)物種中具有共同祖先,通過基因重復(fù)產(chǎn)生的一組基因,這些基因在功能上的可能發(fā)生了改變。P28,P147 外類群:是進(jìn)化樹中處于一組被分析物種之外的,具有相近親緣關(guān)系的物種。P120 有根樹:能夠確定所有分析物種的共同祖先的進(jìn)化樹。P113 除權(quán)配對算法(UPGMA):最初,每個(gè)序列歸為一類,然后找到距
12、離最近的兩類將其歸為一類,定義為一個(gè)節(jié)點(diǎn),重復(fù)這個(gè)過程,直到所有的聚類被加入,最終產(chǎn)生樹根。P119 鄰接法(neighbor-joining method):是一種不僅僅計(jì)算兩兩比對距離,還對算UPGMA整個(gè)樹的長度進(jìn)行最小化,從而對樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制,能夠克服 法要求進(jìn)化速率保持恒定的缺陷。P118。 最大簡約法(MP):在一系列能夠解釋序列差異的的進(jìn)化樹中找到具有最少核酸或氨基酸替換的進(jìn)化樹。P120 最大似然法(ML):它對每個(gè)可能的進(jìn)化位點(diǎn)分配一個(gè)概率,然后綜合所有位點(diǎn),找到概率最大的進(jìn)化樹。最大似然法允許采用不同的進(jìn)化模型對變異進(jìn)行分析評估,并在此基礎(chǔ)上構(gòu)建系統(tǒng)發(fā)育樹。P122
13、一致樹(consensus tree):在同一算法中產(chǎn)生多個(gè)最優(yōu)樹,合并這些最優(yōu)樹得到的樹即一致樹。P121 自舉法檢驗(yàn)(Bootstrap):放回式抽樣統(tǒng)計(jì)法。通過對數(shù)據(jù)集多次重復(fù)取樣,構(gòu)建多個(gè)進(jìn)化樹,用來檢查給定樹的分枝可信度。P122 開放閱讀框(ORF):開放閱讀框是基因序列的一部分,包含一段可以編碼蛋白的堿基序列。P131 密碼子偏好性(codon bias):氨基酸的同義密碼子的使用頻率與相應(yīng)的同功tRNA的水平相一致,大多數(shù)高效表達(dá)的基因僅使用那些含量高的同功tRNA所對應(yīng)的密碼子,這種效應(yīng)稱為密碼子偏好性。P133 基因預(yù)測的從頭分析:依據(jù)綜合利用基因的特征,如剪接位點(diǎn),內(nèi)含子
14、與外顯子邊界,調(diào)控區(qū),預(yù)測基因組序列中包含的基因。P134-145 簡約信息位點(diǎn):指基于DNA或蛋白質(zhì)序列,利用最大簡約法構(gòu)建系統(tǒng)發(fā)育樹時(shí),如果每個(gè)位點(diǎn)的狀態(tài)至少存在兩種,每種狀態(tài)至少出現(xiàn)兩次的位點(diǎn)。其它位點(diǎn)為都是非簡約性信息位點(diǎn)。P121,第2行 結(jié)構(gòu)域(domain):保守的結(jié)構(gòu)單元,包含獨(dú)特的二級結(jié)構(gòu)組合和疏水內(nèi)核,可能單獨(dú)存在,也可能與其他結(jié)構(gòu)域組合。相同功能的同源結(jié)構(gòu)域具有序列的相似性。P158 模體(motif):短的保守的多肽段,含有相同模體的蛋白質(zhì)不一定是同源的,一般10-20個(gè)殘基。P161,最后一行 PAM矩陣:PAM指可接受突變百分率。一個(gè)氨基酸在進(jìn)化中變成另一種氨基酸的
15、可能性,通過這種可能性可以鑒定蛋白質(zhì)之間的相似性,并產(chǎn)生蛋白質(zhì)之間的比對。一個(gè)PAM單位是蛋白質(zhì)序列平均發(fā)生1%的替代量需要的進(jìn)化時(shí)間。P30-31 BLOSUM矩陣:模塊替代矩陣。矩陣中的每個(gè)位點(diǎn)的分值來自蛋白比對的局部塊中的替代頻率的觀察。每個(gè)矩陣適合特定的進(jìn)化距離。例如,在BLOSUM62矩陣中,比對的分值來自不超過62%一致率的一組序列。P34 折疊子(Fold):在兩個(gè)或更多的蛋白質(zhì)中具有相似二級結(jié)構(gòu)的大區(qū)域,這些大區(qū)域具有特定的空間取向。P162 TrEMBL:是與SWISS-PROT相關(guān)的一個(gè)數(shù)據(jù)庫。包含從EMBL核酸數(shù)據(jù)庫中根據(jù)編碼序列(CDS)翻譯而得到的蛋白質(zhì)序列,并且這些
16、序列尚未集成到SWISS-PROT數(shù)據(jù)庫中。P21 PDB(Protein Data Bank):PDB中收錄了大量通過實(shí)驗(yàn)(X射線晶體衍射,核磁共振NMR)測定的生物大分子的三維結(jié)構(gòu),記錄有原子坐標(biāo)、配基的化學(xué)結(jié)構(gòu)和晶體結(jié)構(gòu)的描述等。PDB數(shù)據(jù)庫的訪問號由一個(gè)數(shù)字和三個(gè)字母組成(如,4HHB),同時(shí)支持關(guān)鍵詞搜索,還可以FASTA程序進(jìn)行搜索。P22 MMDB(Molecular Modeling Database):是(NCBI)所開發(fā)的生物信息數(shù)據(jù)庫集成系統(tǒng)Entrez的一個(gè)部分,數(shù)據(jù)庫的內(nèi)容包括來自于實(shí)驗(yàn)的生物大分子結(jié)構(gòu)數(shù)具有許多附加MMDB相比,對于數(shù)據(jù)庫中的每一個(gè)生物大分子結(jié)構(gòu),P
17、DB據(jù)。與 的信息,如分子的生物學(xué)功能、產(chǎn)生功能的機(jī)制、分子的進(jìn)化歷史等 ,還提供生物大分子三維結(jié)構(gòu)模型顯示、結(jié)構(gòu)分析和結(jié)構(gòu)比較工具。? SCOP數(shù)據(jù)庫:提供關(guān)于已知結(jié)構(gòu)的蛋白質(zhì)之間結(jié)構(gòu)和進(jìn)化關(guān)系的詳細(xì)描述,包括蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB中的所有條目。SCOP數(shù)據(jù)庫除了提供蛋白質(zhì)結(jié)構(gòu)和進(jìn)化關(guān)系信息外,對于每一個(gè)蛋白質(zhì)還包括下述信息:到PDB的連接,序列,參考文獻(xiàn),結(jié)構(gòu)的圖像等??梢园唇Y(jié)構(gòu)和進(jìn)化關(guān)系對蛋白質(zhì)分類,分類結(jié)果是一 個(gè)具有層次結(jié)構(gòu)的樹,其主要的層次依次是類(class)、折疊子(fold)、超家族(super family)、家族(family)、單個(gè)PDB蛋白結(jié)構(gòu)記錄。P23 PROSI
18、TE:是蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫,包含具有生物學(xué)意義的位點(diǎn)、模式、可幫助識別蛋白質(zhì)家族的統(tǒng)計(jì)特征。 PROSITE中涉及的序列模式包括酶的催化位點(diǎn)、配體結(jié)合位點(diǎn)、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等;PROSITE還包括根據(jù)多序列比對而構(gòu)建的序列統(tǒng)計(jì)特征,能更敏感地發(fā)現(xiàn)一個(gè)序列是否具有相應(yīng)的特征。 P22 RefSeq:給出了對應(yīng)于基因和蛋白質(zhì)的索引號碼,對應(yīng)于最穩(wěn)定、最被人承認(rèn)的Genbank序列。? PSI-BLAST:位點(diǎn)特異性迭代比對。是一種專門化的的比對,通過調(diào)節(jié)序列打分矩陣(scoring matrix)探測遠(yuǎn)緣相關(guān)的蛋白。P97 Gene On
19、tology 協(xié)會:編輯一組動(dòng)態(tài)的、可控的基因產(chǎn)物不同方面性質(zhì)的字匯的協(xié)會。 從3個(gè)方面描述基因產(chǎn)物的性質(zhì),即,分子功能,生物過程,細(xì)胞區(qū)室。 表譜(PSSM):指一張基于多序列比對的打分表,表示一個(gè)蛋白質(zhì)家族,可以用來搜索序列數(shù)據(jù)庫。P97 比較基因組學(xué):P148 二、問答題 1緒論 1) 生物信息學(xué)的發(fā)展經(jīng)歷了那幾個(gè)階段 2) 生物信息學(xué)步入后基因組時(shí)代后,其發(fā)展方向有哪幾個(gè)方面。 1)請列舉3個(gè)以上Entrez系統(tǒng)可以檢索的數(shù)據(jù)庫。 答:P83 2)序列的相似性與同源性有什么區(qū)別與聯(lián)系? 答:相似性是指序列之間相關(guān)的一種量度,兩序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列
20、所代表的物種具有共同的祖先,強(qiáng)調(diào)進(jìn)化上的親緣關(guān)系。P147 3)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么? 答:blastn是將給定的核酸序列與核酸數(shù)據(jù)庫中的序列進(jìn)行比較;Blastp是使用蛋白質(zhì)序列與蛋白質(zhì)數(shù)據(jù)庫中的序列進(jìn)行比較,可以尋找較遠(yuǎn)的關(guān)系;Blastx將給定的核酸序列按照六種閱讀框架將其翻譯成蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫中的序列進(jìn)行比對,對分析新序列和EST很有用;Tblastn將給定的氨基酸序列與核酸數(shù)據(jù)庫中的序列(雙鏈)按不同的閱讀框進(jìn)行比對,對于尋找數(shù)據(jù)庫中序列沒有標(biāo)注的新編碼區(qū)很有用;Tblastx只在特殊情況下使用,
21、它將DNA被檢索的序列和核酸序列數(shù)據(jù)庫中的序列按不同的閱讀框全部翻譯成蛋白質(zhì)序列,然后進(jìn)行蛋白質(zhì)序列比對。P97 搜索的算法思想。BLAST)簡述4 答:BLAST是一種局部最優(yōu)比對搜索算法,將所查詢的序列打斷成許多小序列片段,然后小序列逐步與數(shù)據(jù)庫中的序列進(jìn)行比對,這些小片段被叫做字”word”;當(dāng)一定長度的的字(W)與檢索序列的比對達(dá)到一個(gè)指定的最低分(T)后,初始比對就結(jié)束了;一個(gè)序列的匹配度由各部分匹配分?jǐn)?shù)的總和決定,獲得高分的序列叫做高分匹配片段(HSP),程序?qū)⒆詈玫腍SP雙向擴(kuò)展進(jìn)行比對,直到序列結(jié)束或者不再具有生物學(xué)顯著性,最后所得到的 序列是那些在整 體上具有最高分的序列,即
22、,最高分匹配片段(MSP),這樣,BLAST既保持了整體的運(yùn)算速度,也維持了比對的精度。P95 5)什么是物種的標(biāo)記序列? 答:指物種特有的一段核苷酸序列??梢酝ㄟ^相似性查詢,得到某一序列在數(shù)據(jù)庫中的某一物種中反復(fù)出現(xiàn),且在其他物種中沒有的明顯相似的序列。 6)什么是多序列全局比對的累進(jìn)算法? 答:第一,所有的序列之間逐一比對(雙重比對);第二,生成一個(gè)系統(tǒng)樹圖,將序列按相似性大致分組;第三,使用系統(tǒng)樹圖作為引導(dǎo),產(chǎn)生出最終的多序列比對結(jié)果。P52 7)簡述構(gòu)建進(jìn)化樹的步驟,每一步列舉1-2種使用的軟件或統(tǒng)計(jì)學(xué)方法。 答:(1)多序列比對:Clustal W (2)校對比對結(jié)果:BIOEDIT
23、 (3)建樹:MEGA (4)評估系統(tǒng)發(fā)育信號和進(jìn)化樹的牢固度:自舉法(Bootstrap)P114 8)簡述除權(quán)配對法(UPGMA)的算法思想。 答:通過兩兩比對聚類的方法進(jìn)行,在開始時(shí),每個(gè)序列分為一類,分別作為一個(gè)樹枝的生長點(diǎn),然后將最近的兩序列合并,從而定義出一個(gè)節(jié)點(diǎn),將這個(gè)過程不斷的重復(fù),直到所有的序列都被加入,最后得到一棵進(jìn)化樹。P119 9)簡述鄰接法(NJ)構(gòu)樹的算法思想。 答:鄰接法的思想不僅僅計(jì)算最小兩兩比對距離,還對整個(gè)樹的長度進(jìn)行最小化,從而對樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制。這種算法由一棵星狀樹開始,所有的物種都從一個(gè)中心節(jié)點(diǎn)出發(fā),然后通過計(jì)算最小分支長度的和相繼尋找到近鄰的兩個(gè)
24、序列,每一輪過程中考慮所有可能的序列對,把能使樹的整個(gè)分支長度最小的序列對一組,從而產(chǎn)生新的距離矩陣,直到尋找所有的近鄰序列。P117 10)簡述最大簡約法(MP)的算法思想。P68 答:是一種基于離散特征的進(jìn)化樹算法。生物演化應(yīng)該遵循簡約性原則,所需變異次數(shù)最少(演化步數(shù)最少)的演化樹可能為最符合自然情況的系統(tǒng)樹。在具體的操作中,分為非加權(quán)最大簡約分析(或稱為同等加權(quán))和加權(quán)最大簡約分析,后者是根據(jù)性狀本身的演化規(guī)律(比如DNA不同位點(diǎn)進(jìn)化速率不同)而對其進(jìn)行不同的加權(quán)處理。P120 11)簡述最大似然法(ML)的算法思想。P69 答:是一種基于離散特征的進(jìn)化樹算法。該法首先選擇一個(gè)合適的進(jìn)
25、化模型,然后對所有可能的進(jìn)化樹進(jìn)行評估,通過對每個(gè)進(jìn)化位點(diǎn)的替代分配一個(gè)概率,最后找出概率最大的進(jìn)化樹。P122 12)UPGMA構(gòu)樹法不精確的原因是什么?P69 答:由個(gè)于UPGMA假設(shè)在進(jìn)化過程中所有核苷酸/氨基酸都有相同的變異率,也就是存在著一個(gè)分子鐘;這種算法當(dāng)所構(gòu)建的進(jìn)化樹的序列進(jìn)化速率明顯不一 行。4段,前2倒數(shù)第P119,致時(shí),得到的進(jìn)化樹相對來說不準(zhǔn)確的。 種,解釋3在MEGA2軟件中,提供了哪些堿基替換距離模型,試列舉其中13) 其含義。Jukes-Cantor 、No.of differences 、p-distance答:堿基替換模型包括,Tamura 、T ajima-
26、Nei distance、Kimur 2-parameter distancedistance、Tamura-Nei distance 、3-parameter distance表示有差異的核苷酸位點(diǎn)在序列中所占比例,將有差異的核苷酸 p-distance: 位點(diǎn)數(shù)除已經(jīng)比對的總位點(diǎn)數(shù)就可以得到的替換速率是一致的,然后給出兩個(gè)序列核 A T C G Jukes-Cantor:模型假設(shè) 苷酸替換數(shù)的最大似然估計(jì):模型考慮到了轉(zhuǎn)換很顛換隊(duì)多重?fù)糁械挠绊懀僭O(shè)整Kimura 2-parameter 鐘核苷酸的頻率是相同哈德在不同位點(diǎn)上的堿基替換頻率是相同的個(gè)序列中4 序列分析的內(nèi)容及代表性分析工具
27、。項(xiàng)DNA14)列舉5RepeatMasker )尋找重復(fù)元件:(1答: BLASTn 2()同源性檢索確定是否存在已知基因: Genscan 3)從頭開始方法預(yù)測基因: (TRES/DRAGON PROMOTOR FINDER 4)分析各種調(diào)控序列: ( CpGPlot P130,表格 (5) CpG島:LOCUSgenbank文件的的genbank文件?解釋如下15)如何獲取訪問號為U49845 行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 U49845輸入(3)Entrez檢索系統(tǒng),(2)選擇核酸數(shù)據(jù)庫,(答:1)訪問
28、NCBI的 序列訪問號開始檢索。 名稱,前三個(gè)字母代表物種名第一項(xiàng)是LOCUS 第二項(xiàng)是序列長度 第三項(xiàng)是序列分子類型 第四項(xiàng)是分子為線性的 分類碼第五項(xiàng)是GenBank P13 第六項(xiàng)是最后修訂日期 Entrez檢索系統(tǒng)對核酸數(shù)據(jù)搜索,輸入如下信息,將獲得什么結(jié)果:16)利用P35 AF114696:AF114714ACCN。 AF114714之間的連續(xù)編號的序列。答:獲得序列訪問號AF114696到 格式的多序列比對文件?MEGA2如何將其它多序列比對格式文件轉(zhuǎn)化為MEGE17)Text File Editor and Format Coverter )選擇,(2答:(1)選擇菜單file
29、格式)獲得轉(zhuǎn)換后的MEGA工具,(3)調(diào)入需要轉(zhuǎn)換的序列和相應(yīng)的格式,(4 的文件并保存。,空位得分= 0)為下面的序列比對確定比對得分:匹配得分= +1,失配得分18 = -1。TGTACGGCTATA TC - -CGCCT -TA 答: TT 1 GC 0 T- -1 -1 A- CC 1 GG 1 GC 0 CC 1 TT 1 A- -1 TT1AA1+1+1=4-+1+1+0+1+1最后得1+0-) 重建系統(tǒng)發(fā)生樹,距離矩陣如下:19) 用UPGM DC物AB9BC811121510D5E131518 答:Newic格式表示的樹圖AD) 分析過程: )兩條序列間的最小距離是(1d,所
30、以物種D和E聚到一組,如下圖。DEDE DE ,如下表。其他物種E (2) 計(jì)算新的距離矩陣,其中復(fù)合物種(DE)替換D和,DE和)之間距離的平均值決定與新物種組之間的距離由它們與組中兩個(gè)物種( 如=1/2(12+15)=13.5+=1/AADCA物BB9811C11.516.5DE13.5類。如下圖AA 第二次聚類之間,組成 DEAC (AC)(D )將物種合并,計(jì)算新的矩陣,如下表,最后一次聚類(AC)B(3) 將A和C )的共同祖先之間。AC)和(BDE的分支點(diǎn)放在(AC B 物種 10 AC 12.5 DE 16.5 DEABC (AC)B 個(gè)物種在某位置上的核苷酸分別是420) 畫出4.個(gè)物種的3棵不同的無根樹這棵可, T,T,C和C,為每個(gè)內(nèi)部節(jié)點(diǎn)推斷的祖先序列標(biāo)出最可能的候選核苷酸. 3有幾棵樹的替換能的無根樹中有幾棵是一樣簡約的(因?yàn)樗麄冇凶钚√鎿Q數(shù))? 2個(gè)替換的樹嗎樹是2?,有大于 答C(CA(T(C(TB (TD (CB (TA (T(T)(TC (CD (CA (TC (C(T(TB (TD (C 2棵一樣簡約,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年短期租用倉庫協(xié)議格式
- 專業(yè)課程授權(quán)聯(lián)合合同
- 2025年檔案利用準(zhǔn)則協(xié)議
- 專業(yè)車輛房產(chǎn)分割離婚合同范例
- 個(gè)人借款合同范本-短期貸款版
- 人事外包服務(wù)合同協(xié)議
- 三方勞動(dòng)合同范本:就業(yè)合同詳解
- 股權(quán)更替協(xié)議合法性審查2025年
- 中小企業(yè)員工勞動(dòng)合同管理規(guī)定
- 2025年共辦美容院的合同協(xié)議書
- 施工現(xiàn)場人力資源施工機(jī)具材料設(shè)備等管理計(jì)劃
- 第八章《運(yùn)動(dòng)和力》達(dá)標(biāo)測試卷(含答案)2024-2025學(xué)年度人教版物理八年級下冊
- 民辦幼兒園務(wù)工作計(jì)劃
- 2025年華僑港澳臺生聯(lián)招考試高考地理試卷試題(含答案詳解)
- 中國革命戰(zhàn)爭的戰(zhàn)略問題(全文)
- 高考英語課外積累:Hello,China《你好中國》1-20詞塊摘錄課件
- 茶文化與茶健康教學(xué)課件
- 降水預(yù)報(bào)思路和方法
- 虛位移原理PPT
- QE工程師簡歷
- 2021年酒店餐飲傳菜員崗位職責(zé)與獎(jiǎng)罰制度
評論
0/150
提交評論