生物信息學(xué)題庫(kù)--精校+整理

上傳人：r*** IP屬地：貴州上傳時(shí)間：2022-03-07 格式：DOCX 頁(yè)數(shù)：16 大小：47.66KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩11頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上生物信息學(xué)題庫(kù)一、名詞解釋 1、生物信息學(xué):生物分子信息的獲取、存貯、分析和利用;以數(shù)學(xué)為基礎(chǔ)，應(yīng)用計(jì)算機(jī)技術(shù)，研究生物學(xué)數(shù)據(jù)的科學(xué)。 2、相似性(similarity):相似性是指序列比對(duì)過(guò)程中用來(lái)描述檢測(cè)序列和目標(biāo)序列之間相同DNA堿基或氨基酸殘基順序所占比例的高低。 3、同源性(homology):生物進(jìn)化過(guò)程中源于同一祖先的分支之間的關(guān)系。4、BLAST(Basic Local Alignment Search Tool):基本局部比對(duì)搜索工具，用于相似性搜索的工具，對(duì)需要進(jìn)行檢索的序列與數(shù)據(jù)庫(kù)中的每個(gè)序列做相似性比較。 5、HMM隱馬爾可夫模型:是蛋白質(zhì)結(jié)構(gòu)

2、域家族序列的一種嚴(yán)格的統(tǒng)計(jì)模型，包括序列的匹配，插入和缺失狀態(tài)，并根據(jù)每種狀態(tài)的概率分布和狀態(tài)間的相互轉(zhuǎn)換來(lái)生成蛋白質(zhì)序列。 6、一級(jí)數(shù)據(jù)庫(kù):一級(jí)數(shù)據(jù)庫(kù)中的數(shù)據(jù)直接來(lái)源于實(shí)驗(yàn)獲得的原始數(shù)據(jù)，只經(jīng)過(guò)簡(jiǎn)單的歸類整理和注釋(投稿文章首先要將核苷酸序列或蛋白質(zhì)序列提交到相應(yīng)的數(shù)據(jù)庫(kù)中) 7、二級(jí)數(shù)據(jù)庫(kù):對(duì)原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果，是在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定的應(yīng)用目標(biāo)而建立的。 8、GenBank: 是具有目錄和生物學(xué)注釋的核酸序列綜合公共數(shù)據(jù)庫(kù)，由NCBI構(gòu)建和維護(hù)。9、EMBL: EMBL 實(shí)驗(yàn)室：歐洲分子生物學(xué)實(shí)驗(yàn)室。EMBL 數(shù)據(jù)庫(kù)：是非盈利性學(xué)術(shù)組織 EMB

3、L 建立的綜合性數(shù)據(jù)庫(kù)，EMBL 核酸數(shù)據(jù)庫(kù)是歐洲最重要的核酸序列數(shù)據(jù)庫(kù)，它定期地與美國(guó)的 GenBank、日本的 DDBJ 數(shù)據(jù)庫(kù)中的數(shù) 據(jù)進(jìn)行交換，并同步更新。 10、DDBJ: 日本核酸序列數(shù)據(jù)庫(kù)，是亞洲唯一的核酸序列數(shù)據(jù)庫(kù)。 11、Entrez:是由 NCBI 主持的一個(gè)數(shù)據(jù)庫(kù)檢索系統(tǒng)，它包括核酸，蛋白以及 Medline 文摘數(shù)據(jù)庫(kù)，在這三個(gè)數(shù)據(jù)庫(kù)中建立了非常完善的聯(lián)系。 12、SRS(sequence retrieval system):序列查詢系統(tǒng)，是 EBI 提供的多數(shù)據(jù)庫(kù)查詢工具之一。有與 Entrez 類似的功能，還提供一系列的序列分析工具，可以直接進(jìn)行在線序列分析處理。

4、13、EST:收集大量cDAN或EST序列以及其他相關(guān)信息，目前最大的公共表達(dá)序列數(shù)據(jù)庫(kù)。 14、GSS:GeneBank數(shù)據(jù)庫(kù)的一部分，收集基因組DNA克隆的測(cè)序序列。 15、GEO:基因表達(dá)精選集是一個(gè)儲(chǔ)存高通量功能基因組學(xué)數(shù)據(jù)的數(shù)據(jù)庫(kù)。 16、SCOP數(shù)據(jù)庫(kù):提供關(guān)于已知結(jié)構(gòu)的蛋白質(zhì)之間結(jié)構(gòu)和進(jìn)化關(guān)系的詳細(xì)描述，包括蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB中的所有條目。 17、PROSITE :是蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫(kù)，包含具有生物學(xué)意義的位點(diǎn)、模式、可幫助識(shí)別蛋白質(zhì)家族的統(tǒng)計(jì)特征。 18、RefSeq: 是一個(gè)收錄注釋過(guò)的非冗余轉(zhuǎn)錄本、蛋白質(zhì)和基因組序列的數(shù)據(jù)庫(kù)。 19、結(jié)構(gòu)域Structure do

5、main:結(jié)構(gòu)域，是在蛋白質(zhì)三級(jí)結(jié)構(gòu)中介于二級(jí)和三級(jí)結(jié)構(gòu)之間的可以明顯區(qū)分但又相對(duì)獨(dú)立的折疊單元。 20、開放閱讀框ORF: 開放閱讀框，位于DNA或RNA上起始密碼子與終止密碼子之間的序列。 21、啟動(dòng)子Promoter:啟動(dòng)子是基因的一個(gè)組成部分，是位于結(jié)構(gòu)基因5端上游區(qū)的DNA序列，控制基因表達(dá)(轉(zhuǎn)錄)的起始時(shí)間和表達(dá)的程度。 22、3UTR:3非翻譯區(qū)的縮寫，真核生物的轉(zhuǎn)錄終止信號(hào)是在 3非翻譯區(qū)的 : polyA。 23、CpG island:是在哺乳動(dòng)物基因組中的一個(gè)500bp到300bp的區(qū)域，富含GC。24、模體Motif:又稱模體，蛋白質(zhì)序列中短的保守區(qū)域，它們是結(jié)構(gòu)域中保守

6、性很高的部分。25、PDB(Protein Data Bank):蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)，是國(guó)際上著名的生物大分子結(jié)構(gòu)數(shù)據(jù)庫(kù)，由美國(guó)Brookhaven國(guó)家實(shí)驗(yàn)室建立。 26、打分矩陣(scoring matrix):在相似性檢索中對(duì)序列兩兩比對(duì)的質(zhì)量評(píng)估方法。包括基于理論(如考慮核酸和氨基酸之間的類似性)和實(shí)際進(jìn)化距離(如PAM)兩類方法。 27、遺傳連鎖圖:又叫遺傳圖譜(genetic map)是以具有遺傳多態(tài)性的遺傳標(biāo)記為“路標(biāo)”，以遺傳學(xué)距離為圖距的基因組圖。 28、蛋白質(zhì)組(proteom):是指一個(gè)基因組、一種生物或一個(gè)細(xì)胞/組織的基因組所表達(dá)的全套蛋白質(zhì)。 29、基因組學(xué):研究生物基因

7、組和如何利用基因的一門學(xué)問(wèn)。 30、比較基因組學(xué):是在基因組圖譜和測(cè)序的基礎(chǔ)上，利用某個(gè)基因組研究獲得的信息推測(cè)其他原核生物、真核生物類群中的基因數(shù)目、位置、功能、表達(dá)機(jī)制和物種進(jìn)化的學(xué)科。 31、FASTA序列格式:是將DNA或者蛋白質(zhì)序列表示為一個(gè)帶有一些標(biāo)記的核苷酸或者氨基酸字符串，大于號(hào)(>)表示一個(gè)新文件的開始，其他無(wú)特殊要求。 32、genbank序列格式:是GenBank 數(shù)據(jù)庫(kù)的基本信息單位，是最為廣泛的生物信息學(xué)序列格式之一。該文件格式按域劃分為4個(gè)部分:第一部分包含整個(gè)記錄的信息(描述符);第二部分包含注釋;第三部分是引文區(qū)，提供了這個(gè)記錄的科學(xué)依據(jù);第四部分是核苷酸

8、序列本身，以“/”結(jié)尾。33、查詢序列(query sequence):也稱被檢索序列，用來(lái)在數(shù)據(jù)庫(kù)中檢索并進(jìn)行相似性比較的序列。34、空位(gap):在序列比對(duì)時(shí)，由于序列長(zhǎng)度不同，需要插入一個(gè)或幾個(gè)位點(diǎn)以取得最佳比對(duì)結(jié)果，這樣在其中一序列上產(chǎn)生中斷現(xiàn)象，這些中斷的位點(diǎn)稱為空位。P29 35、空位罰分:空位罰分是為了補(bǔ)償插入和缺失對(duì)序列相似性的影響，序列中的空位的引入不代表真正的進(jìn)化事件，所以要對(duì)其進(jìn)行罰分，空位罰分的多少直接影響對(duì)比的結(jié)果。P37 36、E值:衡量序列之間相似性是否顯著的期望值。E值大小說(shuō)明了可以找到與查詢序列(query)相匹配的隨機(jī)或無(wú)關(guān)序列的概率，E值越接近零，越不可

9、能找到其他匹配序列，E值越小意味著序列的相似性偶然發(fā)生的機(jī)會(huì)越小，也即相似性越能反映真實(shí)的生物學(xué)意義。P95 37、低復(fù)雜度區(qū)域: BLAST搜索的過(guò)濾選項(xiàng)。指序列中包含的重復(fù)度高的區(qū)域，如poly(A)。 38、點(diǎn)矩陣(dot matrix):構(gòu)建一個(gè)二維矩陣，其X軸是一條序列，Y軸是另一個(gè)序列，然后在2個(gè)序列相同堿基的對(duì)應(yīng)位置(x，y)加點(diǎn)，如果兩條序列完全相同則會(huì)形成一條主對(duì)角線，如果兩條序列相似則會(huì)出現(xiàn)一條或者幾條直線;如果完全沒(méi)有相似性則不能連成直線。 39、多序列比對(duì):通過(guò)序列的相似性檢索得到許多相似性序列，將這些序列做一個(gè)總體的比對(duì)，以觀察它們?cè)诮Y(jié)構(gòu)上的異同，來(lái)回答大量的生物學(xué)問(wèn)

10、題。 40、分子鐘:認(rèn)為分子進(jìn)化速率是恒定的或者幾乎恒定的假說(shuō)，從而可以通過(guò)分子進(jìn)化推斷出物種起源的時(shí)間。 41、系統(tǒng)發(fā)育分析:通過(guò)一組相關(guān)的基因或者蛋白質(zhì)的多序列比對(duì)或其他性狀，可以研究推斷不同物種或基因之間的進(jìn)化關(guān)系。 42、進(jìn)化樹的二歧分叉結(jié)構(gòu):指在進(jìn)化樹上任何一個(gè)分支節(jié)點(diǎn)，一個(gè)父分支都只能被分成兩個(gè)子分支。 43、系統(tǒng)發(fā)育圖:用枝長(zhǎng)表示進(jìn)化時(shí)間的系統(tǒng)樹稱為系統(tǒng)發(fā)育圖，是引入時(shí)間概念的支序圖。 44、直系同源:指由于物種形成事件來(lái)自一個(gè)共同祖先的不同物種中的同源序列，具有相似或不同的功能。(書:在缺乏任何基因復(fù)制證據(jù)的情況下，具有共同祖先和相同功能的同源基因。) 45、旁系(并系)同源:

11、指同一個(gè)物種中具有共同祖先，通過(guò)基因重復(fù)產(chǎn)生的一組基因，這些基因在功能上可能發(fā)生了改變。(書:由于基因重復(fù)事件產(chǎn)生的相似序列。) 46、外類群:是進(jìn)化樹中處于一組被分析物種之外的，具有相近親緣關(guān)系的物種。47、除權(quán)配對(duì)算法(UPGMA):最初，每個(gè)序列歸為一類，然后找到距離最近的兩類將其歸為一類，定義為一個(gè)節(jié)點(diǎn)，重復(fù)這個(gè)過(guò)程，直到所有的聚類被加入，最終產(chǎn)生樹根。 48、鄰接法(neighbor-joining method):是一種不僅僅計(jì)算兩兩比對(duì)距離，還對(duì)整個(gè)樹的長(zhǎng)度進(jìn)行最小化，從而對(duì)樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制，能夠克服UPGMA算法要求進(jìn)化速率保持恒定的缺陷。 49、最大簡(jiǎn)約法(MP):在一系

12、列能夠解釋序列差異的的進(jìn)化樹中找到具有最少核酸或氨基酸替換的進(jìn)化樹。 50、最大似然法(ML):它對(duì)每個(gè)可能的進(jìn)化位點(diǎn)分配一個(gè)概率，然后綜合所有位點(diǎn)，找到概率最大的進(jìn)化樹。最大似然法允許采用不同的進(jìn)化模型對(duì)變異進(jìn)行分析評(píng)估，并在此基礎(chǔ)上構(gòu)建系統(tǒng)發(fā)育樹。 51、自舉法檢驗(yàn)(Bootstrap):放回式抽樣統(tǒng)計(jì)法。通過(guò)對(duì)數(shù)據(jù)集多次重復(fù)取樣，構(gòu)建多個(gè)進(jìn)化樹，用來(lái)檢查給定樹的分枝可信度。 52、密碼子偏好性(codon bias):氨基酸的同義密碼子的使用頻率與相應(yīng)的同功tRNA的水平相一致，大多數(shù)高效表達(dá)的基因僅使用那些含量高的同功tRNA所對(duì)應(yīng)的密碼子，這種效應(yīng)稱為密碼子偏好性。 53、基因預(yù)測(cè)的

13、從頭分析:依據(jù)綜合利用基因的特征，如剪接位點(diǎn)，內(nèi)含子與外顯子邊界，調(diào)控區(qū)，預(yù)測(cè)基因組序列中包含的基因。 54、超家族:進(jìn)化上相關(guān)，功能可能不同的一類蛋白質(zhì)。55、序列表譜(profile):是一種特殊位點(diǎn)或模體序列，在多序列比較的基礎(chǔ)上，氨基酸的權(quán)值和空位罰分的表格。 56、PAM矩陣:PAM指可接受突變百分率。一個(gè)氨基酸在進(jìn)化中變成另一種氨基酸的可能性，通過(guò)這種可能性可以鑒定蛋白質(zhì)之間的相似性，并產(chǎn)生蛋白質(zhì)之間的比對(duì)。一個(gè)PAM單位是蛋白質(zhì)序列平均發(fā)生1%的替代量需要的進(jìn)化時(shí)間。 57、BLOSUM矩陣:模塊替代矩陣。矩陣中的每個(gè)位點(diǎn)的分值來(lái)自蛋白比對(duì)的局部塊中的替代頻率的觀察。每個(gè)矩陣適合

14、特定的進(jìn)化距離。例如，在BLOSUM62矩陣中，比對(duì)的分值來(lái)自不超過(guò)62%一致率的一組序列。 58、PSI-BLAST:位點(diǎn)特異性迭代比對(duì)。是一種專門化的的比對(duì)，通過(guò)調(diào)節(jié)序列打分矩陣(scoring matrix)探測(cè)遠(yuǎn)緣相關(guān)的蛋白。 59、RefSeq:給出了對(duì)應(yīng)于基因和蛋白質(zhì)的索引號(hào)碼，對(duì)應(yīng)于最穩(wěn)定、最被人承認(rèn)的Genbank序列。 60、有根樹:單一的節(jié)點(diǎn)能指派為共同的祖先，從祖先節(jié)點(diǎn)只有唯一的路徑歷經(jīng)進(jìn)化到達(dá)其他任何節(jié)點(diǎn)。 61、無(wú)根樹:只表明節(jié)點(diǎn)間的關(guān)系，無(wú)進(jìn)化發(fā)生方向的信息，通過(guò)引入外群或外部參考物種，可以在無(wú)根樹中指派根節(jié)點(diǎn)。 62、一致樹(consensus tree):在同一

15、算法中產(chǎn)生多個(gè)最優(yōu)樹，合并這些最優(yōu)樹得到的樹即一致樹。63、分子進(jìn)化樹(molecular evolutionary tree)：在研究生物進(jìn)化和系統(tǒng)分類中，常用一種類似樹狀分支的圖形來(lái)概括各種(類)生物之間的親緣關(guān)系，這種樹狀分支的圖形成為系統(tǒng)發(fā)育樹(phylogenetic tree)。二、填空 1、1970年Needleman和Wunsch提出了著名的序列比對(duì)算法，是生物信息學(xué)發(fā)展中最重要的貢獻(xiàn)2、20世紀(jì)90年代后， HGP 促進(jìn)生物信息學(xué)的迅速發(fā)展 3、HGP選擇作為研究人類的四大“模式生物”有酵母、線蟲、果蠅、小鼠 4、在人的遺傳連鎖圖譜上，1cM的物理距離大約為核苷酸5、

16、基因組測(cè)序的基本策略有逐個(gè)克隆法和全基因組鳥槍法 6、國(guó)際上三大生物信息學(xué)中心有:NCBI ， EBI 和 CIB 7、國(guó)際上最重要的核酸初級(jí)序列數(shù)據(jù)庫(kù)有: GeneBank ， EMBL 和 DDBJ 8、國(guó)際上最重要的蛋白質(zhì)序列數(shù)據(jù)庫(kù):SWISS-PROT和PIR 9、常用的序列搜索方法:FASTA和BLAST10、目前由NCBI維護(hù)的大型文獻(xiàn)資源是 PubMed 11、數(shù)據(jù)庫(kù)常用的數(shù)據(jù)檢索工具:Entrez， SRS 12、多序列聯(lián)配的常用軟件:Clustal 13、在生物學(xué)中常用的兩種動(dòng)態(tài)規(guī)劃算法分別有:Needleman-Wunsch和Smith-Waterman 14、在用B

17、LAST進(jìn)行核酸序列查詢時(shí)，查詢序列和數(shù)據(jù)庫(kù)中被比對(duì)上序列之間是否顯著性相似可用E值來(lái)度量，E值越大，相似性越小，E值越小，相似性越大。生物學(xué)意義上相似的兩條序列，其E值遠(yuǎn)小于1.015、寫出以下標(biāo)注的含義:LOCUS是基因座位，DEFINITION是基因定義， ACCESSION是登錄號(hào)，VERSION是版本號(hào)，SOURCE是來(lái)源物種16、檢測(cè)原核生物ORF的程序:NCBI-ORF finder17、二級(jí)結(jié)構(gòu)的狀態(tài)有: 螺旋，折疊，轉(zhuǎn)角，無(wú)規(guī)則卷曲 18、對(duì)于任一DNA序列(或cDNA序列)，可能存在 6 種不同的閱讀框，其中 3 個(gè)為正向的， 3 個(gè)為反向的 19、原核生物啟動(dòng)子有兩段

18、保守序列，即 -10區(qū) 左右的TATAAT，以及 -35區(qū) 左右的TTGACA，它們?yōu)?RNA聚合酶結(jié)合位點(diǎn)和識(shí)別位點(diǎn)20、蛋白質(zhì)同源結(jié)構(gòu)建?？梢允褂迷诰€的免費(fèi)預(yù)測(cè)工具swiss-model 21. 系統(tǒng)發(fā)育樹主要的三種構(gòu)建方法: 距離矩陣法、最大簡(jiǎn)約法、最大似然法。 22、可使用 Oligo6 軟件進(jìn)行引物設(shè)計(jì)。 23. 寫出以下pubmed檢索時(shí)常用的限制字段的含義:au 作者、ti標(biāo)題、 dp 發(fā)表日期、affiliation地址三、選擇 1、( C )是現(xiàn)在國(guó)際上最主要的核酸序列數(shù)據(jù)庫(kù) A. EBI B. PDB C. GenBank D. NCBI 2、基本局部比對(duì)搜素工具是(

19、 C ) A. Mega B. ClustalW C. BLAST D. GCG 3、單核苷酸的標(biāo)記是( B ) A. RFLP B. SNP C. SSR D. RAPD 4、提交序列到GenBank中，使用的程序可以是( D ) A. Entrez B. SRS C. Medline D. BankIt 5、人類基因組計(jì)劃沒(méi)有計(jì)劃完成的幾張圖譜分別是( D ) A. 物理圖譜 B. 遺傳圖譜 C. 序列圖譜 D. 生物圖譜 6、最常用的序列相似性查詢工具是( B ) A. PIR B.BLAST C.SWISS-PROT D.PDB 7、下列哪些分子類型不屬于非蛋白質(zhì)編碼區(qū)( C ) A.

20、內(nèi)含子 B.衛(wèi)星DNA C.外顯子 D.啟動(dòng)子 8、衛(wèi)星DNA的多態(tài)性是由( B )所決定的。 A. DNA點(diǎn)突變個(gè)數(shù) B. 限制性內(nèi)切酶識(shí)別序列個(gè)數(shù)不同C. DNA的二級(jí)結(jié)構(gòu)不同 D. 重復(fù)單位不同 9、真核基因組特點(diǎn)不包括( B ) A. 基因組大，巨大的非編碼序列，重復(fù)序列占了絕大部分 B. 基因結(jié)構(gòu)復(fù)雜，有顯著長(zhǎng)度的開放閱讀框 C. 存在可變剪接 D. CpG島 10、PDB是蛋白質(zhì)的( B ) A. 分類數(shù)據(jù)庫(kù) B. 結(jié)構(gòu)數(shù)據(jù)庫(kù) C. 核酸數(shù)據(jù)庫(kù) D.模體數(shù)據(jù)庫(kù) 11、根據(jù)研究發(fā)現(xiàn)，人類基因組中真正編碼蛋白質(zhì)的區(qū)域僅占DNA 序列的( A ) A. 1-2% B. 3-5% C.

21、5-10% D.10-20% 12、在真核生物的一個(gè)基因內(nèi)含子兩端，即外顯子/內(nèi)含子拼接邊界處，其符合( B )規(guī)則。 A. Kozak B. GTAG C. SD D. Poly(A) 13、PIR是( D ) A. 分類數(shù)據(jù)庫(kù) B. 核酸數(shù)據(jù)庫(kù) C. mRNA數(shù)據(jù)庫(kù) D.蛋白質(zhì)數(shù)據(jù)庫(kù) 14、alignment的含義是( C ) A. 登錄號(hào) B. 算法 C. 比對(duì) D.分類 15、隱馬爾科夫模型的代號(hào)是( A ) A. HMM B. CDD C. HTGS D. GSS 16、DNA中Tm值與( B )含量成正比 A. G+A B. G+C C. T+C D. A+T 17、OMIM是(

22、A ) A. 在線人類孟德爾遺傳數(shù)據(jù)庫(kù) B. 國(guó)家核酸數(shù)據(jù)庫(kù) C. 人類基因組計(jì)劃 D. 水稻基因組計(jì)劃 18、被譽(yù)為“生物信息學(xué)之父”的科學(xué)家是( D ) A. Dulbecco B. Sanger C. 吳瑞 D. 林華安 19、下列Fasta格式正確的是( B ) A. seq1: agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta B. >seq1 agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta C. seq1:agcggatccagac

23、gctgcgtttgctggctttgatgaaaactctaactaaacactccctta D. >seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta 20、國(guó)際三大核酸數(shù)據(jù)庫(kù)每間隔多長(zhǎng)時(shí)間就互相交換數(shù)據(jù)庫(kù)里的數(shù)據(jù)( A ) A.每天 B.7 天 C. 10天 D. 一個(gè)月 21、UTR的含義是( B ) A. 編碼區(qū) B. 非編碼區(qū) C. 低復(fù)雜度區(qū)域 D. 開放閱讀框 22、以下數(shù)據(jù)庫(kù)不能用于檢索核酸序列的是( B ) A. GenBank B. PDB C. EMBL D.DDBJ 23、進(jìn)行多序列比

24、對(duì)常使用哪種軟件 ( C ) A. Dock B. Compute pI/MW C. Clustal D. Rasmol 24、對(duì)于遠(yuǎn)源蛋白質(zhì)序列，在進(jìn)行多序列比對(duì)的時(shí)候應(yīng)選用下面哪一種矩陣( B ) A. BLOSUM62 B. BLOSUM30 C.PAM100 D. 結(jié)合基序打分矩陣 25、對(duì)于蛋白質(zhì)同源結(jié)構(gòu)模建，通常要求待模建序列與模板序列一致性超過(guò) ( D ) A. 60% B. 50% C. 40% D.30% 26、對(duì)于搜索不到同源模板的蛋白質(zhì)，可嘗試用以下哪種方法模建構(gòu) ( A ) A. Threading 法 B. SWISS-MODEL網(wǎng)絡(luò)服務(wù)器 C. Homology法

25、D. 沒(méi)有辦法模建 27、給定一段核酸序列，可通過(guò)什么方法查找上面蛋白質(zhì)編碼區(qū)( A ) A.ORF Finder B. CpGPlot C. SWISS-MODEL D. Dock 28、預(yù)測(cè)蛋白質(zhì)上的跨膜區(qū)，可使用以下哪種軟件或方法( D ) A. GeneSplicer B. Chou-Fasman算法 C. GOR D.TMHMM 29、EMBL的含義是( B ) A. 美國(guó)國(guó)家生物信息中心 B. 歐洲分子生物學(xué)實(shí)驗(yàn)室 C. 日本DNA數(shù)據(jù)庫(kù) D. 瑞士國(guó)家基因組研究中心 30、NCBI的含義是( A ) A. 美國(guó)國(guó)家生物信息中心 B. 歐洲分子生物學(xué)實(shí)驗(yàn)室 C. 日本DNA數(shù)據(jù)庫(kù)

26、D. 瑞士國(guó)家基因組研究中心四、簡(jiǎn)答 1、生物信息學(xué)的發(fā)展經(jīng)歷了哪幾個(gè)階段？答:生物信息學(xué)的發(fā)展經(jīng)歷了3個(gè)階段。第一個(gè)階段是前基因組時(shí)代。這一階段主要是以各種算法法則的建立、生物數(shù)據(jù)庫(kù)的建立以及DNA和蛋白質(zhì)序列分析為主要工作; 第二階段是基因組時(shí)代。這一階段以各種基因組計(jì)劃測(cè)序、網(wǎng)絡(luò)數(shù)據(jù)庫(kù)系統(tǒng)的建立和基因?qū)ふ覟橹饕ぷ鳌?第三階段是后基因組時(shí)代。這一階段的主要工作是進(jìn)行大規(guī)?；蚪M分析、蛋白質(zhì)組分析以及其他各種基因組學(xué)研究。 2、生物信息學(xué)的主要研究任務(wù)是什么,目前生物信息學(xué)的主要研究?jī)?nèi)容是什么？答：任務(wù):收集和管理生物分子數(shù)據(jù);數(shù)據(jù)分析和挖掘;開發(fā)分析工具和實(shí)用軟件:生物分子序列比較

27、工具、基因識(shí)別工具、生物分子結(jié)構(gòu)預(yù)測(cè)工具、基因表達(dá)數(shù)據(jù)分析工具。內(nèi)容:(1)序列比對(duì);(2)基因預(yù)測(cè);(3)藥物設(shè)計(jì);(4)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè);(5)基因調(diào)控網(wǎng)絡(luò)的預(yù)測(cè);(6)蛋白質(zhì)相互作用預(yù)測(cè);(7)分子進(jìn)化分析 3、人類基因組計(jì)劃的主要內(nèi)容和目的是什么？答：人類基因組計(jì)劃中，人們準(zhǔn)備用15年時(shí)間，投入30億美元，完成人類全部24條染色體中3×109個(gè)堿基對(duì)(bp，base pair)的序列測(cè)定，其主要任務(wù)包括作圖(遺傳圖譜、物理圖譜的建立及轉(zhuǎn)錄圖譜的繪制)、測(cè)序和基因識(shí)別，還包括模式生物(如大腸桿菌、酵母、線蟲、小鼠等)基因組的作圖和測(cè)序，以及信息系統(tǒng)的建立。目的：是解碼生命、

28、了解生命的起源、了解生命體生長(zhǎng)發(fā)育的規(guī)律、認(rèn)識(shí)種屬之間和個(gè)體之間存在差異的起因、認(rèn)識(shí)疾病產(chǎn)生的機(jī)制以及長(zhǎng)壽與衰老等生命現(xiàn)象、為疾病的診治提供科學(xué)依據(jù)。4、什么是一級(jí)數(shù)據(jù)庫(kù)，哪些數(shù)據(jù)庫(kù)屬于一級(jí)數(shù)據(jù)庫(kù),它與二級(jí)數(shù)據(jù)庫(kù)有什么區(qū)別？答：一級(jí)數(shù)據(jù)庫(kù):數(shù)據(jù)庫(kù)中的數(shù)據(jù)直接來(lái)源于實(shí)驗(yàn)獲得的原始數(shù)據(jù)，只經(jīng)過(guò)簡(jiǎn)單的歸類整理和注釋。國(guó)際上著名的一級(jí)核酸數(shù)據(jù)庫(kù)有Genbank數(shù)據(jù)庫(kù)、EMBL核酸庫(kù)和DDBJ庫(kù)等;蛋白質(zhì)序列數(shù)據(jù)庫(kù)有SWISS-PROT、PIR等;蛋白質(zhì)結(jié)構(gòu)庫(kù)有PDB等。一級(jí)數(shù)據(jù)庫(kù)的數(shù)據(jù)量大、更新速度快、用戶面廣，但存在過(guò)多的冗余數(shù)據(jù);二級(jí)數(shù)據(jù)庫(kù)的容量比較小，更新速度沒(méi)有一級(jí)數(shù)據(jù)庫(kù)快，但經(jīng)過(guò)帥選后，避免

29、了過(guò)多的冗余數(shù)據(jù)，其中與蛋白質(zhì)相關(guān)的二級(jí)數(shù)據(jù)庫(kù)較多。 5、向GeneBank數(shù)據(jù)庫(kù)提交序列的軟件有幾種,各有什么特點(diǎn)？答：BankIt, Sequin Bankit的特點(diǎn):使用簡(jiǎn)單，每個(gè)步驟有詳細(xì)說(shuō)明。但一次只能提交一個(gè)序列，長(zhǎng)度不能太長(zhǎng)。 Sequin的特點(diǎn):安裝在用戶自己的計(jì)算機(jī)上，可同時(shí)遞交若干序列和較長(zhǎng)序列，而且整合了許多有用的序列注釋工具。 6、列舉5項(xiàng)DNA序列分析的內(nèi)容及代表性分析工具？答:(1)核酸序列組成成分分析:BioXM、BioEdit (2)基因結(jié)構(gòu)分析:NCBI-ORF finder、CpGPlot、PromoterScan、POLYAH (3)重復(fù)序列分析:Rep

30、eat Masker (4)序列同源性:Blast (5) 限制性內(nèi)切酶酶切位點(diǎn)分析:BioXM、 Bioedit 7、如何獲取訪問(wèn)號(hào)為U49845的genbank文件,解釋如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 。答:(1)訪問(wèn)NCBI的Entrez檢索系統(tǒng)，(2)選擇核酸數(shù)據(jù)庫(kù)，(3)輸入U(xiǎn)49845序列訪問(wèn)號(hào)開始檢索。第一項(xiàng)是LOCUS名稱，前三個(gè)字母代表物種名第二項(xiàng)是序列長(zhǎng)度第三項(xiàng)是序列分子類型第四項(xiàng)是分子為線性的第五項(xiàng)是GenBank分類碼第六項(xiàng)是最后修訂日期 8

31、、BLAST算法的搜索步驟及其在數(shù)據(jù)庫(kù)搜索中的主要作用，E值和P值分別是什么，它們有什么意義？答:1.登陸blast主頁(yè);2.根據(jù)數(shù)據(jù)類型，選擇合適的程序;3.填寫表單信息;4.提交任務(wù);5.查看和分析結(jié)果 BLAST中使用的統(tǒng)計(jì)值有概率p值和期望e值。 E期望值(E-value)這個(gè)數(shù)值表示你僅僅因?yàn)殡S機(jī)性造成獲得這一比對(duì)結(jié)果的可能次數(shù)。這一數(shù)值越接近零，發(fā)生這一事件的可能性越小。從搜索的角度看，E值越小，比對(duì)結(jié)果越顯著。默認(rèn)值為10，表示比對(duì)結(jié)果中將有10個(gè)匹配序列是由隨機(jī)產(chǎn)生，如果比對(duì)的統(tǒng)計(jì)顯著性值(E值)小于該值(10)，則該比對(duì)結(jié)果將被檢出，換句話說(shuō)，比較低的E值將使搜索的匹配要求更

32、嚴(yán)格，結(jié)果報(bào)告中隨機(jī)產(chǎn)生的匹配序列減少。 p值表示比對(duì)結(jié)果得到的分?jǐn)?shù)值的可信度。一般說(shuō)來(lái)，p值越接近于零，則比對(duì)結(jié)果的可信度越大;相反，p值越大，則比對(duì)結(jié)果來(lái)自隨機(jī)匹配的可能性越大。 9、簡(jiǎn)述NCBI中Entrez系統(tǒng)的功能。答：高級(jí)檢索系統(tǒng);查找核酸、蛋白、文獻(xiàn)、結(jié)構(gòu)、基因組序列、大分子三維結(jié)構(gòu)、突變數(shù)據(jù)、探針序列、單核苷酸多態(tài)性等數(shù)據(jù)。 10、BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？答：Blastn是將給定的核酸序列與核酸數(shù)據(jù)庫(kù)中的序列進(jìn)行比較;Blastp是使用蛋白質(zhì)序列與蛋白質(zhì)數(shù)據(jù)庫(kù)中的序列進(jìn)行比較，可以尋找較遠(yuǎn)的關(guān)系

33、;Blastx將給定的核酸序列按照六種閱讀框架將其翻譯成蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫(kù)中的序列進(jìn)行比對(duì)，對(duì)分析新序列和EST很有用;Tblastn將給定的氨基酸序列與核酸數(shù)據(jù)庫(kù)中的序列(雙鏈)按不同的閱讀框進(jìn)行比對(duì)，對(duì)于尋找數(shù)據(jù)庫(kù)中序列沒(méi)有標(biāo)注的新編碼區(qū)很有用;Tblastx只在特殊情況下使用，它將DNA被檢索的序列和核酸序列數(shù)據(jù)庫(kù)中的序列按不同的閱讀框全部翻譯成蛋白質(zhì)序列，然后進(jìn)行蛋白質(zhì)序列比對(duì)。 11、什么是序列比對(duì)中使用的PAM矩陣和BLOSUM矩陣，它們的作用是什么，一般如何選擇合適的評(píng)分矩陣？答:PAM矩陣(Point Accepted Mutation)基于進(jìn)化的點(diǎn)突變模型，如果兩種氨基酸替

34、換頻繁，說(shuō)明自然界接受這種替換，那么這對(duì)氨基酸替換得分就高。一個(gè)PAM就是一個(gè)進(jìn)化的變異單位, 即1%的氨基酸改變，但這并不意味100次PAM后，每個(gè)氨基酸都發(fā)生變化，因?yàn)槠渲幸恍┪恢每赡軙?huì)經(jīng)過(guò)多次突變，甚至可能會(huì)變回到原來(lái)的氨基酸。模塊替換矩陣BLOSUM(BLOcks Substitution Matrix)首先尋找氨基酸模式，即有意義的一段氨基酸片斷(如一個(gè)結(jié)構(gòu)域及其相鄰的兩小段氨基酸序列)，分別比較相同的氨基酸模式之間氨基酸的保守性(某種氨基酸對(duì)另一種氨基酸的取代數(shù)據(jù))，然后，以所有 60,保守性的氨基酸模式之間的比較數(shù)據(jù)為根據(jù)，產(chǎn)生BLOSUM60;以所有80,保守性的氨基酸模式之

35、間的比較數(shù)據(jù)為根據(jù)，產(chǎn)生BLOSUM80。 PAM矩陣和BLOSUM矩陣都是用于序列相似性的記分矩陣(scoring matrix)。記分矩陣中含有對(duì)齊時(shí)具體使用的數(shù)值。一般FASTA和BLAST都提供BLOSUM或PAM系列矩陣供選擇，若要進(jìn)行突變性質(zhì)的進(jìn)化分析時(shí)可以使用PAM，F(xiàn)ASTA缺省推薦BLOSUM50矩陣。 12、為下面的序列比對(duì)確定比對(duì)得分:匹配得分= +1，失配得分= 0，空位得分= -1。答：X=TGTACGGCTATA; Y=TC-CGCCT-TA TT 1 GC 0 T- -1 A- -1 CC 1 GG 1 GC 0 CC 1 TT 1 A- -1 TT 1 AA

36、1 最后得分1+0+(-1)+(-1)+1+1+0+1+1+(-1)+1+1=4 13、使用Needleman-Wunsch算法計(jì)算序列X和Y的最佳比對(duì)(配對(duì)score=4，錯(cuò)配score=-3，空位罰分score=-4) X=TTCGAGT; Y=ATTCCAAG。 T T C G A G T 0 -4 -8 -12 -16 -20 -24 -28 A -4 -3 -7 -11 -15 -12 -16 -20 T -8 0 1 -3 -7 -11 -15 -12 T -12 -4 4 0 -4 -8 -12 -11 C -16 -8 0 8 4 0 -4 -8 C -20 -12 -4 4

37、5 1 -3 -7 A -24 -16 -8 0 1 9 5 1 A -28 -20 -12 -4 -3 5 6 2 G -32 -24 -16 -8 0 1 9 5 14、掌握蛋白質(zhì)結(jié)構(gòu)有什么意義,為什么要進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)？答：（1）研究蛋白質(zhì)的結(jié)構(gòu)意義重大，分析蛋白質(zhì)結(jié)構(gòu)、功能及其關(guān)系是蛋白質(zhì)組計(jì)劃中的一個(gè)重要組成部分。研究蛋白質(zhì)結(jié)構(gòu)，有助于了解蛋白質(zhì)的作用，了解蛋白質(zhì)如何行使其生物功能，認(rèn)識(shí)蛋白質(zhì)與蛋白質(zhì)(或其它分子)之間的相互作用，這無(wú)論是對(duì)于生物學(xué)還是對(duì)于醫(yī)學(xué)和藥學(xué)，都是非常重要的。（2）對(duì)于未知功能或者新發(fā)現(xiàn)的蛋白質(zhì)分子，通過(guò)結(jié)構(gòu)分析，可以進(jìn)行功能注釋，指導(dǎo)設(shè)計(jì)進(jìn)行功能確認(rèn)的生物

38、學(xué)實(shí)驗(yàn)。通過(guò)分析蛋白質(zhì)的結(jié)構(gòu)，確認(rèn)功能單位或者結(jié)構(gòu)域，可以為遺傳操作提供目標(biāo)，為設(shè)計(jì)新的蛋白質(zhì)或改造已有蛋白質(zhì)提供可靠的依據(jù)，同時(shí)為新的藥物分子設(shè)計(jì)提供合理的靶分子結(jié)構(gòu)。 15、簡(jiǎn)述BLAST搜索的算法思想。答:BLAST是一種局部最優(yōu)比對(duì)搜索算法，將所查詢的序列打斷成許多小序列片段，然后小序列逐步與數(shù)據(jù)庫(kù)中的序列進(jìn)行比對(duì)，這些小片段被叫做字”word”;當(dāng)一定長(zhǎng)度的的字(W)與檢索序列的比對(duì)達(dá)到一個(gè)指定的最低分(T)后，初始比對(duì)就結(jié)束了;一個(gè)序列的匹配度由各部分匹配分?jǐn)?shù)的總和決定，獲得高分的序列叫做高分匹配片段(HSP)，程序?qū)⒆詈玫腍SP雙向擴(kuò)展進(jìn)行比對(duì)，直到序列結(jié)束或者不再具有生物學(xué)顯

39、著性，最后所得到的序列是那些在整體上具有最高分的序列，即，最高分匹配片段(MSP)，這樣，BLAST既保持了整體的運(yùn)算速度，也維持了比對(duì)的精度。 16、試述PSI-BLAST 搜索的5個(gè)步驟。答: 選擇待查序列(query)和蛋白質(zhì)數(shù)據(jù)庫(kù); PSI-BLAST 構(gòu)建一個(gè)多序列比對(duì)，然后創(chuàng)建一個(gè)序列表譜(profile)又稱特定位置打分矩陣(PSSM); PSSM被用作 query搜索數(shù)據(jù)庫(kù) PSI-BLAST 估計(jì)統(tǒng)計(jì)學(xué)意義 (E values) 重復(fù) 和 , 直到?jīng)]有新的序列發(fā)現(xiàn)。17、PSI-BLAST and PHI-BLAST 答：PSI-BLAST:位點(diǎn)特異性反復(fù)比對(duì)，首先進(jìn)行一

40、般的blastp比對(duì)，從比對(duì)結(jié)果中構(gòu)建多序列比對(duì)的搜索矩陣，然后用此矩陣在一次搜索原來(lái)的數(shù)據(jù)庫(kù)，重復(fù)5次直到?jīng)]有新的結(jié)果出現(xiàn)為止。其是一種更加高靈敏度的Blastp程序，對(duì)于發(fā)現(xiàn)遠(yuǎn)親物種的相似蛋白或某個(gè)蛋白家族的新成員。 PHI-Blast:模式識(shí)別BLAST，是一種既能和查詢匹配又能和模式匹配的的蛋白序列的比對(duì)程序，是一種高靈敏性的blastp程序，一般經(jīng)過(guò)一次搜索即可取得很好的效果，而當(dāng)一次之后其與PSI-BLAST功能是一致的。廣泛用于蛋白家族成員的鑒定。 18、全局比對(duì)與局部比對(duì)的比較及生物學(xué)意義答：全局比對(duì):對(duì)序列的全部字符進(jìn)行比對(duì)，試圖使盡可能多的字符實(shí)現(xiàn)匹配。其主要用于序列相似

41、度很高且序列長(zhǎng)度相近的序列比對(duì)，用于進(jìn)化的研究和結(jié)構(gòu)的預(yù)測(cè)。局部比對(duì):尋找序列間相似度最高的區(qū)域，也就是匹配密度最高的部分。其主要應(yīng)用于某些部位相似度較高而其他部位差異較大的序列的比對(duì)，用于尋找保守的核苷酸及蛋白質(zhì)序列中氨基酸模式19、簡(jiǎn)述除權(quán)配對(duì)法(UPGMA)的算法思想。答:通過(guò)兩兩比對(duì)聚類的方法進(jìn)行，在開始時(shí)，每個(gè)序列分為一類，分別作為一個(gè)樹枝的生長(zhǎng)點(diǎn)，然后將最近的兩序列合并，從而定義出一個(gè)節(jié)點(diǎn)，將這個(gè)過(guò)程不斷的重復(fù)，直到所有的序列都被加入，最后得到一棵進(jìn)化樹。P119 11) 20、簡(jiǎn)述鄰接法(NJ)構(gòu)樹的算法思想。答:鄰接法的思想不僅僅計(jì)算最小兩兩比對(duì)距離，還對(duì)整個(gè)樹的長(zhǎng)度進(jìn)行

42、最小化，從而對(duì)樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制。這種算法由一棵星狀樹開始，所有的物種都從一個(gè)中心節(jié)點(diǎn)出發(fā)，然后通過(guò)計(jì)算最小分支長(zhǎng)度的和相繼尋找到近鄰的兩個(gè)序列，每一輪過(guò)程中考慮所有可能的序列對(duì)，把能使樹的整個(gè)分支長(zhǎng)度最小的序列對(duì)一組，從而產(chǎn)生新的距離矩陣，直到尋找所有的近鄰序列。P117 21、簡(jiǎn)述最大簡(jiǎn)約法(MP)的算法思想。P68 答:是一種基于離散特征的進(jìn)化樹算法。生物演化應(yīng)該遵循簡(jiǎn)約性原則，所需變異次數(shù)最少(演化步數(shù)最少)的演化樹可能為最符合自然情況的系統(tǒng)樹。在具體的操作中，分為非加權(quán)最大簡(jiǎn)約分析(或稱為同等加權(quán))和加權(quán)最大簡(jiǎn)約分析，后者是根據(jù)性狀本身的演化規(guī)律(比如DNA不同位點(diǎn)進(jìn)化速率不同)而

43、對(duì)其進(jìn)行不同的加權(quán)處理。P120 13)22、簡(jiǎn)述最大似然法(ML)的算法思想。P69 答:是一種基于離散特征的進(jìn)化樹算法。該法首先選擇一個(gè)合適的進(jìn)化模型，然后對(duì)所有可能的進(jìn)化樹進(jìn)行評(píng)估，通過(guò)對(duì)每個(gè)進(jìn)化位點(diǎn)的替代分配一個(gè)概率，最后找出概率最大的進(jìn)化樹。P122 23、UPGMA構(gòu)樹法不精確的原因是什么？P69 答:由個(gè)于UPGMA假設(shè)在進(jìn)化過(guò)程中所有核苷酸/氨基酸都有相同的變異率，也就是存在著一個(gè)分子鐘;這種算法當(dāng)所構(gòu)建的進(jìn)化樹的序列進(jìn)化速率明顯不一致時(shí)，得到的進(jìn)化樹相對(duì)來(lái)說(shuō)不準(zhǔn)確的。 24、進(jìn)化樹的可靠性分析答：自展法(Bootstrap Method) 1、從排列的多序列中隨機(jī)有放回的

44、抽取某一列，構(gòu)成相同長(zhǎng)度的新的排列序列; 2、重復(fù)上面的過(guò)程，得到多組新的序列; 3、對(duì)這些新的序列進(jìn)行建樹，再觀察這些樹與原始樹是否有差異，以此評(píng)價(jià)建樹的可靠性。 25、生物信息學(xué)數(shù)據(jù)庫(kù)的組成包括哪些部分,數(shù)據(jù)庫(kù)有哪些類型？答:生物信息學(xué)數(shù)據(jù)庫(kù)的組成包括一級(jí)數(shù)據(jù)庫(kù)和二級(jí)數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)的類型包括核算和蛋白質(zhì)一級(jí)結(jié)構(gòu)序列數(shù)據(jù)庫(kù)、基因組數(shù)據(jù)庫(kù)、生物大分子三維空間結(jié)構(gòu) 數(shù)據(jù)庫(kù)、以上述3類數(shù)據(jù)庫(kù)和文獻(xiàn)資料為基礎(chǔ)構(gòu)建的二次數(shù)據(jù)庫(kù)。 26、簡(jiǎn)要介紹 GenBank中的DNA序列格式。答:GenBank中的DNA序列格式可以分成三個(gè)部分，第一部分為描述符，從第一行LOCUS行到ORIGIN行，包含了關(guān)于整

45、個(gè)記錄的信息;第二部分為特性表，從FEATURES行開始，包含了注釋這一紀(jì)錄的特性，是條目的核心，中間使用一批關(guān)鍵字;第三部分是核苷酸序列的本身。 27、簡(jiǎn)要介紹FASTA序列格式答:FASTA格式，又叫Pearson格式，是最簡(jiǎn)單的，使用最多的格式。它的基本形式分為三個(gè)部分:第一行:大于號(hào)(，)表示一個(gè)新的序列文件的開始，為標(biāo)記符。后面可以加上文字說(shuō)明，gi號(hào)，GenBank檢索號(hào)，LOCUS名稱等信息。第二行:序列本身，為DNA的標(biāo)準(zhǔn)符號(hào)，通常大小寫均可。結(jié)束:無(wú)特殊標(biāo)志，但建議多留一個(gè)空行，以便將序列和其他內(nèi)容區(qū)分開。 28、序列的相似性與同源性有什么區(qū)別與聯(lián)系？答:(1)相似性

46、是指序列之間相關(guān)的一種統(tǒng)計(jì)學(xué)的量度，兩序列的的相似性可以基于序列的一致性和相似度的百分比，也可以用相應(yīng)的分?jǐn)?shù)來(lái)衡量這種相似;而同源性是指序列所代表的物種具有共同的祖先，強(qiáng)調(diào)進(jìn)化上的親緣關(guān)系，不能用相應(yīng)的數(shù)字去量化這種關(guān)系，我們只能說(shuō)序列具有高的一致性的百分比的可能是同源的。 (2)相似的不一定是同源的，同源的則表現(xiàn)出一定的相似性。因?yàn)樵谶M(jìn)化中來(lái)源于不同的基因或序列由于不同的獨(dú)立突變而趨同的并不罕見。相反同源序列由于來(lái)源于共通過(guò)祖先則表現(xiàn)出一定的相似性。五、思考題 1、生物信息學(xué)的含義是什么,舉一個(gè)例子說(shuō)明你對(duì)生物信息學(xué)的哪方面感興趣。答：生物信息學(xué)的含義:生物分子信息的獲取、存貯、分析和利用

47、;以數(shù)學(xué)為基礎(chǔ)，應(yīng)用計(jì)算機(jī)技術(shù)，研究生物學(xué)數(shù)據(jù)的科學(xué)。生物信息技術(shù)在醫(yī)藥領(lǐng)域的應(yīng)用涉及到新藥開發(fā)、新診斷技術(shù)、預(yù)防措施及新的治療技術(shù)，如單克隆抗體、基因診斷、熒光檢測(cè)、基因芯片等。其中基因芯片技術(shù)可用于包括遺傳性疾病、傳染性疾病及腫瘤等疾病的診斷、DNA序列分析、藥物篩選、基因表達(dá)水平的測(cè)定等領(lǐng)域。 2、預(yù)測(cè)基因的一般步驟是什么？答：如下獲取DNA目標(biāo)序列查找ORF并將目標(biāo)序列翻譯成蛋白質(zhì)序列，利用相應(yīng)工具查找ORF并將DNA序列翻譯成蛋白質(zhì)序列在數(shù)據(jù)庫(kù)中進(jìn)行序列搜索，利用BLAST進(jìn)行ORF核苷酸序列和ORF翻譯的蛋白質(zhì)序列搜索進(jìn)行目標(biāo)序列與搜索得到的相似序列的全局對(duì)比查找基因家族進(jìn)行多序

48、列比對(duì)，獲得比對(duì)區(qū)段的基因家族信息查找目標(biāo)序列中的特定模序，分別在Prosite、BLOCK、Motif數(shù)據(jù)庫(kù)中進(jìn)行profile、模塊(block)、模序(motif)檢索預(yù)測(cè)目標(biāo)序列蛋白質(zhì)結(jié)構(gòu)，利用PredictProtein(EMBL)、NNPREDICT等預(yù)測(cè)目標(biāo)序列的蛋白質(zhì)二級(jí)結(jié)構(gòu)。 3、為什么蛋白質(zhì)空間結(jié)構(gòu)預(yù)測(cè)很重要，目前有哪幾條途徑用于從蛋白質(zhì)的氨基酸序列預(yù)測(cè)其空間三維結(jié)構(gòu)？答:蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測(cè)很重要。研究蛋白質(zhì)結(jié)構(gòu)，有助于了解蛋白質(zhì)如何行使其生物功能，認(rèn)識(shí)蛋白質(zhì)與蛋白質(zhì)(或其它分子)之間的相互作用，通過(guò)分析蛋白質(zhì)的結(jié)構(gòu)，確認(rèn)功能單位或者結(jié)構(gòu)域，可以為遺傳操作提供目標(biāo)，為設(shè)計(jì)新的蛋白質(zhì)或改造已有蛋白質(zhì)提供可靠的依據(jù)，同時(shí)為新的藥物分子設(shè)計(jì)提供合理的靶分子結(jié)構(gòu)。目前有三條途徑用于從蛋白質(zhì)一級(jí)序列預(yù)測(cè)其空間三維結(jié)構(gòu): A、同源建模法。是蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)的主要方法。對(duì)于一個(gè)未知結(jié)構(gòu)的蛋白質(zhì)，首先通過(guò)序列同源分析找到一個(gè)已知結(jié)構(gòu)的同源蛋白質(zhì)，然后，以該蛋白質(zhì)的結(jié)構(gòu)為模板，為未知結(jié)構(gòu)的蛋白質(zhì)建立結(jié)構(gòu)模型。前提是必須要有一個(gè)已知結(jié)構(gòu)的同源蛋白質(zhì)。 B、穿針引線法。需建立核心折疊數(shù)據(jù)庫(kù)，在預(yù)測(cè)蛋白質(zhì)空間結(jié)構(gòu)時(shí)將一個(gè)待預(yù)測(cè)結(jié)構(gòu)的蛋白質(zhì)序列與數(shù)據(jù)庫(kù)中核心折疊進(jìn)行比對(duì)，找出比對(duì)結(jié)果最好的核心折疊，作為構(gòu)造待預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)模型的根據(jù)。 C、從頭開始法。在既沒(méi)

人人文庫(kù)> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

生物信息學(xué)題庫(kù)--精校+整理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

生物信息學(xué)題庫(kù)--精校+整理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔