生物信息學(xué)題庫--精校+整理_第1頁
生物信息學(xué)題庫--精校+整理_第2頁
生物信息學(xué)題庫--精校+整理_第3頁
生物信息學(xué)題庫--精校+整理_第4頁
生物信息學(xué)題庫--精校+整理_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上生物信息學(xué)題庫一、名詞解釋 1、生物信息學(xué):生物分子信息的獲取、存貯、分析和利用;以數(shù)學(xué)為基礎(chǔ),應(yīng)用計(jì)算機(jī)技術(shù),研究生物學(xué)數(shù)據(jù)的科學(xué)。 2、相似性(similarity):相似性是指序列比對(duì)過程中用來描述檢測(cè)序列和目標(biāo)序列之間相同DNA堿基或氨基酸殘基順序所占比例的高低。 3、同源性(homology):生物進(jìn)化過程中源于同一祖先的分支之間的關(guān)系。4、BLAST(Basic Local Alignment Search Tool):基本局部比對(duì)搜索工具,用于相似性搜索的工具,對(duì)需要進(jìn)行檢索的序列與數(shù)據(jù)庫中的每個(gè)序列做相似性比較。 5、HMM隱馬爾可夫模型:是蛋白質(zhì)結(jié)構(gòu)

2、域家族序列的一種嚴(yán)格的統(tǒng)計(jì)模型,包括序列的匹配,插入和缺失狀態(tài),并根據(jù)每種狀態(tài)的概率分布和狀態(tài)間的相互轉(zhuǎn)換來生成蛋白質(zhì)序列。 6、一級(jí)數(shù)據(jù)庫:一級(jí)數(shù)據(jù)庫中的數(shù)據(jù)直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過簡(jiǎn)單的歸類整理和注釋(投稿文章首先要將核苷酸序列或蛋白質(zhì)序列提交到相應(yīng)的數(shù)據(jù)庫中) 7、二級(jí)數(shù)據(jù)庫:對(duì)原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果,是在一級(jí)數(shù)據(jù)庫、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定的應(yīng)用目標(biāo)而建立的。 8、GenBank: 是具有目錄和生物學(xué)注釋的核酸序列綜合公共數(shù)據(jù)庫,由NCBI構(gòu)建和維護(hù)。9、EMBL: EMBL 實(shí)驗(yàn)室:歐洲分子生物學(xué)實(shí)驗(yàn)室。EMBL 數(shù)據(jù)庫:是非盈利性學(xué)術(shù)組織 EMB

3、L 建立的綜合性數(shù)據(jù)庫,EMBL 核酸數(shù)據(jù)庫是歐洲最重要的核酸序列數(shù)據(jù)庫,它定期地與美國(guó)的 GenBank、日本的 DDBJ 數(shù)據(jù)庫中的數(shù) 據(jù)進(jìn)行交換,并同步更新。 10、DDBJ: 日本核酸序列數(shù)據(jù)庫,是亞洲唯一的核酸序列數(shù)據(jù)庫。 11、Entrez:是由 NCBI 主持的一個(gè)數(shù)據(jù)庫檢索系統(tǒng),它包括核酸,蛋白以及 Medline 文摘數(shù)據(jù)庫,在這三個(gè)數(shù)據(jù)庫中建立了非常完善的聯(lián)系。 12、SRS(sequence retrieval system):序列查詢系統(tǒng),是 EBI 提供的多數(shù)據(jù)庫查詢工具之一。有與 Entrez 類似的功能,還提供一系列的序列分析工具,可以直接進(jìn)行在線序列分析處理。

4、13、EST:收集大量cDAN或EST序列以及其他相關(guān)信息,目前最大的公共表達(dá)序列數(shù)據(jù)庫。 14、GSS:GeneBank數(shù)據(jù)庫的一部分,收集基因組DNA克隆的測(cè)序序列。 15、GEO:基因表達(dá)精選集是一個(gè)儲(chǔ)存高通量功能基因組學(xué)數(shù)據(jù)的數(shù)據(jù)庫。 16、SCOP數(shù)據(jù)庫:提供關(guān)于已知結(jié)構(gòu)的蛋白質(zhì)之間結(jié)構(gòu)和進(jìn)化關(guān)系的詳細(xì)描述,包括蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB中的所有條目。 17、PROSITE :是蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫,包含具有生物學(xué)意義的位點(diǎn)、模式、可幫助識(shí)別蛋白質(zhì)家族的統(tǒng)計(jì)特征。 18、RefSeq: 是一個(gè)收錄注釋過的非冗余轉(zhuǎn)錄本、蛋白質(zhì)和基因組序列的數(shù)據(jù)庫。 19、結(jié)構(gòu)域Structure do

5、main:結(jié)構(gòu)域,是在蛋白質(zhì)三級(jí)結(jié)構(gòu)中介于二級(jí)和三級(jí)結(jié)構(gòu)之間的可以明顯區(qū)分但又相對(duì)獨(dú)立的折疊單元。 20、開放閱讀框ORF: 開放閱讀框,位于DNA或RNA上起始密碼子與終止密碼子之間的序列。 21、啟動(dòng)子Promoter:啟動(dòng)子是基因的一個(gè)組成部分,是位于結(jié)構(gòu)基因5端上游區(qū)的DNA序列,控制基因表達(dá)(轉(zhuǎn)錄)的起始時(shí)間和表達(dá)的程度。 22、3UTR:3非翻譯區(qū)的縮寫,真核生物的轉(zhuǎn)錄終止信號(hào)是在 3非翻譯區(qū)的 : polyA。 23、CpG island:是在哺乳動(dòng)物基因組中的一個(gè)500bp到300bp的區(qū)域,富含GC。24、模體Motif:又稱模體,蛋白質(zhì)序列中短的保守區(qū)域,它們是結(jié)構(gòu)域中保守

6、性很高的部分。25、PDB(Protein Data Bank):蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫,是國(guó)際上著名的生物大分子結(jié)構(gòu)數(shù)據(jù)庫,由美國(guó)Brookhaven國(guó)家實(shí)驗(yàn)室建立。 26、打分矩陣(scoring matrix):在相似性檢索中對(duì)序列兩兩比對(duì)的質(zhì)量評(píng)估方法。包括基于理論(如考慮核酸和氨基酸之間的類似性)和實(shí)際進(jìn)化距離(如PAM)兩類方法。 27、遺傳連鎖圖:又叫遺傳圖譜(genetic map)是以具有遺傳多態(tài)性的遺傳標(biāo)記為“路標(biāo)”,以遺傳學(xué)距離為圖距的基因組圖。 28、蛋白質(zhì)組(proteom):是指一個(gè)基因組、一種生物或一個(gè)細(xì)胞/組織的基因組所表達(dá)的全套蛋白質(zhì)。 29、基因組學(xué):研究生物基因

7、組和如何利用基因的一門學(xué)問。 30、比較基因組學(xué):是在基因組圖譜和測(cè)序的基礎(chǔ)上,利用某個(gè)基因組研究獲得的信息推測(cè)其他原核生物、真核生物類群中的基因數(shù)目、位置、功能、表達(dá)機(jī)制和物種進(jìn)化的學(xué)科。 31、FASTA序列格式:是將DNA或者蛋白質(zhì)序列表示為一個(gè)帶有一些標(biāo)記的核苷酸或者氨基酸字符串,大于號(hào)(>)表示一個(gè)新文件的開始,其他無特殊要求。 32、genbank序列格式:是GenBank 數(shù)據(jù)庫的基本信息單位,是最為廣泛的生物信息學(xué)序列格式之一。該文件格式按域劃分為4個(gè)部分:第一部分包含整個(gè)記錄的信息(描述符);第二部分包含注釋;第三部分是引文區(qū),提供了這個(gè)記錄的科學(xué)依據(jù);第四部分是核苷酸

8、序列本身,以“/”結(jié)尾。33、查詢序列(query sequence):也稱被檢索序列,用來在數(shù)據(jù)庫中檢索并進(jìn)行相似性比較的序列。34、空位(gap):在序列比對(duì)時(shí),由于序列長(zhǎng)度不同,需要插入一個(gè)或幾個(gè)位點(diǎn)以取得最佳比對(duì)結(jié)果,這樣在其中一序列上產(chǎn)生中斷現(xiàn)象,這些中斷的位點(diǎn)稱為空位。P29 35、空位罰分:空位罰分是為了補(bǔ)償插入和缺失對(duì)序列相似性的影響,序列中的空位的引入不代表真正的進(jìn)化事件,所以要對(duì)其進(jìn)行罰分,空位罰分的多少直接影響對(duì)比的結(jié)果。P37 36、E值:衡量序列之間相似性是否顯著的期望值。E值大小說明了可以找到與查詢序列(query)相匹配的隨機(jī)或無關(guān)序列的概率,E值越接近零,越不可

9、能找到其他匹配序列,E值越小意味著序列的相似性偶然發(fā)生的機(jī)會(huì)越小,也即相似性越能反映真實(shí)的生物學(xué)意義。P95 37、低復(fù)雜度區(qū)域: BLAST搜索的過濾選項(xiàng)。指序列中包含的重復(fù)度高的區(qū)域,如poly(A)。 38、點(diǎn)矩陣(dot matrix):構(gòu)建一個(gè)二維矩陣,其X軸是一條序列,Y軸是另一個(gè)序列,然后在2個(gè)序列相同堿基的對(duì)應(yīng)位置(x,y)加點(diǎn),如果兩條序列完全相同則會(huì)形成一條主對(duì)角線,如果兩條序列相似則會(huì)出現(xiàn)一條或者幾條直線;如果完全沒有相似性則不能連成直線。 39、多序列比對(duì):通過序列的相似性檢索得到許多相似性序列,將這些序列做一個(gè)總體的比對(duì),以觀察它們?cè)诮Y(jié)構(gòu)上的異同,來回答大量的生物學(xué)問

10、題。 40、分子鐘:認(rèn)為分子進(jìn)化速率是恒定的或者幾乎恒定的假說,從而可以通過分子進(jìn)化推斷出物種起源的時(shí)間。 41、系統(tǒng)發(fā)育分析:通過一組相關(guān)的基因或者蛋白質(zhì)的多序列比對(duì)或其他性狀,可以研究推斷不同物種或基因之間的進(jìn)化關(guān)系。 42、進(jìn)化樹的二歧分叉結(jié)構(gòu):指在進(jìn)化樹上任何一個(gè)分支節(jié)點(diǎn),一個(gè)父分支都只能被分成兩個(gè)子分支。 43、系統(tǒng)發(fā)育圖:用枝長(zhǎng)表示進(jìn)化時(shí)間的系統(tǒng)樹稱為系統(tǒng)發(fā)育圖,是引入時(shí)間概念的支序圖。 44、直系同源:指由于物種形成事件來自一個(gè)共同祖先的不同物種中的同源序列,具有相似或不同的功能。(書:在缺乏任何基因復(fù)制證據(jù)的情況下,具有共同祖先和相同功能的同源基因。) 45、旁系(并系)同源:

11、指同一個(gè)物種中具有共同祖先,通過基因重復(fù)產(chǎn)生的一組基因,這些基因在功能上可能發(fā)生了改變。(書:由于基因重復(fù)事件產(chǎn)生的相似序列。) 46、外類群:是進(jìn)化樹中處于一組被分析物種之外的,具有相近親緣關(guān)系的物種。47、除權(quán)配對(duì)算法(UPGMA):最初,每個(gè)序列歸為一類,然后找到距離最近的兩類將其歸為一類,定義為一個(gè)節(jié)點(diǎn),重復(fù)這個(gè)過程,直到所有的聚類被加入,最終產(chǎn)生樹根。 48、鄰接法(neighbor-joining method):是一種不僅僅計(jì)算兩兩比對(duì)距離,還對(duì)整個(gè)樹的長(zhǎng)度進(jìn)行最小化,從而對(duì)樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制,能夠克服UPGMA算法要求進(jìn)化速率保持恒定的缺陷。 49、最大簡(jiǎn)約法(MP):在一系

12、列能夠解釋序列差異的的進(jìn)化樹中找到具有最少核酸或氨基酸替換的進(jìn)化樹。 50、最大似然法(ML):它對(duì)每個(gè)可能的進(jìn)化位點(diǎn)分配一個(gè)概率,然后綜合所有位點(diǎn),找到概率最大的進(jìn)化樹。最大似然法允許采用不同的進(jìn)化模型對(duì)變異進(jìn)行分析評(píng)估,并在此基礎(chǔ)上構(gòu)建系統(tǒng)發(fā)育樹。 51、自舉法檢驗(yàn)(Bootstrap):放回式抽樣統(tǒng)計(jì)法。通過對(duì)數(shù)據(jù)集多次重復(fù)取樣,構(gòu)建多個(gè)進(jìn)化樹,用來檢查給定樹的分枝可信度。 52、密碼子偏好性(codon bias):氨基酸的同義密碼子的使用頻率與相應(yīng)的同功tRNA的水平相一致,大多數(shù)高效表達(dá)的基因僅使用那些含量高的同功tRNA所對(duì)應(yīng)的密碼子,這種效應(yīng)稱為密碼子偏好性。 53、基因預(yù)測(cè)的

13、從頭分析:依據(jù)綜合利用基因的特征,如剪接位點(diǎn),內(nèi)含子與外顯子邊界,調(diào)控區(qū),預(yù)測(cè)基因組序列中包含的基因。 54、超家族:進(jìn)化上相關(guān),功能可能不同的一類蛋白質(zhì)。55、序列表譜(profile):是一種特殊位點(diǎn)或模體序列,在多序列比較的基礎(chǔ)上,氨基酸的權(quán)值和空位罰分的表格。 56、PAM矩陣:PAM指可接受突變百分率。一個(gè)氨基酸在進(jìn)化中變成另一種氨基酸的可能性,通過這種可能性可以鑒定蛋白質(zhì)之間的相似性,并產(chǎn)生蛋白質(zhì)之間的比對(duì)。一個(gè)PAM單位是蛋白質(zhì)序列平均發(fā)生1%的替代量需要的進(jìn)化時(shí)間。 57、BLOSUM矩陣:模塊替代矩陣。矩陣中的每個(gè)位點(diǎn)的分值來自蛋白比對(duì)的局部塊中的替代頻率的觀察。每個(gè)矩陣適合

14、特定的進(jìn)化距離。例如,在BLOSUM62矩陣中,比對(duì)的分值來自不超過62%一致率的一組序列。 58、PSI-BLAST:位點(diǎn)特異性迭代比對(duì)。是一種專門化的的比對(duì),通過調(diào)節(jié)序列打分矩陣(scoring matrix)探測(cè)遠(yuǎn)緣相關(guān)的蛋白。 59、RefSeq:給出了對(duì)應(yīng)于基因和蛋白質(zhì)的索引號(hào)碼,對(duì)應(yīng)于最穩(wěn)定、最被人承認(rèn)的Genbank序列。 60、有根樹:單一的節(jié)點(diǎn)能指派為共同的祖先,從祖先節(jié)點(diǎn)只有唯一的路徑歷經(jīng)進(jìn)化到達(dá)其他任何節(jié)點(diǎn)。 61、無根樹:只表明節(jié)點(diǎn)間的關(guān)系,無進(jìn)化發(fā)生方向的信息,通過引入外群或外部參考物種,可以在無根樹中指派根節(jié)點(diǎn)。 62、一致樹(consensus tree):在同一

15、算法中產(chǎn)生多個(gè)最優(yōu)樹,合并這些最優(yōu)樹得到的樹即一致樹。63、分子進(jìn)化樹(molecular evolutionary tree):在研究生物進(jìn)化和系統(tǒng)分類中,常用一種類似樹狀分支的圖形來概括各種(類)生物之間的親緣關(guān)系,這種樹狀分支的圖形成為系統(tǒng)發(fā)育樹(phylogenetic tree)。 二、填空 1、1970年Needleman和Wunsch提出了著名的序列比對(duì)算法 ,是生物信息學(xué)發(fā)展中最重要的貢獻(xiàn)2、20世紀(jì)90年代后, HGP 促進(jìn)生物信息學(xué)的迅速發(fā)展 3、HGP選擇作為研究人類的四大“模式生物”有 酵母、線蟲、果蠅、小鼠 4、在人的遺傳連鎖圖譜上,1cM的物理距離大約為 核苷酸5、

16、基因組測(cè)序的基本策略有 逐個(gè)克隆法 和 全基因組鳥槍法 6、國(guó)際上三大生物信息學(xué)中心有:NCBI , EBI 和 CIB 7、國(guó)際上最重要的核酸初級(jí)序列數(shù)據(jù)庫有: GeneBank , EMBL 和 DDBJ 8、國(guó)際上最重要的蛋白質(zhì)序列數(shù)據(jù)庫:SWISS-PROT和PIR 9、常用的序列搜索方法:FASTA和BLAST10、目前由NCBI維護(hù)的大型文獻(xiàn)資源是 PubMed 11、數(shù)據(jù)庫常用的數(shù)據(jù)檢索工具:Entrez, SRS 12、多序列聯(lián)配的常用軟件:Clustal 13、在生物學(xué)中常用的兩種動(dòng)態(tài)規(guī)劃算法分別有:Needleman-Wunsch和Smith-Waterman 14、在用B

17、LAST進(jìn)行核酸序列查詢時(shí),查詢序列和數(shù)據(jù)庫中被比對(duì)上序列之間是否顯著性相似可用E值來度量,E值越大,相似性越 小,E值越小,相似性越大。生物學(xué)意義上相似的兩條序列,其E值遠(yuǎn)小于1.015、寫出以下標(biāo)注的含義:LOCUS是基因座位 ,DEFINITION是基因定義, ACCESSION是登錄號(hào),VERSION是版本號(hào),SOURCE是來源物種16、檢測(cè)原核生物ORF的程序:NCBI-ORF finder17、二級(jí)結(jié)構(gòu)的狀態(tài)有: 螺旋,折疊,轉(zhuǎn)角,無規(guī)則卷曲 18、對(duì)于任一DNA序列(或cDNA序列),可能存在 6 種不同的閱讀框,其中 3 個(gè)為正向的, 3 個(gè)為反向的 19、原核生物啟動(dòng)子有兩段

18、保守序列,即 -10區(qū) 左右的TATAAT,以及 -35區(qū) 左右的TTGACA,它們?yōu)?RNA聚合酶 結(jié)合位點(diǎn)和識(shí)別位點(diǎn)20、蛋白質(zhì)同源結(jié)構(gòu)建模可以使用在線的免費(fèi)預(yù)測(cè)工具swiss-model 21. 系統(tǒng)發(fā)育樹主要的三種構(gòu)建方法: 距離矩陣法、最大簡(jiǎn)約法、最大似然法。 22、可使用 Oligo6 軟件進(jìn)行引物設(shè)計(jì)。 23. 寫出以下pubmed檢索時(shí)常用的限制字段的含義:au 作者 、ti標(biāo)題、 dp 發(fā)表日期、affiliation地址 三、選擇 1、( C )是現(xiàn)在國(guó)際上最主要的核酸序列數(shù)據(jù)庫 A. EBI B. PDB C. GenBank D. NCBI 2、基本局部比對(duì)搜素工具是(

19、 C ) A. Mega B. ClustalW C. BLAST D. GCG 3、單核苷酸的標(biāo)記是( B ) A. RFLP B. SNP C. SSR D. RAPD 4、提交序列到GenBank中,使用的程序可以是( D ) A. Entrez B. SRS C. Medline D. BankIt 5、人類基因組計(jì)劃沒有計(jì)劃完成的幾張圖譜分別是( D ) A. 物理圖譜 B. 遺傳圖譜 C. 序列圖譜 D. 生物圖譜 6、最常用的序列相似性查詢工具是( B ) A. PIR B.BLAST C.SWISS-PROT D.PDB 7、下列哪些分子類型不屬于非蛋白質(zhì)編碼區(qū)( C ) A.

20、內(nèi)含子 B.衛(wèi)星DNA C.外顯子 D.啟動(dòng)子 8、衛(wèi)星DNA的多態(tài)性是由( B )所決定的。 A. DNA點(diǎn)突變個(gè)數(shù) B. 限制性內(nèi)切酶識(shí)別序列個(gè)數(shù)不同C. DNA的二級(jí)結(jié)構(gòu)不同 D. 重復(fù)單位不同 9、真核基因組特點(diǎn)不包括( B ) A. 基因組大,巨大的非編碼序列,重復(fù)序列占了絕大部分 B. 基因結(jié)構(gòu)復(fù)雜,有 顯著長(zhǎng)度的開放閱讀框 C. 存在可變剪接 D. CpG島 10、PDB是蛋白質(zhì)的( B ) A. 分類數(shù)據(jù)庫 B. 結(jié)構(gòu)數(shù)據(jù)庫 C. 核酸數(shù)據(jù)庫 D.模體數(shù)據(jù)庫 11、根據(jù)研究發(fā)現(xiàn),人類基因組中真正編碼蛋白質(zhì)的區(qū)域僅占DNA 序列的( A ) A. 1-2% B. 3-5% C.

21、5-10% D.10-20% 12、在真核生物的一個(gè)基因內(nèi)含子兩端,即外顯子/內(nèi)含子拼接邊界處,其符合( B )規(guī)則。 A. Kozak B. GTAG C. SD D. Poly(A) 13、PIR是( D ) A. 分類數(shù)據(jù)庫 B. 核酸數(shù)據(jù)庫 C. mRNA數(shù)據(jù)庫 D.蛋白質(zhì)數(shù)據(jù)庫 14、alignment的含義是( C ) A. 登錄號(hào) B. 算法 C. 比對(duì) D.分類 15、隱馬爾科夫模型的代號(hào)是( A ) A. HMM B. CDD C. HTGS D. GSS 16、DNA中Tm值與( B )含量成正比 A. G+A B. G+C C. T+C D. A+T 17、OMIM是(

22、A ) A. 在線人類孟德爾遺傳數(shù)據(jù)庫 B. 國(guó)家核酸數(shù)據(jù)庫 C. 人類基因組計(jì)劃 D. 水稻基因組計(jì)劃 18、被譽(yù)為“生物信息學(xué)之父”的科學(xué)家是( D ) A. Dulbecco B. Sanger C. 吳瑞 D. 林華安 19、下列Fasta格式正確的是( B ) A. seq1: agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta B. >seq1 agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta C. seq1:agcggatccagac

23、gctgcgtttgctggctttgatgaaaactctaactaaacactccctta D. >seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta 20、國(guó)際三大核酸數(shù)據(jù)庫每間隔多長(zhǎng)時(shí)間就互相交換數(shù)據(jù)庫里的數(shù)據(jù)( A ) A.每天 B.7 天 C. 10天 D. 一個(gè)月 21、UTR的含義是( B ) A. 編碼區(qū) B. 非編碼區(qū) C. 低復(fù)雜度區(qū)域 D. 開放閱讀框 22、以下數(shù)據(jù)庫不能用于檢索核酸序列的是( B ) A. GenBank B. PDB C. EMBL D.DDBJ 23、進(jìn)行多序列比

24、對(duì)常使用哪種軟件 ( C ) A. Dock B. Compute pI/MW C. Clustal D. Rasmol 24、對(duì)于遠(yuǎn)源蛋白質(zhì)序列,在進(jìn)行多序列比對(duì)的時(shí)候應(yīng)選用下面哪一種矩陣( B ) A. BLOSUM62 B. BLOSUM30 C.PAM100 D. 結(jié)合基序打分矩陣 25、對(duì)于蛋白質(zhì)同源結(jié)構(gòu)模建,通常要求待模建序列與模板序列一致性超過 ( D ) A. 60% B. 50% C. 40% D.30% 26、對(duì)于搜索不到同源模板的蛋白質(zhì),可嘗試用以下哪種方法模建構(gòu) ( A ) A. Threading 法 B. SWISS-MODEL網(wǎng)絡(luò)服務(wù)器 C. Homology法

25、D. 沒有辦法模建 27、給定一段核酸序列,可通過什么方法查找上面蛋白質(zhì)編碼區(qū)( A ) A.ORF Finder B. CpGPlot C. SWISS-MODEL D. Dock 28、預(yù)測(cè)蛋白質(zhì)上的跨膜區(qū),可使用以下哪種軟件或方法( D ) A. GeneSplicer B. Chou-Fasman算法 C. GOR D.TMHMM 29、EMBL的含義是( B ) A. 美國(guó)國(guó)家生物信息中心 B. 歐洲分子生物學(xué)實(shí)驗(yàn)室 C. 日本DNA數(shù)據(jù)庫 D. 瑞士國(guó)家基因組研究中心 30、NCBI的含義是( A ) A. 美國(guó)國(guó)家生物信息中心 B. 歐洲分子生物學(xué)實(shí)驗(yàn)室 C. 日本DNA數(shù)據(jù)庫

26、D. 瑞士國(guó)家基因組研究中心 四、簡(jiǎn)答 1、生物信息學(xué)的發(fā)展經(jīng)歷了哪幾個(gè)階段 ?答:生物信息學(xué)的發(fā)展經(jīng)歷了3個(gè)階段。 第一個(gè)階段是前基因組時(shí)代。這一階段主要是以各種算法法則的建立、生物數(shù)據(jù)庫的建立以及DNA和蛋白質(zhì)序列分析為主要工作; 第二階段是基因組時(shí)代。這一階段以各種基因組計(jì)劃測(cè)序、網(wǎng)絡(luò)數(shù)據(jù)庫系統(tǒng)的建立和基因?qū)ふ覟橹饕ぷ鳌?第三階段是后基因組時(shí)代。這一階段的主要工作是進(jìn)行大規(guī)?;蚪M分析、蛋白質(zhì)組分析以及其他各種基因組學(xué)研究。 2、生物信息學(xué)的主要研究任務(wù)是什么,目前生物信息學(xué)的主要研究?jī)?nèi)容是什么?答:任務(wù):收集和管理生物分子數(shù)據(jù);數(shù)據(jù)分析和挖掘;開發(fā)分析工具和實(shí)用軟件:生物分子序列比較

27、工具、基因識(shí)別工具、生物分子結(jié)構(gòu)預(yù)測(cè)工具、基因表達(dá)數(shù)據(jù)分析工具。 內(nèi)容:(1)序列比對(duì);(2)基因預(yù)測(cè);(3)藥物設(shè)計(jì);(4)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè);(5)基因調(diào)控網(wǎng)絡(luò)的預(yù)測(cè);(6)蛋白質(zhì)相互作用預(yù)測(cè);(7)分子進(jìn)化分析 3、人類基因組計(jì)劃的主要內(nèi)容和目的是什么? 答:人類基因組計(jì)劃中,人們準(zhǔn)備用15年時(shí)間,投入30億美元,完成人類全部24條染色體中3×109個(gè)堿基對(duì)(bp,base pair)的序列測(cè)定,其主要任務(wù)包括作圖(遺傳圖譜、物理圖譜的建立及轉(zhuǎn)錄圖譜的繪制)、測(cè)序和基因識(shí)別,還包括模式生物(如大腸桿菌、酵母、線蟲、小鼠等)基因組的作圖和測(cè)序,以及信息系統(tǒng)的建立。 目的:是解碼生命、

28、了解生命的起源、了解生命體生長(zhǎng)發(fā)育的規(guī)律、認(rèn)識(shí)種屬之間和個(gè)體之間存在差異的起因、認(rèn)識(shí)疾病產(chǎn)生的機(jī)制以及長(zhǎng)壽與衰老等生命現(xiàn)象、為疾病的診治提供科學(xué)依據(jù)。4、什么是一級(jí)數(shù)據(jù)庫,哪些數(shù)據(jù)庫屬于一級(jí)數(shù)據(jù)庫,它與二級(jí)數(shù)據(jù)庫有什么區(qū)別?答:一級(jí)數(shù)據(jù)庫:數(shù)據(jù)庫中的數(shù)據(jù)直接來源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過簡(jiǎn)單的歸類整理和注釋。國(guó)際上著名的一級(jí)核酸數(shù)據(jù)庫有Genbank數(shù)據(jù)庫、EMBL核酸庫和DDBJ庫等;蛋白質(zhì)序列數(shù)據(jù)庫有SWISS-PROT、PIR等;蛋白質(zhì)結(jié)構(gòu)庫有PDB等。一級(jí)數(shù)據(jù)庫的數(shù)據(jù)量大、更新速度快、用戶面廣,但存在過多的冗余數(shù)據(jù);二級(jí)數(shù)據(jù)庫的容量比較小,更新速度沒有一級(jí)數(shù)據(jù)庫快,但經(jīng)過帥選后,避免

29、了過多的冗余數(shù)據(jù),其中與蛋白質(zhì)相關(guān)的二級(jí)數(shù)據(jù)庫較多。 5、向GeneBank數(shù)據(jù)庫提交序列的軟件有幾種,各有什么特點(diǎn)?答:BankIt, Sequin Bankit的特點(diǎn):使用簡(jiǎn)單,每個(gè)步驟有詳細(xì)說明。但一次只能提交一個(gè)序列,長(zhǎng)度不能太長(zhǎng)。 Sequin的特點(diǎn):安裝在用戶自己的計(jì)算機(jī)上,可同時(shí)遞交若干序列和較長(zhǎng)序列,而且整合了許多有用的序列注釋工具。 6、列舉5項(xiàng)DNA序列分析的內(nèi)容及代表性分析工具? 答:(1)核酸序列組成成分分析:BioXM、BioEdit (2)基因結(jié)構(gòu)分析:NCBI-ORF finder、CpGPlot、PromoterScan、POLYAH (3)重復(fù)序列分析:Rep

30、eat Masker (4)序列同源性:Blast (5) 限制性內(nèi)切酶酶切位點(diǎn)分析:BioXM、 Bioedit 7、如何獲取訪問號(hào)為U49845的genbank文件,解釋如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 。答:(1)訪問NCBI的Entrez檢索系統(tǒng),(2)選擇核酸數(shù)據(jù)庫,(3)輸入U(xiǎn)49845序列訪問號(hào)開始檢索。 第一項(xiàng)是LOCUS名稱,前三個(gè)字母代表物種名 第二項(xiàng)是序列長(zhǎng)度 第三項(xiàng)是序列分子類型 第四項(xiàng)是分子為線性的 第五項(xiàng)是GenBank分類碼 第六項(xiàng)是最后修訂日期 8

31、、BLAST算法的搜索步驟及其在數(shù)據(jù)庫搜索中的主要作用,E值和P值分別是什么,它們有什么意義?答:1.登陸blast主頁;2.根據(jù)數(shù)據(jù)類型,選擇合適的程序;3.填寫表單信息;4.提交任務(wù);5.查看和分析結(jié)果 BLAST中使用的統(tǒng)計(jì)值有概率p值和期望e值。 E期望值(E-value)這個(gè)數(shù)值表示你僅僅因?yàn)殡S機(jī)性造成獲得這一比對(duì)結(jié)果的可能次數(shù)。這一數(shù)值越接近零,發(fā)生這一事件的可能性越小。從搜索的角度看,E值越小,比對(duì)結(jié)果越顯著。默認(rèn)值為10,表示比對(duì)結(jié)果中將有10個(gè)匹配序列是由隨機(jī)產(chǎn)生,如果比對(duì)的統(tǒng)計(jì)顯著性值(E值)小于該值(10),則該比對(duì)結(jié)果將被檢出,換句話說,比較低的E值將使搜索的匹配要求更

32、嚴(yán)格,結(jié)果報(bào)告中隨機(jī)產(chǎn)生的匹配序列減少。 p值表示比對(duì)結(jié)果得到的分?jǐn)?shù)值的可信度。一般說來,p值越接近于零,則比對(duì)結(jié)果的可信度越大;相反,p值越大,則比對(duì)結(jié)果來自隨機(jī)匹配的可能性越大。 9、簡(jiǎn)述NCBI中Entrez系統(tǒng)的功能。 答:高級(jí)檢索系統(tǒng);查找核酸、蛋白、文獻(xiàn)、結(jié)構(gòu)、基因組序列、大分子三維結(jié)構(gòu)、突變數(shù)據(jù)、探針序列、單核苷酸多態(tài)性等數(shù)據(jù)。 10、BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?答:Blastn是將給定的核酸序列與核酸數(shù)據(jù)庫中的序列進(jìn)行比較;Blastp是使用蛋白質(zhì)序列與蛋白質(zhì)數(shù)據(jù)庫中的序列進(jìn)行比較,可以尋找較遠(yuǎn)的關(guān)系

33、;Blastx將給定的核酸序列按照六種閱讀框架將其翻譯成蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫中的序列進(jìn)行比對(duì),對(duì)分析新序列和EST很有用;Tblastn將給定的氨基酸序列與核酸數(shù)據(jù)庫中的序列(雙鏈)按不同的閱讀框進(jìn)行比對(duì),對(duì)于尋找數(shù)據(jù)庫中序列沒有標(biāo)注的新編碼區(qū)很有用;Tblastx只在特殊情況下使用,它將DNA被檢索的序列和核酸序列數(shù)據(jù)庫中的序列按不同的閱讀框全部翻譯成蛋白質(zhì)序列,然后進(jìn)行蛋白質(zhì)序列比對(duì)。 11、什么是序列比對(duì)中使用的PAM矩陣和BLOSUM矩陣,它們的作用是什么,一般如何選擇合適的評(píng)分矩陣?答:PAM矩陣(Point Accepted Mutation)基于進(jìn)化的點(diǎn)突變模型,如果兩種氨基酸替

34、換頻繁,說明自然界接受這種替換,那么這對(duì)氨基酸替換得分就高。一個(gè)PAM就是一個(gè)進(jìn)化的變異單位, 即1%的氨基酸改變,但這并不意味100次PAM后,每個(gè)氨基酸都發(fā)生變化,因?yàn)槠渲幸恍┪恢每赡軙?huì)經(jīng)過多次突變,甚至可能會(huì)變回到原來的氨基酸。 模塊替換矩陣BLOSUM(BLOcks Substitution Matrix)首先尋找氨基酸模式,即有意義的一段氨基酸片斷(如一個(gè)結(jié)構(gòu)域及其相鄰的兩小段氨基酸序列),分別比較相同的氨基酸模式之間氨基酸的保守性(某種氨基酸對(duì)另一種氨基酸的取代數(shù)據(jù)),然后,以所有 60,保守性的氨基酸模式之間的比較數(shù)據(jù)為根據(jù),產(chǎn)生BLOSUM60;以所有80,保守性的氨基酸模式之

35、間的比較數(shù)據(jù)為根據(jù),產(chǎn)生BLOSUM80。 PAM矩陣和BLOSUM矩陣都是用于序列相似性的記分矩陣(scoring matrix)。記分矩陣中含有對(duì)齊時(shí)具體使用的數(shù)值。一般FASTA和BLAST都提供BLOSUM或PAM系列矩陣供選擇,若要進(jìn)行突變性質(zhì)的進(jìn)化分析時(shí)可以使用PAM,F(xiàn)ASTA缺省推薦BLOSUM50矩陣。 12、為下面的序列比對(duì)確定比對(duì)得分:匹配得分= +1,失配得分= 0,空位得分= -1。 答:X=TGTACGGCTATA; Y=TC-CGCCT-TA TT 1 GC 0 T- -1 A- -1 CC 1 GG 1 GC 0 CC 1 TT 1 A- -1 TT 1 AA

36、1 最后得分1+0+(-1)+(-1)+1+1+0+1+1+(-1)+1+1=4 13、使用Needleman-Wunsch算法計(jì)算序列X和Y的最佳比對(duì)(配對(duì)score=4,錯(cuò)配score=-3,空位罰分score=-4) X=TTCGAGT; Y=ATTCCAAG。 T T C G A G T 0 -4 -8 -12 -16 -20 -24 -28 A -4 -3 -7 -11 -15 -12 -16 -20 T -8 0 1 -3 -7 -11 -15 -12 T -12 -4 4 0 -4 -8 -12 -11 C -16 -8 0 8 4 0 -4 -8 C -20 -12 -4 4

37、5 1 -3 -7 A -24 -16 -8 0 1 9 5 1 A -28 -20 -12 -4 -3 5 6 2 G -32 -24 -16 -8 0 1 9 5 14、掌握蛋白質(zhì)結(jié)構(gòu)有什么意義,為什么要進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)?答:(1)研究蛋白質(zhì)的結(jié)構(gòu)意義重大,分析蛋白質(zhì)結(jié)構(gòu)、功能及其關(guān)系是蛋白質(zhì)組計(jì)劃中的一個(gè)重要組成部分。研究蛋白質(zhì)結(jié)構(gòu),有助于了解蛋白質(zhì)的作用,了解蛋白質(zhì)如何行使其生物功能,認(rèn)識(shí)蛋白質(zhì)與蛋白質(zhì)(或其它分子)之間的相互作用,這無論是對(duì)于生物學(xué)還是對(duì)于醫(yī)學(xué)和藥學(xué),都是非常重要的。(2)對(duì)于未知功能或者新發(fā)現(xiàn)的蛋白質(zhì)分子,通過結(jié)構(gòu)分析,可以進(jìn)行功能注釋,指導(dǎo)設(shè)計(jì)進(jìn)行功能確認(rèn)的生物

38、學(xué)實(shí)驗(yàn)。通過分析蛋白質(zhì)的結(jié)構(gòu),確認(rèn)功能單位或者結(jié)構(gòu)域,可以為遺傳操作提供目標(biāo),為設(shè)計(jì)新的蛋白質(zhì)或改造已有蛋白質(zhì)提供可靠的依據(jù),同時(shí)為新的藥物分子設(shè)計(jì)提供合理的靶分子結(jié)構(gòu)。 15、簡(jiǎn)述BLAST搜索的算法思想。 答:BLAST是一種局部最優(yōu)比對(duì)搜索算法,將所查詢的序列打斷成許多小序列片段,然后小序列逐步與數(shù)據(jù)庫中的序列進(jìn)行比對(duì),這些小片段被叫做字”word”;當(dāng)一定長(zhǎng)度的的字(W)與檢索序列的比對(duì)達(dá)到一個(gè)指定的最低分(T)后,初始比對(duì)就結(jié)束了;一個(gè)序列的匹配度由各部分匹配分?jǐn)?shù)的總和決定,獲得高分的序列叫做高分匹配片段(HSP),程序?qū)⒆詈玫腍SP雙向擴(kuò)展進(jìn)行比對(duì),直到序列結(jié)束或者不再具有生物學(xué)顯

39、著性,最后所得到的 序列是那些在整體上具有最高分的序列,即,最高分匹配片段(MSP),這樣,BLAST既保持了整體的運(yùn)算速度,也維持了比對(duì)的精度。 16、試述PSI-BLAST 搜索的5個(gè)步驟。 答: 選擇待查序列(query)和蛋白質(zhì)數(shù)據(jù)庫; PSI-BLAST 構(gòu)建一個(gè)多序列比對(duì),然后創(chuàng)建一個(gè)序列表譜(profile)又稱特定位置打分矩陣(PSSM); PSSM被用作 query搜索數(shù)據(jù)庫 PSI-BLAST 估計(jì)統(tǒng)計(jì)學(xué)意義 (E values) 重復(fù) 和 , 直到?jīng)]有新的序列發(fā)現(xiàn)。17、PSI-BLAST and PHI-BLAST 答:PSI-BLAST:位點(diǎn)特異性反復(fù)比對(duì),首先進(jìn)行一

40、般的blastp比對(duì),從比對(duì)結(jié)果中構(gòu)建多序列比對(duì)的搜索矩陣,然后用此矩陣在一次搜索原來的數(shù)據(jù)庫,重復(fù)5次直到?jīng)]有新的結(jié)果出現(xiàn)為止。其是一種更加高靈敏度的Blastp程序,對(duì)于發(fā)現(xiàn)遠(yuǎn)親物種的相似蛋白或某個(gè)蛋白家族的新成員。 PHI-Blast:模式識(shí)別BLAST,是一種既能和查詢匹配又能和模式匹配的的蛋白序列的比對(duì)程序,是一種高靈敏性的blastp程序,一般經(jīng)過一次搜索即可取得很好的效果,而當(dāng)一次之后其與PSI-BLAST功能是一致的。廣泛用于蛋白家族成員的鑒定。 18、全局比對(duì)與局部比對(duì)的比較及生物學(xué)意義 答:全局比對(duì):對(duì)序列的全部字符進(jìn)行比對(duì),試圖使盡可能多的字符實(shí)現(xiàn)匹配。其主要用于序列相似

41、度很高且序列長(zhǎng)度相近的序列比對(duì),用于進(jìn)化的研究和結(jié)構(gòu)的預(yù)測(cè)。 局部比對(duì):尋找序列間相似度最高的區(qū)域,也就是匹配密度最高的部分。其主要應(yīng)用于某些部位相似度較高而其他部位差異較大的序列的比對(duì),用于尋找保守的核苷酸及蛋白質(zhì)序列中氨基酸模式19、簡(jiǎn)述除權(quán)配對(duì)法(UPGMA)的算法思想。 答:通過兩兩比對(duì)聚類的方法進(jìn)行,在開始時(shí),每個(gè)序列分為一類,分別作為一個(gè)樹枝的生長(zhǎng)點(diǎn),然后將最近的兩序列合并,從而定義出一個(gè)節(jié)點(diǎn),將這個(gè)過程不斷的重復(fù),直到所有的序列都被加入,最后得到一棵進(jìn)化樹。P119 11) 20、簡(jiǎn)述鄰接法(NJ)構(gòu)樹的算法思想。 答:鄰接法的思想不僅僅計(jì)算最小兩兩比對(duì)距離,還對(duì)整個(gè)樹的長(zhǎng)度進(jìn)行

42、最小化,從而對(duì)樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制。這種算法由一棵星狀樹開始,所有的物種都從一個(gè)中心節(jié)點(diǎn)出發(fā),然后通過計(jì)算最小分支長(zhǎng)度的和相繼尋找到近鄰的兩個(gè)序列,每一輪過程中考慮所有可能的序列對(duì),把能使樹的整個(gè)分支長(zhǎng)度最小的序列對(duì)一組,從而產(chǎn)生新的距離矩陣,直到尋找所有的近鄰序列。P117 21、簡(jiǎn)述最大簡(jiǎn)約法(MP)的算法思想。P68 答:是一種基于離散特征的進(jìn)化樹算法。生物演化應(yīng)該遵循簡(jiǎn)約性原則,所需變異次數(shù)最少(演化步數(shù)最少)的演化樹可能為最符合自然情況的系統(tǒng)樹。在具體的操作中,分為非加權(quán)最大簡(jiǎn)約分析(或稱為同等加權(quán))和加權(quán)最大簡(jiǎn)約分析,后者是根據(jù)性狀本身的演化規(guī)律(比如DNA不同位點(diǎn)進(jìn)化速率不同)而

43、對(duì)其進(jìn)行不同的加權(quán)處理。P120 13)22、 簡(jiǎn)述最大似然法(ML)的算法思想。P69 答:是一種基于離散特征的進(jìn)化樹算法。該法首先選擇一個(gè)合適的進(jìn)化模型,然后對(duì)所有可能的進(jìn)化樹進(jìn)行評(píng)估,通過對(duì)每個(gè)進(jìn)化位點(diǎn)的替代分配一個(gè)概率,最后找出概率最大的進(jìn)化樹。P122 23、UPGMA構(gòu)樹法不精確的原因是什么?P69 答:由個(gè)于UPGMA假設(shè)在進(jìn)化過程中所有核苷酸/氨基酸都有相同的變異率,也就是存在著一個(gè)分子鐘;這種算法當(dāng)所構(gòu)建的進(jìn)化樹的序列進(jìn)化速率明顯不一致時(shí),得到的進(jìn)化樹相對(duì)來說不準(zhǔn)確的。 24、進(jìn)化樹的可靠性分析 答:自展法(Bootstrap Method) 1、從排列的多序列中隨機(jī)有放回的

44、抽取某一列,構(gòu)成相同長(zhǎng)度的新的排列序列; 2、重復(fù)上面的過程,得到多組新的序列; 3、對(duì)這些新的序列進(jìn)行建樹,再觀察這些樹與原始樹是否有差異,以此評(píng)價(jià)建樹的可靠性。 25、生物信息學(xué)數(shù)據(jù)庫的組成包括哪些部分,數(shù)據(jù)庫有哪些類型?答:生物信息學(xué)數(shù)據(jù)庫的組成包括一級(jí)數(shù)據(jù)庫和二級(jí)數(shù)據(jù)庫。數(shù)據(jù)庫的類型包括核算和蛋白質(zhì)一級(jí)結(jié)構(gòu)序列數(shù)據(jù)庫、基因組數(shù)據(jù)庫、生物大分子三維空間結(jié)構(gòu) 數(shù)據(jù)庫、以上述3類數(shù)據(jù)庫和文獻(xiàn)資料為基礎(chǔ)構(gòu)建的二次數(shù)據(jù)庫。 26、簡(jiǎn)要介紹 GenBank中的DNA序列格式。 答:GenBank中的DNA序列格式可以分成三個(gè)部分,第一部分為描述符,從第一行LOCUS行到ORIGIN行,包含了關(guān)于整

45、個(gè)記錄的信息;第二部分為特性表,從FEATURES行開始,包含了注釋這一紀(jì)錄的特性,是條目的核心,中間使用一批關(guān)鍵字;第三部分是核苷酸序列的本身。 27、簡(jiǎn)要介紹FASTA序列格式 答:FASTA格式,又叫Pearson格式,是最簡(jiǎn)單的,使用最多的格式。它的基 本形式分為三個(gè)部分:第一行:大于號(hào)(,)表示一個(gè)新的序列文件的開始,為標(biāo)記符。后面可以加上文字說明,gi號(hào),GenBank檢索號(hào),LOCUS名稱等信息。第二行:序列本身,為DNA的標(biāo)準(zhǔn)符號(hào),通常大小寫均可。 結(jié)束:無特殊標(biāo)志,但建議多留一個(gè)空行,以便將序列和其他內(nèi)容區(qū)分開。 28、序列的相似性與同源性有什么區(qū)別與聯(lián)系? 答:(1)相似性

46、是指序列之間相關(guān)的一種統(tǒng)計(jì)學(xué)的量度,兩序列的的相似性可以基于序列的一致性和相似度的百分比,也可以用相應(yīng)的分?jǐn)?shù)來衡量這種相似;而同源性是指序列所代表的物種具有共同的祖先,強(qiáng)調(diào)進(jìn)化上的親緣關(guān)系,不能用相應(yīng)的數(shù)字去量化這種關(guān)系,我們只能說序列具有高的一致性的百分比的可能是同源的。 (2)相似的不一定是同源的,同源的則表現(xiàn)出一定的相似性。因?yàn)樵谶M(jìn)化中來源于不同的基因或序列由于不同的獨(dú)立突變而趨同的并不罕見。相反同源序列由于來源于共通過祖先則表現(xiàn)出一定的相似性。五、思考題 1、生物信息學(xué)的含義是什么,舉一個(gè)例子說明你對(duì)生物信息學(xué)的哪方面感興趣。 答:生物信息學(xué)的含義:生物分子信息的獲取、存貯、分析和利用

47、;以數(shù)學(xué)為基礎(chǔ),應(yīng)用計(jì)算機(jī)技術(shù),研究生物學(xué)數(shù)據(jù)的科學(xué)。 生物信息技術(shù)在醫(yī)藥領(lǐng)域的應(yīng)用涉及到新藥開發(fā)、新診斷技術(shù)、預(yù)防措施及新的治療技術(shù),如單克隆抗體、基因診斷、熒光檢測(cè)、基因芯片等。其中基因芯片技術(shù)可用于包括遺傳性疾病、傳染性疾病及腫瘤等疾病的診斷、DNA序列分析、藥物篩選、基因表達(dá)水平的測(cè)定等領(lǐng)域。 2、預(yù)測(cè)基因的一般步驟是什么?答:如下獲取DNA目標(biāo)序列查找ORF并將目標(biāo)序列翻譯成蛋白質(zhì)序列,利用相應(yīng)工具查找ORF并將DNA序列翻譯成蛋白質(zhì)序列在數(shù)據(jù)庫中進(jìn)行序列搜索,利用BLAST進(jìn)行ORF核苷酸序列和ORF翻譯的蛋白質(zhì)序列搜索進(jìn)行目標(biāo)序列與搜索得到的相似序列的全局對(duì)比查找基因家族進(jìn)行多序

48、列比對(duì),獲得比對(duì)區(qū)段的基因家族信息查找目標(biāo)序列中的特定模序,分別在Prosite、BLOCK、Motif數(shù)據(jù)庫中進(jìn)行profile、模塊(block)、模序(motif)檢索預(yù)測(cè)目標(biāo)序列蛋白質(zhì)結(jié)構(gòu),利用PredictProtein(EMBL)、NNPREDICT等預(yù)測(cè)目標(biāo)序列的蛋白質(zhì)二級(jí)結(jié)構(gòu)。 3、為什么蛋白質(zhì)空間結(jié)構(gòu)預(yù)測(cè)很重要,目前有哪幾條途徑用于從蛋白質(zhì)的氨基酸序列預(yù)測(cè)其空間三維結(jié)構(gòu)?答:蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測(cè)很重要。研究蛋白質(zhì)結(jié)構(gòu),有助于了解蛋白質(zhì)如何行使其生物功能,認(rèn)識(shí)蛋白質(zhì)與蛋白質(zhì)(或其它分子)之間的相互作用,通過分析蛋白質(zhì)的結(jié)構(gòu),確認(rèn)功能單位或者結(jié)構(gòu)域,可以為遺傳操作提供目標(biāo),為設(shè)計(jì)新的蛋白質(zhì)或改造已有蛋白質(zhì)提供可靠的依據(jù),同時(shí)為新的藥物分子設(shè)計(jì)提供合理的靶分子結(jié)構(gòu)。 目前有三條途徑用于從蛋白質(zhì)一級(jí)序列預(yù)測(cè)其空間三維結(jié)構(gòu): A、同源建模法。是蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)的主要方法。對(duì)于一個(gè)未知結(jié)構(gòu)的蛋白質(zhì),首先通過序列同源分析找到一個(gè)已知結(jié)構(gòu)的同源蛋白質(zhì),然后,以該蛋白質(zhì)的結(jié)構(gòu)為模板,為未知結(jié)構(gòu)的蛋白質(zhì)建立結(jié)構(gòu)模型。前提是必須要有一個(gè)已知結(jié)構(gòu)的同源蛋白質(zhì)。 B、穿針引線法。需建立核心折疊數(shù)據(jù)庫,在預(yù)測(cè)蛋白質(zhì)空間結(jié)構(gòu)時(shí)將一個(gè)待預(yù)測(cè)結(jié)構(gòu)的蛋白質(zhì)序列與數(shù)據(jù)庫中核心折疊進(jìn)行比對(duì),找出比對(duì)結(jié)果最好的核心折疊,作為構(gòu)造待預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)模型的根據(jù)。 C、從頭開始法。在既沒

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論