生物信息學題庫--精校+整理(共16頁)_第1頁
生物信息學題庫--精校+整理(共16頁)_第2頁
生物信息學題庫--精校+整理(共16頁)_第3頁
生物信息學題庫--精校+整理(共16頁)_第4頁
生物信息學題庫--精校+整理(共16頁)_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上生物信息學題庫一、名詞解釋 1、生物信息學:生物分子信息的獲取、存貯、分析和利用;以數(shù)學為基礎(chǔ),應(yīng)用計算機技術(shù),研究生物學數(shù)據(jù)的科學。 2、相似性(similarity):相似性是指序列比對過程中用來描述檢測序列和目標序列之間相同DNA堿基或氨基酸殘基順序所占比例的高低。 3、同源性(homology):生物進化過程中源于同一祖先的分支之間的關(guān)系。4、BLAST(Basic Local Alignment Search Tool):基本局部比對搜索工具,用于相似性搜索的工具,對需要進行檢索的序列與數(shù)據(jù)庫中的每個序列做相似性比較。 5、HMM隱馬爾可夫模型:是蛋白質(zhì)結(jié)構(gòu)

2、域家族序列的一種嚴格的統(tǒng)計模型,包括序列的匹配,插入和缺失狀態(tài),并根據(jù)每種狀態(tài)的概率分布和狀態(tài)間的相互轉(zhuǎn)換來生成蛋白質(zhì)序列。 6、一級數(shù)據(jù)庫:一級數(shù)據(jù)庫中的數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋(投稿文章首先要將核苷酸序列或蛋白質(zhì)序列提交到相應(yīng)的數(shù)據(jù)庫中) 7、二級數(shù)據(jù)庫:對原始生物分子數(shù)據(jù)進行整理、分類的結(jié)果,是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定的應(yīng)用目標而建立的。 8、GenBank: 是具有目錄和生物學注釋的核酸序列綜合公共數(shù)據(jù)庫,由NCBI構(gòu)建和維護。9、EMBL: EMBL 實驗室:歐洲分子生物學實驗室。EMBL 數(shù)據(jù)庫:是非盈利性學術(shù)組織 EMB

3、L 建立的綜合性數(shù)據(jù)庫,EMBL 核酸數(shù)據(jù)庫是歐洲最重要的核酸序列數(shù)據(jù)庫,它定期地與美國的 GenBank、日本的 DDBJ 數(shù)據(jù)庫中的數(shù) 據(jù)進行交換,并同步更新。 10、DDBJ: 日本核酸序列數(shù)據(jù)庫,是亞洲唯一的核酸序列數(shù)據(jù)庫。 11、Entrez:是由 NCBI 主持的一個數(shù)據(jù)庫檢索系統(tǒng),它包括核酸,蛋白以及 Medline 文摘數(shù)據(jù)庫,在這三個數(shù)據(jù)庫中建立了非常完善的聯(lián)系。 12、SRS(sequence retrieval system):序列查詢系統(tǒng),是 EBI 提供的多數(shù)據(jù)庫查詢工具之一。有與 Entrez 類似的功能,還提供一系列的序列分析工具,可以直接進行在線序列分析處理。

4、13、EST:收集大量cDAN或EST序列以及其他相關(guān)信息,目前最大的公共表達序列數(shù)據(jù)庫。 14、GSS:GeneBank數(shù)據(jù)庫的一部分,收集基因組DNA克隆的測序序列。 15、GEO:基因表達精選集是一個儲存高通量功能基因組學數(shù)據(jù)的數(shù)據(jù)庫。 16、SCOP數(shù)據(jù)庫:提供關(guān)于已知結(jié)構(gòu)的蛋白質(zhì)之間結(jié)構(gòu)和進化關(guān)系的詳細描述,包括蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB中的所有條目。 17、PROSITE :是蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫,包含具有生物學意義的位點、模式、可幫助識別蛋白質(zhì)家族的統(tǒng)計特征。 18、RefSeq: 是一個收錄注釋過的非冗余轉(zhuǎn)錄本、蛋白質(zhì)和基因組序列的數(shù)據(jù)庫。 19、結(jié)構(gòu)域Structure do

5、main:結(jié)構(gòu)域,是在蛋白質(zhì)三級結(jié)構(gòu)中介于二級和三級結(jié)構(gòu)之間的可以明顯區(qū)分但又相對獨立的折疊單元。 20、開放閱讀框ORF: 開放閱讀框,位于DNA或RNA上起始密碼子與終止密碼子之間的序列。 21、啟動子Promoter:啟動子是基因的一個組成部分,是位于結(jié)構(gòu)基因5端上游區(qū)的DNA序列,控制基因表達(轉(zhuǎn)錄)的起始時間和表達的程度。 22、3UTR:3非翻譯區(qū)的縮寫,真核生物的轉(zhuǎn)錄終止信號是在 3非翻譯區(qū)的 : polyA。 23、CpG island:是在哺乳動物基因組中的一個500bp到300bp的區(qū)域,富含GC。24、模體Motif:又稱模體,蛋白質(zhì)序列中短的保守區(qū)域,它們是結(jié)構(gòu)域中保守

6、性很高的部分。25、PDB(Protein Data Bank):蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫,是國際上著名的生物大分子結(jié)構(gòu)數(shù)據(jù)庫,由美國Brookhaven國家實驗室建立。 26、打分矩陣(scoring matrix):在相似性檢索中對序列兩兩比對的質(zhì)量評估方法。包括基于理論(如考慮核酸和氨基酸之間的類似性)和實際進化距離(如PAM)兩類方法。 27、遺傳連鎖圖:又叫遺傳圖譜(genetic map)是以具有遺傳多態(tài)性的遺傳標記為“路標”,以遺傳學距離為圖距的基因組圖。 28、蛋白質(zhì)組(proteom):是指一個基因組、一種生物或一個細胞/組織的基因組所表達的全套蛋白質(zhì)。 29、基因組學:研究生物基因

7、組和如何利用基因的一門學問。 30、比較基因組學:是在基因組圖譜和測序的基礎(chǔ)上,利用某個基因組研究獲得的信息推測其他原核生物、真核生物類群中的基因數(shù)目、位置、功能、表達機制和物種進化的學科。 31、FASTA序列格式:是將DNA或者蛋白質(zhì)序列表示為一個帶有一些標記的核苷酸或者氨基酸字符串,大于號(>)表示一個新文件的開始,其他無特殊要求。 32、genbank序列格式:是GenBank 數(shù)據(jù)庫的基本信息單位,是最為廣泛的生物信息學序列格式之一。該文件格式按域劃分為4個部分:第一部分包含整個記錄的信息(描述符);第二部分包含注釋;第三部分是引文區(qū),提供了這個記錄的科學依據(jù);第四部分是核苷酸

8、序列本身,以“/”結(jié)尾。33、查詢序列(query sequence):也稱被檢索序列,用來在數(shù)據(jù)庫中檢索并進行相似性比較的序列。34、空位(gap):在序列比對時,由于序列長度不同,需要插入一個或幾個位點以取得最佳比對結(jié)果,這樣在其中一序列上產(chǎn)生中斷現(xiàn)象,這些中斷的位點稱為空位。P29 35、空位罰分:空位罰分是為了補償插入和缺失對序列相似性的影響,序列中的空位的引入不代表真正的進化事件,所以要對其進行罰分,空位罰分的多少直接影響對比的結(jié)果。P37 36、E值:衡量序列之間相似性是否顯著的期望值。E值大小說明了可以找到與查詢序列(query)相匹配的隨機或無關(guān)序列的概率,E值越接近零,越不可

9、能找到其他匹配序列,E值越小意味著序列的相似性偶然發(fā)生的機會越小,也即相似性越能反映真實的生物學意義。P95 37、低復(fù)雜度區(qū)域: BLAST搜索的過濾選項。指序列中包含的重復(fù)度高的區(qū)域,如poly(A)。 38、點矩陣(dot matrix):構(gòu)建一個二維矩陣,其X軸是一條序列,Y軸是另一個序列,然后在2個序列相同堿基的對應(yīng)位置(x,y)加點,如果兩條序列完全相同則會形成一條主對角線,如果兩條序列相似則會出現(xiàn)一條或者幾條直線;如果完全沒有相似性則不能連成直線。 39、多序列比對:通過序列的相似性檢索得到許多相似性序列,將這些序列做一個總體的比對,以觀察它們在結(jié)構(gòu)上的異同,來回答大量的生物學問

10、題。 40、分子鐘:認為分子進化速率是恒定的或者幾乎恒定的假說,從而可以通過分子進化推斷出物種起源的時間。 41、系統(tǒng)發(fā)育分析:通過一組相關(guān)的基因或者蛋白質(zhì)的多序列比對或其他性狀,可以研究推斷不同物種或基因之間的進化關(guān)系。 42、進化樹的二歧分叉結(jié)構(gòu):指在進化樹上任何一個分支節(jié)點,一個父分支都只能被分成兩個子分支。 43、系統(tǒng)發(fā)育圖:用枝長表示進化時間的系統(tǒng)樹稱為系統(tǒng)發(fā)育圖,是引入時間概念的支序圖。 44、直系同源:指由于物種形成事件來自一個共同祖先的不同物種中的同源序列,具有相似或不同的功能。(書:在缺乏任何基因復(fù)制證據(jù)的情況下,具有共同祖先和相同功能的同源基因。) 45、旁系(并系)同源:

11、指同一個物種中具有共同祖先,通過基因重復(fù)產(chǎn)生的一組基因,這些基因在功能上可能發(fā)生了改變。(書:由于基因重復(fù)事件產(chǎn)生的相似序列。) 46、外類群:是進化樹中處于一組被分析物種之外的,具有相近親緣關(guān)系的物種。47、除權(quán)配對算法(UPGMA):最初,每個序列歸為一類,然后找到距離最近的兩類將其歸為一類,定義為一個節(jié)點,重復(fù)這個過程,直到所有的聚類被加入,最終產(chǎn)生樹根。 48、鄰接法(neighbor-joining method):是一種不僅僅計算兩兩比對距離,還對整個樹的長度進行最小化,從而對樹的拓撲結(jié)構(gòu)進行限制,能夠克服UPGMA算法要求進化速率保持恒定的缺陷。 49、最大簡約法(MP):在一系

12、列能夠解釋序列差異的的進化樹中找到具有最少核酸或氨基酸替換的進化樹。 50、最大似然法(ML):它對每個可能的進化位點分配一個概率,然后綜合所有位點,找到概率最大的進化樹。最大似然法允許采用不同的進化模型對變異進行分析評估,并在此基礎(chǔ)上構(gòu)建系統(tǒng)發(fā)育樹。 51、自舉法檢驗(Bootstrap):放回式抽樣統(tǒng)計法。通過對數(shù)據(jù)集多次重復(fù)取樣,構(gòu)建多個進化樹,用來檢查給定樹的分枝可信度。 52、密碼子偏好性(codon bias):氨基酸的同義密碼子的使用頻率與相應(yīng)的同功tRNA的水平相一致,大多數(shù)高效表達的基因僅使用那些含量高的同功tRNA所對應(yīng)的密碼子,這種效應(yīng)稱為密碼子偏好性。 53、基因預(yù)測的

13、從頭分析:依據(jù)綜合利用基因的特征,如剪接位點,內(nèi)含子與外顯子邊界,調(diào)控區(qū),預(yù)測基因組序列中包含的基因。 54、超家族:進化上相關(guān),功能可能不同的一類蛋白質(zhì)。55、序列表譜(profile):是一種特殊位點或模體序列,在多序列比較的基礎(chǔ)上,氨基酸的權(quán)值和空位罰分的表格。 56、PAM矩陣:PAM指可接受突變百分率。一個氨基酸在進化中變成另一種氨基酸的可能性,通過這種可能性可以鑒定蛋白質(zhì)之間的相似性,并產(chǎn)生蛋白質(zhì)之間的比對。一個PAM單位是蛋白質(zhì)序列平均發(fā)生1%的替代量需要的進化時間。 57、BLOSUM矩陣:模塊替代矩陣。矩陣中的每個位點的分值來自蛋白比對的局部塊中的替代頻率的觀察。每個矩陣適合

14、特定的進化距離。例如,在BLOSUM62矩陣中,比對的分值來自不超過62%一致率的一組序列。 58、PSI-BLAST:位點特異性迭代比對。是一種專門化的的比對,通過調(diào)節(jié)序列打分矩陣(scoring matrix)探測遠緣相關(guān)的蛋白。 59、RefSeq:給出了對應(yīng)于基因和蛋白質(zhì)的索引號碼,對應(yīng)于最穩(wěn)定、最被人承認的Genbank序列。 60、有根樹:單一的節(jié)點能指派為共同的祖先,從祖先節(jié)點只有唯一的路徑歷經(jīng)進化到達其他任何節(jié)點。 61、無根樹:只表明節(jié)點間的關(guān)系,無進化發(fā)生方向的信息,通過引入外群或外部參考物種,可以在無根樹中指派根節(jié)點。 62、一致樹(consensus tree):在同一

15、算法中產(chǎn)生多個最優(yōu)樹,合并這些最優(yōu)樹得到的樹即一致樹。63、分子進化樹(molecular evolutionary tree):在研究生物進化和系統(tǒng)分類中,常用一種類似樹狀分支的圖形來概括各種(類)生物之間的親緣關(guān)系,這種樹狀分支的圖形成為系統(tǒng)發(fā)育樹(phylogenetic tree)。 二、填空 1、1970年Needleman和Wunsch提出了著名的序列比對算法 ,是生物信息學發(fā)展中最重要的貢獻2、20世紀90年代后, HGP 促進生物信息學的迅速發(fā)展 3、HGP選擇作為研究人類的四大“模式生物”有 酵母、線蟲、果蠅、小鼠 4、在人的遺傳連鎖圖譜上,1cM的物理距離大約為 核苷酸5、

16、基因組測序的基本策略有 逐個克隆法 和 全基因組鳥槍法 6、國際上三大生物信息學中心有:NCBI , EBI 和 CIB 7、國際上最重要的核酸初級序列數(shù)據(jù)庫有: GeneBank , EMBL 和 DDBJ 8、國際上最重要的蛋白質(zhì)序列數(shù)據(jù)庫:SWISS-PROT和PIR 9、常用的序列搜索方法:FASTA和BLAST10、目前由NCBI維護的大型文獻資源是 PubMed 11、數(shù)據(jù)庫常用的數(shù)據(jù)檢索工具:Entrez, SRS 12、多序列聯(lián)配的常用軟件:Clustal 13、在生物學中常用的兩種動態(tài)規(guī)劃算法分別有:Needleman-Wunsch和Smith-Waterman 14、在用B

17、LAST進行核酸序列查詢時,查詢序列和數(shù)據(jù)庫中被比對上序列之間是否顯著性相似可用E值來度量,E值越大,相似性越 小,E值越小,相似性越大。生物學意義上相似的兩條序列,其E值遠小于1.015、寫出以下標注的含義:LOCUS是基因座位 ,DEFINITION是基因定義, ACCESSION是登錄號,VERSION是版本號,SOURCE是來源物種16、檢測原核生物ORF的程序:NCBI-ORF finder17、二級結(jié)構(gòu)的狀態(tài)有: 螺旋,折疊,轉(zhuǎn)角,無規(guī)則卷曲 18、對于任一DNA序列(或cDNA序列),可能存在 6 種不同的閱讀框,其中 3 個為正向的, 3 個為反向的 19、原核生物啟動子有兩段

18、保守序列,即 -10區(qū) 左右的TATAAT,以及 -35區(qū) 左右的TTGACA,它們?yōu)?RNA聚合酶 結(jié)合位點和識別位點20、蛋白質(zhì)同源結(jié)構(gòu)建??梢允褂迷诰€的免費預(yù)測工具swiss-model 21. 系統(tǒng)發(fā)育樹主要的三種構(gòu)建方法: 距離矩陣法、最大簡約法、最大似然法。 22、可使用 Oligo6 軟件進行引物設(shè)計。 23. 寫出以下pubmed檢索時常用的限制字段的含義:au 作者 、ti標題、 dp 發(fā)表日期、affiliation地址 三、選擇 1、( C )是現(xiàn)在國際上最主要的核酸序列數(shù)據(jù)庫 A. EBI B. PDB C. GenBank D. NCBI 2、基本局部比對搜素工具是(

19、 C ) A. Mega B. ClustalW C. BLAST D. GCG 3、單核苷酸的標記是( B ) A. RFLP B. SNP C. SSR D. RAPD 4、提交序列到GenBank中,使用的程序可以是( D ) A. Entrez B. SRS C. Medline D. BankIt 5、人類基因組計劃沒有計劃完成的幾張圖譜分別是( D ) A. 物理圖譜 B. 遺傳圖譜 C. 序列圖譜 D. 生物圖譜 6、最常用的序列相似性查詢工具是( B ) A. PIR B.BLAST C.SWISS-PROT D.PDB 7、下列哪些分子類型不屬于非蛋白質(zhì)編碼區(qū)( C ) A.

20、內(nèi)含子 B.衛(wèi)星DNA C.外顯子 D.啟動子 8、衛(wèi)星DNA的多態(tài)性是由( B )所決定的。 A. DNA點突變個數(shù) B. 限制性內(nèi)切酶識別序列個數(shù)不同C. DNA的二級結(jié)構(gòu)不同 D. 重復(fù)單位不同 9、真核基因組特點不包括( B ) A. 基因組大,巨大的非編碼序列,重復(fù)序列占了絕大部分 B. 基因結(jié)構(gòu)復(fù)雜,有 顯著長度的開放閱讀框 C. 存在可變剪接 D. CpG島 10、PDB是蛋白質(zhì)的( B ) A. 分類數(shù)據(jù)庫 B. 結(jié)構(gòu)數(shù)據(jù)庫 C. 核酸數(shù)據(jù)庫 D.模體數(shù)據(jù)庫 11、根據(jù)研究發(fā)現(xiàn),人類基因組中真正編碼蛋白質(zhì)的區(qū)域僅占DNA 序列的( A ) A. 1-2% B. 3-5% C.

21、5-10% D.10-20% 12、在真核生物的一個基因內(nèi)含子兩端,即外顯子/內(nèi)含子拼接邊界處,其符合( B )規(guī)則。 A. Kozak B. GTAG C. SD D. Poly(A) 13、PIR是( D ) A. 分類數(shù)據(jù)庫 B. 核酸數(shù)據(jù)庫 C. mRNA數(shù)據(jù)庫 D.蛋白質(zhì)數(shù)據(jù)庫 14、alignment的含義是( C ) A. 登錄號 B. 算法 C. 比對 D.分類 15、隱馬爾科夫模型的代號是( A ) A. HMM B. CDD C. HTGS D. GSS 16、DNA中Tm值與( B )含量成正比 A. G+A B. G+C C. T+C D. A+T 17、OMIM是(

22、A ) A. 在線人類孟德爾遺傳數(shù)據(jù)庫 B. 國家核酸數(shù)據(jù)庫 C. 人類基因組計劃 D. 水稻基因組計劃 18、被譽為“生物信息學之父”的科學家是( D ) A. Dulbecco B. Sanger C. 吳瑞 D. 林華安 19、下列Fasta格式正確的是( B ) A. seq1: agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta B. >seq1 agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta C. seq1:agcggatccagac

23、gctgcgtttgctggctttgatgaaaactctaactaaacactccctta D. >seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta 20、國際三大核酸數(shù)據(jù)庫每間隔多長時間就互相交換數(shù)據(jù)庫里的數(shù)據(jù)( A ) A.每天 B.7 天 C. 10天 D. 一個月 21、UTR的含義是( B ) A. 編碼區(qū) B. 非編碼區(qū) C. 低復(fù)雜度區(qū)域 D. 開放閱讀框 22、以下數(shù)據(jù)庫不能用于檢索核酸序列的是( B ) A. GenBank B. PDB C. EMBL D.DDBJ 23、進行多序列比

24、對常使用哪種軟件 ( C ) A. Dock B. Compute pI/MW C. Clustal D. Rasmol 24、對于遠源蛋白質(zhì)序列,在進行多序列比對的時候應(yīng)選用下面哪一種矩陣( B ) A. BLOSUM62 B. BLOSUM30 C.PAM100 D. 結(jié)合基序打分矩陣 25、對于蛋白質(zhì)同源結(jié)構(gòu)模建,通常要求待模建序列與模板序列一致性超過 ( D ) A. 60% B. 50% C. 40% D.30% 26、對于搜索不到同源模板的蛋白質(zhì),可嘗試用以下哪種方法模建構(gòu) ( A ) A. Threading 法 B. SWISS-MODEL網(wǎng)絡(luò)服務(wù)器 C. Homology法

25、D. 沒有辦法模建 27、給定一段核酸序列,可通過什么方法查找上面蛋白質(zhì)編碼區(qū)( A ) A.ORF Finder B. CpGPlot C. SWISS-MODEL D. Dock 28、預(yù)測蛋白質(zhì)上的跨膜區(qū),可使用以下哪種軟件或方法( D ) A. GeneSplicer B. Chou-Fasman算法 C. GOR D.TMHMM 29、EMBL的含義是( B ) A. 美國國家生物信息中心 B. 歐洲分子生物學實驗室 C. 日本DNA數(shù)據(jù)庫 D. 瑞士國家基因組研究中心 30、NCBI的含義是( A ) A. 美國國家生物信息中心 B. 歐洲分子生物學實驗室 C. 日本DNA數(shù)據(jù)庫

26、D. 瑞士國家基因組研究中心 四、簡答 1、生物信息學的發(fā)展經(jīng)歷了哪幾個階段 ?答:生物信息學的發(fā)展經(jīng)歷了3個階段。 第一個階段是前基因組時代。這一階段主要是以各種算法法則的建立、生物數(shù)據(jù)庫的建立以及DNA和蛋白質(zhì)序列分析為主要工作; 第二階段是基因組時代。這一階段以各種基因組計劃測序、網(wǎng)絡(luò)數(shù)據(jù)庫系統(tǒng)的建立和基因?qū)ふ覟橹饕ぷ鳌?第三階段是后基因組時代。這一階段的主要工作是進行大規(guī)?;蚪M分析、蛋白質(zhì)組分析以及其他各種基因組學研究。 2、生物信息學的主要研究任務(wù)是什么,目前生物信息學的主要研究內(nèi)容是什么?答:任務(wù):收集和管理生物分子數(shù)據(jù);數(shù)據(jù)分析和挖掘;開發(fā)分析工具和實用軟件:生物分子序列比較

27、工具、基因識別工具、生物分子結(jié)構(gòu)預(yù)測工具、基因表達數(shù)據(jù)分析工具。 內(nèi)容:(1)序列比對;(2)基因預(yù)測;(3)藥物設(shè)計;(4)蛋白質(zhì)結(jié)構(gòu)預(yù)測;(5)基因調(diào)控網(wǎng)絡(luò)的預(yù)測;(6)蛋白質(zhì)相互作用預(yù)測;(7)分子進化分析 3、人類基因組計劃的主要內(nèi)容和目的是什么? 答:人類基因組計劃中,人們準備用15年時間,投入30億美元,完成人類全部24條染色體中3×109個堿基對(bp,base pair)的序列測定,其主要任務(wù)包括作圖(遺傳圖譜、物理圖譜的建立及轉(zhuǎn)錄圖譜的繪制)、測序和基因識別,還包括模式生物(如大腸桿菌、酵母、線蟲、小鼠等)基因組的作圖和測序,以及信息系統(tǒng)的建立。 目的:是解碼生命、

28、了解生命的起源、了解生命體生長發(fā)育的規(guī)律、認識種屬之間和個體之間存在差異的起因、認識疾病產(chǎn)生的機制以及長壽與衰老等生命現(xiàn)象、為疾病的診治提供科學依據(jù)。4、什么是一級數(shù)據(jù)庫,哪些數(shù)據(jù)庫屬于一級數(shù)據(jù)庫,它與二級數(shù)據(jù)庫有什么區(qū)別?答:一級數(shù)據(jù)庫:數(shù)據(jù)庫中的數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋。國際上著名的一級核酸數(shù)據(jù)庫有Genbank數(shù)據(jù)庫、EMBL核酸庫和DDBJ庫等;蛋白質(zhì)序列數(shù)據(jù)庫有SWISS-PROT、PIR等;蛋白質(zhì)結(jié)構(gòu)庫有PDB等。一級數(shù)據(jù)庫的數(shù)據(jù)量大、更新速度快、用戶面廣,但存在過多的冗余數(shù)據(jù);二級數(shù)據(jù)庫的容量比較小,更新速度沒有一級數(shù)據(jù)庫快,但經(jīng)過帥選后,避免

29、了過多的冗余數(shù)據(jù),其中與蛋白質(zhì)相關(guān)的二級數(shù)據(jù)庫較多。 5、向GeneBank數(shù)據(jù)庫提交序列的軟件有幾種,各有什么特點?答:BankIt, Sequin Bankit的特點:使用簡單,每個步驟有詳細說明。但一次只能提交一個序列,長度不能太長。 Sequin的特點:安裝在用戶自己的計算機上,可同時遞交若干序列和較長序列,而且整合了許多有用的序列注釋工具。 6、列舉5項DNA序列分析的內(nèi)容及代表性分析工具? 答:(1)核酸序列組成成分分析:BioXM、BioEdit (2)基因結(jié)構(gòu)分析:NCBI-ORF finder、CpGPlot、PromoterScan、POLYAH (3)重復(fù)序列分析:Rep

30、eat Masker (4)序列同源性:Blast (5) 限制性內(nèi)切酶酶切位點分析:BioXM、 Bioedit 7、如何獲取訪問號為U49845的genbank文件,解釋如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 。答:(1)訪問NCBI的Entrez檢索系統(tǒng),(2)選擇核酸數(shù)據(jù)庫,(3)輸入U49845序列訪問號開始檢索。 第一項是LOCUS名稱,前三個字母代表物種名 第二項是序列長度 第三項是序列分子類型 第四項是分子為線性的 第五項是GenBank分類碼 第六項是最后修訂日期 8

31、、BLAST算法的搜索步驟及其在數(shù)據(jù)庫搜索中的主要作用,E值和P值分別是什么,它們有什么意義?答:1.登陸blast主頁;2.根據(jù)數(shù)據(jù)類型,選擇合適的程序;3.填寫表單信息;4.提交任務(wù);5.查看和分析結(jié)果 BLAST中使用的統(tǒng)計值有概率p值和期望e值。 E期望值(E-value)這個數(shù)值表示你僅僅因為隨機性造成獲得這一比對結(jié)果的可能次數(shù)。這一數(shù)值越接近零,發(fā)生這一事件的可能性越小。從搜索的角度看,E值越小,比對結(jié)果越顯著。默認值為10,表示比對結(jié)果中將有10個匹配序列是由隨機產(chǎn)生,如果比對的統(tǒng)計顯著性值(E值)小于該值(10),則該比對結(jié)果將被檢出,換句話說,比較低的E值將使搜索的匹配要求更

32、嚴格,結(jié)果報告中隨機產(chǎn)生的匹配序列減少。 p值表示比對結(jié)果得到的分數(shù)值的可信度。一般說來,p值越接近于零,則比對結(jié)果的可信度越大;相反,p值越大,則比對結(jié)果來自隨機匹配的可能性越大。 9、簡述NCBI中Entrez系統(tǒng)的功能。 答:高級檢索系統(tǒng);查找核酸、蛋白、文獻、結(jié)構(gòu)、基因組序列、大分子三維結(jié)構(gòu)、突變數(shù)據(jù)、探針序列、單核苷酸多態(tài)性等數(shù)據(jù)。 10、BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?答:Blastn是將給定的核酸序列與核酸數(shù)據(jù)庫中的序列進行比較;Blastp是使用蛋白質(zhì)序列與蛋白質(zhì)數(shù)據(jù)庫中的序列進行比較,可以尋找較遠的關(guān)系

33、;Blastx將給定的核酸序列按照六種閱讀框架將其翻譯成蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫中的序列進行比對,對分析新序列和EST很有用;Tblastn將給定的氨基酸序列與核酸數(shù)據(jù)庫中的序列(雙鏈)按不同的閱讀框進行比對,對于尋找數(shù)據(jù)庫中序列沒有標注的新編碼區(qū)很有用;Tblastx只在特殊情況下使用,它將DNA被檢索的序列和核酸序列數(shù)據(jù)庫中的序列按不同的閱讀框全部翻譯成蛋白質(zhì)序列,然后進行蛋白質(zhì)序列比對。 11、什么是序列比對中使用的PAM矩陣和BLOSUM矩陣,它們的作用是什么,一般如何選擇合適的評分矩陣?答:PAM矩陣(Point Accepted Mutation)基于進化的點突變模型,如果兩種氨基酸替

34、換頻繁,說明自然界接受這種替換,那么這對氨基酸替換得分就高。一個PAM就是一個進化的變異單位, 即1%的氨基酸改變,但這并不意味100次PAM后,每個氨基酸都發(fā)生變化,因為其中一些位置可能會經(jīng)過多次突變,甚至可能會變回到原來的氨基酸。 模塊替換矩陣BLOSUM(BLOcks Substitution Matrix)首先尋找氨基酸模式,即有意義的一段氨基酸片斷(如一個結(jié)構(gòu)域及其相鄰的兩小段氨基酸序列),分別比較相同的氨基酸模式之間氨基酸的保守性(某種氨基酸對另一種氨基酸的取代數(shù)據(jù)),然后,以所有 60,保守性的氨基酸模式之間的比較數(shù)據(jù)為根據(jù),產(chǎn)生BLOSUM60;以所有80,保守性的氨基酸模式之

35、間的比較數(shù)據(jù)為根據(jù),產(chǎn)生BLOSUM80。 PAM矩陣和BLOSUM矩陣都是用于序列相似性的記分矩陣(scoring matrix)。記分矩陣中含有對齊時具體使用的數(shù)值。一般FASTA和BLAST都提供BLOSUM或PAM系列矩陣供選擇,若要進行突變性質(zhì)的進化分析時可以使用PAM,F(xiàn)ASTA缺省推薦BLOSUM50矩陣。 12、為下面的序列比對確定比對得分:匹配得分= +1,失配得分= 0,空位得分= -1。 答:X=TGTACGGCTATA; Y=TC-CGCCT-TA TT 1 GC 0 T- -1 A- -1 CC 1 GG 1 GC 0 CC 1 TT 1 A- -1 TT 1 AA

36、1 最后得分1+0+(-1)+(-1)+1+1+0+1+1+(-1)+1+1=4 13、使用Needleman-Wunsch算法計算序列X和Y的最佳比對(配對score=4,錯配score=-3,空位罰分score=-4) X=TTCGAGT; Y=ATTCCAAG。 T T C G A G T 0 -4 -8 -12 -16 -20 -24 -28 A -4 -3 -7 -11 -15 -12 -16 -20 T -8 0 1 -3 -7 -11 -15 -12 T -12 -4 4 0 -4 -8 -12 -11 C -16 -8 0 8 4 0 -4 -8 C -20 -12 -4 4

37、5 1 -3 -7 A -24 -16 -8 0 1 9 5 1 A -28 -20 -12 -4 -3 5 6 2 G -32 -24 -16 -8 0 1 9 5 14、掌握蛋白質(zhì)結(jié)構(gòu)有什么意義,為什么要進行蛋白質(zhì)結(jié)構(gòu)預(yù)測?答:(1)研究蛋白質(zhì)的結(jié)構(gòu)意義重大,分析蛋白質(zhì)結(jié)構(gòu)、功能及其關(guān)系是蛋白質(zhì)組計劃中的一個重要組成部分。研究蛋白質(zhì)結(jié)構(gòu),有助于了解蛋白質(zhì)的作用,了解蛋白質(zhì)如何行使其生物功能,認識蛋白質(zhì)與蛋白質(zhì)(或其它分子)之間的相互作用,這無論是對于生物學還是對于醫(yī)學和藥學,都是非常重要的。(2)對于未知功能或者新發(fā)現(xiàn)的蛋白質(zhì)分子,通過結(jié)構(gòu)分析,可以進行功能注釋,指導(dǎo)設(shè)計進行功能確認的生物

38、學實驗。通過分析蛋白質(zhì)的結(jié)構(gòu),確認功能單位或者結(jié)構(gòu)域,可以為遺傳操作提供目標,為設(shè)計新的蛋白質(zhì)或改造已有蛋白質(zhì)提供可靠的依據(jù),同時為新的藥物分子設(shè)計提供合理的靶分子結(jié)構(gòu)。 15、簡述BLAST搜索的算法思想。 答:BLAST是一種局部最優(yōu)比對搜索算法,將所查詢的序列打斷成許多小序列片段,然后小序列逐步與數(shù)據(jù)庫中的序列進行比對,這些小片段被叫做字”word”;當一定長度的的字(W)與檢索序列的比對達到一個指定的最低分(T)后,初始比對就結(jié)束了;一個序列的匹配度由各部分匹配分數(shù)的總和決定,獲得高分的序列叫做高分匹配片段(HSP),程序?qū)⒆詈玫腍SP雙向擴展進行比對,直到序列結(jié)束或者不再具有生物學顯

39、著性,最后所得到的 序列是那些在整體上具有最高分的序列,即,最高分匹配片段(MSP),這樣,BLAST既保持了整體的運算速度,也維持了比對的精度。 16、試述PSI-BLAST 搜索的5個步驟。 答: 選擇待查序列(query)和蛋白質(zhì)數(shù)據(jù)庫; PSI-BLAST 構(gòu)建一個多序列比對,然后創(chuàng)建一個序列表譜(profile)又稱特定位置打分矩陣(PSSM); PSSM被用作 query搜索數(shù)據(jù)庫 PSI-BLAST 估計統(tǒng)計學意義 (E values) 重復(fù) 和 , 直到?jīng)]有新的序列發(fā)現(xiàn)。17、PSI-BLAST and PHI-BLAST 答:PSI-BLAST:位點特異性反復(fù)比對,首先進行一

40、般的blastp比對,從比對結(jié)果中構(gòu)建多序列比對的搜索矩陣,然后用此矩陣在一次搜索原來的數(shù)據(jù)庫,重復(fù)5次直到?jīng)]有新的結(jié)果出現(xiàn)為止。其是一種更加高靈敏度的Blastp程序,對于發(fā)現(xiàn)遠親物種的相似蛋白或某個蛋白家族的新成員。 PHI-Blast:模式識別BLAST,是一種既能和查詢匹配又能和模式匹配的的蛋白序列的比對程序,是一種高靈敏性的blastp程序,一般經(jīng)過一次搜索即可取得很好的效果,而當一次之后其與PSI-BLAST功能是一致的。廣泛用于蛋白家族成員的鑒定。 18、全局比對與局部比對的比較及生物學意義 答:全局比對:對序列的全部字符進行比對,試圖使盡可能多的字符實現(xiàn)匹配。其主要用于序列相似

41、度很高且序列長度相近的序列比對,用于進化的研究和結(jié)構(gòu)的預(yù)測。 局部比對:尋找序列間相似度最高的區(qū)域,也就是匹配密度最高的部分。其主要應(yīng)用于某些部位相似度較高而其他部位差異較大的序列的比對,用于尋找保守的核苷酸及蛋白質(zhì)序列中氨基酸模式19、簡述除權(quán)配對法(UPGMA)的算法思想。 答:通過兩兩比對聚類的方法進行,在開始時,每個序列分為一類,分別作為一個樹枝的生長點,然后將最近的兩序列合并,從而定義出一個節(jié)點,將這個過程不斷的重復(fù),直到所有的序列都被加入,最后得到一棵進化樹。P119 11) 20、簡述鄰接法(NJ)構(gòu)樹的算法思想。 答:鄰接法的思想不僅僅計算最小兩兩比對距離,還對整個樹的長度進行

42、最小化,從而對樹的拓撲結(jié)構(gòu)進行限制。這種算法由一棵星狀樹開始,所有的物種都從一個中心節(jié)點出發(fā),然后通過計算最小分支長度的和相繼尋找到近鄰的兩個序列,每一輪過程中考慮所有可能的序列對,把能使樹的整個分支長度最小的序列對一組,從而產(chǎn)生新的距離矩陣,直到尋找所有的近鄰序列。P117 21、簡述最大簡約法(MP)的算法思想。P68 答:是一種基于離散特征的進化樹算法。生物演化應(yīng)該遵循簡約性原則,所需變異次數(shù)最少(演化步數(shù)最少)的演化樹可能為最符合自然情況的系統(tǒng)樹。在具體的操作中,分為非加權(quán)最大簡約分析(或稱為同等加權(quán))和加權(quán)最大簡約分析,后者是根據(jù)性狀本身的演化規(guī)律(比如DNA不同位點進化速率不同)而

43、對其進行不同的加權(quán)處理。P120 13)22、 簡述最大似然法(ML)的算法思想。P69 答:是一種基于離散特征的進化樹算法。該法首先選擇一個合適的進化模型,然后對所有可能的進化樹進行評估,通過對每個進化位點的替代分配一個概率,最后找出概率最大的進化樹。P122 23、UPGMA構(gòu)樹法不精確的原因是什么?P69 答:由個于UPGMA假設(shè)在進化過程中所有核苷酸/氨基酸都有相同的變異率,也就是存在著一個分子鐘;這種算法當所構(gòu)建的進化樹的序列進化速率明顯不一致時,得到的進化樹相對來說不準確的。 24、進化樹的可靠性分析 答:自展法(Bootstrap Method) 1、從排列的多序列中隨機有放回的

44、抽取某一列,構(gòu)成相同長度的新的排列序列; 2、重復(fù)上面的過程,得到多組新的序列; 3、對這些新的序列進行建樹,再觀察這些樹與原始樹是否有差異,以此評價建樹的可靠性。 25、生物信息學數(shù)據(jù)庫的組成包括哪些部分,數(shù)據(jù)庫有哪些類型?答:生物信息學數(shù)據(jù)庫的組成包括一級數(shù)據(jù)庫和二級數(shù)據(jù)庫。數(shù)據(jù)庫的類型包括核算和蛋白質(zhì)一級結(jié)構(gòu)序列數(shù)據(jù)庫、基因組數(shù)據(jù)庫、生物大分子三維空間結(jié)構(gòu) 數(shù)據(jù)庫、以上述3類數(shù)據(jù)庫和文獻資料為基礎(chǔ)構(gòu)建的二次數(shù)據(jù)庫。 26、簡要介紹 GenBank中的DNA序列格式。 答:GenBank中的DNA序列格式可以分成三個部分,第一部分為描述符,從第一行LOCUS行到ORIGIN行,包含了關(guān)于整

45、個記錄的信息;第二部分為特性表,從FEATURES行開始,包含了注釋這一紀錄的特性,是條目的核心,中間使用一批關(guān)鍵字;第三部分是核苷酸序列的本身。 27、簡要介紹FASTA序列格式 答:FASTA格式,又叫Pearson格式,是最簡單的,使用最多的格式。它的基 本形式分為三個部分:第一行:大于號(,)表示一個新的序列文件的開始,為標記符。后面可以加上文字說明,gi號,GenBank檢索號,LOCUS名稱等信息。第二行:序列本身,為DNA的標準符號,通常大小寫均可。 結(jié)束:無特殊標志,但建議多留一個空行,以便將序列和其他內(nèi)容區(qū)分開。 28、序列的相似性與同源性有什么區(qū)別與聯(lián)系? 答:(1)相似性

46、是指序列之間相關(guān)的一種統(tǒng)計學的量度,兩序列的的相似性可以基于序列的一致性和相似度的百分比,也可以用相應(yīng)的分數(shù)來衡量這種相似;而同源性是指序列所代表的物種具有共同的祖先,強調(diào)進化上的親緣關(guān)系,不能用相應(yīng)的數(shù)字去量化這種關(guān)系,我們只能說序列具有高的一致性的百分比的可能是同源的。 (2)相似的不一定是同源的,同源的則表現(xiàn)出一定的相似性。因為在進化中來源于不同的基因或序列由于不同的獨立突變而趨同的并不罕見。相反同源序列由于來源于共通過祖先則表現(xiàn)出一定的相似性。五、思考題 1、生物信息學的含義是什么,舉一個例子說明你對生物信息學的哪方面感興趣。 答:生物信息學的含義:生物分子信息的獲取、存貯、分析和利用

47、;以數(shù)學為基礎(chǔ),應(yīng)用計算機技術(shù),研究生物學數(shù)據(jù)的科學。 生物信息技術(shù)在醫(yī)藥領(lǐng)域的應(yīng)用涉及到新藥開發(fā)、新診斷技術(shù)、預(yù)防措施及新的治療技術(shù),如單克隆抗體、基因診斷、熒光檢測、基因芯片等。其中基因芯片技術(shù)可用于包括遺傳性疾病、傳染性疾病及腫瘤等疾病的診斷、DNA序列分析、藥物篩選、基因表達水平的測定等領(lǐng)域。 2、預(yù)測基因的一般步驟是什么?答:如下獲取DNA目標序列查找ORF并將目標序列翻譯成蛋白質(zhì)序列,利用相應(yīng)工具查找ORF并將DNA序列翻譯成蛋白質(zhì)序列在數(shù)據(jù)庫中進行序列搜索,利用BLAST進行ORF核苷酸序列和ORF翻譯的蛋白質(zhì)序列搜索進行目標序列與搜索得到的相似序列的全局對比查找基因家族進行多序

48、列比對,獲得比對區(qū)段的基因家族信息查找目標序列中的特定模序,分別在Prosite、BLOCK、Motif數(shù)據(jù)庫中進行profile、模塊(block)、模序(motif)檢索預(yù)測目標序列蛋白質(zhì)結(jié)構(gòu),利用PredictProtein(EMBL)、NNPREDICT等預(yù)測目標序列的蛋白質(zhì)二級結(jié)構(gòu)。 3、為什么蛋白質(zhì)空間結(jié)構(gòu)預(yù)測很重要,目前有哪幾條途徑用于從蛋白質(zhì)的氨基酸序列預(yù)測其空間三維結(jié)構(gòu)?答:蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測很重要。研究蛋白質(zhì)結(jié)構(gòu),有助于了解蛋白質(zhì)如何行使其生物功能,認識蛋白質(zhì)與蛋白質(zhì)(或其它分子)之間的相互作用,通過分析蛋白質(zhì)的結(jié)構(gòu),確認功能單位或者結(jié)構(gòu)域,可以為遺傳操作提供目標,為設(shè)計新的蛋白質(zhì)或改造已有蛋白質(zhì)提供可靠的依據(jù),同時為新的藥物分子設(shè)計提供合理的靶分子結(jié)構(gòu)。 目前有三條途徑用于從蛋白質(zhì)一級序列預(yù)測其空間三維結(jié)構(gòu): A、同源建模法。是蛋白質(zhì)三維結(jié)構(gòu)預(yù)測的主要方法。對于一個未知結(jié)構(gòu)的蛋白質(zhì),首先通過序列同源分析找到一個已知結(jié)構(gòu)的同源蛋白質(zhì),然后,以該蛋白質(zhì)的結(jié)構(gòu)為模板,為未知結(jié)構(gòu)的蛋白質(zhì)建立結(jié)構(gòu)模型。前提是必須要有一個已知結(jié)構(gòu)的同源蛋白質(zhì)。 B、穿針引線法。需建立核心折疊數(shù)據(jù)庫,在預(yù)測蛋白質(zhì)空間結(jié)構(gòu)時將一個待預(yù)測結(jié)構(gòu)的蛋白質(zhì)序列與數(shù)據(jù)庫中核心折疊進行比對,找出比對結(jié)果最好的核心折疊,作為構(gòu)造待預(yù)測蛋白質(zhì)結(jié)構(gòu)模型的根據(jù)。 C、從頭開始法。在既沒

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論