生物信息學(xué)_復(fù)習(xí)題及答案(打印)

上傳人：5*** IP屬地：湖北上傳時間：2021-11-23 格式：DOC 頁數(shù)：12 大?。?09KB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩7頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、一、名詞解釋：1.生物信息學(xué)：研究大量生物數(shù)據(jù)復(fù)雜關(guān)系的學(xué)科，其特征是多學(xué)科交叉，以互聯(lián)網(wǎng)為媒介，數(shù)據(jù)庫為載體。利用數(shù)學(xué)知識建立各種數(shù)學(xué)模型; 利用計算機(jī)為工具對實驗所得大量生物學(xué)數(shù)據(jù)進(jìn)行儲存、檢索、處理及分析，并以生物學(xué)知識對結(jié)果進(jìn)行解釋。2.二級數(shù)據(jù)庫：在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定目標(biāo)衍生而來，是對生物學(xué)知識和信息的進(jìn)一步的整理。3.FASTA序列格式：是將DNA或者蛋白質(zhì)序列表示為一個帶有一些標(biāo)記的核苷酸或者氨基酸字符串，大于號（>）表示一個新文件的開始，其他無特殊要求。4.genbank序列格式：是GenBank 數(shù)據(jù)庫的基本信息單位，是最為廣泛的生物信息學(xué)

2、序列格式之一。該文件格式按域劃分為4個部分：第一部分包含整個記錄的信息（描述符）；第二部分包含注釋；第三部分是引文區(qū)，提供了這個記錄的科學(xué)依據(jù)；第四部分是核苷酸序列本身，以“/”結(jié)尾。5.Entrez檢索系統(tǒng)：是NCBI開發(fā)的核心檢索系統(tǒng)，集成了NCBI的各種數(shù)據(jù)庫，具有鏈接的數(shù)據(jù)庫多，使用方便，能夠進(jìn)行交叉索引等特點。6.BLAST：基本局部比對搜索工具，用于相似性搜索的工具，對需要進(jìn)行檢索的序列與數(shù)據(jù)庫中的每個序列做相似性比較。P947.查詢序列（query sequence）：也稱被檢索序列，用來在數(shù)據(jù)庫中檢索并進(jìn)行相似性比較的序列。P988.打分矩陣（scoring matrix）：在

3、相似性檢索中對序列兩兩比對的質(zhì)量評估方法。包括基于理論（如考慮核酸和氨基酸之間的類似性）和實際進(jìn)化距離（如PAM）兩類方法。P299.空位（gap）：在序列比對時，由于序列長度不同，需要插入一個或幾個位點以取得最佳比對結(jié)果，這樣在其中一序列上產(chǎn)生中斷現(xiàn)象，這些中斷的位點稱為空位。P2910.空位罰分：空位罰分是為了補(bǔ)償插入和缺失對序列相似性的影響，序列中的空位的引入不代表真正的進(jìn)化事件，所以要對其進(jìn)行罰分，空位罰分的多少直接影響對比的結(jié)果。P3711.E值：衡量序列之間相似性是否顯著的期望值。E值大小說明了可以找到與查詢序列（query）相匹配的隨機(jī)或無關(guān)序列的概率，E值越接近零，越不可能找到

4、其他匹配序列，E值越小意味著序列的相似性偶然發(fā)生的機(jī)會越小，也即相似性越能反映真實的生物學(xué)意義。P9512.低復(fù)雜度區(qū)域：BLAST搜索的過濾選項。指序列中包含的重復(fù)度高的區(qū)域，如poly（A）。13.點矩陣（dot matrix）：構(gòu)建一個二維矩陣，其X軸是一條序列，Y軸是另一個序列，然后在2個序列相同堿基的對應(yīng)位置（x，y）加點，如果兩條序列完全相同則會形成一條主對角線，如果兩條序列相似則會出現(xiàn)一條或者幾條直線；如果完全沒有相似性則不能連成直線。14.多序列比對：通過序列的相似性檢索得到許多相似性序列，將這些序列做一個總體的比對，以觀察它們在結(jié)構(gòu)上的異同，來回答大量的生物學(xué)問題。15.分子

5、鐘：認(rèn)為分子進(jìn)化速率是恒定的或者幾乎恒定的假說，從而可以通過分子進(jìn)化推斷出物種起源的時間。16.系統(tǒng)發(fā)育分析：通過一組相關(guān)的基因或者蛋白質(zhì)的多序列比對或其他性狀，可以研究推斷不同物種或基因之間的進(jìn)化關(guān)系。17.進(jìn)化樹的二歧分叉結(jié)構(gòu)：指在進(jìn)化樹上任何一個分支節(jié)點，一個父分支都只能被分成兩個子分支。系統(tǒng)發(fā)育圖：用枝長表示進(jìn)化時間的系統(tǒng)樹稱為系統(tǒng)發(fā)育圖，是引入時間概念的支序圖。18.直系同源：指由于物種形成事件來自一個共同祖先的不同物種中的同源序列，具有相似或不同的功能。（書：在缺乏任何基因復(fù)制證據(jù)的情況下，具有共同祖先和相同功能的同源基因。）19.旁系（并系）同源：指同一個物種中具有共同祖先，通過

6、基因重復(fù)產(chǎn)生的一組基因，這些基因在功能上可能發(fā)生了改變。(書：由于基因重復(fù)事件產(chǎn)生的相似序列。)20.外類群：是進(jìn)化樹中處于一組被分析物種之外的，具有相近親緣關(guān)系的物種。21.有根樹：能夠確定所有分析物種的共同祖先的進(jìn)化樹。22.除權(quán)配對算法（UPGMA）：最初，每個序列歸為一類，然后找到距離最近的兩類將其歸為一類，定義為一個節(jié)點，重復(fù)這個過程，直到所有的聚類被加入，最終產(chǎn)生樹根。23.鄰接法（neighbor-joining method）：是一種不僅僅計算兩兩比對距離，還對整個樹的長度進(jìn)行最小化，從而對樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制，能夠克服UPGMA算法要求進(jìn)化速率保持恒定的缺陷。24.最大簡約法

7、（MP）：在一系列能夠解釋序列差異的的進(jìn)化樹中找到具有最少核酸或氨基酸替換的進(jìn)化樹。25.最大似然法（ML）：它對每個可能的進(jìn)化位點分配一個概率，然后綜合所有位點，找到概率最大的進(jìn)化樹。最大似然法允許采用不同的進(jìn)化模型對變異進(jìn)行分析評估，并在此基礎(chǔ)上構(gòu)建系統(tǒng)發(fā)育樹。26.一致樹（consensus tree）：在同一算法中產(chǎn)生多個最優(yōu)樹，合并這些最優(yōu)樹得到的樹即一致樹。27.自舉法檢驗（Bootstrap）：放回式抽樣統(tǒng)計法。通過對數(shù)據(jù)集多次重復(fù)取樣，構(gòu)建多個進(jìn)化樹，用來檢查給定樹的分枝可信度。28.開放閱讀框（ORF）：開放閱讀框是基因序列的一部分，包含一段可以編碼蛋白的堿基序列。29.密碼

8、子偏好性（codon bias）：氨基酸的同義密碼子的使用頻率與相應(yīng)的同功tRNA的水平相一致，大多數(shù)高效表達(dá)的基因僅使用那些含量高的同功tRNA所對應(yīng)的密碼子，這種效應(yīng)稱為密碼子偏好性。30.基因預(yù)測的從頭分析：依據(jù)綜合利用基因的特征，如剪接位點，內(nèi)含子與外顯子邊界，調(diào)控區(qū)，預(yù)測基因組序列中包含的基因。31.結(jié)構(gòu)域（domain）：保守的結(jié)構(gòu)單元，包含獨特的二級結(jié)構(gòu)組合和疏水內(nèi)核，可能單獨存在，也可能與其他結(jié)構(gòu)域組合。相同功能的同源結(jié)構(gòu)域具有序列的相似性。32.超家族：進(jìn)化上相關(guān)，功能可能不同的一類蛋白質(zhì)。33.模體（motif）：短的保守的多肽段，含有相同模體的蛋白質(zhì)不一定是同源的，一般1

9、0-20個殘基。34.序列表譜（profile）：是一種特殊位點或模體序列，在多序列比較的基礎(chǔ)上，氨基酸的權(quán)值和空位罰分的表格。35.PAM矩陣：PAM指可接受突變百分率。一個氨基酸在進(jìn)化中變成另一種氨基酸的可能性，通過這種可能性可以鑒定蛋白質(zhì)之間的相似性，并產(chǎn)生蛋白質(zhì)之間的比對。一個PAM單位是蛋白質(zhì)序列平均發(fā)生1%的替代量需要的進(jìn)化時間。36.BLOSUM矩陣：模塊替代矩陣。矩陣中的每個位點的分值來自蛋白比對的局部塊中的替代頻率的觀察。每個矩陣適合特定的進(jìn)化距離。例如，在BLOSUM62矩陣中，比對的分值來自不超過62%一致率的一組序列。37.PSI-BLAST：位點特異性迭代比對。是一種

10、專門化的的比對，通過調(diào)節(jié)序列打分矩陣（scoring matrix）探測遠(yuǎn)緣相關(guān)的蛋白。38.RefSeq：給出了對應(yīng)于基因和蛋白質(zhì)的索引號碼，對應(yīng)于最穩(wěn)定、最被人承認(rèn)的Genbank序列。39.PDB（Protein Data Bank）：PDB中收錄了大量通過實驗（X射線晶體衍射，核磁共振NMR）測定的生物大分子的三維結(jié)構(gòu)，記錄有原子坐標(biāo)、配基的化學(xué)結(jié)構(gòu)和晶體結(jié)構(gòu)的描述等。PDB數(shù)據(jù)庫的訪問號由一個數(shù)字和三個字母組成（如，4HHB），同時支持關(guān)鍵詞搜索，還可以FASTA程序進(jìn)行搜索。40.GenPept:是由GenBank中的DNA序列翻譯得到的蛋白質(zhì)序列。數(shù)據(jù)量很大，且隨核酸序列數(shù)據(jù)庫的

11、更新而更新，但它們均是由核酸序列翻譯得到的序列，未經(jīng)試驗證實，也沒有詳細(xì)的注釋。41.折疊子（Fold）：在兩個或更多的蛋白質(zhì)中具有相似二級結(jié)構(gòu)的大區(qū)域，這些大區(qū)域具有特定的空間取向。42.TrEMBL：是與SWISS-PROT相關(guān)的一個數(shù)據(jù)庫。包含從EMBL核酸數(shù)據(jù)庫中根據(jù)編碼序列(CDS)翻譯而得到的蛋白質(zhì)序列，并且這些序列尚未集成到SWISS-PROT數(shù)據(jù)庫中。43.MMDB(Molecular Modeling Database)：是（NCBI）所開發(fā)的生物信息數(shù)據(jù)庫集成系統(tǒng)Entrez的一個部分，數(shù)據(jù)庫的內(nèi)容包括來自于實驗的生物大分子結(jié)構(gòu)數(shù)據(jù)。與PDB相比，對于數(shù)據(jù)庫中的每一個生物大

12、分子結(jié)構(gòu)，MMDB具有許多附加的信息，如分子的生物學(xué)功能、產(chǎn)生功能的機(jī)制、分子的進(jìn)化歷史等，還提供生物大分子三維結(jié)構(gòu)模型顯示、結(jié)構(gòu)分析和結(jié)構(gòu)比較工具。44.SCOP數(shù)據(jù)庫：提供關(guān)于已知結(jié)構(gòu)的蛋白質(zhì)之間結(jié)構(gòu)和進(jìn)化關(guān)系的詳細(xì)描述，包括蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB中的所有條目。SCOP數(shù)據(jù)庫除了提供蛋白質(zhì)結(jié)構(gòu)和進(jìn)化關(guān)系信息外，對于每一個蛋白質(zhì)還包括下述信息：到PDB的連接，序列，參考文獻(xiàn)，結(jié)構(gòu)的圖像等?？梢园唇Y(jié)構(gòu)和進(jìn)化關(guān)系對蛋白質(zhì)分類，分類結(jié)果是一個具有層次結(jié)構(gòu)的樹，其主要的層次依次是類（class）、折疊子（fold）、超家族（super family）、家族（family）、單個PDB蛋白結(jié)構(gòu)記錄。

13、45.PROSITE：是蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫，包含具有生物學(xué)意義的位點、模式、可幫助識別蛋白質(zhì)家族的統(tǒng)計特征。 PROSITE中涉及的序列模式包括酶的催化位點、配體結(jié)合位點、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等；PROSITE還包括根據(jù)多序列比對而構(gòu)建的序列統(tǒng)計特征，能更敏感地發(fā)現(xiàn)一個序列是否具有相應(yīng)的特征。 46.Gene Ontology 協(xié)會：編輯一組動態(tài)的、可控的基因產(chǎn)物不同方面性質(zhì)的字匯的協(xié)會。從3個方面描述基因產(chǎn)物的性質(zhì)，即，分子功能，生物過程，細(xì)胞區(qū)室。47.表譜（PSSM）：指一張基于多序列比對的打分表，表示一個蛋白質(zhì)家族，可以用來搜索

14、序列數(shù)據(jù)庫。48.比較基因組學(xué)：是在基因組圖譜和測序的基礎(chǔ)上，利用某個基因組研究獲得的信息推測其他原核生物、真核生物類群中的基因數(shù)目、位置、功能、表達(dá)機(jī)制和物種進(jìn)化的學(xué)科。49.簡約信息位點：指基于DNA或蛋白質(zhì)序列，利用最大簡約法構(gòu)建系統(tǒng)發(fā)育樹時，如果每個位點的狀態(tài)至少存在兩種，每種狀態(tài)至少出現(xiàn)兩次的位點。其它位點為都是非簡約性信息位點。4. 一致序列：這些序列是指把多序列聯(lián)配的信息壓縮至單條序列，主要的缺點是除了在特定位置最常見的殘基之外，它們不能表示任何概率信息。5. HMM 隱馬爾可夫模型：一種統(tǒng)計模型，它考慮有關(guān)匹配、錯配和間隔的所有可能的組合來生成一組序列排列。（課件定義）是蛋白質(zhì)

15、結(jié)構(gòu)域家族序列的一種嚴(yán)格的統(tǒng)計模型，包括序列的匹配，插入和缺失狀態(tài)，并根據(jù)每種狀態(tài)的概率分布和狀態(tài)間的相互轉(zhuǎn)換來生成蛋白質(zhì)序列。6. 信息位點：由位點產(chǎn)生的突變數(shù)目把其中的一課樹與其他樹區(qū)分開的位點。7. 非信息位點：對于最大簡約法來說沒有意義的點。8. 標(biāo)度樹：分支長度與相鄰節(jié)點對的差異程度成正比的樹。9. 非標(biāo)度樹：只表示親緣關(guān)系無差異程度信息。10. 有根樹：單一的節(jié)點能指派為共同的祖先，從祖先節(jié)點只有唯一的路徑歷經(jīng)進(jìn)化到達(dá)其他任何節(jié)點。11. 無根樹：只表明節(jié)點間的關(guān)系，無進(jìn)化發(fā)生方向的信息，通過引入外群或外部參考物種，可以在無根樹中指派根節(jié)點。18. 質(zhì)譜(MS)是一種準(zhǔn)確測定真空中

16、離子的分子質(zhì)量/電荷比(m/z)的方法，從而使分子質(zhì)量的準(zhǔn)確確定成為可能。質(zhì)譜分析的兩個工具19. 分子途徑是指一組連續(xù)起作用以達(dá)到共同目標(biāo)的蛋白質(zhì)。20. 虛擬細(xì)胞：一種建模手段，把細(xì)胞定義為許多結(jié)構(gòu)，分子，反應(yīng)和物質(zhì)流的集合體。21. 先導(dǎo)化合物：是指具有一定藥理活性的、可通過結(jié)構(gòu)改造來優(yōu)化其藥理特性而可能導(dǎo)致藥物發(fā)現(xiàn)的特殊化合物。就是利用計算機(jī)在含有大量化合物三維結(jié)構(gòu)的數(shù)據(jù)庫中，搜索能與生物大分子靶點匹配的化合物，或者搜索能與結(jié)合藥效團(tuán)相符的化合物，又稱原型物，簡稱先導(dǎo)物，是通過各種途徑或方法得到的具有生物活性的化學(xué)結(jié)構(gòu)22. 權(quán)重矩陣（序列輪廓）：它們表示完全結(jié)構(gòu)域序列，多序列聯(lián)配中每

17、個位點的氨基酸都有分值，并且特定位置插入或缺失的可能性均有一定的衡量方法（課件定義）?；A(chǔ)上針對特定的應(yīng)用目標(biāo)而建立的數(shù)據(jù)庫。23. 系統(tǒng)發(fā)育學(xué)（phylogenetic）：確定生物體間進(jìn)化關(guān)系的科學(xué)分支。24. 系統(tǒng)生物學(xué)（systems biology）：是研究一個生物系統(tǒng)中所有組分成分（基因、mRNA、蛋白質(zhì)等）的構(gòu)成以及在特定條件下這些組分間的相互關(guān)系，并分析生物系統(tǒng)在一定時間內(nèi)的動力學(xué)過程25. 蛋白質(zhì)組（proteome）：是指一個基因組、一種生物或一個細(xì)胞/組織的基因組所表達(dá)的全套蛋白質(zhì)。26. ESI電噴霧離子化：一種適合大分子如蛋白質(zhì)離子化沒有明顯降解的質(zhì)譜技術(shù)。1. 鳥槍法

18、測序（shotgun method）一種測序方法，包括從基因組中獲得隨機(jī)的、已測序的克隆片段，并且對初始基因的位置一無所知。2. BLAST：基本局部相似性比對搜索工具。在序列數(shù)據(jù)庫中快速查找與給定的序列具有最優(yōu)局部對準(zhǔn)結(jié)果的序列的一種序列對算法。3. 整體聯(lián)配（global alignment）：對兩個核苷酸或蛋白質(zhì)序列的全長所進(jìn)行的比對。4. FASTA：是第一個被廣泛使用的數(shù)據(jù)庫相似性搜索算法，這個程序通過掃描序列中“詞”的小配對，從而尋找最優(yōu)局部比對。5. 算法（algorithm）：在計算機(jī)程序中包含的一種固定過程。6. 序列比對（alignment）：將兩個或多個序列排在一起，以達(dá)

19、到最大一致性的過程（對于氨基酸序列是比較他們的保守性），這樣評估序列間的相似性和同源性。7. 多序列比對（multiple sequence alignment）：三個或多個序列之間的比對，如果序列在同一列有相同結(jié)構(gòu)位置的殘基和（或）祖?zhèn)鞯臍埢?，則會在該位置插入空位。8. 最佳聯(lián)配（optimal alignment）：兩個序列之間有最高打分值的排列。9. 空位（gap）：在兩條序列比對過程中需要在檢測序列或目標(biāo)序列中引入空位，以表示插入或刪除。10. 模塊替換矩陣（BLUSUM）在替換矩陣中，每個位置的打分是在相關(guān)蛋白局部比對模塊中觀察到的替換的頻率而獲得的，每個矩陣被修改成一個特殊的進(jìn)化

20、距離。11. 可接受點突變（PAM）一個用于衡量蛋白質(zhì)序列的進(jìn)化突變程度的單位。12. 互補(bǔ)序列（complementary sequence）能夠與其他DNA片段根據(jù)堿基互補(bǔ)序列（A與T配對，G與C配對）形成兩練結(jié)構(gòu)的核苷酸序列。13. 保守序列（conserved sequence）指DNA分子中的一個核苷酸片段或者蛋白質(zhì)中氨基酸片段，它們在進(jìn)化過程中基本保持不變。14. 鄰接片段（contig）與支架（scaffold）15. 鄰接片段：一組在染色體上有重疊區(qū)域的DNA片段的克??；16. 支架：由序列重疊群拼接而成。17. 注釋（annotation）對數(shù)據(jù)庫中原始的DNA堿基序列添加相

21、關(guān)信息（比如編碼的基因，氨基酸序列等）或其他的注解。18. 基因預(yù)測（gene prediction）用計算機(jī)程序?qū)赡艿幕蛩龅念A(yù)測，它是基于DNA片段與已知基因序列的匹配程度的。19. 直系同源（Orthologous）指不同種類的同源序列，他們是在物種的形成事件中從一個祖先序列獨立進(jìn)化而成的，可能有相似功能，也可能沒有。20. 旁系同源（paralogous）是通過類似基因復(fù)制的機(jī)制產(chǎn)生的同源序列。21. 替換（substitution）在指定的位置不相同的氨基酸進(jìn)行連配，如果聯(lián)配的殘基有相似的物化性質(zhì)，那么替換是保守的。22. 表達(dá)序列標(biāo)簽（EST）一種短的DNA片段，是cDNA分子

22、的一部分，可用來鑒定基因，通常用于基因定位和基因圖譜中。23. 多態(tài)性（PolyMorphism）多個個體之間DNA的差異叫多態(tài)性。24. 基因預(yù)測（Gene Prediction）同1925. 序列模式（Motif）蛋白質(zhì)序列中短的保守區(qū)域，它們是結(jié)構(gòu)域中保守性很高的部分。26. 結(jié)構(gòu)域（domain）：蛋白質(zhì)在折疊時候與其它部分相獨立的一個不連續(xù)部分，他有自己獨特的功能。27. 開放閱讀框（ORF）位于DNA或RNA上起始密碼子與終止密碼子之間的序列。28. 表達(dá)譜（profile）一個顯示某個同源家族中指定位置打分值和空位罰分的表格，可以用于搜索序列數(shù)據(jù)庫。29. 分子鐘（molecu

23、lar clock）對于每一個給定基因（或蛋白質(zhì)）其分子進(jìn)化率大致是恒定的。30. 系統(tǒng)發(fā)生（phylogeny）是指生物種族的進(jìn)化歷史，亦即生物體在整個進(jìn)化譜31. 分子進(jìn)化樹（molecular evolutionary tree）在研究生物進(jìn)化和系統(tǒng)分類中，常用一種類似樹狀分支的圖形來概括各種（類）生物之間的親緣關(guān)系，這種樹狀分支的圖形成為系統(tǒng)發(fā)育樹(phylogenetic tree)。二.填空題1. 常用的三種序列格式：NBRF/PIR,FASTA和GDE2. 初級序列數(shù)據(jù)庫：GenBank，EMBL和DDBJ3. 蛋白質(zhì)序列數(shù)據(jù)庫：SWISS-PROT和TrEMBL4. 提供蛋白質(zhì)

24、功能注釋信息的數(shù)據(jù)庫：KEGG（京都基因和基因組百科全書）和PIR（蛋白質(zhì)信息資源）5. 目前由NCBI維護(hù)的大型文獻(xiàn)資源是PubMed6. 數(shù)據(jù)庫常用的數(shù)據(jù)檢索工具：Entrez，SRS，DBGET7. 常用的序列搜索方法：FASTA和BLAST8. 高分值局部聯(lián)配的BLAST參數(shù)是HSPs（高分值片段對），E（期望值）9. 多序列聯(lián)配的常用軟件：Clustal10. 蛋白質(zhì)結(jié)構(gòu)域家族的數(shù)據(jù)庫有：Pfam，SMART11. 系統(tǒng)發(fā)育學(xué)的研究方法有：表現(xiàn)型分類法，遺傳分類法和進(jìn)化分類法 12. 系統(tǒng)發(fā)育樹的構(gòu)建方法：距離矩陣法，最大簡約法和最大似然法13. 常用系統(tǒng)發(fā)育分析軟件：PHYLIP

25、14. 檢測系統(tǒng)發(fā)育樹可靠性的技術(shù)：bootstrapping和Jack-knifing15. 原核生物和真核生物基因組中的注釋所涉及的問題是不同的16. 檢測原核生物ORF的程序：NCBI ORF finder17. 測試基因預(yù)測程序正確預(yù)測基因的能力的項目是GASP（基因預(yù)測評估項目）18. 二級結(jié)構(gòu)的三種狀態(tài)：螺旋，折疊和轉(zhuǎn)角19. 用于蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的基本神經(jīng)網(wǎng)絡(luò)模型為三層的前饋網(wǎng)絡(luò)，包括輸入層，隱含層和輸出層20. 通過比較建模預(yù)測蛋白質(zhì)結(jié)構(gòu)的軟件有SWISS-PDBVIEWER（SWISSMODEL網(wǎng)站）21. 蛋白質(zhì)質(zhì)譜數(shù)據(jù)搜索工具：SEQUEST22. 分子途徑最廣泛數(shù)據(jù)庫

26、：KEGG23. 聚類分析方法，分為有監(jiān)督學(xué)習(xí)方法，無監(jiān)督學(xué)習(xí)方法24. 質(zhì)譜的兩個數(shù)據(jù)庫搜索工具：SEQEST和Lutkefish二、問答題1）生物信息學(xué)的發(fā)展經(jīng)歷了哪幾個階段答：生物信息學(xué)的發(fā)展經(jīng)歷了3個階段。第一個階段是前基因組時代。這一階段主要是以各種算法法則的建立、生物數(shù)據(jù)庫的建立以及DNA和蛋白質(zhì)序列分析為主要工作；第二階段是基因組時代。這一階段以各種基因組計劃測序、網(wǎng)絡(luò)數(shù)據(jù)庫系統(tǒng)的建立和基因?qū)ふ覟橹饕ぷ鳌５谌A段是后基因組時代。這一階段的主要工作是進(jìn)行大規(guī)模基因組分析、蛋白質(zhì)組分析以及其他各種基因組學(xué)研究。2）生物信息學(xué)步入后基因組時代后，其發(fā)展方向有哪幾個方面。答：生物信

27、息學(xué)步入后基因組時代后，其發(fā)展方向主要有：各種生物基因組測序及新基因的發(fā)現(xiàn)；單核苷酸多態(tài)性（SNP）分析；基因組非編碼區(qū)信息結(jié)構(gòu)與分析；比較基因組學(xué)和生物進(jìn)化研究；蛋白質(zhì)結(jié)構(gòu)和功能的研究。3）美國國家生物技術(shù)信息中心（NCBI）的主要工作是什么？請列舉3個以上Entrez系統(tǒng)可以檢索的數(shù)據(jù)庫。（NCBI維護(hù)的數(shù)據(jù)庫）NCBI的主要工作是在分子水平上應(yīng)用數(shù)學(xué)和計算機(jī)科學(xué)的方法研究基礎(chǔ)生物，醫(yī)學(xué)問題。為科學(xué)界開發(fā)，維護(hù)和分享一系列的生物信息數(shù)據(jù)庫；開發(fā)和促進(jìn)生物信息學(xué)數(shù)據(jù)庫，數(shù)據(jù)的儲存，交換以及生物學(xué)命名規(guī)則的標(biāo)準(zhǔn)化。維護(hù)的主要數(shù)據(jù)庫包括答：PubMed、核酸序列數(shù)據(jù)庫GenBank、PROW、三

28、維蛋白質(zhì)結(jié)構(gòu)分子模型數(shù)據(jù)庫MMDB。4）序列的相似性與同源性有什么區(qū)別與聯(lián)系？答：相似性是指序列之間相關(guān)的一種量度，兩序列的的相似性可以基于序列的一致性的百分比；而同源性是指序列所代表的物種具有共同的祖先，強(qiáng)調(diào)進(jìn)化上的親緣關(guān)系。P1475）BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？答：blastn是將給定的核酸序列與核酸數(shù)據(jù)庫中的序列進(jìn)行比較；Blastp是使用蛋白質(zhì)序列與蛋白質(zhì)數(shù)據(jù)庫中的序列進(jìn)行比較，可以尋找較遠(yuǎn)的關(guān)系；Blastx將給定的核酸序列按照六種閱讀框架將其翻譯成蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫中的序列進(jìn)行比對，對分析新序列和ES

29、T很有用；Tblastn將給定的氨基酸序列與核酸數(shù)據(jù)庫中的序列（雙鏈）按不同的閱讀框進(jìn)行比對，對于尋找數(shù)據(jù)庫中序列沒有標(biāo)注的新編碼區(qū)很有用；Tblastx只在特殊情況下使用，它將DNA被檢索的序列和核酸序列數(shù)據(jù)庫中的序列按不同的閱讀框全部翻譯成蛋白質(zhì)序列，然后進(jìn)行蛋白質(zhì)序列比對。P976）簡述BLAST搜索的算法思想。答：BLAST是一種局部最優(yōu)比對搜索算法，將所查詢的序列打斷成許多小序列片段，然后小序列逐步與數(shù)據(jù)庫中的序列進(jìn)行比對，這些小片段被叫做字”word”；當(dāng)一定長度的的字（W）與檢索序列的比對達(dá)到一個指定的最低分（T）后，初始比對就結(jié)束了；一個序列的匹配度由各部分匹配分?jǐn)?shù)的總和決定，

30、獲得高分的序列叫做高分匹配片段（HSP），程序?qū)⒆詈玫腍SP雙向擴(kuò)展進(jìn)行比對，直到序列結(jié)束或者不再具有生物學(xué)顯著性，最后所得到的序列是那些在整體上具有最高分的序列，即，最高分匹配片段（MSP），這樣，BLAST既保持了整體的運算速度，也維持了比對的精度。P957）什么是物種的標(biāo)記序列？答：指物種特有的一段核苷酸序列。可以通過相似性查詢，得到某一序列在數(shù)據(jù)庫中的某一物種中反復(fù)出現(xiàn)，且在其他物種中沒有的明顯相似的序列。8）什么是多序列全局比對的累進(jìn)算法？（三個步驟）答：第一，所有的序列之間逐一比對（雙重比對）；第二，生成一個系統(tǒng)樹圖，將序列按相似性大致分組；第三，使用系統(tǒng)樹圖作為引導(dǎo)，產(chǎn)生出最終

31、的多序列比對結(jié)果。P529）簡述構(gòu)建進(jìn)化樹的步驟，每一步列舉1-2種使用的軟件或統(tǒng)計學(xué)方法。答：（1）多序列比對：Clustal W （2）校對比對結(jié)果：BIOEDIT（3）建樹：MEGA（4）評估系統(tǒng)發(fā)育信號和進(jìn)化樹的牢固度：自舉法（Bootstrap）P11410）簡述除權(quán)配對法（UPGMA）的算法思想。答：通過兩兩比對聚類的方法進(jìn)行，在開始時，每個序列分為一類，分別作為一個樹枝的生長點，然后將最近的兩序列合并，從而定義出一個節(jié)點，將這個過程不斷的重復(fù)，直到所有的序列都被加入，最后得到一棵進(jìn)化樹。P11911）簡述鄰接法（NJ）構(gòu)樹的算法思想。答：鄰接法的思想不僅僅計算最小兩兩比對距離，還

32、對整個樹的長度進(jìn)行最小化，從而對樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制。這種算法由一棵星狀樹開始，所有的物種都從一個中心節(jié)點出發(fā)，然后通過計算最小分支長度的和相繼尋找到近鄰的兩個序列，每一輪過程中考慮所有可能的序列對，把能使樹的整個分支長度最小的序列對一組，從而產(chǎn)生新的距離矩陣，直到尋找所有的近鄰序列。P11712）簡述最大簡約法（MP）的算法思想。P68答：是一種基于離散特征的進(jìn)化樹算法。生物演化應(yīng)該遵循簡約性原則，所需變異次數(shù)最少（演化步數(shù)最少）的演化樹可能為最符合自然情況的系統(tǒng)樹。在具體的操作中，分為非加權(quán)最大簡約分析（或稱為同等加權(quán)）和加權(quán)最大簡約分析，后者是根據(jù)性狀本身的演化規(guī)律（比如DNA不同位點進(jìn)

33、化速率不同）而對其進(jìn)行不同的加權(quán)處理。P12013）簡述最大似然法（ML）的算法思想。P69答：是一種基于離散特征的進(jìn)化樹算法。該法首先選擇一個合適的進(jìn)化模型，然后對所有可能的進(jìn)化樹進(jìn)行評估，通過對每個進(jìn)化位點的替代分配一個概率，最后找出概率最大的進(jìn)化樹。P12214）UPGMA構(gòu)樹法不精確的原因是什么？P69答：由個于UPGMA假設(shè)在進(jìn)化過程中所有核苷酸/氨基酸都有相同的變異率，也就是存在著一個分子鐘；這種算法當(dāng)所構(gòu)建的進(jìn)化樹的序列進(jìn)化速率明顯不一致時，得到的進(jìn)化樹相對來說不準(zhǔn)確的。P119,倒數(shù)第2段，前4行。15) 在MEGA2軟件中，提供了哪些堿基替換距離模型，試列舉其中3種，解釋其含

34、義。答：堿基替換模型包括，No.of differences 、p-distance、Jukes-Cantor distance、T ajima-Nei distance、Kimur 2-parameter distance、Tamura 3-parameter distance、Tamura-Nei distancep-distance：表示有差異的核苷酸位點在序列中所占比例，將有差異的核苷酸位點數(shù)除已經(jīng)比對的總位點數(shù)就可以得到Jukes-Cantor：模型假設(shè) A T C G 的替換速率是一致的，然后給出兩個序列核苷酸替換數(shù)的最大似然估計Kimura 2-parameter：模型考慮到了

35、轉(zhuǎn)換很顛換隊多重?fù)糁械挠绊?，但假設(shè)整個序列中4鐘核苷酸的頻率是相同哈德在不同位點上的堿基替換頻率是相同的16）列舉5項DNA序列分析的內(nèi)容及代表性分析工具。答：（1）尋找重復(fù)元件：RepeatMasker （2）同源性檢索確定是否存在已知基因：BLASTn （3）從頭開始方法預(yù)測基因：Genscan （4）分析各種調(diào)控序列：TRES/DRAGON PROMOTOR FINDER (5) CpG島：CpGPlot P130，表格代表性工具：ORF Finder、BLASTn、tBLASTx、BLASTx、Gene Wise 17）如何用BLAST發(fā)現(xiàn)新基因？答：從一個一直蛋白質(zhì)序列開始，通過t

36、BLASTn工具搜索一個DNA數(shù)據(jù)庫，可以找到相應(yīng)的匹配，如與DNA編碼的已知蛋白質(zhì)的匹配或者與DNA編碼的相關(guān)蛋白質(zhì)的匹配。然后通過BLASTx或BLASTp在蛋白質(zhì)數(shù)據(jù)庫中搜索DNA或蛋白質(zhì)序列來“確定”一個新基因。18）試述SCOP蛋白質(zhì)分類方案答：SCOP將PDB數(shù)據(jù)庫中的蛋白質(zhì)按傳統(tǒng)分類方法分成型、型、/型、+型，并將多結(jié)構(gòu)域蛋白、膜蛋白和細(xì)胞表面蛋白、N蛋白單獨分類，一共分成7種類型，并在此基礎(chǔ)上，按折疊類型、超家族、家族三個層次逐級分類。對于具有不同種屬來源的同源蛋白家族，SCOP數(shù)據(jù)庫按照種屬名稱將它們分成若干子類，一直到蛋白質(zhì)分子的亞基。19）試述SWISS-PROT中的數(shù)據(jù)

37、來源。答：（1）從核酸數(shù)據(jù)庫經(jīng)過翻譯推導(dǎo)而來；（2）從蛋白質(zhì)數(shù)據(jù)庫PIR挑選出合適的數(shù)據(jù)；（3）從科學(xué)文獻(xiàn)中摘錄；（4）研究人員直接提交的蛋白質(zhì)序列數(shù)據(jù)。20）TrEMBL哪兩個部分？答：（1）SP-TrEMBL(SWISS-PROT TrEMBL)包含最終將要集成到SWISS-PROT的數(shù)據(jù)，所有的SP-TrEMBL序列都已被賦予SWISS-PROT的登錄號。（2）REM-TrEMBL(REMaining TrEMBL)包括所有不準(zhǔn)備放入SWISS-PROT的數(shù)據(jù)，因此這部分?jǐn)?shù)據(jù)都沒有登錄號。21）試述PSI-BLAST 搜索的5個步驟。答：1 選擇待查序列（query）和蛋白質(zhì)數(shù)據(jù)庫；2

38、 PSI-BLAST 構(gòu)建一個多序列比對，然后創(chuàng)建一個序列表譜（profile）又稱特定位置打分矩陣（PSSM）；3 PSSM被用作 query搜索數(shù)據(jù)庫4 PSI-BLAST 估計統(tǒng)計學(xué)意義 (E values)5 重復(fù) 3 和 4 , 直到?jīng)]有新的序列發(fā)現(xiàn)。22）列舉5種常用的系統(tǒng)發(fā)育分析軟件 PHYLIP、PAUP、MEGA、PAML、TreeView。三. 操作與計算題1.如何獲取訪問號為U49845的genbank文件？解釋如下genbank文件的LOCUS行提供的信息： LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 答：（1）訪

39、問NCBI的Entrez檢索系統(tǒng)，（2）選擇核酸數(shù)據(jù)庫，（3）輸入U49845序列訪問號開始檢索。第一項是LOCUS名稱，前三個字母代表物種名第二項是序列長度第三項是序列分子類型第四項是分子為線性的第五項是GenBank分類碼第六項是最后修訂日期 P132.利用Entrez檢索系統(tǒng)對核酸數(shù)據(jù)搜索，輸入如下信息，將獲得什么結(jié)果：AF114696:AF114714ACCN。P35 答：獲得序列訪問號AF114696到AF114714之間的連續(xù)編號的序列。3.相比使用BLAST套件搜索數(shù)據(jù)庫，BLAST2工具在結(jié)果呈現(xiàn)上有什么優(yōu)點？答：BLAST2序列分析工具，它能進(jìn)行兩條序列的精確比對，同時給出兩

40、序列的圖形化比對結(jié)果和文本形式的聯(lián)配結(jié)果。4.MEGA2如何將其它多序列比對格式文件轉(zhuǎn)化為MEGE格式的多序列比對文件？答：（1）選擇菜單file，（2）選擇Text File Editor and Format Coverter 工具，（3）調(diào)入需要轉(zhuǎn)換的序列和相應(yīng)的格式，（4）獲得轉(zhuǎn)換后的MEGA格式的文件并保存。5.什么簡約信息位點Pi?答：指基于DNA或蛋白質(zhì)序列，應(yīng)用最大簡約法構(gòu)建系統(tǒng)發(fā)育樹時，如果某個位點的狀態(tài)存在兩種或兩種以上，每種狀態(tài)出現(xiàn)兩次或兩次以上，這樣的位點稱簡約信息位點。6. 以下軟件的主要用途是什么？RepeatMasker, CpGPlot, Splice View

41、, Genscan, ORF finder, neural network promoter prediction.答：RepeatMasker：是對重復(fù)序列進(jìn)行分析的軟件GpGPlot：用來查找一條DNA序列中CpG島，使用Gardine-Garden和Frommer描述的方法Splice View：是對一段序列進(jìn)行剪接位點的分析即其中的受體和供體位點Genscan：是一種從頭分析工具ORF finder：是用來分析序列ORF的工具neural networkpromoter prediction：神經(jīng)網(wǎng)絡(luò)啟動子預(yù)測是另外一種分析啟動子的方法10.試述蛋白質(zhì)三維結(jié)構(gòu)預(yù)測的三類方法（1）同源建

42、模，(1) 同源建模方法：對于一個未知結(jié)構(gòu)的蛋白質(zhì)，找到一個已知結(jié)構(gòu)的同源蛋白質(zhì)，以該蛋白質(zhì)的結(jié)構(gòu)為模板，為未知結(jié)構(gòu)的蛋白質(zhì)建立結(jié)構(gòu)模型，序列相似性低于30%的蛋白質(zhì)難以得到理想的結(jié)構(gòu)模型；（2）在已知結(jié)模板的序列一致率小于25%時，使用折疊識別方法進(jìn)行預(yù)測；（3）在找不到已知結(jié)構(gòu)的蛋白質(zhì)模板時使用從頭預(yù)測的方法。1. FASTA序列格式第一行以“>”開頭但并沒有指明是蛋白質(zhì)還是核酸序列。后跟代碼，接著是注釋（在同一行），通常注釋要以“|”符號相隔，第一行沒有長度限制。值得注意的是FASTA文件允許以小寫字母表示氨基酸。文件擴(kuò)展名為“.fasta”。（NBIR/PIR序列格式第一行

43、以“>”開頭，后面緊跟兩字母編碼（P1代表蛋白質(zhì)序列，N1代表核酸），再接一個分號，分號后緊跟序列標(biāo)識號。后面是說明行，該行可長可短，沒有長度限制。接下來是序列本身，以“*”號終止。文件的擴(kuò)展名為“.pir”或“.seq”。 GDE序列格式與FASTA的格式基本相同，但行首為“%”，文件擴(kuò)展名為“.gde”。）2. BLAST的五個子程序程序查詢序列數(shù)據(jù)庫種類簡述方法Blastp蛋白質(zhì)蛋白質(zhì)可以找到具有遠(yuǎn)源進(jìn)化關(guān)系的匹配序列待搜索蛋白序列與蛋白數(shù)據(jù)庫比較Blastn核苷酸核苷酸適合尋找分值較高的匹配，不適合遠(yuǎn)源關(guān)系待搜索核酸序列與核酸數(shù)據(jù)庫比較Blastx核苷酸（已翻譯）蛋白質(zhì)適合新D

44、NA序列和EST序列的分析將待搜索核酸序列按6個讀框翻譯成蛋白質(zhì)序列，然后與數(shù)據(jù)庫中的蛋白質(zhì)比較TBlastn蛋白質(zhì)核苷酸（已翻譯）適合尋找數(shù)據(jù)庫中尚未標(biāo)注的編碼區(qū)將數(shù)據(jù)庫中核酸序列按6個讀框翻譯成蛋白序列，然后與待搜索蛋白序列對比TBlastx核苷酸（已翻譯）核苷酸（已翻譯）適合分析EST序列無論是待搜索核酸序列還是數(shù)據(jù)庫中核酸序列，都按6個讀框翻譯成蛋白序列3. 生物類的數(shù)據(jù)庫類別：一級數(shù)據(jù)庫：數(shù)據(jù)庫中的數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù)，只經(jīng)過簡單的歸類整理和注釋；二級數(shù)據(jù)庫：對原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果，是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定的應(yīng)用目標(biāo)而建立的。4

45、. PSI-Blast的原理：PSI-BLAST是一種將雙序列比對和多序列比對結(jié)合在一起的數(shù)據(jù)庫搜索方法。其主要思想是通過多次迭代找出最佳結(jié)果。每次迭代都發(fā)現(xiàn)一些中間序列，用于在接下去的迭代中尋找查詢序列的更多疏遠(yuǎn)相關(guān)序列（拓展了序列進(jìn)化關(guān)系的覆蓋面積）。具體做法是最初對查詢序列進(jìn)行BLAST搜索，接著把查找得到的每一擊中項作為BLAST搜索第二次迭代的查詢序列，重復(fù)這個過程直到找不到有意義的相似序列為止。（以下為研究生課件部分）PSI-BLAST的基本思路在于根據(jù)最初的搜索結(jié)果，依照預(yù)先定義的相似性閾值將序列分成不同的組，構(gòu)建一個位點特異性的序列譜，并通過多次迭代不斷改進(jìn)這一序列譜以提高搜索

46、的靈敏度。利用第一次搜索結(jié)果構(gòu)建位置特異性分?jǐn)?shù)矩陣，并用于第二次的搜索，第二次搜索結(jié)果用于第三次搜索，依此類推，直到找出最佳搜索結(jié)果。此外，BLAST不僅可用于檢測序列對數(shù)據(jù)庫的搜索，還可用于兩個序列之間的比對。 5. 多序列聯(lián)配的意義： 1）分析多個序列的一致序列；2）用于進(jìn)化分析，是用系統(tǒng)發(fā)育方法構(gòu)建進(jìn)化樹的初始步驟；3）尋找個體間單核苷酸多態(tài)性；4）通過序列比對發(fā)現(xiàn)直親同源與旁系同源基因；5）尋找同源基因（相似的序列往往具有同源性）；6）尋找蛋白家族識別多個序列的保守區(qū)域；7）相似的蛋白序列往往具有相似的結(jié)構(gòu)與功能；8）輔助預(yù)測新序列的二級或三級結(jié)構(gòu)；9）可以直觀地看到基因的哪些區(qū)域?qū)?/p>

47、突變敏感；10）PCR引物設(shè)計。6. 系統(tǒng)發(fā)育學(xué)的研究方法： 1）表現(xiàn)型分類法：將表型相像的物種歸類在一起，所有特征都要被考慮到； 2）遺傳分類法：具有共有起源的物種歸類在一起，也就是說，這些字符并沒有出現(xiàn)在離它們較遠(yuǎn)的祖先序列； 3）進(jìn)化分類法：該方法綜合了表現(xiàn)型分類法和遺傳分類法的原理，進(jìn)化方法被普遍認(rèn)為是最好的系統(tǒng)發(fā)育分析方法，因為該方法承認(rèn)并采用目前的進(jìn)化理論；7. 系統(tǒng)發(fā)育樹的構(gòu)建方法： 1）距離矩陣法：首先通過各個物種之間的比較，根據(jù)一定的假設(shè)（進(jìn)化距離模型）推到得出分類群之間的進(jìn)化距離，構(gòu)建一個進(jìn)化距離矩陣，其次基于這個矩陣中的進(jìn)化距離關(guān)系構(gòu)建進(jìn)化樹； 2）最大簡約法：該法依據(jù)在

48、任何位置將一條序列轉(zhuǎn)變成另一條序列所需要突變的最少數(shù)量對序列進(jìn)行比較和聚類； 3）最大似然法：該模型可將一個給定替代發(fā)生在序列中任何位置的概率融合進(jìn)算法，該方法計算序列中每個位置的一個給定序列變化的可能性，最可靠的樹為總的可能性最大的那棵。8. 簡述人工神經(jīng)網(wǎng)絡(luò)預(yù)測蛋白質(zhì)二級結(jié)構(gòu)的基本步驟。1）輸入數(shù)據(jù)（來自PDB）2）產(chǎn)生一個神經(jīng)網(wǎng)絡(luò)（一個計算程序）3）用已知的蛋白質(zhì)二級結(jié)構(gòu)來訓(xùn)練這個模型4）由訓(xùn)練好的模型來給出未知蛋白的一個可能的結(jié)構(gòu)5）最后從生物角度來檢驗預(yù)測的一系列氨基酸是否合理9. 預(yù)測蛋白質(zhì)三級結(jié)構(gòu)的三種方法 1)同源建模法：依據(jù)蛋白質(zhì)與已知結(jié)構(gòu)蛋白比對信息構(gòu)建3D模型； 2)折疊

49、識別法：尋找與未知蛋白最合適的模板，進(jìn)行序列與結(jié)構(gòu)比對，最終建立結(jié)構(gòu)模型； 3)從頭預(yù)測法：根據(jù)序列本身從頭預(yù)測蛋白質(zhì)結(jié)構(gòu)。10. 分子途徑和網(wǎng)絡(luò)的特點：1)分子途徑和網(wǎng)絡(luò)的結(jié)構(gòu)隨意性大。圖可以很簡單，也可以非常復(fù)雜。它們可能包含了多個分支，盤繞的連接和回路。2)它們通常也顯示出節(jié)點間關(guān)系的方向，例如表示出代謝通路或信號傳導(dǎo)的方向。調(diào)控途徑和網(wǎng)絡(luò)的圖也應(yīng)該說明相互作用是正的還是負(fù)的。正的相互作用(促進(jìn)或者活化作用)常常用箭頭表示，而負(fù)的交互效應(yīng)(抑制或者失活作用)常常用T型棒表示。11. 先導(dǎo)化合物的來源有四種來源： 1）通過偶然性觀察發(fā)現(xiàn)的先導(dǎo)化合物（這個方法最著名的例子就是亞歷山大.弗萊明

50、發(fā)現(xiàn)的青霉素，今天所用的許多抗生素皆由其發(fā)展出來） 2）也可以通過替代療法的藥物開發(fā)中發(fā)現(xiàn)的藥物副作用來識別先導(dǎo)化合物（例如，鎮(zhèn)定劑氯化物丙嫀是在試驗中發(fā)現(xiàn)用在抗組胺劑時被發(fā)現(xiàn)的） 3）先導(dǎo)化合物也可以來自傳統(tǒng)醫(yī)藥學(xué)（如奎寧化合物就來自金雞納的樹皮） 4）先導(dǎo)化合物也可以來自天然的底物或是配體（比如說，腎上腺素作為舒喘寧的類似物用來治療哮喘） 12. 簡述DNA計算機(jī)的基本原理：1)以編碼生命信息的遺傳物質(zhì)DNA序列，作為信息編碼的載體，利用DNA分子的雙螺旋結(jié)構(gòu)和堿基互補(bǔ)配對的性質(zhì)，將所要處理的問題映射為特定的DNA分子；2)在生物酶的作用下，通過可控的生化反應(yīng)生成問題的解空間；最后利用各種

51、現(xiàn)代分子生物技術(shù)如聚合酶鏈反應(yīng)RCR、超聲波降解、親和層析、分子純化、電泳、磁珠分離等手段破獲運算結(jié)果。DNA計算機(jī)優(yōu)點：低能耗、存儲容量高、運算速度快，可真正實現(xiàn)并行工作。13. 簡述DNA計算實現(xiàn)方式中，表面方式與試管方式相比具有哪些優(yōu)點？試管方式：就是在一個或多個試管的溶液里進(jìn)行生化反應(yīng)；表面方式：是將對應(yīng)的解空間的DNA分子固定在一塊固體上，其次進(jìn)行各種生化反應(yīng)，或是在表面逐步形成解空間，然后根據(jù)具體問題對所有可能的解進(jìn)行篩選，最后得到運算結(jié)果。(1)操作簡單，易于實現(xiàn)自動化操作；(2)減少人為操作過程中造成的DNA分子的丟失及其它操作失誤；(3)減少分子在表面上的相互作用，同時增強(qiáng)分

52、子間的特異性結(jié)合；(4)信息儲存密度大，據(jù)估計，10毫克DNA表面上的儲存密度是傳統(tǒng)計算姬的10的8次方倍，而在溶液中僅為10的5次方倍；(5)結(jié)果易于純化。14. 簡述PCR引物設(shè)計的基本原則及其注意要點原則：首先引物與模板的序列要緊密互補(bǔ)，其次引物與引物之間避免形成穩(wěn)定的二聚體或發(fā)夾結(jié)構(gòu)，再次引物不能再模板的非等位點引發(fā)DNA聚合反應(yīng)（即錯配）。注意要點：1、引物的長度一般為15-30bp，常用的是18-27bp，但不應(yīng)大于38，因為過長會導(dǎo)致其延伸溫度大于74，不適合于TaqDNA聚合酶進(jìn)行反應(yīng)。2、引物序列在模板內(nèi)應(yīng)當(dāng)沒有相似性較高，尤其是3端相似性較高的序列，否則容易導(dǎo)致錯配。引物3

53、端出現(xiàn)3個以上的連續(xù)堿基，如GGG或CCC，也會使錯誤引發(fā)幾率增加。3、引物3端的末位堿基對Taq酶的DNA合成效率有較大的影響。不同的末位堿基在錯配位置導(dǎo)致不同的擴(kuò)增效率，末位堿基為A的錯配效率明顯高于其他3個堿基，因此應(yīng)當(dāng)避免在引物的3端使用堿基。另外，引物二聚體或發(fā)夾結(jié)構(gòu)也可能導(dǎo)致PCR反應(yīng)失敗。5端序列對PCR影響不太大，因此常用來引進(jìn)修飾位點或標(biāo)記物。4、引物序列的GC含量一般為40-60%，過高或過低都不利于引發(fā)反應(yīng)。上下游引物的GC含量不能相差太大。5、引物所對應(yīng)模板位置序列的Tm值在72左右可使復(fù)性條件最佳。Tm值的計算有很多種方法，如按公式Tm=4(G+C)+2(A+T)，在

54、Oligo軟件中使用的是最鄰近法（thenearestneighbormethod）。6、G值是指DNA雙鏈形成所需的自由能，該值反映了雙鏈結(jié)構(gòu)內(nèi)部堿基對的相對穩(wěn)定性。應(yīng)當(dāng)選用3端G值較低（絕對值不超過9），而在5端和中間G值相對較高的引物。引物的3端的G值過高，容易在錯配位點形成雙鏈結(jié)構(gòu)并引發(fā)DNA聚合反應(yīng)。7、引物二聚體及發(fā)夾結(jié)構(gòu)的能值過高（超過4.5kcal/mol）易導(dǎo)致產(chǎn)生引物二聚體帶，并且降低引物有效濃度而使PCR反應(yīng)不能正常進(jìn)行。8、對引物的修飾一般是在5端增加酶切位點，應(yīng)根據(jù)下一步實驗中要插入PCR產(chǎn)物的載體的相應(yīng)序列而確定。15. 假設(shè)你得到一段未知基因的DNA序列，從你學(xué)習(xí)

55、到的生物信息學(xué)分析方法和軟件，設(shè)計一個分析流程來分析該未知基因的功能和家族類別（包括系統(tǒng)發(fā)育樹構(gòu)建）1、得到未知基因的DNA序列，用Blast做序列比對，找出與其基因相似的核苷酸序列和蛋白質(zhì)序列。2、接著，用搜索出來的較相似的序列用ClustW進(jìn)行多序列比對，得到該序列的保守情況和突變情況。3、最后用距離法構(gòu)建系統(tǒng)發(fā)育樹。16. 假設(shè)你得到一段未知蛋白的氨基酸序列，從你學(xué)習(xí)到的生物信息學(xué)分析方法和軟件，設(shè)計一個分析流程來分析該未知蛋白的功能和家族類別以及其結(jié)構(gòu)預(yù)測。1、用該序列進(jìn)行BLASTP搜索。2、再對其進(jìn)行蛋白質(zhì)結(jié)構(gòu)域、功能域的搜索，可以用Znterproscan、Pfam，并對其進(jìn)行結(jié)

56、構(gòu)分析。3、再用ClustW進(jìn)行多序列比對。4、用人工神經(jīng)網(wǎng)絡(luò)的方法對其結(jié)構(gòu)進(jìn)行結(jié)構(gòu)預(yù)測。 17. BLAST中，E值和P值分別是什么，它們有什么意義？答：BLAST中使用的統(tǒng)計值有概率p值和期望e值。 E期望值(E-value)這個數(shù)值表示你僅僅因為隨機(jī)性造成獲得這一比對結(jié)果的可能次數(shù)。這一數(shù)值越接近零，發(fā)生這一事件的可能性越小。從搜索的角度看，E值越小，比對結(jié)果越顯著。默認(rèn)值為10，表示比對結(jié)果中將有10個匹配序列是由隨機(jī)產(chǎn)生，如果比對的統(tǒng)計顯著性值(E值)小于該值(10)，則該比對結(jié)果將被檢出，換句話說，比較低的E值將使搜索的匹配要求更嚴(yán)格，結(jié)果報告

57、中隨機(jī)產(chǎn)生的匹配序列減少。 p值表示比對結(jié)果得到的分?jǐn)?shù)值的可信度。一般說來，p值越接近于零，則比對結(jié)果的可信度越大；相反，p值越大，則比對結(jié)果來自隨機(jī)匹配的可能性越大。 18. 什么是序列比對中使用的PAM矩陣和BLOSUM矩陣，它們的作用是什么，一般BLAST選擇使用的矩陣是什么答：PAM矩陣和BLOSUM矩陣都是用于序列相似性的記分矩陣（scoring matrix）。記分矩陣中含有對齊時具體使用的數(shù)值。一般FASTA和BLAST都提供BLOSUM或PAM系列矩陣供選擇，若要進(jìn)行突變性質(zhì)的進(jìn)化分析時可以使用PAM，F(xiàn)ASTA缺省推薦BLOSUM50矩陣。 PAM矩陣（Point Accepted Mutation

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

生物信息學(xué)_復(fù)習(xí)題及答案(打印)

文檔簡介

溫馨提示

最新文檔

評論

生物信息學(xué)_復(fù)習(xí)題及答案(打印)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔