南京工業(yè)大學《生物信息學》期末復(fù)習_第1頁
南京工業(yè)大學《生物信息學》期末復(fù)習_第2頁
南京工業(yè)大學《生物信息學》期末復(fù)習_第3頁
南京工業(yè)大學《生物信息學》期末復(fù)習_第4頁
南京工業(yè)大學《生物信息學》期末復(fù)習_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

本文格式為Word版,下載可任意編輯——南京工業(yè)大學《生物信息學》期末復(fù)習

生工1202生物信息學考試參考資料

1、生物信息學的主要應(yīng)用有哪些?

①生物信息學數(shù)據(jù)庫:數(shù)據(jù)庫建立、數(shù)據(jù)庫整合和數(shù)據(jù)挖掘②序列分析:序列比對、基因序列解釋

③其他:比較基因組學、基因和蛋白質(zhì)的表達分析、生物芯片大規(guī)模功能表達譜的分析、蛋白質(zhì)結(jié)構(gòu)的預(yù)計、蛋白質(zhì)與蛋白質(zhì)的相互作用、生物系統(tǒng)模擬、代謝網(wǎng)絡(luò)建模分析、計算機進化生物學、生物多樣性研究、合成生物學

2、生物學數(shù)據(jù)庫有哪些特點?

①數(shù)據(jù)庫的更新速度不斷加快、數(shù)據(jù)量呈指數(shù)增長②數(shù)據(jù)庫使用頻率增長更快③數(shù)據(jù)庫的繁雜程度不斷增加④數(shù)據(jù)庫網(wǎng)絡(luò)化⑤面向應(yīng)用

⑥先進的軟硬件配置

3、一級數(shù)據(jù)庫和二級數(shù)據(jù)庫的區(qū)別是什么?有哪些一級數(shù)據(jù)庫和二級數(shù)據(jù)庫?

一級數(shù)據(jù)庫屬于檔案數(shù)據(jù)庫,庫中的主要內(nèi)容是來源于試驗室操作所得到的原始數(shù)據(jù)結(jié)果;二級數(shù)據(jù)庫則是在一級數(shù)據(jù)庫的信息基礎(chǔ)上進行了計算加工處理并增加了大量人為的解釋而構(gòu)成的

一級數(shù)據(jù)庫:核酸序列數(shù)據(jù)庫GenBank、EMBL、DDBL及蛋白質(zhì)數(shù)據(jù)庫PDB二級數(shù)據(jù)庫:NCBI的RefSeq數(shù)據(jù)庫

4、數(shù)據(jù)庫的Fasta、Flatfile和XML格式各有何特點?

(1)FASTA序列格式包括三個部分:(書上沒有PPT其次章第19-20頁)1.在解釋行的第一列用字符“>〞標識,后面是序列的名字和來源;2.標準的單字符標記的序列;

3.可選的“*〞表示序列的終止,它可能出現(xiàn)也可能不出現(xiàn),但它是大量序列分析程序正確讀取序列所必需的。

提供了從一個窗口到另一個窗口十分便利的拷貝途徑,序列中沒有數(shù)字或其他非字符。從其次行開始是序列本身,標準核苷酸符號(大小寫均可)或氨基酸單字母符號(大寫)。(2)平面文件格式—FlatFile

純文本文件、通用性好、檢索繁雜,冗余字段較多,大容量數(shù)據(jù)庫難以處理(3)XML格式(PPT其次章第29、32頁)一個XML文件代表一個嵌套的信息樹。樹中的每一個節(jié)點能包含像一串子節(jié)點或者一些屬性這樣的數(shù)據(jù),并且一個XML文件始于根節(jié)點。一個XML文件有一個文本,在文本中每一個節(jié)點的內(nèi)容及其子節(jié)點被一對相互封閉的標簽劃定。形式上類似html。

5、GenBank數(shù)據(jù)庫中的GenBank條目包含哪些內(nèi)容?請結(jié)合GenBank中的

具體的序列信息加以說明。

GenBank數(shù)據(jù)庫(包括NCBI核酸和蛋白質(zhì)序列數(shù)據(jù)庫)中條目格式如下:給出描述每一個序列的信息,包括文獻參考、序列的功能信息、mRNA和編碼區(qū)域的位置,以及重要突變的位置。

例:

LOCUSnameoflocus,lengthandtypeof

sequence,

classificationoforganism,dataofentry

DEFINITIONdesicriptionofentry

ACCESSIONaccessionnumberoforiginalsourceKEYWORDSkeywordsforcrossreferencingthisentry

SOURCEsourceorganismofDNA

ORGANISMdescriptionoforganism這些序列信息以字段的形式進行組織,每一行最前端都有一個標識符。

在某些條目中,標識符可能縮寫成兩個字母(例如RF代表reference),某些字段可能還有次級字段。

計算機程序中的序列條目位于標識符“ORIGIN〞和“//〞之間。這些字段提供的信息可以參見網(wǎng)頁./Sitemap/samplerecord.html

序列每行前面標有數(shù)字,以顯示片斷位置。序列計數(shù)或序列校檢求和的值可被計算機程。用來鑒定序列成分,所以除非程序本身也改變計數(shù),序列計數(shù)是不能被改變的。GenBank序列格式尋常需要改變以適應(yīng)序列分析軟件。

6、蛋白質(zhì)序列數(shù)據(jù)庫有哪些?SWISS-PROT、PIR

7、序列比對在什么狀況下選擇核苷酸序列?在什么狀況下選擇蛋白質(zhì)序列?

核苷酸序列:①在確認給定DNA序列和DNA數(shù)據(jù)庫中的序列的一致性時②在探尋多態(tài)性時③在分析所克隆的cDNA片段的一致性時

蛋白質(zhì)序列:由于蛋白質(zhì)序列比DNA所含信息多,所以除以上狀況外用蛋白質(zhì)序列8、請比較同源性、同一性和相像性三個概念。

同源性:是指從某個共同祖先經(jīng)趨異進化而形成的不同序列,也就是從一些數(shù)據(jù)中推斷出的兩個基因在進化上具有共同祖先的結(jié)論,是質(zhì)的判斷

同一性:是指兩序列在同一位點核苷酸或氨基酸殘基完全一致的序列比例

相像性:兩序列間直接的數(shù)量關(guān)系,如部分一致,相像的百分比或其他一些適合的度量

9、舉例說明何為直系同源,何為旁系同源?

10、總結(jié)BLAST比對程序家族的主要程序,如何選擇?

11、解讀BLAST程序的比對結(jié)果所代表的含義。

(1)該探尋的詳細狀況,包括BLAST探尋的類型、所探尋的數(shù)據(jù)庫的描述、查詢內(nèi)容和分類連接(taxonomyreporter)

(2)顯示的是數(shù)據(jù)庫中與查詢序列相匹配的項的簡明圖形。每一條彩色帶表示數(shù)據(jù)庫中與查詢序列相匹配的蛋白質(zhì)或核酸序列,不同顏色表示不同高低的得分。

(3)與查詢序列相匹配的數(shù)據(jù)庫中的序列列表。每一條序列包括其Score(bits)、Evalue及該序列在相應(yīng)數(shù)據(jù)庫中的鏈接。

(4)查詢序列與目標序列之間的雙序列比對狀況。Score為位記分分數(shù);Expect為期望值;Positives為相像性分值;Identities為同一性分值;Gaps為空位。

12、如何尋覓遠緣相關(guān)的蛋白質(zhì)?

PSI-BLAST是位點特異性迭代BLAST,用來尋覓遠緣相關(guān)的蛋白質(zhì)序列,對于蛋白質(zhì)的相像序列的尋覓比常規(guī)blastp更敏感。PSI-BLAST工具的比對步驟為:

(1)用blastp在目標數(shù)據(jù)庫中進行比對探尋;

(2)從第一步中獲得的結(jié)果構(gòu)建多序列對比,根據(jù)多序列比對構(gòu)建一個位點特異性矩陣PSSM;

(3)用其次步獲得的PSSM矩陣再一次探尋目標數(shù)據(jù)庫;

(4)位點特異性反復(fù)比對后用缺失比對的參數(shù)檢驗每個匹配的統(tǒng)計顯著性;反復(fù)執(zhí)行2~4步,一般要重復(fù)5次,而當新的結(jié)果不再出現(xiàn)或者程序明確指出不會再有新的結(jié)果出現(xiàn)時,

可以中止比對循環(huán)。

13、如何利用BLAST來發(fā)現(xiàn)新基因?

(1)用一個已知序列蛋白質(zhì)開始TBLAST比對,探尋一個DNA數(shù)據(jù)庫;

(2)檢查結(jié)果:尋覓與已知蛋白質(zhì),相關(guān)蛋白質(zhì)的DNA序列匹配,非顯著序列的匹配;(3)進行BLASTXNR或BLASTPNR比對

(4)用你新發(fā)現(xiàn)的DNA或蛋白質(zhì)探尋一個蛋白質(zhì)數(shù)據(jù)庫來證明是否真的發(fā)現(xiàn)一個新的基因或蛋白質(zhì)。

14、提供了蛋白質(zhì)結(jié)構(gòu)的檢索和查詢服務(wù)的數(shù)據(jù)庫主要有哪些?

PDB數(shù)據(jù)庫、DSSP數(shù)據(jù)庫、HSSP數(shù)據(jù)庫SCOPCATH

15、簡要說明四個層次的蛋白質(zhì)結(jié)構(gòu)。

(一)一級結(jié)構(gòu)

蛋白質(zhì)的一級結(jié)構(gòu)(primarystructure)是指多肽鏈的氨基酸殘基的排列順序。(二)二級結(jié)構(gòu)

蛋白質(zhì)二級結(jié)構(gòu)(secondarystructure)是指多肽鏈主鏈原子借助于氫鍵沿一維方向排列成具有周期性的結(jié)構(gòu)構(gòu)象,是多肽鏈局部的空間結(jié)構(gòu)(構(gòu)象)主要有α螺旋、β折疊、β轉(zhuǎn)角、無規(guī)卷曲等形式(三)超二級結(jié)構(gòu)、結(jié)構(gòu)域

超二級結(jié)構(gòu)(supersecondarystructure)是指相鄰的二級結(jié)構(gòu)單元組合在一起,彼此相互作用,排列形成規(guī)則的、在空間結(jié)構(gòu)上能夠鑒別的二級結(jié)構(gòu)組合體,同時充當三級結(jié)構(gòu)的構(gòu)件,基本形式有αα、ββ、βαβ等。(四)三級結(jié)構(gòu)

三級結(jié)構(gòu)(tertiarystructure)是指整條多肽鏈的三維結(jié)構(gòu),包括骨架和側(cè)鏈在內(nèi)的所有原子的空間排列。(五)四級結(jié)構(gòu)e

四級結(jié)構(gòu)(quatrnarystructure)指在亞基和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論