




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、、名詞解釋:1 .生物信息學(xué):研究大量生物數(shù)據(jù)復(fù)雜關(guān)系的學(xué)科,其特征是多學(xué)科交叉,以互聯(lián)網(wǎng)為媒介,數(shù)據(jù)庫(kù)為載體。利用數(shù)學(xué)知識(shí)建立各種數(shù)學(xué)模型; 利用計(jì)算機(jī)為工具對(duì)實(shí)驗(yàn)所得大量生物學(xué)數(shù)據(jù)進(jìn)行儲(chǔ)存、檢索、 處理及分析,并以生物學(xué)知識(shí)對(duì)結(jié)果進(jìn)行解釋。2 . 二級(jí)數(shù)據(jù)庫(kù):在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定目標(biāo)衍生而來(lái),是對(duì)生物學(xué)知識(shí)和信息的進(jìn)一步的整理。序列格式:是將 DNA 或者蛋白質(zhì)序列表示為一個(gè)帶有一些標(biāo)記的核苷酸或者氨基酸字符串,大于號(hào)()表示一個(gè)新文件的開(kāi)始,其他無(wú)特殊要求。序列格式:是 GenBank 數(shù)據(jù)庫(kù)的基本信息單位,是最為廣泛的生物信息學(xué)序列格式之一。該文件格式按域劃
2、分為4 個(gè)部分:第一部分包含整個(gè)記錄的信息(描述符);第二部分包含注釋;第三部分是引文區(qū),提供了這個(gè)記錄的科學(xué)依據(jù);第四部分是核苷酸序列本身,以“詢序列(query sequence) :也稱被檢索序列,用來(lái)在數(shù)據(jù)庫(kù)中檢索并進(jìn)行相似性比較的序列。P988 .打分矩陣(scoring matrix ): 在相似性檢索中對(duì)序列兩兩比對(duì)的質(zhì)量評(píng)估方法。包括基于理論(如考慮核酸和氨基酸之間的類似性)和實(shí)際進(jìn)化距離(如PAM)兩類方法。P299 .空位(gap):在序列比對(duì)時(shí),由于序列長(zhǎng)度不同,需要插入一個(gè)或幾個(gè)位點(diǎn)以取得最佳比對(duì)結(jié)果,這樣在其中一序列上產(chǎn)生中斷現(xiàn)象,這些中斷的位點(diǎn)稱為空位。P2910
3、.空位罰分:空位罰分是為了補(bǔ)償插入和缺失對(duì)序列相似性的影響,序列中的空位的引入不代表真正的進(jìn)化事件,所以要對(duì)其進(jìn)行罰分,空位罰分的多少直接影響對(duì)比的結(jié)果。P37值:衡量序列之間相似性是否顯著的期望值。E值大小說(shuō)明了可以找到與查詢序列( query)相匹配的隨機(jī)或無(wú)關(guān)序列的概率,E 值越接近零,越不可能找到其他匹配序列,E 值越小意味著序列的相似性偶然發(fā)生的機(jī)會(huì)越小,也即相似性越能反映真實(shí)的生物學(xué)意義。P9512 .低復(fù)雜度區(qū)域:BLASTS索的過(guò)濾選項(xiàng)。指序列中包含的重復(fù)度高的區(qū)域,如 poly (A)。13 .點(diǎn)矩陣(dot matrix ):構(gòu)建一個(gè)二維矩陣,其X軸是一條序列,Y軸是另一個(gè)
4、序列,然后在2個(gè)序列相同堿基的對(duì)應(yīng)位置(x, y)加點(diǎn),如果兩條序列完全相同則會(huì)形成一條主對(duì)角線,如果兩條序列相似則會(huì)出現(xiàn)一條或者幾條直線; 如果完全沒(méi)有相似性則不能連成直線。14 .多序列比對(duì):通過(guò)序列的相似性檢索得到許多相似性序列,將這些序列做一個(gè)總體的比對(duì),以觀察它們?cè)诮Y(jié)構(gòu)上的異同,來(lái)回答大量的生物學(xué)問(wèn)題。15 .分子鐘:認(rèn)為分子進(jìn)化速率是恒定的或者幾乎恒定的假說(shuō),從而可以通過(guò)分子進(jìn)化推斷出物種起源的時(shí)間。16 .系統(tǒng)發(fā)育分析:通過(guò)一組相關(guān)的基因或者蛋白質(zhì)的多序列比對(duì)或其他性狀,可以研究推斷不同物種或基因之間的進(jìn)化關(guān)系。17 .進(jìn)化樹(shù)的二歧分叉結(jié)構(gòu):指在進(jìn)化樹(shù)上任何一個(gè)分支節(jié)點(diǎn),一個(gè)父分
5、支都只能被分成兩個(gè)子分支。系統(tǒng)發(fā)育圖:用枝長(zhǎng)表示進(jìn)化時(shí)間的系統(tǒng)樹(shù)稱為系統(tǒng)發(fā)育圖,是引入時(shí)間概念的支序圖。18 .直系同源:指由于物種形成事件來(lái)自一個(gè)共同祖先的不同物種中的同源序列,具有相似或不同的功能。(書(shū):在缺乏任何基因復(fù)制證據(jù)的情況下,具有共同祖先和相同功能的同源基因。)19 .旁系(并系)同源:指同一個(gè)物種中具有共同祖先,通過(guò)基因重復(fù)產(chǎn)生的一組基因,這些基因在功能上可能發(fā)生了改變。(書(shū):由于基因重復(fù)事件產(chǎn)生的相似序列。)20 .外類群:是進(jìn)化樹(shù)中處于一組被分析物種之外的,具有相近親緣關(guān)系的物種。21 .有根樹(shù):能夠確定所有分析物種的共同祖先的進(jìn)化樹(shù)。22 .除權(quán)配對(duì)算法( UPGMA):
6、 最初,每個(gè)序列歸為一類,然后找到距離最近的兩類將其歸為一類,定義為一個(gè)節(jié)點(diǎn),重復(fù)這個(gè)過(guò)程,直到所有的聚類被加入,最終產(chǎn)生樹(shù)根。23 .鄰接法(neighbor-joining method ) :是一種不僅僅計(jì)算兩兩比對(duì)距離,還對(duì)整個(gè)樹(shù)的長(zhǎng)度進(jìn)行最小化,從而對(duì)樹(shù)的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制,能夠克服UPGMA算法要求進(jìn)化速率保持恒定的缺陷。24 .最大簡(jiǎn)約法( MP) :在一系列能夠解釋序列差異的的進(jìn)化樹(shù)中找到具有最少核酸或氨基酸替換的進(jìn)化樹(shù)。25 .最大似然法(ML): 它對(duì)每個(gè)可能的進(jìn)化位點(diǎn)分配一個(gè)概率,然后綜合所有位點(diǎn),找到概率最大的進(jìn)化樹(shù)。最大似然法允許采用不同的進(jìn)化模型對(duì)變異進(jìn)行分析評(píng)估,并
7、在此基礎(chǔ)上構(gòu)建系統(tǒng)發(fā)育樹(shù)。26 .一 致樹(shù)( consensus tree) :在同一算法中產(chǎn)生多個(gè)最優(yōu)樹(shù),合并這些最優(yōu)樹(shù)得到的樹(shù)即一致樹(shù)。27 .自舉法檢驗(yàn)(Bootstrap ):放回式抽樣統(tǒng)計(jì)法。通過(guò)對(duì)數(shù)據(jù)集多次重復(fù)取樣,構(gòu)建多個(gè)進(jìn)化樹(shù),用來(lái)檢查給定樹(shù)的分枝可信度。28 .開(kāi)放閱讀框(ORF) :開(kāi)放閱讀框是基因序列的一部分,包含一段可以編碼蛋白的堿基序列。29 .密碼子偏好性(codon bias):氨基酸的同義密碼子的使用頻率與相應(yīng)的同功tRNA的水平相一致,大多數(shù)高效表達(dá)的基因僅使用那些含量高的同功tRNA所對(duì)應(yīng)的密碼子,這種效應(yīng)稱為密碼子偏好性。30 .基因預(yù)測(cè)的從頭分析:依據(jù)綜
8、合利用基因的特征,如剪接位點(diǎn),內(nèi)含子與外顯子邊界,調(diào)控區(qū),預(yù)測(cè)基因組序列中包含的基因。31 .結(jié)構(gòu)域(domain) : 保守的結(jié)構(gòu)單元,包含獨(dú)特的二級(jí)結(jié)構(gòu)組合和疏水內(nèi)核,可能單獨(dú)存在,也可能與其他結(jié)構(gòu)域組合。相同功能的同源結(jié)構(gòu)域具有序列的相似性。32 . 超家族:進(jìn)化上相關(guān),功能可能不同的一類蛋白質(zhì)。33 .模體(motif) : 短的保守的多肽段,含有相同模體的蛋白質(zhì)不一定是同源的,一般10-20 個(gè)殘基。34 . 序列表譜(profile ) :是一種特殊位點(diǎn)或模體序列,在多序列比較的基礎(chǔ)上,氨基酸的權(quán)值和空位罰分的表格。矩陣: PAM 指可接受突變百分率。一個(gè)氨基酸在進(jìn)化中變成另一種氨
9、基酸的可能性,通過(guò)這種可能性可以鑒定蛋白質(zhì)之間的相似性,并產(chǎn)生蛋白質(zhì)之間的比對(duì)。一個(gè)PAM 單位是蛋白質(zhì)序列平均發(fā)生1%的替代量需要的進(jìn)化時(shí)間。矩陣: 模塊替代矩陣。矩陣中的每個(gè)位點(diǎn)的分值來(lái)自蛋白比對(duì)的局部塊中的替代頻率的觀察。每個(gè)矩陣適合特定的進(jìn)化距離。仞0口,在 BLOSUM62矩陣中,比對(duì)的分值來(lái)自不超過(guò)62%一致率的一組序列。:位點(diǎn)特異性迭代比對(duì)。是一種專門(mén)化的的比對(duì),通過(guò)調(diào)節(jié)序列打分矩陣(scoring matrix )探測(cè)遠(yuǎn)緣相關(guān)的蛋白。: 給出了對(duì)應(yīng)于基因和蛋白質(zhì)的索引號(hào)碼,對(duì)應(yīng)于最穩(wěn)定、最被人承認(rèn)的Genbank 序列。(Protein Data Bank): PDB中收錄了大
10、量通過(guò)實(shí)驗(yàn)(X射線晶體衍射,核磁共振 NMR)測(cè)定的生物大分子的三維結(jié)構(gòu),記錄有原子坐標(biāo)、配基的化學(xué)結(jié)構(gòu)和晶體結(jié)構(gòu)的描述等。PDB數(shù)據(jù)庫(kù)的訪問(wèn)號(hào)由一個(gè)數(shù)字和三個(gè)字母組成(如,4HHB),同時(shí)支持關(guān)鍵詞搜索,還可以FAST曜序進(jìn)行搜索。:是由GenBank中的DNA序列翻譯得到的蛋白質(zhì)序列。數(shù)據(jù)量很大,且隨核酸序列數(shù)據(jù)庫(kù)的更新而更新,但它們均是由核酸序列翻譯得到的序列,未經(jīng)試驗(yàn)證實(shí),也沒(méi)有詳細(xì)的注釋。41 .折疊子(Fold) : 在兩個(gè)或更多的蛋白質(zhì)中具有相似二級(jí)結(jié)構(gòu)的大區(qū)域,這些大區(qū)域具有特定的空間取向。:是與SWISS-PROT1關(guān)的一個(gè)數(shù)據(jù)庫(kù)。包含從EMBL核酸數(shù)據(jù)庫(kù)中根據(jù)編碼序列 (C
11、DS硼譯而得到的蛋白質(zhì)序列,并且這些序列尚未集成到 SWISS-PRO散據(jù)庫(kù)中。(Molecular Modeling Database):是(NCBD所開(kāi)發(fā)的生物信息數(shù)據(jù)庫(kù)集成系統(tǒng)Entrez的一個(gè)部分,數(shù)據(jù)庫(kù)的內(nèi)容包括來(lái)自于實(shí)驗(yàn)的生物大分子結(jié)構(gòu)數(shù)據(jù)。與PDB相比,對(duì)于數(shù)據(jù)庫(kù)中的每一個(gè)生物大分子結(jié)構(gòu),MMDB具有許多附加的信息,如分子的生物學(xué)功能、產(chǎn)生功能的機(jī)制、分子的進(jìn)化歷史等,還提供生物大分子三維結(jié)構(gòu)模型顯示、結(jié)構(gòu)分析和結(jié)構(gòu)比較工具。數(shù)據(jù)庫(kù):提供關(guān)于已知結(jié)構(gòu)的蛋白質(zhì)之間結(jié)構(gòu)和進(jìn)化關(guān)系的詳細(xì)描述,包括蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù) PDB中的所有條目。SCOP數(shù)據(jù)庫(kù)除了提供蛋白質(zhì)結(jié)構(gòu)和進(jìn)化關(guān)系信息外,又
12、于每一個(gè)蛋白質(zhì)還包括下述信息:到PDB的連接,序列,參考文獻(xiàn),結(jié)構(gòu)的圖像等。可以按結(jié)構(gòu)和進(jìn)化關(guān)系對(duì)蛋白質(zhì)分類,分類結(jié)果是一個(gè)具有層次結(jié)構(gòu)的樹(shù),其主要的層次依次是類(class)、折疊子(fold)、超家族(super family)、家族(family)、單個(gè)PDB蛋白結(jié)構(gòu)記錄。:是蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫(kù),包含具有生物學(xué)意義的位點(diǎn)、模式、可幫助識(shí)別蛋白質(zhì)家族的統(tǒng)計(jì)特征。PROSITE中涉及的序列模式包括酶的催化位點(diǎn)、配體結(jié)合位點(diǎn)、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合白區(qū)域等;PROSITE3E包括根據(jù)多序列比對(duì)而構(gòu)建的序列統(tǒng)計(jì)特征,能更敏感地發(fā)現(xiàn)一個(gè)序列是否具有相
13、應(yīng)的特征。Ontology 協(xié)會(huì): 編輯一組動(dòng)態(tài)的、可控的基因產(chǎn)物不同方面性質(zhì)的字匯的協(xié)會(huì)。從 3 個(gè)方面描述基因產(chǎn)物的性質(zhì),即,分子功能,生物過(guò)程,細(xì)胞區(qū)室。47 .表譜(PSSM) :指一張基于多序列比對(duì)的打分表,表示一個(gè)蛋白質(zhì)家族,可以用來(lái)搜索序列數(shù)據(jù)庫(kù)。48 .比較基因組學(xué):是在基因組圖譜和測(cè)序的基礎(chǔ)上,利用某個(gè)基因組研究獲得的信息推測(cè)其他原核生物、真核生物類群中的基因數(shù)目、位置、功能、表達(dá)機(jī)制和物種進(jìn)化的學(xué)科。49 .簡(jiǎn)約信息位點(diǎn):指基于 DNA 或蛋白質(zhì)序列,利用最大簡(jiǎn)約法構(gòu)建系統(tǒng)發(fā)育樹(shù)時(shí),如果每個(gè)位點(diǎn)的狀態(tài)至少存在兩種,每種狀態(tài)至少出現(xiàn)兩次的位點(diǎn)。其它位點(diǎn)為都是非簡(jiǎn)約性信息位點(diǎn)。
14、4. 一致序列:這些序列是指把多序列聯(lián)配的信息壓縮至單條序列,主要的缺點(diǎn)是除了在特定位置最常見(jiàn)的殘基之外,它們不能表示任何概率信息。5. HMM 隱馬爾可夫模型:一種統(tǒng)計(jì)模型,它考慮有關(guān)匹配、錯(cuò)配和間隔的所有可能的組合來(lái)生成一組序列排列。(課件定義)是蛋白質(zhì)結(jié)構(gòu)域家族序列的一種嚴(yán)格的統(tǒng)計(jì)模型,包括序列的匹配,插入和缺失狀態(tài),并根據(jù)每種狀態(tài)的概率分布和狀態(tài)間的相互轉(zhuǎn)換來(lái)生成蛋白質(zhì)序列。6. 信息位點(diǎn):由位點(diǎn)產(chǎn)生的突變數(shù)目把其中的一課樹(shù)與其他樹(shù)區(qū)分開(kāi)的位點(diǎn)。7. 非信息位點(diǎn):對(duì)于最大簡(jiǎn)約法來(lái)說(shuō)沒(méi)有意義的點(diǎn)。8. 標(biāo)度樹(shù):分支長(zhǎng)度與相鄰節(jié)點(diǎn)對(duì)的差異程度成正比的樹(shù)。9. 非標(biāo)度樹(shù):只表示親緣關(guān)系無(wú)差異
15、程度信息。10. 有根樹(shù):?jiǎn)我坏墓?jié)點(diǎn)能指派為共同的祖先,從祖先節(jié)點(diǎn)只有唯一的路徑歷經(jīng)進(jìn)化到達(dá)其他任何節(jié)點(diǎn)。11. 無(wú)根樹(shù):只表明節(jié)點(diǎn)間的關(guān)系,無(wú)進(jìn)化發(fā)生方向的信息,通過(guò)引入外群或外部參考物種,可以在無(wú)根樹(shù)中指派根節(jié)點(diǎn)。18. 質(zhì)譜(MS)是一種準(zhǔn)確測(cè)定真空中離子的分子質(zhì)量/電荷比(m/z)的方法,從而使分子質(zhì)量的準(zhǔn)確確定成為可能。質(zhì)譜分析的兩個(gè)工具19. 分子途徑是指一組連續(xù)起作用以達(dá)到共同目標(biāo)的蛋白質(zhì)。20. 虛擬細(xì)胞:一種建模手段,把細(xì)胞定義為許多結(jié)構(gòu),分子,反應(yīng)和物質(zhì)流的集合體。21. 先導(dǎo)化合物:是指具有一定藥理活性的、可通過(guò)結(jié)構(gòu)改造來(lái)優(yōu)化其藥理特性而可能導(dǎo)致藥物發(fā)現(xiàn)的特殊化合物。就是
16、利用計(jì)算機(jī)在含有大量化合物三維結(jié)構(gòu)的數(shù)據(jù)庫(kù)中,搜索能與生物大分子靶點(diǎn)匹配的化合物,或者搜索能與結(jié)合藥效團(tuán)相符的化合物,又稱原型物,簡(jiǎn)稱先導(dǎo)物,是通過(guò)各種途徑或方法得到的具有生物活性的化學(xué)結(jié)構(gòu)22. 權(quán)重矩陣(序列輪廓):它們表示完全結(jié)構(gòu)域序列,多序列聯(lián)配中每個(gè)位點(diǎn)的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(課件定義)?;A(chǔ)上針對(duì)特定的應(yīng)用目標(biāo)而建立的數(shù)據(jù)庫(kù)。23. 系統(tǒng)發(fā)育學(xué)(phylogenetic) :確定生物體間進(jìn)化關(guān)系的科學(xué)分支。24. 系統(tǒng)生物學(xué)(systems biology):是研究一個(gè)生物系統(tǒng)中所有組分成分(基因、mRNA、蛋白質(zhì)等)的構(gòu)成以及在特定條件
17、下這些組分間的相互關(guān)系,并分析生物系統(tǒng)在一定時(shí)間內(nèi)的動(dòng)力學(xué)過(guò)程25. 蛋白質(zhì)組(proteome ) :是指一個(gè)基因組、一種生物或一個(gè)細(xì)胞/組織的基因組所表達(dá)的全套蛋白質(zhì)。26. ESI電噴霧離子化:一種適合大分子如蛋白質(zhì)離子化沒(méi)有明顯降解的質(zhì)譜技術(shù)。1. 鳥(niǎo)槍法測(cè)序(shotgun method )一種測(cè)序方法,包括從基因組中獲得隨機(jī)的、已測(cè)序的克隆片段,并且對(duì)初始基因的位置一無(wú)所知。2. BLAST: 基本局部相似性比對(duì)搜索工具。在序列數(shù)據(jù)庫(kù)中快速查找與給定的序列具有最優(yōu)局部對(duì)準(zhǔn)結(jié)果的序列的一種序列對(duì)算法。3. 整體聯(lián)配(global alignment ) :對(duì)兩個(gè)核苷酸或蛋白質(zhì)序列的全
18、長(zhǎng)所進(jìn)行的比對(duì)。4. FASTA是第一個(gè)被廣泛使用的數(shù)據(jù)庫(kù)相似性搜索算法,這個(gè)程序通過(guò)掃描序列中“詞”的小配對(duì),從而尋找最優(yōu)局部比對(duì)。5. 算法( algorithm ) :在計(jì)算機(jī)程序中包含的一種固定過(guò)程。6. 序列比對(duì)(alignment) :將兩個(gè)或多個(gè)序列排在一起,以達(dá)到最大一致性的過(guò)程(對(duì)于氨基酸序列是比較他們的保守性),這樣 評(píng)估序列間的相似性和同源性。7. 多序列比對(duì)(multiple sequence alignment ) :三個(gè)或多個(gè)序列之間的比對(duì),如果序列在同一列有相同結(jié)構(gòu)位置的殘基和(或)祖?zhèn)鞯臍埢瑒t會(huì)在該位置插入空位。8. 最佳聯(lián)配(optimal alignmen
19、t ) :兩個(gè)序列之間有最高打分值的排列。9. 空位(gap) :在兩條序列比對(duì)過(guò)程中需要在檢測(cè)序列或目標(biāo)序列中引入空位,以表示插入或刪除。10. 模塊替換矩陣(BLUSUM)在替換矩陣中,每個(gè)位置的打分是在相關(guān)蛋白局部比對(duì)模塊中觀察到的替換的頻率而獲得的,每個(gè)矩陣被修改成一個(gè)特殊的進(jìn)化距離。11. 可接受點(diǎn)突變(PAM) 一個(gè)用于衡量蛋白質(zhì)序列的進(jìn)化突變程度的單位。12. 互補(bǔ)序列(complementary sequence)能夠與其他 DNA片段根據(jù)堿基互補(bǔ)序列(A與T配對(duì),G與C配對(duì))形成兩 練結(jié)構(gòu)的核苷酸序列。13. 保守序列(conserved sequence)指DNA分子中的一
20、個(gè)核甘酸片段或者蛋白質(zhì)中氨基酸片段,它們?cè)谶M(jìn)化過(guò)程中基本保持不變。14. 鄰接片段(contig)與支架(scaffold)15. 鄰接片段:一組在染色體上有重疊區(qū)域的DNA 片段的克??;16. 支架:由序列重疊群拼接而成。17. 注釋( annotation )對(duì)數(shù)據(jù)庫(kù)中原始的DNA 堿基序列添加相關(guān)信息(比如編碼的基因,氨基酸序列等)或其他的注解。18. 基因預(yù)測(cè)(gene prediction )用計(jì)算機(jī)程序?qū)赡艿幕蛩龅念A(yù)測(cè),它是基于DNA片段與已知基因序列的匹配程度的。19. 直系同源(Orthologous )指不同種類的同源序列,他們是在物種的形成事件中從一個(gè)祖先序列獨(dú)立進(jìn)化
21、而成的,可能有相似功能,也可能沒(méi)有。20. 旁系同源(paralogous)是通過(guò)類似基因復(fù)制的機(jī)制產(chǎn)生的同源序列。21. 替換( substitution )在指定的位置不相同的氨基酸進(jìn)行連配,如果聯(lián)配的殘基有相似的物化性質(zhì),那么替換是保守的。22. 表達(dá)序列標(biāo)簽(EST 一種短的DNA片段,是cDNA分子的一部分,可用來(lái)鑒定基因,通常用于基因定位和基因圖譜 中。23. 多態(tài)性(PolyMorphism )多個(gè)個(gè)體之間 DNA的差異叫多態(tài)性。24. 基因預(yù)測(cè)(Gene Prediction ) 同 1925. 序列模式(Motif )蛋白質(zhì)序列中短的保守區(qū)域,它們是結(jié)構(gòu)域中保守性很高的部分。
22、26. 結(jié)構(gòu)域(domain ) :蛋白質(zhì)在折疊時(shí)候與其它部分相獨(dú)立的一個(gè)不連續(xù)部分,他有自己獨(dú)特的功能。27. 開(kāi)放閱讀框(ORF)位于DNA或RNA上起始密碼子與終止密碼子之間的序列。28. 表達(dá)譜(profile )一個(gè)顯示某個(gè)同源家族中指定位置打分值和空位罰分的表格,可以用于搜索序列數(shù)據(jù)庫(kù)。29. 分子鐘(molecular clock )對(duì)于每一個(gè)給定基因(或蛋白質(zhì))其分子進(jìn)化率大致是恒定的。30. 系統(tǒng)發(fā)生(phylogeny) 是指生物種族的進(jìn)化歷史,亦即生物體在整個(gè)進(jìn)化譜31. 分子進(jìn)化樹(shù)(molecular evolutionary tree) 在研究 生物 進(jìn)化和系統(tǒng)分類中
23、,常用一種類似樹(shù)狀分支的圖形來(lái)概括各種(類)生物之間的親緣關(guān)系,這種樹(shù)狀分支的圖形成為系統(tǒng)發(fā)育樹(shù)(phylogenetic tree) 。一、選擇題 :1 .以下哪一個(gè)是 mRNA 條目序列號(hào):A. J01536 . NM_15392 C. NP_52280 D. AAB1345062 . 確定某個(gè)基因在哪些組織中表達(dá)的最直接獲取相關(guān)信息方式是: . UnigeneB. Entrez C. LocusLink D.PCR3. 一個(gè)基因可能對(duì)應(yīng)兩個(gè) Unigene簇嗎4. 下面哪種數(shù)據(jù)庫(kù)源于 mRNA信息:5. 下面哪個(gè)數(shù)據(jù)庫(kù)面向人類疾病構(gòu)建:可能 B. 不可能dbESTB. PDB C. OM
24、IM D. HTGSA. EST B. PDB . OMIM D. HTGS6 . Refseq和GenBank有什么區(qū)另1J:A. Refseq包括了全世界各個(gè)實(shí)驗(yàn)室和測(cè)序項(xiàng)目提交的DNA序列B. GenBank提供的是非冗余序列. Refseq源于GenBank,提供非冗余序列信息 D. GenBank源于Refseq7 . 如果你需要查詢文獻(xiàn)信息,下列哪個(gè)數(shù)據(jù)庫(kù)是你最佳選擇:A. OMIM B. Entrez PubMed D.PROSITE8 .比較從Entrez和ExPAS并提取有關(guān)蛋白質(zhì)序列信息的方法,下列哪種說(shuō)法正確:A.因?yàn)镚enBank的數(shù)據(jù)比EMBL更多,Entrez給出的
25、搜索結(jié)果將更多 B.搜索結(jié)果很可能一樣,因?yàn)?GenBank和EMBL的序列數(shù)據(jù)實(shí)際一樣搜索結(jié)果應(yīng)該相當(dāng),但是 ExPAS沖的SwissProt記錄的輸出格式不同9 . 天冬酰胺、色氨酸和酪氨酸的單字母代碼分別對(duì)應(yīng)于: N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W10 . 直系同源定義為: 不同物種中具有共同祖先的同源序列B. 具有較小的氨基酸一致性但是有較大的結(jié)構(gòu)相似性的同源序列C. 同一物種中由基因復(fù)制產(chǎn)生的同源序列D. 同一物種中具有相似的并且通常是冗余的功能的同源序列11 . 下列那個(gè)氨基酸最不容易突變:A. 丙氨酸 B. 谷氨酰胺C. 甲硫氨酸 半胱氨酸12 .
26、PAM250 矩陣定義的進(jìn)化距離為兩同源序列在給定的時(shí)間有多少百分比的氨基酸發(fā)生改變:A. 1% B. 20% .80% D. 250%13 .下列哪個(gè)句子最好的描述了兩個(gè)序列全局比對(duì)和局部比對(duì)的不同:A.全局比對(duì)通常用于比對(duì) DNA序列,而局部比對(duì)通常用于比對(duì)蛋白質(zhì)序列B. 全局比對(duì)允許間隙,而局部比對(duì)不允許C. 全局比對(duì)尋找全局最大化,而局部比對(duì)尋找局部最大化 全局比對(duì)比對(duì)整體序列,而局部比對(duì)尋找最佳匹配子序列14 .假設(shè)你有兩條遠(yuǎn)源相關(guān)蛋白質(zhì)序列。為了比較它們,最好使用下列哪個(gè)BLOSUM和PAM矩陣: BLOSUM45和PAM250B. BLOSUM4麗 PAM 1 C. BLOSUM
27、8解口 PAM250D. BLOSUM1而 PAM115 . 與 PAM 打分矩陣比較,BLOSUM 打分矩陣的最大區(qū)別是:A. 最好用于比對(duì)相關(guān)性高的蛋白B. 它是基于近相關(guān)蛋白的全局多序列比對(duì) 它是基于遠(yuǎn)相關(guān)蛋白的局部多序列比對(duì)D. 它結(jié)合了全局比對(duì)和局部比對(duì)16 .如果有一段DNA序列,它可能編碼多少種蛋白質(zhì)序列:A. 1 B. 2 C. 3. 617 .要在數(shù)據(jù)庫(kù)查tij一段與某 DNA序列編碼蛋白質(zhì)最相似的序列,應(yīng)選擇:A. blastn B. blastp C. tblastn D. tblastp blastx18 .為什么ClustalW (一個(gè)采用了 Feng-Doolitt
28、le漸進(jìn)比對(duì)算法的程序)不報(bào)告 E值:A. ClustalW報(bào)告E值 使用了全局比對(duì)C. 使用了局部比對(duì)D. 因?yàn)槭嵌嘈蛄斜葘?duì)19 . Feng-Doolittle方法提出“一旦是空隙,永遠(yuǎn)是空隙”規(guī)則的依據(jù)是:A.保證空隙不會(huì)引物序列加入而填充B.假定進(jìn)化早期分歧的序列有較高優(yōu)先級(jí)別 假定最近序列空隙應(yīng)該保留D.假定最遠(yuǎn)序列空隙應(yīng)該保留20 .根據(jù)分子鐘假說(shuō): A.所有蛋白質(zhì)都保持一個(gè)相同的恒定進(jìn)化速率B.所有蛋白質(zhì)的進(jìn)化速率都與化石記錄相符合C.對(duì)于每一個(gè)給定的蛋白質(zhì),分子進(jìn)化的速率是逐漸減慢的,就如同不準(zhǔn)時(shí)的鐘對(duì)于每一個(gè)給定的蛋白質(zhì),其分子進(jìn)化的速率在所有的進(jìn)化分支上大致是恒定21 .系
29、統(tǒng)發(fā)生樹(shù)的兩個(gè)特征是:A.進(jìn)化分支和進(jìn)化節(jié)點(diǎn)樹(shù)的拓?fù)浣Y(jié)構(gòu)和分支長(zhǎng)度 C.進(jìn)化分支和樹(shù)根 D.序列比對(duì)和引導(dǎo)檢測(cè)方法22 .下列哪一個(gè)是基于字母特征的系統(tǒng)發(fā)生分析的算法:A.鄰位連接法(NJ法)B. Kimura算法最大似然法(ML)D.非加權(quán)平均法(UPGMA)23 .基于字母特征和基于距離的系統(tǒng)發(fā)生分析的算法的基本差異是:基于字母特征的算法沒(méi)有定義分支序列的中間數(shù)據(jù)矩陣B.基于字母特征的算法可應(yīng)用于DNA或者蛋白質(zhì)序列,而基于距離僅能用于DNA C.基于字母特征的算法無(wú)法運(yùn)用簡(jiǎn)約算法 D.基于字母特征的算法的進(jìn)化分支與進(jìn)化時(shí)間無(wú)關(guān)24.25.26.一個(gè)操作分類單元(OTU)可指: 構(gòu)建進(jìn)化樹(shù)
30、最直接的錯(cuò)誤來(lái)源是: 因的進(jìn)化關(guān)系第一個(gè)被完整測(cè)定的基因組序列是:A.多序列比對(duì)多序列比對(duì)錯(cuò)誤A.啤酒酵母的27.28.29.蛋白質(zhì)序列C.進(jìn)化分支D.進(jìn)化節(jié)點(diǎn)B.采樣的算法差異C.假設(shè)進(jìn)化分支是單一起源D.嘗試推測(cè)基普通的真核生物線粒體基因組編碼大約多少個(gè)蛋白質(zhì):根據(jù)基因組序列預(yù)測(cè)蛋白質(zhì)編碼基因的算法的最大問(wèn)題是:3號(hào)染色體B.流感病毒 10B. 100A.軟件太難使用顯子的序列部分被錯(cuò)誤指定C.假陽(yáng)性率太高,許多不是外顯子功能未知位點(diǎn)HIV病毒亞型的系統(tǒng)演化研究可以:A.證實(shí)HIV病毒是由牛病毒演化而來(lái)C.證實(shí)哪些人類組織最容易遭受病毒侵染 中X174D.人類基因組C.1000 D.100
31、00.假陽(yáng)性率太高,許多不是外D.假陰性率太高,丟失太多外顯子.用于指導(dǎo)開(kāi)發(fā)針對(duì)保守蛋白的疫苗30.31.細(xì)菌基因組與真核生物基因組分析工具存在較大差異的主要原因是:A.細(xì)菌擁有不同的密碼子B.細(xì)菌沒(méi)有細(xì)胞核C.細(xì)菌很少有基因與真核同源細(xì)菌DNA的基因含量、組成結(jié)構(gòu)很不一樣一個(gè)典型的細(xì)菌基因組大小約為多少bp: A. 20000 . 200000 C. 2000000 D.32 .下列具有最小基因組的原核生物可能是:A.嗜極生物B.病毒 胞內(nèi)細(xì)菌D.桿菌33 .要證明某大腸桿菌中的某個(gè)基因是水平轉(zhuǎn)移而來(lái),需要:A.分析該大腸桿菌中該基因的 GC含量與其他基因是否有很大差異B.分析該大腸桿菌中該
32、基因的密碼子使用與其他基因是否有很大差異C.系統(tǒng)發(fā)生分析該基因與其他物種中基因的同源關(guān)系獲取以上三個(gè)方面的信息34 . C值矛盾是指:A.某些基因組中核甘酸 C的含量少B.真核生物基因組大小同編碼蛋白質(zhì)的基因個(gè)數(shù)沒(méi)有相關(guān)性真核生物基因組大小同屋中的復(fù)雜性相關(guān)性很小D.真核生物基因組大小同進(jìn)化上的年齡相關(guān)性小35 .成百上千個(gè)48bp的重復(fù)序列單元最可能出現(xiàn)在:A.散布性重復(fù)序列中B.假基因中端粒中D.片段復(fù)制區(qū)域36 .從頭預(yù)測(cè)真核基因的原因有:A.外顯子/內(nèi)含子邊界難以確定 B.內(nèi)含子長(zhǎng)度可能只有幾個(gè)堿基對(duì)C.編碼區(qū)域的GC含量并不總是與非編碼區(qū)相同以上三個(gè)方面的原因37 .人類基因組大小大
33、約是多少 Mb: A. 130 B. 300 H3000 D. 3000038 .各種重復(fù)元件在人類基因組中大約占的百分比為:A. 5% B. 25% 50% D. 95%39 .蛋白質(zhì)編碼區(qū)域占人類基因組百分比是: 1-5% B. 5-10% C. 10-20% D. 20-4-%40 .人類基因組中GC含量高的區(qū)域:A.基因密度相對(duì)較低基因密度相對(duì)較高 C.基因密度多變D.基因所含密碼子相對(duì)較少41 .人類復(fù)合孟德?tīng)栠z傳的基因疾病約占疾病基因的: 1% B. 10% C. 50% D. 60%42 .單基因疾病趨向于:在普通人群較少見(jiàn),并且發(fā)生時(shí)間較早B.在普通人群較常見(jiàn),并且發(fā)生時(shí)間較早
34、C.在普通人群較少見(jiàn),并且發(fā)生時(shí)間較晚D.在普通人群較常見(jiàn),并且發(fā)生時(shí)間較晚二.填空題1 .常用的三種序列格式:NBRF/PIR,FASTA口 GDE2 .初級(jí)序列數(shù)據(jù)庫(kù):GenBank, EMBL和DDBJ3 .蛋白質(zhì)序列數(shù)據(jù)庫(kù):SWISS-PRO麗TrEMBL4 .提供蛋白質(zhì)功能注釋信息的數(shù)據(jù)庫(kù):KEGG (京都基因和基因組百科全書(shū))和PR (蛋白質(zhì)信息資源)5 .目前由NCBI維護(hù)的大型文獻(xiàn)資源是PubMed6 .數(shù)據(jù)庫(kù)常用的數(shù)據(jù)檢索工具:Entrez, SRS DBGET7 .常用的序列搜索方法:FASTAF口 BLAST8 .高分值局部聯(lián)配的 BLAST參數(shù)是HSPs (高分值片段對(duì)
35、),E (期望值)9 .多序列聯(lián)配的常用軟件:Clustal10 .蛋白質(zhì)結(jié)構(gòu)域家族的數(shù)據(jù)庫(kù)有:Pfam, SMART11 .系統(tǒng)發(fā)育學(xué)的研究方法有:表現(xiàn)型分類法,遺傳分類法和進(jìn)化分類法12 .系統(tǒng)發(fā)育樹(shù)的構(gòu)建方法:距離矩陣法,最大簡(jiǎn)約法和最大似然法13 .常用系統(tǒng)發(fā)育分析軟件:PHYLIP14 .檢測(cè)系統(tǒng)發(fā)育樹(shù)可靠性的技術(shù):bootstrapping和Jack-knifing15 .原核生物和真核生物基因組中的注釋所涉及的問(wèn)題是不同的16 .檢測(cè)原核生物 ORF的程序:NCBI ORF finder17 .測(cè)試基因預(yù)測(cè)程序正確預(yù)測(cè)基因的能力的項(xiàng)目是GASP (基因預(yù)測(cè)評(píng)估項(xiàng)目)18 .二級(jí)結(jié)
36、構(gòu)的三種狀態(tài):“螺旋,B折疊和B轉(zhuǎn)角19 .用于蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的基本神經(jīng)網(wǎng)絡(luò)模型為三層的前饋網(wǎng)絡(luò),包括輸入層,隱含層和輸出層 20 .通過(guò)比較建模預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的軟件有SWISS-PDBVIEWER SWISS-MODEL網(wǎng)站)21 .蛋白質(zhì)質(zhì)譜數(shù)據(jù)搜索工具:SEQUEST22 .分子途徑最廣泛數(shù)據(jù)庫(kù):KEGG23 .聚類分析方法,分為有監(jiān)督學(xué)習(xí)方法,無(wú)監(jiān)督學(xué)習(xí)方法24 .質(zhì)譜的兩個(gè)數(shù)據(jù)庫(kù)搜索工具:SEQES而Lutkefish二、問(wèn)答題1)生物信息學(xué)的發(fā)展經(jīng)歷了哪幾個(gè)階段答:生物信息學(xué)白發(fā)展經(jīng)歷了3個(gè)階段。第一個(gè)階段是前基因組時(shí)代。這一階段主要是以各種算法法則的建立、生物數(shù)據(jù)庫(kù)的建立以及
37、DNA和蛋白質(zhì)序列分析為主要工作;第二階段是基因組時(shí)代。這一階段以各種基因組計(jì)劃測(cè)序、網(wǎng)絡(luò)數(shù)據(jù)庫(kù)系統(tǒng)的建立和基因?qū)ふ覟橹饕ぷ鳌5谌A段是后基因組時(shí)代。這一階段的主要工作是進(jìn)行大規(guī)?;蚪M分析、蛋白質(zhì)組分析以及其他各種基因組學(xué)研究。2)生物信息學(xué)步入后基因組時(shí)代后,其發(fā)展方向有哪幾個(gè)方面。答:生物信息學(xué)步入后基因組時(shí)代后,其發(fā)展方向主要有:各種生物基因組測(cè)序及新基因的發(fā)現(xiàn);單核甘酸多態(tài)性(SNB分析;基因組非編碼區(qū)信息結(jié)構(gòu)與分析;比較基因組學(xué)和生物進(jìn)化研究;蛋白質(zhì)結(jié)構(gòu)和功能的研究。3)美國(guó)國(guó)家生物技術(shù)信息中心( NCBI)的主要工作是什么請(qǐng)列舉 3個(gè)以上Entrez系統(tǒng)可以檢索的數(shù)據(jù)庫(kù)。(NC
38、BI維護(hù) 的數(shù)據(jù)庫(kù))NCBI的主要工作是在分子水平上應(yīng)用數(shù)學(xué)和計(jì)算機(jī)科學(xué)的方法研究基礎(chǔ)生物,醫(yī)學(xué)問(wèn)題。為科學(xué)界開(kāi)發(fā), 維護(hù)和分享一系列的生物信息數(shù)據(jù)庫(kù);開(kāi)發(fā)和促進(jìn)生物信息學(xué)數(shù)據(jù)庫(kù),數(shù)據(jù)的儲(chǔ)存,交換以及生物學(xué)命名規(guī)則的標(biāo)準(zhǔn)化。維護(hù)的主要數(shù)據(jù)庫(kù)包括答:PubMed、核酸序列數(shù)據(jù)庫(kù) GenBank、PROWA三維蛋白質(zhì)結(jié)構(gòu)分子模型數(shù)據(jù)庫(kù)MMDB。4)序列的相似性與同源性有什么區(qū)別與聯(lián)系答:相似性是指序列之間相關(guān)的一種量度,兩序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物種具有共同的祖先,弓II調(diào)進(jìn)化上的親緣關(guān)系。P1475) BLAST套件的 blastn、blastp、bl
39、astx、tblastn 和 tblastx 子工具的用途什么答:blastn是將給定的核酸序列與核酸數(shù)據(jù)庫(kù)中的序列進(jìn)行比較;Blastp是使用蛋白質(zhì)序列與蛋白質(zhì)數(shù)據(jù)庫(kù)中的序列進(jìn)行比較,可以尋找較遠(yuǎn)的關(guān)系;Blastx將給定的核酸序列按照六種閱讀框架將其翻譯成蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫(kù)中的序列進(jìn)行比對(duì),對(duì)分析新序列和EST很有用;Tblastn將給定的氨基酸序列與核酸數(shù)據(jù)庫(kù)中的序列(雙鏈)按不同的閱讀框進(jìn)行比對(duì),對(duì)于尋找數(shù)據(jù)庫(kù)中序列沒(méi)有標(biāo)注的新編碼區(qū)很有用;Tblastx只在特殊情況下使用,它將 DNA被檢索的序列和核酸序列數(shù)據(jù)庫(kù)中的序列按不同的閱讀框全部翻譯成蛋白質(zhì)序列,然后進(jìn)行蛋白質(zhì)序列比對(duì)。P
40、976)簡(jiǎn)述BLAST搜索的算法思想。答:BLAST是一種局部最優(yōu)比對(duì)搜索算法,將所查詢的序列打斷成許多小序列片段,然后小序列逐步與數(shù)據(jù)庫(kù)中的序列進(jìn)行比對(duì),這些小片段被叫做字word;當(dāng)一定長(zhǎng)度的的字(W)與檢索序列的比對(duì)達(dá)到一個(gè)指定的最低分(T)后,初始比對(duì)就結(jié)束了;一個(gè)序列的匹配度由各部分匹配分?jǐn)?shù)的總和決定,獲得高分的序列叫做高分匹配片段(HSP) ,程序?qū)⒆詈玫腍SP雙向擴(kuò)展進(jìn)行比對(duì), 直到序列結(jié)束或者不再具有生物學(xué)顯著性,最后所得到的序列是那些在整體上具有最高分的序列,即,最高分匹配片段(MSP),這樣,BLAST既保持了整體的運(yùn)算速度,也維持了比對(duì)的精度。P957)什么是物種的標(biāo)記序
41、列答:指物種特有的一段核苷酸序列。可以通過(guò)相似性查詢,得到某一序列在數(shù)據(jù)庫(kù)中的某一物種中反復(fù)出現(xiàn),且在其他物種中沒(méi)有的明顯相似的序列。8)什么是多序列全局比對(duì)的累進(jìn)算法(三個(gè)步驟)答:第一,所有的序列之間逐一比對(duì)(雙重比對(duì));第二,生成一個(gè)系統(tǒng)樹(shù)圖,將序列按相似性大致分組;第三,使用系統(tǒng)樹(shù)圖作為引導(dǎo),產(chǎn)生出最終的多序列比對(duì)結(jié)果。P529)簡(jiǎn)述構(gòu)建進(jìn)化樹(shù)的步驟,每一步列舉1-2 種使用的軟件或統(tǒng)計(jì)學(xué)方法。答: ( 1 )多序列比對(duì):Clustal W( 2)校對(duì)比對(duì)結(jié)果:BIOEDIT( 3)建樹(shù):MEGA( 4)評(píng)估系統(tǒng)發(fā)育信號(hào)和進(jìn)化樹(shù)的牢固度:自舉法(Bootstrap) P11410)簡(jiǎn)述
42、除權(quán)配對(duì)法(UPGMA)的算法思想。答:通過(guò)兩兩比對(duì)聚類的方法進(jìn)行,在開(kāi)始時(shí),每個(gè)序列分為一類,分別作為一個(gè)樹(shù)枝的生長(zhǎng)點(diǎn),然后將最近的兩序列合并,從而定義出一個(gè)節(jié)點(diǎn),將這個(gè)過(guò)程不斷的重復(fù),直到所有的序列都被加入,最后得到一棵進(jìn)化樹(shù)。P11911)簡(jiǎn)述鄰接法(NJ)構(gòu)樹(shù)的算法思想。答:鄰接法的思想不僅僅計(jì)算最小兩兩比對(duì)距離,還對(duì)整個(gè)樹(shù)的長(zhǎng)度進(jìn)行最小化,從而對(duì)樹(shù)的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制。這種算法由一棵星狀樹(shù)開(kāi)始,所有的物種都從一個(gè)中心節(jié)點(diǎn)出發(fā),然后通過(guò)計(jì)算最小分支長(zhǎng)度的和相繼尋找到近鄰的兩個(gè)序列,每一輪過(guò)程中考慮所有可能的序列對(duì),把能使樹(shù)的整個(gè)分支長(zhǎng)度最小的序列對(duì)一組,從而產(chǎn)生新的距離矩陣,直到尋找所有
43、的近鄰序列。P11712)簡(jiǎn)述最大簡(jiǎn)約法(MP)的算法思想。P68答:是一種基于離散特征的進(jìn)化樹(shù)算法。生物演化應(yīng)該遵循簡(jiǎn)約性原則,所需變異次數(shù)最少(演化步數(shù)最少)的演化樹(shù)可能為最符合自然情況的系統(tǒng)樹(shù)。在具體的操作中,分為非加權(quán)最大簡(jiǎn)約分析(或稱為同等加權(quán))和加權(quán)最大簡(jiǎn)約分析,后者是根據(jù)性狀本身的演化規(guī)律(比如DNA不同位點(diǎn)進(jìn)化速率不同)而對(duì)其進(jìn)行不同的加權(quán)處理。P12013)簡(jiǎn)述最大似然法(ML)的算法思想。P69答:是一種基于離散特征的進(jìn)化樹(shù)算法。該法首先選擇一個(gè)合適的進(jìn)化模型,然后對(duì)所有可能的進(jìn)化樹(shù)進(jìn)行評(píng)估,通過(guò)對(duì)每個(gè)進(jìn)化位點(diǎn)的替代分配一個(gè)概率,最后找出概率最大的進(jìn)化樹(shù)。P12214) U
44、PGMA構(gòu)樹(shù)法不精確的原因是什么P69答:由個(gè)于UPGMA假設(shè)在進(jìn)化過(guò)程中所有核甘酸 /氨基酸都有相同的變異率,也就是存在著一個(gè)分子鐘;這種算法當(dāng) 所構(gòu)建的進(jìn)化樹(shù)的序列進(jìn)化速率明顯不一致時(shí),得到的進(jìn)化樹(shù)相對(duì)來(lái)說(shuō)不準(zhǔn)確的。P119倒數(shù)第2段,前4行。15) 在 MEGA2 軟件中,提供了哪些堿基替換距離模型,試列舉其中3 種,解釋其含義。答: 堿基替換模型包括,differences 、 p-distance、 Jukes-Cantor distance、 T ajima-Nei distance、 Kimur 2-parameter distance 、Tamura 3-parameter d
45、istance 、 Tamura-Nei distancep-distance: 表示有差異的核苷酸位點(diǎn)在序列中所占比例,將有差異的核苷酸位點(diǎn)數(shù)除已經(jīng)比對(duì)的總位點(diǎn)數(shù)就可以得到Jukes-Cantor:模型假設(shè) A T C G的替換速率是一致的,然后給出兩個(gè)序列核甘酸替換數(shù)的最大似然估計(jì)Kimura 2-parameter :模型考慮到了轉(zhuǎn)換很顛換隊(duì)多重?fù)糁械挠绊?,但假設(shè)整個(gè)序列中4 鐘核苷酸的頻率是相同哈德在不同位點(diǎn)上的堿基替換頻率是相同的16)列舉5項(xiàng)DNA序列分析的內(nèi)容及代表性分析工具。答: ( 1 )尋找重復(fù)元件:RepeatMasker( 2)同源性檢索確定是否存在已知基因:BLAST
46、n( 3)從頭開(kāi)始方法預(yù)測(cè)基因:Genscan( 4)分析各種調(diào)控序列:TRES/DRAGON PROMOTOR FINDER(5) CpG 島:CpGPlotP130,表格代表性工具:ORF Finder、 BLASTn、 tBLASTx、 BLASTx、 Gene Wise17)如何用BLAST發(fā)現(xiàn)新基因答:從一個(gè)一直蛋白質(zhì)序列開(kāi)始,通過(guò) tBLASTn工具搜索一個(gè) DNA數(shù)據(jù)庫(kù),可以找到相應(yīng)的匹配,如與 DNA編碼的 已知蛋白質(zhì)的匹配或者與 DNA編碼的相關(guān)蛋白質(zhì)的匹配。 然后通過(guò)BLAST誡BLAST斑蛋白質(zhì)數(shù)據(jù)庫(kù)中搜索 DNA或蛋 白質(zhì)序列來(lái)“確定”一個(gè)新基因。18)試述SCOP白質(zhì)
47、分類方案答:SCOP將PDB數(shù)據(jù)庫(kù)中的蛋白質(zhì)按傳統(tǒng)分類方法分成“型、3型、“/ 3型、”+3型,并將多結(jié)構(gòu)域蛋白、膜蛋白和細(xì)胞表面蛋白、N 蛋白單獨(dú)分類,一共分成7 種類型,并在此基礎(chǔ)上,按折疊類型、超家族、家族三個(gè)層次逐級(jí)分類。對(duì)于具有不同種屬來(lái)源的同源蛋白家族,SCO啖據(jù)庫(kù)按照種屬名稱將它們分成若干子類,一直到蛋白質(zhì)分子的亞基。19)試述 SWISS-PRO種的數(shù)據(jù)來(lái)源。答: ( 1 )從核酸數(shù)據(jù)庫(kù)經(jīng)過(guò)翻譯推導(dǎo)而來(lái);(2)從蛋白質(zhì)數(shù)據(jù)庫(kù) PIR挑選出合適的數(shù)據(jù);( 3)從科學(xué)文獻(xiàn)中摘錄;( 4)研究人員直接提交的蛋白質(zhì)序列數(shù)據(jù)。20) TrEMBL哪兩個(gè)部分答:( 1) SP-TrEMBL
48、(SWISS-PROT TrEMBL)包含最終將要集成到 SWISS-PROT勺數(shù)據(jù),所有的 SP-TrEMBL列都已被賦予 SWISS-PROT勺登錄號(hào)。( 2) REM-TrEMBL(REMaining TrEMBL)包括所有不準(zhǔn)備放入 SWISS-PROT勺數(shù)據(jù),因此這部分?jǐn)?shù)據(jù)都沒(méi)有登錄號(hào)。21)試述 PSI-BLAST搜索的5個(gè)步驟。答:1選擇待查序列(query)和蛋白質(zhì)數(shù)據(jù)庫(kù);2 PSI-BLAST構(gòu)建一個(gè)多序列比對(duì),然后創(chuàng)建一個(gè)序列表譜( profile)又稱特定位置打分矩陣(PSSM);3 PSSM 被用作query 搜索數(shù)據(jù)庫(kù)4 PSI-BLAST估計(jì)統(tǒng)計(jì)學(xué)意義 (E val
49、ues)5 重復(fù) 3 和 4 , 直到?jīng)]有新的序列發(fā)現(xiàn)。22)列舉 5 種常用的系統(tǒng)發(fā)育分析軟件PHYLIP、 PAUP、 MEGA、 PAML、 TreeView。三 . 操作與計(jì)算題1 .如何獲取訪問(wèn)號(hào)為 U49845的genbank文件解釋如下 genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999答:(1 )訪問(wèn) NCBI 的 Entrez 檢索系統(tǒng),(2)選擇核酸數(shù)據(jù)庫(kù),(3)輸入U(xiǎn)49845 序列訪問(wèn)號(hào)開(kāi)始檢索。第一項(xiàng)是LOCUST稱,前三個(gè)字母代表物種名第二項(xiàng)是序列長(zhǎng)度第三項(xiàng)是序列分子類型第
50、四項(xiàng)是分子為線性的第五項(xiàng)是GenBank 分類碼第六項(xiàng)是最后修訂日期P132 .利用 Entrez 檢索系統(tǒng)對(duì)核酸數(shù)據(jù)搜索,輸入如下信息,將獲得什么結(jié)果:AF114696:AF114714ACCN。 P35答:獲得序列訪問(wèn)號(hào) AF114696到AF114714之間的連續(xù)編號(hào)的序列。3 .相比使用BLAST套件搜索數(shù)據(jù)庫(kù),BLAST2工具在結(jié)果呈現(xiàn)上有什么優(yōu)點(diǎn)答:BLAST2序列分析工具,它能進(jìn)行兩條序列的精確比對(duì),同時(shí)給出兩序列的圖形化比對(duì)結(jié)果和文本形式的聯(lián)配結(jié)果。如何將其它多序列比對(duì)格式文件轉(zhuǎn)化為MEGE格式的多序列比對(duì)文件答: ( 1)選擇菜單file, ( 2)選擇 Text File
51、Editor and Format Coverter 工具, ( 3)調(diào)入需要轉(zhuǎn)換的序列和相應(yīng)的格式,(4)獲得轉(zhuǎn)換后的 MEGA格式的文件并保存。5 .什么簡(jiǎn)約信息位點(diǎn)Pi答:指基于DNA或蛋白質(zhì)序列,應(yīng)用最大簡(jiǎn)約法構(gòu)建系統(tǒng)發(fā)育樹(shù)時(shí),如果某個(gè)位點(diǎn)的狀態(tài)存在兩種或兩種以上,每種 狀態(tài)出現(xiàn)兩次或兩次以上,這樣的位點(diǎn)稱簡(jiǎn)約信息位點(diǎn)。6 . 以下軟件的主要用途是什么RepeatMasker, CpGPlot, Splice View, Genscan, ORF finder, neural network promoter prediction.答:RepeatMasker:是對(duì)重復(fù)序列進(jìn)行分析的軟
52、件GpGPlot:用來(lái)查找一條 DNA序列中CpG島,使用 Gardine-Garden和Frommer描述的方法Splice View:是對(duì)一段序列進(jìn)行剪接位點(diǎn)的分析即其中的受體和供體位點(diǎn)Genscan:是一種從頭分析工具ORF finder:是用來(lái)分析序列 ORF的工具neural networkpromoter prediction :神經(jīng)網(wǎng)絡(luò)啟動(dòng)子預(yù)測(cè)是另外一種分析啟動(dòng)子的方法10.試述蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)的三類方法(1)同源建模,對(duì)于一個(gè)未知結(jié)構(gòu)的蛋白質(zhì),找到一個(gè)已知結(jié)構(gòu)的同源蛋白質(zhì),以該蛋白質(zhì)的結(jié)構(gòu)為模板,為未知結(jié)構(gòu)的蛋白質(zhì)建立結(jié)構(gòu)模型,序列相似性低于30%的蛋白質(zhì)難以得到理想的結(jié)構(gòu)
53、模型;(2)在已知結(jié)模板的序列一致率小于25%時(shí),使用折疊識(shí)別方法進(jìn)行預(yù)測(cè);(3)在找不到已知結(jié)構(gòu)的蛋白質(zhì)模板時(shí)使用從頭預(yù)測(cè)的方法。1. FASTA序歹U格式第一行以“ ”開(kāi)頭但并沒(méi)有指明是蛋白質(zhì)還是核酸序列。后跟代碼,接著是注釋(在同一行),通常注釋要以“ |符號(hào)相隔,第一行沒(méi)有長(zhǎng)度限制。值得注意的是FAST件允許以小寫(xiě)字母表示氨基酸。文件擴(kuò)展名為“.fasta”。(NBIR/PIR序列格式第一行以“ ”開(kāi)頭,后面緊跟兩字母編碼(P1代表蛋白質(zhì)序列,N1代表核酸),再接一個(gè)分號(hào),分號(hào)后緊跟序列標(biāo) 識(shí)號(hào)。后面是說(shuō)明行,該行可長(zhǎng)可短,沒(méi)有長(zhǎng)度限制。接下來(lái)是序列本身,以“*”號(hào)終止。文件的擴(kuò)展名為
54、“ .pir或.seq。GDE序列格式與FASTA勺格式基本相同,但行首為“”,文件擴(kuò)展名為“ .gde”。)2. BLAST的五個(gè)子程序程序查詢序列數(shù)據(jù)庫(kù)種類簡(jiǎn)述方法Blastp蛋白質(zhì)蛋白質(zhì)可以找到具有遠(yuǎn)源進(jìn)化 關(guān)系的匹配序列待搜索蛋白序列與蛋白 數(shù)據(jù)庫(kù)比較Blastn核甘酸核甘酸適合尋找分值較高的匹 配,不適合遠(yuǎn)源關(guān)系待搜索核酸序列與核酸 數(shù)據(jù)庫(kù)比較Blastx核甘酸(已翻譯)蛋白質(zhì)適合新DNA序列和EST序列的分析將待搜索核酸序列按6個(gè)讀框翻譯成蛋白質(zhì)序 歹U,然后與數(shù)據(jù)庫(kù)中的蛋 白質(zhì)比較TBlastn蛋白質(zhì)核甘酸(已翻譯)適合尋找數(shù)據(jù)庫(kù)中尚未 標(biāo)注的編碼區(qū)將數(shù)據(jù)庫(kù)中核酸序列按 6個(gè)讀框
55、翻譯成蛋白序列,然后與待搜索蛋白序列 對(duì)比TBlastx核甘酸(已翻譯)核甘酸(已翻譯)適合分析EST序列無(wú)論是待搜索核酸序列 還是數(shù)據(jù)庫(kù)中核酸序列, 都按6個(gè)讀框翻譯成蛋 白序列3. 生物類的數(shù)據(jù)庫(kù)類別:一級(jí)數(shù)據(jù)庫(kù):數(shù)據(jù)庫(kù)中的數(shù)據(jù)直接來(lái)源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過(guò)簡(jiǎn)單的歸類整理和注釋;二級(jí)數(shù)據(jù)庫(kù):對(duì)原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果,是在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特 定的應(yīng)用目標(biāo)而建立的。4. PSI-Blast 的原理:PSI-BLAST是一種將雙序列比對(duì)和多序列比對(duì)結(jié)合在一起的數(shù)據(jù)庫(kù)搜索方法。其主要思想是通過(guò)多次迭代找出最佳 結(jié)果。每次迭代都發(fā)現(xiàn)一些中間序列,用于在接下去的迭代中尋找查詢序列的更多疏遠(yuǎn)相關(guān)序列(拓展了序列進(jìn)化關(guān) 系的覆蓋面積)。具體做法是最初對(duì)查詢序列進(jìn)行BLAST搜索,接著把查找得到的每一擊中項(xiàng)作為BLAST搜索第二次迭代的查詢序列,重復(fù)這個(gè)過(guò)程直到找不到有意義的相似序列為止。(以下為研究生課件部分)PSI-BLAST勺基本思路在于根據(jù)最初的搜索結(jié)果,依照預(yù)先定義的相似性閾值將序列分成不同的組,構(gòu)建一個(gè)位點(diǎn)特異性的序列譜,并通過(guò)多次迭代不斷改進(jìn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鄭州房屋收費(fèi)管理辦法
- 綏化浴池節(jié)能管理辦法
- 道具專項(xiàng)采購(gòu)管理辦法
- 肺功能不全教學(xué)課件
- 手工裝裱培訓(xùn)課件
- 肝膿腫護(hù)理教學(xué)課件
- 高淳區(qū)初二數(shù)學(xué)試卷
- 東師附中初一數(shù)學(xué)試卷
- 固安縣小升初數(shù)學(xué)試卷
- 商場(chǎng)裝修管理培訓(xùn)課件
- 《地區(qū)智能電網(wǎng)調(diào)度技術(shù)支持系統(tǒng)應(yīng)用功能規(guī)范》
- 2024中國(guó)類風(fēng)濕關(guān)節(jié)炎診療指南
- 11294營(yíng)銷管理-國(guó)家開(kāi)放大學(xué)2023年1月至7月期末考試真題及答案(共2套)
- 國(guó)畫(huà)基礎(chǔ)知識(shí)題庫(kù)單選題100道及答案解析
- 9日益重要的國(guó)際組織(第3課時(shí)) 教學(xué)設(shè)計(jì)-六年級(jí)下冊(cè)道德與法治
- 浙江省慈溪市2024年小升初語(yǔ)文真題試卷及答案
- 2023年上海高中學(xué)業(yè)水平合格性考試歷史試卷真題(含答案詳解)
- 2024-2030年中國(guó)商品混凝土行業(yè)市場(chǎng)發(fā)展分析及發(fā)展趨勢(shì)與投資發(fā)展前景研究報(bào)告
- 2023年遂寧市船山區(qū)選調(diào)教師考試真題
- CJJT259-2016 城鎮(zhèn)燃?xì)庾詣?dòng)化系統(tǒng)技術(shù)規(guī)范
- 病案首頁(yè)填寫(xiě)及質(zhì)控要求
評(píng)論
0/150
提交評(píng)論