版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第一節(jié)引言一、基因結(jié)構(gòu)Section1
Introduction
基因的概念是隨著遺傳學(xué)、分子生物學(xué)、生物化學(xué)等領(lǐng)域的發(fā)展不斷完善的。從分子生物學(xué)角度來看,基因是負(fù)載特定生物遺傳信息的DNA分子片段,在一定的條件下能夠表達這種遺傳信息,產(chǎn)生特定的生理功能。第一節(jié)引言一、基因結(jié)構(gòu)Section1Int原核生物基因結(jié)構(gòu):
一個完整的原核基因結(jié)構(gòu)是從基因的5'端啟動子區(qū)域開始,到3'端終止區(qū)域結(jié)束。基因的轉(zhuǎn)錄開始位置由轉(zhuǎn)錄起始位點確定,轉(zhuǎn)錄過程直至遇到轉(zhuǎn)錄終止位點結(jié)束,轉(zhuǎn)錄的內(nèi)容包括5'端非翻譯區(qū)、開放閱讀框及3'端非翻譯區(qū)?;蚍g的準(zhǔn)確起止位置由起始密碼子和終止密碼子決定,翻譯的對象即為介于這兩者之間的開放閱讀框ORF。原核生物基因結(jié)構(gòu):一個完整的原核基因結(jié)構(gòu)是從基因的5操縱子模型結(jié)構(gòu)
原核生物大多數(shù)基因表達調(diào)控是通過操縱子機制實現(xiàn)的。所謂操縱子通常由調(diào)節(jié)基因、啟動子、操縱基因以及2個以上的編碼序列(結(jié)構(gòu)基因)在原核生物基因組中成簇串聯(lián)組成。其中結(jié)構(gòu)基因的表達受到操縱基因的調(diào)控。調(diào)節(jié)基因能產(chǎn)生作用于操縱基因的阻遏物(一種蛋白質(zhì)),操縱基因靠近它所控制的結(jié)構(gòu)基因,阻遏物與操縱基因的結(jié)合能阻止結(jié)構(gòu)基因的轉(zhuǎn)錄。操縱子模型結(jié)構(gòu)原核生物大多數(shù)基因表達調(diào)控是通過操縱子真核生物基因結(jié)構(gòu):
一個完整的真核生物基因,不但包括編碼區(qū)域,還包括5'端和3'端兩側(cè)長度不等的特異性序列,雖然這些序列不編碼氨基酸,卻在基因表達的過程中起著重要的作用。所以,嚴(yán)格的“基因”這一術(shù)語的分子生物學(xué)定義是:產(chǎn)生一條多肽鏈或功能RNA所必須的全部核苷酸序列。真核生物基因結(jié)構(gòu):一個完整的真核生物基因,不但包括編二、蛋白質(zhì)結(jié)構(gòu)
蛋白質(zhì)是一種生物大分子,蛋白質(zhì)中相鄰的氨基酸通過肽鍵形成一條伸展的肽鏈,這條鏈稱為蛋白質(zhì)的一級結(jié)構(gòu),不同蛋白質(zhì)其肽鏈的長度不同,肽鏈中不同氨基酸的組成和排列順序也各不相同。肽鏈上的氨基酸殘基形成局部的二級結(jié)構(gòu),各種二級結(jié)構(gòu)在空間卷曲折疊形成特定的三維空間結(jié)構(gòu)。有的蛋白質(zhì)由多條肽鏈組成,每條肽鏈稱為亞基,亞基之間又有特定的空間關(guān)系,稱為蛋白質(zhì)的四級結(jié)構(gòu)。二、蛋白質(zhì)結(jié)構(gòu)蛋白質(zhì)是一種生物大分子,蛋白質(zhì)中相鄰的蛋白質(zhì)的一級結(jié)構(gòu)蛋白質(zhì)的一級結(jié)構(gòu)決定二級結(jié)構(gòu)蛋白質(zhì)的二級結(jié)構(gòu)決定三級結(jié)構(gòu)蛋白質(zhì)的一級結(jié)構(gòu)蛋白質(zhì)的一級結(jié)構(gòu)決定二級結(jié)構(gòu)蛋白質(zhì)的二級結(jié)構(gòu)H表示螺旋E表示折疊B表示β橋G表示3-螺旋I表示π螺旋T表示氫鍵轉(zhuǎn)角S代表轉(zhuǎn)向蛋白質(zhì)的二級結(jié)構(gòu)H表示螺旋E表示折疊B表蛋白質(zhì)空間結(jié)構(gòu)
蛋白質(zhì)的生物學(xué)功能在很大程度上取決于蛋白質(zhì)的空間結(jié)構(gòu),但蛋白質(zhì)的空間結(jié)構(gòu)又取決于蛋白質(zhì)一級結(jié)構(gòu)中的氨基酸組成和排列順序,蛋白質(zhì)結(jié)構(gòu)構(gòu)象多樣性導(dǎo)致了不同的生物學(xué)功能。蛋白質(zhì)分子只有處于它自己特定的空間結(jié)構(gòu)情況下,才能獲得它特定的生物活性,空間結(jié)構(gòu)稍有破壞,就很可能會導(dǎo)致蛋白質(zhì)生物活性的降低甚至喪失,因為它們的特定的結(jié)構(gòu)允許它們結(jié)合特定的配體分子。知道了基因密碼,科學(xué)家們可以推演出組成某種蛋白質(zhì)的氨基酸序列,卻無法繪制蛋白質(zhì)空間結(jié)構(gòu)。因而,揭示人類每一種蛋白質(zhì)的空間結(jié)構(gòu),已成為后基因組時代的制高點,這也是結(jié)構(gòu)基因組學(xué)的基本任務(wù)。蛋白質(zhì)空間結(jié)構(gòu)
對DNA序列和蛋白質(zhì)序列進行序列特征分析,能夠使我們從分子層次上了解基因的結(jié)構(gòu)特點,了解與基因表達調(diào)控相關(guān)的信息,了解DNA序列與蛋白質(zhì)序列之間的編碼,了解蛋白質(zhì)序列與蛋白質(zhì)空間結(jié)構(gòu)之間的關(guān)系和規(guī)律,為進一步研究了解蛋白質(zhì)功能與蛋白質(zhì)結(jié)構(gòu)之間的關(guān)系提供理論依據(jù)。對DNA序列和蛋白質(zhì)序列進行序列特征分析,能夠使我們第二節(jié)DNA序列特征分析Section2
AnalysisofDNASequenceCharacteristics
分析DNA序列,除了進行序列比對之外,更重要的工作是從序列中找到基因及其表達調(diào)控信息。尋找基因的工作有兩個:一是識別與基因相關(guān)的特殊序列信號,如啟動子、起始密碼子,通過信號識別大致確定基因所在的區(qū)域;二是預(yù)測基因的編碼區(qū)域,或預(yù)測外顯子所在的區(qū)域。在此基礎(chǔ)上,結(jié)合兩個方面的結(jié)果確定基因的位置和結(jié)構(gòu)。絕大部分基因表達調(diào)控信息隱藏在基因序列的上游區(qū)域,在組成上具有一定的特征,可以通過序列分析識別這些特征。第二節(jié)DNA序列特征分析Section2Anal一、開放閱讀框ORF—openreadingframe
開放閱讀框指的是從5'端開始翻譯起始密碼子(ATG)到終止密碼子(TTA、TAG、TGA)的蛋白質(zhì)編碼堿基序列。每個序列都有6個可能的開放閱讀框,其中3個開始于第1、2、3個堿基位點并沿著給定序列的5'→3'的方向進行延伸,而另外的3個開始于第1、2、3個堿基位點但沿著互補序列的5'→3'的方向進行延伸。在開始這項工作之前,我們并不知道DNA雙鏈中哪一條單鏈?zhǔn)蔷幋a鏈,也不知道準(zhǔn)確的翻譯起始點在何處,由于每條鏈都有3種可能的開發(fā)閱讀框,2條鏈共計6種可能的開放讀框,我們的目的就是從這6個可能的開放閱讀框中找出一個正確的開放閱讀框。根據(jù)這個開放閱讀框翻譯得到的氨基酸序列才是真正表達的蛋白質(zhì)產(chǎn)物。一、開放閱讀框ORF—openreadingframe真核生物的開放閱讀框
真核生物的開放閱讀框不僅含有編碼蛋白的外顯子(exon),而且還有內(nèi)含子(intron),并且內(nèi)含子將開放閱讀框分割為若干個小片段。開放閱讀框的長度變化范圍非常大,因此真核生物的基因預(yù)測遠(yuǎn)比原核生物困難。但是,在真核生物的開放閱讀框中,外顯子與內(nèi)含子之間的連接絕大部分情況下滿足GT-AG規(guī)律:內(nèi)含子序列5'端的起始兩個核苷酸總是GT,并且其3'端的最后兩個核苷酸總是AG,即:5'-GT……AG-3',這個規(guī)律有助于真核生物開放閱讀框的識別。真核生物的開放閱讀框真核生物的開放閱讀框不僅含有編碼利用GENSCAN識別基因開放閱讀框GENSCAN是美國麻省理工學(xué)院的ChrisBurge于1997年開發(fā)成功的人類(或脊椎動物)基因預(yù)測軟件,它是根據(jù)基因組DNA序列來預(yù)測開放閱讀框及基因結(jié)構(gòu)信息的開放式在線資源,尤其適用于脊椎動物、擬南芥和玉米等真核生物。GENSCAN的網(wǎng)址為:
http://genes.M/GENSCAN.html利用GENSCAN識別基因開放閱讀框GENSGENSCAN在線操作頁面GENSCAN在線操作頁面用GENSCAN預(yù)測AC002390序列的基因/外顯子用GENSCAN預(yù)測AC002390序列的基因/外顯子用GENSCAN預(yù)測AC002390序列的基因/外顯子的位置圖起始外顯子終止外顯子用GENSCAN預(yù)測AC002390序列的基因/外顯子的位置二、CpG島——CpGislands
CpG島是指DNA序列上的一個區(qū)域,此區(qū)域含有大量相聯(lián)的胞嘧啶(C)、鳥嘌呤(G),以及使兩者相連的磷酸酯鍵(p)。CpG島的概念是Gardiner-garden和Fromner于1987年提出的,基因中平均每100Kb即可出現(xiàn)。CpG島位于基因的啟動子和第一個外顯子區(qū),約有60%~80%的人類基因的啟動子和起始外顯子含有CpG島,其中GC含量大于50%,長度超過200bp。因此搜索CpG島可以為基因及其啟動子預(yù)測提供重要線索。二、CpG島——CpGislandsCp利用CpGPlot預(yù)測分析CpG島CpGPlot是預(yù)測CpG島的在線工具,它是由歐洲分子生物學(xué)實驗室EMBL——EuropeanMolecularBiologyLaboratory提供的。其網(wǎng)址為:http://www.ebi.ac.uk/Tools/emboss/cpgplot/index.html利用CpGPlot預(yù)測分析CpG島CpGPCpGPlot在線操作頁面CpGPlot在線操作頁面用CpGplot預(yù)測AC002390序列的CpG島的結(jié)果用CpGplot預(yù)測AC002390序列的CpG島的結(jié)果用CpGReport預(yù)測AC002390序列的CpG島的結(jié)果用CpGReport預(yù)測AC002390序列的CpG島的結(jié)果三、轉(zhuǎn)錄終止信號
轉(zhuǎn)錄終止信號是在mRNA序列的3'端終止密碼子下游位置上的加尾信號(tailingsignal)。前體mRNA3'端多聚腺苷酸化是真核細(xì)胞內(nèi)mRNA轉(zhuǎn)錄后處理的三個最主要步驟之一,這三個步驟包括:5'帽子結(jié)構(gòu)的形成、內(nèi)含子的剪切及3'端的多聚腺苷酸化,因此,前體mRNA3'端多聚腺苷酸化與mRNA穩(wěn)定性的調(diào)節(jié)、mRNA的細(xì)胞內(nèi)轉(zhuǎn)運、翻譯的起始以及一些其他的細(xì)胞機制和疾病機制有著重要關(guān)系。三、轉(zhuǎn)錄終止信號轉(zhuǎn)錄終止信號是在mRNA序列真核生物前體mRNA3'端的多聚腺苷酸化包括兩個步驟:1.特異性的核苷酸內(nèi)切酶在PolyA位點處進行斷裂;2.腺苷酸聚合酶在斷裂位點處添加PolyA尾巴,其主要標(biāo)志為AATAAA或ATTAAA兩種序列,稱為多聚腺苷酸信號(polyadenylationsignal),簡稱PolyA信號序列,也稱為轉(zhuǎn)錄終止信號。在3'UTR區(qū)存在多個潛在PolyA位點,因此對PolyA位點的準(zhǔn)確識別,對于預(yù)測基因結(jié)構(gòu)、理解mRNA的形成機制及某些疾病的分子機制具有巨大的作用。真核生物前體mRNA3'端的多聚腺苷酸化包括兩個步驟:1.利用POLYAH預(yù)測分析轉(zhuǎn)錄終止信號SoftBerry網(wǎng)站的POLYAH軟件是識別3'端剪切和PolyA區(qū)域的在線工具。其網(wǎng)址為:/berry.phtml?topic=polyah&group=programs&subgroup=promoter,利用POLYAH預(yù)測分析轉(zhuǎn)錄終止信號SofPOLYAH在線頁面POLYAH在線頁面用POLYAH預(yù)測AC002390序列的轉(zhuǎn)錄終止信號的結(jié)果用POLYAH預(yù)測AC002390序列的轉(zhuǎn)錄終止信號的結(jié)果四、啟動子—promoters
啟動子是基因的一個組成部分,是位于結(jié)構(gòu)基因5'端上游區(qū)的DNA序列,控制基因表達(轉(zhuǎn)錄)的起始時間和表達的程度。啟動子本身并不控制基因活動,而是通過與稱為轉(zhuǎn)錄因子的蛋白質(zhì)結(jié)合而控制基因活動的。轉(zhuǎn)錄因子就像一面“旗子”,指揮RNA聚合酶的活動。如果基因的啟動子部分發(fā)生突變,則會導(dǎo)致基因表達的調(diào)節(jié)障礙。這種突變常見于惡性腫瘤。四、啟動子—promoters啟動子是基因的利用PromoterScan預(yù)測分析啟動子區(qū)域BioInformaticsandMolecularAnalysisSection網(wǎng)站的PromoterScan軟件是預(yù)測分析啟動子區(qū)域的在線工具。其網(wǎng)址為:/molbio/proscan/
利用PromoterScan預(yù)測分析啟動子區(qū)域PromoterScan在線網(wǎng)頁PromoterScan在線網(wǎng)頁用PromoterScan預(yù)測AC002390序列的啟動子區(qū)域的結(jié)果用PromoterScan預(yù)測AC002390序列的啟動子區(qū)五、密碼子偏好性
密碼子使用偏性是指生物體中編碼同一種氨基酸的同義密碼子的非均勻使用現(xiàn)象。這一現(xiàn)象的產(chǎn)生與諸多因素有關(guān),如基因的表達水平、翻譯起始效應(yīng)、基因的堿基組分、某些二核苷酸的出現(xiàn)頻率、G+C含量、基因的長度、tRNA的豐度、蛋白質(zhì)的結(jié)構(gòu)及密碼子一反密碼子間結(jié)合能的大小等。所以對密碼子使用偏好性的分析具有重要的生物學(xué)意義。五、密碼子偏好性密碼子使用偏性是指生物體中編利用CodonW分析密碼子偏好性CodonW是美國DEC公司開發(fā)的對密碼子的使用進行分析的免費的軟件工具。此軟件是建立在大量的統(tǒng)計學(xué)分析的基礎(chǔ)上,為了簡化在線分析的復(fù)雜性而開發(fā)的,它可以在Windows環(huán)境下運行,并且可以同時處理2000條以上的序列。通過對DNA或RNA序列的分析,CodonW會產(chǎn)生關(guān)于密碼子使用的相關(guān)指標(biāo)的統(tǒng)計學(xué)分析的數(shù)據(jù),我們可以利用這些數(shù)據(jù)對我們所要了解的序列進行分析。其下載網(wǎng)址為:ftp://molbiol.ox.ac.uk/cu/codonW.tar.Z。利用CodonW分析密碼子偏好性CodonCodonW1.4主菜單的操作頁面CodonW1.4主菜單的操作頁面11個密碼子使用的指標(biāo)序號全稱縮寫1234567891011CodonAdaptationIndexFrequencyofOptimalCodonsCodonBiasIndexTheeffectivenumberofcodonsG+CcontentofthegeneG+Ccontentat3rdpositionofsynonymouscodonsSilentbasecompositionNumberofsilentsitesandaminoacidsHydrophobicityofproteinAromaticityscoreCAIFopCBIENcG+CGC3sLSilLAAGRAVYAromo11個密碼子使用的指標(biāo)序號全稱縮寫1Codonwaxy基因的序列序號Genebank登陸號物種基因功能1234567AY094405AF486514X03935X62134X88789U23945X57233ArabidopsishalianaHordeumvulgareZeamaysO.sativaP.sativumSorghumbicolorWheatgranuleboundstarchsynthaseImRNAgranuleboundstarchsynthaseImRNAglucosyltransferasegranuleboundstarchsynthaseImRNAmRNAforstarchsynthasegranule-boundstarchsynthaseprecursor(Wx)mRNAwaxymRNAforgranule-boundstarchsynthasewaxy基因的序列序Genebank物種基因功能1AY用CodonW分析waxy基因所得的RSCU值和個數(shù)用CodonW分析waxy基因所得的RSCU值和個數(shù)第三節(jié)蛋白質(zhì)序列特征分析Section3
Analysisof
ProteinSequenceCharacteristics
蛋白質(zhì)是組成生物體的基本物質(zhì),是生命活動的主要承擔(dān)者,一切生命活動都與蛋白質(zhì)有關(guān)。雖然遺傳信息的攜帶者是核酸,但遺傳信息的傳遞和表達不僅要在酶的催化之下,并且也是在各種蛋白質(zhì)的調(diào)節(jié)控制下進行的。因此,分析處理蛋白質(zhì)序列數(shù)據(jù)的重要性并不亞于分析DNA序列數(shù)據(jù)。蛋白質(zhì)的生物功能由蛋白質(zhì)的結(jié)構(gòu)所決定,因此在研究蛋白質(zhì)的功能時需要了解蛋白質(zhì)的空間結(jié)構(gòu)。第三節(jié)蛋白質(zhì)序列特征分析Section3Analys
目前,一種基本認(rèn)可的假設(shè)是:蛋白質(zhì)的空間結(jié)構(gòu)由蛋白質(zhì)序列所決定,即我們可以根據(jù)蛋白質(zhì)序列預(yù)測蛋白質(zhì)結(jié)構(gòu),這是第二遺傳密碼的問題,也是一個更為復(fù)雜的問題,因為蛋白質(zhì)序列和蛋白質(zhì)空間結(jié)構(gòu)之間的關(guān)系要比DNA序列和蛋白質(zhì)序列之間的關(guān)系復(fù)雜得多。因此我們需要分析大量的數(shù)據(jù),從中找出蛋白質(zhì)序列和蛋白質(zhì)結(jié)構(gòu)間存在的關(guān)系和規(guī)律。目前,一種基本認(rèn)可的假設(shè)是:蛋白質(zhì)的空間結(jié)構(gòu)由蛋白質(zhì)一、蛋白質(zhì)的理化性質(zhì)
蛋白質(zhì)是由氨基酸組成的大分子化合物,對組成蛋白質(zhì)的氨基酸進行理化性質(zhì)的統(tǒng)計分析是對一個未知蛋白質(zhì)進行分析的基礎(chǔ)。蛋白質(zhì)的理化性質(zhì)包括蛋白質(zhì)的分子量、氨基酸的組成、等電點、消光系數(shù)、親水性和疏水性、跨膜區(qū)、信號肽、翻譯后修飾位點等。一、蛋白質(zhì)的理化性質(zhì)蛋白質(zhì)是由氨基酸組成的利用ProtParam分析蛋白質(zhì)的理化性質(zhì)ExPASy(ExpertProteinAnalysisSystem)是由瑞士生物信息學(xué)中心維護,并與歐洲生物信息學(xué)中心(EBI)及蛋白質(zhì)信息資源(proteininformationresource,PIR)組成UniversalProteinKnowledgebase聯(lián)盟。ExPASy數(shù)據(jù)庫提供了一系列蛋白質(zhì)理化分析工具,以便于檢索未知蛋白質(zhì)的理化性質(zhì),并基于這些理化性質(zhì)鑒別未知蛋白質(zhì)的類別,為后續(xù)實驗提供幫助。其中ProtParam(physico-chemicalparametersofaproteinsequence)就是計算氨基酸理化參數(shù)常用的在線工具。其網(wǎng)址為:
/tools/protparam.html利用ProtParam分析蛋白質(zhì)的理化性質(zhì)EProtParam在線頁面ProtParam在線頁面用ProtParam分析G00016序列理化性質(zhì)的結(jié)果用ProtParam分析G00016序列理化性質(zhì)的結(jié)果二、蛋白質(zhì)的親水性或疏水性氨基酸通常被分為三類:1.疏水氨基酸(hydrophobicaminoacid),其側(cè)鏈大部分或者全部由碳原子和氫原子組成,因此這類氨基酸不太可能與水分子形成氫鍵;2.極性氨基酸(polaraminoacid),其測鏈通常由氧原子或氮原子組成,它們比較容易與水分子形成氫鍵,因此也稱為親水氨基酸;3.帶電氨基酸(chargedaminoacids),這類氨基酸在生物
pH環(huán)境中帶有正電或負(fù)電。蛋白質(zhì)的基本組成單元是氨基酸。二、蛋白質(zhì)的親水性或疏水性氨基酸通常被分為三類:蛋白質(zhì)的基本蛋白質(zhì)的親水性或疏水性
氨基酸的親疏水性是構(gòu)成蛋白質(zhì)折疊的主要驅(qū)動力,一般通過親水性分布圖(hydropathyprofile)反映蛋白質(zhì)的折疊情況。蛋白質(zhì)折疊時會形成疏水內(nèi)核和親水表面,同時在潛在跨膜區(qū)出現(xiàn)高疏水值區(qū)域,據(jù)此可以測定跨膜螺旋等二級結(jié)構(gòu)和蛋白質(zhì)表面氨基酸分布。蛋白質(zhì)的親水性或疏水性氨基酸的親疏水性是構(gòu)成利用ProtScale分析蛋白質(zhì)的親水性或疏水性ExPASy的ProtScale程序是計算蛋白質(zhì)親疏水性分析的在線工具。其網(wǎng)址為:
/tools/protscale.html利用ProtScale分析蛋白質(zhì)的親水性或疏水性ProtScale在線頁面ProtScale在線頁面用ProtScale分析P02699序列疏水性結(jié)果的圖形顯示用ProtScale分析P02699序列疏水性結(jié)果的圖形顯示Hohob./Kyte&Doolittle標(biāo)度Hohob./Kyte&Doolittle標(biāo)度用Windowsize=13時計算窗口內(nèi)每個位置上氨基酸的標(biāo)度權(quán)值用Windowsize=13時計算窗口內(nèi)每個位置上氨基酸的三、蛋白質(zhì)的跨膜區(qū)
生物膜所含的蛋白質(zhì)叫膜蛋白,是生物膜功能的主要承擔(dān)者。根據(jù)蛋白質(zhì)分離的難易及在膜中分布的位置,膜蛋白基本可分為兩大類:外在膜蛋白和內(nèi)在膜蛋白。外在膜蛋白約占膜蛋白的20%~30%,分布在膜的內(nèi)外表面,主要在內(nèi)表面,為水溶性蛋白,它通過離子鍵、氫鍵與膜脂分子的極性頭部相結(jié)合,或通過與內(nèi)在蛋白質(zhì)的相互作用間接與膜結(jié)合;內(nèi)在膜蛋白約占膜蛋白的70%~80%,是雙親媒性分子,可不同程度的嵌入脂雙層分子中。有的貫穿整個脂雙層,兩端暴露于膜的內(nèi)外表面,這種類型的膜蛋白又稱跨膜蛋白。三、蛋白質(zhì)的跨膜區(qū)生物膜所含的蛋白質(zhì)叫膜蛋白蛋白質(zhì)的跨膜區(qū)
內(nèi)在膜蛋白露出膜外的部分含較多的極性氨基酸,屬親水性,與磷脂分子的親水頭部鄰近;嵌入脂雙層內(nèi)部的膜蛋白由一些非極性的氨基酸組成,與脂質(zhì)分子的疏水尾部相互結(jié)合,因此與膜結(jié)合非常緊密。所以,對膜蛋白的跨膜區(qū)進行預(yù)測是生物信息學(xué)的重要應(yīng)用。蛋白質(zhì)的跨膜區(qū)內(nèi)在膜蛋白露出膜外的部分含較多利用TMpred分析蛋白質(zhì)的跨膜區(qū)TMpred是EMBnet開發(fā)的一個分析蛋白質(zhì)跨膜區(qū)的在線工具,TMpred基于對TMbase數(shù)據(jù)庫的統(tǒng)計分析來預(yù)測蛋白質(zhì)跨膜區(qū)和跨膜方向。TMbase來源于Swiss-Prot庫,并包含了每個序列的一些附加信息,如:跨膜結(jié)構(gòu)區(qū)域的數(shù)量、跨膜結(jié)構(gòu)域的位置及其側(cè)翼序列的情況。TMpred利用這些信息并與若干加權(quán)矩陣結(jié)合來進行預(yù)測。其網(wǎng)址為:
/software/TMPRED_form.html利用TMpred分析蛋白質(zhì)的跨膜區(qū)TMprTMpred在線網(wǎng)頁TMpred在線網(wǎng)頁用TMpred分析P51684序列所得到的可能的7個跨膜螺旋區(qū)用TMpred分析P51684序列所得到的可能的7個跨膜螺旋用TMpred分析P51684序列所得到的7個可能的跨膜螺旋區(qū)的相關(guān)性列表用TMpred分析P51684序列所得到的7個可能的跨膜螺旋用TMpred分析P51684序列所得到的7個可能的跨膜螺旋區(qū)的建議的跨膜拓?fù)淠P陀肨Mpred分析P51684序列所得到的7個可能的跨膜螺旋用TMpred分析P51684序列所得到的7個可能的跨膜螺旋區(qū)的圖形顯示結(jié)果用TMpred分析P51684序列所得到的7個可能的跨膜螺旋四、信號肽—signalpeptide
信號肽是指新合成多肽鏈中用于指導(dǎo)蛋白質(zhì)跨膜轉(zhuǎn)移的末端(通常為N末端)的氨基酸序列。信號肽中至少含有一個帶正電荷的氨基酸,中部有一個高度疏水區(qū)以通過細(xì)胞膜。信號肽假說認(rèn)為,編碼分泌蛋白的mRNA在翻譯時首先合成的是N末端帶有疏水氨基酸殘基的信號肽,它被內(nèi)質(zhì)網(wǎng)膜上的受體識別并與之相結(jié)合。信號肽經(jīng)由膜中蛋白質(zhì)形成的孔道到達內(nèi)質(zhì)網(wǎng)內(nèi)腔,隨機被位于腔表面的信號肽酶水解,由于它的引導(dǎo),新生的多肽就能夠通過內(nèi)質(zhì)網(wǎng)膜進入腔內(nèi),最終被分泌到胞外。四、信號肽—signalpeptide信號蛋白質(zhì)的前導(dǎo)肽—leaderPeptide
前導(dǎo)肽是信號肽的一種。在線粒體蛋白質(zhì)的跨膜轉(zhuǎn)運過程中,通過線粒體膜的蛋白質(zhì)在轉(zhuǎn)運之前大多數(shù)以前體形式存在,它由成熟蛋白質(zhì)和N端延伸出的一段前導(dǎo)肽共同組成。迄今已有40多種線粒體蛋白質(zhì)前導(dǎo)肽的一級結(jié)構(gòu)被闡明,它們約含20~80個氨基酸殘基,當(dāng)前體蛋白跨模時,前導(dǎo)肽被一種或兩種多肽酶所水解轉(zhuǎn)變成為成熟蛋白質(zhì),同時失去繼續(xù)跨膜的能力。前導(dǎo)肽一般具有以下特性:(1)帶正電荷的堿性氨基酸(特別是精氨酸)含量較為豐富,它們分散于不帶電荷的氨基酸序列之間;(2)缺失帶負(fù)電荷的酸性氨基酸;(3)羥基氨基酸(特別是絲氨酸)含量較高;(4)有形成兩親(既有親水又有疏水部分)α-螺旋結(jié)構(gòu)的能力。蛋白質(zhì)的前導(dǎo)肽—leaderPeptide利用SignalP分析蛋白質(zhì)的前導(dǎo)肽SignalP是丹麥技術(shù)大學(xué)的生物序列分析中心開發(fā)的信號肽及其剪切位點檢測的在線工具,該軟件基于神經(jīng)網(wǎng)絡(luò)方法,用已知信號序列的革蘭氏陰性原核生物、革蘭氏陽性原核生物及真核生物的序列分別作為訓(xùn)練集。SignalP預(yù)測的是分泌型信號肽,而不是那些參與細(xì)胞內(nèi)信號傳遞的蛋白。其網(wǎng)址為:
http://genome.cbs.dtu.dk/services/SignalP/利用SignalP分析蛋白質(zhì)的前導(dǎo)肽SigSignalP在線網(wǎng)頁SignalP在線網(wǎng)頁用SignalP(神經(jīng)網(wǎng)絡(luò)方法)分析P05019序列前導(dǎo)肽的結(jié)果用SignalP(神經(jīng)網(wǎng)絡(luò)方法)分析P05019序列前導(dǎo)肽的用SignalP(隱馬爾可夫方法)分析P05019序列前導(dǎo)肽的結(jié)果用SignalP(隱馬爾可夫方法)分析P05019序列前導(dǎo)肽五、蛋白質(zhì)的卷曲螺旋—coiled-coil
卷曲螺旋是蛋白質(zhì)空間結(jié)構(gòu)中的一種,它是由2~7個α螺旋相互纏繞而形成超螺旋結(jié)構(gòu)的總稱。卷曲螺旋區(qū)域一般由7個氨基酸殘基為單位組成,以a、b、c、d、e、f、g位置表示,其中a和d位置為疏水性氨基酸,而其他位置的氨基酸殘基為親水性。許多含有卷曲螺旋結(jié)構(gòu)的蛋白質(zhì)具有重要的生物學(xué)功能,例如基因表達調(diào)控中的轉(zhuǎn)錄因子。含有卷曲螺旋結(jié)構(gòu)最知名的蛋白質(zhì)有原癌蛋白(oncoprotein)c-fos和jun,以及原肌球蛋白(tropomyosin)。五、蛋白質(zhì)的卷曲螺旋—coiled-coil利用COILS分析蛋白質(zhì)的卷曲螺旋COILS是由SwissEMBNet維護的預(yù)測卷曲螺旋的在線工具,該軟件是基于Lupas算法,將查詢序列在一個由已知包含卷曲螺旋蛋白結(jié)構(gòu)的數(shù)據(jù)庫中進行搜索,同時也將查詢序列與包含球狀蛋白序列的PDB次級庫進行比較,并根據(jù)兩個庫搜索得分決定查詢序列形成卷曲螺旋的概率。COILS也可以下載到本地進行運算。其網(wǎng)址為:/software/COILS_form.html利用COILS分析蛋白質(zhì)的卷曲螺旋COILCOILS在線網(wǎng)頁COILS在線網(wǎng)頁用COILS分析GO45_HUMAN卷曲螺旋的圖形顯示結(jié)果用COILS分析GO45_HUMAN卷曲螺旋的圖形顯示結(jié)果用COILS分析GO45_HUMAN卷曲螺旋的文本顯示結(jié)果用COILS分析GO45_HUMAN卷曲螺旋的文本顯示結(jié)果六、蛋白質(zhì)序列分析軟件包:Antheprot
對蛋白質(zhì)的研究是生物化學(xué)領(lǐng)域一個非常重要的部分。隨著人類基因組計劃的實施和完成,得到了大量的蛋白質(zhì)序列數(shù)據(jù),但是,面對如此眾多的蛋白質(zhì)序列數(shù)據(jù),其分析工作是一個非常困難的工作。用人工的方法是不可能完成如此大量的分析工作的。運用計算機,利用一定的運算規(guī)則,進行蛋白序列分析是唯一的方法。蛋白序列分析軟件包Antheprot正是這樣的一個程序。六、蛋白質(zhì)序列分析軟件包:Antheprot蛋白質(zhì)序列分析軟件包:AntheprotAntheprot是位于法國的蛋白質(zhì)生物與化學(xué)研究院用十多年時間開發(fā)出的蛋白質(zhì)研究軟件包,它包括了蛋白質(zhì)研究領(lǐng)域所包括的大多數(shù)內(nèi)容,功能非常強大。Antheprot的原始網(wǎng)站:http://antheprot-pbil.ibcp.fr/,我們可以到這個網(wǎng)站上下載軟件包,軟件包為一個自解壓執(zhí)行文件,文件名為Antheprot.exe,大小為51.3M。執(zhí)行此文件,輸入解壓后存放的目錄名,便可將所有文件解壓在此目錄下。主程序名為Anthepro,雙擊主程序名就可以打開Antheprot_2000的主窗口。通過主程序,我們可以輸入蛋白序列,對序列進行編輯、打印、拷貝、改變設(shè)置等操作,更重要的是,我們可以在此調(diào)用各種所需的分析工具,對蛋白序列進行分析。蛋白質(zhì)序列分析軟件包:AntheprotAnAntheprot主窗口Antheprot主窗口Antheprot主窗口中各按鍵的含義Openfile,打開文件;Changetextfont,更改字體、字型和大??;Changetextcolor,更改選定區(qū)域內(nèi)字的顏色;Sequenceinformation,序列信息,計算蛋白質(zhì)序列的分子量、比溶、各氨基酸殘基的百分比組成;Titrationcurve,滴定曲線,計算蛋白質(zhì)序列滴定曲線與等電點;Helicalwheelprojection,選定序列的一個片段后,繪制Helicalwheel圖;Antheprot主窗口中各按鍵的含義Openfile,打Antheprot主窗口中各按鍵的含義Predictionofcleavagesiteforsignalpeptide,預(yù)測信號肽的剪切位點;Secondarystructurepredictionbyall,預(yù)測蛋白質(zhì)序列的二級結(jié)構(gòu);PROSITEsite/signaturedetection,在蛋白質(zhì)序列中查找符合PROSITE數(shù)據(jù)庫的特征序列;Physico-chemicalprofiles,繪制蛋白質(zhì)序列的理化特性曲線;Pridicttransmembraneregion,預(yù)測跨膜區(qū);SimilaritysearchwithBlast,用Blast方法在選擇的數(shù)據(jù)庫中查找相似序列;Antheprot主窗口中各按鍵的含義PredictionAntheprot主窗口中各按鍵的含義SimilaritysearchwithFasta,用Fasta方法在選擇的數(shù)據(jù)庫中查找相似序列;DotMatrixPlot,進行點陣圖分析;Multiplealignment,多序列比對;Binaryalignment(BINALIGN),在當(dāng)前蛋白質(zhì)序列中查找符合Prosites數(shù)據(jù)庫的特征序列;Help,打開一個簡單的幫助文件;Quit,推出程序。Antheprot主窗口中各按鍵的含義SimilarityAntheprot基本功能1.編輯(edit)2.參數(shù)設(shè)置(setting)3.方法選擇(methods)4.數(shù)據(jù)庫(database)Antheprot基本功能1.編輯(edit)第四節(jié)序列綜合分析Section4
SequenceAnalysisSoftware
第四節(jié)序列綜合分析Section4Seque一、EMBOSS軟件包EMBOSS軟件包是一個開源的序列分析軟件包,該軟件包源于1988年開始開發(fā)的EGCG系統(tǒng),整合了目前可以獲得的大部分序列分析軟件,并有一套專門設(shè)計的C語言庫函數(shù)。該軟件包含160多個小型程序,能夠完成自動識別處理不同格式存儲的數(shù)據(jù),可以通過互聯(lián)網(wǎng)提取數(shù)據(jù),能很好地進行序列模體(motif)、關(guān)鍵詞同源性數(shù)據(jù)庫搜索,進行序列比較、進化分析、序列兩級結(jié)構(gòu)分析、限制性酶切圖譜分析、引物設(shè)計、序列模式識別與翻譯、片段拼接等工作。EMBOSS遵照GPL協(xié)議,打破了商業(yè)軟件包發(fā)展的傳統(tǒng)模式,使科研工作者在自由、免費的軟件世界享受功能強大的分析工具。
EMBOSS的主頁網(wǎng)址為:/EMBOSS—EuropeanMolecularBiologyOpenSoftwareSuite一、EMBOSS軟件包EMBOSS軟件包是一EMBOSS的運行環(huán)境EMBOSS軟件包主要運行于linux操作系統(tǒng)和Mac操作系統(tǒng)?,F(xiàn)在基于Windows操作系統(tǒng)的EMBOSS也是能自由免費使用的。需要說明的是基于windows操作系統(tǒng)時,主要采用staden進入EMBOSS,在使用的同時,需要安裝Embosswin軟件。
Embosswin的下載網(wǎng)址是:
/pub/EMBOSS/wEMBOSSExplorerindows/
EMBOSS的運行環(huán)境EMBOSS軟件包主JEMBOSS使用界面JEMBOSS使用界面EMBOSSExplorer使用界面EMBOSSExplorer使用界面二、DNAstar軟件包DNAstar軟件包可在計算機上進行DNA和蛋白序列分析,可進行分子生物學(xué)中的小規(guī)模序列分析和多序列比對。DNAstar軟件包有PCWindows和Macintosh兩種版本,它的一個主要功能是有7種程序可以針對不同的應(yīng)用,用戶可根據(jù)自己的需要進行選擇。有關(guān)DNAstar軟件包更詳細(xì)的信息查詢網(wǎng)站:
二、DNAstar軟件包DNAstar軟件DNAstar的安裝環(huán)境
該軟件包可以在蘋果機(Macintosh)上和在PC機(Windows)上安裝和升級。建議至少30Mb的硬盤,32Mb的RAM。DNAstar的安裝環(huán)境該軟件包可以在蘋
三、Omiga2.0軟件包Omiga2.0是一款強大的蛋白質(zhì)、核酸分析軟件,可以實現(xiàn)對核酸序列和蛋白序列分析的大部分功能,同時它還兼有引物設(shè)計的功能。三、Omiga2.0軟件包Omiga2.0Omiga2.0的主要功能實現(xiàn)核酸序列與其互補鏈之間的轉(zhuǎn)化,序列的拷貝、刪除、粘貼、置換以及轉(zhuǎn)化為RNA鏈,以不同的讀碼框、遺傳密碼標(biāo)準(zhǔn)翻譯成蛋白質(zhì)序列。2.查找核酸限制性酶切位點、序列模式及開放閱讀框,設(shè)計并評估PCR、測序引物。3.查找蛋白質(zhì)的水解蛋白位點(ProteolyticSites)、序列模式、二級結(jié)構(gòu)等。查尋結(jié)果可以以圖譜及表格的顯示,表格設(shè)有多種顯示形式。Omiga2.0的主要功能實現(xiàn)核酸序列與其互補鏈之間的轉(zhuǎn)化四、VectorNTI軟件包VectorNTI是由Informax公司開發(fā)的一種高度集成、功能齊全的分子生物學(xué)應(yīng)用軟件,可以對DNA、蛋白質(zhì)分子進行分析和操作。有關(guān)VectorNTI更多的信息可以登錄VectorNTI的官方網(wǎng)查詢:
/四、VectorNTI軟件包VectorVectorNTI主要功能DNA序列的開放閱讀框、序列模式、功能區(qū)搜索、限制酶圖譜、蛋白質(zhì)翻譯。PCR引物、測序引物、雜交探針的設(shè)計和評價。DNA測序片斷的拼接。4.同源比較和系統(tǒng)發(fā)育樹構(gòu)建。5.蛋白質(zhì)結(jié)構(gòu)預(yù)測三維結(jié)構(gòu)、化學(xué)鍵、翻譯后修飾位點、結(jié)構(gòu)域等。6.模擬電泳瓊脂糖電泳、PAGE。VectorNTI主要功能DNA序列的開放閱讀框、序列模蛋白質(zhì)空間結(jié)構(gòu)
蛋白質(zhì)的生物學(xué)功能在很大程度上取決于蛋白質(zhì)的空間結(jié)構(gòu),但蛋白質(zhì)的空間結(jié)構(gòu)又取決于蛋白質(zhì)一級結(jié)構(gòu)中的氨基酸組成和排列順序,蛋白質(zhì)結(jié)構(gòu)構(gòu)象多樣性導(dǎo)致了不同的生物學(xué)功能。蛋白質(zhì)分子只有處于它自己特定的空間結(jié)構(gòu)情況下,才能獲得它特定的生物活性,空間結(jié)構(gòu)稍有破壞,就很可能會導(dǎo)致蛋白質(zhì)生物活性的降低甚至喪失,因為它們的特定的結(jié)構(gòu)允許它們結(jié)合特定的配體分子。知道了基因密碼,科學(xué)家們可以推演出組成某種蛋白質(zhì)的氨基酸序列,卻無法繪制蛋白質(zhì)空間結(jié)構(gòu)。因而,揭示人類每一種蛋白質(zhì)的空間結(jié)構(gòu),已成為后基因組時代的制高點,這也是結(jié)構(gòu)基因組學(xué)的基本任務(wù)。蛋白質(zhì)空間結(jié)構(gòu)11個密碼子使用的指標(biāo)序號全稱縮寫1234567891011CodonAdaptationIndexFrequencyofOptimalCodonsCodonBiasIndexTheeffectivenumberofcodonsG+CcontentofthegeneG+Ccontentat3rdpositionofsynonymouscodonsSilentbasecompositionNumberofsilentsitesandaminoacidsHydrophobicityofproteinAromaticityscoreCAIFopCBIENcG+CGC3sLSilLAAGRAVYAromo11個密碼子使用的指標(biāo)序號全稱縮寫1Codon用ProtParam分析G00016序列理化性質(zhì)的結(jié)果用ProtParam分析G00016序列理化性質(zhì)的結(jié)果用TMpred分析P51684序列所得到的7個可能的跨膜螺旋區(qū)的圖形顯示結(jié)果用TMpred分析P51684序列所得到的7個可能的跨膜螺旋利用COILS分析蛋白質(zhì)的卷曲螺旋COILS是由SwissEMBNet維護的預(yù)測卷曲螺旋的在線工具,該軟件是基于Lupas算法,將查詢序列在一個由已知包含卷曲螺旋蛋白結(jié)構(gòu)的數(shù)據(jù)庫中進行搜索,同時也將查詢序列與包含球狀蛋白序列的PDB次級庫進行比較,并根據(jù)兩個庫搜索得分決定查詢序列形成卷曲螺旋的概率。COILS也可以下載到本地進行運算。其網(wǎng)址為:/software/COILS_form.html利用COILS分析蛋白質(zhì)的卷曲螺旋COILAntheprot主窗口Antheprot主窗口Antheprot主窗口中各按鍵的含義Predictionofcleavagesiteforsignalpeptide,預(yù)測信號肽的剪切位點;Secondarystructurepredictionbyall,預(yù)測蛋白質(zhì)序列的二級結(jié)構(gòu);PROSITEsite/signaturedetection,在蛋白質(zhì)序列中查找符合PROSITE數(shù)據(jù)庫的特征序列;Physico-chemicalprofiles,繪制蛋白質(zhì)序列的理化特性曲線;Pridicttransmembraneregion,預(yù)測跨膜區(qū);SimilaritysearchwithBlast,用Blast方法在選擇的數(shù)據(jù)庫中查找相似序列;Antheprot主窗口中各按鍵的含義Prediction四、VectorNTI軟件包VectorNTI是由Informax公司開發(fā)的一種高度集成、功能齊全的分子生物學(xué)應(yīng)用軟件,可以對DNA、蛋白質(zhì)分子進行分析和操作。有關(guān)VectorNTI更多的信息可以登錄VectorNTI的官方網(wǎng)查詢:
/四、VectorNTI軟件包Vector第一節(jié)引言一、基因結(jié)構(gòu)Section1
Introduction
基因的概念是隨著遺傳學(xué)、分子生物學(xué)、生物化學(xué)等領(lǐng)域的發(fā)展不斷完善的。從分子生物學(xué)角度來看,基因是負(fù)載特定生物遺傳信息的DNA分子片段,在一定的條件下能夠表達這種遺傳信息,產(chǎn)生特定的生理功能。第一節(jié)引言一、基因結(jié)構(gòu)Section1Int原核生物基因結(jié)構(gòu):
一個完整的原核基因結(jié)構(gòu)是從基因的5'端啟動子區(qū)域開始,到3'端終止區(qū)域結(jié)束?;虻霓D(zhuǎn)錄開始位置由轉(zhuǎn)錄起始位點確定,轉(zhuǎn)錄過程直至遇到轉(zhuǎn)錄終止位點結(jié)束,轉(zhuǎn)錄的內(nèi)容包括5'端非翻譯區(qū)、開放閱讀框及3'端非翻譯區(qū)?;蚍g的準(zhǔn)確起止位置由起始密碼子和終止密碼子決定,翻譯的對象即為介于這兩者之間的開放閱讀框ORF。原核生物基因結(jié)構(gòu):一個完整的原核基因結(jié)構(gòu)是從基因的5操縱子模型結(jié)構(gòu)
原核生物大多數(shù)基因表達調(diào)控是通過操縱子機制實現(xiàn)的。所謂操縱子通常由調(diào)節(jié)基因、啟動子、操縱基因以及2個以上的編碼序列(結(jié)構(gòu)基因)在原核生物基因組中成簇串聯(lián)組成。其中結(jié)構(gòu)基因的表達受到操縱基因的調(diào)控。調(diào)節(jié)基因能產(chǎn)生作用于操縱基因的阻遏物(一種蛋白質(zhì)),操縱基因靠近它所控制的結(jié)構(gòu)基因,阻遏物與操縱基因的結(jié)合能阻止結(jié)構(gòu)基因的轉(zhuǎn)錄。操縱子模型結(jié)構(gòu)原核生物大多數(shù)基因表達調(diào)控是通過操縱子真核生物基因結(jié)構(gòu):
一個完整的真核生物基因,不但包括編碼區(qū)域,還包括5'端和3'端兩側(cè)長度不等的特異性序列,雖然這些序列不編碼氨基酸,卻在基因表達的過程中起著重要的作用。所以,嚴(yán)格的“基因”這一術(shù)語的分子生物學(xué)定義是:產(chǎn)生一條多肽鏈或功能RNA所必須的全部核苷酸序列。真核生物基因結(jié)構(gòu):一個完整的真核生物基因,不但包括編二、蛋白質(zhì)結(jié)構(gòu)
蛋白質(zhì)是一種生物大分子,蛋白質(zhì)中相鄰的氨基酸通過肽鍵形成一條伸展的肽鏈,這條鏈稱為蛋白質(zhì)的一級結(jié)構(gòu),不同蛋白質(zhì)其肽鏈的長度不同,肽鏈中不同氨基酸的組成和排列順序也各不相同。肽鏈上的氨基酸殘基形成局部的二級結(jié)構(gòu),各種二級結(jié)構(gòu)在空間卷曲折疊形成特定的三維空間結(jié)構(gòu)。有的蛋白質(zhì)由多條肽鏈組成,每條肽鏈稱為亞基,亞基之間又有特定的空間關(guān)系,稱為蛋白質(zhì)的四級結(jié)構(gòu)。二、蛋白質(zhì)結(jié)構(gòu)蛋白質(zhì)是一種生物大分子,蛋白質(zhì)中相鄰的蛋白質(zhì)的一級結(jié)構(gòu)蛋白質(zhì)的一級結(jié)構(gòu)決定二級結(jié)構(gòu)蛋白質(zhì)的二級結(jié)構(gòu)決定三級結(jié)構(gòu)蛋白質(zhì)的一級結(jié)構(gòu)蛋白質(zhì)的一級結(jié)構(gòu)決定二級結(jié)構(gòu)蛋白質(zhì)的二級結(jié)構(gòu)H表示螺旋E表示折疊B表示β橋G表示3-螺旋I表示π螺旋T表示氫鍵轉(zhuǎn)角S代表轉(zhuǎn)向蛋白質(zhì)的二級結(jié)構(gòu)H表示螺旋E表示折疊B表蛋白質(zhì)空間結(jié)構(gòu)
蛋白質(zhì)的生物學(xué)功能在很大程度上取決于蛋白質(zhì)的空間結(jié)構(gòu),但蛋白質(zhì)的空間結(jié)構(gòu)又取決于蛋白質(zhì)一級結(jié)構(gòu)中的氨基酸組成和排列順序,蛋白質(zhì)結(jié)構(gòu)構(gòu)象多樣性導(dǎo)致了不同的生物學(xué)功能。蛋白質(zhì)分子只有處于它自己特定的空間結(jié)構(gòu)情況下,才能獲得它特定的生物活性,空間結(jié)構(gòu)稍有破壞,就很可能會導(dǎo)致蛋白質(zhì)生物活性的降低甚至喪失,因為它們的特定的結(jié)構(gòu)允許它們結(jié)合特定的配體分子。知道了基因密碼,科學(xué)家們可以推演出組成某種蛋白質(zhì)的氨基酸序列,卻無法繪制蛋白質(zhì)空間結(jié)構(gòu)。因而,揭示人類每一種蛋白質(zhì)的空間結(jié)構(gòu),已成為后基因組時代的制高點,這也是結(jié)構(gòu)基因組學(xué)的基本任務(wù)。蛋白質(zhì)空間結(jié)構(gòu)
對DNA序列和蛋白質(zhì)序列進行序列特征分析,能夠使我們從分子層次上了解基因的結(jié)構(gòu)特點,了解與基因表達調(diào)控相關(guān)的信息,了解DNA序列與蛋白質(zhì)序列之間的編碼,了解蛋白質(zhì)序列與蛋白質(zhì)空間結(jié)構(gòu)之間的關(guān)系和規(guī)律,為進一步研究了解蛋白質(zhì)功能與蛋白質(zhì)結(jié)構(gòu)之間的關(guān)系提供理論依據(jù)。對DNA序列和蛋白質(zhì)序列進行序列特征分析,能夠使我們第二節(jié)DNA序列特征分析Section2
AnalysisofDNASequenceCharacteristics
分析DNA序列,除了進行序列比對之外,更重要的工作是從序列中找到基因及其表達調(diào)控信息。尋找基因的工作有兩個:一是識別與基因相關(guān)的特殊序列信號,如啟動子、起始密碼子,通過信號識別大致確定基因所在的區(qū)域;二是預(yù)測基因的編碼區(qū)域,或預(yù)測外顯子所在的區(qū)域。在此基礎(chǔ)上,結(jié)合兩個方面的結(jié)果確定基因的位置和結(jié)構(gòu)。絕大部分基因表達調(diào)控信息隱藏在基因序列的上游區(qū)域,在組成上具有一定的特征,可以通過序列分析識別這些特征。第二節(jié)DNA序列特征分析Section2Anal一、開放閱讀框ORF—openreadingframe
開放閱讀框指的是從5'端開始翻譯起始密碼子(ATG)到終止密碼子(TTA、TAG、TGA)的蛋白質(zhì)編碼堿基序列。每個序列都有6個可能的開放閱讀框,其中3個開始于第1、2、3個堿基位點并沿著給定序列的5'→3'的方向進行延伸,而另外的3個開始于第1、2、3個堿基位點但沿著互補序列的5'→3'的方向進行延伸。在開始這項工作之前,我們并不知道DNA雙鏈中哪一條單鏈?zhǔn)蔷幋a鏈,也不知道準(zhǔn)確的翻譯起始點在何處,由于每條鏈都有3種可能的開發(fā)閱讀框,2條鏈共計6種可能的開放讀框,我們的目的就是從這6個可能的開放閱讀框中找出一個正確的開放閱讀框。根據(jù)這個開放閱讀框翻譯得到的氨基酸序列才是真正表達的蛋白質(zhì)產(chǎn)物。一、開放閱讀框ORF—openreadingframe真核生物的開放閱讀框
真核生物的開放閱讀框不僅含有編碼蛋白的外顯子(exon),而且還有內(nèi)含子(intron),并且內(nèi)含子將開放閱讀框分割為若干個小片段。開放閱讀框的長度變化范圍非常大,因此真核生物的基因預(yù)測遠(yuǎn)比原核生物困難。但是,在真核生物的開放閱讀框中,外顯子與內(nèi)含子之間的連接絕大部分情況下滿足GT-AG規(guī)律:內(nèi)含子序列5'端的起始兩個核苷酸總是GT,并且其3'端的最后兩個核苷酸總是AG,即:5'-GT……AG-3',這個規(guī)律有助于真核生物開放閱讀框的識別。真核生物的開放閱讀框真核生物的開放閱讀框不僅含有編碼利用GENSCAN識別基因開放閱讀框GENSCAN是美國麻省理工學(xué)院的ChrisBurge于1997年開發(fā)成功的人類(或脊椎動物)基因預(yù)測軟件,它是根據(jù)基因組DNA序列來預(yù)測開放閱讀框及基因結(jié)構(gòu)信息的開放式在線資源,尤其適用于脊椎動物、擬南芥和玉米等真核生物。GENSCAN的網(wǎng)址為:
http://genes.M/GENSCAN.html利用GENSCAN識別基因開放閱讀框GENSGENSCAN在線操作頁面GENSCAN在線操作頁面用GENSCAN預(yù)測AC002390序列的基因/外顯子用GENSCAN預(yù)測AC002390序列的基因/外顯子用GENSCAN預(yù)測AC002390序列的基因/外顯子的位置圖起始外顯子終止外顯子用GENSCAN預(yù)測AC002390序列的基因/外顯子的位置二、CpG島——CpGislands
CpG島是指DNA序列上的一個區(qū)域,此區(qū)域含有大量相聯(lián)的胞嘧啶(C)、鳥嘌呤(G),以及使兩者相連的磷酸酯鍵(p)。CpG島的概念是Gardiner-garden和Fromner于1987年提出的,基因中平均每100Kb即可出現(xiàn)。CpG島位于基因的啟動子和第一個外顯子區(qū),約有60%~80%的人類基因的啟動子和起始外顯子含有CpG島,其中GC含量大于50%,長度超過200bp。因此搜索CpG島可以為基因及其啟動子預(yù)測提供重要線索。二、CpG島——CpGislandsCp利用CpGPlot預(yù)測分析CpG島CpGPlot是預(yù)測CpG島的在線工具,它是由歐洲分子生物學(xué)實驗室EMBL——EuropeanMolecularBiologyLaboratory提供的。其網(wǎng)址為:http://www.ebi.ac.uk/Tools/emboss/cpgplot/index.html利用CpGPlot預(yù)測分析CpG島CpGPCpGPlot在線操作頁面CpGPlot在線操作頁面用CpGplot預(yù)測AC002390序列的CpG島的結(jié)果用CpGplot預(yù)測AC002390序列的CpG島的結(jié)果用CpGReport預(yù)測AC002390序列的CpG島的結(jié)果用CpGReport預(yù)測AC002390序列的CpG島的結(jié)果三、轉(zhuǎn)錄終止信號
轉(zhuǎn)錄終止信號是在mRNA序列的3'端終止密碼子下游位置上的加尾信號(tailingsignal)。前體mRNA3'端多聚腺苷酸化是真核細(xì)胞內(nèi)mRNA轉(zhuǎn)錄后處理的三個最主要步驟之一,這三個步驟包括:5'帽子結(jié)構(gòu)的形成、內(nèi)含子的剪切及3'端的多聚腺苷酸化,因此,前體mRNA3'端多聚腺苷酸化與mRNA穩(wěn)定性的調(diào)節(jié)、mRNA的細(xì)胞內(nèi)轉(zhuǎn)運、翻譯的起始以及一些其他的細(xì)胞機制和疾病機制有著重要關(guān)系。三、轉(zhuǎn)錄終止信號轉(zhuǎn)錄終止信號是在mRNA序列真核生物前體mRNA3'端的多聚腺苷酸化包括兩個步驟:1.特異性的核苷酸內(nèi)切酶在PolyA位點處進行斷裂;2.腺苷酸聚合酶在斷裂位點處添加PolyA尾巴,其主要標(biāo)志為AATAAA或ATTAAA兩種序列,稱為多聚腺苷酸信號(polyadenylationsignal),簡稱PolyA信號序列,也稱為轉(zhuǎn)錄終止信號。在3'UTR區(qū)存在多個潛在PolyA位點,因此對PolyA位點的準(zhǔn)確識別,對于預(yù)測基因結(jié)構(gòu)、理解mRNA的形成機制及某些疾病的分子機制具有巨大的作用。真核生物前體mRNA3'端的多聚腺苷酸化包括兩個步驟:1.利用POLYAH預(yù)測分析轉(zhuǎn)錄終止信號SoftBerry網(wǎng)站的POLYAH軟件是識別3'端剪切和PolyA區(qū)域的在線工具。其網(wǎng)址為:/berry.phtml?topic=polyah&group=programs&subgroup=promoter,利用POLYAH預(yù)測分析轉(zhuǎn)錄終止信號SofPOLYAH在線頁面POLYAH在線頁面用POLYAH預(yù)測AC002390序列的轉(zhuǎn)錄終止信號的結(jié)果用POLYAH預(yù)測AC002390序列的轉(zhuǎn)錄終止信號的結(jié)果四、啟動子—promoters
啟動子是基因的一個組成部分,是位于結(jié)構(gòu)基因5'端上游區(qū)的DNA序列,控制基因表達(轉(zhuǎn)錄)的起始時間和表達的程度。啟動子本身并不控制基因活動,而是通過與稱為轉(zhuǎn)錄因子的蛋白質(zhì)結(jié)合而控制基因活動的。轉(zhuǎn)錄因子就像一面“旗子”,指揮RNA聚合酶的活動。如果基因的啟動子部分發(fā)生突變,則會導(dǎo)致基因表達的調(diào)節(jié)障礙。這種突變常見于惡性腫瘤。四、啟動子—promoters啟動子是基因的利用PromoterScan預(yù)測分析啟動子區(qū)域BioInformaticsandMolecularAnalysisSection網(wǎng)站的PromoterScan軟件是預(yù)測分析啟動子區(qū)域的在線工具。其網(wǎng)址為:/molbio/proscan/
利用PromoterScan預(yù)測分析啟動子區(qū)域PromoterScan在線網(wǎng)頁PromoterScan在線網(wǎng)頁用PromoterScan預(yù)測AC002390序列的啟動子區(qū)域的結(jié)果用PromoterScan預(yù)測AC002390序列的啟動子區(qū)五、密碼子偏好性
密碼子使用偏性是指生物體中編碼同一種氨基酸的同義密碼子的非均勻使用現(xiàn)象。這一現(xiàn)象的產(chǎn)生與諸多因素有關(guān),如基因的表達水平、翻譯起始效應(yīng)、基因的堿基組分、某些二核苷酸的出現(xiàn)頻率、G+C含量、基因的長度、tRNA的豐度、蛋白質(zhì)的結(jié)構(gòu)及密碼子一反密碼子間結(jié)合能的大小等。所以對密碼子使用偏好性的分析具有重要的生物學(xué)意義。五、密碼子偏好性密碼子使用偏性是指生物體中編利用CodonW分析密碼子偏好性CodonW是美國DEC公司開發(fā)的對密碼子的使用進行分析的免費的軟件工具。此軟件是建立在大量的統(tǒng)計學(xué)分析的基礎(chǔ)上,為了簡化在線分析的復(fù)雜性而開發(fā)的,它可以在Windows環(huán)境下運行,并且可以同時處理2000條以上的序列。通過對DNA或RNA序列的分析,CodonW會產(chǎn)生關(guān)于密碼子使用的相關(guān)指標(biāo)的統(tǒng)計學(xué)分析的數(shù)據(jù),我們可以利用這些數(shù)據(jù)對我們所要了解的序列進行分析。其下載網(wǎng)址為:ftp://molbiol.ox.ac.uk/cu/codonW.tar.Z。利用CodonW分析密碼子偏好性CodonCodonW1.4主菜單的操作頁面CodonW1.4主菜單的操作頁面11個密碼子使用的指標(biāo)序號全稱縮寫1234567891011CodonAdaptationIndexFrequencyofOptimalCodonsCodonBiasIndexTheeffectivenumberofcodonsG+CcontentofthegeneG+Ccontentat3rdpositionofsynonymouscodonsSilentbasecompositionNumberofsilentsitesandaminoacidsHydrophobicityofproteinAromaticityscoreCAIFopCBIENcG+CGC3sLSilLAAGRAVYAromo11個密碼子使用的指標(biāo)序號全稱縮寫1Codonwaxy基因的序列序號Genebank登陸號物種基因功能1234567AY094405AF486514X03935X62134X88789U23945X57233ArabidopsishalianaHordeumvulgareZeamaysO.sativaP.sativumSorghumbicolorWheatgranuleboundstarchsynthaseImRNAgranuleboundstarchsynthaseImRNAglucosyltransferasegranuleboundstarchsynthaseImRNAmRNAforstarchsynthasegranule-boundstarchsynthaseprecursor(Wx)mRNAwaxymRNAforgranule-boundstarchsynthasewaxy基因的序列序Genebank物種基因功能1AY用CodonW分析waxy基因所得的RSCU值和個數(shù)用CodonW分析waxy基因所得的RSCU值和個數(shù)第三節(jié)蛋白質(zhì)序列特征分析Section3
Analysisof
ProteinSequenceCharacteristics
蛋白質(zhì)是組成生物體的基本物質(zhì),是生命活動的主要承擔(dān)者,一切生命活動都與蛋白質(zhì)有關(guān)。雖然遺傳信息的攜帶者是核酸,但遺傳信息的傳遞和表達不僅要在酶的催化之下,并且也是在各種蛋白質(zhì)的調(diào)節(jié)控制下進行的。因此,分析處理蛋白質(zhì)序列數(shù)據(jù)的重要性并不亞于分析DNA序列數(shù)據(jù)。蛋白質(zhì)的生物功能由蛋白質(zhì)的結(jié)構(gòu)所決定,因此在研究蛋白質(zhì)的功能時需要了解蛋白質(zhì)的空間結(jié)構(gòu)。第三節(jié)蛋白質(zhì)序列特征分析Section3Analys
目前,一種基本認(rèn)可的假設(shè)是:蛋白質(zhì)的空間結(jié)構(gòu)由蛋白質(zhì)序列所決定,即我們可以根據(jù)蛋白質(zhì)序列預(yù)測蛋白質(zhì)結(jié)構(gòu),這是第二遺傳密碼的問題,也是一個更為復(fù)雜的問題,因為蛋白質(zhì)序列和蛋白質(zhì)空間結(jié)構(gòu)之間的關(guān)系要比DNA序列和蛋白質(zhì)序列之間的關(guān)系復(fù)雜得多。因此我們需要分析大量的數(shù)據(jù),從中找出蛋白質(zhì)序列和蛋白質(zhì)結(jié)構(gòu)間存在的關(guān)系和規(guī)律。目前,一種基本認(rèn)可的假設(shè)是:蛋白質(zhì)的空間結(jié)構(gòu)由蛋白質(zhì)一、蛋白質(zhì)的理化性質(zhì)
蛋白質(zhì)是由氨基酸組成的大分子化合物,對組成蛋白質(zhì)的氨基酸進行理化性質(zhì)的統(tǒng)計分析是對一個未知蛋白質(zhì)進行分析的基礎(chǔ)。蛋白質(zhì)的理化性質(zhì)包括蛋白質(zhì)的分子量、氨基酸的組成、等電點、消光系數(shù)、親水性和疏水性、跨膜區(qū)、信號肽、翻譯后修飾位點等。一、蛋白質(zhì)的理化性質(zhì)蛋白質(zhì)是由氨基酸組成的利用ProtParam分析蛋白質(zhì)的理化性質(zhì)ExPASy(ExpertProteinAnalysisSystem)是由瑞士生物信息學(xué)中心維護,并與歐洲生物信息學(xué)中心(EBI)及蛋白質(zhì)信息資源(proteininformationresource,PIR)組成UniversalProteinKnowledgebase聯(lián)盟。ExPASy數(shù)據(jù)庫提供了一系列蛋白質(zhì)理化分析工具,以便于檢索未知蛋白質(zhì)的理化性質(zhì),并基于這些理化性質(zhì)鑒別未知蛋白質(zhì)的類別,為后續(xù)實驗提供幫助。其中ProtParam(physico-chemicalparametersofaproteinsequence)就是計算氨基酸理化參數(shù)常用的在線工具。其網(wǎng)址為:
/tools/protparam.html利用ProtParam分析蛋白質(zhì)的理化性質(zhì)EProtParam在線頁面ProtParam在線頁面用ProtParam分析G00016序列理化性質(zhì)的結(jié)果用ProtParam分析G00016序列理化性質(zhì)的結(jié)果二、蛋白質(zhì)的親水性或疏水性氨基酸通常被分為三類:1.疏水氨基酸(hydrophobicaminoacid),其側(cè)鏈大部分或者全部由碳原子和氫原子組成,因此這類氨基酸不太可能與水分子形成氫鍵;2.極性氨基酸(polaraminoacid),其測鏈通常由氧原子或氮原子組成,它們比較容易與水分子形成氫鍵,因此也稱為親水氨基酸;3.帶電氨基酸(chargedaminoacids),這類氨基酸在生物
pH環(huán)境中帶有正電或負(fù)電。蛋白質(zhì)的基本組成單元是氨基酸。二、蛋白質(zhì)的親水性或疏水性氨基酸通常被分為三類:蛋白質(zhì)的基本蛋白質(zhì)的親水性或疏水性
氨基酸的親疏水性是構(gòu)成蛋白質(zhì)折疊的主要驅(qū)動力,一般通過親水性分布圖(hydropathyprofile)反映蛋白質(zhì)的折疊情況。蛋白質(zhì)折疊時會形成疏水內(nèi)核和親水表面,同時在潛在跨膜區(qū)出現(xiàn)高疏水值區(qū)域,據(jù)此可以測定跨膜螺旋等二級結(jié)構(gòu)和蛋白質(zhì)表面氨基酸分布。蛋白質(zhì)的親水性或疏水性氨基酸的親疏水性是構(gòu)成利用ProtScale分析蛋白質(zhì)的親水性或疏水性ExPASy的ProtScale程序是計算蛋白質(zhì)親疏水性分析的在線工具。其網(wǎng)址為:
/tools/protscale.html利用ProtScale分析蛋白質(zhì)的親水性或疏水性ProtScale在線頁面ProtScale在線頁面用ProtScale分析P02699序列疏水性結(jié)果的圖形顯示用ProtScale分析P02699序列疏水性結(jié)果的圖形顯示Hohob./Kyte&Doolittle標(biāo)度Hohob./Kyte&Doolittle標(biāo)度用Windowsize=13時計算窗口內(nèi)每個位置上氨基酸的標(biāo)度權(quán)值用Windowsize=13時計算窗口內(nèi)每個位置上氨基酸的三、蛋白質(zhì)的跨膜區(qū)
生物膜所含的蛋白質(zhì)叫膜蛋白,是生物膜功能的主要承擔(dān)者。根據(jù)蛋白質(zhì)分離的難易及在膜中分布的位置,膜蛋白基本可分為兩大類:外在膜蛋白和內(nèi)在膜蛋白。外在膜蛋白約占膜蛋白的20%~30%,分布在膜的內(nèi)外表面,主要在內(nèi)表面,為水溶性蛋白,它通過離子鍵、氫鍵與膜脂分子的極性頭部相結(jié)合,或通過與內(nèi)在蛋白質(zhì)的相互作用間接與膜結(jié)合;內(nèi)在膜蛋白約占膜蛋白的70%~80%,是雙親媒性分子,可不同程度的嵌入脂雙層分子中。有的貫穿整個脂雙層,兩端暴露于膜的內(nèi)外表面,這種類型的膜蛋白又稱跨膜蛋白。三、蛋白質(zhì)的跨膜區(qū)生物膜所含的蛋白質(zhì)叫膜蛋白蛋白質(zhì)的跨膜區(qū)
內(nèi)在膜蛋白露出膜外的部分含較多的極性氨基酸,屬親水性,與磷脂分子的親水頭部鄰近;嵌入脂雙層內(nèi)部的膜蛋白由一些非極性的氨基酸組成,與脂質(zhì)分子的疏水尾部相互結(jié)合,因此與膜結(jié)合非常緊密。所以,對膜蛋白的跨膜區(qū)進行預(yù)測是生物信息學(xué)的重要應(yīng)用。蛋白質(zhì)的跨膜區(qū)內(nèi)在膜蛋白露出膜外的部分含較多利用TMpred分析蛋白質(zhì)的跨膜區(qū)TMpred是EMBnet開發(fā)的一個分析蛋白質(zhì)跨膜區(qū)的在線工具,TMpred基于對TMbase數(shù)據(jù)庫的統(tǒng)計分析來預(yù)測蛋白質(zhì)跨膜區(qū)和跨膜方向。TMbase來源于Swiss-Prot庫,并包含了每個序列的一些附加信息,如:跨膜結(jié)構(gòu)區(qū)域的數(shù)量、跨膜結(jié)構(gòu)域的位置及其側(cè)翼序列的情況。TMpred利用這些信息并與若干加權(quán)矩陣結(jié)合來進行預(yù)測。其網(wǎng)址為:
/software/TMPRED_form.html利用TMpred分析蛋白質(zhì)的跨膜區(qū)TMprTMpred在線網(wǎng)頁TMpred在線網(wǎng)頁用TMpred分析P51684序列所得到的可能的7
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025陜西省建筑安全員《A證》考試題庫
- 2025青海建筑安全員A證考試題庫附答案
- 團隊管理經(jīng)驗分享培訓(xùn)課件
- 世界觀與方法論的關(guān)系
- JJF(桂)-稱重容罐校準(zhǔn)規(guī)范試驗報告
- 三角形王國 小班數(shù)學(xué)
- 《惡性青光眼》課件
- 解題方法突破 分類討論課件-名師微課堂
- 《基因變異疾病》課件
- 江蘇省蘇州市姑蘇區(qū)2024-2025學(xué)年八年級上學(xué)期期末質(zhì)量監(jiān)測歷史卷(含答案)
- 閘門及啟閉機安裝專項施工方案
- 應(yīng)征公民體格檢查表(征兵)
- 鋼筋位置及保護層厚度檢測ppt課件
- 巖石堅固性和穩(wěn)定性分級表
- 張可填充顏色的中國地圖與世界地圖課件
- CNC程序控制管理辦法
- 案例思念休閑吧
- 北京石油機械廠螺桿鉆具使用說明書-最新
- (完整版)虛擬語氣練習(xí)題(含答案)
- 六年級語文(部編)上冊詞語表拼音
- 模板2-課堂學(xué)習(xí)任務(wù)單
評論
0/150
提交評論