序列特征分析課件_第1頁
序列特征分析課件_第2頁
序列特征分析課件_第3頁
序列特征分析課件_第4頁
序列特征分析課件_第5頁
已閱讀5頁,還剩82頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第四章序列特征分析Analysis

ofSequenceCharacterristics第一節(jié)引言一、基因結構Section1

Introduction

基因的概念是隨著遺傳學、分子生物學、生物化學等領域的發(fā)展不斷完善的。從分子生物學角度來看,基因是負載特定生物遺傳信息的DNA分子片段,在一定的條件下能夠表達這種遺傳信息,產(chǎn)生特定的生理功能。原核生物基因結構:

一個完整的原核基因結構是從基因的5'端啟動子區(qū)域開始,到3'端終止區(qū)域結束。基因的轉錄開始位置由轉錄起始位點確定,轉錄過程直至遇到轉錄終止位點結束,轉錄的內容包括5'端非翻譯區(qū)、開放閱讀框及3'端非翻譯區(qū)?;蚍g的準確起止位置由起始密碼子和終止密碼子決定,翻譯的對象即為介于這兩者之間的開放閱讀框ORF。真核生物基因結構:

一個完整的真核生物基因,不但包括編碼區(qū)域,還包括5'端和3'端兩側長度不等的特異性序列,雖然這些序列不編碼氨基酸,卻在基因表達的過程中起著重要的作用。所以,嚴格的“基因”這一術語的分子生物學定義是:產(chǎn)生一條多肽鏈或功能RNA所必須的全部核苷酸序列。二、蛋白質結構

蛋白質是一種生物大分子,蛋白質中相鄰的氨基酸通過肽鍵形成一條伸展的肽鏈,這條鏈稱為蛋白質的一級結構,不同蛋白質其肽鏈的長度不同,肽鏈中不同氨基酸的組成和排列順序也各不相同。肽鏈上的氨基酸殘基形成局部的二級結構,各種二級結構在空間卷曲折疊形成特定的三維空間結構。有的蛋白質由多條肽鏈組成,每條肽鏈稱為亞基,亞基之間又有特定的空間關系,稱為蛋白質的四級結構。蛋白質的一級結構蛋白質的一級結構決定二級結構蛋白質的二級結構決定三級結構蛋白質的二級結構H表示螺旋E表示折疊B表示β橋G表示3-螺旋I表示π螺旋T表示氫鍵轉角S代表轉向

對DNA序列和蛋白質序列進行序列特征分析,能夠使我們從分子層次上了解基因的結構特點,了解與基因表達調控相關的信息,了解DNA序列與蛋白質序列之間的編碼,了解蛋白質序列與蛋白質空間結構之間的關系和規(guī)律,為進一步研究了解蛋白質功能與蛋白質結構之間的關系提供理論依據(jù)。第二節(jié)DNA序列特征分析Section2

AnalysisofDNASequenceCharacteristics

分析DNA序列,除了進行序列比對之外,更重要的工作是從序列中找到基因及其表達調控信息。尋找基因的工作有兩個:一是識別與基因相關的特殊序列信號,如啟動子、起始密碼子,通過信號識別大致確定基因所在的區(qū)域;二是預測基因的編碼區(qū)域,或預測外顯子所在的區(qū)域。在此基礎上,結合兩個方面的結果確定基因的位置和結構。絕大部分基因表達調控信息隱藏在基因序列的上游區(qū)域,在組成上具有一定的特征,可以通過序列分析識別這些特征。真核生物的開放閱讀框

真核生物的開放閱讀框不僅含有編碼蛋白的外顯子(exon),而且還有內含子(intron),并且內含子將開放閱讀框分割為若干個小片段。開放閱讀框的長度變化范圍非常大,因此真核生物的基因預測遠比原核生物困難。但是,在真核生物的開放閱讀框中,外顯子與內含子之間的連接絕大部分情況下滿足GT-AG規(guī)律:內含子序列5'端的起始兩個核苷酸總是GT,并且其3'端的最后兩個核苷酸總是AG,即:5'-GT……AG-3',這個規(guī)律有助于真核生物開放閱讀框的識別。利用GENSCAN識別基因開放閱讀框

GENSCAN是美國麻省理工學院的ChrisBurge于1997年開發(fā)成功的人類(或脊椎動物)基因預測軟件,它是根據(jù)基因組DNA序列來預測開放閱讀框及基因結構信息的開放式在線資源,尤其適用于脊椎動物、擬南芥和玉米等真核生物。GENSCAN的網(wǎng)址為:

http://genes.M/GENSCAN.htmlGENSCAN在線操作頁面用GENSCAN預測AC002390序列的基因/外顯子的位置圖起始外顯子終止外顯子二、CpG島——CpGislands

CpG島是指DNA序列上的一個區(qū)域,此區(qū)域含有大量相聯(lián)的胞嘧啶(C)、鳥嘌呤(G),以及使兩者相連的磷酸酯鍵(p)。CpG島的概念是Gardiner-garden和Fromner于1987年提出的,基因中平均每100Kb即可出現(xiàn)。CpG島位于基因的啟動子和第一個外顯子區(qū),約有60%~80%的人類基因的啟動子和起始外顯子含有CpG島,其中GC含量大于50%,長度超過200bp。因此搜索CpG島可以為基因及其啟動子預測提供重要線索。利用CpGPlot預測分析CpG島

CpGPlot是預測CpG島的在線工具,它是由歐洲分子生物學實驗室EMBL——EuropeanMolecularBiologyLaboratory提供的。其網(wǎng)址為:/用CpGplot預測AC002390序列的CpG島的結果用CpGReport預測AC002390序列的CpG島的結果三、轉錄終止信號

轉錄終止信號是在mRNA序列的3'端終止密碼子下游位置上的加尾信號(tailingsignal)。前體mRNA3'端多聚腺苷酸化是真核細胞內mRNA轉錄后處理的三個最主要步驟之一,這三個步驟包括:5'帽子結構的形成、內含子的剪切及3'端的多聚腺苷酸化,因此,前體mRNA3'端多聚腺苷酸化與mRNA穩(wěn)定性的調節(jié)、mRNA的細胞內轉運、翻譯的起始以及一些其他的細胞機制和疾病機制有著重要關系。利用POLYAH預測分析轉錄終止信號SoftBerry網(wǎng)站的POLYAH軟件是識別3'端剪切和PolyA區(qū)域的在線工具。其網(wǎng)址為:,POLYAH在線頁面利用PromoterScan預測分析啟動子區(qū)域BioInformaticsandMolecularAnalysisSection網(wǎng)站的PromoterScan軟件是預測分析啟動子區(qū)域的在線工具。其網(wǎng)址為:

PromoterScan在線網(wǎng)頁用PromoterScan預測AC002390序列的啟動子區(qū)域的結果五、密碼子偏好性

密碼子使用偏性是指生物體中編碼同一種氨基酸的同義密碼子的非均勻使用現(xiàn)象。這一現(xiàn)象的產(chǎn)生與諸多因素有關,如基因的表達水平、翻譯起始效應、基因的堿基組分、某些二核苷酸的出現(xiàn)頻率、G+C含量、基因的長度、tRNA的豐度、蛋白質的結構及密碼子一反密碼子間結合能的大小等。所以對密碼子使用偏好性的分析具有重要的生物學意義。利用CodonW分析密碼子偏好性

CodonW是美國DEC公司開發(fā)的對密碼子的使用進行分析的免費的軟件工具。此軟件是建立在大量的統(tǒng)計學分析的基礎上,為了簡化在線分析的復雜性而開發(fā)的,它可以在Windows環(huán)境下運行,并且可以同時處理2000條以上的序列。通過對DNA或RNA序列的分析,CodonW會產(chǎn)生關于密碼子使用的相關指標的統(tǒng)計學分析的數(shù)據(jù),我們可以利用這些數(shù)據(jù)對我們所要了解的序列進行分析。其下載網(wǎng)址為:。CodonW1.4主菜單的操作頁面11個密碼子使用的指標waxy基因的序列用CodonW分析waxy基因所得的RSCU值和個數(shù)第三節(jié)蛋白質序列特征分析Section3

Analysisof

ProteinSequenceCharacteristics

蛋白質是組成生物體的基本物質,是生命活動的主要承擔者,一切生命活動都與蛋白質有關。雖然遺傳信息的攜帶者是核酸,但遺傳信息的傳遞和表達不僅要在酶的催化之下,并且也是在各種蛋白質的調節(jié)控制下進行的。因此,分析處理蛋白質序列數(shù)據(jù)的重要性并不亞于分析DNA序列數(shù)據(jù)。蛋白質的生物功能由蛋白質的結構所決定,因此在研究蛋白質的功能時需要了解蛋白質的空間結構。

目前,一種基本認可的假設是:蛋白質的空間結構由蛋白質序列所決定,即我們可以根據(jù)蛋白質序列預測蛋白質結構,這是第二遺傳密碼的問題,也是一個更為復雜的問題,因為蛋白質序列和蛋白質空間結構之間的關系要比DNA序列和蛋白質序列之間的關系復雜得多。因此我們需要分析大量的數(shù)據(jù),從中找出蛋白質序列和蛋白質結構間存在的關系和規(guī)律。一、蛋白質的理化性質

蛋白質是由氨基酸組成的大分子化合物,對組成蛋白質的氨基酸進行理化性質的統(tǒng)計分析是對一個未知蛋白質進行分析的基礎。蛋白質的理化性質包括蛋白質的分子量、氨基酸的組成、等電點、消光系數(shù)、親水性和疏水性、跨膜區(qū)、信號肽、翻譯后修飾位點等。利用ProtParam分析蛋白質的理化性質ExPASy(ExpertProteinAnalysisSystem)是由瑞士生物信息學中心維護,并與歐洲生物信息學中心(EBI)及蛋白質信息資源(proteininformationresource,PIR)組成UniversalProteinKnowledgebase聯(lián)盟。ExPASy數(shù)據(jù)庫提供了一系列蛋白質理化分析工具,以便于檢索未知蛋白質的理化性質,并基于這些理化性質鑒別未知蛋白質的類別,為后續(xù)實驗提供幫助。其中ProtParam(physico-chemicalparametersofaproteinsequence)就是計算氨基酸理化參數(shù)常用的在線工具。其網(wǎng)址為:

ProtParam在線頁面用ProtParam分析G00016序列理化性質的結果二、蛋白質的親水性或疏水性氨基酸通常被分為三類:1.疏水氨基酸(hydrophobicaminoacid),其側鏈大部分或者全部由碳原子和氫原子組成,因此這類氨基酸不太可能與水分子形成氫鍵;2.極性氨基酸(polaraminoacid),其測鏈通常由氧原子或氮原子組成,它們比較容易與水分子形成氫鍵,因此也稱為親水氨基酸;3.帶電氨基酸(chargedaminoacids),這類氨基酸在生物

pH環(huán)境中帶有正電或負電。蛋白質的基本組成單元是氨基酸。蛋白質的親水性或疏水性

氨基酸的親疏水性是構成蛋白質折疊的主要驅動力,一般通過親水性分布圖(hydropathyprofile)反映蛋白質的折疊情況。蛋白質折疊時會形成疏水內核和親水表面,同時在潛在跨膜區(qū)出現(xiàn)高疏水值區(qū)域,據(jù)此可以測定跨膜螺旋等二級結構和蛋白質表面氨基酸分布。利用ProtScale分析蛋白質的親水性或疏水性ExPASy的ProtScale程序是計算蛋白質親疏水性分析的在線工具。其網(wǎng)址為:

ProtScale在線頁面用ProtScale分析P02699序列疏水性結果的圖形顯示Hohob./Kyte&Doolittle標度用Windowsize=13時計算窗口內每個位置上氨基酸的標度權值三、蛋白質的跨膜區(qū)

生物膜所含的蛋白質叫膜蛋白,是生物膜功能的主要承擔者。根據(jù)蛋白質分離的難易及在膜中分布的位置,膜蛋白基本可分為兩大類:外在膜蛋白和內在膜蛋白。外在膜蛋白約占膜蛋白的20%~30%,分布在膜的內外表面,主要在內表面,為水溶性蛋白,它通過離子鍵、氫鍵與膜脂分子的極性頭部相結合,或通過與內在蛋白質的相互作用間接與膜結合;內在膜蛋白約占膜蛋白的70%~80%,是雙親媒性分子,可不同程度的嵌入脂雙層分子中。有的貫穿整個脂雙層,兩端暴露于膜的內外表面,這種類型的膜蛋白又稱跨膜蛋白。蛋白質的跨膜區(qū)

內在膜蛋白露出膜外的部分含較多的極性氨基酸,屬親水性,與磷脂分子的親水頭部鄰近;嵌入脂雙層內部的膜蛋白由一些非極性的氨基酸組成,與脂質分子的疏水尾部相互結合,因此與膜結合非常緊密。所以,對膜蛋白的跨膜區(qū)進行預測是生物信息學的重要應用。利用TMpred分析蛋白質的跨膜區(qū)TMpred是EMBnet開發(fā)的一個分析蛋白質跨膜區(qū)的在線工具,TMpred基于對TMbase數(shù)據(jù)庫的統(tǒng)計分析來預測蛋白質跨膜區(qū)和跨膜方向。TMbase來源于Swiss-Prot庫,并包含了每個序列的一些附加信息,如:跨膜結構區(qū)域的數(shù)量、跨膜結構域的位置及其側翼序列的情況。TMpred利用這些信息并與若干加權矩陣結合來進行預測。其網(wǎng)址為:

TMpred在線網(wǎng)頁用TMpred分析P51684序列所得到的可能的7個跨膜螺旋區(qū)用TMpred分析P51684序列所得到的7個可能的跨膜螺旋區(qū)的相關性列表用TMpred分析P51684序列所得到的7個可能的跨膜螺旋區(qū)的建議的跨膜拓撲模型用TMpred分析P51684序列所得到的7個可能的跨膜螺旋區(qū)的圖形顯示結果四、信號肽—signalpeptide

信號肽是指新合成多肽鏈中用于指導蛋白質跨膜轉移的末端(通常為N末端)的氨基酸序列。信號肽中至少含有一個帶正電荷的氨基酸,中部有一個高度疏水區(qū)以通過細胞膜。信號肽假說認為,編碼分泌蛋白的mRNA在翻譯時首先合成的是N末端帶有疏水氨基酸殘基的信號肽,它被內質網(wǎng)膜上的受體識別并與之相結合。信號肽經(jīng)由膜中蛋白質形成的孔道到達內質網(wǎng)內腔,隨機被位于腔表面的信號肽酶水解,由于它的引導,新生的多肽就能夠通過內質網(wǎng)膜進入腔內,最終被分泌到胞外。蛋白質的前導肽—leaderPeptide

前導肽是信號肽的一種。在線粒體蛋白質的跨膜轉運過程中,通過線粒體膜的蛋白質在轉運之前大多數(shù)以前體形式存在,它由成熟蛋白質和N端延伸出的一段前導肽共同組成。迄今已有40多種線粒體蛋白質前導肽的一級結構被闡明,它們約含20~80個氨基酸殘基,當前體蛋白跨模時,前導肽被一種或兩種多肽酶所水解轉變成為成熟蛋白質,同時失去繼續(xù)跨膜的能力。前導肽一般具有以下特性:(1)帶正電荷的堿性氨基酸(特別是精氨酸)含量較為豐富,它們分散于不帶電荷的氨基酸序列之間;(2)缺失帶負電荷的酸性氨基酸;(3)羥基氨基酸(特別是絲氨酸)含量較高;(4)有形成兩親(既有親水又有疏水部分)α-螺旋結構的能力。利用SignalP分析蛋白質的前導肽SignalP是丹麥技術大學的生物序列分析中心開發(fā)的信號肽及其剪切位點檢測的在線工具,該軟件基于神經(jīng)網(wǎng)絡方法,用已知信號序列的革蘭氏陰性原核生物、革蘭氏陽性原核生物及真核生物的序列分別作為訓練集。SignalP預測的是分泌型信號肽,而不是那些參與細胞內信號傳遞的蛋白。其網(wǎng)址為:

SignalP在線網(wǎng)頁用SignalP(神經(jīng)網(wǎng)絡方法)分析P05019序列前導肽的結果用SignalP(隱馬爾可夫方法)分析P05019序列前導肽的結果五、蛋白質的卷曲螺旋—coiled-coil

卷曲螺旋是蛋白質空間結構中的一種,它是由2~7個α螺旋相互纏繞而形成超螺旋結構的總稱。卷曲螺旋區(qū)域一般由7個氨基酸殘基為單位組成,以a、b、c、d、e、f、g位置表示,其中a和d位置為疏水性氨基酸,而其他位置的氨基酸殘基為親水性。許多含有卷曲螺旋結構的蛋白質具有重要的生物學功能,例如基因表達調控中的轉錄因子。含有卷曲螺旋結構最知名的蛋白質有原癌蛋白(oncoprotein)c-fos和jun,以及原肌球蛋白(tropomyosin)。利用COILS分析蛋白質的卷曲螺旋COILS是由SwissEMBNet維護的預測卷曲螺旋的在線工具,該軟件是基于Lupas算法,將查詢序列在一個由已知包含卷曲螺旋蛋白結構的數(shù)據(jù)庫中進行搜索,同時也將查詢序列與包含球狀蛋白序列的PDB次級庫進行比較,并根據(jù)兩個庫搜索得分決定查詢序列形成卷曲螺旋的概率。COILS也可以下載到本地進行運算。其網(wǎng)址為:COILS在線網(wǎng)頁用COILS分析GO45_HUMAN卷曲螺旋的圖形顯示結果用COILS分析GO45_HUMAN卷曲螺旋的文本顯示結果六、蛋白質序列分析軟件包:Antheprot

對蛋白質的研究是生物化學領域一個非常重要的部分。隨著人類基因組計劃的實施和完成,得到了大量的蛋白質序列數(shù)據(jù),但是,面對如此眾多的蛋白質序列數(shù)據(jù),其分析工作是一個非常困難的工作。用人工的方法是不可能完成如此大量的分析工作的。運用計算機,利用一定的運算規(guī)則,進行蛋白序列分析是唯一的方法。蛋白序列分析軟件包Antheprot正是這樣的一個程序。蛋白質序列分析軟件包:AntheprotAntheprot是位于法國的蛋白質生物與化學研究院用十多年時間開發(fā)出的蛋白質研究軟件包,它包括了蛋白質研究領域所包括的大多數(shù)內容,功能非常強大。Antheprot的原始網(wǎng)站:,我們可以到這個網(wǎng)站上下載軟件包,軟件包為一個自解壓執(zhí)行文件,文件名為Antheprot.exe,大小為51.3M。執(zhí)行此文件,輸入解壓后存放的目錄名,便可將所有文件解壓在此目錄下。主程序名為Anthepro,雙擊主程序名就可以打開Antheprot_2000的主窗口。通過主程序,我們可以輸入蛋白序列,對序列進行編輯、打印、拷貝、改變設置等操作,更重要的是,我們可以在此調用各種所需的分析工具,對蛋白序列進行分析。Antheprot主窗口Antheprot主窗口中各按鍵的含義Openfile,打開文件;Changetextfont,更改字體、字型和大?。籆hangetextcolor,更改選定區(qū)域內字的顏色;Sequenceinformation,序列信息,計算蛋白質序列的分子量、比溶、各氨基酸殘基的百分比組成;Titrationcurve,滴定曲線,計算蛋白質序列滴定曲線與等電點;Helicalwheelprojection,選定序列的一個片段后,繪制Helicalwheel圖;Antheprot主窗口中各按鍵的含義Predictionofcleavagesiteforsignalpeptide,預測信號肽的剪切位點;Secondarystructurepredictionbyall,預測蛋白質序列的二級結構;PROSITEsite/signaturedetection,在蛋白質序列中查找符合PROSITE數(shù)據(jù)庫的特征序列;Physico-chemicalprofiles,繪制蛋白質序列的理化特性曲線;Pridicttransmembraneregion,預測跨膜區(qū);SimilaritysearchwithBlast,用Blast方法在選擇的數(shù)據(jù)庫中查找相似序列;Antheprot主窗口中各按鍵的含義SimilaritysearchwithFasta,用Fasta方法在選擇的數(shù)據(jù)庫中查找相似序列;DotMatrixPlot,進行點陣圖分析;Multiplealignment,多序列比對;Binaryalignment(BINALIGN),在當前蛋白質序列中查找符合Prosites數(shù)據(jù)庫的特征序列;Help,打開一個簡單的幫助文件;Quit,推出程序。Antheprot基本功能1.編輯(edit)2.參數(shù)設置(setting)3.方法選擇(methods)4.數(shù)據(jù)庫(database)第四節(jié)序列綜合分析Section4

SequenceAnalysisSoftware

一、EMBOSS軟件包EMBOSS軟件包是一個開源的序列分析軟件包,該軟件包源于1988年開始開發(fā)的EGCG系統(tǒng),整合了目前可以獲得的大部分序列分析軟件,并有一套專門設計的C語言庫函數(shù)。該軟件包含160多個小型程序,能夠完成自動識別處理不同格式存儲的數(shù)據(jù),可以通過互聯(lián)網(wǎng)提取數(shù)據(jù),能很好地進行序列模體(motif)、關鍵詞同源性數(shù)據(jù)庫搜索,進行序列比較、進化分析、序列兩級結構分析、限制性酶切圖譜分析、引物設計、序列模式識別與翻譯、片段拼接等工作。EMBOSS遵照GPL協(xié)議,打破了商業(yè)軟件包發(fā)展的傳統(tǒng)模式,使科研工作者在自由、免費的軟件世界享受功能強大的分析工具。

EMBOSS的主頁網(wǎng)址為:

EMBOSS—EuropeanMolecularBiologyOpenSoftwareSuiteEMBOSS的運行環(huán)境EMBOSS軟件包主要運行于linux操作系統(tǒng)和Mac操作系統(tǒng)?,F(xiàn)在基于Windows操作系統(tǒng)的EMBOSS也是能自由免費使用的。需要說明的是基于windows操作系統(tǒng)時,主要采用staden進入EMBOSS,在使用的同時,需要安裝Emboss

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論