版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第三章序列對(duì)比和數(shù)據(jù)庫(kù)搜索
第一節(jié)概述
在生物學(xué)的研究中,有一個(gè)最常用和最經(jīng)典的研究手段,就是通過(guò)比較分析獲取有用的信息和知識(shí)。通過(guò)將研究對(duì)象相互比較來(lái)尋找對(duì)象可能具備的特性。我們從核酸以及氨基酸的一級(jí)結(jié)構(gòu)層次分析序列的相同點(diǎn)和不同點(diǎn),以期能夠推測(cè)它們的結(jié)構(gòu)、功能以及進(jìn)化上的聯(lián)系。最常用的比較方法是序列對(duì)比,它為兩個(gè)或更多個(gè)序列的殘基之間的相互關(guān)系提供了一個(gè)非常明確的圖譜。通過(guò)比較兩個(gè)序列之間的相似區(qū)域和保守性位點(diǎn),尋找二者可能的分子進(jìn)化關(guān)系。進(jìn)一步的對(duì)比是將多個(gè)蛋白質(zhì)或核酸同時(shí)進(jìn)行比較,尋找這些有進(jìn)化關(guān)系的序列之間共同的保守區(qū)域、位點(diǎn)和圖譜,分析產(chǎn)生共同功能的序列模式。此外,還可以把蛋白質(zhì)序列與核酸序列相比來(lái)探索核酸序列可能的表達(dá)框架;把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的蛋白質(zhì)相比,從而獲得蛋白質(zhì)空間結(jié)構(gòu)的信息。第二節(jié)
序列對(duì)比和數(shù)據(jù)庫(kù)搜索
我們都很清楚,生物物種之間存在進(jìn)化關(guān)系,我們對(duì)基因和蛋白質(zhì)序列進(jìn)行比較,從本質(zhì)上來(lái)講是同達(dá)爾文一樣,進(jìn)行同樣的比較分析,只不過(guò)更加精細(xì),更加詳盡,如果兩個(gè)序列之間具有足夠的相似性,就推測(cè)二者可能有共同的進(jìn)化祖先,經(jīng)過(guò)序列內(nèi)殘基的替換、殘基或序列片段的缺失以及序列重組等遺傳變異過(guò)程分別演化而來(lái)。值得注意的是序列相似和序列同源是不同的概念,序列之間的相似程度是可以量化的參數(shù),而序列是否同源需要有進(jìn)化事實(shí)的驗(yàn)證。>gb|AAA41976.1|(M27883)pancreaticsecretory
trypsininhibitortypeIIprecursor[Rattus
norvegicus]Length=79Score=109bits(272),Expect=6e-24Identities=53/79(67%),Positives=61/79(77%)
Query:1MKVTGIFLLSALALLSLSGNTGADSLGREAKCYNELNGCTKIYDPVCGTDGNTYPNECVL60MKVIFLLSALALL+L+GNTA+G++ACNLGC+YDPVCGTDGTYNEC+LSbjct:1MKVAIIFLLSALALLNLAGNTTAKVIGKKANCPNTLIGCPRDYDPVCGTDGKTYANECIL60Query:61CFENRKRQTSILIQKSGPC79CFENRKTSIIQ+GCSbjct:61CFENRKFGTSIRIQRRGLC79圖3.1對(duì)人和褐家鼠pancreaticsecretory
trypsininhibitor蛋白序列作對(duì)比,能形成二硫鍵的半胱氨酸殘基極為保守。在殘基-殘基對(duì)比中,很明顯,某些位置的氨基酸殘基相對(duì)于其它位置的殘基具有較高的保守性,這個(gè)信息揭示了某些殘基對(duì)于一個(gè)蛋白質(zhì)的結(jié)構(gòu)和功能是極為重要的。如圖3.1所示,處于活性位點(diǎn)的殘基都是極為保守的,比如形成二硫鍵的半胱氨酸,參與電子傳遞的氨基酸殘基以及決定底物特異性的氨基酸殘基。這些保守的殘基對(duì)于保持蛋白的結(jié)構(gòu)與功能非常重要,另一方面,由于歷史原因,某些保守位置對(duì)蛋白功能并無(wú)太大的重要性。當(dāng)我們處理非常相近的物種時(shí)必須十分小心,因?yàn)橄嗨菩栽谀承┣闆r下更多地是歷史的反映而不是功能的反映,比如,mouse和rat的某些序列具有高度的相似性,可能僅僅是因?yàn)闆](méi)有足夠的時(shí)間進(jìn)行分化而已。盡管如此,系列對(duì)比仍然是從已知獲得未知的一個(gè)十分有用的方法,比如通過(guò)比較一個(gè)新的蛋白同其它已經(jīng)經(jīng)過(guò)深入研究的蛋白,可以推斷這個(gè)未知蛋白的結(jié)構(gòu)與功能的某些性質(zhì)。例如它們可能是酶的活性位點(diǎn)殘基,形成二硫鍵的半胱氨酸殘基,與配體結(jié)合部位的殘基,與金屬離子結(jié)合的殘基,形成特定結(jié)構(gòu)motif的殘基等等。但并不是所有保守的殘基都一定是結(jié)構(gòu)功能重要的,可能它們只是由于歷史的原因被保留下來(lái),而不是由于進(jìn)化壓力而保留下來(lái)。因此,如果兩個(gè)序列有顯著的保守性,要確定二者具有共同的進(jìn)化歷史,進(jìn)而認(rèn)為二者有近似的結(jié)構(gòu)和功能還需要更多實(shí)驗(yàn)和信息的支持。通過(guò)大量實(shí)驗(yàn)和序列對(duì)比的分析,一般認(rèn)為蛋白質(zhì)的結(jié)構(gòu)和功能比序列具有更大的保守性,因此粗略的說(shuō),如果序列之間的相似性超過(guò)30%,它們就很可能是同源的。必須指出的是,理論分析只提供了序列進(jìn)化的可能性,不能夠僅僅是通過(guò)比較分析這一判據(jù)來(lái)斷定結(jié)論是否正確,結(jié)論還必須經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證。早期的序列對(duì)比是全局的序列比較,但由于蛋白質(zhì)具有的模塊性質(zhì),可能由于外顯子的交換而產(chǎn)生新蛋白質(zhì),因此局部對(duì)比會(huì)更加合理。通常用打分矩陣描述序列兩兩對(duì)比,兩條序列分別作為矩陣的兩維,矩陣點(diǎn)是兩維上對(duì)應(yīng)兩個(gè)殘基的相似性分?jǐn)?shù),分?jǐn)?shù)越高則說(shuō)明兩個(gè)殘基越相似。序列對(duì)比問(wèn)題變成在矩陣?yán)飳ふ易罴褜?duì)比路徑,目前最有效的方法是Needleman-Wunsch動(dòng)態(tài)規(guī)劃算法,在此基礎(chǔ)上又改良產(chǎn)生了Smith-Waterman算法和SIM算法。在FASTA程序包中可以找到用動(dòng)態(tài)規(guī)劃算法進(jìn)行序列對(duì)比的工具LALIGN,它能給出多個(gè)不相互交叉的最佳對(duì)比結(jié)果。在進(jìn)行序列兩兩對(duì)比時(shí),有兩方面問(wèn)題直接影響相似性分值:取代矩陣和空位罰分。粗糙的對(duì)比方法僅僅用相同/不同來(lái)描述兩個(gè)殘基的關(guān)系,顯然這種方法無(wú)法描述殘基取代對(duì)結(jié)構(gòu)和功能的不同影響效果,纈氨酸對(duì)異亮氨酸的取代與谷氨酸對(duì)異亮氨酸的取代應(yīng)該給予不同的打分。因此如果用一個(gè)取代矩陣來(lái)描述氨基酸殘基兩兩取代的分值會(huì)大大提高對(duì)比的敏感性和生物學(xué)意義。雖然針對(duì)不同的研究目標(biāo)和對(duì)象應(yīng)該構(gòu)建適宜的取代矩陣,但國(guó)際上常用的取代矩陣有PAM和BLOSUM等,它們來(lái)源于不同的構(gòu)建方法和不同的參數(shù)選擇,包括PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。對(duì)于不同的對(duì)象可以采用不同的取代矩陣以獲得更多信息,例如對(duì)同源性較高的序列可以采用BLOSUM90矩陣,而對(duì)同源性較低的序列可采用BLOSUM30矩陣??瘴涣P分是為了補(bǔ)償插入和缺失對(duì)序列相似性的影響,由于沒(méi)有什么合適的理論模型能很好地描述空位問(wèn)題,因此空位罰分缺乏理論依據(jù)而更多的帶有主觀特色。一般的處理方法是用兩個(gè)罰分值,一個(gè)對(duì)插入的第一個(gè)空位罰分,如10-15;另一個(gè)對(duì)空位的延伸罰分,如1-2。對(duì)于具體的對(duì)比問(wèn)題,采用不同的罰分方法會(huì)取得不同的效果。對(duì)于對(duì)比計(jì)算產(chǎn)生的分值,到底多大才能說(shuō)明兩個(gè)序列是同源的,對(duì)此有統(tǒng)計(jì)學(xué)方法加以說(shuō)明,主要的思想是把具有相同長(zhǎng)度的隨機(jī)序列進(jìn)行對(duì)比,把分值與最初的對(duì)比分值相比,看看對(duì)比結(jié)果是否具有顯著性。相關(guān)的參數(shù)E代表隨機(jī)對(duì)比分值不低于實(shí)際對(duì)比分值的概率。對(duì)于嚴(yán)格的對(duì)比,E值必須低于一定閾值才能說(shuō)明對(duì)比的結(jié)果具有足夠的統(tǒng)計(jì)學(xué)顯著性,這樣就排除了由于偶然的因素產(chǎn)生高對(duì)比得分的可能。Genbank、SWISS-PROT等序列數(shù)據(jù)庫(kù)提供的序列搜索服務(wù)都是以序列兩兩對(duì)比為基礎(chǔ)的。不同之處在于為了提高搜索的速度和效率,通常的序列搜索算法都進(jìn)行了一定程度的優(yōu)化,如最常見的FASTA工具和BLAST工具。FASTA是第一個(gè)被廣泛應(yīng)用的序列對(duì)比和搜索工具包,包含若干個(gè)獨(dú)立的程序。FASTA為了提高序列搜索的速度,會(huì)先建立序列片段的“字典”,查詢序列先會(huì)在字典里搜索可能的匹配序列,字典中的序列長(zhǎng)度由ktup參數(shù)控制,缺省的ktup=2。FASTA的結(jié)果報(bào)告中會(huì)給出每個(gè)搜索到的序列與查詢序列的最佳對(duì)比結(jié)果,以及這個(gè)對(duì)比的統(tǒng)計(jì)學(xué)顯著性評(píng)估E值。FASTA工具包可以在大多提供下載服務(wù)的生物信息學(xué)站點(diǎn)上找到。第三節(jié)BLAST程序簡(jiǎn)介
BLAST是現(xiàn)在應(yīng)用最廣泛的序列相似性搜索工具,相比FASTA有更多改進(jìn),速度更快,并建立在嚴(yán)格的統(tǒng)計(jì)學(xué)基礎(chǔ)之上。用戶輸入網(wǎng)址:http:///blast就可以進(jìn)入BLAST網(wǎng)頁(yè)。一、BLAST搜索主界面如圖3.2;3.3,最新版本為BLAST2.2.18,其子集BLASTP可達(dá)2.2.1。今年作了較大的更新,具體功能包括:1、核酸數(shù)據(jù)庫(kù)搜索組合基因組檢索;分為標(biāo)準(zhǔn)的核酸與核酸數(shù)據(jù)庫(kù)搜索;MEGABLAST提供大量長(zhǎng)序列的比較;完全匹配的短序列搜索;特殊搜索。2、蛋白數(shù)據(jù)庫(kù)搜索分為標(biāo)準(zhǔn)的蛋白與蛋白數(shù)據(jù)庫(kù)搜索;PSI-andPHI-BLAST,其中PSI用于搜索證實(shí)遠(yuǎn)源進(jìn)化關(guān)系的存在與否和進(jìn)一步獲取這個(gè)蛋白家族中的功能信息,而PHI用于搜索蛋白基序;同樣包括蛋白的完全匹配的短序列搜索。3、已翻譯蛋白的BLAST搜索包括[blastx],[tblastn],[tblastx]程序數(shù)據(jù)庫(kù)查詢簡(jiǎn)述blastp蛋白質(zhì)氨基酸序列可能找到具有遠(yuǎn)源進(jìn)化關(guān)系的匹配序列blastn核苷酸核苷酸序列適合尋找分值較高的匹配,不適合遠(yuǎn)源關(guān)系blastx蛋白質(zhì)核苷酸序列所有閱讀框架的翻譯產(chǎn)物適合新DNA序列和EST序列的分析,能夠發(fā)現(xiàn)未知核酸序列潛在的翻譯產(chǎn)物tblastn所有閱讀框架動(dòng)態(tài)翻譯的核苷酸序列蛋白質(zhì)序列適合尋找數(shù)據(jù)庫(kù)中尚未標(biāo)注的編碼區(qū)tblastx核苷酸序列6個(gè)閱讀框架的翻譯產(chǎn)物核苷酸序列6個(gè)閱讀框架的翻譯產(chǎn)物適合分析EST序列,4、保守區(qū)域的搜索:主要使用RPS-BLAST程序完成。5、配對(duì)序列的兩兩比較:用于核酸和蛋白的兩兩比較分析。6、針對(duì)特定數(shù)據(jù)庫(kù)的搜索:比如人類基因組、微生物基因組等。Table3.1ProgramSelectionforNucleotideQueriesLength1DatabasePurposeProgramExplanation20bporlonger
28bporaboveformegablastNucleotideIdentifythequerysequencediscontiguous
megablast,
megablast,or
blastnLearnmore...Findsequencessimilartoquerysequencediscontiguous
megablastorblastnLearnmore...FindsimilarsequencefromtheTracearchiveTracemegablast,orTracediscontiguous
megablastLearnmore...FindsimilarproteinstotranslatedqueryinatranslateddatabaseTranslatedBLAST(tblastx)Learnmore...PeptideFindsimilarproteinstotranslatedqueryinaproteindatabaseTranslatedBLAST(blastx)Learnmore...7-20bpNucleotideFindprimerbindingsitesormapshortcontiguousmotifsSearchforshort,nearlyexactmatchesLearnmore...Table2.1ContentofProteinSequenceDatabasesDatabaseContentDescriptionnrNon-redundantGenBankCDStranslations+PDB+SwissProt+PIR+PRF,excludingthoseinenv_nr.
ProteinsequencesfromNCBIreferencesequenceproject.swissprotLastmajorreleaseoftheSWISS-PROTproteinsequencedatabase(noincrementalupdates).patProteinsfromthePatentdivisionofGenBank.monthAllneworrevisedGenBankCDStranslations+PDB+SwissProt+PIR+PRFreleasedinthelast30days.pdbSequencesderivedfromthe3-dimensionalstructurerecordsfromtheProteinDataBank.
Non-redundantCDStranslationsfromenv_ntentries.Table2.2NucleotideDatabasesforBLASTDatabaseContentDescriptionnrAllGenBank+EMBL+DDBJ+PDBsequences(butnoEST,STS,GSS,orphase0,1or2HTGSsequences).Nolonger"non-redundant"duetocomputationalcost.refseq_mrna
mRNAsequencesfromNCBIReferenceSequenceProject.refseq_genomic
GenomicsequencesfromNCBIReferenceSequenceProject.estDatabaseofGenBank+EMBL+DDBJsequencesfromESTdivision.est_humanHumansubsetofest.est_mouseMousesubsetofest.est_othersSubsetofestotherthanhumanormouse.gssGenomeSurveySequence,includessingle-passgenomicdata,exon-trappedsequences,andAluPCRsequences.htgsUnfinishedHighThroughputGenomicSequences:phases0,1and2.Finished,phase3HTGsequencesareinnr.patNucleotidesfromthePatentdivisionofGenBank.pdbSequencesderivedfromthe3-dimensionalstructurerecordsfromProteinDataBank.TheyareNOTthecodingsequencesforthecorespondingproteinsfoundinthesamePDBrecord.monthAllneworrevisedGenBank+EMBL+DDBJ+PDBsequencesreleasedinthelast30days.alu_repeatsSelectAlurepeatsfromREPBASE,suitableformaskingAlurepeatsfromquerysequences.See"Alualert"byClaverieandMakalowski,Nature371:752(1994).dbstsDatabaseofSequenceTagSiteentriesfromtheSTSdivisionofGenBank+EMBL+DDBJ.chromosomeCompletegenomesandcompletechromosomesfromtheNCBIReferenceSequenceproject.Itoverlapswithrefseq_genomic.wgsAssembliesofWholeGenomeShotgunsequences.env_nt
Sequencesfromenvironmentalsamples,suchasunculturedbacterialsamplesisolatedfromsoilormarinesamples.ThelargestsinglesourceisSagarssoSeaproject.Thisdoesoverlapwithnucleotidenr.三、BLAST搜索格式:BLAST搜索框中允許三種輸入格式(一)FASTA格式:FASTA格式第一行是描述行,第一個(gè)字符必須是”>”字符;隨后的行是序列本身,一般每行序列不要超過(guò)80個(gè)字符,各行之間不允許有空行,回車符不會(huì)影響程序?qū)π蛄羞B續(xù)性的看法。序列由標(biāo)準(zhǔn)的IUB/IUPAC氨基酸和核酸代碼代表;小寫字符會(huì)全部轉(zhuǎn)換成大寫,序列可由基因庫(kù)中調(diào)出,亦可自行輸入。>gi|129295|sp|P01013|OVAX_CHICKGENEXPROTEIN(OVALBUMIN-RELATED)QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTSVLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPES1.核酸輸入代碼如下:A-->adenosine(腺嘌呤)M-->AC(amino)氨基的C-->cytidine
(胞嘧啶)S-->GC(strong)強(qiáng)的G-->guanine(鳥嘌呤)W-->AT(weak)弱的T-->thymidine(胸腺嘧啶)B-->GTCU-->uridine
(尿嘧啶)D-->GATR-->GA(purine)嘌呤H-->ACTY-->TC(pyrimidine)嘧啶V-->GCAK-->GT(keto)酮基的N-->AGCT(any)其中任何一個(gè)gapofindeterminatelength不明長(zhǎng)度的空位2.氨基酸輸入代碼如下(BLASTP、TBLASTN接受的): Aalanine
(丙氨酸)Pproline(脯氨酸)Baspartateorasparagine
(天門冬氨酸)Qglutamine(谷氨酰胺)Ccystine
(胱氨酸)Rarginine(精氨酸)Daspartate(天冬氨酸)Sserine(絲氨酸)Eglutamate(谷氨酸鹽)Tthreonine(蘇氨酸)Fphenylalanine(苯丙氨酸)Uselenocysteine(硒代半胱氨酸)Gglycine(甘氨酸)Vvaline(纈氨酸)Hhistidine(組氨酸)Wtryptophan(色氨酸)Iisoleucine(異亮氨酸)Ytyrosine(酪氨酸)Klysine(賴氨酸)ZglutamateorglutamineLleucine
(亮氨酸)Xany(任何一種氨基酸)Mmethionine(蛋氨酸)*translationstop(翻譯終止符)Nasparagine(天冬酰胺)-gapofindeterminatelength(二)單純序列數(shù)據(jù)輸入格式:該格式無(wú)FASTA描述定義行亦可,是GenBank/GenPept中的單純文本格式。如下:QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTSVLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP
1qikdllvsss
tdldttlvlv
naiyfkgmwk
tafnaedtre
mpfhvtkqes
kpvqmmcmnn
61sfnvatlpae
kmkilelpfa
sgdlsmlvll
pdevsdleri
ektinfeklt
ewtnpntmek121rrvkvylpqm
kieekynlts
vlmalgmtdl
fipsanltgi
ssaeslkisq
avhgafmels
181edgiemagst
gviedikhsp
eseqfradhp
flflikhnpt
ntivyfgrywsp(三)標(biāo)識(shí)符格式:通常只輸入NCBI存取號(hào)、存取號(hào)版號(hào)或基因庫(kù)中的標(biāo)識(shí)符號(hào),如p01013,AAA68881.1,129295。亦可有NCBI中帶有分隔豎線的序列標(biāo)識(shí)符,注意:用以上三種輸入格式輸入信息時(shí),蛋白質(zhì)必須對(duì)應(yīng)搜索蛋白質(zhì)的程序,核酸必須對(duì)應(yīng)搜索核酸的程序,否則提交不能成功。第三節(jié)同源性分析
待檢核酸序列與整個(gè)核酸序列庫(kù)中的序列進(jìn)行類比以檢索E-cadherin部分序列為例。在“search”框中可輸入基因的標(biāo)識(shí)符或單純序列格式或FASTA格式,并可限制序列的起點(diǎn)和終點(diǎn),根據(jù)需要選擇數(shù)據(jù)類型(本例選nr),在高級(jí)選項(xiàng)中可進(jìn)一步限定條件,設(shè)定好后點(diǎn)擊BLAST按紐提交。二、核酸序列的兩兩比較圖3.6BLAST兩兩比較提交界面在BLAST主頁(yè)中選PairwiseBLAST中的BLAST2Sequences,進(jìn)入兩兩比較界面如圖3.6,在程序中選blastn,分別輸入兩個(gè)基因的標(biāo)識(shí)符或FASTA格式的序列,堿基數(shù)不要超過(guò)150Kb,可進(jìn)一步限定條件,然后點(diǎn)擊Align按紐即可提交,等待結(jié)果。三、蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫(kù)或蛋白質(zhì)兩兩比較1.蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫(kù)比較:選ProteinBLAST中的StandardProtein-ProteinBLAST[blastp]與蛋白質(zhì)數(shù)據(jù)庫(kù)比較,輸入方法基本與核酸比較相同,存取號(hào)或序列內(nèi)容必須是蛋白質(zhì)庫(kù)中的。2.蛋白質(zhì)的兩兩比較:在PairwiseBLAST中的BLAST2Sequences程序中進(jìn)行,在程序中選blastp,序列輸入格式同上。其輸出搜索結(jié)果見圖3.7,進(jìn)一步點(diǎn)擊Formatbutton可看詳細(xì)結(jié)果。圖3.7蛋白質(zhì)的兩兩比較輸出搜索結(jié)果四、輸出結(jié)果的解釋:1.結(jié)果總覽圖:通用于蛋白質(zhì)和核酸的結(jié)果表示。圖中列了紅、粉、綠、藍(lán)、黑五種顏色,紅色同源性最高,排在最上面,其它各種顏色同源性逐漸降低;各種顏色同源性逐漸降低;每條圖代表搜索蛋白質(zhì)匹配的序列;如果出現(xiàn)陰影區(qū),其對(duì)應(yīng)的是二個(gè)或多個(gè)搜索數(shù)據(jù)庫(kù)相似序列中的非相似區(qū);鼠標(biāo)指在哪條圖上,圖上面的框中會(huì)顯示匹配蛋白質(zhì)或核酸的名字;同一條圖內(nèi)的分離部分對(duì)應(yīng)于無(wú)關(guān)的采樣數(shù)。2.顯著性序列列表:如圖3.10所示,最有顯著性(同源性最高)的行排在最上面,其E值最低,排列行按E值增加排序;每行四部分描述內(nèi)容:①數(shù)據(jù)序列標(biāo)識(shí)符,②對(duì)該序列的簡(jiǎn)單描述,③在每個(gè)數(shù)據(jù)庫(kù)中搜索得到的分?jǐn)?shù)④E值;點(diǎn)擊序列標(biāo)識(shí)符可以連接到GenBank;點(diǎn)擊分?jǐn)?shù)可連接到對(duì)應(yīng)的相互比較的序列行。3.行列比較:因申請(qǐng)者提交的要求行列可有不同的輸出形式,系統(tǒng)默認(rèn)的是配對(duì)行列輸出格式,即查詢序列與數(shù)據(jù)庫(kù)中匹配的序列垂直對(duì)應(yīng)。針對(duì)蛋白質(zhì)查詢而言,相同的殘基排在二序列之間,用“+”表示保守性殘基;針對(duì)DNA而言,垂直線連接相同的堿基??瘴徊糠执聿樵冃蛄信c檢索匹配序列不一致。由于過(guò)濾作用,在低復(fù)雜區(qū)氨基酸查詢序列可以包含Xs(核苷酸包含Ns)。HPSs中可列出每個(gè)檢索數(shù)據(jù)庫(kù)中的多個(gè)行列。相關(guān)的參數(shù)E值代表隨機(jī)比較分值不低于實(shí)際比較分值的概率。對(duì)于嚴(yán)格的比較,必須E值低于一定閾值才能說(shuō)明比較的結(jié)果具有足夠的統(tǒng)計(jì)學(xué)顯著性,這樣就排除了由于偶然的因素產(chǎn)生高比較得分的可能。具體界定值在搜索設(shè)置中界定,系統(tǒng)默認(rèn)為10,搜索的嚴(yán)謹(jǐn)度越高,E值越小。若要比較短序列,獲得更多的信息,則可增加E值到1000或更高;或降低字符大小(W),經(jīng)驗(yàn)之法是查詢序列至少是W的二倍;或禁止過(guò)濾功能的使用;或改變矩陣以優(yōu)化搜索序列。
第四節(jié)
PSI-BLAST程序簡(jiǎn)介
BLAST的當(dāng)前版本是2.2.10,它的新發(fā)展是位點(diǎn)特異性反復(fù)BLAST(PSI-BLAST)。PSI-BLAST的特色是每次用profile搜索數(shù)據(jù)庫(kù)后再利用搜索的結(jié)果重新構(gòu)建profile,然后用新的profile再次搜索數(shù)據(jù)庫(kù),如此反復(fù)直至沒(méi)有新的結(jié)果產(chǎn)生為止。PSI-BLAST先用帶空位的BLAST搜索數(shù)據(jù)庫(kù),將獲得的序列通過(guò)多序列比較來(lái)構(gòu)建第一個(gè)profile。PSI-BLAST自然地拓展了BLAST方法,能尋找蛋白質(zhì)序列中的隱含模式,有研究表明這種方法可以有效的找到很多序列差異較大而結(jié)構(gòu)功能相似的相關(guān)蛋白,甚至可以與一些結(jié)構(gòu)比較方法,如threading相媲美。PSI-BLAST服務(wù)可以在NCBI的BLAST主頁(yè)上找到,還可以從NCBI的FTP服務(wù)器上下載PSI-BLAST的獨(dú)立程序。PSI-BLAST程序第五節(jié)
多序列比較
顧名思義,多序列比較就是把兩條以上可能有系統(tǒng)進(jìn)化關(guān)系的序列進(jìn)行比較的方法。目前對(duì)多序列比較的研究還在不斷前進(jìn)中,現(xiàn)有的大多數(shù)算法都基于漸進(jìn)的比較的思想,在序列兩兩比較的基礎(chǔ)上逐步優(yōu)化多序列比較的結(jié)果。進(jìn)行多序列比較后可以對(duì)比較結(jié)果進(jìn)行進(jìn)一步處理,例如構(gòu)建序列模式的profile,將序列聚類構(gòu)建分子進(jìn)化樹等等。目前使用最廣泛的多序列比較程序是CLUSTALW(它的PC版本是CLUSTALX)。CLUSTALW是一種漸進(jìn)的比較方法,先將多個(gè)序列兩兩比較構(gòu)建距離矩陣,反映序列之間兩兩關(guān)系;然后根據(jù)距離矩陣計(jì)算產(chǎn)生系統(tǒng)進(jìn)化指導(dǎo)樹,對(duì)關(guān)系密切的序列進(jìn)行加權(quán);然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重新構(gòu)建比較,直到所有序列都被加入為止。CLUSTALW的程序可以自由使用,在NCBI的FTP服務(wù)器上可以找到下載的軟件包。CLUSTALW程序用選項(xiàng)單逐步指導(dǎo)用戶進(jìn)行操作,用戶可根據(jù)需要選擇打分矩陣、設(shè)置空位罰分等。EBI的主頁(yè)還提供了基于Web的CLUSTALW服務(wù),用戶可以把序列和各種要求通過(guò)表單提交到服務(wù)器上,服務(wù)器把計(jì)算的結(jié)果用Email返回用戶。CLUSTALW對(duì)輸入序列的格式比較靈活,可以是前面介紹過(guò)的FASTA格式,還可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。輸出格式也可以選擇,有ALN、GCG、PHYLIP和GDE等,用戶可以根據(jù)自己的需要選擇合適的輸出格式。在CLUSTALW得到的多序列比較結(jié)果中,所有序列排列在一起,并以特定的符號(hào)代表各個(gè)位點(diǎn)上殘基的保守性,”*”號(hào)表示保守性極高的殘基位點(diǎn);”.”號(hào)代表保守性略低的殘基位點(diǎn)。EBI的CLUSTALW網(wǎng)址是:http://www.ebi.ac.uk/clustalw/。下載CLUSTALW的網(wǎng)址是:ftp://ftp.ebi.ac.uk/pub/software/。關(guān)于序列比較,對(duì)比方法多種多樣,很有必要從中挑選出最好的一個(gè)或幾個(gè)方法,這就是把一種對(duì)比描述成一個(gè)路徑。許多計(jì)算機(jī)科學(xué)的問(wèn)題都可以簡(jiǎn)化為通過(guò)圖表尋求最優(yōu)路徑。為了這一目的已經(jīng)確立了許多行之有效的算法,對(duì)每一種路徑都有必要對(duì)其進(jìn)行某種意義上的打分,通常是對(duì)沿這一途徑的每一步的增量進(jìn)行加和。假定相同殘基加正分,有插入或缺失的殘基就加負(fù)分(扣分),根據(jù)這一定義,最合適的對(duì)比方法會(huì)得到最高分,也就是我們尋找的最佳路徑。應(yīng)該注意,尋優(yōu)方法總是把最佳的對(duì)比方法表達(dá)出來(lái),而不在意它是否具有生物學(xué)意義,另一方面,尋求局部對(duì)比時(shí)可能會(huì)發(fā)現(xiàn)若干個(gè)重要的對(duì)比,因此,不能僅僅注意最佳的一個(gè)。
第六節(jié)
低復(fù)雜度區(qū)域
不管是蛋白還是核酸都包含一些特殊的區(qū)域,在進(jìn)行序列數(shù)據(jù)庫(kù)搜索時(shí)這些區(qū)域可能會(huì)導(dǎo)致一些令人迷惑的結(jié)果。這些低復(fù)雜度區(qū)域(LCRs)在從明顯的同性聚合順串和短周期重復(fù)到更精細(xì)的情況(如其中某些或一些殘基過(guò)多表現(xiàn))的范圍內(nèi)變化。LCRs的進(jìn)化、功能和結(jié)構(gòu)性質(zhì)并沒(méi)有被很好地了解。在DNA中,有許多種簡(jiǎn)單的重復(fù),其中一些已經(jīng)知道是高度多態(tài)性的,并且在作基因圖譜時(shí)經(jīng)常使用的。它們產(chǎn)生的機(jī)制可能是聚合酶滑動(dòng)、偏頗核苷酸取代或者不等交換。LCRs更偏好于在結(jié)構(gòu)上以非球形區(qū)域的形式存在,那些在物理化學(xué)上已經(jīng)被定義為非球形的區(qū)域通??梢栽谑褂肧EG程
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年人教A版九年級(jí)地理下冊(cè)階段測(cè)試試卷
- 二零二五年物流配送網(wǎng)絡(luò)優(yōu)化服務(wù)承包協(xié)議3篇
- 2024版公司年會(huì)策劃合同合同范本版
- 2025年統(tǒng)編版九年級(jí)地理上冊(cè)階段測(cè)試試卷含答案
- 2025年統(tǒng)編版2024九年級(jí)數(shù)學(xué)上冊(cè)月考試卷
- 2025年西師新版必修1地理下冊(cè)月考試卷
- 2025年湘教版必修1地理上冊(cè)月考試卷
- 2024年華東師大版拓展型課程化學(xué)上冊(cè)月考試卷
- 二零二五年度企事業(yè)單位工作服布草定制采購(gòu)合同3篇
- 2025年人教版七年級(jí)歷史上冊(cè)階段測(cè)試試卷
- 傳媒互聯(lián)網(wǎng)行業(yè)幣價(jià)影響因素分析:對(duì)比利率、M2、納指、美元指數(shù)、黃金走勢(shì)
- 二年級(jí)上冊(cè)數(shù)學(xué)連算口算題卡(-打印版)
- 2025屆河南省南陽(yáng)市宛城區(qū)九上數(shù)學(xué)期末監(jiān)測(cè)試題含解析
- 曳引驅(qū)動(dòng)電梯調(diào)試作業(yè)指導(dǎo)書
- JT-T-617.4-2018危險(xiǎn)貨物道路運(yùn)輸規(guī)則第4部分:運(yùn)輸包裝使用要求
- 《朝天子·詠喇叭-王磐》核心素養(yǎng)目標(biāo)教學(xué)設(shè)計(jì)、教材分析與教學(xué)反思-2023-2024學(xué)年初中語(yǔ)文統(tǒng)編版
- 2021年7月自考06087工程項(xiàng)目管理試題及答案含解析
- 奧爾波特價(jià)值觀量表
- 旅游商圈城市商圈oto系統(tǒng)
- 三年級(jí)加法豎式題50道
- 阿里國(guó)際站合作協(xié)議
評(píng)論
0/150
提交評(píng)論