




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
序列比對(duì)基礎(chǔ)與BLAST入門生物信息學(xué)2021/5/91序列比對(duì)基礎(chǔ)與BLAST入門教材Page
68,第五章
本次課重點(diǎn)講BLAST的使用下次理論課對(duì)本次課的內(nèi)容進(jìn)行總結(jié)、補(bǔ)充和深化2021/5/92上篇:序列比對(duì)基礎(chǔ)2021/5/93
Yourtruevaluedependsentirelyonwhatyouarecomparedwith.—BobWells2021/5/94問題什么是序列比對(duì)?概念、目的、比對(duì)形式、基本原理序列比對(duì)有何用?應(yīng)用怎樣進(jìn)行序列比對(duì)?算法、程序2021/5/95一、序列比對(duì)(alignment)的概念、目的比對(duì)(聯(lián)配)將兩條或多條(核苷酸或氨基酸)序列排列在一起,通過一定的算法找出序列之間最大相似性匹配的過程。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC
||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
2021/5/96一、序列比對(duì)(alignment)的概念、目的序列比對(duì)的主要目的在于闡明序列之間的同源性關(guān)系,以及從已知序列預(yù)測(cè)新序列的結(jié)構(gòu)和功能。多序列比對(duì)還可以確定一群分子之間共享的結(jié)構(gòu)域(domain)或模體(motif)。序列比對(duì)基于一種生物學(xué)推斷(進(jìn)化論):相似性同源性相似的結(jié)構(gòu)和功能(問題:相似性等于同源性嗎?)2021/5/97相似性與同源性的關(guān)系相似性(similarity)是指兩個(gè)序列之間的相關(guān)程度。比如說,A序列和B序列的相似性是85%。這是個(gè)量化的關(guān)系。同源性(homology):是指兩個(gè)序列具有共同的祖先,屬于質(zhì)的判斷。就是說A和B的關(guān)系上,只有是同源序列,或者非同源序列兩種關(guān)系。而說A和B的同源性為85%則是不科學(xué)的。2021/5/98相似性與同源性的關(guān)系
注意:序列相似不一定同源(相似可能是偶然的)序列不相似不一定不同源(高級(jí)結(jié)構(gòu)相似)
例如:肌紅蛋白與β球蛋白是同源蛋白,兩者的三維結(jié)構(gòu)非常相似,但氨基酸序列的相似性不到40%。2021/5/99肌紅蛋白β球蛋白2021/5/910相似性與同源性的關(guān)系總結(jié):一般來說序列間的相似性越高的話,它們是同源序列的可能性就越大,所以經(jīng)??梢酝ㄟ^序列的相似性來推測(cè)序列是否同源(統(tǒng)計(jì)學(xué)推斷)。根據(jù)經(jīng)驗(yàn)法則,序列長度大于100(bp或aa)時(shí),蛋白質(zhì)序列相似性程度需大于25%,核酸序列相似性程度需大于70%,才能判斷同源性。2021/5/911同源序列的兩種形式直系同源(Orthologs):在物種形成、分化過程中,由共同祖先基因衍生而來的同源基因(或蛋白)。直系同源物存在于不同物種間,如:人和鼠的肌紅蛋白。旁系同源(Paralogs):在同一物種內(nèi),由于基因復(fù)制而產(chǎn)生的同源基因(或蛋白)。如:人類的α1球蛋白和α2球蛋白,人類的α球蛋白和β球蛋白。2021/5/912旁系同源直系同源2021/5/913同源序列的兩種形式人α球蛋白與人β球蛋白?人α球蛋白與鼠α球蛋白?人α球蛋白與鼠β球蛋白?同源序列的兩種形式代表了兩個(gè)不同的進(jìn)化事件。用于分子進(jìn)化分析的序列必須是直系同源的,才能真實(shí)反映進(jìn)化過程。2021/5/914Agroupofmyoglobinorthologs(直系同源)2021/5/915二、序列比對(duì)的形式雙序列比對(duì)(pairwisealignment)簡單的雙序列比對(duì)序列對(duì)庫的雙序列比對(duì)多重序列的比對(duì)(Multiplesequencealignment)
3條或3條以上的序列進(jìn)行比對(duì)。主要用于構(gòu)建系統(tǒng)發(fā)育樹和蛋白質(zhì)結(jié)構(gòu)域研究等。BLAST2021/5/916三、序列比對(duì)的基本原理提出比對(duì)要考慮的問題專業(yè)算法(構(gòu)建打分矩陣)數(shù)學(xué)編程計(jì)算機(jī)搜索數(shù)據(jù)庫計(jì)算機(jī)給出比對(duì)結(jié)果(比對(duì)分?jǐn)?shù)、顯著性檢驗(yàn))打分2021/5/917序列比對(duì)要考慮的問題11、如何排列比較?(尋求序列之間最大相似性匹配!)
我們不能夠簡單的將兩個(gè)序列頭尾對(duì)應(yīng)的排比,而是對(duì)各種可能的排比方式都進(jìn)行比較以找出最佳的比對(duì)結(jié)果。ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||||||||||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
2021/5/918序列比對(duì)要考慮的問題22、是否存在插入和缺失?(gap,空位罰分的問題教材Page71)連字號(hào)(-)標(biāo)記插入或缺失的事件。AT--GCAT--GCATGC--ATGCATATATATATATATATATGCATGCATGCATGCATGC|||||||||||||||||||||||||||||||||||||||||||CGATCG--ATCG--AT--CGATATATATATATGCATATATATGCATGCATGCATGCAT
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
2021/5/919序列比對(duì)要考慮的問題33、是否存在氨基酸的保守性替換?(相似性打分的問題)
通常在某些位點(diǎn)上有一些氨基酸被另外一些理化特性相似的氨基酸所代替,這種突變可稱為保守性替換。保守性替換一般不會(huì)影響蛋白質(zhì)的結(jié)構(gòu)和功能。
與核苷酸序列比對(duì)不同,氨基酸序列比對(duì)不僅要考慮殘基是否相同,還要考慮殘基是否相似以及相似的不同程度。
LAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE
||.|:|||||:
ALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD
1.極性中性氨基酸2.堿性氨基酸2021/5/920氨基酸分類glycine 甘氨酸 Gly Galanine 丙氨酸 Ala Avaline 纈氨酸 Val Vleucine 亮氨酸 Leu Lisoleucine 異亮氨酸
Ile Iphenylalanine 苯丙氨酸 Phe Fproline 脯氨酸 Pro Ptryptophan 色氨酸 Trp Wserine 絲氨酸 Ser Styrosine 酪氨酸 Tyr Ycysteine 半胱氨酸 Cys Cmethionine 甲硫氨酸 Met Masparagine 天冬酰氨 AsnNglutarmine 谷氨酰胺 Gln Qthreonine 蘇氨酸 Thr Tasparticacid 天冬氨酸 Asp Dglutarmicacid 谷氨酸 Glu Earginine 精氨酸 Arg Rhistidine 組氨酸 His Hlysine 賴氨酸 Lys K非極性疏水性氨基酸極性中性氨基酸酸性氨基酸堿性氨基酸(芳香族氨基酸F、W、Y)(含硫氨基酸C、M)2021/5/921序列比對(duì)要考慮的問題44、全局比對(duì)還是局部比對(duì)?全局比對(duì)(globalalignment)對(duì)兩條核苷酸或氨基酸序列的全長進(jìn)行比對(duì)。局部比對(duì)(localalignment)對(duì)兩條核苷酸或氨基酸序列的一部分進(jìn)行比對(duì)。TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHRVQENFDVNKYLGTWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTVLPKLAGTWHSMAVNKYLGTWYEIE局部比對(duì)通常比全局比對(duì)更有意義因?yàn)樗馨l(fā)現(xiàn)序列中的保守區(qū)域2021/5/922序列比對(duì)要考慮的問題綜上所述,序列比對(duì)并非簡單的事情,比對(duì)之前需考慮諸多問題。這些問題的解決依賴于數(shù)學(xué)及計(jì)算機(jī)科學(xué)的幫助。2021/5/923三、序列比對(duì)的基本原理提出比對(duì)要考慮的問題專業(yè)算法(構(gòu)建打分矩陣)數(shù)學(xué)編程計(jì)算機(jī)搜索數(shù)據(jù)庫計(jì)算機(jī)給出比對(duì)結(jié)果(比對(duì)分?jǐn)?shù)、顯著性檢驗(yàn))打分2021/5/924問題什么是序列比對(duì)?概念、目的、比對(duì)形式、基本原理序列比對(duì)有何用?應(yīng)用怎樣進(jìn)行序列比對(duì)?算法、程序2021/5/925四、序列比對(duì)(alignment)的應(yīng)用
序列比對(duì)的主要目的在于闡明序列之間的同源性關(guān)系,以及從已知序列預(yù)測(cè)新序列的結(jié)構(gòu)和功能。評(píng)價(jià)實(shí)驗(yàn)結(jié)果,為實(shí)驗(yàn)提供新思路指導(dǎo)進(jìn)一步的實(shí)驗(yàn)設(shè)計(jì)(鑒定一條序列的身份,預(yù)測(cè)其功能)尋找和鑒定新基因的重要手段蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和分子設(shè)計(jì)的基礎(chǔ)(同源建模)研究生物進(jìn)化和種屬分類的基本方法(系統(tǒng)發(fā)生分析)比較基因組分析2021/5/926問題什么是序列比對(duì)?概念、目的、比對(duì)形式、基本原理序列比對(duì)有何用?應(yīng)用怎樣進(jìn)行序列比對(duì)?算法、程序2021/5/927五、局部序列比對(duì)的工具FASTABLAST1.簡單的雙序列比對(duì)2.序列對(duì)庫的雙序列比對(duì)
今天你BLAST了嗎?
一般認(rèn)為,BLAST運(yùn)行速度快,對(duì)蛋白質(zhì)序列的搜尋更為有效,FASTA速度較慢,對(duì)核酸序列更為敏感。2021/5/928下篇:BLAST入門2021/5/929NCBI-BLASTBasicLocalAlignmentSearchTool
基本局部比對(duì)搜索工具(1990)
TheBLASTalgorithmisfast,accurate,andweb-accessible.(教材Page74)2021/5/930一、BLAST搜索的基本步驟1.選擇一個(gè)BLAST搜索類型2.輸入你要查詢的序列3.選擇要搜索的數(shù)據(jù)庫4.選擇可選參數(shù)2021/5/931NCBI-Blast2021/5/932PopularResources(常用資源)2021/5/9332021/5/934Step1:選擇一個(gè)BLAST搜索類型2021/5/935Step1:選擇一個(gè)BLAST搜索類型2021/5/936Step1:選擇一個(gè)BLAST搜索類型Nucleotide
BLAST(blastn)1、確認(rèn)一條DNA序列的身份
2、尋找與查詢序列相似的DNA序列1、2021/5/937Step1:選擇一個(gè)BLAST搜索類型Protein
BLAST(blastp)1、確認(rèn)一條蛋白質(zhì)序列的身份
2、尋找與查詢序列相似的蛋白質(zhì)序列2、2021/5/938Step1:選擇一個(gè)BLAST搜索類型Translatednucleotidequeryvs.proteindatabase
(blastx)查詢一條DNA序列是否可能編碼某種蛋白質(zhì)3、2021/5/939Step1:選擇一個(gè)BLAST搜索類型Proteinqueryvs.translatednucleotidedatabase(tblastn)查詢一個(gè)DNA數(shù)據(jù)庫中是否存在某些DNA序列,它們編碼與查詢序列相同或相似的蛋白。4、2021/5/940Step1:選擇一個(gè)BLAST搜索類型Translatednucleotidequeryvs.translatednucleotidedatabase
(tblastx)查詢一個(gè)DNA數(shù)據(jù)庫中是否存在某些DNA序列,它們與查詢序列編碼相同或相似的蛋白。5、2021/5/941Step1:選擇一個(gè)BLAST搜索類型2021/5/942Step1:選擇一個(gè)BLAST搜索類型Aligntwosequences
(bl2seq)簡單的兩條序列的比對(duì)6、2021/5/943Step1:選擇一個(gè)BLAST搜索類型blastn
(Nucleotide-nucleotideBLAST)blastp
(Protein-proteinBLAST)blastx
(Translatedqueryvs.proteindatabase)tblastn
(Proteinqueryvs.translateddatabase)tblastx
(Translatedqueryvs.translateddatabase)bl2seq
(Aligntwosequences)
2021/5/944Step1:選擇一個(gè)BLAST搜索類型Program
Input
Database
1blastn
DNA
DNA
1blastp protein
protein
6blastx DNA
protein
6tblastn protein
DNA
36tblastx DNA
DNA2021/5/945DNA可能編碼六種蛋白質(zhì)5’CATCAA…5’ATCAAC…5’TCAACT…
5’GTGGGT…5’TGGGTA…5’GGGTAG…5’CATCAACTACAA...AAACCTACCCAC3’3’GTAGTTGATGTT...TTTGGATGGGTG5’2021/5/946Step1:選擇一個(gè)BLAST搜索類型
問題:為什么要將DNA序列翻譯成蛋白質(zhì)序列后進(jìn)行比對(duì)?
蛋白質(zhì)序列比對(duì)能提供更多的信息,較之DNA序列比對(duì),更能發(fā)現(xiàn)序列間的同源關(guān)系。1.
密碼子的簡并性決定了蛋白質(zhì)序列比對(duì)更符合實(shí)際情況;2.
氨基酸的打分系統(tǒng)比堿基的復(fù)雜,因此其比對(duì)更為靈敏;3.
蛋白質(zhì)比DNA進(jìn)化慢,也就是說DNA序列變化較快,蛋白質(zhì)序列變化較慢,可用于遠(yuǎn)源關(guān)系序列的比較研究;4.
蛋白質(zhì)序列的長度比相應(yīng)的DNA序列要短許多,蛋白質(zhì)序列數(shù)據(jù)庫比DNA序列數(shù)據(jù)庫小得多,這樣隨機(jī)序列的干擾就少。2021/5/9472021/5/948Step1:選擇一個(gè)BLAST搜索類型2021/5/9491、EnterQuerySequence2、ChooseSearchSet3、ProgramSelection2021/5/950一、BLAST搜索的基本步驟1.選擇一個(gè)BLAST搜索類型2.輸入你要查詢的序列3.選擇要搜索的數(shù)據(jù)庫4.選擇可選參數(shù)2021/5/9512021/5/952Step2:輸入你要查詢的序列在搜索框中復(fù)制粘貼一條DNA或蛋白質(zhì)序列復(fù)制粘貼一條FASTA格式的DNA或蛋白質(zhì)序列輸入查詢序列的索引號(hào)(accessionnumber)或gi號(hào)
注意:當(dāng)你輸入的是DNA序列時(shí),BLAST將自動(dòng)對(duì)兩條互補(bǔ)鏈都進(jìn)行搜索。2021/5/953Step2:輸入你要查詢的序列Thesequenceyougivetoblastpisthequerysequence.Sequencessimilartothequerythatblastpreturnsarethehitsormatches.Thedatabaseyousearchisthetarget
database.2021/5/954復(fù)制粘貼一條序列2021/5/955復(fù)制粘貼一條FASTA格式序列2021/5/956直接輸入查詢序列的索引號(hào)2021/5/957Querysubrange:From_To_設(shè)置查詢序列的比對(duì)范圍2021/5/958Organism限定物種2021/5/959EntrezQuery使用entrez的限定詞限制搜索范圍2021/5/960一、BLAST搜索的基本步驟1.選擇一個(gè)BLAST搜索類型2.輸入你要查詢的序列3.選擇要搜索的數(shù)據(jù)庫4.選擇可選參數(shù)(搜索參數(shù)、格式參數(shù))2021/5/961Step2:選擇要搜索的數(shù)據(jù)庫(proteinblast)Choosedatabase(默認(rèn)為:nr)2021/5/962BLAST蛋白質(zhì)序列數(shù)據(jù)庫(6種)2021/5/963BLAST蛋白質(zhì)序列數(shù)據(jù)庫(6種)nr:非冗余GenBank編碼序列+RefSeq+PDB+SwissProt+PIR+PRFrefseq:NCBI的蛋白質(zhì)參考序列swissprot:swissprot最近發(fā)布的蛋白質(zhì)序列pat:專利序列pdb:pdb的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫env_nr:非冗余的環(huán)境采樣編碼序列2021/5/964Step2:選擇要搜索的數(shù)據(jù)庫(nucleotideblast)通常選擇Others(nretc.)默認(rèn)2021/5/965BLAST核酸序列數(shù)據(jù)庫(14種)nr:所有GenBank+EMBL+DDBJ+PDBrefseq_mrna:NCBI的mRNA參考序列。refseq_genomic:NCBI的基因組參考序列。est:GenBank+EMBL+DDBJ的EST序列。est_others:人類和小鼠以外的EST序列。gss:基因組調(diào)查序列。2021/5/966BLAST
核酸序列數(shù)據(jù)庫(14種)Htgs:高通量基因組測(cè)序序列。pat:核酸專利序列。Pdb:來自pdb的蛋白質(zhì)三維結(jié)構(gòu)序列數(shù)據(jù)alu_repeats:Alu重復(fù)序列。dbsts:
GenBank+EMBL+DDBJ+PDB的STS序列。chromosome:完整的基因組和染色體序列。wgs:WholeGenomeShotgun,全基因組鳥槍法測(cè)序片段。env_nt:環(huán)境采樣序列。2021/5/967一、BLAST搜索的基本步驟1.選擇一個(gè)BLAST搜索類型2.輸入你要查詢的序列3.選擇要搜索的數(shù)據(jù)庫選擇一個(gè)BLAST程序(nucleotide/proteinblast)4.選擇可選參數(shù)(搜索參數(shù)、格式參數(shù))2021/5/968選擇一個(gè)BLAST程序(nucleotideblast)通常選擇blastn(默認(rèn)為:megablast)2021/5/969選擇一個(gè)BLAST程序(proteinblast)默認(rèn)為:blastp2021/5/970一、BLAST搜索的基本步驟1.選擇一個(gè)BLAST搜索類型2.輸入你要查詢的序列3.選擇要搜索的數(shù)據(jù)庫4.選擇可選參數(shù)2021/5/971Step4:選擇可選的搜索參數(shù)Algorithmparameters算法參數(shù)2021/5/972GeneralParameters設(shè)置一般參數(shù)ScoringParameters設(shè)置打分參數(shù)Filters設(shè)置過濾參數(shù)1、2、3、2021/5/973Step4:選擇可選的搜索參數(shù)1、Maxtargetsequences(默認(rèn)為:100)2021/5/974Step4:選擇可選的搜索參數(shù)2、Shortqueries(默認(rèn)為:√)2021/5/975Step4:選擇可選的搜索參數(shù)3、Expect
期望值(默認(rèn)為:10)2021/5/976問題:期望值(E值)是什么意思?E值:是BLAST的一個(gè)非常重要的統(tǒng)計(jì)學(xué)指標(biāo)。理解E值的前提:
1、BLAST比對(duì)結(jié)果中,得分高、非常相似的兩條序列有可能是隨機(jī)造成的,無生物學(xué)意義(不同源),但被BLAST報(bào)告出來。反之,得分低、不相似的兩條序列也可能不是隨機(jī)的,有生物學(xué)意義(同源),但被BLAST漏報(bào)。
2、這樣的話,BLAST輸出的比對(duì)結(jié)果就會(huì)出現(xiàn)兩種疏漏,假陽性(上述前一種情況)和假陰性(上述后一種情況)。且兩種情況此消彼漲。即,當(dāng)我們?cè)黾覤LAST輸出的搜索結(jié)果時(shí),假陰性會(huì)減少(但假陽性增加);反之亦然。2021/5/977問題:期望值(E值)是什么意思?理解E值的前提:
3、顯然,BLAST在輸出比對(duì)的結(jié)果時(shí),需要在減少假陽性(盡可能減少隨機(jī)比對(duì)的輸出)與減少假陰性(盡可能不要漏報(bào))之間尋找一個(gè)平衡。
4、E值正是用來解決這一平衡的統(tǒng)計(jì)學(xué)指標(biāo)。2021/5/978問題:期望值(E值)是什么意思?E值的定義:一次搜索中(特定的數(shù)據(jù)庫、打分矩陣及相關(guān)參數(shù)),期望發(fā)生的比對(duì)得分等于或大于某一分?jǐn)?shù)的隨機(jī)比對(duì)數(shù)目。E=10,我們期望在BLAST搜索結(jié)果中,比對(duì)得分等于或大于某一分?jǐn)?shù),屬于隨機(jī)匹配的比對(duì)數(shù)目為10個(gè)。E=1……E=0.01……E值越小,我們期望的,屬于隨機(jī)匹配的比對(duì)數(shù)目就會(huì)越少。2021/5/979問題:期望值(E值)是什么意思?
總結(jié):從一次BLAST實(shí)踐來講,如果我們將E值調(diào)低,則BLAST返回的搜索結(jié)果就會(huì)變少(假陽性減少,但假陰性增加);反之,將E值調(diào)高,則返回的搜索結(jié)果就會(huì)增多(假陰性減少,但假陽性增加)。BLAST默認(rèn)E值為10,也有文獻(xiàn)建議通常情況下將E值設(shè)為1是一個(gè)比較好的平衡點(diǎn)。
(我們將在BLAST結(jié)果判讀中繼續(xù)討論E值的含義)2021/5/980Step4:選擇可選的搜索參數(shù)4、Wordsize字段長度blastp默認(rèn)為:3blastn默認(rèn)為:112021/5/9815、Matrix打分矩陣:blastp
提供5種打分矩陣PAM30、PAM70、BLOSUM45、BLOSUM62、BLOSUM80(默認(rèn)為BLOSUM62)blastn無此選項(xiàng)2021/5/982Step4:選擇可選的搜索參數(shù)問題:為什么蛋白質(zhì)序列比對(duì)需要我們選擇打分矩陣?(參見教材Page70)當(dāng)我們選擇不同的打分矩陣時(shí),BLAST的搜索結(jié)果會(huì)發(fā)生什么樣的變化?(BLAST實(shí)習(xí))2021/5/9836、GapCosts空位罰分blastp默認(rèn)為:
空位開放11,空位延伸12021/5/984Step4:選擇可選的搜索參數(shù)問題:為什么要在序列比對(duì)時(shí)引入空位,同時(shí)又要罰分?(教材Page71)
基因在進(jìn)化過程中往往會(huì)產(chǎn)生堿基的插入或缺失。這樣,在進(jìn)行序列比對(duì)時(shí),為了更好地反映序列的相似性,也就必須考慮引入空位并進(jìn)行罰分以控制空位插入的合理性。2021/5/9857、過濾選項(xiàng)blastp過濾低復(fù)雜度區(qū)域blastn過濾低復(fù)雜度區(qū)域及重復(fù)片段2021/5/986問題:為什么要設(shè)置過濾選項(xiàng)?低復(fù)雜度區(qū)域、
重復(fù)片段是什么意思?低復(fù)雜度區(qū)域(LowComplexity
Regions,LCR):是核酸和蛋白質(zhì)序列中具有某種組成偏好的區(qū)域。如DNA序列中含大量aaaaaaaaaa、tttttttttt、或atatatatat的區(qū)域,蛋白質(zhì)序列中富含某一種氨基酸如脯氨酸(PPPPP)的區(qū)域。低復(fù)雜度區(qū)域很常見,對(duì)序列比對(duì)會(huì)產(chǎn)生不良影響。因?yàn)榈蛷?fù)雜度區(qū)域的堿基或氨基酸殘基對(duì)評(píng)分貢獻(xiàn)正分,使配對(duì)的顯著性評(píng)分過高,從而檢出大量的假陽性結(jié)果。低復(fù)雜度區(qū)域也可能是信號(hào)序列、疏水骨架、跨膜結(jié)構(gòu)域等有用信息,因此,有時(shí)也應(yīng)考慮關(guān)掉過濾功能。2021/5/987重復(fù)片段(Repeatsegment):是DNA序列中某些堿基組成在序列中重復(fù)出現(xiàn)的片段。如人類的Alu重復(fù)序列。重復(fù)片段在數(shù)據(jù)庫序列中也很普遍,對(duì)序列比對(duì)的影響與低復(fù)雜度區(qū)域相似。GenBank專門設(shè)立了alu_repeats數(shù)據(jù)庫,可用于判斷查詢序列中是否含有Alu重復(fù)序列。blastn提供了人類、嚙齒類動(dòng)物等10種生物的重復(fù)序列過濾功能。注意:BLAST的過濾功能過濾的是查詢序列而不是數(shù)據(jù)庫。問題:為什么要設(shè)置過濾選項(xiàng)?低復(fù)雜度區(qū)域、
重復(fù)片段是什么意思?2021/5/988Step4:選擇可選的搜索參數(shù)Filter(Lowcomplexityregions,Repeats)過濾選項(xiàng)。Blastn過濾低復(fù)雜度區(qū)域及重復(fù)片段;
blastp過濾低復(fù)雜度區(qū)域。Expect
期望值。默認(rèn)為10。Matrix打分矩陣。blastp
提供5種打分矩陣,默認(rèn)為
BLOSUM62;
blastn無此選項(xiàng)。2021/5/989一、BLAST搜索的基本步驟1.選擇一個(gè)BLAST搜索類型2.輸入你要查詢的序列3.選擇要搜索的數(shù)據(jù)庫4.選擇可選參數(shù)Thenclick“BLAST”2021/5/990二、BLAST搜索結(jié)果及其判讀
我們以一個(gè)蛋白質(zhì)的blastp查詢?yōu)槔?/p>
1.選擇blastp搜索類型2.輸入一個(gè)查詢號(hào)NP_0067353.默認(rèn)選擇nr數(shù)據(jù)庫4.默認(rèn)可選參數(shù)2021/5/9912021/5/9922021/5/9931、進(jìn)入新頁面:FormattingRequest2021/5/9942、進(jìn)入新頁面:FormattingResults該次查詢?nèi)蝿?wù)的RID號(hào)自動(dòng)搜索保守結(jié)構(gòu)域2021/5/995ConservedDomains(保守結(jié)構(gòu)域)2021/5/9962、進(jìn)入新頁面:FormattingResults該次查詢?nèi)蝿?wù)的RID號(hào)自動(dòng)搜索保守結(jié)構(gòu)域2021/5/9973、BLAST搜索結(jié)果頁面1、頂部:描述項(xiàng)2、體部1:比對(duì)結(jié)果彩圖3、體部2:比對(duì)結(jié)果列表4、體部3:兩兩比對(duì)結(jié)果2021/5/9984、BLAST搜索結(jié)果頁面(頂部:描述項(xiàng))1.搜索類型和程序版本2.數(shù)據(jù)庫及其大小2021/5/9995、BLAST搜索結(jié)果頁面(體部1:比對(duì)結(jié)果彩圖)2021/5/91006、BLAST搜索結(jié)果頁面(體部2:比對(duì)結(jié)果列表)2021/5/9101
比對(duì)信息(從左往右閱讀):
1、序列的標(biāo)識(shí)號(hào)及簡單的描述(序列名稱)。
2、Score(Bits)比特分,由原始分?jǐn)?shù)轉(zhuǎn)化而來,便于比較。
3、EValue,E值。在本次搜索中(特定的數(shù)據(jù)庫、打分矩陣及相關(guān)參數(shù)),比對(duì)得分等于或大于414分的隨機(jī)比對(duì)數(shù)目為1×10-114(1e-114)。4、相關(guān)鏈接。U表示UniGene,G表示Gene。2021/5/9102E值與P值的關(guān)系E
P
10 0.999954605 0.993262052 0.864664721 0.632120560.1 0.09516258(about0.1)0.05 0.04877058(about0.05)0.001 0.00099950(about0.001)0.0001 0.0001000當(dāng)E值≤0.1時(shí),E≈P。2021/5/9103
EValue(E值)與比對(duì)結(jié)果的判讀:在本次搜索中,比對(duì)得分等于或大于414分的隨機(jī)比對(duì)數(shù)目為1×10-114(1e-114)。在本次搜索中,比對(duì)得分等于或大于414分屬于隨機(jī)比對(duì)的概率為1×10-114(1e-114)。該序列與查詢序列屬于隨機(jī)匹配的概率為1×10-114。該序列與
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 氫能裝備施工方案
- 惠州市匯科源科技有限公司電源適配器的生產(chǎn)建設(shè)項(xiàng)目環(huán)評(píng)報(bào)告表
- 昌江縣公益性公墓及殯儀館建設(shè)工程(一期)項(xiàng)目環(huán)評(píng)報(bào)告表
- 甘肅巨化新材料有限公司股東全部權(quán)益價(jià)值項(xiàng)目資產(chǎn)評(píng)估報(bào)告
- 玻璃更換施工方案施工方案
- 2024-2025學(xué)年下學(xué)期高一語文第一單元A卷
- 東江大壩隧道施工方案
- 《雷雨》教案-高一下學(xué)期語文統(tǒng)編版
- 2025年中國碑石行業(yè)供需態(tài)勢(shì)、市場(chǎng)現(xiàn)狀及發(fā)展前景預(yù)測(cè)報(bào)告
- 提高女性、老年人及殘疾人就業(yè)率的策略及實(shí)施路徑
- 《基礎(chǔ)和聲學(xué)》試習(xí)題庫(6套答案)
- 馬克思主義政治經(jīng)濟(jì)學(xué)課程講義
- 四年級(jí)道德與法治從中國制造到中國創(chuàng)造
- SolidWorks、CAD三維建模練習(xí)習(xí)題圖
- HONEYWELLDCS操作手冊(cè)
- 2021-2022新教科版四年級(jí)科學(xué)下冊(cè)全一冊(cè)全部課件(共24課)
- 方正飛騰使用教程詳解
- 3 棄渣場(chǎng)施工方案
- 國外客戶來訪行程安排表
- 八路搶答器PLC控制系統(tǒng)設(shè)計(jì)
- 《車輛解壓委托書 》
評(píng)論
0/150
提交評(píng)論