第三講第二章Internet的核酸數(shù)據(jù)庫(kù)資源_第1頁(yè)
第三講第二章Internet的核酸數(shù)據(jù)庫(kù)資源_第2頁(yè)
第三講第二章Internet的核酸數(shù)據(jù)庫(kù)資源_第3頁(yè)
第三講第二章Internet的核酸數(shù)據(jù)庫(kù)資源_第4頁(yè)
第三講第二章Internet的核酸數(shù)據(jù)庫(kù)資源_第5頁(yè)
已閱讀5頁(yè),還剩103頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1Internet的核酸數(shù)據(jù)庫(kù)資源生物信息學(xué)系王珍珍第二章第二章2分子生物學(xué)信息數(shù)據(jù)庫(kù)分子生物學(xué)信息數(shù)據(jù)庫(kù)1.核酸和蛋白質(zhì)一級(jí)結(jié)構(gòu)序列數(shù)據(jù)庫(kù)核酸和蛋白質(zhì)一級(jí)結(jié)構(gòu)序列數(shù)據(jù)庫(kù)2.基因組數(shù)據(jù)庫(kù)基因組數(shù)據(jù)庫(kù)3.生物大分子三維空間結(jié)構(gòu)數(shù)據(jù)庫(kù)生物大分子三維空間結(jié)構(gòu)數(shù)據(jù)庫(kù)4.上述三類數(shù)據(jù)庫(kù)和文獻(xiàn)資料為基礎(chǔ)構(gòu)建的二上述三類數(shù)據(jù)庫(kù)和文獻(xiàn)資料為基礎(chǔ)構(gòu)建的二級(jí)數(shù)據(jù)庫(kù)級(jí)數(shù)據(jù)庫(kù)3第一節(jié)第一節(jié) 核苷酸一級(jí)結(jié)構(gòu)序列數(shù)據(jù)庫(kù)核苷酸一級(jí)結(jié)構(gòu)序列數(shù)據(jù)庫(kù) GenBank,DDBJ,and EMBL是當(dāng)前最全面、規(guī)模是當(dāng)前最全面、規(guī)模最大的公共核酸數(shù)據(jù)庫(kù),收錄了所有已知的核酸序列。最大的公共核酸數(shù)據(jù)庫(kù),收錄了所有已知的核酸序列。這這3

2、個(gè)中心都可以獨(dú)立地接受數(shù)據(jù)提交,而個(gè)中心都可以獨(dú)立地接受數(shù)據(jù)提交,而3個(gè)中心之個(gè)中心之間則逐日交換信息,并制成相同的充分詳細(xì)的數(shù)據(jù)庫(kù)間則逐日交換信息,并制成相同的充分詳細(xì)的數(shù)據(jù)庫(kù)向公眾開(kāi)放向公眾開(kāi)放在這里以在這里以 GenBank為例做詳細(xì)介紹。為例做詳細(xì)介紹。 4一、一、 GenBank數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)(一) GenBank的創(chuàng)建及維護(hù)1.創(chuàng)建于1982年,迅速發(fā)展于20世紀(jì)90年代2.1988年美國(guó)成立國(guó)立生物技術(shù)信息中心(NCBI)3.1992,NCBI承擔(dān)起對(duì)GenBank DNA序列數(shù)據(jù)庫(kù)的維護(hù)責(zé)任 。5(二) GenBank的數(shù)據(jù)類型及來(lái)源數(shù)據(jù)類型數(shù)據(jù)類型1. 任意長(zhǎng)度的任意長(zhǎng)度的cD

3、NA片段片段2.單個(gè)外顯子單個(gè)外顯子3.完整的完整的cDNA4.任意的基因片段,以致于包涵多個(gè)基因的片段任意的基因片段,以致于包涵多個(gè)基因的片段數(shù)據(jù)來(lái)源數(shù)據(jù)來(lái)源1.個(gè)人或大規(guī)模測(cè)序中心直接遞交的數(shù)據(jù)個(gè)人或大規(guī)模測(cè)序中心直接遞交的數(shù)據(jù)2.通過(guò)美國(guó)專利和商標(biāo)局收集注冊(cè)專利的序列信息通過(guò)美國(guó)專利和商標(biāo)局收集注冊(cè)專利的序列信息 3.GenBank員工對(duì)員工對(duì)3400中雜志進(jìn)行檢索中雜志進(jìn)行檢索4.與與EMBL,DDBJ等大型數(shù)據(jù)庫(kù)每日相互更新等大型數(shù)據(jù)庫(kù)每日相互更新 一、一、 GenBank數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)6nGenBank每條數(shù)據(jù)包含對(duì)序列的精確描述,序列來(lái)源生物的科學(xué)名稱及樹(shù)狀分 類,以及特征數(shù)據(jù)欄,

4、提供序列的蛋白編碼區(qū)和具有特殊生物學(xué)意義的位點(diǎn),如轉(zhuǎn)錄 單位(transcription units)、突變或修飾位點(diǎn)(sites of mutationsor modifications)及重復(fù)序列(repeats),還提供特定序列編碼的蛋白質(zhì)序列。參考文獻(xiàn)還給出其在MEDLINE上的特定標(biāo)識(shí)號(hào)。7網(wǎng)址:/Genbank/8數(shù)據(jù)檢索91011121314(三) GenBank數(shù)據(jù)庫(kù)的結(jié)構(gòu)15(三) GenBank數(shù)據(jù)庫(kù)的結(jié)構(gòu)161.EST數(shù)據(jù)庫(kù)n分子生物學(xué)的中心法則就是指生物信息從DNA到RNA再到蛋白質(zhì),它構(gòu)成了整個(gè)分子生物學(xué)的基礎(chǔ), 反

5、轉(zhuǎn)錄171.- 表達(dá)序列標(biāo)簽,短的、單次(測(cè)序)閱讀的cDNA序列。也包括來(lái)自于差異顯示和RACE實(shí)驗(yàn)的cDNA序列。2.長(zhǎng)度經(jīng)常介于200bp到500bp之間 1.EST數(shù)據(jù)庫(kù)18n/dbEST/index.html19數(shù)據(jù)的提交n數(shù)據(jù)的提交n網(wǎng)址:/BankIt/20t2122232425262728數(shù)據(jù)的訪問(wèn)形式1.訪問(wèn)GenBank - 通過(guò)Entrez Nucleotides來(lái)查詢。用accession number,作者姓名,物種,基因/蛋白名字,還有許多其他的文本術(shù)語(yǔ)來(lái)查詢。關(guān)

6、于Entrez更多的信息請(qǐng)看下文。2.另外一種選擇是可以用FTP下載整個(gè)的GenBank和更新數(shù)據(jù)。3.用BLAST來(lái)在GenBank和其他數(shù)據(jù)庫(kù)中進(jìn)行序列相似搜索。用E-mail來(lái)訪問(wèn)Entrez和BLAST可以通過(guò)Query和BLAST服務(wù)器。291.通過(guò)Entrez Nucleotides來(lái)查詢。303132332.通過(guò)ftp來(lái)訪問(wèn)dbEST。/repository/dbEST3435The following files are stored in this repository:36dbEST的數(shù)據(jù)格式ndbEST的數(shù)據(jù)格式ngi number (g

7、enInfor identifier)是一個(gè)唯一標(biāo)識(shí)一個(gè)特別序列的整數(shù),每次當(dāng)序列發(fā)生改變時(shí)gi編號(hào)將發(fā)生改變。n但是對(duì)應(yīng)的EST的名字不一定會(huì)發(fā)生改變。37The following subdirectories exist:38nGenBank普通文件格式 參見(jiàn)GenBank記錄樣本和在GenBank公布通知中的詳細(xì)描述,下載大多數(shù)最近的完全公告和日常積累或非積累更新數(shù)據(jù)。 nASN.1格式 摘要句法記號(hào)1,國(guó)際標(biāo)準(zhǔn)組織(ISO)數(shù)據(jù)表示格式,下載大多數(shù)最近的完全公告和日常積累或非積累更新數(shù)據(jù)。 nFASTA格式 定義行號(hào)后只跟隨序列數(shù)據(jù)(示例),。 FASTA格式39nFasta格式是一

8、種相當(dāng)標(biāo)準(zhǔn)的符合生物信息學(xué)的輸出,很容易讀取。 nFASTA格式第一行是描述行,第一個(gè)字符必須是“”字符;隨后的行是序列本身,一般每行序列不要超過(guò)80個(gè)字符,回車符不會(huì)影響程序?qū)π蛄羞B續(xù)性的看法。序列由標(biāo)準(zhǔn)的IUB/IUPAC氨基酸和核酸代碼代表;小寫字符會(huì)全部轉(zhuǎn)換成大寫;單個(gè)“-”號(hào)代表不明長(zhǎng)度的空位;在氨基酸序列里允許出現(xiàn)“U”和“*”號(hào);任何數(shù)字都應(yīng)該被去掉或換成字母(如,不明核酸用“N”,不明氨基酸用“X”)。 nFASTA格式是通常被用于序列比對(duì)的標(biāo)準(zhǔn)格式FASTA格式40nFASTA格式ngi|120475024|gb|DV935719.1|DV935719 ART1 Lycope

9、rsicon esculentum cDNA Solanum lycopersicum cDNA, mRNA sequencenTCGAAACTTTTCAGTGATAAAAAGCTTGAGAGAAAGTGAAAATCTACAGGTAAAAGATGACACTGFASTA格式41n我如何將一條序列以Fasta格式輸出? nFasta格式是一種相當(dāng)標(biāo)準(zhǔn)的符合生物信息學(xué)的輸出,很容易讀取。Biojava中有一個(gè)SeqIOTools的類提供很多方便的靜態(tài)方法,能夠完成很多通用的符合生物信息學(xué)的輸入輸出任務(wù)。下面的例子展示如何將一條序列甚至整個(gè)SequenceDB以Fasta格式輸出到一個(gè)輸出流如Syst

10、em.out中 FASTA格式數(shù)據(jù)的應(yīng)用42nSeqnConverter 3.0n將不同格式的序列文件轉(zhuǎn)換成FASTA格式軟件 FASTA格式數(shù)據(jù)的應(yīng)用43n1 轉(zhuǎn)換多個(gè)文本文檔中的序列為轉(zhuǎn)換多個(gè)文本文檔中的序列為 FASTA 格式:格式:所測(cè)序列保存在文本文檔中,而且每個(gè)文檔中只有一條序列,該功能可將其轉(zhuǎn)換為通用格式FASTA格式,并將這些分散到多個(gè)文檔中的序列合并到一個(gè)文本文檔中,以便于操作。n2 提取多個(gè)文本文檔中的提取多個(gè)文本文檔中的 ncbi BLAST 結(jié)果:結(jié)果:將Blast結(jié)果中Score值最高的同源基因信息保存在一個(gè)文本文檔中,每個(gè)文本文檔只保存一條同源基因的信息。然后,提取

11、關(guān)鍵信息項(xiàng)(gi號(hào)、注釋、SOURCE 、Score值、bits、Expect值、Identities、Gaps、Strand、function、product、chromosome)。n3 提取一個(gè)文本文檔中的提取一個(gè)文本文檔中的 ncbi BLAST 結(jié)果:結(jié)果:從保存于一個(gè)文本文檔里的批量Blast結(jié)果中選出Score值最高的同源基因信息,然后,提取關(guān)鍵信息項(xiàng)(注釋、SOURCE 、Score值、bits、Expect值、Identities、Gaps、Strand)。n4 從總序列文件庫(kù)中提取目標(biāo)序列:從總序列文件庫(kù)中提取目標(biāo)序列:只需要目標(biāo)序列的文件名列表文件(不包括擴(kuò)展名的文本文檔

12、),可一次性自動(dòng)地將這些條件序列從的所有查詢序列文本文檔庫(kù)中提取出來(lái)。n應(yīng)用實(shí)例FASTA格式數(shù)據(jù)的應(yīng)用44The following subdirectories exist:45nDailyreportn擬南芥The following subdirectories exist:46The following subdirectories exist:47nBcp readmeThe following subdirectories exist:48GenBank數(shù)據(jù)格式詳解49(1)LOCUS 表示的是序列在本數(shù)據(jù)庫(kù)中的名稱,它包含了此序列的功能信息。 “6905121 bp”表示序列長(zhǎng)

13、度 “mRNA”代表本記錄是一個(gè)RNA分子,(2)DEFINITION,在一個(gè)檢索結(jié)果中列出的通常就是這一欄目的信息。包含了對(duì)此序列簡(jiǎn)單而又明確的解釋。(3)ACCESSION,序列收錄號(hào)。它是數(shù)據(jù)庫(kù)中序列永久性的編號(hào),對(duì)于同一序列在所有的核酸數(shù)據(jù)庫(kù)中,它都是統(tǒng)一的。 .501.基本概念 相似性,同源性2.Blast介紹 Blast資源和相關(guān)問(wèn)題3.Blast的應(yīng)用 網(wǎng)絡(luò)版 單機(jī)版4.深入了解Blast(改進(jìn)程序,算法基礎(chǔ))5.其他的序列相似性搜索工具(fasta)3.用BLAST來(lái)在數(shù)據(jù)庫(kù)中進(jìn)行序列相似搜索51生物序列的相似性相似性:相似性: 是指一種很直接的數(shù)量關(guān)系數(shù)量關(guān)系,比如部分相同或

14、相似的百分比或其它一些合適的度量。比如說(shuō),A序列和B序列的相似性是80,或者4/5。這是個(gè)量化的關(guān)系。當(dāng)然可進(jìn)行自身局部比較。52同源性:同源性: 指從一些數(shù)據(jù)中推斷出的兩個(gè)基因或蛋白質(zhì)序列具而共同祖先的結(jié)論,屬于質(zhì)的判斷質(zhì)的判斷。就是說(shuō)A和B的關(guān)系上,只有是同源序列,或者非同源序列兩種關(guān)系。而說(shuō)A和B的同源性為80都是不科學(xué)的。生物序列的同源性53相似性和同源性關(guān)系序列的相似性和序列的同源性有一定的關(guān)系,一般來(lái)說(shuō)序列間的相似性越高的話,它們是同源序序列間的相似性越高的話,它們是同源序列的可能性就更高列的可能性就更高,所以經(jīng)??梢酝ㄟ^(guò)序列的相似性來(lái)推測(cè)序列是否同源。 正因?yàn)榇嬖谶@樣的關(guān)系,很多

15、時(shí)候?qū)π蛄械南嗨菩院屯葱跃蜎](méi)有做很明顯的區(qū)分,造成經(jīng)常等價(jià)混用兩個(gè)名詞。所以有出現(xiàn)A序列和B序列的同源性為80一說(shuō)。54序列相似性比較和序列同源性分析序列相似性比較和序列同源性分析序列相似性比較:序列相似性比較: 就是將待研究序列與DNA或蛋白質(zhì)序列庫(kù)進(jìn)行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有BLAST、FASTA等;序列同源性分析:序列同源性分析: 是將待研究序列加入到一組與之同源,但來(lái)自不同物種的序列中進(jìn)行多序列同時(shí)比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工

16、作必須使用多序列比較算法。常用的程序包有CLUSTAL等;55Blast簡(jiǎn)介(一) BLAST 是由美國(guó)國(guó)立生物技術(shù)信息中心是由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)開(kāi)發(fā)的一個(gè)基于開(kāi)發(fā)的一個(gè)基于序列相似性序列相似性的數(shù)據(jù)庫(kù)搜索程的數(shù)據(jù)庫(kù)搜索程序。序。 BLAST是是“局部相似性基本查詢工局部相似性基本查詢工具具”(Basic Local Alignment Search Tool)的的 縮寫。縮寫。56 Blast 是一個(gè)序列相似性搜索的程序包,其中是一個(gè)序列相似性搜索的程序包,其中包含了很多個(gè)獨(dú)立的程序,這些程序是根據(jù)查包含了很多個(gè)獨(dú)立的程序,這些程序是根據(jù)查詢的對(duì)象和數(shù)據(jù)庫(kù)的不同來(lái)定義的。比

17、如說(shuō)查詢的對(duì)象和數(shù)據(jù)庫(kù)的不同來(lái)定義的。比如說(shuō)查詢的序列為核酸,查詢數(shù)據(jù)庫(kù)亦為核酸序列數(shù)詢的序列為核酸,查詢數(shù)據(jù)庫(kù)亦為核酸序列數(shù)據(jù)庫(kù),那么就應(yīng)該選擇據(jù)庫(kù),那么就應(yīng)該選擇blastn程序。程序。下表列出了主要的下表列出了主要的blast程序。程序。Blast簡(jiǎn)介(二)57主要的blast程序程序名程序名查詢序列查詢序列數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)搜索方法搜索方法Blastn核酸核酸核酸核酸核酸序列搜索逐一核酸數(shù)據(jù)庫(kù)中的序列核酸序列搜索逐一核酸數(shù)據(jù)庫(kù)中的序列Blastp蛋白質(zhì)蛋白質(zhì)蛋白質(zhì)蛋白質(zhì)蛋白質(zhì)序列搜索逐一蛋白質(zhì)數(shù)據(jù)庫(kù)中的序列蛋白質(zhì)序列搜索逐一蛋白質(zhì)數(shù)據(jù)庫(kù)中的序列Blastx核酸核酸蛋白質(zhì)蛋白質(zhì)核酸序列核酸序列

18、6框翻譯成蛋白質(zhì)序列后和蛋白質(zhì)數(shù)框翻譯成蛋白質(zhì)序列后和蛋白質(zhì)數(shù)據(jù)庫(kù)中的序列逐一搜索。據(jù)庫(kù)中的序列逐一搜索。Tblastn蛋白質(zhì)蛋白質(zhì)核酸核酸蛋白質(zhì)序列和核酸數(shù)據(jù)庫(kù)中的核酸序列蛋白質(zhì)序列和核酸數(shù)據(jù)庫(kù)中的核酸序列6框翻框翻譯后的蛋白質(zhì)序列逐一比對(duì)。譯后的蛋白質(zhì)序列逐一比對(duì)。TBlastx核酸核酸核酸核酸核酸序列核酸序列6框翻譯成蛋白質(zhì)序列,再和核酸數(shù)框翻譯成蛋白質(zhì)序列,再和核酸數(shù)據(jù)庫(kù)中的核酸序列據(jù)庫(kù)中的核酸序列6框翻譯成的蛋白質(zhì)序列框翻譯成的蛋白質(zhì)序列逐一進(jìn)行比對(duì)。逐一進(jìn)行比對(duì)。58Blast相關(guān)的問(wèn)題n怎么獲得blast服務(wù),怎么使用的問(wèn)題?n為什么使用blast,可以獲得什么樣的信息?n其他問(wèn)

19、題:實(shí)際使用時(shí)選擇哪種方式(網(wǎng)絡(luò),本地化),參數(shù)的選擇,結(jié)果的解釋59Blast資源1.NCBI主站點(diǎn): /BLAST/(網(wǎng)絡(luò)版) /blast/ (單機(jī)版)2.其他站點(diǎn): http:/ http:/nema.cap.ed.ac.uk/ncbi_blast.html /blast/(果蠅) 60Blast結(jié)果給出的信息 Blast結(jié)果會(huì)列出跟查詢序列相似性比較高,符合限定要求的序列結(jié)果,根據(jù)這些結(jié)果可以獲取以下一些信息。1.查詢序列可能具有某種功能2

20、.查詢序列可能是來(lái)源于某個(gè)物種3.查詢序列可能是某種功能基因的同源基因這些信息都可以應(yīng)用到后續(xù)分析中。61兩種版本的Blast比較(一)n網(wǎng)絡(luò)版本 包括NCBI在內(nèi)的很多網(wǎng)站都提供了在線的blast服務(wù),這也是我們最經(jīng)常用到的blast服務(wù)。網(wǎng)絡(luò)版本的blast服務(wù)就有方便,容易操作,數(shù)據(jù)庫(kù)同步更新等優(yōu)點(diǎn)。但是缺點(diǎn)是不利于操作大批量的數(shù)據(jù),同時(shí)也不能自己定義搜索的數(shù)據(jù)庫(kù)。62n單機(jī)版 單機(jī)版的blast可以通過(guò)NCBI的ftp站點(diǎn)獲得,有適合不同平臺(tái)的版本(包括linux,dos等)。獲得程序的同時(shí)必須獲取相應(yīng)的數(shù)據(jù)庫(kù)才能在本地進(jìn)行blast分析。單機(jī)版的優(yōu)點(diǎn)是可以處理大批的數(shù)據(jù),可以自己定義

21、數(shù)據(jù)庫(kù),但是需要耗費(fèi)本地機(jī)的大量資源,此外操作也沒(méi)有網(wǎng)絡(luò)版直觀、方便,需要一定的計(jì)算機(jī)操作水平。兩種版本的Blast比較(二)63NCBI提供的Blast服務(wù)登陸ncbi的blast主頁(yè)核酸序列蛋白序列翻譯序列底下有其他一些針對(duì)特殊數(shù)據(jù)庫(kù)的和查看以往的比對(duì)結(jié)果等64Blast任務(wù)提交表單(一)1.序列信息部分填入查詢(query)的序列序列范圍(默認(rèn)全部)選擇搜索數(shù)據(jù)庫(kù)如果接受其他參數(shù)默認(rèn)設(shè)置,點(diǎn)擊開(kāi)始搜索65Blast任務(wù)提交表單(二)設(shè)置搜索的范圍,entrez關(guān)鍵詞,或者選擇特定物種2.設(shè)置各種參數(shù)部分一些過(guò)濾選項(xiàng),包括簡(jiǎn)單重復(fù)序列,人類基因組中的重復(fù)序列等E值上限窗口大小如果你對(duì)bla

22、st的命令行選項(xiàng)熟悉的話,可以在這里加入更多的參數(shù)66Blast任務(wù)提交表單(三)3.設(shè)置結(jié)果輸出顯示格式選擇需要顯示的選項(xiàng)以及顯示的文件格式顯示數(shù)目Alignment的顯示方式篩選結(jié)果E值范圍其他一些顯示格式參數(shù)點(diǎn)擊開(kāi)始搜索67提交任務(wù)返回查詢號(hào)(request id)可以修改顯示結(jié)果格式修改完顯示格式后點(diǎn)擊進(jìn)入結(jié)果界面68結(jié)果頁(yè)面(一)圖形示意結(jié)果69結(jié)果頁(yè)面(二)目標(biāo)序列描述部分帶有g(shù)enbank的鏈接,點(diǎn)擊可以進(jìn)入相應(yīng)的genbank序列匹配情況,分值,e值70結(jié)果頁(yè)面(三)詳細(xì)的比對(duì)上的序列的排列情況71一個(gè)具體的例子(blastp)假設(shè)以下為一未知蛋白序列query_seq MSD

23、NGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWP

24、QIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADST QA 我們通過(guò)blast搜索來(lái)獲取一些這個(gè)序列的信息。72具體步驟1.登陸blast主頁(yè) /BLAST/2.根據(jù)數(shù)據(jù)類型,選擇合適的程序3.填寫表單信息4.提交任務(wù)5.查看和分析結(jié)果73分析過(guò)程(一)1.登陸ncbi的blast主頁(yè)2.選擇程序,因?yàn)椴樵冃蛄惺堑鞍仔蛄锌梢赃x擇blastp,點(diǎn)擊進(jìn)入也可以選擇tb

25、lastn作為演示,我們這里選blastp74分析過(guò)程(二)3.填入序列(copypaste)Fasta格式,或者純序列4.選擇搜索區(qū)域,這里我們要搜索整個(gè)序列,不填5.選擇搜索數(shù)據(jù)庫(kù),這里我們選nr(非冗余的蛋白序列庫(kù))。是否搜索保守區(qū)域數(shù)據(jù)庫(kù)(cdd),蛋白序列搜索才有。我們選上75分析過(guò)程(三)6.限制條件,我們限制在病毒里面找。7.其他選項(xiàng)保持默認(rèn)值打分矩陣76分析過(guò)程(四)8.輸出格式選項(xiàng)保持默認(rèn)值9.點(diǎn)擊開(kāi)始搜索77分析過(guò)程(五)10.查詢序列的一些相關(guān)信息在cdd庫(kù)里面找到兩個(gè)保守區(qū)域,點(diǎn)擊可以進(jìn)入78分析過(guò)程(六)圖形結(jié)果79分析過(guò)程(七)匹配序列列表80分析過(guò)程(八)具體匹配

26、情況81為什么使用單機(jī)版的Blast?1.特殊的數(shù)據(jù)庫(kù)要求。2.涉及序列的隱私與價(jià)值。3.批量處理4.其他原因?單機(jī)版的Blast使用(一)82單機(jī)版Blast的基本操作過(guò)程1.下載單機(jī)版的Blast程序/blast/executables/目錄下,下載對(duì)應(yīng)的操作系統(tǒng)版本。2.解壓程序包(blast.tar.gz)命令是:$ tar zxvf blast.tar.gz單機(jī)版的Blast使用(二)833.獲取Blast數(shù)據(jù)庫(kù)a.直接從ncbi下載/blast/db/b.用Blast程序包提供的fo

27、rmatdb工具自己格式化序列數(shù)據(jù)成數(shù)據(jù)庫(kù)。假設(shè)有一序列數(shù)據(jù)(sequence.fa,多序列,fasta格式),欲自己做成Blast數(shù)據(jù)庫(kù),典型的命令如下:?jiǎn)螜C(jī)版的Blast使用(三)84核酸序列:$ ./formatdb i sequence.fa p F o T/F n db_name蛋白序列:$ ./formatdb i sequence.fa p T o T/F n db_name單機(jī)版的Blast使用(四)854.執(zhí)行Blast比對(duì)獲得了單機(jī)版的Blast程序,解壓開(kāi)以后,如果有了相應(yīng)的數(shù)據(jù)庫(kù)(db),那么就可以開(kāi)始執(zhí)行Blast分析了。單機(jī)版的Blast程序包,把基本的blast分

28、析,包括blastn,blastp,blastx等都整合到了blastall一個(gè)程序里面。單機(jī)版的Blast使用(五)86以下是一個(gè)典型的blastn分析命令:(待分析序列seq.fa,數(shù)據(jù)庫(kù)nt_db)$./blastall p blastn i seq.fa -d nt_db w 7 e 10 o 程序名 輸入 數(shù)據(jù)庫(kù) 窗口 e值 輸出seq.blastn.out 該命令的意思是,對(duì)seq.fa文件中的核酸序列對(duì)nt_db數(shù)據(jù)庫(kù)執(zhí)行blastn搜索,窗口大小是7,e值限制是10,輸出的結(jié)果保存到文件seq.blastn.out 中。單機(jī)版的Blast使用(六)875.Blastall的常用

29、參數(shù)-p 程序名應(yīng)該是blastn,blastp,blastx,tblastn,tblastx中的一個(gè)-d 數(shù)據(jù)庫(kù)名稱,默認(rèn)nr-i 查詢序列文件,默認(rèn)stdin-e E值限制,默認(rèn)10-o 結(jié)果輸出文件,默認(rèn)stdout-F 過(guò)濾選項(xiàng),默認(rèn)T單機(jī)版的Blast使用(七)88進(jìn)一步深入Blast1.blast22.Megablast3.Psi-blast4.其他(rpsblast,blastclust等)89Blast2 兩個(gè)序列的blast比對(duì),給定兩個(gè)序列,相互進(jìn)行blast比對(duì)。能快速檢查兩個(gè)序列是否存在相似性片斷或者是否一致。這比起全序列比對(duì)要快很多。90Megablast nmega

30、blast采用了貪婪算法(greedy algorithm),它連接了多個(gè)查詢序列進(jìn)行一次搜索比對(duì),這樣節(jié)省了很多搜索數(shù)據(jù)庫(kù)的時(shí)間。主要針對(duì)核酸序列。是blast經(jīng)過(guò)優(yōu)化后,適用于由于測(cè)序或者其他原因形成的輕微的差別的序列之間的比較,比一般的相似性搜索程序要快10倍,可以很快的完成兩組大數(shù)據(jù)的比對(duì)。91PSI-blast Position specific iterative BLAST (PSI-BLAST) 位點(diǎn)特異的迭代blast搜索,主要針對(duì)蛋白序列。第一次blast搜索后,結(jié)果中最相似的序列重新構(gòu)建PSSM (位點(diǎn)特異性打分矩陣),然后再使用該矩陣進(jìn)行第二輪blast搜索,再調(diào)整矩陣,搜索,如此

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論