版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、生物序列的相似性搜索 blast簡介及其應用 2010年6月 科教信息科 2 q序列數(shù)據(jù)的保存格式與相關(guān)數(shù)據(jù)庫資源 q在數(shù)據(jù)庫中進行序列相似性搜索 q多序列比對 q進化樹構(gòu)建與分子進化分析 qmotif的尋找與序列的模式識別 qrna二級結(jié)構(gòu),蛋白質(zhì)二、三級結(jié)構(gòu)的預測 q基因芯片的數(shù)據(jù)分析 生物信息學常見的應用與軟件 3 內(nèi)容提要 1.基本概念 相似性,同源性 2.blast介紹 blast資源和相關(guān)問題 3.blast的應用 網(wǎng)絡(luò)版,單機版 4.深入了解blast(改進程序,算法基礎(chǔ)) 5.其他的序列相似性搜索工具(fasta) 4 生物序列的相似性 相似性相似性(similarity):
2、是指一種很直接的數(shù)量關(guān)系數(shù)量關(guān)系,比如部 分相同或相似的百分比或其它一些合適 的度量。比如說,a序列和b序列的相似 性是80,或者4/5。這是個量化的關(guān) 系。當然可進行自身局部比較。 5 同源性同源性(homology): 指從一些數(shù)據(jù)中推斷出的兩個基因或蛋 白質(zhì)序列具而共同祖先的結(jié)論,屬于質(zhì)的質(zhì)的 判斷判斷。就是說a和b的關(guān)系上,只有是同 源序列,或者非同源序列兩種關(guān)系。而說 a和b的同源性為80都是不科學的。 生物序列的同源性 6 相似性和同源性關(guān)系 序列的相似性和序列的同源性有一定的關(guān)系,一 般來說序列間的相似性越高的話,它們是同源序序列間的相似性越高的話,它們是同源序 列的可能性就更高
3、列的可能性就更高,所以經(jīng)??梢酝ㄟ^序列的相 似性來推測序列是否同源。 正因為存在這樣的關(guān)系,很多時候?qū)π蛄械?相似性和同源性就沒有做很明顯的區(qū)分,造成經(jīng) 常等價混用兩個名詞。所以有出現(xiàn)a序列和b序 列的同源性為80一說。 7 序列相似性比較和序列同源性分析序列相似性比較和序列同源性分析 序列相似性比較:序列相似性比較: 就是將待研究序列與dna或蛋白質(zhì)序列庫進行比較, 用于確定該序列的生物屬性,也就是找出與此序列相似 的已知序列是什么。完成這一工作只需要使用兩兩序列 比較算法。常用的程序包有blast、fasta等; 序列同源性分析:序列同源性分析: 是將待研究序列加入到一組與之同源,但來自不
4、同物種 的序列中進行多序列同時比較,以確定該序列與其它序 列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。 完成這一工作必須使用多序列比較算法。常用的程序包 有clustal等; 8 blast簡介(一) blast 是由美國國立生物技術(shù)信息是由美國國立生物技術(shù)信息 中心(中心(ncbi)開發(fā)的一個基于)開發(fā)的一個基于序列序列 相似性相似性的數(shù)據(jù)庫搜索程序。的數(shù)據(jù)庫搜索程序。 blast是是“局部相似性基本查詢工局部相似性基本查詢工 具具”(basic local alignment search tool)的的 縮寫??s寫。 9 blast 是一個序列相似性搜索的程序包,是一個序列相似性搜
5、索的程序包, 其中包含了很多個獨立的程序,這些程序其中包含了很多個獨立的程序,這些程序 是根據(jù)查詢的對象和數(shù)據(jù)庫的不同來定義是根據(jù)查詢的對象和數(shù)據(jù)庫的不同來定義 的。比如說查詢的序列為核酸,查詢數(shù)據(jù)的。比如說查詢的序列為核酸,查詢數(shù)據(jù) 庫亦為核酸序列數(shù)據(jù)庫,那么就應該選擇庫亦為核酸序列數(shù)據(jù)庫,那么就應該選擇 blastn程序。程序。 下表列出了主要的下表列出了主要的blast程序。程序。 blast簡介(二) 10 主要的blast程序 程序名查詢序列數(shù)據(jù)庫搜索方法 blastn核酸核酸核酸序列搜索逐一核酸數(shù)據(jù)庫中的序列 blastp蛋白質(zhì)蛋白質(zhì)蛋白質(zhì)序列搜索逐一蛋白質(zhì)數(shù)據(jù)庫中的序 列 bla
6、stx核酸蛋白質(zhì)核酸序列6框翻譯成蛋白質(zhì)序列后和蛋白 質(zhì)數(shù)據(jù)庫中的序列逐一搜索。 tblastn蛋白質(zhì)核酸蛋白質(zhì)序列和核酸數(shù)據(jù)庫中的核酸序列6 框翻譯后的蛋白質(zhì)序列逐一比對。 tblastx核酸核酸核酸序列6框翻譯成蛋白質(zhì)序列,再和核 酸數(shù)據(jù)庫中的核酸序列6框翻譯成的蛋 白質(zhì)序列逐一進行比對。 11 blast相關(guān)的問題 w 怎么獲得blast服務(wù),怎么使用的問題? w 為什么使用blast,可以獲得什么樣的信息? w 其他問題:實際使用時選擇哪種方式(網(wǎng) 絡(luò),本地化),參數(shù)的選擇,結(jié)果的解 釋 12 blast資源 1.ncbi主站點: /
7、blast/(網(wǎng)絡(luò)版) /blast/ (單機版) 2.其他站點: http:/ http:/nema.cap.ed.ac.uk/ncbi_blast.html /blast/(果蠅) 13 blast結(jié)果給出的信息 blast結(jié)果會列出跟查詢序列相似性比較 高,符合限定要求的序列結(jié)果,根據(jù)這些 結(jié)果可以獲取以下一些信息。 1.查詢序列可能具有某種功能 2.查詢序列可能是來源于某個物種 3.查詢序列可能是某種功能基因的同源基因 這些信息都可以應用到后續(xù)分析中。 14 兩種版本的blast比較(一) w
8、 網(wǎng)絡(luò)版本 包括ncbi在內(nèi)的很多網(wǎng)站都提供了在線 的blast服務(wù),這也是我們最經(jīng)常用到的 blast服務(wù)。網(wǎng)絡(luò)版本的blast服務(wù)就有方便, 容易操作,數(shù)據(jù)庫同步更新等優(yōu)點。但是 缺點是不利于操作大批量的數(shù)據(jù),同時也 不能自己定義搜索的數(shù)據(jù)庫。 15 w 單機版 單機版的blast可以通過ncbi的ftp站點獲得, 有適合不同平臺的版本(包括linux,dos 等)。獲得程序的同時必須獲取相應的數(shù) 據(jù)庫才能在本地進行blast分析。單機版的 優(yōu)點是可以處理大批的數(shù)據(jù),可以自己定 義數(shù)據(jù)庫,但是需要耗費本地機的大量資 源,此外操作也沒有網(wǎng)絡(luò)版直觀、方便, 需要一定的計算機操作水平。 兩種版本
9、的blast比較(二) 16 本地web版的blast 在ncbi的ftp上,在blast程序的目錄 下,還提供了一種供用戶在自己的服務(wù)器 上建立blast網(wǎng)頁服務(wù)的軟件包(wwwblast)。 使用該軟件包,用戶可以建立一個簡 易的進行blast運算的網(wǎng)站供實驗室人員使 用。用于搜索的數(shù)據(jù)庫同樣可以靈活的定 義。 17 blast程序評價序列相似性的兩個數(shù)據(jù) score:使用打分矩陣對匹配的片段進行打分,這是 對各對氨基酸殘基(或堿基)打分求和的結(jié)果,一般來 說,匹配片段越長、 相似性越高則score值越大。 e value:在相同長度的情況下,兩個氨基酸殘基(或 堿基)隨機排列的序列進行打
10、分,得到上述score值的 概率的大小。e值越小表示隨機情況下得到該score值的 可能性越低。 18 ncbi提供的blast服務(wù) 登陸ncbi的 blast主頁 核酸序列 蛋白序列 翻譯序列 底下有其他一些針對 特殊數(shù)據(jù)庫的和查看 以往的比對結(jié)果等 19 blast任務(wù)提交表單(一) 1.序列信息部分 填入查詢(query)的序列 序列范圍 (默認全部) 選擇搜索數(shù)據(jù)庫 如果接受其他參數(shù)默認 設(shè)置,點擊開始搜索 20 blast任務(wù)提交表單(二) 設(shè)置搜索的范圍,entrez關(guān)鍵詞, 或者選擇特定物種 2.設(shè)置各種參數(shù)部分 一些過濾選項,包括簡 單重復序列,人類基因 組中的重復序列等 e值
11、上限 窗口大小 如果你對blast的命令行選項熟悉的話,可以在這里加入更多的參數(shù) 21 blast任務(wù)提交表單(三) 3.設(shè)置結(jié)果輸出顯示格式 選擇需要顯示的選項 以及顯示的文件格式 顯示數(shù)目 alignment的顯 示方式 篩選結(jié)果 e值范圍 其他一些顯示格式參數(shù) 點擊開始搜索 22 提交任務(wù) 返回查詢號(request id) 可以修改顯示結(jié)果格式 修改完顯示格式后點 擊進入結(jié)果界面 23 結(jié)果頁面(一) 圖形示意結(jié)果 24 結(jié)果頁面(二) 目標序列描述部分 帶有g(shù)enbank的鏈接,點擊可以進入 相應的genbank序列 匹配情況,分值,e值 25 結(jié)果頁面(三) 詳細的比對上的序列的排
12、列情況 26 一個具體的例子(blastp) 假設(shè)以下為一未知蛋白序列 query_seq msdngpqsnqrsapritfggptdstdnnqnggrngarpkqrrpqglpnntaswftaltqhgkeelrfprgqgv pintnsgpddqigyyrratrrvrggdgkmkelsprwyfyylgtgpeaslpygankegivwvategalntpkdh igtrnpnnnaatvlqlpqgttlpkgfyaegsrggsqassrsssrsrgnsrnstpgssrgnsparmasgggeta lalllldrlnqleskvsgkgqqqqgqtvtkks
13、aaeaskkprqkrtatkqynvtqafgrrgpeqtqgnfgdqdl irqgtdykhwpqiaqfapsasaffgmsrigmevtpsgtwltyhgaiklddkdpqfkdnvillnkhidayktfp ptepkkdkkkktdeaqplpqrqkkqptvtllpaadmddfsrqlqnsmsgasadst qa 我們通過blast搜索來獲取一些這個序列 的信息。 27 具體步驟 1.登陸blast主頁 /blast/ 2.根據(jù)數(shù)據(jù)類型,選擇合適的程序 3.填寫表單信息 4.提交任務(wù) 5.查看和分析結(jié)果 28
14、 分析過程(一) 1.登陸ncbi的blast主頁 2.選擇程序,因為 查詢序列是蛋白序 列可以選擇blastp, 點擊進入 也可以選擇tblastn 作為演示, 我們這里選blastp 29 分析過程(二) 3.填入序列(copypaste) fasta格式,或者純序列 4.選擇搜索區(qū)域,這里我們要 搜索整個序列,不填 5.選擇搜索數(shù)據(jù)庫,這里我們 選nr(非冗余的蛋白序列庫)。 是否搜索保守區(qū)域數(shù)據(jù)庫 (cdd),蛋白序列搜索才有。 我們選上 30 分析過程(三) 6.限制條件,我們限制 在病毒里面找。 7.其他選項保持默認值 打分矩陣 31 分析過程(四) 8.輸出格式選項保持 默認值
15、9.點擊開始搜索 32 分析過程(五) 10.查詢序列的一些 相關(guān)信息 在cdd庫里面找到 兩個保守區(qū)域, 點擊可以進入 33 分析過程(六) 圖形結(jié)果 34 分析過程(七) 匹配序列列表 35 分析過程(八) 具體匹配情況 36 為什么使用單機版的blast? 1.特殊的數(shù)據(jù)庫要求。 2.涉及序列的隱私與價值。 3.批量處理 4.其他原因? 單機版的blast使用(一) 37 單機版blast的基本操作過程 1.下載單機版的blast程序 /blast/executables/ 目錄下,下載對應的操作系統(tǒng)版本。 2.解壓程序包(blast-2
16、.28-ia32-linux.tar.gz) 命令是: $ tar zxvf blast-2.28-ia32-linux.tar.gz 單機版的blast使用(二) 38 下載正確的blast程序包 blast:在本地運行的blast程序包 wwwblast:在本地服務(wù)器建立blast服務(wù) 的網(wǎng)站 netblast:blast的客戶端程序,直接鏈接 至ncbi的blast服務(wù)器,使用blast服 務(wù),不需瀏覽器。 39 下載正確的blast程序包 blast程序包的名字上還包括了該程序包運行的硬 件和操作系統(tǒng)環(huán)境: 硬件環(huán)境(硬件環(huán)境(cpu) 操作系統(tǒng)操作系統(tǒng) sparc powerpc i
17、a32 ia64 amd64 mips alpha linux macox solaris irix aix freebsd win32 hpux 40 3.獲取blast數(shù)據(jù)庫 a.直接從ncbi下載 /blast/db/ b.用blast程序包提供的formatdb工具自己格 式化序列數(shù)據(jù)成數(shù)據(jù)庫。 假設(shè)有一序列數(shù)據(jù)(sequence.fa,多序列,fasta 格式),欲自己做成blast數(shù)據(jù)庫,典型的命令 如下: 單機版的blast使用(三) 41 核酸序列: $ ./formatdb i sequence.fa p f o t/f n
18、db_name 蛋白序列: $ ./formatdb i sequence.fa p t o t/f n db_name 單機版的blast使用(四) 42 4.執(zhí)行blast比對 獲得了單機版的blast程序,解壓開以后, 如果有了相應的數(shù)據(jù)庫(db),那么就可 以開始執(zhí)行blast分析了。 單機版的blast程序包,把基本的blast分析, 包括blastn,blastp,blastx等都整合到了 blastall一個程序里面。 單機版的blast使用(五) 43 以下是一個典型的blastn分析命令: (待分析序列seq.fa,數(shù)據(jù)庫nt_db) $./blastall p blastn
19、 i seq.fa -d nt_db w 7 e 10 o 程序名 輸入 數(shù)據(jù)庫 窗口 e值 輸出 seq.blastn.out 該命令的意思是,對seq.fa文件中的核酸序列對 nt_db數(shù)據(jù)庫執(zhí)行blastn搜索,窗口大小是7,e值 限制是10,輸出的結(jié)果保存到文件seq.blastn.out 中。 單機版的blast使用(六) 44 5.blastall的常用參數(shù) -p 程序名應該是blastn,blastp,blastx,tblastn, tblastx中的一個 -d 數(shù)據(jù)庫名稱,默認nr -i 查詢序列文件,默認stdin -e e值限制,默認10 -o 結(jié)果輸出文件,默認stdou
20、t -f 過濾選項,默認t -a 選擇進行運算的cpu個數(shù) 單機版的blast使用(七) 45 進一步深入blast 1.blast2 2.megablast 3.psi-blast 4.其他(rpsblast,blastclust等) 46 blast2 兩個序列的blast比對,給定兩個序列, 相互進行blast比對。能快速檢查兩個序列 是否存在相似性片斷或者是否一致。這比 起全序列比對要快很多。 47 megablast w megablast采用了貪婪算法(greedy algorithm),它連接了多個查詢序列進行一 次搜索比對,這樣節(jié)省了很多搜索數(shù)據(jù)庫 的時間。主要針對核酸序列。是
21、blast經(jīng)過 優(yōu)化后,適用于由于測序或者其他原因形 成的輕微的差別的序列之間的比較,比一 般的相似性搜索程序要快10倍,可以很快 的完成兩組大數(shù)據(jù)的比對。 48 psi-blast position specific iterative blast (psi-blast) 位 點特異的迭代blast搜索,主要針對蛋白序列。第 一次blast搜索后,結(jié)果中最相似的序列重新構(gòu)建 pssm (位點特異性打分矩陣),然后再使用該矩 陣進行第二輪blast搜索,再調(diào)整矩陣,搜索,如 此迭代。 最終高度保守的區(qū)域就會得到比較高的分值, 而不保守的區(qū)域則分數(shù)降低,趨近0。 這樣可以提高提高blast搜索的
22、靈敏度。搜索的靈敏度。 49 blast的算法基礎(chǔ) w 基本思想是:通過產(chǎn)生數(shù)量更少的但質(zhì)量 更好的增強點來提高速度。 w balst算法是建立在嚴格的統(tǒng)計學的基礎(chǔ) 之上的。它集中于發(fā)現(xiàn)具有較高的相似性 的局部比對,且局部比對中不能含有空位 (blast2.0引入了允許插入gap的算法)。 w 由于局部比對的限制條件,在大多數(shù)情況 下比對會被分解為若干個明顯的hsp(high- score sequence pairs)。 50 blast的算法流程 51 1.首先確定一個終止值s、步長參數(shù)w和一 個閾值t。然后軟件會在考慮搜索背景性 質(zhì)的基礎(chǔ)上計算出合適的s值。使要比對 的序列中包含一個分值
23、不小于s的hsp。 blast的算法(一) 52 blast的算法(二) 2. 引入鄰近字串的思想:不需要字串確切 地匹配,當有一個字串的分值高于t時, balst就宣稱找到了一個選中的字串。 為了提高速度,允許較長的字串長度w。 w值很少變化,這樣,t值就成為權(quán)衡速 度和敏感度的參數(shù)。 53 blast的算法(三) 3.一個字串選中后,程序會進行沒有空位 的局部尋優(yōu),比對的最低分值是s,當比 對延伸時會遇到一些負的分值,使得比 對的分值下降,當下降的分值小于s時, 命中的延伸就會終止。這樣系統(tǒng)會減少 消耗于毫無指望的選中延伸的時間,使 系統(tǒng)的性能得以改進。 54 w 在1997年提出了對bl
24、ast程序的改進算法, 提高了搜索速度、敏感度和實用性。 n可處理間隔(gap)的gapped blast算法 npsi-blast算法 l對一個選中字串長度標準的延伸 l利用profile(表頭文件)的數(shù)據(jù)結(jié)構(gòu)來進行搜索 blast的改進(一) 55 w 以兩個步長各為w的字串開始搜索 。 w 若兩個字竄在序列上不重疊,并且位于同 一對角線上,并且距離在a之內(nèi),則將這 兩個字串聯(lián)起來作為搜索的起點。 w 執(zhí)行通常的blast算法,使用一種不同的 記分方式,根據(jù)高度顯著比對(hsps)的最 高分值建立一個最初的profile。 blast的改進(二) 56 w 根據(jù)該profile反復利用bl
25、ast算法對數(shù)據(jù) 庫進行搜索,這一步實際上是根據(jù)表頭文 件的統(tǒng)計結(jié)果擴展局部比對。這一過程是 反復進行的,直到再沒有發(fā)現(xiàn)新的有意義 的匹配為止。由于在每一輪都會有新的片 段加入,因此在操作過程中profile需要在 每一個循環(huán)結(jié)束之后更新。 blast的改進(三) 57 58 數(shù)據(jù)庫搜索工具的sensitivity與selectivity sensitivity:盡可能多地搜索到具有一定相 似性的序列的能力。 selectivity:盡可能準確地搜索到對研究目 的有用的相似性的序列的能力。 59 其他的序列相似性搜索工具 fasta fasta算法是由lipman和pearson于1985年發(fā)
26、表的 (lipman和pearson,1985)。fasta的基本思路是識別識別 與代查序列相匹配的很短的序列片段與代查序列相匹配的很短的序列片段,稱為k-tuple。 以下鏈接是ebi提供的fasta服務(wù)。 http:/www.ebi.ac.uk/fasta33/ 60 幫助信息 各個參數(shù)選項 填入搜索序列 61 w基本思想是:一個能夠揭示出真實的 序列關(guān)系的比對至少包含一個兩個序 列都擁有的字(片斷),把查詢序列中 的所用字編成索引,然后在數(shù)據(jù)庫搜 索時查詢這些索引,以檢索出可能的 匹配,這樣那些命中的字很快被鑒定 出來。 fasta算法基礎(chǔ) 62 1.確定參數(shù)ktup,在兩個序列中查找長 度為ktup的、相匹配的片段(增強點)。 為了提高速度,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度貨車運輸承包合同服務(wù)擴展研究2篇
- 二零二五年度市場營銷與廣告合作合同2篇
- 2025賓館客房預訂系統(tǒng)開發(fā)與維護合同3篇
- 2025年度建筑勞務(wù)市場拓展與人力資源配置合同3篇
- 創(chuàng)新安全教育培訓與實際應用的橋梁
- 基于健康目標的學校體育課實施策略研究
- 2024年生物科技產(chǎn)品研發(fā)與市場銷售合同3篇
- 二零二五年度大數(shù)據(jù)中心抵押擔保協(xié)議2篇
- 小學生語言能力評估與教學策略優(yōu)化
- 馬鞍山2024年安徽馬鞍山市人民醫(yī)院招聘學科帶頭人筆試歷年典型考點(頻考版試卷)附帶答案詳解版
- 17J008擋土墻(重力式、衡重式、懸臂式)圖示圖集
- 2025年濟南鐵路局招聘筆試參考題庫含答案解析
- 2024至2030年中國大顆粒尿素行業(yè)投資前景及策略咨詢研究報告
- 《長方體和正方體》復習(教案)
- 超聲技術(shù)報告范文
- 思想道德與法治(同濟大學)知到智慧樹章節(jié)答案
- 小學語文閱讀理解24個萬能答題公式
- 湖南省懷化市2023-2024學年七年級上學期語文期末試卷(含答案)
- 《廊坊市綠色建筑專項規(guī)劃(2020-2025)》
- 2024-2030年中國濕巾行業(yè)發(fā)展趨勢及競爭策略分析報告
- 2023-2024學年全國小學二年級上語文人教版期末試卷(含答案解析)
評論
0/150
提交評論