




已閱讀5頁,還剩71頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
生物序列的相似性搜索 blast簡介及其應(yīng)用 2005年3月 2 序列數(shù)據(jù)的保存格式與相關(guān)數(shù)據(jù)庫資源在數(shù)據(jù)庫中進(jìn)行序列相似性搜索多序列比對進(jìn)化樹構(gòu)建與分子進(jìn)化分析Motif的尋找與序列的模式識別RNA二級結(jié)構(gòu) 蛋白質(zhì)二 三級結(jié)構(gòu)的預(yù)測基因芯片的數(shù)據(jù)分析 生物信息學(xué)常見的應(yīng)用與軟件 3 內(nèi)容提要 1 基本概念相似性 同源性2 Blast介紹Blast資源和相關(guān)問題3 Blast的應(yīng)用網(wǎng)絡(luò)版 單機(jī)版4 深入了解Blast 改進(jìn)程序 算法基礎(chǔ) 5 其他的序列相似性搜索工具 fasta 4 生物序列的相似性 相似性 similarity 是指一種很直接的數(shù)量關(guān)系 比如部分相同或相似的百分比或其它一些合適的度量 比如說 A序列和B序列的相似性是80 或者4 5 這是個量化的關(guān)系 當(dāng)然可進(jìn)行自身局部比較 5 同源性 homology 指從一些數(shù)據(jù)中推斷出的兩個基因或蛋白質(zhì)序列具而共同祖先的結(jié)論 屬于質(zhì)的判斷 就是說A和B的關(guān)系上 只有是同源序列 或者非同源序列兩種關(guān)系 而說A和B的同源性為80 都是不科學(xué)的 生物序列的同源性 6 相似性和同源性關(guān)系 序列的相似性和序列的同源性有一定的關(guān)系 一般來說序列間的相似性越高的話 它們是同源序列的可能性就更高 所以經(jīng)??梢酝ㄟ^序列的相似性來推測序列是否同源 正因為存在這樣的關(guān)系 很多時候?qū)π蛄械南嗨菩院屯葱跃蜎]有做很明顯的區(qū)分 造成經(jīng)常等價混用兩個名詞 所以有出現(xiàn)A序列和B序列的同源性為80 一說 7 序列相似性比較和序列同源性分析 序列相似性比較 就是將待研究序列與DNA或蛋白質(zhì)序列庫進(jìn)行比較 用于確定該序列的生物屬性 也就是找出與此序列相似的已知序列是什么 完成這一工作只需要使用兩兩序列比較算法 常用的程序包有BLAST FASTA等 序列同源性分析 是將待研究序列加入到一組與之同源 但來自不同物種的序列中進(jìn)行多序列同時比較 以確定該序列與其它序列間的同源性大小 這是理論分析方法中最關(guān)鍵的一步 完成這一工作必須使用多序列比較算法 常用的程序包有CLUSTAL等 8 Blast簡介 一 BLAST是由美國國立生物技術(shù)信息中心 NCBI 開發(fā)的一個基于序列相似性的數(shù)據(jù)庫搜索程序 BLAST是 局部相似性基本查詢工具 BasicLocalAlignmentSearchTool 的縮寫 9 Blast是一個序列相似性搜索的程序包 其中包含了很多個獨(dú)立的程序 這些程序是根據(jù)查詢的對象和數(shù)據(jù)庫的不同來定義的 比如說查詢的序列為核酸 查詢數(shù)據(jù)庫亦為核酸序列數(shù)據(jù)庫 那么就應(yīng)該選擇blastn程序 下表列出了主要的blast程序 Blast簡介 二 10 主要的blast程序 11 Blast相關(guān)的問題 怎么獲得blast服務(wù) 怎么使用的問題 為什么使用blast 可以獲得什么樣的信息 其他問題 實(shí)際使用時選擇哪種方式 網(wǎng)絡(luò) 本地化 參數(shù)的選擇 結(jié)果的解釋 12 Blast資源 1 NCBI主站點(diǎn) http www ncbi nlm nih gov BLAST 網(wǎng)絡(luò)版 ftp ftp ncbi nlm nih gov blast 單機(jī)版 2 其他站點(diǎn) 13 Blast結(jié)果給出的信息 Blast結(jié)果會列出跟查詢序列相似性比較高 符合限定要求的序列結(jié)果 根據(jù)這些結(jié)果可以獲取以下一些信息 1 查詢序列可能具有某種功能2 查詢序列可能是來源于某個物種3 查詢序列可能是某種功能基因的同源基因 這些信息都可以應(yīng)用到后續(xù)分析中 14 兩種版本的Blast比較 一 網(wǎng)絡(luò)版本包括NCBI在內(nèi)的很多網(wǎng)站都提供了在線的blast服務(wù) 這也是我們最經(jīng)常用到的blast服務(wù) 網(wǎng)絡(luò)版本的blast服務(wù)就有方便 容易操作 數(shù)據(jù)庫同步更新等優(yōu)點(diǎn) 但是缺點(diǎn)是不利于操作大批量的數(shù)據(jù) 同時也不能自己定義搜索的數(shù)據(jù)庫 15 單機(jī)版單機(jī)版的blast可以通過NCBI的ftp站點(diǎn)獲得 有適合不同平臺的版本 包括linux dos等 獲得程序的同時必須獲取相應(yīng)的數(shù)據(jù)庫才能在本地進(jìn)行blast分析 單機(jī)版的優(yōu)點(diǎn)是可以處理大批的數(shù)據(jù) 可以自己定義數(shù)據(jù)庫 但是需要耗費(fèi)本地機(jī)的大量資源 此外操作也沒有網(wǎng)絡(luò)版直觀 方便 需要一定的計算機(jī)操作水平 兩種版本的Blast比較 二 16 本地WEB版的Blast 在NCBI的FTP上 在blast程序的目錄下 還提供了一種供用戶在自己的服務(wù)器上建立Blast網(wǎng)頁服務(wù)的軟件包 wwwblast 使用該軟件包 用戶可以建立一個簡易的進(jìn)行Blast運(yùn)算的網(wǎng)站供實(shí)驗室人員使用 用于搜索的數(shù)據(jù)庫同樣可以靈活的定義 17 Blast程序評價序列相似性的兩個數(shù)據(jù) Score 使用打分矩陣對匹配的片段進(jìn)行打分 這是對各對氨基酸殘基 或堿基 打分求和的結(jié)果 一般來說 匹配片段越長 相似性越高則Score值越大 Evalue 在相同長度的情況下 兩個氨基酸殘基 或堿基 隨機(jī)排列的序列進(jìn)行打分 得到上述Score值的概率的大小 E值越小表示隨機(jī)情況下得到該Score值的可能性越低 18 NCBI提供的Blast服務(wù) 登陸ncbi的blast主頁 核酸序列 蛋白序列 翻譯序列 底下有其他一些針對特殊數(shù)據(jù)庫的和查看以往的比對結(jié)果等 19 Blast任務(wù)提交表單 一 1 序列信息部分 填入查詢 query 的序列 序列范圍 默認(rèn)全部 選擇搜索數(shù)據(jù)庫 如果接受其他參數(shù)默認(rèn)設(shè)置 點(diǎn)擊開始搜索 20 Blast任務(wù)提交表單 二 設(shè)置搜索的范圍 entrez關(guān)鍵詞 或者選擇特定物種 2 設(shè)置各種參數(shù)部分 一些過濾選項 包括簡單重復(fù)序列 人類基因組中的重復(fù)序列等 E值上限 窗口大小 如果你對blast的命令行選項熟悉的話 可以在這里加入更多的參數(shù) 21 Blast任務(wù)提交表單 三 3 設(shè)置結(jié)果輸出顯示格式 選擇需要顯示的選項以及顯示的文件格式 顯示數(shù)目 Alignment的顯示方式 篩選結(jié)果 E值范圍 其他一些顯示格式參數(shù) 點(diǎn)擊開始搜索 22 提交任務(wù) 返回查詢號 requestid 可以修改顯示結(jié)果格式 修改完顯示格式后點(diǎn)擊進(jìn)入結(jié)果界面 23 結(jié)果頁面 一 圖形示意結(jié)果 24 結(jié)果頁面 二 目標(biāo)序列描述部分 帶有g(shù)enbank的鏈接 點(diǎn)擊可以進(jìn)入相應(yīng)的genbank序列 匹配情況 分值 e值 25 結(jié)果頁面 三 詳細(xì)的比對上的序列的排列情況 26 一個具體的例子 blastp 假設(shè)以下為一未知蛋白序列 query seqMSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADSTQA我們通過blast搜索來獲取一些這個序列的信息 27 具體步驟 1 登陸blast主頁http www ncbi nlm nih gov BLAST 2 根據(jù)數(shù)據(jù)類型 選擇合適的程序3 填寫表單信息4 提交任務(wù)5 查看和分析結(jié)果 28 分析過程 一 1 登陸ncbi的blast主頁 2 選擇程序 因為查詢序列是蛋白序列可以選擇blastp 點(diǎn)擊進(jìn)入 也可以選擇tblastn 作為演示 我們這里選blastp 29 分析過程 二 3 填入序列 copy paste Fasta格式 或者純序列 4 選擇搜索區(qū)域 這里我們要搜索整個序列 不填 5 選擇搜索數(shù)據(jù)庫 這里我們選nr 非冗余的蛋白序列庫 是否搜索保守區(qū)域數(shù)據(jù)庫 cdd 蛋白序列搜索才有 我們選上 30 分析過程 三 6 限制條件 我們限制在病毒里面找 7 其他選項保持默認(rèn)值 打分矩陣 31 分析過程 四 8 輸出格式選項保持默認(rèn)值 9 點(diǎn)擊開始搜索 32 分析過程 五 10 查詢序列的一些相關(guān)信息 在cdd庫里面找到兩個保守區(qū)域 點(diǎn)擊可以進(jìn)入 33 分析過程 六 圖形結(jié)果 34 分析過程 七 匹配序列列表 35 分析過程 八 具體匹配情況 36 為什么使用單機(jī)版的Blast 1 特殊的數(shù)據(jù)庫要求 2 涉及序列的隱私與價值 3 批量處理4 其他原因 單機(jī)版的Blast使用 一 37 單機(jī)版Blast的基本操作過程1 下載單機(jī)版的Blast程序ftp ftp ncbi nlm nih gov blast executables 目錄下 下載對應(yīng)的操作系統(tǒng)版本 2 解壓程序包 blast 2 28 ia32 linux tar gz 命令是 tarzxvfblast 2 28 ia32 linux tar gz 單機(jī)版的Blast使用 二 38 下載正確的Blast程序包 blast 在本地運(yùn)行的blast程序包wwwblast 在本地服務(wù)器建立blast服務(wù)的網(wǎng)站netblast blast的客戶端程序 直接鏈接至NCBI的BLAST服務(wù)器 使用BLAST服務(wù) 不需瀏覽器 39 下載正確的Blast程序包 Blast程序包的名字上還包括了該程序包運(yùn)行的硬件和操作系統(tǒng)環(huán)境 硬件環(huán)境 CPU 操作系統(tǒng) sparc powerPC ia32 ia64 amd64 mips alpha linux macox solaris irix aix freebsd win32 hpux 40 3 獲取Blast數(shù)據(jù)庫a 直接從ncbi下載ftp ftp ncbi nlm nih gov blast db b 用Blast程序包提供的formatdb工具自己格式化序列數(shù)據(jù)成數(shù)據(jù)庫 假設(shè)有一序列數(shù)據(jù) sequence fa 多序列 fasta格式 欲自己做成Blast數(shù)據(jù)庫 典型的命令如下 單機(jī)版的Blast使用 三 41 核酸序列 formatdb isequence fa pF oT F ndb name蛋白序列 formatdb isequence fa pT oT F ndb name 單機(jī)版的Blast使用 四 42 4 執(zhí)行Blast比對獲得了單機(jī)版的Blast程序 解壓開以后 如果有了相應(yīng)的數(shù)據(jù)庫 db 那么就可以開始執(zhí)行Blast分析了 單機(jī)版的Blast程序包 把基本的blast分析 包括blastn blastp blastx等都整合到了blastall一個程序里面 單機(jī)版的Blast使用 五 43 以下是一個典型的blastn分析命令 待分析序列seq fa 數(shù)據(jù)庫nt db blastall pblastn iseq fa dnt db w7 e10 o程序名輸入數(shù)據(jù)庫窗口e值輸出seq blastn out該命令的意思是 對seq fa文件中的核酸序列對nt db數(shù)據(jù)庫執(zhí)行blastn搜索 窗口大小是7 e值限制是10 輸出的結(jié)果保存到文件seq blastn out中 單機(jī)版的Blast使用 六 44 5 Blastall的常用參數(shù) p程序名應(yīng)該是blastn blastp blastx tblastn tblastx中的一個 d數(shù)據(jù)庫名稱 默認(rèn)nr i查詢序列文件 默認(rèn)stdin eE值限制 默認(rèn)10 o結(jié)果輸出文件 默認(rèn)stdout F過濾選項 默認(rèn)T a選擇進(jìn)行運(yùn)算的CPU個數(shù) 單機(jī)版的Blast使用 七 45 進(jìn)一步深入Blast 1 blast22 Megablast3 Psi blast4 其他 rpsblast blastclust等 46 Blast2 兩個序列的blast比對 給定兩個序列 相互進(jìn)行blast比對 能快速檢查兩個序列是否存在相似性片斷或者是否一致 這比起全序列比對要快很多 47 Megablast megablast采用了貪婪算法 greedyalgorithm 它連接了多個查詢序列進(jìn)行一次搜索比對 這樣節(jié)省了很多搜索數(shù)據(jù)庫的時間 主要針對核酸序列 是blast經(jīng)過優(yōu)化后 適用于由于測序或者其他原因形成的輕微的差別的序列之間的比較 比一般的相似性搜索程序要快10倍 可以很快的完成兩組大數(shù)據(jù)的比對 48 PSI blast PositionspecificiterativeBLAST PSI BLAST 位點(diǎn)特異的迭代blast搜索 主要針對蛋白序列 第一次blast搜索后 結(jié)果中最相似的序列重新構(gòu)建PSSM 位點(diǎn)特異性打分矩陣 然后再使用該矩陣進(jìn)行第二輪blast搜索 再調(diào)整矩陣 搜索 如此迭代 最終高度保守的區(qū)域就會得到比較高的分值 而不保守的區(qū)域則分?jǐn)?shù)降低 趨近0 這樣可以提高blast搜索的靈敏度 49 Blast的算法基礎(chǔ) 基本思想是 通過產(chǎn)生數(shù)量更少的但質(zhì)量更好的增強(qiáng)點(diǎn)來提高速度 BALST算法是建立在嚴(yán)格的統(tǒng)計學(xué)的基礎(chǔ)之上的 它集中于發(fā)現(xiàn)具有較高的相似性的局部比對 且局部比對中不能含有空位 blast2 0引入了允許插入gap的算法 由于局部比對的限制條件 在大多數(shù)情況下比對會被分解為若干個明顯的HSP High scoreSequencePairs 50 Blast的算法流程 51 首先確定一個終止值S 步長參數(shù)w和一個閾值T 然后軟件會在考慮搜索背景性質(zhì)的基礎(chǔ)上計算出合適的S值 使要比對的序列中包含一個分值不小于S的HSP Blast的算法 一 52 Blast的算法 二 2 引入鄰近字串的思想 不需要字串確切地匹配 當(dāng)有一個字串的分值高于T時 BALST就宣稱找到了一個選中的字串 為了提高速度 允許較長的字串長度W W值很少變化 這樣 T值就成為權(quán)衡速度和敏感度的參數(shù) 53 Blast的算法 三 一個字串選中后 程序會進(jìn)行沒有空位的局部尋優(yōu) 比對的最低分值是S 當(dāng)比對延伸時會遇到一些負(fù)的分值 使得比對的分值下降 當(dāng)下降的分值小于S時 命中的延伸就會終止 這樣系統(tǒng)會減少消耗于毫無指望的選中延伸的時間 使系統(tǒng)的性能得以改進(jìn) 54 在1997年提出了對BLAST程序的改進(jìn)算法 提高了搜索速度 敏感度和實(shí)用性 可處理間隔 gap 的gappedBLAST算法PSI BLAST算法對一個選中字串長度標(biāo)準(zhǔn)的延伸利用profile 表頭文件 的數(shù)據(jù)結(jié)構(gòu)來進(jìn)行搜索 Blast的改進(jìn) 一 55 以兩個步長各為w的字串開始搜索 若兩個字竄在序列上不重疊 并且位于同一對角線上 并且距離在A之內(nèi) 則將這兩個字串聯(lián)起來作為搜索的起點(diǎn) 執(zhí)行通常的BLAST算法 使用一種不同的記分方式 根據(jù)高度顯著比對 HSPs 的最高分值建立一個最初的profile Blast的改進(jìn) 二 56 根據(jù)該profile反復(fù)利用BLAST算法對數(shù)據(jù)庫進(jìn)行搜索 這一步實(shí)際上是根據(jù)表頭文件的統(tǒng)計結(jié)果擴(kuò)展局部比對 這一過程是反復(fù)進(jìn)行的 直到再沒有發(fā)現(xiàn)新的有意義的匹配為止 由于在每一輪都會有新的片段加入 因此在操作過程中profile需要在每一個循環(huán)結(jié)束之后更新 Blast的改進(jìn) 三 57 58 數(shù)據(jù)庫搜索工具的sensitivity與selectivity Sensitivity 盡可能多地搜索到具有一定相似性的序列的能力 Selectivity 盡可能準(zhǔn)確地搜索到對研究目的有用的相似性的序列的能力 59 其他的序列相似性搜索工具 fasta FastA算法是由Lipman和Pearson于1985年發(fā)表的 Lipman和Pearson 1985 FastA的基本思路是識別與代查序列相匹配的很短的序列片段 稱為k tuple 以下鏈接是EBI提供的fasta服務(wù) http www ebi ac uk fasta33 60 幫助信息 各個參數(shù)選項 填入搜索序列 61 基本思想是 一個能夠揭示出真實(shí)的序列關(guān)系的比對至少包含一個兩個序列都擁有的字 片斷 把查詢序列中的所用字編成索引 然后在數(shù)據(jù)庫搜索時查詢這些索引 以檢索出可能的匹配 這樣那些命中的字很快被鑒定出來 FASTA算法基礎(chǔ) 62 確定參數(shù)ktup 在兩個序列中查找長度為ktup的 相匹配的片段 增強(qiáng)點(diǎn) 為了提高速度 可以通過查詢表格或hash表來完成 然后在表格中搜索與另一條序列相匹配的 長度為ktup的片段 FASTA算法 一 63 2 在同一條對角線中臨近的增強(qiáng)點(diǎn)成為一個增強(qiáng)段 每一個增強(qiáng)點(diǎn)都賦予一個正的分值 一個增強(qiáng)段中相鄰的兩個增強(qiáng)點(diǎn)之間的不匹配區(qū)域賦予一定的負(fù)值 一個增強(qiáng)段對應(yīng)于一段相匹配的子序列 分值最高的段被標(biāo)記為init1 FASTA算法 二 64 引入indel 把那些沒有重疊 non overlap 的增強(qiáng)段拼接起來 增強(qiáng)段的分值之和減去空位處罰 分值最高的區(qū)域記為initn FASTA算法 三 65 4 對最有可能的匹配序列進(jìn)一步評分 以增強(qiáng)段init1所在的對角線為中心 劃分出一個較狹窄的對角線帶 利用S W算法 來獲得分值最高的局部比對 記作opt FAS
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 少先隊學(xué)校品牌建設(shè)計劃
- 小型庫房項目管理辦法
- 鹽城開放場所管理辦法
- 藥品追溯規(guī)定管理辦法
- 造價招標(biāo)投標(biāo)管理辦法
- 執(zhí)業(yè)獸醫(yī)管理辦法宗旨
- 財政重點(diǎn)專科管理辦法
- 規(guī)劃建設(shè)跟蹤管理辦法
- 福利機(jī)構(gòu)管理辦法廣東
- 委外單位考核管理辦法
- T-FJSN 0003-2024 干手器標(biāo)準(zhǔn)規(guī)范
- 2024-2025學(xué)年慶陽市數(shù)學(xué)五下期末質(zhì)量檢測模擬試題含答案
- 2025屆廣東省珠海市香洲區(qū)中考化學(xué)最后沖刺卷含解析
- 鋼鐵企業(yè)ESG實(shí)踐與創(chuàng)新戰(zhàn)略研究報告
- 摩擦起電機(jī)理、調(diào)控與應(yīng)用研究的現(xiàn)狀及展望
- 智慧園藝考核大綱
- 電網(wǎng)工程設(shè)備材料信息參考價(2024年第四季度)
- 高級餐飲食品安全管理員技能鑒定理論考試題庫500題(含答案)
- 數(shù)據(jù)中心運(yùn)維服務(wù)投標(biāo)方案(技術(shù)標(biāo))
- 2023-2024學(xué)年人教版數(shù)學(xué)八年級下冊期末復(fù)習(xí)試卷(含答案)
- 2024年租賃業(yè)務(wù)操作手冊3篇
評論
0/150
提交評論