獲取和蛋白質序列信息_第1頁
獲取和蛋白質序列信息_第2頁
獲取和蛋白質序列信息_第3頁
獲取和蛋白質序列信息_第4頁
獲取和蛋白質序列信息_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

關于獲取和蛋白質序列信息第一頁,共三十七頁,2022年,8月28日生物信息學(Bioinformatics)在生命科學研究中發(fā)展起來的一門由分子生物學和計算機信息處理技術相結合,以計算機為工具對生物信息進行儲存、檢索、傳播、模擬和分析的交叉學科,它利用數據庫技術和軟件技術對大量積累的生物大分子序列數據和實驗測定的序列進行比較和分析,揭示出生物大分子的分子結構、功能和進化關系以及基因組構成與基因表達等生物學事件對生命活動的影響。第二頁,共三十七頁,2022年,8月28日生物信息數據庫種類:基因組數據庫、核酸和蛋白質一級結構序列數據庫、生物大分子(主要是蛋白質)三維空間結構數據庫、以上述三類一次數據庫和文獻資料為基礎構建的二次數據庫。第三頁,共三十七頁,2022年,8月28日一次、二次數據庫特點一次數據庫的數據量大、更新速度快、用戶面廣,存在過多的甬余數據。而二次數據庫的容量比較小,更新速度也沒有一次數據庫那樣快,經過篩選后,避免了過多的甬余數據。第四頁,共三十七頁,2022年,8月28日根據數據庫存儲的內容可將生物信息學數據庫分為:核酸、蛋白質、基因圖譜、結構、文獻等數據庫第五頁,共三十七頁,2022年,8月28日第二節(jié)核酸序列數據庫

一、GenBank數據庫

GenBank是一個綜合數據庫,該數據庫中包含了已經公開的260000余種不同物種生物的核酸序列,這些數據主要是由全世界不同實驗室和大規(guī)模測序計劃提交給GenBank的。第六頁,共三十七頁,2022年,8月28日GenBank是具有目錄和生物學注釋的核酸序列綜合數據庫,由美國國家醫(yī)學圖書館(NLM)的國家生物技術信息中心(NCBI)構建、維護和管理。該中心位于美國馬里蘭國家健康研究所(NIH)。NCBI構建GenBank數據庫的序列數據來至序列發(fā)現者提交的序列、批量提交的表達序列標簽(EST)、基因組測序序列(GSS)和其它測序中心的高通量數據,以及美國專利商標局提供的已發(fā)表專利的序列數據。第七頁,共三十七頁,2022年,8月28日GenBank、EMBL、DDBJ組成國際核酸序列數據庫合作組織(INSDC),該組織成員遠程合作,每天相互交換數據以保證序列信息的一致性和完整性。第八頁,共三十七頁,2022年,8月28日檢索GenBank數據

Entrez檢索系統(tǒng)

BLAST序列相似性搜索程序用FTP獲取GenBank

數據庫第九頁,共三十七頁,2022年,8月28日Entrez系統(tǒng)使用Entrez()可以訪問GenBank中的序列記錄,Entrez是一個靈活的數據庫檢索系統(tǒng),可以檢索35個數據庫。Entrez數據庫包含來源于GenBank和其它資源的DNA和蛋白序列,還包括基因組圖譜、種群、進化和環(huán)境序列序列數據集、基因表達數據、NCBI分類學、蛋白結構域信息和來源于MolecularModelingDatabase(MMDB)的蛋白結構數據庫,每個數據庫經由PubMed和PubMedCentral與學術文獻關聯(lián)。第十頁,共三十七頁,2022年,8月28日BLAST序列相似性搜索序列相似性搜索是GenBank數據最基本和使用最多的分析方式。NCBI提供BLAST()系列程序檢測一條查詢序列與數據庫所有序列的相似性。BLAST搜索可以在NCBI網站上運行,也可以在FTP站點下載獨立的程序集運行。第十一頁,共三十七頁,2022年,8月28日用FTP獲取GenBankNCBI以傳統(tǒng)的純文本文件格式發(fā)布GenBank,還以ASN.1格式用以內部維護。通過NCBI匿名FTP()站點可以獲得每兩個月的全文公告和每天與EMBL和DDBJ數據更新內容,還可以從印第安納大學的鏡像站點(/biomirror/genbank/)下載。在“genbank”目錄中的“daily-nc”文件夾中可以獲得純文本的更新數據壓縮文件。在GenBankFTP站點的“tools”目錄中提供轉換每日更新數據集的腳本。第十二頁,共三十七頁,2022年,8月28日EMBL數據庫

EMBL核苷序列數據庫()是歐洲主要的核苷序列收集單位。這個數據庫是由歐洲生物信息中心EBI(歐洲分子生物學實驗室(EMBL)在德國海德堡的站點)維護的。第十三頁,共三十七頁,2022年,8月28日EBI核苷數據來自基因組測序中心、個別科學家、歐洲專利局、以及與合作伙伴DDBJ(Japan)和GenBank(USA)交換的數據。為了達到最佳的同步性,每天DDBJ/EMBL/GenBank之間都要交換最新的數據。用戶只要進入三者中任意一個數據庫都能得到最新數據。這三個數據庫之間堅持統(tǒng)一的文件指導方針,規(guī)范了數據庫登錄的內容和語法。這種指導方針確保了這些數據庫的信息以一種便捷的格式進行交換,它與當今的生物信息學軟件兼容,反映了分子生物學領域的發(fā)展。第十四頁,共三十七頁,2022年,8月28日DDBJ數據庫

日本DNA數據庫(DDBJ)是在亞洲唯一的核酸序列數據庫,是公認搜集研究者獲得的核酸序列數據庫,并且,發(fā)放給數據提交者國際認證的核酸序列編號。由于DDBJ每天將搜集的數據與EML-Bank/EBI和GenBank/NCBI進行交換,使得三個核酸數據庫幾乎在任何時候都享有相同數據。這種幾乎統(tǒng)一的數據庫被稱作“國際核酸序列數據庫(INSD)”。DDBJ主要收集來自日本研究者獲得的序列數據,但也收集數據和發(fā)放編號給任何其它國家的研究者。第十五頁,共三十七頁,2022年,8月28日其他重要的核酸序列數據庫:dbESTncRNAdbmiRBase第十六頁,共三十七頁,2022年,8月28日dbEST是GenBank中的一個子數據庫,包含來源于不同物種的表達序列數據和表達序列標簽序列的其它信息。非編碼RNA(ncRNA)數據庫旨在提供非編碼RNA的序列和功能信息。非編碼轉錄物不編碼蛋白質,但在細胞中起調節(jié)作用。目前,該數據庫包含來源于99種細菌、古生菌和真核生物的30000多條單個序列。

miRBase序列數據庫是主要存放已發(fā)表的microRNA(miRNA)序列和注釋的數據庫。第十七頁,共三十七頁,2022年,8月28日第二節(jié)蛋白質序列數據庫

PIR數據庫MIPS數據庫其他重要的蛋白質序列數據庫:PRINTS、Pfam

第十八頁,共三十七頁,2022年,8月28日PIR數據庫蛋白質信息庫(PIR)是一個支持基因組學、蛋白質組學和系統(tǒng)生物學檢索和科學研究的綜合公共生物信息學資源。PIR是由美國國家生物醫(yī)學基金會(NBRF)于1984年建立,幫助研究者確認和解釋蛋白序列信息的數據庫。第十九頁,共三十七頁,2022年,8月28日MIPS數據庫

生物信息學和系統(tǒng)生物學研究所(IBIS)是慕尼黑亥姆霍茲中心-德國環(huán)境衛(wèi)生研究中心的一部分,主辦慕尼黑蛋白序列信息中心(MIPS),它的重點工作是基因組生物信息學,特別注重基因組信息系統(tǒng)分析,包括應用生物信息學方法注釋基因組、表達分析和蛋白質組學方面研究。MIPS支持和維護一系列基因組數據庫以及系統(tǒng),可以提供比較分析細菌、真菌和植物基因組服務。在該站點提供基因組分析工具、數據庫檢索系統(tǒng)、表達分析、蛋白相互作用等網絡服務。第二十頁,共三十七頁,2022年,8月28日PRINTS是蛋白基序指紋圖綜合數據庫,每個指紋圖都是使用數據掃描程序ADSP或VISTAS序列分析軟件包反復優(yōu)化后定義的。數據庫中有兩種類型指紋圖,根據指紋圖的復雜性分為簡單和復合指紋圖:簡單指紋圖基本上是單一的基序,而復合指紋圖包含多個基序。第二十一頁,共三十七頁,2022年,8月28日Pfam數據庫是一個大的蛋白質域家族集合;Pfam家族有兩個質量等級:Pfam-A和Pfam-B。第二十二頁,共三十七頁,2022年,8月28日第三節(jié)NCBI與EBINCBI的簡介

NCBI的使命是開發(fā)新的信息技術,幫助理解控制健康和疾病的基本分子和遺傳過程。特別是,NCBI肩負建立存儲和分析分子生物學、生物化學和遺傳學知識的自動系統(tǒng);提供研究和醫(yī)學界方便使用的數據庫和軟件;努力協(xié)調搜集國內外生物技術信息;執(zhí)行分析生物學重要分子結構和功能的先進方法研究。第二十三頁,共三十七頁,2022年,8月28日EBI簡介

EMBL-EBI研究團隊旨在通過開發(fā)新方法解釋生物學數據,了解生物學。研究領域包括:進化途徑的基因組分析(PaulBertone);序列數據進化分析(NickGoldman);神經信號計算系統(tǒng)生物學(NicolasLeNovere);蛋白質組學:結構、功能和進化(JanetThorton);基因組規(guī)模調節(jié)系統(tǒng)分析(NickLuscombe)和功能基因組學(WolfgangHubert)。第二十四頁,共三十七頁,2022年,8月28日第四節(jié)通過EntrezGene從NCBI獲取序列信息Entrez是用于NCBI主要數據庫的綜合的、基于文本的搜索和檢索系統(tǒng)。Entrez綜合了科學文獻、DNA和蛋白序列數據庫、3D蛋白質結構和蛋白質域數據、種群研究數據集、表達數據、完整基因組組裝和分類學信息形成一個緊密鏈接的系統(tǒng)。它是被設計用于搜索NCBI的鏈接數據庫的檢索系統(tǒng)??梢詧?zhí)行單個子數據庫檢索,還可以進行跨庫檢索。第二十五頁,共三十七頁,2022年,8月28日EntrezGene檢索

EntrezGene檢索到的記錄提供關鍵鏈接,將圖譜、序列、表達、結構、功能、索引文獻和同源數據鏈接在一起構成關鍵鏈接。檢索EntrezGene最簡捷的方法是登錄到NCBI()的首頁。第二十六頁,共三十七頁,2022年,8月28日第二十七頁,共三十七頁,2022年,8月28日第二十八頁,共三十七頁,2022年,8月28日第二十九頁,共三十七頁,2022年,8月28日第三十頁,共三十七頁,2022年,8月28日第三十一頁,共三十七頁,2022年,8月28日第五節(jié)通過SRS從EBI中獲取蛋白序列信息SRS是世界上主要的生物信息學、基因組和相關數據綜合、分析和顯示工具。SRS檢索系統(tǒng)是個開放的系統(tǒng),可以根據不同的需要安裝不同的數據庫,現在,安裝在EBI的數據庫有200多個。SRS有三種檢索方式,快速檢索、標準檢索和批量檢索。第三十二頁,共三十七頁,2022年,8月28日我們可以通過網址(http://srs.ebi.ac.uk/srsbin/cgi-bin/wgetz

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論