




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、NCBI 數(shù)據(jù)庫資源隨著 ncbi 數(shù)據(jù)庫各種資源的涌現(xiàn),NCBI 已經(jīng)成為科研工作者必不可少的資料查找,數(shù)據(jù)分析的工具。那么NCBI數(shù)據(jù)如何使用,新手入門一步一步教你認(rèn)識(shí)和使用NCBI 數(shù)據(jù)庫。一 綜合數(shù)據(jù)庫NCBI 數(shù)據(jù)庫集美國國立生物技術(shù)信息中心(NationalCenter for Biotechnology Information) , 即我們所熟知的NCBI是由美國國立衛(wèi)生研究院(NIH) 于 1988 年創(chuàng)辦。創(chuàng)辦NCBI的初衷是為了給分子生物學(xué)家提供一個(gè)信息儲(chǔ)存和處理的 系統(tǒng)。除了建有GenBank 核酸序列數(shù)據(jù)庫(該數(shù)據(jù)庫的數(shù)據(jù)資源來自全球幾大DNA 數(shù)據(jù)庫, 其中包括日本D
2、NA 數(shù)據(jù)庫DDBJ、歐洲分子生物學(xué)實(shí)驗(yàn)室數(shù)據(jù)庫EMBL以及其它幾個(gè)知名科研機(jī)構(gòu))之外,NCBI 還可以提供眾多功能強(qiáng)大的數(shù)據(jù)檢索與分析工具。目前,NCBI 提供的資源有Entrez、 EntrezProgramming Utilities 、 My NCBI 、 PubMed、 PubMed Central 、 Entrez Gene、 NCBI Taxonomy Browser 、 BLAST 、 BLAST Link (BLink) 、 Electronic PCR 等共計(jì) 36 種功能,而且都可以在NCBI 的主頁,其中多半是由BLAST 功能發(fā)展而來的。1 NCBI 最新進(jìn)展1.1
3、PubMed 搜索功能的增強(qiáng)去年, NCBI 對(duì) PubMed 進(jìn)行了幾項(xiàng)改進(jìn)工作,改動(dòng)最大的是搜索界面和摘要瀏覽界面。其中,搜索界面中新增了“Advanced Search”選項(xiàng)(這實(shí)際上是對(duì)以往“ Limits ”和“ Preview/Index ”功能的整合),并且增加了一個(gè)新的窗口,用戶可以在此窗口下通過“論文作者名”、 “論文所屬雜志名稱” 、 “論文出版日期”等限定條件進(jìn)行搜索。而且, “論文作者名”和“論文所屬雜志名稱”還設(shè)有文本框自動(dòng)填充功能。現(xiàn)在,在PubMed 數(shù)據(jù)庫中進(jìn)行文本搜索的同時(shí)還可以立即通過兩個(gè)“內(nèi)容傳感器 (content sensors)”進(jìn)行分析。一個(gè)“內(nèi)容
4、傳感器”是根據(jù)作者姓名、所屬雜志名稱或雜志名縮寫、出版日期、卷號(hào)或刊號(hào)等信息進(jìn)行分析,然后將符合條件的搜索結(jié)果排列到結(jié)果列表的頂端。另一個(gè)“內(nèi)容傳感器”是根據(jù)文章是否與用戶給出的條件,例如是否與某種藥物相關(guān),在NCBI 的新增數(shù)據(jù)庫PubMed Clinical Q&A中進(jìn)行搜索,然后給出搜索結(jié)果。1.2 新增 primer-BLAST 分析工具2008 年, NCBI 新增了設(shè)計(jì)、分析PCR 引物的工具Primer-BLAST 。 Primer-BLAST 的引物設(shè)計(jì)功能是基于NCBI現(xiàn)有的 Primer3 程序發(fā)展而來的,Primer3 程序可以為一段DNA 模板序列設(shè)計(jì)P
5、CR 引物。 Primer-BLAST 在設(shè)計(jì)出引物之后還在某些相應(yīng)數(shù)據(jù)庫中進(jìn)行BLAST 搜索,因此可以得到特異性引物,擴(kuò)增出目的片段。用戶在給出DNA 模板的同時(shí)還可以限定正向引物或反向引物,這樣,NCBI 就只會(huì)給出另一條引物。如果用戶給出了模板DNA 和兩條引物序列, Primer-BLAST 就只會(huì)運(yùn)行BLAST 程序,幫助用戶對(duì)引物進(jìn)行分析。用戶也可以只給出兩條引物而不給出模板序 列, 這時(shí) Primer-BLAST 會(huì)通過 BLAST 程序分析出與這對(duì)引 物最匹配的模板序列。Primer-BLAST 進(jìn)行 BLAST 搜索的數(shù)據(jù)庫包括RefSeq mRNA、 BLAST nr 和
6、 12 種模式生物基因組數(shù)據(jù)庫。1.3 BLAST 的改進(jìn)及更新NCBI 對(duì) BLAST 進(jìn)行了全新的改版,推出了最新的webBLAST report 。在最新的BLAST 比對(duì)結(jié)果頁面中, “圖形化概要 (Graphic Summary) ”、“具體描述 (Descriptions) ” 以及 “序 列比對(duì) (Alignments) ”等部分頁面都可以展開和收起。此外,網(wǎng)頁上還提供了“結(jié)果輸出格式選項(xiàng) (Formatting) ”和“結(jié)果下載選項(xiàng)(download) ”,在下載選項(xiàng)中還新增了CSV 格式下載。這樣,讀者可以輕松地將BLAST 的比對(duì)結(jié)果輸入到表格處理軟件中去。另外,BLAST
7、 比對(duì)結(jié)果頁面上的“ Alignments ”部分還提供了每一條命中序列在Entrez GENE中的相關(guān)信息,這些信息包括基因名稱、來源物種以及在PubMed 數(shù)據(jù)庫中與該基因有關(guān)條目的數(shù)目等?!?BLAST tree ”結(jié)果輸出模式可以測量不同序列間的距離, 自動(dòng)收起亞類信息等?,F(xiàn)在, 可以以 Newick 格式或 Nexus格式下載BLAST tree 結(jié)果,也可以在進(jìn)化樹圖中選擇任一節(jié)點(diǎn)重新構(gòu)樹。最后還要向讀者介紹ncbi blast 的一個(gè)新網(wǎng)址: URL: BLAST ,因?yàn)樵揃LAST 使用更多的計(jì)算機(jī)進(jìn)行分析,也具有更強(qiáng)的系統(tǒng)容錯(cuò)能力。1.4 Entrez Gene 改進(jìn)及更新基
8、因組注釋工作當(dāng)中有一項(xiàng)重要的工作就是定位基因重疊群序列(contig sequences),即在染色體中找由莫個(gè)基因的定位。實(shí)際上基因組測序工作就是將許多基因重疊序列彼此拼接,最后拼出“完整(中間會(huì)有一些縫隙)”的基因組圖譜。這項(xiàng)工作可以直接將某個(gè)基因與某段基因重疊群序列對(duì)應(yīng)起來,但不能直接將該基因與染色體聯(lián)系起來,而這恰恰是生物學(xué)家最感興趣的地方。因此,為了能讓用戶在搜索基因的同時(shí),也能了解到一些該基因在染色體中的定位情況,Entrez Gene推由了新的“ Limits”服務(wù),用戶可以使用該服務(wù)在基因組范圍內(nèi)進(jìn)行基因搜索。用戶可以在某個(gè)物種染色體的某個(gè)區(qū)域里進(jìn)行基因搜索。Entrez Ge
9、ne會(huì)按以下三種順序?qū)λ阉饔傻幕蜻M(jìn)行排序:1. 按照基因名排序。2. 按照相關(guān)性排序,即按照結(jié)果與用戶搜索所使用的關(guān)鍵詞,例如基因名稱等的匹配程度排序。3. 按照基因重要性排序,即按照該基因在PubMed、Homologene、 Protein Clusters、 Online Mendelian Inheritance in Man(OMIM) 或 Bookshelf 中文獻(xiàn)數(shù)量的多少進(jìn)行排序。2 ENTREZ 搜索系統(tǒng)2.1 EntrezEntrez 數(shù)據(jù)庫是一個(gè)整合了多個(gè)數(shù)據(jù)庫的綜合檢索系統(tǒng),它包含了35 個(gè)不同數(shù)據(jù)庫的信息,共收錄有超過350,000,000條記錄 (表 1)。 En
10、trez 數(shù)據(jù)庫支持使用簡單的布爾查詢(Boolean queries)方式進(jìn)行文本搜索,可以下載不同格式的數(shù)據(jù)資料,還可以按照生物學(xué)關(guān)系提供與其它相關(guān)記錄的鏈接。這些鏈接給出的都是最簡要的信息,例如會(huì)給出一條序列和報(bào)道該序列的論文摘要,或者會(huì)給出一條蛋白質(zhì)序列的編碼 DNA 序列或該蛋白質(zhì)的3D 結(jié)構(gòu)圖。 這種通過計(jì)算機(jī)運(yùn)算,即基于比較序列相似性或PubMed 中摘要的相似性,所給出的相關(guān)鏈接信息可以以最快的速度提供給用戶大量的相關(guān)信息。還有一種叫做“ LinkOut ” 的功能將這種鏈接功能擴(kuò)展到了與外部數(shù)據(jù)庫,例如各物種基因組數(shù)據(jù)庫之間的鏈接。 Entrez 中搜索到的數(shù)據(jù)可以以多種格式
11、輸出,也可以打包下載或逐個(gè)下載。2.2 My NCBIMy NCBI 功能是為了方便用戶儲(chǔ)存?zhèn)€人配置信息,例如搜索條件、 LinkOut 參數(shù)或文件出處等而設(shè)的。用戶登陸自己的My NCBI 帳戶后, 就可以進(jìn)行保存搜索設(shè)置、管理郵件等操作了。My NCBI中有一種稱作“ Collections”的功能可以讓用戶儲(chǔ)存搜索結(jié)果和文獻(xiàn)結(jié)果。BLAST 中也設(shè)有類似的功能,這樣用戶就可以使用同一條件進(jìn)行多次比對(duì)了。2.3 Entrez programming utilities(E-Utilities)E-Utilities(Entrez 應(yīng)用程序)由8 種服務(wù)器程序組成,借助E-Utilities
12、 可以設(shè)置一套標(biāo)準(zhǔn)參數(shù)進(jìn)行搜索、鏈接和下載數(shù)據(jù)(表2)。 用戶可以到NCBI 主頁上的 Entrez Tools 鏈接中了解更多有關(guān)E-Utilities 的信息。2.4 TaxonomyNCBI Taxonomy(分類)數(shù)據(jù)庫在Entrez生物學(xué)數(shù)據(jù)庫中起到了組織中心的作用。該數(shù)據(jù)庫為每一個(gè)分類學(xué)上的節(jié)點(diǎn),從超界節(jié)點(diǎn)(superkingdoms)至亞木中節(jié)點(diǎn) (subspecies),提供數(shù)據(jù)鏈接服務(wù)。分類數(shù)據(jù)庫以每月增加2200 個(gè)新分類單位的速度在增長,共收錄有將近300,000 種物種信息,這些信息為“屬(genus)”級(jí)別,或者雖然未達(dá)到“屬 (genus)”級(jí)別,但在Entrez至
13、少收錄有一條該物種的核酸序列或蛋白質(zhì)序列信息。使用Taxonomy 網(wǎng)頁可以了解該物種在分類學(xué)上的地位,也可以在某一物種范圍內(nèi)對(duì)Entrez 數(shù)據(jù)庫進(jìn)行搜索。3 BLAST 序列相似性搜索程序BLAST 程序是一種進(jìn)行序列相似性搜索的程序,它可以對(duì)核酸序列或蛋白質(zhì)序列進(jìn)行分析。經(jīng)過BLAST 程序比對(duì)之后會(huì)得到各種序列結(jié)果,例如轉(zhuǎn)錄體序列(UniGene)信息、基因序列(Gene)信息、3D結(jié)構(gòu)信息(MMDB)或芯片信息(GEO)等。 用戶也可以使用My NCBI 功能保留BLAST 中設(shè)定的搜索題目、 近期搜索結(jié)果和搜索參數(shù)等信息。還有一種BLAST程序 BLAST2Sequences 程序
14、,它可以對(duì)兩條DNA 序列或蛋白質(zhì)序列進(jìn)行比對(duì),并獲得一個(gè)點(diǎn)對(duì)點(diǎn)的比對(duì)結(jié)果。BLAST 程序也可以作為一個(gè)獨(dú)立的程序下載到本地計(jì)算機(jī)上使用,用戶可以到3.1 BLASTBLAST 默認(rèn)的比對(duì)信息數(shù)據(jù)庫包括NCBI 中的人類基因組數(shù)據(jù)庫和人類RefSeq 數(shù)據(jù)庫。比對(duì)之后,BLAST 會(huì)按照評(píng)分高低、序列相似度對(duì)結(jié)果進(jìn)行排序,另外BLAST 還可以對(duì)小鼠數(shù)據(jù)庫以及其它數(shù)據(jù)庫進(jìn)行比對(duì)。蛋白質(zhì)序列的默認(rèn)數(shù)據(jù)庫包括GenBank 非冗余數(shù)據(jù)庫、RefSeq、 Swiss-Prot、 PDB、 PIR 和 PRF 等。此外,還包括這些數(shù)據(jù)庫下的子數(shù)據(jù)庫以及其它一些專利數(shù)據(jù)庫和諸如核酸數(shù)據(jù)庫等環(huán)境樣品數(shù)據(jù)
15、庫(environmental samples) 。3.2 BLAST output formats標(biāo)準(zhǔn)的 BLAST 輸出格式包括默認(rèn)的配對(duì)比對(duì)格式(defaultpairwise alignment) 、搜索定位的多序列比對(duì)格式(query-anchored multiple sequence alignment formats) 、簡單的可解析的Hit Table 格式以及按照分類學(xué)給出的報(bào)告格式等。一種叫做“按照同一性進(jìn)行配對(duì) (Pairwise with identities) ”的格式能更好地突出目標(biāo)序列與檢索序列之間的差別。而WebBLAST 中提供的樹狀瀏覽格式則會(huì)按照搜索出的
16、目標(biāo)序列與檢索序列之間的距離不同將這些目標(biāo)序列進(jìn)行聚類,形成一幅樹狀圖來顯示結(jié)果。BLAST 比對(duì)之后給出的每一種格式的比對(duì)結(jié)果都會(huì)有一個(gè)分值和E 值。用戶也可以設(shè)定一個(gè)E值的閾值來篩選比對(duì)結(jié)果。3.3 MegaBLASTMegaBLAST 也是一種BLAST 程序, 不過它主要是用來在非常相似的序列之間(來自同一物種)比對(duì)同源性的。使用者通過網(wǎng)頁使用MegaBLAST 進(jìn)行批量比對(duì)操作,這比使用標(biāo)準(zhǔn)的 BLAST 程序要快10 倍。 MegaBLAST 在 NCBI 基因組BLAST 頁面下是默認(rèn)的搜索工具,借助它能對(duì)增長迅速的Trace Archives 數(shù)據(jù)庫和標(biāo)準(zhǔn)BLAST 使用的數(shù)據(jù)
17、庫進(jìn)行快速檢索。 NCBI 還為跨物種核酸序列快速搜索提供了Discontiguous MegaBLAST ,它使用非重疊群字段匹配算法(noncontiguous word match) 來進(jìn)行核酸比對(duì)。DiscontiguousMegaBLAST 比 blastx 等翻譯后比對(duì)要快得多,同時(shí)它在比較編碼區(qū)時(shí)也具有相當(dāng)高的敏感度。3.4 Genomic BLASTNCBI 在 Map Viewer 中還為 100 多個(gè)物種設(shè)有GenomicBLAST 。通過默認(rèn)的Genomic BLAST 既能對(duì)某個(gè)物種的基因組序列進(jìn)行搜索,也能對(duì)其它的數(shù)據(jù)庫進(jìn)行搜索,比如RefSeqs數(shù)據(jù)庫、EST數(shù)據(jù)庫
18、等。4 文獻(xiàn)資源4.1 PubMed 數(shù)據(jù)庫目前, PubMed 數(shù)據(jù)庫中收錄有自1860 年以來 20,400 種生命科學(xué)類雜志、刊物刊登過的超過1800 萬條的文獻(xiàn)記錄。這些文獻(xiàn)中有980 萬條摘要信息,最早的記錄可追溯至19 世紀(jì) 80 年代,其中有870 萬條可以檢索到全文。PubMed 數(shù)據(jù)庫與其它Entrez 數(shù)據(jù)庫都保持著密切聯(lián)系,這樣可以在不同的數(shù)據(jù)庫之間架起一座連接的橋梁。PubMed 數(shù)據(jù)庫還會(huì)通過計(jì)算機(jī)自動(dòng)檢索出包含相近MeSH 詞匯、 文獻(xiàn)題目以及摘要的相關(guān)文獻(xiàn)信息提供給用戶。默認(rèn)的“AbstractPlus”輸由格式給出了該文獻(xiàn)的摘要信息和五篇與該文獻(xiàn)相關(guān)信息的簡單介
19、紹,這樣用戶就可以獲得更多的有關(guān)資訊了。4.2 PubMed CentralPubMed Central 是一個(gè)收錄生命科學(xué)領(lǐng)域同行評(píng)審期刊(PeerReviewed Journals)文獻(xiàn)的數(shù)據(jù)庫,現(xiàn)收錄超過160萬條全文文獻(xiàn),并且僅去年一年就增長了51%。而且,包括核酸研究 (Nucleic Acids Research) 在內(nèi)的 480 多種期刊會(huì)為PubMed Central 提供全文文獻(xiàn)。所有參與PubMed Central 的出版商也都必須在文獻(xiàn)出版后12 個(gè)月之內(nèi)免費(fèi)為PubMed Central 提供全文文獻(xiàn)。由于 NIH于 2008 年 4 月 7 日開始執(zhí)行向公眾免費(fèi)開放使
20、用的政策,故而 PubMed Central 也必須免費(fèi)向公眾開放使用。如此一來,用戶使用Entrez 就可以搜索到PubMed 和 PubMed Central 中的所有文獻(xiàn)信息了。13 3 NCBI Bookshelf 、 NLM Catalog 以及 Journals databaseNCBI Bookshelf 通過與作者和出版商合作,收錄了86 種在線教科書和生物醫(yī)藥類圖書。NCBI Bookshelf 作為獨(dú)立于Entrez 數(shù)據(jù)庫的一個(gè)單獨(dú)數(shù)據(jù)庫,它里面的信息也可以通過文本搜索或Entrez 數(shù)據(jù)庫,例如PubMed、 PubMed Central 、Gene和OMIM 中的鏈接
21、搜索到。NCBI Bookshelf中的圖書不是象普通圖書那樣一本一本的存放的,而是按照內(nèi)容將它們分成了230,000 個(gè)不同的部分、章節(jié)進(jìn)行儲(chǔ)存的。用戶瀏覽其中一個(gè)內(nèi)容的時(shí)候也可以跳到該書的其它部分或者直接搜索這本書中的特定內(nèi)容進(jìn)行閱讀。NLM Catalog 為藏書超過130 萬冊(cè)的美國國立衛(wèi)生圖書館(NLM) 記錄設(shè)立目錄信息,包括雜志、圖書、手稿、計(jì)算機(jī)軟件、錄音文件和其它電子資源。每一條記錄都可鏈接到NLM LocatorPlus 和具有相近題目或MeSH 詞匯的相關(guān)文件目錄信息。Journals database期刊數(shù)據(jù)庫)包含了每一個(gè) Entrez數(shù)據(jù)庫中的所有期刊信息。目前共收
22、錄有超過22,000 條記錄, 期刊數(shù)據(jù)庫為每一份期刊都建立了ISO 刊名縮寫索引、出版日期索引和 NLM catalog 鏈接索引以及Entrez 中引用該期刊中文獻(xiàn)的索引。5 基因序列信息以及相關(guān)序列信息5.1 數(shù)據(jù)庫5.1.1 Entrez GeneEntrez Gene數(shù)據(jù)庫為用戶提供基因序列注釋和檢索服務(wù),還會(huì)鏈接到NCBI 的 Map Viewer 、 Evidence Viewer 、 ModelMaker、 BLAST Link (Blink) 、 protein domains from the Conserved Domain Database(CDD) 等數(shù)據(jù)庫資源以及其
23、它與基因相關(guān)的資源。Entrez Gene 數(shù)據(jù)庫收錄了來自5300 多個(gè)物種的 430 萬條基因記錄。而且,NCBI 除了擁有自己的注釋工作人員之外,還在不斷從許多其它國際合作組織那里獲取新的基因注釋記錄信息。Entrez Gene數(shù)據(jù)庫與PubMed中最新引文之間的鏈接是由基 因注釋人員負(fù)責(zé)維護(hù)的,這項(xiàng)功能也被稱作GeneRIFo完整的 Entrez Gene 數(shù)據(jù)集以及物種特異性的數(shù)據(jù)亞集可以在NCBI FTP 站點(diǎn)中的NCBI ASN.1 中找到。一種可以將NCBIASN.1 格式轉(zhuǎn)化成XML 格式的名為ene2xml 的軟件也可以到5.1.2 UniGene 和 ProtESTUni
24、Gene 從屬于GenBank 的一部分,專門收集轉(zhuǎn)錄體序列數(shù)據(jù), 包括 EST 序列和非冗余序列,每一條 UniGene 記錄都代表一個(gè)潛在的基因。UniGene 收錄了 GenBank 中來自所有物種的將近70,000 條 EST 序列,這些物種中包括58 種動(dòng)物、43 種植物和真菌以及6 種真核生物?,F(xiàn)在, 在構(gòu)建基因表達(dá)譜芯片時(shí)都是參考UniGene 中的數(shù)據(jù)來進(jìn)行設(shè)計(jì)的。UniGene 數(shù)據(jù)庫每周都會(huì)更新EST 信息, 每兩個(gè)月會(huì)更新序列信息。ProtEST 作為 UniGene 序列的輔助確認(rèn)工具會(huì)預(yù)先對(duì)序列進(jìn)行BLAST 比對(duì), 它所使用的比對(duì)方式是將UniGene核酸序列的6
25、種可能翻譯蛋白質(zhì)序列與模式生物蛋白質(zhì)序列進(jìn)行比對(duì)。5.1.3 HomoloGene 數(shù)據(jù)庫HomoloGene 數(shù)據(jù)庫是一個(gè)在20種完全測序的真核生物基因組中自動(dòng)檢索同源基因的系統(tǒng),包括直系同源與旁系同源。HomoloGene 的結(jié)果報(bào)告包括基因同源性和來自O(shè)MIM 、小鼠基因組信息學(xué)(Mouse Genome Informatics, MGI) 、 斑馬魚信息網(wǎng)絡(luò) (Zebrafish Information Network, ZFIN) 、酵母基因組數(shù)據(jù)庫(Saccharomyces Genome Database, SGD> 直系同源基因 簇(Clusters of Ortholo
26、gous Groups , COG)和果蠅數(shù)據(jù)庫 (FlyBase)的基因表型信息。HomoloGene下載功能能下載 HomoloGene 中的轉(zhuǎn)錄體、蛋白質(zhì)和基因組序列信息,還能下載基因組中特定基因的上游和下游序列。5.1.4 Reference SequencesReference Sequences(RefSeq數(shù)據(jù)庫是一個(gè)收錄注釋過的非冗余轉(zhuǎn)錄體、蛋白質(zhì)和基因組序列數(shù)據(jù)庫。2008 年, ReferenceSequences數(shù)據(jù)庫收錄的記錄增加了 40%。同年7月公布的 Reference Sequences數(shù)據(jù)庫30共收錄了來自 5400種不同物 種的300 萬條核酸序列和560
27、萬條蛋白質(zhì)序列。用戶可以通過 Entrez 核酸和蛋白質(zhì)數(shù)據(jù)庫搜索到RefSeq 序列,也可以通過NCBI FTP 站點(diǎn)進(jìn)入RefSeq 數(shù)據(jù)庫。5.1.5 GenBank 和其它數(shù)據(jù)庫來源的序列用戶可以通過三個(gè) Entrez數(shù)據(jù)庫Nucleotide、EST和Genome Survey Sequence(GSS)(這三個(gè)數(shù)據(jù)庫在 E-Utilities 中 分別稱作nuccore、nucest和nucgss艘索到GenBank中的序 列。 Entrez Nucleotide 數(shù)據(jù)庫含有除了收錄之外的GenBank中所有的序列,它還收錄有全基因組鳥槍法測序序列、第三方注釋序列(Third Pa
28、rty Annotation sequences) 和 Entrez 結(jié)構(gòu)數(shù)據(jù)庫中的序列。對(duì)這些記錄中編碼序列概念上的翻譯信息都收錄在了 Entrez蛋白質(zhì)數(shù)據(jù)庫中。EST數(shù)據(jù)庫收錄了 GenBank EST 中的所有數(shù)據(jù)和沒有生物學(xué)注釋信息的“單分子識(shí)別首次通過(first-pass single-read)” 的 cDNA 序列。 同樣,GenBank 中的 GSS 數(shù)據(jù)庫也收錄了沒有生物學(xué)注釋信息的單分子識(shí)別首次通過的基因組序列。5.2 分析工具5.2.1 ORF Finder、 Spidey 和 SplignNCBI 提供了幾種分析工具可以幫助用戶在基因組內(nèi)發(fā)現(xiàn)編碼序列。Open Re
29、ading Frame(ORF)Finder 程序可以將一段DNA 序列按照6 種進(jìn)行翻譯,然后返回某一段DNA 序列中可能的 ORFSpidey 工具將一組真核生物的mRNA 序列與一個(gè)基因組序列進(jìn)行比對(duì),使用4 種物種的RNA 剪切模型(脊椎動(dòng)物、果蠅、秀麗隱桿線蟲和植物)來預(yù)測 RNA 剪切位點(diǎn)。Splign 是一種通過比對(duì)cDNA 和基因組序列來發(fā)現(xiàn)剪切位點(diǎn)的工具,它可以在測序出現(xiàn)錯(cuò)誤的情況下使用,還可以進(jìn)行跨物種的比對(duì)。Splign 使用了一種Needleman-Wunsch 算法,與區(qū)域化算法(compartmentization algorithm) 一起使用能發(fā)現(xiàn)可能的基因位點(diǎn)
30、。用戶可以在Splign 網(wǎng)頁上下載單獨(dú)為大批量分析而專門設(shè)計(jì)的Splign 工具使用。5.2.2 Electronic PCR(e-PCR)正向e-PCR能在UniSTS數(shù)據(jù)庫收錄的超過 510,000條STS標(biāo)記物中搜索到與STS 引物配對(duì)的序列。反向 e-PCR 則通過搜索基因組數(shù)據(jù)庫和轉(zhuǎn)錄體數(shù)據(jù)庫來估計(jì)基因組結(jié)合位點(diǎn)、擴(kuò)增子大小和引物特異性。用戶可以在code)。5.2.3 Conserved CDS database(CCDS)不同的科研小組使用他們各自的方法研究同一物種基因組時(shí),對(duì)于基因組中的基因定位可能會(huì)得到相似但不完全相同的結(jié)論。這樣,就會(huì)對(duì)其它的科研工作者造成困擾。在所有的模
31、式生物中,目前對(duì)人類和小鼠的基因組序列研究得最多也最透徹,因此它們最適合用來作為“標(biāo)準(zhǔn)的(consensus)”基因注釋的“實(shí)驗(yàn)材料”。CCDS 數(shù)據(jù)庫計(jì)劃( Bioinformatics Institute) 、 韋爾科姆基金會(huì)桑格研究院(Wellcome Trust Sanger Institute) 和加州大學(xué)圣克魯茲分校(UCSC)共同合作建立的標(biāo)準(zhǔn)的有關(guān)人類和小鼠基因蛋白質(zhì)編碼區(qū)的數(shù)據(jù)庫,該數(shù)據(jù)庫會(huì)不斷更新來保持其高水準(zhǔn)。到目前為止,CCDS 數(shù)據(jù)庫共收錄了超過20,000 條人類基因 CDS 注釋數(shù)據(jù)和17,500 條小鼠基因CDS 注釋數(shù)據(jù)。用戶可以在CCDS 的網(wǎng)頁上使用基因名
32、或序列ID 進(jìn)行搜索,還可以鏈接到Entrez Gene數(shù)據(jù)庫、歷史記錄信息、轉(zhuǎn)錄體和蛋白質(zhì)序列、Map Viewer 、 Ensemble Genome Browser、UCSC Genome Browser 和桑格研究院的 Vega Browser。用戶 可以到6 基因組信息6.1 數(shù)據(jù)庫6.1.1 Entrez GenomeEntrez Genome數(shù)據(jù)庫收錄了 850多種微生物、3100多種病毒以及 1600 多種真核生物細(xì)胞器的完整基因組數(shù)據(jù)以及將近 50 種動(dòng)物、綠色植物和真菌的700 多條染色體信息,總共收錄有6200 多條序列,其中有882 條是去年新增的序列信息。而對(duì)于更高等
33、的真核生物基因組,Entrez Genome 數(shù)據(jù)庫會(huì)直接鏈接到NCBI Map Viewer 。原核生物、病毒和真核生物細(xì)胞器的基因組則可以鏈接到專門的頁面和BLAST頁面。另外還專門設(shè)有植物基因組頁面(Plant GenomesCentral Web page), 在上面可以查詢到完整的植物基因組測序計(jì)劃、植物基因組BLAST 或者 Map Viewer 等信息。6.1.2 Entrez Genome ProjectEntrez Genome Project 數(shù)據(jù)庫 (Entrez 基因組計(jì)劃數(shù)據(jù)庫)向用戶提供了一個(gè)有關(guān)正在進(jìn)行中的大規(guī)模植物基因組測序、組裝、注釋和作圖工作的全面概況。目前
34、,該數(shù)據(jù)庫顯示,一共對(duì) 2200 種植物進(jìn)行了測序工作,其中750 種已經(jīng)完成了所有工作,700 種正處于草圖組裝階段。該數(shù)據(jù)庫的規(guī)模還在不斷擴(kuò)大,以至于還囊括了多個(gè)單獨(dú)的測序項(xiàng)目,例如病毒群體計(jì)劃(viral population projects) 、 對(duì) 16S 核糖體 RNA 元基因庫 (16S ribosomal RNA metagenomic) 等靶位點(diǎn)的測序計(jì)戈 fj (targeted locus sequencing projects)以及轉(zhuǎn)錄組計(jì)戈 U等。Entrez 基因組計(jì)劃數(shù)據(jù)庫與其它Entrez 數(shù)據(jù)庫,例如Entrez核酸數(shù)據(jù)庫和Entrez 基因組數(shù)據(jù)庫以及NC
35、BI 內(nèi)部或者外部資源都有廣泛的聯(lián)系。Entrez 基因組計(jì)劃還為原核生物的某些特點(diǎn),例如表型、活力、致病性和對(duì)生存鹽濃度、溫度、氧氣濃度、pH 值等環(huán)境因素設(shè)置了索引,這對(duì)于研究原核生物的生物學(xué)家們來說無疑是一項(xiàng)非常有用的功能。NCBI鼓勵(lì)各個(gè)測序中心在開始他們的測序項(xiàng)目之前提前登記自己的項(xiàng)目安排,這樣就能更好的統(tǒng)籌安排,共享資源了。6.1.3 NCBI Trace ArchivesTrace Archives 數(shù)據(jù)庫儲(chǔ)存了由凝膠/毛細(xì)血管測序平臺(tái)(例如Applied Biosystems ABI 3730) 測序獲得的序列數(shù)據(jù)。至今,Trace Archives 數(shù)據(jù)庫包含有4500 個(gè)品
36、種的共計(jì)超過19 億(12%為人類數(shù)據(jù))的序列數(shù)據(jù)。6.1.4 Short Read ArchiveShort Read Archive(SRA) 數(shù)據(jù)庫里收錄的數(shù)據(jù)都是由新一代測序儀 (例如Roche-454、 Illumina Genome Analyzer 、 AppliedBiosystems SOLiD System platforms) 測序產(chǎn)生的基因序列信息。 從 2007 年開始, SRA 已經(jīng)迅速累積到了1.3 Tbp, 共 180億條小片段,約占人類基因組序列總長度的85%。 SRA 的出現(xiàn)為大家進(jìn)行數(shù)據(jù)挖掘提供了更多的機(jī)會(huì)。出于方便廣大用戶使用的考慮NCBI 還將為 SR
37、A 數(shù)據(jù)建立索引,同時(shí)更多的輔助工具,例如搜索及比對(duì)等功能也將陸續(xù)開發(fā)出來。6.2 分析工具及資源6.2.1 Map ViewerNCBI 的 Map Viewer 顯示了基因組集合、遺傳標(biāo)記及物理標(biāo)記以及相關(guān)注釋信息和比對(duì)信息等其它分析結(jié)果。MapViewer的主頁norvegicus)在內(nèi)的超過100種物種的基因組數(shù)據(jù)。用戶可以看到的圖譜將根據(jù)物種的不同可能會(huì)有所不同,或許包括細(xì)胞遺傳圖譜 (cytogenetic maps)、物理圖譜 (physical maps)和各種不同的序列圖譜。源自同一物種的多個(gè)基因組圖譜可以在同一個(gè)頁面中顯示。6.2.2 Model Maker 以及 Evid
38、ence ViewerModel Maker(MM) 是用來構(gòu)建轉(zhuǎn)錄模型的一種工具,它將通過由從頭預(yù)測法(ab initio predictions) 預(yù)測出來的外顯子以及通過與 GenBank 中的轉(zhuǎn)錄體數(shù)據(jù)庫EST 和 RefSeq 比對(duì)之后得來的外顯子,與NCBI 的人類基因組數(shù)據(jù)庫結(jié)合在一起來構(gòu)建轉(zhuǎn)錄模型。Evidence Viewer(EV) 則將所有能支持基因注釋信息正確性的序列信息證據(jù)進(jìn)行了歸納總結(jié),它采用的是將RefSeq、 EST等 GenBank 中的轉(zhuǎn)錄體信息與基因組重疊群進(jìn)行比對(duì)的方法。 EV 顯示了每一個(gè)外顯子的詳細(xì)比對(duì)結(jié)果,并突出顯示了其中不匹配的部分。6.2.3
39、Entrez cancer ChromosomesEntrez cancer Chromosomes (Entrez 癌癥染色體)數(shù)據(jù)庫包含了與人類癌癥有關(guān)的人類染色體畸變信息,例如基因缺失或轉(zhuǎn)位等。Entrez 癌癥染色體數(shù)據(jù)庫由三個(gè)部分組成,即NCI/NCBI SKY(SpectralKaryotyping)/M-FISH(Multiplex-FISH) 和 CGH(ComparativeGenomic Hybridization) 數(shù)據(jù)庫;美國國立癌癥研究院(NCI) 為癌癥染色體畸變信息設(shè)立的Mitelman 數(shù)據(jù)庫以及NCI 為再發(fā)癌癥染色體畸變?cè)O(shè)立的數(shù)據(jù)庫。每一個(gè)畸變都以圖形的形式
40、表現(xiàn)出來,并附之相關(guān)臨床病例信息和文獻(xiàn)信息。6.2.4 TaxPlot、 GenePlot 和 gMapTaxPlot 可以同時(shí)給出來自兩個(gè)物種蛋白質(zhì)之間的相似性以及原核生物或真核生物參考物種的完整基因組信息。與其相關(guān)的另一個(gè)工具GenePlot則可以給由一對(duì)完整微生物基因組內(nèi)的片段,經(jīng)可視化的缺失、轉(zhuǎn)位或倒位操作之后,其編碼蛋白質(zhì)之間的相似性。gMap 工具將預(yù)先計(jì)算過的微生物全基因組比較結(jié)果與BLAST 比較結(jié)果以及核酸序列相似的基因組聚類結(jié)果結(jié)合在一起進(jìn)行比對(duì),然后將相似的片段以圖形化的方式表現(xiàn)出來。6.2.5 Influenza Genome Sequencing Project(IG
41、SP)IGSP( 流感基因組測序計(jì)劃)為研究流感的科研工作者提供了越來越多的序列資料,他們可以借此找出流感病毒致病的遺傳性狀。 到目前為止,該計(jì)劃已經(jīng)得到了超過33,000 條流感病毒序列。NCBI 的流感病毒資源也和IGSP 之間設(shè)有鏈接,還可以通過PubMed 找到所有最新的有關(guān)流感病毒方面的文獻(xiàn)和各種在線分析工具及數(shù)據(jù)庫資源。這些數(shù)據(jù)庫包括NCBI 的流感病毒序列數(shù)據(jù)庫(Influenza Virus SequenceDatabase), 該數(shù)據(jù)庫收錄有GenBank 和 RefSeq 中超過 70,000條流感病毒的序列??蒲腥藛T借助流感病毒資源提供的各種工具能對(duì)超過83,000 條流
42、感蛋白質(zhì)序列進(jìn)行分析。Entrez 的生物學(xué)數(shù)據(jù)庫中還收錄有超過100 條流感病毒蛋白質(zhì)結(jié)構(gòu)信息和 350 多條有關(guān)流感病毒種群研究的資料。還有一種在線流感病毒基因組注釋工具能幫助科研工作者們分析新發(fā)現(xiàn)的流感病毒序列并進(jìn)行注釋,然后將結(jié)果通過tbl2asn 等上傳工具遞交給NCBI 的 GenBank 數(shù)據(jù)庫。6.2.6 Entrez Protein ClustersEntrez Protein Clusters(Entrez 蛋白質(zhì)聚類數(shù)據(jù)庫)收錄了由完整的原核生物基因組和葉綠體基因組編碼的28 萬多條已確認(rèn)的 RefSeq 蛋白質(zhì)序列,并將這些序列按照分類學(xué)的規(guī)則進(jìn)行了歸類(聚類)。 NC
43、BI 可以將這些蛋白質(zhì)聚類信息用于基因組范圍內(nèi)的比對(duì),也可以用于簡化的BLAST 簡單的微生物蛋白 BLAST(Concise Microbial Protein BLAST, ProtMap(./sutils/protmap.cgi) 與其它基因組數(shù)據(jù)庫有鏈接。7 基因型和表型信息7.1 基因型和表型數(shù)據(jù)庫認(rèn)識(shí)遺傳和環(huán)境因素與人類疾病之間的關(guān)系,對(duì)于幫助我們提高疾病診治水平來說具有非常重要的意義。大范圍的基因型研究能為基因組相關(guān)調(diào)查、醫(yī)療測序、分子診斷以及發(fā)現(xiàn)基因型和非臨床特性之間的關(guān)系等研究提供數(shù)據(jù)資料。基因型和表型數(shù)據(jù)庫(dbGaP; ,它負(fù)責(zé)管理與可見特征(表型)相關(guān)的遺
44、傳特征(基因型)。該數(shù)據(jù)庫收錄的資料來自由NIH 資助的全基因組關(guān)聯(lián)分析(genome-wide association study,GWAS)結(jié)果。(詳見,用戶可以通過疾病名稱或基因名稱進(jìn)行搜索、瀏覽。為了保證研究項(xiàng)目的機(jī)密性,dbGaP 數(shù)據(jù)庫只接受“去識(shí)別 (de-identified) ”的數(shù)據(jù),同時(shí)還要求使用個(gè)人資料 (individual-level) 的研究者接受審核。不過,用戶可以不受任何限制的瀏覽研究文件、操作流程和項(xiàng)目問卷調(diào)查等資料。1.2 dbSNPdbSNP 數(shù)據(jù)庫(單核苷酸多態(tài)性數(shù)據(jù)庫)收錄的是單核苷酸多態(tài)性信息,例如單個(gè)堿基的替換、缺失或插入信息。共收錄有將近 18
45、00 萬條人類SNP 信息和 3300 萬條其它各物種的SNP 信息。 dbSNP 數(shù)據(jù)庫還收錄確認(rèn)信息、種群特異性等位基因頻率信息(population-specific allele frequencies) 和個(gè)體基因型信息。所有這些信息都可以在dbSNP 數(shù)據(jù)庫的FTP 站點(diǎn)中找到。1.3 供常規(guī)臨床應(yīng)用的數(shù)據(jù)庫1.3.1 dbMHCdbMHC 數(shù)據(jù)庫是有關(guān)主要組織相容性復(fù)合體(MHC) 的數(shù)據(jù)庫。它收錄了各種MHC 等位基因的變異信息,這些信息與器官移植以及個(gè)體對(duì)感染性疾病的易感性有非常重要的關(guān)系。 dbMHC 數(shù)據(jù)庫收錄了1000 多條 MHC 等位基因序列以及這些等位基因在人群中
46、出現(xiàn)的頻率,還收錄了人白細(xì)胞抗原 (HLA) 的基因型與全世界臨床造血干細(xì)胞移植成功率之間的信息。1.3.2 dbLRCdbLRC 數(shù)據(jù)庫則是全面收錄白細(xì)胞受體復(fù)合物(LRC) 等位基LRC 中的 KIR 基因。1.3.3 dbRBCdbRBC 數(shù)據(jù)庫收錄的是與紅細(xì)胞抗原或血型有關(guān)的基因及其序列信息。該數(shù)據(jù)庫是將血型抗原基因突變數(shù)據(jù)庫(BloodGroup Antigen Gene Mutation Database) 中的資源與NCBI 中的相關(guān)資源整合到一起組建而成的。dbRBC 數(shù)據(jù)庫里收錄的每一個(gè)基因都有詳細(xì)的信息,還有國際輸血學(xué)會(huì)(ISBT) 通過等位基因命名法對(duì)血型等位基因的命名。
47、上述這三個(gè)數(shù)據(jù)庫都帶有多序列比對(duì)工具、分析純合型或雜合型序列的工具以及 DNA 探針比對(duì)工具。1.4 OMIMNCBI的OMIM是Entrez的一個(gè)組成部分, 主要收錄人類基因和遺傳病相關(guān)信息,它由約翰霍普金斯大學(xué)(Johns HopkinsUniversity) 的 Victor A. McKusick 小組負(fù)責(zé)維護(hù)。OMIM 數(shù)據(jù)庫收錄了疾病表型與基因的相關(guān)信息,包括對(duì)該遺傳病詳細(xì)的描述、基因名稱、遺傳方式、基因定位、基因多態(tài)性以及詳細(xì)的相關(guān)參考文獻(xiàn)信息。OMIM 數(shù)據(jù)庫共有將近20,000條記錄,涵蓋超過12,500 個(gè)已知的基因位點(diǎn)數(shù)據(jù)和表型數(shù)據(jù)。這些記錄還與許多其它重要資源,例如位點(diǎn)
48、特異性數(shù)據(jù)庫(locusspecific databases)和 GeneTests(1.5 OMIAOMIA( 動(dòng)物在線孟德爾遺傳)數(shù)據(jù)庫是一個(gè)有關(guān)動(dòng)物(除了人類和小鼠)基因和遺傳病的數(shù)據(jù)庫,由澳大利亞悉尼大學(xué)(University of Sydney, Australia) 的 Frank Nicholas 教授等人建立。該數(shù)據(jù)庫收錄了超過2500 條記錄,其中包括文本信息、參考資料信息以及與 OMIM、PubMed和Entrez Gene這些數(shù) 據(jù)庫之間的鏈接。8 基因表達(dá)8.1 Gene Expression Omnibus(GEO)GEO(基因表達(dá)精選集)是一個(gè)儲(chǔ)存高通量功能基因組學(xué)
49、數(shù)據(jù)的數(shù)據(jù)庫,這些高通量功能基因組學(xué)數(shù)據(jù)來自芯片和新一代的測序儀得到的試驗(yàn)數(shù)據(jù)。GEO 除了收錄基因表達(dá)數(shù)據(jù)之外還收錄其它數(shù)據(jù),例如基因組拷貝數(shù)變異數(shù)據(jù)、基因組 -蛋白相互作用數(shù)據(jù)以及基因組甲基化數(shù)據(jù)等。該數(shù)據(jù)庫既接受原始數(shù)據(jù), 也接受經(jīng)過處理的數(shù)據(jù),不過這些數(shù)據(jù)都要符合 “有關(guān)芯片試驗(yàn)的最小信息(minimum information about amicroarray experiment , MIAME) ”標(biāo)準(zhǔn)。該數(shù)據(jù)庫能存儲(chǔ)好幾種格式的數(shù)據(jù),包括 web格式、spreadsheet蝠式、XML格式和純文本格式。GEO 數(shù)據(jù)庫被分為兩個(gè)部分收錄在Entrez 中, 分別是 GEO Pr
50、ofiles 數(shù)據(jù)庫(它負(fù)責(zé)收錄一個(gè)基因在一次試驗(yàn)中的定量基因表達(dá)數(shù)據(jù))和 GEO 數(shù)據(jù)庫(收錄整個(gè)試驗(yàn)的數(shù)據(jù))。 目前, GEO 數(shù)據(jù)庫共收錄了由世界各地5000多家實(shí)驗(yàn)室提交的超過10,000 條試驗(yàn)數(shù)據(jù),以及300,000 個(gè)樣品和對(duì)500 多個(gè)物種進(jìn)行表達(dá)譜測量得到的160 億個(gè)基因表達(dá)豐度數(shù)據(jù)。8.2 GENSATGENSAT 是有關(guān)小鼠中樞神經(jīng)系統(tǒng)基因表達(dá)譜的數(shù)據(jù)庫,這些數(shù)據(jù)是由美國神經(jīng)障礙和中風(fēng)研究院(National Institute ofNeurological Disorders and Stroke) 提供的。 GENSAT 儲(chǔ)存了小鼠大腦的組織切片圖像,這些組織切片中都含有各種標(biāo)簽,例如增強(qiáng)的綠色熒光蛋白標(biāo)簽等,這樣可以根據(jù)標(biāo)簽的熒光強(qiáng)度來判斷基因的表達(dá)量。GENSAT 共收錄了8 萬多幅圖像資料,還提供搜索功能、資料下載功能、縮放功能和比對(duì)功
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025建筑勞務(wù)合同范本
- 產(chǎn)品定制合同范例
- 代購貨物合同范例
- 2025年勞動(dòng)合同續(xù)簽范本
- 亞太股合同范例
- 公司股轉(zhuǎn)讓合同范例
- 人物版權(quán)購買合同范例
- 買賣閑置廠房合同范例
- 入伙投資協(xié)議合同范例
- 書畫創(chuàng)作合同范例
- (廣東二模)2025年廣東省高三高考模擬測試(二)歷史試卷(含答案)
- 做最勇敢的自己
- 護(hù)理新技術(shù)新業(yè)務(wù)盆底疼痛
- 2024-2025年江蘇專轉(zhuǎn)本英語歷年真題(含答案)
- 工商企業(yè)管理畢業(yè)論文范文(4篇)
- 掃地機(jī)器人結(jié)構(gòu)設(shè)計(jì)說明書
- DB11_T1833-2021 建筑工程施工安全操作規(guī)程(高清最新版)
- 大地構(gòu)造學(xué)派及其構(gòu)造單元匯總
- 麗聲北極星分級(jí)繪本第二級(jí)上Dinner for a Dragon 課件
- 車輛維護(hù)保養(yǎng)制度
- 速騰轎車前驅(qū)動(dòng)橋畢業(yè)設(shè)計(jì)(全套圖紙)
評(píng)論
0/150
提交評(píng)論