第二章 數(shù)據(jù)庫介紹_第1頁
第二章 數(shù)據(jù)庫介紹_第2頁
第二章 數(shù)據(jù)庫介紹_第3頁
第二章 數(shù)據(jù)庫介紹_第4頁
第二章 數(shù)據(jù)庫介紹_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

生物信息學的數(shù)據(jù)庫§2.1數(shù)據(jù)庫簡介基因和基因組數(shù)據(jù)庫

近年來大量生物學實驗的數(shù)據(jù)積累,形成了當前數(shù)以百計的生物信息數(shù)據(jù)庫。它們各自按一定的目標收集和整理生物學實驗數(shù)據(jù),并提供相關的數(shù)據(jù)查詢、數(shù)據(jù)處理的服務。隨著因特網(wǎng)的普及,這些數(shù)據(jù)庫大多可以通過網(wǎng)絡來訪問,或者通過網(wǎng)絡下載。一般而言,這些生物信息數(shù)據(jù)庫可以分為一級數(shù)據(jù)庫和二級數(shù)據(jù)庫。一級數(shù)據(jù)庫的數(shù)據(jù)都直接來源于實驗獲得的原始數(shù)據(jù),只經(jīng)過簡單的歸類整理和注釋;二級數(shù)據(jù)庫是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎上針對特定目標衍生而來,是對生物學知識和信息的進一步整理。國際上著名的一級核酸數(shù)據(jù)庫有Genbank數(shù)據(jù)庫、EMBL核酸庫和DDBJ庫等;蛋白質(zhì)序列數(shù)據(jù)庫有SWISS-PROT、PIR等;蛋白質(zhì)結(jié)構(gòu)庫有PDB等。國際上二級生物學數(shù)據(jù)庫非常多,它們因針對不同的研究內(nèi)容和需要而各具特色,如人類基因組圖譜庫GDB、轉(zhuǎn)錄因子和結(jié)合位點庫TRANSFAC、蛋白質(zhì)結(jié)構(gòu)家族分類庫SCOP等等建立分子生物信息數(shù)據(jù)庫的流程圖1.GenBank(美國國家生物技術信息中心,NCBI)1980sNIH(NationalInstituteofHealth)LosAlamosNationalLabNCBI(NationalCenterforBiotechnologyInformation)NLM(NationalLibraryofMedicine)

Genbank庫包含了所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關的文獻著作和生物學注釋。它是由美國國立生物技術信息中心(NCBI)建立和維護的。它的數(shù)據(jù)直接來源于測序工作者提交的序列;由測序中心提交的大量EST序列和其它測序數(shù)據(jù);以及與其它數(shù)據(jù)機構(gòu)協(xié)作交換數(shù)據(jù)而來。Genbank每天都會與歐洲分子生物學實驗室(EMBL)的數(shù)據(jù)庫,和日本的DNA數(shù)據(jù)庫(DDBJ)交換數(shù)據(jù),使這三個數(shù)據(jù)庫的數(shù)據(jù)同步。到1999年8月,Genbank中收集的序列數(shù)量達到460萬條,34億個堿基,到2005年,超過100gigabase。而且數(shù)據(jù)增長的速度還在不斷加快。Genbank的數(shù)據(jù)可以從NCBI的FTP服務器上免費下載完整的庫,或下載積累的新數(shù)據(jù)。NCBI還提供廣泛的數(shù)據(jù)查詢、序列相似性搜索以及其它分析服務,用戶可以從NCBI的主頁上找到這些服務。Genbank庫里的數(shù)據(jù)按來源于約55,000個物種,其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列)。每條Genbank數(shù)據(jù)記錄包含了對序列的簡要描述,它的科學命名,物種分類名稱,參考文獻,序列特征表,以及序列本身。序列特征表里包含對序列生物學特征注釋如:編碼區(qū)、轉(zhuǎn)錄單元、重復區(qū)域、突變位點或修飾位點等。所有數(shù)據(jù)記錄被劃分在若干個文件里,如細菌類、病毒類、靈長類、嚙齒類,以及EST數(shù)據(jù)、基因組測序數(shù)據(jù)、大規(guī)模基因組序列數(shù)據(jù)等16類,其中EST數(shù)據(jù)等又被各自分成若干個文件。

向Genbank提交序列數(shù)據(jù)測序工作者可以把自己工作中獲得的新序列提交給NCBI,添加到Genbank數(shù)據(jù)庫。這個任務可以由基于Web界面的BankIt或獨立程序Sequin來完成。BankIt是一系列表單,包括聯(lián)絡信息、發(fā)布要求、引用參考信息、序列來源信息、以及序列本身的信息等。用戶提交序列后,會從電子郵件收到自動生成的數(shù)據(jù)條目,Genbank的新序列編號,以及完成注釋后的完整的數(shù)據(jù)記錄。用戶還可以在BankIt頁面下修改已經(jīng)發(fā)布序列的信息。BankIt適合于獨立測序工作者提交少量序列,而不適合大量序列的提交,也不適合提交很長的序列,EST序列和GSS序列也不應用BankIt提交。BankIt使用說明和對序列的要求可詳見其主頁面。大量的序列提交可以由Sequin程序完成。Sequin程序能方便的編輯和處理復雜注釋,并包含一系列內(nèi)建的檢查函數(shù)來提高序列的質(zhì)量保證。它還被設計用于提交來自系統(tǒng)進化、種群和突變研究的序列,可以加入比對的數(shù)據(jù)。Sequin除了用于編輯和修改序列數(shù)據(jù)記錄,還可以用于序列的分析,任何以FASTA或ASN.1格式序列為輸入數(shù)據(jù)的序列分析程序都可以整合到Sequin程序下。在不同操作系統(tǒng)下運行的Sequin程序都可以在/sequin/下找到,Sequin的使用說明可詳見其網(wǎng)頁。NCBI的網(wǎng)址是:。BankIt的網(wǎng)址是:/BankIt。Sequin的相關網(wǎng)址是:/Sequin/2.EMBL核酸序列數(shù)據(jù)庫EMBL核酸序列數(shù)據(jù)庫由歐洲生物信息學研究所(EBI)維護的核酸序列數(shù)據(jù)構(gòu)成,由于與Genbank和DDBJ的數(shù)據(jù)合作交換,它也是一個全面的核酸序列數(shù)據(jù)庫。該數(shù)據(jù)庫由Oracal數(shù)據(jù)庫系統(tǒng)管理維護,查詢檢索可以通過通過因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務完成。向EMBL核酸序列數(shù)據(jù)庫提交序列可以通過基于Web的WEBIN工具,也可以用Sequin軟件來完成。數(shù)據(jù)庫網(wǎng)址是:http://www.ebi.ac.uk。SRS的網(wǎng)址是:http://srs.ebi.ac.uk/。WEBIN的網(wǎng)址是:http://www.ebi.ac.uk/ena。

EMBL(歐洲分子生物學實驗室,EMBL)

1982EuropeanMolecularBiologyLaboratoryEBI(EuropeanBioinformaticsInstitute)

EMBL網(wǎng)址http://www.ebi.ac.uk3.DDBJ數(shù)據(jù)庫日本DNA數(shù)據(jù)庫(DDBJ)也是一個全面的核酸序列數(shù)據(jù)庫,與Genbank和EMBL核酸庫合作交換數(shù)據(jù)??梢允褂闷渲黜撋咸峁┑腟RS工具進行數(shù)據(jù)檢索和序列分析。可以用Sequin軟件向該數(shù)據(jù)庫提交序列。DDBJ的網(wǎng)址是:http://www.ddbj.nig.ac.jp/。

DDBJ(日本國家遺傳學研究所,NIG)

1986DatabankofJapanNIG(NationalInstituteofGenetics)

DDBJ網(wǎng)址http://www.ddbj.nig.ac.jp蛋白質(zhì)數(shù)據(jù)庫1.PIR和PSDPIR國際蛋白質(zhì)序列數(shù)據(jù)庫(PSD)是由蛋白質(zhì)信息資源(PIR)、慕尼黑蛋白質(zhì)序列信息中心(MIPS)和日本國際蛋白質(zhì)序列數(shù)據(jù)庫(JIPID)共同維護的國際上最大的公共蛋白質(zhì)序列數(shù)據(jù)庫。這是一個全面的、經(jīng)過注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫,包含超過142,000條蛋白質(zhì)序列(至99年9月),其中包括來自幾十個完整基因組的蛋白質(zhì)序列。所有序列數(shù)據(jù)都經(jīng)過整理,超過99%的序列已按蛋白質(zhì)家族分類,一半以上還按蛋白質(zhì)超家族進行了分類。PSD的注釋中還包括對許多序列、結(jié)構(gòu)、基因組和文獻數(shù)據(jù)庫的交叉索引,以及數(shù)據(jù)庫內(nèi)部條目之間的索引,這些內(nèi)部索引幫助用戶在包括復合物、酶-底物相互作用、活化和調(diào)控級聯(lián)和具有共同特征的條目之間方便的檢索。每季度都發(fā)行一次完整的數(shù)據(jù)庫,每周可以得到更新部分。PSD數(shù)據(jù)庫有幾個輔助數(shù)據(jù)庫,如基于超家族的非冗余庫等。PIR提供三類序列搜索服務:基于文本的交互式檢索;標準的序列相似性搜索,包括BLAST、FASTA等;結(jié)合序列相似性、注釋信息和蛋白質(zhì)家族信息的高級搜索,包括按注釋分類的相似性搜索、結(jié)構(gòu)域搜索GeneFIND等。PIR和PSD的網(wǎng)址是:/。2.UniProt(SWISS-PROT)UniProt是經(jīng)過注釋的蛋白質(zhì)序列數(shù)據(jù)庫,由歐洲生物信息學研究所(EBI)維護。數(shù)據(jù)庫由蛋白質(zhì)序列條目構(gòu)成,每個條目包含蛋白質(zhì)序列、引用文獻信息、分類學信息、注釋等,注釋中包括蛋白質(zhì)的功能、轉(zhuǎn)錄后修飾、特殊位點和區(qū)域、二級結(jié)構(gòu)、四級結(jié)構(gòu)、與其它序列的相似性、序列殘缺與疾病的關系、序列變異體和沖突等信息。UniProt中盡可能減少了冗余序列,并與其它30多個數(shù)據(jù)建立了交叉引用,其中包括核酸序列庫、蛋白質(zhì)序列庫和蛋白質(zhì)結(jié)構(gòu)庫等。利用序列提取系統(tǒng)(SRS)可以方便地檢索UniProt和其它EBI的數(shù)據(jù)庫。UniProt只接受直接測序獲得的蛋白質(zhì)序列,序列提交可以在其Web頁面上完成。UniProt的網(wǎng)址是:http://www.ebi.ac.uk/swissprot/。3.PROSITEPROSITE數(shù)據(jù)庫收集了生物學有顯著意義的蛋白質(zhì)位點和序列模式,并能根據(jù)這些位點和模式快速和可靠地鑒別一個未知功能的蛋白質(zhì)序列應該屬于哪一個蛋白質(zhì)家族。有的情況下,某個蛋白質(zhì)與已知功能蛋白質(zhì)的整體序列相似性很低,但由于功能的需要保留了與功能密切相關的序列模式,這樣就可能通過PROSITE的搜索找到隱含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位點、配體結(jié)合位點、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等;除了序列模式之外,PROSITE還包括由多序列比對構(gòu)建的profile,能更敏感地發(fā)現(xiàn)序列與profile的相似性。PROSITE的主頁上提供各種相關檢索服務。PROSITE的網(wǎng)址是:/4.PDB蛋白質(zhì)數(shù)據(jù)倉庫(PDB)是國際上唯一的生物大分子結(jié)構(gòu)數(shù)據(jù)檔案庫,由美國Brookhaven國家實驗室建立。PDB收集的數(shù)據(jù)來源于X光晶體衍射和核磁共振(NMR)的數(shù)據(jù),經(jīng)過整理和確認后存檔而成。目前PDB數(shù)據(jù)庫的維護由結(jié)構(gòu)生物信息學研究合作組織(RCSB)負責。RCSB的主服務器和世界各地的鏡像服務器提供數(shù)據(jù)庫的檢索和下載服務,以及關于PDB數(shù)據(jù)文件格式和其它文檔的說明,PDB數(shù)據(jù)還可以從發(fā)行的光盤獲得。使用Rasmol等軟件可以在計算機上按PDB文件顯示生物大分子的三維結(jié)構(gòu)。RCSB的PDB數(shù)據(jù)庫網(wǎng)址是:/pdb/。DavidGoodsell5.SCOP蛋白質(zhì)結(jié)構(gòu)分類(SCOP)數(shù)據(jù)庫詳細描述了已知的蛋白質(zhì)結(jié)構(gòu)之間的關系。分類基于若干層次:家族,描述相近的進化關系;超家族,描述遠源的進化關系;折疊子(fold),描述空間幾何結(jié)構(gòu)的關系;折疊類,所有折疊子被歸于全α、全β、α/β、α+β和多結(jié)構(gòu)域等幾個大類。SCOP還提供一個非冗余的ASTRAIL序列庫,這個庫通常被用來評估各種序列比對算法。此外,SCOP還提供一個PDB-ISL中介序列庫,通過與這個庫中序列的兩兩比對,可以找到與未知結(jié)構(gòu)序列遠緣的已知結(jié)構(gòu)序列。SCOP的網(wǎng)址是:http://scop2.mrc-lmb.cam.ac.uk/6.COG蛋白質(zhì)直系同源簇(COGs)數(shù)據(jù)庫是對細菌、藻類和真核生物的21個完整基因組的編碼蛋白,根據(jù)系統(tǒng)進化關系分類構(gòu)建而成。COG庫對于預測單個蛋白質(zhì)的功能和整個新基因組中蛋白質(zhì)的功能都很有用。利用COGNITOR程序,可以把某個蛋白質(zhì)與所有COGs中的蛋白質(zhì)進行比對,并把它歸入適當?shù)腃OG簇。COG庫提供了對COG分類數(shù)據(jù)的檢索和查詢,基于Web的COGNITOR服務,系統(tǒng)進化模式的查詢服務等。COG庫的網(wǎng)址是:/COG。下載COG庫和COGNITOR程序在:/pub/COG7.CATH蛋白質(zhì)結(jié)構(gòu)分類網(wǎng)站。依據(jù)蛋白質(zhì)的區(qū)域結(jié)構(gòu)信息將蛋白質(zhì)分為不同的亞家族。網(wǎng)址是:/。功能數(shù)據(jù)庫1.KEGG京都基因和基因組百科全書(KEGG)是系統(tǒng)分析基因功能,聯(lián)系基因組信息和功能信息的知識庫?;蚪M信息存儲在GENES數(shù)據(jù)庫里,包括完整和部分測序的基因組序列;更高級的功能信息存儲在PATHWAY數(shù)據(jù)庫里,包括圖解的細胞生化過程如代謝、膜轉(zhuǎn)運、信號傳遞、細胞周期,還包括同系保守的子通路等信息;KEGG的另一個數(shù)據(jù)庫是LIGAND,包含關于化學物質(zhì)、酶分子、酶反應等信息。KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達圖譜,以及其它序列比較、圖形比較和通路計算的工具,可以免費獲取。KEGG的網(wǎng)址是:http://www.genome.ad.jp/kegg/。2.DIP相互作用的蛋白質(zhì)數(shù)據(jù)庫(DIP)收集了由實驗驗證的蛋白質(zhì)-蛋白質(zhì)相互作用。數(shù)據(jù)庫包括蛋白質(zhì)的信息、相互作用的信息和檢測相互作用的實驗技術三個部分。用戶可以根據(jù)蛋白質(zhì)、生物物種、蛋白質(zhì)超家族、關鍵詞、實驗技術或引用文獻來查詢DIP數(shù)據(jù)庫。DIP的網(wǎng)址是:/。3.ASDB可變剪接數(shù)據(jù)庫(ASDB)包括蛋白質(zhì)庫和核酸庫兩部分。ASDB(蛋白質(zhì))部分來源于SWISS-PROT蛋白質(zhì)序列庫,通過選取有可變剪接注釋的序列,搜索相關可變剪接的序列,經(jīng)過序列比對、篩選和分類構(gòu)建而成。ASDB(核酸)部分來自Genbank中提及和注釋的可變剪接的完整基因構(gòu)成。數(shù)據(jù)庫提供了方便的搜索服務。ASDB的網(wǎng)址是:/asdb。(/fastdb2/frame.html)4.TRRD轉(zhuǎn)錄調(diào)控區(qū)數(shù)據(jù)庫(TRRD)是在不斷積累的真核生物基因調(diào)控區(qū)結(jié)構(gòu)-功能特性信息基礎上構(gòu)建的。每一個TRRD的條目里包含特定基因各種結(jié)構(gòu)-功能特性:轉(zhuǎn)錄因子結(jié)合位點、啟動子、增強子、靜默子、以及基因表達調(diào)控模式等。TRRD包括五個相關的數(shù)據(jù)表:TRRDGENES(包含所有TRRD庫基因的基本信息和調(diào)控單元信息);TRRDSITES(包括調(diào)控因子結(jié)合位點的具體信息);TRRDFACTORS(包括TRRD中與各個位點結(jié)合的調(diào)控因子的具體信息);TRRDEXP(包括對基因表達模式的具體描述);TRRDBIB(包括所有注釋涉及的參考文獻)。TRRD主頁提供了對這幾個數(shù)據(jù)表的檢索服務。TRRD的網(wǎng)址是:http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/。5.TRANSFACTRANSFAC數(shù)據(jù)庫是關于轉(zhuǎn)錄因子、它們在基因組上的結(jié)合位點和與DNA結(jié)合的profiles的數(shù)據(jù)庫。由SITE、GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD和REFERENCE等數(shù)據(jù)表構(gòu)成。此外,還有幾個與TRANSFAC密切相關的擴展庫:PATHODB庫收集了可能導致病態(tài)的突變的轉(zhuǎn)錄因子和結(jié)合位點;SMARTDB收集了與染色體結(jié)構(gòu)變化相關的蛋白因子和位點的信息;TRANSPATH庫用于描述與轉(zhuǎn)錄因子調(diào)控相關的信號傳遞的網(wǎng)絡;CYTOMER庫表現(xiàn)了人類轉(zhuǎn)錄因子在各個器官、細胞類型、生理系統(tǒng)和發(fā)育時期的表達狀況。TRANSFAC及其相關數(shù)據(jù)庫可以免費下載,也可以通過Web進行檢索和查詢。TRANSFAC的網(wǎng)址是:/index2其它數(shù)據(jù)庫資源PubMedPubMed是NCBI維護的文獻引用數(shù)據(jù)庫,提供對MEDLINE、Pre-MEDLINE等文獻數(shù)據(jù)庫的引用查詢和對大量網(wǎng)絡科學類電子期刊的鏈接。利用Entrez系統(tǒng)可以對PubMed進行方便的查詢檢索。PubMed的網(wǎng)址是:/。除了以上提及的數(shù)據(jù)之外,還有許許多多的專門生物信息數(shù)據(jù)庫,涉及了目前生物學研究的各個層面和領域,由于篇幅所限無法一一詳述。國內(nèi)也有一些大數(shù)據(jù)庫的鏡像站點和自己開發(fā)的有特色的數(shù)據(jù)庫,如歐洲分子生物學網(wǎng)絡組織EMBNet中國節(jié)點北京大學分子生物信息鏡像系統(tǒng),上海博容基因公司與上海嘉瑞軟件公司合作開發(fā)的國產(chǎn)漢化基因數(shù)據(jù)庫及分析管理系統(tǒng),同時國家級的生物信息學中心也在籌建之中。我們期待國內(nèi)能有更多高質(zhì)量和使用便利的數(shù)據(jù)庫資源,推動我國生物信息學和整個生命科學的發(fā)展。清華大學生物信息學研究所網(wǎng)址:北京大學生物信息鏡像系統(tǒng)網(wǎng)址:§2.2數(shù)據(jù)庫格式簡介歷史原因:沒有完全統(tǒng)一的數(shù)據(jù)庫格式;了解所用數(shù)據(jù)庫格式的重要性一般由兩部分組成:文字注釋內(nèi)容(序列,……)

EMBL和GenBank數(shù)據(jù)庫的主要內(nèi)容和格式

序列名稱、長度、日期序列說明、編號、版本號物種來源、學名、分類學位置相關文獻作者、題目、刊物、日期序列特征表堿基組成序列(每行60個堿基)

實例:

E.colik-12全基因組序列文件例子:EMBL和GenBank數(shù)據(jù)庫的格式LOCUSU000964639221bpDNAcircularBCT18-NOV-1998DEFINITIONEscherichiacoliK-12MG1655completegenome.ACCESSIONU00096KEYWORDS.SOURCEEscherichiacoli.ORGANISMEscherichiacoliBacteria;Proteobacteria;gammasubdivision;Enterobacteriaceae;Escherichia.REFERENCE1(bases1to4639221)AUTHORSBlattner,F.R.,Plunkett,G.III,Bloch,C.A.,Perna,N.T.,Burland,V.,…TITLEThecompletegenomesequenceofEscherichiacoliK-12JOURNALScience277(5331),1453-1474(1997)MEDLINE97426617…COMMENTThissequencewasdeterminedbytheE.coliGenomeProjectattheUniversityofWisconsin-Madison(FrederickR.Blattner,director).SupportedbyNIHgrantsHG00301andHG01428(fromHumanGenomeProjectandNCHGR).TheentiresequencewasindependentlydeterminedfromE.coliK-12strainMG1655.PredictedopenreadingframesweredeterminedusingGeneMarksoftware,kindlysuppliedby…FEATURESLocation/Qualifierssource1..4639221/organism="Escherichiacoli"/strain="K-12“/sub_strain="MG1655"/db_xref="taxon:562"promoter71..99/note="factorSigma70;predicted+1startat106"promoter104..132/note="factorSigma70;predicted+1startat139"promoter188..212/note="factorSigma32;predicted+1startat219"gene190..255/note="b0001"/gene="thrL"CDS190..255/gene="thrL"/function="leader;Aminoacidbiosynthesis:Threonine"/note="o21;100pctidenticaltoLPT_ECOLISW:P03059"/codon_start=1/transl_table=11/product="throperonleaderpeptide"/db_xref="PID:g1786182"/translation="MKRISTTITTTITITTGNGAG“…BASECOUNT1142136a1179433c1176775g1140877tORIGIN1agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtc61tgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttagg121tcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtac181acaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattaccacaggt241aacggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcggg301ctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggcggt361acatcagtggcaaatgcagaacgttttctgcgtgttgccgatattctggaaagcaatgcc421aggcaggggcaggtggccaccgtcctctctgcccccgccaaaatcaccaaccacctggtg……4639021caacatcaactgcaagctttacgcgaacgagccatgacattgctgacgactctggcagtg4639081gcagatgacataaaactggtcgactggttacaacaacgcctggggcttttagagcaacga4639141gacacggcaatgttgcaccgtttgctgcatgatattgaaaaaaatatcaccaaataaaaa4639201acgccttagtaagtatttttc//IDU00096standard;circulargenomicDNA;CON;4639221BP.ACU00096;SVU00096.1DT24-JUL-2003(Rel.76,Lastupdated,Version3)DEEscherichiacoliK-12MG1655completegenome.KW.OSEscherichiacoliK12OCBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;OCEnterobacteriaceae;Escherichia;Escherichiacoli.RN[1]RP1-4639221RXMEDLINE;97426617.RXPUBMED;9278503.RABlattnerF.R.,PlunkettG.III,BlochC.A.,PernaN.T.,BurlandV.,…RT"ThecompletegenomesequenceofEscherichiacoliK-12";RLScience277(5331):1453-1474(1997).DRGOA;O32528.DRREMTREMBL;AAC74436;AAC74436.DRSPTREMBL;O32530;O32530.DRSWISS-PROT;O32528;YPDI_ECOLI.…CCThissequencewasdeterminedbytheE.coliGenomeProjectattheCCUniversityofWisconsin-Madison(FrederickR.Blattner,director).CCSupportedbyNIHgrantsHG00301andHG01428(fromtheHumanGenomeCCProjectandNCHGR).TheentiresequencewasindependentlyCCdeterminedfromE.coliK-12strainMG1655.PredictedopenreadingCCframesweredeterminedusingGeneMarksoftware,kindlysuppliedby…FHKeyLocation/QualifiersFTsource1..4639221FT/db_xref="taxon:83333"FT/mol_type="genomicDNA"FT/organism="EscherichiacoliK12"FT/strain="K12"FT/sub_strain="MG1655"FTpromoter71..99FT/note="factorSigma70;predicted+1startat106"…FTCDS190..255FT/codon_start=1FT/db_xref="GOA:P03059"FT/db_xref="SWISS-PROT:P03059"FT/note="o21;100pctidenticaltoLPT_ECOLISW:P03059"FT/transl_table=11FT/gene="thrL"FT/function="leader;Aminoacidbiosynthesis:Threonine"FT/product="throperonleaderpeptide"FT/protein_id="AAC73112.1"FT/translation="MKRISTTITTTITITTGNGAG“…SQSequence4639221BP;1142136A;1179433C;1176775G;1140877T;0other;agcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtc60tgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgacttagg120tcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtac180acaacatccatgaaac

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論