生物信息學(xué)第十四章 提交DNA序列到數(shù)據(jù)庫_第1頁
生物信息學(xué)第十四章 提交DNA序列到數(shù)據(jù)庫_第2頁
生物信息學(xué)第十四章 提交DNA序列到數(shù)據(jù)庫_第3頁
生物信息學(xué)第十四章 提交DNA序列到數(shù)據(jù)庫_第4頁
生物信息學(xué)第十四章 提交DNA序列到數(shù)據(jù)庫_第5頁
已閱讀5頁,還剩35頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、第十四章提交DNA序列到數(shù)據(jù)庫序言:要在分子生物學(xué)領(lǐng)域進行計算分析,從公共數(shù)據(jù)庫(DDBJ/EMBL/GenBank)中獲得DNA序列記錄是其必需條件。借助于和一個已了解其生物學(xué)功能而被分離出來并測序的基因比較相似性的方法,我們可以嘗試確定某疾病基因的功能,這種方法要求序列記錄有精確并且富于信息的生物學(xué)注解。對于將其作為BLAST 或Entrez的檢索結(jié)果來研究的科學(xué)家來說,編碼的蛋白質(zhì)產(chǎn)物的名稱或功能、基因座位的名稱以及和該序列最初的公布之間的聯(lián)系(它因何被測序?)構(gòu)成了序列記錄的直接的確切涵義。本章的內(nèi)容是提交DNA序列及其注解到公共數(shù)據(jù)庫,重點介紹了與國際核苷酸序列協(xié)作數(shù)據(jù)庫:DDBJ、

2、EMBL和GenBank密切相關(guān)的核苷酸序列數(shù)據(jù)庫。我們描述了提交序列到這些數(shù)據(jù)庫的兩種不同的方法,一種方法基于互聯(lián)網(wǎng),(例如,使用Bankit),另一種方法使用Sequin,這是一個多平臺程序,若同時具有網(wǎng)絡(luò)連接有很大益處,不過這不是必需的。Sequin也是一種很好的利用了NCBI數(shù)據(jù)模型(參見第六章)的ASN.1編輯工具,而且在不久的將來會成為許多采用NCBI的序列分析工具的平臺,因此,Sequin是可供選擇的升級工具。大多數(shù)期刊不再刊登完整的序列數(shù)據(jù),并且現(xiàn)在公開發(fā)表文章時向公共數(shù)據(jù)庫提交序列數(shù)據(jù)已成為一條準(zhǔn)則?;蚪M測序時期(ESTs 和基因組序列的數(shù)量以很快的速度增加的時期,在歷史上

3、以1992年底EST計劃的開始為標(biāo)志)已經(jīng)通過很多方式影響了科學(xué)界。例如,許多科學(xué)家公布他們發(fā)現(xiàn)的序列先于發(fā)表對其進行的詳細(xì)分析,這個習(xí)慣已成為大型基因研究中心的規(guī)定,盡管一些個別的實驗室仍然直到文章發(fā)表后才公開他們的數(shù)據(jù),還有一些人認(rèn)為公開他們的記錄與否取決于自己的愿望。像第二章概述的那樣,到目前為止,數(shù)據(jù)庫內(nèi)容的增長是指數(shù)性的。大多數(shù)早期的序列記錄是由對于某個基因感興趣的單個的科學(xué)家提交的,適合這種情況的提交程序必須允許手工進行生物學(xué)信息的任意注解。然而最近這些數(shù)據(jù)庫不得不接受新類型的數(shù)據(jù),而且提交速度要有實質(zhì)性的提高。在EST測序開始不久,為了接受這些記錄必需一種單獨的提交協(xié)議,這種要求

4、變得很明顯,通過該協(xié)議每天接受的記錄將達到上千個,峰值時期更將達到每周100,000個提交量。幸運的是,這些記錄相當(dāng)簡單,而且在內(nèi)容上是一致的,因此適合于自動處理。這種大批量提交協(xié)議將在下文討論。提交過程也是國際活動的一部分,值得注意的是,向三個國際性協(xié)作數(shù)據(jù)庫中的任一個提交的記錄(參見第二章圖2.1)幾天后都將在另兩個數(shù)據(jù)庫中出現(xiàn),然后這些序列記錄將被許多研究組和研究中心傳送到世界范圍,其中有些研究者再格式化這些記錄以適合他們的數(shù)據(jù)庫和他們的程序使用(例如,GCG,參見第四章),因此僅僅提交序列數(shù)據(jù)到這三個數(shù)據(jù)庫之一,研究者們能夠避免給這三個地方的數(shù)據(jù)庫維護人員帶來任何可能的重復(fù)工作,而且也

5、能避免發(fā)布多余的記錄。同樣的,大多數(shù)期刊都希望在一篇文章中提出的所有核苷酸序列,將被由國際性的協(xié)作數(shù)據(jù)庫之一提供的加入號碼所驗證,而且這對該文章來說具有核心的意義。(參見第2章和第6章)。提交到哪兒?過去研究者將數(shù)據(jù)提交到哪一個特定的數(shù)據(jù)庫依賴于他們想要發(fā)表文章的期刊,雖然現(xiàn)在一些期刊仍然不合適的指出一個偏愛的數(shù)據(jù)庫,但這不再是正確的了,研究者應(yīng)該提交到最方便的數(shù)據(jù)庫。這可能是地理上最近的數(shù)據(jù)庫(例如,如果需要一次電話會談的話);也可能是經(jīng)常提交的數(shù)據(jù)庫;或者可能僅是因為在那里提交可能得到最多的注意。這三個數(shù)據(jù)庫都有知識豐富的人員來幫助提交者完成整個提交過程。在通常的情況下,一個工作日內(nèi)將會反

6、饋回來一個加入號碼,而記錄的完成將需要5�10天的時間,其實際長短將依賴于那個工作周的繁忙程度和提交的序列的狀態(tài)。目前,假設(shè)所有的序列記錄提交都通過電子方式:例如通過互聯(lián)網(wǎng),通過電子郵件,或者(最起碼)通過常規(guī)方式郵寄一張計算機磁盤。供電子方式提交的URLs和E_mail地址列于本章末尾, 這兩種提交方式取代了早期使用的授權(quán)軟件的方法,該方法現(xiàn)在已經(jīng)過時了。不過通過授權(quán)軟件來提交仍然可被接受(在本文出版時),但是使用授權(quán)軟件的提交者應(yīng)該注意其局限性和可以選擇更好的方法。提交什么內(nèi)容?這三個數(shù)據(jù)庫都需要同樣的最終結(jié)果:充分注解的、具生物學(xué)意義的、便于計算的良好記錄,該記錄允許其他科學(xué)家利用

7、提交該記錄的生物學(xué)家已獲得的工作成果,并且提供了與蛋白質(zhì)、參考文獻和基因組數(shù)據(jù)庫(參見第5章)的聯(lián)系。這些數(shù)據(jù)庫是所有通過實驗獲得的序列的寶庫,因此最新測序的mRNA或基因區(qū)域的序列可以提交到某個數(shù)據(jù)庫,其工作人員將協(xié)助提交者提供足夠的信息以使該序列對其他研究者有使用價值。一套豐富的生物特征和其他注解是可得到的,但其中重要的部分無疑是那些可用于分析的內(nèi)容。這些部分包括核苷酸和蛋白質(zhì)序列:CDS(編碼序列,又稱編碼區(qū))、基因、mRNA特征(如:表現(xiàn)分子生物學(xué)中心法則的特征);序列得以確定的生物;以及關(guān)于參考文獻的引用,這些引用將此序列連接到有關(guān)的信息領(lǐng)域并將給出證明該序列存在的實驗細(xì)節(jié)。DNA/

8、RNA提交的過程相當(dāng)簡單,但必須小心謹(jǐn)慎,才能提供準(zhǔn)確(無錯誤和無載體污染)和生物學(xué)上盡量良好的信息,以保證其得到科學(xué)界的最充分利用。無論提交形式如何,在開始提交以前,都要解決以下幾個問題。序列的性質(zhì)該序列來源于基因組還是mRNA?數(shù)據(jù)庫的用戶想知道被測序的DNA分子的來源。例如:盡管cDNA是在DNA(不是RNA)上進行測序的,在細(xì)胞中的分子表現(xiàn)型卻是mRNA。同樣對于rRNA基因的基因組測序而言,測序的分子幾乎全都是DNA分子。將rRNA復(fù)制成DNA,就象直接對rRNA測序一樣,盡管是可能的,但很少這樣做。記?。杭热槐惶峤坏幕虮仨氂歇毺氐姆肿宇愋?,它就不會表現(xiàn)出(例如)一種基因組和mRN

9、A分子的混合類型,否則實際上不會從一個活細(xì)胞中提取出來。序列是合成的,但不是人造的嗎?合成分子在核苷酸數(shù)據(jù)庫中有一個特殊的分類,在此環(huán)境中,序列被按照實驗排列,而這在自然環(huán)境中是不會出現(xiàn)的(如:蛋白質(zhì)表達的載體序列)。DNA數(shù)據(jù)庫不接受計算機產(chǎn)生的序列(如:同源序列),在數(shù)據(jù)庫中的所有序列都是從有問題的實際分子序列中通過實驗獲得的,但是它們可以被匯聚成測序訓(xùn)練獵槍。序列有多精確?在數(shù)據(jù)庫文獻中很少提到這個問題,但假設(shè)被提交的序列盡可能精確,這通常意味著整個提交序列至少包括兩相覆蓋域(相反方向)。證實最終提交的序列也同樣重要,它必須無載體的污染(這可以用在載體數(shù)據(jù)庫中BLASTN查尋證實:參見其

10、后的第7章),可以以已知的限制圖譜檢驗,消除序列重組的可能性,或確認(rèn)正確的序列集合。生物體給每條記錄分配正確的生物是至關(guān)重要的,盡管在大多數(shù)情況下這是很容易做到的。所有的DNA序列記錄必須有一個生物分配給它們,從數(shù)據(jù)庫中的記錄出現(xiàn)在系統(tǒng)發(fā)生樹上的位置可以得到許多推論。如果它們被錯誤的安置了,可能會翻譯錯誤的遺傳密碼,并產(chǎn)生被錯誤截取的蛋白質(zhì)產(chǎn)物序列。已經(jīng)知道的基因和物種的種類足可以使數(shù)據(jù)庫成員識別生物和其譜系。NCBI提供了一個重要的分類服務(wù),分類學(xué)家維護能用于所有核苷酸數(shù)據(jù)庫和Swiss-Prot蛋白質(zhì)數(shù)據(jù)庫的分類法。引用注解即使再好,也永遠(yuǎn)比不上一篇充分闡述生物學(xué)的已發(fā)表文章,因此,有必要

11、保證正確鏈接研究出版物和它將引用的原始數(shù)據(jù)?;诖死碛? 提交中準(zhǔn)備好引用是很重要的,即使其中只有作者的臨時列表和工作標(biāo)題。在出版時更新這些引用對于記錄的價值也很重要。(這由數(shù)據(jù)庫成員慣例的執(zhí)行,而且如果提交者在發(fā)表文章以前通知數(shù)據(jù)庫成員,將執(zhí)行得更快)。編碼序列核苷酸序列的提交也意味著包括其編碼的蛋白質(zhì)序列,這是因為:1. 蛋白質(zhì)數(shù)據(jù)庫(如:Swiss-Prot和PIR)幾乎完全由在DNA序列數(shù)據(jù)庫中記錄的蛋白質(zhì)序列所組成。2. 在提交過程中包括蛋白質(zhì)序列如果不是必需的話, 也是重要和有效一步。蛋白質(zhì)包括執(zhí)行我們研究的許多生物反應(yīng)的酶分子,其序列數(shù)據(jù)是提交中的固有部分,它們的重要性(在第6章

12、中概述)也在提交過程中體現(xiàn)出來,在各種數(shù)據(jù)庫中其信息作為代表性必須被捕獲。如果已知的話, 蛋白質(zhì)產(chǎn)物和基因的名稱也很重要,有各種各樣的資源(許多在總結(jié)這些章節(jié)的列表中有描述)為給定的生物提供準(zhǔn)確的命名系統(tǒng)。(參見“基因命名指導(dǎo),基因趨勢”,1995,Elsevier。)編碼序列特征,或CDS,是DNA或RNA和蛋白質(zhì)序列的聯(lián)系,隨同正確的翻譯表一起, 在有效性中其正確定位占據(jù)了中心位置。核苷酸數(shù)據(jù)庫現(xiàn)在用了13種不同遺傳密碼(參見章末的列表),這些遺傳密碼由NCBI中的分類學(xué)和分子生物工作人員維護。由于蛋白質(zhì)序列是如此重要,它們是生物學(xué)家可以計算的主要分子生物信息資源之一,它們理所當(dāng)然地得到各

13、種數(shù)據(jù)庫成員的重視。在mRNA中正確地找到開放的讀框架通常是很簡單的(參見第10章), 并且有多種工具可供利用 如:NCBI的ORF查找器(見章末列表),而且在Sequin中是作為一個函數(shù)(如下);從一個較高級的真核生物獲得正確的CDS間隔就不那么容易了:必須連接不同的外顯子序列,這涉及許多方法,在第10章中有介紹(如果給定蛋白質(zhì)序列和正確的遺傳密碼的話, Sequin中的推薦間隔函數(shù)可以計算CDS間隔)。在提交中包括什么內(nèi)容將由數(shù)據(jù)庫工作人員來決定, 更恰當(dāng)?shù)卣f, 這受到所使用的提交工具的限制, 如通過互聯(lián)網(wǎng)或Sequin。有效性檢查包含CDS間隔中的起始和終止密碼子,該間隔具有合法的外顯子

14、/內(nèi)含子一致邊界,用合適的遺傳密碼可將提供的氨基酸序列從指定的CDS中轉(zhuǎn)換出來。其他特征在提交序列記錄的特征部分還有許多其它特征,并且其中許多特征將擴充記錄內(nèi)容。在特征表文件中描述了完整的特征集,該文件可以WWW方式取得或通過匿名FTP獲得PostScript 文件。盡管有許多特征可供利用,但在數(shù)據(jù)庫中卻有許多不一致的用法,主要原因是缺乏一致的原則和生物學(xué)家們對它們究竟意味著什么看法很不相同。正確地獲得生物、書目、基因、CDS、mRNA通常就足以并且有助于證實序列,使生物學(xué)家通過幾行文字就能獲得生物學(xué)的內(nèi)容。只要應(yīng)用恰當(dāng),一個特征表文件是可以利用的,但要注意文件注解的意圖。種群、系統(tǒng)發(fā)生、變異

15、的研究現(xiàn)在核苷酸數(shù)據(jù)庫可接受種群、系統(tǒng)發(fā)生、變異的研究作為提交的序列集,盡管在簡單文件記錄中并沒有充分描述該信息,但它卻在各種各樣的數(shù)據(jù)庫中出現(xiàn)。新型的提交方式允許:若僅因為操作的原因,一起提交一組相關(guān)序列,那么獲得共享信息入口只需要一次請求。Sequin也允許用戶包含有用自己中意的比對工具生成的序列比對結(jié)果,并隨著DNA序列提交該信息。盡管所有的數(shù)據(jù)庫都知道該信息對于目前獲得的大量記錄很重要,但是NCBI是唯一接受該信息的數(shù)據(jù)庫。顯示該信息的新方法(如:Entrez)應(yīng)盡快能使一般科學(xué)團體更易獲得這種數(shù)據(jù)。僅提交蛋白質(zhì)序列在大多數(shù)情況下,蛋白質(zhì)序列和DNA序列并存,但也有些例外�人們直

16、接處理蛋白質(zhì)序列�這些序列必須在沒有相應(yīng)的DNA序列的情況下提交。對于這些提交而言,目前SWISS-PROT是最好的地方,EBI處理這些提交,并將其傳送到SWISS-PROT。如何提交到互聯(lián)網(wǎng)Authorin利用率的下降使這三個數(shù)據(jù)庫決定在互聯(lián)網(wǎng)上采用基于表格的方式,這個新的媒介能很好的適應(yīng)提交過程。三個數(shù)據(jù)庫都設(shè)計了一種表格,以使DNA序列提交到自身的數(shù)據(jù)庫中:DDBJ的Sakura(櫻花開)、EBI的WebIn、和GenBank的BankIt。互聯(lián)網(wǎng)是簡單提交序列的理想提交途徑(如圖14.1),也是那些不需要復(fù)雜注解和過多重復(fù)的提交序列的最佳選擇(如:在種群研究中,很典型的有30條類

17、似的序列,用Sequin提交最好)?;ヂ?lián)網(wǎng)對于那些只做少量提交和要求較少、只需要簡單的學(xué)習(xí)或不需要的研究小組最為理想。對于大多數(shù)提交來說,互聯(lián)網(wǎng)的表格方式將是合適和足夠的:60%�80%的提交者通過互聯(lián)網(wǎng)向NCBI提交其DNA或RNA序列。這三個數(shù)據(jù)庫提交的入口地址(或URLs)在本章末有介紹。盡管本章的這部分強調(diào)NCBI的BankIt提交工具,實際上,提交到基本數(shù)據(jù)庫中的任何一個都將使序列獲得合理的處理,并存儲到另外兩個數(shù)據(jù)庫中。進入BankIt提交后(圖14.2),用戶被詢問要提交的核苷酸序列長度。這是由于WWW瀏覽器的局限性,使得在一個給定的窗口不可能輸入29,000個核苷酸(字符

18、)。如果必須提交40,000條堿基對(人們提交的粘性質(zhì)粒的通常大?。珺ankIt將打開兩個窗口,故通過每個窗口復(fù)制和輸入20,000個字符,這樣就解決了這個矛盾。圖14.1:決定采用哪種協(xié)議提交DNA序列到某一DNA序列數(shù)據(jù)庫的流程圖。WWW是BankIt,WebIn,或Sakura。其URLs和電子郵件地址,請參見本章末的列表。圖14.2圖14.2:BankIt, GenBank互聯(lián)網(wǎng)的提交網(wǎng)頁。新提交序列的進入點(輸入序列長度,并按New按鈕)或更新GenBank數(shù)據(jù)庫中的一條記錄。BankIt的下一張表格也是明了的(圖14.3),它詢問聯(lián)系人(即回答數(shù)據(jù)庫工作人員詢問的人),引用(誰得

19、到了科學(xué)榮譽),生物(前100個在列表中,其余的必須輸入),位置(細(xì)胞還是細(xì)胞器),一些圖譜信息和核苷酸序列本身。在列表末,有個BankIt按鈕,能激活下一張列表。按下這個按鈕后,首先驗證一些項的有效性,如果一些基本的區(qū)域沒填,該表將再次出現(xiàn)。若全部合格,下一張表將查問會加入多少特征并提示用戶指出其類型。如果沒填任何特征,(圖14.4),BankIt將發(fā)出警告,以證實提交序列中沒有加入一個CDS。用戶可以回答沒有(0個新CDS)或選擇加入一個或更多的CDS。此時,結(jié)構(gòu)化RNA信息或其它合法的DDBJ/EMBL/GenBank特征也會被加入。圖14.3圖1 4.3:BankIt,GenBank的

20、互聯(lián)網(wǎng)提交頁面:標(biāo)明提交聯(lián)系人。圖14.4圖14.4:BankIt,GenBank的互聯(lián)網(wǎng)提交網(wǎng)頁:BankIt要求獲得特征的數(shù)目, 以產(chǎn)生一個具有合適數(shù)目的特征表。要保存記錄,再次按BankIt,出現(xiàn)的新頁面(圖14.5)必須在提交完成前得到確認(rèn),也就是說,在此之前,可做更多的改變或加入其他特征。再次單擊BankIt結(jié)束。接著出現(xiàn)最后的頁面: (圖14.6)切換Update/Finished按鈕,最后按BankIt按鈕,提交將進入NCBI進行處理。剛完成的提交序列復(fù)本必須立即通過電子郵件送達,否則,有必要聯(lián)系數(shù)據(jù)庫以證實提交已被接受,并做出任何必要的修改。圖14.5圖14.5:BankIt,

21、GenBank的互聯(lián)網(wǎng)提交網(wǎng)頁:倒數(shù)第二個屏幕:這是一個增加或改變一些特征的互鎖按鈕,顯示如所指示的完成入口。圖14.6圖14.6:BankIt,GenBank的互聯(lián)網(wǎng)提交網(wǎng)頁:最后一個屏幕:顯示BankIt的提交表格已成功完成。如何用Sequin提交Sequin是設(shè)計用來協(xié)助科學(xué)家準(zhǔn)備新序列,更新序列數(shù)據(jù)的一個程序,利用它將序列數(shù)據(jù)提交到DDBJ,EMBL和GenBank數(shù)據(jù)庫。這是一個能在絕大多數(shù)計算機平臺上運行的軟件,而且適用于各種序列長度和復(fù)雜情況,包括傳統(tǒng)的(基因大?。┖塑账嵝蛄?,分段的記錄(如:剪接的基因組,不是所有的內(nèi)含子序列都已被確定),有許多注解特征的長序列(基因組大小),和

22、各種相關(guān)序列(如:對于一個特殊基因、域或濾過性病毒基因的種群、系統(tǒng)發(fā)生、變異的研究),許多這樣的提交能通過互聯(lián)網(wǎng)執(zhí)行,但Sequin 在復(fù)雜的情況下更實用。而且特定類型的提交(如:分段類)不能通過Web來完成,除非給數(shù)據(jù)庫工作人員加以明確的指導(dǎo)。Sequin 也接受以提交的核苷酸酸序列編碼的蛋白質(zhì)序列,允許在這些蛋白質(zhì)上進行特征的注解(如:信號肽、跨膜區(qū)或二硫鍵)。這與大多數(shù)科學(xué)家在提交DNA序列時的普遍觀點形成鮮明的對比。這里的新概念是蛋白質(zhì)是直接注解的,而不是編碼生成之的DNA的副產(chǎn)物。對于各種相關(guān)或是相近的序列(如:種群或系統(tǒng)發(fā)生的研究),Sequin從提交者處獲得關(guān)于多個序列是如何比對

23、的信息,最終它可以用來編輯和重新提交已存在于GenBank中的記錄,不論是延長(或取代)已有的序列,還是注解附加的特征或比對(見下描述)。進入一個新的提交過程Sequin有許多性質(zhì)大大簡化了創(chuàng)建和注解一條記錄的過程。最神奇的一方面是在只給定核苷酸酸序列,蛋白質(zhì)產(chǎn)物序列和遺傳密碼(從生物的名稱中自動獲得)的情況下,自動計算CDS特征間隔。這所謂的“建議間隔”過程在計算中考慮了一致的剪接位點。傳統(tǒng)上這些間隔是手工輸入的,這是一個既耗時又易錯的過程,尤其是對于一個在可變剪接或分段時有許多外顯子的基因序列。Sequin的另一種重要的貢獻在于能在序列數(shù)據(jù)庫文件的定義行上以一種簡單的格式輸入相關(guān)注解。在讀

24、序列時,Sequin識別和提取這一信息,并將其放置在記錄中合適的位置。對于核苷酸序列,可以輸入生物體的科學(xué)名稱、品系或克隆名稱和幾個其它的修飾基因。對于蛋白質(zhì)序列,可以輸入基因和蛋白質(zhì)名稱。(如果在定義行上沒有這些信息,Sequin在執(zhí)行前就會提示用戶此信息。定義行的注解是非常方便的,因為信息和序列是在一起的因此以后不容易被遺忘或混淆。)除了組建合適的CDS特征以外,Sequin將自動利用該信息生成基因和蛋白質(zhì)特征。由于大多數(shù)提交序列包含了一個單獨的核苷酸序列和一個或多個編碼區(qū)域特征(及相關(guān)的蛋白質(zhì)序列),前面概述的功能將頻繁地影響一條沒有進一步注解時就被提交的記錄。由于正確地記錄了基因和蛋白

25、質(zhì)名稱,從而使得該記錄為其他科學(xué)家提供有用信息,他們可能通過一個BLAST的相似性比對或從Entrez查找中獲得該信息。有效性為保證提交數(shù)據(jù)的質(zhì)量,Sequin使用一個內(nèi)建的有效器來查詢。例如:丟失的生物體信息,錯誤的編碼區(qū)長度(相對于被提交的蛋白質(zhì)序列),編碼區(qū)內(nèi)部的終止密碼子,不匹配的氨基酸或不一致的剪接位點。在錯誤報告中雙擊其中一項,在“沖突”特征項中就會出現(xiàn)一個編輯框。有效器也檢查“局部”指示器的使用是否一致,尤其是在編碼區(qū)、蛋白質(zhì)產(chǎn)物和產(chǎn)物的蛋白質(zhì)特征中的使用。(除非作了相反的設(shè)置,否則CDS就會自動的同步這些分散的局部指示器,將使糾正這類不一致問題變得很方便。)觀察序列記錄Sequ

26、in對同一條記錄提供了許多不同的視圖。傳統(tǒng)的簡單文件可以出現(xiàn)在FASTA,GenBank或EMBL形式中。(它們可以在用戶計算機中以文件的方式輸出,然后輸入其它的序列分析包中。)圖像視圖顯示了序列的特征間隔,這對于觀察可變剪接的編碼區(qū)尤其有意義。(圖像視圖的風(fēng)格可以定制,這些視圖可以被復(fù)制到個人計算機的剪貼板中,粘貼到文字處理器或視圖程序中,用于準(zhǔn)備出版物的手稿。)有一個視圖可以更詳細(xì)地顯示實際序列的特征,對于包含比對的記錄(如:由一個用戶輸入的相關(guān)序列或通過PowerBLAST中查找的比對結(jié)果,參見第7章),用戶可以請求一個全圖像視圖以顯示添加、刪除和不匹配的情況,或細(xì)節(jié)視圖顯示序列字母比對

27、。上述提及的觀察者是主動的,單擊一個特征、序列或序列比對圖片,將會高亮度顯示該處。雙擊會出現(xiàn)一個合適的編輯框,以便多個觀察者使用同一條記錄,而能夠看到不同的形式。例如:可以很方便的使圖像視圖和GenBank(或EMBL)的簡單文件視圖同時顯示,尤其是對于包含多個CDS的較大記錄。圖像視圖可比做科學(xué)家實驗室的記事本圖片,為特征注解的準(zhǔn)確性提供一個快速實用的檢查手段。先進的注解和編輯功能Sequin中的序列編輯器能在編輯序列時自動調(diào)節(jié)特征間隔,這對于想在已提交的序列記錄中加入一段5端的序列尤為重要。在Sequin出現(xiàn)之前,這需要手工添加,并糾正序列中所有生物特征間隔。這樣很有可能從草稿開始重做全部

28、提交過程。序列編輯器很象文本編輯器,可在光標(biāo)所在出處插入或輸入一個新的序列。在提交序列中的一個大類包含了多樣的相關(guān)序列(如:種群、系統(tǒng)發(fā)生和變異的研究),如果用戶提交了這些序列是如何自身比對的信息,這些記錄將會更有指導(dǎo)意義。這種比對可隨序列數(shù)據(jù)(如:以PHYLIP、NEXUS或FASTA+GAP形式)輸入或在輸入序列以后用Sequin計算。參見附錄II中的各種形式的實例。對于這些記錄,Sequin允許給一條序列添加注解,而且該注解可以被復(fù)制到其它的序列中。(若為CDS特征,特征間隔可通過讀蛋白質(zhì)產(chǎn)物序列自動進行計算,而不必全部輸入。)為了實現(xiàn)這一方法,選用特征傳播的方法(從比對編輯器中),被選

29、中的特征將傳播到剩余序列中去,并用比對信息調(diào)整特征間隔。這和在每條序列上手工注解特征產(chǎn)生的效果相同。但用特征傳播的方法僅需幾分鐘就能完成全過程,而手工則需幾小時。特征傳播和序列編輯器組合起來為更新一個已經(jīng)存在的序列提供了簡單而且自動的方法。更新序列的功能允許用戶輸入重疊或替代的序列。Sequin設(shè)計了比對,在有必要時合并序列,將特征傳播到新序列的新位置,以取代舊序列和舊特征。Sequin做為分析平臺Sequin也提供了許多種序列分析的功能,例如:有一個功能可以反補于序列和特征間隔,也很容易加入新的功能。這些功能在一個稱為NCBI桌面的窗口中出現(xiàn),直接顯示調(diào)入內(nèi)存的當(dāng)前記錄的內(nèi)部結(jié)構(gòu)。該窗口可以

30、被理解為一個有描述器的Venn圖表(參見下述和第6章),此描述器能在一組系統(tǒng)中(如:種群研究)應(yīng)用于各種序列。在桌面上,用戶可以讀出PowerBLAST的分析結(jié)果,再拖動之將其在一條序列記錄上釋放,從而向記錄中加入比對數(shù)據(jù),修改的結(jié)果將很快顯示在觀察者面前。注意:并非所有的注解都能被任何一個觀察者看見,簡單文件視圖有其局限性,例如:它不顯示比對。NCBI數(shù)據(jù)模型支持大量的序列集,Sequin允許為了顯示或注解的目的在這些序列集中進行完全的漫游,例如:Nuc-Prot類包含一條核苷酸序列和它的蛋白質(zhì)產(chǎn)物,核苷酸序列可自身分解。在這種情況下,Seg類包含了片段序列和一個Parts類,Parts類順

31、序包含每一個片段的原始數(shù)據(jù)。種群、系統(tǒng)發(fā)生和變異可包含多種相關(guān)序列或Nuc-Prot類。NCBI桌面是瀏覽記錄內(nèi)部結(jié)構(gòu)的最快的方法。數(shù)據(jù)模型的重要性Sequin是一種ASN.1編輯器。用ASN.1數(shù)據(jù)描述語言寫成的NCBI數(shù)據(jù)模型,可用來使相關(guān)信息在描述器或特征項中保持在一起(參見第6章),特征項是典型的生物概念(如:基因,編碼區(qū),RNAs,蛋白質(zhì)),這些概念通常在一條序列中有一個位置(一個或多個間隔)。描述器可用于傳送應(yīng)用于多個序列的信息,這樣避免了重復(fù)輸入同一條信息的多個拷貝。例如:BioSource描述器包含了一個生物體的科學(xué)名稱,常用名稱,分類學(xué)上的鏈接,GenBank分類,和修飾器(

32、如:品系、克隆、染色體、圖譜位置)。將此信息收集在一起記錄在數(shù)據(jù)詳細(xì)說明書中,將便于用戶輸入和修改。將單個的BioSource描述器應(yīng)用于Nuc-prot集將滿足證實者的愿望: 在每條序列, 包括蛋白質(zhì)序列上都有生物來源信息, 這同時也是數(shù)據(jù)庫的規(guī)定。在GenBank簡單文件視圖上雙擊一段,或在圖形視圖中雙擊一個特征,將激活一個編輯器用于修改該項的永久性的信息。在某些情況下,特別是在BioSource或出版物中,這些項可能是描述器或者是特征,并且在簡單文件中將其區(qū)分開來是困難的。(在NCBI桌面上可以很容易地區(qū)分描述器和特征。并且只有特征和序列在總結(jié)、圖表、比對、和序列視圖中出現(xiàn)。對于偶然的使

33、用者來說,數(shù)據(jù)模型導(dǎo)致習(xí)慣可能并不明顯(請看GenBank或EMBL的視圖文件),但確實能夠簡化生物信息的輸入。例如:在GenBank簡單文件的頭部出現(xiàn)的文獻能夠包含一個評價的子部分,在這里可以輸入解釋關(guān)于引用的生物學(xué)結(jié)論,和那些關(guān)于序列記錄的信息。在報告中文本通常和引用在一起,相反將解釋性的信息放置在大的注解段中,并用編號指向引用的文章(如“5”)是一種冒險性的做法,因為這些編號可能會發(fā)生變化,(例如由于新的文獻的引用),將導(dǎo)致編號和文獻不相符。類似地,對于特征的引用(例如確定在編碼區(qū)中核糖體的滑動)內(nèi)在地引用了文獻,而不是文獻編號,即使在簡單文件中顯示了一個數(shù)字。這是另一個慣例允許文獻編號

34、改變而不“破壞”引用的完整性。并且這意味著只有一個完整的引用復(fù)本,這將使更新文獻中的任何信息變得更容易。然而,應(yīng)該保守地使用對于序列記錄的文字上的引用,一個序列記錄并不是一門學(xué)科的回顧,使用Entrez中的鏈接和近鄰是一種更加可靠的收集信息的方法和使用序列數(shù)據(jù)庫作出最初發(fā)現(xiàn)的方法。在最簡單的情況下,單個的核苷酸序列有一個或多個蛋白質(zhì)產(chǎn)物。Sequin允許用戶不了解數(shù)據(jù)模型的結(jié)構(gòu)層次而使用它。CDS特征編輯器用來輸入蛋白質(zhì)序列(或?qū)⑵鋸囊演斎氲牡胤椒g出來),并且輸入或修改特征(提供了蛋白質(zhì)的名稱)。用戶可以獲得(單個的)蛋白質(zhì)特征而不必在整個蛋白質(zhì)序列中“漫游”。并且CDS編輯器也用基因名建立

35、了分離的序列特征。如果預(yù)期有關(guān)于蛋白質(zhì)產(chǎn)物序列的大量的注解,那么漫游是必需的,至少作為對于數(shù)據(jù)模型的一種粗略的了解,許多蛋白質(zhì)有半胱氨酸的雙硫鍵。結(jié)合區(qū),活性區(qū),糖基化區(qū),信號肽,或跨膜區(qū)。關(guān)于這些部分的注解對將其作為BLAST或Entrez檢索結(jié)果的生物學(xué)家很有意義,對于給定序列設(shè)置目標(biāo)控制使觀察者轉(zhuǎn)向顯示該序列的圖形平面或文字報告。使用注解子菜單建立的任何特征或描述器將和當(dāng)前的目標(biāo)序列組織在一起。雖然Sequin確實提供了在一個結(jié)構(gòu)記錄中所有的序列間進行完全的漫游的功能,但是最初的序列數(shù)據(jù)建立原始的結(jié)構(gòu)最好由Sequin的“創(chuàng)建新提交”功能來完成。Sequin在前面的步驟中提取信息,(例如

36、生物體和資源編輯器,基因和蛋白質(zhì)名稱)并且知道怎樣正確的將每個信息填充在合適的位置。這也就是Sequin的主要設(shè)計目標(biāo)之一。手工注解需要對于數(shù)據(jù)模型更詳盡的了解,和對于具有使用Sequin復(fù)雜功能的專業(yè)技能。完成的提交可以存儲到磁盤(File-Prepare Submission)和發(fā)送電子郵件到某一數(shù)據(jù)庫,在Sequin期間經(jīng)常存盤是一個好習(xí)慣,可以避免無意中的數(shù)據(jù)丟失。提交單個的序列最簡單的交包含一個單個的沒有中斷的核苷酸序列和一個或多個蛋白質(zhì)產(chǎn)物序列。這些序列典型地來自于傳統(tǒng)的基于基因的生物學(xué)研究,并且這樣的提交在大多數(shù)情況下可以通過互聯(lián)網(wǎng)(請看上例BankIt)或Sequin來完成,S

37、equin提供了許多已經(jīng)確認(rèn)的好處和對于各種網(wǎng)絡(luò)連接的獨立性。Sequin開始時出現(xiàn)一個窗口,提示用戶開始一個新的提交或者打開一個包含記錄的文件(圖14.7)。在最初的提交建立以后,記錄可以保存下來存為文件和在最終傳送到數(shù)據(jù)庫之前進行編輯,如果Sequin被配置為網(wǎng)絡(luò)敏感,該窗口將允許下載已存在的將要更新的數(shù)據(jù)記錄。圖14.7圖14.7 Sequin 的初始窗口,提供了開始一個提交的幾個選擇,為了由原始序列文件和其它信息的最小集生成一個提交,選擇開始新的提交(Start New Submission),一旦初始記錄建立起來,就可以存成一個文件。若要讀已存的文件或任何其它存成文件的ASN.1記錄

38、,選擇讀已存在的記錄(Read Existing Record),若Sequin配置為網(wǎng)絡(luò)連接,將會顯示按鈕Download from Entrez,該按鈕用來下載記錄用于更新。通過完成幾個表格可以建立一個新的提交(圖14.814.15)。這些表格使用文件夾標(biāo)簽來將窗口劃分為幾頁,這樣允許輸入所有必需數(shù)據(jù)而不必一個大的計算機屏幕,這些表格項有前一頁和后一頁的按鈕,當(dāng)用戶到達一個表格的最后一頁時,下一頁按鈕變成了下一個表格按鈕。開始一個新的提交過程,第一步是請求一個暫時性的標(biāo)題(圖14.8):然后詢問聯(lián)系人、序列作者和他們的學(xué)術(shù)聯(lián)系的信息(圖14.9)。對于所有的提交來說,這個表格是一致的,聯(lián)系

39、人、序列作者、和他們的學(xué)術(shù)聯(lián)系頁通過按輸出菜單按鈕可以存儲下來,在開始其它提交時可通過選擇輸入菜單按鈕讀入該文件。然而,因為種群、系統(tǒng)發(fā)生和變異研究是作為一個記錄一次引入的,存儲提交表格頁面就不太必要了。圖14.8圖14.8 提交頁用來從手稿中為Sequin輸入一個暫時的標(biāo)題;即使該文章沒有寫,或者試圖發(fā)表,對于提交的描述也是必要的。該頁也允許提交者要求直到文章發(fā)表再公布序列或指測序列公布的日期。圖14.9圖14.9 Sequin的聯(lián)系人頁面記錄了回答數(shù)據(jù)庫工作人員查詢的負(fù)責(zé)人的姓名和聯(lián)系信息(通常是執(zhí)行提交的人,但不必是真正測序的人)。Sfx域要求名字后綴(例如:Jr.,III),而不是敬語

40、或?qū)W位(如Ph.D,M.D.)。當(dāng)記錄公布時該信息并不公開,而是保存在數(shù)據(jù)庫中。序列格式表格(圖14.12)詢問提交的類型(單個的序列,如例子中所用;片段序列或種群、系統(tǒng)發(fā)生、變異研究)。對于最后三種類型的提交,包括相關(guān)序列的比對研究,輸入數(shù)據(jù)的形式也能被指示。缺省是FASTA格式(或原始序列),不過PHYLIP,NEXUS,PAUP和FASTAGAP格式也是支持的。后幾種格式包含比對信息,這些存儲在序列記錄中。圖14.10圖14.10 Sequin作者頁命名了描述測序的手稿作者。(例如從測序中獲得榮譽的人),本頁是一個電子表格,可以容納需要的作者名。按TAB按鈕可以水平地從一個域移動到下一個

41、域。要移動到下一行的第一個名字列,從Sfx列內(nèi)按TAB按鈕。如果在最后一行中鍵入了任何東西,新的一行將附加到表格的后面。(在視覺上立刻感到滾動條的變化),在一行中的任何位置按下回車按鈕將在當(dāng)前行下增加新的一行。Sequin將忽略任何姓一欄空著的行。圖14.11圖14.11 Sequin的聯(lián)系頁,用于與手稿原始作者的制度上的聯(lián)系,當(dāng)數(shù)據(jù)庫工作人員處理記錄時,該信息將出現(xiàn)在引用其自身的參考書目中。在本頁中下一頁(Next Page)換名為下一表格(Next Form);當(dāng)按下該按鈕時,Sequin自動檢查表格內(nèi)容,如果用戶遺漏了任何基本信息的話,將給出提示。如果輸入的信息符合要求,Sequin將出

42、現(xiàn)下一個表格。圖14.12圖14.12 Sequin的序列格式表格,允許用戶指定提交記錄的類型和原始序列數(shù)據(jù)的類型。大數(shù)提交是單個的序列(核苷酸)(也可能有一條或幾條蛋白質(zhì)產(chǎn)物序列)。另一類提交是片段序列。例如,在一些基因組序列中,外顯子已測序,但是內(nèi)含子并未完全測序。通過分割該記錄,我們可以注解編碼區(qū)和mRNA特征。系統(tǒng)發(fā)生、種群研究和變異研究涉及不止一條相關(guān)序列的提交,它們由Sequin包裝為合適的集合。批量提交是用于那些并不具有相似性的序列集的提交,這樣作只是基于方便的理由。單個的序列數(shù)據(jù)和分段的序列數(shù)據(jù)必須是FASTA格式。種群、系統(tǒng)發(fā)生和變異研究也可以使用包含比對的格式。這些比對是關(guān)

43、于提交者對于序列之間關(guān)系的斷言。目前Sequin支持FASTAGAP,PHYLIP,交叉存取NEXUS和近鄰的NEXUS多種格式。生物體和序列表(圖14.1314.15)要求生物學(xué)數(shù)據(jù)。在生物體頁面上(圖14.13,隨著用戶鍵入生物體的科學(xué)名,經(jīng)常使用的生物體名列表自動翻卷,Sequin 保存了GenBank中存在的最多的800種生物體。)因此在鍵入幾個字母后,用戶可以通過在列表中單擊合適的項來補全生物體名稱的其余部分?,F(xiàn)在Sequin知道了科學(xué)名稱,一般名稱,GenBank分類,分類學(xué)聯(lián)系和其中最重要的,使用的遺傳密碼,(對于線粒體基因,有一個控制指示應(yīng)該使用哪個遺傳密碼)對于列表中沒有的生

44、物體,需要手工設(shè)置遺傳密碼控制。Sequin缺省使用標(biāo)準(zhǔn)密碼。圖14.13圖14.13序列的生物體頁面,詢問測序的生物體的科學(xué)名。對于通常用到的800種生物體來說,還有普通名,完全的分類,GenBank分類和存儲的遺傳密碼。對于表中沒有的生物體,用戶必須輸入正確的遺傳密碼,序列彈出位置允許用戶指示線粒體編碼在這種情況下,在翻譯中使用了特定生物體的可選遺傳密碼。在系統(tǒng)發(fā)生研究中,包括了不同的生物體,生物體選擇列表被隱藏起來,單個的生物體名希望在數(shù)據(jù)文件中編碼。并且在缺省情況下,在生物體列表中不出現(xiàn)遺傳密碼控制。在核苷酸頁(圖14.14),激活I(lǐng)mport Nucleotide FASTA按鈕將讀

45、取序列。給基因組DNA或mRNAcDNA設(shè)置合適的分子控制,對3和5端的檢查框同樣也應(yīng)予以適當(dāng)?shù)脑O(shè)置。序列可以有一條FASTA定義行。這條線作為序列的先導(dǎo),并以一個左尖括號開始();一個“局部標(biāo)識符”可能被定義為尖括號后的第一個字符。如果你是這樣做的,在引入該序列前檢查“以序列ID開頭的FASTA定義行”框。在加入數(shù)字由序列數(shù)據(jù)庫工作人員發(fā)放以前,局部ID代替了其位置。如果需要的話,樣本定義行如下:TK org=Musculus strain=BALB/c thymidine kinase gene在讀完核苷酸文件后,將有一個總結(jié)報告給出序列的長度,局部ID,任何生物體名,品系,或其它修飾成分

46、,這些是從定義行上解析(抽?。┏鰜淼?,以及剩余的標(biāo)題(圖14.14)??偨Y(jié)同樣給出了任何不在核苷酸字母表中的無效字母。例如,偶然引入了一個氨基酸序列,將有許多字母不在字母表中,結(jié)果報告將指出這個錯誤。在這種情況下,從編輯菜單下選擇Clear(清除),然后引入正確的序列。片段的核苷酸序列可通過連接同一文件中的單個片段來輸入。在這種情況下,在每個序列上方的定義行上向Sequin指出有多個片段。每一個片段必須有唯一的一個局部ID號(如:通過對該片段編碼的外顯子號使其變得唯一)。圖14.14圖14.14 序列的核苷酸頁,該頁是核苷酸序列文件和分子類型(例如基因組DNA,基因組RNA,mRNA, tRN

47、A)說明書的入口,即使排列的分子實際上組成了cDNA也使用了mRNA。按下輸入核酸FASTA(Import Nucleotide FASTA)按鈕引出用戶計算機上的閱讀對話框。當(dāng)記錄在分立的文件中時,這種情況出現(xiàn)在分段序列和多條序列的研究中,必須多次按該按鈕。然而,將所有序列放置在單個的文件中將更為合適。如果檢測出任何無效字母,將有一個警告信息,同時出現(xiàn)一份關(guān)于序列文件是如何被中斷的報告。蛋白質(zhì)頁面(圖14.15)允許輸入蛋白質(zhì)序列,比起手工加入CDS特征(和相關(guān)基因及蛋白質(zhì)特征)而輸入該序列,讓Sequin組建記錄要容易得多。這對于片段序列來說尤其如此,若合適的話也須設(shè)置的局部標(biāo)記。蛋白質(zhì)頁

48、面有個控鍵,可以提示局部的ID號是否在定義行上,它也允許基因和蛋白質(zhì)的名稱被編碼,如:TKp gene=TK prot=thymidine kinase thymidine kinase protein局部ID號TKp必須不同于所有其余的ID號,在這個例子中是TK,它是核苷酸序列的局部ID號。蛋白質(zhì)頁面也有一個檢驗框,以產(chǎn)生與將要生成的CDS具有相同間隔的mRNA特征,用戶隨后雙擊mRNA的結(jié)果,通過mRNA編輯器延長該特征項5和3的間隔。(Sequin編輯器被設(shè)計來保證重復(fù)的基因特征也被延長,使用戶不必分別延長其范圍。)多蛋白質(zhì)序列(如:可變剪接的產(chǎn)物)的進入可鎖定在同一個文件中。由于有核苷

49、酸序列,每條蛋白質(zhì)序列上的定義行提示Sequin有多條序列。讀入蛋白質(zhì)也會產(chǎn)生一個報告(圖14.15),它給出序列長度,解析的局部ID號,解析定義行的基因和蛋白質(zhì),剩余標(biāo)題。報告也指出蛋白質(zhì)列表中不存在的非法特征,同樣選擇編輯菜單中的清除按鈕修正該頁面。圖14.15圖14.15 Sequin的蛋白質(zhì)頁,允許蛋白質(zhì)產(chǎn)物序列的輸入。其輸入按鈕的表現(xiàn)和核酸頁的按鈕相同。作為表格中的最后一頁,它有一個下一表格(Next Form)的按鈕。按下之后將提示用戶在表格中任何被忽視的基本信息。表格完成后,Sequin將開始處理序列數(shù)據(jù)。如果再蛋白質(zhì)序列FASTA定義行上基因和蛋白質(zhì)名未被注解,Sequin將提

50、出一個表格來輸入這些名字。然后Sequin將基于已提供的數(shù)據(jù)開始建立一個初始的記錄。此時,按下Next Form按鈕將會使Sequin把進入的數(shù)據(jù)組建成一條提交記錄,對于每條蛋白質(zhì),建議間隔按照核苷酸序列來選?。ㄓ靡呀?jīng)輸入的遺傳密碼,它通常是從被選擇的生物體來推斷出)。編碼區(qū)特征是由間隔的結(jié)果產(chǎn)生的,這也是一個最初的mRNA特征。基因特征是由一個橫跨所有間隔的間隔產(chǎn)生的,這樣生成了蛋白質(zhì)序列,并由蛋白質(zhì)特征給出它的名稱,生物體(BioSource描述器)被放在記錄中,同樣有文獻的描述器。(最后兩個被歸入Nuc-Prot類,這樣它們在能應(yīng)用于該類中所有的核苷酸序列和蛋白質(zhì)序列),在所有的序列中加

51、入合適的分子信息描述。這樣產(chǎn)生了一個閱讀器表格,它能顯示記錄的GenBank簡單文件表格(圖14.16)。這個閱讀器有各種菜單項,能將記錄保存到文件中,使記錄有效,以及加入新的特征和描述器??赡茏詈笫O碌囊徊绞请p擊mRNA,出現(xiàn)一個編輯框,點擊”Location folder tab”, 用位置電子數(shù)據(jù)表擴展5和3端,更新記錄中所有的閱讀器。圖象視圖(圖14.17)可以進行CDS和mRNA間隔的圖象比較,確定在這些域中基因特征是一個單獨的間隔區(qū)。序列視圖(圖14.18)顯示了特征范圍和CDS特征在實際序列中的翻譯。選擇準(zhǔn)備提交按鈕,運行有效器,保存文件,并顯示提交到GenBank, EMBL或

52、DDBL的電子郵件地址(在打開的窗口中選擇一個地址)。圖14.16圖 14.16 在GenBank格式中缺省的序列記錄觀察器。在這個例子中,已按下了序列的CDS特征,如該段旁邊的條所示。在段落上雙擊將開啟特征、描述器或選測序列的編輯器。該觀察器可被復(fù)制。并且同一個記錄可以不同格式在多個觀察器中打開。圖14.17圖14.17 Sequin的圖表格式顯示了片段序列結(jié)果和特征間隔。這可以和實驗室記錄本相比較,大概看一下,特征是否注解在正確的位置上??梢允褂貌煌娘L(fēng)格,和建立了新的風(fēng)格來定制圖形窗口的外觀表現(xiàn)。圖片可以拷貝到個人計算機的剪貼板,以備引入字處理軟件和畫圖程序中去。圖14.18圖14.18

53、 序列視圖顯示了Sequin的序列編輯器。它顯示了在序列上的特征間隔。提交一個比對的序列集一個逐漸增長的提交項包括相關(guān)的序列類:種群、系統(tǒng)發(fā)生或變異。許多的HIV序列是用來作為種群研究的,通常系統(tǒng)發(fā)生的研究包括RUBISCO(1,5二磷酸核酮糖羧化酶),它是光合作用的主要酶,也許是地球上最普遍的蛋白質(zhì)(重量方面)。提交這樣一套序列并不比提交單個序列復(fù)雜多少,輸入作者和聯(lián)系人的信息具有相同的表格。在序列格式表格中,選擇所要提交的類型。種群研究一般來自于同種(交叉繁殖)物種的不同個體,系統(tǒng)發(fā)生是來自于不同的物種。對于前一種情況,最好下定義行加上品系、克隆、隔離或其余的一些種類識別的信息;對于后一種

54、情況,要用生物體的科學(xué)名稱。復(fù)雜序列的研究可以用FASTA形式,在這種情況下,Sequin后來應(yīng)該用于計算一個比對。更好的方法是在PHYLIP,NEXUS或FASTA+GAP形式中對數(shù)據(jù)編碼以表示比對信息。在序列格式表格中也可選擇這些數(shù)據(jù)形式。生物體和序列表格在序列種類上有一點不同,生物體頁面上對于系統(tǒng)發(fā)生的研究設(shè)置默認(rèn)的遺傳密碼,僅用于生物體,不能用于Sequin中種群的局部列表。核酸頁只在引入按鈕的名稱上有所不同,這反映了選用的實際格式(例如“引入FASTA”或“引入PHYLIP”)?,F(xiàn)在代替蛋白質(zhì)頁的是一個注解頁(圖14.19)。許多提交是屬于rRNA序列或只是一條完整的CDS。(這意味

55、著特征間隔跨越了每條序列的整個范圍。)注解頁允許建立和為以上這些命名。指定一個定義行(標(biāo)題),并且Sequin 可將單個的生物體名置于標(biāo)題前綴。在更加復(fù)雜的情況下,序列在整個橫跨區(qū)中有不止一個單獨的區(qū)間特征,可以在序列建立且其中的一條已作了注解后,通過特征拷貝來完成注解,這將在下文詳述。按下一張表(Next Form)出現(xiàn)編輯器,允許在每條序列上編輯所有的生物體和修改器。直到確認(rèn)修改,Sequin將記錄組織成正確的結(jié)構(gòu)。當(dāng)查看器出現(xiàn)時,目標(biāo)控制被設(shè)置為該集的第一個元素。設(shè)置目標(biāo)為所有序列(ALL SEQUENCES)將產(chǎn)生一個所有序列的簡單文件視圖。然而圖形視圖在同一時間只能顯示一條序列上的特

56、征。并且序列視圖將在單獨的堿基水平上比較序列。圖14.19圖14.19 對于種群、系統(tǒng)發(fā)生或變異研究,注解頁替代了蛋白質(zhì)頁,最一般的提交是一條CDS或多個來源的rRNA。當(dāng)所有的CDS或間隔擴展到這個序列時,Sequin可以自動生成這些特征的注解。輸入對于CDS特征或RNA名或rRNA特征的蛋白質(zhì)產(chǎn)物的名稱,基因符號,關(guān)于每個CDS或rRNA特征的注解,以及每條序列的標(biāo)題。在每條記錄標(biāo)題的前面可以加上生物體的名稱。這將為每條記錄制作正確的定義行。通過特征傳播進行注解假定提交幾種乙醇脫氫酶基因組區(qū)域,同時傳送一個比對,表明了提交者對于它們之間的關(guān)系的判斷。序列包括5和3未翻譯的區(qū)域以及乙醇脫氫酶

57、外顯子和內(nèi)含子。假設(shè)由第一個核苷酸編碼的蛋白質(zhì)序列也是可獲得的,下面使用特征傳播來注解研究中的所有序列。首先,定位第一條序列。然后從編碼區(qū)和注解菜單的副本子菜單選擇CdRgn。進入產(chǎn)物子頁(在編碼區(qū)頁中);并且輸入蛋白序列文件(在文件菜單中引入蛋白質(zhì)FASTA)。如果在定義行上蛋白質(zhì)和基因名沒有被注解,那么在蛋白質(zhì)子頁和屬性子頁的一般頁中分別輸入其注解。引入序列自動運行建議間隔,因此現(xiàn)在位置頁在第一個核苷酸上應(yīng)該有三個間隔,并且BioSource應(yīng)該已設(shè)置了那個核苷酸上的遺傳密碼。按下接受(Accept)完成特征的添加。定位所有的序列(ALL SEQUENCES),從編輯菜單選擇編輯比對打開比

58、對編輯器,并從特征菜單選擇傳播。在第一個框中選擇CDS特征。最后,按下傳播按鈕(要看記錄結(jié)構(gòu)的變化過程,在這幾步中將NCBI桌面打開。)使用Sequin作為工作臺NCBI桌面(圖14.20)允許在一個記錄中拖放項目。在一個記錄中點擊向上的箭頭將擴展顯示的細(xì)節(jié)的層次。如果你從一個記錄拖動其某個特征到桌面,它將被從記錄中除掉。但它保留在桌面上。它也可拖回記錄中去,并可能到另一個不同的地方。(特征可以被拖到bioseqs,Bioseqs集,或存在的特征表,然而這并不改變特征位置。對于描述器來說卻有所不同,改變打包的層次將改變描述器應(yīng)用的范圍。并且在桌面上的一個獨立的Seq-loc能被拖動到特征上,在此情況下,它確實改變了特征的位置。)圖14.20圖14.20 NCBI桌面用圖形的方式顯示了基于NCBI數(shù)據(jù)模型,記錄在內(nèi)存里的結(jié)構(gòu)。這對于生物學(xué)家來說用處不大,但對于軟件開發(fā)人員和數(shù)據(jù)庫序列注解者甚為有用。在本例中,提交包括了一個單獨的Nuc-prot集,該集順序包括了一個核苷酸鏈和兩條蛋白質(zhì)鏈。每條序列都有特征聯(lián)系在一起。Bi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論