NCBI簡介教學(xué)提綱_第1頁
NCBI簡介教學(xué)提綱_第2頁
NCBI簡介教學(xué)提綱_第3頁
NCBI簡介教學(xué)提綱_第4頁
NCBI簡介教學(xué)提綱_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Good is good, but better carries it.精益求精,善益求善。NCBI簡介-第1頁:問題1:如何找到一個(gè)感興趣的基因并確定其結(jié)構(gòu)?編者:人類基因組計(jì)劃將于2003年完成,人類基因組數(shù)據(jù)庫成為人類的巨大財(cái)富。它對所有公眾開放,每個(gè)人都有權(quán)免費(fèi)使用這些強(qiáng)大的資源,從而成為生物醫(yī)學(xué)研究者必不可少的工具。但是,面對日益增長的浩瀚的數(shù)據(jù)海洋,怎樣有效地利用它而不至于迷失其中,是一個(gè)嚴(yán)峻的問題。據(jù)wellcomeTrust去年的一項(xiàng)調(diào)查,使用序列數(shù)據(jù)庫的研究人員中,只有一半的人能夠完全熟悉基因組數(shù)據(jù)庫提供的服務(wù)。針對這種情況,今年9月份,Naturegenetics特別出了一

2、本“人類基因組用戶指南”,以提問的形式詳細(xì)講解了人類基因組數(shù)據(jù)庫的結(jié)構(gòu)和使用方法,帶領(lǐng)我們一步步深入其中,獲取有用的信息。它是我們開啟人類基因組數(shù)據(jù)寶庫的一把金鑰匙。我們將節(jié)選一些內(nèi)容介紹給讀者,希望對大家有所幫助。讀者也可以上Nature雜志網(wǎng)站()看原文,這本用戶指南的電子版是免費(fèi)的。問題1:如何找到一個(gè)感興趣的基因并確定其結(jié)構(gòu)?一旦基因在圖譜上被定位,又如何方便地檢測到同一區(qū)域的其它基因?可借此問題介紹3個(gè)主要的基因組瀏覽器。將利用所有3個(gè)站點(diǎn)對基因ADAM2進(jìn)行檢測,使讀者能對每個(gè)站點(diǎn)提供的信息之間的細(xì)微的區(qū)別有一個(gè)正確的認(rèn)識。1.國立生物技術(shù)信息中心(NCBI)圖譜瀏覽器(MapVi

3、ewer)可以通過NCBI主頁進(jìn)入NCBI的人類圖譜瀏覽器,網(wǎng)址為/。點(diǎn)擊右欄標(biāo)有“Humanmapviewer”的超級鏈接即可進(jìn)入圖譜瀏覽器的主頁。頁面上端的符號標(biāo)明此為Build29,或NCBI人類基因組的第29次數(shù)據(jù)裝配。Build29是以2002年4月5日的序列數(shù)據(jù)為基礎(chǔ)而建立的。在它之前的基因組裝配稱為Build28,以2001年12月24日的序列數(shù)據(jù)為基礎(chǔ)而建立。想要尋找圖譜上的任何信息,比如基因符號、基因庫的登錄號、標(biāo)記物名稱或疾病名稱,只需在“Searchfor”窗口輸入相應(yīng)的術(shù)語名,然后點(diǎn)擊“Find”即可。例如,輸入“ADAM2”然后點(diǎn)“Find”。而染色體欄“onchro

4、mosome(s)”的窗口會空出以進(jìn)行基于文本的查找。結(jié)果,瀏覽器的頁面顯示了所有人類染色體的示意圖,并用指針指出ADAM2在第8號染色體短臂上的位置。搜尋結(jié)果表明基因存在于兩種NCBI圖譜上,Genes_cyto和Genes_seq。Genes_cyto指細(xì)胞遺傳學(xué)圖譜,而Genes_seq指序列圖譜,點(diǎn)擊任易一種鏈接將打開相應(yīng)的圖譜。這方面及其它NCBI圖譜的詳細(xì)介紹可通過/PMGifs/Genomes/humansearch.html.進(jìn)行查找。若需要了解關(guān)于ADAM2更多的情況包括所有可利用的圖譜,點(diǎn)擊“Mapelement”內(nèi)相應(yīng)的選項(xiàng)(本例為ADAM2),將會顯示ADAM2及少數(shù)8

5、p11.2上的相鄰序列。三種圖譜都將在本視圖顯示并將在下面進(jìn)行詳細(xì)說明,其它例子所用的圖譜可通過Maps&Options附加到本視圖。最右邊的圖譜為主要圖譜,此圖譜提供了最詳細(xì)的資料。本例中的主要圖譜即為Genes_seq(基因序列)圖譜,描述了ADAM2的內(nèi)含子/外顯子組成,是通過ADAM2mRNA在基因組上的序列對齊比較(alignment)而建立的。此基因有14個(gè)外顯子。在ADAM2基因符號旁的箭頭(粉紅色區(qū)域內(nèi))顯示了基因轉(zhuǎn)錄的方向?;蚍柋旧砼cLocusLink相鏈接,這是一類NCBI資源,可提供有關(guān)此基因的大量信息,包括別名、核苷酸及蛋白質(zhì)序列,并與其它資源相鏈接(見問題10)。

6、基因符號右側(cè)的鏈接指向了有關(guān)此基因的附加信息。sv,或稱序列瀏覽,表明基因在基因組克隆重疊群(contig)上的位置,包括核酸和編碼的蛋白質(zhì)序列。ev給使用者提供證據(jù)瀏覽,顯示了支持某特定基因模型的生物學(xué)證據(jù)。這個(gè)視圖顯示所有的標(biāo)準(zhǔn)序列模型(RefSeq)、基因庫mRNAs(GenBankmRNAs)、轉(zhuǎn)錄子(無論注解的、已知的或潛在的)及與基因組contig進(jìn)行序列對齊比較的表達(dá)序列標(biāo)簽(ESTs)。證據(jù)瀏覽更多的信息可通過點(diǎn)擊任意證據(jù)瀏覽頁上的EvidenceViewerHelp鏈接進(jìn)入NCBI網(wǎng)頁查詢。hm為NCBI的人-小鼠同源圖譜的鏈接,顯示人類和小鼠之間同源的基因組序列。seq允許

7、使用者以文本格式重新獲取某一區(qū)域的基因組序列,序列顯示的區(qū)域可很容易地進(jìn)行替換。mm為ModelMaker的鏈接,顯示當(dāng)GenBankmRNAs、ESTs及基因預(yù)測與基因組序列對齊比較時(shí)的外顯子。隨后使用者即可選擇特定的外顯子創(chuàng)建一個(gè)用戶化的基因模式。有關(guān)ModelMaker的更多的信息可通過點(diǎn)擊任一mm頁上的“help”欄進(jìn)入NCBI主頁獲得。UniG_Hs圖譜顯示已經(jīng)與基因組進(jìn)行序列對齊比較的人類UniGene簇?;疑闹鶢顖D描述了比對的ESTs的數(shù)目,而藍(lán)色線條顯示了UniGene簇在基因組中的定位。深藍(lán)色線是進(jìn)行序列對齊比較的區(qū)域(即外顯子),淺藍(lán)色劃線則表示潛在的內(nèi)含子。在此例中Un

8、iGene簇Hs.177959在基因組中的定位跟隨著ADAM2和所有的外顯子。Genes_cyto圖譜顯示了基因在細(xì)胞遺傳學(xué)圖譜中的位置,橙色條帶顯示基因位置。盡管ADAM2已被很好地定位,并以一條短線表現(xiàn)出來,其它的基因比如它后面一條長線上成組的基因也被按照細(xì)胞遺傳學(xué)定位于第8號染色體上較寬的區(qū)域。點(diǎn)擊藍(lán)色工具條上的縮放控制區(qū)可進(jìn)行縮小,利于使用者觀察第8號染色體較大的區(qū)域??s小一個(gè)水平可顯示1/100的染色體區(qū)域,在此區(qū)域共有20條基因,20條基因均可被顯示。ADAM2基因在所有圖譜上的區(qū)域均以紅色突出。在Genes_seq圖譜上ADAM2定位于ADAM18及LOC206849之間。2.U

9、CSC(UniversityofCalifornia,SantaCruz)基因組瀏覽器UCSC基因組瀏覽器的主頁為/。目前,UCSC不僅提供最新版的小鼠和人類基因組數(shù)據(jù),同時(shí)也提供許多較早的匯編。使用基因組瀏覽器時(shí),先在窗口上方藍(lán)色工具條的下拉式菜單中選擇相應(yīng)的生物體(本例為Human),然后點(diǎn)擊標(biāo)有Browser的鏈接。在結(jié)果頁,選擇相應(yīng)的人類數(shù)據(jù)匯編版本進(jìn)行閱讀。2001年8月的基因組瀏覽器建立于UCSC使用在當(dāng)時(shí)所能獲得的序列數(shù)據(jù)建立的人類基因組匯編。2001年12月的瀏覽器顯示了對NCBI的人類基因組build28的注解。而2002年4月的瀏覽器顯示了對NCBI的build29的注解。

10、因?yàn)樽罱倪@個(gè)人類資料匯編的注解不及2001年12月的匯編全面,所以本文所列舉的例子來自較早的匯編。在下拉式菜單中選擇“Dec.2001”從數(shù)據(jù)庫獲得匯編資料。查詢所支持的類型列于文本輸入框下面。在標(biāo)有“position”處輸入“ADAM2”然后點(diǎn)擊“Submit”項(xiàng)。查找的結(jié)果以兩種類別顯示,分別為“KnownGenes”和“mRNAAssociatedSearchResults”。標(biāo)有“KnownGenes”的部分顯示了將NCBI的參考mRNA序列定位到基因組中?!癿RNAAssociatedSearchResults”則代表了GenBank的其它mRNA序列定位到基因組中。點(diǎn)擊“Know

11、nGenes”與ADAM2的鏈接可見ADAM2mRNA參考序列在基因組的狀況(NM_001464)。放大視圖顯示第8號染色體基因組序列從36234934到36280132堿基的區(qū)域,位于8p12。標(biāo)記為KnownGenes(來自RefSeq)的藍(lán)色路徑顯示已知基因的內(nèi)含子和外顯子結(jié)構(gòu)。垂直框表示外顯子而水平線則為內(nèi)含子。ADAM2基因似乎具有14個(gè)外顯子,轉(zhuǎn)錄的方向由內(nèi)含子上的箭頭示意。標(biāo)記有AcemblyGenePredictions,EnsemblGenePredictions和Fgenesh+GenePredictions的路徑為基因預(yù)測的結(jié)果(見問題7)。其它數(shù)據(jù)庫核酸序列的對齊比較顯

12、示在GenBank的HumanmRNAs、splicedEST、UniGene和來自于GenBank路徑中的NonhumanmRNAs。小鼠和Tetraodon基因序列翻譯后的序列對齊比較在小鼠和魚BLAT路徑內(nèi)。顯示單核苷酸多態(tài)性(SNPs)、重復(fù)元件及微陣排列數(shù)據(jù)的路徑列于頁面底部。關(guān)于每個(gè)路徑附加的細(xì)節(jié)可通過選擇位于底部的TrackControls中的路徑名獲得。查看ADAM2前后基因序列,點(diǎn)擊位于右上角的“zoomout”框進(jìn)行縮小,ADAM2位于TEM5和ADAM18之間。3.Ensembl網(wǎng)站Ensembl項(xiàng)目網(wǎng)站(/)為四個(gè)物種:人類、小鼠、斑馬魚(zebrafish)和蚊子提供

13、基因組瀏覽器。點(diǎn)擊“Human”以查看人類基因組的主要條目。目前人類Ensembl的版本為6.28.1,是以NCBI基因組Build28為基礎(chǔ)而建立的。欲進(jìn)行搜索可在文本框中輸入“ADAM2”并通過在下拉式菜單中選擇“Gene”以限定搜索范圍,點(diǎn)擊上方標(biāo)有“Lookup”的按鈕,點(diǎn)擊與ADAM2基因的鏈接可返回單獨(dú)的結(jié)果。點(diǎn)擊與ADAM2的鏈接可重新回到GeneView窗口,此頁包含四個(gè)部分的數(shù)據(jù),第一部份為ADAM2的概貌,包括基因登錄號,蛋白質(zhì)結(jié)構(gòu)域和家族的相關(guān)鏈接。鏈接Ensembl查看高度同源的小鼠序列可在“HomologyMatches”部分獲得,以后的例子會在這方面作出更詳細(xì)的介紹

14、。GeneView窗的第二部份,提供有關(guān)基因轉(zhuǎn)錄子的信息,cDNA序列被列出,其內(nèi)含子和外顯子結(jié)構(gòu)以圖表表示,同時(shí)在此基因前后位置附近有限數(shù)量的基因也以圖表形式表示出來。外顯子序列在GeneView中的第三部份顯示,剪接位點(diǎn)顯示于第四部份。如果預(yù)計(jì)基因具有不止一個(gè)轉(zhuǎn)錄子,則每個(gè)轉(zhuǎn)錄子擁有各自的轉(zhuǎn)錄產(chǎn)物、外顯子和剪接位點(diǎn)部分。ADAM2完整的前后基因組序列內(nèi)容可通過返回GeneView的第一部份和點(diǎn)擊“GenomicLocation”框中的鏈接來查看。所出現(xiàn)的ContigView框的頂端部分描述了染色體,其中最為關(guān)鍵的部分以紅色標(biāo)示。此瀏覽顯示了此基因的基因組前后序列,包括染色體條帶、conti

15、gs、標(biāo)志和在圖上靠近8p12的基因。點(diǎn)擊任意這些項(xiàng)目可顯示相關(guān)內(nèi)容,感興趣的部分在DNA圖譜上以紅色標(biāo)記。由Ensembl注釋的ADAM2附近的基因?yàn)镼96KB2和ADAM18。ContigView頁的底部即DetailedView,是一個(gè)放大了的區(qū)域,標(biāo)示出已經(jīng)定位于此區(qū)域的人類基因組所有特征。Overview和DetailedView之間的瀏覽器按鈕將視圖從左至右移動以及放大和縮小。所顯示的內(nèi)容可通過選擇“Features”的下拉式菜單進(jìn)行移動以選取需要查看的內(nèi)容。所顯示的內(nèi)容為默認(rèn)值,DNA(contigs)圖譜將正鏈(上方)上的條目從反鏈(下方)分開,此處反鏈的唯一特征為GENSCA

16、N基因預(yù)測程序提出(見問題7)的單一的Genscan轉(zhuǎn)錄子。正鏈表現(xiàn)出了5種特征。從底部開始,ADAM2轉(zhuǎn)錄子顯示為紅色,提示其為一個(gè)已知的轉(zhuǎn)錄子,對應(yīng)于接近全長的cDNA序列、蛋白質(zhì)序列或在公共數(shù)據(jù)庫中兩者均可得到的轉(zhuǎn)錄子。黑色轉(zhuǎn)錄子通過EST或蛋白質(zhì)序列的類似性預(yù)測?!癊STTranscr”鏈接于獨(dú)立的ESTs序列對齊比較,而靠近頂端的UniGene路徑顯示了UniGene簇。正鏈上的Genscan模式包含了在已知的轉(zhuǎn)錄子中發(fā)現(xiàn)的外顯子?!癙roteinsandHumanproteins”框指出與本版本的基因組進(jìn)行序列對齊比較的蛋白質(zhì)序列。而“NCBITranscr”鏈接于NCBIMapV

17、iewer。將計(jì)算機(jī)鼠標(biāo)放置于任一特征位置則可顯示此特征名稱,并可鏈接到更為詳細(xì)的信息。NCBI、UCSC及Ensembl有時(shí)對同一基因使用不同的符號,所以通過不同的瀏覽器獲得的信息難以進(jìn)行比較,此外,這3個(gè)站點(diǎn)保留了獨(dú)立的注解途徑,并且都未嘗試將相同的mRNA序列排列到基因組中。NCBI目前顯示build29,Ensembl顯示build28,而UCSC則提供build28(2001.12.)和build29(2002.04.)。盡管在本指南中所有UCSC的例子都將推薦使用注解較好的build28。因?yàn)閮煞N匯編數(shù)據(jù)之間存在的差異,在NCBI、UCSC及Ensembl中顯示的數(shù)據(jù)就存在極小的差

18、別,但在這3個(gè)站點(diǎn)中自由地穿梭仍然是很容易的。例如NCBI可通過LocusLink人類基因入口上方的黑色框鏈接UCSC和Ensembl,而Ensembl指導(dǎo)NCBI和UCSC使用者通過“Jumpto”鏈接于它的“ContigView”。UCSC基因組瀏覽器的一些版本有與Ensembl和NCBI的MapViewer的鏈接,鏈接點(diǎn)位于瀏覽頁頂部的藍(lán)框內(nèi)。問題2:如何在DNA序列中找到序列標(biāo)簽位點(diǎn)(ESTs)?NCBI的“electronicPCR(e-PCR)”工具是UniSTS資源庫的一部分,可以用來尋找一段目的DNA片段中的STS標(biāo)記物。UniSTS(/genome/sts/)能提供所有有關(guān)S

19、TS標(biāo)記物的資料,包括引物序列、產(chǎn)物大小、作圖信息和別名。與之相鏈接的其他NCBI資源如Entrez、LocusLink和MapViewer也同樣提供這些信息。e-PCR通過搜尋具有正確的方向和間距的序列且這個(gè)序列能代表用于擴(kuò)增STSs的PCR引物,來尋找一段DNA序列中潛在的STSs。先在NCBI主頁上(/)找到e-PCR的主頁,然后在右手欄點(diǎn)擊“ElectronicPCR”鏈接。再在e-PCR主頁的上端大的文本框內(nèi)粘貼上目的基因序列或鍵入登陸號(accessionnumber)。例如某個(gè)序列的登錄號是AF288398,結(jié)果顯示該序列只包含一個(gè)STS:stSG47693(或RH92759),

20、位于此序列的2102和2232核苷之間。當(dāng)點(diǎn)擊“Marker”下標(biāo)記物的名稱時(shí),從UniSTS中出現(xiàn)STS的詳細(xì)資料。引物的信息、PCR產(chǎn)物大小以及標(biāo)記物的替代名稱也出現(xiàn)在主頁的上端。在不同的圖譜中,STSs常有不同的名稱。在“Cross-references”欄目下的LocusLink、UniGene和theGenebridge4中,將顯示這個(gè)STS的定位圖。在“mappinginformation”部分包含能鏈接到NCBI的“MapViewer”瀏覽器。在主頁的下端是“ElectronicPCRresults”,顯示了其他序列,包括contigs(重疊群)、mRNAs和包含這個(gè)STS標(biāo)記物

21、的ESTs。為了在所有圖譜中看到STS標(biāo)記物及其基因組的狀況,則在“MappingInformation”部分的上端點(diǎn)擊鏈接標(biāo)志“MapViewer”,這個(gè)圖譜瀏覽器會出現(xiàn)兩張圖譜。請注意,在這個(gè)視窗里,STSstSG47693被稱為RH92759(用粉紅色強(qiáng)調(diào))。99Genebridge4(GM99_GB4,位于左邊)基因圖譜上有46000個(gè)STS標(biāo)記被國際放射雜交協(xié)會定位到GB4雜交面板上。STS圖譜(位于右邊)顯示了如何使用e-PCR將STSs序列放置到基因組序列組裝?;疑€將兩個(gè)圖譜的標(biāo)記物連接起來,而紅色線條顯示STSRH92759在兩張圖譜中的位置。在這個(gè)區(qū)域,STS圖譜中共有21

22、1個(gè)STSs,但在這個(gè)視窗里只標(biāo)記了20個(gè)。在STS圖譜的右邊,點(diǎn)擊綠色和黃色圓圈會出現(xiàn)STS標(biāo)記物的圖譜。通過左邊工具條的縮放工具,可以放大或縮小這個(gè)視窗。問題3:定位克隆計(jì)劃是為了尋找人類疾病基因,已有的連鎖分析資料顯示目的基因位于兩個(gè)序列標(biāo)簽位點(diǎn)之間,如何識別該區(qū)域已知的或預(yù)測的侯選基因?哪些BAC克隆含有這些特殊區(qū)域?開始這項(xiàng)研究首先必須瀏覽UCSCGenomeBrowse網(wǎng)頁(/)。然后在該網(wǎng)頁邊緣藍(lán)色下拉菜單從Organism中選擇Human這個(gè)詞。點(diǎn)擊Browser,在theHumanGenomeBrowserGateway網(wǎng)頁上,改變assembly成Dec.2001。要搜尋哪

23、兩個(gè)序列標(biāo)簽之間的基因,就在searchbox中輸入這兩個(gè)序列標(biāo)簽,用分號分開。例如,搜尋序列標(biāo)簽D10S1676和D10S1675之間的基因,在thesearchbox中輸入D10S1676;D10S1675,然后點(diǎn)擊Submit。因?yàn)檫@些標(biāo)記定位在基因組中專一的位置,所以這些標(biāo)記之間的基因很快會出現(xiàn)。STSMarker路徑(track)上藍(lán)色的道表示遺傳圖譜標(biāo)記,黑色的道表示放射雜交圖譜標(biāo)記。點(diǎn)擊STSMarkers,就會展開這個(gè)路徑,列出每一個(gè)獨(dú)立標(biāo)記。目的標(biāo)記D10S1676和D10S1675在這里使用它們的替代名稱(分別為AFMA232YH9和AFMA230VA9),并分別位于這個(gè)區(qū)

24、間的頂部和底部。在KnownGenes路徑內(nèi)顯示和列出所有已知的基因名單。這些編碼蛋白質(zhì)的基因來源于NCBI匯編的RefSeqmRNA序列并使用BLAT程序與基因組裝配進(jìn)行系列對齊比較。在該網(wǎng)頁搜尋基因名單或其它特征可點(diǎn)擊頂端的藍(lán)色條上的Tablesl鏈接。關(guān)于特殊基因比如(MGMT)的更多的信息,點(diǎn)擊這個(gè)基因的符號就會得到一系列額外的鏈接,如在線人類孟德爾遺傳規(guī)律,PubMed、GeneCards和小鼠基因組信息(MGI)。許多路徑包括AcemblyGenes、EnsemblGenes和Fgenesh+Genes可以顯示預(yù)測的基因(參見問題7)。如果想看上述任何種類的全部特征,點(diǎn)擊屏幕左邊該

25、路徑的標(biāo)題。欲觀察這些路徑的簡要描述以及其它沒有提及的特征,點(diǎn)擊該路徑左邊灰色的方框或向下滾動到TrackControls,再點(diǎn)擊你所感興趣的標(biāo)題?;蝾A(yù)測程序?qū)⒃趩栴}7中說明。通過點(diǎn)擊resetall按鈕使瀏覽器默認(rèn)選擇。想要觀察用于測序的BAC克隆,回到Genomebrowser頁面,點(diǎn)擊屏幕左邊的Coverage展開該路徑。在這里分別列出了各個(gè)BAC克隆,完成的區(qū)域用黑色表示,草圖區(qū)域以不同形狀的灰色陰影表示。想要獲得更詳細(xì)的信息如大小和特異克隆覆蓋的序列則點(diǎn)擊克隆號如AL355529.21。在這個(gè)網(wǎng)頁點(diǎn)擊該克隆的登錄號鏈接到NCBIEntrez,有關(guān)于這個(gè)克隆的摘要說明。在Entrez

26、文擋摘要網(wǎng)頁點(diǎn)擊AL355529可以觀察到全部GenBank的條目。根據(jù)NCBI的命名協(xié)定,該克隆來自RP11文庫,并已經(jīng)被命名為85C15。RP11是NCBI為RPCI-11指定的名稱,由RoswellParkCancerInstitute制備,是常用的人類BAC文庫。有關(guān)基因組序列文庫命名協(xié)定的更多的信息可以在NCBI的CloneRegistry查閱/genome/clone/nomenclature.shtml。還可以在/genome/clone/ordering.html網(wǎng)頁上獲得訂購克隆的信息。NCBI網(wǎng)站只要兩個(gè)標(biāo)記位于主圖譜上,就可以在NCBIMapViewer上直接觀察兩個(gè)標(biāo)記

27、之間的區(qū)域。例如,主圖譜是細(xì)胞遺傳圖,可以搜尋22號染色體上22q12.1和22q13.2之間的區(qū)域;如果主圖譜是Gene_Seq,可以找到兩個(gè)基因之間的區(qū)域。打開/網(wǎng)頁,點(diǎn)擊網(wǎng)頁右邊的Humanmapviewer,可以進(jìn)入theMapViewer網(wǎng)頁。若要觀察同一個(gè)染色體上多個(gè)位點(diǎn),在searchbox中輸入的搜尋條件應(yīng)該用“OR”分開。例如看兩個(gè)序列標(biāo)簽D10S1676和D10S1675之間的區(qū)域,在searchbox中輸入D10S1676ORD10S1675,然后單擊FIND。搜尋結(jié)果頁面頂端顯示染色體圖上有兩個(gè)紅色的記號,表明這兩個(gè)標(biāo)記在10號染色體是緊密靠近的。在搜尋結(jié)果網(wǎng)頁底部,顯

28、示兩個(gè)標(biāo)記的別名(AFMA232YH9和AFMA230VA9)以及在圖譜上的位置。想要同時(shí)觀察兩個(gè)標(biāo)記,在染色體圖表中點(diǎn)擊chromosome10,顯示D10S1676和D10S1675周圍區(qū)域,用粉紅色突出原來的搜尋。紅線將兩個(gè)標(biāo)記在不同圖譜中的位置連接起來。Maps&Options鏈接位于該網(wǎng)頁頂端的水平藍(lán)色區(qū),該鏈接可以讓用戶按照自己的要求制定顯示的圖譜和區(qū)域。例如,觀察該區(qū)域已知的和預(yù)測的基因,還有作為測序來源的BAC克隆。打開Maps&Options窗口,首先在MapsDisplayed框中刪除除了Gene和STS外的其它所有圖譜。方法是用鼠標(biāo)加亮選中的圖譜并選擇remove。然后在

29、AvailableMaps框中選擇并添加Transcript(RNA)、GenomeScan、Component和Contig圖,再選擇“ADD”。用鼠標(biāo)加亮STS圖使它成為支配的圖譜,然后選擇MakeMaster/MovetoBottom。在RegionShown框中輸入這兩個(gè)標(biāo)記名稱,就可以使圖中只顯示D10S1676和D10S1675之間的STSs。點(diǎn)擊Apply可看到排列圖,在某種情況下,選擇的網(wǎng)頁大小比默認(rèn)值大20可以在窗口中瀏覽到更多的信息。在Maps&Options窗口顯示的圖譜很詳細(xì)。STS右邊的綠點(diǎn)顯示了遺傳標(biāo)記在所有圖譜的位置。這是10號染色體上相當(dāng)長的區(qū)域,并不是每一個(gè)S

30、TS標(biāo)記都列出來,盡管在該區(qū)域有611個(gè)STSs,但該頁只顯示20個(gè)。對每一個(gè)已知基因,基因序列圖譜(Genes_Seqmap)顯示所有已經(jīng)被繪制到基因組中的外顯子。除非基因有不同的剪切形式,對于每個(gè)已知mRNAs的基因,其外顯子也在RNA圖(轉(zhuǎn)錄圖)上顯示,在Genes_Seq和RNA圖譜上將是一樣的。GScan(GenomeScan)圖顯示NCBI的基因預(yù)測,所有這些已知或預(yù)測的基因都是疾病侯選基因。NCBI組裝的重疊群(contigs)也叫作NTcontigs,可以在Contig圖譜中尋找。藍(lán)色的片段來自已完成的序列,橙色來源于草圖。這些contigs通過獨(dú)特的、在構(gòu)成圖Comp(Com

31、ponent)map中顯示的GenBank序列條目構(gòu)建而成。草圖HTG記錄(1期和2期,見/HTGS/)表現(xiàn)橙色而完成的HTG為藍(lán)色。大部分GenBank序列來源于BAC克隆。裝配成contigs的BAC克隆清晰可見。只要點(diǎn)擊登錄號與Entrez鏈接,你可以得到該條目更為詳細(xì)的信息,包括克隆名。如果Comp圖是支配圖譜,那么克隆名可以直接在MapViewer看到。點(diǎn)擊圖譜名稱附近的藍(lán)色箭頭可很快生成主圖譜。因?yàn)槭侨旧w放大圖,所以單個(gè)基因和GenBank條目很難看到。利用藍(lán)色工具條控制可提供某區(qū)域更多的細(xì)節(jié)。另外,點(diǎn)擊左邊工具條DataAsTableView可找到全部的資料,包括隱藏在這個(gè)窗口

32、中的一個(gè)基于文本的表格。SIDEBAR網(wǎng)站你也可以應(yīng)用Ensembl的MapView搜尋兩個(gè)STS標(biāo)記之間的區(qū)域。打開EnsemblHumanGenomeBrowser(/Homo_sapiens/),點(diǎn)擊任一染色體組型進(jìn)入MapView,在JumptoContigview中鍵入遺傳標(biāo)記名稱。如想利用Ensembl得到指定的染色體區(qū)域的基因目錄(或其它注釋),在ContigView窗口點(diǎn)擊ExportGeneList。b問題4:使用者希望找到兩個(gè)序列標(biāo)簽位點(diǎn)(STSs)之間所有單核苷酸的多態(tài)性。任何單核苷酸多態(tài)性都處于基因的編碼區(qū)域嗎?在哪里可以找到有關(guān)這些基因的其它功能的信息?b搜尋從NCB

33、I單核苷酸多態(tài)性數(shù)據(jù)庫(dbSNP)的網(wǎng)址(/SNP)開始進(jìn)行。在這一頁面上有一系列的連接可供使用,用戶可以用數(shù)據(jù)庫自身的信息,也可以使用關(guān)于基因或基因座的信息進(jìn)行搜索。對于這項(xiàng)搜索,假定所關(guān)心的區(qū)域是已知的而且限定在兩個(gè)STS標(biāo)記RH70674和G32133之間。滾動到頁面底部標(biāo)有“BetweenMarkers”的部分。在兩個(gè)文本框中鍵入STS標(biāo)記物的名稱“RH70674”和“G32133”,然后點(diǎn)擊“SubmitSTSMarkers”。這將會顯示所關(guān)心區(qū)域內(nèi)總共81個(gè)SNP中的125個(gè)。在頁碼框中鍵入“3”然后點(diǎn)擊“Display”進(jìn)入第3頁。搜尋結(jié)果顯示的頁面說明了在典型的dbSNP頁面

34、上所能找到的大多數(shù)頁面類型。在該表格中,從左邊開始,第一欄給出了各個(gè)dbSNP簇的標(biāo)識符(全部以“rs”開始)。第二欄,用Map標(biāo)識,顯示出某一特定的SNP是否已經(jīng)被定位到基因組中的唯一位點(diǎn)(通過一個(gè)綠色箭頭顯示,就像第一行的例子)還是多位點(diǎn)(這里沒有顯示)。之后的幾欄,標(biāo)識為Gene,指出這些SNP是否與一些詳細(xì)的特征相關(guān),例如基因、mRNA或者編碼區(qū)。這3欄(L、T和C)中每一行,或者以亮度顯示或者以灰色顯示,整齊排列。如果L(locus)顯示藍(lán)色,則標(biāo)記物的一部分或者全部位置位于基因5端的2kb內(nèi)或者在基因的3端500bp內(nèi)。如果T(Transcript)顯示綠色,部分或者所有標(biāo)記物的位

35、置與一個(gè)已知的mRNA重疊。然而這并不意味著SNP標(biāo)記物一定落在編碼區(qū)內(nèi)。如果C(Codon)顯示橙色,部分或者所有的標(biāo)記物的位置與一個(gè)編碼區(qū)重疊。下一欄,標(biāo)識為Het,顯示觀察到的標(biāo)記物的平均雜合度,范圍是0100%。當(dāng)讀數(shù)是0時(shí)意味著該特異性標(biāo)記物沒有任何信息,然而粉紅條帶顯示標(biāo)記物的置信區(qū)間是95%。Validation欄顯示該標(biāo)記是否已經(jīng)確認(rèn)(用星號表示)或者尚未確認(rèn)(用淺藍(lán)色盒表示)。確認(rèn)的標(biāo)記已經(jīng)通過獨(dú)立的序列再分析來核實(shí)。所有尚未確認(rèn)的標(biāo)記以3個(gè)藍(lán)色框來表示,根據(jù)頂部欄的刻度,意味著該標(biāo)記得到確認(rèn)的幾率大于95%。這個(gè)圖形指出這個(gè)標(biāo)記物是真的概率(成功率被定義為1減去假陽性率)。

36、在倒數(shù)第二欄,符號TT表示特定的基因型中存在這個(gè)標(biāo)記。最后,LinkoutAvail欄表示哪一個(gè)標(biāo)記被連接到了其它的數(shù)據(jù)庫。這一欄中P表示這種變異已經(jīng)被定位到一個(gè)已知的蛋白質(zhì)結(jié)構(gòu)。如果要完全描述所有特征,只要點(diǎn)擊這一欄之上的標(biāo)題即可?;氐皆瓉淼膯栴}上,如橙色的C所顯示,在這一頁面中顯示的其中一個(gè)SNP確實(shí)落在編碼區(qū)。如果要得到有關(guān)任一特定SNP的更多信息,只要點(diǎn)擊超級鏈接SNP簇的身份標(biāo)識符即可。例如,點(diǎn)擊rs1059133,產(chǎn)生一個(gè)新的頁面,顯示出該SNP的所有信息。在標(biāo)有“SubmitterrecordsforthisRefSNPCluster”的標(biāo)題下面,是一張一個(gè)個(gè)SNP的列表(在本例

37、中只有一個(gè)SNP),是由單個(gè)SNP成簇集中在一起形成這種單一的參照SNP的。SNP的序列在下一個(gè)標(biāo)題中出現(xiàn)。在標(biāo)有“NCBIResourceLinks”的標(biāo)題下,是與這個(gè)SNP相關(guān)的GenBank(基因庫)和NCBIRefSeq(參考序列條目)。進(jìn)一步向下滾動到SNP頁面的底部,在“LocusLinkAnalysis”部分顯示了這個(gè)SNP所落在的編碼區(qū)的基因(ADAM2,disintegrin和金屬蛋白酶結(jié)構(gòu)域2)。SNP的等位基因是G/C,一個(gè)導(dǎo)致組氨酸殘基替代天冬氨酸殘基的非同義改變。這里也提供了其它的鏈接,如NCBIMapViewer、Ensemblmap和UCSC基因組裝配(標(biāo)有Int

38、egratedMaps的部分)。標(biāo)有VariationSummaryandValidationSummary的部分(沒有顯示)給出了這一特定SNP的原始資料。要回答這一問題的最后部分需要從dbSNP轉(zhuǎn)到LocusLink主頁。要達(dá)到這個(gè)目的,需要點(diǎn)擊該頁面LocusLink標(biāo)題下的ADAM2。這將帶領(lǐng)使用者到達(dá)ADAM2的LocusLink頁面,并且在頁面頂端提供大量到達(dá)NCBI和相關(guān)資源的點(diǎn)擊點(diǎn)。通過位于頁面左邊的位置連接處的FAQ連接可以找到更多的信息。通過簡單瀏覽LocusLink,使用者可以看到ADAM2屬于一個(gè)細(xì)胞膜錨錠蛋白質(zhì)的家族,該家族的蛋白與受精、肌肉發(fā)育和神經(jīng)發(fā)生等各種過程有

39、關(guān)。使用者經(jīng)常忽視的信息來源是OMIM。這是一個(gè)關(guān)于人類基因和遺傳性疾病目錄的電子版,由JohnsHopkins大學(xué)的VictorMcKusick制作。OMIM向使用者提供了來自已發(fā)表的大多數(shù)人類遺傳性疾病文獻(xiàn)的簡潔原文信息以及遺傳基礎(chǔ),并且可以鏈接到原文獻(xiàn)上。OMIM條目中包含的信息有基因符號、疾病的其它名稱、疾病的說明(包括臨床、生物化學(xué)和細(xì)胞遺傳學(xué)的特征)以及遺傳模式的詳細(xì)資料(包括遺傳圖譜信息)和臨床梗概的細(xì)節(jié)。這些條目是通過手工整理過的,以保證摘要是最新的并且是準(zhǔn)確的。盡管OMIM可以直接進(jìn)行搜索,然而許多LocusLink入口也連接到OMIM中記錄的基因。ADAM2蛋白的OMIM條

40、目頁面在圖中顯示。這個(gè)頁面可以超級鏈接到PubMed、GenBank和其它的相關(guān)數(shù)據(jù)庫。問題5:已知一段mRNA序列,怎樣在人類基因組圖譜中找到對應(yīng)的DNA片段?一旦它的位置確定,如何找到選擇性剪接位點(diǎn)位置?舉例說明如下。一個(gè)mRNA片段在基因庫的登錄號為BG334944。首先,登錄/Entrez/,在NCBI的Entrez界面找到這個(gè)EST的核苷酸序列。在頁面上部的對話框中鍵入登錄號BG334944,下拉菜單中選擇Nucleotide,點(diǎn)擊Go。結(jié)果頁面顯示有關(guān)登錄號BG334944的條目。為了在FASTA格式(一種生物學(xué)信息程序的常用格式)找到這個(gè)序列,在這個(gè)頁面上把下拉菜單變成FASTA

41、后點(diǎn)擊Text,產(chǎn)生一個(gè)包含F(xiàn)ASTA格式的序列的新頁面,然后將序列拷貝下來。為了確定這段序列在基因組中的位置,使用UCSC的BLAT工具。登錄/,將你的網(wǎng)頁瀏覽器指到UCSC基因組瀏覽器的主頁開始搜索。在頁面一側(cè)的藍(lán)色框里,從Organism下拉菜單中選擇Human,然后點(diǎn)擊Blat。然后將從上面Entrez得到的FASTA格式的序列粘貼到BLAT搜索頁面的大的文本框上。把Freeze下拉菜單變成Dec.2001,將QueryType下拉菜單變成DNA,然后點(diǎn)擊Submit。服務(wù)器將很快找出搜索結(jié)果:唯一與之匹配的是一段長為636bp的片段,位于9號染色體上,為正鏈。為了得到更加詳細(xì)的資料,

42、在頁面上條目的左邊點(diǎn)擊details鏈接,得到一個(gè)長的頁面,界面包含三個(gè)部分:mRNA序列(上部),基因組序列(中部)以及和基因組序列相對應(yīng)的mRNA序列對齊比較。在序列對齊比較(alignment)圖中,和cDNA及基因組序列匹配的堿基是用暗綠色的大寫字母標(biāo)記的。缺口用稍低的黑體字標(biāo)記。淡藍(lán)色稍高的堿基標(biāo)記的是缺口兩邊序列對齊比較區(qū)域的結(jié)合部分,常常是剪接位點(diǎn)。返回BLAT摘要頁面搜索,點(diǎn)擊browser。這將產(chǎn)生一個(gè)用圖解說明特異性的mRNA序列在對應(yīng)的基因組序列上的位置。標(biāo)記ChromosomeBand(染色體帶)的路徑提示mRNA位于9q34.11。詢問序列本身出現(xiàn)在標(biāo)記有YourSe

43、quencefromBLATSearch的直線上。頁面上顯示的序列是不連續(xù)的:相似的區(qū)域顯示為垂直線,缺口顯示為細(xì)的水平線,排列的方向由箭頭的方向表示。被查詢的EST的比對排列區(qū)域?qū)?yīng)于已知基因的外顯子立即顯示在線條的下面(KnownGenes,在這里是RAB9P40)。在UCSC的搜索框內(nèi)鍵入EST的名稱BG334944,將會產(chǎn)生一個(gè)與上述點(diǎn)擊browser相似的結(jié)果。這個(gè)例子的部分目的是闡述BLAT的用途。大約圖譜向下到一半的位置是標(biāo)記著HumanESTsThatHaveBeenSpliced的路徑(人類已經(jīng)剪接的ESTs)。因?yàn)樗械腅STs都濃縮在一條線上,這個(gè)路徑最初顯示比較密集,所

44、有的EST密集排列在一條直線上。點(diǎn)擊該路徑標(biāo)記,可以看到這一區(qū)域內(nèi)與基因組比對排列的所有EST,這些EST可能代表了具有不同剪接位點(diǎn)的轉(zhuǎn)錄物(抄本)。這將擴(kuò)展這個(gè)圖形的區(qū)域,所以每一個(gè)EST占據(jù)一條直線。ESTs的長度是可變的,但是大部分包含已知基因的相同的外顯子并且(大概)以同樣的方式剪接。仔細(xì)地檢查并與已知基因相比較,提示有一些ESTs缺失了一個(gè)或多個(gè)外顯子。留心查看標(biāo)記了BE798864和W52533的線條,前者缺失第5外顯子,而后者則缺失第4、5、6外顯子。通過點(diǎn)擊特定的線條可以考察任何ESTs的詳細(xì)資料。比如,點(diǎn)擊BE798864所在的線條,可以得到這個(gè)EST的詳細(xì)資料頁面。這個(gè)ES

45、T與基因組序列有99.8%的同源性。在標(biāo)記有EST/GenomicAlignments區(qū)域點(diǎn)擊任何超鏈接線條都會返回到實(shí)際上的一個(gè)堿基挨一個(gè)堿基的排列。EST的末端可以不同,但是在推測有外顯子缺失附近區(qū)域的序列是相同的。當(dāng)mRNA改變其編碼的野生型蛋白質(zhì)序列的時(shí)候,這個(gè)mRNA很可能存在生物學(xué)意義上的的選擇性剪接。為了確定ESTBE798864是否會編碼不同于已知基因(RAB9P40)編碼的蛋白質(zhì),我們可以用NCBI的BLAST2Sequences工具直接比較這兩個(gè)序列。首先,打開一個(gè)新的瀏覽器窗口,因?yàn)樯厦娴乃阉髻Y料在這兒也需要,當(dāng)需要使用多個(gè)網(wǎng)頁工具時(shí),這樣將避免過分使用瀏覽器的前進(jìn)和后退

46、鍵。然后從/BLAST登錄BLAST主頁。在PairwiseBLAST標(biāo)題下選擇BLAST2Sequences。在這個(gè)頁面上,用戶可以僅僅輸入登錄號而不用輸入剪切和粘貼的序列進(jìn)入對話框。對于EST來說,僅在標(biāo)有EnteraccessionorGIforSequence1的對話框中輸入EST的登錄號(BE798864)。獲得RAB9P40的登錄號需要返回前面的圖解,然后點(diǎn)擊基因路徑。一旦這些都做好了,在標(biāo)有EnteraccessionorGIforSequence2的對話框中輸入基因的登錄號(NM_005833)。確認(rèn)Program下拉菜單設(shè)定在blastn(比較兩個(gè)核苷酸序列),然后點(diǎn)擊頁面底

47、部的Align鍵就會得到所示的比對排列圖。序列1(theEST)默認(rèn)為查詢序列,而序列2(已知基因)則被默認(rèn)為目標(biāo)序列。起始于第三行末端排列的已知基因翻譯的蛋白序列也顯示出來,檢查這些排列發(fā)現(xiàn)這個(gè)EST缺失153個(gè)核苷酸(該mRNA第360512核苷酸),對應(yīng)于BE798864缺失的第5外顯子。這個(gè)缺口在開放讀碼框架內(nèi),所以這個(gè)EST可以編碼與已知基因具同源性但稍短的蛋白質(zhì)。由于EST序列測定的特點(diǎn)決定,ESTs經(jīng)常包含測序錯(cuò)配率遠(yuǎn)遠(yuǎn)高于已經(jīng)完成的基因組序列甚而基因組草圖序列的錯(cuò)配率。但令人鼓舞的是ESTBE798864在基因組序列上排列完好,其編碼的蛋白質(zhì)可能與已知基因編碼的蛋白質(zhì)具有相同的

48、結(jié)構(gòu)。另外,從UCSC圖解來看,這個(gè)區(qū)域的其他ESTs如BE779110也會引起RAB9P40的第5外顯子缺失。但是,所有這些預(yù)測都必須通過上面講的ESTgenomic排列質(zhì)量來檢驗(yàn)。最后的選擇性剪接的證據(jù)當(dāng)然還必須在實(shí)驗(yàn)室中才能找到。問題6:如何找到一個(gè)基因的序列,此序列除了含有所有已注釋的外顯子和內(nèi)含子外,還有用于引物設(shè)計(jì)的一些堿基?這項(xiàng)搜索從進(jìn)入U(xiǎn)CSC基因組瀏覽器主頁開始,網(wǎng)址是/。從標(biāo)記著Organism的下拉菜單處選擇Human,然后單擊Browser。這樣,使用者便進(jìn)入了人類基因組瀏覽器通路,可在當(dāng)前或更早的基因組裝配版本中進(jìn)行許多基于文本或位置的搜索。根據(jù)本例的情況,選擇Dec

49、.2001版本,在position框內(nèi)鍵入感興趣的基因的名稱(PTPN1),然后點(diǎn)擊Submit(提交)。瀏覽器將找出以字母PTPN1開頭的全部基因。以本例子來說,感興趣的基因名稱為PTPN1,點(diǎn)擊PTPN1的超鏈接可以觀察到這個(gè)基因在基因組中的前后關(guān)系。在頁面頂部的文本框內(nèi)給出了這個(gè)基因的堿基對的絕對位置(在20號染色體上,位于4892954049003636之間),并說明這個(gè)基因長74kb。標(biāo)記ChromosomeBands的路徑顯示PTPN1位于20q13.13。最后,標(biāo)記KnownGenes的路徑說明該基因處于正鏈上,因?yàn)槁窂缴系募^指向右方。這個(gè)基因的外顯子在KnownGenes路徑

50、中用垂直線表示。獲得一個(gè)基因上游序列的方法將在問題7中敘及。在這里我們解釋一下如何得到一個(gè)基因兩端的序列。為了得到足夠的序列用于設(shè)計(jì)引物,可以在頁面頂部position框內(nèi)改變位置的數(shù)字來增加顯示區(qū)域的長度。例如,為了在5端增加1,000個(gè)堿基,并在3端增加200個(gè)堿基,將位置(position)框中的內(nèi)容變?yōu)閏hr20:4892854-49003836然后點(diǎn)擊Jump。這樣就會以新的設(shè)定刷新屏幕。要想得到這段區(qū)域內(nèi)的序列,點(diǎn)擊該網(wǎng)頁頂部的藍(lán)色條帶中的DNA鏈接。這樣會產(chǎn)生一個(gè)新的網(wǎng)頁,標(biāo)題為GetDNAinWindow。點(diǎn)擊緊靠“extendedcase/coloroptions”的按紐,然

51、后點(diǎn)擊提交Submit。經(jīng)過這樣的選擇,使用者通過改變文本的格式(格子,下劃線,粗體,斜體)和或顏色(紅色,綠色,藍(lán)色),可以強(qiáng)調(diào)序列的特征。通過改變標(biāo)有紅、綠和藍(lán)的框中的0255的數(shù)字,可以使顏色改變成黑暗或幾種顏色的混合色。表格下給出了怎樣特異化RGB(紅-綠-藍(lán))3色的例子。以本例子的情況,在KnownGenes(RefSeqGenes)這行選擇ToggleCase,將紅色改成255以達(dá)到飽和而其他顏色設(shè)為零。一旦使用者點(diǎn)擊了Submit,就會產(chǎn)生一個(gè)新的網(wǎng)頁,包括前面特別設(shè)定的序列長度(chr20:48928540-49003836),并且這段區(qū)域內(nèi)的外顯子用紅色的大寫字母標(biāo)記?,F(xiàn)在可

52、以保存這個(gè)基因組序列,也可以輸入引物設(shè)計(jì)或序列裝配程序包,以便做進(jìn)一步研究?!癳xtendedcase/coloroptions”選擇頁還能用于基因組的路徑之間的聯(lián)合和比較。例如,返回options界面,保留前面已選擇的KnownGenes行,但現(xiàn)在也在標(biāo)有MouseBlat的那一列選擇下劃線(Underline)。點(diǎn)擊Submit產(chǎn)生一個(gè)新網(wǎng)頁,人外顯子仍然是紅色大寫字母,但和鼠類序列一樣的部分現(xiàn)在用下劃線標(biāo)記。在此基因,鼠的保守序列與外顯子相重疊。問題7:怎樣才能使研究者更容易地找到對所感興趣的基因的結(jié)構(gòu)進(jìn)行描述的信息匯編?能否獲得推定的啟動子區(qū)的序列?這項(xiàng)搜尋要從UCSC基因組瀏覽器開始

53、,網(wǎng)址為/。以編碼pendrin(PDS)的基因?yàn)槔齺碚f明上述問題。PDS與耳蝸的異常發(fā)育、感覺神經(jīng)性聽力下降以及彌散性甲狀腺增大(甲狀腺腫)有關(guān)。進(jìn)入U(xiǎn)CSC的主頁后,在Organism的下拉菜單中選擇Human,然后點(diǎn)擊Browser。使用者現(xiàn)在到了人類基因組瀏覽器入口。本例的搜尋很簡單:在assembly的下拉菜單中選擇Dec.2001,在position框中鍵入pendrin,然后點(diǎn)擊Submit。返回的頁面結(jié)果顯示一個(gè)已知的基因和兩個(gè)mRNA序列。繼續(xù)點(diǎn)擊mRNA序列的登錄號AF030880,出現(xiàn)包含這個(gè)mRNA區(qū)域的圖解概要。為了獲得這個(gè)區(qū)域更清晰的圖像,點(diǎn)擊緊靠zoomout的1

54、.5X按鈕。最后點(diǎn)擊頁面中部的resetall按鈕,使各個(gè)路徑的設(shè)置恢復(fù)默認(rèn)狀態(tài)。然而,對于本例的搜尋目的來說,默認(rèn)設(shè)置不是理想的設(shè)置。按照視圖利用頁面底部的TrackControls按紐,將一些路徑設(shè)置為hide模式(即不顯示),其他設(shè)置為dense模式(所有資料密集在一條直線上);另一些路徑設(shè)置為full模式(每個(gè)特征有一個(gè)分開的線條,最多達(dá)300)。在考慮這些路徑內(nèi)究竟存在那些資料之前,對這些路徑的內(nèi)容和表現(xiàn)做一個(gè)簡要的討論是必要的,許多這些討論是由外界提供給UCSC的。下面是對基因預(yù)測方法的更進(jìn)一步討論,這些信息也可以在其他地方找到。對于KnownGenes(已知基因)和預(yù)測的基因路徑

55、來說,一般的慣例是以一個(gè)高的垂直線或塊狀表示每個(gè)編碼外顯子,以短的垂直線或塊狀表示5端和3端非翻譯區(qū)。起連接作用的內(nèi)含子以非常細(xì)的線條表示。翻譯的方向由沿著細(xì)線的箭頭指示。KnownGenes來自LocusLink內(nèi)的mRNA參照序列,已經(jīng)利用BLAT程序?qū)⑦@些序列與基因組序列進(jìn)行比對排列。AcemblyGenePredictionsWithAlt-splicing路徑是利用Acembly程序?qū)⑷祟恗RNA和EST序列數(shù)據(jù)與人類基因組序列進(jìn)行比對排列而來的。Acembly程序試圖找到mRNA與基因組序列的最好的比對排列以及判斷選擇性剪接模型。假如有多于1個(gè)的基因模型具有統(tǒng)計(jì)學(xué)意義,則它們都全部

56、顯示出來。有關(guān)Acembly的更多信息可以在NCBI的網(wǎng)站找到(/IEB/Research/Acembly/)。EnsemblGenePredictions路徑由Ensembl提供。Ensembl基因通過許多方法來預(yù)測,包括與已知mRNA和蛋白質(zhì)進(jìn)行同源性比較,abinitio基因預(yù)測使用GENSCAN和基因預(yù)測HMMs。Fgenesh+GenePredictions路徑通過尋找基因的結(jié)構(gòu)特征來預(yù)測基因內(nèi)部的外顯子,例如剪接位點(diǎn)的給位和受位的結(jié)構(gòu)特征,利用一種動態(tài)的程序算法推定編碼區(qū)域和推定外顯子5端和3端的內(nèi)含子區(qū)域;這個(gè)方法也考慮到蛋白質(zhì)相似性的資料。GenscanGenePredicti

57、ons路徑由GENSCAN方法衍生而來,通過這個(gè)方法,可以確定內(nèi)含子、外顯子、啟動子區(qū)域和poly(A)信號。此時(shí),這個(gè)方法并不期望查詢的序列只出現(xiàn)1個(gè)基因,因此可以對部分基因或被基因之間的DNA分隔的多個(gè)基因進(jìn)行準(zhǔn)確的預(yù)測。HumanmRNAsfromGenbank路徑顯示基因庫的人類mRNAs與基因組序列的比對排列。SplicedESTs和HumanEST路徑顯示來自GenBank的ESTs序列與基因組的序列對齊比較。由于ESTs通常代表了轉(zhuǎn)錄基因的片斷,一個(gè)EST很有可能對應(yīng)于某個(gè)外顯子區(qū)。最后,RepeatingElementsbyRepeatMasker這個(gè)路徑顯示的是重復(fù)元件,例如

58、散在的或長或短的核元素(SINEs和LINEs),長末端重復(fù)序列(LTRs)和低復(fù)雜性區(qū)域(/cgi-bin/RepeatMasker)。一般來說,在將基因預(yù)測方法應(yīng)用于核苷酸序列之前,需要去掉或掩飾這些成分?;氐揭晥D顯示的例子,可以看到大多數(shù)路徑返回了幾乎同樣的基因預(yù)測結(jié)果。作為一個(gè)規(guī)則,通過多種方法預(yù)測的外顯子提高了預(yù)測的正確率而不會出現(xiàn)“假陽性”結(jié)果。多數(shù)方法顯示3端非翻譯區(qū),以左側(cè)大而短的塊狀表示。Acembly路徑顯示除了全長序列產(chǎn)物(如這個(gè)部分第3條線所示)之外還有3個(gè)可能的選擇性剪接,其它大多數(shù)路徑顯示與此預(yù)測結(jié)果相符。Genscan路徑從左、右方向往遠(yuǎn)處延伸:GENSCAN可以

59、被用于預(yù)測多個(gè)基因。盡管這些圖解概要很有用,然而研究者更需要與這些垂直線或塊狀相對應(yīng)的序列。以此為例,用Fgenesh+預(yù)測作為獲得原始序列數(shù)據(jù)的基礎(chǔ),但不管選擇哪個(gè)路徑其步驟都是一樣的。點(diǎn)擊標(biāo)有Fgenesh+GenePredictions的路徑,出現(xiàn)的是一個(gè)描述預(yù)測的概要頁面。序列的區(qū)域與pendrin基因相似(從這個(gè)例子一開始就已經(jīng)知道了)。給出了序列的大小及序列開始和結(jié)束的預(yù)測,并顯示預(yù)測是以負(fù)鏈為基礎(chǔ)的。想要獲得序列,點(diǎn)擊GenomicSequence。使用者將被帶到一個(gè)標(biāo)題為GetGenomicSequenceNearGene的查詢頁面,在這個(gè)頁面上,可以獲得轉(zhuǎn)錄物、編碼區(qū)、啟動子或轉(zhuǎn)錄物加啟動子的序列。點(diǎn)擊Transcript返回的頁面顯示完整的轉(zhuǎn)錄子,外顯子以大寫

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論