




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、表達序列標簽EST概要cDNA文庫摘要:隨著EST研究的開展、深入,以及相關(guān)研究技術(shù)和分析手段的不斷改進并 走向成熟,EST數(shù)據(jù)資源不斷豐富,而其本身又具備獨特的優(yōu)勢和多方面的利用 價值。本文介紹了 EST序列的獲取、加工、儲存、分配、分析和釋讀的相關(guān)研究。 關(guān)鍵詞:EST cDNA文庫生物信息學(xué)從事對生物信息的獲取、加工、儲存、分配、分析和釋讀,并綜 合運用數(shù)學(xué)、計算機科學(xué)和生物學(xué)工具,以達到理解數(shù)據(jù)中的生物學(xué)含義的目的。 隨著人類基因組計劃在世界范圍內(nèi)的開展,生物信息學(xué)作為一門熱門交叉學(xué)科, 不斷地完善和發(fā)展起來作為一種強有力的工具,它在幫助我們對巨量的生物信息 進行歸納和理解,從而揭示生
2、命的奧妙的過程中發(fā)揮了重要的作用。然而信息的 爆炸增長,面對復(fù)雜和龐大的數(shù)據(jù)庫,如何有效地地獲取我們所需要的信息,充 分利用這些已有的數(shù)據(jù)資源,加速基因克隆研究已成為一個富有挑戰(zhàn)性的課題。 表達序列標簽的廣泛應(yīng)用,為大規(guī)模進行基因克隆和表達分析提供了強大的動力, 也為生物信息學(xué)功能的充分發(fā)揮提供了廣闊的空問表達序列標簽(EST,Expressed Sequence Tag)是指從一個隨機選擇的cDNA 克隆進行5端和3端單一次測序獲得的短的cDNA部分序列,代表了一個完整 基因的一小部分。Adams等人在1991年提出了 EST技術(shù),宣布了 cDNA大規(guī)模 測序時代的開始。隨著大規(guī)模的測序,E
3、ST數(shù)據(jù)呈指數(shù)級增長。到了 1995年中, GenBank里ESTs的數(shù)量已超過非ESTs的數(shù)量;2000年6月,將近460萬的ESTs 已占了 GenBank里所有序列的62%。ESTs序列不止來源于人類,NCBI的dbEST (EST database)中已包含了超過250種生物來源的ESTs,包括小鼠、大鼠、秀麗 線蟲和黃果蠅等。除此之外,也有許多商業(yè)性的機構(gòu)保存了一些屬于機構(gòu)內(nèi)部不 公開的ESTs序列。EST序列的制備EST來源于一定環(huán)境下一個組織總mRNA所構(gòu)建的cDNA文庫,因此EST也 能說明該組織中各基因的表達水平。下面是制備EST序列的過程:(1)構(gòu)建cDNA文庫mRNA可以
4、反映細胞中基因的表達情況,但RNA不能直接被克隆。從感興 趣的組織或細胞株分離、純化mRNA,再將mRNA反轉(zhuǎn)錄成cDNA,并與合適的 載體連接,轉(zhuǎn)化受體細胞后獲得cDNA文庫。隨著技術(shù)的成熟和構(gòu)建文庫所需要 的試劑(盒)的商品化,構(gòu)建cDNA已經(jīng)不再是十分困難的工作,甚至還可以從公司直接訂購特異組織的cDNA文庫。對于EST研究來說,根據(jù)研究目的的不同, 可以將cDNA文庫分為三種類型,即未處理文庫、均一化文庫(normalized)和扣 除文庫(subtracted)。未處理文庫是指在文庫構(gòu)建完成后未經(jīng)任何處理直接用來 測序的cDNA文庫,該種文庫主要適應(yīng)于獲得全部信息的EST研究,即不但
5、獲得 文庫內(nèi)所表達的基因類型,而且還需要研究表達基因的豐余度和特異組織基因表 Cell or tissuePick individual clonesSequence the 5 and 3 ends of cDNA insertDeposit theEST sequences Cell or tissuePick individual clonesSequence the 5 and 3 ends of cDNA insertDeposit theEST sequencesdbEST圖1: ETS的制備Clone cDNA mio a vector to make a cDNA librar
6、y達的全部信息??鄢臀膸焓侵冈跇?gòu)建文庫時經(jīng)過一輪雜交去除重復(fù)拷貝和冗余 序列,所獲得的cDNA為組織特異表達類型,扣除文庫對于組織特異表達基因表達 譜的構(gòu)建和新基因的發(fā)現(xiàn)是非常有幫助的。均一化文庫是指在文庫構(gòu)建完成之后 發(fā)現(xiàn)有過多的污染序列或某一持家基因(house keeping gene)的比例比較高,在 大規(guī)模EST序列測定之前,可以用污染序列或特異持家基因(如核糖體蛋白基因) 的探針進行一輪或兩輪的雜交篩選,以去除污染或冗余序列。選取cDNA克隆測序現(xiàn)在的大規(guī)模自動測序基本上都是基于Sanger的“DNA雙脫氧鏈末端終止測 序法”進行的。具體過程是:先從文庫中隨機挑取大量克隆,在體外
7、變性為單 鏈后,利用多克隆位點接頭兩側(cè)序列設(shè)計載體通用引物進行一次性自動化測序, 可以測出400-600bp的序列。由于是一次性測序,所以具有較高的錯誤率。測序技術(shù)推進科學(xué)研究的發(fā)展,高通量測序技術(shù)等的出現(xiàn),為快速獲得大量 的EST序列提供了可能,且降低了研究的成本。Simpson及其同事研發(fā)了一種新的 獲得高通量 ESTs 的方法 ORESTES(open reading frame expressed sequenced tags), 這種方法主要是獲得中心編碼區(qū)的序列信息。EST制備中的錯誤一個典型的EST序列是短的mRNA的部分序列,一次性測序決定了 ESTs具有 較高的出錯率,特別是
8、兩段的序列出錯的概率顯著高于中間部分(圖2)。在EST 的前或后20%或50-100bp的堿基讀取質(zhì)量較低。Phred分值可用于檢測序列的質(zhì) 量,Phred分值為20表示該堿基出現(xiàn)錯讀的概率為1/100,而Phred分值為30表59I1-Em=Enb paJLIA5059I1-Em=Enb paJLIA403020W0 Q W 203040506-708090100圖2: EST片段質(zhì)量分析示該堿基發(fā)生錯讀的概率為1/1000。因此可以根據(jù)后續(xù)研究的需要及Phred值對 序列進行篩選。在EST制備過程中還存在較嚴重的序列冗余、DNA污染等問題,如 基因組DNA的污染、載體序列的污染、接頭序列、
9、嵌合克隆序列的污染等。優(yōu)化 文庫的構(gòu)建及序列測定過程中的模板制備和測序條件以減少污染和序列錯誤率的 出現(xiàn)。ESTs數(shù)據(jù)庫1993 年 NCBI(National Center of Biotechnology Information)建立了一個 專門的EST數(shù)據(jù)庫dbEST來保存和收集所有的EST數(shù)據(jù)。由于計算機和網(wǎng)絡(luò)的普 及,公開的EST數(shù)據(jù)庫越來越多,內(nèi)容也越來越全面,這就大大推進了基因組研 究的進程。目前向全世界生物科學(xué)工作者提供EST數(shù)據(jù)的網(wǎng)站有:NCBI,EBI,SIB, Infobiogen,SANBI,MIPS,TIGR,DDBJ 等。TIGRTIGR Gene Indices
10、( HYPERLINK /tgi/)%e6%98%af- /tgi/)是- -種種屬 特異性的數(shù)據(jù)庫集合,它采用了一種高度精確的“方法”分析ESTs數(shù)據(jù),試圖識 別這些大量ESTs數(shù)據(jù)所代表的基因,并提供與這些基因相關(guān)的信息。UniGeneUniGene( HYPERLINK http:/WWW.N/UniGene)%e6%98%af%e4%b8%80%e7%a7%8d%e8%83%bd%e5%b0%86 WWW.N/UniGene)是一種能將 GenBank 中的 ESTs 序 列自動地分成按基因歸類的非冗余性數(shù)據(jù)的實驗系統(tǒng)。每一個UniGene的cluster 代表了唯一的基因序列,同時包
11、含了如組織表達類型和圖譜位置的相關(guān)信息。STACKStack( HYPERLINK http:/www.sanbi.ac.za/Dbases http:/www.sanbi.ac.za/Dbases. html)是一種識別發(fā)育以及病理狀 態(tài)中表達的轉(zhuǎn)錄變異體并將其可視化的工具。來源于公共數(shù)據(jù)庫中大量的不同表 達狀態(tài)的人類轉(zhuǎn)錄本數(shù)據(jù)經(jīng)過組織并且重構(gòu),形成了 STACK的數(shù)據(jù)統(tǒng)。因為轉(zhuǎn)錄 本表達狀態(tài)的多樣性,包括發(fā)育狀態(tài)、病理相關(guān)狀態(tài)、表達的組織特異性和表達 轉(zhuǎn)錄本的異構(gòu)形式,要求聚類算法能夠全面識別同一基因的各種表達形式。EST序列分析一個單獨的EST序列所含有的生物信息非常有限,但借助計算機工
12、具對一系 列的ESTs進行分析可以有效地挖掘EST中的信息。EST作為主流的基因紐學(xué)研究 方法和技術(shù)的一種,其技術(shù)路線已經(jīng)逐漸趨于成熟。經(jīng)過研究機構(gòu)和專家的多年 的摸索,EST序列已經(jīng)形成了一定的研究路線,其流程圖如圖3所示:EST 序列的預(yù)處理(Pre-Processing)預(yù)處理可以降低EST數(shù)據(jù)的噪音污染,獲得高質(zhì)量的EST序列,有助于提高 后續(xù)分析的準確率和效率。在EST序列中普遍存在著載體污染,然后將ESTs和非 冗余載體數(shù)據(jù)庫(如UniVec、EMVEC等)進行比對,確定并去除載體的污染。低 復(fù)雜性的片段如SSRs、LTRs、SINEs等會影響序列組裝的準確性,應(yīng)用NCBI的DUS
13、T圖3: EST序列處理流程工具可檢測EST數(shù)據(jù)中的復(fù)雜性低的區(qū)域。Poly(A)也會影響EST序列的質(zhì)量,在 分析之前應(yīng)將多聚A尾切除保留6-10nt的腺嘌吟。EST聚類與組裝EST聚類是把屬于同一基因的EST聚類成一簇,以減少數(shù)據(jù)冗余程度,提 高表達序列的數(shù)據(jù)質(zhì)量。在對EST序列數(shù)據(jù)進行聚類分析時,聚類分為不嚴格的 聚類(loose clustering)和嚴格的聚類(stringent clustering)。嚴格的聚類方 法是分析高品質(zhì)的EST序列,生成的序列較短,其精度較高,但是表達基因EST 數(shù)據(jù)的覆蓋率低。不嚴格的聚類還分析較低品質(zhì)的序列,對表達基因EST數(shù)據(jù)的 覆蓋率高,生成的
14、序列長、精度低,含有同一基因不同的轉(zhuǎn)錄形式。其主要缺點 是可能包含旁系同源基因的轉(zhuǎn)錄本,信噪比低,序列可靠性低stackPACK采用的 是不嚴格的聚類方法,TIGR采用的是嚴格的聚類方法,而UniGene介于二者之間。 在聚類分析時是常犯兩類錯誤,第一類錯誤是來自同一個基因轉(zhuǎn)錄本的EST序列 不能形成簇,第二類錯誤是源自不同基因的EST序列錯誤的拼成了一簇。數(shù)據(jù)庫同源性搜索通過ESTs組裝成共有序列(consensus sequence),使用數(shù)據(jù)庫同源性搜索分 析其可能的功能,可以為下游的研究提供參考。NCBI可以提供多種序列相似性搜 索的程序,BLASTN是在核算數(shù)據(jù)庫中比對待檢EST序列
15、,BLASTX是在蛋白質(zhì)數(shù)據(jù) 庫中比對待檢EST序列。BLASTX可以講待檢的EST序列按六種閱讀框進行翻譯, 并在蛋白數(shù)據(jù)庫中進行比對。使用RPS-BLAST搜索CDD (Conserved Domain Database)數(shù)據(jù)庫和 COG (Cluster of Orthologous Groups)數(shù)據(jù)庫可以分析潛 在的蛋白結(jié)構(gòu)域。MuSeqBox可以對ESTs序列進行高通量分析,可同時對上千條的 比對結(jié)果進行注釋。ESTs還可與相同物種或臨近物種的基因組序列進行比對,在 基因組作圖及發(fā)現(xiàn)新基因的中發(fā)揮了重要作用,常用的程序有BLAT、GMAP、MGALIGN 等?;蚍治龅慕Y(jié)果大致有三
16、種:第一是已知基因,是研究對象為人類已鑒定和 了解的基因;第二是以前未經(jīng)鑒定的新基因;第三是未知基因,這部分基因之間 無同種或異種基因的匹配。新基因和未知基因?qū)⑦M一步用于生物學(xué)研究。ESTs序列的概念性翻譯應(yīng)用準確而強大的蛋白翻譯工具,將EST數(shù)據(jù)和以蛋白質(zhì)為中心的注釋相聯(lián) 系起來,有利于分析蛋白的結(jié)構(gòu)域和模體,為進一步研究蛋白的互作、定位等提 供參考。首先查找EST中的蛋白編碼區(qū)或開放閱讀框,目前已經(jīng)有了很多相關(guān)的 軟件,如OrfPredictor等。ESTScan和DECODER不僅可以從低品質(zhì)的EST序列中 檢測并提取編碼序列或部分cDNA序列,還可以提供感念翻譯功能。預(yù)測的蛋白 序列可
17、以利用BLASTP工具在蛋白質(zhì)數(shù)據(jù)庫中進行比對。對EST序列進化ORF預(yù)測 和概念翻譯常用工具參考表1。表1: EST常用ORF預(yù)測和概念翻譯工具NameNameDECODER 13 DI DECODER 13 DI AN A-EST 65 Diogenes ESTScanZ 61 OrfPredictor 61 Tafetldwitjfiera r tetrihS pc bi.u penn.e du. (u pon rtquesT from the author)http: a nai/SF&.ccfb; u mn .e du & io,genes index, himihtip; w w
18、w.ch embneL.or.j. software. ESTScan2. him Ihttps: fungalgeronie.cancordiaa OrfPredicwr.liEmlhttps: fu nga igenome.-cancordia ,ca looIs. Ta rget Identifi enhiml功能注釋獲得預(yù)測的蛋白后,應(yīng)用綜合工具與非冗余的蛋白序列、模體、家族數(shù)據(jù)庫 進行比對,分析、預(yù)測其行使的功能,如Interproscan就可以進行上述分析。蛋 白子序列在基因功能預(yù)測時具有更高的準確性,特別是在進行多序列比對、進化 樹分析、蛋白質(zhì)質(zhì)量指紋圖譜的繪制、結(jié)構(gòu)域分析時具有
19、明顯的優(yōu)勢。ESTs序列的應(yīng)用發(fā)現(xiàn)新基因ESTs已經(jīng)被廣泛的運用在發(fā)現(xiàn)新基因上,GenBank中ESTs的數(shù)量已遠遠超過 其它核甘酸序列,且其不斷的快速增長使其得到廣大研究者的青睞。利用ESTs尋 找新基因的方法,包含了搜尋與ESTs同種系中基因家族里新的基因;尋找不同種 系但功能卻相同的基因;搜尋不同剪接方式方式的基因。但要查找選擇性剪接的 轉(zhuǎn)錄本,還有較大的問題需要克服。例如,如何去分辨一個因為選擇性剪接發(fā)生 所生成的新序列。序列多態(tài)性分析EST聚類分析時也可檢查和分析DNA序列的變異頻率或轉(zhuǎn)錄序列的多樣性等。 單核苷酸多態(tài)性(SNPs)是基因變異最豐富的形式,可以將序列的變異和遺傳性表 型結(jié)合在一起,以促進對于基因的定位克隆和生物進化的研究。有研究就表明EST 的聚類分析可以促進SNP的發(fā)現(xiàn),而這要歸功于ESTs的校正、鑒別序列差異、或 是從錯度堿基中證實多態(tài)性的技術(shù)的發(fā)展。繪制遺傳圖譜ESTs也常利用STSs (sequence-tagged sites)來繪
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)用耗材購銷合同
- 品牌服務(wù)協(xié)議合同
- 會議場地租賃費用合同
- 電力系統(tǒng)自動化控制原理測試卷
- 教學(xué)場地租賃合同協(xié)議
- 國際貿(mào)易合同樣書一年
- 樓面天棚保溫施工方案
- 五方通話對講布線施工方案
- 嘉定區(qū)衛(wèi)生間施工方案
- 礦場塌陷區(qū)改造方案
- 小學(xué)數(shù)學(xué)六年級下冊《鴿巢問題》作業(yè)設(shè)計
- 2024年安徽水利水電職業(yè)技術(shù)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試題庫含答案解析
- 人教版五年級數(shù)學(xué)下冊第六單元分層作業(yè)設(shè)計
- 電路分析課程思政報告
- 千分尺課件(公開課用)
- 綠色飯店培訓(xùn)課件
- 珍愛生命遠離毒品禁毒教育宣傳
- BI軟件工程師個人年終工作總結(jié)
- 口腔執(zhí)業(yè)醫(yī)師考試
- 人工智能在電力行業(yè)的應(yīng)用
- 軍事理論課(野外生存)-課件
評論
0/150
提交評論