表達(dá)序列分析課件_第1頁
表達(dá)序列分析課件_第2頁
表達(dá)序列分析課件_第3頁
表達(dá)序列分析課件_第4頁
表達(dá)序列分析課件_第5頁
已閱讀5頁,還剩79頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第七章表達(dá)序列分析生物信息學(xué)第七章表達(dá)序列分析生物信息學(xué)1表達(dá)序列標(biāo)簽(ExpressedSequenceTag,EST)是由大規(guī)模隨機(jī)挑取的cDNA克隆測(cè)序得到的組織或細(xì)胞基因組的表達(dá)序列標(biāo)簽表達(dá)序列標(biāo)簽(EST)表達(dá)序列標(biāo)簽(ExpressedSeque2EST的概念EST是指通過對(duì)cDNA文庫(kù)隨機(jī)挑取的克隆進(jìn)行大規(guī)模測(cè)序所獲得的cDNA的5’或3’端序列,長(zhǎng)度一般為60~500bp.EST是基因的“窗口”,可代表生物體某種組織某一時(shí)間的一個(gè)表達(dá)基因,故被稱之為“表達(dá)序列標(biāo)記”EST的概念EST是指通過對(duì)cDNA文庫(kù)隨機(jī)挑取的克隆進(jìn)3

EST技術(shù)的形成和發(fā)展

上世紀(jì)80年代,對(duì)cDNA序列進(jìn)行大規(guī)模測(cè)序的想法就曾提出,但反對(duì)者認(rèn)為cDNA序列缺少重要的基因調(diào)控區(qū)域的信息。

EST技術(shù)應(yīng)用的首次報(bào)道是Adams(1991)等從三種人腦組織cDNA文庫(kù)隨機(jī)挑取609個(gè)克隆進(jìn)行測(cè)序,得到一組人腦組織的EST,分析結(jié)果表明其中36個(gè)代表已知基因,337個(gè)代表未知基因。運(yùn)用自動(dòng)化測(cè)序技術(shù),大規(guī)模生產(chǎn)EST序列。EST技術(shù)的形成和發(fā)展4/projects/dbEST//pr5表達(dá)序列分析課件6體內(nèi):翻譯體外研究:反轉(zhuǎn)錄連接,轉(zhuǎn)化文庫(kù)構(gòu)建技術(shù)已經(jīng)成熟測(cè)序成本已經(jīng)大大降低大數(shù)據(jù)量分析理念已經(jīng)形成EST技術(shù)流程體內(nèi):翻譯體外研究:反轉(zhuǎn)錄連接,轉(zhuǎn)化文庫(kù)構(gòu)建技術(shù)已經(jīng)成熟測(cè)序7◆

非標(biāo)準(zhǔn)化的cDNA文庫(kù)的構(gòu)建。

可用于基因表達(dá)量的分析◆

經(jīng)標(biāo)準(zhǔn)化或扣除雜交處理的cDNA文庫(kù)。

富集表達(dá)豐度較低的基因

A.cDNA文庫(kù)構(gòu)建◆非標(biāo)準(zhǔn)化的cDNA文庫(kù)的構(gòu)建。A.cDNA文庫(kù)構(gòu)建8cDNA文庫(kù)的構(gòu)建cDNA文庫(kù)的構(gòu)建9隨機(jī)挑取克隆進(jìn)行5’或3’端測(cè)序序列前處理聚類和拼接基因注釋及功能分類后續(xù)分析B.序列測(cè)定及數(shù)據(jù)分析隨機(jī)挑取克隆進(jìn)行5’或3’端測(cè)序序列前處理聚類和拼接基因注釋10測(cè)序方向的原則①EST編碼蛋白質(zhì)的信息應(yīng)滿足同源序列比較分析②決定于用EST來進(jìn)行研究的目的測(cè)序方向的原則11測(cè)序方向的選擇◆5’端5’上游非翻譯區(qū)較短且含有較多的調(diào)控信息。一般在尋找新基因或研究基因差異表達(dá)時(shí)用5’端EST較好,而且從5’端測(cè)序有利于將EST拼接成較長(zhǎng)的基因序列?!?’端3’端mRNA有一20-200bp的polyA結(jié)構(gòu),同時(shí)靠近ployA又有特異性的非編碼區(qū),所以從3’端測(cè)得EST含有編碼的信息較少,但研究非編碼區(qū)有品種的特異性,可以作為STS標(biāo)記.◆兩端測(cè)序獲得更全面的信息。測(cè)序方向的選擇12(1)去除低質(zhì)量的序列(2)應(yīng)用BLAST、RepeatMasker或Crossmatch遮蔽數(shù)據(jù)組中不屬于表達(dá)的基因的贗象序列(artifactualsequences)?!褫d體序列(/repository/vector)

●重復(fù)序列(RepBase,)●污染序列(如核糖體RNA、細(xì)菌或其它物種的基因組DNA等)(3)去除其中的鑲嵌克?。築ack-to-backpoly(A)+tails;Linker-to-linkerinmiddleofthesequence.(4)最后去除長(zhǎng)度小于100bp的序列。序列前處理(1)去除低質(zhì)量的序列序列前處理13聚類的目的就是將來自同一個(gè)基因或同一個(gè)轉(zhuǎn)錄本的具有重疊部分(overlapping)的ESTs整合至單一的簇(cluster)中。聚類作用:產(chǎn)生較長(zhǎng)的一致性序列(consensussequence),用于注釋。降低數(shù)據(jù)的冗余,糾正錯(cuò)誤數(shù)據(jù)??梢杂糜跈z測(cè)選擇性剪切。ESTs聚類的數(shù)據(jù)庫(kù)主要有三個(gè):UniGene(/UniGene)TIGRGeneIndices(/tdb/tgi/)STACK(http://www.sanbi.ac.za/Dbases.html)

ESTs的聚類和拼接聚類的目的就是將來自同一個(gè)基因或同一個(gè)轉(zhuǎn)錄本的具14◆looseclustering●產(chǎn)生的一致性序列比較長(zhǎng)●表達(dá)基因ESTs數(shù)據(jù)的覆蓋率高●含有同一基因不同的轉(zhuǎn)錄形式,如各種選擇性剪接體●每一類中可能包含旁系同源基因的轉(zhuǎn)錄本●序列的保真度低◆stringentclustering●產(chǎn)生的一致性序列比較短●表達(dá)基因ESTs數(shù)據(jù)的覆蓋率低●因此所含有的同一基因的不同轉(zhuǎn)錄形式少●序列保真度高不嚴(yán)格的和嚴(yán)格的聚類不嚴(yán)格的和嚴(yán)格的聚類15利用cDNA克隆的信息和5’、3’端的序列信息,不同的Cluster可以連接在一起。Cluster的拼接利用cDNA克隆的信息和5’、3’端的序列信息,不同的Clu16常用的拼接軟件◆Phrap(/phredphrapconsed.html)◆CAP3(http://pbil.univ-lyon1.fr/cap3.php)◆d2_cluster(http://www.sanbi.ac.za/)常用的拼接軟件◆Phrap(http://w17(1)注釋:◆序列聯(lián)配

Blastn:searchnucleotidedatabasesusinganucleotidequery.

Blastx:searchproteindatabasesusingatranslatednucleotidequery.◆蛋白質(zhì)功能域搜索(二結(jié)構(gòu)比對(duì))

Pfam:

ThePfamdatabaseisalargecollectionofproteinfamilies,eachrepresentedbymultiplesequencealignmentsandhiddenMarkovmodels.

Interpro:

InterProisanintegrateddatabaseofpredictiveprotein"signatures"usedfortheclassificationandautomaticannotationofproteinsandgenomes.基因注釋及功能分類(1)注釋:基因注釋及功能分類18(2)基因功能分類:◆手工分類

大部分以Adams1995年的文章中的采用分類體系為標(biāo)準(zhǔn)?!続dams.MD,etal.Initialassessmentofhumangenediversityandexpressionpatternsbasedupon83millionnucleotidesofcDNAsequence.Nature.1995377(6547Suppl):3-174】◆計(jì)算機(jī)批量處理利用標(biāo)準(zhǔn)基因詞匯體系GeneOntology,進(jìn)行近似的分類。(/)基因注釋及功能分類(2)基因功能分類:基因注釋及功能分類19生物過程分子功能細(xì)胞組件基因本體(GeneOntology,GO)

生物過程基因本體20/GO.downloads.annotations.shtml

/GO21◆比較基因組學(xué)分析◆基因表達(dá)譜分析◆新基因研究◆基因可變剪切分析◆實(shí)驗(yàn)驗(yàn)證

?MicroArray

?GeneChip

?RT-PCR

?Northernblotting后續(xù)分析◆比較基因組學(xué)分析后續(xù)分析22

表達(dá)序列標(biāo)簽(EST)數(shù)據(jù)的應(yīng)用表達(dá)序列標(biāo)簽(EST)23利用對(duì)某一特異組織或某一生長(zhǎng)發(fā)育階段的cDNA文庫(kù),進(jìn)行隨機(jī)部分測(cè)序所得的ESTs,作為查詢項(xiàng)在dbEST中進(jìn)行同源查找,同時(shí)將由ESTs序列按密碼子推出的氨基酸序列作為查詢項(xiàng)在蛋白質(zhì)信息資源數(shù)據(jù)庫(kù)中進(jìn)行同源查找。如果該ESTs序列在以上數(shù)據(jù)庫(kù)中存在同源序列,可對(duì)該ESTs所代表基因的功能進(jìn)行分析及鑒定。如果不存在同源序列,則該ESTs所代表的基因有可能是新基因。1.ESTs與新基因識(shí)別1.ESTs與新基因識(shí)別24表達(dá)序列分析課件25表達(dá)序列分析課件26轉(zhuǎn)錄圖譜為染色體DNA某一區(qū)段內(nèi),所有可轉(zhuǎn)錄序列的分布圖,ESTs作為轉(zhuǎn)錄基因的產(chǎn)物,可直接用于構(gòu)建轉(zhuǎn)錄圖譜。由于ESTs具有很高的多態(tài)性可用作分子標(biāo)記,用于建立遺傳連鎖圖譜。建染色體物理圖譜需要大量的單拷貝序列標(biāo)記位點(diǎn)(STS)作為界標(biāo),由于大多數(shù)基因是單拷貝的,因此ESTs可以充當(dāng)STS構(gòu)建物理圖譜。2.ESTs與遺傳學(xué)圖譜的構(gòu)建2.ESTs與遺傳學(xué)圖譜的構(gòu)建27序列標(biāo)簽位點(diǎn)(sequence-taggedsites,STS):已知核苷酸序列的DNA片段,是基因組中任何單拷貝的短DNA序列,長(zhǎng)度在100~500bp之間來自mRNA的3’非翻譯區(qū)的ESTs更適合做為STSs,用于基因圖譜的繪制。優(yōu)點(diǎn):●由于沒有內(nèi)含子的存在,因此在cDNA及基因組模板中其PCR產(chǎn)物的大小相同?!衽c編碼區(qū)具有很強(qiáng)的保守性不同,3’UTRs序列的保守性較差,因此很容易將單個(gè)基因與編碼序列關(guān)系非常緊密的相似基因家族成員分開。2.ESTs與遺傳學(xué)圖譜的構(gòu)建序列標(biāo)簽位點(diǎn)(sequence-taggedsites,28由于EST來源于cDNA,因此每一條EST均代表了文庫(kù)建立時(shí)所采樣品特定發(fā)育時(shí)期和生理狀態(tài)下的一個(gè)基因的部分序列。大于90%的已經(jīng)注釋的基因都能在EST庫(kù)中檢測(cè)到。ESTs可以做為其它基因預(yù)測(cè)算法的補(bǔ)充。3.ESTs與基因預(yù)測(cè)由于EST來源于cDNA,因此每一條EST均代表了文庫(kù)建立29通過對(duì)ESTs重疊群組裝,對(duì)大量重復(fù)的ESTs進(jìn)行序列比較,可以從ESTs數(shù)據(jù)庫(kù)中篩選另一種以測(cè)序?yàn)楹诵牡姆肿訕?biāo)記SNPs。來自不同個(gè)體的ESTs可用于發(fā)現(xiàn)基因組中轉(zhuǎn)錄區(qū)域存在的SNPs。注意區(qū)別真正的SNPs和由于測(cè)序錯(cuò)誤而引起的本身不存在的SNPs。解決這一問題可以通過:●提高ESTs分析的準(zhǔn)確性。●對(duì)所發(fā)現(xiàn)的SNPs進(jìn)行實(shí)驗(yàn)驗(yàn)證。4.ESTs與單核苷酸多態(tài)性(SNPs)通過對(duì)ESTs重疊群組裝,對(duì)大量重復(fù)的ESTs進(jìn)行序列比較30

某一時(shí)期基因表達(dá)的數(shù)量通常占全部基因的15%,細(xì)胞的分化由基因特異性的時(shí)空表達(dá)決定。利用未經(jīng)標(biāo)準(zhǔn)化和差減雜交的cDNA文庫(kù)EST可以分析特定組織的基因表達(dá)譜。近年來對(duì)基因差異表達(dá)研究的方法有ESTs法、差減雜交法和mRNA差異顯示技術(shù)。其中以ESTs法穩(wěn)定性最高,分析規(guī)模最大。5.ESTs與基因的差異表達(dá)某一時(shí)期基因表達(dá)的數(shù)量通常占全部基因的15%,細(xì)胞的分化由31癌癥基因組解析計(jì)劃(CancerGenomeAnatomyProject,CGAP)為研究癌癥的分子機(jī)理,美國(guó)國(guó)家癌癥研究所NCI的CGAP計(jì)劃,構(gòu)建了很多正常的或是癌癥前期的和癌癥后期的組織的cDNA文庫(kù),并進(jìn)行了大規(guī)模的EST測(cè)序。CGAP網(wǎng)站提供了多種工具用以分析不同文庫(kù)間基因表達(dá)的差異,如:●DigitalGeneExpressionDisplayer(DGED)●cDNAxProfiler5.ESTs與基因的差異表達(dá)癌癥基因組解析計(jì)劃5.ESTs與基因的差異表達(dá)32DNA芯片是指將許多許多特定的DNA寡核苷酸或DNA片段(包括cDNA)固定在芯片的每個(gè)預(yù)先設(shè)置的區(qū)域內(nèi),將待測(cè)樣本標(biāo)記后同芯片進(jìn)行雜交,通過雜交信息的分析來檢測(cè)基因的功能和基因組研究的分析系統(tǒng)。ESTs是用于制備DNA芯片的很好基因資源。由于ESTs直接來源于cDNA,因此ESTs文庫(kù)可代表cDNA文庫(kù)用于制備DNA芯片所需的探針庫(kù)。6.ESTs與DNA芯片的制備綠色:基因表達(dá)↓紅色:基因表達(dá)↑

黃色:基因表達(dá)相當(dāng)DNA芯片是指將許多許多特定的DNA寡核苷酸或DNA片33基因芯片或微陣列技術(shù)流程….….Clone反轉(zhuǎn)錄(可選)讀取光密度聚類分析(非同源功能注釋)標(biāo)記雜交反轉(zhuǎn)錄EST分析………….………….………….GeneChip0.10.060.050.04…000.070.01…表達(dá)量矩陣G1,G3,G5G2,G4G6,G9…利用EST,SAGE分析結(jié)果制作芯片(研究已發(fā)現(xiàn)的基因)連接,轉(zhuǎn)化原位合成

基因芯片或微陣列技術(shù)流程….Clone反轉(zhuǎn)錄(可選)讀取光密34基因表達(dá)系列分析(SerialAnalysisofGeneExpression,SAGE)技術(shù),能同時(shí)對(duì)上千個(gè)轉(zhuǎn)錄物進(jìn)行研究,是一種用于定量及高通量基因表達(dá)分析的實(shí)驗(yàn)方法。7.ESTs與基因表達(dá)系列分析基因表達(dá)系列分析(SerialAnalysisofGe35SAGE的原理:(1)一個(gè)9-14堿基的短核苷酸序列標(biāo)簽包含有足夠的信息,能夠唯一確認(rèn)一種轉(zhuǎn)錄物。一個(gè)9堿基順序能夠分辨262,144個(gè)不同的轉(zhuǎn)錄物,而人類基因組估計(jì)僅能編碼80,000種轉(zhuǎn)錄物,所以理論上每一個(gè)9堿基標(biāo)簽?zāi)軌虼硪环N轉(zhuǎn)錄物的特征序列。(2)將短片段標(biāo)簽相互連接形成長(zhǎng)的DNA分子,對(duì)該克隆進(jìn)行測(cè)序得到大量連續(xù)的單個(gè)標(biāo)簽,可對(duì)數(shù)以千計(jì)的mRNA轉(zhuǎn)錄本進(jìn)行分析。(3)特定的序列標(biāo)簽的出現(xiàn)次數(shù)就反應(yīng)了對(duì)應(yīng)的基因的表達(dá)豐度。7.ESTs與基因表達(dá)系列分析SAGE的原理:7.ESTs與基因表達(dá)系列分析36反轉(zhuǎn)錄酶切連接測(cè)序單條測(cè)序=對(duì)30-40條EST測(cè)序分析由于采樣量大大提高,可對(duì)低表達(dá)基因進(jìn)行分析:基因表達(dá)量分析、尋找新基因等等實(shí)驗(yàn)步驟較長(zhǎng)要求較高SAGE技術(shù)流程反轉(zhuǎn)錄酶切連接測(cè)序單條測(cè)序=對(duì)30-40條EST測(cè)序分析由于378.電子克隆利用計(jì)算機(jī)技術(shù),依托現(xiàn)有的網(wǎng)絡(luò)資源EST數(shù)據(jù)庫(kù)、核苷酸數(shù)據(jù)庫(kù)、蛋白質(zhì)數(shù)據(jù)庫(kù)、基因組數(shù)據(jù)庫(kù)等,采用生物信息學(xué)方法(包括同源性檢索、聚類、序列拼裝等)延伸EST序列,以期獲得部分乃至全長(zhǎng)cDNA序列的一種方法。8.電子克隆利用計(jì)算機(jī)技術(shù),依托現(xiàn)有的網(wǎng)絡(luò)資源EST數(shù)據(jù)庫(kù)、385’3’estSearchinestdatabaseSearchinestdatabaseSearchinestdatabaseSearchinestdatabase5’3’CompletecDNA簡(jiǎn)單電子克隆模式圖

5’3’estSearchinestdatabaseS39ESTs很短,沒有給出完整的表達(dá)序列。

低豐度表達(dá)基因不易獲得。由于只是一輪測(cè)序結(jié)果,出錯(cuò)率達(dá)2%-5%。

有時(shí)有載體序列和核外mRNA來源的cDNA污染或是基因組DNA的污染。

有時(shí)出現(xiàn)鑲嵌克隆。序列的冗余,導(dǎo)致所需要處理的數(shù)據(jù)量很大。ESTs數(shù)據(jù)的不足ESTs很短,沒有給出完整的表達(dá)序列。ESTs數(shù)據(jù)的不足40謝謝謝謝41單核苷酸多態(tài)性(SNP)(singlenucleotidepolymorphism)在基因組水平上由單個(gè)核苷酸的變異所引起的DNA序列多態(tài)性單核苷酸多態(tài)性(SNP)42第七章表達(dá)序列分析生物信息學(xué)第七章表達(dá)序列分析生物信息學(xué)43表達(dá)序列標(biāo)簽(ExpressedSequenceTag,EST)是由大規(guī)模隨機(jī)挑取的cDNA克隆測(cè)序得到的組織或細(xì)胞基因組的表達(dá)序列標(biāo)簽表達(dá)序列標(biāo)簽(EST)表達(dá)序列標(biāo)簽(ExpressedSeque44EST的概念EST是指通過對(duì)cDNA文庫(kù)隨機(jī)挑取的克隆進(jìn)行大規(guī)模測(cè)序所獲得的cDNA的5’或3’端序列,長(zhǎng)度一般為60~500bp.EST是基因的“窗口”,可代表生物體某種組織某一時(shí)間的一個(gè)表達(dá)基因,故被稱之為“表達(dá)序列標(biāo)記”EST的概念EST是指通過對(duì)cDNA文庫(kù)隨機(jī)挑取的克隆進(jìn)45

EST技術(shù)的形成和發(fā)展

上世紀(jì)80年代,對(duì)cDNA序列進(jìn)行大規(guī)模測(cè)序的想法就曾提出,但反對(duì)者認(rèn)為cDNA序列缺少重要的基因調(diào)控區(qū)域的信息。

EST技術(shù)應(yīng)用的首次報(bào)道是Adams(1991)等從三種人腦組織cDNA文庫(kù)隨機(jī)挑取609個(gè)克隆進(jìn)行測(cè)序,得到一組人腦組織的EST,分析結(jié)果表明其中36個(gè)代表已知基因,337個(gè)代表未知基因。運(yùn)用自動(dòng)化測(cè)序技術(shù),大規(guī)模生產(chǎn)EST序列。EST技術(shù)的形成和發(fā)展46/projects/dbEST//pr47表達(dá)序列分析課件48體內(nèi):翻譯體外研究:反轉(zhuǎn)錄連接,轉(zhuǎn)化文庫(kù)構(gòu)建技術(shù)已經(jīng)成熟測(cè)序成本已經(jīng)大大降低大數(shù)據(jù)量分析理念已經(jīng)形成EST技術(shù)流程體內(nèi):翻譯體外研究:反轉(zhuǎn)錄連接,轉(zhuǎn)化文庫(kù)構(gòu)建技術(shù)已經(jīng)成熟測(cè)序49◆

非標(biāo)準(zhǔn)化的cDNA文庫(kù)的構(gòu)建。

可用于基因表達(dá)量的分析◆

經(jīng)標(biāo)準(zhǔn)化或扣除雜交處理的cDNA文庫(kù)。

富集表達(dá)豐度較低的基因

A.cDNA文庫(kù)構(gòu)建◆非標(biāo)準(zhǔn)化的cDNA文庫(kù)的構(gòu)建。A.cDNA文庫(kù)構(gòu)建50cDNA文庫(kù)的構(gòu)建cDNA文庫(kù)的構(gòu)建51隨機(jī)挑取克隆進(jìn)行5’或3’端測(cè)序序列前處理聚類和拼接基因注釋及功能分類后續(xù)分析B.序列測(cè)定及數(shù)據(jù)分析隨機(jī)挑取克隆進(jìn)行5’或3’端測(cè)序序列前處理聚類和拼接基因注釋52測(cè)序方向的原則①EST編碼蛋白質(zhì)的信息應(yīng)滿足同源序列比較分析②決定于用EST來進(jìn)行研究的目的測(cè)序方向的原則53測(cè)序方向的選擇◆5’端5’上游非翻譯區(qū)較短且含有較多的調(diào)控信息。一般在尋找新基因或研究基因差異表達(dá)時(shí)用5’端EST較好,而且從5’端測(cè)序有利于將EST拼接成較長(zhǎng)的基因序列?!?’端3’端mRNA有一20-200bp的polyA結(jié)構(gòu),同時(shí)靠近ployA又有特異性的非編碼區(qū),所以從3’端測(cè)得EST含有編碼的信息較少,但研究非編碼區(qū)有品種的特異性,可以作為STS標(biāo)記.◆兩端測(cè)序獲得更全面的信息。測(cè)序方向的選擇54(1)去除低質(zhì)量的序列(2)應(yīng)用BLAST、RepeatMasker或Crossmatch遮蔽數(shù)據(jù)組中不屬于表達(dá)的基因的贗象序列(artifactualsequences)?!褫d體序列(/repository/vector)

●重復(fù)序列(RepBase,)●污染序列(如核糖體RNA、細(xì)菌或其它物種的基因組DNA等)(3)去除其中的鑲嵌克?。築ack-to-backpoly(A)+tails;Linker-to-linkerinmiddleofthesequence.(4)最后去除長(zhǎng)度小于100bp的序列。序列前處理(1)去除低質(zhì)量的序列序列前處理55聚類的目的就是將來自同一個(gè)基因或同一個(gè)轉(zhuǎn)錄本的具有重疊部分(overlapping)的ESTs整合至單一的簇(cluster)中。聚類作用:產(chǎn)生較長(zhǎng)的一致性序列(consensussequence),用于注釋。降低數(shù)據(jù)的冗余,糾正錯(cuò)誤數(shù)據(jù)。可以用于檢測(cè)選擇性剪切。ESTs聚類的數(shù)據(jù)庫(kù)主要有三個(gè):UniGene(/UniGene)TIGRGeneIndices(/tdb/tgi/)STACK(http://www.sanbi.ac.za/Dbases.html)

ESTs的聚類和拼接聚類的目的就是將來自同一個(gè)基因或同一個(gè)轉(zhuǎn)錄本的具56◆looseclustering●產(chǎn)生的一致性序列比較長(zhǎng)●表達(dá)基因ESTs數(shù)據(jù)的覆蓋率高●含有同一基因不同的轉(zhuǎn)錄形式,如各種選擇性剪接體●每一類中可能包含旁系同源基因的轉(zhuǎn)錄本●序列的保真度低◆stringentclustering●產(chǎn)生的一致性序列比較短●表達(dá)基因ESTs數(shù)據(jù)的覆蓋率低●因此所含有的同一基因的不同轉(zhuǎn)錄形式少●序列保真度高不嚴(yán)格的和嚴(yán)格的聚類不嚴(yán)格的和嚴(yán)格的聚類57利用cDNA克隆的信息和5’、3’端的序列信息,不同的Cluster可以連接在一起。Cluster的拼接利用cDNA克隆的信息和5’、3’端的序列信息,不同的Clu58常用的拼接軟件◆Phrap(/phredphrapconsed.html)◆CAP3(http://pbil.univ-lyon1.fr/cap3.php)◆d2_cluster(http://www.sanbi.ac.za/)常用的拼接軟件◆Phrap(http://w59(1)注釋:◆序列聯(lián)配

Blastn:searchnucleotidedatabasesusinganucleotidequery.

Blastx:searchproteindatabasesusingatranslatednucleotidequery.◆蛋白質(zhì)功能域搜索(二結(jié)構(gòu)比對(duì))

Pfam:

ThePfamdatabaseisalargecollectionofproteinfamilies,eachrepresentedbymultiplesequencealignmentsandhiddenMarkovmodels.

Interpro:

InterProisanintegrateddatabaseofpredictiveprotein"signatures"usedfortheclassificationandautomaticannotationofproteinsandgenomes.基因注釋及功能分類(1)注釋:基因注釋及功能分類60(2)基因功能分類:◆手工分類

大部分以Adams1995年的文章中的采用分類體系為標(biāo)準(zhǔn)?!続dams.MD,etal.Initialassessmentofhumangenediversityandexpressionpatternsbasedupon83millionnucleotidesofcDNAsequence.Nature.1995377(6547Suppl):3-174】◆計(jì)算機(jī)批量處理利用標(biāo)準(zhǔn)基因詞匯體系GeneOntology,進(jìn)行近似的分類。(/)基因注釋及功能分類(2)基因功能分類:基因注釋及功能分類61生物過程分子功能細(xì)胞組件基因本體(GeneOntology,GO)

生物過程基因本體62/GO.downloads.annotations.shtml

/GO63◆比較基因組學(xué)分析◆基因表達(dá)譜分析◆新基因研究◆基因可變剪切分析◆實(shí)驗(yàn)驗(yàn)證

?MicroArray

?GeneChip

?RT-PCR

?Northernblotting后續(xù)分析◆比較基因組學(xué)分析后續(xù)分析64

表達(dá)序列標(biāo)簽(EST)數(shù)據(jù)的應(yīng)用表達(dá)序列標(biāo)簽(EST)65利用對(duì)某一特異組織或某一生長(zhǎng)發(fā)育階段的cDNA文庫(kù),進(jìn)行隨機(jī)部分測(cè)序所得的ESTs,作為查詢項(xiàng)在dbEST中進(jìn)行同源查找,同時(shí)將由ESTs序列按密碼子推出的氨基酸序列作為查詢項(xiàng)在蛋白質(zhì)信息資源數(shù)據(jù)庫(kù)中進(jìn)行同源查找。如果該ESTs序列在以上數(shù)據(jù)庫(kù)中存在同源序列,可對(duì)該ESTs所代表基因的功能進(jìn)行分析及鑒定。如果不存在同源序列,則該ESTs所代表的基因有可能是新基因。1.ESTs與新基因識(shí)別1.ESTs與新基因識(shí)別66表達(dá)序列分析課件67表達(dá)序列分析課件68轉(zhuǎn)錄圖譜為染色體DNA某一區(qū)段內(nèi),所有可轉(zhuǎn)錄序列的分布圖,ESTs作為轉(zhuǎn)錄基因的產(chǎn)物,可直接用于構(gòu)建轉(zhuǎn)錄圖譜。由于ESTs具有很高的多態(tài)性可用作分子標(biāo)記,用于建立遺傳連鎖圖譜。建染色體物理圖譜需要大量的單拷貝序列標(biāo)記位點(diǎn)(STS)作為界標(biāo),由于大多數(shù)基因是單拷貝的,因此ESTs可以充當(dāng)STS構(gòu)建物理圖譜。2.ESTs與遺傳學(xué)圖譜的構(gòu)建2.ESTs與遺傳學(xué)圖譜的構(gòu)建69序列標(biāo)簽位點(diǎn)(sequence-taggedsites,STS):已知核苷酸序列的DNA片段,是基因組中任何單拷貝的短DNA序列,長(zhǎng)度在100~500bp之間來自mRNA的3’非翻譯區(qū)的ESTs更適合做為STSs,用于基因圖譜的繪制。優(yōu)點(diǎn):●由于沒有內(nèi)含子的存在,因此在cDNA及基因組模板中其PCR產(chǎn)物的大小相同。●與編碼區(qū)具有很強(qiáng)的保守性不同,3’UTRs序列的保守性較差,因此很容易將單個(gè)基因與編碼序列關(guān)系非常緊密的相似基因家族成員分開。2.ESTs與遺傳學(xué)圖譜的構(gòu)建序列標(biāo)簽位點(diǎn)(sequence-taggedsites,70由于EST來源于cDNA,因此每一條EST均代表了文庫(kù)建立時(shí)所采樣品特定發(fā)育時(shí)期和生理狀態(tài)下的一個(gè)基因的部分序列。大于90%的已經(jīng)注釋的基因都能在EST庫(kù)中檢測(cè)到。ESTs可以做為其它基因預(yù)測(cè)算法的補(bǔ)充。3.ESTs與基因預(yù)測(cè)由于EST來源于cDNA,因此每一條EST均代表了文庫(kù)建立71通過對(duì)ESTs重疊群組裝,對(duì)大量重復(fù)的ESTs進(jìn)行序列比較,可以從ESTs數(shù)據(jù)庫(kù)中篩選另一種以測(cè)序?yàn)楹诵牡姆肿訕?biāo)記SNPs。來自不同個(gè)體的ESTs可用于發(fā)現(xiàn)基因組中轉(zhuǎn)錄區(qū)域存在的SNPs。注意區(qū)別真正的SNPs和由于測(cè)序錯(cuò)誤而引起的本身不存在的SNPs。解決這一問題可以通過:●提高ESTs分析的準(zhǔn)確性。●對(duì)所發(fā)現(xiàn)的SNPs進(jìn)行實(shí)驗(yàn)驗(yàn)證。4.ESTs與單核苷酸多態(tài)性(SNPs)通過對(duì)ESTs重疊群組裝,對(duì)大量重復(fù)的ESTs進(jìn)行序列比較72

某一時(shí)期基因表達(dá)的數(shù)量通常占全部基因的15%,細(xì)胞的分化由基因特異性的時(shí)空表達(dá)決定。利用未經(jīng)標(biāo)準(zhǔn)化和差減雜交的cDNA文庫(kù)EST可以分析特定組織的基因表達(dá)譜。近年來對(duì)基因差異表達(dá)研究的方法有ESTs法、差減雜交法和mRNA差異顯示技術(shù)。其中以ESTs法穩(wěn)定性最高,分析規(guī)模最大。5.ESTs與基因的差異表達(dá)某一時(shí)期基因表達(dá)的數(shù)量通常占全部基因的15%,細(xì)胞的分化由73癌癥基因組解析計(jì)劃(CancerGenomeAnatomyProject,CGAP)為研究癌癥的分子機(jī)理,美國(guó)國(guó)家癌癥研究所NCI的CGAP計(jì)劃,構(gòu)建了很多正常的或是癌癥前期的和癌癥后期的組織的cDNA文庫(kù),并進(jìn)行了大規(guī)模的EST測(cè)序。CGAP網(wǎng)站提供了多種工具用以分析不同文庫(kù)間基因表達(dá)的差異,如:●DigitalGeneExpressionDisplayer(DGED)●cDNAxProfiler5.ESTs與基因的差異表達(dá)癌癥基因組解析計(jì)劃5.ESTs與基因的差異表達(dá)74DNA芯片是指將許多許多特定的DNA寡核苷酸或DNA片段(包括cDNA)固定在芯片的每個(gè)預(yù)先設(shè)置的區(qū)域內(nèi),將待測(cè)樣本標(biāo)記后同芯片進(jìn)行雜交,通過雜交信息的分析來檢測(cè)基因的功能和基因組研究的分析系統(tǒng)。ESTs是用于制備DNA芯片的很好基因資源。由于ESTs直接來源于cDNA,因此ESTs文庫(kù)可代表cDNA文庫(kù)用于制備DNA芯片所需的探針庫(kù)。6.ESTs與DNA芯片的制備綠色:基因表達(dá)↓紅色:基因表達(dá)↑

黃色:基因表達(dá)相當(dāng)DNA芯片是指將許多許多特定的DNA寡核苷酸或DNA片75基因芯片或微陣列技術(shù)流程….….Clone反轉(zhuǎn)錄(可選)讀取光密度聚類分析(非同源功能注釋)標(biāo)記雜交反轉(zhuǎn)錄EST分析………….………….………….GeneChip0.10.06

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論