8年制生物信息學ppt課件 第11章_第1頁
8年制生物信息學ppt課件 第11章_第2頁
8年制生物信息學ppt課件 第11章_第3頁
8年制生物信息學ppt課件 第11章_第4頁
8年制生物信息學ppt課件 第11章_第5頁
已閱讀5頁,還剩95頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

汕頭大學醫(yī)學院許麗艷第十一章

轉錄調控的信息學分析BioinformaticAnalysisofTranscriptionalRegulation學習提綱

重點:

轉錄因子結合位點的識別及其定位的基本概念和表示方法轉錄因子結合位點識別的操作步驟和相關算法的使用轉錄因子結合位點定位預測軟件的使用學習提綱

難點:

轉錄因子結合位點識別的操作步驟和相關算法的使用

轉錄調控相關數(shù)據庫

熟悉:、基因轉錄調節(jié)的基本模式第一節(jié)引言Introduction二、基因轉錄調節(jié)機制的研究方法實驗方法:熒光素酶報告基因(luciferasereportgene)凝膠遷移(electrophoreticmobilityshiftassays)染色質免疫沉淀(ChIP)DNase足跡法(DNasefootprinting)信息學分析第二節(jié)轉錄調控的高通量實驗測定High-throughputTechniquesinTranscriptionalRegulationAnalysis

一、ChIP技術創(chuàng)立者:

20世紀80年代末

AlexanderVarshavsky等人

(Cell.1988,53(6):937-947

)甲醛交聯(lián),穩(wěn)定蛋白質-DNA復合物裂解細胞,分離蛋白質-DNA復合物加入特異性抗體,沉淀蛋白質-DNA復合物去交聯(lián),純化DNA應用PCR技術,特異性擴增目的DNA片段基本實驗過程:特點:針對某一特定候選轉錄因子,是否特異性結合于所調節(jié)的靶基因某一預定區(qū)域內,如啟動子區(qū),進行檢測。對同一DNA底物,可以運用多種不同的抗體,分別進行免疫共沉淀,以確定多種結合蛋白在同一染色質片段上的結合。二、ChIP-chip技術創(chuàng)立者:

2000年,RichardA.Young等人

(Science.2000,290(5500):2306-2309)ChIP和芯片技術的聯(lián)合運用全基因組范圍內的定位分析靶基因群的高通量分析特點:不足之處:成本較高結果分析的標準化尚待完善分辨率較低,大于200bp基因芯片是“封閉系統(tǒng)”,只能檢測已知序列三、ChIP-seq技術創(chuàng)立者:

2007年,StevenJ.M.Jones等人

(Science.2000,290(5500):2306-2309)特點:染色質免疫沉淀后的DNA,直接進行高通量測序是一個“開放系統(tǒng)”。它可以檢測更小的結合區(qū)段、未知的結合位點、結合位點內的突變情況和蛋白親合力較低的區(qū)段成本低,周期短,省去了標記和雜交等步驟,并且無需多次重復實驗,極大提高了工作效率分辨率可提高到30~50bp

第三節(jié)轉錄因子結合位點的信息學預測方法PredictionofTranscriptionalFactorBindingsites一、轉錄因子結合位點的的表示方法(一)共性序列(consensussequence)

將能與同一個轉錄因子結合的所有DNA片段按照對應位置進行排列,在每個位置上選擇最可能出現(xiàn)的堿基,就組成了該轉錄因子結合位點的共有序列。共性序列中用A、C、G、T之外的字母來表示結合位點中各個位置上可能出現(xiàn)的堿基組合,這些字母稱為IUPAC簡并碼。共性序列的表示方法簡明易懂,卻不能夠反映每個位置上不同堿基出現(xiàn)的概率。

IUPAC簡并碼IUPACcodeNucleotideIUPACcodeNucleotideWAorTBC,GorTRAorGDA,GorTKGorTHA,CorTSCorGVA,CorGYCorTNA,C,GorTMAorC(二)位置頻率矩陣(positionfrequencymatrix)

位置頻率矩陣可以反映出每個位置上不同堿基出現(xiàn)的概率。該模型的一個前提假設是各個位置上堿基出現(xiàn)的概率相互獨立。矩陣每一列表示模體相應位置上四種堿基出現(xiàn)的概率。對于長度為n的模體,堿基i(i={A,C,G,T})在模體第j

個位置上出現(xiàn)的頻率為q

i,j,則整個模體用矩陣M表示如下:(三)序列標識圖(sequencelogo)

序列標識圖依次繪出模體中各個位置上出現(xiàn)的堿基,每個位置上所有堿基的高度和反映了該位置上堿基的一致性,每個堿基字母的大小與堿基在該位置上出現(xiàn)的頻率成正比。這種表示方法直觀地給出模體各個位置上堿基出現(xiàn)的傾向性和整個模體的序列的一致性。二、轉錄因子結合位點的識別基本概念:通過收集可能被同一轉錄因子調控的基因啟動子序列,在其中尋找具有統(tǒng)計顯著性的短片段,作為轉錄因子可能的結合位點,稱之為轉錄因子結合位點的識別基本流程:收集可能被同一轉錄因子調控的多基因序列

通過多種計算方法從不同角度或不同層面去進行計算、評估和分析,盡可能地屏蔽掉冗余序列和噪音序列,尋找出具有統(tǒng)計顯著性的短片段,作為轉錄因子可能的結合位點查詢相關轉錄因子數(shù)據庫,以確定轉錄因子基本流程(一)獲得靶向序列從基因差異表達譜芯片數(shù)據出發(fā)獲得啟動子序列。利用NCBI上相關核酸數(shù)據庫選取轉錄起始位點附近1000~2000bp的長度作為啟動子區(qū)從差異表達蛋白質數(shù)據出發(fā)獲得啟動子序列。從SWISS-PROT和NCBI等數(shù)據庫中獲得編碼基因的啟動子區(qū)從ChIP-chip和ChIP-seq數(shù)據出發(fā)獲得結合位點序列。(二)轉錄因子結合位點識別的計算方法1.單個模體預測算法2.比較基因組學基于共有序列的識別方法:MobyDick和YMF算法

基于位置頻率矩陣的識別方法:

MEME和GibbsMotifSampler算法遺傳系譜印記法:

PhyMe、PhyloGibbs和PhyloCon

等方法3.順式調控模塊識別方法

CisModule、GibbsModuleSampler和

EMCModule方法4.基于啟動子區(qū)重要性差異的識別算法

MDScan和DME算法5.SISSRs算法(三)處理識別結果去冗余及質量控制

Motifclass法通過回歸分析尋找特定條件下起作用的模體REDUCE算法:以模體出現(xiàn)的次數(shù)作為自變量來進行簡單線性回歸MatrixREDUCE算法:用位置頻率矩陣的打分作為自變量進行回歸MARSMotif-M算法:多變量適應回歸模型

轉錄因子結合位點分析可利用網絡資源CategoryProgramURLSinglemotifdiscoveryMobyDick/mobydick/YMF/software.htmlConsensus/software.htmlMEME/meme/intro.htmlGibbsSampler/gibbs/gibbs.htmlMDScan/~xsliu/MDscan/DME/software/index1.htmSISSRs/papers/lmi/epigenomes/sissrs/ComparativegenomicsPhyMe/cgi-bin/phyme/download.plPhyloGibbshttp://www.imsc.res.in/~rsidd/phylogibbs/Cis-moduleanalysisCisModule/~zhou/CisModule/EMCModule/~gupta/emcmodule.htmlRegressionmethodsREDUCE:8080/reduce/MatrixREDUCE/software/MatrixREDUCE/MotifRegressor/~conlon/mr.htmlMarsMotif-M/software/index1.htmMotifsearchDatabaseTRANSFAC/Jasparhttp://jaspar.cgb.ki.se/DBTBShttp://dbtbs.hgc.jp/TRED/cgi-bin/TRED/tred.cgi?process=home三、轉錄因子結合位點的定位基本概念:根據若干已知的轉錄因子結合位點的模體,在所研究基因的啟動子區(qū)域內搜索相應轉錄因子可能的結合位點,稱之為轉錄因子結合位點的定位對任一長度為n的已知模體位置頻率矩陣M,轉錄因子結合位點定位就是判斷某一長度為n的序列片段與M的匹配程度??紤]到DNA序列本身有可能存在堿基組成上的偏向性,通常把位置頻率矩陣轉換為位置權重矩陣。用位置權重矩陣的打分來衡量模體與任意給定序列的匹配程度。(一)轉錄因子結合位點定位的計算方法位置權重矩陣在位置權重矩陣中,引入堿基i(i={A,C,G,T})在背景序列中出現(xiàn)的頻率(記為bi)來消除DNA序列本身堿基組成偏向性的影響。位置權重矩陣的每一項記為Si,j:則M被轉換為的位置權重矩陣S為:對于長度為n的DNA序列片段,它作為模體M對應的轉錄因子結合位點的打分為:tj

表示相應序列第j個位置上出現(xiàn)的堿基。給定閾值T,如果序列片段由上式給出的打分S≥T,則認為它有可能是相應轉錄因子的結合位點。(二)轉錄因子結合位點的預測1.TRANSFACAliBabaP-MatchPatchMatrixCatch2.TESS/cgi-bin/tess/tess4.分析結果1.粘貼序列2.選擇參數(shù)3.開始搜索P-Match-Public1.0Public1.粘貼序列2.選擇參數(shù)3.提交序列4.分析結果1.粘貼序列3.開始分析4.分析結果2.選擇參數(shù)3.開始搜索4.分析結果1.粘貼序列2.選擇參數(shù)第一步:進入TESS主頁,并輸入感興趣的序列;點擊“Submit”提交,或點擊“fullsearchform”進入參數(shù)選擇界面第二步:點擊”Summary“下的超鏈接,查看結果第三步:點擊”ResultNavigation“下的超鏈接,輸出結果第四步:分析結果;也可返回,優(yōu)化參數(shù),重新開始第四節(jié)轉錄調控相關數(shù)據庫TranscriptionalRegulationDatabases

一、TRANSFAC數(shù)據庫(

)TRANSFAC7.0數(shù)據庫收集的數(shù)據TableTRANSFAC_7.0FACTOR6133其中:Homosapiens(人類)

1040Musmusculus

(小鼠)765D.melanogaster

(黑腹果蠅)233A.thaliana

(擬南芥)1751S.cerevisiae

(啤酒酵母)368SITE7915MATRIX398GENE(allentries)2397其中:H.sapiens608M.musculus417D.melanogaster145A.thaliana115S.cerevisiae195GENE(entrieswithSITElinks)1504CLASS50CELL1307二、JASPAR數(shù)據庫(http://jaspar.cgb.ki.se)JASPAR數(shù)據庫的特點數(shù)據庫名稱特點JASPARCORE高質量,非冗余的轉錄因子數(shù)據庫,收錄了460個序列模式,用于尋找特異轉錄因子模型或其結構類型JASPARFAM包含11種轉錄因子結構類型的模型。用于搜索未知基因組序列某一轉錄因子家族的共有模式和鑒定新模式的分類JASPARPHYLOFACTS由174種系統(tǒng)發(fā)育中保守的基因上游調控元件組成。用于分析啟動子的組織特異性JASPARPOLII保存了13種與RNA聚合酶II核心啟動子連接的DNA模型。用于分析潛在的核心啟動子JASPARCNE收集了233個人類保守的非編碼元件,但是其生化和生物學功能尚不清楚。用于分析潛在的增強子。JASPARSPLICE包含有6種人類高度可靠的經典和非經典剪切位點的矩陣模式。用于分析剪切位點和選擇性剪切JASPARPBM保存有104種小鼠轉錄因子矩陣模式JASPARPBMHOMEO保存有176種小鼠同源結構域矩陣模式JASPARPBMHLH保存有19種線蟲堿性螺旋環(huán)螺旋(bHLH)轉錄因子模型三、TRED數(shù)據庫(/TRED)TRED數(shù)據庫統(tǒng)計表相關數(shù)據人類小鼠大鼠版本hg15:UCSCHumanGoldenPathApr.03mm3:UCSCMouseGoldenPathFeb.03rn2:UCSCRatGoldenPathJan.03基因數(shù)309813168326064啟動子數(shù)582295076430386轉錄因子有效靶點3409個基因,9085個啟動子,1249個結合模體1126個基因,3089個啟動子,366個結合模體461個基因,1132個啟動子,150個結合模體同源組數(shù)(兩種或三種)23471與腫瘤相關的36個轉錄因子家族成員所靶向的啟動子/基因數(shù)轉錄因子家族人類小鼠大鼠AP1(ActivatorProtein1)432/383217/190157/143AP2(ActivatorProtein2)338/318123/12390/86AR(AndrogenReceptor)69/4919/1924/15ATF(ActivatingTranscriptionFactor)189/17359/5926/26BCL(B-cellCLL/lymphoma)21/1915/150/0BRCA(breastcancersusceptibilityprotein)20/204/40/0CEBP(CCAAT/enhancerbindingprotein335/325152/134241/179CREB(cAMPresponsiveelementbindingprotein)224/220138/13395/93E2F(E2Ftranscriptionfactor)1593/1329141/12711/11EGR(earlygrowthresponseprotein)120/11167/5533/26ELK(memberofETSoncogenefamily)47/4115/136/6ER(EstrogenReceptor)169/15240/3932/31ERG(ets-relatedgene)21/215/50/0ETS(ETS-domaintranscriptionfactor)445/412207/19651/51FLI1(friendleukemiaintegrationsite1)41/4117/160/0GLI(glioma-associatedoncogenehomolog)16/168/80/0HIF(Hypoxia-induciblefactor)119/11263/6029/29HLF(hepaticleukemiafactor)10/105/52/2HOX(homeoboxgene)65/5793/815/5LEF(lymphoidenhancingfactor)40/3326/235/5MYB(myeloblastosisoncogene)253/23940/406/6MYC(myelocytomatosisviraloncogenehomolog)2676/785108/38128/62NFI(nuclearfactorI;CCAAT-bindingtranscriptionfactor136/12775/6273/65NFKB(NuclearfactorkappaB,reticuloendotheliosisoncogene)445/396202/18187/87OCT(Octamerbindingproteins)232/195123/10834/34p53(P53family)337/313135/13032/30PAX(pairedboxgene)52/4776/6113/11PPAR(Peroxisomeproliferator-activatedreceptor)149/149125/12488/84PR(ProgesteroneReceptor)31/2714/1410/10RAR(retinoicacidreceptor)233/21871/7140/40SMAD(MothersAgainstDecapentaplegichomolog)139/13076/7517/17SP(sequence-specifictranscriptionfactor)655/515296/263235/220STAT(signaltransducerandactivatoroftranscription)245/218111/10648/46TAL1(T-cellacutelymphocyticleukemia-1protein)15/149/60/0USF(upstreamstimulatoryfactor)235/21594/9172/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論