




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、基于ChIP-seq數(shù)據(jù)HMM方法識別全基因組的差異組蛋白修飾位點摘要目的:表觀遺傳修飾是調(diào)控基因表達和基因組功能的一個主要因素。在不同的表觀遺傳修飾中,差異組蛋白修飾位點(DHMSs)是不同細胞類型、時期和環(huán)境影響時,表觀遺傳動態(tài)性質(zhì)和基因表達調(diào)控的一個研究熱點。為了測定全基因組的組蛋白修飾,ChIP-seq技術(shù)是一種有效的方法。因此,通過比較兩個ChIP-seq文庫可以識別潛在的DHMSs。結(jié)果:我們的目的是識別DHMSs,提出一種稱為ChIPDiff的方法來通過ChIP-seq測定的數(shù)據(jù)全基因組比對組蛋白修飾位點?;谟^察的ChIP片段數(shù),提出了一個隱馬模型的方法推斷每個基因組位置的組蛋
2、白修飾變化狀態(tài)。我們通過比對小鼠ESC和NPC細胞的H3K27me3修飾位點來評估ChIPDiff的效果。我們證明了此方法確定H3K27me3 的DHMSs具有高靈敏度,特異性和重復(fù)性。進一步應(yīng)用ChIPDiff揭示不同細胞時期的差異H3K4me3和H3K36me3位點。我們研究中的比對有很多有趣的生物學(xué)發(fā)現(xiàn)。1.介紹真核DNA是被打包到一個由周圍環(huán)繞組蛋白的DNA的重復(fù)核小體組成的染色質(zhì)結(jié)構(gòu)。組蛋白可以發(fā)生大量的翻譯后修飾如,甲基化,乙?;?,磷酸化和泛素化。組蛋白修飾影響基因表達和基因組功能。大量實驗證明一些組蛋白甲基化類型在生物學(xué)過程中起主要作用。一個典型的例子是在哺乳動物胚胎干細胞通過H
3、3K27me3抑制發(fā)育調(diào)控維持干細胞多能性。在癌癥中也特異的發(fā)現(xiàn)一些表觀遺傳K27干細胞標(biāo)記。此外,H3K9me3、H3K9me2和癌細胞中沉默腫瘤抑制基因相關(guān)。因此,特異基因組位置的差異組蛋白修飾密度,文中稱為差異組蛋白修飾位點“DHMS”,在不同細胞類型,時期和環(huán)境影響是比較研究的重點。我們可以用染色質(zhì)免疫共沉淀(ChIP)來測定組蛋白修飾信號,抗體用于富集修飾位點的DNA片段。在過去的幾年開發(fā)了幾種基于ChIP的技術(shù),包括ChIP-chip, ChIP-PET and ChIP-SAGE,用于大規(guī)模基因組區(qū)域的組蛋白修飾和轉(zhuǎn)錄因子結(jié)合位點研究。隨著最近超高通量測序技術(shù)如Illumina/
4、 Solexa GA 測序的產(chǎn)生,ChIP-seq成為一個主要的高覆蓋、高分辨率和低成本的方法。ChIP-seq的基本思想是讀取ChIP富集的序列的一端,接著映射這些短讀稱為tag到基因組上以找到這些片段的基因組位置。一個ChIP文庫中有百萬個tag標(biāo)簽測序,形成一個代表全基因組與組蛋白修飾位點和轉(zhuǎn)錄因子結(jié)合位點的ChIP片段數(shù)的譜。受到ChIP-seq在單個文庫識別組蛋白修飾位點的鼓舞,我們想是否可以通過計算的比較不同細胞類型和實驗條件的兩條ChIP-seq文庫來識別DHMS。Mikkelsen等人測定了小鼠ESC、NPC和MEF細胞的H3K4me3 (K4) 和 K27位點,比較三種類型啟
5、動子區(qū)域修飾位點的發(fā)生。他們研究的局限在于修飾位點是定性的比較而非定量。一個例子說明了這種局限,K4調(diào)控K1f4,已知其和基因表達正相關(guān)。K1f4在ESC和NPC啟動子定性分析中都標(biāo)記K4,因此不能解釋在ESC的K1f4上調(diào)。另一方面,定量比較表明ESC的K1f4啟動子的K4密度比NPC多5倍,這和表達變化是一致的。據(jù)我們所知,幾乎沒有全基因組定量比較兩個ChIP-seq文庫的文獻。受芯片分析的啟發(fā),一個簡單的解決這個問題的方法是將基因組分為箱bins,計算每個binChIP片段數(shù)的倍數(shù)變化。然而,fold-change方法對由ChIP片段隨機樣本的技術(shù)變化時敏感的。本文中,我們提出的方法稱為
6、ChIPDiff通過考慮連續(xù)bin之間的相關(guān)性改進了fold-change方法。我們用隱馬模型建立相關(guān)性,轉(zhuǎn)移概率用一種無監(jiān)督方式自動訓(xùn)練。接下來通過訓(xùn)練HMM參數(shù)來推斷組蛋白修飾狀態(tài)的變化。為了評估ChIPDiff的性能,我們首先比較Mikkelsen數(shù)據(jù)ESC和NPC的K27文庫。在全基因組識別了4277個k27的DHMS區(qū)域。三個標(biāo)準(zhǔn)顯示效果是令人滿意的:(a)敏感性:2006年在高度保守的非編碼元件中,80%的從基因表達推斷的DHMSs被ChIPDiff確定。(b)特異性:基于非細胞特異性控制比對,我們估計識別的DHMS區(qū)域的假陽性率是0.19%。(c)重復(fù)度:檢查兩個獨立的子集的結(jié)果
7、的交集,顯示3-4百萬個tags測序的57.4的DHMSs在技術(shù)上重現(xiàn),評價結(jié)果還表明,在所有三個方面的定性分析,該方法優(yōu)于fold-change的方法。我們進一步應(yīng)用ChIPDiff到H3K4me3(K4)和H3K36me3(K36),發(fā)現(xiàn)這兩種類型組蛋白修飾的DHMSs和研究了他們在干細胞分化潛在的生物的作用。研究中有幾個有趣的生物學(xué)發(fā)現(xiàn)。2.方法2.1確定組蛋白修飾位點給定來個ChIP-seq文庫,L1和L2,識別DHMSs的第一步是確定L1和L2的組蛋白修飾假定的位點。這部分詳述這一步。ChIP-seq實驗產(chǎn)生的原始數(shù)據(jù)的tags被映射到基因組,獲得它們的位置和方向。由于ChIP-se
8、q實驗的PCR過程,大量的tags可能源于一個單一的ChIP片段。為了移除這一重復(fù)性,映射到相同位置和相同方向的tags被作為一個單一的copy。注意到在ChIP-seq協(xié)議一個單一的tag是通過測序一個ChIP片段的末端得到的,平均長度是200bp。因此我們通過其方向的100bp轉(zhuǎn)移tag的位置近似估計響應(yīng)ChIP片段的中心。全基因組被分成1k-bp的bin,計算每個bin的ChIP片段中心數(shù)。預(yù)處理過程之后,產(chǎn)生ChIP片段數(shù)譜??紤]到基因組有m個bin,譜L1和L2分別表示為X1 = x1.1,x1.2,.x1.m 和X2 = x2.1,x2.2,.x2.m。其中xij是在Li中第j個b
9、in的片段數(shù)。為了描述每個bin中片段的結(jié)合富集,我們定義F值標(biāo)準(zhǔn)化測序的深度:其中n1和n2是L1和L2測序片段的總數(shù),如圖。 Mikkelson et al.(2007)和Robertson et al.(2007)指出有與重復(fù)序列區(qū)域的存在,并不是所有的bin都能在tag映射程序中檢測到。讓記為基因組“有效”的bin,分值F的期望在有效bin時是F(i)/(m×),等于2/(m×)。Mikkelson et al.(2007)估計小鼠基因組的等于0.7。如果一個bin的F值大于2/(m×),我們標(biāo)記其為一個推測的組蛋白修飾位點。1k bp內(nèi)的連續(xù)修飾位點彼此
10、分開被合并為組蛋白修飾區(qū)域。2.2用Fold-change方法定量的比較修飾強度為了便于定義和描述,文章其他部分將介紹的基于推定的組蛋白修飾區(qū)域在2.1介紹,假設(shè)一個區(qū)域包含k個bin,我們定義L1和L2的ChIP片段數(shù)分別為x1.i,x2.i,在區(qū)域的第i個bin(i=1,1,k)。組蛋白修飾表現(xiàn)出對各種動力性和化學(xué)計量性。對一個ChIP實驗,我們定義文庫Lj的第i個bin的修飾強度是任意ChIP片段來自ChIP過程第i個bin的概率,定義為pj,i。由于提取和測序ChIP片段是一個隨機抽樣過程,文庫Lj的第i個bin的觀察片段xj,i的后驗概率,強度的條件概率pj,i,近似服從二項分布:(
11、1)我們接下來估計先驗概率pj,i服從beta分布:(2)B(,)是beta函數(shù)。注意到beta分布先于二項是共軛的,所以條件概率也服從beta分布,期望等于。在我們的應(yīng)用中,參數(shù)和設(shè)為1和m,m是基因組中bin的總數(shù)(詳見補充方法)。我們定義一個DHMS,當(dāng)一個bin內(nèi)L1和L2的強度比值大于(L1富集DHMS)或者小于1/(L2富集DHMS)。是一個預(yù)先確定的閾值,值1。一個簡單識別DHMSs的方法是估計ChIP片段數(shù)的期望強度(更好的是對數(shù)比)的倍數(shù)變化,如下:(3)基于方程(3)的對數(shù)比估計顯示圖1(a)。fold-change法的一個缺陷是由于隨機抽樣引起技術(shù)差異。圖1(b)顯示一個
12、RI-plot描述了依據(jù)強度的log比值變化。當(dāng)強度相對較小,log值的變化太高,這可能引起大量的假陽性。2.3一個基于隱馬模型的方法識別DHMSs組蛋白修飾通常發(fā)生在連續(xù)區(qū)域范圍是幾百甚至上千個核苷酸。因此可以期望連續(xù)的bin測量的強度變化可能強相關(guān)。通過觀察ChIP-seq譜支持這一觀點。例如,圖1(a)的log比值譜的自相關(guān)是0.84。在ChIP-chip數(shù)據(jù)分析中,Li et al.(2005)年設(shè)計的HMM模型構(gòu)建連續(xù)探針之間的信號相關(guān)成功的應(yīng)用于識別p53結(jié)合位點,表示HMM在我們研究中應(yīng)用的潛在可能性。在此我們提出一個基于HMM的方法,ChiPDiff來解決這一問題。我們定義Si
13、為第i個bin的組蛋白修飾變化狀態(tài)(i=1到k),基于2.2對于DHMS的定義,狀態(tài)Si為以下三個值之一:0:無差別位點,if 1/p1,i/p2,i ;1:L1富集DHMS,if p1,i/p2,i;2:L2富集DHMS,if p1,i/p2,i1/。我們建模bin間的相關(guān)性作為一個一階馬爾可夫鏈Pr( Si|S0,S1,., Si-1)= Pr(Si|Si-1),S0是區(qū)域內(nèi)第一個bin前的起始狀態(tài)。一個HMM實施是通過觀察片段數(shù)推斷狀態(tài)的后驗概率分布。HMM的三個特征:起始狀態(tài)S0的先驗概率,emission發(fā)射概率,和狀態(tài)轉(zhuǎn)移概率。初始狀態(tài)S0采用固定值0,因為我們假定兩個文庫中區(qū)域起
14、始位置是組蛋白修飾缺乏的基因組位置。我們通過整合所有可能的Si值的p1,i和p2,i得到emission發(fā)射概率讀者可以參考補充方法的詳細推導(dǎo)。在等式(4)中,服從二項分布(1),服從beta分布(2)。轉(zhuǎn)移概率列表由Baum-Welch算法訓(xùn)練得到,采用期望最大化(EM)步驟以無監(jiān)督的方式從隱藏狀態(tài)迭代估計HMM的參數(shù)。訓(xùn)練過程中,傳輸參數(shù)初始化是統(tǒng)一的,初始狀態(tài)S0和狀態(tài)傳輸概率如以上描述確定。因為轉(zhuǎn)移概率表在整個基因組是相同的,是通過所有推定的組蛋白修飾區(qū)域轉(zhuǎn)移頻率累加訓(xùn)練的(train)。在ChiPDiff的最后一步,每個bin中的概率分布狀態(tài)由forward-backward算法推斷
15、。如果bin的后驗概率大于置信閾值(0<<1)當(dāng)Si=1或Si=2定為一個DHMS區(qū)。連續(xù)的沒有縫隙的DHMS被合并為一個DHMS。ChiPDiff最大計算量的一步是訓(xùn)練轉(zhuǎn)移概率表。兩個策略可以減少計算量(a) 訓(xùn)練HMM之前,發(fā)射概率的積分被數(shù)值計算的而且被編寫成一張查詢列表。(b)我們允許轉(zhuǎn)移概率列表基于從推定組蛋白修飾區(qū)域隨機選擇子集訓(xùn)練。3.結(jié)果我們應(yīng)用ChIPDiff處理Mikkelson實驗數(shù)據(jù),ChIPDiff的的性能通過比較小鼠ESC和NPC的H3K27me3文庫評估。我們又應(yīng)用ChIPDiff處理H3K4me3和H3K36me3數(shù)據(jù)發(fā)現(xiàn)了DHMSs而且研究它們在干
16、細胞分化中潛在的生物學(xué)作用。3.1 H3K27me3數(shù)據(jù)評估選用H3K27me3評估的原因是因為它的DHMSs在高度保守的非編碼元件(HCNEs)已經(jīng)有人研究。而且,K27優(yōu)先標(biāo)記基因區(qū)域功能作為抑制子,這有利于我們利用表達數(shù)據(jù)間接的驗證。我們用ChIPDiff比較ESC和NPC的K27文庫,fold-change閾值設(shè)為3.0置信閾值為0.95.HMM隨機訓(xùn)練10000次選定組蛋白修飾區(qū)域,26230bins認定為DHMS是,對應(yīng)于4722連續(xù)區(qū)域。它們中3,833 (81.2%)區(qū)域ESC富集,889 (18.8%)NPC富集,這意味著細胞分化時期K27消耗的整體趨勢。我們首次評估了ChI
17、PDiff的性能通過確定其生物學(xué)意義,如敏感性。Bernstein發(fā)現(xiàn)K27在ESC中富集在高度保守的非編碼元件(HCNEs),抑制發(fā)育調(diào)控子的數(shù)量來維持細胞的stemness。這些組蛋白標(biāo)記在不同分化細胞中消失。HCNEs中,我們選擇了223個基因,Mikkelson研究了它們的表達。因為K27作為功能抑制子,這些中的一些被K27標(biāo)記的HCNEs在NPC中上調(diào),我們認為在這些基因DHMSs被確定。與預(yù)期相同,一個包含30個上調(diào)基因的子集被確定,標(biāo)準(zhǔn)化超過4倍。它們中80%被標(biāo)記的由ChIPDiff識別的DHMSs在啟動子區(qū)域轉(zhuǎn)錄起始位點±1kb。相反,193個基因中只有19.2%在
18、NPC中被DHMSs標(biāo)記的不上調(diào)。為了檢驗ChIPDiff的特異性,我們需要評估錯誤識別的不是細胞特異的DHMS區(qū)域的片段。針對這一目的,我們將這一文庫分為兩個技術(shù)復(fù)制本:Lesc,rep1和Lesc,rep2,Lnpc,rep1和Lnpc,rep2。復(fù)制樣本的tag組成取自ChIP-seq實驗的不同通道,有相似的測序depth(見補充表四復(fù)制本的通道)。通過合并tags產(chǎn)生兩個新的文庫分別是Lesc,rep1和Lnpc,rep1,Lesc,rep2和Lnpc,rep2。因為復(fù)制本有相似的測序depth,兩個文庫的差異不是細胞特異的可能只是實驗技術(shù)變化的影響。比較這些非細胞特異的控制集,Chi
19、PDiff識別出9個差異的區(qū)域,因此我們估計在識別細胞特異比較時DHMS區(qū)時假陽性率為0.19(9/4722)。我們通過構(gòu)建兩個獨立的細胞特異比對途徑passes檢測重復(fù)性:Lesc,rep1vs.Lnpc,rep1,Lesc,rep2vs.Lnpc,rep2。為了測量重復(fù)性,我們定義一個分?jǐn)?shù)作為兩個passes均識別的DHMSs數(shù)目與單個pass識別DHMSs平均值的比值。結(jié)果得ChIPDiff重復(fù)分?jǐn)?shù)為57.4%。注意到重復(fù)性的條件是重復(fù)本的測序depth在3到4百萬個tags(補充表4)。為了比較不同方法的效果,我們重復(fù)比較fold-change法和定量方法的敏感性、特異性和重復(fù)度。在定
20、量方法中,ESC和NPC的K27修飾位點單個識別用Mikkelson的方法,K27位點只在單個細胞類型標(biāo)記識別為DHMSs。連續(xù)的DHMSs合并為DHMS區(qū)。為了公正的比對,閾值調(diào)整使所有三種方法DHMSs區(qū)域相似數(shù)目被確定(因為閾值選的離散值,所以這個數(shù)目不同)。評估結(jié)果總結(jié)見表1。ChIPDiff所有三方面均優(yōu)于其他兩種方法。Fold-change和定量的方法都有高的假陽性率,表示這些方法對技術(shù)變化和實驗偏差是敏感的。3.2應(yīng)用H3K4me3和H3K36me3數(shù)據(jù)我們擴展我們的數(shù)據(jù)研究到H3K4me3和H3K36me3。這兩種修飾類型以不同的方式正向調(diào)控基因表達。Guenther2007發(fā)
21、現(xiàn)K4在基因轉(zhuǎn)錄起始標(biāo)記活性啟動子,而K36發(fā)生在基因區(qū)作為延伸的標(biāo)志。我們之前的研究(Zhao等人)也顯示K4和K27在人類ESC中建立不同的基因組區(qū)域活性和非活性染色質(zhì)結(jié)構(gòu)。這引起我們研究NPC和ESC之間這些組蛋白修飾的DHMSs的興趣。此外,K4位點通常在ChIP-seq譜轉(zhuǎn)錄起始位點周圍急劇以點狀的模式出現(xiàn),而K36位點出現(xiàn)以更寬的模式,提供一種全面的檢驗-bed評估我們方法對于不同組蛋白修飾的適用性。我們用3.1提到的ChiPDiff運行相同的文庫。結(jié)果見表2。連續(xù)的DHMSs合并在一起。值得注意的是,K4在ESC富集的DHMSs遠遠大于在K4在NPC富集的DHMSs??紤]到這種不平衡也出現(xiàn)在K27,我們假設(shè)被K4和K27標(biāo)記的二價染色質(zhì)結(jié)構(gòu)可能相關(guān)(Bernstein2006)。接下來的分析中,我們發(fā)現(xiàn)3833個ESC的K27 DHMSs中的1961(51.2%)個與K4的DHMSs重疊。相反,K36和K27傾向于互相排斥:只有8個(0.21%)個DHMS重疊。為了研究DHMSs和基因表達的相關(guān)性,我們注釋DHMSs區(qū)的Refseq基因和基因表達數(shù)據(jù)。為了去除冗余,基因注釋最長ORF選擇是如果相同的轉(zhuǎn)錄本注釋到相同的基因,結(jié)果篩選一共18795個唯一的基因。如圖2所示,K4和K36共調(diào)控基因表達強顯著相
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度生物醫(yī)藥技術(shù)聘用協(xié)議
- 二零二五年度科技園區(qū)銀行貸款擔(dān)保協(xié)議
- 二零二五年度房屋買賣及戶外景觀設(shè)計合同
- 2025年度森林資源保護與植樹造林合作合同
- 2025年度薪資調(diào)整與員工家庭關(guān)愛補充協(xié)議
- 2025年度高校畢業(yè)生就業(yè)三方協(xié)議書編制指南
- 二零二五年度航空航天制造業(yè)高級工程師用工勞動合同
- 物流行業(yè)投標(biāo)服務(wù)承諾及保障措施
- 初中英語教師職業(yè)生涯發(fā)展策略
- 中小學(xué)教師職業(yè)行為規(guī)范學(xué)習(xí)體會
- 第三單元名著閱讀《經(jīng)典常談》課件 2023-2024學(xué)年統(tǒng)編版語文八年級下冊11.22
- 江西省上饒市余干縣沙港中學(xué)2024-2025學(xué)年八年級上學(xué)期競賽生物學(xué)試卷(無答案)
- 2024年《認證基礎(chǔ)》真題及答案
- 淤地壩應(yīng)急處置
- 神經(jīng)外科主要治病
- 農(nóng)資打假監(jiān)管培訓(xùn)
- 鸚鵡介紹課件教學(xué)課件
- 汽車檢測技術(shù)課件 任務(wù)一 認識汽車檢測站
- 貴州省2025年初中學(xué)業(yè)水平考試英語 模擬試題卷(一)(含答案不含聽力原文及聽力音頻)
- DB35T 2056-2022 城市軌道交通綜合監(jiān)控系統(tǒng)網(wǎng)絡(luò)安全實施要求
- 高中化學(xué)合格考重點知識點必背小節(jié)
評論
0/150
提交評論