下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、人類(lèi)基因組中的CpG島上的所有甲基化區(qū)段的測(cè)定摘要:CpG島的甲基化在各種生物過(guò)程中發(fā)揮了重要作用。為了探討人類(lèi)基因組中CpG島 上所有區(qū)段的甲基化,我們運(yùn)用一個(gè)模型測(cè)定CpG島上甲基化區(qū)段。從這個(gè)模型進(jìn)行其他 現(xiàn)有的方法。我們?cè)谡麄€(gè)人類(lèi)基因組運(yùn)用該模型并且測(cè)定CpG島上所有甲基化的區(qū)段的。 基于輪廓的甲基化,我們發(fā)現(xiàn)大約31%的CpG島傾向于甲基化而且,位于啟動(dòng)區(qū)CpG島很 少甲基化。在染色體G帶和R帶之間CpG島的甲基化水平?jīng)]有顯著不同。在抵制甲基化的 啟動(dòng)子CpG島上,RNA聚合酶II的含量有顯著提高,這表明有這樣的啟動(dòng)子CpG島的基 因傾向于更加活躍。關(guān)鍵詞:DNA甲基化區(qū)段;CpG島
2、;測(cè)定模型;特征選擇在哺乳動(dòng)物中,DNA甲基化是一個(gè)主要的表觀遺傳修飾。在各種各樣的生物現(xiàn)象包括 胚胎發(fā)育、基因組印記和X-chromosome失活中都需要它。在哺乳動(dòng)物中,DNA甲基化受限 于殘留在CpG二核苷酸中的胞嘧啶。雖然在人類(lèi)基因組中大多數(shù)CpG二核苷酸是被甲基化 的,但是CpG島(CGIs)在正常的體細(xì)胞組織中是完全抗甲基化的。根據(jù)Gardiner-Garden序 列的標(biāo)準(zhǔn),一個(gè)CGI是一個(gè)G和C含量高的區(qū)域,以及觀察與預(yù)期的CpG的比率:G+C含 量超過(guò)50%,觀察與預(yù)期的CpG的比率超過(guò)0.6并且長(zhǎng)度高于200bp。近年來(lái),有越來(lái)越多的證據(jù)表明一些CGIs在正常組織中事實(shí)上是甲
3、基化。作為啟動(dòng)子 CGIs異常的甲基化與癌癥的發(fā)生和發(fā)展是密切相關(guān)的,這非常有益于識(shí)別正常的組織中 CGIs甲基化的狀態(tài)。然而,由于當(dāng)前生物檢測(cè)技術(shù)的大量精力需求、高成本和報(bào)道限制, 因此在人類(lèi)基因組中所有CGIs的甲基化依然沒(méi)有前景。在這次研究中,我們構(gòu)建了一個(gè)計(jì)算模型,采用支持向量機(jī)預(yù)測(cè)了 CGIs甲基化現(xiàn)狀。DNA序列特征和組蛋白修飾標(biāo)志都明顯差異地用于區(qū)分抗甲基化CGIs (U-CGIs)和甲基化 傾向CGIs (M-CGIs),該模型的表現(xiàn)比我們以前的工具和其他現(xiàn)有的方法更好。將該模型應(yīng) 用于人類(lèi)基因組所有CGIs,我們得到一個(gè)預(yù)期的人類(lèi)基因組中CGIs甲基化景觀,并發(fā)現(xiàn)大 約31%
4、的CGIs是有甲基化傾向的,這與Yamada et al.的有關(guān)大約三分之一的CGIs進(jìn)行DNA 甲基化的研究是一致的。所有的染色體中的CGIs中,雖然只有大約6%的啟動(dòng)子CGIs很容 易被甲基化,但是位于性染色體中的CGIs超過(guò)三分之二的都有甲基化傾向。我們也發(fā)現(xiàn)有 更多的CGIs坐落在R帶,但是CGIs在R帶和G帶之間甲基化的傾向無(wú)顯著性差異。另外, 我們調(diào)查了在啟動(dòng)子CGIs上的RNA聚合酶II占用區(qū)域,并且發(fā)現(xiàn)這個(gè)占用區(qū)域明顯高于 抗甲基化的啟動(dòng)子CGIs,說(shuō)明基因的啟動(dòng)子CGIs抗甲基化更加活躍。1、材料和方法1.1、DNA甲基化數(shù)據(jù)為構(gòu)建模型收集的數(shù)據(jù)來(lái)自于人類(lèi)胞嘧啶計(jì)劃(HEP)
5、。它發(fā)現(xiàn)了用硫酸氫鹽DNA測(cè) 序方法發(fā)現(xiàn)了來(lái)自12個(gè)組織,跨越6、20、22號(hào)染色體的大約190萬(wàn)胞嘧啶甲基化的強(qiáng)度。 這個(gè)顯示甲基化強(qiáng)度范圍從0到100?;贑D4 T細(xì)胞的數(shù)據(jù),我們繪制了人類(lèi)基因組中已 經(jīng)發(fā)現(xiàn)的胞嘧啶圖譜,并且專(zhuān)注于CGIs(Gardiner-Garden序列標(biāo)準(zhǔn)),他們的CpGs超過(guò)10% 是有甲基化強(qiáng)度的。一個(gè)CGI甲基化強(qiáng)度是指包含在CGI內(nèi)檢測(cè)到的CpG二核苷酸的強(qiáng)度。 將甲基化強(qiáng)度大于50的CGIs視為甲基化傾向的CGIs (M-CGIs),而那些低于10的為抗甲 基化CGIs (U-CGIs)。這個(gè)標(biāo)準(zhǔn)下,156 U-CGIs和100 M-CGIs是可得到的。
6、為了驗(yàn)證這個(gè),從羅林斯等的工作中得到DNA甲基化的數(shù)據(jù)。他們用甲基化敏感的限制 性酶的方法發(fā)現(xiàn)了在人腦體內(nèi)的DNA甲基化。我們根據(jù)Gardiner-Garden對(duì)CGI的定義,提取 U-CGIs 192 和 M-CGIs 301。1.2、 預(yù)測(cè)基于來(lái)源于HEP的CGI數(shù)據(jù),我們通過(guò)選定預(yù)測(cè)模型的構(gòu)建與支持向量機(jī)(SVM)的方法 來(lái)熟知其特點(diǎn)。我們使用的DNA序列特征和組蛋白標(biāo)記作為候選特征修改列表。在DNA 序列的特性中,主要有三種類(lèi)型的特征,其中有重要作用的CGI甲基化狀態(tài)預(yù)測(cè):(1)CGI特點(diǎn): 長(zhǎng)度,G + C含量和觀察與預(yù)計(jì)中央比;(2)來(lái)自于RepeatMasker的AluY重復(fù)元素
7、的計(jì)數(shù); 來(lái)自于MATCH的從TRANSFAC 11.2開(kāi)始的非多余的214脊椎動(dòng)物的轉(zhuǎn)錄因子結(jié)合位 點(diǎn)(TFBSs)的分布。據(jù)報(bào)道,DNA甲基化和組蛋白修飾組成了復(fù)雜的結(jié)構(gòu)調(diào)整染色質(zhì)調(diào)節(jié)網(wǎng) 絡(luò)和基因功能,并且一定的組蛋白標(biāo)記可以保護(hù)防止CGIs甲基化。因此,38號(hào)由王等人在CD4 T細(xì)胞中發(fā)現(xiàn)的組蛋白修改標(biāo)志也在候選特征列表。組蛋白的修飾標(biāo)記代表CGI區(qū)域 中的修飾標(biāo)記的數(shù)量。在這些246個(gè)特點(diǎn)中,分享測(cè)試被應(yīng)用于選擇那些在U -和M-CGIs (P 0.05)之間明顯不同分布的功能SVM應(yīng)用于我們的模型結(jié)構(gòu)。在這二叉分類(lèi)問(wèn)題中(+1對(duì) U-CGIs和-1對(duì)M-CGIs), SVM將獲得一個(gè)
8、將預(yù)測(cè)的錯(cuò)誤減小到最小和使訓(xùn)練數(shù)據(jù)上的 分離邊緣最大化的決定。在LibSVM包裝中被證實(shí)的線(xiàn)性SVM被應(yīng)用于優(yōu)化的實(shí)施。LOOCV被用于評(píng)價(jià)不同模型錯(cuò)誤率。在每個(gè)模型中,提取于特定長(zhǎng)度的CGI側(cè)面區(qū)域的特征被探討。特征選擇過(guò)程基于在每一輪的交叉驗(yàn)證中的訓(xùn)練數(shù)據(jù)是為了避免信息的泄漏。支 持向量機(jī)的性能進(jìn)行了評(píng)價(jià)與四個(gè)指標(biāo):專(zhuān)用性(p)、靈敏度高、精度(ACC)和相關(guān)系數(shù)(CC)。 我們計(jì)算專(zhuān)用性(p)、靈敏度高、精度(ACC)和相關(guān)系數(shù)(CC)如下:IN+FPSE=I?.IP+FNTP + FN+TN+FPTPxTN FFxFNg WTN 一CC =7(TP + FN)x(rP-FFP)x(TN
9、 + FP)x(TN + EST)TN, TP, FN 和 FP 分別代表 true-negative, true-positive, false-negative and false-positiveo1.3其他數(shù)據(jù)整個(gè)基因組的CGI數(shù)據(jù)從UCSC基因組下載瀏覽器。(http:. /golden-Path/hg18/database/)從克隆中篩選CGIs之后,尚未完成或者不能被放置在某一的染 色體的確定特定區(qū)域,我們得到了 27639 CGIso管家基因信息來(lái)自于艾森柏格。基于來(lái)自 40多個(gè)人體的正常組織研究,蘇等人得到的芯片表達(dá)數(shù)據(jù),他們使用獨(dú)立的高性能的測(cè)試表 達(dá)的基因定義管家基因。發(fā)
10、起人被定義為該區(qū)域位于1000bp和200 bp下游的上游出發(fā)地點(diǎn) (TSSs轉(zhuǎn)錄)。TSS信息也得到UCSC基因組的瀏覽器。如果一個(gè)CGI和任何啟動(dòng)子重疊,CGI 叫做啟動(dòng)子CGI。如果一個(gè)CGI和任何一個(gè)已知基因區(qū)域重疊,則這個(gè)CGI被認(rèn)為定位在在 內(nèi)部基因區(qū)域。否則,則是 FAN ShiCai等在 Chinese Sci Bull August (2010) Vol.55 No.22 2355 定義的基因內(nèi)區(qū)域。除此之外,當(dāng)我們調(diào)查分布在R和G帶的染色體時(shí),可以從UCSC基 因組的瀏覽器中提取R和G帶信息。這個(gè)RNA聚合酶II綁定紋是來(lái)自Barski等通過(guò)ChIP-Seq 技術(shù)得到的基因
11、組數(shù)據(jù)。結(jié)合度代表在這個(gè)有趣的區(qū)域中的標(biāo)簽數(shù)。結(jié)果與討論2.1模式演示來(lái)自CD4 T細(xì)胞的U-CGIs與156 100 M-CGIs,我們用我們的模型預(yù)測(cè)CGI的甲基化狀 態(tài)。LOOCV被用于評(píng)價(jià)模型的誤差率。在每一輪的交叉驗(yàn)證中,分布在二進(jìn)制培訓(xùn)資料里, 特征差異顯著(P 0.05)被用于該模型中。嘗試通過(guò)不同的特征提取CGI側(cè)面區(qū)域的長(zhǎng)度(從 100 bp到700bp,每步100 bp),我們有100多種模式的分類(lèi)結(jié)果(圖1)o當(dāng)CGI側(cè)面區(qū)域的長(zhǎng)度是400 bp(ACC 0.94 , CC 0.81),可以看到最好的LOOCV模式演示。因此,從400 bp側(cè)面區(qū)域的基于特征的模型,是我們
12、指定的模型。在這種模式下,76個(gè)特 征在分享測(cè)試中被篩選出來(lái)(P 0.05):32分之38的組蛋白標(biāo)記,3個(gè)CGI特征和41分之 214的TFBSs. 32個(gè)組蛋白標(biāo)記價(jià)值最低,表現(xiàn)出組蛋白標(biāo)記在CGI甲基化的預(yù)測(cè)中起到的 關(guān)鍵作用。為了檢驗(yàn)該模型的精確度,我們預(yù)測(cè)CGIs(375 CGIs)的甲基化狀態(tài),這些位于啟動(dòng)子區(qū) 域,并發(fā)現(xiàn)2.93%的CGIs更易于甲基化。如果抗甲基化狀況需要在基因表達(dá)的前提下進(jìn)行是 真的,也就是說(shuō),所有的管家基因的啟動(dòng)子CGIs應(yīng)該會(huì)抗甲基化,那么我們預(yù)測(cè)的抗甲基化假 陰性率在啟動(dòng)子CGIs區(qū)域可能在3%左右。我們也將這個(gè)模型在一個(gè)獨(dú)立的數(shù)據(jù)里與我們以前的工具、校
13、勘作了比較。這些數(shù)據(jù) 是由人類(lèi)的大腦,包括301 U-CGIs和192 M-CGIs。對(duì)三種模型的性能都列在表1。你可以看 到,我們的更新方法能得到最好的性能。與試驗(yàn)結(jié)果進(jìn)行了對(duì)比分析,這個(gè)更新方法揭示了在 評(píng)估CGIs的甲基化水平中組蛋白修飾標(biāo)記的重要性。與先前工具的結(jié)果相比,這個(gè)更新方 法揭示了系統(tǒng)特征篩選過(guò)程在模型構(gòu)建中的重要性。2.2CpG島中的甲基化區(qū)域利用最新的模型與最好的表現(xiàn),我們預(yù)計(jì)CGI全基因組的甲基化區(qū)域。有27639 CGIs 來(lái)自UCSC基因組瀏覽器。之后,不能被精確定位的CGIs被過(guò)濾。在這些CGIs中,30.77% 易于被甲基化。這是符合Yamada et al等的
14、觀察大約有三分之一的CGIs進(jìn)行DNA甲基化。當(dāng)考慮到的各染色體上CGIs的甲基化輪廓,我們發(fā)現(xiàn)三號(hào)染色體上的CGIs甲基化水 平最低(13.37%)當(dāng)Y染色體上的CGIs甲基化水平是最高的(87.85%).各染色體上CGIs的 和易于甲基化的比例分配在表2中顯示。我們也發(fā)現(xiàn)超過(guò)66%的定位于性染色體的CGIs易 于甲基化。符合多數(shù)性染色體上的基因受到抑制。接下來(lái)我們調(diào)查了 CGIs的甲基化輪廓定 位在與基因相關(guān)的不同區(qū)域。啟動(dòng)子、內(nèi)部基因中CGIs易于甲基化的比例在表2中顯示。 人們可以看出,約有45%的CGIs位于啟動(dòng)子區(qū)域,然而,其中只有6.19%有甲基化傾向,這 表明了啟動(dòng)子CGIs很
15、少的甲基化。2.3不同染色體條帶中CpG島的甲基化傾向類(lèi)染色體可分為兩種不同的領(lǐng)域,被稱(chēng)為基因組G帶和R帶。R帶具有富含基因的染色 質(zhì)和在S階段一半的早期復(fù)制的特征,當(dāng)G帶具有缺乏基因的異染色質(zhì)和在S階段第二個(gè)一 半時(shí)復(fù)制的特征。因此,評(píng)估易于甲基化的CGIs在不同波段的染色體中的分布是十分有趣的 圖3所示的是Chr20的剖面圖(剖面上顯示它與其他的染色體的分布是非常相似的,如圖S1, )。你能看到CGI甲基化強(qiáng)度(沖曲線(xiàn))在R帶(白色區(qū)域)通常高于G帶 (灰色和黑色的區(qū)域)。同時(shí),我們也發(fā)現(xiàn)有更多的CGIs分布在R帶(固體曲線(xiàn))上。我們估算 出易于甲基化的CGIs在R帶和G帶的第23對(duì)染色體
16、上(圖4)。你可以看到,CGIs易于甲基 化的比率上在兩帶之間沒(méi)有顯著的差異(p = 0.4252)。因此,在之前的報(bào)告中,高濃度的 DNA甲基化水平傾向于更多地分布在R帶(28)上,這僅因?yàn)樗缓呙芏鹊腉C。2. 4 綁定在不同的甲基化的CpG島上的RNA聚合酶II的簡(jiǎn)介為了研究啟動(dòng)子CGIs的甲基化不同狀態(tài)的轉(zhuǎn)錄活動(dòng),我們利用綁定在高分辨率的結(jié)合 強(qiáng)度很高的RNA聚合酶II,由Barski李瑋提供。圖5顯示了框縫中緊密結(jié)合的M -和U - CGIs。你可以看到,聚合酶II在抗甲基化啟動(dòng)子CGIs中含量顯著增高(p = 8.46X10 32), 說(shuō)明抗甲基化的啟動(dòng)子CGIs趨于更加活躍。在
17、許多抗甲基化啟動(dòng)子CGIs上的低含量德聚合 酶II意味著抗甲基化狀態(tài)在基因的表達(dá)中比較隨意。如果在一些易于甲基化的CGIs上含有 較高的RNA聚合酶II,則表明這些基因可能用于具體過(guò)程的誘導(dǎo)。分布在U-和M-CGIs中的76個(gè)顯著的差異特征中,超過(guò)一半的TFBSs序列,顯示出序列 特征的重要性,而這并不影響甲基化的CGIs的地位。另外,一些模型(如$SP1和$KROX_Q6), 相應(yīng)的轉(zhuǎn)錄因子已經(jīng)被報(bào)道出來(lái),并且用來(lái)保護(hù)CGIs防止DNA甲基化,大大地豐富了其中的 U-CGIs含量。而且,大多數(shù)的組蛋白標(biāo)記是顯著的分布異常,這個(gè)和以前研究組蛋白修飾和 DNA甲基化的密切互動(dòng)結(jié)果相一致。值得注意的是,CGI甲基化圖譜是基于對(duì)預(yù)測(cè)模型CD4細(xì)胞的整個(gè)基因組的研究得到 的。這就提出了一個(gè)問(wèn)題:預(yù)測(cè)圖譜是否可以適用于其他的組織,例如,在不同的組織中CGI 甲基化剖面的不同到什么程度。其實(shí),不同組織的DNA甲基化的組織特異性已漸漸成為熱門(mén) 話(huà)題。最近我們發(fā)現(xiàn)了 CGIs的甲基化程度在不同的體細(xì)胞組織中非常相似,而甲基化程度在 精子中卻是截然不同的。其他研究人員也發(fā)現(xiàn),在特異組織中甲基化CGIs含量比較少,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度環(huán)境污染治理與修復(fù)合同
- 2024年版建筑項(xiàng)目合同樣本
- 永磁同步電機(jī)的課程設(shè)計(jì)
- 企業(yè)建筑施工安全生產(chǎn)管理制度匯編
- 花瓶插花課程設(shè)計(jì)
- 中國(guó)石化安全風(fēng)險(xiǎn)評(píng)估指導(dǎo)意見(jiàn)
- 部編版八年級(jí)《道德與法治》上冊(cè)同步練習(xí)(全冊(cè),含答案)
- 系統(tǒng)文件監(jiān)控課程設(shè)計(jì)
- 網(wǎng)紅飲料制作課程設(shè)計(jì)
- 股市基金課程設(shè)計(jì)
- 教研室主任崗位申請(qǐng)書(shū)
- 職業(yè)培訓(xùn)師的8堂私房課:修訂升級(jí)版
- 改擴(kuò)建工程施工圖設(shè)計(jì)說(shuō)明
- 壯族文化的靈魂廣西花山巖畫(huà)
- 概算實(shí)施方案
- 單片機(jī)英文資料+英文文獻(xiàn)
- CF5061GXJYNKR管線(xiàn)加油車(chē)使用說(shuō)明書(shū)-
- 中國(guó)古典文獻(xiàn)學(xué)(全套)
- 內(nèi)燃機(jī)車(chē)常見(jiàn)故障分析及處理1733
- 談心談話(huà)記錄表 (空白表)
- GB/T 39879-2021疑似毒品中鴉片五種成分檢驗(yàn)氣相色譜和氣相色譜-質(zhì)譜法
評(píng)論
0/150
提交評(píng)論