




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基于條件互信息的乳腺癌易感基因網(wǎng)絡(luò)的構(gòu)建和分析摘要從與復(fù)雜疾病相關(guān)的基因上的單核苷酸多態(tài)性(SNPs)數(shù)據(jù)出發(fā)構(gòu)建網(wǎng)絡(luò),可有效挖掘SNPs間相關(guān)性,進(jìn)而實(shí) 現(xiàn)疾病相關(guān)SNPs的定位。傳統(tǒng)的相關(guān)性系數(shù)僅能度量SNPs間的線性關(guān)系,互信息可發(fā)掘非線性關(guān)系,但存在有偏估計(jì),導(dǎo) 致推斷出的SNP網(wǎng)絡(luò)錯誤率較高。因此,論文基于條件互信息(CMI)及最佳的CMI閾值,對彼此間CMI值大于閾值的SNPs 進(jìn)行連邊,建立病例組和對照組SNP-SNP相互作用網(wǎng)絡(luò),并分析網(wǎng)絡(luò)中節(jié)點(diǎn)拓?fù)涮卣鲗傩?,最終篩選出可能的致病SNPs。 實(shí)驗(yàn)結(jié)果表明:論文方法能夠快速準(zhǔn)確地得到致病SNPs集合。關(guān)鍵詞條件互信息;SNP-SN
2、P相互作用網(wǎng)絡(luò);網(wǎng)絡(luò)中心性;致病SNPsConstruction and Analysis of Breast Cancer Susceptibility GeneNetwork Based on Conditional Mutual InformationAbstract Based on the single nucleotide polymorphism(SNPs)data of genes associated with complex diseases,a SNP network can be constructed,which can effectively mine the re
3、lativity between SNPs and realize the localization of disease-related SNPs. The traditional correlation coefficient can only measure the linear relationship between SNPs. The mutual information can discover the nonlinear relationship,but there are biased estimates,which leads to the high error rate
4、of the inferred SNP network. Therefore,based on conditional mutual information(CMI)and the optimal CMI threshold,the SNPs whose CMI value is greater than the threshold are connected to each other,and the case and control SNP-SNP interaction networks are established. Then analyzing the topological fe
5、ature attribute of each node in the network,the possible pathogenic SNPs are screened out. The results show that the proposed method can quickly and accurately obtain the set of pathogenic SNPs.Key Words conditional mutual information,SNP-SNP interaction network,network centrality,pathogenic SNPsCla
6、ss Number TP3911引言隨著基因芯片技術(shù)和高通量測序技術(shù)的發(fā)展, 產(chǎn)生的大量數(shù)據(jù)為全基因組關(guān)聯(lián)研究(GWAS)提 供了豐富的素材,期間也出現(xiàn)了許多數(shù)據(jù)處理方 法4lo近年來,大量研究成果顯示GWAS具有很 多優(yōu)勢:2014年,Hirokawa等51利用病例組和對照 組數(shù)據(jù)對心肌梗塞疾病做了全基因組關(guān)聯(lián)研究,并 確定了兩個新的與心肌梗塞發(fā)病機(jī)理相關(guān)易感性 位點(diǎn):PLCL2 和 AP3D1-DOT1L-SF3A2。2016 年, Direk等通過薈萃分析先前兩個GWAS研究的結(jié) 果發(fā)現(xiàn),位于FHIT內(nèi)含子區(qū)域的一個新的抑郁癥狀相關(guān)的位點(diǎn)(rs9825823,P=1.0*10-9)。從S
7、NP數(shù)據(jù)出發(fā),度量SNP間的相關(guān)性,并構(gòu) 建SNP-SNP相互作用網(wǎng)絡(luò),可有效挖掘SNP間的 關(guān)系,進(jìn)而從生物分子網(wǎng)絡(luò)的角度認(rèn)識生命現(xiàn)象并 揭示生命活動的基本規(guī)律,有助于預(yù)測未知SNP功 能、認(rèn)識疾病發(fā)病機(jī)理、加速藥物開發(fā)等。隨著對 生物網(wǎng)絡(luò)|791研究的深入,對元素間相關(guān)性的度量 方法也越來越多,傳統(tǒng)上主要有皮爾遜相關(guān)系數(shù)、 斯皮爾曼相關(guān)系數(shù)等,被廣泛用于測量變量間的線 性關(guān)系,但無法區(qū)分間接關(guān)聯(lián)和直接關(guān)聯(lián)。偏相關(guān) 性(PC)由于可以檢測變量間的直接關(guān)聯(lián),被廣泛 使用,Barze 1等應(yīng)用PC指標(biāo)構(gòu)建了一種動態(tài)相關(guān) 性基因調(diào)控網(wǎng)絡(luò),消除了基因間的間接影響,能有 效區(qū)分基因間的直接調(diào)控和間接調(diào)
8、控。然而,基于 PC的方法忽略了非線性系統(tǒng)(如生物分子網(wǎng)絡(luò))中 起重要作用的非線性相關(guān)性,因此近年來,互信息 (MI)和條件互信息被廣泛應(yīng)用于線性和非線性關(guān) 聯(lián)的量化中。但MI不能檢測直接關(guān)聯(lián)或依賴關(guān) 系,且具有高估問題。CMI可以量化變量間的非線 性直接依賴關(guān)系,優(yōu)于PC和MI,因此被廣泛應(yīng)用 于許多領(lǐng)域”2 進(jìn)行網(wǎng)絡(luò)直接依賴的推斷。目前很大一部分GWAS主要針對簡單疾病,且 很少涉及SNP間非線性直接依賴關(guān)系,如何準(zhǔn)確定 位疾病相關(guān)的SNPs仍是個不小的難題。本文針對 基于MI構(gòu)建SNP-SNP相互作用網(wǎng)絡(luò)假陽性邊偏 高的問題,通過CMI表示SNP間的相關(guān)性,將乳腺 癌相關(guān)的SNP數(shù)據(jù)進(jìn)行
9、網(wǎng)絡(luò)建模,進(jìn)行全基因組關(guān) 聯(lián)研究及節(jié)點(diǎn)網(wǎng)絡(luò)中心性的分析解釋,最終找到可 能的致病SNPs。2數(shù)據(jù)來源與處理本文使用了 HapMap3中位于13號染色體上的 包含88個SNPs的BRCA2基因數(shù)據(jù),包含.leg文 件、.hap文件及.map文件。為了保證構(gòu)建的SNP-SNP相互作用網(wǎng)絡(luò)更具 代表性,需要刪除意義不大的數(shù)據(jù),去掉.hap文件 中全部為0或全部為1的數(shù)據(jù),得到45條SNP數(shù) 據(jù)。利用以上3個文件,使用HAPGEN2進(jìn)行數(shù)據(jù) 仿真:隨機(jī)選定rs9534318和rs9943876作為致病 SNPs,設(shè)定對照組和病例組的雜合子變異率分別 是1.5和2,純合子變異率分別是2.25和4,分別仿
10、 真1000組病例組和對照組數(shù)據(jù)。接下來刪除仿真 產(chǎn)生的.gen文件中的SNP的ID、名稱、堿基位置及 等位基因信息,并把剩余數(shù)據(jù)轉(zhuǎn)換成45行3000列 一個個體。為了后續(xù)操作方便,按照100轉(zhuǎn)換為0, 010轉(zhuǎn)換為1,001轉(zhuǎn)換為2的規(guī)律處理該矩陣,分 別得到新的1000個個體的病例組和對照組SNP基 因型數(shù)據(jù)Q和D2。3 基于CMI的SNP-SNP相互作用網(wǎng)絡(luò)的構(gòu)建假設(shè)X和Y是兩個隨機(jī)變量,互信息代表使 用Y編碼X時(shí)所需的信息,反之亦然,即變量X 和Y間的相關(guān)性可用MI(X; Y)度量。MI是在KL 距離D 1131的基礎(chǔ)上定義的:MI(X;Y)=D(p(x,y)|p(x)p(y)=p(x
11、, y)p(x, y)logp(x)p( y)(1)式中p(x)表示變量X為x時(shí)的概率值,p(y)表 示變量Y為y時(shí)的概率值,p(x,y)表示變量X和 Y分別為x和y時(shí)的聯(lián)合概率值。MI是根據(jù)X和 Y(1)式中p(x) p( y )= p(x, y)(2)如果變量X和Y相互獨(dú)立,MI(X; Y)為零; MI(X; Y)越大,表明X和Y的相關(guān)程度越大。條件互信息表示兩個變量在第3個變量下的 條件依賴性,能夠量化變量間的非線性直接關(guān)系, 變量X和Y在變量Z下的條件互信息 CMI(X; Y| Z)定義如下1:CMI(X;Y|Z)=D(p(x,y,z)|p(xz)p(y|z)p(z)( 3 )CMI
12、(X; Y|Z) = p(x, y, z)log 布)J 土Mep(x z)p(y| z)(4) 式中,p( z)表示變量Z為z時(shí)的概率值,p( x| z)和 p(y| z)分別表示變量X和Y在Z條件下的概率, p(x,y|z)表示變量X和Y在Z條件下的聯(lián)合概 率,p(x,y, z)表示變量X、Y和Z的聯(lián)合概率。 CMI是根據(jù)變量X和Y在變量Z下的條件獨(dú)立性 評估的,定義如下:p( xz) p( y|z )= p(x, y|z)(5)如果變量X和Y在變量Z條件下相互獨(dú)立, 則 CMI (X; Y | Z)為零;CMI (X; Y | Z)越大,表明 X 和Y的相關(guān)程度越大。本文基于CMI構(gòu)建的
13、矩陣,每行表示一個SNP向量,每3個數(shù)字代表SNP-SNP相互作用網(wǎng)絡(luò)時(shí),CMI(J; YZ)表達(dá)了兩個SNPs在第三個SNP下的相互依賴程度,0.3時(shí),病例組與對照組網(wǎng)絡(luò)的平均度區(qū)別較大,隨CMI(X; Y| Z)越大,說明X和Y兩個SNP間的關(guān)聯(lián) 程度越緊密。對于SNP基因型數(shù)據(jù)為D,我們假定其SNP 集合為I =1,,根據(jù)CMI式(4)可得 CMI矩陣CONM = CMlS (|11 = n) o并定義關(guān)于 D的CMI網(wǎng)絡(luò)為GD = (V, E; w),G是邊賦權(quán)圖, 其中V表示點(diǎn)集合,E表示邊集合,節(jié)點(diǎn)i &V表 示SNP i,對于i,j & V,節(jié)點(diǎn)i和j間的CMI計(jì)算 值定義為網(wǎng)絡(luò)
14、中的邊(i, j) e E的權(quán)重。對于數(shù)據(jù)處理后得到的病例組SNP基因型數(shù) 據(jù)D1,我們將其擁有的SNP基因型表達(dá)數(shù)據(jù)的集 合記作I1。計(jì)算每兩個SNPs間的CMI值,得到 關(guān)于D1的CMI矩陣CONM1,每行代表一個SNP, 每列代表此SNP與另一個SNP間的CMI值,將 CONM1的對角線及下三角元素設(shè)為0,并構(gòu)建基于 CMI的病例組SNP-SNP相互作用網(wǎng)絡(luò)GD1 o對 對照組SNP基因型數(shù)據(jù)D2進(jìn)行相同處理,得到 CMI矩陣CONM2及對照SNP-SNP相互作用網(wǎng)絡(luò) GD2。4最佳CMI閾值的選取本文中我們選擇平均度和平均介數(shù)兩個網(wǎng)絡(luò) 統(tǒng)計(jì)量的參數(shù)進(jìn)行分析比較,根據(jù)網(wǎng)絡(luò)的相似程 度,確
15、定能夠有效區(qū)分病例組和對照組SNP-SNP 相互作用網(wǎng)絡(luò)的最佳CMI閾值。首先,根據(jù)SNPs 間的CMI值,選擇CMI閾值T的范圍為0.010.58, 以0.01為步長設(shè)置58個閾值。然后,在每個閾值 下,對網(wǎng)絡(luò)GD1和GD2中權(quán)值小于閾值的邊進(jìn) 行刪除,權(quán)值大于閾值的邊進(jìn)行保留,分別得到新 的58個病例組和58個對照組網(wǎng)絡(luò)。當(dāng)T0.58時(shí),T的增加,平均度越來越小,這與網(wǎng)絡(luò)中孤立點(diǎn)越 來越多是對應(yīng)的。圖1(b)中,當(dāng)0.17T0.58時(shí),網(wǎng)絡(luò)的平均度和平均介數(shù)趨于 0,證實(shí)了沒有研究的必要。圖(a)中,當(dāng)0.14T 3的SNP,得到包含11個SNPs的集 合S1。此外,兩網(wǎng)絡(luò)平均的接近中心性
16、、介數(shù)中心 性及特征向量中心性大致相差2e-04、4.5及0.13, 同樣可得包含23個Ac 2e - 04的SNPs的集合S2, 包含20個Ab 4.5 SNPs的集合S3,及包含16個 Ae0.13 的 SNPs 的集合 S4。計(jì)算 S1,S2,S3 及 S4 的交集,最終得到集合S,包含4個可能的致病 SNPs,如表 1。表1可能的致病SNPs的信息SNPSNP名稱SNP位置rs994387631825894rs953431831834646rs953432331848257ers494248631851388圖3 MI閾值為0.21時(shí),病例組和對照組SNP-SNP相互作用網(wǎng)絡(luò)經(jīng)過多次實(shí)
17、驗(yàn),得到的最佳CMI閾值均為0.2, 證實(shí)了本文方法是有效的,也表明最佳閾值為0.2 是合理的。圖2中病例組和對照組網(wǎng)絡(luò)有很大差本文方法找到的可能的致病SNPs只有4個, 且其中rs9534318, rs9943876為預(yù)設(shè)的致病SNPs。 將集合S1、S2、S3和S4中的SNPs按差異值Dd、 De、D及De從大到小排序,rs9534318的Dd為 4,在S2、S3和S4中分別排第8、第9及第1; rs9943876的Dd為3,在S2、S3和S4中分別排第、 第1及第6,在4個集合中表現(xiàn)都不錯。我們又在 相同的仿真數(shù)據(jù)下,將本文方法找到的可能的致病 SNPs集合與Wang等1151利用基于MI的參數(shù)取值方 法選擇出的結(jié)構(gòu)性關(guān)鍵SNPs集合進(jìn)行了比較,實(shí) 驗(yàn)結(jié)果顯示兩集合中均包含了預(yù)設(shè)的致病SNPs, 但本文集合普遍較小,避免了互信息存在有偏估 計(jì),導(dǎo)致錯誤率偏高的問題。根據(jù)上述定位致病SNPs的方法,我們分別針 對有1個、2個和3個預(yù)設(shè)致病SNPs的情況,對病例 組和對照組含500、1000.3000.5000個個體的情況 進(jìn)行了多次實(shí)驗(yàn),基木每次實(shí)驗(yàn)得到的可能的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司包車送員工合同范例
- 醫(yī)院擔(dān)架服務(wù)合同范本
- 互聯(lián)網(wǎng)商標(biāo)設(shè)計(jì)合同范本
- 個人建房外包合同范本
- 勞動合同范本 學(xué)校
- 低租金租房合同范本
- 勞動合同范本 合肥
- 農(nóng)村建筑標(biāo)準(zhǔn)合同范例
- 供電設(shè)施租用合同范本
- 加工牛肉出售合同范本
- 《中小學(xué)科學(xué)教育工作指南》解讀與培訓(xùn)
- 學(xué)校食堂“三同三公開”制度實(shí)施方案
- 跨學(xué)科主題學(xué)習(xí)的意義與設(shè)計(jì)思路
- 2025年浙江國企臺州黃巖站場管理服務(wù)有限公司招聘筆試參考題庫附帶答案詳解
- 2025年湖南高速鐵路職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測試近5年常考版參考題庫含答案解析
- 殯儀館管理制度
- 2025年醫(yī)院財(cái)務(wù)工作計(jì)劃(2篇)
- DB32T 4969-2024大型醫(yī)用設(shè)備使用監(jiān)督管理平臺基礎(chǔ)數(shù)據(jù)采集規(guī)范
- 2025年大連長興開發(fā)建設(shè)限公司工作人員公開招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
- -人教版四年級下冊英語全冊教案-
- 教科版三年級下冊科學(xué)全冊單元教材分析
評論
0/150
提交評論