生物信息學(xué)第二版復(fù)雜疾病分子特征與計算分析_第1頁
生物信息學(xué)第二版復(fù)雜疾病分子特征與計算分析_第2頁
生物信息學(xué)第二版復(fù)雜疾病分子特征與計算分析_第3頁
生物信息學(xué)第二版復(fù)雜疾病分子特征與計算分析_第4頁
生物信息學(xué)第二版復(fù)雜疾病分子特征與計算分析_第5頁
已閱讀5頁,還剩96頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、生物信息學(xué)第二版復(fù)雜疾病分子特征與計算分析第十一章 復(fù)雜疾病的分子特征與計算分析中南大學(xué) 陳小平、李曦哈爾濱醫(yī)科大學(xué) 徐良德生物信息學(xué)學(xué)習(xí)提綱 重點 復(fù)雜疾病的分子特征復(fù)雜疾病遺傳學(xué)研究策略復(fù)雜疾病遺傳學(xué)研究相關(guān)統(tǒng)計分析方法常用遺傳學(xué)統(tǒng)計分析集成軟件的使用 難點 復(fù)雜疾病遺傳學(xué)研究中計算分析的算法選擇及分析要點復(fù)雜疾病相關(guān)數(shù)據(jù)庫基因分型的方法 熟悉第一節(jié) 引言(Introduction)人類常見病,包括惡性腫瘤、心腦血管病、代謝系統(tǒng)疾病、神經(jīng)系統(tǒng)疾病、精神和行為異常等絕大多數(shù)都是復(fù)雜性疾病。復(fù)雜疾病不符合孟德爾定律,疾病的發(fā)生發(fā)展涉及復(fù)雜的生物學(xué)過程,是21世紀(jì)生物醫(yī)學(xué)重大的挑戰(zhàn)之一。 第二節(jié)

2、 復(fù)雜疾病的分子特征與數(shù)據(jù)資源(Molecular Characters and Data of Complex Disease)一、復(fù)雜疾病的分子特征(一)復(fù)雜疾病的定義 復(fù)雜疾?。╟omplex disease),又稱多基因?。╬loygenic disorder),是指由多種遺傳和環(huán)境因素共同決定的一類疾病。與單基因病相比,復(fù)雜疾病具有遺傳異質(zhì)性、基因微效性、表型復(fù)雜性、種族差異性以及環(huán)境相關(guān)性等特點。復(fù)雜疾病涉及多種基因和蛋白:眾多基因通過蛋白質(zhì)復(fù)合物,調(diào)控網(wǎng)絡(luò)以及互作通路來控制的。復(fù)雜疾病受環(huán)境因素影響。同一個體在不同條件下對環(huán)境的響應(yīng)不同?;蚪M的個體差異使不同人對環(huán)境的響應(yīng)也不同

3、。(二)遺傳變異是復(fù)雜疾病的決定因素 遺傳因素在大多數(shù)復(fù)雜疾病中起決定作用;人群中任意兩個不相關(guān)個體DNA序列99.8%一致,0.2%存在差異;基因組的不同導(dǎo)致生理表型、罹患疾病的風(fēng)險及藥物反應(yīng)表型的差異,在人類多樣性形成中具有重要意義。單核苷酸多態(tài):人類染色體上的單個核苷酸的差異,是人類基因組變異的主要類型。單核苷酸多態(tài)(single nucleotide polymorphism, SNP)SNP相關(guān)的基本概念等位(allele): SNP是一種雙等位多態(tài)(即SNP的二態(tài)性)基因型(genotype): 同源染色體上一對SNP等位的組合單體型(haplotype): 特定染色體區(qū)域相鄰近的

4、SNP的組合SNP等位、基因型、單倍型與TagSNP最小等位頻率(minor allele frequency, MAF): 群體中,一對SNP等位中出現(xiàn)較少的等位基因的頻率。常見SNP的MAF應(yīng)5%,而罕見SNP的MAF 1%。非同義SNP(non-synonymous SNP):能夠改變基因產(chǎn)物結(jié)構(gòu)或影響基因表達(dá)量的SNP。連鎖塊(linkage block):指位于染色體上某一區(qū)域的一組相互關(guān)聯(lián)的SNP。人類基因組中的其他變異插入/刪除多態(tài)(in/del)微衛(wèi)星(microsatellite, MS)拷貝數(shù)變異(copy number variants, CNV)二、人類孟德爾遺傳疾病數(shù)

5、據(jù)庫(OMIM)MIM (Mendelian Inheritance in Man)與OMIMOMIM由由美國國立衛(wèi)生研究院(National Institutes of Health,NIH)、約翰霍普金斯大學(xué)(Johns Hopkins University)共同開發(fā)和維護OMIM 數(shù)據(jù)庫網(wǎng)址:OMIM 主頁()MIM編號范圍遺傳方式100000-199999常染色體顯性遺傳或表型(于1994年5月15號創(chuàng)建)200000-299999常染色體隱性遺傳或表型(于1994年5月15號創(chuàng)建)300000-399999X連鎖位點或表型400000-499999Y連鎖位點或表型500000-599

6、999線粒體位點或表型600000-染色體位點或表型(于1994年5月15號創(chuàng)建)OMIM編號代表的遺傳方式“*”:代表已知致病基因的序列信息,沒有加“*”表示其遺傳模式雖然已有推測,但沒有被證實或該基因與其他記錄所包含的基因位點的分離情況尚不清楚; “#”:表示這種表型可以由兩個或者多個基因中的一個發(fā)生突變而引起;OMIM號前特殊符號的含義“+”:表示這個記錄包含基因的序列信息和表型;“%”:表示記錄中描述了一個已知的孟德爾表型,但對其潛在的分子機制尚不清楚;“”:表示該記錄已不存在或已被其他記錄所代替。OMIM數(shù)據(jù)的下載OMIM數(shù)據(jù)可在頁面注冊下載,可下載的文件包含全部的OMIM文件(),

7、OMIM中的基因文件(genemap)及其解釋文件(),以及疾病信息(morbidmap)OMIM還提供genemap和morbidmap的網(wǎng)絡(luò)查詢形式,在主頁點擊Getting start可進(jìn)入查詢選擇頁面OMIM查詢選擇頁面genemap查詢頁面Clinical Synopsis查詢頁面OMIM數(shù)據(jù)庫的使用(以Alzheimers Disease為例)三、基因型和表型數(shù)據(jù)庫(dbGAP)基因型和表型數(shù)據(jù)庫(genotype and phenotype database, dbGAP)NIH開發(fā)和維護包含大量高通量復(fù)雜疾病遺傳學(xué)研究的基因型和表型數(shù)據(jù)訪問網(wǎng)址:數(shù)據(jù)根據(jù)開放程度分為公開數(shù)據(jù)(p

8、ublic data)和控制訪問數(shù)據(jù)(controlled access data)。公開數(shù)據(jù)可以在dbGAP的服務(wù)器中免費下載,控制訪問數(shù)據(jù)的獲取和使用則有一系列的限制。首先,要獲取這類數(shù)據(jù)須向dbGAP管理機構(gòu)提交申請,獲批后才能獲得下載所申請數(shù)據(jù)的權(quán)限。其次,必須嚴(yán)格遵循數(shù)據(jù)使用規(guī)定。dbGAP中所有的數(shù)據(jù)均有一個禁止日期(embargo day)。dbGAP數(shù)據(jù)類型OMIM 主頁()申請訪問控制數(shù)據(jù)數(shù)據(jù)下載()關(guān)聯(lián)結(jié)果瀏覽器關(guān)聯(lián)結(jié)果瀏覽器可查詢某基因與哪些表型性狀相關(guān)。這里以LRP5為例,經(jīng)搜索發(fā)現(xiàn)LRP5中的4個SNP在GWAS研究中分別與骨密度和心肌梗死顯著相關(guān)。關(guān)聯(lián)結(jié)果瀏覽器表型

9、-基因型整合器表型-基因型整合器可查詢某表型性狀相關(guān)的基因。這里以骨密度(bone density)為例,經(jīng)搜索發(fā)現(xiàn)在GWAS研究有32個SNP位點與骨密度顯著相關(guān)。表型-基因型整合器四、人類疾病相關(guān)多態(tài)數(shù)據(jù)資源癌癥基因數(shù)據(jù)庫(cancer genome anatomy project, CGAP)人類基因突變數(shù)據(jù)庫(human gene mutation database, HGMD)基因卡片數(shù)據(jù)庫(gene cards)CGAP 主頁()下載頁面圖所示,其中包含了人和小鼠兩個物種的基因注釋、基因表達(dá)及相關(guān)的文庫中的數(shù)據(jù)。HGMD 主頁()查詢前需先注冊、登陸。注冊需采用學(xué)術(shù)郵箱(含.edu

10、的郵箱),注冊后登陸密碼將在24小時內(nèi)發(fā)送至注冊郵箱。GeneCards 主頁() 查詢結(jié)果頁面,以CYP2C9為例其他常用復(fù)雜疾病相關(guān)數(shù)據(jù)庫腫瘤基因數(shù)據(jù)庫(the tumor gene database, TGDB) 網(wǎng)址:人類基因組流行病學(xué)導(dǎo)航(The Human Genome Epidemiology Navigator, HuGE Navigator)網(wǎng)址:腫瘤及血液病相關(guān)的遺傳學(xué)和細(xì)胞遺傳學(xué)數(shù)據(jù)庫(ATLAS of genetics and cytogenetics in oncology and haematology)網(wǎng)址: 第三節(jié)復(fù)雜疾病的遺傳易感與遺傳定位分析(Genetic

11、 Susceptibility and Gene Mapping of Complex Disease)一、遺傳標(biāo)志物的篩選識別技術(shù)SNP分型(genotyping):對SNP基因型的檢測過程。SNP分型包括兩方面內(nèi)容:對未知SNP的進(jìn)行分析和對已知SNP進(jìn)行分析。SNP分型方法包括等位基因特異性和等位基因非特異性兩類。(一)限制性片段長度多態(tài)性(restriction fragment length polymorphism,RFLP)(二)TaqMan探針法 (三)高分辨率熔解曲線(high-resolution melting curve analysis, HRM) (四)基因芯片方法

12、 (五)基質(zhì)輔助激光解吸電離飛行時間質(zhì)譜(matrix assisted laser desorption/ionization time of flight mass spectrometry, MALDI-TOF-MS)dAMP = 313.2 DadCMP = 289.2 DadGMP = 329.2 DadTMP = 304.2 DaDNA consists of a four-letter alphabet: A, G, C, T. Each letter (and building block within a DNA strand) has defined molecular m

13、ass:(六)Sanger測序法 (七)焦磷酸測序法(pyrosequencing) (八)下一代測序(the next-generation sequencing,NGS)目前常用的NGS技術(shù)包括454、Solexa和SOLID等,它們均利用當(dāng)前的智能化技術(shù)對基因組進(jìn)行測序。NGS適合用于全基因組測序、全外顯子測序或?qū)δ骋欢螀^(qū)域進(jìn)行靶向測序(targeted sequencing)。二、遺傳定位研究中的實驗設(shè)計與統(tǒng)計分析方法(一)遺傳定位研究的分子基礎(chǔ)連鎖不平衡(linkage disequilibrium,LD):指相鄰基因座上等位基因的非隨機相關(guān) 。導(dǎo)致連鎖不平衡的主要因素:遺傳漂變、人

14、口增長與群體結(jié)構(gòu)改變、重組率變化、突變率變化、基因轉(zhuǎn)換。 連鎖不平衡的量度常用連鎖不平衡量度方法:D、r2和LOD值r2值:代表兩位點在統(tǒng)計學(xué)上的關(guān)系,其表達(dá)式為:r2的數(shù)值表示一個位點可反映另一位點信息量的程度, r2 =1稱為完全連鎖不平衡,這時兩位點等位基因頻率相同,只觀察一個標(biāo)記即可提供另一個標(biāo)記的全部信息。 bD值:又稱連鎖不平衡系數(shù),其表達(dá)式為 :當(dāng)D=1時,說明兩個位點間沒有發(fā)生重組,與r2相比較,當(dāng)D等于1時兩位點等位基因頻率并不需要相同,它只是反映最近一次突變發(fā)生后突變位點與臨近多態(tài)性位點的關(guān)系。 (二)遺傳定位研究中的樣本選取1.臨床表型選取具有典型臨床特征和明確診斷依據(jù)的

15、個體作為疾病研究對象。2.發(fā)病年齡具有早發(fā)特征的患病個體更傾向于有較明顯的遺傳特點。3.家族史有家族史的個體能夠較為準(zhǔn)確的診斷疾病種類。4.嚴(yán)重程度較為嚴(yán)重的患病個體,具有較明顯的遺傳特點。5.群體分層選取的研究群體應(yīng)具有同質(zhì)性。(三)連鎖分析及其統(tǒng)計分析方法連鎖分析(linkage analysis):根據(jù)家系中遺傳標(biāo)記重組率計算兩等位之間距離的方法。連鎖分析主要通過分析已知的性狀或疾病表型與基因型在家系中遺傳模式,以定位新的易感位點和易感區(qū)域。是用于研究家系中標(biāo)記傳遞的一種分析策略,根據(jù)連鎖分析過程中是否依賴于假設(shè)模型,連鎖分析方法分為兩類:參數(shù)連鎖分析和非參數(shù)連鎖分析。 參數(shù)連鎖分析所依

16、據(jù)的家系遺傳模型:典型常染色體隱性模型示意參數(shù)連鎖分析方法 對于孟德爾遺傳病,易于比較清楚的知道該疾病的遺傳方式、外顯率、基因頻率等指標(biāo),從而確定一個準(zhǔn)確的遺傳模型進(jìn)行連鎖分析。某些遺傳模型并不清楚的疾病也通過改變策略而適用于連鎖分析,但相對準(zhǔn)確的模型建立是參數(shù)連鎖分析成功的基本條件。最常用的參數(shù)連鎖定位方法:直接計分法和LOD值法。 1. LOD值法首先針對某一疾病收集一定數(shù)量的家系資料,進(jìn)行分離分析,確定遺傳模型。2. 通過文獻(xiàn)檢索了解其可能的決定性狀的染色體區(qū)域,并對該區(qū)域的SNP進(jìn)行查詢和篩選,基于選定的SNP,對該家系成員進(jìn)行SNP分型。以LOD值法為例介紹參數(shù)連鎖分析方法3. 通過

17、連鎖分析估計疾病與SNP在子代中重組的發(fā)生率,計算LOD值,確定重組分?jǐn)?shù)及相應(yīng)的遺傳距離,并進(jìn)行假設(shè)檢驗,判斷易感基因是否與遺傳標(biāo)記連鎖。 LOD值是指在一定重組率條件下,兩個位點相連鎖的似然性和不連鎖的似然性比值的對數(shù)值,即 在進(jìn)行連鎖分析時,要計算0(不重組)到(隨機分配)的一系列LOD得分。當(dāng)LOD3時,肯定連鎖;當(dāng)LOD-2時,可排除連鎖。常用基于LOD的連鎖分析工具:LIPED 、LINKAGE 、S.A.G.E. 等自由軟件包。早期的連鎖分析方法對模型的依賴性較強,計算速度慢, “混合模型”方法、多位點連鎖分析方法、吉布斯取樣及蒙特卡羅方法等已逐步發(fā)展起來。 1. 參數(shù)連鎖分析家系

18、選擇過程中需要考慮到五項基本要求做出合理的家系篩選。2. 對于某些外顯率并不明確的疾病,還需要對外顯率進(jìn)行估計,而采用疾病個體特異的分析策略。3. 家系中某些個體的疾病表型并不典型,難以確定是否受累,如某些精神疾病,需要進(jìn)行人為的判斷或重新劃分。 參數(shù)連鎖分析過程中的注意事項非參數(shù)連鎖分析方法 一種在分析前不需確定疾病遺傳模式(如基因型頻率、外顯率等)或半依賴模型的分析方法。最常用的是等位共享方法,不依賴于遺傳模型的構(gòu)建,是一個排除模型的過程。通過顯示受累親屬間高于隨機情況的共享遺傳相同的染色體區(qū)域(或位點)概率證實染色體區(qū)域的遺傳模式與孟德爾遺傳之間的差別。(四)關(guān)聯(lián)分析及其統(tǒng)計分析方法 關(guān)

19、聯(lián)分析(association analysis):不依賴于家系信息的一種遺傳定位分析方法,是目前遺傳定位研究中最常用的分析方法。分類:質(zhì)量性狀關(guān)聯(lián)分析、數(shù)量性狀關(guān)聯(lián)分析,前者在復(fù)雜疾病遺傳定位研究中最常用。應(yīng)用關(guān)聯(lián)分析方法進(jìn)行易感位點定位的研究稱為關(guān)聯(lián)研究(association study)。質(zhì)量性狀關(guān)聯(lián)分析質(zhì)量性狀(discrete characters):指能觀察而不能測量的屬性性狀,在同一種性狀的不同表型間不存在連續(xù)性的數(shù)量變化,而呈現(xiàn)質(zhì)的中斷性變化,如疾病的有無、分類等。最常用的研究設(shè)計:病例-對照(case-control)研究。常用的統(tǒng)計方法:2檢驗、Fisher精確檢驗、邏輯

20、回歸分析等。例11-1 某醫(yī)院對200名高血壓病人和200名對照個體進(jìn)行檢測,通過限制性內(nèi)切酶方法對采自這些個體的外周血淋巴細(xì)胞進(jìn)行分析,獲得了SNP rs39461的基因型(見下表),假定此次研究不存在采樣上的缺陷,問這個SNP是否與高血壓的發(fā)生相關(guān)?分組基因型合計CCCTTT病例組336161200對照組357140200合計693301400數(shù)量性狀關(guān)聯(lián)分析數(shù)量性狀(quantitative trait):指一個群體內(nèi)各個個體間表現(xiàn)的連續(xù)性的數(shù)量變化,如身高、體重、血壓等等。數(shù)量性狀位點(quantitative trait loci, QTL): 與某些數(shù)量性狀形成相關(guān)的DNA區(qū)域。常

21、用的統(tǒng)計方法:方差分析、 t檢驗、線性回歸分析等。例11-2 某醫(yī)院對30名高血壓病人采用氫氯噻嗪進(jìn)行降壓治療,獲取了這些病人的基因組DNA和6周后血壓降低情況的隨訪記錄,通過基因分型獲得了SNP rs4961的基因型,初步分析發(fā)現(xiàn)GG攜帶者有19人,他們的平均收縮壓下降值為8.3 mmHg,標(biāo)準(zhǔn)差為2.3 mmHg,GT+TT攜帶者有11人,他們的平均收縮壓下降值為7.1 mmHg,標(biāo)準(zhǔn)差為1.8 mmHg,假定此次研究血壓下降值符合正態(tài)分布,兩樣本方差無顯著差異,問這個SNP與氫氯噻嗪降低收縮壓的療效是否相關(guān)?關(guān)聯(lián)研究中發(fā)現(xiàn)SNP與疾病發(fā)生之間的顯著相關(guān)性可能存在三個原因:(1)SNP本身

22、就是一個致病的SNP。(2)SNP本身不能導(dǎo)致疾病,但與導(dǎo)致疾病的遺傳變異呈連鎖不平衡。(3)研究群體選擇失誤造成的統(tǒng)計顯著性。顯著關(guān)聯(lián)潛在的生物學(xué)機理(1)樣本選取要嚴(yán)格限制在同質(zhì)性群體中;(2)對照組選取應(yīng)當(dāng)謹(jǐn)慎,必要時選擇未受累親屬作為內(nèi)對照。(3)對陽性關(guān)聯(lián)位點進(jìn)行傳遞不平衡檢驗(transmission disequilibrium test, TDT),以確認(rèn)發(fā)現(xiàn)的致病等位在家庭遺傳中傾向于向患病子代遺傳。 第三種情況(統(tǒng)計學(xué)假關(guān)聯(lián))需避免,避免措施(五)遺傳分析中的統(tǒng)計顯著性遺傳分析方法籠統(tǒng)的分為兩類,但相應(yīng)的研究方法眾多。兩類方法面臨的共同問題:統(tǒng)計結(jié)果的取舍,即如何進(jìn)行統(tǒng)計顯

23、著性的閾值設(shè)定。遺傳分析中分子標(biāo)記的增多或檢驗?zāi)P偷脑黾佣黾訌?fù)雜性。多重檢驗:采用多次隨機進(jìn)行SNP與疾病相關(guān)性檢驗進(jìn)行顯著性水平選取,可回避多重檢驗校正。也可對待檢的SNP進(jìn)行LD修正、采用FDR方法進(jìn)行修正。 三、全基因組關(guān)聯(lián)研究全基因組關(guān)聯(lián)研究(genome-wide association study, GWAS):同時選取基因組中上百萬個SNP進(jìn)行研究,是HGP計劃、HapMap計劃、商業(yè)分型芯片發(fā)展共同的結(jié)果,是目前流行的復(fù)雜疾病的遺傳學(xué)研究方法 。GWAS的基因分型:基于全基因組芯片,一種基于寡核苷酸雜交的微陣列芯片。GWAS芯片:Human610-Quad Beadchip和,前者可同時檢測4個樣品的230萬個SNP位點,后者可同時檢測90萬個SNP位點和90萬個CNV位點。人群特異性芯片:基于中國人群基因組的GWAS芯片和全外顯子芯片。GWAS芯片種類與基因分型原理候選區(qū)域精細(xì)定位策略進(jìn)行GWAS四、罕見變異位點的分析方法人類基因組的變異根據(jù)MAF劃分:常見變異(comm

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論