第七章-生物芯片課件_第1頁
第七章-生物芯片課件_第2頁
第七章-生物芯片課件_第3頁
第七章-生物芯片課件_第4頁
第七章-生物芯片課件_第5頁
已閱讀5頁,還剩267頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第七章

生物芯片2023/1/5BIOINFORMATICS1本章提要:生物芯片被譽為20世紀生物學(xué)最重大發(fā)明技術(shù)之一。本章首先對生物芯片作了簡要介紹,然后從生物芯片的分類、基本原理、應(yīng)用和數(shù)據(jù)的處理與分析幾個角度學(xué)習(xí)生物芯片有關(guān)的基本知識。第七章生物芯片2022/12/20BIOINFORMAT2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院2§7.1生物芯片簡介生物芯片(Biochip)又稱微陣列(microarray)。這一名詞是20世紀80年代初提出來的,美國海軍實驗室Carter等科學(xué)家試圖把有機功能分子或生物活性分子進行組裝,構(gòu)建微功能單元,實現(xiàn)信息的獲取、儲存、處理和傳輸功能。真正的生物芯片出現(xiàn)于20世紀90年代,DNA微陣列技術(shù)自1995年誕生之時,就被預(yù)言為具有劃時代意義的技術(shù),將從根本上改變生物科技的面貌。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院3生物芯片將生命科學(xué)研究中所涉及的不連續(xù)的分析過程(如樣品制備、化學(xué)反應(yīng)和分析測試),利用微電子、微機械、化學(xué)、物理技術(shù)、計算機技術(shù)在固體芯片表面構(gòu)建的微流體分析單元和系統(tǒng),使之集成化、微型化。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院4生物芯片主要是指采用光導(dǎo)原位合成或微量點樣等技術(shù),將大量生物分子如核酸片斷、多肽片斷、組織切片、細胞等有序地固定于支持物(如玻片、硅片、聚丙烯酰胺、尼龍膜等)的表面,組成密集、有序的二維分子陣列,然后與已標記的待測生物樣品中靶分子雜交,通過特定的儀器如激光共聚焦掃描或電荷偶聯(lián)攝像機(CCD)對雜交信號的強度進行快速、并行、高效的檢測分析,從而判斷樣品中靶分子的數(shù)量。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院5微陣列的主要應(yīng)用在于對基因表達問題的研究,特別是在人類基因組和其它生物基因組計劃完成之后,我們需要從全基因組水平定量或定性檢測轉(zhuǎn)錄產(chǎn)物mRNA?;虮磉_數(shù)據(jù)與基因組數(shù)據(jù)相比,更為復(fù)雜,數(shù)據(jù)量更大,數(shù)據(jù)的增長更快?;虮磉_數(shù)據(jù)中包含著基因活動的信息,可以反映細胞當(dāng)前的生理狀態(tài)。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院6通過對該數(shù)據(jù)矩陣的分析,可以回答一系列的生物學(xué)問題:基因的功能是什么?在不同條件或不同細胞類型中,哪些基因的表達存在差異?在特定條件下,哪些基因的表達發(fā)生了顯著變化,這些基因受到哪些基因的調(diào)節(jié),或控制哪些基因的表達?2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院7微陣列廣泛應(yīng)用的另一個重要原因是為了理解基因網(wǎng)絡(luò)(network)或通路(pathway)。傳統(tǒng)的分子生物學(xué)方法針對“一個基因一個實驗”的設(shè)計思路,其通量極為有限,同時也無法獲得基因功能的整體框架。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院8例如,傳統(tǒng)方法研究基因之間相互作用關(guān)系的方法之一是通過“基因敲除”技術(shù)來實現(xiàn),只能在很小規(guī)模上觀測對相同或不同組織中對其它基因表達的影響,而微陣列可以在單一芯片上同時監(jiān)測整個基因組的變化,因而可以同時理解成千上萬個基因之間的相互作用,對整個表達譜有一全面理解。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院9生物芯片會對21世紀的生命科學(xué)和醫(yī)學(xué)的發(fā)展產(chǎn)生巨大的影響,可以大大促進后基因組計劃的各項研究。通過比較不同個體或物種之間以及同一個體在不同生長發(fā)育階段,正常和疾病狀態(tài)下基因轉(zhuǎn)錄及其表達的差異,尋找和發(fā)現(xiàn)新基因,研究它們在生物體發(fā)育、遺傳、進化等過程中的功能。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院10生物芯片還將在研究人類重大疾病如癌癥、心血管病等相關(guān)基因及其相互作用機理方面發(fā)揮重要作用。在預(yù)防醫(yī)學(xué)方面,生物芯片可以使人們盡早認識自身潛在的疾病,并實施有效的防治。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院11§7.2生物芯片的種類7.2.1生物芯片的分類1、根據(jù)支持介質(zhì)劃分制備芯片的固相支持介質(zhì)有玻片、硅片、聚丙烯酰胺、尼龍膜等。選擇固相支持介質(zhì)考慮的主要因素有:熒光背景的大小、化學(xué)穩(wěn)定性、結(jié)構(gòu)復(fù)雜性、介質(zhì)對化學(xué)修飾作用的反應(yīng)、介質(zhì)表面積及其承載物能力及非特異性吸附程度等因素。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院122、根據(jù)制備方法劃分芯片制備的方法主要有原位合成和直接點樣法。其中原位合成的代表技術(shù)是先引導(dǎo)聚合法,其中最具有代表性的有Affymetrix公司的多寡核苷酸微陣列,此外還有噴墨打印合成法,代表是Agilent公司的微陣列。直接點樣法用聚丙烯酰胺凝膠作為支持介質(zhì),將凝膠固定在玻璃上,然后將合成好的不同探針分別加到不同的膠塊上,制成以膠塊為陣點的芯片。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院133、根據(jù)芯片上固定的探針劃分生物芯片按其探針分為基因芯片(GeneChip)、蛋白質(zhì)芯片(ProteinChip)、細胞芯片、組織芯片等。如果芯片上固定的分子是寡核苷酸探針或DNA,就是DNA芯片。DNA芯片又細分為寡核苷酸芯片、DNA芯片和基因芯片。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院147.2.2幾種常見的生物芯片1、基因芯片基因芯片是目前最重要的生物芯片,又稱DNA芯片(DNAChip)或DNA微陣列(DNAmicroarray)。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院15基因芯片這一技術(shù)方法是1991年首次提出的,該技術(shù)將成千上萬的探針同時固定于支持物上,所以一次可以對大量的DNA分子或RNA分子進行檢測分析,從而解決了傳統(tǒng)核酸印跡雜交等技術(shù)復(fù)雜、自動化程度低、檢測目的分子數(shù)量少、低通量等不足。而且,通過設(shè)計不同的探針陣列(array),還可以用于序列分析,稱為雜交測序(SBH)。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院16基因芯片以其無可比擬的信息量、高通量、快速、準確的分析基因的能力,在基因功能研究、基因診斷及藥物篩選等方面顯示了巨大的威力,被稱為是基因功能研究領(lǐng)域的最偉大發(fā)明之一?;蛐酒云涓咄俊⒉⑿袡z測等特點適應(yīng)了分析人類基因組計劃對海量生物信息提取、分析的需要。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院17深入研究基因突變和基因表達的有效方法的需求是基因芯片發(fā)展的動力。結(jié)構(gòu)基因組學(xué)研究所有基因的結(jié)構(gòu)和染色體定位,用傳統(tǒng)的方法費時費力,基因表達譜研究基因表達產(chǎn)物在機體發(fā)育、分化及疾病中的作用巨大。由于基因芯片高速度、高通量、集約化和低成本的特點,誕生以后就受到科學(xué)界的廣泛關(guān)注。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院182、蛋白質(zhì)芯片蛋白質(zhì)芯片,又稱蛋白質(zhì)微陣列(proteinmicroarray),是指固定于支持介質(zhì)上的蛋白質(zhì)構(gòu)成的微陣列。蛋白質(zhì)芯片與基因芯片類似,是在一個基因芯片大小的載體上,按使用目的的不同,點布相同或不同種類的蛋白質(zhì),然后再用標記了熒光染料的蛋白質(zhì)結(jié)合,掃描儀上讀出熒光強弱,計算機分析出樣本結(jié)果。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院19從理論上講,蛋白質(zhì)芯片可以對各種蛋白質(zhì)進行檢測,彌補基因芯片檢測的不足,不僅適合于抗原、抗體的篩選,同樣也可用于受體配體的相互作用的研究,具有一次性檢測樣本巨大、相對低消耗、計算機自動分析結(jié)果以及快速、準確等特點。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院20基因芯片通過檢測mRNA的豐度或者DNA的拷貝數(shù)來確定基因的表達模式和表達水平,然而mRNA的表達水平(包括mRNA的種類和含量)并不能反應(yīng)蛋白質(zhì)的表達水平,許多功能蛋白質(zhì)還有翻譯后修飾和加工,如磷酸化、羰基化、乙?;⒌鞍踪|(zhì)水解等修飾,直接進行蛋白質(zhì)分析是蛋白質(zhì)組研究領(lǐng)域的重要內(nèi)容。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院21目前蛋白質(zhì)組學(xué)研究的主要技術(shù)是質(zhì)譜(MS)和雙向凝膠電泳(2D-PAGE)。MS是一種十分有用的檢測工具,但目前尚不能用于定量分析;2D技術(shù)由于樣本需求量大、操作復(fù)雜也不能滿足醫(yī)學(xué)診斷的需求。因而,蛋白質(zhì)芯片剛剛興起就成為研究熱點。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院22蛋白質(zhì)芯片技術(shù)的優(yōu)點主要體現(xiàn)在;①能夠快速并且定量分析大量蛋白質(zhì);②蛋白質(zhì)芯片使用相對簡單,結(jié)果正確率較高,只需對少量血樣標本進行沉降分離和標記后,即可加于芯片上進行分析和檢測;③相對傳統(tǒng)的酶標ELISA分析,蛋白質(zhì)芯片采用光敏染料標記,靈敏度高準確性好。此外,蛋白芯片的所需試劑少,可直接應(yīng)用血清樣本,便于診斷,實用性強。

2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院233、組織芯片組織芯片是將多種組織切片代替核酸或蛋白質(zhì),按照一定順序固定在玻片上。其優(yōu)點在于可以原位檢測信號發(fā)生的位置,缺點是切片較大,因而不能在一張片子上大規(guī)模固定多個樣品。同時,由于組織切片的樣品來源很不穩(wěn)定,每張玻片之間都不相同,重復(fù)性和穩(wěn)定性一直是一主要問題。不過,將芯片概念引入免疫組化和原位雜交中確實是一概念和技術(shù)上的突破。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院24§7.3基因芯片的基本原理7.3.1基因芯片基本原理和基本流程

7.3.1.1基因芯片的基本原理基因芯片的原型是20紀80年代中期提出的?;蛐酒幕驹硎峭ㄟ^雜交的方法,即通過與一組已知序列的核酸探針雜交進行核酸的分析。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院25基因芯片有寡核苷酸芯片、cDNA芯片和Genomic芯片之分,包括兩種模式:一是將靶DNA固定于支持物上,適合于同一探針對不同靶DNA的分析;二是將大量探針分子固定于支持物上,適合于對同一靶DNA進行不同探針序列的分析。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院26根據(jù)基因芯片的應(yīng)用又主要分為兩大類:用于研究基因型和用于檢測RNA的表達。從本質(zhì)上來講,前者實際上是利用基因芯片進行序列分析,其中包括識別DNA序列的突變和研究DNA的多態(tài)性;而后者則是利用基因芯片研究序列的功能。2022/12/20BIOINFORMATICS7.3.1.2基因芯片的基本流程圖8-1cDNA微陣列工作流程圖7.3.1.2基因芯片的基本流程圖8-1cDNA微陣2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院28基因芯片技術(shù)包括四個主要步驟:芯片制備、樣品制備、雜交反應(yīng)、信號檢測和結(jié)果分析。首先提出基因芯片所要解決的問題,確定研究目標,例如,研究基因的SNP。檢測或分析DNA的變異或者進行基因差異表達的研究。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院29根據(jù)所要解決的問題,選擇一組特定的基因?qū)ο?。其次,根?jù)所選擇的基因序列,設(shè)計探針序列以及探針在芯片上的分布。然后根據(jù)設(shè)計結(jié)果制備基因芯片,制備方法大致分為在片合成法和點樣法。接下來就是對靶基因即待測樣品進行擴增和標記,然后進行雜交實驗,并對基因芯片的雜交結(jié)果進行檢測,最后根據(jù)獲得的熒光圖譜,進行數(shù)據(jù)處理分析,報告檢測結(jié)果,并將相應(yīng)的數(shù)據(jù)存入數(shù)據(jù)庫。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院301、基因芯片的制備基因芯片的制備主要包括兩個方面:一是基因芯片的設(shè)計;二是基因芯片的制作。前者又包括基因芯片上探針的設(shè)計和探針在芯片上布局的設(shè)計。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院311)基因芯片設(shè)計:目的在于提取更多的生物分子信息,并提高信息的可靠性?;蛐酒O(shè)計包括寡核苷酸探針或cDNA探針設(shè)計、探針布局和芯片優(yōu)化。根據(jù)參照序列設(shè)計探針,盡可能使最終芯片的熒光檢測圖像中完全互補雜交信號突出,提高基因芯片檢測的可靠性。芯片優(yōu)化是指在設(shè)計后續(xù)階段對芯片制備過程進行優(yōu)化,如減少制備芯片所需要的掩膜板,精簡探針合成環(huán)節(jié)。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院32在芯片設(shè)計的不同階段,都要用到信息學(xué)中的優(yōu)化方法,如探針優(yōu)化、布局優(yōu)化及芯片優(yōu)化。各種基因芯片的功能不同,相應(yīng)的芯片設(shè)計要求和設(shè)計方法也有所不同,必須根據(jù)具體的芯片功能采用不同的設(shè)計方法?;蛐酒瑑纱蟛煌瑧?yīng)用是基因組規(guī)模的DNA變異分析和基因表達比較分析,從芯片設(shè)計方面來看,這兩大類應(yīng)用具有許多共同的要求,但在一些重要的方面卻存在著很大的差異,必須在設(shè)計方面加以考慮。

2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院33在進行探針設(shè)計和布局時必需考慮以下幾個方面:①互補性:探針與待檢測的目標序列片段互補;②敏感性和特異性:要求探針僅僅對特定目標序列片段敏感,而對其他序列不產(chǎn)生雜交信號;③容錯性:通過探針設(shè)計,提高基因芯片檢測的容錯性,常用的方法是使用冗余探針;2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院34④可靠性:通過探針設(shè)計,提高基因芯片檢測的可靠性;⑤可控性:在基因芯片上設(shè)置質(zhì)量監(jiān)控探針,以便于監(jiān)控基因芯片產(chǎn)品的質(zhì)量;⑥可讀性:通過探針布局,使得最終的雜交檢測圖像便于觀察理解,如將檢測相關(guān)基因的探針放在芯片上相鄰的區(qū)域;⑦高信號量的探針不要影響到其他探針的信號。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院35在探針設(shè)計方面,最重要的是所有探針的雜交溫度要盡量接近。為了提高芯片對雜交錯配的辨別能力,人們提出了一種優(yōu)化設(shè)計方法。該方法的基本思想是通過動態(tài)調(diào)節(jié)各個探針的長度及探針之間的覆蓋長度,使所設(shè)計的各個探針的解鏈溫度Tm最大程度地保持一致,從而有效地提高對堿基雜交錯配的辨別能力,提高基因芯片檢測結(jié)果的可靠性。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院36采用生物信息學(xué)中常用的動態(tài)規(guī)劃算法進行優(yōu)化,以使得各個探針具有相近解鏈溫度作為優(yōu)化目標,篩選并優(yōu)化組合各候選探針。在優(yōu)化組合時要求各探針的長度和相鄰探針之間的交疊長度滿足給定的約束條件,經(jīng)過優(yōu)化組合以后得到一組覆蓋目標序列的探針。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院372)基因芯片的制作。要成功的制作芯片,需要準備三大材料:準備固定在芯片上的生物分子樣品(即探針)、芯片片基和制作芯片的儀器。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院38研究目的不同,期望制作的芯片類型不同,制備芯片方法也不盡相同,以DNA芯片為例,基本上可分為兩大類:一類是原位合成(即在支持物表面原位合成寡核苷酸探針),適用于寡核苷酸;另一類是點樣法,預(yù)合成后直接點樣多用于大片段DNA,有時也用于寡核苷酸,甚至cDNA。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院39原位合成有兩種途徑,一是原位光刻合成(Affymetri公司專利技術(shù)),該方法的主要優(yōu)點是可以用很少的步驟合成極其大量的探針陣列。采用的技術(shù)原理是在合成堿基單體的5’羥基末端連上一個光敏保護基。合成的第一步是利用光照射使羥基脫離保護,然后將一個5’端保護的核苷酸單體連接上去,這個過程反復(fù)進行直至合成完畢。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院40使用多種掩蓋物能以更少的合成步驟生產(chǎn)出高密度的陣列,在合成循環(huán)中探針數(shù)目呈指數(shù)增長。某一個含n個核苷酸的寡聚核苷酸,通過4n個化學(xué)步驟能合成出4n個可能結(jié)構(gòu)。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院41例如,合成8核苷酸探針,要通過32個化學(xué)步驟,8個小時可合成65536個探針。用該方法合成的探針陣列密度可高達106個/cm2。另一種原位合成是壓電打印法(piezoelectricprinting),原理與普通的彩色噴墨打印機相似,所用技術(shù)也是常規(guī)的固相合成方法。通過4個噴印頭將4種堿基按序列要求依次噴印在芯片的特定位點上,噴印頭可在整個芯片上移動。支持物經(jīng)過包被后,根據(jù)芯片上不同位點探針的序列需要將特定的堿基噴印在芯片上特定位置。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院42該技術(shù)采用的化學(xué)原理與傳統(tǒng)的DNA固相合成一致,因此不需要特殊制備的化學(xué)試劑。每步產(chǎn)率可達到99%以上,可以合成出長度為40-50個堿基的探針。盡管如此,原位合成方法仍然比較復(fù)雜,除了在基因芯片研究方面享有盛譽的Affymetrix等公司使用該技術(shù)合成探針外,其他中小型公司大多使用合成點樣法。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院43點樣法是將預(yù)先通過液相化學(xué)合成的探針,或PCR技術(shù)擴增cDNA,或基因組DNA經(jīng)純化、定量分析后,通過由陣列復(fù)制器(arrayingandreplicatingdevice,ARD)或陣列點樣機(arrayer)及電腦控制的機器人,準確、快速地將不同探針樣品定量點樣于帶正電荷的尼龍膜或硅片等相應(yīng)位置上(支持物應(yīng)事先進行特定處理,例如以帶正電荷的多聚賴氨酸或氨基硅烷),再由紫外線交聯(lián)固定后即得到DNA微陣列或芯片。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院44點樣的方式分兩種:其一為接觸式點樣,即點樣針直接與固相支持物表面接觸,將DNA樣品留在固相支持物上;其二為非接觸式點樣,即噴點,它是以壓電原理將DNA樣品通過毛細管直接噴至固相支持物表面。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院452.靶基因(待測)樣品的制備生物樣品往往是非常復(fù)雜的生物分子混合體,除少數(shù)特殊樣品外,一般不能直接與芯片反應(yīng),必須將樣品進行生物處理。根據(jù)基因芯片的檢測目的不同,可以將樣品制備方法分為用于表達譜測量的mRNA樣品制備和用于多態(tài)性(或突變)分析的基因樣品的制備,由于這兩種不同的基因芯片在探針設(shè)計上有較大的區(qū)別,靶基因制備的實驗方法也不完全一樣。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院46與普通分子生物學(xué)實驗一樣,靶基因的制備需要運用常規(guī)手段從細胞或組織中提取模板分子,從血液或活組織中獲取的DNA/mRNA樣品在標記成為探針以前必須進行擴增提高閱讀靈敏度,但這一過程操作起來卻有一定的難度。例如在一個癌細胞中有成千上萬個正?;蛟诟蓴_癌基因的檢測,對癌基因進行高效、特異地擴增就不是一件很容易的事。因為在一般溶液中進行PCR擴增時,由于靶片段太少,故存在其他不同的DNA片段與其競爭引物的情況。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院47美國

MosaicTechnologies公司發(fā)展了一種固相

PCR系統(tǒng),優(yōu)于傳統(tǒng)

PCR技術(shù),此系統(tǒng)在靶

DNA上設(shè)計一對雙向引物,將其排列在丙烯酰胺薄膜上,每套都可以從靶基因兩頭延伸。當(dāng)引物和DNA樣品及PCR試劑相混合時,如果樣品包含靶序列,DNA就從引物兩頭開始合成,并在引物之間形成雙鏈DNA環(huán)或“橋”。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院48由于上述反應(yīng)在固相中產(chǎn)生,因而避免了引物競爭現(xiàn)象,并可減少殘留物污染和重復(fù)引發(fā)。這種方法無交叉污染且省去液相處理的繁瑣。LynxTheqeuhcs公司提出另一個革新的方法,即大規(guī)模平行固相克?。╩assivelyparallelsolid-phasecloning)可以對一個樣品中數(shù)以萬計的DNA片段同時進行克隆,且不必分離和單獨處理每個克隆,使樣品擴增更為有效快速。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院49對于檢測表達的芯片,樣品制備通常涉及mRNA的純化、cDNA的合成、體外轉(zhuǎn)錄或者PCR、標記等步驟;而對于SNP或者突變的檢測,則往往涉及基因組DNA的純化和PCR、標記等步驟。在模板擴增過程中,實現(xiàn)對靶基因的標記,根據(jù)樣品來源、基因含量、檢測方法和分析目的不同,采用的基因分離、擴增及標記方法各異。待測樣品的標記方法有熒光標記法、生物素標記法、放射性核素標記法等。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院50目前采用的最普遍的熒光標記方法是通過在擴增過程中加入含有熒光標記的dNTP(至少一種為熒光標記),在轉(zhuǎn)錄和復(fù)制過程中熒光標記的單核苷酸分子被引入新合成的DNA片段。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院51對于表達芯片分析,常用的幾種方法制備和標記靶基因:將純化的樣品RNA通過特定的引物逆轉(zhuǎn)錄合成單鏈cDNA靶基因,在合成的過程中摻入標記物;或者先將待測樣品的RNA轉(zhuǎn)錄合成cDNA,再進一步通過加入標記物進行體外轉(zhuǎn)錄合成cRNA單鏈靶基因,或者將合成的cRNA加標記物和特殊引物進行PCR擴增,制備成標記的雙鏈靶基因。而對于SNP芯片和突變檢測,則需要將純化的基因組DNA用特定的引物擴增并進行標記。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院523.靶基因的雜交及其信號的檢測和分析基因芯片與靶基因的雜交過程與一般常規(guī)的分子雜交過程基本相同。其雜交過程一般先將制備得到的靶基因配制成適當(dāng)?shù)碾s交液。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院53適合于在玻璃片的雜交液有多種,比較典型的配方,如雜交溶液配方A(雜交溫度42℃):50%甲酰胺,6×SCC,0.5%SDS,5×Denhardt試劑;

配方B(雜交溫度65℃):6×SCC,0.5%SDS,5×Denhardt試劑;配方C(雜交溫度65℃):10%SDS,7%的PEG-8000。用于檢測的基因芯片先進行封閉預(yù)雜交30min,然后用含有靶基因的雜交液在雜交溫度下孵育8-24h,用清洗液清洗后離心干燥。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院54雜交條件的選擇與研究目的有關(guān),多態(tài)性分析或者基因測序時,每個核苷酸或突變部位都必須檢測出來,通常設(shè)計出一套4種寡核苷酸,在靶序列上跨越每個位點,只在中央位點堿基有所不同,根據(jù)每套探針在某一特定位點的雜交嚴謹程度,即可測定出該堿基的種類。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院55如果芯片僅用于檢測基因表達,只需設(shè)計出針對基因中的特定區(qū)域的幾套寡核苷酸即可,表達檢測需要長的雜交時間,較低的嚴謹性,更高的樣品濃度和低溫度,這有利于增加檢測的特異性和低拷貝基因檢測的靈敏度。突變檢測,要鑒別出單堿基錯配,需要更高的雜交嚴謹性和更短的時間。

2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院56此外,雜交反應(yīng)還必須考慮雜交反應(yīng)體系中鹽濃度、探針GC含量和所帶電荷、探針與芯片之間連接臂的長度及種類、檢測基因的二級結(jié)構(gòu)的影響。有資料顯示探針和芯片之間適當(dāng)長度的連接臂可以使雜交效率提高150倍。連接臂上的正或負電荷都將減少雜交效率。由于探針和檢測基因均帶負電荷,因此影響它們之間的雜交結(jié)合,為此有人提出用不帶電荷的肽核酸(PNA)做探針。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院57雖然PNA的制備比較復(fù)雜,但與DNA探針比較有許多特點,如不需要鹽離子,因此可防止檢測基因二級結(jié)構(gòu)的形成及自身復(fù)性。由于PNA-DNA結(jié)合更加穩(wěn)定和特異,因此更有利于單堿基錯配基因的檢測。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院58顯色和分析測定方法主要為熒光法,其重復(fù)性較好,不足的是靈敏度仍較低。目前正在發(fā)展的方法還有質(zhì)譜法、化學(xué)發(fā)光法、光導(dǎo)纖維法等。以熒光法為例,當(dāng)前主要的檢測手段是激光共聚焦顯微掃描技術(shù),以便于對高密度探針陣列每個位點的熒光強度進行定量分析。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院59因為探針與樣品完全正常配對時所產(chǎn)生的熒光信號強度是具有單個或兩個錯配堿基探針的5~35倍,所以對熒光信號強度精確測定是實現(xiàn)檢測特異性的基礎(chǔ)。但熒光法存在的問題是,只要標記的樣品結(jié)合到探針陣列上后就會發(fā)出陽性信號,這種結(jié)合是否為正常配對,或正常配對與錯配兼而有之,該方法本身并不能提供足夠的信息進行分辨。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院60通常檢測芯片上的雜交信號需要高靈敏度的檢測系統(tǒng)——閱讀儀(scannerorreader)。閱讀儀的成像原理分為激光共焦掃描和CCD成像兩種。激光共焦掃描與CCD相比,分辨率和靈敏度較高,但是掃描速度較慢且價格昂貴。經(jīng)熒光樣品雜交后的芯片,熒光信號可以經(jīng)過熒光顯微鏡、激光共聚焦顯微鏡或激光掃描儀進行信號的收集,收集后的信號經(jīng)過計算機處理,并與探針陣列位點進行比較,可得出雜交的檢測結(jié)果。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院614.檢測結(jié)果分析基因芯片檢測結(jié)果的分析主要包括三個方面:

1)熒光檢測圖像分析?;蛐酒c熒光樣品雜交后,用圖像掃描儀器捕獲芯片上的熒光圖像。許多基因芯片研究機構(gòu)已開發(fā)出一些基因芯片圖像處理軟件,例如GenePix、ImageGene、BioDiscovery、ScanAlyze等。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院62基因芯片圖像處理最基本的目標是確定每個芯片單元的熒光強度或熒光強度對比值(多色熒光標記的情況下)。目標看上去雖然簡單,但是目前還沒有通用的處理方法。掃描和處理基因芯片圖像仍需要人工干預(yù),以對齊網(wǎng)格線,保證正確標定每個芯片單元的位置,同時還要能夠去除圖像上的污點以及其他形式的圖像噪聲。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院632)檢測結(jié)果分析。如果芯片檢測的目的是測定序列,則要根據(jù)芯片上每個探針的雜交結(jié)果判斷樣本中是否含有對應(yīng)的互補序列,并利用生物信息學(xué)中的片段組裝算法連接各個片段,形成更長的目標序列;如果檢測的目的是進行序列變異的分析,則要根據(jù)正確匹配探針以及錯配探針(錯配探針是指探針中有一個或幾個與靶基因核苷酸序列不同的探針)在基因芯片對應(yīng)位置上的熒光強度,給出序列變化的位點,并指明發(fā)生什么變化;2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院64如果芯片檢測的目的是進行基因表達分析,則需要給出芯片上各個基因的表達譜,定量描述基因的表達水平,進一步分析還包括基因表達模式進行聚類,尋找基因之間的相關(guān)性,發(fā)現(xiàn)協(xié)同工作的基因。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院653)檢測結(jié)果可靠性分析?;蛐酒且粋€非常復(fù)雜的系統(tǒng),包括許多環(huán)節(jié),由于目前技術(shù)上的限制,在基因芯片制備、雜交及檢測等方面都可能出現(xiàn)誤差,芯片檢測結(jié)果并非100%可靠。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院66因此,必須對芯片檢測結(jié)果作出可靠性的評價??煽啃苑治鲋饕獜膬蓚€方面進行:一是根據(jù)實驗統(tǒng)計誤差(如探針合成的錯誤率、全匹配探針與錯誤探針的誤識率等),計算出基因芯片最終結(jié)果的可靠性;二是對基因芯片與樣品序列雜交過程進行分子動力學(xué)研究,建立芯片雜交過程的計算機仿真實驗?zāi)P?,以便在制作芯片之前分析所設(shè)計芯片的性能,預(yù)測芯片實驗結(jié)果的可靠性。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院67§7.4生物芯片的應(yīng)用生物芯片技術(shù)是20世紀90年代中期以來影響最深遠的重大科技進展之一,它是集微電子學(xué)、生物學(xué)、物理學(xué)、化學(xué)、計算機科學(xué)為一體高度交叉的高薪技術(shù),具有重大的基礎(chǔ)研究價值,又具有明顯的產(chǎn)業(yè)化前景。由于使用該技術(shù)可以將大量的探針同時固定于支持物上,所以可以對大量生物分子進行檢測分析,從而解決了傳統(tǒng)核酸印跡雜交技術(shù)復(fù)雜、自動化程度低、檢測目的分子數(shù)量少、低通量等不足。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院68使用該技術(shù)有多種不同的應(yīng)用價值,如測序、基因表達譜測定、基因診斷、藥物篩選等。為后基因組計劃時代基因功能的研究及現(xiàn)代醫(yī)學(xué)科學(xué)及醫(yī)學(xué)診斷學(xué)的發(fā)展提供了強有力的工具,將會使新基因的發(fā)現(xiàn)、基因診斷、藥物篩選、給藥個性化等方面取得重大突破,為人類社會帶來巨大變革。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院697.4.1測序采用生物芯片測序方法有芯片毛細血管電泳測序和寡核苷酸微陣列雜交測序兩種。1999年,加利福尼亞大學(xué)伯克利分校Mathies小組首先報道芯片毛細血管電泳測序結(jié)果。他們在10分鐘內(nèi)完成了對433個堿基對序列的測定工作。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院70用芯片測序的另一種方法是寡核苷酸微陣列測序法,又稱雜交測序法(Sequencingbyhybridization,SBH)。所謂SBH,就是利用固定探針與樣品進行分子雜交產(chǎn)生的雜交圖譜從而排列出待測DNA的序列順序。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院71

SBH的原理可以通過下面的例子來說明,設(shè)有DNA片段AGCCTAGCTGAA,探針為所有的8核苷酸(48=65536種)。將待測DNA和探針按一定比例在適宜溫度下混合雜交,完全匹配的序列有5種,TCGGATCG,CGGATCGA,

GGATCGAC,GATCGACT和ATCGACTT。這些探針只相差一個核苷酸,由它們可得到待測DNA的互補序列為TCGGATCGACTT,待測DNA序列為AGCCTAGCTGAA。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院72最初SBH法是在液相中進行的,因此雜交信號的讀取非常困難,而且限制了序列分析的速度。采用DNA探針陣列方法有較大優(yōu)越性。把一組寡核苷酸探針有序地排列在硅、玻璃等基片表面,組成一二維陣列。在這一陣列中,每一探針都有確定的坐標位置,只要確定了位置就確定了探針,探針與待測DNA雜交,沖洗去非特異性DNA,檢測在哪些位點上有雜交信號。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院73再通過一定的計算就可以得到待測DNA的序列。MarkChee等用含135000個寡核苷酸探針的高密度微陣列分析了黑猩猩和人BRCA1基因序列差異,結(jié)果發(fā)現(xiàn)在外顯子11約3.4kb長度范圍內(nèi)的核酸序列同源性在98.2%到83.5%之間,揭示了二者有高度相似性。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院74目前SBH還存在若干問題,有待進一步改進。比如,由于眾多寡核苷酸組成各不相同,很難找到最佳雜交條件。錯配問題,特別是G-T和G-A,難于檢測。SBH不適合于重復(fù)序列和簡單序列單元DNA的測序等。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院757.4.2基因表達分析由于DNA芯片技術(shù)可直接檢測mRNA的種類及豐度,因而成為研究基因表達的有力工具。檢測基因差異表達的操作流程見圖8-1。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院76cDNA微陣列是在1995年由斯坦福大學(xué)率先研制成功并應(yīng)用于基因表達分析的。首先將細胞內(nèi)的mRNA逆轉(zhuǎn)錄成cDNA并分離,然后將分離得到的所有或部分cDNA(其長度通常大于200bp)作為探針,用機器手按照陣列的形式點到玻璃片上。玻璃片上的每一個點只包含一種cDNA分子,這樣就制成了cDNA微陣列。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院77

一般,探針的序列是已知的。在使用cDNA微陣列時,首先提取組織或細胞系中的mRNA樣本,逆轉(zhuǎn)錄成cDNA并用熒光素標記;然后把標記混合物加到cDNA微陣列上,與探針雜交,雜交過程完成后,清洗微陣列;最后用激光掃描儀掃描并獲取熒光圖像,對圖像進行分析,得到cDNA芯片上每一個點的熒光強度值。熒光強度值定量地反映了樣本中存在的與探針互補的mRNA豐度,也就是反映了探針所對應(yīng)基因的表達水平。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院787.4.3基因診斷基因芯片目前最主要的應(yīng)用之一就是疾病診斷。從正常人的細胞中分離出mRNA后與DNA芯片雜交就可以得出標準圖譜。從病人的細胞中分離出mRNA后與DNA芯片雜交就可以得出病變圖譜。通過分析比較這兩種圖譜,就可以得出病變的mRNA表達的信息,即DNA突變發(fā)生在何部位,屬于什么樣的序列突變。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院79文獻報道了DNA芯片用于檢測遺傳性乳腺和卵巢癌基因BRCAl第11個外顯子的突變。檢測了15例病人樣品,發(fā)現(xiàn)其中14例有基因突變。在20個對照樣品中沒有假陽性結(jié)果出現(xiàn)。研究者所用高密度DNA芯片包含96600種20mer寡核苷酸探針。探針以綠色熒光標記,目的基因轉(zhuǎn)錄產(chǎn)物即靶分子標記紅色熒光,完全雜交的分子產(chǎn)生黃色熒光信號。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院80結(jié)果顯示攜帶BRCAl突變基因的雜合子來源的靶分子能與兩種探針雜交,說明雜合子中包含了野生型及突變型兩種基因。Affymetrix公司把P53基因全長序列和已知突變的探針集成在芯片上,制成P53基因芯片,將在癌癥早期診斷中發(fā)揮作用。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院81又如,Heller等構(gòu)建了96個基因的cDNA微陣列,用于檢測分析風(fēng)濕性關(guān)節(jié)炎(RA)相關(guān)基因,以探討DNA芯片在感染性疾病診斷方面的應(yīng)用。目前,多種診斷芯片包括結(jié)核桿菌耐藥性檢測芯片、肝炎病毒檢測芯片已逐步進入市場,基因診斷是基因芯片中最具有商業(yè)化價值的應(yīng)用。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院827.4.4藥物篩選如何分離和鑒定藥的有效成分是目前中藥產(chǎn)業(yè)和傳統(tǒng)的西藥開發(fā)遇到的重大問題,基因芯片是解決這一問題的有效手段,它能夠大規(guī)模地篩選、通用性強,能夠從基因水平解釋藥物的作用機理,即可以利用基因芯片分析用藥前后機體的不同組織、器官基因表達的差異。如果再以cDNA表達文庫得到的肽庫來制作肽芯片,則可以從眾多的藥物成分中篩選到起作用的部分物質(zhì)。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院83利用RNA、單鏈DNA有很大的柔性,能形成復(fù)雜的空間結(jié)構(gòu),更有利于與靶分子相結(jié)合的特點,可將核酸庫中的RNA或單鏈DNA固定在芯片上,然后與靶蛋白結(jié)合,形成蛋白質(zhì)-RNA或蛋白質(zhì)-DNA復(fù)合物,可以篩選特異的藥物蛋白或核酸,因此,芯片技術(shù)和RNA庫的結(jié)合在藥物篩選中有廣泛應(yīng)用。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院84§7.5數(shù)據(jù)處理和分析7.5.1數(shù)據(jù)處理7.5.1.1丟失數(shù)據(jù)和極端值的處理丟失數(shù)據(jù)(missingdata)和極端值(outlier)是微陣列實驗中數(shù)據(jù)質(zhì)量控制(qualitycontrol)的兩個基本問題。數(shù)據(jù)丟失的原因很多,包括分辨率不夠、圖像失敗或只是由于芯片上的灰塵或劃痕所引起。數(shù)據(jù)丟失還可能由于自動化方法中的系統(tǒng)誤差產(chǎn)生。多數(shù)情況下,丟失的數(shù)據(jù)是這些不同原因相混合,不存在哪種占主要的問題。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院85cDNA微陣列中數(shù)據(jù)丟失的含義是由于空點(emptyspot),其熒光強度為零,或者由于其背景強度高于樣品點。

Affymetrix微陣列丟失數(shù)據(jù)是指原始數(shù)據(jù)中錯配值(MM)高于全配值(PM)。這些可疑資料通常是經(jīng)過手工方法剔除,不用做分析。但在某些情況下,剔除丟失數(shù)據(jù)可能給數(shù)據(jù)分析帶來困難,并引起重要信息的缺失。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院86因此,最好將丟失數(shù)據(jù)進行替換。最簡單的數(shù)據(jù)替換方法是根據(jù)同一芯片上其他點的情況進行統(tǒng)計分析而得到一個預(yù)計值。對于雙色cDNA微陣列,如果某個基因有重復(fù)點,這些點的平均值可用來代替丟失數(shù)據(jù)。如果沒有重復(fù)點,可用統(tǒng)計方法預(yù)測丟失數(shù)據(jù)(如EM算法)。一種簡易方法是計算該樣品點用不同染料標記時在整個芯片強度的分布位置,并以此為參照,推算出相應(yīng)位置上的丟失值而加以替換。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院87極端數(shù)據(jù)是指那些偏離群體的數(shù)據(jù)。微陣列實驗中,極端值的出現(xiàn)和消除可在不同水平。極端值可在一塊芯片上出現(xiàn),但重復(fù)片子上不出現(xiàn);也可以是同一片子上某個基因的重復(fù)點,而不管這些重復(fù)點鄰近與否;還可以是同一片子上任意點所產(chǎn)生的偏離。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院88現(xiàn)有微陣列技術(shù)中,多種因素可導(dǎo)致不同芯片間的變異性。已有不同方法減少這些芯片間的變異和系統(tǒng)誤差(如下文將要敘述的正態(tài)化)。同一類型的芯片中,那些變異性大的片子應(yīng)當(dāng)去除,這種片子又稱極端片子(outlierslide)。片間變異可能由于點樣濃度和體積、加到芯片上的標記靶分子數(shù)目、雜交條件和其他因素等所引起。最簡單的去除極端片子的方法是靠視覺觀察圖像。一種簡單而有效的消除方法是通過提高實驗自動化程度而消除。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院89另一種去除極端片子的方法是如前面實驗設(shè)計中討論的那樣,進行重復(fù)性實驗,并用統(tǒng)計方法評估片間變異。重復(fù)片子上對應(yīng)的基因可得到相關(guān)系數(shù)。這種方法中,至少需要3次重復(fù)才能評估芯片質(zhì)量和剔除極端片子。所用的方法是計算兩兩配對(pairwise)相關(guān)系數(shù)。這時,需要設(shè)置一個相關(guān)系數(shù)界值,依實驗設(shè)計而定,但通常必須大于0.9。通過兩兩配對,分別得到各相關(guān)系數(shù)值。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院90通常情況下,相關(guān)系數(shù)都比較高且差別不大。如果兩個相關(guān)系數(shù)值遠遠低于另外一個,常表明存在極端片子。如果所有相關(guān)系數(shù)都很低,表示微陣列的質(zhì)量差,這不是極端值的范疇,而需要重新設(shè)計和制作芯片。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院91同一芯片上也可出現(xiàn)極端值。在缺乏重復(fù)點的情況下,最高和最低的數(shù)值通常被當(dāng)做極端值處理而加以剔除。閾值的設(shè)置可以根據(jù)百分位值(如最低數(shù)值點或最高數(shù)值點的0.5%)或那些偏離整個片子的分布中一定數(shù)量的標準差范圍(如±3σ)。剩余的資料重新計算均數(shù)和標準差。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院92這個過程不斷重復(fù),直到?jīng)]有發(fā)現(xiàn)極端值為止。這種方法主要根據(jù)統(tǒng)計學(xué)原理,有一定的局限性。從生物學(xué)角度來看,某些基因的表達可能極高或極低,而且意義很大,特別是那些高表達的基因。在有重復(fù)點的情況下,極端值的挑選主要根據(jù)重復(fù)性的相似情況。如果某個重復(fù)點偏離該基因所有重復(fù)點平均數(shù)幾個標準差范圍,這個點即被當(dāng)做極端值,需要去除或替換。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院937.5.1.2數(shù)據(jù)的正態(tài)性和線性檢查正態(tài)性(normality)是指所分析數(shù)據(jù)是否符合正態(tài)分布,而線性(linearity)是指兩組樣品的散點圖中,其數(shù)據(jù)相關(guān)性呈線性。在數(shù)據(jù)分析前后都必須檢查數(shù)據(jù)的正態(tài)性和線性,這是由于微陣列數(shù)據(jù)分析所用統(tǒng)計方法中基本都假定數(shù)據(jù)呈正態(tài)分布。如果數(shù)據(jù)不呈正態(tài)分布,而是向一側(cè)偏移,這些統(tǒng)計方法所得結(jié)果將不可靠,除非選用不依賴正態(tài)分布的非參數(shù)統(tǒng)計方法。微陣列數(shù)據(jù)通常向右歪斜,這是因為許多基因表現(xiàn)為中度或低度表達。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院94數(shù)據(jù)的線性檢查有助于正態(tài)化方法的選用。線性相關(guān)資料可用整體正態(tài)化方法,非線性相關(guān)資料則采用局部正態(tài)化方法。同時,線性檢查也可提供數(shù)據(jù)可靠性的信息。檢查線性最簡單的方法是作散點圖(scatterplot)。如果數(shù)據(jù)呈線性,點的分布應(yīng)符合直線性。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院957.5.2數(shù)據(jù)分析微陣列合適的數(shù)據(jù)分析方法取決于實驗設(shè)計和研究目的。微陣列通常用于發(fā)現(xiàn)基因、闡明代謝途徑和進行分子分類。要回答這些問題,需要綜合考慮多個方面。實驗條件可以有多種,如不同時相觀察。這些條件可以相對獨立,也可有某種聯(lián)系,甚至是多種實驗變量的組合。為了反映這些多樣性,已有一些常用的方法用做鑒定這些變化的顯著性或基因表達模式的識別。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院96這主要包括監(jiān)測兩個或多個樣品基因表達水平比值的表達差異性(differentialexpression),減少維數(shù)并進行歸類的主成分分析(principlecomponentanalysis),以及用做類型發(fā)現(xiàn)(classdiscovery)和類型預(yù)測(classprediction)的聚類分析(clustering)和分類分析(classification)。以下將主要介紹目前常用的差異表達分析和聚類分析。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院977.5.2.1差異表達分析用于檢測基因表達水平的DNA微陣列實驗的應(yīng)用之一是比較實驗,其目的是比較兩個條件下的基因表達差異,從中識別出與條件相關(guān)的特異性基因。何謂顯著表達差異?它通常是指一個基因在兩個條件中表達水平的檢測值在排除實驗、檢測等因素外,達到一定的差異,具有統(tǒng)計學(xué)意義,同時也具有生物學(xué)意義。例如,與正常組織相比,腫瘤組織中相對高表達的基因。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院98微陣列技術(shù)的早期應(yīng)用中(目前還在應(yīng)用),研究差異表達基因的方法是將相同組織來源的兩種樣品(如癌癥和正常)經(jīng)不同標記,混合后與同一芯片雜交。篩選的標準通常定義為1.8-2.0倍。其比值超過這個界值時被認為是差異表達。如果使用重復(fù)點,出現(xiàn)一個以上的重復(fù)點的表達比值超過閾值,這個基因可被認為是差異表達基因。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院99常用的分析方法有3類,第一類稱之為倍數(shù)分析,計算每一個基因在兩個條件下的Ratio值,若大于給定閾值,則為表達差異顯著的基因;第二類方法采用統(tǒng)計分析中的t檢驗和方差分析,計算表達差異的置信度,來分析差異是否具有統(tǒng)計顯著性;第三類是建模的方法,通過確定兩個條件下的模型參數(shù)是否相同來判斷表達差異的顯著性,例如貝葉斯方法。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院100倍數(shù)變化分析方法具有明顯的局限性,這是因為缺乏基因表達變化數(shù)據(jù)的可靠性和界值的選擇標準。從生物學(xué)角度看,基因表達變化的程度并不一定表示會產(chǎn)生生物學(xué)后果。而兩種不同組織或狀態(tài)下,一種僅表現(xiàn)為20%變化量的基因可能較同樣組織中變化量超過2倍或更高倍數(shù)的基因更具生物學(xué)意義。例如,信號傳導(dǎo)途徑中,任何細小的基因表達量的變化可產(chǎn)生明顯的生物學(xué)結(jié)果。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院101即使通過統(tǒng)計分析得到的差異表達基因,也會出現(xiàn)同樣的爭議。另外,低表達基因的熒光強度更易受到其他因素如背景噪音的影響,因此低豐度基因所受影響較高豐度基因大,需要一個更大的界值才能篩選出受調(diào)節(jié)的基因。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院102篩選差異表達基因更可靠的方法是利用統(tǒng)計學(xué)原理,特別是有重復(fù)芯片或基因點時。僅有為數(shù)不多的統(tǒng)計處理方法可用來進行微陣列的數(shù)據(jù)分析。差異表達基因的統(tǒng)計檢驗方法通常是比較兩組或多組均數(shù)的差異。如果僅有兩組,可用t檢驗;兩組以上則常用方差分析(ANOVA),兩者的假設(shè)都必須符合正態(tài)分布。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院103差異表達統(tǒng)計分析時,需要決定選用單側(cè)檢驗還是雙側(cè)檢驗。通常分3種情形:①研究組(如腫瘤)較對照組表達高;②研究組較對照組表達低;③研究組和對照組的表達可高可低。前兩種情況選擇單側(cè)檢驗,最后一種情況選擇雙側(cè)檢驗。另一需要考慮的問題是界值α(I類錯誤)的設(shè)定,通常選擇0.05。由于微陣列上有成千上萬個基因,盡管I類錯誤的比例較小,但假陽性的基因數(shù)目不可低估。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院104如10000個基因的芯片,將有500個基因的表達

為假陽性結(jié)果。這種錯誤率顯然與樣品大小有關(guān)?;谶@種分析,很難避免實驗水平上的誤差,這可以根據(jù)下面的計算進一步說明問題。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院105如果選擇顯著性水平為0.05,每個基因不出錯的概率為:Pgene(正確)=1-P=1-0.05=0.95

因此,如果觀察500個基因,實驗水平上不出錯的概率為:Pexp(正確)=(1-P)500=(1-0.05)500=0.95500=7.275E-12

這樣,實驗水平引起錯誤的概率是:Pexp(錯誤)=1-(1-P)500=1-7.275E-12≈12022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院106就是說,含500個基因的微陣列將不可避免地出現(xiàn)錯誤,更不用說含有上千或上萬個基因的情況。因此,多重比較時常需要進行校正,以降低總的實驗水平的I類錯誤的概率,即在基因水平發(fā)生至少一個錯誤的概率。校正方法中常用的有Sdák校正法、Bonferroni校正法,以及假發(fā)現(xiàn)率控制法(falsediscoveryratecontrolling)和置換校正法(permutationcorrection)。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院1077.5.2.2主成分分析(PCA)數(shù)據(jù)集中,一些數(shù)據(jù)并不能增加有用的信息量,而只是混淆數(shù)據(jù),這時需要減少數(shù)據(jù)的維數(shù)(dimension)。微陣列的數(shù)據(jù)集通常非常大,含有上萬個基因,以及很多次不同實驗的結(jié)果。每個基因以及每個實驗就可當(dāng)做一維。減少維數(shù)的方法有多種,主成分分析(PCA)是最常用的一種。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院108計算主成分的目的是將高維數(shù)據(jù)投影到較低維空間。給定n個變量的m個觀察值,形成一個n×m的數(shù)據(jù)矩陣,n通常比較大。對于一個由多個變量描述的復(fù)雜事物,人們難以認識,那么是否可以抓住事物的主要方面進行重點分析呢?如果事物的主要方面剛好體現(xiàn)在幾個主要變量上,我們只需要將這幾個變量分離出來,進行詳細分析。但是,在一般情況下,并不能直接找出這樣的關(guān)鍵變量。這時我們可以用原有變量的線性組合來表示事物的主要方面,PCA就是這樣一種分析方法。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院109PCA的目標是尋找r(r<n)個新變量,使它們反映事物的主要特征,壓縮原有數(shù)據(jù)矩陣的規(guī)模。每個新變量是原有變量的線性組合,體現(xiàn)原有變量的綜合效果,具有一定的實際含義。這r個新變量稱為“主成分”,它們可以在很大程度上反映原來n個變量的影響,并且這些新變量是互不相關(guān)的,也是正交的。通過主成分分析,壓縮數(shù)據(jù)空間,將多元數(shù)據(jù)的特征在低維空間里直觀地表示出來。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院110例如,將多個時間點、多個實驗條件下的基因表達譜數(shù)據(jù)(N維)表示為3維空間中的一個點,即將數(shù)據(jù)的維數(shù)從RN降到R3。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院111在進行基因表達數(shù)據(jù)分析時,一個重要問題是確定每個實驗數(shù)據(jù)是否是獨立的,如果每次實驗數(shù)據(jù)之間不是獨立的,則會影響基因表達數(shù)據(jù)分析結(jié)果的準確性。對于利用基因芯片所檢測到的基因表達數(shù)據(jù),如果用PCA方法進行分析,可以將各個基因作為變量,也可以將實驗條件作為變量。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院112當(dāng)將基因作為變量時,通過分析確定一組“主要基因元素”,它們能夠很好地說明基因的特征,解釋實驗現(xiàn)象;當(dāng)將實驗條件作為變量時,通過分析確定一組“主要實驗因素”,它們能夠很好地刻畫實驗條件的特征,解釋基因的行為。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院1137.5.2.3聚類分析基因表達譜分析所采用的常用方法是聚類,其目的就是將基因分組。從數(shù)學(xué)的角度講,聚類得到的基因分組,一般是組內(nèi)各成員在數(shù)學(xué)特征上彼此相似,但與其他組中的成員不同。從生物學(xué)的角度講,聚類分析方法所隱含的生物學(xué)意義或基本假設(shè)是組內(nèi)基因的表達譜相似,它們可能有相似的功能。然而,產(chǎn)物有相同功能的編碼基因(例如對其他蛋白質(zhì)有磷酸化作用),不一定共享相似的轉(zhuǎn)錄模式。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院114相反,有不同功能的基因可能因為巧合或隨機擾動而有相似的表達譜。盡管有許多意外的情況存在,大量功能相關(guān)的基因的確在相關(guān)的一組條件下有非常相似的表達譜,特別是被共同的轉(zhuǎn)錄因子共調(diào)控的基因,或者產(chǎn)物構(gòu)成同一個蛋白復(fù)合體,或者參與相同的調(diào)控路徑。因此,在具體的應(yīng)用中,可以根據(jù)對相似表達譜的基因進行聚類,從而預(yù)測未知基因的功能。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院115聚類分析是模式識別和數(shù)據(jù)挖掘中普遍使用的一種方法,是基于數(shù)據(jù)的知識發(fā)現(xiàn)的有效方法,特別適用于模式分類數(shù)不知道的情況。聚類分析是一種無監(jiān)督學(xué)習(xí)方法,不需要任何先驗領(lǐng)域知識,它根據(jù)數(shù)學(xué)特征提取分類標準,對數(shù)據(jù)進行分類,這種數(shù)學(xué)特征的例子有統(tǒng)計平均值、相關(guān)系數(shù)、協(xié)方差矩陣的本征值及本征向量等。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院116聚類分析并不是新建立起來的方法,在基因表達數(shù)據(jù)分析方面,層次式聚類、K均值、自組織映射神經(jīng)網(wǎng)絡(luò)在應(yīng)用中是常用的方法。微陣列實驗中聚類的基本概念是將相似表達的基因歸成同一種類型,然后觀察該類型的生物學(xué)意義。聚類分析方法本身不難理解,難的是如何理解其生物學(xué)意義。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院117層次聚類法,在統(tǒng)計分析中也稱為系統(tǒng)聚類法,其原理和算法與第6章所介紹的系統(tǒng)發(fā)生樹連鎖構(gòu)建方法類似,所不同的只是將所分析的數(shù)據(jù)由生物分子序列換成了這里的基因表達譜。許多聚類算法并不是直接基于原始數(shù)據(jù)的考慮,而是利用對象之間的距離(或相似性)陣列進行歸類。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院118因此微陣列數(shù)據(jù)分析中首要的也是最關(guān)鍵的步驟是選擇合適的距離來量化已獲得基因間生物學(xué)上的相似性。有許多種距離測量方法,包括Euclidean距離、Euclidean距離平方、標準化Euclidean距離、線性相關(guān)距離和Manhattan距離等。微陣列數(shù)據(jù)分析中常用Euclidean距離和線性相關(guān)距離。2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院119Euclidean距離獨立處理各坐標并盡量使各矢量坐標間的差異最小。對于下列兩基因X=(x1,x2,…,xn)和Y=(y1,y2,…,yn),Euclidean距離d(X,Y)的計算方法是:

2022/12/20BIOINFORMATICS2023/1/5BIOINFORMATICS數(shù)理與生物工程學(xué)院120舉個簡單的例子來說明Euclidean距離的計算方法,如X=(3,4)和Y=(0,0),則:對于同樣的兩

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論