版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
判別基因芯片中的整體數(shù)據(jù)質量內(nèi)容提要:第一節(jié)基因芯片數(shù)據(jù)質量第二節(jié)基因芯片弱信號處理第三節(jié)基因芯片數(shù)據(jù)歸一化第五章生物芯片數(shù)據(jù)質量判別基因芯片中的整體數(shù)據(jù)質量生物學驗證和解釋芯片實驗實驗設計圖像處理數(shù)據(jù)歸一化生物問題假設檢驗差異基因分類分析數(shù)據(jù)分析聚類分析失敗通過數(shù)據(jù)預處理質量控制判別基因芯片中的整體數(shù)據(jù)質量第一節(jié)基因芯片數(shù)據(jù)質量
一、芯片圖形常見問題
二、芯片誤差產(chǎn)生原因
三、如何減少芯片誤差
四、芯片數(shù)據(jù)質量判斷五、芯片平臺實驗數(shù)據(jù)的評估判別基因芯片中的整體數(shù)據(jù)質量一、芯片圖像常見問題:(1)是否有雜質(2)信號點強度是否太高或太低(3)是否有刮擦痕跡(4)背景強度是否過高判別基因芯片中的整體數(shù)據(jù)質量圖像和背景都很均一信號強度不均一判別基因芯片中的整體數(shù)據(jù)質量整體背景高局部背景高可能是雜交液或者芯片本身有問題,需要重新進行雜交。判別基因芯片中的整體數(shù)據(jù)質量擦痕判別基因芯片中的整體數(shù)據(jù)質量質量好的雙通道cDNA芯片判別基因芯片中的整體數(shù)據(jù)質量有水漬,洗滌是存在問題判別基因芯片中的整體數(shù)據(jù)質量保存不當,受潮判別基因芯片中的整體數(shù)據(jù)質量紅色熒光背景高判別基因芯片中的整體數(shù)據(jù)質量邊緣效應:芯片邊緣的信號明顯比其它地方弱。判別基因芯片中的整體數(shù)據(jù)質量二、芯片誤差來源分析基因芯片技術是一種半定量的分析手段,存在誤差、且很難克服。在芯片實驗中,要盡量降低誤差,以提高數(shù)據(jù)分析的準確性。判別基因芯片中的整體數(shù)據(jù)質量芯片誤差來源1)生物學差異:內(nèi)在的、受到遺傳和環(huán)境因素影響。2)實驗過程誤差:(1)芯片制備過程誤差:克隆的準確性、PCR擴增及產(chǎn)物純化過程、點樣及點樣后處理(2)樣本檢測過程誤差:RNA抽提和標記過程、雜交過程(3)檢測系統(tǒng)誤差:硬件、軟件判別基因芯片中的整體數(shù)據(jù)質量誤差原因——克隆的準確性目前cDNA克隆的主要來源是商業(yè)化公司提供的克隆,其克隆準確性僅為65-85%克隆誤差產(chǎn)生主要原因:1)含質粒的細菌培養(yǎng)及質粒抽提過程中存在污染2)克隆重排過程人為的錯誤判別基因芯片中的整體數(shù)據(jù)質量誤差原因——PCR擴增及產(chǎn)物純化過程
影響cDNA質量的原因:A.模板的質量:最好是純化的質粒,不能有污染。B.PCR引物序列的特異性:特異性低的引物會導致非特異性擴增、多帶、拖尾、甚至無擴增產(chǎn)物。純化方法也會影響芯片質量A.沉淀法:離心力不足,會導致回收率不穩(wěn)定。B.樹脂純化法:成本比較高,純化得率低于沉淀法。判別基因芯片中的整體數(shù)據(jù)質量誤差原因——點樣及點樣后處理點樣儀精密度:影響芯片矩陣整齊度。點樣針清洗不徹底:導致DNA探針間交叉污染。點樣針磨損程度和針堵塞的情況:造成陽電點的大小和形狀不同。點樣后處理:包括水合、交聯(lián)、洗脫未結合的探針、封閉等步驟,這個過程會影響到DNA固定在芯片上的效率。判別基因芯片中的整體數(shù)據(jù)質量誤差原因——RNA抽提方法
RNA的質量直接影響標記效率和實驗的成功率,可以說是導致芯片實驗失敗的最主要的原因。不同物種、不同組織類型由于細胞成分的不同導致RNA的純度和得率有較大的差異,有些甚至需要特殊的實驗流程,而芯片公司一般是SOP(標準化)作業(yè)。判別基因芯片中的整體數(shù)據(jù)質量誤差原因——RNA的標記過程
標記反應的過程中不同的mRNA,其逆轉錄效率會有所差異,從而導致誤差。標記過程中產(chǎn)生誤差的主要因素有:(1)mRNA的固有性質與逆轉錄酶(2)逆轉錄引物(3)熒光染料(4)標記后產(chǎn)物純化判別基因芯片中的整體數(shù)據(jù)質量誤差原因——雜交過程雜交是個非常復雜的過程,受到1)雜交的時間和空間、2)玻片的表面物質的親水性和疏水性、3)探針在玻片表面上的分布和構型、4)4)溫度、5)雜交液配方和濃度等影響,如果考慮到6)探針和靶序列的長度、7)G+C含量、8)SNP等影響,情況會更復雜。判別基因芯片中的整體數(shù)據(jù)質量誤差原因——硬件不同的掃描方式就會帶來誤差,即使使用同一類但由不同公司生產(chǎn)的掃描儀,由于硬件配置和光路設計的不同,也會帶來一定的誤差。
光漂白現(xiàn)象也會對芯片數(shù)據(jù)的質量帶來一定的誤差。判別基因芯片中的整體數(shù)據(jù)質量誤差原因——軟件不同軟件的核心算法不同,因此同一原始圖片經(jīng)過不同軟件處理后,數(shù)據(jù)會不同。同一軟件,取信號點和背景的原理也有好幾種,通過不同方法讀取的數(shù)據(jù),也有一定的偏差。軟件質量會影響掃描圖像定位的準確度和數(shù)據(jù)的精確性等重要參數(shù),因此需要選擇質量好的圖像處理軟件。判別基因芯片中的整體數(shù)據(jù)質量三、如何減少芯片誤差實驗設計1)重復:生物學重復、技術上重復2)直接比較:使用正反或環(huán)式標記法,平衡染料和樣本的差異。實驗過程的質控1)制備過程的原材料檢測2)生產(chǎn)過程3)成品質控數(shù)據(jù)處理與矯正判別基因芯片中的整體數(shù)據(jù)質量減少誤差——對基片進行檢測目前,國內(nèi)外沒有統(tǒng)一的基片質檢方案。好的基片背景低﹑DNA的固定能力強﹑平整度,質檢主要考察這三個參數(shù)。此外,要檢查是否有劃痕和污點。每批基片抽出一定比例,用標記有熒光染料的DNA探針點樣、固定、洗脫,通過比較洗脫前后的熒光信號變化,測定基片的固定率?;砻娴幕瘜W基團的穩(wěn)定性較差,保存時間對其固定的效率影響很大。判別基因芯片中的整體數(shù)據(jù)質量減少誤差——對探針進行檢測對于cDNA芯片,所獲得的cDNA克隆必須是經(jīng)過嚴格測序的,而且克隆的保存也必須嚴格,以防止污染。在使用之前以及PCR之后,還應抽出5%的克隆進行再測序,以判斷克隆的位置是否有錯亂或污染。對于直接點樣的寡核苷酸芯片,對供應商提供的寡核苷酸質量也有較高的要求,主要體現(xiàn)在純度﹑序列的正確性﹑濃度等方面,一般需要HPLC純化,并要求供應商提供質檢結果。我們只能使用分光光度計測得其濃度和質量狀況。根據(jù)測得濃度和體積計算出所給的探針總量。例如,,以防止產(chǎn)品中有太多單核苷酸或者太多引物合成不完全。
判別基因芯片中的整體數(shù)據(jù)質量減少誤差——對PCR產(chǎn)物進行質檢PCR的污染控制是一個很重要的環(huán)節(jié),應嚴格遵守操作規(guī)程。質檢PCR產(chǎn)物質量主要采用的方法是瓊脂糖凝膠電泳,一個合格的產(chǎn)物,要求電泳條帶是清晰的單帶。條帶的亮度代表了擴增的量,如果是多條帶或拖尾(smear),則PCR產(chǎn)物的質量就達不到要求。有條件的還可以對純化后的每個PCR產(chǎn)物用96孔的紫外分光光度計進行定量分析。判別基因芯片中的整體數(shù)據(jù)質量減少誤差——對玻片上cDNA固定濃度檢修檢測1.熒光染料染色法:從各批次制備中抽取若干張芯片在配制染料(SYTO61)中浸泡5分鐘(室溫),依次用TE、H2O和無水乙醇洗滌。干燥后,用掃描儀對芯片進行掃描,掃描波長為535nm。2.使用標記的寡核苷酸雜交:使用標記的寡核苷酸與cDNA雜交可以反映cDNA探針的相對量。3.與組織的RNA雜交:這種方式完全與正式的實驗相同,因此能最能真實反映芯片質量。
判別基因芯片中的整體數(shù)據(jù)質量四、芯片數(shù)據(jù)的質量判斷芯片數(shù)據(jù)的質量:(1)整張芯片的質量(2)芯片上各個點的質量
評價芯片質量的方法:(1)信噪比:最簡單的方法就是計算整個芯片的信噪比。信噪比太低表示整個芯片的背景太高,這張芯片的質量不是很好。(2)散點圖判別基因芯片中的整體數(shù)據(jù)質量散點圖散點圖:用來表示在cDNA芯片中兩個組織中基因表達量的比例信息。橫坐標:表示實驗組織(Cy5標記)的樣點信號強度對數(shù)值??v坐標:表示參照組織(Cy3標記)的樣點信號強度對數(shù)值。45度的對角線:基因表達穩(wěn)定不變的區(qū)域。B判別基因芯片中的整體數(shù)據(jù)質量散點圖的作用-對芯片質量進行監(jiān)控
自身校驗實驗:將一份樣本平均分成兩份進行自身校驗實驗,理論上所有點的位置都應在45度對角線上,但考慮到系統(tǒng)誤差,散點的分布表現(xiàn)一定的區(qū)域,分布區(qū)域越小,系統(tǒng)越穩(wěn)定,誤差也越小。圖片分析:兩條紅色平行線表示系統(tǒng)本身誤差的閾值,紅色平行線中間的點表示沒有表達差異。紅色平行線以外的區(qū)域則是偏離較大的點,在自身比較中代表假陽性。判別基因芯片中的整體數(shù)據(jù)質量M-A散點圖判別基因芯片中的整體數(shù)據(jù)質量散點圖與M-A散點圖比較
散點圖:顯示起來非常直接,但由于在實驗中沒有差異表達的基因總是占絕大多數(shù),所以散點圖往往表現(xiàn)出很大的線性,以至于其他一些特性難以觀察到。M-A散點圖:1)增加了空間的延展性,顯示了差異表達隨強度的分布。2)更易觀察到兩種熒光強度之間的一些非線性的特征。判別基因芯片中的整體數(shù)據(jù)質量單個點的質量評估單個點質量的方法:(1)根據(jù)點的物理特性(2)評估點的強度:此點與同一張芯片或重復芯片上同樣基因的點強度是否一致。重復點信號值:理論上是滿足正態(tài)分布,利用所有的重復點求出它們所滿足的正態(tài)分布,假如某個信號點的信號值顯著偏離這個正態(tài)分布,那么這個信號點的數(shù)據(jù)質量可能不是很好。判別基因芯片中的整體數(shù)據(jù)質量如何處理質量低的信號:1)直接濾除質量低的信號點:這種處理有時候會過于武斷,因為一些低質量點也會蘊含有用的信息。2)給高質量點以高的權重值,低質量點以低的權重值,然后進行分析。
判別基因芯片中的整體數(shù)據(jù)質量基于芯片圖像處理信號點的質量信號點的大小和規(guī)則程度:一些信號點直徑太小或者形狀不規(guī)則,和圓相差太大,這些點通常認為質量不是很好;2.信噪比:只有信噪比比較高的信號點,數(shù)據(jù)的可信度才高;3.信號點周圍的背景強度:某個信號點周圍的背景遠遠大于其他信號點周圍的背景,那么這個信號點很可能被污染了;4.信號點背景的均一程度:背景均一程度高的信號點,是質量高的點;5.信號的飽和程度:飽和像素過多的信號點,數(shù)據(jù)準確性令人懷疑。判別基因芯片中的整體數(shù)據(jù)質量五、芯片平臺實驗數(shù)據(jù)的評估
芯片平臺實驗數(shù)據(jù)的評估:通過芯片實驗、數(shù)據(jù)提取獲得的數(shù)據(jù)是否反映了實驗的真實情況。要評價芯片數(shù)據(jù)的好壞,重復實驗是必不可少的,目前不同實驗室采用不同的方法利用重復實驗的數(shù)據(jù)進行評價,可以大致地歸納為兩大類:一是篩選到的差異表達基因的可靠性,二是統(tǒng)計分析系統(tǒng)的重復性。評估參考:自身比較實驗:假陽性、假陰性相關系數(shù)變異系數(shù)(coefficientofvariation,CV)r1/r2值判別基因芯片中的整體數(shù)據(jù)質量自身比較實驗自身比較實驗(Self-comparisonexperiment,SCE):實驗組和對照組的RNA來自同一份樣本,在雙色熒光標記系統(tǒng)中,兩種熒光標記同一RNA,從理論上講,所有基因的信號比值應該為1,在散點圖上形成一條斜率為1的直線。此方法已成為評價芯片試驗體系的一個重要的方式。判別基因芯片中的整體數(shù)據(jù)質量自身比較實驗衡量篩選到的差異表達基因的可靠性判別基因芯片中的整體數(shù)據(jù)質量假陽性基因與假陽性率自身比較實驗,理論上不存在差異表達基因,但實際上會檢測到少量基因的實驗組/對照組比值超過閾值,這些即為假陽性基因。閾值是人為設定的主觀標準,以閾值為基礎來判斷假陽性存在很大的主觀性。在特定的閾值下,假陽性率的大小可以反映出芯片系統(tǒng)的誤差情況,假陽性率高,則芯片數(shù)據(jù)誤差大。因此,假陽性率可以作為一個芯片平臺的重要質量指標。假陽性率越低,芯片平臺的可靠性越高。判別基因芯片中的整體數(shù)據(jù)質量假陽性產(chǎn)生的原因:1)由隨機誤差引起:雜質、背景等因素2)在雙熒光系統(tǒng)中,Cy3和Cy5兩種染料對不同基因的摻入效率略有不同,會引入一部分的假陽性,這部分差異并不是隨機的,與基因序列或信號強度都有一定的關系。這些假陽性只能通過染料互換(DyeS)標記的重復實驗加以去除。只是染料的差異不大,因此,在很多研究中往往忽略。
判別基因芯片中的整體數(shù)據(jù)質量假陰性產(chǎn)生原因1)系統(tǒng)誤差:信號值的線性工作范圍和背景的原因導致Cy3/Cy5的比值比實際的表達比值小2)表達差異倍數(shù)本身比較小,而人為的判定閾值為0.5-2.0;3)弱信號導致的無效基因;4)生物學樣本的不純,如病變組織中混有正常細胞導致Cy3/Cy5的比值比實際的表達比值小5)非特異性雜交導致的檢測比值壓縮,尤其是cDNA芯片回導致更強的非特異性雜交;6)基因芯片上一般并不覆蓋所有的基因,樣本中的一些陽性基因由于在芯片上沒有對應的探針,從而不能探測出。基因芯片的數(shù)據(jù)一般不考慮假陰性問題,僅對陽性基因進行分析和進一步研究。判別基因芯片中的整體數(shù)據(jù)質量相關系數(shù)(correlationcoefficient)
r在-1到1之間。如果r為0表示完全不相關。r等于1時為完全正相關,等于-1時為完全負相關。相關系數(shù)用于衡量芯片的重復性有一定的參考價值。判別基因芯片中的整體數(shù)據(jù)質量cDNA芯片中使用相關系數(shù)衡量同一張芯片中的兩種熒光信號的重復性:當Cy3和Cy5信號值之間的相關系數(shù)接近1,表明兩種熒光信號的相關程度非常高,從而證明雙色熒光系統(tǒng)可靠性高;在兩次重復實驗中,得到兩組Cy5/Cy3比值,計算兩組比值之間的相關系數(shù),作為判斷重復性的標準。理論上如果數(shù)據(jù)完全重復,則其比值的相關系數(shù)為1,但由于系統(tǒng)誤差的存在,比值往往小于1,國際上沒有公認的判斷芯片數(shù)據(jù)重復性的標準,不同實驗的R值相差很大,有人在特定實驗中曾用比值的相關系數(shù)大于0.7作為判斷重復實驗成功的標準。判別基因芯片中的整體數(shù)據(jù)質量相關系數(shù)衡量重復性的局限性相關系數(shù)的大小不僅與芯片的重復性有關,還與兩個比較樣本之間的表達差異程度有關,即當實驗組和對照組兩個樣本表達差異小、差異表達基因的數(shù)量非常少時,相關系數(shù)很低。如果樣本的真實差異基因很少,意味著絕大部分的基因是非差異表達基因,用相關系數(shù)評估就不適當,容易錯誤地得出重復性不好的結論。判別基因芯片中的整體數(shù)據(jù)質量變異系數(shù)(coefficientofvariation,CV)
當芯片數(shù)據(jù)重復較多時,可以用比值的變異系數(shù)來判斷數(shù)據(jù)的重復性,好處在于屏蔽了樣本的量綱和均數(shù)大小的影響。計算每個基因比值的CV值,用所有基因的平均CV值衡量整張芯片實驗的重復性。CV值越小,表示重復性越好。變異系數(shù)適合于衡量多組芯片的重復。變異系數(shù)的計算需要多組芯片的重復,涉及比較高昂的成本,所以這一指標主要用于芯片平臺的測評。正式的實驗一般重復做兩、三次,就無法采用變異系數(shù)作為衡量實驗重復性的依據(jù)。判別基因芯片中的整體數(shù)據(jù)質量r1/r2值
1)r1/r2值是指兩次重復實驗比值相除2)從理論上講同一個點(基因)的兩次重復實驗Ratio1/Ratio2=1,也就是說log2(r1/r2)應該是0。但由于誤差的存在,r1/r2值往往偏離1,偏離程度越大,表明該點的重復性越差。3)r1/r2值作為篩選重復實驗中的有效點的標準。通常當r1/r2值落在0.5-2區(qū)間時,認為是有效重復,而落在該區(qū)間外的點被認為重復性不好,可以作為無效點被過濾。4)用有效點的百分率作為衡量整個芯片實驗重復性的參數(shù)。落在有效區(qū)間內(nèi)的點作為重復好的基因,這些有效點占總基因數(shù)的百分數(shù)即為有效點的百分率,百分率越高,重復越好。判別基因芯片中的整體數(shù)據(jù)質量r1/r2值不足當基因差異表達的倍數(shù)過大,使得兩種熒光信號中有一個過強或過弱而落在線性工作范圍之外,r1/r2值就會產(chǎn)生較大的誤差,從而被過濾一些低豐度基因,由于信號弱導致比值的波動大。比如某一個基因在兩次實驗中的比值分別為100和30,r1/r2為3.33,那么把這個點作為無效點剔除就不妥當,因為這個基因的兩次實驗都顯示了上調表達。
判別基因芯片中的整體數(shù)據(jù)質量第二節(jié)基因芯片弱信號處理判別基因芯片中的整體數(shù)據(jù)質量弱信號與噪聲背景噪聲有生物意義的弱信號分離開來非常重要
信號強度低判別基因芯片中的整體數(shù)據(jù)質量分離弱信號和噪音的方法1重復芯片實驗:缺點——成本較高,而且會提高芯片數(shù)據(jù)的復雜性。2找到一個適當?shù)拈撝担旱陀谠撝档男盘桙c認為是無意義點和不可靠點,應當濾除不進入后續(xù)數(shù)據(jù)分析;高于該值的信號點認為是一些真正的弱信號點和可靠點,應當進入后續(xù)的數(shù)據(jù)分析,挖掘出具有生物意義的信息。判別基因芯片中的整體數(shù)據(jù)質量閾值確定方法固定值法:設定一個固定閾值,小于這個閾值就是弱信號點。但每張芯片的特性并不一樣,所以用一個通用的值來區(qū)分信號過于絕對化。信噪比法:計算單個信號的信噪比來確定這個信號是否是弱信號,但是弱信號點通常是信噪比較低的,所以用這種標準過于嚴格,很多有信息的弱信號點將會失去。判別基因芯片中的整體數(shù)據(jù)質量閾值確定方法背景平均值加兩倍方差:計算整個片子背景平均值加兩倍方差作為閾值,但本底的波動則會導致閾值的波動。陰性對照點平均信號值加兩倍方差:陰性對照點平均信號值加兩倍方差作為閾值。有效的陰性對照點是有限的,不足以形成正態(tài)分布;而且這種方法易于受到陰性對照點自身的影響;有時由于點樣針受到污染,或者同源雜交使得陰性對照點的信號強度值很高,這些都會使得最后得到的閾值波動較大。判別基因芯片中的整體數(shù)據(jù)質量利用強度累積分布函數(shù)確定弱信號閾值
任何組織或細胞中都有一定比例的不表達基因,這些不表達基因和PCR或雜交過程中失敗基因位于累積分布函數(shù)底部。分離弱信號和噪聲的閾值:TD判別基因芯片中的整體數(shù)據(jù)質量對數(shù)據(jù)進行對數(shù)轉換對數(shù)轉換能夠提供從生物學角度上易于解釋和有意義的數(shù)據(jù)。對數(shù)變換減弱了方差和平均值,使得表達的變化獨立于其產(chǎn)生的強度位置,在低強度值處的倍數(shù)改變與高強度值處發(fā)生的倍數(shù)改變具有可比性。對數(shù)轉換后的數(shù)據(jù)的分布呈現(xiàn)出較好的對稱性和正態(tài)性。一些常用的統(tǒng)計分析方法,如t檢驗、F檢驗、相關和回歸等方法都要求數(shù)據(jù)滿足正態(tài)分布或近似正態(tài)分布。如果使用以2為底的對數(shù),后續(xù)的分析和數(shù)據(jù)的解釋將非常方便。例如,要選擇具有4倍以上變化的基因可以在比值直方圖的log2(ratio)=2處截取。
判別基因芯片中的整體數(shù)據(jù)質量第三節(jié)
基因芯片數(shù)據(jù)歸一化(normalization)判別基因芯片中的整體數(shù)據(jù)質量判別基因芯片中的整體數(shù)據(jù)質量判別基因芯片中的整體數(shù)據(jù)質量數(shù)據(jù)的歸一化歸一化:消除系統(tǒng)誤差的影響,使得同一芯片上和不同芯片間基因表達水平的直接比較無法實現(xiàn)。芯片掃描的原始數(shù)據(jù)中,存在著各種偏差,在對芯片數(shù)據(jù)進行分析之前,必須進行數(shù)據(jù)的校正,才能使分析的結果真實地反映生物學功能。判別基因芯片中的整體數(shù)據(jù)質量雙色熒光標記法所引起的系統(tǒng)變異(1)熒光物質的物理、化學屬性。Cy3和cy5光量子范圍不同,cy5有時具有比cy3更高的背景水平。(2)掃描儀的硬件設計可能對cy3和cy5具有不同的讀取效率。(3)標記的方法。絕大多數(shù)cDNA微陣列都會引入基因或序列特異性偏倚。某些基因使用一種染料標記比使用另外一種染料標記具有更強的熒光信號,并且這并非隨機現(xiàn)象,而是在重復實驗中穩(wěn)定出現(xiàn)。理論上,在自身對照實驗中所有基因的cy3/cy5應為1。由雙色熒光標記所產(chǎn)生的系統(tǒng)偏倚導致在cy3和cy5標記物具有相同的量時,它們的熒光強度并不相等。判別基因芯片中的整體數(shù)據(jù)質量系統(tǒng)誤差的幾種圖形呈現(xiàn)方法散點圖
判別基因芯片中的整體數(shù)據(jù)質量箱式圖:可以在圖形上對一組數(shù)據(jù)的均數(shù)、中位數(shù)、上、下四份位數(shù)和最大、最小值進行顯示,直觀地反映出數(shù)據(jù)的集中趨勢和離散趨勢。按照某個分類變量進行分組的直方圖可以對不同組的數(shù)據(jù)分布情況進行直觀的比較。判別基因芯片中的整體數(shù)據(jù)質量M-A圖Xaxis:A–averageintensity
A=0.5*log(Cy3*Cy5)Yaxis:M–logratio
M=log(Cy3/Cy5)判別基因芯片中的整體數(shù)據(jù)質量分布密度圖判別基因芯片中的整體數(shù)據(jù)質量空間點圖:芯片上的每一個點的數(shù)據(jù)都可以在該平面圖上顯示出來
判別基因芯片中的整體數(shù)據(jù)質量數(shù)據(jù)的歸一化步驟兩個基本步驟:不變表達基因(非差異表達基因)的選取以及校準方法。不變表達基因:指表達水平在研究條件和對照條件下沒有發(fā)生變化的基因。不變表達基因的選取對于成功的歸一化和分析是非常重要的。校準方法:線性,非線性,穩(wěn)?。ń档推娈慄c的影響),其他算法判別基因芯片中的整體數(shù)據(jù)質量用于歸一化的非差異表達基因選擇歸一化的第一步是選擇非差異表達基因或不變表達基因。全部基因管家基因對照基因秩不變基因(rank-invariantgenes)判別基因芯片中的整體數(shù)據(jù)質量全部基因芯片上的絕大多數(shù)基因都是非差異表達的,僅有比例非常小的基因在兩個mRNA樣品中的表達有差異,因為根據(jù)生物學知識,若有很多基因的表達都發(fā)生了改變,這種改變對生物體來說將是致死的;上調和下調基因的表達水平具有對稱性。這種方法被成功應用于染色體規(guī)模的微陣列,芯片上的基因數(shù)目很大,通常大于5000,在各實驗條件下具有差異表達的基因數(shù)目不超過10%。但由于不同生物樣品表達圖譜通常具有較大的差異,因此使用全部基因或絕大多數(shù)基因(對表達水平兩端的數(shù)據(jù)進行截尾)進行歸一化將導致在準確性方面受到一定程度的限制。判別基因芯片中的整體數(shù)據(jù)質量管家基因管家基因:在各種條件下具有穩(wěn)定表達的基因。在進行強度依存偏倚的歸一化時,管家基因的熒光強度范圍應該包含芯片上所有點的熒光強度的整個范圍,這對管家基因來說存在一定的困難,因為管家基因通常是高表達基因,對應于高熒光強度的點,而在低的熒光強度下的管家基因較少。因此,當可以預先確定的管家基因的數(shù)量較少或管家基因的強度不能覆蓋信號強度的整個范圍時,使用管家基因進行非線性的歸一化通常得不到較好的結果。判別基因芯片中的整體數(shù)據(jù)質量管家基因實際上,找出一組在各種實驗條件下表達都不發(fā)生改變的管家基因是非常困難的,但找到一組在特定實驗條件下的“臨時”管家基因還是可行的。最近的研究表明管家基因的表達水平也會發(fā)生顯著的改變,因此使用管家基因對微陣列表達數(shù)據(jù)進行歸一化有可能得到錯誤的結果。判別基因芯片中的整體數(shù)據(jù)質量對照基因使用外源性對照方法:來源于合成的DNA序列或者與實驗生物不同的其他生物的DNA,這些對照序列理論上應當具有相同的紅、綠熒光強度,可以用于歸一化。使用滴定系列方法:含有相同的基因或EST,但不同濃度的點被點樣在芯片上。理論上,在強度的整個范圍內(nèi)這些點都具有相同的紅、綠熒光強度值。判別基因芯片中的整體數(shù)據(jù)質量對照基因常用于滴定系列的DNA有兩種:1)染色體DNA:在各種條件下都具有恒定的表達水平,因此可以用于滴定序列,但染色體DNA太復雜。2)特定設計的微陣列樣本池(MSP,microarraysamplepool):它包含了微陣列上的所有基因,類似于沒有中間插入序列的染色體DNA,從而為標記cDNA上的每個片斷提供潛在的探針,因此在不同的生物學樣品間具有較恒定的表達。判別基因芯片中的整體數(shù)據(jù)質量對照基因MSP作為歸一化的對照基因滿足兩個條件:(1)在不同生物學樣品間具有恒定的表達,具有最小的樣本特異性偏倚(2)強度范圍包含整個芯片上點的強度范圍。由于MSP構建方面的挑戰(zhàn)性,得到非常高強度的表達還存在一定的困難。實際應用中,通常在MSP中加入高表達基因來解決。判別基因芯片中的整體數(shù)據(jù)質量秩不變基因(rank-invariantgenes)
如果芯片上沒有外部對照DNA,沒有關于哪些基因為差異表達基因,哪些基因為非差異表達基因,及有多少基因的表達發(fā)生了顯著性變化的先驗知識,非差異表達基因的選擇只能依靠數(shù)學的方法來實現(xiàn)。對一張芯片上所有點的整體熒光強度值按照從小到大的順序進行排序,每個點的序次稱為該點的秩。秩不變基因:在同一張芯片上紅、綠強度的秩相同或非常接近的基因。判別基因芯片中的整體數(shù)據(jù)質量歸一化方法Globalnormalization(Scaling)全局歸一法(縮放法)Intensity-dependentnormalization局部加權歸一化法QuantileNormalization分位數(shù)歸一化法判別基因芯片中的整體數(shù)據(jù)質量Globalnormalization全局歸一化單張芯片全局歸一化:建立在一定的假定基礎上:紅-綠偏移在整個序列上是常數(shù),即紅、綠強度是通過常數(shù)因子相關聯(lián),R=k*G。全局歸一化的目標就是估計此常數(shù)因子k,通過減去c對比值進行校正,使得非差異表達基因的強度比為1,即把對數(shù)比的中心移到0。一般計算方法取芯片上所有對數(shù)比數(shù)值的均數(shù)或中位數(shù)。多張芯片全局歸一化:Xinorm=k*Xi
(k:校正因子)。一般計算方法取某一張芯片上所有對數(shù)比數(shù)值的均數(shù)或中位數(shù)。判別基因芯片中的整體數(shù)據(jù)質量單張芯片雙通道校正效果BeforeAfter判別基因芯片中的整體數(shù)據(jù)質量單張芯片雙通道校正效果判別基因芯片中的整體數(shù)據(jù)質量多張芯片校正效果判別基因芯片中的整體數(shù)據(jù)質量Intensity-dependentnormalization判別基因芯片中的整體數(shù)據(jù)質量比值與強度相關(或者說比值對于點的熒光強度存在系統(tǒng)依存性)而全局歸一化方法不能解決此強度依存偏倚。局部加權線性回歸和其它穩(wěn)健的線性回歸方法可以用于消除強度依存效應的作用。模型建立后,將被用于對數(shù)據(jù)進行校正:每個數(shù)據(jù)點的垂直坐標M值減去擬合的指數(shù)曲線所確定的值,使得染色的偏倚得以校正。判別基因芯片中的整體數(shù)據(jù)質量染色所造成的偏倚在MA圖中常呈指數(shù)型分布,因此可以基于實驗數(shù)據(jù)擬合指數(shù)函數(shù)的參數(shù)。由于微陣列通常包含大量的數(shù)據(jù)點,通常不對原始的所有數(shù)據(jù)擬合模型,而是采用更為簡便的處理方法,在散點圖中把水平X軸劃分為若干強度區(qū)間,相當于把圖形分割成對應X軸不同區(qū)間的若干豎條,計算每個區(qū)間內(nèi)數(shù)據(jù)點的重心,對所有的重心數(shù)據(jù)點擬合形如y=a+b·exp(-cx)的指數(shù)曲線,目的是得到能夠呈現(xiàn)數(shù)據(jù)中染色偏倚的指數(shù)曲線參數(shù)的最佳組合。判別基因芯片中的整體數(shù)據(jù)質量局部加權線性回歸locallyweightedscatterplotsmooth,簡寫為LOWESS和LOESS。兩種方法都使用局部加權線性回歸對數(shù)據(jù)進行平滑。平滑過程是在局部進行的,每個平滑值是由給定點臨近一定范圍內(nèi)所有的數(shù)據(jù)點決定的;平滑過程是通過加權實現(xiàn)的,給定數(shù)據(jù)點一定范圍內(nèi)的數(shù)據(jù)點是通過加權回歸建立起來的,距離給定數(shù)據(jù)點不同距離的數(shù)據(jù)在建立局部回歸方程時的權重不同。LOWESS和LOESS兩種方法的區(qū)別在于回歸中使用的模型的差異:LOWESS使用線性多項式,而LOESS使用二次多項式。判別基因芯片中的整體數(shù)據(jù)質量局部加權線性回歸LOWESS方法最大的優(yōu)點在于它不需要設定某種特定類型的函數(shù)用來建立模型(如指數(shù)歸一化中的指數(shù)函數(shù)),僅需要設定多項式的次數(shù)和光滑因子就可以。另外,LOWESS方法在擬合時所使用的最小二乘回歸具有穩(wěn)定的理論基礎。LOWESS方法的缺點包括:該方法并不生成一個能用數(shù)學公式表達的回歸函數(shù)或模型,尤其是,建立在特定數(shù)據(jù)集基礎上的染色偏倚模型并不能直接用于其它數(shù)據(jù)集的歸一化,LOWESS需要對每個數(shù)據(jù)集建立模型,不同數(shù)據(jù)集基礎上的模型可能會稍有差別。另外該方法計算復雜。LOWESS的一個更重要的不足是對于噪聲和異常值的敏感性,因此在進行LOWESS方法前要把異常值從數(shù)據(jù)中去除或使用穩(wěn)健局部加權線性回歸。判別基因芯片中的整體數(shù)據(jù)質量分段歸一化使用固定數(shù)目的有交叉的窗口代替LOWESS中的滑
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024房地產(chǎn)項目綠化工程合同2篇
- 2025年度白酒線上線下聯(lián)合促銷活動合作協(xié)議3篇
- 二零二五年度存量房屋買賣與共享經(jīng)濟合作協(xié)議3篇
- 排球自拋自扣(推裹)練習 說課稿-2023-2024學年高一上學期體育與健康人教版必修第一冊001
- 2024年度魚種養(yǎng)殖技術培訓與購銷合作合同3篇
- 2025年小學語文四年級下冊名師教案習作例文:《頤和園》《七月的天山》
- 高中信息技術必修一4.3《運用選擇結構描述問題求解過程》說課稿
- 第九單元 當代世界發(fā)展 的特點與主要趨勢 說課說課稿-2023-2024學年高中歷史統(tǒng)編版(2019)必修中外歷史綱要下冊001
- 分與合(說課稿)-2024-2025學年一年級上冊數(shù)學人教版
- 2025年度情侶財產(chǎn)分割協(xié)議書格式
- 中級財務會計學(安徽財經(jīng)大學)智慧樹知到期末考試答案2024年
- 人教版(2019)必修第三冊Unit 4 Space Exploration 課文語法填空
- MOOC 無機及分析化學(下)-華中農(nóng)業(yè)大學 中國大學慕課答案
- 門窗施工安全事故應急預案
- 食品安全管理員理論考試題庫(濃縮300題)
- 小學一年級數(shù)學口算題大全(1000多道)每天50道題
- 燙傷護理pdca案例
- 廣東省深圳市南山區(qū)2023-2024學年六年級上學期期末語文試卷
- 安徽省蚌埠市禹會區(qū)2023-2024學年四年級上學期期末數(shù)學試卷
- 九年級上學期數(shù)學老師教學工作總結
- 預防幼兒骨折的措施
評論
0/150
提交評論