二講基因表達(dá)數(shù)據(jù)分析_第1頁(yè)
二講基因表達(dá)數(shù)據(jù)分析_第2頁(yè)
二講基因表達(dá)數(shù)據(jù)分析_第3頁(yè)
二講基因表達(dá)數(shù)據(jù)分析_第4頁(yè)
二講基因表達(dá)數(shù)據(jù)分析_第5頁(yè)
已閱讀5頁(yè),還剩100頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二講基因表達(dá)數(shù)據(jù)分析

PartI基因測(cè)定平臺(tái)及數(shù)據(jù)庫(kù)介紹(GEO、TCGA、SEER數(shù)據(jù)庫(kù)的下載)PartII基因芯片數(shù)據(jù)的預(yù)處理分析PartIII基因功能分析及DAVID網(wǎng)絡(luò)工具應(yīng)用PartIV綜合案例:腫瘤基因表達(dá)數(shù)據(jù)分析PartI基因表達(dá)測(cè)定平臺(tái)及數(shù)據(jù)庫(kù)介紹近20年來(lái)三種不同高通量基因表達(dá)測(cè)定技術(shù)的應(yīng)用趨勢(shì)基因表達(dá)測(cè)定平臺(tái)與數(shù)據(jù)庫(kù)

1.cDNA芯片2.Affymetrix芯片

3.RNA-Seq技術(shù)對(duì)沒(méi)有已知參考基因組信息的非模式生物,也可測(cè)定轉(zhuǎn)錄信息;RNA-Seq技術(shù)可以測(cè)定轉(zhuǎn)錄邊界的精度達(dá)到一個(gè)堿基;RNA-Seq可以用來(lái)研究復(fù)雜的轉(zhuǎn)錄關(guān)系;RNA-Seq可以同時(shí)測(cè)定序列的變異;RNA-Seq背景信號(hào)很小,測(cè)定的動(dòng)態(tài)范圍很大。常用基因表達(dá)數(shù)據(jù)庫(kù)名稱數(shù)據(jù)庫(kù)內(nèi)容GeneExpressionOmnibus(GEO)目前最常用的基因表達(dá)數(shù)據(jù)(NCBI)ExpressionAtlas歐洲生物信息學(xué)中心的基因表達(dá)數(shù)據(jù)庫(kù)SMDStanford基因表達(dá)數(shù)據(jù)庫(kù)RNA-SeqAtlas正常組織的基因表達(dá)譜數(shù)據(jù)GEPdb基因型、表型和基因表達(dá)關(guān)系GXD老鼠發(fā)育基因表達(dá)信息EMAGE老鼠胚胎的時(shí)空表達(dá)信息AGEMAP老鼠老化的基因表達(dá)數(shù)據(jù)常用基因表達(dá)數(shù)據(jù)庫(kù)

下載膀胱癌數(shù)據(jù)TCGA數(shù)據(jù)庫(kù)的下載推薦UCSCXena下載TCGA數(shù)據(jù)

下載膀胱癌數(shù)據(jù)用RPKM值矩陣數(shù)據(jù)注釋數(shù)據(jù)基因表達(dá)矩陣數(shù)據(jù)基因注釋數(shù)據(jù)表型數(shù)據(jù)總生存時(shí)間無(wú)復(fù)發(fā)生存時(shí)間SEER數(shù)據(jù)庫(kù)TheSurveillance,Epidemiology,andEndResultsSEER數(shù)據(jù)庫(kù)()美國(guó)國(guó)立癌癥研究所“監(jiān)測(cè)、流行病學(xué)和結(jié)果數(shù)據(jù)庫(kù)”,是北美最具代表性的大型腫瘤登記注冊(cè)數(shù)據(jù)庫(kù)之一,收集了大量循證醫(yī)學(xué)的相關(guān)數(shù)據(jù),為臨床醫(yī)師的循證實(shí)踐及臨床醫(yī)學(xué)研究提供了系統(tǒng)的證據(jù)支持和資料。SEER數(shù)據(jù)庫(kù)及軟件下載SEER數(shù)據(jù)庫(kù)不像其他數(shù)據(jù)庫(kù),SEER需要注冊(cè),而且需要簽份保證書,得到官方認(rèn)可才可以得到一個(gè)用戶名和賬號(hào),用于數(shù)據(jù)和軟件的下載安裝。

注冊(cè)入口:填寫信息提交后將迅速收到郵件,進(jìn)行確認(rèn)簽署協(xié)議,發(fā)郵件后等半天~1天就會(huì)收到SEER發(fā)過(guò)來(lái)的用戶名和密碼。SEER數(shù)據(jù)庫(kù)SEERStat軟件雙擊SEERstat圖標(biāo)鏈接下載的數(shù)據(jù)庫(kù)data是選擇數(shù)據(jù)來(lái)源的范圍,SEER數(shù)據(jù)庫(kù)最近更新到2015年的隨訪數(shù)據(jù),所以盡量選最新的數(shù)據(jù)集。selection是選擇病例篩選的條件。點(diǎn)擊edit,然后會(huì)有很多選項(xiàng),選擇你需要的病例范圍、腫瘤類型等等。SEER數(shù)據(jù)庫(kù)有許多自己定義的簡(jiǎn)寫和縮寫,比如metsatdx代表遠(yuǎn)處轉(zhuǎn)移,轉(zhuǎn)移部位和病理類型都用代號(hào)表示。建議官網(wǎng)下載“CScodinginstructions”的文件,里面詳細(xì)列出了該數(shù)據(jù)庫(kù)使用的每個(gè)coding的解釋table是選擇需要的臨床信息。左邊的Row和Column是需要選擇的變量。Execute后就可以下載病例數(shù)據(jù)了,最后出現(xiàn)的是表格形式,可以將表格的數(shù)據(jù)直接復(fù)制粘貼到excel里此數(shù)據(jù)是匯總數(shù)據(jù),也可以按照個(gè)體數(shù)據(jù)下載,但數(shù)據(jù)量大,下載時(shí)間會(huì)比較長(zhǎng)。通過(guò)SEER數(shù)據(jù)庫(kù)(優(yōu)點(diǎn)是數(shù)據(jù)量大)的可獲得性,結(jié)合統(tǒng)計(jì)學(xué)分析和數(shù)據(jù)挖掘等就可以撰寫和發(fā)表論文了。PartII基因表達(dá)數(shù)據(jù)預(yù)處理分析

(一)基因芯片數(shù)據(jù)cDNA微陣列芯片熒光信號(hào)定性信息提?。篜/A/M(Present/Absent/Marginal)定量信息提?。夯谔结樇瘏R總后的基因水平的熒光信號(hào)強(qiáng)度值對(duì)芯片數(shù)據(jù)做對(duì)數(shù)化轉(zhuǎn)換后,數(shù)據(jù)可近似正態(tài)分布。對(duì)數(shù)轉(zhuǎn)換前對(duì)數(shù)轉(zhuǎn)換后數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)過(guò)濾數(shù)據(jù)過(guò)濾的目的是去除表達(dá)水平是負(fù)值或很小的數(shù)據(jù)或者明顯的噪聲數(shù)據(jù)。過(guò)閃耀現(xiàn)象物理因素導(dǎo)致的信號(hào)污染雜交效能低點(diǎn)樣問(wèn)題其他缺失值填補(bǔ)1.數(shù)據(jù)缺失類型非隨機(jī)缺失基因表達(dá)豐度過(guò)高或過(guò)低。隨機(jī)缺失與基因表達(dá)豐度無(wú)關(guān),數(shù)據(jù)補(bǔ)缺主要針對(duì)隨機(jī)缺失情況。2.數(shù)據(jù)補(bǔ)缺方法(1)簡(jiǎn)單補(bǔ)缺法missingvalues=0expressionmissingvalues=1expressionmissingvalues=row(gene)averagemissingvalues=column(array)average(2)k近鄰法選擇與具有缺失值基因的k個(gè)鄰居基因用鄰居基因的加權(quán)平均估計(jì)缺失值數(shù)據(jù)標(biāo)準(zhǔn)化片內(nèi)標(biāo)化(within-slidenormalization)方法(局部加權(quán)回歸)平行試驗(yàn)數(shù)據(jù)的標(biāo)準(zhǔn)化(數(shù)據(jù)點(diǎn)排序,重復(fù)試驗(yàn)的平均值)片間標(biāo)化(multiple-slidenormalization)(平均數(shù),中位數(shù)標(biāo)準(zhǔn)化)1)倍數(shù)法實(shí)驗(yàn)條件下的表達(dá)值對(duì)照條件下的表達(dá)值通常以2倍差異為閾值,判斷基因是否差異表達(dá)差異表達(dá)基因的判斷Fold_change2)t檢驗(yàn)法

運(yùn)用t檢驗(yàn)法可以判斷基因在兩不同條件下的表達(dá)差異是否具有顯著性

3)SAM法(significanceanalysisofmicroarrays)

確定差異表達(dá)基因閾值運(yùn)用該閾值,統(tǒng)計(jì)在值中超過(guò)該閾值的假陽(yáng)性基因個(gè)數(shù),估計(jì)假陽(yáng)性發(fā)現(xiàn)率FDR值。調(diào)整FDR值的大小得到差異表達(dá)基因。(二)RNA-seq測(cè)序技術(shù)及數(shù)據(jù)分析1)RNA-seq數(shù)據(jù)的主要數(shù)據(jù)分析流程RNA-seq數(shù)據(jù)的原始讀數(shù)(rawreads)的質(zhì)控包括序列質(zhì)量分析、GC含量分析、測(cè)序誤差分析或污染分析等。質(zhì)控主要針對(duì)重復(fù)序列、錯(cuò)誤比對(duì)以及堿基質(zhì)量的校正,R軟件包NOISeq及EDASeq等都可以繪制出相應(yīng)的質(zhì)控圖。這樣經(jīng)過(guò)處理后的比對(duì)結(jié)果能夠有效地減少了測(cè)序和比對(duì)過(guò)程中產(chǎn)生的假陽(yáng)性和假陰性。2)RNA-seq數(shù)據(jù)的質(zhì)控?cái)?shù)據(jù)過(guò)濾和質(zhì)控后,首先基本的分析是將reads映射到參考基因組或全基因組進(jìn)行比對(duì),進(jìn)而推斷和發(fā)現(xiàn)新的轉(zhuǎn)錄本,包括識(shí)別可變剪切、變異、非編碼RNA和基因融合等。如果沒(méi)有參考注釋,則測(cè)序數(shù)據(jù)還需要進(jìn)行拼接和重組。3)RNA-seq數(shù)據(jù)的比對(duì)RPKM(ReadsPerKilobasesperMillionreads)和FPKM(FragmentsPerKilobasesperMillionreads)常用來(lái)計(jì)算RNA-seq技術(shù)的基因表達(dá)水平。由于RNA-seq是基于reads量化獲得的基因表達(dá)水平,因此差異表達(dá)基因的分析方法是基于泊松或負(fù)二項(xiàng)分布的離散型分布。常用的R分析軟件包有DESeq、DESeq2、edgeR和baySeq等。篩選出來(lái)的差異表達(dá)基因可以進(jìn)一步作基因的功能分析,如GO(GeneOntology)或KEGG(KyotoEncyclopediaofGenesandGenomes)富集分析。4)將Reads轉(zhuǎn)換為基因表達(dá)水平5)基于RNA-seq數(shù)據(jù)的差異表達(dá)基因分析統(tǒng)計(jì)基因或轉(zhuǎn)錄本對(duì)應(yīng)的讀段(reads)計(jì)數(shù),然后對(duì)讀段計(jì)數(shù)進(jìn)行標(biāo)準(zhǔn)化,使樣本間和樣本內(nèi)的表達(dá)水平能夠進(jìn)行精確比較。最常見(jiàn)的一個(gè)指標(biāo)是RPKM,每百萬(wàn)讀段中來(lái)自某一基因每千堿基長(zhǎng)度的讀段數(shù)目:當(dāng)前RPKM方法是最為常用的基因表達(dá)水平估算方法。進(jìn)一步對(duì)標(biāo)準(zhǔn)化后讀段計(jì)數(shù)分布進(jìn)行統(tǒng)計(jì)學(xué)模型擬合,利用統(tǒng)計(jì)學(xué)檢驗(yàn)評(píng)估基因的差異表達(dá),得到相應(yīng)的P值和差異倍數(shù)(foldchange),并完成多重檢驗(yàn)校正,最后根據(jù)特定閾值(例如FDR<0.05)提取顯著差異表達(dá)的基因。常用的R軟件包有DEseq、DEGseq和baySeq等。

RNA-seq差異表達(dá)基因的篩選其中,第一列表示轉(zhuǎn)錄本名稱;第二列baseMean表示歸一化后該轉(zhuǎn)錄本在所有樣本中的平均表達(dá)值;第三列l(wèi)og2FoldChange表示以2為底的對(duì)數(shù)化的倍數(shù)變化(倍數(shù)變化為兩個(gè)條件下的均值之比);第四列表示標(biāo)準(zhǔn)誤;第五列表示負(fù)二項(xiàng)分布檢驗(yàn)的Wald統(tǒng)計(jì)量;第六列表示的是負(fù)二項(xiàng)分布檢驗(yàn)獲得的p值;第七列表示的是調(diào)整后的p值,一般“padj”的閾值常設(shè)為0.05或0.01。adjustedP-value當(dāng)前,已開發(fā)了很多R軟件包,可根據(jù)數(shù)據(jù)類型(基因芯片microarray數(shù)據(jù)或RNA-seq數(shù)據(jù))選擇差異表達(dá)基因的分析方法,我們會(huì)在后面進(jìn)行介紹。PartIII基因集功能富集分析

進(jìn)行基因集功能富集分析的原因富集分析方法通常是分析一組基因在某個(gè)功能結(jié)點(diǎn)上是否過(guò)出現(xiàn)(over-presentation)。這個(gè)原理可以由單個(gè)基因的注釋分析發(fā)展到大基因集合的成組分析。由于分析的結(jié)論是基于一組相關(guān)的基因,而不是根據(jù)單個(gè)基因,所以富集分析方法增加了研究的可靠性,同時(shí)也能夠識(shí)別出與生物現(xiàn)象最相關(guān)的生物過(guò)程。GO富集分析中常用的統(tǒng)計(jì)方法有超幾何分布、Fisher精確檢驗(yàn)等。超幾何分布:m表示人類所有的基因數(shù),n表示篩選出的疾病相關(guān)的風(fēng)險(xiǎn)基因數(shù)(用戶提供的基因集合中的基因數(shù)),t表示注釋到GO結(jié)點(diǎn)的所有基因數(shù),r為n和t的交集,表示注釋到GO結(jié)點(diǎn)中的疾病風(fēng)險(xiǎn)基因數(shù)(一)GO富集分析Fisher精確檢驗(yàn):基因與GO結(jié)點(diǎn)的關(guān)系疾病風(fēng)險(xiǎn)基因數(shù)人類基因數(shù)映射到GO結(jié)點(diǎn)ab未映射到GO結(jié)點(diǎn)cdFisher精確檢驗(yàn)公式為:這里以目前應(yīng)用較為廣泛的DAVID為例對(duì)基因集進(jìn)行具體分析。DAVID是一個(gè)綜合工具,不但提供基因富集分析,還提供基因間ID的轉(zhuǎn)換、基因功能的分類等。三、富集應(yīng)用分析實(shí)例

DAVID應(yīng)用工具首頁(yè)()點(diǎn)擊“FunctionalAnnotation”后,第一步為提交基因集,選擇基因標(biāo)識(shí)名和基因集類型;第二步得到注釋結(jié)果摘要,包括多種注釋數(shù)據(jù);然后選擇感興趣的注釋內(nèi)容得到富集分析結(jié)果。點(diǎn)擊“FunctionalAnnotation”,首先需要上傳基因列表(UploadGeneList)。在Step1中可以通過(guò)粘貼基因列表(Pastealist)或者選擇保存好的基因列表文件(ChooseFromaFile)上傳。在Step2的基因類別識(shí)別(SelectIdentifier)中可以根據(jù)提供的基因名稱進(jìn)行選擇。基因識(shí)別類別中包括Affymeterix、entrez、ensemble、uniprot、genesymbol等近40種基因識(shí)別ID,這里我們選擇官方的基因名稱識(shí)別(OFFICIAL_GENE_SYMBOL)。在Step3的列表類型中(ListType),有兩種選擇:一種是將上傳的基因作為要分析的基因集合(GeneList),另一種是將上傳的基因作為背景基因(Background)。這里我們勾選“GeneList”。Step4是提交基因列表(SubmitList)。點(diǎn)擊提交后就可以看到富集分析結(jié)果了。點(diǎn)擊已勾選的“GOTERM_BP_FAT”對(duì)應(yīng)的灰色按鈕“Chart”,可以得到如下圖的輸出結(jié)果:GO富集分析輸出結(jié)果界面中包括GO條目的描述,富集分析的P值和Benjamini-Hochberg校正后的p值等。點(diǎn)擊“DownloadFile”可將輸出的結(jié)果保存。通路分析是現(xiàn)在經(jīng)常被使用的芯片數(shù)據(jù)基因功能分析法。通路分析法利用的資源是許多已經(jīng)研究清楚的基因之間的相互作用,即生物學(xué)通路。研究者可以把表達(dá)發(fā)生變化的基因集導(dǎo)入通路分析軟件中,進(jìn)而得到變化的基因都存在于哪些已知通路中,并通過(guò)統(tǒng)計(jì)學(xué)方法計(jì)算哪些通路與基因表達(dá)的變化最為相關(guān)。(二)通路富集分析1)KEGG通路數(shù)據(jù)庫(kù)KEGG(KyotoEncyclopediaofGenesandGenomes)()是系統(tǒng)分析基因功能、基因組信息的數(shù)據(jù)庫(kù),它整合了基因組學(xué)、生物化學(xué)以及系統(tǒng)功能組學(xué)的信息,有助于研究者把基因及表達(dá)信息作為一個(gè)整體進(jìn)行研究。

KEGG不僅提供了所有可能的代謝通路,還對(duì)催化各步反應(yīng)的酶進(jìn)行了全面的注解,包含其氨基酸序列以及到PDB數(shù)據(jù)庫(kù)的鏈接等。此外,KEGG還提供基于Java的圖形工具訪問(wèn)基因組圖譜、比較基因組圖譜和操作表達(dá)圖譜以及其他序列比較、圖形比較和通路計(jì)算的工具。因此,KEGG數(shù)據(jù)庫(kù)是進(jìn)行生物體內(nèi)代謝分析、代謝網(wǎng)絡(luò)分析等研究的強(qiáng)有力工具之一。KEGG中的葡萄糖代謝通路KEGG中的非代謝通路(信號(hào)傳導(dǎo)通路)KEGG通路中,結(jié)點(diǎn)間的各種關(guān)系查看乳腺癌基因BRCA1注釋到哪些通路,在空白框里輸入672red(672是BRCA1的EntrezID號(hào),red表示在通路中該基因用紅色表示)。點(diǎn)擊Exec按鈕執(zhí)行搜索過(guò)程。搜索基因注釋到哪些通路:搜索出了相關(guān)通路點(diǎn)擊第三條通路(hsadd03460),得到該通路的通路圖。2)其他通路數(shù)據(jù)庫(kù)簡(jiǎn)介(1)Biocarta:Biocarta通路數(shù)據(jù)庫(kù)從分子的關(guān)系角度描繪了一個(gè)網(wǎng)絡(luò)圖模型,通過(guò)不斷整合蛋白質(zhì)組信息迅速發(fā)展壯大起來(lái)。該數(shù)據(jù)庫(kù)與KEGG數(shù)據(jù)庫(kù)齊名,盡管其數(shù)據(jù)量目前可能沒(méi)有KEGG的多,但在一些通路相關(guān)的研究中,這個(gè)數(shù)據(jù)庫(kù)也和KEGG一道用來(lái)研究基因的功能,注釋信息及進(jìn)行富集分析等。(2)Reactome:Reactome是信號(hào)通路數(shù)據(jù)庫(kù),是一個(gè)匯集了由專家撰寫,經(jīng)同行評(píng)閱的有關(guān)人體內(nèi)各項(xiàng)反應(yīng)及生物學(xué)路徑的文章的數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)目前覆蓋了UniProt數(shù)據(jù)庫(kù)中兩萬(wàn)個(gè)經(jīng)人工注釋過(guò)的人類蛋白質(zhì)中大約70%以上的蛋白質(zhì),對(duì)主要人類生物學(xué)研究領(lǐng)域,如細(xì)胞凋亡、DNA復(fù)制、轉(zhuǎn)錄、碳水化合物代謝途徑等進(jìn)行了注釋。相對(duì)于KEGG數(shù)據(jù)庫(kù),Reactome是一個(gè)改良的搜索及數(shù)據(jù)挖掘工具,可以簡(jiǎn)化與生物學(xué)途徑相關(guān)的數(shù)據(jù)搜索。(3)Biocyc:Biocyc數(shù)據(jù)庫(kù)提供了上千種生物體基因組和代謝通路的參考信息。截止到2016年12月,Biocyc已融合了9300個(gè)數(shù)據(jù)庫(kù)。Biocyc也包含了很多如搜索、可視化、比較和分析基因組和通路信息的軟件工具。(4)GeneDB:GeneDB數(shù)據(jù)庫(kù)是關(guān)于原核和真核病原體及相關(guān)生物體的基因組數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)提供了基因組序列和注釋數(shù)據(jù),同時(shí)也整合了其他的數(shù)據(jù)庫(kù)資源并發(fā)展了數(shù)據(jù)庫(kù)驅(qū)動(dòng)的注釋工與GO功能富集分析一樣,疾病通路的富集分析常采用的方法也是超幾何檢驗(yàn)或Fisher精確檢驗(yàn)。超幾何檢驗(yàn)的公式如下:m表示人類所有基因數(shù);t表示通路中所有的基因數(shù);n表示疾病風(fēng)險(xiǎn)基因數(shù)(用戶提供的基因集合中的基因數(shù))以及r表示注釋到通路中的疾病風(fēng)險(xiǎn)基因數(shù)(疾病風(fēng)險(xiǎn)基因和通路基因的交集)。3)KEGG通路富集分析如果采用Fisher精確檢驗(yàn),則表格可設(shè)計(jì)為四格表的形式:基于Fisher精確檢驗(yàn)的通路富集分析基因與通路的關(guān)系疾病風(fēng)險(xiǎn)基因數(shù)人類基因數(shù)在通路中(Inpathway)ab不在通路中(Notinpathway)cdFisher精確檢驗(yàn)公式為:DAVID軟件也可用于通路的富集分析。方法與步驟與GO功能富集分析一致,提交基因列表:點(diǎn)擊“KEGG_PATHWAY”對(duì)應(yīng)的“Chart”按鈕,可得到輸出結(jié)果:KEGG富集分析輸出結(jié)果界面中包括KEGG通路名稱,富集分析的P值和Benjamini-Hochberg校正后的p值等。點(diǎn)擊“DownloadFile”可將輸出的結(jié)果保存。PartIV案例:腫瘤基因表達(dá)數(shù)據(jù)分析

R的CancerSubtypes軟件包應(yīng)用Bioconductor的安裝語(yǔ)句source("")biocLite("CancerSubtypes")數(shù)據(jù)導(dǎo)入及數(shù)據(jù)預(yù)處理(數(shù)據(jù)正態(tài)化,數(shù)據(jù)的缺失值填補(bǔ))聚類熱圖的繪制提取差異表達(dá)基因繪制火山圖應(yīng)用非負(fù)矩陣分解聚類法進(jìn)行腫瘤亞型分析(腫瘤亞型比較,繪制亞型聚類熱圖和Silhouette圖)(一)數(shù)據(jù)格式read.table("d:\\genematrix.csv",header=TRUE,sep=",")->aread.table("d:\\genematrixnohead.csv",header=FALSE,sep=",")->datadata<-as.matrix(data)rownames(data)<-a[,1]colnames(data)<-c(rep("D",60),c(rep("N",15)))data[1:10,1:10](二)將整理好的excel數(shù)據(jù)導(dǎo)入library(CancerSubtypes)(三)檢查數(shù)據(jù)的分布data.checkDistribution(data)(四)缺失值填補(bǔ)data=data.imputation(data,fun="median")(五)數(shù)據(jù)正態(tài)化data=data.normalization(data,type="feature_Median",log2=FALSE)type類型:feature_Median中位正態(tài)化feature_Mean均值正態(tài)化feature_zscore按基因標(biāo)化sample_zscore按樣本標(biāo)化log2如果是TRUE,做以2為底的對(duì)數(shù)轉(zhuǎn)換(常用于RNAseq數(shù)據(jù))(六)繪制雙向聚類圖library(gplots)heatmap.2(data,col=redgreen)(七)求差異表達(dá)基因T_data<-data[,1:60]N_data<-data[,61:75]result=DiffExp.limma(Tumor_Data=T_data,Normal_Data=N_data,topk=NULL,RNAseq=FALSE)RNAseq=TRUE表示用RNAseq表達(dá),RNAseq=FALSE表示microarrray數(shù)據(jù)。write.csv(result,file="d:\\result.csv")差異表達(dá)基因結(jié)果:(八)用輸出結(jié)果繪制火山圖

數(shù)據(jù)格式如下:library(ggplot2)read.table("d:\\volcano.csv",header=TRUE,sep=",")->datathreshold<-as.factor(abs(data$logFC)>=1.5&data$Pvalue<0.05)ggplot(data,aes(x=logFC,y=-log10(Pvalue),colour=threshold))+geom_point(alpha=0.4,size=1.75)+geom_vline(xintercept=c(-1,1),lty=4,col="grey",

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論