Bioconductor基因芯片數(shù)據(jù)分析系列(一):數(shù)據(jù)的讀取_第1頁
Bioconductor基因芯片數(shù)據(jù)分析系列(一):數(shù)據(jù)的讀取_第2頁
Bioconductor基因芯片數(shù)據(jù)分析系列(一):數(shù)據(jù)的讀取_第3頁
Bioconductor基因芯片數(shù)據(jù)分析系列(一):數(shù)據(jù)的讀取_第4頁
Bioconductor基因芯片數(shù)據(jù)分析系列(一):數(shù)據(jù)的讀取_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Bioconductor基因芯片數(shù)據(jù)分析系列(一):R包中數(shù)據(jù)的讀取R軟件的Bioconductor包是分析芯片數(shù)據(jù)的神器,今天小編打算推出芯片數(shù)據(jù) 的系列教程。首先講數(shù)據(jù)讀取,以 CLL數(shù)據(jù)包中的數(shù)據(jù)為例。打開 R studio。#安裝所需的R包以及CLL包,注意大小寫,一般函數(shù)都是小寫的source("http:/biocLite.R");biocLite( CLL')0 O 0RStudio-Lh & e)i13一行.1Source 3nlConsole 7 0®P IJf I.個(gè)F n寓 +,I *RJ&am

2、p;個(gè)合作計(jì)劃,有許安人為之做出了滅獻(xiàn).fflontributo-sO'聚分件奢的弁現(xiàn)情況用XitQtiM。'會(huì)由定初I何在出版慢牛正朝兩澗居胞程序包.用Feo£)來看一心示鉆算序.用飛6口。*來匐讀春播舉助文件.或用'help * 0tQrt() *通過HTML渦覽器來看幫助文件.用P。退出%Error in tools: :httpdPort a 0L :只能氐較(4)基元或附列和美iUl>b: Warning m虺5士口2:R grdphics engine version 11 is not supported by this version o

3、f RStudio. The Plots tab will be disabled until a newer verELon of RStudio is installed.Workspace leaded from -/. RDa-taJa biccLiteCMCLL"Jbioconductcr,org/tiocLiteR );> souceChttp: Z/bi oconductor. orfl/btocLite .R");llRL1https/bL.cicor>ductor,orgi/packages/3.4Zbioc/3in/macosx/inaver

4、icks/contrib/3.3/Eioclnstaller_l. Z4 .國上,Content type 1application/x-gzip1 length 56779 bytes <55 KB)dcAnloaded 55 KBThp d<wvnl r>ndAd binary parknps err- tn/var/fol de r s/9x/ztwdwpxn34j IK srqs36srfflicetW0gn/T/Rtfflp3Atttx 5/oom loaaed_packcgesBiocortdjctor version 3.4 CBiocInstaller 1.2

5、4.0 ?bic)Jit白 for help圖1.顯示已經(jīng)安裝好Bioconductor 了,版本為3.4#打開CLL包 library(CLL)而 0 (",RStudio更L. Wt . I 向 S I i /匚口 h 口 工SourceConsote 7 r G1EiF1> libraryCO.O affy 敕人雷要的理將色:BiocGcnerics 里人需要的雇霸包二pn rail lei現(xiàn)人招輯包, EiQcGenui"ix5"rne following ot>j ects ere niasKed from * package :por an

6、 el*:clusterApply, cluiterApplyl F , cluster'Call, clusterEvalQ, clusterExiMrt,. clusterWap., parApply, parCapplyf parLapolv* p<3r,LapulyLBT porRapply, paSopply, parSnpplyLBrhe foL'Lcwing objects ane masKed from package: stots* :TQ?n modg, m十口b與The following objects erw masked from 'p

7、ackage:bose1:any Duplicated, append, as. cicta. frame, col nd, coinarres, do. Mil, dualicated., eval, calq, Filtert Find, getT grep, grcplt intersect, is. uncarted, 1 apply, lAn5ths, Map, rrupplyT match, nget, orider T paste 3 pemx, , ?miT» , Position* rank* rbnd, Reduce» r

8、ownames, sapply, setdiff! sort, table 1 tcpplyr union, unique unsplitt whichwhich,maxh which+mn我人百里的用鞘包:BiobaseNel come to Bio con due torVignettes contain ifltroduttory materiol; hie口 with 1 browseVigriettes(*. To cite Bioconducto", see hcitotionC "BiobGEe''d and for packages '

9、; cttatlon(;*pKgnafnehhj',圖2.顯示打開CLL成功圖3.右側(cè)欄內(nèi)可見看到目前載入的程序包data(CLLbatch)# 調(diào)用RMA算法對(duì)數(shù)據(jù)預(yù)處理CLLrma<-rma(CLLbatch)# 讀取處理后所有樣品的基因表達(dá)值 e<- exprs(CLLrma)# 查看數(shù)據(jù)e我們可以看到,CLL數(shù)據(jù)集中共有24個(gè)樣品(CLL10.CEL, CLL11.CEL, CLL12.CEL, 等),此數(shù)據(jù)集的病人分為兩組:穩(wěn)定組和進(jìn)展組,采用的設(shè)計(jì)為兩組之間的對(duì) 照試驗(yàn)(Control Test)。從上面的結(jié)果可知,Bioconductor具有強(qiáng)大的數(shù)據(jù)預(yù)處 理

10、能力和調(diào)用能力,僅僅用了 6行代碼就完成了數(shù)據(jù)的讀取及預(yù)處理。Bioconductor基因芯片數(shù)據(jù)分析系列(二):GEO下載數(shù)據(jù)CEL的讀取ge心 為二祀dUtr.sq 產(chǎn)陰.同亙 Eman we。GEOOne EMartJiMn ")打型)us登陸pubmed ,找到一個(gè)你感興趣的數(shù)據(jù)庫首先得下載一個(gè)數(shù)據(jù),讀取 GEO的CEL文件采用如下命令:CcunirvScuth KorflahJCBI 工 EEO > Afeeuinn Display U5c x: seif fj Formats html i Arrount; ourik 0G&D aecessiori:后正3

11、%7Buerall designIn tri您 tra I infant 二力 turn口 r arrd non-tunrior hver were pr-on «d sparMGl and: each 呻己與 used to generate a prediction mcde whiuh vias vabdsited mith the< Independent vjilljtlon &ut.rgduhomExp-sr'me typeSummaryPublic m Nar 20r 2013Gene 員加西扇” Profiles of rom uifm 皿日 A

12、djacent non-tumsr i?ve- iderurv Hepatocellijlar CarEinama Pai'-ents at High RJsk oF ftecurrence after Curative同邛口犯也myHomo sapiensEkpnesson profiling hy arrayPrcgreSi<in of hpatocgiliildr carcinoma (MCC) cften leads S 可造cular Inion aM mtrfthepaTiic 強(qiáng)a3以 wtmn correbre with fcuew世 after surgiaii

13、 仃tnract and wor prognatife.It IB cruaali to aenorv patients vmWi 3 nigrr risk 前 necurrenre and 收解即8 wre rtensified or targeted! treaEment strategy to improve di&esse outoDme.C»Mian(i)Llm Sahft I, S, Lm J «t aL Prediction e小虻聲工時(shí)一 才urviyM ih hpjjlucdlu iar CiirdrKurn4 by gany k-事 an pru

14、illlfFg,. Aw? Suf口 OhbJ 2013 Nov;20( 12):3747-53, PMID: 23fl00fl96Mar08r 3012N$v 13. 201E535 fameGreoi Keun 雨水StstuintteSbbmii9.lon 曲te>即工 UPlldl ddL«E-HMilOngnk/dLicn riduxStreet a ddresisZJP/PmUi gH看d£pArk941<kd.#dLiSdHitung M&。忙al Uwnlr so invan dang 3ngonau Seoul135-71CWaifar

15、ms (13GLlOSSS IkimurH HumanMTrN V4 0 也內(nèi),“on bdddh pCSM 明 01?R5617(335061 HGSM890129GSMsgonoPHJNA153255Flla type/ruaurcfii2&.2 Mb TOPLCUStam TAR125,9 M3 ftcXhrtp)NUM N1H GK) 5 口苦C3imer AccessIb lity5617B35061J5617035061_LRationsBio ProjectGSE3B376 n on - mo rm al ized: Htxt agz代后 向tm 店 avails&

16、;fc 8 Sene5 reeBProceed Mg WAMT的的內(nèi) 防小用戶用加eWaEpf !:433J H More.,.Suotrtnnwn 理RA啊tar|Analyrze with GEO2RDownload familySOFT formifUud r*mlly nie(v)MINiHL formaftEd famly Hte(s)Seri ess. Matrix File(s)FormatSOFT ffi 下載 M1MML IM* TYTlflQuery DaiaiSets fcr GSE3£376Series G&E36376% NCBIHOVE 5EARC

17、-*在底下欄目下載CEL文件打開 R 軟件#安裝所需的R 包以及 CLL 包,注意大小寫,一般函數(shù)都是小寫的source("/biocLite.R"); biocLite( “CLL”)>library(affy)>affybatch<- ReadAffy(celfile.path = "GSE36376_RAW")請(qǐng)注意目錄的路徑,在window 下,反斜杠 要用轉(zhuǎn)義字符“ ”表示。然后可以使用RMA或者M(jìn)AS5等方法對(duì)數(shù)據(jù)進(jìn)行background.correction, normalizt

18、ion, pm.correct 等等一系列處理。如果你一切用默認(rèn)參數(shù),則可以使用如下命令:>eset<- rma(affybatch) , or eset<- mas5(affybatch)>exp<- exprs(eset)exp 就是數(shù)字化的表達(dá)譜矩陣了請(qǐng)注意,rma只使用匹配探針(PM)信號(hào),exp數(shù)據(jù)已經(jīng)進(jìn)行l(wèi)og2處理。mas5 綜合考慮PM和錯(cuò)配探針(MM)信號(hào),exp數(shù)據(jù)沒有取對(duì)數(shù)。下一期就得等到2017 年春節(jié)期間啦,敬請(qǐng)期待另外一種是直接利用 GEO上面的GEO2R按鈕里面的R script下載文件:# Version info: R 3.2.3

19、, Biobase 2.30.0, GEOquery 2.40.0, limma 3.26.8# R scripts generated Mon Dec 26 06:54:42 EST 2016Server: Query:acc=GSE36376&platform=GPL10558&type=txt&groups=&colors=&selection=XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

20、XXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXX&padj=fdr&logtransform=auto&col umns=ID&columns=adj.P.Val&columns=P.Value&columns=F&columns=Gene+symbol&columns=Gene+title&num=250&annot=n cbi# Unable to generate script analyzing different

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論