版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
04.數(shù)據(jù)結(jié)構(gòu)Ⅱ—數(shù)據(jù)框,因子,列表四、數(shù)據(jù)框(數(shù)據(jù)表)R語(yǔ)言中做統(tǒng)計(jì)分析的樣本數(shù)據(jù),都是按數(shù)據(jù)框類(lèi)型操作的。數(shù)據(jù)框的每一列代表一個(gè)變量屬性的所有取值,每一行代表一條樣本數(shù)據(jù)。1.創(chuàng)建數(shù)據(jù)框通過(guò)函數(shù)data.frame()把多個(gè)向量組合起來(lái)創(chuàng)建,并設(shè)置列名稱(chēng)。其基本格式為:data.frame(col1,col2,col3,...)其中,列向量col1,col2,col3,…可以為任意類(lèi)型。注:矩陣也可以通過(guò)函數(shù)data.frame()轉(zhuǎn)化為數(shù)據(jù)庫(kù)。>data_iris<-data.frame(Sepal.Length=c(5.1,4.9,4.7,4.6),Sepal.Width=c(3.5,3.0,3.2,3.1),Petal.Length=c(1.4,1.4,1.3,1.5),Petal.Width=rep(0.2,4))>data_irisSepal.LengthSepal.WidthPetal.LengthPetal.Width15.13.51.40.224.93.01.40.234.73.21.30.244.63.11.50.2>#矩陣轉(zhuǎn)化為數(shù)據(jù)框>dmatrix<-matrix(1:8,c(4,2))>dmatrix[,1][,2][1,]15[2,]26[3,]37[4,]48>data.frame(dmatrix)X1X21152263374482.數(shù)據(jù)框索引列標(biāo)或列名稱(chēng)索引:data_iris[,1]——返回?cái)?shù)據(jù)框data_iris的第1列data_iris$Sepal.Length或data_iris["Sepal.Length"]——同data_iris[,1]行索引:data_iris[1,]——返回?cái)?shù)據(jù)框data_iris的第1行data_iris[1:3,]——返回?cái)?shù)據(jù)框data_iris的第1至3行元素索引:data_iris[1,1]——返回?cái)?shù)據(jù)框data_iris的第1列第1個(gè)數(shù)據(jù)data_iris$Sepal.Length[1]或data_iris["Sepal.Length"][1]——返回?cái)?shù)據(jù)框data_iris的Sepal.Length列第1個(gè)數(shù)據(jù)用函數(shù)subset()按條件索引>subset(data_iris,Sepal.Length<5)Sepal.LengthSepal.WidthPetal.LengthPetal.Width24.93.01.40.234.73.21.30.244.63.11.50.2注:還可用sqldf包中的sqldf()函數(shù),借助sql語(yǔ)句索引。例如,library(sqldf)sqldf("select*frommtcarswherecarb=1orderbympg",s=TRUE)3.數(shù)據(jù)框的編輯類(lèi)似矩陣操作,可通過(guò)函數(shù)rbind(),增加行(樣本數(shù)據(jù)),要求寬度(列數(shù))相同;函數(shù)cbind(),增加列(屬性變量),要求高度(行數(shù))相同。刪除樣本(行),類(lèi)似矩陣操作。用函數(shù)names()查看或修改數(shù)據(jù)框的列名。>#增加樣本數(shù)據(jù)(行)>data_iris<-rbind(data_iris,list(5.0,3.6,1.4,0.2))>data_irisSepal.LengthSepal.WidthPetal.LengthPetal.Width15.13.51.40.224.93.01.40.234.73.21.30.244.63.11.50.255.03.61.40.2>#增加屬性變量(列)>data_iris<-cbind(data_iris,Species=rep("setosa",5))>data_irisSepal.LengthSepal.WidthPetal.LengthPetal.WidthSpecies15.13.51.40.2setosa24.93.01.40.2setosa34.73.21.30.2setosa44.63.11.50.2setosa55.03.61.40.2setosa>#刪除數(shù)據(jù)>data_iris[,-1]#刪除第1列Sepal.WidthPetal.LengthPetal.WidthSpecies13.51.40.2setosa23.01.40.2setosa33.21.30.2setosa43.11.50.2setosa53.61.40.2setosa>data_iris[-1,]#刪除第1行Sepal.LengthSepal.WidthPetal.LengthPetal.WidthSpecies24.93.01.40.2setosa34.73.21.30.2setosa44.63.11.50.2setosa55.03.61.40.2setosa>#編輯數(shù)據(jù)框列名>names(data_iris)#查看數(shù)據(jù)框列名[1]"Sepal.Length""Sepal.Width""Petal.Length""Petal.Width""Species">names(data_iris)[1]="sepal.length"#修改第1列列名>names(data_iris)[1]"sepal.length""Sepal.Width""Petal.Length""Petal.Width""Species"五、因子(factor)變量分為名義型(無(wú)順序好壞之分的分類(lèi)變量,如性別)、有序型(有順序好壞之分的分類(lèi)變量,如療效)、連續(xù)型(通常的數(shù)值變量,可帶小數(shù)位)。名義型和有序型的類(lèi)別變量,在R中稱(chēng)為因子。因子提供了一個(gè)簡(jiǎn)單且緊湊的形式來(lái)處理分類(lèi)數(shù)據(jù),因子用水平來(lái)表示所有可能的取值,例如,性別有兩個(gè)水平:男、女。1.創(chuàng)建因子(1)用函數(shù)factor(),基本格式為:factor(x,levels,labels=...,exclude=...,ordered=...,nmax=...)其中,x為創(chuàng)建因子的數(shù)據(jù)向量;levels指定因子的水平數(shù),默認(rèn)為x中不重復(fù)的所有值;labels設(shè)置各水平名稱(chēng)(前綴),與水平一一對(duì)應(yīng);exclude指定有哪些水平是不需要的;ordered設(shè)置是否對(duì)因子水平排序,默認(rèn)為T(mén)RUE即有序因子,F(xiàn)ALSE為無(wú)序因子;nmax設(shè)定水平數(shù)的上限。>ff<-factor(substring("statistics",1:10,1:10),levels=letters)>ff[1]statisticsLevels:abcdefghijklmnopqrstuvwxyz>ff[,drop=TRUE]#去掉未包含在向量中的水平,同f.<-factor(ff)[1]statisticsLevels:acist>factor(1:10,labels="let")[1]let1let2let3let4let5let6let7let8let9let10Levels:let1let2let3let4let5let6let7let8let9let10>factor(LETTERS[3:1],ordered=TRUE)[1]CBALevels:A<B<C注:函數(shù)substring()用來(lái)提取字符串的子串,第2個(gè)參數(shù)是起始位置,第3個(gè)參數(shù)是終止位置;letters和LETTERS是R中專(zhuān)有變量,表示26個(gè)小寫(xiě)/大寫(xiě)字母組成的字符向量。(2)用函數(shù)gl()創(chuàng)建因子序列用函數(shù)gl()生成不同水平的因子序列,基本格式為:gl(n,k,length=n*k,labels=seq_len(n),ordered=FALSE)其中,n表示因子水平數(shù);k表示每個(gè)水平的重復(fù)數(shù);length表示生成序列的長(zhǎng)度;labels為表示因子水平的n維向量;ordered指定是否為有序因子,TRUE為有序因子,F(xiàn)ALSE為無(wú)序因子。>#生成水平數(shù)為3,每個(gè)水平重復(fù)2次的因子序列>gl(3,2)[1]112233Levels:123>#生成水平為“TRUE”和“FALSE”,每個(gè)水平重復(fù)3次的因子序列>gl(2,3,labels=c("TRUE","FALSE"))[1]TRUETRUETRUEFALSEFALSEFALSELevels:TRUEFALSE>#生成水平數(shù)為2,序列長(zhǎng)度為10的因子序列>gl(2,1,10)[1]1212121212Levels:12>#生成水平數(shù)為3,每個(gè)水平重復(fù)2次的有序因子序列>gl(3,2,ordered=TRUE)[1]112233Levels:1<2<32.因子的存儲(chǔ)方式R語(yǔ)言中,因子是以整數(shù)型向量存儲(chǔ)的,每個(gè)因子水平對(duì)應(yīng)一個(gè)整數(shù)型的數(shù)。對(duì)字符型向量創(chuàng)建的因子,會(huì)按照字母順序排序,再對(duì)應(yīng)到整數(shù)型向量。>status<-c("Poor","Improved","Excellent","Poor")>class(status)[1]"character">status.factor<-factor(status,ordered=TRUE)>status.factor[1]PoorImprovedExcellentPoorLevels:Excellent<Improved<Poor>class(status.factor)[1]"ordered""factor">storage.mode(status.factor)[1]"integer">as.numeric(status.factor)[1]3213>levels(status.factor)[1]"Excellent""Improved""Poor"六、列表列表就是一些對(duì)象或成分的有序集合(組合方式更自由)。列表允許整合若干對(duì)象到單個(gè)對(duì)象名下,例如,某個(gè)列表可能是若干向量、矩陣、數(shù)據(jù)框,甚至是其它列表的組合。一般在使用R語(yǔ)言進(jìn)行數(shù)據(jù)分析和挖掘的過(guò)程中,向量和數(shù)據(jù)框是用的最多的,列表常在存儲(chǔ)較復(fù)雜的數(shù)據(jù)時(shí)作為數(shù)據(jù)對(duì)象類(lèi)型。列表提供了一種簡(jiǎn)單的方式來(lái)組織和重新調(diào)用不相干的信息。另外,許多R函數(shù)的運(yùn)行結(jié)果都是用列表形式返回的。1.創(chuàng)建列表用函數(shù)list(),基本格式為:list(object1,object2,...)其中,object對(duì)象可以是任何類(lèi)型。若同時(shí)為列表中的對(duì)象命名:list(name1=object1,name2=object2,...)>data<-list(a=c(1,2,3,4),b=c("one","two","three"),c=c(TRUE,FALSE),d=(1+2i))>data$a[1]1234$b[1]"one""two""three"$c[1]TRUEFALSE$d[1]1+2i>#查看列表的數(shù)據(jù)結(jié)構(gòu)>summary(data)LengthClassModea4-none-numericb3-none-characterc2-none-logicald1-none-complex>#創(chuàng)建一個(gè)內(nèi)含多種結(jié)構(gòu)的列表>g<-"MyList">h<-c(25,26,18,39)>j<-matrix(1:10,nrow=5)>mylist<-list(title=g,ages=h,j)>mylist$title[1]"MyList"$ages[1]25261839[[3]][,1][,2][1,]16[2,]27[3,]38[4,]49[5,]510>summary(mylist)LengthClassModetitle1-none-characterages4-none-numer
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《學(xué)前教育概述》課件
- 單位管理制度集合大合集【人力資源管理篇】十篇
- 單位管理制度分享匯編【員工管理篇】十篇
- 單位管理制度分享大全【人員管理篇】
- 單位管理制度范例選集【員工管理】
- 單位管理制度范例合集【人力資源管理篇】十篇
- 單位管理制度呈現(xiàn)合集【員工管理篇】
- 單位管理制度呈現(xiàn)大合集【人事管理】十篇
- 《微點(diǎn)精析》考向19 文化常識(shí) 高考語(yǔ)文一輪復(fù)習(xí)考點(diǎn)微專(zhuān)題訓(xùn)練(原卷+解析)
- 第4單元 民族團(tuán)結(jié)與祖國(guó)統(tǒng)一(B卷·能力提升練)(解析版)
- 中考數(shù)學(xué)第一輪復(fù)習(xí)
- 一汽靖燁發(fā)動(dòng)機(jī)有限公司安全文化知識(shí)手冊(cè)
- 當(dāng)前國(guó)際形勢(shì)
- 湘賀水利樞紐水電站設(shè)計(jì)
- 高壓線防護(hù)架搭設(shè)施工方案
- 四川省成都市2021-2022學(xué)年高一(上)期末調(diào)研考試物理試題Word版含解析
- 二次元作業(yè)指導(dǎo)書(shū)
- GB/T 15180-2010重交通道路石油瀝青
- 公路工程質(zhì)量與安全管理課件
- 計(jì)算機(jī)基礎(chǔ)知識(shí)整理課件
- 高一數(shù)學(xué)必修2《事件的關(guān)系和運(yùn)算》課件
評(píng)論
0/150
提交評(píng)論