R語言中的五種常用統(tǒng)計分析方法_第1頁
R語言中的五種常用統(tǒng)計分析方法_第2頁
R語言中的五種常用統(tǒng)計分析方法_第3頁
R語言中的五種常用統(tǒng)計分析方法_第4頁
R語言中的五種常用統(tǒng)計分析方法_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第R語言中的五種常用統(tǒng)計分析方法1、分組分析aggregation

根據(jù)分組字段,將分析對象劃分為不同的部分,以進行對比分析各組之間差異性的一種分析方法。

常用統(tǒng)計指標:

計數(shù)length

求和sum

平均值mean

標準差var

方差sd

分組統(tǒng)計函數(shù)

aggregate(分組表達式,data=需要分組的數(shù)據(jù)框,function=統(tǒng)計函數(shù))

參數(shù)說明

formula:分組表達式,格式:統(tǒng)計列~分組列1+分組列2+...

data=需要分組的數(shù)據(jù)框

function:統(tǒng)計函數(shù)

aggregate(name~class,data=data,FUN=length);

aggregate(score~class,data=data,FUN=sum);

aggregate(score~class,data=data,FUN=mean);

aggregate(score~class,data=data,FUN=var);

aggregate(score~class,data=data,FUN=sd)

2、分布分析cut

根據(jù)分析目的,將數(shù)據(jù)(定量數(shù)據(jù))進行等距或者不等距的分組,進行研究各組分布規(guī)律的一種分析方法。

分組函數(shù)

cut(data,breaks,labels,right)

參數(shù)說明

data=需要分組的一列數(shù)據(jù)

breaks=分組條件,如果是一個數(shù)字,那么將平均分組;如果是一個數(shù)組,那么將按照指定范圍分組

labels:分組標簽

right:指定范圍是否右閉合,默認為右閉合,right參數(shù)為TRUE

用戶明細-read.csv(data.csv,stringsAsFactors=FALSE)

head(用戶明細)

breaks-c(min(用戶明細$年齡)-1,20,30,40,max(用戶明細$年齡)+1)

年齡分組-cut(用戶明細$年齡,breaks=breaks)

用戶明細[,年齡分組1]-年齡分組

年齡分組-cut(用戶明細$年齡,breaks=breaks,right=FALSE)

用戶明細[,年齡分組2]-年齡分組

labels-c(20歲以及以下,21歲到30歲,31歲到40歲,41歲以上

年齡分組-cut(用戶明細$年齡,breaks=breaks,labels=labels)

用戶明細[,年齡分組]-年齡分組

head(用戶明細)

aggregate(formula=用戶ID~年齡分組,data=用戶明細,FUN=length)

3、交叉分析tapply(相當于excel里的數(shù)據(jù)透視表)

通常用于分析兩個或兩個以上,分組變量之間的關(guān)系,以交叉表形式進行變量間關(guān)系的對比分析;

交叉分析的原理就是從數(shù)據(jù)的不同維度,綜合進行分組細分,以進一步了解數(shù)據(jù)的構(gòu)成、分布特征。

交叉分析函數(shù):

tapply(統(tǒng)計向量,list(數(shù)據(jù)透視表中的行,數(shù)據(jù)透視變中的列),FUN=統(tǒng)計函數(shù))

返回值說明:

一個table類型的統(tǒng)計量

breaks-c(min(用戶明細$年齡)-1,20,30,40,max(用戶明細$年齡)+1)

labels-c(20歲以及以下,21歲到30歲,31歲到40歲,41歲以上

年齡分組-cut(用戶明細$年齡,breaks=breaks,labels=labels)

用戶明細[,年齡分組]-年齡分組

head(用戶明細)

tapply(用戶明細$用戶ID,list(用戶明細$年齡分組,用戶明細$性別),FUN=length)

4、結(jié)構(gòu)分析prop.table

是在分組的基礎(chǔ)上,計算各組成部分所占的比重,進而分析總體內(nèi)部特征的一種分析方法。

forexample:資產(chǎn)占有率就是一個非常經(jīng)典的運用

統(tǒng)計占比函數(shù)

prop.table(table,margin=NULL)

參數(shù)說明:

table,使用tapply函數(shù)統(tǒng)計得到的分組計數(shù)或求和結(jié)果

margin,占比統(tǒng)計方式,具體參數(shù)如下:

屬性注釋

1按行統(tǒng)計占比

2按列統(tǒng)計占比

NULL按整體統(tǒng)計占比

data-read.csv(data.csv,stringsAsFactors=FALSE);

head(data)

t-tapply(data$月消費.元.,list(data$通信品牌),sum)

prop.table(t);

t-tapply(data$月消費.元.,list(data$通信品牌),mean)

prop.table(t);

t-tapply(data$月消費.元.,list(data$省份,data$通信品牌),sum)

prop.table(t,margin=2)

5、相關(guān)分析prop.table

是研究現(xiàn)象之間是否存在某種依存關(guān)系,并對具體有依存關(guān)系的現(xiàn)象探討其相關(guān)方向以及相關(guān)程度,是研究隨機變量之間的相關(guān)關(guān)系的一種統(tǒng)計方法。

相關(guān)系數(shù)r可以用來描述定量變量之間的關(guān)系

相關(guān)分析函數(shù):

cor(向量1,向量2,...)返回值:table類型的統(tǒng)計量

data-read.csv(data.csv,fileEncoding=UTF-8

cor(data[,2:7])

補充:R中基本統(tǒng)計分析方法整理

面對一大堆的數(shù)據(jù),往往會讓人眼花繚亂。但是只要使用一些簡單圖形和運算,就可以了解數(shù)據(jù)更多的特征。R提供了很多關(guān)于數(shù)據(jù)描述的函數(shù),通過這些函數(shù)可以對數(shù)據(jù)進行一個簡單地初步分析。

獲取描述性統(tǒng)計量的R函數(shù)

(1)常用統(tǒng)計函數(shù)(參數(shù)x為向量)

mean(x):平均值

median(x):中位數(shù)

sd(x):標準差

var(x):方差

sum(x):求和

min(x):最小值

max(x):最大值

range(x):值域

......等等

(2)summary()函數(shù)

提供最小值、下四分位數(shù)、中位數(shù)、平均值、上四分位數(shù)、最大值。

(3)apply()或sapply函數(shù)

計算參數(shù)指定的任意描述性統(tǒng)計量。

其中sapply()用法:sapply(x,F(xiàn)UNC,options),x是待處理的數(shù)據(jù)框,F(xiàn)UNC是用戶指定的函數(shù),如sum()、max()、mean()等等,指定了的options會傳遞給FUNC。

(4)Hmisc包中的describe()函數(shù)

返回變量和觀測值的數(shù)目、缺失值和唯一值的數(shù)目、平均值、分位數(shù)、五個最大的值和五個最小的值。

(5)pastecs包中的stat.desc()函數(shù)

可以計算種類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論