統(tǒng)計(jì)建模與數(shù)據(jù)分析_第1頁
統(tǒng)計(jì)建模與數(shù)據(jù)分析_第2頁
統(tǒng)計(jì)建模與數(shù)據(jù)分析_第3頁
統(tǒng)計(jì)建模與數(shù)據(jù)分析_第4頁
統(tǒng)計(jì)建模與數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)建模與數(shù)據(jù)分析第一頁,共二十六頁,編輯于2023年,星期三參考書籍:《復(fù)雜數(shù)據(jù)統(tǒng)計(jì)方法——基于R的應(yīng)用》,吳喜之編著,中國(guó)人民大學(xué)出版社第二頁,共二十六頁,編輯于2023年,星期三主要內(nèi)容引言橫截面數(shù)據(jù):因變量為實(shí)數(shù)軸上的數(shù)量變量橫截面數(shù)據(jù):因變量為分類變量及因變量為計(jì)數(shù)變量的情況縱向數(shù)據(jù)(多水平數(shù)據(jù)、面板數(shù)據(jù))多元分析(不分因變量和自變量)路徑建模(結(jié)構(gòu)方程建模)數(shù)據(jù)的PLS分析多元時(shí)間序列數(shù)據(jù)第三頁,共二十六頁,編輯于2023年,星期三引言第四頁,共二十六頁,編輯于2023年,星期三統(tǒng)計(jì)是科學(xué)統(tǒng)計(jì)是科學(xué)?科學(xué)的基本特征是其方法論:對(duì)世界的認(rèn)識(shí)源于觀測(cè)或?qū)嶒?yàn)的信息(或者數(shù)據(jù)),總結(jié)信息時(shí)會(huì)形成模型(亦稱為假說或理論),模型會(huì)指導(dǎo)進(jìn)一步的探索,直到遇到這些模型無法解釋的現(xiàn)象,這就導(dǎo)致對(duì)這些模型的更新和替代.統(tǒng)計(jì)可以定義為``收集、分析、展示和解釋數(shù)據(jù)的科學(xué),或者稱為數(shù)據(jù)科學(xué)(scienceofdata).統(tǒng)計(jì)應(yīng)用于幾乎所有領(lǐng)域.第五頁,共二十六頁,編輯于2023年,星期三統(tǒng)計(jì)與數(shù)學(xué)、計(jì)算機(jī)的關(guān)系統(tǒng)計(jì)的思維方式是歸納(induction),也就是從數(shù)據(jù)所反映的現(xiàn)實(shí)得到稍微一般的模型,希望以此解釋數(shù)據(jù)所代表的那部分世界.這和以演繹(deduction)為主的數(shù)學(xué)思維方式相反,演繹則是在一些人為的假定(比如一個(gè)公理系統(tǒng))之下,推導(dǎo)出各種結(jié)論.第六頁,共二十六頁,編輯于2023年,星期三在統(tǒng)計(jì)發(fā)展的前期,沒有計(jì)算機(jī),只能在對(duì)數(shù)據(jù)加上一些數(shù)學(xué)假定后,建立一些假定的數(shù)學(xué)模型,推導(dǎo)出結(jié)果的性質(zhì),諸如置信區(qū)間,假設(shè)檢驗(yàn)的p值,相合性等等.在數(shù)據(jù)分布與假定的正態(tài)分布相差甚遠(yuǎn)的情況,人們又利用諸如中心極限定理或大樣本定理得到漸近正態(tài)的結(jié)果.據(jù)此又得到大樣本時(shí)的各種性質(zhì),包括置信區(qū)間或置信帶,p值,相合性等等.統(tǒng)計(jì)的這種發(fā)展方式,給統(tǒng)計(jì)打上了很深的數(shù)學(xué)烙印.第七頁,共二十六頁,編輯于2023年,星期三在現(xiàn)成的數(shù)學(xué)模型無法處理大量的復(fù)雜數(shù)據(jù)的情況下,計(jì)算機(jī)領(lǐng)域的研究人員和部分概率論及統(tǒng)計(jì)學(xué)家開發(fā)了許多計(jì)算方法,處理了傳統(tǒng)統(tǒng)計(jì)無法解決的大量問題。諸如人工神經(jīng)網(wǎng)絡(luò)、決策樹、boosting、隨機(jī)森林、支持向量機(jī)等大量算法模型。統(tǒng)計(jì)研究逐步由數(shù)據(jù)或者問題驅(qū)動(dòng),創(chuàng)造模型的目的是適應(yīng)現(xiàn)實(shí)數(shù)據(jù)。第八頁,共二十六頁,編輯于2023年,星期三隨著時(shí)代的前進(jìn),院系現(xiàn)在也出現(xiàn)了諸如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等課程,統(tǒng)計(jì)雜志也開始逐漸重視這些研究.這些算法模型大都不是用封閉的數(shù)學(xué)公式來描述,而是體現(xiàn)在計(jì)算機(jī)算法或程序上.參考書籍:TheElementsofStatisticalLearning:DataMining,Inference,andPrediction.SecondEdition.TrevorHastie,RobertTibshirani,JeromeFriedman,Springer第九頁,共二十六頁,編輯于2023年,星期三學(xué)術(shù)期刊Top期刊TheAnnalsofStatistics.JournaloftheRoyalStatisticalSociety,SeriesB.JournaloftheAmericanStatisticalAssociation.Biometrika.JournalofMachineLearningResearchEconometrikaBiostatistics第十頁,共二十六頁,編輯于2023年,星期三文獻(xiàn)檢索文獻(xiàn)檢索的一點(diǎn)經(jīng)驗(yàn)Nosweat,Nosweet.第十一頁,共二十六頁,編輯于2023年,星期三數(shù)據(jù)分析的實(shí)踐數(shù)據(jù)收集.首先要根據(jù)實(shí)際目的.有數(shù)據(jù)不一定能夠得到需要的結(jié)論,我們需要的是與所關(guān)心問題充分有關(guān)的變量的數(shù)據(jù).數(shù)據(jù)預(yù)處理.

缺失值尋找適合的模型:為了尋找模型,首先要對(duì)數(shù)據(jù)進(jìn)行探索性分析,利用圖形、各種統(tǒng)計(jì)量、或者比較復(fù)雜的探索方法來查看數(shù)據(jù)的關(guān)聯(lián)性、線性性、異方差性、多重共線性、聚類特征、分布形狀等。有了對(duì)數(shù)據(jù)的粗略認(rèn)識(shí)之后,就尋找合適的模型。第十二頁,共二十六頁,編輯于2023年,星期三數(shù)據(jù)分析的實(shí)踐比較模型的標(biāo)準(zhǔn).傳統(tǒng)統(tǒng)計(jì)中:各種判別準(zhǔn)則(各種檢驗(yàn)、一些統(tǒng)計(jì)量的臨界值等等).都是在對(duì)數(shù)據(jù)分布及描述變量之間關(guān)系的模型所做的假定之下得到的.在使用算法模型時(shí),由于沒有傳統(tǒng)模型的那些假定,判斷模型好壞通常都用交叉驗(yàn)證(crossvalidation)。對(duì)結(jié)果的解釋.

選擇模型并不是目的,目的是解釋模型所產(chǎn)生的結(jié)果,而結(jié)果必須是應(yīng)用領(lǐng)域的結(jié)果,必須有實(shí)際意義.僅僅用統(tǒng)計(jì)術(shù)語說某個(gè)模型較好,某個(gè)變量顯著之類的話是不夠的.第十三頁,共二十六頁,編輯于2023年,星期三R軟件入門R軟件的安裝/CRAN/第十四頁,共二十六頁,編輯于2023年,星期三最初幾步x=1:100#把1,2,...,100個(gè)整數(shù)向量賦值到xsample(x,20)#從1,...,100中隨機(jī)不放回地抽取20個(gè)值作為樣本set.seed(0);sample(1:10,3)#先設(shè)隨機(jī)種子再抽樣.z=sample(1:200000,10000)#從1,...,200000中隨機(jī)不放回地抽取10000個(gè)值作為樣本z[1:10]

#方括號(hào)中為向量z的下標(biāo)y=c(1,3,7,3,4,2)z[y]#以y為下標(biāo)的z的元素值(z=sample(x,100,rep=T))#從x放回地抽取100個(gè)隨機(jī)樣本(z1=unique(z))length(z1)#z中不同的元素個(gè)數(shù)xz=setdiff(x,z)#x和z之間的不同元素--集合差sort(union(xz,z))#對(duì)xz及z的并的元素從小到大排序setequal(union(xz,z),x)#對(duì)xz及z的并的元素與x是否一樣intersect(1:10,7:50)#兩個(gè)數(shù)據(jù)的交sample(1:100,20,prob=1:100)#從1:100中不等概率隨機(jī)抽樣,#各數(shù)目抽到的概率與1:100成比例第十五頁,共二十六頁,編輯于2023年,星期三一些簡(jiǎn)單運(yùn)算pi*10^2#能夠用?”*”來看基本算術(shù)運(yùn)算方法,pi是圓周率pi*(1:10)^-2.3#可以對(duì)向量求指數(shù)冪x=pi*10^2xprint(x)#和上面一樣(x=pi*10^2)#賦值帶打印pi^(1:5)#指數(shù)也可以是向量print(x,digits=12)#輸出x的12位數(shù)字第十六頁,共二十六頁,編輯于2023年,星期三簡(jiǎn)單圖形x=rnorm(200)#200個(gè)隨機(jī)正態(tài)數(shù)賦值到xhist(x,col="lightblue")#直方圖(histogram)rug(x)#在直方圖下面加上實(shí)際點(diǎn)的大小stem(x)#莖葉圖x<-rnorm(500)y<-x+rnorm(500)#構(gòu)造一個(gè)線性關(guān)系plot(y~x)#散點(diǎn)圖a=lm(y~x)#做回歸abline(a,col="red")#或者abline(lm(y~x),col="red")在散點(diǎn)圖上加擬合直線print("HelloWorld!")paste("x的最小值=",min(x))#打印第十七頁,共二十六頁,編輯于2023年,星期三數(shù)據(jù)輸入輸出x=scan()#從屏幕輸入數(shù)據(jù),可以鍵入,也可以粘貼,可多行輸入,空行后Enter1.52.63.72.18.912-1.2-4x=c(1.5,2.6,3.7,2.1,8.9,12,-1.2,-4)#等價(jià)于上面w=read.table(file.choose(),header=T)#從列表中選擇帶有變量名的數(shù)據(jù)文件setwd(“f:/2010stat”)#或setwd("f:\2010stat")#建立工作目錄(你必須有這個(gè)目錄)(x=rnorm(20))#給x賦值20個(gè)標(biāo)準(zhǔn)正態(tài)數(shù)據(jù)值#(注:可以產(chǎn)生常見的各種分布的隨機(jī)數(shù),也有各種分布的分布函數(shù),密度函數(shù)及分位數(shù)函數(shù))write(x,"f:/2010stat/test.txt")#把數(shù)據(jù)寫入文件(你沒有這個(gè)目錄則會(huì)有出錯(cuò)信息)y=scan("f:/2010stat/test.txt");y#掃描文件數(shù)值數(shù)據(jù)到y(tǒng)y=iris;y[1:5,];str(y)#iris是R自帶數(shù)據(jù)write.table(y,"test.txt",s=F)#把數(shù)據(jù)寫入文本文件w=read.table("f:/2010stat/test.txt",header=T)#讀帶有變量名的數(shù)據(jù)write.csv(y,"test.csv")#把數(shù)據(jù)寫入csv文件v=read.csv("f:/2010stat/test.csv")#讀入csv數(shù)據(jù)文件data=read.table(“clipboard”)#讀入剪貼板的數(shù)據(jù)第十八頁,共二十六頁,編輯于2023年,星期三序列等等(z=seq(-1,10,length=100))#-1到10等間隔的100個(gè)數(shù)的序列z=seq(-1,10,len=100)#和上面等價(jià)寫法(z=seq(10,-1,-0.1))#10到-1間隔為-0.1的序列(x=rep(1:3,3))#三次重復(fù)1:3(x=rep(3:5,1:3))#自己看,這又是什么呢?x=rep(c(1,10),c(4,5))w=c(1,3,x,z);w[3]#把數(shù)據(jù)(包括向量)組合(combine)成一個(gè)向量x=rep(0,10);z=1:3;x+z#向量加法(如果長(zhǎng)度不同,R如何給出警告和結(jié)果?)x*z#向量乘法rev(x)#顛倒次序z=c("nocat","has","nine","tails")#字符向量z[1]=="nocat"#雙等號(hào)為邏輯等式z=1:5z[7]=8;z#什么結(jié)果?注:NA為缺失值(notavailable)z=NULL;z[c(1,3,5)]=1:3;zrnorm(10)[c(2,5)]z[-c(1,3)]#去掉第1、3元素z=sample(1:100,10);zwhich(z==max(z))#給出最大值的下標(biāo)第十九頁,共二十六頁,編輯于2023年,星期三矩陣x=sample(1:100,12);x#抽樣x=matrix(1:20,4,5);x#矩陣的構(gòu)造x=matrix(1:20,4,5,byrow=T);x#矩陣的構(gòu)造,按行排列t(x)#矩陣轉(zhuǎn)置x=matrix(sample(1:100,20),4,5)2*xx+5y=matrix(sample(1:100,20),5,4)x+t(y)#矩陣之間相加(z=x%*%y)#矩陣乘法z1=solve(z)#solve(a,b)可以解ax=b方程z1%*%z#應(yīng)該是單位向量,但浮點(diǎn)運(yùn)算不可能得到干凈的0round(z1%*%z,14)#四舍五入b=solve(z,1:4);b#解聯(lián)立方程第二十頁,共二十六頁,編輯于2023年,星期三矩陣?yán)^續(xù)nrow(x);ncol(x);dim(x)#行列數(shù)目x=matrix(rnorm(24),4,6)x[c(2,1),]#第2和第1行x[,c(1,3)]#第1和第3列x[2,1]#第[2,1]元素x[x[,1]>0,1]#第1列大于0的元素sum(x[,1]>0)#第1列大于0的元素的個(gè)數(shù)sum(x[,1]<=0)#第1列不大于0的元素的個(gè)數(shù)x[,-c(1,3)]#沒有第1、3列的x.diag(x)#x的對(duì)角線元素diag(1:5)#以1:5為對(duì)角線,其它元素為0的對(duì)角線矩陣diag(5)#5維單位矩陣x[-2,-c(1,3)]#沒有第2行、第1、3列的xx[x[,1]>0&x[,3]<=1,1]#第1中大于0并且相應(yīng)于第3列中小于或等于1的元x[x[,2]>0|x[,1]<.51,1]#第1中小于.51或者相應(yīng)于第2列中大于0的元素("或")x[!x[,2]<.51,1]#第一列中相應(yīng)于第2列中不小于.51的元素(“非”)apply(x,1,mean);apply(x,2,sum)#分別對(duì)行(第一維)和列(第二維)做均值和求和運(yùn)算x=matrix(rnorm(24),4,6)x[lower.tri(x)]=0;x#得到上三角陣,#為得到下三角陣,用x[upper.tri(x)]=0)第二十一頁,共二十六頁,編輯于2023年,星期三矩陣與向量之間的運(yùn)算x=matrix(1:20,5,4)#5乘4矩陣sweep(x,1,1:5,"*")#把向量1:5的每個(gè)元素乘到每一行sweep(x,2,1:4,"+")#把向量1:4的每個(gè)元素加到每一列x*1:5sweep(x,2,1:4,"+")#scale是標(biāo)準(zhǔn)化,即每一列元素減去該列均值,除以該列標(biāo)準(zhǔn)差:(x=matrix(sample(1:100,24),6,4));(x1=scale(x))(x2=scale(x,scale=F))#自己觀察并總結(jié)結(jié)果(x3=scale(x,center=F))#自己觀察并總結(jié)結(jié)果round(apply(x1,2,mean),14)#自己觀察并總結(jié)結(jié)果apply(x1,2,sd)#自己觀察并總結(jié)結(jié)果round(apply(x2,2,mean),14);apply(x2,2,sd)#自己觀察并總結(jié)結(jié)果round(apply(x3,2,mean),14);apply(x3,2,sd)#自己觀察并總結(jié)結(jié)果第二十二頁,共二十六頁,編輯于2023年,星期三缺失值,數(shù)據(jù)的合并airquality#有缺失值(NA)的R自帶數(shù)據(jù)complete.cases(airquality)#沒有缺失值的那些行中那些是缺失的which(complete.cases(airquality)==F)#沒有缺失值的行號(hào)sum(complete.cases(airquality))#完整觀測(cè)值的個(gè)數(shù)na.omit(airquality)#刪去缺失值的數(shù)據(jù)#附加,橫或豎合并數(shù)據(jù):append,cbind,rbindx=1:10;x[12]=3(x1=append(x,77,after=5))cbind(1:5,rnorm(5))rbind(1:5,rnorm(5))cbind(1:3,4:6);rbind(1:3,4:6)#去掉矩陣重復(fù)的行(x=rbind(1:5,runif(5),runif(5),1:5,7:11))x[!duplicated(x),]unique(x)第二十三頁,共二十六頁,編輯于2023年,星期三list#list可以是任何對(duì)象(包括list本身)的集合z=list(1:3,Tom=c(1:2,a=list("R",letters[1:5]),w="hi!"))z[[1]];z[[2]]z$T

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論