




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)分析與Sta
ta軟件應用數(shù)據(jù)分析與St
a
t
a軟件概述數(shù)據(jù)的獲取、整理與
S
t
a
t
a實現(xiàn)數(shù)據(jù)的描述與St
a
t
a實現(xiàn)點擊添加目錄數(shù)據(jù)的均值比較、推斷與S
t
a
t
a實現(xiàn)數(shù)據(jù)內(nèi)部關聯(lián)結構分析與S
t
a
t
a實現(xiàn)變量間相關關系分析與St
a
t
a實現(xiàn)變量間回歸關系分析與St
a
t
a實現(xiàn)數(shù)據(jù)分析與St
a
t
a軟件概述
數(shù)據(jù)分析數(shù)據(jù)類型
數(shù)據(jù)分析基本流程
數(shù)據(jù)分析基本方法
常用數(shù)據(jù)分析軟件
S
t
a
t
a軟件概述數(shù)據(jù)分析與S
t
a
t
a軟件概述數(shù)據(jù)分析與S
t
a
t
a軟件概述數(shù)據(jù)分析與Stata軟件概述數(shù)據(jù)分析基本內(nèi)容數(shù)據(jù)分析軟件數(shù)據(jù)類型基本流程基本方法S
tata軟件概述其他軟件特點工作界面輸入命令形式文件類型SPSSSASR其他1數(shù)據(jù)分析與St
a
t
a軟件概述煉1.1數(shù)據(jù)分析數(shù)據(jù)類型煉按照測量精度,數(shù)據(jù)分為4種類型,分別為定性變量數(shù)據(jù)、定序變量數(shù)據(jù)、定距變量數(shù)據(jù)和定比變量數(shù)據(jù)。煉根據(jù)變量數(shù)據(jù)的使用途徑,可以將數(shù)據(jù)分為數(shù)值變量數(shù)據(jù)和分類變量數(shù)據(jù)。根據(jù)數(shù)值變量數(shù)據(jù)的連續(xù)性特征,可將數(shù)據(jù)分為連續(xù)變量數(shù)據(jù)和離散變量數(shù)據(jù)。1數(shù)據(jù)分析與St
a
t
a軟件概述煉1.2數(shù)據(jù)分析基本流程煉項目計劃煉數(shù)據(jù)獲取與準備
煉變量數(shù)據(jù)特征探討煉模型精準分析煉結果報告1數(shù)據(jù)分析與St
a
t
a軟件概述煉1.3數(shù)據(jù)分析基本方法煉描述統(tǒng)計分析法煉統(tǒng)計推斷方法煉多變量模型分析方法煉多元統(tǒng)計分析方法
煉其他1數(shù)據(jù)分析與St
a
t
a軟件概述煉1.4常用數(shù)據(jù)分析軟件煉SPSS煉SAS煉R煉其他:Python、Exce
l1數(shù)據(jù)分析與St
a
t
a軟件概述煉1.5
Stata軟件概述煉1.5.1特點煉短小精悍、功能強大;煉操作簡單、語法易學煉運算速度快、結果簡單易讀1數(shù)據(jù)分析與St
a
t
a軟件概述煉1.5.2
Stata工作界面煉結果窗口煉命令窗口煉變量窗口煉屬性窗口煉歷史窗口1數(shù)據(jù)分析與St
a
t
a軟件概述煉1.5.3
Stata命令輸入形式煉單擊菜單輸入命令形式煉命令窗口輸入命令形式煉編寫.do文件提交命令形式1數(shù)據(jù)分析與St
a
t
a軟件概述煉1.5.4
Stata的文件類型煉數(shù)據(jù)文件:擴展名為.dta;煉命令程序文件:擴展名為.do;煉運行程序文件:擴展名為.ado;煉幫助文件:擴展名為.hlp;煉結果記錄文件:擴展名為.smcl或.log;煉圖形文件:擴展名為.gph;煉數(shù)據(jù)代碼文件:擴展名為.dct。數(shù)據(jù)分析與Sta
ta軟件應用數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)
數(shù)據(jù)的獲取與St
a
t
a實現(xiàn)
數(shù)據(jù)的整理與St
a
t
a實現(xiàn)數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)數(shù)據(jù)的獲取、整理與S
tata實現(xiàn)數(shù)據(jù)的獲取與S
tata實現(xiàn)數(shù)據(jù)的整理與Stata實現(xiàn)數(shù)據(jù)的直接輸入數(shù)據(jù)文件讀入與存儲變量的定義數(shù)據(jù)與變量的標簽數(shù)據(jù)與變量的注釋數(shù)據(jù)排序數(shù)據(jù)子集選擇數(shù)據(jù)的保留和刪除新變量生值成與變量賦虛擬變量生成變量類型轉換常用函數(shù)display命令2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.1數(shù)據(jù)的獲取與Stata實現(xiàn)煉2.1.1數(shù)據(jù)的直接輸入煉1.使用數(shù)據(jù)編輯器煉2.使用命令窗口2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.1.2數(shù)據(jù)文件的讀入煉1.讀入數(shù)據(jù)的基本原則煉(1)當Stata內(nèi)存中已經(jīng)有數(shù)據(jù)時,在打開數(shù)據(jù)文件之前,必須用clear命令先清除內(nèi)存,或者在使用use命令后添加選項“,clear”。煉(2)如果用戶沒有改變Stata默認的1mb內(nèi)存容量,那么在讀取大容量數(shù)據(jù)文件之前,就需要先增加內(nèi)存容量,否則Stata將提示錯誤信息。.
set
memory
50m,
permanently2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.讀入Stata自有格式的數(shù)據(jù)文件煉讀入以Stata格式存儲的數(shù)據(jù)文件的命令是use該命令的語法:
.
use
filename
[,
clear]煉filename是完整的路徑及文件名。如果數(shù)據(jù)文件在當前工作目錄里,則無須指明路徑。煉當用戶只需讀取Stata自有格式數(shù)據(jù)文件中的一部分時,如:.use
varname
1
varname
2
using
f:\stata\chapter2\data1煉其中,varname
1、varname
2是希望讀取的變量名稱,using后為數(shù)據(jù)的路徑和文件名。2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉3.讀取Exce
l格式的數(shù)據(jù)文件煉第一步,將Exce
l數(shù)據(jù)文件中需要導入的內(nèi)容選定并復制到剪貼板上,也可直接右擊選擇復制或按快捷鍵Ctrl+C。煉第二步,切換到Stata中的數(shù)據(jù)編輯器窗口,右擊選擇粘貼或按快捷鍵Ctrl+V,將數(shù)據(jù)粘貼至其中,再做相應修正。2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉4.讀取文本格式的數(shù)據(jù)文件煉Stata給出了3種讀取文本格式數(shù)據(jù)文件的命令。煉insheet:適用于文件中各列用指定的分隔符(如“,”或
“;”等)隔開的文本格式數(shù)據(jù)文件,每一行代表一個個案的數(shù)據(jù),沒有多余的行和列數(shù)據(jù)。煉infile:適用于文件中各列用指定的空格符“”隔開的文本格式數(shù)據(jù)文件,可以存在多余的行和列。煉infix:適用于各列位置固定的文本格式數(shù)據(jù)文件。2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉insheet命令適用文件的擴展名為.txt.
insheet
using
filename.txt,
comma煉該命令中,數(shù)據(jù)是以逗號“comma”為分隔符的,comma也可省略,Stata系統(tǒng)會自動識別分隔符,如分號或制表符。煉如果文本文件中第一行不是變量名稱,那么需要將變量名稱按數(shù)據(jù)情況一一列出,指示Stata各列數(shù)據(jù)的變量名稱由用戶指定。.
insheet
varname
1
varname
2
?using
filename.tx2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)使用infile命令時,需要注意以下問題:①數(shù)據(jù)文件中不能出現(xiàn)變量名,需要在infile命令中設置和定義變量。②數(shù)據(jù)文件中的不同數(shù)值之間只允許使用空格作為分隔符,可以是一個空格,也可以是多個空格。③缺失數(shù)據(jù)不可以使用空格來表示,可以使用特定的標識表示缺失數(shù)據(jù),通常使用“.”。④這一命令要求的文本數(shù)據(jù)并不一定是一個完整的數(shù)據(jù)矩陣,數(shù)據(jù)矩陣可以是不規(guī)則的。2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉infile命令的語法為:.
infile
varname
1
varname
2
varname
3?using
filename.txt煉使用infix命令時,用戶需要給出數(shù)據(jù)已經(jīng)設定的格式,即數(shù)據(jù)的各個變量間應該用空格隔開且左右對稱,因此用戶在使用infix命令時需要指明每一個變量所占據(jù)的列的位置。煉infix命令的語法舉例為:.
infix
varname
1
1-2
varname
2
3-4?using
filename.raw2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.1.3數(shù)據(jù)文件的存儲⑴利用菜單儲存數(shù)據(jù)文件⑵利用Stata命令存儲數(shù)據(jù)文件:數(shù)據(jù)存儲命令的格式為:.save
filename[,replace]如果用戶指明的將要存儲的數(shù)據(jù)文件名與已有文件名相同,
Stata并不會自動覆蓋原有數(shù)據(jù)文件,而是會給出錯誤提示。如果用戶希望覆蓋原有數(shù)據(jù)文件,則可以使用如下命令:.
save
filename,
replace2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.1.4變量的定義煉1.變量的命名變量名稱可以由不超過32個字符組成。組成變量名稱的字符可以是A~Z、a~z、0~9與下畫線“_”,這些字符以外的字符不允許出現(xiàn)在變量名稱中。變量名稱不能以數(shù)字開頭。變量名稱區(qū)分大小寫。系統(tǒng)使用的保留字不允許作為變量名稱使用,如下:_all
_b
_coef
_cons
_n
_N
_pi
_pred
_rc
_se
_skipbyte
double
float
if
in
int
long
using
with2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.變量的取值類型與存儲格式煉⑴字符變量煉Stata中字符變量的存儲格式是str#,其中str表示使用字符型變量的格式,#表示該變量的存儲最多可容納的字符數(shù)。煉⑵數(shù)值變量數(shù)字取值類型存儲類型占用字節(jié)數(shù)位精確度數(shù)字范圍整數(shù)字節(jié)(byte)12±1
26整數(shù)(int)24±3
27
6
6長整數(shù)(long)49±2
×10
9非整數(shù)浮點(float)47±1
0
3
6雙浮點(double)816±1
0
3
0
82數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉⑶缺失數(shù)據(jù)煉當變量取值存在缺失時,就涉及一種特殊的變量取值,即缺失數(shù)值。Stata設置了27個數(shù)值型代碼表示缺失數(shù)值,分別為:“.”“.a”“.b”“.c”“.d”??“.z”,這些數(shù)值依次增大,其中“.”被認為成大于任何數(shù),同時也是所有缺失值中最小的。一般使用“.”作為缺失值就足夠了,但是要表示不同類型的缺失數(shù)值時,可以細分為“.a”“.b”“.c”等。2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉3.變量的顯示格式煉數(shù)值變量的顯示格式基本有3種:e、f和g。其中e表示科學計數(shù)法,f表示固定格式,g表示默認格式(即普通格式)。字符變量的顯示格式只有一種,變量顯示格式的基本表達式為 %*.#+基本格式的顯示符(e
、f、g、s)煉其中%為提示符,*.#是用“.”分隔開的兩個數(shù)字,*表示整個變量顯示所占的字符數(shù)(即寬度),#表示變量顯示的數(shù)字中小數(shù)點后的位數(shù)。因此字符變量的顯示格式表達式為%*
s。2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.1.5數(shù)據(jù)與變量的標簽煉1.數(shù)據(jù)標簽煉添加數(shù)據(jù)標簽的命令為:
.
label
data
[“text”]煉text為添加的數(shù)據(jù)標簽,主要用于說明數(shù)據(jù)的內(nèi)容與數(shù)據(jù)的來源。煉2.變量標簽煉添加變量標簽的命令為:.label
variable
varname“text”煉varname是要添加標簽的變量名稱,text是添加的變量標簽。2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉3.變量數(shù)值標簽煉變量數(shù)值標簽是針對變量的各種取值給予的說明。在Stata中,為變量數(shù)值添加標簽分為兩步:第一步,定義一個變量數(shù)值標簽;第二步,將該標簽附加在變量上。.
label
define
labelname
1“text”2“text”3“text”?.
label
value
varname
labelname煉labelname是要定義的變量數(shù)值標簽,1,2,3?等數(shù)字是變量的取值,雙引號內(nèi)字符是各個數(shù)字對應的數(shù)值標簽的具體內(nèi)容2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.1.6數(shù)據(jù)與變量的注釋煉1.數(shù)據(jù)的注釋煉給數(shù)據(jù)添加注釋的命令是:.notes:text煉該命令中notes后面的冒號不可缺少,冒號后text為需要輸入的注釋內(nèi)容。數(shù)據(jù)的注釋可以是一個,也可以是多個。煉2.變量的注釋煉給變量添加注釋的命令為:.notes
varname:text煉varname為需要添加注釋的變量名稱,text為添加的注釋內(nèi)容。2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.2數(shù)據(jù)的整理與Stata實現(xiàn)煉2.2.1數(shù)據(jù)的排序煉1.向上排序煉按照某一個變量(varname)的數(shù)值從小到大排序。.sort
varname煉2.向下排序煉按照某一個變量(varname)的數(shù)值從小到大排序。.
gsort
–varname2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉3.混合排序煉Stata中還可以對不同的變量分別采取向上和向下的混合排序。例如:.
gsort
varname1—varname2
varname32數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.2.2數(shù)據(jù)子集的選擇煉1.in的使用煉in用于指定觀測個案值。使用語法:.command
in
range煉command表示Stata中的某個命令;range代表數(shù)據(jù)子集的范圍,它可以是一個數(shù)字,形式為“#”,也可以是從某個數(shù)字到另一個數(shù)字,形式為“#/#”,還可以是從某個數(shù)字到最后,形式為“#/l”(注意,這里是L的小寫形式l,而不是數(shù)字1),以及從最開始到某個數(shù)字,形式為“f/#”。2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.if的使用煉if用于挑選滿足條件的數(shù)據(jù)子集,通常跟在一個命令之后。煉if的使用語法如下:
.
command
if
expression煉command表示Stata中的某個命令,expression是需要滿足的條件的表達式。對于含有if挑選條件的Stata命令,則需要執(zhí)行的命令只針對滿足條件的觀測個案。煉在每一個命令中,只能夠有一個if引導的條件表達式,但是可以采用邏輯運算符“&”(并)和“|”(或)來進行表達式的組合2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉3.by的使用煉by前置語句用于對某些變量具有相同取值的數(shù)據(jù)子集重復執(zhí)行命令。使用by前置語句時要求先將數(shù)據(jù)依據(jù)by之后的變量進行排序,因此by前置語句的使用有兩種方式。煉第一種方式是先對by之后的變量進行排序,而后引入by前置語句對數(shù)據(jù)子集重復執(zhí)行相同的命令。使用語法如下:.
sort
varlist.
by
varlist:
command煉varlist是用來分組的變量,command是Stata中的命令2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉第二種方式是將上述兩步合并為一步,直接使用bysort語句煉使用語法如下:.bysort
varlist:command或者.by
valist:command,sort煉這兩個命令是等價的。2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.2.3數(shù)據(jù)的保留和刪除煉1.觀察個案的保留和刪除煉觀察個案的保留和刪除使用的ke
ep和drop命令的語法如下:煉.ke
ep
if[in]煉.drop
if[in]煉ke
ep和drop命令后直接跟篩選觀察個案的條件,2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.變量的保留和刪除煉變量的保留和刪除同樣需要使用keep和drop命令。煉基本語法如下:.keep
varname1
varname2?.
drop
varname1
varname2?煉keep和drop命令后緊跟著需要保留和刪除的變量名稱,可以是一個變量,也可以是多個變量。煉用戶在讀取已有數(shù)據(jù)文件時,也可以直接指示Stata僅將需要的變量讀入內(nèi)存。其基本語法如下:.
use
varname1
varname2?
using
filename2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.2.4新變量生成與變量賦值煉1.generate命令煉generate命令用于生成新變量,其語法為:.
generate
newvar=expression
[if]
[in]煉newvar是要生成的新變量,跟在generate后面,新變量的名稱不可與數(shù)據(jù)中已有變量名稱相同,否則Stata會提示錯誤?!?”為新變量表達式的引導符號,表示的是“定義”,所以使用單個等號。2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.replace命令煉replace命令用于改變已存在變量的賦值,replace命令經(jīng)常與generate命令配合使用來創(chuàng)建一些特殊的變量。generate命令的運行結果是生成新變量,replace命令的運行結果是改變已有變量的取值。煉replace命令的語法為:.
replace
oldvar=expression
[if]
[in]2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉3.recode命令煉recode命令用于對已有變量的重新賦值,recode命令每次只能給一個觀測變量改變數(shù)值。煉recode命令的語法為:
.
recode
oldvar
expression煉oldvar是需要改變數(shù)值的變量,expression是改變數(shù)值的指令。指令的形式很多,可以將某一范圍的數(shù)值改變?yōu)槟骋粋€數(shù)值,也可以直接將某一個數(shù)值更改為另一個數(shù)值,更改后的數(shù)值與更改前的數(shù)值之間用“=”連接,表示“定義”。2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.2.5虛擬變量的生成煉1.generate和replace的組合命令煉2.recode命令煉3.tabulate命令煉tabulate命令主要用于生成頻次表,即列出目標變量的所有取值類別及其對應的頻次。在tabulate命令的基礎上,配合使用generate命令,也可生成虛擬變量,這時生成的虛擬變量適用于類別變量,即對應于目標變量的每一個類別或組別生成一個虛擬變量。2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉使用tabulate命令生成虛擬變量的基本語法為:.
tabulate
varname,
generate(newvar).
li
varname
newvar
[if]
[in],
clean煉varname是指生成虛擬變量時所依據(jù)的目標變量,newvar是指為生成的虛擬變量的起始字符,目標變量有幾個類別,則就生成幾個虛擬變量,分別命名為newvar1、newvar2.??2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.2.6變量的轉換煉1.字符變量轉變?yōu)閿?shù)值變量煉將字符變量轉變?yōu)閿?shù)值變量的命令為encode,為已經(jīng)存在
的字符變量添加一個有標簽的數(shù)值變量。encode命令步驟
為:首先Stata自動將字符變量按照首字母的順序進行排序,排序規(guī)則為a~Z;然后將排序后的字符變量從1開始賦值,
形成數(shù)值變量,即將1賦值給排在第一位的字符變量。煉encode命令的語法如下:.
encode
varname
[if]
[in],
generate(newvar)
[label(name)]2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.數(shù)值變量轉變?yōu)樽址兞繜拰?shù)值變量轉變?yōu)樽址兞康拿钍莇ecode。decode命令是將原有的數(shù)值變量的數(shù)值標簽作為新生成的字符變量的取值,如果原有的數(shù)值變量沒有設置數(shù)值標簽,那么這一轉換過程就無法實現(xiàn)。煉decode命令的語法為:.decode
varname[if][in],generate(newvar)[maxlength(#)]煉maxlength(#)用于指定新生成的字符變量的長度,#的取值為1~244,默認為maxlength(244)2數(shù)據(jù)的獲取、整理與St
a
t
a實現(xiàn)煉2.2.7
Stata中的常用函數(shù)煉2.2.8
display命令的使用煉將display命令與運算表達式結合起來,可以讓Stata轉變?yōu)橛嬎闫?。使用這一功能時并不影響內(nèi)存里的數(shù)據(jù)。煉display命令的語法如下:.
display
expression/function煉即display后緊跟著運算表達式或者函數(shù)表達式,計算結果會直接顯示在結果窗口中,另外display還可以直接顯示當前Stata運算的統(tǒng)計結果。數(shù)據(jù)的描述與St
a
t
a實現(xiàn)
數(shù)值變量數(shù)據(jù)的分布特征描述
分類變量數(shù)據(jù)的分布特征描述
數(shù)據(jù)的圖形描述3數(shù)據(jù)的描述與St
a
t
a實現(xiàn)3數(shù)據(jù)的描述與St
a
t
a實現(xiàn)數(shù)據(jù)的描述與Stata實現(xiàn)數(shù)值變量數(shù)據(jù)分布特征描述分類變量數(shù)據(jù)分布特征描述集離分中散布趨勢趨勢狀態(tài)數(shù)據(jù)的圖形描述列聯(lián)直散表方點分圖圖析餅圖條形圖3數(shù)據(jù)的描述與St
a
t
a實現(xiàn)煉3.1數(shù)值變量數(shù)據(jù)的分布特征描述煉3.1.1集中趨勢描述煉常用的表示數(shù)據(jù)集中趨勢的統(tǒng)計量有均值、中位數(shù)和眾數(shù)。其中均值是參數(shù)統(tǒng)計量,中位數(shù)和眾數(shù)是位置統(tǒng)計量。煉3.1.2離散趨勢描述煉常用的表示數(shù)據(jù)離散趨勢的統(tǒng)計量有方差、標準差、全距、分位數(shù)和均值標準誤。煉3.1.3分布狀態(tài)描述煉常用的數(shù)據(jù)分布形態(tài)的描述統(tǒng)計量是偏度和峰度。3數(shù)據(jù)的描述與St
a
t
a實現(xiàn)煉3.1.4
Stata基本命令煉1.查看數(shù)據(jù)概要煉查看數(shù)據(jù)概要的主要命令為describe,除此之外,還可使用list、codebook等命令進行數(shù)據(jù)全方位的概述展示。煉describe命令可列出數(shù)據(jù)的基本信息,包括變量名稱、存儲方式、顯示格式、標簽和數(shù)值標簽等。describe命令可簡寫為d,若讀者只想觀察數(shù)據(jù)文件的基本信息,則可在
describe后面加上選擇項,simple,也可簡寫為s。即:煉.d,s3數(shù)據(jù)的描述與St
a
t
a實現(xiàn)煉list命令用于列出已有數(shù)據(jù),并查看數(shù)據(jù)的取值,是極為常用的數(shù)據(jù)描述命令,簡寫為li。list命令的基本語法為:.
list.
list
varlist
[if]
[in]
[,
options]煉codebook命令用于查看變量的包括取值區(qū)間在內(nèi)的詳細信息。其基本語法為:.
codebook
varlist
[if]
[in]煉varlist可以是一個變量,也可是多個變量。3數(shù)據(jù)的描述與St
a
t
a實現(xiàn)煉2.描述統(tǒng)計量的計算煉Stata中用于計算描述性統(tǒng)計量的命令主要有summarize和tabstat。煉summarize可簡寫為sum,可以給出所有數(shù)值變量的基本描述統(tǒng)計量,也可以在summarize命令后加上變量名稱,輸出指定變量的基本描述統(tǒng)計量。.
summarize
varlist煉tabstat命令用于計算并輸出描述統(tǒng)計量,計算結果以表格的形式輸出。使用tabstat命令不僅需要指定變量,同時還需要指定計算的統(tǒng)計量名稱,如果不指定統(tǒng)計量名稱,則默認只輸出均值。.
tabstat
varlist,
stats(stats_options)3數(shù)據(jù)的描述與St
a
t
a實現(xiàn)煉3.2分類變量數(shù)據(jù)的分布特征描述煉3.2.1列聯(lián)表分析基本原理煉交叉列聯(lián)表分析除了列出交叉分組下的頻數(shù)分布外,還需要分析兩個變量之間是否具有獨立性或一定的相關性。煉Stata提供了多種適用于不同相關系數(shù)的相關關系,相關系數(shù)顯著性檢驗的原假設相同,均是:行列變量之間彼此獨立,不存在顯著的相關關系。Stata將自動給出檢驗的相伴概率,如果相伴概率小于顯著性水平0.05,那么應拒絕原假設,認為行列變量之間彼此相關。3數(shù)據(jù)的描述與St
a
t
a實現(xiàn)煉3.2.2
Stata基本命令煉1.table命令煉table命令可以生成不同維度的交叉列聯(lián)表。table命令除可在交叉列聯(lián)表中輸出頻數(shù)外,還可輸出其他一些變量常用的描述統(tǒng)計量。煉table命令的基本語法為:.table
rowvar[colvar[supercolvar]][if][in][weight][,table_options]煉其中,rowvar為行變量,colvar為列變量,supercolvar為更高維度交叉列聯(lián)表中的列變量,3數(shù)據(jù)的描述與St
a
t
a實現(xiàn)煉2.tabulate命令煉Stata中tabulate命令主要用于生成一維列聯(lián)表和二維交叉列聯(lián)表,在生成二維交叉列聯(lián)表的同時,還可對行列變量的獨立性進行檢驗。煉⑴一維列聯(lián)表的構建:.
tabulate
varname
[if]
[in]
[weight]
[,
tabulate_options1]煉⑵二維交叉列聯(lián)表的構建及檢驗煉.tabulate
varname1
varname2[if][in][weight][,tabulate_options2]煉tabulate命令在生成二維交叉列聯(lián)表的同時,還可以對行列變量的相關系數(shù)進行計算,并進行獨立性檢驗。varname1為生成的交叉列聯(lián)表的列變量,varname2為生成的交叉列聯(lián)表的行變量3數(shù)據(jù)的描述與St
a
t
a實現(xiàn)煉3.3數(shù)據(jù)的圖形描述煉3.3.1
Stata繪圖簡介煉Stata中繪制的圖形由4個部分組成:煉⑴由橫軸和縱軸圍成的圖形核心部分;煉⑵核心部分中的附加部分,如軸線間隔、連線、數(shù)值顯示等;煉⑶核心部分周圍的附加部分,如圖形名稱、坐標值說明、圖例名稱、數(shù)據(jù)來源等;煉⑷在復雜圖形中,用戶可在圖形核心部分上疊加其他的圖形。3數(shù)據(jù)的描述與St
a
t
a實現(xiàn)煉3.3.2直方圖煉繪制直方圖的命令為histogram,也可簡寫為hist,命令主干部分為:.
histogram
varname.
hist
varname煉可通過添加選項來實現(xiàn)圖形繪制時的特殊要求,命令語法形式為:.
histogram
varname,
hist_options3數(shù)據(jù)的描述與St
a
t
a實現(xiàn)煉3.3.3散點圖煉Stata中繪制散點圖的命令語法如下:.
scatter
varlist
[if]
[in]
[,
scatter_options].
graph
twoway
scatter
varlist
[if]
[in]
[,
scatter_options].
twoway
scatter
varlist
[if]
[in]
[,
scatter_options]煉上述幾個命令是等價的,實際使用中第一個最為常用。3數(shù)據(jù)的描述與St
a
t
a實現(xiàn)煉3.3.4餅圖煉第1種,繪制關于觀測個案數(shù)目的餅圖:.graph
pie,over(varname)煉此時繪制的餅圖中每一個扇形表示對應變量(varname)的一個組別,各個扇形的大小代表對應組別觀測個案的數(shù)目。煉第2種,根據(jù)其他變量分組的餅圖:.graph
pie
varname1,over(varname2)煉根據(jù)varname2的各個組別進行分組,每個扇形的大小為varname1變量在
varname2變量的各個組別上的和。即第1個扇形的大小為varname2變量設定為第1個類別時,所有觀測個案的varname1變量的取值的和。煉第3種,繪制多個變量的餅圖:.graph
pie
varname1
varname2?煉此時得到的餅圖中每一個扇形對應一個變量,每一個扇形的大小對應該變量在所有觀測個案上的取值的和。3數(shù)據(jù)的描述與St
a
t
a實現(xiàn)煉3.3.5條形圖煉簡單條形圖是指根據(jù)單個變量分組的單變量條形圖,其基本命令語法為:.
graph
bar
varname1,
over(varname2)此時根據(jù)varname
2的不同類別形成不同的條形,每個條形的大小由不同類別下觀測個案的varname
1取值之和決定。3數(shù)據(jù)的描述與St
a
t
a實現(xiàn)煉多個變量分組的簡單條形圖是指根據(jù)多個變量交叉分組情況下的條形圖的繪制,基本命令語法為:.
graph
bar
varname1,
over(varname2,
label(alter))
over(varname3)煉此時根據(jù)varname
3的不同類別先進行分組,在varname
3的不同類別下再按照varname
2的不同類別形成不同的條形,每個條形的大小由不同類別下觀測個案的varname
1取值之和決定。在這里label(alte
r)表示顯示varname
2標簽時使用錯開的格式,否則顯示結果將無法閱讀。3數(shù)據(jù)的描述與St
a
t
a實現(xiàn)煉多變量條形圖是指使用條形圖同時觀察多個變量的均值?;久钫Z法為:煉.graph
bar
varname
1
varname
2?,over(varname
3)煉此時根據(jù)varname
3的不同類別形成不同的條形組,每個條
形組下條形的數(shù)量由varname
1
varname
2?變量的個數(shù)決定,每個條形代表一個varname變量下varname
3對應類別觀測個案取值的均值。3數(shù)據(jù)的描述與St
a
t
a實現(xiàn)煉3.1數(shù)值變量數(shù)據(jù)的分布特征描述4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)
單樣本數(shù)據(jù)均值的比較與推斷
兩樣本數(shù)據(jù)均值的比較與推斷
多樣本數(shù)據(jù)均值的比較與推斷數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)數(shù)據(jù)的均值比較、推斷與Stata實現(xiàn)單樣本數(shù)據(jù)均值比較與推斷兩樣本數(shù)據(jù)均值比較與推斷兩獨較立與樣推本斷均值比兩配較對與樣推本斷均值比多樣本數(shù)據(jù)均值比較與推斷單因素方差分析多因素方差分析協(xié)方差分析4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉4.1單樣本數(shù)據(jù)均值的比較與推斷煉4.1.1單樣本數(shù)據(jù)t檢驗原理與步驟煉單樣本t檢驗的原假設(H0)為:總體均值和指定檢驗值之間不存在顯著差異。煉單樣本t檢驗采用t統(tǒng)計量,t統(tǒng)計量計算公式為DS nt
4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉4.1.2
Stata基本命令煉Stata使用ttest命令進行單樣本t檢驗,命令基本格式為:煉.ttest
varname==#[if][in][,level(#)]煉#為指定檢驗值,level為顯著性水平,默認為0.05。4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉4.2兩樣本數(shù)據(jù)的均值比較與推斷煉4.2.1兩獨立樣本的均值比較與推斷煉1.兩獨立樣本t檢驗原理與步驟煉兩獨立樣本t檢驗的前提如下。
煉(1)兩個樣本應是互相獨立的。煉(2)樣本來自的兩個總體應該服從正態(tài)分布。4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉t檢驗步驟:煉第一步,利用F檢驗判斷兩總體的方差是否相同;第二步,根據(jù)第一步的結果,決定t統(tǒng)計量和自由度計算公式,進而對t檢驗的結論作出判斷。4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉2.Stata基本命令煉⑴命令格式1,通過樣本進行分組t檢驗。.
ttest
varname
[if]
[in],
by(groupvar)
[options]煉該命令默認兩獨立樣本是同方差的,若不滿足該假設,則需在上述基本命令的基礎上添加unequal選項,即:.
ttest
varname
[if]
[in],
by(groupvar)
unequal4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉⑵命令格式2,通過樣本的統(tǒng)計量進行t檢驗.
ttesti
#obs1
#mean1
#sd1
#obs2
#mean2
#sd2
[,options]煉該命令主要適用于原始數(shù)據(jù)未知,但是兩個獨立樣本的相關統(tǒng)計量是已知的情況,判斷兩獨立樣本均值是否相等的假設檢驗問題。4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉4.2.2兩配對樣本的均值比較與推斷煉1.兩配對樣本t檢驗原理與步驟煉兩配對樣本t檢驗的前提如下。煉(1)兩個樣本應是配對的煉(2)樣本出自的兩個總體應服從正態(tài)分布。4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉兩配對樣本t檢驗的原假設H0為兩總體均值之間不存在顯著差異。煉原理:首先求出每對觀察值的差值,得到差值序列;然后對差值求均值;最后檢驗差值序列的均值,即平均差是否與0有顯著差異。煉t檢驗統(tǒng)計量為:t=
DS
n4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉4.3多樣本數(shù)據(jù)的均值比較與推斷煉4.3.1單因素方差分析煉1.適用條件煉只有一個控制變量;煉控制變量的不同水平下,各總體均值服從方差相同的正態(tài)分布4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉2.統(tǒng)計量構建及檢驗原理煉F統(tǒng)計量的構建原理是數(shù)據(jù)變異,即數(shù)據(jù)總變異平方和的拆解。將所有樣本變量值的總變異平方和記為SST,將其分解為兩個部分:一部分是由控制變量引起的變異平方和,記為SSA(組間離差平方和);另一部分是由隨機變量引起的變異平方和,記為SSE(組內(nèi)離差平方和)。SST
SSASSE4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉F統(tǒng)計量是平均組間離差平方和與平均組內(nèi)離差平方和的比。煉F檢驗原假設H0:控制變量不同水平下的各總體均值沒有顯著差異F
SSA
(k
1)SSE
(n
k)4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉3.Stata基本命令煉Stata中方差分析的基本命令為anova,它可以進行單因素方差分析,也可以進行多因素方差分析和協(xié)方差分析。煉Stata中實現(xiàn)單因素方差分析的命令有兩種:一種是anova命令,一種是oneway命令。4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉anova命令實現(xiàn)單因素方差分析的基本語法為:.
anova
responsevar
factorvar
[if]
[in]
[,options]煉oneway命令實現(xiàn)單因素方差分析的基本語法為:.
oneway
responsevar
factorvar
[if]
[in]
[,options]煉這兩個命令的結構基本一致,其中responsevar為觀察變量,即因變量,factorvar為控制變量,即自變量。4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉4.3.2多因素方差分析煉1.適用條件煉存在兩個或兩個以上控制變量。多因素方差分析對各個總體的方差相等的前提假設是放松的,但是一般要求多控制變量交叉作用下的單元格內(nèi)至少有3個觀測值。4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉2.統(tǒng)計量構建及檢驗原理煉將觀察變量總的離差平方和分解為3個部分。煉①多個控制變量獨立作用引起的離差平方和。煉②多個控制變量交互作用引起的離差平方和。煉③其他隨機變量引起的離差平方和。4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉多因素方差分析仍然采用F檢驗。煉原假設H0:多個控制變量的不同水平下,各總體均值沒有顯著差異。22S(r
1)
S
rs(l
1)Q控制變量1控制變量1F控制變量1
Q隨機變量隨機變量Q
(s
-1)S
2FQS
2
rs(l
1)控制變量2控制變量2控制變量2隨機變量隨機變量QS
2FQS
2(r
1)(s
1)
rs(l
1)控制變量1,2控制變量1,2控制變量1,2隨機變量隨機變量4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉4.Stata基本命令煉Stata中用于多因素方差分析的命令為anova,其基本語法為:.
anova
responsevar
factorvar
1
factorvar
2?factorvar
1#factorvar
2
[if]
[in]
[,options]煉responsevar為觀察變量(因變量),factorvar1,factorvar2?為控制變量(自變量),可以有多個。4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉在多因素方差分析中,可以選擇進行交互效用檢驗,采用factorvar1#factorvar2的形式,可以是雙控制變量的交互作用,也可以是多控制變量的交互作用,只需指定進行交互作用的變量名稱即可。4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉4.3.3協(xié)方差分析煉1.適用條件煉將那些很難控制的因素作為協(xié)變量,在排除協(xié)變量影響的條件下,分析控制變量對觀察變量的影響。煉協(xié)方差分析要求協(xié)變量是連續(xù)變量,多個協(xié)變量間互相獨立,且與控制變量之間沒有交互作用。單因素方差分析和多因素方差分析中的控制變量都是一些分類變量。4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉2.統(tǒng)計量構建及檢驗原理煉以單因素協(xié)方差分析為例,因為只含有一個控制變量,則數(shù)據(jù)總的變異平方和表示為Q總Q控制變量Q協(xié)變量+Q隨機變量煉協(xié)方差分析仍然采用F檢驗。4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉原假設H0:多個控制變量的不同水平下,各總體均值沒有顯著差異。S
2FS
2
控制變量控制變量隨機變量S
2FS
2
協(xié)變量協(xié)變量隨機變量4數(shù)據(jù)的均值比較、推斷與St
a
t
a實現(xiàn)煉4.Stata基本命令煉Stata中用于協(xié)方差分析的命令為anova,其基本語法為:.
anova
responsevar
factorvar1
factorvar2?,
c.varname煉c.varname用于指定協(xié)變量,按照規(guī)定,協(xié)變量也必須是連續(xù)變量,varname為協(xié)變量的變量名稱。煉要加入交互效應檢驗,只需指需要定交互的變量,并用#連接即可。5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)
樣本的關聯(lián)結構分析—聚類分析
變量的關聯(lián)結構分析—因子分析數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)數(shù)據(jù)內(nèi)部關聯(lián)結構與St
a
t
a實現(xiàn)數(shù)據(jù)內(nèi)部關聯(lián)結構分析與Stata實現(xiàn)樣本的關聯(lián)結構分析—聚類分析變量的關聯(lián)結構分析—因子分析系快因因因統(tǒng)速適子子子聚聚用變變得類類條量量分分分件構命計析析造名算5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉5.1樣本的關聯(lián)結構分析—聚類分析煉聚類分析的實質是建立一種分類,它能夠在沒有先驗知識的情況下將一批樣本數(shù)據(jù)按照它們性質上的親疏程度自動進行分類,通過分類反映樣本之間的關聯(lián)結構。5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉5.1.1系統(tǒng)聚類分析與Stata實現(xiàn)煉系統(tǒng)聚類分析是根據(jù)觀察變量之間的親疏程度,將最相似的對象結合在一起,以逐次聚合的方式將觀察個案(即樣本)分類,直到最后所有觀察個案(樣本)都聚成一類。煉Stata根據(jù)變量數(shù)據(jù)類型的不同,分別提供了相似性(即相關系數(shù))和不相似性(即距離)兩種方式測度樣本間親疏程度。5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉1.樣本間親疏程度測量方法煉⑴連續(xù)變量的樣本不相似性測度方法煉①歐氏距離煉②歐氏距離平方煉③切比雪夫距離煉④塊距離煉⑤閔可夫斯基距離2i
1kEUCLID
(x
y
)
i
i2i
1kSEUCLID
(x
y
)
i
iCHEBYSHEV(x,y)
maxxi
yikBLOCK
(x,
y)
xi
yii
1kppi
1MINKOWSKI
(x,
y)
x
y
i
i5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)2
222煉⑵連續(xù)變量的樣本相似性測度方法煉連續(xù)變量親疏程度的度量,有皮爾遜相關系數(shù)、余弦相似度(COSINE)等。ki
ikkiix
y( x
)( y
)i
1i
1i
1COSINE(x,y)
5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉⑶定序或定性變量的樣本親疏程度測量方法煉①(Chi-squa
re)統(tǒng)計量煉②(Phi-squa
re)統(tǒng)計量22i
ii
iE(xi
)E(
yi
)i
1(xE
(x
))(
y
E
(
y
))CHISQ(x,y)
i
1k
k
22k
kE
(
yi
)n(x
E
(x
))(
y
E
(
y
))i
1
i
1
E
(xi
)PHISQ(x,
y)
i
i
i
i5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉2.類間親疏程度測量方法煉⑴最近鄰元素法煉以當前某個樣本與已經(jīng)形成小類中的各樣本距離的最小值作為當前樣本與該小類之間的距離。煉⑵最遠鄰元素法煉以當前某個樣本與已經(jīng)形成小類中的各樣本距離的最大值作為當前樣本與該小類之間的距離。煉⑶組間鏈接法煉兩個小類之間的距離為兩個小類內(nèi)所有樣本間的平均距離。5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉⑷組內(nèi)鏈接法煉對所有樣本對的距離求平均值,包括小類之間的樣本對、小類內(nèi)的樣本對。煉⑸質心聚類法煉將兩小類間的距離定義成兩小類重心(質心)間的距離。每一小類的重心(質心)就是該類中所有樣本在各個變量上的均值代表點。煉⑹瓦爾德法煉是小類合并的方法,在聚類過程中,使小類內(nèi)各個樣本的歐氏距離總平方和增加最小的兩小類合并成一類。5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉3.Stata基本命令煉Stata中聚類分析可以采用兩種命令方式完成:一種是利用cluster命令通過數(shù)據(jù)直接進行系統(tǒng)聚類分析,另一種是利用clustermat命令通過分析距離矩陣來進行系統(tǒng)聚類分析。煉⑴cluster命令煉cluster命令的基本語法為:.
cluster
linkage
varlist
[if]
[in]
[,cluste
r_options]5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉linkage是系統(tǒng)聚類中類間距離測度方法,varlist是系統(tǒng)聚類分析中需要用到的變量名稱。煉系統(tǒng)聚類分析中,除了形成聚類分析結果文件,還可繪制樹狀聚類圖,具體命令可采用如下形式:.
cluster
singlelinkage
x1
x2
x3,
name
(cls).
cluster
dendrogram
cls,
xlabel5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉⑵clustermat命令煉clustermat命令使用之前要求首先生成距離矩陣,生成距離矩陣的基本命令為:.
matrix
dissimilarity
matname=
[varlist]
[if]
[in]
[,matrix_options]煉dissimilarity表示依據(jù)樣本之間的不相似性(距離)作為分類的依據(jù),matname表示生成的距離矩陣的名稱,[varlist]指明需要保存哪些變量的所有觀測個案的距離。5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉⑶cluster
dendrogram命令煉cluster
dendrogram命令主要用于將聚類分析的結果生
成樹狀圖。cluster
dendrogram命令的常用基本語法為:.
cluster
dendrogram
clname,
labels(name
)
horizontal煉其中clname為聚類分析產(chǎn)生的結果,該命令表示針對clname繪制樹狀圖。labels(name)對生成的樹狀圖命名,名字為name。horizontal表示生成水平狀的樹狀圖,默認為垂直狀的。5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉5.1.2快速聚類分析與Stata實現(xiàn)煉1.適用條件煉快速聚類分析是由用戶指定類別數(shù)的大樣本數(shù)據(jù)的逐步聚類分析。它先對數(shù)據(jù)進行初始分類,然后逐步調(diào)整,得到最終分類。煉在快速聚類分析中,用戶可以自己指定初始的類中心點。如果用戶的經(jīng)驗比較豐富,則可以指定比較合理的初始類中心點。5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉2.迭代原理和過程煉快速聚類分析基本原理和迭代步驟如下:煉(1)首先需要用戶指定聚類成多少類(比如k類)。煉(2)然后Stata確定k個類的初始類中心點。煉(3)計算所有樣本數(shù)據(jù)點到k個類中心點的歐氏距離。煉(4)Stata重新確定k個類的中心點。煉(5)重復(3)(4)兩步計算過程,直到達到指定的迭代次數(shù)或終止迭代的判斷要求為止。5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉3.Stata基本命令煉快速聚類中類初始中心點的指定方法不同,形成了k均值聚類和k中位數(shù)聚類兩種方法。煉k均值聚類方法的基本命令為:.
cluster
kmeans
[varlist]
[if]
[in]
,
k(#)
[options]煉k中位數(shù)聚類方法的基本命令為:.
cluster
kmedians
[varlist]
[if]
[in]
,
k(#)
[options]煉其中,varlist表示聚類分析過程中需要使用的變量,
k(#)表示指定的聚類的類別數(shù),#為類別數(shù)5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉5.2變量的關聯(lián)結構分析—因子分析煉因子分析就是用少量因子來描述許多指標或因素之間的聯(lián)系,以較少的幾個因子反映原資料的大部分信息的統(tǒng)計方法。煉因子分析有兩個核心問題:一是如何構建因子變量;二是如何對因子變量進行命名解釋。5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉因子分析有下面4個基本步驟:
煉(1)確定因子分析的適用條件;煉(2)構造因子變量;煉(3)因子變量命名,以便使得因子變量更具有可解釋性;煉(4)計算因子變量的得分。5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉5.2.1因子分析基本步驟煉1.適用條件煉初始變量之間要具有比較強的相關關系。煉Stata在因子分析過程中還提供了幾種檢驗方法來判斷變量是否適合做因子分析,主要的統(tǒng)計檢驗方法有如下幾種。5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉⑴KMO統(tǒng)計量檢驗煉⑵巴特利特球形度檢驗煉巴特利特球形度檢驗統(tǒng)計量較大,相伴概率值小于用戶設定的顯著性水平,那么應該拒絕原假設,認為相關系數(shù)矩陣不可能是單位矩陣,即適合于做因子分析煉⑶反映像相關矩陣檢驗222ijij
ijrpi
ji
j
i
jKMO
r
5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉2.因子變量的構建煉因子分析中有多種構建因子變量的方法,如基于主成分模型的主成分分析法和基于因子分析模型的主軸因子法、極大似然法、最小二乘法等。其中,基于主成分模型的主成分分析法是使用最多的因子變量構建方法之一。5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉以主成分分析方法為因子變量構建方法進行分析。煉⑴數(shù)據(jù)標準化煉⑵因子載荷矩陣構建煉①因子載荷煉②變量共同度煉③公共因子的方差貢獻5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉⑶公共因子提取煉確定公共因子個數(shù)m的方法主要有:煉
①根據(jù)特征值的大小確定,一般取大于1的特征值的個數(shù)作為m的數(shù)值;煉
②根據(jù)因子的累計方差貢獻率來確定。5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉3.因子變量的命名解釋煉通過旋轉因子載荷矩陣,使得因子載荷的數(shù)值向0或1分化,以便于快速識別到公共因子主要反映的初始變量的綜合含義。煉4.因子得分的計算煉樣本數(shù)九在不同公共因子變量上的具體數(shù)據(jù)值就是因子得分,它和原變量的得分相對應。估計因子得分的方法有回歸法、巴特利特法、安德森-魯賓法等。5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉5.2.2
Stata基本命令煉1.estat命令煉estat命令用于判斷初始變量數(shù)據(jù)是否適合于做因子分析,因子分析進行之后,可通過estat命令顯示估計的數(shù)值與矩陣變量的統(tǒng)計量。煉2.screeplot命令煉screeplot命令用來繪制碎石圖。screeplot命令基本語法:.
screeplot
[e
igenvals]
[,
options]煉其中,eigenvals為用戶保存的特征向量,5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉3.scoreplot、loadingplot命令煉這兩個命令都用來繪制散點圖。煉scoreplot用于繪制不同因子得分的散點圖,基本語法:.scoreplot
[,
scoreplot_options]煉loadingplot命令用于繪制不同因子載荷的散點圖,基本語法如下:.
loadingplot
[,
loading_options]5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉4.rotate命令煉rotate命令用于完成因子載荷矩陣的正交旋轉或斜交旋轉。煉rotate命令的基本語法如下:.
rotate
[,
rotate_options]5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉5.predict命令煉predict命令可以用于預測變量、擬合值和殘差,利用predict命令也可以完成因子得分的計算。
predict命令的基本語法為:.
predict
[type
]
stub*
|
newvarlist
[if]
[in]
[,
statistic
options]煉其中stub*|
newvarlist為需要計算因子變量得分的變量。5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉6.factor和factormat命令煉前述各項命令是因子分析中用于中間計算結果的展示和調(diào)整命令。Stata中用于因子分析的主命令有兩種形式,一是通過變量直接進行因子分析,為factor命令。二是通過矩陣進行主成分分析,為
factormat命令。5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉命令格式1:通過變量直接進行因子分析。.factor
varlist[if][in][we
ight][,method
options]煉varlist為因子分析使用的原始變量。5數(shù)據(jù)內(nèi)部關聯(lián)結構分析與St
a
t
a實現(xiàn)煉命令格式2:通過矩陣進行主成分分析。.
factormat
matname,
n(#)
[me
thod
options
factormat_options]煉如果已有變量的相關系數(shù)矩陣或協(xié)方差矩陣,則可以使用factormat命令進行因子分析。其中matname為事先形成的系統(tǒng)的相關系數(shù)矩陣或協(xié)方差矩陣,n(#)表示觀測個案的個數(shù)#。6變量間相關關系分析與St
a
t
a實現(xiàn)
二元變量相關分析
偏相關分析變量間相關關系分析與St
a
t
a實現(xiàn)變量間相關關系分析與St
a
t
a實現(xiàn)變量間相關關系分析與Stata實現(xiàn)二元變量相關分析偏相關分析二相元關定分距析變量二相元關定分序析變量6變量間相關關系分析與St
a
t
a實現(xiàn)煉6.1二元變量相關分析煉6.1.1分析方法煉1.散點圖煉2.相關系數(shù)煉如果相關系數(shù)是根據(jù)總體全部數(shù)據(jù)計算而來的,稱為總體相關系數(shù),記為ρ;如果是根據(jù)樣本數(shù)據(jù)計算而來的,則稱為樣本相關系數(shù),記為r。在統(tǒng)計學中,一般用樣本相關系數(shù)r來推斷總體相關系數(shù)。6變量間相關關系分析與St
a
t
a實現(xiàn)煉6.1.2分析原理及步驟煉1.二元定距變量相關分析原理及步驟煉皮爾遜簡單相關系數(shù)用來衡量定距變量間的線性關系。22i
1i
1r
(x
x
)(
y
y
)n
(xi
x
)(
yi
y
)i
1n
in
i6變量間相關關系分析與St
a
t
a實現(xiàn)煉對皮爾遜簡單相關系數(shù)進行顯著性的統(tǒng)計檢驗是t檢驗,通過計算t統(tǒng)計量對相關系數(shù)與0的差異進行推斷。r
n
2t
1
r
26變量間相關關系分析與St
a
t
a實現(xiàn)煉2.二元定序變量相關分析原理及步驟煉斯皮爾曼(Spe
arman)等級相關系數(shù)和肯德爾(Ke
ndall)tua-b等級相關系數(shù)用以衡量定序變量間的線性相關關系,它們利用的是非參數(shù)檢驗的方法。煉
斯皮爾曼等級相關系數(shù)為6niD
2n(n2
1)
R
1-
i
1
6變量間相關關系分析與St
a
t
a實現(xiàn)煉斯皮爾曼等級相關系數(shù)顯著性檢驗分為兩種情況。煉①個案數(shù)n≤30,Stata將直接利用斯皮爾曼等級相關統(tǒng)計量表,自動根據(jù)該表給出對應的相伴概率值。煉②個案數(shù)n>30,則采用Z統(tǒng)計量。Z統(tǒng)計量近似服從正態(tài)分布,Stata將根據(jù)正態(tài)分布表給出對應的相伴概率。6變量間相關關系分析與St
a
t
a實現(xiàn)煉肯德爾tua-b等級相關系數(shù)為煉肯德爾tua-b等級相關系數(shù)統(tǒng)計檢驗分為兩種情況:煉①個案數(shù)n≤30,Stata將直接利用肯德爾tua-b等級相關統(tǒng)計量表,自動根據(jù)該表給出相伴概率值。煉②個案數(shù)n>30,則計算Z統(tǒng)計量。Z統(tǒng)計量近似服從正態(tài)分布,Stata將根據(jù)正態(tài)分布表給出相伴概率。4VT
1
n(n
1)6變量間相關關系分析與St
a
t
a實現(xiàn)煉6.1.3
Stata命令煉1.二元定距變量相關分析基本命令煉二元定距變量相關分析基本命令為correlate,correlate命令不僅可以計算變量之間的相關系數(shù)矩陣,也可以計算變量間的協(xié)方差矩陣。煉correlate命令基本語法為:.
correlate
[varlist]
[if]
[in]
[,
correlate_options]6變量間相關關系分析與St
a
t
a實現(xiàn)煉Stata中針對缺失數(shù)據(jù)提出了兩種不同處理方法,
correlate命令在計算相關系數(shù)時,若某個觀測個案在指明的變量中有一個缺失數(shù)據(jù),那么該觀測個案將不參加所有二元相關系數(shù)的計算,相當于刪除了這條觀測個案。6變量間相關關系分析與St
a
t
a實現(xiàn)煉若只有當用到某個變量時才將缺失數(shù)據(jù)刪除,這時可以采用pwcorr命令,該命令不僅可以進行相關系數(shù)計算,而且通過選擇項設置還可以進行相關系數(shù)的顯著性檢驗。pwcorr命令的基本語法如下:.
pwcorr
[varlist]
[if]
[in]
[,
pwcorr_options]6變量間相關關系分析與St
a
t
a實現(xiàn)煉2.二元定序變量相關分析基本命令煉Stata分別采用spearman命令和ktau命令來計算斯皮爾曼等級相關系數(shù)和肯德爾tua-b相關系數(shù)。煉
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江西省九江市實驗中學高中體育《基本姿勢、起動、雙手胸前傳接球》教學實錄 新人教版
- need的反義疑問句用法及回答
- 電商視覺營銷案例
- 2025年高壓自動重合器項目發(fā)展計劃
- 電力行業(yè)碳捕集利用封存
- 電力建設工程預算定額2018版發(fā)布文件
- 三年級道德與法治上冊 第四單元 家是最溫暖的地方 12《家庭的記憶》教學實錄3 新人教版
- 前臺接待的創(chuàng)新思維訓練計劃
- 幼兒園學期評估與反饋計劃
- 實現(xiàn)財富積累的有效方法計劃
- 消防水泵和穩(wěn)壓泵安裝檢驗批質量驗收記錄
- 500kV變電站工程構支架吊裝專項施工方案
- 2021年上海臨港外服人力資源有限公司招聘筆試試題及答案解析
- 生物安全柜及應用課件
- 酒店游泳池系統(tǒng)維保合同
- 頂管中繼間施工技術
- 現(xiàn)代商業(yè)空間展示設計ppt
- 高家堡副井井筒壁座施工安全技術措施
- 危險化學品生產(chǎn)企業(yè)班組建設指導手冊
- 世界貿(mào)易組織(WTO課件(25頁PPT)
- 電石渣制漿系統(tǒng)工藝規(guī)程
評論
0/150
提交評論