版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第 1 章 SPSS分析軟件概述1.了解 SPSS 軟件。2.了解 SPSS 25.0 的主要窗口和菜單。3.熟悉 SPSS 數(shù)據(jù)分析的基本流程 。學(xué)習(xí)目標Part 1.1SPSS簡介 SPSS簡介美國斯坦福大學(xué)三位研究生研制60年代70年代80年代90年代2009SPSS總部成立于芝加哥,推出SPSSX中小型機版SPSS公司(SPSS/PC+微機版V14)SPSS公司(SPSS WINDOWS版V510)IBM收購,命名為:IBM SPSS Statistics至今優(yōu)勢 SPSS簡介通過“菜單”“圖標按鈕”“對話框”完成,操作簡單,使用方便。易用性強如,可以直接錄入數(shù)據(jù),也可接入其他類型數(shù)據(jù)
2、;結(jié)果可直接導(dǎo)出為Word、Excel格式等。兼容性好如,數(shù)據(jù)準備與數(shù)據(jù)整理技術(shù);各種常用統(tǒng)計圖形;成熟的統(tǒng)計分析方法和模型。功能強大Part 1.2SPSS主要窗口 1.2.1 數(shù)據(jù)編輯窗口菜單名功能說明文件文件操作對SPSS相關(guān)文件進行基本操作,如新建、打開、保存、打印等編輯數(shù)據(jù)編輯對數(shù)據(jù)編輯器窗口中的數(shù)據(jù)進行基本編輯,如撤銷、剪切、復(fù)制、粘貼,并實現(xiàn)數(shù)據(jù)查找、軟件參數(shù)設(shè)置等功能查看窗口外觀狀態(tài)管理對SPSS窗口的外觀進行設(shè)置,如狀態(tài)欄、網(wǎng)格線、變量值標簽等是否顯示,以及設(shè)置字體等數(shù)據(jù)數(shù)據(jù)的操作和管理對數(shù)據(jù)編輯器窗口中的數(shù)據(jù)進行加工整理,如數(shù)據(jù)的排序、轉(zhuǎn)置、拆分、合并、分類匯總等轉(zhuǎn)換數(shù)據(jù)基
3、本處理對數(shù)據(jù)編輯器窗口中的數(shù)據(jù)進行基本處理,如生成新變量、計數(shù)等分析統(tǒng)計分析對數(shù)據(jù)編輯器窗口中的數(shù)據(jù)進行統(tǒng)計分析與建模,如描述統(tǒng)計分析、線性回歸分析、邏輯回歸分析、因子分析、聚類分析等圖形制作統(tǒng)計圖形根據(jù)數(shù)據(jù)編輯器窗口中的數(shù)據(jù)生成各種統(tǒng)計圖形,如條形圖、直方圖、箱線圖、散點圖等實用程序提供實用程序SPSS其他輔助管理擴展擴展功能可以直接在擴展中心獲取所需插件窗口管理窗口對SPSS的多個窗口進行管理幫助提供幫助實現(xiàn)SPSS的聯(lián)機幫助 1.2.1 數(shù)據(jù)編輯窗口 1.2.2 結(jié)果查看器窗口窗口標題:查看器功能:SPSS統(tǒng)計分析報表及圖形的輸出的窗口組成:窗口主菜單、工具欄、結(jié)果顯示區(qū)、狀態(tài)區(qū)特點:輸
4、出窗口可以關(guān)閉,窗口內(nèi)容以.SPV存于磁盤上兩個部分:目錄視圖和內(nèi)容視圖Part 1.3SPSS數(shù)據(jù)分析流程研究目的確定背景分析研究目的SPSS數(shù)據(jù)文件建立、導(dǎo)入、修改、合并數(shù)據(jù)排序數(shù)據(jù)去重變量計算重新編碼數(shù)據(jù)分組數(shù)據(jù)選取描述分析統(tǒng)計建模報告撰寫數(shù)據(jù)文件準備數(shù)據(jù)預(yù)處理數(shù)據(jù)分析報告撰寫 SPSS數(shù)據(jù)分析流程THANKS第 2 章 SPSS數(shù)據(jù)文件的建立與管理1.掌握在 SPSS 中定義變量的方法。2.掌握 SPSS 數(shù)據(jù)文件的建立和管理。3.熟悉 SPSS 數(shù)據(jù)文件的合并與拆分。學(xué)習(xí)目標Part 2.1SPSS定義變量SPSS定義變量在SPSS中輸入數(shù)據(jù)前先要定義變量,即對變量的名稱、類型、寬度
5、等進行定義,如圖所示。下面主要介紹變量名稱、變量類型、變量標簽、變量值標簽、缺失值、測量尺度、角色的定義。變量名稱也叫變量名,是訪問和分析變量的唯一標識。在定義SPSS數(shù)據(jù)結(jié)構(gòu)時應(yīng)先給出每列變量的變量名。變量的命名規(guī)則如下。(1)變量名最好與其代表的數(shù)據(jù)含義相對應(yīng),同一個數(shù)據(jù)文件中每個變量名必須具有唯一性。(2)首字符應(yīng)以英文字母或漢字開頭,后面可以跟除“!”“?”“*”之外的字母或數(shù)字,最后一個字符不能是下劃線、圓點。(3)系統(tǒng)保留字(如ALL、BY、AND、NOT、OR等)不能作為變量名。(4)當英文字母作為變量名時,系統(tǒng)不區(qū)分大小寫字母。(5)SPSS有默認的變量名。當沒有為變量命名時,
6、會以字母“VAR”開頭,后面補足5位數(shù)字,如VAR00001、VAR00012等。1. 變量名稱變量類型說明數(shù)字標準的數(shù)值型,默認寬度為8位,小數(shù)位數(shù)為兩位。當寬度大于8位時,SPSS將自動按照科學(xué)計數(shù)法顯示變量值逗加逗號的數(shù)值型,從個位數(shù)開始每3位以一個逗號分隔,默認的列寬是8,小數(shù)位寬為2,逗號所占的位數(shù)包含在總位數(shù)之內(nèi),如5,432.23點加點的數(shù)值型,從個位數(shù)開始每3位以一個圓點分割,以逗號作為整數(shù)和小數(shù)部分的分隔符,默認列寬為8,小數(shù)位寬為2,如5.432,23科學(xué)計數(shù)法在數(shù)據(jù)編輯器窗口中以指數(shù)形式顯示。例如,150用科學(xué)計數(shù)法表示為1.5E+02,其中E表示以10為底,+02表示正
7、的2次方。又如,0.002用科學(xué)計數(shù)法表示為2.0E-03,-03表示負的3次方美元符號型表示貨幣數(shù)據(jù),其在數(shù)據(jù)前加符號“$”日期型用戶可從系統(tǒng)提供的多種日期顯示形式中選擇自己需要的形式。例如,mm/dd/yy形式,則2030年8月15日顯示為08/15/30字符型用戶可定義字符長度以便輸入字符。如職工號碼、姓名、地址等變量都可以定義為字符型變量。字符型變量的默認顯示寬度為8個字符,不能夠進行算術(shù)運算2. 變量類型變量標簽又叫變量名稱標簽,是對變量名稱含義的進一步解釋說明。變量標簽可長達120個字符,而變量名稱不能超過8個字符,當8個字符不足以表示變量的含義時,可利用變量標簽做詳細的說明。通常
8、如果當變量名稱已經(jīng)是中文,則變量標簽可省略。在SPSS數(shù)據(jù)編輯器的視圖窗口中,在【標簽】列相應(yīng)的位置單擊,可進行變量標簽的設(shè)置。3. 變量標簽4. 變量值標簽變量值標簽簡稱值,是對變量每一個可能取值的進一步描述,對定性變量尤為重要。在SPSS數(shù)據(jù)編輯器的視圖窗口中,在【值】列相應(yīng)的位置單擊,會彈出“值標簽”對話框,如圖2.2所示。在該對話框的【值(U)】文本框輸入變量值,在【標簽(L)】文本框輸入變量值標簽,并單擊【添加(A)】、【更改(C)】或者【除去(M)】按鈕。存在明顯錯誤的數(shù)據(jù)明顯不合理的數(shù)據(jù)或漏填的數(shù)據(jù)項在統(tǒng)計學(xué)上稱為缺失值或不完全數(shù)據(jù)。SPSS有兩類缺失值:系統(tǒng)缺失值和用戶缺失值。
9、在數(shù)據(jù)顯示欄中,任何空的數(shù)字單元都被認為是系統(tǒng)缺失值,數(shù)值型用圓點表示,字符型用空格表示。由特殊原因造成的信息缺失值,稱為用戶缺失值。在SPSS數(shù)據(jù)編輯器的視圖窗口中,在【缺失】列相應(yīng)的位置單擊,會彈出“缺失值”對話框。對于字符或定量變量,用戶缺失值可以是13個特定的離散值;對一個定量變量,用戶缺失值可以是一個連續(xù)的閉區(qū)間并同時附加一個區(qū)間以外的離散值。5. 缺失值6.測量測量即測量尺度,是對不同種類的數(shù)據(jù),依據(jù)變量尺度所劃分的類別。統(tǒng)計學(xué)依據(jù)測量尺度,將變量劃分為定性變量、定量變量、定序變量。在SPSS數(shù)據(jù)編輯器的視圖窗口中,在【測量】列相應(yīng)的位置單擊,會出現(xiàn)測量尺度定義下拉菜單,可以在該下
10、拉菜單下選擇合適的測量尺度。7. 角色變量角色是指變量在模型建立時所扮演的角色,變量角色不同,其作用也不同。模型建立時,有些變量用于解釋其他變量,稱為解釋變量或自變量,SPSS稱之為輸入變量,承擔(dān)“輸入”角色;有的變量是被其他變量解釋的,稱為被解釋變量或因變量,SPSS稱之為目標變量,承擔(dān)“目標”角色;在某些分析中,變量需要承擔(dān)雙重角色,既是輸入變量,又是輸出變量,SPSS稱之為“兩者”;有時候有的變量僅僅是一種標識,不會放入模型,記為“無”;有的變量用作樣本的劃分依據(jù),將樣本劃分為訓(xùn)練集、測試集和驗證集,記為“分區(qū)”;有的定性變量可作為數(shù)據(jù)的拆分依據(jù),將樣本集拆分為幾個部分,記為“拆分”。P
11、art 2.2SPSS數(shù)據(jù)文件的建立2.2.1 SPSS數(shù)據(jù)的錄入第一步:啟動SPSS時,在啟動對話框中選擇【新數(shù)據(jù)集】選項,打開一個空數(shù)據(jù)編輯器窗口;若數(shù)據(jù)編輯器窗口中已有數(shù)據(jù)集,但又需要建立新的數(shù)據(jù)文件,可以在菜單欄中選擇【文件(F)】【新建(N)】【數(shù)據(jù)(D)】,新建數(shù)據(jù)編輯器窗口“無標題2數(shù)據(jù)集1-IBM SPSS Statistics數(shù)據(jù)編輯器”。 第二步:單擊數(shù)據(jù)編輯器窗口左下角的【變量視圖】按鈕,切換到變量視圖窗口,根據(jù)要錄入的數(shù)據(jù)定義變量屬性。 2.2.1 SPSS數(shù)據(jù)的錄入第三步:在左下角單擊【數(shù)據(jù)視圖】按鈕,就可以直接在SPSS數(shù)據(jù)編輯器窗口里以電子表格的方式直接錄入數(shù)據(jù),
12、建立SPSS文件,錄入樣例如圖所示。在錄入時需要遵守相應(yīng)的格式要求,其基本原則為:在數(shù)據(jù)視圖窗口下,每一行代表一個個案的所有變量的取值;每一列代表一個變量的所有取值。2.2.1 SPSS數(shù)據(jù)的錄入第四步:在菜單欄中選擇【文件(F)】【另存為(A)】,會彈出“將數(shù)據(jù)另存為”對話框,如圖所示,在該對話框中選擇保存數(shù)據(jù)文件的位置;填寫數(shù)據(jù)文件的【文件名(N)】,如“公司信息.sav”;【保存類型(T)】選擇【SPSS Statistics(*.sav)】;單擊【保存(S)】按鈕,則完成建立SPSS默認的數(shù)據(jù)文件。2.2.1 SPSS數(shù)據(jù)的錄入2.2.2導(dǎo)入其他類型的數(shù)據(jù)文件1.使用Excel向?qū)ёx入
13、Excel文件 第一步:啟動SPSS,在菜單欄中選擇【文件(F)】【導(dǎo)入數(shù)據(jù)(D)】【Excel】,將彈出“打開數(shù)據(jù)”對話框,在該對話框中選擇數(shù)據(jù)所在的路徑,選擇文件“招聘數(shù)據(jù).xlsx”,如圖所示,單擊【打開(O)】。第二步:設(shè)置讀取Excel文件的格式,如圖所示;如果Excel工作表上第一行為變量名,則需要勾選【從第一行數(shù)據(jù)中讀取變量名稱】,單擊【確定】按鈕。這時候就完成了Excel文件的導(dǎo)入,但一般會根據(jù)實際情況在變量視圖窗口對變量定義進行調(diào)整。1.使用Excel向?qū)ёx入Excel文件 2.使用文本向?qū)?dǎo)入文本文件第一步:啟動SPSS,在菜單欄中選擇【文件(F)】【導(dǎo)入數(shù)據(jù)(D)】【文本
14、數(shù)據(jù)(T)】,將彈出“打開數(shù)據(jù)”對話框,根據(jù)數(shù)據(jù)所在的路徑,選擇文件“招聘數(shù)據(jù).txt”,如圖,并單擊【打開(O)】按鈕。第二步:在“文本導(dǎo)入向?qū)?第1/6步”對話框中,需要觀察文本文件與預(yù)定義的格式是否匹配,如果不匹配,則需要設(shè)置文本導(dǎo)入格式,如圖所示,單擊【下一步(N)】按鈕。2.使用文本向?qū)?dǎo)入文本文件第三步:在彈出的“文本導(dǎo)入向?qū)?第2/6步”對話框中,主要需要關(guān)注數(shù)據(jù)文件的第一行是否有變量名,如果有,則需要在【文件開頭是否包括變量名?】框內(nèi)勾選【是】,設(shè)置【包含變量名稱的行號(L)】為“1”,如圖所示,單擊【下一步(N)】按鈕。2.使用文本向?qū)?dǎo)入文本文件第四步:在彈出的“文本導(dǎo)入向
15、導(dǎo)-定界,第3/6步”對話框中,需要回答以下3個問題,第一,第一個數(shù)據(jù)個案從哪個行號開始;第二,個案的表示方式如何安排的,是一行一個個案還是一行多個個案,通常以第一種方式安排;第三,導(dǎo)入全部還是部分數(shù)據(jù)文件。從第2行開始,每一行表示一個個案,讀入全部數(shù)據(jù),如圖所示,單擊【下一步(N)】按鈕。2.使用文本向?qū)?dǎo)入文本文件2.使用文本向?qū)?dǎo)入文本文件第五步:在彈出的“文本導(dǎo)入向?qū)?定界,第4/6步”對話框中,指定文本文件中數(shù)據(jù)項之間的定界符,如圖所示,定界符可以是制表符、逗號、空格、分號或者其他符號,單擊【下一步(N)】按鈕。第六步:隨后出現(xiàn)的兩個對話框采用默認設(shè)置,主要用于指定各變量的變量名和類
16、型。到此為止,完成了對文本文件的導(dǎo)入操作。接下來,可以對導(dǎo)入的數(shù)據(jù)進行必要的加工或處理,并保存為SPSS格式文件。2.使用文本向?qū)?dǎo)入文本文件Part 2.3SPSS數(shù)據(jù)文件字段合并橫向合并(對接)樣本合并縱向合并(追加)SPSS數(shù)據(jù)合并【數(shù)據(jù)】【合并文件】【添加個案】【數(shù)據(jù)】【合并文件】【添加變量】2.3.1 字段合并字段合并的實質(zhì)是將兩個數(shù)據(jù)文件按照個案對應(yīng)進行左右對接,因此字段合并也叫橫向合并、變量合并。第一步:準備好需要合并的數(shù)據(jù)文件,注意要進行字段合并的兩個SPSS數(shù)據(jù)文件的個案數(shù)量必須完全一致。這兩個數(shù)據(jù)文件均有3922個個案,數(shù)據(jù)文件“公司信息.sav”有4個變量,包括公司編號、
17、地區(qū)、公司性質(zhì)、公司規(guī)模,如圖2.17所示;數(shù)據(jù)文件“招聘信息.sav”有7個變量,包括公司編號、崗位名稱、最低薪資、最高薪資、經(jīng)驗要求、學(xué)歷要求、招聘人數(shù),如圖所示。2.3.1 字段合并第二步:打開數(shù)據(jù)文件“公司信息.sav”,如圖所示,在菜單欄中選擇【數(shù)據(jù)(D)】【合并文件(G)】【添加變量(V)】。2.3.1 字段合并第三步:在彈出的“變量添加至 公司信息.sav數(shù)據(jù)集1”對話框中,選擇需要新增變量的數(shù)據(jù)文件,即選擇數(shù)據(jù)文件“招聘信息.sav數(shù)據(jù)集2”,如圖所示,單擊【繼續(xù)(C)】按鈕。2.3.1 字段合并第四步:在彈出的“變量添加自 數(shù)據(jù)集2”對話框中設(shè)置合并方式。合并方法有以下3種,
18、【基于文件順序的一對一合并(O)】是按照文件順序依次合并;【基于鍵值的一對一合并(N)】是以“鍵變量”形式進行一對一合并;【基于鍵值的一對多合并(M)】是以“鍵變量”形式進行一對多合并。此案例中,兩個數(shù)據(jù)文件有一個共同變量公司編號,因此,選擇第二種合并方法,如圖所示,單擊【確定】按鈕。第五步:文件確認,數(shù)據(jù)文件“公司信息.sav”在原數(shù)據(jù)文件的基礎(chǔ)上新增了崗位名稱、最低薪資、最高薪資、經(jīng)驗要求、學(xué)歷要求、招聘人數(shù)6個變量,完成了數(shù)據(jù)的字段合并,如圖所示。2.3.1 字段合并2.3.2 個案合并個案合并的實質(zhì)是將兩個數(shù)據(jù)文件按照變量對應(yīng)進行上下對接,因此也叫縱向合并、記錄合并。第一步:準備好需要
19、合并的數(shù)據(jù)文件,注意,個案合并的SPSS數(shù)據(jù)文件的變量數(shù)量必須完全一致。兩個數(shù)據(jù)文件均包含9個變量,如圖所示。第二步:在菜單欄中選擇【數(shù)據(jù)(D)】【合并文件(G)】【添加個案(C)】,如圖所示。2.3.2 個案合并第三步:在彈出的“添加個案至 本科.sav數(shù)據(jù)集2”對話框中,選擇需要合并的文件,選擇文件“大專.sav數(shù)據(jù)集3” ,如圖所示,單擊【繼續(xù)(C)】按鈕。如果待合并的數(shù)據(jù)文件尚未讀入SPSS中,則選擇【外部SPSS Statistics數(shù)據(jù)文件】進行設(shè)置。2.3.2 個案合并2.3.2 個案合并第四步:在彈出的“添加個案自 數(shù)據(jù)集3”對話框中,【新的活動數(shù)據(jù)集中的變量(V)】框內(nèi)會顯示
20、兩個數(shù)據(jù)文件中的同名變量,SPSS默認它們具有相同的數(shù)據(jù)含義,并將它們作為合并后新數(shù)據(jù)文件中的變量。如果不接受這種默認,可以按箭頭按鈕將它們移至【非成對變量(V)】框內(nèi)。此處采用默認設(shè)置,如圖所示,單擊【確定】按鈕,完成數(shù)據(jù)的個案合并。2.3.2 個案合并第五步:數(shù)據(jù)編輯器里已經(jīng)將所有本科及大專招聘數(shù)據(jù),文件合并完成,如圖所示.Part 2.4SPSS數(shù)據(jù)拆分2.4.1 拆分文件拆分文件的具體操作步驟如下。第一步:在SPSS菜單欄中選擇【數(shù)據(jù)(D)】【拆分文件(F)】,彈出“拆分文件”對話框。第二步:在“拆分文件”對話框中,選擇拆分變量到【分組依據(jù)(G)】框內(nèi),文件拆分后會使后面的分組統(tǒng)計產(chǎn)生
21、不同格式的結(jié)果。其中【分析所有個案,不創(chuàng)建組(A)】實際上并未實現(xiàn)拆分文件;【比較組(C)】將分組統(tǒng)計結(jié)果輸出到同一張表格里,方便不同組之間進行對比;【按組來組織輸出】將分組統(tǒng)計結(jié)果分別輸出到不同的表格中,通常選擇【比較組(C)】。第三步:如果數(shù)據(jù)編輯器窗口中的數(shù)據(jù)已經(jīng)事先按指定的拆分變量進行排序,則選擇【文件已排序(F)】,可提高拆分效率;否則選擇【將分組變量進行文件排序(S)】。此處以“學(xué)歷要求”為分組依據(jù),以比較組的形式進行結(jié)果展示,如圖所示。2.4.1 拆分文件 第四步:拆分文件完成后,再對數(shù)據(jù)進行基本分析時,結(jié)果將根據(jù)第三步的分組依據(jù)進行展示。如圖所示,此處按照“學(xué)歷要求”分組展示了
22、招聘地區(qū)的頻率分布。2.4.1 拆分文件2.4.2 拆分為文件拆分為文件的具體操作步驟如下。第一步:在SPSS菜單欄中選擇【數(shù)據(jù)(D)】【拆分為文件】,彈出“將數(shù)據(jù)集拆分為單獨的文件”對話框,如圖所示。2.4.2 拆分為文件第二步:在“將數(shù)據(jù)集拆分為單獨的文件”對話框中,選擇拆分依據(jù),此處選擇定性變量“學(xué)歷要求”進行數(shù)據(jù)拆分,單擊【確定】按鈕。第三步:打開計算機本地文件夾,可以發(fā)現(xiàn)已經(jīng)依據(jù)“學(xué)歷要求”將數(shù)據(jù)文件“網(wǎng)絡(luò)招聘數(shù)據(jù).sav”拆分為兩個文件“本科.sav”和“大專.sav”,如圖所示。THANKS第 3 章 SPSS數(shù)據(jù)預(yù)處理1.熟練掌握數(shù)據(jù)排序、變量計算的具體操作步驟。2.熟練掌握數(shù)
23、據(jù)去重的方法和具體操作步驟。 3.熟練掌握重新編碼的具體操作步驟。4.了解各種數(shù)據(jù)分組的特點和適用場合,并掌握組距分組的具體操作步驟。5.熟練掌握數(shù)據(jù)選取的方法和具體操作步驟。學(xué)習(xí)目標Part 3.1SPSS數(shù)據(jù)排序SPSS數(shù)據(jù)排序 數(shù)據(jù)排序概念:通常數(shù)據(jù)編輯器窗口中個案的前后次序是由數(shù)據(jù)錄入的先后順序決定的。數(shù)據(jù)預(yù)處理中,有時需要將數(shù)據(jù)按照一定的順序重新排列。例如職工可按基本工資從低到高的順序,或者按職稱從高到低的順序重新排列。 數(shù)據(jù)排序作用:數(shù)據(jù)排序便于數(shù)據(jù)的瀏覽快速找到數(shù)據(jù)的最大值和最小值通過數(shù)據(jù)排序能夠快速發(fā)現(xiàn)數(shù)據(jù)中可能異常的值SPSS數(shù)據(jù)排序 數(shù)據(jù)排序應(yīng)用舉例:根據(jù)大學(xué)生戀愛數(shù)據(jù),按
24、“年級”和“每月話費”信息對此數(shù)據(jù)集進行升序排序。通過數(shù)據(jù)升序結(jié)果分析大學(xué)生戀愛情況。 基本操作步驟:第一步:選擇【數(shù)據(jù)(D)】【個案排序】。第二步:指定主排序變量到【排序依據(jù)】框中,并選擇【排列順序】框中的選項指出該變量是按升序還是降序排列。第三步:如果是多重排序,還要依次指定第二、第三排序變量及相應(yīng)的排序規(guī)則。否則,本步可略。本例為多重排序,窗口如右圖所示。Part 3.2SPSS數(shù)據(jù)去重SPSS數(shù)據(jù)去重 數(shù)據(jù)去重概念:通常在分析數(shù)據(jù)中不應(yīng)該出現(xiàn)關(guān)鍵變量相同的個案,對重復(fù)的個案需要剔除。導(dǎo)致出現(xiàn)重復(fù)個案的主要原因可能是由于數(shù)據(jù)錄入時的疏忽或不合理的數(shù)據(jù)編碼等造成。 數(shù)據(jù)去重方法:當數(shù)據(jù)量較
25、大時,需要自動查找其中的重復(fù)個案。SPSS自動查找重復(fù)個案的主要方法是排序。它首先按照用戶指定的關(guān)鍵變量對所有個案排序,關(guān)鍵變量值相同的個案將被排在一起;在相同關(guān)鍵變量值的重復(fù)個案中,正確的個案應(yīng)保留下來,還需用戶指定重復(fù)變量的排序變量,并依其進行升序或降序的排序。同時給出有關(guān)重復(fù)個案的統(tǒng)計結(jié)果。SPSS數(shù)據(jù)去重 基本操作步驟: 第一步:【數(shù)據(jù)】【標識重復(fù)個案】; 第二步:指定關(guān)鍵變量到【定義匹配個案的依據(jù)(D)】框中,這里指定ID;指定對重復(fù)個案的排序變量到【匹配組內(nèi)的排序依據(jù)(O)】框中,這里指定為學(xué)生組織個數(shù),且默認對重復(fù)個案按升序排序; 第三步:勾選【連續(xù)計算每個組合中的匹配個案】,表
26、示默認生成一個名為“匹配順序”的變量,變量取0表示該個案為非重復(fù)個案,取1,2,3等表示為第1,第2,第3個重復(fù)個案。SPSS實現(xiàn)標識重復(fù)個案應(yīng)用舉例Part 3.3SPSS數(shù)據(jù)變量計算SPSS數(shù)據(jù)變量計算 數(shù)據(jù)變量計算概念:變量計算就是根據(jù)用戶的要求使用SPSS算術(shù)表達式及SPSS函數(shù),對所有個案或滿足SPSS條件表達式的個案,計算出新結(jié)果并存入指定變量。這個指定的變量可以是一個新變量,也可以是原有已經(jīng)存在的變量。 數(shù)據(jù)變量計算目的:派生新變量變換數(shù)據(jù)的原有分布SPSS數(shù)據(jù)變量計算 SPSS算術(shù)表達式:SPSS算術(shù)表達式是由常量、變量、算術(shù)運算符、圓括號、函數(shù)等組成的式子。字符串型常量應(yīng)當用
27、英文引號引起來變量是指那些存在于數(shù)據(jù)編輯器窗口中的已有變量算術(shù)運算符主要包括(加)、(減)、*(乘)、/(除)、*(乘方)。 SPSS條件表達式:條件表達式是對條件進行判斷的式子。其結(jié)果有兩種取值:若判斷條件成立,則結(jié)果為真;若判斷條件不成立,則結(jié)果為假。簡單條件表達式:(大于)、(大于等于)、輸出變量(V)】框中。這里選擇成績水平。第三步:在【輸出變量】框中的【名稱(N)】后輸入存放分組結(jié)果的變量名,并點擊【變化量(H)】按鈕確認,這里的變量名改為成績水平等級。SPSS數(shù)據(jù)分組 第四步:點擊【舊值和新值(O)】按鈕定義分組區(qū)間,定義好分組區(qū)間后,點擊【繼續(xù)(C)】;第五步:點擊【確定】。Pa
28、rt 3.6SPSS數(shù)據(jù)選取SPSS數(shù)據(jù)選取 數(shù)據(jù)選取概念:數(shù)據(jù)選取就是根據(jù)分析需要,從已收集到的大批量數(shù)據(jù)(總體)中按照一定的規(guī)則抽取部分數(shù)據(jù)(樣本)參與分析。 數(shù)據(jù)選取目的:數(shù)據(jù)選取在數(shù)據(jù)分析過程中很普遍,其目的也是服務(wù)于以后的數(shù)據(jù)分析。提高數(shù)據(jù)分析效率;檢驗?zāi)P?。SPSS數(shù)據(jù)選取 數(shù)據(jù)選取方法:SPSS提供了以下幾種數(shù)據(jù)選取方法。按指定條件選取;即選取符合條件的數(shù)據(jù),SPSS要求用戶以條件表達式的形式給出數(shù)據(jù)選取的條件。SPSS將自動對數(shù)據(jù)編輯器窗口中的所有個案進行條件判斷。對那些滿足條件的個案,即條件判斷為真的個案將被自動選取出來,條件判斷為假的個案則不被選中。SPSS數(shù)據(jù)選取隨機選取
29、:對數(shù)據(jù)編輯器窗口中的所有個案進行隨機篩選,包括兩種方式:近似選?。航七x取要求用戶給出一個百分比數(shù)值。SPSS軟件將按照這個比例自動從數(shù)據(jù)編輯器窗口中隨機抽取出相應(yīng)百分比數(shù)目的個案。由于SPSS在樣本選取方面的技術(shù)特點,抽取出的個案總數(shù)不一定恰好精確等于用戶指定的百分比數(shù)目,會有小的偏差,因而稱為近似選取。這種樣本量的偏差通常不會對數(shù)據(jù)分析產(chǎn)生重大影響。這里的隨機是根據(jù)SPSS隨機數(shù)種子發(fā)生器設(shè)計和實現(xiàn)的。隨機數(shù)種子設(shè)置的菜單是: 【轉(zhuǎn)換(T)】【隨機數(shù)字生成器(G)】,【固定值(F)】表示隨機 數(shù)種子為一個具體的正整數(shù)(該整數(shù)應(yīng)小于等于2000000), 一般用于隨機化結(jié)果需要重現(xiàn)的情況;
30、【隨機(N)】表示隨機數(shù) 種子每次自動取一個新的值,是SPSS默認的選項,這樣隨機化 結(jié)果將不會重現(xiàn)。SPSS數(shù)據(jù)選取精確選?。壕_抽樣要求用戶給出兩個參數(shù):第一個參數(shù)是選取的個案數(shù);第二個參數(shù)是指定在前多少個案中選取。SPSS軟件會自動在數(shù)據(jù)編輯器窗口的前若干個個案中隨機精確地抽出相應(yīng)個數(shù)的個案。SPSS數(shù)據(jù)選取 選取某一區(qū)域內(nèi)的樣本:即選取數(shù)據(jù)編輯器窗口中的樣本號范圍內(nèi)的所有個案,要求給出這個范圍的上下限個案號碼。這種選取方法通常適用于時間序列數(shù)據(jù)。SPSS數(shù)據(jù)選取通過篩選器變量選取:根據(jù)篩選器變量的取值進行選取。要求指定一個變量作為篩選器變量,變量值為非0或非系統(tǒng)缺失值的個案將被選中。這
31、種方法通常用于排除包含系統(tǒng)缺失值的個案。SPSS數(shù)據(jù)選取 數(shù)據(jù)選取應(yīng)用舉例:下面案例為某美國銀行雇員的基本信息,包括性別、年齡、教育程度、工資、工作時長等10個變量信息。 根據(jù)數(shù)據(jù)集中的變量信息,希望僅對具有受教育程度大于15年的雇員情況進行分析,采用按指定條件方法進行選取,通過數(shù)據(jù)選取分析雇員基本情況。 SPSS數(shù)據(jù)選取的基本操作步驟如下:第一步:【數(shù)據(jù)(D)】【選擇個案】;第二步:在【選擇】框中指定選取方法。【全部個案(A)】表示全部選中。本案例采用按指定條件選取,應(yīng)選擇【如果條件滿足(C)】項;第三步:指定對未選中個案的處理方式。數(shù)據(jù)預(yù)處理總述THANKS第4章 描述分析1.熟悉描述分析
32、的概念。 2.掌握單變量常用的描述分析方法及其 SPSS 實現(xiàn)。 3.掌握雙變量常用的描述分析方法及其 SPSS 實現(xiàn)。學(xué)習(xí)目標引導(dǎo)案例近年來,數(shù)據(jù)分析相關(guān)崗位大幅度增加,為了研究該崗位的需求情況,從招聘網(wǎng)站上獲 取了 2019 年 3 月上半月的上海、廣州、深圳、北京等 9 個城市的數(shù)據(jù)分析相關(guān)崗位的網(wǎng)絡(luò)招 聘數(shù)據(jù),包含“崗位名稱”“最低薪資”“最高薪資”“招聘地區(qū)”“經(jīng)驗要求”“學(xué)歷要求”“招聘人數(shù)”“公司性質(zhì)”“公司規(guī)模”和“平均薪資”10個變量,共3922個樣本。在此基礎(chǔ)上分析變量的分布情況及變量之間的關(guān)系,揭示影響薪資的主要因素。數(shù)據(jù)文件為“網(wǎng)絡(luò)招聘 數(shù)據(jù).sav”,部分數(shù)據(jù)如圖 4
33、.1 所示。Part 4.1定性變量的描述分析頻數(shù)分布表統(tǒng)計圖形單變量的描述分析頻數(shù):變量值落在某個類別中的次數(shù)百分比:各頻數(shù)占樣本量的百分比有效百分比:各頻數(shù)占有效樣本量的百分比累計百分比:各百分比逐級累加起來的結(jié)果,最終取值為100%4.1.1 定性變量的描述分析 1.頻數(shù)分布表 (1)柱形圖或條形圖 柱形圖或條形圖是用寬度相同的條形的高度或長短來表示頻數(shù)或頻率變化分布的圖形。一般而言,長方形橫置的圖稱為條形圖;長方形豎置的圖稱為柱形圖。柱形圖和條形圖沒有什么本質(zhì)的區(qū)別,只是展示方式不同。2. 統(tǒng)計圖形(2)餅圖 餅圖是用每個扇形代表每個分組的頻率。餅圖在商業(yè)研究中使用廣泛,尤其適合描述市
34、場份額、時間及資源的分配等。圖為餅圖示例。2. 統(tǒng)計圖形3. 頻數(shù)分布的SPSS實現(xiàn)基于引導(dǎo)案例,利用SPSS對招聘數(shù)據(jù)中的定性變量“招聘地區(qū)”進行分析與解讀。SPSS頻數(shù)分布的基本操作步驟如下。第一步:在SPSS中打開數(shù)據(jù)文件“網(wǎng)絡(luò)招聘數(shù)據(jù).sav”。第二步:在菜單欄中選擇【分析(A)】【描述統(tǒng)計(E)】【頻率(F)】,彈出“頻率”對話框,在該對話框左下角勾選【顯示頻率表(D)】。第三步:選擇要分析的一個或多個變量到【變量(V)】框里,如圖所示,這里選擇的定性變量“招聘地區(qū)”。3. 頻數(shù)分布的SPSS實現(xiàn)3. 頻數(shù)分布的SPSS實現(xiàn)第四步:單擊【圖表(C)】按鈕選擇要繪制的統(tǒng)計圖,彈出“頻率
35、:圖表”對話框,在該對話框可進行【圖表類型】和【圖表值】的選擇?!緢D表類型】可選擇無圖形、條形圖、餅圖或直方圖?!緢D表值】框中的信息表示圖形坐標含義,可選擇頻數(shù)或百分比。此處選擇【條形圖(B)】和【頻率(F)】,如圖所示。3. 頻數(shù)分布的SPSS實現(xiàn)第五步:為了方便對輸出結(jié)果的解讀,可以單擊【格式(F)】按鈕設(shè)置排序方式,如果選擇【按值的升序排序(A)】或者【按值的降序排序(D)】,則頻數(shù)分布表將按照個案值的升序或者降序排列;如果選擇【按計數(shù)的升序排序(E)】或者【按計數(shù)的降序排序(N)】,則頻數(shù)分布表將按照各個類別的頻數(shù)值進行升序或者降序排列。這里選擇【按計數(shù)的降序排序(N)】,如圖所示。3
36、. 頻數(shù)分布的SPSS實現(xiàn)第六步:在SPSS中可以通過圖表編輯器對圖表進行美化編輯,在SPSS結(jié)果查看器窗口雙擊SPSS輸出的圖形,就可以啟動圖表編輯器,如圖所示。3. 頻數(shù)分布的SPSS實現(xiàn)第七步:在圖表編輯器窗口中,可通過雙擊圖形激活圖表的“屬性”對話框,如圖所示。在屬性框里可以對圖表大小、填充與邊框、類別等屬性進行調(diào)整。3. 頻數(shù)分布的SPSS實現(xiàn)地區(qū)頻率百分比有效百分比累積百分比有效上海106627.1827.1827.18廣州69517.7217.7244.9深圳64016.3216.3261.22北京52013.2613.2674.48杭州3047.757.7582.23南京222
37、5.665.6687.89武漢1914.874.8792.76成都1754.464.4697.22西安1092.782.78100總計3922100100第八步:解讀SPSS頻數(shù)分布結(jié)果。從表可以看出,SPSS輸出的招聘地區(qū)頻率分布表有6列,第1列顯示了數(shù)據(jù)的有效樣本量,第2列是該變量的各個水平,第3列為每個水平的頻數(shù),第4列為各水平在總體中的百分比,第5列為有效樣本的百分比,第6列為累計百分比。該數(shù)據(jù)全為有效樣本,樣本量為3922份。招聘地區(qū)的分布狀況是:上海、廣州、深圳、北京招聘信息量較多,頻數(shù)分別為1066、695、640、520,累計百分比達到74.5%;杭州、南京、武漢、成都次之,頻
38、數(shù)分別為304、222、191、175;西安招聘信息量最少,頻數(shù)為109,僅占2.8%。4.1.2定量變量的描述分析1. 基本描述統(tǒng)計量常用的基本描述統(tǒng)計量主要可以分為表示集中趨勢的統(tǒng)計量、表示離散程度的統(tǒng)計量、表示分布形態(tài)的統(tǒng)計量和其他常用的統(tǒng)計量,如圖所示。均值中位數(shù)眾數(shù)集中趨勢的最常用測度值體現(xiàn)了數(shù)據(jù)的必然性特征易受極端值的影響簡單平均數(shù)、加權(quán)平均數(shù)排序后處于中間位置上的值不受極端值的影響主要用于有序變量,也可用數(shù)值變量,但不能用于分類變量一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值適合于數(shù)據(jù)量較多時使用不受極端值的影響一組數(shù)據(jù)可能沒有眾數(shù)或有幾個眾數(shù)主要用于分類數(shù)據(jù),也可用于有序數(shù)據(jù)和數(shù)值數(shù)據(jù)集中趨
39、勢4.1.2定量變量的描述分析極差方差和標準差Z標準化得分離散程度的度量一組數(shù)據(jù)的最大值與最小值之差也叫全距離散程度的最簡單測度值易受極端值影響四分位差上四分位數(shù)與下四分位數(shù)之差也稱為內(nèi)距或四分間距反映了中間50%數(shù)據(jù)的離散程度不受極端值的影響數(shù)據(jù)離散程度的最常用測度值反映了各變量值與均值的平均差異也稱標準化值對某一個值在一組數(shù)據(jù)中相對位置的度量可用于判斷一組數(shù)據(jù)是否有離群點4.1.2定量變量的描述分析分布形態(tài)度量偏態(tài)系數(shù)=0為對稱分布偏態(tài)系數(shù) 0為右偏(正偏)偏態(tài)系數(shù) 0為左偏(負偏)峰態(tài)系數(shù)=0扁平峰度適中峰態(tài)系數(shù)0為尖峰分布直方圖是頻數(shù)直方圖的簡稱,用來反映連續(xù)型變量的頻數(shù)分布。它是用一
40、系列寬度相等、高度不等的長方形表示數(shù)據(jù)的圖。長方形的寬度表示數(shù)據(jù)范圍的間隔,長方形的高度表示在給定間隔內(nèi)的頻數(shù)。 2. 統(tǒng)計圖形集中趨勢、離散程度、分布形態(tài) 陡坡型(1)陡坡型:往往是數(shù)據(jù)源缺失,或者被剔除一部分后,造成斷崖式的折斷。用戶可以適當?shù)卣{(diào)整組數(shù),或者利用對數(shù)變換,再做出對數(shù)直方圖。(2)雙峰型:直方圖的圖形出現(xiàn)了兩個高峰。雙峰直方圖的數(shù)據(jù)來自兩個總體,一般是混合了多種數(shù)據(jù)源或者類別數(shù)據(jù)造成的。“奇葩”直方圖雙峰型鋸齒型孤島型(3)鋸齒型:直方圖內(nèi)出現(xiàn)高度參差不齊,但整體圖形保持了中間高、兩邊低、兩邊基本對稱的形狀。一般是由于做直方圖時,分組過多或者測量儀器誤差造成的。(4)孤島型:
41、在遠離主分布的地方出現(xiàn)小的直方圖,猶如孤島,一般是業(yè)務(wù)上的非異常因素在起作用,比如工程零部件出了問題、產(chǎn)品出現(xiàn)了某Bug等,是很值得關(guān)注的現(xiàn)象?!捌孑狻敝狈綀D3. 基本描述統(tǒng)計量的SPSS實現(xiàn)(1)基本描述統(tǒng)計量的計算SPSS基本描述統(tǒng)計量的計算步驟如下。第一步:在SPSS菜單欄中選擇【分析(F)】【描述統(tǒng)計(E)】【描述(D)】,彈出“描述”對話框。第二步:在“描述”對話框中選擇需要計算其基本統(tǒng)計量的變量到【變量(V)】中,此處選擇的是“平均薪資”,如圖所示。第三步:在“描述”對話框中,單擊【選項(O)】按鈕,彈出“描述:選項”對話框,在該對話框中指定計算表示集中趨勢、離散程度、分布形態(tài)的基
42、本描述統(tǒng)計量,同時,可以設(shè)置【顯示順序】。勾選【平均值(M)】【標準差(I)】【最小值(N)】【最大值(X)】【峰度(K)】【偏度(W)】,并選擇【變量列表(B)】,如圖所示。3. 基本描述統(tǒng)計量的SPSS實現(xiàn)3. 基本描述統(tǒng)計量的SPSS實現(xiàn)第四步:如果需要對數(shù)據(jù)進行標準化處理,勾選“描述”到家了中左下角的【將標準化值另存為變量(Z)】,將會在SPSS數(shù)據(jù)編輯器窗口保留標準化后的新變量。此處選擇對“平均薪資”進行標準化處理并保存標準化值,如圖所示。第五步:解讀SPSS描述統(tǒng)計量的計算結(jié)果。平均值最小值最大值均值標準差偏度峰度統(tǒng)計統(tǒng)計統(tǒng)計統(tǒng)計統(tǒng)計統(tǒng)計標準 錯誤統(tǒng)計標準 錯誤平均薪資3922.2
43、015.831.5359.968632.996.03926.025.078有效個案數(shù)(成列)39223. 基本描述統(tǒng)計量的SPSS實現(xiàn)第一種:圖表構(gòu)建器,較多的圖表構(gòu)建方法。第二種:圖形畫板模板選擇器,當不知道數(shù)據(jù)應(yīng)該用哪種圖表來呈現(xiàn)時,所提供了一種輔助圖表選擇功能。第三種:舊對話框,這是延續(xù)老版本傳統(tǒng)的模式。(2)統(tǒng)計圖形描述第一步:在SPSS圖表構(gòu)建器中,點擊左下角的“直方圖”,在右側(cè)預(yù)覽窗口將會出現(xiàn)4種圖形,如圖所示,然后選擇簡單直方圖樣式拖入右上角圖空白區(qū)域。直方圖第二步:設(shè)置圖表坐標變量,直方圖只需要設(shè)置X軸,然后選擇變量“平均薪資”并拖拽到X軸,點擊【確定】按鈕,如圖所示。直方圖第
44、三步:這時,在SPSS查看器窗口會輸出直方圖,雙擊圖形會啟動圖表編輯器窗口,如圖所示,在此窗口可以對圖標的字體、字號、顏色、刻度等進行美化編輯。直方圖Part 4.2雙變量的描述分析箱線圖是由數(shù)據(jù)的最大值、最小值、中位數(shù)、上下四分位數(shù)這5個值繪制而成的;主要展示了數(shù)據(jù)分布的特征、分布是否對稱、是否存在離群點等。 1. 定量變量與定性變量的圖形描述分組箱線圖定量變量與定性變量的圖形描述一般選擇分組箱線圖來展示。 4.2.1 定量變量與定性變量的描述分析“異?!毕渚€圖常見的原因:第一,樣本數(shù)據(jù)中存在異常值,這種離群的表現(xiàn)導(dǎo)致箱子整體被壓縮,凸顯出異?,F(xiàn)象;第二,樣本數(shù)據(jù)特別少,箱體受單個數(shù)據(jù)的影響
45、被放大。“異?!毕渚€圖第一步:在SPSS圖表構(gòu)建器中,在“圖庫”下選擇“箱圖”,這時候圖庫右側(cè)預(yù)覽窗口會出現(xiàn)三個箱線圖,分別為簡單框圖、復(fù)式箱線圖、1-D框,如圖所示。2. 定量變量與定性變量的描述分析SPSS應(yīng)用舉例第二步:設(shè)置圖表坐標軸,將分類變量拖到X軸上,數(shù)值變量拖到Y(jié)軸。在此將“對數(shù)平均薪資”拖到Y(jié)軸上,“招聘地區(qū)”拖到X軸上,如圖所示,點擊【確定】按鈕。2. 定量變量與定性變量的描述分析SPSS應(yīng)用舉例第三步:解讀SPSS箱線圖結(jié)果。從圖可看出,招聘地區(qū)對薪資有明顯影響,對數(shù)平均薪資可以劃分為3個梯隊,各個梯隊中對數(shù)平均薪資分布較為集中。第一梯隊包括上海、北京、深圳、杭州;第二梯隊
46、包括廣州、南京、武漢、西安;第三梯隊包括成都。2. 定量變量與定性變量的描述分析SPSS應(yīng)用舉例散點圖將定量變量的觀測值繪制在二維平面上 判斷定量變量之間的相關(guān)關(guān)系: 相關(guān)方向:正相關(guān)、負相關(guān);相關(guān)形態(tài):線性相關(guān)、非線形相關(guān); 相關(guān)關(guān)系的密切程度:強相關(guān),弱相關(guān),基本不相關(guān) (a)正相關(guān) (b)負相關(guān) (c)無相關(guān)4.2.2 雙定量變量的描述分析兩個定量變量之間的關(guān)系一般使用散點圖進行圖形描述。 第一步:在SPSS圖表構(gòu)建器中,在“圖庫”下選擇散點圖到圖表預(yù)覽窗口,在散點圖預(yù)覽窗口會出現(xiàn)9種散點圖,如圖所示2. 雙定量變量的描述分析SPSS應(yīng)用舉例第二步:設(shè)置圖表坐標軸。分別選擇兩數(shù)值變量到X
47、軸、Y軸,如圖所示,然后點擊“確定”。4.2.2 雙定量變量的描述分析4.2.2 雙定量變量的描述分析第三步:解讀SPSS散點圖結(jié)果。圖為招聘人數(shù)與對數(shù)平均薪資散點圖,從這個散點圖可以看出,招聘人數(shù)與薪資的關(guān)系并不明顯。很大原因是“招聘人數(shù)”雖然是定量變量,但是只取到有限個數(shù)值。因此可將招聘人數(shù)離散化處理后,分析不同的招聘人數(shù)區(qū)間與薪資的關(guān)系。4.2.3 雙定性變量的描述分析有兩種或以上的數(shù)據(jù)組成的條形統(tǒng)計圖叫作復(fù)式條形統(tǒng)計圖。復(fù)式條形圖重點呈現(xiàn)多個分類變量中各個類別組合情況下的頻數(shù)對比。(1)復(fù)式條形圖 主要突出一個分類變量中各類別的頻數(shù),并在此基礎(chǔ)上表現(xiàn)多個類別的組合頻數(shù)情況。堆積條形圖百
48、分比堆積條形圖:由直條內(nèi)各部分面積大小來表示各分類的百分比占比,直條高度為100%。百分比堆積條形圖第一步:打開圖表構(gòu)建器,點擊“條形圖”,會出現(xiàn)8種圖形;選擇第3個圖形堆積條形圖拖拽到圖表右上角空白區(qū)域。2. 雙定性變量的描述分析SPSS應(yīng)用舉例第二步:設(shè)置圖表坐標軸,選擇一個定性變量到X軸,將另一定性變量設(shè)置為堆積顏色。此處選擇“公司性質(zhì)”到X軸,并將“學(xué)歷要求”設(shè)置為堆積顏色,如圖所示。2. 雙定性變量的描述分析SPSS應(yīng)用舉例第三步:設(shè)置元素屬性,在右側(cè)的【元素屬性】框內(nèi)選擇【條形圖1】,并將【統(tǒng)計】框內(nèi)的【計數(shù)】更改為【百分比()】,如圖所示。 2. 雙定性變量的描述分析SPSS應(yīng)用
49、舉例第四步:對【百分比()】的參數(shù)進行設(shè)置,單擊【百分比()】框下的【設(shè)置參數(shù)(M)】,彈出“元素屬性:集合參數(shù)”對話框,選擇【用于計算百分比的分母】框內(nèi)的【每個X軸類別的總計】,如圖所示,單擊【確定】按鈕,完成馬賽克圖的繪制。2. 雙定性變量的描述分析SPSS應(yīng)用舉例第五步:解讀馬賽克圖結(jié)果。從圖4.47可以看出,公司性質(zhì)對學(xué)歷要求有明顯影響,相對而言,在大專學(xué)歷中民營公司的需求比例最高;在本科學(xué)歷中國企的需求比例最高。2. 雙定性變量的描述分析SPSS應(yīng)用舉例Part 4.3數(shù)據(jù)分析報告數(shù)據(jù)分析相關(guān)崗位的薪資影響因素分析報告目錄CONTENTS背景介紹一數(shù)據(jù)說明二描述分析三總結(jié)三 背景介紹
50、1政策維度國家部委和地方各級政府的政策環(huán)境持續(xù)優(yōu)化2015-2019年國家層面出臺大數(shù)據(jù)政策36個,省級層面出臺大數(shù)據(jù)政策200個。2015年2017年2018年地方各級政府陸續(xù)成立大數(shù)據(jù)局,著手體制機制建設(shè)國務(wù)院各部委和各級地方政府積極出臺大數(shù)據(jù)相關(guān)政策大數(shù)據(jù)上升為國家戰(zhàn)略2015-2018年省級大數(shù)據(jù)管理機構(gòu)重要時間節(jié)點吉林省政務(wù)服務(wù)和數(shù)字化建設(shè)局北京市大數(shù)據(jù)管理局天津市大數(shù)據(jù)管理中心山東省大數(shù)據(jù)局河南省大數(shù)據(jù)管理局安徽省數(shù)據(jù)資源管理局上海市大數(shù)據(jù)中心數(shù)字福建建設(shè)領(lǐng)導(dǎo)小組辦公室廣西壯族自治區(qū)大數(shù)據(jù)發(fā)展局陜西省政務(wù)數(shù)據(jù)服務(wù)局重慶市大數(shù)據(jù)發(fā)展局內(nèi)蒙古自治區(qū)大數(shù)據(jù)發(fā)展管理局貴州省大數(shù)據(jù)發(fā)展管理局
51、浙江省數(shù)據(jù)管理中心1.背景介紹產(chǎn)業(yè)維度市場需求和相關(guān)技術(shù)進步驅(qū)動未來大數(shù)據(jù)產(chǎn)業(yè)增長2018年中國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模達4384.5億元,預(yù)計2021年8070.6億元,5年復(fù)合增長率達23.2%。產(chǎn)業(yè)政策 34%資本 25%市場需求 18%相關(guān)技術(shù)進步 14%數(shù)據(jù)資源 6%人才 3% 15%13%28%21%13%10%2016-2018年2019-2021年2016年2840.8億元2018年4384.5億元2021年8070.6億元復(fù)合增長率 23.2%2016-2021年中國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模增長空間5230億元數(shù)據(jù)來源:賽迪顧問,2019背景介紹人才緯度大數(shù)據(jù)核心人才缺口大,人才培育倍受關(guān)注大數(shù)
52、據(jù)人才主要包括從事大數(shù)據(jù)企業(yè)研發(fā)、分析工作的專業(yè)型人才,或擁有行業(yè)背景兼具大數(shù)據(jù)技能的復(fù)合型人才。專業(yè)技能AB專業(yè)性人才復(fù)合型人才+行業(yè)背景行業(yè)背景主要崗位專業(yè)技能大數(shù)據(jù)云計算人工智能物聯(lián)網(wǎng)金融 政府 能源 醫(yī)療建筑 研發(fā)數(shù)據(jù)分析技術(shù)支持產(chǎn)品運營編程統(tǒng)計分析大數(shù)據(jù)人才2015Q1-2019Q2全國大數(shù)據(jù)人才需求增長趨勢全國大數(shù)據(jù)人才需求趨勢:呈快速增長態(tài)勢,今年約為 4 年前的 12 倍 數(shù)據(jù)來源:賽迪顧問,2019.背景介紹在2016-2020年間,全國共有620多所高校獲得了國家教育部審批的“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè)。面向陡增的大數(shù)據(jù)專業(yè)人才,數(shù)據(jù)科學(xué)相關(guān)工作的平均薪資水平怎樣?企業(yè)是更
53、看重學(xué)歷還是經(jīng)驗?在國內(nèi)哪些城市可以獲得高薪資呢?本案例收集了國內(nèi)主要城市的大數(shù)據(jù)相關(guān)崗位的招聘數(shù)據(jù),嘗試通過描述分析探究影響薪資的主要因素。2016-2020年高校數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)新增備案數(shù)量背景介紹 數(shù)據(jù)說明2變量詳細說明備注因變量對數(shù)平均薪資數(shù)值變量:-1.61,-2.76平均薪資的對數(shù)值自變量招聘地區(qū)分類變量,9個水平:上海、廣州、深圳、北京、杭州、南京、武漢、成都、西安上海占27.2%;廣州占16.3%;深圳占16.3%;北京占13.1%;杭州占7.8%;南京占5.7%;武漢占4.9%;成都占4.5%;西安占2.8%經(jīng)驗要求分類變量,5個水平:無要求、1-2年、3-4年、5-
54、7年、8年及以上1-2年占34.4%;3-4年占31.9%;5-7年占12.7%;無要求占19.2%學(xué)歷要求分類變量,2個水平:本科、大專本科占73.7%;大專占26.7%公司性質(zhì)分類變量,6個水平:民營公司、上市公司、國企、合資、外資、其他民營公司占61.2%;上市公司占11.6%;合資占10.3%;外資占8.4%;國企占6.1%;其他占2.3%公司規(guī)模分類變量,6個水平:少于50人、50-150、150-500、500-1000、1000-5000、5000以上少于50占6.6%;50-150占22.2%;150-500占27.5%;500-1000占14.3%;1000-5000占17.
55、7%;5000以上占11.7%招聘人數(shù)數(shù)值變量:1,17后面進行離散化處理數(shù)據(jù)說明本案例從招聘網(wǎng)站上獲取了2019年3月1日3月15日,上海、廣州、深圳、北京等9個城市對于本科、大專的數(shù)據(jù)分析崗位的網(wǎng)絡(luò)招聘數(shù)據(jù),共3922條樣本量。 描述分析3因變量:對數(shù)薪資平均薪資最高達到了15.83萬元/月,是位于北京的一家規(guī)模在150500人的外資公司,主要招聘無工作經(jīng)驗的本科生從事大數(shù)據(jù)AI架構(gòu)師崗位。平均薪資最低的僅只有2000元/月,是位于廣州的一家規(guī)模在5001000人的外資公司,主要招聘無工作經(jīng)驗的本科生從事數(shù)據(jù)管理員。對于數(shù)據(jù)分析這個新興崗位,薪資差異較大。招聘地區(qū)上海招聘信息發(fā)布量最大;上
56、海的平均薪資與北京、深圳、杭州這三所城市同時位居薪資第一梯隊。杭州作為“新一線”城市,雖然招聘量并沒有超過北京、上海、廣州、深圳,但是薪資水平卻可以跟一線城市保持一致。西安招聘信息發(fā)布量低于其他幾所城市,但是薪資水平保持中游水平。工作經(jīng)驗要求數(shù)據(jù)相關(guān)崗位的工作要求并未過多強調(diào)工作經(jīng)驗,大部門公司希望應(yīng)聘者有14年工作經(jīng)驗。通過工作經(jīng)驗箱線圖會發(fā)現(xiàn),隨著工作經(jīng)驗的增長,薪資水平明顯呈現(xiàn)上漲趨勢,可見工作經(jīng)驗在數(shù)據(jù)相關(guān)崗位中也是很有優(yōu)勢的。公司性質(zhì)數(shù)據(jù)相關(guān)崗位的門檻并不高,本科、??贫加袛?shù)據(jù)崗位需求,但本科的招聘崗位數(shù)多于??频恼衅笉徫粩?shù)。高學(xué)歷可以帶來高薪資水平。工作經(jīng)驗要求招聘公司中的民營公司
57、提供的數(shù)據(jù)分析崗位最多,但薪資無明顯優(yōu)勢;上市公司雖然需求量次之,但平均薪資最高。公司規(guī)模招聘公司中的公司規(guī)模的分布狀況是:中小型企業(yè),如150500人、50150人的公司招聘發(fā)布信息量較多。1000人以上規(guī)模的公司薪資稍高,其他規(guī)模的無明顯差異。招聘人數(shù)招聘13人的公司信息發(fā)布量最多,說明數(shù)據(jù)崗位也是稀缺崗。單位招聘人數(shù)與薪資水平?jīng)]有直接關(guān)系。 總 結(jié)4總 結(jié)通過對崗位提供的平均薪資的描述性分析,可看出招聘地區(qū)、工作經(jīng)驗、學(xué)歷、公司性質(zhì)對薪資有著明顯影響。在北京、上海、深圳這些經(jīng)濟發(fā)達地區(qū),擁有高學(xué)歷、豐富的工作經(jīng)驗?zāi)玫礁咝劫Y的可能性更大。數(shù)據(jù)分析崗位的薪資與公司規(guī)模以及公司類別的關(guān)系不大,
58、并不是規(guī)模大的公司就會提供更多的就業(yè)崗位和更高的薪酬。第 5 章 因子分析 學(xué)習(xí)目標1. 了解因子分析的基本思想及評價因子分析的相關(guān)指標。2. 熟悉因子分析的基本步驟及原理。3. 掌握SPSS實現(xiàn)因子分析及結(jié)果解讀的方法。引導(dǎo)案例某班52個學(xué)生3月的模擬考試成績,包括數(shù)學(xué)、物理、化學(xué)、語文、英語、歷史六門課程Part 5.1因子分析概述因子分析的基本思想因子分析起源于20世紀初卡爾皮爾遜(Karl Pearson)和查爾斯斯皮爾曼(Charles Spearmen)等人關(guān)于智力測驗的統(tǒng)計分析因子分析的基本思想是把每個原有變量分解成兩部分,一部分是由所有變量公共具有的少數(shù)幾個公共因子組成的,另一
59、部分是每個變量獨自具有的因素,即特殊因子因子分析的基本思想英國心理學(xué)家Charles Spearman研究了33名學(xué)生在古典語、法語和英語三門語言課成績的表現(xiàn),發(fā)現(xiàn)這三門課的相關(guān)系數(shù)矩陣為:古典語法語英語語言能力因子的特點因子的數(shù)量遠遠少于原始變量的個數(shù)。因子能夠反映原有變量的絕大部分信息。因子之間的線性關(guān)系不顯著。因子具有命名解釋性,可以最大限度地發(fā)揮專業(yè)分析的作用。因子分析的數(shù)學(xué)模型公共因子特殊因子原有變量因子載荷矩陣形式:因子分析中的幾個相關(guān)概念1、因子載荷2、變量共同度3、因子的方差貢獻因子分析的基本步驟因子分析的基本步驟因子分析的前提條件構(gòu)造因子變量使因子變量更具可解釋性計算因子變量
60、得分計算相關(guān)系數(shù)矩陣反映象相關(guān)矩陣檢驗KMO檢驗巴特利特球形度檢驗主成分分析法主軸因子法極大似然法最小二乘法正交旋轉(zhuǎn)斜交旋轉(zhuǎn)最大方差法回歸法巴特利特法Part 5.2-1因子分析的SPSS實現(xiàn)數(shù)據(jù)導(dǎo)入第一步:用SPSS打開“學(xué)生成績數(shù)據(jù).sav”。因子分析第二步:在菜單欄中選擇【分析(A)】【降維(D)】【因子(F)】,如左下圖所示。在彈出的“因子分析”對話框中,將 6 門課程選入【變量(V)】列表框中(留下“學(xué)號”),如右下圖所示。因子分析第三步:在“因子分析”對話框中單擊右上角的【描述(D)】按鈕,彈出的“因子分析:描述”對話框。其中【統(tǒng)計】框內(nèi)系統(tǒng)默認勾選【初始解(I)】,這里不做修改。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國美容針數(shù)據(jù)監(jiān)測研究報告
- 主題餐廳裝修人工費合同
- 2025至2030年中國油殼螂數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國吸頂式格柵燈數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國三向四舌自動鎖緊磁性門鎖數(shù)據(jù)監(jiān)測研究報告
- 2025年中國觀音王茶市場調(diào)查研究報告
- 社區(qū)公園景觀改造項目協(xié)議
- 2025至2030年中國網(wǎng)站自助構(gòu)架系統(tǒng)數(shù)據(jù)監(jiān)測研究報告
- 農(nóng)產(chǎn)品社區(qū)便利店配送協(xié)議
- 教育心理學(xué)視角下的數(shù)學(xué)思維訓(xùn)練方法
- 軟件項目應(yīng)急措施及方案
- 2025河北邯鄲經(jīng)開國控資產(chǎn)運營管理限公司招聘專業(yè)技術(shù)人才5名高頻重點提升(共500題)附帶答案詳解
- 2024年民法典知識競賽考試題庫及答案(共50題)
- 2025老年公寓合同管理制度
- 2024-2025學(xué)年人教版數(shù)學(xué)六年級上冊 期末綜合卷(含答案)
- 2024中國汽車后市場年度發(fā)展報告
- 鈑金設(shè)備操作培訓(xùn)
- 感染性腹瀉的護理查房
- 中考英語688高頻詞大綱詞頻表
- 九年級初三中考物理綜合復(fù)習(xí)測試卷3套(含答案)
- 工地設(shè)計代表服務(wù)記錄
評論
0/150
提交評論