第三章--SPSS-數(shù)據(jù)的預(yù)處理ppt課件_第1頁
第三章--SPSS-數(shù)據(jù)的預(yù)處理ppt課件_第2頁
第三章--SPSS-數(shù)據(jù)的預(yù)處理ppt課件_第3頁
第三章--SPSS-數(shù)據(jù)的預(yù)處理ppt課件_第4頁
第三章--SPSS-數(shù)據(jù)的預(yù)處理ppt課件_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、12/26/2021整理ppt1SPSS統(tǒng)計(jì)分析方法及應(yīng)用第三章第三章 SPSS 數(shù)據(jù)的預(yù)處理數(shù)據(jù)的預(yù)處理12/26/2021整理ppt2 1 數(shù)據(jù)的排序數(shù)據(jù)文件建立完成之后,為了方便統(tǒng)計(jì)分析,需要對數(shù)據(jù)進(jìn)行初步的處理,如對數(shù)據(jù)進(jìn)行排序,將一列數(shù)據(jù)擴(kuò)大一個(gè)倍數(shù),多列數(shù)據(jù)的求和等等。數(shù)據(jù)集中的數(shù)據(jù)是按照錄入的先后排列的,并沒有規(guī)律可言,不便于數(shù)據(jù)的分析。數(shù)據(jù)排序有什么好處呢?a) 經(jīng)過排序的數(shù)據(jù),有助于了解數(shù)據(jù)的取值狀況、缺失值的數(shù)量等。b) 經(jīng)過數(shù)據(jù)的排序,方便的找出了變量的最大、最小值,最大、最小值,計(jì)算出數(shù)據(jù)的全距全距,了解數(shù)據(jù)的離散程度離散程度。 1) 數(shù)據(jù)排序的目的12/26/2021

2、整理ppt32) 數(shù)據(jù)排序的規(guī)則c) 通過排序,可以快速發(fā)現(xiàn)異常值異常值,以便及時(shí)對其進(jìn)行處理。a) 排序分為升序升序與降序降序,可以同時(shí)對數(shù)據(jù)集中的多個(gè)變量進(jìn)行排序。b) 排序的規(guī)則是:按第一個(gè)變量排序,第一個(gè)變量相同時(shí)按第二個(gè)變量排序,余此類推。c) 排序后是個(gè)案位置位置的改變,未排序的變量數(shù)據(jù)隨排序變量的位置同時(shí)位置同時(shí)改變。3) 數(shù)據(jù)排序的操作12/26/2021整理ppt43) 數(shù)據(jù)排序例b) 選擇排序變量并移入 Sort by列表框中,指定該變量的數(shù)據(jù)是升序(Ascending)還是降序(Descending)的單選按鈕.c) 如果是多重排序,用同樣的方法指定第二、第三排序變量。按

3、第一個(gè)變量先排序;第一個(gè)變量相同,按下一個(gè)變量排序;余類推。對居民儲(chǔ)蓄存款調(diào)查數(shù)據(jù),利用排序的方法找出城鎮(zhèn)居民和農(nóng)村居民一次性存款的最大值和最小值。操作操作:戶口,升序;存款額,升序。a) 選擇菜單Data Sort Cases。這時(shí),數(shù)據(jù)集所有變量出現(xiàn)在排序?qū)υ捒蜃髠?cè)的列表中。12/26/2021整理ppt52 變量的計(jì)算在統(tǒng)計(jì)分析過程中,為了更有效的反映事物的本質(zhì),有時(shí)需要對變量的數(shù)據(jù)進(jìn)行加工整理,產(chǎn)生新變量和計(jì)算結(jié)果。比如計(jì)算一個(gè)變量的倍數(shù),計(jì)算幾個(gè)變量的和、差,計(jì)算變量的絕對值、平方等等。因此,變量的計(jì)算是日常工作中經(jīng)常遇到的(51-57頁不講頁不講)對職工的基本情況的數(shù)據(jù)(41頁)表

4、2-5進(jìn)行處理,依據(jù)職稱級別計(jì)算實(shí)發(fā)工資,滿足:職稱14的工資分別上浮5%、3%、 2%、1%。用例子演示變量計(jì)算的基本操作變量計(jì)算的基本操作(58頁頁)。變量計(jì)算的例(58頁)12/26/2021整理ppt61) 進(jìn)入變量計(jì)算對話框首先將數(shù)據(jù)加工數(shù)據(jù)加工(職工數(shù)據(jù)職工數(shù)據(jù)).sav數(shù)據(jù)集打開。選擇菜單 Transform (變換) Compute Variable(計(jì)算變量),彈出算術(shù)表達(dá)式編輯窗口。a) 在Target Variable(目標(biāo)變量)的編輯框中輸入生成的新變量名稱,這時(shí)的變量可以是新變量,也可以是原有變量。b) 如果輸入的變量名在數(shù)據(jù)文件中已經(jīng)存在,滿足條件個(gè)案新變量的值將替

5、換舊變量對應(yīng)的值,其它值不變。c) 新變量的數(shù)據(jù)類型默認(rèn)為數(shù)值型,點(diǎn)擊Type&Label按2) 定義結(jié)果變量12/26/2021整理ppt7圖3-3 變量計(jì)算窗口12/26/2021整理ppt83) 算術(shù)表達(dá)式及運(yùn)算符的定義對于我們的例子,新變定義量名 實(shí)發(fā)工資實(shí)發(fā)工資為:sfgz,選,選擇默認(rèn)數(shù)據(jù)類型擇默認(rèn)數(shù)據(jù)類型。見圖3-3。a) 算術(shù)表達(dá)式算術(shù)表達(dá)式(Numeric Expression) 定義:將常數(shù)、變將常數(shù)、變量用算術(shù)運(yùn)算符和函數(shù)組合起來的式子。量用算術(shù)運(yùn)算符和函數(shù)組合起來的式子。b) 算術(shù)表達(dá)式的元素算術(shù)表達(dá)式的元素。變量可以從左側(cè)的變量列表中選擇;數(shù)字、運(yùn)算符號(hào)可以在軟鍵盤中

6、選擇;函數(shù)可以從右側(cè)選擇,這些也都可以直接用鍵盤輸入。c) 邏輯運(yùn)算符及意義邏輯運(yùn)算符及意義邏輯與:& 等價(jià)于 AND邏輯或: | 等價(jià)于 OR鈕,在彈出的對話框中可以定義新變量的數(shù)據(jù)類型和標(biāo)簽。12/26/2021整理ppt94) 條件語句編輯單擊 if 按鈕,進(jìn)入條件語句編輯框,有兩個(gè)單選按鈕。a) Include all cases :對所有個(gè)案進(jìn)行計(jì)算,默認(rèn)選項(xiàng)。b) Include if cases satisfied condition:僅對滿足條件的個(gè)案進(jìn)行計(jì)算。選擇這一單選按鈕后,編輯框激活。c) 在這里可以輸入篩選條件。需要說明的是,每次只能編輯一個(gè)篩選條件,不能同時(shí)編輯多個(gè)

7、篩選條件。對應(yīng)工資上浮5%的條件是職稱值等于1,高級工程師。在編輯框輸入表達(dá)式:zc=1邏輯非: 等價(jià)于 NOT在算術(shù)表達(dá)式編輯框輸入:(sr-bx)*1.0512/26/2021整理ppt105) 條件語句編輯編輯例這時(shí)高級工程師的個(gè)案的sfgz變量都有了數(shù)據(jù),其它職稱個(gè)案的sfgz的值為缺失值。重復(fù)同樣的方法,分別設(shè)置:表達(dá)式 條件(sr-bx)*1.03 zc=2 工程師(sr-bx)*1.02 zc=3 助理工程師(sr-bx)*1.01 zc=4 無職稱這時(shí)變量sfgz所在的列將不再有缺失值。點(diǎn)擊條件語句編輯窗口的Continue按鈕,退回到表達(dá)式編輯框,點(diǎn)擊OK按鈕,高級工程師的實(shí)

8、發(fā)工資計(jì)算完成。12/26/2021整理ppt116) 計(jì)算方法的不足變量的計(jì)算,無法一次將不同條件的表達(dá)式集中編寫,只能一個(gè)條件表達(dá)式運(yùn)行一次。12/26/2021整理ppt12 3 數(shù)據(jù)抽樣(選取)在實(shí)際的工作中,往往需要對滿足一定條件的數(shù)據(jù)進(jìn)行分析。如研究儲(chǔ)蓄存款時(shí),將儲(chǔ)戶分成城鎮(zhèn)儲(chǔ)戶和農(nóng)村儲(chǔ)戶,這時(shí)的數(shù)據(jù)更具有相同的特征,研究也更具有針對性。因此,要對數(shù)據(jù)進(jìn)行篩選,在統(tǒng)計(jì)學(xué)中也稱之為抽樣。抽樣的步驟如下:打開居民儲(chǔ)蓄調(diào)查數(shù)據(jù)居民儲(chǔ)蓄調(diào)查數(shù)據(jù)(存款存款).sav菜單 Data Select cases,彈出抽樣對話框見圖3-4-1。左邊為變量列表,右邊顯示抽樣方法,有5個(gè)單選按鈕。不進(jìn)行

9、抽樣,所有的個(gè)案均參與統(tǒng)計(jì)分析。 1) 抽樣方法的選擇 (1) All cases12/26/2021整理ppt13圖3-4-1 數(shù)據(jù)抽樣12/26/2021整理ppt14(2) If condition is satisfied抽樣得到的數(shù)據(jù)集是全部數(shù)據(jù)的一個(gè)子集,符合抽樣條件的個(gè)案才參與統(tǒng)計(jì)分析操作。這一選項(xiàng)表示不進(jìn)行抽樣,也用于刪除在此之前設(shè)置的抽樣條件。篩選條件滿足時(shí)抽取。篩選條件滿足時(shí)抽取。例:抽取所有城鎮(zhèn)儲(chǔ)戶的數(shù)據(jù)信息。a) 在抽樣界面,點(diǎn)擊 If condition is satisfied單選按鈕。b) 點(diǎn)擊If 按鈕,彈出Select cases If 對話框。操作:操作:在

10、編輯框輸入等式:a13=1,抽取城鎮(zhèn)戶口客戶.c) 點(diǎn)擊Continue按鈕,完成條件抽樣。不符合條件的打上刪除標(biāo)記注意注意:這里的篩選條件的值篩選條件的值不能是變量的值標(biāo)簽值標(biāo)簽。(查看設(shè)置界面的當(dāng)前狀態(tài)、數(shù)據(jù)編輯窗口個(gè)案的刪除標(biāo)記、篩選變量)12/26/2021整理ppt15A) Approximately(近似近似)為了真實(shí)模擬社會(huì)現(xiàn)象,有時(shí)需要采用隨機(jī)抽樣隨機(jī)抽樣。選擇Random sample of cases單選按鈕,這時(shí)Sample按鈕激活,點(diǎn)擊后進(jìn)入Select cases:Random sample定義抽樣范圍對話框。有兩個(gè)單選按鈕。在文本框中輸入一個(gè)大于0小于100的數(shù),按

11、百分比抽取。30大概抽樣大概抽樣:Approximately % Of all cases(3) Random sample of cases12/26/2021整理ppt16C) 隨機(jī)數(shù)種子發(fā)生器隨機(jī)數(shù)種子發(fā)生器精確抽樣:從前 n 個(gè)個(gè)案中隨機(jī)隨機(jī)抽取 m 個(gè)個(gè)案。由于具體抽取多少個(gè)個(gè)案是事先知道的,因此稱為精確精確抽樣抽樣。這時(shí)需要mn。經(jīng)過隨機(jī)抽樣后,未抽取數(shù)據(jù)的個(gè)案號(hào)打上了斜線。演示大概抽樣演示大概抽樣。隨機(jī)抽取30%的個(gè)案(查看狀態(tài)標(biāo)記變量)。隨機(jī)性的實(shí)現(xiàn)是由隨機(jī)數(shù)種子控制的。在隨機(jī)數(shù)發(fā)生器精確抽樣精確抽樣。Exactly cases from the first CasemnB)

12、Exactly例子將隨機(jī)抽取隨機(jī)抽取總數(shù)的30%的個(gè)案構(gòu)成一個(gè)數(shù)據(jù)集。抽樣設(shè)置是百分?jǐn)?shù)而非確切數(shù)值,因此稱為大概抽樣大概抽樣。12/26/2021整理ppt17圖3-5 隨機(jī)數(shù)種子設(shè)置窗口與版本12兼容12/26/2021整理ppt18 (4) Based on time or case rangea) Rendom:每次抽取,都產(chǎn)生一個(gè)隨機(jī)數(shù)作為開設(shè)置.b) Fixed Value:在下邊的文本框中填入一個(gè)大于0小于的具體數(shù)值作為種子。在指定的范圍內(nèi),順序抽樣,更適于時(shí)間序列數(shù)據(jù)。點(diǎn)擊Range按鈕,彈出Select cases:Range對話框。在初始化發(fā)生器(active Generat

13、or Initialization )模塊,設(shè)置開始點(diǎn)(Set starting point),有兩個(gè)選項(xiàng):的設(shè)置菜單:Transform Random Number Generator ,彈出設(shè)置隨機(jī)數(shù)對話框見圖3-5。12/26/2021整理ppt19(5) Use filter variable使用過濾器過濾器過濾變量。要求指定一個(gè)變量作為過濾變量,抽樣從非缺失值的個(gè)案中抽取。這種方法主要用于排除含有系統(tǒng)缺失值的個(gè)案。在選擇了抽樣方式以后,Select Cases對話框右下角的Output模塊中的單選按鈕變?yōu)榧せ顮顟B(tài),從而可以進(jìn)行抽樣的輸出選擇。這里有3個(gè)單選按鈕。抽樣從第m個(gè)個(gè)案開始,

14、到第n個(gè)個(gè)案結(jié)束。2) 抽樣數(shù)據(jù)集的輸出mnObservation:First cases Last cases 12/26/2021整理ppt20(2) Copy selected cases to a new dataset 過濾掉沒有選擇的個(gè)案。這時(shí)未被選中的個(gè)案上打上斜線作為刪除標(biāo)記。默認(rèn)選項(xiàng)。刪除沒有被選擇的個(gè)案。由于雖然此次沒有抽取,但以后仍可能用到,一般不采取刪除的方式處理方式。將選擇了的個(gè)案存儲(chǔ)到一個(gè)新的數(shù)據(jù)集中,這時(shí)需要在其后的文本框中輸入要存儲(chǔ)數(shù)據(jù)集的名字。(3) Delete unselected cases(1) Filter out unselected cases1

15、2/26/2021整理ppt21(4) 幾點(diǎn)說明A) 統(tǒng)計(jì)分析時(shí),不對打上刪除標(biāo)記的個(gè)案進(jìn)行分析,直到刪除抽樣設(shè)置為止。B) 采用指定條件抽樣和隨機(jī)抽樣這兩種方法進(jìn)行抽樣,系統(tǒng)將在編輯窗口中自動(dòng)生成一個(gè)變量名為filter_$的新變量,取值為0或1。1表示個(gè)案被抽取,0表示數(shù)據(jù)未被抽取。這樣的變量稱為中間變量,作為篩選條件時(shí)使用。如果刪除這一變量,抽樣設(shè)置自動(dòng)消除。如果刪除了篩選條件,這一變量也會(huì)自動(dòng)刪除。演示隨機(jī)抽樣查看生成變量。C) 對數(shù)據(jù)集不能同時(shí)設(shè)置兩種抽樣方式,設(shè)置一種抽樣方式,在此之前設(shè)置的抽樣方式將自動(dòng)取消。12/26/2021整理ppt22 4. 計(jì)數(shù)在實(shí)際工作當(dāng)中,需要對調(diào)查

16、問卷的答案進(jìn)行分析。例例1:居民儲(chǔ)蓄調(diào)查居民儲(chǔ)蓄調(diào)查(存款存款).sav中有如下兩個(gè)指標(biāo):收入情況、未來收入情況收入情況、未來收入情況,取值分別為:1,增加;,增加;2,基本不變;基本不變;3,減少。,減少。如果想了解在每一個(gè)個(gè)案中,選3(減少)的變量有幾個(gè),如何用SPSS快速的給出答案?例子特點(diǎn):多個(gè)變量中多個(gè)變量中 ,取同一值取同一值的變量有多少個(gè)?的變量有多少個(gè)?例例2:中考成績中考成績(計(jì)數(shù)計(jì)數(shù)63).sav :要統(tǒng)計(jì)出每一考生語文、英語、數(shù)學(xué)、物理和化學(xué)5科成績,落在某一區(qū)間(如70,79)的有幾科?12/26/2021整理ppt231) 計(jì)數(shù)的功能計(jì)數(shù)是統(tǒng)計(jì)出在一個(gè)個(gè)案中,多個(gè)變量

17、多個(gè)變量取同一個(gè)值同一個(gè)值或在同一個(gè)區(qū)間取值同一個(gè)區(qū)間取值的變量個(gè)數(shù)變量個(gè)數(shù)的方法。因此,處理這樣的問題需要關(guān)注兩個(gè)問題:A) 考察考察哪幾個(gè)哪幾個(gè)變量?變量?B) 同時(shí)同時(shí)取什么值,在取什么值,在哪一個(gè)哪一個(gè)區(qū)間取值?區(qū)間取值?選擇菜單選擇菜單 Transform Count value within cases,進(jìn)入計(jì)數(shù)選擇對話框。例子特點(diǎn):多個(gè)變量,取值在同一個(gè)區(qū)間的有多少個(gè)?以上問題,如果通過SPSS軟件實(shí)現(xiàn)?2) 計(jì)數(shù)的步驟12/26/2021整理ppt24 (2) 確定統(tǒng)計(jì)所關(guān)注的變量值計(jì)數(shù)變量用于存儲(chǔ)統(tǒng)計(jì)結(jié)果計(jì)數(shù)變量用于存儲(chǔ)統(tǒng)計(jì)結(jié)果。步驟如下:。步驟如下:a) Target Va

18、riable:在下面的文本框填入目標(biāo)變量,用于存儲(chǔ)計(jì)數(shù)的值。操作操作:在文本框中輸入 sb) Target Label :在下面的文本框中輸入變量的標(biāo)簽,作為目標(biāo)變量的說明,可選。操作操作:堪憂。c) Numeric Variables :將要計(jì)數(shù)的變量輸入。操作操作:收入情況、未來收入情況變量一般取多個(gè)值,我們只關(guān)心多個(gè)變量同時(shí)同時(shí)取的某個(gè) (1) 確定計(jì)數(shù)變量12/26/2021整理ppt25 A) 值設(shè)置值設(shè)置例子例子:收入情況收入情況未來收入情況未來收入情況這兩個(gè)變量取3的有幾個(gè)?點(diǎn)擊【 Define Values 】按鈕,將選擇的一個(gè)或多個(gè)變量與指定的值建立關(guān)系對話框。對話框分成兩個(gè)

19、區(qū)域:左邊的區(qū)域是值定義,右邊是值左邊的區(qū)域是值定義,右邊是值存儲(chǔ)及修改。存儲(chǔ)及修改??梢杂?種方式定義值:單一數(shù)值、一個(gè)閉區(qū)間、一個(gè)開區(qū)間。步驟如下。A) Value:默認(rèn)選項(xiàng),這時(shí)測試指定的一個(gè)一個(gè)或多個(gè)變量多個(gè)變量與文本框中給定的值給定的值是否相等。值的個(gè)數(shù)。這里是定義幾個(gè)變量要取的那個(gè)固定的值。12/26/2021整理ppt26操作操作:5門成績中不及格的數(shù)量。B) System_missing、 System or User_missing。統(tǒng)計(jì)幾個(gè)變量中系統(tǒng)缺失值、用戶定義缺失值的數(shù)量。操作:操作:5門成績中,位于80,89的數(shù)量。C) Range: through 。 測試一個(gè)或

20、多個(gè)變量的值,位于區(qū)間m,n中的數(shù)量。mn操作操作:在文本框內(nèi)輸入3。D) Range:lowest through 。 測試一或多個(gè)變量的值是否位于區(qū)間(-,n,即取值小于等于取值小于等于n的個(gè)數(shù)的個(gè)數(shù)。nE) Range: through highes。 測試一或多個(gè)變量的值是否位于區(qū)間m, ),即取值大于等于取值大于等于m的個(gè)數(shù)的個(gè)數(shù)。m12/26/2021整理ppt27 B) 值的顯示與修改值的顯示與修改說明說明:每次只能定義一個(gè)取值方式,并定義一個(gè)用于存儲(chǔ)統(tǒng)計(jì)結(jié)果的目標(biāo)變量。值設(shè)置完成后,可以通過 、 和 三個(gè)按鈕完成將定義值放入顯示區(qū),并對其進(jìn)行修改和刪除.AddChangeRem

21、ove操作操作:5門成績中良以上的數(shù)量。12/26/2021整理ppt28 5 分類匯總根據(jù)高考總分,分析學(xué)生智力水平是否和性別性別有關(guān),即按性別性別計(jì)算出高考總分的平均值、最高分和最低分。這兩個(gè)例子的計(jì)算有如下特點(diǎn):需要對數(shù)據(jù)進(jìn)行分類,計(jì)算出每一類每一類的某一經(jīng)濟(jì)指標(biāo)。用SPSS如何實(shí)現(xiàn)呢?A) 按照哪個(gè)變量進(jìn)行分類(如:區(qū)域、性別)。B) 對哪個(gè)變量進(jìn)行匯總(如:職工工資、高考總分)。C) 計(jì)算哪些指標(biāo)(如:平均值、最大值和最小值)。經(jīng)濟(jì)工作者根據(jù)工資數(shù)據(jù),研究各縣市各縣市職工的生活水平差異,需要計(jì)算各縣市縣市工資的平均平均工資。 1) 分類匯總關(guān)注的問題12/26/2021整理ppt29

22、 2) 分類匯總的基本操作A) 打開匯總菜單打開匯總菜單點(diǎn)擊:點(diǎn)擊:Data Aggregate(總計(jì)、匯總),彈出分類匯總對話框。B) 選擇分類變量選擇分類變量從左邊的變量列表框選擇分類變量到Break(破裂) Variable框中。操作操作:職業(yè)。C) 選擇匯總變量選擇匯總變量匯總變量Aggregate Variable模塊。例:利用居民儲(chǔ)蓄調(diào)查數(shù)據(jù).sav數(shù)據(jù)集,分析職業(yè)職業(yè)與存存款數(shù)額款數(shù)額之間的關(guān)系。12/26/2021整理ppt30操作操作:存款金額D) 確定計(jì)算什么統(tǒng)計(jì)量確定計(jì)算什么統(tǒng)計(jì)量。點(diǎn)擊【 Function 】按鈕,彈出選擇對話框,可供選擇的統(tǒng)計(jì)量包括:均值、求和、最大值

23、、最小值等20個(gè)選項(xiàng),默認(rèn)選項(xiàng)是均值,每次只能計(jì)算一個(gè)統(tǒng)計(jì)量。默認(rèn)是均值。默認(rèn)是均值。【 Name&Lable 】按鈕為計(jì)算的統(tǒng)計(jì)量定制標(biāo)簽。操作操作:均值(注意觀察匯總變量的取值隨著選擇的改變而改變)E) 輸出每一類中包含的個(gè)案數(shù)。輸出每一類中包含的個(gè)案數(shù)。選擇框 Number of cases,若選擇將生成一個(gè)每一類每一類中所含個(gè)案數(shù)的變量,變量名為N_BREAK。12/26/2021整理ppt31 E) 指定計(jì)算的統(tǒng)計(jì)量保存到何處指定計(jì)算的統(tǒng)計(jì)量保存到何處。有3中選擇。a) Add aggregated variables to active dataset。將統(tǒng)計(jì)量的計(jì)算結(jié)果存儲(chǔ)到當(dāng)前

24、數(shù)據(jù)集當(dāng)前數(shù)據(jù)集。b) Create a new dataset containing only the aggregated variables 。創(chuàng)建一個(gè)只含指定統(tǒng)計(jì)量作為變量的新數(shù)據(jù)集。這時(shí)需在下面的文本框給出數(shù)據(jù)集的名字。c) Write a new data only the aggregated variables。將計(jì)算的統(tǒng)計(jì)量存儲(chǔ)到一個(gè)默認(rèn)名稱為agg.sav,的新文件中。文件類型可以不是SPSS的文件類型。F) Options for very large datasets 大數(shù)據(jù)集選項(xiàng)。a) already sorted break variable 在計(jì)算分類統(tǒng)計(jì)量之前已

25、經(jīng)關(guān)于分類變量排序。12/26/2021整理ppt32G) 多重分類匯總多重分類匯總分類變量可以多于一個(gè),這時(shí)的匯總稱為多重分類匯總。第一個(gè)分類變量稱為主分類變量。分類變量的指定順序決定了匯總的先后順序。例如,主分類變量是職業(yè),第二分類變量為年齡。略。引子引子:統(tǒng)計(jì)分析,經(jīng)常要將數(shù)據(jù)進(jìn)行分組,研究一類數(shù)據(jù)的共性。對于各種各樣的數(shù)據(jù),如何用SPSS實(shí)現(xiàn)分組呢?b) Sort aggregating 在執(zhí)行分類匯總前,系統(tǒng)先執(zhí)行關(guān)于分類變量排序。通過分類統(tǒng)計(jì)可以看出,隨著職業(yè)的不同,存款數(shù)量的平均值也不同。查看數(shù)據(jù)集。12/26/2021整理ppt336 數(shù)據(jù)分組數(shù)據(jù)分組是根據(jù)統(tǒng)計(jì)研究的需要,按照

26、一定的特征特征將總體區(qū)分為若干個(gè)性質(zhì)不同而又存在聯(lián)系的部分部分的一種方法。這些部分部分稱為這一統(tǒng)計(jì)總體的組。數(shù)據(jù)分組對總體而言是“分”,即把總體劃分為性質(zhì)相異的若干組;對個(gè)體而言是 “合”,即把性質(zhì)相同的個(gè)體合為一組。1) 數(shù)據(jù)分組的意義(1) 為什么要數(shù)據(jù)分組(2) 數(shù)據(jù)分組的原則12/26/2021整理ppt34另一方面,差異很大時(shí)的兩個(gè)事物看成相同的類,將抹殺事物質(zhì)的區(qū)別與特征,混淆事物的優(yōu)劣,不能正確的評價(jià)出事物的好壞將不利于相關(guān)工作的開展。(3) 分類原則的總結(jié)一次性存款數(shù)量為1000元與1020元,雖然數(shù)量存在差異,未必有什么質(zhì)的差別??荚嚦煽?4分與88分的學(xué)生,雖然分?jǐn)?shù)不同,但

27、學(xué)生的基本素質(zhì)可能沒有本質(zhì)的差別。統(tǒng)計(jì)分組的原則,是保證組間各個(gè)單位具有差異性差異性,組內(nèi)的各個(gè)單位具有同質(zhì)性同質(zhì)性。12/26/2021整理ppt352) 組距分組(重賦值 Recode)對于定距變量定距變量,由于數(shù)值型變量的連續(xù)性與稠密性,為了研究的需要,有時(shí)需將數(shù)據(jù)進(jìn)行分組。分組既要體現(xiàn)出組之間的差異,又不能分組太多,需要需要確定合適的分組區(qū)間確定合適的分組區(qū)間。將變量的變化范圍依次分成若干個(gè)滿足包容性包容性和互斥性互斥性的數(shù)值區(qū)間。什么叫包容性與互斥性呢? (1) 組距分組的定義用文字表示的品質(zhì)變量品質(zhì)變量,如性別、職稱、民族等等,這樣的變量相當(dāng)于利用變量的不同取值,自然的進(jìn)行了分組。

28、12/26/2021整理ppt36按照組距分組的定義,用組的區(qū)間作為組的名稱直觀,但如果組區(qū)間數(shù)值很大或很復(fù)雜,研究問題不是很方便。將各個(gè)區(qū)間重新賦予一個(gè)值作為組的名稱,這樣的分組將各個(gè)區(qū)間重新賦予一個(gè)值作為組的名稱,這樣的分組稱為組距分組,也稱為重賦值稱為組距分組,也稱為重賦值(Recode)每一個(gè)變量的值,必須屬于其中的某一組是包容性包容性;且只能屬于一組,不能同時(shí)屬于兩個(gè)以上的組是互斥性互斥性。人均收入戶數(shù)頻率人均收入戶數(shù)頻率400以下300.178011200600.33401800700.391201以上200.11例子:某個(gè)企業(yè)的職工小區(qū),人均可支配收入見下表。(2) 分組數(shù)目的確

29、定12/26/2021整理ppt37(3) 組距的確定分組過多時(shí),容易將具有相同特征的數(shù)據(jù)分到了兩個(gè)組,使問題復(fù)雜化;分組過少,會(huì)將具有不同特征的數(shù)據(jù)不同特征的數(shù)據(jù)歸為一組,淡化了數(shù)據(jù)的差異。數(shù)據(jù)應(yīng)分成多少組,沒有統(tǒng)一的方法與模式,通常根據(jù)數(shù)據(jù)本身的特點(diǎn)、數(shù)據(jù)的個(gè)數(shù)及研究問題的具體需要具體分析后確定。定義定義:組距:組距是數(shù)據(jù)的上限數(shù)據(jù)的上限(最大值)與數(shù)據(jù)的下限數(shù)據(jù)的下限(最小值)之差除以組數(shù)組數(shù),即組距式分組的特點(diǎn),平抑各組數(shù)據(jù)內(nèi)部內(nèi)部的區(qū)別,突出各組之間之間的差異,以方便觀察數(shù)據(jù)的分布特征。12/26/2021整理ppt38(4) 組距分組的實(shí)現(xiàn)確定組數(shù)、組距的原則:組數(shù)一定是整數(shù)且不宜

30、過多,組距一般是5或10的整數(shù)倍。例:數(shù)據(jù)加工(職工數(shù)據(jù)).sav數(shù)據(jù)集中最大值=1044,最小值=824,幅度=1044824=220。根據(jù)數(shù)據(jù)變化的幅度及確定組距的原則,取組距為50;根據(jù)數(shù)據(jù)的分布特點(diǎn),確定分組分為5組(開口組):850,851900,901950,9511000, 1001操作操作:數(shù)據(jù)加工(職工數(shù)據(jù)).sav 組距=(最大值-最小值) 組數(shù)A) 打開要分組的數(shù)據(jù)文件打開要分組的數(shù)據(jù)文件。12/26/2021整理ppt39菜單Trasform Recode Into Different Variable:對數(shù)據(jù)進(jìn)行分組,對每個(gè)組的名稱重編碼重編碼存入一個(gè)不同的變量,這時(shí)

31、彈出變量選擇設(shè)置窗口。在左邊變量的列表框中選擇分組變量,將其移入右邊的Input Variable Output Variable列表框.例:sr(工資)在Name下面的文本框中,給出輸出變量的名字,用于存儲(chǔ)各個(gè)組的名字。B) 打開數(shù)據(jù)分組對話框打開數(shù)據(jù)分組對話框C) 選擇分組變量。選擇分組變量。D) 為輸出變量命名。為輸出變量命名。12/26/2021整理ppt40E) 建立新舊組名的對應(yīng)關(guān)系。建立新舊組名的對應(yīng)關(guān)系。進(jìn)入條件表達(dá)式設(shè)置對話框,進(jìn)行條件表達(dá)式的設(shè)置。3個(gè)按鈕,對新值進(jìn)行設(shè)置并建立新舊值之間的對應(yīng)關(guān)系、對建立的關(guān)系進(jìn)行修改及將建立的關(guān)系刪除等操作。值設(shè)置完成后,可以通過 、 和

32、AddChangeRemove可在下面的Lable的文本框?yàn)檩敵鲎兞慷x一個(gè)標(biāo)簽。點(diǎn)擊【 change 】按鈕完成輸出變量的定義。例:sF) 設(shè)置篩選條件設(shè)置篩選條件如果僅對符合一定條件的個(gè)案分組,單擊 按鈕IF12/26/2021整理ppt41 G) 總結(jié)總結(jié)說明:a) 這里舉的例子是等距分組,從設(shè)置過程可以看出,也可以進(jìn)行非等距分組。b) 這里講解的是將離散型、連續(xù)型的變量的值分成若干組,將每一組構(gòu)成的區(qū)間和一個(gè)新變量的值新變量的值建立了關(guān)系,執(zhí)行的操作是: Recode Into Different Variable。有時(shí)建立了新變量之后,舊的值已經(jīng)沒有用了,可以用新生成的變量將原數(shù)值替

33、換掉,這時(shí)需要選擇的操作是: Recode Into Same Variable,理論與方法基本相同,略。演示例子,建立每一個(gè)值與區(qū)間變量的關(guān)系。12/26/2021整理ppt427 預(yù)處理的其他功能數(shù)據(jù)處理是對變量進(jìn)行,而變量在數(shù)據(jù)集中都是按列存放的。如果得到的變量數(shù)據(jù)是按行存放,則需要將行變量轉(zhuǎn)化成列變量。將數(shù)據(jù)行列互換,即矩陣的轉(zhuǎn)置。 1) 數(shù)據(jù)的轉(zhuǎn)置課程宏觀統(tǒng)計(jì)計(jì)量張三837796李四796287課程張三李四宏觀8379統(tǒng)計(jì)7762計(jì)量968712/26/2021整理ppt43(1) 選擇變量點(diǎn)擊菜單Data Transpose,彈出轉(zhuǎn)置設(shè)置對話框。數(shù)據(jù)集的所有變量出現(xiàn)在對話框左側(cè)的列表框中。將要轉(zhuǎn)置的變量移至變量窗口。操作操作:將xb,nl,sr,zc,xl,bx移入.行數(shù)據(jù)轉(zhuǎn)化成了新數(shù)據(jù)集的列,每一列需要確定變量的名稱。有兩種方法。(2) 確定新數(shù)據(jù)集變量的名稱將要轉(zhuǎn)置的數(shù)據(jù)集打開。操作操作:數(shù)據(jù)加工數(shù)據(jù)加工(職工數(shù)據(jù)職工數(shù)據(jù)).savA) 原數(shù)據(jù)集存在取唯一值的變量原數(shù)據(jù)集存在取唯一值的變量如果原數(shù)據(jù)集存在一個(gè)取值唯一的變量,如學(xué)號(hào)學(xué)號(hào)、職職12/26/2021整理ppt44B) 原數(shù)據(jù)集無唯一標(biāo)示行數(shù)據(jù)的變量原數(shù)據(jù)集無唯一標(biāo)示行數(shù)據(jù)的變量(值標(biāo)簽轉(zhuǎn)置后將無效)將取唯一值的變量移至Name Variable標(biāo)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論