統(tǒng)計學基礎知識培訓_第1頁
統(tǒng)計學基礎知識培訓_第2頁
統(tǒng)計學基礎知識培訓_第3頁
統(tǒng)計學基礎知識培訓_第4頁
統(tǒng)計學基礎知識培訓_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、統(tǒng)計學基礎知識培訓,2007年5月,根據(jù)測量尺度數(shù)據(jù)的分類,1999年某公司員工情況明細表,數(shù)據(jù)的分類,根據(jù)數(shù)據(jù)測量的尺度:分為定類數(shù)據(jù)、定序數(shù)據(jù)、定距數(shù)據(jù)、定比數(shù)據(jù) 根據(jù)描述對象與時間的關(guān)系:分為截面數(shù)據(jù)和時間序列數(shù)據(jù) 根據(jù)統(tǒng)計數(shù)據(jù)的收集方法:分為觀測數(shù)據(jù)和實驗數(shù)據(jù),4,你想要干什么,一.歸納、描述或者顯示數(shù)據(jù) 二.觀察變量和數(shù)據(jù)的分布 三.比較組間數(shù)據(jù)的不同 四.變量之間顯著性關(guān)系的測度 五.相似數(shù)據(jù)分組的測度 六.相似變量的壓縮測度,結(jié)束,你要歸納整理的是什么類型的數(shù)據(jù),1.已分類數(shù)據(jù)(定類、定序) 2.連續(xù)、數(shù)值型數(shù)據(jù)(定距、定比,返回,你想如何歸納整理數(shù)據(jù),1.分類計算頻數(shù)和百分比

2、2.計算兩分類變量下的頻數(shù)和百分比 3.計算比率值:比率是各不同類別數(shù)值之間的比值,返回,分類變量的圖形及圖表顯示,AnalyzeDescriptive StatisticsFrequencies,返回,兩分類變量數(shù)據(jù)的圖表及圖形顯示,AnalyzeDescriptive StatisticsCrosstabs,返回,比率值的計算及顯示,AnalyzeReportsCase summaries,返回,如何整理連續(xù)數(shù)值型數(shù)據(jù),1.描述連續(xù)數(shù)值型數(shù)據(jù)的統(tǒng)計量及數(shù)據(jù)分組法 2.圖表顯示,返回,連續(xù)數(shù)值型數(shù)據(jù)統(tǒng)計量及數(shù)據(jù)分組法,1.統(tǒng)計量:度量集中趨勢的統(tǒng)計量包括平均數(shù)、幾何平均;度量離散趨勢的統(tǒng)計量

3、包括極差、方差和標準差等。 3.數(shù)據(jù)分組:分組是根據(jù)統(tǒng)計分析的需要,將原始數(shù)據(jù)按照某種標準劃分成不同的組別,形成分組數(shù)據(jù),分組后計算數(shù)據(jù)出現(xiàn)的頻數(shù),形成頻數(shù)分布表,各常用統(tǒng)計量的計算方法,平均值(mean):一組數(shù)據(jù)之和除以數(shù)據(jù)個數(shù); 幾何平均值:用于計算比率的平均,實際應用中,主要用于社會經(jīng)濟現(xiàn)象的年平均增長率; 極差(Range):也稱全距,是一組數(shù)據(jù)的最大值和最小值之差; 方差:各變量與其均值離差平方的平均數(shù); 標準差(std.Deviation):即是方差的平方根;與方差不同的是,標準差具有與變量值一樣的量綱,實際的意義要比方差清楚。 SPSS實現(xiàn):AnalyzeDescriptive

4、 StatisticsDescriptives,數(shù)據(jù)分組法,數(shù)據(jù)分組包括單變量分組和組距分組兩種,單變量適合離散變量分組,一般數(shù)據(jù)都使用組距分組。 數(shù)據(jù)分組的步驟: 1.確定組數(shù),可以按斯特奇斯(Sturges)提出的經(jīng)驗公式來確定組數(shù)K;K=1+lgn/lg2。n為數(shù)據(jù)的個數(shù),對結(jié)果四舍五入即為組數(shù); 2.確定各組的組距。組距是上限與下限的差,組距=(最大值-最小值)/組數(shù); 3.根據(jù)分組整理成頻數(shù)分布表。 分組需要“不重不漏”,因此習慣上規(guī)定“上組限不在內(nèi)”。若有的值過大,可以設置開口組。等距分組由于各組的組距相等,各組頻數(shù)分布不受組距大小的影響,可以從頻數(shù)分布中直接觀察頻數(shù)分布的特征和規(guī)

5、律,而不等距分組就必須計算頻數(shù)密度,頻數(shù)密度=頻數(shù)/組距,頻數(shù)密度才能準確反映頻數(shù)分布的實際情況,返回,連續(xù)數(shù)值型數(shù)據(jù)的顯示方法,分組數(shù)據(jù)的圖形顯示直方圖 這是406例汽車的馬力的直方圖,50,100,150,200,汽車馬力,0,20,40,60,頻數(shù),未分組數(shù)據(jù)的顯示方法箱線圖 箱線圖是由一組數(shù)據(jù)的5個特征值繪制而成的,它由一個箱子和兩條線段組成,5個特征值為:最大值、最小值、中位數(shù)和兩個四分位,下面是406例產(chǎn)地為美國、歐洲和日本三個地區(qū)的汽車馬力值的箱線圖。歐洲箱線圖有兩個離群點,連續(xù)數(shù)值型數(shù)據(jù)的顯示方法,返回,你有何種數(shù)據(jù),1.分類數(shù)據(jù)(定類、定序) 2.連續(xù)數(shù)值型數(shù)據(jù)(定距、定比,

6、返回,分類數(shù)據(jù)分布的統(tǒng)計量指標,1.集中趨勢:計算眾數(shù)、中位數(shù) 眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值; 中位數(shù)是一組數(shù)據(jù)排序后,處于中間位置的變量值 ; 2.離散趨勢:異眾比率、四分位差 異眾比率是指非眾數(shù)組的頻數(shù)占總頻數(shù)的比率,用Vr表示,Vr=(fi-fm)/fi。 四分位差也稱內(nèi)距或者四分間距,計算方法:Qd= QU - Ql。四分位差反映的是50%數(shù)據(jù)的離散程度,其數(shù)值越小,說明中間數(shù)據(jù)越集中,反之,越分散。 3.頻數(shù)分布和百分比,返回,連續(xù)數(shù)值型數(shù)據(jù)分布的統(tǒng)計量指標,1.集中趨勢:平均值、加權(quán)平均值、算術(shù)平均值 簡單均值就是一組數(shù)據(jù)值之和除以其數(shù)據(jù)個數(shù) ;加權(quán)平均的均值與其各個數(shù)值的

7、個數(shù)有關(guān) ;幾何平均是適用于特殊數(shù)據(jù)的一種平均數(shù),只要用于比率的平均。 2.離散趨勢:極差(全距)、方差、標準差 極差也稱全距,為一組數(shù)最大值減去最小值得到。 方差是各變量值與其均值離差平方的平均數(shù),它是測度數(shù)值型數(shù)據(jù)離散程度的最主要的方法。計算方法:s2=(xi-x平均)/(n-1)。實際分析問題時,我們常用標準差,標準差為方差開根號。 3.數(shù)據(jù)偏態(tài)與峰態(tài)的測度 偏態(tài)及其測度:計算公式SK=n(xi-x平均值)3/(n-1)(n-2)s3;如果數(shù)據(jù)分布是對稱的,則偏態(tài)系數(shù)為0,如果偏態(tài)系數(shù)明顯不等于0,表明分布是非對稱的;當SK為正值時,可以判斷為右偏;當SK為負值時,為左偏。SK越大,說明

8、偏斜的程度就越大。 峰態(tài)及其測度:計算方法:K=n(n+1) (xi-x平均值)4-3(xi-x平均值)22(n-1)/(n-1)(n-2)(n-3)s4。標準正態(tài)分布的峰態(tài)為0,當K0時為尖峰分布;當K0時為扁平分布,與數(shù)據(jù)分布相關(guān)的測度量總結(jié),常見的數(shù)據(jù)分布正態(tài)分布,在社會經(jīng)濟問題中,有許多隨機變量的概率分布服從正態(tài)分布,如身高、體重等。正態(tài)分布記作XN(,), 為隨機變量X的均值, 為隨機變量X的標準差。 決定了正態(tài)分布圖形的中心位置, 決定了圖形中峰的陡峭程度, 當 較大,圖形較緩,當 較小,圖形趨于陡峭。 所有的正態(tài)分布均能通過Z=(X- )/ 化成標準正態(tài)分布XN(0,1)(均數(shù)為

9、0,方差為1)。 隨機變量X處在一個正負一個之內(nèi)的概率為68.26%;2個之內(nèi)的概率為95.45%; 3個之內(nèi)的概率為99.73,返回,你要比較什么類型的數(shù)據(jù),1.分類數(shù)據(jù)(定比、定序) 2.已分組的連續(xù)數(shù)值型數(shù)據(jù)(定距、定比,返回,應用列聯(lián)分析解決分類數(shù)據(jù)的組間比較,頻數(shù)分布表每次只能描述一個變量的情況,而列聯(lián)表是由兩個以上的變量進行交叉分類的頻數(shù)分布表,是反映兩個或多個變量聯(lián)合分布的表格??捎糜诟鹘M比例值是否一在列聯(lián)表中,可以計算以列合計為基數(shù)的列百分比或以行合計為基數(shù)的行百分比??ǚ浇y(tǒng)計量提供對列聯(lián)表中觀察到的聯(lián)系的統(tǒng)計顯著性檢驗(擬合優(yōu)度和變量聯(lián)系),通過系數(shù)、列聯(lián)系數(shù)、Cramers

10、 V和系數(shù)測量變量關(guān)系強度的指標,Analyze-Descritives-Crosstabs,舉例說明,某公司為了提高市場占有率,某行業(yè)有兩個主要的競爭對手,A和B公司同時開展了廣告宣傳。在廣告宣傳之前,A公司的市場占有率為45%,B公司市場占有率為40%,其它公司為15%。廣告戰(zhàn)后,隨機抽取了200名消費者,其中102人準備買A公司產(chǎn)品,82人買B公司產(chǎn)品,另外有16人準備買其它公司產(chǎn)品。問以廣告戰(zhàn)前后各公司市場占有率是否發(fā)生了變化,檢驗觀察值和期望值的擬合優(yōu)度:計算卡方值為8.18,而顯著性0.05、自由度為2時的卡方值5.99,因此說明占有率發(fā)生了顯著的變化,舉例說明,列聯(lián)表格的卡方檢驗

11、還用于判斷兩個分類變量之間是否存在聯(lián)系的問題中。 一種原料來自不同的地區(qū),原材料質(zhì)量被分為三個不同的等級。從這批原料中隨機抽取500件進行檢驗,結(jié)果如下表,計算卡方值為19.82大于顯著性為0.05、自由度為4的的卡方值為9.488,所以地區(qū)和原材料等級之間存在依賴關(guān)系,原材料的質(zhì)量受地區(qū)影響。存在關(guān)系的假設成立,可以計算系數(shù)、列聯(lián)系數(shù)Cramers V和系數(shù)測量變量關(guān)系強度的指標,返回,你想要比較多少組數(shù)據(jù)或多少個變量,1.一組數(shù)據(jù)或變量與一個已知數(shù)值進行比較 2.兩組數(shù)據(jù)或變量 3.三組或者三個以上變量,返回,應用單樣本T檢驗檢驗一組數(shù)據(jù)或變量與一已知數(shù)值是否相等,工作中經(jīng)常碰到根據(jù)已有的

12、知識或者給定的標準對單個變量做出結(jié)論,比如新產(chǎn)品的份額是否超過了15%等。這樣的問題就可以轉(zhuǎn)化為通過單樣本T檢驗進行檢驗的零假設。單樣本T檢驗檢驗的是抽樣總體均值是否與給定假設一致。根據(jù)樣本計算得出的T統(tǒng)計量值與給定的0.05顯著性水平下的臨界值進行比較,從而得出結(jié)論。 SPSS實現(xiàn):Analyze-Compare Means-One Sample T Test,返回,你的數(shù)據(jù)是如何組織起來的,1.分成兩不相關(guān)組的一個連續(xù)數(shù)值型變量 2.具有相關(guān)關(guān)系的兩連續(xù)數(shù)值型變量,返回,你想要進行何種獨立的樣本檢驗,步驟:1.首先檢測變量是否服從正態(tài)分布,方法為通過Graphs-Interactive-H

13、istogram(直方圖)進行觀察 2.如果變量服從正態(tài)分布,那么應用獨立樣本T檢驗進行兩樣本均數(shù)的比較:Analyze-Compare Means-Independent Samples T Test 3.如果變量不服從正態(tài)分布,那么應用非參數(shù)雙獨立樣本檢驗進行兩獨立樣本所在總體分布是否相同的檢驗:Analyze-Nonparametric Tests-2 Independent Samples,返回,你想要何種配對樣本的檢驗,步驟:1.同樣通過直方圖觀察變量是否服從正態(tài)分布; 2.如果服從正態(tài)分布,那么應用配對樣本的T檢驗進行配對設計的差值均數(shù)與總體均數(shù)0進行比較:Analyze-Comp

14、are Means-Paired Samples T Test. 3.如果不服從正態(tài)分布,那么應用雙相關(guān)樣本檢驗:Analyze-Nonparametric Tests-2 Related Samples,返回,方差分析(ANOVA,前面介紹的方法均為一個因素水平下,兩組數(shù)據(jù)的比較方法,當一個因素水平下,有三個或者三個以上的組別時,就需要用到方差分析。方差分析適用于兩組或者兩組以上均值差異的檢驗。方差分析必須有一個定量(定距或定比尺度)的因變量,以及一個或者多個自變量(定類),定類自變量稱為因子,一個因子成為單因子方差分析,若有n個自變量,成為n因子方差分析。其原理為通過對數(shù)據(jù)誤差來源的分析來

15、判斷不同總體的均值是否相同。 方差分析的3個基本假定:1.每個總體都應該服從正態(tài)分布;2.各個總體的方差2 ;3.觀測值是相互獨立的。 SPSS實現(xiàn):AnalyzeCompare MeansOne-Way ANOVA,舉例說明,下表為一年內(nèi),四個行業(yè)抽取的樣本企業(yè)投訴次數(shù)表,問這幾個行業(yè)之間的服務質(zhì)量是否有顯著性差異,下表為方差分析的結(jié)果表,從F統(tǒng)計量值為3.4066大于給定0.05水平下的F分布的臨界值3.1273,應該拒絕原假設,說明各個行業(yè)的投訴之間的差異是顯著的,返回,你有什么樣的數(shù)據(jù),1.分類數(shù)據(jù)(定類、定序) 2.定序、等級順序、或者非參數(shù)連續(xù)性數(shù)據(jù) 3.連續(xù)數(shù)值型數(shù)據(jù)(定距、定比

16、,返回,分類數(shù)據(jù)(定類、定序,應用前面講過的列聯(lián)分析,卡方對獨立性進行檢驗,進而計算通過系數(shù)、列聯(lián)系數(shù)、Cramers V和系數(shù)測量變量關(guān)系強度的指標,返回,定序、等級順序、或者非參數(shù)連續(xù)性數(shù)據(jù),計算Spearman相關(guān)系數(shù)和Kendalls tau-b相關(guān)系數(shù),看兩變量的關(guān)系的密切程度。計算排序的相關(guān)系數(shù)又稱秩相關(guān)或者等級相關(guān),記作r。當|r|0.3,視為不相關(guān);當0.3|r|0.5,視為低度相關(guān);0.5|r|0.8,視為中度相關(guān);|r|0.8,視為高度相關(guān)。 SPSS實現(xiàn):Analyze-Correlate-Bivariate選Spearman相關(guān)系數(shù)和Kendalls tau-b相關(guān)系數(shù)

17、,返回,連續(xù)數(shù)值型數(shù)據(jù)(定距、定比,1.兩變量:計算Pearson相關(guān)系數(shù)來度量兩變量關(guān)系的密切程度,記作r。當|r|0.3,視為不相關(guān);當0.3|r|0.5,視為低度相關(guān);0.5|r|0.8,視為中度相關(guān);|r|0.8,視為高度相關(guān)。 SPSS實現(xiàn)Analyze-Correlate-Bivariate選擇Pearson項。 2.控制了一個或者兩個的其他其變量的影響之后兩變量的相關(guān),為偏相關(guān),也記作r。 Spss實現(xiàn)Analyze- Correlate-Partial選擇要分析的兩變量進入要分析的變量框;選擇要控制的變量進入要控制的變量框,測度變量的因果關(guān)系回歸分析,前面介紹的數(shù)值型變量的相關(guān)

18、系數(shù)或者偏相關(guān)系數(shù)主要了解兩變量關(guān)系的密切程度,而回歸分析主要度量一個因變量,與一個、兩個或兩個以上的自變量的數(shù)量伴隨關(guān)系,是測度因變量和自變量的因果關(guān)系的方法?;貧w分為線性回歸和曲線回歸。以一元線性回歸為例:其回歸方程形式為y=ax+b。回歸直線的擬和優(yōu)度的測度應用的是判定系數(shù),判定系數(shù)說明了因變量的數(shù)據(jù)變動中,有多少是由自變量的的變動所決定的。而估計標準誤用于測度各實際觀測點在直線周圍的分散程度,其越小,說明回歸直線對各觀測點代表性好,反之則代表性差。另外還用F檢驗檢驗線性關(guān)系的顯著性。應用T檢驗檢驗回歸系數(shù)的顯著性檢驗,檢驗自變量對因變量的影響是否顯著。 SPSS實現(xiàn):Analyze-R

19、egression-Linear,返回,你有什么類型的數(shù)據(jù),1.連續(xù)數(shù)值型數(shù)據(jù)(定距、定比) 2.分類數(shù)據(jù)(定類、定序,返回,你想要判別分組還是判別已知組的特征,1.判別分組,應用聚類分析。聚類分析是一組將研究對象分成相對同質(zhì)的群組的統(tǒng)計分析技術(shù),不區(qū)分自變量和因變量。聚類分析的主要目的是根據(jù)聚類變量將對象分成相對同質(zhì)的群組。某一組的內(nèi)部成員更加相似,與其它組的成員不同。 當數(shù)據(jù)量小于200時,應用系統(tǒng)聚類分析將數(shù)據(jù)分組,Analyze-Classify-Hierarchical Cluster; 當大于200個數(shù)據(jù)時應用K均數(shù)聚類法,又稱快速聚類法,Analyze-Classify-K-means Cluster,已知分組的判別,2.判別已知組的特征應用判別分析。 判別分析是一種數(shù)據(jù)分析技術(shù),適用于標準變量或因變量為定類數(shù)據(jù),預測變量或者自變量為定距(或者定比數(shù)據(jù))的情況。就像醫(yī)生看病的判斷過程一樣,有各種各樣的病癥的癥狀、檢測結(jié)果值

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論