市場調(diào)查與預(yù)測課件：描述統(tǒng)計方法

上傳人：熊*** IP屬地：山東上傳時間：2024-02-24 格式：PPTX 頁數(shù)：73 大?。?.24MB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩68頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

描述統(tǒng)計方法本章內(nèi)容：11.1

單變量數(shù)據(jù)的基礎(chǔ)描述指標(biāo)

11.2單變量數(shù)據(jù)集中趨勢的度量指標(biāo)11.3單變量數(shù)據(jù)離散程度的度量指標(biāo)11.4數(shù)據(jù)分布形態(tài)的描述11.5案例：單變量數(shù)據(jù)的描述統(tǒng)計11.6雙變量數(shù)據(jù)的描述統(tǒng)計學(xué)習(xí)目標(biāo)：掌握定類、定序、定距、定比四類數(shù)據(jù)描述統(tǒng)計指標(biāo)選擇上的差異化；掌握單變量數(shù)據(jù)集中趨勢和離散程度度量的指標(biāo)和計算方法；掌握雙變量交叉分析方法和相關(guān)系數(shù)的應(yīng)用。11.1單變量數(shù)據(jù)的基礎(chǔ)描述指標(biāo)11.1.1定類數(shù)據(jù)定類數(shù)據(jù)本身是對現(xiàn)象特征分類的數(shù)字表達。市場調(diào)查中關(guān)于消費者性別、產(chǎn)品品牌類型、廣告形式等的數(shù)字表達，都屬于定類數(shù)據(jù)。關(guān)于定類數(shù)據(jù)的基本描述方法主要是頻數(shù)、比例、比率等。（１）頻數(shù)。頻數(shù)是指變量分布在各個類別的數(shù)據(jù)個數(shù)，也稱作次數(shù)。把各個類別的頻數(shù)分別列出來就是頻數(shù)分布；用表格的形式列出來就是頻數(shù)分布表。（２）比例。比例是指總體中各類別的頻數(shù)分別占總頻數(shù)的比重，通常用來反映總體的構(gòu)成，反映的是部分與總體之間的關(guān)系。將計算出的比例乘以１００％，可得百分比。（３）比率。比率是指總體中各個類別之間的頻數(shù)比值，反映的是總體中部分與部分之間的關(guān)系。比率也可以用來反映同一現(xiàn)象在不同時間或空間上的數(shù)量關(guān)系。11.1.2定序數(shù)據(jù)定序數(shù)據(jù)本身是對現(xiàn)象特征在有序分類基礎(chǔ)上的數(shù)字表達。定序數(shù)據(jù)具有定類數(shù)據(jù)的特點，但是強調(diào)分類的前后位置和排列順序。（１）累積頻數(shù)。累積頻數(shù)方法是把總體中各類別的頻數(shù)依順序逐級累加起來的方法。從類別順序開始的位置依次向后進行累加，稱為向上累積；從類別順序最后的位置依次向前進行累加，稱為向下累積。該方法反映某一類別以上或某一類別以下的頻數(shù)之和。（２）累積頻數(shù)百分比。累積頻數(shù)百分比方法是將各類別頻數(shù)占總頻數(shù)的百分比逐級累加起來的方法。在計算市場集中度的方法中，經(jīng)常使用的洛倫茲曲線就是應(yīng)用累積頻數(shù)百分比方法繪制累積頻數(shù)分布圖的典型。11.1.3定距和定比數(shù)據(jù)定距和定比數(shù)據(jù)的數(shù)學(xué)特性高于定類和定序數(shù)據(jù)，用來描述定類和定序數(shù)據(jù)的方法皆適用于定距和定比數(shù)據(jù)。（１）單變量值分組。單變量值分組是把每一個變量值單獨作為一組。一個數(shù)值即是一組，變量值相同的，視為一組；相同變量值的個數(shù)，即是這個變量值的頻數(shù)。（２）組距分組。組距分組是將全部變量值劃分為若干區(qū)間，每一個區(qū)間的變量值即為一組的分組方法。該方法適用于連續(xù)變量或變量值比較多的情況。在組距分組中，每一組的最小值稱為下限（lowerlimit)，每一組的最大值稱為上限（upperlimit）。組距分組需要確定組數(shù)、組距和組限等。分組步驟。一是確定組數(shù)。組數(shù)的確定是為了觀察數(shù)據(jù)分布特征的需要。組數(shù)的確定既要參考已有經(jīng)驗，也要結(jié)合數(shù)據(jù)的特點和多少。在實際分組時，也可以按斯特奇斯（Sturges）提出的經(jīng)驗公式來確定組數(shù)K，作為確定組數(shù)的參考。其中，n為數(shù)據(jù)的個數(shù)；組數(shù)K采用四舍五入的方法取整數(shù)。二是確定組距。在進行組距分組時，一定要遵循“不重不漏”的原則，既不能有數(shù)據(jù)被漏掉，也不能有重復(fù)出現(xiàn)的數(shù)據(jù)。為此，在統(tǒng)計分組時，為了避免重復(fù)，按照慣例“上組限不在內(nèi)”原則，當(dāng)相鄰兩組的上限和下限重疊時，與上限值和下限值相同的數(shù)據(jù)，要自動歸入下限值所在的組內(nèi)。如果數(shù)據(jù)是離散的，那么數(shù)據(jù)本身就是間斷的，分組時相鄰兩組的組限可以采用間斷、不重復(fù)的方法解決問題；如果數(shù)據(jù)是連續(xù)的，那么分組時相鄰兩組的組限可以相同、重疊，此時可以遵照“上組限不在內(nèi)”原則解決可能產(chǎn)生的重復(fù)問題。不等距分組。在進行組距分組時，如果因為特殊原因或研究需要，每組的組距不等，那么這樣的分組稱作不等距分組。不等距分組的組距差異比較大，各組的絕對頻數(shù)分布情況不能反映頻數(shù)分布的實際情況，為此，需要計算頻數(shù)密度來消除組距不同對頻數(shù)分布的影響。●等距分組。在進行組距分組時，如果各組的組距相等，那么則稱作等距分組。等距分組的各組頻數(shù)分布不受組距大小的影響，與用來消除組距影響的頻數(shù)密度的分布是一致的，因此可以直接用每組的絕對頻數(shù)來觀察頻數(shù)分布的特征和規(guī)律?！窠M中值。組距分組只是對數(shù)據(jù)的整體情況進行了描述，但是對于組內(nèi)數(shù)據(jù)的分布狀況沒有反映，為此可以采用組中值作為各個分組數(shù)據(jù)的代表值。11.2單變量數(shù)據(jù)集中趨勢的度量指標(biāo)集中趨勢是指一組數(shù)據(jù)向某一中心值靠攏的程度，尋找一組數(shù)據(jù)中心點的位置是度量集中趨勢的關(guān)鍵。11.2.1眾數(shù)眾數(shù)是指一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值，可以用表示。眾數(shù)適用于對所有數(shù)據(jù)的集中趨勢進行度量，特別適用于定性數(shù)據(jù)的集中趨勢度量。一組數(shù)據(jù)可能有一個或幾個眾數(shù)。當(dāng)出現(xiàn)一個眾數(shù)的時候，代表一組數(shù)據(jù)中只有這一個變量值的頻數(shù)最高；如果一組數(shù)據(jù)出現(xiàn)了兩個眾數(shù)，那么該數(shù)據(jù)分布稱作“雙峰分布”；如果一組數(shù)據(jù)出現(xiàn)了三個眾數(shù)，則稱作“三峰分布”。如果一組數(shù)據(jù)沒有明顯的集中趨勢，那么也可能不存在眾數(shù)。11.2.2中位數(shù)和分位數(shù)（１）中位數(shù)。中位數(shù)是指按某一標(biāo)志量將一組數(shù)據(jù)從小到大排序后處于中間位置的變量值，可以用表示。中位數(shù)是一個位置的代表值?！窀鶕?jù)未分組數(shù)據(jù)確定中位數(shù)。步驟如下：①對數(shù)據(jù)進行排序。假設(shè)某一變量的一組數(shù)據(jù)值分別為按從小到大排序為。式中的n為數(shù)據(jù)個數(shù)。②確定中位數(shù)的位置。③確定中位數(shù)的值。當(dāng)n為奇數(shù)時，當(dāng)n為偶數(shù)時，●根據(jù)分組數(shù)據(jù)確定中位數(shù)。步驟如下：①確定中位數(shù)的位置。②確定中位數(shù)所在的組。在向上累積的頻數(shù)分布中找到“中位數(shù)的位置”所在的組，這就是中位數(shù)組。③確定中位數(shù)的值。由于中位數(shù)組是一個區(qū)間，可用如下公式計算中位數(shù)的近似值：（２）四分位數(shù)。常用的四分位數(shù)是通過三個點將全部數(shù)據(jù)分為四部分，每部分包括25%的數(shù)據(jù)，處在分位點上的數(shù)值就是四分位數(shù)。第一個四分位數(shù)稱為下四分位數(shù)；第二個四分位數(shù)，也就是中間四分位數(shù)，就是中位數(shù)；第三個四分位數(shù)稱為上四分位數(shù)?！窀鶕?jù)未分組數(shù)據(jù)確定四分位數(shù)。步驟如下：①對數(shù)據(jù)進行排序。②確定四分位數(shù)的位置。③確定四分位數(shù)的值。當(dāng)四分位數(shù)的位置在某一個具體數(shù)值上時，這個值就是分位數(shù)值；當(dāng)四分位數(shù)的位置不在某一個具體數(shù)值上時，需要按照四分位數(shù)的位置，按比例分?jǐn)偹姆治粩?shù)位置兩側(cè)數(shù)值的差值?！窀鶕?jù)分組數(shù)據(jù)確定四分位數(shù)。步驟如下：①確定下分位數(shù)QL和上分位數(shù)QU的位置。②確定下分位數(shù)QL和上分位數(shù)QU所在的組。在向上累積的頻數(shù)分布中找到“四分位數(shù)的位置”所在的組，這就是四分位數(shù)所在的組。③確定四分位數(shù)的值。仿照中位數(shù)的近似值計算公式，可得計算下四分位數(shù)和上四分位數(shù)近似值的公式如下：11.2.3均值均值是指算數(shù)平均數(shù)，是全部數(shù)據(jù)加總后除以數(shù)據(jù)個數(shù)而得到的值。均值在統(tǒng)計學(xué)中具有重要地位，是數(shù)據(jù)集中趨勢的最主要度量指標(biāo)。算數(shù)平均數(shù)的計算方法主要適用于數(shù)學(xué)特性強的定距數(shù)據(jù)和定比數(shù)據(jù)，不適用于定類數(shù)據(jù)和定序數(shù)據(jù)。（１）未分組數(shù)據(jù)的算數(shù)平均數(shù)的計算方法。（２）分組數(shù)據(jù)的算數(shù)平均數(shù)的計算方法。11.2.4眾數(shù)、中位數(shù)和均值的關(guān)系眾數(shù)、中位數(shù)和均值是集中趨勢的主要度量指標(biāo)，具有不同的特點和適用性。對于具有單峰分布的數(shù)據(jù)而言，眾數(shù)是一組數(shù)據(jù)中頻數(shù)最多的變量值，一定位于數(shù)據(jù)單峰分布中的最高峰；中位數(shù)是處于一組數(shù)據(jù)中間位置上的值；均值則是全部數(shù)據(jù)的算數(shù)平均值。根據(jù)數(shù)據(jù)分布的特征，眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系見圖11.1。如果數(shù)據(jù)分布是對稱的，那么眾數(shù)、中位數(shù)、均值三者相等，即如果數(shù)據(jù)分布是左偏的，說明數(shù)據(jù)存在極小值，拉動均值向極小值方面靠攏，眾數(shù)、中位數(shù)是位置代表值，不受極值的影響，那么三者的關(guān)系是;如果數(shù)據(jù)分布是右偏的，說明數(shù)據(jù)存在極大值，拉動均值向極大值方面靠攏，眾數(shù)、中位數(shù)是位置代表值，不受極值的影響，那么三者的關(guān)系是:眾數(shù)是位置代表值，其特點是不受極端值的影響，但是眾數(shù)不唯一。雖然所有類型的數(shù)據(jù)都可以計算眾數(shù)，但是眾數(shù)最適用于定類數(shù)據(jù)的集中趨勢度量。中位數(shù)也是位置代表值，其特點是不受極端值的影響，當(dāng)一組數(shù)據(jù)的分布偏斜程度較大時，使用中位數(shù)比較合適。中位數(shù)最適用于定序數(shù)據(jù)的集中趨勢度量。分位數(shù)與中位數(shù)類似。均值是所有數(shù)據(jù)的平均數(shù)，利用了全部數(shù)據(jù)信息，因此，均值的計算容易受到數(shù)據(jù)極端值的影響，對于偏態(tài)分布的數(shù)據(jù)，均值的代表性較差。均值最適用于定距和定比數(shù)值型數(shù)據(jù)的集中趨勢度量。綜上來看，不同類型數(shù)據(jù)的集中趨勢度量需要采用恰當(dāng)?shù)亩攘恐笜?biāo)（見表11.1）。11.3單變量數(shù)據(jù)離散程度的度量指標(biāo)離散程度是指一組數(shù)據(jù)的各個變量值遠(yuǎn)離其中心值（均值）的程度，是考察數(shù)據(jù)分散程度的度量方法。一組數(shù)據(jù)的離散程度越大，其均值的代表性就越差；一組數(shù)據(jù)的離散程度越小，其均值的代表性就越好。11.3.1異眾比率異眾比率，又稱作離異比率或變差比，是指非眾數(shù)組的頻數(shù)占總頻數(shù)的比率。計算公式為：異眾比率越大，說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大，眾數(shù)的代表性就越差。異眾比率越小，說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小，眾數(shù)的代表性就越好。異眾比率指標(biāo)適用于定類數(shù)據(jù)的離散程度的度量，當(dāng)然也適用于定序、定距和定比數(shù)據(jù)的離散程度的度量11.3.2四分位差四分位差，也稱為內(nèi)距或四分間距，即上四分位數(shù)減去下四分位數(shù)的差值，用QD表示。計算公式為：四分位差反映了排序之后的一組數(shù)據(jù)中間50%數(shù)據(jù)的離散程度。四分位差的數(shù)值越小，說明中間數(shù)據(jù)越集中。四分位差的數(shù)值越大，說明中間數(shù)據(jù)越分散。11.3.3方差和標(biāo)準(zhǔn)差方差和標(biāo)準(zhǔn)差是最廣泛使用的離散程度度量指標(biāo)。方差是一組數(shù)據(jù)中變量各個值與其均值的離差平方值的平均數(shù)。標(biāo)準(zhǔn)差是方差的平方根。（１）總體方差和標(biāo)準(zhǔn)差。與方差不同的是，經(jīng)過開平方獲得的標(biāo)準(zhǔn)差具有與變量值相同的計量單位（量綱），因此其實際意義比方差更清楚，在對實際問題的分析中使用更方便。未分組數(shù)據(jù)的總體方差和標(biāo)準(zhǔn)差。計算公式為：組距分組數(shù)據(jù)的總體方差和標(biāo)準(zhǔn)差。計算公式為：（２）樣本方差和標(biāo)準(zhǔn)差?！裎捶纸M數(shù)據(jù)的樣本方差和標(biāo)準(zhǔn)差。計算公式為：組距分組數(shù)據(jù)的樣本方差和標(biāo)準(zhǔn)差。計算公式為：11.3.4離散系數(shù)離散系數(shù)，又稱變異系數(shù)，使用比較多的離散系數(shù)是標(biāo)準(zhǔn)差系數(shù)，是利用一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的均值對比而獲得的系數(shù)?？梢杂肰表示。離散系數(shù)的計算公式為：離散系數(shù)的特點是可以消除標(biāo)準(zhǔn)差、方差等離散程度度量指標(biāo)的量綱，其作用是可以比較不同總體或樣本數(shù)據(jù)的離散程度。離散系數(shù)大的，說明變量數(shù)據(jù)的離散程度大；離散系數(shù)小的，說明變量數(shù)據(jù)的離散程度小?？偨Y(jié)：不同類型的數(shù)據(jù)適宜采用的離散程度度量方法也不相同，調(diào)研人員要根據(jù)所收集的數(shù)據(jù)采用恰當(dāng)?shù)亩攘糠椒ǎㄒ姳?1.2）。定類數(shù)據(jù)適合采用異眾比率度量離散程度；定序數(shù)據(jù)可以采用異眾比率來度量離散程度，但是更適合采用四分位差度量方法；定距數(shù)據(jù)和定比數(shù)據(jù)最適合采用方差和標(biāo)準(zhǔn)差來度量離散程度，離散系數(shù)則最適合用于比較不同總體或樣本數(shù)據(jù)的離散程度。11.4數(shù)據(jù)分布形態(tài)的描述11.4.1偏態(tài)及其度量偏態(tài)是對數(shù)據(jù)分布的偏斜方向和程度的度量。雖然利用眾數(shù)、中位數(shù)和均值的關(guān)系可以判斷數(shù)據(jù)分布是對稱的，還是左偏或是右偏的，但是要精確判斷數(shù)據(jù)分布不對稱的方向和程度，計算偏度系數(shù)更為有效。偏度系數(shù)的計算公式為：不分組數(shù)據(jù)：組距分組數(shù)據(jù)：當(dāng)分布對稱時，離差三次方后的正負(fù)值相互抵消，公式中的分子等于０，則α３＝０。當(dāng)分布不對稱時，分子上的正負(fù)值不能相互抵消。當(dāng)α３＞０時，表示正偏離值比較大，可以判斷一組數(shù)據(jù)的分布呈右偏或正偏狀態(tài)；當(dāng)α３＜０時，表示負(fù)偏離值比較大，可以判斷一組數(shù)據(jù)的分布呈左偏或負(fù)偏狀態(tài)。總結(jié)為：偏度系數(shù)α３的值沒有一定的分界線，一般當(dāng)α３＞2時，就表明數(shù)據(jù)偏斜程度很大了。11.4.2峰度及其度量峰度是指數(shù)據(jù)分布圖形與正態(tài)分布相比較的尖峭程度。如果數(shù)據(jù)分布圖形比正態(tài)分布更高、更瘦，則稱作尖峰分布；如果數(shù)據(jù)分布圖形比正態(tài)分布更矮、更胖，則稱作平峰分布。判斷峰度程度可以用峰度系數(shù)指標(biāo)來度量。峰度系數(shù)的計算公式為：正態(tài)分布的峰度指標(biāo)為常數(shù)３。因此，與正態(tài)分布的峰度相比較，當(dāng)α４＞３時，數(shù)據(jù)分布的圖形為尖峰分布；當(dāng)α４＜３時，數(shù)據(jù)分布的圖形為平峰分布?？偨Y(jié)為：11.5案例：單變量數(shù)據(jù)的描述統(tǒng)計案例所用數(shù)據(jù)來自城市消費者新能源汽車購買意愿的調(diào)查數(shù)據(jù)。該數(shù)據(jù)僅用于學(xué)習(xí)使用，不代表真實的市場情況。數(shù)據(jù)可從下載，文件名為“ch11data”。此章節(jié)可用于教師上課講解，也可以用于課后的學(xué)生訓(xùn)練使用，可以讓學(xué)生先實際操作，然后再教師答疑。目的是把11.1至11.4的章節(jié)內(nèi)容貫穿起來，使學(xué)生們很好地掌握單變量數(shù)據(jù)的描述統(tǒng)計方法，11.5.1定類數(shù)據(jù)的描述統(tǒng)計在城市消費者新能源汽車購買意愿的調(diào)查問卷中，購買意愿被分成了“有購買意愿”和“無購買意愿”兩類，這是典型的二分類變量，變量數(shù)據(jù)是定類數(shù)據(jù)?；谶@一變量的調(diào)查數(shù)據(jù)，可以進行頻數(shù)、眾數(shù)、異眾比率的描述統(tǒng)計。（１）頻數(shù)。關(guān)于消費者新能源汽車購買意愿的二分類數(shù)據(jù)的頻數(shù)統(tǒng)計見表11.3。（２）眾數(shù)。眾數(shù)是定類數(shù)據(jù)的唯一的集中趨勢描述指標(biāo)。根據(jù)頻數(shù)分布表11.3可以看出，“無購買意愿”是消費者購買新能源汽車意愿的眾數(shù)。（３）異眾比率。異眾比率是非眾數(shù)組的頻數(shù)占總頻數(shù)的比率。根據(jù)表可知，非眾數(shù)組是“有購買意愿”，異眾比率為46.2%。這個異眾比率的值比較大，說明用“無購買意愿”來反映城市消費者對新能源汽車的購買意愿的一般趨勢，代表性比較差。11.5.2定序數(shù)據(jù)的描述統(tǒng)計在城市消費者新能源汽車購買意愿的調(diào)查問卷中，消費者對氣候變化的關(guān)注度被分成了“完全不關(guān)注”“比較不關(guān)注”“一般關(guān)注”“比較關(guān)注”“非常關(guān)注”五個層次，這五個層次代表了消費者對氣候變化關(guān)注度的不同，這是一個定序變量，變量的賦值依次為“１”“２”“３”“４”“５”。有序數(shù)據(jù)的變量可以進行頻數(shù)、眾數(shù)、中位數(shù)、四分位數(shù)、四分位差的描述統(tǒng)計。（１）頻數(shù)。關(guān)于消費者對氣候變化關(guān)注度的頻數(shù)統(tǒng)計見表11.4。（２）眾數(shù)。根據(jù)表11.4的數(shù)據(jù)可知，出現(xiàn)次數(shù)最多的“一般關(guān)注”是消費者對氣候變化關(guān)注度的眾數(shù)。（３）中位數(shù)。消費者對氣候變化的關(guān)注度本身是一個定序數(shù)據(jù)，５個選項就是變量值，且是排序的，數(shù)據(jù)個數(shù)狀為238，是偶數(shù)。根據(jù)未分組數(shù)據(jù)的中位數(shù)計算方法，對238個數(shù)據(jù)從小到大進行排列。計算中位數(shù)的位置為，即表示中位數(shù)位置落在第119個數(shù)和第120個數(shù)之間，計算可得中位數(shù)值是３，是“一般關(guān)注”的值。因此，中位數(shù)是“一般關(guān)注”。另外，根據(jù)表11.4中的向上累積頻數(shù)分布可知，中位數(shù)的位置119.5也落在“一般關(guān)注”這一類中，也證明了中位數(shù)是“一般關(guān)注”。（４）四分位數(shù)。仍以消費者對氣候變化的關(guān)注度為例，四分位數(shù)的確定步驟如下：對數(shù)據(jù)進行排序，確定四分位數(shù)的位置和值。下四分位數(shù)QL的位置＝(238+1)/4＝59.75。表示下四分位數(shù)的位置落在第59個數(shù)和第60個數(shù)之間，計算可得中位數(shù)值是２，是“比較不關(guān)注”的值。因此，下四分位數(shù)等于“比較不關(guān)注”。另外，根據(jù)表11.4中的向上累積頻數(shù)分布可知，下四分位數(shù)的位置59.75也落在“比較不關(guān)注”這一類中，也證明了下四分位數(shù)等于“比較不關(guān)注”。（５）四分位差。利用上述計算的上四分位數(shù)QU與下四分位數(shù)QL，可以計算二者之差QD=4-2=2。這說明，中位數(shù)（一般關(guān)注）兩側(cè)共有50％的消費者對氣候變化的關(guān)注度介于“比較不關(guān)注”和“比較關(guān)注”之間。11.5.3定距和定比數(shù)據(jù)的描述統(tǒng)計以城市消費者新能源汽車購買意愿的調(diào)查數(shù)據(jù)為例?！跋M者家庭年總收入”變量收集的是連續(xù)的數(shù)值型數(shù)據(jù)，屬于定距和定比數(shù)據(jù)類型。樣本變量可以采用分組、均值、方差、標(biāo)準(zhǔn)差等多個指標(biāo)進行描述統(tǒng)計。（１）分組。對于“消費者家庭年總收入”連續(xù)變量，可以采取分組的方法進行描述?！竦染喾纸M。首先，確定組數(shù)。其次，確定組距。最后，進行分組。分組結(jié)果見表11.5。等距分組的特點是：各組頻數(shù)的多少不受組距大小的影響，不需要消除組距對頻數(shù)分布的影響，可以直接通過各組的頻數(shù)來觀察頻數(shù)分布的特征。但組距分組掩蓋了各組內(nèi)的數(shù)據(jù)分布情況。為了反映各組數(shù)據(jù)的一般水平，可以通過計算組中值作為各組的一個代表值。表11.5中列出了組中值的大小。除了采用表格的形式對數(shù)據(jù)進行描述，還可以采用圖形對數(shù)據(jù)進行展示。比如，關(guān)于家庭年總收入分組數(shù)據(jù)的描述，可以采用圖11.2中直方圖和折線圖的形式來表示?！癫坏染喾纸M。根據(jù)表11.5展示的分組結(jié)果可以發(fā)現(xiàn)，等距分組的結(jié)果是高收入組的頻數(shù)較少，頻數(shù)在各組間的分布不均衡。雖然這樣的分組并不影響對數(shù)據(jù)的基本了解，但是對于進一步量化分析的需要，特別是對于判斷低收入組消費者對新能源汽車的購買意愿的影響，表11.5的分組不利于進一步的分析。另外，基于對數(shù)據(jù)的基本了解可以發(fā)現(xiàn)，全部數(shù)據(jù)中最大值和最小值與其他數(shù)據(jù)相差比較大，為了避免出現(xiàn)空白組或者數(shù)據(jù)被漏掉的情況，可以考慮設(shè)置第一組和最后一組為開口組。為了簡化分組，下面采用不等距分組的方法，對家庭年總收入進行分組，結(jié)果見表11.6。不等距分組的特點是：各組頻數(shù)的多少受組距大小的影響，各組頻數(shù)的多少不能反映頻數(shù)分布的實際情況，需要消除組距不同對頻數(shù)分布的影響。（２）樣本均值。根據(jù)未分組原始數(shù)據(jù)計算的消費者家庭年總收入變量的均值為：根據(jù)表11.5的分組數(shù)據(jù)，可知家庭年總收入的數(shù)據(jù)被分成了９組，根據(jù)各組的組中值和頻數(shù)，可得消費者家庭年總收入變量的均值為：請同學(xué)們分析：如何看待“根據(jù)原始數(shù)據(jù)計算的均值與分組數(shù)據(jù)計算的均值之差593元”？（３）樣本方差和標(biāo)準(zhǔn)差。根據(jù)未分組原始數(shù)據(jù)計算的消費者家庭年總收入變量的樣本方差和標(biāo)準(zhǔn)差為：根據(jù)分組數(shù)據(jù)計算的消費者家庭年總收入變量的樣本方差和標(biāo)準(zhǔn)差為：（４）離散系數(shù)。按照樣本未分組原始數(shù)據(jù)計算的消費者家庭年總收入變量的離散系數(shù)為：離散系數(shù)說明了單樣本數(shù)據(jù)的家庭年總收入數(shù)據(jù)的離散程度。如果是不同樣本數(shù)據(jù)，那么可以通過離散系數(shù)來比較不同樣本數(shù)據(jù)的質(zhì)量。11.6雙變量數(shù)據(jù)的描述統(tǒng)計11.6.1雙變量交叉列表雙變量交叉列表，也稱為列聯(lián)表、交互分析表，常用來對雙變量和多變量的關(guān)系進行分析。交叉列表是由行和列組成的，行與列交叉的部分被稱作“交叉列表單元格”。一般來講，交叉列表中的“行”指標(biāo)用來表示“因變量Y”，“列”指標(biāo)用來表示“自變量X”。下面仍以城市消費者新能源汽車購買意愿的調(diào)查數(shù)據(jù)為例，用消費者新能源汽車的購買意愿變量（will）和對氣候變化的關(guān)注度變量（cc）構(gòu)建交叉列表，并進行交叉分析，判斷兩個變量之間的關(guān)系。（１）頻數(shù)交叉列表。表11.7是兩個變量數(shù)據(jù)的頻數(shù)交叉列表，反映了消費者新能源汽車的購買意愿和對氣候變化的關(guān)注度兩個變量的交互信息，構(gòu)成了一個２行、５列的列聯(lián)表，也記作２×５列聯(lián)表。在表11.7中，“行合計”，也稱作“行邊緣頻數(shù)”，由行數(shù)據(jù)加總而得的，如“無購買意愿”的消費者為128人，“有購買意愿”的消費者為110人；“列合計”，也稱作“列邊緣頻數(shù)”，是由各列的數(shù)據(jù)匯總而得的，如表格中的28人、44人、62人、58人、46人；“總合計”是行合計或列合計的頻數(shù)之和，如表中的238人。這樣，列聯(lián)表所表現(xiàn)的就是在變量X條件下變量Y的分布，或者在變量Y條件下變量X的分布，因此，列聯(lián)表中的觀察值分布稱為條件分布，每個具體的觀察值就是條件頻數(shù)，如表中的15人、24人、33人、26人、30人、13人、20人、29人、32人、16人就是條件頻數(shù)。（２）百分比交叉列表。按照百分比計算方式不同，百分比交叉列表可以分成三類：原始百分比交叉列表、列百分比交叉列表和行百分比交叉列表。表11.8將表11.7的條件頻數(shù)分布表轉(zhuǎn)化為原始百分比交叉列表。原始百分比交叉列表展示的是交叉列表單元格中的原始條件頻數(shù)占總合計的百分比。表11.9是將表11.7的條件頻數(shù)分布表轉(zhuǎn)化為列百分比交叉列表。列百分比交叉列表展示的是交叉列表單元格中的原始條件頻數(shù)占列合計的百分比。表11.10將表11.7的條件頻數(shù)分布表轉(zhuǎn)化為行百分比交叉列表。行百分比交叉列表展示的是交叉列表單元格中的原始條件頻數(shù)占行合計的百分比。11.6.2相關(guān)測量以上的雙變量交叉表是對兩個變量數(shù)據(jù)的交互頻數(shù)進行描述，根據(jù)交叉表，我們可以做一些可能的推斷，但是對于變量間是否存在相關(guān)關(guān)系，還需要進一步進行相關(guān)測量，用一個統(tǒng)計值來表示變量和變量間的關(guān)系，這個值通常稱為相關(guān)系數(shù)。相關(guān)系數(shù)的測量方法比較多，主要的選擇準(zhǔn)則包括：一是考慮變量數(shù)據(jù)的測量類型，根據(jù)數(shù)據(jù)的數(shù)學(xué)特性來確定變量類型。二是考慮兩個變量的影響方向，當(dāng)兩個變量是純粹的獨立變量，不分自變量和因變量時，那么這兩個變量之間是對稱關(guān)系；當(dāng)兩個變量劃分自變量和因變量時，那么這兩個變量之間是不對稱關(guān)系。三是考慮統(tǒng)計值的意義。根據(jù)定類、定序和定距數(shù)據(jù)的特點，主要考慮以下幾種統(tǒng)計量（見表11.11）消費者新能源汽車的購買意愿是定類變量，對氣候變化的關(guān)注度是定序變量。如果按照相

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

市場調(diào)查與預(yù)測課件：描述統(tǒng)計方法

文檔簡介

溫馨提示

最新文檔

評論

市場調(diào)查與預(yù)測課件：描述統(tǒng)計方法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔