市場調(diào)查與預(yù)測課件:描述統(tǒng)計方法_第1頁
市場調(diào)查與預(yù)測課件:描述統(tǒng)計方法_第2頁
市場調(diào)查與預(yù)測課件:描述統(tǒng)計方法_第3頁
市場調(diào)查與預(yù)測課件:描述統(tǒng)計方法_第4頁
市場調(diào)查與預(yù)測課件:描述統(tǒng)計方法_第5頁
已閱讀5頁,還剩68頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

描述統(tǒng)計方法本章內(nèi)容:11.1

單變量數(shù)據(jù)的基礎(chǔ)描述指標(biāo)

11.2單變量數(shù)據(jù)集中趨勢的度量指標(biāo)11.3單變量數(shù)據(jù)離散程度的度量指標(biāo)11.4數(shù)據(jù)分布形態(tài)的描述11.5案例:單變量數(shù)據(jù)的描述統(tǒng)計11.6雙變量數(shù)據(jù)的描述統(tǒng)計學(xué)習(xí)目標(biāo):掌握定類、定序、定距、定比四類數(shù)據(jù)描述統(tǒng)計指標(biāo)選擇上的差異化;掌握單變量數(shù)據(jù)集中趨勢和離散程度度量的指標(biāo)和計算方法;掌握雙變量交叉分析方法和相關(guān)系數(shù)的應(yīng)用。11.1單變量數(shù)據(jù)的基礎(chǔ)描述指標(biāo)11.1.1定類數(shù)據(jù)定類數(shù)據(jù)本身是對現(xiàn)象特征分類的數(shù)字表達。市場調(diào)查中關(guān)于消費者性別、產(chǎn)品品牌類型、廣告形式等的數(shù)字表達,都屬于定類數(shù)據(jù)。關(guān)于定類數(shù)據(jù)的基本描述方法主要是頻數(shù)、比例、比率等。(1)頻數(shù)。頻數(shù)是指變量分布在各個類別的數(shù)據(jù)個數(shù),也稱作次數(shù)。把各個類別的頻數(shù)分別列出來就是頻數(shù)分布;用表格的形式列出來就是頻數(shù)分布表。(2)比例。比例是指總體中各類別的頻數(shù)分別占總頻數(shù)的比重,通常用來反映總體的構(gòu)成,反映的是部分與總體之間的關(guān)系。將計算出的比例乘以100%,可得百分比。(3)比率。比率是指總體中各個類別之間的頻數(shù)比值,反映的是總體中部分與部分之間的關(guān)系。比率也可以用來反映同一現(xiàn)象在不同時間或空間上的數(shù)量關(guān)系。11.1.2定序數(shù)據(jù)定序數(shù)據(jù)本身是對現(xiàn)象特征在有序分類基礎(chǔ)上的數(shù)字表達。定序數(shù)據(jù)具有定類數(shù)據(jù)的特點,但是強調(diào)分類的前后位置和排列順序。(1)累積頻數(shù)。累積頻數(shù)方法是把總體中各類別的頻數(shù)依順序逐級累加起來的方法。從類別順序開始的位置依次向后進行累加,稱為向上累積;從類別順序最后的位置依次向前進行累加,稱為向下累積。該方法反映某一類別以上或某一類別以下的頻數(shù)之和。(2)累積頻數(shù)百分比。累積頻數(shù)百分比方法是將各類別頻數(shù)占總頻數(shù)的百分比逐級累加起來的方法。在計算市場集中度的方法中,經(jīng)常使用的洛倫茲曲線就是應(yīng)用累積頻數(shù)百分比方法繪制累積頻數(shù)分布圖的典型。11.1.3定距和定比數(shù)據(jù)定距和定比數(shù)據(jù)的數(shù)學(xué)特性高于定類和定序數(shù)據(jù),用來描述定類和定序數(shù)據(jù)的方法皆適用于定距和定比數(shù)據(jù)。(1)單變量值分組。單變量值分組是把每一個變量值單獨作為一組。一個數(shù)值即是一組,變量值相同的,視為一組;相同變量值的個數(shù),即是這個變量值的頻數(shù)。(2)組距分組。組距分組是將全部變量值劃分為若干區(qū)間,每一個區(qū)間的變量值即為一組的分組方法。該方法適用于連續(xù)變量或變量值比較多的情況。在組距分組中,每一組的最小值稱為下限(lowerlimit),每一組的最大值稱為上限(upperlimit)。組距分組需要確定組數(shù)、組距和組限等。分組步驟。一是確定組數(shù)。組數(shù)的確定是為了觀察數(shù)據(jù)分布特征的需要。組數(shù)的確定既要參考已有經(jīng)驗,也要結(jié)合數(shù)據(jù)的特點和多少。在實際分組時,也可以按斯特奇斯(Sturges)提出的經(jīng)驗公式來確定組數(shù)K,作為確定組數(shù)的參考。其中,n為數(shù)據(jù)的個數(shù);組數(shù)K采用四舍五入的方法取整數(shù)。二是確定組距。在進行組距分組時,一定要遵循“不重不漏”的原則,既不能有數(shù)據(jù)被漏掉,也不能有重復(fù)出現(xiàn)的數(shù)據(jù)。為此,在統(tǒng)計分組時,為了避免重復(fù),按照慣例“上組限不在內(nèi)”原則,當(dāng)相鄰兩組的上限和下限重疊時,與上限值和下限值相同的數(shù)據(jù),要自動歸入下限值所在的組內(nèi)。如果數(shù)據(jù)是離散的,那么數(shù)據(jù)本身就是間斷的,分組時相鄰兩組的組限可以采用間斷、不重復(fù)的方法解決問題;如果數(shù)據(jù)是連續(xù)的,那么分組時相鄰兩組的組限可以相同、重疊,此時可以遵照“上組限不在內(nèi)”原則解決可能產(chǎn)生的重復(fù)問題。不等距分組。在進行組距分組時,如果因為特殊原因或研究需要,每組的組距不等,那么這樣的分組稱作不等距分組。不等距分組的組距差異比較大,各組的絕對頻數(shù)分布情況不能反映頻數(shù)分布的實際情況,為此,需要計算頻數(shù)密度來消除組距不同對頻數(shù)分布的影響。●等距分組。在進行組距分組時,如果各組的組距相等,那么則稱作等距分組。等距分組的各組頻數(shù)分布不受組距大小的影響,與用來消除組距影響的頻數(shù)密度的分布是一致的,因此可以直接用每組的絕對頻數(shù)來觀察頻數(shù)分布的特征和規(guī)律?!窠M中值。組距分組只是對數(shù)據(jù)的整體情況進行了描述,但是對于組內(nèi)數(shù)據(jù)的分布狀況沒有反映,為此可以采用組中值作為各個分組數(shù)據(jù)的代表值。11.2單變量數(shù)據(jù)集中趨勢的度量指標(biāo)集中趨勢是指一組數(shù)據(jù)向某一中心值靠攏的程度,尋找一組數(shù)據(jù)中心點的位置是度量集中趨勢的關(guān)鍵。11.2.1眾數(shù)眾數(shù)是指一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,可以用表示。眾數(shù)適用于對所有數(shù)據(jù)的集中趨勢進行度量,特別適用于定性數(shù)據(jù)的集中趨勢度量。一組數(shù)據(jù)可能有一個或幾個眾數(shù)。當(dāng)出現(xiàn)一個眾數(shù)的時候,代表一組數(shù)據(jù)中只有這一個變量值的頻數(shù)最高;如果一組數(shù)據(jù)出現(xiàn)了兩個眾數(shù),那么該數(shù)據(jù)分布稱作“雙峰分布”;如果一組數(shù)據(jù)出現(xiàn)了三個眾數(shù),則稱作“三峰分布”。如果一組數(shù)據(jù)沒有明顯的集中趨勢,那么也可能不存在眾數(shù)。11.2.2中位數(shù)和分位數(shù)(1)中位數(shù)。中位數(shù)是指按某一標(biāo)志量將一組數(shù)據(jù)從小到大排序后處于中間位置的變量值,可以用表示。中位數(shù)是一個位置的代表值?!窀鶕?jù)未分組數(shù)據(jù)確定中位數(shù)。步驟如下:①對數(shù)據(jù)進行排序。假設(shè)某一變量的一組數(shù)據(jù)值分別為按從小到大排序為。式中的n為數(shù)據(jù)個數(shù)。②確定中位數(shù)的位置。③確定中位數(shù)的值。當(dāng)n為奇數(shù)時,當(dāng)n為偶數(shù)時,●根據(jù)分組數(shù)據(jù)確定中位數(shù)。步驟如下:①確定中位數(shù)的位置。②確定中位數(shù)所在的組。在向上累積的頻數(shù)分布中找到“中位數(shù)的位置”所在的組,這就是中位數(shù)組。③確定中位數(shù)的值。由于中位數(shù)組是一個區(qū)間,可用如下公式計算中位數(shù)的近似值:(2)四分位數(shù)。常用的四分位數(shù)是通過三個點將全部數(shù)據(jù)分為四部分,每部分包括25%的數(shù)據(jù),處在分位點上的數(shù)值就是四分位數(shù)。第一個四分位數(shù)稱為下四分位數(shù);第二個四分位數(shù),也就是中間四分位數(shù),就是中位數(shù);第三個四分位數(shù)稱為上四分位數(shù)?!窀鶕?jù)未分組數(shù)據(jù)確定四分位數(shù)。步驟如下:①對數(shù)據(jù)進行排序。②確定四分位數(shù)的位置。③確定四分位數(shù)的值。當(dāng)四分位數(shù)的位置在某一個具體數(shù)值上時,這個值就是分位數(shù)值;當(dāng)四分位數(shù)的位置不在某一個具體數(shù)值上時,需要按照四分位數(shù)的位置,按比例分?jǐn)偹姆治粩?shù)位置兩側(cè)數(shù)值的差值?!窀鶕?jù)分組數(shù)據(jù)確定四分位數(shù)。步驟如下:①確定下分位數(shù)QL和上分位數(shù)QU的位置。②確定下分位數(shù)QL和上分位數(shù)QU所在的組。在向上累積的頻數(shù)分布中找到“四分位數(shù)的位置”所在的組,這就是四分位數(shù)所在的組。③確定四分位數(shù)的值。仿照中位數(shù)的近似值計算公式,可得計算下四分位數(shù)和上四分位數(shù)近似值的公式如下:11.2.3均值均值是指算數(shù)平均數(shù),是全部數(shù)據(jù)加總后除以數(shù)據(jù)個數(shù)而得到的值。均值在統(tǒng)計學(xué)中具有重要地位,是數(shù)據(jù)集中趨勢的最主要度量指標(biāo)。算數(shù)平均數(shù)的計算方法主要適用于數(shù)學(xué)特性強的定距數(shù)據(jù)和定比數(shù)據(jù),不適用于定類數(shù)據(jù)和定序數(shù)據(jù)。(1)未分組數(shù)據(jù)的算數(shù)平均數(shù)的計算方法。(2)分組數(shù)據(jù)的算數(shù)平均數(shù)的計算方法。11.2.4眾數(shù)、中位數(shù)和均值的關(guān)系眾數(shù)、中位數(shù)和均值是集中趨勢的主要度量指標(biāo),具有不同的特點和適用性。對于具有單峰分布的數(shù)據(jù)而言,眾數(shù)是一組數(shù)據(jù)中頻數(shù)最多的變量值,一定位于數(shù)據(jù)單峰分布中的最高峰;中位數(shù)是處于一組數(shù)據(jù)中間位置上的值;均值則是全部數(shù)據(jù)的算數(shù)平均值。根據(jù)數(shù)據(jù)分布的特征,眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系見圖11.1。如果數(shù)據(jù)分布是對稱的,那么眾數(shù)、中位數(shù)、均值三者相等,即如果數(shù)據(jù)分布是左偏的,說明數(shù)據(jù)存在極小值,拉動均值向極小值方面靠攏,眾數(shù)、中位數(shù)是位置代表值,不受極值的影響,那么三者的關(guān)系是;如果數(shù)據(jù)分布是右偏的,說明數(shù)據(jù)存在極大值,拉動均值向極大值方面靠攏,眾數(shù)、中位數(shù)是位置代表值,不受極值的影響,那么三者的關(guān)系是:眾數(shù)是位置代表值,其特點是不受極端值的影響,但是眾數(shù)不唯一。雖然所有類型的數(shù)據(jù)都可以計算眾數(shù),但是眾數(shù)最適用于定類數(shù)據(jù)的集中趨勢度量。中位數(shù)也是位置代表值,其特點是不受極端值的影響,當(dāng)一組數(shù)據(jù)的分布偏斜程度較大時,使用中位數(shù)比較合適。中位數(shù)最適用于定序數(shù)據(jù)的集中趨勢度量。分位數(shù)與中位數(shù)類似。均值是所有數(shù)據(jù)的平均數(shù),利用了全部數(shù)據(jù)信息,因此,均值的計算容易受到數(shù)據(jù)極端值的影響,對于偏態(tài)分布的數(shù)據(jù),均值的代表性較差。均值最適用于定距和定比數(shù)值型數(shù)據(jù)的集中趨勢度量。綜上來看,不同類型數(shù)據(jù)的集中趨勢度量需要采用恰當(dāng)?shù)亩攘恐笜?biāo)(見表11.1)。11.3單變量數(shù)據(jù)離散程度的度量指標(biāo)離散程度是指一組數(shù)據(jù)的各個變量值遠(yuǎn)離其中心值(均值)的程度,是考察數(shù)據(jù)分散程度的度量方法。一組數(shù)據(jù)的離散程度越大,其均值的代表性就越差;一組數(shù)據(jù)的離散程度越小,其均值的代表性就越好。11.3.1異眾比率異眾比率,又稱作離異比率或變差比,是指非眾數(shù)組的頻數(shù)占總頻數(shù)的比率。計算公式為:異眾比率越大,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大,眾數(shù)的代表性就越差。異眾比率越小,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小,眾數(shù)的代表性就越好。異眾比率指標(biāo)適用于定類數(shù)據(jù)的離散程度的度量,當(dāng)然也適用于定序、定距和定比數(shù)據(jù)的離散程度的度量11.3.2四分位差四分位差,也稱為內(nèi)距或四分間距,即上四分位數(shù)減去下四分位數(shù)的差值,用QD表示。計算公式為:四分位差反映了排序之后的一組數(shù)據(jù)中間50%數(shù)據(jù)的離散程度。四分位差的數(shù)值越小,說明中間數(shù)據(jù)越集中。四分位差的數(shù)值越大,說明中間數(shù)據(jù)越分散。11.3.3方差和標(biāo)準(zhǔn)差方差和標(biāo)準(zhǔn)差是最廣泛使用的離散程度度量指標(biāo)。方差是一組數(shù)據(jù)中變量各個值與其均值的離差平方值的平均數(shù)。標(biāo)準(zhǔn)差是方差的平方根。(1)總體方差和標(biāo)準(zhǔn)差。與方差不同的是,經(jīng)過開平方獲得的標(biāo)準(zhǔn)差具有與變量值相同的計量單位(量綱),因此其實際意義比方差更清楚,在對實際問題的分析中使用更方便。未分組數(shù)據(jù)的總體方差和標(biāo)準(zhǔn)差。計算公式為:組距分組數(shù)據(jù)的總體方差和標(biāo)準(zhǔn)差。計算公式為:(2)樣本方差和標(biāo)準(zhǔn)差?!裎捶纸M數(shù)據(jù)的樣本方差和標(biāo)準(zhǔn)差。計算公式為:組距分組數(shù)據(jù)的樣本方差和標(biāo)準(zhǔn)差。計算公式為:11.3.4離散系數(shù)離散系數(shù),又稱變異系數(shù),使用比較多的離散系數(shù)是標(biāo)準(zhǔn)差系數(shù),是利用一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的均值對比而獲得的系數(shù)??梢杂肰表示。離散系數(shù)的計算公式為:離散系數(shù)的特點是可以消除標(biāo)準(zhǔn)差、方差等離散程度度量指標(biāo)的量綱,其作用是可以比較不同總體或樣本數(shù)據(jù)的離散程度。離散系數(shù)大的,說明變量數(shù)據(jù)的離散程度大;離散系數(shù)小的,說明變量數(shù)據(jù)的離散程度小??偨Y(jié):不同類型的數(shù)據(jù)適宜采用的離散程度度量方法也不相同,調(diào)研人員要根據(jù)所收集的數(shù)據(jù)采用恰當(dāng)?shù)亩攘糠椒ǎㄒ姳?1.2)。定類數(shù)據(jù)適合采用異眾比率度量離散程度;定序數(shù)據(jù)可以采用異眾比率來度量離散程度,但是更適合采用四分位差度量方法;定距數(shù)據(jù)和定比數(shù)據(jù)最適合采用方差和標(biāo)準(zhǔn)差來度量離散程度,離散系數(shù)則最適合用于比較不同總體或樣本數(shù)據(jù)的離散程度。11.4數(shù)據(jù)分布形態(tài)的描述11.4.1偏態(tài)及其度量偏態(tài)是對數(shù)據(jù)分布的偏斜方向和程度的度量。雖然利用眾數(shù)、中位數(shù)和均值的關(guān)系可以判斷數(shù)據(jù)分布是對稱的,還是左偏或是右偏的,但是要精確判斷數(shù)據(jù)分布不對稱的方向和程度,計算偏度系數(shù)更為有效。偏度系數(shù)的計算公式為:不分組數(shù)據(jù):組距分組數(shù)據(jù):當(dāng)分布對稱時,離差三次方后的正負(fù)值相互抵消,公式中的分子等于0,則α3=0。當(dāng)分布不對稱時,分子上的正負(fù)值不能相互抵消。當(dāng)α3>0時,表示正偏離值比較大,可以判斷一組數(shù)據(jù)的分布呈右偏或正偏狀態(tài);當(dāng)α3<0時,表示負(fù)偏離值比較大,可以判斷一組數(shù)據(jù)的分布呈左偏或負(fù)偏狀態(tài)。總結(jié)為:偏度系數(shù)α3的值沒有一定的分界線,一般當(dāng)α3>2時,就表明數(shù)據(jù)偏斜程度很大了。11.4.2峰度及其度量峰度是指數(shù)據(jù)分布圖形與正態(tài)分布相比較的尖峭程度。如果數(shù)據(jù)分布圖形比正態(tài)分布更高、更瘦,則稱作尖峰分布;如果數(shù)據(jù)分布圖形比正態(tài)分布更矮、更胖,則稱作平峰分布。判斷峰度程度可以用峰度系數(shù)指標(biāo)來度量。峰度系數(shù)的計算公式為:正態(tài)分布的峰度指標(biāo)為常數(shù)3。因此,與正態(tài)分布的峰度相比較,當(dāng)α4>3時,數(shù)據(jù)分布的圖形為尖峰分布;當(dāng)α4<3時,數(shù)據(jù)分布的圖形為平峰分布??偨Y(jié)為:11.5案例:單變量數(shù)據(jù)的描述統(tǒng)計案例所用數(shù)據(jù)來自城市消費者新能源汽車購買意愿的調(diào)查數(shù)據(jù)。該數(shù)據(jù)僅用于學(xué)習(xí)使用,不代表真實的市場情況。數(shù)據(jù)可從下載,文件名為“ch11data”。此章節(jié)可用于教師上課講解,也可以用于課后的學(xué)生訓(xùn)練使用,可以讓學(xué)生先實際操作,然后再教師答疑。目的是把11.1至11.4的章節(jié)內(nèi)容貫穿起來,使學(xué)生們很好地掌握單變量數(shù)據(jù)的描述統(tǒng)計方法,11.5.1定類數(shù)據(jù)的描述統(tǒng)計在城市消費者新能源汽車購買意愿的調(diào)查問卷中,購買意愿被分成了“有購買意愿”和“無購買意愿”兩類,這是典型的二分類變量,變量數(shù)據(jù)是定類數(shù)據(jù)?;谶@一變量的調(diào)查數(shù)據(jù),可以進行頻數(shù)、眾數(shù)、異眾比率的描述統(tǒng)計。(1)頻數(shù)。關(guān)于消費者新能源汽車購買意愿的二分類數(shù)據(jù)的頻數(shù)統(tǒng)計見表11.3。(2)眾數(shù)。眾數(shù)是定類數(shù)據(jù)的唯一的集中趨勢描述指標(biāo)。根據(jù)頻數(shù)分布表11.3可以看出,“無購買意愿”是消費者購買新能源汽車意愿的眾數(shù)。(3)異眾比率。異眾比率是非眾數(shù)組的頻數(shù)占總頻數(shù)的比率。根據(jù)表可知,非眾數(shù)組是“有購買意愿”,異眾比率為46.2%。這個異眾比率的值比較大,說明用“無購買意愿”來反映城市消費者對新能源汽車的購買意愿的一般趨勢,代表性比較差。11.5.2定序數(shù)據(jù)的描述統(tǒng)計在城市消費者新能源汽車購買意愿的調(diào)查問卷中,消費者對氣候變化的關(guān)注度被分成了“完全不關(guān)注”“比較不關(guān)注”“一般關(guān)注”“比較關(guān)注”“非常關(guān)注”五個層次,這五個層次代表了消費者對氣候變化關(guān)注度的不同,這是一個定序變量,變量的賦值依次為“1”“2”“3”“4”“5”。有序數(shù)據(jù)的變量可以進行頻數(shù)、眾數(shù)、中位數(shù)、四分位數(shù)、四分位差的描述統(tǒng)計。(1)頻數(shù)。關(guān)于消費者對氣候變化關(guān)注度的頻數(shù)統(tǒng)計見表11.4。(2)眾數(shù)。根據(jù)表11.4的數(shù)據(jù)可知,出現(xiàn)次數(shù)最多的“一般關(guān)注”是消費者對氣候變化關(guān)注度的眾數(shù)。(3)中位數(shù)。消費者對氣候變化的關(guān)注度本身是一個定序數(shù)據(jù),5個選項就是變量值,且是排序的,數(shù)據(jù)個數(shù)狀為238,是偶數(shù)。根據(jù)未分組數(shù)據(jù)的中位數(shù)計算方法,對238個數(shù)據(jù)從小到大進行排列。計算中位數(shù)的位置為,即表示中位數(shù)位置落在第119個數(shù)和第120個數(shù)之間,計算可得中位數(shù)值是3,是“一般關(guān)注”的值。因此,中位數(shù)是“一般關(guān)注”。另外,根據(jù)表11.4中的向上累積頻數(shù)分布可知,中位數(shù)的位置119.5也落在“一般關(guān)注”這一類中,也證明了中位數(shù)是“一般關(guān)注”。(4)四分位數(shù)。仍以消費者對氣候變化的關(guān)注度為例,四分位數(shù)的確定步驟如下:對數(shù)據(jù)進行排序,確定四分位數(shù)的位置和值。下四分位數(shù)QL的位置=(238+1)/4=59.75。表示下四分位數(shù)的位置落在第59個數(shù)和第60個數(shù)之間,計算可得中位數(shù)值是2,是“比較不關(guān)注”的值。因此,下四分位數(shù)等于“比較不關(guān)注”。另外,根據(jù)表11.4中的向上累積頻數(shù)分布可知,下四分位數(shù)的位置59.75也落在“比較不關(guān)注”這一類中,也證明了下四分位數(shù)等于“比較不關(guān)注”。(5)四分位差。利用上述計算的上四分位數(shù)QU與下四分位數(shù)QL,可以計算二者之差QD=4-2=2。這說明,中位數(shù)(一般關(guān)注)兩側(cè)共有50%的消費者對氣候變化的關(guān)注度介于“比較不關(guān)注”和“比較關(guān)注”之間。11.5.3定距和定比數(shù)據(jù)的描述統(tǒng)計以城市消費者新能源汽車購買意愿的調(diào)查數(shù)據(jù)為例?!跋M者家庭年總收入”變量收集的是連續(xù)的數(shù)值型數(shù)據(jù),屬于定距和定比數(shù)據(jù)類型。樣本變量可以采用分組、均值、方差、標(biāo)準(zhǔn)差等多個指標(biāo)進行描述統(tǒng)計。(1)分組。對于“消費者家庭年總收入”連續(xù)變量,可以采取分組的方法進行描述?!竦染喾纸M。首先,確定組數(shù)。其次,確定組距。最后,進行分組。分組結(jié)果見表11.5。等距分組的特點是:各組頻數(shù)的多少不受組距大小的影響,不需要消除組距對頻數(shù)分布的影響,可以直接通過各組的頻數(shù)來觀察頻數(shù)分布的特征。但組距分組掩蓋了各組內(nèi)的數(shù)據(jù)分布情況。為了反映各組數(shù)據(jù)的一般水平,可以通過計算組中值作為各組的一個代表值。表11.5中列出了組中值的大小。除了采用表格的形式對數(shù)據(jù)進行描述,還可以采用圖形對數(shù)據(jù)進行展示。比如,關(guān)于家庭年總收入分組數(shù)據(jù)的描述,可以采用圖11.2中直方圖和折線圖的形式來表示?!癫坏染喾纸M。根據(jù)表11.5展示的分組結(jié)果可以發(fā)現(xiàn),等距分組的結(jié)果是高收入組的頻數(shù)較少,頻數(shù)在各組間的分布不均衡。雖然這樣的分組并不影響對數(shù)據(jù)的基本了解,但是對于進一步量化分析的需要,特別是對于判斷低收入組消費者對新能源汽車的購買意愿的影響,表11.5的分組不利于進一步的分析。另外,基于對數(shù)據(jù)的基本了解可以發(fā)現(xiàn),全部數(shù)據(jù)中最大值和最小值與其他數(shù)據(jù)相差比較大,為了避免出現(xiàn)空白組或者數(shù)據(jù)被漏掉的情況,可以考慮設(shè)置第一組和最后一組為開口組。為了簡化分組,下面采用不等距分組的方法,對家庭年總收入進行分組,結(jié)果見表11.6。不等距分組的特點是:各組頻數(shù)的多少受組距大小的影響,各組頻數(shù)的多少不能反映頻數(shù)分布的實際情況,需要消除組距不同對頻數(shù)分布的影響。(2)樣本均值。根據(jù)未分組原始數(shù)據(jù)計算的消費者家庭年總收入變量的均值為:根據(jù)表11.5的分組數(shù)據(jù),可知家庭年總收入的數(shù)據(jù)被分成了9組,根據(jù)各組的組中值和頻數(shù),可得消費者家庭年總收入變量的均值為:請同學(xué)們分析:如何看待“根據(jù)原始數(shù)據(jù)計算的均值與分組數(shù)據(jù)計算的均值之差593元”?(3)樣本方差和標(biāo)準(zhǔn)差。根據(jù)未分組原始數(shù)據(jù)計算的消費者家庭年總收入變量的樣本方差和標(biāo)準(zhǔn)差為:根據(jù)分組數(shù)據(jù)計算的消費者家庭年總收入變量的樣本方差和標(biāo)準(zhǔn)差為:(4)離散系數(shù)。按照樣本未分組原始數(shù)據(jù)計算的消費者家庭年總收入變量的離散系數(shù)為:離散系數(shù)說明了單樣本數(shù)據(jù)的家庭年總收入數(shù)據(jù)的離散程度。如果是不同樣本數(shù)據(jù),那么可以通過離散系數(shù)來比較不同樣本數(shù)據(jù)的質(zhì)量。11.6雙變量數(shù)據(jù)的描述統(tǒng)計11.6.1雙變量交叉列表雙變量交叉列表,也稱為列聯(lián)表、交互分析表,常用來對雙變量和多變量的關(guān)系進行分析。交叉列表是由行和列組成的,行與列交叉的部分被稱作“交叉列表單元格”。一般來講,交叉列表中的“行”指標(biāo)用來表示“因變量Y”,“列”指標(biāo)用來表示“自變量X”。下面仍以城市消費者新能源汽車購買意愿的調(diào)查數(shù)據(jù)為例,用消費者新能源汽車的購買意愿變量(will)和對氣候變化的關(guān)注度變量(cc)構(gòu)建交叉列表,并進行交叉分析,判斷兩個變量之間的關(guān)系。(1)頻數(shù)交叉列表。表11.7是兩個變量數(shù)據(jù)的頻數(shù)交叉列表,反映了消費者新能源汽車的購買意愿和對氣候變化的關(guān)注度兩個變量的交互信息,構(gòu)成了一個2行、5列的列聯(lián)表,也記作2×5列聯(lián)表。在表11.7中,“行合計”,也稱作“行邊緣頻數(shù)”,由行數(shù)據(jù)加總而得的,如“無購買意愿”的消費者為128人,“有購買意愿”的消費者為110人;“列合計”,也稱作“列邊緣頻數(shù)”,是由各列的數(shù)據(jù)匯總而得的,如表格中的28人、44人、62人、58人、46人;“總合計”是行合計或列合計的頻數(shù)之和,如表中的238人。這樣,列聯(lián)表所表現(xiàn)的就是在變量X條件下變量Y的分布,或者在變量Y條件下變量X的分布,因此,列聯(lián)表中的觀察值分布稱為條件分布,每個具體的觀察值就是條件頻數(shù),如表中的15人、24人、33人、26人、30人、13人、20人、29人、32人、16人就是條件頻數(shù)。(2)百分比交叉列表。按照百分比計算方式不同,百分比交叉列表可以分成三類:原始百分比交叉列表、列百分比交叉列表和行百分比交叉列表。表11.8將表11.7的條件頻數(shù)分布表轉(zhuǎn)化為原始百分比交叉列表。原始百分比交叉列表展示的是交叉列表單元格中的原始條件頻數(shù)占總合計的百分比。表11.9是將表11.7的條件頻數(shù)分布表轉(zhuǎn)化為列百分比交叉列表。列百分比交叉列表展示的是交叉列表單元格中的原始條件頻數(shù)占列合計的百分比。表11.10將表11.7的條件頻數(shù)分布表轉(zhuǎn)化為行百分比交叉列表。行百分比交叉列表展示的是交叉列表單元格中的原始條件頻數(shù)占行合計的百分比。11.6.2相關(guān)測量以上的雙變量交叉表是對兩個變量數(shù)據(jù)的交互頻數(shù)進行描述,根據(jù)交叉表,我們可以做一些可能的推斷,但是對于變量間是否存在相關(guān)關(guān)系,還需要進一步進行相關(guān)測量,用一個統(tǒng)計值來表示變量和變量間的關(guān)系,這個值通常稱為相關(guān)系數(shù)。相關(guān)系數(shù)的測量方法比較多,主要的選擇準(zhǔn)則包括:一是考慮變量數(shù)據(jù)的測量類型,根據(jù)數(shù)據(jù)的數(shù)學(xué)特性來確定變量類型。二是考慮兩個變量的影響方向,當(dāng)兩個變量是純粹的獨立變量,不分自變量和因變量時,那么這兩個變量之間是對稱關(guān)系;當(dāng)兩個變量劃分自變量和因變量時,那么這兩個變量之間是不對稱關(guān)系。三是考慮統(tǒng)計值的意義。根據(jù)定類、定序和定距數(shù)據(jù)的特點,主要考慮以下幾種統(tǒng)計量(見表11.11)消費者新能源汽車的購買意愿是定類變量,對氣候變化的關(guān)注度是定序變量。如果按照相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論