數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)基礎(chǔ)_第1頁
數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)基礎(chǔ)_第2頁
數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)基礎(chǔ)_第3頁
數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)基礎(chǔ)_第4頁
數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)基礎(chǔ)_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

描述性統(tǒng)計(jì)分析數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)基礎(chǔ)統(tǒng)計(jì)學(xué)描述統(tǒng)計(jì)學(xué):使用特定的數(shù)字或圖表來體現(xiàn)數(shù)據(jù)的集中程度和離散程度。例如:每個(gè)行業(yè)的薪酬平均值,最高值,各個(gè)薪酬段的人數(shù)分布等。推斷統(tǒng)計(jì)學(xué):根據(jù)樣本數(shù)據(jù)推斷總體數(shù)據(jù)特征。例如:醫(yī)學(xué)上治療方法的有效程度,一般是在一部分病人的治療中收集數(shù)據(jù),根據(jù)樣本的結(jié)果推斷治療方法對(duì)所有人的療效。統(tǒng)計(jì)分析中的變量按間隙劃分離散變量:當(dāng)一個(gè)變量的任意兩個(gè)可能取值之間沒有其他取值時(shí),該變量是離散的。連續(xù)變量:當(dāng)一個(gè)變量的任意兩個(gè)可能取值之間還有其他可能的取值時(shí),該變量是連續(xù)的。按作用劃分自變量:如果一個(gè)變量與其他變量一起用于描述因變量,該變量稱為自變量或預(yù)測(cè)變量。因變量:如果一個(gè)變量由其他變量來描述,該變量稱為因變量或反應(yīng)變量。統(tǒng)計(jì)分析中的變量根據(jù)測(cè)量尺度劃分定類變量:是一種測(cè)量精確度最低、最粗略的基于“質(zhì)”因素的變量,它的取值只代表觀測(cè)對(duì)象的不同類別。常用來綜合定類數(shù)據(jù)的統(tǒng)計(jì)量是頻數(shù)、比率或百分比等。定序變量:其取值的大小能夠表示觀測(cè)對(duì)象的某種順序關(guān)系(等級(jí)、方位或大小等),也是基于“質(zhì)”因素的變量。適合用于綜合定序數(shù)據(jù)取值的集中趨勢(shì)的統(tǒng)計(jì)量是中位數(shù)。統(tǒng)計(jì)分析中的變量根據(jù)測(cè)量尺度劃分定距變量:其取值之間可以比較大小,可以用加減法計(jì)算出差異的大小。常用的統(tǒng)計(jì)量如均值、標(biāo)準(zhǔn)差、相關(guān)系數(shù)等。定比變量:它與定距變量意義相近,細(xì)微差別在于定距變量中的“0”值只表示某一取值,不表示“沒有”,而定比變量的“0”值表示“沒有”。正態(tài)分布(Normaldistribution)若隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ、方差為σ^2的正態(tài)分布,記為N(μ,σ2)。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了分布的幅度。當(dāng)μ=0,σ=1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。正態(tài)分布(Normaldistribution)正態(tài)分布的密度曲線是一條關(guān)于對(duì)稱的鐘形曲線.特點(diǎn)是“兩頭小,中間大,左右對(duì)稱”.正太分布的例子年降雨量近似服從正態(tài)分布。正太分布的例子身高應(yīng)服從正態(tài)分布。頻數(shù)分析頻數(shù)分析統(tǒng)計(jì)的是每一組中觀測(cè)點(diǎn)的個(gè)數(shù),而不是考慮其實(shí)際取值。通過頻數(shù)分析能夠了解變量取值的情況,對(duì)于把握數(shù)據(jù)的分布特征非常有用。當(dāng)某變量的自然取值是局限在有限的幾個(gè)數(shù)值中,則頻數(shù)分析就是統(tǒng)計(jì)該變量在各個(gè)取值點(diǎn)的個(gè)數(shù)分布情況;如果某變量的取值是在某范圍內(nèi)的離散值,則需要將其取值區(qū)域劃分為幾個(gè)取值區(qū)間,頻數(shù)分析就是統(tǒng)計(jì)該變量在各個(gè)取值區(qū)間觀測(cè)點(diǎn)個(gè)數(shù)的分布情況。頻數(shù)分析了解變量取值的一般特征。如,哪些數(shù)值出現(xiàn)的頻率高?變量取值的大致范圍是什么?考察數(shù)據(jù)是否符合要進(jìn)行的統(tǒng)計(jì)分析的假設(shè)。如:樣本數(shù)足夠大嗎?每個(gè)變量的觀測(cè)值是否合理呢?評(píng)估數(shù)據(jù)的質(zhì)量。如,有多少缺失值或者有多少數(shù)據(jù)錄入錯(cuò)誤?頻數(shù)分析幾個(gè)頻數(shù)分析時(shí)常用的概念:頻數(shù)(Frenquency):變量值落在某個(gè)區(qū)間或者某個(gè)取值點(diǎn)的個(gè)數(shù)。百分比(Percent):各頻數(shù)占總樣本數(shù)的百分比。有效百分比(ValidPercent):各頻數(shù)占有效樣本數(shù)的百分比。累計(jì)百分比(CumulativePercent):各百分比逐級(jí)累加起來的結(jié)果,最終取值是100。取值不及格及格中等良好優(yōu)秀合計(jì)取值區(qū)間0-5960-6970-7980-8990-1000-100頻數(shù)1919321677百分比1.30%11.69%24.68%41.56%20.78%100.00%有效百分比1.30%11.69%24.68%41.56%20.78%100.00%累計(jì)百分比1.30%12.99%37.66%79.22%100.00%100.00%四分位數(shù)(Quartile)統(tǒng)計(jì)學(xué)中,把所有數(shù)值由小到大排列并分成四等份,處于三個(gè)分割點(diǎn)位置的數(shù)值就是四分位數(shù)。第一四分位數(shù)(Q1),又稱“下四分位數(shù)”,等于該樣本中所有數(shù)據(jù)由小到大排列后第25%的數(shù)據(jù)。第二四分位數(shù)(Q2),又稱“中位數(shù)”,等于該樣本中所有數(shù)據(jù)由小到大排列后第50%數(shù)據(jù)。第三四分位數(shù)(Q3),又稱“上四分位數(shù)”,等于該樣本中所有數(shù)據(jù)由小到大排列后第75%的數(shù)據(jù)。第三四分位數(shù)與第一四分位數(shù)的差距又稱四分位距(InterQuartileRange,IQR)。頻數(shù)分析頻數(shù)分析中的統(tǒng)計(jì)圖條形圖(BarChart)餅圖(PieChart)直方圖(Histograms)SPSS進(jìn)行頻數(shù)分析EXCEL進(jìn)行頻數(shù)分析使用FREQUENCY函數(shù)進(jìn)行頻率統(tǒng)計(jì),然后以此為基礎(chǔ)進(jìn)行后續(xù)計(jì)算。四分位數(shù)計(jì)算函數(shù):Quartile()描述統(tǒng)計(jì)對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)描述是統(tǒng)計(jì)分析中最基本的工作。對(duì)于整理好的數(shù)據(jù),通過描述性統(tǒng)計(jì)分析,可以挖掘出很多統(tǒng)計(jì)量的特征。常見的描述性統(tǒng)計(jì)量主要包括以下3類:描述變量分布情況的統(tǒng)計(jì)量描述變量離散程度的統(tǒng)計(jì)量。描述變量集中趨勢(shì)的統(tǒng)計(jì)量通常,綜合這三類統(tǒng)計(jì)量就能夠極為準(zhǔn)確和清晰的把握數(shù)據(jù)的分布特點(diǎn)。描述變量集中趨勢(shì)的統(tǒng)計(jì)量均值Mean:表示變量值的平均水平中位數(shù)Median:一組數(shù)據(jù)中處于最中間位置的數(shù)眾數(shù)Mode:一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)和Sum:某變量的所有變量值之和描述變量集中趨勢(shì)的統(tǒng)計(jì)量2家公司的員工及薪酬構(gòu)成如下:A:經(jīng)理1名,月薪10萬;高級(jí)員工15名,月薪1萬;普通員工20名,月薪7500B:經(jīng)理1名,月薪2萬;高級(jí)員工20名,月薪1萬1千;普通員工15名,月薪9000找工作選哪家?平均月薪11111元平均月薪10416元描述變量集中趨勢(shì)的統(tǒng)計(jì)量2家公司的員工及薪酬構(gòu)成如下:A:經(jīng)理1名,月薪10萬;高級(jí)員工15名,月薪1萬;普通員工20名,月薪7500B:經(jīng)理1名,月薪2萬;高級(jí)員工20名,月薪1萬1千;普通員工15名,月薪9000中位數(shù):A7500 B11000眾數(shù):A7500 B11000均值的特點(diǎn)最常用的中心位置度量受極端值影響例:1,3,5,7,9和

1,3,5,7,14中位數(shù)重要的中心位置度量在遞增排序后的數(shù)據(jù)列中若數(shù)據(jù)個(gè)數(shù)為奇數(shù),中位數(shù)是正中央的數(shù)若數(shù)據(jù)個(gè)數(shù)是偶數(shù),中位數(shù)是正中央的兩數(shù)的平均值.不受極端值的影,例如:眾數(shù)發(fā)生頻數(shù)最高的數(shù)據(jù)值不受極端值的影響眾數(shù)可能不存在可能有多個(gè)眾數(shù)(單峰,雙峰,多峰)可用于定量或定性數(shù)據(jù)描述變量離散程度的統(tǒng)計(jì)量?jī)H僅根據(jù)數(shù)據(jù)的中心趨勢(shì)指標(biāo)進(jìn)行決策是不夠的。例如,如果一個(gè)國(guó)家的不同家庭收入差距很少;而另一個(gè)國(guó)家的家庭收入差距很大,既存在大量的貧困家庭,也存在許多十分富有的家庭,那么即使這兩個(gè)國(guó)家的中等收入家庭的收入完全一樣,其家庭收入情況仍然完全不同。假設(shè)我們有以下的三組觀測(cè)值:觀測(cè)A:11,12,13,16,16,17,18,21觀測(cè)B:14,15,15,15,16,16,16,17觀測(cè)C:11,11,11,12,19,20,20,20這三組觀測(cè)值的均值都是15.5,那么這三組數(shù)據(jù)是否相似呢?描述變量離散程度的統(tǒng)計(jì)量描述變量離散程度的統(tǒng)計(jì)量標(biāo)準(zhǔn)差Std.deviation:描述變量關(guān)于均值的偏離程度方差Variance:標(biāo)準(zhǔn)差的平方極大值Maximum:某變量所有取值的最大值極小值Minimum:某變量所有取值的最小值全距(極差)Range:某變量極大值與極小值之差均值的標(biāo)準(zhǔn)誤差S.E.mean:樣本數(shù)據(jù)是從總體數(shù)據(jù)中抽取出來的。雖然在一定程度上,樣本數(shù)據(jù)可以反映總體數(shù)據(jù)的特征。但在不同次抽樣中所得的樣本均值是不同的,并且它們與總體均值間存在差異。均值標(biāo)準(zhǔn)誤差就是描述這些樣本均值與總體均值之間平均差異程度的統(tǒng)計(jì)量。描述變量分布情況的統(tǒng)計(jì)量偏度Skewness:描述變量分布的對(duì)稱程度和方向。偏度為0表示對(duì)稱,大于0表示右偏,小于0表示左偏描述變量分布情況的統(tǒng)計(jì)量峰度Kurtosis:描述變量分布的陡峭程度。峰度為0表示陡峭程度和正態(tài)分布相同,大于0表示比正態(tài)分布陡峭,小于0表示比正態(tài)分布平緩SPSS進(jìn)行描述性分析EXCEL進(jìn)行描述性分析探索性分析Explore過程可對(duì)變量進(jìn)行更為深入詳盡的描述性統(tǒng)計(jì)分析,主要用于對(duì)資料的性質(zhì)、分布特點(diǎn)等完全不清楚時(shí),故又稱之為探索性分析。它在一般描述性統(tǒng)計(jì)指標(biāo)的基礎(chǔ)上,增加有關(guān)數(shù)據(jù)其他特征的文字與圖形描述,如莖葉圖、箱圖等,顯得更加詳細(xì)、全面,有助于用戶制定繼續(xù)分析的方案。探索性分析數(shù)據(jù)探索是統(tǒng)計(jì)分析中非常重要的一步,可以幫助我們決定選擇哪種統(tǒng)計(jì)方法進(jìn)行數(shù)據(jù)分析,有如下三方面的考察:考察數(shù)據(jù)的正確性.考察數(shù)據(jù)中的一些異常值,分析這些值產(chǎn)生的原因,判斷其正確性,再?zèng)Q定修改、刪除或保留它們。考察數(shù)據(jù)的分布特征.考察數(shù)據(jù)的正態(tài)分布特征可以為以后進(jìn)行統(tǒng)計(jì)分析時(shí)采用正確的統(tǒng)計(jì)方法提供正確的依據(jù)??疾熳兞恐g數(shù)據(jù)的相互關(guān)系.變量與變量之間相關(guān)性的考察、方差齊性的考察,是一些統(tǒng)計(jì)分析過程必須事先了解的。探索性分析通過莖葉圖(Stem-and-LeafPlots)描述頻度分布莖葉圖由數(shù)字構(gòu)成,表達(dá)變量的頻數(shù)分布。在莖葉圖中:第1列表示頻數(shù),表示個(gè)案的個(gè)數(shù)第2列表示莖葉圖的莖,表達(dá)整數(shù)部分,其代表的數(shù)值與莖寬(Stemwidth)有關(guān)當(dāng)Stem=6,Stemwidth=10,實(shí)際表達(dá)的值是60

第3列表示莖葉圖的葉子,表達(dá)小數(shù)部分,其代表的數(shù)值也與莖寬有關(guān),Eachleaf表示每片葉子的個(gè)案數(shù)莖葉圖中第1行數(shù)據(jù)表示的意義表示有2個(gè)小于或等于55的極端值(Extreme)莖葉圖中第4行數(shù)據(jù)表示的意義共有8個(gè)個(gè)案值為75、76、77的個(gè)案各有1個(gè)值為78的個(gè)案有2個(gè)值為79的個(gè)案有3個(gè)莖葉圖中最后1行數(shù)據(jù)表示的意義表示有2個(gè)大于或等于94的極端值(Extreme)第1列第2列第3列探索性分析通過箱圖(Boxplots)描述數(shù)據(jù)分布箱圖也稱為箱線圖(箱式圖),顯示了變量數(shù)據(jù)的中位數(shù)、25%百分位數(shù)和75%百分位數(shù),并給出偏離總體分布的奇異個(gè)案和極端個(gè)案。探索性分析奇異值:某個(gè)數(shù)據(jù)距離箱體主體邊緣的距離超過箱主體高度的1.5倍,稱為奇異值,在箱圖中用○表示。奇異值分為上奇異值和下奇異值。極端值:某個(gè)數(shù)據(jù)距離箱體主體邊緣的距離超過箱主體高度的3倍,稱為極端值,在箱圖中用★表示。極端值分為上極端值和下極端值。探索性分析探索性分析通過正態(tài)分布檢驗(yàn)的Q-Q概率圖描述數(shù)據(jù)分布的正態(tài)性正態(tài)概率圖以變量的觀測(cè)值為X軸坐標(biāo),以該變量分布的Z分?jǐn)?shù)為縱坐標(biāo)。斜線為正態(tài)分布的Z分?jǐn)?shù)的期望標(biāo)準(zhǔn)線,若觀測(cè)點(diǎn)離線越近,表示點(diǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論