數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)基礎(chǔ)

上傳人：湯*** IP屬地：北京上傳時(shí)間：2023-03-14 格式：PPTX 頁數(shù)：40 大小：1.32MB 積分：15 舉報(bào) 版權(quán)申訴

數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)基礎(chǔ)_第2頁

數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)基礎(chǔ)_第3頁

數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)基礎(chǔ)_第4頁

數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)基礎(chǔ)_第5頁

已閱讀5頁，還剩35頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

描述性統(tǒng)計(jì)分析數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)基礎(chǔ)統(tǒng)計(jì)學(xué)描述統(tǒng)計(jì)學(xué)：使用特定的數(shù)字或圖表來體現(xiàn)數(shù)據(jù)的集中程度和離散程度。例如：每個(gè)行業(yè)的薪酬平均值，最高值，各個(gè)薪酬段的人數(shù)分布等。推斷統(tǒng)計(jì)學(xué)：根據(jù)樣本數(shù)據(jù)推斷總體數(shù)據(jù)特征。例如：醫(yī)學(xué)上治療方法的有效程度，一般是在一部分病人的治療中收集數(shù)據(jù)，根據(jù)樣本的結(jié)果推斷治療方法對(duì)所有人的療效。統(tǒng)計(jì)分析中的變量按間隙劃分離散變量：當(dāng)一個(gè)變量的任意兩個(gè)可能取值之間沒有其他取值時(shí)，該變量是離散的。連續(xù)變量：當(dāng)一個(gè)變量的任意兩個(gè)可能取值之間還有其他可能的取值時(shí)，該變量是連續(xù)的。按作用劃分自變量：如果一個(gè)變量與其他變量一起用于描述因變量，該變量稱為自變量或預(yù)測(cè)變量。因變量：如果一個(gè)變量由其他變量來描述，該變量稱為因變量或反應(yīng)變量。統(tǒng)計(jì)分析中的變量根據(jù)測(cè)量尺度劃分定類變量：是一種測(cè)量精確度最低、最粗略的基于“質(zhì)”因素的變量，它的取值只代表觀測(cè)對(duì)象的不同類別。常用來綜合定類數(shù)據(jù)的統(tǒng)計(jì)量是頻數(shù)、比率或百分比等。定序變量：其取值的大小能夠表示觀測(cè)對(duì)象的某種順序關(guān)系（等級(jí)、方位或大小等），也是基于“質(zhì)”因素的變量。適合用于綜合定序數(shù)據(jù)取值的集中趨勢(shì)的統(tǒng)計(jì)量是中位數(shù)。統(tǒng)計(jì)分析中的變量根據(jù)測(cè)量尺度劃分定距變量：其取值之間可以比較大小，可以用加減法計(jì)算出差異的大小。常用的統(tǒng)計(jì)量如均值、標(biāo)準(zhǔn)差、相關(guān)系數(shù)等。定比變量：它與定距變量意義相近，細(xì)微差別在于定距變量中的“0”值只表示某一取值，不表示“沒有”，而定比變量的“0”值表示“沒有”。正態(tài)分布（Normaldistribution）若隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ、方差為σ^2的正態(tài)分布，記為N(μ，σ2)。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置，其標(biāo)準(zhǔn)差σ決定了分布的幅度。當(dāng)μ=0,σ=1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。正態(tài)分布（Normaldistribution）正態(tài)分布的密度曲線是一條關(guān)于對(duì)稱的鐘形曲線.特點(diǎn)是“兩頭小，中間大，左右對(duì)稱”.正太分布的例子年降雨量近似服從正態(tài)分布。正太分布的例子身高應(yīng)服從正態(tài)分布。頻數(shù)分析頻數(shù)分析統(tǒng)計(jì)的是每一組中觀測(cè)點(diǎn)的個(gè)數(shù)，而不是考慮其實(shí)際取值。通過頻數(shù)分析能夠了解變量取值的情況，對(duì)于把握數(shù)據(jù)的分布特征非常有用。當(dāng)某變量的自然取值是局限在有限的幾個(gè)數(shù)值中，則頻數(shù)分析就是統(tǒng)計(jì)該變量在各個(gè)取值點(diǎn)的個(gè)數(shù)分布情況；如果某變量的取值是在某范圍內(nèi)的離散值，則需要將其取值區(qū)域劃分為幾個(gè)取值區(qū)間，頻數(shù)分析就是統(tǒng)計(jì)該變量在各個(gè)取值區(qū)間觀測(cè)點(diǎn)個(gè)數(shù)的分布情況。頻數(shù)分析了解變量取值的一般特征。如，哪些數(shù)值出現(xiàn)的頻率高？變量取值的大致范圍是什么？考察數(shù)據(jù)是否符合要進(jìn)行的統(tǒng)計(jì)分析的假設(shè)。如：樣本數(shù)足夠大嗎？每個(gè)變量的觀測(cè)值是否合理呢？評(píng)估數(shù)據(jù)的質(zhì)量。如，有多少缺失值或者有多少數(shù)據(jù)錄入錯(cuò)誤？頻數(shù)分析幾個(gè)頻數(shù)分析時(shí)常用的概念：頻數(shù)（Frenquency）：變量值落在某個(gè)區(qū)間或者某個(gè)取值點(diǎn)的個(gè)數(shù)。百分比（Percent）：各頻數(shù)占總樣本數(shù)的百分比。有效百分比（ValidPercent）：各頻數(shù)占有效樣本數(shù)的百分比。累計(jì)百分比（CumulativePercent）：各百分比逐級(jí)累加起來的結(jié)果，最終取值是100。取值不及格及格中等良好優(yōu)秀合計(jì)取值區(qū)間0-5960-6970-7980-8990-1000－100頻數(shù)1919321677百分比1.30%11.69%24.68%41.56%20.78%100.00%有效百分比1.30%11.69%24.68%41.56%20.78%100.00%累計(jì)百分比1.30%12.99%37.66%79.22%100.00%100.00%四分位數(shù)（Quartile）統(tǒng)計(jì)學(xué)中，把所有數(shù)值由小到大排列并分成四等份，處于三個(gè)分割點(diǎn)位置的數(shù)值就是四分位數(shù)。第一四分位數(shù)(Q1)，又稱“下四分位數(shù)”，等于該樣本中所有數(shù)據(jù)由小到大排列后第25%的數(shù)據(jù)。第二四分位數(shù)(Q2)，又稱“中位數(shù)”，等于該樣本中所有數(shù)據(jù)由小到大排列后第50%數(shù)據(jù)。第三四分位數(shù)(Q3)，又稱“上四分位數(shù)”，等于該樣本中所有數(shù)據(jù)由小到大排列后第75%的數(shù)據(jù)。第三四分位數(shù)與第一四分位數(shù)的差距又稱四分位距（InterQuartileRange,IQR）。頻數(shù)分析頻數(shù)分析中的統(tǒng)計(jì)圖條形圖（BarChart）餅圖（PieChart）直方圖（Histograms）SPSS進(jìn)行頻數(shù)分析EXCEL進(jìn)行頻數(shù)分析使用FREQUENCY函數(shù)進(jìn)行頻率統(tǒng)計(jì)，然后以此為基礎(chǔ)進(jìn)行后續(xù)計(jì)算。四分位數(shù)計(jì)算函數(shù)：Quartile()描述統(tǒng)計(jì)對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)描述是統(tǒng)計(jì)分析中最基本的工作。對(duì)于整理好的數(shù)據(jù)，通過描述性統(tǒng)計(jì)分析，可以挖掘出很多統(tǒng)計(jì)量的特征。常見的描述性統(tǒng)計(jì)量主要包括以下3類：描述變量分布情況的統(tǒng)計(jì)量描述變量離散程度的統(tǒng)計(jì)量。描述變量集中趨勢(shì)的統(tǒng)計(jì)量通常，綜合這三類統(tǒng)計(jì)量就能夠極為準(zhǔn)確和清晰的把握數(shù)據(jù)的分布特點(diǎn)。描述變量集中趨勢(shì)的統(tǒng)計(jì)量均值Mean：表示變量值的平均水平中位數(shù)Median：一組數(shù)據(jù)中處于最中間位置的數(shù)眾數(shù)Mode：一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)和Sum：某變量的所有變量值之和描述變量集中趨勢(shì)的統(tǒng)計(jì)量2家公司的員工及薪酬構(gòu)成如下：A：經(jīng)理1名，月薪10萬；高級(jí)員工15名，月薪1萬；普通員工20名，月薪7500B：經(jīng)理1名，月薪2萬；高級(jí)員工20名，月薪1萬1千；普通員工15名，月薪9000找工作選哪家？平均月薪11111元平均月薪10416元描述變量集中趨勢(shì)的統(tǒng)計(jì)量2家公司的員工及薪酬構(gòu)成如下：A：經(jīng)理1名，月薪10萬；高級(jí)員工15名，月薪1萬；普通員工20名，月薪7500B：經(jīng)理1名，月薪2萬；高級(jí)員工20名，月薪1萬1千；普通員工15名，月薪9000中位數(shù)：A7500 B11000眾數(shù)：A7500 B11000均值的特點(diǎn)最常用的中心位置度量受極端值影響例：1，3，5，7，9和

1，3，5，7，14中位數(shù)重要的中心位置度量在遞增排序后的數(shù)據(jù)列中若數(shù)據(jù)個(gè)數(shù)為奇數(shù)，中位數(shù)是正中央的數(shù)若數(shù)據(jù)個(gè)數(shù)是偶數(shù)，中位數(shù)是正中央的兩數(shù)的平均值.不受極端值的影，例如：眾數(shù)發(fā)生頻數(shù)最高的數(shù)據(jù)值不受極端值的影響眾數(shù)可能不存在可能有多個(gè)眾數(shù)（單峰，雙峰，多峰）可用于定量或定性數(shù)據(jù)描述變量離散程度的統(tǒng)計(jì)量?jī)H僅根據(jù)數(shù)據(jù)的中心趨勢(shì)指標(biāo)進(jìn)行決策是不夠的。例如，如果一個(gè)國(guó)家的不同家庭收入差距很少；而另一個(gè)國(guó)家的家庭收入差距很大，既存在大量的貧困家庭，也存在許多十分富有的家庭，那么即使這兩個(gè)國(guó)家的中等收入家庭的收入完全一樣，其家庭收入情況仍然完全不同。假設(shè)我們有以下的三組觀測(cè)值：觀測(cè)A：11，12，13，16，16，17，18，21觀測(cè)B：14，15，15，15，16，16，16，17觀測(cè)C：11，11，11，12，19，20，20，20這三組觀測(cè)值的均值都是15.5，那么這三組數(shù)據(jù)是否相似呢？描述變量離散程度的統(tǒng)計(jì)量描述變量離散程度的統(tǒng)計(jì)量標(biāo)準(zhǔn)差Std.deviation：描述變量關(guān)于均值的偏離程度方差Variance：標(biāo)準(zhǔn)差的平方極大值Maximum：某變量所有取值的最大值極小值Minimum：某變量所有取值的最小值全距(極差)Range：某變量極大值與極小值之差均值的標(biāo)準(zhǔn)誤差S.E.mean：樣本數(shù)據(jù)是從總體數(shù)據(jù)中抽取出來的。雖然在一定程度上，樣本數(shù)據(jù)可以反映總體數(shù)據(jù)的特征。但在不同次抽樣中所得的樣本均值是不同的，并且它們與總體均值間存在差異。均值標(biāo)準(zhǔn)誤差就是描述這些樣本均值與總體均值之間平均差異程度的統(tǒng)計(jì)量。描述變量分布情況的統(tǒng)計(jì)量偏度Skewness：描述變量分布的對(duì)稱程度和方向。偏度為0表示對(duì)稱，大于0表示右偏，小于0表示左偏描述變量分布情況的統(tǒng)計(jì)量峰度Kurtosis：描述變量分布的陡峭程度。峰度為0表示陡峭程度和正態(tài)分布相同，大于0表示比正態(tài)分布陡峭，小于0表示比正態(tài)分布平緩SPSS進(jìn)行描述性分析EXCEL進(jìn)行描述性分析探索性分析Explore過程可對(duì)變量進(jìn)行更為深入詳盡的描述性統(tǒng)計(jì)分析，主要用于對(duì)資料的性質(zhì)、分布特點(diǎn)等完全不清楚時(shí)，故又稱之為探索性分析。它在一般描述性統(tǒng)計(jì)指標(biāo)的基礎(chǔ)上，增加有關(guān)數(shù)據(jù)其他特征的文字與圖形描述，如莖葉圖、箱圖等，顯得更加詳細(xì)、全面，有助于用戶制定繼續(xù)分析的方案。探索性分析數(shù)據(jù)探索是統(tǒng)計(jì)分析中非常重要的一步，可以幫助我們決定選擇哪種統(tǒng)計(jì)方法進(jìn)行數(shù)據(jù)分析，有如下三方面的考察：考察數(shù)據(jù)的正確性.考察數(shù)據(jù)中的一些異常值，分析這些值產(chǎn)生的原因，判斷其正確性，再?zèng)Q定修改、刪除或保留它們。考察數(shù)據(jù)的分布特征.考察數(shù)據(jù)的正態(tài)分布特征可以為以后進(jìn)行統(tǒng)計(jì)分析時(shí)采用正確的統(tǒng)計(jì)方法提供正確的依據(jù)?？疾熳兞恐g數(shù)據(jù)的相互關(guān)系.變量與變量之間相關(guān)性的考察、方差齊性的考察，是一些統(tǒng)計(jì)分析過程必須事先了解的。探索性分析通過莖葉圖（Stem-and-LeafPlots）描述頻度分布莖葉圖由數(shù)字構(gòu)成，表達(dá)變量的頻數(shù)分布。在莖葉圖中：第1列表示頻數(shù)，表示個(gè)案的個(gè)數(shù)第2列表示莖葉圖的莖，表達(dá)整數(shù)部分，其代表的數(shù)值與莖寬(Stemwidth)有關(guān)當(dāng)Stem=6，Stemwidth=10，實(shí)際表達(dá)的值是60

第3列表示莖葉圖的葉子，表達(dá)小數(shù)部分，其代表的數(shù)值也與莖寬有關(guān)，Eachleaf表示每片葉子的個(gè)案數(shù)莖葉圖中第1行數(shù)據(jù)表示的意義表示有2個(gè)小于或等于55的極端值(Extreme)莖葉圖中第4行數(shù)據(jù)表示的意義共有8個(gè)個(gè)案值為75、76、77的個(gè)案各有1個(gè)值為78的個(gè)案有2個(gè)值為79的個(gè)案有3個(gè)莖葉圖中最后1行數(shù)據(jù)表示的意義表示有2個(gè)大于或等于94的極端值(Extreme)第1列第2列第3列探索性分析通過箱圖（Boxplots）描述數(shù)據(jù)分布箱圖也稱為箱線圖(箱式圖)，顯示了變量數(shù)據(jù)的中位數(shù)、25%百分位數(shù)和75%百分位數(shù)，并給出偏離總體分布的奇異個(gè)案和極端個(gè)案。探索性分析奇異值：某個(gè)數(shù)據(jù)距離箱體主體邊緣的距離超過箱主體高度的1.5倍，稱為奇異值，在箱圖中用○表示。奇異值分為上奇異值和下奇異值。極端值：某個(gè)數(shù)據(jù)距離箱體主體邊緣的距離超過箱主體高度的3倍，稱為極端值，在箱圖中用★表示。極端值分為上極端值和下極端值。探索性分析探索性分析通過正態(tài)分布檢驗(yàn)的Q－Q概率圖描述數(shù)據(jù)分布的正態(tài)性正態(tài)概率圖以變量的觀測(cè)值為X軸坐標(biāo)，以該變量分布的Z分?jǐn)?shù)為縱坐標(biāo)。斜線為正態(tài)分布的Z分?jǐn)?shù)的期望標(biāo)準(zhǔn)線，若觀測(cè)點(diǎn)離線越近，表示點(diǎn)

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)基礎(chǔ)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)基礎(chǔ)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔