第7章 數(shù)據(jù)統(tǒng)計(jì)推斷及可視化_第1頁
第7章 數(shù)據(jù)統(tǒng)計(jì)推斷及可視化_第2頁
第7章 數(shù)據(jù)統(tǒng)計(jì)推斷及可視化_第3頁
第7章 數(shù)據(jù)統(tǒng)計(jì)推斷及可視化_第4頁
第7章 數(shù)據(jù)統(tǒng)計(jì)推斷及可視化_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.1總體和樣本

1.基本概念

2.隨機(jī)抽樣7.1.2統(tǒng)計(jì)量的分布

1.標(biāo)準(zhǔn)正態(tài)分布

2.學(xué)生化t分布7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.1總體和樣本

1.基本概念(1)總體:研究對象的全體(2)個(gè)體:構(gòu)成總體的每個(gè)成員(3)樣本:從總體中抽出的部分個(gè)體組成的集合(4)樣本量:樣本中所含個(gè)體個(gè)數(shù)(5)統(tǒng)計(jì)量:不含未知參數(shù)的樣本函數(shù)7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.1總體和樣本

2.隨機(jī)抽樣(1)隨機(jī)數(shù)如生成100個(gè)均值為170cm,標(biāo)準(zhǔn)差為9cm的學(xué)生身高的正態(tài)分布隨機(jī)數(shù)。Inimportnumpyasnpimportpandasaspdnp.random.seed(1)#設(shè)置隨機(jī)種子數(shù)以便重復(fù)結(jié)果N=100#隨機(jī)數(shù)個(gè)數(shù)x=np.random.normal(170,9,N);#X~N(170,3^2)=N(170,9)X=pd.DataFrame({'X':x.round(1)});X#形成數(shù)據(jù)框,保留1位小數(shù)7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.1總體和樣本

2.隨機(jī)抽樣OutX0184.61164.52165.23160.34177.8.....95170.796166.997170.498164.499176.37.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.1總體和樣本

2.隨機(jī)抽樣生成直方圖:7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.1總體和樣本

2.隨機(jī)抽樣(2)隨機(jī)樣本:從上面的正態(tài)總體中隨機(jī)抽取樣本量為10的若干樣本(注意,每次抽取的樣本是不一樣的)7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.2統(tǒng)計(jì)量的分布

1.標(biāo)準(zhǔn)正態(tài)分布若一組數(shù)據(jù)來自正態(tài)分布x

N(μ,σ2),可用正態(tài)化變換將其轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布:根據(jù)中心極限定理可知,此時(shí)樣本的均值服從正態(tài)分布:對樣本均值進(jìn)行標(biāo)準(zhǔn)化也可得標(biāo)準(zhǔn)正態(tài)分布:7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.2統(tǒng)計(jì)量的分布2.學(xué)生化t分布當(dāng)總體標(biāo)準(zhǔn)差σ未知時(shí),可用樣本標(biāo)準(zhǔn)差s代替總體標(biāo)準(zhǔn)差,這時(shí)樣本均值的標(biāo)準(zhǔn)化變量t服從t分布:可以證明,t值服從t分布,當(dāng)n趨向無窮大時(shí),t分布近似為標(biāo)準(zhǔn)正態(tài)分布N(0,1)。7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.2統(tǒng)計(jì)量的分布2.學(xué)生化t分布7.1隨機(jī)抽樣及其分布圖第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.1.2統(tǒng)計(jì)量的分布2.學(xué)生化t分布7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.1參數(shù)的估計(jì)方法

1.點(diǎn)估計(jì)2.區(qū)間估計(jì)7.2.2假設(shè)檢驗(yàn)的思想

1.假設(shè)檢驗(yàn)的基本思想

2.假設(shè)檢驗(yàn)的基本步驟7.2.3均值比較的t檢驗(yàn)

1.單樣本均值的t檢驗(yàn)

【Excel的基本操作】

2.兩樣本均值的t檢驗(yàn)

【Excel的基本操作】練習(xí)題77.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.1參數(shù)的估計(jì)方法點(diǎn)估計(jì)(pointestimation),用樣本統(tǒng)計(jì)量來估計(jì)相應(yīng)的總體參數(shù)樣本均值x→總體均值μ;樣本標(biāo)準(zhǔn)差s→總體標(biāo)準(zhǔn)差σ;樣本比例p→總體比例P

1.點(diǎn)估計(jì)參數(shù)的估計(jì)方法包括點(diǎn)估計(jì)和區(qū)間估計(jì)7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.1參數(shù)的估計(jì)方法

1.點(diǎn)估計(jì)樣本X的各種統(tǒng)計(jì)量的點(diǎn)估計(jì)值:7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.1參數(shù)的估計(jì)方法2.區(qū)間估計(jì)區(qū)間估計(jì)(intervalestimation)是通過統(tǒng)計(jì)推斷找到包括樣本統(tǒng)計(jì)量在內(nèi)(有時(shí)以統(tǒng)計(jì)量為中心)的一個(gè)區(qū)間,該區(qū)間被認(rèn)為以多大概率(也稱可信度或置信度)可能性包含了總體參數(shù)。置信區(qū)間的一般公式:7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.1參數(shù)的估計(jì)方法2.區(qū)間估計(jì)總體標(biāo)準(zhǔn)差通常未知,可使用t統(tǒng)計(jì)量及其分布:運(yùn)用t分布構(gòu)造置信區(qū)間:7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.1參數(shù)的估計(jì)方法2.區(qū)間估計(jì)可用scipy包的模塊stats中的erval函數(shù)也可生成置信水平為1-α的置信區(qū)間:erval(b,df,loc,scale)7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.2假設(shè)檢驗(yàn)的思想假設(shè)檢驗(yàn)(hypothesistesting),又稱統(tǒng)計(jì)假設(shè)檢驗(yàn),是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計(jì)推斷方法。顯著性檢驗(yàn)是假設(shè)檢驗(yàn)中最常用的一種方法,也是一種最基本的統(tǒng)計(jì)推斷形式常用的假設(shè)檢驗(yàn)方法有z檢驗(yàn)、t檢驗(yàn)、F檢驗(yàn)和方差分析等7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.2假設(shè)檢驗(yàn)的思想1.假設(shè)檢驗(yàn)的基本思想“小概率事件”原理,其統(tǒng)計(jì)推斷方法是帶有某種概率性質(zhì)的反證法。小概率思想小概率事件在一次試驗(yàn)中基本上不會發(fā)生反證法思想先提出檢驗(yàn)假設(shè),再用適當(dāng)?shù)慕y(tǒng)計(jì)方法,利用小概率原理,確定假設(shè)是否成立。假定該假設(shè)H0正確小概率事件發(fā)生拒絕H0“小概率事件”發(fā)生的概率稱為檢驗(yàn)的顯著性水平,用α表示7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化(1)提出檢驗(yàn)假設(shè)提出檢驗(yàn)假設(shè)又稱零假設(shè),符號是H0;備擇假設(shè)的符號是H1。H0:樣本與總體或樣本與樣本間的差異是由抽樣誤差引起的;H1:樣本與總體或樣本與樣本間存在本質(zhì)差異;(2)給定顯著性水平

通常取α=0.05(3)選定相應(yīng)統(tǒng)計(jì)方法由樣本觀察值按相應(yīng)的公式計(jì)算出統(tǒng)計(jì)量的大小,如t值、F值等。(4)根據(jù)統(tǒng)計(jì)量計(jì)算相應(yīng)的概率p值下結(jié)論若p>α,不顯著,接受H0;若p≤

α,顯著,拒絕H07.2.2假設(shè)檢驗(yàn)的思想1.假設(shè)檢驗(yàn)的基本步驟7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)

7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——縱向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——縱向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——縱向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——縱向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——縱向比較檢驗(yàn)的p=0.0008<0.05,在顯著性水平

=0.05時(shí)拒絕H0,認(rèn)為廣州地區(qū)的人均GDP與5萬元有顯著差異,應(yīng)該是不少于5萬元的。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)【Excel的基本操作】(1)在透視表中選需要的數(shù)據(jù),本例是2019年的珠三角人均GDP數(shù)據(jù)。(2)切換到“數(shù)據(jù)”選項(xiàng)卡,單擊“分析”組中的“數(shù)據(jù)分析”按鈕,將彈出數(shù)據(jù)分析對話框。在分析工具框中選擇“t-檢驗(yàn):成對雙樣本均值分析”。(3)給出總體均值:在C4:C24區(qū)域給出總體均值5。(4)輸入:變量1的區(qū)域:B3:B24變量2的區(qū)域:C3:C24假設(shè)平均差:0標(biāo)志:不選α(A):0.05(5)輸出選項(xiàng):輸出區(qū)域:F47.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化【Excel的基本操作】7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化檢驗(yàn)的p=0.3508>0.05,在顯著性水平

=0.05時(shí)不拒絕H0,認(rèn)為廣州地區(qū)的人均GDP與10萬元無顯著差異。7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)【Excel的基本操作】7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——橫向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——橫向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——橫向比較7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——橫向比較檢驗(yàn)的p=0.0405<0.05,在顯著性水平

=0.05時(shí)拒絕H0,認(rèn)為2019年廣東地區(qū)的人均GDP與5萬元有顯著差異,應(yīng)該是不少于5萬元的。檢驗(yàn)的p=0.0374<0.05,在顯著性水平

=0.05時(shí)拒絕H0,認(rèn)為2019年廣東地區(qū)的人均GDP與10萬元有顯著差異。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)(2)實(shí)例分析——橫向比較【Excel的基本操作】1)在透視表中選需要的數(shù)據(jù),本例是2019年的珠三角人均GDP數(shù)據(jù)。2)切換到“數(shù)據(jù)”選項(xiàng)卡,單擊“分析”組中的“數(shù)據(jù)分析”按鈕,將彈出數(shù)據(jù)分析對話框。在分析工具框中選擇“t-檢驗(yàn):成對雙樣本均值分析”。3)給出總體均值:在D4:D24區(qū)域分別給出總體均值10。4)輸入:變量1的區(qū)域:B3:B24變量2的區(qū)域:D3:D24

假設(shè)平均差:0標(biāo)志:不選α(A):0.055)輸出選項(xiàng):輸出區(qū)域:F47.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化【Excel的基本操作】7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)由于經(jīng)濟(jì)數(shù)據(jù)大都有趨勢波動,所以數(shù)據(jù)通常很難滿足正態(tài)性要求,這類數(shù)據(jù)的檢驗(yàn)通常要做些變換,如對數(shù)變換或秩變換(非參數(shù)方法),從而使數(shù)據(jù)更接近正態(tài)分布。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)對數(shù)處理7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)對數(shù)處理7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)1.單樣本均值的t檢驗(yàn)對數(shù)處理檢驗(yàn)的p=0.1207>0.05,在顯著性水平=0.05時(shí)不拒絕H0,認(rèn)為廣州地區(qū)的人均GDP與5萬元無顯著差異。檢驗(yàn)的p=0.0374<0.05,在顯著性水平=0.05時(shí)拒絕H0,認(rèn)為2019年廣東地區(qū)的人均GDP與10萬元有顯著差異。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)要求兩組數(shù)據(jù)均應(yīng)服從正態(tài)分布要求兩組數(shù)據(jù)相應(yīng)的兩總體方差相等,即方差齊性。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)(1)正態(tài)性檢驗(yàn)7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)(1)正態(tài)性檢驗(yàn)7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)(1)正態(tài)性檢驗(yàn)7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)(1)正態(tài)性檢驗(yàn)可以看出,深圳和珠海的GDP數(shù)據(jù)的分布基本上是正態(tài)的7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)(2)方差齊性檢驗(yàn)檢驗(yàn)不同地區(qū)GDP的變異有無顯著差異,即檢驗(yàn)兩總體方差是否相等,這里用的是levene方差齊性檢驗(yàn)。p=0.8333>0.05,說明兩組數(shù)據(jù)的方差是一樣的。7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)(3)均值的檢驗(yàn)(方差齊性時(shí))要具體檢驗(yàn)以下假設(shè):H0:

1=

2;H1:

1≠

2

。由概率論知:7.2參數(shù)的統(tǒng)計(jì)推斷第7章數(shù)據(jù)統(tǒng)計(jì)推斷及可視化7.2.3均值比較的t檢驗(yàn)2.兩樣本均值的t檢驗(yàn)(3)均值的檢驗(yàn)(方差齊性時(shí))當(dāng)H0

成立時(shí),所以在給定了顯著性水平α后,由樣本數(shù)據(jù)算出t值及對應(yīng)的概率p值,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論