數(shù)據(jù)分析：假設(shè)檢驗(yàn)：Z檢驗(yàn)與標(biāo)準(zhǔn)正態(tài)分布

上傳人：陳*** IP屬地：河北上傳時(shí)間：2024-10-05 格式：DOCX 頁(yè)數(shù)：15 大?。?8.52KB 積分：6 舉報(bào) 版權(quán)申訴

數(shù)據(jù)分析：假設(shè)檢驗(yàn)：Z檢驗(yàn)與標(biāo)準(zhǔn)正態(tài)分布_第2頁(yè)

數(shù)據(jù)分析：假設(shè)檢驗(yàn)：Z檢驗(yàn)與標(biāo)準(zhǔn)正態(tài)分布_第3頁(yè)

數(shù)據(jù)分析：假設(shè)檢驗(yàn)：Z檢驗(yàn)與標(biāo)準(zhǔn)正態(tài)分布_第4頁(yè)

數(shù)據(jù)分析：假設(shè)檢驗(yàn)：Z檢驗(yàn)與標(biāo)準(zhǔn)正態(tài)分布_第5頁(yè)

已閱讀5頁(yè)，還剩10頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)分析：假設(shè)檢驗(yàn)：Z檢驗(yàn)與標(biāo)準(zhǔn)正態(tài)分布1數(shù)據(jù)分析：假設(shè)檢驗(yàn)：Z檢驗(yàn)與標(biāo)準(zhǔn)正態(tài)分布1.1引言1.1.1假設(shè)檢驗(yàn)的重要性在數(shù)據(jù)分析領(lǐng)域，假設(shè)檢驗(yàn)是一種統(tǒng)計(jì)方法，用于評(píng)估關(guān)于數(shù)據(jù)集的假設(shè)是否合理。它幫助我們基于樣本數(shù)據(jù)做出關(guān)于總體參數(shù)的決策，例如平均值或比例。假設(shè)檢驗(yàn)的重要性在于它提供了一種量化的方法來(lái)判斷觀(guān)察到的差異是否僅僅是由于隨機(jī)性，還是真正反映了總體之間的差異。這對(duì)于科學(xué)研究、商業(yè)決策和政策制定等領(lǐng)域至關(guān)重要，因?yàn)樗试S我們以統(tǒng)計(jì)學(xué)的嚴(yán)謹(jǐn)性來(lái)支持或反駁假設(shè)。1.1.2Z檢驗(yàn)的適用場(chǎng)景Z檢驗(yàn)是一種特定類(lèi)型的假設(shè)檢驗(yàn)，主要用于大樣本（通常樣本量大于30）或當(dāng)總體標(biāo)準(zhǔn)差已知時(shí)，檢驗(yàn)總體平均值是否等于某個(gè)特定值。Z檢驗(yàn)基于標(biāo)準(zhǔn)正態(tài)分布，即均值為0，標(biāo)準(zhǔn)差為1的正態(tài)分布。它適用于以下場(chǎng)景：樣本量足夠大：當(dāng)樣本量足夠大時(shí)，樣本均值的分布趨向于正態(tài)分布，即使原始數(shù)據(jù)的分布不是正態(tài)的?？傮w標(biāo)準(zhǔn)差已知：在某些情況下，我們可能已經(jīng)知道總體的標(biāo)準(zhǔn)差，這使得Z檢驗(yàn)成為可能。檢驗(yàn)總體均值：Z檢驗(yàn)主要用于檢驗(yàn)總體均值是否等于某個(gè)假設(shè)值，例如檢驗(yàn)一個(gè)新藥物的平均療效是否與已知藥物相同。1.2Z檢驗(yàn)原理Z檢驗(yàn)基于標(biāo)準(zhǔn)正態(tài)分布的原理。當(dāng)我們有一個(gè)大樣本或已知的總體標(biāo)準(zhǔn)差時(shí)，樣本均值的分布可以近似為正態(tài)分布。Z統(tǒng)計(jì)量是通過(guò)以下公式計(jì)算的：Z其中：-X是樣本均值。-μ是假設(shè)的總體均值。-σ是總體標(biāo)準(zhǔn)差。-n是樣本量。Z統(tǒng)計(jì)量的值可以用來(lái)確定樣本均值與假設(shè)均值之間的差異是否顯著，即是否超出隨機(jī)變異的范圍。我們通常會(huì)設(shè)定一個(gè)顯著性水平（如0.05），并根據(jù)Z統(tǒng)計(jì)量的值與標(biāo)準(zhǔn)正態(tài)分布表來(lái)判斷是否拒絕原假設(shè)。1.3Z檢驗(yàn)示例假設(shè)我們正在測(cè)試一種新藥是否能有效降低血壓。我們從總體中抽取了100名患者的樣本，測(cè)得平均血壓降低量為10mmHg，總體標(biāo)準(zhǔn)差為5mmHg。我們想檢驗(yàn)新藥是否真的能降低血壓，即檢驗(yàn)總體平均血壓降低量是否顯著大于0mmHg。1.3.1數(shù)據(jù)準(zhǔn)備#假設(shè)數(shù)據(jù)

sample_mean=10#樣本均值

mu=0#假設(shè)的總體均值

sigma=5#總體標(biāo)準(zhǔn)差

n=100#樣本量1.3.2計(jì)算Z統(tǒng)計(jì)量#計(jì)算Z統(tǒng)計(jì)量

importmath

Z=(sample_mean-mu)/(sigma/math.sqrt(n))

print(f"Z統(tǒng)計(jì)量:{Z}")1.3.3查找Z值對(duì)應(yīng)的P值#使用scipy庫(kù)查找Z值對(duì)應(yīng)的P值

fromscipy.statsimportnorm

#由于我們關(guān)心的是均值是否顯著大于0，這是一個(gè)單側(cè)檢驗(yàn)

p_value=1-norm.cdf(Z)

print(f"P值:{p_value}")1.3.4結(jié)論如果P值小于我們?cè)O(shè)定的顯著性水平（例如0.05），則我們有足夠的證據(jù)拒絕原假設(shè)，即認(rèn)為新藥確實(shí)能顯著降低血壓。否則，我們不能拒絕原假設(shè)，可能需要更多的數(shù)據(jù)或更小的顯著性水平來(lái)做出決策。1.4標(biāo)準(zhǔn)正態(tài)分布標(biāo)準(zhǔn)正態(tài)分布是一種特殊的正態(tài)分布，其均值為0，標(biāo)準(zhǔn)差為1。在假設(shè)檢驗(yàn)中，我們經(jīng)常使用標(biāo)準(zhǔn)正態(tài)分布來(lái)確定Z統(tǒng)計(jì)量的臨界值或P值。標(biāo)準(zhǔn)正態(tài)分布的性質(zhì)，如對(duì)稱(chēng)性和面積分布，使得我們可以根據(jù)Z值來(lái)判斷樣本均值與假設(shè)均值之間的差異是否顯著。1.4.1標(biāo)準(zhǔn)正態(tài)分布的性質(zhì)對(duì)稱(chēng)性：標(biāo)準(zhǔn)正態(tài)分布是關(guān)于均值0對(duì)稱(chēng)的?？偯娣e為1：標(biāo)準(zhǔn)正態(tài)分布的總面積為1，這代表了所有可能事件的概率總和。68-95-99.7規(guī)則：大約68%的數(shù)據(jù)位于均值的1個(gè)標(biāo)準(zhǔn)差內(nèi)，95%的數(shù)據(jù)位于均值的2個(gè)標(biāo)準(zhǔn)差內(nèi)，99.7%的數(shù)據(jù)位于均值的3個(gè)標(biāo)準(zhǔn)差內(nèi)。1.4.2使用標(biāo)準(zhǔn)正態(tài)分布表在沒(méi)有計(jì)算機(jī)或統(tǒng)計(jì)軟件的情況下，我們通常會(huì)使用標(biāo)準(zhǔn)正態(tài)分布表來(lái)查找Z值對(duì)應(yīng)的概率。例如，如果我們計(jì)算出的Z值為1.96，我們可以查找標(biāo)準(zhǔn)正態(tài)分布表，發(fā)現(xiàn)這個(gè)Z值對(duì)應(yīng)的單側(cè)P值約為0.025，這意味著在標(biāo)準(zhǔn)正態(tài)分布下，有2.5%的概率觀(guān)察到比1.96更大的Z值，如果我們的顯著性水平為0.05，那么我們有足夠的證據(jù)拒絕原假設(shè)。1.5總結(jié)Z檢驗(yàn)是一種強(qiáng)大的統(tǒng)計(jì)工具，用于檢驗(yàn)大樣本或已知總體標(biāo)準(zhǔn)差情況下的總體均值是否等于某個(gè)特定值。通過(guò)計(jì)算Z統(tǒng)計(jì)量并比較其與標(biāo)準(zhǔn)正態(tài)分布的臨界值或P值，我們可以做出關(guān)于假設(shè)的決策。標(biāo)準(zhǔn)正態(tài)分布的性質(zhì)和使用方法是理解Z檢驗(yàn)結(jié)果的關(guān)鍵。在實(shí)際應(yīng)用中，Z檢驗(yàn)可以幫助我們基于數(shù)據(jù)做出更科學(xué)、更嚴(yán)謹(jǐn)?shù)臎Q策。2數(shù)據(jù)分析：標(biāo)準(zhǔn)正態(tài)分布基礎(chǔ)2.1正態(tài)分布的定義正態(tài)分布，也稱(chēng)為高斯分布，是一種在統(tǒng)計(jì)學(xué)中非常重要的連續(xù)概率分布。它具有以下特征：對(duì)稱(chēng)性：正態(tài)分布的圖形是對(duì)稱(chēng)的，以平均值為中心，兩邊的分布是鏡像的。鐘形曲線(xiàn)：其圖形呈現(xiàn)出鐘形，即中間高兩邊低的形狀。參數(shù)：正態(tài)分布由兩個(gè)參數(shù)決定，即平均值（μ）和標(biāo)準(zhǔn)差（σ）。平均值決定了分布的中心位置，標(biāo)準(zhǔn)差決定了分布的寬度。在Python中，我們可以使用scipy.stats庫(kù)中的norm函數(shù)來(lái)生成正態(tài)分布的隨機(jī)數(shù)和計(jì)算概率密度。importnumpyasnp

importmatplotlib.pyplotasplt

fromscipy.statsimportnorm

#設(shè)置平均值和標(biāo)準(zhǔn)差

mu,sigma=0,1

#生成正態(tài)分布的隨機(jī)數(shù)

x=np.linspace(norm.ppf(0.01,mu,sigma),norm.ppf(0.99,mu,sigma),100)

#計(jì)算概率密度

y=norm.pdf(x,mu,sigma)

#繪制正態(tài)分布的圖形

plt.plot(x,y)

plt.title('正態(tài)分布')

plt.xlabel('值')

plt.ylabel('概率密度')

plt.show()2.2標(biāo)準(zhǔn)正態(tài)分布的特性標(biāo)準(zhǔn)正態(tài)分布是一種特殊的正態(tài)分布，其平均值μ為0，標(biāo)準(zhǔn)差σ為1。標(biāo)準(zhǔn)正態(tài)分布具有以下重要特性：累積分布函數(shù)：標(biāo)準(zhǔn)正態(tài)分布的累積分布函數(shù)（CDF）在μ=0處為0.5，即一半的值小于0，一半的值大于0。Z分?jǐn)?shù)：任何正態(tài)分布的值都可以轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布的值，這個(gè)轉(zhuǎn)換后的值稱(chēng)為Z分?jǐn)?shù)。68-95-99.7規(guī)則：在標(biāo)準(zhǔn)正態(tài)分布中，大約68%的數(shù)據(jù)位于平均值的1個(gè)標(biāo)準(zhǔn)差內(nèi)，95%的數(shù)據(jù)位于平均值的2個(gè)標(biāo)準(zhǔn)差內(nèi)，99.7%的數(shù)據(jù)位于平均值的3個(gè)標(biāo)準(zhǔn)差內(nèi)。我們可以使用scipy.stats庫(kù)中的norm函數(shù)來(lái)計(jì)算標(biāo)準(zhǔn)正態(tài)分布的累積分布函數(shù)和百分位點(diǎn)函數(shù)。#計(jì)算累積分布函數(shù)

cdf=norm.cdf(0)#在0處的累積概率

print(f"CDFat0:{cdf}")

#計(jì)算百分位點(diǎn)函數(shù)

ppf=norm.ppf(0.95)#95%的累積概率對(duì)應(yīng)的值

print(f"PPFat0.95:{ppf}")2.3Z分?jǐn)?shù)的計(jì)算Z分?jǐn)?shù)是將一個(gè)正態(tài)分布的值轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布的值的過(guò)程。Z分?jǐn)?shù)的計(jì)算公式為：Z其中，X是原始分布中的值，μ是原始分布的平均值，σ是原始分布的標(biāo)準(zhǔn)差。例如，假設(shè)我們有一個(gè)正態(tài)分布的數(shù)據(jù)集，平均值為100，標(biāo)準(zhǔn)差為15，我們想要計(jì)算一個(gè)值110的Z分?jǐn)?shù)。#設(shè)置平均值和標(biāo)準(zhǔn)差

mu,sigma=100,15

#原始分布中的值

x=110

#計(jì)算Z分?jǐn)?shù)

z=(x-mu)/sigma

print(f"Z-scoreof{x}:{z}")Z分?jǐn)?shù)的計(jì)算可以幫助我們理解一個(gè)值在分布中的位置，以及它與平均值的相對(duì)距離。在假設(shè)檢驗(yàn)中，Z分?jǐn)?shù)常用于比較樣本均值與總體均值，以確定樣本均值是否顯著不同于總體均值。以上內(nèi)容詳細(xì)介紹了正態(tài)分布的定義、標(biāo)準(zhǔn)正態(tài)分布的特性以及Z分?jǐn)?shù)的計(jì)算方法，并通過(guò)Python代碼示例展示了如何在實(shí)際數(shù)據(jù)分析中應(yīng)用這些概念。通過(guò)理解和應(yīng)用這些基礎(chǔ)概念，我們可以更有效地進(jìn)行數(shù)據(jù)分析和假設(shè)檢驗(yàn)。3數(shù)據(jù)分析：假設(shè)檢驗(yàn)：Z檢驗(yàn)與標(biāo)準(zhǔn)正態(tài)分布3.1Z檢驗(yàn)原理3.1.1Z檢驗(yàn)的假設(shè)條件Z檢驗(yàn)主要用于大樣本（通常樣本量大于30）或當(dāng)總體標(biāo)準(zhǔn)差已知的情況下，檢驗(yàn)樣本均值與總體均值之間是否存在顯著差異。Z檢驗(yàn)的假設(shè)條件包括：樣本來(lái)自的總體服從或近似服從正態(tài)分布。樣本是隨機(jī)抽取的，確保數(shù)據(jù)的獨(dú)立性。樣本量足夠大，通常大于30，這樣即使總體分布不是正態(tài)分布，樣本均值的分布也趨向于正態(tài)分布，這是中心極限定理的應(yīng)用?？傮w標(biāo)準(zhǔn)差已知，這是進(jìn)行Z檢驗(yàn)的一個(gè)重要前提。3.1.2Z檢驗(yàn)統(tǒng)計(jì)量的計(jì)算Z檢驗(yàn)統(tǒng)計(jì)量的計(jì)算公式如下：Z其中：-X是樣本均值。-μ是假設(shè)的總體均值。-σ是總體標(biāo)準(zhǔn)差。-n是樣本量。3.1.2.1示例代碼假設(shè)我們有一組樣本數(shù)據(jù)，樣本量為100，樣本均值為150，總體均值假設(shè)為145，總體標(biāo)準(zhǔn)差為15，我們想檢驗(yàn)樣本均值與總體均值是否存在顯著差異。importnumpyasnp

fromscipy.statsimportnorm

#樣本數(shù)據(jù)

sample_mean=150

population_mean=145

population_std=15

sample_size=100

#計(jì)算Z統(tǒng)計(jì)量

z_statistic=(sample_mean-population_mean)/(population_std/np.sqrt(sample_size))

#計(jì)算P值

p_value=2*(1-norm.cdf(abs(z_statistic)))

#輸出結(jié)果

print("Z統(tǒng)計(jì)量:",z_statistic)

print("P值:",p_value)3.1.3Z檢驗(yàn)的決策規(guī)則決策規(guī)則基于Z統(tǒng)計(jì)量和預(yù)先設(shè)定的顯著性水平（通常為0.05或0.01）。如果Z統(tǒng)計(jì)量的絕對(duì)值大于Z臨界值（在標(biāo)準(zhǔn)正態(tài)分布表中查找），則拒絕原假設(shè)，認(rèn)為樣本均值與總體均值存在顯著差異。Z臨界值取決于顯著性水平和檢驗(yàn)的類(lèi)型（單尾或雙尾）。3.1.3.1示例代碼繼續(xù)使用上述示例，假設(shè)我們?cè)O(shè)定的顯著性水平為0.05，進(jìn)行雙尾檢驗(yàn)。#設(shè)定顯著性水平

alpha=0.05

#雙尾檢驗(yàn)的Z臨界值

z_critical=norm.ppf(1-alpha/2)

#判斷是否拒絕原假設(shè)

ifabs(z_statistic)>z_critical:

print("拒絕原假設(shè)，樣本均值與總體均值存在顯著差異。")

else:

print("接受原假設(shè)，樣本均值與總體均值不存在顯著差異。")通過(guò)以上步驟，我們能夠理解Z檢驗(yàn)的基本原理，計(jì)算Z統(tǒng)計(jì)量，并根據(jù)決策規(guī)則判斷樣本均值與總體均值是否存在顯著差異。這在數(shù)據(jù)分析中是檢驗(yàn)假設(shè)、分析數(shù)據(jù)分布的重要工具。4數(shù)據(jù)分析：假設(shè)檢驗(yàn)：Z檢驗(yàn)與標(biāo)準(zhǔn)正態(tài)分布4.1Z檢驗(yàn)步驟4.1.1定義零假設(shè)與備擇假設(shè)在進(jìn)行Z檢驗(yàn)之前，首先需要明確我們的零假設(shè)（H0）和備擇假設(shè)（H示例：假設(shè)我們正在測(cè)試一種新藥是否能有效降低高血壓患者的血壓。零假設(shè)可能是新藥對(duì)血壓沒(méi)有顯著影響，而備擇假設(shè)可能是新藥能顯著降低血壓。零假設(shè)：H0備擇假設(shè)：H14.1.2選擇顯著性水平顯著性水平（α）是我們?cè)诰芙^零假設(shè)時(shí)所愿意承擔(dān)的風(fēng)險(xiǎn)水平。常見(jiàn)的顯著性水平有0.05和0.01。示例：我們選擇α=4.1.3計(jì)算Z統(tǒng)計(jì)量Z統(tǒng)計(jì)量是通過(guò)將樣本均值與總體均值進(jìn)行比較，來(lái)衡量樣本均值與總體均值之間的差異是否顯著。Z統(tǒng)計(jì)量的計(jì)算公式如下：Z其中，X是樣本均值，μ0是零假設(shè)中的總體均值，σ是總體標(biāo)準(zhǔn)差，n示例代碼：假設(shè)我們收集了100名高血壓患者的數(shù)據(jù)，使用新藥后平均血壓為130mmHg，標(biāo)準(zhǔn)差為10mmHg，我們想要測(cè)試的總體均值為140mmHg。importnumpyasnp

#樣本數(shù)據(jù)

sample_mean=130

mu_0=140

sigma=10

n=100

#計(jì)算Z統(tǒng)計(jì)量

Z=(sample_mean-mu_0)/(sigma/np.sqrt(n))

print(f"Z統(tǒng)計(jì)量:{Z}")4.1.4確定臨界值與p值臨界值是根據(jù)顯著性水平和Z分布表確定的，用于判斷Z統(tǒng)計(jì)量是否落在拒絕區(qū)域。p值是Z統(tǒng)計(jì)量落在拒絕區(qū)域的概率，用于決定是否拒絕零假設(shè)。示例代碼：我們使用Python的scipy庫(kù)來(lái)查找Z統(tǒng)計(jì)量的p值。fromscipy.statsimportnorm

#計(jì)算p值

p_value=norm.cdf(Z)

print(f"p值:{p_value}")4.1.5做出決策如果p值小于顯著性水平α，則拒絕零假設(shè)；否則，不拒絕零假設(shè)。示例：假設(shè)我們計(jì)算得到的p值為0.0062，小于我們選擇的顯著性水平0.05，因此我們有理由拒絕零假設(shè)，認(rèn)為新藥對(duì)降低血壓有顯著效果。alpha=0.05

#決策

ifp_value<alpha:

print("拒絕零假設(shè)，新藥對(duì)降低血壓有顯著效果。")

else:

print("不拒絕零假設(shè)，沒(méi)有足夠證據(jù)表明新藥對(duì)降低血壓有顯著效果。")通過(guò)以上步驟，我們可以系統(tǒng)地使用Z檢驗(yàn)來(lái)分析數(shù)據(jù)，判斷樣本均值與總體均值之間的差異是否顯著，從而做出基于數(shù)據(jù)的決策。5Z檢驗(yàn)實(shí)例分析5.1單樣本Z檢驗(yàn)案例5.1.1原理單樣本Z檢驗(yàn)用于比較一個(gè)樣本的均值與已知總體均值之間的差異，假設(shè)總體的方差是已知的。該檢驗(yàn)基于標(biāo)準(zhǔn)正態(tài)分布，通過(guò)計(jì)算Z統(tǒng)計(jì)量來(lái)評(píng)估樣本均值與總體均值之間的差異是否顯著。Z統(tǒng)計(jì)量的計(jì)算公式如下：Z其中，X是樣本均值，μ是總體均值，σ是總體標(biāo)準(zhǔn)差，n是樣本大小。5.1.2內(nèi)容與示例假設(shè)我們正在研究一家公司的員工平均工作滿(mǎn)意度是否高于行業(yè)平均水平。行業(yè)平均水平為70分，總體標(biāo)準(zhǔn)差為15分。我們隨機(jī)抽取了100名員工進(jìn)行調(diào)查，得到的平均滿(mǎn)意度為75分。我們想知道這個(gè)差異是否顯著，可以使用單樣本Z檢驗(yàn)。5.1.2.1數(shù)據(jù)樣例樣本均值：X總體均值：μ總體標(biāo)準(zhǔn)差：σ樣本大?。簄5.1.2.2代碼示例importnumpyasnp

fromscipy.statsimportnorm

#定義參數(shù)

sample_mean=75

population_mean=70

population_std=15

sample_size=100

#計(jì)算Z統(tǒng)計(jì)量

z_statistic=(sample_mean-population_mean)/(population_std/np.sqrt(sample_size))

#計(jì)算P值

p_value=2*(1-norm.cdf(abs(z_statistic)))

#輸出結(jié)果

print("Z統(tǒng)計(jì)量:",z_statistic)

print("P值:",p_value)5.1.2.3解釋在上述代碼中，我們首先導(dǎo)入了numpy和scipy.stats庫(kù)，用于數(shù)學(xué)計(jì)算和統(tǒng)計(jì)分布。然后，我們定義了樣本均值、總體均值、總體標(biāo)準(zhǔn)差和樣本大小。通過(guò)公式計(jì)算Z統(tǒng)計(jì)量，并使用norm.cdf函數(shù)計(jì)算P值。最后，我們輸出Z統(tǒng)計(jì)量和P值，以評(píng)估差異的顯著性。5.2兩樣本Z檢驗(yàn)案例5.2.1?理論兩樣本Z檢驗(yàn)用于比較兩個(gè)獨(dú)立樣本的均值是否來(lái)自同一總體或兩個(gè)不同的總體。當(dāng)兩個(gè)樣本的總體方差已知且相等時(shí)，可以使用兩樣本Z檢驗(yàn)。Z統(tǒng)計(jì)量的計(jì)算公式如下：Z其中，X1和X2分別是兩個(gè)樣本的均值，μ1和μ2分別是兩個(gè)總體的均值，σ12和σ5.2.2內(nèi)容與示例假設(shè)我們想要比較兩個(gè)不同部門(mén)的員工工作滿(mǎn)意度是否相同。部門(mén)A的平均滿(mǎn)意度為75分，部門(mén)B的平均滿(mǎn)意度為70分。兩個(gè)部門(mén)的總體標(biāo)準(zhǔn)差分別為15分和12分，樣本大小分別為100和80。我們進(jìn)行兩樣本Z檢驗(yàn)來(lái)評(píng)估這兩個(gè)部門(mén)的滿(mǎn)意度是否存在顯著差異。5.2.2.1數(shù)據(jù)樣例部門(mén)A樣本均值：X部門(mén)B樣本均值：X部門(mén)A總體標(biāo)準(zhǔn)差：σ部門(mén)B總體標(biāo)準(zhǔn)差：σ部門(mén)A樣本大小：n部門(mén)B樣本大?。簄5.2.2.2代碼示例importnumpyasnp

fromscipy.statsimportnorm

#定義參數(shù)

sample_mean_1=75

sample_mean_2=70

population_std_1=15

population_std_2=12

sample_size_1=100

sample_size_2=80

#計(jì)算Z統(tǒng)計(jì)量

z_statistic=(sample_mean_1-sample_mean_2)/np.sqrt((population_std_1**2/sample_size_1)+(population_std_2**2/sample_size_2))

#計(jì)算P值

p_value=2*(1-norm.cdf(abs(z_statistic)))

#輸出結(jié)果

print("Z統(tǒng)計(jì)量:",z_statistic)

print("P值:",p_value)5.2.2.3解釋在兩樣本Z檢驗(yàn)的代碼示例中，我們同樣導(dǎo)入了numpy和scipy.stats庫(kù)。定義了兩個(gè)樣本的均值、標(biāo)準(zhǔn)差和大小，然后根據(jù)公式計(jì)算Z統(tǒng)計(jì)量和P值。通過(guò)比較P值與預(yù)設(shè)的顯著性水平（如0.05），我們可以判斷兩個(gè)部門(mén)的滿(mǎn)意度是否存在顯著差異。以上兩個(gè)案例展示了如何使用Z檢驗(yàn)來(lái)評(píng)估樣本均值與總體均值之間的差異，以及兩個(gè)獨(dú)立樣本均值之間的差異。通過(guò)計(jì)算Z統(tǒng)計(jì)量和P值，我們可以基于標(biāo)準(zhǔn)正態(tài)分布進(jìn)行假設(shè)檢驗(yàn)，從而得出統(tǒng)計(jì)學(xué)上的結(jié)論。6Z檢驗(yàn)的局限性與注意事項(xiàng)6.1Z檢驗(yàn)的假設(shè)限制Z檢驗(yàn)是基于標(biāo)準(zhǔn)正態(tài)分布的假設(shè)檢驗(yàn)方法，主要用于比較樣本均值與已知總體均值之間的差異，或者比較兩個(gè)獨(dú)立樣本的均值差異。然而，Z檢驗(yàn)的適用性受到一定的假設(shè)條件限制：樣本來(lái)自正態(tài)分布的總體：Z檢驗(yàn)假設(shè)樣本數(shù)據(jù)來(lái)自正態(tài)分布的總體。如果數(shù)據(jù)分布嚴(yán)重偏離正態(tài)，Z檢驗(yàn)的結(jié)果可能不準(zhǔn)確。例如，如果數(shù)據(jù)呈偏態(tài)分布，使用Z檢驗(yàn)可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)論。樣本容量足夠大：根據(jù)中心極限定理，當(dāng)樣本容量足夠大時(shí)（通常認(rèn)為是30或以上），樣本均值的分布接近正態(tài)分布，即使原始數(shù)據(jù)不是正態(tài)分布。但是，對(duì)于小樣本，這一假設(shè)可能不成立。獨(dú)立性：Z檢驗(yàn)假設(shè)樣本中的觀(guān)測(cè)值是獨(dú)立的。如果觀(guān)測(cè)值之間存在相關(guān)性，Z檢驗(yàn)的假設(shè)將被破壞，結(jié)果可能不可靠。6.1.1示例：檢查數(shù)據(jù)的正態(tài)性假設(shè)我們有一組樣本數(shù)據(jù)，我們想檢查這組數(shù)據(jù)是否符合正態(tài)分布的假設(shè)，以決定是否可以使用Z檢驗(yàn)。importnumpyasnp

importscipy.statsasstats

importmatplotlib.pyplotasplt

#生成一組數(shù)據(jù)

data=np.random.normal(loc=50,scale=10,size=100)

#使用Shapiro-Wilk檢驗(yàn)檢查數(shù)據(jù)的正態(tài)性

stat,p=stats.shapiro(data)

print(f'Shapiro-WilkTestStatistic:{stat},p-value:{p}')

#如果p值大于0.05，我們不能拒絕原假設(shè)，即數(shù)據(jù)可能來(lái)自正態(tài)分布

alpha=0.05

ifp>alpha:

print("數(shù)據(jù)可能來(lái)自正態(tài)分布，Z檢驗(yàn)的假設(shè)滿(mǎn)足。")

else:

print("數(shù)據(jù)可能不是來(lái)自正態(tài)分布，Z檢驗(yàn)的假設(shè)可能不滿(mǎn)足。")

#繪制數(shù)據(jù)的直方圖和正態(tài)分布的密度曲線(xiàn)

plt.hist(data,bins=20,density=True,alpha=0.6,color='b')

xmin,xmax=plt.xlim()

x=np.linspace(xmin,xmax,100)

p=stats.norm.pdf(x,np.mean(data),np.std(data))

plt.plot(x,p,'k',linewidth=2)

plt.show()6.2小樣本情況下的處理當(dāng)樣本容量小于30時(shí)，Z檢驗(yàn)的假設(shè)可能不成立，因?yàn)闃颖揪档姆植伎赡懿皇钦龖B(tài)分布。在這種情況下，可以考慮使用t檢驗(yàn)，尤其是當(dāng)總體方差未知時(shí)。t檢驗(yàn)對(duì)小樣本更為適用，因?yàn)樗褂脴颖緲?biāo)準(zhǔn)差來(lái)估計(jì)總體標(biāo)準(zhǔn)差，且其分布考慮了樣本大小的影響。6.2.1示例：使用t檢驗(yàn)代替Z檢驗(yàn)假設(shè)我們有兩個(gè)小樣本，我們想比較它們的均值是否顯著不同。#生成兩個(gè)小樣本

sample1=np.random.normal(loc=50,scale=10,size=20)

sample2=np.random.normal(loc=55,scale=10,size=20)

#使用t檢驗(yàn)比較兩個(gè)樣本的均值

t_stat,p_value=stats.ttest_ind(sample1,sample2)

print(f'T-TestStatistic:{t_stat},p-value:{p_value}')

#如果p值小于0.05，我們拒絕原假設(shè)，即兩個(gè)樣本的均值有顯著差異

alpha=0.05

ifp_value<alpha:

print("兩個(gè)樣本的均值有顯著差異。")

else:

print("沒(méi)有足夠的證據(jù)表明兩個(gè)樣本的均值有顯著差異。")6.3數(shù)據(jù)分布的敏感性Z檢驗(yàn)對(duì)數(shù)據(jù)分布的敏感性意味著，如果數(shù)據(jù)不是正態(tài)分布，或者樣本量不足以使樣本均值的分布接近正態(tài)，Z檢驗(yàn)的結(jié)果可能不可靠。此外，Z檢驗(yàn)假設(shè)總體方差已知，但在實(shí)際應(yīng)用中，總體方差通常是未知的，這進(jìn)一步限制了Z檢驗(yàn)的適用性。6.3.1示例：數(shù)據(jù)分布對(duì)Z檢驗(yàn)的影響我們可以通過(guò)模擬一組非正態(tài)分布的數(shù)據(jù)，然后進(jìn)行Z檢驗(yàn)，觀(guān)察其結(jié)果的可靠性。#生成一組非正態(tài)分布的數(shù)據(jù)

data=np.random.exponential(scale=10,size=100)

#假設(shè)總體均值為10，進(jìn)行Z檢驗(yàn)

z_stat=(np.mean(data)-10)/(np.std(data,ddof=1)/np.sqrt(len(data)))

print(f'Z-TestStatistic:{z_stat}')

#使用Shapiro-Wilk檢驗(yàn)檢查數(shù)據(jù)的正態(tài)性

stat,p=stats.shapiro(data)

print(f'Shapiro-WilkTestStatistic:{stat},p-value:{p}')

#如果數(shù)據(jù)不是正態(tài)分布，Z檢驗(yàn)的結(jié)果可能不可靠

ifp<alpha:

print("數(shù)據(jù)不是正態(tài)分布，Z檢驗(yàn)的結(jié)果可能不可靠。")在上述示例中，我們首先生成了一組指數(shù)分布的數(shù)據(jù)，然后進(jìn)行了Z檢驗(yàn)。由于數(shù)據(jù)不是正態(tài)分布，Z檢驗(yàn)的統(tǒng)計(jì)量可能不準(zhǔn)確，這可以通過(guò)Shapiro-Wilk檢驗(yàn)的結(jié)果來(lái)驗(yàn)證。如果數(shù)據(jù)的正態(tài)性檢驗(yàn)顯示數(shù)據(jù)不是正態(tài)分布，那么Z檢驗(yàn)的結(jié)果可能需要謹(jǐn)慎解讀。在實(shí)際數(shù)據(jù)分析中，應(yīng)根據(jù)數(shù)據(jù)的特性選擇合適的統(tǒng)計(jì)檢驗(yàn)方法，以確保結(jié)果的可靠性。7結(jié)論與進(jìn)一步學(xué)習(xí)7.1Z檢驗(yàn)在數(shù)據(jù)分析中的作用Z檢驗(yàn)是統(tǒng)計(jì)學(xué)中一種常用的假設(shè)檢驗(yàn)方法，主要用于比較樣本均值與已知總體均值之間的差異，或者比較兩個(gè)獨(dú)立樣本的均值差異。它基于標(biāo)準(zhǔn)正態(tài)分布的理論，當(dāng)樣本量足夠大（通常n>30），或者總體分布本身就是正態(tài)分布時(shí)，樣本均值的分布可以近似為正態(tài)分布。Z檢驗(yàn)通過(guò)計(jì)算Z統(tǒng)計(jì)量，然后與標(biāo)準(zhǔn)正態(tài)分布表中的臨界值進(jìn)行比較，來(lái)判斷差異是否顯著。7.1.1示例：使用Python進(jìn)行Z檢驗(yàn)假設(shè)我們有一組數(shù)據(jù)，代表了某公司員工的平均工資，我們想要檢驗(yàn)這個(gè)平均工資是否與行業(yè)平均工資有顯著差異。行業(yè)平均工資為5000元，而我們收集的樣本數(shù)據(jù)如下：#Python代碼示例

importnumpyasnp

fromscipyimportstats

#樣本數(shù)據(jù)

sample_data=np.array([5200,5100,5300,4900,5050,5150,5250,4950,5000,5100])

#已知的總體平均工資

population_mean=5000

#樣本均值

sample_mean=np.mean(sample_dat

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)分析：假設(shè)檢驗(yàn)：Z檢驗(yàn)與標(biāo)準(zhǔn)正態(tài)分布

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)分析：假設(shè)檢驗(yàn)：Z檢驗(yàn)與標(biāo)準(zhǔn)正態(tài)分布

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔