抽樣及樣本容量概論_第1頁
抽樣及樣本容量概論_第2頁
抽樣及樣本容量概論_第3頁
抽樣及樣本容量概論_第4頁
抽樣及樣本容量概論_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

抽樣及樣本容量(Sampling&SampleSize)第一頁,共六十七頁。什么是抽樣及為何要進行抽樣?抽樣是收集所有數(shù)據(jù)的一部分。使用該部分數(shù)據(jù)得出結論(進行推論)。為什么要進行抽樣?因為查看所有數(shù)據(jù)可能成本太高。費時太長。造成破壞(例如、品嘗測試)。一般可從比較少量的數(shù)據(jù)得出可靠的結論。第二頁,共六十七頁??傮w情況:在操作上您可以定義現(xiàn)存的總體的邊界、以便可以認出總體的每個個體、在理論上還可以進行編號。抽樣目的:

描述該總體的特征。

示例:抽樣調查(8月31日以前畢業(yè)的)大學校友、以確定在今后兩年中他們至少將一個小孩送進大學的百分比??傮w和過程樣本使用樣本對總體進行推論:例如。平均值=X、比例=p第三頁,共六十七頁。過程情況:過程是動態(tài)的且不斷變化的;過程中的個體并不是全可以鑒定的、因為某些個體尚不存在(如明天制造的那些個體)。目的:了解過程、以便采取行動改進或預測過程未來的行為。示例:我們估計下月發(fā)票中有5%至20%有錯誤(除非更改該過程)。總體和過程(續(xù))使用樣本對過程未來的行為進行推論昨天保存時間順序!今天明天??20%5%10%15%抽樣數(shù)據(jù)的時間曲線圖???以時間順序排列的過程輸出第四頁,共六十七頁。抽樣和改進項目確定過程周期和缺陷比率的基準性能;(例如:在控制圖上繪出樣本數(shù)據(jù))估計過程能力;(例如:計算一件樣本中的缺陷)確定造成性能低下或數(shù)據(jù)變動的因素(X);(利用樣本數(shù)據(jù)繪制圖表、進行假設測試或回歸分析)驗證建議的改進工作;(比較從過程中抽取的新數(shù)據(jù)與從該過程抽取的舊數(shù)據(jù))監(jiān)視過程性能、必要時采取補救措施、并預測未來的性能;(在控制圖上繪出新過程的樣本數(shù)據(jù))改進項目一般是對過程情況進行抽樣:第五頁,共六十七頁。為什么要區(qū)別總體抽樣和過程抽樣?樣本容量公式是為定義明確的靜態(tài)(而且常常是理論上的)總體情況設計的。但是大多數(shù)抽樣應用是針對動態(tài)的、尚未知的過程情況。將樣本容量公式應用于過程抽樣情況可能得出錯誤的結論、除非滿足一定的條件。要使推論有效、樣本必須真實地代表總體或過程??傮w所需的抽樣策略不同于過程所需的抽樣策略、以確保樣本具有代表性(在下一節(jié)中討論)。第六頁,共六十七頁。從穩(wěn)定的過程中抽樣如果過程是穩(wěn)定的、樣本容量公式可應用于過程情況。可獲得具有特定精度的可靠估計值。當進行比較時、如果存在的差異具有一定功效、便可找出它們。(穩(wěn)定的、可預測的過程)4045505560651357911131517192123252729313335373941第七頁,共六十七頁。從不穩(wěn)定的過程中抽樣然而許多過程是不穩(wěn)定的。無論如何總要收集數(shù)據(jù)、并繪制控制圖或時間曲線圖。識別特殊原因并清除之。使用樣本容量公式求出的值是您應認為最小的數(shù)字;可能的話,需要收集更多的數(shù)據(jù)。存在特殊原因時,需要更大的樣本容量,因為長期變動大于短期變異。使用公式時,您必須估計s(或

p);您必須判斷特殊原因如何影響該估計值,并根據(jù)您認為過程將會是什么情況來調整它。第八頁,共六十七頁。從不穩(wěn)定的過程中抽樣(續(xù))當進行組之間的比較時:盡量在相同時間內獲取每組的樣本。當作結論或報告結論時、會存在這樣一個風險、即這些結論可能不適用于將來。如果過程是不穩(wěn)定的,可能的話,將一段很長的時間里得到的數(shù)據(jù)繪制于一張控制圖上,并圈出或特別標示您的樣本所代表的數(shù)據(jù)點或時間區(qū)間。允許您和他人可直接從曲線觀察過程的行為。幫助您判斷這些結論在未來的可靠性。第九頁,共六十七頁。從過程中抽樣對于過程情況,我們希望確保能夠理解過程的行為。因此我們:在一段時間內進行系統(tǒng)或整群(非隨機)抽樣。即使隨機抽樣能適用于穩(wěn)定過程,我們仍采用系統(tǒng)或整群抽樣,并保持時間順序以便能更好地表示過程行為。盡量從足夠長的時間段中進行抽樣,以便真實地表示過程中的變化源。運用您自己的判斷和有關變化源的過程知識來確定多長時間進行一次抽樣(每隔10個個體、每隔7個個體、每天、每月等)。一般情況下、更加頻繁地收集小樣本、可確保隨著時間的過去能真實地表示過程行為。繪制控制圖或時間曲線圖,以確定該過程是穩(wěn)定的還是不穩(wěn)定的(尋找非正常值、偏移、趨勢或其它模式)。第十頁,共六十七頁。抽樣方法第十一頁,共六十七頁。代表性樣本要使結論有效,樣本必須具有代表性。數(shù)據(jù)應真實地表示總體或過程收集的數(shù)據(jù)與未收集的數(shù)據(jù)之間不應存在有系統(tǒng)性的差異。第十二頁,共六十七頁。每個單元具有相同被選中的機會從每個組隨機抽樣一個成比例的數(shù)字隨機抽樣分層

隨機

抽樣樣本總體樣本總體AABBBBCDDDAAAABBBBBBBCCDDDDDDB概率抽樣第十三頁,共六十七頁。每隔n個抽樣(如每隔三個抽樣)每經過時間t抽樣n個單元(例如,每小時抽樣三個單元);然后計算每個小組的平均值(比例)系統(tǒng)抽樣整群

抽樣樣本總體

或過程保持時間順序樣本過程9:009:3010:3010:00保持時間順序第十四頁,共六十七頁。統(tǒng)計調查的誤差(抽樣誤差):是指調查所得結果與總體真實數(shù)值之間的差異。可分

1、登記性誤差:指在調查和匯總過程中,由于觀察、測量、登記、計算等方面的差錯或被調查者提供虛假資料而造成的誤差。(不是抽樣調查獨有的)[盡量避免]

2、代表性誤差:指用樣本指標推斷總體指標時,由于樣本結構與總體結構不一致、樣本不能完全代表總體而產生的誤差。它又分

--2-1、系統(tǒng)誤差:指由于非隨機因素引起的樣本代表性不足而產生的誤差,表現(xiàn)為樣本估計量的值系統(tǒng)性偏高或偏低,故也稱偏差,[盡量避免]如抽樣框與目標總體不一致、有意多選較好或較差的單位等;

--2-2、隨機誤差:又稱偶然性誤差,指遵循隨機抽樣原則,由于隨機因素(偶然性因素)引起的代表性誤差。[不可避免,但需加以計算與控制]抽樣估計中所謂的抽樣誤差,就是指這種隨機誤差,即由于抽樣的隨機性而產生的樣本估計量與總體參數(shù)之間的代表性誤差。抽樣誤差第十五頁,共六十七頁。抽樣誤差的3個概念1、實際抽樣誤差:θ-θ[實際上總體參數(shù)θ是未知數(shù),不可計算]2、抽樣平均誤差:3、抽樣極限誤差:是指在一定的概率下抽樣誤差的可能范圍,也稱為允許誤差。用△表示抽樣極限誤差,即在一定概率下,抽樣誤差率=(抽樣極限誤差/估計量)*100%

抽樣估計精度=100%-抽樣誤差率如|xxbar-X|≤△xbar第十六頁,共六十七頁。抽樣總結本單元包括:抽樣是查看所有數(shù)據(jù)的一種有效率和效果的方法??傮w抽樣與過程抽樣有不同的目的和方法。代表性是抽樣最重要的一方面。正確抽樣使您對結論有信心??傮w抽樣的樣本容量公式可適用于穩(wěn)定過程。第十七頁,共六十七頁。樣本容量(SampleSize)第十八頁,共六十七頁。樣本容量介紹人們常問的第一個問題是“我需要多少個樣本?”該問題的答案由下列四個因素確定:1. 數(shù)據(jù)類型離散數(shù)據(jù)和連續(xù)數(shù)據(jù)2. 您想做什么描述整組的某個特征(平均值或比例)在特定的精度內(±___單位)比較組的特征(找出組平均值或比例之間的差異)以什么功效:希望檢測到特定差異的概率3. 您估計的標準偏差(或比例)為多大4. 您希望的置信度為多高(通常為95%)第十九頁,共六十七頁。假設檢驗中樣本容量的重要性當樣本容量太小

不能檢驗出差異n=1n=5過程A過程A過程B過程B第二十頁,共六十七頁。假設檢驗中樣本容量的重要性當樣本容量太大對平均值的漂移過于敏感資源浪費第二十一頁,共六十七頁。樣本容量的選取過程第一步:明確研究過程中的響應變量第二步:選擇合適的統(tǒng)計檢驗第三步:決定可接受的風險和第四步:定出漂移敏感度第五步:建立或估計當前過程中的參數(shù)

第六步:決定合適的樣本容量第二十二頁,共六十七頁。抽樣風險是H0成立,但結果卻否定它的風險.

1-是H0的置信系數(shù).觀察值1第二十三頁,共六十七頁。抽樣風險是H0不成立,但結果卻肯定它的風險.(1-)稱為檢驗的功效,它表示H0不成立,而結果也否定它的概率,即當H0不成立時,作出正確結論的概率.觀察值12漂移第二十四頁,共六十七頁。抽樣風險第二十五頁,共六十七頁。抽樣風險H0: 無差異H1: 有明顯差異零假設成立不成立決策接受H0拒絕H0正確1–正確1–第一類錯誤第二類錯誤

第二十六頁,共六十七頁。漂移敏感性實驗之前需要預先指定反映明顯差異的量.與標準差之比/稱為漂移敏感度(driftsensitivity).第二十七頁,共六十七頁。關于均值的比較的檢驗單樣本檢驗(1-SampleTests)StatPowerandSampleSize1-SampleZStatPowerandSampleSize1-Samplet雙樣本檢驗(2-SampleTests)StatPowerandSampleSize2-Samplet第二十八頁,共六十七頁。樣本容量公式取決于您的目的抽樣目的公式*/Minitab命令估計平均值(例如、確定基準周期)(其中

d=精度:±__單位)估計比例(例如、確定缺陷基準百分比)(其中

d=精度:±__單位)第二十九頁,共六十七頁。精度(d)精度是允許某個特征的估計值波動的范圍。估計上下不超過兩天的周期。估計上下不超過3%的缺陷百分比。使用符號

d表示精度。傳統(tǒng)的統(tǒng)計學稱它為“delta”、因此以d表示。精度等于置信區(qū)間(CI)的一半。周期(單位為天)為95%時CI=(48、52)意味著我們有95%的確信平均周期在48天至52天之間。CI的寬度=4天。精度=d=2天(=估計值上下不超過2天)。第三十頁,共六十七頁。精度(d)(續(xù))決定您需要多大的精度。精度與樣本容量的平方根成反比。第三十一頁,共六十七頁。精度和樣本容量要提高精度、必須增加樣本容量(但會增加成本)。對于需要多大的精度沒有明確的答案;該答案取決于使用該估計值對業(yè)務產生多大的影響。每種情況都是獨特的;不要效仿別人的決定。第三十二頁,共六十七頁。估計平均值所需的樣本容量95%的置信度*意味著因子為2標準偏差的估計您希望的精度不重復抽樣重復抽樣第三十三頁,共六十七頁。目的:練習使用樣本容量公式估計平均值。時間:3分鐘。要求:使用樣本容量公式計算平均值,以便回答下列問題。

1.假設您想估計

呼入電話的平均通話時間1分鐘。您需要多少樣本?(歷史數(shù)據(jù)顯示典型的標準偏差=3分鐘。)

2.您需要對多少次呼入抽樣、以獲得1/8分鐘的精度?[練習]:估計平均值所需的樣本容量第三十四頁,共六十七頁。練習:答案問題1.問題2.第三十五頁,共六十七頁。如何估計標準偏差困難的選擇:要估計樣本容量,您需要知道標準偏差。您需對數(shù)據(jù)的變化量有一定了解,因為數(shù)據(jù)可變性加大,需要的樣本容量也要相應增加。但是,如果您還沒有進行抽樣,如何知道偏差呢???第三十六頁,共六十七頁。如何估計標準偏差(續(xù))估計標準偏差的選擇查找現(xiàn)存的數(shù)據(jù)并計算

s。使用類似過程的控制圖(針對個體的)。采集一個小的樣本并計算

s。根據(jù)您對過程的認識和記得的類似數(shù)據(jù)猜一猜(大多數(shù)人不擅長這樣做)。第三十七頁,共六十七頁。估計比例所需的樣本容量95%的置信度意味著因子為2猜p的值(樣本大小隨P

變動較大、從P=0.1到0.5,變化甚?。┠M木鹊谌隧?,共六十七頁。使用精度調整樣本容量您可使用確定樣本容量的公式,來確定是否需要花更多的資金收集更多的樣本來得到更高的精度。在收集數(shù)據(jù)之前這樣做可以幫助您決定多少樣本可以符合您的項目和預算。1. 確定您可以提供多少個樣本(n)。2. 然后問:

該樣本提供多高的精度?

即、精度的平均值在±d單位之內還是精度的比例在±d%之內第三十九頁,共六十七頁。使用精度調整樣本容量(續(xù))3. 該精度足夠精確嗎?4. 如果不夠精確:為各種樣本容量繪制一個精度和成本表,以確定在樣本上每花一美元在精度上提高了多少。然后選擇一個樣本容量,再根據(jù)所提高的精度或您需要的精度來證明這是正確的選擇。第四十頁,共六十七頁。從有限的總體中進行抽樣樣本容量公式假設樣本容量(n)小于總體(N)。如果>.05您抽取的樣本占總體的5%以上您可以使用“有限總體”公式調整樣本容量:第四十一頁,共六十七頁。使用樣本容量公式使用樣本容量公式:在置信度為95%的情況下,根據(jù)給定的期望精度以及S或P的估計值,確定估計整組的某個特征(平均值或比例)所需的樣本容量。在收集數(shù)據(jù)之前,確定各種樣本容量其估計值的精度。確定估計值的精度與增加樣本容量的成本之間的得失。在收集數(shù)據(jù)之后,確定估計值的精度。第四十二頁,共六十七頁。狀態(tài):樣本容量命令和公式抽樣目的公式*/Minitab命令估計平均值(例如、確定基準周期)(其中

d=精度:±__單位)估計比例(例如、確定缺陷基準百分比)(其中

d=精度:±__單位)比較兩組平均值、找出差異(2個樣本的

t測試)統(tǒng)計>功效和樣本容量>2個樣本的

t比較兩個以上的組的平均值、找出差異(ANOVA)統(tǒng)計>功效和樣本容量>單向

ANOVA比較兩個(或更多)組的比例、找出差異(卡方測試)統(tǒng)計>功效和樣本容量>2個比例第四十三頁,共六十七頁。樣本容量大經驗法則統(tǒng)計值

或圖表

建議應采用的最

小樣本容量(n)

平均值比例頻率分布圖

(直方圖)

Pareto排列圖散布圖控制圖50502424第四十四頁,共六十七頁。5個變量α、β、δ、σ和N之間的關系可寫出下面是公式:

注意如果我們知道了5個變量中的任意4個變量,就可以通過上式計算出第5個變量

利用Minitab,我們現(xiàn)在將說明如何計算樣本容量和檢驗功效:

樣本容量=N檢驗功效=1-β計算樣本容量第四十五頁,共六十七頁。一種新型的焊接機已經研制出來,出于對經濟價值的考慮,新型焊接機的合格率必須要比現(xiàn)有類型的焊接機大5個百分點,現(xiàn)有設備的合格率約為80%為了比較這兩種設備,要使用日常的數(shù)據(jù),現(xiàn)有設備的歷史日合格率的標準差為3%,要求新的焊接機有相同的日合格率散布。

我們可接受的α風險是0.01(指兩臺設備有差異而實際上并沒有差異的機會)我們可接受的β風險是0.20(說兩臺設備合格率相同而實際上并不同的機會)[例題1]:1-樣本t-檢驗時的樣本容量的計算第四十六頁,共六十七頁。零假設(Ho):

新設備的合格率并不比現(xiàn)有的設備好

備擇假設(Ha):

新設備的日合格率比現(xiàn)有的設備高

焊接機:假設第四十七頁,共六十七頁。

在這兩個假設之間需要選擇多大的樣本容量呢?

從所給的信息,我們得到

顯著水平,

a=0.01

檢驗功效=1-b=0.80.

平均值間的差異,

d=85-80=5.標準差,

s=3備擇假設

(Ha)為新設備的日合格率比現(xiàn)有的設備高

焊接機:需要的樣本容量

第四十八頁,共六十七頁。選擇Stat>PowerandSampleSize>1-Samplet.5.輸入alpha,a

2.輸入檢驗功效,1-b1.輸入delta,d4.選擇備擇假設

3.輸入sigma,s填選項1-3;然后點“Options”再填選項4和5;最后,在所有打開的窗口中點OK焊接機:利用Minitab第四十九頁,共六十七頁。Minitab告訴我們,至少要抽取7個樣本,才能保證在我們的檢驗功效為0.80的情況下,把新焊接機是否比現(xiàn)有的設備高5個百分點準確檢測出來(注:N=7時,實際的檢驗功效為0.8512)焊接機:Minitab輸出PowerandSampleSize1-SampletTestTestingmean=null(versus>null)Calculatingpowerformean=null+differenceAlpha=0.01Assumedstandarddeviation=3SampleTargetDifferenceSizePowerActualPower570.80.851212第五十頁,共六十七頁。某工程師想通過實施一個全階乘DOE(3因子,8運行),來研究恒溫箱對溫度、流體密度和液罐變化的動作靈敏度;

0.001英寸的動作就影響功能表現(xiàn)。設計隊想探測這樣或更高幅度的影響;

必須考慮恒溫箱動作中的工程散布,SPC數(shù)據(jù)顯示標準偏差約為0.001英寸;

可以接受的α風險(說一個因子的兩個水平不同,而實際上相同的風險)是0.03;由于時間的限制,只能作兩次再現(xiàn)(共16次運行),有關該DOE計劃的報告必須上報給工程主管。

[例題2]-檢驗功效計算:恒溫箱DOE第五十一頁,共六十七頁。零假設(Ho):實驗因子對恒溫箱動作沒有影響

備擇假設(Ha):實驗因子對恒溫箱動作有影響

恒溫箱DOE:假設第五十二頁,共六十七頁。觀察到0.001英寸尺度影響(當此影響存在時)的概率是多少?(即此計劃完的DOE的檢驗功效是多少?)

從所給的信息,我們知道

顯著水平,a=0.03再現(xiàn)數(shù)=2.影響差異,d=0.001英寸標準偏差,s=0.001英寸備擇假設(Ha)是,因子對恒溫箱的動作有影響

恒溫箱DOE:檢驗功效

第五十三頁,共六十七頁。選擇Stat>PowerandSampleSize>2LevelFactorialDesign6.輸入alpha,a2.輸入循環(huán)數(shù)

填寫選項1-5。然后點“Options”并填選項6。最后,在所有打開的窗口中點OK

1.輸入因子數(shù)4.輸入影響尺度,d5.輸入sigma,s3.輸入再現(xiàn)數(shù)恒溫箱DOE:利用Minitab第五十四頁,共六十七頁。Minitab告訴我們,兩次再現(xiàn)時的檢驗功效只有0.3234,這意味著我們很可能不能看到0.001英寸尺度的影響,顯然需要更多的再現(xiàn)數(shù).

恒溫箱DOE:Minitab輸出PowerandSampleSize2-LevelFactorialDesignAlpha=0.03Assumedstandarddeviation=0.001Factors:3BaseDesign:3,8Blocks:noneCenterTotalPointsEffectRepsRunsPower00.0012160.323375第五十五頁,共六十七頁。某公司正在考慮決定是否變更供應商;

供應商X是當前的供應商,其不良率約為10%;而供應商Y是一個新供應商,其許諾提供部品的不良率將小于10%;顧客認為如果供應商Y比供應商X的不良率小1個百分點,則更換供應商就有經濟利益;

用來決定是否值得采用供應商Y的樣本容量是多少?

為了比較,分別計算獲得檢驗功效為0.6、0.7、0.8和0.9所需要的樣本容量;假設a=0.05[例題3]-樣本容量計算:拒絕部品比例

第五十六頁,共六十七頁。零假設(Ho):供應商之間部品的不良率沒有差異

備擇假設(Ha):供應商X的部品不良率要大于供應商Y的拒絕部件的比例:假設

第五十七頁,共六十七頁。在檢驗功效分別為0.6、0.7、0.8和0.9時,能計算并比較兩個觀察的不良率所需樣本容量是多少?

從所給的信息,我們知道

顯著水平,a=0.05如果供應商Y的部品不良率要比供應商X低一個百分點,顧客將選擇供應商Y比例的差異,d=0.01備擇假設(Ha)是供應商X的不良率大于供應商Y的不良率

拒絕部品比例:樣本容量第五十八頁,共六十七頁。選擇Stat>PowerandSampleSize>2Proportions5.輸入alpha,a4.指定供應商X大于供應商Y先填選項1-3;然后點“Options”并填選項4和5;最后,在所有打開的窗口中點OK

2.輸入檢驗功效3.輸入供應商Y的比例

拒絕部品比例:利用Minitab1.輸入供應商X的不良率第五十九頁,共六十七頁。PowerandSampleSizeTestforTwoProportionsTestingproportion1=proportion2(versus>)Calculatingpowerforproportion2=0.09Alpha=0.05SampleTargetProportion1SizePowerActualPower0.161960.60.6000350.180910.70.7000080.1106300.80.8000050.1147240.90.900006需要很大的樣本容量!為了提供90%的檢驗功效來探測百分之一的差異(如果存在),則需要每個供應商提供147240件部品!

拒絕部品比例:Minitab輸出第六十頁,共六十七頁。[練習1](1-SampleTests)每箱64打的冰其凌,允許的誤差不能超過3打.機器包裝時的標準差是1打.對于檢驗功效分別為0.7,0.8

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論