應(yīng)用統(tǒng)計學(xué)課件_第1頁
應(yīng)用統(tǒng)計學(xué)課件_第2頁
應(yīng)用統(tǒng)計學(xué)課件_第3頁
應(yīng)用統(tǒng)計學(xué)課件_第4頁
應(yīng)用統(tǒng)計學(xué)課件_第5頁
已閱讀5頁,還剩369頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1第二講

概率分布2概率(Probability)概率是事件發(fā)生的可能性的數(shù)值度量。取值在0到1之間古典法,相對頻數(shù)法,主觀法必然事件不可能事件.5103對以下情況應(yīng)使用哪種方法找概率?一個有六個孩子的家庭有一對雙胞胎;從一副牌中抽出一張A;明天郊游時下雨。4樣本空間(SampleSpace)

一個試驗所有可能出現(xiàn)的結(jié)果構(gòu)成樣本空間。

e.g.All6facesofadie:e.g.All52cardsofabridgedeck:

5事件(Event)

若干樣本點的集合。事件的概率等于事件中所有樣本點的概率的和

6隨機(jī)變量(RandomVariable)

一次試驗結(jié)果的數(shù)值性描述離散型隨機(jī)變量,連續(xù)型隨機(jī)變量期望,方差7離散型隨機(jī)變量ProbabilityDistributionValues(x)

Probability(f(x)) 0 1/4=.25 1 2/4=.50 2 1/4=.25Toss2Coins.

Count#Tails.TTTT8離散隨機(jī)變量的數(shù)學(xué)期望定義:對期望的解釋:

1)以概率作為加權(quán)的加權(quán)平均值

2)概率分布的中心

3)長期重復(fù)的平均值

4)一場賭博的公平值

5)得到隨機(jī)變量的總體的平均值

9離散隨機(jī)變量的方差定義:對方差的解釋

1)與平均值偏差的平方的概率加權(quán)平均值

2)概率分布的散布程度

3)多次重復(fù)結(jié)果的方差

4)賭博的“風(fēng)險”

5)得到隨機(jī)變量的總體的方差

10例A股票:獲得3%回報的概率是0.7。獲得–1%回報的概率是0.3B股票:獲得

6%回報的概率是0.7。獲得–8%回報的概率是0.3C股票:獲得45.42%回報的概率是0.7。獲得–100%回報的概率是0.3

你選擇哪一個?

A股票:均值=1.8%,標(biāo)準(zhǔn)差=1.83B股票:均值=1.8%,標(biāo)準(zhǔn)差=6.42C股票:均值=1.8%,標(biāo)準(zhǔn)差=66.64

11方差作為期權(quán)定價

A股票:今天的價格是150。假定3個月后,價格將變?yōu)椋?/p>

X=

每股收益:

R=X-150

期望收益:

0

方差

標(biāo)準(zhǔn)差

50期權(quán):在特定時間以特定價格買賣股票的權(quán)利

一個‘150看跌期權(quán)’:‘在3個月后以$150的價格售出一股股票的權(quán)利’

一個‘150看漲期權(quán)’:‘在3個月后以$150的價格買入一股股票的權(quán)利’

12

你如何賺錢?

==現(xiàn)在以$150的價格買入一股。買入兩個看跌期權(quán)(可以以$150的價格售出)

3個月后:

如果X=$200.收益=$50(股票收益

$50.期權(quán)作廢)

如果X=$100.收益=$50(股票損失

$50.每一個期權(quán)盈利$50)

但是,你需要為期權(quán)付費(它不是免費的?。?/p>

期權(quán)的價值是多少?$2513B股票:今天價格是$150。3個月后

如果

X=

期望收益

0

方差

標(biāo)準(zhǔn)差

100

同樣的方案:收益

$100期權(quán)價格:5014方差作為質(zhì)量的度量

15Bernoulli分布又稱二值分布,X只取0和1兩個值,而且Pr(x=1)=p,Pr(x=0)=1-p.期望和方差:

E(X)=p;Var(X)=p(1-p).什么樣的問題(數(shù)據(jù))可以使用該模型?16二項分布(Binomial)概率函數(shù)期望方差

17(1)

n次獨立的試驗

(2)

每一個試驗有兩種可能的結(jié)果

{成功,失敗}(3)

所有試驗的成功的概率,P(S)=p,都相等

(4)在n次獨立的試驗中成功了的次數(shù)是X

18n=5p=0.1n=5p=0.5MeanStandardDeviation

EXnpnpp

()()10.2.4.6012345XP(X).2.4.6012345XP(X)e.g.

=5(.1)=.5e.g.

=5(.5)(1-.5) =1.118019超幾何分布(Hypergeometric)概率函數(shù):期望和方差:從抽樣方式上看:二項式分布和超幾何分布的區(qū)別。20泊松分布(Poisson)概率函數(shù):期望和方差:21

=0.5

=6)0.2.4.6012345XP(X)0.2.4.60246810XP(X)22連續(xù)隨機(jī)變量

密度:f(x)期望:方差:23均勻分布(Uniform)概率密度函數(shù):期望和方差:24正態(tài)分布(Normal)概率密度函數(shù)標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù)25正態(tài)分布的圖形26指數(shù)分布(Exponential)密度函數(shù):期望和方差:

27ExponentialDistributionsf(X)X

=0.5

=2.028隨機(jī)變量的組合

假如和是兩個隨機(jī)變量。它們的(線性)組合可這樣取得

式中c1和c2

代表確定的數(shù)字。

應(yīng)用:這種組合的典型用途是描述證券投資組合的收益。29例:設(shè)定隨機(jī)變量

=%SafeCo共同基金的收益

=%RiskCo共同基金的收益

假設(shè)N(5,22)而N(8,42)

你更愿意要哪一種基金?

假設(shè)你有一筆固定數(shù)目的錢要投資。

假如你將50%投資在SafeCo,將50%投資在RiskCo,你的收益將會如何?

假如你將80%投資在SafeCo,將20%投資在RiskCo,你的收益將會如何?3031平均收益方差50%+50%組合

6.557380%+20%組合

5.63.24.481.9232第三講

抽樣分布和估計33概率論與統(tǒng)計學(xué)之間的關(guān)系

一個概率論的問題:

假定有一個大盒子中有

10,000個球,分布如下:70%的黑球和

30%的白球隨機(jī)抽取100個球,得到60個黑球和40個白球的概率是多少?

----給定一個總體(盒子中的所有小球)的已知特征(70%和30%),研究一個試驗(抽取小球)的可能的結(jié)果

(例如

60-40)。34一個統(tǒng)計學(xué)的問題:

假定一個大盒子中有

10,000個小球(黑和白)。隨機(jī)抽取100個小球,發(fā)現(xiàn)其中有60個黑球和40個白球。那么黑球在盒子中所占的比例是多少?

----觀察到一個試驗(抽取小球)的結(jié)果

(60-40),推斷出這個總體(盒子中的所有小球)的特征(比例)

35總體-樣本理論

統(tǒng)計推斷采用一個(有代表性的)子總體(樣本)來對總體的某些特征進(jìn)行科學(xué)的推斷。

36總體

撲克籌碼總體,

中國所有MBA學(xué)生的身高總體,

深圳所有居民的收入總體,

金融資產(chǎn)收益總體

可以認(rèn)為被研究的總體包含了一個非常大的(或無限的)數(shù)量的元素,這些元素以一定的方式分布。

37樣本

從盒子中隨機(jī)抽取100個撲克籌碼從中國隨機(jī)抽取的200個MBA學(xué)生的身高隨機(jī)抽取的1000個深圳居民的收入觀察到的金融資產(chǎn)的收益

樣本必須是總體的一個具有真實代表性的子集。只有依靠這樣的樣本,我們才能得出科學(xué)的(符合統(tǒng)計學(xué)的)結(jié)論。

38例:EAI的抽樣問題(p.185)人事主管要制定一項公司2500名管理人員的簡報。內(nèi)容包括平均年薪、已完成培訓(xùn)項目的管理人員所占比例。如果已有全部2500人的信息······如果沒有······39幾個問題如何抽樣?樣本和總體有什么樣的關(guān)系?如何由樣本估計出平均年薪及完成培訓(xùn)的比例?估計的誤差有多大?某人聲稱該公司管理人員平均年薪為53000元,你是否同意這個說法?該公司管理人員的年薪有什么樣的分布?(是正態(tài)分布嗎?)40統(tǒng)計推斷的基本概念總體:有限總體、無限總體;樣本;統(tǒng)計推斷的任務(wù):通過樣本來了解總體。為什么需要抽樣:

1)總體無法得到;

2)時間成本不允許;

3)實驗具有破壞性。41參數(shù):總體的特征

例:P(正面),P(不合格品)

深圳居民的平均收入

統(tǒng)計量:從樣本中計算出的任何量

例:在100次拋擲硬幣中得到正面的比例

在隨機(jī)抽取的1000枚芯片中不合格品的比例

隨機(jī)抽取的1000個深圳居民的平均收入

估計量:用來估計參數(shù)的統(tǒng)計量42統(tǒng)計推斷的內(nèi)容之一估計參數(shù)點估計和區(qū)間估計管理人員年薪

43統(tǒng)計推斷內(nèi)容之二

假設(shè)檢驗:是否可以選用這個模型?例子:是否可以使用模型N(53000,16062)來刻畫管理人員的年薪?思想:如果該模型是好的,那么和53000相差很多的可能性不能太大。44簡單隨機(jī)抽樣有限總體的簡單隨機(jī)抽樣:等概率抽樣;有放回抽樣:獨立性無放回抽樣:非獨立性抽樣方法:利用Excel

45無限總體的簡單隨機(jī)抽樣:獨立性;例子:某快餐店11:30-13:00午飯時間顧客從點餐到拿到食品的時間。

46樣本和總體分布例子:籌碼一個箱子中有10000個籌碼,其中50%為5元,30%為10元,10%為15元,10%為30元。yP(y)5.510.315.130.147從中抽一個容量為30的樣本:50抽樣分布樣本不同,值也不同。那么取不同值的可能性分別是什么?的概率分布稱作它的抽樣分布。抽樣分布在統(tǒng)計推斷中的中心地位。抽樣分布取決于總體的分布(模型)以及抽樣的方式。

抽樣方式總體分布=====

抽樣分布51

樣本均值的抽樣分布

(無限總體)如果總體服從,那么簡單隨機(jī)樣本的均值服從正態(tài)分布如果樣本容量n非常大,而且總體的期望是,方差是2〈+,那么簡單隨機(jī)樣本的均值近似服從正態(tài)分布(中心極限定理)52樣本比率的抽樣分布

(無限總體)小樣本情況

x服從二項分布B(n,p).大樣本情況,按照中心極限定理,近似地

53正態(tài)分布的圖形54一個例子一種電器元件設(shè)計的服務(wù)壽命為3000小時,標(biāo)準(zhǔn)差為800小時。一名顧客買了49個元件。這49個元件的平均壽命至少為2750小時的概率為多大?至少為3000小時呢?55樣本方差的抽樣分布如果是來自正態(tài)總體的一個隨機(jī)樣本,定義樣本方差為:

56認(rèn)識卡方分布57方差未知時樣本均值的抽樣分布正態(tài)總體,

2未知,使用樣本方差s2來替代2,則樣本均值滿足:n>30時,可以用標(biāo)準(zhǔn)正態(tài)分布近似。58正態(tài)分布和t分布的比較59估計的誤差不能以個別估計值作為評價準(zhǔn)則;估計的誤差:

60對估計量的評價無偏性:偏差是零;有效性:方差最?。灰恢滦裕簶颖救萘吭黾訒档凸烙嬚`差。樣本均值(比率)是對總體均值(比率)的一個無偏的、有效的、一致的估計量。61EstimatePopulationParameter...withSampleStatisticMean

ProportionpVariances2PopulationParametersEstimated

2Difference

-

12x-x12___62聯(lián)合食品公司的案例針對“聯(lián)合食品公司”的案例(P.44案例2-1),我們假設(shè)調(diào)查的100個客戶組成一個簡單隨機(jī)樣本。嘗試回答下面的問題:1)所有客戶一次購買金額的平均值是多少?2)所有使用信用卡的客戶一次購買金額的平均值是多少?3)使用信用卡的客戶占的比例是多少?651)所有客戶一次購買金額的平均值是多少?(29.4449)2)所有使用信用卡的客戶一次購買金額的平均值是多少?(40.8768)3)使用信用卡的客戶占的比例是多少?(0.22)66第四講

區(qū)間估計67區(qū)間估計總體均值總體比例總體方差68聯(lián)合食品公司的案例1)所有客戶一次購買金額的平均值是多少?(29.4449)2)所有使用信用卡的客戶一次購買金額的平均值是多少?(40.8768)3)使用信用卡的客戶占的比例是多少?(0.22)69我們的估計值離真值有多遠(yuǎn)?我們希望通過樣本的信息給出一個范圍,使這個范圍按足夠大的概率包含我們所感興趣的參數(shù)。如何尋找K和L,使得以95%的概率成立:70抽樣誤差:無偏點估計值與總體參數(shù)之差的絕對值。71大樣本且已知的情況72理解置信區(qū)間的含義

抽取100個樣本,計算出100個平均值和100個區(qū)間,它們當(dāng)中至少有(1-

)*100個包含了未知的總體均值。因此,可以以(1-)的程度確信落在每一個區(qū)間里面。邊際誤差:

73聯(lián)合食品公司的例子如果已知所有消費者一次購買金額的標(biāo)準(zhǔn)差是22,那么一次購買平均金額的一個95%的置信區(qū)間是:

29.44491.96*(22/10)或者(25.1329,33.7569),其中邊際誤差=4.312.問題:

怎么可能知道標(biāo)準(zhǔn)差?74大樣本且未知的情形76聯(lián)合食品公司的例子所有顧客一次購買金額的平均值的95%的置信區(qū)間:

29.44491.96*(20.4162/10)或者

(25.44333,33.44506)問題:對使用信用卡的顧客一次購買金額的平均值能否類似進(jìn)行區(qū)間估計?77小樣本且未知的情形

79聯(lián)合食品公司的例子所有持信用卡的顧客一次購買金額的平均值的95%的置信區(qū)間是:問題:你獲得上述結(jié)論時對總體作了什么假定?是否合理?

80總體比率p的區(qū)間估計81聯(lián)合食品公司的例子使用信用卡支付的顧客的比率的95%的置信區(qū)間是多少?問題:是否符合大樣本的條件?進(jìn)一步的問題:如果嫌精度不夠怎麼辦?82DataVariation

SampleSizenLevelofConfidence

(1-

)IntervalsExtend

?1984-1994T/MakerCo.影響區(qū)間長度的因素

8390%Samples95%Samples

x_ConfidenceIntervals99%SamplesX_84樣本容量的確定(1)給定邊際誤差E和置信系數(shù)1-

,問題是:確定樣本容量n使得總體均值(比率)的1-

水平的置信區(qū)間長度不超過2E?(該問題有什么實際意義?)

85樣本容量的確定(2)

怎么獲得?

1)用以前相同或類似的樣本的樣本標(biāo)準(zhǔn)差代替;

2)用試驗調(diào)查的方法選擇初始樣本,用該樣本的樣本標(biāo)準(zhǔn)差代替;

3)對進(jìn)行判斷或者猜測:比如全距的1/4作為估計。為什么用正態(tài)分布的

/2分位數(shù)而不用t分布?86樣本容量的確定(3)對于總體比率來說:如何確定p?

1)類似對的確定方法;

2)使用p=0.5,此時p(1-p)最大,從而高估樣本容量。

87聯(lián)合食品公司的例子為使得所有顧客一次購買金額的平均值的95%的置信區(qū)間長度不超出6美圓,需至少采用多大的樣本?

E=?

=?(全距=77.07)n=(1.96*77.07/4)2/9=158.46159n=(1.96*20.42)2/9=177.9817888聯(lián)合食品公司的例子為了使得對持信用卡購買的顧客比率p的95%的置信區(qū)間長度不超過0.1,樣本至少多大?E=?P=?n=(1.96)2*0.5*0.5/0.052=384.16385n=(1.96)2*0.22*0.78/0.052=263.726489總體方差的區(qū)間估計正態(tài)總體時,9091例某食品企業(yè)生產(chǎn)一種名牌蛋糕,經(jīng)驗說明溫度會影響蛋糕的口味,所以生產(chǎn)蛋糕時需要將溫度控制在一定范圍內(nèi),以保證產(chǎn)品的穩(wěn)定性與一致性?,F(xiàn)從一批產(chǎn)品中隨機(jī)抽取25批蛋糕進(jìn)行檢測,得溫度的標(biāo)準(zhǔn)差為2.13度,假定總體溫度的分布服從正態(tài)分布,以95%的置信度來估計生產(chǎn)蛋糕溫度的方差的置信區(qū)間。92例:DollComputerCompanyDoll計算機(jī)公司生產(chǎn)計算機(jī)并銷售給通過Internet訂購的顧客。該公司主要競爭力在于價格和送貨速度。為達(dá)到快速送貨的目的,該公司將生產(chǎn)的五種最暢銷的機(jī)型運(yùn)到遍布全國的倉庫貯存,從這些倉庫只需一天就可將商品送達(dá)消費者。為降低成本,部門經(jīng)理想建立貯存模型從而確定最優(yōu)存貨水平(inventorylevel)。93經(jīng)理了解到leadingtime期間的需求量是近似正態(tài)分布的,且標(biāo)準(zhǔn)差是50,現(xiàn)在他想知道分布的均值是多少。他記錄了60個leadingtime的需求量(見文件doll),如何估計分布的均值?94例2零售店選址張先生是臺灣某集團(tuán)的企劃部經(jīng)理,在今年的規(guī)劃中,集團(tuán)準(zhǔn)備在某地新建一新的零售商店。張先生目前正在做這方面的準(zhǔn)備工作。其中有一項便是進(jìn)行市場調(diào)查。在眾多信息中,經(jīng)過該地行人數(shù)量是要考慮的一個很重要的方面。張先生委托他人進(jìn)行了兩個星期的觀察,得到每天經(jīng)過該地人數(shù)如下:95544,468,399,759,526,212,256,

456,553,259,469,366,197,178如果設(shè)立商店要求行人數(shù)最低為520的話,這個地點是否合適?(經(jīng)計算,樣本均值403,標(biāo)準(zhǔn)差168.46)96第五講假設(shè)檢驗問題97從一個例子看假設(shè)檢驗的思路假設(shè)我們有意估計一個社區(qū)的平均收入。假設(shè)收入總體是正態(tài)N(

,25),且抽取了一個隨機(jī)樣本,其中有n=25個觀測值,得到

=17。

現(xiàn)在,一位經(jīng)濟(jì)專家A先生宣稱說,根據(jù)他的知識,平均收入

=16。你對此作何反應(yīng)?

我們可以按照以下方式推理。在觀察

=17之前,的抽樣分布為N(

,1)。(這是因為.)

觀察到的

(=17)與A先生宣稱的

僅有1個標(biāo)準(zhǔn)誤差

,可被視作這一分布的一個典型觀察。因而,在A先生的說法與證據(jù)之間沒有多少不一致。假如另一位專家B先生宣稱說

=15,你會作何反應(yīng)呢?根據(jù)B先生的說法,所觀察到的

(=17)開始顯得有點極端,因為它現(xiàn)在偏離

有兩個標(biāo)準(zhǔn)誤差了。

假如第三位專家C先生宣稱說

=14又如何呢?當(dāng)然,假如

=14,那么觀察到的

(=17)的確非常極端,我們要么拒絕其說法,要么研究數(shù)據(jù)的準(zhǔn)確性。

值的假設(shè)(宣稱)值與觀測到的值之間的差異大小的度量就是觀察到更加極端的的概率(機(jī)率)。即:這一概率稱作觀察值的p-值。因而一個較小的p-值意味著假設(shè)沒有得到數(shù)據(jù)的支持

較大的p-值意味著假設(shè)與數(shù)據(jù)一致

102假設(shè)檢驗的基本概念H0:

=

0

稱為原假設(shè)H1:

0稱為備擇假設(shè)選擇的態(tài)度:拒絕?不拒絕?

(Tobeornottobe,……)更多的例子,簡單假設(shè)和復(fù)合假設(shè)。按照標(biāo)準(zhǔn)誤差單位來度量偏離有多遠(yuǎn)。

首先,當(dāng)

為已知時,這一距離由下式給出

這稱作z統(tǒng)計量。按照原假設(shè),即H0:

=

0為真時,在得到樣本平均值之前,隨機(jī)變量

z

的分布為單位正態(tài)N(0,1)。使用p-值檢驗來衡量觀測值z

0之間的差異。這里的p-值是得到比觀測值更為極端的z統(tǒng)計量的概率。

104一般的統(tǒng)計實踐中:假如p-值

<0.05,則拒絕H0,并報告結(jié)果在統(tǒng)計上是顯著的(在0.05的水平)

如果p-值

0.05,則結(jié)果在統(tǒng)計上不顯著(在0.05的水平)

105原假設(shè)

=15。由于觀測到=17,觀測到的z=17-15=2.(這是因為.)因而,p-值是概率

所以拒絕原假設(shè)。106另一方面,對于本例而言,p-值<0.05等價于因此上式稱為拒絕域,意思是如果樣本均值的觀測值如果落在這個區(qū)域里就要拒絕原假設(shè)。107你會犯什么錯誤?108第一類錯誤:當(dāng)H0為真時拒絕H0

第二類錯誤:當(dāng)H0為假時不拒絕H0顯著水平

:犯第一類錯誤的最大概率。前面的例子,犯第一類錯誤的最大概率為0.05。如果希望犯第一類錯誤的最大概率為0.01,則拒絕域變?yōu)?09假設(shè)檢驗的步驟確定適應(yīng)的原假設(shè)和備擇假設(shè);選擇檢驗統(tǒng)計量;指定顯著水平;根據(jù)顯著水平和統(tǒng)計量的抽樣分布來確定統(tǒng)計量的臨界值,從而確定拒絕域;根據(jù)樣本計算統(tǒng)計量的值并與臨界值比較看是否落入拒絕域;或計算p-值,并比較p-值與

得出結(jié)論。110方差未知時總體均值的雙邊檢驗111一個例子所有聯(lián)合食品公司的顧客一次購買金額的平均值是35美圓?H0:=35.H1:35給定顯著水平=0.05。拒絕域為現(xiàn)有一樣本,n=100,

112是否對Hilltop咖啡投訴?聯(lián)邦貿(mào)易委員會(FTC)意欲對大瓶Hilltop牌咖啡進(jìn)行檢查,以確定是否符合其標(biāo)簽上注明的“容量至少是3磅”的說法,并由此決定是否因為包裝重量的不足而對其提出投訴。H0:3H1:<3.顯著水平=0.05,113大樣本下的解決方案如果

2已知,則拒絕域為如果

2未知,則拒絕域為

114假定由36聽罐頭所組成的一個樣本的樣本均值為

磅,樣本標(biāo)準(zhǔn)差s=0.18,你能拒絕原假設(shè)嗎?115小樣本下的解決方案如果

2未知,則

116一組虛擬的數(shù)據(jù)我們設(shè)FTC抽取了20瓶Hilltop咖啡作為隨機(jī)樣本,得到其質(zhì)量分別為(磅):

2.823.013.112.712.932.683.023.012.932.56 2.783.013.092.942.822.813.053.012.852.79其樣本均值為2.8965,樣本標(biāo)準(zhǔn)為0.148440135,你可以拒絕原假設(shè)嗎?

拒絕域為:結(jié)論:拒絕原假設(shè)。顯著性水平

a和拒絕域H0:m

3H1:m<3000H0:m

3H1:m>3H0:m

=3H1:m

3aa

a/2

臨界值拒絕域119置信區(qū)間和雙邊檢驗總體均值的95%置信區(qū)間:雙邊檢驗的拒絕域:啟示:通過置信區(qū)間進(jìn)行雙邊檢驗。H0:

=

0如果0不在總體均值的95%置信區(qū)間內(nèi),則拒絕H0。未知均值

,關(guān)于方差

2

的檢驗。H0:

2

=H1:2

121

122自動飲料機(jī)的例子某種自動飲料機(jī)的飲料灌裝量的方差是一個重要的技術(shù)指標(biāo),方差太大,意味著可能經(jīng)常出現(xiàn)過度灌裝或者灌裝不足,這會引起飲料機(jī)的擁有者或者顧客的不滿。在對某一特定的機(jī)器灌裝量的測試中,由18杯飲料組成的隨機(jī)樣本得到樣本方差是0.40。問題:

如果一個可以接受的方案是方差不超過0.25,根據(jù)測試的結(jié)果你是否認(rèn)為該機(jī)器不合格?123該機(jī)器是否合格?檢驗假設(shè):H0:

20.25,H1:2>0.25;拒絕域為

124總體比率的檢驗一個例子:PineGreek高爾夫球場的性別比率問題。400個運(yùn)動者中100個女性,能否認(rèn)為女性比率比過去的20%增加了?H0:p0.20,H1:p>0.20;拒絕域的形狀:利用大樣本下樣本比率的抽樣分布得到拒絕域為:

當(dāng)

=0.05時,拒絕域為由樣本知,所以拒絕原假設(shè)。即女性比率比過去增加了。126總體比率的雙邊檢驗127更多的例子FordTaurus宣稱在高速路上行駛的油耗為30英里/加侖。一個保護(hù)消費者利益的小組對汽車進(jìn)行檢驗。從的50次高速路行駛組成的樣本中,得到樣本平均為29.5英里/加侖,樣本標(biāo)準(zhǔn)差為1.8英里/加侖。取顯著性水平0.01,得出你的結(jié)論。128129一個快餐店決定計劃實施一次特殊供應(yīng),使顧客能購買到專門印有著名卡通人物的杯裝飲料。如果有超過15%的消費者購買這種飲料,則認(rèn)為可以推行這種特殊供應(yīng)。在某些地方已經(jīng)進(jìn)行的初步試驗表明,500名消費者有88名購買了這種杯裝飲料。是否應(yīng)推行這種特殊杯裝飲料?當(dāng)顯著性水平為0.01時,得出你的建議。130131

第六講假設(shè)檢驗(續(xù))132兩個總體均值和比率的統(tǒng)計推斷;兩個總體方差的統(tǒng)計推斷。133雙樣本比較

(均值)

例:平均來看,男性比女性所賺的錢更多嗎?多多少?培訓(xùn)能改善消費者的滿意評級嗎?消費者為這一新產(chǎn)品所樂意支付的平均價格比他們?yōu)樵a(chǎn)品所愿意支付的平均價格多出$200嗎?

平均來看,電視廣告A比B更有效嗎?促銷手段A是否比手段B產(chǎn)生了更多的銷售額?

134兩總體均值之差的估計(獨立樣本)135小樣本情形假定兩總體方差相等。136137均值差的檢驗138誰的起薪更高一些?《財富》雜志1995年6月26日刊載了會計師和財務(wù)計劃人員的起始年薪。他們分別抽取了12名會計師和14名財務(wù)計劃人員作為樣本,得到他們的起始年薪。問題:能否說這兩種職業(yè)的平均起薪有明顯差異?140解決我們的問題合并方差=8.914027778

142例為了比較兩家經(jīng)紀(jì)人公司的股票經(jīng)營能力,我們比較了在每一家公司的‘最強(qiáng)烈推薦’股票清單上所列示的30種股票的各自的$1000的投資的年度獲利(不包括傭金費用)。得到樣本統(tǒng)計量的值為公司A:

公司B:

143144例一個超級市場連鎖店在商場員工接受了一項客戶關(guān)系培訓(xùn)項目的前后進(jìn)行了消費者對服務(wù)意見的抽樣調(diào)查。在培訓(xùn)課程的前后分別調(diào)查了40位消費者,每人都要為商場的服務(wù)評級打分,分值從1(非常差)到10(非常好)。得到結(jié)果為培訓(xùn)前:培訓(xùn)后:試判斷該培訓(xùn)是否提高了消費者服務(wù)評級。

145146雙樣本成對比較

(均值)

例:

平均而言,丈夫比妻子賺的錢多嗎?

增加營銷預(yù)算會改進(jìn)銷售嗎?平均而言,一個消費者愿意為新產(chǎn)品比原產(chǎn)品多花多少錢?

平均而言,電視廣告A比B更有效嗎?促銷手段A是否比手段B在同一家店產(chǎn)生了更多的銷售額?針對匹配樣本的解決方案:化成一個樣本解決。例:12支股票1997年市盈率和1998年市盈率平均市盈率在2年中是否有變化?(

=0.05置信區(qū)間為:(4.96,9.21)結(jié)論:市盈率在兩年中發(fā)生了變化。153為了鼓勵客戶盡早支付費用,一家咨詢公司承諾如果客戶在帳單開出30天內(nèi)支付費用就可獲得2%的折扣。為了評估這項關(guān)于支付時間的新政策的效果,這家公司隨機(jī)抽取了15個帳戶并記錄了它們在原體系下支付最后一張開出的帳單的天數(shù)和新激勵體系下第一張開出的帳單得到支付的天數(shù)。

例:oldsystem928865859564656290896575849080

incentive283029852928262988307030279229

difference645836066363933259-54557-251154得到前后平均付款天數(shù)差的95%置信區(qū)間(21.86,50.00)你的結(jié)論?

155雙樣本比較(比率)例:在大多數(shù)家庭中,丈夫賺錢比妻子多是真的嗎?

在大多數(shù)家庭中,妻子做出大多數(shù)購買決策是真的嗎?增加的營銷預(yù)算改善了銷售嗎?多數(shù)消費者喜歡新產(chǎn)品勝過老產(chǎn)品是真的嗎?

156兩個樣本比率之差的抽樣分布157男女的態(tài)度有區(qū)別嗎?對于“丈夫在外工作,妻子沒有收入的婚姻,離婚后妻子應(yīng)該擁有結(jié)婚期間積累財產(chǎn)的一半”進(jìn)行的一項民意測驗發(fā)現(xiàn),在被隨機(jī)調(diào)查的300名男子和300名女子當(dāng)中分別有255名和279名同意。你能否認(rèn)為對此問題男女的態(tài)度有差異?檢驗假設(shè)H0:p1=p2158拒絕域給定顯著水平,拒絕域是:159回答我們的問題160例

一個醫(yī)院的高層管理者懷疑拖欠醫(yī)院帳單的行為的比率在過去一年內(nèi)有所上升。醫(yī)院的記錄表明,在4月份就診的1284人中,有48人的帳單被拖欠了90天以上。與一年前同期的34個拖欠者(1002人中)相比,這些數(shù)據(jù)是否提供了足夠的證據(jù)來說明拖欠醫(yī)院帳單超過90天的比率有所上升?例

一個制造商改進(jìn)了一條生產(chǎn)線以減少零件的平均不合格品率。為了確定這一改進(jìn)是否有效,這個制造商在技術(shù)改造前后各隨機(jī)抽取了400個零件,其中分別有21個和14個零件是不合格品。

163兩總體方差的統(tǒng)計推斷164

一個重要的性質(zhì):F1-

F

自由度為n和m的F分布。如何找到分位數(shù)?F分布165選擇哪個公司的校車服務(wù)?

Dullus縣學(xué)校要更新明年的校車服務(wù)合同,需要從Milbank和GulfPark兩家公司中選擇一個。選擇校車運(yùn)送或者到達(dá)時間的方差作為衡量公司服務(wù)質(zhì)量的指標(biāo)。學(xué)校需要了解這兩家公司的服務(wù)質(zhì)量是否相同,如果相同,他們就會選擇價格較低的一家。他們調(diào)查了M公司的25個到達(dá)時間以及G公司的16個到達(dá)時間,分別得到樣本的方差是48和20。他們是否有充分的理由認(rèn)為兩家公司的服務(wù)質(zhì)量不同?166對選擇校車問題,使用顯著水平0.10,則

根據(jù)上面的分析,你對Dullus學(xué)校選擇校車有什么建議?你的根據(jù)是什么?167兩個總體的方差的單邊檢驗

根據(jù)你對假設(shè)檢驗過程的理解,你能夠?qū)懗鱿旅鎯蓚€檢驗的拒絕域嗎?168例子:誰的起薪更高一些?《財富》雜志1995年6月26日刊載了會計師和財務(wù)計劃人員的起始年薪。他們分別抽取了12名會計師和14名財務(wù)計劃人員作為樣本,得到他們的起始年薪。問題:能否說這兩種職業(yè)的平均起薪有明顯差異?第七講案例研究案例1空軍訓(xùn)練計劃見教材案例11-1案例2廣告的影響研究觀看HostSelling和Announcer廣告的孩子是否記得更多廣告細(xì)節(jié)并更可能購買該廣告所推銷的產(chǎn)品。研究試驗包括兩組年齡為6至10歲的孩子。案例3重要管理人員死亡對股票價格的影響分析21家公司CEO死亡后,股票價格在6周內(nèi)的異常變動情況,給出投資建議。176第八講:擬合優(yōu)度檢驗和獨立性檢驗177擬合優(yōu)度檢驗檢驗樣本是否來自某種分布的總體例:到達(dá)服務(wù)窗口的顧客數(shù)服從泊松分布嗎?各個銷售地區(qū)的潛在訂貨都相同嗎?公司招聘考試的分?jǐn)?shù)服從正態(tài)分布嗎?消費者對各種顏色的餅干喜愛程度是相同的嗎?節(jié)目的收視率有變化嗎?市場份額發(fā)生變化了嗎?178ScottMarketingResearchCo.

Scott公司進(jìn)行了一項市場份額的研究。在過去的一年里,公司A的市場份額穩(wěn)定在30%,公司B在50%,公司C在20%。最近公司C開發(fā)了一種“新型”產(chǎn)品并取代了當(dāng)前市場的產(chǎn)品。Scott受雇于公司C,為它判斷新產(chǎn)品是否使市場份額發(fā)生了改變。

Scott公司通過問卷調(diào)查了一組200名的顧客群體,詢問他們對公司A、B、C的購買偏好,結(jié)果48人選擇A,98人選擇了B,54人選擇了C。根據(jù)這些數(shù)據(jù),Scott公司需要判斷市場份額是否已經(jīng)發(fā)生了變化。

179建立我們的模型總體是什么?用什么分布描述?多項分布(二項分布的推廣)檢驗假設(shè):

H0:PA=0.30PB=0.50PC=0.20;

H1:總體比例已經(jīng)發(fā)生改變。檢驗的思路:如果H0是對的,那么200人中的觀測結(jié)果不會與期望的結(jié)果相差太大。180類別

假設(shè)比例 觀測頻數(shù) 期望頻數(shù) 公司A 0.3 48 60 公司B 0.5 98 100 公司C0.2 54 40 合計 200 200 181檢驗方法計算觀測頻數(shù)和期望頻數(shù)以及它們之差;拒絕域的形狀是抽樣分布是什么?在大樣本情形而且所有期望頻數(shù)不少于5的時候,近似地有

182計算結(jié)果類別

假設(shè)比例 觀測頻數(shù) 期望頻數(shù) 差值 差值平方 差值平方與期望頻數(shù)之比 公司A 0.3 48 60 -12 144 2.4 公司B 0.5 98 100 -2 4 0.04 公司C0.2 54 40 14 196 4.9 合計 200 200 7.34 給定顯著水平為0.05,拒絕域應(yīng)該是什么?你認(rèn)為市場份額發(fā)生改變了嗎?

5.99拒絕183例

某工廠近5年來發(fā)生了63次事故,按星期幾分類如下:星期一二三四五六次數(shù)9101181312問:事故的發(fā)生是否與星期幾有關(guān)?184185例通過對135名消費者的調(diào)查得到他們對商店櫥窗的三種陳列方式的喜好如下:

陳列方式A陳列方式B陳列方式C435339

消費者對這三種陳列方式的喜好是否有差異?186187到達(dá)顧客數(shù)服從泊松分布嗎?

某食品市場的經(jīng)理將根據(jù)預(yù)期到達(dá)商店的顧客來決定職員分配數(shù)目以及收款臺的數(shù)目。為檢驗工作日上午顧客到達(dá)數(shù)(用5分鐘時間段內(nèi)進(jìn)入商店的顧客數(shù)來定義)是否服從泊松分布,隨機(jī)選取了一個由3周內(nèi)工作日上午的128個5分鐘時間段組成的樣本。189H0:5分鐘時間段內(nèi)進(jìn)入商店的顧客數(shù)服從泊松分布(均值為5)。

在大樣本情形而且所有期望頻數(shù)不少于5的時候,近似地有193考試分?jǐn)?shù)的總體是服從正態(tài)分布嗎?Chemline每年大約為其分布在美國的四家工廠雇傭400名新雇員。由人事部進(jìn)行標(biāo)準(zhǔn)化考試,考試分?jǐn)?shù)是錄用雇員決策中的主要因素。隨著每年進(jìn)行的大量考試,人事主管提出正態(tài)分布是否可以用于考試分?jǐn)?shù)總體的問題。如果可以應(yīng)用正態(tài)分布,它的使用將有助于評價具體考分。(數(shù)據(jù)見P.502)194檢驗的思路:如果H0是對的,那么50人中的觀測結(jié)果不會與期望的結(jié)果相差太大。195檢驗方法劃分取值區(qū)間;計算各區(qū)間觀測頻數(shù)和期望頻數(shù)以及它們之差;拒絕域的形狀是抽樣分布是什么?在大樣本情形而且所有期望頻數(shù)不少于5的時候,近似地有

給定顯著水平為0.1,拒絕域應(yīng)該是什么?0拒絕12.017197其他檢驗正態(tài)性的方法P-P圖Q-Q圖偏度檢驗(正態(tài)分布偏度為0)峰度檢驗(正態(tài)分布峰度為3)Wilk檢驗D’Agostino檢驗198Bowman-Shelton正態(tài)性檢驗199獨立性檢驗檢驗兩個定性變量之間的獨立性例:對啤酒的選擇與飲酒者性別有關(guān)系嗎?不同的供應(yīng)商的零件質(zhì)量(有缺陷產(chǎn)品數(shù))有差異嗎?行業(yè)類型與市盈率有關(guān)嗎?某雜志不同地區(qū)版與訂戶職業(yè)有關(guān)系嗎?200阿爾伯特釀酒廠的啤酒

阿爾伯特釀酒廠生產(chǎn)三種類型的啤酒:淡啤酒、普通啤酒和黑啤酒。在一次對三種啤酒的市場份額的分析中,公司市場研究小組提出了男女飲酒者對三種啤酒的偏好是否有差異的問題,從而幫助廠家針對不同的目標(biāo)市場采取不同的廣告策略。他們抽樣調(diào)查了150名飲酒者,每個人對三種啤酒的偏好匯總?cè)缦卤?。他們需要判斷性別與對啤酒的偏好是否有關(guān)系。

淡啤酒 普通啤酒黑啤酒 合計 男性 20 40 20 80 女性 30 30 10 70 合計 50 70 30 150 201建立假設(shè)和檢驗的思路H0:啤酒的偏好與飲酒者的性別獨立;H1:啤酒的偏好與飲酒者的性別有關(guān);檢驗思路:如果原假設(shè)是正確的,那么各單元的觀測頻數(shù)與期望頻數(shù)之差不會太大。問題:如何計算各單元的期望頻數(shù)?202計算期望頻數(shù)一個飲酒者喜歡三種啤酒的概率分別是多少?既然與性別獨立,那么按照這種概率分布在調(diào)查的這些男性中應(yīng)該喜歡三種不同啤酒的人數(shù)是多少?女性中呢?H0成立時的期望頻數(shù):

淡啤酒 普通啤酒黑啤酒 合計 男性 26.67 37.33 16 80 女性 23.33 32.67 14 70 合計 50 70 30 150 203檢驗統(tǒng)計量和拒絕域檢驗統(tǒng)計量:

204計算的結(jié)果更深入的話題:Fisher精確檢驗205例三家供應(yīng)商提供了如下所示零件質(zhì)量數(shù)據(jù):檢驗供應(yīng)商與零件質(zhì)量的獨立性。你的分析結(jié)果可以為采購部門提供什么信息?期望頻數(shù)207第九講方差分析單因子隨機(jī)區(qū)組雙因子208MBA的起薪與專業(yè)有關(guān)嗎?一家關(guān)于MBA報考、學(xué)習(xí)、就業(yè)指導(dǎo)的網(wǎng)站希望了解國內(nèi)MBA畢業(yè)生的起薪是否與各自所學(xué)的專業(yè)有關(guān),為此,他們在已經(jīng)在國內(nèi)商學(xué)院畢業(yè)并且獲得學(xué)位的MBA學(xué)生中按照專業(yè)分別隨機(jī)抽取了10人,調(diào)查了他們的起薪情況,數(shù)據(jù)如下表所示(單位:萬元),根據(jù)這些數(shù)據(jù)他們能否得出專業(yè)對MBA起薪有影響的結(jié)論?209對數(shù)據(jù)的初步認(rèn)識...根據(jù)這些匯總,你的印象是什么?210了解幾個術(shù)語因變量或者響應(yīng)變量(responsevariable);自變量或者因子(factor);因子的水平或處理(treatment);單因子和多因子;一般單因子方差分析問題的數(shù)據(jù)結(jié)構(gòu)。獨立地采樣的情況。211使用模型描述我們的問題四個專業(yè)MBA的起薪分別服從正態(tài)分布

四個總體的方差是相等的。檢驗假設(shè):

212使用雙樣本t檢驗?能否分別對四個專業(yè)兩兩進(jìn)行雙樣本的t檢驗來完成對H0的檢驗?犯第一類錯誤的概率是多少?降低顯著水平可以彌補(bǔ)嗎?213我們的思路這40個人起薪的差異可能是有什么原因造成的?專業(yè)不同可能是一個因素(如果原假設(shè)為真的時候);專業(yè)之外的其它偶然因素。如何刻畫這些差異性?214總變差的分解215One-FactorANOVA

PartitionsofTotalVariationVariationDuetoTreatmentSSTRVariationDuetoRandomSamplingSSETotalVariationSSTCommonlyreferredtoas:SumofSquaresWithin,orSumofSquaresError,orWithinGroupsVariationCommonlyreferredtoas:SumofSquaresAmong,orSumofSquaresBetween,orSumofSquaresModel,orAmongGroupsVariation=+216如何理解平方和的分解式?SST刻畫了40個人起薪總的變異程度;SSTR刻畫了不同處理之間的變異程度;SSE刻畫了同一處理內(nèi)部個體之間的變異程度;為了拒絕原假設(shè),選擇什么樣的拒絕域?為了選擇c=?,我們需要知道什么?

217檢驗方法在H0成立的情況下,統(tǒng)計量在顯著水平下,選擇拒絕域是

218方差分析表方差來源 平方和自由度 均方 F統(tǒng)計量 處理 SSTRk-1MSTR MSTR/MSE 誤差 SSE nT-k MSE

合計 SST nT-1若=0.05,對我們提出的問題,使用EXCEL獲得方差分析表,你覺得專業(yè)與MBA的起薪有關(guān)系嗎?

219若=0.1,你的結(jié)論是什么?220進(jìn)一步的問題...多重比較問題:Fisher的最小顯著差異(LSD)方法:

221哪些專業(yè)MBA的MBA起薪是真正

存在差異的?給定顯著水平0.1,計算得到LSD=2.758686.(如何計算?)根據(jù)你的結(jié)論是什么?注意的問題以及其它的方法。來自中國最大的資料庫下載

222整理我們的思路哪些問題可以化成單因子方差分析問題?方差分析時使用的模型是什么?方差分析的過程是怎樣的?如何使用EXCEL獲得方差分析表?在什么情況下才需要并且可以做多重比較?223One-FactorANOVAF

TestExampleAsproductionmanager,youwanttoseeif3fillingmachineshavedifferentmeanfillingtimes.Youassign15similarlytrained&experiencedworkers,5permachine,tothemachines.Atthe.05level,isthereadifferenceinmeanfillingtimes?

Machine1

Machine2

Machine3

25.40

23.40

20.00

26.31

21.80

22.20

24.10

23.50

19.75

23.74

22.75

20.60

25.10

21.60

20.40224225Chemitech公司的問題

Chemitech公司開發(fā)了一種新型的城市供水過濾系統(tǒng),其元件要從幾家供應(yīng)商處購買,然后在Chemitech位于南加州的工廠組裝。為了選擇最佳的裝配方法,工程部列出了三種方案,即方案A、B、C。公司管理者需要了解使用三種方案每周裝配的系統(tǒng)數(shù)量是否不同,哪種方案最大?試驗辦法一:隨機(jī)抽取24名工人,隨機(jī)指派到3組中。試驗辦法二:將工人按照裝配經(jīng)驗劃分成8類,每一類中抽取3人指派到三組中。226完全隨機(jī)化設(shè)計的方差分析數(shù)據(jù)的結(jié)構(gòu)形式;將k個處理隨機(jī)地指派給試驗單元(工人)與從k個總體中獨立地抽取隨機(jī)樣本的情況是一致的。分析的方法:方差分析表的形式。你可以自己完成嗎?227隨機(jī)化區(qū)組設(shè)計的數(shù)據(jù)228總變差的分解

對于隨機(jī)化區(qū)組設(shè)計,最大的益處在于可以把區(qū)組之間的差異從誤差項中分離出來,從而減少了誤差項,得出處理之間差異的更好的檢驗。即

SST=SSTR+SSBL+SSE其中,SSBL表示了區(qū)組間差異的程度。229方差分析表方差來源 平方和自由度均方F值 處理SSTR k-1 MSTR MSTR/MSE區(qū)組SSBL b-1 MSBL MSBL/MSE誤差SSE (k-1)(b-1) MSE

合計SST nT-1

如何使用EXCEL產(chǎn)生上面的方差分析表?230檢驗的假設(shè)H01:三種方案(處理)下每周生產(chǎn)的系統(tǒng)平均數(shù)是一樣的;拒絕域H02:不同熟練程度的工人每周生產(chǎn)的系統(tǒng)平均數(shù)量是一樣的。拒絕域

231給Chemitech公司的結(jié)論

使用EXCEL分析隨機(jī)化區(qū)組設(shè)計進(jìn)行的試驗而得到的數(shù)據(jù),你如何分析方差分析表,你如何分析三種組裝方案兩兩之間的差異?你的結(jié)論是什么?你給Chemitech公司什么樣的建議?232整理我們的思路完全隨機(jī)化設(shè)計與隨機(jī)化區(qū)組設(shè)計的區(qū)別是什么?你會區(qū)分嗎?完全隨機(jī)化設(shè)計得到的數(shù)據(jù)如何運(yùn)用方差分析?隨機(jī)化區(qū)組設(shè)計的方差分解是怎樣的?它帶來的好處在哪里?你會使用EXCEL完成對兩種設(shè)計結(jié)果的方差分析嗎?233哪些因素影響GMAT成績?得克薩斯州的一所大學(xué)提出了三種GMAT輔導(dǎo)課程:即3小時復(fù)習(xí)、1天課程和10周強(qiáng)化班,他們需要了解這三種輔導(dǎo)方式如何影響GMAT成績。另外,通??忌鷣碜匀愒盒?,即商學(xué)院、工學(xué)院、藝術(shù)與科學(xué)院。因此,了解不同類型學(xué)校畢業(yè)的考生GMAT成績是否有差異也是一個讓人感興趣的話題。最后,是否一類學(xué)校的考生適應(yīng)一種輔導(dǎo)課程,而另一類學(xué)校的考生適合其他課程?他們在三類學(xué)校中每一個隨機(jī)抽取6個學(xué)生,隨機(jī)指派兩名到一門輔導(dǎo)課程中,最后他們的GMAT成績結(jié)果如下表所示。23418個學(xué)生的GMAT成績235對問題的初步分析雙因子,因子A--輔導(dǎo)課程:三個水平;因子B--學(xué)校類型:三個水平;檢驗假設(shè):

H01:因子A對GMAT成績無影響;

H02:因子B對GMAT成績無影響;

H03:因子A與因子B無交互作用。236認(rèn)識交互作用--

無交互作用的情況237認(rèn)識交互作用--

有交互作用的情況238總變差的分解

239Two-WayANOVA

TotalVariationPartitioningVariationDuetoTreatmentAVariationDuetoRandomSamplingVariationDuetoInteractionSSESSA

+SSAB+SST=VariationDuetoTreatmentBSSB+TotalVariation240方差分析表方差來源平方和自由度均方F值 因子A SSA a-1 MSA MSA/MSE 因子B SSB b-1 MSB MSB/MSE 交互作用SSAB (a-1)(b-1)MSAB MSAB/MSE誤差 SSE ab(r-1)MSE

合計 SST nT-1

使用EXCEL產(chǎn)生方差分析表。241檢驗原假設(shè)你能夠?qū)懗銮懊嫒齻€原假設(shè)各自的拒絕域嗎?利用EXCEL產(chǎn)生的方差分析表,你覺得哪些因素影響到GMAT的成績?你的結(jié)論是什么?242TwoWayANOVA:

TheF

TestStatisticF

TestforFactor

AEffectMSAMSEF=F

TestforFactor

BEffectF=MSBMSEF

Testfor

InteractionEffectF=MSABMSERejectifF>F

RejectifF>F

RejectifF>F

H01:因子A對GMAT成績無影響;

H02:因子B對GMAT成績無影響;

H03:因子A與因子B無交互作用。243244本講總結(jié)使用方差分析可以解決什么問題?單因子獨立觀測樣本的方差分析;完全隨機(jī)化設(shè)計試驗的數(shù)據(jù)分析;隨機(jī)化區(qū)組設(shè)計試驗的數(shù)據(jù)分析;兩因素析因試驗(FactorialExperiment)的數(shù)據(jù)分析;借助EXCEL你會操作嗎?245

第十一講多元回歸與建模

246研究多個變量間的關(guān)系,因變量如何受到多個自變量的影響,用多個自變量預(yù)測因變量的值。例:超市中商品的價格、擺放位置、促銷手段如何影響銷售量;如何用客戶的個人資料(職業(yè)、收入、家庭成員人數(shù)、婚姻狀況、是否有抵押等)進(jìn)行信用預(yù)測;連鎖旅店的利潤主要受哪些因素影響;如何預(yù)測每個客戶的流失概率;如何在達(dá)到環(huán)保標(biāo)準(zhǔn)的前提下找到最佳生產(chǎn)條件;如何給二手車定價;如何預(yù)測故障維修時間;如何定新員工的薪水及解聘員工的補(bǔ)償金。247248X2X1Y

i249認(rèn)識R2總變差的分解:SST=SSR+SSE;判定系數(shù):R2=SSR/SST;多重相關(guān)系數(shù)R;調(diào)整(修正)的判定系數(shù):

250對回歸方程的檢驗問題:因變量和所有自變量的集合之間是否存在顯著的關(guān)系?檢驗假設(shè)拒絕域

251對回歸系數(shù)的檢驗檢驗假設(shè)檢驗統(tǒng)計量拒絕域

252例:巴特勒運(yùn)輸公司

巴特勒運(yùn)輸公司的主營業(yè)務(wù)地域為本地,為了建立更好的工作日程表,經(jīng)理們計劃為他們的駕駛員估計日常行駛時間。253254257回歸系數(shù)的解釋b1=0.0611當(dāng)送貨次數(shù)不變時,行駛里程每增加1英里,行駛時間期望的估計值增加0.0611小時。b2=0.9234當(dāng)行駛里程不變時,送貨次數(shù)每增加1次,行駛時間期望的估計值增加0.9234小時。258例:房屋售價一個房地產(chǎn)經(jīng)紀(jì)人認(rèn)為房屋的售價可由房屋的面積、臥室的個數(shù)和批量的大小來預(yù)測。他隨機(jī)選取了100座房屋并收集數(shù)據(jù)如下:259260多重共線性問題在多元線性回歸模型中,多重共線性性(Multicollinearity)是指自變量之間存在線性相關(guān)的關(guān)系。多重共線性存在時會使得系數(shù)估計的標(biāo)準(zhǔn)誤差增大,從而使得相應(yīng)的t統(tǒng)計量減小和p值增加。我們將無法確定任一自變量對因變量的單獨影響。單個系數(shù)的符號可能與實際不符。261識別多重共線性性自變量的相關(guān)矩陣:樣本相關(guān)系數(shù)的絕對值大于0.7。方差膨脹因子(VarianceInflationFactors,

簡記作VIF):刻畫了相比多重共線性不存在時回歸系數(shù)估計的方差增大了多少。VIF越大說明多重共線性問題越嚴(yán)重。經(jīng)驗法則:VIF>10262263例:Johnson過濾水股份公司

Johnson公司對遍步南弗羅里達(dá)州的水過濾系統(tǒng)提供維修服務(wù)。為了估計服務(wù)時間和成本,公司希望能夠?qū)︻櫩偷拿恳淮尉S修請求預(yù)測必要的維修時間。他們收集的數(shù)據(jù)中包含最近一次維修至今的時間(月數(shù))、故障的類型(電子和機(jī)械)以及相應(yīng)的維修時間(小時)。你能夠建立起一個預(yù)測方程嗎?264定性的自變量引入虛擬變量(DummyVariable)如何定義虛擬變量?例:x=0(女性),x=1(男性)

x=0(機(jī)械類),x=1(電子類)如何解釋回歸模型?

265建立維修時間的回歸方程二元回歸方程解釋你得到的回歸方程!

藍(lán)色為電子類,紅色為機(jī)械類267診斷你的模型:殘差分析殘差分析不僅被用于判斷你對模型中誤差項所設(shè)的假定是否符合,而且還可以檢測出異常值和有影響的點。殘差圖:由橫軸為自變量或者因變量的預(yù)測值、縱軸為殘差或者學(xué)生化殘差組成的散點圖。268識別影響點、異常值識別影響點的方法:杠桿率比較大(大于3(p+1)/n),或者Cook距離D比較大(>1).檢測異常值的方法:散點圖;利用學(xué)生化標(biāo)準(zhǔn)殘差基本服從標(biāo)準(zhǔn)正態(tài)分布來檢測(落在2個標(biāo)準(zhǔn)差之外時)。識別之后:建議應(yīng)該同時報告包含影響點和除去影響點的兩種回歸結(jié)果。269其它的內(nèi)容使用殘差檢驗誤差項的正態(tài)性;使用殘差來分析誤差項的獨立性:Durbin-Watson統(tǒng)計量d

殘差對時間的散點圖270Durbin-Watson檢驗271Howdoestheweatheraffectthesalesofliftticketsinaskiresort?Dataofthepast20yearssalesoftickets,alongwiththetotalsnowfallandtheaveragetemperatureduringChristmasweekineachyear,wascollected.ThemodelhypothesizedwasTICKETS=b0+b1SNOWFALL+b2TEMPERATURE+e

Regressionanalysisyieldedthefollowingresults:ExampleThemodelseemstobeverypoor:

Thefitisverylow(R-square=0.12),Itisnotvalid(Signif.F=0.33)Novariableissignificant273TheerrorsmaybenormallydistributedResidualovertimeResidualvs.predictedyTheerrorsarenotindependentTheerrorvarianceisconstantThemodifiedregressionmodelTICKETS=b0+b1SNOWFALL+b2TEMPERATURE+b3YEARS+eAlltherequiredconditionsaremetforthismodel.ThefitofthismodelishighR2=0.74.Themodelisuseful.SignificanceF=5.93E-5.

SNOWFALLandYEARSaresignificant.TEMPERATUREisnotsignificant.276“沒有哪一個模型是對的,但是的確有一些模型是好的?!被貧w模型的建立277一般線性模型

模擬曲線關(guān)系交互作用包含因變量的變換內(nèi)蘊(yùn)線性的非線性模型278模擬曲線關(guān)系例:雷諾茲公司管理人員希望對公司銷售人員工作年限的長短和電子實驗室天平的銷售數(shù)量之間的關(guān)系進(jìn)行調(diào)研。282交互作用例:泰勒為他的一種新的洗發(fā)產(chǎn)品進(jìn)行的回歸研究。284285286考慮交互作用的模型建立下面的模型怎樣檢驗交互作用是否存在?H0:

=0287過原點的回歸變量間的真正關(guān)系;自變量和為一常數(shù);數(shù)據(jù)已中心化。288包含因變量的變換經(jīng)常用來修正非常數(shù)方差。常用變換:對數(shù)倒數(shù)例:汽車每加侖行使里程與重量的關(guān)系。289內(nèi)蘊(yùn)線性的非線性模型常見于指數(shù)模型290自變量的選擇逐步回歸必須預(yù)先為F統(tǒng)計量設(shè)定終止值:Fenter,Fremove最佳子集291總結(jié):如何建立一個回歸模型?1、正確選擇自變量和因變量(需要考慮交互作用嗎?是否需要進(jìn)行必要的變換?需要虛擬變量嗎?);2、正確使用計算機(jī)軟件建立回歸模型;3、查看殘差圖(線性假設(shè)成立嗎?存在異方差嗎?有異常值或影響點存在嗎?);4、判斷是否存在多重共線性問題;292總結(jié):如何建立一個回歸模型?5、小心地處理系數(shù)的p值比較大的變量,區(qū)別VIF比較大和VIF比較小的情況。切記:你不應(yīng)該馬上把那些p值較大的自變量都消除!6、你可以嘗試使用軟件提供的變量選擇過程建立模型。(但是你要明白選擇出什么樣的模型仍然是由你來控制的。)7、無論如何再回到第3步都是有益的!

293第十二講案例研究294案例1:HOTDOG!

Dubuque是一家熱狗生產(chǎn)廠家,他們最近收到信息說,BallPark,一家與他們競爭的品牌,將會降低他們熱狗的價格。公司內(nèi)部圍繞這是否會給他們現(xiàn)在的市場份額帶來負(fù)面影響展開了爭論,有人認(rèn)為應(yīng)該采取相應(yīng)的措施來保護(hù)已有的市場份額,也有人說OscarMayer才是他們的主要競爭對手,可以不必采取任何措施。你覺得應(yīng)該如何處理這一問題?295LaQuintaMotorInnsisplanninganexpansion.Managementwishestopredictwhichsitesarelikelyt

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論