飲食行業(yè)統(tǒng)計基礎(chǔ)知識培訓(xùn)_第1頁
飲食行業(yè)統(tǒng)計基礎(chǔ)知識培訓(xùn)_第2頁
飲食行業(yè)統(tǒng)計基礎(chǔ)知識培訓(xùn)_第3頁
飲食行業(yè)統(tǒng)計基礎(chǔ)知識培訓(xùn)_第4頁
飲食行業(yè)統(tǒng)計基礎(chǔ)知識培訓(xùn)_第5頁
已閱讀5頁,還剩71頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、飲食行業(yè)統(tǒng)計基礎(chǔ)知識培訓(xùn)統(tǒng)計基本概念回顧隨機(jī)性和規(guī)律性現(xiàn)實(shí)中的隨機(jī)性和規(guī)律性現(xiàn)實(shí)中的隨機(jī)性和規(guī)律性 從中學(xué)起,我們就知道自然科學(xué)的許多定律,例從中學(xué)起,我們就知道自然科學(xué)的許多定律,例如物理中的牛頓三定律,物質(zhì)不滅定律以及化學(xué)如物理中的牛頓三定律,物質(zhì)不滅定律以及化學(xué)中的各種定律等等。中的各種定律等等。 但是在許多領(lǐng)域,很難用如此確定的公式或論述但是在許多領(lǐng)域,很難用如此確定的公式或論述來描述一些現(xiàn)象。比如,人的壽命是很難預(yù)先確來描述一些現(xiàn)象。比如,人的壽命是很難預(yù)先確定的。一個吸煙、喝酒、不鍛煉、而且一口長葷定的。一個吸煙、喝酒、不鍛煉、而且一口長葷的人可能比一個很少得病、生活習(xí)慣良好的人活

2、的人可能比一個很少得病、生活習(xí)慣良好的人活得長。得長。 因此,可以說,活得長短是有一定隨機(jī)性的因此,可以說,活得長短是有一定隨機(jī)性的(randomness)。這種隨機(jī)性可能和人的經(jīng)歷、基。這種隨機(jī)性可能和人的經(jīng)歷、基因、習(xí)慣等無數(shù)說不清的因素都有關(guān)系。因、習(xí)慣等無數(shù)說不清的因素都有關(guān)系。現(xiàn)實(shí)中的隨機(jī)性和規(guī)律性現(xiàn)實(shí)中的隨機(jī)性和規(guī)律性 但是從總體來說,我國公民的平均年但是從總體來說,我國公民的平均年齡卻是非常穩(wěn)定的。而且女性的平均齡卻是非常穩(wěn)定的。而且女性的平均年齡也穩(wěn)定地比男性高幾年。這就是年齡也穩(wěn)定地比男性高幾年。這就是規(guī)律性。規(guī)律性。一個人可能活過這個平均年齡,也一個人可能活過這個平均年齡,

3、也可能活不到這個年齡,這是隨機(jī)的。可能活不到這個年齡,這是隨機(jī)的。 但是總體來說,平均年齡的穩(wěn)定性,但是總體來說,平均年齡的穩(wěn)定性,卻說明了隨機(jī)之中有規(guī)律性。這種規(guī)卻說明了隨機(jī)之中有規(guī)律性。這種規(guī)律就是統(tǒng)計規(guī)律。律就是統(tǒng)計規(guī)律。 概率和機(jī)會概率和機(jī)會 你可能經(jīng)常聽到概率(你可能經(jīng)常聽到概率(probability)這個名)這個名詞。例如在天氣預(yù)報中會提到降水概率。大詞。例如在天氣預(yù)報中會提到降水概率。大家都明白,如果降水概率是百分之九十,那家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大就很可能下雨;但如果是百分之十,就不大可能下雨??赡芟掠?。 因此,從某種意義說來

4、,概率描述了某件事因此,從某種意義說來,概率描述了某件事情發(fā)生的機(jī)會。情發(fā)生的機(jī)會。 顯然,這種概率不可能超過百分之百,也不顯然,這種概率不可能超過百分之百,也不可能少于百分之零。換言之,概率是在可能少于百分之零。換言之,概率是在0和和1之間的一個數(shù),說明某事件發(fā)生的機(jī)會有多之間的一個數(shù),說明某事件發(fā)生的機(jī)會有多大。大。 有些概率是無法精確推斷的有些概率是無法精確推斷的 比如你對別人說你下一個周末去公園的比如你對別人說你下一個周末去公園的概率是百分之八十。但你無法精確說出概率是百分之八十。但你無法精確說出為什么是百分之八十而不是百分之八十為什么是百分之八十而不是百分之八十四或百分之七十八。四或

5、百分之七十八。 其實(shí)你想說的是你很可能去,但又沒有其實(shí)你想說的是你很可能去,但又沒有完全肯定。完全肯定。 實(shí)際上,到了周末,你或者去,或者不去;實(shí)際上,到了周末,你或者去,或者不去;不可能有分身術(shù)把百分之八十的你放到公不可能有分身術(shù)把百分之八十的你放到公園,而其余的放在別處。園,而其余的放在別處。有些概率是可以估計的有些概率是可以估計的 比如擲骰子。只要沒有人在骰子上做手腳比如擲骰子。只要沒有人在骰子上做手腳,你得到,你得到6 6點(diǎn)的概率應(yīng)該是六分之一。得點(diǎn)的概率應(yīng)該是六分之一。得到其他點(diǎn)的概率也是一樣。到其他點(diǎn)的概率也是一樣。 得到得到6 6的概率或者機(jī)會是可以知道的,的概率或者機(jī)會是可以知

6、道的,但擲骰子的結(jié)果還只可能是六個數(shù)目之但擲骰子的結(jié)果還只可能是六個數(shù)目之一。一。 這個已知的規(guī)律就反映了規(guī)律性,而得到這個已知的規(guī)律就反映了規(guī)律性,而得到哪個結(jié)果則反映了隨機(jī)性。哪個結(jié)果則反映了隨機(jī)性。 如果你擲如果你擲10001000次骰子,那么,大約有六次骰子,那么,大約有六分之一的可能會得到分之一的可能會得到6 6;這也是隨機(jī)性呈;這也是隨機(jī)性呈現(xiàn)有規(guī)律的一個體現(xiàn)?,F(xiàn)有規(guī)律的一個體現(xiàn)。變量變量 做任何事情都要有對象。比如一個班上注冊的學(xué)生做任何事情都要有對象。比如一個班上注冊的學(xué)生有有200人,這是一個固定的數(shù)目,稱為常數(shù)人,這是一個固定的數(shù)目,稱為常數(shù)(constant)或者常量。)

7、或者常量。 但是,如果猜測今天這個班有多少人會來上課,但是,如果猜測今天這個班有多少人會來上課,那就沒準(zhǔn)了。這有隨機(jī)性??赡苡姓埐〖倩蚴录倌蔷蜎]準(zhǔn)了。這有隨機(jī)性??赡苡姓埐〖倩蚴录俚?,也可能有逃課的。這樣,就要來上課的人數(shù)的,也可能有逃課的。這樣,就要來上課的人數(shù)是個變量是個變量(variable)。 另外對于某項政策同意與否的回答,也有另外對于某項政策同意與否的回答,也有“同意同意”、“不同意不同意”或者或者“不知道不知道”三種可能值;這也是變?nèi)N可能值;這也是變量,只不過不是數(shù)量而已。量,只不過不是數(shù)量而已。變量變量 當(dāng)變量按照隨機(jī)規(guī)律所取的值是數(shù)量時該變量稱當(dāng)變量按照隨機(jī)規(guī)律所取的值是數(shù)

8、量時該變量稱為定量變量或數(shù)量變量(為定量變量或數(shù)量變量(quantitative variable););因?yàn)槭请S機(jī)的,也稱為隨機(jī)變量(因?yàn)槭请S機(jī)的,也稱為隨機(jī)變量(random variable)。)。 象性別,觀點(diǎn)之類的取非數(shù)量值的變量就稱為定象性別,觀點(diǎn)之類的取非數(shù)量值的變量就稱為定性變量或?qū)傩宰兞炕蚍诸愖兞浚ㄐ宰兞炕驅(qū)傩宰兞炕蚍诸愖兞浚╭ualitative variable,categorical variable)。)。 這些定性變量也可以由隨機(jī)變量來描述,比如男這些定性變量也可以由隨機(jī)變量來描述,比如男性和女性的數(shù)目,同意某政策人數(shù)的比例等等。性和女性的數(shù)目,同意某政策人數(shù)的比例

9、等等。只有當(dāng)變量用數(shù)量來描述時,才有可能建立數(shù)學(xué)只有當(dāng)變量用數(shù)量來描述時,才有可能建立數(shù)學(xué)模型,才可能使用計算機(jī)來分析。模型,才可能使用計算機(jī)來分析。數(shù)據(jù)數(shù)據(jù) 有了變量的概念,什么是數(shù)據(jù)呢?拿擲骰子來說,擲骰子會得有了變量的概念,什么是數(shù)據(jù)呢?拿擲骰子來說,擲骰子會得到什么值,是個隨機(jī)變量;而每次取得到什么值,是個隨機(jī)變量;而每次取得1至至6點(diǎn)中任意點(diǎn)數(shù)的概點(diǎn)中任意點(diǎn)數(shù)的概率它在理論上都是六分之一(如果骰子公平)。這依賴于在擲率它在理論上都是六分之一(如果骰子公平)。這依賴于在擲骰子背后的理論或假定;而在實(shí)際擲骰子過程中,如果擲骰子背后的理論或假定;而在實(shí)際擲骰子過程中,如果擲100次,次,會

10、得到會得到100個由個由1至至6點(diǎn)組成的數(shù)字串;再擲點(diǎn)組成的數(shù)字串;再擲100次,又得到一個次,又得到一個數(shù)字串,和前一次的結(jié)果多半不一樣。這些試驗(yàn)結(jié)果就是數(shù)據(jù)。數(shù)字串,和前一次的結(jié)果多半不一樣。這些試驗(yàn)結(jié)果就是數(shù)據(jù)。所以說所以說,數(shù)據(jù)是關(guān)于變量的觀測值數(shù)據(jù)是關(guān)于變量的觀測值. 通過數(shù)據(jù)可以驗(yàn)證有關(guān)的理論或假定(比如每一次得到每個點(diǎn)通過數(shù)據(jù)可以驗(yàn)證有關(guān)的理論或假定(比如每一次得到每個點(diǎn)的概率是不是的概率是不是1/6等等)。對于顧客是否喜歡某種飲品的調(diào)查也等等)。對于顧客是否喜歡某種飲品的調(diào)查也類似,但這里不象擲骰子那樣事先可以大致猜測顧客喜歡與否類似,但這里不象擲骰子那樣事先可以大致猜測顧客喜

11、歡與否的概率。在問了的概率。在問了1000人之后,可能有人之后,可能有364人說喜歡,而人說喜歡,而480人說人說不喜歡,其余的人可能不回答,或說不知道,或從來沒有喝過不喜歡,其余的人可能不回答,或說不知道,或從來沒有喝過這種飲料。這些數(shù)目就是數(shù)據(jù)。當(dāng)然,它僅僅反映了這種飲料。這些數(shù)目就是數(shù)據(jù)。當(dāng)然,它僅僅反映了1000個被個被問到的人的觀點(diǎn);但這對于估計整個消費(fèi)群體的觀點(diǎn)還是有用問到的人的觀點(diǎn);但這對于估計整個消費(fèi)群體的觀點(diǎn)還是有用的。的。統(tǒng)計和計算機(jī)統(tǒng)計和計算機(jī) 現(xiàn)代生活越來越離不開計算機(jī)了。最早使用現(xiàn)代生活越來越離不開計算機(jī)了。最早使用計算機(jī)的統(tǒng)計當(dāng)然更離不開計算機(jī)了。計算機(jī)的統(tǒng)計當(dāng)然更

12、離不開計算機(jī)了。 事實(shí)上,最初的計算機(jī)僅僅是為科學(xué)計算而事實(shí)上,最初的計算機(jī)僅僅是為科學(xué)計算而建造的。大型計算機(jī)的最早一批用戶就包含建造的。大型計算機(jī)的最早一批用戶就包含統(tǒng)計。而現(xiàn)在統(tǒng)計仍然是進(jìn)行數(shù)字計算最多統(tǒng)計。而現(xiàn)在統(tǒng)計仍然是進(jìn)行數(shù)字計算最多的用戶。的用戶。 計算機(jī)現(xiàn)在早已脫離了僅有計算功能的單一模計算機(jī)現(xiàn)在早已脫離了僅有計算功能的單一模式,而成為百姓生活的一部分。式,而成為百姓生活的一部分。 計算機(jī)的使用,也從過去必須學(xué)會計算機(jī)語言計算機(jī)的使用,也從過去必須學(xué)會計算機(jī)語言到只需要到只需要“傻瓜式傻瓜式”地點(diǎn)擊鼠標(biāo)。結(jié)果也從單地點(diǎn)擊鼠標(biāo)。結(jié)果也從單純的數(shù)字輸出到包括漂亮的表格和圖形的各種純

13、的數(shù)字輸出到包括漂亮的表格和圖形的各種形式。形式。統(tǒng)計軟件統(tǒng)計軟件 統(tǒng)計軟件的發(fā)展,也使得統(tǒng)計從統(tǒng)計學(xué)家統(tǒng)計軟件的發(fā)展,也使得統(tǒng)計從統(tǒng)計學(xué)家的圈內(nèi)游戲變成了大眾的游戲。只要你輸?shù)娜?nèi)游戲變成了大眾的游戲。只要你輸入你的數(shù)據(jù),點(diǎn)幾下鼠標(biāo),做一些選項,入你的數(shù)據(jù),點(diǎn)幾下鼠標(biāo),做一些選項,馬上就得到令人驚嘆的漂亮結(jié)果了。馬上就得到令人驚嘆的漂亮結(jié)果了。 你可能會問,是否傻瓜式的統(tǒng)計軟件使用你可能會問,是否傻瓜式的統(tǒng)計軟件使用可以代替統(tǒng)計課程了?可以代替統(tǒng)計課程了? 當(dāng)然不是。數(shù)據(jù)的整理和識別,方法的選當(dāng)然不是。數(shù)據(jù)的整理和識別,方法的選用,計算機(jī)輸出結(jié)果的理解都不象使用傻用,計算機(jī)輸出結(jié)果的理解都不

14、象使用傻瓜相機(jī)那樣簡單可靠。瓜相機(jī)那樣簡單可靠。統(tǒng)計軟件統(tǒng)計軟件 有些諸如法律和醫(yī)學(xué)方面的軟件都有不少警告,有些諸如法律和醫(yī)學(xué)方面的軟件都有不少警告,不時提醒你去咨詢專家。不時提醒你去咨詢專家。 但統(tǒng)計軟件則不那么負(fù)責(zé)。只要數(shù)據(jù)格式無誤、但統(tǒng)計軟件則不那么負(fù)責(zé)。只要數(shù)據(jù)格式無誤、方法不矛盾而且不用零作為除數(shù)就一定給你結(jié)果,方法不矛盾而且不用零作為除數(shù)就一定給你結(jié)果,而且沒有任何警告。而且沒有任何警告。 另外,統(tǒng)計軟件輸出的結(jié)果太多;即使是同樣的另外,統(tǒng)計軟件輸出的結(jié)果太多;即使是同樣的方法,不同軟件輸出的內(nèi)容還不一樣;有時同樣方法,不同軟件輸出的內(nèi)容還不一樣;有時同樣的內(nèi)容名稱也不一樣。這就使

15、得使用者大傷腦筋。的內(nèi)容名稱也不一樣。這就使得使用者大傷腦筋。即使是統(tǒng)計學(xué)家也不一定能解釋所有的輸出。因即使是統(tǒng)計學(xué)家也不一定能解釋所有的輸出。因此,就應(yīng)該特別留神,明白自己是在干什么。不此,就應(yīng)該特別留神,明白自己是在干什么。不要在得到一堆毫無意義的垃圾之后還沾沾自喜。要在得到一堆毫無意義的垃圾之后還沾沾自喜。 統(tǒng)計軟件統(tǒng)計軟件 統(tǒng)計軟件的種類很多。有些功能齊全,統(tǒng)計軟件的種類很多。有些功能齊全,有些價格便宜;有些容易操作,有些有些價格便宜;有些容易操作,有些需要更多的實(shí)踐才能掌握。還有些是需要更多的實(shí)踐才能掌握。還有些是專門的軟件,只處理某一類統(tǒng)計問題。專門的軟件,只處理某一類統(tǒng)計問題。面

16、對太多的選擇往往給決策帶來困難。面對太多的選擇往往給決策帶來困難。這里介紹最常見的幾種。這里介紹最常見的幾種。 統(tǒng)計軟件統(tǒng)計軟件 SPSS:這是一個很受歡迎的統(tǒng)計軟件;它容易操作,輸出:這是一個很受歡迎的統(tǒng)計軟件;它容易操作,輸出漂亮,功能齊全,價格合理。對于非統(tǒng)計工作者是很好的漂亮,功能齊全,價格合理。對于非統(tǒng)計工作者是很好的選擇。選擇。 Excel:它嚴(yán)格說來并不是統(tǒng)計軟件,但作為數(shù)據(jù)表格軟:它嚴(yán)格說來并不是統(tǒng)計軟件,但作為數(shù)據(jù)表格軟件,必然有一定統(tǒng)計計算功能。而且凡是有件,必然有一定統(tǒng)計計算功能。而且凡是有Microsoft Office的計算機(jī),基本上都裝有的計算機(jī),基本上都裝有Exc

17、el。但要注意,有時在。但要注意,有時在裝裝Office時沒有裝數(shù)據(jù)分析的功能,那就必須裝了才行。時沒有裝數(shù)據(jù)分析的功能,那就必須裝了才行。當(dāng)然,畫圖功能是都具備的。對于簡單分析,當(dāng)然,畫圖功能是都具備的。對于簡單分析,Excel還算還算方便,但隨著問題的深入,方便,但隨著問題的深入,Excel就不那么就不那么“傻瓜傻瓜”,需,需要使用函數(shù),甚至根本沒有相應(yīng)的方法了。多數(shù)專門一要使用函數(shù),甚至根本沒有相應(yīng)的方法了。多數(shù)專門一些的統(tǒng)計推斷問題還需要其他專門的統(tǒng)計軟件來處理。些的統(tǒng)計推斷問題還需要其他專門的統(tǒng)計軟件來處理。 SAS:這是功能非常齊全的軟件;盡管價格不菲,許多公司還:這是功能非常齊全

18、的軟件;盡管價格不菲,許多公司還是因?yàn)槠涔δ鼙姸嗪湍承┟绹畽C(jī)構(gòu)認(rèn)可而使用。盡管現(xiàn)在是因?yàn)槠涔δ鼙姸嗪湍承┟绹畽C(jī)構(gòu)認(rèn)可而使用。盡管現(xiàn)在已經(jīng)盡量已經(jīng)盡量“傻瓜化傻瓜化”,仍然需要一定的訓(xùn)練才可以進(jìn)入。對于,仍然需要一定的訓(xùn)練才可以進(jìn)入。對于基本統(tǒng)計課程則不那么方便?;窘y(tǒng)計課程則不那么方便。統(tǒng)計軟件統(tǒng)計軟件 S-plus:這是統(tǒng)計學(xué)家喜愛的軟件。不僅由于其:這是統(tǒng)計學(xué)家喜愛的軟件。不僅由于其功能齊全,而且由于其強(qiáng)大的編程功能,使得研功能齊全,而且由于其強(qiáng)大的編程功能,使得研究人員可以編制自己的程序來實(shí)現(xiàn)自己的理論和究人員可以編制自己的程序來實(shí)現(xiàn)自己的理論和方法。它也在進(jìn)行方法。它也在進(jìn)行“

19、傻瓜化傻瓜化”以爭取顧客。但仍以爭取顧客。但仍然以編程方便為顧客所青睞。然以編程方便為顧客所青睞。 R軟件:這是一個免費(fèi)的,由志愿者管理的軟件。軟件:這是一個免費(fèi)的,由志愿者管理的軟件。其編程語言與其編程語言與S-plus所基于的所基于的S語言一樣,很方便。語言一樣,很方便。還有不斷加入的各個方向統(tǒng)計學(xué)家編寫的統(tǒng)計軟還有不斷加入的各個方向統(tǒng)計學(xué)家編寫的統(tǒng)計軟件包。同時從網(wǎng)上可以不斷更新和增加有關(guān)的軟件包。同時從網(wǎng)上可以不斷更新和增加有關(guān)的軟件包和程序。這是發(fā)展最快的軟件,受到世界上件包和程序。這是發(fā)展最快的軟件,受到世界上統(tǒng)計師生的歡迎。是用戶量增加最快的統(tǒng)計軟件。統(tǒng)計師生的歡迎。是用戶量增加

20、最快的統(tǒng)計軟件。對于一般非統(tǒng)計工作者來說,主要問題是它沒有對于一般非統(tǒng)計工作者來說,主要問題是它沒有“傻瓜化傻瓜化”。統(tǒng)計軟件統(tǒng)計軟件 Minitab:這個軟件是很方便的功能強(qiáng)大而又齊全的軟件,:這個軟件是很方便的功能強(qiáng)大而又齊全的軟件,也已經(jīng)也已經(jīng)“傻瓜化傻瓜化”,在我國用的不如,在我國用的不如SPSS與與SAS那么普遍。那么普遍。 Statistica:也是功能強(qiáng)大而齊全的:也是功能強(qiáng)大而齊全的“傻瓜化傻瓜化”的軟件,在的軟件,在我國用的也不如我國用的也不如SAS與與SPSS那么普遍。那么普遍。 Eviews:這是一個主要處理回歸和時間序列的軟件。:這是一個主要處理回歸和時間序列的軟件。

21、GAUSS:這是一個很好用的統(tǒng)計軟件,許多搞經(jīng)濟(jì)的喜歡:這是一個很好用的統(tǒng)計軟件,許多搞經(jīng)濟(jì)的喜歡它。主要也是編程功能強(qiáng)大。目前在我國使用的人不多。它。主要也是編程功能強(qiáng)大。目前在我國使用的人不多。 FORTRAN:這是應(yīng)用于各個領(lǐng)域的歷史很長的非常優(yōu)秀:這是應(yīng)用于各個領(lǐng)域的歷史很長的非常優(yōu)秀的編程軟件,功能強(qiáng)大,也有一定的統(tǒng)計軟件包。計算的編程軟件,功能強(qiáng)大,也有一定的統(tǒng)計軟件包。計算速度比這里介紹的都快得多。但需要編程和編譯。操作速度比這里介紹的都快得多。但需要編程和編譯。操作不那么容易。不那么容易。 MATLAB:這也是應(yīng)用于各個領(lǐng)域的以編程為主的軟件,:這也是應(yīng)用于各個領(lǐng)域的以編程為主

22、的軟件,在工程上應(yīng)用廣泛。編程類似于在工程上應(yīng)用廣泛。編程類似于S和和R。但是統(tǒng)計方法不多。但是統(tǒng)計方法不多。統(tǒng)計軟件統(tǒng)計軟件 當(dāng)然,還有其他的軟件,沒有必當(dāng)然,還有其他的軟件,沒有必要一一羅列。其實(shí),聰明的讀者要一一羅列。其實(shí),聰明的讀者只要學(xué)會使用一種只要學(xué)會使用一種“傻瓜式傻瓜式”軟軟件,使用其他的僅僅是舉一反三件,使用其他的僅僅是舉一反三之勞;最多看看幫助和說明即可。之勞;最多看看幫助和說明即可。如果只有英文幫助,那還可以順如果只有英文幫助,那還可以順便提高你的英文閱讀能力。便提高你的英文閱讀能力。想想看想想看 舉出你所知道的統(tǒng)計應(yīng)用例子。舉出你所知道的統(tǒng)計應(yīng)用例子。舉出日常生活中隨機(jī)

23、性和規(guī)律性的舉出日常生活中隨機(jī)性和規(guī)律性的例子。例子。 你使用過統(tǒng)計軟件或者利用過其他軟你使用過統(tǒng)計軟件或者利用過其他軟件中的統(tǒng)計功能嗎?你有什么經(jīng)驗(yàn)和件中的統(tǒng)計功能嗎?你有什么經(jīng)驗(yàn)和體會?體會?數(shù)據(jù)的收集二手?jǐn)?shù)據(jù)二手?jǐn)?shù)據(jù) 每天翻開報紙或打開電視,就可以看到各每天翻開報紙或打開電視,就可以看到各種數(shù)據(jù)。比如高速公路通車?yán)锍?、物價指種數(shù)據(jù)。比如高速公路通車?yán)锍?、物價指數(shù)、股票行情、外匯牌價、犯罪率、房價、數(shù)、股票行情、外匯牌價、犯罪率、房價、流行病的有關(guān)數(shù)據(jù)(確診病例、疑似病例、流行病的有關(guān)數(shù)據(jù)(確診病例、疑似病例、死亡人數(shù)和出院人數(shù)等等);當(dāng)然還有國死亡人數(shù)和出院人數(shù)等等);當(dāng)然還有國家統(tǒng)計局

24、定期發(fā)布的各種國家經(jīng)濟(jì)數(shù)據(jù)、家統(tǒng)計局定期發(fā)布的各種國家經(jīng)濟(jì)數(shù)據(jù)、海關(guān)發(fā)布的進(jìn)出口貿(mào)易數(shù)據(jù)等等。從中可海關(guān)發(fā)布的進(jìn)出口貿(mào)易數(shù)據(jù)等等。從中可以選取對自己有用的信息。以選取對自己有用的信息。 這些間接得到的數(shù)據(jù)都是二手?jǐn)?shù)據(jù)。這些間接得到的數(shù)據(jù)都是二手?jǐn)?shù)據(jù)。 第一手?jǐn)?shù)據(jù)第一手?jǐn)?shù)據(jù) 獲得第一手?jǐn)?shù)據(jù)并不象得到二手?jǐn)?shù)據(jù)那么輕松。獲得第一手?jǐn)?shù)據(jù)并不象得到二手?jǐn)?shù)據(jù)那么輕松。 某些在華的外資企業(yè)每年至少要花三四千萬元來某些在華的外資企業(yè)每年至少要花三四千萬元來收集和分析數(shù)據(jù)。收集和分析數(shù)據(jù)。 他們調(diào)查其產(chǎn)品目前在市場中的狀況和地位并確他們調(diào)查其產(chǎn)品目前在市場中的狀況和地位并確定其競爭對手的態(tài)勢;定其競爭對手的態(tài)勢

25、; 他們調(diào)查不同地區(qū),不同階層的民眾對其產(chǎn)品的他們調(diào)查不同地區(qū),不同階層的民眾對其產(chǎn)品的認(rèn)知程度和購買意愿以改進(jìn)產(chǎn)品或推出新品種爭認(rèn)知程度和購買意愿以改進(jìn)產(chǎn)品或推出新品種爭取新顧客;取新顧客; 他們還收集各地方的經(jīng)濟(jì)交通等信息以決定如何他們還收集各地方的經(jīng)濟(jì)交通等信息以決定如何保住現(xiàn)有市場和開發(fā)新市場。市場信息數(shù)據(jù)對企保住現(xiàn)有市場和開發(fā)新市場。市場信息數(shù)據(jù)對企業(yè)是至關(guān)重要的。業(yè)是至關(guān)重要的。 他們很舍得在這方面花錢。因?yàn)檫@是企業(yè)生存所他們很舍得在這方面花錢。因?yàn)檫@是企業(yè)生存所必需的,絕不是可有可無的。必需的,絕不是可有可無的。觀測數(shù)據(jù)觀測數(shù)據(jù)和和試驗(yàn)數(shù)據(jù)試驗(yàn)數(shù)據(jù) 上面所說的數(shù)據(jù)是在自然的未被控

26、制的條上面所說的數(shù)據(jù)是在自然的未被控制的條件下觀測到的,稱為觀測數(shù)據(jù)件下觀測到的,稱為觀測數(shù)據(jù)(observational data)。 而對于有些問題,比如在不同的醫(yī)療手段下而對于有些問題,比如在不同的醫(yī)療手段下某疾病的治療結(jié)果有什么不同、不同的肥料某疾病的治療結(jié)果有什么不同、不同的肥料和土壤條件下某農(nóng)作物的產(chǎn)量有沒有區(qū)別、和土壤條件下某農(nóng)作物的產(chǎn)量有沒有區(qū)別、用什么成分可以提高某物質(zhì)變成超導(dǎo)體的溫用什么成分可以提高某物質(zhì)變成超導(dǎo)體的溫度等等。這種在人工干預(yù)和操作情況下收集度等等。這種在人工干預(yù)和操作情況下收集的數(shù)據(jù)就稱為試驗(yàn)數(shù)據(jù)的數(shù)據(jù)就稱為試驗(yàn)數(shù)據(jù)(experimental data)。

27、總體和樣本總體和樣本 要想了解北京市民對建設(shè)北京交通設(shè)施要想了解北京市民對建設(shè)北京交通設(shè)施是以包括軌道運(yùn)輸在內(nèi)的公共交通工具是以包括軌道運(yùn)輸在內(nèi)的公共交通工具為主還是以小汽車為主的觀點(diǎn),需要進(jìn)為主還是以小汽車為主的觀點(diǎn),需要進(jìn)行調(diào)查;行調(diào)查; 調(diào)查對象是所有北京市民,調(diào)查目的是希調(diào)查對象是所有北京市民,調(diào)查目的是希望知道市民中對這個問題的不同看法各自望知道市民中對這個問題的不同看法各自占有的比例。占有的比例。 顯然,不可能去問所有的北京市民,而顯然,不可能去問所有的北京市民,而只能夠問一部分;并且根據(jù)這一部分的只能夠問一部分;并且根據(jù)這一部分的觀點(diǎn)來理解整個北京市民的總體觀點(diǎn)。觀點(diǎn)來理解整個北

28、京市民的總體觀點(diǎn)。總體和樣本總體和樣本 這種情況下,稱所有(每個)北京市民這種情況下,稱所有(每個)北京市民對這個問題的觀點(diǎn)為一個總體對這個問題的觀點(diǎn)為一個總體(population),而調(diào)查時問到的那部分市,而調(diào)查時問到的那部分市民的觀點(diǎn)為民的觀點(diǎn)為該總體的該總體的一個樣本一個樣本(sample)。 當(dāng)然,也有可能調(diào)查所有的人(比如人口當(dāng)然,也有可能調(diào)查所有的人(比如人口普查),那叫做普查普查),那叫做普查(census)。 總體是包含所有要研究的個體總體是包含所有要研究的個體(element)的的集合。而樣本是總體中選中的一部分。集合。而樣本是總體中選中的一部分。 隨機(jī)樣本隨機(jī)樣本 在抽取

29、樣本時,如果總體中的每在抽取樣本時,如果總體中的每一個體都有同等機(jī)會被選到樣本一個體都有同等機(jī)會被選到樣本中,這種抽樣稱為簡單隨機(jī)抽樣中,這種抽樣稱為簡單隨機(jī)抽樣(simple random sampling),), 而這樣得到的樣本則稱為隨機(jī)樣本而這樣得到的樣本則稱為隨機(jī)樣本(random sample)。)。隨機(jī)樣本隨機(jī)樣本 就北京交通問題的調(diào)查為例,在隨機(jī)就北京交通問題的調(diào)查為例,在隨機(jī)抽樣的情況下,如果樣本量(抽樣的情況下,如果樣本量(sample size,也就是樣本中個體的數(shù)目)在總,也就是樣本中個體的數(shù)目)在總體中的比例為體中的比例為1/5000,那么,無論在東,那么,無論在東城

30、區(qū)或者在延慶縣,無論在白領(lǐng)階層城區(qū)或者在延慶縣,無論在白領(lǐng)階層還是藍(lán)領(lǐng)階層被問到的人的比例都應(yīng)還是藍(lán)領(lǐng)階層被問到的人的比例都應(yīng)該大體是該大體是1/5000。 也就是說,這種比例在總體的任何部也就是說,這種比例在總體的任何部分是大體不變的。分是大體不變的。方便樣本方便樣本 在實(shí)踐中,得到隨機(jī)樣本不容易。很多搞調(diào)查的在實(shí)踐中,得到隨機(jī)樣本不容易。很多搞調(diào)查的人就采取簡單的辦法。人就采取簡單的辦法。 還以北京的交通問題的調(diào)查為例。假定按照隨機(jī)還以北京的交通問題的調(diào)查為例。假定按照隨機(jī)選出的選出的 號碼進(jìn)行調(diào)查。這樣肯定節(jié)省時間和資號碼進(jìn)行調(diào)查。這樣肯定節(jié)省時間和資源,但這樣得到的就不是一個隨機(jī)樣本了

31、。源,但這樣得到的就不是一個隨機(jī)樣本了。 如果按照隨機(jī)選擇的數(shù)字(無論號碼本上有沒有)如果按照隨機(jī)選擇的數(shù)字(無論號碼本上有沒有)打打 ,那很多,那很多 是空號或單位是空號或單位 ;顯然這種樣本也;顯然這種樣本也不是隨機(jī)樣本,它稱為方便樣本(不是隨機(jī)樣本,它稱為方便樣本(convenience sample)。)。 在調(diào)查中,即使選擇對象的確是隨機(jī)的,最理想在調(diào)查中,即使選擇對象的確是隨機(jī)的,最理想的情況所得到的樣本也只代表那些愿意回答問題的情況所得到的樣本也只代表那些愿意回答問題人的觀點(diǎn)所組成的總體;沒有回答問題的人的觀人的觀點(diǎn)所組成的總體;沒有回答問題的人的觀點(diǎn)永遠(yuǎn)不會被這種調(diào)查的樣本所代

32、表。點(diǎn)永遠(yuǎn)不會被這種調(diào)查的樣本所代表。方便樣本方便樣本 這種不回答的問題是抽樣調(diào)查特有的問題。這種不回答的問題是抽樣調(diào)查特有的問題。 在其他問題中,也有使用方便樣本的情況。在其他問題中,也有使用方便樣本的情況。比如在肺癌研究中,人們往往看到吸煙和肺比如在肺癌研究中,人們往往看到吸煙和肺癌的關(guān)系的數(shù)據(jù);這些數(shù)據(jù)并不是整個人群癌的關(guān)系的數(shù)據(jù);這些數(shù)據(jù)并不是整個人群中采集的隨機(jī)樣本;它們可能只是醫(yī)院中的中采集的隨機(jī)樣本;它們可能只是醫(yī)院中的病人記錄中得到的。病人記錄中得到的。 在雜志和報紙上也有問卷,但得到的只是在雜志和報紙上也有問卷,但得到的只是擁有這份報刊,而且愿意回答的人的觀點(diǎn)。擁有這份報刊,

33、而且愿意回答的人的觀點(diǎn)。 誤差誤差 假定在某一職業(yè)人群中女性占的比例為假定在某一職業(yè)人群中女性占的比例為60%60%。如果在這個。如果在這個人群中抽取一些隨機(jī)樣本,這些隨機(jī)樣本中女性的比例人群中抽取一些隨機(jī)樣本,這些隨機(jī)樣本中女性的比例并不一定是剛好并不一定是剛好6060,可能稍微多些或稍微少些。這是,可能稍微多些或稍微少些。這是很正常的,因?yàn)闃颖镜奶卣鞑灰欢ê涂傮w完全一樣。這很正常的,因?yàn)闃颖镜奶卣鞑灰欢ê涂傮w完全一樣。這種差異不是錯誤,而是必然會出現(xiàn)的抽樣誤差種差異不是錯誤,而是必然會出現(xiàn)的抽樣誤差(sampling errorsampling error)。)。 剛才提到在抽樣調(diào)查中,一

34、些人因?yàn)榉N種原因沒有對調(diào)剛才提到在抽樣調(diào)查中,一些人因?yàn)榉N種原因沒有對調(diào)查作出反映(或回答),這種誤差稱為未響應(yīng)誤差查作出反映(或回答),這種誤差稱為未響應(yīng)誤差(nonresponse errornonresponse error)。)。 而另有一些人因?yàn)楦鞣N原因回答時并沒有真實(shí)反映他們的而另有一些人因?yàn)楦鞣N原因回答時并沒有真實(shí)反映他們的觀點(diǎn),這稱為響應(yīng)誤差(觀點(diǎn),這稱為響應(yīng)誤差(response errorresponse error)。)。 和抽樣誤差不一樣,未響應(yīng)誤差和響應(yīng)誤差都會影響對真和抽樣誤差不一樣,未響應(yīng)誤差和響應(yīng)誤差都會影響對真實(shí)世界的了解;應(yīng)該在設(shè)計調(diào)查方案時盡量避免。實(shí)世界

35、的了解;應(yīng)該在設(shè)計調(diào)查方案時盡量避免。 抽樣調(diào)查的一些常用方法抽樣調(diào)查的一些常用方法 在抽樣調(diào)查時,最理想的樣本是前面提到的在抽樣調(diào)查時,最理想的樣本是前面提到的隨機(jī)樣本。隨機(jī)樣本。 但是由于實(shí)踐起來不方便,在大規(guī)模調(diào)查時一但是由于實(shí)踐起來不方便,在大規(guī)模調(diào)查時一般不用這種全部隨機(jī)抽樣的方式,而只是在局般不用這種全部隨機(jī)抽樣的方式,而只是在局部采用隨機(jī)抽樣的方法。部采用隨機(jī)抽樣的方法。 下面介紹幾種抽樣方法。這里沒有深奧的理下面介紹幾種抽樣方法。這里沒有深奧的理論;讀者完全可以根據(jù)常識判斷在什么情況論;讀者完全可以根據(jù)常識判斷在什么情況下簡單的隨機(jī)樣本不方便以及下面的每個方下簡單的隨機(jī)樣本不方

36、便以及下面的每個方法有什么好處和缺陷。對于它們具體的設(shè)計、法有什么好處和缺陷。對于它們具體的設(shè)計、實(shí)施與數(shù)據(jù)分析,有許多專門的書籍,就不實(shí)施與數(shù)據(jù)分析,有許多專門的書籍,就不在這里贅述了。在這里贅述了。 一些抽樣方法一些抽樣方法 1 分層抽樣(分層抽樣(stratified sampling)。這是先)。這是先把要研究的總體按照某些性質(zhì)分類(把要研究的總體按照某些性質(zhì)分類(stratum),),再在各類中分別抽取樣本。在每類中調(diào)查的人再在各類中分別抽取樣本。在每類中調(diào)查的人數(shù)通常是按照這該類人的比例,但出于各種考數(shù)通常是按照這該類人的比例,但出于各種考慮,也可能不按照比例,也可能需要加權(quán)(加慮

37、,也可能不按照比例,也可能需要加權(quán)(加權(quán)就是在求若干項的和時,對各項乘以不同的權(quán)就是在求若干項的和時,對各項乘以不同的系數(shù),這些系數(shù)的和通常為系數(shù),這些系數(shù)的和通常為1)。比如可以按)。比如可以按照教育程度把要訪問的人群分成幾類;再在每照教育程度把要訪問的人群分成幾類;再在每一類中調(diào)查和該類成比例數(shù)目的人。這樣就確一類中調(diào)查和該類成比例數(shù)目的人。這樣就確保了每一類都有成比例的代表。保了每一類都有成比例的代表。一些抽樣方法一些抽樣方法 2.整群抽樣(整群抽樣(cluster sampling)。這是)。這是先把總體劃分成若干群(先把總體劃分成若干群(cluster),再),再(通常是隨機(jī)地)從這

38、些群中抽取幾群;(通常是隨機(jī)地)從這些群中抽取幾群;然后再在這些抽取的群中對個體進(jìn)行抽然后再在這些抽取的群中對個體進(jìn)行抽樣。比如,在某縣進(jìn)行調(diào)查,首先在所樣。比如,在某縣進(jìn)行調(diào)查,首先在所有村中選取若干村子,然后只對這些村有村中選取若干村子,然后只對這些村子的人進(jìn)行調(diào)查。顯然,如果各村情況子的人進(jìn)行調(diào)查。顯然,如果各村情況差異不大,這種抽樣還是方便的。否則差異不大,這種抽樣還是方便的。否則就會增大誤差了。就會增大誤差了。 一些抽樣方法一些抽樣方法 3.3.多級抽樣(多級抽樣(multistage samplingmultistage sampling)。在群體)。在群體很大時,往往在抽取若干群

39、之后,再在其中抽很大時,往往在抽取若干群之后,再在其中抽取若干子群,甚至再在子群中抽取子群,等等。取若干子群,甚至再在子群中抽取子群,等等。最后只對最后選定的最下面一級進(jìn)行調(diào)查。比最后只對最后選定的最下面一級進(jìn)行調(diào)查。比如在全國調(diào)查時,先抽取省,再抽取市地,再如在全國調(diào)查時,先抽取省,再抽取市地,再抽取縣區(qū),再抽取鄉(xiāng)、村直到戶。在多級抽樣抽取縣區(qū),再抽取鄉(xiāng)、村直到戶。在多級抽樣中的每一級都可能采取各種抽樣方法。因此,中的每一級都可能采取各種抽樣方法。因此,整個抽樣計劃可能比較復(fù)雜,也稱為多級混和整個抽樣計劃可能比較復(fù)雜,也稱為多級混和型抽樣。型抽樣。 一些抽樣方法一些抽樣方法 4.系統(tǒng)抽樣(系

40、統(tǒng)抽樣(systematic sampling)。這)。這是先把總體中的每個單元編號,然后隨是先把總體中的每個單元編號,然后隨機(jī)選取其中之一作為抽樣的開始點(diǎn)進(jìn)行機(jī)選取其中之一作為抽樣的開始點(diǎn)進(jìn)行抽樣。如果編號是隨機(jī)選取的,則這和抽樣。如果編號是隨機(jī)選取的,則這和簡單隨機(jī)抽樣是等價的。在選取開始點(diǎn)簡單隨機(jī)抽樣是等價的。在選取開始點(diǎn)之后,通常從開始點(diǎn)開始按照編號進(jìn)行之后,通常從開始點(diǎn)開始按照編號進(jìn)行所謂等距抽樣;也就是說,如果開始點(diǎn)所謂等距抽樣;也就是說,如果開始點(diǎn)為為5號,號,“距離距離”為為10,則下面的調(diào)查對,則下面的調(diào)查對象為象為15號、號、25號等等。號等等。 抽樣方法的選擇不能一概而論

41、抽樣方法的選擇不能一概而論實(shí)際上每個抽樣通常都可實(shí)際上每個抽樣通常都可能是各種抽樣方法的組合。能是各種抽樣方法的組合。既要考慮精確度,還要根既要考慮精確度,還要根據(jù)客觀情況考慮方便性、據(jù)客觀情況考慮方便性、可行性和經(jīng)濟(jì)性。不能一可行性和經(jīng)濟(jì)性。不能一概而論。概而論。 計算機(jī)中常用的數(shù)據(jù)形式計算機(jī)中常用的數(shù)據(jù)形式 數(shù)據(jù)是由一些變量和它們的觀測值所組成。下面數(shù)據(jù)是由一些變量和它們的觀測值所組成。下面就是調(diào)查人們對某個問題觀點(diǎn)的一個數(shù)據(jù)的方陣就是調(diào)查人們對某個問題觀點(diǎn)的一個數(shù)據(jù)的方陣形式。其中有形式。其中有6 6個變量:觀點(diǎn)(觀測值為支持、個變量:觀點(diǎn)(觀測值為支持、反對和不知道三種)、教育程度(有

42、高中低三種反對和不知道三種)、教育程度(有高中低三種取值,用取值,用H H、M M、L L表示)、月收入(取值為實(shí)際表示)、月收入(取值為實(shí)際數(shù)字)、性別(取值有男女兩個,用數(shù)字)、性別(取值有男女兩個,用M M和和F F表示)表示)以及地區(qū)號(用數(shù)字以及地區(qū)號(用數(shù)字1 1,2 2,3 3,4 4表示)等。該表表示)等。該表一共有一共有13641364個觀測值(問卷回答)??梢钥闯鲞@個觀測值(問卷回答)??梢钥闯鲞@些變量有定性(屬性)變量,也有定量(數(shù)值)些變量有定性(屬性)變量,也有定量(數(shù)值)變量。按照這個數(shù)據(jù)的格式,每一列為一個變量變量。按照這個數(shù)據(jù)的格式,每一列為一個變量的不同觀測值

43、;而每一行則稱為一個觀測值,它的不同觀測值;而每一行則稱為一個觀測值,它是個由數(shù)量值和屬性值組成的向量,每一個值相是個由數(shù)量值和屬性值組成的向量,每一個值相應(yīng)于一個變量。應(yīng)于一個變量。 思考思考 1 1 舉出一些觀測數(shù)據(jù)和試驗(yàn)數(shù)據(jù)的例子。舉出一些觀測數(shù)據(jù)和試驗(yàn)數(shù)據(jù)的例子。 2 2 舉出簡單隨機(jī)樣本的例子。舉出簡單隨機(jī)樣本的例子。 3 3 根據(jù)你的經(jīng)驗(yàn),舉出總體和樣本的一些具根據(jù)你的經(jīng)驗(yàn),舉出總體和樣本的一些具體例子。體例子。 4 4 舉出調(diào)查抽樣時可能發(fā)生的各種影響調(diào)查舉出調(diào)查抽樣時可能發(fā)生的各種影響調(diào)查結(jié)果的問題,并且提出你認(rèn)為可以減少或避免這結(jié)果的問題,并且提出你認(rèn)為可以減少或避免這些問題

44、的建議。些問題的建議。 5 5 根據(jù)你的直覺,本章提到的幾種抽樣方法根據(jù)你的直覺,本章提到的幾種抽樣方法的優(yōu)缺點(diǎn)是什么?原因何在?的優(yōu)缺點(diǎn)是什么?原因何在? 6 6 舉出一些書報上發(fā)表的數(shù)據(jù)例子,并指出舉出一些書報上發(fā)表的數(shù)據(jù)例子,并指出那些是變量,哪些是觀測值。那些是變量,哪些是觀測值。數(shù)據(jù)的描述如同給人畫像一樣直方圖直方圖 比如某個地區(qū)(地區(qū)比如某個地區(qū)(地區(qū)1 1)學(xué)校高三男生的)學(xué)校高三男生的身高;有身高;有163163個度量如何用圖形來表示這個度量如何用圖形來表示這個數(shù)據(jù),使人們能夠看出這個數(shù)據(jù)的大個數(shù)據(jù),使人們能夠看出這個數(shù)據(jù)的大體分布或體分布或“形狀形狀”呢?一個辦法就是畫呢?一

45、個辦法就是畫一個直方圖一個直方圖(histogram)(histogram)。地區(qū)1高三男生高度200.0195.0190.0185.0180.0175.0170.0165.0160.0155.0150.0403020100Std. Dev = 10.91 Mean = 170.9N = 163.00盒型圖盒型圖 比直方圖簡單一些的是盒形圖比直方圖簡單一些的是盒形圖(boxplot(boxplot,又稱箱圖、箱線圖、盒子圖又稱箱圖、箱線圖、盒子圖) )。后面圖的。后面圖的左邊一個是根據(jù)地區(qū)左邊一個是根據(jù)地區(qū)1 1高三男生的身高數(shù)高三男生的身高數(shù)據(jù)所繪的盒形圖;其右邊的圖代表另一據(jù)所繪的盒形圖;

46、其右邊的圖代表另一個地區(qū)(地區(qū)個地區(qū)(地區(qū)2 2)的高三學(xué)生的身高)的高三學(xué)生的身高 175163N =地區(qū)地區(qū)2地區(qū)1高三男生身高210200190180170160150140323259250248596158莖葉圖莖葉圖 地區(qū)地區(qū)1 1高三男生身高數(shù)高三男生身高數(shù)據(jù)的莖葉圖據(jù)的莖葉圖 HEIGHT Stem-and-Leaf Plot Frequency Stem & Leaf 9.00 15 . 001223344 17.00 15 . 55666667778899999 35.00 16 . 55555666666667777788888888888999999 24.00

47、 17 . 555666677777777777888899 11.00 18 . 55667788899 4.00 19 . 2333 2.00 19 . 56 3.00 Extremes (=198) Stem width: 10.00 Each leaf: 1 case(s)散點(diǎn)圖散點(diǎn)圖 往往人們得到的數(shù)據(jù)有兩個變量的,比如美國男士和女士往往人們得到的數(shù)據(jù)有兩個變量的,比如美國男士和女士初婚年限的數(shù)據(jù)。該數(shù)據(jù)描述了自初婚年限的數(shù)據(jù)。該數(shù)據(jù)描述了自19001900年到年到19981998年男女年男女第一次結(jié)婚延續(xù)的時間的中位數(shù)。當(dāng)然,不可能將所有第一次結(jié)婚延續(xù)的時間的中位數(shù)。當(dāng)然,不可能將

48、所有人的婚姻年限都給出來。所以,每年就取了一個中間的人的婚姻年限都給出來。所以,每年就取了一個中間的值值( (中位數(shù)中位數(shù)) )作為代表。自作為代表。自19001900到到19601960年是每十年一個值,年是每十年一個值,以后到以后到19901990是每五年取一個數(shù),是每五年取一個數(shù),19951995年以后是每年一個數(shù)。年以后是每年一個數(shù)。這里的一個變量為記錄年份,另一個是結(jié)婚時間長短。這里的一個變量為記錄年份,另一個是結(jié)婚時間長短。由于分男士和女士,因此有兩二維數(shù)據(jù)。這時可以以一由于分男士和女士,因此有兩二維數(shù)據(jù)。這時可以以一個變量為橫坐標(biāo)(如年份),另一個為縱坐標(biāo)(這里是個變量為橫坐標(biāo)(

49、如年份),另一個為縱坐標(biāo)(這里是結(jié)婚年限)來點(diǎn)圖。這種圖稱為散點(diǎn)圖(結(jié)婚年限)來點(diǎn)圖。這種圖稱為散點(diǎn)圖(scatter scatter plotplot)。還可以看出在二十世紀(jì)六十年代婚姻年限降低,)。還可以看出在二十世紀(jì)六十年代婚姻年限降低,而后來又升高。而男子的年限平均比女性長。這個圖是而后來又升高。而男子的年限平均比女性長。這個圖是用用SPSSSPSS畫的。畫的。 200019801960194019201900282726252423222120女男定性變量的點(diǎn)圖定性變量的點(diǎn)圖 定性變量(或?qū)傩宰兞?,分類變量)不能定性變量(或?qū)傩宰兞?,分類變量)不能點(diǎn)出直方圖、散點(diǎn)圖或莖葉圖,但可以描

50、點(diǎn)出直方圖、散點(diǎn)圖或莖葉圖,但可以描繪出它們各類的比例。下面用繪出它們各類的比例。下面用SPSS繪的圖繪的圖表示了說世界各種主要語言的人數(shù)的比例表示了說世界各種主要語言的人數(shù)的比例 餅圖語種中國北方英語印地語西班牙語日語其他葡萄牙語孟加拉語馬來印法語俄語德語阿拉伯語Mean3000200010000母語日常使用條形圖匯總統(tǒng)計量匯總統(tǒng)計量或或概括統(tǒng)計量概括統(tǒng)計量(summary statistic) 匯總統(tǒng)計量(位置)匯總統(tǒng)計量(位置) 均值均值(mean) 中位數(shù)中位數(shù)(median) (第一,第三第一,第三)四分位數(shù)四分位數(shù)(點(diǎn)點(diǎn))(first quantile, third quantil

51、e ) k百分位數(shù)百分位數(shù)(k-percentile) 眾數(shù)眾數(shù)(mode)匯總統(tǒng)計量(尺度)匯總統(tǒng)計量(尺度)(scale statistic) 極差(極差(range) 四分位間距四分位間距(四分位極差四分位極差) (interquantile range) 標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(standard deviation) 方差方差(variance) -3-2-10123020406080 x-3-2-10123020406080y兩個尺度不同的數(shù)據(jù)的直方圖,左邊的標(biāo)準(zhǔn)差大約只有右邊的一半兩個尺度不同的數(shù)據(jù)的直方圖,左邊的標(biāo)準(zhǔn)差大約只有右邊的一半 數(shù)據(jù)的標(biāo)準(zhǔn)得分?jǐn)?shù)據(jù)的標(biāo)準(zhǔn)得分 (standard s

52、core) 兩個水平類似的班級(一班和二班)上同一門課,但是由兩個水平類似的班級(一班和二班)上同一門課,但是由于兩個任課老師的評分標(biāo)準(zhǔn)不同,使得兩個班成績的均值于兩個任課老師的評分標(biāo)準(zhǔn)不同,使得兩個班成績的均值和標(biāo)準(zhǔn)差都不一樣和標(biāo)準(zhǔn)差都不一樣(數(shù)據(jù):數(shù)據(jù):grade.sav)。一班分?jǐn)?shù)的均值和標(biāo)。一班分?jǐn)?shù)的均值和標(biāo)準(zhǔn)差分別為準(zhǔn)差分別為78.53和和9.43,而二班的均值和標(biāo)準(zhǔn)差分別為,而二班的均值和標(biāo)準(zhǔn)差分別為70.19和和7.00。那么得到。那么得到90分的一班的張穎是不是比得到分的一班的張穎是不是比得到82分的二班的劉疏成績更好呢?怎么比較才能合理呢?雖然分的二班的劉疏成績更好呢?怎么比

53、較才能合理呢?雖然這種均值和標(biāo)準(zhǔn)差不同的數(shù)據(jù)不能夠直接比較,但是可以這種均值和標(biāo)準(zhǔn)差不同的數(shù)據(jù)不能夠直接比較,但是可以把它們進(jìn)行標(biāo)準(zhǔn)化,然后再比較標(biāo)準(zhǔn)化后的數(shù)據(jù)。一個標(biāo)把它們進(jìn)行標(biāo)準(zhǔn)化,然后再比較標(biāo)準(zhǔn)化后的數(shù)據(jù)。一個標(biāo)準(zhǔn)化的方法是把原始觀測值(亦稱得分,準(zhǔn)化的方法是把原始觀測值(亦稱得分,score)和均值之)和均值之差除以標(biāo)準(zhǔn)差;得到的度量稱為標(biāo)準(zhǔn)得分差除以標(biāo)準(zhǔn)差;得到的度量稱為標(biāo)準(zhǔn)得分(standard score)。 10097N =班級二班一班得分1101009080706050402110097N =班級二班一班標(biāo)準(zhǔn)得分3210-1-2-3-421思考思考 1 1 根據(jù)你的經(jīng)驗(yàn),給出

54、定性和定量變量的例根據(jù)你的經(jīng)驗(yàn),給出定性和定量變量的例子。子。 2 2 對于問題對于問題1 1中你的例子,試圖畫出各種描述中你的例子,試圖畫出各種描述性圖形并計算匯總統(tǒng)計量。性圖形并計算匯總統(tǒng)計量。 3 3 舉例說明眾數(shù)、中位數(shù)和均值的優(yōu)缺點(diǎn)。舉例說明眾數(shù)、中位數(shù)和均值的優(yōu)缺點(diǎn)。 4 4 舉例說明尺度統(tǒng)計量說明了數(shù)據(jù)的什么特舉例說明尺度統(tǒng)計量說明了數(shù)據(jù)的什么特性。性。 5 5 標(biāo)準(zhǔn)得分實(shí)際上是對原始數(shù)據(jù)的一種標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)得分實(shí)際上是對原始數(shù)據(jù)的一種標(biāo)準(zhǔn)化。試舉出標(biāo)準(zhǔn)得分的用處。試舉出標(biāo)準(zhǔn)得分的用處。統(tǒng)計推斷從數(shù)據(jù)得到對現(xiàn)實(shí)世界的結(jié)從數(shù)據(jù)得到對現(xiàn)實(shí)世界的結(jié)論的過程論的過程估計估計 總體它代表我們

55、所關(guān)心的那部分現(xiàn)實(shí)世界??傮w它代表我們所關(guān)心的那部分現(xiàn)實(shí)世界。而在利用樣本中的信息來對總體進(jìn)行推斷之而在利用樣本中的信息來對總體進(jìn)行推斷之前人們一般對代表總體的變量假定了分布族。前人們一般對代表總體的變量假定了分布族。比如假定人們的身高屬于正態(tài)分布族;對抽比如假定人們的身高屬于正態(tài)分布族;對抽樣調(diào)查假定了二項分布族等等。這些模型基樣調(diào)查假定了二項分布族等等。這些模型基本上是根據(jù)經(jīng)驗(yàn)來假定的,所以僅僅是對現(xiàn)本上是根據(jù)經(jīng)驗(yàn)來假定的,所以僅僅是對現(xiàn)實(shí)世界的一個近似。在假定了總體分布族之實(shí)世界的一個近似。在假定了總體分布族之后,進(jìn)一步對總體的認(rèn)識就是要在這個分布后,進(jìn)一步對總體的認(rèn)識就是要在這個分布族

56、中選擇一個適合于我們問題的分布;由于族中選擇一個適合于我們問題的分布;由于分布族成員是由參數(shù)確定的,如果參數(shù)能夠分布族成員是由參數(shù)確定的,如果參數(shù)能夠估計,對總體的具體分布就知道得差不多了。估計,對總體的具體分布就知道得差不多了。 估計估計 一種是點(diǎn)估計一種是點(diǎn)估計(point estimation),也就是用,也就是用估計量的實(shí)現(xiàn)值來近似相應(yīng)的總體參數(shù)。估計量的實(shí)現(xiàn)值來近似相應(yīng)的總體參數(shù)。 另一種是區(qū)間估計另一種是區(qū)間估計(interval estimation);它;它是包括估計量在內(nèi)(有時是以估計量為中心)是包括估計量在內(nèi)(有時是以估計量為中心)的一個區(qū)間;該區(qū)間被認(rèn)為很可能包含總體的一

57、個區(qū)間;該區(qū)間被認(rèn)為很可能包含總體參數(shù)。參數(shù)。 點(diǎn)估計給出一個數(shù)字,用起來很方便;而區(qū)間點(diǎn)估計給出一個數(shù)字,用起來很方便;而區(qū)間估計給出一個區(qū)間,說起來留有余地;不象點(diǎn)估計給出一個區(qū)間,說起來留有余地;不象點(diǎn)估計那么絕對。估計那么絕對。 無偏估計無偏估計(大樣本性質(zhì)大樣本性質(zhì)) 區(qū)間估計的置信度區(qū)間估計的置信度( (大樣本性質(zhì)大樣本性質(zhì)) )估計估計 注意置信區(qū)間的論述是由區(qū)間和置信度注意置信區(qū)間的論述是由區(qū)間和置信度兩部分組成。有些新聞媒體報道一些調(diào)兩部分組成。有些新聞媒體報道一些調(diào)查結(jié)果只給出百分比和誤差(即置信區(qū)查結(jié)果只給出百分比和誤差(即置信區(qū)間),并不說明置信度,也不給出被調(diào)間),并

58、不說明置信度,也不給出被調(diào)查的人數(shù),這是不負(fù)責(zé)的表現(xiàn)。因?yàn)榻挡榈娜藬?shù),這是不負(fù)責(zé)的表現(xiàn)。因?yàn)榻档椭眯哦瓤梢允怪眯艆^(qū)間變窄(顯得低置信度可以使置信區(qū)間變窄(顯得“精確精確”),有誤導(dǎo)讀者之嫌。如果給),有誤導(dǎo)讀者之嫌。如果給出被調(diào)查的人數(shù),則內(nèi)行可以由推算出出被調(diào)查的人數(shù),則內(nèi)行可以由推算出置信度(由后面給出的公式),反之亦置信度(由后面給出的公式),反之亦然。然。一個描述性例子一個描述性例子 一個有一個有10000個人回答的調(diào)查顯示,同意某種觀個人回答的調(diào)查顯示,同意某種觀點(diǎn)的人的比例為點(diǎn)的人的比例為70%(有(有7000人同意),可以人同意),可以算出總體中同意該觀點(diǎn)的比例的算出總體中同意該

59、觀點(diǎn)的比例的95%置信區(qū)間置信區(qū)間為(為(0.691,0.709);另一個調(diào)查聲稱有);另一個調(diào)查聲稱有70%的的比例反對該種觀點(diǎn),還說總體中反對該觀點(diǎn)的比例反對該種觀點(diǎn),還說總體中反對該觀點(diǎn)的置信區(qū)間也是(置信區(qū)間也是(0.691,0.709)。到底相信誰呢?)。到底相信誰呢?實(shí)際上,第二個調(diào)查隱瞞了置信度(等價于隱實(shí)際上,第二個調(diào)查隱瞞了置信度(等價于隱瞞了樣本量)。如果第二個調(diào)查僅僅調(diào)查了瞞了樣本量)。如果第二個調(diào)查僅僅調(diào)查了50個人,有個人,有35個人反對該觀點(diǎn)。根據(jù)后面的公式個人反對該觀點(diǎn)。根據(jù)后面的公式可以算出,第二個調(diào)查的置信區(qū)間的置信度僅可以算出,第二個調(diào)查的置信區(qū)間的置信度僅

60、有有11%。假設(shè)檢驗(yàn)假設(shè)檢驗(yàn) 在假設(shè)檢驗(yàn)中,一般要設(shè)立一個原假設(shè);而設(shè)在假設(shè)檢驗(yàn)中,一般要設(shè)立一個原假設(shè);而設(shè)立該假設(shè)的動機(jī)主要是企圖利用人們掌握的反立該假設(shè)的動機(jī)主要是企圖利用人們掌握的反映現(xiàn)實(shí)世界的數(shù)據(jù)來找出假設(shè)和現(xiàn)實(shí)的矛盾,映現(xiàn)實(shí)世界的數(shù)據(jù)來找出假設(shè)和現(xiàn)實(shí)的矛盾,從而否定這個假設(shè)。在多數(shù)統(tǒng)計教科書中(除從而否定這個假設(shè)。在多數(shù)統(tǒng)計教科書中(除了理論探討之外)的假設(shè)檢驗(yàn)都是以否定原假了理論探討之外)的假設(shè)檢驗(yàn)都是以否定原假設(shè)為目標(biāo)。設(shè)為目標(biāo)。 如果否定不了,那就說明證據(jù)不足,無法否定如果否定不了,那就說明證據(jù)不足,無法否定原假設(shè)。但這不能說明原假設(shè)正確。很多教科原假設(shè)。但這不能說明原假設(shè)正確。很多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論