統(tǒng)計(jì)在考古學(xué)中的應(yīng)用-第四講_第1頁
統(tǒng)計(jì)在考古學(xué)中的應(yīng)用-第四講_第2頁
統(tǒng)計(jì)在考古學(xué)中的應(yīng)用-第四講_第3頁
統(tǒng)計(jì)在考古學(xué)中的應(yīng)用-第四講_第4頁
統(tǒng)計(jì)在考古學(xué)中的應(yīng)用-第四講_第5頁
已閱讀5頁,還剩42頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、統(tǒng)計(jì)學(xué)在考古中的應(yīng)用,第四講,總體、樣本、樣本觀察值的關(guān)系,總體,樣本,樣本觀察值,?,理論分布,統(tǒng)計(jì)是從手中已有的資料樣本觀察值,去推斷總體的情況總體分布。樣本是聯(lián)系兩者的橋梁??傮w分布決定了樣本取值的概率規(guī)律,也就是樣本取到樣本觀察值的規(guī)律,因而可以用樣本觀察值去推斷總體,17個(gè)柱洞組成的總體 樣本量 n1 17個(gè)不同樣本 17.6% n2 153個(gè)不同樣本 8.5% n=3 969個(gè)不同樣本 5.3% 樣本量越大,樣本平均值更集中于總體平均值附近,不具備代表性的樣本,它的少見程度(根據(jù)特殊數(shù)列)能讓我們確定,對(duì)我們可能從給定總體中可以隨機(jī)抽取出來的任何給定大小的特定樣本,它不具備代表性的

2、概率是多少。,特殊數(shù)列,由所有可能的不同樣本(樣本大小相等)的平均值組成 數(shù)學(xué)上也能夠證明,特殊數(shù)列的標(biāo)準(zhǔn)差就是給定總體的標(biāo)準(zhǔn)差再除以樣本大小的平方根 。 標(biāo)準(zhǔn)誤差就是由從給定總體中能夠抽取的給定大小的所有不同樣本的平均值組成的數(shù)列的標(biāo)準(zhǔn)差。,特殊數(shù)列,平均值的抽樣分布 第一,特殊數(shù)列的平均值和樣本抽取總體的平均值一致;第二,特殊數(shù)列的標(biāo)準(zhǔn)差,就是標(biāo)準(zhǔn)誤差,即。第三,特殊數(shù)列符合正態(tài)分布,只要樣本大小超過30。,樣本均值抽樣分布與中心極限定理,中心極限定理:設(shè)從均值為,方差為2的一個(gè)任意總體中抽取容量為n的樣本,當(dāng)n充分大時(shí),樣本均值的抽樣分布近似服從均值為、方差為2/n的正態(tài)分布,置信度和總

3、體平均值,一個(gè)特殊數(shù)列的平均值與總體的平均值是一樣的;其標(biāo)準(zhǔn)差(也即標(biāo)準(zhǔn)誤差)是總體的標(biāo)準(zhǔn)差除以樣品數(shù)目的平方根。在現(xiàn)實(shí)生活中,我們既不知道樣品所取自的總體平均值,又不知道其標(biāo)準(zhǔn)差。 沒有一個(gè)總體和所有可能取自它的樣本,相反只有一個(gè)樣本以及它可能來自的總體。,假設(shè)有一個(gè)由100件矛頭組成的隨機(jī)樣本,它抽取自一個(gè)數(shù)目更大的總體。我們想要知道的是這個(gè)矛頭總體的長度平均值。這個(gè)隨機(jī)樣本的100個(gè)矛頭的長度平均值是3.35cm,標(biāo)準(zhǔn)差是0.50cm。 將這些樣品(100件矛頭)看作是取自那個(gè)時(shí)期該地區(qū)的史前居民制作的所有矛頭組成的總體的一個(gè)隨機(jī)樣本。,大而模糊的總體被認(rèn)為是無限總體。這并不是說它們中的

4、個(gè)體無限多,只是因?yàn)樗鼈兎浅>薮蠖覜]有準(zhǔn)確地限定。,對(duì)于大的總體和樣本而言,樣本平均值與總體平均值常常一樣。與之相類似,樣本標(biāo)準(zhǔn)差與總體標(biāo)準(zhǔn)差也常常相同。因此,最好的評(píng)估是,樣本所取自的矛頭總體的長度平均值為3.35cm,標(biāo)準(zhǔn)差是0.50cm。 然而,樣本的平均值并不總是正好與其總體相同。因此,在作上述估計(jì)時(shí),到底應(yīng)該具有多大的置信度。換種說法:這一估計(jì)到底在多大程度上是不正確的?更準(zhǔn)確地說,這一估計(jì)的錯(cuò)誤到了何種程度才至于(對(duì)研究結(jié)果)造成影響?,已經(jīng)假定它很可能來源于一個(gè)長度平均值為3.35cm(與樣本的長度平均值一樣)的總體,但并不能保證它一定來自這樣一個(gè)總體。 樣本可能來源于一個(gè)長度

5、平均值大于或小于3.35cm、甚至遠(yuǎn)遠(yuǎn)大于或小于3.35cm的總體。 可以分別考慮,樣本可能取自各種不同的特殊總體:在多大程度上會(huì)是這樣的(樣本來源于平均值大于或小于3.35cm的總體)。對(duì)于每一個(gè)所能想象到的樣本母體,需要考慮到來自這個(gè)總體的、由任意100件矛頭平均值組成的特殊總體。,想象樣本可能來源于一個(gè)長度平均值為3.25cm的總體。從一個(gè)平均值為3.25cm的總體中取得這樣的樣本(就是說,平均值為3.35cm,標(biāo)準(zhǔn)偏差為0.50cm的樣本)的不尋常性有多大? 那個(gè)來自平均值為3.25cm總體、由任意100件矛頭平均值組成特殊數(shù)列會(huì)是什么樣的? 這個(gè)特殊數(shù)列的平均值與總體的平均值一樣,也

6、就是3.25cm。這個(gè)特殊數(shù)列的形狀大體上是正態(tài)分布,,取自一個(gè)平均值為3.25cm、標(biāo)準(zhǔn)差為0.50cm的總體,并由100件樣品平均值組成的特殊數(shù)列。,平均值為3.35cm的樣本確實(shí)有可能在平均值為3.25cm的總體的抽樣數(shù)目為100件的所有可能樣本之中,但它們出現(xiàn)的概率不高不如那些平均值更靠近3.25cm的樣品出現(xiàn)的頻率高。在一個(gè)取自平均值為3.25的總體的所有可能樣本中,我們的樣本極不正常。所以,我們的樣本有可能來自一個(gè)平均值為3.25cm的總體,但這種可能性不是很大。,樣本來源于平均值為3.20cm總體的可能性有多大?圖9.3示意了一個(gè)選自平均值為3.25cm,標(biāo)準(zhǔn)差為0.50cm的總

7、體、由任意(所有可能性)100件樣品的平均值組成的特殊數(shù)列。,樣本來源于平均值為3.30cm總體的可能性有多大?圖9.4示意了一個(gè)選自平均值為3.30,標(biāo)準(zhǔn)差為0.50cm的總體、由任意(所有可能性)100件樣品的平均值組成的特殊總體。在圖9.4所示的正態(tài)曲線上,與我們的樣本相對(duì)應(yīng)的位置水平相當(dāng)高。因而平均值為3.35cm的樣本選自平均值為3.30cm的總體的可能性很大。,圖9.5代表由選自平均值為3.35cm、標(biāo)準(zhǔn)差為0.50cm的100件所有可能性樣本組成的特殊數(shù)列。于是,它代表各種可能取自這種總體的樣本不尋常性,因而也就是從這個(gè)總體中選取它們?nèi)魏我粋€(gè)的可能性。,可以設(shè)想繼續(xù)把這個(gè)方法應(yīng)用

8、到更多的可能性母體,用這些試驗(yàn)結(jié)果來構(gòu)建一個(gè)新的曲線。這個(gè)新的曲線將會(huì)表明每一個(gè)可能的母體是我們的樣本來源的可能性有多大。其結(jié)果是,如果實(shí)施這樣的程序,我們建立的曲線將會(huì)有一個(gè)與圖9.5所示意的曲線具備完全相同的參數(shù)。,另一方面,圖9.6所示的曲線代表了平均值為3.35cm、標(biāo)準(zhǔn)偏差為0.50cm的100件樣品所來自的可能性總體的概率,因而也就是這個(gè)樣本取自它們中任何特定一個(gè)的可能性。,置信度與精確度,樣本的可能來源的大量總體(都有一個(gè)介于3.30cm和3.40cm的平均值)的平均值都介于3.30cm和3.40cm之間。(這些總體的平均值落在我們樣本平均值的正負(fù)1個(gè)標(biāo)準(zhǔn)誤差的范圍之內(nèi))。,謹(jǐn)慎

9、地認(rèn)為,我們的樣本可能來自平均值在3.30和3.40cm之間的總體。我們這樣說,是因?yàn)樵谒锌赡艿目傮w中平均值小于3.30cm和大于3.40cm的總體的數(shù)量仍然是很多的。,我們的樣本很可能來自一個(gè)平均值為3.350.10cm,只有極少數(shù)的可能性總體的平均值小于3.20cm或大于3.50cm。那么,從一個(gè)平均值小于3.20cm或大于3.50cm的總體選擇一個(gè)由100件樣品組成、平均值為3.35cm、標(biāo)準(zhǔn)偏差為0.50cm的樣本的就是極不尋常的(概率極低)。 我們的樣本來自一個(gè)平均值為3.350.15cm的總體的可能性非常大,很可能說“我將于4點(diǎn)到”。雖然守時(shí)的習(xí)俗不同,但我不大可能說,我會(huì)在4點(diǎn)

10、前5分鐘內(nèi)到達(dá),除非我感覺有非常大的自信。如果我的到達(dá)取決于途中的交通狀況如何,我更可能說“我會(huì)在4點(diǎn)左右到達(dá)”,這是一個(gè)精確度較低的陳述,表明我有可能或早或晚10至15分鐘到達(dá)。如果預(yù)想到可能碰到更難估計(jì)的阻力,我可能說“我將大概在4點(diǎn)左右到那兒,”暗示一個(gè)更低的精確性,也許在3:30和4:30之間。,students t檢驗(yàn),小樣本,左邊的一列代表自由度,它們等于樣本中所有個(gè)體的數(shù)目減去1(n-1)。 這意味著我們樣本所取自的可能性總體有95(圖9.7“正態(tài)曲線以下”的陰影區(qū)域所代表的)落在樣本平均值的1.98個(gè)標(biāo)準(zhǔn)誤差之內(nèi)。因此,當(dāng)我們說“很可能”樣本來源于一個(gè)平均值為3.35cm0.1

11、0cm時(shí),我們的意思-更確切地說,是來自這樣一個(gè)總體的可能性為95。我們有95的自信說我們的樣本取自一個(gè)平均值為3.35cm0.10cm的總體。我們并不完全肯定我們的樣本來源于一個(gè)平均值為3.35cm0.10cm的總體,但情況就是那樣的可能性是95。,正態(tài)分布的3法則,68.3% 295.5% 399.7%,特定置信水平,推斷確定當(dāng)樣本中個(gè)體數(shù)目是100時(shí),與90置信度對(duì)應(yīng)的標(biāo)準(zhǔn)誤差是多少。因?yàn)閚 =100,d.f.=99,所以我們用120 d.f.所在的那一行。在90置信度一列的數(shù)值是1.658,這意味著對(duì)這樣大的一個(gè)樣本來說,1.658個(gè)標(biāo)準(zhǔn)誤差的誤差范圍對(duì)應(yīng)的置信度是90。從而,我們將標(biāo)

12、準(zhǔn)誤差(0.05cm)乘以1.658,得到一個(gè)0.08cm的誤差范圍。我們于是說:我們有90的置信度說我們的樣本來自一個(gè)平均值為3.350.08cm的總體。如果我們的樣品由12件而不是100件矛頭組成,我們就得用表9.1中的11 d.f.所在的那一行,(相應(yīng)地)需要用1.796個(gè)標(biāo)準(zhǔn)誤差的誤差范圍。以這個(gè)方法把誤差范圍校準(zhǔn)到一定的置信水平可以消除任何因樣本大小不同所引起的可能混亂,有限總體,如果我們利用一個(gè)100件矛頭樣本對(duì)其所代表的總數(shù)目為120件的總體的長度平均值作推算時(shí),我們的推論結(jié)果的不確定性比起用同樣大的樣本對(duì)一個(gè)實(shí)質(zhì)上無限總體的長度平均值進(jìn)行的推論會(huì)更小。至少在這個(gè)案例中,普通感覺

13、判斷為真時(shí),在數(shù)學(xué)上也是正確的。任何時(shí)候只要總體是有限的,我們就可以把有限總體校正系數(shù)代入下面的標(biāo)準(zhǔn)誤差等式中:,案例,設(shè)想在一個(gè)村莊遺址發(fā)掘現(xiàn)場的一個(gè)特定房子內(nèi)發(fā)現(xiàn)了53個(gè)碗口沿殘片,我們從中隨機(jī)選取25個(gè)。我們希望以這25個(gè)殘片的測量值為依據(jù)來推算數(shù)目為53個(gè)的碗口沿殘片總體的平均直徑,并且我們希望在95的置信水平上作出一個(gè)判斷。,平均值14.79cm 樣本的標(biāo)準(zhǔn)差是3.21cm 0.47cm 95置信度 t值2.064 2.064*0.47cm= 0.97cm 14.790.97cm,需要多大樣本?,確定我們希望表述時(shí)所有的置信水平和可以接受的誤差范圍,然后確定需要多大的樣本來達(dá)到這個(gè)目

14、標(biāo)。 在95的置信水平上對(duì)一個(gè)遺址中的陶片厚度進(jìn)行估計(jì),誤差范圍不超過0.5毫米。經(jīng)過對(duì)該地區(qū)的幾個(gè)遺址上收集的陶片厚度的測量,我們發(fā)現(xiàn)陶片樣本的標(biāo)準(zhǔn)差大約在0.9毫米。,n=0.9mm1.960/0.5mm2 =(1.764mm/0.5mm)2 =3.5282 =12.447,帶回一個(gè)13件的陶片樣本,其平均厚度為7.3毫米,標(biāo)準(zhǔn)差為0.9毫米 對(duì)數(shù)量大小為13件的樣本,在12 d.f和95置信度時(shí),t為2.179 殘?zhí)掌钠骄穸仁?.30.5毫米,截尾,修正平均值的估計(jì)能帶來雙倍的回報(bào)它對(duì)數(shù)列中心而言是一個(gè)更靈敏的指數(shù),而且對(duì)平均值估計(jì)的誤差范圍也小得多。,類型數(shù)列與總體比例,在樣本的基

15、礎(chǔ)上,對(duì)總體比例進(jìn)行估計(jì),與根據(jù)樣本平均值來估計(jì)總體平均值非常相似。 由100個(gè)矛頭組成的樣本,我們要分析一下矛頭的制作原材料。經(jīng)檢測,其中有13個(gè)是由黑曜石制作。由于樣本中矛頭的總數(shù)目是100個(gè),那由黑曜石做成的矛頭所占的比例就是13/100或13.0%。 一個(gè)樣本可能會(huì)與作為其來源的總體有一個(gè)不同的平均值;同樣,一個(gè)樣本中,由黑曜石制成的矛頭的比例是13.0%,而樣本選取的總體中,黑曜石矛頭的比例卻不是13.0%,這種情況也是可能的。因此,我們就想把誤差范圍和置信區(qū)間也引入到對(duì)樣本及總體比例的估計(jì)中去,就像總體平均值一樣。,標(biāo)準(zhǔn)差 S0.3363 13.0%3.4% 在置信度為95%的水平

16、上,我們就可以估計(jì):在樣本抽取的總體中,黑曜石矛頭所占比例為13.06.7%(即在6.3%-19.7%之間)。這就意味著,在一個(gè)黑曜石矛頭所占比例小于5.3%或大于19.7%的總體中,抽出一個(gè)象我們這樣的樣本(即:有100個(gè)矛頭,其中有13.0%是由黑曜石制成的)的概率只有5%。,假設(shè)我們對(duì)一個(gè)村落遺址進(jìn)行全面發(fā)掘。這個(gè)村落曾經(jīng)有人居住的時(shí)期相對(duì)較短。我們?cè)谄渲写_定了24個(gè)房屋基址。在這24個(gè)房屋基址中,有17個(gè)保存的程度較好,可以確定其入口的位置。在這17個(gè)房屋中,有6個(gè)房屋的入口是朝南開的。經(jīng)過對(duì)偏差所有可能來源進(jìn)行一一慎重考慮,我們決定將最初建立在遺址上的24所房屋作為一個(gè)總體,把其中保

17、存較好的這17所房屋作為一個(gè)隨機(jī)樣本。于是我們可以估計(jì),在這個(gè)遺址上的房屋中,有6/17(即35.3%)的入口是面向南的。,SE= 0.0625 想達(dá)到90%的置信水平,用這個(gè)標(biāo)準(zhǔn)誤差乘上1.746(根據(jù)表9.1.,置信度為90%和16d.f.時(shí)的t=1.746)得到0.1091,由此我們就可以斷定:在此遺址上的24座房屋中,有35.310.9%(即24.4%-46.2%)的房屋的開口朝南。因?yàn)檫@是一個(gè)有限總體,我們可以將其估計(jì)的比例(以及其后的誤差范圍)轉(zhuǎn)換成房屋的數(shù)目。將總體中房屋的數(shù)目(24)乘上誤差范圍的最低值(24.4%),得5.9座房屋;乘上最高值(46.2%),得11座房屋。于是

18、我們就可以說:在置信度為90%的水平上,這個(gè)遺址上的房屋中,有611座的開口是朝南的。,在這個(gè)案例中,所抽取的樣本以及從中抽取這個(gè)樣本的總體太小了,以至于這些統(tǒng)計(jì)結(jié)果并無多大的實(shí)際意義;因?yàn)楫吘刮覀円呀?jīng)知道,在這個(gè)遺址上有6座房屋的開口是朝南的:就是在這個(gè)樣本中已知開口朝南的房屋有6座。我們還知道,不可能有多于13座的房屋的開口朝南,因?yàn)橹挥?座房屋的開口沒有記錄。如果這7座房子的開口均朝南的話,那加上前面的6座就是13座。倘若我們?cè)缫阎篱_口朝南的房屋的數(shù)目在613之間的話,那我們還說“在置信度90%的水平上,這個(gè)遺址上開口朝南的房子的數(shù)目是611座”這樣的話又意義何在呢?但無論如何,我們已經(jīng)意識(shí)到,這個(gè)樣本小得無法讓我們?cè)诤芨叩闹眯潘缴?,?duì)整個(gè)總體做出一些精確的判斷。即使這是一個(gè)抽樣比例達(dá)到71%的樣本(17/24=71%),但要為了揭示一些我們所想知道的事情的話,這個(gè)樣本還是顯得太小了。在統(tǒng)計(jì)術(shù)語中,不論其在總體中所占的比例如何大,一個(gè)由17個(gè)樣品組成的樣本確實(shí)是一個(gè)非常小的樣本。假如我們處理這樣一個(gè)小樣本的話,就會(huì)有一個(gè)很大的問題:無論我們得出的比例是多少,都有可能與總體中的比例不同。不管我們通過這個(gè)樣本對(duì)其總體做出怎樣的結(jié)論,它都不會(huì)是很精確或確定的,即使這些結(jié)論是我們對(duì)整個(gè)總體所能做

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論