版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)理統(tǒng)計(研究生)全冊配套課件3數(shù)理統(tǒng)計數(shù)理統(tǒng)計統(tǒng)計學(xué)第一章緒論§1-1
什么是數(shù)理統(tǒng)計§1-2數(shù)理統(tǒng)計幾個基本概念§1-3
抽樣分布學(xué)習(xí)目標(biāo)1.理解數(shù)理統(tǒng)計的涵義2.理解了解統(tǒng)計研究對象的特點3.了解統(tǒng)計研究的基本環(huán)節(jié)4.了解統(tǒng)計學(xué)的產(chǎn)生與發(fā)展過程5.重點掌握數(shù)理統(tǒng)計的基本概念與抽樣分布§1-1
什么是數(shù)理統(tǒng)計一、統(tǒng)計(Statistics)的涵義我們先從數(shù)理統(tǒng)計學(xué)開始,數(shù)理統(tǒng)計學(xué)是研究收集數(shù)據(jù)、分析數(shù)據(jù)并據(jù)以對所研究的問題作出一定的結(jié)論的科學(xué)和藝術(shù)。數(shù)理統(tǒng)計學(xué)所考察的數(shù)據(jù)都帶有隨機(jī)性(偶然性)的誤差。這給根據(jù)這種數(shù)據(jù)所作出的結(jié)論帶來了一種不確定性,其量化要借助于概率論的概念和方法。數(shù)理統(tǒng)計學(xué)與概率論這兩個學(xué)科的密切聯(lián)系,正是基于這一點。Statistics:
thescienceofcollecting,analyzing,presenting,andinterpretingdata.(不列顛百科全書)
統(tǒng)計學(xué)起源于收集數(shù)據(jù)的活動,小至個人的事情,大至治理一個國家,都有必要收集種種有關(guān)的數(shù)據(jù),如在我國古代典籍中,就有不少關(guān)于戶口、錢糧、兵役、地震、水災(zāi)和旱災(zāi)等等的記載?,F(xiàn)今各國都設(shè)有統(tǒng)計局或相當(dāng)?shù)臋C(jī)構(gòu)。當(dāng)然,單是收集、記錄數(shù)據(jù)這種活動本身并不能等同于統(tǒng)計學(xué)這門科學(xué)的建立,需要對收集來的數(shù)據(jù)進(jìn)行排比、整理,用精煉和醒目的形式表達(dá),在這個基礎(chǔ)上對所研究的事物進(jìn)行定量或定性估計、描述和解釋,并預(yù)測其在未來可能的發(fā)展?fàn)顩r。例如根據(jù)人口普查或抽樣調(diào)查的資料對我國人口狀況進(jìn)行描述,根據(jù)適當(dāng)?shù)某闃诱{(diào)查結(jié)果,對受教育年限與收入的關(guān)系,對某種生活習(xí)慣與嗜好(如吸煙)與健康的關(guān)系作定量的評估。根據(jù)以往一般時間某項或某些經(jīng)濟(jì)指標(biāo)的變化情況,預(yù)測其在未來一般時間的走向等,做這些事情的理論與方法,才能構(gòu)成一門學(xué)問——數(shù)理統(tǒng)計學(xué)的內(nèi)容。
這樣的統(tǒng)計學(xué)始于何時?恐怕難于找到一個明顯的、大家公認(rèn)的起點。一種受到某些著名學(xué)者支持的觀點認(rèn)為,英國學(xué)者葛朗特在1662年發(fā)表的著作《關(guān)于死亡公報的自然和政治觀察》,標(biāo)志著這門學(xué)科的誕生。中世紀(jì)歐洲流行黑死病,死亡的人不少。自1604年起,倫敦教會每周發(fā)表一次“死亡公報”,記錄該周內(nèi)死亡的人的姓名、年齡、性別、死因。以后還包括該周的出生情況——依據(jù)受洗的人的名單,這基本上可以反映出生的情況。幾十年來,積累了很多資料,葛朗特是第一個對這一龐大的資料加以整理和利用的人,他原是一個小店主的兒子,后來子承父業(yè),靠自學(xué)成才。他因這一部著作被選入當(dāng)年成立的英國皇家學(xué)會,反映學(xué)術(shù)界對他這一著作的承認(rèn)和重視。圖1英國約克大學(xué)葛朗特圖2
帕齊利
這是一本篇幅很小的著作,主要內(nèi)容為8個表,從今天的觀點看,這只是一種例行的數(shù)據(jù)整理工作,但在當(dāng)時則是有原創(chuàng)性的科研成果,其中所提出的一些概念,在某種程度上可以說沿用至今,如數(shù)據(jù)簡約(大量的、雜亂無章的數(shù)據(jù),須注過整理、約化,才能突出其中所包含的信息)、頻率穩(wěn)定性(一定的事件,如“生男”、“生女”,在較長時期中有一個基本穩(wěn)定的比率,這是進(jìn)行統(tǒng)計性推斷的基礎(chǔ))、數(shù)據(jù)糾錯、生命表(反映人群中壽命分布的情況,至今仍是保險與精算的基礎(chǔ)概念)等。
葛朗特的方法被他同時代的政治經(jīng)濟(jì)學(xué)家佩蒂引進(jìn)到社會經(jīng)濟(jì)問題的研究中,他提倡在這類問題的研究中不能尚空談,要讓實際數(shù)據(jù)說話,他的工作總結(jié)在他去世后于1690年出版的《政治算術(shù)》一書中。
圖4:高斯
當(dāng)然,也應(yīng)當(dāng)指出,他們的工作還停留在描述性的階,不是現(xiàn)代意義下的數(shù)理統(tǒng)計學(xué),那時,概率論尚處在萌芽的階段,不足以給數(shù)理統(tǒng)計學(xué)的發(fā)展提供充分的理論支持,但不能由此否定他們工作的重大意義,作為現(xiàn)代數(shù)理統(tǒng)計學(xué)發(fā)展的幾個源頭之一,他們以及后續(xù)學(xué)者在人口、社會、經(jīng)濟(jì)等領(lǐng)域的工作,特別是比利時天文學(xué)家兼統(tǒng)計學(xué)家凱特勒19世紀(jì)的工作,對促成現(xiàn)代數(shù)理統(tǒng)計學(xué)的誕生起了很大的作用。
數(shù)理統(tǒng)計學(xué)的另一個重要源頭來自天文和測地學(xué)中的誤差分析問題。早期,測量工具的精度不高,人們希望通過多次量測獲取更多的數(shù)據(jù),以便得到對量測對象的精度更圖3拉普拉斯
高的估計值。量測誤差有隨機(jī)性,適合于用概率論即統(tǒng)計的方法處理,遠(yuǎn)至伽利略就做過這方面的工作,他對測量誤差的性態(tài)作了一般性的描述,法國大數(shù)學(xué)家拉普拉斯曾對這個問題進(jìn)行了長時間的研究,現(xiàn)今概率論中著名的“拉普拉斯分布”,即是他在這研究中的一個產(chǎn)物,這方面最著名且影響深遠(yuǎn)的研究成果有二:一是法國數(shù)學(xué)家兼天文家勒讓德19世紀(jì)初(1805)在研究慧星軌道計算時發(fā)明的“最小二乘法”,他在估計過巴黎的子午線長這一工作中,曾使用這個方法?,F(xiàn)今著作中把這一方法的發(fā)明歸功于高斯,但高斯使用這一方法最早見諸文字是1809年,比勒讓德晚。一種現(xiàn)在逐步取得公認(rèn)——這項發(fā)明系由二人獨立做出,看來使比較妥當(dāng)?shù)摹A硗庖粋€重要成果是德國大學(xué)者高斯1809年在研究行星繞日運動時提出用正態(tài)分布刻畫測量誤差的分布。正態(tài)分布也常稱為高斯分布,其曲線是鐘形,極象頤和園中玉帶橋那樣的形狀,故有時又稱為“鐘形曲線”,它反映了這樣一種極普通的情況:天下形圖4:高斯圖5:連續(xù)型隨機(jī)變量
天下形形色色的事物中,“兩頭小,中間大”的居多,如人的身高,太高太矮的都不多,而居于中間者占多數(shù)——當(dāng)然,這只是一個極粗略的描述,要作出準(zhǔn)確的描述,須動用高等數(shù)學(xué)的知識。正是其數(shù)學(xué)上的特性成為其廣泛應(yīng)用的根據(jù)。
正態(tài)分布在數(shù)理統(tǒng)計學(xué)中占有極重要的地位,現(xiàn)今仍在常用的許多統(tǒng)計方法,就是建立在“所研究的量具有或近似地具有正態(tài)分布”這個假定的基礎(chǔ)上,而經(jīng)驗和理論(概率論中所謂“中心極限定理”)都表明這個假定的現(xiàn)實性,現(xiàn)實世界許多現(xiàn)象看來是雜亂無章的,如不同的人有不同的身高、體重。大批生產(chǎn)的產(chǎn)品,其質(zhì)量指標(biāo)各有差異??磥砗翢o規(guī)則,但它們在總體上服從正態(tài)分布。這一點,顯示在紛亂中有一種秩序存在,提出正態(tài)分布的高斯,一生在多個領(lǐng)域里面有不少重大的貢獻(xiàn),但在德國10馬克的有高斯圖像的鈔票上,單只畫出了正態(tài)曲線,以此可以看出人們對他這一貢獻(xiàn)評價之高。20世紀(jì)以前數(shù)理統(tǒng)計學(xué)發(fā)展的一個重要成果,是19世紀(jì)后期由英國遺傳學(xué)家兼統(tǒng)計學(xué)家高爾頓發(fā)起,并經(jīng)現(xiàn)代統(tǒng)計學(xué)的奠基人之一K·皮爾遜和其他一些英國學(xué)者所發(fā)展的統(tǒng)計相關(guān)與回歸理論。所謂統(tǒng)計相關(guān),是指一種非決定性的關(guān)系如人的身高X與體重Y,存在一種大致的關(guān)系,表現(xiàn)在X大(?。r,Y也傾向于大(?。菦Q定性的:由X并不能決定Y?,F(xiàn)實生活中和各種科技領(lǐng)域中,這種例子很多,如受教育年限與收入的關(guān)系,經(jīng)濟(jì)發(fā)展水平與人口增長速度的關(guān)系等,都是屬于這種性質(zhì),統(tǒng)計相關(guān)的理論把這種關(guān)系的程度加以量化,而統(tǒng)計回歸則是把有統(tǒng)計相關(guān)的變量,如上文的身高X和體重Y的關(guān)系的形式作近似的估計,稱為回歸方程,現(xiàn)實世界中的現(xiàn)象往往涉及眾多變量,它們之間有錯綜復(fù)雜的關(guān)系,且許多屬于非決定性質(zhì),相關(guān)回歸理論的發(fā)明,提供了一種通過實際觀察去對這種關(guān)系進(jìn)行定量研究的工具,有著重大的認(rèn)識和實用意義。
到20世紀(jì)初年,由于上述幾個方面的發(fā)展,數(shù)理統(tǒng)計學(xué)已積累了很豐富的成果——在此因篇幅關(guān)系,我們不能詳盡無遺地一一列舉有關(guān)的重要成果,如抽樣調(diào)查的理論和方法方面的進(jìn)展,但是直到這時為止,我們還不能說現(xiàn)代意義下的數(shù)理統(tǒng)計學(xué)已經(jīng)建立起來,其主要標(biāo)志之一就是這門學(xué)問還缺乏一個統(tǒng)一的理論框架,這個任務(wù)在20世紀(jì)上半葉得以完成,狹義一點說可界定在1921——1938年,起主要作用的是幾位大師級的人物,特別是英國的費歇爾·K·皮爾遜,發(fā)展統(tǒng)計假設(shè)檢驗理論的奈曼與E·皮爾遜和提出統(tǒng)計決策函數(shù)理論的瓦爾德等。我國已故著名統(tǒng)計學(xué)家許寶(1910——1970)在這項工作中也卓有建樹。
自二戰(zhàn)結(jié)束迄今,數(shù)理統(tǒng)計學(xué)有了迅猛的發(fā)展,主要有以下三方面的原因:一是數(shù)理統(tǒng)計學(xué)理論框架的建立以及概率論和數(shù)學(xué)工具的進(jìn)展,為統(tǒng)計理論在面上和向縱深的發(fā)展打開了門徑和提供了手段,許多在早期比較粗略的理論和方法,在理論上得到了完善與深入,并不斷提出新的論和方法,在理論上得到了完善與深入,并不斷提出新的研究課題;二是實用上的需要,不斷提出了復(fù)雜的問題與模型,吸引了學(xué)者們的研究興趣;三是電子計算機(jī)的發(fā)明與普及應(yīng)用,一方面提供了必要的計算工具——統(tǒng)計方法的實施往往涉及大量數(shù)據(jù)的處理與運算,用人力無法在合理的時間內(nèi)完成,所以在早年,一些統(tǒng)計方法人們雖然知道,但很少付諸實用,就因為是人力所難及。計算機(jī)的出現(xiàn)解決了這個問題。而賦予統(tǒng)計方法以現(xiàn)實的生命力。同時,計算機(jī)對促進(jìn)統(tǒng)計理論研究也有助益,統(tǒng)計模擬是其表現(xiàn)之一,在承認(rèn)上述成就的同時,不少統(tǒng)計學(xué)家也指出這一時期發(fā)展中出現(xiàn)的一些問題或偏向,其中主要的一點是,數(shù)理統(tǒng)計學(xué)理論研究中的“數(shù)學(xué)化”氣味愈來愈重,相當(dāng)一部分研究工作停留在數(shù)學(xué)的層面,早期那種理論研究與現(xiàn)實問題密切結(jié)合的優(yōu)良傳統(tǒng)有所淡化,一些學(xué)者還提出了補(bǔ)救的建議,對未來統(tǒng)計學(xué)發(fā)展的方向進(jìn)行探討。同時,現(xiàn)實問題愈來愈涉及到大量的,結(jié)構(gòu)復(fù)雜的數(shù)據(jù),按現(xiàn)行的數(shù)理統(tǒng)計學(xué)規(guī)范去處理,顯得力所不及,需要一些帶有根本性創(chuàng)新的思路,使統(tǒng)計學(xué)的發(fā)展登上一個新的臺階,以適應(yīng)應(yīng)用上的需要,考慮這一背景,有的統(tǒng)計學(xué)家樂觀地認(rèn)為數(shù)理統(tǒng)計學(xué)正面臨一個新的突破。
在上面講述數(shù)理統(tǒng)計學(xué)的發(fā)展?fàn)顩r時,我們著重在實際需要所起的促進(jìn)作用方面,由于概率論的概念和方法是數(shù)理統(tǒng)計學(xué)的理論基礎(chǔ),概率論的進(jìn)展也必然對數(shù)理統(tǒng)計學(xué)的發(fā)展起促進(jìn)作用。
概率,又稱幾率,或然率,指一種不確定的情況出現(xiàn)可能性的大小,例如,投擲一個硬幣,“出現(xiàn)國徽”(國徽一面朝上)是一個不確定的情況。因為投擲前,我們無法確定所指情況(“出現(xiàn)國徽”)發(fā)生與否,若硬幣是均勻的且投擲有充分的高度,則兩面的出現(xiàn)機(jī)會均等,我們說“出現(xiàn)國徽”的概率是1/2;同時,投擲一個均勻骰子,“出現(xiàn)4點”的概率是1/6,除了這些以及類似的簡單情況外,概率的計算不容易,往往需要一些理論上的假定,在現(xiàn)實生活中則往往用經(jīng)驗的方法確定概率,例如某地區(qū)有N人,查得其中患某種疾病者有M人,則稱該地區(qū)的人患該種疾病的概率為M/N,這事實上是使用統(tǒng)計方法對發(fā)病概率的一個估計。
概率的概念起源于中世紀(jì)以來的歐洲流行的用骰子賭博,這一點不難理解,某種情況出現(xiàn)可能性的大小要能夠體察并引起研究的興趣,必須滿足兩個條件:一是該情況可以在多次重復(fù)中被觀察其發(fā)生與否(在多次重復(fù)下出現(xiàn)較頻繁的情況有更大的概率),一是該情況發(fā)生與否與當(dāng)事人的利益有關(guān)或為其興趣關(guān)注之所在,用骰子賭博滿足這些條件。
當(dāng)時有一個“分賭本問題”曾引起熱烈的討論,并經(jīng)歷了長達(dá)一百多年才得到正確的解決。在這過程中孕育了概率論一些重要的基本概念,舉該問題的一個簡單情況:甲、乙二人賭博,各出賭注30元,共60元,每局甲、乙勝的機(jī)會均等,都是1/2。約定:誰先勝滿3局則他贏得全部賭注60元,現(xiàn)已賭完3局,甲2勝1負(fù),而因故中斷賭情,問這60元賭注該如何分給2人,才算公平,初看覺得應(yīng)按2:1分配,即甲得40元,乙得20元,還有人提出了一些另外的解法,結(jié)果都不正確,正確的分法應(yīng)考慮到如在這基礎(chǔ)上繼續(xù)賭下去,甲、乙最終獲勝的機(jī)會如何,至多再賭2局即可分出勝負(fù),這2局有4種可能結(jié)果:甲甲、甲乙、乙甲、乙乙。前3種情況都是甲最后取勝,只有最后一種情況才是乙取勝,二者之比為3:1,故賭注的公平分配應(yīng)按3:1的比例,即甲得45元,乙15元。
當(dāng)時的一些學(xué)者,如惠更斯、巴斯噶、費爾馬等人,對這類賭情問題進(jìn)行了許多研究,有的出版了著作,如惠更斯的一本著作曾長期在歐洲作為概率論的教科書,這些研究使原始的概率和有關(guān)概念得到發(fā)展和深化。不過,在這個概率論的草創(chuàng)階段,最重要的里程碑是伯努利的著作《推測術(shù)》。在他死后的1713年發(fā)表,這部著作除了總結(jié)前人關(guān)于賭情的概率問題的成果并有所提高外,還有一個極重要的內(nèi)容,即如今以他的名字命名的“大數(shù)律”,大數(shù)律是關(guān)于(算術(shù))平均值的定理,算術(shù)平均值,即若干個數(shù)X1、X2……Xn之和除以n,是最常用的一種統(tǒng)計方法,人們經(jīng)常使用并深信不疑。但其理論根據(jù)何在,并不易講清楚,就是伯努利的大數(shù)律要回答的問題,在某種程度上可以說,這個大數(shù)律是整個概率論最基本的規(guī)律之一,也是數(shù)理統(tǒng)計學(xué)的理論基石。
概率論雖發(fā)端于賭博,但很快在現(xiàn)實生活中找到多方面的應(yīng)用,首先是在人口、保險精算等方面,在其發(fā)展過程中出現(xiàn)了若干里程碑的《機(jī)遇的原理》,其第三版發(fā)表于1756年,法國大數(shù)學(xué)家拉普拉斯的《分析概率論》,發(fā)表于1812年,1933年蘇聯(lián)教學(xué)家柯爾莫哥洛夫完成了概率論的公理體系,在幾條簡潔的公理之下,發(fā)展出概率論整座的宏偉建筑,有如在歐幾里得公理體系之下發(fā)展出整部幾何。自那以來,概率論成長為現(xiàn)代數(shù)學(xué)的一個重要分支,使用了許多深刻和抽象的數(shù)學(xué)理論,在其影響下,數(shù)理統(tǒng)計的理論也日益向深化的方向發(fā)展。中國(1)公元前22世紀(jì)的夏禹王朝,分中國為九州,人口為1355萬人,這是我國最早的土地和人口調(diào)查資料。(2)西周建立了統(tǒng)計報告制度,經(jīng)歷春秋戰(zhàn)國,到秦統(tǒng)一中國,形成了“上計”報告制度。(3)統(tǒng)計被認(rèn)為是治理國家的重要手段,例如,管子“舉事必成,不知計數(shù)不可”,“不明于數(shù)而欲大事,猶無舟楫而欲經(jīng)于水險也?!鼻厣眺眲t指出“強(qiáng)國知十三數(shù)”的主張。(4)封建時代,中國的戶籍和田畝統(tǒng)計都有很大發(fā)展。秦始皇建立編戶制,東漢曾進(jìn)行全國田地測量,唐代計口授田,宋明有田畝魚鱗冊的土地調(diào)查地圖。明代人口普查的“戶帖”和“黃冊”。西方(1)埃及在公元前27世紀(jì),為建金字塔和大型農(nóng)業(yè)灌溉系統(tǒng),進(jìn)行全國人口和財產(chǎn)調(diào)查。(2)公元前15世紀(jì)猶太人為了戰(zhàn)爭對以色列進(jìn)行男丁調(diào)查。(3)《舊約》中記載,公元前10世紀(jì)前后,猶太國王大衛(wèi)和所羅門對全國進(jìn)行比較完整的人口和財產(chǎn)調(diào)查。(4)公元前6世紀(jì),羅馬帝國以國勢調(diào)查作為治理國家的有效手段,規(guī)定每五年一次人口、土地、牲畜、家奴的調(diào)查。(5)進(jìn)入封建社會,統(tǒng)計調(diào)查往往采取財產(chǎn)目錄的形式,例如公元9世紀(jì),法蘭克福國王查理大帝為編制“國庫財產(chǎn)大綱”而進(jìn)行包括人口、土地、收入、農(nóng)產(chǎn)品、畜產(chǎn)品、工業(yè)品的調(diào)查。
11世紀(jì)英國國王威廉為編“最終稅冊”對全國封建主和自由民的土地占有情況和市民財產(chǎn)狀況進(jìn)行調(diào)查。(6)15至18世紀(jì)歐洲封建社會進(jìn)入繁榮時期,統(tǒng)計更作為說明各國國情的工具,出現(xiàn)了許多以報導(dǎo)國情為內(nèi)容統(tǒng)計著作,如英國的“死亡公報”。以上簡單介紹資本主義社會以前的統(tǒng)計活動,多半是結(jié)合賦稅、征兵作中進(jìn)行,為國家統(tǒng)治階級服務(wù)的。隨著資本主義經(jīng)濟(jì)的發(fā)展,特別是現(xiàn)代化大生產(chǎn),對統(tǒng)計提出了新的要求,大大促進(jìn)統(tǒng)計活動和統(tǒng)計科學(xué)的發(fā)展。經(jīng)濟(jì)統(tǒng)計形成了工業(yè)、農(nóng)業(yè)、商業(yè)、交通、郵電、海關(guān)、銀行、保險等等專業(yè)分支。例如,1790年美國舉辦現(xiàn)代意義的人口普查,并按法律規(guī)定每十年舉辦一次;19世紀(jì)初西方各國政府設(shè)立專業(yè)的統(tǒng)計機(jī)構(gòu)。19世紀(jì)末成立國際統(tǒng)計學(xué)會。統(tǒng)計方法也有很大發(fā)展,出現(xiàn)統(tǒng)計學(xué)。二、數(shù)理統(tǒng)計學(xué)的現(xiàn)實意義與作用籠統(tǒng)地說,數(shù)理統(tǒng)計學(xué)的理論和方法,與人類活動的各個領(lǐng)域在不同程度上都有關(guān)聯(lián)。因為各個領(lǐng)域內(nèi)的活動,都得在不同的程度上與數(shù)據(jù)打交道。都有如何收集和分析數(shù)據(jù)的問題,因此也就有數(shù)理統(tǒng)計學(xué)用武之地。我們可以舉幾個例子來說明這一點,如在工業(yè)中生產(chǎn)一種產(chǎn)品,首先有設(shè)計的問題,包括配方和工藝條件的選定,這要通過從大量可能的條件組合中,通過分析試驗結(jié)果來選定,可能的條件組合很多,選擇哪一部分去做試驗是一個很有講究的問題,在數(shù)理統(tǒng)計學(xué)中有一個專門分支叫“試驗設(shè)計”,就是研究怎樣在盡可能少的試驗次數(shù)之下,達(dá)到盡可能高效率的分析結(jié)果;其次,在生產(chǎn)過程中,由于原材料,設(shè)備調(diào)整及工藝參數(shù)等條件可能的變化,而造成生產(chǎn)條件不正常并導(dǎo)致出現(xiàn)廢品,在統(tǒng)計學(xué)中有一門“工序控制”的學(xué)問,通過在生產(chǎn)過程中隨時收集數(shù)據(jù)并用統(tǒng)計方法進(jìn)行處理,可以監(jiān)測出不正常情況的出現(xiàn)以便隨時加以糾正,避免出大的問題;然后,大批量的產(chǎn)品生產(chǎn)出來后,還有一個通過抽樣檢驗以檢驗其質(zhì)量是否達(dá)到要求,是否可以出廠或為買方所接受的問題,處理這個問題也要使用數(shù)理統(tǒng)計方法,在我國現(xiàn)行的國家標(biāo)準(zhǔn)中有一些就與這個問題有關(guān)。
圖1股票分析系統(tǒng)
圖2經(jīng)濟(jì)統(tǒng)計分析
大的問題;然后,大批量的產(chǎn)品生產(chǎn)出來后,還有一個通過抽樣檢驗以檢驗其質(zhì)量是否達(dá)到要求,是否可以出廠或為買方所接受的問題,處理這個問題也要使用數(shù)理統(tǒng)計方法,在我國現(xiàn)行的國家標(biāo)準(zhǔn)中有一些就與這個問題有關(guān)。
在農(nóng)業(yè)上,有關(guān)選種,耕作條件,肥料選擇等一系列的問題的解決,都與統(tǒng)計方法的應(yīng)用有關(guān),在歷史上,現(xiàn)行的一些重要的統(tǒng)計設(shè)計與分析方法,就是近代最偉大的數(shù)理統(tǒng)計學(xué)家費歇爾于上世紀(jì)20年代在英國一個農(nóng)業(yè)試驗站工作時,因研究田間試驗的問題而發(fā)明的。
醫(yī)學(xué)與生物學(xué)是統(tǒng)計方法應(yīng)用最多的領(lǐng)域之一,統(tǒng)計學(xué)是在有變異的數(shù)據(jù)中研究和發(fā)現(xiàn)統(tǒng)計規(guī)律的科學(xué),就醫(yī)學(xué)而言,人體變異是一個重要的因素,不同的人的情況千差萬別,其對一種藥物和治療方法的反應(yīng)也各不相同,因此,對一種藥物和治療方法的評價,是一種統(tǒng)計性規(guī)律的問題,不少國家對一種新藥的上市和一種治療方法的批準(zhǔn),都設(shè)定了很嚴(yán)格的試驗和統(tǒng)計檢驗的要求,又如:許多生活習(xí)慣(如吸煙、飲酒、高鹽飲食之類)對健康的影響,環(huán)境污染對健康的影響,都要通過收集大量數(shù)據(jù)進(jìn)行統(tǒng)計分析來研究。
對社會現(xiàn)象的研究大量地使用統(tǒng)計方法,因為組成社會的單元——人、家庭、單位、地區(qū)等,都有很大的變異性,如果說,在自然現(xiàn)象中還不乏一些(在誤差可以允許的限度內(nèi))嚴(yán)格的、確定性的規(guī)律,在社會現(xiàn)象中這種規(guī)律則絕少,因此只能從統(tǒng)計的角度去考察,我們常說,某某措施,某某政策,對大多數(shù)人是有利的,這就是一種統(tǒng)計性規(guī)律,因為這種“有利”是指對大多數(shù),而非一切人。在20世紀(jì)初,就有統(tǒng)計學(xué)家研究過在英國幾種救助貧困的方式的效果的評估,這都是借助抽樣調(diào)查并通過復(fù)雜的統(tǒng)計分析得出的結(jié)果,如今,抽樣調(diào)查已經(jīng)成為研究社會現(xiàn)象的一種最有力的工具,因為全面調(diào)查往往不可行,而抽樣調(diào)查,從其方案的制定到數(shù)據(jù)的分析,都是以數(shù)理統(tǒng)計學(xué)的理論和方法為基礎(chǔ)。三、統(tǒng)計學(xué)發(fā)展前景展望
這個問題在前面第一個問題中曾涉及一點?,F(xiàn)在再簡單的補(bǔ)充幾句,前面曾提到,20世紀(jì)下半葉以來,由于人們對當(dāng)時數(shù)理統(tǒng)計學(xué)發(fā)展中某些偏向進(jìn)行反思,統(tǒng)計學(xué)界就不時地討論到“統(tǒng)計學(xué)未來發(fā)展方向”這個問題,自20世紀(jì)70年代以來國際上有過一系列以此為主題或涉及此主題的學(xué)術(shù)會議,臨近上世紀(jì)末,更有若干知名的統(tǒng)計學(xué)者撰文討論這個問題,當(dāng)今的情況是:對某些一般的原則性的問題有普遍的共識,但對未來統(tǒng)計學(xué)將向那個方向發(fā)展或應(yīng)當(dāng)向那個方向發(fā)展這個問題,則不能說已有了廣泛一致的看法和意見,下面只就幾個比較有影響的觀點來談?wù)劇?/p>
一個大家都同意的原則是,數(shù)理統(tǒng)計學(xué)的發(fā)展,應(yīng)當(dāng)繼承和發(fā)揚早期那種與實際密切結(jié)合的優(yōu)良傳統(tǒng),這不是否定理論研究的作用,而是提倡,理論研究的成果應(yīng)當(dāng)對分析實際數(shù)據(jù)有用,美國老一輩著名統(tǒng)計學(xué)家圖基早在1960年代就提出,對于那種于分析數(shù)據(jù)無用的研究成果,其意義僅限于從純數(shù)學(xué)的角度去評價。
另一種得到比較廣泛認(rèn)同的觀點,是認(rèn)同統(tǒng)計學(xué)研究應(yīng)努力與其他實用學(xué)科結(jié)合而形成交叉或邊緣學(xué)科,這一點目前已有一定的表現(xiàn),如生物統(tǒng)計、醫(yī)藥統(tǒng)計、工業(yè)統(tǒng)計、金融統(tǒng)計等,都是當(dāng)前發(fā)展很快的熱點,有的學(xué)者認(rèn)為研究數(shù)理統(tǒng)計學(xué)必須與另一門專門學(xué)問結(jié)合,才有可能做出有重要意義的成果。這一點已在若干成功的學(xué)者身上得到印證,有個別走得更遠(yuǎn)的學(xué)者認(rèn)為,統(tǒng)一的統(tǒng)計學(xué)將會因為與其他學(xué)科結(jié)合發(fā)展而分裂成許多并行的學(xué)科,好比一個大國分裂成一些小國,并把這稱為統(tǒng)計學(xué)的巴爾干化——與昔日巴爾干半島上統(tǒng)一的南斯拉夫如今分裂為一些小國相比。但是,數(shù)理統(tǒng)計學(xué)與其他學(xué)科結(jié)合形成交叉學(xué)科這個引人注目的發(fā)展,是否將導(dǎo)致“統(tǒng)一的”或“一般的”統(tǒng)計學(xué)的消亡或衰落,這一點現(xiàn)在看來并不確定,至少多數(shù)學(xué)者現(xiàn)在還不這么認(rèn)為。
圖基在1962年在一篇長文中提出“數(shù)據(jù)分析”的思想,幾十年來得到國際上一些有影響的學(xué)者的支持,要全面講清楚這種觀點需要較多的篇幅,這里只就其一個核心的觀點來討論一下,這涉及到對現(xiàn)行的數(shù)理統(tǒng)計規(guī)范的地位問題,前面我們曾談到,由于統(tǒng)計學(xué)處理的是帶隨機(jī)誤差的數(shù)所,由分析這種數(shù)數(shù)據(jù),得出的結(jié)論就有可能出錯或不準(zhǔn)確,出錯的可能性的大小,不準(zhǔn)確的程度如何,需要用概率論的概念和方法作定量的刻畫,在研究統(tǒng)計問題時,必須把這作為一個目標(biāo),朝這個方向努力,這就是現(xiàn)行數(shù)理統(tǒng)計學(xué)的規(guī)范。數(shù)理統(tǒng)計學(xué)之所以能被承認(rèn)為一門有嚴(yán)格理論基礎(chǔ)的學(xué)科,是與遵守這一規(guī)范聯(lián)系在一起的。但是,如果我們真的嚴(yán)格遵守這一規(guī)范,則以現(xiàn)在我們的知識水平而言,許多問題將無法下手。于是,學(xué)者們只好轉(zhuǎn)向一些人為的、不太復(fù)雜的、用現(xiàn)行數(shù)學(xué)工具可以處理的模型,這種模型往往有“閉門造車”的缺點而缺乏現(xiàn)實性,圖基的“數(shù)據(jù)分析”思想的一個觀點是,主張淡化這個規(guī)范。
這種說法有一定的事實根據(jù),可以說,在實用統(tǒng)計學(xué)的領(lǐng)域中,這個規(guī)范并不總是得到嚴(yán)格遵守的,現(xiàn)在我們有一些統(tǒng)計方法,它用起來有較好的效果,但在理論上并沒有搞清楚其錯誤或偏差的可能性或數(shù)量有多大;另外,隨著科技的發(fā)展,不斷提出一些更復(fù)雜的模型,以我們現(xiàn)有的知識水平,沒有可能對之作出完全符合上述規(guī)范的處理,而只能退而求其次,尋求一種在實用上可行的解法,當(dāng)然,應(yīng)當(dāng)明確,在研究工作中達(dá)不到上述規(guī)范,與從根本上取消或淡化這個規(guī)范是兩回事,一門學(xué)科必須有其規(guī)范或科學(xué)的定位(回答這門學(xué)科是什么的問題,判定其成果的可信性與意義等等,而這不能用籠統(tǒng)的說法,必須用確切的科學(xué)語言)。如果用數(shù)據(jù)分析取代現(xiàn)行的數(shù)理統(tǒng)計學(xué),就有一個為數(shù)據(jù)分析定位的問題,而這至今還沒有一個滿意的解決,以此之故,雖然數(shù)據(jù)分析的提法獲得不少支持且在實際的統(tǒng)計應(yīng)用中有所反映(例如現(xiàn)在媒體中常提及的“數(shù)據(jù)挖掘”DataMining)。雖然,數(shù)據(jù)挖掘并不單純是一個統(tǒng)計學(xué)課題,它至今尚未能動搖現(xiàn)行數(shù)理統(tǒng)計學(xué)的主流地位。
除了上述幾種富于原則性的思想外,也有一部分學(xué)者致力于在現(xiàn)行統(tǒng)計學(xué)的框架下尋求新的生長點,在這方面也有不少的討論或爭論,如關(guān)于費歇爾的統(tǒng)計學(xué)思想和研究成果的再認(rèn)識,關(guān)于數(shù)理統(tǒng)計學(xué)中的“頻率學(xué)派”與“貝葉斯學(xué)派”之間的爭論等,因涉及較多的數(shù)學(xué)概念,不能在此細(xì)談了。
我個人認(rèn)為,由于統(tǒng)計學(xué)是一門有廣泛應(yīng)用的學(xué)科,應(yīng)用問題的多面性,要求不拘一格的處理方法,應(yīng)用效果的多目標(biāo)性以及統(tǒng)計問題的“不完全信息”的性質(zhì)(指數(shù)據(jù)并未包含與問題有關(guān)的完整信息),也決定了統(tǒng)計方法的發(fā)展不致受某一種思想所支配,因此,至少在可以預(yù)見的將來,統(tǒng)計學(xué)的進(jìn)展將是一種“多元”的局面,不會出現(xiàn)某種趨勢占絕對優(yōu)勢的情況。三、統(tǒng)計研究的基本環(huán)節(jié)統(tǒng)計設(shè)計收集數(shù)據(jù)整理與分析資料積累開發(fā)應(yīng)用統(tǒng)計學(xué)理論與相關(guān)實質(zhì)性學(xué)科理論統(tǒng)計調(diào)查、實驗描述統(tǒng)計推斷統(tǒng)計
——
對隨機(jī)現(xiàn)象進(jìn)行觀測、試驗,以取得有代表性的觀測值
——
對已取得的觀測值進(jìn)行整理、分析,作出推斷、決策,從而找出所研究的對象的規(guī)律性數(shù)理統(tǒng)計的分類描述統(tǒng)計學(xué)推斷統(tǒng)計學(xué)四、數(shù)理統(tǒng)計的分類數(shù)參估計(第二章)假設(shè)檢驗(第三章)回歸分析(第四章)方差分析(第五章)
推斷統(tǒng)計學(xué)正交分析(第六章)總體——
研究對象全體元素組成的集合所研究的對象的某個(或某些)數(shù)量指標(biāo)的全體,它是一個隨機(jī)變量(或多維隨機(jī)變量).記為X
.
X
的分布函數(shù)和數(shù)字特征稱為總體的分布函數(shù)和數(shù)字特征.總體和樣本§1.2數(shù)理統(tǒng)計基本概念樣本
——
從總體中抽取的部分個體.稱為總體X的一個容量為n的樣本觀測值,或稱樣本的一個實現(xiàn).用表示,n為樣本容量.樣本空間——
樣本所有可能取值的集合.
個體
——
組成總體的每一個元素即總體的每個數(shù)量指標(biāo),可看作隨機(jī)變量X
的某個取值.用表示.若總體
X的樣本滿足:一般,對有限總體,放回抽樣所得到的樣本為簡單隨機(jī)樣本,但使用不方便,常用不放回抽樣代替.而代替的條件是(1)與X
有相同的分布(2)相互獨立則稱為簡單隨機(jī)樣本.簡單隨機(jī)樣本N/n
10.總體中個體總數(shù)樣本容量設(shè)總體X
的分布函數(shù)為F(x),則樣本若總體X
的密
d.f.為
f(
x),則樣本的聯(lián)合d.f.為的聯(lián)合分布函數(shù)為例如:X1,X2,…,Xn為取自總體N(0,1)的樣本,則其聯(lián)合密度函數(shù)
例如設(shè)某批產(chǎn)品共有N
個,其中的次品數(shù)為M,其次品率為若
p是未知的,則可用抽樣方法來估計它.X
服從參數(shù)為p的0-1分布,可用如下表示方法:從這批產(chǎn)品中任取一個產(chǎn)品,用隨機(jī)變量X來描述它是否是次品:設(shè)有放回地抽取一個容量為n
的樣本的聯(lián)合分布為其樣本值為樣本空間為若抽樣是無放回的,則前次抽取的結(jié)果會影響后面抽取的結(jié)果.例如所以,當(dāng)樣本容量n
與總體中個體數(shù)目N
相比很小時,可將無放回抽樣近似地看作放回抽樣.
例1(P147)隨機(jī)地觀測總體X得8個數(shù)據(jù):2.5,3,2.5,3.5,3,2.7,2.5,2,試求X的一個經(jīng)驗分布函數(shù)。解2<2.5=2.5=2.5<2.7<3=3<3.5經(jīng)驗分布函數(shù)
例1
隨機(jī)地觀測總體X得8個數(shù)據(jù):2.5,3,2.5,3.5,3,2.7,2.5,2,試求X的一個經(jīng)驗分布函數(shù)。解2<2.5=2.5=2.5<2.7<3=3<3.5XP22.52.733.51/83/81/82/81/8一般Fn(x)對應(yīng)分布列:P(X=xi)=1/n,i=1,2,...,n隨機(jī)模擬顯示格列汶科定理右連續(xù)設(shè)是取自總體X的一個樣本,為一實值連續(xù)函數(shù),且不含有未知參數(shù),則稱隨機(jī)變量為統(tǒng)計量.若是一個樣本值,稱的一個樣本值為統(tǒng)計量定義統(tǒng)計量例
是未知參數(shù),若
,
已知,則為統(tǒng)計量是一樣本,是統(tǒng)計量,其中則但不是統(tǒng)計量.常用的統(tǒng)計量為樣本均值為樣本方差為樣本標(biāo)準(zhǔn)差設(shè)是來自總體
X
的容量為
n
的樣本,稱統(tǒng)計量為樣本的k階原點矩為樣本的k
階中心矩例如(5)順序統(tǒng)計量與極差設(shè)為樣本,為樣本值,且當(dāng)取值為時,定義r.v.則稱統(tǒng)計量為順序統(tǒng)計量.其中,稱為極差注樣本方差與樣本二階中心矩的不同故推導(dǎo)關(guān)系式1)推導(dǎo)
設(shè)則2)例1
從一批機(jī)器零件毛坯中隨機(jī)地抽取10件,測得其重量為(單位:公斤):
210,243,185,240,215,228,196,235,200,199求這組樣本值的均值、方差、二階原點矩與二階中心矩.解令例1則例2
在總體中,隨機(jī)抽取一個容量為36的樣本,求樣本均值落在50.8到53.8之間的概率.解故例2例3
設(shè)總體X的概率密度函數(shù)為為總體的樣本,求(1)的數(shù)學(xué)期望與方差(2)
(3)
解(1)例3(3)由中心極限定理(2)主講:胡曉山數(shù)理統(tǒng)計數(shù)理統(tǒng)計統(tǒng)計學(xué)華中科技大學(xué)數(shù)學(xué)系
確定統(tǒng)計量的分布是數(shù)理統(tǒng)計的基本問題之一
正態(tài)總體是最常見的總體,本節(jié)介紹的幾個抽樣分布均對正態(tài)總體而言.§6.2抽樣分布§6.2(1)
正態(tài)分布則特別地,則統(tǒng)計中常用分布若i.i.d.~若~標(biāo)準(zhǔn)正態(tài)分布的
分位數(shù)分布的上
分位數(shù).定義正態(tài)分布的雙側(cè)
分位數(shù).若,則稱為標(biāo)準(zhǔn)若則稱標(biāo)準(zhǔn)正態(tài)分布的
分位數(shù)圖形z
?
常用數(shù)字/2
-z/2=z1-/2/2
z/2?-z/2?(2)分布(n為自由度)定義設(shè)相互獨立,且都服從標(biāo)準(zhǔn)正態(tài)分布N(0,1),則n=1
時,其密度函數(shù)為卡分布n=2
時,其密度函數(shù)為為參數(shù)為1/2的指數(shù)分布.一般其中,在x>0時收斂,稱為
函數(shù),具有性質(zhì)的密度函數(shù)為自由度為
n的n=2n=3n=5n=10n=15
例如
分布的性質(zhì)
20.05(10)?n=10性質(zhì)性質(zhì)性質(zhì)性質(zhì)相互獨立,證
1
設(shè)則由此可見,卡方分布不僅僅可由正太分布導(dǎo)入,可由指數(shù)分布導(dǎo)入,例如,若又若則于是若(3)t
分布
(Student分布)定義則稱T服從自由度為n
的T分布.其密度函數(shù)為X,Y相互獨立,設(shè)t
分布t分布的圖形(紅色的是標(biāo)準(zhǔn)正態(tài)分布)n=1n=20t分布的性質(zhì)1°fn(t)是偶函數(shù),2°T分布的上
分位數(shù)t
與雙測
分位數(shù)t/2
均
有表可查.性質(zhì)n=10t
-t
??
t
/2-t
/2??
/2
/2當(dāng)n>45時,有t
(n)=u
(4)
F分布則稱F服從為第一自由度為n
,第二自由度為m的F
分布.
其密度函數(shù)為定義X,Y相互獨立,設(shè)令F分布m=10,n=4m=10,n=10m=10,n=15m=4,n=10m=10,n=10m=15,n=10F分布的性質(zhì)例如事實上,故求F
(n,m)?
性質(zhì)例1
證明證例1證例2
證明:設(shè)令例2
抽樣分布的某些結(jié)論(Ⅰ)
一個正態(tài)總體與相互獨立設(shè)總體,樣本為(),(1)(2)結(jié)論(II)
兩個正態(tài)總體相互獨立的簡單隨機(jī)樣本.令設(shè)與分別是來自正態(tài)總體與的則若則(3)則相互獨立的簡單隨機(jī)樣本.設(shè)與分別是來自正態(tài)總體與的與相互獨立(4)的概率不小于90%,則樣本容量至少取多少?例3設(shè),為使樣本均值大于70解設(shè)樣本容量為
n
,則故令得即所以取例3例4
從正態(tài)總體中,抽取了
n=20的樣本(1)求(2)求解
(1)即例4故(P.386)(2)故例5
設(shè)r.v.X與Y相互獨立,X~N(0,16),
Y~N(0,9),X1,X2,…,X9
與Y1,Y2,…,Y16
分別是取自X與Y的簡單隨機(jī)樣本,求統(tǒng)計量所服從的分布.解例5從而例6
設(shè)總體
的樣本,為總體
X
試確定常數(shù)c,
使cY服從分布.解故因此例6例7
設(shè)
是來自N(,2)的簡單隨機(jī)樣本,
是樣本均值,則服從自由度為n-1的t分布的隨機(jī)變量為例7故應(yīng)選(B)解作業(yè)P.202習(xí)題六
910補(bǔ)充作業(yè)其樣本均值為求統(tǒng)計量1.設(shè)為從正態(tài)總體
X~N(
,
2)中抽取的簡單隨機(jī)樣本的數(shù)學(xué)期望E(Y).習(xí)題(轉(zhuǎn)后頁)
是來自正態(tài)總體的容量為
n
的兩個樣本均值,且兩樣本相互獨立,試確定n,使兩樣本均值之差的絕對值超過的概率大約為0.01.每周一題13
第十三周
問題
某水產(chǎn)養(yǎng)殖場兩年前在人工湖中混養(yǎng)了黑、白兩種魚.現(xiàn)在需要對黑白魚數(shù)目的比例進(jìn)行估計.提示:分別用矩法與極大似然估計法解決此問題.如何估計湖中黑、白魚的比例第二章
參數(shù)估計7-1第七章參數(shù)估計問題假設(shè)檢驗問題點估計區(qū)間估計統(tǒng)計推斷
DE基本問題7-2什么是參數(shù)估計?參數(shù)是刻畫總體某方面概率特性的數(shù)量.當(dāng)此數(shù)量未知時,從總體抽出一個樣本,用某種方法對這個未知參數(shù)進(jìn)行估計就是參數(shù)估計.例如,X~N(,2),點估計區(qū)間估計若,2未知,通過構(gòu)造樣本的函數(shù),給出它們的估計值或取值范圍就是參數(shù)估計的內(nèi)容.參數(shù)估計的類型點估計——估計未知參數(shù)的值區(qū)間估計——估計未知參數(shù)的取值范圍,并使此范圍包含未知參數(shù)真值的概率為給定的值.§2.1點估計方法點估計的思想方法設(shè)總體X的分布函數(shù)的形式已知,但含有一個或多個未知參數(shù):
1,
2,,
k設(shè)
X1,X2,…,Xn為總體的一個樣本構(gòu)造k個統(tǒng)計量:隨機(jī)變量7-5§7.1當(dāng)測得樣本值(x1,x2,…,xn)時,代入上述方程組,即可得到k個數(shù):數(shù)值稱數(shù)為未知參數(shù)的估計值7-6對應(yīng)統(tǒng)計量為未知參數(shù)的估計量并建立k個方程。三種常用的點估計方法頻率替換法利用事件A
在n
次試驗中發(fā)生的頻率作為事件A
發(fā)生的概率p
的估計量7-7法一例1
設(shè)總體X~N(,2
),在對其作28次獨立觀察中,事件“X<4”出現(xiàn)了21次,試用頻率替換法求參數(shù)
的估計值.解
由查表得于是
的估計值為7-8例1方法用樣本
k
階矩作為總體
k
階矩的估計量,建立含有待估參數(shù)的方程,從而解出待估參數(shù)7-9一般,不論總體服從什么分布,總體期望
與方差
2存在,則它們的矩估計量分別為矩法法二7-10事實上,按矩法原理,令7-11設(shè)待估計的參數(shù)為設(shè)總體的
r
階矩存在,記為樣本X1,X2,…,Xn的r階矩為令——含未知參數(shù)
1,
2,,
k的方程組7-12解方程組,得k
個統(tǒng)計量:未知參數(shù)
1,,
k
的矩估計量代入一組樣本值得k個數(shù):未知參數(shù)
1,,
k
的矩估計值例2設(shè)總體X~N(,2),X1,X2,…,Xn為總體的樣本,求,2的矩法估計量.解例3設(shè)總體X~E(
),X1,X2,…,Xn為總體的樣本,求
的矩法估計量.解令7-13故例2~3例4設(shè)從某燈泡廠某天生產(chǎn)的燈泡中隨機(jī)抽取10只燈泡,測得其壽命為(單位:小時)1050,1100,1080,1120,12001250,1040,1130,1300,1200試用矩法估計該廠這天生產(chǎn)的燈泡的平均壽命及壽命分布的方差.解7-14例4例5設(shè)總體X~U(a,b),a,b未知,求參數(shù)
a,b
的矩法估計量.解由于令7-15例5解得7-16極大似然估計法思想方法:一次試驗就出現(xiàn)的事件有較大的概率例如:有兩外形相同的箱子,各裝100個球一箱99個白球1個紅球一箱1個白球99個紅球現(xiàn)從兩箱中任取一箱,并從箱中任取一球,結(jié)果所取得的球是白球.答:第一箱.7-17問:所取的球來自哪一箱?法三例6設(shè)總體X服從0-1分布,且P(X=1)=p,
用極大似然法求
p
的估計值.解總體X的概率分布為設(shè)x1,x2,…,xn為總體樣本X1,X2,…,Xn的樣本值,則7-18例6對于不同的p,L(p)不同,見右下圖現(xiàn)經(jīng)過一次試驗,發(fā)生了,事件則
p
的取值應(yīng)使這個事件發(fā)生的概率最大.7-19在容許范圍內(nèi)選擇
p,使L(p)最大注意到,lnL(p)是L的單調(diào)增函數(shù),故若某個p
使lnL(p)最大,則這個p必使L(p)最大。7-20所以為所求p的估計值.一般,設(shè)X為離散型隨機(jī)變量,其分布律為則樣本X1,X2,…,Xn的概率分布為7-21或稱L()為樣本的似然函數(shù)稱這樣得到的為參數(shù)
的極大似然估計值稱統(tǒng)計量為參數(shù)
的極大似然估計量7-22
MLE簡記
mle簡記選擇適當(dāng)?shù)?,使取最大值,即L()極大似然法的思想若X
連續(xù),取f(xi,
)為Xi
的密度函數(shù)似然函數(shù)為7-23注1注2未知參數(shù)可以不止一個,如
1,…,
k
設(shè)X
的密度(或分布)為則定義似然函數(shù)為若關(guān)于
1,…,
k可微,則稱為似然方程組若對于某組給定的樣本值x1,x2,…,xn,參數(shù)使似然函數(shù)取得最大值,即則稱為
1,…,
k
的極大似然估計值7-24顯然,稱統(tǒng)計量為
1,
2,…,
k
的極大似然估計量7-25例7設(shè)總體X~N(
,
2),x1,x2,…,xn是
X
的樣本值,求
,
2的極大似然估計.解7-26例7
,
2的極大似然估計量分別為似然方程組為7-27極大似然估計方法1)寫出似然函數(shù)L2)求出,使得7-28可得未知參數(shù)的極大似然估計值然后,再求得極大似然估計量.7-29L是的可微函數(shù),解似然方程組若
L不是的可微函數(shù),需用其它方法求極大似然估計值.請看下例:若例8設(shè)X~U(a,b),x1,x2,…,xn是
X
的一個樣本值,求
a,b的極大似然估計值與極大似然估計量.解X的密度函數(shù)為似然函數(shù)為7-30例8似然函數(shù)只有當(dāng)a<xi<b,i=1,2,…,n時才能獲得最大值,且a越大,b越小,L越大.令xmin=min{x1,x2,…,xn}xmax=max{x1,x2,…,xn}取則對滿足的一切a<b,7-31都有故是a,b的極大似然估計值.分別是a,b的極大似然估計量.7-32問題1)待估參數(shù)的極大似然估計是否一定存在?2)若存在,是否惟一?設(shè)X~U(a–?,a+?),x1,x2,…,xn是
X的一個樣本,求
a的極大似然估計值.解由上例可知,當(dāng)時,L
取最大值1,即顯然,a
的極大似然估計值可能不存在,也可能不惟一.7-33例9例9不僅如此,任何一個統(tǒng)計量若滿足都可以作為
a
的估計量.7-34極大似然估計的不變性設(shè)是
的極大似然估計值,u(
)(
)是
的函數(shù),且有單值反函數(shù)=(u),uU則是u(
)的極大似然估計值.7-35不變性如在正態(tài)總體N(
,
2)中,
2的極大似然估計值為是
2的單值函數(shù),且具有單值反函數(shù),故
的極大似然估計值為lg
的極大似然估計值為7-36§2.2點估計的評價標(biāo)準(zhǔn)
對于同一個未知參數(shù),不同的方法得到的估計量可能不同,于是提出問題應(yīng)該選用哪一種估計量?用何標(biāo)準(zhǔn)來評價一個估計量的好壞?常用標(biāo)準(zhǔn)(1)無偏性(3)一致性(相合性)(2)有效性§7.2若則稱是
的無偏估計量.
無偏性無偏定義我們不可能要求每一次由樣本得到的估計值與真值都相等,但可以要求這些估計值的期望與真值相等.定義的合理性是總體X的樣本,證明:不論
X服從什么分布(但期望存在),是的無偏估計量.證例1
設(shè)總體X的
k
階矩存在因而由于例1則特別地樣本二階原點矩
是總體是總體期望E(X)的樣本均值無偏估計量的無偏二階原點矩估計量例2
設(shè)總體
X
的期望與方差存在,
X的樣本為
(n>1).(1)不是D(X)的無偏估量;(2)是D(X)的無偏估計量.證前已證證明例2例3
設(shè)是總體X的一個樣本
,X~B(n
,p)n>1,求p2
的無偏估計量.
解由于樣本矩是總體矩的無偏估計量以及數(shù)學(xué)期望的線性性質(zhì),只要將未知參數(shù)表示成總體矩的線性函數(shù),然后用樣本矩作為總體矩的估計量,這樣得到的未知參數(shù)的估計量即為無偏估計量.令例3因此,p2
的無偏估計量為故例4
設(shè)是總體X的一個樣本
,X~P()n>1,求2
的無偏估計量.
解令例3例4
設(shè)總體X
的密度函數(shù)為為常數(shù)為X
的一個樣本證明與都是的無偏估計量證
故是
的無偏估計量.例4令即故nZ是
的無偏估計量.都是總體參數(shù)
的無偏估計量,且則稱比更有效.定義
設(shè)有效性有效所以,比更有效.是
的無偏估計量,問哪個估計量更有效?由例4可知,與都為常數(shù)例5
設(shè)總體X
的密度函數(shù)為解
,例5例6
設(shè)總體X,且
E(X)=,
D(X)=
2
為總體X
的一個樣本證明是
的無偏估計量(2)證明比更有效證
(1)
例6(1)設(shè)常數(shù)(2)
結(jié)論算術(shù)均值比加權(quán)均值更有效.例如
X~N(
,
2
),(X1
,X2)是一樣本.都是
的無偏估計量由例6(2)
知最有效.羅—克拉美(Rao–Cramer)不等式若是參數(shù)
的無偏估計量,則其中f
(x,
)是總體
X的概率分布或密度函數(shù),稱為方差的下界.當(dāng)時,稱為達(dá)到方差下界的無偏估計量,此時稱為最有效的估計量,簡稱有效估計量.例7
設(shè)總體X
的密度函數(shù)為為X
的一個樣本值.求
的極大似然估計量,并判斷它是否達(dá)到方差下界的無偏估計量.為常數(shù)解由似然函數(shù)例7
的極大似然估計量為它是
的無偏估計量.而故是達(dá)到方差下界的無偏估計量.例2
設(shè)總體X~N(,2),X1,X2,…,Xn為總體的樣本,證明分別是
,2的解7-13例2~3定義
設(shè)是總體參數(shù)
則稱是總體參數(shù)
的一致(或相合)估計量.的估計量.若對于任意的
,
當(dāng)n
時,一致性依概率收斂于
,即一致性估計量僅在樣本容量
n足夠大時,才顯示其優(yōu)越性.一致解:關(guān)于一致性的兩個常用結(jié)論1.樣本k階矩是總體k
階矩的一致性估計量.
是
的一致估計量.由大數(shù)定律證明用切貝雪夫不等式證明矩法得到的估計量一般為一致估計量在一定條件下,極大似然估計具有一致性2.設(shè)是
的無偏估計量,且,則例8為常數(shù)則是
的無偏、有效、一致估計量.證
由例7知是
的無偏、有效估計量.所以是
的一致估計量,證畢.例8作業(yè)P.231習(xí)題七161820習(xí)題補(bǔ)充題設(shè)總體X~N(,2),為X
的一個樣本,常數(shù)k
取何值可使為
的無偏估計量
第十四周
問題母親嗜酒是否影響下一代的健康
美國的Jones醫(yī)生于1974年觀察了母親在妊娠時曾患慢性酒精中毒的6名七歲兒童(稱為甲組).以母親的年齡,文化程度及婚姻狀況與前6名兒童的母親相同或相近,但不飲酒的46名七歲兒童為對照租(稱為乙組).測定兩組兒童的智商,結(jié)果如下:每周一題14甲組67819乙組469916人數(shù)智商平均數(shù)樣本標(biāo)準(zhǔn)差智商組別
由此結(jié)果推斷母親嗜酒是否影響下一代的智力?若有影響,推斷其影響程度有多大?提示
前一問題屬假設(shè)檢驗問題后一問題屬區(qū)間估計問題作業(yè)P.231習(xí)題七161820習(xí)題補(bǔ)充題設(shè)總體X~N(,2),為X
的一個樣本,常數(shù)k
取何值可使為
的無偏估計量統(tǒng)計抽樣主要研究什么內(nèi)容,解決什么問題?統(tǒng)計抽樣主要有哪幾種方法?如何確定樣本容量?7.1統(tǒng)計抽樣基本概念總體由研究對象的全體所組成。樣本是總體中的部分元素所組成的集合。目標(biāo)總體是我們要推斷的總體抽樣總體是實際抽取樣本的總體 在抽樣之前,應(yīng)將總體劃分為抽樣單位。抽樣單位既可以是一個簡單的個體,也可以是一組個體。 對某一個特殊研究,抽樣單位的名冊稱為抽樣框。7.1統(tǒng)計抽樣基本概念調(diào)查方法郵寄調(diào)查電話調(diào)查個人采訪調(diào)查7.2抽樣調(diào)查種類和抽樣方法調(diào)查誤差非抽樣誤差抽樣誤差由于沒有對總體的所有單位進(jìn)行調(diào)查而產(chǎn)生的誤差進(jìn)行一次抽樣調(diào)查可能出現(xiàn)的如測量誤差、采訪者誤差及數(shù)據(jù)處理誤差等。
7.3調(diào)查誤差 從一個容量為N的有限總體中抽取得到一個容量為n的簡單隨機(jī)樣本,使每一個容量為n的可能樣本,都有相同的概率被抽中。建立抽樣框根據(jù)隨機(jī)數(shù)表進(jìn)行抽樣抽樣總體中所有個體的名冊使用隨機(jī)數(shù)表,可以保證抽樣總體中的每個個體都有相同的概率被抽中
7.4簡單隨機(jī)抽樣總體均值總體比率樣本容量的確定7.4簡單隨機(jī)抽樣
如果選擇大樣本(n≥30),則中心極限定理可以保證的抽樣分布近似服從正態(tài)概率分布,μ的區(qū)間估計為
式中,為均值的標(biāo)準(zhǔn)差。1-α稱為置信度,為與之對應(yīng)的臨界值。例如,若置信度為95%,則。7.4.1總體均值 當(dāng)從一個容量為N的有限總體中,抽取一個容量為n的簡單隨機(jī)樣本時,均值的標(biāo)準(zhǔn)差的估計值為
此時總體均值的區(qū)間估計為 在抽樣調(diào)查中,當(dāng)構(gòu)造置信區(qū)間時,通常取μ=2。因此,在使用簡單隨機(jī)樣本時,總體均值的近似95%的置信區(qū)間的表達(dá)式為:7.4.1總體均值[例7.1]《攝影》是一本推介攝影作品、報道攝影發(fā)展?fàn)顩r、介紹攝影器材的雜志,它目前擁有8000個訂戶。根據(jù)一個484個訂戶的簡單隨機(jī)樣本,得出訂戶的年平均收入為30500元,標(biāo)準(zhǔn)差為7040元。因此,所有訂戶的年平均收入的無偏估計為元。 因此,這本雜志訂戶的年平均收入的近似95%的置信區(qū)間為 即(29880,31120)。7.4.1總體均值 上述過程也可用于對諸如總體總量或總體比率等其他總體參數(shù)的區(qū)間估計。對點估計的抽樣分布近似服從正態(tài)概率分布的所有情形,其近似95%的置信區(qū)間為 例如,在《攝影》的抽樣調(diào)查中,點估計量的標(biāo)準(zhǔn)誤差的估計值為,允許誤差為2×310元=620元。7.4.1總體均值
總體比率p是總體中具有某些感興趣特征的個體的比重。[例7.2]在市場調(diào)查研究中,人們想了解喜歡某一品牌的消費者比重。樣本比率是總體比率的無偏點估計??傮w比率的標(biāo)準(zhǔn)差的估計值為 因此, 總體比率的近似95%的置信區(qū)間的表達(dá)式如下:
7.4.2總體比率 例如,在大宇國際咨詢公司的抽樣調(diào)查中,大宇國際咨詢公司也想估計在它服務(wù)范圍內(nèi)的500所學(xué)校中,使用天然氣作為取暖燃料的學(xué)校比率。如果在抽出的50所學(xué)校中,有35所學(xué)校使用天然氣作為取暖燃料,則總體500所學(xué)校中使用天然氣比率的點估計值。比率的標(biāo)準(zhǔn)差的估計值為 因此, 總體比率的近似95%置信區(qū)間為 即(0.5758,0.8242)。7.4.2總體比率回憶前面提到的允許誤差為“點估計的標(biāo)準(zhǔn)差估計值的2倍”,因此:均值的標(biāo)準(zhǔn)差的估計值:7.4.3樣本容量的確定兩步抽樣用試點調(diào)查或事先檢驗的結(jié)果估計s2
估計s2的方法根據(jù)以往的資料估計s2
由第一步抽取的部分單位,得到的s2的估計值,將此值代入上式,確定出全部樣本容量n;然后對第一步確定的全部樣本容量,再抽取第二步所需要的其余單位數(shù)。
7.4.3樣本容量的確定[例7.3]某大學(xué)有5000名畢業(yè)生,我們想構(gòu)造寬度在1000元之內(nèi)的近似95%的置信區(qū)間。 對這樣規(guī)定的置信區(qū)間,B=500。在確定n之前,需要估計。 假設(shè)根據(jù)去年所做的同樣研究,得知s=3000元。我們可以用這個值來估計。根據(jù)B=500、s=3000及N=5000,則樣本容量為7.4.3樣本容量的確定
在估計總體比率時,選擇樣本容量的公式,與估計總體均值的公式類似。我們只需要將估計總體均值的公式中替換為,即
使用上式時,我們必須規(guī)定允許誤差B和給出的一個估計值。如果沒有合適的估計值,我們可以使用代替,這樣將保證近似置信區(qū)間的允許誤差比希望的要小的多。7.4.3樣本容量的確定將總體劃分H組從第h層中抽取一個容量為nh的簡單隨機(jī)樣本由這H個簡單隨機(jī)樣本的聯(lián)合資料,可得出諸如總體均值、總體總量及總體比率等各種總體參數(shù)的估計。
分層簡單隨機(jī)抽樣的步驟:也稱為層7.5分層簡單隨機(jī)抽樣
如果各層內(nèi)的差異比層間的差異小,則分層簡單隨機(jī)樣本可得到更大的精度(總體參數(shù)的區(qū)間估計將更窄)。 各層的劃分應(yīng)依據(jù)樣本設(shè)計者的判斷。 根據(jù)應(yīng)用,總體可按部門、地區(qū)、年齡、產(chǎn)品類型、銷售水平等分層。7.5分層簡單隨機(jī)抽樣[例7.4]某大學(xué)管理學(xué)院想對今年的畢業(yè)生進(jìn)行一次調(diào)查,以便了解他們開始工作時的年薪。7.5分層簡單隨機(jī)抽樣 在分層抽樣中,總體均值的無偏估計是各層樣本均值的加權(quán)平均數(shù),所用權(quán)數(shù)為總體在各層的比重。用
表示總體均值的點估計,其定義如下: 式中:H--層數(shù);--第h層的樣本均值; Nh--第h層的單位數(shù);N--總體單位數(shù); 對分層簡單隨機(jī)樣本,計算平均值的標(biāo)準(zhǔn)差的估計公式為7.5.1總體均值某大學(xué)管理學(xué)院的180名畢業(yè)生的樣本調(diào)查結(jié)果
7.5.1總體均值 各專業(yè)(層)的樣本均值分別為:
因此,總體均值的點估計為7.5.1總體均值抽樣調(diào)查中估計均值的標(biāo)準(zhǔn)差所需要的部分計算結(jié)果7.5.1總體均值 上表中 因此,總體的近似95%的置信區(qū)間為 即(29074,29626)。
7.5.1總體均值 對分層簡單隨機(jī)抽樣,總體比率p的無偏估計是各層比率的加權(quán)平均數(shù),所用權(quán)數(shù)為總體在各層的比重。總體比率的點估計定義如下: 式中:H--層數(shù);--第h層的樣本比率;Nh―第h層的單位數(shù);N―總體單位數(shù);7.5.2總體比率 的標(biāo)準(zhǔn)差的估計值為 總體比率的近似95%的置信區(qū)間的表達(dá)式為7.5.2總體比率
[例7.5]在某大學(xué)的調(diào)查中,大學(xué)想了解畢業(yè)生開始工作時的年薪不低于36000元的比率。180名畢業(yè)生的抽樣調(diào)查結(jié)果顯示,有20名畢業(yè)生開始工作時的年薪不低于36000元,其中會計專業(yè)4名,金融專業(yè)2名,信息系統(tǒng)專業(yè)7名,市場營銷專業(yè)1名,經(jīng)營管理專業(yè)6名。
7.5.2總體比率 根據(jù)總體比率的近似95%的置信區(qū)間的公式,開始工作時的年薪不低于36000元的比率的點估計為:
故畢業(yè)生開始時的年薪不低于36000元的比率近似95%置信區(qū)間為(0.0575,0.1387)7.5.2總體比率
對分層簡單隨機(jī)抽樣,我們可用兩階段過程來選擇樣本容量。
既然人們想估計各層的均值、總量及比率,這兩種組合方法都經(jīng)常使用。確定總樣本容量n決定各層應(yīng)分配的樣本單位數(shù)決定每層應(yīng)選擇的樣本單位數(shù)加總得到總樣本容量
或者7.5.3樣本容量的確定
確定總樣本容量n及其分配,可對所有要研究的總體參數(shù)提供必要的精度。
分配工作就是決定總樣本被分配到各層的部分,這些部分將確定各層的簡單隨機(jī)樣本的容量。
各層的單位數(shù)各層內(nèi)的方差考慮的因素各層選擇單位的費用
7.5.3樣本容量的確定 一般地,單位數(shù)較多的層和方差較大的層應(yīng)分配較多的樣本數(shù)目。 相反地,對于給定的費用,為了獲得更多的信息,則抽樣單位成本較大的層應(yīng)分配較少的樣本數(shù)目。7.5.3樣本容量的確定整群抽樣需要將總體各個個體分為N組(也稱作群),使總體中每個個體只屬于一群??傮w組1組2個體4個體5個體1個體6個體2個體37.6整群抽樣例如,我們想調(diào)查某省的登記選民。則有兩種方法:調(diào)查某省的登記選民。有兩種方法:第一種方法是建立包含該省所有登記選民的抽樣框,然后根據(jù)抽樣框,選擇選民的一個簡單隨機(jī)樣本。第二種方法是整群抽樣,我們選擇用該省各縣的清單作抽樣框。在這個方法中,每個縣(或群)包含一組登記選民,而該省的每個登記選民只屬于一群。7.6整群抽樣分層抽樣和整群抽樣都將總體劃分為組,因此這兩種抽樣過程感覺上是相似的。選擇整群抽樣與分層抽樣的原因是不同的。當(dāng)群內(nèi)的個體存在差異時,整群抽樣可提供較好的結(jié)果。理想情形是每一群是整個總體的一個縮影,這時,抽取很少的群就可以提供關(guān)于整個總體特征的信息。整群抽樣與分層抽樣的比較7.6整群抽樣[例7.6]某省擁有12000名執(zhí)業(yè)注冊會計師的注冊會計師協(xié)會進(jìn)行了一項調(diào)查。作為調(diào)查的一部分,注冊會計師協(xié)會收集與收入、性別和與注冊會計師生活方式有關(guān)的因素的信息。因為用個人采訪法去搜集所需要的信息,因此注冊會計師協(xié)會采用整群抽樣,以使總的差旅費和采訪費用達(dá)到最小。抽樣框中包含所有在該省登記注冊的執(zhí)業(yè)會計師事務(wù)所。7.6整群抽樣假設(shè)有1000群,即在該省登記注冊的從事會計活動的會計師事務(wù)所有1000個,選擇10個會計師事務(wù)所為一個簡單隨機(jī)樣本。[例7.6](續(xù))7.6整群抽樣為了介紹在整群抽樣中,構(gòu)造總體均值、總體總量和總體比率的近似95%置信區(qū)間需要的公式,我們使用如下的記號:N—總體的群數(shù);n—樣本中選出的群數(shù);Mi—i群的單位數(shù);M—總體單位數(shù);M=M1+M2+…十MN;—每一群的平均單位數(shù)。Xi——第i群所有觀察值的總量;ai——第i群具有某特征的觀察值的數(shù)量;7.6整群抽樣對注冊會計師協(xié)會的抽樣調(diào)查,我們有如下資料:N=1000n=10M=12000
下表7-4為每個中選群的Mi和xi的值,以及中選事務(wù)所中女注冊會計師的數(shù)量(ai)的資料。[例7.6](續(xù))7.6整群抽樣7.6整群抽樣由整群抽樣得到的總體均值的點估計的公式如下:(7-25)7.6.1總體均值該點估計量的標(biāo)準(zhǔn)差的估計為:(7-26)總體均值的近似95%的置信區(qū)間為:7.6.1總體均值根據(jù)表7-4的資料,我們可以得到執(zhí)業(yè)注冊會計師平均年薪的點估計為[例7.6](續(xù))7.6.1總體均值由于表7-4中的年薪資料是以千元計量的,因此,執(zhí)業(yè)注冊會計師的平均年薪的估計值為42531元。而:因此:[例7.6](續(xù))7.6.1總體均值因此標(biāo)準(zhǔn)差為1.730。我們得到平均年薪的近似95%置信區(qū)間:即(39.071,45.991)。[例7.6](續(xù))7.6.1總體均值整群抽樣的總體比率的點估計如下:(7-30)式中ai——第i群
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 臨床試驗合作協(xié)議的范例解析
- 商家聯(lián)盟合作契約范本
- 2024土地權(quán)屬糾紛調(diào)解案例
- 醫(yī)療器械注冊委托代理合同2024年
- 公司與學(xué)生雙方實習(xí)協(xié)議書范本
- 建筑公司勞務(wù)合同書范本格式
- 標(biāo)準(zhǔn)超市租賃合同范本
- 工廠物資采購銷售合同范本
- 《年度汽車銷售合作協(xié)議》主體變更協(xié)議
- 昆明勞動合同范本
- 踝關(guān)節(jié)骨折教學(xué)查房
- 中華人民共和國民法典(總則)培訓(xùn)課件
- 2023-2024學(xué)年湖北省武漢市硚口區(qū)八年級(上)期中物理試卷
- 冬季傳染病預(yù)防-(課件)-小學(xué)主題班會課件
- 2024年安全員A證理論考試1000題及答案
- 《中醫(yī)基礎(chǔ)理論》課程教案
- 《解決問題的策略》(教學(xué)設(shè)計)-2024-2025學(xué)年四年級上冊數(shù)學(xué)蘇教版
- 社會工作方法 個案工作 個案所需表格
- 小學(xué)生家長會課件
- 2024屆中國一汽全球校園招聘高頻500題難、易錯點模擬試題附帶答案詳解
- 2024至2030年中國大米市場調(diào)查及發(fā)展趨勢研究報告
評論
0/150
提交評論