版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1.分賭本問題A,B二人賭博,各出注金元,每局每個人獲勝的概率都是,約定:誰先勝局,即贏得全部注金元,現(xiàn)進行到A勝局、B勝局(與都小于)時賭博因故停止,問此時注金應(yīng)如何分配給A和B才算公平?此問題文字最早見于1494年帕西奧利的一本著作,是對,和的情況的分析.由于對“公平分配”一詞的意義沒有一個公認的正確理解,在早期文獻中出現(xiàn)過關(guān)于此問題的種種不同的解法,如今看來都不正確.例如,帕西奧利本人提出按的比例分配.塔泰格利亞則在1556年懷疑能找到一種數(shù)學解法的可能性,他認為這是一個應(yīng)由法官來解決的問題,但他也提出了如下的解法:若,則A取回自己下的注,并取走B下的注的,這等于按的比例瓜分注金.法雷斯泰尼在1603年根據(jù)某種理由,提出按的比例分配.卡丹諾在其1539年的著作中,通過較深的推理提出了一種解法:記,.把注金按︰之比分給A和B.他這個解法如今看來雖然仍不正確,但有一個重要之處,即他注意到起作用的是,與的差距,而不在其本身.這個問題的癥結(jié)在于:它關(guān)乎每個人在當時狀況下的期望值.從以上這些五花八門的解法中,似乎可以認為,這些作者已多少意識到這一點,但未能明確期望與概率的關(guān)系.而與此處有關(guān)的是:假定賭博繼續(xù)進行下去,各人最終取勝的概率.循著這個想法問題很易解決:至多再賭局,即能分出勝負.假如A獲勝,他在這局中至少須勝局.因此按二項分布,A取勝的概率為,而B取勝的概率為.注金按之比分配給A和B,因和是A,B在當時狀態(tài)下的期望值.這個解是巴斯噶(,1623~1662)在1654年提出的.他用了兩種方法,其一是遞推公式法,其二是用“巴斯噶三角”(即楊輝三角).1710年,蒙特姆特在一封信中給出了我們在前面寫出的解法,且不必規(guī)定二人的獲勝概率相同.后來他又把此問題推廣到多個賭徒的情形.分賭本問題在概率史上起的作用,在于通過對這個在當時來說較復雜的問題的探索,對數(shù)學期望及其與概率的關(guān)系有了啟示.有的解法,特別是巴斯噶的解法,使用或隱含了若干直到現(xiàn)在還廣為使用的計算概率的工具.如組合法、遞推公式、條件概率和全概率公式等.可以說,通過對這個問題的研究,概率計算從初期簡單計數(shù)步入較為精細的階段.2.巴斯噶與費爾馬的通信巴斯噶與費爾馬(P.deFermat,1601-1665)的名字,對學習過中學以上數(shù)學的人來說,想必不陌生.巴斯噶三角,在我國稱楊輝三角,中學教科書中已有提及.至于費爾馬,因其“費爾馬大定理”(不存在整數(shù)xyz≠0和整數(shù),使)于近年得到證明,名聲更遠播數(shù)學圈子內(nèi)外.費爾馬在數(shù)學上的名聲主要因其數(shù)論方面的成就,其在概率史上占到一席地位,多少有些偶然,由于他與巴斯噶在1654年7~10月間來往的7封信件,其中巴致費的有3封.這幾封信全是討論具體的賭博問題.與前人一樣,他們用計算等可能的有利與不利情況數(shù),作為計算“機遇數(shù)”即概率的方法(他們沒有使用概率這個名稱).與前人相比,他們在方法的精細和復雜性方面大大前進了.他們廣泛使用組合工具和遞推公式,初等概率一些基本規(guī)律也都用上了.他們引進了賭博的值(value)的概念,值等于賭注乘以獲勝概率.3年后,惠更斯改“值”為“期望”(expectation),這就是概率論的最重要的概念之一——(數(shù)學)期望的形成和命名過程.前文已指出:此概念在更早的作者中已醞釀了一段時間.這些通信中討論的一個重要問題之一是分賭本問題,還討論了更復雜的輸光問題:甲、乙二人各有賭本a和b元(a,b為正整數(shù)),每局輸贏1元,要計算各人輸光的概率.這個問題拿現(xiàn)在的標準看也有相當?shù)碾y度.由此也可看出這組通信達到的水平及其在概率論發(fā)展史上的重要性.有的學者,如丹麥概率學者哈爾德,認為巴、費2人在1654年的這些信件奠定了概率論的基礎(chǔ).這話相當有道理,但也應(yīng)指出,這些通信的內(nèi)容是討論具體問題,沒有明確陳述并提煉出概率運算的原則性內(nèi)容.例如,他們想當然地使用了概率加法和乘法定理.但未將其作為一般原則凸現(xiàn)出來.促使巴、費2人進行這段通信的,是一個名叫德梅爾的人,他曾向巴斯噶請教幾個有關(guān)賭博的問題.1564年7月29日巴斯噶首先給費爾馬寫信,轉(zhuǎn)達了這些問題之一,請費爾馬解決.所提問題并不難,但不知為何巴斯噶未親自回答:將兩顆骰子擲24次,至少擲出一個“雙6”的機遇小于(其值為≈4).但從另一方面看,擲兩顆骰子只有36種等可能結(jié)果,而24占了36的,這似乎有矛盾,如何解釋.現(xiàn)今學過初等概率論的讀者都必能毫無困難地回答這個問題.巴、費通信中涉及的有關(guān)分賭本問題的解法,包含了一些在當時看很先進且直到現(xiàn)在仍廣為使用的想法和技巧.3.惠更斯的《機遇的規(guī)律》惠更斯是一個有多方面成就的、在當時聲名與牛頓相若的大科學家.人們熟知他的貢獻之一是單擺周期公式.他在概率論的早期發(fā)展史上也占有重要地位,其主要著作《機遇的規(guī)律》出版于1657年,出版后得到學術(shù)界的高度重視,在歐洲作為概率論的標準教本長達50年之久.該著作的寫作方式不大像一本書,而更像一篇論文.他從關(guān)于公平賭博(fairgame)的值的一條公理出發(fā),推出關(guān)于“期望”(這是他首先引進的術(shù)語)的3條定理.基于這些定理并利用遞推法等工具,惠更斯解決了當時感興趣的一些機遇博弈問題.最后,他提出了5個問題,對其中的3個給出了答案但未加證明.3條定理加11個問題,被稱為惠更斯的14個命題.前3條如下述:命題1若某人在賭博中以等概率得,元,則其期望為元.命題2若某人在賭博中以等概率得,和元,則其期望為元.命題3若某人在賭博中以概率,得,元,則其期望為元.看了這些命題,現(xiàn)代的讀者或許會感到惶惑:為何一個應(yīng)取為定義的東西,要當作需要證明的定理?答案在于,這反映了當時對純科學的一種公認的處理方法,即應(yīng)從盡可能少的“第一原理”(firstprinciple,即公理)出發(fā),把其他內(nèi)容推演出來.惠更斯只從一條公理出發(fā)而導出上述命題,其推理頗為別致,此處不細述.這幾個命題是期望概念的一般化.此前涉及或隱含這一概念只是相當于命題3中的特例,即注金乘取勝概率,因而本質(zhì)上沒有超出概率這個概念的范圍.惠更斯的命題將其一般化,是這個重要概念定型的決定性的一步.實際上,據(jù)惠更斯的命題不難證明:若某人在賭博中分別以概率得元,則其期望為.這與現(xiàn)代概率論教科書中關(guān)于離散隨機變量的期望的定義完全一致.余下的11個命題及最后的5個問題,都是在形形色色的賭博取勝約定下,去計算各方取勝的概率,其中命題4~9是關(guān)于2人和多人的分賭本問題.對這些及其他問題,惠更斯都用了現(xiàn)行概率論教科書中初等概率計算方法,通過列出一定的方程求解,大體上與巴斯噶的做法相似.這種方法后來被伯努利稱為“惠更斯的分析方法”.最后5個問題較難一些,其解法的技巧性也較強.現(xiàn)舉其一為例:A,B二人約定按ABBAABBAABB…擲兩顆骰子,即A先擲一次,然后從B開始輪流各擲兩次.若A擲出和為6點,則A勝;若B擲出和為7點,則B勝.求A,B獲勝的概率.A在一次投擲時擲出和為6的概率,而B在一次投擲時擲出和為7的概率.記,又記為在第次投擲完時A,B都未取勝,求在這一條件下A最終取勝的概率.利用全概率公式,并注意到約定的投擲次序,可以列出方程組:.由此容易得出略小于1/2.故此賭法對A不利.機遇博弈在概率概念的產(chǎn)生及其運算規(guī)則的建立中,起了主導的作用.這一點不應(yīng)當使人感到奇怪:雖說機遇無時不在,但要精確到數(shù)量上去考慮,在幾百年前那種科學水平之下,只有在像擲骰子這類很簡單的情況下才有可能.但這門學科建立后,既脫離賭博的范圍又找到了多方面的應(yīng)用.這也是一個有趣的例子,表明一種看似無益的活動(如賭博),可以產(chǎn)生對人類文明極有價值的副產(chǎn)物.把概率論由局限于對賭博機遇的討論拓展出去的轉(zhuǎn)折點和標志,應(yīng)是1713年伯努利劃時代著作《推測術(shù)》的出版,是在惠更斯的《機遇的規(guī)律》出版后56年.惠更斯這一著作,內(nèi)容基本上限于擲骰子等賭博中出現(xiàn)各種情況的概率的計算,而伯努利這本著作不僅對以前的成果作了總結(jié)和發(fā)揮,更提出了“大數(shù)定律”這個無論從理論和應(yīng)用角度看都有著根本重要性的命題,可以說其影響一直到今日而不衰.其對數(shù)理統(tǒng)計學的發(fā)展也有不可估量的影響,許多統(tǒng)計方法和理論都是建立在大數(shù)定律的基礎(chǔ)上.有的概率史家認為,這本著作的出版,標志著概率概念漫長的形成過程的終結(jié)與數(shù)學概率論的開端.假定有一個事件A,根據(jù)某種理論,我們算出其概率為.這理論是否正確呢?一個檢驗的方法就是通過實際觀察,看其結(jié)果與此理論的推論——是否符合.或者,一開始我們根本就不知道等于多少,而希望通過實際觀察去估計其值.這些包含了數(shù)理統(tǒng)計學中兩類重要問題——檢驗與估計.這個檢驗與估計概率的問題,是數(shù)理統(tǒng)計學中最常見、最基本的兩個問題.要構(gòu)造具體例子,最方便的做法是使用古典概率模型.拿一個缸子,里面裝有大小、質(zhì)地一樣的球個,其中白球個,黑球個.這時,隨機從缸中抽出一球(意指各球有同等可能被抽出),則“抽出之球為白球”這事件A有概率.如果不知道,的比值,則也不知道.但我們可以反復從此缸內(nèi)抽球(每次抽出記下其顏色后再放回缸中).設(shè)抽了次,發(fā)現(xiàn)白球出現(xiàn)次,則用去估計.這個估計含有一定程度不確定的誤差,但我們直觀上會覺得,抽取次數(shù)愈大,誤差一般會愈小.這一點如伯努利所說:“哪怕最愚笨的人,也會經(jīng)由他的本能,不需他人的教誨而理解的”.但對這個命題卻無人能給出一個嚴格的理論證明.伯努利決心著手解決這個問題,其結(jié)果導致了以他的名字命名的大數(shù)定律的發(fā)現(xiàn).這個發(fā)現(xiàn)對概率論和數(shù)理統(tǒng)計學有極重大的意義.伯努利把這一研究成果寫在他的著作《推測術(shù)》的第四部分中,是該著作的精華部分.由于該書在概率統(tǒng)計史上的重要意義,在此對伯努利其人及此書的整個面貌先做一點介紹.4.伯努利的《推測術(shù)》伯努利1654年出生于瑞士巴塞爾.在其家族成員中,對數(shù)學各方面做出過不同程度貢獻的至少有12人,在概率論方面有5人,其中杰出的除他本人外,還有其弟弟約翰與侄兒尼科拉斯.伯努利的父親為其規(guī)劃的人生道路是神職人員.但他的愛好卻是數(shù)學.他對數(shù)學的貢獻除概率論外,還包括微積分、微分方程和變分法等.后者包括著名的懸鏈線問題.他和牛頓、萊布尼茲是同時代人,并與后者有密切的通信聯(lián)系,因而非常了解當時新興的微積分學的進展,學者們認為他在這方面的貢獻,是牛、萊之下的第一人.此外,他對物理學和力學也做出過貢獻.他與惠更斯長期保持通信聯(lián)系,仔細閱讀過惠更斯的《機遇的規(guī)律》,由此引發(fā)了他對概率論的興趣.從他與萊布尼茲的通信中,可知他寫《推測術(shù)》這一著作是在他生命的最后兩年.在1705年他去世時,此書尚未整理定稿.由于家族內(nèi)部的問題,整理和出版遺稿的工作,遲遲未能實現(xiàn).先是其遺孀因?qū)ζ涞芗s翰的不信任,不愿把整理和出版的事委托給他,后來又拒絕了歐洲一位富有學者捐資出版的建議.最后在萊布尼茲的敦促下,才決定由其侄兒尼科拉斯來負責這件事情.尼科拉斯也是當時重要的數(shù)學家,與歐拉和萊布尼茲保持通信聯(lián)系.當時尚無科學期刊,學者的通信是學術(shù)交流的一種重要方式.《推測術(shù)》一書共239頁,分四個部分.第一部分(P2~71)對《機遇的規(guī)律》一書作了詳細的注解,總量比惠更斯的原書長4倍.第二部分(P72~137)是關(guān)于排列組合的系統(tǒng)的論述.第三部分(P138~209)利用前面的知識,討論了一些使用骰子等的賭博問題.第四部分(P210~239)是關(guān)于概率論在社會、道德和經(jīng)濟等領(lǐng)域中的應(yīng)用,其中包括了該書的精華、奠定了概率史上不朽地位的,以其名字命名的“伯努利大數(shù)定律”——大數(shù)定律的名稱不是出自該書,首見于泊松1837年的一篇著作中.該書若缺了這一部分,則很可能會像某些早期概率論著作那樣湮沒無聞,或至多作為一本一般著作被人評價.該書最后有一長為35頁的附錄,用與友人通信的形式討論網(wǎng)球比賽中計分問題.5.伯努利大數(shù)定律現(xiàn)在我們來介紹伯努利《推測術(shù)》中最重要的部分——包含了如今被稱之為“伯努利大數(shù)定律”的第四部分.回到前面的缸中抽球模型:缸中有大小、質(zhì)地一樣的球個,其中白球個,黑球個,“抽出之球為白球”的概率為,則有.假設(shè)有放回地從缸中抽球次,記為抽到白球的次數(shù),以估計.這種估計法現(xiàn)今仍是數(shù)理統(tǒng)計學中最基本的方法之一.此處的條件是,每次抽取時都要保證缸中個球的每一個有同等機會被抽出,但這一點在實踐中并不見得容易保證.例如,產(chǎn)生中獎號碼時可能要用復雜的裝置.在實際工作中,統(tǒng)計學家有時用一種叫做“隨機數(shù)表”的工具.這是一本很厚的書,各頁按行、列排列著數(shù)字,它們是用據(jù)說是“充分隨機”的方法產(chǎn)生的.在使用時,“隨機地”翻到一頁并隨機地點到一個位置,以此處的數(shù)字確定抽出的對象.伯努利企圖證明的是:用估計可以達到事實上的確定性——他稱為道德確定性.其確切含義是:任意給定兩個數(shù)和,總可以取足夠大的抽樣次數(shù),使事件的概率不超過.這意思就很顯然:表明估計誤差未達到指定的接近程度,但這種情況發(fā)生的可能性可以“隨心所欲地小”(代價是加大).為忠實于伯努利的表達形式,應(yīng)指出兩點:一是伯努利把限定于,雖然其證明對一般也有效.但他做這一模型限定與所用缸子模型的特殊性有關(guān):必要時把缸中的白、黑球分別改為和個,則不變,改為,只須取足夠大,便可使任意小.二是伯努利欲證明的是:對任給的,只要抽取次數(shù)足夠大,就可使.(5)這與前面所說是一回事.因為由上式得(6)取充分大,可使(6)式右邊小于.另外要指出的是:伯努利使用的這個缸子模型使被估計的值只能取有理數(shù),因而有損于結(jié)果的普遍性.但其證明對任意的成立,故這一細節(jié)并不重要.伯努利上述對事實上確定性數(shù)學的理解,即(5)式,有一個很值得贊賞的地方,即他在概率論的發(fā)展剛剛起步的階段,就給出了問題的一個適當?shù)奶岱?因為,既然我們欲證明的是當充分大時,和可以任意接近,則一個看來更直截了當?shù)奶岱ㄊ牵?)而這不可能實現(xiàn).因為原則上不能排除“每次抽到白球”的可能性,這時總為1,不能收斂到.或者退一步:要求(7)式成立的概率為1,這一結(jié)論是對的,但直到1909年才由波萊爾給予證明,證明的難度比伯努利的提法大得多.設(shè)想一下,如果當時伯努利就采用該提法,他也許在有生之年不能完成這一工作.由于波萊爾的結(jié)論比伯努利的結(jié)論強,現(xiàn)今人們又把他們的結(jié)論分別稱之為強大數(shù)定律和弱大數(shù)定律.6.泊松公式、泊松分布與泊松大數(shù)定律泊松(Possion)的名字對學概率論與數(shù)理統(tǒng)計的人來說,可謂耳熟能詳.原因主要在于泊松近似公式,以及更重要的是源于該近似公式的泊松分布,泊松分布的重要性和知名度在離散型分布中僅次于二項分布.泊松的另一個重要工作是把伯努利大數(shù)定律推廣到每次試驗中事件發(fā)生的概率可以不同的情況,現(xiàn)稱泊松大數(shù)定律.繼狄莫佛給出二項概率近似計算公式(10)之后,丹尼爾和拉普拉斯也給出了二項概率近似計算公式,但這些公式在現(xiàn)今的教科書上已很少提及,只有泊松近似公式則不然,其形式為(11)其中,.公式(11)在教科書上通稱為泊松逼近公式、泊松近似公式或泊松公式.它是泊松在1838年于《概率在法律審判的應(yīng)用》一書中所引進,此公式適用于很小,很大而又不很大時,這正好填補了狄莫佛公式(10)的不足,因后者只適用于不太接近于0和1的時候.不過,從歷史上看,狄莫佛早在1712年已做出了這個結(jié)果.7.貝葉斯及其傳世之作托馬斯?貝葉斯(ThomasBayes,1701-1761)在18世紀上半葉的歐洲學術(shù)界,恐怕不能不算是一個很知名的人物.在他生前,沒有發(fā)表過任何的科學論著.那時,學者之間的私人通信,是傳播和交流科學成果的一種重要方式.許多這類信件得以保存下來并發(fā)表傳世,而成為科學史上的重要文獻,例如,前面提到的費爾馬和巴斯噶的通信、伯努利與萊布尼茲的通信等.但對貝葉斯來說,這方面材料也不多.在他生前,除在1755年有一封致約翰?康頓的信(其中討論了辛普森有關(guān)誤差理論的工作)外,歷史上沒有記載他與當時的學術(shù)界有何重要的交往.但他曾在1742年當選為英國皇家學會會員(相當于科學院院士),因而可以想到,他必定曾以某種方式表現(xiàn)出其學術(shù)造詣而被當時的學術(shù)界所承認.如今,我們對這個生性孤僻、哲學氣味重于數(shù)學氣味的學術(shù)怪杰的了解,是因他的一篇題為“Anessaytowardssolvingaprobleminthedoctrineofchance(機遇理論中一個問題的解)”的遺作.此文發(fā)表后很長一個時期在學術(shù)界沒有引起什么反響,但到20世紀以來突然受到人們的重視,成為貝葉斯學派的奠基石.1958年,國際權(quán)威性的統(tǒng)計雜志《Biometrika》(生物計量)重新刊載了這篇文章.此文也有中譯本(見廖文等譯《貝葉斯統(tǒng)計學——原理、模型及應(yīng)用》的附錄4,中國統(tǒng)計出版社1992年版).此文是他的兩篇遺作之一,首次發(fā)表于1764年倫敦皇家學會的刊物《PhilosophicalTransactions》上.此文在貝葉斯生前已寫就,為何當時未交付發(fā)表,后來的學者有些猜測,但均不足定論.據(jù)文獻記載,在他逝世之前4個月,他在一封遺書中將此文及100英鎊托付給一個叫普萊斯的學者,而貝葉斯當時對此人在何處也不了然.所幸的是,后來普萊斯在貝葉斯的文件中發(fā)現(xiàn)了這篇文章,他于1763年12月23日在皇家學會上宣讀了此文,并在次年得以發(fā)表.發(fā)表時普萊斯為此文寫了一個有實質(zhì)內(nèi)容的前言和附錄.據(jù)普萊斯說,貝葉斯自己也準備了一個前言.這使人們無法確切區(qū)分:哪些思想屬于貝葉斯本人,哪些又是普萊斯所附加的.貝葉斯寫作此文的動機,說法也不一.一種表面上看來顯然的說法是為了解決伯努利和狄莫佛未能解決的、二項分布概率的“逆概率”問題,因為當時距這兩位學者的工作發(fā)表后尚不久,有人認為他是受了辛普森誤差工作的觸動,想為這種問題的處理提供一種新的思想.還有人主張,貝葉斯寫作此文,是為了給“第一推動力”的存在提供一個數(shù)學證明.這些說法現(xiàn)在都無從考證.上面提到“逆概率”這個名詞.在較早的統(tǒng)計學著作中這個名詞用得較多,現(xiàn)在已逐漸淡出.顧名思義,它是指“求概率這個問題的逆問題”:已知事件的概率為,可由之計算某種觀察結(jié)果出現(xiàn)的概率如何.反過來,給定了觀察結(jié)果,問由之可以對概率做出何種推斷.推廣到極處可以說,“正概率”是由原因推結(jié)果,是概率論;“逆概率”是由結(jié)果推原因,是數(shù)理統(tǒng)計.8.拉普拉斯的“不充分推理原則”貝葉斯的遺作發(fā)表后很長一段時期,都沒有得到學術(shù)界的注意,因而他的這種思想未能及早地發(fā)展成為一種得到廣泛應(yīng)用的統(tǒng)計推斷方法.但是,也有些學者獨立地朝這個方向思考,提出類似的思想并付諸實用,其中最重要的當屬拉普拉斯.拉普拉斯在1774年的一篇文章中提出了所謂的“不充分推理原則”(principleofinsufficientreasoning).他的思想大致如下:如果一個問題中存在若干個不同的原因(cause),則在沒有理由認為其中哪一個特別有優(yōu)勢時,概率應(yīng)各取,即認為各原因有同等機會出現(xiàn).在統(tǒng)計問題中,這里所說的不同“cause”可看作代表未知參數(shù)的不同的可能值.以E記在這原因下可能產(chǎn)生的事件(例如,在某參數(shù)值之下觀察到的樣本),拉普拉斯提出:與無關(guān).(12)用現(xiàn)今熟知的概率論知識很容易證明(12),但拉普拉斯在其文章中用了一個很復雜的證法.拉普拉斯的原則(12)可用于由推,這與貝葉斯的原則完全一樣,也并未超出貝葉斯思想的范圍.因此,現(xiàn)在統(tǒng)計學史上也把拉普拉斯視為貝葉斯統(tǒng)計的一個奠基者.9.勒讓德發(fā)明最小二乘法勒讓德是法國大數(shù)學家,在數(shù)學的許多領(lǐng)域,包括橢圓、積分、數(shù)論和幾何等方面,都有重大的貢獻.最小二乘法最先出現(xiàn)在他于1805年發(fā)表的一本題為《計算彗星軌道的新方法》著作的附錄中,該附錄占據(jù)了這本長達80頁著作的最后9頁.勒讓德在這本書前面幾十頁關(guān)于彗星軌道計算的討論中沒有使用最小二乘法,可見在他剛開始寫作時,這一方法尚未在他頭腦中成形.歷史資料還表明,勒讓德在參加測量巴黎子午線長這項工作很久以后還未發(fā)現(xiàn)這個方法.考慮到此書發(fā)表于1805年且該法出現(xiàn)在書尾的附錄中,可以推測他發(fā)現(xiàn)這個方法應(yīng)當在1805年或之前不久的某個時間.勒讓德在該書72~75頁描述了最小二乘法的思想、具體做法及方法的優(yōu)點.他提到:使誤差平方和達到最小,在各方程的誤差之間建立了一種平衡,從而防止了某一極端誤差(對決定參數(shù)的估計值)取得支配地位,而這有助于揭示系統(tǒng)的更接近真實的狀態(tài).的確,考察勒讓德之前一些學者的做法,都是把立足點放在解出一個線性方程組上.這種做法對于誤差在各方程之間的分布的影響如何,是不清楚的.在方法的具體操作上,勒讓德指出,為實現(xiàn)而對各求偏導數(shù)所形成的線性方程組(13)只涉及簡單的加、乘運算,至于解線性方程組,這是當時已知的其他方法也難免的.現(xiàn)今我們把(13)叫做正則方程組,這是后來高斯引進的稱呼.關(guān)于最小二乘法的優(yōu)點,勒讓德指出了以下幾條:第一,通常的算術(shù)平均值是其一特例.第二,如果觀察值全部嚴格符合某一線性方程,則這個方程必是最小二乘法的解.第三,如果在事后打算棄置某些觀察值不用或增加新的觀察值,對正則方程組的修改易于完成.從現(xiàn)在的觀點看,這方法只涉及解線性方程組是其最重要的優(yōu)點之一(其他的重要優(yōu)點包括此法在統(tǒng)計推斷上的一些優(yōu)良性質(zhì),以及其廣泛的適用性).近年發(fā)展起來的,從最小二乘法衍生出的其他一些方法,盡管在理論上有其優(yōu)點,可是由于計算上的困難而影響了其應(yīng)用.最小二乘法在19世紀初發(fā)明后,很快得到了歐洲一些國家的天文和地測學工作者的廣泛使用.據(jù)不完全統(tǒng)計,自1805年至1864年的60年期間,有關(guān)這一方法的研究論文約250篇,一些百科全書,包括1837年出版的《不列顛百科全書》(第7版),都收進了有關(guān)這個方法的介紹.在研究論文中,有一些是關(guān)于最小二乘估計的計算,這涉及解線性方程組.高斯也注意到了這個問題,給出了正則方程組的命名并發(fā)展了解方程組的消去法.但是,在電子計算機出現(xiàn)以前,當參數(shù)個數(shù)(即(13)式中的)較大時,計算任務(wù)很繁重.1858年,英國為繪制本國地圖作了一次大型的調(diào)查,其數(shù)據(jù)處理用最小二乘法涉及模型(13)中k=920,n=1554.用兩組人員獨立計算,花了兩年半的時間才完成.1958年我國某研究所計算一個煉鋼方面的課題,涉及用最小二乘法解13個自變量的線性回歸,30余人用電子計算機計算,夜以繼日花了一個多月的時間.勒讓德的工作沒有涉及最小二乘法的誤差分析問題.這一點由高斯在1809年發(fā)表的正態(tài)誤差理論加以補足,詳細介紹見后面故事(高斯的正態(tài)誤差理論).高斯的這個理論對于最小二乘法用于數(shù)理統(tǒng)計有極其重要的意義.這一點在20世紀哥色特、費歇爾等人發(fā)展了正態(tài)小樣本理論后,尤其明顯.正因為高斯這一重大貢獻,以及他聲稱自1799年以來一直使用這個方法,所以人們多把這一方法的發(fā)明優(yōu)先權(quán)歸于高斯.當時在這兩位大數(shù)學家之間曾發(fā)生優(yōu)先權(quán)之爭,其知名度僅次于牛頓和萊布尼茲之間關(guān)于微積分發(fā)明的優(yōu)先權(quán)之爭.近年來還有學者根據(jù)有關(guān)的文獻研究這個問題,也作不出斷然的結(jié)論.這個公案大概也只能以“兩人同時獨立做出”來了結(jié).但無論如何,第一個在書面上發(fā)表的是勒讓德,他有理由占先一些.我們已指出,最小二乘法是針對形如的線性關(guān)系的觀測數(shù)據(jù)而作出的,現(xiàn)在統(tǒng)計學上把這叫做線性(統(tǒng)計)模型——當然,其含義比最初所賦予它的要廣得多.最小二乘法在數(shù)理統(tǒng)計學中的顯赫地位,大部分來自它與這個模型的聯(lián)系.另一個原因是它有簡單的線性表達式.這不僅使它易于計算,更重要的是,在正態(tài)誤差的假定下,它有較完善的小樣本理論,使基于它的統(tǒng)計推斷易于操作且有關(guān)的概率計算不難進行.其他的方法雖也可能具有某種優(yōu)點,但由于缺乏最小二乘法所具備的上述特性,故仍不可能取代最小二乘法的位置,這就是此法得以長盛不衰的原因.10.高斯導出誤差正態(tài)分布1809年,高斯(CarlFriedrichGauss,1777-1855)發(fā)表了數(shù)學和天體力學的名著《繞日天體運動的理論》.在此書末尾,他寫了一節(jié)有關(guān)“數(shù)據(jù)結(jié)合”(datacombination)的問題,實際涉及的就是這個誤差分布的確定問題.設(shè)真值為,個獨立測量值為.高斯把后者的概率取為(14)其中為待定的誤差密度函數(shù).到此為止他的做法與拉普拉斯相同.但在往下進行時,他提出了兩個創(chuàng)新的想法.一是他不采取貝葉斯式的推理方式,而徑直把使(9)式達到最大的作為的估計,即使(15)成立的.現(xiàn)在我們把稱為樣本的似然函數(shù),而把滿足(15)式的稱為的極大似然估計.這個稱呼是追隨費歇爾的,因為他在1912年發(fā)表的一篇文章中,明確提到以上概念并非針對一般參數(shù)的情形.如果拉普拉斯采用了高斯這個想法,那他會得出:在已定誤差密度為(16)基礎(chǔ)上,其中為未知參數(shù).的估計是樣本中位數(shù),即按大小排列居于正中的那一個(為奇數(shù)時),或居于正中的那兩個的算術(shù)平均(為偶數(shù)時).這個解不僅計算容易,且在實際意義上,有時比算術(shù)平均更為合理.不過,即使這樣,拉普拉斯的誤差分布(16)大概也不可能取得高斯正態(tài)誤差那樣的地位.原因是是線性函數(shù),在正態(tài)總體下有完善的小樣本理論,而要用于推斷就難于處理了.另外,這里所談的是一個特定的問題——隨機測量誤差該如何分布.測量誤差由諸多因素形成,每種因素影響都不大.按中心極限定理,其分布近似于正態(tài)分布是勢所必然.其實,早在1780年左右,拉普拉斯就推廣了狄莫佛的結(jié)果,得到了中心極限定理的比較一般的形式.可惜的是他未能把這一成果用到確定誤差分布的問題上來.高斯的第二點創(chuàng)新的想法是:他把問題倒過來,先承認算術(shù)平均是應(yīng)取的估計,然后去找誤差密度函數(shù)以迎合這一點,即找這樣的,使由(15)式?jīng)Q定的就是.高斯證明了:這只有在(17)條件下才能成立,這里為常數(shù),這就是正態(tài)分布.高斯這項工作對后世的影響極大,他使正態(tài)分布同時有了“高斯分布”的名稱,后世之所以多將最小二乘法的發(fā)明權(quán)歸之于他,也是出于這一工作.高斯是一個偉大的數(shù)學家,重要的貢獻不勝枚舉.但現(xiàn)今德國10馬克的印有高斯頭像的鈔票,其上還印有正態(tài)分布的密度曲線.這傳達了一種想法:在高斯的一切科學貢獻中,其對人類文明影響最大的就是這一項.在高斯作出這個發(fā)現(xiàn)之初,也許人們還只能從其理論的簡化上來評價其優(yōu)越性,其全部影響還不能充分看出來.這要到20世紀正態(tài)小樣本理論充分發(fā)展起來以后才能充分看出來.拉普拉斯很快得知高斯的工作,并馬上將其與他發(fā)現(xiàn)的中心極限定理聯(lián)系起來,為此,他在即將發(fā)表的一篇文章(發(fā)表于1810年)上加上了一點補充,指出如若誤差可看成許多量的疊加,根據(jù)他的中心極限定理,誤差理應(yīng)有高斯分布.這是歷史上第一次提到所謂“元誤差學說”——誤差是由大量的、由種種原因產(chǎn)生的元誤差疊加而成.后來到1837年,海根在一篇論文中正式提出了這個學說.其實,他提出的形式有相當大的局限性:海根把誤差設(shè)想成個數(shù)很多的、獨立分布的“元誤差”之和,每個只取兩值,其概率都是1/2,由此出發(fā),按狄莫佛的中心極限定理,立即就得出誤差(近似地)服從正態(tài)分布.拉普拉斯所指出的這一點有重大的意義,在于他給誤差的正態(tài)理論一個更自然合理、更令人信服的解釋.因為高斯的說法有一點循環(huán)論證的氣味:由于算術(shù)平均是優(yōu)良的,推出誤差必須服從正態(tài)分布;反過來,由后一結(jié)論又推出算術(shù)平均及最小二乘估計的優(yōu)良性,故必須認定這二者之一(算術(shù)平均的優(yōu)良性,誤差的正態(tài)性)為出發(fā)點.但算術(shù)平均到底并沒有自行成立的理由,以它作為理論中一個預設(shè)的出發(fā)點,終覺有其不足之處.拉普拉斯的理論把這斷裂的一環(huán)連接起來,使之成為一個和諧的整體,實有著極重大的意義.11.莎士比亞的新詩:一曲統(tǒng)計學的贊歌這個強有力的旋律,將勝過大理石或者是君主的金箔紀念碑.莎士比亞(Shakespeme)1985年11月,研究莎士比亞的學者泰勒(G.Taylor)從1775年以來就保存在Bodelian圖書館的收藏中發(fā)現(xiàn)了寫在紙片上的九節(jié)新詩.新詩只有429個字,沒有記載誰是詩的作者.這首詩會是莎士比亞的作品嗎?兩個統(tǒng)計學者Thisted和Efron(1987)利用統(tǒng)計方法研究了這個問題,得到結(jié)論:這首詩用詞的風格(規(guī)范)與莎士比亞的風格非常一致.這個研究純粹基于統(tǒng)計學基礎(chǔ),其過程可描述如下:已知莎士比亞所有著作的用詞總數(shù)為884647個,其中31534個是不同的.這些詞出現(xiàn)的頻數(shù)如表1所示.表1不同單詞所使用的頻數(shù)分布單詞使用的頻數(shù)不同的單詞數(shù)1143762434332292414635104368377638>100846總數(shù)31534表1中所包含的信息可用來回答下列類型的問題.如果要求莎士比亞寫一個含有一定數(shù)量單詞的新作品,他會使用多少新單詞(以前作品中未使用過的)?在他以前所有的作品中,有多少單詞他僅使用過一次,兩次,三次,…這些數(shù)字可以用費歇爾等(1943)提出的劃時代的法則來預測.在完全不同的領(lǐng)域內(nèi),費歇爾利用他的方法估計了未被發(fā)現(xiàn)的蝴蝶總數(shù),利用費歇爾的理論,如果莎士比亞用與他已有的所有作品中出現(xiàn)的單詞數(shù)884647完全一樣數(shù)目的單詞來寫他的新的劇本和詩,則估計他將使用約35000個新詞.這種情形下,莎士比亞的總詞匯估計至少有66000個單詞(在莎士比亞時代,英語語言的總詞匯約有100000個,目前約有500000個).現(xiàn)在回到新發(fā)現(xiàn)的詩上,其含有429個單詞中有258個是不同的,新詩的觀測值和預測值(基于莎士比亞的風格)的分布由表2(最后兩欄)給出.從表2可以看到,(在所期望的差的范圍內(nèi))兩個分布非常一致,這表示了新發(fā)現(xiàn)的詩的作者可能就是莎士比亞.表2長度幾乎相同的詩中,莎士比亞風格所含不同單詞與其他作者風格所含不同單詞的頻數(shù)分布莎士比亞作品中單詞使用的次數(shù)不同單詞使用的頻數(shù)基于莎士比亞作品的期望值本?約翰遜(哀歌)馬洛(四首詩)多恩(狂喜)新發(fā)現(xiàn)的詩081017912857218653~4616585~9922121110~19920171020~291213142130~3912961640~591314121860~791093880~991313105不同單詞數(shù)243272252258258單詞總數(shù)411495487429…表2中也給出了與莎士比亞同時代的其他幾位詩人本?約翰遜、馬洛lowe)、多恩長度幾乎相同的作品中所使用的單詞的分布頻數(shù).這些作者的作品中單詞的分布頻數(shù)與新發(fā)現(xiàn)詩中單詞的觀測頻數(shù),以及與莎士比亞用詞風格的期望觀測頻數(shù)之間看起來多少有些不同.另一個與其類似的故事是——有爭議的作者權(quán):《聯(lián)邦主義者論文集》作者是誰.這是與上一故事密切相關(guān)的驗明作者是誰的問題,或者是對作者不明的作品所列出的可能的作者群中去識別一個作者,下面再給大家講一個故事.這個故事來源于費歇爾,他是第一個使用這個方法來回答一個人類學家向他提出的問題的.是否存在任何客觀的、僅利用測量的方法判斷從墓中發(fā)現(xiàn)的下鄂骨是男性,還是女性?同樣的技術(shù)可用來回答本質(zhì)上相同的問題:在兩個可能的作者中,誰是有作者權(quán)的爭議作品的真正作者.讓我們來考察一下《聯(lián)邦主義者論文集》的情形.這個論文集是1787~1788年由哈密頓、杰伊和馬德森為了勸說紐約市民批準憲法所著的.按那個時代所時興的,這個論文集共含77篇論文,全部署名為筆名“民眾(Publicus)”.這個論文集的大多數(shù)文章的真正作者已經(jīng)判明了,但有12篇文章仍存在爭議,到底是哈密頓的,還是馬德森的.兩個統(tǒng)計學者,莫斯特雷和華萊士(D.Wallace)利用統(tǒng)計方法解決了這個問題,得出的結(jié)論是:12篇有爭議的文章最可能的作者是馬德森.解決這個問題所使用的度量化方法是從有爭議的作者的作品中研究每一個作者自己的風格,按有爭議的作品的風格最接近于其作品來確定其作者.12.柏拉圖著作的系列排列柏拉圖作品的問世已超過22個世紀了,他的哲學思想以及優(yōu)美的文體被廣泛地研究著.遺憾的是,沒有人提及,或者是沒有人知道他的35篇對話,6篇短文和13封信件寫作的時間年表.柏拉圖作品時間年表的問題19世紀就已經(jīng)提出來了,但沒有什么進展.幾年以前,統(tǒng)計學家開始著手這個問題,現(xiàn)在已給出了一個看起來很合理的解答.所用的統(tǒng)計方法是從求出作品之間的相似性指數(shù)開始的.在波納法(Boneva,1971)的研究中,基于每一作品中最后5個音節(jié)的32個可能特征的頻數(shù)分布,求出相似性指數(shù),這個技術(shù)稱為定性終止.在沒有其他附加信息的情形下,這里所用到的唯一的假設(shè)是寫作時間相近的作品寫作風格相似.利用這個方法推斷了柏拉圖作品的時間年表.13.地質(zhì)年代的尺度這是費歇爾(1952)所引證的一個例子,用來說明地質(zhì)學中一個最偉大的發(fā)現(xiàn)里面所隱含的統(tǒng)計思想.不少人已經(jīng)熟悉地質(zhì)年代的尺度以及地質(zhì)層的名字,如鮮新世(Pliocene)、中新世(Miocene)、漸新世(Oligocene),但也許很少有人知道這些是如何得到的.這是由出生于1797年的著名《地質(zhì)學原理》一書的作者、地質(zhì)學家萊爾發(fā)明的.在1833年出版的這本書的第三卷中,他給出了這些時間尺度的詳細計算.這些時間尺度的詳細計算基于一個完全新穎的思想并利用了很復雜的統(tǒng)計過程.在杰出的貝類學家德夏斯的協(xié)助下,萊爾把一個或多個地質(zhì)層中鑒定了的化石列成表,并查明目前還生存的占多大比例,就像一個統(tǒng)計學家擁有一個沒有記錄年齡的近期的人口統(tǒng)計記錄,以及一系列未標明時間的過去人口調(diào)查的記錄,從中可以辨認某些個人與現(xiàn)在的記載是同一個人.在這種情況下,由生命表的知識分析可以估計未標明的數(shù)據(jù).即使沒有生命表,僅僅由比較每個記錄中現(xiàn)在仍生存的人的比率,也可以按年代順序排成序列.也就是說,現(xiàn)存的生物在化石中所占的比率越小,可以推斷其在地層中形成的年代越久遠.萊爾的思想以及他漂亮的統(tǒng)計論證給地質(zhì)學帶來了一場革命,他所命名的地質(zhì)層和其他研究結(jié)果如表3所示.表3萊爾的地質(zhì)學分類地質(zhì)層命名比率=生存數(shù)量/不同化石的數(shù)量實例更新世(Pleistocene)96%西西里島群鮮新世(Pliocene)40%意大利巖石,英國峭壁中新世(Miocene)18%始新世(Eocene)3%或4%由上述的分類,地質(zhì)學家可根據(jù)化石中少量的清晰的形態(tài)學上的特征來確認化石的分層.遺憾的是許多教師在給學生講授的過程中,從來沒有強調(diào)萊爾方法中隱含的度量思想.14.鰻魚的公共繁殖場所下面的故事也選自費歇爾(1952)的文章,說明如何由基本的描述統(tǒng)計量的知識引出一個重要的發(fā)現(xiàn).20世紀早期,哥本哈根卡爾堡實驗室的施密特發(fā)現(xiàn)不同地區(qū)所捕獲的同種魚類的脊椎骨和鰓線的數(shù)量有很大不同,甚至在同一海灣內(nèi)不同地點所捕獲的同種魚類,也發(fā)現(xiàn)有這樣的傾向,然而,鰻魚的脊椎骨的數(shù)量變化卻不大.施密特從歐洲各地、冰島、亞速爾群島、以及尼羅河等幾乎分離的海域里所捕獲的鰻魚的樣本中,計算發(fā)現(xiàn)了幾乎一樣的均值和標準偏差值.由此,施密特推斷所有各個不同海域內(nèi)的鰻魚是在海洋中某公共場所繁殖的.后來名為“戴納(Dana)”的科學考察船在一次遠征中發(fā)現(xiàn)了這個場所.15.人所具有的特點是遺傳的嗎?這個問題是在一次討論達爾文的理論時提出的.為了回答這個問題,丹麥的遺傳學家約翰尼森進行了實驗,他的實驗已出現(xiàn)在今天的教科書上.但是,在他1909年第一次發(fā)表這個結(jié)果時卻沒有引起注意.下面是從卡克()的一個筆記(1983)中引用的,卡克介紹了當他13歲時所了解的這個實驗.“約翰尼森取了大量的豆子,稱它們的重量,由這些重量做成頻率直方圖并由此擬合了今日被稱為正態(tài)分布的曲線.然后,他從中取出大的和小的豆子,分別進行栽培,并分別做出它們各自收獲后豆子重量的直方圖.這些直方圖又分別與正態(tài)曲線擬合.如果豆子的大小是遺傳的,則人們可以預期后做的兩條曲線會以大小不同的均值為分布中心.但是,事情恰恰不是這樣,兩條曲線與它們祖先的曲線幾乎看不出區(qū)別,因此產(chǎn)生了一個嚴肅的問題:豆子的大小是否是遺傳的.”卡克繼續(xù)介紹說:“當時那些完全嶄新的議論使我感到很吃驚,直到今天還保留很深的印象,這是我當時在已接受的數(shù)學、物理和生物學知識中還未遇到過的.從那以后,我開始學習了大量的統(tǒng)計學知識,甚至還給具有不同數(shù)學程度的人講授統(tǒng)計學,但我始終認為約翰尼森的實驗是我所知道的關(guān)于闡述統(tǒng)計推斷方法之有效、精彩的最好的例證.”16.左撇子的重要性一般人并不知道根據(jù)椰子樹樹葉螺旋的方向,能夠分為右螺旋形狀和左螺旋形狀.幾年以前,印度統(tǒng)計所的戴維斯就這個問題進行了調(diào)查研究.他的研究為統(tǒng)計方法在了解自然本質(zhì)中的應(yīng)用,提供了一個極好的例子.也就是說,由觀測事實提出新問題,為解決這些新的問題,要做出更進一步的觀測.綜合每個階段所得到的結(jié)果,尋找新的證據(jù)來加強已有結(jié)果的基礎(chǔ)并探索新的方向.為什么有的樹的樹葉是左螺旋形狀的,有的是右螺旋形狀的呢?這是個遺傳特征嗎?要回答這個問題,可以考慮由不同螺旋形狀的樹木組合成的雙親樹,并分類計算所產(chǎn)生的子孫樹具有相同特征的數(shù)量.為此目的所收集到的數(shù)據(jù)列在表4中.可以看到,左對右的比率在所有類型的雙親樹的組合中幾乎是一樣的.這顯示了左螺旋和右螺旋不是遺傳的基因.表4不同種類交配后所產(chǎn)生的子孫樹中左螺旋和右螺旋的比例雙親的花粉雙親的種子子孫樹左:右右右44:56右左47:53左右45:55左左47:53因而,左螺旋對右螺旋的比例似乎完全是由隨機發(fā)生的外來因素決定的.但是,為什么在表4觀測的數(shù)據(jù)中,右螺旋子孫樹略占優(yōu)勢(約55%)呢?其生長環(huán)境中一定存在很大的可能性使得樹木的葉子向右螺旋.如果真是如此,這種可能性依賴于樹的地理位置嗎?由于還有從世界各地收集到的數(shù)據(jù),不能明確回答這個問題.但是已經(jīng)發(fā)現(xiàn),從地球北半球收集到的樣本中,左螺旋的比例占,而從南半球收集到的樣本中,左螺旋占.這個差別恐怕是受地球繞一個方向自轉(zhuǎn)的影響.這也解釋了浴缸中漩渦的原理(當拔出抽水栓排出浴缸中的水時,會產(chǎn)生左的或右的漩渦).因而,在良好控制的條件下,北半球的漩渦多是逆時針方向的,南半球的漩渦多是順時針方向的.如果不是戴維斯熱心去尋找左螺旋和右螺旋樹木不同的特征,他的研究僅會保留某些學術(shù)上的特點.戴維斯花了12年多的時間在一個大種植園中比較了左螺旋和右螺旋樹的平均產(chǎn)量.他十分驚奇地發(fā)現(xiàn),左螺旋形樹的產(chǎn)量高出右螺旋形樹的10%.雖然還不能做出任何解釋——這個問題不容易解決,需要進一步研究,但這個經(jīng)驗的結(jié)論在經(jīng)濟上是很重要的.只選擇種植左螺旋形的樹木,產(chǎn)量可提高10%!戴維斯繼而提出了下面的問題:慣用左手的女性是否比慣用右手的女性更具想象力.森福德公司提供的研究表明,慣用左手的人具有特別的創(chuàng)造力而且長得漂亮.所有慣用左手的人中引以為豪的著名人物有:本杰明?富蘭克林,達?芬奇,愛因斯坦,亞歷山大大帝,朱莉阿斯?西撒……左螺旋和右螺旋的現(xiàn)象在植物王國中是非常普遍的.你或許還沒有注意到你的花園中,同一種植物上的花瓣也有左螺旋和右螺旋排列的.纏繞植物的爬藤有的僅是右螺旋形環(huán)繞,有的僅是左螺旋方向的.在加爾各答印度統(tǒng)計研究所,研究者企圖改變這個習慣所做的實驗以失敗告終.這些植物頑強地抵抗任何這樣的嘗試.更奇怪的是,除了非常低級的原始形式外,所有生物有機體的生化結(jié)構(gòu)都是左手形的.除了甘油外,所有的氨基酸(Aminoacids(D&L))都分為兩種形式:L(左旋)和D(右旋).兩種形式L和D相互是鏡像關(guān)系,分別稱為左旋形分子和右旋形分子.在植物和動物的蛋白質(zhì)中,甚至在簡單的有機體如細菌、霉菌、病毒等中所發(fā)現(xiàn)的所有24種氨基酸均是左旋形的.所有左旋形和右旋形分子均有完全相同的性質(zhì).生命可能在僅有D酸(右旋),或是L和D的混合形式中存在.那么,生命有機體的進化,比起D(右旋)分子,更愿意選擇L(左旋)分子是自然界中的偶然現(xiàn)象嗎?或者是說,左旋分子可能天生地適應(yīng)于有機體的構(gòu)造嗎?左邊傾向或許有什么神秘的力量,人們還得從科學上去探索.諾貝爾獎獲得者斯普瑞博士證明了:研究人是受左腦還是右腦的控制時,發(fā)現(xiàn)受左腦控制的人占多數(shù).簡單地說,其特征就是:相對于受右腦控制的人,受左腦控制的人更具有邏輯推理能力.17.日內(nèi)循環(huán)如果有人問你的身高是多少,你會立即給出答案——某個特定的數(shù)字.你的身高已經(jīng)被某人在某個時刻測量過了,并給了你這個數(shù)字.但是可能不會要求你去回答為什么這個數(shù)字能有效地代表你的身高.如果你確實考慮答案的話,則應(yīng)該是一個仔細按照“測量高度規(guī)定的過程”所得到的一個觀測值.這樣一個關(guān)于身高度量的定義能滿足所有實用的目的.但是出現(xiàn)了其他問題:我們所要測量的身高依賴于一天之內(nèi)不同的測量時間嗎?也就是說,如果在一天內(nèi)不同的時間測量,這個值會發(fā)生變化嗎?如果有變化,我們?nèi)绾未_定這個值呢?例如,人的身高(真值)早上和晚上有差別嗎?如果有,這個差別有多大?有任何生理學上的解釋嗎?一個簡單的統(tǒng)計調(diào)查可以給出答案.分別在早上和晚上仔細測量了加爾各答41名學生的身高,發(fā)現(xiàn)早上的測量值高于晚上的測量值,其平均差為9.6毫米.事實上,如果假設(shè)一天之內(nèi)不同時間測量的身高是沒有差別的話,則所出現(xiàn)的任何觀測值的差別可以歸因于測量上的誤差,其以相等的概率可以在正負兩個方向上產(chǎn)生.在這個假設(shè)下,所有41名學生測定的差別為正(即早上的身高值較大)的概率為2-41,即這個事件(測量誤差為正)在1013次實驗中最多發(fā)生5次.也就是說,反對身高無差別的假設(shè)的比率非常高.看起來,我們夜間睡眠時身高要伸長約1厘米,而白天工作時卻要縮減約1厘米.因為已經(jīng)顯示了早晚身高的差別,那么下一個問題也許就是:當我們進入睡眠時,身體的哪一部分在伸長呢?為了檢驗這一點,分別在早、晚對身體做了記號的幾個點之間進行了測量.發(fā)現(xiàn)整個身體約有1厘米的差別產(chǎn)生在脊椎部分.生理學上的說明是,白天因為椎骨之間的軟骨(椎間板)的收縮,椎骨變得非常接近;而夜里當身體放松時,椎骨又回到原來的位置.為什么教師愿意在早上授課呢?這是因為教師和學生在早上精力充沛,互相之間非常和諧.這個現(xiàn)象有任何生理學上的解釋嗎?從體內(nèi)血漿中可的松(一種荷爾蒙)成分的變化可以解釋我們在上午的機敏性.正常狀態(tài)下,早上8點時,人體內(nèi)的可的松水平為每100毫升含16微克(16μg/100ml),然后逐漸下降,至晚上11點為每100毫升含6微克(6μg/100ml),降低了%.早上可的松的升高催人起床,到晚上的下降則誘人入睡.因此,我們在上午是機敏的,當夜晚漸漸降臨時,我們會變得遲緩起來.實際上,就如身高所顯示的情形一樣,人類的幾個生理上的特征也在一天中不斷地變化,也就是以24小時為周期,每個人有自己特別的日內(nèi)循環(huán).哈爾堡(Hallberg,1974)強調(diào)了研究這樣的變動的重要性,即所謂的時間生物學,就能決定患者服藥的最佳時間.可以證明一天之中應(yīng)在某一時刻服用的藥,在其他時間服用是無效的;服用藥物的有效程度也許依賴于不同時間內(nèi)血漿中各種生化物質(zhì)的水平.時間生物學已成為一個具有廣泛應(yīng)用前景的活躍的研究領(lǐng)域.這些研究中,大多數(shù)發(fā)展均基于統(tǒng)計技術(shù)來發(fā)現(xiàn)并建立不同時間內(nèi)測量值的周期性.18.統(tǒng)計學中的鹽我平生所遇之最不平常的一件事,是我在一本哲學著作中發(fā)現(xiàn)食鹽的用量變成了一次雄辯的爭議的主題,其他許多類似的事情也受到類似的稱贊.Pheadrus(柏拉圖的“愛的盛宴”)1947年印度剛獨立,新德里就發(fā)生了一些公共暴亂.一個少數(shù)民族團體中的大多數(shù)人避難到被稱為“紅色堡壘”的地方,這是一個被保護的區(qū)域,少部分人逃到另一個地區(qū)的修姆因廟里,這個廟臨近一個古建筑物.政府有責任提供食物給這些避難者.這個任務(wù)委托給了承包商,由于沒有任何關(guān)于避難者人數(shù)的信息,政府被迫接受和支付承包商所提出的為避難者所購買的各種日用品和生活保障品的賬單.政府的這項開支看起來非常大,因而有人建議讓統(tǒng)計學家來求出“紅色城堡”中避難者的準確人數(shù).在當時的混亂條件下,這個問題看起來很困難.另一個復雜的情形是,政府所謂的統(tǒng)計學家是屬于多數(shù)派團體的(與避難者所屬團體對立),因而如果要應(yīng)用統(tǒng)計技術(shù)估計避難者的人數(shù)而要求進入“紅色城堡”的話,這些統(tǒng)計專家的安全沒有保證.擺在統(tǒng)計學家面前的問題是:在沒有任何避難者人數(shù)的先驗信息、沒有任何機會直接了解那個地區(qū)人口密度的情形下,同時在不能使用任何已知的用于估計或人口統(tǒng)計調(diào)查中的抽樣技術(shù)條件下,來估計一個給定地區(qū)的人口數(shù)量.專家們不得不想出某個辦法來解決這個問題.無論是統(tǒng)計學或是統(tǒng)計學家的失敗,政府都是能容忍的,不管怎樣,統(tǒng)計學家們接受了承包商交給政府的賬單,這些賬單記錄了提供給避難者的不同的生活用品,如所購入的米、豆類和鹽.如何利用這些資料呢?假設(shè)全體避難者一天所需要的米、豆類和鹽的總量分別為R,P,S.由消費調(diào)查,每人每天所需要這些食物的量分別為r,p,s.因而R/r,P/p,S/s,提供了一個集團中相同人數(shù)的平行估計量,也就是說,這三個值無論哪一個均是等價有效的.專家們利用承包商提供的R,P,S計算了這些值,發(fā)現(xiàn)S/s最小,而表示大米的R/r最大.與鹽相比,商品中最貴的大米的量有可能被夸大了(當時在印度鹽的價格非常低,因而不會夸大鹽的用量).因此,統(tǒng)計學家提出估計值S/s為紅色城堡中避難者的人數(shù).對所提出的這種方法的驗證是用同樣的方法獨立地估計了修姆因廟里的避難者人數(shù)(這里的人數(shù)要少得多),得到了很好的近似值.這個基于鹽量的估計方法思想來自森古普塔他長期在印度統(tǒng)計研究所工作.統(tǒng)計學者所給出的估計值對政府做出行政管理決策時非常有用.這也提高了統(tǒng)計學的威信,從那以后,統(tǒng)計學受到政府的大力支持,可以說,這個估計方法對印度統(tǒng)計學的發(fā)展做出了很大的貢獻.這里所用的方法在任何教科書中都沒有記載,是一個非慣例且很巧妙的方法.這個思想的背后是統(tǒng)計的推理和定量的思考,或許也可以說包含了一種藝術(shù)成分吧.19.血液檢查中的經(jīng)濟學第二次世界大戰(zhàn)期間,必須招募很多人到軍隊,要檢查申請者中某種罕見的疾病需要對每一個人進行血液檢查,這無疑是一項巨大的工作.盡管被淘汰的比率很低,但這個檢驗是決定一個人是否能參軍的關(guān)鍵.如何保證“有問題的”會被淘汰掉,同時又減少檢驗次數(shù)呢?這在教科書上是沒有答案的.這里介紹一個統(tǒng)計學家富有才氣的解答.假設(shè)申請者中平均20個人中有一個人患有此病,也就是說,將申請者20個人分為一組,對每一組進行20次血液檢驗,則平均每一組有一例呈陽性.顯然,如果把幾個人的血樣混合起來進行檢查,僅當至少有一個人的血呈陽性時混合血樣才呈陽性.代替20次單個檢驗,我們把20個人分為兩組,對10個人一組的兩個混合血液樣本分別進行檢驗.平均來說,此時一個混合樣本呈陽性,另一個呈陰性.然后僅對呈陽性的混合樣本進行單個檢驗,以確認哪一個人的血液是陽性的.這樣,對每20個人一組平均僅需2+10=12次檢驗,即減少了20次中的8次(減少40%).可以看到,如果把20個樣本按5個一組進行混合,則平均實驗總數(shù)僅有4+5=9次,這是對20個申請者一組進行檢驗所需次數(shù)的最佳值,減少了11次,即55%.類似上述問題的求最佳值過程依賴于要調(diào)查疾病的流行率.如果假設(shè)某種疾病個人患病的比率為,則進行血液檢查時,混合樣本人數(shù)大小的最佳值應(yīng)為使最大的.得到最佳值一個最好的方法的過程,是對不同的列表求出函數(shù)的值,選擇其中最大值所對應(yīng)的.這個思想非常漂亮,可用于其他領(lǐng)域.例如,常常要對來自不同水源的水進行檢驗,確定是否被污染.按上面所描述的混合樣本和分組的實驗手段,則有可能在不增加實驗設(shè)備的情況下,檢驗大量來自不同水源的樣本并能做出精密的檢查.混合樣本檢測的方法現(xiàn)已廣泛實踐于環(huán)境保護研究和其他領(lǐng)域,用于削減實驗檢測費用.20.家庭人口、出生順序和智商IQ過去20年中,人們對中學高年級學生的平均SAT(學業(yè)才能測試)成績降低已經(jīng)有一些研究.為了解釋這個現(xiàn)象,在一些國家收集了子女SAT成績以及可能與之相關(guān)的父母的職業(yè),家庭人數(shù)和出生順序等數(shù)據(jù).下面表5和表6給出了兩個相關(guān)研究的數(shù)據(jù).表5和表6的數(shù)據(jù)表明:成績隨家庭人數(shù)的增加一般在降低(表6中家庭僅有一人的情形例外),隨出生順序的增加而降低(表明后出生的不如先出生的聰明).有爭議的是,比起早出生的來說,是否后出生的子女是在較低智商的環(huán)境中成長的,這里考慮的智商環(huán)境是父母與較早出生子女智商水平的平均值.可以認可的一種情形是隨著增加子女間年齡的間隔其影響是可以逆轉(zhuǎn)的.因此,僅取決于年齡來判斷智商水平將使得早出生的子女高于晚出生的子女的好幾倍.表5英國家庭人口中按子女人數(shù)分類計算的子女平均智商IQ家庭子女人數(shù)智商IQ抽取家庭樣本數(shù)111522123185415251276103788表61965年美國國家獎學金資格測試按家庭人口排序的平均數(shù)家庭人口出生順序123451234521.令人悲哀的數(shù)字不要告訴我那些悲哀的數(shù)字,人生不過是一場空夢.朗費羅()今天,通過報紙、雜志和其他新聞媒介,我們已經(jīng)能不斷地認識到我們的飲食習慣、運動、吸煙和飲酒的習慣,以及在工作單位和其他日常活動中所受到的壓力對我們的影響.這些信息,常常用帶有單位的損失或增益的數(shù)值來表示.下面,從Cohen和Lee(1979)的文章中我們抄錄了一些悲哀的數(shù)字.我們?nèi)绾谓忉屵@些數(shù)字呢?這些數(shù)字傳達的是什么信息呢?個人如何利用這些數(shù)據(jù)形成自己的生活模式來增加幸福呢?(參見表7)首先,考慮表7中的第一個數(shù)字,即未婚男性平均壽命的損失.這個數(shù)字通??梢杂伤劳鲇涗浿杏嘘P(guān)死者的性別、婚姻狀態(tài)和年齡的信息中得到.災(zāi)難性的死亡記錄中,只須分別對已婚和未婚簡單地計算平均死亡年齡.這些平均數(shù)字的差為3500天.這個結(jié)果可能給未婚者一個危險的信號,說明結(jié)婚的慣例是好的,而且為某些人的早結(jié)婚可大約延長10年壽命的建議提供了一個強有力的根據(jù)!然而,這里并不意味著這個原因(結(jié)婚)和結(jié)果(延長10年壽命)的關(guān)系適用于每一個人.十分可能的是,對某個人來說,結(jié)婚就意味著是自殺!毫無疑問,如果按照男性的個人特征進行分組所做的死亡記錄,會得到有更多信息的更好的列表結(jié)果.一般來說,不同的組壽命的長短也不同.每個人可根據(jù)自己的特征,參照與自己的特征相似的分組的數(shù)字進行分析.表7不同原因所引起的壽命損失原因天數(shù)原因天數(shù)未結(jié)婚(男性)3500飲酒130慣用左手3285槍炮事故11未結(jié)婚(女性)1600自然放射線830%超重1300醫(yī)療X-射線620%超重900咖啡6吸香煙(男性)2250口服避孕藥5吸香煙(女性)800減肥飲料2抽雪茄330PAP檢驗-4*用煙斗抽煙絲220家里有煙霧警報-10危險工作,事故300帶有氣墊的轎車-50一般工作,事故74移動冠狀動脈監(jiān)護器-125*負數(shù)表示增加壽命.從表7可以看到,慣用左手的人比慣用右手的人少活約9年.這意味著慣用左手的人在遺傳上有什么問題嗎?恐怕不是吧:這個差別或許是由于慣用左手的人生活的這個世界,即絕大多數(shù)日用品都是為慣用右手的人的方便而生產(chǎn)的不利因素所造成的.但是,統(tǒng)計信息對那些慣用左手的人是有用的,保護自己免遭可能的危險.一般說來,平均值是把個體組成的集合(總體)視為整體的一個概括特征的指標,可用于比較各個不同的總體.我們可以說,平均月收入1000美元個體組成的總體比平均月收入500美元個體組成的總體富裕.但是,平均值對個體之間個人收入的差別沒有任何評價.例如,個體的收入可以在20美元到100000美元之間變動,而平均值為1000美元.一個總體內(nèi),個體之間收入的差別稱為變異(variability),也是與總體之間的比較有關(guān)的指標.絕大多數(shù)情況下,平均值和某些變異的量度(如收入的范圍),可以提供一些實際水平的信息.平均值自身有可能是靠不住的,因而在對個體進行判斷時并不總是有用.可以想象一下,如果讓一個不會游泳的人涉過一條平均深度淺于他的身高的河,會是什么情形!22.天氣預報可信賴的天氣預報員將他們的麥克風移近窗戶,從而決定是否采用官方的預報或是根據(jù)他自己對窗戶外情形的判斷來預報.幾年以前,天氣預報用的是籠統(tǒng)的表達形式,諸如:明日有雨,明日可能有雨,明日不會降雨等等.天氣預報經(jīng)常出錯.今天,天氣預報采用了不同的形式:明日有雨的可能性為60%.這個60%意味什么?這樣的預報比起早期的預報形式來說包含更多的信息嗎?或許,對那些完全不知道“可能性”代表什么的人來說,今天的天氣預報會引起混亂,甚至會產(chǎn)生今天的預報不如過去準確或是不如過去有用的印象.天氣預報中,無論怎樣都會有不確定的因素.因而,從邏輯上講,沒有給出預測精度的預報,對決策來說是毫無意義或者是沒有用的.天氣預報中,60%這個數(shù)字提供了預測精度的一個度量.作出這樣的預報,常常意味的是明天有60%可能會降雨.當然,不可能斷言某一特定時刻會降雨.在這個意義下,預報“明日有雨的可能性為60%”更有用,比起“明日有雨”的籠統(tǒng)說法來更有邏輯性.那么,在什么意義下這個敘述是有用的呢?假設(shè)基于天氣預報“明天有雨的可能性為60%”的情形下要決定是否帶傘.再假設(shè)無論哪一天,由于帶傘所引起的不便能用錢來度量,設(shè)為元,而由于沒有帶傘被淋濕了的損失設(shè)為元,則當降雨的可能性為60%時,以元的形式求出兩種決策下所期望的損失為決策期望的損失帶傘不帶傘×r+×0=因而,當≤時,決定帶傘,時不帶傘,可以最小化你的損失.這是一個簡單的例證,說明如何利用預報的準確度,來加權(quán)處理不同的可能的決策下所產(chǎn)生的結(jié)果,從而選擇最佳.如果在預報中,沒有指定不確定的精度,就沒有基礎(chǔ)去做出一個決策.23.社會輿論調(diào)查即使我下定決心,我仍充滿了猶豫.奧斯卡·列文托(OscarLevant)過去,當權(quán)者們利用偵探系統(tǒng)來查明公眾的觀點.或許,由此所收集的信息幫助他們形成公眾政策,制定和實施法律.現(xiàn)代的社會輿論調(diào)查的歷史,是由蓋洛普民意調(diào)查的第一個報告開始的.今天,社會輿論調(diào)查在報紙和其他新聞媒介中已經(jīng)扮演了一個非常重要的角色.他們收集公眾對各種社會、政治和經(jīng)濟問題上的信息,出版摘要報告.這樣的輿論調(diào)查在民主政治社會中能起到積極的作用.他們可以告訴政治領(lǐng)導人和官僚們什么是公眾的需要,什么是公眾的愛好.他們也向公眾報告新聞,通告公眾的想法,或許可幫助在某個重要的問題上明確表現(xiàn)公眾的觀點.通常以某種特定的統(tǒng)計形式宣布公眾輿論調(diào)查的結(jié)果同時需要一定的解釋.例如,播音員說:贊成總統(tǒng)外交政策的人占42%,正負誤差界限為4%.代替給出單個數(shù)字,這里播音員給出一個區(qū)間(42-4,42+4)=(38,46).這是如何得到的?如何解釋呢?假設(shè)所有美國成人中,實際贊成總統(tǒng)外交政策的比率為數(shù)值T.為了了解T的大小,必須接觸每一個美國成人,得到他們對“你贊成總統(tǒng)的外交政策嗎?”這樣問題的反應(yīng).如果必須要得到一個限時的、迅速的答案,這是不可能的.最好的方法是求出一個最接近于T的估計值.新聞媒介對某一數(shù)量的“任意選擇的個體”進行電話采訪,得到他們的答案.如果接觸了數(shù)量為的個體,其中有個人回答“贊成”,則T的估計值可為100%×().當然,這樣的估計是存在一定的誤差的,因為我們所取的僅僅是某個集合中的樣本(美國成人中很小的一部分).如果接觸另外的個人,可能得到不同的估計值.如何求出估計值的誤差呢?基于兩個統(tǒng)計學家內(nèi)曼和阿·皮爾森發(fā)展起來的一個理論,我們可以算出一個數(shù)字,使得T的真實值以很高的概率,一般為95%(或99%),落于區(qū)間(100%×()-,100%×()+)之內(nèi).也就是說,這個區(qū)間不包含真實值的事件,等價于在裝有5個(或1個)白球,95個(或99個)黑球的口袋中隨機地抽取一球,“抽得白球”這樣一個幾乎很少發(fā)生的事件.社會輿論調(diào)查的有效性,基于所選擇個體的“代表性”.十分明顯的是,調(diào)查的結(jié)果是依賴于所選擇個體所屬的政治團體(民主黨或共和黨)的.即便假設(shè)所選擇的個人的政治所屬是沒有偏差的,如果有些個體不回答問題,有些又恰恰屬于某些特別的政治團體,則結(jié)果也會不同.任何調(diào)查中,都有不同程度的不回答者,這種場合下要評價誤差是困難的,除非有更多的可利用的信息.24.迷信和心理作用當問到倫理學家斯馬利安為什么不相信占星術(shù)時,他說他是雙子星座的人,雙子星座的人絕不會信占星術(shù).我的一個朋友是一個虔誠的基督教徒,他把剛參加工作得到的第一個月的薪水全部捐給了教會.當我問他是否相信上帝時,他回答到:“我不知道上帝是否存在,但相信上帝的存在并以此來行動,是安全的.”或許,信仰和迷信在每一個人的生活中都存在,一旦當它們變成一個人行動的唯一指導時,就會產(chǎn)生危險.心理作用會對一個人身體的生理功能產(chǎn)生影響嗎?很遺憾,這個問題還沒有實驗證明.但是已經(jīng)不斷有研究報告涉及支持所謂“心于物質(zhì)之上”的言論.最近有一個研究報告,圣地亞哥的加利福尼亞大學的菲利普斯花了25年的時間,對老年美籍華裔婦女在一個重要的節(jié)日——中秋節(jié)前后的死亡率進行了調(diào)查,他發(fā)現(xiàn)節(jié)日前一周死亡率比通常低%,節(jié)日后一周死亡率比通常高出%.看起來,人具有一種能力來延續(xù)死亡直到經(jīng)歷某個吉祥的時刻.在菲利普斯較早(1977年)的研究中,對1251個著名的美國人的出生和死亡月份數(shù)據(jù)的調(diào)查的論證也有類似的結(jié)果.表8給出了菲利普斯報告的數(shù)據(jù),以及英國皇家學會中印度籍會員的有關(guān)數(shù)據(jù).表8出生月前后以及出生月間的死亡率出生月前出生月出生月后總數(shù)比率P65432112345樣本1243120233416263637412634348樣本2666967736770938284738772903樣本302102232013218注:P=在出生月和出生月后死亡的人的比率.樣本1《400個著名美國人》中所列出的其中348人.樣本2《現(xiàn)代名人錄》三卷(1897~1942,1943~1950,1951~1960)中著名家庭中的家長.樣本3英國皇家學會中去世的印度籍理事.從表8可以看出,出生月前去世的人數(shù)比在出生月中和出生月后去世的人要少.整個數(shù)據(jù)看起來顯示了一個趨向:延緩死亡到誕生月后.這些研究結(jié)果是否顯示一些人能夠運用他們的能力延緩死亡日期,直到某個重要的事件發(fā)生,如生日、節(jié)日或紀念日.與這個類似的一個著名例子是有關(guān)托馬斯·杰弗遜(ThomasJefferson)的報道,據(jù)說他延長了他的死亡直到1826年的7月4日——剛好《獨立宣言》簽字后的第50年,他僅僅問了醫(yī)生:“今天是7月4日嗎?”就去世了.像菲利普斯發(fā)表的這樣有關(guān)死亡日期的研究報告,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專業(yè)水穩(wěn)料供應(yīng)商合同
- 鋁型材購銷合同書范本
- 花崗巖選購合同樣本
- 項目咨詢服務(wù)合同評估全文
- 電氣安裝工程分包協(xié)議樣本
- 購房補充協(xié)議的作用和意義
- 商務(wù)秘書社交媒體營銷合同
- 酒店應(yīng)急預案服務(wù)合同
- 英文版購銷合同交流
- 房屋買賣定金合同判決書案例借鑒
- 加油站安全檢查表分析(SCL)及評價記錄
- 豐田車系卡羅拉(雙擎)轎車用戶使用手冊【含書簽】
- 幼兒園突發(fā)安全事件事故處置措施
- 現(xiàn)代藥物制劑與新藥研發(fā)智慧樹知到答案章節(jié)測試2023年蘇州大學
- 肺結(jié)核的學習課件
- 心肺復蘇術(shù)最新版
- 2023-2024學年貴州省貴陽市小學數(shù)學六年級上冊期末自測提分卷
- GB/T 9115.2-2000凹凸面對焊鋼制管法蘭
- 永久避難硐室安裝施工組織措施
- 元旦節(jié)前安全教育培訓-教學課件
- 芯片工藝流程課件1
評論
0/150
提交評論