統(tǒng)計(jì)學(xué)是什么?統(tǒng)計(jì)學(xué)七支柱_第1頁
統(tǒng)計(jì)學(xué)是什么?統(tǒng)計(jì)學(xué)七支柱_第2頁
統(tǒng)計(jì)學(xué)是什么?統(tǒng)計(jì)學(xué)七支柱_第3頁
統(tǒng)計(jì)學(xué)是什么?統(tǒng)計(jì)學(xué)七支柱_第4頁
統(tǒng)計(jì)學(xué)是什么?統(tǒng)計(jì)學(xué)七支柱_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)學(xué)是什么?統(tǒng)計(jì)學(xué)七支柱下文節(jié)選自《統(tǒng)計(jì)學(xué)七支柱》,已獲人郵圖靈許可,[遇見數(shù)學(xué)]特此表示感謝!“統(tǒng)計(jì)學(xué)是什么?”早在1838年就有人提出過這個(gè)問題(與英國(guó)皇家統(tǒng)計(jì)學(xué)會(huì)有關(guān)),此后這個(gè)問題又被反復(fù)提起。多年來,鐵打的問題和流水的答案已成為該討論的特點(diǎn)。綜合問題和答案可以看出,持續(xù)的疑問源于,統(tǒng)計(jì)學(xué)并不是一個(gè)單一學(xué)科。自誕生至今,統(tǒng)計(jì)學(xué)的工作內(nèi)容經(jīng)歷了翻天覆地的變化:從極端強(qiáng)調(diào)“統(tǒng)計(jì)學(xué)家僅收集數(shù)據(jù)而不分析”,轉(zhuǎn)變?yōu)閺挠?jì)劃到分析的所有研究階段皆積極尋求與科學(xué)家的合作。并且,統(tǒng)計(jì)學(xué)工作者面對(duì)不同的科學(xué)領(lǐng)域時(shí),需要相應(yīng)調(diào)整自身角色:在某些應(yīng)用中,我們接受基于數(shù)學(xué)理論推導(dǎo)的科學(xué)模型;而某些應(yīng)用中,我們構(gòu)建如牛頓力學(xué)體系一樣穩(wěn)定的模型。在一些應(yīng)用中,我們既是積極的計(jì)劃者,又是消極的分析師;而在另一些應(yīng)用中,我們的角色則恰恰相反。統(tǒng)計(jì)學(xué)工作者除了角色眾多,還需要為了避免失誤、保持角色平衡而面對(duì)種種挑戰(zhàn)。這就難怪“統(tǒng)計(jì)學(xué)是什么”的老問題,無論面對(duì)哪個(gè)時(shí)代的新挑戰(zhàn),總會(huì)被重復(fù)提起?!敖y(tǒng)計(jì)學(xué)的挑戰(zhàn)”在19世紀(jì)30年代指經(jīng)濟(jì)統(tǒng)計(jì),在20世紀(jì)30年代指生物問題,而目前指定義模糊的“大數(shù)據(jù)”問題。統(tǒng)計(jì)學(xué)有各種各樣的問題、方法和解釋,那到底有沒有自己的核心科學(xué)呢?如果統(tǒng)計(jì)學(xué)工作者總是致力于在諸多科學(xué)領(lǐng)域工作——從公共政策到驗(yàn)證希格斯玻色子的發(fā)現(xiàn)——甚至有時(shí)候只被視為服務(wù)人員,那統(tǒng)計(jì)學(xué)還能真正合理地被大家視為統(tǒng)一的學(xué)科嗎?它能被視為我們統(tǒng)計(jì)學(xué)工作者自己的科學(xué)嗎?這個(gè)問題就是我想在《統(tǒng)計(jì)學(xué)七支柱》書中解決的。我不打算告訴你統(tǒng)計(jì)學(xué)是什么或不是什么,而是嘗試制定七個(gè)原則,即支撐統(tǒng)計(jì)學(xué)領(lǐng)域的七根支柱。它們?cè)谶^去曾以不同方式支撐統(tǒng)計(jì)學(xué),我保證,它們一定還會(huì)在無限的未來繼續(xù)起到這樣的作用。我會(huì)盡力使你相信,每根支柱的引入都是革命性的,并對(duì)統(tǒng)計(jì)學(xué)的發(fā)展產(chǎn)生了深遠(yuǎn)影響。本書書名借鑒了托馬斯·勞倫斯(即阿拉伯的勞倫斯)完成于1926年的回憶錄《智慧七柱》。這部回憶錄的名稱源于《舊約·箴言》,《箴言》9:1寫道:“智慧建造了房舍,雕琢了七根支柱?!备鶕?jù)《箴言》,建造智慧的房屋是為了歡迎尋求知識(shí)的人。此外,本書還有一個(gè)目的:闡釋統(tǒng)計(jì)推理的核心思想。將這七個(gè)原則稱作“統(tǒng)計(jì)學(xué)的七大支柱”之前,我先強(qiáng)調(diào),它們是七根“支撐”的柱子,是統(tǒng)計(jì)學(xué)的學(xué)科基礎(chǔ),而不是完整的體系。一方面,這七根支柱都有古老的起源;另一方面,現(xiàn)代學(xué)科通過自身結(jié)構(gòu)的偉大獨(dú)創(chuàng)性,以及華麗承諾不斷產(chǎn)生的精彩的新思想,將統(tǒng)計(jì)學(xué)構(gòu)建為多元化的科學(xué)。在不脫離現(xiàn)代工作的前提下,我希望在統(tǒng)計(jì)學(xué)核心中建立跨時(shí)代和跨應(yīng)用領(lǐng)域的連接和統(tǒng)一。第一根支柱稱為聚合(Aggregation)。我們也可以使用它在19世紀(jì)的名稱“觀測(cè)的組合”,甚至使用最簡(jiǎn)化的名稱:均值。名字太簡(jiǎn)單可能誤導(dǎo)讀者,其實(shí),雖然它現(xiàn)在看來已不新鮮,但在早年卻真正地具有革命性,并且時(shí)至今日依然如此——無論它在何時(shí)進(jìn)入新的應(yīng)用領(lǐng)域。那么,它如何體現(xiàn)革命性?按照規(guī)定,給定一些觀測(cè)值,你可以通過丟棄信息而真正獲得信息!我們對(duì)觀測(cè)值取簡(jiǎn)單的算術(shù)平均值,丟棄觀測(cè)值的個(gè)別特征,而將其都納入?yún)R總值進(jìn)行考慮。目前,這在重復(fù)測(cè)量中很常見,比如觀測(cè)恒星在太空中的位置。然而在17世紀(jì),可能需要忽略這樣一些信息,比如法國(guó)是個(gè)酒鬼觀測(cè)員做出的觀測(cè),俄羅斯人是用舊儀器做出的觀測(cè),英國(guó)是個(gè)很靠譜的朋友做的觀測(cè)。事實(shí)上,抹去個(gè)體觀測(cè)的細(xì)節(jié)比任何單個(gè)觀測(cè)都能給出更棒的指示。根據(jù)記錄,算術(shù)平均值的使用最早出現(xiàn)在1635年;而其他形式的統(tǒng)計(jì)匯總的歷史則更為悠久,可以追溯到美索不達(dá)米亞文明最初出現(xiàn)文字的時(shí)代。當(dāng)然,第一根支柱最近的重要實(shí)例更為復(fù)雜。最小二乘法及其衍生方法的本質(zhì)都是均值,它們通過對(duì)數(shù)據(jù)進(jìn)行加權(quán)匯總而抹去數(shù)據(jù)的個(gè)體特性——指定的協(xié)變量除外。甚至核密度估計(jì)和各類現(xiàn)代平滑器在本質(zhì)上也是均值。第二根支柱叫作信息(Information),更具體地說是“信息度量”,也是說來話長(zhǎng)又很有意思。我們什么時(shí)候有足夠的證據(jù)證明一種藥物的療效?這個(gè)問題可以追溯到古希臘。而研究信息積累率的時(shí)代則要近很多。18世紀(jì)早期,人們發(fā)現(xiàn)在很多情況下,一個(gè)數(shù)據(jù)集的信息量?jī)H與觀測(cè)個(gè)數(shù)n的平方根成正比,而不與n本身成正比。這也是革命性的思想。假設(shè)你試圖說服一名宇航員,如果他想將研究精度提高一倍,那么他需要用4倍數(shù)目的觀測(cè);又或者,第二組20個(gè)觀測(cè)值與前20個(gè)觀測(cè)值盡管同樣精確,但第二組的信息量并不像第一組的那么大。我們將這個(gè)思想稱為“根號(hào)n規(guī)則”。它需要一些很強(qiáng)的假設(shè),并且在很多復(fù)雜的情形中使用時(shí)需要修正。無論如何,1900年就明確建立了這樣的思想:數(shù)據(jù)中的信息可以測(cè)量,而測(cè)量的精度與數(shù)據(jù)量有關(guān),某些情形下可以精確刻畫相關(guān)性的形式。我將第三根支柱命名為似然(Likelihood),意味著使用了概率的推理的校準(zhǔn)。顯著性檢驗(yàn)和普通的P值都是最簡(jiǎn)單的似然形式,但誠(chéng)如其名,與“似然”有關(guān)的方法豐富多彩,其中許多方法或者與費(fèi)舍爾推斷的參數(shù)族有關(guān),或者與貝葉斯推斷的參數(shù)族有關(guān)。各種各樣的檢驗(yàn)可以追溯到至少一千年前,但最早使用概率的檢驗(yàn)則出現(xiàn)在18世紀(jì)早期。許多例子出現(xiàn)在18世紀(jì)~19世紀(jì),而系統(tǒng)性處理則出現(xiàn)在20世紀(jì)羅納德·費(fèi)舍爾的工作,以及耶日·奈曼和伊岡·皮爾遜的工作中。從那時(shí)起,統(tǒng)計(jì)學(xué)家開始認(rèn)真發(fā)展了一整套似然理論。人們最熟悉的檢驗(yàn)可能是用概率校準(zhǔn)推斷,但一個(gè)概率數(shù)字無論作為置信區(qū)間還是貝葉斯后驗(yàn)概率,都必須完全附屬于一種推斷。事實(shí)上,250年前發(fā)表的“托馬斯·貝葉斯定理”就是為了完成這個(gè)目標(biāo)。第四根支柱的名字是相互比較(Intercomparison)。這個(gè)名稱借鑒了弗朗西斯·高爾頓的一篇論文,它表達(dá)了一個(gè)過去激進(jìn)但現(xiàn)在普通的思想:統(tǒng)計(jì)比較常??梢圆捎脭?shù)據(jù)自身的內(nèi)部標(biāo)準(zhǔn),而不必采用外部標(biāo)準(zhǔn)。相互比較最常見的例子是學(xué)生t檢驗(yàn)和方差分析的檢驗(yàn)。一方面,在復(fù)雜設(shè)計(jì)中,變化的劃分可能錯(cuò)綜復(fù)雜;另一方面,復(fù)雜設(shè)計(jì)允許區(qū)組設(shè)計(jì)、裂區(qū)設(shè)計(jì),或完全根據(jù)手頭數(shù)據(jù)評(píng)價(jià)的層次設(shè)計(jì)。這種思想非常激進(jìn),而且在“有效”的檢驗(yàn)中,這種思想有著與最強(qiáng)大的工具一樣的問題:可能由于忽略外部科學(xué)標(biāo)準(zhǔn)而導(dǎo)致錯(cuò)誤方式的濫用。我們可以將自助法視為相互比較在假設(shè)弱化后的現(xiàn)代版本。第五根支柱叫作回歸(Regression)。這個(gè)名稱源于高爾頓1885年發(fā)表的論文,這份文獻(xiàn)基于二元正態(tài)分布解釋了什么是回歸。達(dá)爾文的自然選擇理論存在內(nèi)部矛盾:選擇需要增加多樣性,但定義物種需要群體外觀穩(wěn)定。高爾頓嘗試為這個(gè)理論設(shè)計(jì)一個(gè)數(shù)學(xué)框架,并成功地克服了這組矛盾。回歸現(xiàn)象可簡(jiǎn)單解釋為:假設(shè)有兩個(gè)不完全相關(guān)的觀測(cè)變量,你選擇了其中極值遠(yuǎn)離均值的變量,那么可以預(yù)期另一個(gè)(以標(biāo)準(zhǔn)差為單位)不會(huì)那么極端。高個(gè)子的父母平均會(huì)孕育身高稍矮的子女,而高個(gè)子的子女平均會(huì)有身高稍矮的父母。但這一現(xiàn)象涉及的不只是一個(gè)簡(jiǎn)單的悖論:真正新奇的思想在于,提問的方式不同,答案就完全不同。事實(shí)上,這項(xiàng)工作引入了現(xiàn)代多元分析和任何推斷理論都需要的工具。引入這個(gè)條件分布的工具前,真正一般化的貝葉斯定理無法使用。因此,這根支柱與因果、推斷一樣,是貝葉斯學(xué)派的核心內(nèi)容。第六根支柱是設(shè)計(jì)(Design)。類似于在“實(shí)驗(yàn)設(shè)計(jì)”中的含義,但“設(shè)計(jì)”的范圍更廣泛,它的目標(biāo)是:先設(shè)定觀測(cè)的權(quán)重相同,再訓(xùn)練我們的思想。設(shè)計(jì)的某些要素歷史悠久,《舊約全書》和早期的阿拉伯醫(yī)學(xué)提供了相應(yīng)的例子。從19世紀(jì)晚期,隨著查爾斯·皮爾斯和費(fèi)舍爾先后發(fā)現(xiàn)隨機(jī)化在推斷中的巨大作用,統(tǒng)計(jì)學(xué)出現(xiàn)了對(duì)設(shè)計(jì)主題的新理解。費(fèi)舍爾認(rèn)識(shí)到結(jié)合嚴(yán)謹(jǐn)?shù)碾S機(jī)化方法將會(huì)帶來好處,于是在實(shí)驗(yàn)法則中引入激進(jìn)的改變。這些改變一反幾個(gè)世紀(jì)以來的實(shí)驗(yàn)哲學(xué)和實(shí)踐,將這一主題提升到了一個(gè)新的高度。多因素現(xiàn)場(chǎng)試驗(yàn)中,費(fèi)舍爾的設(shè)計(jì)允許效應(yīng)的分離和相互作用的估計(jì);實(shí)施隨機(jī)化后,有效推斷不再需要正態(tài)性或者材料的均勻性的假設(shè)。第七根也是最后一根支柱稱為殘差(Residual)?!皻埐睢北硎尽捌渌囊磺小?,你也許會(huì)懷疑這是一種托詞,但我想表達(dá)一種更具體的思想。從19世紀(jì)30年代開始,有關(guān)殘差現(xiàn)象的概念在關(guān)于邏輯的書籍中就很常見。正如一位作者所說:“復(fù)雜的現(xiàn)象……可以通過減去已知原因的影響進(jìn)行簡(jiǎn)化……留下……需要解釋的殘差現(xiàn)象。通過這樣處理……科學(xué)……得到了極大的促進(jìn)?!倍螅@種思想總體上歸入古典的范圍,卻以一種新方式在統(tǒng)計(jì)學(xué)中得到使用。這種新方式結(jié)合了結(jié)構(gòu)化模型族,并通過概率計(jì)算和統(tǒng)計(jì)邏輯在族內(nèi)做選擇,從根本上強(qiáng)化和規(guī)范了方法。模型診斷(畫出殘差)在統(tǒng)計(jì)學(xué)中極為常見,但通過擬合和比較嵌套模型探索高維空間的方法更具重大意義。每個(gè)對(duì)回歸系數(shù)顯著性的檢驗(yàn)都體現(xiàn)了這種思想,針對(duì)時(shí)間序列的每一個(gè)探索亦是如此。我重新概括了七根支柱,用七種基本統(tǒng)計(jì)思想的作用來表達(dá)——盡管這樣做也許會(huì)導(dǎo)致過度簡(jiǎn)化的風(fēng)險(xiǎn)。(1)定向減少或壓縮數(shù)據(jù)的價(jià)值。(2)數(shù)據(jù)量上升,價(jià)值會(huì)減少。(3)如何使用概率測(cè)量我們做的事?(4)如何使用數(shù)據(jù)中的內(nèi)部變化幫助分析?(5)從不同角度提問可以產(chǎn)生有啟發(fā)性的不同答案。(6)規(guī)劃觀測(cè)的重要作用。(7)所有這些思想如何用于科學(xué)探索和比較彼此矛盾的解釋。但是,無論這些思想出現(xiàn)于過去還是現(xiàn)在,以上平淡的陳述都沒有表現(xiàn)出這些思想出現(xiàn)時(shí)的革命性。在當(dāng)時(shí),這些思想——從放棄數(shù)據(jù)值的個(gè)體特點(diǎn)到降低新數(shù)據(jù)和等價(jià)值數(shù)據(jù)的權(quán)重,再到克服障礙使用概率測(cè)量博弈外部的不確定性——已經(jīng)丟棄或推翻了既有的牢固的數(shù)學(xué)和科學(xué)信念。世界產(chǎn)生了數(shù)據(jù),那么數(shù)據(jù)自身的變化如何能夠測(cè)量世界的不確定性?高爾頓的多元分析向科學(xué)家揭示,科學(xué)家依賴的比例規(guī)則(流傳自歐幾里得時(shí)代的比例規(guī)則)不適用于數(shù)據(jù)有變化的科學(xué)世界。這推翻了3000年來的數(shù)學(xué)傳統(tǒng)。費(fèi)舍爾的設(shè)計(jì)直接否定了實(shí)驗(yàn)科學(xué)家和邏輯學(xué)家?guī)讉€(gè)世紀(jì)以來深信的內(nèi)容,他的模型比較方法對(duì)實(shí)驗(yàn)科學(xué)來說絕對(duì)新穎,而接受這種方法則需要幾代人的思維改變。想知道以上所有思想的革命性和影響力有多大嗎?只要考慮一下這些思想持續(xù)受到的強(qiáng)烈批評(píng)便可知一二。這些批評(píng)常常攻擊那些我認(rèn)為價(jià)值很大的地方,列舉如下?!衽u(píng)統(tǒng)計(jì)將人視為純粹的統(tǒng)計(jì)量,而忽略人作為個(gè)體的特性。●批評(píng)大數(shù)據(jù)僅僅可以回答那些默認(rèn)基于規(guī)?;A(chǔ)的問題?!衽u(píng)顯著性檢驗(yàn)會(huì)忽略問題的科學(xué)內(nèi)容?!衽u(píng)回歸分析會(huì)忽略問題中更重要的內(nèi)容。這些批判本身也有缺陷。雖然不乏正確之處,并且在某些極端的例子中直擊要害,但是,這些批判常常只瞄準(zhǔn)方法,而非方法在例子里的運(yùn)用方式。1927年,愛德華·B.威爾遜對(duì)此做了一番精彩的評(píng)論:“就像沒有接受過工具訓(xùn)練的人會(huì)害怕倉庫中的任何一件工具一樣,缺乏統(tǒng)計(jì)學(xué)知識(shí)的人會(huì)相信科學(xué)方法論中的統(tǒng)計(jì)工具都非常危險(xiǎn)?!蔽覍⒅v述這七根支柱,并簡(jiǎn)單介紹它們的歷史。這七根支柱都是優(yōu)秀的工具,但人們需要足夠的智慧和訓(xùn)練才可以有效使用它們。這些思想不是數(shù)學(xué)的一部分,也不是計(jì)算機(jī)科學(xué)的一部分,它們是統(tǒng)計(jì)學(xué)的核心內(nèi)容。另外,我現(xiàn)在需要承認(rèn),雖然在本書開始直接否認(rèn)了我的目的是解釋統(tǒng)計(jì)學(xué)是什么,但到本書結(jié)尾,其實(shí)我已經(jīng)完成了這個(gè)目標(biāo)?,F(xiàn)在,我要簡(jiǎn)短地回應(yīng)一個(gè)未了結(jié)的問題:《箴言》9:1究竟說了什么?它是這樣一條古語:“智慧建造了房舍,雕琢了七根支柱?!睘槭裁匆婚g房屋需要七根柱子?這種結(jié)構(gòu)無論在古代還是在當(dāng)代似乎都鮮有人知。最近的一項(xiàng)我比較信服的研究表明,那些負(fù)責(zé)為日內(nèi)瓦1和詹姆斯王2翻譯圣經(jīng)的16世紀(jì)學(xué)者們,因?yàn)椴惶私庠缙诘奶K美爾神話,錯(cuò)誤地翻譯了這一節(jié)。七根支柱根本不是建筑的結(jié)構(gòu),而是大洪水之前美索不達(dá)米亞的七個(gè)偉大王國(guó)。七位智者向國(guó)王進(jìn)諫建立了七個(gè)城市,七個(gè)王國(guó)正是建立在這七個(gè)城市基礎(chǔ)之上的。因此,智慧的房屋建立在這七位智者的意見

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論