統(tǒng)計(jì)面臨的挑戰(zhàn).pdf_第1頁
統(tǒng)計(jì)面臨的挑戰(zhàn).pdf_第2頁
統(tǒng)計(jì)面臨的挑戰(zhàn).pdf_第3頁
統(tǒng)計(jì)面臨的挑戰(zhàn).pdf_第4頁
統(tǒng)計(jì)面臨的挑戰(zhàn).pdf_第5頁
已閱讀5頁,還剩57頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1 統(tǒng)計(jì)面臨的挑戰(zhàn)統(tǒng)計(jì)面臨的挑戰(zhàn) 吳喜之 2 科學(xué)與統(tǒng)計(jì)科學(xué)與統(tǒng)計(jì) 3 統(tǒng)計(jì)的地位統(tǒng)計(jì)的地位 統(tǒng)計(jì)在人類生活的各個方面所起 的 統(tǒng)計(jì)在人類生活的各個方面所起 的重大作用重大作用無可置疑無可置疑 當(dāng)然 當(dāng)然 很多人不知道這一點(diǎn)很多人不知道這一點(diǎn) 還有一個問題 什么是真正的統(tǒng) 計(jì) 還有一個問題 什么是真正的統(tǒng) 計(jì) 4 統(tǒng)計(jì)的地位統(tǒng)計(jì)的地位 在美國統(tǒng)計(jì)早已經(jīng)取代計(jì)算機(jī) 成為 在美國統(tǒng)計(jì)早已經(jīng)取代計(jì)算機(jī) 成為最容易最容易找工作的專業(yè)找工作的專業(yè) 美國普通公眾對統(tǒng)計(jì)有著美國普通公眾對統(tǒng)計(jì)有著過分過分的 崇拜 的 崇拜 而中國數(shù)學(xué)類學(xué)生赴美留學(xué)的而中國數(shù)學(xué)類學(xué)生赴美留學(xué)的首 選專業(yè) 首 選專業(yè)也是統(tǒng)計(jì)也是統(tǒng)計(jì) 在美國 大量學(xué)物理 計(jì)算機(jī) 電子等專業(yè)的人 在美國 大量學(xué)物理 計(jì)算機(jī) 電子等專業(yè)的人改行學(xué)統(tǒng)計(jì)改行學(xué)統(tǒng)計(jì) 5 那么 什么是統(tǒng)計(jì)呢 那么 什么是統(tǒng)計(jì)呢 6 STATISTICS the science of collecting analyzing presenting and interpreting data 7 統(tǒng)計(jì)統(tǒng)計(jì) 統(tǒng)計(jì)方法就是科學(xué)的方法 統(tǒng)計(jì)方法就是科學(xué)的方法 什么是科學(xué)和科學(xué)的方法呢 什么是科學(xué)和科學(xué)的方法呢 面對需要 收集數(shù)據(jù) 根據(jù)數(shù) 據(jù)建立模型 利用模型做預(yù)測或 得到其它結(jié)論 模型則根據(jù)新的 信息進(jìn)行更新 面對需要 收集數(shù)據(jù) 根據(jù)數(shù) 據(jù)建立模型 利用模型做預(yù)測或 得到其它結(jié)論 模型則根據(jù)新的 信息進(jìn)行更新 8 科學(xué)的方法科學(xué)的方法 對世界的認(rèn)識源于獲得的信息或數(shù)據(jù)信息或數(shù)據(jù) 總結(jié)信息時會形成模型模型 假說或理論 模型會指導(dǎo)指導(dǎo)進(jìn)一步的探索 直到 遇到這些模型無法無法解釋的現(xiàn)象 這就 導(dǎo)致對這些模型的更新和替代 這就是科學(xué)的方法 用科學(xué)方法進(jìn)行 的探索才叫科學(xué) 用科學(xué)方法進(jìn)行 的探索才叫科學(xué) 9 例 天文學(xué)例 天文學(xué) 公元2世紀(jì)托勒玫宇宙地心說 1543年哥白尼闡明了日心說 開普勒發(fā)現(xiàn)行星運(yùn)動原理 伽利略把 望遠(yuǎn)鏡用于天文觀測 牛頓又建立了 運(yùn)動和萬有引力定律 賴特在1750年 提出宇宙是由眾多星系構(gòu)成 18世紀(jì) 末 赫歇爾首先進(jìn)行了巡天觀測 奠 定了現(xiàn)代恒星天文學(xué)的基礎(chǔ) 10 例例 牛頓 愛因斯坦牛頓 愛因斯坦 牛頓建立了運(yùn)動定律和萬有引力定律 可解釋 相當(dāng)大部分人們周圍所觀測到的現(xiàn)象 后來在亞原子尺度上 在行星觀測中出現(xiàn)牛頓 的慣性定律或萬有引力定律無法解釋的現(xiàn)象 這就導(dǎo)致了愛因斯坦狹義和廣義相對論的產(chǎn)生 又出現(xiàn)和相對論矛盾的現(xiàn)象 將會促進(jìn)對相對 論的修正 11 科學(xué)方法的步驟科學(xué)方法的步驟 科學(xué)方法是科學(xué)方法是目前已知的目前已知的篩去謊言和錯覺的最好 方式 科學(xué)方法的步驟可做如下大致的描述 篩去謊言和錯覺的最好 方式 科學(xué)方法的步驟可做如下大致的描述 1 觀測宇宙的某些方面 觀測宇宙的某些方面 2 發(fā)明或提出可以解釋這些觀測的假說或假設(shè) 它必須和觀測結(jié)果是相容的 發(fā)明或提出可以解釋這些觀測的假說或假設(shè) 它必須和觀測結(jié)果是相容的 3 利用該假說進(jìn)行預(yù)測 利用該假說進(jìn)行預(yù)測 4 用實(shí)驗(yàn)來檢驗(yàn)這些預(yù)測用實(shí)驗(yàn)來檢驗(yàn)這些預(yù)測 證偽 證偽 或者做進(jìn)一 步觀測并根據(jù)結(jié)果修正假說 或者做進(jìn)一 步觀測并根據(jù)結(jié)果修正假說 5 重復(fù)第重復(fù)第3 4步直到在理論和實(shí)驗(yàn)或觀測中沒有 矛盾為止 步直到在理論和實(shí)驗(yàn)或觀測中沒有 矛盾為止 12 理論理論 能夠說明很多現(xiàn)象的假說可稱為理論 但任何理論都不能達(dá)到絕對的真理 科學(xué)理論都應(yīng)該是可證偽的 falsifiable 應(yīng)該 存在某種實(shí)驗(yàn)或可能的發(fā)現(xiàn)可能證明理論是不 對的 科學(xué)是在證偽中發(fā)展的 基于不能重復(fù)觀測或重復(fù)實(shí)驗(yàn)的現(xiàn)象而產(chǎn) 生的許多說法 都不是科學(xué) 最多是信仰 神的存在是無法證偽的 宗教不是科學(xué) 而是 信仰 13 科學(xué)是靠證據(jù)說話科學(xué)是靠證據(jù)說話 理論適用與否靠實(shí)驗(yàn)或觀測 不能靠辯論 古希臘的偉大哲學(xué)家亞里士多德用各種理由 辯論說男人和女人的牙齒數(shù)目不同 基于含糊不清或者不適當(dāng)?shù)那疤岬倪壿嬐评?是沒有多大意義的 14 科學(xué)研究必需是毫無偏見的 科學(xué)的結(jié)論應(yīng)該科學(xué)的結(jié)論應(yīng)該獨(dú)立于研究人員的文 化背景 社會背景 種族 習(xí)慣 宗 教和政治信仰等因素 獨(dú)立于研究人員的文 化背景 社會背景 種族 習(xí)慣 宗 教和政治信仰等因素 15 科學(xué)領(lǐng)域的造假科學(xué)領(lǐng)域的造假 存在制造假的研究結(jié)果的現(xiàn)象 但除非造假者的結(jié)論沒有多大 意義 總是會被人發(fā)現(xiàn)的 除非造假者的結(jié)論沒有多大 意義 總是會被人發(fā)現(xiàn)的 如1989美國猶他大學(xué)的彭斯 和英國南安普敦大學(xué)的弗萊什 曼冷核聚變冷核聚變以及韓國科學(xué)家黃 禹錫克隆胚胎干細(xì)胞的例子 黃 禹錫克隆胚胎干細(xì)胞的例子 16 權(quán)力 宗教和意識形態(tài)對科學(xué)造成嚴(yán)重干擾權(quán)力 宗教和意識形態(tài)對科學(xué)造成嚴(yán)重干擾 擁護(hù)哥白尼的 天體運(yùn)行論 的布魯諾被羅馬教廷以 異端分子和異端分子的老師 的罪名 于1600年2月 17日被燒死在羅馬鮮花廣場 加利略由支持日心說于1633年被羅馬天主教廷判決 軟禁 他在軟禁中度過余生 結(jié)果使得地中海地區(qū) 的科學(xué)傳統(tǒng)完全停止了 17 權(quán)力 宗教和意識形態(tài)科學(xué)造成嚴(yán)重干擾權(quán)力 宗教和意識形態(tài)科學(xué)造成嚴(yán)重干擾 在1930 60年代 蘇聯(lián)的全蘇列寧農(nóng)業(yè)科學(xué) 院院長李森科把孟德爾和摩爾根遺傳學(xué)斥為 資產(chǎn)階級的異端邪說 并在斯大林的支持下 對蘇聯(lián)的研究基因的學(xué)者實(shí)行人身迫害 此 事也對中國遺傳學(xué)界產(chǎn)生了惡劣影響 18 統(tǒng)計(jì)學(xué)是所有學(xué)科的工具統(tǒng)計(jì)學(xué)是所有學(xué)科的工具 統(tǒng)計(jì)學(xué)方法是科學(xué)的方法統(tǒng)計(jì)學(xué)方法是科學(xué)的方法 19 統(tǒng)計(jì)應(yīng)該是一門科學(xué)統(tǒng)計(jì)應(yīng)該是一門科學(xué) 由于歷史和國情 在很長一段時期中 這里所說的 統(tǒng)計(jì)學(xué)在蘇聯(lián)和在我國被官方認(rèn)為是資本主義的 同時我國一些與 由于歷史和國情 在很長一段時期中 這里所說的 統(tǒng)計(jì)學(xué)在蘇聯(lián)和在我國被官方認(rèn)為是資本主義的 同時我國一些與 官方觀點(diǎn)官方觀點(diǎn) 不一致的統(tǒng)計(jì)學(xué)家受到 持續(xù)的批判 比如中國人民大學(xué)留美教授戴世光 不一致的統(tǒng)計(jì)學(xué)家受到 持續(xù)的批判 比如中國人民大學(xué)留美教授戴世光 20 統(tǒng)計(jì)的應(yīng)用統(tǒng)計(jì)的應(yīng)用 統(tǒng)計(jì)學(xué)與各個學(xué)科的數(shù)據(jù)都打交道 統(tǒng)計(jì)學(xué)實(shí)際上已經(jīng) 應(yīng)用于所有領(lǐng)域 作為例子 它們包括 統(tǒng)計(jì)學(xué)與各個學(xué)科的數(shù)據(jù)都打交道 統(tǒng)計(jì)學(xué)實(shí)際上已經(jīng) 應(yīng)用于所有領(lǐng)域 作為例子 它們包括 精算 農(nóng)業(yè) 動物學(xué) 人類學(xué) 考古學(xué) 審計(jì)學(xué) 晶體學(xué) 人口統(tǒng)計(jì) 學(xué) 牙醫(yī)學(xué) 生態(tài)學(xué) 經(jīng)濟(jì)計(jì)量學(xué) 教育學(xué) 選舉預(yù)測 和策劃 工程 流行病學(xué) 金融 水產(chǎn)漁業(yè)研究 遺傳 學(xué) 地理學(xué) 地質(zhì)學(xué) 歷史研究 人類遺傳學(xué) 水文 學(xué) 工業(yè) 法律 語言學(xué) 文學(xué) 勞動力計(jì)劃 管理科 學(xué) 市場營銷學(xué) 醫(yī)學(xué)診斷 氣象學(xué) 軍事科學(xué) 核材 料安全管理 眼科學(xué) 制藥學(xué) 物理學(xué) 政治學(xué) 心理 學(xué) 心理物理學(xué) 質(zhì)量控制 宗教研究 社會學(xué) 調(diào)查 抽樣 分類學(xué) 氣象改善 遙感 搏采 精算 農(nóng)業(yè) 動物學(xué) 人類學(xué) 考古學(xué) 審計(jì)學(xué) 晶體學(xué) 人口統(tǒng)計(jì) 學(xué) 牙醫(yī)學(xué) 生態(tài)學(xué) 經(jīng)濟(jì)計(jì)量學(xué) 教育學(xué) 選舉預(yù)測 和策劃 工程 流行病學(xué) 金融 水產(chǎn)漁業(yè)研究 遺傳 學(xué) 地理學(xué) 地質(zhì)學(xué) 歷史研究 人類遺傳學(xué) 水文 學(xué) 工業(yè) 法律 語言學(xué) 文學(xué) 勞動力計(jì)劃 管理科 學(xué) 市場營銷學(xué) 醫(yī)學(xué)診斷 氣象學(xué) 軍事科學(xué) 核材 料安全管理 眼科學(xué) 制藥學(xué) 物理學(xué) 政治學(xué) 心理 學(xué) 心理物理學(xué) 質(zhì)量控制 宗教研究 社會學(xué) 調(diào)查 抽樣 分類學(xué) 氣象改善 遙感 搏采 等等 等等 21 當(dāng)今 當(dāng)今 任何領(lǐng)域任何領(lǐng)域的研究結(jié)果 如果沒有 根據(jù)數(shù)據(jù)所作出的結(jié)論 很難被認(rèn)可的 的研究結(jié)果 如果沒有 根據(jù)數(shù)據(jù)所作出的結(jié)論 很難被認(rèn)可的 22 中國統(tǒng)計(jì)中的偽科學(xué)中國統(tǒng)計(jì)中的偽科學(xué) 中國統(tǒng)計(jì)過去 現(xiàn)在 分為 統(tǒng) 計(jì)學(xué) 中國統(tǒng)計(jì)過去 現(xiàn)在 分為 統(tǒng) 計(jì)學(xué) 文科的 列寧主義 統(tǒng) 計(jì) 即現(xiàn)在所謂 文科的 列寧主義 統(tǒng) 計(jì) 即現(xiàn)在所謂 社會經(jīng)濟(jì)統(tǒng)計(jì) 學(xué) 社會經(jīng)濟(jì)統(tǒng)計(jì) 學(xué) 和 數(shù)理統(tǒng)計(jì) 國際意義 上的統(tǒng)計(jì) 和 數(shù)理統(tǒng)計(jì) 國際意義 上的統(tǒng)計(jì) 23 由于國情 國人對統(tǒng)計(jì)的尊重遠(yuǎn)遠(yuǎn) 不如任何其他國家的人 可能北朝 鮮除外 往往誤解統(tǒng)計(jì)學(xué) 由于國情 國人對統(tǒng)計(jì)的尊重遠(yuǎn)遠(yuǎn) 不如任何其他國家的人 可能北朝 鮮除外 往往誤解統(tǒng)計(jì)學(xué) 根據(jù)前蘇聯(lián)傳統(tǒng) 國內(nèi)一些學(xué)者把 統(tǒng)計(jì)稱為是經(jīng)濟(jì)學(xué)科的一部分 根據(jù)前蘇聯(lián)傳統(tǒng) 國內(nèi)一些學(xué)者把 統(tǒng)計(jì)稱為是經(jīng)濟(jì)學(xué)科的一部分 這種經(jīng)濟(jì)學(xué)中的蘇聯(lián)式統(tǒng)計(jì)學(xué)的數(shù) 學(xué)水平低于小學(xué)數(shù)學(xué)水平 這種經(jīng)濟(jì)學(xué)中的蘇聯(lián)式統(tǒng)計(jì)學(xué)的數(shù) 學(xué)水平低于小學(xué)數(shù)學(xué)水平 與現(xiàn)代經(jīng)濟(jì)學(xué)所需的大量的統(tǒng)計(jì)和 數(shù)學(xué)形成鮮明對照 與現(xiàn)代經(jīng)濟(jì)學(xué)所需的大量的統(tǒng)計(jì)和 數(shù)學(xué)形成鮮明對照 24 前蘇聯(lián)式的 統(tǒng)計(jì)學(xué) 目前即使在俄國也無人 問津 前蘇聯(lián)式的 統(tǒng)計(jì)學(xué) 目前即使在俄國也無人 問津 但其八股形式在中國仍 然流行 而且存在于在 官方的統(tǒng)一考試中 但其八股形式在中國仍 然流行 而且存在于在 官方的統(tǒng)一考試中 25 什么是什么是有用有用的統(tǒng)計(jì) 的統(tǒng)計(jì) 有用 有用 在市場經(jīng)濟(jì)下找得到工作在市場經(jīng)濟(jì)下找得到工作 26 數(shù)學(xué)的重要性數(shù)學(xué)的重要性 真正嚴(yán)格的邏輯真正嚴(yán)格的邏輯僅存在于數(shù)學(xué)之中 只能夠從學(xué)習(xí)數(shù)學(xué)中獲得 僅存在于數(shù)學(xué)之中 只能夠從學(xué)習(xí)數(shù)學(xué)中獲得 數(shù)學(xué)的邏輯服務(wù)于現(xiàn)代理性社會的所 有方面 數(shù)學(xué)的邏輯服務(wù)于現(xiàn)代理性社會的所 有方面 27 統(tǒng)計(jì)和數(shù)學(xué)的思維方式差異統(tǒng)計(jì)和數(shù)學(xué)的思維方式差異 數(shù)學(xué)思維是以演繹為主數(shù)學(xué)思維是以演繹為主 統(tǒng)計(jì)思維是以歸納為主 兼有演繹 統(tǒng)計(jì)思維是以歸納為主 兼有演繹 28 統(tǒng)計(jì)主要需要統(tǒng)計(jì)主要需要 數(shù)學(xué) 數(shù)學(xué) 計(jì)算機(jī)及研究對 象領(lǐng)域的知識 計(jì)算機(jī)及研究對 象領(lǐng)域的知識 加上想象力 通常的邏 輯推理和常識判斷的能 力 加上想象力 通常的邏 輯推理和常識判斷的能 力 29 統(tǒng)計(jì)面對的挑戰(zhàn)統(tǒng)計(jì)面對的挑戰(zhàn) 30 統(tǒng)計(jì)所研究的對象中的許 多關(guān)系 很難被諸如物理 定律那樣的理論明確描 述 被認(rèn)為具有某種隨機(jī) 性 類似于黑匣子 統(tǒng)計(jì)所研究的對象中的許 多關(guān)系 很難被諸如物理 定律那樣的理論明確描 述 被認(rèn)為具有某種隨機(jī) 性 類似于黑匣子 31 一般來說統(tǒng)計(jì)數(shù)據(jù)分析有兩個目的 一個是能夠由輸入數(shù)據(jù)x來預(yù)測y 而另一個為解釋這個聯(lián)系輸入變量和輸出 變量的 自然 部分 即所謂的 黑匣子 自然自然yx 記輸入的數(shù)據(jù)為x 而輸出為y 那么根據(jù)x產(chǎn)生 出y的過程則可以用如下圖形描述 32 eo Breiman January 27 1928 July 7 2005 was a distinguished statistician at the niversity of California Berkeley He was the recipient of numerous honors and wards and was a member of the United States National Academy of Science 33 按照Breiman 2001 1 的說法 統(tǒng)計(jì)有兩個文 化 一個是數(shù)據(jù)建模數(shù)據(jù)建模文化 data modeling culture 它在黑匣子中假定一個隨機(jī)產(chǎn)生數(shù) 據(jù)的模型 最典型的包括線性回歸模型 logistic回歸模型和Cox模型等等 這里對模型是否適當(dāng)采用諸如擬合優(yōu)度檢驗(yàn)和 殘差分析等方法來確定 而模型通常為下面的 函數(shù)形式 響應(yīng)變量 f 預(yù)測變量 參數(shù) 隨機(jī)噪聲 或 Y f X 34 而Breiman所說的另一種為算法建模算法建模 文化 algorithmic modeling culture 它也是找一個函數(shù)f x 來預(yù)測y 只不過這里的函數(shù)不局限于一些明確 表達(dá)的數(shù)學(xué)公式 而是一個算法 這里主要關(guān)心的是預(yù)測 而黑匣子到 底是什么 能夠解釋就解釋 但并不 強(qiáng)求 35 典型的算法包含決策樹 關(guān)聯(lián)規(guī)則 隨機(jī)森林 支持向量機(jī)等等 這里對模型是否適當(dāng) 則采用預(yù)測精 度來衡量 Breiman認(rèn)為 專注于數(shù)據(jù)模型會產(chǎn) 生無關(guān)的理論以及有問題的結(jié)論 使 得統(tǒng)計(jì)學(xué)家遠(yuǎn)離適當(dāng)?shù)乃惴P?不 去研究嶄新的實(shí)際問題 36 多數(shù)專業(yè)統(tǒng)計(jì)學(xué)家屬于數(shù)學(xué)出身 他們認(rèn)為 數(shù)理統(tǒng)計(jì)學(xué)只是從數(shù)量表現(xiàn)的 層面上來分析問題 完全不觸及問題的專 業(yè)內(nèi)涵 在這個意義上 數(shù)理統(tǒng)計(jì)方法是一個中 立性的工具 這 中立 的含義是 它既不 在任何問題上有何主張 也不維護(hù)任何利 益或在任何學(xué)科中堅(jiān)持任何學(xué)理 作為一個工具 誰都可以使用 如果誰不 同意這種方法 可以不使用 1 37 對于統(tǒng)計(jì)方法或統(tǒng)計(jì)模型本身的這種 在各學(xué)科中的 中立性 是普遍同意的 但是 任何統(tǒng)計(jì)方法的發(fā)展 任何模 型的建立都有其應(yīng)用背景 統(tǒng)計(jì)學(xué)家的研究 就其本質(zhì)來說 是 不可能獨(dú)立于這些領(lǐng)域的具體目標(biāo) 除非他們所做的工作是統(tǒng)計(jì)推斷中間 的一個局部數(shù)學(xué)環(huán)節(jié)的演繹式推導(dǎo) 38 按照Breiman 數(shù)據(jù)建模文化包含了 目前統(tǒng)計(jì)課程所涉及的大部份統(tǒng)計(jì)模 型 建立這些模型需要一些在實(shí)際中不一 定能夠滿足的數(shù)學(xué)假定 在模型選擇 對結(jié)果的解釋和預(yù)測等 方面有很多不明確或不清楚的地方 這些模型的使用對于非統(tǒng)計(jì)領(lǐng)域的人 員來說并不方便 39 而算法建模文化 則針對實(shí)際課題的 問題 選擇一些方法 利用計(jì)算機(jī)來 根據(jù)訓(xùn)練樣本建模 人們用對測試樣本的預(yù)測精度來判斷 這些模型是否適用 由于沒有多少中間的人為干預(yù) Breiman覺得 這種文化是其他領(lǐng)域 的工作者容易掌握的 40 第一 統(tǒng)計(jì)學(xué)的方法都是在應(yīng)用的推動下產(chǎn)生 的 如果沒有應(yīng)用 它們不會出現(xiàn) 其次 如果以應(yīng)用為目的而產(chǎn)生的統(tǒng)計(jì)方法不能 滿足應(yīng)用的要求 再漂亮的數(shù)學(xué)表達(dá)也不能保證 其存在 第三 統(tǒng)計(jì)中的數(shù)學(xué)本身不能形成一個完整的邏 輯體系 貝葉斯統(tǒng)計(jì)可能被認(rèn)為是例外 其中 有大量的人為或主觀因素在起作用 這是不符合 純粹數(shù)學(xué)的本質(zhì)的 如果脫離應(yīng)用背景而把統(tǒng)計(jì)作為純粹數(shù) 學(xué)的一部分 統(tǒng)計(jì)學(xué)沒有存在的必要 如果脫離應(yīng)用背景而把統(tǒng)計(jì)作為純粹數(shù) 學(xué)的一部分 統(tǒng)計(jì)學(xué)沒有存在的必要 41 統(tǒng)計(jì)應(yīng)用最初是由政府的需要而產(chǎn)生 的 但目前統(tǒng)計(jì)的方法和理論基礎(chǔ)是 由一批數(shù)學(xué)家奠定的 很多人認(rèn)為統(tǒng)計(jì)學(xué)是 數(shù)學(xué)的一個分支 這當(dāng)然不僅涉及統(tǒng)計(jì)和數(shù)學(xué)的定義 而且涉及統(tǒng)計(jì)的性質(zhì)和應(yīng)用背景 統(tǒng)計(jì)從數(shù)學(xué)繼承了什么 統(tǒng)計(jì)從數(shù)學(xué)繼承了什么 42 由于統(tǒng)計(jì)發(fā)展歷史中的數(shù)學(xué)背景 上個世 紀(jì)中期基本定型的數(shù)理統(tǒng)計(jì)教科書充滿了 數(shù)學(xué)味極強(qiáng)的定義 引理 定理 推論 以及貫串其中的純粹數(shù)學(xué)推導(dǎo)和證明 數(shù)學(xué)是一個 是非明確 的理想世界 它自我 形成嚴(yán)格的封閉邏輯體系 只要邏輯正 確 數(shù)學(xué)研究最多得不出結(jié)果 但不會犯 錯誤 這也是以演繹為主的數(shù)學(xué)魅力之所在 數(shù) 學(xué)教科書沒有負(fù)面的內(nèi)容 數(shù)學(xué)的邏輯完 全是客觀的 43 但以歸納為主要思維方式的統(tǒng)計(jì)是描述現(xiàn) 實(shí)世界的 是為各領(lǐng)域服務(wù)的 統(tǒng)計(jì)需要建立各種數(shù)學(xué)模型來近似現(xiàn)實(shí)世 界 但任何數(shù)學(xué)模型都不可能精確地描述 現(xiàn)實(shí)世界或自然 正如沒有科學(xué)理論能夠 等于真理一樣 數(shù)學(xué)是不能證偽的 而統(tǒng)計(jì)和其他科學(xué)的 理論一樣 必須是可以證偽的 44 基本上由數(shù)學(xué)老師教授的數(shù)理統(tǒng)計(jì)課程多 是按照純粹數(shù)學(xué)的模式設(shè)計(jì)的 對于背后的基于數(shù)據(jù)的統(tǒng)計(jì)思想介紹得不 很充分 也不強(qiáng)調(diào)這些充滿假定的數(shù)學(xué)模 型都是對現(xiàn)實(shí)世界的不同程度的簡化 很 少教科書指出違背這些假定的后果 幾乎沒有人告訴學(xué)生 所有統(tǒng)計(jì)教科書中 對數(shù)據(jù) 或其總體 的數(shù)學(xué)假定都是無法 用數(shù)據(jù)驗(yàn)證的 數(shù)學(xué)化的統(tǒng)計(jì)教科書極少提到統(tǒng)計(jì)應(yīng)用中 一系列決策的主觀性和任意性 45 所有模型都僅僅是對現(xiàn)實(shí)世界的某種近似 模型存在的一個必要條件是它們必須能夠 被人們解出來 無論是近似的 或者是精 確的 任何可得到的結(jié)論由于模型的近似性而必 然是近似的 而這些結(jié)果到底和現(xiàn)實(shí)世界有多么近似 可能永遠(yuǎn)不清楚 傳統(tǒng)的數(shù)據(jù)建模在應(yīng)用中所遇到的問題傳統(tǒng)的數(shù)據(jù)建模在應(yīng)用中所遇到的問題 46 衡量模型是否合適或者統(tǒng)計(jì)結(jié)果是否合理 的傳統(tǒng)方法包括各種擬合優(yōu)度檢驗(yàn) 準(zhǔn) 則 以及殘差分析等等 當(dāng)然還采用無偏 性等大樣本或總體概念 正如Efron 2001 1 指出的 二十世紀(jì)的統(tǒng) 計(jì)可標(biāo)以 100年的無偏性 大多數(shù)我們的 統(tǒng)計(jì)理論和實(shí)踐是圍著無偏或幾乎無偏估 計(jì) 特別是MLES 和基于這樣估計(jì)的檢驗(yàn) 轉(zhuǎn)的 47 然而 要使用這些判別方法 必須對模型和產(chǎn)生 數(shù)據(jù)的總體做出一些假定 諸如模型的數(shù)學(xué)形式 誤差的結(jié)構(gòu)和分布的假定 這些假定是基于經(jīng)驗(yàn) 數(shù)據(jù)的特征 或數(shù)學(xué)上的方便 然而 Bickel et al 2001 2 表明除非備選假設(shè)有 明確的方向 擬合優(yōu)度檢驗(yàn)的效率很低 而殘差分析也是不可靠的 它在變量數(shù)目多的時 候無法揭示欠缺的擬合 不同的殘差分析方法會 導(dǎo)致不同的結(jié)論 48 雖然擬合優(yōu)度檢驗(yàn)和殘差分析可能會誤 導(dǎo) 但是正如Breiman 2001 3 所說 近年來在JASA發(fā)表的關(guān)于數(shù)據(jù)的應(yīng)用文章 連這些方法也很少利用 似乎和獨(dú)創(chuàng)性的統(tǒng)計(jì)模型相比 模型擬合 好壞是次要的 只欣賞模型本身 而忽略實(shí)際應(yīng)用背景是 危險(xiǎn)的 當(dāng)結(jié)論僅僅描述模型的機(jī)制而不 反映模型應(yīng)該反映的現(xiàn)實(shí)世界時 結(jié)論必 然是錯誤的 49 Mostelling Tukey 1977 4 在討論回歸的 謬誤時說 整個按部就班的回歸領(lǐng)域充滿 著智力的 統(tǒng)計(jì)的 計(jì)算的和主題的困難 很難想象我們面對著從包含未知的物理 化學(xué) 生物或社會機(jī)制的復(fù)雜系統(tǒng)中產(chǎn)生 的未受控制的觀測數(shù)據(jù)背后的機(jī)制能夠被 一些統(tǒng)計(jì)學(xué)家主觀選擇的參數(shù)模型來充分 解釋 而從這樣模型得到的結(jié)論不能由擬 合優(yōu)度檢驗(yàn)和殘差分析來證實(shí) 50 傳統(tǒng)統(tǒng)計(jì)方法的另一個問題是數(shù)據(jù)建模的 結(jié)果的多重性 也就是說 若干模型都顯 著 但它們對現(xiàn)實(shí)世界有不同的描述 這些不同 但又都 顯著 的模型對黑匣子的 解釋各異 Mountain Hsiao 1989 1 表明 很難構(gòu) 造一個能夠包含所有競爭模型的復(fù)雜模型 而且 鑒于利用有限的樣本所建立的依賴 于漸近理論的各種檢驗(yàn)的合法性和效率 所導(dǎo)致的結(jié)論是靠不住的 51 和傳統(tǒng)的所謂數(shù)據(jù)建模文化不同 Breiman所定義的算法建模文化則多數(shù) 由沒有傳統(tǒng)統(tǒng)計(jì)背景的研究人員所發(fā) 展 早在1980年代 算法建模在心理計(jì)量 學(xué) 社會科學(xué) 醫(yī)學(xué)中就有不同程度 的應(yīng)用 但最有影響的是80年代中期 出現(xiàn)的神經(jīng)網(wǎng)絡(luò)和決策樹 算法建模算法建模 52 這些方法的目的是提高預(yù)測的精度 最初的研究人員由年輕的計(jì)算機(jī)科學(xué) 家 物理學(xué)家 工程師和少數(shù)統(tǒng)計(jì)學(xué) 家 他們在數(shù)據(jù)模型無法使用的復(fù)雜預(yù)測 問題上試驗(yàn)他們的新的方法 這些問題包括語言識別 圖象識別 非線性時間序列預(yù)測 筆跡識別 以 及金融市場的預(yù)測 53 算法建模的勢力迅速擴(kuò)展 并且產(chǎn)生了數(shù) 千篇文章 最初的算法建模的研究人員多數(shù)沒有傳統(tǒng) 統(tǒng)計(jì)訓(xùn)練 或者不受傳統(tǒng)統(tǒng)計(jì)的約束 現(xiàn) 在也有一些著名的統(tǒng)計(jì)學(xué)家加入了他們的 行列 他們的問題除了傳統(tǒng)統(tǒng)計(jì)無法用武的領(lǐng) 域 比如處理由遙感衛(wèi)星 互聯(lián)網(wǎng) 光學(xué) 和射電天文望遠(yuǎn)鏡 基因研究等產(chǎn)生的海 量數(shù)據(jù)之外 也進(jìn)入了傳統(tǒng)的數(shù)據(jù)建模的 領(lǐng)地 54 目前的算法建模方法對于模型的評價(jià)主要 是預(yù)測精度 比如利用試驗(yàn)數(shù)據(jù)集來對訓(xùn) 練數(shù)據(jù)集所建立的模型進(jìn)行交叉驗(yàn)證 他們的方法也逐步改進(jìn) 比如支持向量機(jī) 就比早期的神經(jīng)網(wǎng)絡(luò)更有效 助推法 boosting 或其改進(jìn)型進(jìn)行分類和回歸的 方法也在不斷改進(jìn) 這些方法許多在機(jī)器學(xué)習(xí) 人工智能或數(shù) 據(jù)挖掘等各種名稱下產(chǎn)生和發(fā)展 55 算法建模和傳統(tǒng)統(tǒng)計(jì)不僅僅區(qū)別于前面所 說的著重于預(yù)測精度和適用于海量數(shù)據(jù) 它還有其他一些優(yōu)點(diǎn) 比如在基因數(shù)據(jù)中 變量個數(shù)可以達(dá)到 4682個 而樣本量僅有81個 參見Dudoit et al 2000 1 這樣巨大的變量和觀測值數(shù)目的比例是傳 統(tǒng)統(tǒng)計(jì)不可想象的 比如 Diaconis Efron 1983 2 年曾經(jīng)說過 統(tǒng)計(jì)經(jīng)驗(yàn)表 明 基于19個變量和僅僅155個數(shù)據(jù)點(diǎn)來擬 合模型是不明智的 56 它不僅不畏懼巨大的維數(shù) 而且認(rèn)為變量 越多 包含的信息越多 實(shí)際上 有大量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論