南開大學數學科學學院統計系《數理統計》課介紹.ppt_第1頁
南開大學數學科學學院統計系《數理統計》課介紹.ppt_第2頁
南開大學數學科學學院統計系《數理統計》課介紹.ppt_第3頁
南開大學數學科學學院統計系《數理統計》課介紹.ppt_第4頁
南開大學數學科學學院統計系《數理統計》課介紹.ppt_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數理統計課簡介 王兆軍南開大學統計研究院天津 300071zjwangnk 22 2349823322 23698465 自我介紹 他們是 ZhaojunWANG 王兆軍It sme 王昭君 目錄 三位名人 數理統計 課內容本課的幾個側重點不足之處 南開 數理統計 課簡介 本課的幾個側重點 統計與數學的區(qū)別統計史及產生的背景注重統計的應用特點不過分強調理論點與點的結合數表的生成 不足之處 與計算機語言的結合習題不夠豐富例題的時代感不強某些內容的欠缺 某些理論的證明 非參 Bayes統計 方差分析等 某些結果的理論敘述不夠嚴謹 多謝王兆軍Tel 022 23498233 O Email zjwangnk Http 統計與數學的區(qū)別 一 統計與數學的區(qū)別 二 e 統計與數學的區(qū)別 三 統計與數學的區(qū)別 四 統計與數學的區(qū)別 五 統計與數學的區(qū)別 六 統計與數學的區(qū)別 七 什么是統計 數據是什么 Data Science 2011年2月刊封面 2012年3月29日奧巴馬政府投入2億多美元啟動 大數據發(fā)展研究計劃 BigDataResearchandDevelopmentInitiative 是美國繼1993年宣布 信息高速公路計劃 后又一重大科技戰(zhàn)略部署 標志從商業(yè) 學術層面上升到國家戰(zhàn)略 Wikipedia 維基百科 Atermforacollectionofdatathatareverylargeandcomplexsothatitisdifficulttoprocessandanalyzeusingon handdatabasemanagementtools traditionaldataprocessingmethodsandanalysismethodologies ZB 1021 EB 1018 PB 1015 TB 1012 GB 109 MB 106 什么是大數據 Whydifficulty Bigdatachallengestheexistinginformationtechnologies managementparadigm statisticalandcomputa tionalsciences Volume 大數據的特征 PB ZBinscaleDistributedstorageandprocessingnecessary GrowingtremendouslyDataflow Multisource correlated heterogeneousUnstructured unreliable inconsistent TotaldatasetembodiesgreatvalueIndividualorsmallsubsetcontainslessinformation Velocity Variety Value 201318 14 20 1 統計與數學的區(qū)別 八 返回 統計史及某些背景 一 RonaldAylmerFisher 1890 2 17 1962 7 29 PLHSU 1910 1970 KarlPearson 1857 1936 統計史及某些背景 二 統計的起源 史寧中 Fisher提出的顯著性檢驗 女士品茶 試驗設計 DOE 充分完備統計量 與Edington的爭論 t分布 Student的筆名 卡方擬合優(yōu)度檢驗 G Mendel Bayes估計 產品質量檢驗 返回 注重統計的應用特點 上屆數理統計期未成績 分析與檢驗 死刑數據的列聯表分析 茆詩松等 統計與欺騙 何書元 回歸診斷 韋博成 非參數統計 Wilcoxon Mann Whitney 抽樣調查 Mahalanobis 吸煙與肺癌 Fisher Cornfield SPRT檢驗 Wilks 幾本參考書 非理論 返回 不過分強調理論 區(qū)間估計只講樞軸量法不給出Kolmogorov檢驗的理論證明經驗分布函數的Bahadur表示不講證明略講次序統計量不講U統計量 M估計 L估計 R估計 同變檢驗 Minimax估計等 理論在應用中的重要性 1883年8月15日 美國物理學家HenryAugustusRowland 1848 1901 在美國科學促進會年會上發(fā)表了一則被譽為是美國科學的獨立宣言的演講 為純科學呼吁 文章發(fā)表在科學雜志上 理論在應用中的重要性 他說 我時常被問及 科學與應用科學究竟何者對世界更重要 為了應用科學 科學本身必須存在 如停止科學的進步 只留意其應用 我們很快就會退化成中國人那樣 多少代人以來他們都沒有什么進步 因為他們只滿足于應用 卻從未追問過原理 這些原理就構成了純科學 中國人知道火藥應用已經若干世紀 如果正確探索其原理 就會在獲得眾多應用的同時發(fā)展出化學 甚至物理學 因為沒有尋根問底 中國人已遠遠落后于世界的進步 我們現在只將這個所有民族中最古老 人口最多的民族當成野蠻人 當其他國家在競賽中領先時 我們國家 美國 能滿足于袖手旁觀嗎 難道我們總是匍匐在塵土中去撿富人餐桌上掉下的面包屑 并因為有更多的面包屑而認為自己比他人更富裕嗎 不要忘記 面包是所有面包屑的來源 返回 點與點的結合 擬合優(yōu)度檢驗顯著性檢驗 UMP檢驗 UMPU檢驗區(qū)間估計 抽樣分布 顯著性檢驗的結合隨機數 模擬的有機結合 返回 數表的生成 本講義的所有數表均是由Fortran程序生成 且某些數表與傳統給出的值有所不同 如W檢驗統計量的系數表是由IMSL精確求解得到的 與模擬結果一致 返回 返回 無偏性 UMVUE相合性 ASN LSE 矩估計 MLEEW算法 返回 UMP UMPU UMPU 分布 列聯表 返回 返回 2009年8月5日 什么是統計 統計學是收集和分析數據的科學與藝術 不列顛百科全書 數理統計學是數學的一個分支 它是一門用有效的方法收集和分析帶有隨機影響的數據的學科 且其目的是解決特定的問題 陳希孺院士 數理統計是一門應用性很強的學科 它是研究如何有效地收集 整理和分析受隨機影響的數據 并對所考慮的問題作出推斷或預測 直至為采取決策和行動提供依據和建議的一門學科 茆詩松 返回 統計學的起源 一 中國在周朝就設有統計官員 稱為司書 設立 司書上士二人 中士四人 府二人 史二人 徒八人 負責 邦之六典 以周知入出百物 以知田野夫家六畜之數 見 周禮 天官 冢宰 統計學的起源 二 管子 問 中提到65個問 即65個調查科目 均為管理國家所需要的數據 比如 問少壯而未勝甲兵者幾何人 為一民有幾年之食也 等等 平均數 眾數 返回 女士品茶試驗 20世紀20年代后期 在英國劍橋的一個夏日的午后 一群大學的紳士和他們的夫人們 還有來訪者 正圍坐在戶外的桌旁 享用著下午茶 在品茶過程中 一位女士堅稱 把茶加進奶里 或把奶加進茶里 不同的做法 會使茶的味道品起來不同 在場的一幫科學精英們 對這位女士的 胡言亂語 呲之以鼻 然而 在座的一個身材矮小 戴著厚眼鏡 下巴上蓄著的短尖髯開始變灰的先生 卻不這么看 他對這個問題很有興趣 實際上這位女士正確地分辨出了每杯茶 返回 DesignofExperiment 000001010011100101110111 乾坤震巽坎離艮兌 這是一個最基本的正交表 返回 Fisher與Edington的爭論 返回 WilliamSealeyGosset 1876 1937 1899年進入GuineesBrewingCompany 于1904年發(fā)表一篇文章中 說明酵母中的細胞數量的分布是Poisson分布 并不屬于K Pearson偏斜分布中的一員 之后 于1908年在Biometrika上以Student為名發(fā)表了t分布 Guiness公司并不允許員工發(fā)表文章 Gosset是K Pearson與Fisher之間的中間人 返回 GregoryMendel 1822 1884 KarlPearson 1857 1936 返回 Bayes估計 一 ThomasBayes 1702 1761 Bayes估計 二 返回 2008屆數理統計成績分析 一 2008屆數理統計成績分析 二 2008屆數理統計成績分析 三 JohnTukey 統計界的畢加索 1915 2000 返回 普林斯頓大學統計系主任和貝爾試驗室 二戰(zhàn)期間 加入武器控制研究辦公室 FireControlResearchOffice 研究槍炮的瞄準 測距儀與槍炮有關的問題Exploratorydataanalysis FFT boxplot steamandleafplots robust等 死刑數據 一 數據 美國佛羅里達 1976 1977年兇殺案結論 白人被判死刑的比例為 19 160 11 9 黑人被判死刑的比例為 17 166 10 2 死刑數據 二 ContingencyTable 列聯表 返回 統計與欺騙 有一個人陸續(xù)收到一個人的Email告之明天足球比賽的結果 連續(xù)五次都預測對了 第六次時他要求你付200塊給他以知明天的比賽結果 你說這個人有預測比賽的能力嗎 如果此人是猜的話 連續(xù)猜對五場的概率是1 25 0 031 詳見何書元著 概率論與數理統計 2006 返回 回歸診斷 返回 非參數統計 一 FrankWilcoxon 2Sept1892 18Nov1965 HenryB Mann 1905 2000 非參數統計 二 20世紀40年代 Wilcoxon是美國氰胺公司的化學家 他在進行某項化工實驗 發(fā)現實驗之初當反應發(fā)生器并未充分預熱時 常常是某個數據要么過大 要么過小 而此時的t檢驗極易受到這些異常值的影響 他查了許多資料也沒有找到相應的解決方法 于是他自己提出了一種基于數據秩的方法 只是其計算非常繁瑣 他想 這不是一個化學家應該做的 統計學界早就有人完成了這一工作 但他還是找不到相應的文獻 于是 他便文章寄給了Biometrics 希望審稿人告訴他所需要的參考資料 然而 審稿人認為這是一篇原創(chuàng)性的工作 于1945年發(fā)表了此文 非參數統計 三 Wilcoxon與Biometrics的編輯們都不知道 OSU的一位經濟學家HenryB Mann和一位統計學研究生D RansomWhitney也在做一個相關的研究 并于1947年發(fā)表了一篇結果與Wilcoxon提出的方法類似的文章 上述兩篇文章中無需使用參數就可以處理數據的分布了 這是K Pearson一再要求的 實際上 在西方多數人不知道 20世紀30年代后期 蘇聯的Kolmogorov與其學生Smirnov已發(fā)展了一種不需使用參數的分布比較方法 非參數統計 四 AndreyN Kolmogorov 數學界的莫扎特 1903 1987 返回 抽樣調查 一 加爾各答市總統學院物理系教授 主任20世紀20年代到英國師從K Pearson和Fisher1931年成立IndianStatisticalInstitute1933年出版Sankhya1962年Fisher自印度返回澳大利亞的船上去世 PrasantaChandraMahalanobis 1893 1972 抽樣調查 二 20世紀初 當Mahalanobis在鐵道公司工作時遇到了如下例子 為檢驗裝在船上準備從孟買運到英國的黃麻的質量 就用一種特殊的工具插入包中 從檢測帶出的少量黃麻來估計整包的質量 而在包裝和上船過程中 外層的黃麻開始變質 而里面的被壓得越來越緊 冬天時常常凍得結成一塊 于是 當取樣員將刀插入時會發(fā)生偏離 而此時所取的樣本就不能真正代表總體分布了 這與K Pearson的指導思想嚴重不符 另外 在人口普查時 由于印度人多且普查時間不同 故精度有限 于是 Mahalanobis推斷 如果能夠收集到一個具有充分代表性的小樣本 則可以用它來估計總體特征 返回 吸煙與肺癌 一 R A Fisher 1890 1962 JeromeCornfield 1912 1979 JerzyNeyman 1894 1981 吸煙與肺癌 二 1958年 Fisher在Nature上發(fā)表了兩篇文章 Lungcancerandcigarettes 和 Cancerandsmoking 他認為吸煙會導致肺癌的證據嚴重不足 Neyman也認為將肺癌與吸煙聯系起來的研究推理中存在問題 隨著證據的增多 Neyman慢慢地也似乎認可二者間的聯系 但Fisher仍強烈反對 吸煙與肺癌 三 Fisher指出 不通過隨機化實驗 根本無法證明任何東西 統計相關性與因果關系是不相同的 1959年Cornfield與5位來自美國的頂尖癌癥專家聯合撰寫了一篇30頁的論文 此文指出 有關證據壓倒性地支持 吸煙是人類肺部表皮癌發(fā)生率迅速上升的原因之一 吸煙與肺癌 四 原方法 肺癌患者中的吸煙人數大大高于非肺癌患者中吸煙人數 有兩種方法 追溯性研究 retrospectivestudies 從一種疾病開始著手 向后看與此病相關的有什么先決條件 其不足是對照組與病例組不匹配 事先研究 prospectivestudies 事先選定一群人 詳細記錄他們的吸煙史及疾病情況 其不足是研究是小范圍的 結論也許只是針對某個特定群體而言的 Cornfield方法 他們搜集了1958年前不同國家 不同總體所做的30項流行病學研究 返回 SPRT檢驗 一 SamuelS Wilks 1906 1964 AbrahamWald 1902 1950 SPRT檢驗 二 20世紀40年代 Wilks在普林斯頓大學數學系工作 并任華盛頓海軍研究局顧問 成立了普林斯頓統計研究小組 SRG P 當TheodoreW Anderson還是此小組的研究生時研究了如下課題 由于日本人以隨機形態(tài)在海岸線上布滿地雷 而進攻日本本土日子越來越近 故美國需要找出一種毀壞地雷的有效方法 在此之前

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論