版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第1章概率統(tǒng)計簡介胡良劍東華大學(xué)理學(xué)院第2學(xué)院樓543內(nèi)容提要什么是統(tǒng)計學(xué)一個例子:學(xué)生體檢數(shù)據(jù)分析統(tǒng)計學(xué)的昨天、今天和明天什么是統(tǒng)計學(xué)Statisticsisthestudyofthecollection,organization,analysis,interpretationandpresentationofdata.Whenanalyzingdata,itispossibletouseoneoftwostatisticsmethodologies:descriptivestatisticsorinferentialstatistics.----維基百科(://)統(tǒng)計學(xué)的主要內(nèi)容描述統(tǒng)計學(xué)(Descriptivestatistics,第2章)概率論(Probability,第3-6章)推斷統(tǒng)計學(xué)(Inferentialstatistics,第7-8章)一個例子為了研究東華大學(xué)畢業(yè)生身體情況,體育部隨機抽查了90名男同學(xué)身高、體重數(shù)據(jù),記錄在Excel文件體檢數(shù)據(jù).xls-raw中.考慮以下問題:這90名男同學(xué)的身高、體重具有怎樣的特征?是否可以據(jù)此估計:東華大學(xué)畢業(yè)男生平均身高、體重?需要作怎樣的假設(shè)?概念總體(Population):當(dāng)年東華大學(xué)畢業(yè)男生(約1800名);樣本(Sample):90名學(xué)生;變量(Variable):學(xué)號、學(xué)院、身高、體重等;觀察值(數(shù)據(jù))(Data):變量的值統(tǒng)計推斷(Inference):根據(jù)樣本(Sample)推斷總體(Population)。數(shù)據(jù)類型數(shù)值型(Numerical):身高Height(cm),體重Weight(kg);名稱型(Named):序數(shù)型(Ordinal):學(xué)號Code,名義型(Nominal):學(xué)院College.第1步:數(shù)據(jù)清理去除、修補壞數(shù)據(jù)(Outlier)和缺失數(shù)據(jù)(MissingData)(行數(shù)據(jù):刪5行,修改3行);去除與問題無關(guān)的變量(列數(shù)據(jù)),可保存局部標識列(刪College,保存Code作標識);得到體檢數(shù)據(jù).xls-trim第2步:數(shù)據(jù)描述這90名男同學(xué)的身高、體重具有怎樣的特征?圖形描述數(shù)字特征描述Histograms直方圖首次使用安裝:Excel2003-工具-加載宏-分析工具庫Excel2023-文件-選項-加載項-分析工具庫統(tǒng)計工具使用:Excel2003--工具-數(shù)據(jù)分析-直方圖Excel2023-數(shù)據(jù)-數(shù)據(jù)分析-直方圖直方圖(Histograms)正態(tài)分布NormalDistribution中間多,兩頭小;對稱中心特征Median中位數(shù):上、下觀察值占50%Mean均值:算術(shù)平均Mode眾數(shù):具有最大頻率的觀察值Variability差異性(離散性)特征Range極差=最大值-最小值Quartile四分位:Q0~Q4比該數(shù)小的觀察值占0%,25%,50%,75%,100%Interquartilerange四分位差=Q3-Q1Standarddeviation標準差:距離均值的平均誤差Skewness偏度:偏度小于0時,說明median<meanPercentile百分位數(shù):指定比例的分位點用Excel計算方法1:Excel2003-工具-數(shù)據(jù)分析-描述統(tǒng)計Excel2023-數(shù)據(jù)-數(shù)據(jù)分析-描述統(tǒng)計方法2:Excel2003-插入-函數(shù)-統(tǒng)計-(選所需函數(shù))Excel2023-公式-插入函數(shù)-統(tǒng)計-(選所需函數(shù))Excel描述統(tǒng)計第3步:統(tǒng)計推斷是否可以據(jù)此估計:東華大學(xué)畢業(yè)男生平均身高、體重?需要作怎樣的假設(shè)?前提假設(shè)〔1〕樣本量90個對于總體〔約1800個東華大學(xué)畢業(yè)男生〕來說足夠大;〔2〕90個樣本是從總體中隨機抽取的,使得每個個體被抽到的可能性是一樣的。統(tǒng)計推斷由樣本推斷總體:平均身高173cm,平均體重60kg。前提假設(shè)非常重要隨機調(diào)查(習(xí)題2):1936年的總統(tǒng)競選中羅斯福以壓倒性的優(yōu)勢擊敗了蘭登,而《文學(xué)文摘卻預(yù)測蘭登獲勝,該雜志的預(yù)測就基于一個機動車主的簿的樣本進行的。你是如何看待《文學(xué)文摘》的預(yù)測錯誤?從1936年至少的時代變遷中,有沒有什么因素讓您認為當(dāng)時《文學(xué)文摘》所用的方法在今天來講預(yù)測情況會好一些?統(tǒng)計學(xué)的歷史起源:統(tǒng)計學(xué)的英語詞statistics是源于意大利語statista〔國民或政治家〕,代表對國家的數(shù)據(jù)進行分析的學(xué)問,也就是“研究國家的科學(xué)〞。先驅(qū)者:Graunt(英國1620-74),Halley(英國1656-1742)。奠基者:Bernoulli(荷蘭1700-82),Gauss(德國1777-1855),Laplace(法國1749-1827)構(gòu)造者:Galton(英國1822-1911),Pearson(英國1857-1936),Gosset(英國1876-1937),Fisher(英國1890-1962),Neyman(美國1894~1981)大數(shù)據(jù)(BigData)時代的統(tǒng)計學(xué)體量大,類型復(fù)雜,動態(tài),全體。針對樣本大的問題,統(tǒng)計學(xué)可以采用抽樣減少樣本量,到達需要的精度。關(guān)于維數(shù)高的問題,統(tǒng)計學(xué)可以采用選擇、降維、壓縮、分解。目前,人們習(xí)慣于根據(jù)“研究問題〞來驅(qū)動“收集數(shù)據(jù)〞。今后,大數(shù)據(jù)到處可得,人們將會用“數(shù)據(jù)〞驅(qū)動“研究問題〞。商業(yè):啤酒與尿布美國沃爾瑪連鎖超市的真實案例。原來,美國的婦女通常在家照顧孩子,所以她們經(jīng)常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購置自己愛喝的啤酒。這個發(fā)現(xiàn)為商家?guī)砹舜罅康睦麧櫋=鹑冢何⒉╊A(yù)測股市英國外匯交易員保羅?霍廷推出了一款利用Twitter來預(yù)測股票走勢的對沖基金DerwentCapital,他們通過Twitter上的情緒性詞語可以在一定程度用于預(yù)測道瓊斯工業(yè)指數(shù)的變化。結(jié)果說明人們在網(wǎng)上的情緒變化會在2-6天后影響到指數(shù)的變化。推出的交易策略可以獲得的年回報率高達15-20%。治安:犯罪前就執(zhí)行逮捕總部位于美國猶他州桑迪市的監(jiān)控中心曾經(jīng)發(fā)現(xiàn)一個加州的假釋者每天下午2點左右都出現(xiàn)在同一個路口。根據(jù)進一步調(diào)查顯示,該路口是一個學(xué)校巴士??空?。這里本該是學(xué)生聚集的地方,四處也并無其他公共設(shè)施,相對人群較為稀少,于是該公司將這個情況上報到更高的層級,并且將該報告通知給當(dāng)?shù)鼐觳块T,已做好預(yù)警準備。最終在假釋者試圖誘拐一名學(xué)生時,便衣警察直接將其逮捕,數(shù)月的路徑跟蹤在公堂上成為了有力證據(jù)。大數(shù)據(jù)給統(tǒng)計學(xué)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 44596-2024中文域名編碼技術(shù)要求
- 關(guān)注食品安全的演講稿
- 國旗下講話稿薦
- 關(guān)于新學(xué)期的計劃模板集合七篇
- 天英學(xué)校家政服務(wù)員(中級)理論練習(xí)卷附答案
- 2017年四川省綿陽市中考語文試卷(教師版)
- 2024-2025學(xué)年上海外國語大學(xué)附屬外國語學(xué)校松江云間中學(xué)八年級(上)月考數(shù)學(xué)試卷(10月份)(含解析)
- 語文統(tǒng)編版(2024)一年級上冊漢語拼音-?ɑo ou iu 教案
- 第3章 水與膳食纖維課件
- 會計數(shù)據(jù)分析 TestBank Richardson1e-Chapter07-TB-AnswerKey
- 愛護公物-珍愛校園精選課件
- 內(nèi)部審核檢查表(采購部)
- 道路貨物運輸企業(yè)安全生產(chǎn)檢查表參考模板范本
- DB11T 1998-2022 既有公共建筑節(jié)能綠色化改造技術(shù)規(guī)程
- 稅負計算表(增值稅)
- 2017年8月11日公安部遴選公務(wù)員面試真題及答案解析
- 2021年骨科規(guī)培考試試卷含答案
- 從美國投顧業(yè)務(wù)及頭部公司特點看國內(nèi)基金投顧業(yè)務(wù)發(fā)展
- 湘少版五年級上冊英語閱讀理解專項精選練習(xí)
- 01511現(xiàn)代管理實務(wù) 自考重點
- DB22∕T 2646.1-2017 吉林省水利工程定額 第1部分:工程設(shè)計概(估)算編制規(guī)定
評論
0/150
提交評論