概率統(tǒng)計(jì)簡(jiǎn)介_第1頁
概率統(tǒng)計(jì)簡(jiǎn)介_第2頁
概率統(tǒng)計(jì)簡(jiǎn)介_第3頁
概率統(tǒng)計(jì)簡(jiǎn)介_第4頁
概率統(tǒng)計(jì)簡(jiǎn)介_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章概率統(tǒng)計(jì)簡(jiǎn)介胡良劍東華大學(xué)理學(xué)院第2學(xué)院樓543內(nèi)容提要什么是統(tǒng)計(jì)學(xué)一個(gè)例子:學(xué)生體檢數(shù)據(jù)分析統(tǒng)計(jì)學(xué)的昨天、今天和明天什么是統(tǒng)計(jì)學(xué)Statisticsisthestudyofthecollection,organization,analysis,interpretationandpresentationofdata.Whenanalyzingdata,itispossibletouseoneoftwostatisticsmethodologies:descriptivestatisticsorinferentialstatistics.----維基百科(://)統(tǒng)計(jì)學(xué)的主要內(nèi)容描述統(tǒng)計(jì)學(xué)(Descriptivestatistics,第2章)概率論(Probability,第3-6章)推斷統(tǒng)計(jì)學(xué)(Inferentialstatistics,第7-8章)一個(gè)例子為了研究東華大學(xué)畢業(yè)生身體情況,體育部隨機(jī)抽查了90名男同學(xué)身高、體重?cái)?shù)據(jù),記錄在Excel文件體檢數(shù)據(jù).xls-raw中.考慮以下問題:這90名男同學(xué)的身高、體重具有怎樣的特征?是否可以據(jù)此估計(jì):東華大學(xué)畢業(yè)男生平均身高、體重?需要作怎樣的假設(shè)?概念總體(Population):當(dāng)年東華大學(xué)畢業(yè)男生(約1800名);樣本(Sample):90名學(xué)生;變量(Variable):學(xué)號(hào)、學(xué)院、身高、體重等;觀察值(數(shù)據(jù))(Data):變量的值統(tǒng)計(jì)推斷(Inference):根據(jù)樣本(Sample)推斷總體(Population)。數(shù)據(jù)類型數(shù)值型(Numerical):身高Height(cm),體重Weight(kg);名稱型(Named):序數(shù)型(Ordinal):學(xué)號(hào)Code,名義型(Nominal):學(xué)院College.第1步:數(shù)據(jù)清理去除、修補(bǔ)壞數(shù)據(jù)(Outlier)和缺失數(shù)據(jù)(MissingData)(行數(shù)據(jù):刪5行,修改3行);去除與問題無關(guān)的變量(列數(shù)據(jù)),可保存局部標(biāo)識(shí)列(刪College,保存Code作標(biāo)識(shí));得到體檢數(shù)據(jù).xls-trim第2步:數(shù)據(jù)描述這90名男同學(xué)的身高、體重具有怎樣的特征?圖形描述數(shù)字特征描述Histograms直方圖首次使用安裝:Excel2003-工具-加載宏-分析工具庫Excel2023-文件-選項(xiàng)-加載項(xiàng)-分析工具庫統(tǒng)計(jì)工具使用:Excel2003--工具-數(shù)據(jù)分析-直方圖Excel2023-數(shù)據(jù)-數(shù)據(jù)分析-直方圖直方圖(Histograms)正態(tài)分布NormalDistribution中間多,兩頭小;對(duì)稱中心特征Median中位數(shù):上、下觀察值占50%Mean均值:算術(shù)平均Mode眾數(shù):具有最大頻率的觀察值Variability差異性(離散性)特征Range極差=最大值-最小值Quartile四分位:Q0~Q4比該數(shù)小的觀察值占0%,25%,50%,75%,100%Interquartilerange四分位差=Q3-Q1Standarddeviation標(biāo)準(zhǔn)差:距離均值的平均誤差Skewness偏度:偏度小于0時(shí),說明median<meanPercentile百分位數(shù):指定比例的分位點(diǎn)用Excel計(jì)算方法1:Excel2003-工具-數(shù)據(jù)分析-描述統(tǒng)計(jì)Excel2023-數(shù)據(jù)-數(shù)據(jù)分析-描述統(tǒng)計(jì)方法2:Excel2003-插入-函數(shù)-統(tǒng)計(jì)-(選所需函數(shù))Excel2023-公式-插入函數(shù)-統(tǒng)計(jì)-(選所需函數(shù))Excel描述統(tǒng)計(jì)第3步:統(tǒng)計(jì)推斷是否可以據(jù)此估計(jì):東華大學(xué)畢業(yè)男生平均身高、體重?需要作怎樣的假設(shè)?前提假設(shè)〔1〕樣本量90個(gè)對(duì)于總體〔約1800個(gè)東華大學(xué)畢業(yè)男生〕來說足夠大;〔2〕90個(gè)樣本是從總體中隨機(jī)抽取的,使得每個(gè)個(gè)體被抽到的可能性是一樣的。統(tǒng)計(jì)推斷由樣本推斷總體:平均身高173cm,平均體重60kg。前提假設(shè)非常重要隨機(jī)調(diào)查(習(xí)題2):1936年的總統(tǒng)競(jìng)選中羅斯福以壓倒性的優(yōu)勢(shì)擊敗了蘭登,而《文學(xué)文摘卻預(yù)測(cè)蘭登獲勝,該雜志的預(yù)測(cè)就基于一個(gè)機(jī)動(dòng)車主的簿的樣本進(jìn)行的。你是如何看待《文學(xué)文摘》的預(yù)測(cè)錯(cuò)誤?從1936年至少的時(shí)代變遷中,有沒有什么因素讓您認(rèn)為當(dāng)時(shí)《文學(xué)文摘》所用的方法在今天來講預(yù)測(cè)情況會(huì)好一些?統(tǒng)計(jì)學(xué)的歷史起源:統(tǒng)計(jì)學(xué)的英語詞statistics是源于意大利語statista〔國民或政治家〕,代表對(duì)國家的數(shù)據(jù)進(jìn)行分析的學(xué)問,也就是“研究國家的科學(xué)〞。先驅(qū)者:Graunt(英國1620-74),Halley(英國1656-1742)。奠基者:Bernoulli(荷蘭1700-82),Gauss(德國1777-1855),Laplace(法國1749-1827)構(gòu)造者:Galton(英國1822-1911),Pearson(英國1857-1936),Gosset(英國1876-1937),Fisher(英國1890-1962),Neyman(美國1894~1981)大數(shù)據(jù)(BigData)時(shí)代的統(tǒng)計(jì)學(xué)體量大,類型復(fù)雜,動(dòng)態(tài),全體。針對(duì)樣本大的問題,統(tǒng)計(jì)學(xué)可以采用抽樣減少樣本量,到達(dá)需要的精度。關(guān)于維數(shù)高的問題,統(tǒng)計(jì)學(xué)可以采用選擇、降維、壓縮、分解。目前,人們習(xí)慣于根據(jù)“研究問題〞來驅(qū)動(dòng)“收集數(shù)據(jù)〞。今后,大數(shù)據(jù)到處可得,人們將會(huì)用“數(shù)據(jù)〞驅(qū)動(dòng)“研究問題〞。商業(yè):啤酒與尿布美國沃爾瑪連鎖超市的真實(shí)案例。原來,美國的婦女通常在家照顧孩子,所以她們經(jīng)常會(huì)囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時(shí)又會(huì)順手購置自己愛喝的啤酒。這個(gè)發(fā)現(xiàn)為商家?guī)砹舜罅康睦麧?rùn)。金融:微博預(yù)測(cè)股市英國外匯交易員保羅?霍廷推出了一款利用Twitter來預(yù)測(cè)股票走勢(shì)的對(duì)沖基金DerwentCapital,他們通過Twitter上的情緒性詞語可以在一定程度用于預(yù)測(cè)道瓊斯工業(yè)指數(shù)的變化。結(jié)果說明人們?cè)诰W(wǎng)上的情緒變化會(huì)在2-6天后影響到指數(shù)的變化。推出的交易策略可以獲得的年回報(bào)率高達(dá)15-20%。治安:犯罪前就執(zhí)行逮捕總部位于美國猶他州桑迪市的監(jiān)控中心曾經(jīng)發(fā)現(xiàn)一個(gè)加州的假釋者每天下午2點(diǎn)左右都出現(xiàn)在同一個(gè)路口。根據(jù)進(jìn)一步調(diào)查顯示,該路口是一個(gè)學(xué)校巴士停靠站。這里本該是學(xué)生聚集的地方,四處也并無其他公共設(shè)施,相對(duì)人群較為稀少,于是該公司將這個(gè)情況上報(bào)到更高的層級(jí),并且將該報(bào)告通知給當(dāng)?shù)鼐觳块T,已做好預(yù)警準(zhǔn)備。最終在假釋者試圖誘拐一名學(xué)生時(shí),便衣警察直接將其逮捕,數(shù)月的路徑跟蹤在公堂上成為了有力證據(jù)。大數(shù)據(jù)給統(tǒng)計(jì)學(xué)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論