版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘中的統(tǒng)計(jì)學(xué)參考資料:Wiki:統(tǒng)計(jì)學(xué)研究者July的CSDN蝸牛向前沖2013年6月2日星期日綱要概率論條件概率全概率貝葉斯公式離散型隨機(jī)變量連續(xù)型隨機(jī)變量概率論總結(jié)數(shù)理統(tǒng)計(jì)數(shù)學(xué)期望方差協(xié)方差相關(guān)系數(shù)主成分分析中心極限定理χ2分布、t分布、F分布正態(tài)分布簡(jiǎn)史正態(tài)分布簡(jiǎn)史誤差計(jì)算中英文對(duì)照概率分布集中趨勢(shì)離散程度分布形態(tài)2013-06-02Sunday2概率論條件概率全概率貝葉斯公式離散型隨機(jī)變量連續(xù)型隨機(jī)變量概率論總結(jié)2013-06-02Sunday3條件概率定義:在同一個(gè)樣本空間Ω中的事件A、B,如果從Ω中隨機(jī)選出的一個(gè)元素屬于B,那么這個(gè)隨機(jī)選出的元素也屬于A的概率就定義為B條件下A發(fā)生的條件概率,即為P(A|B)=|A∩B|/|B|分子、分母同除以|Ω|,得到條件概率的公式:P(A|B)=P(A∩B)/P(B)亦稱為后驗(yàn)概率。P(A|B)與P(B|A)的關(guān)系為:P(A|B)×P(B)=P(B|A)×P(A)2013-06-02Sunday4全概率公式
2013-06-02Sunday5貝葉斯公式
2013-06-02Sunday6貝葉斯公式正概率是由原因推結(jié)果(現(xiàn)在推未來),稱為概率論某藥廠用從甲、乙、丙三地收購(gòu)而來的藥材加工生產(chǎn)出一種中成藥,三地的供貨量分別占40%,35%和25%,且用這三地的藥材能生產(chǎn)出優(yōu)等品的概率分別為0.65,0.70和0.85,求從該廠產(chǎn)品中任意取出一件成品是優(yōu)等品的概率。(0.7175)逆概率是由結(jié)果推原因(現(xiàn)在推過去),稱為數(shù)理統(tǒng)計(jì)如果一件產(chǎn)品是優(yōu)質(zhì)品,它的材料來自甲地的概率有多大呢?(0.3624)2013-06-02Sunday7離散型隨機(jī)變量
2013-06-02Sunday8連續(xù)型隨機(jī)變量
2013-06-02Sunday9連續(xù)型隨機(jī)變量
2013-06-02Sunday10連續(xù)型隨機(jī)變量圖片來源:《大嘴巴漫談數(shù)據(jù)挖掘》2013-06-02Sunday11概率論總結(jié)圖片來源:《概率論與數(shù)理統(tǒng)計(jì)》盛驟版2013-06-02Sunday12概率論總結(jié)圖片來源:《概率論與數(shù)理統(tǒng)計(jì)》盛驟版2013-06-02Sunday13數(shù)理統(tǒng)計(jì)數(shù)學(xué)期望方差協(xié)方差相關(guān)系數(shù)主成分分析中心極限定理χ2分布、t分布、F分布2013-06-02Sunday14數(shù)學(xué)期望MathematicalExpectation隨機(jī)變量X的期望值vs樣本均值積分的本質(zhì)亦是求和例:擲色子一次,期望值為3.52013-06-02Sunday15方差Variance方差:變量距其期望值的距離;亦稱為二階矩2013-06-02Sunday16協(xié)方差Covariance
協(xié)方差矩陣兩個(gè)向量的協(xié)方差cov(X,Y)和cov(Y,X)互為轉(zhuǎn)置矩陣2013-06-02Sunday17相關(guān)系數(shù)CorrelationCoefficient
而實(shí)際上,上述數(shù)據(jù)的函數(shù)關(guān)系為y=0.10+0.01x;E(x)=3.8,E(y)=0.138,x-E(x)、y-E(y)得x=(?2.8,?1.8,?0.8,1.2,4.2)、
y=(?0.028,?0.018,?0.008,0.012,0.042),得皮爾遜相關(guān)系數(shù)2013-06-02Sunday18相關(guān)系數(shù)CorrelationCoefficient2013-06-02Sunday19主成分分析PrincipalComponentAnalysis又稱主分量分析,PCA指將多個(gè)變量通過線性變換以選出較少個(gè)數(shù)重要變量的方法,在減少數(shù)據(jù)集維數(shù)的同時(shí),保持?jǐn)?shù)據(jù)集的對(duì)方差貢獻(xiàn)最大的特征。
PCA的目的是使變換后的數(shù)據(jù)有最大的方差,這些性質(zhì)不同于普通模型為求穩(wěn)定性往往會(huì)減小方差;主要方法:對(duì)協(xié)方差矩陣進(jìn)行特征分解,得出數(shù)據(jù)的主成分(特征向量)和權(quán)值(特征值)步驟:數(shù)據(jù)標(biāo)準(zhǔn)化;求特征協(xié)方差矩陣;通過正交變換使非對(duì)角線的元素為0,求得特征值和特征向量;對(duì)特征值降序排列,取最大k個(gè)組成特征向量矩陣;投影矩陣=原始樣本數(shù)據(jù)×特征向量矩陣;(理論依據(jù)為SVD)2013-06-02Sunday20中心極限定理
獨(dú)立變量和
2013-06-02Sunday21中心極限定理
獨(dú)立同分布變量和
2013-06-02Sunday22中心極限定理
此定理表明:二項(xiàng)分布的極限是正態(tài)分布;二項(xiàng)分布是離散分布,正態(tài)分布是連續(xù)分布n重伯努利試驗(yàn)在出現(xiàn)第r個(gè)A前A不出現(xiàn)的試驗(yàn)次數(shù)的概率分布為負(fù)二項(xiàng)分布,又稱帕斯卡分布。獨(dú)立同分布
2013-06-02Sunday23中心極限定理
若序列滿足李雅普若夫條件:
獨(dú)立變量2013-06-02Sunday24χ2分布、t分布、F分布在正態(tài)分布、中心極限定理確立之下,20世紀(jì)后χ2分布、t分布、F分布也出現(xiàn)了2013-06-02Sunday25正態(tài)分布簡(jiǎn)史正態(tài)分布簡(jiǎn)史誤差計(jì)算2013-06-02Sunday26正態(tài)分布簡(jiǎn)史17世紀(jì),惠更斯(1629-1695)研究賭博時(shí)創(chuàng)立數(shù)學(xué)期望;18世紀(jì),伯努利(1667-1748)伯努利大數(shù)定律:事件發(fā)生的頻率依概率收斂于事件的概率;1909年由伯萊爾證明;18世紀(jì),棣莫弗(1667-1754)二項(xiàng)概率逼近:用二項(xiàng)分布逼近正態(tài)分布,并提出了中心極限定理;18世紀(jì),拉普拉斯(1749-1827)建立了中心極限定理的一般形式;19世紀(jì),勒讓德(1752-1833)發(fā)明最小二乘法;19世紀(jì),高斯(1777-1855)正態(tài)誤差理論(以下有詳解);19世紀(jì),拉普拉斯在高斯研究的基礎(chǔ)上,用中心極限定理論證了正態(tài)分布(高斯分布);19世紀(jì),海根提出元誤差學(xué)說,逐步正式確立誤差服從正態(tài)分布。2013-06-02Sunday27誤差計(jì)算
即可解得系數(shù)a、b。
2013-06-02Sunday28誤差計(jì)算
2013-06-02Sunday29中英文對(duì)照概率分布集中趨勢(shì)離散程度分布形態(tài)2013-06-02Sunday30中英文對(duì)照-概率分布ProbabilityTheory:概率論MathematicalStatistics:數(shù)理統(tǒng)計(jì)SampleSpace:樣本空間RandomOccurrence:隨機(jī)事件Fundamentalevent:基本事件Certainevent:必然事件Impossibleevent:不可能事件RandomVariable:隨機(jī)變量DiscreteRandomVariable:離散型ContinuousRandomVariable:連續(xù)型Bayes’sFormula:貝葉斯公式ProbabilityDistribution:概率分布DistributionFunction:分布函數(shù)DistributionLaw:分布律ProbabilityDensity:概率密度ConditionalDistribution:條件分布UniformlyDistribution:均勻分布BinomialDistribution:二項(xiàng)分布BernoulliDistribution:伯努利分布GeometricDistribution:幾何分布PoissonDistribution:泊松分布ExponentitalDistribution:指數(shù)分布MathematicalExpectation:數(shù)學(xué)期望Variance:方差Covariance:協(xié)方差CorrelationCoefficient:相關(guān)系數(shù)NormalDistribution:正態(tài)分布CentralLimitTherem:中心極限定理Chebyshev’sInequality:切比雪夫不等式PrincipalComponentAnalysis:主成分分析2013-06-02Sunday31中英文對(duì)照-集中趨勢(shì)
2013-06-02Sunday32中英文對(duì)照-離散程度Rang
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 連云港職業(yè)技術(shù)學(xué)院《體育-臺(tái)球》2023-2024學(xué)年第一學(xué)期期末試卷
- 江西現(xiàn)代職業(yè)技術(shù)學(xué)院《音樂選配與編輯》2023-2024學(xué)年第一學(xué)期期末試卷
- 江蘇大學(xué)《水資源系統(tǒng)分析》2023-2024學(xué)年第一學(xué)期期末試卷
- 華東理工大學(xué)《國(guó)學(xué)經(jīng)典選讀》2023-2024學(xué)年第一學(xué)期期末試卷
- 隔膜壓縮機(jī)開機(jī)停機(jī)操作規(guī)程
- 湖北工業(yè)職業(yè)技術(shù)學(xué)院《醫(yī)藥學(xué)基礎(chǔ)實(shí)驗(yàn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 遵義醫(yī)科大學(xué)《材料與結(jié)構(gòu)選型》2023-2024學(xué)年第一學(xué)期期末試卷
- 珠海城市職業(yè)技術(shù)學(xué)院《Python程序開發(fā)》2023-2024學(xué)年第一學(xué)期期末試卷
- 重慶旅游職業(yè)學(xué)院《地下水資源勘查與評(píng)價(jià)》2023-2024學(xué)年第一學(xué)期期末試卷
- 浙江特殊教育職業(yè)學(xué)院《審計(jì)理論與方法》2023-2024學(xué)年第一學(xué)期期末試卷
- 工作責(zé)任心測(cè)評(píng)
- 人教精通版5年級(jí)(上下冊(cè))單詞表(含音標(biāo))
- 五年級(jí)語文下冊(cè)全冊(cè)教材分析
- 第1課+中華文明的起源與早期國(guó)家+課件+-2023-2024學(xué)年高中歷史統(tǒng)編版2019必修中外歷史綱要上冊(cè)+
- 大廈物業(yè)管理保潔服務(wù)標(biāo)準(zhǔn)5篇
- 神經(jīng)內(nèi)科國(guó)家臨床重點(diǎn)專科建設(shè)項(xiàng)目評(píng)分標(biāo)準(zhǔn)(試行)
- 城市設(shè)計(jì)與城市更新培訓(xùn)
- 2023年貴州省銅仁市中考數(shù)學(xué)真題試題含解析
- 世界衛(wèi)生組織生存質(zhì)量測(cè)量表(WHOQOL-BREF)
- 某送電線路安全健康環(huán)境與文明施工監(jiān)理細(xì)則
- PEP-3心理教育量表-評(píng)估報(bào)告
評(píng)論
0/150
提交評(píng)論