![數(shù)據(jù)挖掘基礎(chǔ)講座課件_第1頁(yè)](http://file4.renrendoc.com/view/b093bada79196e0daebeb66ff23545ed/b093bada79196e0daebeb66ff23545ed1.gif)
![數(shù)據(jù)挖掘基礎(chǔ)講座課件_第2頁(yè)](http://file4.renrendoc.com/view/b093bada79196e0daebeb66ff23545ed/b093bada79196e0daebeb66ff23545ed2.gif)
![數(shù)據(jù)挖掘基礎(chǔ)講座課件_第3頁(yè)](http://file4.renrendoc.com/view/b093bada79196e0daebeb66ff23545ed/b093bada79196e0daebeb66ff23545ed3.gif)
![數(shù)據(jù)挖掘基礎(chǔ)講座課件_第4頁(yè)](http://file4.renrendoc.com/view/b093bada79196e0daebeb66ff23545ed/b093bada79196e0daebeb66ff23545ed4.gif)
![數(shù)據(jù)挖掘基礎(chǔ)講座課件_第5頁(yè)](http://file4.renrendoc.com/view/b093bada79196e0daebeb66ff23545ed/b093bada79196e0daebeb66ff23545ed5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘基礎(chǔ)講座
概率統(tǒng)計(jì)、隨機(jī)過(guò)程、信息論基礎(chǔ)數(shù)據(jù)挖掘基礎(chǔ)講座
概率統(tǒng)計(jì)、隨機(jī)過(guò)程、信息論基礎(chǔ)1課程的性質(zhì)短時(shí)間講多內(nèi)容《數(shù)學(xué)分析講》辛欽(國(guó)立莫斯科大學(xué))數(shù)據(jù)挖掘課程上所需要的概率統(tǒng)計(jì)、隨機(jī)過(guò)程、信息論知識(shí)結(jié)合工作中數(shù)據(jù)挖掘、統(tǒng)計(jì)中的學(xué)習(xí)體會(huì)課程的性質(zhì)短時(shí)間講多內(nèi)容2概率論隨機(jī)變量和概率分布聯(lián)合分布、條件分布和獨(dú)立性概率分布的特征聯(lián)合與條件分布特征一些重要的分布概率論隨機(jī)變量和概率分布3數(shù)理統(tǒng)計(jì)估計(jì)量的有限樣本性質(zhì)估計(jì)量的大樣本性質(zhì)(大數(shù)定律、中心極限定理)參數(shù)估計(jì)區(qū)間估計(jì)和置信區(qū)間數(shù)理統(tǒng)計(jì)估計(jì)量的有限樣本性質(zhì)4信息論熵、相對(duì)熵、信息量、互信息漸進(jìn)均分性(信息論中的大數(shù)定律)信息論與統(tǒng)計(jì)科爾莫戈羅夫復(fù)雜性(奧克姆剃刀)信息論熵、相對(duì)熵、信息量、互信息5隨機(jī)過(guò)程馬爾可夫過(guò)程隱馬爾可夫模型隨機(jī)過(guò)程馬爾可夫過(guò)程6隨機(jī)變量和概率分布離散隨機(jī)變量:取值至多可數(shù)的隨機(jī)變量為離散型的隨機(jī)變量。概率分布(分布律)
且隨機(jī)變量和概率分布離散隨機(jī)變量:取值至多可數(shù)的隨機(jī)變量為離散7典型的離散隨機(jī)變量分布0-1分布:
且p+q=1,p>0,q>0,則稱X服從參數(shù)為p的0-1分布,或兩點(diǎn)分布,還可以表示成:典型的離散隨機(jī)變量分布0-1分布:
且p+q=1,8典型的離散隨機(jī)變量分布
且二項(xiàng)分布:二項(xiàng)分布是n個(gè)獨(dú)立的是/非試驗(yàn)中成功的次數(shù)的離散概率分布,其中每次試驗(yàn)的成功概率為p。這樣的單次成功/失敗試驗(yàn)又稱為伯努利試驗(yàn)。舉個(gè)例子就是,獨(dú)立重復(fù)地拋n次硬幣,每次只有兩個(gè)可能的結(jié)果:正面,反面,概率各占1/2。典型的離散隨機(jī)變量分布
且二項(xiàng)分布:二項(xiàng)分布是n個(gè)9典型的離散隨機(jī)變量分布
且泊松分布:典型的離散隨機(jī)變量分布
且泊松分布:10連續(xù)的隨機(jī)變量分布分布函數(shù):定義:對(duì)于隨機(jī)變量X的分布函數(shù)F(x),若存在非負(fù)的函數(shù)f(x),使對(duì)于任意實(shí)數(shù)x,有:則稱X為連續(xù)型隨機(jī)變量,其中f(x)稱為X的概率密度函數(shù),簡(jiǎn)稱概率密度。型隨機(jī)變量的概率密度f(wàn)(x)有如下性質(zhì):連續(xù)的隨機(jī)變量分布分布函數(shù):定義:對(duì)于隨機(jī)變量X的分布函數(shù)F11典型的連續(xù)隨機(jī)變量分布均勻分布:若連續(xù)型隨機(jī)變量X具有概率密度,則稱均勻分布:典型的連續(xù)隨機(jī)變量分布均勻分布:若連續(xù)型隨機(jī)變量X具有概率密12典型的連續(xù)隨機(jī)變量分布指數(shù)分布:典型的連續(xù)隨機(jī)變量分布指數(shù)分布:13典型的連續(xù)隨機(jī)變量分布正態(tài)分布(高斯分布):典型的連續(xù)隨機(jī)變量分布正態(tài)分布(高斯分布):14典型的連續(xù)隨機(jī)變量分布正態(tài)分布(高斯分布)特點(diǎn)(為何如此重要):中心極限定理的完美體現(xiàn)分布的值非常集中的分布在中心區(qū)域面積可以精確的計(jì)算出來(lái)典型的連續(xù)隨機(jī)變量分布正態(tài)分布(高斯分布)特點(diǎn)(為何如此重要15典型的連續(xù)隨機(jī)變量分布冪律分布(長(zhǎng)尾分布):沒有明確的代數(shù)式子分布趨向于0的速度遠(yuǎn)小于指數(shù)分布典型的連續(xù)隨機(jī)變量分布冪律分布(長(zhǎng)尾分布):16典型的連續(xù)隨機(jī)變量分布判斷方法:典型的連續(xù)隨機(jī)變量分布判斷方法:17典型的連續(xù)隨機(jī)變量分布真實(shí)的分布:社交網(wǎng)站用戶數(shù)量和用戶關(guān)注度數(shù)量的分布網(wǎng)絡(luò)終端結(jié)點(diǎn)之間RTT值的分布(密度函數(shù))典型的連續(xù)隨機(jī)變量分布真實(shí)的分布:社交網(wǎng)站用戶數(shù)量和用戶關(guān)注18典型的連續(xù)隨機(jī)變量分布冪律分布的重要:大量社會(huì)規(guī)律服從,實(shí)踐中常遇到,大數(shù)據(jù)領(lǐng)域經(jīng)常遇到數(shù)學(xué)期望發(fā)散,不要用均值來(lái)替代整體分布大數(shù)定律和中心極限定理不成立典型的連續(xù)隨機(jī)變量分布冪律分布的重要:19典型的連續(xù)隨機(jī)變量分布冪律分布的應(yīng)用:典型的連續(xù)隨機(jī)變量分布冪律分布的應(yīng)用:20數(shù)學(xué)期望如果X是在概率空間(Ω,
P)中的一個(gè)隨機(jī)變量,那么它的期望值E[X]的定義是:數(shù)學(xué)期望如果X是在概率空間(Ω,
P)中的一個(gè)隨機(jī)變量,那么21方差方差:一個(gè)隨機(jī)變量的方差(Variance)描述的是它的離散程度,也就是該變量離其期望值的距離。一個(gè)實(shí)隨機(jī)變量的方差也稱為它的二階矩或二階中心動(dòng)差,恰巧也是它的二階累積量。μ為平均數(shù),N為樣本總數(shù)方差方差:一個(gè)隨機(jī)變量的方差(Variance)描述的是它的22方差離散和連續(xù)隨機(jī)變量方差計(jì)算:方差離散和連續(xù)隨機(jī)變量方差計(jì)算:23中位數(shù)中位數(shù):對(duì)數(shù)據(jù)集中趨勢(shì)的一個(gè)度量。定義:連續(xù)隨機(jī)變量概率密度函數(shù)中,左邊和右邊剛好相等的位置。離散隨機(jī)變量中的中間值。特點(diǎn):數(shù)據(jù)約不平衡,中位數(shù)和數(shù)學(xué)期望相差越大。冪律分布下,觀察樣本數(shù)據(jù)的數(shù)學(xué)期望和中位數(shù)之間差值的變化。中位數(shù)中位數(shù):對(duì)數(shù)據(jù)集中趨勢(shì)的一個(gè)度量。24聯(lián)合分布、條件分布和獨(dú)立性協(xié)方差:涵義:協(xié)方差度量?jī)蓚€(gè)隨機(jī)變量的線性相關(guān)性,正值代表同向移動(dòng),負(fù)值代表反向移動(dòng)。獨(dú)立協(xié)方差為0,反過(guò)來(lái)不正確聯(lián)合分布、條件分布和獨(dú)立性協(xié)方差:涵義:協(xié)方差度量?jī)蓚€(gè)隨機(jī)變25相關(guān)系數(shù)相關(guān)系數(shù):sd(X),sd(Y)代表標(biāo)準(zhǔn)差相關(guān)系數(shù)相關(guān)系數(shù):sd(X),sd(Y)代表標(biāo)準(zhǔn)差26條件數(shù)學(xué)期望離散變量:
給定X的條件數(shù)學(xué)期望連續(xù)變量:聯(lián)合概率密度函數(shù)Y邊緣概率密度函數(shù)條件概率密度函數(shù)條件數(shù)學(xué)期望條件數(shù)學(xué)期望離散變量:給定X的條件數(shù)學(xué)期望連續(xù)變量:聯(lián)27數(shù)理統(tǒng)計(jì)估計(jì)量的有限樣本性質(zhì)估計(jì)量的大樣本性質(zhì)(大數(shù)定律、中心極限定理)參數(shù)估計(jì)區(qū)間估計(jì)和置信度假設(shè)檢驗(yàn)數(shù)理統(tǒng)計(jì)估計(jì)量的有限樣本性質(zhì)28估計(jì)量性質(zhì)無(wú)偏性W為參數(shù)u的一個(gè)估計(jì)量,h為函數(shù)有效性:樣本方差小的那個(gè)估計(jì)量估計(jì)量性質(zhì)無(wú)偏性W為參數(shù)u的一個(gè)估計(jì)量,h為函數(shù)有效性:樣本29估計(jì)量性質(zhì)一致性:估計(jì)量的趨勢(shì)特性估計(jì)量性質(zhì)一致性:估計(jì)量的趨勢(shì)特性30大數(shù)定律大數(shù)定律31中心極限定理排除了原始分布的影響,只要期望方差存在。其存在有一定的假設(shè)中心極限定理排除了原始分布的影響,只要期望方差存在。32中心極限定理隨機(jī)變量獨(dú)立服從同一分布期望、方差存在并有限冪律分布第三個(gè)條件不滿足中心極限定理隨機(jī)變量獨(dú)立冪律分布第三個(gè)條件不滿足33參數(shù)估計(jì)矩估計(jì)將參數(shù)
表示成與
X分布的某些期望有某種關(guān)系,通常是E(X)有關(guān)系的量,,如果樣本均值是E(X)的無(wú)偏并且一致估計(jì)量,是線性函數(shù)因此依然無(wú)偏,則可用樣本矩代替總體矩參數(shù)估計(jì)矩估計(jì)34最大似然估計(jì)最大似然估計(jì)似然函數(shù):關(guān)于的函數(shù)最大似然估計(jì)最大似然估計(jì)35區(qū)間估計(jì)和置信區(qū)間區(qū)間估計(jì)的必要性點(diǎn)估計(jì)+樣本的標(biāo)準(zhǔn)差不足以給出總體值落在相對(duì)于樣本值的什么地方置信區(qū)間的理解問題區(qū)間估計(jì)和置信區(qū)間區(qū)間估計(jì)的必要性36充分統(tǒng)計(jì)量充分統(tǒng)計(jì)量[2]p83
充分統(tǒng)計(jì)量是一個(gè)關(guān)于樣本D的函數(shù)s,其中包含了能夠有助于估計(jì)某種參數(shù)的所有相關(guān)的信息樣本均值和樣本(協(xié))方差構(gòu)成了真實(shí)均值和協(xié)方差的一個(gè)充分統(tǒng)計(jì)量充分統(tǒng)計(jì)量充分統(tǒng)計(jì)量樣本均值和樣本(協(xié))方差構(gòu)成了真實(shí)均值和37充分統(tǒng)計(jì)量Hadoop適合處理的統(tǒng)計(jì)量信息論對(duì)充分統(tǒng)計(jì)量的估計(jì)充分統(tǒng)計(jì)量Hadoop適合處理的統(tǒng)計(jì)量信息論對(duì)充分統(tǒng)計(jì)量的估38信息論熵、相對(duì)熵、信息量、互信息漸進(jìn)均分性(信息論中的大數(shù)定律)信息論與統(tǒng)計(jì)學(xué)科爾莫戈羅夫復(fù)雜性(奧克姆剃刀)信息論熵、相對(duì)熵、信息量、互信息39信息論初步信息論初步40熵、相對(duì)熵熵:相對(duì)熵:熵、相對(duì)熵熵:相對(duì)熵:41熵、相對(duì)熵相對(duì)熵:涵義:兩個(gè)隨機(jī)分布之間的距離的度量。熵、相對(duì)熵相對(duì)熵:涵義:兩個(gè)隨機(jī)分布之間的距離的度量。42互信息互信息:一個(gè)隨機(jī)變量包含另一個(gè)隨機(jī)變量信息量的度量。也即在給定另一隨機(jī)變量知識(shí)的條件下,原隨機(jī)變量不確定度的縮減量互信息互信息:一個(gè)隨機(jī)變量包含另一個(gè)隨機(jī)變量信息量的度量。也43充分統(tǒng)計(jì)量充分統(tǒng)計(jì)量44漸進(jìn)均分性漸進(jìn)均分定理:解釋:幾乎一切事件都令人同等的意外漸進(jìn)均分性漸進(jìn)均分定理:解釋:幾乎一切事件都令人同等的意外45信息和統(tǒng)計(jì)費(fèi)希爾信息在參數(shù)估計(jì)中的作用:參數(shù)值逼近的評(píng)估信息和統(tǒng)計(jì)費(fèi)希爾信息在參數(shù)估計(jì)中的作用:46奧克姆剃刀奧克姆剃刀:簡(jiǎn)單性原理,是科學(xué)界常用的一個(gè)準(zhǔn)則,具體表述為,如果多個(gè)理論同時(shí)都能解釋某一現(xiàn)象,那么我們優(yōu)先取利用假設(shè)最少的理論,這個(gè)理論被認(rèn)為是最好的。越簡(jiǎn)潔的推論可能性就越高。根據(jù)復(fù)雜度來(lái)權(quán)衡所有可能的解釋科爾莫戈羅夫復(fù)雜度:一個(gè)數(shù)據(jù)串的復(fù)雜度可以定義為計(jì)算該數(shù)據(jù)串所需的最短二進(jìn)制程序的長(zhǎng)度。如果序列服從熵為H的分布,那么該序列的科爾莫戈羅夫復(fù)雜度近似等于熵H。算法復(fù)雜度PK計(jì)算復(fù)雜度奧克姆剃刀奧克姆剃刀:科爾莫戈羅夫復(fù)雜度:47隨機(jī)過(guò)程馬爾可夫過(guò)程隱馬爾可夫模型隨機(jī)過(guò)程馬爾可夫過(guò)程48馬爾科夫過(guò)程馬爾可夫鏈馬爾可夫鏈(MarkovChain),描述了一種狀態(tài)序列,其每個(gè)狀態(tài)值取決于前面有限個(gè)狀態(tài)。狀態(tài)遷移問題狀態(tài)分類和狀態(tài)空間分解馬爾科夫鏈的極限形態(tài)和平穩(wěn)分布生滅過(guò)程馬爾科夫過(guò)程馬爾可夫鏈狀態(tài)遷移問題49隱馬爾科夫過(guò)程狀態(tài)序列隱藏
觀察序列觀察序列只和狀態(tài)序列相關(guān)(獨(dú)立輸出假設(shè))
模型訓(xùn)練:給定一個(gè)模型,如何計(jì)算某個(gè)特定的輸出序列的概率;給定一個(gè)模型和某個(gè)特定的輸出序列,如何找到最可能產(chǎn)生這個(gè)輸出的狀態(tài)序列;給定足夠量的觀測(cè)數(shù)據(jù),如何估計(jì)HMM模型算法隱馬爾科夫過(guò)程狀態(tài)序列隱藏模型訓(xùn)練:50參考文獻(xiàn)[1]計(jì)量經(jīng)濟(jì)學(xué),現(xiàn)代觀點(diǎn)J.M.Wooldridge.[2]信息論基礎(chǔ)ThomasM.Cover[3]應(yīng)用隨機(jī)過(guò)程林元烈[4]模式分類RichardO.Duda[5]數(shù)據(jù)之魅PhilippK.Janert
參考文獻(xiàn)[1]計(jì)量經(jīng)濟(jì)學(xué),現(xiàn)代觀點(diǎn)J.M.Wooldri51數(shù)據(jù)挖掘基礎(chǔ)講座
概率統(tǒng)計(jì)、隨機(jī)過(guò)程、信息論基礎(chǔ)數(shù)據(jù)挖掘基礎(chǔ)講座
概率統(tǒng)計(jì)、隨機(jī)過(guò)程、信息論基礎(chǔ)52課程的性質(zhì)短時(shí)間講多內(nèi)容《數(shù)學(xué)分析講》辛欽(國(guó)立莫斯科大學(xué))數(shù)據(jù)挖掘課程上所需要的概率統(tǒng)計(jì)、隨機(jī)過(guò)程、信息論知識(shí)結(jié)合工作中數(shù)據(jù)挖掘、統(tǒng)計(jì)中的學(xué)習(xí)體會(huì)課程的性質(zhì)短時(shí)間講多內(nèi)容53概率論隨機(jī)變量和概率分布聯(lián)合分布、條件分布和獨(dú)立性概率分布的特征聯(lián)合與條件分布特征一些重要的分布概率論隨機(jī)變量和概率分布54數(shù)理統(tǒng)計(jì)估計(jì)量的有限樣本性質(zhì)估計(jì)量的大樣本性質(zhì)(大數(shù)定律、中心極限定理)參數(shù)估計(jì)區(qū)間估計(jì)和置信區(qū)間數(shù)理統(tǒng)計(jì)估計(jì)量的有限樣本性質(zhì)55信息論熵、相對(duì)熵、信息量、互信息漸進(jìn)均分性(信息論中的大數(shù)定律)信息論與統(tǒng)計(jì)科爾莫戈羅夫復(fù)雜性(奧克姆剃刀)信息論熵、相對(duì)熵、信息量、互信息56隨機(jī)過(guò)程馬爾可夫過(guò)程隱馬爾可夫模型隨機(jī)過(guò)程馬爾可夫過(guò)程57隨機(jī)變量和概率分布離散隨機(jī)變量:取值至多可數(shù)的隨機(jī)變量為離散型的隨機(jī)變量。概率分布(分布律)
且隨機(jī)變量和概率分布離散隨機(jī)變量:取值至多可數(shù)的隨機(jī)變量為離散58典型的離散隨機(jī)變量分布0-1分布:
且p+q=1,p>0,q>0,則稱X服從參數(shù)為p的0-1分布,或兩點(diǎn)分布,還可以表示成:典型的離散隨機(jī)變量分布0-1分布:
且p+q=1,59典型的離散隨機(jī)變量分布
且二項(xiàng)分布:二項(xiàng)分布是n個(gè)獨(dú)立的是/非試驗(yàn)中成功的次數(shù)的離散概率分布,其中每次試驗(yàn)的成功概率為p。這樣的單次成功/失敗試驗(yàn)又稱為伯努利試驗(yàn)。舉個(gè)例子就是,獨(dú)立重復(fù)地拋n次硬幣,每次只有兩個(gè)可能的結(jié)果:正面,反面,概率各占1/2。典型的離散隨機(jī)變量分布
且二項(xiàng)分布:二項(xiàng)分布是n個(gè)60典型的離散隨機(jī)變量分布
且泊松分布:典型的離散隨機(jī)變量分布
且泊松分布:61連續(xù)的隨機(jī)變量分布分布函數(shù):定義:對(duì)于隨機(jī)變量X的分布函數(shù)F(x),若存在非負(fù)的函數(shù)f(x),使對(duì)于任意實(shí)數(shù)x,有:則稱X為連續(xù)型隨機(jī)變量,其中f(x)稱為X的概率密度函數(shù),簡(jiǎn)稱概率密度。型隨機(jī)變量的概率密度f(wàn)(x)有如下性質(zhì):連續(xù)的隨機(jī)變量分布分布函數(shù):定義:對(duì)于隨機(jī)變量X的分布函數(shù)F62典型的連續(xù)隨機(jī)變量分布均勻分布:若連續(xù)型隨機(jī)變量X具有概率密度,則稱均勻分布:典型的連續(xù)隨機(jī)變量分布均勻分布:若連續(xù)型隨機(jī)變量X具有概率密63典型的連續(xù)隨機(jī)變量分布指數(shù)分布:典型的連續(xù)隨機(jī)變量分布指數(shù)分布:64典型的連續(xù)隨機(jī)變量分布正態(tài)分布(高斯分布):典型的連續(xù)隨機(jī)變量分布正態(tài)分布(高斯分布):65典型的連續(xù)隨機(jī)變量分布正態(tài)分布(高斯分布)特點(diǎn)(為何如此重要):中心極限定理的完美體現(xiàn)分布的值非常集中的分布在中心區(qū)域面積可以精確的計(jì)算出來(lái)典型的連續(xù)隨機(jī)變量分布正態(tài)分布(高斯分布)特點(diǎn)(為何如此重要66典型的連續(xù)隨機(jī)變量分布冪律分布(長(zhǎng)尾分布):沒有明確的代數(shù)式子分布趨向于0的速度遠(yuǎn)小于指數(shù)分布典型的連續(xù)隨機(jī)變量分布冪律分布(長(zhǎng)尾分布):67典型的連續(xù)隨機(jī)變量分布判斷方法:典型的連續(xù)隨機(jī)變量分布判斷方法:68典型的連續(xù)隨機(jī)變量分布真實(shí)的分布:社交網(wǎng)站用戶數(shù)量和用戶關(guān)注度數(shù)量的分布網(wǎng)絡(luò)終端結(jié)點(diǎn)之間RTT值的分布(密度函數(shù))典型的連續(xù)隨機(jī)變量分布真實(shí)的分布:社交網(wǎng)站用戶數(shù)量和用戶關(guān)注69典型的連續(xù)隨機(jī)變量分布冪律分布的重要:大量社會(huì)規(guī)律服從,實(shí)踐中常遇到,大數(shù)據(jù)領(lǐng)域經(jīng)常遇到數(shù)學(xué)期望發(fā)散,不要用均值來(lái)替代整體分布大數(shù)定律和中心極限定理不成立典型的連續(xù)隨機(jī)變量分布冪律分布的重要:70典型的連續(xù)隨機(jī)變量分布冪律分布的應(yīng)用:典型的連續(xù)隨機(jī)變量分布冪律分布的應(yīng)用:71數(shù)學(xué)期望如果X是在概率空間(Ω,
P)中的一個(gè)隨機(jī)變量,那么它的期望值E[X]的定義是:數(shù)學(xué)期望如果X是在概率空間(Ω,
P)中的一個(gè)隨機(jī)變量,那么72方差方差:一個(gè)隨機(jī)變量的方差(Variance)描述的是它的離散程度,也就是該變量離其期望值的距離。一個(gè)實(shí)隨機(jī)變量的方差也稱為它的二階矩或二階中心動(dòng)差,恰巧也是它的二階累積量。μ為平均數(shù),N為樣本總數(shù)方差方差:一個(gè)隨機(jī)變量的方差(Variance)描述的是它的73方差離散和連續(xù)隨機(jī)變量方差計(jì)算:方差離散和連續(xù)隨機(jī)變量方差計(jì)算:74中位數(shù)中位數(shù):對(duì)數(shù)據(jù)集中趨勢(shì)的一個(gè)度量。定義:連續(xù)隨機(jī)變量概率密度函數(shù)中,左邊和右邊剛好相等的位置。離散隨機(jī)變量中的中間值。特點(diǎn):數(shù)據(jù)約不平衡,中位數(shù)和數(shù)學(xué)期望相差越大。冪律分布下,觀察樣本數(shù)據(jù)的數(shù)學(xué)期望和中位數(shù)之間差值的變化。中位數(shù)中位數(shù):對(duì)數(shù)據(jù)集中趨勢(shì)的一個(gè)度量。75聯(lián)合分布、條件分布和獨(dú)立性協(xié)方差:涵義:協(xié)方差度量?jī)蓚€(gè)隨機(jī)變量的線性相關(guān)性,正值代表同向移動(dòng),負(fù)值代表反向移動(dòng)。獨(dú)立協(xié)方差為0,反過(guò)來(lái)不正確聯(lián)合分布、條件分布和獨(dú)立性協(xié)方差:涵義:協(xié)方差度量?jī)蓚€(gè)隨機(jī)變76相關(guān)系數(shù)相關(guān)系數(shù):sd(X),sd(Y)代表標(biāo)準(zhǔn)差相關(guān)系數(shù)相關(guān)系數(shù):sd(X),sd(Y)代表標(biāo)準(zhǔn)差77條件數(shù)學(xué)期望離散變量:
給定X的條件數(shù)學(xué)期望連續(xù)變量:聯(lián)合概率密度函數(shù)Y邊緣概率密度函數(shù)條件概率密度函數(shù)條件數(shù)學(xué)期望條件數(shù)學(xué)期望離散變量:給定X的條件數(shù)學(xué)期望連續(xù)變量:聯(lián)78數(shù)理統(tǒng)計(jì)估計(jì)量的有限樣本性質(zhì)估計(jì)量的大樣本性質(zhì)(大數(shù)定律、中心極限定理)參數(shù)估計(jì)區(qū)間估計(jì)和置信度假設(shè)檢驗(yàn)數(shù)理統(tǒng)計(jì)估計(jì)量的有限樣本性質(zhì)79估計(jì)量性質(zhì)無(wú)偏性W為參數(shù)u的一個(gè)估計(jì)量,h為函數(shù)有效性:樣本方差小的那個(gè)估計(jì)量估計(jì)量性質(zhì)無(wú)偏性W為參數(shù)u的一個(gè)估計(jì)量,h為函數(shù)有效性:樣本80估計(jì)量性質(zhì)一致性:估計(jì)量的趨勢(shì)特性估計(jì)量性質(zhì)一致性:估計(jì)量的趨勢(shì)特性81大數(shù)定律大數(shù)定律82中心極限定理排除了原始分布的影響,只要期望方差存在。其存在有一定的假設(shè)中心極限定理排除了原始分布的影響,只要期望方差存在。83中心極限定理隨機(jī)變量獨(dú)立服從同一分布期望、方差存在并有限冪律分布第三個(gè)條件不滿足中心極限定理隨機(jī)變量獨(dú)立冪律分布第三個(gè)條件不滿足84參數(shù)估計(jì)矩估計(jì)將參數(shù)
表示成與
X分布的某些期望有某種關(guān)系,通常是E(X)有關(guān)系的量,,如果樣本均值是E(X)的無(wú)偏并且一致估計(jì)量,是線性函數(shù)因此依然無(wú)偏,則可用樣本矩代替總體矩參數(shù)估計(jì)矩估計(jì)85最大似然估計(jì)最大似然估計(jì)似然函數(shù):關(guān)于的函數(shù)最大似然估計(jì)最大似然估計(jì)86區(qū)間估計(jì)和置信區(qū)間區(qū)間估計(jì)的必要性點(diǎn)估計(jì)+樣本的標(biāo)準(zhǔn)差不足以給出總體值落在相對(duì)于樣本值的什么地方置信區(qū)間的理解問題區(qū)間估計(jì)和置信區(qū)間區(qū)間估計(jì)的必要性87充分統(tǒng)計(jì)量充分統(tǒng)計(jì)量[2]p83
充分統(tǒng)計(jì)量是一個(gè)關(guān)于樣本D的函數(shù)s,其中包含了能夠有助于估計(jì)某種參數(shù)的所有相關(guān)的信息樣本均值和樣本(協(xié))方差構(gòu)成了真實(shí)均值和協(xié)方差的一個(gè)充分統(tǒng)計(jì)量充分統(tǒng)計(jì)量充分統(tǒng)計(jì)量樣本均值和樣本(協(xié))方差構(gòu)成了真實(shí)均值和88充分統(tǒng)計(jì)量Hadoop適合處理的統(tǒng)計(jì)量信息論對(duì)充分統(tǒng)計(jì)量的估計(jì)充分統(tǒng)計(jì)量Hadoop適合處理的統(tǒng)計(jì)量信息論對(duì)充分統(tǒng)計(jì)量的估89信息論熵、相對(duì)熵、信息量、互信息漸進(jìn)均分性(信息論中的大數(shù)定律)信息論與統(tǒng)計(jì)學(xué)科爾莫戈羅夫復(fù)雜性(奧克姆剃刀)信息論熵、相對(duì)熵、信息量、互信息90信息論初步信息論初步91熵、相對(duì)熵熵:相對(duì)熵:熵、相對(duì)熵熵:相對(duì)熵:92熵、相對(duì)熵相對(duì)熵:涵義:兩個(gè)隨機(jī)分布之間的距離的度量。熵、相對(duì)熵相對(duì)熵:涵義:兩個(gè)隨機(jī)分布之間的距離的度量。93互信息互信息:一個(gè)隨機(jī)變量包含另一個(gè)隨機(jī)變量信息量的度量。也即在給定另一隨機(jī)變量知識(shí)的條件下,原隨機(jī)變量不確定度的縮減量互信息互信息:一個(gè)隨機(jī)變量包含另一個(gè)隨機(jī)變量信息量的度量。也94充分統(tǒng)計(jì)量充分統(tǒng)計(jì)量
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)生交流會(huì)策劃方案(8篇)
- 2025年材料用過(guò)濾袋合同采購(gòu)流程
- 2025年醫(yī)用耗材集中采購(gòu)協(xié)議
- 2025年文物遺址保護(hù)服務(wù)項(xiàng)目規(guī)劃申請(qǐng)報(bào)告
- 2025年舞蹈學(xué)校教職員工勞動(dòng)合同
- 2025年貴金屬靶材項(xiàng)目申請(qǐng)報(bào)告模板
- 2025年企業(yè)互助共享協(xié)議
- 2025年單位二手商業(yè)房產(chǎn)出售合同范本
- 2025年公司員工競(jìng)業(yè)限制協(xié)議范例
- 2025年組合開關(guān)項(xiàng)目提案報(bào)告
- 2022年人教版小學(xué)數(shù)學(xué)四年級(jí)下冊(cè)教案全冊(cè)
- 儀表基礎(chǔ)知識(shí)培訓(xùn).ppt課件
- 數(shù)據(jù)結(jié)構(gòu)英文教學(xué)課件:chapter2 Array
- 20以內(nèi)分成表算式x
- 井下探放水設(shè)計(jì)編制培訓(xùn)PPT課件
- 數(shù)據(jù)結(jié)構(gòu)英文教學(xué)課件:chapter9 Sorting
- 營(yíng)養(yǎng)學(xué)緒論(精)
- 最新ICD-9手術(shù)編碼
- 軟件項(xiàng)目報(bào)價(jià)方法參考模板
- 國(guó)際形式發(fā)票模板
- 陜西延長(zhǎng)石油(集團(tuán))有限責(zé)任公司企業(yè)年金方案
評(píng)論
0/150
提交評(píng)論