數(shù)據(jù)挖掘基礎(chǔ)講座課件_第1頁
數(shù)據(jù)挖掘基礎(chǔ)講座課件_第2頁
數(shù)據(jù)挖掘基礎(chǔ)講座課件_第3頁
數(shù)據(jù)挖掘基礎(chǔ)講座課件_第4頁
數(shù)據(jù)挖掘基礎(chǔ)講座課件_第5頁
已閱讀5頁,還剩97頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘基礎(chǔ)講座

概率統(tǒng)計(jì)、隨機(jī)過程、信息論基礎(chǔ)數(shù)據(jù)挖掘基礎(chǔ)講座

概率統(tǒng)計(jì)、隨機(jī)過程、信息論基礎(chǔ)1課程的性質(zhì)短時(shí)間講多內(nèi)容《數(shù)學(xué)分析講》辛欽(國立莫斯科大學(xué))數(shù)據(jù)挖掘課程上所需要的概率統(tǒng)計(jì)、隨機(jī)過程、信息論知識結(jié)合工作中數(shù)據(jù)挖掘、統(tǒng)計(jì)中的學(xué)習(xí)體會課程的性質(zhì)短時(shí)間講多內(nèi)容2概率論隨機(jī)變量和概率分布聯(lián)合分布、條件分布和獨(dú)立性概率分布的特征聯(lián)合與條件分布特征一些重要的分布概率論隨機(jī)變量和概率分布3數(shù)理統(tǒng)計(jì)估計(jì)量的有限樣本性質(zhì)估計(jì)量的大樣本性質(zhì)(大數(shù)定律、中心極限定理)參數(shù)估計(jì)區(qū)間估計(jì)和置信區(qū)間數(shù)理統(tǒng)計(jì)估計(jì)量的有限樣本性質(zhì)4信息論熵、相對熵、信息量、互信息漸進(jìn)均分性(信息論中的大數(shù)定律)信息論與統(tǒng)計(jì)科爾莫戈羅夫復(fù)雜性(奧克姆剃刀)信息論熵、相對熵、信息量、互信息5隨機(jī)過程馬爾可夫過程隱馬爾可夫模型隨機(jī)過程馬爾可夫過程6隨機(jī)變量和概率分布離散隨機(jī)變量:取值至多可數(shù)的隨機(jī)變量為離散型的隨機(jī)變量。概率分布(分布律)

且隨機(jī)變量和概率分布離散隨機(jī)變量:取值至多可數(shù)的隨機(jī)變量為離散7典型的離散隨機(jī)變量分布0-1分布:

且p+q=1,p>0,q>0,則稱X服從參數(shù)為p的0-1分布,或兩點(diǎn)分布,還可以表示成:典型的離散隨機(jī)變量分布0-1分布:

且p+q=1,8典型的離散隨機(jī)變量分布

且二項(xiàng)分布:二項(xiàng)分布是n個(gè)獨(dú)立的是/非試驗(yàn)中成功的次數(shù)的離散概率分布,其中每次試驗(yàn)的成功概率為p。這樣的單次成功/失敗試驗(yàn)又稱為伯努利試驗(yàn)。舉個(gè)例子就是,獨(dú)立重復(fù)地拋n次硬幣,每次只有兩個(gè)可能的結(jié)果:正面,反面,概率各占1/2。典型的離散隨機(jī)變量分布

且二項(xiàng)分布:二項(xiàng)分布是n個(gè)9典型的離散隨機(jī)變量分布

且泊松分布:典型的離散隨機(jī)變量分布

且泊松分布:10連續(xù)的隨機(jī)變量分布分布函數(shù):定義:對于隨機(jī)變量X的分布函數(shù)F(x),若存在非負(fù)的函數(shù)f(x),使對于任意實(shí)數(shù)x,有:則稱X為連續(xù)型隨機(jī)變量,其中f(x)稱為X的概率密度函數(shù),簡稱概率密度。型隨機(jī)變量的概率密度f(x)有如下性質(zhì):連續(xù)的隨機(jī)變量分布分布函數(shù):定義:對于隨機(jī)變量X的分布函數(shù)F11典型的連續(xù)隨機(jī)變量分布均勻分布:若連續(xù)型隨機(jī)變量X具有概率密度,則稱均勻分布:典型的連續(xù)隨機(jī)變量分布均勻分布:若連續(xù)型隨機(jī)變量X具有概率密12典型的連續(xù)隨機(jī)變量分布指數(shù)分布:典型的連續(xù)隨機(jī)變量分布指數(shù)分布:13典型的連續(xù)隨機(jī)變量分布正態(tài)分布(高斯分布):典型的連續(xù)隨機(jī)變量分布正態(tài)分布(高斯分布):14典型的連續(xù)隨機(jī)變量分布正態(tài)分布(高斯分布)特點(diǎn)(為何如此重要):中心極限定理的完美體現(xiàn)分布的值非常集中的分布在中心區(qū)域面積可以精確的計(jì)算出來典型的連續(xù)隨機(jī)變量分布正態(tài)分布(高斯分布)特點(diǎn)(為何如此重要15典型的連續(xù)隨機(jī)變量分布冪律分布(長尾分布):沒有明確的代數(shù)式子分布趨向于0的速度遠(yuǎn)小于指數(shù)分布典型的連續(xù)隨機(jī)變量分布冪律分布(長尾分布):16典型的連續(xù)隨機(jī)變量分布判斷方法:典型的連續(xù)隨機(jī)變量分布判斷方法:17典型的連續(xù)隨機(jī)變量分布真實(shí)的分布:社交網(wǎng)站用戶數(shù)量和用戶關(guān)注度數(shù)量的分布網(wǎng)絡(luò)終端結(jié)點(diǎn)之間RTT值的分布(密度函數(shù))典型的連續(xù)隨機(jī)變量分布真實(shí)的分布:社交網(wǎng)站用戶數(shù)量和用戶關(guān)注18典型的連續(xù)隨機(jī)變量分布冪律分布的重要:大量社會規(guī)律服從,實(shí)踐中常遇到,大數(shù)據(jù)領(lǐng)域經(jīng)常遇到數(shù)學(xué)期望發(fā)散,不要用均值來替代整體分布大數(shù)定律和中心極限定理不成立典型的連續(xù)隨機(jī)變量分布冪律分布的重要:19典型的連續(xù)隨機(jī)變量分布冪律分布的應(yīng)用:典型的連續(xù)隨機(jī)變量分布冪律分布的應(yīng)用:20數(shù)學(xué)期望如果X是在概率空間(Ω,

P)中的一個(gè)隨機(jī)變量,那么它的期望值E[X]的定義是:數(shù)學(xué)期望如果X是在概率空間(Ω,

P)中的一個(gè)隨機(jī)變量,那么21方差方差:一個(gè)隨機(jī)變量的方差(Variance)描述的是它的離散程度,也就是該變量離其期望值的距離。一個(gè)實(shí)隨機(jī)變量的方差也稱為它的二階矩或二階中心動差,恰巧也是它的二階累積量。μ為平均數(shù),N為樣本總數(shù)方差方差:一個(gè)隨機(jī)變量的方差(Variance)描述的是它的22方差離散和連續(xù)隨機(jī)變量方差計(jì)算:方差離散和連續(xù)隨機(jī)變量方差計(jì)算:23中位數(shù)中位數(shù):對數(shù)據(jù)集中趨勢的一個(gè)度量。定義:連續(xù)隨機(jī)變量概率密度函數(shù)中,左邊和右邊剛好相等的位置。離散隨機(jī)變量中的中間值。特點(diǎn):數(shù)據(jù)約不平衡,中位數(shù)和數(shù)學(xué)期望相差越大。冪律分布下,觀察樣本數(shù)據(jù)的數(shù)學(xué)期望和中位數(shù)之間差值的變化。中位數(shù)中位數(shù):對數(shù)據(jù)集中趨勢的一個(gè)度量。24聯(lián)合分布、條件分布和獨(dú)立性協(xié)方差:涵義:協(xié)方差度量兩個(gè)隨機(jī)變量的線性相關(guān)性,正值代表同向移動,負(fù)值代表反向移動。獨(dú)立協(xié)方差為0,反過來不正確聯(lián)合分布、條件分布和獨(dú)立性協(xié)方差:涵義:協(xié)方差度量兩個(gè)隨機(jī)變25相關(guān)系數(shù)相關(guān)系數(shù):sd(X),sd(Y)代表標(biāo)準(zhǔn)差相關(guān)系數(shù)相關(guān)系數(shù):sd(X),sd(Y)代表標(biāo)準(zhǔn)差26條件數(shù)學(xué)期望離散變量:

給定X的條件數(shù)學(xué)期望連續(xù)變量:聯(lián)合概率密度函數(shù)Y邊緣概率密度函數(shù)條件概率密度函數(shù)條件數(shù)學(xué)期望條件數(shù)學(xué)期望離散變量:給定X的條件數(shù)學(xué)期望連續(xù)變量:聯(lián)27數(shù)理統(tǒng)計(jì)估計(jì)量的有限樣本性質(zhì)估計(jì)量的大樣本性質(zhì)(大數(shù)定律、中心極限定理)參數(shù)估計(jì)區(qū)間估計(jì)和置信度假設(shè)檢驗(yàn)數(shù)理統(tǒng)計(jì)估計(jì)量的有限樣本性質(zhì)28估計(jì)量性質(zhì)無偏性W為參數(shù)u的一個(gè)估計(jì)量,h為函數(shù)有效性:樣本方差小的那個(gè)估計(jì)量估計(jì)量性質(zhì)無偏性W為參數(shù)u的一個(gè)估計(jì)量,h為函數(shù)有效性:樣本29估計(jì)量性質(zhì)一致性:估計(jì)量的趨勢特性估計(jì)量性質(zhì)一致性:估計(jì)量的趨勢特性30大數(shù)定律大數(shù)定律31中心極限定理排除了原始分布的影響,只要期望方差存在。其存在有一定的假設(shè)中心極限定理排除了原始分布的影響,只要期望方差存在。32中心極限定理隨機(jī)變量獨(dú)立服從同一分布期望、方差存在并有限冪律分布第三個(gè)條件不滿足中心極限定理隨機(jī)變量獨(dú)立冪律分布第三個(gè)條件不滿足33參數(shù)估計(jì)矩估計(jì)將參數(shù)

表示成與

X分布的某些期望有某種關(guān)系,通常是E(X)有關(guān)系的量,,如果樣本均值是E(X)的無偏并且一致估計(jì)量,是線性函數(shù)因此依然無偏,則可用樣本矩代替總體矩參數(shù)估計(jì)矩估計(jì)34最大似然估計(jì)最大似然估計(jì)似然函數(shù):關(guān)于的函數(shù)最大似然估計(jì)最大似然估計(jì)35區(qū)間估計(jì)和置信區(qū)間區(qū)間估計(jì)的必要性點(diǎn)估計(jì)+樣本的標(biāo)準(zhǔn)差不足以給出總體值落在相對于樣本值的什么地方置信區(qū)間的理解問題區(qū)間估計(jì)和置信區(qū)間區(qū)間估計(jì)的必要性36充分統(tǒng)計(jì)量充分統(tǒng)計(jì)量[2]p83

充分統(tǒng)計(jì)量是一個(gè)關(guān)于樣本D的函數(shù)s,其中包含了能夠有助于估計(jì)某種參數(shù)的所有相關(guān)的信息樣本均值和樣本(協(xié))方差構(gòu)成了真實(shí)均值和協(xié)方差的一個(gè)充分統(tǒng)計(jì)量充分統(tǒng)計(jì)量充分統(tǒng)計(jì)量樣本均值和樣本(協(xié))方差構(gòu)成了真實(shí)均值和37充分統(tǒng)計(jì)量Hadoop適合處理的統(tǒng)計(jì)量信息論對充分統(tǒng)計(jì)量的估計(jì)充分統(tǒng)計(jì)量Hadoop適合處理的統(tǒng)計(jì)量信息論對充分統(tǒng)計(jì)量的估38信息論熵、相對熵、信息量、互信息漸進(jìn)均分性(信息論中的大數(shù)定律)信息論與統(tǒng)計(jì)學(xué)科爾莫戈羅夫復(fù)雜性(奧克姆剃刀)信息論熵、相對熵、信息量、互信息39信息論初步信息論初步40熵、相對熵熵:相對熵:熵、相對熵熵:相對熵:41熵、相對熵相對熵:涵義:兩個(gè)隨機(jī)分布之間的距離的度量。熵、相對熵相對熵:涵義:兩個(gè)隨機(jī)分布之間的距離的度量。42互信息互信息:一個(gè)隨機(jī)變量包含另一個(gè)隨機(jī)變量信息量的度量。也即在給定另一隨機(jī)變量知識的條件下,原隨機(jī)變量不確定度的縮減量互信息互信息:一個(gè)隨機(jī)變量包含另一個(gè)隨機(jī)變量信息量的度量。也43充分統(tǒng)計(jì)量充分統(tǒng)計(jì)量44漸進(jìn)均分性漸進(jìn)均分定理:解釋:幾乎一切事件都令人同等的意外漸進(jìn)均分性漸進(jìn)均分定理:解釋:幾乎一切事件都令人同等的意外45信息和統(tǒng)計(jì)費(fèi)希爾信息在參數(shù)估計(jì)中的作用:參數(shù)值逼近的評估信息和統(tǒng)計(jì)費(fèi)希爾信息在參數(shù)估計(jì)中的作用:46奧克姆剃刀奧克姆剃刀:簡單性原理,是科學(xué)界常用的一個(gè)準(zhǔn)則,具體表述為,如果多個(gè)理論同時(shí)都能解釋某一現(xiàn)象,那么我們優(yōu)先取利用假設(shè)最少的理論,這個(gè)理論被認(rèn)為是最好的。越簡潔的推論可能性就越高。根據(jù)復(fù)雜度來權(quán)衡所有可能的解釋科爾莫戈羅夫復(fù)雜度:一個(gè)數(shù)據(jù)串的復(fù)雜度可以定義為計(jì)算該數(shù)據(jù)串所需的最短二進(jìn)制程序的長度。如果序列服從熵為H的分布,那么該序列的科爾莫戈羅夫復(fù)雜度近似等于熵H。算法復(fù)雜度PK計(jì)算復(fù)雜度奧克姆剃刀奧克姆剃刀:科爾莫戈羅夫復(fù)雜度:47隨機(jī)過程馬爾可夫過程隱馬爾可夫模型隨機(jī)過程馬爾可夫過程48馬爾科夫過程馬爾可夫鏈馬爾可夫鏈(MarkovChain),描述了一種狀態(tài)序列,其每個(gè)狀態(tài)值取決于前面有限個(gè)狀態(tài)。狀態(tài)遷移問題狀態(tài)分類和狀態(tài)空間分解馬爾科夫鏈的極限形態(tài)和平穩(wěn)分布生滅過程馬爾科夫過程馬爾可夫鏈狀態(tài)遷移問題49隱馬爾科夫過程狀態(tài)序列隱藏

觀察序列觀察序列只和狀態(tài)序列相關(guān)(獨(dú)立輸出假設(shè))

模型訓(xùn)練:給定一個(gè)模型,如何計(jì)算某個(gè)特定的輸出序列的概率;給定一個(gè)模型和某個(gè)特定的輸出序列,如何找到最可能產(chǎn)生這個(gè)輸出的狀態(tài)序列;給定足夠量的觀測數(shù)據(jù),如何估計(jì)HMM模型算法隱馬爾科夫過程狀態(tài)序列隱藏模型訓(xùn)練:50參考文獻(xiàn)[1]計(jì)量經(jīng)濟(jì)學(xué),現(xiàn)代觀點(diǎn)J.M.Wooldridge.[2]信息論基礎(chǔ)ThomasM.Cover[3]應(yīng)用隨機(jī)過程林元烈[4]模式分類RichardO.Duda[5]數(shù)據(jù)之魅PhilippK.Janert

參考文獻(xiàn)[1]計(jì)量經(jīng)濟(jì)學(xué),現(xiàn)代觀點(diǎn)J.M.Wooldri51數(shù)據(jù)挖掘基礎(chǔ)講座

概率統(tǒng)計(jì)、隨機(jī)過程、信息論基礎(chǔ)數(shù)據(jù)挖掘基礎(chǔ)講座

概率統(tǒng)計(jì)、隨機(jī)過程、信息論基礎(chǔ)52課程的性質(zhì)短時(shí)間講多內(nèi)容《數(shù)學(xué)分析講》辛欽(國立莫斯科大學(xué))數(shù)據(jù)挖掘課程上所需要的概率統(tǒng)計(jì)、隨機(jī)過程、信息論知識結(jié)合工作中數(shù)據(jù)挖掘、統(tǒng)計(jì)中的學(xué)習(xí)體會課程的性質(zhì)短時(shí)間講多內(nèi)容53概率論隨機(jī)變量和概率分布聯(lián)合分布、條件分布和獨(dú)立性概率分布的特征聯(lián)合與條件分布特征一些重要的分布概率論隨機(jī)變量和概率分布54數(shù)理統(tǒng)計(jì)估計(jì)量的有限樣本性質(zhì)估計(jì)量的大樣本性質(zhì)(大數(shù)定律、中心極限定理)參數(shù)估計(jì)區(qū)間估計(jì)和置信區(qū)間數(shù)理統(tǒng)計(jì)估計(jì)量的有限樣本性質(zhì)55信息論熵、相對熵、信息量、互信息漸進(jìn)均分性(信息論中的大數(shù)定律)信息論與統(tǒng)計(jì)科爾莫戈羅夫復(fù)雜性(奧克姆剃刀)信息論熵、相對熵、信息量、互信息56隨機(jī)過程馬爾可夫過程隱馬爾可夫模型隨機(jī)過程馬爾可夫過程57隨機(jī)變量和概率分布離散隨機(jī)變量:取值至多可數(shù)的隨機(jī)變量為離散型的隨機(jī)變量。概率分布(分布律)

且隨機(jī)變量和概率分布離散隨機(jī)變量:取值至多可數(shù)的隨機(jī)變量為離散58典型的離散隨機(jī)變量分布0-1分布:

且p+q=1,p>0,q>0,則稱X服從參數(shù)為p的0-1分布,或兩點(diǎn)分布,還可以表示成:典型的離散隨機(jī)變量分布0-1分布:

且p+q=1,59典型的離散隨機(jī)變量分布

且二項(xiàng)分布:二項(xiàng)分布是n個(gè)獨(dú)立的是/非試驗(yàn)中成功的次數(shù)的離散概率分布,其中每次試驗(yàn)的成功概率為p。這樣的單次成功/失敗試驗(yàn)又稱為伯努利試驗(yàn)。舉個(gè)例子就是,獨(dú)立重復(fù)地拋n次硬幣,每次只有兩個(gè)可能的結(jié)果:正面,反面,概率各占1/2。典型的離散隨機(jī)變量分布

且二項(xiàng)分布:二項(xiàng)分布是n個(gè)60典型的離散隨機(jī)變量分布

且泊松分布:典型的離散隨機(jī)變量分布

且泊松分布:61連續(xù)的隨機(jī)變量分布分布函數(shù):定義:對于隨機(jī)變量X的分布函數(shù)F(x),若存在非負(fù)的函數(shù)f(x),使對于任意實(shí)數(shù)x,有:則稱X為連續(xù)型隨機(jī)變量,其中f(x)稱為X的概率密度函數(shù),簡稱概率密度。型隨機(jī)變量的概率密度f(x)有如下性質(zhì):連續(xù)的隨機(jī)變量分布分布函數(shù):定義:對于隨機(jī)變量X的分布函數(shù)F62典型的連續(xù)隨機(jī)變量分布均勻分布:若連續(xù)型隨機(jī)變量X具有概率密度,則稱均勻分布:典型的連續(xù)隨機(jī)變量分布均勻分布:若連續(xù)型隨機(jī)變量X具有概率密63典型的連續(xù)隨機(jī)變量分布指數(shù)分布:典型的連續(xù)隨機(jī)變量分布指數(shù)分布:64典型的連續(xù)隨機(jī)變量分布正態(tài)分布(高斯分布):典型的連續(xù)隨機(jī)變量分布正態(tài)分布(高斯分布):65典型的連續(xù)隨機(jī)變量分布正態(tài)分布(高斯分布)特點(diǎn)(為何如此重要):中心極限定理的完美體現(xiàn)分布的值非常集中的分布在中心區(qū)域面積可以精確的計(jì)算出來典型的連續(xù)隨機(jī)變量分布正態(tài)分布(高斯分布)特點(diǎn)(為何如此重要66典型的連續(xù)隨機(jī)變量分布冪律分布(長尾分布):沒有明確的代數(shù)式子分布趨向于0的速度遠(yuǎn)小于指數(shù)分布典型的連續(xù)隨機(jī)變量分布冪律分布(長尾分布):67典型的連續(xù)隨機(jī)變量分布判斷方法:典型的連續(xù)隨機(jī)變量分布判斷方法:68典型的連續(xù)隨機(jī)變量分布真實(shí)的分布:社交網(wǎng)站用戶數(shù)量和用戶關(guān)注度數(shù)量的分布網(wǎng)絡(luò)終端結(jié)點(diǎn)之間RTT值的分布(密度函數(shù))典型的連續(xù)隨機(jī)變量分布真實(shí)的分布:社交網(wǎng)站用戶數(shù)量和用戶關(guān)注69典型的連續(xù)隨機(jī)變量分布冪律分布的重要:大量社會規(guī)律服從,實(shí)踐中常遇到,大數(shù)據(jù)領(lǐng)域經(jīng)常遇到數(shù)學(xué)期望發(fā)散,不要用均值來替代整體分布大數(shù)定律和中心極限定理不成立典型的連續(xù)隨機(jī)變量分布冪律分布的重要:70典型的連續(xù)隨機(jī)變量分布冪律分布的應(yīng)用:典型的連續(xù)隨機(jī)變量分布冪律分布的應(yīng)用:71數(shù)學(xué)期望如果X是在概率空間(Ω,

P)中的一個(gè)隨機(jī)變量,那么它的期望值E[X]的定義是:數(shù)學(xué)期望如果X是在概率空間(Ω,

P)中的一個(gè)隨機(jī)變量,那么72方差方差:一個(gè)隨機(jī)變量的方差(Variance)描述的是它的離散程度,也就是該變量離其期望值的距離。一個(gè)實(shí)隨機(jī)變量的方差也稱為它的二階矩或二階中心動差,恰巧也是它的二階累積量。μ為平均數(shù),N為樣本總數(shù)方差方差:一個(gè)隨機(jī)變量的方差(Variance)描述的是它的73方差離散和連續(xù)隨機(jī)變量方差計(jì)算:方差離散和連續(xù)隨機(jī)變量方差計(jì)算:74中位數(shù)中位數(shù):對數(shù)據(jù)集中趨勢的一個(gè)度量。定義:連續(xù)隨機(jī)變量概率密度函數(shù)中,左邊和右邊剛好相等的位置。離散隨機(jī)變量中的中間值。特點(diǎn):數(shù)據(jù)約不平衡,中位數(shù)和數(shù)學(xué)期望相差越大。冪律分布下,觀察樣本數(shù)據(jù)的數(shù)學(xué)期望和中位數(shù)之間差值的變化。中位數(shù)中位數(shù):對數(shù)據(jù)集中趨勢的一個(gè)度量。75聯(lián)合分布、條件分布和獨(dú)立性協(xié)方差:涵義:協(xié)方差度量兩個(gè)隨機(jī)變量的線性相關(guān)性,正值代表同向移動,負(fù)值代表反向移動。獨(dú)立協(xié)方差為0,反過來不正確聯(lián)合分布、條件分布和獨(dú)立性協(xié)方差:涵義:協(xié)方差度量兩個(gè)隨機(jī)變76相關(guān)系數(shù)相關(guān)系數(shù):sd(X),sd(Y)代表標(biāo)準(zhǔn)差相關(guān)系數(shù)相關(guān)系數(shù):sd(X),sd(Y)代表標(biāo)準(zhǔn)差77條件數(shù)學(xué)期望離散變量:

給定X的條件數(shù)學(xué)期望連續(xù)變量:聯(lián)合概率密度函數(shù)Y邊緣概率密度函數(shù)條件概率密度函數(shù)條件數(shù)學(xué)期望條件數(shù)學(xué)期望離散變量:給定X的條件數(shù)學(xué)期望連續(xù)變量:聯(lián)78數(shù)理統(tǒng)計(jì)估計(jì)量的有限樣本性質(zhì)估計(jì)量的大樣本性質(zhì)(大數(shù)定律、中心極限定理)參數(shù)估計(jì)區(qū)間估計(jì)和置信度假設(shè)檢驗(yàn)數(shù)理統(tǒng)計(jì)估計(jì)量的有限樣本性質(zhì)79估計(jì)量性質(zhì)無偏性W為參數(shù)u的一個(gè)估計(jì)量,h為函數(shù)有效性:樣本方差小的那個(gè)估計(jì)量估計(jì)量性質(zhì)無偏性W為參數(shù)u的一個(gè)估計(jì)量,h為函數(shù)有效性:樣本80估計(jì)量性質(zhì)一致性:估計(jì)量的趨勢特性估計(jì)量性質(zhì)一致性:估計(jì)量的趨勢特性81大數(shù)定律大數(shù)定律82中心極限定理排除了原始分布的影響,只要期望方差存在。其存在有一定的假設(shè)中心極限定理排除了原始分布的影響,只要期望方差存在。83中心極限定理隨機(jī)變量獨(dú)立服從同一分布期望、方差存在并有限冪律分布第三個(gè)條件不滿足中心極限定理隨機(jī)變量獨(dú)立冪律分布第三個(gè)條件不滿足84參數(shù)估計(jì)矩估計(jì)將參數(shù)

表示成與

X分布的某些期望有某種關(guān)系,通常是E(X)有關(guān)系的量,,如果樣本均值是E(X)的無偏并且一致估計(jì)量,是線性函數(shù)因此依然無偏,則可用樣本矩代替總體矩參數(shù)估計(jì)矩估計(jì)85最大似然估計(jì)最大似然估計(jì)似然函數(shù):關(guān)于的函數(shù)最大似然估計(jì)最大似然估計(jì)86區(qū)間估計(jì)和置信區(qū)間區(qū)間估計(jì)的必要性點(diǎn)估計(jì)+樣本的標(biāo)準(zhǔn)差不足以給出總體值落在相對于樣本值的什么地方置信區(qū)間的理解問題區(qū)間估計(jì)和置信區(qū)間區(qū)間估計(jì)的必要性87充分統(tǒng)計(jì)量充分統(tǒng)計(jì)量[2]p83

充分統(tǒng)計(jì)量是一個(gè)關(guān)于樣本D的函數(shù)s,其中包含了能夠有助于估計(jì)某種參數(shù)的所有相關(guān)的信息樣本均值和樣本(協(xié))方差構(gòu)成了真實(shí)均值和協(xié)方差的一個(gè)充分統(tǒng)計(jì)量充分統(tǒng)計(jì)量充分統(tǒng)計(jì)量樣本均值和樣本(協(xié))方差構(gòu)成了真實(shí)均值和88充分統(tǒng)計(jì)量Hadoop適合處理的統(tǒng)計(jì)量信息論對充分統(tǒng)計(jì)量的估計(jì)充分統(tǒng)計(jì)量Hadoop適合處理的統(tǒng)計(jì)量信息論對充分統(tǒng)計(jì)量的估89信息論熵、相對熵、信息量、互信息漸進(jìn)均分性(信息論中的大數(shù)定律)信息論與統(tǒng)計(jì)學(xué)科爾莫戈羅夫復(fù)雜性(奧克姆剃刀)信息論熵、相對熵、信息量、互信息90信息論初步信息論初步91熵、相對熵熵:相對熵:熵、相對熵熵:相對熵:92熵、相對熵相對熵:涵義:兩個(gè)隨機(jī)分布之間的距離的度量。熵、相對熵相對熵:涵義:兩個(gè)隨機(jī)分布之間的距離的度量。93互信息互信息:一個(gè)隨機(jī)變量包含另一個(gè)隨機(jī)變量信息量的度量。也即在給定另一隨機(jī)變量知識的條件下,原隨機(jī)變量不確定度的縮減量互信息互信息:一個(gè)隨機(jī)變量包含另一個(gè)隨機(jī)變量信息量的度量。也94充分統(tǒng)計(jì)量充分統(tǒng)計(jì)量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論