數(shù)據(jù)挖掘知識點_第1頁
數(shù)據(jù)挖掘知識點_第2頁
數(shù)據(jù)挖掘知識點_第3頁
數(shù)據(jù)挖掘知識點_第4頁
數(shù)據(jù)挖掘知識點_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘知識點:

一、 數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中挖掘那些令人感興趣的有用的隱含的先前未知的和不可能有用的模式和知識。

數(shù)據(jù)庫DB系統(tǒng)最主要的功能:

數(shù)據(jù)存儲、查詢處理、事物處理。

數(shù)據(jù)挖掘的主要功能:

關(guān)聯(lián)分析、時序模式、聚類分析、分類、偏差檢測、預(yù)測

數(shù)據(jù)預(yù)處理:是從大量的數(shù)據(jù)屬性中提取出對目標有重要影響的屬性來降低原始數(shù)據(jù)的維數(shù),或者是處理一些不好的數(shù)據(jù),從而改善實例數(shù)據(jù)的質(zhì)量和提高數(shù)據(jù)挖掘的速度。

數(shù)據(jù)預(yù)處理功能:數(shù)據(jù)集成,數(shù)據(jù)清理,數(shù)據(jù)變換,數(shù)據(jù)簡化。

二、 數(shù)據(jù)挖掘的基本算法:

1、分類:分類的目的是構(gòu)造一個分類函數(shù)或分類模型(分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到某一個給定類別。

分類定義:給定數(shù)據(jù)庫D={t1,t2,…,tn},元組tiD,類的集合C={C1,,Cm},分類問題定義為從數(shù)據(jù)庫到類集合的映射^DC,即數(shù)據(jù)庫中的元組ti分配到某個類Cj中,有Cj={tilf(ti)=Cj,IWiWn,且ti^D}。

ID3算法:

ID3算法是國際上最具影響和最早的決策樹算法。

首先通過檢驗數(shù)據(jù)庫中的所有字段,找出具有最大信息增益Gian(A)的字段作為決策樹碑的一個結(jié)點,再根據(jù)字段的不同取值建立樹的分支,對每個子集分支重復(fù)建立下層結(jié)點和分支,直到某一子集的結(jié)果屬于同一類。

信息量計算公式:

I(s1,s2, ,sm)=—EPilog2(pi)(i=1,…,m)

(S是s個數(shù)據(jù)樣本的集合。類別屬性具有m個不同值Ci。

si是類Ci中的樣本數(shù)。pi是任意樣本屬于類別Ci的概率,并用si/s估計。)由非類別屬性A劃分為子集的熵(也叫做信息熵)計算公式為:E(A)=E(s1j+ +smj)/s*I(s1j, ,smj)

(非類別屬性A具有v個不同值{a1,a2,…,av}。利用屬性A將集合S劃

Day

outlook

TemperatuHumidityre

Wind

Playball

1

Hot

High

Weak

No

2

Hot

High

StrongNo

3

多云

Hot

High

Weak

Yes

4

有雨

mild

High

Weak

Yes

5

有雨

Cool

Normal

Weak

Yes

6

有雨

Cool

Normal

StrongNo

7

多云

Cool

Normal

StrongYes

8

mild

High

Weak

No

9

Cool

Normal

Weak

Yes

10

有雨

mild

Normal

Weak

Yes

11

mild

Normal

StrongYes

12

多云

mild

High

StrongYes

13

多云

hot

Normal

Weak

Yes

14

有雨

mild

High

StrongNo

分為v個子集{S1,S2,…,Sv};其中Sj包含S集合中在屬性A上具有值aj的數(shù)據(jù)樣本。

Sij是子集Sj中類Ci的樣本數(shù)(Sij是子集Sj中類Ci的樣本數(shù))。)

信息增益:Gain(A)=I(s1,s2,……,sm)-E(A)

例題:

類C1運動=“適合”,

類C2對運動=“不適合”

I(s1,s2)=I(9,5)=0.940

計算屬性天氣的熵:: 5 4

E(天氣)=14/(2'3)+14/(4,0)

+乏I(3,2)=0.971

14

Gain(天氣)=I(s1,s2)-E(天氣)=0.246

天氣

C1

C2

l(pn)

晴朗

2

3

0.971

多云

4

0

0

有雨

3

2

0.971

Gain(溫度)=0.029

Gain(濕度)=0.151

Gain(風況)=0.048

貝葉斯分類方法:

貝葉斯分類方法是一種基于統(tǒng)計的學習方法,利用概率統(tǒng)計進行學習分類,如預(yù)測一個數(shù)據(jù)對象屬于某個類別的概率。

貝葉斯定理:

P(H|X)=

P(X|H)P(H)

P(X)

主要算法:樸素貝葉斯分類、貝葉斯信念網(wǎng)絡(luò)分類算法等。

樸素貝葉斯分類:

樸素貝葉斯分類算法利用貝葉斯定理來預(yù)測一個未知類別的樣本屬于各個類別的可能性,選擇可能性最大的一個類別作為該樣本的最終類別。

原理:

設(shè)樣本有n個屬性(A1,A2,...,An),每個樣本可看作是n維空間的一個點X=(x1,x2,...,xn)。

假定有m個不同的類別,C1,C2,....Cm。X是一個未知類別的樣本。預(yù)測X的類別為后驗概率最大的那個類別,即算法將未知類別的樣本X歸到類Ci,當且僅當

P(Ci|X)>P(CjlX),對于所有的[成立(1WjWm,j尹i)即P(CilX)最大。

根據(jù)貝葉斯定理得知

P(CilX)=P(XlCi)P(Ci)/P(X)。

P(X)對于所有類為常數(shù),因此只需P(XlCi)P(Ci)取最大即可

類的先驗概率P(Ci)由P(Ci)=si/s估算

Si訓(xùn)練樣本中屬于類Ci的樣本數(shù),s全部訓(xùn)練樣本的樣本數(shù)。

給定具有多屬性的數(shù)據(jù)集,計算P(xlCi)的開銷可能非常大,為降低計算P(xlCi)的開銷,樸素貝葉斯做了類條件獨立假設(shè),即假定一個屬性值對給定類的影響?yīng)毩⒂谄渌麑傩灾担瑢傩灾g不存在依賴關(guān)系,則:

P(XlCi)=P(x1lCi)P(x2lCi)...P(xnlCi)

對未知樣本X分類,對每個類Ci,分別計算P(XlCi)P(Ci)。

樣本X被指派到類Ci,當且僅當

P(XlCi)P(Ci)>P(XlCj)P(Cj),(IWjWm,j尹i)即X被指派到其P(XlCi)P(Ci)最大的類Ci。

算法描述:

函數(shù)名:NaiveBayes

輸入:類別號未知的樣本X={x1,x2,???xn}

輸出:未知的樣本X所屬類別號

forj=1tom

計算X屬于每個類別Cj的概率

P(XlCj)=P(x1lCj)P(x2lCj)...P(xnlCj);

計算訓(xùn)練集中每個類別Cj的概率P(Cj);

計算概率值Q=P(XlCj)*P(Cj);

endfor

選擇計算概率值Q最大的Ci(1<=i<=m)作為類別

輸出。

例題:

Day

outlook

TemperatuHumidityre

Wind

Playball

1

Hot

High

Weak

No

2

Hot

High

StrongNo

3

多云

Hot

High

Weak

Yes

4

有雨

mild

High

Weak

Yes

5

有雨

Cool

Normal

WeakYes

6

有雨

Cool

Normal

StrongNo

7

多云

Cool

Normal

StrongYes

8

mild

High

WeakNo

9

Cool

Normal

WeakYes

10

有雨

mild

Normal

WeakYes

11

mild

Normal

StrongYes

12

多云

mild

High

StrongYes

13

多云

hot

Normal

WeakYes

14

有雨

mild

High

StrongNo

使用樸素貝葉斯算法預(yù)測未知樣本:

x={rainy,hot,normal,weak,?}屬性play為yes還是no的概率。

1、 P(play=yesIx)=P(xIplay=yes)*P(play=yes)

=P(xjplay=yes)*P(x2Iplay=yes)*...*P(x4Iplay=yes)*P(play=yes)

P(x1|play=yes)=P(outlook=rainy|play=yes)=3/9

P(x2|play=yes)=P(tem=hot|play=yes)=2/9

P(x3|play=yes)=P(humidity=normal|play=yes)=6/9

P(x4|play=yes)=P(wind=weak|play=yes)=6/9

所以,P(play=yes|x)=3/9*2/9*6/9*6/9*9/14=0.021

2、 P(play=no|x)=P(x|play=no)*P(play=no)

=P(x1|play=no)*P(x2|play=no)*???*P(x4|play=no)*P(play=no)

P(x1|play=no)=P(outlook=rainy|play=no)=2/5

P(x2|play=no)=P(tem=hot|play=no)=2/5

P(x3|play=no)=P(humidity=normal|play=no)=1/5

P(x4|play=no)=P(wind=weak|play=no)=2/5

所以,P(play=no|x)=2/5*2/5*1/5*2/5*5/14=0.0045

拉普拉斯(Laplace):樸素貝葉斯分類算法在計算概率的時候存在概率=0,及概率值可能很小的情況,所以,在某些情況下,需要考慮條件概率的Laplace估計和解決小概率相乘溢出問題。

條件概率=0,用條件概率的Laplace估計。

Laplace估計定義:

P(XilYj)=(nc+l*p)/(n+l)

N是類Yj中的實例總數(shù),nc是類Yj的訓(xùn)練樣例中取值為Xi的樣例數(shù),lp例題:

序號

是否有房

婚姻狀況

年收入

拖欠貸款

1

Yes

Single

125K

No

2

No

Married

100K

No

3

No

Single

70K

No

4

Yes

Married

120K

No

5 :

No

Divorced

95K

Yes

6

No

Married

60K

No

7

Yes

Divorced

220K

No

8

No

Single

85K

Yes

9

No

Married

75K

No

10

No

Single

90K

Yes

當條件概率為0時,用Laplace估計求X=(yes,single,80k,?)拖欠貸款的屬性為yes還是no的概率。

設(shè)是否有房為X1,婚姻狀況為x2,年收入為x3.

1)P(拖欠貸款=yes|x)=P(x|拖欠貸款=yes)XP(拖欠貸款=yes)

=P(x1|拖欠貸款=yes)XP(x2|拖欠貸款=yes)XP(x3|拖欠

貸款=yes)XP(拖欠貸款=yes)

P(x1|拖欠貸款=yes)=(0+3X1/3)/3+3=1/6

P(x21拖欠貸款=yes)=2/3

P(x3l拖欠貸款=yes)= —/算=0.589

12兀。 yes

ci

x3(平均)=(95k+85k+90k)/3=90k

2)P(拖欠貸款=眼lx)=P(xl拖欠貸款=no)XP(拖欠貸款=no)

=P(x11拖欠貸款=no)XP(x21拖欠貸款=no)XP(x3|拖欠貸款=no)

XP(拖欠貸款=no)

P(x11拖欠貸款=no)=3/7

P(x21拖欠貸款=no)=2/7

1 80-110

P(x3|拖欠貸款=no)= —。2%=

3 、'2兀。

ci

X3(平均)=(125k+100k+70k+120k+60k+220k+75k)=110k

2、聚類

a) 聚類(Clustering)是一個將數(shù)據(jù)集劃分為若干組(class)或類(cluster)的過程,并使得同一個組內(nèi)的數(shù)據(jù)對象具有較高的相似度;而不同組中的數(shù)據(jù)對象是不相似的。

b) 有關(guān)的聚類方法(類型)主要有:劃分類方法、分層類方法、基于密度類方法、基于網(wǎng)格類方法和基于模型類方法。

c) 聚類和分類的相同點和不同點分析:一是按照定義區(qū)分;二是聚類不依賴于預(yù)先定義好的類,它要劃分的是未知的;是無指導(dǎo)學習,聚類是觀察式學習,而不是示例式學習。(聚類又稱分段,是一種對具有共同趨勢和模式的數(shù)據(jù)元組進行分組的方法。)

d) 無論如何最大程度的實現(xiàn)類中對象相似度最大,類間相似度最小是聚類分析的指導(dǎo)思想。

e) 數(shù)據(jù)挖掘?qū)垲愃惴ǖ牡湫鸵笕缦拢嚎缮炜s性

處理不同類型屬性的能力

發(fā)現(xiàn)任意形狀的聚類

需要(由用戶)決定的輸入?yún)?shù)最少

處理噪聲數(shù)據(jù)的能力

對輸入記錄順序不敏感

高維問題

基于約束的聚類

可解釋性和可用

區(qū)間標度變量計算方法:

數(shù)據(jù)標準化:計算絕對偏差的平均值

s=n(Ix—mI+1x—mI+...+1x—mI)

f 1f f 2f f nff

mf=+...+%).

計算標準度量值(z-score):

x-m

Z=祈。f

if —S

f

二元變量計算方法:

一個二元變量只有兩個狀態(tài)0或1,0表示該變量為空,1表示該變量存在。

兩個變量0和1沒有優(yōu)先權(quán),則二元變量為對稱,相反,如果兩個狀態(tài)輸出不是同等重要,那么該二元變量是不對稱的。

對稱的二元變量計算其相異度公式

d(i,j)=(r+s)/(q+r+s+t)

非對稱的二元變量:d(i,j)=(r+s)/(q+r+s)

其中q表示對象i和j都為1的變量數(shù)目,r是對象i為1而對象j為0的變量數(shù)目。,是對象i為0對象j為1的變量數(shù)目,t是對象i和j都為0的變量數(shù)目。變量的總數(shù)是p=q+r+s+t。

例題:

計算相異度:

Name是對象標識,gender是對稱的二元變量,其余的屬性都是非對稱的二元變量。(計算非對稱二元變量)

Name

Gender

Fever

Cough

Test-1

Test-2

Tcst-3

Tcst-4

Jack

M

Y

N

P

N

N

N

Mary

F

Y

N

P

N

P—

N.

?酒看原圖

Jun

M

Y

P

N

N

N

N

d(Jack,Mary)=(0+1)/(2+0+1)=0.33d

(Jack,Jim)=(1+1)/(1+1+1)=0.67

d(Jim,Mary)=(1+2)/(1+1+2)=0.75

上面的值顯示Jim和Mary不可能有相似的疾病,因為他們有著最高的相似度。

在這三人中,Jack和Mary最有可能有類似的疾病。

相對于對稱的二元變量,不對稱的二元變量基于不對稱的二元變量的相似度稱為非恒定的相似度,且變量的兩個狀態(tài)的重要性不同,可用d(i,j)=(b+c)/(a+b+c)

當我被上帝造出來時,上帝問我想在人間當一個怎樣的人,我不假思索的說,

我要做一個偉大的世人皆知的人。于是,我降臨在了人間。

我出生在一個官僚知識分子之家,父親在朝中做官,精讀詩書,母親知書答

禮,溫柔體貼,父母給我去了一個好聽的名字:李清照。

小時侯,受父母影響的我飽讀詩書,聰明伶俐,在朝中享有“神童”的稱號。

小時候的我天真活潑,才思敏捷,小河畔,花叢邊撒滿了我的詩我的笑,無可置

疑,小時侯的我快樂無慮。

“興盡晚回舟,誤入藕花深處。爭渡,爭渡,驚起一灘鷗鷺?!鼻啻旱奈胰缤?/p>

一只小鳥,自由自在,沒有約束,少女純凈的心靈常在朝陽小,流水也被自然洗

禮,纖細的手指拈一束花,輕拋入水,隨波蕩漾,發(fā)髻上沾著晶瑩的露水,雙腳任水流輕撫。身影輕飄而過,留下一陣清風。

可是晚年的我卻生活在一片黑暗之中,家庭的衰敗,社會的改變,消磨著我那柔弱的心。我?guī)缀鯇ι罱^望,每天在痛苦中消磨時光,一切都好象是灰暗的。“尋尋覓覓冷冷清清凄凄慘慘戚戚”這千古疊詞句就是我當時心情的寫照。

最后,香消玉殞,我在痛苦和哀怨中凄涼的死去。

在天堂里,我又見到了上帝。上帝問我過的怎么樣,我搖搖頭又點點頭,我的一生有歡樂也有坎坷,有笑聲也有淚水,有鼎盛也有衰落。我始終無法客觀的評價我的一生。我原以為做一個著名的人,一生應(yīng)該是被歡樂榮譽所包圍,可我發(fā)現(xiàn)我錯了。于是在下一輪回中,我選擇做一個平凡的人。

我來到人間,我是一個平凡的人,我既不著名也不出眾,但我擁有一切的幸福:我有溫馨的家,我有可親可愛的同學和老師,我每天平凡而快樂的活著,這就夠了。

天兒藍藍風兒輕輕,暖和的春風帶著春的氣息吹進明亮的教室,我坐在教室的窗前,望著我擁有的一切,我甜甜的笑了。我拿起手中的筆,不禁想起曾經(jīng)作詩的李清照,我雖然沒有橫溢的才華,但我還是拿起手中的筆,用最樸實的語言,寫下了一時的感受:

人生并不總是完美的,每個人都會有不如意的地方。這就需要我們靜下心來閱讀自己的人生,體會其中無盡的快樂和與眾不同。

“富不讀書富不久,窮不讀書終究窮。”為什么從古到今都那么看重有學識之

人?那是因為有學識之人可以為社會做出更大的貢獻。那時因為讀書能給人帶來快樂。

自從看了《丑小鴨》這篇童話之后,我變了,變得開朗起來,變得樂意同別人交往,變得自信了因為我知道:即使現(xiàn)在我是只“丑小鴨”,但只要有自信,總有一天我會變成“白天鵝”的,而且會是一只世界上最美麗的“白天鵝”......

我讀完了這篇美麗的童話故事,深深被丑小鴨的自信和樂觀所折服,并把故事講給了外婆聽,外婆也對童話帶給我們的深刻道理而驚訝不已。還吵著鬧著多看幾本名

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論