![數據挖掘知識點_第1頁](http://file4.renrendoc.com/view/adbab79c4e9e9b2bc79d2bb160825d8b/adbab79c4e9e9b2bc79d2bb160825d8b1.gif)
![數據挖掘知識點_第2頁](http://file4.renrendoc.com/view/adbab79c4e9e9b2bc79d2bb160825d8b/adbab79c4e9e9b2bc79d2bb160825d8b2.gif)
![數據挖掘知識點_第3頁](http://file4.renrendoc.com/view/adbab79c4e9e9b2bc79d2bb160825d8b/adbab79c4e9e9b2bc79d2bb160825d8b3.gif)
![數據挖掘知識點_第4頁](http://file4.renrendoc.com/view/adbab79c4e9e9b2bc79d2bb160825d8b/adbab79c4e9e9b2bc79d2bb160825d8b4.gif)
![數據挖掘知識點_第5頁](http://file4.renrendoc.com/view/adbab79c4e9e9b2bc79d2bb160825d8b/adbab79c4e9e9b2bc79d2bb160825d8b5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據挖掘知識點:
一、 數據挖掘是從大量的數據中挖掘那些令人感興趣的有用的隱含的先前未知的和不可能有用的模式和知識。
數據庫DB系統(tǒng)最主要的功能:
數據存儲、查詢處理、事物處理。
數據挖掘的主要功能:
關聯(lián)分析、時序模式、聚類分析、分類、偏差檢測、預測
數據預處理:是從大量的數據屬性中提取出對目標有重要影響的屬性來降低原始數據的維數,或者是處理一些不好的數據,從而改善實例數據的質量和提高數據挖掘的速度。
數據預處理功能:數據集成,數據清理,數據變換,數據簡化。
二、 數據挖掘的基本算法:
1、分類:分類的目的是構造一個分類函數或分類模型(分類器),該模型能把數據庫中的數據項映射到某一個給定類別。
分類定義:給定數據庫D={t1,t2,…,tn},元組tiD,類的集合C={C1,,Cm},分類問題定義為從數據庫到類集合的映射^DC,即數據庫中的元組ti分配到某個類Cj中,有Cj={tilf(ti)=Cj,IWiWn,且ti^D}。
ID3算法:
ID3算法是國際上最具影響和最早的決策樹算法。
首先通過檢驗數據庫中的所有字段,找出具有最大信息增益Gian(A)的字段作為決策樹碑的一個結點,再根據字段的不同取值建立樹的分支,對每個子集分支重復建立下層結點和分支,直到某一子集的結果屬于同一類。
信息量計算公式:
I(s1,s2, ,sm)=—EPilog2(pi)(i=1,…,m)
(S是s個數據樣本的集合。類別屬性具有m個不同值Ci。
si是類Ci中的樣本數。pi是任意樣本屬于類別Ci的概率,并用si/s估計。)由非類別屬性A劃分為子集的熵(也叫做信息熵)計算公式為:E(A)=E(s1j+ +smj)/s*I(s1j, ,smj)
(非類別屬性A具有v個不同值{a1,a2,…,av}。利用屬性A將集合S劃
Day
outlook
TemperatuHumidityre
Wind
Playball
1
晴
Hot
High
Weak
No
2
晴
Hot
High
StrongNo
3
多云
Hot
High
Weak
Yes
4
有雨
mild
High
Weak
Yes
5
有雨
Cool
Normal
Weak
Yes
6
有雨
Cool
Normal
StrongNo
7
多云
Cool
Normal
StrongYes
8
晴
mild
High
Weak
No
9
晴
Cool
Normal
Weak
Yes
10
有雨
mild
Normal
Weak
Yes
11
晴
mild
Normal
StrongYes
12
多云
mild
High
StrongYes
13
多云
hot
Normal
Weak
Yes
14
有雨
mild
High
StrongNo
分為v個子集{S1,S2,…,Sv};其中Sj包含S集合中在屬性A上具有值aj的數據樣本。
Sij是子集Sj中類Ci的樣本數(Sij是子集Sj中類Ci的樣本數)。)
信息增益:Gain(A)=I(s1,s2,……,sm)-E(A)
例題:
類C1運動=“適合”,
類C2對運動=“不適合”
I(s1,s2)=I(9,5)=0.940
計算屬性天氣的熵:: 5 4
E(天氣)=14/(2'3)+14/(4,0)
+乏I(3,2)=0.971
14
Gain(天氣)=I(s1,s2)-E(天氣)=0.246
天氣
C1
C2
l(pn)
晴朗
2
3
0.971
多云
4
0
0
有雨
3
2
0.971
Gain(溫度)=0.029
Gain(濕度)=0.151
Gain(風況)=0.048
貝葉斯分類方法:
貝葉斯分類方法是一種基于統(tǒng)計的學習方法,利用概率統(tǒng)計進行學習分類,如預測一個數據對象屬于某個類別的概率。
貝葉斯定理:
P(H|X)=
P(X|H)P(H)
P(X)
主要算法:樸素貝葉斯分類、貝葉斯信念網絡分類算法等。
樸素貝葉斯分類:
樸素貝葉斯分類算法利用貝葉斯定理來預測一個未知類別的樣本屬于各個類別的可能性,選擇可能性最大的一個類別作為該樣本的最終類別。
原理:
設樣本有n個屬性(A1,A2,...,An),每個樣本可看作是n維空間的一個點X=(x1,x2,...,xn)。
假定有m個不同的類別,C1,C2,....Cm。X是一個未知類別的樣本。預測X的類別為后驗概率最大的那個類別,即算法將未知類別的樣本X歸到類Ci,當且僅當
P(Ci|X)>P(CjlX),對于所有的[成立(1WjWm,j尹i)即P(CilX)最大。
根據貝葉斯定理得知
P(CilX)=P(XlCi)P(Ci)/P(X)。
P(X)對于所有類為常數,因此只需P(XlCi)P(Ci)取最大即可
類的先驗概率P(Ci)由P(Ci)=si/s估算
Si訓練樣本中屬于類Ci的樣本數,s全部訓練樣本的樣本數。
給定具有多屬性的數據集,計算P(xlCi)的開銷可能非常大,為降低計算P(xlCi)的開銷,樸素貝葉斯做了類條件獨立假設,即假定一個屬性值對給定類的影響獨立于其他屬性值,屬性之間不存在依賴關系,則:
P(XlCi)=P(x1lCi)P(x2lCi)...P(xnlCi)
對未知樣本X分類,對每個類Ci,分別計算P(XlCi)P(Ci)。
樣本X被指派到類Ci,當且僅當
P(XlCi)P(Ci)>P(XlCj)P(Cj),(IWjWm,j尹i)即X被指派到其P(XlCi)P(Ci)最大的類Ci。
算法描述:
函數名:NaiveBayes
輸入:類別號未知的樣本X={x1,x2,???xn}
輸出:未知的樣本X所屬類別號
forj=1tom
計算X屬于每個類別Cj的概率
P(XlCj)=P(x1lCj)P(x2lCj)...P(xnlCj);
計算訓練集中每個類別Cj的概率P(Cj);
計算概率值Q=P(XlCj)*P(Cj);
endfor
選擇計算概率值Q最大的Ci(1<=i<=m)作為類別
輸出。
例題:
Day
outlook
TemperatuHumidityre
Wind
Playball
1
晴
Hot
High
Weak
No
2
晴
Hot
High
StrongNo
3
多云
Hot
High
Weak
Yes
4
有雨
mild
High
Weak
Yes
5
有雨
Cool
Normal
WeakYes
6
有雨
Cool
Normal
StrongNo
7
多云
Cool
Normal
StrongYes
8
晴
mild
High
WeakNo
9
晴
Cool
Normal
WeakYes
10
有雨
mild
Normal
WeakYes
11
晴
mild
Normal
StrongYes
12
多云
mild
High
StrongYes
13
多云
hot
Normal
WeakYes
14
有雨
mild
High
StrongNo
使用樸素貝葉斯算法預測未知樣本:
x={rainy,hot,normal,weak,?}屬性play為yes還是no的概率。
1、 P(play=yesIx)=P(xIplay=yes)*P(play=yes)
=P(xjplay=yes)*P(x2Iplay=yes)*...*P(x4Iplay=yes)*P(play=yes)
P(x1|play=yes)=P(outlook=rainy|play=yes)=3/9
P(x2|play=yes)=P(tem=hot|play=yes)=2/9
P(x3|play=yes)=P(humidity=normal|play=yes)=6/9
P(x4|play=yes)=P(wind=weak|play=yes)=6/9
所以,P(play=yes|x)=3/9*2/9*6/9*6/9*9/14=0.021
2、 P(play=no|x)=P(x|play=no)*P(play=no)
=P(x1|play=no)*P(x2|play=no)*???*P(x4|play=no)*P(play=no)
P(x1|play=no)=P(outlook=rainy|play=no)=2/5
P(x2|play=no)=P(tem=hot|play=no)=2/5
P(x3|play=no)=P(humidity=normal|play=no)=1/5
P(x4|play=no)=P(wind=weak|play=no)=2/5
所以,P(play=no|x)=2/5*2/5*1/5*2/5*5/14=0.0045
拉普拉斯(Laplace):樸素貝葉斯分類算法在計算概率的時候存在概率=0,及概率值可能很小的情況,所以,在某些情況下,需要考慮條件概率的Laplace估計和解決小概率相乘溢出問題。
條件概率=0,用條件概率的Laplace估計。
Laplace估計定義:
P(XilYj)=(nc+l*p)/(n+l)
N是類Yj中的實例總數,nc是類Yj的訓練樣例中取值為Xi的樣例數,lp例題:
序號
是否有房
婚姻狀況
年收入
拖欠貸款
1
Yes
Single
125K
No
2
No
Married
100K
No
3
No
Single
70K
No
4
Yes
Married
120K
No
5 :
No
Divorced
95K
Yes
6
No
Married
60K
No
7
Yes
Divorced
220K
No
8
No
Single
85K
Yes
9
No
Married
75K
No
10
No
Single
90K
Yes
當條件概率為0時,用Laplace估計求X=(yes,single,80k,?)拖欠貸款的屬性為yes還是no的概率。
設是否有房為X1,婚姻狀況為x2,年收入為x3.
1)P(拖欠貸款=yes|x)=P(x|拖欠貸款=yes)XP(拖欠貸款=yes)
=P(x1|拖欠貸款=yes)XP(x2|拖欠貸款=yes)XP(x3|拖欠
貸款=yes)XP(拖欠貸款=yes)
P(x1|拖欠貸款=yes)=(0+3X1/3)/3+3=1/6
P(x21拖欠貸款=yes)=2/3
P(x3l拖欠貸款=yes)= —/算=0.589
12兀。 yes
ci
x3(平均)=(95k+85k+90k)/3=90k
2)P(拖欠貸款=眼lx)=P(xl拖欠貸款=no)XP(拖欠貸款=no)
=P(x11拖欠貸款=no)XP(x21拖欠貸款=no)XP(x3|拖欠貸款=no)
XP(拖欠貸款=no)
P(x11拖欠貸款=no)=3/7
P(x21拖欠貸款=no)=2/7
1 80-110
P(x3|拖欠貸款=no)= —。2%=
3 、'2兀。
ci
X3(平均)=(125k+100k+70k+120k+60k+220k+75k)=110k
2、聚類
a) 聚類(Clustering)是一個將數據集劃分為若干組(class)或類(cluster)的過程,并使得同一個組內的數據對象具有較高的相似度;而不同組中的數據對象是不相似的。
b) 有關的聚類方法(類型)主要有:劃分類方法、分層類方法、基于密度類方法、基于網格類方法和基于模型類方法。
c) 聚類和分類的相同點和不同點分析:一是按照定義區(qū)分;二是聚類不依賴于預先定義好的類,它要劃分的是未知的;是無指導學習,聚類是觀察式學習,而不是示例式學習。(聚類又稱分段,是一種對具有共同趨勢和模式的數據元組進行分組的方法。)
d) 無論如何最大程度的實現類中對象相似度最大,類間相似度最小是聚類分析的指導思想。
e) 數據挖掘對聚類算法的典型要求如下:可伸縮性
處理不同類型屬性的能力
發(fā)現任意形狀的聚類
需要(由用戶)決定的輸入參數最少
處理噪聲數據的能力
對輸入記錄順序不敏感
高維問題
基于約束的聚類
可解釋性和可用
區(qū)間標度變量計算方法:
數據標準化:計算絕對偏差的平均值
s=n(Ix—mI+1x—mI+...+1x—mI)
f 1f f 2f f nff
mf=+...+%).
計算標準度量值(z-score):
x-m
Z=祈。f
if —S
f
二元變量計算方法:
一個二元變量只有兩個狀態(tài)0或1,0表示該變量為空,1表示該變量存在。
兩個變量0和1沒有優(yōu)先權,則二元變量為對稱,相反,如果兩個狀態(tài)輸出不是同等重要,那么該二元變量是不對稱的。
對稱的二元變量計算其相異度公式
d(i,j)=(r+s)/(q+r+s+t)
非對稱的二元變量:d(i,j)=(r+s)/(q+r+s)
其中q表示對象i和j都為1的變量數目,r是對象i為1而對象j為0的變量數目。,是對象i為0對象j為1的變量數目,t是對象i和j都為0的變量數目。變量的總數是p=q+r+s+t。
例題:
計算相異度:
Name是對象標識,gender是對稱的二元變量,其余的屬性都是非對稱的二元變量。(計算非對稱二元變量)
Name
Gender
Fever
Cough
Test-1
Test-2
Tcst-3
Tcst-4
Jack
M
Y
N
P
N
N
N
Mary
F
Y
N
P
N
P—
N.
?酒看原圖
Jun
M
Y
P
N
N
N
N
d(Jack,Mary)=(0+1)/(2+0+1)=0.33d
(Jack,Jim)=(1+1)/(1+1+1)=0.67
d(Jim,Mary)=(1+2)/(1+1+2)=0.75
上面的值顯示Jim和Mary不可能有相似的疾病,因為他們有著最高的相似度。
在這三人中,Jack和Mary最有可能有類似的疾病。
相對于對稱的二元變量,不對稱的二元變量基于不對稱的二元變量的相似度稱為非恒定的相似度,且變量的兩個狀態(tài)的重要性不同,可用d(i,j)=(b+c)/(a+b+c)
當我被上帝造出來時,上帝問我想在人間當一個怎樣的人,我不假思索的說,
我要做一個偉大的世人皆知的人。于是,我降臨在了人間。
我出生在一個官僚知識分子之家,父親在朝中做官,精讀詩書,母親知書答
禮,溫柔體貼,父母給我去了一個好聽的名字:李清照。
小時侯,受父母影響的我飽讀詩書,聰明伶俐,在朝中享有“神童”的稱號。
小時候的我天真活潑,才思敏捷,小河畔,花叢邊撒滿了我的詩我的笑,無可置
疑,小時侯的我快樂無慮。
“興盡晚回舟,誤入藕花深處。爭渡,爭渡,驚起一灘鷗鷺?!鼻啻旱奈胰缤?/p>
一只小鳥,自由自在,沒有約束,少女純凈的心靈常在朝陽小,流水也被自然洗
禮,纖細的手指拈一束花,輕拋入水,隨波蕩漾,發(fā)髻上沾著晶瑩的露水,雙腳任水流輕撫。身影輕飄而過,留下一陣清風。
可是晚年的我卻生活在一片黑暗之中,家庭的衰敗,社會的改變,消磨著我那柔弱的心。我?guī)缀鯇ι罱^望,每天在痛苦中消磨時光,一切都好象是灰暗的?!皩ひ捯捓淅淝迩迤嗥鄳K慘戚戚”這千古疊詞句就是我當時心情的寫照。
最后,香消玉殞,我在痛苦和哀怨中凄涼的死去。
在天堂里,我又見到了上帝。上帝問我過的怎么樣,我搖搖頭又點點頭,我的一生有歡樂也有坎坷,有笑聲也有淚水,有鼎盛也有衰落。我始終無法客觀的評價我的一生。我原以為做一個著名的人,一生應該是被歡樂榮譽所包圍,可我發(fā)現我錯了。于是在下一輪回中,我選擇做一個平凡的人。
我來到人間,我是一個平凡的人,我既不著名也不出眾,但我擁有一切的幸福:我有溫馨的家,我有可親可愛的同學和老師,我每天平凡而快樂的活著,這就夠了。
天兒藍藍風兒輕輕,暖和的春風帶著春的氣息吹進明亮的教室,我坐在教室的窗前,望著我擁有的一切,我甜甜的笑了。我拿起手中的筆,不禁想起曾經作詩的李清照,我雖然沒有橫溢的才華,但我還是拿起手中的筆,用最樸實的語言,寫下了一時的感受:
人生并不總是完美的,每個人都會有不如意的地方。這就需要我們靜下心來閱讀自己的人生,體會其中無盡的快樂和與眾不同。
“富不讀書富不久,窮不讀書終究窮?!睘槭裁磸墓诺浇穸寄敲纯粗赜袑W識之
人?那是因為有學識之人可以為社會做出更大的貢獻。那時因為讀書能給人帶來快樂。
自從看了《丑小鴨》這篇童話之后,我變了,變得開朗起來,變得樂意同別人交往,變得自信了因為我知道:即使現在我是只“丑小鴨”,但只要有自信,總有一天我會變成“白天鵝”的,而且會是一只世界上最美麗的“白天鵝”......
我讀完了這篇美麗的童話故事,深深被丑小鴨的自信和樂觀所折服,并把故事講給了外婆聽,外婆也對童話帶給我們的深刻道理而驚訝不已。還吵著鬧著多看幾本名
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 保安獎罰合同范本
- 農具加工制造維修合同范本
- 《增值稅計算與申報》課件
- 出口家具采購合同范本
- 單位與司機合同范例
- 彈射玩具企業(yè)產品線拓展與市場定位考核試卷
- 北京建委房合同范本
- 個人投資藥品合同范例
- 人力信息咨詢合同范本
- 化纖織物前處理技術探討考核試卷
- 房車露營地的研究課件
- 園藝療法共課件
- DB33T 628.1-2021 交通建設工程工程量清單計價規(guī)范 第1部分:公路工程
- 醫(yī)院-9S管理共88張課件
- 設立登記通知書
- 2022醫(yī)學課件前列腺炎指南模板
- MySQL數據庫項目式教程完整版課件全書電子教案教材課件(完整)
- 藥品生產質量管理工程完整版課件
- 《網絡服務器搭建、配置與管理-Linux(RHEL8、CentOS8)(微課版)(第4版)》全冊電子教案
- 職業(yè)衛(wèi)生教學課件生物性有害因素所致職業(yè)性損害
- 降“四高”健康教育課件
評論
0/150
提交評論