版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第8章分類–分類?用判定樹歸納分類分類基于規(guī)則的分類分類的準(zhǔn)確性小結(jié)Data
Mining:
Concepts
andTechniques1星期二分類分類:–
分類的類標(biāo)號
(class
labels)(離散的或標(biāo)稱的)–基于訓(xùn)練數(shù)據(jù)和和類標(biāo)號屬性上的值(類標(biāo)號)構(gòu)造模型,并使用它對新的數(shù)據(jù)進(jìn)行分類典型應(yīng)用–
認(rèn)證(credit
approval)–醫(yī)療
(medical
diagnosis)Data
Mining:
Concepts
andTechniques2星期二分類:包括兩步過程模型構(gòu)造:描述預(yù)先確定的數(shù)據(jù)類或概念集假定每個元組屬于一個預(yù)定義的類,由一個類標(biāo)號屬性確定基本概念訓(xùn)練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練樣本:訓(xùn)練數(shù)據(jù)集中的單個樣本(元組)模型用分類規(guī)則、判定樹或數(shù)學(xué)公式的形式提供模型使用:對未來的或未知的對象分類評估模型的精度檢驗(測試)樣本的已知標(biāo)號與模型分類結(jié)果進(jìn)行比較準(zhǔn)確率:是正確被模型分類的檢驗樣本的百分比檢驗樣本獨(dú)立于訓(xùn)練集,否則將出現(xiàn)過分?jǐn)M合Data
Mining:
Concepts
andTechniques3星期二分類過程
(1):模型構(gòu)造訓(xùn)練數(shù)據(jù)NAMERANKYEARSTENUREDMikeAssistant
Prof3nossistant
Prof7yesBillProfessor2yesJimAssociate
Prof7yesDaveAssistant
Prof6noAnneAssociate
Prof3no分類算法IF
rank
=
‘professor’OR
years
>
6THEN
tenured
=‘yes’分類法(模型)Data
Mining:
Concepts
andTechniques4星期二分類過程
(2):使用模型分類分類法檢驗數(shù)據(jù)NAMERANKYEARSTENUREDTomAssistant
Prof2noMerlisaAssociate
Prof7noGeorgeProfessor5yesJosephAssistant
Prof7yes未知數(shù)據(jù)(Jeff,
Professor,
4)Tenured?Data
Mining:
Concepts
andTechniques5星期二有監(jiān)督學(xué)習(xí)VS.無監(jiān)督學(xué)習(xí)有監(jiān)督的學(xué)習(xí)
(分類)模型的學(xué)
知每個訓(xùn)練樣本屬于哪個類的“指導(dǎo)”下進(jìn)行
-訓(xùn)練數(shù)據(jù)(觀測)具有類標(biāo)號新數(shù)據(jù)的分類基于訓(xùn)練集無監(jiān)督學(xué)習(xí)
(聚類)訓(xùn)練數(shù)據(jù)的類標(biāo)號未知給定度量,觀測等,目標(biāo)是找出數(shù)據(jù)中的類或簇/聚類(clusters)Data
Mining:
Concepts
andTechniques6星期二第8章分類–分類?用判定樹歸納分類分類基于規(guī)則的分類分類的準(zhǔn)確性小結(jié)Data
Mining:
Concepts
andTechniques7星期二用判定樹歸納分類?判定樹類似于流程圖的樹結(jié)構(gòu)每個 節(jié)點(diǎn)表示在一個屬性上的測試每個分枝代表一個測試輸出每個樹葉節(jié)點(diǎn)代表類或類分布判定樹的生成由兩個階段構(gòu)成判定樹構(gòu)建開始時,所有的訓(xùn)練樣本都在根節(jié)點(diǎn)遞歸的通過選定的屬性,來劃分樣本樹剪枝許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪音和孤立點(diǎn),樹剪枝試圖檢測和剪去這種分枝判定樹的使用:對未知樣本進(jìn)行分類通過將樣本的屬性值與判定樹相比較Data
Mining:
Concepts
andTechniques8星期二期二Techniques訓(xùn)練數(shù)據(jù)集<=30>40<
3031…4031…40>40輸出:一棵判定樹“
puter”age?student?credit
rating?noyes30..40<30>40noyesyesnoyesexcellentfairData
Mining:
Concepts
andTechniques10星期二判定樹歸納算法基本思想判定樹以自頂向下,遞歸分治的方式構(gòu)造屬性的選擇基于啟發(fā)式或統(tǒng)計度量(例如,信息增益)節(jié)點(diǎn)上的樣本遞歸地基于選定的屬性劃分停止劃分的條件Data
Mining:
Concepts
andTechniques11星期二判定樹歸納算法算法:Generate_decision_tree。由給定的訓(xùn)練數(shù)據(jù)產(chǎn)生一棵判定樹。輸入:訓(xùn)練樣本samples,由離散值屬性表示;候選屬性的集合attribute_list。輸出:一棵判定樹。創(chuàng)建結(jié)點(diǎn)N;if
samples
都在同一個類C
thenreturnN
作為葉結(jié)點(diǎn),以類C標(biāo)記;if
attribut_list
為空thenreturn
N
作為葉結(jié)點(diǎn),標(biāo)記為samples中最普Data
Mining:
Concepts
and12星//majorityvotingT多echn的ique類s;期二判定樹歸納算法(續(xù))選擇attribute_list中具有最高信息增益的屬性test_attribute;標(biāo)記結(jié)點(diǎn)
N
為test_attribute;for
each
test_attribute
中的未知值a
i//partition
the
samples由結(jié)點(diǎn)N
長出一個條件為test_attribute
=a
i的分枝;
設(shè)si
是samples
中test_attribute=a
i的樣本的集合;//a
partitionif
si
為空then(12)加上一個樹葉,標(biāo)記為samples中最普通的類;(13)
else
加上一個由Generate_decision_tree(si,attribute_list–test_attribute)返回的結(jié)點(diǎn);Data
Mining:
Concepts
andTechniques13星期二屬性選擇度量–信息增益ID3/C4.5使用的方法D包含|D|個樣本,其中類Ci的樣本數(shù)為|Di
|,
i={1,…,m}對一個給定的樣本分類所需的期望信息log2
(
pi
)mInfo(D)
pii1Data
Mining:
Concepts
andTechniques14星期二屬性選擇度量–信息增益(續(xù))設(shè)屬性A具有v個不同值{a1,...,av}.可以用屬性A將D劃分為v個子集{D1,...,Dv};其中,Dj包含S中這樣一些樣本,它們在A上具有值aj.根據(jù)A劃分子集的熵(entropy)或期望信息vj
1s
jAInfo
(D)
jInfo(D
)sData
Mining:
Concepts
andTechniques15星期二屬性選擇度量
–信息增益(續(xù))在A上分枝的信息增益是Gain
Info(D)
InfoA
(D)算法計算每個屬性的信息增益.具有最高信息增益的屬性選作給定集合S的測試屬性,創(chuàng)建一個結(jié)點(diǎn),并以該屬性標(biāo)記,對屬性的每個值創(chuàng)建分枝,并據(jù)此劃分樣本Data
Mining:
Concepts
andTechniques16星期二星期二Data
Mining:
Concepts
andTechniques17例:
判定樹歸納(訓(xùn)練數(shù)據(jù)集)9<=30lo10>40m11<=30m1231…40m1331…40h14>40m例:
判定樹歸納類標(biāo)號屬性
puter有兩個不同值(即,
{yes,
no}),因此有兩個不同的類(m
=2).設(shè)類C1對應(yīng)于yes,而類C2對應(yīng)于no.類yes有9個樣本,類no有5個樣本–計算對給定樣本分類所需的期望信息14Info(D)
9
logData
Mining:
Concepts
andTechniques18星期二例:
判定樹歸納(續(xù))計算每個屬性的熵,以屬性age
為例如果樣本按age劃分,對一個給定的樣本分類所需的期望信息為54agIn
(
)2)2
514
5
52
5
5
(
3
log
3
2
log
0.694Data
Mining:
Concepts
andTechniques19星期二例:
判定樹歸納(續(xù))這種劃分的信息增益是Gain(age)
Info類似地,通過計算得到–
Gain( e)
=
0.029Gain(student)
=
0.151Gain(credit_rating)
=
0.048由于age在屬性中具有最高信息增益,它被選作測試屬性.創(chuàng)建一個結(jié)點(diǎn),用age標(biāo)記,并對于每個屬性值,引出一個分枝,據(jù)此劃分樣本Data
Mining:
Concepts
andTechniques20星期二例:
判定樹歸納(續(xù))用age劃分樣本,構(gòu)造判定樹的根和Data
Mining:
Concepts
andTechniques21星期二例:
判定樹歸納(續(xù))age?student?credit
rating?noyes30..40<30>40noyesyesnoyesexcellentfair最終的判定樹Data
Mining:
Concepts
andTechniques22星期二如何計算連續(xù)值屬性的信息增益屬性值按遞增排序,每對相鄰值的中點(diǎn)看成可能的
點(diǎn)對每個可能的
點(diǎn),計算InfoA(D),選最大的點(diǎn)作為
點(diǎn)其它的屬性選擇度量方法增益率:傾向于產(chǎn)生不平衡的劃分基尼指數(shù)……注意:所有的度量都有某種偏倚傾向于產(chǎn)生較淺的樹的度量可能更可取偏向于多值屬性Product_id,合理嗎?Data
Mining:
Concepts
andTechniques23星期二ID3算法ID3算法采用信息增益作為屬性選擇度量缺點(diǎn):信息增益傾向于特征取值的數(shù)目較多的特征ID3在建樹時。每個節(jié)點(diǎn)僅含一個特征,特征間的相關(guān)性強(qiáng)調(diào)不夠?qū)υ肼曒^為敏感要求離散屬性Data
Mining:
Concepts
andTechniques24星期二8.2.3
樹剪枝過分?jǐn)M合: 判定樹可能過分?jǐn)M合訓(xùn)練數(shù)據(jù)分枝太多,由于數(shù)據(jù)中的噪音和孤立點(diǎn),許多分枝反映的是訓(xùn)練數(shù)據(jù)中的異常對新數(shù)據(jù)的 精度差兩種避免過分?jǐn)M合的方法先剪枝(prepruning)很難選擇合適的閾值是建樹過程中判斷當(dāng)前節(jié)點(diǎn)是否需要繼續(xù)劃分的剪枝方法。通常是通過重要性檢測判斷是否停止 節(jié)點(diǎn)后剪枝(postpruning)是讓樹充分生長之后,再判斷是否將某些分支變成節(jié)點(diǎn)。常用方法是根據(jù)錯誤 率(或者決策樹編碼長度)進(jìn)行決策樹的事后修剪Data
Mining:
Concepts
andTechniques25星期二剪枝前后的決策樹Data
Mining:
Concepts
andTechniques26星期二決策樹的重復(fù)和問題組合屬性劃分其它知識表示方法Data
Mining:
Concepts
andTechniques27星期二第8章分類–分類?–用判定樹歸納分類–分類基于規(guī)則的分類分類的準(zhǔn)確性小結(jié)Data
Mining:
Concepts
andTechniques28星期二第8章分類–分類?用判定樹歸納分類分類基于規(guī)則的分類分類的準(zhǔn)確性小結(jié)Data
Mining:
Concepts
andTechniques29星期二8.4.2由判定樹提取分類規(guī)則例:由上例的判定樹提取的規(guī)則IF
age
=
“<=30”
AND
student
=
“no”
THENIF
age
=
“<=30”
AND
student
=
“yes”
THENIF
age
=
“31…40”
THENIF
age
=
“>40”
AND
credit_rating
=
“excellent”
THENIF
age
=
“<=30”
AND
credit_rating
=
“fair”
THENputer
=
“no”puter
=
“yes”puter
=
“yes”puter
=
“yes”puter
=
“no”規(guī)則前件規(guī)則后件一條規(guī)則Data
Mining:
Concepts
andTechniques30星期二8.4.2由判定樹提取分類規(guī)則方法:對每條從根到樹葉結(jié)點(diǎn)的路徑創(chuàng)建一個規(guī)則。沿著給定路徑上的每個 準(zhǔn)則的邏輯AND形成規(guī)則的前件存放類
的樹葉節(jié)點(diǎn)形成規(guī)則的后件注意:規(guī)則間是互斥的:即不存在規(guī)則是窮舉的:每種可能的屬性-值組合都存在一個規(guī)則規(guī)則是無序的Data
Mining:
Concepts
andTechniques31星期二第8章分類分類?用判定樹歸納分類分類基于規(guī)則的分類分類的準(zhǔn)確性小結(jié)Data
Mining:
Concepts
andTechniques32星期二8.5.1評估分類器性能的度量圖8.14矩陣Data
Mining:
Concepts
andTechniques33星期二8.5.1評估分類器性能的度量圖8.13
評估度量類不平衡性問題Data
Mining:
Concepts
andTechniques34星期二Data
Mining:
Concepts
andTechniques35星期二模型評估與選擇(2)比較分類方法評估
的準(zhǔn)確率:
模型正確地 新的或先前未見過的數(shù)據(jù)的類標(biāo)號的能力速度:產(chǎn)生和使用模型的計算花費(fèi)魯棒性:給定噪音數(shù)據(jù)或有空缺值的數(shù)據(jù),模型正確 的能力可伸縮性:給定大量數(shù)據(jù),有效地構(gòu)造模型的能力用規(guī)模漸增的一系列數(shù)據(jù)集評估可解釋性:學(xué)習(xí)模型提供的理解和洞察的層次帶有 性,難易評估Data
Mining:
Concepts
andTechniques36星期二如何獲得可靠的分類器準(zhǔn)確率評估8.5.2
保持方法和隨機(jī)二次抽樣保持方法評估分類法的準(zhǔn)確性訓(xùn)練集導(dǎo)出分類法評估精度數(shù)據(jù)測試集交叉驗證,……Data
Mining:
Concepts
andTechniques37星期二8.6
提高分類準(zhǔn)確率的技術(shù)組合分類器提高分類法的準(zhǔn)確性Data
Mining:
Concepts
andTechniques38星期二Data
Mining:
Concepts
andTechniques39星期二總結(jié)分類:
決策樹歸納、樸素
分類分類評價的度量
:準(zhǔn)確率、錯誤率率如何獲得可靠的分類器準(zhǔn)確率評估:保持交叉驗證提高分類準(zhǔn)確率的技術(shù):組合分類器Data
Mining:
Concepts
andTechniques40星期二References
(1)C.
Apte
and
S.
Weiss.
Data
mining
with
decision
trees
and
decision
rules.FutureGeneration
Computer
Systems,
13,
1997.L.
Breiman,
J.
Friedman,
R.
Olshen,
and
C.
Stone.
Classification
and
Regression
Trees.Wadsworth
International
Group,
1984.P.
K.
Chan
and
S.
J.
Stolfo.Learning
arbiter
and
combiner
trees
from
partitioned
datafor
scaling
machine
learning.
In
Proc.
1st
Int.Conf.
Knowledge
Discovery
and
DataMining
(KDD'95),
pages39-44,
Montreal,Canada,
August1995.U.
M.Fayyad.
Branching
on
attribute
values
in
decision
tree
generation.In
Proc.
1994AAAI
Conf.,pages601-606,
AAAI
Press,1994.J.
Gehrke,R.
Ramakrishnan,
and
V.Ganti.Rainforest:
A
frameworkforfastdecisiontree
construction
of
large
datasets.
In
Proc.
1998
Int.
Conf.
Very
Large
Data
Bases,pages
416-427,
New
York,NY,
August
1998.J.
Gehrke,
V.
Gant,
R.
Ramakrishnan,
and
W.-Y.
Loh,
BOAT
--
Optimistic
Decision
Tree
Construction
.
In
SIGMOD'99
,
Philadelphia,
Pennsylvania,
1999Data
Mining:
Concepts
andTechniques41星期二References
(2)M.
Kamber,
L.
Winstone,
W.
Gong,
S.
Cheng,
and
J.
Han.
Generalization
and
decision
treeinduction:
Efficient
classification
in
data
mining.
In
Proc.
1997
Int.
Workshop
Research
Issues
onData
Engineering
(RIDE'97),
Birmingham,
England,
April
1997.B.
Liu,
W.
Hsu,
and
Y.Ma.
Integrating
Classification
and
Association
Rule
Mining.
Proc.
1998
Int.Conf.
Knowledge
Discovery
and
Data
Mining
(KDD'98)
New
York,
NY,
Aug.
1998.W.
Li,
J.
Han,
and
J.
Pei,
CMAR:
Accurate
and
Efficient
Classification
Based
on
Multiple
Class-
Association
Rules,
,
Proc.
2001
Int.
Conf.
on
Data
Mining
(ICDM'01),
San
Jose,
CA,
Nov.
2001.J.
Magidson.
The
Chaid
approach
to
segmentation
modeling:
Chi-squared
automatic
interactiondetection.
In
R.
P.Bagozzi,
editor,
Advanced
Methods
of
Marketing
Research,
pages
118-159.Blackwell
Business,
Cambridge
Massechusetts,
1994.M.
Mehta,
R.
Agrawal,
and
J.
Rissanen.
SLIQ
:
A
fast
scalable
classifier
for
data
mining.(EDBT'96),
Avignon,
France,
March
1996.Data
Mining:
Concepts
andTechniques42星期二References
(3)T.
M.Mitc .
Machine
Learning.
McGraw
Hill,
1997.S.
K.
Murthy,
Automatic
Construction
of
Decision
Trees
from
Data:
A
Multi-Diciplinary
Survey,
DataMining
and
Knowledge
Discovery
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度商用除塵設(shè)備租賃及售后服務(wù)協(xié)議3篇
- 二零二五版金融投資二人合作協(xié)議范本2篇
- 2025年北師大版七年級歷史上冊月考試卷含答案
- 二零二五版教育信息化SaaS應(yīng)用合同范本2篇
- 2025年稅務(wù)保密協(xié)議書下載:企業(yè)商業(yè)秘密保護(hù)協(xié)議范本6篇
- 5《搭石》(說課稿)2024-2025學(xué)年統(tǒng)編版語文五年級上冊
- 二零二五版羅馬柱古建筑景觀工程合同4篇
- 2025年度國有土地使用權(quán)出讓及合作開發(fā)協(xié)議4篇
- 二零二五版金融資產(chǎn)證券化項目合作協(xié)議3篇
- 二零二五版企業(yè)間能源供應(yīng)合同3篇
- 有效排痰的護(hù)理ppt(完整版)
- 魯教版七年級數(shù)學(xué)下冊(五四制)全冊完整課件
- 英語六級詞匯(全)
- 算法向善與個性化推薦發(fā)展研究報告
- 聚合物的流變性詳解演示文稿
- 電氣設(shè)備預(yù)防性試驗安全技術(shù)措施
- 醫(yī)院出入口安檢工作記錄表范本
- 內(nèi)科學(xué)教學(xué)課件:免疫性血小板減少癥(ITP)
- 中華人民共和國文物保護(hù)單位登記表
- 《生物制品學(xué)》課程教學(xué)大綱
- 硅基負(fù)極材料項目可行性研究報告_范文參考
評論
0/150
提交評論