清華大學大數(shù)據(jù)課程第4次課數(shù)據(jù)挖掘技術(shù)145_第1頁
清華大學大數(shù)據(jù)課程第4次課數(shù)據(jù)挖掘技術(shù)145_第2頁
清華大學大數(shù)據(jù)課程第4次課數(shù)據(jù)挖掘技術(shù)145_第3頁
清華大學大數(shù)據(jù)課程第4次課數(shù)據(jù)挖掘技術(shù)145_第4頁
清華大學大數(shù)據(jù)課程第4次課數(shù)據(jù)挖掘技術(shù)145_第5頁
已閱讀5頁,還剩140頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

2022年-2023年翻i

清華大默轆觸第4

WWO145

將華桂均城股髏鍬骸搬

2020/11/7

麒術(shù)145

2要°鄴

0魏桐娥

0魏就理

0^1(Classification)

0MI(Cluster)

0(AssociationRule)

0回向(Regression)

0145

0What?

ii魏懶取義

0Why?

U魏挑的魏

0How?

卜些魏可以賺糊?

麟大鈦U解融硼

榭加45

教版囑奴

0什么是敖赫區(qū)(DataMining)?

veviousiyiinKnown

i4oiiihugeHiiiouiitol

mining)indatabase(KDD),data/patternanalysis,

lecisio^supXpAoits|yrsteniknowledgeextractiondata

ingandiiiibrniationharvestingetc.

DataMiningProcess

0Simplicity

UEg,(association)nilelength,(decision)treesize

0Certainty

UE.g.,confidence,P(A|B)二#(AandB)/#(B),classification

reliabilityoiaccuracy,nilestrength,etc.

0Utility

uPotentialusefiilness,e.g,,support(association),noise

threshold(description)

0Novelty

iiNotpreviouslyknown,surprising(usedtoremove

redundantmles)

榭加45

加糠懶械?

L魏量大

2.缺乏理以啾

產(chǎn)埔的假瓶者

ScienceParadigms

?Thousandyearsago

sciencewasempirical

descnbngMlutalpheno(nena

(Lastfewhundredyears:目~」

theoreticalbranch

USIOQmodelsgeneftlizations

?Lailfewdecades:

acomputationalbranch

simulabngcomplexphenooiend

,Today:

dataexploration(eScience)

umlytheory,expenmtandsmlabon

usingdatafnanagemeotandstatistics

-DMcipturedbyimtrumenti

OfgtnetaledbymiMoi

?Procnwdbyiofkvf

?ScEmilyzMdMM*/gs

狗轅鼬檻?

0Wearedrowningindata,butstarvinginknowledge

UDataexplosion:Automateddatacollectiontoolsandmaturedatabase

teclmologyleadtotremendousanioimtsofdataaccuniulatedand/ortobe

analyzedindatabases,datawarehouses,andotherinformationrepositories.

就嗨麟轆中;不酬定合適腆第

n金Rtn飄蹄既

n蒯n資金M

n人嘛n關系柵兒就告

生毓期蒯藉艇理謔

臂上魁期M耀部

0145

fl

行家

W“A6

T

Fs

^n%是%

T^o

4、.9

使

>月UMUM

^^rnB

M^MY

網(wǎng)

利,P^XS

,/A

叁S*

T

>DNArI1,購□E^J

八I

y■x

V

、

添£

>M尸

>A

A

袂黃枇DecisionTrees序列分析SequenceAnalysis

|rcome>$4iK?須向性分析

,耕儺I

?mMm

?目麻海

,偏岫淅

HA分所

向性

s分

分加

四?

I市

nw

tf也

foctorlfactor!

翻擾145

0翹預處理

撼蹄理(颼精或不一減新㈱

uttM(州麴軻城就出)

uBU(tB)

ii麴財(tt^d

0款臧羸質(zhì)瞞能就整破榭線)

口分類、糕糠精、剛瑜虬文棣極

04t部(溯河如端就旗飄)

0彌球示(可視化和%好東林)

將華桂懈城股髏鍬骸搬

麒術(shù)145

:花聯(lián)湍漫致赭K戲義

?

U速對i:correctorwrong,accurateornot

utfi:notrecordedunavailable

U一改性:somemodifiedbutsomenot,dangling

Uupdate?

U可信『howtestablethedataarecorrect?

u可1譯出howeasilythedatacanbeunderstood?

桂城股髏鍬骸搬

W145

裁赫娜究好”

0麴翅

U本弱期伽樣舒魏,跚刀弧西,[財

0ttM

U毓多林瓣、魏立淋明

0教微機

U蛻崢躲

0教娜為

。解媵赫膝赫示,訓群,眄以儆桶軸近

砒操

0魏高刎

U轆闞的H尤般懶分獨魏的減化版糠

.一寶轆楸幢要

蟠佚牌鍬穎轆

撇狀145

mu

0KB:Wrt制齦人赭撼娥

"漉性:篇性板默睛只有糅麴

p例如:phone--5;

。霜:包含好、麻妹睛便

p例如:salary=-10

u不-長性:

p例如:age=42,birthday=03-07-2010

uM:

P陋:伎麻-技就微爆性

麟大鈦U解融硼

榭加45

供大值HD翻岬MVUSS叫

Data)

0魏杼版涯的

端如:ttWt,4版軸觸字M

楠豌,比如轆耕的廊翻人

0腆空翻雕

uim

兇加已械財一政減麻

姻淅鬻破械於的魏

U楠入斷他敖郵騙福魏破楝

命人

謝敬招的赧髓防口茄減

0空趟好我鞘耐卜上

—雌腳4丁姍

板㈱45

她林家找

0MO:當赫號就琳粒肘假部

攝任笳妍介,韓懦性軼!M的百

網(wǎng)和,剛放赫耗。

0人工蠟至雌:工觸尢可行性低

0發(fā)舟一竹般士集放觥:此如使刖nknown

機-8

0使臊忸用罐賤空趟

0佞耐轅澈翻一耕暇肺神施

。使赫蘸髓赫堂雕:Ofryes/on4M

解溯端糠于糊的旅

將華桂懈城股髏鍬骸搬

麒術(shù)145

好:-械量騏憫險媼俁轆差

0腆不止端睡的雕

U魏雇工期腱

iiptA*|

uMill

u魅睛

uM”的不T

0朧如蹄理赫搦橫

utm

u不涯的M

u不一趟轆

將華桂懈城股髏鍬骸搬

麒術(shù)145

Ufirstsortdataandpartitioninto(eqni-deptli)bins

uthenonecansmoothbybinmeans,smoothbybinmedian,

smoothbybinboundaries,etc.

udetectandremoveoutliers

0人棍格

udetectsuspiciousvaluesandcheckbyhuman(e.g,,deal

withpossibleoutliers)

0釉

usmoothbyfittingthedataintoregressionfunctions

W145

01tEquabwidth(distance)partitioning:

uDividestherangeinto^intervalsofequalsize:iinifonn

grid

uifAandBarethelowestandhighestvaluesoftheattribute,

thewidthofintervalswillbe:正二0-A)/N.

UThemoststraightforward,butoutliersmaydominate

presentation

uSkeweddataisnothandledwell.

0^1Equal-depth(frequency)partitioning:

uDividestherangeintoNintervals,eachcontaining

approximatelysamenuniberofsamples

uGooddatascaling

uManagingcategoricalattributescanbetricky.

W145

0price斷轎后發(fā)加俾生就):4,8,15,21,24,25

,28,34

0酚為(將M)1

U制:4,8,15

iiB21,21,24

u|1:25,28,34

0mm:

”1:9,9,9

u敬:22,22,22

u郁:29,29,29

0UWm

fill:4,4,15

ii12:2感|fJ「;卜」[.

u13:25,25,34

解大默赫南哪■

榭加45

H:CMMAnalysis

腐個斜的魏腿中怫腦

S1立占

》施摩類劫激跚鼓。譴啦

舸能包含翻瞬感

從工醉查誕細幼

*施雅髏瞅

微木145

ReHion

噓誦艇赫的魏靴的麟,a

舸期一個變量頻另一個變量。

0?

u祓舸幫嬲轆俁

uMgf

0屬性解

盹關腦

0轆1復(

0轆闕1

U薪、睞幀翩佛

耀牌鍬i

觸術(shù)145

一支賊初

0W:精轆憫耕。林端M

、|虬糕

011:對魏的匯獻糅。

0ttB(M):撕懶介扇囑

層fcH林融"躲"tto

0MM:牖性翹撕例版,貶落

入一小卜獻披酮嗣、-最大'Z-Score

、機像施媼化。

將華桂懈城股髏鍬骸搬

麒術(shù)145

a

a瞽

x

s

2

0德

K

g

3苔

)

R

T

l

芟音衣

交::

8

8

V

7

0

.

K

一II——三

V

+

a予

I

2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論