機(jī)器學(xué)習(xí)算法介紹_第1頁(yè)
機(jī)器學(xué)習(xí)算法介紹_第2頁(yè)
機(jī)器學(xué)習(xí)算法介紹_第3頁(yè)
機(jī)器學(xué)習(xí)算法介紹_第4頁(yè)
機(jī)器學(xué)習(xí)算法介紹_第5頁(yè)
已閱讀5頁(yè),還剩62頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2023/5/10機(jī)器(jīqì)學(xué)習(xí)算法介紹第一頁(yè),共67頁(yè)。基本概念分類(fēnlèi)監(jiān)督式學(xué)習(xí)多輪學(xué)習(xí)以達(dá)到目的(mùdì):實(shí)現(xiàn)回歸或分類非監(jiān)督式學(xué)習(xí)特定方法實(shí)現(xiàn)聚類。(由于目的(mùdì)性不明確,所以一般沒(méi)有多輪)強(qiáng)化學(xué)習(xí)不斷學(xué)習(xí),永無(wú)止境分類算法適用因變量為離散(lísàn)變量回歸算法適用因變量為連續(xù)變量聚類和分類的差別聚類:無(wú)限種類別可能分類:有限種類別可能第二頁(yè),共67頁(yè)。監(jiān)督(jiāndū)式學(xué)習(xí)工作機(jī)制 這個(gè)算法由一個(gè)目標(biāo)變量或結(jié)果變量(或因變量)組成。 此變量由已知的一系列預(yù)示變量(自變量)預(yù)測(cè)而來(lái)。 利用這一系列變量,我們生成一個(gè)將輸入值映射到期望輸出值的函數(shù)(hánshù)。 這個(gè)訓(xùn)練過(guò)程會(huì)一直持續(xù),直到模型在訓(xùn)練數(shù)據(jù)上獲得期望的精確度。例子 線性回歸,決策樹,SVM,K–近鄰算法,邏輯回歸等第三頁(yè),共67頁(yè)。非監(jiān)督(jiāndū)式學(xué)習(xí)工作機(jī)制 沒(méi)有任何目標(biāo)變量或結(jié)果變量要預(yù)測(cè)(yùcè)或估計(jì)。 用在不同的組內(nèi)聚類分析。

例子 關(guān)聯(lián)算法,K–均值算法第四頁(yè),共67頁(yè)。強(qiáng)化(qiánghuà)學(xué)習(xí)工作機(jī)制 訓(xùn)練機(jī)器進(jìn)行決策。 機(jī)器被放在一個(gè)(yīɡè)能讓它通過(guò)反復(fù)試錯(cuò)來(lái)訓(xùn)練自己的環(huán)境中。 機(jī)器從過(guò)去的經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí),并且嘗試?yán)昧私庾钔笍氐闹R(shí)作出精確的判斷。例子 馬爾可夫決策過(guò)程第五頁(yè),共67頁(yè)。十大機(jī)器學(xué)習(xí)(xuéxí)算法1、線性回歸(huíguī)2、邏輯回歸(huíguī)3、決策樹4、SVM5、樸素貝葉斯6、k-Means算法7、kNN算法8、Apriori算法9、最大期望算法(EM)10、PageRank第六頁(yè),共67頁(yè)。監(jiān)督(jiāndū)式學(xué)習(xí)與非監(jiān)督(jiāndū)式學(xué)習(xí)的差別監(jiān)督式學(xué)習(xí)方法,要求:事先明確知道各個(gè)類別的信息(xìnxī)所有待分類項(xiàng)都有一個(gè)類別與之對(duì)應(yīng)如果不能滿足上述兩個(gè)條件(例如有海量數(shù)據(jù)),則需適用聚類算法,即非監(jiān)督式學(xué)習(xí)。監(jiān)督式學(xué)習(xí)非監(jiān)督式學(xué)習(xí)線性回歸邏輯回歸決策樹樸素貝葉斯SVM

KNNK-meansAprioriEMPageRank第七頁(yè),共67頁(yè)。線性回歸(huíguī)適用場(chǎng)景根據(jù)連續(xù)變量估計(jì)實(shí)際數(shù)值(房?jī)r(jià)、呼叫次數(shù)、總銷售額等)。原理可通過(guò)擬合最佳直線來(lái)建立(jiànlì)自變量和因變量的關(guān)系。擬合結(jié)果是條直線Y=a*X+b:其中Y是因變量,a是斜率,x是自變量,b是截距最佳直線叫做回歸線。系數(shù)a和b通過(guò)最小二乘法獲得。Python代碼fromsklearnimportlinear_modelx_train=input_variables_values_training_datasetsy_train=target_variables_values_training_datasetsx_test=input_variables_values_test_datasetslinear=linear_model.LinearRegression()linear.fit(x_train,y_train)linear.score(x_train,y_train)第八頁(yè),共67頁(yè)。線性回歸(huíguī)針對(duì)線性回歸容易出現(xiàn)欠擬合的問(wèn)題,采取局部加權(quán)線性回歸。在該算法中,賦予預(yù)測(cè)點(diǎn)附近每一個(gè)點(diǎn)以一定的權(quán)值,在這上面基于波長(zhǎng)函數(shù)來(lái)進(jìn)行普通的線性回歸.可以實(shí)現(xiàn)(shíxiàn)對(duì)臨近點(diǎn)的精確擬合同時(shí)忽略那些距離較遠(yuǎn)的點(diǎn)的貢獻(xiàn),即近點(diǎn)的權(quán)值大,遠(yuǎn)點(diǎn)的權(quán)值小,k為波長(zhǎng)參數(shù),控制了權(quán)值隨距離下降的速度,越大下降的越快。

第九頁(yè),共67頁(yè)。線性回歸(huíguī)針對(duì)數(shù)據(jù)的特征(tèzhēng)比樣本點(diǎn)多的問(wèn)題:一、嶺回歸二、前向逐步回歸第十頁(yè),共67頁(yè)。邏輯(luójí)回歸

#ImportLibraryfromsklearn.linear_modelimportLogisticRegression#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#Createlogisticregressionobjectmodel=LogisticRegression()

#Trainthemodelusingthetrainingsetsandcheckscoremodel.fit(X,y)model.score(X,y)#PredictOutputpredicted=model.predict(x_test)第十一頁(yè),共67頁(yè)。邏輯(luójí)回歸基于最優(yōu)化方法的最佳回歸系數(shù)確定(quèdìng):梯度下降法隨機(jī)梯度下降法(根據(jù)梯度更新權(quán)重) 牛頓法或擬牛頓法(最大熵模型)第十二頁(yè),共67頁(yè)。決策樹使用場(chǎng)景這個(gè)監(jiān)督式學(xué)習(xí)算法通常被用于分類問(wèn)題(wèntí)。它同時(shí)適用于分類變量和連續(xù)因變量。原理在這個(gè)算法中,我們將總體分成兩個(gè)或更多的同類群。這是根據(jù)最重要的屬性或者自變量來(lái)分成盡可能不同的組別?;貧w樹——預(yù)測(cè)值為葉節(jié)點(diǎn)目標(biāo)變量的加權(quán)均值分類樹——某葉節(jié)點(diǎn)預(yù)測(cè)的分類值應(yīng)是造成錯(cuò)判損失最小的分類值。第十三頁(yè),共67頁(yè)。細(xì)說(shuō)(xìshuō)決策樹(1)——混亂度判斷熵熵:E=sum(-p(I)*log(p(I))),I=1:N(N類結(jié)果,如客戶是否流失)所有樣本都屬于一個(gè)類別I(最整齊),那么熵為0,如果樣本完全隨機(jī),那么熵為1

信息增益信息增益:原樣本的熵-sum(區(qū)分后的各部分熵),增益越大表示區(qū)分的方法越好Gain(Sample,Action)=E(sample)-sum(|Sample(v)|/Sample*E(Sample(v)))除了熵以外,還有GINI不純度(chúndù),錯(cuò)誤率兩種計(jì)算混亂度的方法,定義不同但效果類似。第十四頁(yè),共67頁(yè)。細(xì)說(shuō)(xìshuō)決策樹(2)——建構(gòu)樹生成樹(1)從根節(jié)點(diǎn)t=1開始,從所有可能候選S集合中搜索使不純性降低最大的劃分S;(2)使用劃分S將節(jié)點(diǎn)1(t=1)劃分成兩個(gè)節(jié)點(diǎn)t=2和t=3;(3)在t=2和t=3上分別重復(fù)劃分搜索過(guò)程(guòchéng)終止樹(1)節(jié)點(diǎn)達(dá)到完全純性;(2)樹的深度達(dá)到用戶指定的深度;(3)節(jié)點(diǎn)中樣本的個(gè)數(shù)少于用戶指定的個(gè)數(shù);(4)

異質(zhì)性指標(biāo)下降的最大幅度小于用戶指定的幅度。第十五頁(yè),共67頁(yè)。細(xì)說(shuō)(xìshuō)決策樹(3)——剪枝prune當(dāng)分類回歸樹劃分得太細(xì)時(shí),會(huì)對(duì)噪聲數(shù)據(jù)產(chǎn)生過(guò)擬合作用。因此我們要通過(guò)剪枝來(lái)解決。剪枝又分為前剪枝和后剪枝:前剪枝:在構(gòu)造樹的過(guò)程中就知道那些節(jié)點(diǎn)需要減掉,及早的停止樹增長(zhǎng)。后剪枝:在構(gòu)造出完整樹之后再按照一定(yīdìng)方法進(jìn)行剪枝,方法有:代價(jià)復(fù)雜性剪枝、最小誤差剪枝、悲觀誤差剪枝等等。第十六頁(yè),共67頁(yè)。決策樹代碼(dàimǎ)def

createTree(dataSet,labels):

classList

=

[example[-1]

for

example

in

dataSet]#將最后(zuìhòu)一行的數(shù)據(jù)放到classList中

if

classList.count(classList[0])

==

len(classList):

return

classList[0]

if

len(dataSet[0])

==

1:#這里為什么是1呢?就是說(shuō)特征數(shù)為1的時(shí)候

return

majorityCnt(classList)

bestFeat

=

chooseBestFeatureToSplit(dataSet)

print(bestFeat)

bestFeatLabel

=

labels[bestFeat]#運(yùn)行結(jié)果'no

surfacing'

myTree

=

{bestFeatLabel:{}}#運(yùn)行結(jié)果{'no

surfacing':

{}}

del(labels[bestFeat])

featValues

=

[example[bestFeat]

for

example

in

dataSet]#第0個(gè)特征值

uniqueVals

=

set(featValues)

for

value

in

uniqueVals:

subLabels

=

labels[:]

myTree[bestFeatLabel][value]

=

createTree(splitDataSet\

(dataSet,bestFeat,value),subLabels)

return

myTree

Python代碼(dàimǎ)第十七頁(yè),共67頁(yè)。支持(zhīchí)向量機(jī)適用場(chǎng)景這是一種統(tǒng)計(jì)分類及回歸分析方法算法支持向量機(jī)將向量映射到一個(gè)更高維的空間(kōngjiān)里,在這個(gè)空間(kōngjiān)里建立有一個(gè)最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個(gè)互相平行的超平面,分隔超平面使兩個(gè)平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類器的總誤差越小。第十八頁(yè),共67頁(yè)。支持(zhīchí)向量機(jī)

第十九頁(yè),共67頁(yè)。支持(zhīchí)向量機(jī)優(yōu)缺點(diǎn)優(yōu)點(diǎn):(1)非線性映射是SVM方法的理論基礎(chǔ),SVM利用內(nèi)積核函數(shù)代替向高維空間的非線性映射;(2)對(duì)特征(tèzhēng)空間劃分的最優(yōu)超平面是SVM的目標(biāo),最大化分類邊際的思想是SVM方法的核心;(3)支持向量是SVM的訓(xùn)練結(jié)果,在SVM分類決策中起決定性作用。因此,模型需要存儲(chǔ)空間小,算法魯棒性(Robust)強(qiáng)。缺點(diǎn):(1)SVM算法對(duì)大規(guī)模訓(xùn)練樣本難以實(shí)施(2)用SVM解決多分類問(wèn)題存在困難經(jīng)典的支持向量機(jī)算法只給出了二類分類的算法,而在數(shù)據(jù)挖掘的實(shí)際應(yīng)用中,一般要解決多類的分類問(wèn)題。第二十頁(yè),共67頁(yè)。樸素(pǔsù)貝葉斯

#ImportLibraryfromsklearn.naive_bayesimportGaussianNB

#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateSVMclassificationobjectmodel=GaussianNB()#thereisotherdistributionformultinomialclasseslikeBernoulliNaiveBayes,Referlink#Trainthemodelusingthetrainingsetsandcheckscoremodel.fit(X,y)

#PredictOutputpredicted=model.predict(x_test)第二十一頁(yè),共67頁(yè)。樸素(pǔsù)貝葉斯算法對(duì)于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。自變量:x={a1,a2,...,an}因變量:假設(shè)我們的結(jié)論有True/False兩種根據(jù)樣本可得到(dédào)p(a1|T),p(a2|T),...,p(an|T),p(a1|F),p(a2|F),...,p(an|F)我們想比較p(T|x)和p(F|x),則根據(jù)貝葉斯定理:p(T|x)=p(x|T)*p(T)/p(x)=p(a1|T)*p(a2|T)*...*p(an|T)*p(T)/p(x)p(T|x)*p(x)=p(x|T)*p(T)=p(a1|T)*p(a2|T)*...*p(an|T)*p(T)p(F|x)*p(x)=p(x|F)*p(T)=p(a1|F)*p(a2|F)*...*p(an|F)*p(F)由此得出x情況下T的概率和F的概率。第二十二頁(yè),共67頁(yè)。KNN(K最鄰近(línjìn)算法)適用場(chǎng)景該算法可用于分類(fēnlèi)問(wèn)題和回歸問(wèn)題。然而,在業(yè)界內(nèi),K–最近鄰算法更常用于分類(fēnlèi)問(wèn)題。原理K–最近鄰算法是一個(gè)簡(jiǎn)單的算法。它儲(chǔ)存所有的案例,通過(guò)周圍k個(gè)案例中的大多數(shù)情況劃分新的案例。根據(jù)一個(gè)距離函數(shù),新案例會(huì)被分配到它的K個(gè)近鄰中最普遍的類別中去。這些距離函數(shù)可以是歐式距離、曼哈頓距離、明式距離或者是漢明距離。前三個(gè)距離函數(shù)用于連續(xù)函數(shù),第四個(gè)函數(shù)(漢明函數(shù))則被用于分類(fēnlèi)變量。第二十三頁(yè),共67頁(yè)。KNN(K最鄰近(línjìn)算法)實(shí)現(xiàn)流程(1)計(jì)算已知類別數(shù)據(jù)集中的點(diǎn)與當(dāng)前點(diǎn)之間的距離(2)按照距離遞增次序排序(3)選取與當(dāng)前點(diǎn)距離最近的k個(gè)點(diǎn)(4)確定前k個(gè)點(diǎn)所在類別的出現(xiàn)(chūxiàn)頻率(5)返回前k個(gè)點(diǎn)出現(xiàn)(chūxiàn)頻率最高的類別作為當(dāng)前點(diǎn)的預(yù)測(cè)分類Python代碼(dàimǎ)#ImportLibraryfrom

sklearn.neighborsimport

KNeighborsClassifier

#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateKNeighborsclassifierobjectmodelKNeighborsClassifier(n_neighbors=6)

#defaultvalueforn_neighborsis5

#Trainthemodelusingthetrainingsetsandcheckscoremodel.fit(X,

y)

#PredictOutputpredicted=model.predict(x_test)第二十四頁(yè),共67頁(yè)。KNN(K最鄰近(línjìn)算法)補(bǔ)充說(shuō)明(shuōmíng)KNN算法不僅可以用于分類,還可以用于回歸。通過(guò)找出一個(gè)樣本的k個(gè)最近鄰居,將這些鄰居的屬性的平均值賦給該樣本,就可以得到該樣本的屬性。更有用的方法是將不同距離的鄰居對(duì)該樣本產(chǎn)生的影響給予不同的權(quán)值(weight),如權(quán)值與距離成反比。第二十五頁(yè),共67頁(yè)。K均值(jūnzhí)算法使用場(chǎng)景K–均值算法(suànfǎ)是一種非監(jiān)督式學(xué)習(xí)算法(suànfǎ),它能解決聚類問(wèn)題。使用K–均值算法(suànfǎ)來(lái)將一個(gè)數(shù)據(jù)歸入一定數(shù)量的集群(假設(shè)有k個(gè)集群)的過(guò)程是簡(jiǎn)單的。一個(gè)集群內(nèi)的數(shù)據(jù)點(diǎn)是均勻齊次的,并且異于別的集群。算法(suànfǎ)1、從D中隨機(jī)取k個(gè)元素,作為k個(gè)簇的各自的中心。2、分別計(jì)算剩下的元素到k個(gè)簇中心的相異度,將這些元素分別劃歸到相異度最低的簇。3、根據(jù)聚類結(jié)果,重新計(jì)算k個(gè)簇各自的中心,計(jì)算方法是取簇中所有元素各自維度的算術(shù)平均數(shù)。4、將D中全部元素按照新的中心重新聚類。5、重復(fù)第4步,直到聚類結(jié)果不再變化。6、將結(jié)果輸出。第二十六頁(yè),共67頁(yè)。K均值(jūnzhí)算法如何確定K值K–均值算法涉及到集群,每個(gè)集群有自己的質(zhì)心。一個(gè)集群內(nèi)的質(zhì)心和各數(shù)據(jù)點(diǎn)之間距離的平方和形成了這個(gè)集群的平方值之和。同時(shí),當(dāng)所有集群的平方值之和加起來(lái)的時(shí)候,就組成了集群方案的平方值之和。我們知道,當(dāng)集群的數(shù)量增加時(shí),所有集群平方和之和會(huì)持續(xù)下降。但是,如果你將結(jié)果用圖表來(lái)表示,你會(huì)看到距離的平方總和(zǒnghé)快速減少。到某個(gè)值k之后,減少的速度就大大下降了。在此,我們可以找到集群數(shù)量的最優(yōu)值。第二十七頁(yè),共67頁(yè)。工作(gōngzuò)流程

#k-means

聚類算法(suànfǎ)

def

kMeans(dataSet,

k,

distMeans

=distEclud,

createCent

=

randCent):

m

=

shape(dataSet)[0]

clusterAssment

=

mat(zeros((m,2)))

centroids

=

createCent(dataSet,

k)

clusterChanged

=

True

while

clusterChanged:

clusterChanged

=

False;

for

i

in

range(m):

minDist

=

inf;

minIndex

=

-1;

for

j

in

range(k):

distJI

=

distMeans(centroids[j,:],

dataSet[i,:])

if

distJI

<

minDist:

minDist

=

distJI;

minIndex

=

j

if

clusterAssment[i,0]

!=

minIndex:

clusterChanged

=

True;

clusterAssment[i,:]

=

minIndex,minDist**2

print

centroids

for

cent

in

range(k):

ptsInClust

=

dataSet[nonzero(clusterAssment[:,0].A

==

cent)[0]]

centroids[cent,:]

=

mean(ptsInClust,

axis

=

0)

return

centroids,

clusterAssment

創(chuàng)建k個(gè)點(diǎn)作為起始質(zhì)心,可以(kěyǐ)隨機(jī)選擇(位于數(shù)據(jù)邊界內(nèi))當(dāng)任意一個(gè)點(diǎn)的簇分配結(jié)果發(fā)生改變時(shí)對(duì)數(shù)據(jù)集中的每一個(gè)點(diǎn) 對(duì)每個(gè)質(zhì)心 計(jì)算質(zhì)心與數(shù)據(jù)點(diǎn)之間的距離 將數(shù)據(jù)點(diǎn)分配到距其最近的簇 對(duì)每個(gè)簇,計(jì)算簇中所有點(diǎn)的均值并將均值作為質(zhì)心Pyhton代碼第二十八頁(yè),共67頁(yè)。K-MEANS性能(xìngnéng)分析優(yōu)點(diǎn)(1)是解決聚類問(wèn)題的一種經(jīng)典算法,簡(jiǎn)單、快速。(2)當(dāng)結(jié)果簇是密集的,而簇與簇之間區(qū)別明顯時(shí),它的效果較好。缺點(diǎn)(1)在簇的平均值被定義的情況下才能使用,這對(duì)于處理符號(hào)屬性的數(shù)據(jù)不適用。(2)要求用戶必須事先給出要生成的簇的數(shù)目k。(3)對(duì)初值敏感(mǐngǎn),對(duì)于不同的初始值,可能會(huì)導(dǎo)致不同的聚類結(jié)果。(4)不適合于發(fā)現(xiàn)非凸面形狀的簇,或者大小差別很大的簇。(5)對(duì)于"噪聲"和孤立點(diǎn)數(shù)據(jù)敏感(mǐngǎn),少量的該類數(shù)據(jù)能夠?qū)ζ骄诞a(chǎn)生極大影響。第二十九頁(yè),共67頁(yè)。K-MEANS性能(xìngnéng)分析改進(jìn): (1)對(duì)于離群點(diǎn)和孤立點(diǎn)敏感:離群點(diǎn)檢測(cè)的LOF算法,通過(guò)去除離群點(diǎn)后再聚類,可以減少離群點(diǎn)和孤立點(diǎn)對(duì)于聚類效果的影響。 (2)k值選擇:開始設(shè)定k值,每跑一次K-means,根據(jù)k個(gè)聚類的距離情況,合并距離最近的類,不斷重復(fù),最終得到合適數(shù)目的聚類數(shù)??梢酝ㄟ^(guò)一個(gè)評(píng)判值E來(lái)確定聚類數(shù)得到一個(gè)合適的位置(wèizhi)停下來(lái),而不繼續(xù)合并聚類中心。 (3)初始聚類中心的選擇:選擇批次距離盡可能遠(yuǎn)的K個(gè)點(diǎn)(首先隨機(jī)選擇一個(gè)點(diǎn)作為第一個(gè)初始類簇中心點(diǎn),然后選擇距離該點(diǎn)最遠(yuǎn)的那個(gè)點(diǎn)作為第二個(gè)初始類簇中心點(diǎn),然后再選擇距離前兩個(gè)點(diǎn)的最近距離最大的點(diǎn)作為第三個(gè)初始類簇的中心點(diǎn),以此類推,直至選出K個(gè)初始類簇中心點(diǎn)。) (4)只能發(fā)現(xiàn)球狀簇:如果數(shù)據(jù)集中有不規(guī)則的數(shù)據(jù),往往通過(guò)基于密度的聚類算法更加適合,比如DESCAN算法第三十頁(yè),共67頁(yè)。K-MEANS補(bǔ)充(bǔchōng)相異度相異度就是兩個(gè)東西差別有多大(例如用什么來(lái)說(shuō)明人類與章魚的相異度明顯大于人類與黑猩猩的相異度)歐式距離,曼哈頓距離,閔科夫斯基距離什么叫聚類所謂聚類問(wèn)題,就是給定一個(gè)元素集合(jíhé)D,其中每個(gè)元素具有n個(gè)可觀察屬性,使用某種算法將D劃分成k個(gè)子集,要求每個(gè)子集內(nèi)部的元素之間相異度盡可能低,而不同子集的元素相異度盡可能高。其中每個(gè)子集叫做一個(gè)簇。第三十一頁(yè),共67頁(yè)。AdaBoost算法原理(1)針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來(lái),構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。(2)算法本身是通過(guò)改變數(shù)據(jù)分布來(lái)實(shí)現(xiàn)的,根據(jù)每次訓(xùn)練集中每個(gè)樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來(lái)確定每個(gè)樣本的權(quán)值。(3)將修改(xiūgǎi)過(guò)權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練,最后將每次訓(xùn)練得到的分類器融合起來(lái),作為最終的決策分類器Python代碼#ImportLibraryfromsklearn.ensembleimportGradientBoostingClassifier

#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateGradientBoostingClassifierobjectmodel=GradientBoostingClassifier(n_estimators=100,learning_rate=1.0,max_depth=1,random_state=0)

model.fit(X,y)

predicted=model.predict(x_test)第三十二頁(yè),共67頁(yè)。AdaBoost工作(gōngzuò)流程:將最小錯(cuò)誤率minError設(shè)為無(wú)窮大對(duì)數(shù)據(jù)集中的每一個(gè)特征(第一層循環(huán)):對(duì)每個(gè)步長(zhǎng)(第二層循環(huán)):對(duì)每個(gè)不等號(hào)(第三層循環(huán)): 建立一棵單層決策樹并利用加權(quán)數(shù)據(jù)集進(jìn)行測(cè)試 如果(rúguǒ)錯(cuò)誤率低于minError,將當(dāng)前單層決策樹設(shè)為最佳單層決策樹返回最佳單層決策樹構(gòu)建(ɡòujiàn)弱分類器對(duì)每次迭代:

找到最佳的單層決策樹

將最佳單層決策樹加入到單層決策樹數(shù)組

計(jì)算alpha,計(jì)算新的權(quán)重向量D

更新累計(jì)類別估計(jì)值

如果錯(cuò)誤率小于minError,則退出循環(huán)構(gòu)建強(qiáng)分類器優(yōu)點(diǎn):(1)AdaBoost是一種有很高精度的分類器(2)可以使用各種方法構(gòu)建弱分類器(3)弱分類器構(gòu)造特別簡(jiǎn)單,不用做特征篩選(4)不會(huì)過(guò)擬合缺點(diǎn):(1)執(zhí)行效果依賴于弱分類器的選擇,迭代次數(shù)和弱分類器的數(shù)目不太好設(shè)定(2)訓(xùn)練時(shí)間過(guò)長(zhǎng)(3)容易受到噪聲干擾,數(shù)據(jù)不平衡導(dǎo)致分類精度下降。第三十三頁(yè),共67頁(yè)。Apriori原理(1)尋找所有不低于最小支持度的項(xiàng)集(頻繁項(xiàng)集);(2)使用頻繁項(xiàng)集生成規(guī)則。PS: 支持度:數(shù)據(jù)集中(jízhōng)包含該項(xiàng)集的記錄所占的比例; 頻繁項(xiàng)集:支持度大于最小支持度的項(xiàng)集。對(duì)數(shù)據(jù)集中的每條交易記錄tran和每個(gè)候選項(xiàng)集can:檢查一下can是否是tran的子集: 如果是,則增加(zēngjiā)can的計(jì)數(shù)值對(duì)每個(gè)候選項(xiàng)集: 如果其支持度不低于最小值,則保留該項(xiàng)集返回所有頻繁項(xiàng)集列表生成(shēnɡchénɡ)候選項(xiàng)集工作流程發(fā)現(xiàn)關(guān)聯(lián)規(guī)則當(dāng)集合中項(xiàng)的個(gè)數(shù)大于0時(shí):

構(gòu)建一個(gè)k個(gè)項(xiàng)組成的候選項(xiàng)集的列表

檢查數(shù)據(jù)以確認(rèn)每個(gè)項(xiàng)集都是頻繁的

保留頻繁項(xiàng)集并構(gòu)建k+1項(xiàng)組成的候選項(xiàng)集的列表第三十四頁(yè),共67頁(yè)。強(qiáng)化學(xué)習(xí)-馬爾科夫決策(juécè)過(guò)程原理系統(tǒng)的下個(gè)狀態(tài)不僅和當(dāng)前的狀態(tài)有關(guān),也和當(dāng)前采取的動(dòng)作有關(guān),而與更早之前的狀態(tài)和動(dòng)作無(wú)關(guān)(wúguān)。定義:

馬爾科夫決策流程:一個(gè)馬爾科夫決策(juécè)過(guò)程由一個(gè)五元組構(gòu)成(S,A,{Psa},γ,R)

第三十五頁(yè),共67頁(yè)。馬爾科夫決策(juécè)模型

已經(jīng)處于某個(gè)狀態(tài)s時(shí),我們會(huì)以一定的策略π來(lái)選擇下一個(gè)動(dòng)作a執(zhí)行,然后轉(zhuǎn)換到另一個(gè)狀態(tài)ss′。我們將這個(gè)動(dòng)作的選擇過(guò)程稱為(chēnɡwéi)策略(policy)每一個(gè)policy起始就是一個(gè)狀態(tài)到動(dòng)作的映射函數(shù)π:S→A。給定π也就是給定了a=π(s),也就是說(shuō),知道了π就知道了每個(gè)狀態(tài)下一步應(yīng)該執(zhí)行的動(dòng)作。第三十六頁(yè),共67頁(yè)。數(shù)據(jù)挖掘以對(duì)消費(fèi)者的建模為例,舉一些場(chǎng)景下的常用(chánɡyònɡ)算法對(duì)應(yīng):劃分消費(fèi)者群體:聚類,分類;購(gòu)物籃分析:相關(guān),聚類;購(gòu)買額預(yù)測(cè):回歸,時(shí)間序列;滿意度調(diào)查:回歸,聚類,分類;第三十七頁(yè),共67頁(yè)。數(shù)據(jù)挖掘主要模型:分類(fēnlèi)、聚類、預(yù)測(cè)及關(guān)聯(lián)第三十八頁(yè),共67頁(yè)。數(shù)據(jù)挖掘主要模型:分類(fēnlèi)、聚類、預(yù)測(cè)及關(guān)聯(lián)第三十九頁(yè),共67頁(yè)。一、非線性擬合(nǐhé)

第四十頁(yè),共67頁(yè)。二、貨運(yùn)量預(yù)測(cè)(yùcè)目標(biāo):預(yù)測(cè)貨運(yùn)量方法:基于廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)輸入量:根據(jù)貨運(yùn)量影響因素的分析,分別取GDP、工業(yè)總產(chǎn)值、鐵路運(yùn)輸線路長(zhǎng)度、復(fù)線(fùxiàn)里程比重、公路運(yùn)輸線路長(zhǎng)度、等級(jí)公路比重、鐵路貨車數(shù)量和民用載貨汽車數(shù)量8項(xiàng)指標(biāo)因素作為網(wǎng)絡(luò)輸入輸出量:以貨運(yùn)總量、鐵路貨運(yùn)量和公路貨運(yùn)量3項(xiàng)指標(biāo)因素作為網(wǎng)絡(luò)輸出。第四十一頁(yè),共67頁(yè)。二、貨運(yùn)量預(yù)測(cè)(yùcè)結(jié)果:GRNN神經(jīng)網(wǎng)絡(luò)三項(xiàng)流量(liúliàng)預(yù)測(cè)的誤差為16342.69476360.72316945.2494第四十二頁(yè),共67頁(yè)。三、財(cái)政收入影響因素與預(yù)測(cè)(yùcè)模型目標(biāo):預(yù)測(cè)未來(lái)財(cái)政收入方法:Adaptive-Lasso、神經(jīng)網(wǎng)絡(luò)(1)獲取某市財(cái)政收入以及各類收入相關(guān)數(shù)據(jù)(2)完成數(shù)據(jù)預(yù)處理,建立Adaptive-Lasso變量選擇模型(3)建立人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型(4)將得到的預(yù)測(cè)值代入構(gòu)建好的人工神經(jīng)網(wǎng)絡(luò)模型中,從而得到財(cái)政收入以及各類別收入的預(yù)測(cè)值。輸入值:社會(huì)從業(yè)人數(shù)(x1),在崗職工(zhígōng)工資總額(x2),社會(huì)消費(fèi)品零售總額(x3),城鎮(zhèn)居民人均可支配收入(x4),城鎮(zhèn)居民人均消費(fèi)性支出(x5),年末總?cè)丝冢▁6),全社會(huì)固定資產(chǎn)投資額(x7),地區(qū)生產(chǎn)總值(x8),第一產(chǎn)業(yè)產(chǎn)值(x9),稅收(x10),居民消費(fèi)價(jià)格指數(shù)(x11),第三產(chǎn)業(yè)與第二產(chǎn)業(yè)產(chǎn)值比(x12),居民消費(fèi)水平(x13)。輸出值:財(cái)政收入總值第四十三頁(yè),共67頁(yè)。三、財(cái)政收入影響(yǐngxiǎng)因素與預(yù)測(cè)模型第四十四頁(yè),共67頁(yè)。三、財(cái)政收入影響因素(yīnsù)與預(yù)測(cè)模型1、Adaptive-Lasso變量(biànliàng)選擇模型

通過(guò)相關(guān)系數(shù),將無(wú)關(guān)變量從輸入值中刪除,綜上所述,影響財(cái)政收入的關(guān)鍵因素是社會(huì)從業(yè)人數(shù)、在崗職工工資、社會(huì)消費(fèi)品零售總額、城鎮(zhèn)居民人均可支配收入、城鎮(zhèn)居民人均消費(fèi)性支出以及全社會(huì)固定資產(chǎn)投資額。將輸入值和輸出值分為(fēnwéi)訓(xùn)練集和測(cè)試集,代入三層的BP神經(jīng)網(wǎng)絡(luò),預(yù)測(cè)未來(lái)的財(cái)政收入。第四十五頁(yè),共67頁(yè)。三、財(cái)政收入影響因素與預(yù)測(cè)(yùcè)模型第四十六頁(yè),共67頁(yè)。四、時(shí)間(shíjiān)序列預(yù)測(cè)法—交通流量預(yù)測(cè)概念:時(shí)間序列預(yù)測(cè)法就是通過(guò)編制和分析時(shí)間序列,根據(jù)時(shí)間序列所反映出來(lái)的發(fā)展過(guò)程、方向和趨勢(shì),進(jìn)行類推或延伸,借以預(yù)測(cè)下一段時(shí)間或以后若干年內(nèi)可能達(dá)到的水平。其內(nèi)容包括:收集與整理某種社會(huì)現(xiàn)象的歷史資料;對(duì)這些資料進(jìn)行檢查鑒別,排成數(shù)列;分析時(shí)間數(shù)列,從中尋找該社會(huì)現(xiàn)象隨時(shí)間變化而變化的規(guī)律,得出一定(yīdìng)的模式;以此模式去預(yù)測(cè)該社會(huì)現(xiàn)象將來(lái)的情況。常用時(shí)間序列預(yù)測(cè)問(wèn)題,比較常用的方法包括:多元線性回歸預(yù)測(cè)、AR模型預(yù)測(cè)、ARMA模型預(yù)測(cè)、指數(shù)平滑預(yù)測(cè)、小波神經(jīng)網(wǎng)絡(luò)、RNN等第四十七頁(yè),共67頁(yè)。四、時(shí)間(shíjiān)序列預(yù)測(cè)法—交通流量預(yù)測(cè)步驟:(1)采集4天的交通流浪(liúlàng)數(shù)據(jù),每隔15分鐘記錄一次,一共記錄384個(gè)時(shí)間點(diǎn)的數(shù)據(jù)(2)用3天共288個(gè)數(shù)據(jù)訓(xùn)練小波神經(jīng)網(wǎng)絡(luò)(3)用訓(xùn)練好的小波神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)第4天的交通流量。第四十八頁(yè),共67頁(yè)。一、數(shù)據(jù)(shùjù)探索數(shù)據(jù)質(zhì)量分析(fēnxī)數(shù)據(jù)質(zhì)量分析(fēnxī)的主要任務(wù)是檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù),臟數(shù)據(jù)一般是指不符合要求,以及不能直接進(jìn)行相應(yīng)分析(fēnxī)的數(shù)據(jù),主要包括:缺失值,異常值,重復(fù)數(shù)據(jù)及含有特殊符號(hào)(如#、¥、%)的數(shù)據(jù)等。(1)缺失值分析(fēnxī)數(shù)據(jù)的缺失主要包括記錄的缺失和記錄中某個(gè)字段信息的缺失原因:數(shù)據(jù)無(wú)法獲??;數(shù)據(jù)遺漏;屬性值不存在影響:丟失信息;增加不確定性,難把握規(guī)律;分析(fēnxī):使用簡(jiǎn)單的統(tǒng)計(jì)分析(fēnxī),可以得到含有缺失值的屬性的個(gè)數(shù),以及每個(gè)屬性的未缺失數(shù)、缺失率等

第四十九頁(yè),共67頁(yè)。一、數(shù)據(jù)(shùjù)探索

第五十頁(yè),共67頁(yè)。二、數(shù)據(jù)(shùjù)預(yù)處理數(shù)據(jù)預(yù)處理的主要內(nèi)容包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。數(shù)據(jù)預(yù)處理一方面是要提高數(shù)據(jù)的質(zhì)量,另一方面是要讓數(shù)據(jù)更好地適應(yīng)特定(tèdìng)的挖掘技術(shù)或工具。2.1數(shù)據(jù)清洗數(shù)據(jù)清洗主要是刪除原始數(shù)據(jù)集中的無(wú)關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù),平滑噪聲數(shù)據(jù),篩選掉與挖掘主題無(wú)關(guān)的數(shù)據(jù),處理缺失值、異常值等。清洗內(nèi)容主要包括:缺失數(shù)據(jù)處理、相似重復(fù)對(duì)象檢測(cè)、異常數(shù)據(jù)處理、邏輯錯(cuò)誤檢測(cè)和不一致數(shù)據(jù)等第五十一頁(yè),共67頁(yè)。二、數(shù)據(jù)(shùjù)預(yù)處理(1)缺失數(shù)據(jù)處理 處理缺失值的方法可以分為(fēnwéi)3類:刪除記錄、數(shù)據(jù)插補(bǔ)和不處理。第五十二頁(yè),共67頁(yè)。(1)刪除數(shù)據(jù)(shùjù):主要針對(duì)缺失值數(shù)量較少、且刪除數(shù)據(jù)(shùjù)對(duì)整體數(shù)據(jù)(shùjù)幾乎沒(méi)有影響;也可以根據(jù)數(shù)據(jù)(shùjù)缺失挖掘信息.文獻(xiàn)[1]利用5組醫(yī)療數(shù)據(jù)(shùjù)集測(cè)試了缺失數(shù)據(jù)(shùjù)對(duì)于病情陽(yáng)性概率的影響,以及對(duì)分類結(jié)果精確度的影響,并通過(guò)knn、判別分析和樸素貝葉斯3種方法在數(shù)據(jù)(shùjù)缺失不同比例的情況下,對(duì)分類結(jié)果進(jìn)行了分析比較;(2)數(shù)據(jù)(shùjù)插補(bǔ):屬性間的關(guān)聯(lián)性在缺失值估計(jì)過(guò)程中非常重要,在數(shù)據(jù)(shùjù)挖掘方法中,關(guān)鍵是挖掘?qū)傩蚤g的關(guān)系。數(shù)據(jù)(shùjù)插補(bǔ)的目的在于估計(jì)正確的替代值。文獻(xiàn)[2]提出了基于不完備數(shù)據(jù)(shùjù)聚類的缺失數(shù)據(jù)(shùjù)填補(bǔ)方法,針對(duì)分類變量不完備數(shù)據(jù)(shùjù)集定義約束容差集合差異度,從集合的角度判斷不完備數(shù)據(jù)(shùjù)對(duì)象的總體相異程度,并以不完備數(shù)據(jù)(shùjù)聚類的結(jié)果對(duì)基礎(chǔ)進(jìn)行缺失數(shù)據(jù)(shùjù)的填補(bǔ)。文獻(xiàn)[3]提出一種基于進(jìn)化算法的自適應(yīng)聚類方法,該方法的基本思想是將聚類問(wèn)題轉(zhuǎn)化成一個(gè)全局優(yōu)化問(wèn)題,利用聚類方法填充缺失值。文獻(xiàn)[4]針對(duì)缺失數(shù)據(jù)(shùjù)問(wèn)題,提出了多元回歸方法,彌補(bǔ)一元回歸方法的不足。[1]JuholaM,LaurikkalaJ.Missingvalues:howmanycantheybetopreserveclassificationreliability[J/OL].ArtificialIntelligenceReview,2011.(2011-08-01)[2012-12-28].[2]武森,馮小東,單志廣.基于不完備數(shù)據(jù)(shùjù)聚類的缺失數(shù)據(jù)(shùjù)填補(bǔ)方法[J].計(jì)算機(jī)學(xué)報(bào),2012,35(8):1726-1738.[3]SilvaJA,HruschkaER.Anevolutionaryalgorithmformissingvaluessubstitutioninclassificationtasks[C]∥ProceedingsoftheHAIS′09.Salamanca:Springer,2009:195-202.[4]ZhangShichao,JinZhi,ZhuXiaofeng,etal.Missingdataanalysis:akernel-basedmulti-imputationap-proach[C]∥ProceedingsofTransactionsonComput-ationalScienceIII.Berlin,Heidelberg:Springer,2009:122-142.第五十三頁(yè),共67頁(yè)。(2)相似重復(fù)對(duì)象檢測(cè) 文獻(xiàn)[5]:鄰近排序算法(SNM)是重復(fù)記錄檢測(cè)的常用方法,該方法基于排序比較的思想 文獻(xiàn)[6]:多趟排序;文獻(xiàn)[7]:優(yōu)先隊(duì)列排序 文獻(xiàn)[8]:提出了基于N-gram的重復(fù)記錄檢測(cè)方法,并給出了改進(jìn)的優(yōu)先權(quán)隊(duì)列算法以準(zhǔn)確地聚類相似重復(fù)記錄。 文獻(xiàn)[9]:用依賴圖的概念(gàiniàn),計(jì)算數(shù)據(jù)表中的關(guān)鍵屬性,根據(jù)關(guān)鍵屬性值將記錄集劃分為小記錄集,在每個(gè)小記錄集中進(jìn)行相似重復(fù)記錄檢測(cè)。 文獻(xiàn)[10]:針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的重復(fù)檢測(cè),介紹了復(fù)雜數(shù)據(jù)實(shí)體識(shí)別的概念(gàiniàn)和應(yīng)用,分別就XML數(shù)據(jù)、圖數(shù)據(jù)和復(fù)雜網(wǎng)絡(luò)上實(shí)體識(shí)別技術(shù)進(jìn)行了討論。[5]張建中,方正,熊擁軍,等.對(duì)基于SNM數(shù)據(jù)清洗算法的優(yōu)化[J].中南大學(xué)學(xué)報(bào):自然科學(xué)版,2010,41(6):2240-2245.[6]MongeAE,ElkanCP.Efficientdomain-independentdetectionofapproximatelyduplicatedatabaserecords[C]∥ProceedingsoftheACM-SIGMODWorkshoponResearchIssuesinKnowledgeDiscoveryandDataMining.Tucson,Arizona:[s.n.]1997.[7]HernándezMA,StolfoSJ.Real-worlddataisdirty:datacleansingandthemerge/purgeproblem[J].DataMiningandKnowledgeDiscovery,1998,2(1):9-37.[8]邱越峰,田增平,季文,等.一種高效的檢測(cè)相似重復(fù)記錄的方法[J].計(jì)算機(jī)學(xué)報(bào),2001,24(1):69-77.[9]龐雄文,姚占林,李擁軍.大數(shù)據(jù)量的高效重復(fù)記錄檢測(cè)方法[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2010,38(2):8-11.[10]王宏志,樊文飛.復(fù)雜數(shù)據(jù)上的實(shí)體識(shí)別技術(shù)研究[J].計(jì)算機(jī)學(xué)報(bào),2011,34(10):1843-1852.第五十四頁(yè),共67頁(yè)。二、數(shù)據(jù)(shùjù)預(yù)處理補(bǔ)充:基于N-gram的重復(fù)記錄檢測(cè)方法(fāngfǎ):給每個(gè)記錄賦一個(gè)N-gram值,以該值為鍵來(lái)對(duì)數(shù)據(jù)中的記錄進(jìn)行排序。在一賦值時(shí)必須盡可能地使相似程度越高的記錄的一價(jià)帥值越接近,以保證通過(guò)對(duì)值排序之后它們將被聚到鄰近的區(qū)域。所謂記錄的田值是根據(jù)記錄的內(nèi)容并參照全局統(tǒng)計(jì)信息而計(jì)算出的一個(gè)表示記錄特征的整數(shù)值?;窘徟判蛩惴?SNM):(1)創(chuàng)建排序關(guān)鍵字;(2)排序,盡可能的使?jié)撛诘目赡艿闹貜?fù)記錄調(diào)整到一個(gè)鄰近的區(qū)域內(nèi);(3)合并,在排序后的數(shù)據(jù)集上滑動(dòng)一個(gè)固定大小的窗口,重復(fù)比較,將數(shù)據(jù)合并。第五十五頁(yè),共67頁(yè)。二、數(shù)據(jù)(shùjù)預(yù)處理(3)異常數(shù)據(jù)處理 異常數(shù)據(jù)的探測(cè)主要有基于統(tǒng)計(jì)學(xué)、基于距離和基于偏離3類方法。文獻(xiàn)[11]:采用數(shù)據(jù)審計(jì)的方法實(shí)現(xiàn)異常數(shù)據(jù)的自動(dòng)化檢測(cè),稱為數(shù)據(jù)質(zhì)量挖掘,由2步構(gòu)成:(1)采用數(shù)理統(tǒng)計(jì)方法對(duì)數(shù)據(jù)分布進(jìn)行概化描述,自動(dòng)獲得數(shù)據(jù)的總體分布特征;(2)針對(duì)特定的數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行挖掘以發(fā)現(xiàn)數(shù)據(jù)異常。文獻(xiàn)[12]:將數(shù)據(jù)按距離劃分為不同的層,在每一層統(tǒng)計(jì)數(shù)據(jù)特征,再根據(jù)定義(dìngyì)的距離計(jì)算各數(shù)據(jù)點(diǎn)和中心距離的遠(yuǎn)近來(lái)判斷異常是否存在。(聚類)文獻(xiàn)[13]:基于關(guān)聯(lián)方法,將置信度和支持度很低的點(diǎn)視為異常點(diǎn)。[11]HippJ,GuntzerU,GrimmerU.Dataqualitymining:makingavirtueofnecessity[C]∥ProceedingsofWorkshoponResearchIssuesinDataMiningandKnowledgeDiscovery.SantaBarbara:[s.n.],2001.[12]DasuT,JohnsonT.Huntingofthesnark:findingdataglitchesusingdataminingmethods[C]∥Proceedingsofthe1999ConferenceofInformationQuality.Cam-bridge:[s.n.],1999.[13]Kimball,R.DealingwithdirtyData.DBMS,vol.9,NO.10,September1996,pp.55第五十六頁(yè),共67頁(yè)。二、數(shù)據(jù)(shùjù)預(yù)處理(3)異常(yìcháng)數(shù)據(jù)處理在很多情況下,要先分析(fēnxī)異常值出現(xiàn)的可能原因,再判斷異常值是否應(yīng)該舍棄,如果是正確的數(shù)據(jù),可以直接在具有異常值的數(shù)據(jù)集上進(jìn)行挖掘建模。第五十七頁(yè),共67頁(yè)。二、數(shù)據(jù)(shùjù)預(yù)處理2.2數(shù)據(jù)集成數(shù)據(jù)挖掘需要的數(shù)據(jù)往往分布在不同的數(shù)據(jù)源中,數(shù)據(jù)集成就是將多個(gè)數(shù)據(jù)源合并存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)庫(kù))中的過(guò)程。(1)實(shí)體識(shí)別 實(shí)體識(shí)別是指從不同數(shù)據(jù)源識(shí)別出現(xiàn)實(shí)世界的實(shí)體,任務(wù)是統(tǒng)一不同數(shù)據(jù)源的矛盾之處,例如:同名異義;異名同義;單位不統(tǒng)一。(2)冗余(rǒnɡyú)屬性識(shí)別 數(shù)據(jù)集成往往導(dǎo)致數(shù)據(jù)冗余(rǒnɡyú),例如: 同一屬性多次出現(xiàn);同一屬性命名不一致導(dǎo)致重復(fù)。 仔細(xì)整合不同源數(shù)據(jù)能減少甚至避免數(shù)據(jù)冗余(rǒnɡyú)與不一致,對(duì)于冗余(rǒnɡyú)屬性要先分析,檢測(cè)到后再將其刪除。第五十八頁(yè),共67頁(yè)。二、數(shù)據(jù)(shùjù)預(yù)處理2.2數(shù)據(jù)集成目前(mùqián),常用的消除數(shù)據(jù)不一致的方法有排序、融合和基于規(guī)則3種方法。文獻(xiàn)[14]:使用了鄰近排序的方法,根據(jù)定義的關(guān)鍵碼對(duì)數(shù)據(jù)集進(jìn)行排序,使可匹配的記錄在位置上臨近,并檢測(cè)數(shù)據(jù)中的不一致。文獻(xiàn)[15]:從不同的特征評(píng)估每個(gè)數(shù)值,通過(guò)線性組合各特征值得到整體評(píng)估值,再根據(jù)評(píng)估值確定正確值。[14]HernándezMA,StolfoSJ.Real-worlddataisdirty:datacleansingandthemerge/purgeproblem[J].

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論