機(jī)器學(xué)習(xí)算法介紹

上傳人：王*** IP屬地：廣西上傳時(shí)間：2023-05-11 格式：PPTX 頁(yè)數(shù)：67 大?。?.94MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩62頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2023/5/10機(jī)器(jīqì)學(xué)習(xí)算法介紹第一頁(yè)，共67頁(yè)。基本概念分類(fēnlèi)監(jiān)督式學(xué)習(xí)多輪學(xué)習(xí)以達(dá)到目的(mùdì)：實(shí)現(xiàn)回歸或分類非監(jiān)督式學(xué)習(xí)特定方法實(shí)現(xiàn)聚類。（由于目的(mùdì)性不明確，所以一般沒(méi)有多輪）強(qiáng)化學(xué)習(xí)不斷學(xué)習(xí)，永無(wú)止境分類算法適用因變量為離散(lísàn)變量回歸算法適用因變量為連續(xù)變量聚類和分類的差別聚類：無(wú)限種類別可能分類：有限種類別可能第二頁(yè)，共67頁(yè)。監(jiān)督(jiāndū)式學(xué)習(xí)工作機(jī)制這個(gè)算法由一個(gè)目標(biāo)變量或結(jié)果變量（或因變量）組成。此變量由已知的一系列預(yù)示變量（自變量）預(yù)測(cè)而來(lái)。利用這一系列變量，我們生成一個(gè)將輸入值映射到期望輸出值的函數(shù)(hánshù)。這個(gè)訓(xùn)練過(guò)程會(huì)一直持續(xù)，直到模型在訓(xùn)練數(shù)據(jù)上獲得期望的精確度。例子線性回歸，決策樹，SVM，K–近鄰算法，邏輯回歸等第三頁(yè)，共67頁(yè)。非監(jiān)督(jiāndū)式學(xué)習(xí)工作機(jī)制沒(méi)有任何目標(biāo)變量或結(jié)果變量要預(yù)測(cè)(yùcè)或估計(jì)。用在不同的組內(nèi)聚類分析。

例子關(guān)聯(lián)算法，K–均值算法第四頁(yè)，共67頁(yè)。強(qiáng)化(qiánghuà)學(xué)習(xí)工作機(jī)制訓(xùn)練機(jī)器進(jìn)行決策。機(jī)器被放在一個(gè)(yīɡè)能讓它通過(guò)反復(fù)試錯(cuò)來(lái)訓(xùn)練自己的環(huán)境中。機(jī)器從過(guò)去的經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)，并且嘗試?yán)昧私庾钔笍氐闹R(shí)作出精確的判斷。例子馬爾可夫決策過(guò)程第五頁(yè)，共67頁(yè)。十大機(jī)器學(xué)習(xí)(xuéxí)算法1、線性回歸(huíguī)2、邏輯回歸(huíguī)3、決策樹4、SVM5、樸素貝葉斯6、k-Means算法7、kNN算法8、Apriori算法9、最大期望算法（EM）10、PageRank第六頁(yè)，共67頁(yè)。監(jiān)督(jiāndū)式學(xué)習(xí)與非監(jiān)督(jiāndū)式學(xué)習(xí)的差別監(jiān)督式學(xué)習(xí)方法，要求：事先明確知道各個(gè)類別的信息(xìnxī)所有待分類項(xiàng)都有一個(gè)類別與之對(duì)應(yīng)如果不能滿足上述兩個(gè)條件（例如有海量數(shù)據(jù)），則需適用聚類算法，即非監(jiān)督式學(xué)習(xí)。監(jiān)督式學(xué)習(xí)非監(jiān)督式學(xué)習(xí)線性回歸邏輯回歸決策樹樸素貝葉斯SVM

KNNK-meansAprioriEMPageRank第七頁(yè)，共67頁(yè)。線性回歸(huíguī)適用場(chǎng)景根據(jù)連續(xù)變量估計(jì)實(shí)際數(shù)值（房?jī)r(jià)、呼叫次數(shù)、總銷售額等）。原理可通過(guò)擬合最佳直線來(lái)建立(jiànlì)自變量和因變量的關(guān)系。擬合結(jié)果是條直線Y=a*X+b：其中Y是因變量，a是斜率，x是自變量，b是截距最佳直線叫做回歸線。系數(shù)a和b通過(guò)最小二乘法獲得。Python代碼fromsklearnimportlinear_modelx_train=input_variables_values_training_datasetsy_train=target_variables_values_training_datasetsx_test=input_variables_values_test_datasetslinear=linear_model.LinearRegression()linear.fit(x_train,y_train)linear.score(x_train,y_train)第八頁(yè)，共67頁(yè)。線性回歸(huíguī)針對(duì)線性回歸容易出現(xiàn)欠擬合的問(wèn)題，采取局部加權(quán)線性回歸。在該算法中，賦予預(yù)測(cè)點(diǎn)附近每一個(gè)點(diǎn)以一定的權(quán)值，在這上面基于波長(zhǎng)函數(shù)來(lái)進(jìn)行普通的線性回歸.可以實(shí)現(xiàn)(shíxiàn)對(duì)臨近點(diǎn)的精確擬合同時(shí)忽略那些距離較遠(yuǎn)的點(diǎn)的貢獻(xiàn)，即近點(diǎn)的權(quán)值大，遠(yuǎn)點(diǎn)的權(quán)值小，k為波長(zhǎng)參數(shù)，控制了權(quán)值隨距離下降的速度，越大下降的越快。

第九頁(yè)，共67頁(yè)。線性回歸(huíguī)針對(duì)數(shù)據(jù)的特征(tèzhēng)比樣本點(diǎn)多的問(wèn)題：一、嶺回歸二、前向逐步回歸第十頁(yè)，共67頁(yè)。邏輯(luójí)回歸

#ImportLibraryfromsklearn.linear_modelimportLogisticRegression#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#Createlogisticregressionobjectmodel=LogisticRegression()

#Trainthemodelusingthetrainingsetsandcheckscoremodel.fit(X,y)model.score(X,y)#PredictOutputpredicted=model.predict(x_test)第十一頁(yè)，共67頁(yè)。邏輯(luójí)回歸基于最優(yōu)化方法的最佳回歸系數(shù)確定(quèdìng)：梯度下降法隨機(jī)梯度下降法（根據(jù)梯度更新權(quán)重）牛頓法或擬牛頓法（最大熵模型）第十二頁(yè)，共67頁(yè)。決策樹使用場(chǎng)景這個(gè)監(jiān)督式學(xué)習(xí)算法通常被用于分類問(wèn)題(wèntí)。它同時(shí)適用于分類變量和連續(xù)因變量。原理在這個(gè)算法中，我們將總體分成兩個(gè)或更多的同類群。這是根據(jù)最重要的屬性或者自變量來(lái)分成盡可能不同的組別?；貧w樹——預(yù)測(cè)值為葉節(jié)點(diǎn)目標(biāo)變量的加權(quán)均值分類樹——某葉節(jié)點(diǎn)預(yù)測(cè)的分類值應(yīng)是造成錯(cuò)判損失最小的分類值。第十三頁(yè)，共67頁(yè)。細(xì)說(shuō)(xìshuō)決策樹（1）——混亂度判斷熵熵：E=sum(-p(I)*log(p(I)))，I=1:N（N類結(jié)果，如客戶是否流失）所有樣本都屬于一個(gè)類別I（最整齊），那么熵為0，如果樣本完全隨機(jī)，那么熵為1

信息增益信息增益：原樣本的熵-sum（區(qū)分后的各部分熵），增益越大表示區(qū)分的方法越好Gain(Sample,Action)=E(sample)-sum(|Sample(v)|/Sample*E(Sample(v)))除了熵以外，還有GINI不純度(chúndù)，錯(cuò)誤率兩種計(jì)算混亂度的方法，定義不同但效果類似。第十四頁(yè)，共67頁(yè)。細(xì)說(shuō)(xìshuō)決策樹（2）——建構(gòu)樹生成樹（1）從根節(jié)點(diǎn)t=1開始，從所有可能候選S集合中搜索使不純性降低最大的劃分S；（2）使用劃分S將節(jié)點(diǎn)1（t=1）劃分成兩個(gè)節(jié)點(diǎn)t=2和t=3；（3）在t=2和t=3上分別重復(fù)劃分搜索過(guò)程(guòchéng)終止樹（1）節(jié)點(diǎn)達(dá)到完全純性；（2）樹的深度達(dá)到用戶指定的深度；（3）節(jié)點(diǎn)中樣本的個(gè)數(shù)少于用戶指定的個(gè)數(shù)；（4）

異質(zhì)性指標(biāo)下降的最大幅度小于用戶指定的幅度。第十五頁(yè)，共67頁(yè)。細(xì)說(shuō)(xìshuō)決策樹（3）——剪枝prune當(dāng)分類回歸樹劃分得太細(xì)時(shí)，會(huì)對(duì)噪聲數(shù)據(jù)產(chǎn)生過(guò)擬合作用。因此我們要通過(guò)剪枝來(lái)解決。剪枝又分為前剪枝和后剪枝：前剪枝：在構(gòu)造樹的過(guò)程中就知道那些節(jié)點(diǎn)需要減掉，及早的停止樹增長(zhǎng)。后剪枝：在構(gòu)造出完整樹之后再按照一定(yīdìng)方法進(jìn)行剪枝，方法有：代價(jià)復(fù)雜性剪枝、最小誤差剪枝、悲觀誤差剪枝等等。第十六頁(yè)，共67頁(yè)。決策樹代碼(dàimǎ)def

createTree(dataSet,labels):

classList

[example[-1]

for

example

dataSet]#將最后(zuìhòu)一行的數(shù)據(jù)放到classList中

classList.count(classList[0])

len(classList):

return

classList[0]

len(dataSet[0])

1:#這里為什么是1呢？就是說(shuō)特征數(shù)為1的時(shí)候

return

majorityCnt(classList)

bestFeat

chooseBestFeatureToSplit(dataSet)

print(bestFeat)

bestFeatLabel

labels[bestFeat]#運(yùn)行結(jié)果'no

surfacing'

myTree

{bestFeatLabel:{}}#運(yùn)行結(jié)果{'no

surfacing':

{}}

del(labels[bestFeat])

featValues

[example[bestFeat]

for

example

dataSet]#第0個(gè)特征值

uniqueVals

set(featValues)

for

value

uniqueVals:

subLabels

labels[:]

myTree[bestFeatLabel][value]

createTree(splitDataSet\

(dataSet,bestFeat,value),subLabels)

return

myTree

Python代碼(dàimǎ)第十七頁(yè)，共67頁(yè)。支持(zhīchí)向量機(jī)適用場(chǎng)景這是一種統(tǒng)計(jì)分類及回歸分析方法算法支持向量機(jī)將向量映射到一個(gè)更高維的空間(kōngjiān)里，在這個(gè)空間(kōngjiān)里建立有一個(gè)最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個(gè)互相平行的超平面，分隔超平面使兩個(gè)平行超平面的距離最大化。假定平行超平面間的距離或差距越大，分類器的總誤差越小。第十八頁(yè)，共67頁(yè)。支持(zhīchí)向量機(jī)

第十九頁(yè)，共67頁(yè)。支持(zhīchí)向量機(jī)優(yōu)缺點(diǎn)優(yōu)點(diǎn)：(1)非線性映射是SVM方法的理論基礎(chǔ),SVM利用內(nèi)積核函數(shù)代替向高維空間的非線性映射；(2)對(duì)特征(tèzhēng)空間劃分的最優(yōu)超平面是SVM的目標(biāo),最大化分類邊際的思想是SVM方法的核心；(3)支持向量是SVM的訓(xùn)練結(jié)果,在SVM分類決策中起決定性作用。因此，模型需要存儲(chǔ)空間小，算法魯棒性（Robust）強(qiáng)。缺點(diǎn)：(1)SVM算法對(duì)大規(guī)模訓(xùn)練樣本難以實(shí)施(2)用SVM解決多分類問(wèn)題存在困難經(jīng)典的支持向量機(jī)算法只給出了二類分類的算法，而在數(shù)據(jù)挖掘的實(shí)際應(yīng)用中，一般要解決多類的分類問(wèn)題。第二十頁(yè)，共67頁(yè)。樸素(pǔsù)貝葉斯

#ImportLibraryfromsklearn.naive_bayesimportGaussianNB

#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateSVMclassificationobjectmodel=GaussianNB()#thereisotherdistributionformultinomialclasseslikeBernoulliNaiveBayes,Referlink#Trainthemodelusingthetrainingsetsandcheckscoremodel.fit(X,y)

#PredictOutputpredicted=model.predict(x_test)第二十一頁(yè)，共67頁(yè)。樸素(pǔsù)貝葉斯算法對(duì)于給出的待分類項(xiàng)，求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率，哪個(gè)最大，就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。自變量：x={a1,a2,...,an}因變量：假設(shè)我們的結(jié)論有True/False兩種根據(jù)樣本可得到(dédào)p(a1|T),p(a2|T),...,p(an|T),p(a1|F),p(a2|F),...,p(an|F)我們想比較p(T|x)和p(F|x)，則根據(jù)貝葉斯定理：p(T|x)=p(x|T)*p(T)/p(x)=p(a1|T)*p(a2|T)*...*p(an|T)*p(T)/p(x)p(T|x)*p(x)=p(x|T)*p(T)=p(a1|T)*p(a2|T)*...*p(an|T)*p(T)p(F|x)*p(x)=p(x|F)*p(T)=p(a1|F)*p(a2|F)*...*p(an|F)*p(F)由此得出x情況下T的概率和F的概率。第二十二頁(yè)，共67頁(yè)。KNN（K最鄰近(línjìn)算法）適用場(chǎng)景該算法可用于分類(fēnlèi)問(wèn)題和回歸問(wèn)題。然而，在業(yè)界內(nèi)，K–最近鄰算法更常用于分類(fēnlèi)問(wèn)題。原理K–最近鄰算法是一個(gè)簡(jiǎn)單的算法。它儲(chǔ)存所有的案例，通過(guò)周圍k個(gè)案例中的大多數(shù)情況劃分新的案例。根據(jù)一個(gè)距離函數(shù)，新案例會(huì)被分配到它的K個(gè)近鄰中最普遍的類別中去。這些距離函數(shù)可以是歐式距離、曼哈頓距離、明式距離或者是漢明距離。前三個(gè)距離函數(shù)用于連續(xù)函數(shù)，第四個(gè)函數(shù)（漢明函數(shù)）則被用于分類(fēnlèi)變量。第二十三頁(yè)，共67頁(yè)。KNN（K最鄰近(línjìn)算法）實(shí)現(xiàn)流程（1）計(jì)算已知類別數(shù)據(jù)集中的點(diǎn)與當(dāng)前點(diǎn)之間的距離（2）按照距離遞增次序排序（3）選取與當(dāng)前點(diǎn)距離最近的k個(gè)點(diǎn)（4）確定前k個(gè)點(diǎn)所在類別的出現(xiàn)(chūxiàn)頻率（5）返回前k個(gè)點(diǎn)出現(xiàn)(chūxiàn)頻率最高的類別作為當(dāng)前點(diǎn)的預(yù)測(cè)分類Python代碼(dàimǎ)#ImportLibraryfrom

sklearn.neighborsimport

KNeighborsClassifier

#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateKNeighborsclassifierobjectmodelKNeighborsClassifier(n_neighbors=6)

#defaultvalueforn_neighborsis5

#Trainthemodelusingthetrainingsetsandcheckscoremodel.fit(X,

#PredictOutputpredicted=model.predict(x_test)第二十四頁(yè)，共67頁(yè)。KNN（K最鄰近(línjìn)算法）補(bǔ)充說(shuō)明(shuōmíng)KNN算法不僅可以用于分類，還可以用于回歸。通過(guò)找出一個(gè)樣本的k個(gè)最近鄰居，將這些鄰居的屬性的平均值賦給該樣本，就可以得到該樣本的屬性。更有用的方法是將不同距離的鄰居對(duì)該樣本產(chǎn)生的影響給予不同的權(quán)值(weight)，如權(quán)值與距離成反比。第二十五頁(yè)，共67頁(yè)。K均值(jūnzhí)算法使用場(chǎng)景K–均值算法(suànfǎ)是一種非監(jiān)督式學(xué)習(xí)算法(suànfǎ)，它能解決聚類問(wèn)題。使用K–均值算法(suànfǎ)來(lái)將一個(gè)數(shù)據(jù)歸入一定數(shù)量的集群（假設(shè)有k個(gè)集群）的過(guò)程是簡(jiǎn)單的。一個(gè)集群內(nèi)的數(shù)據(jù)點(diǎn)是均勻齊次的，并且異于別的集群。算法(suànfǎ)1、從D中隨機(jī)取k個(gè)元素，作為k個(gè)簇的各自的中心。2、分別計(jì)算剩下的元素到k個(gè)簇中心的相異度，將這些元素分別劃歸到相異度最低的簇。3、根據(jù)聚類結(jié)果，重新計(jì)算k個(gè)簇各自的中心，計(jì)算方法是取簇中所有元素各自維度的算術(shù)平均數(shù)。4、將D中全部元素按照新的中心重新聚類。5、重復(fù)第4步，直到聚類結(jié)果不再變化。6、將結(jié)果輸出。第二十六頁(yè)，共67頁(yè)。K均值(jūnzhí)算法如何確定K值K–均值算法涉及到集群，每個(gè)集群有自己的質(zhì)心。一個(gè)集群內(nèi)的質(zhì)心和各數(shù)據(jù)點(diǎn)之間距離的平方和形成了這個(gè)集群的平方值之和。同時(shí)，當(dāng)所有集群的平方值之和加起來(lái)的時(shí)候，就組成了集群方案的平方值之和。我們知道，當(dāng)集群的數(shù)量增加時(shí)，所有集群平方和之和會(huì)持續(xù)下降。但是，如果你將結(jié)果用圖表來(lái)表示，你會(huì)看到距離的平方總和(zǒnghé)快速減少。到某個(gè)值k之后，減少的速度就大大下降了。在此，我們可以找到集群數(shù)量的最優(yōu)值。第二十七頁(yè)，共67頁(yè)。工作(gōngzuò)流程

#k-means

聚類算法(suànfǎ)

def

kMeans(dataSet,

distMeans

=distEclud,

createCent

randCent):

shape(dataSet)[0]

clusterAssment

mat(zeros((m,2)))

centroids

createCent(dataSet,

clusterChanged

True

while

clusterChanged:

clusterChanged

False;

for

range(m):

minDist

inf;

minIndex

-1;

for

range(k):

distJI

distMeans(centroids[j,:],

dataSet[i,:])

distJI

minDist:

minDist

distJI;

minIndex

clusterAssment[i,0]

minIndex:

clusterChanged

True;

clusterAssment[i,:]

minIndex,minDist**2

centroids

for

cent

range(k):

ptsInClust

dataSet[nonzero(clusterAssment[:,0].A

cent)[0]]

centroids[cent,:]

mean(ptsInClust,

axis

return

centroids,

clusterAssment

創(chuàng)建k個(gè)點(diǎn)作為起始質(zhì)心，可以(kěyǐ)隨機(jī)選擇(位于數(shù)據(jù)邊界內(nèi))當(dāng)任意一個(gè)點(diǎn)的簇分配結(jié)果發(fā)生改變時(shí)對(duì)數(shù)據(jù)集中的每一個(gè)點(diǎn) 對(duì)每個(gè)質(zhì)心計(jì)算質(zhì)心與數(shù)據(jù)點(diǎn)之間的距離將數(shù)據(jù)點(diǎn)分配到距其最近的簇對(duì)每個(gè)簇，計(jì)算簇中所有點(diǎn)的均值并將均值作為質(zhì)心Pyhton代碼第二十八頁(yè)，共67頁(yè)。K-MEANS性能(xìngnéng)分析優(yōu)點(diǎn)（1）是解決聚類問(wèn)題的一種經(jīng)典算法，簡(jiǎn)單、快速。（2）當(dāng)結(jié)果簇是密集的，而簇與簇之間區(qū)別明顯時(shí),它的效果較好。缺點(diǎn)（1）在簇的平均值被定義的情況下才能使用，這對(duì)于處理符號(hào)屬性的數(shù)據(jù)不適用。（2）要求用戶必須事先給出要生成的簇的數(shù)目k。（3）對(duì)初值敏感(mǐngǎn)，對(duì)于不同的初始值，可能會(huì)導(dǎo)致不同的聚類結(jié)果。（4）不適合于發(fā)現(xiàn)非凸面形狀的簇，或者大小差別很大的簇。（5）對(duì)于"噪聲"和孤立點(diǎn)數(shù)據(jù)敏感(mǐngǎn)，少量的該類數(shù)據(jù)能夠?qū)ζ骄诞a(chǎn)生極大影響。第二十九頁(yè)，共67頁(yè)。K-MEANS性能(xìngnéng)分析改進(jìn)：（1）對(duì)于離群點(diǎn)和孤立點(diǎn)敏感：離群點(diǎn)檢測(cè)的LOF算法，通過(guò)去除離群點(diǎn)后再聚類，可以減少離群點(diǎn)和孤立點(diǎn)對(duì)于聚類效果的影響。（2）k值選擇：開始設(shè)定k值，每跑一次K-means，根據(jù)k個(gè)聚類的距離情況，合并距離最近的類，不斷重復(fù)，最終得到合適數(shù)目的聚類數(shù)?？梢酝ㄟ^(guò)一個(gè)評(píng)判值E來(lái)確定聚類數(shù)得到一個(gè)合適的位置(wèizhi)停下來(lái)，而不繼續(xù)合并聚類中心。（3）初始聚類中心的選擇：選擇批次距離盡可能遠(yuǎn)的K個(gè)點(diǎn)（首先隨機(jī)選擇一個(gè)點(diǎn)作為第一個(gè)初始類簇中心點(diǎn)，然后選擇距離該點(diǎn)最遠(yuǎn)的那個(gè)點(diǎn)作為第二個(gè)初始類簇中心點(diǎn)，然后再選擇距離前兩個(gè)點(diǎn)的最近距離最大的點(diǎn)作為第三個(gè)初始類簇的中心點(diǎn)，以此類推，直至選出K個(gè)初始類簇中心點(diǎn)。）（4）只能發(fā)現(xiàn)球狀簇：如果數(shù)據(jù)集中有不規(guī)則的數(shù)據(jù)，往往通過(guò)基于密度的聚類算法更加適合，比如DESCAN算法第三十頁(yè)，共67頁(yè)。K-MEANS補(bǔ)充(bǔchōng)相異度相異度就是兩個(gè)東西差別有多大（例如用什么來(lái)說(shuō)明人類與章魚的相異度明顯大于人類與黑猩猩的相異度）歐式距離，曼哈頓距離，閔科夫斯基距離什么叫聚類所謂聚類問(wèn)題，就是給定一個(gè)元素集合(jíhé)D，其中每個(gè)元素具有n個(gè)可觀察屬性，使用某種算法將D劃分成k個(gè)子集，要求每個(gè)子集內(nèi)部的元素之間相異度盡可能低，而不同子集的元素相異度盡可能高。其中每個(gè)子集叫做一個(gè)簇。第三十一頁(yè)，共67頁(yè)。AdaBoost算法原理（1）針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器（弱分類器），然后把這些弱分類器集合起來(lái)，構(gòu)成一個(gè)更強(qiáng)的最終分類器（強(qiáng)分類器）。（2）算法本身是通過(guò)改變數(shù)據(jù)分布來(lái)實(shí)現(xiàn)的，根據(jù)每次訓(xùn)練集中每個(gè)樣本的分類是否正確，以及上次的總體分類的準(zhǔn)確率，來(lái)確定每個(gè)樣本的權(quán)值。（3）將修改(xiūgǎi)過(guò)權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練，最后將每次訓(xùn)練得到的分類器融合起來(lái)，作為最終的決策分類器Python代碼#ImportLibraryfromsklearn.ensembleimportGradientBoostingClassifier

#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateGradientBoostingClassifierobjectmodel=GradientBoostingClassifier(n_estimators=100,learning_rate=1.0,max_depth=1,random_state=0)

model.fit(X,y)

predicted=model.predict(x_test)第三十二頁(yè)，共67頁(yè)。AdaBoost工作(gōngzuò)流程：將最小錯(cuò)誤率minError設(shè)為無(wú)窮大對(duì)數(shù)據(jù)集中的每一個(gè)特征（第一層循環(huán)）：對(duì)每個(gè)步長(zhǎng)（第二層循環(huán)）：對(duì)每個(gè)不等號(hào)（第三層循環(huán)）：建立一棵單層決策樹并利用加權(quán)數(shù)據(jù)集進(jìn)行測(cè)試如果(rúguǒ)錯(cuò)誤率低于minError，將當(dāng)前單層決策樹設(shè)為最佳單層決策樹返回最佳單層決策樹構(gòu)建(ɡòujiàn)弱分類器對(duì)每次迭代：

找到最佳的單層決策樹

將最佳單層決策樹加入到單層決策樹數(shù)組

計(jì)算alpha,計(jì)算新的權(quán)重向量D

更新累計(jì)類別估計(jì)值

如果錯(cuò)誤率小于minError，則退出循環(huán)構(gòu)建強(qiáng)分類器優(yōu)點(diǎn)：（1）AdaBoost是一種有很高精度的分類器（2）可以使用各種方法構(gòu)建弱分類器（3）弱分類器構(gòu)造特別簡(jiǎn)單，不用做特征篩選（4）不會(huì)過(guò)擬合缺點(diǎn)：（1）執(zhí)行效果依賴于弱分類器的選擇，迭代次數(shù)和弱分類器的數(shù)目不太好設(shè)定（2）訓(xùn)練時(shí)間過(guò)長(zhǎng)（3）容易受到噪聲干擾，數(shù)據(jù)不平衡導(dǎo)致分類精度下降。第三十三頁(yè)，共67頁(yè)。Apriori原理（1）尋找所有不低于最小支持度的項(xiàng)集（頻繁項(xiàng)集）；（2）使用頻繁項(xiàng)集生成規(guī)則。PS：支持度：數(shù)據(jù)集中(jízhōng)包含該項(xiàng)集的記錄所占的比例；頻繁項(xiàng)集：支持度大于最小支持度的項(xiàng)集。對(duì)數(shù)據(jù)集中的每條交易記錄tran和每個(gè)候選項(xiàng)集can：檢查一下can是否是tran的子集：如果是，則增加(zēngjiā)can的計(jì)數(shù)值對(duì)每個(gè)候選項(xiàng)集：如果其支持度不低于最小值，則保留該項(xiàng)集返回所有頻繁項(xiàng)集列表生成(shēnɡchénɡ)候選項(xiàng)集工作流程發(fā)現(xiàn)關(guān)聯(lián)規(guī)則當(dāng)集合中項(xiàng)的個(gè)數(shù)大于0時(shí)：

構(gòu)建一個(gè)k個(gè)項(xiàng)組成的候選項(xiàng)集的列表

檢查數(shù)據(jù)以確認(rèn)每個(gè)項(xiàng)集都是頻繁的

保留頻繁項(xiàng)集并構(gòu)建k+1項(xiàng)組成的候選項(xiàng)集的列表第三十四頁(yè)，共67頁(yè)。強(qiáng)化學(xué)習(xí)-馬爾科夫決策(juécè)過(guò)程原理系統(tǒng)的下個(gè)狀態(tài)不僅和當(dāng)前的狀態(tài)有關(guān)，也和當(dāng)前采取的動(dòng)作有關(guān)，而與更早之前的狀態(tài)和動(dòng)作無(wú)關(guān)(wúguān)。定義：

馬爾科夫決策流程：一個(gè)馬爾科夫決策(juécè)過(guò)程由一個(gè)五元組構(gòu)成（S,A,{Psa},γ,R）

第三十五頁(yè)，共67頁(yè)。馬爾科夫決策(juécè)模型

已經(jīng)處于某個(gè)狀態(tài)s時(shí)，我們會(huì)以一定的策略π來(lái)選擇下一個(gè)動(dòng)作a執(zhí)行，然后轉(zhuǎn)換到另一個(gè)狀態(tài)ss′。我們將這個(gè)動(dòng)作的選擇過(guò)程稱為(chēnɡwéi)策略(policy)每一個(gè)policy起始就是一個(gè)狀態(tài)到動(dòng)作的映射函數(shù)π:S→A。給定π也就是給定了a=π(s),也就是說(shuō)，知道了π就知道了每個(gè)狀態(tài)下一步應(yīng)該執(zhí)行的動(dòng)作。第三十六頁(yè)，共67頁(yè)。數(shù)據(jù)挖掘以對(duì)消費(fèi)者的建模為例，舉一些場(chǎng)景下的常用(chánɡyònɡ)算法對(duì)應(yīng)：劃分消費(fèi)者群體：聚類，分類；購(gòu)物籃分析：相關(guān)，聚類；購(gòu)買額預(yù)測(cè)：回歸，時(shí)間序列；滿意度調(diào)查：回歸，聚類，分類；第三十七頁(yè)，共67頁(yè)。數(shù)據(jù)挖掘主要模型：分類(fēnlèi)、聚類、預(yù)測(cè)及關(guān)聯(lián)第三十八頁(yè)，共67頁(yè)。數(shù)據(jù)挖掘主要模型：分類(fēnlèi)、聚類、預(yù)測(cè)及關(guān)聯(lián)第三十九頁(yè)，共67頁(yè)。一、非線性擬合(nǐhé)

第四十頁(yè)，共67頁(yè)。二、貨運(yùn)量預(yù)測(cè)(yùcè)目標(biāo)：預(yù)測(cè)貨運(yùn)量方法：基于廣義回歸神經(jīng)網(wǎng)絡(luò)（GRNN）輸入量：根據(jù)貨運(yùn)量影響因素的分析，分別取GDP、工業(yè)總產(chǎn)值、鐵路運(yùn)輸線路長(zhǎng)度、復(fù)線(fùxiàn)里程比重、公路運(yùn)輸線路長(zhǎng)度、等級(jí)公路比重、鐵路貨車數(shù)量和民用載貨汽車數(shù)量8項(xiàng)指標(biāo)因素作為網(wǎng)絡(luò)輸入輸出量：以貨運(yùn)總量、鐵路貨運(yùn)量和公路貨運(yùn)量3項(xiàng)指標(biāo)因素作為網(wǎng)絡(luò)輸出。第四十一頁(yè)，共67頁(yè)。二、貨運(yùn)量預(yù)測(cè)(yùcè)結(jié)果：GRNN神經(jīng)網(wǎng)絡(luò)三項(xiàng)流量(liúliàng)預(yù)測(cè)的誤差為16342.69476360.72316945.2494第四十二頁(yè)，共67頁(yè)。三、財(cái)政收入影響因素與預(yù)測(cè)(yùcè)模型目標(biāo)：預(yù)測(cè)未來(lái)財(cái)政收入方法：Adaptive-Lasso、神經(jīng)網(wǎng)絡(luò)(1)獲取某市財(cái)政收入以及各類收入相關(guān)數(shù)據(jù)(2)完成數(shù)據(jù)預(yù)處理，建立Adaptive-Lasso變量選擇模型(3)建立人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型(4)將得到的預(yù)測(cè)值代入構(gòu)建好的人工神經(jīng)網(wǎng)絡(luò)模型中，從而得到財(cái)政收入以及各類別收入的預(yù)測(cè)值。輸入值：社會(huì)從業(yè)人數(shù)（x1），在崗職工(zhígōng)工資總額（x2），社會(huì)消費(fèi)品零售總額（x3），城鎮(zhèn)居民人均可支配收入（x4），城鎮(zhèn)居民人均消費(fèi)性支出（x5），年末總?cè)丝冢▁6），全社會(huì)固定資產(chǎn)投資額（x7），地區(qū)生產(chǎn)總值（x8），第一產(chǎn)業(yè)產(chǎn)值（x9），稅收（x10），居民消費(fèi)價(jià)格指數(shù)（x11），第三產(chǎn)業(yè)與第二產(chǎn)業(yè)產(chǎn)值比（x12），居民消費(fèi)水平（x13）。輸出值：財(cái)政收入總值第四十三頁(yè)，共67頁(yè)。三、財(cái)政收入影響(yǐngxiǎng)因素與預(yù)測(cè)模型第四十四頁(yè)，共67頁(yè)。三、財(cái)政收入影響因素(yīnsù)與預(yù)測(cè)模型1、Adaptive-Lasso變量(biànliàng)選擇模型

通過(guò)相關(guān)系數(shù)，將無(wú)關(guān)變量從輸入值中刪除，綜上所述，影響財(cái)政收入的關(guān)鍵因素是社會(huì)從業(yè)人數(shù)、在崗職工工資、社會(huì)消費(fèi)品零售總額、城鎮(zhèn)居民人均可支配收入、城鎮(zhèn)居民人均消費(fèi)性支出以及全社會(huì)固定資產(chǎn)投資額。將輸入值和輸出值分為(fēnwéi)訓(xùn)練集和測(cè)試集，代入三層的BP神經(jīng)網(wǎng)絡(luò)，預(yù)測(cè)未來(lái)的財(cái)政收入。第四十五頁(yè)，共67頁(yè)。三、財(cái)政收入影響因素與預(yù)測(cè)(yùcè)模型第四十六頁(yè)，共67頁(yè)。四、時(shí)間(shíjiān)序列預(yù)測(cè)法—交通流量預(yù)測(cè)概念：時(shí)間序列預(yù)測(cè)法就是通過(guò)編制和分析時(shí)間序列，根據(jù)時(shí)間序列所反映出來(lái)的發(fā)展過(guò)程、方向和趨勢(shì)，進(jìn)行類推或延伸，借以預(yù)測(cè)下一段時(shí)間或以后若干年內(nèi)可能達(dá)到的水平。其內(nèi)容包括：收集與整理某種社會(huì)現(xiàn)象的歷史資料；對(duì)這些資料進(jìn)行檢查鑒別，排成數(shù)列；分析時(shí)間數(shù)列，從中尋找該社會(huì)現(xiàn)象隨時(shí)間變化而變化的規(guī)律，得出一定(yīdìng)的模式；以此模式去預(yù)測(cè)該社會(huì)現(xiàn)象將來(lái)的情況。常用時(shí)間序列預(yù)測(cè)問(wèn)題，比較常用的方法包括：多元線性回歸預(yù)測(cè)、AR模型預(yù)測(cè)、ARMA模型預(yù)測(cè)、指數(shù)平滑預(yù)測(cè)、小波神經(jīng)網(wǎng)絡(luò)、RNN等第四十七頁(yè)，共67頁(yè)。四、時(shí)間(shíjiān)序列預(yù)測(cè)法—交通流量預(yù)測(cè)步驟：（1）采集4天的交通流浪(liúlàng)數(shù)據(jù)，每隔15分鐘記錄一次，一共記錄384個(gè)時(shí)間點(diǎn)的數(shù)據(jù)（2）用3天共288個(gè)數(shù)據(jù)訓(xùn)練小波神經(jīng)網(wǎng)絡(luò)（3）用訓(xùn)練好的小波神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)第4天的交通流量。第四十八頁(yè)，共67頁(yè)。一、數(shù)據(jù)(shùjù)探索數(shù)據(jù)質(zhì)量分析(fēnxī)數(shù)據(jù)質(zhì)量分析(fēnxī)的主要任務(wù)是檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù)，臟數(shù)據(jù)一般是指不符合要求，以及不能直接進(jìn)行相應(yīng)分析(fēnxī)的數(shù)據(jù)，主要包括：缺失值，異常值，重復(fù)數(shù)據(jù)及含有特殊符號(hào)（如#、￥、%）的數(shù)據(jù)等。（1）缺失值分析(fēnxī)數(shù)據(jù)的缺失主要包括記錄的缺失和記錄中某個(gè)字段信息的缺失原因：數(shù)據(jù)無(wú)法獲??；數(shù)據(jù)遺漏；屬性值不存在影響：丟失信息；增加不確定性，難把握規(guī)律；分析(fēnxī)：使用簡(jiǎn)單的統(tǒng)計(jì)分析(fēnxī)，可以得到含有缺失值的屬性的個(gè)數(shù)，以及每個(gè)屬性的未缺失數(shù)、缺失率等

第四十九頁(yè)，共67頁(yè)。一、數(shù)據(jù)(shùjù)探索

第五十頁(yè)，共67頁(yè)。二、數(shù)據(jù)(shùjù)預(yù)處理數(shù)據(jù)預(yù)處理的主要內(nèi)容包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。數(shù)據(jù)預(yù)處理一方面是要提高數(shù)據(jù)的質(zhì)量，另一方面是要讓數(shù)據(jù)更好地適應(yīng)特定(tèdìng)的挖掘技術(shù)或工具。2.1數(shù)據(jù)清洗數(shù)據(jù)清洗主要是刪除原始數(shù)據(jù)集中的無(wú)關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù)，平滑噪聲數(shù)據(jù)，篩選掉與挖掘主題無(wú)關(guān)的數(shù)據(jù)，處理缺失值、異常值等。清洗內(nèi)容主要包括:缺失數(shù)據(jù)處理、相似重復(fù)對(duì)象檢測(cè)、異常數(shù)據(jù)處理、邏輯錯(cuò)誤檢測(cè)和不一致數(shù)據(jù)等第五十一頁(yè)，共67頁(yè)。二、數(shù)據(jù)(shùjù)預(yù)處理（1）缺失數(shù)據(jù)處理處理缺失值的方法可以分為(fēnwéi)3類：刪除記錄、數(shù)據(jù)插補(bǔ)和不處理。第五十二頁(yè)，共67頁(yè)。（1）刪除數(shù)據(jù)(shùjù)：主要針對(duì)缺失值數(shù)量較少、且刪除數(shù)據(jù)(shùjù)對(duì)整體數(shù)據(jù)(shùjù)幾乎沒(méi)有影響；也可以根據(jù)數(shù)據(jù)(shùjù)缺失挖掘信息.文獻(xiàn)[1]利用5組醫(yī)療數(shù)據(jù)(shùjù)集測(cè)試了缺失數(shù)據(jù)(shùjù)對(duì)于病情陽(yáng)性概率的影響，以及對(duì)分類結(jié)果精確度的影響，并通過(guò)knn、判別分析和樸素貝葉斯3種方法在數(shù)據(jù)(shùjù)缺失不同比例的情況下，對(duì)分類結(jié)果進(jìn)行了分析比較；（2）數(shù)據(jù)(shùjù)插補(bǔ)：屬性間的關(guān)聯(lián)性在缺失值估計(jì)過(guò)程中非常重要，在數(shù)據(jù)(shùjù)挖掘方法中，關(guān)鍵是挖掘?qū)傩蚤g的關(guān)系。數(shù)據(jù)(shùjù)插補(bǔ)的目的在于估計(jì)正確的替代值。文獻(xiàn)[2]提出了基于不完備數(shù)據(jù)(shùjù)聚類的缺失數(shù)據(jù)(shùjù)填補(bǔ)方法，針對(duì)分類變量不完備數(shù)據(jù)(shùjù)集定義約束容差集合差異度，從集合的角度判斷不完備數(shù)據(jù)(shùjù)對(duì)象的總體相異程度，并以不完備數(shù)據(jù)(shùjù)聚類的結(jié)果對(duì)基礎(chǔ)進(jìn)行缺失數(shù)據(jù)(shùjù)的填補(bǔ)。文獻(xiàn)[3]提出一種基于進(jìn)化算法的自適應(yīng)聚類方法,該方法的基本思想是將聚類問(wèn)題轉(zhuǎn)化成一個(gè)全局優(yōu)化問(wèn)題,利用聚類方法填充缺失值。文獻(xiàn)[4]針對(duì)缺失數(shù)據(jù)(shùjù)問(wèn)題，提出了多元回歸方法，彌補(bǔ)一元回歸方法的不足。[1]JuholaM,LaurikkalaJ.Missingvalues:howmanycantheybetopreserveclassificationreliability[J/OL].ArtificialIntelligenceReview,2011.(2011-08-01)[2012-12-28].[2]武森,馮小東,單志廣.基于不完備數(shù)據(jù)(shùjù)聚類的缺失數(shù)據(jù)(shùjù)填補(bǔ)方法[J].計(jì)算機(jī)學(xué)報(bào),2012,35(8):1726-1738.[3]SilvaJA,HruschkaER.Anevolutionaryalgorithmformissingvaluessubstitutioninclassificationtasks[C]∥ProceedingsoftheHAIS′09.Salamanca:Springer,2009:195-202.[4]ZhangShichao,JinZhi,ZhuXiaofeng,etal.Missingdataanalysis:akernel-basedmulti-imputationap-proach[C]∥ProceedingsofTransactionsonComput-ationalScienceIII.Berlin,Heidelberg:Springer,2009:122-142.第五十三頁(yè)，共67頁(yè)。(2)相似重復(fù)對(duì)象檢測(cè) 文獻(xiàn)[5]：鄰近排序算法(SNM)是重復(fù)記錄檢測(cè)的常用方法，該方法基于排序比較的思想文獻(xiàn)[6]：多趟排序；文獻(xiàn)[7]：優(yōu)先隊(duì)列排序文獻(xiàn)[8]：提出了基于N-gram的重復(fù)記錄檢測(cè)方法,并給出了改進(jìn)的優(yōu)先權(quán)隊(duì)列算法以準(zhǔn)確地聚類相似重復(fù)記錄。文獻(xiàn)[9]：用依賴圖的概念(gàiniàn),計(jì)算數(shù)據(jù)表中的關(guān)鍵屬性,根據(jù)關(guān)鍵屬性值將記錄集劃分為小記錄集,在每個(gè)小記錄集中進(jìn)行相似重復(fù)記錄檢測(cè)。文獻(xiàn)[10]：針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的重復(fù)檢測(cè)，介紹了復(fù)雜數(shù)據(jù)實(shí)體識(shí)別的概念(gàiniàn)和應(yīng)用,分別就XML數(shù)據(jù)、圖數(shù)據(jù)和復(fù)雜網(wǎng)絡(luò)上實(shí)體識(shí)別技術(shù)進(jìn)行了討論。[5]張建中,方正,熊擁軍,等.對(duì)基于SNM數(shù)據(jù)清洗算法的優(yōu)化[J].中南大學(xué)學(xué)報(bào):自然科學(xué)版,2010,41(6):2240-2245.[6]MongeAE,ElkanCP.Efficientdomain-independentdetectionofapproximatelyduplicatedatabaserecords[C]∥ProceedingsoftheACM-SIGMODWorkshoponResearchIssuesinKnowledgeDiscoveryandDataMining.Tucson,Arizona:[s.n.]1997.[7]HernándezMA,StolfoSJ.Real-worlddataisdirty:datacleansingandthemerge/purgeproblem[J].DataMiningandKnowledgeDiscovery,1998,2(1):9-37.[8]邱越峰,田增平,季文,等.一種高效的檢測(cè)相似重復(fù)記錄的方法[J].計(jì)算機(jī)學(xué)報(bào),2001,24(1):69-77.[9]龐雄文,姚占林,李擁軍.大數(shù)據(jù)量的高效重復(fù)記錄檢測(cè)方法[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2010,38(2):8-11.[10]王宏志,樊文飛.復(fù)雜數(shù)據(jù)上的實(shí)體識(shí)別技術(shù)研究[J].計(jì)算機(jī)學(xué)報(bào),2011,34(10):1843-1852.第五十四頁(yè)，共67頁(yè)。二、數(shù)據(jù)(shùjù)預(yù)處理補(bǔ)充：基于N-gram的重復(fù)記錄檢測(cè)方法(fāngfǎ)：給每個(gè)記錄賦一個(gè)N-gram值,以該值為鍵來(lái)對(duì)數(shù)據(jù)中的記錄進(jìn)行排序。在一賦值時(shí)必須盡可能地使相似程度越高的記錄的一價(jià)帥值越接近,以保證通過(guò)對(duì)值排序之后它們將被聚到鄰近的區(qū)域。所謂記錄的田值是根據(jù)記錄的內(nèi)容并參照全局統(tǒng)計(jì)信息而計(jì)算出的一個(gè)表示記錄特征的整數(shù)值?；窘徟判蛩惴?SNM)：（1）創(chuàng)建排序關(guān)鍵字；（2）排序，盡可能的使?jié)撛诘目赡艿闹貜?fù)記錄調(diào)整到一個(gè)鄰近的區(qū)域內(nèi)；（3）合并，在排序后的數(shù)據(jù)集上滑動(dòng)一個(gè)固定大小的窗口,重復(fù)比較，將數(shù)據(jù)合并。第五十五頁(yè)，共67頁(yè)。二、數(shù)據(jù)(shùjù)預(yù)處理(3)異常數(shù)據(jù)處理異常數(shù)據(jù)的探測(cè)主要有基于統(tǒng)計(jì)學(xué)、基于距離和基于偏離3類方法。文獻(xiàn)[11]：采用數(shù)據(jù)審計(jì)的方法實(shí)現(xiàn)異常數(shù)據(jù)的自動(dòng)化檢測(cè)，稱為數(shù)據(jù)質(zhì)量挖掘，由2步構(gòu)成：(1)采用數(shù)理統(tǒng)計(jì)方法對(duì)數(shù)據(jù)分布進(jìn)行概化描述,自動(dòng)獲得數(shù)據(jù)的總體分布特征;(2)針對(duì)特定的數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行挖掘以發(fā)現(xiàn)數(shù)據(jù)異常。文獻(xiàn)[12]:將數(shù)據(jù)按距離劃分為不同的層,在每一層統(tǒng)計(jì)數(shù)據(jù)特征,再根據(jù)定義(dìngyì)的距離計(jì)算各數(shù)據(jù)點(diǎn)和中心距離的遠(yuǎn)近來(lái)判斷異常是否存在。（聚類）文獻(xiàn)[13]：基于關(guān)聯(lián)方法，將置信度和支持度很低的點(diǎn)視為異常點(diǎn)。[11]HippJ,GuntzerU,GrimmerU.Dataqualitymining:makingavirtueofnecessity[C]∥ProceedingsofWorkshoponResearchIssuesinDataMiningandKnowledgeDiscovery.SantaBarbara:[s.n.],2001.[12]DasuT,JohnsonT.Huntingofthesnark:findingdataglitchesusingdataminingmethods[C]∥Proceedingsofthe1999ConferenceofInformationQuality.Cam-bridge:[s.n.],1999.[13]Kimball,R.DealingwithdirtyData.DBMS,vol.9,NO.10,September1996,pp.55第五十六頁(yè)，共67頁(yè)。二、數(shù)據(jù)(shùjù)預(yù)處理(3)異常(yìcháng)數(shù)據(jù)處理在很多情況下，要先分析(fēnxī)異常值出現(xiàn)的可能原因，再判斷異常值是否應(yīng)該舍棄，如果是正確的數(shù)據(jù)，可以直接在具有異常值的數(shù)據(jù)集上進(jìn)行挖掘建模。第五十七頁(yè)，共67頁(yè)。二、數(shù)據(jù)(shùjù)預(yù)處理2.2數(shù)據(jù)集成數(shù)據(jù)挖掘需要的數(shù)據(jù)往往分布在不同的數(shù)據(jù)源中，數(shù)據(jù)集成就是將多個(gè)數(shù)據(jù)源合并存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)（如數(shù)據(jù)庫(kù)）中的過(guò)程。（1）實(shí)體識(shí)別實(shí)體識(shí)別是指從不同數(shù)據(jù)源識(shí)別出現(xiàn)實(shí)世界的實(shí)體，任務(wù)是統(tǒng)一不同數(shù)據(jù)源的矛盾之處，例如：同名異義；異名同義；單位不統(tǒng)一。（2）冗余(rǒnɡyú)屬性識(shí)別數(shù)據(jù)集成往往導(dǎo)致數(shù)據(jù)冗余(rǒnɡyú)，例如：同一屬性多次出現(xiàn)；同一屬性命名不一致導(dǎo)致重復(fù)。仔細(xì)整合不同源數(shù)據(jù)能減少甚至避免數(shù)據(jù)冗余(rǒnɡyú)與不一致，對(duì)于冗余(rǒnɡyú)屬性要先分析，檢測(cè)到后再將其刪除。第五十八頁(yè)，共67頁(yè)。二、數(shù)據(jù)(shùjù)預(yù)處理2.2數(shù)據(jù)集成目前(mùqián),常用的消除數(shù)據(jù)不一致的方法有排序、融合和基于規(guī)則3種方法。文獻(xiàn)[14]：使用了鄰近排序的方法,根據(jù)定義的關(guān)鍵碼對(duì)數(shù)據(jù)集進(jìn)行排序,使可匹配的記錄在位置上臨近,并檢測(cè)數(shù)據(jù)中的不一致。文獻(xiàn)[15]：從不同的特征評(píng)估每個(gè)數(shù)值,通過(guò)線性組合各特征值得到整體評(píng)估值,再根據(jù)評(píng)估值確定正確值。[14]HernándezMA,StolfoSJ.Real-worlddataisdirty:datacleansingandthemerge/purgeproblem[J].

人人文庫(kù)> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

機(jī)器學(xué)習(xí)算法介紹

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

機(jī)器學(xué)習(xí)算法介紹

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔