版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第第頁機(jī)器學(xué)習(xí)考試題目答案簡(jiǎn)描述機(jī)器學(xué)習(xí)概念?TomMitchell:“對(duì)于某類任務(wù)T和性能度量P,如果一個(gè)計(jì)算機(jī)程序在T上以P衡量的性能隨著經(jīng)驗(yàn)E而自我完善,那么我們稱這個(gè)計(jì)算機(jī)程序在從經(jīng)驗(yàn)E學(xué)習(xí)。”我們遇到的大部分事情一般包括分類問題與回歸問題。如房?jī)r(jià)的預(yù)測(cè),股價(jià)的預(yù)測(cè)等屬于分類問題。一般的處理過程是:首先,1)獲取數(shù)據(jù);2)提取最能體現(xiàn)數(shù)據(jù)的特征;3)利用算法建模;4)將建立的模型用于預(yù)測(cè)。如人臉識(shí)別系統(tǒng),首先我們獲取到一堆人臉照片,首先,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,然后提取人臉特征,最后用算法如SVM或者NN等。這樣,我們就建立了一個(gè)人臉識(shí)別系統(tǒng),當(dāng)輸入一張人臉,我們就知道這張面孔是否在系統(tǒng)中。這就是機(jī)器學(xué)習(xí)的整個(gè)流程,其次還包括尋找最優(yōu)參數(shù)等。機(jī)器學(xué)習(xí)主要分為:監(jiān)督學(xué)習(xí):數(shù)據(jù)集是有標(biāo)簽的,大部分機(jī)器學(xué)習(xí)模型都屬于這一類別,包括線性分類器、支持向量機(jī)等等;無監(jiān)督學(xué)習(xí):跟監(jiān)督學(xué)習(xí)相反,數(shù)據(jù)集是完全沒有標(biāo)簽的,主要的依據(jù)是相似的樣本在數(shù)據(jù)空間中一般距離是相近的,這樣就能通過距離的計(jì)算把樣本分類,這樣就完全不需要label,比如著名的kmeans算法就是無監(jiān)督學(xué)習(xí)應(yīng)用最廣泛的算法;半監(jiān)督學(xué)習(xí):半監(jiān)督學(xué)習(xí)一般針對(duì)的問題是數(shù)據(jù)量超級(jí)大但是有標(biāo)簽數(shù)據(jù)很少或者說標(biāo)簽數(shù)據(jù)的獲取很難很貴的情況,訓(xùn)練的時(shí)候有一部分是有標(biāo)簽的而有一部分是沒有的;強(qiáng)化學(xué)習(xí):一直激勵(lì)學(xué)習(xí)的方式,通過激勵(lì)函數(shù)來讓模型不斷根據(jù)遇到的情況做出調(diào)整;循環(huán)神經(jīng)網(wǎng)絡(luò)的基本原理?RNNs的目的是用來處理序列數(shù)據(jù)。在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型中,是從輸入層到隱含層再到輸出層,層與層之間是全連接的,每層之間的節(jié)點(diǎn)是無連接的。但是這種普通的神經(jīng)網(wǎng)絡(luò)對(duì)于很多問題卻無能無力。例如,你要預(yù)測(cè)句子的下一個(gè)單詞是什么,一般需要用到前面的單詞,因?yàn)橐粋€(gè)句子中前后單詞并不是獨(dú)立的。RNNs之所以稱為循環(huán)神經(jīng)網(wǎng)路,即一個(gè)序列當(dāng)前的輸出與前面的輸出也有關(guān)。具體的表現(xiàn)形式為網(wǎng)絡(luò)會(huì)對(duì)前面的信息進(jìn)行記憶并應(yīng)用于當(dāng)前輸出的計(jì)算中,即隱藏層之間的節(jié)點(diǎn)不再無連接而是有連接的,并且隱藏層的輸入不僅包括輸入層的輸出還包括上一時(shí)刻隱藏層的輸出。理論上,RNNs能夠?qū)θ魏伍L(zhǎng)度的序列數(shù)據(jù)進(jìn)行處理。但是在實(shí)踐中,為了降低復(fù)雜性往往假設(shè)當(dāng)前的狀態(tài)只與前面的幾個(gè)狀態(tài)相關(guān),下圖便是一個(gè)典型的RNNs:
(注:下面兩張圖片僅為了幫助你理解RNN,考試不必作答)RNNs包含輸入單元(Inputunits),輸入集標(biāo)記為{x0,x1,...,xt,xt+1,...},而輸出單元(Outputunits)的輸出集則被標(biāo)記為{y0,y1,...,yt,yt+1.,..}。RNNs還包含隱藏單元(Hiddenunits),我們將其輸出集標(biāo)記為{s0,s1,...,st,st+1,...},這些隱藏單元完成了最為主要的工作。你會(huì)發(fā)現(xiàn),在圖中:在RNN中有一條單向流動(dòng)的信息流是從輸入單元到達(dá)隱藏單元的,與此同時(shí)另一條單向流動(dòng)的信息流從隱藏單元到達(dá)輸出單元。在某些情況下,RNNs會(huì)打破后者的限制,引導(dǎo)信息從輸出單元返回隱藏單元,這些被稱為“BackProjections”,并且隱藏層的輸入還包括上一隱藏層的狀態(tài),即隱藏層內(nèi)的節(jié)點(diǎn)可以自連也可以互連。
上圖將循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行展開成一個(gè)全神經(jīng)網(wǎng)絡(luò)。例如,對(duì)一個(gè)包含5個(gè)單詞的語句,那么展開的網(wǎng)絡(luò)便是一個(gè)五層的神經(jīng)網(wǎng)絡(luò),每一層代表一個(gè)單詞。對(duì)于該網(wǎng)絡(luò)的計(jì)算過程如下:xt表示第t,t=1,2,3...步(step)的輸入。比如,x1為第二個(gè)詞的one-hot向量(根據(jù)上圖,x0為第一個(gè)詞);
st為隱藏層的第t步的狀態(tài),它是網(wǎng)絡(luò)的記憶單元。
st根據(jù)當(dāng)前輸入層的輸出與上一步隱藏層的狀態(tài)進(jìn)行計(jì)算。st=f(Uxt+Wst?1),其中f一般是非線性的激活函數(shù),如tanh或ReLU,在計(jì)算s0時(shí),即第一個(gè)單詞的隱藏層狀態(tài),需要用到s?1,但是其并不存在,在實(shí)現(xiàn)中一般置為0向量;ot是第t步的輸出,如下個(gè)單詞的向量表示,ot=softmax(Vst).
需要注意的是:你可以認(rèn)為隱藏層狀態(tài)st是網(wǎng)絡(luò)的記憶單元.
st包含了前面所有步的隱藏層狀態(tài)。而輸出層的輸出ot只與當(dāng)前步的st有關(guān),在實(shí)踐中,為了降低網(wǎng)絡(luò)的復(fù)雜度,往往st只包含前面若干步而不是所有步的隱藏層狀態(tài);在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中,每一個(gè)網(wǎng)絡(luò)層的參數(shù)是不共享的。而在RNNs中,每輸入一步,每一層各自都共享參數(shù)U,V,W。其反應(yīng)者RNNs中的每一步都在做相同的事,只是輸入不同,因此大大地降低了網(wǎng)絡(luò)中需要學(xué)習(xí)的參數(shù);這里并沒有說清楚,解釋一下,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的參數(shù)是不共享的,并不是表示對(duì)于每個(gè)輸入有不同的參數(shù),而是將RNN是進(jìn)行展開,這樣變成了多層的網(wǎng)絡(luò),如果這是一個(gè)多層的傳統(tǒng)神經(jīng)網(wǎng)絡(luò),那么xt到st之間的U矩陣與xt+1到st+1之間的U是不同的,而RNNs中的卻是一樣的,同理對(duì)于s與s層之間的W、s層與o層之間的V也是一樣的。上圖中每一步都會(huì)有輸出,但是每一步都要有輸出并不是必須的。比如,我們需要預(yù)測(cè)一條語句所表達(dá)的情緒,我們僅僅需要關(guān)系最后一個(gè)單詞輸入后的輸出,而不需要知道每個(gè)單詞輸入后的輸出。同理,每步都需要輸入也不是必須的。RNNs的關(guān)鍵之處在于隱藏層,隱藏層能夠捕捉序列的信息。卷積神經(jīng)網(wǎng)絡(luò)的基本原理?受Hubel和Wiesel對(duì)貓視覺皮層電生理研究啟發(fā),有人提出卷積神經(jīng)網(wǎng)絡(luò)(CNN),YannLecun最早將CNN用于手寫數(shù)字識(shí)別并一直保持了其在該問題的霸主地位。近年來卷積神經(jīng)網(wǎng)絡(luò)在多個(gè)方向持續(xù)發(fā)力,在語音識(shí)別、人臉識(shí)別、通用物體識(shí)別、運(yùn)動(dòng)分析、自然語言處理甚至腦電波分析方面均有突破。卷積神經(jīng)網(wǎng)絡(luò)與普通神經(jīng)網(wǎng)絡(luò)的區(qū)別在于,卷積神經(jīng)網(wǎng)絡(luò)包含了一個(gè)由卷積層和子采樣層構(gòu)成的特征抽取器。在卷積神經(jīng)網(wǎng)絡(luò)的卷積層中,一個(gè)神經(jīng)元只與部分鄰層神經(jīng)元連接。在CNN的一個(gè)卷積層中,通常包含若干個(gè)特征平面(featureMap),每個(gè)特征平面由一些矩形排列的神經(jīng)元組成,同一特征平面的神經(jīng)元共享權(quán)值,這里共享的權(quán)值就是卷積核。卷積核一般以隨機(jī)小數(shù)矩陣的形式初始化,在網(wǎng)絡(luò)的訓(xùn)練過程中卷積核將學(xué)習(xí)得到合理的權(quán)值。共享權(quán)值(卷積核)帶來的直接好處是減少網(wǎng)絡(luò)各層之間的連接,同時(shí)又降低了過擬合的風(fēng)險(xiǎn)。子采樣也叫做池化(pooling),通常有均值子采樣(meanpooling)和最大值子采樣(maxpooling)兩種形式。子采樣可以看作一種特殊的卷積過程。卷積和子采樣大大簡(jiǎn)化了模型復(fù)雜度,減少了模型的參數(shù)。下面介紹幾個(gè)重要操作:局部感受野卷積神經(jīng)網(wǎng)絡(luò)有兩種神器可以降低參數(shù)數(shù)目,第一種神器叫做局部感知野。一般認(rèn)為人對(duì)外界的認(rèn)知是從局部到全局的,而圖像的空間聯(lián)系也是局部的像素聯(lián)系較為緊密,而距離較遠(yuǎn)的像素相關(guān)性則較弱。因而,每個(gè)神經(jīng)元其實(shí)沒有必要對(duì)全局圖像進(jìn)行感知,只需要對(duì)局部進(jìn)行感知,然后在更高層將局部的信息綜合起來就得到了全局的信息。網(wǎng)絡(luò)部分連通的思想,也是受啟發(fā)于生物學(xué)里面的視覺系統(tǒng)結(jié)構(gòu)。視覺皮層的神經(jīng)元就是局部接受信息的(即這些神經(jīng)元只響應(yīng)某些特定區(qū)域的刺激)。在一個(gè)全連接網(wǎng)絡(luò)中假如有1000000個(gè)神經(jīng)元,則參數(shù)共有10^12個(gè),假如每個(gè)神經(jīng)元只和10×10個(gè)像素值相連,那么權(quán)值數(shù)據(jù)為1000000×100個(gè)參數(shù),減少為原來的萬分之一。而那10×10個(gè)像素值對(duì)應(yīng)的10×10個(gè)參數(shù),其實(shí)就相當(dāng)于卷積操作。權(quán)值共享
但其實(shí)這樣的話參數(shù)仍然過多,那么就啟動(dòng)第二級(jí)神器,即權(quán)值共享。在上面的局部連接中,每個(gè)神經(jīng)元都對(duì)應(yīng)100個(gè)參數(shù),一共1000000個(gè)神經(jīng)元,如果這1000000個(gè)神經(jīng)元的100個(gè)參數(shù)都是相等的,那么參數(shù)數(shù)目就變?yōu)?00了。
怎么理解權(quán)值共享呢?我們可以這100個(gè)參數(shù)(也就是卷積操作)看成是提取特征的方式,該方式與位置無關(guān)。這其中隱含的原理則是:圖像的一部分的統(tǒng)計(jì)特性與其他部分是一樣的。這也意味著我們?cè)谶@一部分學(xué)習(xí)的特征也能用在另一部分上,所以對(duì)于這個(gè)圖像上的所有位置,我們都能使用同樣的學(xué)習(xí)特征。
更直觀一些,當(dāng)從一個(gè)大尺寸圖像中隨機(jī)選取一小塊,比如說8x8作為樣本,并且從這個(gè)小塊樣本中學(xué)習(xí)到了一些特征,這時(shí)我們可以把從這個(gè)8x8樣本中學(xué)習(xí)到的特征作為探測(cè)器,應(yīng)用到這個(gè)圖像的任意地方中去。特別是,我們可以用從8x8樣本中所學(xué)習(xí)到的特征跟原本的大尺寸圖像作卷積,從而對(duì)這個(gè)大尺寸圖像上的任一位置獲得一個(gè)不同特征的激活值。
多卷積核上面所述只有100個(gè)參數(shù)時(shí),表明只有1個(gè)10*10的卷積核,顯然,特征提取是不充分的,我們可以添加多個(gè)卷積核,比如32個(gè)卷積核,可以學(xué)習(xí)32種特征。Down-pooling在通過卷積獲得了特征(features)之后,下一步我們希望利用這些特征去做分類。理論上講,人們可以用所有提取得到的特征去訓(xùn)練分類器,例如softmax分類器,但這樣做面臨計(jì)算量的挑戰(zhàn)。例如:對(duì)于一個(gè)96X96像素的圖像,假設(shè)我們已經(jīng)學(xué)習(xí)得到了400個(gè)定義在8X8輸入上的特征,每一個(gè)特征和圖像卷積都會(huì)得到一個(gè)(96?8+1)×(96?8+1)=7921維的卷積特征,由于有400個(gè)特征,所以每個(gè)樣例(example)都會(huì)得到一個(gè)7921×400=3,168,400維的卷積特征向量。學(xué)習(xí)一個(gè)擁有超過3百萬特征輸入的分類器十分不便,并且容易出現(xiàn)過擬合(over-fitting)。為了解決這個(gè)問題,首先回憶一下,我們之所以決定使用卷積后的特征是因?yàn)閳D像具有一種“靜態(tài)性”的屬性,這也就意味著在一個(gè)圖像區(qū)域有用的特征極有可能在另一個(gè)區(qū)域同樣適用。因此,為了描述大的圖像,一個(gè)很自然的想法就是對(duì)不同位置的特征進(jìn)行聚合統(tǒng)計(jì),例如,人們可以計(jì)算圖像一個(gè)區(qū)域上的某個(gè)特定特征的平均值(或最大值)。這些概要統(tǒng)計(jì)特征不僅具有低得多的維度(相比使用所有提取得到的特征),同時(shí)還會(huì)改善結(jié)果(不容易過擬合)。這種聚合的操作就叫做池化(pooling),有時(shí)也稱為平均池化或者最大池化(取決于計(jì)算池化的方法)。子采樣有兩種形式,一種是均值子采樣(mean-pooling),一種是最大值子采樣(max-pooling)。兩種子采樣看成特殊的卷積過程:
(1)均值子采樣的卷積核中每個(gè)權(quán)重都是0.25,卷積核在原圖inputX上的滑動(dòng)的步長(zhǎng)為2。均值子采樣的效果相當(dāng)于把原圖模糊縮減至原來的1/4。
(2)最大值子采樣的卷積核中各權(quán)重值中只有一個(gè)為1,其余均為0,卷積核中為1的位置對(duì)應(yīng)inputX被卷積核覆蓋部分值最大的位置。卷積核在原圖inputX上的滑動(dòng)步長(zhǎng)為2。最大值子采樣的效果是把原圖縮減至原來的1/4,并保留每個(gè)2*2區(qū)域的最強(qiáng)輸入。深度神經(jīng)網(wǎng)絡(luò)(循環(huán)神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò))訓(xùn)練主要難點(diǎn)在哪里?如何解決?1、神經(jīng)網(wǎng)絡(luò)的難點(diǎn)使用層數(shù)較深的神經(jīng)網(wǎng)絡(luò)會(huì)遇到許多困難,比如:容易過擬合、參數(shù)難以調(diào)試、梯度彌漫等,針對(duì)這些問題有很多trick解決。2、過擬合過擬合是機(jī)器學(xué)習(xí)中經(jīng)常遇到的問題,它是指模型預(yù)測(cè)準(zhǔn)確率在訓(xùn)練集上升高,但是在測(cè)試集上反而下降了,這意味著泛化性不好,模型只是記憶了當(dāng)前數(shù)據(jù)的特征,不具備推廣能力。Hinton教授團(tuán)隊(duì)提出了一個(gè)思路簡(jiǎn)單但非常有效的方法:Dropout。其思路為:在訓(xùn)練時(shí),將神經(jīng)網(wǎng)絡(luò)某一層的輸出節(jié)點(diǎn)數(shù)據(jù)隨機(jī)丟棄一部分,這樣做法的實(shí)質(zhì)等于創(chuàng)造出了很多新的隨機(jī)樣本,通過增大樣本量、減少特征數(shù)量來防止過擬合。PS:在測(cè)試時(shí),不要Dropout。3、參數(shù)難以調(diào)試尤其是SGD的參數(shù),對(duì)SGD設(shè)置不同的學(xué)習(xí)速率,最后得到的結(jié)果可能差異巨大,因?yàn)椴煌膶W(xué)習(xí)速率可能導(dǎo)致神經(jīng)網(wǎng)絡(luò)落入截然不同的局部最優(yōu)之中。因此,有很多像Adagradm,Adam,Adadelta等自適應(yīng)的方法可以減輕調(diào)試參數(shù)的壓力,對(duì)于這些優(yōu)化算法,通常我們使用它們默認(rèn)的參數(shù)就可取得較好的結(jié)果。4、梯度彌散在ReLU激活函數(shù)出現(xiàn)之前,都是采用Sigmoid激活函數(shù)的。但是當(dāng)網(wǎng)絡(luò)層數(shù)較多時(shí),Sigmoid函數(shù)在反向傳播中梯度值會(huì)逐漸減小,經(jīng)過多層的傳遞后會(huì)呈指數(shù)級(jí)急劇減小。ReLU能夠完美地解決梯度彌散問題,它是一個(gè)非常簡(jiǎn)單的非線性函數(shù)y=max(0,x),經(jīng)過多層的反向傳播,梯度依舊不會(huì)大幅減小,該函數(shù)從正面解決了梯度彌散的問題,而不需要通過無監(jiān)督的逐層訓(xùn)練初始化權(quán)重來繞行。ReLU相比于Sigmoid函數(shù)的主要變化有如下3點(diǎn):(1)單側(cè)抑制(2)相對(duì)寬闊的興奮邊界(3)稀疏激活性在工業(yè)應(yīng)用場(chǎng)景中,面對(duì)一個(gè)要解決的問題(分類、回歸或者結(jié)構(gòu)化預(yù)測(cè)),在給出解決方案前,你會(huì)考慮哪些因素? 針對(duì)數(shù)據(jù):該領(lǐng)域提供的歷史數(shù)據(jù)集容量大小相關(guān)數(shù)據(jù)的可區(qū)分性相關(guān)數(shù)據(jù)是否為時(shí)序相關(guān)的數(shù)據(jù)的質(zhì)量如何(有無噪聲數(shù)據(jù)或者數(shù)值缺失情況)給定歷史數(shù)據(jù)中是否存在私密信息數(shù)據(jù)是否符合某些已知的分布針對(duì)應(yīng)用場(chǎng)合:考慮項(xiàng)目的背景,分析希望算法的準(zhǔn)確率高還是召回率高考慮目前的設(shè)備情況,盡量選擇設(shè)備能夠承受的計(jì)算復(fù)雜算法查閱文獻(xiàn),是否有應(yīng)用于相關(guān)領(lǐng)域的較好的算法如果實(shí)驗(yàn)數(shù)據(jù)集中部分樣本帶有噪聲,部分?jǐn)?shù)值缺失,你如何處理?對(duì)于本題目的兩個(gè)內(nèi)容屬于機(jī)器學(xué)習(xí)中的數(shù)據(jù)清洗部分,在數(shù)據(jù)收集的過程中,由于人為失誤或者機(jī)器的異常導(dǎo)致收集到的數(shù)據(jù)集中參雜不完整數(shù)據(jù),以上兩類數(shù)據(jù)都屬于不完整數(shù)據(jù),因此在實(shí)驗(yàn)正式開始前需要對(duì)數(shù)據(jù)集進(jìn)行清洗,以去掉上述的不完整數(shù)據(jù)。針對(duì)上述的兩個(gè)問題,具體的解決方案如下所述:一、數(shù)據(jù)集中部分樣本帶有噪聲對(duì)于包含噪聲的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,主要包含以下兩步:(1)發(fā)現(xiàn)那些數(shù)據(jù)是噪聲(2)對(duì)已發(fā)現(xiàn)的噪聲數(shù)據(jù)進(jìn)行修復(fù)發(fā)現(xiàn)噪聲數(shù)據(jù)的方法:1.簡(jiǎn)單的統(tǒng)計(jì)分析拿到數(shù)據(jù)后可以對(duì)數(shù)據(jù)進(jìn)行一個(gè)簡(jiǎn)單的描述性統(tǒng)計(jì)分析,譬如最大最小值可以用來判斷這個(gè)變量的取值是否超過了合理的范圍,如客戶的年齡為-20歲或200歲,顯然是不合常理的,為異常值。2.3?原則如果數(shù)據(jù)服從正態(tài)分布,在3?原則下,異常值為一組測(cè)定值中與平均值的偏差超過3倍標(biāo)準(zhǔn)差的值。如果數(shù)據(jù)服從正態(tài)分布,距離平均值3?之外的值出現(xiàn)的概率為P(|x-u|>3?)<=0.003,屬于極個(gè)別的小概率事件。如果數(shù)據(jù)不服從正態(tài)分布,也可以用遠(yuǎn)離平均值的多少倍標(biāo)準(zhǔn)差來描述。3.箱型圖分析箱型圖提供了識(shí)別異常值的一個(gè)標(biāo)準(zhǔn):如果一個(gè)值小于QL01.5IQR或大于OU-1.5IQR的值,則被稱為異常值。QL為下四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)取值比它?。籕U為上四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)取值比它大;IQR為四分位數(shù)間距,是上四分位數(shù)QU與下四分位數(shù)QL的差值,包含了全部觀察值的一半。箱型圖判斷異常值的方法以四分位數(shù)和四分位距為基礎(chǔ),四分位數(shù)具有魯棒性:25%的數(shù)據(jù)可以變得任意遠(yuǎn)并且不會(huì)干擾四分位數(shù),所以異常值不能對(duì)這個(gè)標(biāo)準(zhǔn)施加影響。因此箱型圖識(shí)別異常值比較客觀,在識(shí)別異常值時(shí)有一定的優(yōu)越性。4.基于模型檢測(cè)首先建立一個(gè)數(shù)據(jù)模型,異常是那些同模型不能完美擬合的對(duì)象;如果模型是簇的集合,則異常是不顯著屬于任何簇的對(duì)象;在使用回歸模型時(shí),異常是相對(duì)遠(yuǎn)離預(yù)測(cè)值的對(duì)象優(yōu)缺點(diǎn):1.有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)理論基礎(chǔ),當(dāng)存在充分的數(shù)據(jù)和所用的檢驗(yàn)類型的知識(shí)時(shí),這些檢驗(yàn)可能非常有效;2.對(duì)于多元數(shù)據(jù),可用的選擇少一些,并且對(duì)于高維數(shù)據(jù),這些檢測(cè)可能性很差。 5.基于距離通??梢栽趯?duì)象之間定義鄰近性度量,異常對(duì)象是那些遠(yuǎn)離其他對(duì)象的對(duì)象優(yōu)缺點(diǎn):1.簡(jiǎn)單;2.缺點(diǎn):基于鄰近度的方法需要O(m2)時(shí)間,大數(shù)據(jù)集不適用;3.該方法對(duì)參數(shù)的選擇也是敏感的;4.不能處理具有不同密度區(qū)域的數(shù)據(jù)集,因?yàn)樗褂萌珠撝担荒芸紤]這種密度的變化。 6.基于密度當(dāng)一個(gè)點(diǎn)的局部密度顯著低于它的大部分近鄰時(shí)才將其分類為離群點(diǎn)。適合非均勻分布的數(shù)據(jù)。優(yōu)缺點(diǎn):1.給出了對(duì)象是離群點(diǎn)的定量度量,并且即使數(shù)據(jù)具有不同的區(qū)域也能夠很好的處理;2.與基于距離的方法一樣,這些方法必然具有O(m2)的時(shí)間復(fù)雜度。對(duì)于低維數(shù)據(jù)使用特定的數(shù)據(jù)結(jié)構(gòu)可以達(dá)到O(mlogm);3.參數(shù)選擇困難。雖然算法通過觀察不同的k值,取得最大離群點(diǎn)得分來處理該問題,但是,仍然需要選擇這些值的上下界。 7.基于聚類基于聚類的離群點(diǎn):一個(gè)對(duì)象是基于聚類的離群點(diǎn),如果該對(duì)象不強(qiáng)屬于任何簇。離群點(diǎn)對(duì)初始聚類的影響:如果通過聚類檢測(cè)離群點(diǎn),則由于離群點(diǎn)影響聚類,存在一個(gè)問題:結(jié)構(gòu)是否有效。為了處理該問題,可以使用如下方法:對(duì)象聚類,刪除離群點(diǎn),對(duì)象再次聚類(這個(gè)不能保證產(chǎn)生最優(yōu)結(jié)果)。優(yōu)缺點(diǎn):1.基于線性和接近線性復(fù)雜度(k均值)的聚類技術(shù)來發(fā)現(xiàn)離群點(diǎn)可能是高度有效的;2.簇的定義通常是離群點(diǎn)的補(bǔ),因此可能同時(shí)發(fā)現(xiàn)簇和離群點(diǎn);3.產(chǎn)生的離群點(diǎn)集和它們的得分可能非常依賴所用的簇的個(gè)數(shù)和數(shù)據(jù)中離群點(diǎn)的存在性;4.聚類算法產(chǎn)生的簇的質(zhì)量對(duì)該算法產(chǎn)生的離群點(diǎn)的質(zhì)量影響非常大。 數(shù)據(jù)集中的異常點(diǎn)的處理方法: 1.刪除異常值明
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年有機(jī)硅、有機(jī)硅橡膠項(xiàng)目立項(xiàng)申請(qǐng)報(bào)告模板
- 雙十二品牌活動(dòng)策劃
- 病房床位設(shè)置安排方案
- 病區(qū)環(huán)境安全質(zhì)控方案
- 病人呼救器課程設(shè)計(jì)
- 班級(jí)節(jié)日課程設(shè)計(jì)
- 班級(jí)安全工作方案
- 玻璃鏡頭行業(yè)研究報(bào)告
- 玻璃護(hù)欄防塵措施方案
- 玻璃加工設(shè)備改造方案
- 倉儲(chǔ)物流中心物業(yè)安全管理
- 醫(yī)療器械注冊(cè)專員培訓(xùn)
- 期末復(fù)習(xí)重要考點(diǎn)03 《一元一次方程》十大考點(diǎn)題型(熱點(diǎn)題型+限時(shí)測(cè)評(píng))(原卷版)
- 生物丨金太陽(25-69C)廣東省2025屆高三10月大聯(lián)考生物試卷及答案
- 期中測(cè)試卷(試題)2024-2025學(xué)年人教版數(shù)學(xué)三年級(jí)上冊(cè)
- 車隊(duì)車輛掛靠合同模板
- 期中 (試題) -2024-2025學(xué)年人教PEP版英語四年級(jí)上冊(cè)
- 動(dòng)物疫病防治員(高級(jí))理論考試題及答案
- 跨境電商行業(yè)研究框架專題報(bào)告
- 托育服務(wù)中心項(xiàng)目可行性研究報(bào)告
- 提升初中生英語寫作
評(píng)論
0/150
提交評(píng)論