




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第三章數(shù)據(jù)準(zhǔn)備【學(xué)習(xí)目標(biāo)】
理解數(shù)據(jù)準(zhǔn)備工作的步驟;了解數(shù)據(jù)的不同類型;理解數(shù)據(jù)處理的主要方法。3.1數(shù)據(jù)準(zhǔn)備的基本知識(shí)數(shù)據(jù)的問題1.數(shù)據(jù)的不完全性:數(shù)據(jù)缺少特征或者包含缺失值;2.數(shù)據(jù)噪聲:數(shù)據(jù)包含錯(cuò)誤的記錄或者異常值;3.數(shù)據(jù)不一致性:數(shù)據(jù)包含沖突的記錄或者差異。哪種問題影響分析1.非法值:一些數(shù)據(jù)集包含一些明顯的值:例如性別只能是男或女,上面的例子很容易發(fā)現(xiàn)錯(cuò)誤。2.格式:最常見的問題。可能獲得不同格式的值比如名字寫成:“姓名,xxx”或者“xxx姓名”。3.特征依賴:一個(gè)特征的值依賴于另一個(gè)特征。例如:如果我們有一些學(xué)校數(shù)據(jù),學(xué)生的數(shù)量與這個(gè)人是否是教師有關(guān)。如果某個(gè)人不是教師,他不可能有一些學(xué)生。4.唯一性:很可能發(fā)現(xiàn)只允許唯一值得數(shù)據(jù)重復(fù)。例如:我們的兩個(gè)產(chǎn)品不能有兩個(gè)身份ID。5.缺失值:數(shù)據(jù)集的一些特征的值可能是空白或者缺失的。6.拼寫錯(cuò)誤:主要指英文等字符串拼寫的錯(cuò)誤。7.錯(cuò)位值:一個(gè)特征的值包含另一個(gè)特征。數(shù)據(jù)準(zhǔn)備3.2數(shù)據(jù)類型及處理方式
數(shù)據(jù)(data),是事實(shí)或觀察的結(jié)果,是對(duì)客觀事物的邏輯歸納,是用于表示客觀事物的未經(jīng)加工的原始素材。數(shù)據(jù)可以是連續(xù)的值,比如聲音、圖像,稱為模擬數(shù)據(jù)。也可以是離散的,如符號(hào)、文字,稱為數(shù)字?jǐn)?shù)據(jù)。數(shù)據(jù)分析的基礎(chǔ)是數(shù)據(jù)分類,不同類型的數(shù)據(jù)有不同的處理方式。數(shù)據(jù)分類就是把具有某種共同屬性或特征的數(shù)據(jù)歸并在一起,通過其類別的屬性或特征來對(duì)數(shù)據(jù)進(jìn)行區(qū)別。換句話說,就是相同內(nèi)容、相同性質(zhì)的信息以及要求統(tǒng)一管理的信息集合在一起,而把相異的和需要分別管理的信息區(qū)分開來,然后確定各個(gè)集合之間的關(guān)系,形成一個(gè)有條理的分類系統(tǒng)一.統(tǒng)計(jì)計(jì)量角度的數(shù)據(jù)類型
測(cè)定層次特
征運(yùn)算功能舉
例定類測(cè)定分類頻數(shù)和頻率產(chǎn)業(yè)分類定序測(cè)定分類、排序計(jì)數(shù)、排序企業(yè)等級(jí)定距測(cè)定分類、排序、有基本測(cè)量單位計(jì)數(shù)、排序、加減產(chǎn)品質(zhì)量差異定比測(cè)定分類、排序、有基本測(cè)量單位、有絕對(duì)零點(diǎn)計(jì)數(shù)、排序、加減、乘除商品銷售額1.定類數(shù)據(jù)
定類就是將給數(shù)據(jù)定義一個(gè)類別。這種數(shù)據(jù)類型將所研究的對(duì)象分類,也即只能決定研究對(duì)象是同類或不同類。例如把性別分成男女兩類;把動(dòng)物分成哺乳類和爬行類等等。定類變量遵循兩個(gè)原則:(1)類與類之間互斥,不存在即是男又是女的性別;(2)每個(gè)對(duì)象都必須要有類別,就像動(dòng)物按照域(Domain)、界(Kingdom)、門(Phylum)、綱(Class)、目(Order)、科(Family)、屬(Genus)、種(Species)加以分類。2.定序數(shù)據(jù)
定序數(shù)據(jù)是將同一個(gè)類別下的對(duì)象分一個(gè)次序,即變量的值能把研究對(duì)象排列高低或大小,具有>與<的數(shù)學(xué)特質(zhì)。它是比定類變量層次更高的變量,因此也具有定類變量的特質(zhì),即區(qū)分類別(=,≠)。例如文化程度可以分為大學(xué)、高中、初中、小學(xué)、文盲;工廠規(guī)??梢苑譃榇蟆⒅?、?。荒挲g可以分為老、中、青。這些變量的值,既可以區(qū)分異同,也可以區(qū)別研究對(duì)象的高低或大小。各個(gè)定序變量的值之間沒有確切的間隔距離。比如大學(xué)究竟比高中高出多少,大學(xué)與高中之間的距離和初中與小學(xué)之間的距離是否相等,通常是沒有確切的尺度來測(cè)量的。定序變量在各個(gè)案上所取的變量值只具有大于或小于的性質(zhì),只能排列出它們的順序,而不能反映出大于或小于的數(shù)量或距離。3.定距數(shù)據(jù)
定距數(shù)據(jù)是區(qū)別同一類別下個(gè)案中等級(jí)次序及其距離的變量。它除了包括定序變量的特性外,還能確切測(cè)量同一類別各個(gè)案高低、大小次序之間的距離,因而具有加與減的數(shù)學(xué)特質(zhì)。但是,定距變量沒有一個(gè)真正的零點(diǎn)。例如,攝氏溫度這一定距變量說明,攝氏40度比30度高10度,攝氏30度比20度又高10度,它們之間高出的距離相等,而攝氏零度并不是沒有溫度。又比如調(diào)查數(shù)個(gè)地區(qū)的嬰幼兒智力,0智力不代表沒有智力。定距變量各類別之間的距離,只能加減而不能乘除或倍數(shù)的形式來說明它們之間的關(guān)系。4.定比數(shù)據(jù)
定比數(shù)據(jù)是區(qū)別同一類別個(gè)案中等級(jí)次序及其距離的變量。定比變量除了具有定距變量的特性外,還具有一個(gè)真正的零點(diǎn),因而它具有乘與除(×、÷)的數(shù)學(xué)特質(zhì)。例如年齡和收入這兩個(gè)變量,固然是定距變量,同時(shí)又是定比變量,因?yàn)槠淞泓c(diǎn)是絕對(duì)的,可以作乘除的運(yùn)算。如A月收入是60元,而B是30元,我們可以算出前者是后者的兩倍。智力商數(shù)這個(gè)變量是定距變量,但不是定比變量,因?yàn)槠?分只具有相對(duì)的意義,不是絕對(duì)的或固定的,不能說某人的智商是0分就是沒有智力;同時(shí),由于其零點(diǎn)是不固定的,即使A是140分而B是70分,我們也不能說前者的智力是后者的兩倍,只能說兩者相差70分。因?yàn)?值是不固定的,如果將其向上提高20分,則A的智商變?yōu)?20分而B變成50分,兩者的相差仍是70分,但A卻是B的2.4倍,而不是原先的兩倍了。攝氏溫度這一變量也如此。定比變量是最高測(cè)量層次的變量。數(shù)據(jù)可視化在對(duì)數(shù)據(jù)進(jìn)行可視化展示時(shí),不同類型數(shù)據(jù)也應(yīng)采用合適的圖形。一般對(duì)于定類、定序數(shù)據(jù),適合使用條形圖和餅圖。1)條形圖。用寬度相同的條形的長短來表示數(shù)據(jù)變動(dòng)的圖形。2)餅形圖。用圓形及圓內(nèi)扇形面積表示數(shù)值大小的圖形。而定距、定比數(shù)據(jù)適合采用直方圖、折線圖和莖葉圖。1)直方圖。用矩形的寬度和高度來表示頻數(shù)的圖形。2)折線圖。在直方圖基礎(chǔ)上,把直方圖頂部的中點(diǎn)用直線連接起來形成的折線圖。3)莖葉圖。對(duì)于未分組的原始數(shù)據(jù),用樹圖來顯示分布特征。二.計(jì)算機(jī)角度數(shù)據(jù)類型
在計(jì)算機(jī)中,用變量來存儲(chǔ)數(shù)據(jù),它們有名字和數(shù)據(jù)類型。變量的數(shù)據(jù)類型決定了如何將代表這些值的位存儲(chǔ)到計(jì)算機(jī)的內(nèi)存中。在聲明變量時(shí)也可指定它的數(shù)據(jù)類型。所有變量都具有數(shù)據(jù)類型,以決定能夠存儲(chǔ)哪種數(shù)據(jù)。數(shù)據(jù)類型包括原始類型、多元組、記錄單元、代數(shù)數(shù)據(jù)類型、抽象數(shù)據(jù)類型、參考類型以及函數(shù)類型數(shù)據(jù)類型的出現(xiàn)是為了把數(shù)據(jù)分成所需內(nèi)存大小不同的數(shù)據(jù),編程的時(shí)候需要用大數(shù)據(jù)的時(shí)候才需要申請(qǐng)大內(nèi)存,就可以充分利用內(nèi)存。除變量外,數(shù)據(jù)類型也用于其它場合。在給屬性賦值時(shí),這個(gè)值就有數(shù)據(jù)類型;函數(shù)的參數(shù)也有數(shù)據(jù)類型。數(shù)據(jù)類型有以下幾大類型。1.數(shù)字型
一般的編程語言或軟件支持以下幾種數(shù)字類型:Integer(整型)、Long(長整型)、Single(單精度浮點(diǎn)型)、Double(雙精度浮點(diǎn)型)和Currency(貨幣型)。此處列舉的是VisualBasic里的類型,其他語言類似,只是名稱有所差別。如果知道變量總是存放整數(shù)(如12)而不是帶小數(shù)點(diǎn)的數(shù)字(如3.57),就應(yīng)當(dāng)將它聲明為Integer類型或Long類型。整數(shù)的運(yùn)算速度較快,而且比其它數(shù)據(jù)類型占據(jù)的內(nèi)存要少。在For...Next循環(huán)內(nèi)作為計(jì)數(shù)器變量使用時(shí),整數(shù)類型尤為有用。如果變量包含小數(shù),則可將它們聲明為Single、Double或Currency變量。Currency數(shù)據(jù)類型支持小數(shù)點(diǎn)右面4位和小數(shù)點(diǎn)左面15位;它是一個(gè)精確的定點(diǎn)數(shù)據(jù)類型,適用于貨幣計(jì)算。浮點(diǎn)(Single和Double)數(shù)比Currency的有效范圍大得多,但有可能產(chǎn)生小的進(jìn)位誤差。2.字節(jié)型
如果變量包含二進(jìn)制數(shù),則將它聲明為Byte數(shù)據(jù)類型的數(shù)組。在轉(zhuǎn)換格式期間用Byte變量存儲(chǔ)二進(jìn)制數(shù)據(jù)就可保留數(shù)據(jù)。當(dāng)String變量在ANSI和Unicode格式間進(jìn)行轉(zhuǎn)換時(shí),變量中的任何二進(jìn)制數(shù)據(jù)都會(huì)遭到破壞。除一元減法外,所有可對(duì)整數(shù)進(jìn)行操作的運(yùn)算符均可操作Byte數(shù)據(jù)類型。因?yàn)锽yte是從0-255的無符號(hào)類型,所以不能表示負(fù)數(shù)。所有數(shù)值變量都可相互賦值。3.文本型
如果變量總是包含字符串而從不包含數(shù)值,就可將其聲明為String類型。按照缺省規(guī)定,String變量或參數(shù)是一個(gè)可變長度的字符串,隨著對(duì)字符串賦予新數(shù)據(jù),它的長度可增可減。也可以聲明字符串具有固定長度。4.邏輯型
若變量的值只是“true/false”、“yes/no”、“on/off”信息,則可將它聲明為Boolean類型。Boolean的缺省值為False。5.日期型
日期型包含Date和Time兩種數(shù)據(jù)類型,一般的Date特性適用于這兩種類型。當(dāng)其它數(shù)值數(shù)據(jù)類型轉(zhuǎn)換為Date時(shí),小數(shù)點(diǎn)左邊的值表示Date信息,小數(shù)點(diǎn)右邊的值則代表Time。午夜為0,正午為0.5。負(fù)數(shù)表示公元1899年12月31日之前的Date。三.根據(jù)數(shù)據(jù)連續(xù)程度的分類
根據(jù)數(shù)據(jù)的連續(xù)性可以將數(shù)據(jù)分為連續(xù)性的數(shù)據(jù)和離散型的數(shù)據(jù)。連續(xù)型的數(shù)據(jù),如:身高,體重,化驗(yàn)值等等,這些數(shù)據(jù)的特點(diǎn)可以有小數(shù)點(diǎn),大多表現(xiàn)為數(shù)值型;離散型的數(shù)據(jù),如:性別(男、女),藥物反應(yīng)(陰性、陽性),血型(O、A、B、AB),職業(yè)(教師、公司職員、公務(wù)員、律師、醫(yī)生)等,大多用文字表示。1.離散型數(shù)據(jù);
(1)One-HotEncoding又稱為一位有效編碼,主要是采用位狀態(tài)寄存器來對(duì)個(gè)狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都由他獨(dú)立的寄存器位,并且在任意時(shí)候只有一位有效。這種方式下,若特征種類很多,呈現(xiàn)出高稀疏化特征。例如:有如下三個(gè)特征屬性:性別:[“male”,“female”],地區(qū):[“Europe”,“US”,“Asia”],瀏覽器:["Firefox","Chrome","Safari","InternetExplorer"]對(duì)于某一個(gè)樣本,如["male","US","InternetExplorer"],我們需要將這個(gè)分類值的特征數(shù)字化,最直接的方法,我們可以采用序列化的方式:[0,1,3]。但是這樣的特征處理并不能直接放入機(jī)器學(xué)習(xí)算法中。對(duì)于上述的問題,性別的屬性是二維的,同理,地區(qū)是三維的,瀏覽器則是四維的,這樣,我們可以采用One-Hot編碼的方式對(duì)上述的樣本“["male","US","InternetExplorer"]”編碼,“male”則對(duì)應(yīng)著[1,0],同理“US”對(duì)應(yīng)著[0,1,0],“InternetExplorer”對(duì)應(yīng)著[0,0,0,1]。則完整的特征數(shù)字化的結(jié)果為:[1,0,0,1,0,0,0,0,1]。這樣導(dǎo)致的一個(gè)結(jié)果就是數(shù)據(jù)會(huì)變得非常的稀疏。(2)HashEncoding:哈希編碼
哈希算法并不是一個(gè)特定的算法而是一類算法的統(tǒng)稱。哈希算法也叫散列算法,一般來說滿足這樣的關(guān)系:f(data)=key,輸入任意長度的data數(shù)據(jù),經(jīng)過哈希算法處理后輸出一個(gè)定長的數(shù)據(jù)key。同時(shí)這個(gè)過程是不可逆的,無法由key逆推出data。哈希表的好處是當(dāng)原始數(shù)據(jù)較大時(shí),我們可以用哈希算法處理得到定長的哈希值key,那么這個(gè)key相對(duì)原始數(shù)據(jù)要小得多。我們就可以用這個(gè)較小的數(shù)據(jù)集來做索引,達(dá)到快速查找的目的。因此在面對(duì)高基數(shù)類別變量時(shí),就可以用特征哈希法編碼的方式將原始的高維特征向量壓縮成較低維特征向量,且盡量不損失原始特征的表達(dá)能力。但是哈斯算法有一個(gè)問題,就是哈希值是一個(gè)有限集合,而輸入數(shù)據(jù)則可以是無窮多個(gè)。那么建立一對(duì)一關(guān)系明顯是不現(xiàn)實(shí)的。所以"碰撞"(不同的輸入數(shù)據(jù)對(duì)應(yīng)了相同的哈希值)是必然會(huì)發(fā)生的,所以一個(gè)成熟的哈希算法會(huì)有較好的抗沖突性。同時(shí)在實(shí)現(xiàn)哈希表的結(jié)構(gòu)時(shí)也要考慮到哈希沖突的問題。(3)Embedding:嵌入式方法。
是離散數(shù)據(jù)連續(xù)化方法。Embedding試圖尋找離散值間的關(guān)系,并將其表達(dá)為連續(xù)空間上的距離。所以Eembedding的關(guān)鍵就是明確離散值間的關(guān)系。以NLP(NaturalLanguageProcessing,是人工智能(AI)的一個(gè)子領(lǐng)域。)為例,我們通過預(yù)測(cè)某字c0周圍出現(xiàn)各字的幾率,來挖掘字間的向量關(guān)系。具體的算法有:CBOW(ContinuousBag-of-Words
與Skip-Gram兩種模型。CBOW的意思是,一個(gè)句子中,摳掉一個(gè)字c0,根據(jù)上下文幾個(gè)字,來預(yù)測(cè)c0是啥,條件概率是P[c0|Context(c0)]。Skip-Gram反過來,根據(jù)c0,預(yù)測(cè)句子其他某個(gè)字出現(xiàn)幾率:P[ci|c0]。這2個(gè)模型都是把問題轉(zhuǎn)化為了分類問題:輸入c0或Context(c0)的詞向量,求每個(gè)字出現(xiàn)的幾率Pci。我們可以簡單理解下:如果2個(gè)不同的字輸出的Pci分布越接近,則這2個(gè)字就越接近,他們的詞向量距離就越小。2.連續(xù)型數(shù)據(jù)
除了分類這樣的離散數(shù)據(jù),我們也會(huì)碰到諸如身高,學(xué)習(xí)成績,資金等連續(xù)型的數(shù)據(jù)。對(duì)于連續(xù)型數(shù)據(jù),有以下的處理方式:缺失數(shù)據(jù)處理:在收集來的數(shù)據(jù)中,往往會(huì)出現(xiàn)某處數(shù)據(jù)為空或不存在的情況。一般處理方式有填0處理,填NAN處理,平均值或中位值處理等。沒有特殊情況的話,一般不推薦填0處理,0和空相差的意義較大,0是有意義的。歸一化:歸一化與標(biāo)準(zhǔn)化的區(qū)別:標(biāo)準(zhǔn)化是依照特征矩陣的列來處理數(shù)據(jù),其通過求z-score的方法,將樣本的特征值轉(zhuǎn)換到同一量綱下。歸一化是依照特征矩陣的行處理數(shù)據(jù),其目的在于樣本向量在點(diǎn)乘運(yùn)算或其他核函數(shù)計(jì)算相似性時(shí),擁有統(tǒng)一的標(biāo)準(zhǔn),也就是說都轉(zhuǎn)化為“單位向量”。離散化:將連續(xù)值分區(qū),某個(gè)分區(qū)內(nèi)的數(shù)據(jù)均為某個(gè)分類值。例如個(gè)人資產(chǎn)為連續(xù)值,處理后個(gè)人資產(chǎn)小于100W為普通階級(jí),個(gè)人資產(chǎn)100W-1000W為中產(chǎn)階級(jí),個(gè)人資產(chǎn)1000W以上為富人階級(jí)等。某些情況下若取值跨度太大或者太小,可以取對(duì)數(shù)或者開方平方等處理后再離散化。3.時(shí)間數(shù)據(jù)時(shí)間數(shù)據(jù)本質(zhì)上也還是一種連續(xù)數(shù)據(jù),但是有一些特殊的地方,比如時(shí)區(qū),比如周期性。因此處理時(shí)尤其要注意特殊節(jié)假日,時(shí)區(qū)等問題。4.空間數(shù)據(jù)空間數(shù)據(jù)又稱幾何數(shù)據(jù),它用來表示物體的位置、形態(tài)、大小分布等各方面的信息,是對(duì)現(xiàn)世界中存在的具有定位意義的事物和現(xiàn)象的定量描述。根據(jù)在計(jì)算機(jī)系統(tǒng)中地圖對(duì)現(xiàn)實(shí)數(shù)據(jù)的存儲(chǔ)組織、處理方法的不同,以及空間數(shù)據(jù)本身的幾何特征,空間數(shù)據(jù)又可分為圖形數(shù)據(jù)和圖像數(shù)據(jù)。
3.3數(shù)據(jù)準(zhǔn)備主要內(nèi)容
3.3.1數(shù)據(jù)清洗
數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。與問卷審核不同,錄入后的數(shù)據(jù)清理一般是由計(jì)算機(jī)而不是人工完成。(一)處理缺失值
1.缺失值產(chǎn)生原因
缺失值的產(chǎn)生的原因多種多樣,主要分為機(jī)械原因和人為原因。機(jī)械原因是由于機(jī)械原因?qū)е碌臄?shù)據(jù)收集或保存的失敗造成的數(shù)據(jù)缺失,比如數(shù)據(jù)存儲(chǔ)的失敗,存儲(chǔ)器損壞,機(jī)械故障導(dǎo)致某段時(shí)間數(shù)據(jù)未能收集(對(duì)于定時(shí)數(shù)據(jù)采集而言)。人為原因是由于人的主觀失誤、歷史局限或有意隱瞞造成的數(shù)據(jù)缺失,比如,在市場調(diào)查中被訪人拒絕透露相關(guān)問題的答案,或者回答的問題是無效的,數(shù)據(jù)錄入人員失誤漏錄了數(shù)據(jù)。
2.缺失值類型
缺失值從缺失的分布來講可以分為完全隨機(jī)缺失,隨機(jī)缺失和完全非隨機(jī)缺失。完全隨機(jī)缺失(missingcompletelyatrandom,MCAR):指的是數(shù)據(jù)的缺失是隨機(jī)的,數(shù)據(jù)的缺失不依賴于任何不完全變量或完全變量。隨機(jī)缺失(missingatrandom,MAR):指的是數(shù)據(jù)的缺失不是完全隨機(jī)的,即該類數(shù)據(jù)的缺失依賴于其他完全變量。完全非隨機(jī)缺失(missingnotatrandom,MNAR):指的是數(shù)據(jù)的缺失依賴于不完全變量自身。缺失值從缺失值的所屬屬性來講可以分為單值缺失,任意缺失和單調(diào)缺失。單值缺失:如果所有的缺失值都是同一屬性,那么這種缺失成為單值缺失。任意缺失:如果缺失值屬于不同的屬性,稱為任意缺失。單調(diào)缺失:對(duì)于時(shí)間序列類的數(shù)據(jù),可能存在隨著時(shí)間的缺失,這種缺失稱為單調(diào)缺失。3.處理方法
數(shù)據(jù)集的缺失值可能導(dǎo)致錯(cuò)誤或者由于沒有記錄的觀察值。如果缺失值出現(xiàn),確定的算法可能就無效了或者得不到期望的結(jié)果。缺失值比其他值更能影響模型。盡管有些模型可以處理缺失值,但是對(duì)缺失值比較敏感(某一變量的缺失可能得到不好的預(yù)測(cè)結(jié)果)。處理缺失值的經(jīng)典方法有:
主要有簡單刪除法和權(quán)重法。簡單刪除法是對(duì)缺失值進(jìn)行處理的最原始方法。它將存在缺失值的個(gè)案刪除。如果數(shù)據(jù)缺失問題可以通過簡單的刪除小部分樣本來達(dá)到目標(biāo),那么這個(gè)方法是最有效的。當(dāng)缺失值的類型為非完全隨機(jī)缺失的時(shí)候,可以通過對(duì)完整的數(shù)據(jù)加權(quán)來減小偏差。把數(shù)據(jù)不完全的個(gè)案標(biāo)記后,將完整的數(shù)據(jù)個(gè)案賦予不同的權(quán)重,個(gè)案的權(quán)重可以通過logistic或probit回歸求得。如果解釋變量中存在對(duì)權(quán)重估計(jì)起決定行因素的變量,那么這種方法可以有效減小偏差。如果解釋變量和權(quán)重并不相關(guān),它并不能減小偏差。對(duì)于存在多個(gè)屬性缺失的情況,就需要對(duì)不同屬性的缺失組合賦不同的權(quán)重,這將大大增加計(jì)算的難度,降低預(yù)測(cè)的準(zhǔn)確性,這時(shí)權(quán)重法并不理想。②可能值插補(bǔ)缺失值
它的思想來源是以最可能的值來插補(bǔ)缺失值比全部刪除不完全樣本所產(chǎn)生的信息丟失要少。在數(shù)據(jù)挖掘中,面對(duì)的通常是大型的數(shù)據(jù)庫,它的屬性有幾十個(gè)甚至幾百個(gè),因?yàn)橐粋€(gè)屬性值的缺失而放棄大量的其他屬性值,這種刪除是對(duì)信息的極大浪費(fèi),所以產(chǎn)生了以可能值對(duì)缺失值進(jìn)行插補(bǔ)的思想與方法。常用的有如下幾種方法。虛擬替換:利用虛擬值替換缺失值。例如:不知道的類別或者數(shù)值0。均值替換:如果缺失值是數(shù)值型的,利用均值替換。頻數(shù)替換:如果缺失值是類別的,利用出現(xiàn)最多的項(xiàng)替換?;貧w替換:利用回歸方法得到回歸值替換缺失值。(二)處理異常值和離群點(diǎn)
1.異常值異常值(outlier)是指樣本中的個(gè)別值,其數(shù)值明顯偏離它(或他們)所屬樣本的其余觀測(cè)值。一組測(cè)定值中與平均值的偏差超過兩倍標(biāo)準(zhǔn)差的測(cè)定值,與平均值的偏差超過三倍標(biāo)準(zhǔn)差的測(cè)定值,稱為高度異常的異常值。異常值可能通過扭曲預(yù)測(cè)模型而帶來問題。判斷異常值的統(tǒng)計(jì)學(xué)原則:上側(cè)情形:異常值為高端值;下側(cè)情形:異常值為低端值;雙側(cè)情形:異常值在兩端可能出現(xiàn)極端值。(1)簡單統(tǒng)計(jì)分析對(duì)屬性值進(jìn)行一個(gè)描述性的統(tǒng)計(jì),從而查看哪些值是不合理的。比如對(duì)年齡這個(gè)屬性進(jìn)行規(guī)約:年齡的區(qū)間在[0:200],如果樣本中的年齡值不再該區(qū)間范圍內(nèi),則表示該樣本的年齡屬性屬于異常值。(2)箱型圖箱型圖提供了一個(gè)識(shí)別異常值的標(biāo)準(zhǔn),即大于或小于箱型圖設(shè)定的上下界的數(shù)值即為異常值,箱型圖如圖3.4所示。上四分位設(shè)為U,表示的是所有樣本中只有1/4的數(shù)值大于U;同理,下四分位設(shè)為L,表示的是所有樣本中只有1/4的數(shù)值小于L。設(shè)上四分位與下四分位的插值為IQR,即:IQR=U-L,上界為U+1.5IQR,下界為:L-1.5IQR。箱型圖選取異常值比較客觀,在識(shí)別異常值方面有一定的優(yōu)越性。(3)3δ原則
當(dāng)數(shù)據(jù)服從正態(tài)分布時(shí),根據(jù)正態(tài)分布的定義可知,距離平均值3δ之外的概率為P(|x-μ|>3δ)<=0.003,這屬于極小概率事件,在默認(rèn)情況下我們可以認(rèn)定,距離超過平均值3δ的樣本是不存在的。因此,當(dāng)樣本距離平均值大于3δ,則認(rèn)定該樣本為異常值2.離群點(diǎn)
離群點(diǎn)也稱之為歧異值,有時(shí)也稱其為野值。概括的說,離群點(diǎn)是由于系統(tǒng)受外部干擾而造成的。但是,形成離群點(diǎn)的系統(tǒng)外部干擾是多種多樣的。首先可能是采樣中的誤差,如記錄的偏誤,工作人員出現(xiàn)筆誤,計(jì)算錯(cuò)誤等,都有可能產(chǎn)生極端大值或者極端小值。其次可能是被研究現(xiàn)象本身由于受各種偶然非正常的因素影響而引起的,例如。在人口死亡序列中,由于某年發(fā)生了地震,使該年度死亡人數(shù)劇增,形成離群點(diǎn);在股票價(jià)格序列中,由于受某項(xiàng)政策出臺(tái)或某種謠傳的刺激,都會(huì)出現(xiàn)極增,極減現(xiàn)象,變現(xiàn)為序列中的離群點(diǎn)。1)離群點(diǎn)檢測(cè)
離群點(diǎn)檢驗(yàn)就是通過多種檢測(cè)方法找出其行為不同于預(yù)期對(duì)象的數(shù)據(jù)點(diǎn)的過程。①基于統(tǒng)計(jì)的方法:基于統(tǒng)計(jì)的離群點(diǎn)檢測(cè)一般遵循以下思路:設(shè)定數(shù)據(jù)集的分布模型——不和諧檢驗(yàn)——發(fā)現(xiàn)離群點(diǎn)。離群點(diǎn)概率定義:離群點(diǎn)是少數(shù)異常于正常數(shù)據(jù)集的數(shù)據(jù)對(duì)象,在概率分布模型中,具有低概率。因?yàn)殡x群點(diǎn)在概率分布模型中低概率出現(xiàn),可以通過檢測(cè)低概率的數(shù)據(jù)對(duì)象或數(shù)據(jù)樣本,不過缺點(diǎn)也較為明顯,低概率出現(xiàn)的樣本不一定也是離群點(diǎn)(比如進(jìn)貨客戶群中,進(jìn)貨量大的客戶雖然少,但是也是我們需要的對(duì)象);②基于鄰近性的方法:離群點(diǎn),一個(gè)“離”字表現(xiàn)其特點(diǎn),在特征空間中,離群點(diǎn)對(duì)象與其最近鄰之間的鄰近性顯著偏離數(shù)據(jù)集中其他對(duì)象與它們自己的最近鄰之間的鄰近性。比如說,使用數(shù)據(jù)對(duì)象的三個(gè)最近鄰來進(jìn)行建模,那么R區(qū)域里面的顯著不同于該數(shù)據(jù)集的其他對(duì)象點(diǎn);對(duì)應(yīng)R中的對(duì)象,它們的第二個(gè)第三個(gè)最近鄰都顯著比其他對(duì)象的更遠(yuǎn)(超出一定的標(biāo)差),因此可以將R區(qū)域中的對(duì)象作一個(gè)標(biāo)記為基于鄰近性的離群點(diǎn);③基于聚類的方法:通過考察對(duì)象與簇之間的關(guān)系檢測(cè)離群點(diǎn),換而言之,離群點(diǎn)是一個(gè)對(duì)象,它屬于小的稀疏簇或者不屬于任何簇。主要有幾種考察方法:該對(duì)象屬于某個(gè)簇嗎?如果不屬于,則被識(shí)別為離群點(diǎn);(比如群居動(dòng)物,山羊兔子成群居住和遷移,那么這些數(shù)據(jù)對(duì)象會(huì)劃分為一個(gè)簇,這樣可以不屬于這些簇的數(shù)據(jù)對(duì)象識(shí)別為離群點(diǎn));該對(duì)象與最近的簇之間的距離很遠(yuǎn)嗎?如果遠(yuǎn),則被識(shí)別為離群點(diǎn);該對(duì)象是小簇或稀疏簇的一部分嗎?如果是,則該簇內(nèi)所有對(duì)象被識(shí)別為離群點(diǎn);④基于分類的方法:如果訓(xùn)練數(shù)據(jù)中有類標(biāo)號(hào),則可以將其視為分類問題,該問題思路一般是:訓(xùn)練一個(gè)可以區(qū)分“正常數(shù)據(jù)”和離群點(diǎn)的分類模型。(一個(gè)人到銀行是否辦理貸款業(yè)務(wù),辦理與不辦理就是2個(gè)類標(biāo)號(hào))。通常使用一類模型(one-classmodel),也就是構(gòu)造一個(gè)僅僅描述正常類的分類器,這樣不屬于正常類的樣本就是離群點(diǎn),僅使用正常類檢測(cè)離群點(diǎn)可以檢測(cè)不靠近訓(xùn)練集中的離群點(diǎn)的新離群點(diǎn);這樣,當(dāng)一個(gè)新離群點(diǎn)進(jìn)來時(shí),只要它位于正常類的決策邊界內(nèi)就為正常點(diǎn),在決策邊界外就為離群點(diǎn)。(2)離群點(diǎn)的處理
具體如何處理離群點(diǎn)應(yīng)該視情況而定。①保持離群點(diǎn):一些數(shù)據(jù)中可能是真實(shí)值得離群點(diǎn)沒有必要必須從數(shù)據(jù)中移除。在一些應(yīng)用中,離群點(diǎn)會(huì)提供一些決定性的信息。比如:在一個(gè)信用卡欺詐檢測(cè)的APP里,他們可以提供陷入消費(fèi)者習(xí)慣購買模式之外。②移除離群點(diǎn):有兩種方法移除離群點(diǎn):修改或者截?cái)嗵鎿Q截?cái)嗷蛐薷男∮?%的數(shù)據(jù)點(diǎn)不會(huì)對(duì)假設(shè)結(jié)果產(chǎn)生太大的影響。大于5%的數(shù)據(jù)點(diǎn)可能影響輸出結(jié)果,主要有:削弱分析的力度;使樣本缺少代表性;可能影響正常數(shù)據(jù);考慮到數(shù)據(jù)轉(zhuǎn)換,選擇一個(gè)可替代的結(jié)果變量或者數(shù)據(jù)分析技術(shù)3.3.2數(shù)據(jù)歸一化
數(shù)據(jù)標(biāo)準(zhǔn)化(歸一化)處理是數(shù)據(jù)挖掘的一項(xiàng)基礎(chǔ)工作,不同評(píng)價(jià)指標(biāo)往往具有不同的量綱和量綱單位,這樣的情況會(huì)影響到數(shù)據(jù)分析的結(jié)果,為了消除指標(biāo)之間的量綱影響,需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,以解決數(shù)據(jù)指標(biāo)之間的可比性。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化處理后,各指標(biāo)處于同一數(shù)量級(jí),適合進(jìn)行綜合對(duì)比評(píng)價(jià)(一)Min-Max歸一化
也稱為離差標(biāo)準(zhǔn)化,是對(duì)原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0-1]之間。轉(zhuǎn)換函數(shù)如下:。其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。這種方法有個(gè)缺陷就是當(dāng)有新數(shù)據(jù)加入時(shí),可能導(dǎo)致max和min的變化,需要重新定義。(二)Z-score歸一化(標(biāo)準(zhǔn)歸一化)
根據(jù)數(shù)據(jù)的均值和方差歸一化:利用數(shù)據(jù)平均值的差除以數(shù)據(jù)的方差。特征標(biāo)準(zhǔn)化使得數(shù)據(jù)具有0均值(即當(dāng)減去分子中的均值是)和標(biāo)準(zhǔn)方差。公式:。其中為所有樣本數(shù)據(jù)的均值,為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。(三)Decimal歸一化
將數(shù)據(jù)中帶有小數(shù)點(diǎn)的特征值去掉小數(shù)點(diǎn)。注意:數(shù)據(jù)集的不同度量尺度可能是有問題的,在一些特定的機(jī)器學(xué)習(xí)算法是要求數(shù)據(jù)具有相同的比例的。3.3.3數(shù)據(jù)離散化
(一)離散化基本概念離散化,把無限空間中有限的個(gè)體映射到有限的空間中去,以此提高算法的時(shí)空效率。通俗的說,離散化是在不改變數(shù)據(jù)相對(duì)大小的條件下,對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的縮小。例如:原數(shù)據(jù):1,999,100000,15;處理后:1,3,4,2;原數(shù)據(jù):{100,200},{20,50000},{1,400};處理后:{3,4},{2,6},{1,5};有些數(shù)據(jù)挖掘算法,特別是某些分類算法(如樸素貝葉斯),要求數(shù)據(jù)是分類屬性形式(類別型屬性)這樣常常需要將連續(xù)屬性變換成分類屬性(離散化,Discretization)。另外,如果一個(gè)分類屬性(或特征)具有大量不同值,或者某些出現(xiàn)不頻繁,則對(duì)于某些數(shù)據(jù)挖掘任務(wù),通過合并某些值減少類別的數(shù)目可能是有益的。與特征選擇一樣,最佳的離散化方法是對(duì)于用來分析數(shù)據(jù)的數(shù)據(jù)挖掘算法,產(chǎn)生最好結(jié)果的方法,而直接使用這種判別標(biāo)準(zhǔn)通常是不實(shí)際的,因此,離散化一般需要滿足這樣一種判別標(biāo)準(zhǔn),它與所考慮的數(shù)據(jù)挖掘任務(wù)的性能好壞直接相關(guān)。通常離散化應(yīng)用于分類或關(guān)聯(lián)分析中所使用的屬性上。一般來說,離散化的效果取決于所使用的算法,以及用到的其他屬性。然而,屬性離散化通常單獨(dú)考慮。連續(xù)屬性變換為類別屬性設(shè)計(jì)兩個(gè)子任務(wù)(1)決定需要多少個(gè)類別值;(2)確定如何將連續(xù)屬性映射到這些分類值。(二)離散化處理的一般過程
對(duì)連續(xù)特征進(jìn)行離散化處理,一般經(jīng)過以下步驟:對(duì)此特征進(jìn)行排序。特別是對(duì)于大數(shù)據(jù)集,排序算法的選擇要有助于節(jié)省時(shí)間,提高效率,減少離散化的整個(gè)過程的時(shí)間開支及復(fù)雜度。選擇某個(gè)點(diǎn)作為候選斷點(diǎn),用所選取的具體的離散化方法的尺度進(jìn)行衡量此候選斷點(diǎn)是否滿足要求。若候選斷點(diǎn)滿足離散化的衡量尺度,則對(duì)數(shù)據(jù)集進(jìn)行分裂或合并,再選擇下一個(gè)候選斷點(diǎn),重復(fù)步驟2、3。當(dāng)離散算法存在停止準(zhǔn)則時(shí),如果滿足停止準(zhǔn)則,則不再進(jìn)行離散化過程,從而得到最終的離散結(jié)果。關(guān)于離散結(jié)果的好壞,還是要看模型的效果。(三)離散化方法
1.等寬法
等寬法即是將屬性值分為具有相同寬度的區(qū)間,區(qū)間的個(gè)數(shù)k根據(jù)實(shí)際情況來決定。比如屬性值在[0,60]之間,最小值為0,最大值為60,我們要將其分為3等分,則區(qū)間被劃分為[0,20]、[21,40]、[41,60],每個(gè)屬性值對(duì)應(yīng)屬于它的那個(gè)區(qū)間。2.等頻法
等頻法又稱為登高法,將屬性值均勻分為n等份,每份內(nèi)包含的觀察點(diǎn)數(shù)相同。比如有60個(gè)樣本,我們要將其分為k=3部分,則每部分的長度為20個(gè)樣本。3.優(yōu)化離散
卡方檢驗(yàn)方法:(統(tǒng)計(jì)樣本的實(shí)際觀測(cè)值與理論推斷值之間的偏離程度,卡方值越大,越不符合;卡方值越小,偏差越小,越趨于符合;分裂方法:找到一個(gè)分裂點(diǎn)看,左右2個(gè)區(qū)間,在目標(biāo)值上分布是否有-顯著差異,有顯著差異就分裂,否則就忽略。這個(gè)點(diǎn)可以每次找差異最大的點(diǎn);合并方法:先劃分如果很小單元區(qū)間,按順序合并在目標(biāo)值上分布不顯著的相鄰區(qū)間,直到收斂。
3.3.4數(shù)據(jù)降維
當(dāng)分析的數(shù)據(jù)非常龐大,通常比較好用的減少數(shù)據(jù)量的方法是將數(shù)據(jù)減少維度而且使得數(shù)據(jù)變得更加具有代表性和容易處理。這將促進(jìn)數(shù)據(jù)的理解,探索和特征工程。大量的數(shù)據(jù)會(huì)導(dǎo)致算法更長的運(yùn)行時(shí)間和更大的計(jì)算和內(nèi)存需求。在總的數(shù)據(jù)訓(xùn)練之前你可以拿一些具有代表性的少量數(shù)據(jù)去訓(xùn)練,這樣可能會(huì)更快的探索和驗(yàn)證方案。數(shù)據(jù)的多重共線性:特征屬性之間存在著相互關(guān)聯(lián)關(guān)系。多重共線性會(huì)導(dǎo)致解的空間不穩(wěn)定,從而導(dǎo)致模型的泛化能力弱;高維空間樣本具有稀疏性,導(dǎo)致模型比較難找到數(shù)據(jù)特征;過多的變量會(huì)妨礙模型查找規(guī)律;僅僅考慮單個(gè)變量對(duì)于目標(biāo)屬性的影響可能忽略變量之間的潛在關(guān)系。(二)降維方法
機(jī)器學(xué)習(xí)領(lǐng)域中所謂的降維就是指采用某種映射方法,將原高維空間中的數(shù)據(jù)點(diǎn)映射到低維度的空間中。降維的本質(zhì)是學(xué)習(xí)一個(gè)映射函數(shù)f:x→y,其中x是原始數(shù)據(jù)點(diǎn)的表達(dá),目前最多使用向量表達(dá)形式。y是數(shù)據(jù)點(diǎn)映射后的低維向量表達(dá),通常y的維度小于x的維度(當(dāng)然提高維度也是可以的)。1.主成分分析算法(PCA)
PrincipalComponentAnalysis(PCA)主成分分析法是一種數(shù)學(xué)變換的方法,它把給定的一組相關(guān)變量通過線性變換轉(zhuǎn)成另一組不相關(guān)的變量,這些新的變量按照方差依次遞減的順序排列。在數(shù)學(xué)變換中保持變量的總方差不變,使第一變量具有最大的方差,稱為第一主成分,第二變量的方差次大,并且和第一變量不相關(guān),稱為第二主成分。依次類推,I個(gè)變量就有I個(gè)主成分。例來說,二維平面有5個(gè)點(diǎn),可以用2*5的矩陣X來表示:對(duì)X進(jìn)行歸一化,使X每一行減去其對(duì)應(yīng)的均值,得到:
求X的協(xié)方差矩陣:將原數(shù)據(jù)降為一維,選擇最大的特征值對(duì)應(yīng)的特征向量,因此P為:
特征值降維后的數(shù)據(jù):
3.3.5文本清洗
在讀取/寫入文本時(shí)不適當(dāng)?shù)奈谋揪幋a處理會(huì)導(dǎo)致信息的丟失,不經(jīng)意的引入不可讀的字符(如:null)也可能影響文本解析。一些非結(jié)構(gòu)化的文本如推特,生產(chǎn)評(píng)論或者網(wǎng)頁訪問數(shù)據(jù)在被分析之前通常需要做一些準(zhǔn)備工作。利用空格替換特殊字符和標(biāo)點(diǎn)符號(hào);規(guī)范化案例;移除重復(fù)的字符;移除用戶自定義的或者內(nèi)置的停用詞;詞干提取。(1)規(guī)范化(Normalization):得到純文本后,第一步通常要做就是規(guī)范化。在英文中,所有句子第一個(gè)單詞的首字母一般是大寫,有的單詞也會(huì)全部字母都大寫用于表示強(qiáng)調(diào)和區(qū)分風(fēng)格,這樣更易于人類理解表達(dá)的意思,但是從計(jì)算機(jī)的角度來說是沒法區(qū)別’Car’、‘car’、'CAR’是否是一個(gè)意思的,因此我們一般把文本中所有字母都轉(zhuǎn)換為小寫或大寫(通常意義上是小寫),沒歌詞用一個(gè)唯一的詞來表示。小寫轉(zhuǎn)換和標(biāo)點(diǎn)移除是兩個(gè)最常見的文本Normalization步驟,是否需要以及在哪個(gè)階段使用這兩個(gè)步驟取決于你的最終目標(biāo)。(2)分詞(Tokenization):Token是“符號(hào)”的高級(jí)表達(dá),一般值具有某種意義,無法再拆分的符號(hào)。在英文自然語言處理中,Tokens通常是單獨(dú)的詞,因此Tokenization就是將每個(gè)句子拆分為一系列的詞。通常情況下,最簡單的方法是使用split()方法返回詞列表。默認(rèn)情況下是將一段話在空格字符處拆分,除了空格,也包括其他標(biāo)簽、新行等。同樣也可以使用可選參數(shù)對(duì)其進(jìn)行控制。(3)停用詞處理(Stopwords):StopWord是無含義的詞,例如’is’/‘our’/‘the’/‘in’/'at’等。它們不會(huì)給句子增加太多含義,單停止詞是頻率非常多的詞。為了減少我們要處理的詞匯量,從而降低后續(xù)程序的復(fù)雜度,需要清除停止詞。(4)標(biāo)注詞性(Part-of-speechTagging):識(shí)別詞在句子中的用途有助于我們更好理解句子內(nèi)容。并且,標(biāo)注詞性還可以明確詞之間的關(guān)系,并識(shí)別出交叉引用。(5)標(biāo)注實(shí)體(NamedEntityRecognition):NamedEntity一般是名詞短語,又來指代某些特定對(duì)象、人、或地點(diǎn)可以使用ne_chunk()方法標(biāo)注文本中的命名實(shí)體。在進(jìn)行這一步前,必須先進(jìn)行Tokenization并進(jìn)行PoSTagging。(6)詞干和詞元化(StemmingandLemmatization):為了進(jìn)一步簡化文本數(shù)據(jù),我們可以將詞的不同變化和變形標(biāo)準(zhǔn)化。Stemming提取是將詞還原成詞干或詞根的過程。例如’brancing’/‘branched’/‘branches’等,都可以還原成’branch’??偠灾?,它們都表達(dá)了分成多個(gè)路線或分支的含義。這有助于降低復(fù)雜度,并同時(shí)保留詞所含的基本含義。Stemming是利用非常簡單的搜索和替換樣式規(guī)則進(jìn)行的。例如,后綴’ing’和’ed’可以丟棄;'ies’可以用’y’替換等等。這樣可能會(huì)變成不是完整詞的詞干,但是只要這個(gè)詞的所有形式都還原成同一個(gè)詞干即可。因此它們都含有共同的根本含義。Lemmatization是將詞還原成標(biāo)準(zhǔn)化形式的另一種技術(shù)。在這種情況下,轉(zhuǎn)換過程實(shí)際上是利用詞典,將一個(gè)詞的不同變形映射到它的詞根。通過這種方法,我們能將較大的詞形3.4ETL(數(shù)據(jù)抽取、轉(zhuǎn)換及加載)一、ETL基本概念ETL(Extraction,Transfer,Load)就是數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換和加工、數(shù)據(jù)裝載,負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。為了實(shí)現(xiàn)這些功能,ETL工具會(huì)進(jìn)行一些功能上的擴(kuò)充,例如工作流、調(diào)度引擎、規(guī)則引擎、腳本支持、統(tǒng)計(jì)信息等。(一)ETL的挑戰(zhàn)性
ETL功能十分具有挑戰(zhàn)性,主要是因?yàn)樵聪到y(tǒng)的性質(zhì)各異:1.源系統(tǒng)彼此懸殊,種類多樣,通常需要應(yīng)付多個(gè)平臺(tái)上的不同操作系統(tǒng);2.很多源數(shù)據(jù)都是陳舊的應(yīng)用系統(tǒng)采用的是過時(shí)的技術(shù);3.舊系統(tǒng)中的數(shù)據(jù)質(zhì)量各不相同,需要花很多時(shí)間進(jìn)行處理;4.歷史數(shù)據(jù)通常不會(huì)被保存在操作型系統(tǒng)中,但對(duì)于數(shù)據(jù)挖掘至關(guān)重要;5.源系統(tǒng)之間普遍缺乏一致性。在不同的源系統(tǒng)中,相同的數(shù)據(jù)可能會(huì)用不同的形式來代表,且缺乏解決方法,導(dǎo)致不一致問題更加嚴(yán)重;6.源系統(tǒng)的結(jié)構(gòu)隨著時(shí)間會(huì)發(fā)生變化,因?yàn)樾碌纳虡I(yè)條件不斷出現(xiàn)。ETL功能也必須相應(yīng)的調(diào)整;7.大多數(shù)源系統(tǒng)的數(shù)據(jù)格式和類型對(duì)用戶沒有實(shí)際的含義,而且很多展現(xiàn)方式模糊而晦澀的。根據(jù)統(tǒng)計(jì),數(shù)據(jù)挖掘工作的50%~70%的時(shí)間花費(fèi)在ETL上。ETL處理過程的主要步驟二、數(shù)據(jù)抽取
數(shù)據(jù)抽取是從數(shù)據(jù)源中抽取數(shù)據(jù)的過程。實(shí)際應(yīng)用中,數(shù)據(jù)源較多采用的是關(guān)系數(shù)據(jù)庫。從數(shù)據(jù)庫中抽取數(shù)據(jù)一般有以下幾種方式。1.全量抽取全量抽取類似于數(shù)據(jù)遷移或數(shù)據(jù)復(fù)制,它將數(shù)據(jù)源中的表或視圖的數(shù)據(jù)原封不動(dòng)的從數(shù)據(jù)庫中抽取出來,并轉(zhuǎn)換成自己的ETL工具可以識(shí)別的格式。全量抽取比較簡單。2.增量抽取增量抽取指抽取自上次抽取以來數(shù)據(jù)庫中要抽取的表中新增、修改、刪除的數(shù)據(jù)。在ETL使用過程中。增量抽取較全量抽取應(yīng)用更廣。如何捕獲變化的數(shù)據(jù)是增量抽取的關(guān)鍵。對(duì)捕獲方法一般有兩點(diǎn)要求:準(zhǔn)確性,能夠?qū)I(yè)務(wù)系統(tǒng)中的變化數(shù)據(jù)準(zhǔn)確地捕獲到;性能,盡量減少對(duì)業(yè)務(wù)系統(tǒng)造成太大的壓力,影響現(xiàn)有業(yè)務(wù)。目前增量數(shù)據(jù)抽取中常用的捕獲變化數(shù)據(jù)的方法(1)觸發(fā)器:在要抽取的表上建立需要的觸發(fā)器,一般要建立插入、修改、刪除三個(gè)觸發(fā)器,每當(dāng)源表中的數(shù)據(jù)發(fā)生變化,就被相應(yīng)的觸發(fā)器將變化的數(shù)據(jù)寫入一個(gè)臨時(shí)表,抽取線程從臨時(shí)表中抽取數(shù)據(jù)。觸發(fā)器方式的優(yōu)點(diǎn)是數(shù)據(jù)抽取的性能較高,缺點(diǎn)是要求在業(yè)務(wù)數(shù)據(jù)庫中建立觸發(fā)器,對(duì)業(yè)務(wù)系統(tǒng)有一定的性能影響。(2)時(shí)間戳:它是一種基于遞增數(shù)據(jù)比較的增量數(shù)據(jù)捕獲方式,在源表上增加一個(gè)時(shí)間戳字段,系統(tǒng)中更新修改表數(shù)據(jù)的時(shí)候,同時(shí)修改時(shí)間戳字段的值。當(dāng)進(jìn)行數(shù)據(jù)抽取時(shí),通過比較系統(tǒng)時(shí)間與時(shí)間戳字段的值來決定抽取哪些數(shù)據(jù)。有的數(shù)據(jù)庫的時(shí)間戳支持自動(dòng)更新,即表的其它字段的數(shù)據(jù)發(fā)生改變時(shí),自動(dòng)更新時(shí)間戳字段的值。有的數(shù)據(jù)庫不支持時(shí)間戳的自動(dòng)更新,這就要求業(yè)務(wù)系統(tǒng)在更新業(yè)務(wù)數(shù)據(jù)時(shí),手工更新時(shí)間戳字段。同觸發(fā)器方式一樣,時(shí)間戳方式的性能也比較好,數(shù)據(jù)抽取相對(duì)清楚簡單,但對(duì)業(yè)務(wù)系統(tǒng)也有很大的傾入性(加入額外的時(shí)間戳字段),特別是對(duì)不支持時(shí)間戳的自動(dòng)更新的數(shù)據(jù)庫,還要求業(yè)務(wù)系統(tǒng)進(jìn)行額外的更新時(shí)間戳操作。另外,無法捕獲對(duì)時(shí)間戳以前數(shù)據(jù)的delete和update操作,在數(shù)據(jù)準(zhǔn)確性上受到了一定的限制。(3)全表刪除插入方式每次ETL操作
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 智能牌藝提升課程行業(yè)跨境出海戰(zhàn)略研究報(bào)告
- 味精(谷氨酸鈉)企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級(jí)戰(zhàn)略研究報(bào)告
- 罐頭企業(yè)ESG實(shí)踐與創(chuàng)新戰(zhàn)略研究報(bào)告
- 汽車運(yùn)輸企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級(jí)戰(zhàn)略研究報(bào)告
- 年產(chǎn)2000噸鍛造套圈項(xiàng)目可行性研究報(bào)告寫作模板-備案審批
- 二零二五年度教育信息化合作協(xié)議補(bǔ)充協(xié)議
- 二零二五年度智能交通系統(tǒng)工程合作協(xié)議書
- 餐飲行業(yè)2025年度校園飯?zhí)媒?jīng)營權(quán)轉(zhuǎn)讓合同
- 媒體合作合同履約金條款
- 2025年度智慧社區(qū)車位產(chǎn)權(quán)出售協(xié)議書
- 納米生物醫(yī)用材料課件
- 八年級(jí)-現(xiàn)在完成時(shí)復(fù)習(xí)(共26張)課件
- 第十章可持續(xù)發(fā)展理論與實(shí)踐課件
- 電氣基礎(chǔ)知識(shí)培訓(xùn)要點(diǎn)課件
- 洗浴中心轉(zhuǎn)讓合同(5篇)
- 外研版小學(xué)英語五年級(jí)下冊(cè)課文翻譯
- YY-T 1823-2022 心血管植入物 鎳鈦合金鎳離子釋放試驗(yàn)方法
- 年產(chǎn)12000噸水合肼(100%)項(xiàng)目環(huán)評(píng)報(bào)告書
- 鉆芯法檢測(cè)混凝土抗壓強(qiáng)度原始記錄1
- 液壓支架與泵站(第二版)課件匯總?cè)珪娮咏贪竿暾嬲n件最全幻燈片(最新)
- 分布式光伏電站支架結(jié)構(gòu)及荷載計(jì)算書
評(píng)論
0/150
提交評(píng)論