版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第三章數(shù)據(jù)準備【學習目標】
理解數(shù)據(jù)準備工作的步驟;了解數(shù)據(jù)的不同類型;理解數(shù)據(jù)處理的主要方法。3.1數(shù)據(jù)準備的基本知識數(shù)據(jù)的問題1.數(shù)據(jù)的不完全性:數(shù)據(jù)缺少特征或者包含缺失值;2.數(shù)據(jù)噪聲:數(shù)據(jù)包含錯誤的記錄或者異常值;3.數(shù)據(jù)不一致性:數(shù)據(jù)包含沖突的記錄或者差異。哪種問題影響分析1.非法值:一些數(shù)據(jù)集包含一些明顯的值:例如性別只能是男或女,上面的例子很容易發(fā)現(xiàn)錯誤。2.格式:最常見的問題??赡塬@得不同格式的值比如名字寫成:“姓名,xxx”或者“xxx姓名”。3.特征依賴:一個特征的值依賴于另一個特征。例如:如果我們有一些學校數(shù)據(jù),學生的數(shù)量與這個人是否是教師有關(guān)。如果某個人不是教師,他不可能有一些學生。4.唯一性:很可能發(fā)現(xiàn)只允許唯一值得數(shù)據(jù)重復。例如:我們的兩個產(chǎn)品不能有兩個身份ID。5.缺失值:數(shù)據(jù)集的一些特征的值可能是空白或者缺失的。6.拼寫錯誤:主要指英文等字符串拼寫的錯誤。7.錯位值:一個特征的值包含另一個特征。數(shù)據(jù)準備3.2數(shù)據(jù)類型及處理方式
數(shù)據(jù)(data),是事實或觀察的結(jié)果,是對客觀事物的邏輯歸納,是用于表示客觀事物的未經(jīng)加工的原始素材。數(shù)據(jù)可以是連續(xù)的值,比如聲音、圖像,稱為模擬數(shù)據(jù)。也可以是離散的,如符號、文字,稱為數(shù)字數(shù)據(jù)。數(shù)據(jù)分析的基礎(chǔ)是數(shù)據(jù)分類,不同類型的數(shù)據(jù)有不同的處理方式。數(shù)據(jù)分類就是把具有某種共同屬性或特征的數(shù)據(jù)歸并在一起,通過其類別的屬性或特征來對數(shù)據(jù)進行區(qū)別。換句話說,就是相同內(nèi)容、相同性質(zhì)的信息以及要求統(tǒng)一管理的信息集合在一起,而把相異的和需要分別管理的信息區(qū)分開來,然后確定各個集合之間的關(guān)系,形成一個有條理的分類系統(tǒng)一.統(tǒng)計計量角度的數(shù)據(jù)類型
測定層次特
征運算功能舉
例定類測定分類頻數(shù)和頻率產(chǎn)業(yè)分類定序測定分類、排序計數(shù)、排序企業(yè)等級定距測定分類、排序、有基本測量單位計數(shù)、排序、加減產(chǎn)品質(zhì)量差異定比測定分類、排序、有基本測量單位、有絕對零點計數(shù)、排序、加減、乘除商品銷售額1.定類數(shù)據(jù)
定類就是將給數(shù)據(jù)定義一個類別。這種數(shù)據(jù)類型將所研究的對象分類,也即只能決定研究對象是同類或不同類。例如把性別分成男女兩類;把動物分成哺乳類和爬行類等等。定類變量遵循兩個原則:(1)類與類之間互斥,不存在即是男又是女的性別;(2)每個對象都必須要有類別,就像動物按照域(Domain)、界(Kingdom)、門(Phylum)、綱(Class)、目(Order)、科(Family)、屬(Genus)、種(Species)加以分類。2.定序數(shù)據(jù)
定序數(shù)據(jù)是將同一個類別下的對象分一個次序,即變量的值能把研究對象排列高低或大小,具有>與<的數(shù)學特質(zhì)。它是比定類變量層次更高的變量,因此也具有定類變量的特質(zhì),即區(qū)分類別(=,≠)。例如文化程度可以分為大學、高中、初中、小學、文盲;工廠規(guī)??梢苑譃榇?、中、??;年齡可以分為老、中、青。這些變量的值,既可以區(qū)分異同,也可以區(qū)別研究對象的高低或大小。各個定序變量的值之間沒有確切的間隔距離。比如大學究竟比高中高出多少,大學與高中之間的距離和初中與小學之間的距離是否相等,通常是沒有確切的尺度來測量的。定序變量在各個案上所取的變量值只具有大于或小于的性質(zhì),只能排列出它們的順序,而不能反映出大于或小于的數(shù)量或距離。3.定距數(shù)據(jù)
定距數(shù)據(jù)是區(qū)別同一類別下個案中等級次序及其距離的變量。它除了包括定序變量的特性外,還能確切測量同一類別各個案高低、大小次序之間的距離,因而具有加與減的數(shù)學特質(zhì)。但是,定距變量沒有一個真正的零點。例如,攝氏溫度這一定距變量說明,攝氏40度比30度高10度,攝氏30度比20度又高10度,它們之間高出的距離相等,而攝氏零度并不是沒有溫度。又比如調(diào)查數(shù)個地區(qū)的嬰幼兒智力,0智力不代表沒有智力。定距變量各類別之間的距離,只能加減而不能乘除或倍數(shù)的形式來說明它們之間的關(guān)系。4.定比數(shù)據(jù)
定比數(shù)據(jù)是區(qū)別同一類別個案中等級次序及其距離的變量。定比變量除了具有定距變量的特性外,還具有一個真正的零點,因而它具有乘與除(×、÷)的數(shù)學特質(zhì)。例如年齡和收入這兩個變量,固然是定距變量,同時又是定比變量,因為其零點是絕對的,可以作乘除的運算。如A月收入是60元,而B是30元,我們可以算出前者是后者的兩倍。智力商數(shù)這個變量是定距變量,但不是定比變量,因為其0分只具有相對的意義,不是絕對的或固定的,不能說某人的智商是0分就是沒有智力;同時,由于其零點是不固定的,即使A是140分而B是70分,我們也不能說前者的智力是后者的兩倍,只能說兩者相差70分。因為0值是不固定的,如果將其向上提高20分,則A的智商變?yōu)?20分而B變成50分,兩者的相差仍是70分,但A卻是B的2.4倍,而不是原先的兩倍了。攝氏溫度這一變量也如此。定比變量是最高測量層次的變量。數(shù)據(jù)可視化在對數(shù)據(jù)進行可視化展示時,不同類型數(shù)據(jù)也應采用合適的圖形。一般對于定類、定序數(shù)據(jù),適合使用條形圖和餅圖。1)條形圖。用寬度相同的條形的長短來表示數(shù)據(jù)變動的圖形。2)餅形圖。用圓形及圓內(nèi)扇形面積表示數(shù)值大小的圖形。而定距、定比數(shù)據(jù)適合采用直方圖、折線圖和莖葉圖。1)直方圖。用矩形的寬度和高度來表示頻數(shù)的圖形。2)折線圖。在直方圖基礎(chǔ)上,把直方圖頂部的中點用直線連接起來形成的折線圖。3)莖葉圖。對于未分組的原始數(shù)據(jù),用樹圖來顯示分布特征。二.計算機角度數(shù)據(jù)類型
在計算機中,用變量來存儲數(shù)據(jù),它們有名字和數(shù)據(jù)類型。變量的數(shù)據(jù)類型決定了如何將代表這些值的位存儲到計算機的內(nèi)存中。在聲明變量時也可指定它的數(shù)據(jù)類型。所有變量都具有數(shù)據(jù)類型,以決定能夠存儲哪種數(shù)據(jù)。數(shù)據(jù)類型包括原始類型、多元組、記錄單元、代數(shù)數(shù)據(jù)類型、抽象數(shù)據(jù)類型、參考類型以及函數(shù)類型數(shù)據(jù)類型的出現(xiàn)是為了把數(shù)據(jù)分成所需內(nèi)存大小不同的數(shù)據(jù),編程的時候需要用大數(shù)據(jù)的時候才需要申請大內(nèi)存,就可以充分利用內(nèi)存。除變量外,數(shù)據(jù)類型也用于其它場合。在給屬性賦值時,這個值就有數(shù)據(jù)類型;函數(shù)的參數(shù)也有數(shù)據(jù)類型。數(shù)據(jù)類型有以下幾大類型。1.數(shù)字型
一般的編程語言或軟件支持以下幾種數(shù)字類型:Integer(整型)、Long(長整型)、Single(單精度浮點型)、Double(雙精度浮點型)和Currency(貨幣型)。此處列舉的是VisualBasic里的類型,其他語言類似,只是名稱有所差別。如果知道變量總是存放整數(shù)(如12)而不是帶小數(shù)點的數(shù)字(如3.57),就應當將它聲明為Integer類型或Long類型。整數(shù)的運算速度較快,而且比其它數(shù)據(jù)類型占據(jù)的內(nèi)存要少。在For...Next循環(huán)內(nèi)作為計數(shù)器變量使用時,整數(shù)類型尤為有用。如果變量包含小數(shù),則可將它們聲明為Single、Double或Currency變量。Currency數(shù)據(jù)類型支持小數(shù)點右面4位和小數(shù)點左面15位;它是一個精確的定點數(shù)據(jù)類型,適用于貨幣計算。浮點(Single和Double)數(shù)比Currency的有效范圍大得多,但有可能產(chǎn)生小的進位誤差。2.字節(jié)型
如果變量包含二進制數(shù),則將它聲明為Byte數(shù)據(jù)類型的數(shù)組。在轉(zhuǎn)換格式期間用Byte變量存儲二進制數(shù)據(jù)就可保留數(shù)據(jù)。當String變量在ANSI和Unicode格式間進行轉(zhuǎn)換時,變量中的任何二進制數(shù)據(jù)都會遭到破壞。除一元減法外,所有可對整數(shù)進行操作的運算符均可操作Byte數(shù)據(jù)類型。因為Byte是從0-255的無符號類型,所以不能表示負數(shù)。所有數(shù)值變量都可相互賦值。3.文本型
如果變量總是包含字符串而從不包含數(shù)值,就可將其聲明為String類型。按照缺省規(guī)定,String變量或參數(shù)是一個可變長度的字符串,隨著對字符串賦予新數(shù)據(jù),它的長度可增可減。也可以聲明字符串具有固定長度。4.邏輯型
若變量的值只是“true/false”、“yes/no”、“on/off”信息,則可將它聲明為Boolean類型。Boolean的缺省值為False。5.日期型
日期型包含Date和Time兩種數(shù)據(jù)類型,一般的Date特性適用于這兩種類型。當其它數(shù)值數(shù)據(jù)類型轉(zhuǎn)換為Date時,小數(shù)點左邊的值表示Date信息,小數(shù)點右邊的值則代表Time。午夜為0,正午為0.5。負數(shù)表示公元1899年12月31日之前的Date。三.根據(jù)數(shù)據(jù)連續(xù)程度的分類
根據(jù)數(shù)據(jù)的連續(xù)性可以將數(shù)據(jù)分為連續(xù)性的數(shù)據(jù)和離散型的數(shù)據(jù)。連續(xù)型的數(shù)據(jù),如:身高,體重,化驗值等等,這些數(shù)據(jù)的特點可以有小數(shù)點,大多表現(xiàn)為數(shù)值型;離散型的數(shù)據(jù),如:性別(男、女),藥物反應(陰性、陽性),血型(O、A、B、AB),職業(yè)(教師、公司職員、公務員、律師、醫(yī)生)等,大多用文字表示。1.離散型數(shù)據(jù);
(1)One-HotEncoding又稱為一位有效編碼,主要是采用位狀態(tài)寄存器來對個狀態(tài)進行編碼,每個狀態(tài)都由他獨立的寄存器位,并且在任意時候只有一位有效。這種方式下,若特征種類很多,呈現(xiàn)出高稀疏化特征。例如:有如下三個特征屬性:性別:[“male”,“female”],地區(qū):[“Europe”,“US”,“Asia”],瀏覽器:["Firefox","Chrome","Safari","InternetExplorer"]對于某一個樣本,如["male","US","InternetExplorer"],我們需要將這個分類值的特征數(shù)字化,最直接的方法,我們可以采用序列化的方式:[0,1,3]。但是這樣的特征處理并不能直接放入機器學習算法中。對于上述的問題,性別的屬性是二維的,同理,地區(qū)是三維的,瀏覽器則是四維的,這樣,我們可以采用One-Hot編碼的方式對上述的樣本“["male","US","InternetExplorer"]”編碼,“male”則對應著[1,0],同理“US”對應著[0,1,0],“InternetExplorer”對應著[0,0,0,1]。則完整的特征數(shù)字化的結(jié)果為:[1,0,0,1,0,0,0,0,1]。這樣導致的一個結(jié)果就是數(shù)據(jù)會變得非常的稀疏。(2)HashEncoding:哈希編碼
哈希算法并不是一個特定的算法而是一類算法的統(tǒng)稱。哈希算法也叫散列算法,一般來說滿足這樣的關(guān)系:f(data)=key,輸入任意長度的data數(shù)據(jù),經(jīng)過哈希算法處理后輸出一個定長的數(shù)據(jù)key。同時這個過程是不可逆的,無法由key逆推出data。哈希表的好處是當原始數(shù)據(jù)較大時,我們可以用哈希算法處理得到定長的哈希值key,那么這個key相對原始數(shù)據(jù)要小得多。我們就可以用這個較小的數(shù)據(jù)集來做索引,達到快速查找的目的。因此在面對高基數(shù)類別變量時,就可以用特征哈希法編碼的方式將原始的高維特征向量壓縮成較低維特征向量,且盡量不損失原始特征的表達能力。但是哈斯算法有一個問題,就是哈希值是一個有限集合,而輸入數(shù)據(jù)則可以是無窮多個。那么建立一對一關(guān)系明顯是不現(xiàn)實的。所以"碰撞"(不同的輸入數(shù)據(jù)對應了相同的哈希值)是必然會發(fā)生的,所以一個成熟的哈希算法會有較好的抗沖突性。同時在實現(xiàn)哈希表的結(jié)構(gòu)時也要考慮到哈希沖突的問題。(3)Embedding:嵌入式方法。
是離散數(shù)據(jù)連續(xù)化方法。Embedding試圖尋找離散值間的關(guān)系,并將其表達為連續(xù)空間上的距離。所以Eembedding的關(guān)鍵就是明確離散值間的關(guān)系。以NLP(NaturalLanguageProcessing,是人工智能(AI)的一個子領(lǐng)域。)為例,我們通過預測某字c0周圍出現(xiàn)各字的幾率,來挖掘字間的向量關(guān)系。具體的算法有:CBOW(ContinuousBag-of-Words
與Skip-Gram兩種模型。CBOW的意思是,一個句子中,摳掉一個字c0,根據(jù)上下文幾個字,來預測c0是啥,條件概率是P[c0|Context(c0)]。Skip-Gram反過來,根據(jù)c0,預測句子其他某個字出現(xiàn)幾率:P[ci|c0]。這2個模型都是把問題轉(zhuǎn)化為了分類問題:輸入c0或Context(c0)的詞向量,求每個字出現(xiàn)的幾率Pci。我們可以簡單理解下:如果2個不同的字輸出的Pci分布越接近,則這2個字就越接近,他們的詞向量距離就越小。2.連續(xù)型數(shù)據(jù)
除了分類這樣的離散數(shù)據(jù),我們也會碰到諸如身高,學習成績,資金等連續(xù)型的數(shù)據(jù)。對于連續(xù)型數(shù)據(jù),有以下的處理方式:缺失數(shù)據(jù)處理:在收集來的數(shù)據(jù)中,往往會出現(xiàn)某處數(shù)據(jù)為空或不存在的情況。一般處理方式有填0處理,填NAN處理,平均值或中位值處理等。沒有特殊情況的話,一般不推薦填0處理,0和空相差的意義較大,0是有意義的。歸一化:歸一化與標準化的區(qū)別:標準化是依照特征矩陣的列來處理數(shù)據(jù),其通過求z-score的方法,將樣本的特征值轉(zhuǎn)換到同一量綱下。歸一化是依照特征矩陣的行處理數(shù)據(jù),其目的在于樣本向量在點乘運算或其他核函數(shù)計算相似性時,擁有統(tǒng)一的標準,也就是說都轉(zhuǎn)化為“單位向量”。離散化:將連續(xù)值分區(qū),某個分區(qū)內(nèi)的數(shù)據(jù)均為某個分類值。例如個人資產(chǎn)為連續(xù)值,處理后個人資產(chǎn)小于100W為普通階級,個人資產(chǎn)100W-1000W為中產(chǎn)階級,個人資產(chǎn)1000W以上為富人階級等。某些情況下若取值跨度太大或者太小,可以取對數(shù)或者開方平方等處理后再離散化。3.時間數(shù)據(jù)時間數(shù)據(jù)本質(zhì)上也還是一種連續(xù)數(shù)據(jù),但是有一些特殊的地方,比如時區(qū),比如周期性。因此處理時尤其要注意特殊節(jié)假日,時區(qū)等問題。4.空間數(shù)據(jù)空間數(shù)據(jù)又稱幾何數(shù)據(jù),它用來表示物體的位置、形態(tài)、大小分布等各方面的信息,是對現(xiàn)世界中存在的具有定位意義的事物和現(xiàn)象的定量描述。根據(jù)在計算機系統(tǒng)中地圖對現(xiàn)實數(shù)據(jù)的存儲組織、處理方法的不同,以及空間數(shù)據(jù)本身的幾何特征,空間數(shù)據(jù)又可分為圖形數(shù)據(jù)和圖像數(shù)據(jù)。
3.3數(shù)據(jù)準備主要內(nèi)容
3.3.1數(shù)據(jù)清洗
數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。與問卷審核不同,錄入后的數(shù)據(jù)清理一般是由計算機而不是人工完成。(一)處理缺失值
1.缺失值產(chǎn)生原因
缺失值的產(chǎn)生的原因多種多樣,主要分為機械原因和人為原因。機械原因是由于機械原因?qū)е碌臄?shù)據(jù)收集或保存的失敗造成的數(shù)據(jù)缺失,比如數(shù)據(jù)存儲的失敗,存儲器損壞,機械故障導致某段時間數(shù)據(jù)未能收集(對于定時數(shù)據(jù)采集而言)。人為原因是由于人的主觀失誤、歷史局限或有意隱瞞造成的數(shù)據(jù)缺失,比如,在市場調(diào)查中被訪人拒絕透露相關(guān)問題的答案,或者回答的問題是無效的,數(shù)據(jù)錄入人員失誤漏錄了數(shù)據(jù)。
2.缺失值類型
缺失值從缺失的分布來講可以分為完全隨機缺失,隨機缺失和完全非隨機缺失。完全隨機缺失(missingcompletelyatrandom,MCAR):指的是數(shù)據(jù)的缺失是隨機的,數(shù)據(jù)的缺失不依賴于任何不完全變量或完全變量。隨機缺失(missingatrandom,MAR):指的是數(shù)據(jù)的缺失不是完全隨機的,即該類數(shù)據(jù)的缺失依賴于其他完全變量。完全非隨機缺失(missingnotatrandom,MNAR):指的是數(shù)據(jù)的缺失依賴于不完全變量自身。缺失值從缺失值的所屬屬性來講可以分為單值缺失,任意缺失和單調(diào)缺失。單值缺失:如果所有的缺失值都是同一屬性,那么這種缺失成為單值缺失。任意缺失:如果缺失值屬于不同的屬性,稱為任意缺失。單調(diào)缺失:對于時間序列類的數(shù)據(jù),可能存在隨著時間的缺失,這種缺失稱為單調(diào)缺失。3.處理方法
數(shù)據(jù)集的缺失值可能導致錯誤或者由于沒有記錄的觀察值。如果缺失值出現(xiàn),確定的算法可能就無效了或者得不到期望的結(jié)果。缺失值比其他值更能影響模型。盡管有些模型可以處理缺失值,但是對缺失值比較敏感(某一變量的缺失可能得到不好的預測結(jié)果)。處理缺失值的經(jīng)典方法有:
主要有簡單刪除法和權(quán)重法。簡單刪除法是對缺失值進行處理的最原始方法。它將存在缺失值的個案刪除。如果數(shù)據(jù)缺失問題可以通過簡單的刪除小部分樣本來達到目標,那么這個方法是最有效的。當缺失值的類型為非完全隨機缺失的時候,可以通過對完整的數(shù)據(jù)加權(quán)來減小偏差。把數(shù)據(jù)不完全的個案標記后,將完整的數(shù)據(jù)個案賦予不同的權(quán)重,個案的權(quán)重可以通過logistic或probit回歸求得。如果解釋變量中存在對權(quán)重估計起決定行因素的變量,那么這種方法可以有效減小偏差。如果解釋變量和權(quán)重并不相關(guān),它并不能減小偏差。對于存在多個屬性缺失的情況,就需要對不同屬性的缺失組合賦不同的權(quán)重,這將大大增加計算的難度,降低預測的準確性,這時權(quán)重法并不理想。②可能值插補缺失值
它的思想來源是以最可能的值來插補缺失值比全部刪除不完全樣本所產(chǎn)生的信息丟失要少。在數(shù)據(jù)挖掘中,面對的通常是大型的數(shù)據(jù)庫,它的屬性有幾十個甚至幾百個,因為一個屬性值的缺失而放棄大量的其他屬性值,這種刪除是對信息的極大浪費,所以產(chǎn)生了以可能值對缺失值進行插補的思想與方法。常用的有如下幾種方法。虛擬替換:利用虛擬值替換缺失值。例如:不知道的類別或者數(shù)值0。均值替換:如果缺失值是數(shù)值型的,利用均值替換。頻數(shù)替換:如果缺失值是類別的,利用出現(xiàn)最多的項替換?;貧w替換:利用回歸方法得到回歸值替換缺失值。(二)處理異常值和離群點
1.異常值異常值(outlier)是指樣本中的個別值,其數(shù)值明顯偏離它(或他們)所屬樣本的其余觀測值。一組測定值中與平均值的偏差超過兩倍標準差的測定值,與平均值的偏差超過三倍標準差的測定值,稱為高度異常的異常值。異常值可能通過扭曲預測模型而帶來問題。判斷異常值的統(tǒng)計學原則:上側(cè)情形:異常值為高端值;下側(cè)情形:異常值為低端值;雙側(cè)情形:異常值在兩端可能出現(xiàn)極端值。(1)簡單統(tǒng)計分析對屬性值進行一個描述性的統(tǒng)計,從而查看哪些值是不合理的。比如對年齡這個屬性進行規(guī)約:年齡的區(qū)間在[0:200],如果樣本中的年齡值不再該區(qū)間范圍內(nèi),則表示該樣本的年齡屬性屬于異常值。(2)箱型圖箱型圖提供了一個識別異常值的標準,即大于或小于箱型圖設定的上下界的數(shù)值即為異常值,箱型圖如圖3.4所示。上四分位設為U,表示的是所有樣本中只有1/4的數(shù)值大于U;同理,下四分位設為L,表示的是所有樣本中只有1/4的數(shù)值小于L。設上四分位與下四分位的插值為IQR,即:IQR=U-L,上界為U+1.5IQR,下界為:L-1.5IQR。箱型圖選取異常值比較客觀,在識別異常值方面有一定的優(yōu)越性。(3)3δ原則
當數(shù)據(jù)服從正態(tài)分布時,根據(jù)正態(tài)分布的定義可知,距離平均值3δ之外的概率為P(|x-μ|>3δ)<=0.003,這屬于極小概率事件,在默認情況下我們可以認定,距離超過平均值3δ的樣本是不存在的。因此,當樣本距離平均值大于3δ,則認定該樣本為異常值2.離群點
離群點也稱之為歧異值,有時也稱其為野值。概括的說,離群點是由于系統(tǒng)受外部干擾而造成的。但是,形成離群點的系統(tǒng)外部干擾是多種多樣的。首先可能是采樣中的誤差,如記錄的偏誤,工作人員出現(xiàn)筆誤,計算錯誤等,都有可能產(chǎn)生極端大值或者極端小值。其次可能是被研究現(xiàn)象本身由于受各種偶然非正常的因素影響而引起的,例如。在人口死亡序列中,由于某年發(fā)生了地震,使該年度死亡人數(shù)劇增,形成離群點;在股票價格序列中,由于受某項政策出臺或某種謠傳的刺激,都會出現(xiàn)極增,極減現(xiàn)象,變現(xiàn)為序列中的離群點。1)離群點檢測
離群點檢驗就是通過多種檢測方法找出其行為不同于預期對象的數(shù)據(jù)點的過程。①基于統(tǒng)計的方法:基于統(tǒng)計的離群點檢測一般遵循以下思路:設定數(shù)據(jù)集的分布模型——不和諧檢驗——發(fā)現(xiàn)離群點。離群點概率定義:離群點是少數(shù)異常于正常數(shù)據(jù)集的數(shù)據(jù)對象,在概率分布模型中,具有低概率。因為離群點在概率分布模型中低概率出現(xiàn),可以通過檢測低概率的數(shù)據(jù)對象或數(shù)據(jù)樣本,不過缺點也較為明顯,低概率出現(xiàn)的樣本不一定也是離群點(比如進貨客戶群中,進貨量大的客戶雖然少,但是也是我們需要的對象);②基于鄰近性的方法:離群點,一個“離”字表現(xiàn)其特點,在特征空間中,離群點對象與其最近鄰之間的鄰近性顯著偏離數(shù)據(jù)集中其他對象與它們自己的最近鄰之間的鄰近性。比如說,使用數(shù)據(jù)對象的三個最近鄰來進行建模,那么R區(qū)域里面的顯著不同于該數(shù)據(jù)集的其他對象點;對應R中的對象,它們的第二個第三個最近鄰都顯著比其他對象的更遠(超出一定的標差),因此可以將R區(qū)域中的對象作一個標記為基于鄰近性的離群點;③基于聚類的方法:通過考察對象與簇之間的關(guān)系檢測離群點,換而言之,離群點是一個對象,它屬于小的稀疏簇或者不屬于任何簇。主要有幾種考察方法:該對象屬于某個簇嗎?如果不屬于,則被識別為離群點;(比如群居動物,山羊兔子成群居住和遷移,那么這些數(shù)據(jù)對象會劃分為一個簇,這樣可以不屬于這些簇的數(shù)據(jù)對象識別為離群點);該對象與最近的簇之間的距離很遠嗎?如果遠,則被識別為離群點;該對象是小簇或稀疏簇的一部分嗎?如果是,則該簇內(nèi)所有對象被識別為離群點;④基于分類的方法:如果訓練數(shù)據(jù)中有類標號,則可以將其視為分類問題,該問題思路一般是:訓練一個可以區(qū)分“正常數(shù)據(jù)”和離群點的分類模型。(一個人到銀行是否辦理貸款業(yè)務,辦理與不辦理就是2個類標號)。通常使用一類模型(one-classmodel),也就是構(gòu)造一個僅僅描述正常類的分類器,這樣不屬于正常類的樣本就是離群點,僅使用正常類檢測離群點可以檢測不靠近訓練集中的離群點的新離群點;這樣,當一個新離群點進來時,只要它位于正常類的決策邊界內(nèi)就為正常點,在決策邊界外就為離群點。(2)離群點的處理
具體如何處理離群點應該視情況而定。①保持離群點:一些數(shù)據(jù)中可能是真實值得離群點沒有必要必須從數(shù)據(jù)中移除。在一些應用中,離群點會提供一些決定性的信息。比如:在一個信用卡欺詐檢測的APP里,他們可以提供陷入消費者習慣購買模式之外。②移除離群點:有兩種方法移除離群點:修改或者截斷替換截斷或修改小于5%的數(shù)據(jù)點不會對假設結(jié)果產(chǎn)生太大的影響。大于5%的數(shù)據(jù)點可能影響輸出結(jié)果,主要有:削弱分析的力度;使樣本缺少代表性;可能影響正常數(shù)據(jù);考慮到數(shù)據(jù)轉(zhuǎn)換,選擇一個可替代的結(jié)果變量或者數(shù)據(jù)分析技術(shù)3.3.2數(shù)據(jù)歸一化
數(shù)據(jù)標準化(歸一化)處理是數(shù)據(jù)挖掘的一項基礎(chǔ)工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數(shù)據(jù)分析的結(jié)果,為了消除指標之間的量綱影響,需要進行數(shù)據(jù)標準化處理,以解決數(shù)據(jù)指標之間的可比性。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標準化處理后,各指標處于同一數(shù)量級,適合進行綜合對比評價(一)Min-Max歸一化
也稱為離差標準化,是對原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0-1]之間。轉(zhuǎn)換函數(shù)如下:。其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。這種方法有個缺陷就是當有新數(shù)據(jù)加入時,可能導致max和min的變化,需要重新定義。(二)Z-score歸一化(標準歸一化)
根據(jù)數(shù)據(jù)的均值和方差歸一化:利用數(shù)據(jù)平均值的差除以數(shù)據(jù)的方差。特征標準化使得數(shù)據(jù)具有0均值(即當減去分子中的均值是)和標準方差。公式:。其中為所有樣本數(shù)據(jù)的均值,為所有樣本數(shù)據(jù)的標準差。(三)Decimal歸一化
將數(shù)據(jù)中帶有小數(shù)點的特征值去掉小數(shù)點。注意:數(shù)據(jù)集的不同度量尺度可能是有問題的,在一些特定的機器學習算法是要求數(shù)據(jù)具有相同的比例的。3.3.3數(shù)據(jù)離散化
(一)離散化基本概念離散化,把無限空間中有限的個體映射到有限的空間中去,以此提高算法的時空效率。通俗的說,離散化是在不改變數(shù)據(jù)相對大小的條件下,對數(shù)據(jù)進行相應的縮小。例如:原數(shù)據(jù):1,999,100000,15;處理后:1,3,4,2;原數(shù)據(jù):{100,200},{20,50000},{1,400};處理后:{3,4},{2,6},{1,5};有些數(shù)據(jù)挖掘算法,特別是某些分類算法(如樸素貝葉斯),要求數(shù)據(jù)是分類屬性形式(類別型屬性)這樣常常需要將連續(xù)屬性變換成分類屬性(離散化,Discretization)。另外,如果一個分類屬性(或特征)具有大量不同值,或者某些出現(xiàn)不頻繁,則對于某些數(shù)據(jù)挖掘任務,通過合并某些值減少類別的數(shù)目可能是有益的。與特征選擇一樣,最佳的離散化方法是對于用來分析數(shù)據(jù)的數(shù)據(jù)挖掘算法,產(chǎn)生最好結(jié)果的方法,而直接使用這種判別標準通常是不實際的,因此,離散化一般需要滿足這樣一種判別標準,它與所考慮的數(shù)據(jù)挖掘任務的性能好壞直接相關(guān)。通常離散化應用于分類或關(guān)聯(lián)分析中所使用的屬性上。一般來說,離散化的效果取決于所使用的算法,以及用到的其他屬性。然而,屬性離散化通常單獨考慮。連續(xù)屬性變換為類別屬性設計兩個子任務(1)決定需要多少個類別值;(2)確定如何將連續(xù)屬性映射到這些分類值。(二)離散化處理的一般過程
對連續(xù)特征進行離散化處理,一般經(jīng)過以下步驟:對此特征進行排序。特別是對于大數(shù)據(jù)集,排序算法的選擇要有助于節(jié)省時間,提高效率,減少離散化的整個過程的時間開支及復雜度。選擇某個點作為候選斷點,用所選取的具體的離散化方法的尺度進行衡量此候選斷點是否滿足要求。若候選斷點滿足離散化的衡量尺度,則對數(shù)據(jù)集進行分裂或合并,再選擇下一個候選斷點,重復步驟2、3。當離散算法存在停止準則時,如果滿足停止準則,則不再進行離散化過程,從而得到最終的離散結(jié)果。關(guān)于離散結(jié)果的好壞,還是要看模型的效果。(三)離散化方法
1.等寬法
等寬法即是將屬性值分為具有相同寬度的區(qū)間,區(qū)間的個數(shù)k根據(jù)實際情況來決定。比如屬性值在[0,60]之間,最小值為0,最大值為60,我們要將其分為3等分,則區(qū)間被劃分為[0,20]、[21,40]、[41,60],每個屬性值對應屬于它的那個區(qū)間。2.等頻法
等頻法又稱為登高法,將屬性值均勻分為n等份,每份內(nèi)包含的觀察點數(shù)相同。比如有60個樣本,我們要將其分為k=3部分,則每部分的長度為20個樣本。3.優(yōu)化離散
卡方檢驗方法:(統(tǒng)計樣本的實際觀測值與理論推斷值之間的偏離程度,卡方值越大,越不符合;卡方值越小,偏差越小,越趨于符合;分裂方法:找到一個分裂點看,左右2個區(qū)間,在目標值上分布是否有-顯著差異,有顯著差異就分裂,否則就忽略。這個點可以每次找差異最大的點;合并方法:先劃分如果很小單元區(qū)間,按順序合并在目標值上分布不顯著的相鄰區(qū)間,直到收斂。
3.3.4數(shù)據(jù)降維
當分析的數(shù)據(jù)非常龐大,通常比較好用的減少數(shù)據(jù)量的方法是將數(shù)據(jù)減少維度而且使得數(shù)據(jù)變得更加具有代表性和容易處理。這將促進數(shù)據(jù)的理解,探索和特征工程。大量的數(shù)據(jù)會導致算法更長的運行時間和更大的計算和內(nèi)存需求。在總的數(shù)據(jù)訓練之前你可以拿一些具有代表性的少量數(shù)據(jù)去訓練,這樣可能會更快的探索和驗證方案。數(shù)據(jù)的多重共線性:特征屬性之間存在著相互關(guān)聯(lián)關(guān)系。多重共線性會導致解的空間不穩(wěn)定,從而導致模型的泛化能力弱;高維空間樣本具有稀疏性,導致模型比較難找到數(shù)據(jù)特征;過多的變量會妨礙模型查找規(guī)律;僅僅考慮單個變量對于目標屬性的影響可能忽略變量之間的潛在關(guān)系。(二)降維方法
機器學習領(lǐng)域中所謂的降維就是指采用某種映射方法,將原高維空間中的數(shù)據(jù)點映射到低維度的空間中。降維的本質(zhì)是學習一個映射函數(shù)f:x→y,其中x是原始數(shù)據(jù)點的表達,目前最多使用向量表達形式。y是數(shù)據(jù)點映射后的低維向量表達,通常y的維度小于x的維度(當然提高維度也是可以的)。1.主成分分析算法(PCA)
PrincipalComponentAnalysis(PCA)主成分分析法是一種數(shù)學變換的方法,它把給定的一組相關(guān)變量通過線性變換轉(zhuǎn)成另一組不相關(guān)的變量,這些新的變量按照方差依次遞減的順序排列。在數(shù)學變換中保持變量的總方差不變,使第一變量具有最大的方差,稱為第一主成分,第二變量的方差次大,并且和第一變量不相關(guān),稱為第二主成分。依次類推,I個變量就有I個主成分。例來說,二維平面有5個點,可以用2*5的矩陣X來表示:對X進行歸一化,使X每一行減去其對應的均值,得到:
求X的協(xié)方差矩陣:將原數(shù)據(jù)降為一維,選擇最大的特征值對應的特征向量,因此P為:
特征值降維后的數(shù)據(jù):
3.3.5文本清洗
在讀取/寫入文本時不適當?shù)奈谋揪幋a處理會導致信息的丟失,不經(jīng)意的引入不可讀的字符(如:null)也可能影響文本解析。一些非結(jié)構(gòu)化的文本如推特,生產(chǎn)評論或者網(wǎng)頁訪問數(shù)據(jù)在被分析之前通常需要做一些準備工作。利用空格替換特殊字符和標點符號;規(guī)范化案例;移除重復的字符;移除用戶自定義的或者內(nèi)置的停用詞;詞干提取。(1)規(guī)范化(Normalization):得到純文本后,第一步通常要做就是規(guī)范化。在英文中,所有句子第一個單詞的首字母一般是大寫,有的單詞也會全部字母都大寫用于表示強調(diào)和區(qū)分風格,這樣更易于人類理解表達的意思,但是從計算機的角度來說是沒法區(qū)別’Car’、‘car’、'CAR’是否是一個意思的,因此我們一般把文本中所有字母都轉(zhuǎn)換為小寫或大寫(通常意義上是小寫),沒歌詞用一個唯一的詞來表示。小寫轉(zhuǎn)換和標點移除是兩個最常見的文本Normalization步驟,是否需要以及在哪個階段使用這兩個步驟取決于你的最終目標。(2)分詞(Tokenization):Token是“符號”的高級表達,一般值具有某種意義,無法再拆分的符號。在英文自然語言處理中,Tokens通常是單獨的詞,因此Tokenization就是將每個句子拆分為一系列的詞。通常情況下,最簡單的方法是使用split()方法返回詞列表。默認情況下是將一段話在空格字符處拆分,除了空格,也包括其他標簽、新行等。同樣也可以使用可選參數(shù)對其進行控制。(3)停用詞處理(Stopwords):StopWord是無含義的詞,例如’is’/‘our’/‘the’/‘in’/'at’等。它們不會給句子增加太多含義,單停止詞是頻率非常多的詞。為了減少我們要處理的詞匯量,從而降低后續(xù)程序的復雜度,需要清除停止詞。(4)標注詞性(Part-of-speechTagging):識別詞在句子中的用途有助于我們更好理解句子內(nèi)容。并且,標注詞性還可以明確詞之間的關(guān)系,并識別出交叉引用。(5)標注實體(NamedEntityRecognition):NamedEntity一般是名詞短語,又來指代某些特定對象、人、或地點可以使用ne_chunk()方法標注文本中的命名實體。在進行這一步前,必須先進行Tokenization并進行PoSTagging。(6)詞干和詞元化(StemmingandLemmatization):為了進一步簡化文本數(shù)據(jù),我們可以將詞的不同變化和變形標準化。Stemming提取是將詞還原成詞干或詞根的過程。例如’brancing’/‘branched’/‘branches’等,都可以還原成’branch’??偠灾?,它們都表達了分成多個路線或分支的含義。這有助于降低復雜度,并同時保留詞所含的基本含義。Stemming是利用非常簡單的搜索和替換樣式規(guī)則進行的。例如,后綴’ing’和’ed’可以丟棄;'ies’可以用’y’替換等等。這樣可能會變成不是完整詞的詞干,但是只要這個詞的所有形式都還原成同一個詞干即可。因此它們都含有共同的根本含義。Lemmatization是將詞還原成標準化形式的另一種技術(shù)。在這種情況下,轉(zhuǎn)換過程實際上是利用詞典,將一個詞的不同變形映射到它的詞根。通過這種方法,我們能將較大的詞形3.4ETL(數(shù)據(jù)抽取、轉(zhuǎn)換及加載)一、ETL基本概念ETL(Extraction,Transfer,Load)就是數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換和加工、數(shù)據(jù)裝載,負責將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。為了實現(xiàn)這些功能,ETL工具會進行一些功能上的擴充,例如工作流、調(diào)度引擎、規(guī)則引擎、腳本支持、統(tǒng)計信息等。(一)ETL的挑戰(zhàn)性
ETL功能十分具有挑戰(zhàn)性,主要是因為源系統(tǒng)的性質(zhì)各異:1.源系統(tǒng)彼此懸殊,種類多樣,通常需要應付多個平臺上的不同操作系統(tǒng);2.很多源數(shù)據(jù)都是陳舊的應用系統(tǒng)采用的是過時的技術(shù);3.舊系統(tǒng)中的數(shù)據(jù)質(zhì)量各不相同,需要花很多時間進行處理;4.歷史數(shù)據(jù)通常不會被保存在操作型系統(tǒng)中,但對于數(shù)據(jù)挖掘至關(guān)重要;5.源系統(tǒng)之間普遍缺乏一致性。在不同的源系統(tǒng)中,相同的數(shù)據(jù)可能會用不同的形式來代表,且缺乏解決方法,導致不一致問題更加嚴重;6.源系統(tǒng)的結(jié)構(gòu)隨著時間會發(fā)生變化,因為新的商業(yè)條件不斷出現(xiàn)。ETL功能也必須相應的調(diào)整;7.大多數(shù)源系統(tǒng)的數(shù)據(jù)格式和類型對用戶沒有實際的含義,而且很多展現(xiàn)方式模糊而晦澀的。根據(jù)統(tǒng)計,數(shù)據(jù)挖掘工作的50%~70%的時間花費在ETL上。ETL處理過程的主要步驟二、數(shù)據(jù)抽取
數(shù)據(jù)抽取是從數(shù)據(jù)源中抽取數(shù)據(jù)的過程。實際應用中,數(shù)據(jù)源較多采用的是關(guān)系數(shù)據(jù)庫。從數(shù)據(jù)庫中抽取數(shù)據(jù)一般有以下幾種方式。1.全量抽取全量抽取類似于數(shù)據(jù)遷移或數(shù)據(jù)復制,它將數(shù)據(jù)源中的表或視圖的數(shù)據(jù)原封不動的從數(shù)據(jù)庫中抽取出來,并轉(zhuǎn)換成自己的ETL工具可以識別的格式。全量抽取比較簡單。2.增量抽取增量抽取指抽取自上次抽取以來數(shù)據(jù)庫中要抽取的表中新增、修改、刪除的數(shù)據(jù)。在ETL使用過程中。增量抽取較全量抽取應用更廣。如何捕獲變化的數(shù)據(jù)是增量抽取的關(guān)鍵。對捕獲方法一般有兩點要求:準確性,能夠?qū)I(yè)務系統(tǒng)中的變化數(shù)據(jù)準確地捕獲到;性能,盡量減少對業(yè)務系統(tǒng)造成太大的壓力,影響現(xiàn)有業(yè)務。目前增量數(shù)據(jù)抽取中常用的捕獲變化數(shù)據(jù)的方法(1)觸發(fā)器:在要抽取的表上建立需要的觸發(fā)器,一般要建立插入、修改、刪除三個觸發(fā)器,每當源表中的數(shù)據(jù)發(fā)生變化,就被相應的觸發(fā)器將變化的數(shù)據(jù)寫入一個臨時表,抽取線程從臨時表中抽取數(shù)據(jù)。觸發(fā)器方式的優(yōu)點是數(shù)據(jù)抽取的性能較高,缺點是要求在業(yè)務數(shù)據(jù)庫中建立觸發(fā)器,對業(yè)務系統(tǒng)有一定的性能影響。(2)時間戳:它是一種基于遞增數(shù)據(jù)比較的增量數(shù)據(jù)捕獲方式,在源表上增加一個時間戳字段,系統(tǒng)中更新修改表數(shù)據(jù)的時候,同時修改時間戳字段的值。當進行數(shù)據(jù)抽取時,通過比較系統(tǒng)時間與時間戳字段的值來決定抽取哪些數(shù)據(jù)。有的數(shù)據(jù)庫的時間戳支持自動更新,即表的其它字段的數(shù)據(jù)發(fā)生改變時,自動更新時間戳字段的值。有的數(shù)據(jù)庫不支持時間戳的自動更新,這就要求業(yè)務系統(tǒng)在更新業(yè)務數(shù)據(jù)時,手工更新時間戳字段。同觸發(fā)器方式一樣,時間戳方式的性能也比較好,數(shù)據(jù)抽取相對清楚簡單,但對業(yè)務系統(tǒng)也有很大的傾入性(加入額外的時間戳字段),特別是對不支持時間戳的自動更新的數(shù)據(jù)庫,還要求業(yè)務系統(tǒng)進行額外的更新時間戳操作。另外,無法捕獲對時間戳以前數(shù)據(jù)的delete和update操作,在數(shù)據(jù)準確性上受到了一定的限制。(3)全表刪除插入方式每次ETL操作
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 備戰(zhàn)2025年中考語文課內(nèi)文言文(統(tǒng)編版)20《與朱元思書》三年中考真題+模擬題(學生版+解析)
- 股東平等原則與對賭協(xié)議書(2篇)
- 南京工業(yè)大學浦江學院《稅法二》2022-2023學年第一學期期末試卷
- 殯儀館施工組織設計
- 方爺爺和圓奶奶說課稿
- 肚子里的故事說課稿
- 《中 國美食》說課稿
- 《液體的壓強》說課稿
- 南京工業(yè)大學浦江學院《公共事業(yè)管理》2023-2024學年第一學期期末試卷
- 八年級第六單元《三峽》說課稿
- 北京市海淀區(qū)2024-2025學年高三第一學期期中練習語文試卷含答案
- 江蘇省徐州市銅山區(qū)2023-2024學年九年級上學期期中英語試卷(含答案解析)
- 大數(shù)據(jù)處理服務合同
- 河北省唐山市灤南縣2024-2025學年七年級上學期10月期中數(shù)學試題
- 劉潤年度演講2024
- GB/T 44653-2024六氟化硫(SF6)氣體的現(xiàn)場循環(huán)再利用導則
- GB/T 44540-2024精細陶瓷陶瓷管材或環(huán)材彈性模量和彎曲強度的測定缺口環(huán)法
- 道路交通安全法律法規(guī)
- 應急管理試題庫
- 緣起、流變與現(xiàn)狀:當前中國古詩詞藝術(shù)歌曲的發(fā)展思考
- 2020行政事業(yè)單位審計報告(最新)
評論
0/150
提交評論