數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 課件(含思政案例)第 3 章 數(shù)據(jù)預(yù)處理_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 課件(含思政案例)第 3 章 數(shù)據(jù)預(yù)處理_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 課件(含思政案例)第 3 章 數(shù)據(jù)預(yù)處理_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 課件(含思政案例)第 3 章 數(shù)據(jù)預(yù)處理_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 課件(含思政案例)第 3 章 數(shù)據(jù)預(yù)處理_第5頁
已閱讀5頁,還剩79頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第3章數(shù)據(jù)預(yù)處理本章內(nèi)容數(shù)據(jù)預(yù)處理的必要性數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)規(guī)約數(shù)據(jù)變換與離散化利用sklearn進(jìn)行數(shù)據(jù)預(yù)處理30五月20242低質(zhì)量的數(shù)據(jù)導(dǎo)致低質(zhì)量的數(shù)據(jù)挖掘結(jié)果數(shù)據(jù)是數(shù)據(jù)挖掘的目標(biāo)對象和原始資源,對數(shù)據(jù)挖掘最終結(jié)果起著決定性的作用?,F(xiàn)實世界中的數(shù)據(jù)是多種多樣的,具有不同的特征,這就要求數(shù)據(jù)的存儲采用合適的數(shù)據(jù)類型,并且數(shù)據(jù)挖掘算法的適用性會受到具體的數(shù)據(jù)類型限制。第3章數(shù)據(jù)預(yù)處理1.數(shù)據(jù)預(yù)處理的必要性現(xiàn)實世界中的數(shù)據(jù)大多都是“臟”的,原始數(shù)據(jù)通常存在著噪聲、不一致、部分?jǐn)?shù)據(jù)缺失等問題。數(shù)據(jù)的不一致各應(yīng)用系統(tǒng)的數(shù)據(jù)缺乏統(tǒng)一的標(biāo)準(zhǔn)和定義,數(shù)據(jù)結(jié)構(gòu)有較大的差異2.噪聲數(shù)據(jù)收集數(shù)據(jù)時很難得到精確的數(shù)據(jù),如數(shù)據(jù)采集設(shè)備故障、數(shù)據(jù)傳輸過程中會出現(xiàn)錯誤或存儲介質(zhì)可能出現(xiàn)的損壞等情況3.缺失值系統(tǒng)設(shè)計時可能存在的缺陷或者在系統(tǒng)使用過程中人為因素的影響30五月202441.數(shù)據(jù)預(yù)處理的必要性數(shù)據(jù)質(zhì)量要求數(shù)據(jù)挖掘需要的數(shù)據(jù)必須是高質(zhì)量的數(shù)據(jù),即數(shù)據(jù)挖掘所處理的數(shù)據(jù)必須具有準(zhǔn)確性(Correctness)、完整性(Completeness)和一致性(Consistency)等性質(zhì)。此外,時效性(Timeliness)、可信性(Believability)和可解釋性(Interpretability)也會影響數(shù)據(jù)的質(zhì)量。30五月202452.數(shù)據(jù)清洗現(xiàn)實世界中的數(shù)據(jù)一般是不完整的、有噪聲和不一致的“臟”數(shù)據(jù),數(shù)據(jù)清理試圖填充缺失的數(shù)據(jù)值、光滑噪聲、識別離群點并糾正數(shù)據(jù)中的不一致。數(shù)據(jù)并不總是完整的引起空缺值的原因設(shè)備故障和其他數(shù)據(jù)不一致可能被刪除數(shù)據(jù)沒有被錄入-------Missingdata需要經(jīng)過推斷而補上30五月202462.數(shù)據(jù)清洗數(shù)據(jù)清洗方法1.缺失值的處理(1)忽略元組(2)人工填寫缺失值(3)使用一個全局常量填充缺失值(4)使用屬性的中心度量(如均值或中位數(shù))填充缺失值(5)使用與給定元組屬同一類的所有樣本的屬性均值或中位數(shù)(6)使用最可能的值填充缺失值30五月202472.數(shù)據(jù)清洗2.噪聲數(shù)據(jù)的處理噪聲(Noise)是被測量的變量的隨機誤差或方差。噪聲的處理方法一般有分箱、回歸和離群點分析等方法。(1)分箱(2)回歸(3)離群點分析利用Pandas進(jìn)行數(shù)據(jù)清洗30五月202482.數(shù)據(jù)清洗In[1]:string_data=pd.Series(['aardvark','artichoke',np.nan,'avocado'])print(string_data)string_data.isnull()5/30/2024(1)缺失值的檢測與統(tǒng)計函數(shù)isnull()可以直接判斷該列中的哪個數(shù)據(jù)為NaN?!纠?-1】利用isnull檢測缺失值。利用isnull().sum()統(tǒng)計缺失值。2.數(shù)據(jù)清洗通過info方法,也可以查看DataFrame每列數(shù)據(jù)的缺失情況。【例4-4】用info方法查看DataFrame的缺失值。5/30/2024In[4]:()Out[4]:<class'pandas.core.frame.DataFrame'>RangeIndex:3entries,0to2Datacolumns(total5columns):A2non-nullfloat64B2non-nullfloat64C2non-nullfloat64D2non-nullfloat6430non-nullfloat64dtypes:float64(5)memoryusage:200.0bytes2.數(shù)據(jù)清洗缺失值的處理(1)刪除缺失值在缺失值的處理方法中,刪除缺失值是常用的方法之一。通過dropna方法可以刪除具有缺失值的行。dropna方法的格式:dropna(axis=0,how=‘a(chǎn)ny’,thresh=None,subset=None,inplace=False)5/30/20242.數(shù)據(jù)清洗(2)填充缺失值缺失值所在的特征為數(shù)值型時,通常利用其均值、中位數(shù)和眾數(shù)等描述其集中趨勢的統(tǒng)計量來填充;缺失值所在特征為類別型數(shù)據(jù)時,則選擇眾數(shù)來填充。Pandas庫中提供了缺失值替換的方法fillna。fillna的格式如下:pandas.DataFrame.fillna(value=None,method=None,asxi=None,inplace=False,limit=None)5/30/20242.數(shù)據(jù)清洗通過字典形式填充缺失值。5/30/2024In[11]:df=pd.DataFrame(np.random.randn(5,3))df.loc[:3,1]=NAdf.loc[:2,2]=NAprint(df)df.fillna({1:0.88,2:0.66})2.數(shù)據(jù)清洗數(shù)據(jù)值替換數(shù)據(jù)值替換是將查詢到的數(shù)據(jù)替換為指定數(shù)據(jù)。在Pandas中通過replace進(jìn)行數(shù)據(jù)值的替換。5/30/2024In[15]:data={'姓名':['張三','小明','馬芳','國志'],'性別':['0','1','0','1'],

'籍貫':['北京','甘肅','','上海']}df=pd.DataFrame(data)df=df.replace('','不詳')print(df)2.數(shù)據(jù)清洗在數(shù)據(jù)分析中,經(jīng)常需要進(jìn)行數(shù)據(jù)的映射或轉(zhuǎn)換,在Pandas中可以自定義函數(shù),然后通過map方法實現(xiàn)。5/30/20242.數(shù)據(jù)清洗3.數(shù)據(jù)異常值檢測異常值是指數(shù)據(jù)中存在的數(shù)值明顯偏離其余數(shù)據(jù)的值。異常值的存在會嚴(yán)重干擾數(shù)據(jù)分析的結(jié)果,因此經(jīng)常要檢驗數(shù)據(jù)中是否有輸入錯誤或含有不合理的數(shù)據(jù)。在利用簡單的數(shù)據(jù)統(tǒng)計方法中一般常用散點圖、箱線圖和3σ法則。30五月2024162.數(shù)據(jù)清洗3.數(shù)據(jù)異常值檢測1)散點圖方法:30五月2024172.數(shù)據(jù)清洗3.數(shù)據(jù)異常值檢測2)盒圖:利用箱線圖進(jìn)行異常值檢測時,根據(jù)經(jīng)驗,將最大(最小)值設(shè)置為與四分位數(shù)值間距為1.5個IQR(IQR=Q3-Q1)的值,即min=Q1-1.5IQR,max=Q3+1.5IQR,小于min和大于max的值被認(rèn)為是異常值。30五月2024183.數(shù)據(jù)集成3.數(shù)據(jù)異常值檢測3)3σ法則:若數(shù)據(jù)服從正態(tài)分布,在3σ原則下,異常值被定義為一組測定值中與平均值的偏差超過3倍標(biāo)準(zhǔn)差的值,因為在正態(tài)分布的假設(shè)下,距離平均值3σ之外的值出現(xiàn)的概率小于0.003。因此根據(jù)小概率事件,可以認(rèn)為超出3σ之外的值為異常數(shù)據(jù)。30五月2024193.數(shù)據(jù)集成數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)合并,存放于一個一致的數(shù)據(jù)存儲中。數(shù)據(jù)集成過程中的關(guān)鍵問題1.實體識別2.數(shù)據(jù)冗余和相關(guān)分析3.元組重復(fù)4.數(shù)據(jù)值沖突檢測與處理30五月2024203.數(shù)據(jù)集成數(shù)據(jù)集成過程中的關(guān)鍵問題1.實體識別實體識別問題是數(shù)據(jù)集成中的首要問題,因為來自多個信息源的現(xiàn)實世界的等價實體才能匹配。如數(shù)據(jù)集成中如何判斷一個數(shù)據(jù)庫中的customer_id和另一數(shù)據(jù)庫中的cust_no是指相同的屬性?30五月2024213.數(shù)據(jù)集成數(shù)據(jù)集成過程中的關(guān)鍵問題2.數(shù)據(jù)冗余和相關(guān)分析冗余是數(shù)據(jù)集成的另一重要問題。如果一個屬性能由另一個或另一組屬性值“推導(dǎo)”出,則這個屬性可能是冗余的。屬性命名不一致也會導(dǎo)致結(jié)果數(shù)據(jù)集中的冗余。30五月2024223.數(shù)據(jù)集成數(shù)據(jù)集成過程中的關(guān)鍵問題2.數(shù)據(jù)冗余和相關(guān)分析30五月202423(1)標(biāo)稱數(shù)據(jù)的

相關(guān)檢驗(2)數(shù)值數(shù)據(jù)的相關(guān)系數(shù)(3)數(shù)值數(shù)據(jù)的協(xié)方差3.數(shù)據(jù)集成30五月2024243.數(shù)據(jù)集成數(shù)據(jù)集成過程中的關(guān)鍵問題3.元組重復(fù)除了檢查屬性的冗余之外,還要檢測重復(fù)的元組,如給定唯一的數(shù)據(jù)實體,存在兩個或多個相同的元組。利用Pandas.DataFrame.duplicates方法檢測重復(fù)的數(shù)據(jù)利用Pandas.DataFrame.drop_duplicates方法刪除重復(fù)的數(shù)據(jù)30五月2024253.數(shù)據(jù)集成數(shù)據(jù)集成過程中的關(guān)鍵問題4.數(shù)據(jù)值沖突檢測與處理數(shù)據(jù)集成還涉及數(shù)據(jù)值沖突的檢測與處理。例如不同學(xué)校的學(xué)生交換信息時,由于不同學(xué)校有各自的課程計劃和評分方案,同一門課的成績所采取的評分分?jǐn)?shù)也有可能不同,如十分制或百分制。30五月2024263.數(shù)據(jù)集成2.利用Pandas合并數(shù)據(jù)在實際的數(shù)據(jù)分析中,可能有不同的數(shù)據(jù)來源,因此,需要對數(shù)據(jù)進(jìn)行合并處理。(1)merge數(shù)據(jù)合并(2)concat數(shù)據(jù)連接(3)combine_first合并數(shù)據(jù)30五月2024273.數(shù)據(jù)集成與SQL中的join用法類似,Pandas中的數(shù)據(jù)合并merge()函數(shù)格式如下:merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False,sort=False,suffixes=('_x','_y'),copy=True,indicator=False,validate=None)5/30/20243.數(shù)據(jù)集成5/30/20244.數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)標(biāo)準(zhǔn)化(DataStandardization)一直是一項重要的處理流程。一般將數(shù)據(jù)標(biāo)準(zhǔn)化放在預(yù)處理過程中,作為一項通用技術(shù)而存在。不同特征之間往往具有不同的量綱,由此造成數(shù)值間的差異很大。因此為了消除特征之間量綱和取值范圍的差異可能會造成的影響,需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。機器學(xué)習(xí)中有部分模型是基于距離度量進(jìn)行模型預(yù)測和分類的。由于距離對特征之間不同取值范圍非常敏感,所以基于距離讀量的模型是十分有必要做數(shù)據(jù)標(biāo)準(zhǔn)化處理的。30五月2024304.數(shù)據(jù)標(biāo)準(zhǔn)化另一方面,在原始特征下,因尺度差異,其損失函數(shù)的等高線圖可能是橢圓形,梯度方向垂直于等高線,下降會走zigzag路線,而不是指向局部最小值。通過對特征進(jìn)行變換后,其損失函數(shù)的等高線圖更接近圓形,梯度下降的方向震蕩更小,收斂更快。如下圖所示,圖片來自AndrewNg。30五月2024314.數(shù)據(jù)標(biāo)準(zhǔn)化離差標(biāo)準(zhǔn)化數(shù)據(jù)離差標(biāo)準(zhǔn)化是對原始數(shù)據(jù)所做的一種線性變換,將原始數(shù)據(jù)的數(shù)值映射到[0,1]區(qū)間。消除大單位和小單位的影響(消除量綱)變異大小的差異影響;30五月2024324.數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化數(shù)據(jù)標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化又稱零均值標(biāo)準(zhǔn)化或z分?jǐn)?shù)標(biāo)準(zhǔn)化,是當(dāng)前使用最廣泛的數(shù)據(jù)標(biāo)準(zhǔn)化方法。經(jīng)過該方法處理的數(shù)據(jù)均值為0,標(biāo)準(zhǔn)化為1。消除單位影響及自身變量的差異。30五月202433圖片來自Hung-yiLeepdf-GradientDescent4.數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化數(shù)據(jù)30五月2024344.數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)歸一化/標(biāo)準(zhǔn)化的目的是為了獲得某種“無關(guān)性”,如偏置無關(guān)、尺度無關(guān)、長度無關(guān)等。當(dāng)歸一化/標(biāo)準(zhǔn)化方法背后的物理意義和幾何含義與當(dāng)前問題的需要相契合時,則會對解決該問題有正向作用,反之,會起反作用。因此,如何選擇標(biāo)準(zhǔn)化方法取決于待解決的問題。一般來說,涉及或隱含距離計算以及損失函數(shù)中含有正則項的算法,比如K-means、KNN、PCA、SVM等,需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,距離計算無關(guān)的概率模型和樹模型,如樸素貝葉斯、決策樹和隨機森林等,則不需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。5/30/20245.數(shù)據(jù)歸約

數(shù)據(jù)歸約(DataReduction)用于在盡可能保持?jǐn)?shù)據(jù)完整性的基礎(chǔ)上得到數(shù)據(jù)的歸約表示。也就是說,在歸約后的數(shù)據(jù)集上挖掘?qū)⒏行В胰詴a(chǎn)生相同或相似的分析結(jié)果。數(shù)據(jù)歸約包括維歸約、數(shù)量歸約和數(shù)據(jù)壓縮。30五月2024365.數(shù)據(jù)規(guī)約

維歸約的思路是減少所考慮的隨機變量或?qū)傩缘膫€數(shù),用的方法有屬性子集選擇、小波變換和主成分分析。屬性子集選擇是一種維歸約方法,其中不相關(guān)、弱相關(guān)或冗余的屬性或維被檢測或刪除。而后兩種方法是原始數(shù)據(jù)變換或投影到較小的空間。30五月2024375.數(shù)據(jù)規(guī)約

維歸約1.屬性子集選擇屬性子集選擇通過刪除不相關(guān)或者冗余屬性(或維)減少數(shù)據(jù)量。(1)逐步向前選擇由空屬性集作為規(guī)約集的起始,迭代確定原屬性集中最好的屬性并添加到規(guī)約集中。(2)逐步向后刪除由整個屬性集開始,在每次迭代中刪除尚在屬性集中最差的屬性。30五月2024385.數(shù)據(jù)規(guī)約-維歸約

維歸約1.屬性子集選擇(3)逐步向前選擇和逐步向后刪除的組合每一步選擇一個最好的屬性,并在屬性中刪除一個最差的屬性。(4)決策樹歸納由給定的數(shù)據(jù)構(gòu)造決策樹,不出現(xiàn)在樹中的所有屬性假定是不相關(guān)的,出現(xiàn)在樹中的屬性形成規(guī)約后的屬性子集。這些方法的約束條件可以不同,可以使用一個度量閾值決定何時終止屬性選擇過程。30五月2024395.數(shù)據(jù)規(guī)約-維歸約

傅里葉變換-理解傅里葉變換,需要理解兩個核心概念:時域:時間和振幅的關(guān)系圖,橫坐標(biāo)是時間,縱坐標(biāo)是振幅。頻域:頻率和振幅的關(guān)系圖,橫坐標(biāo)是頻率,縱坐標(biāo)是振幅。任何「周期(T)「函數(shù),都可以使用」傅立葉級數(shù)展開法」將它們分解為有限或無限個不同「頻率」不同「振幅」的正弦函數(shù)的疊加。傅里葉級數(shù)展開公式如下:如果把函數(shù)看成離散點構(gòu)成的向量,那么就是這些正弦函數(shù)「基向量」的線性組合。30五月2024405.數(shù)據(jù)規(guī)約-維歸約

傅里葉變換30五月2024415.數(shù)據(jù)歸約-維歸約

小波變換小波變換是一種新的變換分析方法,它繼承和發(fā)展了短時傅立葉變換局部化的思想,同時又克服了窗口大小不隨頻率變化等缺點,能夠提供一個隨頻率改變的“時間-頻率”窗口,是進(jìn)行信號時頻分析和處理的理想工具。30五月2024425.數(shù)據(jù)歸約-維歸約

5/30/20245.數(shù)據(jù)歸約-維歸約

主成分分析主成分分析(PrincipalComponentAnalysis,PCA)又稱Karhunen-Loeve或K-L方法,用于搜索k個最能代表數(shù)據(jù)的n維正交向量,是最常用的一種降維方法。PCA通常用于高維數(shù)據(jù)集的探索與可視化,還可以用作數(shù)據(jù)壓縮和預(yù)處理等,在數(shù)據(jù)壓縮消除冗余和數(shù)據(jù)噪音消除等領(lǐng)域也有廣泛的應(yīng)用。PCA的主要目的是找出數(shù)據(jù)里最主要的方面代替原始數(shù)據(jù)。30五月2024445.數(shù)據(jù)歸約-維歸約

主成分分析例如某個淘寶店2012年全年的流量及交易情況可以看成一組記錄的集合,其中每一天的數(shù)據(jù)是一條記錄,格式如下:

(日期,瀏覽量,訪客數(shù),下單數(shù),成交數(shù),成交金額)從經(jīng)驗我們可以知道,“瀏覽量”和“訪客數(shù)”往往具有較強的相關(guān)關(guān)系,而“下單數(shù)”和“成交數(shù)”也具有較強的相關(guān)關(guān)系。PCA通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無關(guān)的表示,可用于提取數(shù)據(jù)的主要特征分量,常用于高維數(shù)據(jù)的降維。30五月2024455.數(shù)據(jù)歸約-維歸約

在n維線性空間中,任意n個線性無關(guān)的向量都可以作為線性空間的基,即空間的基不唯一。多不同的基,同一個向量的標(biāo)準(zhǔn)一般是不同的。PCA本質(zhì)上是將方差最大的方向作為主要特征,并且在各個正交方向上將數(shù)據(jù)“離相關(guān)”,也就是讓它們在不同正交方向上沒有相關(guān)性。PCA是一種無參數(shù)技術(shù),也就是說面對同樣的數(shù)據(jù),如果不考慮清洗,誰來做結(jié)果都一樣,沒有主觀參數(shù)的介入,所以PCA便于通用實現(xiàn),但是本身無法個性化的優(yōu)化。5/30/20245/30/20241)將原始數(shù)據(jù)按列組成n行m列矩陣X2)將X的每一行(代表一個屬性字段)進(jìn)行零均值化,即減去這一行的均值3)求出協(xié)方差矩陣

4)求出協(xié)方差矩陣的特征值及對應(yīng)的特征向量5)將特征向量按對應(yīng)特征值大小從上到下按行排列成矩陣,取前k行組成矩陣P6)Y=PX即為降維到k維后的數(shù)據(jù)輸入:m條n維數(shù)據(jù)輸出:m條k維數(shù)據(jù)5.數(shù)據(jù)歸約-維歸約

主成分分析30五月2024485.數(shù)據(jù)歸約-維歸約

5/30/2024示例:有數(shù)據(jù)因為這個矩陣的每行已經(jīng)是零均值,這里我們直接求協(xié)方差矩陣:然后求其特征值和特征向量。求解后特征值為:其對應(yīng)的特征向量分別是:標(biāo)準(zhǔn)化后的特征向量為:因此我們的矩陣P是:用P的第一行乘以數(shù)據(jù)矩陣,就得到了降維后的表示:5.數(shù)據(jù)歸約-維歸約

數(shù)據(jù)降維投影結(jié)果如圖:5/30/20245.數(shù)據(jù)歸約-維歸約

主成分分析Sklearn實現(xiàn)鳶尾花數(shù)據(jù)的

降維,將原來的4維降為2維P-12030五月202451importmatplotlib.pyplotaspltfromsklearn.decompositionimportPCAfromsklearn.datasetsimportload_irisdata=load_iris()y=data.targetx=data.datapca=PCA(n_components=2)#加載PCA算法,設(shè)置降維后主成分?jǐn)?shù)目為2reduced_x=pca.fit_transform(x)#對樣本進(jìn)行降維print(reduced_x)5.數(shù)據(jù)歸約-數(shù)量歸約

數(shù)量歸約數(shù)量歸約(NumerosityReduction)

用替代的、較小的數(shù)據(jù)表示形式換原始數(shù)據(jù)。這些技術(shù)可以是參數(shù)或者非參數(shù)的。對于參數(shù)方法而言,使用模型估計數(shù)據(jù),使得一般只需要存放模型參數(shù)而不是實際數(shù)據(jù)(離群點需存放),如回歸和對數(shù)-線性模型。存放數(shù)據(jù)規(guī)約表示的非參數(shù)方法包括:直方圖、聚類、抽樣和數(shù)據(jù)立方體聚類30五月2024521.回歸和對數(shù)線性模型回歸和對數(shù)模型可以用來近似給定的數(shù)據(jù)。2.直方圖將直方圖中桶的個數(shù)由觀測值的數(shù)量n減少到k個,使數(shù)據(jù)變成一塊一塊的呈現(xiàn)。3.聚類聚類后用簇中的代表代替實際數(shù)據(jù)。5/30/20245.數(shù)據(jù)歸約-數(shù)量歸約

4.抽樣通過選取隨機樣本子集,實現(xiàn)小數(shù)據(jù)代表大數(shù)據(jù)的過程。抽樣過程包括簡單隨機抽樣、簇抽樣和分層抽樣。5.數(shù)據(jù)立方體聚類數(shù)據(jù)立方體是將細(xì)粒度的屬性聚集到粗粒度的屬性。5/30/20245.數(shù)據(jù)歸約-數(shù)量歸約

5.數(shù)據(jù)歸約-數(shù)據(jù)壓縮

數(shù)據(jù)壓縮(DataCompression)

使用變換,一遍得到原始數(shù)據(jù)的歸約或“壓縮”表示。如果數(shù)據(jù)可以在壓縮后的數(shù)據(jù)重構(gòu),而不損失信息,則該數(shù)據(jù)歸約被稱為無損的。如果是近似重構(gòu)原數(shù)據(jù),稱為有損的。基于小波變換的數(shù)據(jù)壓縮是一種非常重要的有損壓縮方法。30五月2024556.數(shù)據(jù)變換和離散化

在數(shù)據(jù)預(yù)處理過程中,不同的數(shù)據(jù)適合不同的數(shù)據(jù)挖掘算法。數(shù)據(jù)變換是一種將原始數(shù)據(jù)變換成較好數(shù)據(jù)格式的方法,以便作為數(shù)據(jù)處理前特定數(shù)據(jù)挖掘算法的輸入。數(shù)據(jù)離散化是一種數(shù)據(jù)變換的形式。數(shù)據(jù)變換的策略:1.光滑2.屬性構(gòu)造3.聚集4.規(guī)范化5.離散化6.由標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層30五月202456數(shù)據(jù)變換與離散化數(shù)據(jù)變換的策略1.光滑數(shù)據(jù)光滑用于去掉數(shù)據(jù)中的噪聲。常用的數(shù)據(jù)平滑方法有分箱、回歸和聚類等方法。2.屬性構(gòu)造屬性構(gòu)造是通過由給定的屬性構(gòu)造新的屬性并添加到屬性集中,以幫助數(shù)據(jù)挖掘。3.聚集聚集是對數(shù)據(jù)進(jìn)行匯總或聚集。例如,可以聚集日銷售數(shù)據(jù),計算月和年銷售量。通常,聚集用來為多個抽象層的數(shù)據(jù)分析構(gòu)造數(shù)據(jù)立方體。30五月202457數(shù)據(jù)變換與離散化數(shù)據(jù)變換的策略4.標(biāo)準(zhǔn)化把屬性數(shù)據(jù)按比例縮放,使之落入一個特定的小區(qū)間,如-1.0~1.0。消除特征之間量綱和取值范圍的差異可能造成的影響,需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。30五月202458數(shù)據(jù)變換與離散化30五月202459數(shù)據(jù)標(biāo)準(zhǔn)化之后,由于不同維度之間的特征在數(shù)值上有一定的比較性,可以有效提高分類器的準(zhǔn)確性,而且,會使最優(yōu)解的尋優(yōu)過程明顯變得平緩,更容易正確收斂到最優(yōu)解。數(shù)據(jù)變換與離散化數(shù)據(jù)變換的策略4.標(biāo)準(zhǔn)化把屬性數(shù)據(jù)按比例縮放,使之落入一個特定的小區(qū)間,如-1.0~1.0。(1)最小-最大規(guī)范化30五月202460(2)z分?jǐn)?shù)規(guī)范化(3)小數(shù)定標(biāo)數(shù)據(jù)變換與離散化5/30/20244.標(biāo)準(zhǔn)化

需要做數(shù)據(jù)歸一化/標(biāo)準(zhǔn)化的模型:

線性模型,如基于距離度量的模型,包括KNN、K-means聚類、感知機和SVM;另外,線性回歸類的幾個模型一般情況下也是需要做數(shù)據(jù)歸一化/標(biāo)準(zhǔn)化處理的。

不需要做數(shù)據(jù)歸一化/標(biāo)準(zhǔn)化的模型:決策樹,基于決策樹的Boosting和Bagging等集成學(xué)習(xí)模型對于特征取值大小并不敏感,如隨機森林,XGBoost,LightGBM等模型,以及樸素貝葉斯,這些模型一般不做數(shù)據(jù)歸一化/標(biāo)準(zhǔn)化處理。數(shù)據(jù)變換與離散化數(shù)據(jù)變換的策略5.離散化30五月202462(1)通過分箱離散化分箱是一種基于指定的箱個數(shù)的自頂向下的分裂技術(shù)。例如使用等寬或等頻分箱,然后用箱均值或中位數(shù)替換箱中的每個值,可以將屬性值離散化。分箱對用戶指定的箱個數(shù)很敏感,也易受離群點的影響。數(shù)據(jù)變換與離散化數(shù)據(jù)變換的策略5.離散化30五月202463(2)通過直方圖離散化直方圖把屬性A的值劃分為不相交的區(qū)間,稱作桶或箱??梢允褂酶鞣N劃分規(guī)則定義直方圖。如在等寬直方圖中,將值分成相等分區(qū)或區(qū)間。直方圖分析算法可以遞歸地用于每個分區(qū),自動地產(chǎn)生多級概念分層,直到達(dá)到一個預(yù)先設(shè)定的概念層數(shù),過程終止。(3)通過聚類、決策樹和相關(guān)分析離散化數(shù)據(jù)變換與離散化6.由標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層

對于標(biāo)稱數(shù)據(jù),概念分層可以基于模式定義以及每個屬性的不同值個數(shù)產(chǎn)生。使用概念分層變換數(shù)據(jù)使得較高層的知識模式可以被發(fā)現(xiàn)。它允許在多個抽象層進(jìn)行挖掘。30五月202464Python數(shù)據(jù)變換與離散化

1.數(shù)據(jù)規(guī)范化數(shù)據(jù)分析的預(yù)處理除了數(shù)據(jù)清洗、數(shù)據(jù)合并和標(biāo)準(zhǔn)化之外,還包括數(shù)據(jù)變換的過程,如類別型數(shù)據(jù)變換和連續(xù)型數(shù)據(jù)的離散化。30五月202465Python數(shù)據(jù)變換與離散化2.類別型數(shù)據(jù)的啞變量處理類別型數(shù)據(jù)是數(shù)據(jù)分析中十分常見的特征變量,但是在進(jìn)行建模時,Python不能像R那樣去直接處理非數(shù)值型的變量,因此往往需要對這些類別變量進(jìn)行一系列轉(zhuǎn)換,如啞變量。啞變量(DummyVariables)用以反映質(zhì)的屬性的一個人工變量,是量化了的自變量,通常取值為0或1。Python中利用pandas庫中的get_dummies函數(shù)對類別型特征進(jìn)行啞變量處理。30五月202466Python數(shù)據(jù)變換與離散化2.類別型數(shù)據(jù)的啞變量處理30五月202467Python數(shù)據(jù)變換與離散化

3.連續(xù)型變量的離散化數(shù)據(jù)分析和統(tǒng)計的預(yù)處理階段,經(jīng)常會碰到年齡、消費等連續(xù)型數(shù)值,而很多模型算法尤其是分類算法都要求數(shù)據(jù)是離散的,因此要將數(shù)值進(jìn)行離散化分段統(tǒng)計,提高數(shù)據(jù)區(qū)分度。常用的離散化方法主要有等寬法、等頻法和聚類分析法。(1)等寬法Pandas提供了cut函數(shù),可以進(jìn)行連續(xù)型數(shù)據(jù)的等寬離散化。cut函數(shù)的基礎(chǔ)語法格式為:pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3)30五月202468Python數(shù)據(jù)變換與離散化5/30/2024Python數(shù)據(jù)變換與離散化(2)等頻法cut函數(shù)雖然不能夠直接實現(xiàn)等頻離散化,但可以通過定義將相同數(shù)量的記錄放進(jìn)每個區(qū)間。30五月202470Python數(shù)據(jù)變換與離散化(3)聚類分析法

一維聚類的方法包括兩步,首先將連續(xù)型數(shù)據(jù)用聚類算法(如K-Means算法等)進(jìn)行聚類,然后處理聚類得到的簇,為合并到一個簇的連續(xù)型數(shù)據(jù)做同一標(biāo)記。

聚類分析的離散化需要用戶指定簇的個數(shù),用來決定產(chǎn)生的區(qū)間數(shù)。30五月2024717.利用sklearn進(jìn)行數(shù)據(jù)預(yù)處理30五月202472利用sklearn進(jìn)行數(shù)據(jù)預(yù)處理1.數(shù)據(jù)標(biāo)準(zhǔn)化、平均去除和方差縮放sklearn.preprocessing.scale(X,axis=0,with_mean=True,with_std=True,copy=True)例4-41數(shù)據(jù)的標(biāo)準(zhǔn)化、均值和標(biāo)準(zhǔn)差求解。P-128Preprocessing模塊還提供了一個實用程序類StandardScaler。例4-42數(shù)據(jù)的標(biāo)準(zhǔn)化計算。P-12830五月202473利用sklearn進(jìn)行數(shù)據(jù)預(yù)處理2.特征縮放另一種標(biāo)準(zhǔn)化是特征縮放,使其介于給定的最小最大值之間,通常是0-1之間,或者使每個特征的最大絕對值被縮放當(dāng)單位大小。(1)一般特征值縮放sklearn.preprocessing.minmax_scale(X,feature_range=(0,1),axis=0,copy=True)min_max_scaler=preprocessing.minmax_scale()X_train_minmax=min_max_scaler.fit_transform(X_train)min_max_scaler.transform(X_test)P-129例4-4330五月202474利用sklearn進(jìn)行數(shù)據(jù)預(yù)處理2.特征縮放(2)縮放稀疏數(shù)據(jù)將稀疏數(shù)據(jù)居中會破壞數(shù)據(jù)中的稀疏結(jié)構(gòu),但是縮放稀疏矩陣又是有意義的,特別是當(dāng)特征處于不同的縮放比例。MaxAbsScaler和maxabs_scale適用于縮放稀疏數(shù)據(jù)。30五月202475利用sklearn進(jìn)行數(shù)據(jù)預(yù)處理2.特征縮放(3)帶異常值的縮放數(shù)據(jù)如果您的數(shù)據(jù)包含許多異常值,則使用數(shù)據(jù)的平均值和方差進(jìn)行縮放可能不會很好地工作。30五月202476利用sklearn進(jìn)行數(shù)據(jù)預(yù)處理3.非線性變換非線性變換有分位數(shù)轉(zhuǎn)換和冪轉(zhuǎn)換。分位數(shù)變換和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論