大數(shù)據(jù)治理(高級(jí)) 課件 西財(cái) 實(shí)訓(xùn)項(xiàng)目3、4:人力資源數(shù)據(jù)預(yù)處理、鳶尾花數(shù)據(jù)預(yù)處理_第1頁
大數(shù)據(jù)治理(高級(jí)) 課件 西財(cái) 實(shí)訓(xùn)項(xiàng)目3、4:人力資源數(shù)據(jù)預(yù)處理、鳶尾花數(shù)據(jù)預(yù)處理_第2頁
大數(shù)據(jù)治理(高級(jí)) 課件 西財(cái) 實(shí)訓(xùn)項(xiàng)目3、4:人力資源數(shù)據(jù)預(yù)處理、鳶尾花數(shù)據(jù)預(yù)處理_第3頁
大數(shù)據(jù)治理(高級(jí)) 課件 西財(cái) 實(shí)訓(xùn)項(xiàng)目3、4:人力資源數(shù)據(jù)預(yù)處理、鳶尾花數(shù)據(jù)預(yù)處理_第4頁
大數(shù)據(jù)治理(高級(jí)) 課件 西財(cái) 實(shí)訓(xùn)項(xiàng)目3、4:人力資源數(shù)據(jù)預(yù)處理、鳶尾花數(shù)據(jù)預(yù)處理_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

實(shí)訓(xùn)3人力資源數(shù)據(jù)預(yù)處理1知識(shí)點(diǎn)層級(jí)索引數(shù)據(jù)重塑標(biāo)準(zhǔn)化處理離散化處理啞變量處理2實(shí)訓(xùn)目標(biāo)理解層級(jí)索引的概念與表示;掌握數(shù)據(jù)重塑的分類與方法;掌握數(shù)據(jù)離散化處理的方法;掌握數(shù)據(jù)標(biāo)準(zhǔn)化處理的方法;掌握數(shù)據(jù)啞變量處理的方法;3知識(shí)點(diǎn)層級(jí)索引數(shù)據(jù)重塑標(biāo)準(zhǔn)化處理離散化處理啞變量處理4層級(jí)索引在處理高維度數(shù)據(jù)時(shí),可以考慮采用層級(jí)索引。使用層級(jí)索引可以在較低維度的數(shù)據(jù)結(jié)構(gòu)(Series和DataFrame)中存儲(chǔ)和操作任意維數(shù)的數(shù)據(jù),MultiIndex在常規(guī)索引的基礎(chǔ)上提供了分層功能。Series(1D)DataFrame(2D)MultiIndexMultiIndexSeries(2D)DataFrame(3D)5層級(jí)索引層級(jí)索引對(duì)象(MultiIndex)

的創(chuàng)建方式有三種:元組列表創(chuàng)建,數(shù)組列表創(chuàng)建,交叉迭代器創(chuàng)建。層級(jí)索引對(duì)象MultiIndexfrom_tuples()from_arrays()from_product()6010203政府需求岷山集團(tuán)需求同盟商家群眾arrays=[['bar','bar','baz','baz','foo','foo','qux','qux'],['one','two','one','two','one','two','one','two']]tuples=[('bar','one'),('bar','two'),('baz','one'),('baz','two’),('foo','one'),('foo','two'),('qux','one'),('qux','two’)]層級(jí)索引層級(jí)索引對(duì)象iterables=[['bar','baz','foo','qux'],['one','two']]75MIN0102政府需求岷山集團(tuán)需求群眾pd.MultiIndex.from_tuples(tuples,names=['first','second'])pd.MultiIndex.from_arrays(arrays,names=['first','second'])層級(jí)索引層級(jí)索引對(duì)象創(chuàng)建pd.MultiIndex.from_product(iterables,names=['first','second'])83MIN0102政府需求岷山集團(tuán)需求群眾df_obj=pd.DataFrame(np.random.randn(8,4),index=arrays)層級(jí)索引層級(jí)索引對(duì)象使用92MIN0102政府需求層級(jí)索引層級(jí)索引數(shù)據(jù)選取df_obj.loc['baz']df_obj[0]df_obj.loc['foo','two']df_obj[2]['foo']['one']106MIN知識(shí)點(diǎn)層級(jí)索引數(shù)據(jù)重塑標(biāo)準(zhǔn)化處理離散化處理啞變量處理11數(shù)據(jù)重塑數(shù)據(jù)重塑即對(duì)數(shù)據(jù)表當(dāng)前的行列結(jié)構(gòu)進(jìn)行重設(shè),以滿足觀察和操作的需要。Pandas中用于重塑操作的有:行列索引重塑、多層索引重塑數(shù)據(jù)重塑行列索引重塑多層索引重塑120102政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)重塑行列索引重塑Pivot()方法可根據(jù)給定的行或列索引重新組織一個(gè)DataFrame對(duì)象。pivot(index=None,columns=None,values=None)index:用于創(chuàng)建新DataFrame對(duì)象的行索引。columns:用于創(chuàng)建新DataFrame對(duì)象的列索引。values:用于填充新DataFrame對(duì)象中的值。13010203政府需求岷山集團(tuán)需求df_obj=pd.DataFrame({'date':pd.date_range('20210801',periods=9,freq='D'),'var':list(str('ABC')*3),'value':np.random.random(9)})數(shù)據(jù)重塑行列索引重塑143MIN010203政府需求岷山集團(tuán)需求df_obj1=df_obj.pivot(index='date',columns='var',values='value’)數(shù)據(jù)重塑行列索引重塑154MIN01政府需求岷山集團(tuán)需求群眾數(shù)據(jù)重塑多層索引重塑stack()方法可以將數(shù)據(jù)的列索引轉(zhuǎn)換為行索引。unstack()可執(zhí)行相反操作。DataFrame.stack(level=-1,dropna=True)level:索引層次。-1表示內(nèi)層(默認(rèn)),0表示外層索引。dropna:是否將缺失值刪除,若設(shè)為True,則表示自動(dòng)過濾缺失值,設(shè)置為False則相反。fill_value:空缺填充值。DataFrame.unstack(level=-1,fill_value=None)16政府需求岷山集團(tuán)需求群眾df_obj2=df_obj1.resample('3D',label='right').sum()數(shù)據(jù)重塑多層索引重塑df_obj3=df_obj2.stack()df_obj3.unstack()174MIN知識(shí)點(diǎn)層級(jí)索引數(shù)據(jù)重塑標(biāo)準(zhǔn)化處理離散化處理啞變量處理18標(biāo)準(zhǔn)化處理不同量綱造成的數(shù)值差異可能會(huì)影響后續(xù)的數(shù)據(jù)處理及分析,為了消除特征之間量綱和取值差異造成的影響,可以選擇標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)化處理離差標(biāo)準(zhǔn)化標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化小數(shù)定標(biāo)標(biāo)準(zhǔn)化19標(biāo)準(zhǔn)化處理離差標(biāo)準(zhǔn)化,通過最大值和最小值將原始數(shù)據(jù)映射到[0,1]內(nèi)。

標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,通過均值和標(biāo)準(zhǔn)差將原始數(shù)據(jù)進(jìn)行處理。小數(shù)定標(biāo)標(biāo)準(zhǔn)化,通過移動(dòng)數(shù)據(jù)的小數(shù)位數(shù),將原始數(shù)據(jù)映射到區(qū)間[-1,1]內(nèi),小數(shù)位數(shù)(k)取決于數(shù)據(jù)絕對(duì)值的最大值。20標(biāo)準(zhǔn)化處理離差標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化小數(shù)定標(biāo)標(biāo)準(zhǔn)化F_MinMax=lambdax:(x-np.min(x))/(np.max(x)-np.min(x))F_Standard=lambdax:(x-np.mean(x))/(np.std(x))F_Decimal=lambdax:x/10**np.ceil(np.log10(np.abs(x).max()))注意:以上匿名函數(shù)作用于DataFrame對(duì)象須使用apply函數(shù),或?qū)雜klearn庫相關(guān)函數(shù)216MIN標(biāo)準(zhǔn)化處理離差標(biāo)準(zhǔn)化。df=pd.DataFrame([10,-5,108,46,88,31,74,22])df.apply(F_MinMax)df.apply(F_Standard)df.apply(F_Decimal)注意:以上匿名函數(shù)作用于DataFrame對(duì)象須使用apply函數(shù),或?qū)雜klearn庫相關(guān)函數(shù)223MIN知識(shí)點(diǎn)層級(jí)索引數(shù)據(jù)重塑標(biāo)準(zhǔn)化處理離散化處理啞變量處理23離散化處理由于連續(xù)數(shù)據(jù)在一些情況下不適用于特定的算法,因此有必要將連續(xù)性特征(數(shù)值型)變換為離散型特征(類別型)。離散化處理分箱離散化聚類分析離散化24離散化處理Pandas的

cut

()函數(shù)能夠?qū)崿F(xiàn)分箱離散化操作。分箱離散化pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False,duplicates='raise')x:表示要分箱的數(shù)據(jù),必須是一維的。bins:表示分箱的邊界,接收int和序列類型的數(shù)據(jù)。right:是否包含右端點(diǎn),決定區(qū)間的開閉,默認(rèn)為True25離散化處理聚類分析是一種流行的離散化方法。通過將屬性的值劃分成簇或組,聚類算法可以用來離散化數(shù)值屬性。聚類考慮數(shù)據(jù)的分布以及數(shù)據(jù)點(diǎn)的鄰近性,因此可以產(chǎn)生高質(zhì)量的離散化結(jié)果。聚類分析離散化26離散化處理defKmeansCut(data,k):KM_model=KMeans(k)KM_model.fit(data.values.reshape((len(data),1)))center=pd.DataFrame(KM_model.cluster_centers_).sort_values(0)border=center.rolling(2).mean().iloc[1:]border=[0]+list(border[0])+[data.max()]returnpd.cut(data,border)聚類分析離散化27參考代碼:PPT配套練習(xí)-實(shí)訓(xùn)3-3.5知識(shí)點(diǎn)層級(jí)索引數(shù)據(jù)重塑標(biāo)準(zhǔn)化處理離散化處理啞變量處理28啞變量處理許多模型要求輸入的特征為數(shù)值,但在工作中我們?yōu)榱藴p少無效數(shù)據(jù)的產(chǎn)生一般用類別來表示這類數(shù)據(jù),啞變量處理即將類別變量轉(zhuǎn)為啞變量指標(biāo)矩陣。索引類別0A1B2C3D類別索引ABCD0100010100200103000129在Pandas中,可以使用get_dummies()函數(shù)對(duì)類別特征進(jìn)行啞變量處理。pandas.get_dummies(data,prefix=None,prefix_sep='_',dummy_na=False,columns=None,sparse=False,drop_first=False,dtype=None)data:表示啞變量處理的數(shù)據(jù)。prefix:表示列名的前綴,默認(rèn)為None。prefix_sep:用于附加前綴作為分隔符使用,默認(rèn)為“_”。啞變量處理30010203政府需求岷山集團(tuán)需求df_obj=pd.DataFrame(['A','B','C','D'],columns=['category’])pd.get_dummies(df_obj)啞變量處理31感謝聆聽3233實(shí)訓(xùn)4鳶尾花數(shù)據(jù)預(yù)處理34知識(shí)點(diǎn)數(shù)據(jù)歸約概念維度規(guī)約數(shù)量規(guī)約數(shù)據(jù)壓縮35實(shí)訓(xùn)目標(biāo)了解數(shù)據(jù)歸約的概念與分類;理解維度規(guī)約概念及方法;理解數(shù)量規(guī)約概念及方法;了解數(shù)據(jù)壓縮概念及方法;36知識(shí)點(diǎn)數(shù)據(jù)歸約概念維度規(guī)約數(shù)量規(guī)約數(shù)據(jù)壓縮37數(shù)據(jù)歸約概念數(shù)據(jù)歸約(datareduction)是指通過維度的減少或者數(shù)據(jù)量的減少,來達(dá)到降低數(shù)據(jù)規(guī)模的目的。數(shù)據(jù)規(guī)約維度規(guī)約數(shù)量規(guī)約數(shù)據(jù)壓縮38知識(shí)點(diǎn)數(shù)據(jù)歸約概念維度規(guī)約數(shù)量規(guī)約數(shù)據(jù)壓縮39維度規(guī)約維度規(guī)約(dimensionlity)即:減少所考慮的隨機(jī)變量或?qū)傩缘膫€(gè)數(shù)。維度規(guī)約把原始數(shù)據(jù)變換或投影到較小的空間,其中不相關(guān)、弱相關(guān)或冗余的屬性或維被檢測和刪除。FA(FactorAnalysis)SVD(SingularValueDecomposition)PCA(PrincipalComponentAnalysis)40維度規(guī)約維度降維41數(shù)據(jù)過載維度災(zāi)難因子分析(FA)FA(FactorAnalysis)是指研究從變量群中提取共性因子的統(tǒng)計(jì)技術(shù)。因子分析可在許多變量中找出隱藏的具有代表性的因子。將相同本質(zhì)的變量歸入一個(gè)因子,可減少變量的數(shù)目,還可檢驗(yàn)變量間關(guān)系的假設(shè)。

參考代碼:PPT配套案例-實(shí)訓(xùn)4-4.142奇異值分解(SVD)

SVD(SingularValueDecomposition)作為一種常見的矩陣分解方法廣泛用于數(shù)據(jù)的降維與去噪。其基本原理為通過矩陣變換將一個(gè)比較復(fù)雜的矩陣用更小的3個(gè)矩陣的相乘來表示。參考代碼:PPT配套案例-實(shí)訓(xùn)4-4.243奇異值分解(SVD)

44主成分分析(PCA)

參考代碼:PPT配套案例-實(shí)訓(xùn)4-1.345主成分分析(PCA)

參考代碼:PPT配套案例-實(shí)訓(xùn)4-4.346知識(shí)點(diǎn)數(shù)據(jù)歸約概念維度規(guī)約數(shù)量規(guī)約數(shù)據(jù)壓縮47數(shù)量規(guī)約數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論