Python基本數(shù)據(jù)統(tǒng)計(jì)分析_第1頁
Python基本數(shù)據(jù)統(tǒng)計(jì)分析_第2頁
Python基本數(shù)據(jù)統(tǒng)計(jì)分析_第3頁
Python基本數(shù)據(jù)統(tǒng)計(jì)分析_第4頁
Python基本數(shù)據(jù)統(tǒng)計(jì)分析_第5頁
已閱讀5頁,還剩84頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基本數(shù)據(jù)統(tǒng)計(jì)分析Python數(shù)據(jù)處理,分析,可視化與數(shù)據(jù)化運(yùn)營零六本章學(xué)目地了解描述統(tǒng)計(jì)分析各個(gè)指標(biāo)地意義掌握叉對(duì)比與趨勢(shì)分析地基本方法與技巧掌握結(jié)構(gòu)與貢獻(xiàn)分析地應(yīng)用場(chǎng)景以及實(shí)現(xiàn)方法重點(diǎn)分組與聚合分析地常用方法掌握有關(guān)分析地主要方法以及如何解讀有關(guān)分析結(jié)果了解漏斗,路徑與歸因分析基本概念六.一描述統(tǒng)計(jì)分析使用Excel地DMEO數(shù)據(jù)準(zhǔn)備數(shù)據(jù)本節(jié)所用數(shù)據(jù)為公用數(shù)據(jù),讀取excel地demo數(shù)據(jù)。importpandasaspd#①importnumpyasnp#②raw_data=pd.read_excel('demo.xlsx')#③print(raw_data.head(三))#④用法示例:六.一描述統(tǒng)計(jì)分析先將province轉(zhuǎn)換為字符串準(zhǔn)備數(shù)據(jù)在字段地PROVINCE列本身是分類意義,因此將其轉(zhuǎn)換為字符串類型。用法示例:raw_data['PROVINCE']=raw_data['PROVINCE'].astype(str)六.一描述統(tǒng)計(jì)分析使用describe查看描述統(tǒng)計(jì)分析信息準(zhǔn)備數(shù)據(jù)用法示例:desc_data=raw_data.describe(include='all').T#①獲得所有字段地描述信息desc_data['polar_distance']=desc_data['max']-desc_data['min']#②得到極差(或極距)desc_data['IQR']=(desc_data['七五%']-desc_data['二五%'])/二#③計(jì)算四分位差desc_data['days_int']=desc_data['last']-desc_data['first']#④基于last與first差值計(jì)算日期間隔desc_data['dtype']=raw_data.dtypes#⑤獲取所有列地字段類型desc_data['all_count']=raw_data.shape[零]#⑥獲取所有列地總記錄數(shù)量print(desc_data.columns)#⑦六.一描述統(tǒng)計(jì)分析準(zhǔn)備數(shù)據(jù)使用describe查看描述統(tǒng)計(jì)分析信息六.一描述統(tǒng)計(jì)分析通用描述信息是指對(duì)所有數(shù)據(jù)字段地概要描述通用描述信息print(desc_data[['all_count','count','dtype']])示例代碼:六.一描述統(tǒng)計(jì)分析數(shù)值型字段地均值,位數(shù)與四分位數(shù)集趨勢(shì)數(shù)值型字段地集趨勢(shì)地常用描述指標(biāo)包括均值,位數(shù)與四分位數(shù)(注意:四分位數(shù)指地不是一個(gè)數(shù))print(desc_data.loc[['AMOUNT','VISITS'],['二五%','五零%','七五%','mean']])六.一描述統(tǒng)計(jì)分析非數(shù)值型字段地唯一值,眾數(shù)與頻數(shù)集趨勢(shì)非數(shù)值型包括布爾型,字符串型與日期型三類,數(shù)據(jù)分析師經(jīng)常使用唯一值,眾數(shù)與頻數(shù)描述集趨勢(shì)。print(desc_data.loc[['DATETIME','PROVINCE','CATE','IS_PRO'],['unique','top','freq']])六.一描述統(tǒng)計(jì)分析數(shù)值型字段地標(biāo)準(zhǔn)差,最小值,最大值,極差,四分位差離散趨勢(shì)數(shù)值型字段地離散趨勢(shì)經(jīng)常用標(biāo)準(zhǔn)差,最小值,最大值,極差,四分位差表示print(desc_data.loc[['AMOUNT','VISITS'],['std','min','max','polar_distance','IQR']])六.一描述統(tǒng)計(jì)分析日期型字段地開始日期,結(jié)束日期與日期間隔離散趨勢(shì)對(duì)非數(shù)值型字段而言,很少描述其離散趨勢(shì),但日期類字段卻擁有自身地特殊。它擁有自己地開始日期項(xiàng),并可以基于日期項(xiàng)做一定程度地?cái)?shù)值計(jì)算print(desc_data.loc[['DATETIME'],['first','last','days_int']])六.二叉對(duì)比與趨勢(shì)分析對(duì)比與趨勢(shì)是分析事物對(duì)象,并得到結(jié)論地基本且重要地方法概念有比較才能產(chǎn)生差異,也才有好壞優(yōu)劣之分基于比較地思維構(gòu)成了數(shù)據(jù)分析地基礎(chǔ)邏輯對(duì)比與趨勢(shì)分別從橫向與縱向兩個(gè)維度對(duì)特定事物做分析六.二叉對(duì)比與趨勢(shì)分析應(yīng)用示例叉對(duì)比分析所有廣告營銷渠道哪些效果最好全部商品銷售哪些品類賣地多哪些類型地會(huì)員活躍度更高六.二叉對(duì)比與趨勢(shì)分析使用多個(gè)指標(biāo)定量描述事物叉對(duì)比分析在極少數(shù)情況下,可以通過單一指標(biāo)對(duì)事物做定量分析與結(jié)論判定,例如品類A比品類B在總利潤貢獻(xiàn)上更好,因此我們可以說品類A比品類B表現(xiàn)更好或更有價(jià)值。更多情況下,我們?cè)谠u(píng)估事物好壞時(shí),會(huì)使用多個(gè)指標(biāo)從多個(gè)角度去定量描述。六.二叉對(duì)比與趨勢(shì)分析使用多個(gè)指標(biāo)定量描述事物叉對(duì)比分析示例:如何評(píng)估渠道質(zhì)量,評(píng)估指標(biāo)地選擇:基本行為指標(biāo):均停留時(shí)間,訪問深度目地轉(zhuǎn)化指標(biāo):目地轉(zhuǎn)化率,訂單轉(zhuǎn)化率復(fù)購:復(fù)購率會(huì)員指標(biāo):新會(huì)員引入量,老會(huì)員激活量六.二叉對(duì)比與趨勢(shì)分析使用多個(gè)指標(biāo)定量描述事物叉對(duì)比分析示例:我們要分析不同地大區(qū),在是否促銷上是否有差異,同時(shí)評(píng)估指標(biāo)包括訪問量與訂單數(shù)量raw_data.pivot_table(values=['AMOUNT','VISITS'],index=['CATE'],columns='IS_PRO',aggfunc=np.mean)其:(一)values:分類匯總地計(jì)算指標(biāo)列。(二)index:分類匯總地匯總維度列,要匯總多級(jí)維度可以傳入列表。 (三)columns:基于特定地列名,對(duì)指標(biāo)做匯總計(jì)算。

(四)aggfunc:分類匯總計(jì)算方法,可傳入任意有效計(jì)算函數(shù)或?qū)ο?。?二叉對(duì)比與趨勢(shì)分析叉對(duì)比分析六.二叉對(duì)比與趨勢(shì)分析使用多個(gè)指標(biāo)定量描述事物叉趨勢(shì)分析示例:地?cái)?shù)據(jù)表現(xiàn)較好。這時(shí)使用趨勢(shì)分析法,分析不同時(shí)間周期下地表現(xiàn)raw_data['MONTH']=raw_data['DATETIME'].map(lambdai:i.month)#①從每個(gè)日期獲得month屬得到月份結(jié)果overseas_north=raw_data[raw_data['CATE']=='海外區(qū)']#②過濾出僅包含海外區(qū)地?cái)?shù)據(jù)print(overseas_north.pivot_table(values=['AMOUNT','VISITS'],index=['MONTH'],columns='IS_PRO',aggfunc=np.mean))#③建立數(shù)據(jù)透視表六.二叉對(duì)比與趨勢(shì)分析叉趨勢(shì)分析海外區(qū)地VISITS數(shù)據(jù)表現(xiàn)相對(duì)穩(wěn)定且良好,僅在二/三/四月份較差。海外區(qū)地AMOUNT數(shù)據(jù)表現(xiàn)極不穩(wěn)定,僅在四/五/九月份表現(xiàn)好,其它時(shí)間都低于海外區(qū)地整體均值,而最高地幾個(gè)月份拉高了整個(gè)均值。在IS_PRO地作用上,VISITS與AMOUNT都顯示出來比較強(qiáng)地隨機(jī),規(guī)律不具有完整且一致,表現(xiàn)為不同月份地貢獻(xiàn)表現(xiàn)不一,且變化幅度差異較大。六.三結(jié)構(gòu)與貢獻(xiàn)分析結(jié)構(gòu)與貢獻(xiàn)分析是對(duì)一組數(shù)據(jù)不同元素地構(gòu)成,比例,貢獻(xiàn)等方面地分析概念它可以快速獲得整體最主要構(gòu)成要素信息六.三結(jié)構(gòu)與貢獻(xiàn)分析公司最主要地銷售商品集在什么品類上,次要品類是哪些應(yīng)用示例全站地會(huì)員主要從哪些渠道來六.三結(jié)構(gòu)與貢獻(xiàn)分析占比分析通過計(jì)算不同地元素地比例來評(píng)估其貢獻(xiàn)度,它是很多深入分析方法地基礎(chǔ)占比分析用法示例_data=raw_data.groupby(['PROVINCE'],as_index=False).sum()#①_sort=_data.sort_values(['VISITS'],ascending=False)#②amount_sum=_sort['AMOUNT'].sum()#③visits_sum=_sort['VISITS'].sum()#④_sort['AMOUNT_PER']=_sort['AMOUNT']/amount_sum#⑤_sort['VISITS_PER']=_sort['VISITS']/visits_sum#⑥print(_sort.drop(['IS_PRO','MONTH'],axis=一).head())#⑦六.三結(jié)構(gòu)與貢獻(xiàn)分析占比分析六.三結(jié)構(gòu)與貢獻(xiàn)分析什么是二八法則二八法則分析在經(jīng)濟(jì)學(xué),管理學(xué)領(lǐng)域有個(gè)經(jīng)典地"二八法則",也稱為八零/二零定律,帕累托法則,它地基本意義是在任何一組事物,最重要地只占其一小部分(比例大概二零%),其余八零%盡管是多數(shù),卻是次要地,因此又稱二八定律六.三結(jié)構(gòu)與貢獻(xiàn)分析什么是二八法則二八法則分析這個(gè)規(guī)律在企業(yè)經(jīng)營也經(jīng)常出現(xiàn),例如企業(yè)八零%地利潤都是二零%地頭部客戶貢獻(xiàn),二零%地高價(jià)值會(huì)員貢獻(xiàn)了八零%地訂單等。因此,我們需要重點(diǎn)關(guān)注TOP二零%地對(duì)象以抓住經(jīng)營重點(diǎn)。六.三結(jié)構(gòu)與貢獻(xiàn)分析用法示例二八法則分析amount_data=_sort.sort_values(['AMOUNT_PER'],ascending=False)#①amount_data['CUM_AMOUNT_PER']=amount_data['AMOUNT_PER'].cumsum()#②對(duì)amount_data地AMOUNT_PER列使用cumsum()函數(shù)做累計(jì)匯總,這樣每個(gè)后續(xù)地AMOUNT_PER記錄地值都是之前AMOUNT_PER地匯總print(amount_data[['PROVINCE','AMOUNT_PER','CUM_AMOUNT_PER']].round(二).head())#③六.三結(jié)構(gòu)與貢獻(xiàn)分析用法示例(初始數(shù)據(jù)結(jié)果)二八法則分析六.三結(jié)構(gòu)與貢獻(xiàn)分析用法示例二八法則分析amount_data['二零_八零']=pd.cut(amount_data['CUM_AMOUNT_PER'],bins=[零,零.八,一],labels=['top二零%','others八零%'])#①對(duì)CUM_AMOUNT_PER做切分,切分地?cái)?shù)據(jù)邊界為零/零.八與一,切分后地?cái)?shù)據(jù)分別標(biāo)記為top二零%與others八零%print(amount_data[['PROVINCE','AMOUNT_PER','CUM_AMOUNT_PER','二零_八零']].round(二).head(一零))#②六.三結(jié)構(gòu)與貢獻(xiàn)分析用法示例(二八法則結(jié)果)二八法則分析六.三結(jié)構(gòu)與貢獻(xiàn)分析用法示例(二八法則結(jié)果)二八法則分析六.三結(jié)構(gòu)與貢獻(xiàn)分析什么是ABC分析法ABC分析法ABC分析法是指按照不同地貢獻(xiàn)度,將數(shù)據(jù)依次分為A,B,C三組,從而確定主要影響因素,次要影響因素與一般影響因素。六.三結(jié)構(gòu)與貢獻(xiàn)分析用法示例ABC分析法amount_data['ABC']=pd.cut(amount_data['CUM_AMOUNT_PER'],bins=[零,零.八,零.九五,一],labels=list('ABC'))#①在自定義邊界bins增加了零.九五地邊界值,labels標(biāo)簽改為A,B,C三類值print(amount_data[['PROVINCE','AMOUNT_PER','CUM_AMOUNT_PER','二零_八零','ABC']].round(二).head(一五))#②六.三結(jié)構(gòu)與貢獻(xiàn)分析用法示例(ABC分析數(shù)據(jù)結(jié)果)ABC分析法六.三結(jié)構(gòu)與貢獻(xiàn)分析什么是長尾分析長尾分析在數(shù)據(jù)分布,一般將數(shù)據(jù)分布集或突出地區(qū)域稱為"頭",分布零散或緩則稱為"尾"。長尾分析指地是對(duì)分布在數(shù)據(jù)尾部地零散地,個(gè)化地元素地分析,例如對(duì)占比非常小數(shù)據(jù)地分析就屬于長尾分析。長尾理論是對(duì)傳統(tǒng)地二八法則地顛覆。六.三結(jié)構(gòu)與貢獻(xiàn)分析什么是長尾分析長尾分析以訂單金額為例,在二八法則,訂單金額最高地TOP二零%地客戶群體貢獻(xiàn)占據(jù)了八零%地訂單金額貢獻(xiàn)。但在長尾理論上卻會(huì)發(fā)現(xiàn),訂單金額最高地TOP二零%地客戶群體可能只能貢獻(xiàn)三零%甚至更少地訂單金額,而剩下地八零%地客戶群體則貢獻(xiàn)了更大地七零%地訂單金額六.三結(jié)構(gòu)與貢獻(xiàn)分析什么是長尾分析長尾分析這種場(chǎng)景經(jīng)常出現(xiàn)在唯一值非常多地場(chǎng)景下例如用戶地搜索詞分布,訪問頁面地分布,購買商品地分布等這些場(chǎng)景地特點(diǎn)是每個(gè)分類值非常多,且用戶地需求比較零散,缺少非常集地特。六.三結(jié)構(gòu)與貢獻(xiàn)分析用法示例長尾分析visits_data=_sort.sort_values(['VISITS_PER'],ascending=False)#①visits_data['CUM_VISITS_PER']=visits_data['VISITS_PER'].cumsum()#②對(duì)VISITS_PER列做累加匯總,得到新地CUM_VISITS_PER列print(visits_data[['PROVINCE','VISITS_PER','CUM_VISITS_PER']].round(二).head())#③六.三結(jié)構(gòu)與貢獻(xiàn)分析用法示例(長尾分析結(jié)果)長尾分析六.三結(jié)構(gòu)與貢獻(xiàn)分析用法示例(長尾分析結(jié)果)長尾分析六.四分組與聚合分析什么是分組與聚合分析概念當(dāng)分析對(duì)象屬于連續(xù)特征,或雖然屬于離散型特征,但是分類較為零散時(shí),可以通過適當(dāng)?shù)胤椒▽?duì)象聚合起來,形成更粗粒度地分組。例如:基于日期形成不同地月份,然后再對(duì)月份做分組便是這種分析思想。六.四分組與聚合分析什么是分位數(shù)聚合分析使用分位數(shù)聚合分析分位數(shù)法是用百分位數(shù)來說明偏態(tài)分布或分布不清地資料地離散情況地方法。此法可通過pandas地cut方法實(shí)現(xiàn),該方法可對(duì)特定數(shù)據(jù)列,按照指定地分箱數(shù)量或邊界做聚合六.四分組與聚合分析pd.cut基本用法使用分位數(shù)聚合分析pd.cut(x,bins,labels=None,retbins=False)主要參數(shù):(一)x:要做分箱聚合地?cái)?shù)據(jù)列,需要是一維對(duì)象,例如Series或List等。(二)bins:設(shè)置如何分箱聚合,如果設(shè)置為整數(shù)值N,那么按照該數(shù)值型用N分位數(shù)做分箱;如果設(shè)置為由數(shù)值組成地列表,則表示按照列表內(nèi)地邊界分箱。(三)labels:分箱后顯示地標(biāo)簽,默認(rèn)地以分箱地邊界作為標(biāo)簽,也可以自定義標(biāo)簽。(四)retbins:是否返回分箱結(jié)果,在將該分箱結(jié)果用于其它數(shù)據(jù)時(shí)常用,可保持分箱原則地一致。六.四分組與聚合分析用法示例使用分位數(shù)聚合分析agg_data=raw_data.copy()#①agg_data['QUAN_CUT']=pd.cut(agg_data['VISITS'],bins=三,labels=list('ABC'))#②print(agg_data[['VISITS','QUAN_CUT']].head(七二))#③六.四分組與聚合分析用法示例(分位數(shù)分組結(jié)果)使用分位數(shù)聚合分析六.四分組與聚合分析什么是基于均值與標(biāo)準(zhǔn)差地聚合分析基于均值與標(biāo)準(zhǔn)差地聚合分析除了使用分位數(shù)法,還可以自己指定分箱聚合地邊界在自定義邊界時(shí),有多種方法可供選擇,例如在二八法則,ABC分析定義地方式,還可以使用均值與標(biāo)準(zhǔn)差配合定義邊界六.四分組與聚合分析visits_desc=agg_data['VISITS'].describe()#①min_,mean_,std_,max_=visits_desc['min'],visits_desc['mean'],visits_desc['std'],visits_desc['max']#②bins=[min_-一,mean_-std_,mean_+std_,max_+一]#③自定義個(gè)一個(gè)邊界,邊界值分別為最小值-一,均值-標(biāo)準(zhǔn)差,均值+標(biāo)準(zhǔn)差,最大值+一agg_data['CUST_CUT']=pd.cut(agg_data['VISITS'],bins=bins,labels=list('ABC'))#④分箱聚合print(agg_data[['VISITS','QUAN_CUT','CUST_CUT']].head())#⑤用法示例基于均值與標(biāo)準(zhǔn)差地聚合分析六.四分組與聚合分析基于均值與標(biāo)準(zhǔn)差地聚合分析用法示例(均值標(biāo)準(zhǔn)差法)六.五有關(guān)分析什么是有關(guān)分析概念有關(guān)分析是指對(duì)多個(gè)具備有關(guān)關(guān)系地變量行分析,從而衡量變量間地有關(guān)程度或密切程度。有關(guān)可以應(yīng)用到所有數(shù)據(jù)地分析過程,任何事物之間都是存在一定地聯(lián)系。有關(guān)用R(有關(guān)系數(shù))表示,R地取值范圍是[-一,一],不同地R代表不同地有關(guān)方式六.五有關(guān)分析什么是有關(guān)分析概念不同地R代表不同地有關(guān)方式:(一)r>零:線正有關(guān)(二)r<零:線負(fù)有關(guān)(三)r=零:兩個(gè)變量之間不存在線關(guān)系六.五有關(guān)分析什么是有關(guān)分析概念衡量有關(guān)高低地方式是看R地絕對(duì)值,即|R|地取值范圍:(一)低有關(guān):零<=|R|<=零.三(二)有關(guān):零.三<|R|<=零.八(三)高有關(guān):零.八<|R|<=一六.五有關(guān)分析概念Pearson有關(guān)分析皮爾森有關(guān)系數(shù)(PearsonCorrelationCoefficient)是一種線有關(guān)系數(shù)Pearson(皮爾森有關(guān)系數(shù))地應(yīng)用非常廣泛,主要用于連續(xù)數(shù)據(jù)有關(guān)分析。六.五有關(guān)分析用法示例Pearson有關(guān)分析cols=['QUAN_CUT','CUST_CUT']#①foriincols:#②agg_data[i]=agg_data[i].astype('category')#③將每個(gè)字段轉(zhuǎn)換為category類型agg_data[i+'_IND']=agg_data[i].cat.codes#④并帶有_IND后綴用以區(qū)分新建地字段,然后賦值為category分類地索引值print(agg_data[['AMOUNT','VISITS']].corr(method='pearson').round(二))#⑤六.五有關(guān)分析用法示例(Pearson有關(guān)分析結(jié)果)Pearson有關(guān)分析六.五有關(guān)分析概念Spearman有關(guān)分析斯皮爾曼等級(jí)有關(guān)系數(shù)(SpearmanCorrelationCoefficient),是衡量兩個(gè)變量地依賴地非參數(shù)指標(biāo)。它在Person地基礎(chǔ)上,其適用更加廣泛。從嚴(yán)格意義上說,Person對(duì)數(shù)據(jù)要求不滿足地,可以用Spearman實(shí)現(xiàn)。尤其是用于定序數(shù)據(jù)(不同地分類數(shù)據(jù)有一定前后順序,例如會(huì)員價(jià)值度地高,,低)地有關(guān)分析非常常見。六.五有關(guān)分析用法示例Spearman有關(guān)分析print(agg_data[['QUAN_CUT_IND','CUST_CUT_IND']].corr(method='spearman').round(二))#代碼調(diào)用DataFrame地corr方法,計(jì)算QUAN_CUT_IND與CUST_CUT_IND地有關(guān)結(jié)果,指定方法為spearman六.五有關(guān)分析用法示例(Spearman有關(guān)分析結(jié)果)Spearman有關(guān)分析六.五有關(guān)分析概念Kendall有關(guān)分析肯德爾有關(guān)系數(shù)(KendallCorrelationCoefficient)是計(jì)算有序類別地有關(guān)系數(shù)主要用于定序分類數(shù)據(jù)地有關(guān)分析六.五有關(guān)分析用法示例Kendall有關(guān)分析print(agg_data[['QUAN_CUT_IND','CUST_CUT_IND']].corr(method='kendall').round(二))六.五有關(guān)分析用法示例(Kendall有關(guān)分析結(jié)果)Kendall有關(guān)分析六.六主成分分析與因子分析讀取excel數(shù)據(jù)加載示例數(shù)據(jù)fromsklearn.depositionimportPCA#①fromsklearn.depositionimportFactorAnalysisasFA#②raw_data二=pd.read_excel('demo.xlsx',sheet_name=一,index_col='USER_ID')#③讀取第二個(gè)sheet地?cái)?shù)據(jù),同時(shí)指定USER_ID為indexprint(raw_data二.head(三))#④六.六主成分分析與因子分析讀取excel數(shù)據(jù)加載示例數(shù)據(jù)六.六主成分分析與因子分析概念主成分分析主成分分析(PrincipalponentAnalysis,PCA)是按照一定地?cái)?shù)學(xué)變換方法,把給定地一組有關(guān)變量(維度)通過線變換轉(zhuǎn)成另一組不有關(guān)地變量,這些新地變量按照方差依次遞減地順序排列。在數(shù)學(xué)變換保持變量地總方差不變,使第一變量具有最大地方差,稱為第一主成分,第二變量地方差次大,并且與第一變量不有關(guān),稱為第二主成分。依次類推,I個(gè)變量就有I個(gè)主成分。六.六主成分分析與因子分析概念主成分分析假設(shè)原來有A/B/C三個(gè)特征,在做完主成分分析之后,在不做主成分?jǐn)?shù)量限制下,可以獲得三個(gè)主成分,其結(jié)果可以表示為:-零.零零零一二二二*A+零.零零八零九九*B+零.三一五一五–零.一五一#第一個(gè)主成分-零.零一八零九*A+零.零一二四*B+零.零零零零二五六五*C-四.零七六#第二個(gè)主成分零.零零七四五三*A+零.一八六一*B+零.零零零一八九七*C+一.三六六一#第三個(gè)主成分注意,每個(gè)公式最后會(huì)帶入實(shí)際值得到最終結(jié)果值六.六主成分分析與因子分析用法示例主成分分析pca=PCA(n_ponents=None)#①pca_data=pca.fit_transform(raw_data二)#②print(pca_data[:三,:].round(二))#③六.六主成分分析與因子分析用法示例(pca分析結(jié)果)主成分分析六.六主成分分析與因子分析用法示例(獲得每個(gè)主成分地解釋方差)主成分分析pca.explained_variance_ratio_array([九.九九九四四五二二e-零一,五.四九三零一四三零e-零五,五.三一八八零七一零e-零七,一.五七二零四四三四e-零八,一.四七一九二零四五e(cuò)-一二])注意:所有解釋方差之與為一六.六主成分分析與因子分析概念因子分析因子分析(FactorAnalysis,FA)是指研究從變量群提取因子地統(tǒng)計(jì)技術(shù),這里地因子指地是不同變量之間內(nèi)在地隱藏因子例如,一個(gè)學(xué)生地英語,數(shù)據(jù),語文成績都很好,那么潛在地因子可能是智力水高。因此,因子分析地過程其實(shí)是尋找因子與個(gè)因子并得到最優(yōu)解釋地過程。六.六主成分分析與因子分析因子分析與主成分分析區(qū)別因子分析(一)二原理不同。主成分分析在損失很少信息地前提下把多個(gè)指標(biāo)轉(zhuǎn)化為幾個(gè)不有關(guān)地主成分;而因子分析則從原始變量有關(guān)矩陣內(nèi)部地依賴關(guān)系出發(fā),把因子表達(dá)成能表示成少數(shù)公因子與僅對(duì)某一個(gè)變量有作用地特殊因子地線組合。六.六主成分分析與因子分析因子分析與主成分分析區(qū)別因子分析(二)二假設(shè)條件不同。主成分分析不需要有假設(shè),而因子分析需要假設(shè)各個(gè)同因子之間不有關(guān),特殊因子(specificfactor)之間也不有關(guān),同因子與特殊因子之間也不有關(guān)。六.六主成分分析與因子分析因子分析與主成分分析區(qū)別因子分析(三)二求解方法不同。主成分分析地求解方法從協(xié)方差陣出發(fā),而因子分析地求解方法包括主成分法,主軸因子法,極大似然法,最小二乘法,a因子提取法等。六.六主成分分析與因子分析因子分析與主成分分析區(qū)別因子分析(四)二降維后地"維度"數(shù)量不同,即因子數(shù)量與主成分地?cái)?shù)量。主成分分析地?cái)?shù)量最多等于維度數(shù);而因子分析地因子個(gè)數(shù)需要分析者指定,指定地因子數(shù)量不同而結(jié)果也不同。六.六主成分分析與因子分析用法示例因子分析fa=FA(n_ponents=None)#①fa_data=fa.fit_transform(raw_data二)#②fa_data[:三,:].round(二)#③六.六主成分分析與因子分析用法示例(fa分析結(jié)果)因子分析六.六主成分分析與因子分析用法示例(獲得每個(gè)主成分地解釋方差)因子分析pca.explained_variance_ratio_array([九.九九九四四五二二e-零一,五.四九三零一四三零e-零五,五.三一八八零七一零e-零七,一.五七二零四四三四e-零八,一.四七一九二零四五e(cuò)-一二])注意:所有解釋方差之與為一六.七漏斗,路徑與歸因分析漏斗分析通過定義有序地過程環(huán)節(jié)與步驟,分析不同步驟之間地轉(zhuǎn)化過程,而由于后續(xù)地轉(zhuǎn)化一般都會(huì)比前面地轉(zhuǎn)化數(shù)量更少,因此會(huì)形成類似于漏斗地形狀。漏斗分析漏斗分析是網(wǎng)站分析地基本方法,很多強(qiáng)大地工具支持全站頁面,,目地之間地混合漏斗分析,通過漏斗查看特定目地地完成與流失情況。概念六.七漏斗,路徑與歸因分析封閉型漏斗指漏斗從第一環(huán)節(jié)開始后最后地環(huán)節(jié),數(shù)據(jù)從上一環(huán)節(jié)開始依次"漏"下來,不存在其它入途徑。漏斗分析典型地封閉型漏斗是購物車流程,通常情況下從加入購物車開始,用戶依次入結(jié)算與提訂單,由此形成加入購物車→結(jié)算→提訂單完整閉環(huán),該過程不可能從其它環(huán)節(jié)直接入。封閉型漏斗六.七漏斗,路徑與歸因分析開放型漏斗指漏斗地各個(gè)環(huán)節(jié)都有可能存在其它入口,整個(gè)漏斗不封閉。漏斗分析典型地開放型漏斗是全站購物流程漏斗,通常該漏斗是到達(dá)著陸頁→查看產(chǎn)品頁→加入購物車。在整個(gè)過程,用戶查看產(chǎn)品頁與加入購物車可能從任何一個(gè)具備該功能地入口入,而不一定是從著陸頁開始。開放型漏斗六.七漏斗,路徑與歸因分析路徑分析是根據(jù)用戶在網(wǎng)站上留下地"痕跡"所形成地路徑,對(duì)用戶地行為行有序分析地一種方式。路徑分析徑分析不僅可以基于頁面產(chǎn)生,還可以基于目地路徑,路徑等數(shù)據(jù)主體產(chǎn)生。概念六.七漏斗,路徑與歸因分析(一)活動(dòng)主會(huì)場(chǎng)/網(wǎng)站主頁面如何導(dǎo)流?(二)用戶是否按照"預(yù)期"流

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論