python數(shù)據(jù)分析薪資-機(jī)器學(xué)習(xí)入門(1)-程序員薪資數(shù)據(jù)分析可視化_第1頁(yè)
python數(shù)據(jù)分析薪資-機(jī)器學(xué)習(xí)入門(1)-程序員薪資數(shù)據(jù)分析可視化_第2頁(yè)
python數(shù)據(jù)分析薪資-機(jī)器學(xué)習(xí)入門(1)-程序員薪資數(shù)據(jù)分析可視化_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

python數(shù)據(jù)分析薪資_機(jī)器學(xué)習(xí)?門(1)---程序員薪資數(shù)據(jù)分析可視化話不多說(shuō)上代碼,爬取?些數(shù)據(jù)進(jìn)?可視化和機(jī)器學(xué)習(xí)演練#數(shù)據(jù)分析庫(kù)importpandasaspd#科學(xué)計(jì)算庫(kù)importnumpyasnpfrompandasimportSeries,DataFrameimportmatplotlib.pyplotaspltimportseabornassnsplt.rcParams['font.sans-serif']=['SimHei']#?來(lái)正常顯?中?標(biāo)簽plt.rcParams['axes.unicode_minus']=False#?來(lái)正常顯?負(fù)號(hào)data_all=pd.read_excel("alldata.xlsx")#這?如果使?read—_csv會(huì)產(chǎn)?報(bào)錯(cuò),因?yàn)閐.read.csv默認(rèn)分隔符是“,”,倘若?檔中存在該字符,則會(huì)?動(dòng)分割#解決辦法:改變默認(rèn)的分隔符'''在pd.read_csv中加?參數(shù)sep設(shè)置為None或者別的字符如\t如:data=pd.read_csv(“E:/test/datas/new/11-new.txt”,encoding=“utf-8”,header=None,sep=None)'''print(data_all.head(5))#查看前五?print(data_())#查看基本信息#可以看到,數(shù)據(jù)共1305條,數(shù)據(jù)類型,以及數(shù)據(jù)并?缺失,這?省略數(shù)據(jù)空值處理的過(guò)程'''公司代號(hào)與其他關(guān)系不?,暫且忽略'''#接下來(lái)劃分?jǐn)?shù)據(jù)集print('簡(jiǎn)單做圖')#?先我們來(lái)看特征的基本情況x=data_all['城市']y=data_all['薪?']q=data_all['職位名稱']#value_counts()pandas的value_counts()函數(shù)可以對(duì)Series??的每個(gè)值進(jìn)?計(jì)數(shù)并且排序。x.value_counts().plot.pie(labeldistance=1.1,autopct='%1.2f%%',shadow=False,startangle=90,pctdistance=0.6,figsize=(10,10),fontsize=20)

plt.show()#labeldistance,?本的位置離遠(yuǎn)點(diǎn)有多遠(yuǎn),1.1指1.1倍半徑的位置#autopct,圓??的?本格式,%3.1f%%表??數(shù)有三位,整數(shù)有?位的浮點(diǎn)數(shù)#shadow,餅是否有陰影#startangle,起始?度,0,表?從0開(kāi)始逆時(shí)針轉(zhuǎn),為第?塊。?般選擇從90度開(kāi)始?較好看#pctdistance,百分?的text離圓?的距離#patches,l_texts,p_texts,為了得到餅圖的返回值,p_texts餅圖內(nèi)部?本的,l_texts餅圖外label的?本#figsize,圖?的尺?#可以看到北上?深占?最?,其次為成都,杭州,武漢等新?線城市#可以看到北上?深占?最?,其次為成都,杭州,武漢等新?線城市y.value_counts().plot.pie(labeldistance=1.1,autopct='%1.2f%%',shadow=False,startangle=90,pctdistance=0.6,figsize=(10,10),fontsize=20)#可以看到薪資的絕?多數(shù)在15k-30kplt.show()接下來(lái)按照職位名稱來(lái)可視化,但是其實(shí)并沒(méi)有什么意義,因?yàn)閿?shù)據(jù)集原本就是按照數(shù)據(jù)分析師,python?程師和前端?程師爬取下來(lái)的q.value_counts().plot.pie(labeldistance=1.1,autopct='%1.2f%%',shadow=False,startangle=90,pctdistance=0.6,figsize=(10,10),fontsize=20)接下來(lái)?概看?下城市與薪資,薪資與?作年限等等的關(guān)系print('數(shù)據(jù)集劃分')fromsklearn.utilsimportshuffledf=shuffle(data_all,random_state=25)#使?sklearn打亂數(shù)據(jù)集train=df[0:900]test=df[901:1305]print('接下來(lái)看?下特征之間的基本關(guān)系')print(train.groupby(['城市','薪?'])['薪?'].count())print(train.groupby(['?作年限','薪?'])['薪?'].count())print('接下來(lái)看?下特征之間的基本關(guān)系')print(train.groupby(['城市','最?值'])['最?值'].count())print(train.groupby(['城市','最?值'])['最?值'].count())#繪圖train[['最?值','最?值']].groupby(train['城市']).mean().plot.bar(figsize=(10,10))plt.show()

這?繪圖查看?下各個(gè)城市中程序員薪資的最?值與最?值情況可以看出來(lái)什么也不太清楚,但是顯然?線城市的薪資最?值與最低值??三線城市要?出許多,這也符合我們的?常認(rèn)知。接下來(lái)我們來(lái)看?下?作年限與薪資的關(guān)系train[['最?值','最?值']].groupby(train['?作年限']).mean().plot.bar(figsize=(10,10))結(jié)果基本符合我們的?常認(rèn)知,值得注意的是?年以下的?作年限薪資?平普遍低于應(yīng)屆畢業(yè)?,隨后隨著?作年限的增加?升?。接下來(lái)查看?下公司規(guī)模train[['最?值','最?值']].groupby(train['公司規(guī)模']).mean().plot.bar(figsize=(10,10))接下來(lái)看?下薪資最?值、最?值分布facet=sns.FacetGrid(train,hue="城市")facet.map(sns.kdeplot,'最?值',shade=True)facet.set(xlim=(0,train['最?值'].max()))facet.add_lege

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論