版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
模塊一人口與GDP數(shù)據(jù)分析Python數(shù)據(jù)分析與可視化典型項目實戰(zhàn)(微課版)
全套可編輯PPT課件【任務(wù)描述】人口是影響國家和地區(qū)發(fā)展的重要因素,我國在2020年開展了第七次全國人口普查,普查標準時點是2020年11月1日零時。第七次全國人口普查是新時代開展的一次重大國情國力調(diào)查,全面查清了我國人口數(shù)量、結(jié)構(gòu)、分布等方面的情況,為完善我國人口發(fā)展戰(zhàn)略和政策體系,促進人口長期均衡發(fā)展,科學制定國民經(jīng)濟和社會發(fā)展規(guī)劃,推動經(jīng)濟高質(zhì)量發(fā)展,開啟全面建設(shè)社會主義現(xiàn)代化國家新征程,向第二個百年奮斗目標進軍,提供科學準確的統(tǒng)計信息支持?!救蝿?wù)要求】在JupyterNotebook開發(fā)環(huán)境中創(chuàng)建tc01-01.ipynb,然后在單元格中編寫代碼并輸出對應(yīng)的結(jié)果?!救蝿?wù)1-1】第七次全國人口普查數(shù)據(jù)分析與視化第七次全國人口普查數(shù)據(jù)分析與視化導入通用模塊的代碼詳見“本書導學”,導入其他模塊的代碼如下:frommons.utilsimportJsCodeimportrandompd.set_option('precision',2)importaltairasalt1.導入模塊第七次全國人口普查數(shù)據(jù)分析與視化(1)讀取數(shù)據(jù)2.2020年全國及各地區(qū)每10萬人口中擁有的各類受教育程度人數(shù)分布數(shù)據(jù)分析與可視化df_edu=pd.read_excel(r"data\2020年地區(qū)每10萬人口中擁有的各類受教育程度人數(shù).xlsx")(2)查看部分數(shù)據(jù)df_edu.head()(3)定義列名df_edu.columns=["地區(qū)","大學","高中","初中","小學"]第七次全國人口普查數(shù)據(jù)分析與視化(4)查看是否存在缺失值df_edu.isnull().sum()(5)刪除“地區(qū)”列中多余的空格df_edu['地區(qū)']=df_edu['地區(qū)'].str.replace('','')(6)復(fù)制數(shù)據(jù)集education=df_edu.copy()(7)計算受教育程度為“其他”的人數(shù)education['其他']=100000-education['大學']-education['高中']-education['初中']-education['小學']第七次全國人口普查數(shù)據(jù)分析與視化(8)對數(shù)據(jù)集進行排序education.sort_values(by=['大學','高中','初中','小學','其他'],ascending=False,inplace=True)(9)繪制堆疊柱形圖matplotlib.rc('figure',figsize=(16,8))education.plot.bar(x='地區(qū)',y=['大學','高中','初中','小學','其他'],stacked=True)plt.title('各地區(qū)每10萬人口中各類受教育程度的人數(shù)',loc='left',fontsize=20)plt.legend(bbox_to_anchor=(1,1.1),ncol=10,facecolor='None')plt.xlabel('')plt.show()第七次全國人口普查數(shù)據(jù)分析與視化圖1-1各地區(qū)每10萬人口中各類受教育程度的人數(shù)堆疊柱形圖第七次全國人口普查數(shù)據(jù)分析與視化(10)重置索引df_edu.set_index("地區(qū)",inplace=True)(11)獲取列名稱和全國各類受教育程度人數(shù)edu1=df_edu.iloc[0,:].index.tolist()cedu1=df_edu.iloc[0,:].values.tolist()(12)繪制全國每10萬人口中擁有的各類受教育程度人數(shù)分布玫瑰圖掃描二維碼在線瀏覽電子活頁1-1“繪制全國每10萬人口中擁有的各類受教育程度人數(shù)分布玫瑰圖”中的代碼及繪制的圖形。第七次全國人口普查數(shù)據(jù)分析與視化(13)刪除“地區(qū)”列“全國”對應(yīng)的行后查看行索引df_edu=df_edu.drop(index="全國")df_edu.index代碼如下:Index(['北京','天津','河北','山西','內(nèi)蒙古','遼寧','吉林','黑龍江','上海','江蘇','浙江','安徽','福建','江西','山東','河南','湖北','湖南','廣東','廣西','海南','重慶','四川','貴州','云南','西藏','陜西','甘肅','青海','寧夏','新疆'],dtype='object',name='地區(qū)')輸出結(jié)果:(14)繪制各地區(qū)每10萬人口中各類受教育程度人數(shù)的堆疊條形圖掃描二維碼在線瀏覽電子活頁1-2“繪制各地區(qū)每10萬人口中各類受教育程度人數(shù)的堆疊條形圖”中的代碼及繪制的圖形。第七次全國人口普查數(shù)據(jù)分析與視化3.2020年全國及各地區(qū)人口性別構(gòu)成數(shù)據(jù)分析與可視化讀取數(shù)據(jù)df_gender=pd.read_excel(r"data\2020年各地區(qū)人口性別構(gòu)成.xlsx")查看部分數(shù)據(jù)df_gender.head()從輸出結(jié)果可以看出:全國人口中,男性人口占51.24%,女性人口占48.76%???cè)丝谛詣e比(以女性為100,男性對女性的比例)為105.07,與2010年基本持平,略有降低。我國人口的性別結(jié)構(gòu)持續(xù)改善。第七次全國人口普查數(shù)據(jù)分析與視化定義列名稱df_gender.columns=["地區(qū)","男性占比","女性占比","性別比"]查看是否存在缺失值df_gender.isnull().sum()刪除“地區(qū)”列中多余的空格df_gender['地區(qū)']=df_gender['地區(qū)'].str.replace('','')重置索引df_gender.set_index("地區(qū)",drop=True,inplace=True)第七次全國人口普查數(shù)據(jù)分析與視化獲取行索引和男女占比regions2=df_gender.index.tolist()man=df_gender["男性占比"].values.tolist()woman=df_gender["女性占比"].values.tolist()繪制堆疊條形圖bar2=(Bar(init_opts=opts.InitOpts(width="900px",height="600px")).add_xaxis(regions2).add_yaxis("男性占比",man,stack="stack1").add_yaxis("女性占比",woman,stack="stack1").set_series_opts(label_opts=opts.LabelOpts(is_show=True,position='inside')).set_global_opts(legend_opts=opts.LegendOpts(pos_left="right"),title_opts=opts.TitleOpts(title="全國及各地區(qū)人口性別構(gòu)成")).reversal_axis())bar2.render_notebook()第七次全國人口普查數(shù)據(jù)分析與視化圖1-2全國及各地區(qū)人口性別構(gòu)成的堆疊條形圖繪制2020年各地區(qū)性別構(gòu)成的金字塔圖掃描二維碼在線瀏覽電子活頁1-3“繪制2020年各地區(qū)性別構(gòu)成的金字塔圖”中的代碼及繪制的圖形。第七次全國人口普查數(shù)據(jù)分析與視化4.2020年各地區(qū)人口年齡構(gòu)成數(shù)據(jù)分析與可視化讀取數(shù)據(jù)df_region_age=pd.read_excel(r"data\2020年各地區(qū)人口年齡構(gòu)成.xlsx")查看部分數(shù)據(jù)df_region_age.head()第七次全國人口普查數(shù)據(jù)分析與視化定義列名稱df_region_age.columns=["地區(qū)","0—14歲","15—59歲","60歲及以上","65歲及以上"]查看是否存在缺失值df_region_age.isnull().sum()刪除“地區(qū)”列中多余的空格df_region_age['地區(qū)']=df_region_age['地區(qū)'].str.replace('','')重置索引df_region_age.set_index("地區(qū)",inplace=True)刪除“地區(qū)”列“全國”對應(yīng)的行后查看行索引df_region_age.drop(index="全國",inplace=True)df_region_age.index獲取行索引和各年齡段占比數(shù)據(jù)regions3=df_region_age.index.tolist()age14=df_region_age["0—14歲"].values.tolist()age59=df_region_age["15—59歲"].values.tolist()age60=df_region_age["60歲及以上"].values.tolist()age65=df_region_age["65歲及以上"].values.tolist()第七次全國人口普查數(shù)據(jù)分析與視化繪制堆疊條形圖bar3=(Bar(init_opts=opts.InitOpts(width="900px",height="600px")).add_xaxis(regions1).add_yaxis("0—14歲",age14,stack="stack1").add_yaxis("15—59歲",age59,stack="stack1").add_yaxis("60歲及以上",age60,stack="stack1").add_yaxis("65歲及以上",age65,stack="stack1").set_series_opts(label_opts=opts.LabelOpts(is_show=True,position="inside")).set_global_opts(title_opts=opts.TitleOpts(title="各地區(qū)人口年齡構(gòu)成"),legend_opts=opts.LegendOpts(pos_left="right")).reversal_axis())bar3.render_notebook()第七次全國人口普查數(shù)據(jù)分析與視化圖1-3各地區(qū)人口年齡構(gòu)成的堆疊條形圖第七次全國人口普查數(shù)據(jù)分析與視化5.2020年全國人口年齡構(gòu)成數(shù)據(jù)分析與可視化讀取數(shù)據(jù)df_age=pd.read_excel(r"data\2020年全國人口年齡構(gòu)成.xlsx")查看部分數(shù)據(jù)df_age.head()定義列名稱df_age.columns=["年齡分段","人數(shù)","比例"]重置索引df_age.set_index("年齡分段",inplace=True)提取部分行數(shù)據(jù)df_age=df_age.iloc[1:4,:]第七次全國人口普查數(shù)據(jù)分析與視化獲取行索引和各年齡段人口數(shù)據(jù)age=df_age.index.tolist()cage=df_age["人數(shù)"].values.tolist()繪制全國各年齡段人口數(shù)據(jù)餅圖掃描二維碼在線瀏覽電子活頁1-4“繪制全國各年齡段人口數(shù)據(jù)餅圖”中的代碼及繪制的圖形。繪制全國各年齡段人口數(shù)據(jù)的圓環(huán)圖繪制全國各年齡段人口數(shù)據(jù)的圓環(huán)圖,對應(yīng)的代碼及繪制的圖形詳見本書配套的電子活頁1-2。第七次全國人口普查數(shù)據(jù)分析與視化繪制全國各年齡段人口數(shù)據(jù)的漏斗圖frompyecharts.chartsimportFunnelx_data=df_age.index.tolist()y_data=df_age['人數(shù)'].values.tolist()data=[[x_data[i],y_data[i]]foriinrange(len(x_data))]funnel1=(Funnel().add(series_name="",data_pair=data,sort_="ascending",gap=2,label_opts=opts.LabelOpts(is_show=True,position="inside",formatter=":mbukwpf%"),).set_global_opts(title_opts=opts.TitleOpts(title="全國人口年齡漏斗圖",subtitle="全國人口年齡構(gòu)成",pos_top="2%"),legend_opts=opts.LegendOpts(pos_left="right",pos_top='2%',orient="horizontal")))funnel1.render_notebook()第七次全國人口普查數(shù)據(jù)分析與視化圖1-4全國各年齡段人口數(shù)據(jù)的漏斗圖掃描二維碼在線瀏覽電子活頁1-5“Funnel的add()方法主要參數(shù)說明”中的內(nèi)容。第七次全國人口普查數(shù)據(jù)分析與視化6.2020年全國及各地區(qū)人口數(shù)量分析與可視化讀取數(shù)據(jù)data_path=r"data\2020年各地區(qū)人口.xlsx"df_district=pd.read_excel(data_path,skiprows=0)查看部分數(shù)據(jù)df_district.head()定義刪除“地區(qū)”列中多余文字的函數(shù)parse_region()importredefparse_region(x):x1=re.sub(r"[\W\d]","",x)ifx1[:3]in["黑龍江","內(nèi)蒙古"]:returnx1[:3]else:returnx1[:2]第七次全國人口普查數(shù)據(jù)分析與視化對“地區(qū)”列的值進行規(guī)范化處理df_district['地區(qū)']=df_district['地區(qū)'].str.replace('','')df_district["地區(qū)"]=df_district["地區(qū)"].map(parse_region)定義列名稱df_district.columns=["地區(qū)","人口數(shù)","2020年人口占比","2010年人口占比"]查看是否存在缺失值df_district.isnull().sum()復(fù)制數(shù)據(jù)集population1=df_district.copy()提取數(shù)據(jù)集中部分列的部分行數(shù)據(jù)df_district=df_district.iloc[1:32,:]df_district=df_district.loc[1:,:]重置索引df_district.set_index("地區(qū)",inplace=True)刪除空值df_district.dropna(how="any",inplace=True)第七次全國人口普查數(shù)據(jù)分析與視化轉(zhuǎn)換與查看數(shù)據(jù)類型df_district["人口數(shù)"]=df_district["人口數(shù)"].astype(int)df_district.dtypes繪制2020年與2010年各地區(qū)人口占比對比柱形圖掃描二維碼在線瀏覽電子活頁1-6“繪制2020年與2010年各地區(qū)人口占比對比柱形圖”中的代碼。繪制2020年各地區(qū)人口數(shù)量分布地圖繪制2020年各地區(qū)人口數(shù)量分布地圖,對應(yīng)的代碼詳見本書配套的電子活頁1-3。第七次全國人口普查數(shù)據(jù)分析與視化7.2010—2020年這10年間人口增長數(shù)據(jù)對比分析與可視化讀取數(shù)據(jù)p2010=pd.read_excel(r'data\2010年各地區(qū)分性別的人口數(shù)據(jù).xlsx',header=0)查看部分數(shù)據(jù)p2010.head()對2010年各地區(qū)人口性別的數(shù)據(jù)進行預(yù)處理p2010=p2010[['Unnamed:0','合計']]p2010.rename(columns={'Unnamed:0':'地區(qū)','合計':'2010年人口數(shù)'},inplace=True)p2010['地區(qū)']=p2010['地區(qū)'].str.replace('','')對2020年各地區(qū)人口數(shù)據(jù)進行預(yù)處理population1=population1[population1['地區(qū)']!='現(xiàn)役軍人']population1.rename(columns={'人口數(shù)':'2020年人口數(shù)'},inplace=True)第七次全國人口普查數(shù)據(jù)分析與視化合并p2010和population1兩個數(shù)據(jù)集與提取所需的數(shù)據(jù)population2=population1.merge(right=p2010,how='left',left_on='地區(qū)',right_on='地區(qū)')population=population2[population2['地區(qū)']!='全國']計算各地區(qū)10年的人口增長數(shù)據(jù)population['10年增長人數(shù)']=population['2020年人口數(shù)']-population['2010年人口數(shù)']按“10年增長人數(shù)”列對人口數(shù)據(jù)進行排序與查看部分數(shù)據(jù)population.sort_values('10年增長人數(shù)',ascending=False,inplace=True)population.head()查看10年人口數(shù)量的增減情況population['group']=population['10年增長人數(shù)']>0第七次全國人口普查數(shù)據(jù)分析與視化繪制各地區(qū)10年增長人數(shù)的柱形圖population.plot.bar(x='地區(qū)',y='10年增長人數(shù)',color=population.group.map({True:'#61BDCD',False:'#E9967A'}))plt.legend('')plt.show()圖1-5各地區(qū)10年增長人數(shù)的柱形圖第七次全國人口普查數(shù)據(jù)分析與視化8.2020年各地區(qū)15歲及以上人口平均受教育年限數(shù)據(jù)分析與可視化讀取數(shù)據(jù)df_edu_time=pd.read_excel(r"data\2020年和2010年各地區(qū)15歲及以上人口平均受教育年限.xlsx")查看部分數(shù)據(jù)df_edu_time.head()定義列名稱df_edu_time.columns=["地區(qū)","2020年平均年限","2010年平均年限"]查看是否存在缺失值df_edu_time.isnull().sum()刪除“地區(qū)”列中多余的空格df_edu_time['地區(qū)']=df_edu_time['地區(qū)'].str.replace('','')提取數(shù)據(jù)集中部分列的部分行數(shù)據(jù)df_edu_time=df_edu_time.iloc[1:,:]df_edu_time=df_edu_time.loc[1:,:]第七次全國人口普查數(shù)據(jù)分析與視化重置索引df_edu_time.set_index("地區(qū)",inplace=True)繪制2020年各地區(qū)15歲及以上人口平均受教育年限對比的柱形圖df_time_2020=df_edu_time["2020年平均年限"].values.tolist()bar1=(Bar(init_opts=opts.InitOpts(width="1000px",height="600px")).add_xaxis(district).add_yaxis("2020年平均受教育年限",df_time_2020).set_global_opts(title_opts=opts.TitleOpts(title="2020年各地區(qū)15歲及以上人口平均受教育年限對比"),xaxis_opts=opts.AxisOpts(name="地區(qū)"),yaxis_opts=opts.AxisOpts(name="平均受教育年限"),tooltip_opts=opts.TooltipOpts(is_show=True,trigger="axis",axis_pointer_type="cross")).set_series_opts(label_opts=opts.LabelOpts(is_show=True)))bar1.render_notebook()第七次全國人口普查數(shù)據(jù)分析與視化圖1-62020年各地區(qū)15歲及以上人口平均受教育年限對比的柱形圖第七次全國人口普查數(shù)據(jù)分析與視化9.2020年全國人口畫像2020年全國人口畫像對應(yīng)的代碼及繪制的圖形詳見本書配套的電子活頁1-4。10.繪制全國各地區(qū)人口分布地圖繪制全國各地區(qū)人口分布地圖,對應(yīng)的代碼詳見本書配套的電子活頁1-5。11.全國各地區(qū)流動人口數(shù)據(jù)分析與可視化讀取全國各地區(qū)流動人口字符串數(shù)據(jù)掃描二維碼在線瀏覽電子活頁1-7“讀取全國各地區(qū)流動人口字符串數(shù)據(jù)”中的代碼及輸出的結(jié)果。第七次全國人口普查數(shù)據(jù)分析與視化對數(shù)據(jù)集列名稱進行重命名floating_pop_df=floating_pop_df.rename({"省內(nèi)":"省內(nèi)人戶分離人口數(shù)","省外":"省外流動人口數(shù)"},
axis=1)[["省內(nèi)人戶分離人口數(shù)","省外流動人口數(shù)","地區(qū)"]].set_index("地區(qū)")合并多個數(shù)據(jù)集df=pd.concat([df_region_age,df_district,
df_edu,
floating_pop_df],axis=1)df.head()第七次全國人口普查數(shù)據(jù)分析與視化計算省內(nèi)與省外人戶分離人口比例在處理數(shù)據(jù)的時候,有時需要根據(jù)某個列計算得到一個新列,以便后續(xù)使用。df=df.assign(inside_rate=df["省內(nèi)人戶分離人口數(shù)"]/df["人口數(shù)"],outside_rate=df["省外流動人口數(shù)"]/df["人口數(shù)"],floating_rate=(df["省內(nèi)人戶分離人口數(shù)"]+df["省外流動人口數(shù)"])/df["人口數(shù)"])="地區(qū)"df.head()第七次全國人口普查數(shù)據(jù)分析與視化繪制各地區(qū)之間的年齡結(jié)構(gòu)層次聚類圖掃描二維碼在線瀏覽電子活頁1-8“繪制各地區(qū)之間的年齡結(jié)構(gòu)層次聚類圖”中的代碼及繪制的圖形。fromscipy.clusterimporthierarchygdf=df.assign(group=hierarchy.cut_tree(model,3)+1).sort_values("group")基于層次聚類圖的第三層將各地區(qū)分為3組繪制全國各地區(qū)人口年齡結(jié)構(gòu)分組地圖繪制全國各地區(qū)人口年齡結(jié)構(gòu)分組地圖,對應(yīng)的代碼詳見本書配套的電子活頁1-6。第七次全國人口普查數(shù)據(jù)分析與視化繪制不同組平均人口年齡結(jié)構(gòu)柱形圖掃描二維碼在線瀏覽電子活頁1-9“繪制不同組平均人口年齡結(jié)構(gòu)柱形圖”中的代碼及繪制的圖形。column_name_map={"0—14歲":"a14-","15—59歲":"a15_59","60歲及以上":"a60+"}gdf=gdf.rename(column_name_map,axis=1)gdf[["a14-","a15_59","a60+"]]=gdf[["a14-","a15_59","a60+"]]/100對數(shù)據(jù)集gdf中各年齡段列名稱進行重命名第七次全國人口普查數(shù)據(jù)分析與視化分析省外流動人口對人口年齡結(jié)構(gòu)的影響alt.Chart(gdf.reset_index()).mark_point().encode(alt.Y("a15_59",scale=alt.Scale(domain=[0.5,0.7])),x="省外流動人口數(shù)",color="group:N",tooltip=["地區(qū):O",
"省外流動人口數(shù):Q",
"a15_59:Q"]).properties(title="省外流動人口數(shù)與15歲到59歲之間人口年齡結(jié)構(gòu)比例的關(guān)系")圖1-7省外流動人口數(shù)與15歲到59歲之間人口年齡結(jié)構(gòu)比例的關(guān)系圖第七次全國人口普查數(shù)據(jù)分析與視化獲取全國各地區(qū)的2021年人均GDP數(shù)據(jù)gdp_data_path=r"data\2020-2021年人均GDP.xlsx"gdp_raw_df=pd.read_excel(gdp_data_path)gdp_df=gdp_raw_df.loc[:,["地區(qū)","2021年人均GDP"]]#GDP的單位:億元gdp_df["地區(qū)"]=gdp_df["地區(qū)"].map(parse_region)df1=pd.concat([df,gdp_df.set_index("地區(qū)")],axis=1)合并兩個數(shù)據(jù)集corr=df1.drop(["省內(nèi)人戶分離人口數(shù)","省外流動人口數(shù)","2020年占比","2010年占比"],axis=1).corr().round(2)corr.style.background_gradient(cmap='YlOrRd')繪制熱力圖,通過相關(guān)系數(shù)來分析人口年齡結(jié)構(gòu)的影響因素第七次全國人口普查數(shù)據(jù)分析與視化圖1-8人口年齡結(jié)構(gòu)影響因素的熱力圖【任務(wù)描述】根據(jù)地理位置通常將31個省、自治區(qū)、直轄市劃分為以下7個大區(qū):華東(包括山東、江蘇、安徽、浙江、福建、上海)、華南(包括廣東、廣西、海南)、華中(包括湖北、湖南、河南、江西)、華北(包括北京、天津、河北、山西、內(nèi)蒙古)、西北(包括寧夏、新疆、青海、陜西、甘肅)、西南(包括四川、云南、貴州、西藏、重慶)、東北(包括遼寧、吉林、黑龍江)。Excel文件“2011—2021各地區(qū)GDP.xlsx”提供了全國31個省、自治區(qū)、直轄市2011—2021年的GDP數(shù)據(jù)。針對這些GDP數(shù)據(jù)進行以下分析與可視化操作。(1)查看歷年GDP最低和最高的地區(qū)。(2)查看近5年GDP增速最快和最慢的地區(qū)。(3)查看廣東省和湖北省近5年的GDP增速(4)繪制條形圖對比2020年各地區(qū)GDP增速。(5)對比分析2020年和2021年全國各地區(qū)的GDP?!救蝿?wù)1-2】2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化【任務(wù)描述】(6)分析2020年、2021年各大區(qū)的GDP。(7)分析2020年、2021年全國各地區(qū)的GDP和人均GDP。(8)繪制柱形圖、條形圖、地圖對2021年全國各地區(qū)的GDP數(shù)據(jù)進行可視化分析。(9)繪制輪播地圖對2011—2021年全國各地區(qū)的GDP數(shù)據(jù)進行可視化分析。【任務(wù)實現(xiàn)】在JupyterNotebook開發(fā)環(huán)境中創(chuàng)建tc01-02.ipynb,然后在單元格中編寫代碼并輸出對應(yīng)的結(jié)果?!救蝿?wù)1-2】2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化導入模塊1.導入模塊與讀取數(shù)據(jù)frompyecharts.globalsimportChartType讀取數(shù)據(jù)df=pd.read_excel(r'data\2011-2021各地區(qū)GDP.xlsx')查看數(shù)據(jù)集中的部分數(shù)據(jù)df.head()2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化2.查看歷年GDP最低和最高的地區(qū)la=[]lb=[]foriinrange(1,df.shape[1]):x1=df[df.iloc[:,i]==df.iloc[:,i].min()]['地區(qū)'].valuesy1=df[df.iloc[:,i]==df.iloc[:,i].max()]['地區(qū)'].valuesla.extend(x1)lb.extend(y1)print(la,sep='\r')print(lb,sep='\r')2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化3.查看近5年GDP增速最快和最慢的地區(qū)獲取近6年各地區(qū)的GDP數(shù)據(jù)并進行轉(zhuǎn)置df2=df.iloc[:,:7].set_index('地區(qū)').T計算近5年各地區(qū)GDP的增速df3=(df2/df2.shift(-1)-1)*100查看2021年GDP增速最快的地區(qū)df3.iloc[0][df3.iloc[0]==df3.iloc[0].max()]查看近5年GDP增速最快和最慢的地區(qū)lc=[]ld=[]foriinrange(0,df3.shape[0]-1):x2=df3.iloc[i][df3.iloc[i]==df3.iloc[i].max()].index[0]y2=df3.iloc[i][df3.iloc[i]==df3.iloc[i].min()].index[0]lc.append(x2)ld.append(y2)print(lc,sep='\r')print(ld,sep='\r')創(chuàng)建用戶賬戶輸出近5年GDP增速最快和最慢的地區(qū)yr=range(2021,2016,-1)foriinrange(5):print(yr[i],'GDP增速最快:',lc[i])print('*'*28)foriinrange(5):print(yr[i],'GDP增速最慢:',ld[i])2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化4.查看廣東省和湖北省近5年的GDP增速查看廣東省近5年的GDP增速num=df3.columns.tolist().index('廣東省')df3.iloc[:,num]獲取2020年各地區(qū)GDP增速數(shù)據(jù)df_a=df3.head(2)df_2020=df_a.tail(-1)df_b=pd.DataFrame(df_2020.iloc[0].sort_values())df_b查看湖北省近5年的GDP增速num=df3.columns.tolist().index('湖北省')df3.iloc[:,num]5.繪制條形圖對比2020年各地區(qū)GDP增速繪制2020年各地區(qū)GDP增速條形圖plt.figure(dpi=100)df_b.plot.barh(figsize=(20,15),color='r',alpha=0.5)2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化圖1-92020年各地區(qū)GDP增速條形圖2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化6.對比分析2020年和2021年全國各地區(qū)的GDP獲取2020年和2021年全國各地區(qū)的GDPdf4=pd.read_excel(r'data\2020-2021年全國各地區(qū)GDP.xlsx',usecols=['地區(qū)','2020年GDP','2021年GDP'])設(shè)置數(shù)據(jù)集的索引列并對數(shù)據(jù)集進行排序df4=df4.set_index('地區(qū)')df4=df4.sort_values(by='2021年GDP',ascending=False)查看2021年GDP排名前5位的地區(qū)df4.head()2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化繪制2021年和2020年全國各地區(qū)GDP柱形圖df4.plot.bar(figsize=(16,8))圖1-102021年和2020年全國各地區(qū)GDP柱形圖2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化7.分析2020年各大區(qū)的GDP獲取2020年各地區(qū)GDP數(shù)據(jù)并進行轉(zhuǎn)置data2=pd.DataFrame(dict(zip(df['地區(qū)'].values,df.loc[:,'2020年'].values)),index=range(1)).T.reset_index()對數(shù)據(jù)集的列進行重命名data2.columns=['地區(qū)','2020年GDP']對數(shù)據(jù)集“地區(qū)”列數(shù)據(jù)進行規(guī)范化處理正則表達式中字符“\W\d”表示匹配以1個特殊字符開頭,后接1個0~9的任意數(shù)字的字符串。
importredefparse_region(x):x1=re.sub(r"[\W\d]","",x)ifx1[:3]in["黑龍江","內(nèi)蒙古"]:returnx1[:3]else:returnx1[:2]data2['地區(qū)']=data2['地區(qū)'].str.replace('','')data2["地區(qū)"]=data2["地區(qū)"].map(parse_region) 2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化合并兩個數(shù)據(jù)集data_2=data.merge(right=data2,how='left',left_on='地區(qū)',right_on='地區(qū)')data_2.head()計算2020年各大區(qū)GDPdata2_gdp=data_2.groupby(by='大區(qū)').agg({'地區(qū)':'count','2020年GDP':'sum'})data2_gdp.columns=['省市區(qū)數(shù)量','2020年各大區(qū)GDP']data2_gdp=data2_gdp.sort_values(by='2020年各大區(qū)GDP',ascending=False)data2_gdp=data2_gdp.reset_index()data2_gdp2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化繪制2020年和2021年各大區(qū)GDP柱形圖
fig=plt.figure(figsize=(10,5),dpi=100)axes1=fig.add_subplot(1,2,1)axes2=fig.add_subplot(1,2,2)axes1.set_ylim([0,350000])axes1.bar(data2_gdp['大區(qū)'],
data2_gdp['2020年各大區(qū)GDP'])axes2.bar(data_gdp['大區(qū)'],data_gdp['各大區(qū)GDP'])圖1-112020年和2021年各大區(qū)GDP柱形圖2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化8.分析2021年各大區(qū)的GDP從數(shù)據(jù)集中獲取2021年各地區(qū)GDP數(shù)據(jù)data=pd.DataFrame(df4['2021年GDP'])重置數(shù)據(jù)集的索引data=data.reset_index()在數(shù)據(jù)集中增加“大區(qū)”列,并設(shè)置初始值為0data['大區(qū)']=[0]*len(data)刪除數(shù)據(jù)集中“地區(qū)”列數(shù)據(jù)中的空格data['地區(qū)']=data['地區(qū)'].replace('','')2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化根據(jù)各省市區(qū)隸屬的大區(qū)設(shè)置數(shù)據(jù)集中“大區(qū)”列的值dq1=data[data['地區(qū)'].isin(['山東','江蘇','安徽','浙江','福建','上海'])]['大區(qū)'].index.tolist()data.iloc[dq1,2]='華東'dq2=data[data['地區(qū)'].isin(['廣東','廣西','海南'])]['大區(qū)'].index.tolist()data.iloc[dq2,2]='華南'dq3=data[data['地區(qū)'].isin(['湖北','湖南','河南','江西'])]['大區(qū)'].index.tolist()data.iloc[dq3,2]='華中'dq4=data[data['地區(qū)'].isin(['北京','天津','河北','山西','內(nèi)蒙古'])]['大區(qū)'].index.tolist()data.iloc[dq4,2]='華北'dq5=data[data['地區(qū)'].isin(['寧夏','新疆','青海','陜西','甘肅'])]['大區(qū)'].index.tolist()data.iloc[dq5,2]='西北'dq6=data[data['地區(qū)'].isin(['四川','云南','貴州','西藏','重慶'])]['大區(qū)'].index.tolist()data.iloc[dq6,2]='西南'dq7=data[data['地區(qū)'].isin(['黑龍江','吉林','遼寧'])]['大區(qū)'].index.tolist()data.iloc[dq7,2]='東北'data.head()2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化圖1-122021年各大區(qū)GDP柱形圖分大區(qū)統(tǒng)計各省市區(qū)2021年GDP數(shù)據(jù)data_gdp=data.groupby(by='大區(qū)').agg({'地區(qū)':'count','2021年GDP':'sum'})data_gdp=data_gdp.sort_values(by='2021年GDP',ascending=False)data_gdp.columns=['省市區(qū)數(shù)量','各大區(qū)GDP']data_gdp=data_gdp.reset_index()data_gdp繪制2021年各大區(qū)GDP柱形圖plt.figure(figsize=(10,5),dpi=100)plt.bar(data_gdp['大區(qū)'],data_gdp['各大區(qū)GDP'])2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化9.分析2020年全國各地區(qū)的GDP和人均GDP獲取2020年全國各地區(qū)的GDP和人均GDP數(shù)據(jù)#gdp2020=gdp[['地區(qū)','2020年GDP','2020年人均GDP']]gdp2020=gdp[gdp.columns[0:3]].copy()
#dp2020['2020年人均GDP']=gdp2020['2020年人均GDP'].astype('float')gdp2020=gdp2020.set_index('地區(qū)')gdp2020.head()繪制2020年全國各地區(qū)的GDP和人均GDP柱形圖gdp2020.sort_values(by='2020年人均GDP',ascending=False).plot.bar(figsize=(16,8))2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化圖1-132020年全國各地區(qū)的GDP和人均GDP柱形圖2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化10.分析2021年全國各地區(qū)的GDP和人均GDP讀取數(shù)據(jù)gdp=pd.read_excel(r'data\2020-2021年全國各地區(qū)GDP.xlsx')繪制2021年全國各地區(qū)GDP和人均GDP的堆疊柱形圖掃描二維碼在線瀏覽電子活頁1-11“繪制2021年全國各地區(qū)GDP和人均GDP的堆疊柱形圖”中的代碼及繪制的圖形。繪制2021年全國各地區(qū)GDP分布地圖繪制2021年全國各地區(qū)GDP分布地圖,對應(yīng)的代碼詳見本書配套的電子活頁1-7。2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化11.對2021年全國各地區(qū)的GDP數(shù)據(jù)進行可視化分析讀取數(shù)據(jù)datas=pd.read_excel(r'data\2011-2021各地區(qū)GDP.xlsx')繪制2021年全國各地區(qū)GDP柱形圖b1=(Bar().add_xaxis(datas['地區(qū)'].values.tolist()).add_yaxis('2021年全國各地區(qū)GDP(億元)',
datas['2021年'].values.tolist()).set_global_opts(title_opts=opts.TitleOpts(title='2021年全國各地區(qū)
GDP(億元)'),
datazoom_opts=[opts.DataZoomOpts(),
opts.DataZoomOpts(type_='inside')],))b1.render_notebook()圖1-142021年全國各地區(qū)GDP柱形圖2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化繪制2021年全國各地區(qū)GDP條形圖掃描二維碼在線瀏覽電子活頁1-12“繪制2021年全國各地區(qū)GDP條形圖”中的代碼及繪制的圖形。繪制2021年全國各地區(qū)GDP地圖在pyecharts中可使用Map類繪制地圖,并且通過不同顏色展現(xiàn)不同的數(shù)據(jù)。datas['地區(qū)'].replace(regex=True,inplace=True,to_replace=['省','市','維吾爾自治區(qū)','回族自治區(qū)','壯族自治區(qū)','自治區(qū)'],value=r'')map=(Map().add('2021年全國各地區(qū)GDP(億元)',datas[['地區(qū)','2021年']].values.tolist(),'china').set_global_opts(title_opts=opts.TitleOpts(title='2021年全國各地區(qū)GDP(億元)'),visualmap_opts=opts.VisualMapOpts(max_=110000),))map.render_notebook()2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化由于各地區(qū)GDP數(shù)據(jù)分布并不平均,可以通過is_piecewise屬性分段自定義不同的顏色區(qū)間,代碼如下:visualmap_opts=opts.VisualMapOpts(max_=110000,is_piecewise=True,pieces=[{"min":0,"max":10000,"label":"1~10000","color":"cyan"},{"min":10001,"max":20000,"label":"10001~20000","color":"yellow"},{"min":20001,"max":50000,"label":"20001~50000","color":"orange"},{"min":50001,"max":80000,"label":"50001~80000","color":"coral"},{"min":80001,"max":120000,"label":"80001~120000","color":"red"},])2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化12.繪制分析2011—2021年全國各地區(qū)GDP數(shù)據(jù)的輪播地圖使用Map類繪制2011—2021年全國各地區(qū)GDP數(shù)據(jù)的輪播地圖datas['地區(qū)'].replace(regex=True,inplace=True,to_replace=['省','市','維吾爾自治區(qū)','回族自治區(qū)','壯族自治區(qū)','自治區(qū)'],value=r'')tl=Timeline()#輪播的速度,單位為毫秒(ms)tl.add_schema(play_interval=1500,symbol='emptydiamond')foriinrange(2011,2022):
2011—2021年全國各大區(qū)的GDP數(shù)據(jù)分析與可視化使用Geo類繪制2011—2021年全國各地區(qū)GDP輪播地圖使用Geo類繪制2011—2021年全國各地區(qū)GDP輪播地圖對應(yīng)的代碼詳見本書配套的電子活頁1-8。map0=(Map().add('{}年全國各地區(qū)GDP(億元)'.format(i),datas[['地區(qū)',str(i)+'年']].values.tolist(),'china').set_global_opts(title_opts=opts.TitleOpts(title='{}年全國各地區(qū)GDP(億元)'.format(i)),visualmap_opts=opts.VisualMapOpts(max_=110000,is_piecewise=True),))tl.add(map0,'{}年'.format(i))tl.render_notebook()【任務(wù)描述】Excel文件“各地區(qū)面積_人口_GDP.xlsx”共有31行、5列數(shù)據(jù),列名分別為:行政區(qū)、面積(萬平方公里)、2021年GDP(億元)、人口數(shù)、所屬區(qū)域。讀取數(shù)據(jù)并創(chuàng)建數(shù)據(jù)集,然后針對該數(shù)據(jù)集完成以下數(shù)據(jù)分析與可視化操作。(1)繪制各行政區(qū)“人口數(shù)”柱形圖。(2)繪制全國“人口數(shù)”箱形圖。(3)繪制全國各地區(qū)的面積-人口數(shù)散點圖。(4)計算全國各地區(qū)人均GDP(萬元)和人口密度。(5)根據(jù)“人口密度”劃分“人口密度等級”。(6)按“人口密度等級”統(tǒng)計省區(qū)數(shù)量、計算均值。(7)繪制各“所屬區(qū)域”GDP柱形圖?!救蝿?wù)1-3】綜合分析我國各地區(qū)的面積、人口與GDP數(shù)據(jù)【任務(wù)實現(xiàn)】在JupyterNotebook開發(fā)環(huán)境中創(chuàng)建tc01-03.ipynb,然后在單元格中編寫代碼并輸出對應(yīng)的結(jié)果。綜合分析我國各地區(qū)的面積、人口與GDP數(shù)據(jù)掃描二維碼在線瀏覽電子活頁1-13“【任務(wù)1-3】綜合分析我國各地區(qū)的面積、人口與GDP數(shù)據(jù)”的實現(xiàn)過程。THANKS模塊二天氣與空氣質(zhì)量數(shù)據(jù)分析Python數(shù)據(jù)分析與可視化典型項目實戰(zhàn)(微課版)
【任務(wù)描述】Excel文件“長沙市天氣數(shù)據(jù).xlsx”共有365行、7列數(shù)據(jù),列名分別為:日期、最高氣溫、最低氣溫、天氣、風向、風力、空氣質(zhì)量指數(shù)。針對該數(shù)據(jù)集完成以下數(shù)據(jù)分析與可視化操作。(1)繪制2021年長沙市AQI(AirQualityIndex,空氣質(zhì)量指數(shù))全年走勢圖。(2)繪制2021年長沙市空氣質(zhì)量指數(shù)季度箱形圖。(3)繪制2021年1月長沙市空氣質(zhì)量餅圖。(4)設(shè)置復(fù)雜條件查詢所需的數(shù)據(jù)。(5)計算協(xié)方差和相關(guān)系數(shù)?!救蝿?wù)實現(xiàn)】JupyterNotebook開發(fā)環(huán)境中創(chuàng)建tc02-01.ipynb,然后在單元格中編寫代碼并輸出對應(yīng)的結(jié)果?!救蝿?wù)2-1】2021年長沙市天氣數(shù)據(jù)分析2021年長沙市天氣數(shù)據(jù)分析1.導入模塊fromcollectionsimportCounter2.讀取數(shù)據(jù)path='.\data\長沙市天氣數(shù)據(jù).xlsx'weatherDf=pd.read_excel(path,converters={'日期':str})3.查看部分數(shù)據(jù)與數(shù)據(jù)集基本信息查看前5行數(shù)據(jù)#head()從0開始計數(shù)weatherDf.head()2021年長沙市天氣數(shù)據(jù)分析查看各列的數(shù)據(jù)類型weatherDf.dtypes查看數(shù)據(jù)集的基本信息weatherD()查看后5行數(shù)據(jù)weatherDf.tail()2021年長沙市天氣數(shù)據(jù)分析提取所有數(shù)字列統(tǒng)計結(jié)果獲取最低氣溫低于0℃的數(shù)據(jù)weatherDf[weatherDf["最低氣溫"]<0].head()4.數(shù)據(jù)預(yù)處理移除掉氣溫的單位℃weatherDf.loc[:,"最高氣溫"]=weatherDf["最高氣溫"].str.replace("℃","").astype('int32')weatherDf.loc[:,"最低氣溫"]=weatherDf["最低氣溫"].str.replace("℃","").astype('int32')#輸出前三行print('-'*25,'輸出前三行的數(shù)據(jù)','-'*25)print(weatherDf.head(3))#提取所有數(shù)字列統(tǒng)計結(jié)果print('-'*25,'提取所有數(shù)字列統(tǒng)計結(jié)果','-'*25)print(weatherDf.describe())#查看單個序列的數(shù)據(jù)print('-'*25,'查看單個Series的數(shù)據(jù)','-'*25)print(weatherDf['最高氣溫'].mean())#最高氣溫print(weatherDf['最高氣溫'].max())#最低氣溫print(weatherDf['最低氣溫'].min())2021年長沙市天氣數(shù)據(jù)分析獲取指定列的非重復(fù)數(shù)據(jù)唯一性去重一般不用于數(shù)字列,而用于枚舉、分類列。對“天氣”“風向”“風力”列按值計數(shù)print('-'*25,'按值計數(shù)','-'*25)print(weatherDf['天氣'].value_counts())print(weatherDf['風向'].value_counts())print(weatherDf['風力'].value_counts())分離“空氣質(zhì)量指數(shù)”列數(shù)據(jù)#字符串用split()拆分后會得到列表aqiDf=weatherDf['空氣質(zhì)量指數(shù)'].astype(str).str.split("",1,expand=True)#修改“空氣質(zhì)量指數(shù)”這一列的值weatherDf.loc[:,'空氣質(zhì)量指數(shù)']=aqiDf[0]weatherDf['空氣質(zhì)量等級']=aqiDf[1]print('-'*25,'唯一去重性','-'*25)print(weatherDf['天氣'].unique())print(weatherDf['風向'].unique())print(weatherDf['風力'].unique())2021年長沙市天氣數(shù)據(jù)分析將用漢字表示的“空氣質(zhì)量等級”用數(shù)字表示,并存入對應(yīng)“aqiLevel”列defspaqi(aqi):aqilist=[]forstrinaqi:ifstr=='優(yōu)':aqiLevel=1elifstr=='良':aqiLevel=2elifstr=='輕度':aqiLevel=3elifstr=='中度':aqiLevel=4elifstr=='重度':aqiLevel=5aqilist.append(aqiLevel)aqiser=pd.Series(aqilist)returnaqiserweatherDf['aqiLevel']=spaqi(weatherDf['空氣質(zhì)量等級'])weatherDf['空氣質(zhì)量指數(shù)']=weatherDf['空氣質(zhì)量指數(shù)'].astype('int32')分離“日期”列數(shù)據(jù)并將其轉(zhuǎn)換為日期格式df2=weatherDf.copy()df2[['日期','星期']]=df2['日期'].str.split('',2,expand=True)df2.loc[:,'日期']=pd.to_datetime(df2.loc[:,'日期'],format='%Y-%m-%d',errors='coerce')df2.sort_values('日期',inplace=True)df22021年長沙市天氣數(shù)據(jù)分析2021年長沙市天氣數(shù)據(jù)分析5.可視化數(shù)據(jù)分析繪制2021年長沙市AQI(空氣質(zhì)量指數(shù))全年走勢圖掃描二維碼在線瀏覽電子活頁2-1“繪制2021年長沙市AQI(空氣質(zhì)量指數(shù))全年走勢圖”中的代碼及繪制的圖形。繪制2021年長沙市空氣質(zhì)量指數(shù)季度箱形圖#拆分季度df2['quarters']=df2['日期'].dt.quarterq1=df2[df2.quarters==1]q2=df2[df2.quarters==2]q3=df2[df2.quarters==3]q4=df2[df2.quarters==4]all_data=[np.array(q1['空氣質(zhì)量指數(shù)']),np.array(q2['空氣質(zhì)量指數(shù)']),np.array(q3['空氣質(zhì)量指數(shù)']),np.array(q4['空氣質(zhì)量指數(shù)']),]labels=['第一季度','第二季度','第三季度','第四季度']2021年長沙市天氣數(shù)據(jù)分析fig,ax1=plt.subplots(figsize=(6,5))bplot1=ax1.boxplot(all_data,vert=True,patch_artist=True,labels=labels)ax1.set_title('2021年長沙市空氣質(zhì)量指數(shù)季度箱形圖')colors=['pink','lightblue','lightgreen','grey']forpatch,colorinzip(bplot1['boxes'],colors):patch.set_facecolor(color)ax1.yaxis.grid(True)ax1.set_ylabel('空氣質(zhì)量指數(shù)')fig.savefig("2021年長沙市空氣質(zhì)量指數(shù)季度箱形圖.png")plt.show()圖2-12021年長沙市空氣質(zhì)量指數(shù)季度箱形圖繪制2021年1月長沙市空氣質(zhì)量餅圖掃描二維碼在線瀏覽電子活頁2-2“繪制2021年1月長沙市空氣質(zhì)量餅圖”中的代碼及繪制的圖形。2021年長沙市天氣數(shù)據(jù)分析6.復(fù)雜條件查詢查詢最高氣溫小于等于40℃、最低氣溫大于等于15℃,晴天,空氣質(zhì)量等級為優(yōu)的數(shù)據(jù)weatherDf[(weatherDf["最高氣溫"]<=40)&(weatherDf["最低氣溫"]>=15)&(weatherDf["天氣"]=='晴')&(weatherDf["aqiLevel"]==1)]使用weatherDf.query()方法可以簡化查詢。組合條件可以使用“&”或“|”符號進行連接,每個條件都必須用括號標注。weatherDf.query("最高氣溫<=40&最低氣溫>=15&天氣=='晴'&aqiLevel==1")查詢最高氣溫高于35℃的數(shù)據(jù)weatherDf.query("最高氣溫>35").head()2021年長沙市天氣數(shù)據(jù)分析查詢溫差大于等于15℃的數(shù)據(jù)weatherDf.query("最高氣溫-最低氣溫>=15").head()使用外部變量查詢兩個指定氣溫之間的數(shù)據(jù)high_temperature=20low_temperature=10weatherDf.query("最高氣溫<=@high_temperature&最低氣溫>=@low_temperature").head()2021年長沙市天氣數(shù)據(jù)分析7.計算協(xié)方差print(weatherDf['最高氣溫'].cov(weatherDf['最低氣溫']))print(weatherDf['最高氣溫'].cov(weatherDf['空氣質(zhì)量指數(shù)']))print(weatherDf['最低氣溫'].cov(weatherDf['空氣質(zhì)量指數(shù)']))查看相關(guān)系數(shù)矩陣weatherDf.corr()8.計算相關(guān)系數(shù)查看空氣質(zhì)量指數(shù)和最高氣溫的相關(guān)系數(shù)weatherDf['空氣質(zhì)量指數(shù)'].corr(weatherDf['最高氣溫'])查看空氣質(zhì)量指數(shù)和最低氣溫的相關(guān)系數(shù)weatherDf['空氣質(zhì)量指數(shù)'].corr(weatherDf['最低氣溫'])查看空氣質(zhì)量指數(shù)和溫差的相關(guān)系數(shù)weatherDf['空氣質(zhì)量指數(shù)'].corr(weatherDf['最高氣溫']-weatherDf['最低氣溫'])【任務(wù)描述】Excel文件“2011—2022北京天氣數(shù)據(jù).xlsx”包含2011-01-01至2022-05-12共4138行、6列數(shù)據(jù),列名分別為:日期、最高溫、最低溫、天氣、風向風力、空氣質(zhì)量。針對該數(shù)據(jù)集完成以下數(shù)據(jù)分析與可視化操作。(1)繪制展示2011—2022年北京市的氣溫變化情況的折線圖。(2)分析2011—2022年北京市的空氣質(zhì)量狀況。(3)探析2011—2021年北京市揚沙、浮塵、霧霾天氣狀況。(4)探析北京市2016年和2017年有霾天數(shù)季度分布?!救蝿?wù)2-2】2011—2022年北京市天氣數(shù)據(jù)可視化初探【任務(wù)實現(xiàn)】在JupyterNotebook開發(fā)環(huán)境中創(chuàng)建tc02-02.ipynb,然后在單元格中編寫代碼并輸出對應(yīng)的結(jié)果。第七次全國人口普查數(shù)據(jù)分析與視化1.導入模塊導入通用模塊的代碼詳見“本書導學”。導入其他模塊的代碼如下:#導入MultipleLocator類用于設(shè)置刻度間隔frommatplotlib.pyplotimportMultipleLocator2.讀取數(shù)據(jù)并瀏覽部分數(shù)據(jù)導入通用模塊的代碼詳見“本書導學”。導入其他模塊的代碼如下:path=r'data\2011-2022北京天氣數(shù)據(jù).xlsx'df=pd.read_excel(path)df2021年長沙市天氣數(shù)據(jù)分析3.數(shù)據(jù)預(yù)處理復(fù)制數(shù)據(jù)集并顯示其基本信息data=df.copy()()#顯示數(shù)據(jù)樣本的信息從“最高溫”列數(shù)據(jù)中移除字符“℃”,并將數(shù)據(jù)類型從object轉(zhuǎn)換為intdefconvert_temperature_high(val):new_val=val.replace('℃','')returnint(new_val)data['最高溫']=data['最高溫'].apply(convert_temperature_high)從“最低溫”列數(shù)據(jù)中移除字符“℃”defconvert_temperature_low(val):new_val=val.replace('℃','')returnnew_valdata['最低溫']=data['最低溫'].apply(convert_temperature_low)2021年長沙市天氣數(shù)據(jù)分析將移除字符“℃”后的“最低溫”列數(shù)據(jù)中的空字符串,即空值,用最近30天(前后各15天)的平均氣溫代替掃描二維碼在線瀏覽電子活頁2-3“自定義函數(shù)func_for()”中的代碼。將得到的不含空值的“最低溫”列數(shù)據(jù)的數(shù)據(jù)類型從object轉(zhuǎn)換為intdefconvert_int(val):returnint(val)data=func_for(data)data['最低溫']=data['最低溫'].apply(convert_int)()2021年長沙市天氣數(shù)據(jù)分析使用正則表達式從“日期”列數(shù)據(jù)中移除空值和星期正則表達式中的字符串“\s(\w{2})”表示匹配以1個空格字符開頭,后接2個非特殊字符的符串,例如“周一”。importredefconvert_date(val):#從日期中移除空值和星期new_val=re.sub(r'\s(\w{1,2})',"",val)new_val=new_val.replace('','')returnnew_valdata['日期']=data['日期'].apply(convert_date)print(data['日期'])將“空氣質(zhì)量”列數(shù)據(jù)中的空值替換為文字“無觀測數(shù)據(jù)”data_copy1=data.copy()data_copy1['空氣質(zhì)量']=data_copy1['空氣質(zhì)量'].replace('',np.nan)data_copy1['空氣質(zhì)量']=data_copy1['空氣質(zhì)量'].fillna('無觀測數(shù)據(jù)')data_copy1.sample(5)2021年長沙市天氣數(shù)據(jù)分析從“空氣質(zhì)量”列數(shù)據(jù)中移除空格和數(shù)字,復(fù)制“空氣質(zhì)量等級”的文字內(nèi)容defconvert_airquality(val):new_val=re.sub(r'(\d*)\s',"",val)new_val=new_val.replace('','')returnnew_valdata_c
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 立春科學解讀
- 專用油品運輸業(yè)務(wù)協(xié)議(2024年度)版B版
- 2025年高效節(jié)水打機井建設(shè)與維護合同2篇
- 24節(jié)氣:大寒 相關(guān)英語練習
- 16《金色的草地》說課稿-2024-2025學年三年級上冊語文統(tǒng)編版
- 2025年度智慧交通PPP項目合作協(xié)議3篇
- 個人過橋融資合同2024年適用樣本版
- 氫能燃料電池研發(fā)合作合同
- 2025版寵物領(lǐng)養(yǎng)中心公益項目合作協(xié)議3篇
- 2024年美發(fā)美容師個人服務(wù)合同
- 兒童運動發(fā)育的早期干預(yù)和康復(fù)
- 《道路交通安全法》課件
- 2023年MBA綜合真題及答案(管理類聯(lián)考綜合)
- 工作優(yōu)化與效益提升
- 電機教學能力大賽獲獎之教學實施報告
- 新生兒家庭式護理
- 山東省泰安市新泰市2023-2024學年四年級上學期期末數(shù)學試卷
- DB21-T 3324-2020 螺桿擠壓式秸稈膨化機 技術(shù)條件
- 供水公司招聘考試題庫及答案
- 2024年國家能源集團江蘇電力有限公司招聘筆試參考題庫附帶答案詳解
- 河南省鄭州市鄭州經(jīng)濟技術(shù)開發(fā)區(qū)2023-2024學年七年級上學期期末歷史試題(無答案)
評論
0/150
提交評論