商務(wù)大數(shù)據(jù)分析導(dǎo)論課件項目六數(shù)據(jù)可視化

上傳人：q*** IP屬地：山東上傳時間：2024-12-19 格式：PPTX 頁數(shù)：79 大?。?.67MB 積分：15 舉報 版權(quán)申訴

商務(wù)大數(shù)據(jù)分析導(dǎo)論課件項目六數(shù)據(jù)可視化_第2頁

商務(wù)大數(shù)據(jù)分析導(dǎo)論課件項目六數(shù)據(jù)可視化_第3頁

商務(wù)大數(shù)據(jù)分析導(dǎo)論課件項目六數(shù)據(jù)可視化_第4頁

商務(wù)大數(shù)據(jù)分析導(dǎo)論課件項目六數(shù)據(jù)可視化_第5頁

已閱讀5頁，還剩74頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)可視化的重要性目錄01.數(shù)據(jù)可視化的目的02.探索數(shù)據(jù)可視化03.選擇有效的圖表數(shù)據(jù)可視化的目的PARTONE數(shù)據(jù)可視化定義數(shù)據(jù)可視化是將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像的一種方法，通過視覺化手段使復(fù)雜數(shù)據(jù)變得更易于理解。這不僅包括圖表和圖形，還包括信息圖和其他視覺表示形式，幫助用戶識別數(shù)據(jù)模式和趨勢。01數(shù)據(jù)可視化的目的數(shù)據(jù)可視化的主要目的是通過視覺展示促使人們更快地獲得洞察，簡化數(shù)據(jù)分析，提升決策的有效性。它旨在使龐大而復(fù)雜的信息變得更為直觀，便于抓住關(guān)鍵點和信息的本質(zhì)。02數(shù)據(jù)可視化的應(yīng)用領(lǐng)域數(shù)據(jù)可視化廣泛應(yīng)用于各個行業(yè)，包括商業(yè)分析、金融、醫(yī)療、教育和社會研究等。通過數(shù)據(jù)可視化，各行業(yè)能夠更好地呈現(xiàn)研究成果、監(jiān)控業(yè)務(wù)運(yùn)營及支持戰(zhàn)略制定。03數(shù)據(jù)可視化的基本概念促進(jìn)決策制定數(shù)據(jù)可視化為管理層提供了直觀、可操作的信息，使他們能夠快速識別問題和機(jī)會，從而更高效地制定明智的決策。清晰的視覺表現(xiàn)能夠突出關(guān)鍵數(shù)據(jù)，降低理解復(fù)雜數(shù)據(jù)帶來的障礙。01提升信息傳播效率通過可視化，數(shù)據(jù)分析結(jié)果能夠以更簡潔和吸引人的方式進(jìn)行傳播，幫助受眾在更短的時間內(nèi)grasp重要信息。這種方式有助于提高觀眾的興趣和參與度，加深記憶印象。02促進(jìn)數(shù)據(jù)分析理解數(shù)據(jù)可視化能夠加深分析人員對數(shù)據(jù)的理解，發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的模式或關(guān)聯(lián)。通過圖形化展示，分析過程更具情境性，促進(jìn)了團(tuán)隊協(xié)作和知識分享。03數(shù)據(jù)可視化的重要性探索數(shù)據(jù)可視化PARTTWO探索數(shù)據(jù)可視化探索型數(shù)據(jù)可視化分為兩類：一是假設(shè)檢驗，一是從數(shù)據(jù)中尋找規(guī)律、趨勢和異常。前者的目標(biāo)很明確，后者則相對發(fā)散。數(shù)據(jù)體量越大、復(fù)雜度越高、未知因素越多，探索工作的開放性就越高。探索數(shù)據(jù)可視化假設(shè)檢驗

在這類數(shù)據(jù)可視化探索中，你要回答下面兩個問題中的一個：我設(shè)想的情況是否屬實？如何用不同方式傳達(dá)這一信息？在進(jìn)行求證時，數(shù)據(jù)范圍相對可控，所使用圖表類型較為常規(guī)；當(dāng)然，若想以新穎方式呈現(xiàn)信息，也可嘗試較少見的圖表。01探索數(shù)據(jù)可視化開放性探索由于缺少明確目標(biāo)，開放探索型圖表包含的數(shù)據(jù)范圍較廣，個別情況下可能會容納多組數(shù)據(jù)，或建立自動更新數(shù)據(jù)的動態(tài)系統(tǒng)，也可用于統(tǒng)計建模。開放性探索很值得嘗試，因為它經(jīng)常帶來獨一無二的洞察力。02選擇有效的圖表PARTTHREE選擇有效的圖表首先獲取數(shù)據(jù)，確定數(shù)據(jù)展現(xiàn)的主題，也就是你想利用圖表從數(shù)據(jù)中獲得哪些信息，然后根據(jù)數(shù)據(jù)之間的對比關(guān)系選擇圖表類型。這個過程你還可能通過圖表分析出新的問題，或者嘗試從多個維度分析數(shù)據(jù)。1確定表達(dá)主題同一組數(shù)據(jù)用不同的角度看，有不同的主題，比如下面這組數(shù)據(jù)：1確定表達(dá)主題

如果你的注意力放在1月-5月的銷售發(fā)展趨勢以及售價是怎么樣隨時間而變化的。那你的圖表主題應(yīng)該是“銷售額自1月份開始穩(wěn)步上升”。或者你可能想把重點集中在某一點上，比如說集中在5月份的數(shù)據(jù)上，你可能會記錄產(chǎn)品A，B和C的銷售量排列名次。那樣的話，圖表主題應(yīng)該是“5月份，產(chǎn)品A的銷售額大幅超過B和C”。從另一個角度看同樣是5月份的數(shù)據(jù)，你還可能會將側(cè)重點放在每個產(chǎn)品占銷售額的百分比上。那你的圖表主題應(yīng)該是“5月份，產(chǎn)品A占公司產(chǎn)品總銷售額的比例位居首位”。

選擇合適圖表的關(guān)鍵、也是最重要的就是確定想要表達(dá)的具體主題。而選擇正確的圖表形式，完全取決于主題是否清晰明確。圖表僅僅是表明數(shù)據(jù)的組織形式，它最終是要強(qiáng)調(diào)一個主題，這主題其實就可以作為圖表的標(biāo)題。2確定對比關(guān)系常用可視化圖表示例目錄01.描述變量分類的可視化圖形02.描述變量比例的可視化圖形03.描述變量相關(guān)的可視化圖形04.描述變量分布的可視化圖形05.描述時間序列數(shù)據(jù)的可視化圖形描述變量分類的可視化圖形PARTONE1描述變量分類的可視化圖形1.1條形圖/柱形圖示例數(shù)據(jù)來源于國家統(tǒng)計局發(fā)布的2021年國民經(jīng)濟(jì)和社會發(fā)展統(tǒng)計公報中全國居民人均消費(fèi)支出數(shù)據(jù)。#本例需加載的R軟件包library(ggplot2)library(dplyr)library(forcats)library(patchwork)library(hrbrthemes)#導(dǎo)入或輸入示例數(shù)據(jù)data<-read.csv("2021GDP.csv")#默認(rèn)柱形圖pp1=data%>%

mutate(index=fct_reorder(index,Value))%>%#設(shè)置順序

ggplot(aes(x=index,y=Value))+

geom_bar(stat="identity")+

theme_bw()pp1柱形圖#默認(rèn)條形圖pp2=data%>%mutate(index=fct_reorder(index,Value))%>%ggplot(aes(x=index,y=Value))+geom_bar(stat="identity")+theme_bw()+coord_flip()#水平條形圖pp2條形圖#數(shù)據(jù)輸入data<-data.frame(group=c("A","B","C","D"),value=c(33,62,56,67),number=c(100,500,459,342))#條形寬度設(shè)置data$right<-cumsum(data$number)+30*c(0:(nrow(data)-1))data$left<-data$right-data$number#繪圖ggplot(data,aes(ymin=0))+geom_rect(aes(xmin=left,xmax=right,ymax=value,colour=group,fill=group))+xlab("number")+ylab("value")+theme_bw()+theme(legend.position="none")不同條形寬度的柱形圖gg1=data2%>%arrange(val)%>%#按val排序mutate(name=factor(name,levels=name))%>%ggplot(aes(x=name,y=val))+geom_segment(aes(xend=name,yend=0))+geom_point(size=4,color="orange")+coord_flip()+theme_bw()+xlab("")gg1水平棒棒糖圖1描述變量分類的可視化圖形1.2使用barplot()繪制條形圖barplot函數(shù)可實現(xiàn)在R中構(gòu)建條形圖及自定義圖表顏色、條形寬度、方向#輸入數(shù)據(jù)data1<-data.frame(name=letters[1:5],value=sample(seq(4,15),5))#同色條形圖barplot(height=data1$value,names=data1$name,col=rgb(0.2,0.4,0.6,0.6))

barplot默認(rèn)條形圖#條形顏色不同library(RColorBrewer)coul<-brewer.pal(5,"Set2")#Set2是函數(shù)自動的顏色庫barplot(height=data1$value,names=data1$name,col=coul)

設(shè)置系統(tǒng)顏色的柱形圖#水平條形圖barplot(height=data1$value,names=data1$name,col="#69b3a2",horiz=T,las=1)水平條形圖#條紋填充的條形圖barplot(height=data1$value,names=data1$name,density=c(5,10,20,30,7),angle=c(0,45,90,11,36),col="brown")

條紋填充的柱形圖1描述變量分類的可視化圖形1.3

分組和堆疊條形圖/柱形圖

在單變量分組基礎(chǔ)上，學(xué)習(xí)多變量分組條形圖，能夠在不同維度上展示數(shù)據(jù)，具體方法是在x軸的每個位置繪制一組條形，由一個分類變量確定，然后根據(jù)另一個分類變量在每個組內(nèi)繪制條形。以下示例主要展示了分組數(shù)據(jù)可視化方法。library(ggplot2)#輸入一個模擬數(shù)據(jù)specie<-c(rep("sorgho",3),rep("poacee",3),rep("banana",3),rep("triticum",3))condition<-rep(c("normal","stress","Nitrogen"),4)value<-abs(rnorm(12,0,15))data<-data.frame(specie,condition,value)模擬輸入的數(shù)據(jù)集必須有3個列，包括：數(shù)值(value)，組(spec)和子組(condition)2個分類變量。#繪圖ggplot(data,aes(fill=condition,y=value,x=specie))+geom_bar(position="dodge",stat="identity")+theme_bw()分組柱形圖/條形圖#position中參數(shù)"dodge"切換為“stack”ggplot(data,aes(fill=condition,y=value,x=specie))+geom_bar(position="stack",stat="identity")+theme_bw()堆疊柱形圖/條形圖#繪圖ggplot(data,aes(fill=condition,y=value,x=condition))+geom_bar(position="dodge",stat="identity")+scale_fill_viridis(discrete=T,option="E")+ggtitle("Studying4species..")+facet_wrap(~specie)+theme_ipsum(base_family="")+theme(legend.position="none")+xlab("")組顯示的條形圖/柱形圖描述變量比例的可視化圖形PARTTWO2描述變量比例的可視化圖形2.1餅圖繪制餅圖，是將總體看作一個圓，按照各分類的占比情況將圓劃分大小不同的扇形，以弧度的大小來表示某一分類的占比?？梢钥焖俚牧私飧鞣诸惖那闆r，但一般分類的數(shù)量不能太多，太多會導(dǎo)致圓被切割為很多塊，不利于展示在餅圖中，通常會將占比最大的分類放置在最顯眼的地方，即12點鐘方向的右邊，而第二大占比放置在12點鐘方向的左邊。其余的分類依據(jù)逆時針方向放置。2描述變量比例的可視化圖形2.1餅圖繪制參數(shù)設(shè)置說明：x:數(shù)值向量，表示每個扇形的面積。labels:字符型向量，表示各扇形面積標(biāo)簽。radius:餅圖的半徑。main:餅圖的標(biāo)題。clockwise:是一個邏輯值,用來指示餅圖各個切片是否按順時針做出分割。angle:設(shè)置底紋的斜率。density:底紋的密度。默認(rèn)值為NULL。col:是表示每個扇形的顏色，相當(dāng)于調(diào)色板2描述變量比例的可視化圖形2.1餅圖繪制#librarylibrary(ggplot2)library(dplyr)library(forcats)library(patchwork)library(hrbrthemes)library(echarts4r)library(ggforce)#建立扇形面積大小向量，數(shù)據(jù)來源：國家統(tǒng)計局2021年居民消費(fèi)支出數(shù)據(jù)a<-c(2115,2599,3156,1423,5641,1419,7178,569)#建立扇形標(biāo)簽名稱向量yb<-c("醫(yī)療保健","教育文化娛樂","交通通信","生活用品服務(wù)","居住","衣著","食品煙酒","其他")#扇形顏色設(shè)置c<-c('#E5D2DD','#53A85F','#F1BB72','#D6E7A3','#57C3F3','#476D87','#E59CC4','#BD956A')#將扇形面積四舍五入保存為一位小數(shù)d<-paste(round(100*a/sum(a),1),"%")pie(a,labels=d,#扇形標(biāo)簽，labels=b,或者main="2021年居民消費(fèi)支出結(jié)構(gòu)",#圖片標(biāo)題radius=0.8,#餅圖大小設(shè)置clockwise=T,border="white",#餅圖外沿顏色設(shè)置col=c)legend("topright",b,cex=0.6,fill=c)2描述變量比例的可視化圖形2.1餅圖繪制2021年居民消費(fèi)支出結(jié)構(gòu)餅圖2描述變量比例的可視化圖形2.2環(huán)形圖ggplot2包允許構(gòu)建甜甜圈圖表。步驟如下:?輸入數(shù)據(jù)為一個數(shù)值變量的組?絕對數(shù)值必須轉(zhuǎn)換成比例?圓環(huán)上的分組是堆疊的一個接一個地顯示環(huán)?geom_rect()將每一組繪制為一個矩形?coord_polar()用于從堆的矩形切換到環(huán)?xlim()在中間添加了一個空圓圈2描述變量比例的可視化圖形2.2環(huán)形圖#創(chuàng)建測試數(shù)據(jù)data<-data.frame(category=c("A","B","C"),count=c(10,60,30))#計算百分比data$fraction=data$count/sum(data$count)#計算累計百分比data$ymax=cumsum(data$fraction)#計算環(huán)形data$ymin=c(0,head(data$ymax,n=-1))#繪圖ggplot(data,aes(ymax=ymax,ymin=ymin,xmax=4,xmin=3,fill=category))+geom_rect()+coord_polar(theta="y")+#堆積條形圖xlim(c(2,4))+#中心添加一個空圓theme_bw()描述變量相關(guān)的可視化圖形PARTTHREE2描述變量比例的可視化圖形2.2環(huán)形圖環(huán)形圖繪制3描述變量相關(guān)的可視化圖形為表現(xiàn)兩個變量之間的關(guān)系，最常用的是散點圖。如果我們想同時顯示兩個以上的變量，我們可以選擇氣泡圖、散點圖矩陣或相關(guān)圖，可以在散點圖中用符號大小、符號顏色、符號形狀表示更多維數(shù)。最后，對于高維的數(shù)據(jù)集，對于高維數(shù)據(jù)，經(jīng)常需要利用降維方法，如主成分分析(PCA)對數(shù)據(jù)降維，對降維數(shù)據(jù)作圖。3描述變量相關(guān)的可視化圖形3.1散點圖R軟件自帶的iris數(shù)據(jù)集中包含了三種鳶尾花的150個樣品的測量數(shù)據(jù)，每種各50個樣本，每個樣本測量了花瓣、花萼的長、寬。下面畫50個花卉樣本的花瓣長、寬的散點圖，可以看出，兩種有明顯的線性相關(guān)關(guān)系。使用ggplot2繪制散點圖的步驟：提供樣本數(shù)據(jù)框確定在x和y軸上顯示哪個變量添加一個geom_point()函數(shù)顯示點。3描述變量相關(guān)的可視化圖形3.1散點圖#本節(jié)使用的繪圖庫library(ggplot2)library(hrbrthemes)library(patchwork)library(tidyverse)library(cowplot)library(dplyr)#本節(jié)使用的演示數(shù)據(jù)是軟件自帶的數(shù)據(jù)集iris#葉片大小與生長之間的關(guān)系描述#ggplot2默認(rèn)散點圖ggplot(iris,aes(Sepal.Length,Sepal.Width,color=Species))+geom_point()+theme_bw()3描述變量相關(guān)的可視化圖形3.1散點圖#本節(jié)使用的繪圖庫library(ggplot2)library(hrbrthemes)library(patchwork)library(tidyverse)library(cowplot)library(dplyr)#本節(jié)使用的演示數(shù)據(jù)是軟件自帶的數(shù)據(jù)集iris#葉片大小與生長之間的關(guān)系描述#ggplot2默認(rèn)散點圖ggplot(iris,aes(Sepal.Length,Sepal.Width,color=Species))+geom_point()+theme_bw()3描述變量相關(guān)的可視化圖形3.1散點圖默認(rèn)散點圖#使用顏色區(qū)分不同物種與生長之間的關(guān)系ggplot(iris,aes(x=Sepal.Length,y=Sepal.Width,color=Species))+geom_point(size=6)+theme_ipsum(base_family="")不同顏色設(shè)置類別的散點圖#設(shè)置形狀或大小ggplot(iris,aes(x=Sepal.Length,y=Sepal.Width,shape=Species))+geom_point(size=4,color="#008B8B")+theme_ipsum(base_family="")不同形狀散點圖3描述變量相關(guān)的可視化圖形3.2

散點圖矩陣

多個變量之間的關(guān)系經(jīng)常用散點圖矩陣表示。ggplot2包沒有提供專門的散點圖矩陣，基礎(chǔ)R圖形中提供了pairs函數(shù)作散點圖矩陣，GGally包提供了一個ggscatmat()函數(shù)作散點圖矩陣。例如，對iris數(shù)據(jù)的四個測量值變量作散點圖矩陣：#多變量散點矩陣圖ggscatmat(data=iris,columns=1:4,color="Species")+theme_bw()多變量散點矩陣圖排列成矩陣的各個切片的下三角位置是兩個變量的散點圖，對角線位置是單個變量的核密度估計，上三角位置是兩個變量的相關(guān)系數(shù)。ggpairs(data=iris,color="Species",columns=c("Petal.Length","Sepal.Length","Species"))+theme_bw()變量兩兩相關(guān)的散點矩陣圖3描述變量相關(guān)的可視化圖形3.3數(shù)據(jù)降維當(dāng)數(shù)據(jù)中有過多的變量時，既是散點圖矩陣也會因信息量過大難以認(rèn)讀。因此，要將數(shù)據(jù)降低維度，通常將數(shù)據(jù)降維到若干個新變量，最常用的方法是主成分分析(PCA)。PCA通過數(shù)據(jù)中原始變量的線性組合引入了一組新變量（稱為主成分，PC），且使方差和均標(biāo)準(zhǔn)化值為零。3描述變量相關(guān)的可視化圖形3.3數(shù)據(jù)降維可以將降維的散點圖與變量的載荷圖畫在同一坐標(biāo)系內(nèi)：d<-as.data.frame(load1[,1:2])d$vlabel<-rownames(d)ggplot()+geom_point(data=ps1,mapping=aes(x=Comp.1,y=Comp.2,color=Species),size=6.0,alpha=0.6)+geom_segment(data=d,mapping=aes(xend=Comp.1,yend=Comp.2),x=0,y=0,arrow=arrow(angle=20))+geom_text_repel(data=d,mapping=aes(x=Comp.1,y=Comp.2,label=vlabel),alpha=0.6)+theme_bw()3描述變量相關(guān)的可視化圖形3.3數(shù)據(jù)降維降維后的矢量散點圖描述變量分布的可視化圖形PARTFOUR4描述變量分布的可視化圖形對于離散變量，可以用頻數(shù)、比例、百分?jǐn)?shù)的條形圖表現(xiàn)單個離散變量分布，可以用熱力圖表現(xiàn)兩個離散變量的分布。對于連續(xù)型變量，可以用直方圖、密度估計圖表現(xiàn)單個變量分布，可以對多個變量同時做密度估計圖?？梢杂谜龖B(tài)QQ圖、盒形圖、經(jīng)驗分布函數(shù)圖等。4描述變量分布的可視化圖形4.1單變量可視化分布案例數(shù)據(jù)集是來自泰坦尼克號乘客的數(shù)據(jù)集。泰坦尼克號上大約有1300名乘客（不包括船員），數(shù)據(jù)集提供了其中756人的年齡。我們想知道泰坦尼克號上有多少不同年齡的乘客，即有多少兒童、年輕人、中年人、老年人等。我們把乘客不同年齡分組的相對比例稱為乘客的年齡分布。4描述變量分布的可視化圖形4.1單變量可視化分布

為了繪制的直方圖能準(zhǔn)確地反映數(shù)據(jù)基本特征，就要考慮分組大小。一般來說，較小的分組條形寬度過小，直方圖就會變得過于尖峰和擁擠，數(shù)據(jù)分布趨勢和特征可能會被掩蓋。另一方面，過大的分組會導(dǎo)致條形寬度過大，導(dǎo)致數(shù)據(jù)分布的差異特征被平滑，數(shù)據(jù)中較小的特征值可能會消失。

對于泰坦尼克號乘客的年齡分布，如下圖，可以看到，1年的組距使條形寬太小，15年的條形寬太大，而3-5年的組寬就較為可行。age_hist_1<-

data.frame(age=

(1:75)-

0.5,count=

hist(titanic$age,breaks=

(0:75)+

.01,plot=

FALSE)$counts)age_hist_3<-

data.frame(age=

(1:25)*

1.5,count=

hist(titanic$age,breaks=

(0:25)*

.01,plot=

FALSE)$counts)age_hist_15<-

data.frame(age=

(1:5)*

7.5,count=

hist(titanic$age,breaks=

(0:5)*

.01,plot=

FALSE)$counts)h2<-

ggplot(age_hist_1,aes(x=

age,y=

count))+

geom_col(width=

.85,fill=

"#56B4E9")

scale_y_continuous(expand=

c(0,0),breaks=

(0:5))+scale_x_continuous(name=

"age(years)",limits=

c(0,75),expand=

c(0,0))+coord_cartesian(clip=

"off")+theme_dviz_hgrid(12)+theme(axis.line.x=

element_blank(),plot.margin=

margin(3,1.5,3,1.5))h3<-

ggplot(age_hist_3,aes(x=

age,y=

count))+

geom_col(width=

2.75,fill=

"#56B4E9")

scale_y_continuous(expand=

c(0,0),breaks=

(0:5))+scale_x_continuous(name=

"age(years)",limits=

c(0,75),expand=

c(0,0))+coord_cartesian(clip=

"off")+theme_dviz_hgrid(12)+theme(axis.line.x=

element_blank(),plot.margin=

margin(3,1.5,3,1.5)

)h4<-

ggplot(age_hist_15,aes(x=

age,y=

count))+

geom_col(width=

14.5,fill=

"#56B4E9")

scale_y_continuous(expand=

c(0,0),breaks=

100

(0:4))+scale_x_continuous(name=

"age(years)",limits=

c(0,75),

expand=

c(0,0))+coord_cartesian(clip="off")+theme_dviz_hgrid(12)+theme(axis.line.x=element_blank(),plot.margin=margin(3,1.5,3,1.5))plot_grid(h2,NULL,h3,NULL,NULL,NULL,h1+theme_dviz_hgrid(12)+theme(axis.line.x=element_blank(),plot.margin=margin(3,1.5,3,1.5)),NULL,h4,align='hv',labels=c("a","","b","","","","c","","d"),rel_widths=c(1,.04,1),rel_heights=c(1,.04,1))年齡分組大小不同的直方圖4描述變量分布的可視化圖形4.2多變量可視化分布

男女乘客之間存年齡的差異有多大等等，通常情況下，可視化策略是使用一個堆疊的直方圖來展示，如下圖，使用不同的顏色將女乘客的直方圖置于男乘客的直方圖之上，我們把這類圖形稱之為堆積或堆疊直方圖。data.frame(

age=

(1:25)*3

1.5,

male=

hist(filter(titanic,sex==

"male")$age,

breaks=

(0:25)*3

.01,plot=

FALSE)$counts,

female=

hist(filter(titanic,sex==

"female")$age,

breaks=

(0:25)*3

.01,plot=

FALSE)$counts)%>%

gather(gender,count,-age)->

gender_countsgender_counts$gender<-

factor(gender_counts$gender,

levels=

c("female","male"))p_hist_stacked<-

ggplot(gender_counts,

aes(x=

age,y=

count,

fill=gender))+

geom_col(position=

"stack")+

scale_x_continuous(name=

"age(years)",

limits=

c(0,75),expand=

c(0,0))+

scale_y_continuous(limits=

c(0,89),expand=

c(0,0),

name=

"count")+

scale_fill_manual(values=

c("#D55E00","#0072B2"))+

coord_cartesian(clip=

"off")+

theme_dviz_hgrid()+

theme(

axis.line.x=

element_blank(),

legend.position=

c(.9,.87),

legend.justification=

c("right","top"),

legend.box.background=

element_rect(fill=

"white",

color=

"white"),

plot.margin=

margin(3,7,3,1.5)

)同年齡和性別乘客的堆疊直方圖ggplot(titanic2,aes(x=

age,y=

..count..))+

geom_density_line(

data=

select(titanic,-sex),aes(fill=

"allpassengers"),

color=

"transparent"

geom_density_line(aes(fill=

sex),

bw=

color=

"transparent")+

scale_x_continuous(limits=

c(0,75),

name=

"passengerage(years)",

expand=

c(0,0))+

scale_y_continuous(limits=

c(0,26),

name=

"scaleddensity",

expand=

c(0,0))+

scale_fill_manual(

values=

c("#b3b3b3a0","#D55E00","#0072B2"),

breaks=

c("allpassengers","male","female"),

labels=

c("allpassengers

","males

","females"),

name=

NULL,

guide=

guide_legend(direction=

"horizontal")

coord_cartesian(clip=

"off")+

facet_wrap(~sex,labeller=

labeller(sex=

function(sex)paste(sex,"passengers")))+

theme_dviz_hgrid()+

theme(

axis.line.x=

element_blank(),

strip.text=

element_text(size=

14,margin=

margin(0,0,0.2,0,"cm")),

legend.position=

"bottom",

legend.justification=

"right",

legend.margin=

margin(4.5,0,1.5,0,"pt"),

legend.spacing.x=

grid::unit(4.5,"pt"),

legend.spacing.y=

grid::unit(0,"pt"),

legend.box.spacing=

grid::unit(0,"cm")

)按乘客性別展示的堆積密度圖描述時間序列數(shù)據(jù)的可視化圖形PARTFIVE5描述時間序列數(shù)據(jù)的可視化圖形#本節(jié)演示需要載入的軟件包library(ggridges)library(lubridate)library(ggrepel)library(ggplot2)library(dplyr)library(plotly)library(hrbrthemes)library(readxl)library(dygraphs)cpi<-read_xls("../cpi.xls")cpi$date<-ymd(cpi$date)#定義列表日期格式str(cpi)#顯示數(shù)據(jù)集字段類型##tibble[72×4](S3:tbl_df/tbl/data.frame)##$date:Date[1:72],format:"2016-01-01""2016-02-01"...##$cpi.val:num[1:72]1.82.32.32.321.91.81.31.92.1...##$cpi.city:num[1:72]1.82.32.32.321.91.81.422.2...##$cpi.countryside:num[1:72]1.52.22.22.42.11.91.511.61.8...5描述時間序列數(shù)據(jù)的可視化圖形5.1單變量時間序列數(shù)據(jù)可視化CPI是居民消費(fèi)價格指數(shù)（consumerpriceindex）的簡稱。居民消費(fèi)價格指數(shù)，是一個反映居民家庭一般所購買的消費(fèi)商品和服務(wù)價格水平變動情況的宏觀經(jīng)濟(jì)指標(biāo)。它是度量一組代表性消費(fèi)商品及服務(wù)項目的價格水平隨時間而變動的相對數(shù)，是用來反映居民家庭購買消費(fèi)商品及服務(wù)的價格水平的變動情況。ggplot(cpi,aes(date,cpi.val))+

geom_point(color=

"#0072B2")+

geom_point(color=

"white",fill=

"#0072B2",shape=

21,size=

2)+

scale_y_continuous(limits=

c(-1,6),expand=

c(0,0),name=

"CPI%")+

scale_x_date(name=

"year")+

theme_bw()+

theme(plot.margin=

margin(5,3,3,3))時間序列的散點圖ggplot(cpi,aes(date,height=

cpi.val,y=0))+

geom_ridgeline(color=

"#0072B2",alpha=0.6,fill=

"#0072B240",size=

0.40)+

scale_y_continuous(limits=

c(-1,6),expand=

c(0,0),

name=

"CPI%")+

scale_x_date(name=

"year")+

theme(plot.margin=

margin(4,4,3,3))+

theme_bw()時間序列的面積圖5描述時間序列數(shù)據(jù)的可視化圖形5.2多變量時間序列可視化如果同時展示相同時間維度上多個變量，必須更加慎重的選擇繪制的圖形，因為該圖可能會變得混亂或難以閱讀。例如，如果想要顯示每月CPI外，還要同時展示城市和鄉(xiāng)村的CPI，這是散點圖就不是一個好策略，因為各個時間點的變量會相互影響和重疊，視覺效果不佳。p<-ggplot(cpi)p+geom_point(mapping=aes(x=date,y=cpi.val,color="CPI"),size=2)+geom_point(mapping=aes(x=da

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

商務(wù)大數(shù)據(jù)分析導(dǎo)論課件項目六數(shù)據(jù)可視化

文檔簡介

溫馨提示

最新文檔

評論

商務(wù)大數(shù)據(jù)分析導(dǎo)論 課件 項目六 數(shù)據(jù)可視化

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

商務(wù)大數(shù)據(jù)分析導(dǎo)論課件項目六數(shù)據(jù)可視化