大數(shù)據(jù)探索性分析考試題_第1頁(yè)
大數(shù)據(jù)探索性分析考試題_第2頁(yè)
大數(shù)據(jù)探索性分析考試題_第3頁(yè)
大數(shù)據(jù)探索性分析考試題_第4頁(yè)
大數(shù)據(jù)探索性分析考試題_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1 中上海市藥械化稽查辦案數(shù)據(jù),利用抽樣的方法(抽取容量為200的樣本) ,對(duì)其某一方面的特性進(jìn)行分析、研究。這里在 R里采用簡(jiǎn)單隨機(jī)抽樣抽取容量為200 的樣本數(shù)據(jù),程序如下:#簡(jiǎn)單隨機(jī)抽樣data=read.csv(G:/d.csv)head(data)#將數(shù)據(jù)集讀入R 中,并查看前六行數(shù)據(jù)library(sampling)# 加載抽樣包N=length(data,3)# 總體個(gè)數(shù)n=200#需要抽取樣本個(gè)數(shù)set.seed(1)yangben=srswor(n,N)#在總樣本量N 中抽取 n 個(gè)樣本,返回其位置yangben=getdata(data,yangben)#取出抽到樣本的數(shù)據(jù)

2、write.csv(srs,file= 藥械化稽查辦案信息抽取樣本1.csv)#將抽到的數(shù)據(jù)讀入本地文件 class(yangben)#查看抽到的數(shù)據(jù)類型抽到的樣本前幾個(gè)部分展示如下接下來(lái), 我們對(duì)其中某些特性進(jìn)行統(tǒng)計(jì)分析,首先, 我關(guān)注的是所在區(qū)縣, 程序展示如下:a=table(yangben$所屬區(qū)縣)#統(tǒng)計(jì) 17 個(gè)區(qū)縣出現(xiàn)的頻數(shù)barplot(a,main = 區(qū)縣出現(xiàn)頻數(shù)分布圖)#繪出所在區(qū)縣分布圖,x 軸所對(duì)應(yīng)的區(qū)縣分別為(NA 寶山 長(zhǎng)寧 崇 明 奉賢 虹口 黃浦 嘉定 金山 靜安 閔行 浦東 普陀 青浦 松江 徐匯 楊浦 閘北 )a1=sort(a)#按升序排列 a2=sor

3、t(a,decreasing =T)#按降序排列barplot(a1,main = 區(qū)縣出現(xiàn)頻數(shù)升序分布圖)#繪出所在區(qū)縣按升序排列的分布圖,x 軸所對(duì)應(yīng)的區(qū)縣分別1 / 9 / 9為 (NA 閔行 黃浦 嘉定 寶山 松江 普陀 徐匯 長(zhǎng)寧 閘北 靜安 虹口 青浦 楊浦 浦東 金山 崇明 奉賢 ) TOC o 1-5 h z barplot(a2,main = 區(qū)縣出現(xiàn)頻數(shù)降序分布圖)a3=prop.table(table(yangben$所屬區(qū)縣)barplot(a3,main = 所在區(qū)縣比例分布圖)#使用比例的形式來(lái)呈現(xiàn)相同的觀察并繪制分布圖par(mfcol=c(2,2)# 準(zhǔn)備畫四個(gè)

4、圖的地方barplot(a,main = 區(qū)縣出現(xiàn)頻數(shù)分布圖); barplot(a1,main = 區(qū)縣出現(xiàn)頻數(shù)升序分布圖)barplot(a3,main = 所在區(qū)縣比例分布圖); barplot(a2,main = 區(qū)縣出現(xiàn)頻數(shù)降序分布圖)par(mfcol=c(1,1)# 取消 par(mfcol=c(2,2)a4=a114:18;barplot(a4,col=c(2:6)# 查看分布最多的五個(gè)區(qū)縣,并將這五個(gè)區(qū)縣的分布用不同的顏色表示a5=sort(a3);sum(a514:18)barplot(a5) ;par(mfcol=c(1,2);barplot(a4,col=light b

5、lue,sub = 比例最高的五個(gè)區(qū)縣比例分布圖);barplot(a514:18,col=light green);par(mfcol=c(1,1)通過程序結(jié)果可知,各區(qū)縣被處罰的頻數(shù)和分布圖如下:NA 寶山 長(zhǎng)寧 崇明 奉賢 虹口 黃浦 嘉定 金山 靜安 閔行 浦東 普陀 青浦 松江 徐匯 楊浦 閘北110617271171522838718138910NA 閔行 長(zhǎng)寧 黃浦 普陀 靜安 浦東 徐匯 楊浦 寶山 閘北 虹口 松江 嘉定 崇明 青浦 金山 奉賢136778889101011131517182227通過頻數(shù)分布圖和比例分布圖可以觀察到這17 各區(qū)縣違法行為出現(xiàn)的頻率并不相同,并

6、且差異比較大。計(jì)算所占稽查違法行為所占比例最高的五個(gè)區(qū)縣分別為嘉定、崇明、 青浦、金山、奉賢,并且這五個(gè)區(qū)縣所占比例和為0.495 ,基本占了樣本數(shù)據(jù)的一半,所以在后期檢測(cè)中要著重對(duì)這五個(gè)區(qū)縣進(jìn)行稽查,或者對(duì)這五個(gè)區(qū)縣有關(guān)部門提出整改意見,以便對(duì)這些區(qū)縣的企業(yè)有一定監(jiān)督作用。 下面對(duì) 處罰決定時(shí)間分析程序代碼及分析結(jié)果如下:datetime=yangben$處罰決定時(shí)間#將抽取樣本的處罰決定時(shí)間提取出來(lái)賦給datetimeb=format(as.POSIXct(datetime),%Y)# 先使用as.POSIXct()函數(shù)將datetime 轉(zhuǎn)換成日期時(shí)間的變量格式,使用 format()

7、函數(shù)從日期時(shí)間變量中單獨(dú)取出年部分c=table(b,yangben$所屬區(qū)縣)#使用table()這個(gè)命令構(gòu)造出一個(gè)列聯(lián)表rownames(c)=c(2014,2015,2016) TOC o 1-5 h z barplot(c,legend.text=rownames(c),sub = 每一年各區(qū)縣違規(guī)企業(yè)分布)barplot(c,legend.text=rownames(c),col = c(6,5,8),sub = 每一年各區(qū)縣違規(guī)企業(yè)分布)#同上,只是柱狀的顏色發(fā)生變化barplot(c,beside=T,legend.text=rownames(c),col = c(6,5,8),

8、sub = 每一年各區(qū)縣違規(guī)企業(yè)分布)#每一年各區(qū)縣違規(guī)企業(yè)分布 par(mfcol=c(1,2) barplot(c,legend.text=rownames(c),col = c(6,5,8),sub = 每一年各區(qū)縣違規(guī)企業(yè)分布(1)barplot(c,beside=T,legend.text=rownames(c),col = c(6,5,8),sub = 每一年各區(qū)縣違規(guī)企業(yè)分布(2)par(mfcol=c(1,1)# 取消 par(mfcol=c(2,2) 結(jié)果展示:對(duì)一級(jí)分類進(jìn)行統(tǒng)計(jì)后得到的列聯(lián)表結(jié)果如下:bna寶山長(zhǎng)寧崇明奉賢虹口黃浦嘉定金山靜安閔行浦東普陀青浦松江徐匯楊浦閘北

9、20141001300010010000012015010116546832241337582016096518639135153510141進(jìn)而對(duì)每一年各區(qū)縣的違法行為進(jìn)行繪圖分析結(jié)果如下、首先,通過上述圖形可以看出奉賢區(qū)和金山區(qū)整體犯罪行為雖然最多,但并不是每年都最多,甚至有些年份跟其他區(qū)縣相比還是比較少的,這大概是因?yàn)?016 年整體增長(zhǎng)的太多造成的;其次,可以看到奉賢區(qū)、金山區(qū)、浦東區(qū)違法行為明顯是呈逐年遞增趨勢(shì);所以,我們可以預(yù)測(cè)如果這三個(gè)區(qū)縣有關(guān)部門不對(duì)管轄范圍內(nèi)的企業(yè)進(jìn)行管制,2017 年的違法行為將呈急劇增長(zhǎng)趨勢(shì)。、 像青浦、 崇明、 閘北這些區(qū)縣2016 年比 2015 年的

10、數(shù)據(jù)有明顯的下降趨勢(shì);像奉賢、4 / 9 / 9松江、 金山這些區(qū)縣2016 年比 2015 年出現(xiàn)了明顯的漲幅波動(dòng),所以, 有關(guān)部門可以約談相關(guān)區(qū)縣負(fù)責(zé)人學(xué)習(xí)交流出現(xiàn)這種趨勢(shì)的原因,總結(jié)經(jīng)驗(yàn),進(jìn)而采取措施使得2017年數(shù)據(jù)總體都呈下降趨勢(shì)。而其中一些波動(dòng)趨勢(shì)時(shí)增時(shí)減的區(qū)縣需要自己尋找問題。下面對(duì) 一級(jí)分類進(jìn)行研究,程序代碼及分析結(jié)果如下:d=yangben$一級(jí)分類#提取樣本的一級(jí)分類d1=table(yangben$一級(jí)分類)#對(duì)一級(jí)分類進(jìn)行頻數(shù)統(tǒng)計(jì) TOC o 1-5 h z d2=sort(d1);d3=prop.table(table(yangben$ 一級(jí)分類)d4=sort(d3

11、);plot(yangben$ 一級(jí)分類)#一級(jí)分類有十類par(mfcol=c(2,2)# 準(zhǔn)備畫四個(gè)圖的地方barplot(d1,main = 一級(jí)分類各類別頻數(shù)分布圖);barplot(d2,main = 一級(jí)分類各類別頻數(shù)升序分布圖)barplot(d3,main = 一級(jí)分類各類別比例分布圖);barplot(d4,main = 一級(jí)分類各類別比例分布圖)par(mfcol=c(1,1)# 取消 par(mfcol=c(2,2)頻數(shù)及比例列聯(lián)表如下:na 化妝品經(jīng)營(yíng)化妝品生產(chǎn)藥品連鎖藥品零售藥品批發(fā)藥品生產(chǎn)醫(yī)療器械經(jīng)營(yíng)醫(yī)療器械生產(chǎn)醫(yī)院制劑22322116391029130na 化妝品

12、經(jīng)營(yíng)化妝品生產(chǎn)藥品連鎖藥品零售藥品批發(fā)藥品生產(chǎn)醫(yī)療器械經(jīng)營(yíng)醫(yī)療器械生產(chǎn)醫(yī)院制劑0.1100.1600.1050.0050.3150.0450.0500.1450.0650.000通過上圖可以分析得出,在藥品零售、化妝品經(jīng)營(yíng)、醫(yī)療器械經(jīng)營(yíng)這三個(gè)大類抽到的樣本比較多,所以以后在稽查的過程中可以對(duì)著些行業(yè)進(jìn)行中重點(diǎn)稽查。最后,我們將一級(jí)分類和處罰決定時(shí)間結(jié)合、所屬區(qū)縣與處罰時(shí)間結(jié)合起來(lái)進(jìn)行分析程序代碼及分析結(jié)果如下:e=format(as.POSIXct(datetime),%y%m)# 提取處罰時(shí)間的年月f=table(e,yangben$一級(jí)分類)par(mfrow=c(1,1),mai=c(1

13、,1.8,0.5,0.5),las=2)#mai 參數(shù)設(shè)定邊界寬度,las 設(shè)定標(biāo)尺的方向barplot(f,horiz = T,col=colnames(factor(e),names.arg = colnames(factor(e)library(ggplot2)ggplot(yangben,aes(x=factor(1),fill=d)+geom_bar()+coord_polar(theta=y)# 條形圖轉(zhuǎn)化為餅圖a fena化妝品經(jīng)營(yíng)化妝品生產(chǎn)藥品連鎖藥品零售藥品批發(fā)藥品生產(chǎn)醫(yī)療器械經(jīng)營(yíng)醫(yī)療器械生產(chǎn)醫(yī)院制劑14061000000000140900100000001410000010

14、000014111000110000141200002000001501100000000015020000001000150311002001001504000000010015052110211210150610002210101507000131000015080120110010150900105002001510422031020015111330612010151211005012201601031021001016020000100210160321002001001604171050000016053200200020160610205003201607120040011016

15、0801102004006002020130002203020000220101500130010000009600626從這個(gè)圖首先可以大致看出藥品零售、化妝品經(jīng)營(yíng)、醫(yī)療器械經(jīng)營(yíng)所占的比例比較大;其次,可以發(fā)現(xiàn)不同年份不同月份出現(xiàn)的頻率也不盡相同,像藥品零售在15年 6 月份之后出現(xiàn)的情況明顯增多,但整體各分類的趨勢(shì)并不顯著,只能簡(jiǎn)單察覺到16 年比15年有增多是趨勢(shì)。ggplot(yangben,aes(x=factor(1),fill=d)+ geom_bar()+coord_polar(theta=y)將上面所畫出的條形圖轉(zhuǎn)化為餅 圖可以更好的展現(xiàn)出各部分的比 例關(guān)系如左圖所示同樣可以

16、使用pie 函數(shù)對(duì)所屬區(qū)縣繪制扇形圖如左圖所示首先要手動(dòng)對(duì)定性數(shù)據(jù)進(jìn)行頻數(shù)統(tǒng)計(jì),并將其轉(zhuǎn)化為數(shù)據(jù)框形式a-data.frame(table(yangben$所屬區(qū)縣 )pie(a$Freq,labels=a$Var,radius=1)為了使圖形更加立體,需要繪制三維餅圖,在R 中,只需要加載plotrix 包,就可以使用pie3D 函數(shù)繪制三維餅圖library(plotrix)pie3D(a$Freq,labels=a$Var,radius=1.2,explode=0.1)對(duì)于違法事實(shí)、違法證據(jù)、違法案由、違反規(guī)定、處罰依據(jù)、處罰措施、案件名稱、處罰種類方式、履行方式等這些文字性記述的資料,我們需要采取文本挖掘技術(shù)進(jìn)行分析,接下來(lái)我們著重使用詞云圖對(duì)違法事實(shí)、違法證據(jù)、違反規(guī)定、處罰依據(jù)、處罰措

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論