惠農(nóng)網(wǎng)農(nóng)產(chǎn)品數(shù)據(jù)分析與展示_第1頁
惠農(nóng)網(wǎng)農(nóng)產(chǎn)品數(shù)據(jù)分析與展示_第2頁
惠農(nóng)網(wǎng)農(nóng)產(chǎn)品數(shù)據(jù)分析與展示_第3頁
惠農(nóng)網(wǎng)農(nóng)產(chǎn)品數(shù)據(jù)分析與展示_第4頁
惠農(nóng)網(wǎng)農(nóng)產(chǎn)品數(shù)據(jù)分析與展示_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

目錄

1引言............................................................................................................................1

1.1項目背景......................................................................................................1

1.2開發(fā)環(huán)境與工具..........................................................................................2

1.2.1Python簡介..........................................................................................2

1.2.2PyCharm簡介........................................................................................2

1.2.3Python第三方庫簡介..........................................................................2

2需求分析....................................................................................................................4

2.1可行性需求分析..........................................................................................4

2.2采集目標(biāo)功能分析......................................................................................4

2.3關(guān)鍵技術(shù)分析..............................................................................................5

2.3.1網(wǎng)絡(luò)爬蟲技術(shù).......................................................................................5

2.3.2文件存取技術(shù).......................................................................................5

2.3.3可視化技術(shù)...........................................................................................6

3數(shù)據(jù)采集....................................................................................................................6

3.1采集頁面分析..............................................................................................6

3.2字段分析......................................................................................................8

3.3編程實現(xiàn)......................................................................................................9

4數(shù)據(jù)清洗與處理......................................................................................................11

4.1數(shù)據(jù)清洗....................................................................................................12

4.2數(shù)據(jù)儲存....................................................................................................13

4.3編程實現(xiàn)....................................................................................................14

5數(shù)據(jù)統(tǒng)計與分析......................................................................................................14

5.1數(shù)據(jù)準(zhǔn)備....................................................................................................14

5.2數(shù)據(jù)展示....................................................................................................16

5.2.1依據(jù)農(nóng)產(chǎn)品購買后發(fā)布次數(shù)進行統(tǒng)計和分析.................................16

5.2.2依據(jù)農(nóng)產(chǎn)品期望貨源地統(tǒng)計和分析.................................................17

5.2.3依據(jù)農(nóng)產(chǎn)品采購商實人和實名認證進行統(tǒng)計和分析.....................18

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5.2.4依據(jù)農(nóng)產(chǎn)品品種瀏覽次數(shù)排名進行統(tǒng)計和分析.............................19

5.3綜述............................................................................................................19

6小結(jié)..........................................................................................................................20

參考資料.........................................................................................................................20

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

惠農(nóng)網(wǎng)農(nóng)產(chǎn)品數(shù)據(jù)分析與展示

1引言

時光荏苒,光陰如劍,日月如梭。當(dāng)今社會發(fā)展的越來越好,人們的衣食住

行各方面發(fā)生了很大的改變。世界正發(fā)生著翻天覆地的變化,作為新時代的新青

年處在時代的風(fēng)口有很多的機遇。互聯(lián)網(wǎng)時代是信息爆炸的時代,抓住了信息

差就抓住了機遇,而今越來越多的行業(yè)都與互聯(lián)網(wǎng)結(jié)合起來,像如今的直播帶

貨、直播聊天,從產(chǎn)業(yè)數(shù)字化到智慧生活到智慧城市,無一不彰顯出互聯(lián)網(wǎng)的

重要作用。互聯(lián)網(wǎng)的時代來臨,改變了人們以往靠書信,車馬交流的方式;改變

了人們的消費觀念,互聯(lián)網(wǎng)時代的到來,縮短了時間和距離;還改變了人們的

生活習(xí)慣;也給大家?guī)砹嗽S多的機遇以及改變了大多數(shù)人的思維方式?;ヂ?lián)

網(wǎng)時代的到來,人們可以使用“虛擬”貨幣購物,不用出門就可以購買到商

品,不知不覺中,人們的消費觀念在不知不知不覺中改變了。

民以食為天,農(nóng)產(chǎn)品的供應(yīng)體系等方面產(chǎn)生大量信息值得人們?nèi)ヌ剿鞣?/p>

析?,F(xiàn)在是在信息飛速發(fā)展的一代,人們在一個信息快速傳播分享的階段。大數(shù)

據(jù)行業(yè)人員近年來快速增加,越來越多的人都想趕上時代的浪潮。而作為大數(shù)

據(jù)的學(xué)習(xí)者,數(shù)據(jù)中的價值也等待著大家去探索發(fā)現(xiàn),大數(shù)據(jù)技術(shù)是現(xiàn)在互聯(lián)網(wǎng)

領(lǐng)域的一個熱門的領(lǐng)域,未來的世界是數(shù)據(jù)的時代!

1.1項目背景

網(wǎng)絡(luò)上龐大的互聯(lián)網(wǎng)農(nóng)產(chǎn)品網(wǎng)站不僅僅是農(nóng)產(chǎn)品的買賣,農(nóng)產(chǎn)品網(wǎng)上交易平

臺還提供了農(nóng)產(chǎn)品的信息、質(zhì)檢、結(jié)算、交易運輸?shù)裙δ苡谝惑w。

隨著人們的生活水平不斷提高,恩格爾系數(shù)占比不斷減低,人們對物質(zhì)生

活的要求越來越高,人們對農(nóng)產(chǎn)品的需求也在不斷發(fā)生著改變,那人們對農(nóng)產(chǎn)

品的產(chǎn)地、銷售數(shù)量、如何銷售等又了解多少呢?。

本項目就是針對鄉(xiāng)村振興農(nóng)產(chǎn)品銷售需要,然后爬取惠農(nóng)網(wǎng)網(wǎng)站數(shù)據(jù),對其

進行處理,分析,然后可視化。大量復(fù)雜的數(shù)據(jù)經(jīng)過處理分析后,可以非常清晰有

規(guī)律的呈現(xiàn)在創(chuàng)業(yè)者的眼里,對于鄉(xiāng)村振興的相關(guān)人員而言可以了解到這些農(nóng)產(chǎn)

品相關(guān)信息,哪些農(nóng)產(chǎn)品銷售量最高、農(nóng)產(chǎn)品都產(chǎn)自哪里、哪些是銷售農(nóng)產(chǎn)品大

戶等等都可以一目了然的呈現(xiàn)在大家的眼里。在大家做決定時可以作為參考依

據(jù)。

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

1.2開發(fā)環(huán)境與工具

1.2.1Python簡介

Python的語法清楚、干凈、易讀、易維護,編程直接簡單,非常適合初學(xué)

者,Python更加注重編輯邏輯,不會讓使用者困于語法。

Python具有很多的特點,如簡單易學(xué),是一種簡單主義思想語言,使用

Python開發(fā)程序時,只需要專注于解決問題,不用糾結(jié)于語法本身的問題。免

費開源,可以自由的使用代碼??梢浦残裕梢栽诒姸嗥脚_上運行并且不需要

修改。而且Python不僅支持面向過程編程也支持面向?qū)ο缶幊?。除此之?/p>

Python有豐富的庫,Python的標(biāo)準(zhǔn)庫非常強大,可以幫助使用者處理各種工

作,包括正則、線程、數(shù)據(jù)庫、網(wǎng)頁瀏覽器、單元測試、圖形界面用戶等等。

從上述Python的特點可見,選擇Python編程采集數(shù)據(jù)、處理數(shù)據(jù)、數(shù)據(jù)

可視化是非常不錯的選擇。

1.2.2PyCharm簡介

PyCharm是提高Python語言開發(fā)效率的一種工具,專門針對專業(yè)開發(fā)人員

和剛起步人員使用,特別適合做項目使用。

首先PyCharm是Python最好用的編輯器,支持GoogleAppEngine等編碼

協(xié)助,項目代寫等,可以進行調(diào)試、語法高亮、項目管理、代碼跳轉(zhuǎn)、智能提

示、智能提示、自動完成、單元測試、版本控制等。其次PyCharm為現(xiàn)代Web

開發(fā)框架提供了豐富的框架針對性支持,支持Django框架下的專業(yè)Web開發(fā)。

并且,PyCharm與IPythonNotebook集成,提供交互式Python控制臺,而且

支持Anaconda和多種科學(xué)化的包(例如matplotlib和NumPy)。

這次項目主要就是使用PyCharm工具。

1.2.3Python第三方庫簡介

requests:requests是Python語言的第三方庫,專門用于發(fā)送http請

求,使用起來比urlib簡潔很多。是客戶端庫,爬蟲和測試服務(wù)器響應(yīng)數(shù)據(jù)時

會經(jīng)常用到。最大的優(yōu)點是程序編寫過程更直接接近正常URL訪問過程。

lxml:lxml是xml和html的解析器,主要功能是解析和提取xml和html

中的數(shù)據(jù);lxml和re一樣,也是用c語言實現(xiàn)的,是一款高性能的python、

xml、html解析器,也可以利用xpath語法來定位特定的元素及節(jié)點信息。

Print:print是Python程序中最常出現(xiàn)、也是最基本的函數(shù),它用于將

信息輸出到控制臺,即在控制臺窗口打印,可以打印字符串、格式化輸出、不

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

換行輸出、更換間隔字符。

Csv:是Python的內(nèi)置模塊,實現(xiàn)了CSV格式文件的讀寫,可以同時將文

件中數(shù)據(jù)讀取的細節(jié)隱去,是一種常見的文本格式,用以常用的文本格式、存

儲表格數(shù)據(jù),包括數(shù)字或者字符。

NumPy:NumPy是Python的一種開源的數(shù)值計算擴展。這種工具可以用來

存儲和處理大型矩陣,支持大量的維度數(shù)組和矩陣計算,除此之外也針對數(shù)組

運算提供大量的數(shù)學(xué)函數(shù)庫,包括數(shù)學(xué)運算、數(shù)據(jù)處理、數(shù)據(jù)存儲等。

pandas:pandas是Python語言的一個高級拓展程序,用于數(shù)據(jù)分析。

Pandas提供了高性能、易于使用的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具。其功能包括:數(shù)

據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)分析等。

Matplotlib:是一個比較重要的Python繪圖庫,基于NumPy的數(shù)組運算功

能,繪畫功能非常強大,幾行代碼即可生成線圖、直方圖、功率圖、條形圖、

錯誤圖、散點圖等。

G2plot是一套簡單、易用、并具備一定擴展能力和組合能力的統(tǒng)計圖標(biāo)

庫,基于圖形語法理論搭建而成,“G2plot”中的G2即意指圖形語法(the

GrammaofGraphics),同時也致敬了ggplot2。它的特性是開箱即用、默認好

用的高質(zhì)量統(tǒng)計圖表,而起是響應(yīng)式圖表(致力于解決圖表在任何數(shù)據(jù)和顯示

尺寸下的基本可讀性問題),另一方面它還是圖層畫設(shè)計方法即在G2plot體系

下,圖表不僅僅只是各不相關(guān)的案例,圖層概念的引入提供了許多圖表組合疊

聯(lián)動,共同講述了一個數(shù)據(jù)故事的可能性。函數(shù)包含的種類包括:對象的比較

運算、邏輯運算、數(shù)字運算及序列運算。

Collections:是Python內(nèi)建的一個集合模塊,提供了很多方便且性能高

的關(guān)于集合的操作,掌握這些知識有助于提高代碼的性能和可讀性,實現(xiàn)了特

定目標(biāo)的容器。

Operator:標(biāo)準(zhǔn)功能性操作符接口,提供了一套與Python的內(nèi)置運算符對

應(yīng)的高效率函數(shù),許多函數(shù)名與特殊方法名相同,只是沒有雙下劃線。為了向

后兼容,也保留了許多包含雙下劃線的函數(shù)

Multiprocessing:類似于一個多線程,multiprocessing庫提供了一致的

本地和遠程的方法,使用子線程替代線程處理全局解釋鎖。因此,

multiprocessing庫允許編程者在給定機器上使用多個線程。

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

2需求分析

2.1可行性需求分析

1、技術(shù)可行性

這次項目本項目使用Python編程來來完成,對惠農(nóng)網(wǎng)網(wǎng)站進行數(shù)據(jù)采集、

清洗、存儲然后可視化。首先使用Python網(wǎng)絡(luò)爬蟲技術(shù)對網(wǎng)頁進行解析數(shù)據(jù)采

集,然后使用PyCharm工具對爬取的數(shù)據(jù)進行清洗存儲,然后再用到Python的

內(nèi)置文件儲存方式CSV對清理后的數(shù)據(jù)進行存儲。首先使用到的是Chrome開發(fā)

者工具,用開發(fā)者工具打開網(wǎng)頁的元素面板,查看到元素所對應(yīng)的位置,再切

換到網(wǎng)絡(luò)面板可以看到該資源的頭部信息、預(yù)覽、響應(yīng)信息和cookie等信息。

然后利用Python的第三方庫requests庫中的GET方法生成請求,再使用lxml

庫的etree模塊通過Xpath獲取網(wǎng)頁內(nèi)容中的標(biāo)題、節(jié)點下的文本內(nèi)容,再利

用Python內(nèi)置文件的儲存方式CSV爬取下來經(jīng)過清洗預(yù)處理的數(shù)據(jù)存為csv格

式文件。最后用G2plot統(tǒng)計圖標(biāo)庫對清洗預(yù)處理后的數(shù)據(jù)進行數(shù)據(jù)可視化,把

這些數(shù)據(jù)用圖表的形式更加直觀的表現(xiàn)出來。

這些就是這次項目的技術(shù)可行性,本項目將在后續(xù)的工作過程中展示出來,

保證數(shù)據(jù)是準(zhǔn)確無誤的、是值得參考利用的。

2、項目可行性

食物是人生存之根本,而食物的產(chǎn)量跟農(nóng)業(yè)的發(fā)展息息相關(guān),中國是人口

大國,解決好吃飯問題才有精力發(fā)展其他產(chǎn)業(yè),才能保障社會穩(wěn)定。

本次項目通過采集比較大型的農(nóng)產(chǎn)品網(wǎng)站內(nèi)的數(shù)據(jù),來分析國家的農(nóng)產(chǎn)品各

方面的情況。從中發(fā)現(xiàn)中國農(nóng)產(chǎn)品發(fā)展中存在的利弊,可以讓廣大農(nóng)業(yè)生產(chǎn)者

發(fā)現(xiàn)自身不足,找到正確的營銷方式、促銷策略,實現(xiàn)買和賣的流暢,找出弊

端之所在,然后解決弊端,更好的實現(xiàn)農(nóng)業(yè)現(xiàn)代化發(fā)展。通過對此農(nóng)產(chǎn)品網(wǎng)站

的各項分析也有利于農(nóng)產(chǎn)品企業(yè)網(wǎng)站的建設(shè)、運營和推廣,打造優(yōu)質(zhì)的農(nóng)產(chǎn)品

企業(yè)網(wǎng)站。

2.2采集目標(biāo)功能分析

本次項目的數(shù)據(jù)集的來源是惠農(nóng)網(wǎng)站,是通過python爬取惠農(nóng)網(wǎng)農(nóng)產(chǎn)品的

信息。清洗后共763條數(shù)據(jù),爬取盡可能保證數(shù)據(jù)的完整性、準(zhǔn)確性,確定爬取

出來的數(shù)據(jù)屬于惠農(nóng)網(wǎng)站所有。

分析惠農(nóng)網(wǎng)網(wǎng)站,明確本項目需要爬取的數(shù)據(jù)有采購品種、采購數(shù)量、貨

源地、發(fā)布人、是否實人認證、是否實地認證、收貨地、農(nóng)產(chǎn)品的瀏覽次數(shù)等

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

數(shù)據(jù),在對原始數(shù)據(jù)進行處理后本項目會對其數(shù)據(jù)進行多個層面、多個方向分

析。例如,從產(chǎn)品的采購數(shù)量方向,可以分析出人們哪款農(nóng)產(chǎn)品的需求量大;從

采購品種可以分析出中國的農(nóng)產(chǎn)品種類豐富;從農(nóng)產(chǎn)品貨源地本項目可以分析

出農(nóng)產(chǎn)品的生長地區(qū)主要產(chǎn)自哪里;從瀏覽次數(shù)排名可以分析出哪款農(nóng)產(chǎn)品最

受人們的歡迎。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)

爬蟲的功能一般范圍數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)儲存,想要分析數(shù)據(jù)那么

首先就要采集數(shù)據(jù),采集數(shù)據(jù)就要用到網(wǎng)絡(luò)爬蟲,這次項目主要用到的是

Python中的requests模塊,Requests是Python中實現(xiàn)HTTP請求的一種方

式,該模塊在實現(xiàn)HTTP請求操作更加人性化,會自動解碼來自服務(wù)器的內(nèi)容,

在使用的時候要實行命令pipinstallrequests代碼進行該模塊的安裝,

Requests最常用的是POST和Get請求方法,這次項目中要用到GET方法請求

頭部。

這次爬蟲用到的解析網(wǎng)頁的工具是lxml庫,lxml庫使用的是Xpath語

法,是爬蟲中效率較高的解析庫。是一門在xml中文檔中找到信息的語言,可

以在文檔中對元素和屬性進行遍歷,是一個非常好用的解析網(wǎng)頁的工具,此

外,在爬取網(wǎng)站的時候會對網(wǎng)站所有者的利益造成損害,使用網(wǎng)站所有者通常

會設(shè)置一系列的反爬策略,可以通過發(fā)送user-agent、調(diào)整訪問頻率、通過驗

證碼校驗、應(yīng)對網(wǎng)站結(jié)構(gòu)變化、通過賬號權(quán)限設(shè)置、通過代理IP規(guī)避這些策略

來對付反爬蟲。從而達到此次使用爬蟲的目的。

2.3.2文件存取技術(shù)

Python內(nèi)置文件的存儲方式,如圖2-1顯示:

圖2-1python內(nèi)置csv模塊

Python中的pandas模塊讀取csv文件中的數(shù)據(jù),如圖2-2顯示:

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖2-2pandas模塊方法

2.3.3可視化技術(shù)

爬取下來的數(shù)據(jù)經(jīng)過預(yù)處理、保存下來。還不能達到這次項目的目的,需

要將數(shù)據(jù)更加直觀地展示在大家面前,這就需要用到數(shù)據(jù)可視化工具

經(jīng)過先前的一系列操作,得到的只有一大堆的數(shù)字、漢字、字母,而本項

目并不能直接從數(shù)字漢字字母中得出結(jié)論,那么這個時候就要對數(shù)據(jù)進行可視

化,就是導(dǎo)入Python中的可視化庫,通過可視化可以把各個數(shù)據(jù)的各個屬性加

以組合,通過圖表展示出數(shù)據(jù)之間的關(guān)聯(lián)信息,更加方便用戶觀察、分析和挖

掘。

這次項目就是將爬取到的數(shù)據(jù)進行數(shù)據(jù)可視化,主要操作就是利用Python

可視化庫PyG2Plot來進行可視化,Pyg2Plot是一個基于配置、體驗優(yōu)雅、面

向數(shù)據(jù)Python基礎(chǔ)教程場景分析的統(tǒng)計圖標(biāo)庫,可以幫助開發(fā)者以最小成本繪

制高質(zhì)量的圖表。可以繪制折線圖、柱狀圖、餅圖、漏斗圖等多種圖形,非常

易用,具備擴展能力和組合能力。有開箱即用、視覺效果佳、響應(yīng)式圖表以及

圖層化設(shè)計方法等特性。可以很好的展示出圖形便于分析得出結(jié)論。

3數(shù)據(jù)采集

3.1采集頁面分析

首先通過谷歌瀏覽器搜索惠農(nóng)網(wǎng)的官方網(wǎng)頁,然后進入網(wǎng)頁采購大廳,可以

看到網(wǎng)頁上的數(shù)據(jù),觀察圖3-1,其中URL為:

/purchase/0-0-0-0-0-2/

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖3-1數(shù)據(jù)網(wǎng)址頁面

進入網(wǎng)站的采購大廳,然后調(diào)出開發(fā)者工具,點擊鼠標(biāo)右鍵檢查,然后刷

新頁面,就可以看到如圖3-2的信息。

圖3-2開發(fā)者工具

利用全局搜索工具定位所需數(shù)據(jù)位置,可以發(fā)現(xiàn)這是一個GET請求。所以本

項目需要找到詳情頁數(shù)據(jù)的大致層次數(shù)據(jù)層次,如圖3-3。

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖3-3數(shù)據(jù)頁面大致層次

3.2字段分析

此項目中需要抓取“采購品種”、“采購數(shù)量”、“發(fā)布人”、“認證情況”、

“詳情url”這幾個字段,首先打開網(wǎng)頁,在選擇欄輸入需要數(shù)據(jù)的網(wǎng)址,然

后使用開發(fā)者工具本項目可以看到瀏覽器請求的url地址就是真實數(shù)據(jù)資源的

地址,還能直接看到需要爬取的數(shù)據(jù)的結(jié)構(gòu)。如圖3-4所示。瀏覽器請求到服

務(wù)器資源的響應(yīng)內(nèi)容有本項目需要的數(shù)據(jù),它的結(jié)構(gòu)是ul下面有很多個標(biāo)簽組

成的,每一個li標(biāo)簽對應(yīng)網(wǎng)頁中的一條數(shù)據(jù),如圖3-5所示。通過以上特點可

以通過Requests方法中的GET方法來獲取數(shù)據(jù)的響應(yīng),然后將數(shù)據(jù)存為csv格

式的文件中。

圖3-4數(shù)據(jù)字段、結(jié)構(gòu)、地址的頁面

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖3-5分析數(shù)據(jù)結(jié)構(gòu)頁面

3.3編程實現(xiàn)

首先導(dǎo)入所需要庫。如圖3-6

圖3-6導(dǎo)入所需庫頁面

設(shè)置請求頭部,目的是偽裝成瀏覽器訪問服務(wù)器。如圖3-7

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖3-7請求頭內(nèi)容頁面

線程爬取步驟,如圖3-8

圖3-8爬取原理

代碼實現(xiàn)如下:

圖3-9爬取過程代碼

圖3-10爬取過程代碼

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖3-11爬取過程代碼

圖3-12爬取過程代碼

4數(shù)據(jù)清洗與處理

數(shù)據(jù)的不斷增加是時代的特征,但是眾多數(shù)據(jù)中總是存在著許多臟數(shù)據(jù),

即不完整、不規(guī)范、不準(zhǔn)確的數(shù)據(jù),因此數(shù)據(jù)清洗就是指徹底清洗臟數(shù)據(jù),包

括檢查數(shù)據(jù)一致性,處理無效信和缺失值等,從而提高數(shù)據(jù)質(zhì)量。

數(shù)據(jù)清洗的含義是檢測和去除數(shù)據(jù)集中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺落

數(shù)據(jù),及去除空白數(shù)據(jù)域和知識背景下的白噪音。數(shù)據(jù)清洗主要運用于三個領(lǐng)

域:數(shù)據(jù)庫、數(shù)據(jù)挖掘和數(shù)據(jù)質(zhì)量管理。

本次項目中需要將爬取下來的數(shù)據(jù)和原數(shù)據(jù)進行對比,查看有沒有缺失

值、錯誤值,提高數(shù)據(jù)質(zhì)量。

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

4.1數(shù)據(jù)清洗

圖4-1準(zhǔn)備進行清洗的數(shù)據(jù)頁面

圖4-2準(zhǔn)備清洗數(shù)據(jù)的代碼

清洗后經(jīng)過觀察對比,發(fā)現(xiàn)數(shù)據(jù)沒有缺失值、錯誤值和空值,但是有15個

重復(fù)值,通過使用Dataframe的drop_duplicates方法對數(shù)據(jù)中的重復(fù)值進行

處去除。如圖4-3

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖4-3數(shù)據(jù)清洗完成界面

4.2數(shù)據(jù)儲存

數(shù)據(jù)時代首先要解決的就是數(shù)據(jù)存儲問題,大數(shù)據(jù)存儲是大數(shù)據(jù)的關(guān)鍵技

術(shù)除了傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)之外,大數(shù)據(jù)更多的是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。

常見的非結(jié)構(gòu)化數(shù)據(jù)有文本、圖形、聲音、網(wǎng)頁等。這類數(shù)據(jù)無法用數(shù)字

或者統(tǒng)一的結(jié)構(gòu)表示。結(jié)構(gòu)化數(shù)據(jù)主要使用NOSQL非關(guān)系型數(shù)據(jù)庫進行存放,

這類數(shù)據(jù)主要指的能夠用數(shù)據(jù)或者統(tǒng)一的結(jié)構(gòu)加以表示,如數(shù)字、符號。

這次項目主要用到的是csv。

如圖4-4所示:

圖4-4數(shù)據(jù)存儲為csv頁面

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

4.3編程實現(xiàn)

圖4-5數(shù)據(jù)列表轉(zhuǎn)換為Dataframe頁面

查看存儲數(shù)據(jù)是否正確

圖4-6數(shù)據(jù)的數(shù)據(jù)查看頁面

5數(shù)據(jù)統(tǒng)計與分析

5.1數(shù)據(jù)準(zhǔn)備

導(dǎo)入相關(guān)庫,運行代碼,得到原本的數(shù)據(jù),如圖5-1、5-2、5-3。

圖5-1獲取源數(shù)據(jù)代碼頁面

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

圖5-2數(shù)據(jù)準(zhǔn)備頁面

圖5-3數(shù)據(jù)加載頁面

15

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5.2數(shù)據(jù)展示

5.2.1依據(jù)農(nóng)產(chǎn)品購買后發(fā)布次數(shù)進行統(tǒng)計和分析

圖5-4數(shù)據(jù)展示頁面

這一步是將數(shù)據(jù)中農(nóng)產(chǎn)品購買后發(fā)布的次數(shù)的字段數(shù)據(jù)進行匯總和處理后

得出發(fā)布次數(shù)最多的農(nóng)產(chǎn)品,使用counter計數(shù)器迭代序列中的各個元素數(shù)

量,然后遍歷,生成字典添加進入列表,列表中的字段按照name排序,最后使

用pyg2plot繪制詞云圖,如圖5-3中可以看出柑桔出現(xiàn)的次數(shù)最高,其次就是豬

副作產(chǎn)品,然后再是甘蔗。在惠農(nóng)網(wǎng)上柑桔的發(fā)布頻數(shù)多說明柑桔是銷售的非

常好的農(nóng)產(chǎn)品,深受廣大人民群眾的喜愛。

而且還可以從中看出,發(fā)布的農(nóng)產(chǎn)品種類非常之多,有水果、蔬菜、禽畜

肉蛋、水產(chǎn)、農(nóng)副加工、糧玉米面、種子種苗等等,可以看出來中國的農(nóng)業(yè)目

前發(fā)展的很好,有了越來越多的“有文化,懂技術(shù),會經(jīng)營”的農(nóng)業(yè)生產(chǎn)者,

正因為這些生產(chǎn)者的加入,讓中國農(nóng)業(yè)發(fā)展的越來越好、農(nóng)產(chǎn)品種類越來越

多,農(nóng)產(chǎn)品的多樣性也說明了了人民的生活水平越來越高、生活質(zhì)量越來越

好。也可以從側(cè)面反映出來農(nóng)業(yè)的生產(chǎn)規(guī)模擴大了、農(nóng)業(yè)技術(shù)進步了、農(nóng)業(yè)的

勞動生產(chǎn)率提高了。隨著鄉(xiāng)村振興的號召、越來越多的青年投入的基層服務(wù),

國家政策的響應(yīng)、青年的覺醒響應(yīng)號召,以及農(nóng)業(yè)技術(shù)提高、農(nóng)產(chǎn)品交易平臺

興起、互聯(lián)網(wǎng)的發(fā)展等各方面條優(yōu)勢,相信農(nóng)業(yè)的生產(chǎn)效益肯定會越來越好。

16

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5.2.2依據(jù)農(nóng)產(chǎn)品期望貨源地統(tǒng)計和分析

圖5-4數(shù)據(jù)展示頁面

從圖5-4中可以看出來絕大部分采購商都可以接受全國各地的貨源,占比

百分之74.44,所占比例非常的高,以往的采購商們都會找那種穩(wěn)定的、標(biāo)準(zhǔn)

的、優(yōu)質(zhì)、高效的貨源供應(yīng)方。然而現(xiàn)在大部分采購商可以接受全國范圍內(nèi)的

貨源,這種改變到底是什么原因呢?

原因是因為現(xiàn)在全國各地的響應(yīng)振興農(nóng)業(yè)的號召,農(nóng)業(yè)一體化越來越好,

基本上當(dāng)?shù)剞r(nóng)產(chǎn)品生產(chǎn)地都有團隊協(xié)作,以及專業(yè)的技術(shù)人員指導(dǎo),對各個農(nóng)

產(chǎn)品供銷服務(wù)基地都有統(tǒng)一的指導(dǎo)和培訓(xùn),規(guī)范化了農(nóng)產(chǎn)品供應(yīng)鏈,提高了產(chǎn)

地管理效率。使得采購方式變得簡單、有條理、便利。并且可以獲取最大化的

利益,多方合作伙伴的參與協(xié)調(diào)工作同時讓果品品質(zhì)可控、產(chǎn)品可以溯源,使

得采購各方面權(quán)益更加有保障。而每一次的合作愉快也使得越來越多的采購商

相信這種采購方式,基于全國范圍內(nèi)挑選最符合自己利益的貨源地合作,因此

農(nóng)產(chǎn)品采購商可以更加放心的從全國范圍內(nèi)采購貨物。

其次期望的貨源地就是甘肅,甘肅農(nóng)耕文化底蘊深厚、與絲綢之路沿線國

家和地區(qū)農(nóng)業(yè)交往歷史悠久、通道樞紐功能明顯,而且甘肅省地域狹長,光照

充足,晝夜溫差大,病蟲害發(fā)生少,是特色農(nóng)產(chǎn)品生長的“溫室”。不僅有政策

扶持,再加上本身的地域優(yōu)勢。近年來,甘肅農(nóng)業(yè)穩(wěn)步增長,種植結(jié)構(gòu)多樣,

優(yōu)質(zhì)特色的產(chǎn)業(yè)多,加上甘肅的氣候條件農(nóng)產(chǎn)品品質(zhì)高,而且政策好,基于以

上優(yōu)勢,采購商們會更意向甘肅采購,所以甘肅會成為主要的貨源地。

17

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計

5.2.3依據(jù)農(nóng)產(chǎn)品采購商實人和實名認證進行統(tǒng)計和分析

圖5-5數(shù)據(jù)展示頁面

從圖5-5中可以得出中國農(nóng)產(chǎn)品采購商實人實名認證情況比較少,未實名

認證的占了絕大部分,而且從圖中可以看出1月10號的認證情況比1月11號

多,從中可以看出農(nóng)產(chǎn)品產(chǎn)銷“實名制”實施的不到位。

民以食為天,食以安為先。舌尖的安全,永遠是民生的重點。看似只是沒

有實名制不會有什么問題,但是農(nóng)產(chǎn)品實名制是防止造假的治本之策,這些年

來,食品安全越來越嚴(yán)重,“土坑酸菜、過期食品、保健蜂蜜………”這些關(guān)鍵

詞頻繁成為網(wǎng)絡(luò)熱搜,成為公眾關(guān)心的食品安全與健康輿論熱點。中國食品安

全涉及的面越來越廣、危害程度越來越深、制毒制劣手段越來越多樣化。所以

農(nóng)產(chǎn)品產(chǎn)銷實名制勢在必行,強化源頭監(jiān)管,才可以保證舌尖安全,一旦發(fā)生

食品問題就可以追根溯源,降低損失,可以極大的保證采購者的利益,同時有

效的促進市場誠信經(jīng)營,也可以一定程度上保證農(nóng)產(chǎn)品的安全性、很大程度上

能促進中國農(nóng)業(yè)的發(fā)展。所以農(nóng)產(chǎn)品必須加快實名制步伐。

18

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論