窮游旅游網(wǎng)站景點(diǎn)數(shù)據(jù)采集與分析_第1頁
窮游旅游網(wǎng)站景點(diǎn)數(shù)據(jù)采集與分析_第2頁
窮游旅游網(wǎng)站景點(diǎn)數(shù)據(jù)采集與分析_第3頁
窮游旅游網(wǎng)站景點(diǎn)數(shù)據(jù)采集與分析_第4頁
窮游旅游網(wǎng)站景點(diǎn)數(shù)據(jù)采集與分析_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

目錄

1引言............................................................................................................................1

1.1項(xiàng)目背景......................................................................................................1

1.2開發(fā)環(huán)境與工具..........................................................................................2

1.2.1Python簡介..........................................................................................2

1.2.2Python第三方庫簡介..........................................................................3

2需求分析....................................................................................................................3

2.1可行性需求分析..........................................................................................3

2.2采集目標(biāo)功能分析......................................................................................4

2.3關(guān)鍵技術(shù)分析..............................................................................................4

2.3.1網(wǎng)絡(luò)爬蟲技術(shù).......................................................................................4

2.3.2文件存取技術(shù).......................................................................................5

2.3.3可視化技術(shù)...........................................................................................5

3數(shù)據(jù)采集....................................................................................................................6

3.1采集頁面分析..............................................................................................6

3.2字段分析......................................................................................................6

3.3編程實(shí)現(xiàn)......................................................................................................7

4數(shù)據(jù)清洗與處理........................................................................................................8

4.1數(shù)據(jù)清洗......................................................................................................9

4.2數(shù)據(jù)儲存......................................................................................................9

4.3編程實(shí)現(xiàn)....................................................................................................10

5數(shù)據(jù)統(tǒng)計(jì)與分析......................................................................................................12

5.1數(shù)據(jù)準(zhǔn)備....................................................................................................12

5.2數(shù)據(jù)展示....................................................................................................12

5.2.1全國前十旅游城市條形圖.................................................................12

5.2.2全國前十旅游城市地理圖.................................................................14

5.2.3全國旅游城市前十餅圖.....................................................................15

5.3數(shù)據(jù)分析小結(jié)............................................................................................16

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

6小結(jié)..........................................................................................................................17

7參考資料..................................................................................................................18

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

窮游旅游網(wǎng)站景點(diǎn)數(shù)據(jù)采集與分析

1引言

縱觀歷史,旅游是人們增長知識,豐富閱歷,強(qiáng)身健體的好方法。中國古

代先哲提出“望聞問切”的思想,提倡“讀萬卷書,行萬里路”,游歷名山大

川,探尋名勝古跡,吸納天地之靈氣,吸納山水之精華。20世紀(jì)以來,現(xiàn)代旅

游業(yè)在世界各地迅速發(fā)展,游客數(shù)量不斷增加,旅游業(yè)規(guī)模穩(wěn)步擴(kuò)大,旅游業(yè)

的經(jīng)濟(jì)作用也明顯增強(qiáng)。人們也將旅游視為放松壓力,洗滌心靈的一種方式。

因?yàn)槿藗兂3L幱诟邏涵h(huán)境下,就會選擇旅游來放松。而怎么旅好游呢?就成

了一個(gè)難題。旅游前肯定要做好攻略,而選擇去哪旅游,去了之后的住宿,當(dāng)

地有什么美食,乘坐什么交通工具?這些數(shù)據(jù)分析就可以幫助我們很好的實(shí)

現(xiàn)。那怎樣去做數(shù)據(jù)分析呢?在大數(shù)據(jù)時(shí)代,人們想要做好旅游攻略,首先要

考慮到的是數(shù)據(jù)來源的問題。如今,互聯(lián)網(wǎng)已經(jīng)成為人們生活中不可或缺的一

部分,而隨著網(wǎng)絡(luò)的普及,各種類型的網(wǎng)站層出不窮,而這些網(wǎng)站也是我們獲

取信息的重要渠道。然而現(xiàn)在網(wǎng)站有很多,很多人都不知道該如何去選擇。其

實(shí)也很簡單,我們只要用搜索引擎來進(jìn)行搜索就可以了。搜索出來的結(jié)果肯定

會有自己想要的答案。比如你在某寶上買東西,然后搜索“北京”、“故宮”

等關(guān)鍵詞,就會出來很多關(guān)于北京、故宮、兵馬俑等方面的信息。在進(jìn)行數(shù)據(jù)

分析之前我們可以先進(jìn)行關(guān)鍵詞搜索。

1.1項(xiàng)目背景

窮游網(wǎng)由肖異在德國留學(xué)時(shí)期于2004年創(chuàng)立,現(xiàn)已經(jīng)發(fā)展成為中國領(lǐng)先

的出境旅服務(wù)平臺。在疫情期間,窮游平臺為旅行者提供了大量有價(jià)值的信息

和攻略,幫助他們了解目的地和旅行相關(guān)信息,可以讓旅行者更好地規(guī)劃自己

的旅游行程;另一方面,窮游平臺具有強(qiáng)大的社交屬性,可以通過與旅行者之

間的互動為旅行者提供社交分享、觀點(diǎn)交流等活動,增加旅行者對于目的地的

了解和喜愛程度。這一點(diǎn)不僅適用于國內(nèi)市場,也適用于境外旅游市場。在國

外市場上,窮游也有一批忠實(shí)粉絲。

2007年,窮游網(wǎng)正式成立,其網(wǎng)站以“讓旅游更窮更有趣”為宗旨,幫助

游客更加自由,方便地進(jìn)行出國旅游。窮游網(wǎng)提供餐飲,酒店,旅游線路,購

物等旅游服務(wù)信息,有效便利了游客的外出出行。近年來,窮游網(wǎng)也迅速發(fā)

展,擁有超過6000萬注冊用戶,其中許多用戶利用窮游網(wǎng)安排了跨國旅游計(jì)

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

劃。

窮游網(wǎng)的業(yè)務(wù)模式主要為“B2B2C”,既從B2B(商業(yè)到商業(yè))及B2C(商

業(yè)到消費(fèi)者)兩個(gè)方面拓展出來:首先,窮游網(wǎng)與國內(nèi)外旅游供應(yīng)商合作,以

消除商家與消費(fèi)者之間的中間環(huán)節(jié),同時(shí)給予消費(fèi)者更高品質(zhì)的服務(wù):其次,

窮游網(wǎng)在中國范圍內(nèi)開展了一系列的旅游營銷活動,借此促進(jìn)旅游業(yè)的發(fā)展,

也為消費(fèi)者提供更加具有價(jià)值的旅游服務(wù)。

我的畢業(yè)設(shè)計(jì)就是針對窮游網(wǎng)網(wǎng)站景點(diǎn)數(shù)據(jù)的爬取,然后對其進(jìn)行處理,

分析,然后可視化。繁雜冗余的數(shù)據(jù)經(jīng)過處理分析,變得一目了然。所以我的

畢業(yè)設(shè)計(jì)部分包含數(shù)據(jù)爬取、清洗清洗、儲存、可視化。

1.2開發(fā)環(huán)境與工具

1.2.1Python簡介

Python由荷蘭數(shù)學(xué)和計(jì)算機(jī)科學(xué)研究學(xué)會的吉多·范羅蘇姆于1990年代

初設(shè)計(jì),Python的誕生是極具戲曲性的,據(jù)Guido自述記載,Python語言

是在圣誕節(jié)期間為了打發(fā)無聊的時(shí)間而開發(fā)的,之所以會選擇Python作為該

編程語言的名字,是因?yàn)镚uido是MontyPython戲劇團(tuán)的忠實(shí)粉絲。

Python是一門面向?qū)ο蟮木幊陶Z言,它使得程序開發(fā)變得更加容易。它的

對象,繼承,多態(tài)等機(jī)制使代碼具有了可移植性,同時(shí)也使代碼變得更加容易

理解。Python是一種高級編程語言,被廣泛應(yīng)用與web開發(fā)和移動應(yīng)用程序開

發(fā)領(lǐng)域。Python語言具有簡單易用,面向?qū)ο?,面向過程等特點(diǎn),同時(shí),

Python還擁有豐富的庫和第三方工具,能夠幫助開發(fā)者快速構(gòu)建出各類復(fù)雜的

系統(tǒng)。

Python作為一門ABC語言的替代品。它提供了強(qiáng)大的高級數(shù)據(jù)結(jié)構(gòu)和簡

單,高效,基于寡頭的編程。Python是一款面向?qū)ο缶幊獭M瑫r(shí)也是一款易于

學(xué)習(xí)且功能強(qiáng)大的編程語言。Python簡潔的語法與動態(tài)輸入之特性,加之其解

釋性語言的本質(zhì),使得它成為一種在多種領(lǐng)域與絕大多數(shù)平臺都能進(jìn)行腳本編

寫與應(yīng)用快速開發(fā)工作的理想語言。

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

1.2.2Python第三方庫簡介

requests是Python中的一個(gè)HTTP請求庫,基于Python中的urllib模

塊實(shí)現(xiàn)。它比urllib庫更為容易使用。requests庫發(fā)送原生的HTTP1.1請

求,不需要手動為URL添加字典查詢,也不需要對POST數(shù)據(jù)進(jìn)行表單編碼。

HTTP庫使用Apache2許可的開源協(xié)議。它比urllib更加方便,可以為我們節(jié)

省大量的工作,完全滿足HTTP測需求。

pandas是一個(gè)基于Python的NumPy和Matplotlib的第三方數(shù)據(jù)分析庫,

也是Python的核心數(shù)據(jù)分析支持庫。它以快速,靈活和清晰的數(shù)據(jù)結(jié)構(gòu)提供

關(guān)系型,標(biāo)記化的數(shù)據(jù),旨在實(shí)現(xiàn)簡單和直觀的處理。pandas可以從各種文件

格式導(dǎo)入數(shù)據(jù),例如,以逗號來分隔的值,JSON,SQL,Microsoft,Excel。

pandas是Python的一個(gè)第三方庫,需要單獨(dú)安裝才能使用。pandas主要有兩

種數(shù)據(jù)結(jié)構(gòu),Series(一維數(shù)據(jù))與DataFrame(二維數(shù)據(jù))。

Pyecharts是一個(gè)用于在Echarts中生成圖表的類庫。Echaets是百度開

源的一個(gè)數(shù)據(jù)可視化庫,用Echarts生成的圖可視化效果非常棒。使用

Pyecharts庫可以在Python中是生成Echarts數(shù)據(jù)圖。Pyecharts是為了與

Python進(jìn)行對接,方便在Python中直接使用數(shù)據(jù)生成圖。使用Pyecharts可

以生成獨(dú)立的網(wǎng)頁,也可以在Flask,Django中集成使用。

2需求分析

2.1可行性需求分析

近年來,利用大數(shù)據(jù)進(jìn)行客流和消費(fèi)統(tǒng)計(jì)已經(jīng)成為一個(gè)重要趨勢,大數(shù)據(jù)

的應(yīng)用使旅游統(tǒng)計(jì)更加及時(shí)和準(zhǔn)確。大數(shù)據(jù)可以保證數(shù)據(jù)的客觀性、代表性、

數(shù)據(jù)覆蓋范圍大、人數(shù)統(tǒng)計(jì)相對準(zhǔn)確,此外,各國各地都在爭相使用大數(shù)據(jù)統(tǒng)

計(jì),用大數(shù)據(jù)替代傳統(tǒng)統(tǒng)計(jì)。但有些地方因?yàn)闆]有按照游客的技術(shù)定義排除大

數(shù)據(jù),導(dǎo)致數(shù)據(jù)失真。為了提高旅游統(tǒng)計(jì)的質(zhì)量,需要規(guī)范大數(shù)據(jù)統(tǒng)計(jì)的標(biāo)準(zhǔn)

應(yīng)用。

旅游業(yè)將更多的文化產(chǎn)品聯(lián)系起來,并以獨(dú)特的方式呈現(xiàn)出來。到一個(gè)陌

生的城市旅行,不參觀當(dāng)?shù)氐牟┪镳^,不了解當(dāng)?shù)氐臍v史和文化,似乎都白來

一趟,純純浪費(fèi)時(shí)間。曾經(jīng)少人問津的博物館,近年來勢頭正猛,以其厚重的

文化底蘊(yùn),吸引著越來越多的游客,僅2018年就有10.08億人次走進(jìn)博物

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

館。所以,我決定做一個(gè)基于Python爬取窮游網(wǎng)全國旅游城市的數(shù)據(jù)。

2.2采集目標(biāo)功能分析

本次項(xiàng)目的數(shù)據(jù)集的來源是窮游網(wǎng)網(wǎng)站數(shù)據(jù),主要針對窮游旅游網(wǎng)站,我

采集網(wǎng)頁中旅游城市的詳細(xì)詳細(xì),如城市名字,去過的人數(shù),熱門景點(diǎn),城

市詳情頁面,圖片url地址等內(nèi)容進(jìn)行一個(gè)數(shù)據(jù)采集與分析,讓用戶可以根據(jù)

這些主要字段信息,選擇自己心儀的旅游去處。通過Python編寫城市向?yàn)g覽

器發(fā)送請求,在與瀏覽器取得通信連接后,取得其頁面的基本數(shù)據(jù)后,通過解

析數(shù)據(jù)第三方庫對響應(yīng)頁面的基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)提取,制定相應(yīng)的規(guī)則,進(jìn)行

批量化操作,得到最后數(shù)據(jù)存入CSV文件中進(jìn)行持久化存儲。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)

隨著大數(shù)據(jù)的快速增長,網(wǎng)絡(luò)爬蟲技術(shù)在互聯(lián)網(wǎng)上的地位變得越來越重

要。網(wǎng)絡(luò)上數(shù)據(jù)的復(fù)雜性和浩瀚性,都讓我們想到了網(wǎng)絡(luò)爬蟲,如何自動有效

地獲取互聯(lián)網(wǎng)中的數(shù)據(jù),并把它變成我們想要的數(shù)據(jù)。網(wǎng)絡(luò)爬蟲技術(shù)存在就是

為了解決這些難題。網(wǎng)絡(luò)爬蟲就像一個(gè)機(jī)器人。你設(shè)定規(guī)則并給它們下達(dá)指

令,它就會按照制定的規(guī)則自動瀏覽網(wǎng)頁并且收集各種你想要的信息。網(wǎng)絡(luò)爬

蟲將互聯(lián)網(wǎng)比喻成一張蜘蛛網(wǎng),通過模擬人的行為(網(wǎng)絡(luò)用戶),自動高效的

抓取網(wǎng)頁數(shù)據(jù)。網(wǎng)絡(luò)蜘蛛是通過一個(gè)網(wǎng)頁頁面的鏈接地址對該網(wǎng)頁進(jìn)行尋址操

作,并且爬取該網(wǎng)站上的所有頁面信息,從第一個(gè)頁面開始,閱讀該頁面的內(nèi)

容,找到該頁面的其他鏈接地址,從該鏈接地址找到下一個(gè)網(wǎng)頁,一直這樣反

復(fù)循環(huán),一直到把這個(gè)網(wǎng)頁所有的頁面都被爬取完為止。網(wǎng)絡(luò)爬蟲技術(shù)應(yīng)用很

廣泛,常見的用于搜索引擎領(lǐng)域。

網(wǎng)絡(luò)爬蟲技術(shù)有一個(gè)缺點(diǎn)就是需要大量的服務(wù)器資源,在使用的過程中要

對服務(wù)器資源進(jìn)行管理,以防止用戶訪問被限制,還有一個(gè)缺點(diǎn)就是網(wǎng)絡(luò)爬蟲

需要對網(wǎng)頁進(jìn)行解析,這個(gè)過程中會產(chǎn)生很多的垃圾數(shù)據(jù),導(dǎo)致網(wǎng)絡(luò)爬蟲工作

效率低下。同時(shí)也存在著許多的安全隱患。為了解決這些問題,可以通過使用

爬蟲軟件來實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲技術(shù)。

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

2.3.2文件存取技術(shù)

本文使用CSV技術(shù)和MySQL來存儲文件。CSV全稱為Comma-Separated

Vaules,也稱為逗號分離法,翻譯為逗號分離值或字符分離值,其文件以純文

本格式存儲表格數(shù)據(jù)。在某些情況下,它被用于文件間的文件傳輸,比如程序

之間的數(shù)據(jù)轉(zhuǎn)移。由于這個(gè)原因,CSV被廣泛使用。它是由微軟公司開發(fā)的一

種文件格式,與XLS文件類似。CSV是一種基于字符的文件格式,而不是基于

表格的格式。微軟在20世紀(jì)90年代末開始向一些大型公司提供在線服務(wù),因

此開發(fā)了許多用于與其他軟件互操作的應(yīng)用程序,而CSV就是其中之一。該公

司為用戶提供了一種簡單易用的方法來存儲和使用CSV文件,其中包括

MicrosoftWord、Excel和PowerPoint等應(yīng)用程序。使用CSV文件的主要優(yōu)

點(diǎn)是它具有其他格式所不具備的一些特性。

MySQL是一個(gè)關(guān)系型數(shù)據(jù)庫,它將數(shù)據(jù)保存在不同的表中,而不是將所有

數(shù)據(jù)保存在一個(gè)大型倉庫里。MySQL使用SQL語言,SQL語言是一種數(shù)據(jù)庫查

詢語言和程序設(shè)計(jì)語言,它是一中非關(guān)系型數(shù)據(jù)庫語言,主要用于存取數(shù)據(jù),

查詢數(shù)據(jù)和更新數(shù)據(jù)。

2.3.3可視化技術(shù)

數(shù)據(jù)可視化簡單來說就是將數(shù)據(jù)以圖形的方式呈現(xiàn)出來,讓人們更直觀地

看到數(shù)據(jù)信息。復(fù)雜的數(shù)據(jù)以圖形的方式展現(xiàn)出來就變的不復(fù)雜了。數(shù)據(jù)可視

化就是將人類感知到的信息如視覺、聽覺、觸覺、嗅覺等,通過可視化手段進(jìn)

行處理,從而讓用戶以更容易理解和接受的方式來理解和處理這些信息。數(shù)據(jù)

可視化可以通過圖表、圖表組合等方式將數(shù)據(jù)直觀地呈現(xiàn)出來,方便用戶理

解、掌握、使用數(shù)據(jù),也可以通過各種可視化工具將數(shù)據(jù)進(jìn)行更高效的處理。

數(shù)據(jù)可視化是一個(gè)典型的人機(jī)交互技術(shù)。人機(jī)交互是指人與計(jì)算機(jī)之間的信息

交換過程。在計(jì)算機(jī)的輔助下,人類能夠更高效地獲取計(jì)算機(jī)中存儲的信息和

知識,并能通過人的思考來判斷信息或知識的價(jià)值。

本次項(xiàng)目中僅僅只是將得到的數(shù)據(jù)用很簡單的可視化手段實(shí)現(xiàn)數(shù)據(jù)可視化,

具體的就是用Python第三方庫Matplotlib去進(jìn)行可視化,Matplotlib中包含

了許多庫,分別對應(yīng)餅圖、條形圖、直方圖、折線圖等圖形,可以很好的將數(shù)據(jù)

高效率的表現(xiàn)出來,可視化圖形呈現(xiàn)出來后對于結(jié)果自然一目了然,然后得出結(jié)

論。

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

3數(shù)據(jù)采集

3.1采集頁面分析

我們首先通過谷歌瀏覽器搜索窮游網(wǎng)官方網(wǎng)頁,然后找到如圖3-1所示。

圖3-1數(shù)據(jù)采集頁面

我們需要采集的有城市名字,去過的人數(shù),熱門景點(diǎn),圖片url,城市詳情

頁面url。該頁面地址為/china/citylist-0-0-

1/。通過點(diǎn)擊第二頁,第三頁發(fā)現(xiàn)頁面分別變成了

/china/citylist-0-0-2/和

/china/citylist-0-0-3/,目標(biāo)地址只有后半段有變

化,并且和頁面是對應(yīng)的,是有規(guī)律的。因此通過for循環(huán),循環(huán)訪問該地

址。

3.2字段分析

本文爬取的字段有城市,去過的人數(shù),熱門景點(diǎn),城市詳情頁面,城市圖

片。先爬取第一個(gè)頁面/china/citylist-0-0-1/的字

段數(shù)據(jù),并找到第二個(gè)頁面的鏈接地址進(jìn)行爬取,一直這樣反復(fù)循環(huán)爬取頁面

數(shù)據(jù)。

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

3.3編程實(shí)現(xiàn)

導(dǎo)入所需庫,如圖3-2所示。

圖3-2導(dǎo)入所需庫頁面

設(shè)置請求頭,偽裝成瀏覽器用戶,如圖3-3所示。

圖3-3請求頭內(nèi)容頁面

代碼實(shí)現(xiàn)如下,如圖3-4所示。

圖3-4具體代碼內(nèi)容

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

運(yùn)行結(jié)果展示,如圖3-5所示。

圖3-5運(yùn)行結(jié)果展示

4數(shù)據(jù)清洗與處理

數(shù)據(jù)清洗的目的是為了提高數(shù)據(jù)的準(zhǔn)確性個(gè)完整性,以及在分析時(shí)的可讀

性。數(shù)據(jù)清洗是在數(shù)據(jù)處理中非常重要的一步,在許多行業(yè)中都得到了廣泛應(yīng)

用,如市場營銷、醫(yī)學(xué)研究、金融等。通過對數(shù)據(jù)進(jìn)行清理,可以提高數(shù)據(jù)的

準(zhǔn)確性和可靠性,并消除數(shù)據(jù)中的錯(cuò)誤。為了提高數(shù)據(jù)質(zhì)量,需要對收集到的

數(shù)據(jù)進(jìn)行檢查和修正,如刪除重復(fù)數(shù)據(jù)、補(bǔ)充缺失值、糾正錯(cuò)誤類型和格式

等。對于不同類型的數(shù)據(jù),需要采用不同的方式來處理。如對于財(cái)務(wù)記錄,應(yīng)

該檢查是否有未及時(shí)更新的日期和金額;對于非財(cái)務(wù)記錄,則應(yīng)該檢查是否有

缺失值、重復(fù)日期等。在大多數(shù)情況下,清理工作只是為了避免數(shù)據(jù)之間的不

一致或沖突而采取的措施。

數(shù)據(jù)清洗可以有多種表述方式,其定義依賴于具體的應(yīng)用。因此,數(shù)據(jù)清

洗的定義在不同的應(yīng)用領(lǐng)域不完全相同。例如,在數(shù)據(jù)倉庫環(huán)境下,數(shù)據(jù)清洗

是抽取轉(zhuǎn)換裝卸載過程的一個(gè)重要部分,要考慮數(shù)據(jù)倉庫的集成性與面向主題

的需要。不過,現(xiàn)在業(yè)界一般認(rèn)為,數(shù)據(jù)清洗的含義是檢測和去除數(shù)據(jù)集中的

噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù),以及去除空白數(shù)據(jù)。

本次項(xiàng)目中我們需要將爬下來的數(shù)據(jù)和網(wǎng)頁原數(shù)據(jù)進(jìn)行比對,并且檢查是

否出現(xiàn)空值、錯(cuò)值,還有數(shù)據(jù)的位置是否正確。根據(jù)不同的需求我們要對數(shù)據(jù)

進(jìn)行不同的處理。

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

4.1數(shù)據(jù)清洗

經(jīng)過比對和檢查,發(fā)現(xiàn)數(shù)據(jù)不存在缺失,錯(cuò)位還有空值,那么我們根據(jù)需求

將有效數(shù)據(jù)統(tǒng)一規(guī)劃去掉不要的行列數(shù)據(jù),防止數(shù)據(jù)冗余。因此我們只需保留

需要的數(shù)據(jù),然后整理為原網(wǎng)頁格式存入CSV文件中,留存后續(xù)作為統(tǒng)計(jì)分析、

可視化使用。

圖4-1數(shù)據(jù)清洗完成界面

4.2數(shù)據(jù)儲存

數(shù)據(jù)存儲是數(shù)據(jù)處理的一個(gè)環(huán)節(jié),是指通過一定的計(jì)算機(jī)技術(shù)將數(shù)據(jù)存儲

在特定的介質(zhì)中。數(shù)據(jù)存儲即可以保證數(shù)據(jù)的完整性,又可為隨時(shí)使用和加工

處理作準(zhǔn)備。數(shù)據(jù)存儲的目的是以這樣一種方式存儲數(shù)據(jù),以便在計(jì)算機(jī)上運(yùn)

行程序或進(jìn)行數(shù)據(jù)處理時(shí)可以方便地訪問。

數(shù)據(jù)儲存得方法有很多種,常見得可以直接用記事本格式儲存.txt文件,或

者直接用其他文件的形式儲存CSV、excel、json等,但是以上方法保存的數(shù)據(jù)

體量普遍都比較小。如果需要儲存較大的數(shù)據(jù)信息就需要用到我們的數(shù)據(jù)庫,

數(shù)據(jù)庫也分為關(guān)系型和非關(guān)系型數(shù)據(jù)庫。關(guān)系型數(shù)據(jù)庫比較典型的有MySQL和

Oracle等,非關(guān)系型數(shù)據(jù)庫等以鍵值對形式儲存數(shù)據(jù)的代表有Mongodb、Redis

等。本次項(xiàng)目我們用到的是CSV、MySQL。

如圖4-2和4-3所示。

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-2數(shù)據(jù)存儲為CSV頁面

圖4-3數(shù)據(jù)存儲MySQL頁面

4.3編程實(shí)現(xiàn)

創(chuàng)建數(shù)據(jù)庫test_qy,如圖4-4所示。

圖4-4創(chuàng)建數(shù)據(jù)庫頁面

創(chuàng)建數(shù)據(jù)表mytable,如圖4-5所示。

圖4-5創(chuàng)建數(shù)據(jù)表頁面

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

將本地?cái)?shù)據(jù)上傳到虛擬機(jī)/root目錄下,如圖4-6所示。

圖4-6上傳虛擬機(jī)頁面

導(dǎo)入數(shù)據(jù)到數(shù)據(jù)庫,如圖4-7所示。

圖4-7導(dǎo)入數(shù)據(jù)頁面

查看數(shù)據(jù)是否導(dǎo)入成功,如圖4-8所示。

圖4-8數(shù)據(jù)導(dǎo)入成功頁面

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5數(shù)據(jù)統(tǒng)計(jì)與分析

5.1數(shù)據(jù)準(zhǔn)備

本文爬取的是窮游網(wǎng)全國旅游城市數(shù)據(jù),源數(shù)據(jù)如下,如圖5-1所示。

圖5-1源數(shù)據(jù)頁面

5.2數(shù)據(jù)展示

5.2.1全國前十旅游城市條形圖

代碼如圖5-2所示。

圖5-2前十旅游城市條形圖代碼

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

可視化展示如圖5-3所示。

圖5-3全國旅游城市柱狀圖

從圖5-3可以看出,香港去的人數(shù)最多,其次是澳門。我認(rèn)為香港之所以

會成為第一的原因是,香港是全世界的“購物天堂”,許多商品免關(guān)稅進(jìn)入香

港市場。其商品不僅僅貨真價(jià)實(shí),而且物美價(jià)廉。全世界各種美食及商品在這

里聚集,琳瑯滿目,應(yīng)有盡有;從電子產(chǎn)品,首飾,到服裝,鞋帽等等,只有

你想不到,幾乎沒有你找不到的好東西。

香港和澳門的歷史淵源我們都知道,這兩個(gè)城市都是后來才回歸的,之前

一直由外國人治理。因此,香港和澳門在早些年發(fā)展也很快,加上體制制度的

原因,吸引了很多人到這兩個(gè)城市。所以,香港和澳門這兩個(gè)城市的多樣性、

包容性更大,你可以在這兩個(gè)城市看到很多國家的身影,不同的建筑風(fēng)格,不

同的語言,不同的飲食習(xí)慣等等,加上早些年大陸人去香港澳門限制要求很

多,是在回歸之后條件才放松,因此這也給大陸人去香港澳門旅游創(chuàng)造了條

件。每一個(gè)到香港的游客,不可錯(cuò)失的目的地肯定少不了維多利亞港,作為享

有“世界三大夜景之一”的美譽(yù),這里成就了香港“東方之珠”的贊譽(yù),不僅

匯聚了香港最美的景觀:星光大道,天星小輪等等特色為世人周知。在香港可

以找到各式各樣的中外美食,港式美味,港式海鮮等等。

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.2全國前十旅游城市地理圖

代碼如圖5-4所示。

圖5-4前十旅游城市地理圖數(shù)據(jù)代碼

可視化展示如圖5-5所示。

圖5-5全國旅游城市地理圖

從圖5-5中可以看出來,人們喜歡去旅游的地方都是一線城市和沿海城

市。地理環(huán)境的不同,造就了不同的自然環(huán)境和人文景觀。選擇去沿海城市旅

行可以看到大海,大海的景色是那么迷人,海浪,沙灘,巖石,椰樹,日出日

落,還有很多水上項(xiàng)目潛水、水上摩托、水上滑翔等,而且海邊沙灘也很空

曠,不像一些登山類景區(qū),很擁擠,也利于度假的人們很夠把前一段時(shí)間的工

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

作生活壓力徹底釋放??亢_叺某鞘?,因?yàn)殡x市中心離的有些遠(yuǎn),不會有很多

車來車往,沒什么噪音??纯凑克{(lán)色的大海,再望望無邊無跡的藍(lán)天白云,會

覺得自己仿佛來到仙境一般。所有的不愉快,所有的的負(fù)面心情都會隨著大海

潮起潮落,被帶向遠(yuǎn)方。所以大海很寬廣,喜歡大海,喜歡他的瀚海無邊。在

海邊,你可以盡情游玩,盡情的享受陽光和海灘,可以靜靜第聆聽來自海洋的

聲音。去沿海城市旅行,可以吃到非常多美味的海鮮。除了自然景觀景點(diǎn)和人

文文化,美食當(dāng)然也必不可少。所以去沿海城市旅行,品嘗海鮮和看海是一定

的。所以人們喜歡去沿海城市是有原因的。

5.2.3全國旅游城市前十餅圖

代碼如圖5-6所示。

圖5-6前十旅游城市餅圖數(shù)據(jù)代碼

可視化展示如圖5-7所示。

圖5-7全國旅游城市餅圖

15

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

從圖5-7可以看出香港占比最多,其次是澳門,臺北,臺灣。香港是一個(gè)

國際大都會,所以在香港你可以吃到很多其他國家的美食,你可以吃到德國的

美食,日本料理,韓國料理等等很多其他地方的美食都做得非常的好。澳門的

話就有比較多的一些典型的建筑,比如說大三巴,還有威尼斯人那些景點(diǎn)都是

比較吸引游客的,而且很多人在電視上也看到過這些景點(diǎn),向往這些景點(diǎn)。

根據(jù)這些可以發(fā)現(xiàn),人們出去旅游都喜歡選擇沿海城市和一線城市。因?yàn)?/p>

沿海城市相對來說經(jīng)濟(jì)比較發(fā)達(dá),交通比較便利,旅游業(yè)也發(fā)達(dá),住宿也很發(fā)

達(dá),氣溫也比較舒適。當(dāng)?shù)馗魇礁鳂拥暮ur,美食很多。當(dāng)心情不好的時(shí)候,

還可以去看看海,我們可以穿著比基尼走在海邊,迎面吹著輕輕的海風(fēng),心情

都會變得愉快起來,沿海城市的本地人們很好客,很熱情,在那里我們可以體

驗(yàn)不一樣的民風(fēng)。

5.3數(shù)據(jù)分析小結(jié)

綜上,去過人數(shù)最多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論