版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
目錄
1引言............................................................................................................................1
1.1項(xiàng)目背景......................................................................................................1
1.2開發(fā)環(huán)境與工具..........................................................................................2
1.2.1Python簡介..........................................................................................2
1.2.2Python第三方庫簡介..........................................................................3
2需求分析....................................................................................................................3
2.1可行性需求分析..........................................................................................3
2.2采集目標(biāo)功能分析......................................................................................4
2.3關(guān)鍵技術(shù)分析..............................................................................................4
2.3.1網(wǎng)絡(luò)爬蟲技術(shù).......................................................................................4
2.3.2文件存取技術(shù).......................................................................................5
2.3.3可視化技術(shù)...........................................................................................5
3數(shù)據(jù)采集....................................................................................................................6
3.1采集頁面分析..............................................................................................6
3.2字段分析......................................................................................................6
3.3編程實(shí)現(xiàn)......................................................................................................7
4數(shù)據(jù)清洗與處理........................................................................................................8
4.1數(shù)據(jù)清洗......................................................................................................9
4.2數(shù)據(jù)儲存......................................................................................................9
4.3編程實(shí)現(xiàn)....................................................................................................10
5數(shù)據(jù)統(tǒng)計(jì)與分析......................................................................................................12
5.1數(shù)據(jù)準(zhǔn)備....................................................................................................12
5.2數(shù)據(jù)展示....................................................................................................12
5.2.1全國前十旅游城市條形圖.................................................................12
5.2.2全國前十旅游城市地理圖.................................................................14
5.2.3全國旅游城市前十餅圖.....................................................................15
5.3數(shù)據(jù)分析小結(jié)............................................................................................16
I
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
6小結(jié)..........................................................................................................................17
7參考資料..................................................................................................................18
II
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
窮游旅游網(wǎng)站景點(diǎn)數(shù)據(jù)采集與分析
1引言
縱觀歷史,旅游是人們增長知識,豐富閱歷,強(qiáng)身健體的好方法。中國古
代先哲提出“望聞問切”的思想,提倡“讀萬卷書,行萬里路”,游歷名山大
川,探尋名勝古跡,吸納天地之靈氣,吸納山水之精華。20世紀(jì)以來,現(xiàn)代旅
游業(yè)在世界各地迅速發(fā)展,游客數(shù)量不斷增加,旅游業(yè)規(guī)模穩(wěn)步擴(kuò)大,旅游業(yè)
的經(jīng)濟(jì)作用也明顯增強(qiáng)。人們也將旅游視為放松壓力,洗滌心靈的一種方式。
因?yàn)槿藗兂3L幱诟邏涵h(huán)境下,就會選擇旅游來放松。而怎么旅好游呢?就成
了一個(gè)難題。旅游前肯定要做好攻略,而選擇去哪旅游,去了之后的住宿,當(dāng)
地有什么美食,乘坐什么交通工具?這些數(shù)據(jù)分析就可以幫助我們很好的實(shí)
現(xiàn)。那怎樣去做數(shù)據(jù)分析呢?在大數(shù)據(jù)時(shí)代,人們想要做好旅游攻略,首先要
考慮到的是數(shù)據(jù)來源的問題。如今,互聯(lián)網(wǎng)已經(jīng)成為人們生活中不可或缺的一
部分,而隨著網(wǎng)絡(luò)的普及,各種類型的網(wǎng)站層出不窮,而這些網(wǎng)站也是我們獲
取信息的重要渠道。然而現(xiàn)在網(wǎng)站有很多,很多人都不知道該如何去選擇。其
實(shí)也很簡單,我們只要用搜索引擎來進(jìn)行搜索就可以了。搜索出來的結(jié)果肯定
會有自己想要的答案。比如你在某寶上買東西,然后搜索“北京”、“故宮”
等關(guān)鍵詞,就會出來很多關(guān)于北京、故宮、兵馬俑等方面的信息。在進(jìn)行數(shù)據(jù)
分析之前我們可以先進(jìn)行關(guān)鍵詞搜索。
1.1項(xiàng)目背景
窮游網(wǎng)由肖異在德國留學(xué)時(shí)期于2004年創(chuàng)立,現(xiàn)已經(jīng)發(fā)展成為中國領(lǐng)先
的出境旅服務(wù)平臺。在疫情期間,窮游平臺為旅行者提供了大量有價(jià)值的信息
和攻略,幫助他們了解目的地和旅行相關(guān)信息,可以讓旅行者更好地規(guī)劃自己
的旅游行程;另一方面,窮游平臺具有強(qiáng)大的社交屬性,可以通過與旅行者之
間的互動為旅行者提供社交分享、觀點(diǎn)交流等活動,增加旅行者對于目的地的
了解和喜愛程度。這一點(diǎn)不僅適用于國內(nèi)市場,也適用于境外旅游市場。在國
外市場上,窮游也有一批忠實(shí)粉絲。
2007年,窮游網(wǎng)正式成立,其網(wǎng)站以“讓旅游更窮更有趣”為宗旨,幫助
游客更加自由,方便地進(jìn)行出國旅游。窮游網(wǎng)提供餐飲,酒店,旅游線路,購
物等旅游服務(wù)信息,有效便利了游客的外出出行。近年來,窮游網(wǎng)也迅速發(fā)
展,擁有超過6000萬注冊用戶,其中許多用戶利用窮游網(wǎng)安排了跨國旅游計(jì)
1
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
劃。
窮游網(wǎng)的業(yè)務(wù)模式主要為“B2B2C”,既從B2B(商業(yè)到商業(yè))及B2C(商
業(yè)到消費(fèi)者)兩個(gè)方面拓展出來:首先,窮游網(wǎng)與國內(nèi)外旅游供應(yīng)商合作,以
消除商家與消費(fèi)者之間的中間環(huán)節(jié),同時(shí)給予消費(fèi)者更高品質(zhì)的服務(wù):其次,
窮游網(wǎng)在中國范圍內(nèi)開展了一系列的旅游營銷活動,借此促進(jìn)旅游業(yè)的發(fā)展,
也為消費(fèi)者提供更加具有價(jià)值的旅游服務(wù)。
我的畢業(yè)設(shè)計(jì)就是針對窮游網(wǎng)網(wǎng)站景點(diǎn)數(shù)據(jù)的爬取,然后對其進(jìn)行處理,
分析,然后可視化。繁雜冗余的數(shù)據(jù)經(jīng)過處理分析,變得一目了然。所以我的
畢業(yè)設(shè)計(jì)部分包含數(shù)據(jù)爬取、清洗清洗、儲存、可視化。
1.2開發(fā)環(huán)境與工具
1.2.1Python簡介
Python由荷蘭數(shù)學(xué)和計(jì)算機(jī)科學(xué)研究學(xué)會的吉多·范羅蘇姆于1990年代
初設(shè)計(jì),Python的誕生是極具戲曲性的,據(jù)Guido自述記載,Python語言
是在圣誕節(jié)期間為了打發(fā)無聊的時(shí)間而開發(fā)的,之所以會選擇Python作為該
編程語言的名字,是因?yàn)镚uido是MontyPython戲劇團(tuán)的忠實(shí)粉絲。
Python是一門面向?qū)ο蟮木幊陶Z言,它使得程序開發(fā)變得更加容易。它的
對象,繼承,多態(tài)等機(jī)制使代碼具有了可移植性,同時(shí)也使代碼變得更加容易
理解。Python是一種高級編程語言,被廣泛應(yīng)用與web開發(fā)和移動應(yīng)用程序開
發(fā)領(lǐng)域。Python語言具有簡單易用,面向?qū)ο?,面向過程等特點(diǎn),同時(shí),
Python還擁有豐富的庫和第三方工具,能夠幫助開發(fā)者快速構(gòu)建出各類復(fù)雜的
系統(tǒng)。
Python作為一門ABC語言的替代品。它提供了強(qiáng)大的高級數(shù)據(jù)結(jié)構(gòu)和簡
單,高效,基于寡頭的編程。Python是一款面向?qū)ο缶幊獭M瑫r(shí)也是一款易于
學(xué)習(xí)且功能強(qiáng)大的編程語言。Python簡潔的語法與動態(tài)輸入之特性,加之其解
釋性語言的本質(zhì),使得它成為一種在多種領(lǐng)域與絕大多數(shù)平臺都能進(jìn)行腳本編
寫與應(yīng)用快速開發(fā)工作的理想語言。
2
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
1.2.2Python第三方庫簡介
requests是Python中的一個(gè)HTTP請求庫,基于Python中的urllib模
塊實(shí)現(xiàn)。它比urllib庫更為容易使用。requests庫發(fā)送原生的HTTP1.1請
求,不需要手動為URL添加字典查詢,也不需要對POST數(shù)據(jù)進(jìn)行表單編碼。
HTTP庫使用Apache2許可的開源協(xié)議。它比urllib更加方便,可以為我們節(jié)
省大量的工作,完全滿足HTTP測需求。
pandas是一個(gè)基于Python的NumPy和Matplotlib的第三方數(shù)據(jù)分析庫,
也是Python的核心數(shù)據(jù)分析支持庫。它以快速,靈活和清晰的數(shù)據(jù)結(jié)構(gòu)提供
關(guān)系型,標(biāo)記化的數(shù)據(jù),旨在實(shí)現(xiàn)簡單和直觀的處理。pandas可以從各種文件
格式導(dǎo)入數(shù)據(jù),例如,以逗號來分隔的值,JSON,SQL,Microsoft,Excel。
pandas是Python的一個(gè)第三方庫,需要單獨(dú)安裝才能使用。pandas主要有兩
種數(shù)據(jù)結(jié)構(gòu),Series(一維數(shù)據(jù))與DataFrame(二維數(shù)據(jù))。
Pyecharts是一個(gè)用于在Echarts中生成圖表的類庫。Echaets是百度開
源的一個(gè)數(shù)據(jù)可視化庫,用Echarts生成的圖可視化效果非常棒。使用
Pyecharts庫可以在Python中是生成Echarts數(shù)據(jù)圖。Pyecharts是為了與
Python進(jìn)行對接,方便在Python中直接使用數(shù)據(jù)生成圖。使用Pyecharts可
以生成獨(dú)立的網(wǎng)頁,也可以在Flask,Django中集成使用。
2需求分析
2.1可行性需求分析
近年來,利用大數(shù)據(jù)進(jìn)行客流和消費(fèi)統(tǒng)計(jì)已經(jīng)成為一個(gè)重要趨勢,大數(shù)據(jù)
的應(yīng)用使旅游統(tǒng)計(jì)更加及時(shí)和準(zhǔn)確。大數(shù)據(jù)可以保證數(shù)據(jù)的客觀性、代表性、
數(shù)據(jù)覆蓋范圍大、人數(shù)統(tǒng)計(jì)相對準(zhǔn)確,此外,各國各地都在爭相使用大數(shù)據(jù)統(tǒng)
計(jì),用大數(shù)據(jù)替代傳統(tǒng)統(tǒng)計(jì)。但有些地方因?yàn)闆]有按照游客的技術(shù)定義排除大
數(shù)據(jù),導(dǎo)致數(shù)據(jù)失真。為了提高旅游統(tǒng)計(jì)的質(zhì)量,需要規(guī)范大數(shù)據(jù)統(tǒng)計(jì)的標(biāo)準(zhǔn)
應(yīng)用。
旅游業(yè)將更多的文化產(chǎn)品聯(lián)系起來,并以獨(dú)特的方式呈現(xiàn)出來。到一個(gè)陌
生的城市旅行,不參觀當(dāng)?shù)氐牟┪镳^,不了解當(dāng)?shù)氐臍v史和文化,似乎都白來
一趟,純純浪費(fèi)時(shí)間。曾經(jīng)少人問津的博物館,近年來勢頭正猛,以其厚重的
文化底蘊(yùn),吸引著越來越多的游客,僅2018年就有10.08億人次走進(jìn)博物
3
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
館。所以,我決定做一個(gè)基于Python爬取窮游網(wǎng)全國旅游城市的數(shù)據(jù)。
2.2采集目標(biāo)功能分析
本次項(xiàng)目的數(shù)據(jù)集的來源是窮游網(wǎng)網(wǎng)站數(shù)據(jù),主要針對窮游旅游網(wǎng)站,我
采集網(wǎng)頁中旅游城市的詳細(xì)詳細(xì),如城市名字,去過的人數(shù),熱門景點(diǎn),城
市詳情頁面,圖片url地址等內(nèi)容進(jìn)行一個(gè)數(shù)據(jù)采集與分析,讓用戶可以根據(jù)
這些主要字段信息,選擇自己心儀的旅游去處。通過Python編寫城市向?yàn)g覽
器發(fā)送請求,在與瀏覽器取得通信連接后,取得其頁面的基本數(shù)據(jù)后,通過解
析數(shù)據(jù)第三方庫對響應(yīng)頁面的基礎(chǔ)數(shù)據(jù)進(jìn)行數(shù)據(jù)提取,制定相應(yīng)的規(guī)則,進(jìn)行
批量化操作,得到最后數(shù)據(jù)存入CSV文件中進(jìn)行持久化存儲。
2.3關(guān)鍵技術(shù)分析
2.3.1網(wǎng)絡(luò)爬蟲技術(shù)
隨著大數(shù)據(jù)的快速增長,網(wǎng)絡(luò)爬蟲技術(shù)在互聯(lián)網(wǎng)上的地位變得越來越重
要。網(wǎng)絡(luò)上數(shù)據(jù)的復(fù)雜性和浩瀚性,都讓我們想到了網(wǎng)絡(luò)爬蟲,如何自動有效
地獲取互聯(lián)網(wǎng)中的數(shù)據(jù),并把它變成我們想要的數(shù)據(jù)。網(wǎng)絡(luò)爬蟲技術(shù)存在就是
為了解決這些難題。網(wǎng)絡(luò)爬蟲就像一個(gè)機(jī)器人。你設(shè)定規(guī)則并給它們下達(dá)指
令,它就會按照制定的規(guī)則自動瀏覽網(wǎng)頁并且收集各種你想要的信息。網(wǎng)絡(luò)爬
蟲將互聯(lián)網(wǎng)比喻成一張蜘蛛網(wǎng),通過模擬人的行為(網(wǎng)絡(luò)用戶),自動高效的
抓取網(wǎng)頁數(shù)據(jù)。網(wǎng)絡(luò)蜘蛛是通過一個(gè)網(wǎng)頁頁面的鏈接地址對該網(wǎng)頁進(jìn)行尋址操
作,并且爬取該網(wǎng)站上的所有頁面信息,從第一個(gè)頁面開始,閱讀該頁面的內(nèi)
容,找到該頁面的其他鏈接地址,從該鏈接地址找到下一個(gè)網(wǎng)頁,一直這樣反
復(fù)循環(huán),一直到把這個(gè)網(wǎng)頁所有的頁面都被爬取完為止。網(wǎng)絡(luò)爬蟲技術(shù)應(yīng)用很
廣泛,常見的用于搜索引擎領(lǐng)域。
網(wǎng)絡(luò)爬蟲技術(shù)有一個(gè)缺點(diǎn)就是需要大量的服務(wù)器資源,在使用的過程中要
對服務(wù)器資源進(jìn)行管理,以防止用戶訪問被限制,還有一個(gè)缺點(diǎn)就是網(wǎng)絡(luò)爬蟲
需要對網(wǎng)頁進(jìn)行解析,這個(gè)過程中會產(chǎn)生很多的垃圾數(shù)據(jù),導(dǎo)致網(wǎng)絡(luò)爬蟲工作
效率低下。同時(shí)也存在著許多的安全隱患。為了解決這些問題,可以通過使用
爬蟲軟件來實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲技術(shù)。
4
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
2.3.2文件存取技術(shù)
本文使用CSV技術(shù)和MySQL來存儲文件。CSV全稱為Comma-Separated
Vaules,也稱為逗號分離法,翻譯為逗號分離值或字符分離值,其文件以純文
本格式存儲表格數(shù)據(jù)。在某些情況下,它被用于文件間的文件傳輸,比如程序
之間的數(shù)據(jù)轉(zhuǎn)移。由于這個(gè)原因,CSV被廣泛使用。它是由微軟公司開發(fā)的一
種文件格式,與XLS文件類似。CSV是一種基于字符的文件格式,而不是基于
表格的格式。微軟在20世紀(jì)90年代末開始向一些大型公司提供在線服務(wù),因
此開發(fā)了許多用于與其他軟件互操作的應(yīng)用程序,而CSV就是其中之一。該公
司為用戶提供了一種簡單易用的方法來存儲和使用CSV文件,其中包括
MicrosoftWord、Excel和PowerPoint等應(yīng)用程序。使用CSV文件的主要優(yōu)
點(diǎn)是它具有其他格式所不具備的一些特性。
MySQL是一個(gè)關(guān)系型數(shù)據(jù)庫,它將數(shù)據(jù)保存在不同的表中,而不是將所有
數(shù)據(jù)保存在一個(gè)大型倉庫里。MySQL使用SQL語言,SQL語言是一種數(shù)據(jù)庫查
詢語言和程序設(shè)計(jì)語言,它是一中非關(guān)系型數(shù)據(jù)庫語言,主要用于存取數(shù)據(jù),
查詢數(shù)據(jù)和更新數(shù)據(jù)。
2.3.3可視化技術(shù)
數(shù)據(jù)可視化簡單來說就是將數(shù)據(jù)以圖形的方式呈現(xiàn)出來,讓人們更直觀地
看到數(shù)據(jù)信息。復(fù)雜的數(shù)據(jù)以圖形的方式展現(xiàn)出來就變的不復(fù)雜了。數(shù)據(jù)可視
化就是將人類感知到的信息如視覺、聽覺、觸覺、嗅覺等,通過可視化手段進(jìn)
行處理,從而讓用戶以更容易理解和接受的方式來理解和處理這些信息。數(shù)據(jù)
可視化可以通過圖表、圖表組合等方式將數(shù)據(jù)直觀地呈現(xiàn)出來,方便用戶理
解、掌握、使用數(shù)據(jù),也可以通過各種可視化工具將數(shù)據(jù)進(jìn)行更高效的處理。
數(shù)據(jù)可視化是一個(gè)典型的人機(jī)交互技術(shù)。人機(jī)交互是指人與計(jì)算機(jī)之間的信息
交換過程。在計(jì)算機(jī)的輔助下,人類能夠更高效地獲取計(jì)算機(jī)中存儲的信息和
知識,并能通過人的思考來判斷信息或知識的價(jià)值。
本次項(xiàng)目中僅僅只是將得到的數(shù)據(jù)用很簡單的可視化手段實(shí)現(xiàn)數(shù)據(jù)可視化,
具體的就是用Python第三方庫Matplotlib去進(jìn)行可視化,Matplotlib中包含
了許多庫,分別對應(yīng)餅圖、條形圖、直方圖、折線圖等圖形,可以很好的將數(shù)據(jù)
高效率的表現(xiàn)出來,可視化圖形呈現(xiàn)出來后對于結(jié)果自然一目了然,然后得出結(jié)
論。
5
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
3數(shù)據(jù)采集
3.1采集頁面分析
我們首先通過谷歌瀏覽器搜索窮游網(wǎng)官方網(wǎng)頁,然后找到如圖3-1所示。
圖3-1數(shù)據(jù)采集頁面
我們需要采集的有城市名字,去過的人數(shù),熱門景點(diǎn),圖片url,城市詳情
頁面url。該頁面地址為/china/citylist-0-0-
1/。通過點(diǎn)擊第二頁,第三頁發(fā)現(xiàn)頁面分別變成了
/china/citylist-0-0-2/和
/china/citylist-0-0-3/,目標(biāo)地址只有后半段有變
化,并且和頁面是對應(yīng)的,是有規(guī)律的。因此通過for循環(huán),循環(huán)訪問該地
址。
3.2字段分析
本文爬取的字段有城市,去過的人數(shù),熱門景點(diǎn),城市詳情頁面,城市圖
片。先爬取第一個(gè)頁面/china/citylist-0-0-1/的字
段數(shù)據(jù),并找到第二個(gè)頁面的鏈接地址進(jìn)行爬取,一直這樣反復(fù)循環(huán)爬取頁面
數(shù)據(jù)。
6
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
3.3編程實(shí)現(xiàn)
導(dǎo)入所需庫,如圖3-2所示。
圖3-2導(dǎo)入所需庫頁面
設(shè)置請求頭,偽裝成瀏覽器用戶,如圖3-3所示。
圖3-3請求頭內(nèi)容頁面
代碼實(shí)現(xiàn)如下,如圖3-4所示。
圖3-4具體代碼內(nèi)容
7
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
運(yùn)行結(jié)果展示,如圖3-5所示。
圖3-5運(yùn)行結(jié)果展示
4數(shù)據(jù)清洗與處理
數(shù)據(jù)清洗的目的是為了提高數(shù)據(jù)的準(zhǔn)確性個(gè)完整性,以及在分析時(shí)的可讀
性。數(shù)據(jù)清洗是在數(shù)據(jù)處理中非常重要的一步,在許多行業(yè)中都得到了廣泛應(yīng)
用,如市場營銷、醫(yī)學(xué)研究、金融等。通過對數(shù)據(jù)進(jìn)行清理,可以提高數(shù)據(jù)的
準(zhǔn)確性和可靠性,并消除數(shù)據(jù)中的錯(cuò)誤。為了提高數(shù)據(jù)質(zhì)量,需要對收集到的
數(shù)據(jù)進(jìn)行檢查和修正,如刪除重復(fù)數(shù)據(jù)、補(bǔ)充缺失值、糾正錯(cuò)誤類型和格式
等。對于不同類型的數(shù)據(jù),需要采用不同的方式來處理。如對于財(cái)務(wù)記錄,應(yīng)
該檢查是否有未及時(shí)更新的日期和金額;對于非財(cái)務(wù)記錄,則應(yīng)該檢查是否有
缺失值、重復(fù)日期等。在大多數(shù)情況下,清理工作只是為了避免數(shù)據(jù)之間的不
一致或沖突而采取的措施。
數(shù)據(jù)清洗可以有多種表述方式,其定義依賴于具體的應(yīng)用。因此,數(shù)據(jù)清
洗的定義在不同的應(yīng)用領(lǐng)域不完全相同。例如,在數(shù)據(jù)倉庫環(huán)境下,數(shù)據(jù)清洗
是抽取轉(zhuǎn)換裝卸載過程的一個(gè)重要部分,要考慮數(shù)據(jù)倉庫的集成性與面向主題
的需要。不過,現(xiàn)在業(yè)界一般認(rèn)為,數(shù)據(jù)清洗的含義是檢測和去除數(shù)據(jù)集中的
噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù),以及去除空白數(shù)據(jù)。
本次項(xiàng)目中我們需要將爬下來的數(shù)據(jù)和網(wǎng)頁原數(shù)據(jù)進(jìn)行比對,并且檢查是
否出現(xiàn)空值、錯(cuò)值,還有數(shù)據(jù)的位置是否正確。根據(jù)不同的需求我們要對數(shù)據(jù)
進(jìn)行不同的處理。
8
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
4.1數(shù)據(jù)清洗
經(jīng)過比對和檢查,發(fā)現(xiàn)數(shù)據(jù)不存在缺失,錯(cuò)位還有空值,那么我們根據(jù)需求
將有效數(shù)據(jù)統(tǒng)一規(guī)劃去掉不要的行列數(shù)據(jù),防止數(shù)據(jù)冗余。因此我們只需保留
需要的數(shù)據(jù),然后整理為原網(wǎng)頁格式存入CSV文件中,留存后續(xù)作為統(tǒng)計(jì)分析、
可視化使用。
圖4-1數(shù)據(jù)清洗完成界面
4.2數(shù)據(jù)儲存
數(shù)據(jù)存儲是數(shù)據(jù)處理的一個(gè)環(huán)節(jié),是指通過一定的計(jì)算機(jī)技術(shù)將數(shù)據(jù)存儲
在特定的介質(zhì)中。數(shù)據(jù)存儲即可以保證數(shù)據(jù)的完整性,又可為隨時(shí)使用和加工
處理作準(zhǔn)備。數(shù)據(jù)存儲的目的是以這樣一種方式存儲數(shù)據(jù),以便在計(jì)算機(jī)上運(yùn)
行程序或進(jìn)行數(shù)據(jù)處理時(shí)可以方便地訪問。
數(shù)據(jù)儲存得方法有很多種,常見得可以直接用記事本格式儲存.txt文件,或
者直接用其他文件的形式儲存CSV、excel、json等,但是以上方法保存的數(shù)據(jù)
體量普遍都比較小。如果需要儲存較大的數(shù)據(jù)信息就需要用到我們的數(shù)據(jù)庫,
數(shù)據(jù)庫也分為關(guān)系型和非關(guān)系型數(shù)據(jù)庫。關(guān)系型數(shù)據(jù)庫比較典型的有MySQL和
Oracle等,非關(guān)系型數(shù)據(jù)庫等以鍵值對形式儲存數(shù)據(jù)的代表有Mongodb、Redis
等。本次項(xiàng)目我們用到的是CSV、MySQL。
如圖4-2和4-3所示。
9
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖4-2數(shù)據(jù)存儲為CSV頁面
圖4-3數(shù)據(jù)存儲MySQL頁面
4.3編程實(shí)現(xiàn)
創(chuàng)建數(shù)據(jù)庫test_qy,如圖4-4所示。
圖4-4創(chuàng)建數(shù)據(jù)庫頁面
創(chuàng)建數(shù)據(jù)表mytable,如圖4-5所示。
圖4-5創(chuàng)建數(shù)據(jù)表頁面
10
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
將本地?cái)?shù)據(jù)上傳到虛擬機(jī)/root目錄下,如圖4-6所示。
圖4-6上傳虛擬機(jī)頁面
導(dǎo)入數(shù)據(jù)到數(shù)據(jù)庫,如圖4-7所示。
圖4-7導(dǎo)入數(shù)據(jù)頁面
查看數(shù)據(jù)是否導(dǎo)入成功,如圖4-8所示。
圖4-8數(shù)據(jù)導(dǎo)入成功頁面
11
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5數(shù)據(jù)統(tǒng)計(jì)與分析
5.1數(shù)據(jù)準(zhǔn)備
本文爬取的是窮游網(wǎng)全國旅游城市數(shù)據(jù),源數(shù)據(jù)如下,如圖5-1所示。
圖5-1源數(shù)據(jù)頁面
5.2數(shù)據(jù)展示
5.2.1全國前十旅游城市條形圖
代碼如圖5-2所示。
圖5-2前十旅游城市條形圖代碼
12
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
可視化展示如圖5-3所示。
圖5-3全國旅游城市柱狀圖
從圖5-3可以看出,香港去的人數(shù)最多,其次是澳門。我認(rèn)為香港之所以
會成為第一的原因是,香港是全世界的“購物天堂”,許多商品免關(guān)稅進(jìn)入香
港市場。其商品不僅僅貨真價(jià)實(shí),而且物美價(jià)廉。全世界各種美食及商品在這
里聚集,琳瑯滿目,應(yīng)有盡有;從電子產(chǎn)品,首飾,到服裝,鞋帽等等,只有
你想不到,幾乎沒有你找不到的好東西。
香港和澳門的歷史淵源我們都知道,這兩個(gè)城市都是后來才回歸的,之前
一直由外國人治理。因此,香港和澳門在早些年發(fā)展也很快,加上體制制度的
原因,吸引了很多人到這兩個(gè)城市。所以,香港和澳門這兩個(gè)城市的多樣性、
包容性更大,你可以在這兩個(gè)城市看到很多國家的身影,不同的建筑風(fēng)格,不
同的語言,不同的飲食習(xí)慣等等,加上早些年大陸人去香港澳門限制要求很
多,是在回歸之后條件才放松,因此這也給大陸人去香港澳門旅游創(chuàng)造了條
件。每一個(gè)到香港的游客,不可錯(cuò)失的目的地肯定少不了維多利亞港,作為享
有“世界三大夜景之一”的美譽(yù),這里成就了香港“東方之珠”的贊譽(yù),不僅
匯聚了香港最美的景觀:星光大道,天星小輪等等特色為世人周知。在香港可
以找到各式各樣的中外美食,港式美味,港式海鮮等等。
13
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.2全國前十旅游城市地理圖
代碼如圖5-4所示。
圖5-4前十旅游城市地理圖數(shù)據(jù)代碼
可視化展示如圖5-5所示。
圖5-5全國旅游城市地理圖
從圖5-5中可以看出來,人們喜歡去旅游的地方都是一線城市和沿海城
市。地理環(huán)境的不同,造就了不同的自然環(huán)境和人文景觀。選擇去沿海城市旅
行可以看到大海,大海的景色是那么迷人,海浪,沙灘,巖石,椰樹,日出日
落,還有很多水上項(xiàng)目潛水、水上摩托、水上滑翔等,而且海邊沙灘也很空
曠,不像一些登山類景區(qū),很擁擠,也利于度假的人們很夠把前一段時(shí)間的工
14
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
作生活壓力徹底釋放??亢_叺某鞘?,因?yàn)殡x市中心離的有些遠(yuǎn),不會有很多
車來車往,沒什么噪音??纯凑克{(lán)色的大海,再望望無邊無跡的藍(lán)天白云,會
覺得自己仿佛來到仙境一般。所有的不愉快,所有的的負(fù)面心情都會隨著大海
潮起潮落,被帶向遠(yuǎn)方。所以大海很寬廣,喜歡大海,喜歡他的瀚海無邊。在
海邊,你可以盡情游玩,盡情的享受陽光和海灘,可以靜靜第聆聽來自海洋的
聲音。去沿海城市旅行,可以吃到非常多美味的海鮮。除了自然景觀景點(diǎn)和人
文文化,美食當(dāng)然也必不可少。所以去沿海城市旅行,品嘗海鮮和看海是一定
的。所以人們喜歡去沿海城市是有原因的。
5.2.3全國旅游城市前十餅圖
代碼如圖5-6所示。
圖5-6前十旅游城市餅圖數(shù)據(jù)代碼
可視化展示如圖5-7所示。
圖5-7全國旅游城市餅圖
15
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
從圖5-7可以看出香港占比最多,其次是澳門,臺北,臺灣。香港是一個(gè)
國際大都會,所以在香港你可以吃到很多其他國家的美食,你可以吃到德國的
美食,日本料理,韓國料理等等很多其他地方的美食都做得非常的好。澳門的
話就有比較多的一些典型的建筑,比如說大三巴,還有威尼斯人那些景點(diǎn)都是
比較吸引游客的,而且很多人在電視上也看到過這些景點(diǎn),向往這些景點(diǎn)。
根據(jù)這些可以發(fā)現(xiàn),人們出去旅游都喜歡選擇沿海城市和一線城市。因?yàn)?/p>
沿海城市相對來說經(jīng)濟(jì)比較發(fā)達(dá),交通比較便利,旅游業(yè)也發(fā)達(dá),住宿也很發(fā)
達(dá),氣溫也比較舒適。當(dāng)?shù)馗魇礁鳂拥暮ur,美食很多。當(dāng)心情不好的時(shí)候,
還可以去看看海,我們可以穿著比基尼走在海邊,迎面吹著輕輕的海風(fēng),心情
都會變得愉快起來,沿海城市的本地人們很好客,很熱情,在那里我們可以體
驗(yàn)不一樣的民風(fēng)。
5.3數(shù)據(jù)分析小結(jié)
綜上,去過人數(shù)最多
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024影視劇《逆時(shí)光》化妝團(tuán)隊(duì)外包協(xié)議
- 3 《鴻門宴》(說課稿)-2024-2025學(xué)年高一語文下學(xué)期同步教學(xué)說課稿專輯(統(tǒng)編版必修下冊)
- 七夕節(jié)的歷史脈絡(luò)
- 科學(xué)探索之門
- 綠色農(nóng)業(yè):致未來
- 塔式起重機(jī)造價(jià)協(xié)議書(2篇)
- 多人租車協(xié)議書(2篇)
- 專業(yè)化櫥柜工程服務(wù)安裝協(xié)議2024參考資料版B版
- 2025版蟲草養(yǎng)生產(chǎn)品研發(fā)與銷售合作協(xié)議范本3篇
- 2024年設(shè)備購買協(xié)議模板大全實(shí)操版版B版
- 義務(wù)教育教科書英語Go for it七年級上冊單詞表
- 第一章 電力系統(tǒng)潮流計(jì)算1
- ICU常用鎮(zhèn)靜藥物介紹及藥學(xué)監(jiān)護(hù)
- 粉末丁腈橡膠使用方法
- 大氣課程設(shè)計(jì)-—袋式除塵器
- 社區(qū)醫(yī)院市場推廣傳播建議
- 蘇科版七年級生物學(xué)(上)教學(xué)工作總結(jié)
- 阿特拉斯擰緊機(jī)技術(shù)方案
- 中國人民財(cái)產(chǎn)保險(xiǎn)股份有限公司理賠稽查管理暫行辦法
- 鋼管、管件表面積計(jì)算公式(精編版)
- 新能源汽車充電設(shè)備安全培訓(xùn)
評論
0/150
提交評論