基于Python的去哪兒網(wǎng)酒店數(shù)據(jù)采集與分析_第1頁
基于Python的去哪兒網(wǎng)酒店數(shù)據(jù)采集與分析_第2頁
基于Python的去哪兒網(wǎng)酒店數(shù)據(jù)采集與分析_第3頁
基于Python的去哪兒網(wǎng)酒店數(shù)據(jù)采集與分析_第4頁
基于Python的去哪兒網(wǎng)酒店數(shù)據(jù)采集與分析_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

目錄

1引言...............................................................1

1.1項目背景......................................................1

1.2技術(shù)工具......................................................2

1.2.1Python簡介..............................................2

1.2.2Jupyternotebook簡介....................................2

1.2.3Python第三方庫簡介......................................3

2需求分析...........................................................4

2.1可行性需求分析................................................4

2.2采集目標功能分析..............................................4

2.3關(guān)鍵技術(shù)分析..................................................5

2.3.1網(wǎng)絡爬蟲技術(shù)............................................5

2.3.2文件存取技術(shù)............................................6

2.3.3可視化技術(shù)..............................................6

3數(shù)據(jù)采集...........................................................7

3.1采集頁面分析..................................................7

3.2字段分析.....................................................10

3.3編程實現(xiàn).....................................................11

4數(shù)據(jù)清洗與處理....................................................13

4.1數(shù)據(jù)清洗.....................................................14

4.2數(shù)據(jù)儲存.....................................................15

5數(shù)據(jù)統(tǒng)計與分析....................................................16

5.1數(shù)據(jù)準備.....................................................16

5.2數(shù)據(jù)展示.....................................................18

5.2.1憑據(jù)運營城市進行統(tǒng)計...................................18

5.2.2憑據(jù)酒店必住榜類型運營與已滿員酒店數(shù)量進行統(tǒng)計.........19

5.2.3憑據(jù)酒店的價格與評論量進行統(tǒng)計和分析...................20

5.2.4憑據(jù)酒店推薦理由進行統(tǒng)計...............................22

I

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

5.3綜述.........................................................23

6小結(jié)..............................................................23

參考資料............................................................25

II

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

基于Python的去哪兒網(wǎng)酒店數(shù)據(jù)采集與分析

1引言

年光易逝,歲月盈虛,經(jīng)過我國人民不懈的努力與奮斗,讓國家早就從一個

落后發(fā)展的進程步入到了如今領(lǐng)先發(fā)展的進程。關(guān)于這個變化的進程,青年理

應要牢牢地緊握這個時刻和機緣??萍几锩母叨冗M步與發(fā)展開啟了專屬新時

代大數(shù)據(jù)的世界,現(xiàn)代各種各樣信息的問世與繁雜交互讓各種形式技術(shù)相關(guān)的

應用隨著大眾的需求不斷問世與創(chuàng)新融合,像極了地球上的生物為了適應環(huán)境

而不斷進化。當今的大數(shù)據(jù)互聯(lián)網(wǎng)時代為國民在物質(zhì)、經(jīng)濟等之類的方面都提

供了依靠科技智能生活的基礎,除此之外大眾每天的線上線下購物、點外賣、

出行住宿酒店等使用過程中所形成的數(shù)據(jù)也會給從事計算機互聯(lián)網(wǎng)就業(yè)者和軟

件APP開發(fā)者等供應各種各樣豐富且龐大的數(shù)據(jù)量,使其可以在足夠多的數(shù)據(jù)

基礎上去操作研究和程序開發(fā)利用,以及在市場上運用投放與實際應用。

現(xiàn)在由于疫情的解封,使得現(xiàn)代的人們非常熱衷于出行旅游等活動,以至

于人們對于衣、食、住、行等各方面的需求量越來越大,也導致其出現(xiàn)的龐大

數(shù)據(jù)當中蘊含的巨大且有價值的信息也愈演愈多,并且隨著時間的流逝而逐步

上升。正好這幾年又是大數(shù)據(jù)技術(shù)出現(xiàn)的熱潮,剛好讓這一代人也一只腳邁上

了響應信息革命的“高鐵”上,隨著“高鐵”的行駛到了一個大數(shù)據(jù)技術(shù)信息管

理的新時代。由于現(xiàn)在社會上互聯(lián)網(wǎng)計算機技術(shù)等從事的工作崗位待遇好,所以

引薦了人們對選擇這些專業(yè)的熱潮和流向。其實從事大數(shù)據(jù)的工作者都明白,在

龐大的數(shù)據(jù)里面潛藏著許多價值不菲的珍寶,正安靜的呆在那里靜候著細心人

去開采?;ヂ?lián)網(wǎng)相關(guān)信息表明大數(shù)據(jù)技術(shù)現(xiàn)在已經(jīng)成為一個相對而言比較熱門

的專業(yè),相信以后會有更多人選擇這個專業(yè)。

1.1項目背景

酒店的運營與發(fā)展的高低,不能單單只看它呈現(xiàn)出來的信息,還應該從各

個渠道獲得更多的數(shù)據(jù)信息,從而對它進行綜合調(diào)查與分析,最終得到一個信

息結(jié)論。

關(guān)于不同城市經(jīng)營的酒店,它發(fā)展的好壞主要取決于以下幾點:第一:當?shù)?/p>

城市的整體實際經(jīng)濟發(fā)展能力和人均消費能力。第二:內(nèi)部條件:酒店在服務、

住宿環(huán)境等各方面的完善。第三:人們在出行住宿時更熱衷偏向于哪種酒店類

型的選定等。由此得出,本次項目需要獲得不同城市運營的酒店類型榜單、酒

1

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

店數(shù)量還有評價等具體數(shù)據(jù)。通過登錄去哪兒網(wǎng)酒店查詢相干城市運營的酒店

必住榜單數(shù)據(jù)信息。

1.2技術(shù)工具

1.2.1Python簡介

20世紀80年代末,吉多用c語言創(chuàng)造了世界上第一個面對對象的Python

編譯器。

Python剛產(chǎn)生的時候?qū)θ藗兊纳畈]有造成波動性的影響變化,所以一

開始就有些默默無聞。直到Python在處理代碼運行時更加注重且顯現(xiàn)其嚴謹靈

活的編程邏輯性,并對Python內(nèi)部結(jié)構(gòu)進行修改及優(yōu)化。正是這一優(yōu)化吸引了

人們的目光與注意,Python才開始活躍起來。

由于處于大數(shù)據(jù)計算機互聯(lián)網(wǎng)的時代。從它的背后可以很清晰的看到屬于

Python基礎的痕跡與發(fā)展?,F(xiàn)在大數(shù)據(jù)等各行業(yè)的發(fā)展,都非常熱衷于使用

Python語言數(shù)據(jù)結(jié)構(gòu)等方面的技術(shù),又由于Python具有簡單易學、高級語言、

可移植性、面向?qū)ο?、開源、可擴展性、豐富的庫等特點,所以對于從未接觸

過Python的人來說,其學習難度也不是很大,非常容易理解與掌握。由此Python

得到了更活躍的發(fā)展。

1.2.2Jupyternotebook簡介

Jupyternotebook從根本上而講是一款Web應用程序,是大數(shù)據(jù)計算機各

工作者最喜歡用于編寫代碼、做筆記等方便使用的軟件。其能讓使用者將說明

文本、編程代碼、數(shù)學公式、可視化內(nèi)容全部組合到一個便于共享的文檔中。

將一切集中到一處,可以使用戶一目了然。在該文檔中用戶可以單獨執(zhí)行,這

樣極大的提高了用戶在執(zhí)行代碼時的準確性,同時也節(jié)省了時間,提高了效率。

因此Jupyternotebook的數(shù)據(jù)分析要比pycharm更和善、效果更直觀。

Jupyternotebook是以瀏覽器為基礎從而進行編寫、運行代碼等操作。它

的靈活性也特別的強,特別適合應用于數(shù)據(jù)處理與分析,其用途主要包括數(shù)據(jù)

清理、大數(shù)據(jù)分析和可視化。

安裝Jupyternotebook最簡單的方法就是直接安裝Anaconda,因為

Anaconda它擁有本身就帶有Jupyternotebook的優(yōu)點。這個方法也更多的用于

剛接觸應用程序的學習者而言。當然如果覺得安裝Anaconda會占有一定空間,

可以直接進入該官網(wǎng)進行下載。

2

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

1.2.3Python第三方庫簡介

Requests:是Python的一個很實用的HTTP客戶端庫,完全滿足如今網(wǎng)絡爬

蟲的需求。與Urllib對比,Requests不僅具備Urllib的全部功能;在開發(fā)使

用上,語法簡單易懂,完全符合Python優(yōu)雅、簡潔的特性;在兼容性上,完全

兼容Python2和Python3,具有較強的適用性。因為它屬于Python的第三方庫,

所以使用前可用pip進行安裝。

Bs4:是一個可以從HTML或XML文件中提取數(shù)據(jù)的Python庫。其功能簡單

而強大,容錯能力高,文檔相對完善,清晰易懂。

Selenium:可以直接打開瀏覽器進行網(wǎng)頁訪問,并對網(wǎng)頁進行點擊定位等

操作。

Time:是Python中最基礎處理時間的標準庫。sleep()函數(shù)可讓運行程

序暫停。

Lxml:是處理XML和HTML最便捷的解析器。它不僅功能種類豐富且使用時

便捷,還可以運用XPath等實現(xiàn)快速找到設定的元素。

NumPy:是Python語言的一個科學計算的第三方模塊,NumPy模塊可以構(gòu)建

多維數(shù)據(jù)的容器,將各種類型的數(shù)據(jù)快速地整合在一起,完成多維數(shù)據(jù)的計算

及大型矩陣的存儲和處理。因此,Python中的很多模塊都是在NumPy模塊的基

礎上編寫的。

Pandas:是基于NumPy開發(fā)的,它不僅能直觀地展現(xiàn)數(shù)據(jù)的結(jié)構(gòu),還具備

強大的數(shù)據(jù)處理和分析功能。所以,pandas模塊是Python成為強大而高效的數(shù)

據(jù)分析工具的重要因素之一。使用DataFrame函數(shù)將數(shù)據(jù)存為csv文件并可對

其進行處理與清洗等操作。

Tkinter:用于列表形式的轉(zhuǎn)換。

matplotlib:是Python中最常用、最著名的數(shù)據(jù)可視化模塊,該模塊的子

模塊pyplot包含大量用于繪制各類圖表的函數(shù)。繪圖類型包括條形圖、散點圖

等。

Wordcloud、Jieba:繪制詞云圖。

PIL:用于特定樣式的詞云圖。

3

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

2需求分析

2.1可行性需求分析

1、技術(shù)可行性

Python是當下時代使用最多的通用編程語言之一。項目的完成主要是通過

數(shù)據(jù)爬取、數(shù)據(jù)存儲和數(shù)據(jù)清洗預處理以及數(shù)據(jù)可視化等部分來實施的,對該

項目的實施是運用Python自身強大的各種功能來實現(xiàn)的。在本次項目實現(xiàn)各部

分前,需要在Python中安裝其相對應的庫。由于獲取的是不同城市地區(qū)的酒店

必住榜單類型運營的酒店數(shù)據(jù),在通過查看去哪兒網(wǎng)酒店信息頁面時,發(fā)現(xiàn)要

獲取的酒店數(shù)據(jù)需要對其進行依次點擊才可以爬取。所以在本次項目中首先需

要使用selenium對不同的城市以及各城市下的酒店必住榜單類型進行依次點

擊,再運用python第三方庫解析各城市下的酒店必住榜單類型的酒店數(shù)據(jù)網(wǎng)頁

并將其獲得到的數(shù)據(jù)存入csv文件中。之后再憑據(jù)存儲的數(shù)據(jù)進行后期的數(shù)據(jù)

清洗預處理和數(shù)據(jù)可視化兩部分的實施,又因為數(shù)據(jù)爬取、存儲等各部分間關(guān)

系都很密切且層層遞進,所以每個部分都要認真完成不能出現(xiàn)差錯。

2、項目可行性

之前由于疫情的嚴重性,使人們在自由和出行等方面都受到了一定程度上

的限制,讓往日里熱鬧的街道、旅游景點變得冷冷清清。幾年過去,由于疫情

已經(jīng)受到控制,國家宣布解封。所以外出游玩、聚餐聊天等等的人數(shù)也在大幅

度暴漲,街道等地也在回歸或更勝從前的熱鬧,各地的旅游業(yè)、餐飲、酒店等

各行業(yè)發(fā)展也猛烈活躍起來。因為處于大數(shù)據(jù)時代,所以隨著人們在互聯(lián)網(wǎng)上

的各種行為表現(xiàn)也相繼產(chǎn)生了很多數(shù)據(jù),通過對該數(shù)據(jù)進行處理可以獲得需要

的信息與結(jié)論。

本次項目是通過采集質(zhì)量比較可信的去哪兒網(wǎng)酒店數(shù)據(jù)來分析不同城市運

營上榜的酒店發(fā)展等相關(guān)情況信息。也將從各地城市地區(qū)的實際經(jīng)濟發(fā)展能力

與人均消費能力、各酒店必住榜單類型的受歡迎程度以及酒店上榜的推薦理由

詞頻等各方面來對其進入高難度的挖掘與研究分析,從中獲得有用的信息,并憑

據(jù)其相關(guān)信息進行數(shù)據(jù)可視化繪圖,最后分析得出結(jié)論為酒店運營發(fā)展提供參

考。

2.2采集目標功能分析

本次項目的數(shù)據(jù)集是從去哪兒網(wǎng)酒店信息中獲取的。它是經(jīng)過python爬取

4

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

去哪兒網(wǎng)酒店里面不同城市運營的酒店必住榜單類型數(shù)據(jù)的信息。獲得的數(shù)據(jù)

共有617條,清洗去重后共有564條唯一的數(shù)據(jù)。所有酒店數(shù)據(jù)都獲取完后要

確保數(shù)據(jù)的準確性和可行性,并且該數(shù)據(jù)是屬于去哪兒網(wǎng)酒店真實存在的不同

城市運營酒店的數(shù)據(jù)內(nèi)容。

經(jīng)過分析去哪兒網(wǎng)各個城市運營的酒店網(wǎng)頁內(nèi)容,可以明顯的知道爬取的

酒店參數(shù)有城市酒店榜單名稱、酒店名稱、評分、評價、評論量、推薦理由、

地址、價格等數(shù)據(jù)。在對最初的數(shù)據(jù)進行清洗預處理之后,將從各個方面去對

該數(shù)據(jù)進行分析及其數(shù)據(jù)可視化繪圖。就好比方,從不同城市地區(qū)運營的酒店數(shù)

量對其進入深度的分析,獲得哪個城市運營的酒店數(shù)量占據(jù)最多,又或者想要獲

得人們在出行住宿時更傾向于選擇哪種酒店類型的榜單。這樣就可以根據(jù)不同

酒店必住榜單類型及其它們的已滿客記錄去判別哪種酒店必住榜單類型的受歡

迎程度。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡爬蟲技術(shù)

在現(xiàn)在的大數(shù)據(jù)互聯(lián)網(wǎng)發(fā)達的時代當中,如果平時下載的數(shù)據(jù)體積比較龐

大時,倘若還是人為自行下載的話,不用懷疑這顯然是一個不太聰明人運用的

辦法。對此要學會借助網(wǎng)絡爬蟲技術(shù)的幫助,讓它自動性去爬取數(shù)據(jù)。

其中selenium庫具有直接進行網(wǎng)頁訪問,以及對網(wǎng)頁上的元素進行點擊定

位等操作的能力。在查看去哪兒網(wǎng)酒店時,發(fā)現(xiàn)要獲取的最終酒店信息是需要

首先依次點擊各個城市下的酒店必住榜單類型后,才可以對其各個酒店信息進

行獲取。所以是需要運用selenium庫來完成對不同城市下的酒店必住榜單類型

的點擊。

靜態(tài)網(wǎng)頁爬取有:一:requests庫。它的代碼執(zhí)行要比urllib3庫更簡捷

明了,所以是運用它來生成請求。二:BeautifulSoup庫。是應用于解析網(wǎng)頁,

它的代碼運用非常便利簡潔,且它具有find_all()和find()函數(shù)定位元素

內(nèi)容。在查看去哪兒網(wǎng)酒店時,發(fā)現(xiàn)要獲取的酒店信息元素之間是具有聯(lián)系與

規(guī)律的,且數(shù)據(jù)內(nèi)容很多,所以是運用BeautifulSoup庫來完成各網(wǎng)頁解析以

及指定酒店信息的獲取。三:lxml:是處理XML和HTML最便捷的解析器,在開

發(fā)者工具里右擊要獲取的酒店信息元素,通過復制Xpath就可以快速找到設定

的元素。在查看去哪兒網(wǎng)酒店時,發(fā)現(xiàn)要獲取酒店的評價要進入各個酒店的鏈

接當中才可以實現(xiàn),又由于只需要定位到酒店評價的元素。所以是運用lxml庫

5

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

來完成各網(wǎng)頁解析以及指定酒店評價的獲取。所以本次項目中就是運用網(wǎng)絡爬

蟲技術(shù)實現(xiàn)數(shù)據(jù)爬取。

2.3.2文件存取技術(shù)

本次項目中是運用Pandas庫將獲取的數(shù)據(jù)轉(zhuǎn)化為DataFrame類型,再使用

to_csv()方法存入到csv文件中,如圖2-1:

圖2-1運用Pandas庫存入csv文件

讀取文件是運用Pandas中的read_csv()方法從指定csv文件中讀取數(shù)據(jù),

并使用head()指定讀取前幾行數(shù)據(jù),如圖2-2:

圖2-2讀取csv文件前10行的數(shù)據(jù)

2.3.3可視化技術(shù)

matplotlib是用于python分析數(shù)據(jù)時的繪圖功能庫。特點有:第一:讓繪

圖過程變得更簡單和便捷,只運用少量代碼就能完成繪圖。第二:可運用多個

元素對圖形進行自定義設置。第三:可將圖形存儲jpg等格式。第四:可讓數(shù)

6

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

據(jù)之間更加的直觀、清晰,它是python中運用可視化途徑最多的之一。

條形圖能讓用戶在圖形上直觀的對x軸上的數(shù)據(jù)進行數(shù)量大小的比較。查

看csv文件時,由于想要獲取不同城市運營的酒店數(shù)量的統(tǒng)計,所以必須運用

去重的csv文件和matplotlib中的bar等函數(shù)繪制條形圖來展示數(shù)據(jù)。

條形-水平交錯圖與條形圖的差異在:它可用于同一數(shù)據(jù)在不同方面的數(shù)量

比較,用于比較多個數(shù)據(jù)的數(shù)量。在查看csv文件時,由于想要獲取各酒店必

住榜類型運營與已滿員酒店數(shù)量的統(tǒng)計,所以必須運用未去重的csv文件和bar

等函數(shù)繪制條形-水平交錯圖來展示數(shù)據(jù)。

散點圖主要是用于直觀式的反映x與y軸數(shù)據(jù)之間的一個關(guān)系趨勢。在查

看csv文件時,由于想要獲取各酒店價格與其評論量之間存在著的關(guān)系趨勢,

所以必須運用去重的csv文件和scatter等函數(shù)繪制散點圖來展示數(shù)據(jù)。

詞云圖是一種用于展示高頻關(guān)鍵詞的圖表,它通過文字、顏色、圖形的搭

配,產(chǎn)生極具沖擊力的視覺效果。所以查看csv文件可知,如果想要獲取客戶

對上榜各酒店推薦理由中出現(xiàn)頻率較高的關(guān)鍵詞,就必須運用去重的csv文件

和WordCloud等函數(shù)繪制詞云圖來展示數(shù)據(jù)。

本次項目中運用matplotlib完成條形圖、條形-水平交錯圖、散點圖的繪

制,另外詞云圖的繪制是運用wordcloud、jieba和PIL庫完成的,其中

wordcloud、jieba:繪制詞云圖及其中文分詞,PIL:指定詞云圖的形狀。

3數(shù)據(jù)采集

3.1采集頁面分析

本次項目在谷歌瀏覽器上搜索去哪兒的官方網(wǎng)頁,點擊酒店頁面觀察圖3-1,

可以知道URL為:/。然后依次點擊頁面下面的酒店

必住榜一列的各城市按鈕,查看URL是否發(fā)生變化,最后發(fā)現(xiàn)URL沒有任何變化。

7

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

圖3-1數(shù)據(jù)網(wǎng)址頁面

按F12,網(wǎng)頁右邊會出現(xiàn)開發(fā)者工具,如圖3-2。

圖3-2開發(fā)者工具

同時按住Ctrl+Shift+C后,再依次點擊網(wǎng)址頁面上酒店必住榜附近的城市,

這時右邊會自動匹配定位到相應的元素中,觀察該頁面不同城市出現(xiàn)的規(guī)律,

右擊元素會出現(xiàn)多個選項,選擇復制,再選擇復制XPath:

//*[@id="root"]/div/section/section[2]/div[1]/ul/li[1]/a。如圖3-3。

8

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

在該頁面ctrl加f會出現(xiàn)搜索框,將復制的XPath放在搜索框當中。發(fā)現(xiàn)它

們只是li[]括號里數(shù)字不同,將括號[]刪除,可以發(fā)現(xiàn)有11條數(shù)據(jù)。如圖

3-4。

圖3-3復制XPath

圖3-4點擊不同城市XPath的規(guī)律

9

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

同理,在分別點擊不同城市下面的五個不同酒店榜單時,也是通過上述的

方法來尋找XPath的規(guī)律,如圖3-5。

圖3-5不同城市酒店榜單的XPath

3.2字段分析

本次項目來到各城市酒店榜單類型的網(wǎng)頁面時,同時按住Ctrl+Shift+C后,

再依次點擊每家酒店信息的區(qū)域,換言之就是找到本項目中所要獲得數(shù)據(jù)所在

的框架位置??梢园l(fā)現(xiàn)所有酒店名稱下的相關(guān)信息數(shù)據(jù)都是包括在div標簽中

class屬性為cont_box的框架下,如圖3-6。需要先爬取這個大框架并把它賦

值給一個變量,然后再根據(jù)for循環(huán)依次提取大框架變量中所有關(guān)于酒店信息

的名稱、地址、價格等數(shù)據(jù),并分別把它們放在各自的空列表中。之后再將列

表里的數(shù)據(jù)存成元組形式轉(zhuǎn)換為數(shù)據(jù)框(DataFrame類型),再使用pandas庫

將爬取下來的酒店所有信息按照順序存入到具有csv形式的文件中。

10

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

圖3-6分析數(shù)據(jù)框架頁面

3.3編程實現(xiàn)

導入項目中所需的庫,登錄谷歌瀏覽器,搜索去哪兒網(wǎng)。

圖3-7導入項目中所需的庫頁面,并進入網(wǎng)站

使用for循環(huán)和“{}”.format()函數(shù)可實現(xiàn)只用幾行代碼對不同城市依次

進行點擊,但由于要獲得每一個城市相關(guān)的所有酒店數(shù)據(jù),若不運用time模塊

讓程序暫停每次爬取完每個城市的所有數(shù)據(jù)執(zhí)行的特定時間,就會出現(xiàn)后面爬

11

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

取數(shù)據(jù)內(nèi)容為空的情況。

圖3-8“{}”.format()函數(shù)使用頁面

在函數(shù)data_all(s)中創(chuàng)建存放數(shù)據(jù)的空列表。再用get_attribute()函數(shù)

獲取不同酒店榜單類型的鏈接,并對此解析網(wǎng)頁,然后通過定位添加等操作,

再for循環(huán)爬取不同城市各酒店必住榜下的所有指定酒店數(shù)據(jù),最后再將數(shù)據(jù)

存為csv文件。

圖3-9爬取酒店數(shù)據(jù)頁面

12

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

圖3-10爬取酒店數(shù)據(jù)頁面

圖3-11將酒店數(shù)據(jù)存為csv文件

4數(shù)據(jù)清洗與處理

在得到復雜的數(shù)據(jù)后,必須首先對存進csv文件里的數(shù)據(jù)內(nèi)容進行預處理,

直白的來說就是數(shù)據(jù)清洗、處理和查看。認真對比獲取數(shù)據(jù)的精確性與有效性,

看有沒有出現(xiàn)異常值、缺失值和重復值,因為它是本次項目中獲得城市酒店信息

質(zhì)量保證的一個關(guān)鍵性的工作前提。不但這樣還應該把數(shù)據(jù)按照一定規(guī)律與原

則進行排列,這樣的話,能夠讓其他人員在后續(xù)中運用該數(shù)據(jù)時更便捷。

在本次項目實施時,要把爬取下來的酒店數(shù)據(jù)同網(wǎng)頁上的原數(shù)據(jù)進行比照,

再查看csv文件中存進的數(shù)據(jù)內(nèi)容是否有誤。最后再憑據(jù)不同數(shù)據(jù)分析的要求

對它進行處理。

13

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

4.1數(shù)據(jù)清洗

圖4-1數(shù)據(jù)清洗準備頁面

將獲取下來的數(shù)據(jù)與原數(shù)據(jù)進行仔細比照后,可以清晰的看到它們除了有

重復值外并沒有出現(xiàn)空值、缺失值以及異常值等。因為在后續(xù)的一些可視化繪

圖中運用的數(shù)據(jù)是不需要去重的,所以這里只需要憑據(jù)drop函數(shù),并指定要刪

除的列名和axis=1將沒有使用價值的列數(shù)據(jù)刪除掉,這同時也是為了制止數(shù)據(jù)

冗詞的出現(xiàn)。是故必須存留在項目中需要運用到的數(shù)據(jù),將它們處理好后,并

重新存進到一個data.csv文件中。然后又因為在另一些分析要求的可視化繪圖

中運用的數(shù)據(jù)是需要去重的,所以這時只要將data.csv文件中的數(shù)據(jù)使用

drop_duplicates函數(shù)進行去重,并重新存進到另一個新的data_qu.csv文件中。

這兩個文件將用作后續(xù)的不同分析要求的數(shù)據(jù)統(tǒng)計與可視化繪圖中運用。

14

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

圖4-2data.csv數(shù)據(jù)清洗完成界面

圖4-3data_qu.csv數(shù)據(jù)清洗完成界面

4.2數(shù)據(jù)儲存

將爬取的數(shù)據(jù)進行存儲時,有多種保存辦法。數(shù)據(jù)存儲大體上有三大類:

一類主要由txt文本格式、json文件形式、excel以及csv文件格式存儲等構(gòu)

成,二類是關(guān)系型數(shù)據(jù)庫存儲,它比較常見的有MySQL等數(shù)據(jù)庫。三類是非關(guān)

系型數(shù)據(jù)庫存儲,它比較出名的有Mongodb等。

15

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

在本次項目中運用到的數(shù)據(jù)存儲辦法是存為csv文件。如圖4-4:

圖4-4數(shù)據(jù)存儲為csv形式頁面

5數(shù)據(jù)統(tǒng)計與分析

5.1數(shù)據(jù)準備

導入同數(shù)據(jù)有關(guān)的庫,再運用pandas加載源數(shù)據(jù),如圖5-1、5-2、5-3。

16

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

圖5-1數(shù)據(jù)準備頁面

圖5-2數(shù)據(jù)加載頁面

圖5-3數(shù)據(jù)加載頁面

17

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

5.2數(shù)據(jù)展示

5.2.1憑據(jù)運營城市進行統(tǒng)計

圖5-4各城市上榜的酒店數(shù)量數(shù)據(jù)展示

因為是對各個城市運營的酒店進行統(tǒng)計,所以使用去重后的csv文件。把

文件當中城市酒店榜單名稱一列的數(shù)據(jù)進行指定處理、歸總及其再處理后,再

把處理后的不同城市名稱進行總計次數(shù),最后將其放入新建的空列表中作為y

軸,再生成條形圖。如圖5-4中可以清晰的注意到成都運營的酒店數(shù)量最高,其

次就是昆明、杭州運營的酒店。能夠在去哪兒網(wǎng)酒店的酒店必住榜上榜,也足

夠證明它們各自都是當?shù)爻鞘羞\營酒店整體當中經(jīng)營質(zhì)量效果不錯的,而且它

是經(jīng)過綜合各方面數(shù)據(jù)得出的不同城市運營的酒店必住榜。

通過圖形觀察,還注意到運營的酒店都是上了酒店必住榜的榜單,各城市間

的不同只是酒店上榜數(shù)量的差別。從圖中上榜酒店數(shù)量分析可知成都地區(qū)運營

的酒店質(zhì)量是這幾個城市當中發(fā)展最朝上的,其它城市運營的上榜酒店發(fā)展數(shù)

量相差不多。酒店管理結(jié)業(yè)者或熱衷于該傾向的可以嘗試到最向上的成都地區(qū)

工作,因為在這個城市里他們有可能獲得受益匪淺提升學習的機會和發(fā)展,而且

這里還有不少有權(quán)威的公司在此發(fā)展,所以說它關(guān)于個人的未來有著無法想象

18

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

的吸引力。各地城市運營的上榜酒店數(shù)量占比例越高,從另一個角度上可以知

道:該城市地區(qū)的實際經(jīng)濟發(fā)展能力比較高以及酒店內(nèi)部關(guān)于人才管理的注重

與重視,所以在該城市運營的酒店里上班的人大程度上比較杰出。

5.2.2憑據(jù)酒店必住榜類型運營與已滿員酒店數(shù)量進行統(tǒng)計

圖5-5酒店榜單類型運營與住宿已滿員的酒店數(shù)量數(shù)據(jù)展示

從圖5-5中可以清晰注意到去哪兒網(wǎng)上榜的酒店必住榜類型占數(shù)量最多的

是必住親子酒店榜單,另外是熱門推薦榜。其中必住青旅酒店榜單等酒店必住榜

類型都是占數(shù)量相對而言沒有那么多。簡單的思考一下,為何要將經(jīng)營的酒店

進行榜單分類?

其實這個答案是貼切人們的實際生活的。不同的酒店必住榜類型是為了滿

足適合于各種客戶住宿類型而設立運營的。酒店必住榜的類型不僅僅可以轉(zhuǎn)變

酒店運營的發(fā)展模式,還可以為客戶提供一些更利于他們直接自主選擇酒店住

宿的方法。酒店經(jīng)營者吸引客戶住宿所采取的方式,都是在互聯(lián)網(wǎng)上通過收集

各種客戶外出同行的類型以及他們關(guān)于住宿酒店環(huán)境等各方面的要求信息情況,

來決定把酒店規(guī)模類型建設成當下大眾客戶心目中的發(fā)展模式,以便于能更好

的吸引客戶和運營酒店的發(fā)展。

19

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

就好比如必住親子酒店榜單,絕大半出去旅游的一家人都是直接在必住親

子酒店榜單上選擇心儀的酒店住宿,而且從這個條形圖當中可以很清晰直白的

看到必住親子酒店榜單在去哪兒網(wǎng)的酒店必住榜類型的酒店數(shù)量中占有155,且

該酒店必住榜類型客戶住宿已滿員的數(shù)量也是占據(jù)最多的。從中可以分析外出

的群體極大可能是親子類型的,以至于對必住親子酒店榜單類型的酒店住宿需

求量相對而言比較大,另外一個方面則反映了必住親子酒店榜單和熱門推薦榜

類型所經(jīng)營的酒店發(fā)展質(zhì)量在整個酒店必住榜類型行業(yè)中占有自身很大優(yōu)勢和

地位的。其中熱門推薦榜與必住親子酒店榜單運營酒店和已滿員的數(shù)量差不多,

只相差6、4家。從中可以知道這二種酒店必住類型是適用人群類型中對不同客

戶受歡迎的程度最高的前二個,雖然試睡員推薦榜和必住度假酒店榜單在酒店

必住榜當中且它們經(jīng)營的酒店數(shù)量要比必住青旅酒店榜單的酒店數(shù)量要多,但

是它們已滿房的酒店數(shù)量卻是最低的。從這里可以獲得一個結(jié)論:一個酒店必

住榜類型經(jīng)營的酒店數(shù)量的多少并不能真正確定受不同群眾歡迎程度的高低,

而是要從多個角度去確定,并且它們兩者之間的關(guān)系并不一定是成正比關(guān)系的,

但是在很大水平上也是有聯(lián)系的。酒店必住榜的類型是運營酒店發(fā)展的外部因

素。

5.2.3憑據(jù)酒店的價格與評論量進行統(tǒng)計和分析

圖5-6各酒店價格與其評論量關(guān)系的數(shù)據(jù)展示

20

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

使用去重后的csv數(shù)據(jù)文件中讀取特定的價格和評論量兩列。但是由于文

件中價格一列里面的數(shù)據(jù)類型為字符串,所以要對其進行相關(guān)的處理,然后再

分別對兩列數(shù)據(jù)讀取放入到新建的空列表中作為x、y軸上的數(shù)據(jù),最后再可視

化繪圖成散點圖。如從圖5-6中可以很清晰的看到評論量最高的可達有1.6萬

次評論,價格大概在2200元前后;其中過半數(shù)的價格都聚積在2000元以下。

從圖中還可以發(fā)現(xiàn)在價格普遍來講比較高的酒店中,它的評論量相對來說

比較低。而相對于價格比較中等優(yōu)惠的酒店來講,則它的評論量相對而言處于

中等水準。從中可以知道:當價格超出人們預算消費能力時,去該酒店住宿的

客戶就相對而言比較少,以至于其評論量也會比較低下,所以該酒店的運營發(fā)

展沒有相對于價格比較中等優(yōu)惠運營的酒店發(fā)展更好。因此這里可以清晰的發(fā)

現(xiàn)價格是客戶外出住宿酒店消費的主導因素。

21

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

5.2.4憑據(jù)酒店推薦理由進行統(tǒng)計

圖5-7各上榜酒店推薦理由的詞頻數(shù)據(jù)展示

把文件當中列名稱的推薦理由數(shù)據(jù)進行歸總和處理,再依據(jù)總計處理推薦

理由一列中出現(xiàn)率高的詞頻形成指定的序列,并把指定序列中形成的數(shù)據(jù)憑據(jù)

相應的詞頻形成詞云圖。如圖5-7中可以清晰的注意到在該圖中酒店、房間、

很好、可以等等詞出現(xiàn)的次數(shù)占比例最高,另外便是方便、環(huán)境、干凈、服務、

免費等等出現(xiàn)的次數(shù)相比較而言比較高。從在去哪兒網(wǎng)上所有上榜酒店名稱的

推薦理由上能夠出現(xiàn)多次這一點來看,也足夠證明這些城市上榜酒店的質(zhì)量是

值得住宿者信任和選定的。

另外一個角度而言,也可以知道,它們關(guān)于酒店內(nèi)部管理人員在培養(yǎng)和制

定方案上的重視、酒店本身制度的完善以及酒店的自身優(yōu)勢與能力。所以,如

22

湖南商務職業(yè)技術(shù)學院畢業(yè)設計

果想要各城市地區(qū)經(jīng)營的酒店發(fā)展好以及同時質(zhì)量有保證,那么酒店經(jīng)營者就

應該在酒店內(nèi)部的環(huán)境,服務,房間,住宿等各方面進行查看、自我反省和完

善,向經(jīng)營好的酒店取其精華的學習。

5.3綜述

由上述得知,成都是酒店上榜經(jīng)營行業(yè)數(shù)量的領(lǐng)頭羊。熱門推薦榜與必住親

子酒店榜單是運營酒店數(shù)量最多的酒店必住榜類型,另外便是必住情侶酒店榜

單。熱門推薦榜和必住親子酒店榜單是如今大眾外出選擇酒店住宿,從而導致

住宿已滿員數(shù)量排行前二的酒店必住榜類型。推薦理由中相同且出現(xiàn)的評價頻

率越高,從而可以知道其上榜酒店的質(zhì)量是有一定保障和信任的。

經(jīng)過對去哪兒網(wǎng)酒店必住榜不同城市酒店數(shù)據(jù)的爬取,獲得了不同城市經(jīng)

營的酒店在酒店必住榜的類型以及相關(guān)數(shù)據(jù),通過數(shù)據(jù)解析獲得了如下關(guān)于酒

店運營發(fā)展更好的結(jié)論:一:本身地域經(jīng)濟發(fā)展因素:成都在酒店上榜經(jīng)營行

業(yè)的數(shù)量上遙遙領(lǐng)先。二:外部因素:熱門推薦榜和必住親子酒店榜單是當下

運營酒店數(shù)量和大眾外出選擇酒店住宿受群眾歡迎程度都最高的前二種酒店必

住榜類型。三:價格是客戶外出住宿酒店消費的主導因素。四:內(nèi)部因素:憑

據(jù)各上榜酒店的推薦理由中出現(xiàn)相同詞的頻率次數(shù)所形成的詞云圖,可以發(fā)現(xiàn)

各上榜酒店的共同點是:酒店內(nèi)部管理人員的培養(yǎng)與重視、酒店本身制度的完

善以及酒店的自身優(yōu)勢與能力。所以酒店經(jīng)營者可以憑據(jù)上述各結(jié)論準備關(guān)于

酒店經(jīng)營發(fā)展更好以及質(zhì)量有保證的參考。

6小結(jié)

世界正在爭分奪秒的朝上進步,人類也隨著時代的發(fā)展向美好的未來靠近。

在現(xiàn)在的大數(shù)據(jù)信息時代的面前,所有事物包括人都將變得透明、無處躲藏。

生活在這個時代的人們關(guān)于在網(wǎng)絡上的登記、注冊,瀏覽、預定酒店、掛號等

各種行為動作必將出現(xiàn)龐大的數(shù)據(jù)。正是基于這一方面,讓軟件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論