基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析_第1頁
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析_第2頁
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析_第3頁
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析一、引言近年來,我國旅游產(chǎn)業(yè)規(guī)模不斷擴(kuò)大,平遙古城作為中國境內(nèi)保存最完好的古代縣城與票號文化發(fā)源地,游客量快速增長,逐年增加的游客對古城承載力及景區(qū)建立提出了更高要求。與此同時,隨著互聯(lián)網(wǎng)技術(shù)的開展以及大數(shù)據(jù)時代的到來,旅游信息傳播形式、游客信息搜索方式、旅游消費行為等均發(fā)生了宏大改變。許多旅游經(jīng)營者、旅游企業(yè)及政府機(jī)構(gòu)都通過互聯(lián)網(wǎng)平臺發(fā)布旅游信息,隨之互聯(lián)網(wǎng)平臺也成為廣闊游客出游的重要信息來源,相應(yīng)產(chǎn)生的網(wǎng)絡(luò)搜索數(shù)據(jù)那么逐漸成為高質(zhì)量的游客旅游搜索行為數(shù)據(jù)庫。2022年百度推出的百度指數(shù)可以直接、客觀地反映某特定

2、時間段內(nèi)的社會熱點、用戶興趣和需求,并且實證說明利用百度指數(shù)這一網(wǎng)絡(luò)搜索指數(shù)進(jìn)展預(yù)測克制了傳統(tǒng)預(yù)測中存在的數(shù)據(jù)滯后以及數(shù)據(jù)量缺乏的缺陷,結(jié)果更為準(zhǔn)確、更具時效性。因此,本文依托百度指數(shù)的時效性,挖掘旅游網(wǎng)絡(luò)關(guān)注度和實際旅游需求的關(guān)系,預(yù)測景區(qū)客流量,對指導(dǎo)旅游管理部門做出科學(xué)、合理的決策安排,促進(jìn)旅游可持續(xù)開展具有重要意義。二、指標(biāo)選取與數(shù)據(jù)一指標(biāo)選取根據(jù)指標(biāo)選取理論的分析可知,用戶搜索行為反映了用戶近期行為,但由于搜索用戶的異質(zhì)性,不同用戶對某一事物的關(guān)注度有所不同,從而使得搜索關(guān)鍵詞也具有多樣性,且關(guān)鍵詞應(yīng)包含與目的事物相關(guān)的各個方面。因此,本文在已有文獻(xiàn)根底上,根據(jù)相關(guān)旅游經(jīng)歷及人們外出

3、旅行時的主要考慮因素,即衣、食、注行、游5個方面,通過百度指數(shù)趨勢研究和需求圖譜兩個模塊來進(jìn)展關(guān)鍵詞的提取,這5個方面涵蓋了平遙天氣、平遙牛肉、平遙古城住宿、平遙古城門票、平遙古城旅游攻略等多方面信息。本文將這5個方面的相關(guān)詞作為初始關(guān)鍵詞,運用百度關(guān)鍵詞挖掘本文由論文聯(lián)盟搜集整理進(jìn)展關(guān)鍵詞搜索,從而得到最終的關(guān)鍵詞指標(biāo)。二數(shù)據(jù)說明本文的關(guān)鍵詞數(shù)據(jù)是利用網(wǎng)絡(luò)爬蟲技術(shù)從百度指數(shù)網(wǎng)頁源代碼中提獲得到的。在利用初始詞進(jìn)展關(guān)鍵詞搜索過程中,剔除沒有數(shù)據(jù)對應(yīng)和數(shù)據(jù)量很少的關(guān)鍵詞,最終得到57個關(guān)鍵詞從2022年12月到2022年12月共162周的數(shù)據(jù)。平遙古城旅游客流量數(shù)據(jù)來自山西省旅游局,選取的時間區(qū)

4、間為2022年12月至2022年12月,共37個數(shù)據(jù)。由于我們得到的關(guān)鍵詞數(shù)據(jù)為周度數(shù)據(jù),而本文研究的是月度數(shù)據(jù),所以要對關(guān)鍵詞數(shù)據(jù)進(jìn)展處理,將周度數(shù)據(jù)轉(zhuǎn)化為月度數(shù)據(jù),即按照日歷中各月周數(shù)進(jìn)展加總,將每月最后幾天數(shù)據(jù)按所在周的天數(shù)作為權(quán)重,將該周的數(shù)據(jù)按權(quán)重分配到相鄰月中,最終得到37個月的搜索指數(shù)數(shù)據(jù)。三、實證分析首先對模型擬合和預(yù)測有兩點說明:一是擬合樣本區(qū)間為2022年12月到2022年10月,共35個數(shù)據(jù),用于預(yù)測檢驗的樣本區(qū)間為2022年的11月到12月2個月的數(shù)據(jù)。二是在模型擬合效果的比擬上,本文引入SE和NSE兩個指標(biāo),分別代表模型的穩(wěn)定性和擬合度。一搜索關(guān)鍵詞確定首先,利用簡單

5、手動挑選,觀察所有關(guān)鍵詞數(shù)據(jù),將趨勢變化不明顯或幾乎無變化趨勢的剔除;然后,利用Pearsn相關(guān)系數(shù)挑選,分別計算各關(guān)鍵詞與因變量的Pearsn相關(guān)系數(shù),將相關(guān)系數(shù)小于0.6的剔除;最后,利用線性回歸挑選,并診斷回歸的多重共線性和自相關(guān),利用逐步回歸及AI準(zhǔn)那么選出最終的4個關(guān)鍵詞:平遙古城旅游攻略、平遙古城地圖、山西旅游景點大全、平遙住宿。二模型估計在挑選關(guān)鍵詞過程中,我們構(gòu)建了一個線性回歸方程,回歸估計如下:從回歸結(jié)果看,總體擬合效果較好,變量系數(shù)均通過顯著性檢驗,因此該線性模型似乎具有較好預(yù)測效果。但為進(jìn)一步考察模型假設(shè)是否成立,我們進(jìn)展殘差的Shapir-ilk正態(tài)性檢驗,并且刻畫了因

6、變量直方圖及對應(yīng)的線性分布圖,檢驗結(jié)果均說明因變量不服從正態(tài)分布,因此本文利用線性回歸進(jìn)展模型模擬時并不能滿足其對因變量分布的假定,從而會產(chǎn)生較大誤差,影響擬合和預(yù)測效果。故本文采用了對數(shù)據(jù)分布沒有任何假定且結(jié)果可用穿插驗證方法來評判的四種機(jī)器學(xué)習(xí)方法進(jìn)展模型擬合及預(yù)測,并比擬了決策樹、bgging、隨機(jī)森林、支持向量機(jī)這四種算法模型的擬合度、穩(wěn)定性與預(yù)測效果。三模型結(jié)果分析使用以上四種算法估計模型,計算出各模型的SE和NSE,結(jié)果見表1。從模型的擬合度和穩(wěn)定性來看,回歸樹和Bagging都存在明顯缺乏,其SE和NSE值均大于另外兩個模型,回歸樹模型在所有模型中擬合效果最差。而隨機(jī)森林和支持向

7、量機(jī)SV這兩種模型的效果較好,其中隨機(jī)森林的擬合度和穩(wěn)定性最正確,SV模型的擬合度較好,但模型穩(wěn)定性不佳。最后分別用以上算法模型對樣本期外兩個月的客流量進(jìn)展預(yù)測,并將其與真實值比照,計算其平均誤差率,結(jié)果見表2。如表2所示,模型擬合效果較差的回歸樹和bagging的預(yù)測效果仍不理想,平均誤差率分別到達(dá)了11.55%和7.18%,與真實客流量數(shù)據(jù)相比存在較大偏向。同時,擬合效果最正確的隨機(jī)森林預(yù)測效果并不理想,其平均誤差率達(dá)8.54%,甚至差于bagging。而SV模型的平均誤差率僅有1.46%,具有較好的預(yù)測效果。分析原因,筆者認(rèn)為可能是由于bagging、回歸樹、隨機(jī)森林三種算法模型的分類原

8、理本質(zhì)上源于歸納算法,這類模型在構(gòu)造復(fù)雜的數(shù)據(jù)集上學(xué)習(xí)才能和適應(yīng)性不夠強,有效性和伸縮性缺乏,而SV那么采取了與傳統(tǒng)模型不同的思想,具有較強的泛化才能,所以預(yù)測結(jié)果與實際較為接近。四、結(jié)論本文在分析旅游客流量和百度搜索指數(shù)關(guān)系的根底上,運用一系列方法挑選出與旅游客流量相關(guān)性最高的四個關(guān)鍵詞,并運用回歸樹、bagging、隨機(jī)森林和SV四種機(jī)器學(xué)習(xí)算法模型對客流量數(shù)據(jù)進(jìn)展了擬合和預(yù)測。研究詳細(xì)結(jié)論主要有三點,一是主要或潛在游客主要通過對平遙古城旅游攻略、平遙古城地圖、山西旅游景點大全、平遙住宿等關(guān)鍵詞的搜索來獲取平遙古城旅游信息。二是回歸樹、bagging、隨機(jī)森林和SV模型中,擬合效果最好的是隨機(jī)森林和SV模型,穩(wěn)定性最好的為隨機(jī)森林模型,回歸樹、bagging的擬合度和穩(wěn)定性都較差;預(yù)測效果最好的為S

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論