基于大數(shù)據(jù)挖掘的旅游分析_第1頁
基于大數(shù)據(jù)挖掘的旅游分析_第2頁
基于大數(shù)據(jù)挖掘的旅游分析_第3頁
基于大數(shù)據(jù)挖掘的旅游分析_第4頁
基于大數(shù)據(jù)挖掘的旅游分析_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第一章緒論本文運用決策樹、隨機森兩種算法,對大學生出行旅游決策心理進行研究分析,將研究背景與問題提出、研究目的與意義、研究軟件、研究創(chuàng)新點以及文章結(jié)構(gòu)作為緒論部分所要表述的內(nèi)容。1.1研究背景近年來,我國的旅游產(chǎn)業(yè)呈現(xiàn)出較快的發(fā)展勢頭。第三產(chǎn)業(yè)中,旅游業(yè)扮演者非常重要的角色,它有力地促進著我國經(jīng)濟的全面發(fā)展,旅游行業(yè)逐漸成為我國經(jīng)濟支柱產(chǎn)業(yè)之一,很多省市都在把發(fā)展重心向旅游產(chǎn)業(yè)轉(zhuǎn)移。在旅游群體當中,大學生是整個旅游市場的一個重要而又獨立的組成部分。大學生作為社會的一個特殊群體,具有一定的經(jīng)濟獨立能力和自我生活能力,有相對寬松的時間,具有更多的冒險精神和追夢遐想,這些促成了大學生旅游熱。因此,大學生作為一支旅游生力軍的地位確實不容忽視。2020年疫情襲來,全球受到疫情的影響,各行各業(yè)或多或少的受到了疫情的影響,旅游業(yè)更甚,而旅游業(yè)在這種情況下,要如何更好地進行面對大學生群體的發(fā)展,勢在必行。近年來隨著我國經(jīng)濟飛速發(fā)展,旅游業(yè)發(fā)展成為國內(nèi)學術(shù)界探討的熱點話題之一。旅游業(yè)不斷地細分目標市場,讓大學生這一特殊群體在行業(yè)內(nèi)成為了一塊重要的消費人群。通過查閱相關(guān)文獻后發(fā)現(xiàn),對于出行旅游方面較多是圍繞在旅游出行現(xiàn)狀、旅游出行體驗等方面進行研究,而對旅游決策的影響因素研究比較欠缺。本文以大學生為對象,對其旅游決策的影響因素進行實證分析,希望能補充這塊研究欠缺,為以后更深入的研究提供一定參考借鑒。1.2研究目的本研究針對大學生旅游決策的影響因素進行分析,通過問卷調(diào)查收集到的大數(shù)據(jù)作為分析大數(shù)據(jù)來源,并結(jié)合大數(shù)據(jù)挖掘技術(shù)的決策樹、隨機森林,深入了解大學生出行旅游決策的心理過程,進而找出影響大學生旅游決策的主要影響因素,并在其研究結(jié)果之上進行分析、討論,希望能夠為旅游行業(yè)從業(yè)者和經(jīng)營者提供有價值的參考。1.3國內(nèi)研究現(xiàn)狀劉小嵌(2017)通過問卷調(diào)查的方式深入了解了年輕旅游者這一不斷壯大的特殊群體的決策心理過程,分析出旅游企業(yè)需要為其提供心之所向的體驗服務(wù)產(chǎn)品,真正做到滿足這一特定游客群體的個性化需求[2]。趙鵬(2012)構(gòu)建了大學生旅游消費行為影響因素模型,通過驗證假設(shè),發(fā)現(xiàn)出行前旅游決策、對旅游目的地的感知、旅游動機三者與旅游目的地的選擇都顯著相關(guān)[3]。鄭海青(2017)利用基于Scrapy框架的網(wǎng)絡(luò)爬蟲技術(shù)和基于BeautifulSoup的網(wǎng)頁信息提取技術(shù),從馬蜂窩旅游網(wǎng)抓取了景點大數(shù)據(jù)結(jié)合問卷調(diào)查的方式,使用了結(jié)合了貝葉斯分類推薦和關(guān)聯(lián)規(guī)則推薦的混合推薦算法具有較好的推薦準確率和覆蓋度,能夠滿足對用戶對景點推薦的需求[4]。目前國內(nèi)學者對于大學生旅游決策影響因素分析的研究相對較少,且主要是通過問卷調(diào)查的形式,研究方法大多是采用簡單的描述性統(tǒng)計分析和回歸分析方法為主。本文將引入大數(shù)據(jù)挖掘算法(決策樹、隨機森林)來分析大學生旅游決策影響因素,希望能增補大學生旅游決策影響因素分析的研究方法。1.4研究工具與方法本文將使用決策樹及隨機森林兩種算法作為基礎(chǔ)算法,并以此來確定大學生旅游決策影響因素的影響大小。決策樹是用二叉樹形圖來表示處理邏輯的一種工具??梢灾庇^、清晰地表達加工的邏輯要求。特別適合于判斷因素比較少、邏輯組合關(guān)系不復(fù)雜的情況。隨機森林是一個包含多個決策樹的分類器,并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。

第二章大數(shù)據(jù)挖掘概述2.1大數(shù)據(jù)挖掘定義大數(shù)據(jù)挖掘出現(xiàn)在20世紀90年代,近年來,大數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,并且得到了迅猛的發(fā)張,已然成為大大數(shù)據(jù)時代中各行各業(yè)中的一大熱點。所謂大數(shù)據(jù)挖掘技術(shù)是指從大型大數(shù)據(jù)庫中揭示出隱含的、有噪聲的、隨機的、先前未知的并具有潛在價值信息的非平凡過程[5]。通過大數(shù)據(jù)篩選和大數(shù)據(jù)預(yù)處理,幫助決策者分析歷史大數(shù)據(jù)以及當前大數(shù)據(jù),高度自動化地分析原有的大數(shù)據(jù)進行歸納性推理[6]。2.2大數(shù)據(jù)挖掘方法大數(shù)據(jù)挖掘分為有指導(dǎo)的大數(shù)據(jù)挖掘和無指導(dǎo)的大數(shù)據(jù)挖掘。有指導(dǎo)的大數(shù)據(jù)挖掘是利用可用的大數(shù)據(jù)建立一個模型,這個模型是對一個特定屬性的描述。無指導(dǎo)的大數(shù)據(jù)挖掘是在所有的屬性中尋找某種關(guān)系。具體而言,分類、估值和預(yù)測屬于有指導(dǎo)的大數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則和聚類屬于無指導(dǎo)的大數(shù)據(jù)挖掘。(1)分類,它首先從大數(shù)據(jù)中選出已經(jīng)分好類的訓練集,在該訓練集上運用大數(shù)據(jù)挖掘技術(shù),建立一個分類模型,再將該模型用于對沒有分類的大數(shù)據(jù)進行分類,。(2)估值,估值與分類類似,但估值最終的輸出結(jié)果是連續(xù)型的數(shù)值,估值的量并非預(yù)先確定。估值可以作為分類的準備工作。(3)預(yù)測,它是通過分類或估值來進行,通過分類或估值的訓練得出一個模型,如果對于檢驗樣本組而言該模型具有較高的準確率,可將該模型用于對新樣本的未知變量進行預(yù)測。(4)相關(guān)性分組或關(guān)聯(lián)規(guī)則,其目的是發(fā)現(xiàn)哪些事情總是一起發(fā)生。(5)聚類,它是自動尋找并建立分組規(guī)則的方法,它通過判斷樣本之間的相似性,把相似樣本劃分在一個簇中[7]。2.3大數(shù)據(jù)挖掘流程大數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的大數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。有以下基本流程:(1)明確目標,在實施大數(shù)據(jù)挖掘之前,須明確通過大數(shù)據(jù)挖掘去解決什么樣的問題。(2)大數(shù)據(jù)搜集,當明確了目標后,需要去搜集大數(shù)據(jù),搜集的大數(shù)據(jù)即可以影響到這些問題的解決辦法,大數(shù)據(jù)搜集決定了后期工作進程的順利程度。(3)大數(shù)據(jù)清洗,搜集到的大數(shù)據(jù)來源是復(fù)雜混亂的,必須保證大數(shù)據(jù)的“干凈”,因為大數(shù)據(jù)的質(zhì)量高低將會影響最終結(jié)果的準確性。(4)構(gòu)建模型,在保證大數(shù)據(jù)“干凈”的前提下,需要考慮以什么樣的模型能進行建模,以確保更好的解決問題,。(5)模型評估,從已建的模型中挑選出最佳的模型,主要目的就是讓這個最佳的模型能夠更好地反映大數(shù)據(jù)的真實性。(6)應(yīng)用部署,把從大數(shù)據(jù)挖掘中得到的規(guī)律運用到實際問題中去。

第三章大數(shù)據(jù)挖掘方法概述3.1決策樹算法決策樹(DecisionTree,DT)算法是一種經(jīng)典的大數(shù)據(jù)挖掘算法,是目前應(yīng)用最為廣泛的歸納推理算法之一,在大數(shù)據(jù)挖掘中受到研究者的廣泛關(guān)注[8]。目前,決策樹算法主要分為分類與回歸樹算法(ClassificationandRegressionTree,CART)、ID3算法、C4.5算法[9]。算法不一樣,隨之對應(yīng)的衡量標準也不同[10]。本文采用分類與回歸樹(ClassificationandRegressionTree,CART)來進行分類問題的研究并建立分類決策樹。CART分類決策樹算法主要通過遞歸地構(gòu)建二叉樹[11]。使用基尼系數(shù)(Gini)選擇特征,基尼系數(shù)代表了模型的不純度,基尼系數(shù)越小,不純度越低,特征越好[12]。假設(shè)樣本集為 ,類別集為 ,其中每個類對應(yīng)的一個樣本子集Li1≤i≤n。樣本集中屬于類L(3-1)可推斷出,如果決策樹擁有兩個屬性,使用特征L=1將A劃分為兩部分,即劃分為A1(滿足 的樣本集L=1合),A2(不滿足(3-2)決策樹的結(jié)果直觀、明確、易懂。決策樹的每個分支決策樹在建立過程中會建立一個樹狀的結(jié)構(gòu),其結(jié)構(gòu)由根節(jié)點、子節(jié)點、葉節(jié)點組成,每個分支代表預(yù)測的方向,葉節(jié)點代表著最終的預(yù)測結(jié)果[13]。如圖3-1為決策樹的樹狀結(jié)構(gòu)圖。圖3-1決策樹的樹狀結(jié)構(gòu)圖在決策樹中復(fù)雜性參數(shù)CP和最小分支節(jié)點數(shù)M是十分重要的兩個參數(shù),決定著分類準確率的好壞。決策樹生成過程中,建立不同的分枝,需要考慮到子節(jié)點上如何選擇度量和評估要素的屬性,隨后使用不一樣的度量值來確定。每個子節(jié)點都需要不斷重復(fù)以上的過程,一直到最終達到規(guī)定的預(yù)設(shè)條件才可以停止。當出現(xiàn)屬性的變量不能夠再繼續(xù)進行分割,或者每個訓練集都歸到了同一個分類上,再或者樹的深度已經(jīng)超過了預(yù)設(shè)值(復(fù)雜性參數(shù)CP和最小分支節(jié)點數(shù)M)的情況出現(xiàn)時,就可以停止。3.2隨機森林算法隨機森林(RandomForest,RF)算法模型是在決策樹算法的基礎(chǔ)上形成的,由眾多的決策樹構(gòu)成,但其每個決策樹之間都不存在關(guān)聯(lián)性[14]。每當遇到要判斷樣本時,主要根據(jù)遵循可放回的原則,將所抽到的大數(shù)據(jù)樣本放置到?jīng)Q策樹的根節(jié)點上,以確保樹與樹之間是相互獨立的關(guān)系。隨后,由決策樹依據(jù)屬性類別進行“投票”,并形成相應(yīng)結(jié)果,得出最優(yōu)分類結(jié)果[15]。隨機森林算法主要有以下四個步驟[16]:步驟1:在最開始的訓練集為A的情況下,基于Bootstrap方法,采用帶有替換的再抽樣模型,先在里面抽取一個樣本集n,接著,重構(gòu)n棵分類樹。這里面,每個樣本都包含了k個屬性。步驟2:對樣本進行隨機的選擇,先挑出k個屬性特征,再挑出里面的s個屬性,要求s<k。隨后檢查每個分類點,確定閾值,最終選擇的屬性是在s個屬性中分類能力最強的。步驟3:不對決策樹的生長過程進行修剪。步驟4:終極預(yù)測值實行的方式是“投票”,當樣本進入隨機森林后,各決策樹會進行確定和過濾,并利用分類器進行相應(yīng)“投票”,最終“投票”票數(shù)多的獲勝,該結(jié)果就是最終預(yù)測結(jié)果。隨機森林的算法步驟如圖3-2所示:圖3-2隨機森林步驟

第四章基于大數(shù)據(jù)挖掘的大學生旅游決策影響因素分析4.1大數(shù)據(jù)準備本研究采用電子問卷調(diào)查方式,為確保問卷最終的合理性,在正式發(fā)放,先進行了問卷預(yù)測試,測試通過后再進行正式問卷的分發(fā)。正式問卷共收回大數(shù)據(jù)1224筆,大數(shù)據(jù)清洗、刪除無效問卷后共獲取到有效問卷1119筆(有效率91.42%)。隨后,將包含目標變量和解釋變量的大數(shù)據(jù)轉(zhuǎn)換為.csv格式,便于之后運用R語言工具進行相關(guān)分析。為了預(yù)測模型能夠具有良好的泛化能力,則將樣本大數(shù)據(jù)中80%作為訓練大數(shù)據(jù),其余20%作為測試大數(shù)據(jù)。并調(diào)整DT、RF的參數(shù),建立預(yù)測模型。運算結(jié)果訓練集均大于測試集,且誤差不超過10%,則說明沒有出現(xiàn)過擬合現(xiàn)象。4.1.1問卷設(shè)計本問卷主要面向的是貴陽市大學生,除了基本的個人信息外,本研究對大學生出行旅游決策的心理因素采用五點量表進行設(shè)計。通過較為直觀的表述,使得被調(diào)查者理解起來較為容易,填寫問卷時也較為方便。量表中包含通過文獻、社會經(jīng)驗得出的“閑暇時間”、“可自由支配收入”、“出行體驗感”、“親朋好友推薦”、“旅游景區(qū)評價”、“旅游景區(qū)的知名度”、“與旅游目的地的距離”、“旅游景區(qū)的娛樂設(shè)施、飲食安全狀況”、“旅游景區(qū)門票、娛樂項目的價位”9個主要影響大學生旅游決策的因素。該設(shè)計對于問卷的回收和處理具有方便的效果,便于之后對于每個被調(diào)查者關(guān)于問題的反饋,可以進行較為詳細準確的分析。問卷主要包括“游客本身”、“旅游目的地”、“旅游決策”三個模塊,其中“游客本身”、“旅游目的地”兩個模塊的選項為1至5項,1到5分別代表的是“影響非常大”、“影響比較大”、“影響一般”、“影響比較小”、“沒有影響”,“旅游決策”模塊的選項為1、2,分別代表的是“有影響”、“沒有影響”,被調(diào)查者選擇其中一項來回答。4.1.2大數(shù)據(jù)測試本研究大數(shù)據(jù)來源于電子問卷調(diào)查的方式,通過廣泛閱讀相關(guān)文獻、期刊及新聞熱點等素材,利用問卷星平臺對問卷進行設(shè)計,之后將制作好的問卷借助QQ、微信等平臺進行分發(fā)。本問卷研究對象主要針對貴陽市大學生群體,內(nèi)容涵蓋大學生對于旅游出行決策的影響因素情況。最終收回了1224筆問卷,清洗大數(shù)據(jù)并清楚無效問卷后共獲取到有效問卷1119筆(有效率91.42%)。因此,在這項研究中,首先采用SPSS軟件測試調(diào)查大數(shù)據(jù)的可靠性和有效性,再通過主成分分析確定一個目標變量和八個解釋變量。4.2大數(shù)據(jù)預(yù)處理4.2.1信度檢驗預(yù)測試采用信度分析,其目的是為了確保本研究樣本大數(shù)據(jù)的可信度。Cronbach'sα值用來衡量量表是否具有內(nèi)部一致性[17]。其取值介于0-1之間,具體如下表4-1所示:表4-1Cronbach'sα取值情況表Cronbach'sα取值在問卷分量表中的含義<0.6需要重新進行設(shè)計0.6-0.7需要進行修改0.7-0.8可以接受>0.8具有很好的信度表4-2所顯示的是本研究調(diào)查中原始問卷的預(yù)測試信度檢驗結(jié)果。表4-2預(yù)測試問卷信度檢驗結(jié)果面向主題變量Cronbach'sα 整體可靠度游客本身閑暇時間0.9520.961可支配收入0.958體驗感0.958朋友推薦0.957評價0.96知名度0.958旅游目的地距離0.9570.961安全保障0.957景區(qū)類型0.958服務(wù)態(tài)度0.957價格0.958旅游決策影響度影響0.9600.9614.2.2效度檢驗效度用以測量問卷能夠有效測量到研究者所需測量事物的程度[18]。首先對其進行KMO和Bartlett檢驗,來判斷指標之間是否存在相關(guān)關(guān)系。檢驗出的KMO>0.6,Bartlett檢驗的,為高度顯著,適合進行主成分分析。通常,當KMO>0.6,說明我們用于測量的指標是有效的;KMO值越大且越接近于1,說明這種有效性越高。具體如表4-3表示:表4-3KMO取值范圍KMO取值是否適合作為因子進行分析<0.5不適合0.5-0.6不太適合0.6-0.7勉強適合0.7-0.8適合0.8-0.9很適合>0.9非常適合由表4-4可以看出,三個面向主題KMO值均高于0.6,表明該預(yù)調(diào)研問卷中的大數(shù)據(jù)具有良好的結(jié)構(gòu)效度:表4-4預(yù)測試問卷效度檢驗結(jié)果面向主題變量KMOsig游客本身閑暇時間0.8660可支配收入體驗感朋友推薦評價知名度旅游目的地距離0.8610安全保障景區(qū)類型服務(wù)態(tài)度價格旅游決策影響度影響0.91804.2.3主成分分析主成分分析法(PrincipalComponentAnalysis,PCA)是一種統(tǒng)計分析方法。它利用多變量的線性變換來選取不重要的變量,廣泛應(yīng)用于大數(shù)據(jù)的降維和特征提取。主要步驟如下:(1)計算樣本大數(shù)據(jù)集合 的均值,之后對樣本大數(shù)據(jù)進行中心化,其化后的樣本記為 。(2)計算最開始的那個大數(shù)據(jù)集合當中X的協(xié)方差矩陣Y。(3)對Y特征進行分解,通過分解之后,可以求出特征值以及與之對應(yīng)的特征向量Wi(4)從所選擇的累積貢獻中提取前m個特征值, 為所提取的m個特征值所對應(yīng)的特征向量,前m個特征向量的組合矩陣可表示為 ,所提取的m個主成分為 。在本研究的原始問卷中,共有11個變量,并且每個變量都與本研究相關(guān)聯(lián)。如下表4-5所示,通過對問卷信度、效度的檢驗結(jié)果,進行PCA提取因子,可知“閑暇時間、可支配收入、體驗感、評價、朋友推薦、距離、安全保障、價格”這8個變量的因子負荷系數(shù)相對較高,排名前8,且均>0.4,各變量間的關(guān)聯(lián)性較強。同時這8個變量的信度檢驗結(jié)果為Cronbach'sα值均>0.9,效度檢驗結(jié)果為KMO的值均>0.7,Bartlett球形檢驗均為ρ<0.01,則選取該8個變量作為問卷的解釋變量,選取“影響度”作為該問卷的目標變量。表4-5主成分分析面向主題變量Cronbach'sα KMOsig因子負荷系數(shù)游客本身閑暇時間0.9630.91200.979可支配收入0.9670.864體驗感0.9670.86朋友推薦0.9670.859評價0.9670.862知名度0.9680.849旅游目的地距離0.9670.90400.857安全保障0.9680.90400.853景區(qū)類型0.9680.842服務(wù)態(tài)度0.9680.845價格0.9680.854旅游決策影響度影響0.9670.97700.8654.3基于大數(shù)據(jù)挖掘的大學生旅游決策影響因素分析4.3.1決策樹算法在大學生旅游決策影響因素分析中的應(yīng)用首先在R-studio安裝“rpart”程序包,并用程序包來讀取大數(shù)據(jù)集,再通過sample()函數(shù)劃分10%的測試集和90%的訓練集以建模分析。確定目標變量之后使用訓練集大數(shù)據(jù)并將復(fù)雜性參數(shù)(ComplexityParameter,CP)設(shè)為0.01來建立決策樹模型,使用plot()函數(shù)畫出決策樹圖,并由該圖得出決策樹規(guī)則。最后使用predict()函數(shù)來預(yù)測訓練集和測試集大數(shù)據(jù)的正確率,保證擬合是否良好。4.3.2決策樹算法實證結(jié)果與分析將決策樹中復(fù)雜性參數(shù)(ComplexityParameter,CP)設(shè)為0.01。運算結(jié)果為訓練集預(yù)測率81.13%,測試集預(yù)測率78.57%??梢姶髷?shù)據(jù)預(yù)測準確率較高,模型的泛化能力較強。圖4-1決策樹訓練集決策規(guī)則圖從圖4-1可知,閑暇時間(Time)、距離(Distance)、價格(Price)、朋友推薦(Recommend)是影響大學生出行旅游決策心理的主要因素。決策樹以Time為根節(jié)點進行劃分,說明Time是大學生出行旅游決策的首要影響因素。決策樹以Time是否小于4.5作為切分值,當Time<4.5時,選擇左半樹,當Time>=4.5時,即選擇右半樹。以此遞推到葉節(jié)點,滿足節(jié)點要求的則選擇到左枝下,若不滿足,則選擇到右枝下。本決策樹共有6條決策樹規(guī)則,具體如下:決策樹規(guī)則1:當Time<3.5時,得到規(guī)則1,即大學生的出行旅游決策受到影響。決策樹規(guī)則2:當Time<4.5,Time>=3.5,Distance<3.5,時,得到規(guī)則2,即大學生的出行旅游決策受到影響。決策樹規(guī)則3:當Time<4.5,Time>=3.5,Distance>=3.5,Price<3.5時,得到規(guī)則3,即大學生的出行旅游決策受到影響。決策樹規(guī)則4:當Time<4.5,Time>=3.5,Distance>=3.5,Price>=3.5,Recommend>=3.5時,得到規(guī)則4,即大學生的出行旅游決策受到影響。決策樹規(guī)則5:當Time<4.5,Time>=3.5,Distance>=3.5,Price>=3.5,Recommend<3.5時,得到規(guī)則5,即大學生的出行旅游決策沒有受到影響。決策樹規(guī)則6:當Time>=4.5時,得到規(guī)則6,即大學生的出行旅游決策沒有受到影響。4.3.3隨機森林算法在大學生旅游決策影響因素分析中的應(yīng)用首先在R-studio安裝“randomForest”程序包,并用程序包來讀取大數(shù)據(jù)集,再通過sample()函數(shù)劃分20%的測試集和80%的訓練集以建模分析。確定目標變量之后使用訓練集大數(shù)據(jù)和500棵決策樹將來建立隨機森林模型,使用plot()函數(shù)畫出影響因子圖及ntree=500的收斂圖,可以顯著的展示出各個變量對大學生旅游決策的影響程度。最后使用predict()函數(shù)來預(yù)測訓練集和測試集大數(shù)據(jù)的正確率,保證擬合是否良好。4.3.4隨機森林算法實證結(jié)果與分析隨機森林訓練集預(yù)測準確率為84.24%,測試集預(yù)測準確率為81.69%,大數(shù)據(jù)的預(yù)測準確率較高,由此說明模型的泛化能力較好。IncreasedNodePurity是一種評估的方法,即通過利用殘差的非負平方和來求得取值,解釋變量影響目標變量的程度取決于該值的大小。通過建立RF模型,得到影響因子圖及ntree=500的收斂圖。圖4-2隨機森林影響因子圖如圖4-2所示,可以看出閑暇時間(Time)的IncreasedNodePurity值最大。此外,8個解釋變量的重要程度排序為閑暇時間(Time)>評價(Appraise)>價格(Price)>可支配收入(Revenue)>距離(Distance)>安全保障(Security)>安全(Recommend)>體驗感(Experience),事實證明,閑暇時間(Time)對大學生出行旅游決策心理有著很大的影響。圖4-3隨機森林ntree=500收斂圖如圖4-3所示,RF測試時隨機選取500個基礎(chǔ)樣本,當取值大于100棵樹以后,錯誤率趨于穩(wěn)定,誤差收斂。4.4大數(shù)據(jù)挖掘?qū)嶒灲Y(jié)果分析4.4.1算法結(jié)果比對本研究主要采用了DT、RF模型研究方式,針對大學生出行旅游決策的影響因素進行大數(shù)據(jù)分析,將大數(shù)據(jù)中80%作為訓練集,20%作為測試集,進行10折隨機交叉運算。對比不同的模型,可以發(fā)現(xiàn):在DT模型中,閑暇時間(Time)、距離(Distance)、價格(Price)、朋友推薦(Recommend)是影響大學生出行旅游決策的主要因素。在RF模型中,閑暇時間(Time)的IncreasedNodePurity值最大,且在8個解釋變量的重要排序程度中位列第一。相較于前幾個因素,安全保障(Security)、安全(Recommend)、體驗感(Experience)三個因素的影響程度相對較小。即大學生群體在制定出行旅游決策時,大學生本身的閑暇時間是影響大學生進行決策的主要依據(jù)。此外,DT、RF通過運用混淆矩陣運算得出的預(yù)測準確率均在80%以上,訓練集均大于測試集,且誤差不超過10%,沒有過度擬合現(xiàn)象。4.4.2大學生旅游決策影響因素分析根據(jù)以上模型得出的結(jié)果,可以發(fā)現(xiàn)均與現(xiàn)實生活中存在的問題存在一致性。在現(xiàn)實生活中,人們進行出行旅游決策時,閑暇時間的多少是大學生進行決策的關(guān)鍵,大學生由于還是一個以學業(yè)為主的群體,仍需完成在校課業(yè),在做旅游決策的時候需要首先考慮到自己是否有時間,致使許多大學生面對此種情況會猶豫不決。因為他們會考慮到自己花費時間出行旅游是否符合在做旅游決策時的需求和預(yù)期,在決策前會考慮時間的多少。尤其是疫情之下,各地學校因疫情的管控或多或少會限制大學生進出校園時間,大學生的閑暇時間不得不受到影響。因此,旅游行業(yè)從業(yè)者和經(jīng)營者若要想吸引顧客并擁有持續(xù)顧客群,必須在合適的時間段上進行斟酌,并樹立品牌口碑意識。4.5對策建議4.5.1加強旅游市場監(jiān)管,確保信息的真實性研究表明,大學生外出旅游受網(wǎng)絡(luò)對景點評價影響較大,網(wǎng)絡(luò)上所發(fā)布的旅游信息的真實性相對重要。因此政府相關(guān)部門更要對旅游市場進行監(jiān)管,為大學生提供真實、權(quán)威的信息。近些年來旅游亂象層出不窮,許多不良商家抓住大學生假期期間“窮游”的心理進行虛假宣傳等手段來欺騙大學生,此種行為應(yīng)該嚴厲打擊,保證良好的網(wǎng)絡(luò)信息環(huán)境。4.5.2高校需要正確引導(dǎo)大學生樹立正確的安全旅游觀念高校是大學生最密集活動最頻繁的地方,對于大學生的旅游觀念、旅游選擇等方面更具有影響力,因此引導(dǎo)大學生樹立正確的旅游觀念,掌握基本的旅游常識和技能是高校應(yīng)做的事。旅游常識和安全教育是非常重要的,研究表明安全保障這一因素對大學生旅游決策影響較小,大學生這一年輕群體是充滿激情、熱愛探索的一個特殊群體,在這一信息爆炸的時代,大學生往往會為了網(wǎng)絡(luò)上所謂的熱門景點而忽視了安全,高校應(yīng)該引起重視并開展旅游安全教育,定期開展相關(guān)講座以及安全外出旅游教育。4.5.3“有的放矢”的推出旅游產(chǎn)品大學生出行旅游受閑暇時間影響最大,大部分大學生會選擇在寒暑假和各種節(jié)日的小長假出行,呈現(xiàn)出目標多、時間長、全年分布均勻的特點,而且時間相對固定,旅游企業(yè)可以根據(jù)這種出行特點推出有針對性的旅游產(chǎn)品,例如推出夏令營游、小長假游、雙休短途游等旅游服務(wù)。在高校附近的旅游景點可以針對大學生周末出行旅游高峰期推出短途、一日游等旅游產(chǎn)品及服務(wù),吸引附近大學生出行旅游。4.5.4面向大學生群體,旅游企業(yè)需要精準的市場營銷大學生群體獲得的信息更多來自于網(wǎng)絡(luò)以及身邊好友的推薦,運用多種手段進行營銷,打造良好的知名度,在網(wǎng)絡(luò)上形成良好的熱度,做到有口皆碑。創(chuàng)建自己的景點特色并樹立口碑,不斷優(yōu)化景點環(huán)境,提升景點服務(wù)。旅游產(chǎn)品以及服務(wù)在價格上應(yīng)該在大學生能接受的范圍內(nèi),應(yīng)制定適應(yīng)市場、符合大學生旅游能夠接受的價格亦可推出類似團購等活動給到大學生群體一定的優(yōu)惠。不斷抓住旅游熱點,吸引大學生眼球,用景點特色來提高回頭率。

結(jié)論本研究通過問卷調(diào)查的方式,為確保問卷的針對性,研究對象主要集中在貴陽市大學生群體,今后會逐步擴大研究范圍,為旅游行業(yè)從業(yè)者和經(jīng)營者提供更有效的依據(jù)。運用DT、RF算法建立預(yù)測模型,訓練集的預(yù)測準確率分別為81.13%、84.24%,測試集的預(yù)測準確率為78.57%、81.69%,兩種預(yù)測模型均沒有過擬合(Overfitting)訓練大數(shù)據(jù),且泛化能力強。由此反映出大學生自身的閑暇時間是大學生群體進行旅游心理決策的重要影響因素。因此,旅游行業(yè)從業(yè)者和經(jīng)營者應(yīng)著重關(guān)注時間的方面,使得經(jīng)營效果達到最佳。根據(jù)實驗結(jié)果,可以證明在本研究中預(yù)測模型的判別結(jié)果是有意義,有價值和具有可信度的。雖然本研究使用的模型都能對大學生旅游決策影響因素分析有比較好的效果,但是對于使用大數(shù)據(jù)挖掘技術(shù)對大學生旅游決策影響因素分析的研究還要繼續(xù),因為本文也僅僅使用了幾種大數(shù)據(jù)挖掘的技術(shù)。模型的構(gòu)建中還存在很多奇特的參數(shù),在本研究中并沒有一一的優(yōu)化,而這些參數(shù)的選擇都會影響模型的效果,因此在今后的研究中,研究者也可以采用其他優(yōu)化算法,例如智能型算法、人工神經(jīng)網(wǎng)絡(luò)算法等,或許實驗結(jié)果會得到更好的效果。

參考文獻[1]高歌.大大數(shù)據(jù)應(yīng)用對河北省旅游業(yè)發(fā)展的影響及促進研究[D].河北大學,2021.[2]劉小嵌.移動互聯(lián)網(wǎng)背景下年輕旅游者旅游消費決策影響因素研究[D].湖南師范大學,2017.[3]趙鵬.大學生旅游消費行為影響因素研究[D].中南大學,2012.[4]鄭海青.基于大數(shù)據(jù)挖掘的個性化旅游推薦研究[D].武漢大學,2017.[5]姜騰.大數(shù)據(jù)挖掘技術(shù)應(yīng)用于職業(yè)教育信息系統(tǒng)研究[J].辦公自動化,2019,24(03):59-63.[6]于雪萌基于學生行為分析的教育大數(shù)據(jù)挖掘算法研究[D]山東師范大學,2020.[7]張曾蓮著.基于非營利性、大數(shù)據(jù)挖掘和科學管理的高校財務(wù)分析、評價與管理研究:首都經(jīng)濟貿(mào)易大學出版社,2014.05[8]楊學兵,張俊.決策樹算法及其核心技術(shù)[J].計算機技術(shù)與發(fā)展,2007(01):43-45.[9]鞠靜.基于決策樹算法的高校圖書館圖書采訪決策模型研究[D].河北大學,2021.[10]楊小娟決策樹算法在學生課程成績分析中的應(yīng)用研究[D]云南師范大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論