《基于評論文本的江西5A風(fēng)景區(qū)旅游評價實證分析案例》9900字_第1頁
《基于評論文本的江西5A風(fēng)景區(qū)旅游評價實證分析案例》9900字_第2頁
《基于評論文本的江西5A風(fēng)景區(qū)旅游評價實證分析案例》9900字_第3頁
《基于評論文本的江西5A風(fēng)景區(qū)旅游評價實證分析案例》9900字_第4頁
《基于評論文本的江西5A風(fēng)景區(qū)旅游評價實證分析案例》9900字_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于評論文本的江西5A風(fēng)景區(qū)旅游評價實證分析案例目錄TOC\o"1-2"\h\u1351基于評論文本的江西5A風(fēng)景區(qū)旅游評價實證分析 121331.1研究區(qū)域和數(shù)據(jù)的預(yù)處理 2279121.1.1研究區(qū)域 285851.1.2數(shù)據(jù)的來源 360601.1.3爬取數(shù)據(jù)的問題及解決方法 420441.1.4數(shù)據(jù)的預(yù)處理 5219691.2基于LDA模型的江西5A級旅游景區(qū)評價指標確立 628671.2.1旅游景區(qū)關(guān)注度的分布特征 6237721.2.2基于文本挖掘的情感值分析 831651.2.3LDA主題建模的結(jié)果 10182401.3基于LDA改進AHP的江西5A級旅游景區(qū)評價體系 13277201.3.1確定旅游目的地的評價指標 13245881.3.2旅游目的地評價體系的建立 131.1研究區(qū)域和數(shù)據(jù)的預(yù)處理1.1.1研究區(qū)域江西省位于我國的中部地區(qū),旅游發(fā)展區(qū)位與資源優(yōu)勢明顯。江西省有著“天然氧吧”的美譽,不僅森林覆蓋面積將近60%,而且生態(tài)環(huán)境優(yōu)勢顯著。5A級景區(qū)就多達十幾家,其中就包括著名的廬山、滕王閣和井岡山等國家風(fēng)景名勝區(qū)。廬山風(fēng)景區(qū)和滕王閣因名人而名聲大噪。井岡山和瑞金景區(qū)作為我國著名的紅色革命旅游目的地,受到大批國內(nèi)外知名人士的來訪。同時還擁有我國最大的淡水湖泊—鄱陽湖,鄱陽湖擁有豐富的動植物資源,大量鳥類在此棲息。這些優(yōu)質(zhì)的旅游資源為江西旅游發(fā)展提供強有力的支撐。此外,江西省擁有聞名國內(nèi)外的“世界瓷都”—景德鎮(zhèn)景區(qū),還包括具有地方特色景觀的婺源景區(qū),“中國道教第一山”的龍虎山景區(qū)。江西省人文薈萃,在這片土地上先后誕生了曾鞏、湯顯祖、朱熹等一大批文人墨客,這些都為江西旅游行業(yè)發(fā)展提供人文支撐。此外,江西區(qū)位優(yōu)勢明顯,毗鄰經(jīng)濟發(fā)達的東南沿海省份,與東南部地區(qū)形成良好的互補,一方面江西憑借其優(yōu)質(zhì)的旅游資源一舉成為經(jīng)濟發(fā)達城市的“后花園”,另一方面,而東南沿海城市也為江西旅游市場形成提供了強有力的資金支撐,這些無疑為江西旅游業(yè)發(fā)展提供了優(yōu)良的區(qū)位優(yōu)勢。A級景區(qū)的數(shù)量是衡量一個地理區(qū)域旅游資源豐富程度的重要指標,江西省旅游資源豐富,截止2020年6月30日,江西省內(nèi)的5A級旅游景區(qū)數(shù)量達到11家,4A級景區(qū)高達146家,3A級和2A級景區(qū)分別為226家和37家。江西省作為我國中部地區(qū)的旅游大省,其旅游業(yè)發(fā)展較早,而且人文資源和區(qū)位優(yōu)勢明顯,但旅游資源優(yōu)勢與旅游經(jīng)濟呈現(xiàn)明顯不相匹配的問題,并且作為全省5A級旅游發(fā)展標桿的廬山、滕王閣以及井岡山等旅游景區(qū),競爭力和知名度也不如中部其他省份的同類景區(qū)。本研究以江西省11個5A級旅游景區(qū)為例,爬取國內(nèi)7大主流在線旅游訂票APP上游客點評數(shù)據(jù),基于LDA改進的層次分析法對旅游景區(qū)評價指標作出科學(xué)的評估,為旅游目的地管理者決策的制定提供科學(xué)的依據(jù)以及全新的視角和方法。1.1.2數(shù)據(jù)的來源本研究選取攜程網(wǎng)、同程網(wǎng)、大眾點評等7個國內(nèi)主要在線旅游平臺的用戶評論作為數(shù)據(jù)樣本,對應(yīng)江西省所有11個5A旅游景區(qū)用戶評論的文本內(nèi)容。按照規(guī)則進行檢索,以滕王閣2018年11月1日正式榮升國家5A級景區(qū)為時間節(jié)點,采用Python軟件采集2018年11月1日至2020年12月30日的江西省所有5A級旅游景區(qū)用戶在線旅游評論的原始數(shù)據(jù)共計266581條,原始數(shù)據(jù)包括用戶名、評論性質(zhì)、評論時間和評論原文。本文使用Python軟件對旅游網(wǎng)站(攜程網(wǎng)、同程網(wǎng)、去哪兒網(wǎng)等)進行爬蟲處理,網(wǎng)絡(luò)爬蟲分為四個步驟。第一,通過調(diào)用Requests包向網(wǎng)頁發(fā)起請求,通過url得到取網(wǎng)址的源碼。第二,獲取響應(yīng)內(nèi)容,得到Response,即各網(wǎng)站景區(qū)HTML頁面。第三,解析內(nèi)容,使用正則表達式Re和BeautifulSoup來解析,BeautifulSoup本身自帶遍歷文檔搜索,支持正則表達式,配合使用可以提取頁面所有元素,使用find.all()獲得信息。第四,保存數(shù)據(jù),將獲取的數(shù)據(jù)保存為文本。在獲取原始數(shù)據(jù)后,需要對數(shù)據(jù)進行預(yù)處理。將爬取得到的評論文本使用pandas數(shù)據(jù)包中df.duplicated和d#drop_duplicates函數(shù)刪除相同的評論內(nèi)容,包括同一個用戶的相同和相似評論,或者用戶復(fù)制粘貼的其他人的評論。通過以上處理,保留的數(shù)據(jù)量為145625條。數(shù)據(jù)來源分布如圖1-1所示。接著對所有景點的有效評論進行歸類整理,得到江西省11個5A級旅游景區(qū)評論數(shù)據(jù)庫表1.1。圖1-1數(shù)據(jù)來源表1.1江西省5A級旅游景區(qū)評論數(shù)據(jù)庫編號地區(qū)/市旅游風(fēng)景區(qū)評論數(shù)/條編號地區(qū)/市旅游風(fēng)景區(qū)評論數(shù)/條1九江廬山風(fēng)景區(qū)198197贛州瑞金共和國景區(qū)35812上饒三清山風(fēng)景區(qū)194128宜春明月山風(fēng)景區(qū)74293井岡山井岡山風(fēng)景區(qū)49069撫州大覺山風(fēng)景區(qū)82414景德鎮(zhèn)景德鎮(zhèn)風(fēng)景區(qū)1380810上饒龜峰風(fēng)景區(qū)74915鷹潭龍虎山風(fēng)景區(qū)1137111南昌滕王閣景區(qū)333516上饒婺源江灣風(fēng)景區(qū)162161.1.3爬取數(shù)據(jù)的問題及解決方法攜程和大眾點評作為國內(nèi)大型的OTA(OnlineTravelAgency)網(wǎng)站,其反爬蟲策略十分成熟,本文在爬取研究所需數(shù)據(jù)時難點和解決辦法如下。(1)攜程將禁止訪問同一個經(jīng)常訪問的IP。通過設(shè)置IP代理池,定期更換IP地址,就可以實現(xiàn)擺脫IP封鎖。(2)攜程的旅游評論數(shù)據(jù)采用了大量的Ajax動態(tài)網(wǎng)頁技術(shù),并對動態(tài)數(shù)據(jù)的傳輸進行加密,因此很難通過訪問網(wǎng)站直接捕獲目標數(shù)據(jù)。本文利用瀏覽器仿真組件來模擬人工訪問網(wǎng)站的行為,獲取動態(tài)數(shù)據(jù)。(3)旅游評論的文本數(shù)據(jù)中除了文字外,還有圖片、鏈接和表達方式。這些特殊的數(shù)據(jù)格式在存儲文本時會導(dǎo)致編碼混亂。本文利用正則表達式去除網(wǎng)頁中的圖片和鏈接,利用Python表達式過濾工具箱對表達式數(shù)據(jù)進行過濾,最終得到可存儲的純文本旅游數(shù)據(jù)。1.1.4數(shù)據(jù)的預(yù)處理(1)停用詞典建立雖然已經(jīng)對旅游景區(qū)文本中的重復(fù)的評論進行了剔除,但仍然有一部分中文文本是對本文的LDA主題分析研究沒有意義的,因此需要在進行文本分詞前需要設(shè)立一個停用詞典,以去除對主題分析用處不大的詞語。本文使用哈工大停用詞表的最新版stopwords1893,除了常規(guī)的停用詞外,還有一些詞對LDA模型的主題識別用處不大。本研究的評論數(shù)據(jù)是涉及旅游類的,里面會出現(xiàn)大量人名、物名、事物名以及旅游這一名詞,而這些名詞對LDA模型的題識別基本沒有作用,因此需要將這些詞加入停用詞典。(2)數(shù)據(jù)的分詞本研究將收集的所有有效評論導(dǎo)入Excel表中作為文本信息,使用本文的中文分詞工具選用Python環(huán)境中的jieba中文分詞庫對文本進行分詞處理,對于軟件分析不準確或錯誤的詞人為的進行改正和替換,為使用LDA模型進行主題建模做好數(shù)據(jù)準備。(3)LDA參數(shù)的設(shè)置本文借用開源軟件R中的tm包對爬取的游客評論數(shù)據(jù)進行預(yù)處理,其步驟具體分為以下幾步:第一,將145625條評論導(dǎo)入.txt文件當(dāng)中,形成一個語料庫,并通過建立的停用詞表去除一標點符號、數(shù)字和對主題提取無關(guān)的詞,從而得到一個145625行54521列的文檔-詞矩陣。通過不斷的調(diào)試,來設(shè)置文檔-主題分布參數(shù)α,主題-詞分布的參數(shù)β和迭代次數(shù),LDA算法的部分代碼如表1.2所示。首先將主題數(shù)K依次定為5-20,發(fā)現(xiàn)K在9與11之間,模型的困惑度較低,如圖1-2所示。因此將主題數(shù)依次設(shè)定為9、10、11,運行LDA模型,觀察主題之間的語義排他性與主題內(nèi)部的語義一致性,發(fā)現(xiàn)主題數(shù)為9的主題模型,能較好地涵蓋游客評論的內(nèi)容。因此將主題數(shù)K=9作為本實驗的最優(yōu)主題數(shù)。表1.2LDA算法的部分代碼LDA算法的部分偽代碼Step1:import

numpy

as

np

Step2:import

lda

Step3:import

lda.datasets

Step4:model

=

lda.LDA(n_topics=9,

n_iter=1000,

random_state=1)

Step5:model.fit(np.asarray(weight))

Step6:topic_word

=

model.topic_word_#計算文檔-主題分布

Step7:doc_topic

=

model.doc_topic_

Step8:print("type(doc_topic):

{}".format(type(doc_topic)))

Step9:print("shape:

{}".format(doc_topic.shape))

#得到每段旅游評論最可能從屬的主題Step10:label

=

[]

Step11:for

n

in

range(145625):

Step12:topic_most_pr

=

doc_topic[n].argmax()

Step13:label.append(topic_most_pr)

Step14:print("doc:

{}

topic:

{}".format(n,

topic_most_pr))

圖1-2困惑度與主題數(shù)的關(guān)系1.2基于LDA模型的江西5A級旅游景區(qū)評價指標確立1.2.1旅游景區(qū)關(guān)注度的分布特征網(wǎng)絡(luò)有效評論數(shù)是旅游目的地關(guān)注度的直接反映,網(wǎng)絡(luò)旅游關(guān)注度的公式為Ai=Xi/Y,Xi為第i風(fēng)景區(qū)的有效評論數(shù),Y為風(fēng)景區(qū)有效評論的總和。為了更好地揭示江西省11個5A級旅游目的地網(wǎng)絡(luò)旅游景區(qū)關(guān)注度差異和影響因素,創(chuàng)新性地用氣泡的大小代表旅游地的關(guān)注度大小,以旅游景點評論數(shù)據(jù)為基礎(chǔ)分析了旅游景區(qū)網(wǎng)絡(luò)旅游關(guān)注度的分布特征。對江西省的11個5A級景區(qū)的145625有效評論分析可以發(fā)現(xiàn),景區(qū)的有效評論呈現(xiàn)顯著的離散型,而且極化特征明顯,其中大部分評論(108624條)集中于北部的環(huán)鄱陽湖的景區(qū)當(dāng)中,即占總有效評論的71.6%。通過查閱江西統(tǒng)計局發(fā)布的江西省各省市生產(chǎn)總值并對照本研究得出的江西省各5A級旅游景區(qū)的網(wǎng)絡(luò)關(guān)注度,可以發(fā)現(xiàn)江西5A級旅游景區(qū)的關(guān)注度與當(dāng)?shù)氐貐^(qū)經(jīng)濟和旅游發(fā)展水平呈明顯的正比關(guān)系,結(jié)果如表1.3所示。網(wǎng)絡(luò)有效評論數(shù)是旅游目的地關(guān)注度的直接反映。為了更好地揭示江西省11個5A級旅游景區(qū)之間的關(guān)注度和影響因素差異,創(chuàng)新性地用氣泡的大小代表旅游地的關(guān)注度大小,以旅游景點評論數(shù)據(jù)為基礎(chǔ)分析了旅游景區(qū)網(wǎng)絡(luò)旅游關(guān)注度的分布特征。對江西省的11個5A級景區(qū)的145625有效評論分析可以發(fā)現(xiàn),景區(qū)的有效評論呈現(xiàn)顯著的離散型,而且極化特征明顯,其中大部分評論集中于北部的環(huán)鄱陽湖的景區(qū)當(dāng)中。表1.3各景區(qū)的關(guān)注度—滿意度和人均可支配收入景區(qū)關(guān)注度滿意度人均可支配收入(元)景區(qū)關(guān)注度滿意度人均可支配收入(元)滕王閣景區(qū)0.2290.90944136明月山風(fēng)景區(qū)0.0400.87934831三清山風(fēng)景區(qū)0.1630.94337456井岡山風(fēng)景區(qū)0.0400.91037543廬山風(fēng)景區(qū)0.1560.93638076龜峰風(fēng)景區(qū)0.0280.94837456婺源風(fēng)景區(qū)0.1170.89537456大覺山風(fēng)景區(qū)0.0180.91534518景德鎮(zhèn)風(fēng)景區(qū)0.1160.89940143瑞金風(fēng)景區(qū)0.0030.90134826龍虎山風(fēng)景區(qū)0.0920.89037151分景區(qū)來看,龜峰風(fēng)景區(qū)的滿意度最高,達到91.8%,三清山風(fēng)景區(qū)和廬山風(fēng)景區(qū)位列第二和第三,明月山風(fēng)景區(qū)的游客滿意度最低。滿意度的計算方式為:滿意度Si=Pi/(Pi+Ni),Pi為第i個目的地有效評論中的正面印象數(shù),Ni為第i個目的地有效評論中的負面印象數(shù)。圖1-3景點關(guān)注度的空間分布圖通過ArcGIS10.7軟件對江西省11個5A級旅游景區(qū)進行可視化處理,結(jié)果如圖1-3所示。由圖可見,在空間分布上,江西省旅游資源和網(wǎng)絡(luò)評論分布存在明顯不均衡的現(xiàn)象,大部分5A景區(qū)以及網(wǎng)絡(luò)評論聚于北部的環(huán)鄱陽湖地區(qū),包括南昌、上饒、九江等地,其中大部分旅游資源集中在鄱陽湖生態(tài)經(jīng)濟區(qū),而中南部與西部地區(qū)等地5A級景區(qū)數(shù)量相對偏少格局。同時,網(wǎng)絡(luò)旅游關(guān)注度呈現(xiàn)明顯的極化現(xiàn)象,呈現(xiàn)由北-西-南逐步遞減。1.2.2基于文本挖掘的情感值分析隨著社交平臺的發(fā)展和普及,越來越多的游客樂于在社交網(wǎng)絡(luò)上分享自己旅行體驗,但是他們大多數(shù)只會選擇性地將自己的正面印象或負面印象表達出來。將江西省11個5A級旅游景區(qū)按照景區(qū)類型可以分為兩類:一是人文類景區(qū):井岡山風(fēng)景區(qū)、景德鎮(zhèn)風(fēng)景區(qū)、瑞金風(fēng)景區(qū)、滕王閣景區(qū)和婺源風(fēng)景區(qū)。二是自然類景區(qū):廬山風(fēng)景區(qū)、三清山風(fēng)景區(qū)、龍虎風(fēng)景區(qū)、明月山風(fēng)景區(qū)、大覺山風(fēng)景區(qū)和龜峰風(fēng)景區(qū)。使用軟件ROSTCOM6.0對不同類別的景點評論中正面及負面詞匯進行識別和統(tǒng)計,得到的結(jié)果如表1.4所示,總體而言正面印象數(shù)遠高于負面印象數(shù),江西5A級旅游景點的總體滿意度均值達到91.05%。這與《2018江西旅游景區(qū)暑期游客滿意度報告》中江西5A級景區(qū)調(diào)查的游客滿意度90.00%極其接近。對爬取的網(wǎng)絡(luò)評論數(shù)據(jù)根據(jù)其情感值分為正面印象和負面印象兩個文檔,然后分別對負面印象和正面印象的評論進行分詞,待分詞結(jié)束后,將文本文件(.txt)導(dǎo)入ROSTOM6.0軟件中,分析軟件ROSTCM6.0“功能性分析”一欄中的“詞頻分析”功能提取出詞頻排名50的詞,利用過濾詞表過濾無關(guān)詞匯。對錯誤分詞結(jié)果進行相應(yīng)修正,將修正的詞語加入用戶詞典,并過濾掉與研究無關(guān)的詞匯,重新對文本進行分詞處理,篩選的詞通過LDA模型進行主題分類,得到表1.5。表1.4情感值分析景區(qū)類別正面印象數(shù)(條)負面印象數(shù)(條)人文類景區(qū)642677595自然類景點662986892匯1.5正負面高頻詞及情感特征主題詞負面印象高頻詞(前5)排序服務(wù)意識不滿態(tài)度差勁糟糕失望1景區(qū)管理管理混亂危險垃圾廁所4價格感知不值太貴商業(yè)化坑人現(xiàn)金3游玩體驗辛苦排隊秩序素質(zhì)人多2主題詞正面印象高頻詞(前5)排序服務(wù)意識值得態(tài)度好評舒服耐心3環(huán)境質(zhì)量空氣清新漂亮干凈美麗2價格感知劃算便宜免費優(yōu)惠性價比4游玩體驗好玩索道美景開心壯觀1通過高頻詞和語義網(wǎng)絡(luò)結(jié)構(gòu)對游客評論數(shù)據(jù)進行情感值的提取,正面評論主要是體現(xiàn)在四個方面:一是對游玩體驗高度認同,主要體現(xiàn)在“好玩”,“索道”,“美景”,“開心”,“壯觀”等高頻詞上;二是對景區(qū)內(nèi)的景色和環(huán)境感到滿意,通過“空氣”,“清新”“漂亮”,“干凈”,“美麗”等高頻詞來體現(xiàn);三是對景區(qū)內(nèi)的工作人員的服務(wù)以及對待游客的態(tài)度感到滿意,主要體現(xiàn)在“值得”,“態(tài)度”,“好評”,“舒服”,耐心等高頻詞上;四是對景區(qū)內(nèi)商品的價格感到滿意,認為景區(qū)的商品性價比還是很高的,甚至有些還是免費給游客提供的,這主要體現(xiàn)在“劃算”,“便宜”,“免費”,“優(yōu)惠”,“性價比”等高頻詞上。通過對正面印象進行主題提取時發(fā)現(xiàn)對游客選擇目的地最大的因素依次是游玩體驗、環(huán)境質(zhì)量、服務(wù)感知和價格因素。在負面評論中也主要體現(xiàn)在四個方面,一是對景區(qū)的服務(wù)質(zhì)量感到不滿意,主要體現(xiàn)在“不滿”,“態(tài)度”,“差勁”,“糟糕”,“失望”等高頻詞上;二是對景區(qū)娛樂項目數(shù)量不足,經(jīng)常要排隊感到不滿意,主要體現(xiàn)在“辛苦”,“排隊”,“秩序”,“素質(zhì)”,“人多”等高頻詞上;三是對景區(qū)內(nèi)部商品價格太高的吐糟,隨著無紙幣化進程的推進,還有些商家不提供電子支付,只收取現(xiàn)金,這主要體現(xiàn)在“不值”,“太貴”,“商業(yè)化”,“坑人”,“現(xiàn)金”等高頻詞上;四是對景區(qū)管理的不滿意,在一些比較危險的地方,甚至不安裝護欄,給旅游造成了一定的安全隱患,這主要體現(xiàn)在“管理”,“混亂”,“危險”,“垃圾”,“廁所”等高頻詞上。通過對負面印象進行主題提取時發(fā)現(xiàn)對游客選擇目的地最大的因素依次是服務(wù)感知、游玩體驗、價格因素和景區(qū)管理。1.2.3LDA主題建模的結(jié)果主題建模結(jié)果包含了多個主題,主題建模結(jié)果包含了多個主題,通過設(shè)置參數(shù)來選擇主題數(shù)量,得到的主題包括對應(yīng)的主題詞以及主題詞對應(yīng)的權(quán)重,按照權(quán)重的大小排序,篩選出該主題下可能的主題詞。本文將模型參數(shù)設(shè)定主題數(shù)量為9,關(guān)鍵詞數(shù)量為10,提取結(jié)果如下所示:Topic1:0.012*"方便"+0.012*"索道"+0.011*"公交"+0.011*"停車場"+0.011*"特色"+0.010*"排隊"+0.010*"危險"+0.009*"排隊"+0.008*"護欄"+0.008*"垃圾桶"。Topic2:0.025*"滕王閣"+0.013*"廬山"+0.011*"三清山"+0.010*"龜峰"+0.010*"大覺山"+0.009*"龍虎山"+0.009*"婺源"+0.008*"明月山"+0.006*"井岡山"+0.005*"景德鎮(zhèn)"。Topic3:0.065*"方便"+0.051*"取票"+0.043*"優(yōu)惠"+0.026*"訂票"+0.025*"便宜"+0.023*"小貴"+0.022*"價格"+0.019*"門票"+0.018*"坑人"+0.016*"合適"。Topic4:0.029*"駱駝峰"+0.021*"丹霞地貌"+0.020*"瀑布"+0.015*"懸棺"+0.013*"竹筏"+0.013*"漂流"+0.011*"便捷"+0.010*"道教"+0.010*"棧道"+0.009*"特色"。Topic5:0.047*"特色"+0.021*"服務(wù)"+0.020*"管理"+0.017*"不錯"+0.015*"環(huán)境"+0.014*"遺憾"+0.013*"風(fēng)景區(qū)"+0.011*"旅行"+0.011*"窗口"+0.011*"景點"。Topic6:0.014*"態(tài)度"+0.012*"滿意"+0.010*"窗口"+0.008*"服務(wù)"+0.008*"不錯"+0.007*"冷淡"+0.007*"景區(qū)"+0.007*"導(dǎo)游"+0.006*"說話"+0.006*"熱情"。Topic7:0.012*"曬圖"+0.011*"全家"+0.011*"分享"+0.009*"拍照"+0.009*"商業(yè)化"+0.008*"不亞于"+0.008*"休閑游"+0.007*"網(wǎng)上"+0.008*"上傳"。Topic8:0.037*"風(fēng)景"+0.027*"山清水秀"+0.025*"干凈"+0.022*"秀麗"+0.021*"旅途"+0.020*"美麗"+0.020*"景色宜人"+0.019*"漂亮"+0.019*"不舍得"。Topic9:0.019*"開心"+0.019*"刺激"+0.016*"快樂"+0.016*"好看"+0.016*"不錯"+0.015*"不舍得"+0.015*"推薦"+0.014*"大贊"+0.013*"游玩"+0.013*"滿意"。根據(jù)LDA算法的運行結(jié)果,得到145625條旅游評論數(shù)據(jù)文本和主題分布θi,j和主題的詞項分布φj,v,具體如表1.6和表1.7所示。θ1,2=0.4301表明評論文本1的主要內(nèi)容為Topic2的概率為0.4301。根據(jù)表1.8的高概率主題詞,可為每個主題命名,同時分析主題的內(nèi)容。表1.6所有旅游評論的主題分布θi,jTopic1Topic2Topic3Topic4Topic5Topic6Topic7Topic8Topic910.02410.43010.01310.06870.01320.06600.13990.04830.196220.01550.02910.01560.01550.01540.01580.01520.10200.776330.01620.01620.01620.01620.05940.05300.04940.07870.70411456230.02240.72180.02240.02240.02240.02240.09810.04480.02251456240.03150.71550.03160.03150.03160.03150.03150.06310.03161456250.03140.42010.03140.03140.03140.32820.03140.06280.0314表1.7旅游評論主題的7個概率詞主題主題的7個高概率詞Topic1方便索道公交停車場特色排隊危險Topic2滕王閣廬山三清山龜峰大覺山龍虎山婺源Topic3方便取票優(yōu)惠訂票便宜小貴價格Topic4駱駝峰丹霞地貌瀑布懸棺竹筏漂流便捷Topic5特色服務(wù)管理不錯環(huán)境遺憾風(fēng)景Topic6態(tài)度滿意窗口服務(wù)冷淡景區(qū)導(dǎo)游Topic7曬圖全家分享拍照商業(yè)化休閑游網(wǎng)上Topic8風(fēng)景山清水秀干凈秀麗旅途美麗景色宜人Topic9開心刺激快樂好看不錯不舍得推薦根據(jù)表1.7的主題-詞分布,本文只截取與主題相關(guān)的前7的高概率詞,發(fā)現(xiàn)主題內(nèi)部的詞高度相關(guān)。如Topic2中高概率詞“滕王閣”,“廬山”,“三清山”,“龜峰”,“大覺山”,“龍虎山”,“婺源”均與緊密相關(guān),這表明LDA模型在提取旅游評論數(shù)據(jù)的潛在主題方面是有效的,雖然LDA模型可以有效從大量數(shù)據(jù)集中挖掘出潛在的主題,但每個分類結(jié)果的主題到底如何凝練和表達,并未形成標準或統(tǒng)一方法[43]。已有研究一般由研究者基于研究目標自行判斷主題語義。因此,即使采用相同文本集合得到同樣的主題分類結(jié)果,不同研究者可能提煉出不同的主題語義。針對這一問題,由不同參與者分別提煉主題后,判斷結(jié)果的相關(guān)性,減少主題凝練結(jié)果的主觀性。本文提出對每個主題的高概率特征詞進基于旅游景區(qū)評價維度的方法,為LDA分類結(jié)果的主題語義提煉提供標準和約束框架,以控制語義描述的一致性。因此,根據(jù)主題2中的前7個高頻詞,將Topic2命名為“地域關(guān)注度”;Topic1中高概率詞“方便”,“索道”,“公交”,“停車場”,“特色”,“排隊”,“危險”均相關(guān),說明游客對有危險性的設(shè)施表露出了擔(dān)憂,有關(guān)方面應(yīng)根據(jù)游客的相關(guān)反饋予以相應(yīng)的解決,將Topic1命名為“旅游設(shè)施”;主題3中的“方便”,“取票”,“優(yōu)惠”,“訂票”,“便宜”,“小貴”,“價格”,體現(xiàn)了游客在旅游時會考慮到游玩時產(chǎn)生的成本,因此將Topic3命名為“價格感知”;在主題4中出現(xiàn)了較多的游玩項目,如“竹筏”和“漂流”等高頻詞,可以將Topic4命名為“游覽項目”;在主題5中出現(xiàn)了“服務(wù)”,“管理”,“不錯”和“遺憾”等高頻詞,體現(xiàn)了游客對旅游景區(qū)管理的重視程度,因此,將Topic5命名為“景區(qū)管理”;主題6中出現(xiàn)了大量關(guān)于服務(wù)的一些詞匯,如“態(tài)度”,“滿意”,“服務(wù)”,“冷淡”等,將Topic6命名為“服務(wù)意識”;主題7中的“全家”,“拍照”,“曬圖”,“分享”,“網(wǎng)上”等高頻詞,體現(xiàn)旅游一般喜歡和自己的親人一起去游玩,而且喜歡將自己所聞所見發(fā)布在網(wǎng)上進行分享,因此,可以將主題Topic7命名為“景區(qū)氛圍”;主題8中“山清水秀”,“秀麗”,“美麗”,“景色宜人”等高頻詞,無不體現(xiàn)出江西旅游景區(qū)的景觀讓游客贊不絕口,因此,將Topic8命名為“景觀質(zhì)量”;游客的直接感知體驗包括“開心”,“刺激”,“快樂”,“好看”,“不錯”,“舍不得”和“推薦”,因此,將Topic9命名為“游玩體驗”。1.3基于LDA改進AHP的江西5A級旅游景區(qū)評價體系1.3.1確定旅游目的地的評價指標根據(jù)LDA模型可以得到旅游景區(qū)評論的主題以及主題所對應(yīng)的概率值,如表1.8所示。計算各個主題所對應(yīng)的概率值的方法為:取表1.6中每條評論數(shù)據(jù)對應(yīng)的概率值得累加的平均值。從表中可以看出在旅游景區(qū)評價指標中,游玩體驗(0.206)表明游客在選擇旅游景區(qū)時最為看重游玩的體驗,這說明一個旅游景區(qū)真正要想發(fā)展好,游玩體驗、地域關(guān)注度、服務(wù)意識和景觀質(zhì)量缺一不可。地域關(guān)注度(0.164)表明旅游者選擇目的地時,很看重的景區(qū)的知名度。此外,服務(wù)意識(0.119)、景觀質(zhì)量(0.117)和游覽項目(0.102)的概率值均大于0.1,其次是價格感知(0.098)、景區(qū)管理(0.086)、旅游設(shè)施(0.056)和景區(qū)氛圍(0.053)。當(dāng)通過LDA模型計算所有評論數(shù)據(jù)對應(yīng)的主題的概率值時,可以用同樣的方法計算出每個旅游景區(qū)評論所對應(yīng)的概率值。表1.8旅游景區(qū)評論主題及對應(yīng)的概率值指標(主題)內(nèi)容概率值旅游目的地評價指標Topic1旅游設(shè)施0.056Topic2地域關(guān)注度0.164Topic3價格感知0.098Topic4游覽項目0.102Topic5景區(qū)管理0.086Topic6服務(wù)意識0.119Topic7景區(qū)氛圍0.053Topic8景觀質(zhì)量0.117Topic9游玩體驗0.2061.3.2旅游目的地評價體系的建立通過LDA模型不僅能得出旅游目的地的評價指標,而且還可以計算出評價指標對應(yīng)的權(quán)重。通過LDA算法計算出江西省11個5A級旅游景區(qū)對評價指標的重要程度(權(quán)重),見附錄3,各風(fēng)景區(qū)的對應(yīng)評價主題的概率的計算方式:計算每條評論對應(yīng)主題的概率值的累加值,然后對累加值求平均。按照層次分析法的思路,如圖1-4所示,利用LDA模型計算出指標層的權(quán)重以及方案層對應(yīng)指標的權(quán)重,這樣就可以計算出每個旅游景區(qū)的綜合得分,進而對他們進行排序。結(jié)果如表1.9所示。婺源風(fēng)景區(qū)中其對應(yīng)的Topic5(景區(qū)管理)權(quán)重最高,值為0.090;滕王閣風(fēng)景區(qū)對應(yīng)Topic7(景區(qū)氛圍)權(quán)重最高,值為0.204;三清山風(fēng)景區(qū)評論中Topic5(景區(qū)管理)權(quán)重最高,對應(yīng)的值為0.211;瑞金風(fēng)景區(qū)對應(yīng)Topic3(價格感知)權(quán)重最高,其值為0.120;明月山風(fēng)景區(qū)旅游評論中對應(yīng)Topic3(價格感知)權(quán)重最高,值為0.104;廬山風(fēng)景區(qū)旅游評論中對應(yīng)Topic9(游玩體驗)權(quán)重最高,值為0.232;龍虎山風(fēng)景區(qū)旅游評論中對應(yīng)Topic5(景區(qū)管理)權(quán)重最高,值為0.117;景德鎮(zhèn)風(fēng)景區(qū)旅游評論中對應(yīng)Topic3(價格感知)權(quán)重最高,值為0.124;井岡山風(fēng)景區(qū)旅游評論中對應(yīng)Topic6(服務(wù)意識)權(quán)重最高,值為0.212;龜峰風(fēng)景區(qū)旅游評論中對應(yīng)Topic8(景觀質(zhì)量)權(quán)重最高,值為0.120;大覺山風(fēng)景區(qū)旅游評論中對應(yīng)Topic5(景區(qū)管理)權(quán)重最高,值為0.083。圖1-4江西5A級景區(qū)層次結(jié)構(gòu)圖表1.9各旅游景區(qū)對應(yīng)的主題的概率值主題概率值婺源滕王閣三清山瑞金明月山廬山龍虎山景德鎮(zhèn)井岡山龜峰大覺山Topic10.0560.0560.1640.0980.0500.0860.1150.0530.1170.1060.1000.055Topic20.1640.0530.1700.1040.0720.1000.1500.0830.0910.0620.0700.045Topic30.0980.0820.0990.0550.1200.1040.1450.0600.1240.1040.0840.023Topic40.1020.0500.1070.0670.0940.0730.0890.0420.1230.2060.0780.061Topic50.0860.0900.1180.2110.0650.0690.1060.1170.0500.0640.0270.083Topic60.1190.0450.1450.0840.0650.0720.0930.0460.1120.2120.1000.026Topic70.0530.0530.2040.0980.0690.0790.1020.0460.0730.1550.0450.076Topic80.1170.0470.1260.1050.0290.0890.0920.0410.1080.2040.1200.039Topic90.2060.0700.1010.0680.0820.0820.2320.0570.0940.1150.0460.053綜合得分0.0610.1320.0940.0730.0850.1380.0620.0990.1340.0740.049排序1035861942711注:以上景區(qū)名由于表格篇幅原因全部省略“風(fēng)景區(qū)”。對于婺源景區(qū),其綜合得分為X1,最終計算X1為0.061。由表1.9可知,婺源景區(qū)在Topic6(服務(wù)意識)的概率值最低,這體現(xiàn)該景區(qū)在今后應(yīng)該著力提升景區(qū)的服務(wù)意識,不斷提高游客滿意度。滕王閣景區(qū),其綜合得分為X2,最終計算X2為0.132。由表1.9可知,滕王閣景區(qū)在Topic3(價格感知)的概率值最低,這體現(xiàn)該景區(qū)在今后應(yīng)該著力降低旅游景區(qū)的消費價格,可以豐富景區(qū)內(nèi)的游覽項目,通過薄利多銷的方式提高景區(qū)的收入。三清山風(fēng)景區(qū),其綜合得分為X3,最終計算X3為0.094。由表1.9可知,三清山景區(qū)在Topic9(游玩體驗)的概率值最低,游玩體驗作為景區(qū)間競爭的王牌,這體現(xiàn)該景區(qū)在今后應(yīng)該著力提升景區(qū)的游玩體驗,不斷提高游客滿意度。瑞金風(fēng)景區(qū),其綜合得分為X4,最終計算X4為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論