基于Python網(wǎng)絡(luò)爬蟲的博物館評論數(shù)據(jù)分析系統(tǒng)設(shè)計與實現(xiàn)_第1頁
基于Python網(wǎng)絡(luò)爬蟲的博物館評論數(shù)據(jù)分析系統(tǒng)設(shè)計與實現(xiàn)_第2頁
基于Python網(wǎng)絡(luò)爬蟲的博物館評論數(shù)據(jù)分析系統(tǒng)設(shè)計與實現(xiàn)_第3頁
基于Python網(wǎng)絡(luò)爬蟲的博物館評論數(shù)據(jù)分析系統(tǒng)設(shè)計與實現(xiàn)_第4頁
基于Python網(wǎng)絡(luò)爬蟲的博物館評論數(shù)據(jù)分析系統(tǒng)設(shè)計與實現(xiàn)_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

摘要:博物館是連接過去、現(xiàn)在和未來的橋梁,為人類提供歷史文物參觀學(xué)習(xí),以史鑒今的歷史事件學(xué)習(xí)和精神指引。本文通過Python網(wǎng)絡(luò)爬蟲技術(shù),分析博物館的評論數(shù)據(jù),以便推進博物館的服務(wù)改善和推廣。通過分析網(wǎng)絡(luò)評論,深入了解公眾對博物館的認識和需求,為提高博物館展示和服務(wù)水平提供參考資料。解說數(shù)據(jù)分析是結(jié)合自然語言處理技術(shù)提取重要信息。利用數(shù)據(jù)可視化技術(shù),可以直觀地呈現(xiàn)分析結(jié)果,把握社會動向和意見。本研究旨在為中國博物館的發(fā)展提供技術(shù)支持和改進建議,使博物館在旅游業(yè)和文化產(chǎn)業(yè)相結(jié)合的新時代發(fā)揮更重要的作用。關(guān)鍵詞:數(shù)據(jù)分析;Python;網(wǎng)絡(luò)爬蟲;博物館1緒論1.1研究背景及意義選擇對博物館進行研究,是因為博物館,它是文化復(fù)合體,既是物質(zhì)的又是精神的統(tǒng)一體,既是自然的又是人文的統(tǒng)一體REF_Ref15467\r\h[1]。而我國的博物館還有巨大的發(fā)展前景,并且在這個旅游業(yè)與文化產(chǎn)業(yè)融合發(fā)展的新時代,博物館的旅游觀光具有極高的藝術(shù)價值和教育價值,在公共文化服務(wù)和旅游業(yè)的發(fā)展中發(fā)揮著舉足輕重的作用,是提高人民群眾的精神文化生活質(zhì)量的主要途徑REF_Ref16398\r\h[2]。明白博物館的重要性對于研究如何更好發(fā)展博物館有著不可忽視的積極意義。為改變博物館門前冷落、觀眾寥寥的局面,博物館人樹立精品意識,推出高品位的陳列和豐富多彩的專題展覽,以吸引觀眾,促進博物館的生存和發(fā)展,這已成為博物館界的共識REF_Ref30221\r\h[3]。所以我將使用爬蟲技術(shù)對網(wǎng)上的相關(guān)評論進行爬取收集。如今,由于物聯(lián)網(wǎng)、云計算REF_Ref5682\r\h[4]以及智能設(shè)備的普及等諸多技術(shù)趨勢發(fā)展下。海量數(shù)據(jù)以前所未有的速度從不同來源(如醫(yī)療衛(wèi)生、政府、社交網(wǎng)絡(luò)、營銷、金融等)生成。在后臺,強大的系統(tǒng)和分布式應(yīng)用程序支持這樣的多連接系統(tǒng)。例如,智能電網(wǎng)系統(tǒng)REF_Ref5947\r\h[5],醫(yī)療系統(tǒng)REF_Ref6149\r\h[6],類似沃爾瑪?shù)牧闶巯到y(tǒng)REF_Ref6358\r\h[7],政務(wù)系統(tǒng)REF_Ref6913\r\h[8]等。獲取信息的方法越來越完善,這對我收集研究評論有很大幫助。博物館不僅僅是一個建筑,它里面包含的文物所蘊含的文化價值不可估量,文化是一個民族的重要組成部分,每個民族文化都不一樣,所以,博物館他代表著一個民族所包含的底蘊。要讓收藏在博物館里的文物、陳列在廣闊大地上的遺產(chǎn)、書寫在古籍里的文字都活起來,讓中華文明同世界各國人民創(chuàng)造的多彩文明,一道為人類提供正確的精神指引和強大的精神動力REF_Ref8817\r\h[9]。博物館就是要讓這些文物像鮮活的生命一樣展現(xiàn)在觀眾眼前,要讓觀眾通過博物館里的文物了解到其包含的文化底蘊,加強觀眾的文化修養(yǎng),讓一個民族更加有特點和優(yōu)勢。通過觀眾本身的視角更容易明白觀眾缺少什么,因此,我想用Python網(wǎng)絡(luò)爬蟲技術(shù)對博物館評論數(shù)據(jù)進行分析,旨在為我國博物館的改進提供一些有價值的參考,希望能促進博物館的推廣和更好地建設(shè)博物館。1.2國內(nèi)外研究現(xiàn)狀1.2.1國外研究現(xiàn)狀在國外,博物館的數(shù)量不僅增加了,而且在規(guī)模、質(zhì)量和管理等各個方面都有了質(zhì)的飛躍。博物館的分類越來越多樣化,新型博物館層出不窮。在20世紀80年代,以《魁北克宣言》發(fā)表為標志,新博物館學(xué)自西方興起,高度重視博物館與人、與社會、與社會文化發(fā)展的關(guān)系,將關(guān)注焦點置于博物館的外向功能方面,帶動了全球博物館界把博物館建設(shè)的重心從“物”轉(zhuǎn)移到“人”,從收藏、展示轉(zhuǎn)移到教育、服務(wù)REF_Ref10763\r\h[10]。如今,“以人為本”的理念越來越深入人心。進入新時代,高校在思想政治教育上要堅持以人為本,提升思想政治教育的實效性,培養(yǎng)出合格的人才REF_Ref12628\r\h[11]。博物館作為履行公共文化服務(wù)職責(zé)的相應(yīng)機構(gòu)之一,也是參與公共文化服務(wù)體系的重要組成部分REF_Ref13650\r\h[12]。作為“人類的終身課程”博物館,它與社會的關(guān)系已成為世界各地博物館探索的新課題,博物館對觀眾的關(guān)注達到了前所未有的水平?!懂?dāng)代西方博物館發(fā)展態(tài)勢研究》認為:博物館的工作重心不再停留在物上,“以人為本”成為了博物館工作重心、主旨。博物館不再是施教和布道者的代名詞,如今建設(shè)為公眾和社會服務(wù)的開放型現(xiàn)代化博物館己經(jīng)成為當(dāng)今世界各地博物館建設(shè)的共識REF_Ref17781\r\h[13]。觀眾研究協(xié)會等專業(yè)組織的創(chuàng)立,研討會的不斷召開,專業(yè)書籍的出版,專業(yè)刊物的發(fā)行,博物館設(shè)立觀眾研究部門并聘用觀眾研究專職人員等等舉措和現(xiàn)象,不難看出國外博物館界對于觀眾研究的重視REF_Ref21315\r\h[14]。1.2.2國內(nèi)研究現(xiàn)狀在中國,有一項對微博用戶進行爬取從而來獲取相對應(yīng)的博物館評論。即通過后羿采集器抓取數(shù)據(jù),并基于Python進行微博文本的分詞及情感分析REF_Ref29146\r\h[15]。隨著外國博物館觀眾調(diào)查研究的發(fā)展,理論方法和研究成果不斷被翻譯和介紹到中國?!吨袊┪镳^學(xué)基礎(chǔ)》認為:“了解觀眾,熟悉觀眾,爭取觀眾,組織觀眾,為觀眾服務(wù),滿足觀眾的需求,是博物館的根本宗旨”REF_Ref20240\r\h[16]。日本著名的博物館學(xué)家鶴田總一郎曾說過:“觀眾同藏品和展覽一樣,是構(gòu)成博物館不可缺少的基本因素,觀眾既是博物館的服務(wù)對象,也是博物館賴以生存的社會基礎(chǔ)。博物館應(yīng)該像愛護珍貴文物一樣,愛護和對待觀眾。如果不考慮觀眾,或者沒有觀眾來參觀博物館,那么可以說該博物館不稱其為一個博物館,或者至少說是一個不合格的博物館”REF_Ref20306\r\h[17]。我國博物館觀眾調(diào)查研究的開始是1985年張松齡先生發(fā)表了上海自然博物館觀眾調(diào)查報告《海洋與它的居民》。至此,全國范圍內(nèi)的博物館觀眾調(diào)查陸續(xù)展開。1987年南開大學(xué)博物館學(xué)專業(yè)學(xué)生以第三者身份對京津地區(qū)的博物館開展社會調(diào)查活動,發(fā)表了《京津地區(qū)博物館觀眾調(diào)查報告》,這是我國博物館發(fā)展史上首先運用科學(xué)的方法對博物館公眾進行研究,為后來的博物館觀眾調(diào)查研究提供了可供參考的樣式REF_Ref5233\r\h[18]。它是我國博物館發(fā)展史上,首次對博物館觀眾運用科學(xué)的方法進行研究,也為以后博物館觀眾調(diào)查研究提供了一個可供參考的模式?!?996-2017年中國博物館規(guī)模逐年快速增長,短短17年中博物館數(shù)量達到4721座”,性質(zhì)有文化部門所屬的國有博物館、行業(yè)企業(yè)博物館、民營企業(yè)博物館、民間個人博物館等各種所有權(quán)形式的博物館REF_Ref22033\r\h[19]。90年代末期,吉林大學(xué)博物館學(xué)專業(yè)的學(xué)生也進行了幾次博物館觀眾調(diào)查,發(fā)表有《河一比直隸總督署博物館觀眾調(diào)查報告》、《遼寧省博物館觀眾調(diào)查報告》、《吉林省博物館觀眾調(diào)查報告》等一系列調(diào)查報告,為學(xué)術(shù)界提供了一批有價值的第一手調(diào)查材料。2003年上海博物館教育部編寫出《“國寶展”觀眾調(diào)查報告》REF_Ref23016\r\h[20]。同年,林冠男、史吉祥發(fā)表了《旅順博物館鼻煙壺展廳觀眾參觀行為觀察報告》REF_Ref23071\r\h[21]。2007年,呂軍、唐森帶領(lǐng)吉林大學(xué)博物館專業(yè)學(xué)生在遼寧省博物館完成了《遼寧省博物館2007年度階段觀眾調(diào)查報告》REF_Ref23120\r\h[22]。由于相繼出臺上述對博物館觀眾調(diào)查研究報告,也推動了博物館觀眾研究的深入發(fā)展,為博物館的后續(xù)發(fā)展打下堅實的基礎(chǔ)。1.3研究內(nèi)容本文的研究內(nèi)容可分為以下四個方面:進行需求分析,博物館還需要繼續(xù)發(fā)展,需要有正確的方向,而人民群眾都會有自己的想法,而他們的想法也會為博物改的發(fā)展有所幫助,為博物館的建設(shè)添磚加瓦。進行網(wǎng)絡(luò)爬蟲,通過使用基于Python的網(wǎng)絡(luò)爬蟲技術(shù),爬取博物館評論數(shù)據(jù),來知道觀眾對于博物館的看法究竟是如何的。對數(shù)據(jù)進行預(yù)處理,一般來說,通過爬蟲爬取到的數(shù)據(jù),或多或少都會出現(xiàn)問題,數(shù)據(jù)可能會缺失,也有可能會出錯,是無用數(shù)據(jù),那么對它們進行數(shù)據(jù)預(yù)處理是十分有必要的,且能夠為后續(xù)進行數(shù)據(jù)分析提供保障。進行持久化數(shù)據(jù)存儲,通常,用數(shù)據(jù)庫來存儲數(shù)據(jù)不失為一種選擇,所以我選擇通過Mysql數(shù)據(jù)庫,用來存儲網(wǎng)絡(luò)爬蟲爬取的數(shù)據(jù)以及用戶登錄注冊數(shù)據(jù)信息。進行數(shù)據(jù)分析,將已經(jīng)預(yù)處理的數(shù)據(jù)進行相應(yīng)的分析,用來得到相應(yīng)的信息,通過相應(yīng)的信息可以獲得許多有價值的結(jié)論。進行前端的設(shè)計及實現(xiàn),使用Django框架組合進行前端設(shè)計,實現(xiàn)博物館評論數(shù)據(jù)分析系統(tǒng),其中該系統(tǒng)的功能主要包括:游客的注冊與登錄、相關(guān)信息維護、查看該博物館的整體評分以及查看觀眾對博物館的精選反饋。1.4研究思路本文的研究思路,如圖1所示。圖1:研究思路1.5研究方法1.5.1文獻研究法通過中國知網(wǎng)、百度學(xué)術(shù)、超星等搜索引擎搜集有關(guān)中國博物館相關(guān)信息和網(wǎng)絡(luò)爬蟲的相關(guān)信息,并將這些信息認真地閱讀、分析整理和,將整理完的內(nèi)容作為本文寫作的理論基礎(chǔ),以便于做出最好的系統(tǒng)。1.5.2案例研究法案例研究法是指研究人員通過相關(guān)的案例進行研究和分析,并在其案例中思索,了解相關(guān)困難以及所要準備的條件,為自身的研究提供顯著的幫助。在具體理論的基礎(chǔ)上,本文收集研究了微博評論探索的方法,分析了我國的相關(guān)事例,結(jié)合了目前的相關(guān)知識,旨在能夠創(chuàng)建出一個令人滿意的系統(tǒng)。2相關(guān)概念及技術(shù)簡介2.1網(wǎng)絡(luò)爬蟲的概念網(wǎng)絡(luò)爬蟲(又稱為網(wǎng)絡(luò)蜘蛛或網(wǎng)絡(luò)機器人)是一種根據(jù)特定規(guī)則編寫的程序或者腳本去下載萬維網(wǎng)或局域網(wǎng)的各種資源如,html靜態(tài)網(wǎng)頁、圖像文件、js代碼等。網(wǎng)絡(luò)爬蟲的主要目的是為其他系統(tǒng)提供數(shù)據(jù)源如,數(shù)據(jù)分析、大數(shù)據(jù)挖掘和深度學(xué)習(xí)等REF_Ref29303\r\h[23]。2.2網(wǎng)絡(luò)爬蟲的原理首先,獲取所要爬取的網(wǎng)站的URL即網(wǎng)址,然后通過該網(wǎng)頁的代碼如HTML這類,其次,通過xpath來解析數(shù)據(jù)并用來獲取數(shù)據(jù),然后,用數(shù)據(jù)庫對網(wǎng)絡(luò)爬蟲所爬取到的數(shù)據(jù)進行持久化存儲。網(wǎng)絡(luò)爬蟲流程如下圖所示:圖2:網(wǎng)絡(luò)爬蟲流程2.3進行網(wǎng)絡(luò)爬蟲所需技術(shù)2.3.1Requests模塊import

requestsPython中有一款基于網(wǎng)絡(luò)請求其功能強大的模塊--Requests模塊,比urllib3庫更容易使用。它的作用是模擬瀏覽器向服務(wù)器發(fā)起請求,實現(xiàn)自動爬取HTML網(wǎng)頁頁面信息的功能REF_Ref31102\r\h[24]。Requets模塊是一個方便,簡介,實用性很高的模塊,安裝也十分簡單,只需要pipinstallrequests即可,隨后導(dǎo)入該模塊即importrequests,根據(jù)要爬取的網(wǎng)站來確定請求類型即在網(wǎng)頁中按F12打開開發(fā)者工具,找到網(wǎng)絡(luò),隨后再找到網(wǎng)站網(wǎng)址,點擊網(wǎng)址即可看到該網(wǎng)站的請求方式,以海南省博物館官網(wǎng)為例,可得到請求方式為get方式,即response=requests.get(“/”)圖3:查看請求方式Requests請求模塊是python中用于發(fā)送http請求的庫,而它不僅提供了簡便高效的api,也使得發(fā)送http請求變得輕而易舉。因此你可以通過請求模塊發(fā)送get請求,post請求等,用于獲取網(wǎng)頁內(nèi)容,上傳文件,處理cookie??偠灾?,requests模塊是python中處理http請求的強大工具,為編寫網(wǎng)絡(luò)爬蟲提供了方便和高效的方法。2.3.2UA檢測及UA偽裝如今,在網(wǎng)絡(luò)爬蟲流行的時代,網(wǎng)站通常會有反爬機制,如UA檢測,像我們?nèi)绻苯佑胷equests模塊進行爬取網(wǎng)站數(shù)據(jù),很大概率爬取失敗,那是因為網(wǎng)站服務(wù)器通過檢測用戶瀏覽器發(fā)送的User-Agent信息來識別用戶的設(shè)備和瀏覽器類型,發(fā)現(xiàn)請求方為爬蟲,則拒絕訪問。因此,為了避免這類情況,我們需要進行UA偽裝,即指用戶通過修改User-Agent信息來隱藏真實的設(shè)備和瀏覽器信息,以達到偽裝身份、規(guī)避檢測或獲取特定內(nèi)容的目的。將網(wǎng)站服務(wù)器認為爬蟲腳本為正常的用戶進行瀏覽,對其開放,我們才能成功獲取數(shù)據(jù)。2.3.3數(shù)據(jù)解析XPathfrom

lxml

import

etree如今網(wǎng)絡(luò)爬蟲數(shù)據(jù)解析流行的有三種,正則表達式,XPath和BeautSoup,而我則重點說一下XPath,因為我用這個方式來解析關(guān)于博物館評論。我認為,XPath是一種簡介,快捷門檻低的一種解析方式,但它泛用性廣,而且目前的大部分網(wǎng)站都為XPath提供便利。因為XPath解析數(shù)據(jù)需要路徑,而大部分網(wǎng)站都提供了XPath路徑,即找到你需要解析的數(shù)據(jù)鼠標右鍵單擊就會有復(fù)制XPath路徑的選項,這大大減少了解析數(shù)據(jù)所花費的時間,所以我用這方式來進行博物館評論的爬取。header

=

{

'User-Agent':

'Mozilla/5.0

(Windows

NT

10.0;

WOW64)

AppleWebKit/537.36

(KHTML,

like

Gecko)

Chrome/70.0.3538.25

Safari/537.36

Core/1.70.3775.400

QQBrowser/10.6.4208.400'}url

=

'/Attraction_Review-g297425-d1864595-Reviews-Hainan_Museum-Haikou_Hainan.html'page_text

=

requests.get(url=url,

headers=header).texttree

=

etree.HTML(page_text)content_h3_list

=

tree.xpath('//h3[@class="fontWeight400"]')contents_list

=

[]for

h3

in

content_h3_list:

content

=

h3.text

contents_list.append(content)3數(shù)據(jù)爬取及處理3.1Pandas模塊import

pandas

as

pd網(wǎng)絡(luò)爬蟲獲取到了數(shù)據(jù),但僅僅是獲取是不夠的,還需要將數(shù)據(jù)變成有價值的信息。所以我用Python中的Pandas模塊進行處理。因為Pandas模塊中提供了許多的方法可以用來處理數(shù)據(jù),像對缺失值進行處理,對數(shù)據(jù)進行過濾,進行排序、合并、分組等等功能。還有對數(shù)據(jù)的靈活分析,有助于對數(shù)據(jù)進行可視化操作,這就是我要用Pandas模塊對數(shù)據(jù)進行處理的原因。df

=

pd.DataFrame(contents_list)

#

把contents_list列表轉(zhuǎn)換為pandas

DataFramedf.to_excel('contents.xlsx')

#

保存到excel表格df.to_csv('contents.csv')

#

保存在csv文件圖4:獲取的數(shù)據(jù)對爬取到的數(shù)據(jù)進行預(yù)處理:網(wǎng)絡(luò)爬蟲爬取的數(shù)據(jù),有時候不一定全都能夠獲取到相關(guān)的數(shù)據(jù),有時候會爬取到取到空值。因此有必要對爬取到的數(shù)據(jù)后要進行缺失值檢測,對缺失值進行相應(yīng)的處理。比如:刪除缺失值或者補全缺失值。檢查缺失值:#

檢查缺失值data_content=pd.read_csv("./contents.csv")print(pd.isnull(data_content))False即為沒有缺失,True則為缺失。圖5:檢查缺失值3.2Matplotlib模塊import

matplotlib.pyplot

as

plt將數(shù)據(jù)處理完成后,就得到了有價值的信息,但是想要將這些有價值的信息更好地展示給人們看,那就離不開對數(shù)據(jù)的可視化。我將會用Matplotlib模塊來對數(shù)據(jù)進行可視化操作,因為它提供有豐富的繪圖工具和函數(shù),所以能夠創(chuàng)建層出不窮的圖標,且無論靜態(tài)還是動態(tài)都可以通過它來完成。并且它能夠與Pandas配合,可以對數(shù)據(jù)進行可視化操作和分析,因此,使用Matplotlib模塊來進行可視化操作是我的不二之選。#

設(shè)置風(fēng)格plt.style.use('ggplot')#

設(shè)置標題plt.title('海南省博物館評分')#

設(shè)置圖形數(shù)據(jù)plt.pie(labels=x,

x=y,

autopct='%1.2f%%',

shadow=True,

explode=explode)#

解決中文顯示問題plt.rcParams['font.sans-serif']

=

['SimHei']#

顯示圖形plt.show()用可視化技術(shù)查看關(guān)于游客對于博物館的評分情況:圖6:博物館評分占比4前端的設(shè)計與實現(xiàn)4.1Django為了讓人們的觀感更好,也為了方便操作,我用Django模塊引擎來渲染HTML頁面,讓數(shù)據(jù)從后端傳遞到前端上以便進行展示。Django是一個功能豐富、易于學(xué)習(xí)和使用的Web應(yīng)用程序框架,它提供了許多工具和功能且前后端分離,操作更方便。所以,我選擇用Django來作為前端的使用。首先,安裝Django模塊:pipinstalldjango;然后,在終端輸入指令創(chuàng)建Django項目:django-admin.pystartprojectmytestmy;最后,在編輯器的終端中輸入命令pythonmanage.pystartappapp。圖7:django項目文件圖8:app下的目錄首先設(shè)計出游客登錄、注冊功能,擁有賬戶的游客能擁有更多權(quán)限,可以對網(wǎng)上的評論提出自己的見解,而未登錄的游客只擁有觀看的權(quán)限。游客賬號登錄:圖9:登錄頁面游客賬號注冊:圖10:注冊頁面4.2MySQLDjango框架支持許多數(shù)據(jù)庫進行存儲,使用數(shù)據(jù)庫進行存儲數(shù)據(jù)是因為更方便進行管理和運用,尤其對于登陸、注冊等信息存儲,有助于后續(xù)操作。鑒于Django支持多種數(shù)據(jù)庫系統(tǒng),所以需要我們明確采用的數(shù)據(jù)庫系統(tǒng)。Mysql通過Django與pymysql成功與Python代碼聯(lián)系起來,所以使用Mysql來儲存用戶信息。首先,要在MySQL中創(chuàng)建數(shù)據(jù)庫,因為在Django中不能直接創(chuàng)建數(shù)據(jù)庫;其次,要在在Django的settings.py中進行設(shè)置,找到相應(yīng)位置,對其進行修改設(shè)置:圖11:設(shè)置數(shù)據(jù)庫將代碼寫在models.py中后,如下代碼即為設(shè)置數(shù)據(jù)表中的屬性:class

UserInfo(models.Model):

name

=

models.CharField(max_length=32)

password

=

models.CharField(max_length=64)

age

=

models.IntegerField()下一步就可以在終端中輸入指令進行遷移數(shù)據(jù)庫:圖12:遷移數(shù)據(jù)庫在終端輸入完指令后,可以通過終端或者其他可視化工具來查看數(shù)據(jù)庫中是否成功添加所創(chuàng)建的數(shù)據(jù)表,即我的(app01_userinfo),發(fā)現(xiàn)app01_userinfo數(shù)據(jù)表是成功創(chuàng)建。如圖下圖所示成功添加:圖13:查看數(shù)據(jù)表5評論數(shù)據(jù)分析與建議5.1分析評論數(shù)據(jù)Python第三方庫jieba是一個開源的,用于中文分詞以及簡單文本處理的工具包。Jieba分詞庫支持精確模式、全模式和搜索引擎模式3種分詞模式。它基于詞頻的詞性標注功能;支持自定義詞典,以便添加專業(yè)領(lǐng)域的專有名詞;提供關(guān)鍵詞提取功能,基于TF-IDF算法和TextRank算法,支持短語提取和命名實體識別REF_Ref31692\r\h[25]。通過對評論數(shù)據(jù)進行關(guān)鍵字提取,查看評論內(nèi)容的關(guān)鍵字,并顯示它們的重要性:import

jieba.analyse#

使用

jieba

進行

TF-IDF

算法提取文本關(guān)鍵詞keyword_list

=

[]for

TEXT

in

contents_list:

keywords

=

jieba.analyse.extract_tags(

sentence=TEXT,

#

文本內(nèi)容

topK=10,

#

提取的關(guān)鍵詞數(shù)量

allowPOS=['n',

'nz',

'v',

'vd',

'vn',

'ns',

'nr'],

#

允許的關(guān)鍵詞的詞性

withWeight=True,

#

是否附帶詞語權(quán)重

withFlag=True,

#

是否附帶詞語詞性

)

#

輸出提取到的關(guān)鍵詞

#

print(keywords)

keyword_list.append(keywords)keyword_list

=

[str(x)

for

item

in

keyword_list

for

x

in

item]df

=

pd.DataFrame(keyword_list)

#

把keyword_list列表轉(zhuǎn)換為pandas

DataFramedf.to_csv('keyword.csv')

#

保存在csv文件將數(shù)據(jù)存儲在csv文件中看到評論中的關(guān)鍵字以及它們的重要性(數(shù)字越大,重要性越高,影響也越深)圖14:查看關(guān)鍵字在jieba中,使用jieba.analyse.extract_tags()函數(shù)就可以基于TF-IDF算法提取文章的關(guān)鍵詞,jieba分詞常見詞性的對照可以參考下圖。圖15:詞性表我將爬取到的評論進行關(guān)鍵字提取,關(guān)鍵字的數(shù)字越大,代表出現(xiàn)的頻率越高,也就意味著影響力越大。例如關(guān)鍵字(文物),數(shù)字大,說明游客大部分有對文物的看法。通過評論文本發(fā)現(xiàn),大部分游客對文物的數(shù)量,文物的特色,都有一定的介意。我爬取的是網(wǎng)站tripadvisor(/),里面有許多外國人對海南省博物館的評價,我們可以通過外國人的視角來獲得更有價值的信息。因為海南島的發(fā)展一定會與國際接壤,所以要對外國友人有一定的了解。在對海南省圖書館評論進行了解,在通過博物館評分分布圖(圖6),可以知道大部分人們對海南省圖書館十分滿意。他們?nèi)宋倪@個博物館組織得非常好,為那些喜歡更有條理的歷史之旅的人提供展品編號。大多數(shù)展品都被翻譯成英文,包括展示柜、模型和帶有音頻和視頻元素的主題房間的美麗融合。但博物館太大,而文物過于少,顯得有些空曠,而且名為海南省博物館,最受歡迎的東坡館,大部分游客都會區(qū)東坡館進行駐足欣賞,但蘇東坡并不算得上海南文化,以此有些喧賓奪主的意思了,大體缺少一些鎮(zhèn)館之寶。5.2博物館發(fā)展與建議根據(jù)評論數(shù)據(jù)的分析我得到了目前博物館存在的問題并提出一些建議:在春節(jié)期間人流量大,在排隊期間發(fā)現(xiàn)工作人員多但完全沒有起到效果,部分操作還導(dǎo)致了排隊時間增加,管理不夠好,我認為應(yīng)該對員工進行相關(guān)的培養(yǎng),讓其能夠應(yīng)對處理人流量大的時段,不能因為只有節(jié)假日人流量大就不以為然。細節(jié)決定成敗,一個好的服務(wù)能夠讓游客眼前一亮,讓其第一印象在心中樹立。博物館保安不能及時向游客說明問題,不能像游客解釋原因。有的保安普通話口音太重,使得游客不明白發(fā)生什么,對游客十分不友好,希望保安能即使說明情況并鍛煉普通話,不要讓外地游客寒心。博物館大但展館內(nèi)容乏善可陳,展品不精不多,媒體互動展設(shè)備會出現(xiàn)問題,三層空間利用率很差。我建議博物館的工作人員應(yīng)及時檢查更新設(shè)備,而展品不多可以安排一些臨時展覽,舉辦一些教育活動,也可以與其他博物館或者學(xué)術(shù)機構(gòu)合作舉辦展覽,共享資源,用來增加展品的多樣性和數(shù)量。4、博物館應(yīng)該優(yōu)先發(fā)揚當(dāng)?shù)匚幕?,不?yīng)該讓非本土文化喧賓奪主,應(yīng)保留本地特點,要讓游客明白自己到了海南省博物館,不要更其他博物館雷同,要讓游客有有關(guān)本地獨一無二的特色。5、博物館應(yīng)存在關(guān)鍵的鎮(zhèn)館之寶,且是本土文化的鎮(zhèn)館之寶,要激起游客們的興趣,要引誘出他們想要了解海南文化的思想,這樣才會讓博物館做大做強。6研究總結(jié)與展望6.1研究總結(jié)以下是筆者在制作《基于Python網(wǎng)絡(luò)爬蟲的博物館評論數(shù)據(jù)分析系統(tǒng)設(shè)計與實現(xiàn)》項目中得出的結(jié)論:在確定項目之前,一定要去了解項目的難易程度,學(xué)會取舍會給自己節(jié)約大量的時間。本人開始想要在大眾點評網(wǎng)中去爬取關(guān)于海南省博物館的評論數(shù)據(jù),但該網(wǎng)站的反爬機制太厲害,以至于我浪費了大量的時間和精力去反反爬,但是失敗了,只能換成tripadvisor網(wǎng)站進行爬取評論數(shù)據(jù)。所以做任何事之前,一定要去了解該事情,不要盲目自信,要有計劃地去執(zhí)行。在制作項目時,一定要去確定好使用的方法。我當(dāng)時在請求響應(yīng)時考慮是直接用requests模塊還是用scrapy框架去實現(xiàn)糾結(jié)半天,在解析數(shù)據(jù)時考慮是用正則表達式還是XPath猶豫不決,在制作網(wǎng)頁上是選擇的flask模塊還是django框架上也是猶猶豫豫。所以在執(zhí)行項目時,一定要有計劃,要有詳細的工作流程和時間規(guī)劃。6.2研究展望由于自身水平有限,不能完全根據(jù)評論分析出全部有價值的信息。但我相信,在未來我將會對基于pythonweb爬蟲的博物館評論數(shù)據(jù)分析系統(tǒng)將進一步深化對未來評論數(shù)據(jù)的挖掘和分析,為博物館提供更多有用的信息和洞察,以及讓博物館可以有效提高管理和服務(wù)水平。因為本人實力有限,所以我認為該系統(tǒng)還有很大的提升空間:爬取的網(wǎng)站評論量不夠豐富,我還需要熟練掌握反反爬操作,去更大評論更多的網(wǎng)站上去爬取數(shù)據(jù),這樣的數(shù)據(jù)開更加具有分析的價值,才更值得分析。對評論數(shù)據(jù)分析的不夠充分,應(yīng)該要充分對評論數(shù)據(jù)情感的分析,判斷游客是否在諷刺,要充分準確的找到評論真正想要表達的意思,這樣才能正確的提供建議。3、前端界面不夠好看,應(yīng)該要掌握更多關(guān)于CSS與JavaScrip的語法和技術(shù),讓頁面更加的動態(tài)和立體,讓客戶眼前一亮。參考文獻蘇東海.什么是博物館——與業(yè)內(nèi)人員談博物館[J].中國國家博物館館刊,2011,(01):140-146.楊海靜.博物館公共文化服務(wù)創(chuàng)新[J].文化產(chǎn)業(yè),2023,(31):49-51.張紅霞.談在博物館陳列工作中應(yīng)加強觀眾意識[J].文物春秋,2003(01):56-58+69.BOTTAA,DONATOWD,PERSICOV,etal.IntegrationofCloudcomputingandInternetofThings:Asurvey;proceedingsoftheInternationalConferenceonFutureInternetofThingsandCloud[C].F,2014.CHENM,MAOS,LIUY.BigData:ASurvey[J].MobileNetworks&Applications,2014,19(2):171-209.KANKANHALLIA,HAHNJ,TANS,etal.Bigdataandanalyticsinhealthcare:Introductiontothespecialsection[J].InformationSystemsFrontiers,2016,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論