版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于Python的“嗶哩嗶哩視頻網(wǎng)”視頻熱度分析Analysisofthevideoheatof"BiliBilivideonetwork"basedonPython摘要在21世紀(jì)的今天,網(wǎng)絡(luò)發(fā)展越來越快,網(wǎng)上的娛樂方式也越來越多樣化,而如今在網(wǎng)上觀看視頻消遣時(shí)間越來越受到大眾的青睞。Bilibili視頻網(wǎng)站是現(xiàn)當(dāng)下年輕人最受歡迎的一個(gè)視頻網(wǎng)站。有調(diào)查顯示,直到2019年的10月份,Bilibili視頻網(wǎng)站的用戶在總體網(wǎng)絡(luò)視頻用戶占比高達(dá)90%。它與其他的視頻網(wǎng)站用戶相比較,其用戶忠實(shí)度更高,據(jù)其招募報(bào)告稱,其成員的12個(gè)月保留率達(dá)79%,而2009年注冊(cè)的用戶中60%的今天仍然活躍。Bilibili是目前國(guó)內(nèi)最受歡迎的綜合用戶網(wǎng)站,分析其視頻熱度可以從側(cè)面分析15-45歲群體的愛好,有著重要研究意義。本論文為基于Python的“嗶哩嗶哩視頻網(wǎng)”視頻熱度分析。首先講解本文使用的相關(guān)技術(shù),包括Scrapy框架,Pandas庫(kù)和pyecharts庫(kù)。然后根據(jù)頁(yè)面分析使用基于Scrapy的方法對(duì)嗶哩嗶哩視頻網(wǎng)數(shù)據(jù)抓取,并展示了部分?jǐn)?shù)據(jù)結(jié)果,還對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理,接著為數(shù)據(jù)分析分別對(duì)分區(qū)占比、平均播放量、平均三連情況、各區(qū)平均播放和熱門標(biāo)簽進(jìn)行可視化,最后總結(jié)本論文所做的工作以及展望。關(guān)鍵詞:Scrapy;Pandas;嗶哩嗶哩視頻網(wǎng)AbstractInthe21stcentury,thedevelopmentoftheInternetisfasterandfaster,theonlineentertainmentismoreandmorediversified,andnowwatchingvideosontheInternetforleisuretimeismoreandmorepopular.Bilibiliisoneofthemostpopularvideowebsitesforyoungpeopletoday.AsofOctober2019,Bilibiliaccountsfor90percentofallonlinevideousers,accordingtoasurvey.Bilibilibilihashigheruserloyaltythanotherplatforms,witha12-monthretentionrateof79%accordingtoitsrecruitmentreport,comparedwith60%ofusersregisteredin2009whoarestillactivetoday.BilibilibiliisthemostpopularcomprehensiveuserwebsiteinChina.Analyzingitsvideopopularitycananalyzethehobbiesofthe15-45-year-oldgroupfromtheside,whichhasimportantresearchsignificance.ThispaperisbasedonPython"BiliBilivideonetwork"videoheatanalysis.Firstofall,itintroducestherelatedtechnologiesusedinthispaper,includingthescrapyframework,pandaslibraryandpyechartslibrary.Then,accordingtothepageanalysis,weusethemethodbasedonscratchtocapturethedataofbilibilibilivideonetwork,andshowsomedataresults,andpreprocessthedata.Thenwevisualizethepartitionproportion,theaverageplaybackvolume,theaveragetripleconnection,theaverageplaybackofeachareaandthehottagsforthedataanalysis.Finally,wesummarizetheworkandProspectofthispaper.Keywords:Scrapy;Pandas;BiliBili目錄第一章緒論 第一章緒論1.1研究背景與以前我國(guó)信息交流不發(fā)達(dá)的時(shí)代相比,如今我國(guó)學(xué)會(huì)上網(wǎng)的人也越來越多,而國(guó)家對(duì)互聯(lián)網(wǎng)的普及率也越來越高。導(dǎo)致與2018年相比較,如今中國(guó)的上網(wǎng)人數(shù)已經(jīng)比那時(shí)提高了2%。而如今隨著手機(jī)的更新?lián)Q代,手機(jī)上網(wǎng)比用電腦上網(wǎng)更加便捷,有數(shù)據(jù)顯示,如今使用手機(jī)上網(wǎng)的人數(shù)比使用電腦上網(wǎng)人數(shù)多3000萬。在21世紀(jì)的今天,網(wǎng)絡(luò)發(fā)展越來越快,網(wǎng)上的娛樂方式也越來越多樣化,而如今在網(wǎng)上觀看視頻消遣時(shí)間越來越受到大眾的青睞。Bilibili視頻網(wǎng)站是現(xiàn)當(dāng)下年輕人最受歡迎的一個(gè)視頻網(wǎng)站。有調(diào)查顯示,直到2019年的10月份,Bilibili視頻網(wǎng)站的用戶在總體網(wǎng)絡(luò)視頻用戶占比高達(dá)90%。而如今不僅是Bilibili,就連像優(yōu)酷、騰訊、愛奇藝、樂視等的視頻網(wǎng)站都以電視劇、電影、動(dòng)漫等的一些視頻類型向游戲、音樂、電競(jìng)等當(dāng)代年輕人喜愛的娛樂類型進(jìn)行擴(kuò)展聯(lián)動(dòng)。正是有了這些視頻網(wǎng)站專業(yè)的生產(chǎn)和運(yùn)營(yíng),我國(guó)的網(wǎng)絡(luò)視頻行業(yè)才慢慢不停地發(fā)展起來,逐步形成網(wǎng)絡(luò)視頻的內(nèi)容與各領(lǐng)域協(xié)同的娛樂生態(tài)內(nèi)容。Bilibili視頻網(wǎng)站于2009年創(chuàng)立,最開始的時(shí)候這個(gè)視頻網(wǎng)站只是類似于今天的A站一樣,分享一些精美圖片和視頻。但隨著中國(guó)近十多年來互聯(lián)網(wǎng)的快速發(fā)展,該視頻網(wǎng)站也慢慢地?cái)U(kuò)展了其他的業(yè)務(wù),例如一些電子商務(wù)和手機(jī)游戲等。但其特殊之處還不止這些,與優(yōu)酷和騰訊等其他視頻網(wǎng)站不同,Bilibili在ACG文化以及彈幕文化方面上顯得獨(dú)樹一幟。隨著Bilibili游客數(shù)量的快速增長(zhǎng),它的內(nèi)容也越來越豐富,除了占主導(dǎo)地位的主題之外,現(xiàn)在的Bilibili還提供了各個(gè)領(lǐng)域的視頻,包括音樂、舞蹈、科學(xué)、技術(shù)、娛樂、電影、戲劇、時(shí)裝、日常生活以及廣告電影。此外,Bilibili還提供實(shí)時(shí)流媒體服務(wù),觀眾可以與流媒體進(jìn)行互動(dòng)。通常這些主題都是關(guān)于動(dòng)畫、內(nèi)容創(chuàng)建與游戲策略等。Bilibili與其他平臺(tái)相比,其用戶忠實(shí)度更高,據(jù)其招募報(bào)告稱,其成員的12個(gè)月保留率高達(dá)79%,而2009年注冊(cè)的用戶中有60%今天仍然活躍。此外,年齡在15-45歲之間的用戶占平臺(tái)總體用戶基礎(chǔ)的78%。Bilibili的平均用戶每天在該平臺(tái)上花費(fèi)超過78分鐘,觀看每月上傳的240萬個(gè)視頻中的一些。Bilibili憑借其獨(dú)特而活躍的內(nèi)容社區(qū)吸引用戶,也是該網(wǎng)站用戶數(shù)量激增的原因。而自2018年9月以來,它在12個(gè)月內(nèi)獲得了3500萬的MAU。Bilibili是目前國(guó)內(nèi)最受歡迎的綜合用戶網(wǎng)站,分析其視頻熱度可以從側(cè)面分析15-45歲群體的愛好,有著重要研究意義。1.2國(guó)內(nèi)外研究現(xiàn)狀作為當(dāng)代網(wǎng)民最重要的娛樂方式之一的網(wǎng)絡(luò)視頻已經(jīng)成為當(dāng)今互聯(lián)網(wǎng)世界的第五大應(yīng)用。而在這個(gè)互聯(lián)網(wǎng)數(shù)據(jù)的時(shí)代,網(wǎng)絡(luò)視頻擁有大量的用戶數(shù)據(jù),對(duì)網(wǎng)絡(luò)視頻的分析研究能夠知道當(dāng)代網(wǎng)民對(duì)視頻的喜愛類型,對(duì)今后網(wǎng)絡(luò)視頻的可持續(xù)發(fā)展有著重要的意義。馬翔[1]為了能夠?qū)崿F(xiàn)視頻網(wǎng)站分析平臺(tái)的用戶數(shù)據(jù)可視化應(yīng)用模型,他從人機(jī)交互和可視化等綜合視角出發(fā),帶領(lǐng)視頻制作團(tuán)隊(duì)實(shí)現(xiàn)把用戶的數(shù)據(jù)向節(jié)目形式和內(nèi)容的轉(zhuǎn)化,也提出了用可視化的數(shù)據(jù)挖掘以及分析用戶的愛好習(xí)慣的觀點(diǎn)。崔楠,郭俞,張會(huì)雄[2]使用Python網(wǎng)絡(luò)蜘蛛作為工具對(duì)嗶哩嗶哩視頻網(wǎng)獲取了大量的彈幕數(shù)據(jù),并這些數(shù)據(jù)進(jìn)行了挖掘分析,由此間接地評(píng)價(jià)了視頻的內(nèi)容,最終結(jié)果展示了流行短視頻的獨(dú)特評(píng)價(jià),對(duì)短視頻的作者和平臺(tái)都具有一定的參考價(jià)值。他們基于這種彈幕的研究方法也為視頻內(nèi)容的自動(dòng)識(shí)別與評(píng)價(jià)提供了新的思路。徐璐[3]使用獲得的Web用戶日志分析出觀看視頻用戶的一些選擇和觀看的視頻評(píng)分之間的矩陣關(guān)系。通俗來講就是建立用戶的興趣模型來發(fā)現(xiàn)觀看視頻用戶的喜好,在此過程中,她還對(duì)協(xié)同過濾算法中一些計(jì)算方法進(jìn)行了改進(jìn),使其模型能夠主動(dòng)向用戶提供他們喜好觀看的一些的視頻。顧軍華,高星,王守彬,等[4]以新媒體等視頻大數(shù)據(jù)為基礎(chǔ)在Spark上建立了BP神經(jīng)網(wǎng)絡(luò)視頻評(píng)估模型。還以傳統(tǒng)媒體等視頻方面的影響度為基礎(chǔ)不斷地去完善其評(píng)估體系。最后還建立了基于IPTV的大數(shù)據(jù),并且能夠反映其用戶群體的喜好類型評(píng)分策略的BP神經(jīng)網(wǎng)絡(luò)評(píng)估模型。1.3章節(jié)安排本篇論文總共有5個(gè)章節(jié),每一個(gè)章節(jié)的主要內(nèi)容如下:第1章是緒論章節(jié),主要介紹研究背景和國(guó)內(nèi)外的一些研究現(xiàn)狀,接著介紹本文的結(jié)構(gòu)。第2章主要介紹了本文使用的相關(guān)技術(shù),包括有Scrapy框架、Pandas庫(kù)和pyecharts庫(kù)。第3章為基于Scrapy的數(shù)據(jù)抓取,首先介紹了如何根據(jù)頁(yè)面分析對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行抓取,然后展示了部分?jǐn)?shù)據(jù)結(jié)果,并對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理。第4章主要為數(shù)據(jù)分析,分別對(duì)分區(qū)占比、平均播放量、平均三連情況、各區(qū)平均播放以及熱門標(biāo)簽進(jìn)行數(shù)據(jù)分析并可視化。第5章是結(jié)論,總結(jié)本論文所做的工作以及展望。第二章相關(guān)技術(shù)介紹2.1Scrapy框架Scrapy框架在Python語言中處理復(fù)雜情況的一種工具。它是一種強(qiáng)大的網(wǎng)頁(yè)蜘蛛框架,不僅能夠輕松構(gòu)建請(qǐng)求,并且能輕松解析響應(yīng)。它的性能非常高甚至還可以將網(wǎng)頁(yè)蜘蛛這種程序工程化以及模塊化。Scrapy框架主要包括:(1)引擎:主要工作負(fù)責(zé)項(xiàng)目管道、網(wǎng)頁(yè)蜘蛛、下載器、調(diào)度器中間的通訊、信號(hào)分析以及相關(guān)數(shù)據(jù)信息傳遞等。(2)調(diào)度器:主要負(fù)責(zé)接收來自引擎發(fā)送的請(qǐng)求,并組織和布置以某種方式入隊(duì),當(dāng)被需要時(shí)返回到引擎。(3)下載器:主要工作負(fù)責(zé)下載引擎發(fā)送的所有請(qǐng)求,并將其獲取到的響應(yīng)交還給引擎,并由相關(guān)引擎交給網(wǎng)頁(yè)蜘蛛來處理。(4)網(wǎng)頁(yè)蜘蛛:主要負(fù)責(zé)處理所有響應(yīng),從中分析提取數(shù)據(jù)并獲得項(xiàng)目字段所需的數(shù)據(jù),向引擎提交需要跟蹤的URL并又一次進(jìn)入到調(diào)度器之中。(5)項(xiàng)目管道:從爬行器中獲取的項(xiàng)目進(jìn)行處理和后處理的地方。Scrapy的運(yùn)行流程基本如下:(1)首先,引擎從調(diào)度程序中檢索的URL作為初始目標(biāo)的檢索程序,并開始從此URL抓取。(2)其次,URL被引擎封裝為請(qǐng)求并且傳送給下載器,下載器把資源下載到本機(jī)后再封裝為響應(yīng)。(3)網(wǎng)頁(yè)蜘蛛接收響應(yīng)同時(shí)調(diào)用回調(diào)函數(shù)。2.2Pandas庫(kù)Pandas庫(kù)的創(chuàng)始人是一位名叫WesMcKinney的開發(fā)人員開發(fā)出來的,其開發(fā)Pandas庫(kù)的目的在于能夠?qū)λ玫降臄?shù)據(jù)進(jìn)行更加精準(zhǔn)的操作分析以及建模等。而在此出現(xiàn)之前,Python只能夠簡(jiǎn)單的對(duì)數(shù)據(jù)進(jìn)行處理以及作出一些準(zhǔn)備,而對(duì)于如今的數(shù)據(jù)分析的貢獻(xiàn)并不是很大。而目前作為一個(gè)開源的Pandas,已經(jīng)能夠利用其強(qiáng)大的功能為數(shù)據(jù)處理提供高性能的處理和分析了。而如今帶有Pandas庫(kù)的Python語言已經(jīng)在廣泛的領(lǐng)域中使用,其中就包括有學(xué)術(shù)、商業(yè)、金融、經(jīng)濟(jì)學(xué)、統(tǒng)計(jì)和分析等。Pandas庫(kù)的主要特點(diǎn):(1)具有快速高效的數(shù)據(jù)框架對(duì)象,具有默認(rèn)和自定義索引。(2)處理數(shù)據(jù)對(duì)齊和丟失數(shù)據(jù)。(3)將不同文件格式的數(shù)據(jù)加載到內(nèi)存中的數(shù)據(jù)對(duì)象工具。(4)可以把日期一期重新塑造以及設(shè)置。(5)可以刪除或插入數(shù)據(jù)結(jié)構(gòu)中的列。(6)基于標(biāo)簽的切片,大數(shù)據(jù)集的索引和子集。2.3pyecharts庫(kù)Pyecharts庫(kù)作為Python中一個(gè)圖表的庫(kù),使用它生成的圖表的可觀程度非常的高,對(duì)數(shù)據(jù)進(jìn)行分析起來十分的方便,通過圖表數(shù)據(jù)與數(shù)據(jù)的比較更容易得出數(shù)據(jù)分析的結(jié)果。Pyecharts庫(kù)的主要特點(diǎn):(1)能夠支持鏈?zhǔn)降恼{(diào)用,并且能夠?qū)崿F(xiàn)簡(jiǎn)單干凈的API設(shè)計(jì)。(2)能提供三十多種的常用圖表。(3)帶有JupyterNotebook和JupyterLab并支持當(dāng)下的Notebook環(huán)境。(4)可輕松集成到Flask和Django等主流的Web框架。(5)擁有四百個(gè)以上的地圖文件,也能夠支持地理數(shù)據(jù)的可視化實(shí)現(xiàn)。(6)為新手開發(fā)項(xiàng)目提供更多的文檔支持。第三章基于Scrapy的數(shù)據(jù)抓取3.1頁(yè)面分析如圖3.1為Bilibili排行榜頁(yè)面,在對(duì)網(wǎng)頁(yè)的數(shù)據(jù)抓取前首先需要分析其頁(yè)面結(jié)構(gòu)。如圖3.2為網(wǎng)頁(yè)的html結(jié)構(gòu),排行榜頁(yè)面僅有題目,作者,觀看量,評(píng)論數(shù),綜合得分等數(shù)據(jù),更多數(shù)據(jù)需要進(jìn)入視頻詳情頁(yè)面進(jìn)行抓取。如圖3.3為視頻詳情的html結(jié)構(gòu),視頻詳情頁(yè)面可以獲取與播放視頻相關(guān)的一些播放量、三連量、轉(zhuǎn)發(fā)量、熱門標(biāo)簽等信息,我們都可以通過xpath方法來抓取這些在div標(biāo)簽的信息。圖3.1排行榜頁(yè)面圖3.2排行榜頁(yè)面代碼圖3.3視頻詳情代碼3.2數(shù)據(jù)結(jié)果表3.1為本文獲取數(shù)據(jù)格式,表3.1展示了其中的九行數(shù)據(jù),包括了作者、投幣數(shù)、彈幕數(shù)、三連數(shù)、作品id、點(diǎn)贊數(shù)、類別,回復(fù)數(shù)、得分、分享數(shù)、觀看數(shù)、題目以及標(biāo)簽十三列的數(shù)據(jù)內(nèi)容。表3.1原始數(shù)據(jù)表作者投幣數(shù)彈幕三連id點(diǎn)贊數(shù)類別快樂的Ler5125423319648384695473051611191全站飛魚不在天2588171182754928891835249279854全站落桑西4590019464117605190609023858630全站翹課遲到4395295294836403289558467582909全站奶糕成精檔案社22907634179582291675841268103全站維C永不加班426321111372349445952356127動(dòng)畫可口的紅糖126985994110739891060138208720國(guó)創(chuàng)相關(guān)是珍珍又是希希23322498052914943605292舞蹈明月莊主moon5027616087920828311030858720游戲續(xù)表3.1原始數(shù)據(jù)表回復(fù)數(shù)得分分享觀看數(shù)題目標(biāo)簽1515812345441524674887831“?????????????”“??????????”MAD.AMV,天氣之子,全能打卡挑戰(zhàn),宮崎駿,你的名字,新海誠(chéng),MAD,影視剪輯,BGM,多素材,純音樂936812771440230623123675這十個(gè)軟件,讓你的電腦舒適度提升1400%數(shù)碼,Windows,電腦,軟件,演示,推薦,微軟1180986413057679258418668B站現(xiàn)狀搞笑,全能打卡挑戰(zhàn),B站,惡搞,BILIBILI,嗶哩嗶哩,搞笑視頻4248267599592479315520288處處零搞笑,翻唱,處處吻,全民音樂UP主,搞笑翻唱,惡搞45723202361464641602855孩子要出道了,《被迫營(yíng)業(yè)》MV正式首發(fā)??!萌寵,宅家vlog挑戰(zhàn),可愛,動(dòng)物圈,日常,搞笑87811710174153337412【全員踩點(diǎn)】JO廚興奮劑MAD.AMV,JOJO的奇妙冒險(xiǎn),AMV,JOJO,MAD,燃,踩點(diǎn),腦洞搞笑,熱血,搞笑61513287288317962246312看的我熱血沸騰,看完你可能要重新認(rèn)識(shí)喜羊羊童年回憶殺,喜羊羊與灰太狼,國(guó)產(chǎn)動(dòng)畫,bilibili新星計(jì)劃,童年,熱血,催淚向,動(dòng)漫,動(dòng)畫,剪輯435367972490215874【希希】Senorita穿襯衫的小老虎明星舞蹈,街舞,舞蹈,全能打卡挑戰(zhàn),性感,爵士舞123110773236984554399我的世界基巖版從零開始學(xué)紅石《合集》by明月莊主手機(jī)游戲,紅石教程,沙盒游戲,明月莊主,教程,我的世界紅石,我的世界手機(jī)版,我的世界PE,我的世界基巖版3.3數(shù)據(jù)預(yù)處理數(shù)據(jù)清理主要是通過刪除或修改不正確、不完整、不相關(guān)、重復(fù)或者格式不正確的數(shù)據(jù)來準(zhǔn)備要分析的數(shù)據(jù)的過程。在分析數(shù)據(jù)時(shí),此數(shù)據(jù)通常不是必需的或無用的,因?yàn)樗赡軙?huì)阻礙過程或提供不準(zhǔn)確的結(jié)果。有幾種清理數(shù)據(jù)的方法,具體取決于數(shù)據(jù)的存儲(chǔ)方式以及所尋求的答案。數(shù)據(jù)清理不僅涉及擦除信息以為新數(shù)據(jù)騰出空間,還在于尋找一種方法來最大化數(shù)據(jù)集的準(zhǔn)確性而不必刪除信息。一方面,數(shù)據(jù)清除包括比刪除數(shù)據(jù)更多的操作,例如修復(fù)拼寫和語法錯(cuò)誤,標(biāo)準(zhǔn)化數(shù)據(jù)集以及更正錯(cuò)誤,例如空字段,缺少代碼以及識(shí)別重復(fù)的數(shù)據(jù)點(diǎn)。另一方面,數(shù)據(jù)清理被認(rèn)為是數(shù)據(jù)科學(xué)基礎(chǔ)的基礎(chǔ)要素,因?yàn)樗诜治鲞^程中扮演著重要角色,并能夠找到可靠的答案。最重要的是,數(shù)據(jù)清理的目的是創(chuàng)建標(biāo)準(zhǔn)化且統(tǒng)一的數(shù)據(jù)集,以允許商業(yè)智能和數(shù)據(jù)分析工具輕松訪問并為每個(gè)查詢找到正確的數(shù)據(jù)。從本次采集到的數(shù)據(jù)中發(fā)現(xiàn)并缺失值,而且采取數(shù)據(jù)有1300行和13列。由于全站榜包含在各分區(qū)靠前的視頻中,而在rank_tab中有一個(gè)全站榜的數(shù)據(jù),所以這里就要把全站榜除外,避免重復(fù)計(jì)算。df_without_all=df[~df['rank_tab'].isin(['全站'])]由上面的一行代碼可把“全站”這個(gè)元素整行進(jìn)行排除,這樣就能夠得到一個(gè)名為df_without_all的Dataframe,由此一來便能夠簡(jiǎn)單地把收集來的數(shù)據(jù)進(jìn)行了一個(gè)預(yù)清洗。第四章數(shù)據(jù)分析4.1分區(qū)占比可視化首先對(duì)預(yù)處理好的數(shù)據(jù)按照綜合評(píng)分進(jìn)行降序排序,然后再對(duì)其進(jìn)行切片處理,接著獲取分區(qū)名列的前100項(xiàng)的數(shù)據(jù),最后再統(tǒng)計(jì)每一個(gè)分區(qū)出現(xiàn)次數(shù)進(jìn)行返回處理。得到的分區(qū)占比可視化由下圖所示。圖4.1分區(qū)占比可視化從圖4.1中可以看出,在綜合評(píng)分top100當(dāng)中,代表當(dāng)代年輕人喜愛的二次元?jiǎng)赢嬎急壤秊?1%,僅排名第二。但是生活類的視頻卻超過動(dòng)畫類視頻并占且據(jù)第一位。根據(jù)對(duì)二次元的定義,整體看的話完全屬于二次元的視頻比例占24%,二次元至今依然是B站的主力軍。在2018年的B站資料數(shù)據(jù)中顯示,所有頻道中播放量TOP5的分別是娛樂、生活、游戲、動(dòng)畫和科技區(qū)。與我們數(shù)據(jù)相比較,生活、動(dòng)畫類視頻的排名分別提升到了第1名和第2名,而娛樂、游戲、科技類視頻則跌出榜單,位列倒數(shù),但時(shí)尚、鬼畜、音樂類的視頻則成為了新秀。4.2平均播放量可視化在對(duì)綜合評(píng)分top100視頻的平均播放量進(jìn)行可視化的時(shí)候,這里選擇了用柱形圖來對(duì)獲取的數(shù)據(jù)進(jìn)行進(jìn)一步的可視化。把綜合評(píng)分top100的視頻平均播放量作為指標(biāo),而視頻類型的名稱作為維度,然后生成柱形圖。由于Pyecharts起初生成的圖表為html的格式,這里為了方便就利用snapshot_selenium把html直接轉(zhuǎn)為png格式。圖4.2平均播放量可視化4.3平均三連情況可視化雖然前面已經(jīng)初步可視化出top100綜合評(píng)分視頻的平均播放量,但是由于平均播放量的單位是人次而不是人數(shù),為了更加全面的反映出在B站用戶的具體喜愛的視頻類型。這里還需要對(duì)B站用戶在top100綜合評(píng)分視頻中的點(diǎn)贊、投幣和收藏的三連情況進(jìn)行可視化操作。圖4.1-圖4.6是綜合評(píng)分top100中各分區(qū)平均三連情況分析,這里依舊是用snapshot_selenium把html直接轉(zhuǎn)為png格式,但是選擇的是雷達(dá)圖來對(duì)獲取的數(shù)據(jù)進(jìn)行進(jìn)一步的可視化。具體如下圖所示。圖4.3點(diǎn)贊情況可視化圖4.4投幣情況可視化圖4.5收藏情況可視化圖4.6三連情況可視化由以上三張雷達(dá)圖可以看出,在點(diǎn)贊人數(shù)里,影視區(qū)的視頻擁有最高的點(diǎn)贊量,其次為生活區(qū);在投幣人數(shù)里,生活區(qū)的視頻擁有最高的投幣量,其次為動(dòng)畫區(qū);在收藏人數(shù)里,時(shí)尚區(qū)的視頻擁有最高的收藏量,其次為影視區(qū)。4.4各區(qū)平均播放可視化為了進(jìn)一步對(duì)B站用戶喜愛視頻類型全面了解,若僅是對(duì)全站中的top100綜合評(píng)分視頻的數(shù)據(jù)分析可能還不足達(dá)到比較全面的效果。所以下面我將對(duì)所有視頻分區(qū)的top100綜合評(píng)分的視頻的平均播放量進(jìn)一步進(jìn)行分析。首先對(duì)前面提及的df_without_all按照分區(qū)名來進(jìn)行分類,其次再統(tǒng)計(jì)出各個(gè)分區(qū)情況數(shù)據(jù)的平均值,最后完成后存入csv文件中。如此一來便完成簡(jiǎn)單的數(shù)據(jù)預(yù)處理。之后這里選擇折線圖對(duì)視頻平均播放量的數(shù)據(jù)進(jìn)行可視化,用前面所提及的方法轉(zhuǎn)化為以下的圖表。圖4.7各區(qū)播放量可視化由圖4.7可以看出,在各視頻分區(qū)的top100綜合評(píng)分之中,鬼畜區(qū)的平均播放量為最高,其次為生活區(qū),第三為動(dòng)畫區(qū),相比于以往的生活區(qū)和動(dòng)畫區(qū),相比于其它網(wǎng)站沒有而作為B站獨(dú)有特色的鬼畜區(qū)的平均播放量在這次有所上升。4.4熱門標(biāo)簽可視化在對(duì)視頻進(jìn)行了平均播放量的可視化分析之后,最后可以再對(duì)視頻的熱門標(biāo)簽進(jìn)行可視化的分析。因?yàn)樵贐站的視頻之中,每一個(gè)視頻都有不同的標(biāo)簽,而數(shù)量眾多的視頻的標(biāo)簽加起來就會(huì)出現(xiàn)標(biāo)簽重復(fù)的情況。所以接下來需要對(duì)視頻標(biāo)簽進(jìn)行一個(gè)去重的工作,求出唯一的標(biāo)簽,再去計(jì)算每一個(gè)標(biāo)簽出現(xiàn)的次數(shù)。該過程稍微比較復(fù)雜,首先要在tag_name得到所得數(shù)據(jù),然后創(chuàng)建一個(gè)特定規(guī)格的Dataframe,命名后遍歷df_without_all[‘tag_name’],如果與tag_df的columns對(duì)應(yīng),則將tag_df中對(duì)應(yīng)的columns*index單元格賦值為1,最后對(duì)每一列的1進(jìn)行求和。以上方法雖然比較復(fù)雜,但是Pandas庫(kù)里有更加簡(jiǎn)便的方法能夠去實(shí)現(xiàn)這種復(fù)雜的操作。該方法在df_without_all的tag_name列提取熱門的標(biāo)簽,然后把熱門的標(biāo)簽數(shù)據(jù)作為一維的列表,再轉(zhuǎn)化為之后,調(diào)用方法進(jìn)行賦值。其熱門可視化如下圖。圖4.8熱門標(biāo)簽可視化由圖4.8可以看出,今年的熱門視頻標(biāo)簽與之前B站所統(tǒng)計(jì)的熱門視頻標(biāo)簽相對(duì)比,在B站熱門視頻標(biāo)簽出現(xiàn)最多的仍然是搞笑標(biāo)簽,而鬼畜和Bilibili新星計(jì)劃等幾個(gè)標(biāo)簽作為B站獨(dú)有的文化仍然比較顯眼,而且在今年的視頻標(biāo)簽中能夠發(fā)現(xiàn)挺多與生活相關(guān)的標(biāo)簽,這說明每一年的視頻標(biāo)簽都在不停地變化。第五章總結(jié)與展望5.1工作總結(jié)此次的畢業(yè)設(shè)計(jì)雖然耗時(shí)三四個(gè)月,但是作為對(duì)自己四年大學(xué)的一個(gè)總結(jié),還是經(jīng)過不懈努力把它完成了。從選題到開題報(bào)告,再?gòu)拈_題報(bào)告到畢業(yè)設(shè)計(jì)的實(shí)現(xiàn)以及論文的撰寫都需要查閱大量的課題資料與實(shí)現(xiàn)該設(shè)計(jì)的涉及的相關(guān)技術(shù)的文檔和書籍。通過這三四個(gè)月的不斷學(xué)習(xí)與動(dòng)手實(shí)踐,也以這種一邊學(xué)習(xí)一邊動(dòng)手的方式逐漸熟悉了基于Python對(duì)網(wǎng)站中網(wǎng)絡(luò)視頻的數(shù)據(jù)爬取和數(shù)據(jù)分析。在21世紀(jì)的今天,網(wǎng)絡(luò)發(fā)展越來越快,網(wǎng)上的娛樂方式也越來越多樣化,而如今在網(wǎng)上觀看視頻消遣時(shí)間越來越受到大眾的青睞。Bilibili視頻網(wǎng)站是現(xiàn)當(dāng)下年輕人最受歡迎的一個(gè)視頻網(wǎng)站。有調(diào)查顯示,直到2019年的10月份,Bilibili視頻網(wǎng)站的用戶在總體網(wǎng)絡(luò)視頻用戶占比高達(dá)90%。它與其他的視頻網(wǎng)站用戶相比較,其用戶忠實(shí)度更高,據(jù)其招募報(bào)告稱,其成員的12個(gè)月保留率達(dá)79%,而2009年注冊(cè)的用戶中60%的今天仍然活躍。Bilibili是目前國(guó)內(nèi)最受歡迎的綜合用戶網(wǎng)站,分析其視頻熱度可以從側(cè)面分析15-45歲群體的愛好,有著重要研究意義。本次論文所進(jìn)行的工作得出的總結(jié)主要有以下幾個(gè)方面:(1)通過分析B站綜合評(píng)分top100的視頻分類占比中,我們可以發(fā)現(xiàn)生活區(qū)的占比最高,其次為動(dòng)畫區(qū),可見目前B站主流視頻類型為生活類和動(dòng)畫類。(2)通過分析B站綜合評(píng)分top100的視頻平均播放量情況時(shí),我們可以發(fā)現(xiàn)動(dòng)畫類型的視頻平均播放量最高,其次為時(shí)尚類的視頻,可見在B站用戶里最受歡迎的還是動(dòng)畫類的視頻,也從進(jìn)一步判斷出B站用戶的年齡總體比較年輕。(3)通過分析B站用戶在top100視頻各分區(qū)的平均三連情況,我們可以發(fā)現(xiàn)點(diǎn)贊較多的視頻類型分別為影視、生活、動(dòng)畫類型,投幣較多的視頻類型分別為動(dòng)畫、生活、游戲類型,收藏較多的視頻類型分別為時(shí)尚、影視、動(dòng)畫類型,其中最高的為時(shí)尚類型??偨Y(jié)平均三連情況可得知在點(diǎn)贊人數(shù)里,影視區(qū)的視頻擁有最高的點(diǎn)贊量,其次為生活區(qū);在投幣人數(shù)里,生活區(qū)的視頻擁有最高的投幣量,其次為動(dòng)畫區(qū);在收藏人數(shù)里,時(shí)尚區(qū)的視頻擁有最高的收藏量,其次為影視區(qū)。由此可知B站用戶更喜歡把數(shù)量有限的幣投給動(dòng)畫和生活類型的視頻,而相對(duì)于比較實(shí)用的時(shí)尚和科技類型的視頻他們就更偏向于收藏了。(4)通過分析B站視頻的熱門標(biāo)簽,我們可以知道今年的熱門視頻標(biāo)簽與之前B站所統(tǒng)計(jì)的熱門視頻標(biāo)簽相對(duì)比,在B站熱門視頻標(biāo)簽出現(xiàn)最多的仍然是搞笑標(biāo)簽,可見B站用戶多數(shù)都喜歡能給人帶來快樂的視頻類型。而鬼畜和Bilibili新星計(jì)劃等幾個(gè)標(biāo)簽作為B站獨(dú)有的文化仍然比較顯眼,而且在今年的視頻標(biāo)簽中能夠發(fā)現(xiàn)挺多與生活相關(guān)的標(biāo)簽,結(jié)合往年B站的熱門視頻標(biāo)簽分析,這說明在B站可能每一年的視頻標(biāo)簽都在不停地變化。5.2展望這個(gè)時(shí)代是被數(shù)據(jù)支配的時(shí)代,而數(shù)據(jù)分析毋庸置疑是當(dāng)今互聯(lián)網(wǎng)發(fā)展的必由之路。而網(wǎng)絡(luò)視頻作為當(dāng)下社會(huì)的精神文化產(chǎn)品,得到越來越多人的喜愛。所以對(duì)網(wǎng)絡(luò)視頻進(jìn)行數(shù)據(jù)分析顯得十分重要,它能幫助人們進(jìn)行判斷。而本文是基于Python對(duì)“嗶哩嗶哩視頻網(wǎng)”不同類型視頻進(jìn)行數(shù)據(jù)分析,能進(jìn)一步分析其視頻熱度,方便了解如今B站15-45歲群體的愛好。雖然本次通過對(duì)“嗶哩嗶哩視頻網(wǎng)”不同視頻類型的數(shù)據(jù)分析得到一定的成果,但是在此過程中仍然存在一些不足需要在以后的分析中得以完善。參考文獻(xiàn)[1]馬翔.視頻網(wǎng)站數(shù)據(jù)分析平臺(tái)中自制節(jié)目數(shù)據(jù)可視化應(yīng)用研究[D].湖南大學(xué),2015.[2]崔楠,郭俞,張會(huì)雄.基于彈幕數(shù)據(jù)分析的熱門短視頻評(píng)價(jià)研究[J].實(shí)驗(yàn)科學(xué)與技術(shù),2019,17(3).[3]徐璐.基于Web挖掘的視頻推薦系統(tǒng)分析與實(shí)現(xiàn)[D].2016.[4]顧軍華,高星,王守彬,等.基于大數(shù)據(jù)的IPTV視頻評(píng)估模型[J].計(jì)算機(jī)應(yīng)用與軟件,2018,35(8):231r237.[5]舒德華.基于Scrapy爬取電商平臺(tái)數(shù)據(jù)及自動(dòng)問答系統(tǒng)的構(gòu)建[D].華中師范大學(xué),2016.[6]CamilaLange,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年商標(biāo)保護(hù)義務(wù)協(xié)議
- 2025年健身房特選設(shè)備訓(xùn)練服務(wù)協(xié)議
- 2025年基層金融質(zhì)押協(xié)議
- 2025年連帶責(zé)任保證合同(借款)
- 中小企業(yè)2024年期限勞動(dòng)合同3篇
- 正規(guī)2025年度藝人經(jīng)紀(jì)合同3篇
- 二零二五年度足療技師外出服務(wù)安全協(xié)議范本
- 2025年度度假酒店委托運(yùn)營(yíng)管理服務(wù)合同
- 二零二五年度汽車牌照租賃與車輛抵押貸款服務(wù)協(xié)議
- 2025年度門窗行業(yè)產(chǎn)品召回與質(zhì)量追溯合同電子版
- 江蘇省南京市協(xié)同體七校2024-2025學(xué)年高三上學(xué)期期中聯(lián)合考試英語試題答案
- 青島版二年級(jí)下冊(cè)三位數(shù)加減三位數(shù)豎式計(jì)算題200道及答案
- GB/T 12723-2024單位產(chǎn)品能源消耗限額編制通則
- GB/T 16288-2024塑料制品的標(biāo)志
- 麻風(fēng)病防治知識(shí)課件
- 干部職級(jí)晉升積分制管理辦法
- TSG ZF003-2011《爆破片裝置安全技術(shù)監(jiān)察規(guī)程》
- 2024年代理記賬工作總結(jié)6篇
- 電氣工程預(yù)算實(shí)例:清單與計(jì)價(jià)樣本
- VOC廢氣治理工程中電化學(xué)氧化技術(shù)的研究與應(yīng)用
- 煤礦機(jī)電設(shè)備培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論