bilbili用戶畫像分析_第1頁
bilbili用戶畫像分析_第2頁
bilbili用戶畫像分析_第3頁
bilbili用戶畫像分析_第4頁
bilbili用戶畫像分析_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

北京理工大學(xué)珠海學(xué)院2016級(jí)畢業(yè)設(shè)計(jì)Bilibili視頻網(wǎng)站用戶畫像分析Bilibili視頻網(wǎng)站用戶畫像分析摘要Bilibili,又名嗶哩嗶哩或B站,是中國大陸知名的視頻彈幕網(wǎng)站和最大的年輕人潮流文化娛樂社區(qū)。其主要內(nèi)容基本為ACG(Animation、Comic、Game)和彈幕。作為一個(gè)視頻網(wǎng)站,有著不同于其他視頻播放平臺(tái)的鮮明風(fēng)格和互動(dòng)形式。一直以來,二次元是bilibili用戶的主流,年輕人是bilibili的主要受眾群體。B站內(nèi)容的豐富多樣,因此攜帶有大量的用戶特征信息。根據(jù)用戶在視頻網(wǎng)站上的基本信息及所發(fā)布的視頻信息可推斷用戶的屬性信息(即構(gòu)建用戶畫像)對(duì)科學(xué)研究和商業(yè)都有著極高的價(jià)值。本論文嘗試針對(duì)嗶哩嗶哩視頻網(wǎng)站的用戶畫像進(jìn)行分析研究,主要從角色畫像與行為畫像兩個(gè)維度構(gòu)建用戶畫像體系,綜合數(shù)據(jù)分析研究用戶群體的基本信息及喜好變化。根據(jù)數(shù)據(jù)統(tǒng)計(jì)網(wǎng)站的嗶哩嗶哩用戶基本信息數(shù)據(jù)分析其角色畫像,再采用網(wǎng)絡(luò)爬蟲技術(shù)獲取嗶哩嗶哩視頻網(wǎng)站的視頻數(shù)據(jù),結(jié)合相關(guān)的科學(xué)計(jì)算方法綜合分析用戶的行為畫像。最終得出綜合的結(jié)論。關(guān)鍵詞:Bilibili,數(shù)據(jù)挖掘,數(shù)據(jù)分析,用戶畫像

DesignandImplementationofOnlineRecruitmentSystemAbstractBilibili,alsoknownasBilibiliorBilibilistationB,isawell-knownvideobarragewebsiteandthelargestyouthfashioncultureandentertainmentcommunityinmainlandChina.ItsmaincontentsarebasicallyACG(Animation,Comic,Game)andbulletscreen.Asavideowebsite,ithasadistinctstyleandinteractiveformdifferentfromothervideobroadcastingplatforms.Foralongtime,quadratichasbeenthemainstreamofbilibiliusers,andyoungpeoplearethemainaudiencegroupofbilibili.ThecontentofstationBisrichanddiverse,soitcarriesalargeamountofusercharacteristicinformation.Basedontheuser'sbasicinformationonthevideowebsiteandthevideoinformationpublishedbytheuser,theattributeinformationoftheusercanbeinferred(thatis,theuserportraitcanbeconstructed),whichisofgreatvaluetoscientificresearchandbusiness.Thispaperattemptstoanalyzeandstudytheuserportraitofbilibilivideowebsite,andmainlyconstructstheuserportraitsystemfromthetwodimensionsofcharacterportraitandbehaviorportrait,andstudiesthebasicinformationandpreferencesofusergroupsthroughcomprehensivedataanalysis.Accordingtothedatastatisticswebsitebilibiliuserbasicinformationdatatoanalyzetheirroleportrait,andthenusethewebcrawlertechnologytoobtainthevideodataofbilibilivideowebsite,combinedwiththerelevantscientificcomputingmethodstocomprehensivelyanalyzetheuserbehaviorportrait.Finallycomestoacomprehensiveconclusion.Keywords:Bilibili,datamining,dataanalysis,userportrait

目錄一、緒論

一、緒論(一)論文背景及意義1.研究背景Bilibili,又名嗶哩嗶哩或B站,是中國大陸知名的視頻彈幕網(wǎng)站,和最大的年輕人潮流文化娛樂社區(qū)。其主要內(nèi)容其主要的內(nèi)容基本為ACG(Animation、Comic、Game)和彈幕。作為一個(gè)視頻網(wǎng)站,有著不同于其他視頻播放平臺(tái)的鮮明風(fēng)格和互動(dòng)形式。一直以來,二次元是嗶哩嗶哩用戶的主流,年輕人是嗶哩嗶哩的主要受眾群體,盡管較為穩(wěn)定但是受眾范圍小。但是隨著其他視頻網(wǎng)站的收購,合并,發(fā)展,嗶哩嗶哩作為小眾視頻分享網(wǎng)站,資金上也不夠雄厚,因此無法有實(shí)力同其他視頻網(wǎng)站競(jìng)爭。并且,現(xiàn)如今各視頻網(wǎng)站紛紛開發(fā)了彈幕功能,買下進(jìn)口動(dòng)漫版權(quán),嗶哩嗶哩的優(yōu)勢(shì)漸漸淡化。因此嗶哩嗶哩必須從單純的視頻分享網(wǎng)站向多元化的商業(yè)模式轉(zhuǎn)型。近年來,嗶哩嗶哩開設(shè)了多個(gè)如學(xué)習(xí),美食,科普,時(shí)尚等非傳統(tǒng)ACG文化分區(qū)。除此之外還有新興的直播行業(yè),同時(shí)嗶哩嗶哩鼓勵(lì)獨(dú)創(chuàng),吸引了眾多的非二次元文化用戶的入駐,逐漸成為中國的YouTube。嗶哩嗶哩也被調(diào)侃為“中國最大的學(xué)習(xí)網(wǎng)站”。近期國內(nèi)疫情的影響,嗶哩嗶哩也成為上海教委指定學(xué)習(xí)網(wǎng)站之一。盡管嗶哩嗶哩目前仍以游戲作為主要的收入來源,但是隨著發(fā)展,也應(yīng)更加多元化。同時(shí),大數(shù)據(jù)是當(dāng)今時(shí)代的熱詞,其龐大的數(shù)據(jù)量可以通過數(shù)據(jù)的挖掘和分析從而做到對(duì)用戶行為的確認(rèn)和預(yù)測(cè)。數(shù)據(jù)挖掘與分析這種技術(shù)因此受到企業(yè)和決策者們的愛戴,其主要是基于如機(jī)器學(xué)習(xí),統(tǒng)計(jì)學(xué)知識(shí)或人工智能等相關(guān)技術(shù),處理業(yè)務(wù)中的海量數(shù)據(jù),將有價(jià)值的數(shù)據(jù)提取并進(jìn)行分析,以保證數(shù)據(jù)資源的合理及充分利用。這種技術(shù)可以幫助企業(yè)做出合理決策,精準(zhǔn)營銷,從而降低企業(yè)的運(yùn)營風(fēng)險(xiǎn)。2.研究意義:大數(shù)據(jù)的時(shí)代,各行各業(yè)都追求數(shù)字化服務(wù),精準(zhǔn)定位。研究用戶及其喜好的變化是必要的。眾多電商網(wǎng)站都根據(jù)用戶的喜好進(jìn)行推送,可以提高用戶的忠誠度和收益。這對(duì)于嗶哩嗶哩也同樣適用,但是關(guān)于嗶哩嗶哩的用戶畫像并且基于數(shù)據(jù)的分析非常罕見。根據(jù)用戶畫像的分析,可以預(yù)測(cè)未來的發(fā)展方向,改善當(dāng)前面臨的問題,幫助嗶哩嗶哩可持續(xù)性發(fā)展。大數(shù)據(jù)分析的意義即通過數(shù)據(jù)對(duì)一個(gè)企業(yè)運(yùn)營情況和發(fā)展進(jìn)行評(píng)估,從傳統(tǒng)的定性分析轉(zhuǎn)變?yōu)槎糠治觥C鞔_的數(shù)據(jù)是更加真實(shí)有力的證據(jù),這比傳統(tǒng)的定性分析,專家評(píng)測(cè)等方法更加合理客觀。對(duì)于視頻網(wǎng)站來說,用戶的喜好決定了用戶的行為,提高用戶的忠誠度勢(shì)必要研究用戶的喜好及其變化。根據(jù)數(shù)據(jù)挖掘技術(shù),獲得真實(shí)有效的用戶行為數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行分析研究,確定用戶需求和喜好。如通過學(xué)習(xí)視頻播放的增長率相對(duì)較高,可提供更加專業(yè)和系統(tǒng)化的網(wǎng)課合集,并通過同教育機(jī)構(gòu)的簽約實(shí)行網(wǎng)課直播。盡可能的貼合用戶的需求,構(gòu)建用戶畫像是幫助嗶哩嗶哩確定用戶群體,了解市場(chǎng),根據(jù)數(shù)據(jù)分析基于發(fā)展建議,幫助嗶哩嗶哩在視頻網(wǎng)站的相互競(jìng)爭中屹立不倒。(二)用戶畫像概念及研究現(xiàn)狀綜述1.用戶畫像概述用戶畫像就是根據(jù)從用戶的行為信息中提煉出的用戶屬性,這些屬性包括了用戶的偏好等信息,根據(jù)這些標(biāo)識(shí)信息建立用戶的模型,這些模型可以高度概括并且以通俗易懂的形式描述用戶的特征,從而更加容易理解用戶,更加直觀的給人傳遞用戶喜好信息。保證用戶畫像的可靠性,需要滿足用戶畫像的五個(gè)條件,即目標(biāo),方式,組織,標(biāo)準(zhǔn),驗(yàn)證。其分別可解釋為:·目標(biāo):用戶畫像調(diào)查所針對(duì)的人群,即需描述其特征的人或者需要分析的人?!し绞剑嚎杀环譃樾问交侄魏头切问交侄?。形式化手段是使用數(shù)據(jù)描述和構(gòu)畫用戶的形象;非結(jié)構(gòu)化手段則是使用文字,語言,圖像,視頻等方式對(duì)用戶進(jìn)行描述。·組織:結(jié)構(gòu)化或非結(jié)構(gòu)化的組織形式。·標(biāo)準(zhǔn):采用常識(shí),共識(shí)再到知識(shí)體系漸進(jìn)的過程對(duì)用戶進(jìn)行描述,從而認(rèn)識(shí)用戶?!を?yàn)證:數(shù)據(jù)來源真實(shí)有效,可以被推理和檢驗(yàn)。同時(shí)用戶畫像還包含不同的種類,如角色畫像,行為畫像。角色畫像·角色畫像包括用戶的基本屬性,常見的屬性有名稱,性別,年齡,職業(yè),地域等相關(guān)屬性,其數(shù)據(jù)均是客觀存在的。其主要偏重于用戶的定位,確定用戶形象的分析·行為畫像則是根據(jù)以往數(shù)據(jù)總結(jié)歸納得到的用戶行為的描述和預(yù)測(cè),其數(shù)據(jù)會(huì)根據(jù)用戶不同的行為喜好發(fā)生變化。數(shù)據(jù)是行為畫像的關(guān)鍵,行為畫像充分的體現(xiàn)了數(shù)據(jù)的價(jià)值和意義。2.用戶畫像研究現(xiàn)狀 用戶畫像目前在國內(nèi)也被廣泛的的應(yīng)用于互聯(lián)網(wǎng)及電商等領(lǐng)域。企業(yè)通過分析歷史用戶的信息,從而得到用戶偏好,能供作為精準(zhǔn)營銷的數(shù)據(jù)支持。例如手機(jī)短信,郵件,廣告推送等營銷行為。同時(shí)在用戶統(tǒng)計(jì)研究,企業(yè)數(shù)據(jù)挖掘,產(chǎn)品服務(wù),不同行業(yè)報(bào)告中也有著舉足輕重的作用。同時(shí)用戶畫像也可以用于挖掘潛在用戶。用戶畫像的應(yīng)用場(chǎng)景較多,通過挖掘用戶的興趣,偏好等特征,向用戶推薦適合的產(chǎn)品,從而提升產(chǎn)品服務(wù)且為企業(yè)待帶來盈利。在國內(nèi)已經(jīng)有不少的成果案例:比如段云峰、吳唯寧、李劍威等人在數(shù)據(jù)倉庫及其電信領(lǐng)域的相關(guān)應(yīng)用中,通過運(yùn)營數(shù)據(jù)倉庫的方法,對(duì)電信行業(yè)的服務(wù)客戶進(jìn)行了存儲(chǔ)管理[5];葉松云也在我國電信行業(yè)的客戶流失管理相關(guān)建模分析及應(yīng)用的研究中,通過對(duì)電信行業(yè)的流失客戶進(jìn)行模型建構(gòu),從而管理這個(gè)流失模型來有效控制客戶的流失[6]。高玉龍[3]在電子商務(wù)網(wǎng)站的用戶畫像研究中,通過獲取用戶數(shù)據(jù)并將用戶屬性標(biāo)簽化,再定義了相關(guān)規(guī)則,以此來構(gòu)建用戶畫像模型。用戶畫像適用范圍極廣,無論是新用戶的引流,潛在用戶的挖掘,再到老用戶的培養(yǎng)以及失流用戶的回流等工作都卓有成效。因此對(duì)于處于轉(zhuǎn)型期的bilibili視頻網(wǎng)站來說,通過對(duì)用戶畫像的描述可以幫助企業(yè)快速定位當(dāng)前用戶,挖掘其潛在用戶,幫助企業(yè)發(fā)展。(三)研究內(nèi)容及方法1.研究內(nèi)容由于嗶哩嗶哩視頻網(wǎng)站的用戶隱私限制,無法獲取較全面,且有分析價(jià)值的用戶數(shù)據(jù),因此本文研究的角色畫像數(shù)據(jù)來自艾瑞數(shù)據(jù),行為畫像數(shù)據(jù)為自主爬取的用戶在嗶哩嗶哩視頻網(wǎng)站的在線行為數(shù)據(jù),即視頻的相關(guān)信息,如(如視頻名稱,視頻分類,視頻發(fā)布人,視頻播放量等屬性),這些數(shù)據(jù)可以很好的展現(xiàn)嗶哩嗶哩視頻網(wǎng)站不同用戶的喜好,以及這些喜好根據(jù)時(shí)間的變化而發(fā)生改變。視頻反應(yīng)的數(shù)據(jù)情況可以為用戶畫像的模型構(gòu)建提供良好的屬性選擇。再根據(jù)構(gòu)建好的模型得到嗶哩嗶哩視頻網(wǎng)站用戶畫像?;谝陨戏治龅玫降挠脩舢嬒窨梢詭椭逦ㄎ挥脩簦瑤椭髽I(yè)發(fā)展。將研究內(nèi)容和研究方法區(qū)別開。將研究內(nèi)容和研究方法區(qū)別開。研究內(nèi)容是研究對(duì)象和想得到的研究結(jié)果等。研究方法是使用的技術(shù)手段、途徑等。2.研究方法本文主要通過對(duì)bilibili用戶在線的行為數(shù)據(jù),用統(tǒng)計(jì)學(xué)及網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行數(shù)據(jù)挖掘與分析,構(gòu)建合理的用戶畫像模型。為能夠達(dá)到研究的目標(biāo),擬采用一下的研究方式:文獻(xiàn)查閱,通過查閱bilibili發(fā)展,用戶畫像分析,數(shù)據(jù)挖掘及分析等包含相關(guān)關(guān)鍵詞的文獻(xiàn),了解國內(nèi)對(duì)于bilibili的用戶分析及發(fā)展現(xiàn)狀,國內(nèi)互聯(lián)網(wǎng)用戶畫像分析現(xiàn)狀,以及一些用戶畫像分析的維度與方法。以此為基礎(chǔ)進(jìn)行bilibili用戶畫像的概念模型。通過學(xué)習(xí)python網(wǎng)絡(luò)爬蟲技術(shù),將原始數(shù)據(jù)收集存入mongoDB后再利用python對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)的預(yù)處理,即數(shù)據(jù)清洗。主要處理爬蟲過程中爬取的無效數(shù)據(jù),空數(shù)據(jù),以及亂碼數(shù)據(jù)。盡可能的保證數(shù)據(jù)的準(zhǔn)確性及有效性。通過獲取的視頻數(shù)據(jù)定義用戶畫像的評(píng)價(jià)維度,確定合理的用戶畫像屬性維度,從而建立準(zhǔn)確的用戶畫像模型。利用數(shù)據(jù)分析的工具及可視化的展現(xiàn),動(dòng)態(tài)的數(shù)據(jù)分析結(jié)果勾畫出用戶群體在bilibili視頻網(wǎng)站的用戶需求變化,從而準(zhǔn)確的定義用戶畫像模型。從而對(duì)bilibili用戶畫像模型進(jìn)行可視化的展示。通過科學(xué)數(shù)據(jù)分析方法如層次分析理論,對(duì)用戶喜好數(shù)據(jù)根據(jù)行為表現(xiàn)進(jìn)行綜合描述,得到用戶幾年間的喜好變化。(四)技術(shù)工具的選擇系統(tǒng)運(yùn)行于Windows平臺(tái);系統(tǒng)的JavaJDK版本為1.8;系統(tǒng)編程軟件基于PyCharm及Anaconda3-5.3.1下的JupyterNotebook編程語言使用python3.7。數(shù)據(jù)庫采用mongoDB1.網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲[1](webcrawler),也被稱為網(wǎng)絡(luò)蜘蛛[2](spider),會(huì)從Internet上下載內(nèi)容并編制索引。爬蟲程序通常經(jīng)過編程,可以訪問其所有者提交的新站點(diǎn)或更新站點(diǎn)??梢杂羞x擇地訪問整個(gè)站點(diǎn)或特定頁面并對(duì)其建立索引。位于頁面上時(shí),會(huì)收集有關(guān)頁面的信息,例如copy和meta標(biāo)簽。然后,將頁面存儲(chǔ)在索引中,算法可以對(duì)其中包含的單詞進(jìn)行排序,以便以后為用戶獲取信息。URL,即統(tǒng)一資源定位符(UniformResourceLocator),我們也稱為網(wǎng)絡(luò)地址。爬蟲技術(shù)一般以初始的一個(gè)網(wǎng)頁URL為起點(diǎn),獲取其URL列表,運(yùn)行時(shí)連續(xù)的把獲取到的新的URL加入待爬行組,通過遵循爬取的策略不斷的從待爬取的URL爬行組中選出新的URL進(jìn)行爬取,直到滿足相應(yīng)的條件,爬取遇到阻礙,或者執(zhí)行者手動(dòng)進(jìn)行停止操作才停止爬行。通過網(wǎng)絡(luò)爬蟲獲取的網(wǎng)頁數(shù)據(jù)中有兩種數(shù)據(jù)類型,即結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù),常見的結(jié)構(gòu)化數(shù)據(jù)如JSON格式,是一種特定格式的字符串形式,類似于字典。JSON格式易于電腦的生成和解析,通過相應(yīng)的關(guān)鍵字可得到對(duì)應(yīng)的數(shù)據(jù)信息[7]。而非結(jié)構(gòu)化數(shù)據(jù)基本可以分為兩種文本格式與HTML格式。本文從bilibili視頻網(wǎng)站爬取的數(shù)據(jù)信息則是機(jī)構(gòu)化數(shù)據(jù)JSON格式存存入MongoDB。2.mongoDBMongoDB(來自于英文單詞“Humongous”,中文含義為“龐大”)是可以應(yīng)用于各種規(guī)模的企業(yè)、各個(gè)行業(yè)以及各類應(yīng)用程序的開源數(shù)據(jù)庫。作為一個(gè)適用于敏捷開發(fā)的數(shù)據(jù)庫,MongoDB的數(shù)據(jù)模式可以隨著應(yīng)用程序的發(fā)展而靈活地更新。與此同時(shí),它也為開發(fā)人員提供了傳統(tǒng)數(shù)據(jù)庫的功能:二級(jí)索引,完整的查詢系統(tǒng)以及嚴(yán)格一致性等等[8]?,F(xiàn)如今傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(如MySQL)面對(duì)于數(shù)據(jù)操作的數(shù)據(jù)的高并發(fā)讀寫,海量數(shù)據(jù)的高效儲(chǔ)存和訪問,數(shù)據(jù)庫的高擴(kuò)展和可用性的需求以及應(yīng)用Web2.0的網(wǎng)站需求應(yīng)對(duì)代價(jià)較高。MongoDB在當(dāng)前的社交場(chǎng)景,游戲場(chǎng)景,物流場(chǎng)景,物聯(lián)網(wǎng)場(chǎng)景以及直播等場(chǎng)景下的應(yīng)用及其廣泛。例如:微信用戶朋友圈的相關(guān)信息的存儲(chǔ),通過地理位置索引實(shí)現(xiàn)的附近的人,漂流瓶,定位等功能。其具有可以寫入海量數(shù)據(jù),且可以頻繁的寫入操作。對(duì)于非強(qiáng)事務(wù)的數(shù)據(jù)存取可以及時(shí)應(yīng)對(duì)數(shù)據(jù)變化。MongoDB數(shù)據(jù)存儲(chǔ)是松散的,不需要在存儲(chǔ)時(shí)就確定數(shù)據(jù)模型,可以很好的支持可擴(kuò)展性高。3.python數(shù)據(jù)分析Python在數(shù)據(jù)交互與分析,探索性計(jì)算以及數(shù)據(jù)可視化等方面都有非常多元化的庫和技術(shù)交流的社區(qū),除此之外在python的numpy、pandas、matplotlib、等一系列優(yōu)秀的庫和工具在數(shù)據(jù)分析中經(jīng)常用到,使用起來非常的方便快捷,功能完全,可以滿足數(shù)據(jù)分析的各種操作,對(duì)海量數(shù)據(jù)的分析效率也很高。因此備受各種行業(yè)數(shù)據(jù)分析師的喜愛。JupyterNoteBook(以前稱為IPythonNoteBook),是一款免費(fèi)的開源的交互式web工具。它提供了一個(gè)用戶和IPython內(nèi)核交互的一個(gè)界面,同時(shí)它又是一個(gè)交互式的筆記本(可以保存你的源代碼、運(yùn)行結(jié)果),集文本(markdown)、代碼、圖像、公式與一體的python的web界面。在普通的pythonshell或者IDE(集成開發(fā)環(huán)境)如Pycharm中進(jìn)行數(shù)據(jù)分析,過程繁瑣。通常代碼和文檔不能同時(shí)進(jìn)行,如獲取數(shù)據(jù)分析中間結(jié)果數(shù)據(jù),則需將代碼重新運(yùn)行,再將結(jié)果編輯成文檔。JupyterNoteBook可以邊進(jìn)行代碼的編寫,邊輸出敘事性文檔,界面美觀。

(五)論文結(jié)構(gòu)本文共分為6個(gè)章節(jié),主要研究了基于數(shù)據(jù)挖掘技術(shù)構(gòu)建用戶畫像并分析,結(jié)合分析得出結(jié)論并給予建議。細(xì)節(jié)如下:一、緒論,主要介紹了本次研究的背景,意義,用戶畫像的描述及研究現(xiàn)狀,以及本文的研究內(nèi)容及方法??尚行苑治觯饕獜纳鐣?huì)及次啊用的相關(guān)技術(shù)層面進(jìn)行分析確保研究可行。三、數(shù)據(jù)的獲取及處理,主要闡述了如何應(yīng)用爬蟲工具將數(shù)據(jù)從原始網(wǎng)站爬取。并對(duì)爬取數(shù)據(jù)到的數(shù)據(jù)如何存儲(chǔ)及處理進(jìn)行了詳細(xì)的描述。用戶畫像的構(gòu)建,確定用戶畫像的維度及其指標(biāo)的選擇,并介紹數(shù)據(jù)評(píng)估的方法。根據(jù)用戶畫像的維度進(jìn)行用戶畫像分析分析六、根據(jù)分析結(jié)果得出結(jié)論,并給予相應(yīng)的建議。

二、可行性分析本論文嘗試針對(duì)嗶哩嗶哩視頻網(wǎng)站的用戶畫像進(jìn)行分析研究,主要從角色畫像與行為畫像兩個(gè)維度構(gòu)建用戶畫像體系,結(jié)合爬蟲技術(shù)手段及科學(xué)計(jì)算分析方法綜合分析用戶的行為畫像。最終得出綜合的結(jié)論。(一)社會(huì)可行性 利用用戶畫像分析制定營銷策略,或者防止用戶流失等在國內(nèi)外并不少見。通過查閱用戶畫像的相關(guān)分析發(fā)現(xiàn),互聯(lián)網(wǎng)行業(yè)常以電商或者社交平臺(tái)相關(guān)的論文或者數(shù)據(jù)分析較為常見,各種分析的手段也比較完善。對(duì)于4G乃至未來的5G時(shí)代所帶來的大量新型的互聯(lián)網(wǎng)視頻行業(yè)的數(shù)據(jù)分析相對(duì)較少,知網(wǎng)關(guān)于嗶哩嗶哩視頻網(wǎng)站的分析多數(shù)為角色畫像分析,缺少數(shù)據(jù)的支撐和預(yù)測(cè)。因此本文從用戶畫像的兩種模式即角色畫像和行為畫像對(duì)嗶哩嗶哩視頻網(wǎng)站的用戶畫像進(jìn)行較為全面的分析,結(jié)合相關(guān)互聯(lián)網(wǎng)社交平臺(tái)用戶畫像分析的相關(guān)方法。這類的分析在行業(yè)中也起到重要的作用,可以幫助嗶哩嗶哩視頻網(wǎng)站更加清晰的認(rèn)識(shí)其角色畫像以及行為畫像,即用戶群體隨著時(shí)間的變化而發(fā)生的數(shù)據(jù)變化,喜好變化等。因此本次嗶哩嗶哩用戶畫像分析研究具有較高的社會(huì)價(jià)值,也具有可行性。(二)技術(shù)可行性Python是一款強(qiáng)大的數(shù)據(jù)分析工具,對(duì)于數(shù)據(jù)分析初學(xué)者可在短期內(nèi)掌握技術(shù),代碼量小。python大量的庫為數(shù)據(jù)分析提供了完整的工具集,相比spss及excel,對(duì)于大量數(shù)據(jù)的處理能力強(qiáng),且運(yùn)行速度快。比起MATLAB、R語言等其他主要用于數(shù)據(jù)分析語言,python語言功能更加健全。Python也是目前較為主流的編程語言之一,同時(shí)有著豐富的數(shù)據(jù)庫以及活躍的社區(qū),遇到問題基本可以在網(wǎng)絡(luò)尋找解決方法。因此運(yùn)用python來完成數(shù)據(jù)挖掘到分析是可行的。

三、數(shù)據(jù)獲取及管理本章中所有的實(shí)驗(yàn)數(shù)據(jù)均來自于。(一)數(shù)據(jù)的爬取1.數(shù)據(jù)獲取模塊BilibiliAPI:b站的API是其向開發(fā)者提供的獲取數(shù)據(jù)的網(wǎng)絡(luò)接口,通過API可以獲取部分?jǐn)?shù)據(jù)。但b站對(duì)與反爬蟲機(jī)制對(duì)的ip訪問頻率存在限制,因此需要休眠,或擁有大量IP。為了兼顧效率和穩(wěn)定,購置大量ip存放于txt文件中,在進(jìn)行爬蟲時(shí)對(duì)其調(diào)用。本文基于python的爬蟲工具對(duì)數(shù)據(jù)進(jìn)行抓取。數(shù)據(jù)獲?。罕疚牡臄?shù)據(jù)獲取利用的時(shí)開源庫requests(/kennethreitz/requests/)實(shí)現(xiàn)。requests是一個(gè)基于python網(wǎng)絡(luò)模塊urllib3開發(fā)的http客戶端庫,相比于python標(biāo)準(zhǔn)庫urllib,它提供了更方便的api接口,支持http連接保持和連接池,支持cookie保持繪畫,支持上傳文件,支持自動(dòng)確定相應(yīng)內(nèi)容的編碼,支持國際化的url(如帶中文參數(shù)的url鏈接)和post數(shù)據(jù)自動(dòng)編碼。由于bilibili視頻網(wǎng)站對(duì)于同一IP頻繁訪問的防護(hù)機(jī)制,且2014-2019年視頻總量超過8000w,本地內(nèi)存無法完成數(shù)據(jù)全部爬取。本文采用系統(tǒng)抽樣的方法對(duì)bilibili的視頻信息進(jìn)行抽取。系統(tǒng)抽樣也可以被稱作等距抽樣,SYS抽樣等。這種方法是在一個(gè)整體中,首先依據(jù)樣本的整體容量確定抽選樣本的間隔單位,再隨機(jī)開始進(jìn)行抽樣,抽樣按照確定的間隔單位抽取對(duì)應(yīng)的樣本,直到?jīng)]有樣本以進(jìn)行抽取。這種方式對(duì)于本文的研究中較大數(shù)據(jù)量且無法完全獲取的情況有著較為科學(xué)的幫助。本文主要以u(píng)rl前綴+視頻的av號(hào)碼(bilibili視頻網(wǎng)站視頻的唯一確定標(biāo)識(shí))進(jìn)行數(shù)據(jù)的獲取,采用系統(tǒng)抽樣的方法,既定每間隔1000個(gè)號(hào)碼進(jìn)行一次數(shù)據(jù)的爬取。從html頁面中后獲取到的相關(guān)視頻的數(shù)據(jù)包括:視頻名稱,發(fā)布人,視頻類別,發(fā)布時(shí)間,觀看數(shù),點(diǎn)贊數(shù),投幣數(shù),收藏?cái)?shù)等信息。每個(gè)視頻有唯一標(biāo)識(shí)的aid,視頻的名稱即為視頻在上傳時(shí)對(duì)其的命名。每個(gè)視頻有視頻描述,視頻描述可以為無,即沒有信息。每個(gè)視頻信息都包含發(fā)布視頻的用戶信息,即mid和name。視頻相關(guān)信息還包括發(fā)布的時(shí)間,可以以此來進(jìn)行后續(xù)的動(dòng)態(tài)分析。視頻的類別是該視頻所處的分區(qū),此處為小分區(qū),對(duì)應(yīng)分分區(qū)號(hào),由于該網(wǎng)頁不包括大分區(qū)的信息,后期需要對(duì)其進(jìn)行分類處理。視頻的觀看數(shù)即播放量,點(diǎn)贊數(shù)量,投幣數(shù)量,收藏?cái)?shù)量是該視頻的收益信息。2.控制模塊對(duì)爬蟲工作進(jìn)行控制,包括任務(wù)的發(fā)布和回收,控制數(shù)據(jù)流大小,頁面的刷新和跳轉(zhuǎn),數(shù)據(jù)的儲(chǔ)存等。任務(wù)發(fā)布:給爬蟲模塊分配url,獲取從url返回的數(shù)據(jù),部分代碼如圖3.1.1所示。并存入mongoDB數(shù)據(jù)庫部分代碼如圖3.1.2所示:圖3.1.1獲取數(shù)據(jù)部分代碼圖3.1.2保存數(shù)據(jù)部分代碼數(shù)據(jù)流控制:控制爬取的數(shù)據(jù)量以滿足分析需求,部分代碼如圖3.1.3所示。采用pool進(jìn)行多線程程操作,節(jié)省數(shù)據(jù)爬取的時(shí)間。獲取到數(shù)據(jù)后交由處理模塊處理。部分代碼如圖3.1.4所示:圖3.1.3獲取數(shù)據(jù)控制部分代碼圖3.1.4進(jìn)程池部分代碼頁面刷新和跳轉(zhuǎn):設(shè)置timeout防止訪問時(shí)間過長造成假死。數(shù)據(jù)保存:首先連接mongoDB數(shù)據(jù)庫將response的數(shù)據(jù)不進(jìn)行轉(zhuǎn)化處理直接以JSON格式存儲(chǔ)進(jìn)mongoDB。部分代碼如圖3.1.5所示:圖3.1.5數(shù)據(jù)保存部分代碼(二)數(shù)據(jù)清洗1.數(shù)據(jù)庫管理MongoDB是一個(gè)文檔型數(shù)據(jù)庫,因此可以存放xml、json、bson類型的數(shù)據(jù)。這對(duì)于本次研究爬取的原始數(shù)據(jù)的存儲(chǔ)就非常的方便,且存儲(chǔ)迅速。本文共創(chuàng)建了兩個(gè)數(shù)據(jù)庫VideosData,VideosDataFinal。VideosData:為了提高爬取信息的存儲(chǔ)效率,首先將爬取的源數(shù)據(jù)直接以json形式存儲(chǔ)進(jìn)mongoDB數(shù)據(jù)庫,其形式如表3.2.1所示:表3.2.1VideosData數(shù)據(jù)庫信息字段名稱類別描述_id

ObjectIdDocuments自生成的_id,作為主鍵code

Int32是否可以查找到視頻數(shù)據(jù),無數(shù)據(jù)時(shí)為‘404’,有數(shù)據(jù)為‘0’message

String是否可以查找到視頻數(shù)據(jù),無數(shù)據(jù)為‘啥都木有’,有數(shù)據(jù)為‘0’ttlInt32IP包被路由器丟棄之前允許通過的最大網(wǎng)段數(shù)量data

Object字典,存放視頻信息數(shù)據(jù)VideosDataFinal:該數(shù)據(jù)庫是將數(shù)據(jù)進(jìn)行預(yù)處理,提取VideosData數(shù)據(jù)庫中有用的字段信息,將其從新組合存入新的數(shù)據(jù)庫VideosDataFinal,方便后續(xù)數(shù)據(jù)的使用和分析。如表3.2.2所示:表3.2.2VideosDatFinal數(shù)據(jù)庫信息字段名稱類別描述_id

ObjectIdDocuments自生成的_id,作為主鍵aid

Int32視頻idview

Int32視頻的播放數(shù)量title

String視頻的名稱tidInt32視頻所投放分區(qū)的編號(hào)tnameString視頻所投放分區(qū)的名稱pubdataString視頻的發(fā)布時(shí)間pubdata_y

String視頻發(fā)布時(shí)間所在年份midInt32發(fā)布視頻的用戶的idnameString發(fā)布視頻的用戶的昵稱danmakuInt32視頻擁有的彈幕數(shù)量replyInt32視頻擁有的評(píng)論數(shù)量favoriteInt32該視頻被收藏的次數(shù)coinInt32該視頻收到的bilibili硬幣的數(shù)量like

Int32該視頻收到的點(diǎn)贊的數(shù)量share

Int32該視頻被分享的次數(shù)2.數(shù)據(jù)處理在本小節(jié)中,我將對(duì)實(shí)驗(yàn)中的數(shù)據(jù)預(yù)處理的方法進(jìn)行描述。在bilibili的眾多用戶信息,視頻信息中,存在大量的無效數(shù)據(jù)。因?yàn)閿?shù)據(jù)量大,實(shí)際的數(shù)據(jù)會(huì)受到噪聲,缺失值和不一致數(shù)據(jù)的影響。低質(zhì)量的數(shù)據(jù)將會(huì)導(dǎo)致低質(zhì)量的挖掘結(jié)果這些數(shù)據(jù)如不加以處理就放入實(shí)驗(yàn)中則會(huì)干擾實(shí)驗(yàn),影響分析結(jié)果。本文的數(shù)據(jù)預(yù)處理流程如圖3.2.1所示:圖3.2.1數(shù)據(jù)處理流程從bilibili視頻網(wǎng)站獲取的視頻數(shù)據(jù)以aid進(jìn)行查詢依據(jù),部分視頻如果作者或者其他行為將視頻刪除后,搜索aid則不能獲取到視頻相關(guān)信息,因此在數(shù)據(jù)獲取階段就存在大量的無效數(shù)據(jù)。盡管沒有視頻信息,但仍有返回值可以被存進(jìn)數(shù)據(jù)庫當(dāng)中,在數(shù)據(jù)庫中顯示如圖3.2.2所示:圖3.2.2無視頻信息返回?cái)?shù)據(jù)獲取到網(wǎng)頁數(shù)據(jù)后,數(shù)據(jù)庫中的數(shù)據(jù)存在大量的無效數(shù)據(jù)及無關(guān)屬性,因此對(duì)數(shù)據(jù)進(jìn)行二次處理。進(jìn)行二次處理的原因是,在數(shù)據(jù)獲取時(shí)對(duì)數(shù)據(jù)進(jìn)行篩選和過濾爬蟲爬取的速度慢。同時(shí)訪問網(wǎng)址,獲取數(shù)據(jù),轉(zhuǎn)換數(shù)據(jù)并進(jìn)行存儲(chǔ)的效率低,因此采用對(duì)已經(jīng)爬取到保存的數(shù)據(jù)進(jìn)行再加工。例如數(shù)據(jù)源的時(shí)間是以時(shí)間戳(pubdate:1577767986)的形式保存,將其轉(zhuǎn)化成正常的時(shí)間格式(pubdate:"2019-12-3112:53:06"),并且再分析時(shí)主要以年份進(jìn)行橫向的分析,也需要將年份提取保存。部分代碼如圖3.2.3所示:圖3.2.3轉(zhuǎn)換時(shí)間戳代碼源數(shù)據(jù)中的無效數(shù)據(jù),即被刪除或者屏蔽的視頻所返回的信息值也需要過濾掉,在從mongoDB讀取數(shù)據(jù)的的時(shí)候進(jìn)行filter篩選操作,無效信息的massage為“啥也木有”,而有object返回的massage為“0”,因此找到massage為“0”的數(shù)據(jù)進(jìn)行提取。部分代碼如圖3.2.4:圖3.2.4篩選有視頻信息數(shù)據(jù)代碼將數(shù)據(jù)庫原始數(shù)據(jù)進(jìn)行轉(zhuǎn)化后的數(shù)據(jù)文件保存為csv文件方便在jupyternotebook讀取打開。打開存在數(shù)據(jù)格式轉(zhuǎn)換導(dǎo)致的數(shù)據(jù)異常,無法被jupyternotebook讀取從而報(bào)錯(cuò)。經(jīng)網(wǎng)絡(luò)問題解決方法查找并未找到其他合適的解決方案,因此使用“error_bad_lines=False”對(duì)錯(cuò)誤數(shù)據(jù)進(jìn)行跳過。首先確認(rèn)數(shù)據(jù)是否正常獲取,展示數(shù)據(jù)信息如圖3.2.5所示:圖3.2.5視頻數(shù)據(jù)信息視頻的屬性有兩種狀態(tài),可為空,不可為空。播放數(shù)量(view),彈幕數(shù)量(danmaku),回復(fù)數(shù)量(reply),收藏?cái)?shù)量(favorite),投幣數(shù)量(coin),點(diǎn)贊數(shù)量(like),分享數(shù)量(share)可以為空值。視頻名稱(title),視頻分類(tname),發(fā)布時(shí)間(pubdate),發(fā)布人(name)等屬性不可為空。因此翠玉不能為空的屬性要進(jìn)行缺失值的查詢和剔除,此處以屬性為例,部分代碼如圖3.2.6所示:圖3.2.6處理缺失值代碼

四、基于屬性用戶畫像構(gòu)建(一)用戶畫像的維度 對(duì)視頻網(wǎng)站進(jìn)行用戶畫像的分析,主要從兩方面:行為畫像和角色畫像。·角色畫像包括用戶的基本屬性,常見的屬性有名稱,性別,年齡等相關(guān)屬性,其數(shù)據(jù)均是客觀存在的,可以對(duì)用戶形象有一個(gè)大致的定義?!ば袨楫嬒駝t是根據(jù)以往數(shù)據(jù)總結(jié)歸納得到的用戶行為的描述和預(yù)測(cè),其數(shù)據(jù)會(huì)根據(jù)用戶不同的行為喜好發(fā)生變化。本文的行為畫像分析的數(shù)據(jù)主要來自于用戶在嗶哩嗶哩觀看視頻的不同數(shù)據(jù),可以通過分析用戶觀看不同類型視頻的相關(guān)行為情況分析得出用戶的行為畫像,如圖4.1.1所示。圖4.1.1用戶畫像維度(二)用戶畫像的維度指標(biāo)的選擇1.角色畫像指標(biāo)選擇嗶哩嗶哩視頻網(wǎng)站記錄了關(guān)于用戶的基本信息,包括昵稱,生日,性別等信息,這些信息客觀存在,不會(huì)因?yàn)橛脩粼趩袅▎袅ǖ挠^看行為而發(fā)生改變,可以直接的描述使用嗶哩嗶哩視頻網(wǎng)站觀看視頻的用戶形象。例如:昵稱為老番茄的用戶,性別男性,年齡23歲,長期生活于上海,是嗶哩嗶哩視頻網(wǎng)站首個(gè)擁有1000w粉絲的up主。根據(jù)嗶哩嗶哩視頻網(wǎng)站記錄的用戶基本數(shù)據(jù),本文主要選取了性別,年齡,地域三個(gè)指標(biāo)進(jìn)行角色畫像的分析,如圖4.1.2所示。 圖4.1.2角色畫像指標(biāo)2.行為畫像指標(biāo)選擇嗶哩嗶哩視頻網(wǎng)站主要的用戶行為是觀看不同種類的視頻,視頻則記錄了不同的信息,包括其所屬的分區(qū),投放的時(shí)間,播放量,點(diǎn)贊投幣量,彈幕評(píng)論量等一系列的嗶哩嗶哩用戶行為信息。本文為了確定用戶行為畫像,需要確定視頻的不同屬性,以及對(duì)應(yīng)的行為數(shù)據(jù)進(jìn)行綜合評(píng)價(jià),如圖4.2.1所示。例如:游戲類視頻在2014年播放量位居所有視頻類別第一名,其點(diǎn)贊總和超過1000w,用戶收藏次數(shù)最多。圖4.2.1行為畫像偏好及行為指標(biāo)因此本文將視頻屬性主要分為三個(gè)大類即二次元,2.5次元,三次元。和十六個(gè)視頻分區(qū)。按照嗶哩嗶哩視頻網(wǎng)站的分類,十六個(gè)分區(qū)按照實(shí)際情況分類匯總為三個(gè)分區(qū),如表4.2.1所示:表4.2.1三大視頻偏好分類屬性劃分具體類別二次元游戲,動(dòng)畫,番劇,國創(chuàng)2.5次元音樂,舞蹈,鬼畜三次元生活,娛樂,影視,科技,時(shí)尚,數(shù)碼,紀(jì)錄片,電視劇,電影由于嗶哩嗶哩視頻所包含的信息并沒有分區(qū)數(shù)據(jù),而是記錄了不同大分區(qū)下的小分區(qū)編號(hào)和名稱。因此,按照嗶哩嗶哩視頻網(wǎng)站官方分組,對(duì)小分區(qū)的分類進(jìn)行匯總。視頻分類將依據(jù)嗶哩嗶哩劃分的類別分為:番劇,國創(chuàng),數(shù)碼,生活,鬼畜,時(shí)尚,放映廳,紀(jì)錄片,動(dòng)畫,音樂,舞蹈,游戲,科技,娛樂,影視,電影,電視劇。其對(duì)應(yīng)的小分區(qū)如表4.2.2所示。表4.2.2小分區(qū)對(duì)應(yīng)的大分區(qū)信息大分區(qū)小分區(qū)番劇連載動(dòng)畫,完結(jié)動(dòng)畫,資訊,官方延伸國創(chuàng)國產(chǎn)動(dòng)畫,國產(chǎn)原創(chuàng)相關(guān),布袋戲,動(dòng)態(tài)漫·廣播劇動(dòng)畫短片·手書·配音,MAD·AMV,MMD·3D,綜合音樂演奏,MV,音樂現(xiàn)場(chǎng),音樂綜合原創(chuàng)音樂,翻唱,VOCALOID·UTAU,電音舞蹈中國舞,舞蹈綜合,宅舞,街舞,明星舞蹈,舞蹈教程游戲手機(jī)游戲,網(wǎng)絡(luò)游戲,單機(jī)游戲,電子競(jìng)技,桌游棋牌,GMV,音游,MUGEN科技趣味科普人文,野生技術(shù)協(xié)會(huì),演講·公開課,星海,機(jī)械,汽車數(shù)碼手機(jī)平板,電腦裝機(jī),攝影攝像,影音智能生活手工,繪畫,運(yùn)動(dòng),搞笑,日常,美食圈,動(dòng)物圈,其他鬼畜鬼畜調(diào)教,音MAD,人力VOCALOID,教程演示時(shí)尚美妝,服飾,健身,T臺(tái),風(fēng)向標(biāo)娛樂影視雜談,影視剪輯,短片,預(yù)告·資訊,特?cái)z用戶的行為數(shù)據(jù)主要表現(xiàn)為播放,點(diǎn)贊,投幣,收藏,轉(zhuǎn)發(fā),評(píng)論六種形式。此外,選取的了視頻投稿年份的數(shù)據(jù)指標(biāo),視頻年限將按照間隔1年進(jìn)行分組,即(2014,2015,2016,2017,2018,2019),方便后續(xù)對(duì)行為數(shù)據(jù)的縱向分析。(三)評(píng)估方法本文涉及的屬性指標(biāo)因受到多種行為指標(biāo)的影響,因此選擇采用模糊評(píng)價(jià)法。模糊評(píng)價(jià)法是一種基于模糊數(shù)學(xué)的綜合\o"評(píng)標(biāo)"評(píng)標(biāo)方法。該綜合評(píng)價(jià)法根據(jù)模糊數(shù)學(xué)的隸屬度理論把定性評(píng)價(jià)轉(zhuǎn)化為定量評(píng)價(jià),即用模糊數(shù)學(xué)對(duì)受到多種因素制約的事物或?qū)ο笞龀鲆粋€(gè)總體的評(píng)價(jià)。可以將行為數(shù)據(jù)很好的進(jìn)行量化,從而將模糊的確定關(guān)系變?yōu)槊鞔_的數(shù)據(jù)對(duì)不同屬性進(jìn)行評(píng)估,從而得到更加科學(xué)合理的用戶喜好分析結(jié)果。1.構(gòu)建指標(biāo)體系根據(jù)上述確定的屬性維度和行為維度的指標(biāo)設(shè)定,用戶的喜好是由屬性維度進(jìn)行分類,確定用戶不同類型的喜好則由行為維度指標(biāo)進(jìn)行確定。因此評(píng)估表現(xiàn)我們定義為U,被評(píng)估的評(píng)估集稱為V={v1,v2,v3…vn},評(píng)估集合中的待評(píng)估數(shù)據(jù)需要相應(yīng)的權(quán)重,反應(yīng)評(píng)估集合中數(shù)據(jù)的重要程度,一般采用專家評(píng)估法或頻數(shù)統(tǒng)計(jì)法等方法。其表現(xiàn)為W={w1,w2,w3…wn}。則分析的數(shù)據(jù)表現(xiàn)U=v1w1+v2w2+v3w3+…+vnwn2.評(píng)估指標(biāo)的權(quán)重確定采用層次分析理論,將確定的行為指標(biāo)實(shí)現(xiàn)科學(xué)合理的由定性到定量分析的結(jié)果。采用此方法可以更加直觀的評(píng)估各個(gè)行為指標(biāo)的重要程度。為將定性指標(biāo)轉(zhuǎn)化為定量指標(biāo),20世紀(jì)70年代Saaty等美國數(shù)學(xué)家首次使用九級(jí)比例標(biāo)度的方法如表4.3.1所示,將定性數(shù)據(jù)轉(zhuǎn)化為定量的評(píng)估矩陣表4.3.1九級(jí)比例標(biāo)度標(biāo)度重要程度說明1兩個(gè)元素互相比較時(shí),重要程度相同3兩個(gè)元素互相比較時(shí),前者重要5兩個(gè)元素互相比較時(shí),前者很重要7兩個(gè)元素互相比較時(shí),前者明顯重要9兩個(gè)元素互相比較時(shí),前者特別重要2,4,6,8兩個(gè)元素互相比較時(shí),重要程度介于1,3,5,7,9之間的情況假設(shè)指標(biāo)S1和指標(biāo)S2之間進(jìn)行比較,得到的比較值為aij,那么S2與S1的比較值則為aji=1/aij,由此便可以根據(jù)九級(jí)比例標(biāo)度的方法得到相應(yīng)的權(quán)重判斷的矩陣。 根據(jù)判斷矩陣,仍需要采取方法將矩陣進(jìn)一步計(jì)算為確定的權(quán)重值。本文采用方法為,首先將判斷矩陣A的列向量或者行向量進(jìn)行標(biāo)準(zhǔn)化,然后再對(duì)標(biāo)準(zhǔn)化后矩陣中的各列數(shù)據(jù)或者各行數(shù)據(jù)進(jìn)行平均值的求取,其運(yùn)算公式(4-3)如下公式(4-3)權(quán)重計(jì)算公式在分析時(shí)根據(jù)此公式可得出權(quán)重向量W=(w1,w2,w3…wn)此種方法在過去的用戶數(shù)據(jù)分析研究中有確實(shí)為一種綜合且相對(duì)合理的計(jì)算模型,采用此種方法確定指標(biāo)權(quán)重可以科學(xué)的將六種不同的用戶行為方式的數(shù)據(jù)進(jìn)行綜合的評(píng)價(jià),且以數(shù)據(jù)的形式直觀的表現(xiàn)其不同屬性數(shù)據(jù)結(jié)合后的整體數(shù)據(jù)。除此之外,九級(jí)比例標(biāo)度方法雖然可以很好的量化定性的分析,但是其重要程度仍需在后期分析中進(jìn)行合理的調(diào)整與改進(jìn),避免由于某屬性評(píng)估數(shù)量級(jí)較大而影響整體分析。

五、嗶哩嗶哩用戶畫像分析(一)角色畫像分析圖5.1.1嗶哩嗶哩用戶男女比例從性別方面來看,如圖5.1.1所示,嗶哩嗶哩擁有54.79%的男性用戶以及45.21%的女性用戶。性別比例相差并不大。說明嗶哩嗶哩視頻網(wǎng)站的視頻內(nèi)容適合于不同性別的人群。不僅吸引男性用戶的觀看,女性也有相應(yīng)的視頻可以提供。擁有較為全面的性別受眾。圖5.1.2嗶哩嗶哩用戶年齡分布從年齡數(shù)據(jù)來看,如圖5.1.2所示,19-24歲青年群體用戶使用最多,占總體的35.19%。24歲以下的用戶為43.23%接近半數(shù)。30歲以下的用戶占68.88%。并且可以看出年齡越大的用戶使用嗶哩嗶哩則越少。從以上數(shù)據(jù)可以看出嗶哩嗶哩視頻網(wǎng)站的主要用戶為青少年及年輕的工作人員,這類人群對(duì)新鮮事物有巨大的好奇心和包容度,因此對(duì)于嗶哩嗶哩類型豐富的視頻接受度高。同時(shí)這個(gè)年齡的用戶是ACG文化的主流用戶,年輕人也喜歡看動(dòng)畫,動(dòng)漫和玩游戲。對(duì)于這類人群,其生活壓力相比于較大年齡的人群有更多的時(shí)間和精力觀看視頻和制作視頻,同時(shí)也緊隨潮流能夠抓住當(dāng)下的熱點(diǎn),記錄和分享自己的生活,同時(shí)也符合他們強(qiáng)調(diào)自我和多元觀點(diǎn)表達(dá),追求的是新奇,輕松的生活訴求。圖5.1.2嗶哩嗶哩用戶年齡分布 從地域來看,如圖5.1.3所示,使用嗶哩嗶哩視頻網(wǎng)站的用戶多來自長三角,珠三角,山東等東部沿海較發(fā)達(dá)的城市。這類城市受外貿(mào)港口等方面的影響,對(duì)于外來的文化接受度高,臨近日本,韓國及東南亞地區(qū),對(duì)于新的潮流及文化能夠第一時(shí)間接觸到。并且這類城市教育水平以及生活水平較高,擁有更多的資源及經(jīng)濟(jì)能力消費(fèi)和創(chuàng)作多元化的視頻。對(duì)于西部地域,信息溝通相對(duì)沒有東部地區(qū)快捷,對(duì)于多元化的視頻接受度較低,因此使用的用戶較少??傮w用戶的使用情況由東到西逐步遞減。以上數(shù)據(jù)來自:艾瑞數(shù)據(jù)/pc/detail?id=8005&kid=16132&Tid=86(二)行為畫像分析通過統(tǒng)計(jì)bilibili視頻網(wǎng)站2014-2019年各類視頻收集到信息的播放總量等到如下數(shù)據(jù),如表5.2.1所示:表5.2.12014-2019各類視頻播放總量pubdata_y動(dòng)畫國創(chuàng)娛樂影視數(shù)碼時(shí)尚游戲20147515228086361283210675009753952015875728373001741339535991329040271394720161389415275130305721914443833677094407995429421201725948516728336906579621625312601831639459985686920184066843369701849355110718270170748816422683237756220191224272833461117167097125035622278113342769632776289生活電影電視劇番劇科技紀(jì)錄片舞蹈音樂鬼畜73246200266306634589811559526531145848783641641743002096251490584919741366588208677399369713301291499544516390714912862576812137471979019132589740345394335760224593124292081372007341810925178629044522451702145291498273684212789161128810676423318898173566057017831790529831252426626008851400367480397752542659441通過對(duì)該表數(shù)據(jù)進(jìn)行統(tǒng)計(jì),采用折線圖展示數(shù)據(jù)變化趨勢(shì)最為直觀,因此繪制如下折線圖,展示2014-2019年各大分區(qū)視頻播放總量變化,如圖5.2.1所示:圖5.2.12014-2019各類視頻播放總量折線圖根據(jù)折線圖所展示的數(shù)據(jù)情況,可以看出2014年播放量最多的為番劇,其原因在早些年間嗶哩嗶哩主要業(yè)務(wù)針對(duì)ACG方向,嗶哩嗶哩作為國內(nèi)觀看日本動(dòng)漫,載錄游戲視頻最大的視頻網(wǎng)站活躍在用戶群體中。隨著各大視頻網(wǎng)站爭相收購動(dòng)漫版權(quán),嗶哩嗶哩在觀看番劇,動(dòng)漫等方面的優(yōu)勢(shì)不再明顯,忠實(shí)于嗶哩嗶哩觀看動(dòng)漫等番劇的用戶被其他視頻網(wǎng)站吸引。從圖中可以看出,游戲一直以來都是嗶哩嗶哩用戶比較喜愛的視頻分區(qū),游戲也一直都是嗶哩嗶哩企業(yè)發(fā)展的主營業(yè)務(wù)之一。近年來各大視頻網(wǎng)站主要以自己衛(wèi)視組織的綜藝,拍攝的電視劇,或者購買國內(nèi)及海外電影吸引用戶,而嗶哩嗶哩則作為不同于國內(nèi)其他視頻網(wǎng)站,擁有大量散客,用戶自己創(chuàng)作的視頻是嗶哩嗶哩絕大部分視頻的來源。嗶哩嗶哩的用戶從2014年來,關(guān)于生活類的視頻播放逐日增多。到2019年超過一直穩(wěn)定增長的游戲類視頻。 因此我分別對(duì)6年間的各類視頻的投稿數(shù)量前五名進(jìn)行查找,結(jié)果如表5.2.2所示:表5.2.22014-2019各類稿件數(shù)排名前五年份分類及稿件數(shù)2014游戲135音樂47生活44科技21動(dòng)畫192015游戲278音樂128娛樂87生活84動(dòng)畫722016游戲762生活354娛樂347音樂213影視1722017游戲2013生活1050娛樂624音樂519影視3422018游戲4577生活2762娛樂1317音樂897影視7752019游戲8641生活7984娛樂2006音樂1856影視1731根據(jù)上述表格可以看到,游戲視頻是嗶哩嗶哩投稿數(shù)量最多的分類,在六年間一直處于第一位。生活類視頻的投稿數(shù)逐漸增長,逐漸成為ACG文化外被用戶最為接受的視頻類型,備受用戶的喜愛。為了進(jìn)一步對(duì)用戶喜好的屬性進(jìn)行描述和評(píng)估,需要對(duì)決定用戶喜好的行為數(shù)據(jù)指標(biāo)進(jìn)行客觀公正的分析,從而確定其對(duì)喜好屬性的影響。行為指標(biāo)的權(quán)重的不同會(huì)對(duì)結(jié)果造成不同的影響。因此要根據(jù)不同行為指標(biāo)的重要程度和影響強(qiáng)度,結(jié)合科學(xué)的評(píng)估方法得出科學(xué)合理的評(píng)估標(biāo)準(zhǔn),即權(quán)重,這對(duì)于整個(gè)研究的合理性有著重要的作用。本文結(jié)合大量嗶哩嗶哩投稿人對(duì)于不同行為的渴望程度,以及個(gè)人使用嗶哩嗶哩時(shí)會(huì)采取的對(duì)喜歡的視頻的行為得到行為指標(biāo)重要程度判斷定性值。由于此不同指標(biāo)的重要程度劃分對(duì)權(quán)重量化值有重大作用,需不斷進(jìn)行調(diào)整和實(shí)驗(yàn)得到較為合理的定性值。并結(jié)合九級(jí)比例標(biāo)度法對(duì)定性分析量化得到判斷矩陣。S1=視頻播放量S2=視頻點(diǎn)贊量S3=視頻投幣數(shù)S4=視頻收藏量S5=視頻轉(zhuǎn)發(fā)量S6=視頻評(píng)論量例如:a21=3表示視頻點(diǎn)贊量相比于視頻播放量重要程度比為3,即視頻點(diǎn)贊量比視頻播放量重要。利用公式(4-3)計(jì)算其相應(yīng)權(quán)重,代碼如圖5.2.2所示,得到W=(0.037,0.076,0.112,0.178,0,296,0.301)圖5.2.2公式計(jì)算代碼將2014年到2019年按照屬性劃分得到其表現(xiàn)數(shù)據(jù)U,如表5.2.3所示:表5.2.22014-2019綜合分析值201420152016201720182019二次元146040.5160488.309353753.565724442.9033513185.8352124579.462.5次元69489.20863331.526188363.603243699.967294383.728759168.022三次元69248.822172708.911468576.9841351303.992879700.7334422693.92圖5.2.32014-2019綜合分析值折線圖 根據(jù)折線圖5.2.3所示可以看出早期在2014年,嗶哩嗶哩用戶主要來源于對(duì)于二次元番劇,動(dòng)畫,游戲等視頻的喜愛。隨著嗶哩嗶哩生活區(qū)視頻分類越多樣,且國內(nèi)視頻網(wǎng)站多以電視劇,電影,綜藝等主要運(yùn)營模式,嗶哩嗶哩成為分享生活的主要場(chǎng)所,其形式越發(fā)類似于YouTube,給用戶提供自主創(chuàng)作的平臺(tái)。但是根據(jù)上述分析,二次元類型的一個(gè)主要的分區(qū)是游戲分區(qū),根據(jù)2019年嗶哩嗶哩業(yè)務(wù)報(bào)告,游戲仍然是嗶哩嗶哩的主要收入來源。且在直播行業(yè)的興起背景之下,許多游戲up主更多的轉(zhuǎn)向直播行業(yè)。且各大視頻網(wǎng)站爭相購買海外動(dòng)漫番劇版權(quán),導(dǎo)致嗶哩嗶哩的二次元視頻觀看數(shù)量相比三次元上升緩慢。2018年由于曾經(jīng)熱播的系列動(dòng)漫相繼出續(xù)集,且有大量優(yōu)秀國漫入駐嗶哩嗶哩,直播游戲也帶動(dòng)了嗶哩嗶哩觀看游戲視頻的數(shù)據(jù)。經(jīng)過了一個(gè)短暫的回溫,在2019年由于國漫出品方多由騰訊動(dòng)漫支持,騰訊作為部分優(yōu)秀國漫的獨(dú)播平臺(tái),搶占了嗶哩嗶哩在動(dòng)漫方面的市場(chǎng)。根據(jù)數(shù)據(jù)可以看出,嗶哩嗶哩在三次元原創(chuàng)視頻領(lǐng)域還是以非??斓乃俣仁斋@著大量的用戶。這可能是由于嗶哩嗶哩目前為止還是原創(chuàng)視頻的主要發(fā)布分享平臺(tái)??梢妴袅▎袅ㄒ曨l網(wǎng)站二次元用戶的粘度逐漸降低,分散到其他的視頻網(wǎng)站或直播平臺(tái)。三次元視頻數(shù)量逐年超過二次元的視頻數(shù)量,對(duì)于嗶哩嗶哩的定位也逐漸從ACG轉(zhuǎn)向生活化。根據(jù)2019年數(shù)據(jù)到最新用戶最新用戶喜好詞云如圖5.2.4所示:圖5.2.42019綜合分析所得分類詞云 根據(jù)詞云可以看出2019年用戶行為畫像中最受喜愛的分區(qū)是生活區(qū),第二名是游戲,隨著vlog模式視頻興起,嗶哩嗶哩無論是原創(chuàng)到Y(jié)ouTube搬運(yùn),大量記錄生活的視頻涌入嗶哩嗶哩。嗶哩嗶哩在素人原創(chuàng)方面在國內(nèi)占據(jù)著巨大的市場(chǎng),同時(shí)經(jīng)過市場(chǎng)的檢驗(yàn),用戶也喜歡這類視頻。相比于傳統(tǒng)的游戲,動(dòng)畫,嗶哩嗶哩用戶對(duì)于生活類視頻的喜愛仍會(huì)繼續(xù)增長。六、結(jié)論結(jié)合角色畫像分析及行為畫像分析,嗶哩嗶哩的目標(biāo)用戶正逐漸從ACG群體擴(kuò)展至整個(gè)年輕人群體,所以在內(nèi)容上更加偏向于綜合性質(zhì)。嗶哩嗶哩目前作為一個(gè)聚合類視頻平臺(tái)提供的內(nèi)容類別,已經(jīng)可以同時(shí)吸引到不同性別的用戶,無論性別男女都可以在嗶哩嗶哩搜尋到自己喜歡的視頻。起初大多數(shù)的嗶哩嗶哩用戶受眾于日本以及歐美等地區(qū)動(dòng)畫、漫畫與電子游戲的影響的人。嗶哩嗶哩剛好是這樣一個(gè)承載這些二次元文化的平臺(tái),一個(gè)由ACG同好構(gòu)成的社區(qū)。如今的嗶哩嗶哩用戶已經(jīng)從原來的二次元用戶,轉(zhuǎn)移到更加全方位的人群其包含了原本的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論