基于BERT的《后浪》視頻評論中情感分析研究獲獎科研報告_第1頁
基于BERT的《后浪》視頻評論中情感分析研究獲獎科研報告_第2頁
基于BERT的《后浪》視頻評論中情感分析研究獲獎科研報告_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于BERT的《后浪》視頻評論中情感分析研究獲獎科研報告

摘要:《后浪》發(fā)布以來,在社會上產(chǎn)生了重大的影響。本文使用基于BERT編碼的深度情感分析模型來進行視頻評論中的情感分析。本文選擇B站和YouTube兩個視頻網(wǎng)站,對兩個平臺中的《后浪》視頻評論進行情感分析,并將結(jié)果進行對比,進一步得出了每一類的觀點想表達的情感。在此基礎(chǔ)上,本文對實驗結(jié)果得出了一些思考和分析。實驗分析結(jié)果表明:Youtube網(wǎng)站上的負面評論情緒顯著高于B站。其負面情緒者的主要觀點在于:現(xiàn)實中青年的平均生活水平與“后浪”們之間存在著巨大差距,即《后浪》視頻不夠真實。

關(guān)鍵詞:《后浪》,BERT,情感分析,視頻評論

1.引言

現(xiàn)如今人們在使用B站、Youtube等平臺觀看視頻的同時,也會通過評論表達自己的想法與意見。視頻《后浪》自發(fā)布以來就成為了社會關(guān)注的焦點,截至2020年7月18日為止,B站累計播放量已有2781.4萬,巨大的播放量也帶來了海量的視頻評論信息[1]。本文中,我們研究了人們觀看《后浪》視頻后產(chǎn)生評論中的情感觀點。本文選擇對B站、Youtube兩個網(wǎng)站上的視頻評論進行分析。除此之外,本文對兩個平臺中視頻評論的情感分析結(jié)果進行對比,并概括出每類情感想表達的觀點。在此基礎(chǔ)上,筆者對這些結(jié)果給出了一些思考。

2.研究方法

2.1數(shù)據(jù)爬取

Requests庫是基于Python實現(xiàn)的簡單易用的HTTP庫。Requests是用Python語言編寫的,基于urllib3來改寫的,采用Apache2Licensed來源協(xié)議的HTTP庫。它比urllib更加方便,可以節(jié)約我們大量的工作,完全滿足HTTP測試需求[2]。

本文對兩網(wǎng)站的爬取均使用基本的requests庫進行。對B站的數(shù)據(jù)爬取過程中,我們需要填入視頻的BV號,代碼會將BV號轉(zhuǎn)換為視頻的AV號,然后組成url進行爬取。而對Youtube的評論數(shù)據(jù)爬取中,需要先申請google的開發(fā)者API,然后將自己的密鑰填入代碼,就可以進行爬取。

最終,我們獲得了B站中的熱度最高的評論1969條,Youtube中點贊數(shù)大于10的評論1164條。

2.2基于BERT的情感分析模型

本文采用社交媒體預(yù)料訓(xùn)練了一個針對社交媒體語料進行情感分析的機器學(xué)習(xí)模型。

作為2018年自然語言處理領(lǐng)域的新秀,BERT做到了過去幾年NLP重大進展的集大成,一出場就技驚四座碾壓競爭對手,刷新了11項NLP測試的最高紀錄,甚至超越了人類的表現(xiàn),是未來NLP研究和工業(yè)應(yīng)用中最有潛力的語言模型之一[3]。

本文使用Bert作為encoder,將文本傳入Bert后,獲得第一個字符[CLS]的表示作為輸出,因其已經(jīng)蘊含了整個句子之中的信息。將其傳入一個全連接層,完成分類任務(wù)。我們使用第九屆全國社會媒體處理大會微博情緒分類技術(shù)評測(SMP2020-EWETC)中提供的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。數(shù)據(jù)集從微博評論中產(chǎn)生,與本文的應(yīng)用場景類似,并且不僅標注了積極消極的情緒,也標注了中立的情緒,可以更加方便我們對不同類別情感進行分析。

3.數(shù)據(jù)分析

3.1不同平臺之間的結(jié)果對比及其原因

使用情感分析器對我們爬取到的數(shù)據(jù)進行情感分析。一條數(shù)據(jù)如果是積極,標為0,中立,標為1,消極,標為2。本文基于BERT的模型的標注結(jié)果示例如表1所示。

可見兩平臺之間的評論情感存在巨大差距,bilibili上的評論偏向積極,Youtube上的評論則偏向消極。

通過調(diào)查網(wǎng)上資料,以及閱讀評論數(shù)據(jù),筆者認為其中的主要原因可能有以下幾點:

1)bilibili會手動刪除負面評論;

2)Youtube平臺上存在大量對中國帶有嚴重偏見的人群,如亂港廢青等。

3.2不同情感評論人的觀點及其原因

本文通過生成積極、中立、消極三種評論的詞云的方式,更加直觀的展現(xiàn)三類評論的差別。由于詞云將單詞在語料庫中出現(xiàn)的頻率進行了可視化,我們可以更容易的了解出現(xiàn)頻率最高的詞(已去除常用詞)。其結(jié)果如圖1所示。

從三幅圖中可以看出,除“后浪”、“演講”、“生活”等詞在三幅圖都出現(xiàn)外,負面評論中,“惡心”、“抱怨”、“韭菜”、“不公”,等詞經(jīng)常被提及,與之鮮明對比的是,積極評論中“希望”、“奮斗”、“奔涌”等詞有著較高的出現(xiàn)頻率。而中立情感動的評論常常是在評論中記錄演員的身世背景、記錄視頻中部分臺詞、記錄打卡自己看了這個視頻。

正面情緒出現(xiàn)的原因是明顯的,作為一個歌頌?zāi)贻p人活力的視頻,視頻中up主們的“心里有火,眼里有光”確實激人奮進。而一些中立情緒的原因也是明顯的,一部分是因為這條評論只是想打卡留念,一部分是因為評論中摻雜著正面和負面情緒。

對于負面的情緒,筆者總結(jié)上面詞云結(jié)果,并且分析部分數(shù)據(jù),認為其原因總結(jié)如下:

1、認為視頻中的生活與現(xiàn)實青年生活嚴重不符,對比自己慘淡的人生感到無比自卑;

2、認為這個視頻只是b

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論