版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 基于深度學(xué)習(xí)的情感分析方法研究 摘 要:目前,深度學(xué)習(xí)已經(jīng)成為計算機視覺處理領(lǐng)域事實上的標(biāo)準(zhǔn)。由于它在圖像處理方面的廣泛普及和成功應(yīng)用,幾乎所有的其他領(lǐng)域的問題都在嘗試通過深度學(xué)習(xí)找到其解決方案,在自然語言處理中的文本分析和語言建模也不例外。在情感分析中,識別用戶在文本評論中隱藏的情感是一項具有挑戰(zhàn)性的任務(wù)。在本文中, 使用深度學(xué)習(xí)模型進行基于imdb電影評論數(shù)據(jù)集的情感分析,將基于深度學(xué)習(xí)的情感分析方法與其他傳統(tǒng)機器學(xué)習(xí)方法進行比較,以評估模型的性能。實驗結(jié)果表明,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型在許多方面優(yōu)于傳統(tǒng)的機器學(xué)習(xí)方法。關(guān)鍵詞:情感分
2、析;深度學(xué)習(xí);自然語言處理;lstm;詞嵌入:tp183 :a0 引言在解決機器學(xué)習(xí)問題上,深度學(xué)習(xí)已經(jīng)被證明是非常成功的1。雖然這些深度學(xué)習(xí)算法并不能直接用來進行情感分析,但是深度學(xué)習(xí)在圖像處理、語音處理和其他認知方面計算領(lǐng)域上的成功,促使人們正嘗試把深度學(xué)習(xí)算法應(yīng)用在語言處理, 情感分析和意見挖掘上,但語言問題是非常復(fù)雜的,首先需要解決語言規(guī)則和語言如何表示等相關(guān)的問題。隨著詞嵌入模型word2vec的出現(xiàn),深度學(xué)習(xí)已經(jīng)開始應(yīng)用到包括情感分析在內(nèi)的許多nlp任務(wù)中。在本文中,使用深
3、度神經(jīng)網(wǎng)絡(luò)將用戶的電影評論數(shù)據(jù)集分為正類和負類。為了評估建立的深度學(xué)習(xí)模型的性能,將模型與傳統(tǒng)的樸素貝葉斯和邏輯回歸方法進行比較,結(jié)果表明,用于情感分析的深度神經(jīng)網(wǎng)絡(luò)自然語言處理(nlp)模型不僅在準(zhǔn)確率方面優(yōu)于基礎(chǔ)模型,而且在捕獲隱藏情感方面優(yōu)于基于統(tǒng)計概率的機器學(xué)習(xí)算法。在本文中,使用遷移學(xué)習(xí)方法并通過lstm網(wǎng)絡(luò)來進行情感分析,通過預(yù)訓(xùn)練word2vec模型把整個文檔轉(zhuǎn)換成向量表示,在訓(xùn)練過程中調(diào)整了神經(jīng)網(wǎng)絡(luò)的各種參數(shù),通過權(quán)值初始化和優(yōu)化,以獲得在精度以及空間和時間復(fù)雜度方面的最佳性能。調(diào)優(yōu)參數(shù)后,對imdb數(shù)據(jù)集進行情感分析獲得的最佳性能為93.7%。1 情感分析的研究情感分析通常被
4、認為是一種分類任務(wù),根據(jù)作者在文本中所表達的情感或情緒,將一段文本劃分為若干類情感中的某一類。有許多機器學(xué)習(xí)算法可以應(yīng)用于文本數(shù)據(jù)的極性學(xué)習(xí),但它不能直接應(yīng)用到文本本身, 輸入的文本需要轉(zhuǎn)換成矩陣, 矩陣中的元素代表文本的重要特性,轉(zhuǎn)換成矩陣后,矩陣中的每一行對應(yīng)于文本的n維特征向量,通過機器學(xué)習(xí)算法可以學(xué)習(xí)到文本數(shù)據(jù)的極性。目前有一些流行的特征選擇算法,如bag of words 、bag of n-grams或者tf-idf等。這些方法只是簡單地考慮了單詞的統(tǒng)計量,而完全忽略了單詞的順序和上下文,而這些對單詞的意義起著至關(guān)重要的作用。另外,因為詞典的尺寸都非常大,所以這些方法還會產(chǎn)生稀疏和
5、高緯度的矩陣,導(dǎo)致計算精度下降。2 情感分析的深度神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)是一種包含許多隱藏層的人工神經(jīng)網(wǎng)絡(luò)2。最初的nlp的深度學(xué)習(xí)之旅從一個簡單隱藏層的淺層神經(jīng)網(wǎng)絡(luò)開始。在理解文本中語言隱藏結(jié)構(gòu)及其語義和句法關(guān)系的復(fù)雜性的過程中,神經(jīng)網(wǎng)絡(luò)中隱藏層的大小隨著各種超參數(shù)不斷增長,并進行微調(diào)以得到性能最佳的模型。神經(jīng)網(wǎng)絡(luò)中許多新的激活函數(shù)的成功應(yīng)用,也為神經(jīng)網(wǎng)絡(luò)在解決語言問題方面的普及做出了重要貢獻。特別是在自然語言處理中,深度學(xué)習(xí)在詞性標(biāo)注、機器翻譯、語音識別、意見挖掘、文檔摘要和問題回答等方面都非常成功。接下來本文介紹一下深度神經(jīng)網(wǎng)絡(luò)在自然語言處理中的關(guān)鍵技術(shù)。2.1 詞嵌入向量(word-em
6、bedding)向量空間模型在nlp歷史上已經(jīng)使用了很長時間,例如支持向量機(vsm),其中所有數(shù)據(jù)點都表示為vsm中的一個點,分類器必須學(xué)習(xí)最好的超平面,該超平面應(yīng)該能夠?qū)?shù)據(jù)點分類到兩個單獨的類中。利用這一原則的方法可以主要分為兩類:基于計數(shù)的方法和預(yù)測方法。在基于神經(jīng)網(wǎng)絡(luò)的詞向量表示模型中,國外作者提出了兩種不同的模型,一種是cbow模型,另一種是skip-gram模型。cbow中目標(biāo)詞的訓(xùn)練是基于上下文進行的,而在skip-gram模型中,對于每個詞,它的上下文的詞是基于窗口大小來預(yù)測的。本文采用word2vec模型對影評文檔進行矢量表示。word2vec模型中主要的思想是,所有詞匯出
7、現(xiàn)在類似的環(huán)境相似的語義含義,應(yīng)該放置在向量空間模型中比較近的位置。2.2 遞歸神經(jīng)網(wǎng)絡(luò)(rnn)rnn除了它是遞歸的本身就是一個簡單的神經(jīng)網(wǎng)絡(luò),它能夠通過學(xué)習(xí)過去的信息去預(yù)測未來。rnn適合時間序列方面的學(xué)習(xí),如詞性標(biāo)注或機器翻譯等。但不能識別句子中單詞之間的長期依賴關(guān)系,即當(dāng)遞歸過程中的序列變大時,會出現(xiàn)梯度消失問題,這時網(wǎng)絡(luò)停止進一步學(xué)習(xí)。在情感分析任務(wù)中,自word2vec模型提出以來,rnn發(fā)現(xiàn)了它的重要性。但由于word2vec模型是以向量的形式表示單詞,而rnn期望輸入的數(shù)據(jù)是固定大小的序列向量,這就使得nlp有很多任務(wù)需要解決,并且需要進行各種變化。它在語言方面獲得的最重要的特
8、征是它的輸出依賴于當(dāng)前輸入的單詞,同時在隱藏層中學(xué)習(xí)到包含上下文信息的權(quán)值矩陣。2.3 長短期記憶神經(jīng)網(wǎng)絡(luò)(lstm)lstm的提出是為了解決rnn中梯度消失的問題,由于梯度消失問題,rnn無法搜索到離當(dāng)前時刻很遠的信息,這是因為權(quán)值矩陣的值的更新變得非常小,從而導(dǎo)致學(xué)習(xí)到的新權(quán)值矩陣與舊權(quán)值矩陣幾乎保持不變,經(jīng)過一段時間后就不再進行進一步的學(xué)習(xí)。這被認為是rnn學(xué)習(xí)長文本序列句子的一個主要缺點。通過利用lstm中的內(nèi)存單元和門的概念,rnn的這個問題得到了解決,使其適合于在確定電影評論的極性或一般文本處理中捕獲到較長的上下文信息。簡單的lstm架構(gòu)由記憶單元、輸入門、輸出門、遺忘門和傳統(tǒng)rn
9、n中的隱藏狀態(tài)組成。lstm模型需要確定它所學(xué)到的哪些信息與未來無關(guān),并且需要去除這些信息。通過這樣的處理機制,lstm能夠保存較長的信息,從而緩解rnn中梯度消失的問題。2.4 激活函數(shù)(activation function)在神經(jīng)網(wǎng)絡(luò)中有許多激活函數(shù)用于處理非線性的問題并能實現(xiàn)最佳的分類。其中sigmoid, tanh和softmax在lstm中用于不同的目的。它的非線性特性使其成為分類任務(wù)的合適對象,其推導(dǎo)過程使其在損失函數(shù)優(yōu)化過程中易于實現(xiàn)。這些激活函數(shù)在模型中加入了非線性,有助于在訓(xùn)練過程中獲得最佳擬合曲線。對這些激活函數(shù)進行了實驗,并在深度神經(jīng)網(wǎng)絡(luò)模型中評估了它們在情感分析任務(wù)中
10、的有效性。3 實驗部分介紹本文中的實驗是在12 gb內(nèi)存的gtx 1080i gpu上進行,模型開發(fā)使用python3,深度神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練和測試使用了基于tensorflow的keras庫。為了提高性能,在谷歌colab jupyter notebook執(zhí)行代碼,不斷在gpu和cpu之間切換,發(fā)現(xiàn)在數(shù)據(jù)量大、矢量矩陣乘法高維的情況下更適合gpu,運行速度也相對較快。對于輸入原始數(shù)據(jù)的許多任務(wù),使用nltk和scikitlearn python庫,對于單詞向量表示,使用word2vec預(yù)訓(xùn)練模型。在實驗數(shù)據(jù)方面,使用公開可用的大型影評數(shù)據(jù)集imdb(v1.0)。這個數(shù)據(jù)集是專門為二分類而準(zhǔn)備
11、的,數(shù)據(jù)集中有25000條電影評論用于訓(xùn)練,25000條用于測試。實驗按照以下步驟進行。步驟1 預(yù)處理數(shù)據(jù),去除噪聲字符和停用詞。步驟2 將數(shù)據(jù)按4:1的比例把數(shù)據(jù)集分割成訓(xùn)練集和測試集。步驟3 使用哈希函數(shù)對文本數(shù)據(jù)進行編碼,為每個單詞分配唯一的數(shù)字。步驟4 填充或截斷文本序列使得它們具有相同的輸入長度。步驟5 構(gòu)建詞嵌入層、lstm層和全連接層。步驟6 編譯深度神經(jīng)網(wǎng)絡(luò)模型步驟7 擬合(訓(xùn)練)模型步驟8 評估(測試)模型4 模型評估在實驗中,本文調(diào)整了不同的參數(shù)以獲得最佳的lstm神經(jīng)網(wǎng)絡(luò)性能。
12、采用遷移學(xué)習(xí)的方法,通過預(yù)先訓(xùn)練好的嵌入模型、word2vec和doc2vec得到單詞和文檔的向量,并將其輸入到lstm中,利用lstm的嵌入層構(gòu)建單詞嵌入。本文還使用不同的激活函數(shù)和正則化參數(shù)來得到最佳的結(jié)果組合。代價函數(shù)在這種情況下,因為實驗的數(shù)據(jù)集有正極性或負極性,本文選擇二元交叉熵。為了最小化成本函數(shù),本文使用adam optimizer來實現(xiàn)優(yōu)化。使用不同模型的實驗結(jié)果如下所示,可以看出,使用深度神經(jīng)網(wǎng)絡(luò)的方法比傳統(tǒng)的貝葉斯、隨機森林和svm分類方法3在準(zhǔn)確率方面大幅提升。5 結(jié)論在本文中,通過電影評論數(shù)據(jù)集,利用深度神經(jīng)網(wǎng)絡(luò)算法對用戶評論中隱藏的情感進行分析。使用預(yù)先訓(xùn)練好的單詞嵌入模型生成詞的低維向量表示,并使用基于lstm的序列模型進行情感分析。文中還試驗了各種超參數(shù),學(xué)習(xí)這些參數(shù)的最佳可能值,使訓(xùn)練模型產(chǎn)生更高的精度,并使用gpu幫助實現(xiàn)更快的計算響
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年預(yù)拌混凝土訂購條款
- 銀行助學(xué)貸款管理辦法
- 2024年高端墻紙施工質(zhì)量保證協(xié)議版B版
- 2024年餐館后廚員工合同范本
- 2024年版房地產(chǎn)項目合作開發(fā)委托合同版B版
- 2024完整辦公樓轉(zhuǎn)讓居間業(yè)務(wù)合同(帶裝修)3篇
- 網(wǎng)絡(luò)與新媒體概論說課稿
- 2025年度碼頭集裝箱清洗消毒服務(wù)合同范本2篇
- 醫(yī)院年會主持詞
- 2025年度體育設(shè)施場地使用權(quán)出讓合同范本3篇
- 超短波操作流程圖
- 小學(xué)2022 年國家義務(wù)教育質(zhì)量監(jiān)測工作方案
- 化學(xué)品安全技術(shù)說明(膠水)
- 南寧市中小學(xué)學(xué)籍管理系統(tǒng)數(shù)據(jù)采集表
- 中空吹塑成型課件
- 領(lǐng)先閱讀X計劃第四級Bug Hunt 教學(xué)設(shè)計
- 《詩詞格律》word版
- 預(yù)算第二十三講
- 高中體育與健康人教版全一冊 6.2田徑—短跑 課件(共11張PPT)
- 蔬菜供貨服務(wù)保障方案
- WordA4信紙(A4橫條直接打印版)
評論
0/150
提交評論