




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、計(jì)劃類別 項(xiàng)目編號 項(xiàng)目技術(shù)報(bào)告課題名稱 項(xiàng)目主持人 承擔(dān)單位 題目:基于社交網(wǎng)絡(luò)的小說聚類目前小說的受眾群體越來越大,其中蘊(yùn)含著巨大的商業(yè)價(jià)值。文本聚類的研究領(lǐng)域也在突飛猛進(jìn),但對于其中的現(xiàn)實(shí)領(lǐng)域:小說聚類,相關(guān)的研究卻較少。本文研究了一種基于小說中的社交網(wǎng)絡(luò)對其進(jìn)行聚類的方法。該方法首先提取出小說中的社交網(wǎng)絡(luò),在得到網(wǎng)絡(luò)的特征向量后,基于其進(jìn)行聚類,并將結(jié)果與依據(jù)小說作者的劃分進(jìn)行對比。實(shí)驗(yàn)結(jié)果表明,該方法可以在一定程度上反映出不同作者寫作風(fēng)格的不同,效果可以接受,并擁有進(jìn)一步提升的可能。關(guān)鍵詞:小說;社交網(wǎng)絡(luò);聚類算法Abstract:At present,more and more p
2、eople are reading novels,which contains great commercial value.The research field of text clustering is also advancing by leaps and bounds,but for the real practicenovel clustering,there are few related researches.This paper uses a method based on social network in the novel to cluster it.The method
3、 first extracts the social network in the novel.After obtaining the feature vector of the network,it clusters based on it and compares the result with the division according to the author of the novel.The experimental result shows that the method can reflect the different writing styles of different
4、 authors to a certain extent,the effect is acceptable,and further improvement is possible.Keywords:novels;social network;clustering algorithm1 引言(Introduction)隨著第三產(chǎn)業(yè)的發(fā)展,移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來,文娛產(chǎn)業(yè)對人們?nèi)粘I畹挠绊懺絹碓酱?,特別是近幾年小說的受眾群體越來越大,因此基于小說的各種文學(xué)定量分析越來越成為重要的課題。與此同時(shí),以機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法為基礎(chǔ),各種各樣的文本分類技術(shù)也在飛速發(fā)展。特別是在近幾年來,基于CNN、RNN等深
5、度神經(jīng)網(wǎng)絡(luò)的相關(guān)方法取得了很好的結(jié)果,因此人們對文學(xué)分析定量方法的研究興趣也日益增加1,2。小說的關(guān)鍵維度包括形式、結(jié)構(gòu)、人物、情節(jié)等。目前來講,人們對其的定量研究大多集中在形式和內(nèi)容上。而對于小說中的情節(jié)、結(jié)構(gòu)、人物關(guān)系等,由于其量化較為復(fù)雜,而少有研究3。在本文中,我們實(shí)現(xiàn)了基于小說中的社交網(wǎng)絡(luò)的聚類。我們首先提取出小說中的社交網(wǎng)絡(luò),之后得到其特征向量并根據(jù)其進(jìn)行聚類。因此,聚類的結(jié)果也是根據(jù)小說結(jié)構(gòu)進(jìn)行的分組,通過與小說作者的對比,我們也能得到小說社交網(wǎng)絡(luò)與小說的風(fēng)格流派和作者風(fēng)格特征的聯(lián)系程度。2 相關(guān)工作(Related work)2.1 文本分類文本分類的相關(guān)研究可以追溯到20世紀(jì)
6、50年代,而到目前它已經(jīng)成為了NLP領(lǐng)域的經(jīng)典問題,一直到現(xiàn)在都是人們研究的熱點(diǎn)。而其算法的發(fā)展,也伴隨著人工智能研究領(lǐng)域的發(fā)展而不斷地更新。在20世紀(jì),文本分類往往基于規(guī)則和語料庫,其雖有準(zhǔn)確率高等優(yōu)點(diǎn),但是耗費(fèi)資源過多、可移植性很差。到了20世紀(jì)90年代的時(shí)候,人工智能的研究領(lǐng)域開始向基于統(tǒng)計(jì)和數(shù)據(jù)驅(qū)動(dòng)的方法過度,與此同時(shí)基于特征工程和各種分類器的文本分類方法也開始逐漸興起。但是傳統(tǒng)分類方法依然存在著諸多不足,比如特征表達(dá)能力較弱,成本較高,等等。近年來,隨著深度學(xué)習(xí)的發(fā)展,基于其的一些方法也開始被應(yīng)用到了文本分類的領(lǐng)域。深度學(xué)習(xí)解決文本分類問題,一般都是先解決文本表示,之后利用CNN、R
7、NN等自動(dòng)獲取特征表達(dá)能力,從而端到端的解決問題4。2.2 文學(xué)計(jì)算分析自從計(jì)算機(jī)誕生之后,人們便一直嘗試將其算法應(yīng)用到文學(xué)分析的領(lǐng)域,即文學(xué)的計(jì)算分析。這種方法往往用定量的方式,基于文本的語言結(jié)構(gòu)特征對文章的風(fēng)格進(jìn)行刻畫。因此,這種研究方法最重要的就是兩個(gè)問題:語言特征的選擇和研究方法的選擇。不過一般來講,大多數(shù)方法利用的都是基于主題和內(nèi)容的特性。然而對于一部小說來講,我們不應(yīng)該只從標(biāo)點(diǎn)、詞法、句法、語義的維度進(jìn)行分析。這種文學(xué)形式還有情節(jié)、人物、敘事結(jié)構(gòu),等等??梢哉f每一部小說都是一個(gè)社會(huì)的縮影5。因此,人們也逐漸開始關(guān)注量化情節(jié)的方法,以及人物對情節(jié)的影響。特別是可以將小說刻畫成社交網(wǎng)絡(luò)
8、,并通過其研究小說中的情節(jié)結(jié)構(gòu)。目前,通過提取復(fù)雜網(wǎng)絡(luò)并基于其分析文本已經(jīng)成為了一個(gè)十分重要的學(xué)術(shù)流派。人們的研究表明,通過提取小說中的人物關(guān)系網(wǎng)絡(luò)來分析小說中社會(huì)結(jié)構(gòu)、意義和作者觀點(diǎn)是完全可行的。3 網(wǎng)絡(luò)的構(gòu)建(Network construction)3.1 人物的自動(dòng)識(shí)別社交網(wǎng)絡(luò)起源于網(wǎng)絡(luò)社交,目前可以理解為一種形容人際關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu),其本身作為一種復(fù)雜網(wǎng)絡(luò),可以反映出網(wǎng)絡(luò)中點(diǎn)與點(diǎn)之間的聯(lián)系。而在小說中,每個(gè)人物正是社交網(wǎng)絡(luò)中的結(jié)點(diǎn),人物與人物之間的關(guān)系為社交網(wǎng)絡(luò)的邊。因此,一般將其分為四個(gè)步驟:人物角色標(biāo)記、角色指代消解、人物關(guān)系識(shí)別與網(wǎng)絡(luò)關(guān)系表示6。在人物角色標(biāo)記中,需要識(shí)別出所有表
9、示人的單詞;在角色指代消解中,需要將代詞或者非人名的詞替換為其指代的人名;在人物關(guān)系識(shí)別中,需要識(shí)別并提取人與人之間的關(guān)系;關(guān)系網(wǎng)絡(luò)表示則是將網(wǎng)絡(luò)用數(shù)學(xué)模型表示出來。在人物自動(dòng)識(shí)別這一步驟中,需要解決的問題是人物關(guān)系識(shí)別和指代消解,其也被稱為命名實(shí)體識(shí)別。而對于這類問題,籠統(tǒng)地可以分為三種解決的方法:基于規(guī)則的方法、基于統(tǒng)計(jì)的方法和近年來興起的基于深度學(xué)習(xí)的方法?;谝?guī)則的方法一般由語言學(xué)專家手工構(gòu)造規(guī)則模版,因此存在代價(jià)大、移植性差等缺點(diǎn),目前只有在數(shù)據(jù)量小或者非常特殊的場合才會(huì)使用?;诮y(tǒng)計(jì)的方法有:隱馬爾科夫模型、較大熵模型、支持向量機(jī)、條件隨機(jī)場等,這類方法一般對語料庫的依賴較大。近年
10、來隨著深度學(xué)習(xí)的發(fā)展,人們也將其應(yīng)用到了命名實(shí)體識(shí)別中,一般方法為將NN、CNN、RNN與條件隨機(jī)場結(jié)合7,8。本文采用的方法是條件隨機(jī)場,采用開源工具CRF+。條件隨機(jī)場,一般簡稱為CRF,由于其具備長距離依賴性和交疊性能力,是目前一種非常常用的用于命名實(shí)體識(shí)別的,判別式的概率圖模型9。定義無向圖G=(V,E),單詞序列x=(x1,x2,xn),每個(gè)單詞x_i有對應(yīng)的實(shí)體類型標(biāo)記yi,標(biāo)記序列集合y=yi。則節(jié)點(diǎn)集合V為單詞或其對應(yīng)的實(shí)體標(biāo)記類型,邊集合E表示單詞對應(yīng)節(jié)點(diǎn)與該單詞實(shí)體標(biāo)記類型對應(yīng)節(jié)點(diǎn)間的連線,于是(x,y)構(gòu)成一個(gè)條件隨機(jī)場。由于鏈?zhǔn)浇Y(jié)構(gòu)為最簡單的結(jié)構(gòu)和建模方式,因此人們一般
11、采用的是線性鏈條件隨機(jī)場,如圖1所示。轉(zhuǎn)移函數(shù)和狀態(tài)函數(shù)均為特征函數(shù),一般取0或1,即滿足特征函數(shù)的為1,否則為0。若將它們統(tǒng)一用特征函數(shù)的形式來表示,再加上歸一化的過程,則可以得到最終條件隨機(jī)場的條件概率公式為對于其中的參數(shù),一般采用極大似然法進(jìn)行估計(jì),并采用迭代技術(shù)來確定參數(shù)。3.2 網(wǎng)絡(luò)的構(gòu)建對于小說中的人物關(guān)系識(shí)別,一般有兩種方法:基于人物對話的方法和基于人物共現(xiàn)的方法6。第一種方法為只考慮小說中的對話,即如果兩個(gè)角色有語言或者對話的交互,就將兩個(gè)角色進(jìn)行關(guān)聯(lián),得到的網(wǎng)絡(luò)為人物對話網(wǎng)絡(luò)。這種方法為目前大多數(shù)文獻(xiàn)所采用,尤其是對于劇本這種只通過對話來進(jìn)行角色間互動(dòng)的文本,該方法十分有效。
12、但是,對于大多數(shù)小說,人物間的許多互動(dòng)都是通過敘述者的描述或者間接的互動(dòng)來完成的。這時(shí)我們就應(yīng)該考慮第二種方法,即通過人物間的共現(xiàn)關(guān)系來構(gòu)建網(wǎng)絡(luò),每當(dāng)兩個(gè)角色出現(xiàn)在同一個(gè)文本窗口或者語境下時(shí),將二者進(jìn)行關(guān)聯(lián),得到的網(wǎng)絡(luò)為人物共現(xiàn)網(wǎng)絡(luò)。在本文中,我們使用Python庫Networkx來構(gòu)建網(wǎng)絡(luò),并將其存儲(chǔ)在表示人物關(guān)系的鄰接矩陣中。4 計(jì)算與聚類(Calculation and clustering)4.1 特征選擇我們可以把特征分為兩種。第一種為網(wǎng)絡(luò)的拓?fù)涮卣?,其指?biāo)有度分布、集聚系數(shù)、網(wǎng)絡(luò)特征路徑長度、直徑、主節(jié)點(diǎn)的相關(guān)性等。但是對于小說而言,其更像一個(gè)小型的社會(huì),所以我們還應(yīng)該考慮社會(huì)指標(biāo)
13、。一些??紤]的社會(huì)指標(biāo)包括男性角色比例、視角的比例,等等。通過這些特征,我們可以分析出小說中社交網(wǎng)絡(luò)的結(jié)構(gòu)特性,并根據(jù)其進(jìn)行聚類5。4.2 聚類本文采用k-means算法進(jìn)行聚類,它是目前最簡單的聚類算法之一,也是應(yīng)用最廣泛的一種聚類算法。其具體過程可以分為四步:選擇k個(gè)初始聚類中心,根據(jù)對象與中心的距離對其重新劃分,計(jì)算更新后的均值,迭代至測度函數(shù)收斂。在算法中,k值即為數(shù)據(jù)集中作者的個(gè)數(shù),初始聚類中心為數(shù)據(jù)集中隨機(jī)選擇的k個(gè)值,距離將采用余弦距離,即通過向量空間中兩個(gè)向量夾角的余弦值來衡量個(gè)體間差異的大小,公式為5 實(shí)驗(yàn)(Experiment)5.1 實(shí)驗(yàn)語料本文共選取了65篇小說作為語料
14、,分別來自作家卡夫卡、張愛玲、老舍、狄更斯,數(shù)據(jù)集見表1。5.2 評測指標(biāo)本文主要采用常見的三種指標(biāo):準(zhǔn)確率、召回率與F1值。其中,A表示正確識(shí)別的相關(guān)小說數(shù),B表示識(shí)別的小說數(shù),C表示相關(guān)的小說總數(shù)。5.3 實(shí)驗(yàn)結(jié)果由于我們的語料分別來自四位作家,因此在我們的聚類算法中,將k設(shè)為4。最終算法將會(huì)把所有的小說分為四類,我們以每類含有的最多的小說作者作為該類的標(biāo)簽,并以此作為評價(jià)的基準(zhǔn)。我們將計(jì)算準(zhǔn)確率、召回率、F_1值,并將其作為評價(jià)我們算法的依據(jù)。實(shí)驗(yàn)結(jié)果如表2所示。6 結(jié)論(Conclusion)目前的文學(xué)定量分析方法大多是基于文本的形式和內(nèi)容,對于結(jié)構(gòu)、情節(jié)、人物關(guān)系等的量化與分析方法較
15、少。在本文中,我們基于小說本身就是一個(gè)小型社會(huì)的特點(diǎn),研究了基于社交網(wǎng)絡(luò)對小說進(jìn)行聚類的方法。在實(shí)驗(yàn)中,我們發(fā)現(xiàn)小說的社交網(wǎng)絡(luò)能夠在一定程度上反映出小說的風(fēng)格流派及作者的風(fēng)格特征。該方法具備一定的實(shí)用性,并且有進(jìn)一步提升的可能。參考文獻(xiàn)(References)1 Abualigah L M,Khader A T,Al-Betar M A.Unsupervised feature selection technique based on harmony search algorithm for improving the text clusteringC.International Confer
16、ence on Computer Science and Information Technology,IEEE,2016:1-6.2 Scrivner O,Davis J.Interactive Text Mining Suite: Data Visualization for Literary StudiesC.Corpora in the Digital Humanities,2017.3 Jarynowski A,Boland S.Social Networks Analysis in Discovering the Narrative Structure of Literary Fi
17、ctionJ.Biuletyn Instytutu Systemow Informatycznych,2013,12(2):35-42.4Ji Y L,Dernoncourt F.Sequential Short-Text Classification with Recurrent and Convolutional Neural NetworksC.North American Chapter of the Association for Computational Linguistics,2016:515-520.5Ardanuy M C,Sporleder C.Structure-bas
18、ed Clustering of NovelsC.The Workshop on Computational Linguistics for Literature,2014:31-39.6 劉海燕,尹曉虎.文學(xué)作品中的“小世界”菲茨杰拉德小說人物關(guān)系網(wǎng)絡(luò)的實(shí)證分析J.統(tǒng)計(jì)與信息論壇,2015,30(12):102-107.7 Chen L C,Papandreou G,Kokkinos I,et al.Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFsJ.Computer Science,2015(4):357-361.8 Ritter A,Clark S,Etzioni O.Named entity recognition in
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育科技研究合作項(xiàng)目協(xié)議
- 商場服裝店鋪轉(zhuǎn)讓協(xié)議書
- 電子垃圾回收利用項(xiàng)目的專項(xiàng)投資合同
- 數(shù)據(jù)可視化技術(shù)應(yīng)用合同
- 智能建筑項(xiàng)目施工協(xié)議
- 高空作業(yè)安全合同(19篇)
- 融資租賃與保理業(yè)務(wù)協(xié)議
- 房屋裝飾施工工程承包合同
- 股份制企業(yè)合同審查要點(diǎn)解析
- 美容美發(fā)行業(yè)服務(wù)效果不滿意退款協(xié)議
- 語文版九年級下冊課外閱讀練習(xí)
- 【課件】第11課+美術(shù)的曙光-史前與早期文明的美術(shù)+課件高中美術(shù)人教版(2019)美術(shù)鑒賞
- 高中化學(xué)人教版一輪復(fù)習(xí)-晶體結(jié)構(gòu)與性質(zhì)(復(fù)習(xí)課件)
- GB/T 22919.3-2008水產(chǎn)配合飼料第3部分:鱸魚配合飼料
- 船舶涂裝課件
- 【薪酬】國有企業(yè)中長期股權(quán)激勵(lì)課件
- 《新聞攝影教程(第五版)》第三章 新聞攝影工作者的職責(zé)與素養(yǎng)
- 學(xué)前兒童行為觀察第一章觀察概述課件
- 化學(xué)品防范說明編碼
- 軌道檢測列車介紹課件
- 二年級閱讀導(dǎo)航(下)
評論
0/150
提交評論