版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
當(dāng)下傳統(tǒng)學(xué)術(shù)評(píng)價(jià)體系的弊病顯現(xiàn),學(xué)術(shù)信息在線交流迅速發(fā)展,交流模式也更為多樣化。基于此,互聯(lián)網(wǎng)社交媒體成為學(xué)者在線交流的重要選擇。Mendeley憑借其強(qiáng)大的社交功能和文獻(xiàn)存儲(chǔ)功能,得到學(xué)者們的廣泛關(guān)注,成為Altmetrics的主要指標(biāo)??v觀目前國內(nèi)外對(duì)其研究現(xiàn)狀發(fā)現(xiàn),學(xué)者對(duì)于Mendeley的替代計(jì)量學(xué)(Altmetrics)指標(biāo)的閱讀數(shù)研究已經(jīng)非常成熟,但很少有學(xué)者對(duì)Mendeley平臺(tái)的學(xué)者相關(guān)信息及學(xué)者發(fā)表的文本內(nèi)容進(jìn)行分析。因此,本論文選取Mendeley社群信息,對(duì)Mendeley平臺(tái)學(xué)者信息以及社群文本內(nèi)容進(jìn)行細(xì)致化研究,從學(xué)者信息、學(xué)者發(fā)表文本內(nèi)容和文本內(nèi)容情感傾向3個(gè)方面對(duì)其文本內(nèi)容展開研究,希望可以通過對(duì)文本內(nèi)容的深入分析,查看學(xué)者的學(xué)術(shù)跡象,探究學(xué)者的研究動(dòng)機(jī)和行為,從而進(jìn)一步地促進(jìn)學(xué)術(shù)交流和科學(xué)評(píng)價(jià),推動(dòng)Altmetrics的深入研究。1研究綜述內(nèi)容分析法是針對(duì)內(nèi)容開展系統(tǒng)、定量和客觀的研究方法,在很多方面不同于傳統(tǒng)的分析方法。它將非定量的內(nèi)容轉(zhuǎn)化為定量可測(cè)度的數(shù)據(jù),根據(jù)數(shù)據(jù)對(duì)材料內(nèi)容中有意義的詞句進(jìn)行定量化的事實(shí)推斷。相比其他方法,內(nèi)容分析法對(duì)組成內(nèi)容的結(jié)構(gòu)和因素會(huì)探究得更為規(guī)范化和細(xì)致化。2013年黃炎寧[1]選取了國內(nèi)三家傳統(tǒng)新聞媒體的官方微博,采用內(nèi)容分析法和深度訪談法對(duì)其信息的娛樂化進(jìn)行探究,以此來闡釋社會(huì)對(duì)數(shù)據(jù)民主的困惑。2017年王鵬飛[2]等人借助文獻(xiàn)研究的方法對(duì)國內(nèi)外Altmetrics相關(guān)論文進(jìn)行系統(tǒng)梳理,提出網(wǎng)絡(luò)社交媒體評(píng)價(jià)論文內(nèi)容的歸類方式,以此作為開展Altmetrics內(nèi)容分析的基礎(chǔ)。2018年劉嘉琪[3]等人將微博作為研究對(duì)象,從用戶和企業(yè)兩個(gè)角度,使用泊松回歸模型對(duì)用戶卷入情感和EGC溝通內(nèi)容等特征開展研究。研究發(fā)現(xiàn)用戶維度里的點(diǎn)贊數(shù)、積極的評(píng)論等會(huì)推動(dòng)用戶進(jìn)行有效轉(zhuǎn)發(fā);企業(yè)維度里描述服務(wù)、產(chǎn)品細(xì)節(jié)的內(nèi)容、有說服力的內(nèi)容也可以刺激用戶進(jìn)行轉(zhuǎn)發(fā)關(guān)注。2018年甘春梅[4]等人對(duì)獲取的54篇關(guān)于網(wǎng)絡(luò)用戶行為的論文,使用內(nèi)容分析和兩階段綜述方法,重點(diǎn)分析論文涉及的研究主題、理論、自變量等。李廣欣[5]采用內(nèi)容分析、統(tǒng)計(jì)分析和大樣本調(diào)查等方法,探究科技類期刊所開設(shè)的微信公眾號(hào)推送文章內(nèi)容質(zhì)量特色和推送服務(wù)發(fā)展現(xiàn)狀。進(jìn)行文獻(xiàn)梳理,筆者發(fā)現(xiàn)從Altmetrics內(nèi)容分析角度分析Mendeley平臺(tái)的研究較少,而且文獻(xiàn)也反映出在線學(xué)術(shù)信息交流已然成為一種學(xué)術(shù)模式,需要對(duì)其內(nèi)容進(jìn)行更為系統(tǒng)、透徹的分析。這為筆者開展Altmetrics內(nèi)容研究提供了一定的契機(jī)。鑒于社交媒體學(xué)術(shù)交流的發(fā)展趨勢(shì)[6],以及對(duì)Mendeley文本內(nèi)容探究的不足,本文提出對(duì)Mendeley平臺(tái)Altmetrics指標(biāo)文本內(nèi)容進(jìn)行細(xì)致化研究,推進(jìn)學(xué)術(shù)在線交流發(fā)展、改善現(xiàn)行學(xué)術(shù)影響力評(píng)價(jià)機(jī)制、促進(jìn)Altmetrics研究和服務(wù)的長足發(fā)展。2數(shù)據(jù)處理Mendeley是一個(gè)在線學(xué)術(shù)社交網(wǎng)絡(luò)平臺(tái),它可以獲取網(wǎng)頁上的文獻(xiàn)信息,并將其添加到個(gè)人圖書館中。利用Python爬取網(wǎng)站中所有群組的外部信息和內(nèi)部信息作為數(shù)據(jù)樣本,進(jìn)行論文后續(xù)研究的展開。整個(gè)數(shù)據(jù)爬取[7]的流程一共分為兩大步驟:第一步是檢索出所有能被搜索出來的group信息和地址并在數(shù)據(jù)庫層去重,為了提高效率使用多線程的方式來獲取數(shù)據(jù);第二步是使用去重后的group地址,獲取group詳情和所有文本及評(píng)論信息。在爬取數(shù)據(jù)過程中遇到的難點(diǎn)有兩個(gè):一個(gè)是只有當(dāng)加載更多顯示在可視范圍內(nèi)才能真正加載數(shù)據(jù);另一個(gè)是IP被屏蔽,需要利用切換代理的方法實(shí)現(xiàn)爬取目標(biāo)。數(shù)據(jù)質(zhì)量的好壞關(guān)乎研究的質(zhì)量,本文為了探究Mendeley的Altmetrics指標(biāo)的文本內(nèi)容情感分析,通過python[8]直接爬取Mendeley的社群文本學(xué)術(shù)信息數(shù)據(jù),這在一定程度上保障了本研究的科學(xué)性、專業(yè)性和嚴(yán)謹(jǐn)性。本文在數(shù)據(jù)處理階段,選擇多種工具相結(jié)合,以期可以使筆者的數(shù)據(jù)處理過程盡量合理化。3社群分析3.1學(xué)者信息分析對(duì)Mendeley中106174個(gè)群組進(jìn)行清洗,清洗后得到2112個(gè)群組,每個(gè)群組都有自己討論的專題,對(duì)人數(shù)前10的群組成員和組名進(jìn)行可視化分析,得到表1,分析發(fā)現(xiàn),人數(shù)排名靠前的對(duì)生物、醫(yī)學(xué)等學(xué)科較為關(guān)注,同時(shí)論文撰寫、定性研究方法等關(guān)于學(xué)術(shù)研究方法和投稿撰寫論文的較學(xué)術(shù)的群組也備受成員關(guān)注。表1Top10群組人數(shù)及群組名稱通過對(duì)Mendeley讀者信息進(jìn)行分類,所有學(xué)科群組的讀者大多是碩士研究生、博士研究生和博士后,但也有其他學(xué)者參加。根據(jù)平臺(tái)注冊(cè)人員的學(xué)歷進(jìn)行分析,平臺(tái)用戶一般為學(xué)歷較高的高素質(zhì)學(xué)者。3.2學(xué)者文本內(nèi)容分析我們爬取社群中每個(gè)用戶在所在的group所發(fā)的每條文本信息,通過統(tǒng)計(jì)發(fā)現(xiàn),清洗之后共得到11561條情感文本數(shù)據(jù),筆者利用nltk分詞方法對(duì)情感文本數(shù)據(jù)進(jìn)行分詞處理,然后進(jìn)行數(shù)據(jù)清洗,去掉冠詞、介詞、代詞等高頻卻沒有意義的詞之后共得到41696條分詞,對(duì)分詞進(jìn)行詞云分析、主題分析和內(nèi)容分析。對(duì)所有文本內(nèi)容進(jìn)行詞云可視化分析得到圖1。圖1群組文本內(nèi)容詞云圖通過對(duì)Mendeley群組原文信息進(jìn)行人工判讀,發(fā)現(xiàn)Mendeley群組原文涉及的學(xué)術(shù)內(nèi)容不僅是學(xué)術(shù)論文,它已經(jīng)涉及學(xué)術(shù)產(chǎn)生的整個(gè)流程和軌跡,并對(duì)它的各個(gè)方面加以社會(huì)化宣傳。本文將人工判讀結(jié)果和現(xiàn)有文獻(xiàn)結(jié)合,將其涉及的學(xué)術(shù)交流內(nèi)容劃分為三大類,主要包括學(xué)術(shù)前沿、會(huì)議報(bào)告及專業(yè)求助,具體內(nèi)容如表2所示。表2Mendeley群組內(nèi)容分類3.3文本內(nèi)容情感分析情感分析是自然語言處理中常見的情況,比如電商平臺(tái)[9]商品評(píng)價(jià)、社交平臺(tái)[10]評(píng)論評(píng)價(jià)、社會(huì)輿情[11]分析等,本論文對(duì)Mendeley平臺(tái)社群文本信息進(jìn)行情感分析,可以幫助我們探究相關(guān)用戶對(duì)學(xué)術(shù)信息的認(rèn)同和喜愛程度,有助于分析社會(huì)大眾對(duì)于多樣化學(xué)術(shù)信息的認(rèn)知是否存在社會(huì)風(fēng)險(xiǎn)。本文采用搭建門控循環(huán)單元(GRU)網(wǎng)絡(luò)的深度學(xué)習(xí)方法對(duì)群組的討論內(nèi)容進(jìn)行情感分析。3.3.1詞向量從本質(zhì)上講,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)都是數(shù)字的數(shù)字。用數(shù)學(xué)向量的方式表示單詞的所有含義,用向量的數(shù)值和方向來共同表示,詞嵌入是將高維度的詞降維成多個(gè)低維度詞的過程,以期構(gòu)建語言模型,每個(gè)單詞或短語都映射到實(shí)數(shù)字段中。在底層輸入中,使用詞嵌入來表示詞組的方法極大提升了NLP中語法分析器和文本情感分析等的效果。WordEmbedding(詞嵌入)就是將單詞映射到向量空間里,并用向量來表示。本文的初始詞向量由詞語的索引組成,比如詞組[apple,pink]在程序生成的詞典中對(duì)應(yīng)的索引為1、2,那么[apple,pink]可表示為數(shù)組[1,2],為了將詞語進(jìn)行更高維度的表示,需要在GRU網(wǎng)絡(luò)的第一層加入WordEmbedding層。3.3.2搭建GRU網(wǎng)絡(luò)GRU即GatedRecurrentUnit,時(shí)長短記憶網(wǎng)絡(luò)的一個(gè)最好變體。LSTM解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)無法很好處理遠(yuǎn)距離依賴的問題,GRU和LSTM具有同樣出色的結(jié)果,甚至比LSTM效果還要明顯。GRU比LSTM適用范圍更廣,精確度更高,由于GRU的門數(shù)少于LSTM,且參數(shù)較少,因此訓(xùn)練起來也相對(duì)容易,并且可以防止過擬合(訓(xùn)練樣本少的時(shí)候可以使用防止過擬合,訓(xùn)練樣本多的時(shí)候則可以節(jié)省很多訓(xùn)練時(shí)間)。因此GRU是一個(gè)非常流行的LSTM變體,保持了LSTM的效果同時(shí)又使結(jié)構(gòu)更加簡(jiǎn)單,本文使用python的keras模塊搭建GRU網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu)中最上層是嵌入層,達(dá)到將低維度的詞向量轉(zhuǎn)為高維度的詞向量表示的效果,GRU層即GRU網(wǎng)絡(luò)的主體部分,主要應(yīng)用于自然語言和時(shí)間序列領(lǐng)域,第三層的Dropout層在緩解過擬合問題方面有突出貢獻(xiàn),Dense層即全連接層,最后網(wǎng)絡(luò)的輸出層輸出該內(nèi)容的情感分類評(píng)分,分?jǐn)?shù)區(qū)間為[0,1],與0越遠(yuǎn),內(nèi)容更傾向消極;與1越近,內(nèi)容更傾向積極,本文設(shè)置閾值0.3,即[0,0.3]區(qū)間內(nèi)容被判斷為消極,在[0.3,0.7]區(qū)間內(nèi)容被判斷為中性,在[0.7,1]區(qū)間中內(nèi)容被判斷為積極。3.3.3訓(xùn)練GRU網(wǎng)絡(luò)本文使用的訓(xùn)練數(shù)據(jù)是50000條被標(biāo)注的tweeter評(píng)論,評(píng)論被標(biāo)注為積極和消極,沒有中性評(píng)論,為了使用這些數(shù)據(jù),同樣需要進(jìn)行分詞、去停用詞等數(shù)據(jù)清洗操作,如表3所示。將50000條數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,本文隨機(jī)抽取了5000條數(shù)據(jù)進(jìn)行測(cè)試不參與訓(xùn)練,使用訓(xùn)練集對(duì)網(wǎng)絡(luò)迭代40次后,得到的網(wǎng)絡(luò)損失值折線圖如圖2,在經(jīng)過40次訓(xùn)練后,網(wǎng)絡(luò)的正確率已經(jīng)達(dá)到90%以上,但由于只要有足夠參數(shù),神經(jīng)網(wǎng)絡(luò)理論上可以擬合任何函數(shù),所以使用測(cè)試集即進(jìn)行測(cè)試,最后得到網(wǎng)絡(luò)的精確度為80.04%,證明了網(wǎng)絡(luò)的有效性。圖2網(wǎng)絡(luò)訓(xùn)練損失3.4情感分類情感分類是情感分析的核心,情感分類方法包括二分法、三分法和多元情感分類法。其中,二分法包括積極和消極兩種,三分法包括積極、消極和中性3種,多元情感分類法是根據(jù)文本內(nèi)容和作者分類意圖,可以對(duì)情感進(jìn)行更加多層次細(xì)致的劃分,更加清晰的分析文本或者評(píng)論的態(tài)度,使文本的主觀性態(tài)度可以利用定量的方式表達(dá)出來,最終的結(jié)果可以對(duì)特定文本中觀點(diǎn)信息進(jìn)行提取,分析其是支持還是批評(píng)。本文筆者在對(duì)聊天數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和詞向量轉(zhuǎn)換后,可以輸入GRU網(wǎng)絡(luò)中進(jìn)行情感分類,最后得到的分類如圖3所示。圖3情感傾向分類從圖3可見他們的絕大多數(shù)推文內(nèi)容(中性內(nèi)容占87%)都對(duì)文章所涉及的問題進(jìn)行了一般性討論,其中一部分人(6%)根據(jù)文章提供了與之相關(guān)的建議。這些因素表明了與非學(xué)術(shù)受眾互動(dòng)的真實(shí)案例。但是,將近7%的帖子對(duì)所討論的問題提出了一些批評(píng)。而在學(xué)術(shù)文章中很少有明確的批評(píng),因此表明Mendeley是表達(dá)感情更明確的重要科學(xué)活動(dòng)的平臺(tái)。4結(jié)束語和展望4.1研究結(jié)論本文在對(duì)學(xué)術(shù)影響力評(píng)價(jià)方式尋求改變的背景下,選擇了Mendeley平臺(tái)所有的社群數(shù)據(jù),本文共得到有效個(gè)人組建社群信息106174組,有效機(jī)構(gòu)社群信息209組。構(gòu)成本研究的基礎(chǔ)數(shù)據(jù)集。將Mendeley社群內(nèi)容劃分為3個(gè)維度,分別是社群群組維度、社群群組原文文本維度和社群群組原文文本情感維度。其中:(1)社群群組維度主要探究“誰在使用Mendeley增加學(xué)術(shù)成果社會(huì)影響力價(jià)值并積極參與公共事務(wù)談?wù)摗保唬?)社群群組原文文本維度主要分析“群組談?wù)撌裁磧?nèi)容”;(3)社群群組原文文本情感維度則探討了“個(gè)人學(xué)術(shù)者,學(xué)術(shù)組織以及游離于學(xué)術(shù)組織之外的學(xué)術(shù)參與大眾對(duì)于這些學(xué)術(shù)成果的情感傾向度是怎樣的”。研究發(fā)現(xiàn):Mendeley平臺(tái)社群群組關(guān)注學(xué)術(shù)信息;學(xué)術(shù)信息發(fā)布者呈多元性和專業(yè)化;學(xué)術(shù)信息內(nèi)容多樣化和差異化;學(xué)術(shù)信息網(wǎng)絡(luò)輿論導(dǎo)向良好。因此Mendeley平臺(tái)傳遞學(xué)術(shù)信息有質(zhì)量保障,具有可用性,促進(jìn)了網(wǎng)絡(luò)學(xué)術(shù)共同體的成立,有效提升學(xué)術(shù)成果的社會(huì)價(jià)值和學(xué)術(shù)價(jià)值,在一定程度上降低了知識(shí)鴻溝現(xiàn)象,有利于知識(shí)信息的民主化。4.2研究不足本文的不足主要有以下4點(diǎn):(1)本文的研究雖然選取了較全面的Mendeley社群群組學(xué)術(shù)信息數(shù)據(jù),但是因?yàn)榫W(wǎng)站數(shù)據(jù)爬取受限制,涉及的指標(biāo)群組外部信息維度較少,只有群組名稱,群組介紹、群組成員,如果技術(shù)突破,爬取到更多的外部信息的話,分析得會(huì)更加客觀全面。(2)筆者在對(duì)Mendeley用戶原文涉及的內(nèi)容進(jìn)行分類時(shí)采用了人工閱讀的方法。人工判讀的方式對(duì)內(nèi)容進(jìn)行分析,不可避免地會(huì)造成一定程度上的誤差。雖然本論文采用了兩人同時(shí)判讀的方式來預(yù)防和遏制這些可能存在的誤差,但還是會(huì)有小概率的歧義問題。未來的研究中,我們需要尋求更為客觀科學(xué)的方法來應(yīng)對(duì)可能產(chǎn)生的歧義問題。(3)社群文本內(nèi)容采用計(jì)算機(jī)語言和軟件對(duì)情感色彩進(jìn)行判斷,軟件只能分析出研究主體情感的積極性、消極性、中性,文本內(nèi)容對(duì)主體的作用和意義暫時(shí)都沒有辦法進(jìn)行探究。對(duì)情感傾向更為細(xì)粒度的研究和分析,也是之后研究的方向,借助其他學(xué)科實(shí)現(xiàn)文本內(nèi)容的細(xì)粒度劃分。(4)Mendeley雖然是學(xué)者在線學(xué)術(shù)交流的良好平臺(tái),但是其自身的易控性,也可能帶來影響力造假,還可以進(jìn)行商業(yè)性的水軍閱讀和轉(zhuǎn)發(fā),這些都是人為操作而出現(xiàn)的社會(huì)關(guān)注度,這里面不涉及學(xué)術(shù)信息的交流和理性思考,這不是學(xué)術(shù)影響力而僅是相關(guān)信息的推廣力度。本文的研究并未能深入到此,這也將是筆者之后研究的重點(diǎn)。4.3研究展望本文緊跟計(jì)量學(xué)發(fā)展新趨勢(shì)和學(xué)術(shù)交流在線化步伐,以Mendeley平臺(tái)的官方數(shù)據(jù)為研究出發(fā)點(diǎn),利用Python、Selenium、分詞模塊等工具,采用文獻(xiàn)分析法、內(nèi)容分析法和情感傾向分析法等,對(duì)Mendeley的社群群組展開內(nèi)容研究,探究其研究內(nèi)涵和價(jià)值。本論文的研究水平和研究時(shí)間有限,內(nèi)容會(huì)存在某些局限性,之后對(duì)Mendeley的Altmetrics指標(biāo)的文本研究可以從以下3個(gè)方面開展:(1)Mendeley的Altmetrics指標(biāo)傳遞出的學(xué)術(shù)信息評(píng)價(jià)標(biāo)準(zhǔn)。既然希望通過學(xué)術(shù)成果的社會(huì)影響力改善現(xiàn)有的學(xué)術(shù)評(píng)價(jià)機(jī)制,那我們就有必要對(duì)網(wǎng)絡(luò)化的學(xué)術(shù)信息
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 采購合同簡(jiǎn)單范本與采購合同范本
- 運(yùn)輸承包合同協(xié)議書范本
- 借調(diào)合同和勞動(dòng)合同
- 機(jī)修班承包合同
- 滅火器材的密封與保密教育
- 履帶式電動(dòng)微耕機(jī)自動(dòng)導(dǎo)航系統(tǒng)設(shè)計(jì)與試驗(yàn)
- 承包合同有沒有期限規(guī)定
- 污泥清掏合同
- 校園欺凌防治工作方案
- 基于3D激光雷達(dá)點(diǎn)云的機(jī)器人重定位算法研究
- 2024年國家焊工職業(yè)技能理論考試題庫(含答案)
- 特魯索綜合征
- 2024年山東省泰安市高考語文一模試卷
- 全國助殘日關(guān)注殘疾人主題班會(huì)課件
- TCL任職資格體系資料HR
- 《中國古代寓言》導(dǎo)讀(課件)2023-2024學(xué)年統(tǒng)編版語文三年級(jí)下冊(cè)
- 五年級(jí)上冊(cè)計(jì)算題大全1000題帶答案
- 工程建設(shè)行業(yè)標(biāo)準(zhǔn)內(nèi)置保溫現(xiàn)澆混凝土復(fù)合剪力墻技術(shù)規(guī)程
- 人教版五年級(jí)上冊(cè)數(shù)學(xué)脫式計(jì)算100題及答案
- 屋面細(xì)石混凝土保護(hù)層施工方案及方法
- 110kv各類型變壓器的計(jì)算單
評(píng)論
0/150
提交評(píng)論