基于學(xué)術(shù)平臺(tái)的學(xué)者群體特點(diǎn)研究-以Mendeley 為例

上傳人：1*** IP屬地：山東上傳時(shí)間：2023-09-22 格式：DOCX 頁數(shù)：9 大小：105.48KB 積分：12 舉報(bào) 版權(quán)申訴

基于學(xué)術(shù)平臺(tái)的學(xué)者群體特點(diǎn)研究-以Mendeley 為例_第2頁

基于學(xué)術(shù)平臺(tái)的學(xué)者群體特點(diǎn)研究-以Mendeley 為例_第3頁

基于學(xué)術(shù)平臺(tái)的學(xué)者群體特點(diǎn)研究-以Mendeley 為例_第4頁

基于學(xué)術(shù)平臺(tái)的學(xué)者群體特點(diǎn)研究-以Mendeley 為例_第5頁

已閱讀5頁，還剩4頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

當(dāng)下傳統(tǒng)學(xué)術(shù)評(píng)價(jià)體系的弊病顯現(xiàn)，學(xué)術(shù)信息在線交流迅速發(fā)展，交流模式也更為多樣化。基于此，互聯(lián)網(wǎng)社交媒體成為學(xué)者在線交流的重要選擇。Mendeley憑借其強(qiáng)大的社交功能和文獻(xiàn)存儲(chǔ)功能，得到學(xué)者們的廣泛關(guān)注，成為Altmetrics的主要指標(biāo)?？v觀目前國內(nèi)外對(duì)其研究現(xiàn)狀發(fā)現(xiàn)，學(xué)者對(duì)于Mendeley的替代計(jì)量學(xué)（Altmetrics）指標(biāo)的閱讀數(shù)研究已經(jīng)非常成熟，但很少有學(xué)者對(duì)Mendeley平臺(tái)的學(xué)者相關(guān)信息及學(xué)者發(fā)表的文本內(nèi)容進(jìn)行分析。因此，本論文選取Mendeley社群信息，對(duì)Mendeley平臺(tái)學(xué)者信息以及社群文本內(nèi)容進(jìn)行細(xì)致化研究，從學(xué)者信息、學(xué)者發(fā)表文本內(nèi)容和文本內(nèi)容情感傾向3個(gè)方面對(duì)其文本內(nèi)容展開研究，希望可以通過對(duì)文本內(nèi)容的深入分析，查看學(xué)者的學(xué)術(shù)跡象，探究學(xué)者的研究動(dòng)機(jī)和行為，從而進(jìn)一步地促進(jìn)學(xué)術(shù)交流和科學(xué)評(píng)價(jià)，推動(dòng)Altmetrics的深入研究。1研究綜述內(nèi)容分析法是針對(duì)內(nèi)容開展系統(tǒng)、定量和客觀的研究方法，在很多方面不同于傳統(tǒng)的分析方法。它將非定量的內(nèi)容轉(zhuǎn)化為定量可測(cè)度的數(shù)據(jù)，根據(jù)數(shù)據(jù)對(duì)材料內(nèi)容中有意義的詞句進(jìn)行定量化的事實(shí)推斷。相比其他方法，內(nèi)容分析法對(duì)組成內(nèi)容的結(jié)構(gòu)和因素會(huì)探究得更為規(guī)范化和細(xì)致化。2013年黃炎寧[1]選取了國內(nèi)三家傳統(tǒng)新聞媒體的官方微博，采用內(nèi)容分析法和深度訪談法對(duì)其信息的娛樂化進(jìn)行探究，以此來闡釋社會(huì)對(duì)數(shù)據(jù)民主的困惑。2017年王鵬飛[2]等人借助文獻(xiàn)研究的方法對(duì)國內(nèi)外Altmetrics相關(guān)論文進(jìn)行系統(tǒng)梳理，提出網(wǎng)絡(luò)社交媒體評(píng)價(jià)論文內(nèi)容的歸類方式，以此作為開展Altmetrics內(nèi)容分析的基礎(chǔ)。2018年劉嘉琪[3]等人將微博作為研究對(duì)象，從用戶和企業(yè)兩個(gè)角度，使用泊松回歸模型對(duì)用戶卷入情感和EGC溝通內(nèi)容等特征開展研究。研究發(fā)現(xiàn)用戶維度里的點(diǎn)贊數(shù)、積極的評(píng)論等會(huì)推動(dòng)用戶進(jìn)行有效轉(zhuǎn)發(fā)；企業(yè)維度里描述服務(wù)、產(chǎn)品細(xì)節(jié)的內(nèi)容、有說服力的內(nèi)容也可以刺激用戶進(jìn)行轉(zhuǎn)發(fā)關(guān)注。2018年甘春梅[4]等人對(duì)獲取的54篇關(guān)于網(wǎng)絡(luò)用戶行為的論文，使用內(nèi)容分析和兩階段綜述方法，重點(diǎn)分析論文涉及的研究主題、理論、自變量等。李廣欣[5]采用內(nèi)容分析、統(tǒng)計(jì)分析和大樣本調(diào)查等方法，探究科技類期刊所開設(shè)的微信公眾號(hào)推送文章內(nèi)容質(zhì)量特色和推送服務(wù)發(fā)展現(xiàn)狀。進(jìn)行文獻(xiàn)梳理，筆者發(fā)現(xiàn)從Altmetrics內(nèi)容分析角度分析Mendeley平臺(tái)的研究較少，而且文獻(xiàn)也反映出在線學(xué)術(shù)信息交流已然成為一種學(xué)術(shù)模式，需要對(duì)其內(nèi)容進(jìn)行更為系統(tǒng)、透徹的分析。這為筆者開展Altmetrics內(nèi)容研究提供了一定的契機(jī)。鑒于社交媒體學(xué)術(shù)交流的發(fā)展趨勢(shì)[6]，以及對(duì)Mendeley文本內(nèi)容探究的不足，本文提出對(duì)Mendeley平臺(tái)Altmetrics指標(biāo)文本內(nèi)容進(jìn)行細(xì)致化研究，推進(jìn)學(xué)術(shù)在線交流發(fā)展、改善現(xiàn)行學(xué)術(shù)影響力評(píng)價(jià)機(jī)制、促進(jìn)Altmetrics研究和服務(wù)的長足發(fā)展。2數(shù)據(jù)處理Mendeley是一個(gè)在線學(xué)術(shù)社交網(wǎng)絡(luò)平臺(tái)，它可以獲取網(wǎng)頁上的文獻(xiàn)信息，并將其添加到個(gè)人圖書館中。利用Python爬取網(wǎng)站中所有群組的外部信息和內(nèi)部信息作為數(shù)據(jù)樣本，進(jìn)行論文后續(xù)研究的展開。整個(gè)數(shù)據(jù)爬取[7]的流程一共分為兩大步驟：第一步是檢索出所有能被搜索出來的group信息和地址并在數(shù)據(jù)庫層去重，為了提高效率使用多線程的方式來獲取數(shù)據(jù)；第二步是使用去重后的group地址，獲取group詳情和所有文本及評(píng)論信息。在爬取數(shù)據(jù)過程中遇到的難點(diǎn)有兩個(gè)：一個(gè)是只有當(dāng)加載更多顯示在可視范圍內(nèi)才能真正加載數(shù)據(jù)；另一個(gè)是IP被屏蔽，需要利用切換代理的方法實(shí)現(xiàn)爬取目標(biāo)。數(shù)據(jù)質(zhì)量的好壞關(guān)乎研究的質(zhì)量，本文為了探究Mendeley的Altmetrics指標(biāo)的文本內(nèi)容情感分析，通過python[8]直接爬取Mendeley的社群文本學(xué)術(shù)信息數(shù)據(jù)，這在一定程度上保障了本研究的科學(xué)性、專業(yè)性和嚴(yán)謹(jǐn)性。本文在數(shù)據(jù)處理階段，選擇多種工具相結(jié)合，以期可以使筆者的數(shù)據(jù)處理過程盡量合理化。3社群分析3.1學(xué)者信息分析對(duì)Mendeley中106174個(gè)群組進(jìn)行清洗，清洗后得到2112個(gè)群組，每個(gè)群組都有自己討論的專題，對(duì)人數(shù)前10的群組成員和組名進(jìn)行可視化分析，得到表1，分析發(fā)現(xiàn)，人數(shù)排名靠前的對(duì)生物、醫(yī)學(xué)等學(xué)科較為關(guān)注，同時(shí)論文撰寫、定性研究方法等關(guān)于學(xué)術(shù)研究方法和投稿撰寫論文的較學(xué)術(shù)的群組也備受成員關(guān)注。表1Top10群組人數(shù)及群組名稱通過對(duì)Mendeley讀者信息進(jìn)行分類，所有學(xué)科群組的讀者大多是碩士研究生、博士研究生和博士后，但也有其他學(xué)者參加。根據(jù)平臺(tái)注冊(cè)人員的學(xué)歷進(jìn)行分析，平臺(tái)用戶一般為學(xué)歷較高的高素質(zhì)學(xué)者。3.2學(xué)者文本內(nèi)容分析我們爬取社群中每個(gè)用戶在所在的group所發(fā)的每條文本信息，通過統(tǒng)計(jì)發(fā)現(xiàn)，清洗之后共得到11561條情感文本數(shù)據(jù)，筆者利用nltk分詞方法對(duì)情感文本數(shù)據(jù)進(jìn)行分詞處理，然后進(jìn)行數(shù)據(jù)清洗，去掉冠詞、介詞、代詞等高頻卻沒有意義的詞之后共得到41696條分詞，對(duì)分詞進(jìn)行詞云分析、主題分析和內(nèi)容分析。對(duì)所有文本內(nèi)容進(jìn)行詞云可視化分析得到圖1。圖1群組文本內(nèi)容詞云圖通過對(duì)Mendeley群組原文信息進(jìn)行人工判讀，發(fā)現(xiàn)Mendeley群組原文涉及的學(xué)術(shù)內(nèi)容不僅是學(xué)術(shù)論文，它已經(jīng)涉及學(xué)術(shù)產(chǎn)生的整個(gè)流程和軌跡，并對(duì)它的各個(gè)方面加以社會(huì)化宣傳。本文將人工判讀結(jié)果和現(xiàn)有文獻(xiàn)結(jié)合，將其涉及的學(xué)術(shù)交流內(nèi)容劃分為三大類，主要包括學(xué)術(shù)前沿、會(huì)議報(bào)告及專業(yè)求助，具體內(nèi)容如表2所示。表2Mendeley群組內(nèi)容分類3.3文本內(nèi)容情感分析情感分析是自然語言處理中常見的情況，比如電商平臺(tái)[9]商品評(píng)價(jià)、社交平臺(tái)[10]評(píng)論評(píng)價(jià)、社會(huì)輿情[11]分析等，本論文對(duì)Mendeley平臺(tái)社群文本信息進(jìn)行情感分析，可以幫助我們探究相關(guān)用戶對(duì)學(xué)術(shù)信息的認(rèn)同和喜愛程度，有助于分析社會(huì)大眾對(duì)于多樣化學(xué)術(shù)信息的認(rèn)知是否存在社會(huì)風(fēng)險(xiǎn)。本文采用搭建門控循環(huán)單元（GRU）網(wǎng)絡(luò)的深度學(xué)習(xí)方法對(duì)群組的討論內(nèi)容進(jìn)行情感分析。3.3.1詞向量從本質(zhì)上講，機(jī)器學(xué)習(xí)和深度學(xué)習(xí)都是數(shù)字的數(shù)字。用數(shù)學(xué)向量的方式表示單詞的所有含義，用向量的數(shù)值和方向來共同表示，詞嵌入是將高維度的詞降維成多個(gè)低維度詞的過程，以期構(gòu)建語言模型，每個(gè)單詞或短語都映射到實(shí)數(shù)字段中。在底層輸入中，使用詞嵌入來表示詞組的方法極大提升了NLP中語法分析器和文本情感分析等的效果。WordEmbedding（詞嵌入）就是將單詞映射到向量空間里，并用向量來表示。本文的初始詞向量由詞語的索引組成，比如詞組[apple,pink]在程序生成的詞典中對(duì)應(yīng)的索引為1、2，那么[apple,pink]可表示為數(shù)組[1，2]，為了將詞語進(jìn)行更高維度的表示，需要在GRU網(wǎng)絡(luò)的第一層加入WordEmbedding層。3.3.2搭建GRU網(wǎng)絡(luò)GRU即GatedRecurrentUnit，時(shí)長短記憶網(wǎng)絡(luò)的一個(gè)最好變體。LSTM解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)無法很好處理遠(yuǎn)距離依賴的問題，GRU和LSTM具有同樣出色的結(jié)果，甚至比LSTM效果還要明顯。GRU比LSTM適用范圍更廣，精確度更高，由于GRU的門數(shù)少于LSTM，且參數(shù)較少，因此訓(xùn)練起來也相對(duì)容易，并且可以防止過擬合（訓(xùn)練樣本少的時(shí)候可以使用防止過擬合，訓(xùn)練樣本多的時(shí)候則可以節(jié)省很多訓(xùn)練時(shí)間）。因此GRU是一個(gè)非常流行的LSTM變體，保持了LSTM的效果同時(shí)又使結(jié)構(gòu)更加簡(jiǎn)單，本文使用python的keras模塊搭建GRU網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu)中最上層是嵌入層，達(dá)到將低維度的詞向量轉(zhuǎn)為高維度的詞向量表示的效果，GRU層即GRU網(wǎng)絡(luò)的主體部分，主要應(yīng)用于自然語言和時(shí)間序列領(lǐng)域，第三層的Dropout層在緩解過擬合問題方面有突出貢獻(xiàn)，Dense層即全連接層，最后網(wǎng)絡(luò)的輸出層輸出該內(nèi)容的情感分類評(píng)分，分?jǐn)?shù)區(qū)間為[0，1]，與0越遠(yuǎn)，內(nèi)容更傾向消極；與1越近，內(nèi)容更傾向積極，本文設(shè)置閾值0.3，即[0，0.3]區(qū)間內(nèi)容被判斷為消極，在[0.3，0.7]區(qū)間內(nèi)容被判斷為中性，在[0.7，1]區(qū)間中內(nèi)容被判斷為積極。3.3.3訓(xùn)練GRU網(wǎng)絡(luò)本文使用的訓(xùn)練數(shù)據(jù)是50000條被標(biāo)注的tweeter評(píng)論，評(píng)論被標(biāo)注為積極和消極，沒有中性評(píng)論，為了使用這些數(shù)據(jù)，同樣需要進(jìn)行分詞、去停用詞等數(shù)據(jù)清洗操作，如表3所示。將50000條數(shù)據(jù)分為訓(xùn)練集和測(cè)試集，本文隨機(jī)抽取了5000條數(shù)據(jù)進(jìn)行測(cè)試不參與訓(xùn)練，使用訓(xùn)練集對(duì)網(wǎng)絡(luò)迭代40次后，得到的網(wǎng)絡(luò)損失值折線圖如圖2，在經(jīng)過40次訓(xùn)練后，網(wǎng)絡(luò)的正確率已經(jīng)達(dá)到90%以上，但由于只要有足夠參數(shù)，神經(jīng)網(wǎng)絡(luò)理論上可以擬合任何函數(shù)，所以使用測(cè)試集即進(jìn)行測(cè)試，最后得到網(wǎng)絡(luò)的精確度為80.04%，證明了網(wǎng)絡(luò)的有效性。圖2網(wǎng)絡(luò)訓(xùn)練損失3.4情感分類情感分類是情感分析的核心，情感分類方法包括二分法、三分法和多元情感分類法。其中，二分法包括積極和消極兩種，三分法包括積極、消極和中性3種，多元情感分類法是根據(jù)文本內(nèi)容和作者分類意圖，可以對(duì)情感進(jìn)行更加多層次細(xì)致的劃分，更加清晰的分析文本或者評(píng)論的態(tài)度，使文本的主觀性態(tài)度可以利用定量的方式表達(dá)出來，最終的結(jié)果可以對(duì)特定文本中觀點(diǎn)信息進(jìn)行提取，分析其是支持還是批評(píng)。本文筆者在對(duì)聊天數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和詞向量轉(zhuǎn)換后，可以輸入GRU網(wǎng)絡(luò)中進(jìn)行情感分類，最后得到的分類如圖3所示。圖3情感傾向分類從圖3可見他們的絕大多數(shù)推文內(nèi)容（中性內(nèi)容占87%）都對(duì)文章所涉及的問題進(jìn)行了一般性討論，其中一部分人（6%）根據(jù)文章提供了與之相關(guān)的建議。這些因素表明了與非學(xué)術(shù)受眾互動(dòng)的真實(shí)案例。但是，將近7%的帖子對(duì)所討論的問題提出了一些批評(píng)。而在學(xué)術(shù)文章中很少有明確的批評(píng)，因此表明Mendeley是表達(dá)感情更明確的重要科學(xué)活動(dòng)的平臺(tái)。4結(jié)束語和展望4.1研究結(jié)論本文在對(duì)學(xué)術(shù)影響力評(píng)價(jià)方式尋求改變的背景下，選擇了Mendeley平臺(tái)所有的社群數(shù)據(jù)，本文共得到有效個(gè)人組建社群信息106174組，有效機(jī)構(gòu)社群信息209組。構(gòu)成本研究的基礎(chǔ)數(shù)據(jù)集。將Mendeley社群內(nèi)容劃分為3個(gè)維度，分別是社群群組維度、社群群組原文文本維度和社群群組原文文本情感維度。其中：（1）社群群組維度主要探究“誰在使用Mendeley增加學(xué)術(shù)成果社會(huì)影響力價(jià)值并積極參與公共事務(wù)談?wù)摗保唬?）社群群組原文文本維度主要分析“群組談?wù)撌裁磧?nèi)容”；（3）社群群組原文文本情感維度則探討了“個(gè)人學(xué)術(shù)者，學(xué)術(shù)組織以及游離于學(xué)術(shù)組織之外的學(xué)術(shù)參與大眾對(duì)于這些學(xué)術(shù)成果的情感傾向度是怎樣的”。研究發(fā)現(xiàn)：Mendeley平臺(tái)社群群組關(guān)注學(xué)術(shù)信息；學(xué)術(shù)信息發(fā)布者呈多元性和專業(yè)化；學(xué)術(shù)信息內(nèi)容多樣化和差異化；學(xué)術(shù)信息網(wǎng)絡(luò)輿論導(dǎo)向良好。因此Mendeley平臺(tái)傳遞學(xué)術(shù)信息有質(zhì)量保障，具有可用性，促進(jìn)了網(wǎng)絡(luò)學(xué)術(shù)共同體的成立，有效提升學(xué)術(shù)成果的社會(huì)價(jià)值和學(xué)術(shù)價(jià)值，在一定程度上降低了知識(shí)鴻溝現(xiàn)象，有利于知識(shí)信息的民主化。4.2研究不足本文的不足主要有以下4點(diǎn)：（1）本文的研究雖然選取了較全面的Mendeley社群群組學(xué)術(shù)信息數(shù)據(jù)，但是因?yàn)榫W(wǎng)站數(shù)據(jù)爬取受限制，涉及的指標(biāo)群組外部信息維度較少，只有群組名稱，群組介紹、群組成員，如果技術(shù)突破，爬取到更多的外部信息的話，分析得會(huì)更加客觀全面。（2）筆者在對(duì)Mendeley用戶原文涉及的內(nèi)容進(jìn)行分類時(shí)采用了人工閱讀的方法。人工判讀的方式對(duì)內(nèi)容進(jìn)行分析，不可避免地會(huì)造成一定程度上的誤差。雖然本論文采用了兩人同時(shí)判讀的方式來預(yù)防和遏制這些可能存在的誤差，但還是會(huì)有小概率的歧義問題。未來的研究中，我們需要尋求更為客觀科學(xué)的方法來應(yīng)對(duì)可能產(chǎn)生的歧義問題。（3）社群文本內(nèi)容采用計(jì)算機(jī)語言和軟件對(duì)情感色彩進(jìn)行判斷，軟件只能分析出研究主體情感的積極性、消極性、中性，文本內(nèi)容對(duì)主體的作用和意義暫時(shí)都沒有辦法進(jìn)行探究。對(duì)情感傾向更為細(xì)粒度的研究和分析，也是之后研究的方向，借助其他學(xué)科實(shí)現(xiàn)文本內(nèi)容的細(xì)粒度劃分。（4）Mendeley雖然是學(xué)者在線學(xué)術(shù)交流的良好平臺(tái)，但是其自身的易控性，也可能帶來影響力造假，還可以進(jìn)行商業(yè)性的水軍閱讀和轉(zhuǎn)發(fā)，這些都是人為操作而出現(xiàn)的社會(huì)關(guān)注度，這里面不涉及學(xué)術(shù)信息的交流和理性思考，這不是學(xué)術(shù)影響力而僅是相關(guān)信息的推廣力度。本文的研究并未能深入到此，這也將是筆者之后研究的重點(diǎn)。4.3研究展望本文緊跟計(jì)量學(xué)發(fā)展新趨勢(shì)和學(xué)術(shù)交流在線化步伐，以Mendeley平臺(tái)的官方數(shù)據(jù)為研究出發(fā)點(diǎn)，利用Python、Selenium、分詞模塊等工具，采用文獻(xiàn)分析法、內(nèi)容分析法和情感傾向分析法等，對(duì)Mendeley的社群群組展開內(nèi)容研究，探究其研究內(nèi)涵和價(jià)值。本論文的研究水平和研究時(shí)間有限，內(nèi)容會(huì)存在某些局限性，之后對(duì)Mendeley的Altmetrics指標(biāo)的文本研究可以從以下3個(gè)方面開展：（1）Mendeley的Altmetrics指標(biāo)傳遞出的學(xué)術(shù)信息評(píng)價(jià)標(biāo)準(zhǔn)。既然希望通過學(xué)術(shù)成果的社會(huì)影響力改善現(xiàn)有的學(xué)術(shù)評(píng)價(jià)機(jī)制，那我們就有必要對(duì)網(wǎng)絡(luò)化的學(xué)術(shù)信息

人人文庫> 全部分類> 教育資料 > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于學(xué)術(shù)平臺(tái)的學(xué)者群體特點(diǎn)研究-以Mendeley 為例

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔