版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
當下傳統(tǒng)學術(shù)評價體系的弊病顯現(xiàn),學術(shù)信息在線交流迅速發(fā)展,交流模式也更為多樣化?;诖?,互聯(lián)網(wǎng)社交媒體成為學者在線交流的重要選擇。Mendeley憑借其強大的社交功能和文獻存儲功能,得到學者們的廣泛關(guān)注,成為Altmetrics的主要指標??v觀目前國內(nèi)外對其研究現(xiàn)狀發(fā)現(xiàn),學者對于Mendeley的替代計量學(Altmetrics)指標的閱讀數(shù)研究已經(jīng)非常成熟,但很少有學者對Mendeley平臺的學者相關(guān)信息及學者發(fā)表的文本內(nèi)容進行分析。因此,本論文選取Mendeley社群信息,對Mendeley平臺學者信息以及社群文本內(nèi)容進行細致化研究,從學者信息、學者發(fā)表文本內(nèi)容和文本內(nèi)容情感傾向3個方面對其文本內(nèi)容展開研究,希望可以通過對文本內(nèi)容的深入分析,查看學者的學術(shù)跡象,探究學者的研究動機和行為,從而進一步地促進學術(shù)交流和科學評價,推動Altmetrics的深入研究。1研究綜述內(nèi)容分析法是針對內(nèi)容開展系統(tǒng)、定量和客觀的研究方法,在很多方面不同于傳統(tǒng)的分析方法。它將非定量的內(nèi)容轉(zhuǎn)化為定量可測度的數(shù)據(jù),根據(jù)數(shù)據(jù)對材料內(nèi)容中有意義的詞句進行定量化的事實推斷。相比其他方法,內(nèi)容分析法對組成內(nèi)容的結(jié)構(gòu)和因素會探究得更為規(guī)范化和細致化。2013年黃炎寧[1]選取了國內(nèi)三家傳統(tǒng)新聞媒體的官方微博,采用內(nèi)容分析法和深度訪談法對其信息的娛樂化進行探究,以此來闡釋社會對數(shù)據(jù)民主的困惑。2017年王鵬飛[2]等人借助文獻研究的方法對國內(nèi)外Altmetrics相關(guān)論文進行系統(tǒng)梳理,提出網(wǎng)絡(luò)社交媒體評價論文內(nèi)容的歸類方式,以此作為開展Altmetrics內(nèi)容分析的基礎(chǔ)。2018年劉嘉琪[3]等人將微博作為研究對象,從用戶和企業(yè)兩個角度,使用泊松回歸模型對用戶卷入情感和EGC溝通內(nèi)容等特征開展研究。研究發(fā)現(xiàn)用戶維度里的點贊數(shù)、積極的評論等會推動用戶進行有效轉(zhuǎn)發(fā);企業(yè)維度里描述服務(wù)、產(chǎn)品細節(jié)的內(nèi)容、有說服力的內(nèi)容也可以刺激用戶進行轉(zhuǎn)發(fā)關(guān)注。2018年甘春梅[4]等人對獲取的54篇關(guān)于網(wǎng)絡(luò)用戶行為的論文,使用內(nèi)容分析和兩階段綜述方法,重點分析論文涉及的研究主題、理論、自變量等。李廣欣[5]采用內(nèi)容分析、統(tǒng)計分析和大樣本調(diào)查等方法,探究科技類期刊所開設(shè)的微信公眾號推送文章內(nèi)容質(zhì)量特色和推送服務(wù)發(fā)展現(xiàn)狀。進行文獻梳理,筆者發(fā)現(xiàn)從Altmetrics內(nèi)容分析角度分析Mendeley平臺的研究較少,而且文獻也反映出在線學術(shù)信息交流已然成為一種學術(shù)模式,需要對其內(nèi)容進行更為系統(tǒng)、透徹的分析。這為筆者開展Altmetrics內(nèi)容研究提供了一定的契機。鑒于社交媒體學術(shù)交流的發(fā)展趨勢[6],以及對Mendeley文本內(nèi)容探究的不足,本文提出對Mendeley平臺Altmetrics指標文本內(nèi)容進行細致化研究,推進學術(shù)在線交流發(fā)展、改善現(xiàn)行學術(shù)影響力評價機制、促進Altmetrics研究和服務(wù)的長足發(fā)展。2數(shù)據(jù)處理Mendeley是一個在線學術(shù)社交網(wǎng)絡(luò)平臺,它可以獲取網(wǎng)頁上的文獻信息,并將其添加到個人圖書館中。利用Python爬取網(wǎng)站中所有群組的外部信息和內(nèi)部信息作為數(shù)據(jù)樣本,進行論文后續(xù)研究的展開。整個數(shù)據(jù)爬取[7]的流程一共分為兩大步驟:第一步是檢索出所有能被搜索出來的group信息和地址并在數(shù)據(jù)庫層去重,為了提高效率使用多線程的方式來獲取數(shù)據(jù);第二步是使用去重后的group地址,獲取group詳情和所有文本及評論信息。在爬取數(shù)據(jù)過程中遇到的難點有兩個:一個是只有當加載更多顯示在可視范圍內(nèi)才能真正加載數(shù)據(jù);另一個是IP被屏蔽,需要利用切換代理的方法實現(xiàn)爬取目標。數(shù)據(jù)質(zhì)量的好壞關(guān)乎研究的質(zhì)量,本文為了探究Mendeley的Altmetrics指標的文本內(nèi)容情感分析,通過python[8]直接爬取Mendeley的社群文本學術(shù)信息數(shù)據(jù),這在一定程度上保障了本研究的科學性、專業(yè)性和嚴謹性。本文在數(shù)據(jù)處理階段,選擇多種工具相結(jié)合,以期可以使筆者的數(shù)據(jù)處理過程盡量合理化。3社群分析3.1學者信息分析對Mendeley中106174個群組進行清洗,清洗后得到2112個群組,每個群組都有自己討論的專題,對人數(shù)前10的群組成員和組名進行可視化分析,得到表1,分析發(fā)現(xiàn),人數(shù)排名靠前的對生物、醫(yī)學等學科較為關(guān)注,同時論文撰寫、定性研究方法等關(guān)于學術(shù)研究方法和投稿撰寫論文的較學術(shù)的群組也備受成員關(guān)注。表1Top10群組人數(shù)及群組名稱通過對Mendeley讀者信息進行分類,所有學科群組的讀者大多是碩士研究生、博士研究生和博士后,但也有其他學者參加。根據(jù)平臺注冊人員的學歷進行分析,平臺用戶一般為學歷較高的高素質(zhì)學者。3.2學者文本內(nèi)容分析我們爬取社群中每個用戶在所在的group所發(fā)的每條文本信息,通過統(tǒng)計發(fā)現(xiàn),清洗之后共得到11561條情感文本數(shù)據(jù),筆者利用nltk分詞方法對情感文本數(shù)據(jù)進行分詞處理,然后進行數(shù)據(jù)清洗,去掉冠詞、介詞、代詞等高頻卻沒有意義的詞之后共得到41696條分詞,對分詞進行詞云分析、主題分析和內(nèi)容分析。對所有文本內(nèi)容進行詞云可視化分析得到圖1。圖1群組文本內(nèi)容詞云圖通過對Mendeley群組原文信息進行人工判讀,發(fā)現(xiàn)Mendeley群組原文涉及的學術(shù)內(nèi)容不僅是學術(shù)論文,它已經(jīng)涉及學術(shù)產(chǎn)生的整個流程和軌跡,并對它的各個方面加以社會化宣傳。本文將人工判讀結(jié)果和現(xiàn)有文獻結(jié)合,將其涉及的學術(shù)交流內(nèi)容劃分為三大類,主要包括學術(shù)前沿、會議報告及專業(yè)求助,具體內(nèi)容如表2所示。表2Mendeley群組內(nèi)容分類3.3文本內(nèi)容情感分析情感分析是自然語言處理中常見的情況,比如電商平臺[9]商品評價、社交平臺[10]評論評價、社會輿情[11]分析等,本論文對Mendeley平臺社群文本信息進行情感分析,可以幫助我們探究相關(guān)用戶對學術(shù)信息的認同和喜愛程度,有助于分析社會大眾對于多樣化學術(shù)信息的認知是否存在社會風險。本文采用搭建門控循環(huán)單元(GRU)網(wǎng)絡(luò)的深度學習方法對群組的討論內(nèi)容進行情感分析。3.3.1詞向量從本質(zhì)上講,機器學習和深度學習都是數(shù)字的數(shù)字。用數(shù)學向量的方式表示單詞的所有含義,用向量的數(shù)值和方向來共同表示,詞嵌入是將高維度的詞降維成多個低維度詞的過程,以期構(gòu)建語言模型,每個單詞或短語都映射到實數(shù)字段中。在底層輸入中,使用詞嵌入來表示詞組的方法極大提升了NLP中語法分析器和文本情感分析等的效果。WordEmbedding(詞嵌入)就是將單詞映射到向量空間里,并用向量來表示。本文的初始詞向量由詞語的索引組成,比如詞組[apple,pink]在程序生成的詞典中對應(yīng)的索引為1、2,那么[apple,pink]可表示為數(shù)組[1,2],為了將詞語進行更高維度的表示,需要在GRU網(wǎng)絡(luò)的第一層加入WordEmbedding層。3.3.2搭建GRU網(wǎng)絡(luò)GRU即GatedRecurrentUnit,時長短記憶網(wǎng)絡(luò)的一個最好變體。LSTM解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)無法很好處理遠距離依賴的問題,GRU和LSTM具有同樣出色的結(jié)果,甚至比LSTM效果還要明顯。GRU比LSTM適用范圍更廣,精確度更高,由于GRU的門數(shù)少于LSTM,且參數(shù)較少,因此訓(xùn)練起來也相對容易,并且可以防止過擬合(訓(xùn)練樣本少的時候可以使用防止過擬合,訓(xùn)練樣本多的時候則可以節(jié)省很多訓(xùn)練時間)。因此GRU是一個非常流行的LSTM變體,保持了LSTM的效果同時又使結(jié)構(gòu)更加簡單,本文使用python的keras模塊搭建GRU網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu)中最上層是嵌入層,達到將低維度的詞向量轉(zhuǎn)為高維度的詞向量表示的效果,GRU層即GRU網(wǎng)絡(luò)的主體部分,主要應(yīng)用于自然語言和時間序列領(lǐng)域,第三層的Dropout層在緩解過擬合問題方面有突出貢獻,Dense層即全連接層,最后網(wǎng)絡(luò)的輸出層輸出該內(nèi)容的情感分類評分,分數(shù)區(qū)間為[0,1],與0越遠,內(nèi)容更傾向消極;與1越近,內(nèi)容更傾向積極,本文設(shè)置閾值0.3,即[0,0.3]區(qū)間內(nèi)容被判斷為消極,在[0.3,0.7]區(qū)間內(nèi)容被判斷為中性,在[0.7,1]區(qū)間中內(nèi)容被判斷為積極。3.3.3訓(xùn)練GRU網(wǎng)絡(luò)本文使用的訓(xùn)練數(shù)據(jù)是50000條被標注的tweeter評論,評論被標注為積極和消極,沒有中性評論,為了使用這些數(shù)據(jù),同樣需要進行分詞、去停用詞等數(shù)據(jù)清洗操作,如表3所示。將50000條數(shù)據(jù)分為訓(xùn)練集和測試集,本文隨機抽取了5000條數(shù)據(jù)進行測試不參與訓(xùn)練,使用訓(xùn)練集對網(wǎng)絡(luò)迭代40次后,得到的網(wǎng)絡(luò)損失值折線圖如圖2,在經(jīng)過40次訓(xùn)練后,網(wǎng)絡(luò)的正確率已經(jīng)達到90%以上,但由于只要有足夠參數(shù),神經(jīng)網(wǎng)絡(luò)理論上可以擬合任何函數(shù),所以使用測試集即進行測試,最后得到網(wǎng)絡(luò)的精確度為80.04%,證明了網(wǎng)絡(luò)的有效性。圖2網(wǎng)絡(luò)訓(xùn)練損失3.4情感分類情感分類是情感分析的核心,情感分類方法包括二分法、三分法和多元情感分類法。其中,二分法包括積極和消極兩種,三分法包括積極、消極和中性3種,多元情感分類法是根據(jù)文本內(nèi)容和作者分類意圖,可以對情感進行更加多層次細致的劃分,更加清晰的分析文本或者評論的態(tài)度,使文本的主觀性態(tài)度可以利用定量的方式表達出來,最終的結(jié)果可以對特定文本中觀點信息進行提取,分析其是支持還是批評。本文筆者在對聊天數(shù)據(jù)進行數(shù)據(jù)清洗和詞向量轉(zhuǎn)換后,可以輸入GRU網(wǎng)絡(luò)中進行情感分類,最后得到的分類如圖3所示。圖3情感傾向分類從圖3可見他們的絕大多數(shù)推文內(nèi)容(中性內(nèi)容占87%)都對文章所涉及的問題進行了一般性討論,其中一部分人(6%)根據(jù)文章提供了與之相關(guān)的建議。這些因素表明了與非學術(shù)受眾互動的真實案例。但是,將近7%的帖子對所討論的問題提出了一些批評。而在學術(shù)文章中很少有明確的批評,因此表明Mendeley是表達感情更明確的重要科學活動的平臺。4結(jié)束語和展望4.1研究結(jié)論本文在對學術(shù)影響力評價方式尋求改變的背景下,選擇了Mendeley平臺所有的社群數(shù)據(jù),本文共得到有效個人組建社群信息106174組,有效機構(gòu)社群信息209組。構(gòu)成本研究的基礎(chǔ)數(shù)據(jù)集。將Mendeley社群內(nèi)容劃分為3個維度,分別是社群群組維度、社群群組原文文本維度和社群群組原文文本情感維度。其中:(1)社群群組維度主要探究“誰在使用Mendeley增加學術(shù)成果社會影響力價值并積極參與公共事務(wù)談?wù)摗?;?)社群群組原文文本維度主要分析“群組談?wù)撌裁磧?nèi)容”;(3)社群群組原文文本情感維度則探討了“個人學術(shù)者,學術(shù)組織以及游離于學術(shù)組織之外的學術(shù)參與大眾對于這些學術(shù)成果的情感傾向度是怎樣的”。研究發(fā)現(xiàn):Mendeley平臺社群群組關(guān)注學術(shù)信息;學術(shù)信息發(fā)布者呈多元性和專業(yè)化;學術(shù)信息內(nèi)容多樣化和差異化;學術(shù)信息網(wǎng)絡(luò)輿論導(dǎo)向良好。因此Mendeley平臺傳遞學術(shù)信息有質(zhì)量保障,具有可用性,促進了網(wǎng)絡(luò)學術(shù)共同體的成立,有效提升學術(shù)成果的社會價值和學術(shù)價值,在一定程度上降低了知識鴻溝現(xiàn)象,有利于知識信息的民主化。4.2研究不足本文的不足主要有以下4點:(1)本文的研究雖然選取了較全面的Mendeley社群群組學術(shù)信息數(shù)據(jù),但是因為網(wǎng)站數(shù)據(jù)爬取受限制,涉及的指標群組外部信息維度較少,只有群組名稱,群組介紹、群組成員,如果技術(shù)突破,爬取到更多的外部信息的話,分析得會更加客觀全面。(2)筆者在對Mendeley用戶原文涉及的內(nèi)容進行分類時采用了人工閱讀的方法。人工判讀的方式對內(nèi)容進行分析,不可避免地會造成一定程度上的誤差。雖然本論文采用了兩人同時判讀的方式來預(yù)防和遏制這些可能存在的誤差,但還是會有小概率的歧義問題。未來的研究中,我們需要尋求更為客觀科學的方法來應(yīng)對可能產(chǎn)生的歧義問題。(3)社群文本內(nèi)容采用計算機語言和軟件對情感色彩進行判斷,軟件只能分析出研究主體情感的積極性、消極性、中性,文本內(nèi)容對主體的作用和意義暫時都沒有辦法進行探究。對情感傾向更為細粒度的研究和分析,也是之后研究的方向,借助其他學科實現(xiàn)文本內(nèi)容的細粒度劃分。(4)Mendeley雖然是學者在線學術(shù)交流的良好平臺,但是其自身的易控性,也可能帶來影響力造假,還可以進行商業(yè)性的水軍閱讀和轉(zhuǎn)發(fā),這些都是人為操作而出現(xiàn)的社會關(guān)注度,這里面不涉及學術(shù)信息的交流和理性思考,這不是學術(shù)影響力而僅是相關(guān)信息的推廣力度。本文的研究并未能深入到此,這也將是筆者之后研究的重點。4.3研究展望本文緊跟計量學發(fā)展新趨勢和學術(shù)交流在線化步伐,以Mendeley平臺的官方數(shù)據(jù)為研究出發(fā)點,利用Python、Selenium、分詞模塊等工具,采用文獻分析法、內(nèi)容分析法和情感傾向分析法等,對Mendeley的社群群組展開內(nèi)容研究,探究其研究內(nèi)涵和價值。本論文的研究水平和研究時間有限,內(nèi)容會存在某些局限性,之后對Mendeley的Altmetrics指標的文本研究可以從以下3個方面開展:(1)Mendeley的Altmetrics指標傳遞出的學術(shù)信息評價標準。既然希望通過學術(shù)成果的社會影響力改善現(xiàn)有的學術(shù)評價機制,那我們就有必要對網(wǎng)絡(luò)化的學術(shù)信息
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人力資源招聘專員工作合同
- 代理人客戶關(guān)系管理與維護
- 產(chǎn)品陳列設(shè)計委托合同
- 二手房購置合同格式
- 肺良性腫瘤臨床路徑標準住院流程
- 校園環(huán)境文化建設(shè)工作總結(jié)
- 危廢品管理制度
- 工業(yè)互聯(lián)網(wǎng)平臺在制造業(yè)數(shù)字化轉(zhuǎn)型中的應(yīng)用方案
- 食品銷售許可相關(guān)制度
- 家具產(chǎn)品設(shè)計研發(fā)指導(dǎo)書
- 三年級上冊數(shù)學課件-7 認識分數(shù)丨蘇教版 (共27張PPT)
- 大九九乘法表(打印版)
- “二十四節(jié)氣”研究性報告
- 《市場營銷學》形考任務(wù)四答案
- 小學英語游戲食物類funny-food課件
- 一年級數(shù)學上冊課件《分與合》第2課時6、7的分與合
- 國內(nèi)外靜脈輸液的現(xiàn)狀與發(fā)展
- CATIA三維布線、線束三維設(shè)計方法、指導(dǎo)
- 醫(yī)美整形全套上墻制度
- 藍色卡通風2022小學六年級班干部競選PPT動態(tài)模板
- 邊坡支護樁施工方案
評論
0/150
提交評論