學(xué)術(shù)不端行為檢測(cè)系統(tǒng)_第1頁
學(xué)術(shù)不端行為檢測(cè)系統(tǒng)_第2頁
學(xué)術(shù)不端行為檢測(cè)系統(tǒng)_第3頁
學(xué)術(shù)不端行為檢測(cè)系統(tǒng)_第4頁
學(xué)術(shù)不端行為檢測(cè)系統(tǒng)_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

應(yīng)用軟件系統(tǒng)學(xué)術(shù)不端行為檢測(cè)系統(tǒng)內(nèi)容摘要如圖1所示,TMLC是一個(gè)強(qiáng)大的學(xué)位論文學(xué)術(shù)不端行為檢測(cè)系統(tǒng),它以《中國(guó)學(xué)術(shù)文獻(xiàn)絡(luò)出版總庫(kù)》為全文比對(duì)數(shù)據(jù)庫(kù),能夠迅速發(fā)現(xiàn)抄襲、剽竊、偽造、篡改等學(xué)術(shù)不端行為。這個(gè)系統(tǒng)可以用來檢測(cè)學(xué)位論文,并且支持用戶自定義比對(duì)庫(kù),使得檢測(cè)更加靈活和全面。通過使用TMLC,我們可以更加深入地理解學(xué)術(shù)不端行為的本質(zhì),并且能夠更加有效地防止學(xué)術(shù)不端行為的發(fā)生。這對(duì)于維護(hù)學(xué)術(shù)誠(chéng)信、提高學(xué)術(shù)水平具有深遠(yuǎn)的意義。TMLC也使得學(xué)術(shù)研究更加透明和公正,為學(xué)術(shù)界的健康發(fā)展提供了有力的支持。在系統(tǒng)中,抄襲與剽竊、偽造、篡改等學(xué)術(shù)不端行為都能夠被快速檢測(cè)出來。這得益于TMLC強(qiáng)大的比對(duì)功能和高效的數(shù)據(jù)處理能力。通過對(duì)論文的文本進(jìn)行逐字比對(duì),系統(tǒng)可以迅速找出與數(shù)據(jù)庫(kù)中已有文獻(xiàn)相似或相同的內(nèi)容,從而判斷是否存在抄襲或剽竊行為。同時(shí),系統(tǒng)還能夠檢測(cè)出偽造和篡改等行為,確保學(xué)術(shù)研究的真實(shí)性和可信度。內(nèi)容摘要除了檢測(cè)功能,TMLC還支持用戶自建比對(duì)庫(kù)。這使得用戶可以根據(jù)自己的需求,將特定領(lǐng)域的論文或文獻(xiàn)導(dǎo)入系統(tǒng),進(jìn)行更加細(xì)致的比對(duì)分析。這種自定義比對(duì)庫(kù)的方式,不僅能夠提高檢測(cè)的準(zhǔn)確性和針對(duì)性,還能夠?yàn)橛脩籼峁└屿`活和個(gè)性化的服務(wù)??偟膩碚f,TMLC作為一個(gè)高效的學(xué)位論文學(xué)術(shù)不端行為檢測(cè)系統(tǒng),為學(xué)術(shù)誠(chéng)信建設(shè)提供了有力的工具和支持。通過對(duì)比對(duì)數(shù)據(jù)庫(kù)的全面覆蓋和對(duì)學(xué)術(shù)不端行為的快速檢測(cè),TMLC為維護(hù)學(xué)術(shù)界的公正和權(quán)威做出了重要的貢獻(xiàn)。TMLC也為我們提供了一個(gè)深入理解學(xué)術(shù)不端行為的機(jī)會(huì),提醒我們?cè)趯W(xué)術(shù)研究中保持誠(chéng)信、遵循規(guī)范,不斷提高自身的學(xué)術(shù)素養(yǎng)和道德水平。01系統(tǒng)簡(jiǎn)介檢測(cè)原理及方法目錄02系統(tǒng)簡(jiǎn)介系統(tǒng)技術(shù)路線介紹系統(tǒng)功能概述系統(tǒng)目的檢測(cè)結(jié)果系統(tǒng)簡(jiǎn)介系統(tǒng)技術(shù)路線介紹TMLC采用CNKI自主研發(fā)的自適應(yīng)多階指紋(AMLFP)特征檢測(cè)技術(shù),具有檢測(cè)速度快,準(zhǔn)確率,召回率較高,抗干擾性強(qiáng)等特征。支持篇章、段落、句子各層級(jí)檢測(cè);支持文獻(xiàn)改寫,多篇文獻(xiàn)組合等各種文獻(xiàn)變形檢測(cè);支持研究生學(xué)位論文、圖書專著等超長(zhǎng)文獻(xiàn)的學(xué)術(shù)不端檢測(cè)。CNKI自適應(yīng)多階指紋技術(shù)原理如圖2所示:對(duì)任意一篇需要檢測(cè)的文獻(xiàn),系統(tǒng)首先對(duì)其進(jìn)行分層處理,按照篇章、段落、句子等層級(jí)分別創(chuàng)建指紋,而比對(duì)資源庫(kù)中的比對(duì)文獻(xiàn),也采取同樣技術(shù)創(chuàng)建指紋索引。系統(tǒng)技術(shù)路線介紹這樣的分層多階指紋結(jié)構(gòu),不僅可以滿足我們對(duì)超長(zhǎng)文獻(xiàn)的快速檢測(cè),而且,因?yàn)槲覀兊淖钚≈讣y粒度為句子,因此,也滿足了系統(tǒng)對(duì)檢準(zhǔn)率和檢全率的高要求。原則上,只要檢測(cè)文獻(xiàn)與比對(duì)文獻(xiàn)存在一個(gè)相同的句子,就能被論文檢測(cè)系統(tǒng)發(fā)現(xiàn)。系統(tǒng)功能概述系統(tǒng)主要功能包括:已發(fā)表文獻(xiàn)檢測(cè)、論文檢測(cè)、問題庫(kù)查詢、自建比對(duì)庫(kù)管理等。◆已發(fā)表文獻(xiàn)檢測(cè):指檢測(cè)系統(tǒng)能夠自動(dòng)將屬于用戶的已正式發(fā)表的學(xué)位論文檢索出來,并對(duì)每一篇已發(fā)表文獻(xiàn)進(jìn)行實(shí)時(shí)檢測(cè),快速給出檢測(cè)結(jié)果。◆論文檢測(cè):主要實(shí)現(xiàn)論文實(shí)時(shí)在線檢測(cè)功能。◆問題庫(kù)查詢:指用戶可以將檢測(cè)結(jié)果中確認(rèn)有問題的文獻(xiàn)放入到問題庫(kù),便于用戶集中管理?!糇越ū葘?duì)庫(kù):指管理人員可以選擇將檢測(cè)文獻(xiàn)放入個(gè)人比對(duì)庫(kù)或者批量上傳文獻(xiàn)作為個(gè)人比對(duì)庫(kù),該個(gè)人比對(duì)庫(kù)即可作為以后學(xué)術(shù)不端文獻(xiàn)檢測(cè)的比對(duì)數(shù)據(jù)庫(kù),該自建個(gè)人比對(duì)庫(kù)完全屬于用戶,其他用戶無權(quán)使用。系統(tǒng)目的TMLC的目的是輔助各研究生培養(yǎng)單位對(duì)學(xué)位論文質(zhì)量進(jìn)行評(píng)估,為審查論文提供技術(shù)服務(wù)。檢測(cè)系統(tǒng)在對(duì)論文進(jìn)行檢測(cè)之后,生成檢測(cè)報(bào)告,為判斷論文性質(zhì)提供相關(guān)依據(jù)。檢測(cè)結(jié)果在對(duì)用戶提交的檢測(cè)文獻(xiàn)檢測(cè)之后,系統(tǒng)生成的檢測(cè)結(jié)果包括:1.重合文字來源文獻(xiàn)信息。系統(tǒng)詳細(xì)列出重合文字來源文獻(xiàn)信息,這些文獻(xiàn)都是真實(shí)存在,而且應(yīng)是公開發(fā)表或得到發(fā)表確認(rèn)的。2.比對(duì)信息。檢測(cè)文獻(xiàn)和來源文獻(xiàn)的詳細(xì)比對(duì)信息,用戶可以快速選擇重合文字部分查閱。3.總檢測(cè)指標(biāo)。該指標(biāo)體系從多個(gè)角度對(duì)檢測(cè)文獻(xiàn)中的文字復(fù)制情況進(jìn)行了概括性描述。4.子檢測(cè)指標(biāo)。檢測(cè)結(jié)果因?yàn)閷W(xué)位論文一般較長(zhǎng),因此,系統(tǒng)一般按章檢索,并且每一章給出子檢測(cè)指標(biāo),該檢測(cè)指標(biāo)從多個(gè)角度對(duì)該章內(nèi)容的檢測(cè)情況進(jìn)行了詳細(xì)描述。5.診斷類型。系統(tǒng)根據(jù)指標(biāo)參數(shù)以及其他元數(shù)據(jù)相關(guān)信息,自動(dòng)給出一個(gè)預(yù)判的診斷類型,供審查人員參考。6.檢測(cè)報(bào)告。檢測(cè)系統(tǒng)自動(dòng)生成一個(gè)檢測(cè)報(bào)告單,詳細(xì)列出檢測(cè)文獻(xiàn)的學(xué)術(shù)不端行為檢測(cè)情況,用戶可以對(duì)該報(bào)告單進(jìn)行修改,生成終審報(bào)告。注意:系統(tǒng)只對(duì)疑似存在學(xué)術(shù)不端行為的論文生成檢測(cè)報(bào)告。檢測(cè)原理及方法支撐技術(shù)檢測(cè)指標(biāo)體系支撐資源檢測(cè)原理及方法支撐技術(shù)CNKI擁有強(qiáng)大的技術(shù)研發(fā)隊(duì)伍,目前已經(jīng)擁有了具有國(guó)際或國(guó)內(nèi)領(lǐng)先水準(zhǔn)的全面的數(shù)字出版的相關(guān)技術(shù),包括資源采集技術(shù),文本數(shù)據(jù)庫(kù)加工技術(shù),文本數(shù)據(jù)庫(kù)技術(shù),數(shù)字資源版權(quán)保護(hù)技術(shù),知識(shí)挖掘技術(shù),自然語言處理技術(shù)、快速比對(duì)技術(shù)等。在海量的全文數(shù)據(jù)的基礎(chǔ)上實(shí)現(xiàn)快速準(zhǔn)確的檢測(cè),上述技術(shù)是基本的保證。支撐資源TMLC需要一個(gè)盡可能完備的全文數(shù)據(jù)比對(duì)資源庫(kù),而CNKI的《中國(guó)學(xué)術(shù)文獻(xiàn)絡(luò)出版總庫(kù)》則正好滿足這一要求。到目前為止,CNKI擁有學(xué)術(shù)期刊7000余種,期刊全文文獻(xiàn)2480萬篇,期刊期數(shù)和文獻(xiàn)收錄完整率都大于99.9%,文獻(xiàn)量居國(guó)際國(guó)內(nèi)同類產(chǎn)品之首;出版503家碩士學(xué)位點(diǎn)的72萬篇優(yōu)秀碩士學(xué)位論文,368家博士學(xué)位點(diǎn)的9.6萬篇博士學(xué)位論文;1286家重要會(huì)議論文106萬篇;515家重要報(bào)紙500多萬篇;1376種重要年鑒787萬篇;600多種工具書220多萬條;學(xué)術(shù)引文索引數(shù)據(jù)600多萬條;這些出版物做到平均日更新條記錄;國(guó)家標(biāo)準(zhǔn)、專利、SPRINGER數(shù)據(jù)庫(kù)也集成到CNKI絡(luò)出版平臺(tái)中;另外,出版平臺(tái)還集成整合出版了各類第三方數(shù)據(jù)庫(kù)資源1020種。在收錄資源種類上,CNKI在國(guó)內(nèi)具有明顯優(yōu)勢(shì),收錄了期刊、學(xué)位論文、會(huì)議論文、報(bào)紙、年鑒、工具書、專利、外文文獻(xiàn)、學(xué)術(shù)文獻(xiàn)引文等與科學(xué)研究、學(xué)習(xí)相關(guān)的主要資源。在資源收錄數(shù)量上,CNKI明顯優(yōu)于同類產(chǎn)品,各個(gè)資源庫(kù)收錄年限長(zhǎng),期刊等主要資源庫(kù)回溯到創(chuàng)刊。在資源更新速度上,CNKI產(chǎn)品除了第三方合作的外文文獻(xiàn)以外,其他資源都做到了日更新,單日更新數(shù)量大,這是推行產(chǎn)業(yè)化、標(biāo)準(zhǔn)化運(yùn)作的結(jié)果。檢測(cè)指標(biāo)體系學(xué)術(shù)不端行為檢測(cè)系統(tǒng)學(xué)術(shù)不端行為檢測(cè)系統(tǒng)采用的指標(biāo)體系分為兩個(gè)部分:3.1總檢測(cè)指標(biāo)學(xué)位論文一般文獻(xiàn)篇幅較大,字?jǐn)?shù)多,碩士論文一般為3~5萬字,博士論文則多達(dá)十多萬字。因此,為了讓用戶對(duì)整個(gè)學(xué)位論文有一個(gè)快速的概況了解,檢測(cè)指標(biāo)體系特制定了以下指標(biāo)體系:l總重合字?jǐn)?shù)(CCA)l總文字復(fù)制比(TTR)l總文字?jǐn)?shù)(TCA)l疑似章節(jié)數(shù)(QCA)l總章節(jié)數(shù)(TCA)l首部重合文字?jǐn)?shù)(HCCA)l尾部重合文字?jǐn)?shù)(ECCA)上述指標(biāo)從整體情況描述了論文的檢測(cè)情況,便于用戶快速了解該論文總的檢測(cè)概況。下面對(duì)上述指標(biāo)分別進(jìn)行說明。檢測(cè)指標(biāo)體系3.1.1總重合字?jǐn)?shù)(CCA)學(xué)位論文一般篇幅大,少則3~5萬字,多則十多萬字,若以文字復(fù)制比來衡量一篇論文的文字重合情況,則不太合適。因?yàn)閷?duì)于一篇十幾萬字的博士論文來說,10%就已達(dá)到1萬字,文字復(fù)制情況已經(jīng)非常嚴(yán)重。因此,對(duì)于博碩士論文檢測(cè),檢測(cè)系統(tǒng)使用絕對(duì)字?jǐn)?shù)即總重合字?jǐn)?shù)作為檢測(cè)結(jié)果的核心指標(biāo)。如圖6所示:3.1.2總文字復(fù)制比(TTR)總文字復(fù)制比則是指學(xué)位論文中總的重合字?jǐn)?shù)在總的論文字?jǐn)?shù)中所占的比例。通過該指標(biāo),我們可以直觀了解到重合字?jǐn)?shù)在該檢測(cè)學(xué)位論文中所占的比例情況。3.1.3總文字?jǐn)?shù)(TCA)總文字?jǐn)?shù)是指該檢測(cè)論文所有包含的字?jǐn)?shù),文字復(fù)制比與總文字?jǐn)?shù)的乘積即為重合字?jǐn)?shù)。檢測(cè)指標(biāo)體系3.1.4疑似章節(jié)數(shù)(QCA)、總章節(jié)數(shù)(TCA)疑似章節(jié)數(shù)是則檢測(cè)論文疑似存在學(xué)術(shù)不端行為的章節(jié)的數(shù)量??傉鹿?jié)數(shù)則是指學(xué)位論文總的章節(jié)數(shù)(對(duì)于不按章節(jié)顯示,而是按照固定長(zhǎng)度切分的論文,每一段落為一章節(jié))。3.1.5首部重合文字?jǐn)?shù)(HCCA)、尾部重合文字?jǐn)?shù)(ECCA)首部重合文字?jǐn)?shù)指學(xué)位論文前1萬字中重合的文字?jǐn)?shù)量。尾部重合文字?jǐn)?shù)是指除去前1萬字,剩下的部分中重合的文字?jǐn)?shù)量。對(duì)于學(xué)位論文,一般開頭部分均是綜述性的報(bào)告介紹,其重要性遠(yuǎn)低于論文尾部。檢測(cè)指標(biāo)體系3.2子檢測(cè)指標(biāo)對(duì)于學(xué)位論文的每一章節(jié),又制定了如下檢測(cè)指標(biāo)來反映該章節(jié)的檢測(cè)情況,對(duì)于一篇學(xué)位論文來說,每一章的內(nèi)容各異,重點(diǎn)也不一樣,其核心工作內(nèi)容一般主要存在某幾章中,子檢測(cè)指標(biāo)可以讓用戶迅速了解每一章節(jié)的檢測(cè)情況。檢測(cè)指標(biāo)體系子檢測(cè)指標(biāo)包括:l文字復(fù)制比(TR)l重合字?jǐn)?shù)(CNW)l最大段長(zhǎng)(LPL)l平均段長(zhǎng)(APL)l段落數(shù)(PN)l段文字比(PR)l首部復(fù)制比(HR)l尾部復(fù)制比(ER)l引用復(fù)制比(RR)上述指標(biāo)從多個(gè)角度反映了檢測(cè)文獻(xiàn)的檢測(cè)情況,便于用戶進(jìn)行針對(duì)性審核。下面對(duì)各項(xiàng)指標(biāo)分別進(jìn)行說明。3.2.1文字復(fù)制比(TR)因?yàn)閷W(xué)位論文一般文字量較多,為了便于用戶快速瀏覽檢測(cè)結(jié)果。系統(tǒng)會(huì)自動(dòng)對(duì)學(xué)位論文進(jìn)行切分處理。有如下兩種處理方式:1.若用戶提交的論文是MSWord格式,且按照MSWord格式生成了文檔目錄,檢測(cè)系統(tǒng)會(huì)自動(dòng)識(shí)別論文章節(jié),按論文實(shí)際章節(jié)信息顯示論文內(nèi)容。檢測(cè)指標(biāo)體系2.若學(xué)位論文不存在明顯的章節(jié)信息,或者不是MSWord格式論文,則系統(tǒng)會(huì)自動(dòng)按照每段1萬余字符切分學(xué)位論文,按照切分后的結(jié)果顯示。文字復(fù)制比即指論文切分后每一章節(jié)段落的文字復(fù)制情況。文字復(fù)制比即指學(xué)位論文的某一章節(jié)與比對(duì)文獻(xiàn)比較后,重合文字部分在該章節(jié)中所占的比例。比例越高,反映該章節(jié)越多的文字來自于其他已發(fā)表文獻(xiàn)。文字復(fù)制比反映了文章“抄襲”的文字?jǐn)?shù)量比例,一般來說,文字復(fù)制比越高,存在學(xué)術(shù)不端行為的可能性越大。文字復(fù)制比情況如圖7所示。3.2.2重合字?jǐn)?shù)(CNW)重合字?jǐn)?shù)指學(xué)位論文該章節(jié)與比對(duì)文獻(xiàn)比較后,重合部分的字?jǐn)?shù)。一般來說,不管文字復(fù)制比如何,重合字?jǐn)?shù)越多,存在學(xué)術(shù)不端行為的可能性越大。如圖8所示,在圖中,雖然文字復(fù)制比只有16%,比例不高,但圖中左文標(biāo)紅部分實(shí)際上是抄襲了右文的標(biāo)紅部分。檢測(cè)指標(biāo)體系3.2.3最大段長(zhǎng)(LPL)、平均段長(zhǎng)(APL)、段落數(shù)(PN)在學(xué)位論文檢測(cè)中,當(dāng)連續(xù)文字超過一定比例時(shí),稱之為段。在本系統(tǒng)中,一般認(rèn)為,連續(xù)200以上文字稱為段。與比對(duì)文獻(xiàn)重合的最大段長(zhǎng)度即為最大段長(zhǎng)。最大段長(zhǎng)反映成段抄襲特征。連續(xù)的文字越長(zhǎng),抄襲的可能性越大。在學(xué)位論文中,所有段的長(zhǎng)度的平均值即為平均段長(zhǎng)。在學(xué)位論文中,所有段的數(shù)量為段落數(shù)。平均段長(zhǎng)和段落數(shù)反映了重合文字在學(xué)位論文中的分布情況,一般來說,指標(biāo)參數(shù)越高,存在學(xué)術(shù)不端行為的可能性越大。檢測(cè)指標(biāo)體系如圖9所示,標(biāo)紅部分的連續(xù)文字構(gòu)成了段,而且它是算法設(shè)計(jì)的抄襲,審查人員比較容易判斷;而在圖10中,標(biāo)紅文字不構(gòu)成段,連續(xù)文字較少,對(duì)它的性質(zhì)判斷則可能需要更多的信息。3.2.4段文字比(PR)在學(xué)位論文的某一章節(jié)中,所有該章節(jié)文字重合段的字?jǐn)?shù)之和占該章節(jié)文字?jǐn)?shù)的比例為段文字比。段文字比反映了抄襲連續(xù)特征。一般來說,連續(xù)文字出現(xiàn)的越多,比文字分散出現(xiàn)的情況更可能存在學(xué)術(shù)不端行為。3.2.5首部復(fù)制比(HR)學(xué)位論文某一章節(jié)的前20%稱之為章節(jié)首部,首部的文字復(fù)制比為首部復(fù)制比。就中文文獻(xiàn)來說,一般每一章節(jié)正文開頭部分出現(xiàn)的是綜述性語言,重要性相對(duì)偏低。如圖11所示,左文和右文開頭大段相同,但文字內(nèi)容基本都是綜述性的介紹。檢測(cè)指標(biāo)體系3.2.6尾部復(fù)制比(ER)每一章節(jié)的后80%稱之為章節(jié)尾部,尾部的文字復(fù)制比為尾部復(fù)制比。通常情況下,尾部文字內(nèi)容就重要性來說,比前部文字內(nèi)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論