學(xué)術(shù)不端行為檢測(cè)系統(tǒng)

上傳人：文*** IP屬地：廣東上傳時(shí)間：2023-08-31 格式：PPTX 頁數(shù)：27 大?。?.76MB 積分：11.88 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩22頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

應(yīng)用軟件系統(tǒng)學(xué)術(shù)不端行為檢測(cè)系統(tǒng)內(nèi)容摘要如圖1所示，TMLC是一個(gè)強(qiáng)大的學(xué)位論文學(xué)術(shù)不端行為檢測(cè)系統(tǒng)，它以《中國(guó)學(xué)術(shù)文獻(xiàn)絡(luò)出版總庫(kù)》為全文比對(duì)數(shù)據(jù)庫(kù)，能夠迅速發(fā)現(xiàn)抄襲、剽竊、偽造、篡改等學(xué)術(shù)不端行為。這個(gè)系統(tǒng)可以用來檢測(cè)學(xué)位論文，并且支持用戶自定義比對(duì)庫(kù)，使得檢測(cè)更加靈活和全面。通過使用TMLC，我們可以更加深入地理解學(xué)術(shù)不端行為的本質(zhì)，并且能夠更加有效地防止學(xué)術(shù)不端行為的發(fā)生。這對(duì)于維護(hù)學(xué)術(shù)誠(chéng)信、提高學(xué)術(shù)水平具有深遠(yuǎn)的意義。TMLC也使得學(xué)術(shù)研究更加透明和公正，為學(xué)術(shù)界的健康發(fā)展提供了有力的支持。在系統(tǒng)中，抄襲與剽竊、偽造、篡改等學(xué)術(shù)不端行為都能夠被快速檢測(cè)出來。這得益于TMLC強(qiáng)大的比對(duì)功能和高效的數(shù)據(jù)處理能力。通過對(duì)論文的文本進(jìn)行逐字比對(duì)，系統(tǒng)可以迅速找出與數(shù)據(jù)庫(kù)中已有文獻(xiàn)相似或相同的內(nèi)容，從而判斷是否存在抄襲或剽竊行為。同時(shí)，系統(tǒng)還能夠檢測(cè)出偽造和篡改等行為，確保學(xué)術(shù)研究的真實(shí)性和可信度。內(nèi)容摘要除了檢測(cè)功能，TMLC還支持用戶自建比對(duì)庫(kù)。這使得用戶可以根據(jù)自己的需求，將特定領(lǐng)域的論文或文獻(xiàn)導(dǎo)入系統(tǒng)，進(jìn)行更加細(xì)致的比對(duì)分析。這種自定義比對(duì)庫(kù)的方式，不僅能夠提高檢測(cè)的準(zhǔn)確性和針對(duì)性，還能夠?yàn)橛脩籼峁└屿`活和個(gè)性化的服務(wù)?？偟膩碚f，TMLC作為一個(gè)高效的學(xué)位論文學(xué)術(shù)不端行為檢測(cè)系統(tǒng)，為學(xué)術(shù)誠(chéng)信建設(shè)提供了有力的工具和支持。通過對(duì)比對(duì)數(shù)據(jù)庫(kù)的全面覆蓋和對(duì)學(xué)術(shù)不端行為的快速檢測(cè)，TMLC為維護(hù)學(xué)術(shù)界的公正和權(quán)威做出了重要的貢獻(xiàn)。TMLC也為我們提供了一個(gè)深入理解學(xué)術(shù)不端行為的機(jī)會(huì)，提醒我們?cè)趯W(xué)術(shù)研究中保持誠(chéng)信、遵循規(guī)范，不斷提高自身的學(xué)術(shù)素養(yǎng)和道德水平。01系統(tǒng)簡(jiǎn)介檢測(cè)原理及方法目錄02系統(tǒng)簡(jiǎn)介系統(tǒng)技術(shù)路線介紹系統(tǒng)功能概述系統(tǒng)目的檢測(cè)結(jié)果系統(tǒng)簡(jiǎn)介系統(tǒng)技術(shù)路線介紹TMLC采用CNKI自主研發(fā)的自適應(yīng)多階指紋（AMLFP）特征檢測(cè)技術(shù)，具有檢測(cè)速度快，準(zhǔn)確率，召回率較高，抗干擾性強(qiáng)等特征。支持篇章、段落、句子各層級(jí)檢測(cè)；支持文獻(xiàn)改寫，多篇文獻(xiàn)組合等各種文獻(xiàn)變形檢測(cè)；支持研究生學(xué)位論文、圖書專著等超長(zhǎng)文獻(xiàn)的學(xué)術(shù)不端檢測(cè)。CNKI自適應(yīng)多階指紋技術(shù)原理如圖2所示：對(duì)任意一篇需要檢測(cè)的文獻(xiàn)，系統(tǒng)首先對(duì)其進(jìn)行分層處理，按照篇章、段落、句子等層級(jí)分別創(chuàng)建指紋，而比對(duì)資源庫(kù)中的比對(duì)文獻(xiàn)，也采取同樣技術(shù)創(chuàng)建指紋索引。系統(tǒng)技術(shù)路線介紹這樣的分層多階指紋結(jié)構(gòu)，不僅可以滿足我們對(duì)超長(zhǎng)文獻(xiàn)的快速檢測(cè)，而且，因?yàn)槲覀兊淖钚≈讣y粒度為句子，因此，也滿足了系統(tǒng)對(duì)檢準(zhǔn)率和檢全率的高要求。原則上，只要檢測(cè)文獻(xiàn)與比對(duì)文獻(xiàn)存在一個(gè)相同的句子，就能被論文檢測(cè)系統(tǒng)發(fā)現(xiàn)。系統(tǒng)功能概述系統(tǒng)主要功能包括：已發(fā)表文獻(xiàn)檢測(cè)、論文檢測(cè)、問題庫(kù)查詢、自建比對(duì)庫(kù)管理等。◆已發(fā)表文獻(xiàn)檢測(cè)：指檢測(cè)系統(tǒng)能夠自動(dòng)將屬于用戶的已正式發(fā)表的學(xué)位論文檢索出來，并對(duì)每一篇已發(fā)表文獻(xiàn)進(jìn)行實(shí)時(shí)檢測(cè)，快速給出檢測(cè)結(jié)果。◆論文檢測(cè)：主要實(shí)現(xiàn)論文實(shí)時(shí)在線檢測(cè)功能。◆問題庫(kù)查詢：指用戶可以將檢測(cè)結(jié)果中確認(rèn)有問題的文獻(xiàn)放入到問題庫(kù)，便于用戶集中管理?！糇越ū葘?duì)庫(kù)：指管理人員可以選擇將檢測(cè)文獻(xiàn)放入個(gè)人比對(duì)庫(kù)或者批量上傳文獻(xiàn)作為個(gè)人比對(duì)庫(kù)，該個(gè)人比對(duì)庫(kù)即可作為以后學(xué)術(shù)不端文獻(xiàn)檢測(cè)的比對(duì)數(shù)據(jù)庫(kù)，該自建個(gè)人比對(duì)庫(kù)完全屬于用戶，其他用戶無權(quán)使用。系統(tǒng)目的TMLC的目的是輔助各研究生培養(yǎng)單位對(duì)學(xué)位論文質(zhì)量進(jìn)行評(píng)估，為審查論文提供技術(shù)服務(wù)。檢測(cè)系統(tǒng)在對(duì)論文進(jìn)行檢測(cè)之后，生成檢測(cè)報(bào)告，為判斷論文性質(zhì)提供相關(guān)依據(jù)。檢測(cè)結(jié)果在對(duì)用戶提交的檢測(cè)文獻(xiàn)檢測(cè)之后，系統(tǒng)生成的檢測(cè)結(jié)果包括：1．重合文字來源文獻(xiàn)信息。系統(tǒng)詳細(xì)列出重合文字來源文獻(xiàn)信息，這些文獻(xiàn)都是真實(shí)存在，而且應(yīng)是公開發(fā)表或得到發(fā)表確認(rèn)的。2．比對(duì)信息。檢測(cè)文獻(xiàn)和來源文獻(xiàn)的詳細(xì)比對(duì)信息，用戶可以快速選擇重合文字部分查閱。3．總檢測(cè)指標(biāo)。該指標(biāo)體系從多個(gè)角度對(duì)檢測(cè)文獻(xiàn)中的文字復(fù)制情況進(jìn)行了概括性描述。4．子檢測(cè)指標(biāo)。檢測(cè)結(jié)果因?yàn)閷W(xué)位論文一般較長(zhǎng)，因此，系統(tǒng)一般按章檢索，并且每一章給出子檢測(cè)指標(biāo)，該檢測(cè)指標(biāo)從多個(gè)角度對(duì)該章內(nèi)容的檢測(cè)情況進(jìn)行了詳細(xì)描述。5．診斷類型。系統(tǒng)根據(jù)指標(biāo)參數(shù)以及其他元數(shù)據(jù)相關(guān)信息，自動(dòng)給出一個(gè)預(yù)判的診斷類型，供審查人員參考。6．檢測(cè)報(bào)告。檢測(cè)系統(tǒng)自動(dòng)生成一個(gè)檢測(cè)報(bào)告單，詳細(xì)列出檢測(cè)文獻(xiàn)的學(xué)術(shù)不端行為檢測(cè)情況，用戶可以對(duì)該報(bào)告單進(jìn)行修改，生成終審報(bào)告。注意：系統(tǒng)只對(duì)疑似存在學(xué)術(shù)不端行為的論文生成檢測(cè)報(bào)告。檢測(cè)原理及方法支撐技術(shù)檢測(cè)指標(biāo)體系支撐資源檢測(cè)原理及方法支撐技術(shù)CNKI擁有強(qiáng)大的技術(shù)研發(fā)隊(duì)伍，目前已經(jīng)擁有了具有國(guó)際或國(guó)內(nèi)領(lǐng)先水準(zhǔn)的全面的數(shù)字出版的相關(guān)技術(shù)，包括資源采集技術(shù)，文本數(shù)據(jù)庫(kù)加工技術(shù)，文本數(shù)據(jù)庫(kù)技術(shù),數(shù)字資源版權(quán)保護(hù)技術(shù),知識(shí)挖掘技術(shù),自然語言處理技術(shù)、快速比對(duì)技術(shù)等。在海量的全文數(shù)據(jù)的基礎(chǔ)上實(shí)現(xiàn)快速準(zhǔn)確的檢測(cè)，上述技術(shù)是基本的保證。支撐資源TMLC需要一個(gè)盡可能完備的全文數(shù)據(jù)比對(duì)資源庫(kù)，而CNKI的《中國(guó)學(xué)術(shù)文獻(xiàn)絡(luò)出版總庫(kù)》則正好滿足這一要求。到目前為止，CNKI擁有學(xué)術(shù)期刊7000余種，期刊全文文獻(xiàn)2480萬篇，期刊期數(shù)和文獻(xiàn)收錄完整率都大于99.9%，文獻(xiàn)量居國(guó)際國(guó)內(nèi)同類產(chǎn)品之首；出版503家碩士學(xué)位點(diǎn)的72萬篇優(yōu)秀碩士學(xué)位論文，368家博士學(xué)位點(diǎn)的9.6萬篇博士學(xué)位論文；1286家重要會(huì)議論文106萬篇；515家重要報(bào)紙500多萬篇；1376種重要年鑒787萬篇；600多種工具書220多萬條；學(xué)術(shù)引文索引數(shù)據(jù)600多萬條；這些出版物做到平均日更新條記錄；國(guó)家標(biāo)準(zhǔn)、專利、SPRINGER數(shù)據(jù)庫(kù)也集成到CNKI絡(luò)出版平臺(tái)中；另外，出版平臺(tái)還集成整合出版了各類第三方數(shù)據(jù)庫(kù)資源1020種。在收錄資源種類上，CNKI在國(guó)內(nèi)具有明顯優(yōu)勢(shì)，收錄了期刊、學(xué)位論文、會(huì)議論文、報(bào)紙、年鑒、工具書、專利、外文文獻(xiàn)、學(xué)術(shù)文獻(xiàn)引文等與科學(xué)研究、學(xué)習(xí)相關(guān)的主要資源。在資源收錄數(shù)量上，CNKI明顯優(yōu)于同類產(chǎn)品，各個(gè)資源庫(kù)收錄年限長(zhǎng)，期刊等主要資源庫(kù)回溯到創(chuàng)刊。在資源更新速度上，CNKI產(chǎn)品除了第三方合作的外文文獻(xiàn)以外，其他資源都做到了日更新，單日更新數(shù)量大，這是推行產(chǎn)業(yè)化、標(biāo)準(zhǔn)化運(yùn)作的結(jié)果。檢測(cè)指標(biāo)體系學(xué)術(shù)不端行為檢測(cè)系統(tǒng)學(xué)術(shù)不端行為檢測(cè)系統(tǒng)采用的指標(biāo)體系分為兩個(gè)部分：3.1總檢測(cè)指標(biāo)學(xué)位論文一般文獻(xiàn)篇幅較大，字?jǐn)?shù)多，碩士論文一般為3~5萬字，博士論文則多達(dá)十多萬字。因此，為了讓用戶對(duì)整個(gè)學(xué)位論文有一個(gè)快速的概況了解，檢測(cè)指標(biāo)體系特制定了以下指標(biāo)體系：l總重合字?jǐn)?shù)（CCA）l總文字復(fù)制比（TTR）l總文字?jǐn)?shù)（TCA）l疑似章節(jié)數(shù)（QCA）l總章節(jié)數(shù)（TCA）l首部重合文字?jǐn)?shù)（HCCA）l尾部重合文字?jǐn)?shù)（ECCA）上述指標(biāo)從整體情況描述了論文的檢測(cè)情況，便于用戶快速了解該論文總的檢測(cè)概況。下面對(duì)上述指標(biāo)分別進(jìn)行說明。檢測(cè)指標(biāo)體系3.1.1總重合字?jǐn)?shù)（CCA）學(xué)位論文一般篇幅大，少則3~5萬字，多則十多萬字，若以文字復(fù)制比來衡量一篇論文的文字重合情況，則不太合適。因?yàn)閷?duì)于一篇十幾萬字的博士論文來說，10%就已達(dá)到1萬字，文字復(fù)制情況已經(jīng)非常嚴(yán)重。因此，對(duì)于博碩士論文檢測(cè)，檢測(cè)系統(tǒng)使用絕對(duì)字?jǐn)?shù)即總重合字?jǐn)?shù)作為檢測(cè)結(jié)果的核心指標(biāo)。如圖6所示：3.1.2總文字復(fù)制比（TTR）總文字復(fù)制比則是指學(xué)位論文中總的重合字?jǐn)?shù)在總的論文字?jǐn)?shù)中所占的比例。通過該指標(biāo)，我們可以直觀了解到重合字?jǐn)?shù)在該檢測(cè)學(xué)位論文中所占的比例情況。3.1.3總文字?jǐn)?shù)（TCA）總文字?jǐn)?shù)是指該檢測(cè)論文所有包含的字?jǐn)?shù)，文字復(fù)制比與總文字?jǐn)?shù)的乘積即為重合字?jǐn)?shù)。檢測(cè)指標(biāo)體系3.1.4疑似章節(jié)數(shù)（QCA）、總章節(jié)數(shù)（TCA）疑似章節(jié)數(shù)是則檢測(cè)論文疑似存在學(xué)術(shù)不端行為的章節(jié)的數(shù)量?？傉鹿?jié)數(shù)則是指學(xué)位論文總的章節(jié)數(shù)（對(duì)于不按章節(jié)顯示，而是按照固定長(zhǎng)度切分的論文，每一段落為一章節(jié)）。3.1.5首部重合文字?jǐn)?shù)（HCCA）、尾部重合文字?jǐn)?shù)（ECCA）首部重合文字?jǐn)?shù)指學(xué)位論文前1萬字中重合的文字?jǐn)?shù)量。尾部重合文字?jǐn)?shù)是指除去前1萬字，剩下的部分中重合的文字?jǐn)?shù)量。對(duì)于學(xué)位論文，一般開頭部分均是綜述性的報(bào)告介紹，其重要性遠(yuǎn)低于論文尾部。檢測(cè)指標(biāo)體系3.2子檢測(cè)指標(biāo)對(duì)于學(xué)位論文的每一章節(jié)，又制定了如下檢測(cè)指標(biāo)來反映該章節(jié)的檢測(cè)情況，對(duì)于一篇學(xué)位論文來說，每一章的內(nèi)容各異，重點(diǎn)也不一樣，其核心工作內(nèi)容一般主要存在某幾章中，子檢測(cè)指標(biāo)可以讓用戶迅速了解每一章節(jié)的檢測(cè)情況。檢測(cè)指標(biāo)體系子檢測(cè)指標(biāo)包括：l文字復(fù)制比（TR）l重合字?jǐn)?shù)（CNW）l最大段長(zhǎng)（LPL）l平均段長(zhǎng)（APL）l段落數(shù)（PN）l段文字比（PR）l首部復(fù)制比（HR）l尾部復(fù)制比（ER）l引用復(fù)制比（RR）上述指標(biāo)從多個(gè)角度反映了檢測(cè)文獻(xiàn)的檢測(cè)情況，便于用戶進(jìn)行針對(duì)性審核。下面對(duì)各項(xiàng)指標(biāo)分別進(jìn)行說明。3.2.1文字復(fù)制比（TR）因?yàn)閷W(xué)位論文一般文字量較多，為了便于用戶快速瀏覽檢測(cè)結(jié)果。系統(tǒng)會(huì)自動(dòng)對(duì)學(xué)位論文進(jìn)行切分處理。有如下兩種處理方式：1．若用戶提交的論文是MSWord格式，且按照MSWord格式生成了文檔目錄，檢測(cè)系統(tǒng)會(huì)自動(dòng)識(shí)別論文章節(jié)，按論文實(shí)際章節(jié)信息顯示論文內(nèi)容。檢測(cè)指標(biāo)體系2．若學(xué)位論文不存在明顯的章節(jié)信息，或者不是MSWord格式論文，則系統(tǒng)會(huì)自動(dòng)按照每段1萬余字符切分學(xué)位論文，按照切分后的結(jié)果顯示。文字復(fù)制比即指論文切分后每一章節(jié)段落的文字復(fù)制情況。文字復(fù)制比即指學(xué)位論文的某一章節(jié)與比對(duì)文獻(xiàn)比較后，重合文字部分在該章節(jié)中所占的比例。比例越高，反映該章節(jié)越多的文字來自于其他已發(fā)表文獻(xiàn)。文字復(fù)制比反映了文章“抄襲”的文字?jǐn)?shù)量比例，一般來說，文字復(fù)制比越高，存在學(xué)術(shù)不端行為的可能性越大。文字復(fù)制比情況如圖7所示。3.2.2重合字?jǐn)?shù)（CNW）重合字?jǐn)?shù)指學(xué)位論文該章節(jié)與比對(duì)文獻(xiàn)比較后，重合部分的字?jǐn)?shù)。一般來說，不管文字復(fù)制比如何，重合字?jǐn)?shù)越多，存在學(xué)術(shù)不端行為的可能性越大。如圖8所示，在圖中，雖然文字復(fù)制比只有16%，比例不高，但圖中左文標(biāo)紅部分實(shí)際上是抄襲了右文的標(biāo)紅部分。檢測(cè)指標(biāo)體系3.2.3最大段長(zhǎng)（LPL）、平均段長(zhǎng)（APL）、段落數(shù)（PN）在學(xué)位論文檢測(cè)中，當(dāng)連續(xù)文字超過一定比例時(shí)，稱之為段。在本系統(tǒng)中，一般認(rèn)為，連續(xù)200以上文字稱為段。與比對(duì)文獻(xiàn)重合的最大段長(zhǎng)度即為最大段長(zhǎng)。最大段長(zhǎng)反映成段抄襲特征。連續(xù)的文字越長(zhǎng)，抄襲的可能性越大。在學(xué)位論文中，所有段的長(zhǎng)度的平均值即為平均段長(zhǎng)。在學(xué)位論文中，所有段的數(shù)量為段落數(shù)。平均段長(zhǎng)和段落數(shù)反映了重合文字在學(xué)位論文中的分布情況，一般來說，指標(biāo)參數(shù)越高，存在學(xué)術(shù)不端行為的可能性越大。檢測(cè)指標(biāo)體系如圖9所示，標(biāo)紅部分的連續(xù)文字構(gòu)成了段，而且它是算法設(shè)計(jì)的抄襲，審查人員比較容易判斷；而在圖10中，標(biāo)紅文字不構(gòu)成段，連續(xù)文字較少，對(duì)它的性質(zhì)判斷則可能需要更多的信息。3.2.4段文字比（PR）在學(xué)位論文的某一章節(jié)中，所有該章節(jié)文字重合段的字?jǐn)?shù)之和占該章節(jié)文字?jǐn)?shù)的比例為段文字比。段文字比反映了抄襲連續(xù)特征。一般來說，連續(xù)文字出現(xiàn)的越多，比文字分散出現(xiàn)的情況更可能存在學(xué)術(shù)不端行為。3.2.5首部復(fù)制比（HR）學(xué)位論文某一章節(jié)的前20%稱之為章節(jié)首部，首部的文字復(fù)制比為首部復(fù)制比。就中文文獻(xiàn)來說，一般每一章節(jié)正文開頭部分出現(xiàn)的是綜述性語言，重要性相對(duì)偏低。如圖11所示，左文和右文開頭大段相同，但文字內(nèi)容基本都是綜述性的介紹。檢測(cè)指標(biāo)體系3.2.6尾部復(fù)制比（ER）每一章節(jié)的后80%稱之為章節(jié)尾部，尾部的文字復(fù)制比為尾部復(fù)制比。通常情況下，尾部文字內(nèi)容就重要性來說，比前部文字內(nèi)

人人文庫(kù)> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

學(xué)術(shù)不端行為檢測(cè)系統(tǒng)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

學(xué)術(shù)不端行為檢測(cè)系統(tǒng)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔