文本分類評測大綱-自然語言處理_第1頁
文本分類評測大綱-自然語言處理_第2頁
文本分類評測大綱-自然語言處理_第3頁
文本分類評測大綱-自然語言處理_第4頁
文本分類評測大綱-自然語言處理_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、文本分類評測大綱一、評測對象本次評測的對象是文本分類系統(tǒng)中的核心技術(shù)。二、評測內(nèi)容本次評測主要評測文本分類系統(tǒng)的準確率、召回率、F1值的宏平均以及分類器的綜合得分。三、評測方法1 .評測方式本次評測為現(xiàn)場測試,采取自動評測的方式進行。2 .評測步驟 在評測單位統(tǒng)一提供的評測環(huán)境上安裝被測系統(tǒng); 評測單位給出若干篇測試文章; 被測單位運行文本分類系統(tǒng),并將輸出的分類交給評測單位; 評測單位事后組織專家進行評測,并公布評測結(jié)果。3 .評測標準(1)分類標準本次評測的分類標準采用中國圖書館圖書分類法(第四版),具體 方案請參見附錄。此次評測規(guī)定對每個給定的測試文本最多產(chǎn)生兩個結(jié)果類別,結(jié)果按照 相關(guān)

2、性的大小,由大到小進行排列;準確率、召回率以及 F1值以及它們的宏 平均值僅針對于分類結(jié)果中的第一個結(jié)果。(2)量化指標 第j類的準確率(Pj):準確率是所有輸入系統(tǒng)進行分類處理的文本中與專家分類結(jié)果完全吻合的文本所占的比率,其數(shù)學(xué)公式表示如下:ljPj = 100% mj其中l(wèi)j為第j類分類正確的文本數(shù),而mj為分類系統(tǒng)實際分類為j的文 本數(shù)。 第j類的召回率(Rj):召回率是應(yīng)有文本中分類系統(tǒng)分類正確的文本所 占的比率,其數(shù)學(xué)公式表示如下:ljRj100%nj其中l(wèi)j為第j類分類正確的文本數(shù),而 nj為專家分類為j的文本數(shù) 第j類的F1值(F1j):也稱之為綜合分類率,其數(shù)學(xué)公式如下:F1

3、jPjRj 2PjRj其中Pj為第j類的準確率,Rj為第j類的召回率。宏平均準確率1 n MacroP = % Pjn j 1其中Pj為第j類的準確率,n為專家分類的總數(shù)。宏平均召回率.-1一MacroR 二一" Rjn j 1其中Rj為第j類的召回率,n為專家分類的總數(shù)。D宏平均F1值MacroP MacroR 2MacroF 1 = MacroP MacroR其中MacroP為宏平均準確率,MacroR為宏平均召回率分類器綜合得分(Score )專家分類分類器分類Score<A><A>1<A,X>0.75<X,A>0.5<X&

4、gt;0<X,Y>0<A,B><A,B>1<A,X>0.75<A>0.75<B,A>0.75<B,X>0.5<B>0.5<X,A>0.5<X,B>0.3<X,Y>0<X>0其中,A代表專家分類的第一個類,B代表專家分類的第二個類,X、Y 代表分類器產(chǎn)生的錯誤分類。n分類器的綜合得分Score =£ Scorej ,其中n為評試文件總數(shù) j i(3)其它文本分類的最終評判由宏平均 F1值以及分類器的綜合得分得出,準 確率、召回率等均為參考指標;

5、分類系統(tǒng)所用時間也作為參考指標。4.輸入輸出文件格式輸入輸出文件都以XML格式給出。(1)輸入文件格式<ATC type =文本分類文件列表”><doc id = 1 ">diU/file1.txt</doc><doc id = 2">diU/file2.txt</doc><doc id = 3">dir2/file3.txt</doc><doc id = "n”>dirm/filen.txt</doc></ATC>其中每個doc對應(yīng)一

6、篇文章。(2)輸出文件格式<ATC type =文本分類結(jié)果列表”><result id =<class id = 7">G 文化、科學(xué)、教育、體育 </class><class id = 2">R 醫(yī)藥、衛(wèi)生 </class></result><result id = 2"><class id = 7">TP自動化技術(shù)、計算技術(shù) </class></result><result id = n ”><class

7、id = r>X環(huán)境科學(xué)、勞動保護科學(xué)(安全科學(xué))</class></result></ATC>四、評測環(huán)境本次評測環(huán)境包括:操作系統(tǒng)為1GHz , 256M 內(nèi)存,40G IDE 硬盤。Windows2000 ,硬件配置不低于:P4附錄中國圖書館圖書分類法簡表A馬列主義、毛澤東思想TD礦業(yè)工程B哲學(xué)TE石油、天然氣工業(yè)C社會科學(xué)總論TF冶金工業(yè)D政治、法律TG金屬學(xué)、金屬工藝E軍事TH機械、儀表工2F經(jīng)濟TJ武器工業(yè)G文化、科學(xué)、教育、體育TK動力工業(yè)H語百、文字TL原子能技術(shù)I 乂字TM電工技術(shù)J藝術(shù)TN無線電電子學(xué)、電信技術(shù)K歷史、地理TP自動化技術(shù)、計算技術(shù)N自然科學(xué)總

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論