ICTPOS3.0漢語詞性標記集_第1頁
ICTPOS3.0漢語詞性標記集_第2頁
ICTPOS3.0漢語詞性標記集_第3頁
ICTPOS3.0漢語詞性標記集_第4頁
ICTPOS3.0漢語詞性標記集_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、ICTCLAS計算所漢語詞性標記集Versio n 3.0制訂人:劉群張華平張浩計算所漢語詞性標記集 10.說明11. 名詞(1個一類,7個二類,5個三類)22. 時間詞(1個一類,1個二類)23. 處所詞(1個一類)34. 方位詞(1個一類)35. 動詞(1個一類,9個二類)36. 形容詞(1個一類,4個二類)37. 區(qū)別詞(1個一類,2個二類)38. 狀態(tài)詞(1個一類)39. 代詞(1個一類,4個二類,6個三類)310. 數(shù)詞(1個一類,1個二類)411. 量詞(1個一類,2個二類)412. 副詞(1個一類)413. 介詞(1個一類,2個二類)414. 連詞(1個一類,1個二類)415.

2、助詞(1個一類,15個二類)416. 嘆詞(1個一類)417. 語氣詞(1個一類)518. 擬聲詞(1個一類)519. 前綴(1個一類)520. 后綴(1個一類)521. 字符串(1個一類,2個二類)522. 標點符號(1個一類,16個二類)50.說明計算所漢語詞性標記集(共計99個,22個一類,66個二類,11個三類)主要用于中國科學(xué)院計算技術(shù)研究所研制的漢語詞法分析器、句法分析器和漢英機器翻譯系統(tǒng)。本標記集主要參考了以下詞性標記集:1. 北大人民日報語料庫詞性標記集;2. 北大2002新版詞性標記集(草稿);3. 清華大學(xué)漢語樹庫詞性標記集;4. 教育部語用所詞性標記集(國家推薦標準草案2

3、002版);5. 美國賓州大學(xué)中文樹庫(Chi nesePe nn TreeBa nk)詞性標記集;由于計算所的漢語詞法分析器主要采用北大人民日報 語料庫進行參數(shù)訓(xùn)練,因此本漢語分詞系統(tǒng)詞性標記集主要以北大人民日報語料庫的詞性標記集為藍本,并參考了北大漢語語法信息詞典中給出的漢語詞的語法信息。本標記集在制定過程中主要考慮了以下幾方面的因素:1. 有助于提高漢語詞法分析器的切分和標注正確率;2. 有助于提高漢語句法分析器的正確率;3. 有助于漢英機器翻譯系統(tǒng)進行翻譯;4. 易于從北大人民日報語料庫詞性標記集進行轉(zhuǎn)換;5. 對于語法功能不同的詞,在不造成詞法分析和句法分析歧義區(qū)分困難的情況下, 盡

4、可能細分子類?;谝陨峡紤],我們在標注過程中盡量避免那些容易出錯的詞性標記,而采用那些不容易出錯、而對提高漢語詞法句法分析正確率有明顯作用的標記。例如,在動詞的子類中,我們參考了賓州大學(xué)中文樹庫的做法,把漢語動詞“是”和“有”分別做成單獨的標記,而沒 有采用“系動詞”的標記。因為同樣是“是”這個動詞,其句法功能很多,作“系動詞”只 是其中一種功能,而要區(qū)分這些功能是非常困難的,會導(dǎo)致詞法分析的正確率下降。在名詞子類中,我們區(qū)分了 “漢語人名”、“日語人名”和“翻譯人名”,這不僅僅是因為這三種人名要采用不同的參數(shù)進行訓(xùn)練與識別,而且在漢英機器翻譯中也要采用不同的分析算法進行翻譯。又如,我們把表示

5、時間的“數(shù)詞+年”(如“ 1995年”)合并成一個時間詞,而表示年頭的“數(shù)詞+'年”分別標注為“數(shù)詞”和“量詞”,這是因為我們通過實 驗發(fā)現(xiàn)這種區(qū)分在詞法分析階段通過統(tǒng)計方法可以達到較高的正確率,而且這種區(qū)分對于后續(xù)的句法分析和機器翻譯有非常重要的作用。對于某些詞類(助詞和標點符號),基本上是一個封閉集,而這些詞類中各個詞的語法 功能相差很大,在這種情況下,我們盡可能地細分其子類。另外,與其他詞性標記集類似, 在我們的標記體系中, 小類只是大類中一些有必要區(qū)分 的一些特例,但小類的劃分不滿足完備性。1. 名詞 (1個一類,7個二類,5個三類)名詞分為以下子類:n名詞nr人名nr1漢語姓

6、氏nr2漢語名字nrj日語人名nf音譯人名ns地名nsf音譯地名nt機構(gòu)團體名nz其它專名nl名詞性慣用語ng名詞性語素2. 時間詞(1個一類,1個二類)t時間詞tg時間詞性語素ICTCLAS漢語分詞系統(tǒng)Http:/3. 處所詞(1個一類)s處所詞4. 方位詞(1個一類)f方位詞5. 動詞(1個一類,9個二類)v動詞vd副動詞vn名動詞vshi動詞"是”vyou動詞"有”vf趨向動詞vx形式動詞vi不及物動詞(內(nèi)動詞)vl動詞性慣用語vg動詞性語素6. 形容詞(1個一類,4個二類)a形容詞ad副形詞an名形詞ag形容詞性語素al形容詞性慣用語7. 區(qū)別

7、詞(1個一類,2個二類)b區(qū)別詞bl區(qū)別詞性慣用語8. 狀態(tài)詞(1個一類)z狀態(tài)詞9. 代詞(1個一類,4個二類,6個三類)r代詞rr人稱代詞rz指示代詞rzt時間指示代詞rzs處所指示代詞rzv謂詞性指示代詞ry疑問代詞ryt時間疑問代詞rys處所疑問代詞ryv謂詞性疑問代詞rg代詞性語素10. 數(shù)詞(1個一類,1個二類)m數(shù)詞mq數(shù)量詞11. 量詞(1個一類,2個二類)q量詞qv動量詞qt時量詞12. 副詞(1個一類)d副詞13. 介詞(1個一類,2個二類)p介詞pba介詞"把” pbei介詞"被”14. 連詞(1個一類,1個二類)c連詞CC并列連詞15. 助詞(1個一

8、類,15個二類)u助詞uzhe 著ule 了 嘍uguo 過 udel的底ude2 地ude3 得usuo 所udeng等等等云云uyy 一樣一般似的般udh的話uls來講來說而言說來uzhi 之ulian連("連小學(xué)生都會”)16.嘆詞(1個一類)e嘆詞ICTCLAS漢語分詞系統(tǒng)17. 語氣詞(1個一類)y 語氣詞(delete yg)18. 擬聲詞(1個一類)o擬聲詞19. 前綴(1個一類)h前綴20. 后綴(1個一類)k后綴21. 字符串(1個一類,2個二類)x字符串xx非語素字XU網(wǎng)址URL22.標點符號(1個一類,16個二類)w標點球符號wkz左括號,全角:(【半角:( <wky右括號,全角:) 】> 半角:) >wyz左引號,全角:“ wyy右引號,全角:”'wj句號,全角:。ww問號,全角:?半角:?wt嘆號,全角:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論