標準解讀

《GB/T 20532-2006 信息處理用現(xiàn)代漢語詞類標記規(guī)范》是一項由中國國家標準局發(fā)布的技術標準,旨在為自然語言處理、信息檢索、機器翻譯等領域的計算機信息系統(tǒng)提供一套統(tǒng)一的現(xiàn)代漢語詞匯分類及標記方法。該標準詳細定義了現(xiàn)代漢語中各類詞的類別和相應的標記符號,以便于計算機程序能夠準確理解和處理中文文本數(shù)據(jù)。以下是該標準的主要內容概述:

  1. 范圍:標準明確了其適用范圍,即針對信息處理領域中的現(xiàn)代漢語詞匯進行分類和標記,不涉及古漢語或其他漢語變體。

  2. 術語和定義:首先對基本術語如“詞類”、“標記”等進行了界定,為后續(xù)內容奠定基礎。

  3. 詞類劃分原則:標準基于現(xiàn)代漢語語法特點,將詞匯分為實詞和虛詞兩大類,并進一步細分為若干小類。實詞包括名詞、動詞、形容詞、數(shù)詞、量詞、代詞、區(qū)別詞、副詞、嘆詞;虛詞則涵蓋介詞、連詞、助詞、語氣詞。每一類別都有明確的定義和特征描述。

  4. 詞類標記符號:為每個詞類分配了一個或多個簡短的字母標記,例如名詞用“n”表示,動詞用“v”,形容詞用“a”等。這些標記簡潔明了,便于計算機程序識別和處理。

  5. 特殊詞和未登錄詞處理:標準還涉及了特殊詞匯(如專名、成語)和未在詞庫中登錄的新詞、外來詞的處理規(guī)則,確保信息處理系統(tǒng)的靈活性和適應性。

  6. 標記規(guī)則與示例:提供了詳細的標記規(guī)則說明,并通過具體實例演示如何將文本中的詞語正確歸類并標注。這有助于開發(fā)者和研究人員準確執(zhí)行標準,保持數(shù)據(jù)處理的一致性。

  7. 附錄:可能包含一些補充信息或參考詞匯表,以幫助使用者更好地理解和應用標準中的規(guī)定。


如需獲取更多詳盡信息,請直接參考下方經(jīng)官方授權發(fā)布的權威標準文檔。

....

查看全部

  • 現(xiàn)行
  • 正在執(zhí)行有效
  • 2006-09-18 頒布
  • 2007-03-01 實施
?正版授權
GB/T 20532-2006信息處理用現(xiàn)代漢語詞類標記規(guī)范_第1頁
GB/T 20532-2006信息處理用現(xiàn)代漢語詞類標記規(guī)范_第2頁
GB/T 20532-2006信息處理用現(xiàn)代漢語詞類標記規(guī)范_第3頁
GB/T 20532-2006信息處理用現(xiàn)代漢語詞類標記規(guī)范_第4頁
免費預覽已結束,剩余8頁可下載查看

下載本文檔

免費下載試讀頁

文檔簡介

ICS01.040.01A22中華人民共和國國家標準GB/T20532—2006信息處理用現(xiàn)代漢語詞類標記規(guī)范StandardofPOStagofcontemporaryChineseforCiP2006-09-18發(fā)布2007-03-01實施中華人民共和國國家質量監(jiān)督檢驗檢疫總局發(fā)布中國國家標準化管理委員會

GB/T20532—2006三次前言:::·范圍2術語和定義3總則4詞類及其他切分單位分類5詞類及其他切分單位標記代碼表

GB/T20532—2006前本標準由教育部語言文字信息管理司提出本標準由教育部語言文字信息管理司歸口。本標準起草單位:教育部語言文字應用研究所。本標準主要起草人:靳光璜、肖航、郭曙倫、富麗、章云帆、于桂英、陳玉泉、王立.

GB/T20532-2006信息處理用現(xiàn)代漢語詞類標記規(guī)范范范圍本標準規(guī)定了信息處理中現(xiàn)代漢語詞類及其他切分單位的標記代碼本標準適用于漢語信息處理.也可供現(xiàn)代漢語教學與研究參考。術語和定義下列術語和定義適用于本標準漢語信息處理Chineseinformationprocessing;CIP用計算機對漢語形、音、義等信息進行輸入、排序、存儲、輸出、統(tǒng)計、提取等。2.2切分單位Segmentunit漢語信息處理使用的、具有確定語法功能的基本單位。它包括本標準的規(guī)則所限定的詞、短語及其地單位。2.3詞類spartsorspeech:POS詞的語法分類,主要是根據(jù)語法功能劃分出來的類2.4標記t對文本中切分單位的類別進行標注的代碼3總則3.1切切分單位的范圍本標準的切分單位包括詞、短語和其他切分單位,如習用語、縮略語、前接成分、后接成分、語素字非語素字、標點符號、非漢字符號等3.2詞類劃分的原則本標準的詞類分類體系參考了呂叔湘、朱德熙、胡裕樹等先生的語法體系和《中學教學語法系統(tǒng)提本標準根據(jù)漢語信息處理的特點和要求.主要依據(jù)語法功能原則劃分詞類。3.3標記代碼的制定原則依據(jù)國際通常做法,標記代碼主要采用英文術語的字母。例如.名詞”.采用英文術語"noun2的首字母"n”作為標記代碼;“數(shù)詞”,采用英文術語"numeral”的第三個字母"m”作為標記代碼。漢語獨有的,或使用英文術語字母不便的,依據(jù)國內通常做法,標記代碼采用漢語拼音字母。如“縮略語".采用漢字“簡“漢語拼音的首字母“作為標記代碼:語素字”.采用漢字“根“漢語拼音的首字母“g”作為標記代碼。詞類及其他切分單位分類本標準

溫馨提示

  • 1. 本站所提供的標準文本僅供個人學習、研究之用,未經(jīng)授權,嚴禁復制、發(fā)行、匯編、翻譯或網(wǎng)絡傳播等,侵權必究。
  • 2. 本站所提供的標準均為PDF格式電子版文本(可閱讀打?。?,因數(shù)字商品的特殊性,一經(jīng)售出,不提供退換貨服務。
  • 3. 標準文檔要求電子版與印刷版保持一致,所以下載的文檔中可能包含空白頁,非文檔質量問題。

評論

0/150

提交評論