![2023自然語言處理導論 2詞匯分析_第1頁](http://file4.renrendoc.com/view/08b34544e0447ad2ce428e053115443f/08b34544e0447ad2ce428e053115443f1.gif)
![2023自然語言處理導論 2詞匯分析_第2頁](http://file4.renrendoc.com/view/08b34544e0447ad2ce428e053115443f/08b34544e0447ad2ce428e053115443f2.gif)
![2023自然語言處理導論 2詞匯分析_第3頁](http://file4.renrendoc.com/view/08b34544e0447ad2ce428e053115443f/08b34544e0447ad2ce428e053115443f3.gif)
![2023自然語言處理導論 2詞匯分析_第4頁](http://file4.renrendoc.com/view/08b34544e0447ad2ce428e053115443f/08b34544e0447ad2ce428e053115443f4.gif)
![2023自然語言處理導論 2詞匯分析_第5頁](http://file4.renrendoc.com/view/08b34544e0447ad2ce428e053115443f/08b34544e0447ad2ce428e053115443f5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1第二章詞匯分析自然語言處理導論語言中的詞匯2.1詞語規(guī)范化2.2中文分詞2.3目錄Contents2詞性標注2.4語言中的詞匯2.1詞語規(guī)范化2.2中文分詞2.3目錄Contents3詞性標注2.42.1.1詞的形態(tài)學2.1.2詞的詞性2.1什么是詞?4詞(word)是形式和意義相結合的單位,也是語言中能夠獨立運用的最小單位。例如:英文單詞``cat''具有的語義是``貓'',讀音為``/k?t/''掌握一個詞匯意味著知道其讀音和語義自然語言處理算法中詞通常也是基本單元詞的處理也是自然語言處理中重要的底層任務,是句法分析、文本分類、語言模型等任務的基礎。2.1語言中的詞匯5詞(word)通常是由語素(Morpheme)構成。語素又稱詞素,是語言中意義的最小單元。語素與詞不同,語素不能夠獨立運用而詞可以。只包含一個語素的詞語稱為簡單詞(Simpleword)包含多個語素的詞稱為復雜詞(Complexword)
例如:“電燈”,包含“電”和“燈”兩個語素根據(jù)詞在語言中的用途的不同,詞還可以被劃分為實義詞和功能詞實義詞包含事物、行為、屬性和觀念等概念。功能詞則是指沒有清楚詞匯意義或與之有關的明顯概念的詞。2.1.1詞的形態(tài)學6雖然單詞的形式和意義之間的關系本質上是任意的,但是由于社會的約定俗成,詞的形式具有服從于某種規(guī)則的內在結構。研究單詞的內部結構和其構成方式的學科稱為形態(tài)學(Morphology),又稱構詞學。詞是由一個或多個語素構成,語素主要分成兩類:詞根(Lemma)和詞綴(Affix)。詞根也稱為原形或字典形,是指能在字典中查的到的語素,通常是一個詞最主要的語素。詞綴是其他附著在原形上的語素,幫助在原形基礎上衍生出新詞,包含前綴、中綴、后綴等。2.1.1詞的形態(tài)學7例如:
英語單詞unhappy中,happy為原形,-un為前綴
邦托克語單詞fumikas(是強壯的)中,fikas(強壯)為原形,-um-為中綴
俄語單詞barabanshchik(鼓手)中,baraban(鼓)為原形,-shchik為后綴
有些語言的單詞通常只包含一個或者兩個語素,但是有一些語言的單詞則包含多達十個以上的語素。漢語中每個單詞的語素都很少,也不會根據(jù)性、數(shù)、格、人稱等發(fā)生形態(tài)變化。2.1.1英語中常見詞形變換82.1.2詞的詞性9詞性(PartofSpeech,POS)也稱詞類,是根據(jù)詞在句子中扮演的語法角色以及與周圍詞的關系對詞的分類。例如:表示事物的名字(“鋼琴”),地點(“上?!保┩ǔ1粴w為名詞而表示動作(“踢”),狀態(tài)(“存在”)的詞被歸為動詞詞可以分為實義詞(ContentWords)和功能詞(FunctionWords)實義詞表達具體的意義。由于實義詞可以不斷地增加,因此這類詞又被稱作開類詞(Openclasswords)。實義詞主要包含名詞、動詞、形容詞等。功能詞則主要是為了滿足語法功能需求。由于功能詞相對比較穩(wěn)定,一個語言中通常很少增加新的功能詞,因此功能詞又被稱作閉類詞(CloseClassWords)2.1.2詞的詞性10名詞(Noun)是表示人、物、地點以及抽象概念的一類詞。例如:1)專有名詞:Shanghai(上海)NewYork(紐約)
2)類名詞:city(城市)bird(鳥)
3)集體名詞:family(家庭)army(軍隊)
4)物質名詞:water(水)light(光)
5)抽象名詞:music(音樂)honesty(誠實)2.1.2詞的詞性11動詞(Verb)是表示動作或狀態(tài)的一類詞,是英語中最復雜的一類詞。例如:1)Boysflykites.(男孩們放風箏)2)不及物動詞:Birdsfly.(鳥會飛)3)連系動詞:Therosesmellssweet.(玫瑰花香)4)助動詞:Imayhavemeethimbefore.(我以前應該見過他)5)限定動詞:Johnreadspaperseveryday.(約翰每天都讀論文)6)不限定動詞:Ihopetoseeyouthismorning.(我希望早上見到你)7)短語動詞:TomcalledupGeorge.(湯姆給喬治打了電話)2.1.2詞的詞性12形容詞(Adjective)是用來描寫或修飾名詞的一類詞。例如:1)簡單形容詞: a)由一個單詞構成good(好的)long(長的)
b)由現(xiàn)在分詞構成interesting(令人感興趣的)
c)由過去分詞構成learned(博學的)
2)復合形容詞:duty-free(免稅的)hand-made(手工制作的)
3)限制性形容詞:anItaliandish(一道意大利菜)
4)描述性形容詞:adeliciousItaliandish(一道美味的意大利菜)2.1.2詞的詞性13副詞(Adverb)是用來修飾動詞、形容詞、其他副詞以及全句的詞。例如:1)簡單副詞:just(剛剛)only(僅僅)2)復合副詞:somehow(不知怎地)somewhere(在某處)3)派生副詞:interesting‘→‘interestingly(有趣地)4)方式副詞:quickly(迅速)awkwardly(笨拙地)5)方向副詞:outside(外面)inside(里面)6)時間副詞:recently(最近)always(總是)7)強調副詞:very(很)fairly(相當)2.1.2詞的詞性14數(shù)詞(Numeral)是表示數(shù)目多少或者先后順序的一類詞。例如:1)基數(shù)詞:one(1)nineteen(19)2)序數(shù)詞:first(第一)fiftieth(第五十)2.1.2詞的詞性15代詞(Pronoun)是代替名詞以及起名詞作用的短語、子句和句子的一類詞。例如:1)人稱代詞:a)主格:I,you,he,she,it,we,theyb)賓格:me,you,him,her,it,us,them2)物主代詞:a)形容詞性物主代詞:my,your,his,her,its,our,theirb)名詞性物主代詞:mine,yours,his,hers,its,ours,theirs3)自身代詞:myself,yourself,himself,herself,itself,
ourselves,yourselves, themselves,oneself4)相互代詞:eachother,oneanother5)指示代詞:this,that,these,those6)疑問代詞:who,whom,whose,which,what
7)關系代詞:who,whom,whose,which,that,as
8)不定代詞:some,something,somebody,someone,any,anything,anybody,anyone,no,
nothing,nobody,noone2.1.2詞的詞性16冠詞(Article)是置于名詞之前,說明名詞所指的人或事物的一種功能詞。冠詞不能夠離開名詞而獨立存在。英語中冠詞有三種冠詞:定冠詞(Definitearticle)“the”、不定冠詞(Indefinitearticle)“a/an”和零冠詞(Zeroarticle)。2.1.2詞的詞性17介詞(Preposition)又稱前置詞,是用于表示名詞或相當于名詞的詞語與句中其它詞語的關系的一類詞。介詞在句子中不單獨作為任何句子成分。介詞后面的名詞或者相當于名詞的詞語叫做介詞賓語,與介詞共同組合成介詞短語。例如:1)簡單介詞:at,in,of,since2)復合介詞:asfor,asto,outof3)二重介詞:fromunder,frombehind4)短語介詞:accordingto,becauseof5)分詞介詞:including,regarding2.1.2詞的詞性18連詞(Conjunction)是連接單詞、短語、從句或句子的一類詞。在句子中也不單獨作為句子成分。例如:1)簡單連詞:and,or,but,if2)關聯(lián)連詞:both...and,notonly...butalso3)分詞連詞:supposing,considering4)短語連詞:asif,aslongas,inorderthat5)并列連詞:and,or,but,for6)從屬連詞:that,whether,when,becaus2.1.2詞的詞性19感嘆詞(Interjection)是用來表示喜怒哀樂等情緒或情感的一類詞。感嘆詞也沒有實際意義,也不能在句子中構成任何句子成分,但是與全句有關聯(lián)。例如:‘Oh‘,it’syou.啊,是你‘Ah‘,howpitiful!呀,多可惜2.1.2詞的詞性20在語言學研究中,對于詞性劃分的標準、依據(jù)甚至目的等都存在大量分歧。到目前為止,還沒有一個被廣泛認可的統(tǒng)一劃分標準。在不同的語料集中所采用的劃分粒度和標記符號也都不盡相同。英語賓州樹庫(PennTreeBank)使用了48種不同的詞性漢語賓州樹庫(ChinesePennTreebank)中漢語詞性被劃分為33類布朗語料庫(BrownCorpus)中則使用了具有87個詞性2.2詞語規(guī)范化21詞語規(guī)范化(WordNormalization)任務是將單詞或詞形轉化為標準形式,針對有多種形式的單詞使用一種單一的形式進行表示。在對自然語言文本進行分析前,通常需要對文本進行規(guī)范化的處理。文本的規(guī)范化處理主要包含句子切分、詞語切分、詞語規(guī)范化等步驟。由于絕大部分語言的句子結束符數(shù)量有限,符號歧義性相對容易處理,因此句子切分通過詞典結合模板或者有監(jiān)督分類方法都可以達到較高的準確率。語言中的詞匯2.1詞語規(guī)范化2.2中文分詞2.3目錄Contents22詞性標注2.42.2.1詞語切分2.2.2詞形還原2.2.3詞干提取2.2.1詞語切分23對于絕大部分的印歐語系語言來說,詞語之間通常由分隔符區(qū)分開來。英語是印歐語系(Indo-Europeanlanguages)的典型代表,英語句子中絕大部分單詞之間都由空格或標點分割。漢語為代表的漢藏語系(Sino-Tibetanlanguages)的語言中,單詞之間通常沒有分隔符。因此在對文本進行分析前,通常需要將句子切分為單詞序列,稱之為詞語切分(WordTokenization)。輸入:Let'sfirstunderstandwhat'sNLP.輸出:Let?'s?first?understand?what?'s?NLP?.2.2.1詞語切分24英語句子中絕大部分的單詞可以通過空格和標點符號為分隔符進行識別,但是還是存在一些例外情況例如:縮寫(Prof.),日期(02/18/2022),數(shù)字(562,000),連字符(upper-case)等。需要特別注意的是,上例中Let's被切分為
Let?'s
詞形(Token)指的是在一個特定文檔中的某個能夠表達語義含義的字符序列。大部分情況下詞形和單詞沒有區(qū)別,但對于某些場景和算法有必要對單詞和詞形進行區(qū)分。2.2.1詞語切分25在英語中,一些特殊的符號和數(shù)字也需要完整的保留到一起。比如數(shù)字(67.20)、時間(22:37)、微博話題標簽(#北京2022年冬奧會#)、Email地址(cs_nlp@)等。在特定的應用中有時也會將HongKong,Head,Shoulders,KneesandToes劃分為一個詞形通常情況下針對英語等印歐語系語言的詞語切分任務可以采用基于有限狀態(tài)自動機(FiniteStateAutomata)融合正則表達式的方法完成。2.2.2詞形還原26詞形還原(Lemmatization)是將詞的各種變化形式還原其詞根的過程。通過詞形還原可以實現(xiàn)詞語的規(guī)范化,單詞的不同變化形式統(tǒng)一為詞根。例如:原始輸入句:Theyareworkingoninterestingtasks
詞形還原后:theybeworkoninterestingtask詞形分析是將一個詞分解成為語素的過程。對于英語來說,構造包含所有絕大多數(shù)詞形的詞典能夠有效地支撐許多應用場景。2.2.2詞形還原27對于某些語言(特別是土耳其語、阿拉伯語等黏著語系的語言)枚舉所有詞的詞形變換則是不可能的2.2.3詞干提取28詞干提取(Stemming)是詞形分析的簡化版本,其目標是將具有詞形變化(通常是屈折或派生)的詞語還原為其詞干(WordStem)與詞形分析不同,詞干提取并不要求還原的詞干一定與其語言學詞根完全一致,只需要將相關的單詞映射為統(tǒng)一的詞干。例如:詞干提取算法PorterStemmer
argue,argued,argues,arguing,以及
argus都轉換為argu.
2.2.3詞干提取29最簡單的詞干提取算法可以通過查詢詞表的方法獲得另外一種方法是后綴剝離(Suffix-stripping),通過定義一組規(guī)則,將特定的后綴從詞形中刪除例如:
如果單詞以ed結尾,則刪除ed
如果單詞以ing結尾,則刪除ing
如果單詞以ly結尾,則刪除ly
但是無法處理特殊變形(如:ran,took等)
2.2.3詞干提取30后綴替代(SuffixSubstitution)算法將單詞后綴替換為另外一個后綴。例如:
如果單詞以’ational’結尾,則替換為’ate’(relational→relate)
如果單詞以’ing’結尾,則替換為’ε’(working→work)
如果單詞以’zzes’結尾,則替換為’Z’(quizzes→quiz)
語言中的詞匯2.1詞語規(guī)范化2.2中文分詞2.3目錄Contents31詞性標注2.42.3.1中文分詞概述2.3.2基于最大匹配的中文分詞2.3.3基于線性鏈條件隨機場的中文分詞2.3.4基于感知器的中文分詞2.3.5基于雙向長短期記憶網(wǎng)絡的中文分詞2.3.6中文分詞評價方法2.3.7中文分詞語料庫32以英語為代表的印歐語系中詞之間通常有分隔符(空格等)來區(qū)分,詞可以比較容易地從句子中分割得到。以漢語為代表的漢藏語系,以及以阿拉伯語為代表的閃-含語系(Semito-Hamiticlanguages)中卻不包含明顯的詞之間的分隔符,而是由一串連續(xù)的字符構成。因此,針對漢語等語言的處理算法通常首先需要進行詞語切分。2.3中文分詞33中文分詞(ChineseWordSegmentation,CWS)是指將連續(xù)字序列轉換為對應的詞序列的過程,也可以看做在輸入的序列中添加空格或其他邊界標記的過程。2.3.1中文分詞概述例如:復旦大學是中國人自主創(chuàng)辦的第一所高等院校
分詞結果:復旦大學|是|中國人|自主|創(chuàng)辦|的|第一|所|高等|院校由于漢語中語素絕大部分是單個漢字,很多情況下單獨使用時也是詞語,不單獨使用時又是構詞成分,這使得漢語構詞具有很大的靈活性和很強的組詞能力。34正是因為漢語的這些特點,中文分詞任務面臨了巨大的挑戰(zhàn)主要困難來自以下三個方面:分詞規(guī)范、歧義切分和未登錄詞識別。2.3.1中文分詞概述漢語中對詞的具體界定目前還沒有定論。1992年國家標準局頒布的《信息處理用現(xiàn)代漢語分詞規(guī)范》中大部分規(guī)定都是通過舉例和定性描述來體現(xiàn)。例如:“二字或三字詞,以及結合緊密、使用穩(wěn)定的二字或三字詞組,一律為分詞單位。”
如何定量計算?35北京大學計算語言學研究所《北京大學語料庫加工規(guī)范》2.3.1中文分詞概述36由于漢語構詞方式的靈活性,使得同一個漢語句子很可能產生多個不同的分詞結果,這些不同的分詞結果也被稱為切分歧義。2.3.1中文分詞概述例如:南京市長江大橋
切分方式1:南京市|長江大橋
切分方式2:南京|市長|江大橋37交集型切分歧義是指漢字串AJB中,AJ、JB都可以分別組成詞匯,則漢字串AJB被稱為交集型切分歧義,此時漢字串J稱作交集串。交集型切分歧義也被稱為偶發(fā)歧義,當兩個有交集的詞“偶然”的相鄰出現(xiàn)時這樣的歧義才會發(fā)生。2.3.1中文分詞概述例如:乒乓球拍賣完了。
切分方式1:乒乓|球|拍賣|完|了|。
切分方式2:乒乓|球拍|賣|完|了|。38組合型切分歧義是指如果漢字串AB滿足A,B,AB同時為詞,則漢字串AB被稱為組合型切分歧義。組合性切分歧義也稱為固有歧義,指的是詞固有的屬性,不依賴于“偶然”發(fā)生的上下文。2.3.1中文分詞概述例如:他馬上過來。
切分方式1:他|馬上|過來|。
切分方式2:他|馬|上|過來|。39真歧義是指如果漢字串ABC滿足多種切分方式下語法和語義均沒有問題,只有通過上下文環(huán)境才能給出正確的切分結果,則漢字串ABC被稱為真歧義。2.3.1中文分詞概述例如:白天鵝在水里游泳。
切分方式1:白天|鵝|在|水|里|游泳|。
切分方式2:白天鵝|在|水|里|游泳|。40未登錄詞(OutOfVocabulary,OOV)又稱生詞(UnknownWords),是指在訓練語料中沒有出現(xiàn)或者詞典當中沒有,但是在測試數(shù)據(jù)中出現(xiàn)的詞?;谠~典的分詞方法所指的未登錄詞是指所依賴的詞典中沒有的單詞。對于完全基于統(tǒng)計機器學的方法,未登錄詞是指訓練語料中沒有出現(xiàn)的單詞。對于融合詞典特征的統(tǒng)計機器學習方法,未登錄詞是指訓練語料和詞典中均未出現(xiàn)的詞。2.3.1中文分詞概述41漢語具有很強的靈活性,未登錄詞的類型也十分復雜,可以粗略地將漢語文本中常見的未登錄詞分為以下類型:新出現(xiàn)的普通詞匯:語言的使用會隨著時代的變化而演化出新的詞,這個過程在互聯(lián)網(wǎng)環(huán)境中顯得更為快速。例如:下載,給力,點贊,人艱不拆等。命名實體(NamedEntity):人名、地名、機構名等;專業(yè)名詞:出現(xiàn)在專業(yè)領域的詞語(例如:偶氮二甲酸二乙酯,胞質溶膠)?其他專有名詞:新出現(xiàn)的產品名、電影名、書籍名等。2.3.1中文分詞概述宗成慶教授在新聞領域的語料也進行了分詞錯誤分析,結果發(fā)現(xiàn)未登錄詞造成的分詞錯誤超過98%42最大匹配(MaximumMatching)分詞算法主要包含前向最大匹配,后向最大匹配以及雙向最大匹配等三類。這些算法試圖根據(jù)給定的詞典,利用貪心搜索策略找到分詞方案。2.3.2基于最大匹配的中文分詞43將分詞過程轉換為對字的分類問題對于輸入句子中的每一個字ci,根據(jù)它在分詞結果中的位置賦予不同的標簽2.3.3基于線性鏈條件隨機場的中文分詞開始(B)、中間(I)、結尾(E)以及單獨成詞(S)例如:輸入句子:他是研究生物化學的一位科學家。
分詞結果:他|是|研究|生物化學|的|一|位|科學家|。
對應標記:他/S是/S研/B究/E生/B物/I化/I學/E的/S一/B位/E科/B學/I家/E。/S44條件隨機場(ConditionalRandomField,CRF)試圖對多個變量在給定觀測值后的條件概率進行建模。x={xl,x2,...,xn}為觀測序列,y={yl,y2,...,yn}為對應的標記序列,條件隨機場的目標是構建條件概率模型P(y|x)。2.3.3基于線性鏈條件隨機場的中文分詞圖2.1線性鏈條件隨機場結構圖45條件隨機場使用勢函數(shù)和圖結構上的團來定義條件概率P(y|x)。給定觀測序列x,線性鏈式條件隨機場主要包含兩種關于標記變量的團:單個標記變量yi和相鄰的標記變量yi?1,yi。選用指數(shù)勢函數(shù)并引入特征函數(shù)(FeatureFunction)。2.3.3基于線性鏈條件隨機場的中文分詞tj(x,yi,yi?1,i)是轉移特征函數(shù)(Transitionfeaturefunction),用于刻畫相鄰標記之間的相關關系觀測序列對它們的影響;s(x,yi,i)是狀態(tài)特征函數(shù)(Statusfeaturefunction),用于刻畫觀測序列對標記變量的影響;462.3.3基于線性鏈條件隨機場的中文分詞針對中文分詞任務,典型的轉移特征如下:典型的狀態(tài)特征如下:表示第i個觀測值為“復”時,相應的標記yi
和yi?1
很可能分別為B和E表示第i個觀測值為“上”時,相應的標記yi
很可能為B。472.3.3基于線性鏈條件隨機場的中文分詞針對中文分詞問題,可以使用模板的方式從當前字的上下文中構建。表2.3列出了中文分詞任務常用的模板。其中T(c)表示字符c的類型,包括阿拉伯數(shù)字、中文數(shù)字、標點符號、英文字母等?;谔卣髂0搴陀柧氄Z料,可以自動生成轉移特征以及狀態(tài)特征。482.3.4基于感知器的中文分詞中文分詞可以定義為將連續(xù)字序列轉換為對應的詞序列的過程。x={c1,c2,...,cn}表示輸入字序列,
y={w1,w2,...,wm}表示輸出詞序列F(x)表示最優(yōu)分詞結果中文分詞可以形式化地表達為:GEN(x)代表對于每一個輸入句子x可能的所有候選輸出,SCORE(y)為針對分詞結果y的評分函數(shù)。將每一個分詞后的單詞序列y定義為一個特征向量Φ(x,y)
492.3.4基于感知器的中文分詞將中文分詞任務轉化為上述問題后,需要解決如下三個問題:502.3.4基于感知器的中文分詞使用集束搜索(BeamSearch)算法進行解碼,在每一步解碼過程中,從上一步解碼的所有候選集中選取前K個得分最高的結果繼續(xù)解碼512.3.4基于感知器的中文分詞對訓練語料中每一個句子,根據(jù)現(xiàn)有模型參數(shù)進行解碼得到分詞結果,與正確答案進行比對,如果結果錯誤則更新參數(shù)α522.3.4基于感知器的中文分詞基于感知器的方法可以使用詞作為特征,而基于線性鏈條件隨機場的方法只能使用字作為特征532.3.5基于雙向長短期記憶網(wǎng)絡的中文分詞方法將分詞過程轉換為對字的分類問題圖2.3基于BiLSTM+CRF的神經網(wǎng)絡分詞模型框架542.3.5基于雙向長短期記憶網(wǎng)絡的中文分詞方法552.3.6中文分詞評價562.3.7中文分詞語料庫語言中的詞匯2.1詞語規(guī)范化2.2中文分詞2.3目錄Contents57詞性標注2.42.4.1基于規(guī)則的詞性標注2.4.2基于隱馬爾可夫模型的詞性標注2.4.3基于卷積神經網(wǎng)絡的詞性標注2.4.4詞性標注評價方法2.4.5詞性標注語料庫58詞性是詞語的基本屬性,根據(jù)其在句子中所扮演的語法角色以及與周圍詞的關系進行分類。詞性標注(Part-of-speechTagging,POSTagging)是指在給定的語境中確定句子中各詞的詞性詞性標注的主要難點在于歧義性,即一個詞可能在不同的上下文中具有不同的詞性。兼類詞多為常用詞,而且越是常用詞,其用法就越多北京大學計算語言學研究院200萬字語料庫統(tǒng)計,發(fā)現(xiàn)兼類詞所占比例僅有11%,但是出現(xiàn)的次數(shù)卻達到了47%Brown語料庫的統(tǒng)計也發(fā)現(xiàn)超過80%的詞通常只有一個詞性還沒有一個被廣泛認可的統(tǒng)一詞性劃分標準,在不同的語料集中所采用的劃分粒度和標記符號也都不盡相同2.4詞性標注592.4詞性標注60利用詞典和搭配規(guī)則針對詞語和上下文進行分析,從而得到句子中每個詞語詞性BrillTagger在Brown語料庫上僅使用71個規(guī)則就得到接近95%的分析準確率初始化:對于詞典中包含的詞語,根據(jù)詞語最常使用的詞性設置初始值;對于詞典中沒有的
單詞根據(jù)詞性分析結果設置初始值(例如:以大寫字母開頭的設置為專有名詞)。規(guī)則轉換:根據(jù)補丁規(guī)則對初始標注進行轉換,補丁規(guī)則包含以下三類:
(a)如果某單詞詞性為a,并且其所在上下文為C,那么將其詞性轉換為b;
(b)如果某單詞詞性為a,并且其具有詞匯屬性P,那么將其詞性轉換為b;
(c)如果某單詞詞性為a,并且其周邊范圍R內有一個詞匯
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030全球無DEHP分隔膜無針輸液接頭行業(yè)調研及趨勢分析報告
- 2025年全球及中國隧道安全監(jiān)測系統(tǒng)行業(yè)頭部企業(yè)市場占有率及排名調研報告
- 2025-2030全球辦公室文件柜行業(yè)調研及趨勢分析報告
- 2025年全球及中國4-苯氧基苯酚行業(yè)頭部企業(yè)市場占有率及排名調研報告
- 2025-2030全球太空級電機控制器行業(yè)調研及趨勢分析報告
- 2025客戶網(wǎng)站建設合同(范本)
- 美容美發(fā)產品購銷合同范本
- 2025關于房屋建筑承包合同范本
- 機械設備租賃合同范本簡單
- 外協(xié)合同申請及驗收事務辦理
- 護理人文知識培訓課件
- 建筑工程施工安全管理課件
- 2025年春新人教版數(shù)學七年級下冊教學課件 7.2.3 平行線的性質(第1課時)
- 安徽省合肥市2025年高三第一次教學質量檢測地理試題(含答案)
- 2025年新合同管理工作計劃
- 統(tǒng)編版八年級下冊語文第三單元名著導讀《經典常談》閱讀指導 學案(含練習題及答案)
- 風光儲儲能項目PCS艙、電池艙吊裝方案
- TTJSFB 002-2024 綠色融資租賃項目評價指南
- 全新車位轉讓協(xié)議模板下載(2024版)
- 呼吸治療師進修匯報
- 2024年江西電力職業(yè)技術學院單招職業(yè)技能測試題庫及答案解析
評論
0/150
提交評論