自然語言理解-詞典_第1頁
自然語言理解-詞典_第2頁
自然語言理解-詞典_第3頁
自然語言理解-詞典_第4頁
自然語言理解-詞典_第5頁
已閱讀5頁,還剩94頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

詞典詞典與詞典編纂的研究

詞典學lexicologyTheoryanddescriptionoflexicalinformation計算詞典學computationallexicologyformalmodelingoflexicalinformation詞典編纂學lexicographyConstructionofdictionaries(databases,handbooks)計算詞典編纂學computationallexicographyconstructionandproductionofdictionariesusingelectronicpublishing機讀詞典與人讀詞典人讀詞典(HumanReadableDictionary)格式不規(guī)范數(shù)據(jù)完整性和一致性不好非結(jié)構(gòu)化機讀詞典(MachineReadableDictionary)格式規(guī)范數(shù)據(jù)完整性和一致性較好結(jié)構(gòu)化人讀詞典(demo)

金山詞霸story中古英語storie<古法語estoire<拉丁語historian-ries(1)故事,小說;傳聞;軼事Pleasereadusastory!請給我們讀個故事!(2)謊話,假話(3)(書籍、電影、戲劇等的)情節(jié)(4)(報刊、雜志文章的)素材,題材機讀詞典的分類

按信息類型分類語法詞典語義詞典(包括同義詞典)雙語詞典…….按領域分類通用詞典專業(yè)詞典(術(shù)語詞典)專名詞典……漢語語法信息詞典

開發(fā)單位:北京大學計算語言學研究所參考文獻:俞士汶等(1998)《現(xiàn)代漢語語法信息詞典詳解》,清華大學出版社、廣西科學技術(shù)出版社1998年版。規(guī)模:7萬多詞條總庫詞性庫名詞時間詞處所詞方位詞數(shù)詞量詞區(qū)別詞代詞動詞形容詞狀態(tài)詞副詞介詞連詞助詞語氣詞前接成分后接成分成語簡稱略語習用語語素標點符號詞性分庫動詞代詞漢語語法信息詞典·總庫漢語語法信息詞典·動詞庫漢語語法信息詞典·謂賓動詞分庫

新華社詞語數(shù)據(jù)庫

全庫分為中文和外文兩個大類,主要包括中文新聞庫、經(jīng)濟信息庫、證券庫、人物庫、組織機構(gòu)庫、專題資料庫等中文數(shù)據(jù)庫,還包括XinhuaNewsBulletin、Who’sWhoinChina等英文數(shù)據(jù)庫。共有28個庫100多個子庫,數(shù)據(jù)量達80多億漢字,并以日均150萬漢字的速度增長。新華社詞語數(shù)據(jù)庫·國際組織

“2000年問題”聯(lián)合委員會/jointyear2000council/International“4·19”運動/movementapril19/Colombia“阿爾法66”/"alpha66"/Cuba“俄羅斯地區(qū)”社會聯(lián)盟/regionsofrussiagroup/Russia“法中-2000年”協(xié)會/france-chinaassociationfortheyear2000/France“繁榮”黨/prosperity/Russia“光明的日本”國會議員聯(lián)盟/parliamentaryunionforabrightjapan/Japan“基地”組織/alqaeda/SaudiArabia《財富》雜志/fortune/USA《朝日新聞》/asahishimbun/Japan國際獻血組織聯(lián)合會/internationalfederationofblooddonororganizations/International國際憲法學協(xié)會/internationalassociationofconstitutionallaw/International國際香料集團/internationalspicegroup/International經(jīng)濟和外貿(mào)部/ministryofeconomyandexternaltradeofsyria/Syria經(jīng)濟和外貿(mào)部/ministryofeconomyandforeigntradeofegypt/Egypt新華社詞語數(shù)據(jù)庫·人名知網(wǎng)(Hownet)作者:董振東董強網(wǎng)站:概念描述舉例NO.=017144W_C=打G_C=VE_C=~網(wǎng)球,~牌,~秋千,~太極,球~得很棒W_E=playG_E=VE_E=DEF=exercise|鍛練,sport|體育其中DEF是核心,采用特定的“知識描述語言”知網(wǎng)(Hownet)2打017144exercise|鍛練,sport|體育男人059349human|人,family|家,male|男高興029542aValue|屬性值,circumstances|境況,happy|福,desired|良生日072280time|時間,day|日,@ComeToWorld|問世,$congratulate|祝賀寫信089834write|寫,ContentProduct=letter|信件北京003815place|地方,capital|國都,ProperName|專,(China|中國)愛好者000363human|人,*FondOf|喜歡,#WhileAway|消閑必須004932{modality|語氣}串015204NounUnit|名量,&(grape|葡萄),&(key|鑰匙)從良016251cease|停做,content=(prostitution|賣淫)打?qū)φ?17317subtract|削減,patient=price|價格,commercial|商,(range|幅度=50%)兒童基金會024083part|部件,%institution|機構(gòu),politics|政,#young|幼,#fund|資金,(institution|機構(gòu)=UN|聯(lián)合國)知網(wǎng)(Hownet)3

義原總數(shù):1500多個義原分類:共8類基本義原事件、實體、次要特征屬性、屬性值、數(shù)量、數(shù)量值語法義原:描述語法特征,如POS語法關(guān)系義原:描述意義關(guān)系,類似于格關(guān)系動態(tài)角色動態(tài)屬性知網(wǎng)(Hownet)4義原的上下位關(guān)系構(gòu)成樹結(jié)構(gòu)-entity|實體├thing|萬物…├physical|物質(zhì)…├animate|生物…├AnimalHuman|動物…├human|人│└humanized|擬人└animal|獸├beast|走獸…知網(wǎng)(Hownet)5知網(wǎng)中的關(guān)系同義詞詞林1

梅家駒等,1983,上海辭書出版社為克服寫作和翻譯時的詞窮現(xiàn)象而編寫目前廣泛應用于自然語言處理中收詞近7萬(按義項統(tǒng)計)按義項編排12大類94中類1428小類3925詞群詞群內(nèi)部的詞是同義詞大類、中類、小類之間不一定是上下位關(guān)系(有些是領域)同義詞詞林2大類:A中類:g小類:10詞群:01最小同義詞集:01,02,03catewordAa010101人Aa010101士Aa010101人物Aa010101人士Aa010101人氏Aa010101人選Aa010102人類Aa010102噍類Aa010102生人Aa010102橫目Aa010102圓顱方趾Aa010102方趾圓顱Aa010103人手Aa010103人員Aa010103人口Aa010103人丁Aa010103口Aa010103丁口Aa010103食指Aa010104勞力Aa010104勞動力Aa010105匹夫Aa010105個人WordNet1網(wǎng)址:/~wn/開發(fā)單位:普林斯頓大學心理語言學實驗室初衷是作為研究人類詞匯記憶的心理語言學成果在自然語言處理中得到廣泛的應用免費的在線詞匯數(shù)據(jù)庫世界很多語種都開發(fā)了相應的版本各種歐洲語言:EuroNet漢語:CCD(ChineseConceptDictioanry)WordNet2同義詞集Synset用一組同義詞的集合Synset來表示一個概念每一個概念有一段描述性的說明關(guān)系上下位關(guān)系(hyponymy,troponymy)同義反義關(guān)系(synonymy,antonymy)部分整體關(guān)系(entailment,meronymy)……Wordnet3規(guī)模名詞:80,000words,60,000synsets形容詞:16,000synsets動詞:11,500synsets還在不斷發(fā)展之中WordNet4

名詞概念的組織:WordNet5形容詞概念的組織:WordNet6WordNet7詞典檢索算法1詞典檢索算法的性能評價時間復雜度空間復雜度檢索方式直接用詞語檢索檢索句子中某個位置開始的所有詞檢索句子中某個位置開始的最長詞模糊檢索……增量式索引詞典檢索算法2兩個問題索引結(jié)構(gòu)查找算法一種索引結(jié)構(gòu)可以對應不同的查找算法詞典順序索引索引結(jié)構(gòu)簡單,占用空間小不能實現(xiàn)增量式索引:每增加一個詞需重新排序詞典順序索引的查找算法整詞二分查找時間復雜度O(log2N)無法按前綴查找改進的整詞二分查找時間復雜度O(log2N)可以實現(xiàn)按前綴查找詞典散列索引索引結(jié)構(gòu)簡單,占用空間?。ū软樞蛩饕源螅┛梢詫崿F(xiàn)增量式索引詞典散列索引的檢索算法利用散列(hash)函數(shù)直接定位效率高:常數(shù)不能按前綴查找沖突的解決使用沖突隊列使用再散列散列函數(shù)(hash)的選擇算法改進:逐詞散列,可以實現(xiàn)按前綴查找詞典分級索引將詞語分成若干部分,為每一部分分別建立索引在分級索引中,每一級索引都可以采用各種不同的索引和查找算法對于漢語而言,第一級索引一般使用詞語的首字,所以又常稱為首字索引。漢語的首字數(shù)量有限,可以使用直接定位法,效率最高,空間也不大漢語詞典按首字順序索引首字二分檢索2時間復雜度:O(log2N)空間復雜度:O(N)可以按前綴查找不能增量式索引:每次要重新排序漢語詞典TRIE樹索引AC算法1問題假設詞典中有兩個詞:aba,abcd考慮輸入串:bababcdab如何迅速找出輸入串中詞典詞的所有出現(xiàn)?簡單解決辦法逐字查詞典:效率太低AC算法將詞典構(gòu)造成一個自動機,一次掃描完成AC算法2

AC算法3AC算法4AC算法5AC算法5AC算法6AC算法7AC算法8AC算法9漢語新詞語

隨著經(jīng)濟、社會的飛速發(fā)展和對外交流的日漸頻繁,自然語言中新詞的不斷涌現(xiàn)在漢語這種詞與詞之間沒有明顯界限的語言中,新詞的識別問題尤為嚴重。除了命名實體和字母詞因為有明顯的構(gòu)成特征而相對比較容易被識別外,其他新詞很難識別。漢語新詞語分類新詞語的種類命名實體:包括人名、地名、音譯名、商品名、公司字號、機構(gòu)名等;縮略語:如“非典”、“計生委”等;方言詞:如“靚”、“買單”等;–新造詞:如“伊妹兒”、“美眉”等;專業(yè)術(shù)語:如“非典型肺炎”、“藍光光盤”等;音譯詞:如“酷”、“秀”、“克隆”等;外來字母詞:如WTO、APEC、SARS等。以上劃分方式大多是按語言學的標準進行的,在計算機處理時難以找到明顯的規(guī)律(命名實體和字母詞除外)漢語新詞語的出現(xiàn)規(guī)律雖然從詞語的構(gòu)成規(guī)律上看不出新詞的規(guī)律,但是從一個整體的角度看,新詞具有下述的兩個特征:.新詞語在文本中重復出現(xiàn).新詞語出現(xiàn)的時間有規(guī)律隨著Internet的蓬勃發(fā)展以及網(wǎng)頁采集技術(shù)的成熟,已經(jīng)可以輕易的從網(wǎng)上采集大規(guī)模的網(wǎng)頁,同時目前概率詞法分析器也達到了比較成熟的階段,因此這兩個條件給我們利用新詞語的這兩個特征做好了準備?;谥貜妥哟男略~語識別

從互聯(lián)網(wǎng)上定點收集大量文本語料對這些文本語料進行詞語切分從切分的結(jié)果中識別出所有的詞典中沒有出現(xiàn)的重復串選擇某個時間點以后出現(xiàn)的重復串作為候選新詞采用人機互助的方法從候選新詞中找出真正的新詞重復子串識別目標:識別出文本中所有出現(xiàn)兩次以上的子串據(jù)香港《文匯報》報道,北京的臺灣問題專家李家泉受訪時指出,臺北、高雄兩市市長選舉,盡管藍、綠兩政治勢力進行了激烈的斗爭,但“北藍南綠”的政治格局未被打破,由此可以預見,未來一段時間內(nèi)兩岸關(guān)系的改善很難有突破。李家泉指出,此次北高兩市選舉在兩個大背景下進行,一是民進黨執(zhí)政兩年來政績相當差,自身危機感非常強;二是距離2004年“大選”只有一年多時間,兩派都格外重視此次交鋒,對泛綠陣營來說是政權(quán)保衛(wèi)戰(zhàn),而對泛藍陣營來說則是奪權(quán)演習戰(zhàn)。因此可以看到斗爭形勢相當嚴峻而激烈。新詞語識別(Demo)

對于《人民日報》2002年和2001年語料分別進行重復子串識別用2002年的重復子串集合減去2001年的重復子串集合2002年出現(xiàn)詞數(shù)大于20的詞語而2001年沒有出現(xiàn)過的重復子串:1005個Top10十六大精神1289中共十六大342學習貫徹十六大精神238核查人員223干部任用條例220建設中國特色社會主義194一邊一國189貫徹十六大精神156胡錦濤當選為中共中央總書記155軍品出口151新詞語識別(Demo)詞語:抗擊非典出現(xiàn)總次數(shù):3081出現(xiàn)的文章數(shù):8471.報紙名:中國汽車報日期:2003-06-10網(wǎng)址:/GB/paper1668/9424/872549.html例句:抗擊非典的斗爭已經(jīng)進入到掃尾階段。2.報紙名:中國汽車報日期:2003-06-03網(wǎng)址:/GB/paper1668/9366/868060.html例句:此外,公司決定立即采購一批專用的清潔機、高壓水槍、高效除垢劑以及殺菌消毒噴霧機等投入使用,全力以赴,抗擊非典。3.報紙名:中國汽車報日期:2003-05-20網(wǎng)址:/GB/paper1668/9365/867876.html例句:日前,鄭州宇通客車股份有限公司捐資100萬元用于抗擊非典什么是詞語相似度與具體應用密切相關(guān)實例機器:文本中詞語的可替換程度信息檢索:查詢擴展的有效程度……取值范圍:[0,1]之間1:相似度最高,詞語和其本身相似度為1;0:相似度最低影響詞語相似度的因素:形態(tài)、句法、語義、語用;語義起主要作用詞語相似度與詞語距離

.詞語距離取值范圍:[0,∞).詞語相似度和詞語距離的關(guān)系詞語距離為0.詞語相似度為1詞語距離為∞.詞語相似度為0詞語距離越大,相似度越?。▎握{(diào)遞減).轉(zhuǎn)換公式:(示例)α:可調(diào)節(jié)參數(shù),相似度0.5時的距離值詞語相似度與詞語相關(guān)性(1)詞語相關(guān)性兩個詞語互相關(guān)聯(lián)的程度可以用共現(xiàn)的頻率來衡量取值范圍:[0,1]之間相似度和相關(guān)性反映詞語的不同特點相關(guān)性高未必相似性高:醫(yī)生,疾病相似性高未必相關(guān)性高:耶和華,玉皇大帝詞語相似度與詞語相關(guān)性(2)相關(guān)性與相似度反映詞語的不同特點相關(guān)性反映的是詞語的組合特性相似性反映的是詞語的聚合特性相關(guān)性和相似度有著密切的聯(lián)系相似度高的兩個詞,它們與其他詞的相關(guān)性特點也相似可以利用相關(guān)性特點來計算詞的相似性詞語相似度計算方法(1)基于世界知識的詞語相似度計算方法利用同義詞詞典(Thesaurus)計算兩個概念在樹狀概念層次體系中的距離影響概念距離的其他因素(深度、密度)基于語料庫的詞語相似度計算方法利用固定寬度的文本窗口得到詞語共現(xiàn)向量根據(jù)共現(xiàn)向量夾角余弦得到相似度利用其他統(tǒng)計信息(如互信息)詞語相似度計算方法(2)基于世界知識的詞語相似度計算方法簡單有效,直觀,易于理解主觀性較強,有時不夠客觀主要反映語義特征,忽略句法語用等特征基于語料庫的詞語相似度計算方法客觀,綜合反映形態(tài)句法語義語用等特點計算復雜,性能依賴于語料庫數(shù)據(jù)稀疏嚴重,噪聲干擾大《知網(wǎng)》的知識描述語言(1)打017144exercise|鍛練,sport|體育男人059349human|人,family|家,male|男高興029542aValue|屬性值,circumstances|境況,happy|福,desired|良生日072280time|時間,day|日,@ComeToWorld|問世,$congratulate|祝賀寫信089834write|寫,ContentProduct=letter|信件北京003815place|地方,capital|國都,ProperName|專,(China|中國)愛好者000363human|人,*FondOf|喜歡,#WhileAway|消閑必須004932{modality|語氣}串015204NounUnit|名量,&(grape|葡萄),&(key|鑰匙)從良016251cease|停做,content=(prostitution|賣淫)打?qū)φ?17317subtract|削減,patient=price|價格,commercial|商,(range|幅度=50%)兒童基金會024083part|部件,%institution|機構(gòu),politics|政,#young|幼,#fund|資金,(institution|機構(gòu)=UN|聯(lián)合國)《知網(wǎng)》的知識描述語言(2)虛詞描述格式:“{句法義原}”、“{關(guān)系義原}”;實詞描述格式:由一系列用逗號隔開的“語義描述式”組成,這些“語義描述式”有三種形式:獨立義原描述式:“基本義原”、“(具體詞)”;關(guān)系義原描述式:“關(guān)系義原=基本義原”、“關(guān)系義原=(具體詞)”、“(關(guān)系義原=具體詞)”符號義原描述式:“關(guān)系符號基本義原”、“關(guān)系符號(具體詞)”在實詞的描述中,第一個描述式總是一個基本義原,描述了該實詞的最基本的語義特征基于《知網(wǎng)》的詞語相似度計算困難:知識描述語言的復雜語法方法一:只計算第一獨立義原的相似度優(yōu)點:簡單缺點:過于粗疏方法二:LiSujian,etal.(2002)綜合利用《知網(wǎng)》和《同義詞詞林》利用了《知網(wǎng)》義原之間除上下位以外的其他關(guān)系綜合考慮相似度和相關(guān)度(未必合理)詞語的相似度計算對于兩個漢語詞語W1和W2,如果W1有n個義項(概念):S11,S12,……,S1n,W2有m個義項(概念):S21,S22,……,S2m,我們規(guī)定,W1和W2的相似度各個概念的相似度之最大值,也就是說:注:在實際的文本中最好先排岐。義原的相似度計算義原之間的語義距離:其中p1和p2表示兩個義原(primitive),d是p1和p2在義原層次體系中的路徑長度,是一個正整數(shù)。α是一個可調(diào)節(jié)的參數(shù)。具體詞與義原的相似度一律處理為一個小常數(shù)(γ);具體詞和具體詞的相似度,如果兩個詞相同,則為1,否則為0。將任何義原(或具體詞)與空值的相似度定義為一個小常數(shù)(δ);虛詞概念的相似度計算.由于虛詞概念總是用“{句法義原}”或“{關(guān)系義原}”這兩種方式進行描述,所以,虛詞概念的相似度計算非常簡單,只需要計算其對應的句法義原或關(guān)系義原之間的相似度即可。實詞概念的相似度計算(1)基本原則:整體相似要建立在部分相似的基礎上。把一個復雜的整體分解成部分,通過計算部分之間的相似度得到整體的相似度。先在二者的各個部分之間建立一一對應關(guān)系(組合配對),分別計算各個組合配對的相似度;整體相似度等于各個組合配對的相似度的加權(quán)評價;古代的戰(zhàn)場的兩軍對壘:兵對兵、將對將,捉對廝殺。實詞概念的相似度計算(2)將實詞概念的語義表達式分成四個部分:–第一獨立義原描述式:Sim1(S1,S2);–其他獨立義原描述式:Sim2(S1,S2);–關(guān)系義原描述式:Sim3(S1,S2)–符號義原描述式:Sim4(S1,S2)實詞概念整體相似度計算公式:β1+β2+β3+β4=1β1≥β2≥β3≥β4實詞概念的相似度計算(3)發(fā)現(xiàn)的問題:如果Sim1非常小,但Sim3或者Sim4比較大,將導致整體的相似度仍然比較大的不合理現(xiàn)象改進的公式:改進的意義:主要部分的相似度值對于次要部分的相似度值起到制約作用,也就是說,如果主要部分相似度比較低,那么次要部分的相似度對于整體相似度所起到的作用也要降低。實詞概念的相似度計算(4)第一獨立義原描述式:.直接計算兩個義原的相似度其他獨立義原描述式:兩個義原集合的相似度:配對困難先計算出所有可能的配對的義原相似度取相似度最大的一對,并將它們歸為一組在剩下的獨立義原的配對相似度中,取最大的一對,并歸為一組,如此反復,直到所有獨立義原都完成分組實詞概念的相似度計算(5)關(guān)系義原描述式:把關(guān)系義原相同的描述式分為一組,并計算其相似度符號義原描述式:把關(guān)系符號相同的描述式分為一組,并計算其相似度計算以上各部分的相似度時,權(quán)值都取等值實驗設計(1)詞語相似度結(jié)果評價放到實際的系統(tǒng)中(如基于實例的機器翻譯系統(tǒng)),觀察不同的相似度計算方法對實際系統(tǒng)的性能的影響人工判別:我們采用的辦法實驗一采用本文中提出的詞語相似度計算方法計算一個詞和另外選取的一組詞的相似度,判斷是否符合人的直覺實驗設計(2)實驗二三種方法對比方法一:僅使用《知網(wǎng)》語義表達式中第一獨立義原來計算詞語相似度方法二:LiSujianetal.(2002)中使用的詞語語義相似度計算方法方法三:本文中介紹的語義相似度計算方法參數(shù)選擇:α=1.6,γ=0.2,δ=0.2參數(shù)選擇:β1=0.5,β2=0.2,β3=0.17,β4=0.13實驗結(jié)果詞語1 詞語2 詞語2的語義 方法1 方法2 方法3男人 女人 人,家,女 1.000 0.668 0.833男人 父親 人,家,男 1.000 1.000 1.000男人 母親 人,家,女 1.000 0.668 0.833男人 和尚 人,宗教,男 1.000 0.668 0.833男人 經(jīng)理 人,#職位,官,商 1.000 0.351 0.657男人 高興 屬性值,境況,福,良0.016 0.024 0.013男人 收音機 機器,*傳播 0.186 0.008 0.164男人 鯉魚 魚 0.347 0.009 0.208男人 蘋果 水果 0.285 0.004 0.166男人 工作 事務,$擔任 0.186 0.035 0.164男人 責任 責任 0.016 0.005 0.010實驗結(jié)果分析實驗一:考察方法3的結(jié)果與人的直覺比較符合實驗二:比較三種方法的結(jié)果方法1的結(jié)果比較粗糙,只要是人,相似度都為1,顯然不夠合理方法2的結(jié)果比方法1更細膩一些,能夠區(qū)分不同人之間的相似度方法2有些相似度的結(jié)果也不太合理,比如“男人”和“工作”的相似度比“男人”和“鯉魚”的相似度更高方法2的結(jié)果中,“男人”和“和尚”的相似度比“男人”和“經(jīng)理”的相似度高出近一倍,不如方法3結(jié)果好WordNet發(fā)展簡史70年代:基于義素分析的詞匯語義學(componentiallexicalsemantics)80年代:基于關(guān)系的詞匯語義學(relationallexicalsemantics)1985:Miller,WordNet:ADictionaryBrowser,可以使用同義詞集合(synset)來代表詞匯概念,形成詞匯網(wǎng)絡,即在詞的形式和意義之間建立起映射關(guān)系(mapping)。WordNet被設想為是一個詞典瀏覽器,是一個機器可讀詞典的輔助工具。而這樣一個機器詞典不是按字母排序的,是基于意義組織起來的。1987:ChristianeFellbaum加盟WordNet1991年7月,WordNet1.0版,包含44983個同義詞集合現(xiàn)在,WordNet1.7.1版WordNet的心理語言學假設可分離性假設(Separabilityhypothesis):語言的詞匯成分可以被離析出來并專門針對它加以研究??赡J交僭O(patterninghypothesis):一個人不可能掌握他運用一種語言所需的所有詞匯,除非他能夠利用詞義之間存在的系統(tǒng)的模式和關(guān)系。廣泛性假設(comprehensivenesshypothesis):計算語言學如果希望能像人那樣處理自然語言,就需要像人那樣儲存盡可能多的詞匯知識。WordNet詞匯的來源語料庫Brown語料庫;已有的一些詞表LaurenceUrdang(1978)的《同義反義小詞典》;Urdang(1978)修訂的《Rodale同義詞詞典》;RobertChapmand(1977)的第4版《羅杰斯同義詞詞林》;美國海軍研究與發(fā)展中心的FredChang的詞表,與WordNet原有詞表只有15%的重合詞語(1986)RalphGrishman和他在紐約大學的同事的一個詞表,包含39143個詞,這個詞表實際上包含在著名的COMLEX詞典中。WordNet當時詞表與該詞表重合率為74%(1993年)。WordNet中有什么WordNet描述的對象compound(復合詞)、phrasalverb(短語動詞)、collocation(搭配詞)、idiomaticphrase(成語)、word(單詞),其中word是最基本的單位。對象之間的語義關(guān)系同義反義關(guān)系(synonymy,antonymy)上下位關(guān)系(hyponymy,troponymy)部分整體關(guān)系(entailment,meronymy)……部分句法信息簡單的動詞基本句式信息(VerbSentenceFrames)e.g.beat(somebody---ssomebody)WordNet中沒有什么WordNet并不把詞語分解成更小的有意義的單位(這是義素分析法的方法);WordNet也不包含比詞更大的組織單位(如腳本、框架之類的單位);WordNet不是在文本和話語篇章水平上來描述詞和概念的語義,因此WordNet中沒有包含指示詞語在特定的篇章話題領域的相關(guān)概念關(guān)系。例如,WordNet中沒有將racquet(網(wǎng)球拍)、ball(球)、net(球網(wǎng))等詞語以一定方式聯(lián)系到一起。WordNet中缺少關(guān)于詞語的句法信息;WordNet中沒有“IS-NOT-A-KIND-OF”這樣的關(guān)系;WordNet中沒有區(qū)分“IS-A-KIND-OF”和“IS-USED-AS-A-KIND-OF”兩種關(guān)系,比如,“Athrushisabird”是前一種關(guān)系,而“Anadornmentisadecoration”則是后一種關(guān)系。更典型的例子也許是“Chickenisakindofbird”和“Chickenisakindoffood”……WordNet的名詞同義詞集合(synset)與詞匯層級(lexicalhierarchy){robin,redbreast}@->{animal,animate_being}@->{organism,life_form,living_thing},25個基本類別(25uniquebeginners){act,activity}{food}{possession}{animal,fauna}{group,grouping}{process}{artifact}…很少有超過10到12層的語義樹,通常層次比較深的情況是由于專業(yè)詞匯造成的,而不是日常語言中的用詞。比如:shetlandpony@->pony@->horse@->equid@->odd-toedungulate@->placentalmammal@->mammal@->vertebrate@->chordate@->animal@->organism@->entity(12levels)詞匯層級的心理學證據(jù)和語言學證據(jù)

Collins&Quillian(1969):distanceinhierarchyArobinisabird--ArobinisananimalSmith&Medin(1981):typicalityorprototypicalitytheoryArobinisabird--Achickenisabird√Igavehimagoodnovel,butthebookboredhim×Igavehimagoodnovel,butthecatsupboredhim動詞的搭配選擇限制也表明名詞上下位關(guān)系的重要性。比如動詞“drink”的直接賓語可以是beverage(飲料)的任何一個下位詞。這也暗示有關(guān)名詞的上下位關(guān)系的知識應該以一種人們能夠快速訪問和搜索到的方式存貯WordNet名詞的整體與部分關(guān)系A是B的組成部分;beak/wing->birdA是B的成員;tree->forestA是B的構(gòu)成材料。aluminum->plane {wheel}isapartof{vehicle} {wheeled_vehicle} {sled}isakindof{vehicle} {wheel}isNOTapartof{sled} thebranchisapartofthetree thetreeisapartoftheforest thebranchisapartoftheforest.WordNet的形容詞描寫性形容詞(descriptiveadjectives)e.g.big,beautiful,interesting,possible,married,……關(guān)系性形容詞(relationaladjectives)e.g.fraternal,electrical,sidereal,……說明:關(guān)系形容詞因其跟名詞的關(guān)系而得名,如electricalengineer中的electrical實際跟名詞electricity相關(guān)。描寫性形容詞的反義關(guān)系關(guān)系性形容詞的特征 只能出現(xiàn)在定語位置(attributiveposition); 意義上跟一個名詞非常相關(guān);fraternaltwins——fraternal:brotherdentalhygiene——dental:tooth 不受程度副詞修飾*theextremelyatomicbomb*theverybaseballgame 沒有直接的反義詞non-:somethingelsee.g.nonhuman,racellularcivillawyervs.criminallawyermechanicalengineeringvs.electricalengineering形容詞的多義性oldmanvs.oldhouseoldfriend-newfriend oldfriend-youngfriendeconomicrestructuring-therestructuringwaseconomic economicslump-*theslumpiseconomicthenervousperson-theperson'snervousness thenervousdisorder-*thedisorder’snervousnessWordNet動詞的蘊涵關(guān)系ToV1istoV2insomeparticularmannerWordNet動詞的反義關(guān)系give/take;buy/sell;lend/borrow;teach/learn沒有共同上位詞live/die;exclude/include;differ/equal;wake/sleep狀態(tài)動詞lengthen/shorten;strengthen/weaken;prettify/uglify變化動詞tie/untie;appear/disappear有標記與無標記的對立rise/fall;walk/run有共同上位詞fail/succeedtry;forget/rememberknow蘊涵關(guān)系damage/repairdamage;remove/replaceremoveWordNet的應用詞義標注基于詞義分類的統(tǒng)計模型基于概念的文本檢索文本校對知識處理——推理……HowNet(知網(wǎng))1988-1998-董振東董強知網(wǎng)(英文名稱How-Net)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫人工構(gòu)建,自底向上歸納義原(知網(wǎng)標記集)董振東,1998,《語義關(guān)系的表達和知識系統(tǒng)的建造》,載《語言文字應用》1998年第3期。/HowNet的目標:通向“真正”的理解HowNet定義的語義關(guān)系(a)上下位關(guān)系(b)同義關(guān)系(c)反義關(guān)系(d)對義關(guān)系(e)部件-整體關(guān)系(f)屬性-宿主關(guān)系(g)材料-成品關(guān)系(h)角色-事件關(guān)系施事/經(jīng)驗者/關(guān)系主體-事件關(guān)系 受事/內(nèi)容/領屬物-事件關(guān)系 工具-事件關(guān)系 場所-事件關(guān)系 ……HowNet詞項基本形式NO.=030010 記錄

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論