版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
單擊此處編輯母版副標(biāo)題樣式**1單擊此處編輯母版標(biāo)題樣式語(yǔ)義計(jì)算與語(yǔ)言知識(shí)庫(kù)俞士汶
朱學(xué)鋒■■■北京大學(xué)計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室 北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所Email:2010年5月21日,蘇州大學(xué)第11屆詞匯語(yǔ)義學(xué)研討會(huì)
CLSW2010
大會(huì)報(bào)告國(guó)家自然科學(xué)基金項(xiàng)目“No.
60970083〞北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所主要內(nèi)容自然語(yǔ)言處理現(xiàn)狀自然語(yǔ)言理解之路語(yǔ)義計(jì)算的內(nèi)容與方法語(yǔ)言知識(shí)庫(kù)結(jié)語(yǔ)與致謝〔1〕機(jī)器翻譯與機(jī)器輔助翻譯〔最早〕〔2〕信息檢索與搜索引擎〔前沿與熱點(diǎn)〕〔3〕文本與知識(shí)管理〔術(shù)語(yǔ)提取、分類、摘要、述評(píng)〕〔4〕人工系統(tǒng)的自然語(yǔ)言界面〔5〕詞典計(jì)算機(jī)輔助編纂……NLP是IT的子任務(wù),作為計(jì)算機(jī)處理的對(duì)象,發(fā)生了變化:表現(xiàn)形式〔字符串〕━?詞、句子、篇章字符信息〔數(shù)據(jù)集〕━?語(yǔ)言信息〔知識(shí)〕中國(guó)每年發(fā)布?中國(guó)語(yǔ)言生活綠皮書?之?中國(guó)語(yǔ)言生活狀況報(bào)告?,要處理10億字量級(jí)的海量數(shù)據(jù)〔字頻統(tǒng)計(jì)、詞頻統(tǒng)計(jì)、新詞語(yǔ)及流行語(yǔ)提取等北等京〕大,學(xué),計(jì)N算LP語(yǔ)言技學(xué)術(shù)研發(fā)究發(fā)所揮了關(guān)鍵ht的tp:支//i撐cl作.pk用u.e。du.c2n009年的?自然語(yǔ)言處理現(xiàn)狀自然語(yǔ)言處理現(xiàn)狀〔看看搜索引擎的水搜索平引擎〕的實(shí)例(2010年2月8日百度的搜索結(jié)果〕北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所查詢實(shí)例:雞肋是什么?結(jié)果之一:
這樣的老公不是雞肋是什么。
〔杭州網(wǎng),2007-10-12〕結(jié)果之二:
私家車上最好吃的雞肋是什么?
〔汽車之家·論壇,2009-07-30〕搜索引擎的基本原理——網(wǎng)頁(yè)信息的表示:關(guān)鍵詞索引——查詢信息的表達(dá):關(guān)鍵詞及其組合——看家本領(lǐng):字符串匹配,淺層的自然語(yǔ)言處理技術(shù)搜索引擎的發(fā)展空間與發(fā)展方向——在中國(guó)還有很大發(fā)展空間,并走向國(guó)際化李彥宏?環(huán)球時(shí)報(bào)?5月7日——技術(shù)突破:內(nèi)容索引與查詢意圖理解——百度提出框計(jì)算的理念,實(shí)質(zhì)性的改變是希望引進(jìn)語(yǔ)義分析深層的自然語(yǔ)言處理技術(shù),語(yǔ)義計(jì)算技術(shù)便有了用武之地。機(jī)器翻譯需要語(yǔ)義信息處理技術(shù)早已廣為人知。自然語(yǔ)言處理現(xiàn)狀北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所再看看機(jī)器翻譯的水平,以Google
Language
Tools為例。胡六點(diǎn)橫看成嶺側(cè)成峰,見仁見智?!舱?參考消息?2009年1月13日第10版臺(tái)報(bào)社論〕2009年1月13日測(cè)試結(jié)果6:00
Wang
Ling
Hu
as
the
side-feng,a
matter
of
opinion.2009年10月15日測(cè)試結(jié)果6:00
Wang
Hu
Ling
from
the
side,as
a
peak,a
matter
of
opinion.2010年3月13日的測(cè)試結(jié)果6:00
Wang
Hu
Ling
from
the
side,
as
a
peak,
a
matter
of
opinion.〔Contribute
a
better
translation〕2010年5月9日的測(cè)試結(jié)果Hu
Six
Points
ridge
or
a
peak,
a
matter
of
opinion.自然語(yǔ)言處理距離自然語(yǔ)言理解的最高境界,還有很遠(yuǎn)的路要走。最本質(zhì)的是人類對(duì)自己的語(yǔ)言理解機(jī)制這一復(fù)雜的大腦活動(dòng)了解甚少。自然語(yǔ)言理解之路英國(guó)?新科學(xué)家?周刊2005年4月9日的文章——生命進(jìn)化的十大奇跡:腦〔第3項(xiàng)〕和語(yǔ)言〔第4項(xiàng)〕腦常常被視作進(jìn)化過(guò)程中的最高成就,因?yàn)樗x予了人類一些高級(jí)特征,例如
語(yǔ)言、智慧、意識(shí)。語(yǔ)言是進(jìn)化的終極發(fā)明。在令人類區(qū)別于動(dòng)物的特征中,語(yǔ)言處于核心地位。語(yǔ)言也許稱得上是人類的決定性特
征之一。我們的祖先如何實(shí)現(xiàn)了語(yǔ)言從無(wú)到有的飛躍,這也許是科學(xué)史上最大的謎。語(yǔ)言是生物進(jìn)化的最后一筆。這是因?yàn)檎Z(yǔ)言令那些掌握了它的動(dòng)物超越了純生物的范疇。語(yǔ)言系統(tǒng)是動(dòng)物進(jìn)化到人的兩大標(biāo)志之一。語(yǔ)言理解機(jī)制的解密對(duì)智能本質(zhì)的認(rèn)知具有重要價(jià)值。北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所自然語(yǔ)言理解之路北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所自然語(yǔ)言處理是數(shù)值計(jì)算機(jī)在非數(shù)值領(lǐng)域最早的應(yīng)用〔MT,Turing試驗(yàn)〕,尚未取得突破性進(jìn)展。自然語(yǔ)言理解特別困難:〔1〕依據(jù)對(duì)人類語(yǔ)言機(jī)制的認(rèn)識(shí)〔2〕語(yǔ)言既是對(duì)象,又是工具〔3〕依據(jù)對(duì)當(dāng)代計(jì)算機(jī)能力的認(rèn)識(shí)〔4〕依據(jù)NLP技術(shù)發(fā)展的歷史經(jīng)驗(yàn)漢語(yǔ)理解研究和其他語(yǔ)言一樣困難,漢語(yǔ)信息處理技術(shù)又有特殊的課題?!`解實(shí)經(jīng)實(shí)經(jīng)例常之發(fā)一生陽(yáng)臺(tái)上關(guān)于自動(dòng)升降晾衣架壞了的對(duì)話北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所妻子:“嘿,過(guò)了一年才壞。〞丈夫:“什么呀,才一年就壞了。〞——用的時(shí)間長(zhǎng)——用的時(shí)間短——虛詞用法與詞義:才〔數(shù)量詞前后,意義不同〕丈夫理解了妻子的意思嗎?——背景知識(shí):保修期——知識(shí)激活機(jī)制?自然語(yǔ)言〔漢語(yǔ)〕理解的困難——實(shí)頓例悟之是二怎樣產(chǎn)生的?關(guān)于“沙漠化〞的文章“幾年前由于種植籽瓜有利可圖,使大批的種植者就到過(guò)渡帶來(lái)開墾,……。在這樣的綠洲和沙漠過(guò)渡帶開墾,極易造成風(fēng)蝕。〞——<今日民航>2001年9月號(hào)北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所自然語(yǔ)言〔漢語(yǔ)〕理解的困難自然語(yǔ)言理解之路北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所現(xiàn)在的研究只著眼于話語(yǔ)或文本。實(shí)際人類閱讀與交際是多通道的〔文字、語(yǔ)音、圖像多模態(tài)信息,腦、口、眼、耳并用),實(shí)現(xiàn)了多模態(tài)信息的融合,目前的自然語(yǔ)言理解研究才剛剛認(rèn)識(shí)到這一點(diǎn),只有一些初步的認(rèn)識(shí)和零星的積累。顧曰國(guó)教授建立了記錄實(shí)際場(chǎng)景的現(xiàn)場(chǎng)即席話語(yǔ)多模態(tài)語(yǔ)料庫(kù)〔包括話語(yǔ)活動(dòng)的音頻、視頻文本及其轉(zhuǎn)寫的文字〕。手語(yǔ)機(jī)器翻譯研究的啟示〔5月11日,手語(yǔ)研究講座〕。必須仰仗腦科學(xué)、認(rèn)知科學(xué)的進(jìn)步,多學(xué)科的交叉和融合才有希望。語(yǔ)言學(xué)〔計(jì)算語(yǔ)言學(xué)〕也有自己的貢獻(xiàn),特別是語(yǔ)義計(jì)算研究是向自然語(yǔ)言理解進(jìn)軍途中的一支重要的方面軍。語(yǔ)言表達(dá)的形式與承載的意義之間存在復(fù)雜的多對(duì)多的關(guān)系,任何一個(gè)孤立的語(yǔ)言片斷都存在歧義。自然語(yǔ)言處理最基本的任務(wù)就是在一定的語(yǔ)境〔環(huán)境〕中消解歧義。字面表達(dá)與真實(shí)含義之間又有距離,如何溝通。實(shí)現(xiàn)理解。語(yǔ)言學(xué)家:語(yǔ)義——流沙,泥潭,黑洞語(yǔ)義處理是自然語(yǔ)言理解的必由之路,再難也要研究。語(yǔ)義研究史實(shí):前仆后繼語(yǔ)義計(jì)算研究的主要內(nèi)容,可劃分為3個(gè)互有聯(lián)系、相互支持的3個(gè)層次:本體層次上的語(yǔ)義處理認(rèn)知層次上的語(yǔ)義處理語(yǔ)用層次上的語(yǔ)義處理北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所語(yǔ)義計(jì)算的內(nèi)容1
本體〔ontology〕層次上的語(yǔ)義處理——語(yǔ)義分析研究基于知識(shí)庫(kù)〔名詞的概念層級(jí)和動(dòng)詞形容詞的語(yǔ)義角色〕,本質(zhì)上就是借助客觀的世界知識(shí)〔常識(shí)〕消解語(yǔ)言單位和語(yǔ)言結(jié)構(gòu)的歧義。白天鵝——白/天鵝/?白天/鵝/?〔白天鵝飛過(guò)來(lái)了//白天鵝可以看家〕姜母鴨——姜/母鴨/?姜母/鴨/?維修車間的儀表儀表——意思完全不同的兩個(gè)詞〔她的儀表很端莊//她的儀表很精確〕各種語(yǔ)言的語(yǔ)義計(jì)算的主攻方向。英語(yǔ)領(lǐng)導(dǎo)潮流,以英語(yǔ)為背景,創(chuàng)立了各種理論、算法。漢語(yǔ)也有一定的成果和積累,與國(guó)際先進(jìn)水平的差距在縮小。北大穗志方、常寶寶、劉揚(yáng)、吳云芳、邵艷秋〔北京城市學(xué)院〕、金澎〔樂(lè)山師范學(xué)院〕等各位博士正在進(jìn)行的研究都屬于這個(gè)范疇。蘇州大學(xué)周國(guó)棟博士也在進(jìn)行面向句子和篇章的語(yǔ)義分析方法與計(jì)算模型研究,提出了基于配價(jià)結(jié)構(gòu)的中文句法語(yǔ)義計(jì)算模型,并借鑒依存分析算法,探究篇章中的各種結(jié)構(gòu)及各組成成分之間的語(yǔ)義關(guān)系。期望周國(guó)棟博士的研究將語(yǔ)義分析推向一個(gè)新的高度。北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所1
本體〔ontology〕層次上的語(yǔ)義處理北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所——ontology的自動(dòng)構(gòu)建研究黃居仁等新著:Ontology
and
The
Lexicon陸勤教授正在進(jìn)行
ontology
的自動(dòng)構(gòu)建研究專業(yè)知識(shí)與領(lǐng)域知識(shí)工程〔北大穗志方博士〕互聯(lián)網(wǎng)實(shí)現(xiàn)信息服務(wù)向知識(shí)服務(wù)的轉(zhuǎn)型面向web和基于web的領(lǐng)域知識(shí)獲取技術(shù)與領(lǐng)域知識(shí)本體構(gòu)造技術(shù)術(shù)語(yǔ)〔概念〕的自動(dòng)提取術(shù)語(yǔ)定義和概念屬性的自動(dòng)獲取概念層級(jí)結(jié)構(gòu)的自動(dòng)構(gòu)造〔層級(jí)關(guān)系與屬性值的相互參照〕人機(jī)互助的理念盡管自然語(yǔ)言理解研究的主攻方向一直是語(yǔ)義歧義消解,但是僅僅消解了歧義,還不能完全解決文本內(nèi)容理解的難題。一些文學(xué)表現(xiàn)手法,像隱喻、影射、雙關(guān)、夸張、擬人以及遣詞造句的技巧對(duì)自然語(yǔ)言處理研究提出了挑戰(zhàn)——超出歧義范圍。甚至,消歧也并非是語(yǔ)言理解的必要任務(wù)。實(shí)例〔雙關(guān)〕:“您的健康是天大的事——天大藥業(yè)〞北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所“您
的
健康
是“您
的
健康天
大
的
事〞是
天大
的
事〞“一面之緣,終生難忘〞這些使用技巧并非只見于于文學(xué)作品,人們?nèi)粘UZ(yǔ)言中也經(jīng)常使用,反映了人類的認(rèn)知思維機(jī)制。重點(diǎn)討論隱喻。2
認(rèn)知層次上的語(yǔ)義處理——以隱喻計(jì)算為例2
認(rèn)知層次上的語(yǔ)義處理——以隱喻計(jì)算為例2.1
對(duì)隱喻〔metaphor〕的基本認(rèn)識(shí)各個(gè)語(yǔ)言層級(jí)上都有隱喻存在:杏仁眼0
人流1
美女蛇構(gòu)詞層級(jí):卵石10詞匯層級(jí):潮流2朝陽(yáng)2
燃燒2
純凈2蓬首垢面
同舟共濟(jì)短語(yǔ)層級(jí):知識(shí)1的海洋1
/
播種1幸福1的種子1
/金融1海嘯1句子層級(jí):汽車喝汽油
/
老公是雞肋2篇章層級(jí):打起黃鶯兒,莫叫枝上啼。啼時(shí)驚妾夢(mèng),不得到遼西。北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所2.2
隱喻計(jì)算研究的任務(wù):〔1〕隱喻識(shí)別知識(shí)的海洋
——
海洋資源考察北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所〔2〕隱喻理解(與翻譯)知識(shí)的海洋
——樣豐富老公是雞肋
——樣食之無(wú)味棄之可惜〔3〕隱喻生成知識(shí)像海洋一老公像雞肋一2
認(rèn)知層次上的語(yǔ)義處理——以隱喻計(jì)算為例隱喻計(jì)算研究的方法〔1〕基于規(guī)那么〔邏輯〕的方法——發(fā)現(xiàn)本體與喻體間的沖突,尋找共同屬性〔喻底〕這個(gè)人是一頭獅子?!倔w與喻體那個(gè)人是老狐貍?!倔w與喻體森林里既有勇猛的獅子,也有狡猾的狐貍北。京大學(xué)計(jì)算語(yǔ)言學(xué)研究所——h喻ttp:體//ic和l.pk喻u.ed底2
認(rèn)知層次上的語(yǔ)義處理——以隱喻計(jì)算為例已做的研究工作〔1〕2002年提出研究設(shè)想,2004年列為
973課題“文本內(nèi)容理解的數(shù)據(jù)基礎(chǔ)〞〔2004年9月—2009年12月〕的子任務(wù)之一?!?〕2006年王治敏完成博士論文?漢語(yǔ)名詞短語(yǔ)隱喻識(shí)別研究?,即將由北京語(yǔ)言大學(xué)出版社正式出版。北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所2
認(rèn)知層次上的語(yǔ)義處理——以隱喻計(jì)算為例2
認(rèn)知層次上的語(yǔ)義處理——以隱喻計(jì)算為例2.5
隱喻計(jì)算研究在搜索中的潛在應(yīng)用〔1〕
提高查準(zhǔn)率——“起飛〞網(wǎng)頁(yè)索引與查詢都把詞語(yǔ)的本義和隱喻義區(qū)分開。檢索“起飛〞本義時(shí),過(guò)濾掉不相關(guān)的隱喻用法的網(wǎng)頁(yè),可以提高本義檢索的查準(zhǔn)率〔如:“航班起飛時(shí)間〞,“起飛跑道距離〞等等,排除“經(jīng)濟(jì)起飛〞、“東方美女歌壇起飛〞等網(wǎng)頁(yè)。北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所2
認(rèn)知層次上的語(yǔ)義處理——以隱喻計(jì)算為例2.5
隱喻計(jì)算研究在搜索中的潛在應(yīng)用〔3〕實(shí)驗(yàn)1:
“金融風(fēng)暴〞
、“金融海嘯〞喻指“金融危機(jī)〞query:“金融危機(jī)〞結(jié)果:只有“金融危機(jī)〞或“金融//危機(jī)〞query:“金融風(fēng)暴〞或“金融海嘯〞結(jié)果:同樣沒(méi)有“金融危機(jī)〞北京大學(xué)計(jì)搜算語(yǔ)索言學(xué)呈研究現(xiàn)所相互獨(dú)htt立p:/狀/ic態(tài)l.pk,u.e明du.顯cn降低2
認(rèn)知層次上的語(yǔ)義處理——以隱喻計(jì)算為例2.5
隱喻計(jì)算研究在搜索中的潛在應(yīng)用〔4〕
翻譯與跨語(yǔ)言搜索翻譯可以作為檢驗(yàn)隱喻識(shí)別與理解的一個(gè)指標(biāo)。鐵榔頭:iron
hammer?iron
fist?翻譯還涉及文化問(wèn)題。雞肋:a
chicken‘s
rib?tasteless
to
eat
but
awaste
to
cast
away——食之無(wú)味棄之可惜?該老北京公大學(xué)是計(jì)雞算語(yǔ)肋言學(xué):研T究Th所e
hushbttap:n/d/icl.ipksu.eadu.cn2
認(rèn)知層次上的語(yǔ)義處理——以隱喻計(jì)算為例2.5
隱喻計(jì)算研究在搜索中的潛在應(yīng)用〔5〕隱喻自動(dòng)識(shí)別之可行性分析作為喻體〔源域〕的詞語(yǔ)的有限性王治敏博士對(duì)?現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典?中
35198個(gè)名詞逐一排查,經(jīng)常用作隱喻的名詞只有700多個(gè)。首先在網(wǎng)頁(yè)中識(shí)別隱喻,建隱喻索引,進(jìn)而實(shí)北京現(xiàn)大學(xué)理計(jì)解算語(yǔ)、言學(xué)研究所〔1〕構(gòu)式的凸現(xiàn)意義這一鍋飯夠吃五個(gè)人這一張床可以睡三個(gè)人臺(tái)上坐著主席團(tuán)語(yǔ)言構(gòu)式凸現(xiàn)的意義并不等同于成分〔中心詞〕的默認(rèn)意義。這些構(gòu)式凸現(xiàn)的是實(shí)體與實(shí)體之間的數(shù)量分配關(guān)系、空間位置關(guān)系,主要?jiǎng)釉~與名詞間原有的施受關(guān)系等雖然存在,但退居次要地位?!?〕語(yǔ)義指向述補(bǔ)結(jié)構(gòu)、狀中結(jié)構(gòu)中的補(bǔ)語(yǔ)、狀語(yǔ)的語(yǔ)義指向〔文章〕寫完了/〔老師〕寫累了/〔毛筆〕寫禿了香噴噴地炸了一盤花生米/園園地圍成一圈原有的知識(shí)庫(kù)中的知識(shí)不夠用,要反映語(yǔ)義角色的變化過(guò)程與北結(jié)京果大學(xué)。計(jì)算語(yǔ)言學(xué)研究所3
語(yǔ)用層次上的語(yǔ)義處理〔3〕語(yǔ)義和諧律陸儉明:詞語(yǔ)之間語(yǔ)義制約的原那么,本質(zhì)上就是要求句子中的各個(gè)詞語(yǔ)之間在語(yǔ)義上要和諧。能否說(shuō),語(yǔ)言中就存在著“語(yǔ)義和諧律〞〔semantic
harmony
〕?拔出來(lái)/
*拔進(jìn)去/
插進(jìn)去/
*插出來(lái)說(shuō)話和氣點(diǎn)兒/
*說(shuō)話粗暴點(diǎn)兒/
說(shuō)話嚴(yán)肅點(diǎn)兒那個(gè)大蘋果他都吃了
/
*那顆小櫻桃他都吃了
/那顆小櫻桃松鼠都吃了我認(rèn)為相關(guān)研究有益于病句剖析和語(yǔ)言自動(dòng)生成。北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所3
語(yǔ)用層次上的語(yǔ)義處理在語(yǔ)義層面上實(shí)現(xiàn)對(duì)自然語(yǔ)言文本內(nèi)容的處理和理解,是長(zhǎng)期的研究任務(wù),有很多工作要做,首先是提出問(wèn)題,接著就是尋找解決這些問(wèn)題的方法。面向應(yīng)用系統(tǒng)的語(yǔ)言模型研究實(shí)現(xiàn)語(yǔ)言模型的算法研究夯實(shí)基礎(chǔ)——語(yǔ)言知識(shí)庫(kù)建設(shè)相對(duì)于前兩項(xiàng),第3項(xiàng)研究周期長(zhǎng),見效慢,更需要研究者耐得住寂寞??v觀全局,比較而言,早期對(duì)第3項(xiàng)的投入較少,但存活的成果卻較多。ICL/PKU
在這方面長(zhǎng)期堅(jiān)持,積累了一定的成果。北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所語(yǔ)義計(jì)算的研究方法主要內(nèi)容北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所自然語(yǔ)言處理現(xiàn)狀自然語(yǔ)言理解之路語(yǔ)義計(jì)算的內(nèi)容與方法語(yǔ)言知識(shí)庫(kù)結(jié)語(yǔ)與致謝自然語(yǔ)言處理系統(tǒng)的語(yǔ)言知識(shí)庫(kù)語(yǔ)言知識(shí)庫(kù)是自然語(yǔ)言處理系統(tǒng)不可或缺的組成部分,成敗的關(guān)鍵。在語(yǔ)言知識(shí)庫(kù)搭建的平臺(tái)上可以上演威武雄壯生動(dòng)活潑的應(yīng)用系統(tǒng)的劇目。語(yǔ)言知識(shí)庫(kù)1語(yǔ)言知識(shí)庫(kù)2語(yǔ)言知識(shí)庫(kù)3語(yǔ)言知識(shí)庫(kù)4……平臺(tái)/API……應(yīng)用程序1北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所應(yīng)用程序2面向以漢語(yǔ)為核心的多語(yǔ)言信息處理的語(yǔ)言知識(shí)庫(kù)的既有成果:ChineseLDC同義詞詞林董振東:HowNet臺(tái)灣中研院:現(xiàn)代漢語(yǔ)平衡語(yǔ)料庫(kù)、BOWICL/PKU:綜合型語(yǔ)言知識(shí)庫(kù)…
……已有一定基礎(chǔ)和積累,需要進(jìn)一步完善、更新、集成、規(guī)范,形成共同的基礎(chǔ)設(shè)施和開發(fā)平臺(tái)。需要面向新任務(wù)的創(chuàng)新工程:隱喻知識(shí)庫(kù),超本體的動(dòng)態(tài)過(guò)程知識(shí)庫(kù)〔廣義配價(jià)理論〕,多語(yǔ)言對(duì)譯〔參照〕信息的融北京入大。學(xué)計(jì)算語(yǔ)言學(xué)研究所漢語(yǔ)語(yǔ)義知識(shí)庫(kù)的現(xiàn)狀多年前已有的:〔1〕現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典〔8萬(wàn)詞語(yǔ)〕〔2〕面向漢英機(jī)器翻譯的現(xiàn)代漢語(yǔ)語(yǔ)義詞典〔6萬(wàn)〕〔3〕面向跨語(yǔ)言文本處理的中英文概念詞典〔10萬(wàn)概念〕〔4〕現(xiàn)代漢語(yǔ)多級(jí)標(biāo)注語(yǔ)料庫(kù)〔6000多萬(wàn)漢字〕〔5〕句子對(duì)齊的雙語(yǔ)語(yǔ)料庫(kù)〔英漢80萬(wàn)句對(duì)、日漢3萬(wàn)句〕〔6〕多個(gè)專業(yè)領(lǐng)域的術(shù)語(yǔ)庫(kù)〔35萬(wàn)英漢對(duì)照術(shù)語(yǔ)〕〔7〕現(xiàn)代漢語(yǔ)短語(yǔ)結(jié)構(gòu)規(guī)那么庫(kù)〔600余條規(guī)那么〕〔8〕用于語(yǔ)言知識(shí)庫(kù)開發(fā)的各種規(guī)范以及工具軟件…
……
…規(guī)模大,種類多〔詞語(yǔ)與文本、句法與語(yǔ)義、多語(yǔ)對(duì)照〕,質(zhì)量上乘,已產(chǎn)生廣泛影響,效益顯著,并形成綜合型語(yǔ)言知識(shí)庫(kù)〔獲教育部科技進(jìn)步一北等京獎(jiǎng)大學(xué)等計(jì)獎(jiǎng)算語(yǔ)勵(lì)言〕學(xué)。研究近所幾年,在htt9p7:/3/課icl題.p支k支u.持edu下.c得n得到進(jìn)一ICL/PKU的綜合型語(yǔ)言知識(shí)庫(kù)概要北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所?中文信息學(xué)報(bào)?2010年第2期報(bào)道:“……綜合型語(yǔ)言知識(shí)庫(kù)已完成許可使用權(quán)的協(xié)議有償轉(zhuǎn)讓200次左右其中以其第一塊基石?現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典?的轉(zhuǎn)讓次數(shù)最多,它的第一份協(xié)議簽于1996年2月2日,最后一份于2010年2月8日生效,前后歷時(shí)15年,還有新的協(xié)議正在洽談中。在IT領(lǐng)域,一項(xiàng)研究成果存活如此長(zhǎng)的時(shí)間,確實(shí)難能可貴。綜合型語(yǔ)言知識(shí)庫(kù)還在繼續(xù)發(fā)展。國(guó)家重點(diǎn)基礎(chǔ)研究項(xiàng)http:/目/i〔cl9.7p7k3u〕.e數(shù)du字.c內(nèi)n
容理解的理論北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所對(duì)“綜合型語(yǔ)言知識(shí)庫(kù)〞的兩點(diǎn)補(bǔ)充說(shuō)明“綜合型語(yǔ)言知識(shí)庫(kù)〞富 含詞匯語(yǔ)義信息“綜合型語(yǔ)言知識(shí)庫(kù)〞的最新進(jìn)展中英文概念詞典CCD〔10萬(wàn)概念按同義詞集synset加以組 織,描述概念間的上下位〔Hypernymy〕、整體-部分〔Holonymy〕、反義〔Antonymy〕、致使〔Cause〕、蘊(yùn)涵〔Entailment〕等關(guān)系,重在詞義間的聚合關(guān)系?,F(xiàn)代漢語(yǔ)語(yǔ)義詞典CSD〔6萬(wàn)個(gè)記錄〕中的記錄區(qū)分實(shí)詞的 細(xì)粒度的義項(xiàng),既將每個(gè)義項(xiàng)記錄歸入一定的語(yǔ)義類體
系,又描述它的配價(jià)信息〔包括配價(jià)數(shù)以及施事、受事、 與事的承擔(dān)者信息〕。重在詞義間的組合關(guān)系。?現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典?GKB,也含有相當(dāng)多的詞匯語(yǔ)義 知識(shí)。①GKB的每個(gè)記錄的“同形〞字段區(qū)分了詞的粗粒度義項(xiàng)。②在體賓動(dòng)詞分庫(kù)中,指明了及物動(dòng)詞的體詞性賓語(yǔ)可能擔(dān)任的語(yǔ)義角色〔語(yǔ)義格〕以及各種語(yǔ)義格的格標(biāo)記。③時(shí)間詞、處所詞乃至?xí)r間詞庫(kù)中的“時(shí)態(tài)〞字段以及語(yǔ)素庫(kù)中的“姓氏〞、“人名〞、“地名〞、“水名〞等字段北京都大給學(xué)計(jì)機(jī)算器語(yǔ)提言學(xué)示研了究所語(yǔ)義信息ht。tp://“綜合型語(yǔ)言知識(shí)庫(kù)〞富含詞匯語(yǔ)義信息“綜合型語(yǔ)言知識(shí)庫(kù)〞
的最新進(jìn)展北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所1?現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典?GKB中語(yǔ)法屬性的計(jì)量研究——概率型常用詞匯知識(shí)庫(kù)〔王萌等〕例證:“數(shù)名〞搭配的計(jì)量研究北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所名詞“數(shù)名”屬性值出現(xiàn)總次數(shù)直接受數(shù)詞修飾次數(shù)分散度值人/n可1778846579.025字/n可8003026.567書/n否1352240(限于“一”、“兩”)0.146?現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典?描述了名詞直接受數(shù)詞修飾的可能性:“人〞、“字〞——“可〞,“書〞——“否〞從語(yǔ)料統(tǒng)計(jì)實(shí)際次數(shù)〔概率〕,驗(yàn)證了一部分詞的該屬性的“可/否〞值,但對(duì)“書〞的該屬性的值那么提出質(zhì)疑。進(jìn)一步計(jì)算“熵〞值〔反映了數(shù)詞的分散度〕,那么厘清了自由搭配與固定搭配的界限?!熬C合型語(yǔ)言知識(shí)庫(kù)〞
的最新進(jìn)展北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所?現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典?GKB中語(yǔ)法屬性的計(jì)量研究——概率型常用詞匯知識(shí)庫(kù)〔王萌等〕大規(guī)模詞義〔義項(xiàng)〕標(biāo)注語(yǔ)料庫(kù)〔吳云芳、金澎、張仰森 等〕——基于GKB,粗粒度〔同形〕,2800萬(wàn)漢字文本80萬(wàn)同形標(biāo)注——基于CSD,細(xì)粒度義項(xiàng),近700萬(wàn)漢字文本8萬(wàn)義項(xiàng)編碼標(biāo)注樣例:粗細(xì)粒度詞義標(biāo)注語(yǔ)料庫(kù)北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所①/v丁/nr玉珍/nr把/p
沖/v!A-1
好/a的/u咖啡/n交了/u孔/nr玲/nr。/w②待/p我/r再/d去/v
沖/v!A-2
膠卷/n時(shí)/Ng,/w③有/v人/n嫌/v臟/a,/w提出/v用/v水/n
沖/v!A3一/m
沖/v!A-3
。/w④⑤一/m只/q白/a天鵝/n直/d
沖/v!B
云霄/n1995年/t洪水/n
沖/v!B
倒/v了/u他/r家/n村子/n里/f的/u3/m間/q土屋/n,/w也/d沒(méi)有/v能力/n翻蓋/v。/w“綜合型語(yǔ)言知識(shí)庫(kù)〞
的最新進(jìn)展北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所?現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典?GKB中語(yǔ)法屬性的計(jì)量研究——概率型常用詞匯知識(shí)庫(kù)〔王萌等〕大規(guī)模詞義〔義項(xiàng)〕標(biāo)注語(yǔ)料庫(kù)〔吳云芳、金澎、張仰森 等〕——基于GKB,粗粒度〔同形〕,2800萬(wàn)漢字文本,80萬(wàn)同形標(biāo)注——基于CSD,細(xì)粒度義項(xiàng),近700萬(wàn)漢字文本,8萬(wàn)義項(xiàng)標(biāo)注面向信息處理的成語(yǔ)知識(shí)庫(kù)〔王雷、李蕓等〕——成語(yǔ)〔習(xí)用語(yǔ)〕數(shù)量多,信息豐富,適用于MT,
CAT,IR 等等樣例:成語(yǔ)知識(shí)庫(kù)部分字段北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所成語(yǔ):自暴自棄直譯:to
expose
and
throw
one
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025制作合同(廣告設(shè)計(jì))
- 城市配送皮卡車租賃合同
- 政府項(xiàng)目招投標(biāo)管理規(guī)則
- 逝世待遇規(guī)定
- 深圳房產(chǎn)交易產(chǎn)權(quán)清晰補(bǔ)充協(xié)議
- 國(guó)有股權(quán)投資決策辦法
- 通信行業(yè)差旅成本優(yōu)化
- 玩具店開荒保潔施工合同
- 2025水泥購(gòu)銷合同版
- 建筑材料員工保障計(jì)劃
- 股骨髁上骨折診治(ppt)課件
- 高頻焊接操作技術(shù)規(guī)范
- 土壤鹽堿化精華(圖文并茂一目了然鹽堿化的過(guò)程)(課堂PPT)
- 國(guó)家開放大學(xué)《房屋建筑混凝土結(jié)構(gòu)設(shè)計(jì)》章節(jié)測(cè)試參考答案
- GB_T4897-2015刨花板(高清版)
- 公路工程竣工驗(yàn)收辦法
- 帆軟BIFineBI技術(shù)白皮書
- 費(fèi)用報(bào)銷單模板-通用版
- 絞車斜巷提升能力計(jì)算及絞車選型核算方法
- 建筑設(shè)計(jì)院設(shè)計(jì)流程
- [方案]鐵路行車組織設(shè)計(jì)說(shuō)明書
評(píng)論
0/150
提交評(píng)論