面向計(jì)算機(jī)的語言研究_第1頁
面向計(jì)算機(jī)的語言研究_第2頁
面向計(jì)算機(jī)的語言研究_第3頁
面向計(jì)算機(jī)的語言研究_第4頁
面向計(jì)算機(jī)的語言研究_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、,面向計(jì)算機(jī)的語言研究,黃昌寧 微軟亞洲研究院 ,報(bào)告提綱,1.自然語言處理(NLP)的目標(biāo) 2.自然語言的歧義性 3.概率化參數(shù)模型(PPM) 4.應(yīng)用系統(tǒng)舉例 5.結(jié)論(兩種語言研究的對(duì)比),1. 自然語言處理的目標(biāo), 讓用戶能通過自然語言與計(jì)算機(jī)對(duì)話 The future of computing is the computer that talks, listens, sees, and learns. That is what is being created at Microsoft Research. - Bill Gates 通過機(jī)器翻譯跨越語言壁壘,以便讓全世界每個(gè)用戶都能共

2、享因特網(wǎng)的浩瀚信息和無限商機(jī)。,大規(guī)模真實(shí)文本處理, NLP 從實(shí)驗(yàn)室走向?qū)嵱没闹匾獦?biāo)志 1990年被列為第13屆國(guó)際計(jì)算語言學(xué)大會(huì) (Coling90)的主題 12年來取得的成果: 搜索引擎: MyNews: 信息抽取(IE): 語料庫(kù)標(biāo)注:http:/www.hcu.ox.ac.uk/BNC/,方法論的分歧,關(guān)于經(jīng)驗(yàn)主義和理性主義方法的論爭(zhēng) 自然語言的歧義性和大規(guī)模真實(shí)文本處理的需求把經(jīng)驗(yàn)主義方法推向第一線。 十年前第4屆機(jī)器翻譯的理論和方法國(guó)際會(huì)議(TMI-92) 的主題是:“機(jī)器翻譯中的經(jīng)驗(yàn)主義和理性主義方法” 。 面向計(jì)算機(jī)的語言研究:語言知識(shí)表示和知識(shí)獲取都發(fā)生了實(shí)質(zhì)性的轉(zhuǎn)變。,

3、報(bào)告提綱,1.自然語言處理(NLP)的目標(biāo) 2.自然語言的歧義性 3.概率化參數(shù)模型(PPM) 4.應(yīng)用系統(tǒng)舉例 5.結(jié)論(兩種語言研究的對(duì)比),同音字漢字拼音輸入,每個(gè)不帶調(diào)的音節(jié)平均對(duì)應(yīng)19個(gè)漢字 單音節(jié)“yi”對(duì)應(yīng)131個(gè)漢字:一,以,已,異,亦,伊,意,易,毅,儀,依,宜,議,衣 shishi:實(shí)施,事實(shí),實(shí)時(shí),實(shí)事,適時(shí),時(shí)時(shí) 一個(gè)含10個(gè)音節(jié)的句子,平均生成 1910 條可能的漢字序列 用詞的三元模型(trigram)實(shí)現(xiàn)拼音-漢字轉(zhuǎn)換,出錯(cuò)率比市場(chǎng)上原有產(chǎn)品大約減小50%,多音字文語轉(zhuǎn)換(TTS), 行(xing):步行,一行,行頭,人行道, 發(fā)行,流行, 進(jìn)行, 行(hang)

4、: 行列,行業(yè),排行,行家, 人行, 工商行, 樂(le): 快樂,歡樂, 娛樂, 樂(yue): 音樂,樂隊(duì),樂手,,自動(dòng)分詞, 交集型歧義字段(OAS):AB/C 或 A/BC 不只是,從今后,法學(xué)院,曲劇團(tuán),熱湯面,大隊(duì)長(zhǎng) 建設(shè)/有/效率/的精干的機(jī)構(gòu) (1694) 他/只得/到/工廠值班室去睡覺(325) 組合型歧義字段(CAS):AB 或 A/B 上將,成人,學(xué)會(huì),國(guó)有,個(gè)人,馬上,都會(huì),陣風(fēng) 怎么樣/才/能/抓住機(jī)遇 (202:24) 未登錄詞識(shí)別(誤切) 坎/昆/市/市長(zhǎng)/拉/臘/和/夫人 瑞/閩/鋁/板/帶/有限公司,自動(dòng)分詞的評(píng)測(cè),對(duì)一個(gè)句法分析系統(tǒng)的評(píng)測(cè) 錯(cuò)誤的分布: 分詞

5、 詞性 組塊 中心詞 40% 24% 12% 24% 分詞錯(cuò)誤的分布: 人名 地名 機(jī)構(gòu)名 新詞 OAS 10% 20% 30% 30% 10%,專名識(shí)別的評(píng)測(cè),人名(%) 地名(%)機(jī)構(gòu)名(%) P R P R P R 系統(tǒng)A 94.5 78.1 85.4 72.0 71.3 13.1 系統(tǒng)B 90.7 74.4 93.5 44.2 64.2 46.9 系統(tǒng)C 78.0 78.7 76.7 73.6 81.7 21.6 測(cè)試集 4,347 5,311 3,850 (1MB),思考問題,分詞的任務(wù)定義清楚了嗎?知識(shí)從哪里來? 詞典為什么幫不上忙? 靠現(xiàn)有的句法-語義知識(shí)能解決分詞歧義嗎? 一個(gè)

6、重要的理念 面向計(jì)算機(jī)的語言知識(shí)有什么特性? 語言運(yùn)用知識(shí)的來源:語料庫(kù) 知識(shí)的表示:概率化參數(shù)模型 語言知識(shí)的獲?。航y(tǒng)計(jì)學(xué)習(xí)理論,多乂詞, 據(jù)同義詞詞林統(tǒng)計(jì): 最小類總數(shù): 1,428 詞形總數(shù): 42,724 多義詞占詞形總數(shù)的 14.8% 據(jù)語料庫(kù)統(tǒng)計(jì): 多義詞占總詞次數(shù)的 42%,(句法)結(jié)構(gòu)歧義,結(jié)構(gòu)歧義是通過詞例動(dòng)態(tài)顯現(xiàn)的: V N1 de N2 削蘋果的/刀NP; 削/蘋果的皮VP P N1 de N2 對(duì)系統(tǒng)的/評(píng)測(cè)NP; 對(duì)/評(píng)測(cè)的系統(tǒng)PP NumP N1 de N2 五個(gè)公司的職員; 五個(gè)公司的職員 N1 N2 N3 現(xiàn)代/漢語詞典; 新版漢語/詞典,(句法)結(jié)構(gòu)歧義(續(xù))

7、, NP V N % 打擊力度; 委托方式 VP V N % 打擊盜版; 委托甲方 短語類型歧義: 該 公司 / 正在 招聘 / 銷售 人員NP。 地球 / 在 不斷 / 改變 形狀VP。,(句法)結(jié)構(gòu)歧義(續(xù)), NPN V % 市場(chǎng)調(diào)查;政治影響 SNP VP % 價(jià)格攀升。局勢(shì)穩(wěn)定。 短語邊界歧義: 中國(guó)的鐵路 建設(shè)NP 發(fā)展很快。 中國(guó)的鐵路NP 建設(shè) 得很快。,思考問題,短語結(jié)構(gòu)規(guī)則(PSG)為什么不能消解短語邊界和短語類型的歧義? 句法規(guī)則的確是遣詞造句的動(dòng)態(tài)知識(shí),但詞類標(biāo)記是否丟失了太多的詞例信息? 復(fù)雜特征集和合一語法怎么樣? 詞匯主義(lexicalism)怎么樣? 如何表示

8、和獲取顆粒度更細(xì)、覆蓋面更寬的語言知識(shí)?,報(bào)告提綱,1.自然語言處理(NLP)的目標(biāo) 2.自然語言的歧義性 3.概率化參數(shù)模型(PPM) 4.應(yīng)用系統(tǒng)舉例 5.結(jié)論(兩種語言研究的對(duì)比),OAS 的語料調(diào)查, 其中約 94% 是偽歧義,即只有一種切分: 挨/批評(píng); 愛/國(guó)家; 愛情/詩(shī); 市/政府 真歧義占 6%,它由兩部分組成: 5.3% 通常只有一種切分,如: 解除/了; 其/實(shí)質(zhì); 與/其他; 提/出來 必須依靠上下文才能消歧的只占 0.7%: 應(yīng)用于; 從小學(xué); 前進(jìn)一步 利用上述知識(shí),OAS 的消歧正確率可達(dá) 92%,CAS 的語料調(diào)查, 讓/人/生/厭/的/行為 (1:84) 一/

9、種/是/非/和平/方式 (7:14) 拉達(dá)鄉(xiāng)中心校/是/一/所/有/七/名/教師/的/小學(xué)。(4:198) 首先需要有一張 CAS 詞表 為每個(gè) CAS 制訂一條規(guī)則或一對(duì)分類器以便根據(jù)特定的上下文選擇正確切分 概率化參數(shù)模型使 CAS 的消歧正確率達(dá)96% 1Xiao Luo, Maosong Sun, and Benjamin K.Tsou. Covering ambiguity resolution in Chinese word segmentation based on context information. Proceedings of COLING2002, Taiwan.,C

10、AS 消歧,拉達(dá)鄉(xiāng)中心校/是/一/所/有/七/名/教師/的/小學(xué) w-3 w-2 w-1 CAS w1 w2 w3 知識(shí)表示:向量空間模型(VSM) CAS不切分的向量 v0 = (t01 t02 t0m) CAS切分的向量 v1= (t11 t12 t1m) 其中m是向量的維數(shù)(即語境詞的個(gè)數(shù)),tij是詞wij的權(quán)重(由位置和頻度來確定)。 輸入句子生成向量vinput。分別計(jì)算向量vinput和v0 、v1之間的夾角,即可知該CAS要不要切分。,介詞短語(PP)附加, 例句: Pierre Vinken, 61 years old, joined the board as a nonex

11、ecutive director. 令A(yù)=1表示名詞附加,A=0為動(dòng)詞附加,則 (A=0, V=joined, N1=board, P=as, N2=director) 參數(shù): Pr (A=1 | V=v, N1=n1, P=p, N2=n2) 算法:若 Pr (1 | v, n1, p, n2) 0.5 則 判定 PP 附加于 n1 否則 附加于 v,介詞短語附加(續(xù)), 語料庫(kù): 華爾街日?qǐng)?bào)(WSJ)樹庫(kù) 訓(xùn)練集: 20,801個(gè)四元組 測(cè)試集: 3,097個(gè)四元組 自動(dòng)判定精度的上下限分析: 一律視為名詞附加 (A1) 59.0% 只考慮介詞p的最常見附加 (unigram)72.2%

12、三位專家只根據(jù)四個(gè)中心詞判斷 88.2% 三位專家根據(jù)全句判斷 93.2%,介詞短語附加(續(xù)), 實(shí)驗(yàn)結(jié)果: 四元組總數(shù) 3,097 正確判斷數(shù) 2,606 平均精度 84.1% 若以上限值88.2%為100計(jì),精度已達(dá)95.4%。 2 M. Collins and J. Brooks. Preposition phrase attachment through a backed-off model. In Proc of the 3rd WVLC, Cambridge, MA, 1995.,統(tǒng)計(jì)語言模型(SLM), 令W=w1, ,wn 為任一詞序列,則 P(W) = P(w1)P(w2|w

13、1) P(wn|w1, ,wn-1) 若近似認(rèn)為,任一詞的出現(xiàn)只同它前一個(gè)詞有關(guān),則有二元模型(bigram): P(W) P(w1)i=2,nP(wi|wi-1) 設(shè)語料庫(kù)的總詞次數(shù)為N,則概率參數(shù)估算為: P(wi|wi-1) count(wi-1wi) / count(wi-1) P(wi) count(wi) / N,語音識(shí)別,語音識(shí)別可視為求以下條件概率的極大值 W*= argmaxW P(W|speech signal) = argmaxW P(speech signal|W) P(W) /P(speech signal) = argmaxW P(speech signal|W)

14、P(W) 其中,P(W) 為語言模型,通過語料庫(kù)訓(xùn)練獲得; P(speech signal|W) 叫做聲學(xué)模型。 目前市場(chǎng)上的中外文聽寫機(jī)產(chǎn)品都是用 三元模型實(shí)現(xiàn)的, 幾乎完全不用句法-語義分析手段。,詞性標(biāo)注, 詞典中約 14% 的詞形具有不只一個(gè)詞性,而在一個(gè)語料庫(kù)中總詞次數(shù)的約 30% 是兼類詞。 系統(tǒng)名 TAGGIT(1971) CLAWS(1987) 標(biāo)記數(shù) 86 133 方法 3000條規(guī)則 隱馬爾科夫模型 標(biāo)注精度 77% 96% 測(cè)試語料 布朗語料庫(kù) LOB語料庫(kù) 3Garside,R. et al (Eds.). The Computational Analysis of E

15、nglish: A Corpus-Based Approach. London: Longman, 1989,詞性標(biāo)注(續(xù)), 令 C 和 W 分別代表詞類標(biāo)記序列和詞序列,則詞性標(biāo)注可視為計(jì)算如下條件概率的極大值 C*= argmaxC P(C|W) = argmaxC P(W|C)P(C) / P(W) argmaxC i=1,nP(wi|ci )P(ci |ci-1 ) P(W|C) i=1,nP(wi|ci ) (獨(dú)立性假設(shè)) 參數(shù) P(wi|ci ) count(wi,ci) / count(ci) P(C) i=1,n P(ci |ci-1 ) ( 二元模型) 參數(shù) P(ci |c

16、i-1 ) count(ci-1ci) / count(ci-1),基于SLM的自動(dòng)分詞,設(shè)S是由漢字串組成的句子,W是所有可能被切分出來的詞序列。則分詞結(jié)果是: W* = argmaxW P(W|S) = argmaxW P(S|W)P(W) 專名PN、LN、ON各為一類,其余每詞一類,建立基于類的N-gram模型。設(shè)C為類序列: C* = argmaxC P(S|C)P(C) PN模型: P(S|C) P(李際生|PN) 語境模型: P(ci|ci-1) P(PN|研究員),詞義排歧(WSD), 根據(jù)同義詞詞林統(tǒng)計(jì): Ga15: 醒悟 懂事 (1)醒悟 覺悟 省悟 覺醒 清醒 醒 如夢(mèng)初醒

17、 大夢(mèng)初醒 (Ib04) (2)懂事 記事兒 開竅 通竅 每個(gè)義類都可以用一個(gè)特征向量表示,其中的特征就是語料庫(kù)中和該義類的詞在 d 距離內(nèi)同現(xiàn)的所有實(shí)詞。,詞義排歧(續(xù)), 語義空間的兩個(gè)假設(shè) 假設(shè)1:如果兩個(gè)詞的詞義相同或相似,則它們?cè)谖谋局袑?duì)應(yīng)的上下文相似。 假設(shè)2:意義相同或相似的一些詞,在語義空間上體現(xiàn)為一個(gè)密集的點(diǎn)陣。因此可以用一個(gè)義類向量來表示。 義類向量可當(dāng)作該義類的“分類器” 。它可通過未經(jīng)義類標(biāo)注的語料庫(kù)獲取,因此這種方法又叫無指導(dǎo)學(xué)習(xí)方法。用義類向量方法進(jìn)行大規(guī)模非受限文本詞義標(biāo)注, 4 黃昌寧、李涓子:詞義排歧的一種語言模型,語言文字應(yīng)用2000年第3期。,報(bào)告提綱,1

18、.自然語言處理(NLP)的目標(biāo) 2.自然語言的歧義性 3.概率化參數(shù)模型(PPM) 4.應(yīng)用系統(tǒng)舉例 5.結(jié)論(兩種語言研究的對(duì)比),信息檢索(IR),任務(wù):從一個(gè)大型文檔庫(kù)中找出與某一查詢相關(guān)的那些文檔。 怎樣表示文檔和查詢的內(nèi)容? 索引問題 “基于內(nèi)容” “基于理解” 如何度量文檔和查詢之間的相關(guān)度?檢索過程 如何評(píng)價(jià)一個(gè)信息檢索系統(tǒng)?精度和召回率 精度 = 檢索到的相關(guān)文檔數(shù) / 檢索到的文檔總數(shù) 召回率 = 檢索到的相關(guān)文檔數(shù) / 庫(kù)中相關(guān)文檔總數(shù),信息檢索(續(xù)),信息檢索大會(huì)TREC (/) 1992年起每年舉辦一屆大會(huì)。得到美國(guó)國(guó)防部(DARP

19、A)和國(guó)家標(biāo)準(zhǔn)技術(shù)局(NIST)的資助。 通過提供大規(guī)模測(cè)試語料和統(tǒng)一的評(píng)測(cè)方法來支持IR技術(shù)的研發(fā)。 1999年 TREC-8宣布,提交給大會(huì)的檢索系統(tǒng)七年間效率提高了一倍。但迄今沒有證據(jù)表明NLP技術(shù)能顯著提高IR系統(tǒng)的性能。 一直到1999年的問答系統(tǒng)(QA)評(píng)比,NLP技術(shù)才嶄露頭角。,信息檢索(續(xù)), 測(cè)試內(nèi)容:不同索引單位對(duì)中文信息檢索的影響 評(píng)測(cè)指標(biāo):11點(diǎn)平均精度 測(cè)試預(yù)料庫(kù):TREC5/6 提供 內(nèi)容:人民日?qǐng)?bào)(1991-1993) 新華社新聞稿(1994-1995) 文檔數(shù):164,789篇 文檔平均長(zhǎng)度:507字 規(guī)模:167.4 MB 查詢數(shù):54個(gè) 查詢平均長(zhǎng)度:119字,信息檢索(續(xù)),信息抽取(IE),MUC 以限定領(lǐng)域的信息抽取為目標(biāo) IE可分解為如下子任務(wù): 命名實(shí)體(NE)識(shí)別:人名,地名,機(jī)構(gòu)名,日期,時(shí)間,貨幣,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論