句法分析-中國(guó)計(jì)算機(jī)學(xué)會(huì)_第1頁(yè)
句法分析-中國(guó)計(jì)算機(jī)學(xué)會(huì)_第2頁(yè)
句法分析-中國(guó)計(jì)算機(jī)學(xué)會(huì)_第3頁(yè)
句法分析-中國(guó)計(jì)算機(jī)學(xué)會(huì)_第4頁(yè)
句法分析-中國(guó)計(jì)算機(jī)學(xué)會(huì)_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2021/3/101 漢語(yǔ)并列關(guān)系的識(shí)別研究漢語(yǔ)并列關(guān)系的識(shí)別研究 北京信息科技大學(xué) 研三 鄭略省 2021-7-23 2021/3/102 主要內(nèi)容 n研究的意義 n并列關(guān)系的標(biāo)注方式 n并列關(guān)系的構(gòu)成角色 n并列關(guān)系的特征選擇 n實(shí)驗(yàn)結(jié)果分析 n結(jié)論 2021/3/103 研究的意義 n自然語(yǔ)言深層處理技術(shù)已用于機(jī)器翻譯 、信息抽取和問(wèn)答系統(tǒng)等方面 n句法分析是自然語(yǔ)言深層處理的基礎(chǔ) n依存句法比短語(yǔ)句法更容易處理 有 江南 南部小到中雨 貴州西部 將 華南 Root SBV COO ATT ADV VOB COO ATT 2021/3/104 研究的意義 n目前依存句法分析研究的重心放在

2、統(tǒng)一 建模上,對(duì)漢語(yǔ)特殊結(jié)構(gòu)的研究較少 nMcDonald的方法整體識(shí)別效果LAS 和 UAS為78.2%,80.8% n并列關(guān)系識(shí)別效果偏低,正確率和召回 率分別為64.0%, 54.8% 2021/3/105 研究的意義 n漢語(yǔ)并列結(jié)構(gòu)研究主要在于識(shí)別并列結(jié) 構(gòu)的邊界,并不能直接應(yīng)用到依存句法 分析當(dāng)中 (貴州 南部 、江南 、華南 西部) 將 有 小到中雨 2021/3/106 主要內(nèi)容 n研究的意義 n并列關(guān)系的標(biāo)注方式 n并列關(guān)系的構(gòu)成角色 n并列關(guān)系的特征選擇 n實(shí)驗(yàn)結(jié)果分析 n結(jié)論 2021/3/107 并列關(guān)系的標(biāo)注方式 n依存語(yǔ)法中并列關(guān)系(COO)的標(biāo)注方 式由并列詞組、核

3、心詞和尾詞組成 u并列詞組,指的是在同一并列結(jié)構(gòu)中發(fā)生并列 關(guān)系的所有并列成分 u核心詞,指的是在并列詞組中有一個(gè)并列成分 充當(dāng)核心節(jié)點(diǎn)的作用,其它并列成分均以核心 詞為父親節(jié)點(diǎn) u尾詞,指的是距離核心詞最遠(yuǎn)的并列成分 標(biāo)注方式是遵循左核心原則 2021/3/108 主要內(nèi)容 n研究的意義 n并列關(guān)系的標(biāo)注方式 n并列關(guān)系的構(gòu)成角色 n并列關(guān)系的特征選擇 n實(shí)驗(yàn)結(jié)果分析 n結(jié)論 2021/3/109 并列關(guān)系的構(gòu)成角色 n角色表是識(shí)別并列關(guān)系的基礎(chǔ)。根 據(jù)角色表,計(jì)算機(jī)能夠理解漢語(yǔ)并 列結(jié)構(gòu) 編碼編碼 意義意義例子例子 H并列詞組的核心 詞 經(jīng)濟(jì)經(jīng)濟(jì) 、 政治 和 外交 B并列詞組的非核 心詞

4、 經(jīng)濟(jì) 、 政治政治 和 外交外交 O以上之外其它的 角色 貴州 O H O B O O B 南部江南、華南西部 COO COO 2021/3/1010 并列關(guān)系的構(gòu)成角色 n并列關(guān)系可分為無(wú)標(biāo)記和有標(biāo)記 n無(wú)標(biāo)記:結(jié)構(gòu)復(fù)雜,不易識(shí)別 u “指手畫腳,照本宣科”,“深入細(xì)致,扎實(shí) 有效” n有標(biāo)記:結(jié)構(gòu)上由并列標(biāo)記連接 u連詞:和、與、并”,中國(guó)和南非 u標(biāo)點(diǎn)符號(hào):主要是逗號(hào)為主 編碼編碼意義意義例子例子 H并列詞組的核心詞經(jīng)濟(jì)經(jīng)濟(jì) 、 政治 和 外交 B并列詞組的非核心詞經(jīng)濟(jì) 、 政治政治 和 外交外交 R并列詞組內(nèi)部的并列 標(biāo)記 倉(cāng)庫(kù) 、 廠房 和 民宅 I并列詞組內(nèi)部的非并 列標(biāo)記 匯率

5、 和 股票 價(jià)格 O以上之外其它的角色 貴州 O H R B R I B 南部江南、華南西部 2021/3/1011 并列關(guān)系的構(gòu)成角色 n有標(biāo)記并列關(guān)系比較難識(shí)別的是嵌 套并列關(guān)系,主要困難在于個(gè)別并 列成分充當(dāng)多重角色 老虎 H R B R X R B 、和麻雀竹、 梅 編碼編碼意義意義例子例子 H并列詞組的核心詞經(jīng)濟(jì)經(jīng)濟(jì) 、 政治 和 外交 B并列詞組的非核心詞經(jīng)濟(jì) 、 政治政治 和 外外 交交 R并列詞組內(nèi)部的并列 標(biāo)記 倉(cāng)庫(kù) 、 廠房 和 民宅 I并列詞組內(nèi)部的非并 列標(biāo)記 匯率 和 股票 價(jià)格 X并列詞組的核心詞, 又是另一個(gè)并列詞組 的非核心詞 松鼠 、 麻雀 和 竹 、 梅 、

6、 松 、 柏 O以上之外其它的角色 COO COO COO 2021/3/1012 并列關(guān)系的構(gòu)成角色 n該文根據(jù)并列關(guān)系的特點(diǎn)和上下 文信息,制定了完整角色表 編碼編碼 意義意義例子例子 H并列詞組的核心詞經(jīng)濟(jì) 、 政治 和 外交 指手畫 腳 , 照本宣科 X并列詞組的核心詞, 又是另一個(gè)并列詞組 的非核心詞 松鼠 、 麻雀 和 竹 、 梅 、 松 、 柏 B并列詞組的非核心詞青草 、鮮花 和 河流 、 湖泊 R并列詞組內(nèi)部的并列 標(biāo)記 倉(cāng)庫(kù) 、 廠房 和 民宅 I并列詞組內(nèi)部的非并 列標(biāo)記 匯率 和 股票 價(jià)格 L核心詞的上文貴州 南部 、 江南 、 華南 西部 F尾詞的下文華南 西部 和

7、 北部 有 小到中雨 C既是上文又是下文那些 詩(shī)句 、 那些 祝辭 , 喜 悅 、 激動(dòng) 、 欣慰 之 情 O以上之外其它的角色 2021/3/1013 主要內(nèi)容 n研究的意義 n并列關(guān)系的標(biāo)注方式 n并列關(guān)系的構(gòu)成角色 n并列關(guān)系的特征選擇 n實(shí)驗(yàn)結(jié)果分析 n結(jié)論 2021/3/1014 并列關(guān)系的特征選擇 n特征的合理選擇是識(shí)別并列關(guān)系的關(guān)鍵。 n特征集是判別某個(gè)詞或字在并列關(guān)系中充 當(dāng)何種角色的主要依據(jù)。 2021/3/1015 并列關(guān)系的識(shí)別 n特征集通常由未識(shí)別的詞與其詞性,上下 文與其詞性組成,或相互復(fù)合而成。如表 原子特征復(fù)合特征 W(i) W(i+1) W(i+2) W(i-1

8、) W(i-2) P(i) P(i+1) P(i+2) P(i-1) P(i-2) W(i)+ P(i) W(i+1)+ P(i+1) W(i+2)+ P(i+2) W(i-1)+ P(i-1) W(i-2)+ P(i-2) P(i+2)+ P(i+1)+ P(i) P(i+1)+ P(i)+ P(i-1) P(i)+ P(i-1)+ P(i-2) 2021/3/1016 并列關(guān)系的特征選擇 n并列結(jié)構(gòu)還有個(gè)很重要的特點(diǎn),就是結(jié)構(gòu) 的平行性,也就是修飾詞的共享或相似 u各種/r 形/n 、 形/n 、 蝶形/n u當(dāng)?shù)?nl 群眾/n 和 外地/nl 游客/n n并列結(jié)構(gòu)還有其它表現(xiàn)形式,較難

9、識(shí)別的 是修飾詞和被修飾詞的詞性均為“n”的 情況 u企業(yè)/n 及/c 投資/n 機(jī)構(gòu)/n u政治/n 和/c 工資/n 待遇/n 2021/3/1017 并列關(guān)系的特征選擇 n 2021/3/1018 并列關(guān)系的特征選擇 n 2021/3/1019 并列關(guān)系的特征選擇 n以D表示詞性為“n”的類別(A,Q,M ,U),U表示詞性非“n”。在特征集 中引入D標(biāo)記。 原子特征原子特征復(fù)合特征復(fù)合特征 D(i) D(i+1) D(i+2) D(i-1) D(i-2) D(i)+ P(i) D(i+1)+ P(i+1) D(i+2)+ P(i+2) D(i-1)+ P(i-1) D(i-2)+ P(

10、i-2) 2021/3/1020 主要內(nèi)容 n研究的意義 n并列關(guān)系的標(biāo)注方式 n并列關(guān)系的構(gòu)成角色 n并列關(guān)系的特征選擇 n實(shí)驗(yàn)結(jié)果分析 n結(jié)論 2021/3/1021 實(shí)驗(yàn)結(jié)果分析 n本文以HIT-IR-CDT前8000句作為訓(xùn)練語(yǔ) 料,后1000句作為測(cè)試語(yǔ)料,每個(gè)句子 的平均長(zhǎng)度為21.3個(gè)詞 nMSTparser依存句法分析器是McDonald 方法的實(shí)現(xiàn),其作為Baseline對(duì)比方法, 也在同等條件下進(jìn)行訓(xùn)練和測(cè)試 2021/3/1022 實(shí)驗(yàn)結(jié)果分析 n評(píng)測(cè)指標(biāo)如下: u準(zhǔn)確率=正確識(shí)別的數(shù)目/識(shí)別出的數(shù)目*100% u召回率=正確識(shí)別的數(shù)目/實(shí)際正確數(shù)目*100% uF值=

11、準(zhǔn)確率*召回率*2/ (準(zhǔn)確率+召回率) 2021/3/1023 實(shí)驗(yàn)結(jié)果分析 并列并列 關(guān)系關(guān)系 類別類別 正確正確 數(shù)量數(shù)量 MSTparser本文方法本文方法F值值 變化變化召回率準(zhǔn)確率 F值召回率準(zhǔn)確率F值 ALL70154.8%64.0%0.59063.9%77.8%0.702+0.112 Same_ n 35769.2%75.3%0.72171.1%84.9%0.774+0.053 Same_ v 12224.6%54.5%0.33941.8%82.3%0.554+0.215 Diff_n _v 22267.1%68.7%0.67970.3%72.6%0.714+0.035 Lab

12、el54966.5%82.6%0.73776.0%81.3%0.785+0.048 UnLab el 15240.8%39.2%0.40033.6%81.0%0.474+0.074 2021/3/1024 實(shí)驗(yàn)結(jié)果分析 n分析主要的識(shí)別錯(cuò)誤,主要分為兩類: u難以利用語(yǔ)義的信息 全市/n 黨政/n 機(jī)關(guān)/n 、/wp 事業(yè)/n 單位/n 公款/n u語(yǔ)料庫(kù)規(guī)模較小 校園網(wǎng)/n 和/c 外面/nd 的/u 世界/n 2021/3/1025 主要內(nèi)容 n研究的意義 n并列關(guān)系的標(biāo)注方式 n并列關(guān)系的構(gòu)成角色 n并列關(guān)系的特征選擇 n實(shí)驗(yàn)結(jié)果分析 n結(jié)論 2021/3/1026 結(jié)論 n本文采用分而治之的策略,利用并列結(jié) 構(gòu)的漢語(yǔ)特點(diǎn),改善了并列結(jié)構(gòu)的識(shí)別 效果 n下一步的工作總結(jié)漢語(yǔ)其它語(yǔ)言現(xiàn)象, 改善漢語(yǔ)依存句法分析的效果 2021/3/1027 致謝 n感謝呂學(xué)強(qiáng)老師

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論