問句中并列結(jié)構(gòu)的識(shí)別 哈爾濱工業(yè)大學(xué)深圳研究生院計(jì)算機(jī)科學(xué)與技術(shù)范士喜ppt課件_第1頁
問句中并列結(jié)構(gòu)的識(shí)別 哈爾濱工業(yè)大學(xué)深圳研究生院計(jì)算機(jī)科學(xué)與技術(shù)范士喜ppt課件_第2頁
問句中并列結(jié)構(gòu)的識(shí)別 哈爾濱工業(yè)大學(xué)深圳研究生院計(jì)算機(jī)科學(xué)與技術(shù)范士喜ppt課件_第3頁
問句中并列結(jié)構(gòu)的識(shí)別 哈爾濱工業(yè)大學(xué)深圳研究生院計(jì)算機(jī)科學(xué)與技術(shù)范士喜ppt課件_第4頁
問句中并列結(jié)構(gòu)的識(shí)別 哈爾濱工業(yè)大學(xué)深圳研究生院計(jì)算機(jī)科學(xué)與技術(shù)范士喜ppt課件_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、問句中并列構(gòu)造的識(shí)別問句中并列構(gòu)造的識(shí)別哈爾濱工業(yè)大學(xué)深圳研討生院計(jì)算機(jī)科學(xué)與技術(shù)范士喜 2020-04-11內(nèi)容導(dǎo)航l一、問題及相關(guān)研討l二、處置方法l三、實(shí)驗(yàn)結(jié)果問題-定義l并列構(gòu)造是言語信息處置中的難點(diǎn),普通以為并列成分是類似的。經(jīng)過計(jì)算并列成分的類似性來處置。l句子層面l短語層面問題-比例l大約10.3% 的問句具有并列構(gòu)造l大約 11.2%的句子具有并列構(gòu)造 問題-問句中的用法l一,表達(dá)平行的語義關(guān)系:l 例如:什么是股票和基金?l 分解:什么是股票?什么是基金?l二,表達(dá)需求比較的工程:l 例如:資本化與費(fèi)用化有什么區(qū)別l 得到比較工程:資本化,費(fèi)用化。l三,表達(dá)工程之間的關(guān)系:l

2、 例如:股息政策和股票投資價(jià)值的關(guān)系l 得到關(guān)系工程:股息政策,股票投資價(jià)值相關(guān)研討周強(qiáng) 1996和孫宏林 2001對漢語并列構(gòu)造的研討, 都是基于“并列成分類似這樣的言語學(xué)假設(shè), 在此前提下設(shè)計(jì)規(guī)那么和算法。漢語言語研討也以為并列成分是類似的: 吳競存、梁伯樞1992指出, 詞性一樣、構(gòu)造一樣、語義類一樣、音節(jié)數(shù)一樣的項(xiàng)并列是最理想、最嚴(yán)厲的并列; 儲(chǔ)澤祥等2002以為并列短語的構(gòu)成是以“語義親近性為根底的。北京大學(xué)吳云芳2003對98年人民日報(bào)里面的并列構(gòu)造進(jìn)展標(biāo)注。句法分析:內(nèi)容導(dǎo)航l一、問題及相關(guān)研討l二、處置方法l三、實(shí)驗(yàn)結(jié)果處置方法-標(biāo)注方法例子:財(cái)務(wù)/n/ 本錢/n 管理/vn

3、和/c 財(cái)務(wù)/n 管理/vn/ 的/u 區(qū)別/n語料:共24,892問句,包含26,073 個(gè)并列構(gòu)造。包含806,890個(gè)漢字,文件大小3.67M處置方法語料手動(dòng)標(biāo)注了800 句。用最大熵模型訓(xùn)練,然后自動(dòng)標(biāo)注,手動(dòng)檢查。最后構(gòu)成預(yù)料規(guī)模如下:語料:共24,892問句,包含26,073 個(gè)并列構(gòu)造。包含806,890個(gè)漢字,文件大小3.67M處置方法處置方案二值分類問題二值分類問題分類目的分類目的 y?分類內(nèi)容分類內(nèi)容 x ?例子:口岸例子:口岸/n/ 和和/c 保稅區(qū)保稅區(qū)/ns/ 有有/v 什么什么/r 區(qū)別區(qū)別/nxystructure口岸和保稅區(qū)口岸和保稅區(qū)1-1&+1 口岸

4、和保稅區(qū)有口岸和保稅區(qū)有01&+2口岸和保稅區(qū)有什么口岸和保稅區(qū)有什么01&+3處置方法特征提取特征名稱例子構(gòu)造特征S: -1&1詞的位置信息長度差特征Diflen:3前項(xiàng)與后項(xiàng)的長度差前一個(gè)單詞詞性prePOS:v待標(biāo)志工程的 前一個(gè)詞的詞性后一個(gè)單詞詞性posPOS:v待標(biāo)志工程的 后一個(gè)詞的詞性詞性序列特征POSs:nvncn 待標(biāo)志工程的詞性序列一樣單詞數(shù)sameW:1前項(xiàng)與后項(xiàng)包含的一樣“字?jǐn)?shù)一樣詞性數(shù)sameP:1前項(xiàng)與后項(xiàng)包含的一樣詞性數(shù)組合特征各特征的組合處置方法特征向量一:將一切的特征進(jìn)展編號(hào)二:對每一個(gè)并列構(gòu)造,列出一切的候選 及相應(yīng)的三:對每一個(gè)候

5、選 進(jìn)展特征提取,并構(gòu)成特征向量四:將 對作為svm的輸入進(jìn)展訓(xùn)練。ixiyixiv),(iiyv處置方法原始 數(shù)據(jù)l s dl bp ap no sw sp 0 s-33 diflen2 sBPoss sAPosu No0 sSimWordsFeature6 sSimPosFeature5 0 s-32 diflen0 sBPoss sAPosv No0 sSimWordsFeature6 sSimPosFeature5 0 s-31 diflen2 sBPoss sAPosv No0 sSimWordsFeature6 sSimPosFeature4 0 s-23 diflen4 sBPo

6、svn sAPosu No0 sSimWordsFeature6 sSimPosFeature3 0 s-22 diflen2 sBPosvn sAPosv No0 sSimWordsFeature6 sSimPosFeature3 0 s-21 diflen0 sBPosvn sAPosv No0 sSimWordsFeature6 sSimPosFeature3 0 s-13 diflen5 sBPosn sAPosu No0 sSimWordsFeature6 sSimPosFeature2 0 s-12 diflen3 sBPosn sAPosv No0 sSimWordsFeatur

7、e6 sSimPosFeature2 1 s-11 diflen1 sBPosn sAPosv No0 sSimWordsFeature6 sSimPosFeature2 處置方法svm 數(shù)據(jù)0 1:1.000 2:1.000 3:1.000 4:1.000 5:1.000 6:1.000 7:1.000 8:1.000 0 9:1.000 10:1.000 3:1.000 11:1.000 5:1.000 12:1.000 7:1.000 8:1.000 0 13:1.000 14:1.000 3:1.000 15:1.000 16:1.000 12:1.000 7:1.000 8:1.00

8、0 0 17:1.000 18:1.000 19:1.000 4:1.000 5:1.000 12:1.000 7:1.000 8:1.000 1 20:1.000 2:1.000 19:1.000 11:1.000 5:1.000 12:1.000 7:1.000 8:1.000 0 21:1.000 14:1.000 19:1.000 15:1.000 16:1.000 12:1.000 7:1.000 8:1.000 0 22:1.000 10:1.000 23:1.000 24:1.000 16:1.000 12:1.000 7:1.000 25:1.000 0 26:1.000 27

9、:1.000 23:1.000 11:1.000 16:1.000 12:1.000 7:1.000 25:1.000 0 9:1.000 2:1.000 28:1.000 24:1.000 16:1.000 12:1.000 7:1.000 25:1.000 0 13:1.000 14:1.000 28:1.000 11:1.000 16:1.000 12:1.000 7:1.000 25:1.000 0 20:1.000 27:1.000 29:1.000 24:1.000 16:1.000 12:1.000 7:1.000 25:1.000 內(nèi)容導(dǎo)航l一、問題及相關(guān)研討l二、處置方法l三、實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)結(jié)果總體結(jié)果ModelPRFBaseline System30.7428.3129.47SVM Op

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論