版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《自然語(yǔ)言處理導(dǎo)論》第10章知識(shí)抽取信息抽取定義海量的文本數(shù)據(jù)拓寬了人們的信息獲取渠道。但是,大部分的文本信息都是以非結(jié)構(gòu)的形式存在,不利于計(jì)算機(jī)處理和理解,信息抽取應(yīng)運(yùn)而生。從自然語(yǔ)言文本中抽取指定類型的實(shí)體、關(guān)系、事件等事實(shí)信息,并形成結(jié)構(gòu)化數(shù)據(jù)輸出的文本處理技術(shù)命名實(shí)體識(shí)別命名實(shí)體識(shí)別本質(zhì)上是一種序列標(biāo)注問(wèn)題,比方說(shuō)BIEO標(biāo)注方式,它代表begin-intermediate-end-other。今(O)年(O)海(O)釣(O)比(O)賽(O)在(O)廈(B-LOC)門(I-LOC)市(E-LOC)
與(O)金(B-LOC)門(E-LOC)之(O)間(O)的(O)海(O)域(O)舉(O)行(O)。這個(gè)句子中我們要識(shí)別的實(shí)體是地域,于是廈門市和金門就被標(biāo)注出來(lái)了。序列標(biāo)注本質(zhì)上是分類任務(wù),是對(duì)句子中每一個(gè)詞的多分類?;谏窠?jīng)網(wǎng)絡(luò)的方法命名實(shí)體識(shí)別BERT+BiLSTM+CRF不同粒度sememe-levelcharacter-levelword-leveltoken-levelposition-levelsentence-leveldocument-level關(guān)系抽取1.基于觸發(fā)詞基于模板的方法
關(guān)系觸發(fā)詞是在文本數(shù)據(jù)中起觸發(fā)作用的單詞或短語(yǔ),在關(guān)系抽取中能夠觸發(fā)某種關(guān)系,也被稱為關(guān)系指示詞、關(guān)系描述詞。例如:交通堵塞導(dǎo)致了他上班遲到。2.基于依存句法基于模板的方法Stanforddependencytreeparser基于有監(jiān)督學(xué)習(xí)或無(wú)監(jiān)督學(xué)習(xí)的分類方法句法依存樹句法依存樹+2利用RNN對(duì)于句子中的語(yǔ)義關(guān)系進(jìn)行建模利用LSTM做關(guān)系抽取交通堵塞導(dǎo)致了他上班遲到。關(guān)系類別是因果并列蘊(yùn)含遞進(jìn)相反交通堵塞導(dǎo)致了他上班遲到。實(shí)體與關(guān)系聯(lián)合抽?。∕iwaACL16)Jointmodel-LSTM-RNNs模型:實(shí)體識(shí)別和關(guān)系分類的參數(shù)共享,但判斷過(guò)程沒(méi)有交互實(shí)體識(shí)別關(guān)系抽取嵌入層Jointmodel-LSTM-RNNs模型:實(shí)體識(shí)別和關(guān)系分類的參數(shù)共享,但判斷過(guò)程沒(méi)有交互詞嵌入+語(yǔ)法特征嵌入sememe-levelcharacter-levelword-leveltoken-levelposition-levelsentence-leveldocument-level(MiwaACL16)Jointmodel-LSTM-RNNs模型:實(shí)體識(shí)別和關(guān)系分類的參數(shù)共享,但判斷過(guò)程沒(méi)有交互實(shí)體識(shí)別Bi-LSTMCRF(MiwaACL16)Jointmodel-LSTM-RNNs模型:實(shí)體識(shí)別和關(guān)系分類的參數(shù)共享,但判斷過(guò)程沒(méi)有交互關(guān)系抽取Softmax(MiwaACL16)1.位置嵌入2.句法依存嵌入3.詞匯嵌入4.句子嵌入Jointmodel-LSTM-RNNs模型:實(shí)體識(shí)別和關(guān)系分類的參數(shù)共享,但判斷過(guò)程沒(méi)有交互實(shí)體識(shí)別關(guān)系抽?。∕iwaACL16)聯(lián)合訓(xùn)練中山大學(xué)智能工程學(xué)院沈穎老師《自然語(yǔ)言處理》課程授課PPT。sheny76@實(shí)體識(shí)別關(guān)系抽?。∕iwaACL16)輸出:實(shí)體輸出:實(shí)體間關(guān)系事件抽取ACE事件類型示例襲擊轉(zhuǎn)移運(yùn)輸出行死亡會(huì)面關(guān)系的表現(xiàn)形式之一三元組關(guān)系的表現(xiàn)形式之二動(dòng)詞前置的三元組事件抽取+情感計(jì)算事件的相關(guān)核心概念動(dòng)詞事件的相關(guān)核心概念事件元素(EventArgument)元素角色(Argumentrole)名詞名詞類型Trigger(觸發(fā)詞)出生Person-Arg(人名)李敖Time-Arg(時(shí)間)1935年P(guān)lace-Arg(地點(diǎn))黑龍江哈爾濱市事件抽取的主要任務(wù)動(dòng)詞、名詞、名詞類型抽取受傷、死亡、運(yùn)輸、轉(zhuǎn)移轉(zhuǎn)賬、襲擊、會(huì)面….事件抽取的方法詞性特征詞典的數(shù)據(jù)支撐語(yǔ)義特征各種特征關(guān)系抽取命名實(shí)體識(shí)別實(shí)體關(guān)系特征各種分類器事件分類詞性特征詞典的數(shù)據(jù)支撐語(yǔ)義特征不同粒度sememe-levelcharacter-levelword-leveltoken-levelposition-levelsentence-leveldocument-level
NER各種特征實(shí)體關(guān)系特征詞性特征詞典的數(shù)據(jù)支撐語(yǔ)義特征RE各種特征實(shí)體關(guān)系特征1.位置嵌入2.句法依存嵌入3.詞匯嵌入4.句子嵌入短語(yǔ)結(jié)構(gòu)分析依存關(guān)系分析理解語(yǔ)義從而更好地實(shí)現(xiàn)分類詞匯嵌入位置嵌入詞性特征詞典的數(shù)據(jù)支撐語(yǔ)義特征各種特征關(guān)系抽取命名實(shí)體識(shí)別實(shí)體關(guān)系特征各種分類器事件分類將事件抽取視為分類問(wèn)題YuboChen,etal."EventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetwork".InACL2015基于神經(jīng)網(wǎng)絡(luò)的方法ConvolutionalNeuralNetworksRecurrentNeuralNetworksGraphNeuralNetworksTransformersNguyen,etal."JointEventExtractionviaRecurrentNeuralNetworks".InNAACL2016基于神經(jīng)網(wǎng)絡(luò)的方法ConvolutionalNeuralNetworksRecurrentNeuralNetworksGraphNeuralNetworksTransformersXiaoLiu,etal."JointMultipleEventExtractionviaAttention-basedGraphInformationAggregration".InEMNLP2018基于神經(jīng)網(wǎng)絡(luò)的方法ConvolutionalNeuralNetworksRecurrentNeuralNetworksGraphNeuralNetworksTransformersYangSen,etal."ExploringPre-trainedLanguageModelsforEventExtractionandGeneration".InACL2019基于神經(jīng)網(wǎng)絡(luò)的方法ConvolutionalNeuralNetworksRecurrentNeuralNetworksGraphNeuralNetworksTransformers輸入:輸出:實(shí)體識(shí)別:人物、時(shí)間、地點(diǎn)關(guān)系抽取:事物時(shí)間的關(guān)聯(lián)關(guān)系事件類型:政治、軍事、金融等數(shù)據(jù)集給定事件分類店主不規(guī)范儲(chǔ)藏?zé)熁ū袷箓}(cāng)庫(kù)炸了《自然語(yǔ)言處理導(dǎo)論》第11章信息抽取無(wú)監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí):從無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)分析模型的機(jī)器學(xué)習(xí)問(wèn)題。無(wú)標(biāo)注數(shù)據(jù)是“自然”得到的數(shù)據(jù),分析模型表示數(shù)據(jù)的類別、轉(zhuǎn)換等。42聚類43聚類44聚類45聚類46無(wú)監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí):從無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)分析模型的機(jī)器學(xué)習(xí)問(wèn)題無(wú)標(biāo)注數(shù)據(jù)是“自然”得到的數(shù)據(jù),分析模型表示數(shù)據(jù)的類別、轉(zhuǎn)換等
無(wú)標(biāo)注數(shù)據(jù)
特征(屬性)輸入空間(特征空間)模型實(shí)際上都是定義在特征空間上的輸出空間聚類問(wèn)題降維問(wèn)題47無(wú)監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí):從無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)分析模型的機(jī)器學(xué)習(xí)問(wèn)題無(wú)標(biāo)注數(shù)據(jù)是“自然”得到的數(shù)據(jù),分析模型表示數(shù)據(jù)的類別、轉(zhuǎn)換等學(xué)習(xí)系統(tǒng)
預(yù)測(cè)系統(tǒng)
無(wú)標(biāo)注數(shù)據(jù)
特征(屬性)輸入空間(特征空間)模型實(shí)際上都是定義在特征空間上的輸出空間聚類問(wèn)題降維問(wèn)題
①
②③“最好”④
⑤①數(shù)據(jù)、②模型、③策略、④算法、⑤應(yīng)用本質(zhì):學(xué)習(xí)數(shù)據(jù)中的潛在規(guī)律或結(jié)構(gòu)48無(wú)監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)的基本想法:對(duì)給定數(shù)據(jù)(矩陣數(shù)據(jù))進(jìn)行某種“壓縮”,從而找到數(shù)據(jù)的潛在結(jié)構(gòu)。假定損失最小的“壓縮”得到的結(jié)果就是最本質(zhì)的結(jié)構(gòu)。
49特征樣本無(wú)監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)的基本想法:對(duì)給定數(shù)據(jù)(矩陣數(shù)據(jù))進(jìn)行某種“壓縮”,從而找到數(shù)據(jù)的潛在結(jié)構(gòu)。假定損失最小的“壓縮”得到的結(jié)果就是最本質(zhì)的結(jié)構(gòu)。
考慮發(fā)掘數(shù)據(jù)的縱向結(jié)構(gòu)把相似的樣本聚到同類,
即對(duì)數(shù)據(jù)進(jìn)行聚類50特征樣本無(wú)監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)的基本想法:對(duì)給定數(shù)據(jù)(矩陣數(shù)據(jù))進(jìn)行某種“壓縮”,從而找到數(shù)據(jù)的潛在結(jié)構(gòu)。假定損失最小的“壓縮”得到的結(jié)果就是最本質(zhì)的結(jié)構(gòu)。
考慮發(fā)掘數(shù)據(jù)的橫向結(jié)構(gòu)把高維空間的向量轉(zhuǎn)換為低維空間的向量,
即對(duì)數(shù)據(jù)進(jìn)行降維51特征樣本《自然語(yǔ)言處理導(dǎo)論》第12章統(tǒng)計(jì)機(jī)器翻譯和神經(jīng)機(jī)器翻譯機(jī)器翻譯隨著網(wǎng)絡(luò)的普遍應(yīng)用,世界經(jīng)濟(jì)一體化進(jìn)程的加速和國(guó)際社會(huì)交流的日漸頻繁,語(yǔ)言障礙已經(jīng)成為二十一世紀(jì)社會(huì)發(fā)展的重要瓶頸。人工翻譯已經(jīng)不能滿足迅猛增長(zhǎng)的翻譯需求,人們對(duì)機(jī)器翻譯的需求空前增長(zhǎng)。
53一、基于規(guī)則的機(jī)器翻譯
1.
直接翻譯法直接翻譯法簡(jiǎn)單的將文本劃分成一個(gè)一個(gè)單獨(dú)的詞語(yǔ)進(jìn)行翻譯,然后進(jìn)行輕微的形態(tài)調(diào)整,再加以潤(rùn)色,從而讓整句話看起比較正常。但由于是逐字翻譯,其輸出后的語(yǔ)句通常與輸入的句子有一定偏差。2.
轉(zhuǎn)換翻譯法轉(zhuǎn)換翻譯法與直接翻譯完全不同,研究人員先決定被翻譯句子的語(yǔ)法結(jié)構(gòu),然后再調(diào)整句子的整體結(jié)構(gòu)。這樣的翻譯方法可以令被翻譯的句子有著比較完整的結(jié)構(gòu),而不是逐字進(jìn)行翻譯輸出。54二、基于實(shí)例的機(jī)器翻譯系統(tǒng)在執(zhí)行翻譯過(guò)程時(shí),會(huì)先對(duì)翻譯句子進(jìn)行適當(dāng)?shù)念A(yù)處理,然后將其與實(shí)例庫(kù)中的翻譯實(shí)例進(jìn)行相似性的分析,最后,根據(jù)找到相似實(shí)例的例文從而得到翻譯句子的翻譯文章。但是基于規(guī)則的英譯日非常復(fù)雜。日語(yǔ)的語(yǔ)法結(jié)構(gòu)與英語(yǔ)完全不同,所有的單詞必須重新排列,并追加新單詞。比方說(shuō),需翻譯一個(gè)簡(jiǎn)單的句子:“I’mgoingtothecinema?!比绻呀?jīng)翻譯過(guò)另外一個(gè)類似的句子:“I’mgoingtothetheater”,而且可以從詞典中找到“cinema”這個(gè)單詞。那么所要做的是找出兩個(gè)句子的不同之處,然后翻譯這個(gè)有差異的單詞,但不要破壞句子的結(jié)構(gòu)。擁有的例子越多,翻譯效果越佳。55三、基于統(tǒng)計(jì)的機(jī)器翻譯統(tǒng)計(jì)型機(jī)器翻譯早在1990年早期便有了雛形,當(dāng)時(shí)IBM研究中心的一臺(tái)機(jī)器翻譯系統(tǒng)首次問(wèn)世,雖然它不了解翻譯語(yǔ)言的規(guī)則和語(yǔ)言學(xué),但它會(huì)分析兩種語(yǔ)言中的相似文本,并試圖去理解其中的模式。這種翻譯模式是在相同的一個(gè)句子中用兩種語(yǔ)言來(lái)分割成單詞,接著進(jìn)行相互匹配。然后將這種操作重復(fù)數(shù)億次,并對(duì)每個(gè)單詞的匹配結(jié)果進(jìn)行統(tǒng)計(jì),假如統(tǒng)計(jì)單詞“DasHaus”被翻譯成“house”、“building”、“construction”的次數(shù)中“house”占最多,那么該機(jī)器就會(huì)采用這個(gè)翻譯。這種方法比之前直接翻譯或者是其他的方法更高效且準(zhǔn)確,而且只要使用的文本越多,它的翻譯效果就越佳。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 新疆交通職業(yè)技術(shù)學(xué)院《機(jī)器視覺技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 二零二五年度高新技術(shù)企業(yè)員工技術(shù)勞務(wù)合同范本3篇
- 2024版商業(yè)租賃協(xié)議標(biāo)準(zhǔn)版版A版
- 二零二五版廣東省土地估價(jià)師協(xié)會(huì)土地估價(jià)師行業(yè)專業(yè)論壇合同3篇
- 二零二五版健身中心場(chǎng)地租賃及健身賽事舉辦合同3篇
- 二零二五年度個(gè)人合伙房地產(chǎn)合作開發(fā)合同樣本3篇
- 專業(yè)級(jí)2024型材料供銷協(xié)議3
- 天津工藝美術(shù)職業(yè)學(xué)院《電氣工程綜合實(shí)踐》2023-2024學(xué)年第一學(xué)期期末試卷
- 泰山科技學(xué)院《工作坊》2023-2024學(xué)年第一學(xué)期期末試卷
- 蘇州科技大學(xué)《韓非子》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025寒假散學(xué)典禮(休業(yè)式)上校長(zhǎng)精彩講話:以董宇輝的創(chuàng)新、羅振宇的堅(jiān)持、馬龍的熱愛啟迪未來(lái)
- 安徽省示范高中2024-2025學(xué)年高一(上)期末綜合測(cè)試物理試卷(含答案)
- 安徽省合肥市包河區(qū)2023-2024學(xué)年九年級(jí)上學(xué)期期末化學(xué)試題
- 《酸堿罐區(qū)設(shè)計(jì)規(guī)范》編制說(shuō)明
- PMC主管年終總結(jié)報(bào)告
- 售樓部保安管理培訓(xùn)
- 倉(cāng)儲(chǔ)培訓(xùn)課件模板
- 2025屆高考地理一輪復(fù)習(xí)第七講水循環(huán)與洋流自主練含解析
- GB/T 44914-2024和田玉分級(jí)
- 2024年度企業(yè)入駐跨境電商孵化基地合作協(xié)議3篇
- 《形勢(shì)與政策》課程標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論