自然語言處理導論 課件 第10-12章 知識抽取、自動文摘與信息抽取、統(tǒng)計機器翻譯和神經(jīng)機器翻譯_第1頁
自然語言處理導論 課件 第10-12章 知識抽取、自動文摘與信息抽取、統(tǒng)計機器翻譯和神經(jīng)機器翻譯_第2頁
自然語言處理導論 課件 第10-12章 知識抽取、自動文摘與信息抽取、統(tǒng)計機器翻譯和神經(jīng)機器翻譯_第3頁
自然語言處理導論 課件 第10-12章 知識抽取、自動文摘與信息抽取、統(tǒng)計機器翻譯和神經(jīng)機器翻譯_第4頁
自然語言處理導論 課件 第10-12章 知識抽取、自動文摘與信息抽取、統(tǒng)計機器翻譯和神經(jīng)機器翻譯_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《自然語言處理導論》第10章知識抽取信息抽取定義海量的文本數(shù)據(jù)拓寬了人們的信息獲取渠道。但是,大部分的文本信息都是以非結構的形式存在,不利于計算機處理和理解,信息抽取應運而生。從自然語言文本中抽取指定類型的實體、關系、事件等事實信息,并形成結構化數(shù)據(jù)輸出的文本處理技術命名實體識別命名實體識別本質上是一種序列標注問題,比方說BIEO標注方式,它代表begin-intermediate-end-other。今(O)年(O)海(O)釣(O)比(O)賽(O)在(O)廈(B-LOC)門(I-LOC)市(E-LOC)

與(O)金(B-LOC)門(E-LOC)之(O)間(O)的(O)海(O)域(O)舉(O)行(O)。這個句子中我們要識別的實體是地域,于是廈門市和金門就被標注出來了。序列標注本質上是分類任務,是對句子中每一個詞的多分類。基于神經(jīng)網(wǎng)絡的方法命名實體識別BERT+BiLSTM+CRF不同粒度sememe-levelcharacter-levelword-leveltoken-levelposition-levelsentence-leveldocument-level關系抽取1.基于觸發(fā)詞基于模板的方法

關系觸發(fā)詞是在文本數(shù)據(jù)中起觸發(fā)作用的單詞或短語,在關系抽取中能夠觸發(fā)某種關系,也被稱為關系指示詞、關系描述詞。例如:交通堵塞導致了他上班遲到。2.基于依存句法基于模板的方法Stanforddependencytreeparser基于有監(jiān)督學習或無監(jiān)督學習的分類方法句法依存樹句法依存樹+2利用RNN對于句子中的語義關系進行建模利用LSTM做關系抽取交通堵塞導致了他上班遲到。關系類別是因果并列蘊含遞進相反交通堵塞導致了他上班遲到。實體與關系聯(lián)合抽?。∕iwaACL16)Jointmodel-LSTM-RNNs模型:實體識別和關系分類的參數(shù)共享,但判斷過程沒有交互實體識別關系抽取嵌入層Jointmodel-LSTM-RNNs模型:實體識別和關系分類的參數(shù)共享,但判斷過程沒有交互詞嵌入+語法特征嵌入sememe-levelcharacter-levelword-leveltoken-levelposition-levelsentence-leveldocument-level(MiwaACL16)Jointmodel-LSTM-RNNs模型:實體識別和關系分類的參數(shù)共享,但判斷過程沒有交互實體識別Bi-LSTMCRF(MiwaACL16)Jointmodel-LSTM-RNNs模型:實體識別和關系分類的參數(shù)共享,但判斷過程沒有交互關系抽取Softmax(MiwaACL16)1.位置嵌入2.句法依存嵌入3.詞匯嵌入4.句子嵌入Jointmodel-LSTM-RNNs模型:實體識別和關系分類的參數(shù)共享,但判斷過程沒有交互實體識別關系抽?。∕iwaACL16)聯(lián)合訓練中山大學智能工程學院沈穎老師《自然語言處理》課程授課PPT。sheny76@實體識別關系抽?。∕iwaACL16)輸出:實體輸出:實體間關系事件抽取ACE事件類型示例襲擊轉移運輸出行死亡會面關系的表現(xiàn)形式之一三元組關系的表現(xiàn)形式之二動詞前置的三元組事件抽取+情感計算事件的相關核心概念動詞事件的相關核心概念事件元素(EventArgument)元素角色(Argumentrole)名詞名詞類型Trigger(觸發(fā)詞)出生Person-Arg(人名)李敖Time-Arg(時間)1935年Place-Arg(地點)黑龍江哈爾濱市事件抽取的主要任務動詞、名詞、名詞類型抽取受傷、死亡、運輸、轉移轉賬、襲擊、會面….事件抽取的方法詞性特征詞典的數(shù)據(jù)支撐語義特征各種特征關系抽取命名實體識別實體關系特征各種分類器事件分類詞性特征詞典的數(shù)據(jù)支撐語義特征不同粒度sememe-levelcharacter-levelword-leveltoken-levelposition-levelsentence-leveldocument-level

NER各種特征實體關系特征詞性特征詞典的數(shù)據(jù)支撐語義特征RE各種特征實體關系特征1.位置嵌入2.句法依存嵌入3.詞匯嵌入4.句子嵌入短語結構分析依存關系分析理解語義從而更好地實現(xiàn)分類詞匯嵌入位置嵌入詞性特征詞典的數(shù)據(jù)支撐語義特征各種特征關系抽取命名實體識別實體關系特征各種分類器事件分類將事件抽取視為分類問題YuboChen,etal."EventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetwork".InACL2015基于神經(jīng)網(wǎng)絡的方法ConvolutionalNeuralNetworksRecurrentNeuralNetworksGraphNeuralNetworksTransformersNguyen,etal."JointEventExtractionviaRecurrentNeuralNetworks".InNAACL2016基于神經(jīng)網(wǎng)絡的方法ConvolutionalNeuralNetworksRecurrentNeuralNetworksGraphNeuralNetworksTransformersXiaoLiu,etal."JointMultipleEventExtractionviaAttention-basedGraphInformationAggregration".InEMNLP2018基于神經(jīng)網(wǎng)絡的方法ConvolutionalNeuralNetworksRecurrentNeuralNetworksGraphNeuralNetworksTransformersYangSen,etal."ExploringPre-trainedLanguageModelsforEventExtractionandGeneration".InACL2019基于神經(jīng)網(wǎng)絡的方法ConvolutionalNeuralNetworksRecurrentNeuralNetworksGraphNeuralNetworksTransformers輸入:輸出:實體識別:人物、時間、地點關系抽取:事物時間的關聯(lián)關系事件類型:政治、軍事、金融等數(shù)據(jù)集給定事件分類店主不規(guī)范儲藏煙花爆竹使倉庫炸了《自然語言處理導論》第11章信息抽取無監(jiān)督學習無監(jiān)督學習:從無標注數(shù)據(jù)中學習分析模型的機器學習問題。無標注數(shù)據(jù)是“自然”得到的數(shù)據(jù),分析模型表示數(shù)據(jù)的類別、轉換等。42聚類43聚類44聚類45聚類46無監(jiān)督學習無監(jiān)督學習:從無標注數(shù)據(jù)中學習分析模型的機器學習問題無標注數(shù)據(jù)是“自然”得到的數(shù)據(jù),分析模型表示數(shù)據(jù)的類別、轉換等

無標注數(shù)據(jù)

特征(屬性)輸入空間(特征空間)模型實際上都是定義在特征空間上的輸出空間聚類問題降維問題47無監(jiān)督學習無監(jiān)督學習:從無標注數(shù)據(jù)中學習分析模型的機器學習問題無標注數(shù)據(jù)是“自然”得到的數(shù)據(jù),分析模型表示數(shù)據(jù)的類別、轉換等學習系統(tǒng)

預測系統(tǒng)

無標注數(shù)據(jù)

特征(屬性)輸入空間(特征空間)模型實際上都是定義在特征空間上的輸出空間聚類問題降維問題

②③“最好”④

⑤①數(shù)據(jù)、②模型、③策略、④算法、⑤應用本質:學習數(shù)據(jù)中的潛在規(guī)律或結構48無監(jiān)督學習無監(jiān)督學習的基本想法:對給定數(shù)據(jù)(矩陣數(shù)據(jù))進行某種“壓縮”,從而找到數(shù)據(jù)的潛在結構。假定損失最小的“壓縮”得到的結果就是最本質的結構。

49特征樣本無監(jiān)督學習無監(jiān)督學習的基本想法:對給定數(shù)據(jù)(矩陣數(shù)據(jù))進行某種“壓縮”,從而找到數(shù)據(jù)的潛在結構。假定損失最小的“壓縮”得到的結果就是最本質的結構。

考慮發(fā)掘數(shù)據(jù)的縱向結構把相似的樣本聚到同類,

即對數(shù)據(jù)進行聚類50特征樣本無監(jiān)督學習無監(jiān)督學習的基本想法:對給定數(shù)據(jù)(矩陣數(shù)據(jù))進行某種“壓縮”,從而找到數(shù)據(jù)的潛在結構。假定損失最小的“壓縮”得到的結果就是最本質的結構。

考慮發(fā)掘數(shù)據(jù)的橫向結構把高維空間的向量轉換為低維空間的向量,

即對數(shù)據(jù)進行降維51特征樣本《自然語言處理導論》第12章統(tǒng)計機器翻譯和神經(jīng)機器翻譯機器翻譯隨著網(wǎng)絡的普遍應用,世界經(jīng)濟一體化進程的加速和國際社會交流的日漸頻繁,語言障礙已經(jīng)成為二十一世紀社會發(fā)展的重要瓶頸。人工翻譯已經(jīng)不能滿足迅猛增長的翻譯需求,人們對機器翻譯的需求空前增長。

53一、基于規(guī)則的機器翻譯

1.

直接翻譯法直接翻譯法簡單的將文本劃分成一個一個單獨的詞語進行翻譯,然后進行輕微的形態(tài)調整,再加以潤色,從而讓整句話看起比較正常。但由于是逐字翻譯,其輸出后的語句通常與輸入的句子有一定偏差。2.

轉換翻譯法轉換翻譯法與直接翻譯完全不同,研究人員先決定被翻譯句子的語法結構,然后再調整句子的整體結構。這樣的翻譯方法可以令被翻譯的句子有著比較完整的結構,而不是逐字進行翻譯輸出。54二、基于實例的機器翻譯系統(tǒng)在執(zhí)行翻譯過程時,會先對翻譯句子進行適當?shù)念A處理,然后將其與實例庫中的翻譯實例進行相似性的分析,最后,根據(jù)找到相似實例的例文從而得到翻譯句子的翻譯文章。但是基于規(guī)則的英譯日非常復雜。日語的語法結構與英語完全不同,所有的單詞必須重新排列,并追加新單詞。比方說,需翻譯一個簡單的句子:“I’mgoingtothecinema?!比绻呀?jīng)翻譯過另外一個類似的句子:“I’mgoingtothetheater”,而且可以從詞典中找到“cinema”這個單詞。那么所要做的是找出兩個句子的不同之處,然后翻譯這個有差異的單詞,但不要破壞句子的結構。擁有的例子越多,翻譯效果越佳。55三、基于統(tǒng)計的機器翻譯統(tǒng)計型機器翻譯早在1990年早期便有了雛形,當時IBM研究中心的一臺機器翻譯系統(tǒng)首次問世,雖然它不了解翻譯語言的規(guī)則和語言學,但它會分析兩種語言中的相似文本,并試圖去理解其中的模式。這種翻譯模式是在相同的一個句子中用兩種語言來分割成單詞,接著進行相互匹配。然后將這種操作重復數(shù)億次,并對每個單詞的匹配結果進行統(tǒng)計,假如統(tǒng)計單詞“DasHaus”被翻譯成“house”、“building”、“construction”的次數(shù)中“house”占最多,那么該機器就會采用這個翻譯。這種方法比之前直接翻譯或者是其他的方法更高效且準確,而且只要使用的文本越多,它的翻譯效果就越佳。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論