【畢業(yè)學(xué)位論文】基于數(shù)據(jù)挖掘和信息抽取技術(shù)的專利數(shù)據(jù)屬性識別研究

上傳人：O*** IP屬地：四川上傳時間：2017-04-18 格式：PDF 頁數(shù)：72 大?。?.29MB 積分：0 舉報 版權(quán)申訴

【畢業(yè)學(xué)位論文】基于數(shù)據(jù)挖掘和信息抽取技術(shù)的專利數(shù)據(jù)屬性識別研究_第2頁

【畢業(yè)學(xué)位論文】基于數(shù)據(jù)挖掘和信息抽取技術(shù)的專利數(shù)據(jù)屬性識別研究_第3頁

【畢業(yè)學(xué)位論文】基于數(shù)據(jù)挖掘和信息抽取技術(shù)的專利數(shù)據(jù)屬性識別研究_第4頁

【畢業(yè)學(xué)位論文】基于數(shù)據(jù)挖掘和信息抽取技術(shù)的專利數(shù)據(jù)屬性識別研究_第5頁

已閱讀5頁，還剩67頁未讀，繼續(xù)免費閱讀

【畢業(yè)學(xué)位論文】基于數(shù)據(jù)挖掘和信息抽取技術(shù)的專利數(shù)據(jù)屬性識別研究.pdf 免費下載

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

要知識產(chǎn)權(quán)信息，尤其是專利信息蘊藏豐富的技術(shù)、法律、經(jīng)濟(jì)和戰(zhàn)略情報，在知識產(chǎn)權(quán)的創(chuàng)造、保護(hù)、管理和商業(yè)化的過程中都發(fā)揮著至關(guān)重要的作用。專利信息是指某項技術(shù)在謀取專利權(quán)過程中的各種信息，它具有重要的戰(zhàn)略價值，是國家科技信息系統(tǒng)中重要的組成部分，是信息資源開發(fā)的重點。如何科學(xué)地使用專利信息和做好專利分析工作，是目前專利研究領(lǐng)域的重要課題。本文從專利檢索用戶的角度出發(fā)，對美國專利數(shù)據(jù)屬性進(jìn)行了重新規(guī)劃。根據(jù)專利信息專利權(quán)人（申請人）屬性的特點，利用信息抽取、關(guān)聯(lián)分析等技術(shù)，提出基于關(guān)聯(lián)規(guī)則的同指消解抽取模型。同時，利用此方法對通信專利數(shù)據(jù)進(jìn)行模型訓(xùn)練，從中抽取出可不斷擴(kuò)充的同指辭典。該辭典可用于建立專利檢索中的申請人公司樹，從而提高專利在申請人檢索方面的查全率。另外，根據(jù)專利信息發(fā)明人屬性的特點，利用信息抽取、聚類分析等技術(shù)，構(gòu)建基于聚類分析的異指消解抽取模型，提出了一套全新的命名實體識別模型及其算法，并選擇合適的抽取結(jié)果輸出方式。然后，通過實證數(shù)據(jù)進(jìn)行模型實驗，從中抽取出可維護(hù)和可擴(kuò)展的異指庫，以便建立專利檢索中的發(fā)明人異指標(biāo)引，提高專利在發(fā)明人檢索方面的查準(zhǔn)率。本文有機(jī)地結(jié)合辭典、規(guī)則和統(tǒng)計模型方法，提出了基于關(guān)聯(lián)規(guī)則的同指消解模型和基于聚類分析的異指消解模型，并在此基礎(chǔ)上進(jìn)行了大量的人工指導(dǎo)和機(jī)器學(xué)習(xí)訓(xùn)練。實驗結(jié)果表明，本文所設(shè)計的信息抽取系統(tǒng)基本令人滿意。關(guān)鍵詞：信息抽取數(shù)據(jù)挖掘專利信息同指異指 a in of of of in of of It is of it is of to of do a in is an On we We on in by of so in to of s At of to be is to of of on to of By on of on of is to to up a of on of on On we a of of in 錄 . 緒論 . . 1 題背景 . . 1 究的主要內(nèi)容和意義 . 文結(jié)構(gòu)與安排 . . 3 2 信息抽取和數(shù)據(jù)挖掘技術(shù)綜述 . . 5 息抽取 . . 5 息抽取的概述 . . 5 息抽取的發(fā)展 . . 5 息抽取處理的研究對象 . 7 息抽取的類型 . . 8 息抽取的方法設(shè)計與流程 . 8 息抽取系統(tǒng)的性能評價 . 9 結(jié)構(gòu)化的信息抽取和非結(jié) 構(gòu)化的信息抽取 . 10 據(jù)挖掘技術(shù) . . 11 據(jù)挖掘的概述 . . 11 據(jù)挖掘的發(fā)展 . . 12 聯(lián)規(guī)則 . . 13 類技術(shù) . . 13 3 基于關(guān)聯(lián)規(guī)則的同指消解技術(shù) . . 16 指消解定義 . . 16 于關(guān)聯(lián)規(guī)則的同指消解模型的提出 . 17 據(jù)的選擇 . . 19 絡(luò)專利數(shù)據(jù)庫 . 19 據(jù)預(yù)處理 . . 20 聯(lián)規(guī)則 . . 22 于關(guān)聯(lián)規(guī)則的同指消解模型設(shè)計與實驗 . 26 利數(shù)據(jù)獲取 . . 26 指數(shù)據(jù)庫設(shè)計 . . 30 于關(guān)聯(lián)規(guī)則的同指模型設(shè)計 . . 34 驗結(jié)果分析 . . 38 專利檢索中的應(yīng)用 . 專利權(quán)人的公司樹建立 . 40 司樹檢索的意義 . . 41 章小結(jié) . . 41 4 基于聚類分析的異指消解技術(shù) . . 43 指消解定義 . . 43 于聚類分析的異指消解模型的提出 . 43 類方法. . 44 于聚類規(guī)則的異指消解模型設(shè)計與實驗 . 46 利數(shù)據(jù)獲取 . . 46 指數(shù)據(jù)庫設(shè)計 . . 47 于聚類分析的異指模型建立 . . 48 驗結(jié)果分析 . . 53 專利檢索中的應(yīng)用 . 發(fā)明人標(biāo)引的建立 . . 54 明人標(biāo)引的意義 . . 55 章小結(jié) . . 55 5 總結(jié) . . 57 究工作總結(jié) . . 57 論文的創(chuàng)新之處 . . 57 究限制 . . 58 一步的工作 . . 58 致謝 . . 59 . 60 參考文獻(xiàn) . . 61 利基本信息圖 . 息抽取模型圖 . 面的結(jié)構(gòu)模式 . 指關(guān)系圖 . 于關(guān)聯(lián)規(guī)則的同指消解圖 . 國專利示意圖 . 頁格式的專利文本 . 于法的文本預(yù)處理流程 . 司辭典庫示例 . 利信息（全） . 處理專利數(shù)據(jù)（同指） . 聯(lián)規(guī)則消解 . 于聚類分析的異指消解模型 . 類算法圖 . 處理專利數(shù)據(jù)（異指） . 息對應(yīng) . 類分析過程圖 . 據(jù)挖掘數(shù)據(jù)方案建立 . 維數(shù)據(jù)集建立 . 類分析結(jié)果 . 類矩陣分析結(jié)果 . 入挖掘分析結(jié)果 . 利基本信息表 . 信技術(shù)領(lǐng)域英文檢索式 . 利數(shù)據(jù)信息 . 信技術(shù)專題美國專利數(shù)據(jù)庫數(shù)據(jù)狀況 . 典庫 . 狀表 . 狀顯示表 . 處理專利數(shù)據(jù)（同指） . 產(chǎn)公司表 . 點規(guī)則去除 . 文大小寫規(guī)則去除 . 名規(guī)則去除 . 稱規(guī)則去除 . 公司規(guī)則去除 . 則數(shù)據(jù)表 . 本訓(xùn)練數(shù)據(jù)表 . 練階段信息抽取模型性能評價指標(biāo) . 試階段信息抽取模型性能評價指標(biāo) . 處理專利數(shù)據(jù)（異指） . 產(chǎn)發(fā)明人 . 立點分析 . 本訓(xùn)練數(shù)據(jù)表 . 練階段信息抽取模型性能評價指標(biāo) . 型測試數(shù)據(jù)表 . 試階段信息抽取模型性能評價指標(biāo) .京理工大學(xué)碩士學(xué)位論文 11 緒論題背景自中國入世以來，市場的全球化要求我國企業(yè)必須遵循以知識產(chǎn)權(quán)為核心的國際競爭規(guī)則。而相對處于弱勢的我們，在知識產(chǎn)權(quán)領(lǐng)域已連遭重創(chuàng)并面臨日益嚴(yán)峻的挑戰(zhàn)。我國企業(yè)迫切需要站在戰(zhàn)略的高度，來認(rèn)識和處理知識產(chǎn)權(quán)問題，制定適合自身發(fā)展的知識產(chǎn)權(quán)戰(zhàn)略，以增強(qiáng)國際競爭力，實現(xiàn)可持續(xù)發(fā)展1 2。戰(zhàn)略合理、有效的制定離不開全面、準(zhǔn)確的信息。知識產(chǎn)權(quán)信息，尤其是專利信息蘊藏豐富的技術(shù)、法律、經(jīng)濟(jì)和戰(zhàn)略情報，在知識產(chǎn)權(quán)的創(chuàng)造、保護(hù)、管理和商業(yè)化的過程中都發(fā)揮著至關(guān)重要的作用。專利信息的有效利用直接關(guān)系到知識產(chǎn)權(quán)戰(zhàn)略的制定及實施3。專利信息是指某項技術(shù)在謀取專利權(quán)過程中的各種信息，它具有重要的戰(zhàn)略價值，是國家科技信息系統(tǒng)中重要的組成部分，是信息資源開發(fā)的重點。專利信息的分析研究正在國內(nèi)外廣泛開展?？偟恼f來，對于專利的分析主要從定性和定量兩個角度展開。定性分析主要從專利信息的內(nèi)容著手，通過分析專利中的某些特定信息項以獲得相關(guān)專利分析情報。定量分析則主要對一些專利中的固有標(biāo)引項目指標(biāo)進(jìn)行統(tǒng)計分析，再從技術(shù)和經(jīng)濟(jì)的角度對有關(guān)統(tǒng)計數(shù)據(jù)的變化進(jìn)行解釋，以獲得動態(tài)發(fā)展趨勢的分析結(jié)果4。圖利基本信息圖如圖條完整的專利包含了 31項標(biāo)引內(nèi)容5。目北京理工大學(xué)碩士學(xué)位論文 2前的專利研究主要圍繞著專利的申請日期、發(fā)明人、專利權(quán)人（所屬機(jī)構(gòu)）、國家、是卻存在著諸多不足：比如記錄著關(guān)鍵技術(shù)信息的專利摘要一直得不到有效地利用；發(fā)明人存在的同名同姓現(xiàn)象無法區(qū)分；相同機(jī)構(gòu)的不同名稱無法合并等。究其原因是由于目前專利分析僅僅是一些簡單的統(tǒng)計分析，如針對領(lǐng)域?qū)＠麛?shù)量、申請者、所在機(jī)構(gòu)、申請國家的分析，不具備自然語言的功能，因此無法對其進(jìn)行有效分析。不能有效處理包括專利摘要、發(fā)明人、專利權(quán)人（所屬機(jī)構(gòu)）等屬性在內(nèi)的專利文本信息，直接影響了專利信息的利用率，也制約著專利分析向更深層次的內(nèi)容挖掘方面發(fā)展。為了解決當(dāng)前專利信息分析所面臨的問題，本文創(chuàng)新性的將數(shù)據(jù)挖掘和信息抽取技術(shù)引入到專利信息的分析應(yīng)用中，以便有效地分析和處理專利信息，從中獲得專利技術(shù)信息，填補(bǔ)目前專利信息分析研究中的空白，將定性與定量分析方法結(jié)合起來，為我國專利信息分析的發(fā)展提供有益的參考6。究的主要內(nèi)容和意義在本課題中，我們將研究重點放在專利信息的有效利用上，把信息抽取技術(shù)、數(shù)據(jù)挖掘技術(shù)應(yīng)用在專利信息分析中，充分發(fā)揮信息抽取和數(shù)據(jù)挖掘技術(shù)在處理海量文本信息方面的優(yōu)勢，以期實現(xiàn)自動地抽取申請人、發(fā)明人等的重要信息，并嘗試融合先進(jìn)的專利信息分析方法，建立一套全新的專利信息分析系統(tǒng)以替代傳統(tǒng)的人工分析，從而提高專利信息分析工作的質(zhì)量和效率，為國家的專利戰(zhàn)略服務(wù)。首先，文本理解不是本文研究的重點，所以本文所提到的方法很少涉及深層次的自然語言理解問題，只是應(yīng)用數(shù)據(jù)挖掘和自然語言處理過程中相關(guān)的統(tǒng)計方法。另一方面，本文主要研究將發(fā)明人、專利權(quán)人（所屬機(jī)構(gòu)）進(jìn)行同指和異指關(guān)系關(guān)聯(lián)和區(qū)別，再通過人工指導(dǎo)訓(xùn)練和機(jī)器學(xué)習(xí)相結(jié)合的方式設(shè)計同指和異指信息抽取的實驗平臺。本文的研究目的是設(shè)計基于關(guān)聯(lián)規(guī)則的同指信息抽取模型和基于聚類方法的異指信息抽取模型，主要工作歸納如下：（1）對信息抽取和數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則和聚類分析進(jìn)行了綜述，并描述信息抽取的評價方法，設(shè)計了基于關(guān)聯(lián)規(guī)則的同指信息抽取模型和基于聚類分析方法的異指信息抽取模型。（2）根據(jù)專利數(shù)源的特征，在數(shù)據(jù)準(zhǔn)備階段利用知識發(fā)現(xiàn)與數(shù)據(jù)分析實驗室的專利自動下載工具從網(wǎng)上專利數(shù)據(jù)庫下載的原始專利數(shù)據(jù)，再對獲取到的專利數(shù)據(jù)進(jìn)行清北京理工大學(xué)碩士學(xué)位論文 3洗、非相關(guān)主題信息過濾、專利信息分塊、數(shù)據(jù)庫導(dǎo)入等操作，從而積累了大量真實有效的專利結(jié)構(gòu)化信息。通過以上研究內(nèi)容顯示，將信息抽取技術(shù)應(yīng)用于專利信息分析中，對于專利信息分析有以下幾點意義：（1）體現(xiàn)了專利分析工作的時效性。對于公開的專利資源，目前分析者常常是通過紙質(zhì)或互聯(lián)網(wǎng)粗略收集專利信息，專利中大量關(guān)鍵的技術(shù)信息還得通過人工過程加以識別和分析。信息檢索技術(shù)雖然為找到目標(biāo)信息提供了很好的支持，但還得根據(jù)它提供的地址去訪問每一個頁面，工作量大且浪費時間。信息抽取技術(shù)通過智能化處理過程大大縮短了專利信息的分析處理時間，體現(xiàn)了專利工作的時效性。（2）實現(xiàn)了專利信息的動態(tài)監(jiān)測。信息抽取技術(shù)的使用為專利的快速分析和傳遞提供了可能，更有效地實現(xiàn)了專利信息的動態(tài)監(jiān)測。（3）實現(xiàn)智能化的信息處理。原有的信息獲取技術(shù)實現(xiàn)的是單純的信息獲取，在信息的識別、判斷和分析處理方面明顯不足。信息抽取技術(shù)本質(zhì)上是一種信息獲取技術(shù)，但它在某種程度上實現(xiàn)了信息的自動識別、判斷和分析處理。（4）專利定性和定量分析方法的結(jié)合。通過信息抽取將專利摘要中的技術(shù)關(guān)鍵詞定性的提取出來，就可以進(jìn)行技術(shù)關(guān)鍵詞分類、關(guān)聯(lián)分析和統(tǒng)計研究，從而將定量分析方法有機(jī)結(jié)合起來。（5）實現(xiàn)規(guī)范化的管理。傳統(tǒng)的管理方式散亂、不易查找，信息抽取最后結(jié)構(gòu)化的表達(dá)方式易于理解且方便管理。充分利用這種現(xiàn)代信息技術(shù)，使需要的專利技術(shù)信息得到及時、準(zhǔn)確的處理，并實現(xiàn)數(shù)據(jù)庫管理的自動化、規(guī)范化。因此，進(jìn)行專利的信息抽取和數(shù)據(jù)挖掘研究應(yīng)用，可以豐富專利信息分析研究方法，提高專利信息利用率，不僅具有理論研究價值，其實踐應(yīng)用也非常高。文結(jié)構(gòu)與安排本文根據(jù)結(jié)構(gòu)安排，共分為五個章節(jié)：第一章：緒論包括本文的選題背景、主要研究內(nèi)容與意義、論文的結(jié)構(gòu)安排以及文章創(chuàng)新點設(shè)計第二章：信息抽取技術(shù)綜述主要介紹信息抽取技術(shù)的概念、研究對象、研究歷史及發(fā)展現(xiàn)狀、信息抽取的類型、方法設(shè)計與流程、抽取模型選擇和信息抽取系統(tǒng)的性能評北京理工大學(xué)碩士學(xué)位論文 4價；數(shù)據(jù)挖掘技術(shù)綜述主要介紹的概述、發(fā)展、關(guān)聯(lián)規(guī)則、聚類的介紹。第三章：基于關(guān)聯(lián)規(guī)則的同指消解技術(shù)的提出。根據(jù)專利信息的特點設(shè)計了一個抽取模型，主要包括專利數(shù)據(jù)源分析、專利數(shù)據(jù)獲取、專利數(shù)據(jù)存儲、專利信息抽取、專利信息服務(wù)探討等以便建立新的理論和方法模型。同時，利用此方法通過通信專利數(shù)據(jù)進(jìn)行模型的實驗，把準(zhǔn)備好的專利數(shù)據(jù)信息結(jié)合人工指導(dǎo)和機(jī)器學(xué)習(xí)訓(xùn)練從中抽取出同指庫，并將抽取結(jié)果生成基于同指的專利辭典。該辭典可用于建立專利檢索中的申請人公司樹，從而提高專利在申請人檢索方面的查全率。第四章：基于聚類分析的異指消解技術(shù)的建立。專利異指抽取模型的總體框架與流程設(shè)計，解決數(shù)據(jù)準(zhǔn)備問題，對專利數(shù)據(jù)進(jìn)行預(yù)處理，設(shè)計辭典、規(guī)則與統(tǒng)計方法相結(jié)合的分析，提出了一套全新的命名實體識別模型及其算法，并選擇合適的抽取結(jié)果輸出方式。然后，通過實證數(shù)據(jù)進(jìn)行模型的實驗，結(jié)合人工指導(dǎo)和機(jī)器學(xué)習(xí)訓(xùn)練，從專利中抽取出異指庫，并將抽取結(jié)果生成基于異指關(guān)系的專利辭典，以便建立專利檢索中的發(fā)明人異指標(biāo)引，提高專利在發(fā)明人檢索方面的查準(zhǔn)率。第五章：總結(jié)和展望總結(jié)全文，概述研究工作成果及意義，提出本文的創(chuàng)新之處，明確當(dāng)前研究的不足和下一步的工作方向。北京理工大學(xué)碩士學(xué)位論文 52 信息抽取和數(shù)據(jù)挖掘技術(shù)綜述息抽取信息抽取是面向結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化文本所進(jìn)行的淺層的或者說簡化的文本理解技術(shù)，其定義為從一段文本或一處信息中抽取指定的一類信息并將其形成結(jié)構(gòu)化的數(shù)據(jù)填入一個數(shù)據(jù)庫中供用戶查詢使用的過程7。即它從文本中抽取用戶感興趣的事件、實體和關(guān)系，然后進(jìn)入數(shù)據(jù)庫，分析趨勢，或進(jìn)行在線服務(wù)。信息抽取還可以看作是信息檢索的進(jìn)一步深化，研究指定信息的查找、理解和抽取，并將指定信息以適當(dāng)?shù)姆绞捷敵?。信息抽取已?jīng)發(fā)展成為自然語言處理領(lǐng)域的一個重要分支，涉及到了深層次的語言理解、篇章分析與推理、多語言文本處理、息抽取、名實體識別等自然語言研究領(lǐng)域8。息抽取的概述信息抽取(E)技術(shù)正是這樣一種新型的能滿足上述要求的自然語言處理技術(shù)，它通過對原文檔信息內(nèi)容的分析抽取出有意義的事實生成滿足用戶要求的簡潔的信息9。信息抽取系統(tǒng)不僅能幫助人們方便地找到所需信息，而且信息的內(nèi)容經(jīng)過合理的分析和組織人們可以高效地獲取所感興趣的信息內(nèi)容10。一方面信息抽取系統(tǒng)從文檔(例如檔)中抽取指定領(lǐng)域的信息并使用信息模板來刻畫原文檔信息；另一方面信息抽取系統(tǒng)將非結(jié)構(gòu)化的文本化,并將結(jié)構(gòu)化的信息組織存儲到信息庫中使用戶能夠方便地進(jìn)行進(jìn)一步的數(shù)據(jù)分析和查詢工作11。信息抽取的任務(wù)就是將源文檔所包含的信息內(nèi)容抽取出來并按模板的結(jié)構(gòu)組織存儲形成結(jié)構(gòu)化的信息庫。在信息抽取得到的結(jié)構(gòu)化信息庫的基礎(chǔ)上，可以進(jìn)一步完成信息搜索(數(shù)據(jù)挖掘( 機(jī)器翻譯( 文本生成(后續(xù)信息處理1213。息抽取的發(fā)展通過調(diào)查我們發(fā)現(xiàn)目前信息抽取在專利信息分析方面的應(yīng)用研究在國內(nèi)外都還處于起步階段，而我們將信息抽取技術(shù)應(yīng)用于專利信息的分析更是一項全新的嘗試。從另一個方面講，這也是科學(xué)研究中多學(xué)科交叉、多技術(shù)融合大前提下的發(fā)展必然14。雖然尚沒有直接以信息抽取應(yīng)用于專利信息分析的先例，但是信息抽取的概念已經(jīng)北京理工大學(xué)碩士學(xué)位論文 6出現(xiàn)在了很多相關(guān)專利信息分析的工作中并發(fā)揮著重要的作用：從自然語言文本中獲取結(jié)構(gòu)化信息的研究最早開始于 20 世紀(jì) 60 年代中期，這被看作是信息抽取技術(shù)的初始研究，它以兩個長期的、研究性的自然語言處理項目為代表。一個是美國紐約大學(xué)開展的目，開始于 60年代中期并一直延續(xù)到80 年代。另一個相關(guān)的長期項目是由耶魯大學(xué) 其同事在 20 世紀(jì) 70 年代開展的有關(guān)故事理解的研究15。從 20世紀(jì) 80年代末開始，消息理解系列會議（召開標(biāo)志著信息抽取研究蓬勃開展起來。近幾年，信息抽取技術(shù)的研究與應(yīng)用更為活躍。以美國國家標(biāo)準(zhǔn)技術(shù)研究所（織的自動內(nèi)容抽取正在推動信息抽取研究進(jìn)一步發(fā)展1617。在研究方面，主要側(cè)重于：利用機(jī)器學(xué)習(xí)技術(shù)增強(qiáng)系統(tǒng)的可移植能力、探索深層理解技術(shù)、篇章分析技術(shù)、多語言文本處理能力、及對時間信息的處理等等22。在應(yīng)用方面，信息抽取應(yīng)用的領(lǐng)域非常廣泛，除自成系統(tǒng)以外，還與其他文檔處理技術(shù)結(jié)合建立功能強(qiáng)大的信息服務(wù)系統(tǒng)18。目前國外現(xiàn)有的比較典型的信息抽取系統(tǒng)主要包括：統(tǒng)是早在 1981 年由究出來關(guān)于動植物正規(guī)結(jié)構(gòu)描述數(shù)據(jù)庫的系統(tǒng)及其商用化產(chǎn)品。該系統(tǒng)采用了概念句子分析技術(shù)，通過一些簡單的語言處理技術(shù)能夠完成限制在小規(guī)模，特定專業(yè)領(lǐng)域的信息抽取任務(wù)19。美國究與開發(fā)中心的研制的。便判定該報道的內(nèi)容是否與“公司合并”有關(guān)；然后采用自底向上的分析器識別句子結(jié)構(gòu)，生成概念表示；最后應(yīng)用自頂向下的預(yù)期驅(qū)動分析器提取預(yù)期內(nèi)容20。美國加里福尼亞斯坦福研究所人工智能中心從 1991年開始開發(fā)的一個基于多層、非確定有限狀態(tài)自動機(jī)模型的自然語言文本信息抽取系統(tǒng)21。統(tǒng)，分別采用統(tǒng)計學(xué)的方法進(jìn)行詞匯標(biāo)注和語法分析與使用一組通用的文本處理模塊滿足不同的文本處理應(yīng)用的需要22 23。由德國人工智能研究中心語言技術(shù)實驗室（目中所開發(fā)的北京理工大學(xué)碩士學(xué)位論文 7一個聯(lián)機(jī)的德語文檔信息抽取智能系統(tǒng) 24。在中文信息抽取領(lǐng)域，國立臺灣大學(xué)和新加坡肯特崗數(shù)字實驗室參加了文命名實體識別任務(wù)的評測。國研究中心的等人在命名實體以及這些實體間相互關(guān)系的信息抽取系統(tǒng)。近年來包括中國科學(xué)院、北京大學(xué)、哈爾濱工業(yè)工學(xué)和上海交通大學(xué)等一批高校和研究機(jī)構(gòu)也在中文抽取方面開展了大量的工作，并且取得了一定的研究成果。但是中文信息抽取方面的研究相對起步較晚，純粹的基于中文的信息抽取系統(tǒng)在國內(nèi)仍處于空白，主要的研究工作集中在對中文命名25。信息抽取技術(shù)是當(dāng)前的熱門研究方向?qū)W術(shù)會議很頻繁其中最重要的一個會議是是一個由美國政府資助的為推動術(shù)發(fā)展的重要的系列工程，迄今為止已經(jīng)舉辦了七屆用競賽的方式每一屆都提供標(biāo)準(zhǔn)的語料并定義了各種不同的子任務(wù)來對參賽的信息抽取系統(tǒng)進(jìn)行評估，其難度也是越來越大，研究機(jī)構(gòu)。參加 1998 年的最近的一次的信息抽取任務(wù)涉及抽取文檔中的專名(人名組織名和地點名)、同指項、確定模板元素之間的關(guān)系如地點關(guān)系、雇傭關(guān)系和生產(chǎn)關(guān)系等，抽取文檔中的事件文檔包含多語種的新聞稿。訓(xùn)練用的文檔專業(yè)領(lǐng)域是關(guān)于飛機(jī)墜毀報道，而測試用的文檔專業(yè)領(lǐng)域是關(guān)于發(fā)射事件報道。信息抽取的發(fā)展趨勢有：在抽取內(nèi)容方面由單語種向多語種發(fā)展；由簡單的領(lǐng)域?qū)嶓w抽取向?qū)嶓w的屬性和實體間關(guān)系事件的抽取發(fā)展；在抽取方法方面，由單一的基于規(guī)則的系統(tǒng)向結(jié)合機(jī)器學(xué)習(xí)和統(tǒng)計方法的多策略系統(tǒng)發(fā)展；由表層的句子級的語言處理向深層的篇章級的語言處理發(fā)展；在實際應(yīng)用方面，由早期的理論研究和技術(shù)探討逐漸向?qū)嶋H應(yīng)用系統(tǒng)的開發(fā)發(fā)展24。息抽取處理的研究對象狹義的信息抽取，其處理對象主要是各種文本信息，包括結(jié)構(gòu)化文本信息、半結(jié)構(gòu)化文本信息和自由文本信息。而廣義上的信息抽取處理對象則還包括了語音、圖像和視頻等多媒體數(shù)據(jù)信息。在這里，主要研究的是狹義的信息抽取技術(shù)26。信息抽取的最初目的是開發(fā)實用系統(tǒng)，從自由文本中抽取有限的主要信息。處理自由文本的信息抽取系統(tǒng)通常使用自然語言處理技巧，其抽取規(guī)則主要建立在詞和詞類間北京理工大學(xué)碩士學(xué)位論文 8句法關(guān)系的基礎(chǔ)上。需要經(jīng)過的處理步驟包括：句法分析、語義標(biāo)注、命名實體識別和抽取規(guī)則。結(jié)構(gòu)化文本信息是一種存儲于數(shù)據(jù)庫里的文本信息，或者根據(jù)事先規(guī)定的嚴(yán)格格式生成的文本信息。從這樣的文本信息中抽取信息是非常容易的，準(zhǔn)確度也很高，通過描述其格式即可達(dá)到目的。半結(jié)構(gòu)化文本信息是一種介于自由文本信息和結(jié)構(gòu)化文本信息之間的數(shù)據(jù)

人人文庫> 全部分類> 畢業(yè)設(shè)計 > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

【畢業(yè)學(xué)位論文】基于數(shù)據(jù)挖掘和信息抽取技術(shù)的專利數(shù)據(jù)屬性識別研究

文檔簡介

溫馨提示

最新文檔

評論

【畢業(yè)學(xué)位論文】基于數(shù)據(jù)挖掘和信息抽取技術(shù)的專利數(shù)據(jù)屬性識別研究

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔