




已閱讀5頁(yè),還剩67頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
【畢業(yè)學(xué)位論文】基于數(shù)據(jù)挖掘和信息抽取技術(shù)的專利數(shù)據(jù)屬性識(shí)別研究.pdf 免費(fèi)下載
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
要 知識(shí)產(chǎn)權(quán)信息,尤其是專利信息蘊(yùn)藏豐富的技術(shù)、法律、經(jīng)濟(jì)和戰(zhàn)略情報(bào),在知識(shí)產(chǎn)權(quán)的創(chuàng)造、保護(hù)、管理和商業(yè)化的過(guò)程中都發(fā)揮著至關(guān)重要的作用。專利信息是指某項(xiàng)技術(shù)在謀取專利權(quán)過(guò)程中的各種信息,它具有重要的戰(zhàn)略價(jià)值,是國(guó)家科技信息系統(tǒng)中重要的組成部分,是信息資源開(kāi)發(fā)的重點(diǎn)。如何科學(xué)地使用專利信息和做好專利分析工作,是目前專利研究領(lǐng)域的重要課題。 本文從專利檢索用戶的角度出發(fā),對(duì)美國(guó)專利數(shù)據(jù)屬性進(jìn)行了重新規(guī)劃。根據(jù)專利信息專利權(quán)人(申請(qǐng)人)屬性的特點(diǎn),利用信息抽取、關(guān)聯(lián)分析等技術(shù),提出基于關(guān)聯(lián)規(guī)則的同指消解抽取模型。同時(shí),利用此方法對(duì)通信專利數(shù)據(jù)進(jìn)行模型訓(xùn)練,從中抽取出可不斷擴(kuò)充的同指辭典。該辭典可用于建立專利檢索中的申請(qǐng)人公司樹(shù),從而提高專利在申請(qǐng)人檢索方面的查全率。 另外,根據(jù)專利信息發(fā)明人屬性的特點(diǎn),利用信息抽取、聚類分析等技術(shù),構(gòu)建基于聚類分析的異指消解抽取模型,提出了一套全新的命名實(shí)體識(shí)別模型及其算法,并選擇合適的抽取結(jié)果輸出方式。然后,通過(guò)實(shí)證數(shù)據(jù)進(jìn)行模型實(shí)驗(yàn),從中抽取出可維護(hù)和可擴(kuò)展的異指庫(kù),以便建立專利檢索中的發(fā)明人異指標(biāo)引,提高專利在發(fā)明人檢索方面的查準(zhǔn)率。 本文有機(jī)地結(jié)合辭典、規(guī)則和統(tǒng)計(jì)模型方法,提出了基于關(guān)聯(lián)規(guī)則的同指消解模型和基于聚類分析的異指消解模型,并在此基礎(chǔ)上進(jìn)行了大量的人工指導(dǎo)和機(jī)器學(xué)習(xí)訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,本文所設(shè)計(jì)的信息抽取系統(tǒng)基本令人滿意。 關(guān)鍵詞 :信息抽取 數(shù)據(jù)挖掘 專利信息 同指 異指 a in of of of in of of It is of it is of to of do a in is an On we We on in by of so in to of s At of to be is to of of on to of By on of on of is to to up a of on of on On we a of of in 錄 . 緒 論 . . 1 題背景 . . 1 究的主要內(nèi)容和意義 . 文結(jié)構(gòu)與安排 . . 3 2 信息抽取和數(shù)據(jù)挖掘技術(shù)綜述 . . 5 息抽取 . . 5 息抽取的概述 . . 5 息抽取的發(fā)展 . . 5 息抽取處理的研究對(duì)象 . 7 息抽取的類型 . . 8 息抽取的方法設(shè)計(jì)與流程 . 8 息抽取系統(tǒng)的性能評(píng)價(jià) . 9 結(jié)構(gòu)化的信息抽取和非結(jié) 構(gòu)化的信息抽取 . 10 據(jù)挖掘技術(shù) . . 11 據(jù)挖掘的概述 . . 11 據(jù)挖掘的發(fā)展 . . 12 聯(lián)規(guī)則 . . 13 類技術(shù) . . 13 3 基于關(guān)聯(lián)規(guī)則的同指消解技術(shù) . . 16 指消解定義 . . 16 于關(guān)聯(lián)規(guī)則的同指消解模型 的提出 . 17 據(jù)的選擇 . . 19 絡(luò)專利數(shù)據(jù)庫(kù) . 19 據(jù)預(yù)處理 . . 20 聯(lián)規(guī)則 . . 22 于關(guān)聯(lián)規(guī)則的同指消解模型 設(shè)計(jì)與實(shí)驗(yàn) . 26 利數(shù)據(jù)獲取 . . 26 指數(shù)據(jù)庫(kù)設(shè)計(jì) . . 30 于關(guān)聯(lián)規(guī)則的同指模型設(shè)計(jì) . . 34 驗(yàn)結(jié)果分析 . . 38 專利檢索中的應(yīng)用 . 專利權(quán)人的公司樹(shù)建立 . 40 司樹(shù)檢索的意義 . . 41 章小結(jié) . . 41 4 基于聚類分析的異指消解技術(shù) . . 43 指消解定義 . . 43 于聚類分析的異指消解模型 的提出 . 43 類方法. . 44 于聚類規(guī)則的異指消解模型 設(shè)計(jì)與實(shí)驗(yàn) . 46 利數(shù)據(jù)獲取 . . 46 指數(shù)據(jù)庫(kù)設(shè)計(jì) . . 47 于聚類分析的異指模型建立 . . 48 驗(yàn)結(jié)果分析 . . 53 專利檢索中的應(yīng)用 . 發(fā)明人標(biāo)引的建立 . . 54 明人標(biāo)引的意義 . . 55 章小結(jié) . . 55 5 總結(jié) . . 57 究工作總結(jié) . . 57 論文的創(chuàng)新之處 . . 57 究限制 . . 58 一步的工作 . . 58 致 謝 . . 59 . 60 參考文獻(xiàn) . . 61 利基本信息圖 . 息抽取模型圖 . 面的結(jié)構(gòu)模式 . 指關(guān)系圖 . 于關(guān)聯(lián)規(guī)則的同指消解圖 . 國(guó)專利示意圖 . 頁(yè)格式的專利文本 . 于 法的文本預(yù)處理流程 . 司辭典庫(kù)示例 . 利信息(全) . 處理專利數(shù)據(jù)(同指) . 聯(lián)規(guī)則消解 . 于聚類分析的異指消解模型 . 類算法圖 . 處理專利數(shù)據(jù)(異指) . 息對(duì)應(yīng) . 類分析過(guò)程圖 . 據(jù)挖掘數(shù)據(jù)方案建立 . 維數(shù)據(jù)集建立 . 類分析結(jié)果 . 類矩陣分析結(jié)果 . 入挖掘分析結(jié)果 . 利基本信息表 . 信技術(shù)領(lǐng)域英文檢索式 . 利數(shù)據(jù)信息 . 信技術(shù)專題美國(guó)專利數(shù)據(jù)庫(kù)數(shù)據(jù)狀況 . 典庫(kù) . 狀表 . 狀顯示表 . 處理專利數(shù)據(jù)(同指) . 產(chǎn)公司表 . 點(diǎn)規(guī)則去除 . 文大小寫(xiě)規(guī)則去除 . 名規(guī)則去除 . 稱規(guī)則去除 . 公司規(guī)則去除 . 則數(shù)據(jù)表 . 本訓(xùn)練數(shù)據(jù)表 . 練階段信息抽取模型性能評(píng)價(jià)指標(biāo) . 試階段信息抽取模型性能評(píng)價(jià)指標(biāo) . 處理專利數(shù)據(jù)(異指) . 產(chǎn)發(fā)明人 . 立點(diǎn)分析 . 本訓(xùn)練數(shù)據(jù)表 . 練階段信息抽取模型性能評(píng)價(jià)指標(biāo) . 型測(cè)試數(shù)據(jù)表 . 試階段信息抽取模型性能評(píng)價(jià)指標(biāo) .京理工大學(xué)碩士學(xué)位論文 11 緒 論 題背景 自中國(guó)入世以來(lái),市場(chǎng)的全球化要求我國(guó)企業(yè)必須遵循以知識(shí)產(chǎn)權(quán)為核心的國(guó)際競(jìng)爭(zhēng)規(guī)則。而相對(duì)處于弱勢(shì)的我們,在知識(shí)產(chǎn)權(quán)領(lǐng)域已連遭重創(chuàng)并面臨日益嚴(yán)峻的挑戰(zhàn)。我國(guó)企業(yè)迫切需要站在戰(zhàn)略的高度,來(lái)認(rèn)識(shí)和處理知識(shí)產(chǎn)權(quán)問(wèn)題,制定適合自身發(fā)展的知識(shí)產(chǎn)權(quán)戰(zhàn)略,以增強(qiáng)國(guó)際競(jìng)爭(zhēng)力,實(shí)現(xiàn)可持續(xù)發(fā)展1 2。 戰(zhàn)略合理、有效的制定離不開(kāi)全面、準(zhǔn)確的信息。知識(shí)產(chǎn)權(quán)信息,尤其是專利信息蘊(yùn)藏豐富的技術(shù)、法律、經(jīng)濟(jì)和戰(zhàn)略情報(bào),在知識(shí)產(chǎn)權(quán)的創(chuàng)造、保護(hù)、管理和商業(yè)化的過(guò)程中都發(fā)揮著至關(guān)重要的作用。專利信息的有效利用直接關(guān)系到知識(shí)產(chǎn)權(quán)戰(zhàn)略的制定及實(shí)施3。 專利信息是指某項(xiàng)技術(shù)在謀取專利權(quán)過(guò)程中的各種信息,它具有重要的戰(zhàn)略價(jià)值,是國(guó)家科技信息系統(tǒng)中重要的組成部分,是信息資源開(kāi)發(fā)的重點(diǎn)。專利信息的分析研究正在國(guó)內(nèi)外廣泛開(kāi)展??偟恼f(shuō)來(lái),對(duì)于專利的分析主要從定性和定量?jī)蓚€(gè)角度展開(kāi)。定性分析主要從專利信息的內(nèi)容著手,通過(guò)分析專利中的某些特定信息項(xiàng)以獲得相關(guān)專利分析情報(bào)。定量分析則主要對(duì)一些專利中的固有標(biāo)引項(xiàng)目指標(biāo)進(jìn)行統(tǒng)計(jì)分析,再?gòu)募夹g(shù)和經(jīng)濟(jì)的角度對(duì)有關(guān)統(tǒng)計(jì)數(shù)據(jù)的變化進(jìn)行解釋,以獲得動(dòng)態(tài)發(fā)展趨勢(shì)的分析結(jié)果4。 圖 利基本信息圖 如圖 條完整的專利包含了 31項(xiàng)標(biāo)引內(nèi)容5。目北京理工大學(xué)碩士學(xué)位論文 2前的專利研究主要圍繞著專利的申請(qǐng)日期、發(fā)明人、專利權(quán)人(所屬機(jī)構(gòu)) 、國(guó)家、是卻存在著諸多不足:比如記錄著關(guān)鍵技術(shù)信息的專利摘要一直得不到有效地利用;發(fā)明人存在的同名同姓現(xiàn)象無(wú)法區(qū)分;相同機(jī)構(gòu)的不同名稱無(wú)法合并等。究其原因是由于目前專利分析僅僅是一些簡(jiǎn)單的統(tǒng)計(jì)分析,如針對(duì)領(lǐng)域?qū)@麛?shù)量、申請(qǐng)者、所在機(jī)構(gòu)、申請(qǐng)國(guó)家的分析,不具備自然語(yǔ)言的功能,因此無(wú)法對(duì)其進(jìn)行有效分析。不能有效處理包括專利摘要、發(fā)明人、專利權(quán)人(所屬機(jī)構(gòu))等屬性在內(nèi)的專利文本信息,直接影響了專利信息的利用率,也制約著專利分析向更深層次的內(nèi)容挖掘方面發(fā)展。為了解決當(dāng)前專利信息分析所面臨的問(wèn)題,本文創(chuàng)新性的將數(shù)據(jù)挖掘和信息抽取技術(shù)引入到專利信息的分析應(yīng)用中,以便有效地分析和處理專利信息,從中獲得專利技術(shù)信息, 填補(bǔ)目前專利信息分析研究中的空白,將定性與定量分析方法結(jié)合起來(lái),為我國(guó)專利信息分析的發(fā)展提供有益的參考6。 究的主要內(nèi)容和意義 在本課題中,我們將研究重點(diǎn)放在專利信息的有效利用上,把信息抽取技術(shù)、數(shù)據(jù)挖掘技術(shù)應(yīng)用在專利信息分析中,充分發(fā)揮信息抽取和數(shù)據(jù)挖掘技術(shù)在處理海量文本信息方面的優(yōu)勢(shì),以期實(shí)現(xiàn)自動(dòng)地抽取申請(qǐng)人、發(fā)明人等的重要信息,并嘗試融合先進(jìn)的專利信息分析方法,建立一套 全新的專利信息分析系統(tǒng)以替代傳統(tǒng)的人工分析,從而提高專利信息分析工作的質(zhì)量和效率,為國(guó)家的專利戰(zhàn)略服務(wù)。首先,文本理解不是本文研究的重點(diǎn),所以本文所提到的方法很少涉及深層次的自然語(yǔ)言理解問(wèn)題,只是應(yīng)用數(shù)據(jù)挖掘和自然語(yǔ)言處理過(guò)程中相關(guān)的統(tǒng)計(jì)方法。另一方面,本文主要研究將發(fā)明人、專利權(quán)人(所屬機(jī)構(gòu))進(jìn)行同指和異指關(guān)系關(guān)聯(lián)和區(qū)別,再通過(guò)人工指導(dǎo)訓(xùn)練和機(jī)器學(xué)習(xí)相結(jié)合的方式設(shè)計(jì)同指和異指信息抽取的實(shí)驗(yàn)平臺(tái)。 本文的研究目的是設(shè)計(jì)基于關(guān)聯(lián)規(guī)則的同指信息抽取模型和基于聚類方法的異指信息抽取模型,主要工作歸納如下: (1)對(duì)信息抽取和數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則和聚類分析進(jìn)行了綜述,并描述信息抽取的評(píng)價(jià)方法,設(shè)計(jì)了基于關(guān)聯(lián)規(guī)則的同指信息抽取模型和基于聚類分析方法的異指信息抽取模型。 (2)根據(jù)專利數(shù)源的特征,在數(shù)據(jù)準(zhǔn)備階段利用知識(shí)發(fā)現(xiàn)與數(shù)據(jù)分析實(shí)驗(yàn)室的專利自動(dòng)下載工具從網(wǎng)上專利數(shù)據(jù)庫(kù)下載的原始專利數(shù)據(jù),再對(duì)獲取到的專利數(shù)據(jù)進(jìn)行清北京理工大學(xué)碩士學(xué)位論文 3洗、非相關(guān)主題信息過(guò)濾、專利信息分塊、數(shù)據(jù)庫(kù)導(dǎo)入等操作,從而積累了大量真實(shí)有效的專利結(jié)構(gòu)化信息。 通過(guò)以上研究?jī)?nèi)容顯示,將信息抽取技術(shù)應(yīng)用于專利信息分析中,對(duì)于專利信息分析有以下幾點(diǎn)意義: (1)體現(xiàn)了專利分析工作的時(shí)效性。對(duì)于公開(kāi)的專利資源,目前分析者常常是通過(guò)紙質(zhì)或互聯(lián)網(wǎng)粗略收集專利信息,專利中大量關(guān)鍵的技術(shù)信息還得通過(guò)人工過(guò)程加以識(shí)別和分析。信息檢索技術(shù)雖然為找到目標(biāo)信息提供了很好的支持,但還得根據(jù)它提供的地址去訪問(wèn)每一個(gè)頁(yè)面,工作量大且浪費(fèi)時(shí)間。信息抽取技術(shù)通過(guò)智能化處理過(guò)程大大縮短了專利信息的分析處理時(shí)間,體現(xiàn)了專利工作的時(shí)效性。 (2)實(shí)現(xiàn)了專利信息的動(dòng)態(tài)監(jiān)測(cè)。信息抽取技術(shù)的使用為專利的快速分析和傳遞提供了可能,更有效地實(shí)現(xiàn)了專利信息的動(dòng)態(tài)監(jiān)測(cè)。 (3)實(shí)現(xiàn)智能化的信息處理。原有的信息獲取技術(shù)實(shí)現(xiàn)的是單純的信息獲取,在信息的識(shí)別、判斷和分析處理方面明顯不足。信息抽取技術(shù)本質(zhì)上是一種信息獲取技術(shù),但它在某種程度上實(shí)現(xiàn)了信息的自動(dòng)識(shí)別、判斷和分析處理。 (4)專利定性和定量分析方法的結(jié)合。通過(guò)信息抽取將專利摘要中的技術(shù)關(guān)鍵詞定性的提取出來(lái),就可以進(jìn)行技術(shù)關(guān)鍵詞分類、關(guān)聯(lián)分析和統(tǒng)計(jì)研究,從而將定量分析方法有機(jī)結(jié)合起來(lái)。 (5)實(shí)現(xiàn)規(guī)范化的管理。傳統(tǒng)的管理方式散亂、不易查找,信息抽取最后結(jié)構(gòu)化的表達(dá)方式易于理解且方便管理。充分利用這種現(xiàn)代信息技術(shù),使需要的專利技術(shù)信息得到及時(shí)、準(zhǔn)確的處理,并實(shí)現(xiàn)數(shù)據(jù)庫(kù)管理的自動(dòng)化、規(guī)范化。 因此,進(jìn)行專利的信息抽取和數(shù)據(jù)挖掘研究應(yīng)用,可以豐富專利信息分析研究方法,提高專利信息利用率,不僅具有理論研究?jī)r(jià)值,其實(shí)踐應(yīng)用也非常高。 文結(jié)構(gòu)與安排 本文根據(jù)結(jié)構(gòu)安排,共分為五個(gè)章節(jié): 第一章:緒論包括本文的選題背景、主要研究?jī)?nèi)容與意義、論文的結(jié)構(gòu)安排以及文章創(chuàng)新點(diǎn)設(shè)計(jì) 第二章:信息抽取技術(shù)綜述主要介紹信息抽取技術(shù)的概念、研究對(duì)象、研究歷史及發(fā)展現(xiàn)狀、信息抽取的類型、方法設(shè)計(jì)與流程、抽取模型選擇和信息抽取系統(tǒng)的性能評(píng)北京理工大學(xué)碩士學(xué)位論文 4價(jià);數(shù)據(jù)挖掘技術(shù)綜述主要介紹的概述、發(fā)展、關(guān)聯(lián)規(guī)則、聚類的介紹。 第三章:基于關(guān)聯(lián)規(guī)則的同指消解技術(shù)的提出。根據(jù)專利信息的特點(diǎn)設(shè)計(jì)了一個(gè)抽取模型,主要包括專利數(shù)據(jù)源分析、專利數(shù)據(jù)獲取、專利數(shù)據(jù)存儲(chǔ)、專利信息抽取、專利信息服務(wù)探討等以便建立新的理論和方法模型。同時(shí),利用此方法通過(guò)通信專利數(shù)據(jù)進(jìn)行模型的實(shí)驗(yàn),把準(zhǔn)備好的專利數(shù)據(jù)信息結(jié)合人工指導(dǎo)和機(jī)器學(xué)習(xí)訓(xùn)練從中抽取出同指庫(kù),并將抽取結(jié)果生成基于同指的專利辭典。該辭典可用于建立專利檢索中的申請(qǐng)人公司樹(shù),從而提高專利在申請(qǐng)人檢索方面的查全率。 第四章:基于聚類分析的異指消解技術(shù)的建立。專利異指抽取模型的總體框架與流程設(shè)計(jì),解決數(shù)據(jù)準(zhǔn)備問(wèn)題,對(duì)專利數(shù)據(jù)進(jìn)行預(yù)處理,設(shè)計(jì)辭典、規(guī)則與統(tǒng)計(jì)方法相結(jié)合的分析,提出了一套全新的命名實(shí)體識(shí)別模型及其算法,并選擇合適的抽取結(jié)果輸出方式。然后,通過(guò)實(shí)證數(shù)據(jù)進(jìn)行模型的實(shí)驗(yàn),結(jié)合人工指導(dǎo)和機(jī)器學(xué)習(xí)訓(xùn)練,從專利中抽取出異指庫(kù),并將抽取結(jié)果生成基于異指關(guān)系的專利辭典,以便建立專利檢索中的發(fā)明人異指標(biāo)引,提高專利在發(fā)明人檢索方面的查準(zhǔn)率。 第五章:總結(jié)和展望總結(jié)全文,概述研究工作成果及意義,提出本文的創(chuàng)新之處,明確當(dāng)前研究的不足和下一步的工作方向。 北京理工大學(xué)碩士學(xué)位論文 52 信息抽取和數(shù)據(jù)挖掘技術(shù)綜述 息抽取 信息抽取是面向結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化文本所進(jìn)行的淺層的或者說(shuō)簡(jiǎn)化的文本理解技術(shù),其定義為從一段文本或一處信息中抽取指定的一類信息并將其形成結(jié)構(gòu)化的數(shù)據(jù)填入一個(gè)數(shù)據(jù)庫(kù)中供用戶查詢使用的過(guò)程7。即它從文本中抽取用戶感興趣的事件、實(shí)體和關(guān)系,然后進(jìn)入數(shù)據(jù)庫(kù),分析趨勢(shì),或進(jìn)行在線服務(wù)。信息抽取還可以看作是信息檢索的進(jìn)一步深化,研究指定信息的查找、理解和抽取,并將指定信息以適當(dāng)?shù)姆绞捷敵?。信息抽取已?jīng)發(fā)展成為自然語(yǔ)言處理領(lǐng)域的一個(gè)重要分支,涉及到了深層次的語(yǔ)言理解、篇章分析與推理、多語(yǔ)言文本處理、息抽取、名實(shí)體識(shí)別等自然語(yǔ)言研究領(lǐng)域8。 息抽取的概述 信息抽取(E)技術(shù)正是這樣一種新型的能滿足上述要求的自然語(yǔ)言處理技術(shù),它通過(guò)對(duì)原文檔信息內(nèi)容的分析抽取出有意義的事實(shí)生成滿足用戶要求的簡(jiǎn)潔的信息9。信息抽取系統(tǒng)不僅能幫助人們方便地找到所需信息,而且信息的內(nèi)容經(jīng)過(guò)合理的分析和組織人們可以高效地獲取所感興趣的信息內(nèi)容10。一方面信息抽取系統(tǒng)從文檔(例如 檔)中抽取指定領(lǐng)域的信息并使用信息模板來(lái)刻畫(huà)原文檔信息; 另一方面信息抽取系統(tǒng)將非結(jié)構(gòu)化的文本化,并將結(jié)構(gòu)化的信息組織存儲(chǔ)到信息庫(kù)中使用戶能夠方便地進(jìn)行進(jìn)一步的數(shù)據(jù)分析和查詢工作11。信息抽取的任務(wù)就是將源文檔所包含的信息內(nèi)容抽取出來(lái)并按模板的結(jié)構(gòu)組織存儲(chǔ)形成結(jié)構(gòu)化的信息庫(kù)。在信息抽取得到的結(jié)構(gòu)化信息庫(kù)的基礎(chǔ)上,可以進(jìn)一步完成信息搜索(數(shù)據(jù)挖掘( 機(jī)器翻譯( 文本生成(后續(xù)信息處理1213。 息抽取的發(fā)展 通過(guò)調(diào)查我們發(fā)現(xiàn)目前信息抽取在專利信息分析方面的應(yīng)用研究在國(guó)內(nèi)外都還處于起步階段,而我們將信息抽取 技術(shù)應(yīng)用于專利信息的分析更是一項(xiàng)全新的嘗試。從另一個(gè)方面講,這也是科學(xué)研究中多學(xué)科交叉、多技術(shù)融合大前提下的發(fā)展必然14。 雖然尚沒(méi)有直接以信息抽取應(yīng)用于專利信息分析的先例,但是信息抽取的概念已經(jīng)北京理工大學(xué)碩士學(xué)位論文 6出現(xiàn)在了很多相關(guān)專利信息分析的工作中并發(fā)揮著重要的作用: 從自然語(yǔ)言文本中獲取結(jié)構(gòu)化信息的研究最早開(kāi)始于 20 世紀(jì) 60 年代中期,這被看作是信息抽取技術(shù)的初始研究,它以兩個(gè)長(zhǎng)期的、研究性的自然語(yǔ)言處理項(xiàng)目為代表。一個(gè)是美國(guó)紐約大學(xué)開(kāi)展的 目,開(kāi)始于 60年代中期并一直延續(xù)到80 年代。另一個(gè)相關(guān)的長(zhǎng)期項(xiàng) 目是由耶魯大學(xué) 其同事在 20 世紀(jì) 70 年代開(kāi)展的有關(guān)故事理解的研究15。從 20世紀(jì) 80年代末開(kāi)始,消息理解系列會(huì)議(召開(kāi)標(biāo)志著信息抽取研究蓬勃開(kāi)展起來(lái)。近幾年,信息抽取技術(shù)的研究與應(yīng)用更為活躍。以美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所(織的自動(dòng)內(nèi)容抽取正在推動(dòng)信息抽取研究進(jìn)一步發(fā)展1617。 在研究方面,主要側(cè)重于:利用機(jī)器學(xué)習(xí)技術(shù)增強(qiáng)系統(tǒng)的可移植能力、探索深層理解技術(shù)、篇章分析技術(shù)、多語(yǔ)言文本處理能力、及對(duì)時(shí)間信息的處理等等22。在應(yīng)用方面,信息抽取應(yīng)用的領(lǐng)域非常廣泛,除自成系統(tǒng)以外,還與其他文檔處理技術(shù)結(jié)合建立功能強(qiáng)大的信息服務(wù)系統(tǒng)18。 目前國(guó)外現(xiàn)有的比較典型的信息抽取系統(tǒng)主要包括: 統(tǒng)是早在 1981 年由 究出來(lái)關(guān)于動(dòng)植物正 規(guī)結(jié)構(gòu)描述數(shù)據(jù)庫(kù)的系統(tǒng)及其商用化產(chǎn)品。該系統(tǒng)采用了 概念句子分析技術(shù),通過(guò)一些簡(jiǎn)單的語(yǔ)言處理技術(shù)能夠完成限制在小規(guī)模,特定專業(yè)領(lǐng)域的信息抽取任務(wù)19。 美國(guó) 究與開(kāi)發(fā)中心的 研制的 。便判定該報(bào)道的內(nèi)容是否與“公司合并”有關(guān);然后采用自底向上的分析器識(shí)別句子結(jié)構(gòu),生成概念表示;最后應(yīng)用自頂向下的預(yù)期驅(qū)動(dòng)分析器提取預(yù)期內(nèi)容20。 美國(guó)加里福尼亞斯坦福研究 所人工智能中心從 1991年開(kāi) 始開(kāi)發(fā)的一個(gè)基于多層、 非確定有限狀態(tài)自動(dòng)機(jī)模型的自然語(yǔ)言文本信息抽取系統(tǒng)21。 統(tǒng),分別采用統(tǒng)計(jì)學(xué)的方 法進(jìn)行詞匯標(biāo)注和語(yǔ)法 分析與使用一組通用的文本處理模塊滿足不同的文本處理應(yīng)用的需要22 23。 由德國(guó)人工智能研究中心語(yǔ)言技術(shù)實(shí)驗(yàn)室(目中所開(kāi)發(fā)的北京理工大學(xué)碩士學(xué)位論文 7一個(gè)聯(lián)機(jī)的德語(yǔ)文檔信息抽取智能系統(tǒng) 24。 在中文信息抽取領(lǐng)域,國(guó)立 臺(tái)灣大學(xué)和新加坡肯特崗數(shù)字實(shí)驗(yàn)室參加了 文命名實(shí)體識(shí)別任務(wù)的評(píng)測(cè)。國(guó)研究中心的 等人在命名實(shí)體以及這些實(shí) 體間相互關(guān)系的信息抽取系統(tǒng)。近年來(lái)包括中國(guó)科學(xué)院、北京大學(xué)、哈爾濱工業(yè)工學(xué)和上海交通大學(xué)等一批高校和研究機(jī)構(gòu)也在中文抽取方面開(kāi)展了大量的工作,并且取得了一定的研究成果。但是中文信息抽取方面的研究相對(duì)起步較晚,純粹的基于中文的信息抽取系統(tǒng)在國(guó)內(nèi)仍處于空白,主要的研究工作集中在對(duì)中文命名25。 信息抽取技術(shù)是當(dāng)前的熱門(mén)研究方向?qū)W術(shù)會(huì)議很頻繁其中最重要的一個(gè)會(huì)議是 是一個(gè)由美國(guó)政府資助的為推動(dòng) 術(shù)發(fā)展的重要的系列工程,迄今為止已經(jīng)舉辦了七屆 用競(jìng)賽的方式每一屆都提供標(biāo)準(zhǔn)的語(yǔ)料并定義了各種不同的子任務(wù)來(lái)對(duì)參賽的信息抽取系統(tǒng)進(jìn)行評(píng)估,其難度也是越來(lái)越大,研究機(jī)構(gòu)。參加 1998 年的 最近的一次 的信息抽取任務(wù)涉及抽取文檔中的專名(人名組織名和地點(diǎn)名)、同指項(xiàng)、確定模板元素之間的關(guān)系如地點(diǎn)關(guān)系、雇傭關(guān)系和生產(chǎn)關(guān)系等,抽取文檔中的事件文檔包含多語(yǔ)種的新聞稿。訓(xùn)練用的文檔專業(yè)領(lǐng)域是關(guān)于飛機(jī)墜毀報(bào)道,而測(cè)試用的文檔專業(yè)領(lǐng)域是關(guān)于發(fā)射事件報(bào)道。信息抽取的發(fā)展趨勢(shì)有:在抽取內(nèi)容方面由單語(yǔ)種向多語(yǔ)種發(fā)展;由簡(jiǎn)單的領(lǐng)域?qū)嶓w抽取向?qū)嶓w的屬性和實(shí)體間關(guān)系事件的抽取發(fā)展;在抽取方法方面,由單一的基于規(guī)則的系統(tǒng)向結(jié)合機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法的多策略系統(tǒng)發(fā)展;由表層的句子級(jí)的語(yǔ)言處理向深層的篇章級(jí)的語(yǔ)言處理發(fā)展;在實(shí)際應(yīng)用方面,由早期的理論研究和技術(shù)探討逐漸向?qū)嶋H應(yīng)用系統(tǒng)的開(kāi)發(fā)發(fā)展24。 息抽取處理的研究對(duì)象 狹義的信息抽取,其處理對(duì)象主要是各種文本信息,包括結(jié)構(gòu)化文本信息、半結(jié)構(gòu)化文本信息和自由文本信息。而廣義上的信息抽取處理對(duì)象則還包括了語(yǔ)音、圖像和視頻等多媒體數(shù)據(jù)信息。在這里,主要研究的是狹義的信息抽取技術(shù)26。 信息抽取的最初目的是開(kāi)發(fā)實(shí)用系統(tǒng),從自由文本中抽取有限的主要信息。處理自由文本的信息抽取系統(tǒng)通常使用自然語(yǔ)言處理技巧,其抽取規(guī)則主要建立在詞和詞類間北京理工大學(xué)碩士學(xué)位論文 8句法關(guān)系的基礎(chǔ)上。需要經(jīng)過(guò)的處理步驟包括:句法分析、語(yǔ)義標(biāo)注、命名實(shí)體識(shí)別和抽取規(guī)則。 結(jié)構(gòu)化文本信息是一種存儲(chǔ)于數(shù)據(jù)庫(kù)里的文本信息,或者根據(jù)事先規(guī)定的嚴(yán)格格式生成的文本信息。從這樣的文本信息中抽取信息是非常容易的,準(zhǔn)確度也很高,通過(guò)描述其格式即可達(dá)到目的。 半結(jié)構(gòu)化文本信息是一種介于自由文本信息和結(jié)構(gòu)化文本信息之間的數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 危險(xiǎn)化學(xué)品包裝(金屬罐)產(chǎn)品質(zhì)量監(jiān)督抽查實(shí)施細(xì)則
- 2025年膏藥市場(chǎng)分析報(bào)告
- 2025年別墅毛毯行業(yè)深度研究分析報(bào)告
- 2024-2025學(xué)年高中數(shù)學(xué)第一章集合與函數(shù)概念1.1.1集合的含義與表示第一課時(shí)集合的含義課時(shí)作業(yè)新人教A版必修1
- 2024-2025學(xué)年高中歷史第三單元從人文精神之源到科學(xué)理性時(shí)代第13課挑戰(zhàn)教皇的權(quán)威課后篇鞏固探究岳麓版必修3
- 2024-2025學(xué)年高中化學(xué)第3章第4節(jié)離子晶體教案新人教版選修3
- 手機(jī)游戲市場(chǎng)全景評(píng)估及發(fā)展趨勢(shì)研究預(yù)測(cè)報(bào)告
- 輕質(zhì)隔墻板項(xiàng)目投資建設(shè)規(guī)劃立項(xiàng)報(bào)告
- 2025年中國(guó)服裝定制O2O行業(yè)競(jìng)爭(zhēng)格局分析及投資戰(zhàn)略咨詢報(bào)告
- 2021-2026年中國(guó)超臨界CO2發(fā)電機(jī)行業(yè)全景評(píng)估及投資規(guī)劃建議報(bào)告
- 機(jī)床數(shù)控技術(shù)PPT完整全套教學(xué)課件
- lm3s8962開(kāi)發(fā)板用戶手冊(cè)
- IATF16949-過(guò)程審核檢查表-(含審核記錄)-
- 食品防護(hù)評(píng)估表
- 編輯出版史考試重點(diǎn)整理
- (74)-17.3手性高效液相色譜法
- 淺談新生兒肺透明膜病的影像學(xué)診斷
- SMT失效模式分析PFMEA
- 國(guó)際貿(mào)易地理全套課件
- 家校共育-助孩子成長(zhǎng)-家長(zhǎng)會(huì)課件
- 叉形件工藝及車床夾具設(shè)計(jì)說(shuō)明書(shū)
評(píng)論
0/150
提交評(píng)論