領(lǐng)域術(shù)語自動抽取方法研究.ppt_第1頁
領(lǐng)域術(shù)語自動抽取方法研究.ppt_第2頁
領(lǐng)域術(shù)語自動抽取方法研究.ppt_第3頁
領(lǐng)域術(shù)語自動抽取方法研究.ppt_第4頁
領(lǐng)域術(shù)語自動抽取方法研究.ppt_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

領(lǐng)域術(shù)語自動抽取方法研究,劉桃,報告內(nèi)容,緒論 課題研究的目的、意義及研究現(xiàn)狀 論文主體 領(lǐng)域文本自動判別方法 領(lǐng)域術(shù)語自動抽取方法 在文本分類和問答式信息檢索中的應(yīng)用 結(jié)論,報告內(nèi)容,緒論 課題研究的目的、意義及研究現(xiàn)狀 論文主體 領(lǐng)域文本自動判別方法 領(lǐng)域術(shù)語自動抽取方法 在文本分類和問答式信息檢索中的應(yīng)用 結(jié)論,緒論,研究目的 為面向領(lǐng)域的應(yīng)用提供可定制的領(lǐng)域文本自動判別方法和領(lǐng)域術(shù)語自動抽取方法 研究意義 對所有面向領(lǐng)域的應(yīng)用都有重要意義 垂直搜索 文本自動分類 語言建模 詞義消歧,緒論:領(lǐng)域文本自動判別研究現(xiàn)狀,領(lǐng)域文本自動判別 有監(jiān)督文本分類方法 文本表示:概率模型、向量空間模型 特征選擇:TF-IDF、互信息、期望交叉熵、信息增益等 分類算法:Rocchio法、貝頁斯分類法、K最近鄰分類法、支持向量機、決策樹、神經(jīng)網(wǎng)絡(luò) 半監(jiān)督文本分類方法 產(chǎn)生式模型和期望最大化、直推式支持向量機、自助學(xué)習(xí)法、協(xié)同訓(xùn)練法、主動學(xué)習(xí)法 基于正例的文本分類方法 PEBL、 Spy_EM、Roc_SVM、類別約束SVM(Biased_SVM)、 PNLH方法,緒論:領(lǐng)域術(shù)語自動抽取研究現(xiàn)狀,中文詞語的領(lǐng)域類別判定之前要進行中文新詞發(fā)現(xiàn) 中文新詞發(fā)現(xiàn) 啟發(fā)式特征:構(gòu)詞力、構(gòu)詞模式、互信息、上下文依賴 機器學(xué)習(xí)模型:隱馬爾科夫模型、最大熵、最大熵馬爾科夫模型、支持向量機、條件隨機域,緒論:領(lǐng)域術(shù)語自動抽取研究現(xiàn)狀,詞語的領(lǐng)域類別判定 基于語言學(xué)知識的方法 英文的拼寫線索、包含詞綴等信息的術(shù)語要素詞典、潛層語法分析、設(shè)定規(guī)則模版 基于統(tǒng)計量度的方法 基于類別的TFIDF(KFIDF)、領(lǐng)域相關(guān)性+領(lǐng)域一致性(DR+DC) 、C-值、C/NC值 機器學(xué)習(xí)方法 基于自助學(xué)習(xí)法的半監(jiān)督術(shù)語獲取方法 基于詞語分類的術(shù)語獲取方法,緒論:研究現(xiàn)狀,領(lǐng)域術(shù)語自動抽取的評價 人工評價:語言學(xué)家或者研究者通過個人判斷來確定抽取的詞語是否為領(lǐng)域術(shù)語 對抽取結(jié)果有直觀感受 費時、費力 受人主觀性影響 應(yīng)用評價:看領(lǐng)域術(shù)語抽取模塊在應(yīng)用系統(tǒng)中的表現(xiàn) 評測迅速 完全面向應(yīng)用,不同的應(yīng)用系統(tǒng)可能會產(chǎn)生不盡相同的結(jié)果,報告內(nèi)容,緒論 課題研究的目的、意義、研究現(xiàn)狀 論文主體 領(lǐng)域文本自動判別方法研究 領(lǐng)域術(shù)語自動抽取方法研究 在文本分類和問答式信息檢索中的應(yīng)用設(shè)計 結(jié)論,研究框架,有監(jiān)督文本分類,基于正例的文本分類,中文新詞發(fā)現(xiàn),術(shù)語抽取自助學(xué)習(xí)法,基于統(tǒng)計量度的術(shù)語抽取,在文本分類中的應(yīng)用,在問答式信息檢索中的應(yīng)用,詞語的領(lǐng)域類別判定,概念語義網(wǎng)絡(luò),專業(yè)信息采集,特征集擴展,特征選擇,領(lǐng)域文本自動判別方法,完整分類體系下的領(lǐng)域文本判別 有監(jiān)督文本分類方法 需要為每個類別提供一定規(guī)模的訓(xùn)練語料 實現(xiàn)了一個文本分類評測平臺 包括10種可定制的特征選擇算法和4種可定制的分類算法 特征選擇算法:詞頻與倒文檔頻度(TFIDF)、期望交叉熵(ECE)、統(tǒng)計、互信息(MI)、文本證據(jù)權(quán)(WE)、信息增益(IG)、文檔頻度(DF)、KFIDF、DR+DC、NCD+NDD方法 分類算法:簡單貝葉斯(NB)、Rocchio、K最近鄰(KNN)和支持向量機(SVM),領(lǐng)域文本自動判別方法,非完整分類體系下反例集獲取困難 完整分類體系下訓(xùn)練某個類別的分類器時,其他類別訓(xùn)練語料的合集作為反例集 非完整分類體系下獲取某個類別的平衡反例集比較困難 基于正例的文本分類方法 不需要提供已標注的反例集 需要使用大規(guī)模未標注樣本,基于正例的文本分類問題的傳統(tǒng)方案,步驟一:啟發(fā)式樣本標注 1-DNF,PNLH,spy,rocchio 步驟二:建立分類器 通過迭代建立一系列分類器 只建立一個分類器,傳統(tǒng)方法存在的問題,啟發(fā)式樣本標注中,高準確率和高召回率不可兼得 1_DNF:將U中不含全部正例特征的文檔看作反例 高準確率,低召回率 PNLH:定義正例參考值(PRP),將PRP值小于U集全部文檔PRP平均值的文檔當作反例 低準確率,高召回率 不同途徑得到的標注樣本的置信度不一致,傳統(tǒng)方法不加區(qū)別的使用所有樣本 勢必導(dǎo)致分類準確率下降,基于置信度加權(quán)的領(lǐng)域文本判別法,多策略樣本標注算法 自動標注盡可能多的樣本,即在保證樣本標注召回率的前提下,按照標注樣本的置信度對樣本集進行劃分 加權(quán)支持向量機算法 為不同置信度的樣本賦予不同的權(quán)重,不同標注策略的樣本置信度實驗,Retuers語料上的標注樣本置信度,三級反例及基于置信度加權(quán)對分類性能的影響實驗,是否使用三級反例及基于置信度加權(quán)對Retuers數(shù)據(jù)集的分類性能影響,對比實驗,Retuers數(shù)據(jù)集上不同方法的分類性能對比,報告內(nèi)容,緒論 論文主體 領(lǐng)域文本自動判別相關(guān)技術(shù)研究 領(lǐng)域術(shù)語自動抽取相關(guān)技術(shù)研究 基于局部最大算法的中文新詞發(fā)現(xiàn) 基于統(tǒng)計量度的術(shù)語抽取方法 領(lǐng)域術(shù)語抽取自助學(xué)習(xí)法 在文本分類和問答式信息檢索中的應(yīng)用設(shè)計 結(jié)論,傳統(tǒng)中文新詞發(fā)現(xiàn)方法的缺點,啟發(fā)式特征+經(jīng)驗閾值 難以篩選合適的全局閾值統(tǒng)一抽取新詞 機器學(xué)習(xí)方法 訓(xùn)練時間較長,基于局部最大算法的中文新詞發(fā)現(xiàn),中文詞語是關(guān)聯(lián)強度較大、結(jié)合較為緊密的字序列 高內(nèi)聚性 可獨立運用性 利用平攤對稱條件概率(SCP_F)衡量字序列的結(jié)合力 局部最大算法思想: 如果ngram W 的關(guān)聯(lián)強度大于所有包含它的(n+1)gram 的關(guān)聯(lián)強度,并且ngram W 的關(guān)聯(lián)強度不小于所有W 包含的(n-1)gram 的關(guān)聯(lián)強度,則 W 被看作候選新詞。 能夠很好地刻畫詞語的高內(nèi)聚性和可獨立運用性,基于局部最大算法的中文新詞發(fā)現(xiàn),基于后綴數(shù)組的實現(xiàn)方案 傳統(tǒng)方法在計算n3的ngram時,速度非常慢,不能滿足互聯(lián)網(wǎng)環(huán)境下大規(guī)模網(wǎng)絡(luò)文本的實時新詞發(fā)現(xiàn)需求 采用基于后綴數(shù)組的數(shù)據(jù)結(jié)構(gòu) 采用基于等價類劃分的思想降低存儲空間 只需要存儲每個等價類中的一個最長序列,基于局部最大算法的中文新詞發(fā)現(xiàn)過程,實驗結(jié)果,在MSR語料上的新詞發(fā)現(xiàn)前后對比實驗結(jié)果,在PKU語料上的新詞發(fā)現(xiàn)前后對比實驗結(jié)果,對比實驗,在MSR語料上和中文分詞評測中其他系統(tǒng)的對比實驗結(jié)果,實驗結(jié)果,小規(guī)模詞典統(tǒng)計信息,不同新詞比率下的新詞識別性能,在不同新詞比率下測試新詞發(fā)現(xiàn)的性能 在缺乏詞表或者為了擴展已有的小詞表的情況下,局部最大算法可以用來抽取詞語。,報告內(nèi)容,緒論 論文主體 領(lǐng)域文本自動判別相關(guān)技術(shù)研究 領(lǐng)域術(shù)語自動抽取相關(guān)技術(shù)研究 基于局部最大算法的中文新詞發(fā)現(xiàn) 基于統(tǒng)計量度的術(shù)語抽取方法 領(lǐng)域術(shù)語抽取自助學(xué)習(xí)法 在文本分類和問答式信息檢索中的應(yīng)用設(shè)計 結(jié)論,基于統(tǒng)計量度的術(shù)語抽取,抽取原則一:領(lǐng)域術(shù)語應(yīng)該在不同領(lǐng)域類別間分布不均勻 頻繁出現(xiàn)在某領(lǐng)域文檔中,很少出現(xiàn)在其它領(lǐng)域文檔中的詞語是領(lǐng)域術(shù)語的可能性較大。 出現(xiàn)該詞語的領(lǐng)域類別數(shù)越少,該詞語越有可能是領(lǐng)域術(shù)語。 抽取原則二:領(lǐng)域術(shù)語在其相關(guān)領(lǐng)域的文檔集中應(yīng)盡可能分布均勻 出現(xiàn)在某領(lǐng)域的大多數(shù)文檔中的詞語可能是該領(lǐng)域的術(shù)語。 正規(guī)化策略:減輕不同語料規(guī)模和文檔長度的影響,傳統(tǒng)方法:KFIDF,DR_DC 對術(shù)語抽取標準描述不夠細致和全面 基于正規(guī)化分布熵的領(lǐng)域術(shù)語抽取方法,基于正規(guī)化分布熵的領(lǐng)域術(shù)語抽取,符號定義:Di (1im): 第i個領(lǐng)域類別 dij (1jni): 類別Di中的第j個文檔 lij: 文檔dij的長度,即在該文檔中出現(xiàn)的所有詞語的詞頻之和 Li: 類別Di包含的所有文檔長度之和 數(shù)學(xué)描述:,詞語的正規(guī)化的類間分布熵NCD,詞語的類間分布熵:,詞語“黨性”和“知覺”在類別A(馬列主義)均以0.5的概率出現(xiàn),但“黨性”只出現(xiàn)在A(馬列主義)與D(政治、法律)兩個類別,而“知覺”共出現(xiàn)在11個類別的語料,基于正規(guī)化分布熵的領(lǐng)域術(shù)語抽取,詞語在領(lǐng)域Di的正規(guī)化的類內(nèi)分布熵NDD,“蛔蟲”在類別G(文化、科學(xué)、教育、體育)的一篇介紹中小學(xué)生健康問題中蛔蟲感染的文章中多次出現(xiàn),但在該類別的其它文檔中未出現(xiàn),那么該詞就不具有領(lǐng)域代表性,不能成為G類的領(lǐng)域術(shù)語.,C1 馬列主義 無產(chǎn)階級 社會主義 全黨 馬克思主義 共產(chǎn)主義 馬克思列寧主義 馬克思 無產(chǎn)者 資產(chǎn)階級 共產(chǎn)主義社會 剝削 階級 生產(chǎn)資料 恩格斯 私有制 資產(chǎn)者,C2 法律 司法 人民法院 最高人民法院 案件 審理 訴訟 法院 司法機關(guān) 當事人 職權(quán) 國家機關(guān) 審判 被告人 民事 行使 民事訴訟,C3 軍事 作戰(zhàn) 軍種 軍事 軍隊 戰(zhàn)爭 兵力 事變 美軍 新軍 戰(zhàn)法 我軍 武器 軍兵種 火力 軍事科學(xué) 戰(zhàn)場,C4 體育 比賽 首場 球員 球隊 英格蘭隊 隊友 世界杯 奪冠 冠軍 決賽 足協(xié) 后衛(wèi) 主帥 瑞典隊 任意球 小組賽,C5 醫(yī)藥衛(wèi)生 患者 治療 血管 臨床 療效 藥物 病人 冠心病 并發(fā)癥 動脈 冠狀動脈 手術(shù) 癥狀術(shù)后 口服 療法 服用,C6 輕工業(yè) 包裝 食品 調(diào)味 保質(zhì)期 肉制品 玻璃瓶 品牌 肉食品 方便化 果汁 腥味 肉類 專賣店 草莓 貨架 糖度,中圖分類體系下抽取結(jié)果示例,實驗結(jié)果,中圖分類體系下隨機抽取的六個領(lǐng)域上的領(lǐng)域術(shù)語抽取數(shù)目,DR+DC方法抽取詞語個數(shù)會隨著語料規(guī)模的變化產(chǎn)生較大變化 NCD+NDD方法抽取詞語數(shù)目不完全依賴于語料規(guī)模,實驗結(jié)果,圖1 前200個詞語的正確率,隨機抽取的六個領(lǐng)域上領(lǐng)域術(shù)語抽取正確率,圖2 其余詞語的正確率,對于語料規(guī)模很大的類別, NCD+NDD法的正確率要明顯高于DR+DC法 在其它正確率相當?shù)念悇e中,抽取的術(shù)語數(shù)目要明顯高于DR+DC法,領(lǐng)域術(shù)語自動抽取相關(guān)技術(shù),未標注文本,種子術(shù)語,詞語的領(lǐng)域類別判定,基于統(tǒng)計量度的術(shù)語抽取,術(shù)語抽取自助學(xué)習(xí)法,領(lǐng)域?qū)Ρ日Z料,簡單、快速,術(shù)語抽取自助學(xué)習(xí)法,總體思想: 給定:領(lǐng)域集合D1,D2,Dn 對應(yīng)的種子術(shù)語集合T0=T10,T20,Tn0 過程: 術(shù)語分類器通過挖掘未標注文檔中的新詞語和給定種子術(shù)語之間的關(guān)聯(lián),將新術(shù)語歸類到相應(yīng)領(lǐng)域類別中,得到了擴大的術(shù)語集:T1=T11,T21,Tn1,然后再用此擴大的術(shù)語集訓(xùn)練分類器,直到迭代終止,得到最終的新術(shù)語集Tz= T1z ,T2z,Tnz。,基于詞語上下文表示的術(shù)語抽取自助學(xué)習(xí)法,基于詞語上下文表示的術(shù)語抽取自助學(xué)習(xí)法 傳統(tǒng)基于文檔空間表示法的缺陷 無法表示文檔內(nèi)部的信息 只能獲取在多個文檔中出現(xiàn)的術(shù)語 基于全局上下文的詞語表示 術(shù)語ti出現(xiàn)在語料的子集di1,di2,dit中,設(shè)cij表示術(shù)語ti在文檔dij中的上下文特征集,則ti的全局上下文是ci1,ci2,cit的并集。 基于潛在語義索引的特征空間壓縮,術(shù)語抽取自助學(xué)習(xí)法,實驗,新浪網(wǎng)前5個領(lǐng)域 每個類別手工抽取20個詞語作為種子術(shù)語 新浪網(wǎng)下載的10000篇文檔作為未標注語料 對比方法: 基于上下文空間表示法的術(shù)語抽取 基于文檔空間表示法的術(shù)語抽取,領(lǐng)域類別信息,兩種方法在抽取頻率為1的低頻詞上的性能比較,兩種方法抽取術(shù)語性能比較,報告內(nèi)容,緒論 論文主體 領(lǐng)域文本自動判別方法研究 領(lǐng)域術(shù)語自動抽取方法研究 在文本分類和問答式信息檢索中的應(yīng)用 結(jié)論,文本自動分類過程,文本自動分類需要解決三個技術(shù)問題:文本表示、文本特征選擇和選擇分類算法。,在文本自動分類中的應(yīng)用,應(yīng)用一:特征集擴展 將基于局部最大算法的中文新詞發(fā)現(xiàn)方法應(yīng)用于文本分類語料的分詞處理,從而擴大文本表示的特征集,特征集擴展前后文本分類性能對比,小規(guī)模原始詞典下文本分類性能對比,在文本自動分類中的應(yīng)用,基于統(tǒng)計量度NCD+NDD的術(shù)語抽取,傳統(tǒng)特征選擇,代替,應(yīng)用二:特征選擇,在中圖分類數(shù)據(jù)集上的對比實驗,在旅游類數(shù)據(jù)集上的對比實驗,在旅游領(lǐng)域問答式信息檢索中的應(yīng)用,應(yīng)用一:專業(yè)文本采集 網(wǎng)絡(luò)文本采集是通過預(yù)先設(shè)定的種子URL集合,以各種不同的爬行策略循環(huán)迭代地訪問Web下載網(wǎng)頁 當采集的信息只限定于特定的領(lǐng)域,出于性能上的考慮其不必也不可能對整個Web進行遍歷 探討了領(lǐng)域文本自動判別技術(shù)在專業(yè)文本采集中的應(yīng)用,在旅游領(lǐng)域問答式信息檢索中的應(yīng)用,應(yīng)用二:概念語義網(wǎng)絡(luò):以實現(xiàn)智能化的概念檢索,旅游領(lǐng)域概念語義網(wǎng)絡(luò),領(lǐng)域術(shù)語抽取算法獲取旅游領(lǐng)域術(shù)語,構(gòu)建了如下八個類別的概念語義網(wǎng)絡(luò) 賓館飯店、城市概況、地方文化、交通指引、休閑娛樂、 旅游景點、旅游服務(wù)、購物美食,賓館飯店類別的部分概念語義網(wǎng)絡(luò)圖示,在旅游領(lǐng)域問答式信息檢索中的應(yīng)用,概念語義網(wǎng)絡(luò)維護工具功能模塊圖,實現(xiàn)了一個概念語義網(wǎng)絡(luò)維護工具 用于構(gòu)建、使用、維護概念語義網(wǎng)絡(luò),將其納入到問答式信息檢索系統(tǒng)中。,報告內(nèi)容,緒論 課題研究的目的、意義、研究現(xiàn)狀 論文主體 領(lǐng)域文本自動判別方法研究 領(lǐng)域術(shù)語自動抽取方法研究 在文本分類和問答式信息檢索中的應(yīng)用 結(jié)論,結(jié)論,針對利用正例和未標注數(shù)據(jù)的領(lǐng)域文本判別問題, 提出基于樣本置信度劃分的加權(quán)支持向量機方法。,這種方法可以克服傳統(tǒng)方法中啟發(fā)式樣本標注的精確度和召回率不可兼得的弊端,提高了領(lǐng)域文本判別系統(tǒng)的性能。,針對中文新詞發(fā)現(xiàn)問題,提出了一種基于局部最大算法的中文新詞發(fā)現(xiàn)方法,用于識別語料中的候選領(lǐng)域新詞。,該方法是一種高效魯棒的新詞發(fā)現(xiàn)算法,將該新詞發(fā)現(xiàn)方法和命名實體識別工具相結(jié)合,可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論