版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
中文文字/語(yǔ)音文件中
類專有名詞擷取
及其可能應(yīng)用之初步研究
AnInitialStudyonNamedEntityExtraction
fromChineseText/SpokenDocuments
andItsPotentialApplications指導(dǎo)教授:李琳山博士
共同指導(dǎo):陳信希博士
研究生:劉禹吟中文文字/語(yǔ)音文件中
類專有名詞擷取
及其可能應(yīng)用之初步研究1簡(jiǎn)介本論文處理的類專有名詞類別包含人名、地名與組織名。類專有名詞辨識(shí)是希望在文件中標(biāo)註出正確的類專有名詞邊界與類別。語(yǔ)音文件中的類專有名詞辨識(shí):在有語(yǔ)音辨識(shí)錯(cuò)誤的語(yǔ)音文件中找出類專有名詞出現(xiàn)處有助於語(yǔ)音摘要、語(yǔ)音問(wèn)答、和語(yǔ)音對(duì)話系統(tǒng)的處理類專有名詞類別舉例人名(PER)托尼·布萊爾
陳水扁、馬市長(zhǎng)地名(LOC)胡志明市、中山堂鶯歌、七堵赴美、中日關(guān)係組織名(ORG)聯(lián)合國(guó)安理會(huì)臺(tái)灣積體電路製造股份有限公司中油、臺(tái)塑<ENAMEXTYPE=“LOCATION”>美國(guó)</ENAMEX>國(guó)務(wù)卿<ENAMEXTYPE=“PERSON”>鮑爾</ENAMEX>在<ENAMEXTYPE=“LOCATION”>華府外籍記者中心</ENAMEX>表示...簡(jiǎn)介本論文處理的類專有名詞類別包含人名、地名與組織名。類專有2綱要文字文件中類專有名詞辨識(shí)語(yǔ)音文件中類專有名詞辨識(shí)類專有名詞辨識(shí)衍生之應(yīng)用結(jié)論綱要文字文件中類專有名詞辨識(shí)3文字文件中的類專有名詞辨識(shí)類別語(yǔ)言模型法派樹(shù)式規(guī)則法文字文件中的類專有名詞辨識(shí)類別語(yǔ)言模型法4文字文件中類專有名詞辨識(shí)
-類別語(yǔ)言模型法的概念類別的種類:人名類別、地名類別、組織名類別、辭典中詞彙每一個(gè)詞各自是一個(gè)類別若辭典中有|V|個(gè)詞彙,則總共的類別數(shù)有|V|+3個(gè)基本概念:給定中文句子S,W為S的可切分詞串,C為W對(duì)應(yīng)的類別,利用維特比搜尋找出滿足P(C,W)最大的最佳詞序列W*和W*對(duì)應(yīng)的最佳類別序列C*類別前後文模型類別生成模型文字文件中類專有名詞辨識(shí)
-類別語(yǔ)言模型法的概念類別的種類:5各種類別語(yǔ)言模型的機(jī)率估計(jì)各種類別生成模型估計(jì)人名類別(字元二連語(yǔ)言模型)中國(guó)人名、外國(guó)人名分成兩種機(jī)率模型例:李小龍巢狀類別(類別二連語(yǔ)言模型)地名、組織名例:宜蘭清水公園一般詞彙類別每一個(gè)辭典中詞彙各自是一個(gè)類別生成機(jī)率皆為1類別前後文模型估計(jì)由訓(xùn)練語(yǔ)料庫(kù)訓(xùn)練出三連類別語(yǔ)言模型機(jī)率如:訓(xùn)練語(yǔ)句:總統(tǒng)PER在LOC發(fā)表聲明…可估計(jì)出:p(PER|總統(tǒng),<s>),p(LOC|在,PER)…P(李小龍|PER)≈p(李|<s>)p(小|李)p(龍|小)p(</s>|龍)P(宜蘭清水公園|LOC)≈
p(LOC|<s>)p(PER|LOC)p(公園|PER)p(</s>|公園)p(宜蘭|LOC)*p(清水|PER)*p(公園|公園)p(尤其|尤其)=1、p(今天|今天)=1內(nèi)部維特比搜尋找出內(nèi)部最佳的類別及詞序列所對(duì)應(yīng)的機(jī)率,以最高機(jī)率當(dāng)成其生成機(jī)率各種類別語(yǔ)言模型的機(jī)率估計(jì)各種類別生成模型估計(jì)P(李小龍|P6類別語(yǔ)言模型法實(shí)作演算法對(duì)於句子S,執(zhí)行下列三個(gè)步驟:建構(gòu)詞網(wǎng)紀(jì)錄各類別候選詞於詞網(wǎng)上,並記錄其生成機(jī)率一般詞彙、人名類別、地名類別、組織名類別正向動(dòng)態(tài)規(guī)劃(維特比搜尋)從句首至句尾對(duì)每一個(gè)候選詞計(jì)算到該位置為止,滿足p(c,w)最大的最佳路徑,紀(jì)錄最佳分?jǐn)?shù)及回溯指標(biāo)反向回溯找出最佳的詞序列及對(duì)應(yīng)的類別序列從句尾中有最高路徑分?jǐn)?shù)的候選詞開(kāi)始回溯至句首類別語(yǔ)言模型法實(shí)作演算法對(duì)於句子S,執(zhí)行下列三個(gè)步驟:7(3)反向回溯(2)正向維特比搜尋
c*,w*=maxp(c*)*p(w*|c*)(1)建構(gòu)詞網(wǎng)演算法運(yùn)作流程
處理句子:臺(tái)北市中正紀(jì)念堂是為了紀(jì)念蔣中正先生一般詞網(wǎng)示意圖
市中紀(jì)正念堂是為了紀(jì)北臺(tái)念蔣中先生正346578910111221131415171816臺(tái)北中正紀(jì)念紀(jì)念堂紀(jì)念蔣中正先生中正(p)紀(jì)念(p)紀(jì)念堂(p)堂是(p)堂是為(p)紀(jì)念(p)蔣中(p)蔣中正(p)紀(jì)念蔣(p)臺(tái)北(l)臺(tái)北市(l)正紀(jì)念堂(l)中正紀(jì)念堂(l)市中正紀(jì)念堂(l)北市中正紀(jì)念堂(l)臺(tái)北市中正紀(jì)念堂(l)<s></s>一般詞彙類別每個(gè)詞的生成機(jī)率皆為1。如:p(紀(jì)念|紀(jì)念)=1計(jì)算人名類別的生成機(jī)率。如:p(紀(jì)念|人名)=P(紀(jì)|<s>)*p(念|紀(jì))*p(</s>|念)生成機(jī)率計(jì)算:做內(nèi)部維特比搜尋,得出最佳類別序列和最佳機(jī)率為了最佳類別路徑(C*):
LOC是為了紀(jì)念PER先生最佳詞路徑(W*):臺(tái)北市中正紀(jì)念堂是為了紀(jì)念蔣中正先生P(C*,W*)=P(C*)*P(W*|C*)
=P(LOC|<s>)*P(是|LOC,<s>)*P(為了|是,LOC)*P(紀(jì)念|為了,是)*P(PER|紀(jì)念,為了)*P(先生|PER,紀(jì)念)*P(</s>|先生,PER)*
P(臺(tái)北市中正紀(jì)念堂|地名)*P(是|是)*P(為了|為了)P(紀(jì)念|紀(jì)念)*P(蔣中正|人名)*P(先生|先生)(3)反向回溯(2)正向維特比搜尋
c*,w*=m8巢狀類別內(nèi)部維特比搜尋地名類別詞網(wǎng)計(jì)算地名生成機(jī)率P(臺(tái)北市中正紀(jì)念堂|LOC)346578910111221131415171816臺(tái)北(l)臺(tái)北市(l)中正(p)紀(jì)念(p)紀(jì)念堂市中正北臺(tái)<s></s>臺(tái)北市中正紀(jì)念堂(l)由地名類別的語(yǔ)言模型查出可能出現(xiàn)在地名的詞彙,生成機(jī)率皆設(shè)為1各種類別的候選詞與生成機(jī)率紀(jì)念堂(p)生成機(jī)率設(shè)為:P(臺(tái)北市中正紀(jì)念堂|LOC)=P(C*)*P(W*|C*)=P(LOC|<s>)*P(PER|LOC)*P(紀(jì)念堂|PER)*P(</s>|紀(jì)念堂)*P(臺(tái)北市|LOC)*P(中正|PER)*p(紀(jì)念堂|紀(jì)念堂)巢狀類別內(nèi)部維特比搜尋地名類別詞網(wǎng)34657891011129類別語(yǔ)言模型法討論類別語(yǔ)言模型法觀察:優(yōu)點(diǎn):將斷詞與類專有名詞辨識(shí)合在同一個(gè)架構(gòu)下,具有斷詞解歧異的功能弱點(diǎn):不易取得涵蓋領(lǐng)域夠廣且標(biāo)註夠一致的訓(xùn)練語(yǔ)料不容易回收沒(méi)有關(guān)鍵詞的地名、組織名(九份、中廣)需要做內(nèi)部維特比搜尋的字串將成指數(shù)成長(zhǎng)一次處理一句,未用到整篇文章所包含的字串資訊新的想法:派樹(shù)式類專有名詞抽取:使用整篇文章所包含的樣式統(tǒng)計(jì)資訊及該樣式所有出現(xiàn)過(guò)的前後文幫助抽取類專有名詞金門(mén)縣長(zhǎng)陳水在昨天呼籲兩岸…,陳水在表示…,陳水在當(dāng)初擔(dān)任…臺(tái)北縣鶯歌鎮(zhèn)的陶瓷…,鶯歌有許多賣精美陶瓷的店家…,要到鶯歌遊玩的民眾可以搭乘…遊戲橘子集團(tuán)高階人事異動(dòng)…,對(duì)於遊戲橘子跨足研發(fā)領(lǐng)域…,遊戲橘子旗下的產(chǎn)品多數(shù)是以代理自韓國(guó)為主…,遊戲橘子董事長(zhǎng)劉柏園表示…縮寫(xiě)類專有名詞尤以?shī)蕵?lè)、財(cái)經(jīng)、體育、科技新聞居多,使用單純類別語(yǔ)言模型法較難偵測(cè)出。類別語(yǔ)言模型法討論類別語(yǔ)言模型法觀察:金門(mén)縣長(zhǎng)陳水在昨天呼籲10派樹(shù)式規(guī)則法
-派樹(shù)式類專有名詞抽取概念派樹(shù):是一種很有效率的資料結(jié)構(gòu),在資訊檢索的領(lǐng)域使用很多建構(gòu)派樹(shù):將處理的文章中每一個(gè)語(yǔ)意片段中的後部字串(suffixstring)加入派樹(shù)中正向派樹(shù)、反向派樹(shù)優(yōu)點(diǎn):可以容易地獲得任意字串在整篇文章中的出現(xiàn)頻率及所有前後文統(tǒng)計(jì)值(左右相連詞變異度)可判斷詞的邊界完整性前後文字串可以用來(lái)判斷類別sYZX1X2RC1RC2RC3LC3LC2LC1X:陳水在X1:陳水在
X2:在水陳
Y:陳水
Z:在水RC1:陳水在說(shuō)*RC2:陳水在強(qiáng)調(diào)*RC3:陳水在昨天呼籲*LC1:在水陳長(zhǎng)縣門(mén)金*LC2:在水陳,*LC3:在水陳當(dāng)*正向派樹(shù)可以容易地查詢字串的所有後文(RC)反向派樹(shù)可以容易地查詢字串的所有前文(LC)正向派樹(shù):
S=今天在總統(tǒng)府
Suffixstrings:
今天在總統(tǒng)府
天在總統(tǒng)府
在總統(tǒng)府
總統(tǒng)府
統(tǒng)府
府反向派樹(shù):
S=府統(tǒng)總在天今
Suffixstrings:
府統(tǒng)總在天今
統(tǒng)總在天今
總在天今
在天今
天今
今派樹(shù)式規(guī)則法
-派樹(shù)式類專有名詞抽取概念派樹(shù):是一種很有效率11派樹(shù)式規(guī)則法
-派樹(shù)式類專有名詞抽取流程對(duì)整篇文章建構(gòu)正向及反向派樹(shù)估計(jì)候選字串的邊界完整性選擇證據(jù)分?jǐn)?shù)最高分且超過(guò)門(mén)檻值的類別檢驗(yàn)字串內(nèi)部及外部前後文資訊記錄各類別證據(jù)分?jǐn)?shù)抽取出的類專有名詞槽內(nèi)部特徵:人名:人名機(jī)率是否大過(guò)門(mén)檻值地名、組織名:內(nèi)部是否有關(guān)鍵詞(隊(duì)、鄉(xiāng))外部特徵:人名:頭銜、發(fā)言動(dòng)詞地名:重要前後文(抵達(dá)、飛往,地區(qū)、附近、市…)組織名:重要前後文(大廠、廠商,公司…)組合特徵:搭配內(nèi)部及外部特徵對(duì)各類別記錄證據(jù)分?jǐn)?shù)。(詳述於論文中)處理派樹(shù)中出現(xiàn)頻率>=tf的字串興農(nóng):AORG兄弟:AORG天母球場(chǎng):LOC…使用字串的前後文變異統(tǒng)計(jì)值做抽詞繼續(xù)判斷候選字串可能的類專有名詞類別w=馬英β=九
f(w,β)/f(w)<tb?如果f(w,β)/f(w)>=tb,則w=馬英可能不是一個(gè)邊界完整的詞派樹(shù)式規(guī)則法
-派樹(shù)式類專有名詞抽取流程對(duì)整篇文章建構(gòu)正向及12一次輸入一個(gè)句子派樹(shù)式規(guī)則法系統(tǒng)架構(gòu)單篇文件斷詞與特性標(biāo)註人名辨識(shí)巢狀類專有名詞辨識(shí)類專有名詞的結(jié)合單字詞類專有名詞辨識(shí)派樹(shù)式類專有名詞抽取抽取出的類專有名詞槽快取類專有名詞槽類專有名詞重要相關(guān)詞彙列表輸出標(biāo)註類專有名詞的句子一般辭典LOC→{[PER][APER][LOC][ALOC]}*[ContentWord]*{LOC_KEY}ORG→{[PER][APER][LOC][ALOC][ORG][AORG]}*[ContentWord]*{ORG_KEY}組成結(jié)構(gòu)及邊界判定(STOP,LOC_LEFT_CONTEXT_KEY…)人名機(jī)率門(mén)檻值限制及邊界判定(STOP,TITLE,PER_SPOKEN_VERB…)斷詞法:後向最大匹配與特性標(biāo)註LOC→{LOC}*ORG→{ORG}*ORG->LOCORG聯(lián)合國(guó)安理會(huì)大陸上?!袊?guó)的中、日本的日等。中美關(guān)係,日韓代表,中、韓、日三方。
SCNEpattern→{SCNE}*{co-occurpattern}
美總統(tǒng)布希、日相、英首相布萊爾、美代表、以代表
SCNEtitle
美方、日方、美軍、伊軍、中方…美重申、美發(fā)表、…從派樹(shù)中查詢整篇文章中是否出現(xiàn)過(guò)澳洲、澳門(mén)、澳大利亞、澳國(guó),若有,則澳字單獨(dú)出現(xiàn)時(shí)可能是地名,如:澳代表…輸入整篇文章一次輸入一個(gè)句子派樹(shù)式規(guī)則法系統(tǒng)架構(gòu)單篇文件斷詞與特性標(biāo)註人13文字文件類專有名詞辨識(shí)實(shí)驗(yàn)
-測(cè)試語(yǔ)料測(cè)試語(yǔ)料:MUC-7(MessageUnderstandingConference-7)的MET-2(MultilingualEntityTask)測(cè)試語(yǔ)料,為大陸簡(jiǎn)體字、火箭發(fā)射相關(guān)新聞共100則類專有名詞統(tǒng)計(jì)量評(píng)分方法:精確率、回收率F-測(cè)量=(2*精確率*回收率)/(精確率+回收率)類別出現(xiàn)次數(shù)人名174地名750組織名377文字文件類專有名詞辨識(shí)實(shí)驗(yàn)
-測(cè)試語(yǔ)料測(cè)試語(yǔ)料:類別出現(xiàn)次數(shù)14文字文件類專有名詞辨識(shí)實(shí)驗(yàn)結(jié)果訓(xùn)練語(yǔ)料:臺(tái)灣雅虎網(wǎng)路新聞8天份,1萬(wàn)多篇的自動(dòng)標(biāo)註新聞?dòng)?xùn)練語(yǔ)料:大陸人民日?qǐng)?bào)一個(gè)月的自動(dòng)標(biāo)註類專有名詞新聞CED電子辭典、已知各類專有名詞列表CED電子辭典派樹(shù)式類專有名詞抽取、類專有名詞暗示詞列表、經(jīng)驗(yàn)法則詞網(wǎng)中只加入結(jié)尾有關(guān)鍵詞的巢狀類別候選詞句子中所有子字串都當(dāng)成可能的巢狀類別候選詞並加入詞網(wǎng)中派樹(shù)式規(guī)則法表現(xiàn)最好類別語(yǔ)言模型法會(huì)受到訓(xùn)練語(yǔ)言模型優(yōu)劣影響好壞類別語(yǔ)言模型法只偵測(cè)結(jié)尾有關(guān)鍵詞的巢狀類別結(jié)果較好文字文件類專有名詞辨識(shí)實(shí)驗(yàn)結(jié)果訓(xùn)練語(yǔ)料:臺(tái)灣雅虎網(wǎng)路新聞8天15語(yǔ)音文件中的類專有名詞辨識(shí)轉(zhuǎn)寫(xiě)文件直接辨認(rèn)結(jié)合關(guān)鍵詞辨識(shí)可信度分?jǐn)?shù)門(mén)檻值限制結(jié)合時(shí)間與主題同質(zhì)的類專有名詞匹配語(yǔ)音文件中的類專有名詞辨識(shí)轉(zhuǎn)寫(xiě)文件直接辨認(rèn)16語(yǔ)音文件中類專有名詞辨識(shí)
-測(cè)試語(yǔ)料News982002年9月份200則語(yǔ)音新聞經(jīng)由時(shí)間同質(zhì)調(diào)適語(yǔ)料做語(yǔ)言模型調(diào)適的語(yǔ)音辨識(shí)結(jié)果音節(jié)辨識(shí)率較字元辨識(shí)率高許多測(cè)試語(yǔ)料中類專有名詞統(tǒng)計(jì)量字元辨識(shí)率音節(jié)辨識(shí)率87.99%93.42%類別出現(xiàn)次數(shù)人名315地名457組織名500語(yǔ)音文件中類專有名詞辨識(shí)
-測(cè)試語(yǔ)料News982002年17轉(zhuǎn)寫(xiě)文件直接類專有名詞辨識(shí)實(shí)驗(yàn)結(jié)果類別語(yǔ)言模型法:73.00派樹(shù)式規(guī)則法:80.01當(dāng)成基礎(chǔ)結(jié)果轉(zhuǎn)寫(xiě)文件直接類專有名詞辨識(shí)實(shí)驗(yàn)結(jié)果類別語(yǔ)言模型法:73.0018轉(zhuǎn)寫(xiě)文件直接類專有名詞辨識(shí)
-結(jié)果觀察直接辨識(shí)的問(wèn)題:將辨識(shí)錯(cuò)誤處當(dāng)成對(duì)的類專有名詞例子:郭塘又缺少運(yùn)動(dòng)的婦女…(過(guò)糖)導(dǎo)致精確率降低辨識(shí)錯(cuò)誤的類專有名詞無(wú)法回收例子:立委甚至?xí)ьI(lǐng)…(沈智慧)導(dǎo)致回收率降低提出方法:
結(jié)合關(guān)鍵詞辨識(shí)可信度分?jǐn)?shù)門(mén)檻值提出方法:
結(jié)合時(shí)間與主題同質(zhì)的類專有名詞匹配PER:沈智慧ORG:立法院…`郭’字辨識(shí)錯(cuò)誤…“甚至?xí)笔潜孀R(shí)錯(cuò)誤…轉(zhuǎn)寫(xiě)文件直接類專有名詞辨識(shí)
-結(jié)果觀察直接辨識(shí)的問(wèn)題:提出方19結(jié)合關(guān)鍵詞辨識(shí)可信度分?jǐn)?shù)門(mén)檻值限制語(yǔ)音辨識(shí)信心測(cè)量,以CM(confidencemeasure)代表人名:當(dāng)中國(guó)人名姓氏或外國(guó)人名首字沒(méi)有重要前後文一同出現(xiàn)時(shí)(頭銜、發(fā)言動(dòng)詞),可信度必須大過(guò)門(mén)檻值tkey,才當(dāng)成可能的候選詞例:(過(guò)糖) 地名、組織名:當(dāng)結(jié)尾關(guān)鍵詞(市、廠、鄉(xiāng))可信度大過(guò)門(mén)檻值tkey時(shí),才當(dāng)成可能的候選詞如何設(shè)定關(guān)鍵詞可信度門(mén)檻值(tkey)呢?
先對(duì)可信度分?jǐn)?shù)大小做觀察結(jié)合關(guān)鍵詞可信度門(mén)檻值限制
CM(郭)<tkey?
則詞網(wǎng)中不加入此中國(guó)人名候選詞塘又乏缺運(yùn)郭<s></s>婦的動(dòng)女郭塘缺乏運(yùn)動(dòng)?jì)D女直接辨認(rèn)法:PER又缺乏運(yùn)動(dòng)的婦女郭塘又缺乏運(yùn)動(dòng)的婦女結(jié)合關(guān)鍵詞辨識(shí)可信度分?jǐn)?shù)門(mén)檻值限制語(yǔ)音辨識(shí)信心測(cè)量,以CM(20最佳輸出結(jié)果中每個(gè)詞可信度分?jǐn)?shù)計(jì)算詞圖(wordgraph)中節(jié)點(diǎn)辨識(shí)可信度分?jǐn)?shù)計(jì)算:詞圖中每一個(gè)節(jié)點(diǎn)的可信度分?jǐn)?shù),是將經(jīng)過(guò)該節(jié)點(diǎn)的所有路徑事後機(jī)率相加而得最佳輸出結(jié)果(1-best)的每個(gè)詞的可信度分?jǐn)?shù)計(jì)算:在詞圖中將時(shí)間點(diǎn)有重疊且候選詞一樣的節(jié)點(diǎn)可信度分?jǐn)?shù)相加得到為了避免在詞圖中找不到對(duì)應(yīng)最佳輸出的路徑,通常會(huì)建構(gòu)較龐大的詞圖詞圖大小與可信度的關(guān)係:詞圖愈大保留的候選詞就愈多,每個(gè)候選詞的路徑機(jī)率會(huì)被分散掉,使得可信度分?jǐn)?shù)平均而言會(huì)變小。最佳輸出結(jié)果中每個(gè)詞可信度分?jǐn)?shù)計(jì)算詞圖(wordgraph21關(guān)鍵詞辨識(shí)可信度分?jǐn)?shù)門(mén)檻值估計(jì)
-可信度分?jǐn)?shù)排序觀察(200則開(kāi)發(fā)集)辨識(shí)正確詞的可信度有10%只在0.01以下可信度值偏小設(shè)的可信度門(mén)檻值不宜太高關(guān)鍵詞辨識(shí)可信度分?jǐn)?shù)門(mén)檻值估計(jì)
-可信度分?jǐn)?shù)排序觀察(222類別語(yǔ)言模型法
-結(jié)合關(guān)鍵詞辨識(shí)可信度分?jǐn)?shù)門(mén)檻值實(shí)驗(yàn)結(jié)果辨識(shí)可信度門(mén)檻值設(shè)得愈高,表示要求的精確率愈高,然而回收率可能下降加入可信度分?jǐn)?shù)門(mén)檻值有可能得到較好的F-測(cè)量(73.00→73.41)派樹(shù)式規(guī)則法在可信度門(mén)檻值0.01時(shí)也可得到較好的F-測(cè)量(80.01→80.09)IfCM(W關(guān)鍵詞)<tkey,表示可能為辨識(shí)錯(cuò)誤,不當(dāng)成可能的類專有名詞候選詞繼續(xù)處理類別語(yǔ)言模型法
-結(jié)合關(guān)鍵詞辨識(shí)可信度分?jǐn)?shù)門(mén)檻值實(shí)驗(yàn)結(jié)果辨識(shí)23結(jié)合時(shí)間與主題同質(zhì)的類專有名詞匹配
(幫助回收率增加)時(shí)間同質(zhì)新聞?wù)Z料庫(kù)時(shí)間同質(zhì)新聞?wù)Z料庫(kù)及類專有名詞庫(kù)時(shí)間與主題同質(zhì)類專有名詞庫(kù)單篇語(yǔ)音文件錯(cuò)誤修正後的類專有名詞標(biāo)註語(yǔ)音文件發(fā)音相似度矩陣發(fā)音辭典文字文件類專有名詞辨識(shí)器資訊檢索結(jié)合類專有名詞匹配的類專有名詞辨識(shí)使用TF*log(IDF)計(jì)算出語(yǔ)音文件與各篇純文字文件的文件向量相似度找出最相似的前20篇且相似度大於0.2的文字文件後端前處理2002年9月份雅虎奇摩網(wǎng)路新聞,可透過(guò)網(wǎng)路抓取每篇文字新聞中的類專有名詞都已經(jīng)自動(dòng)抽取出來(lái)了。如:文件No.1.PER陳金鋒ORG洛杉磯道奇隊(duì)LOC美國(guó)…美國(guó)總統(tǒng)布希間表示…不惜雖然堅(jiān)稱…國(guó)務(wù)卿鮑爾在眾議院談伊拉克問(wèn)題…文件No.56
相似度0.6PER鮑爾3ORG眾議院2PER布希7PER布萊爾1LOC美國(guó)3文件No.12
相似度0.5LOC伊拉克6PER布希3ORG參議院2…美國(guó)(loc)總統(tǒng)布希(per)間表示…布希(per)雖然堅(jiān)稱…國(guó)務(wù)卿鮑爾(per)在眾議院(loc)談伊拉克(loc)問(wèn)題…結(jié)合時(shí)間與主題同質(zhì)的類專有名詞匹配
(幫助回收率增加)時(shí)間同24結(jié)合時(shí)間與主題同質(zhì)的類專有名詞匹配
-類別語(yǔ)言模型法人名類別快取語(yǔ)言模型percache地名類別快取語(yǔ)言模型loccache組織名類別快取語(yǔ)言模型orgcacheP(鮑爾|percache)=3/15P(布希|percache)=10/15P(賓拉登|percache)=2/15P(美國(guó)|loccache)=3/7P(伊拉|loccache)=4/7P(眾議院|orgcache)=2/4P(蓋達(dá)組織|orgcache)=2/4文件No.124
相似度0.6PER鮑爾3ORG眾議院2PER布希7LOC美國(guó)3文件No.124
相似度0.5LOC伊拉克4ORG蓋達(dá)組織2PER賓拉登2PER布希3…單篇語(yǔ)音文件時(shí)間與主題同質(zhì)類專有名詞庫(kù)美國(guó)總統(tǒng)布希間表示…不惜雖然堅(jiān)稱…國(guó)務(wù)卿鮑爾在眾議院談伊拉克問(wèn)題…尋找可匹配處字元完全匹配音節(jié)完全/近似匹配匹配到的候選詞做類別生成機(jī)率調(diào)適匹配處的處理結(jié)合時(shí)間與主題同質(zhì)的類專有名詞匹配
-類別語(yǔ)言模型法人名類別25類別語(yǔ)言模型法
-時(shí)間與主題同質(zhì)的類專有名詞匹配惜雖堅(jiān)然稱不<s></s>國(guó)總布統(tǒng)希美<s></s>示表間美國(guó)總統(tǒng)表示美國(guó)布希布希間P(美國(guó)|LOC)=(1-λcache)P(美國(guó)|loc)+λcacheP(美國(guó)|loccache)
P(布希|PER)=(1-λcache)P(布希|per)+λcacheP(布希|percache)不惜堅(jiān)稱雖然布希P(布希|percache)=10/15P(美國(guó)|loccache)=3/7滿足音節(jié)完全/近似匹配音節(jié)相似度>=tsyll_sim以及CM(不惜)<tcorrect字元完全匹配P(布希|PER)=(1-λcache)P(布希|per)+λcacheP(布希|percache)有助於回收率的提升與錯(cuò)誤字元修正syll_sim(不、布)=2.0syll_sim(惜、希)=2.0類別語(yǔ)言模型法
-時(shí)間與主題同質(zhì)的類專有名詞匹配惜雖堅(jiān)然稱不26類別語(yǔ)言模型法結(jié)合字元完全匹配及類別生成機(jī)率調(diào)適實(shí)驗(yàn)結(jié)果類別生成機(jī)率內(nèi)插的結(jié)果比單純使用任何一種模型要來(lái)的好(λcache=0.6時(shí)最好)回收率隨著λcache提升類別語(yǔ)言模型法結(jié)合字元完全匹配及類別生成機(jī)率調(diào)適實(shí)驗(yàn)結(jié)果類別27類別語(yǔ)言模型法
結(jié)合關(guān)鍵詞可信度分?jǐn)?shù)門(mén)檻值、字元完全匹配及類別生成機(jī)率調(diào)適實(shí)驗(yàn)結(jié)果(F-測(cè)量)希望精確率與回收率都能提升關(guān)鍵詞可信度分?jǐn)?shù)門(mén)檻值:
IfCM(W關(guān)鍵詞)<tkey,表示可能為辨識(shí)錯(cuò)誤,不當(dāng)成可能的類專有名詞候選詞繼續(xù)處理tkey類別語(yǔ)言模型法
結(jié)合關(guān)鍵詞可信度分?jǐn)?shù)門(mén)檻值、字元完全匹配及類28類別語(yǔ)言模型法
結(jié)合關(guān)鍵詞可信度分?jǐn)?shù)門(mén)檻值、音節(jié)匹配及類別生成機(jī)率調(diào)適實(shí)驗(yàn)結(jié)果(F-測(cè)量)字元完全匹配最好的結(jié)果為:λcache=0.6,tkey=0.1
F-測(cè)量從73.00→78.42
放鬆匹配條件至音節(jié)近似匹配時(shí),我們固定λcache=0.6,tkey=0.1,研究字元修正信心分?jǐn)?shù)門(mén)檻值tcorrect在不同設(shè)定下的結(jié)果CM(不惜)<tcorrect則加入”布?!敝猎~網(wǎng)tcorrect=0.6時(shí),tsyll_sim=2.0時(shí),F(xiàn)-測(cè)量進(jìn)步到79.50類別語(yǔ)言模型法
結(jié)合關(guān)鍵詞可信度分?jǐn)?shù)門(mén)檻值、音節(jié)匹配及類別生29類別語(yǔ)言模型法
結(jié)合關(guān)鍵詞可信度分?jǐn)?shù)門(mén)檻值、音節(jié)匹配及類別生成機(jī)率調(diào)適實(shí)驗(yàn)結(jié)果(語(yǔ)音辨識(shí)率)語(yǔ)音字元辨識(shí)率也從87.99提升到88.17類別語(yǔ)言模型法
結(jié)合關(guān)鍵詞可信度分?jǐn)?shù)門(mén)檻值、音節(jié)匹配及類別生30類別語(yǔ)言模型法
結(jié)合關(guān)鍵詞可信度分?jǐn)?shù)門(mén)檻值、音節(jié)匹配及類別生成機(jī)率調(diào)適實(shí)驗(yàn)結(jié)果觀察音節(jié)完全匹配時(shí)最好的設(shè)定下:類專有名詞F測(cè)量:從73.00→79.50 語(yǔ)音字元辨識(shí)率:從87.99→88.17類別語(yǔ)言模型法
結(jié)合關(guān)鍵詞可信度分?jǐn)?shù)門(mén)檻值、音節(jié)匹配及類別生31結(jié)合時(shí)間與主題同質(zhì)的類專有名詞匹配
-派樹(shù)式規(guī)則法非類別語(yǔ)言模型法的統(tǒng)計(jì)式解歧異,因此,以設(shè)定快取語(yǔ)言模型的機(jī)率門(mén)檻值(tcache)作為匹配的限制惜雖堅(jiān)然稱不<s></s>惜雖堅(jiān)然稱不<s></s>布希根據(jù)匹配特徵限制:音節(jié)相似度>=tsyll_simCM(不惜)<tcorrectP(布希|percache)>tcache
音節(jié)完全/近似匹配布希最好的設(shè)定為:關(guān)鍵詞可信度門(mén)檻值tkey=0.01快取語(yǔ)言模型門(mén)檻值tcache=0.2音節(jié)近似匹配tsyll_sim=1.7字元修正信心分?jǐn)?shù)門(mén)檻值tcorrect=0.6F-測(cè)量:
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2021建筑項(xiàng)目預(yù)算與造價(jià)咨詢服務(wù)方案
- 鉆井平臺(tái)設(shè)備維護(hù)方案
- 數(shù)字化轉(zhuǎn)型項(xiàng)目服務(wù)計(jì)劃方案
- 獨(dú)立基礎(chǔ)施工方案的施工進(jìn)度安排
- 水利工程施工安全措施方案
- 環(huán)境污染應(yīng)急信息管理解決方案
- 教育行業(yè)工作坊坊主發(fā)言稿
- 高校黨員學(xué)習(xí)考核與思想政治教育結(jié)合
- 工程租賃合同(2篇)
- 徐州-PEP-2024年11版小學(xué)5年級(jí)英語(yǔ)第二單元期中試卷
- 2024-2030年國(guó)內(nèi)不銹鋼行業(yè)市場(chǎng)發(fā)展分析及發(fā)展前景與投資機(jī)會(huì)研究報(bào)告
- 《復(fù)活(節(jié)選)》課件+2024-2025學(xué)年統(tǒng)編版高中語(yǔ)文選擇性必修上冊(cè)
- 成人有創(chuàng)機(jī)械通氣氣道內(nèi)吸引技術(shù)操作標(biāo)準(zhǔn)解讀
- DB11T 583-2022 扣件式和碗扣式鋼管腳手架安全選用技術(shù)規(guī)程
- 經(jīng)濟(jì)師考試人力資源管理高級(jí)經(jīng)濟(jì)實(shí)務(wù)試卷及解答參考(2025年)
- 地基土淺層平板載荷試驗(yàn)方案
- 2024-2025學(xué)年初中信息技術(shù)(信息科技)七年級(jí)上冊(cè)贛科版教學(xué)設(shè)計(jì)合集
- 第四單元檢測(cè)卷(單元測(cè)試)-2024-2025學(xué)年三年級(jí)上冊(cè)語(yǔ)文統(tǒng)編版
- 2024年公司股權(quán)轉(zhuǎn)讓中介的協(xié)議范本
- 體育二年級(jí)上冊(cè) 安全地進(jìn)行游戲(教案)
- 蘇教版六年級(jí)上冊(cè)數(shù)學(xué)期中考試試題帶答案
評(píng)論
0/150
提交評(píng)論