




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Web新聞人物追蹤系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)姓名:學(xué)號(hào):00448160院系:信息科學(xué)技術(shù)學(xué)院專業(yè):計(jì)算機(jī)科學(xué)與技術(shù)指導(dǎo)教師: 1謝謝觀賞2019-9-11Web新聞人物追蹤系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)姓名:謝謝觀賞提綱引言動(dòng)機(jī)難點(diǎn)相關(guān)研究指代消解實(shí)體關(guān)系抽取具體工作文本中關(guān)鍵詞的提取人物指代消解時(shí)間指代消解簡(jiǎn)歷型網(wǎng)頁(yè)/段落的判定人物蹤跡追蹤系統(tǒng)的實(shí)現(xiàn)總結(jié)22019-9-11謝謝觀賞提綱引言22019-9-11謝謝觀賞引言32019-9-11謝謝觀賞引言32019-9-11謝謝觀賞引言-動(dòng)機(jī)廣泛的需求還沒(méi)有搜索引擎正式提供關(guān)于人物的搜索服務(wù)展示W(wǎng)ebdigest小組長(zhǎng)期工作成果的展示平臺(tái)作為天網(wǎng)的一部分42019-9-11謝謝觀賞引言-動(dòng)機(jī)廣泛的需求42019-9-11謝謝觀賞引言-難點(diǎn)胡錦濤主席將于5月6日至10日對(duì)日本進(jìn)行5天的國(guó)事訪問(wèn)。除東京外,他還將訪問(wèn)橫濱和奈良,并從大阪啟程回國(guó)
時(shí)間指代消解,人物指代消解吳儀 中共中央政治局委員,國(guó)務(wù)院副總理。 女,漢族,1938年11月生,湖北武漢人,1962年4月加入中國(guó)共產(chǎn)黨,1962年8月參加工作,北京石油學(xué)院石油煉制系煉油工程專業(yè)畢業(yè),大學(xué)學(xué)歷,高級(jí)工程師。
1956年至1962年西北工學(xué)院國(guó)防系、北京石油學(xué)院石油煉制系煉油工程專業(yè)學(xué)習(xí)。1962年至1965年蘭州煉油廠車間技術(shù)員、政治部辦公室干事。1965年至1967年石油工業(yè)部生產(chǎn)技術(shù)司生產(chǎn)處技術(shù)員。
簡(jiǎn)歷型網(wǎng)頁(yè)的判斷52019-9-11謝謝觀賞引言-難點(diǎn)胡錦濤主席將于5月6日至10日對(duì)日本進(jìn)行5謝謝觀賞相關(guān)研究62019-9-11謝謝觀賞相關(guān)研究62019-9-11謝謝觀賞相關(guān)研究-指代消解-人物指代消解Borrow的STUDENT系統(tǒng):利用有限的啟發(fā)式規(guī)則Winograd的SHRDLU系統(tǒng):基于語(yǔ)法位置Wilks的Preferencesemantics系統(tǒng):利用簡(jiǎn)單的語(yǔ)義知識(shí)的四級(jí)指代消解系統(tǒng)Hobbs算法:基于句法分析,通過(guò)搜索句法樹(shù),尋找先行詞IdoDagan和AlonItai:利用共現(xiàn)模式從大規(guī)模語(yǔ)料庫(kù)中自動(dòng)獲取約束Mitkov:有限知識(shí)方法,應(yīng)用一系列規(guī)則Soon:利用機(jī)器學(xué)習(xí),構(gòu)造一個(gè)分類器判斷是否是指代關(guān)系72019-9-11謝謝觀賞相關(guān)研究-指代消解-人物指代消解Borrow的ST謝謝觀賞相關(guān)研究-指代消解-時(shí)間指代消解InderjeetMani,George:一個(gè)時(shí)間消解的框架。 處理中文需要解決更多問(wèn)題 借鑒:判斷一些不需要消解的情況使用分類器解決,選擇基準(zhǔn)時(shí)間時(shí)的思想82019-9-11謝謝觀賞相關(guān)研究-指代消解-時(shí)間指代消解Inderjeet謝謝觀賞相關(guān)研究-實(shí)體關(guān)系抽取Brin1998,Agichtein2000:先確定關(guān)系類別,然后基于關(guān)系對(duì)與描述模式在自然語(yǔ)言文本中的出現(xiàn)規(guī)律,自動(dòng)學(xué)習(xí)語(yǔ)義化關(guān)系模式來(lái)找到關(guān)系對(duì)。Etzioni2004:根據(jù)關(guān)系的種子實(shí)例對(duì)自動(dòng)生成關(guān)系抓取模板,并且能給每個(gè)新發(fā)現(xiàn)關(guān)系對(duì)一個(gè)屬于該類型的置信度。TakaakiHasegawa2004:基于實(shí)體對(duì)在文本中的共現(xiàn)定義關(guān)系,并利用共現(xiàn)文本對(duì)關(guān)系進(jìn)行聚類、標(biāo)注。YutakaMatsuo2006:以一組科技論文網(wǎng)站和論文作者的主頁(yè)等半結(jié)構(gòu)化數(shù)據(jù)為研究對(duì)象,以此來(lái)發(fā)現(xiàn)作者之間的關(guān)系92019-9-11謝謝觀賞相關(guān)研究-實(shí)體關(guān)系抽取Brin1998,Agich謝謝觀賞具體工作102019-9-11謝謝觀賞具體工作102019-9-11謝謝觀賞具體工作-文本中關(guān)鍵詞的提取JianguoXiao2007: 一個(gè)詞W的重要程度由兩部分因素組成,一個(gè)是其他詞Ai(Ai!=W)的重要程度以及W和Ai的關(guān)系緊密程度,另外一個(gè)是W所在句子的重要程度以及W和這個(gè)句子的關(guān)系緊密程度。 同樣,一句話S的重要程度也有兩部分組成,一個(gè)是其他句子Bi(Bi!=S)的重要程度以及它和S的相似程度,另外一個(gè)是S所包含的詞的重要程度以及他們同這句話的關(guān)系。112019-9-11謝謝觀賞具體工作-文本中關(guān)鍵詞的提取JianguoXiao謝謝觀賞具體工作-文本中關(guān)鍵詞的提取詞語(yǔ)與詞語(yǔ)之間的關(guān)系互信息(472978篇網(wǎng)頁(yè),1308327個(gè)詞語(yǔ),64312933對(duì)無(wú)序詞對(duì))句子與句子之間的關(guān)系cosin值詞語(yǔ)與句子之間的關(guān)系一個(gè)迭代的過(guò)程計(jì)算每個(gè)句子和每個(gè)詞語(yǔ)的關(guān)鍵程度122019-9-11謝謝觀賞具體工作-文本中關(guān)鍵詞的提取詞語(yǔ)與詞語(yǔ)之間的關(guān)系互謝謝觀賞具體工作-人名指代消解-人名性別判定人名性別判定 獲得一個(gè)人名性別列表,總共包含5901個(gè)不同的姓名,通過(guò)統(tǒng)計(jì)每個(gè)名字對(duì)應(yīng)的所有人的性別,簡(jiǎn)單地對(duì)這些名字的人的性別作出判斷,得到了一個(gè)判斷擁有名字N的人的性別的一個(gè)表。 問(wèn)題:所獲得的名字的數(shù)量遠(yuǎn)遠(yuǎn)不能涵蓋新聞網(wǎng)頁(yè)中出現(xiàn)的人名,以至于在指代消解的時(shí)候,無(wú)法確定人物的性別,使得消解出錯(cuò)。這一塊有待在今后工作中的改進(jìn)。132019-9-11謝謝觀賞具體工作-人名指代消解-人名性別判定人名性別判定13謝謝觀賞具體工作-人名指代消解-姓名縮寫(xiě)消解3月22日凌晨,巴勒斯坦哈馬斯(伊斯蘭抵抗運(yùn)動(dòng))精神領(lǐng)袖艾哈邁德·亞辛的汽車遭以色列直升機(jī)導(dǎo)彈襲擊,亞辛及其兩名保鏢身亡。
解決方法:簡(jiǎn)單的替換142019-9-11謝謝觀賞具體工作-人名指代消解-姓名縮寫(xiě)消解3月22日凌晨,謝謝觀賞
具體工作-人名指代消解-流程152019-9-11謝謝觀賞 具體工作-人名指代消解-流程152019-9-謝謝觀賞具體工作-人名指代消解-評(píng)測(cè)隨機(jī)選取了20篇網(wǎng)頁(yè),其中包含“他”和“她”共36個(gè),是共消解36個(gè),正確消解29個(gè),精度是81%,召回度是100%。錯(cuò)誤分析3個(gè),人名識(shí)別接識(shí)別問(wèn)題,如果接口能夠正確識(shí)別,精度應(yīng)該是89%2個(gè),尋找先行人名錯(cuò)誤2個(gè),先行詞并沒(méi)有以人物姓名的形式出現(xiàn)在網(wǎng)頁(yè)中,而是以一些名詞或者“姓+名詞”的形式出現(xiàn),比如“司機(jī)”,“張醫(yī)生”,162019-9-11謝謝觀賞具體工作-人名指代消解-評(píng)測(cè)隨機(jī)選取了20篇網(wǎng)頁(yè),其謝謝觀賞具體工作-時(shí)間指代消解-難點(diǎn)哪些需要消解? 對(duì)海量網(wǎng)頁(yè)中詞頻排名前1000的詞進(jìn)行了統(tǒng)計(jì)和分析,得到了一些模式,并且整理了里面的能夠明確消解的時(shí)間詞語(yǔ)
“今天”,“今日”,“當(dāng)天”,“當(dāng)日”,“當(dāng)晚”,“今天上午”,“今晚”,“今天下午”,“當(dāng)天下午”,“當(dāng)天晚上”,“同一天”,“今夜”,“今年”,“下半年”,“上半年”,“今年上半年”,“今年下半年”,“今夏”,“今秋”,“今冬”,“今年夏天”,“同年”,“今年秋季”,“上周”,“本周”,“本月”,“下周”,“月底”,“周末”,“上周末”,“當(dāng)月”,“本月底”,“去年”,“上一年”,“上年”,“昨日”,“昨天”,“昨晚”,“昨天下午”,“昨天上午”,“昨日下午”,“昨日上午”,“前一天”,“昨天晚上”,“昨夜”,“明日”,“次日”,“明天”,“前天”,“明年”,“次年”,“前年”,“下月”,“上月”,“上個(gè)月”,“年底”,“今年年底”,“年終”,“年末”,“今年底”,“年初”,“今年年初”,“今年初”,“去年底”,“去年年底”,xxxx-xx-xx,xxxx.xx.xx,xx年,xx月,xx日,(x代表一個(gè)阿拉伯?dāng)?shù)字)
172019-9-11謝謝觀賞具體工作-時(shí)間指代消解-難點(diǎn)哪些需要消解?17201謝謝觀賞具體工作-時(shí)間指代消解-難點(diǎn)“九八年”,“2000年”中文數(shù)字以及全角阿拉伯?dāng)?shù)字轉(zhuǎn)換成半角阿拉伯?dāng)?shù)字“1946年1月到8月”,“4月1日、7日、8日”時(shí)間段、并列時(shí)間的處理引用中的時(shí)間不處理基準(zhǔn)時(shí)間的確定一套規(guī)則是否是未來(lái)時(shí)間考慮時(shí)間間隔“今天的中國(guó)”是否需要消解182019-9-11謝謝觀賞具體工作-時(shí)間指代消解-難點(diǎn)“九八年”,“2000年謝謝觀賞
具體工作-時(shí)間指代消解-流程192019-9-11謝謝觀賞 具體工作-時(shí)間指代消解-流程192019-9-1謝謝觀賞具體工作-時(shí)間指代消解-評(píng)測(cè)隨機(jī)選取了50篇網(wǎng)頁(yè),包含在消解范圍內(nèi)的時(shí)間詞248個(gè),消解了242個(gè),正確消解了223個(gè),精度是92%,漏掉了6個(gè),召回度是97%。錯(cuò)誤的原因消解了不應(yīng)該消解的時(shí)間,有4個(gè)基準(zhǔn)時(shí)間判斷錯(cuò)誤,有6個(gè)其余錯(cuò)誤包括時(shí)間間隔處理的問(wèn)題、接口識(shí)別的問(wèn)題等還有一些詞不在本模塊規(guī)定的可消解范圍內(nèi),由于它的一部分屬于可消解詞,以至于被消解,如“農(nóng)歷三月等”。漏掉的原因4個(gè)因?yàn)榻涌跊](méi)有將這個(gè)時(shí)間識(shí)別出來(lái),2個(gè)被簡(jiǎn)單的認(rèn)為不應(yīng)該消解。202019-9-11謝謝觀賞具體工作-時(shí)間指代消解-評(píng)測(cè)隨機(jī)選取了50篇網(wǎng)頁(yè),包謝謝觀賞具體工作-簡(jiǎn)歷型網(wǎng)頁(yè)/段落的判定判斷簡(jiǎn)歷型網(wǎng)頁(yè)判斷簡(jiǎn)歷型段落 均根據(jù)調(diào)研情況制定一些規(guī)則,按照對(duì)人名、時(shí)間以及其他的統(tǒng)計(jì)數(shù)據(jù)作出判斷212019-9-11謝謝觀賞具體工作-簡(jiǎn)歷型網(wǎng)頁(yè)/段落的判定判斷簡(jiǎn)歷型網(wǎng)頁(yè)212謝謝觀賞具體工作-簡(jiǎn)歷型網(wǎng)頁(yè)/段落的判定-評(píng)測(cè)使用了409篇網(wǎng)頁(yè),共有67個(gè)簡(jiǎn)歷網(wǎng)頁(yè)判斷簡(jiǎn)歷型網(wǎng)頁(yè)精度:得到58篇簡(jiǎn)歷的網(wǎng)頁(yè),正確56篇,精度為97%。錯(cuò)誤分析:一篇是講的憲法的歷史,期間提到了很多時(shí)間,而且除了開(kāi)始出現(xiàn)了一個(gè)人名外,之后都沒(méi)有提到人,這些都符合了判斷簡(jiǎn)歷型網(wǎng)頁(yè)的條件。另外一篇中本沒(méi)有提到人,但人名識(shí)別接口錯(cuò)誤的識(shí)別出了一個(gè)人名,同時(shí)符合判定的其他標(biāo)準(zhǔn)召回度:83%錯(cuò)誤分析:2篇,人名識(shí)別接口沒(méi)有識(shí)別出人名;2篇,簡(jiǎn)歷中人名出現(xiàn)過(guò)多;5篇是在處理特殊網(wǎng)頁(yè)(每句一段),沒(méi)有正確找打句子開(kāi)始的時(shí)間;1篇是將非特殊網(wǎng)頁(yè)判斷成了特殊網(wǎng)頁(yè);1篇是因?yàn)楹?jiǎn)歷過(guò)長(zhǎng),沒(méi)有考慮。222019-9-11謝謝觀賞具體工作-簡(jiǎn)歷型網(wǎng)頁(yè)/段落的判定-評(píng)測(cè)使用了409篇謝謝觀賞具體工作-簡(jiǎn)歷型網(wǎng)頁(yè)/段落的判定-評(píng)測(cè)判斷簡(jiǎn)歷型段落,數(shù)據(jù)集同上精度:識(shí)別出26個(gè)簡(jiǎn)歷型段落,20個(gè)正確,精度是77%錯(cuò)誤分析:有些段落比較短,一些閾值不適合導(dǎo)致的,同時(shí)召回度也不理想,最后在構(gòu)建系統(tǒng)的時(shí)候,暫時(shí)沒(méi)有用到簡(jiǎn)歷型段落232019-9-11謝謝觀賞具體工作-簡(jiǎn)歷型網(wǎng)頁(yè)/段落的判定-評(píng)測(cè)判斷簡(jiǎn)歷型段落謝謝觀賞具體工作-人物蹤跡系統(tǒng)的實(shí)現(xiàn)-數(shù)據(jù)集網(wǎng)頁(yè)來(lái)源:2007年Webdigest小組所抓取的網(wǎng)頁(yè)。選取上排名前100的新聞網(wǎng)頁(yè)作為種子,并且按4層抓取。從10月1日開(kāi)始持續(xù)了30天,總計(jì)20,000,000篇網(wǎng)頁(yè)。處理過(guò)程:使用Parasize項(xiàng)目的工具進(jìn)行消重、去噪使用本文的模塊對(duì)網(wǎng)頁(yè)處理。句子為單位,進(jìn)行提取蹤跡現(xiàn)在得到的數(shù)據(jù): 總共得到403456條人物蹤跡,23415條同時(shí)包含地點(diǎn)信息,作為現(xiàn)在系統(tǒng)可以查詢的數(shù)據(jù)。242019-9-11謝謝觀賞具體工作-人物蹤跡系統(tǒng)的實(shí)現(xiàn)-數(shù)據(jù)集網(wǎng)頁(yè)來(lái)源:200謝謝觀賞具體工作-人物蹤跡系統(tǒng)的實(shí)現(xiàn)-模塊和功能模塊:查詢模塊,和地圖展示模塊功能:輸入:一個(gè)人名輸出:他/她的所有蹤跡,包含人物、時(shí)間、地點(diǎn)和時(shí)間,蹤跡,并且按照日期排序。地圖展示:屏幕右側(cè),地點(diǎn)被標(biāo)識(shí),線條連接相鄰蹤跡的地點(diǎn),動(dòng)態(tài)展示252019-9-11謝謝觀賞具體工作-人物蹤跡系統(tǒng)的實(shí)現(xiàn)-模塊和功能模塊:查詢模謝謝觀賞具體工作-人物蹤跡系統(tǒng)262019-9-11謝謝觀賞具體工作-人物蹤跡系統(tǒng)262019-9-11謝謝觀賞總結(jié)意義研究?jī)r(jià)值創(chuàng)新收獲新的知識(shí)科研經(jīng)驗(yàn)今后工作各模塊的改進(jìn)奧運(yùn)會(huì)信息處理系統(tǒng)272019-9-11謝謝觀賞總結(jié)意義272019-9-11謝謝觀賞282019-9-11謝謝觀賞282019-9-11Web新聞人物追蹤系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)姓名:學(xué)號(hào):00448160院系:信息科學(xué)技術(shù)學(xué)院專業(yè):計(jì)算機(jī)科學(xué)與技術(shù)指導(dǎo)教師: 29謝謝觀賞2019-9-11Web新聞人物追蹤系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)姓名:謝謝觀賞提綱引言動(dòng)機(jī)難點(diǎn)相關(guān)研究指代消解實(shí)體關(guān)系抽取具體工作文本中關(guān)鍵詞的提取人物指代消解時(shí)間指代消解簡(jiǎn)歷型網(wǎng)頁(yè)/段落的判定人物蹤跡追蹤系統(tǒng)的實(shí)現(xiàn)總結(jié)302019-9-11謝謝觀賞提綱引言22019-9-11謝謝觀賞引言312019-9-11謝謝觀賞引言32019-9-11謝謝觀賞引言-動(dòng)機(jī)廣泛的需求還沒(méi)有搜索引擎正式提供關(guān)于人物的搜索服務(wù)展示W(wǎng)ebdigest小組長(zhǎng)期工作成果的展示平臺(tái)作為天網(wǎng)的一部分322019-9-11謝謝觀賞引言-動(dòng)機(jī)廣泛的需求42019-9-11謝謝觀賞引言-難點(diǎn)胡錦濤主席將于5月6日至10日對(duì)日本進(jìn)行5天的國(guó)事訪問(wèn)。除東京外,他還將訪問(wèn)橫濱和奈良,并從大阪啟程回國(guó)
時(shí)間指代消解,人物指代消解吳儀 中共中央政治局委員,國(guó)務(wù)院副總理。 女,漢族,1938年11月生,湖北武漢人,1962年4月加入中國(guó)共產(chǎn)黨,1962年8月參加工作,北京石油學(xué)院石油煉制系煉油工程專業(yè)畢業(yè),大學(xué)學(xué)歷,高級(jí)工程師。
1956年至1962年西北工學(xué)院國(guó)防系、北京石油學(xué)院石油煉制系煉油工程專業(yè)學(xué)習(xí)。1962年至1965年蘭州煉油廠車間技術(shù)員、政治部辦公室干事。1965年至1967年石油工業(yè)部生產(chǎn)技術(shù)司生產(chǎn)處技術(shù)員。
簡(jiǎn)歷型網(wǎng)頁(yè)的判斷332019-9-11謝謝觀賞引言-難點(diǎn)胡錦濤主席將于5月6日至10日對(duì)日本進(jìn)行5謝謝觀賞相關(guān)研究342019-9-11謝謝觀賞相關(guān)研究62019-9-11謝謝觀賞相關(guān)研究-指代消解-人物指代消解Borrow的STUDENT系統(tǒng):利用有限的啟發(fā)式規(guī)則Winograd的SHRDLU系統(tǒng):基于語(yǔ)法位置Wilks的Preferencesemantics系統(tǒng):利用簡(jiǎn)單的語(yǔ)義知識(shí)的四級(jí)指代消解系統(tǒng)Hobbs算法:基于句法分析,通過(guò)搜索句法樹(shù),尋找先行詞IdoDagan和AlonItai:利用共現(xiàn)模式從大規(guī)模語(yǔ)料庫(kù)中自動(dòng)獲取約束Mitkov:有限知識(shí)方法,應(yīng)用一系列規(guī)則Soon:利用機(jī)器學(xué)習(xí),構(gòu)造一個(gè)分類器判斷是否是指代關(guān)系352019-9-11謝謝觀賞相關(guān)研究-指代消解-人物指代消解Borrow的ST謝謝觀賞相關(guān)研究-指代消解-時(shí)間指代消解InderjeetMani,George:一個(gè)時(shí)間消解的框架。 處理中文需要解決更多問(wèn)題 借鑒:判斷一些不需要消解的情況使用分類器解決,選擇基準(zhǔn)時(shí)間時(shí)的思想362019-9-11謝謝觀賞相關(guān)研究-指代消解-時(shí)間指代消解Inderjeet謝謝觀賞相關(guān)研究-實(shí)體關(guān)系抽取Brin1998,Agichtein2000:先確定關(guān)系類別,然后基于關(guān)系對(duì)與描述模式在自然語(yǔ)言文本中的出現(xiàn)規(guī)律,自動(dòng)學(xué)習(xí)語(yǔ)義化關(guān)系模式來(lái)找到關(guān)系對(duì)。Etzioni2004:根據(jù)關(guān)系的種子實(shí)例對(duì)自動(dòng)生成關(guān)系抓取模板,并且能給每個(gè)新發(fā)現(xiàn)關(guān)系對(duì)一個(gè)屬于該類型的置信度。TakaakiHasegawa2004:基于實(shí)體對(duì)在文本中的共現(xiàn)定義關(guān)系,并利用共現(xiàn)文本對(duì)關(guān)系進(jìn)行聚類、標(biāo)注。YutakaMatsuo2006:以一組科技論文網(wǎng)站和論文作者的主頁(yè)等半結(jié)構(gòu)化數(shù)據(jù)為研究對(duì)象,以此來(lái)發(fā)現(xiàn)作者之間的關(guān)系372019-9-11謝謝觀賞相關(guān)研究-實(shí)體關(guān)系抽取Brin1998,Agich謝謝觀賞具體工作382019-9-11謝謝觀賞具體工作102019-9-11謝謝觀賞具體工作-文本中關(guān)鍵詞的提取JianguoXiao2007: 一個(gè)詞W的重要程度由兩部分因素組成,一個(gè)是其他詞Ai(Ai!=W)的重要程度以及W和Ai的關(guān)系緊密程度,另外一個(gè)是W所在句子的重要程度以及W和這個(gè)句子的關(guān)系緊密程度。 同樣,一句話S的重要程度也有兩部分組成,一個(gè)是其他句子Bi(Bi!=S)的重要程度以及它和S的相似程度,另外一個(gè)是S所包含的詞的重要程度以及他們同這句話的關(guān)系。392019-9-11謝謝觀賞具體工作-文本中關(guān)鍵詞的提取JianguoXiao謝謝觀賞具體工作-文本中關(guān)鍵詞的提取詞語(yǔ)與詞語(yǔ)之間的關(guān)系互信息(472978篇網(wǎng)頁(yè),1308327個(gè)詞語(yǔ),64312933對(duì)無(wú)序詞對(duì))句子與句子之間的關(guān)系cosin值詞語(yǔ)與句子之間的關(guān)系一個(gè)迭代的過(guò)程計(jì)算每個(gè)句子和每個(gè)詞語(yǔ)的關(guān)鍵程度402019-9-11謝謝觀賞具體工作-文本中關(guān)鍵詞的提取詞語(yǔ)與詞語(yǔ)之間的關(guān)系互謝謝觀賞具體工作-人名指代消解-人名性別判定人名性別判定 獲得一個(gè)人名性別列表,總共包含5901個(gè)不同的姓名,通過(guò)統(tǒng)計(jì)每個(gè)名字對(duì)應(yīng)的所有人的性別,簡(jiǎn)單地對(duì)這些名字的人的性別作出判斷,得到了一個(gè)判斷擁有名字N的人的性別的一個(gè)表。 問(wèn)題:所獲得的名字的數(shù)量遠(yuǎn)遠(yuǎn)不能涵蓋新聞網(wǎng)頁(yè)中出現(xiàn)的人名,以至于在指代消解的時(shí)候,無(wú)法確定人物的性別,使得消解出錯(cuò)。這一塊有待在今后工作中的改進(jìn)。412019-9-11謝謝觀賞具體工作-人名指代消解-人名性別判定人名性別判定13謝謝觀賞具體工作-人名指代消解-姓名縮寫(xiě)消解3月22日凌晨,巴勒斯坦哈馬斯(伊斯蘭抵抗運(yùn)動(dòng))精神領(lǐng)袖艾哈邁德·亞辛的汽車遭以色列直升機(jī)導(dǎo)彈襲擊,亞辛及其兩名保鏢身亡。
解決方法:簡(jiǎn)單的替換422019-9-11謝謝觀賞具體工作-人名指代消解-姓名縮寫(xiě)消解3月22日凌晨,謝謝觀賞
具體工作-人名指代消解-流程432019-9-11謝謝觀賞 具體工作-人名指代消解-流程152019-9-謝謝觀賞具體工作-人名指代消解-評(píng)測(cè)隨機(jī)選取了20篇網(wǎng)頁(yè),其中包含“他”和“她”共36個(gè),是共消解36個(gè),正確消解29個(gè),精度是81%,召回度是100%。錯(cuò)誤分析3個(gè),人名識(shí)別接識(shí)別問(wèn)題,如果接口能夠正確識(shí)別,精度應(yīng)該是89%2個(gè),尋找先行人名錯(cuò)誤2個(gè),先行詞并沒(méi)有以人物姓名的形式出現(xiàn)在網(wǎng)頁(yè)中,而是以一些名詞或者“姓+名詞”的形式出現(xiàn),比如“司機(jī)”,“張醫(yī)生”,442019-9-11謝謝觀賞具體工作-人名指代消解-評(píng)測(cè)隨機(jī)選取了20篇網(wǎng)頁(yè),其謝謝觀賞具體工作-時(shí)間指代消解-難點(diǎn)哪些需要消解? 對(duì)海量網(wǎng)頁(yè)中詞頻排名前1000的詞進(jìn)行了統(tǒng)計(jì)和分析,得到了一些模式,并且整理了里面的能夠明確消解的時(shí)間詞語(yǔ)
“今天”,“今日”,“當(dāng)天”,“當(dāng)日”,“當(dāng)晚”,“今天上午”,“今晚”,“今天下午”,“當(dāng)天下午”,“當(dāng)天晚上”,“同一天”,“今夜”,“今年”,“下半年”,“上半年”,“今年上半年”,“今年下半年”,“今夏”,“今秋”,“今冬”,“今年夏天”,“同年”,“今年秋季”,“上周”,“本周”,“本月”,“下周”,“月底”,“周末”,“上周末”,“當(dāng)月”,“本月底”,“去年”,“上一年”,“上年”,“昨日”,“昨天”,“昨晚”,“昨天下午”,“昨天上午”,“昨日下午”,“昨日上午”,“前一天”,“昨天晚上”,“昨夜”,“明日”,“次日”,“明天”,“前天”,“明年”,“次年”,“前年”,“下月”,“上月”,“上個(gè)月”,“年底”,“今年年底”,“年終”,“年末”,“今年底”,“年初”,“今年年初”,“今年初”,“去年底”,“去年年底”,xxxx-xx-xx,xxxx.xx.xx,xx年,xx月,xx日,(x代表一個(gè)阿拉伯?dāng)?shù)字)
452019-9-11謝謝觀賞具體工作-時(shí)間指代消解-難點(diǎn)哪些需要消解?17201謝謝觀賞具體工作-時(shí)間指代消解-難點(diǎn)“九八年”,“2000年”中文數(shù)字以及全角阿拉伯?dāng)?shù)字轉(zhuǎn)換成半角阿拉伯?dāng)?shù)字“1946年1月到8月”,“4月1日、7日、8日”時(shí)間段、并列時(shí)間的處理引用中的時(shí)間不處理基準(zhǔn)時(shí)間的確定一套規(guī)則是否是未來(lái)時(shí)間考慮時(shí)間間隔“今天的中國(guó)”是否需要消解462019-9-11謝謝觀賞具體工作-時(shí)間指代消解-難點(diǎn)“九八年”,“2000年謝謝觀賞
具體工作-時(shí)間指代消解-流程472019-9-11謝謝觀賞 具體工作-時(shí)間指代消解-流程192019-9-1謝謝觀賞具體工作-時(shí)間指代消解-評(píng)測(cè)隨機(jī)選取了50篇網(wǎng)頁(yè),包含在消解范圍內(nèi)的時(shí)間詞248個(gè),消解了242個(gè),正確消解了223個(gè),精度是92%,漏掉了6個(gè),召回度是97%。錯(cuò)誤的原因消解了不應(yīng)該消解的時(shí)間,有4個(gè)基準(zhǔn)時(shí)間判斷錯(cuò)誤,有6個(gè)其余錯(cuò)誤包括時(shí)間間隔處理的問(wèn)題、接口識(shí)別的問(wèn)題等還有一些詞不在本模塊規(guī)定的可消解范圍內(nèi),由于它的一部分屬于可消解詞,以至于被消解,如“農(nóng)歷三月等”。漏掉的原因4個(gè)因?yàn)榻涌跊](méi)有將這個(gè)時(shí)間識(shí)別出來(lái),2個(gè)被簡(jiǎn)單的認(rèn)為不應(yīng)該消解。482019-9-11謝謝觀賞具體工作-時(shí)間指代消解-評(píng)測(cè)隨機(jī)選取了50篇網(wǎng)頁(yè),包謝謝觀賞具體工作-簡(jiǎn)歷型網(wǎng)頁(yè)/段落的判定判斷簡(jiǎn)歷型網(wǎng)頁(yè)判斷簡(jiǎn)歷型段落 均根據(jù)調(diào)研情況制定一些規(guī)則,按照對(duì)人名、時(shí)間以及其他的統(tǒng)計(jì)數(shù)據(jù)作出判斷492019-9-11謝謝觀賞具體工作-簡(jiǎn)歷型網(wǎng)頁(yè)/段落的判定判斷簡(jiǎn)歷型網(wǎng)頁(yè)212謝謝觀賞具體工作-簡(jiǎn)歷型網(wǎng)頁(yè)/段落的判定-評(píng)測(cè)使用了409篇網(wǎng)頁(yè),共有67個(gè)簡(jiǎn)歷網(wǎng)頁(yè)判斷簡(jiǎn)歷型網(wǎng)頁(yè)精度:得到58篇簡(jiǎn)歷的網(wǎng)頁(yè),正確56篇,精度為97%。錯(cuò)誤分析:一
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 房屋裝修裝飾合同
- 公司股權(quán)激勵(lì)合同書(shū)
- 買(mǎi)方土地居間合同
- 三農(nóng)資源整合利用與優(yōu)化方案設(shè)計(jì)
- 大門(mén)柱瓷磚施工方案
- 邯鄲防爆墻施工方案
- DB3709T 038-2025 泰山茶 山地低產(chǎn)茶園提升改造技術(shù)規(guī)程
- 充電施工方案
- 鋼管腳手架搭拆施工方案
- 壽光市圣發(fā)育苗廠生態(tài)養(yǎng)殖科普基地項(xiàng)目生態(tài)影響類報(bào)告表
- 財(cái)務(wù)指標(biāo)簡(jiǎn)易操作計(jì)算器-小白版
- 數(shù)獨(dú)六宮格練習(xí)題
- 《自動(dòng)升降跳高架》課件
- 2023CSCO腎癌診療指南
- 中醫(yī)診斷學(xué)(全套課件303P)-課件
- 裝修工程竣工驗(yàn)收自評(píng)報(bào)告
- 陽(yáng)臺(tái)裝修合同
- MULAND深圳蕉內(nèi)前海中心辦公室方案
- 建筑工程安全管理論文15篇建筑工程安全管理論文
- 基于三菱FX系列PLC的五層電梯控制系統(tǒng)
- 拉拔試驗(yàn)原始記錄
評(píng)論
0/150
提交評(píng)論