文本結構化技術的初步實現與中文縮略語還原技術初探課件_第1頁
文本結構化技術的初步實現與中文縮略語還原技術初探課件_第2頁
文本結構化技術的初步實現與中文縮略語還原技術初探課件_第3頁
文本結構化技術的初步實現與中文縮略語還原技術初探課件_第4頁
文本結構化技術的初步實現與中文縮略語還原技術初探課件_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

文本結構化技術的初步實現

中文縮略語還原技術初探指導教師:俞士汶教授學生:支流

Tuesday,September19,2023文本結構化技術的初步實現

中文縮略語還原技術初探指1內容提要文本結構化技術建設結構化語料庫的必要性文本結構化技術實現中文縮略語還原技術初探中文縮略語的研究意義中文縮略語分類框架樸素的縮略語還原技術縮略語知識庫的建設內容提要文本結構化技術2內容提要文本結構化技術建設結構化語料庫的必要性文本結構化技術實現中文縮略語還原技術初探中文縮略語的研究意義中文縮略語分類框架樸素的縮略語還原技術縮略語知識庫的建設內容提要文本結構化技術3綜合型語言知識庫簡介語法詞典標注語料庫句法知識語義詞典概念詞典語義知識詞庫短語規(guī)則庫日常用語術語庫-專業(yè)用語單語平行語料庫-雙語現代漢語古詩-古代漢語語法詞典標注語料庫綜合型語言知識庫簡介語法詞典標注語料庫句法知識語義詞典概念詞4語法信息詞典與語料庫之間的縫隙詞語詞類同形拼音頻次例句注抄vAchao1

照原稿寫抄vBchao1

走近道此類/r編著/v內容/n是/v抄/v自/p別人/r的/u

炮兵/n學院/n原來/d圍墻/n殘缺/v,/w周邊/n群眾/n進城/v,/w習慣/v抄/v近道/n。/w

文本文件與數據庫文件的對應較麻煩“詞語+詞類+同形”為主關鍵項的數據庫文件進行了詞語切分和詞類標注的文本文件語法信息詞典與語料庫之間的縫隙詞語詞類同形拼音頻次例句注抄v5結構化語料庫的格式切分單位長年月日版篇段句位19981201-01-002-001/m211998120101020010100圓滿/ad071998120101020010101結束/v061998120101020010102對/p041998120101020010103俄羅斯/ns091998120101020010104和/c041998120101020010105日本/ns071998120101020010106的/u041998120101020010107訪問/vn07199812010102001010819981201-01-002-002/m211998120101020020100江/nr051998120101020020101澤民/nr071998120101020020102……

結構化語料庫可以方便地進行語料庫上的各項數據統計。例如統計某個時間段某個詞出現的頻度。結構化語料庫的格式切分單位長年月日版篇段句位199812016內容提要文本結構化技術建設結構化語料庫的必要性文本結構化技術實現中文縮略語還原技術初探中文縮略語的研究意義中文縮略語分類框架樸素的縮略語還原技術縮略語知識庫的建設內容提要文本結構化技術7結構化文本技術的實現結構化文本技術的實現幾大特點

可以讓用戶自主選擇需要的屬性項有兩種輸出文件格式供用戶選擇結構化文本技術的實現結構化文本技術的實現幾大特點可以讓用戶自8結構化文本技術的實現結構化文本技術的實現9結構化文本技術的實現結構化文本技術的實現10內容提要文本結構化技術建設結構化語料庫的必要性文本結構化技術實現中文縮略語還原技術初探中文縮略語的研究意義中文縮略語分類框架樸素的縮略語還原技術縮略語知識庫的建設注:論文中的縮略語部分節(jié)選已經被第八屆“全國計算語言學聯合學術會議”錄用內容提要文本結構化技術注:論文中的縮略語部分節(jié)選已經被第八屆11中文縮略語的研究意義縮略語是自然語言的重要組成部分,縮略語規(guī)律的探索和縮略語還原是973項目“文本內容理解的數據基礎”的重要組成部分與香港大學合作項目,為多語言縮略語共同規(guī)律研究提供數據基礎和技術借鑒中文縮略語的研究意義12中文縮略語的研究意義(二)研究達到的最終目標的縮略語的還原和生成,即為縮略語的解碼和編碼近期目標是切分標注好的語料中的縮略語還原中文縮略語的研究意義(二)13內容提要文本結構化技術建設結構化語料庫的必要性文本結構化技術實現中文縮略語還原技術初探中文縮略語的研究意義中文縮略語分類框架樸素的縮略語還原技術縮略語知識庫的建設注:論文中的縮略語部分節(jié)選已經被第八屆“全國計算語言學聯合學術會議”錄用內容提要文本結構化技術注:論文中的縮略語部分節(jié)選已經被第八屆14根據縮略語和全稱的對應方式分類一對一:北大北京大學一對多:人大人民大學全國人民代表大會多對一:電扇電風扇風扇多對多:南開南京大學南大南開大學中文縮略語分類框架根據縮略語和全稱的對應方式分類中文縮略語分類框架15中文縮略語分類框架(二)從縮略語的形成方式分類字面與全稱無關多為地名型:云南→黔,上?!鷾置媾c全稱有關在簡稱中間有()出現的:鄉(xiāng)(鎮(zhèn)),廳(局)長,寒(暑)假,出國(境)在簡稱中沒有()出現的中文縮略語分類框架(二)從縮略語的形成方式分類16中文縮略語分類框架(三)縮合:大中小學生,鄉(xiāng)鎮(zhèn)企業(yè)提取北京大學→北大婚姻介紹所→婚介所歐洲中部→中歐(倒序情況)節(jié)略:清華大學→清華,復旦大學→復旦提取和節(jié)略結合:全國人民代表大會→人大總結性:三個代表,三好,五好特殊縮略語局部近義詞替代:浮式起重機→浮吊局部上位詞替代:中華人民共和國教育委員會→國家教委中文縮略語分類框架(三)縮合:大中小學生,鄉(xiāng)鎮(zhèn)企業(yè)17內容提要文本結構化技術建設結構化語料庫的必要性文本結構化技術實現中文縮略語還原技術初探中文縮略語的研究意義中文縮略語分類框架樸素的縮略語還原技術縮略語知識庫的建設注:論文中的縮略語部分節(jié)選已經被第八屆“全國計算語言學聯合學術會議”錄用內容提要文本結構化技術注:論文中的縮略語部分節(jié)選已經被第八屆18測試語料:1998年1月1日至3日的《人民日報》切分標注好語料,共有33450個詞語,其中縮略語97個樸素的縮略語還原技術縮略語數據庫《簡稱略語庫》中608條縮略語作為種子。全文索引規(guī)則排序在文件中找到匹配詞組60%在文件中未找到匹配詞組40%測試語料:1998年1月1日至3日的《人民日報》切分標注好語19全文索引僅6個縮略語的匹配結果唯一52個縮略語都至少有2個匹配結果其中僅“中”匹配出57個不同的詞組。全文索引僅6個縮略語的匹配結果唯一20規(guī)則排序是否出現在數據庫中距離縮略語的遠近備選全稱的內部結構……匹配出31個縮略語,其中正確的30個,正確率51.7%

匹配出45個縮略語,其中正確的42個,正確率72.4%正確匹配出51個縮略語,正確率為87.9%規(guī)則排序是否出現在數據庫中距離縮略語的遠近備選全稱的內部結構21實驗結果實驗結果統計:擴大縮略語數據庫的規(guī)??s略語對應的全稱的篩選方式仍不完善。下一步在使用規(guī)則的方法的同時將加入統計的方法,縮略語知識庫的建設將是下一步工作的重中之重。全國人民代表大會……人大……人民大學實驗結果實驗結果統計:擴大縮略語數據庫的規(guī)模縮略語對應的全稱22內容提要文本結構化技術建設結構化語料庫的必要性文本結構化技術實現中文縮略語還原技術初探中文縮略語的研究意義中文縮略語分類框架樸素的縮略語還原技術縮略語知識庫的建設注:論文中的縮略語部分節(jié)選已經被第八屆“全國計算語言學聯

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論