




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
中文文本自動分詞與標注
第8章漢語詞義自動標註技術(shù)報告人:劉謦儀(J94922018)12/3/20231綱要詞義標注詞義排歧詞義自動標注與詞義自動排歧語言的編碼漢字字義組合結(jié)構(gòu)基於字義排歧的模型自組織的漢語詞義排歧方法結(jié)語12/3/20232詞義標注對文本中的每個詞根據(jù)其所屬之上下文給出它的語義編碼指用非文字的東西來表示文字消息的內(nèi)容,用圖畫、樂譜等都可以進行語義編碼。詞典釋義文本中的某個「義項號」義類詞典中相映的「義類編碼」12/3/20233詞義排歧處理一詞多義現(xiàn)象例:大學(xué)是教育機構(gòu)是一本古書,博士既是官名,又是博學(xué)多才的人,又是師傅,還是一種學(xué)位的名稱。使用詞義標注文本可提高檢索時的查全率和查準率。有利於選擇可以恰當(dāng)表達語句中詞的目標詞,以提高翻譯的準確性。建立基於語義類的語言模型,為語音識別、手寫體識別和音字轉(zhuǎn)換提供幫助。12/3/20234詞義自動標注
(WordSenseTagging)也稱為詞義自動排歧(WordSenseDisambiguation)計算機運用邏輯運算與推理機制,對出現(xiàn)在一定上下文中詞語的語義進行正確的判斷,自動確定其正確的義項並加以標注的過程。多義詞排歧主要依據(jù)該多義詞出現(xiàn)的上下文,排歧的過程就是建立他們之間的聯(lián)繫過程,這種聯(lián)繫則是詞語間的語義聯(lián)繫。常見方法人工智能法、基於詞典的方法、基於語料庫的方法12/3/20235語言的編碼分為語音編碼和語義編碼兩大類語音編碼:用符號代表語音,一種語言區(qū)別於其他語言的根本區(qū)別就是其不同的語音音素編碼。就英語而言有英音,美音,澳音,新西蘭音等。語義編碼:是用符號代表語義,關(guān)注的是語言所能表達的意義,每種語言都有自己的語義系統(tǒng)。漢語和英語屬於不同的語系,前者屬於漢藏語系,後者屬於印歐語系。12/3/20236語言的編碼漢語語義編碼的基本符號是“字”
漢語的語義主要附著在“字”上。字義排歧是詞義標注之突破點。濃縮形音義,多為形聲字,表音亦表意,望文生義,如:吠。大量同音字、同音詞語,化成書面多可消除歧義。單字多義項者占53.6%(如「打」字之義項數(shù)為26);詞組/合成詞多義項者僅占0.46%。12/3/20237漢字字義組合結(jié)構(gòu)向心性字組Vs.離心性字組冰山,青山,火山,高山(核心字在後)Vs.山峰,山城,山溝,山村(核心字在前)並列字組Vs.主從字組關(guān)閉,左右,上下,陰陽(二字相同相近相反)Vs.火車,汽車,黑板,白版(前字從,後字主)合義(國+務(wù)→國務(wù))33%、加義(景+物→可供觀賞的景緻和事務(wù))56.7%、同義(聲+音→聲;音)、偏義(厚+度→厚≠度;容+易→易≠容)、轉(zhuǎn)義(目+光=眼睛+光線→見識)少量字義推大量詞義成為可能!12/3/20238基於字義排歧的模型資源:三臺機器+兩部詞典MRD-1讀入<現(xiàn)代漢語通用字典>MRD-2讀入<同義詞詞林>MTD由MDR-1透過機器自動生成以字義定詞義的語義標注方式準確率在80%以上遭遇困難處二字詞之多義詞排歧單字本身意義抽象、廣泛、模糊,成詞時描述也困難如何將詞義間之關(guān)係建構(gòu)成完整的意念表達仍須努力12/3/20239基於字義排歧的模型-MRD1說明MRD-1讀入<現(xiàn)代漢語通用辭典>,用來作為標注每個漢字的義項號?!按?da3)”在MRD-1中有25個義項,分別為打-B01:毆打,攻打;打-B02:用手或器具撞擊物體;打-B03:做,從事;打-B04:表示身體上的某些動作;……打-B25:器皿,蛋類因撞擊而破碎。“打(da2)”在MRD-1中記為打-A01:量詞,12個叫一打。12/3/202310基於字義排歧的模型-MRD2說明MRD-2讀入<同義詞詞林>,編排方式以詞義為主兼顧詞類詞,多義詞則分別收入不同詞群以12個語義場(人,物,時間,空間,抽象事物,性質(zhì),動作,心理,活動狀態(tài),關(guān)聯(lián),助詞)之不同層次與大小來分類。各語義場間互相有著同義(好看Vs.華麗)、反義(善良Vs.兇惡)、類義(大雨Vs.暴雨)、聯(lián)義(同情Vs.同情心;哭Vs.淚人兒)等語義關(guān)係。同一個語義場包含”1.同義;2.反義;3.類義”三種語義關(guān)係跨語義場就是聯(lián)義12/3/202311基於字義排歧的模型-MTD說明MTD由MDR-1透過機器自動生成詞組之義項代碼,如”打-B02鼓-A01”打-B01:毆打,攻打→打倒∣打擊∣打架∣…∣打手打-B02:用手或器具撞擊物體→打鼓∣打火∣…∣敲鑼打鼓鼓-A01:打擊樂器→鼓板∣鼓槌∣打鼓∣…∣重振旗鼓鼓-A02:發(fā)動,激起→鼓動∣鼓舞∣…∣鼓足幹勁12/3/202312自組織的漢語詞義排歧方法-步驟1以<現(xiàn)代漢語辭海>提供的搭配實例作為多義詞的初始搭配知識庫,無需人工標注初始語料,用適當(dāng)?shù)慕y(tǒng)計和自組織方法做訓(xùn)練並自動擴大搭配集。在初始搭配知識庫中,每個條目的包含訊息可描述為多義詞義項號搭配類別(L/R)搭配示例12/3/202313自組織的漢語詞義排歧方法-步驟2在學(xué)習(xí)過程中逐漸增大上下文窗口長度來保證高可靠性。選擇上下文的訊息時應(yīng)儘量選取與當(dāng)前詞存在語法有關(guān)係的那些詞,濾掉上下文中多數(shù)與其不存在語法關(guān)係的詞。在給定的多義詞上下文內(nèi),尋找與初始搭配庫匹配的搭配實例,若匹配成功則標上對應(yīng)的義項標記。初始標注時限定上下文窗口長度為2,表選擇該詞的前後兩個詞。12/3/202314自組織的漢語詞義排歧方法-步驟3透過建立搭配統(tǒng)計表來實現(xiàn)多元詞義歧義的排歧按一定原則從與料庫中取得排歧過程中需要的各種可能搭配和統(tǒng)計數(shù)據(jù)。每個條目包含的訊息可描述為:註:頻次表示在本次標注語料中該搭配出現(xiàn)的次數(shù)多義詞義項號搭配類別(L/R)頻次根據(jù)統(tǒng)計數(shù)據(jù)自動調(diào)整學(xué)習(xí)進度,逐漸增加上下窗口長度來學(xué)到儘可能多的搭配。12/3/202315結(jié)語任何詞義消歧系統(tǒng)都離不開詞義消歧時所用知識的資料源,詞義消
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 湖北省圓創(chuàng)教育教研中心2025屆高三三月聯(lián)合測評語文試題及答案
- 初級中學(xué)教師教學(xué)能力試題及答案
- 班級環(huán)境美化與維護計劃
- 生產(chǎn)任務(wù)調(diào)配計劃
- 市場定位與產(chǎn)品發(fā)展策略計劃
- 急診科心理干預(yù)措施研究計劃
- 班級家庭作業(yè)的優(yōu)化方案計劃
- 高中美術(shù)選修課開設(shè)策略計劃
- 四年級品德與社會下冊 第二單元 生產(chǎn)與生活 2 從電視機的變化說起教學(xué)設(shè)計 新人教版
- 全面掌握陪診師考試的試題及答案
- 7不甘屈辱 奮勇抗?fàn)?圓明園的訴說(教學(xué)設(shè)計)-部編版道德與法治五年級下冊
- GB/T 20424-2025重有色金屬精礦產(chǎn)品中有害元素的限量規(guī)范
- 2024年黑龍江省水利投資集團招聘筆試真題
- 2025年長沙軌道交通職業(yè)學(xué)院單招綜合素質(zhì)考試題庫完美版
- 2025美國急性冠脈綜合征(ACS)患者管理指南解讀課件
- 國家開放大學(xué)電大《國際私法》形考任務(wù)1-5題庫及答案
- 統(tǒng)編歷史七年級下冊(2024版)第7課-隋唐時期的科技與文化【課件】f
- 腦脊液檢查11課件
- 醫(yī)院股東章程范本
- 全國河大版(三起)小學(xué)信息技術(shù)第二冊第3單元第9課《我是小導(dǎo)游-調(diào)整幻燈片版式》教學(xué)設(shè)計
- 2025年江蘇省高職單招《職測》高頻必練考試題庫400題(含答案)
評論
0/150
提交評論