




已閱讀5頁(yè),還剩65頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
N N to of y e 2009 I 摘 要 基于規(guī)則的 口語(yǔ)對(duì)話系統(tǒng)中 的文法規(guī)則通常 由 領(lǐng)域?qū)<液陀?jì)算機(jī)語(yǔ)言學(xué)家 手工設(shè)計(jì), 需要 依賴(lài) 專(zhuān)家 的 專(zhuān)業(yè)知識(shí)和經(jīng)驗(yàn), 這對(duì)于普通開(kāi)發(fā)人員來(lái)說(shuō)是無(wú)法完成的。另外,手工設(shè)計(jì)的 文法移植性差, 根據(jù)某一領(lǐng)域 設(shè)計(jì) 的 文法規(guī)則 很難移植到其他領(lǐng)域繼續(xù)使用,同樣功能的 口語(yǔ) 對(duì)話系統(tǒng)對(duì)于不同領(lǐng)域都需要領(lǐng)域?qū)<抑匦略O(shè)計(jì) 文法規(guī)則 ,存在大量的重復(fù)勞動(dòng),造成巨大的人力和物力浪費(fèi) 。隨著社會(huì)需求的不斷增大,系統(tǒng)規(guī)??涨皵U(kuò)大, 文法規(guī)則 的獲取成了 口語(yǔ) 對(duì)話系統(tǒng)研發(fā)的主要瓶頸。 本文針對(duì)口語(yǔ)對(duì)話系統(tǒng)中語(yǔ)言的特點(diǎn),以一種上下文無(wú)關(guān)增強(qiáng)文法為對(duì)象, 對(duì) 口語(yǔ)對(duì)話系統(tǒng)中 文 法規(guī)則 的自動(dòng)獲取技術(shù)進(jìn)行了 研究 。 主要 工作包括: ( 1) 對(duì)比分析常見(jiàn) 形式文法的特點(diǎn)和性能,重點(diǎn)研究一種符合漢語(yǔ)口語(yǔ)特點(diǎn)的上下文無(wú)關(guān)增強(qiáng)文法, 根據(jù) 口語(yǔ)對(duì)話系統(tǒng)中語(yǔ)言的特點(diǎn), 選定該文法 為對(duì)象進(jìn)行 文法規(guī)則自動(dòng) 推導(dǎo) 技術(shù)的研究。 ( 2)提出一種基于句子分割 的 文法規(guī)則 自動(dòng)推導(dǎo)算法 。 基本思想是:用 初始 規(guī)則集對(duì)訓(xùn)練 例句 進(jìn)行分析, 若不能得到完整的語(yǔ)法樹(shù), 則 先對(duì)分析得到的片斷進(jìn)行消歧和歸一化,然后 根據(jù) 頂層 片斷 遞歸地 推導(dǎo)出缺少的 文法規(guī)則 ,并更新已有的規(guī)則集。 研究片斷 的 消歧 和 歸一化策略 ,為了提高算法性能,探討并給出一種算法的改進(jìn)方案 。 ( 3) 研究 面向領(lǐng)域任務(wù)的文法測(cè)評(píng)方法,給出 一套靈活 的 、可 領(lǐng)域 定制的文法評(píng)測(cè)方法。使用該方法 在天氣預(yù)報(bào)查詢(xún)領(lǐng)域 對(duì)算法的輸出文法進(jìn)行評(píng)測(cè),結(jié)果 顯示, 輸出文法 的句法分析準(zhǔn)確率在初始規(guī)則集為空時(shí)達(dá)到了 在初始規(guī)則集只包含日期相關(guān)規(guī)則時(shí)達(dá)到了 關(guān)鍵詞: 口語(yǔ) 對(duì) 話系統(tǒng) , 上下文無(wú)關(guān)增強(qiáng)文法 , 文法推導(dǎo) , 文法 評(píng)測(cè) to in is by on so it is to is is a is to to So it is to of of it a a to a of as 1. of a of it as to DS to 2. A on is in is to an If is to is of in In to of is s is 3. in a of be to of in in of of an an 目 錄 摘 要 . I . 錄 . V 第一章 緒論 . 1 究背景 . 1 究現(xiàn)狀 . 2 話系統(tǒng) 研究現(xiàn)狀 . 2 法規(guī)則自動(dòng)推導(dǎo)算法研究現(xiàn)狀 . 5 法性能的評(píng)測(cè) . 7 究的主要內(nèi)容及創(chuàng)新點(diǎn) . 7 究的主要內(nèi)容 . 7 究的創(chuàng)新點(diǎn) . 8 文的組織 . 8 第二章 文法的基本概念及常見(jiàn)類(lèi)型分析 . 9 法的基本概念 . 9 法及語(yǔ)言的定義 . 9 法的作用 . 10 法的評(píng)價(jià)原則 . 11 法體系 . 11 法分類(lèi) . 11 型文法的特點(diǎn) . 12 法分析器 . 13 下文無(wú)關(guān)增強(qiáng)文法 . 16 法的形式化定義 . 16 強(qiáng)屬性的歸納及規(guī)則類(lèi)型的定義 . 17 義文法 . 19 強(qiáng)的文法分析器 . 20 章小結(jié) . 22 第三章 文法規(guī)則自動(dòng)推導(dǎo)算法 . 25 語(yǔ)口語(yǔ)對(duì)話系統(tǒng)中語(yǔ)言的特點(diǎn) . 25 語(yǔ)的特點(diǎn) . 25 語(yǔ)的特點(diǎn) . 26 音識(shí)別器導(dǎo)致的問(wèn)題 . 26 節(jié)小結(jié) . 27 法的推導(dǎo)對(duì)象 . 27 于句子分割的文法規(guī)則自動(dòng)推導(dǎo)算法 . 27 法基本原理 . 27 關(guān)術(shù)語(yǔ)定義 . 29 法推導(dǎo)算法 . 30 同的推導(dǎo)策略 . 31 義片斷的消除與歸一化 . 33 法流程的改進(jìn) . 34 章小結(jié) . 36 第四章 算法評(píng)測(cè)與分析 . 37 測(cè) 指標(biāo)的定義 . 37 驗(yàn)領(lǐng)域及步驟 . 38 驗(yàn)領(lǐng)域 . 38 驗(yàn)數(shù)據(jù) . 38 驗(yàn)步驟安排 . 39 驗(yàn)結(jié)果及分析 . 40 法性能的評(píng)測(cè) . 40 法復(fù)雜程度的評(píng)測(cè) . 41 始規(guī)則集對(duì)文法影響的評(píng)測(cè) . 42 左部?jī)?yōu)先 ”策略與 “右部?jī)?yōu)先 ”策略對(duì)比 . 43 自頂向下 ”策略與 “自底向上 ”策略對(duì)比 . 43 法改進(jìn)前后效果對(duì)比 . 44 章小結(jié) . 45 第五章 總結(jié)與展望 . 47 文工作總結(jié) . 47 關(guān)問(wèn)題討論 . 47 來(lái)的研究方向 . 48 參考文獻(xiàn) . 49 附錄 A 預(yù)定義的天氣預(yù)報(bào)領(lǐng)域關(guān)鍵詞表 . 53 附錄 B 包含日期相關(guān)規(guī)則的初始規(guī)則集 . 55 附錄 C 算法輸出的文法規(guī)則 . 57 致 謝 . 59 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄 . 61 獨(dú) 創(chuàng) 性 聲 明 . 63 關(guān)于論文使用授權(quán)的說(shuō)明 . 63 第一章 緒論 1 第一章 緒論 究背景 在語(yǔ)音信號(hào)處理、語(yǔ)音識(shí)別、語(yǔ)音合成及語(yǔ)言理解各項(xiàng)技術(shù)迅猛發(fā)展的今天, 口語(yǔ)對(duì)話系統(tǒng) (有很高的研究?jī)r(jià)值,其應(yīng)用也必將帶來(lái)很好的社會(huì)、經(jīng)濟(jì)效益。目前一批研究 成果 或?qū)嶋H系統(tǒng)已經(jīng)出現(xiàn),常見(jiàn)的比如旅游信息查詢(xún)、電話客票服務(wù)和天氣預(yù)報(bào)信息查詢(xún)等。構(gòu)建一個(gè)完善的對(duì)話系統(tǒng),需要應(yīng)用語(yǔ)音信號(hào)處理、語(yǔ)音識(shí)別、語(yǔ)言理解、知識(shí)表示、對(duì)話管理和文語(yǔ)轉(zhuǎn)換等多項(xiàng)技術(shù)。與其它語(yǔ)音系統(tǒng) 相比,對(duì)話系統(tǒng)面 臨 以下幾個(gè) 主要問(wèn)題: ( 1) 語(yǔ)音的口語(yǔ)性與 自發(fā)性 (在語(yǔ)音命令系統(tǒng)中,語(yǔ)音可以是孤立詞;在聽(tīng)寫(xiě)機(jī)系統(tǒng)中,語(yǔ)音一般是書(shū)面語(yǔ),要求發(fā)音比較規(guī)范;而在對(duì)話系統(tǒng)中,語(yǔ)音是 (或 者十分接近 )人們?nèi)粘?生活中的口語(yǔ), 允 許比較隨意的發(fā)音。自發(fā)語(yǔ)音中包括不流利、不合語(yǔ)法、修改及內(nèi)容不完整等口語(yǔ)現(xiàn)象,這給聲學(xué)識(shí)別和語(yǔ)義分析帶來(lái)挑戰(zhàn)。 ( 2) 語(yǔ)義分析的必要性。語(yǔ)音命令系統(tǒng)中,詞表和用戶(hù)意圖 (s 以是簡(jiǎn)單的一一對(duì)應(yīng)關(guān)系;而在對(duì)話系統(tǒng)中,用戶(hù)意圖往往必須用語(yǔ)義網(wǎng)絡(luò)等更加復(fù)雜的方法來(lái)表示。此時(shí),語(yǔ)義框架和語(yǔ)義分析模塊的設(shè)計(jì)就成為必然。 ( 3) 用戶(hù)主導(dǎo) (系統(tǒng)主導(dǎo) (混合主導(dǎo)(關(guān)系 處理問(wèn)題 。根據(jù)應(yīng)用環(huán)境的不同,以及用戶(hù)之間的差異,系統(tǒng)在對(duì)話過(guò)程中可以呈現(xiàn)出三種不同的主導(dǎo)方式 ; a)用戶(hù)向系統(tǒng)主動(dòng)提問(wèn)或提供信息(用戶(hù)主導(dǎo) ); b)系統(tǒng)向用戶(hù)提問(wèn) (系統(tǒng)主導(dǎo) ); c)一般情況下采取用戶(hù)主導(dǎo),在需要時(shí)切換到系統(tǒng)主導(dǎo) (混合主導(dǎo) )。 針對(duì)以上問(wèn)題 , 清華大學(xué)的燕鵬舉提出一種基于語(yǔ)義類(lèi)的上下文無(wú)關(guān)增強(qiáng)文法及相應(yīng)的語(yǔ)義分析方法 1, 較好地處理對(duì)話系統(tǒng)中常見(jiàn)的口語(yǔ)表達(dá)問(wèn)題。 然而 口語(yǔ)對(duì)話系統(tǒng)中 文法規(guī)則 的獲取 卻面臨著以下問(wèn)題: ( 1) 需要依賴(lài)領(lǐng)域?qū)<液陀?jì)算機(jī)語(yǔ)言學(xué)家專(zhuān)業(yè)的知識(shí)和經(jīng)驗(yàn), 這 對(duì)于普通開(kāi) 發(fā)人員來(lái)說(shuō)是無(wú)法完成的 。 ( 2) 文法規(guī)則 的獲取目前主要采用 手工方式進(jìn)行,是一個(gè)相當(dāng)繁瑣的過(guò)程。 ( 3) 文法移植性差。 根據(jù)某一領(lǐng)域獲取的 文法規(guī)則 很難移植到其他領(lǐng)域繼續(xù)使用,口語(yǔ)對(duì)話系統(tǒng)中句法規(guī)則自動(dòng)推導(dǎo)研究 2 同樣功能的對(duì)話系統(tǒng)對(duì)于不同領(lǐng)域都需要領(lǐng)域?qū)<抑匦略O(shè)計(jì) 文法規(guī)則 。 隨著社會(huì)需求的不斷增大 ,系統(tǒng)規(guī)??涨皵U(kuò)大, 文法規(guī)則 的獲取成了 對(duì)話 系統(tǒng)研發(fā)的主要瓶頸。 針對(duì)該瓶頸,在 深入分析 對(duì)比 國(guó)內(nèi)外 文法規(guī)則 自動(dòng)推導(dǎo) 方法 的基礎(chǔ)上, 研究漢語(yǔ)口語(yǔ)對(duì)話系統(tǒng)中 文法規(guī)則 的自動(dòng)推導(dǎo)技術(shù), 探索 一種符合漢語(yǔ)口語(yǔ)特點(diǎn)的 文法規(guī)則 自動(dòng)推導(dǎo)算法, 及 一套面向領(lǐng)域任務(wù)的文法性能評(píng)測(cè)指標(biāo) , 使 開(kāi)發(fā)人員從專(zhuān)業(yè) 且繁瑣的手工勞動(dòng)中解脫出來(lái),提高對(duì)話系統(tǒng)研發(fā)效率,降低研發(fā)成本,具有很好的理論及應(yīng)用價(jià)值。 究現(xiàn)狀 話系統(tǒng)研究現(xiàn)狀 對(duì)話系統(tǒng),可以簡(jiǎn)單地定義為:以語(yǔ)音為輸入輸出接口,通過(guò)與用戶(hù)進(jìn)行交談,實(shí)現(xiàn)自動(dòng)信息(或其它)服務(wù)的系統(tǒng)。對(duì)話系統(tǒng)結(jié)構(gòu) ( 圖 1 含四個(gè)主要功能部件,即語(yǔ)音識(shí)別器、語(yǔ)言理解器、對(duì)話管理器和語(yǔ)音合成器。目前,語(yǔ)音合成的研究已經(jīng)比較成熟,其主要挑戰(zhàn)在于 如何 使生成的語(yǔ)音 更加自然與生動(dòng)。 一般而言,對(duì)話系統(tǒng)目標(biāo)的 實(shí)現(xiàn) 對(duì) 于 語(yǔ)音合成自然度的依賴(lài)不是必須的,而語(yǔ)音識(shí)別 、語(yǔ)言理解和對(duì)話管理是對(duì)話系統(tǒng)研究人員所所關(guān)注的焦點(diǎn)。 語(yǔ)音識(shí)別的目的是把人的語(yǔ)音轉(zhuǎn)換成文字,這是許多語(yǔ)音系統(tǒng)的核心與主軸,比如聽(tīng)寫(xiě)機(jī)、語(yǔ)音命令系統(tǒng)和對(duì)話系統(tǒng)。 與 其它系統(tǒng)不同的是,對(duì)話系統(tǒng)中的語(yǔ)音識(shí)別 的 輸出要付諸于語(yǔ)言理解,因此識(shí)別錯(cuò)誤對(duì)語(yǔ)言理解的干擾是系統(tǒng) 必須 考慮的。語(yǔ)言理解得到語(yǔ)義表示后,對(duì)話管理要根據(jù)上下文語(yǔ)境、歷史信息等,進(jìn)行綜合分析,以確定用戶(hù)的意圖,根據(jù)需要查詢(xún)后臺(tái)數(shù)據(jù)庫(kù),并組織應(yīng)答語(yǔ)句等??梢钥闯觯瑢?duì)話系統(tǒng)中這幾個(gè)核心部件的關(guān)系比較緊密。 第一章 緒論 3 聲學(xué)模型 對(duì)話模型 領(lǐng)域知識(shí) 語(yǔ)言模型 句法 / 語(yǔ)義規(guī)則 語(yǔ)音 識(shí)別器 語(yǔ)言 理解器 對(duì)話 管理器 識(shí)別器 語(yǔ)音 合成器 語(yǔ)音 詞網(wǎng)格 語(yǔ)義框架 應(yīng)答文本 語(yǔ)音 圖 1話系統(tǒng)模型略圖 對(duì)話 系統(tǒng)的運(yùn)行往往還依賴(lài)于一些模型或數(shù)據(jù)庫(kù),比如是聲學(xué)模型、語(yǔ)言模型、句法 /語(yǔ)義規(guī)則、領(lǐng)域 (識(shí)、對(duì)話模型和領(lǐng)域數(shù)據(jù)庫(kù)等。本節(jié)將對(duì)對(duì)話系統(tǒng)當(dāng)前的研究現(xiàn)狀做簡(jiǎn)要綜述。 根據(jù)不同的應(yīng)用,對(duì)話系統(tǒng)可以構(gòu)建于不同的平臺(tái),有著不同的表現(xiàn)形式: 嵌入式平臺(tái): 人 2設(shè)計(jì)了一個(gè)基于 嵌入式電子表格系統(tǒng)。該系統(tǒng)采用人機(jī)對(duì)話的方式進(jìn)行電子表格的自動(dòng)設(shè)計(jì)與填充。與使用鼠標(biāo)鍵盤(pán)的手工輸入方式和簡(jiǎn)單屏蔽鼠標(biāo)鍵盤(pán)的語(yǔ)音命令方式 相比,語(yǔ)音對(duì)話的方式提高了效率,而且使用戶(hù)更加輕松。 臺(tái): 設(shè)計(jì)了一個(gè)用于在 頁(yè)上填充表格的語(yǔ)音軟件。該軟件使用 為用戶(hù)接口,采用名為 語(yǔ)音識(shí)別器和基于框架的語(yǔ)義分析器,以 序的方式處理語(yǔ)音輸入輸出。 為,這種基于表格的語(yǔ)音接口是探索分布式自然語(yǔ)言系統(tǒng)的重要一步。 機(jī)器人平臺(tái): 是一個(gè)可移動(dòng)的辦公室機(jī)器人,能通過(guò)語(yǔ)音對(duì)話的方式,完成人員查詢(xún)、引路、接通特定人電話、給特定人發(fā)電子郵件等任務(wù)。這類(lèi)機(jī)器人平 臺(tái)的系統(tǒng)面臨的主要問(wèn)題是實(shí)際使用環(huán)境中的噪音,以及系統(tǒng)響應(yīng)的實(shí)時(shí)性。 電話平臺(tái): 隨著大量公有信息的出現(xiàn)(訂票、信息查詢(xún)等)以及電話的普及,基于電話的對(duì)話系統(tǒng)越來(lái)越多。歐洲的 劃 5下有法語(yǔ)、荷蘭語(yǔ)、意大利語(yǔ)等若干系統(tǒng), 研究人員對(duì)各系統(tǒng)進(jìn)行了橫向比較,有助于找到不同方法的優(yōu)缺點(diǎn)和提高研究水平?;陔娫捚脚_(tái)的系統(tǒng)應(yīng)用前景廣闊,有很好的社會(huì)效益和經(jīng)濟(jì)效益,其技術(shù)挑口語(yǔ)對(duì)話系統(tǒng)中句法規(guī)則自動(dòng)推導(dǎo)研究 4 戰(zhàn)主要在于電話信道的窄帶特性、信道之間的差異,以及現(xiàn)實(shí)生活中的噪音問(wèn)題。 以下是國(guó)內(nèi)外一些對(duì)話系統(tǒng)的簡(jiǎn)介。 ( 1) 麻省理工學(xué)院的 統(tǒng) 6。這是一個(gè)通過(guò)口語(yǔ)對(duì)話獲取旅游信息的系統(tǒng),有大約 1500 個(gè)詞的詞匯量,能夠提供大約 750 個(gè)城市的天氣預(yù)報(bào)和大約 250 個(gè)城市的航班情況。它的語(yǔ)音識(shí)別器 用基于分段( 識(shí)別方法,建立了 型,詞識(shí)別率為 它直接采用了另一個(gè)對(duì)話系統(tǒng) 的自然語(yǔ)言理解模塊,用語(yǔ)義框架的結(jié)構(gòu)來(lái)描述語(yǔ)義;自然語(yǔ)言生成為 音合成采用 硬件和軟件。該系統(tǒng)的第二代 采用了系結(jié)構(gòu),成為美國(guó) 第一個(gè)參考體系結(jié)構(gòu)。 統(tǒng)作為發(fā)展人類(lèi)語(yǔ)言技術(shù)的試驗(yàn)平臺(tái),在其基礎(chǔ)上,已經(jīng)開(kāi)發(fā)了許多不同領(lǐng)域、不同語(yǔ)言的系統(tǒng),如電話天氣預(yù)報(bào)查詢(xún)系統(tǒng) 1,航班訂票系統(tǒng)2。 ( 2) 德國(guó)的 統(tǒng)。這個(gè)對(duì)話系統(tǒng)用于會(huì)議的安排,可以識(shí)別并翻譯大量的不同口語(yǔ)表達(dá)。它通過(guò)一個(gè)動(dòng)態(tài)建立的上下文模型和一個(gè)建立在語(yǔ)料庫(kù)之上的隨機(jī)模型,可以預(yù)測(cè)對(duì)話某一點(diǎn)的下一句將會(huì)是什么。 ( 3) 由英德法意等國(guó)共同開(kāi)發(fā)的 統(tǒng) 13。這是一個(gè)提供航班和火車(chē)時(shí)刻信息的電話口語(yǔ)對(duì)話系統(tǒng)。它的詞匯量為 1000 詞左右,是非特定人的系統(tǒng),而且具有很好的對(duì)話管理功能,通過(guò)電話進(jìn)行的對(duì)話成功率達(dá)到 96%。 ( 4) 中國(guó)科學(xué)院自動(dòng)化所模式識(shí)別國(guó)家實(shí)驗(yàn)室的 統(tǒng) 14。該系統(tǒng)向用戶(hù)提供旅游信息,并且可以根據(jù)用戶(hù)的要求計(jì)劃旅游路線。它采用了大詞表連續(xù)語(yǔ)音識(shí)別的技術(shù),識(shí)別結(jié)果經(jīng)過(guò)語(yǔ)義項(xiàng)的匹配得到有關(guān)的語(yǔ)義概念。它實(shí)現(xiàn)了對(duì)話的人機(jī)混合主導(dǎo),基于模板生成系統(tǒng)應(yīng)答,整個(gè)系統(tǒng)的應(yīng)答準(zhǔn)確率達(dá)到了 ( 5) 清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室語(yǔ)音技術(shù)中心的 統(tǒng) 15。該系統(tǒng)向用戶(hù)提供友好的清華大學(xué)校園導(dǎo)游服務(wù),包括校園內(nèi)的建筑物信息和交通信息。它考慮了口語(yǔ)中的省略指代現(xiàn)象 , 能處理上下文相關(guān)的對(duì)話。當(dāng)信息查詢(xún)結(jié)果為空時(shí),該系統(tǒng)還會(huì)主動(dòng)放寬某些約束條件,提供用戶(hù)可能關(guān)心的信息。 總之, 基于規(guī)則的 口語(yǔ)對(duì)話系統(tǒng)得到了 學(xué) 術(shù) 界的認(rèn)同,并獲得了很大的發(fā)展。雖然近年來(lái)也出現(xiàn)了基于統(tǒng)計(jì)的方法,但鑒于自然語(yǔ)言深層結(jié)構(gòu) 的 規(guī)律性,規(guī)則方法有 著 統(tǒng)計(jì)方法不可替代的優(yōu)勢(shì)。 眾所周知,基于規(guī)則的口語(yǔ)對(duì)話系統(tǒng)中 文 法規(guī)則 的獲取是系統(tǒng)第一章 緒論 5 研發(fā)的主要瓶頸。 如何突破該瓶頸,提高系統(tǒng)研發(fā)效率,降低研發(fā)成本是口語(yǔ)對(duì)話系統(tǒng)研發(fā) 中 一個(gè) 亟待解決的問(wèn)題。這正是 本文 工作 的意義所在。 法規(guī)則 自動(dòng)推導(dǎo) 算法 研究現(xiàn)狀 ( 1)有指導(dǎo)的學(xué)習(xí)方法 指 從給定的樹(shù)庫(kù) (具有句法結(jié)構(gòu)的語(yǔ)料庫(kù)) 中推導(dǎo)出句法結(jié)構(gòu)知識(shí) (或文法 )的方法?;谧儞Q的錯(cuò)誤驅(qū)動(dòng)方法 16、 法 17和 清華大學(xué)的苑春法、陳剛等提出的基于詞性和語(yǔ)義知識(shí)的漢語(yǔ) 文法規(guī)則 學(xué)習(xí)方法 18都屬于這類(lèi)方法 。 ( 2)無(wú)指導(dǎo)的學(xué)習(xí)方法 指 直接基于原始或者初級(jí)加工的句子 , 不使用人工加工后的結(jié)構(gòu)信息或結(jié)構(gòu)規(guī)則 推導(dǎo) 文法規(guī)則 。 這種方法 可 分成兩類(lèi) : a) 基于壓縮的方法 。 壓縮方法實(shí)際上是提取 “ 公因子 ” , 將多次出現(xiàn)的多詞詞串代之以 “ 成分 (或稱(chēng)為非終結(jié)符 )” 。 比較典型的有 最小描述長(zhǎng)度 (法19和 最小長(zhǎng)度編碼 (法 20。 但已有的研究表明 , 單純的壓縮方法在文法推導(dǎo)中并不能達(dá)到很好的效果 。 一個(gè)直接的原因是 , 貌似 “ 公因子 ” 的詞串 , 實(shí)際上并不一定能夠抽象為成分 。 b) 基于分布的方法 。 按照 語(yǔ)言學(xué) 家的基本思想 , 當(dāng)兩個(gè)不同的詞串所在的上下文具有一致的分布特點(diǎn)時(shí) , 它們很可能就具有了可替換的特點(diǎn) 。 此時(shí) , 可以將兩個(gè)不同的詞串用一個(gè)非終結(jié)符表示 。 分布方法可以分為局部分布和全局分布兩種 : 局部分布只考慮某個(gè)詞序列前后相鄰的詞的特征 。 如 學(xué) 工作 21 他們以句子的詞性標(biāo)注序列作為輸入 , 通過(guò)對(duì)詞性 (序列 )的上下文 (主要是相鄰的詞 )信息來(lái)判斷兩個(gè)詞是否有相似 。 他們研究了依存結(jié)構(gòu)和成分結(jié)構(gòu)樹(shù)的推導(dǎo) , 分別對(duì)英語(yǔ)、德語(yǔ)和漢語(yǔ)進(jìn)行了測(cè)試 。 英國(guó) 學(xué)的 到了 與此類(lèi)似的思想 23,在帶有詞性標(biāo)注的語(yǔ)料基礎(chǔ)上 , 根據(jù)詞性的上下文分布將其聚類(lèi)為非終結(jié)符 , 推導(dǎo) 文法規(guī)則 。 處理過(guò)程中結(jié)合了 法 。 他們的方法對(duì)英語(yǔ)測(cè)試也取得了較好的結(jié)果 。 局部分布的最大特點(diǎn)是只考慮前后相鄰的信息 , 在語(yǔ)料庫(kù)不是非常龐大時(shí)比較適用 ;但在一個(gè)較小的窗口內(nèi) , 所得到的信息畢竟不夠充分 。 例如 , 在英文中 , “介詞 )+詞 )+詞 )” 的模式 , 很可能將 T 歸約一個(gè)結(jié)構(gòu) (互信息值可能更大 ),而實(shí)際情況應(yīng)該是由 N 先結(jié)合 。 擴(kuò)大詞的左右窗口范圍 , 在一定程度上可以避免這口語(yǔ)對(duì)話系統(tǒng)中句法規(guī)則自動(dòng)推導(dǎo)研究 6 一問(wèn) 題 , 在極端情況下 , 可以將范圍擴(kuò)展到整個(gè)句子 。 荷蘭 學(xué)的 統(tǒng) 24和英國(guó) 學(xué) 基于對(duì)齊的學(xué)習(xí)都是以整個(gè)句子作為考察對(duì)象的 25 基本思想是將一個(gè)句子看成 3 部分 : cl+e+ e 的左部 , e 的右部 , 稱(chēng)為 e 的上下文 。 對(duì)于一個(gè)句子 , e 可以取其中的任何詞串 , 剩下的部分就形成其上下文 。 在文法推導(dǎo)時(shí) , 從句子庫(kù)中抽取所有可能的模式 , 然后再進(jìn)行聚類(lèi) 。而 思想與 學(xué)的 人在翻譯模板提 取中的思想有很大的相似性 27, 都通過(guò)多個(gè)相同片段和不同片斷交錯(cuò)對(duì)齊的基本方法 , 只是 一步推導(dǎo)出了句子的層次結(jié)構(gòu) 。 究了英語(yǔ)句子結(jié)構(gòu)的推導(dǎo) , 在結(jié)構(gòu)推導(dǎo)中 , 不對(duì)英語(yǔ)句子作任何其他預(yù)處理 ( 如詞性標(biāo)注 ) 。 這種思想雖然易于實(shí)現(xiàn) , 但如果詞的詞性兼類(lèi)現(xiàn)象比較嚴(yán)重 , 而訓(xùn)練語(yǔ)料又不足夠大 , 即使是找到了對(duì)齊 , 也不一定能保證是正確的對(duì)齊 。 如果事先對(duì)句子作適當(dāng)?shù)念A(yù)加工 (如詞性標(biāo)注和簡(jiǎn)單的語(yǔ)義歸類(lèi) ), 并加入一定的對(duì)齊約束 (如詞性約束 ), 則是可以減少明顯不合理推導(dǎo)現(xiàn)象發(fā)生的 。 c) 一些新的思路。 學(xué)的 用 一種新的思路 ,先構(gòu)造正例集和反例集,在已有的小 規(guī)模 初始規(guī)則 集 上,用分析算法分析正例,添加新的規(guī)則 , 分析反例,抑制不合理的規(guī)則 28香港中文大學(xué)的 借鑒了語(yǔ)音識(shí)別中語(yǔ)言建模的思想,用統(tǒng)計(jì)的方法對(duì)訓(xùn)練語(yǔ)料中的詞和句法結(jié)構(gòu)進(jìn)行聚類(lèi),若干次迭代后得到初步的上下文無(wú)關(guān)文法,再人工用語(yǔ)義標(biāo)記代替文法中隨機(jī)的類(lèi)別標(biāo)記 30。 清華大學(xué) 的劉智博提出了一種基于主題的方法 31:首先把領(lǐng)域知識(shí)劃分為若干個(gè)主題,表達(dá)相同語(yǔ)義的不同句子屬于同一個(gè)主題。算法根據(jù)預(yù) 先定義好的關(guān)鍵詞表,把某一個(gè)主題下可能的用戶(hù)查詢(xún)例句轉(zhuǎn)化為由語(yǔ)義關(guān)鍵詞類(lèi)表示的模板,應(yīng)用于相應(yīng)的主題。這種方法得到是單句模板,而且算法需要先由人工將例句劃分為不同的主題,然后才能對(duì)不同的主題分別進(jìn)行處理。 d) 有關(guān)漢語(yǔ)的方法 。 漢語(yǔ)與西文有著不同的語(yǔ)言特點(diǎn),處理方法也存在著較大的差異,隨著漢語(yǔ)熱的興起,針對(duì)漢語(yǔ)的 文法規(guī)則 自動(dòng)學(xué)習(xí)研究開(kāi)始逐漸受到學(xué)術(shù)界的重視,主要的研究有: 北京大學(xué)的王厚峰 和 王波設(shè)計(jì)了基于句子對(duì)齊的漢語(yǔ)句法結(jié)構(gòu)推導(dǎo)的計(jì)算模型 32。 清華大學(xué)的周強(qiáng) 、黃昌寧兩位 教授提出了基于元規(guī)則的漢語(yǔ) 文法規(guī)則 的自動(dòng)構(gòu)造方法 33。 綜合國(guó)內(nèi)外 文法規(guī)則 自動(dòng)推導(dǎo)的研究,我們可以發(fā)現(xiàn),大部分工作以理論研究與探討為目的,針對(duì)口語(yǔ)對(duì)話系統(tǒng) 的、 符合口語(yǔ)對(duì)話系統(tǒng)中語(yǔ)言特點(diǎn)的研究并不多見(jiàn)。因此第一章 緒論 7 本文工作不僅具有很好的應(yīng)用 價(jià)值 , 而且 具有一定的理論 意義 。 法性能的評(píng)測(cè) 通過(guò) 分析對(duì)比國(guó)內(nèi)外相關(guān)研究 中文法評(píng)測(cè)方法,可以看到,學(xué)術(shù)界主要 考查文法的復(fù)雜程度(生成的規(guī)則數(shù)目及新添加的非終結(jié)符數(shù)目)和算法的時(shí)間消耗 34香港中文大學(xué)的 常用文法的 基礎(chǔ)上,結(jié)合自身算法特點(diǎn)評(píng)測(cè)了參數(shù)的不同取值對(duì)最終生成 的文法的影響 30。北大計(jì)算語(yǔ)言學(xué)研究所的王厚峰在評(píng)測(cè)中將自動(dòng)推導(dǎo)的文法與手工標(biāo)注的 文法相比較, 使用 文法的 準(zhǔn)確率、召回率、 F 值,對(duì) 評(píng)測(cè)算法輸出的 文法規(guī)則 32。 綜觀這些研究,還沒(méi)有一套針對(duì)領(lǐng)域任務(wù)需求的文法評(píng)測(cè)方法。 究的主要內(nèi)容及創(chuàng)新點(diǎn) 究 的主要內(nèi)容 口語(yǔ)對(duì)話系統(tǒng)中 文法規(guī)則 的獲取 面臨著幾個(gè)主要問(wèn)題:一是 需要依賴(lài)領(lǐng)域?qū)<液陀?jì)算機(jī)語(yǔ)言學(xué)家專(zhuān)業(yè)的知識(shí)和經(jīng)驗(yàn),對(duì)于普通開(kāi)發(fā)人員來(lái)說(shuō)是無(wú)法完成的; 二是 采用手工方式進(jìn)行,是一個(gè)相當(dāng)繁瑣的過(guò)程; 三是 文 法移植性差, 根據(jù)某一領(lǐng)域獲取的 文法規(guī)則很難移 植到其他領(lǐng)域繼續(xù)使用,同樣功能的對(duì)話系統(tǒng)對(duì)于不同領(lǐng)域都需要領(lǐng)域?qū)<抑匦略O(shè)計(jì) 文法規(guī)則 。隨著社會(huì)需求的不斷增大,系統(tǒng)規(guī)??涨皵U(kuò)大, 文法規(guī)則 的獲取成了對(duì)話系統(tǒng)研發(fā)的主要瓶頸。 針對(duì)口語(yǔ)對(duì)話系統(tǒng)中 文法規(guī)則 的獲取,研究符合漢語(yǔ)口語(yǔ)特點(diǎn)的 文法規(guī)則 自動(dòng)推導(dǎo)技術(shù), 研究 內(nèi)容如下: ( 1) 文法 的 基本概念 ,包括文法 及語(yǔ)言 的定義 、常見(jiàn)的文法分析算 法 , 分析幾種常見(jiàn)文法的特點(diǎn)及優(yōu)劣 ; 重點(diǎn)研究一種針漢語(yǔ)口語(yǔ)特點(diǎn)的上下文無(wú)關(guān)增強(qiáng)文法, 主要 包括 增強(qiáng)屬性的歸納、增強(qiáng)規(guī)則類(lèi)型形式化定義及增強(qiáng)文法分析算法 。 ( 2) 根據(jù) 漢語(yǔ)口語(yǔ)的特點(diǎn), 以 一種符合漢 語(yǔ)口語(yǔ)特點(diǎn)的 上下文無(wú)關(guān)增強(qiáng)文法為對(duì)象,研究口語(yǔ)對(duì)話系統(tǒng)中 文法規(guī)則 的自動(dòng)推導(dǎo)算法 。 提出一種基于句子分割的 文法規(guī)則自動(dòng) 推導(dǎo) 算法 ,給出 算法 的形式化描述 、 具體步驟、片斷的 消歧和歸一化方法
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 并購(gòu)審計(jì)師非常規(guī)選擇的成因及后果研究
- 荒山荒坡旅游開(kāi)發(fā)與資源利用承包合同
- 質(zhì)押擔(dān)保解除與恢復(fù)合同
- 高速液環(huán)泵內(nèi)流場(chǎng)及性能優(yōu)化分析
- 互聯(lián)網(wǎng)平臺(tái)網(wǎng)絡(luò)直播帶貨全鏈路供應(yīng)鏈優(yōu)化合作協(xié)議
- 汽車(chē)配件銷(xiāo)售售后服務(wù)補(bǔ)充協(xié)議
- 基于數(shù)值風(fēng)洞實(shí)驗(yàn)的柔性草甸陣列流場(chǎng)特性及防風(fēng)效果評(píng)價(jià)
- 陽(yáng)臺(tái)墊層施工方案
- 排水修復(fù)施工方案
- 2025年六年級(jí)社會(huì)實(shí)踐活動(dòng)計(jì)劃
- 2024-2030年新版中國(guó)鋁鈧合金項(xiàng)目可行性研究報(bào)告(甲級(jí)資質(zhì))
- 活動(dòng)板房制作安裝施工合同
- 《基于SIP協(xié)議的IP呼叫中心控制器設(shè)計(jì)與實(shí)現(xiàn)》
- 礦業(yè)權(quán)評(píng)估準(zhǔn)則全
- 金庸人物課件
- 2024年合肥市網(wǎng)約配送員技能競(jìng)賽理論考試題庫(kù)(含答案)
- 【淺談勞動(dòng)合同法中的試用期制度7500字(論文)】
- 2024中國(guó)企業(yè)海外知識(shí)產(chǎn)權(quán)糾紛調(diào)查
- 大學(xué)體育與健康智慧樹(shù)知到期末考試答案章節(jié)答案2024年齊魯師范學(xué)院
- 2023-2024學(xué)年浙江省紹興市上虞市重點(diǎn)中學(xué)小升初數(shù)學(xué)入學(xué)考試卷含解析
- 小區(qū)消防移交物業(yè)協(xié)議書(shū)
評(píng)論
0/150
提交評(píng)論