語(yǔ)音合成系統(tǒng)的關(guān)鍵技術(shù)_第1頁(yè)
語(yǔ)音合成系統(tǒng)的關(guān)鍵技術(shù)_第2頁(yè)
語(yǔ)音合成系統(tǒng)的關(guān)鍵技術(shù)_第3頁(yè)
語(yǔ)音合成系統(tǒng)的關(guān)鍵技術(shù)_第4頁(yè)
語(yǔ)音合成系統(tǒng)的關(guān)鍵技術(shù)_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、文檔供參考,可復(fù)制、編制,期待您的好評(píng)與關(guān)注! 語(yǔ)音合成系統(tǒng)的關(guān)鍵技術(shù)清華大學(xué)計(jì)算機(jī)系智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室 陶建華 蔡蓮紅- 計(jì) 算 機(jī) 語(yǔ) 音 合 成 系 統(tǒng) 又 稱(chēng) 文 語(yǔ) 轉(zhuǎn) 換 系 統(tǒng)(TTS 系 統(tǒng)), 它 的 主 要 功 能 是 將 計(jì) 算 機(jī) 中 任 意 出 現(xiàn) 的 文 字 轉(zhuǎn) 換 成 自 然 流 暢 的 語(yǔ) 音 輸 出。 一 般 認(rèn) 為, 語(yǔ) 音 合 成 系 統(tǒng) 包 括 三 個(gè) 主 要 的 組 成 部 分: 文 本 分 析 模 塊、 韻 律 生 成 模 塊 和 聲 學(xué) 模 塊。文 本 分 析-語(yǔ) 音 合 成 系 統(tǒng) 首 先 處 理 的 是 文 字,

2、也 就 是 它 要 說(shuō) 的 內(nèi) 容。 文 本 分 析 的 主 要 功 能 是 使 計(jì) 算 機(jī) 能 從 這 些 文 本 中 認(rèn) 識(shí) 文 字, 進(jìn) 而 知 道 要 發(fā) 什 么 音、 怎 么 發(fā) 音, 并 將 發(fā) 音 的 方 式 告 訴 計(jì) 算 機(jī)。 另 外, 還 要 讓 計(jì) 算 機(jī) 知 道, 在 文 本 中, 哪 些 是 詞, 哪 些 是 短 語(yǔ) 或 句 子, 發(fā) 音 時(shí) 應(yīng) 該 到 哪 里 停 頓 及 停 頓 多 長(zhǎng) 時(shí) 間 等。 其 工 作 過(guò) 程 可 以 分 為 三 個(gè) 主 要 步 驟:-(1) 將 輸 入 的 文 本 規(guī) 范 化。 在 這 個(gè) 過(guò) 程 中, 要 查 找 拼 寫(xiě) 錯(cuò) 誤, 并

3、 將 文 本 中 出 現(xiàn) 的 一 些 不 規(guī) 范 或 無(wú) 法 發(fā) 音 的 字 符 過(guò) 濾 掉。-(2) 分 析 文 本 中 詞 或 短 語(yǔ) 的 邊 界, 確 定 文 字 的 讀 音, 同 時(shí) 分 析 文 本 中 出 現(xiàn) 的 數(shù) 字、 姓 氏、 特 殊 字 符、 專(zhuān) 有 詞 語(yǔ) 以 及 各 種 多 音 字 的 讀 音 方 式。-(3) 根 據(jù) 文 本 的 結(jié) 構(gòu)、 組 成 和 不 同 位 置 上 出 現(xiàn) 的 標(biāo) 點(diǎn) 符 號(hào), 確 定 發(fā) 音 時(shí) 語(yǔ) 氣 的 變 換 以 及 不 同 音 的 輕 重 方 式。-最 終, 文 本 分 析 模 塊 將 輸 入 的 文 字 轉(zhuǎn) 換 成 計(jì) 算 機(jī) 能 夠

4、處 理 的 內(nèi) 部 參 數(shù), 便 于 后 續(xù) 模 塊 進(jìn) 一 步 處 理 并 生 成 相 應(yīng) 的 信 息。-傳 統(tǒng) 的 文 本 分 析 主 要 是 基 于 規(guī) 則(Rule based) 的 實(shí) 現(xiàn) 方 法。 其 主 要 思 路 是 盡 可 能 地 將 文 字 中 的 分 詞 規(guī) 范、 發(fā) 音 方 式 羅 列 起 來(lái), 并 總 結(jié) 出 規(guī) 則, 依 靠 這 些 規(guī) 則 進(jìn) 行 文 本 處 理, 以 獲 得 需 要 的 參 數(shù)。 具 有 代 表 性 的 方 法 有: 最 大 匹 配 法、 反 向 最 大 匹 配 法、 逐 詞 遍 歷 法、 最 佳 匹 配 法、 二 次 掃 描 法 等。 這 些

5、方 法 的 優(yōu) 點(diǎn) 在 于 結(jié) 構(gòu) 較 為 簡(jiǎn) 單、 直 觀, 易 于 實(shí) 現(xiàn); 缺 點(diǎn) 是 需 要 大 量 的 時(shí) 間 去 總 結(jié) 規(guī) 則, 且 模 塊 性 能 的 好 壞 嚴(yán) 重 依 賴(lài) 于 設(shè) 計(jì) 人 員 的 經(jīng) 驗(yàn) 以 及 他 們 的 背 景 知 識(shí)。 由 于 這 些 方 法 能 取 得 較 好 的 分 析 效 果, 因 此, 直 到 目 前, 它 們 依 然 被 廣 泛 使 用。-但 是 近 幾 年 來(lái), 隨 著 計(jì) 算 機(jī) 領(lǐng) 域 中 數(shù) 據(jù) 挖 掘 技 術(shù) 的 發(fā) 展, 許 多 統(tǒng) 計(jì) 學(xué) 方 法 以 及 人 工 神 經(jīng) 網(wǎng) 絡(luò) 技 術(shù) 在 計(jì) 算 機(jī) 數(shù) 據(jù) 處 理 領(lǐng) 域 中

6、 獲 得 了 成 功 的 應(yīng) 用, 計(jì) 算 機(jī) 從 大 量 數(shù) 據(jù) 中 自 動(dòng) 提 取 規(guī) 律 已 完 全 可 能 并 正 在 實(shí) 現(xiàn)。 在 此 背 景 下, 出 現(xiàn) 了 基 于 數(shù) 據(jù) 驅(qū) 動(dòng)(Data driven) 的 文 本 分 析 方 法, 具 有 代 表 性 的 有: 二 元 文 法 法(Di Grammar Method)、 三 元 文 法 法(Tri Grammar Method)、 隱 馬 爾 可 夫 模 型 法(HMM Method) 和 神 經(jīng) 網(wǎng) 絡(luò) 法(Neural Network Method) 等。 一 些 比 較 著 名 的 系 統(tǒng), 如IBM 的 語(yǔ) 音 產(chǎn)

7、品 就 采 用 了 隱 馬 爾 可 夫 模 型 法。 這 類(lèi) 方 法 的 特 點(diǎn) 是, 設(shè) 計(jì) 人 員 根 據(jù) 統(tǒng) 計(jì) 學(xué) 或 人 工 神 經(jīng) 網(wǎng) 絡(luò) 方 面 的 知 識(shí), 設(shè) 計(jì) 出 一 種 可 訓(xùn) 練 的 模 型, 并 用 大 量 已 經(jīng) 存 在 的 數(shù) 據(jù) 去 訓(xùn) 練, 將 訓(xùn) 練 得 到 的 模 型 用 于 文 本 分 析, 而 系 統(tǒng) 設(shè) 計(jì) 人 員 并 不 需 要 太 強(qiáng) 的 語(yǔ) 言 學(xué) 背 景 知 識(shí)。 對(duì) 于 工 程 技 術(shù) 人 員 來(lái) 說(shuō), 這 類(lèi) 方 法 無(wú) 疑 減 輕 了 他 們 研 究 語(yǔ) 言 學(xué) 的 負(fù) 擔(dān)。 目 前, 這 類(lèi) 方 法 在 文 本 分 析 精 度 上,

8、 已 達(dá) 到 或 部 分 超 過(guò) 了 基 于 規(guī) 則 系 統(tǒng) 的 分 析 結(jié) 果, 且 容 易 實(shí) 現(xiàn) 多 語(yǔ) 種 的 混 合, 因 而 越 來(lái) 越 廣 泛 地 被 接 受 并 使 用。 這 類(lèi) 方 法 的 缺 點(diǎn) 在 于, 盡 管 系 統(tǒng) 容 易 獲 得 文 本 信 息 的 共 同 特 征, 但 忽 略 了 一 些 個(gè) 性, 而 往 往 這 些 個(gè) 別 因 素 對(duì) 最 終 的 發(fā) 音 方 式 影 響 很 大。 因 此, 有 些 系 統(tǒng) 采 取 了 兩 類(lèi) 方 法 相 結(jié) 合 的 方 式。韻 律 生 成-任 何 人 說(shuō) 話(huà) 都 有 韻 律 特 征, 比 如 在 漢 語(yǔ) 中, 音 節(jié) 有 不 同

9、 的 聲 調(diào)、 語(yǔ) 氣 和 停 頓 方 式, 發(fā) 音 長(zhǎng) 短 也 各 不 相 同, 這 些 都 屬 于 韻 律 特 征。 韻 律 參 數(shù) 則 包 括 了 能 影 響 這 些 特 征 的 聲 學(xué) 參 數(shù), 如 基 頻、 時(shí) 長(zhǎng)、 音 強(qiáng) 等。-文 本 分 析 的 結(jié) 果 只 是 告 訴 了 計(jì) 算 機(jī) 發(fā) 什 么 音, 以 及 以 什 么 方 式 發(fā) 音, 這 種 發(fā) 音 方 式 還 只 是 抽 象 的。 而 要 發(fā) 音 的 聲 調(diào) 是 二 聲 還 是 三 聲, 是 重 讀 還 是 輕 讀, 到 哪 里 停 頓, 等 等, 這 些 最 終 系 統(tǒng) 用 來(lái) 進(jìn) 行 聲 信 號(hào) 合 成 的 具 體

10、韻 律 參 數(shù) 還 要 依 靠 韻 律 生 成 模 塊。 與 文 本 分 析 的 實(shí) 現(xiàn) 方 法 相 類(lèi) 似, 韻 律 的 生 成 方 法 也 分 為 基 于 規(guī) 則 和 數(shù) 據(jù) 驅(qū) 動(dòng) 兩 種 方 法。-早 期 的 韻 律 生 成 方 法 均 采 用 基 于 規(guī) 則 的 方 法。 這 種 方 法 要 求 研 究 人 員 有 大 量 的 音 韻 學(xué) 背 景 知 識(shí), 需 要 對(duì) 在 各 種 特 定 的 情 況 下, 如 聲 音 在 句 子 中 的 不 同 位 置、 不 同 聲 調(diào) 及 句 子 的 不 同 語(yǔ) 氣 甚 至 是 不 同 的 詞 性 下, 對(duì) 基 頻、 時(shí) 長(zhǎng) 和 音 強(qiáng) 等 各 個(gè)

11、 聲 學(xué) 參 數(shù) 變 化 的 詳 細(xì) 情 況 加 以 總 結(jié)、 歸 納。 由 于 各 個(gè) 語(yǔ) 種 的 韻 律 特 征 不 同, 因 此, 針 對(duì) 不 同 的 語(yǔ) 種, 必 須 找 出 與 該 語(yǔ) 種 相 關(guān) 聯(lián) 的 韻 律 特 征。 目 前, 基 于 規(guī) 則 的 方 法 仍 然 被 認(rèn) 作 是 行 之 有 效 的 方 法, 大 部 分 漢 語(yǔ) 語(yǔ) 音 合 成 系 統(tǒng) 依 然 采 用 這 種 方 法。 雖 然 經(jīng) 過(guò) 研 究 者 的 努 力, 這 種 方 法 能 達(dá) 到 較 好 的 韻 律 生 成 效 果, 但 它 也 受 到 很 多 限 制。 如 前 所 述, 基 于 規(guī) 則 的 方 法 要

12、求 系 統(tǒng) 設(shè) 計(jì) 人 員 花 費(fèi) 大 量 的 時(shí) 間 和 精 力 去 研 究 不 同 語(yǔ) 種 普 遍 存 在 的 韻 律 特 征, 而 這 是 一 個(gè) 非 常 耗 時(shí) 的 工 作, 且 由 于 規(guī) 則 的 復(fù) 雜 性, 其 生 成 語(yǔ) 音 的 自 然 度 也 受 到 較 多 的 限 制, 也 就 限 制 了 它 的 一 些 性 能。 另 外, 基 于 規(guī) 則 的 系 統(tǒng) 方 法 往 往 只 追 求 發(fā) 音 的 自 然, 而 掩 蓋 了 人 的 個(gè) 性。 如 讓 系 統(tǒng) 模 擬 某 一 特 定 人 的 發(fā) 音, 就 顯 得 無(wú) 力, 除 非 是 針 對(duì) 專(zhuān) 人 設(shè) 計(jì) 的 一 些 專(zhuān) 用 模

13、型。-目 前, 通 過(guò) 神 經(jīng) 網(wǎng) 絡(luò) 或 統(tǒng) 計(jì) 驅(qū) 動(dòng) 的 方 法 進(jìn) 行 韻 律 生 成 已 獲 得 成 功 的 應(yīng) 用。Siemens 和Motorola 公 司 均 采 用 或 試 驗(yàn) 了 此 技 術(shù)。 在 國(guó) 內(nèi), 清 華 大 學(xué) 計(jì) 算 機(jī) 系 在 這 方 面 也 進(jìn) 行 了 大 量 的 研 究, 其 研 究 成 果 已 接 近 實(shí) 用 階 段。 其 實(shí) 現(xiàn) 步 驟 是: 首 先 設(shè) 計(jì) 或 收 集 一 個(gè) 包 含 大 量 語(yǔ) 音 和 文 本 信 息 的 數(shù) 據(jù), 然 后 建 立 一 個(gè) 訓(xùn) 練 模 型, 并 用 從 數(shù) 據(jù) 庫(kù) 中 提 取 出 的 韻 律 參 數(shù) 對(duì) 模 型 進(jìn)

14、 行 訓(xùn) 練, 通 過(guò) 訓(xùn) 練 而 得 到 最 終 的 韻 律 模 型。 這 種 模 型 的 優(yōu) 點(diǎn) 在 于: 在 保 持 甚 至 增 強(qiáng) 了 系 統(tǒng) 的 韻 律 生 成 能 力 的 同 時(shí), 極 大 地 改 善 了 整 個(gè) 語(yǔ) 音 合 成 系 統(tǒng) 的 靈 活 性, 便 于 模 擬 某 一 特 定 人 的 韻 律 特 征, 且 為 在 同 一 個(gè) 語(yǔ) 音 合 成 系 統(tǒng) 中 整 合 多 語(yǔ) 種 創(chuàng) 造 了 條 件。 事 實(shí) 上, 有 關(guān) 研 究 人 員 正 在 嘗 試 使 用 這 一 方 法 將 漢 語(yǔ) 和 其 他 西 方 語(yǔ) 言 整 合 到 一 套 系 統(tǒng) 上。-圖1 和 圖2 分 別 反

15、映 了 基 于 規(guī) 則 和 基 于 數(shù) 據(jù) 驅(qū) 動(dòng) 韻 律 模 型 的 建 立 與 工 作 過(guò) 程。語(yǔ) 音 生 成-系 統(tǒng) 知 道 了 要 說(shuō) 什 么 并 掌 握 了 韻 律 控 制 參 數(shù) 后, 它 是 如 何 使 計(jì) 算 機(jī) 發(fā) 聲 的 呢 ?-系 統(tǒng) 產(chǎn) 生 的 合 成 語(yǔ) 音 是 通 過(guò) 一 個(gè) 聲 學(xué) 模 塊 來(lái) 具 體 實(shí) 現(xiàn) 的。 早 期 語(yǔ) 音 合 成 系 統(tǒng) 的 聲 學(xué) 模 型 多 是 通 過(guò) 模 擬 人 的 口 腔 的 聲 道 特 性 來(lái) 產(chǎn) 生 的。 其 中 比 較 著 名 的 有Klatt 的 共 振 峰(Formant) 合 成 系 統(tǒng), 后 來(lái) 又 產(chǎn) 生 了 基

16、于LPC、LSP 和LMA 等 聲 學(xué) 參 數(shù) 的 合 成 系 統(tǒng), 這 些 都 可 以 歸 結(jié) 為 參 數(shù) 合 成 系 統(tǒng)。 使 用 這 些 方 法 建 立 聲 學(xué) 模 型 的 過(guò) 程 是: 首 先 錄 制 聲 音, 這 些 聲 音 涵 蓋 了 人 發(fā) 音 過(guò) 程 中 所 有 可 能 出 現(xiàn) 的 讀 音; 然 后, 提 取 出 這 些 聲 音 的 聲 學(xué) 參 數(shù), 并 整 合 成 一 個(gè) 完 整 的 音 庫(kù)。 在 發(fā) 音 過(guò) 程 中, 首 先 根 據(jù) 發(fā) 音 需 要 從 音 庫(kù) 中 選 擇 合 適 的 聲 學(xué) 參 數(shù), 然 后 根 據(jù) 從 韻 律 模 型 中 得 到 的 韻 律 參 數(shù), 通

17、 過(guò) 合 成 算 法 產(chǎn) 生 語(yǔ) 音。 參 數(shù) 合 成 方 法 的 優(yōu) 點(diǎn) 是 其 音 庫(kù) 一 般 較 小, 并 且 整 個(gè) 系 統(tǒng) 能 適 應(yīng) 的 韻 律 特 征 的 范 圍 較 寬, 但 其 合 成 語(yǔ) 音 的 音 質(zhì) 卻 往 往 受 到 一 定 的 限 制。-近10 年 來(lái), 采 用 波 形 拼 接(PSOLA) 合 成 語(yǔ) 音 的 方 法 越 來(lái) 越 被 廣 泛 應(yīng) 用。 這 種 方 法 的 核 心 思 想 是 直 接 對(duì) 存 儲(chǔ) 于 音 庫(kù) 的 語(yǔ) 音 運(yùn) 用PSOLA 算 法 進(jìn) 行 拼 接, 從 而 整 合 成 完 整 的 語(yǔ) 音。 有 別 于 傳 統(tǒng) 概 念 中 只 是 將 不

18、 同 的 語(yǔ) 音 單 元 進(jìn) 行 簡(jiǎn) 單 拼 接, 該 系 統(tǒng) 首 先 要 在 大 量 語(yǔ) 音 庫(kù) 中, 選 擇 最 合 適 的 語(yǔ) 音 單 元 用 于 拼 接, 并 且 在 選 音 過(guò) 程 中 往 往 采 用 多 種 復(fù) 雜 的 技 術(shù), 包 括 多 項(xiàng) 統(tǒng) 計(jì) 學(xué) 上 的 技 術(shù) 或 神 經(jīng) 網(wǎng) 絡(luò) 技 術(shù), 最 后 在 拼 接 時(shí), 使 用PSOLA 算 法, 對(duì) 其 合 成 語(yǔ) 音 的 韻 律 特 征 進(jìn) 行 修 改, 而 使 合 成 的 語(yǔ) 音 達(dá) 到 了 很 高 的 音 質(zhì)。 如 日 本ATR 推 出 的 多 語(yǔ) 種 語(yǔ) 音 合 成 系 統(tǒng), 就 采 用 了 統(tǒng) 計(jì) 學(xué) 上 的 隱 馬 爾 可 夫 模 型 來(lái) 進(jìn) 行 選 音。 其 他 的 一 些 主 要 語(yǔ) 音 產(chǎn) 品, 如Siemens 的Papageno 系 統(tǒng), 也 采 用 了 類(lèi) 似 或 相 關(guān) 的 技 術(shù)。-但 基 于 波 形 拼 接 方 法 的 系 統(tǒng) 仍 存 在 一 些 問(wèn) 題, 即 它 的 音 庫(kù) 往 往 非 常 龐 大, 需 要 占 據(jù) 較 大 的 存 儲(chǔ) 空 間。 這 對(duì) 將 系 統(tǒng) 推 廣 到 掌 上 型 電 腦 或 一 些 小 的 終 端 設(shè) 備 上 非 常 不 利。 另 外, 在 拼 接 時(shí), 兩 個(gè) 相 鄰 的 聲 音 單 元 之

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論