基于分類回歸樹的漢語韻律短語識別方法_第1頁
基于分類回歸樹的漢語韻律短語識別方法_第2頁
基于分類回歸樹的漢語韻律短語識別方法_第3頁
基于分類回歸樹的漢語韻律短語識別方法_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于分類回歸樹的漢語韻律短語識別方法

1其他漢語領域的研究節(jié)奏結構分析是文語轉換系統(tǒng)的重要組成部分。準確地預測文本的韻律短語邊界位置及其等級,是語音合成中的重要環(huán)節(jié),它是合成自然、流暢的輸出語音的重要前提和保證。目前的研究主要是從語音合成的角度,基于漢語文本信息,應用統(tǒng)計或者知識推理的方法進行韻律結構的預測。如:基于概率頻度的統(tǒng)計模型方法;基于SLM的二叉樹方法;最大熵模型方法;基于語法信息的方法;基于規(guī)則學習的方法等。這類研究往往需要基于較大規(guī)模的標注了韻律結構信息的漢語文本作為工作的前提和基礎。一般地,人們采用人工標注的方法來獲取語料,由標注人員直接對文本進行韻律信息的標注。但人工標注費時費力,而且容易受到標注者主觀語音學和語言學知識的影響,造成循環(huán)論證的危機。由于韻律首先是一個感知概念,所以依賴感知得到的韻律結構才是最可靠和最客觀的。另一類從聲學語音學角度進行的工作研究漢語韻律結構邊界的聲學表現(xiàn),分析語流中的無聲停頓、語音拉長、基頻重設以及邊界音調等韻律特征,這些研究為本文的工作提供了理論基礎和支持。本文提出了一種基于CART的韻律短語識別方法,結合從自然語音中獲取的聲學特征和從文本中獲取的語言學特征,實現(xiàn)韻律短語的自動識別。2wi-1wi的韻律邊界一般認為韻律結構有三個層級,從小到大依次是韻律詞、韻律短語和語調短語。本文將韻律短語和語調短語統(tǒng)稱為韻律短語,而韻律詞不在本文考察范圍之內。假設任意句子Sent=w1,w2,…,wn,wi(1≤i≤n)是句子中的第i個詞。本文認為,每個詞對(wi-1wi)之間都是一個潛在的韻律短語邊界,它取值為0或1(0表示非韻律短語邊界;1表示韻律短語邊界)。所以,包含n個詞的句子Sent共有n-1個潛在韻律短語邊界,本文的任務和目標就是基于這些潛在韻律短語邊界處的語境特征信息,利用分類回歸樹CART對它們做出判別,從而確定其邊界類型。2.1兩組文本分析及模型建立基于CART的韻律短語邊界識別系統(tǒng)的結構以及數(shù)據(jù)處理流程如下圖1所示。依據(jù)圖1,CART識別系統(tǒng)由3個部分組成:(1)數(shù)據(jù)預處理:對語音語料作語音分析處理,提取音節(jié)時長、語音無聲段等語音學信息;對文本語料進行文本分析,包括自動分詞和拼音自動標注,獲取語法詞邊界并計算邊界在句中的位置及距離等語言學信息;然后,結合兩類信息,計算并提取特征屬性,形成CART的特征集。(2)CART建模:依據(jù)通過數(shù)據(jù)預處理從訓練語料中提取的CART樣本特征集,以及訓練集提供的韻律結構信息,采用CART算法訓練并建立韻律短語邊界的CART識別模型。(3)韻律短語邊界識別:利用建立的CART模型進行決策,對待處理語料中的詞邊界進行分類,自動識別并標注出韻律短語邊界。2.2cart的算法流程CART是Breiman等人提出的一種基于二叉樹的統(tǒng)計模型,它采用二分遞歸分割的技術,每次都會將當前樣本集分割為兩個子樣本集,使得生成的決策樹中的每個非葉子結點都有兩個分枝。因此CART算法生成的決策樹是結構簡單的二叉樹。假設包含n個樣本的訓練樣本集Example={(vi,ci),i=1,…,n},其中:特征向量v=(a1,a2,…,am)且aj(j=1,…,m)為特征屬性,vi是訓練樣本集中第i個樣本的特征向量,ci是該樣本的類別標記。CART的訓練過程就是構造二叉樹的過程,其算法流程可描述如下:(1)創(chuàng)建初始的根節(jié)點Root,它包含所有的訓練樣本。(2)對特征向量v中的每一個特征屬性aj(j=1,…,m),用aj構成的問題對根結點進行提問測試,按照問題回答將根結點的樣本集分裂為回答為“Yes”和回答為“No”的兩個子集,并分別復制到左、右結點。這樣,就能為當前根結點生成了兩個子結點。(3)選擇最優(yōu)的那個提問將根結點分裂成兩個子結點。假設結點T的某種分裂方式split將其劃分為T1、T2,則該分裂方式split的GinimetricSplit(T)=S1/S*Giniscore(T1)+S2/S*Giniscore(T2),其中S是T中樣本的個數(shù),S1、S2分別為T1、T2中的樣本個數(shù)。Ginimetric用來評估某種分裂方式的優(yōu)劣,Ginimetric大的產生純度較高的子結點,比較好。故選擇擁有最大Ginimetric的分裂方式進行結點分裂。(4)使用貪婪算法,對每個新生成的子結點按照上述步驟不斷分裂,直到每個結點中的所有樣本都屬于同一類,或者所有的特征屬性都已被使用過為止,從而得到一棵最大的決策樹。然后對這棵決策樹進行剪枝,使用獨立于訓練樣本集的測試樣本集對子樹的分類錯誤進行計算,找出分類錯誤最小的子樹作為最終的分類模型。(5)CART的決策過程簡單直觀。在測試新樣本時,從樹的根結點開始,根據(jù)其屬性值在已經生成的二叉樹中查找,直到到達一個葉子結點為止。則該葉子結點的類別即作為測試樣本的CART預測結果。2.3類前音節(jié)待分類的樣本都是用由各個特征屬性構成的向量表示的。對于分類器來說,特征的選擇是非常重要的。參照聲學語音學角度的研究成果,本文結合聲學特征和語言學特征共同構造CART的特征集,特征屬性包括:(1):Shm表示當前詞邊界前音節(jié)聲母的類型,分零聲母、塞音、擦音、塞擦音、鼻音、邊音6類。(2)Ym:表示當前詞邊界前音節(jié)韻母的類型,分為單韻母、復韻母、鼻韻母3類。(3)Shd:表示當前詞邊界前音節(jié)的聲調,分為陰平、陽平、上聲、去聲、輕聲5類。(7)PLen:表示出現(xiàn)在當前詞邊界處的語音無聲段的時長。(8)IsHead:表示當前詞是否是句首詞,若是則為“Y”,否則為“N”。(9)IsEnd:表示當前詞是否是句尾詞,若是則為“Y”,否則為“N”。(10)Dsn:表示當前詞邊界與句首之間的音節(jié)個數(shù)。(11)Wx:表示當前詞邊界的位置序號,包含n個詞的句子共有n-1個詞邊界,位置序號從左到右依次為1,2,…,n-1。3實驗與分析3.1語音/文本語料庫本文的實驗語料為770個不同類型的長句(共包含22226個詞邊界),覆蓋新聞、小說、散文等方面。實驗語料庫分兩種類型:(1)語音語料庫:上述770個長句的錄音,由專業(yè)播音員(女)按照正常語速朗讀;(2)文本語料庫:770個長句的文字稿,本文對文本進行了自動分詞,并人工校對了其中的分詞錯誤,然后由訓練有素的標注人員采用文本結合語音的方式標注了韻律短語邊界。將實驗語料庫按照1∶1的比例分為訓練集和測試集兩部分,即:從中隨機抽取385個句子用于訓練并生成CART模型,而將其余的385個句子用于開放測試。3.2效果評價指標評測實驗效果的標準有兩類:一類是主觀標準,即對于每一個自動識別的結果,由專家為其打分,得分越高,表示效果越好;另一類是客觀標準,即給出一個正確的標注,將自動識別結果與其對比,通過計算召回率、準確率等指標來評測自動識別的效果。有實驗研究表明,客觀標準的評測結果與主觀標準是一致的。而采用客觀標準不需要人工干預,可以自動進行,代價較小、效率較高,故本文選擇客觀標準來評測實驗結果。3.3測試集和測量方法為了使得實驗結果更具有一般性,本文由程序隨機生成10組實驗語料,每組語料都包括385句的訓練集和385句的測試集。利用上述10組語料分別建立CART模型并進行測試,開放測試的結果如下表1所示(表中還列出了10組測試的平均值)。表1中4個測量指標的意義分別為:(1)Ntrain:表示CART訓練集中訓練樣本的個數(shù)。(2)Ntest:表示CART測試集中測試樣本的個數(shù)。(3)P0:表示在測試集的樣本中,非韻律短語邊界所占的比例。(4)Pre:表示識別準確率,且Pre=正確識別的樣本個數(shù)/測試集的樣本總數(shù)×100%。分析10組隨機測試結果可以看出,若假定測試集中的所有詞邊界都是非韻律短語邊界,則其平均準確率為79.51%;也就是說,若將所有詞邊界都預測為韻律短語邊界,則其平均準確率僅為20.49%。本文采用分類回歸樹CART來分類測試集的樣本,測試的平均識別準確率可達95.91%。4實驗結果與分析對于韻律這一感知概念而言,一套超音段的標志節(jié)奏層次的韻律特征是話語組塊結構的很好的說明物。因此,本文提出了基于聲學和語言學特征并采用分類回歸樹CART從

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論