




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
智能語音相關技術2023年2月單元二實現(xiàn)語音數(shù)據標注單元二:任務3數(shù)據標注是大部分人工智能算法得以有效運行的關鍵環(huán)節(jié)。數(shù)據標注越準確、標注的數(shù)據量越大,算法的性能就越好。為推進語音識別相關應用高質量落地,數(shù)據服務商需要對語音數(shù)據的采集、清洗、信息抽取、標注、質檢、管理等環(huán)節(jié)進行更加精細的把控,以提供出更高質量的語音數(shù)據集,從而提高語音算法模型訓練效果。項目導入目錄CONTENTS1了解數(shù)據標注的基礎知識2了解語音標注的工具知識目標了解語音數(shù)據標注在智能語音技術中的重要意義理解語音數(shù)據標注的方法與分類熟悉利用相關工具實現(xiàn)語音數(shù)據標注的流程能力目標能夠描述每個步驟的功能能夠描述每個步驟的具體目標能夠理解流程中涉及到的專業(yè)術語思政目標感悟腳踏實地、勤懇敬業(yè)、精益求精的大國工匠精神學習愛崗敬業(yè)的社會主義核心價值觀PART01了解數(shù)據標注的基礎知識了解語音標注的基礎知識語音標注的意義是什么?了解語音標注的基礎知識(1)語音標注的意義完整的語音語料庫,不僅要有原始語音數(shù)據、對應的發(fā)音文本,而且需要有對應的標注文件。要提高語音語料庫的利用價值,關鍵是對語音語料庫進行完整的標注。即語料庫既要包含反映語音學現(xiàn)象的適量的錄音數(shù)據,轉寫文本,還要包括完備、準確的標注信息,才能充分有效地發(fā)揮語料庫的效能。了解語音標注的基礎知識(1)語音標注的意義標注是對語音、圖片、文本、視頻等原始數(shù)據進行加工處理,并轉換為機器可識別信息的過程。語音標注的主要工作內容是將語音中包含的文字信息、各種聲音“提取”出來,進行轉寫或合成,標注后的數(shù)據主要用于機器學習。語音數(shù)據標注主要是根據用戶或企業(yè)的需求,對語音數(shù)據進行不同方式的標注,從而為不同場景的智能系統(tǒng)提供訓練數(shù)據。了解語音標注的基礎知識(2)語音標注的分類按照標注方式的不同,語音標注分為人工標注和機器標注兩類。人工標注是指雇用經過培訓的標注員進行標注,特點是標注質量高,然而標注成本高、時間長、效率低;機器標注的標注者通常是智能算法,特點是標注速度快,成本相對較低,但是算法對涉及高層語義的對象識別和提取效果不好。了解語音標注的基礎知識(2)語音標注的分類按照應用領域不同,語音標注分為針對語音識別的標注、針對語音合成的標注、針對說話人識別的標注和針對情感識別的標注。針對語音識別的標注是通過算法模型識別轉錄后的文本內容并與對應的音頻進行邏輯關聯(lián),常用方法是語音轉寫;針對語音合成的標注,首先需將文本內容按句斷開,然后對每一句中的具有獨立意義的詞進行分隔,分隔出來的獨立詞再按音節(jié)進行劃分。進行音節(jié)劃分時一定要注意重讀音節(jié)的位置,最后針對每一個音節(jié)進行音素切割,判斷每個音節(jié)內所包含的音素;針對說話人識別的標注除了標注聲學特征外,還為每條語音增加說話人標簽;針對情感識別的標注除了標注基本的漢字轉換和音節(jié)等信息外,還標注與清音、靜音、濁音、情感、副語言信息和重音等相關的信息。了解語音標注的基礎知識(3)語音標注的規(guī)范傳統(tǒng)手工數(shù)據標注中的用戶角色可以分為標注員、審核員和管理員3類,各個角色之間相互制約,各司其職。標注員通常由經過一定專業(yè)培訓的人員來擔任,負責標注數(shù)據;審核員往往由經驗豐富的標注人員或權威專家來擔任,負責審核已標注的數(shù)據,完成數(shù)據校對和數(shù)據統(tǒng)計,適時修改錯誤并補充遺漏的標注;管理員負責管理相關人員,發(fā)放和回收標注任務。在進行語音標注時,語音數(shù)據發(fā)音的時間軸與標注區(qū)域的音標必須同步,標注與發(fā)音時間軸的誤差要控制在1個語音幀以內。如果誤差超過1個語音幀,則很容易標注到下一個發(fā)音,從而產生更多的噪聲數(shù)據。了解語音標注的基礎知識(4)音段標注和韻律標注語音語料庫的標注過程是一個語言知識形式化的過程。語音庫的標注質量以及標注深度直接影響到從語音語料庫中發(fā)掘信息的準確性、豐富性,很大程度上決定了語音語料庫的可利用性和價值,完整的標注系統(tǒng)包括音段標注和韻律標注。了解語音標注的基礎知識(4)音段標注和韻律標注了解語音標注的基礎知識(4)音段標注和韻律標注音段標注。就是把連續(xù)語流中的每個語音單元(句子、詞、字、音節(jié)、聲韻母、音子)進行分割,并且描述它們的音色特征。在流利順暢的連續(xù)語音流當中,音段的將會表現(xiàn)出和孤立字、詞有著很大差別的聲學表現(xiàn)。在語音的語速、語境和韻律等相關因素的共同影響下,它們會呈現(xiàn)出十分復雜的結合和變異,在這個過程當中就可能出現(xiàn)各種音段音變現(xiàn)象,比如減音、增音、音素替換等多種不同的表現(xiàn)形式。連續(xù)語音流固有的多變性和復雜性將會對音段注音工作增加了不少的難度。良好的注音就需要高水平的音段標注,這也就要求不僅需要對語音正則讀音的標注同時要標注出在實際應用對話當中所可能表現(xiàn)出來的語音現(xiàn)象和形式方法,在此過程當中特別需要對音段音變進行細致、準確的描述。了解語音標注的基礎知識(4)音段標注和韻律標注韻律標注。韻律是文本對應的聲音的發(fā)音節(jié)奏和規(guī)律,同一句話,不同的韻律結構對應著不同的發(fā)音,表達著不同的含義。從文本上來說,韻律是(韻律)詞和短語的邊界;從語音上來說,一般認為韻律有三個特征表征,時長、音高和音強。在語音合成中,為了讓合成的語音更符合我們的“預期”,常常需要韻律的支持,也就是需要一些時長、音高和音強的控制能力,使文本表義更明確。PART02了解數(shù)據標注的工具了解語音標注的工具(1)商業(yè)語音標注平臺商用的數(shù)據標注工具一般是由眾包標注平臺來提供。如國外的亞馬遜MechanicalTurk、Figure-eight、CrowdFlower、MightyAI等初創(chuàng)型標注平臺,國內的數(shù)據堂、百度眾測、阿里眾包、京東微工等互聯(lián)網公司、大數(shù)據公司和人工智能公司推出的數(shù)據標注眾包平臺和商用標注工具,這些商業(yè)的數(shù)據標注平臺基本上都能對圖片、視頻、文本和語音等數(shù)據進行標注,但各自的業(yè)務方向也有一定側重。了解語音標注的工具(2)開源的數(shù)據標注工具常用的語音標注工具有Praat、精靈標注助手和VGG(visualgeometrygroup)的多功能標注工具VIA等。Praat是一種常見的語音標注工具,全名:doingphoneticsbycomputer,是一款跨平臺的多功能語音學專業(yè)軟件,能夠對語音信號進行分析、標注、處理及合成等實驗,同時生成各種語圖和文字報表。了解語音標注的工具(2)開源的數(shù)據標注工具Praat可以完成如下功能:語音實驗:嗓音分析、多重強迫選擇實驗、濾波、聲源濾波合成、發(fā)音合成等。輔助教學:前饋神經網、優(yōu)選論學習等。統(tǒng)計分析:主成分分析、多維量表、判別分析等。了解語音標注的工具(2)開源的數(shù)據標注工具Praat軟件由核心與外圍兩層構成。核心層負責語音信號處理任務的程序,包括所有的對象類型(Typesofobject)、動作命令(Actioncommands)和相應的編輯器(Editors)。外圍主要包括對象窗口(標題為Praatobjects)、畫板窗口(標題為Praatpicture)、腳本編輯器(ScriptEditor)、按鈕編輯器(ButtonEditor)、數(shù)據編輯器(DataEditor)、情報窗口(Infowindow)和手冊(Manual)等輔助性組件。了解語音標注的工具(2)開源的數(shù)據標注工具Praat軟件每次啟動時,自動打開對象窗口和畫板窗口。對象窗口也是軟件的主控窗口,在會話進程中始終打開,大部分功能也需要由此展開。腳本(script)是在軟件中執(zhí)行各種操作的宏命令,能夠簡化日常操作,減少出錯,并實現(xiàn)大量復雜操作的自動化。了解語音標注的工具(3)標注平臺的功能1)進度條:用于指示數(shù)據標注的進度,一方面方便標注人員查看進度,另一方面也利于統(tǒng)計;2)標注主體(指需要標注的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 三農農業(yè)休閑觀光項目指南
- 建設工程可行性研究
- 營口冷鏈物流公司
- 項目進度管理與會議紀要實錄
- 垃圾分類示范城市
- 零售連鎖店數(shù)字化門店運營方案
- 中級養(yǎng)老護理練習試卷附答案
- 儲能系統(tǒng)和綜合能源系統(tǒng)解決方案分享
- 新能汽車產業(yè)發(fā)展政策及技術趨勢分析
- 重要項目決策會議紀要實錄
- 地鐵站安全運行現(xiàn)狀評價報告
- 中石化供應鏈VPN接入方案
- 無人機應用與基礎操控入門課件
- 跨學科主題學習的設計
- 掌握說明方法-2024年中考語文閱讀點撥及進階訓練(解析版)
- 孔雀東南飛課件幻燈片課件
- 四川省會計師事務所服務收費標準
- 中國品牌授權行業(yè)發(fā)展環(huán)境、市場運行態(tài)勢及投資前景分析預測報告
- 留置導尿法操作評分標準
- 休克的臨床表現(xiàn)與急救
- 2024年皖北衛(wèi)生職業(yè)學院單招職業(yè)適應性測試題庫附答案
評論
0/150
提交評論