一種基于超聲的語音識(shí)別和重構(gòu)方法與系統(tǒng)

文檔序號(hào)：39704610發(fā)布日期：2024-10-22 12:48閱讀：3來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及信息，更具體地，涉及一種基于超聲的語音識(shí)別和重構(gòu)方法與系統(tǒng)。

背景技術(shù)：

1、構(gòu)音障礙(dysarthria)是指由于神經(jīng)病變，與言語有關(guān)的肌肉麻痹、收縮力減弱或運(yùn)動(dòng)不協(xié)調(diào)所致的言語障礙。構(gòu)音障礙患者的發(fā)音一般斷斷續(xù)續(xù)，模糊不清，很難與他人交流。近年來，隨著深度學(xué)習(xí)的發(fā)展，語音識(shí)別(asr)技術(shù)出現(xiàn)了很大進(jìn)展，對(duì)于正常，標(biāo)準(zhǔn)發(fā)音的語音識(shí)別，目前已經(jīng)可以實(shí)現(xiàn)較高的識(shí)別率，滿足日常生活的需要，然而，針對(duì)構(gòu)音障礙患者的障礙語音識(shí)別依舊是一項(xiàng)具有挑戰(zhàn)性的工作。為了更好地識(shí)別障礙語音，研究者在語音識(shí)別的基礎(chǔ)上，結(jié)合障礙語音的特點(diǎn)進(jìn)行方法設(shè)計(jì)，提高模型性能。例如，使用人工神經(jīng)網(wǎng)絡(luò)(ann)分析asr對(duì)構(gòu)音障礙言語的實(shí)驗(yàn)結(jié)果，或使用隱馬爾可夫模型(hmm)設(shè)計(jì)構(gòu)音障礙語音的asr，并比較快速傅里葉變換、線性預(yù)測(cè)和倒譜系數(shù)等不同聲學(xué)特征的結(jié)果。由于設(shè)備計(jì)算能力的限制，這些研究并沒有取得特別顯著的成果。隨著采用深度學(xué)習(xí)方法的asr技術(shù)的發(fā)展和計(jì)算能力的大幅提高，已開展了大量的研究來提高asr對(duì)構(gòu)音障礙語音的性能，例如提出了一種基于空間cnn和多頭注意力轉(zhuǎn)換器的時(shí)空構(gòu)音障礙語音識(shí)別系統(tǒng)，用于從構(gòu)音障礙語音中直觀地提取聲學(xué)特征。

2、盡管已有深度學(xué)習(xí)方法可以有效提高構(gòu)音障礙語音的asr準(zhǔn)確率，數(shù)據(jù)的稀缺和匱乏對(duì)進(jìn)一步改善構(gòu)音障礙語音的asr構(gòu)成了重大限制。一些研究人員考慮融合更多的模態(tài)信號(hào)，以解決資源數(shù)據(jù)過少的問題。與外部聲學(xué)特征相比，發(fā)聲部位的運(yùn)動(dòng)特征具有更好的穩(wěn)定性，能夠更好地反映障礙語音患者的說話內(nèi)容。這類特征已經(jīng)在正常與病理語音識(shí)別中得到成功應(yīng)用。其中，超聲波舌成像(uti)利用超聲波檢測(cè)舌位狀態(tài)以判斷說話內(nèi)容，相比于磁共振成像(mri)，該方法具有便攜，非侵入性，廉價(jià)的優(yōu)點(diǎn)。ribeiro等創(chuàng)建了包含81位原生英文說話人24小時(shí)語音，視頻，超聲波舌成像數(shù)據(jù)的語料庫，幫助研究人員利用uti輔助語音識(shí)別。同時(shí)，在語音合成(tts)領(lǐng)域，csapó等在基于dnn的語音合成模型中利用多個(gè)說話人的超聲波舌成像，在數(shù)據(jù)有限的場(chǎng)景下，使合成的語音更加自然。

3、經(jīng)分析，現(xiàn)有的語音識(shí)別技術(shù)主要存在以下缺陷：

4、(1)現(xiàn)有方法只是單獨(dú)進(jìn)行障礙語音識(shí)別或者障礙語音重構(gòu)，沒有一個(gè)系統(tǒng)同時(shí)實(shí)現(xiàn)障礙語音識(shí)別與障礙語音重構(gòu)功能，無法實(shí)現(xiàn)令患者與他人正常交流的功能。

5、(2)現(xiàn)有基于視頻的語音識(shí)別方法不適用于障礙語音。這是由于視頻采集過程中，患者常常動(dòng)來動(dòng)去，唇部動(dòng)作基本不是正面，采集有效數(shù)據(jù)較為困難，反而引入其他混淆信息，識(shí)別效果受限。

6、(3)現(xiàn)有基于多模態(tài)的方法不利于構(gòu)建復(fù)雜魯棒的語音識(shí)別和語音重構(gòu)系統(tǒng)。例如，一些研究者利用核磁共振成像，電磁發(fā)音儀來獲得多模態(tài)數(shù)據(jù)，然而這些方法具有昂貴，侵入性強(qiáng)，無法攜帶等缺點(diǎn)，無法簡(jiǎn)單地獲取大量有效數(shù)據(jù)，為語音識(shí)別工作帶來極大困難。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是克服上述現(xiàn)有技術(shù)的缺陷，提供一種基于超聲的語音識(shí)別和重構(gòu)方法與系統(tǒng)。

2、根據(jù)本發(fā)明的第一方面，提供一種基于超聲的語音識(shí)別和重構(gòu)方法。該方法包括以下步驟：

3、采集目標(biāo)的語音音頻信號(hào)和對(duì)應(yīng)的超聲舌位圖；

4、從所述語音音頻信號(hào)中獲得聲學(xué)特征，并基于所述超聲舌位圖提取對(duì)應(yīng)的舌位運(yùn)動(dòng)特征；

5、將所述聲學(xué)特征和所述舌位運(yùn)動(dòng)特征拼接成總體特征，輸入到經(jīng)訓(xùn)練的語音識(shí)別模型，獲得對(duì)應(yīng)的文本信息；

6、以所述文本信息和所述舌位運(yùn)動(dòng)特征作為輸入，利用經(jīng)訓(xùn)練的語音合成模型，獲得重構(gòu)語音。

7、根據(jù)本發(fā)明的第二方面，提供一種基于超聲的語音識(shí)別和重構(gòu)系統(tǒng)。該系統(tǒng)包括：

8、信號(hào)采集單元：用于采集目標(biāo)的語音音頻信號(hào)和對(duì)應(yīng)的超聲舌位圖；

9、特征提取單元：用于從所述語音音頻信號(hào)中獲得聲學(xué)特征，并基于所述超聲舌位圖提取對(duì)應(yīng)的舌位運(yùn)動(dòng)特征；

10、語音識(shí)別單元：用于將所述聲學(xué)特征和所述舌位運(yùn)動(dòng)特征拼接成總體特征，輸入到經(jīng)訓(xùn)練的語音識(shí)別模型，獲得對(duì)應(yīng)的文本信息；

11、語音重構(gòu)單元：用于以所述文本信息和所述舌位運(yùn)動(dòng)特征作為輸入，利用經(jīng)訓(xùn)練的語音合成模型，獲得重構(gòu)語音。

12、與現(xiàn)有技術(shù)相比，本發(fā)明的優(yōu)點(diǎn)在于，在正常語音識(shí)別模型的基礎(chǔ)上，利用超聲波輔助技術(shù)，將超聲舌位圖提供的信息與障礙語音患者的語音信息結(jié)合，獲得了更準(zhǔn)確的障礙語音識(shí)別模型；將超聲舌成像特征與識(shí)別文本特征融合，利用語音合成模型，重構(gòu)出更清晰，符合說話者特點(diǎn)的正常語音。總之，本發(fā)明將障礙語音識(shí)別與障礙語音重構(gòu)功能結(jié)合，能夠?qū)⒄系K語音轉(zhuǎn)化為易于理解的文字以及正常語音，有利于語音障礙患者與外界進(jìn)行正常交流。

13、通過以下參照附圖對(duì)本發(fā)明的示例性實(shí)施例的詳細(xì)描述，本發(fā)明的其它特征及其優(yōu)點(diǎn)將會(huì)變得清楚。

技術(shù)特征：

1.一種基于超聲的語音識(shí)別和重構(gòu)方法，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述舌運(yùn)動(dòng)特征根據(jù)以下步驟獲得：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述語音識(shí)別模型包括特征提取模塊、聲學(xué)模型和語言模型，所述特征提取模塊用于從所述語音音頻信號(hào)中提取聲學(xué)特征并從所述超聲舌位圖中提取舌位運(yùn)動(dòng)特征；所述聲學(xué)模型以基于所述聲學(xué)特征和所述舌位運(yùn)動(dòng)特征拼接成的總體特征作為輸入，獲得語音音頻信號(hào)對(duì)應(yīng)的音素序列；所述語言模型用于預(yù)測(cè)給定音素序列對(duì)應(yīng)的文本信息。

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述聲學(xué)模型包括lstm層、全連接層和聯(lián)結(jié)時(shí)序分類層，所述聲學(xué)特征和所述舌位運(yùn)動(dòng)特征依次通過所述lstm層、所述全連接層和所述聯(lián)結(jié)時(shí)序分類層得到損失函數(shù)，通過優(yōu)化損失值，學(xué)習(xí)語音音頻信號(hào)所對(duì)應(yīng)的音素序列。

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述lstm層是雙向lstm層，每層lstm包括多個(gè)隱藏節(jié)點(diǎn)。

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述語音合成模型基于vits模型構(gòu)建，包含預(yù)處理模塊、編碼器、潛在空間建模模塊和解碼器，所述預(yù)處理模塊用于將輸入的文本信息轉(zhuǎn)化為聲學(xué)特征；所述編碼器用于對(duì)所述聲學(xué)特征進(jìn)行建模，捕捉上下文信息；所述潛在空間建模模塊用于學(xué)習(xí)到一個(gè)低維連續(xù)的潛在空間；所述解碼器用于在潛在空間中進(jìn)行采樣，以生成波形序列。

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述編碼器采用transformer結(jié)構(gòu)對(duì)所述聲學(xué)特征進(jìn)行建模。

8.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述語言模型采用循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建。

9.一種基于超聲的語音識(shí)別和重構(gòu)系統(tǒng)，包括：

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其中，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1至8中任一項(xiàng)所述方法的步驟。

技術(shù)總結(jié)
本發(fā)明公開了一種基于超聲的語音識(shí)別和重構(gòu)方法與系統(tǒng)。該方法包括：采集目標(biāo)的語音音頻信號(hào)和對(duì)應(yīng)的超聲舌位圖；從所述語音音頻信號(hào)中獲得聲學(xué)特征，并基于所述超聲舌位圖提取對(duì)應(yīng)的舌位運(yùn)動(dòng)特征；將所述聲學(xué)特征和所述舌位運(yùn)動(dòng)特征拼接成總體特征，輸入到經(jīng)訓(xùn)練的語音識(shí)別模型，獲得對(duì)應(yīng)的文本信息；以所述文本信息和所述舌位運(yùn)動(dòng)特征作為輸入，利用經(jīng)訓(xùn)練的語音合成模型，獲得重構(gòu)語音。本發(fā)明能夠?qū)⒄系K語音轉(zhuǎn)化為易于理解的文字以及正常語音，有利于語音障礙患者與外界進(jìn)行正常交流。

技術(shù)研發(fā)人員：楊少蒙,謝旭榮,蘇榮鋒,王嵐,燕楠
受保護(hù)的技術(shù)使用者：中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/21

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊少蒙,謝旭榮,蘇榮鋒,王嵐,燕楠
技術(shù)所有人：中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院
我是此專利的發(fā)明人

上一篇：一種四孔連接器的制作方法
上一篇：適用于低氣壓試驗(yàn)箱的換熱結(jié)構(gòu)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于超聲的語音識(shí)別和重構(gòu)方法與系統(tǒng)