日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于超聲的語音識(shí)別和重構(gòu)方法與系統(tǒng)

文檔序號(hào):39704610發(fā)布日期:2024-10-22 12:48閱讀:3來源:國(guó)知局
一種基于超聲的語音識(shí)別和重構(gòu)方法與系統(tǒng)

本發(fā)明涉及信息,更具體地,涉及一種基于超聲的語音識(shí)別和重構(gòu)方法與系統(tǒng)。


背景技術(shù):

1、構(gòu)音障礙(dysarthria)是指由于神經(jīng)病變,與言語有關(guān)的肌肉麻痹、收縮力減弱或運(yùn)動(dòng)不協(xié)調(diào)所致的言語障礙。構(gòu)音障礙患者的發(fā)音一般斷斷續(xù)續(xù),模糊不清,很難與他人交流。近年來,隨著深度學(xué)習(xí)的發(fā)展,語音識(shí)別(asr)技術(shù)出現(xiàn)了很大進(jìn)展,對(duì)于正常,標(biāo)準(zhǔn)發(fā)音的語音識(shí)別,目前已經(jīng)可以實(shí)現(xiàn)較高的識(shí)別率,滿足日常生活的需要,然而,針對(duì)構(gòu)音障礙患者的障礙語音識(shí)別依舊是一項(xiàng)具有挑戰(zhàn)性的工作。為了更好地識(shí)別障礙語音,研究者在語音識(shí)別的基礎(chǔ)上,結(jié)合障礙語音的特點(diǎn)進(jìn)行方法設(shè)計(jì),提高模型性能。例如,使用人工神經(jīng)網(wǎng)絡(luò)(ann)分析asr對(duì)構(gòu)音障礙言語的實(shí)驗(yàn)結(jié)果,或使用隱馬爾可夫模型(hmm)設(shè)計(jì)構(gòu)音障礙語音的asr,并比較快速傅里葉變換、線性預(yù)測(cè)和倒譜系數(shù)等不同聲學(xué)特征的結(jié)果。由于設(shè)備計(jì)算能力的限制,這些研究并沒有取得特別顯著的成果。隨著采用深度學(xué)習(xí)方法的asr技術(shù)的發(fā)展和計(jì)算能力的大幅提高,已開展了大量的研究來提高asr對(duì)構(gòu)音障礙語音的性能,例如提出了一種基于空間cnn和多頭注意力轉(zhuǎn)換器的時(shí)空構(gòu)音障礙語音識(shí)別系統(tǒng),用于從構(gòu)音障礙語音中直觀地提取聲學(xué)特征。

2、盡管已有深度學(xué)習(xí)方法可以有效提高構(gòu)音障礙語音的asr準(zhǔn)確率,數(shù)據(jù)的稀缺和匱乏對(duì)進(jìn)一步改善構(gòu)音障礙語音的asr構(gòu)成了重大限制。一些研究人員考慮融合更多的模態(tài)信號(hào),以解決資源數(shù)據(jù)過少的問題。與外部聲學(xué)特征相比,發(fā)聲部位的運(yùn)動(dòng)特征具有更好的穩(wěn)定性,能夠更好地反映障礙語音患者的說話內(nèi)容。這類特征已經(jīng)在正常與病理語音識(shí)別中得到成功應(yīng)用。其中,超聲波舌成像(uti)利用超聲波檢測(cè)舌位狀態(tài)以判斷說話內(nèi)容,相比于磁共振成像(mri),該方法具有便攜,非侵入性,廉價(jià)的優(yōu)點(diǎn)。ribeiro等創(chuàng)建了包含81位原生英文說話人24小時(shí)語音,視頻,超聲波舌成像數(shù)據(jù)的語料庫,幫助研究人員利用uti輔助語音識(shí)別。同時(shí),在語音合成(tts)領(lǐng)域,csapó等在基于dnn的語音合成模型中利用多個(gè)說話人的超聲波舌成像,在數(shù)據(jù)有限的場(chǎng)景下,使合成的語音更加自然。

3、經(jīng)分析,現(xiàn)有的語音識(shí)別技術(shù)主要存在以下缺陷:

4、(1)現(xiàn)有方法只是單獨(dú)進(jìn)行障礙語音識(shí)別或者障礙語音重構(gòu),沒有一個(gè)系統(tǒng)同時(shí)實(shí)現(xiàn)障礙語音識(shí)別與障礙語音重構(gòu)功能,無法實(shí)現(xiàn)令患者與他人正常交流的功能。

5、(2)現(xiàn)有基于視頻的語音識(shí)別方法不適用于障礙語音。這是由于視頻采集過程中,患者常常動(dòng)來動(dòng)去,唇部動(dòng)作基本不是正面,采集有效數(shù)據(jù)較為困難,反而引入其他混淆信息,識(shí)別效果受限。

6、(3)現(xiàn)有基于多模態(tài)的方法不利于構(gòu)建復(fù)雜魯棒的語音識(shí)別和語音重構(gòu)系統(tǒng)。例如,一些研究者利用核磁共振成像,電磁發(fā)音儀來獲得多模態(tài)數(shù)據(jù),然而這些方法具有昂貴,侵入性強(qiáng),無法攜帶等缺點(diǎn),無法簡(jiǎn)單地獲取大量有效數(shù)據(jù),為語音識(shí)別工作帶來極大困難。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是克服上述現(xiàn)有技術(shù)的缺陷,提供一種基于超聲的語音識(shí)別和重構(gòu)方法與系統(tǒng)。

2、根據(jù)本發(fā)明的第一方面,提供一種基于超聲的語音識(shí)別和重構(gòu)方法。該方法包括以下步驟:

3、采集目標(biāo)的語音音頻信號(hào)和對(duì)應(yīng)的超聲舌位圖;

4、從所述語音音頻信號(hào)中獲得聲學(xué)特征,并基于所述超聲舌位圖提取對(duì)應(yīng)的舌位運(yùn)動(dòng)特征;

5、將所述聲學(xué)特征和所述舌位運(yùn)動(dòng)特征拼接成總體特征,輸入到經(jīng)訓(xùn)練的語音識(shí)別模型,獲得對(duì)應(yīng)的文本信息;

6、以所述文本信息和所述舌位運(yùn)動(dòng)特征作為輸入,利用經(jīng)訓(xùn)練的語音合成模型,獲得重構(gòu)語音。

7、根據(jù)本發(fā)明的第二方面,提供一種基于超聲的語音識(shí)別和重構(gòu)系統(tǒng)。該系統(tǒng)包括:

8、信號(hào)采集單元:用于采集目標(biāo)的語音音頻信號(hào)和對(duì)應(yīng)的超聲舌位圖;

9、特征提取單元:用于從所述語音音頻信號(hào)中獲得聲學(xué)特征,并基于所述超聲舌位圖提取對(duì)應(yīng)的舌位運(yùn)動(dòng)特征;

10、語音識(shí)別單元:用于將所述聲學(xué)特征和所述舌位運(yùn)動(dòng)特征拼接成總體特征,輸入到經(jīng)訓(xùn)練的語音識(shí)別模型,獲得對(duì)應(yīng)的文本信息;

11、語音重構(gòu)單元:用于以所述文本信息和所述舌位運(yùn)動(dòng)特征作為輸入,利用經(jīng)訓(xùn)練的語音合成模型,獲得重構(gòu)語音。

12、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于,在正常語音識(shí)別模型的基礎(chǔ)上,利用超聲波輔助技術(shù),將超聲舌位圖提供的信息與障礙語音患者的語音信息結(jié)合,獲得了更準(zhǔn)確的障礙語音識(shí)別模型;將超聲舌成像特征與識(shí)別文本特征融合,利用語音合成模型,重構(gòu)出更清晰,符合說話者特點(diǎn)的正常語音。總之,本發(fā)明將障礙語音識(shí)別與障礙語音重構(gòu)功能結(jié)合,能夠?qū)⒄系K語音轉(zhuǎn)化為易于理解的文字以及正常語音,有利于語音障礙患者與外界進(jìn)行正常交流。

13、通過以下參照附圖對(duì)本發(fā)明的示例性實(shí)施例的詳細(xì)描述,本發(fā)明的其它特征及其優(yōu)點(diǎn)將會(huì)變得清楚。



技術(shù)特征:

1.一種基于超聲的語音識(shí)別和重構(gòu)方法,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述舌運(yùn)動(dòng)特征根據(jù)以下步驟獲得:

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語音識(shí)別模型包括特征提取模塊、聲學(xué)模型和語言模型,所述特征提取模塊用于從所述語音音頻信號(hào)中提取聲學(xué)特征并從所述超聲舌位圖中提取舌位運(yùn)動(dòng)特征;所述聲學(xué)模型以基于所述聲學(xué)特征和所述舌位運(yùn)動(dòng)特征拼接成的總體特征作為輸入,獲得語音音頻信號(hào)對(duì)應(yīng)的音素序列;所述語言模型用于預(yù)測(cè)給定音素序列對(duì)應(yīng)的文本信息。

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述聲學(xué)模型包括lstm層、全連接層和聯(lián)結(jié)時(shí)序分類層,所述聲學(xué)特征和所述舌位運(yùn)動(dòng)特征依次通過所述lstm層、所述全連接層和所述聯(lián)結(jié)時(shí)序分類層得到損失函數(shù),通過優(yōu)化損失值,學(xué)習(xí)語音音頻信號(hào)所對(duì)應(yīng)的音素序列。

5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述lstm層是雙向lstm層,每層lstm包括多個(gè)隱藏節(jié)點(diǎn)。

6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語音合成模型基于vits模型構(gòu)建,包含預(yù)處理模塊、編碼器、潛在空間建模模塊和解碼器,所述預(yù)處理模塊用于將輸入的文本信息轉(zhuǎn)化為聲學(xué)特征;所述編碼器用于對(duì)所述聲學(xué)特征進(jìn)行建模,捕捉上下文信息;所述潛在空間建模模塊用于學(xué)習(xí)到一個(gè)低維連續(xù)的潛在空間;所述解碼器用于在潛在空間中進(jìn)行采樣,以生成波形序列。

7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述編碼器采用transformer結(jié)構(gòu)對(duì)所述聲學(xué)特征進(jìn)行建模。

8.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述語言模型采用循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建。

9.一種基于超聲的語音識(shí)別和重構(gòu)系統(tǒng),包括:

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其中,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1至8中任一項(xiàng)所述方法的步驟。


技術(shù)總結(jié)
本發(fā)明公開了一種基于超聲的語音識(shí)別和重構(gòu)方法與系統(tǒng)。該方法包括:采集目標(biāo)的語音音頻信號(hào)和對(duì)應(yīng)的超聲舌位圖;從所述語音音頻信號(hào)中獲得聲學(xué)特征,并基于所述超聲舌位圖提取對(duì)應(yīng)的舌位運(yùn)動(dòng)特征;將所述聲學(xué)特征和所述舌位運(yùn)動(dòng)特征拼接成總體特征,輸入到經(jīng)訓(xùn)練的語音識(shí)別模型,獲得對(duì)應(yīng)的文本信息;以所述文本信息和所述舌位運(yùn)動(dòng)特征作為輸入,利用經(jīng)訓(xùn)練的語音合成模型,獲得重構(gòu)語音。本發(fā)明能夠?qū)⒄系K語音轉(zhuǎn)化為易于理解的文字以及正常語音,有利于語音障礙患者與外界進(jìn)行正常交流。

技術(shù)研發(fā)人員:楊少蒙,謝旭榮,蘇榮鋒,王嵐,燕楠
受保護(hù)的技術(shù)使用者:中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1