日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于VITS的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換方法與裝置

文檔序號(hào):39726976發(fā)布日期:2024-10-22 13:27閱讀:8來(lái)源:國(guó)知局
一種基于VITS的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換方法與裝置

本發(fā)明涉及語(yǔ)音轉(zhuǎn)換,尤其涉及一種基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換方法與裝置。


背景技術(shù):

1、語(yǔ)音轉(zhuǎn)換(vc)是一項(xiàng)旨在修改說(shuō)話人信息的語(yǔ)音特征的任務(wù),例如說(shuō)話人的身份、情感和口音,同時(shí)保留語(yǔ)音的內(nèi)容信息。隨著對(duì)語(yǔ)音轉(zhuǎn)換領(lǐng)域的研究不斷深入,該領(lǐng)域的技術(shù)正在迅速發(fā)展。從最初的基于統(tǒng)計(jì)建模的方法,到如今的基于深度學(xué)習(xí)技術(shù)的方法。這種技術(shù)的進(jìn)步對(duì)語(yǔ)音在現(xiàn)實(shí)世界中的多種應(yīng)用產(chǎn)生了促進(jìn)作用,并使用戶受益。例如語(yǔ)音合成,語(yǔ)音身份隱私的保護(hù),說(shuō)話人識(shí)別,以及個(gè)性化語(yǔ)音助手等。

2、隨著科技進(jìn)步的驅(qū)動(dòng),語(yǔ)音轉(zhuǎn)換技術(shù)逐漸受到廣泛關(guān)注。雖然當(dāng)前的研究已能夠提供高品質(zhì)的語(yǔ)音轉(zhuǎn)換,但實(shí)時(shí)語(yǔ)音轉(zhuǎn)換的能力仍顯不足。

3、隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用,語(yǔ)音轉(zhuǎn)換模型變得越來(lái)越復(fù)雜,從而導(dǎo)致了語(yǔ)音轉(zhuǎn)換速度問題的凸顯。特別是在實(shí)時(shí)通信和語(yǔ)音助手等場(chǎng)景中,用戶對(duì)于快速、即時(shí)的語(yǔ)音轉(zhuǎn)換效果有了更高的期待,提高語(yǔ)音的轉(zhuǎn)換速度已然成為了研究者們面臨的重要任務(wù)。

4、語(yǔ)音轉(zhuǎn)換技術(shù)的進(jìn)步已經(jīng)在人們的日常生活和工作中帶來(lái)了顯著的影響,盡管面臨著多項(xiàng)挑戰(zhàn),但隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等技術(shù)的不斷進(jìn)步,對(duì)于改善語(yǔ)音轉(zhuǎn)換技術(shù)的理解和能力也在不斷提升。隨著語(yǔ)音技術(shù)的不斷研究和創(chuàng)新,未來(lái)的研究人員能夠進(jìn)一步增強(qiáng)語(yǔ)音轉(zhuǎn)換技術(shù)的效果和性能,為用戶帶來(lái)更加定制化、自然以及多元化的語(yǔ)音體驗(yàn)。

5、針對(duì)語(yǔ)音轉(zhuǎn)換技術(shù),前人的語(yǔ)音轉(zhuǎn)換研究已經(jīng)可以實(shí)現(xiàn)高質(zhì)量的語(yǔ)音轉(zhuǎn)換,并且在語(yǔ)音相似度和自然度都得到了很大提升。

6、在語(yǔ)音轉(zhuǎn)換領(lǐng)域研究的早期階段,前人提出了許多基于頻譜轉(zhuǎn)換的方法。其中以基于高斯混合模型(gmm)的統(tǒng)計(jì)方法得到了廣泛使用。前人在基于非平行語(yǔ)音轉(zhuǎn)換的研究中,生成對(duì)抗網(wǎng)絡(luò)(gan)和變分自編碼器(vae)在語(yǔ)音轉(zhuǎn)換的方法展現(xiàn)了優(yōu)異的性能。特別是cyclegan-vc(它是一種基于循環(huán)一致性對(duì)抗網(wǎng)絡(luò)架構(gòu)的語(yǔ)音轉(zhuǎn)換模型)使用門控卷積神經(jīng)網(wǎng)絡(luò)捕獲語(yǔ)音的上下文信息和層次結(jié)構(gòu),并且通過引入身份映射損失來(lái)轉(zhuǎn)換說(shuō)話人的身份特征,使用循環(huán)一致性損失訓(xùn)練生成器生成具有目標(biāo)語(yǔ)音說(shuō)話人身份特征的轉(zhuǎn)換語(yǔ)音。隨著研究的進(jìn)一步深入,研究者們開始探索對(duì)one-shot(任意對(duì)任意)語(yǔ)音轉(zhuǎn)換的實(shí)際研究。基于vae框架的autovc(自動(dòng)變聲器),使用語(yǔ)音解耦的方法分離語(yǔ)音中的內(nèi)容信息和說(shuō)話人信息,實(shí)現(xiàn)了one-shot語(yǔ)音轉(zhuǎn)換。

7、多數(shù)方法通過語(yǔ)音解耦實(shí)現(xiàn)one-shot語(yǔ)音轉(zhuǎn)換,即分離出語(yǔ)音的內(nèi)容信息和說(shuō)話人信息合成語(yǔ)音。根據(jù)vc提取語(yǔ)音內(nèi)容信息的方法,可以分為基于文本的vc和非基于文本vc?;谖谋镜膙c方法通常使用自動(dòng)語(yǔ)音識(shí)別(asr)模型提取音素后驗(yàn)圖(ppg)特征作為語(yǔ)音的內(nèi)容表示?;诜俏谋镜膙c方法,如信息瓶頸、矢量化和實(shí)例歸一化等。

8、基于文本的語(yǔ)音轉(zhuǎn)換方法的發(fā)展促進(jìn)了使用語(yǔ)音解耦的方法實(shí)現(xiàn)高質(zhì)量語(yǔ)音轉(zhuǎn)換的發(fā)展。如grad-tts(它是一種高質(zhì)量的文本到語(yǔ)音轉(zhuǎn)換模型),fastspeech(它是一種快速高質(zhì)量語(yǔ)音合成模型)等tts模型(文本轉(zhuǎn)語(yǔ)音模型),能夠合成自然的語(yǔ)音,已經(jīng)在vc領(lǐng)域上廣泛應(yīng)用。這些tts模型涉及兩個(gè)階段:在第一階段提取內(nèi)容和說(shuō)話人信息生成聲學(xué)特征,在第二階段使用預(yù)訓(xùn)練聲碼器將聲學(xué)特征轉(zhuǎn)換為語(yǔ)音波形。由于聲碼器和轉(zhuǎn)換模型是單獨(dú)訓(xùn)練的,導(dǎo)致轉(zhuǎn)換模型預(yù)測(cè)的聲學(xué)特征與聲碼器在訓(xùn)練期間使用的聲學(xué)特征之間存在差異性,導(dǎo)致特征失配,從而降低重構(gòu)波形的質(zhì)量。vits是一個(gè)單階段的文字到語(yǔ)音(tts)的語(yǔ)音合成模型,使用條件變分編碼器聯(lián)合訓(xùn)練轉(zhuǎn)換模型和聲碼器,通過這種方式減少了特征失配,提高了轉(zhuǎn)換語(yǔ)音的質(zhì)量。一些基于vits的語(yǔ)音轉(zhuǎn)換模型通過引入大規(guī)模預(yù)訓(xùn)練的自監(jiān)督學(xué)習(xí)(ssl)取得了很好的效果,如hubert(它是一種自監(jiān)督學(xué)習(xí)的語(yǔ)音信號(hào)處理模型)、whisper(它是一種多語(yǔ)言語(yǔ)音識(shí)別模型)等。hubert能夠捕獲語(yǔ)音信息中的長(zhǎng)期依賴性,從而理解語(yǔ)音信號(hào)中的上下文信息??梢院芎玫奶崛≌Z(yǔ)音內(nèi)容信息。而whisper提取的語(yǔ)音內(nèi)容包含口音信息,展現(xiàn)了優(yōu)秀的多語(yǔ)言能力。

9、freevc(它是無(wú)文本一次性語(yǔ)音轉(zhuǎn)換系統(tǒng))基于vits架構(gòu),使用wavlm(它是一種通用語(yǔ)音預(yù)訓(xùn)練模型)提取語(yǔ)音的ssl(語(yǔ)音自監(jiān)督學(xué)習(xí))特征,精準(zhǔn)設(shè)計(jì)瓶頸結(jié)構(gòu)實(shí)現(xiàn)了高效的one-shot語(yǔ)音轉(zhuǎn)換。而quickvc也是基于vits架構(gòu),引入傅里葉逆變換解碼器,可以多對(duì)多的實(shí)現(xiàn)實(shí)時(shí)轉(zhuǎn)換。

10、然而,以上各類方案的缺陷在于:基于高斯混合模型(gmm)的統(tǒng)計(jì)方法無(wú)法捕捉語(yǔ)音轉(zhuǎn)換中的非線性關(guān)系,嚴(yán)重影響轉(zhuǎn)換效果?;谏蓪?duì)抗網(wǎng)絡(luò)(gan)的方法學(xué)習(xí)的是不同說(shuō)話人之間的映射,該方法限制了其在不同說(shuō)話人轉(zhuǎn)換場(chǎng)景下的應(yīng)用。autovc受到了語(yǔ)音解耦效果的限制,并且性能很大程度上依賴于訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性,導(dǎo)致其轉(zhuǎn)換效果不佳?;谖谋镜膙c方法依賴于文本標(biāo)注。而基于非文本的vc方法與基于文本的方法相比性能較差?;趘its的語(yǔ)音轉(zhuǎn)換方法freevc轉(zhuǎn)換速度的限制,導(dǎo)致無(wú)法實(shí)現(xiàn)實(shí)時(shí)轉(zhuǎn)換。而quickvc受限于只能進(jìn)行多對(duì)多的轉(zhuǎn)換,無(wú)法實(shí)現(xiàn)任意對(duì)任意的轉(zhuǎn)換,并且合成效果較差。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是提供一種基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換方法與裝置,具有出色的語(yǔ)音自然度和與說(shuō)話人高度相似的特性,并且能夠語(yǔ)音轉(zhuǎn)換速度較快,能夠滿足實(shí)時(shí)性需求。

2、本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:

3、一種基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換方法,包括:

4、收集語(yǔ)音數(shù)據(jù)集并進(jìn)行預(yù)處理;

5、構(gòu)建基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換模型,包括:先驗(yàn)編碼器、說(shuō)話人編碼器、后驗(yàn)編碼器與神經(jīng)解碼器;

6、使用預(yù)處理后的語(yǔ)音數(shù)據(jù)集對(duì)所述基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換模型進(jìn)行模型,包括:將預(yù)處理后的語(yǔ)音數(shù)據(jù)集終端語(yǔ)音信息作為源語(yǔ)音與目標(biāo)語(yǔ)音,并從目標(biāo)語(yǔ)音中提取梅爾頻譜圖與線性譜;先驗(yàn)編碼器以源語(yǔ)音作為輸入,提取出語(yǔ)音內(nèi)容特征,并由此建模語(yǔ)音特征的先驗(yàn)分布;說(shuō)話人編碼器以目標(biāo)語(yǔ)音的梅爾頻譜圖作為輸入,提取出說(shuō)話人特征;后驗(yàn)編碼器以目標(biāo)語(yǔ)音的線性譜作為輸入,建模語(yǔ)音特征的后驗(yàn)分布,并以說(shuō)話人特征為條件采樣出語(yǔ)音特征;神經(jīng)解碼器以語(yǔ)音特征為輸入,以說(shuō)話人特征為條件,輸出合成語(yǔ)音;將神經(jīng)解碼器看作生成器,計(jì)算生成器總損失,包括:結(jié)合合成語(yǔ)音的梅爾頻譜圖與目標(biāo)語(yǔ)音的梅爾頻譜圖之間的差異計(jì)算的重構(gòu)損失,以及結(jié)合語(yǔ)音特征的先驗(yàn)分布與后驗(yàn)分布的差異計(jì)算的kl損失;同時(shí),引入鑒別器對(duì)合成語(yǔ)音的類別進(jìn)行鑒別,并計(jì)算鑒別器損失;結(jié)合所述生成器總損失與鑒別器損失構(gòu)建訓(xùn)練損失,并以此訓(xùn)練所述基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換模型;

7、訓(xùn)練完畢后移除后驗(yàn)編碼器,輸入源語(yǔ)音與目標(biāo)語(yǔ)音,源語(yǔ)音經(jīng)先驗(yàn)編碼器采樣出語(yǔ)音特征,目標(biāo)語(yǔ)音經(jīng)說(shuō)話人編碼器提取出說(shuō)話人特征,語(yǔ)音特征與說(shuō)話特征經(jīng)過逆變換處理后,經(jīng)神經(jīng)解碼器輸出轉(zhuǎn)換后的語(yǔ)音。

8、一種基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換裝置,用于實(shí)現(xiàn)前述的方法,該裝置包括:

9、數(shù)據(jù)收集及預(yù)處理單元,用于收集語(yǔ)音數(shù)據(jù)集并進(jìn)行預(yù)處理;

10、模型構(gòu)建單元,用于構(gòu)建基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換模型,包括:先驗(yàn)編碼器、說(shuō)話人編碼器、后驗(yàn)編碼器與神經(jīng)解碼器;

11、模型訓(xùn)練單元,用于使用預(yù)處理后的語(yǔ)音數(shù)據(jù)集對(duì)所述基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換模型進(jìn)行模型,包括:將預(yù)處理后的語(yǔ)音數(shù)據(jù)集終端語(yǔ)音信息作為源語(yǔ)音與目標(biāo)語(yǔ)音,并從目標(biāo)語(yǔ)音中提取梅爾頻譜圖與線性譜;先驗(yàn)編碼器以源語(yǔ)音作為輸入,提取出語(yǔ)音內(nèi)容特征,并由此建模語(yǔ)音特征的先驗(yàn)分布;說(shuō)話人編碼器以目標(biāo)語(yǔ)音的梅爾頻譜圖作為輸入,提取出說(shuō)話人特征;后驗(yàn)編碼器以目標(biāo)語(yǔ)音的線性譜作為輸入,建模語(yǔ)音特征的后驗(yàn)分布,并以說(shuō)話人特征為條件采樣出語(yǔ)音特征;神經(jīng)解碼器以語(yǔ)音特征為輸入,以說(shuō)話人特征為條件,輸出合成語(yǔ)音;將神經(jīng)解碼器看作生成器,計(jì)算生成器總損失,包括:結(jié)合合成語(yǔ)音的梅爾頻譜圖與目標(biāo)語(yǔ)音的梅爾頻譜圖之間的差異計(jì)算的重構(gòu)損失,以及結(jié)合語(yǔ)音特征的先驗(yàn)分布與后驗(yàn)分布的差異計(jì)算的kl損失;同時(shí),引入鑒別器對(duì)合成語(yǔ)音的類別進(jìn)行鑒別,并計(jì)算鑒別器損失;結(jié)合所述生成器總損失與鑒別器損失構(gòu)建訓(xùn)練損失,并以此訓(xùn)練所述基于vits的實(shí)時(shí)語(yǔ)音轉(zhuǎn)換模型;

12、實(shí)時(shí)語(yǔ)音轉(zhuǎn)換單元,用于訓(xùn)練完畢后移除后驗(yàn)編碼器,輸入源語(yǔ)音與目標(biāo)語(yǔ)音,源語(yǔ)音經(jīng)先驗(yàn)編碼器采樣出語(yǔ)音特征,目標(biāo)語(yǔ)音經(jīng)說(shuō)話人編碼器提取出說(shuō)話人特征,語(yǔ)音特征與說(shuō)話特征經(jīng)過逆變換處理后,經(jīng)神經(jīng)解碼器輸出轉(zhuǎn)換后的語(yǔ)音。

13、由上述本發(fā)明提供的技術(shù)方案可以看出,基于vits的端到端實(shí)時(shí)語(yǔ)音轉(zhuǎn)換技術(shù),實(shí)現(xiàn)任意對(duì)任意的語(yǔ)音轉(zhuǎn)換,具有重要的意義和價(jià)值,并且是一種一階段的語(yǔ)音轉(zhuǎn)換方案,通過端到端的訓(xùn)練方式實(shí)現(xiàn)了語(yǔ)音轉(zhuǎn)換,相較于傳統(tǒng)的兩階段模型,本發(fā)明消除了聲學(xué)特征匹配的差異性,從而提高了轉(zhuǎn)換效果。同時(shí),為了實(shí)現(xiàn)任意對(duì)任意的語(yǔ)音轉(zhuǎn)換,引入說(shuō)話人編碼器,還引入神經(jīng)解碼器以提高語(yǔ)音轉(zhuǎn)換的速度,能夠滿足實(shí)時(shí)性需求;此外,還通過實(shí)驗(yàn)驗(yàn)證了本發(fā)明在轉(zhuǎn)換速度和語(yǔ)音轉(zhuǎn)換效果方面的性能。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1