本申請涉及語音處理,特別是涉及一種合成語音切換方法及相關(guān)裝置、設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,語音合成技術(shù)得到了發(fā)展,用于實現(xiàn)將文本自動轉(zhuǎn)換為語音。
2、現(xiàn)有技術(shù)中,在進(jìn)行合成語音播放時,為了支持用戶在播放過程中對合成語音執(zhí)行新的參數(shù)配置,會先暫停當(dāng)前播放,等待新的語音合成完成后,再切換播放新的合成語音。但是,等待新的語音合成會造成語音切換的不流暢,進(jìn)而導(dǎo)致合成語音切換的流暢度較低。有鑒于此,如何提升合成語音切換的流暢度,盡可能地實現(xiàn)合成語音切換的無縫銜接播放,成為亟待解決的問題。
技術(shù)實現(xiàn)思路
1、本申請主要解決的技術(shù)問題是提供一種合成語音切換方法及相關(guān)裝置、設(shè)備和存儲介質(zhì),能夠提升合成語音切換的流暢度,盡可能地實現(xiàn)合成語音切換的無縫銜接播放。
2、為了解決上述技術(shù)問題,本申請第一方面提供了一種合成語音切換方法,包括:播放基于第一配置參數(shù)對待合成文本合成得到的第一合成語音;響應(yīng)于檢測到表征基于第二配置參數(shù)重新進(jìn)行語音合成的控制指令,基于第二配置參數(shù)對待合成文本進(jìn)行語音合成,得到第二合成語音;基于第一合成語音在第二合成語音合成完成時刻的第一播放進(jìn)度,確定第二合成語音中與第一播放進(jìn)度匹配的第二播放進(jìn)度;從第二合成語音的第二播放進(jìn)度開始,切換播放第二合成語音。
3、為了解決上述技術(shù)問題,本申請第二方面提供了一種合成語音切換裝置,包括:播放模塊、合成模塊、確定模塊和切換模塊,播放模塊用于播放基于第一配置參數(shù)對待合成文本合成得到的第一合成語音;合成模塊用于響應(yīng)于檢測到表征基于第二配置參數(shù)重新進(jìn)行語音合成的控制指令,基于第二配置參數(shù)對待合成文本進(jìn)行語音合成,得到第二合成語音;確定模塊用于基于第一合成語音在第二合成語音合成完成時刻的第一播放進(jìn)度,確定第二合成語音中與第一播放進(jìn)度匹配的第二播放進(jìn)度;切換模塊用于從第二合成語音的第二播放進(jìn)度開始,切換播放第二合成語音。
4、為了解決上述技術(shù)問題,本申請第三方面提供了一種電子設(shè)備,包括相互耦接的存儲器和處理器,存儲器中存儲有程序指令,處理器用于執(zhí)行程序指令以實現(xiàn)上述第一方面中的合成語音切換方法。
5、為了解決上述技術(shù)問題,本申請第四方面提供了一種計算機(jī)可讀存儲介質(zhì),存儲有能夠被處理器運(yùn)行的程序指令,程序指令用于實現(xiàn)上述第一方面所述的合成語音切換方法。
6、上述方案,播放基于第一配置參數(shù)對待合成文本合成得到的第一合成語音,在檢測到表征基于第二配置參數(shù)重新進(jìn)行語音合成的控制指令時,繼續(xù)保持播放第一合成語音,并基于第二配置參數(shù)對待合成文本進(jìn)行語音合成,得到第二合成語音,再基于第一合成語音在第二合成語音合成完成時刻的第一播放進(jìn)度,確定第二合成語音中與第一播放進(jìn)度匹配的第二播放進(jìn)度,即可從第二合成語音的第二播放進(jìn)度開始,切換播放第二合成語音。因此,在第二合成語音合成的過程中,保持第一合語音的播放,并基于第二合成語音的合成完成時刻,切換至第二合成語音中與第一播放進(jìn)度匹配的第二播放進(jìn)度處,實現(xiàn)合成語音的平滑切換。故能提升合成語音切換的流暢度,盡可能地實現(xiàn)合成語音切換的無縫銜接播放。
1.一種合成語音切換方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述第一合成語音在所述第二合成語音合成完成時刻的第一播放進(jìn)度,確定所述第二合成語音中與所述第一播放進(jìn)度匹配的第二播放進(jìn)度,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述待合成文本包含若干子文本,所述第一合成語音包含所述若干子文本的第一子語音,所述基于所述第二配置參數(shù)對所述待合成文本進(jìn)行語音合成,得到第二合成語音,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述第二配置參數(shù)依次對各個所述子文本進(jìn)行語音合成,得到第二子語音,包括:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述第二配置參數(shù)依次對各個所述子文本進(jìn)行語音合成,得到第二子語音,包括:
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述當(dāng)前子語音在所述期望子語音合成完成時刻的第一播放進(jìn)度,確定所述期望子語音中與所述第一播放進(jìn)度匹配的第二播放進(jìn)度,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
9.一種合成語音切換裝置,其特征在于,包括:
10.一種電子裝置,其特征在于,至少包括相互耦接的存儲器和處理器,所述存儲器中存儲有程序指令,所述處理器用于執(zhí)行所述程序指令以實現(xiàn)權(quán)利要求1至8任一項所述的合成語音切換方法。
11.一種計算機(jī)可讀存儲介質(zhì),其特征在于,存儲有能夠被處理器運(yùn)行的程序指令,所述程序指令用于實現(xiàn)權(quán)利要求1至8任一項所述的合成語音切換方法。