本技術涉及人工智能,尤其涉及一種語音增強方法、裝置、設備及存儲介質(zhì)。
背景技術:
1、語音增強技術的目標是把混有噪聲的聲音變成干凈的聲音,以提升語音質(zhì)量及語音可懂度。語音增強得到的干凈的聲音還可以用于下游任務,如智能語音識別、聲紋識別、語音編碼、語音情感分析等。得到的干凈的聲音中主要包括清音和濁音,濁音具有能量強、分布規(guī)律、宜學習的特點,在低信噪比的噪聲場景下比較容易實現(xiàn)噪聲抑制達到濁音恢復的目的。然而清音具有能量低、類白噪聲、不易區(qū)分的特點使其很難在低信噪比場景下恢復出來,故基于前述提到的清音的特點,現(xiàn)有技術中對清音恢復較為困難。
技術實現(xiàn)思路
1、本技術實施例提供一種語音增強方法、裝置、設備及存儲介質(zhì),以解決現(xiàn)有方案中清音難以恢復的問題。
2、為了解決上述技術問題,本技術是這樣實現(xiàn)的:
3、第一方面,本技術實施例提供了一種語音增強方法。該方法包括:
4、對混合語音進行語音增強,得到所述混合語音中估計的語音和估計的噪聲;
5、對所述估計的語音和估計的噪聲進行分析,確定所述混合語音中估計的濁音區(qū)域噪聲;
6、根據(jù)所述估計的濁音區(qū)域噪聲和所述混合語音,確定所述混合語音中估計的非濁音區(qū)域噪聲;
7、根據(jù)所述估計的非濁音區(qū)域噪聲和所述混合語音,確定所述混合語音中估計的清音。
8、可選地,所述對混合語音進行語音增強,得到所述混合語音中估計的語音和估計的噪聲,包括:
9、利用語音增強網(wǎng)絡對混合語音進行語音增強,得到所述混合語音中估計的語音和估計的噪聲;
10、其中,所述語音增強網(wǎng)絡基于第一損失函數(shù)訓練得到,所述第一損失函數(shù)包括第一子損失函數(shù)和第二子損失函數(shù),所述第一子損失函數(shù)為實際的噪聲和所述語音增強網(wǎng)絡訓練時輸出的估計的噪聲之間的尺度不變信躁比si-snr損失函數(shù),所述語音增強網(wǎng)絡訓練時輸出的估計的噪聲基于所述語音增強網(wǎng)絡訓練時輸入的混合語音得到;
11、所述第二子損失函數(shù)為實際的語音和所述語音增強網(wǎng)絡訓練時輸出的估計的語音之間的si-snr損失函數(shù),所述語音增強網(wǎng)絡訓練時輸出的估計的語音基于所述語音增強網(wǎng)絡訓練時輸入的混合語音得到。
12、可選地,所述對所述估計的語音和估計的噪聲進行分析,確定所述混合語音中估計的濁音區(qū)域噪聲,包括:
13、確定所述估計的語音中的濁音區(qū)域;
14、基于所述估計的噪聲和所述濁音區(qū)域,得到估計的濁音區(qū)域噪聲。
15、可選地,所述根據(jù)所述估計的濁音區(qū)域噪聲和所述混合語音,確定所述混合語音中估計的非濁音區(qū)域噪聲,包括:
16、將所述估計的濁音區(qū)域噪聲和所述混合語音輸入目標說話人語音提取targetspeaker?extractor算法,確定所述混合語音中估計的非濁音區(qū)域噪聲;
17、所述target?speaker?extractor算法基于第二損失函數(shù)訓練得到,所述第二損失函數(shù)為實際的非濁音區(qū)域噪聲和所述target?speaker?extractor算法訓練時輸出的估計的非濁音區(qū)域噪聲之間的si-snr損失函數(shù),所述target?speaker?extractor算法訓練時輸出的估計的非濁音區(qū)域噪聲基于所述target?speaker?extractor算法訓練時輸入的估計的濁音區(qū)域噪聲和混合語音得到。
18、可選地,所述根據(jù)所述估計的非濁音區(qū)域噪聲和所述混合語音,確定所述混合語音中估計的清音,包括:
19、將所述估計的非濁音區(qū)域噪聲和所述混合語音輸入神經(jīng)網(wǎng)絡,確定所述混合語音中估計的清音;
20、所述神經(jīng)網(wǎng)絡基于第三損失函數(shù)訓練得到,所述第三損失函數(shù)為實際的清音和所述神經(jīng)網(wǎng)絡訓練時輸出的估計的清音之間的si-snr損失函數(shù),所述神經(jīng)網(wǎng)絡訓練時輸入的估計的清音基于所述神經(jīng)網(wǎng)絡訓練時輸入的非濁音區(qū)域噪聲和混合語音得到。
21、可選地,所述第一損失函數(shù)還包括第三子損失函數(shù),所述第三子損失函數(shù)為所述實際的語音、所述語音增強網(wǎng)絡訓練時輸出的估計的噪聲和所述實際的噪聲之間的尺度不變的源偽影比si-snr損失函數(shù)。
22、第二方面,本技術實施例還提供一種語音增強裝置,該語音增強裝置包括:
23、第一處理模塊,用于對混合語音進行語音增強,得到所述混合語音中估計的語音和估計的噪聲;
24、第一確定模塊,用于對所述估計的語音和估計的噪聲進行分析,確定所述混合語音中估計的濁音區(qū)域噪聲;
25、第二確定模塊,用于根據(jù)所述估計的濁音區(qū)域噪聲和所述混合語音,確定所述混合語音中估計的非濁音區(qū)域噪聲;
26、第三確定模塊,用于根據(jù)所述估計的非濁音區(qū)域噪聲和所述混合語音,確定所述混合語音中估計的清音。
27、可選地,所述第一處理模塊,包括:
28、第一處理單元,用于利用語音增強網(wǎng)絡對混合語音進行語音增強,得到所述混合語音中估計的語音和估計的噪聲;
29、其中,所述語音增強網(wǎng)絡基于第一損失函數(shù)訓練得到,所述第一損失函數(shù)包括第一子損失函數(shù)和第二子損失函數(shù),所述第一子損失函數(shù)為實際的噪聲和所述語音增強網(wǎng)絡訓練時輸出的估計的噪聲之間的尺度不變信躁比si-snr損失函數(shù),所述語音增強網(wǎng)絡訓練時輸出的估計的噪聲基于所述語音增強網(wǎng)絡訓練時輸入的混合語音得到;
30、所述第二子損失函數(shù)為實際的語音和所述語音增強網(wǎng)絡訓練時輸出的估計的語音之間的si-snr損失函數(shù),所述語音增強網(wǎng)絡訓練時輸出的估計的語音基于所述語音增強網(wǎng)絡訓練時輸入的混合語音得到。
31、可選地,所述第一確定模塊,包括:
32、第一確定單元,用于確定所述估計的語音中的濁音區(qū)域;
33、第二確定單元,用于基于所述估計的噪聲和所述濁音區(qū)域,得到估計的濁音區(qū)域噪聲。
34、可選地,所述第二確定模塊,包括:
35、第三確定單元,用于將所述估計的濁音區(qū)域噪聲和所述混合語音輸入目標說話人語音提取target?speaker?extractor算法,確定所述混合語音中估計的非濁音區(qū)域噪聲;
36、所述target?speaker?extractor算法基于第二損失函數(shù)訓練得到,所述第二損失函數(shù)為實際的非濁音區(qū)域噪聲和所述target?speaker?extractor算法訓練時輸出的估計的非濁音區(qū)域噪聲之間的si-snr損失函數(shù),所述target?speaker?extractor算法訓練時輸出的估計的非濁音區(qū)域噪聲基于所述target?speaker?extractor算法訓練時輸入的估計的濁音區(qū)域噪聲和混合語音得到。
37、可選地,所述第三確定模塊,包括:
38、第四確定單元,用于將所述估計的非濁音區(qū)域噪聲和所述混合語音輸入神經(jīng)網(wǎng)絡,確定所述混合語音中估計的清音;
39、所述神經(jīng)網(wǎng)絡基于第三損失函數(shù)訓練得到,所述第三損失函數(shù)為實際的清音和所述神經(jīng)網(wǎng)絡訓練時輸出的估計的清音之間的si-snr損失函數(shù),所述神經(jīng)網(wǎng)絡訓練時輸入的估計的清音基于所述神經(jīng)網(wǎng)絡訓練時輸入的非濁音區(qū)域噪聲和混合語音得到。
40、可選地,所述第一損失函數(shù)還包括第三子損失函數(shù),所述第三子損失函數(shù)為所述實際的語音、所述語音增強網(wǎng)絡訓練時輸出的估計的噪聲和所述實際的噪聲之間的尺度不變的源偽影比si-sar損失函數(shù)。
41、第三方面,本技術實施例還提供一種語音增強設備,所述語音增強設備包括收發(fā)機和處理器,所述處理器用于:
42、對混合語音進行語音增強,得到所述混合語音中估計的語音和估計的噪聲;
43、對所述估計的語音和估計的噪聲進行分析,確定所述混合語音中估計的濁音區(qū)域噪聲;
44、根據(jù)所述估計的濁音區(qū)域噪聲和所述混合語音,確定所述混合語音中估計的非濁音區(qū)域噪聲;
45、根據(jù)所述估計的非濁音區(qū)域噪聲和所述混合語音,確定所述混合語音中估計的清音。
46、可選地,所述處理器,具體用于:
47、利用語音增強網(wǎng)絡對混合語音進行語音增強,得到所述混合語音中估計的語音和估計的噪聲;
48、其中,所述語音增強網(wǎng)絡基于第一損失函數(shù)訓練得到,所述第一損失函數(shù)包括第一子損失函數(shù)和第二子損失函數(shù),所述第一子損失函數(shù)為實際的噪聲和所述語音增強網(wǎng)絡訓練時輸出的估計的噪聲之間的尺度不變信躁比si-snr損失函數(shù),所述語音增強網(wǎng)絡訓練時輸出的估計的噪聲基于所述語音增強網(wǎng)絡訓練時輸入的混合語音得到;
49、所述第二子損失函數(shù)為實際的語音和所述語音增強網(wǎng)絡訓練時輸出的估計的語音之間的si-snr損失函數(shù),所述語音增強網(wǎng)絡訓練時輸出的估計的語音基于所述語音增強網(wǎng)絡訓練時輸入的混合語音得到。
50、可選地,所述處理器,具體用于:
51、確定所述估計的語音中的濁音區(qū)域;
52、基于所述估計的噪聲和所述濁音區(qū)域,得到估計的濁音區(qū)域噪聲。
53、可選地,所述處理器,具體用于:
54、將所述估計的濁音區(qū)域噪聲和所述混合語音輸入目標說話人語音提取targetspeaker?extractor算法,確定所述混合語音中估計的非濁音區(qū)域噪聲;
55、所述target?speaker?extractor算法基于第二損失函數(shù)訓練得到,所述第二損失函數(shù)為實際的非濁音區(qū)域噪聲和所述target?speaker?extractor算法訓練時輸出的估計的非濁音區(qū)域噪聲之間的si-snr損失函數(shù),所述target?speaker?extractor算法訓練時輸出的估計的非濁音區(qū)域噪聲基于所述target?speaker?extractor算法訓練時輸入的估計的濁音區(qū)域噪聲和混合語音得到。
56、可選地,所述處理器,具體用于:
57、將所述估計的非濁音區(qū)域噪聲和所述混合語音輸入神經(jīng)網(wǎng)絡,確定所述混合語音中估計的清音;
58、所述神經(jīng)網(wǎng)絡基于第三損失函數(shù)訓練得到,所述第三損失函數(shù)為實際的清音和所述神經(jīng)網(wǎng)絡訓練時輸出的估計的清音之間的si-snr損失函數(shù),所述神經(jīng)網(wǎng)絡訓練時輸入的估計的清音基于所述神經(jīng)網(wǎng)絡訓練時輸入的非濁音區(qū)域噪聲和混合語音得到。
59、可選地,所述第一損失函數(shù)還包括第三子損失函數(shù),所述第三子損失函數(shù)為所述實際的語音、所述語音增強網(wǎng)絡訓練時輸出的估計的噪聲和所述實際的噪聲之間的尺度不變的源偽影比si-sar損失函數(shù)。
60、第四方面,本技術實施例還提供一種電子設備,包括處理器、存儲器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執(zhí)行時實現(xiàn)上述的語音增強方法的步驟。
61、第五方面,本技術實施例還提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述的語音增強方法的步驟。
62、本技術實施例的語音增強方法,包括對混合語音進行語音增強,得到所述混合語音中估計的語音和估計的噪聲;對所述估計的語音和估計的噪聲進行分析,確定所述混合語音中估計的濁音區(qū)域噪聲;根據(jù)所述估計的濁音區(qū)域噪聲和所述混合語音,確定所述混合語音中估計的非濁音區(qū)域噪聲;根據(jù)所述估計的非濁音區(qū)域噪聲和所述混合語音,確定所述混合語音中估計的清音。該方法以反向?qū)W習估計的濁音區(qū)域噪聲為依托,學習得到混合語音中的非濁音區(qū)域噪聲,然后利用學習得到的非濁音區(qū)域的噪聲以及原來的混合信號,完整地實現(xiàn)了清音的恢復。