本技術(shù)屬于人工智能,特別涉及一種確定語(yǔ)音質(zhì)量的方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品。
背景技術(shù):
1、在相關(guān)技術(shù)中,可以基于傳統(tǒng)的深度網(wǎng)絡(luò)(deep?neural?network,dnn)或者機(jī)器學(xué)習(xí)算法進(jìn)行語(yǔ)音質(zhì)量評(píng)估,但是相關(guān)技術(shù)中進(jìn)行語(yǔ)音指令評(píng)估的方案并不能全面地提取語(yǔ)音數(shù)據(jù)的特征,從而降低了語(yǔ)音數(shù)據(jù)的質(zhì)量評(píng)估的準(zhǔn)確性。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供一種確定語(yǔ)音質(zhì)量的方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品。
2、本技術(shù)實(shí)施例提供一種確定語(yǔ)音質(zhì)量的方法,所述方法包括:
3、獲取多個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù),所述多個(gè)時(shí)間點(diǎn)中每個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)包括語(yǔ)音數(shù)據(jù)的傳輸質(zhì)量指標(biāo);
4、獲取所述多個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的特征,將所述多個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的特征輸入至包括注意力層的編碼器,得到編碼器的輸出特征;
5、根據(jù)所述編碼器的輸出特征,確定所述語(yǔ)音數(shù)據(jù)的質(zhì)量。
6、在一些實(shí)施例中,所述多個(gè)時(shí)間點(diǎn)中每個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的特征為對(duì)應(yīng)時(shí)間點(diǎn)的待處理數(shù)據(jù)的向量表征??梢钥闯?,本技術(shù)實(shí)施例中,可以通過(guò)對(duì)每個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的向量表征進(jìn)行處理,得出編碼器的輸出特征,由于語(yǔ)音數(shù)據(jù)的質(zhì)量是根據(jù)編碼器的輸出特征確定的,因此,本技術(shù)實(shí)施例可以根據(jù)每個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的向量表征,較為準(zhǔn)確地確定語(yǔ)音數(shù)據(jù)的質(zhì)量。
7、在一些實(shí)施例中,所述語(yǔ)音數(shù)據(jù)的傳輸質(zhì)量指標(biāo)包括用于實(shí)現(xiàn)所述語(yǔ)音數(shù)據(jù)傳輸?shù)木W(wǎng)絡(luò)協(xié)議的數(shù)據(jù)傳輸指標(biāo),所述網(wǎng)絡(luò)協(xié)議包括實(shí)時(shí)傳輸協(xié)議(real-time?transportprotocol,rtp)和/或?qū)崟r(shí)傳輸控制協(xié)議(real-time?transport?control?protocol,rtcp)??梢钥闯?,本技術(shù)實(shí)施例可以通過(guò)對(duì)網(wǎng)絡(luò)協(xié)議的數(shù)據(jù)傳輸指標(biāo)的特征進(jìn)行處理,得到編碼器的輸出特征,從而確定語(yǔ)音數(shù)據(jù)的質(zhì)量;即,本技術(shù)實(shí)施例可以根據(jù)網(wǎng)絡(luò)協(xié)議的數(shù)據(jù)傳輸指標(biāo),從數(shù)據(jù)傳輸?shù)慕嵌瘸霭l(fā)較為準(zhǔn)確地分析出語(yǔ)音數(shù)據(jù)的質(zhì)量。
8、在一些實(shí)施例中,所述語(yǔ)音數(shù)據(jù)的質(zhì)量為所述語(yǔ)音數(shù)據(jù)的平均意見(jiàn)得分(meanopnion?score,mos)??梢?jiàn),本技術(shù)實(shí)施例可以根據(jù)編碼器的輸出特征,較為準(zhǔn)確地確定語(yǔ)音數(shù)據(jù)的mos值,從而可以根據(jù)語(yǔ)音數(shù)據(jù)的mos值簡(jiǎn)單容易地確定語(yǔ)音數(shù)據(jù)的質(zhì)量。
9、在一些實(shí)施例中,所述獲取所述多個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的特征、得到編碼器的輸出特征、以及確定所述語(yǔ)音數(shù)據(jù)的質(zhì)量的步驟是在預(yù)先訓(xùn)練的語(yǔ)音質(zhì)量評(píng)估模型中執(zhí)行的;所述語(yǔ)音質(zhì)量評(píng)估模型的訓(xùn)練過(guò)程包括以下步驟:獲取多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)、以及所述多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音質(zhì)量的真實(shí)值;所述多個(gè)時(shí)間點(diǎn)中每個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)包括語(yǔ)音樣本數(shù)據(jù)的傳輸質(zhì)量指標(biāo);利用所述語(yǔ)音質(zhì)量評(píng)估模型對(duì)所述多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)進(jìn)行處理,得到所述多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音質(zhì)量的評(píng)估值;根據(jù)所述多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音質(zhì)量的真實(shí)值、以及所述多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音質(zhì)量的評(píng)估值,調(diào)整所述語(yǔ)音質(zhì)量評(píng)估模型的參數(shù)。
10、可以看出,在語(yǔ)音質(zhì)量評(píng)估模型的訓(xùn)練過(guò)程中,本技術(shù)實(shí)施例可以根據(jù)多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音質(zhì)量的真實(shí)值、以及多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音質(zhì)量的評(píng)估值,對(duì)語(yǔ)音質(zhì)量評(píng)估模型的參數(shù)進(jìn)行調(diào)整,從而可以使得訓(xùn)練后的語(yǔ)音質(zhì)量評(píng)估模型能夠較為準(zhǔn)確地進(jìn)行語(yǔ)音質(zhì)量評(píng)估。
11、在一些實(shí)施例中,在利用所述語(yǔ)音質(zhì)量評(píng)估模型對(duì)所述多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)進(jìn)行處理,得到所述多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音質(zhì)量的評(píng)估值之前,所述方法還包括:將所述多個(gè)時(shí)間點(diǎn)中各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)進(jìn)行處理,得到所述各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的特征;生成所述語(yǔ)音質(zhì)量評(píng)估模型的編碼器的輸入信息,所述輸入信息至少包括對(duì)所述各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的特征進(jìn)行掩碼(mask)操作的結(jié)果;利用所述編碼器對(duì)所述輸入信息進(jìn)行處理,得出所述編碼器的處理結(jié)果;根據(jù)所述編碼器的處理結(jié)果,通過(guò)恢復(fù)層重建所述各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的向量表征,得到重建結(jié)果;根據(jù)所述重建結(jié)果、以及所述各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的向量表征,調(diào)整所述恢復(fù)層和所述編碼器的參數(shù)。
12、可以看出,在調(diào)整語(yǔ)音質(zhì)量評(píng)估模型的參數(shù)之前,可以通過(guò)對(duì)各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的特征進(jìn)行掩碼操作得到編碼器的輸入信息,然后,在利用編碼器對(duì)輸入信息進(jìn)行處理后,根據(jù)編碼器的處理結(jié)果可以對(duì)各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的向量表征進(jìn)行重建;在得到重建結(jié)果后,根據(jù)重建結(jié)果、以及各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的向量表征,可以合理地調(diào)整編碼器的參數(shù),從而使得編碼器能夠更加準(zhǔn)確地進(jìn)行數(shù)據(jù)處理。
13、在一些實(shí)施例中,所述生成所述語(yǔ)音質(zhì)量評(píng)估模型的編碼器的輸入信息,包括:根據(jù)預(yù)設(shè)比例,在每個(gè)特征維度上遍歷各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的特征,對(duì)每個(gè)特征維度對(duì)應(yīng)的部分時(shí)間點(diǎn)的樣本數(shù)據(jù)的特征進(jìn)行掩碼操作,得到每個(gè)特征維度對(duì)應(yīng)的掩碼操作結(jié)果;所述預(yù)設(shè)比例表示所述部分時(shí)間點(diǎn)在所述每個(gè)特征維度對(duì)應(yīng)的全部時(shí)間點(diǎn)中的數(shù)量占比;根據(jù)各個(gè)特征維度對(duì)應(yīng)的掩碼操作結(jié)果,生成所述輸入信息。
14、可以看出,本技術(shù)實(shí)施例不會(huì)將某一隨機(jī)時(shí)間點(diǎn)的全部向量表征都進(jìn)行掩碼操作,而是可以針對(duì)每個(gè)特征維度將部分時(shí)間點(diǎn)的樣本數(shù)據(jù)的特征進(jìn)行掩碼操作,從而有利于鼓勵(lì)語(yǔ)音質(zhì)量評(píng)估模型學(xué)習(xí)不同特征維度之間的數(shù)據(jù)的依賴(lài)關(guān)系,有利于提升語(yǔ)音質(zhì)量評(píng)估模型對(duì)不同特征維度的數(shù)據(jù)的處理精度。
15、在一些實(shí)施例中,所述生成所述語(yǔ)音質(zhì)量評(píng)估模型的編碼器的輸入信息,包括:根據(jù)預(yù)設(shè)平均長(zhǎng)度,在每個(gè)特征維度上遍歷各個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的特征,對(duì)每個(gè)特征維度對(duì)應(yīng)的連續(xù)多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的特征進(jìn)行掩碼操作,得到每個(gè)特征維度對(duì)應(yīng)的掩碼操作結(jié)果;所述預(yù)設(shè)平均長(zhǎng)度表示各個(gè)特征維度對(duì)應(yīng)的連續(xù)掩碼長(zhǎng)度的平均值,所述連續(xù)掩碼長(zhǎng)度表示連續(xù)多個(gè)時(shí)間點(diǎn)的時(shí)間點(diǎn)長(zhǎng)度;根據(jù)各個(gè)特征維度對(duì)應(yīng)的掩碼操作結(jié)果,生成所述輸入信息。
16、可以看出,本技術(shù)實(shí)施例并不會(huì)僅僅針對(duì)單個(gè)時(shí)間點(diǎn)的特征進(jìn)行數(shù)值替換,而是可以對(duì)每個(gè)特征維度對(duì)應(yīng)的連續(xù)多個(gè)時(shí)間點(diǎn)的樣本數(shù)據(jù)的特征進(jìn)行掩碼操作,這樣語(yǔ)音質(zhì)量評(píng)估模型不能通過(guò)插值運(yùn)算或計(jì)算相鄰時(shí)間點(diǎn)的的特征的均值,來(lái)恢復(fù)實(shí)施掩碼操作的數(shù)值,從而有利于語(yǔ)音質(zhì)量評(píng)估模型更有效地學(xué)習(xí)不同時(shí)間點(diǎn)的特征之間的依賴(lài)關(guān)系。
17、本技術(shù)實(shí)施例還提供了一種確定語(yǔ)音質(zhì)量的裝置,所述裝置包括:
18、獲取模塊,用于獲取多個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù),所述多個(gè)時(shí)間點(diǎn)中每個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)包括語(yǔ)音數(shù)據(jù)的傳輸質(zhì)量指標(biāo);
19、處理模塊,用于獲取所述多個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的特征,將所述多個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的特征輸入至包括注意力層的編碼器,得到編碼器的輸出特征;根據(jù)所述編碼器的輸出特征,確定所述語(yǔ)音數(shù)據(jù)的質(zhì)量。
20、本技術(shù)實(shí)施例還提供了一種電子設(shè)備,所述電子設(shè)備包括處理器和用于存儲(chǔ)能夠在處理器上運(yùn)行的計(jì)算機(jī)程序的存儲(chǔ)器;其中,所述處理器用于運(yùn)行所述計(jì)算機(jī)程序以執(zhí)行上述任意一種確定語(yǔ)音質(zhì)量的方法。
21、本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任意一種確定語(yǔ)音質(zhì)量的方法。
22、本技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任意一種確定語(yǔ)音質(zhì)量的方法。
23、可以看出,本技術(shù)實(shí)施例可以利用包括注意力層的編碼器,對(duì)多個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的特征進(jìn)行處理,由于注意力層可以基于注意力機(jī)制學(xué)習(xí)各個(gè)時(shí)間點(diǎn)的數(shù)據(jù)之間的依賴(lài)關(guān)系以及不同特征之間的相關(guān)關(guān)系,因此,本技術(shù)實(shí)施例可以在考慮多個(gè)時(shí)間點(diǎn)的待處理數(shù)據(jù)的依賴(lài)關(guān)系、以及多個(gè)時(shí)間點(diǎn)的特征之間的關(guān)系的基礎(chǔ)上,確定語(yǔ)音數(shù)據(jù)的質(zhì)量,有利于提高語(yǔ)音數(shù)據(jù)的質(zhì)量評(píng)估的準(zhǔn)確性。