本技術(shù)涉及語音和加密,尤其涉及一種聲紋認證方法、裝置、系統(tǒng)、相關(guān)設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、如圖1所示,現(xiàn)有的安全聲紋識別技術(shù)通常需要依次經(jīng)過聲學(xué)特征提取模塊、聲紋特征向量提取模塊和向量加密模塊,并且需要單獨設(shè)計基于哈希映射或特征轉(zhuǎn)換的向量加密模塊。
2、一方面,相比于直接輸入音頻,使用人工設(shè)計的聲學(xué)特征會損失說話人信息;另一方面,添加獨立的特征向量加密模塊,通常會對聲紋驗證的性能產(chǎn)生負面影響??梢?,現(xiàn)有安全聲紋識別技術(shù)存在識別性能較差的問題。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提供一種聲紋認證方法、裝置、系統(tǒng)、相關(guān)設(shè)備及存儲介質(zhì),以解決現(xiàn)有安全聲紋識別技術(shù)存在識別性能較差的問題。
2、第一方面,本技術(shù)實施例提供了一種聲紋認證方法,由客戶端執(zhí)行,所述方法包括:
3、對用戶輸入的認證語音進行聲紋特征提取,得到認證聲紋特征向量;
4、獲取認證密鑰;
5、將所述認證密鑰與所述認證聲紋特征向量進行拼接處理,得到認證聲紋特征模板;
6、向服務(wù)端發(fā)送所述認證聲紋特征模板;
7、接收所述服務(wù)端發(fā)送的聲紋認證結(jié)果。
8、可選地,所述對用戶輸入的認證語音進行聲紋特征提取,包括:
9、利用預(yù)先訓(xùn)練好的端到端聲紋識別模型中的聲紋特征提取層對所述認證語音進行聲紋特征提取,其中,所述端到端聲紋識別模型是結(jié)合密鑰數(shù)據(jù)和聲音數(shù)據(jù)對初始端到端聲紋識別模型進行訓(xùn)練得到的,所述初始端到端聲紋識別模型包括聲紋特征提取層和特征拼接層,所述聲紋特征提取層是預(yù)先訓(xùn)練好的說話人分類模型中的特征提取層;
10、所述將所述認證密鑰與所述認證聲紋特征向量進行拼接處理,包括:
11、利用所述端到端聲紋識別模型中的特征拼接層對所述認證密鑰與所述認證聲紋特征向量進行拼接處理。
12、可選地,所述說話人分類模型是以優(yōu)化三元組損失為訓(xùn)練目標,對骨干特征提取模型進行訓(xùn)練得到的,其中,所述優(yōu)化三元組損失包括最小化va與vp的距離d1和最大化va與vn的距離,所述va為錨點輸入xa的聲紋特征向量,vp為輸入的正樣本xp的聲紋特征向量,vn為輸入的負樣本xn的聲紋特征向量。
13、可選地,所述端到端聲紋識別模型是以優(yōu)化五元組損失為訓(xùn)練目標,結(jié)合密鑰數(shù)據(jù)和聲音數(shù)據(jù)對所述初始端到端聲紋識別模型進行訓(xùn)練得到的,其中,所述優(yōu)化五元組損失包括最小化va'與vp1的距離、最大化v?a'與vp2的距離、最大化v?a'與vn1的距離和最大化v?a'與vn2的距離,所述va'為錨點輸入xa與匹配密鑰k1的拼接特征向量,vp1為輸入的正樣本xp與匹配密鑰k1的拼接特征向量,vp2為輸入的正樣本xp與錯誤密鑰k2的拼接特征向量,vn1為輸入的負樣本xn與匹配密鑰k1的拼接特征向量,vn2為輸入的負樣本xn與錯誤密鑰k2的拼接特征向量。
14、可選地,所述獲取認證密鑰,包括:
15、獲取用戶輸入的密鑰,作為認證密鑰;
16、或者,隨機生成密鑰,作為認證密鑰;
17、其中,所述認證密鑰為n維向量,n為大于1的整數(shù)。
18、可選地,所述對用戶輸入的認證語音進行聲紋特征提取之前,所述方法還包括:
19、分別對用戶輸入的m條注冊語音進行聲紋特征提取,得到m個注冊聲紋特征向量,m為正整數(shù);
20、分別獲取每一個所述注冊聲紋特征向量對應(yīng)的注冊密鑰;
21、分別將每一個所述注冊聲紋特征向量與對應(yīng)的注冊密鑰進行拼接處理,得到m個注冊聲紋拼接特征向量;
22、根據(jù)所述m個注冊聲紋拼接特征向量,確定注冊聲紋特征模板,其中,所述注冊聲紋特征模板為所述m個注冊聲紋拼接特征向量的平均注冊聲紋拼接特征向量;
23、向服務(wù)端發(fā)送所述注冊聲紋特征模板。
24、第二方面,本技術(shù)實施例還提供一種聲紋認證方法,由服務(wù)端執(zhí)行,所述方法包括:
25、接收客戶端發(fā)送的認證聲紋特征模板,其中,所述認證聲紋特征模板是認證聲紋特征向量與認證密鑰拼接得到的;
26、將所述認證聲紋特征模板與預(yù)先存儲的注冊聲紋特征模板進行匹配,以確定聲紋認證結(jié)果,其中,所述注冊聲紋特征模板是注冊聲紋特征向量與注冊密鑰拼接得到的;
27、向所述客戶端發(fā)送所述聲紋認證結(jié)果。
28、可選地,所述將所述認證聲紋特征模板與預(yù)先存儲的注冊聲紋特征模板進行匹配,以確定聲紋認證結(jié)果,包括:
29、計算所述認證聲紋特征模板與預(yù)先存儲的注冊聲紋特征模板的相似度;
30、在所述相似度大于或等于預(yù)設(shè)閾值的情況下,生成認證成功的聲紋認證結(jié)果;
31、在所述相似度小于所述預(yù)設(shè)閾值的情況下,生成認證失敗的聲紋認證結(jié)果。
32、可選地,所述接收客戶端發(fā)送的認證聲紋特征模板之前,所述方法還包括:
33、訓(xùn)練說話人分類模型,并將訓(xùn)練好的說話人分類模型中的特征提取層確定為初始端到端聲紋識別模型中的聲紋特征提取層,其中,所述初始端到端聲紋識別模型還包括特征拼接層;
34、結(jié)合密鑰數(shù)據(jù)與聲音數(shù)據(jù)對所述初始端到端聲紋識別模型進行訓(xùn)練,得到訓(xùn)練好的端到端聲紋識別模型;
35、向客戶端發(fā)送所述端到端聲紋識別模型。
36、可選地,所述訓(xùn)練說話人分類模型,包括:
37、以優(yōu)化三元組損失為訓(xùn)練目標,對骨干特征提取模型進行訓(xùn)練,得到訓(xùn)練好的說話人分類模型;
38、其中,所述優(yōu)化三元組損失包括最小化va與vp的距離d1和最大化va與vn的距離,所述va為錨點輸入xa的聲紋特征向量,vp為輸入的正樣本xp的聲紋特征向量,vn為輸入的負樣本xn的聲紋特征向量。
39、可選地,所述結(jié)合密鑰數(shù)據(jù)與聲音數(shù)據(jù)對所述初始端到端聲紋識別模型進行訓(xùn)練,得到訓(xùn)練好的端到端聲紋識別模型,包括:
40、以優(yōu)化五元組損失為訓(xùn)練目標,結(jié)合密鑰數(shù)據(jù)與聲音數(shù)據(jù)對所述初始端到端聲紋識別模型進行訓(xùn)練,得到訓(xùn)練好的端到端聲紋識別模型;
41、其中,所述優(yōu)化五元組損失包括最小化va'與vp1的距離、最大化v?a'與vp2的距離、最大化v?a'與vn1的距離和最大化v?a'與vn2的距離,所述va'為錨點輸入xa與匹配密鑰k1的拼接特征向量,vp1為輸入的正樣本xp與匹配密鑰k1的拼接特征向量,vp2為輸入的正樣本xp與錯誤密鑰k2的拼接特征向量,vn1為輸入的負樣本xn與匹配密鑰k1的拼接特征向量,vn2為輸入的負樣本xn與錯誤密鑰k2的拼接特征向量。
42、可選地,所述接收客戶端發(fā)送的認證聲紋特征模板之前,所述方法還包括:
43、接收客戶端發(fā)送的注冊聲紋特征模板;
44、存儲所述注冊聲紋特征模板。
45、第三方面,本技術(shù)實施例還提供一種聲紋認證裝置,設(shè)置在客戶端,所述聲紋認證裝置包括:
46、特征提取模塊,用于對用戶輸入的認證語音進行聲紋特征提取,得到認證聲紋特征向量;
47、獲取模塊,用于獲取認證密鑰;
48、拼接模塊,用于將所述認證密鑰與所述認證聲紋特征向量進行拼接處理,得到認證聲紋特征模板;
49、第一發(fā)送模塊,用于向服務(wù)端上傳所述認證聲紋特征模板;
50、第一接收模塊,用于接收所述服務(wù)端發(fā)送的聲紋認證結(jié)果。
51、第四方面,本技術(shù)實施例還提供一種聲紋認證裝置,設(shè)置在服務(wù)端,所述聲紋認證裝置包括:
52、第二接收模塊,用于接收客戶端發(fā)送的認證聲紋特征模板,其中,所述認證聲紋特征模板是認證聲紋特征向量與認證密鑰拼接得到的;
53、匹配模塊,用于將所述認證聲紋特征模板與預(yù)先存儲的注冊聲紋特征模板進行匹配,以確定聲紋認證結(jié)果,其中,所述注冊聲紋特征模板是注冊聲紋特征向量與注冊密鑰拼接得到的;
54、第二發(fā)送模塊,用于向所述客戶端發(fā)送所述聲紋認證結(jié)果。
55、第五方面,本技術(shù)實施例還提供一種客戶端,包括收發(fā)機和處理器,其中,
56、所述處理器用于對用戶輸入的認證語音進行聲紋特征提取,得到認證聲紋特征向量;獲取認證密鑰;將所述認證密鑰與所述認證聲紋特征向量進行拼接處理,得到認證聲紋特征模板;
57、所述收發(fā)機用于向服務(wù)端上傳所述認證聲紋特征模板;接收所述服務(wù)端發(fā)送的聲紋認證結(jié)果。
58、第六方面,本技術(shù)實施例還提供一種服務(wù)端,包括收發(fā)機和處理器,其中,
59、所述收發(fā)機用于接收客戶端發(fā)送的認證聲紋特征模板,其中,所述認證聲紋特征模板是認證聲紋特征向量與認證密鑰拼接得到的;
60、所述處理器用于將所述認證聲紋特征模板與預(yù)先存儲的注冊聲紋特征模板進行匹配,以確定聲紋認證結(jié)果,其中,所述注冊聲紋特征模板是注冊聲紋特征向量與注冊密鑰拼接得到的;
61、所述收發(fā)機還用于向所述客戶端發(fā)送所述聲紋認證結(jié)果。
62、第七方面,本技術(shù)實施例還提供一種聲紋認證系統(tǒng),包括客戶端和服務(wù)端,其中,
63、所述客戶端用于對用戶輸入的認證語音進行聲紋特征提取,得到認證聲紋特征向量;獲取認證密鑰;將所述認證密鑰與所述認證聲紋特征向量進行拼接處理,得到認證聲紋特征模板;向服務(wù)端發(fā)送所述認證聲紋特征模板;
64、所述服務(wù)端用于接收客戶端發(fā)送的認證聲紋特征模板,其中,所述認證聲紋特征模板是認證聲紋特征向量與認證密鑰拼接得到的;將所述認證聲紋特征模板與預(yù)先存儲的注冊聲紋特征模板進行匹配,以確定聲紋認證結(jié)果,其中,所述注冊聲紋特征模板是注冊聲紋特征向量與注冊密鑰拼接得到的;向所述客戶端發(fā)送所述聲紋認證結(jié)果;
65、所述客戶端還用于接收所述服務(wù)端發(fā)送的聲紋認證結(jié)果。
66、第七方面,本技術(shù)實施例還提供一種電子設(shè)備,包括:收發(fā)機、存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如第一方面所述的聲紋認證方法中的步驟;或者實現(xiàn)如第二方面所述的聲紋認證方法中的步驟。
67、第八方面,本技術(shù)實施例還提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如第一方面所述的聲紋認證方法中的步驟;或者實現(xiàn)如第二方面所述的聲紋認證方法中的步驟。
68、在本技術(shù)實施例中,客戶端對用戶輸入的認證語音進行聲紋特征提取,得到認證聲紋特征向量;獲取認證密鑰;將所述認證密鑰與所述認證聲紋特征向量進行拼接處理,得到認證聲紋特征模板;向服務(wù)端發(fā)送所述認證聲紋特征模板;接收所述服務(wù)端發(fā)送的聲紋認證結(jié)果。
69、服務(wù)端接收客戶端發(fā)送的認證聲紋特征模板,其中,所述認證聲紋特征模板是認證聲紋特征向量與認證密鑰拼接得到的;將所述認證聲紋特征模板與預(yù)先存儲的注冊聲紋特征模板進行匹配,以確定聲紋認證結(jié)果,其中,所述注冊聲紋特征模板是注冊聲紋特征向量與注冊密鑰拼接得到的;向所述客戶端發(fā)送所述聲紋認證結(jié)果。
70、這樣,客戶端通過直接對用戶輸入的認證語音輸出受密鑰保護的認證聲紋特征模板,而無需人工設(shè)計特征提取模塊和后加密模塊,服務(wù)端也基于結(jié)合了密鑰特征的注冊聲紋特征模板對加密的認證聲紋特征模板進行匹配認證,能夠有效防止中間過程受攻擊,提高了聲紋認證的識別性能和安全性。