一種自適應(yīng)多頻段語音混合情感感知方法

文檔序號：39729508發(fā)布日期：2024-10-22 13:34閱讀：10來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語音情感識別技術(shù)，特別是涉及一種自適應(yīng)多頻段語音混合情感感知方法。

背景技術(shù)：

1、語音情感識別（ser）技術(shù)是旨在分析語音信號特征，自動識別出說話者當(dāng)前情緒狀態(tài)的。這項(xiàng)技術(shù)在人機(jī)交互領(lǐng)域至關(guān)重要，可以在虛擬助手、網(wǎng)絡(luò)學(xué)習(xí)平臺、健康檢測系統(tǒng)等各類場景中提供情緒感知，使交互系統(tǒng)能夠更好地理解用戶的情緒狀態(tài)，提供更為精準(zhǔn)的個(gè)性化情感反饋，以此優(yōu)化用戶體驗(yàn)。

2、情感信息體現(xiàn)在多語音特征中，如音高、頻率、強(qiáng)度等。如何科學(xué)地從原始語音信號中提取這些信息來表征情感是一項(xiàng)重要挑戰(zhàn)。傳統(tǒng)方法大多依賴于繁瑣的手動特征提取，并采用人為定義的分類模型進(jìn)行特征選擇，然后將這些特征與機(jī)器學(xué)習(xí)算法結(jié)合，如支持向量機(jī)、馬爾可夫模型、貝葉斯網(wǎng)絡(luò)等，進(jìn)行情感狀態(tài)的學(xué)習(xí)和預(yù)測。近年來，隨著深度學(xué)習(xí)技術(shù)的發(fā)展，基于端到端的深度神經(jīng)網(wǎng)絡(luò)模型成為語音情感識別的主流方法。這些模型能夠自動地從大量數(shù)據(jù)中學(xué)習(xí)到更加抽象和復(fù)雜的特征，從而提高了情感識別的準(zhǔn)確性和泛化能力。例如：li,?mengbo等人設(shè)計(jì)了一種具有多尺度核的卷積神經(jīng)網(wǎng)絡(luò)(cnn)，能夠有效捕捉并融合不同尺度下的語音情感特征，從而提升了識別性能。jitendra等人。提出使用雙向長短期記憶網(wǎng)絡(luò)(bi-lstm)，通過提取時(shí)間上下文信息并保存關(guān)鍵特征，增強(qiáng)模型對情緒狀態(tài)的建模能力。maji等人運(yùn)用雙通道自注意力機(jī)制聚合卷積膠囊（conv-cap）和雙向門控循環(huán)單元（bi-gru）的特征，以獲得更豐富的情緒信息和提升信息多樣性；prabhakar等人提出基于多通道卷積神經(jīng)網(wǎng)絡(luò)（cnn）和長短記憶網(wǎng)絡(luò)（blstm）的架構(gòu)，通過融合幅度和相位的頻譜特性來增強(qiáng)性能。但是這些方法存在以下缺點(diǎn)：首先，現(xiàn)有方法沒有根據(jù)人類聲學(xué)特性進(jìn)行頻段劃分以抽取特征，從而忽略了不同情緒在頻段上的獨(dú)特表現(xiàn)。其次，鑒于各類情感狀態(tài)在表征復(fù)雜度和不同數(shù)據(jù)集分布上存在差異，需要在基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)上設(shè)計(jì)自適應(yīng)的可變特征提方法。最后，語音情感狀態(tài)表達(dá)是動態(tài)且連續(xù)變化的，所以需要模型同時(shí)關(guān)注較長時(shí)間跨度的語義信息和局部特定的聲學(xué)特性。

3、需要說明的是，在上述背景技術(shù)部分公開的信息僅用于對本申請的背景的理解，因此可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的主要目的在于解決上述背景技術(shù)中存在的問題，提供一種自適應(yīng)多頻段語音混合情感感知方法。

2、為實(shí)現(xiàn)上述目的，本發(fā)明采用以下技術(shù)方案：

3、在本發(fā)明第一方面，一種自適應(yīng)多頻段語音混合情感感知方法，包括以下步驟：

4、s1.?對輸入信號進(jìn)行預(yù)處理，對信號進(jìn)行分幀；

5、s2.?對每幀信號執(zhí)行快速傅里葉變換（fft），獲得頻譜特征；

6、s3.?應(yīng)用梅爾尺度的三角濾波器組對頻譜進(jìn)行處理，模擬人類聽覺系統(tǒng)的非線性頻率特性；

7、s4.?通過離散余弦變換對濾波后的頻譜進(jìn)行處理，提取每幀的多個(gè)梅爾頻譜系數(shù)，捕捉信號的關(guān)鍵頻率信息；

8、s5.?根據(jù)語音信號的共振峰（f1,?f2,?f3）將信號劃分為不同的頻段，為每個(gè)頻段定制特征提取策略；

9、s6.?對每個(gè)頻段應(yīng)用自適應(yīng)深度殘差塊adrb，進(jìn)行并行的多維特征提取和整合；

10、s7.?使用深度控制器nsdr動態(tài)預(yù)測每個(gè)頻段的最佳網(wǎng)絡(luò)深度，根據(jù)輸入信號的復(fù)雜度自適應(yīng)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)；

11、s8.?在自適應(yīng)深度殘差塊adrb中，由深度控制器動態(tài)控制卷積層數(shù)，通過多層蒸餾通道和殘差通道實(shí)現(xiàn)多級特征提取，利用殘差連接進(jìn)行特征融合；

12、s9.?應(yīng)用混合區(qū)域注意力機(jī)制hrfa，結(jié)合全局和局部注意力機(jī)制，強(qiáng)化不同頻段特征之間的長距和短距依賴關(guān)系，其中全局注意力機(jī)制通過多頭注意力架構(gòu)捕獲全頻域上下文信息，局部注意力機(jī)制側(cè)重于每個(gè)頻率周圍的相鄰區(qū)域，進(jìn)行細(xì)粒度分析；

13、s10.?通過時(shí)間驅(qū)動模塊強(qiáng)化時(shí)間序列上不同頻率特征的相關(guān)連續(xù)性，處理時(shí)間正序和逆序，捕捉長時(shí)間依賴關(guān)系；

14、s11.?將經(jīng)過多頻段處理、混合區(qū)域注意力機(jī)制增強(qiáng)和時(shí)間驅(qū)動模塊提取的特征進(jìn)行融合；

15、s12.?利用融合后的特征進(jìn)行情感狀態(tài)的分類和識別。

16、在本發(fā)明第二方面，一種計(jì)算機(jī)可讀存儲介質(zhì)，存儲有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的自適應(yīng)多頻段語音混合情感感知方法。

17、在本發(fā)明第三方面，一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的自適應(yīng)多頻段語音混合情感感知方法。

18、本發(fā)明具有如下有益效果：

19、為了克服傳統(tǒng)的語音情感識別中的問題，本發(fā)明提出一種自適應(yīng)多頻段語音混合情感感知方法，構(gòu)建自適應(yīng)多頻段混合感知網(wǎng)絡(luò)（adaptive?multi-band?hybrid-awarenetwork），結(jié)合多頻段處理和混合感知機(jī)制，自適應(yīng)地提取豐富的情感特征，以實(shí)現(xiàn)更精確的情感狀態(tài)檢測，有效克服了現(xiàn)有語音情感識別方法的局限性。本發(fā)明中，根據(jù)人類聲學(xué)特征，f1、f2、f3共振峰頻段，將語音信號劃分為多個(gè)頻段，并針對性地提取各頻段特征，捕捉不同情緒狀態(tài)在頻譜上的差異；使用可變的深度殘差網(wǎng)絡(luò)結(jié)構(gòu)，可以根據(jù)輸入音頻的特性動態(tài)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)，以適應(yīng)不同情感狀態(tài)在建模復(fù)雜度上的差異；利用注意力機(jī)制將全局語義信息和局部聲學(xué)特征聚合，實(shí)現(xiàn)情感的全面表征?？偟膩碚f，本發(fā)明基于amh-net的方法，提供了一個(gè)能夠根據(jù)人類聲學(xué)特征動態(tài)調(diào)整的開創(chuàng)性框架和機(jī)制，能夠全面捕捉情感特征，從而顯著提高了情感狀態(tài)識別的精度和效率。

20、在六個(gè)不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，本發(fā)明在短時(shí)語音上的表現(xiàn)尤為出色，優(yōu)于現(xiàn)有的先進(jìn)方法?？傮w而言，本發(fā)明為準(zhǔn)確高效的語音情感識別提供了一種動態(tài)、全面的解決方案。

21、本發(fā)明實(shí)施例中的其他有益效果將在下文中進(jìn)一步述及。

技術(shù)特征：

1.一種自適應(yīng)多頻段語音混合情感感知方法，其特征在于，包括以下步驟：

2.如權(quán)利要求1所述的自適應(yīng)多頻段語音混合情感感知方法，其特征在于，在步驟s1中，輸入信號預(yù)處理，將輸入的語音信號調(diào)整至統(tǒng)一的采樣率；對信號進(jìn)行分幀處理，并對每一幀應(yīng)用hamming窗函數(shù)，設(shè)置幀長和幀間重疊，以保持信號連貫性并減少頻譜泄露。

3.如權(quán)利要求1所述的自適應(yīng)多頻段語音混合情感感知方法，其特征在于，在步驟s4中，提取每幀的前39個(gè)梅爾頻譜系數(shù)。

4.如權(quán)利要求1至3任一項(xiàng)所述的自適應(yīng)多頻段語音混合情感感知方法，其特征在于，在步驟s5中，基于語音信號的共振峰f1、f2和f3，將梅爾頻率倒譜系數(shù)特征mfcc劃分為至少三個(gè)頻段，每個(gè)頻段對應(yīng)不同的情感特性；

5.如權(quán)利要求1至3任一項(xiàng)所述的自適應(yīng)多頻段語音混合情感感知方法，其特征在于，在步驟s7中，所述深度控制器對每個(gè)頻段內(nèi)基于梅爾頻譜系數(shù)的頻率分量進(jìn)行深度信息映射和自適應(yīng)調(diào)節(jié)；

6.如權(quán)利要求1至3任一項(xiàng)所述的自適應(yīng)多頻段語音混合情感感知方法，其特征在于，在步驟s8中，所述自適應(yīng)深度殘差塊包含多層蒸餾通道和殘差通道，由所述深度控制器動態(tài)控制卷積層數(shù)，以實(shí)現(xiàn)對梅爾頻譜特征的多級特征提取和信息融合；

7.如權(quán)利要求1至3任一項(xiàng)所述的自適應(yīng)多頻段語音混合情感感知方法，其特征在于，在步驟s9中，應(yīng)用混合區(qū)域注意力機(jī)制hrfa對多頻段處理結(jié)果進(jìn)行處理，該機(jī)制結(jié)合全局和局部注意力機(jī)制，以增強(qiáng)不同頻段特征之間的依賴關(guān)系，并提升模型對音頻數(shù)據(jù)的感知和處理能力；

8.如權(quán)利要求1至3任一項(xiàng)所述的自適應(yīng)多頻段語音混合情感感知方法，其特征在于，在步驟s10中，使用時(shí)間驅(qū)動頻率信息提取模塊強(qiáng)化不同頻率特征在時(shí)間序列上的相關(guān)連續(xù)性，以增強(qiáng)模型對復(fù)雜語義信息的表征能力；

9.一種計(jì)算機(jī)可讀存儲介質(zhì)，存儲有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-8任一項(xiàng)所述的自適應(yīng)多頻段語音混合情感感知方法。

10.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-8任一項(xiàng)所述的自適應(yīng)多頻段語音混合情感感知方法。

技術(shù)總結(jié)
一種自適應(yīng)多頻段語音混合情感感知方法，輸入語音信號經(jīng)過預(yù)處理分幀，利用快速傅里葉變換獲取頻譜特征，信號通過梅爾尺度的三角濾波器組處理，模擬人類聽覺系統(tǒng)的非線性頻率特性，并通過離散余弦變換提取關(guān)鍵頻率信息的梅爾頻譜系數(shù)。根據(jù)語音共振峰F1、F2、F3進(jìn)行頻段劃分，定制化特征提取策略。自適應(yīng)深度殘差塊并行處理各頻段特征，深度控制器動態(tài)調(diào)整網(wǎng)絡(luò)深度以適應(yīng)信號復(fù)雜度。ADRB中，多層蒸餾和殘差通道實(shí)現(xiàn)多級特征提取，殘差連接優(yōu)化特征融合?；旌蠀^(qū)域注意力機(jī)制結(jié)合全局和局部注意力，強(qiáng)化頻段間依賴關(guān)系。時(shí)間驅(qū)動模塊加強(qiáng)時(shí)序連續(xù)性，最終特征融合用于情感分類和識別。該方法全面捕捉情感特征，顯著提升情感狀態(tài)識別的精度和效率。

技術(shù)研發(fā)人員：張永兵,李恒銳,劉紹輝,陳曉培,董春山
受保護(hù)的技術(shù)使用者：哈爾濱工業(yè)大學(xué)（深圳）（哈爾濱工業(yè)大學(xué)深圳科技創(chuàng)新研究院）
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/21

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張永兵,李恒銳,劉紹輝,陳曉培,董春山
技術(shù)所有人：哈爾濱工業(yè)大學(xué)（深圳）（哈爾濱工業(yè)大學(xué)深圳科技創(chuàng)新研究院）
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

語音混合相關(guān)技術(shù)

語音感知相關(guān)技術(shù)

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種自適應(yīng)多頻段語音混合情感感知方法