一種基于語音驅(qū)動的AI數(shù)字人自動表情生成系統(tǒng)的制作方法

文檔序號：39723196發(fā)布日期：2024-10-22 13:18閱讀：2來源：國知局

本發(fā)明涉及數(shù)字人表情生成，具體是一種基于語音驅(qū)動的ai數(shù)字人自動表情生成系統(tǒng)。

背景技術：

1、隨著社會的發(fā)展，ai行業(yè)也隨之發(fā)展，其中就包括數(shù)字人。數(shù)字人是將現(xiàn)實世界的真人或主觀創(chuàng)作出來的虛擬人物，通過計算機技術生成轉化為三維或二維圖像數(shù)據(jù)，以計算機代碼的形式存儲和應用，并根據(jù)所接入的ai算法、知識圖譜、驅(qū)動系統(tǒng)等能力或系統(tǒng)的不同，部分或充分地完成傳達信息、表達情感、與他人交流互動、解決問題等人類行為的數(shù)字化人物。

2、但是，現(xiàn)在的數(shù)字人無法根據(jù)帶有特定表情的語音在驅(qū)動下流暢的生成自動表情，計算量較大，從而導致無法驅(qū)動數(shù)字人表情更細微地表現(xiàn)出來，因此，我們提出了一種基于語音驅(qū)動的ai數(shù)字人自動表情生成系統(tǒng)來解決上述所提到的問題。

技術實現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于語音驅(qū)動的ai數(shù)字人自動表情生成系統(tǒng)，以解決上述背景技術中提出的問題。

2、為實現(xiàn)上述目的，本發(fā)明提供如下技術方案：

3、一種基于語音驅(qū)動的ai數(shù)字人自動表情生成系統(tǒng)，包括語音表情生成模塊、人臉表情數(shù)據(jù)庫、表情特征提取模塊、人臉三維重建模塊；所述語音表情生成模塊中的語音表情通過語音合成技術，利用音調(diào)、語速、節(jié)奏多種聲學特征來表達情感或態(tài)度；所述人臉表情數(shù)據(jù)庫通過獲取具有大量的人臉表情，對收集到的人臉表情根據(jù)表情語義的傳達進行分類，從而獲取到每種表情的集合；所述表情特征提取模塊包括主動形狀模型法和主動外觀模型法對人臉特征進行提??；所述人臉三維重建模塊根據(jù)單個視角的圖像或者多個視角的圖像來重建模型的三維信息。

4、作為本發(fā)明進一步的方案：所述語音表情生成模塊中語音表情生成的具體方法為通過手動制定規(guī)則來控制語音合成參數(shù)，生成帶有特定表情的語音，規(guī)則的設計需要考慮情感、語義多種因素；利用帶有情感標簽的大量語音數(shù)據(jù)訓練模型，學習語音與情感之間的關系，并在新的文本上生成表情豐富的語音。

5、作為本發(fā)明進一步的方案：所述語音表情生成模塊包括情感特征提取單元和情感感知模型單元；所述情感特征提取單元利用語音信號分析技術提取語音中的韻律、語調(diào)、聲學參數(shù)與情感相關的特征，運用統(tǒng)計模型、機器學習算法對提取的特征進行建模和分類，識別不同情感類別，結合詞匯學、語義學多種文本信息分析，增強情感識別準確性；所述情感感知模型單元探索多模態(tài)情感感知模型，融合音頻、文本、視覺多種信息，全面感知說話者的情感狀態(tài)，采用深度神經(jīng)網(wǎng)絡、變分自動編碼器多種先進機器學習方法，構建情感感知模型，提升識別準確性和泛化能力，通過訓練和優(yōu)化模型參數(shù)，提高模型對不同說話者、情感語境和噪音背景的適應性。

6、作為本發(fā)明進一步的方案：所述主動形狀模型法的實現(xiàn)過程中包含訓練和搜索，所述訓練過程中對n個人臉圖像樣本進行手動的特征標記，每個人臉圖像采用68個特征點來擬合臉部形狀模型，同時用這些特征點的位置來組成圖像的形狀向量；利用求解變化矩陣方法對n個形狀向量的訓練集進行歸一化或者對齊操作，消除人臉圖像中因為姿勢變換、角度不同、距離遠近多種外界因素造成的影響；然后對訓練集中對齊后的形狀向量進行pca主成分分析，任何一個用于訓練的形狀向量都采用平均形狀向量和主成分分析得到的參數(shù)來決定，建立每個特征點的局部特征，在每次迭代過程中為每個特征點尋找新的位置。

7、作為本發(fā)明進一步的方案：所述搜索包括局部紋理模型和全局統(tǒng)計模型分別實現(xiàn)局部搜索和全局約束，局部搜索當某些特征點陷入局部極值或者出現(xiàn)較大偏差時，全局統(tǒng)計模型會對這種情況進行調(diào)整。

8、作為本發(fā)明進一步的方案：所述主動外觀模型法對人臉的形狀信息和紋理信息綜合分析，建立混合模型，分為建模和特征匹配；所述建模指建立具有形狀信息和紋理信息的混合模型；所述特征匹配指通過混合模型和輸入圖像的均方差來表示能量函數(shù)，通過算法計算來更新模型參數(shù)，并生成新的特征點位置，將以上的過程進行反復迭代，得到最終的特征點位置。

9、作為本發(fā)明進一步的方案：所述人臉三維重建模塊包括基于多視角信息的三維人臉重建單元、基于形變統(tǒng)計模型的三維人臉重建單元、基于明暗恢復形狀的三維人臉重建單元。

10、作為本發(fā)明進一步的方案：所述基于多視角信息的三維人臉重建單元的步驟包括，首先在相機視角恢復利用計算機視覺技術來估計沒一個拍攝人臉圖像的相機參數(shù)，同時恢復了輸入人臉對象臉部特征點的三維坐標；然后在散亂點插值階段通過上面估計的特征點的三維坐標并利用插值算法來計算剩余點的三維坐標；最后在形狀重新定位階段，在保持相機視角固定的情況下通過明確臉部特征點和圖像坐標之間額外的對應關系來提高形狀擬合的精度。

11、作為本發(fā)明進一步的方案：所述基于形變模型的三維人臉重建單元的步驟包括，在形變模型給出新的人臉圖像后，將人臉圖像與模型進行匹配結合，修改模型相應的參數(shù)，將模型進行形變，直到模型與人臉圖像的差異減到最小，同時對紋理進行優(yōu)化調(diào)整，即可完成人臉建模。

12、作為本發(fā)明再進一步的方案：所述基于明暗恢復形狀的三維人臉重建單元中，明暗恢復形狀是利用單張圖像或者多張圖像中物體表面的明暗變化來恢復其表面各點的相對高度、表面法線方向、表面梯度和傾斜度多種參數(shù)值，從而重建物體模型。

13、與現(xiàn)有技術相比，本發(fā)明的有益效果是：

14、通過設置語音表情生成模塊，通過手動制定規(guī)則來控制語音合成參數(shù)，生成帶有特定表情的語音，利用帶有情感標簽的大量語音數(shù)據(jù)訓練模型，學習語音與情感之間的關系，并在新的文本上生成表情豐富的語音，使得數(shù)字人能夠根據(jù)帶有特定表情的語音在人臉表情數(shù)據(jù)庫、表情特征提取模塊、人臉三維重建模塊的配合下驅(qū)動更加的流暢，減少了計算量了，驅(qū)動數(shù)字人表情時能夠更細微地表現(xiàn)出來，有利于使用。

技術特征：

1.一種基于語音驅(qū)動的ai數(shù)字人自動表情生成系統(tǒng)，其特征在于，包括語音表情生成模塊、人臉表情數(shù)據(jù)庫、表情特征提取模塊、人臉三維重建模塊；所述語音表情生成模塊中的語音表情通過語音合成技術，利用音調(diào)、語速、節(jié)奏多種聲學特征來表達情感或態(tài)度；所述人臉表情數(shù)據(jù)庫通過獲取具有大量的人臉表情，對收集到的人臉表情根據(jù)表情語義的傳達進行分類，從而獲取到每種表情的集合；所述表情特征提取模塊包括主動形狀模型法和主動外觀模型法對人臉特征進行提取；所述人臉三維重建模塊根據(jù)單個視角的圖像或者多個視角的圖像來重建模型的三維信息。

2.根據(jù)權利要求1所述的一種基于語音驅(qū)動的ai數(shù)字人自動表情生成系統(tǒng)，其特征在于，所述語音表情生成模塊中語音表情生成的具體方法為通過手動制定規(guī)則來控制語音合成參數(shù)，生成帶有特定表情的語音，規(guī)則的設計需要考慮情感、語義多種因素；利用帶有情感標簽的大量語音數(shù)據(jù)訓練模型，學習語音與情感之間的關系，并在新的文本上生成表情豐富的語音。

3.根據(jù)權利要求2所述的一種基于語音驅(qū)動的ai數(shù)字人自動表情生成系統(tǒng)，其特征在于，所述語音表情生成模塊包括情感特征提取單元和情感感知模型單元；所述情感特征提取單元利用語音信號分析技術提取語音中的韻律、語調(diào)、聲學參數(shù)與情感相關的特征，運用統(tǒng)計模型、機器學習算法對提取的特征進行建模和分類，識別不同情感類別，結合詞匯學、語義學多種文本信息分析，增強情感識別準確性；所述情感感知模型單元探索多模態(tài)情感感知模型，融合音頻、文本、視覺多種信息，全面感知說話者的情感狀態(tài)，采用深度神經(jīng)網(wǎng)絡、變分自動編碼器多種機器學習方法，構建情感感知模型，提升識別準確性和泛化能力，通過訓練和優(yōu)化模型參數(shù)，提高模型對不同說話者、情感語境和噪音背景的適應性。

4.根據(jù)權利要求1所述的一種基于語音驅(qū)動的ai數(shù)字人自動表情生成系統(tǒng)，其特征在于，所述主動形狀模型法的實現(xiàn)過程中包含訓練和搜索，所述訓練過程中對n個人臉圖像樣本進行手動的特征標記，每個人臉圖像采用68個特征點來擬合臉部形狀模型，同時用這些特征點的位置來組成圖像的形狀向量；利用求解變化矩陣方法對n個形狀向量的訓練集進行歸一化或者對齊操作，消除人臉圖像中因為姿勢變換、角度不同、距離遠近多種外界因素造成的影響；然后對訓練集中對齊后的形狀向量進行pca主成分分析，任何一個用于訓練的形狀向量都采用平均形狀向量和主成分分析得到的參數(shù)來決定，建立每個特征點的局部特征，在每次迭代過程中為每個特征點尋找新的位置。

5.根據(jù)權利要求4所述的一種基于語音驅(qū)動的ai數(shù)字人自動表情生成系統(tǒng)，其特征在于，所述搜索包括局部紋理模型和全局統(tǒng)計模型分別實現(xiàn)局部搜索和全局約束，局部搜索當某些特征點陷入局部極值或者出現(xiàn)較大偏差時，全局統(tǒng)計模型會對這種情況進行調(diào)整。

6.根據(jù)權利要求1所述的一種基于語音驅(qū)動的ai數(shù)字人自動表情生成系統(tǒng)，其特征在于，所述主動外觀模型法對人臉的形狀信息和紋理信息綜合分析，建立混合模型，分為建模和特征匹配；所述建模指建立具有形狀信息和紋理信息的混合模型；所述特征匹配指通過混合模型和輸入圖像的均方差來表示能量函數(shù)，通過算法計算來更新模型參數(shù)，并生成新的特征點位置，將以上的過程進行反復迭代，得到最終的特征點位置。

7.根據(jù)權利要求1所述的一種基于語音驅(qū)動的ai數(shù)字人自動表情生成系統(tǒng)，其特征在于，所述人臉三維重建模塊包括基于多視角信息的三維人臉重建單元、基于形變統(tǒng)計模型的三維人臉重建單元、基于明暗恢復形狀的三維人臉重建單元。

8.根據(jù)權利要求7所述的一種基于語音驅(qū)動的ai數(shù)字人自動表情生成系統(tǒng)，其特征在于，所述基于多視角信息的三維人臉重建單元的步驟包括，首先在相機視角恢復利用計算機視覺技術來估計沒一個拍攝人臉圖像的相機參數(shù)，相機參數(shù)包括位置、方向和焦距，同時恢復了輸入人臉對象臉部特征點的三維坐標；然后在散亂點插值階段通過上面估計的特征點的三維坐標并利用插值算法來計算剩余點的三維坐標；最后在形狀重新定位階段，在保持相機視角固定的情況下通過明確臉部特征點和圖像坐標之間額外的對應關系來提高形狀擬合的精度。

9.根據(jù)權利要求7所述的一種基于語音驅(qū)動的ai數(shù)字人自動表情生成系統(tǒng)，其特征在于，所述基于形變模型的三維人臉重建單元的步驟包括，在形變模型給出新的人臉圖像后，將人臉圖像與模型進行匹配結合，修改模型相應的參數(shù)，將模型進行形變，直到模型與人臉圖像的差異減到最小，同時對紋理進行優(yōu)化調(diào)整，即可完成人臉建模。

10.根據(jù)權利要求7所述的一種基于語音驅(qū)動的ai數(shù)字人自動表情生成系統(tǒng)，其特征在于，所述基于明暗恢復形狀的三維人臉重建單元中，明暗恢復形狀是利用單張圖像或者多張圖像中物體表面的明暗變化來恢復其表面各點的相對高度、表面法線方向、表面梯度和傾斜度多種參數(shù)值，從而重建物體模型。

技術總結
本發(fā)明公開了一種基于語音驅(qū)動的AI數(shù)字人自動表情生成系統(tǒng)，包括語音表情生成模塊、人臉表情數(shù)據(jù)庫、表情特征提取模塊、人臉三維重建模塊；通過手動制定規(guī)則來控制語音合成參數(shù)，生成帶有特定表情的語音，利用帶有情感標簽的大量語音數(shù)據(jù)訓練模型，學習語音與情感之間的關系，并在新的文本上生成表情豐富的語音，使得數(shù)字人能夠根據(jù)帶有特定表情的語音在人臉表情數(shù)據(jù)庫、表情特征提取模塊、人臉三維重建模塊的配合下驅(qū)動更加的流暢，減少了計算量了，驅(qū)動數(shù)字人表情時能夠更細微地表現(xiàn)出來，有利于使用。

技術研發(fā)人員：沈小英
受保護的技術使用者：南京英特克數(shù)字科技有限公司
技術研發(fā)日：
技術公布日：2024/10/21

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：沈小英
技術所有人：南京英特克數(shù)字科技有限公司
我是此專利的發(fā)明人

上一篇：一種點陣結構的自動擴口翻邊裝置的制作方法
上一篇：一種整體式護鞘結構的加工方法

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于語音驅(qū)動的AI數(shù)字人自動表情生成系統(tǒng)的制作方法