一種家庭語音處理系統(tǒng)的制作方法

文檔序號：8682142閱讀：351來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種家庭語音處理系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本實用新型涉及一種在家庭環(huán)境下使用語音交互控制家用設(shè)備，特別是一種家庭語音處理系統(tǒng)。
【背景技術(shù)】
[0002]隨著科技的發(fā)展，語音交互技術(shù)已經(jīng)廣泛應(yīng)用于各行各業(yè)，極大的提升了人機(jī)交互的體驗效果。在家庭應(yīng)用場景下，各種電器設(shè)備的控制及操作對語音控制的需求十分迫切。當(dāng)前已經(jīng)有一些在家庭環(huán)境使用語音交互控制電器設(shè)備的案例，但是由于家庭環(huán)境下充斥著各類噪聲，而且說話人位置不固定，類似這些不確定因素導(dǎo)致語音交互準(zhǔn)確性大大降低，用戶體驗較差，語音交互在家庭環(huán)境下使用存在巨大的挑戰(zhàn)。
【實用新型內(nèi)容】
[0003]本實用新型技術(shù)解決問題:當(dāng)前的語音交互設(shè)備在安靜環(huán)境下使用準(zhǔn)確率較高，在不同家庭應(yīng)用場景下使用魯棒性較差，用戶體驗效果不好，為了克服現(xiàn)有技術(shù)的不足，本實用新型提供一種家庭語音處理系統(tǒng)，在家庭應(yīng)用環(huán)境下時，提高了語音交互準(zhǔn)確性，提升了用戶體驗效果。
[0004]本實用新型采用如下技術(shù)解決方案來實現(xiàn)上述目的:一種家庭語音處理系統(tǒng)，如圖1所示，包含:多麥克風(fēng)裝置、錄音裝置、微處理器、語音喚醒模塊、聲源定位模塊、語音增強(qiáng)模塊、語音識別模塊、通訊裝置、控制裝置。
[0005]所述多麥克風(fēng)裝置與錄音裝置連接，錄音裝置與微處理器連接，多麥克風(fēng)裝置采集聲音信息，通過錄音裝置進(jìn)行音頻錄入并傳送給微處理器，完成聲音采集操作；
[0006]所述微處理器與通訊裝置連接，通訊裝置與控制裝置連接，微處理器通過通訊裝置將控制信息傳送給控制裝置，由控制裝置實現(xiàn)對相關(guān)設(shè)備的控制；
[0007]所述語音喚醒模塊、聲源定位模塊、語音增強(qiáng)模塊、語音識別模塊在微處理器中運行；錄音裝置的輸出接至聲源定位模塊的輸出，聲源定位模塊的輸出連接語音增強(qiáng)模塊，語音增強(qiáng)模塊的輸出分別接至語音喚醒模塊和語音識別模塊；所述聲源定位模塊根據(jù)多麥克風(fēng)裝置采集的語音信息確定聲源至系統(tǒng)的相對位置；所述語音增強(qiáng)模塊基于聲源定位模塊確定的聲源位置信息形成有效波束，對波束內(nèi)有效語音信號進(jìn)行增強(qiáng)，對波束外噪聲進(jìn)行抑制；所述語音喚醒詞模型引擎預(yù)置在處理器中，多麥克風(fēng)裝置采集的語音信息與內(nèi)置的模型引擎進(jìn)行對比語音識別，并輸出結(jié)果；所述語音識別模塊為有限詞集語音識別系統(tǒng)。
[0008]所述多麥克風(fēng)裝置為多麥克風(fēng)陣列，多麥克風(fēng)“一”字排開，各麥克風(fēng)之間間距不限。
[0009]所述通訊裝置包含有線和無線兩種形式，有線方式包含IIC、UART、SPI形式，無線方式包含2.4G、藍(lán)牙、Wi Fi形式。
[0010]與現(xiàn)有技術(shù)方案相比，本實用新型的有益效果是:本實用新型使用多麥克風(fēng)陣列系統(tǒng)，相對于傳統(tǒng)的單麥克風(fēng)采音系統(tǒng)，能夠采集更多空間內(nèi)的語音信息，為聲源定位、語音增強(qiáng)提供數(shù)據(jù)保障。聲源定位技術(shù)能夠準(zhǔn)確判定人員的位置信息，結(jié)合語音增強(qiáng)技術(shù)能夠有效提升語音信號信噪比，提升在家庭環(huán)境下語音交互的準(zhǔn)確性，提升用戶體驗效果，進(jìn)而實現(xiàn)語音交互在家庭應(yīng)用環(huán)境下的普及。
【附圖說明】
[0011]圖1是本實用新型系統(tǒng)框圖；
[0012]圖2是本實用新型涉及語音喚醒模塊示意圖；
[0013]圖3是本實用新型涉及聲源定位模塊示意圖；
[0014]圖4是本實用新型涉及語音增強(qiáng)模塊示意圖。
【具體實施方式】
[0015]如圖1所示，本實用新型一種家庭語音處理系統(tǒng)包含:多麥克風(fēng)裝置、錄音裝置、微處理器、語音喚醒模塊、聲源定位模塊、語音增強(qiáng)模塊、語音識別模塊、通訊裝置、控制裝置。多麥克風(fēng)裝置麥克風(fēng)數(shù)量大于等于2個，麥克風(fēng)類型以硅麥克風(fēng)為主，同時能夠兼顧普通駐極體麥克風(fēng)；錄音裝置采用高精度、多通道錄音芯片，提供高質(zhì)量錄音；語音喚醒模塊、聲源定位模塊、語音增強(qiáng)模塊、語音識別模塊運行在微處理器中，微處理器使用高性能DSP芯片。
[0016]如圖2所示，語音喚醒模塊實現(xiàn)過程如下:
[0017](I)聲學(xué)特征提取:通過語音增強(qiáng)模塊獲取處理后的語音信號，提取具有區(qū)分性的、基于人耳聽覺特性的特征；
[0018](2)喚醒詞檢測:將提取的聲學(xué)特征在喚醒詞檢測網(wǎng)絡(luò)上計算聲學(xué)得分，如果聲學(xué)得分最優(yōu)路徑包含檢測喚醒詞，則確認(rèn)檢出喚醒詞，否則重新回到第一步重新進(jìn)行聲學(xué)特征提取；
[0019](3)喚醒詞確認(rèn):將步驟二計算的聲學(xué)得分與預(yù)先設(shè)定的門限進(jìn)行對比，如果聲學(xué)得分大于門限值，則確認(rèn)為真實喚醒詞，輸出給執(zhí)行模塊，如果聲學(xué)得分小于門限值，則確認(rèn)為虛假喚醒詞，重新回到第一步重新進(jìn)行聲學(xué)特征提取。
[0020]如圖3所示，聲源定位模塊實現(xiàn)過程如下:
[0021](I)延時時間計算:根據(jù)麥克風(fēng)陣列裝置中各個麥克風(fēng)錄音音頻計算延時時間T ;
[0022](2)位置估計:將第一步計算的延時時間進(jìn)行位置估算計算，確定目標(biāo)聲源的空間位置信息；
[0023](3)位置確認(rèn)及輸出:將第二步確定的空間位置信息值進(jìn)行確認(rèn)評估，如果評估通過則輸出空間信息，如果評估不通過則重新回到第一步執(zhí)行。
[0024]如圖4所示，語音增強(qiáng)模塊實現(xiàn)過程如下:
[0025](I)束波形成:根據(jù)聲源定位模塊提供的聲源空間位置信息形成針對聲源的束波；
[0026](2)語音降噪:對步驟一所述束波內(nèi)語音信號進(jìn)行語音降噪處理，提升語音信號信噪比；
[0027](3)結(jié)果輸出:將語音增強(qiáng)信號輸出給后級語音處理模塊。
[0028]通訊裝置包含有線和無線兩種形式，有線方式包含IIC、UART、SPI形式，無線方式包含2.4G、藍(lán)牙、Wi Fi形式。
[0029]本實用新型工作過程如下:
[0030]以電視語音交互應(yīng)用為例。當(dāng)多個用戶在家庭客廳里使用語音交互控制電視時，此應(yīng)用場景的特點是(I)應(yīng)用場景中有多個用戶需要使用語音交互控制電視；(2)應(yīng)用場景中有電視背景噪聲、家庭內(nèi)各種嘈雜聲等噪聲存在。基于本實用新型的實現(xiàn)方式為:
[0031]第一步:通過語音喚醒模塊啟動語音交互，在電視正常運行條件下，用戶通過語音喚醒詞，如“你好語音助理”，將設(shè)備從正常運行狀態(tài)打斷，調(diào)整到語音交互狀態(tài)，相當(dāng)于我們通過遙控器控制設(shè)備需要先拿到遙控器一樣。
[0032]第二步:通過聲源定位模塊獲取控制權(quán)，在多個用戶控制一個設(shè)備的條件下，某用戶想要控制設(shè)備，必須先獲取對設(shè)備的控制權(quán)，相當(dāng)于通過遙控器控制設(shè)備遙控器必須先搶到遙控器一樣。通過喚醒詞喚醒設(shè)備的同時，聲源定位模塊將獲取發(fā)音人的位置，并將控制權(quán)交給發(fā)音人。
[0033]第三步:通過語音識別進(jìn)行語音交互，當(dāng)用戶獲取控制權(quán)后，通過語音識別模塊即可實現(xiàn)對設(shè)備的控制，應(yīng)用環(huán)境中的各種噪聲將會影響語音識別交互的準(zhǔn)確性，語音增強(qiáng)模塊能夠?qū)崿F(xiàn)在嘈雜環(huán)境下提高目標(biāo)說話人語音信噪比的效果，進(jìn)而提升產(chǎn)品的語音交互體驗效果。
[0034]以上所述的僅是本實用新型優(yōu)選實施方式，用戶在各類家庭環(huán)境下，例如空調(diào)語音控制、燈具語音控制同樣可以通過家庭語音處理系統(tǒng)提高語音交互的準(zhǔn)確性，提升語音交互效果。
[0035]應(yīng)當(dāng)指出，對于本領(lǐng)域工作人員而言，在不脫離本實用新型構(gòu)思的前提下，還可以做出若干變形和改進(jìn)，這都屬于本實用新型的保護(hù)范疇。
【主權(quán)項】
1.一種家庭語音處理系統(tǒng)，其特征在于包含:多麥克風(fēng)裝置、錄音裝置、微處理器、語音喚醒模塊、聲源定位模塊、語音增強(qiáng)模塊、語音識別模塊、通訊裝置、控制裝置；所述多麥克風(fēng)裝置與錄音裝置連接，錄音裝置與微處理器連接，多麥克風(fēng)裝置采集聲音信息，通過錄音裝置進(jìn)行音頻錄入并傳送給微處理器，完成聲音采集操作；所述微處理器與通訊裝置連接，通訊裝置與控制裝置連接，微處理器通過通訊裝置將控制信息傳送給控制裝置，由控制裝置實現(xiàn)對相關(guān)設(shè)備的控制；所述語音喚醒模塊、聲源定位模塊、語音增強(qiáng)模塊、語音識別模塊在微處理器中運行；錄音裝置的輸出接至聲源定位模塊，聲源定位模塊的輸出連接至語音增強(qiáng)模塊，語音增強(qiáng)模塊的輸出分別連接至語音喚醒模塊和語音識別模塊。
2.根據(jù)權(quán)利要求1所述的一種家庭語音處理系統(tǒng)，其特征在于:所述多麥克風(fēng)裝置為多麥克風(fēng)陣列，多麥克風(fēng)“一”字排開，各麥克風(fēng)之間間距不限。
3.根據(jù)權(quán)利要求1所述的一種家庭語音處理系統(tǒng)，其特征在于:所述通訊裝置包含有線或無線形。
4.根據(jù)權(quán)利要求3所述的一種家庭語音處理系統(tǒng)，其特征在于:所述有線方式包含IIC、UART 或 SPI 形式。
5.根據(jù)權(quán)利要求3所述的一種家庭語音處理系統(tǒng)，其特征在于:所述無線方式包含2.4G、藍(lán)牙或Wi Fi形式。
【專利摘要】一種家庭語音處理系統(tǒng)包含：多麥克風(fēng)裝置、錄音裝置、微處理器、語音喚醒模塊、聲源定位模塊、語音增強(qiáng)模塊、語音識別模塊、通訊裝置、控制裝置。多麥克風(fēng)裝置與錄音裝置連接，錄音裝置與微處理器連接，多麥克風(fēng)裝置采集聲音信息，通過錄音裝置進(jìn)行音頻錄入并傳送給微處理器，完成聲音采集操作；語音喚醒模塊、聲源定位模塊、語音增強(qiáng)模塊、語音識別模塊運行在微處理器中，微處理器將語音信息經(jīng)過各模塊處理后轉(zhuǎn)換為控制信息；微處理器與通訊裝置連接，通訊裝置與控制裝置連接，微處理器將控制信息傳送給控制裝置，由控制裝置完成相應(yīng)的控制操作。本實用新型實現(xiàn)了在家庭環(huán)境下通過語音交互對家庭電器設(shè)備的控制，同時提升了語音識別的準(zhǔn)確度。
【IPC分類】G10L15-20
【公開號】CN204390737
【申請?zhí)枴緾N201420423442
【發(fā)明人】錢勇, 康懷茂, 武兵, 邢猛, 王海坤, 謝信珍
【申請人】科大訊飛股份有限公司
【公開日】2015年6月10日
【申請日】2014年7月29日

完整全部詳細(xì)技術(shù)資料下載