相位對重構(gòu)語音聲調(diào)感知影響方法及在人工耳蝸中應(yīng)用

文檔序號：8300074閱讀：788來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

相位對重構(gòu)語音聲調(diào)感知影響方法及在人工耳蝸中應(yīng)用
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明公開了相位對重構(gòu)語音聲調(diào)感知影響方法及在人工耳蝸中應(yīng)用。
【背景技術(shù)】
[0002] 人工耳蝸（Cochlear Implant,簡稱CI)的問世為先天或后天重度至極重度感音性耳聾患者帶來了福音。隨著人工耳蝸對聲信號編碼策略的不斷的改進(jìn)，CI植入者的言語識別能力獲得了明顯改善，音節(jié)識別率可達(dá)到95% W上。但是，對講漢語該類聲調(diào)語言的 CI植入者來說，聲調(diào)感知不佳問題仍有待完善，是目前人工耳蝸技術(shù)研究的難題之一。為此，國內(nèi)外學(xué)者對CI植入者進(jìn)行了若干研究。近期研究表明，49例國產(chǎn)諾爾康人工耳蝸產(chǎn) 品植入者在安靜環(huán)境下的聲調(diào)識別率平均為67. 26%，噪聲環(huán)境下僅為51. 92%;另有研究，對16例語后聾CI植入者采用去除時長信息的測試材料進(jìn)行聲調(diào)識別能力測試，結(jié)果表明，聲調(diào)識別總平均分為70. 22%。同時，國外研究也發(fā)現(xiàn)，各種主流言語編碼策略（如ACE、 CIS和SPEAK等）的CI植入者的聲調(diào)平均識別率為50% -80%，與言語音節(jié)或詞匯識別率相差較大。
[0003] 對上述聲音編碼策略的分析可知，根據(jù)人耳內(nèi)部所具有的聲音"頻譜分析器"的感音生理結(jié)構(gòu)，人工耳蝸聲音處理器是將每小段聲音信號隨時間推移所包含的各種頻率成分的變化分解成若干個頻帶，經(jīng)帶通濾波器濾波，每個通帶輸出對應(yīng)頻段的時變信號，經(jīng)檢波、低通，每個通帶信號的能量包絡(luò)按一定的時間間隔抽樣編碼，W所有通帶或部分能量較高通帶的能量編碼調(diào)制刺激電流脈沖的幅度，再按一定工作順序送到耳蝸內(nèi)電極上，傳遞該段聲音信號對末端聽神經(jīng)的刺激。目前子頻帶總數(shù)通常與電極總數(shù)相同，為12至24個，該樣的電極密度對傳遞聲道譜包絡(luò)特性（或諧振特性）為主要特征的發(fā)音內(nèi)容來說，可W 比較準(zhǔn)確地表達(dá)各個發(fā)音單元，所W目前的人工耳蝸各產(chǎn)品在識別語音內(nèi)容（即不設(shè)及聲調(diào)的音節(jié)、詞和句）方面達(dá)到較高滿意度。然而，該樣的聲音編碼策略傳遞的刺激信號陣列作用到聽覺神經(jīng)組織后得到的漢語的聲調(diào)感知卻并不理想，聲調(diào)識別率明顯下降，反映了該樣的編碼策略在聲調(diào)信息表達(dá)上存在缺陷。

【發(fā)明內(nèi)容】

[0004] 為了解決現(xiàn)有技術(shù)中存在的技術(shù)缺陷，本發(fā)明公開了一種利用相位特征對重構(gòu)漢語語音聲調(diào)感知進(jìn)行調(diào)教的方法。本發(fā)明從信號分解的角度出發(fā)，采用測聽重構(gòu)音的實驗方法，研究該種缺失是否與相位特征有關(guān)，W改進(jìn)人工耳蝸聲調(diào)信息的編碼方法。
[0005] 本發(fā)明采用的技術(shù)方案如下：
[0006] 一種相位對重構(gòu)語音聲調(diào)感知影響方法，包括W下步驟：
[0007] 步驟1獲取原始的漢語語音聲調(diào)信號；
[000引步驟2對步驟1的聲調(diào)信號采用傅里葉變換分解，得到與漢語語音聲調(diào)信號相應(yīng) 的幅度、頻率和相位=組特征參數(shù)；
[0009] 步驟3在相同條件下，保持信號的頻率和幅度特征兩者同時不變，僅改變相位特征，得到原始漢語語音聲調(diào)信號的重構(gòu)信號；
[0010] 步驟4對重構(gòu)信號進(jìn)行識別，進(jìn)而得到相位特征對重構(gòu)漢語語音聲調(diào)感知影響。
[0011] 步驟3中所述的重構(gòu)信號的方法為：去掉原始漢語語音聲調(diào)信號的原相位特征，保持原信號頻率和幅度特征不變，重構(gòu)新信號。
[0012] 具體方法如下；
[0013] 3-1.選用符合短時平穩(wěn)要求的窗長；
[0014] 3-2.確定帖長、采樣率和FFT樣點數(shù)，隨信號推移逐帖作FFT，半帖重疊，得到每帖語音信號頻譜X(n，w)如下：
[00巧]X(n，w) = |X(n，w) |eJ*虹w)，n = 0, (1)
[0016] |X(n，w) I為短時幅度譜，d) (n，w) =Z X(n，w)為短時相位譜；
[0017] 3-3.保持原語音信號的短時幅度譜|X(n，w) I不變，將短時相位譜d) (n，w)置零，然后將幅度譜|X(n，w) I和零相位譜兩者重新組合重構(gòu)聲音。
[0018] 所述的窗長與相位特征關(guān)系的確定方法如下對同一個音節(jié)分別W不同窗長的語音短段進(jìn)行短時頻譜分析和零相位重構(gòu)。
[0019] 所述的窗長選?。?61113、1〇1113、81113、51113、41113、31113、21113、11113;在不考慮相位的情況下，減小窗長至2ms W下，音節(jié)的調(diào)型由于窗長較小、頻譜的時間分辨率較高，即使在相位缺失情況下，各頻率成分時間偏移有限，導(dǎo)致信號疊加后的主峰值間隔關(guān)系未發(fā)生明顯變化，故聲調(diào)可感知。
[0020] 所述的3-2中重疊帖部分采用重疊相加法進(jìn)行處理，W去除海明窗疊加產(chǎn)生的增益誤差。
[0021] 步驟3中所述的重構(gòu)信號的方法如下：
[0022] 采用短時傅里葉變換嵌合法重構(gòu)語音，即將兩個聲信號進(jìn)行相同的短時傅里葉變換，提取各自的幅度譜和相位譜，再將來自不同原信號的幅度譜和相位譜交叉組合，重構(gòu)新的音節(jié)。
[0023] 步驟3-1對相同音節(jié)，不同聲調(diào)的兩個信號做相同的短時傅里葉變換；
[0024] 步驟3-2提取各自的幅度譜和相位譜；
[0025] 步驟3-3將得到的幅度譜和相位譜交叉組合，得到兩個重構(gòu)信號；
[0026] 步驟3-4按照步驟3-1和步驟3-3的方法依次對15個音節(jié)的4中聲調(diào)進(jìn)行兩兩組合，得到180個重構(gòu)音節(jié)。
[0027] 步驟4的識別方法采用W正常聽力者完好的聽覺神經(jīng)傳導(dǎo)系統(tǒng)為測聽對方進(jìn)行聲調(diào)識別。
[002引相位在人工耳蝸中的應(yīng)用，利用相位特征對人工耳蝸的信號陣列編碼進(jìn)行控制。
[0029] 本發(fā)明的有益效果如下；
[0030] 本發(fā)明通過設(shè)計零相位重構(gòu)音和嵌合音聲調(diào)感知實驗，給出了相位特征與聲調(diào)感知的關(guān)系。（1)在完全丟棄原信號相位特征時（如相位置零）；采用常用窗長對信號分析并重構(gòu)，重構(gòu)音節(jié)識別基本不受影響，雖然音質(zhì)有所下降，但音節(jié)識別率仍很高，而聲調(diào)感知已很難區(qū)別，重構(gòu)音幾乎全部無聲調(diào)變化；但當(dāng)窗長低于2ms時，即使相位特征缺失，調(diào)型的變化仍能識別。從而得出結(jié)論；聲調(diào)感知與信號的相位特征密切相關(guān)。（2)在用不同調(diào) 型、相同音節(jié)的幅度特征和相位特征進(jìn)行嵌合重構(gòu)實驗中，嵌合音被識別的四種調(diào)型主要由提供相位特征的音節(jié)決定，進(jìn)而同樣證實了相位對聲調(diào)感知的主要作用。通過該發(fā)明，可 W得出，若要進(jìn)一步提高聲音編碼裝置的性能，應(yīng)該在保證幅度譜特征編碼不受影響的前提下，尋找能有效提高相位信息編碼和傳遞的措施。
【附圖說明】
[0031] 圖1 (a)語音/al/的零相位重構(gòu)信號和原信號波形比較；
[003引圖1化）語音/a4/的零相位重構(gòu)信號和原信號波形比較；
[0033] 圖2傅立葉分析嵌合原理圖；
[0034] 圖3同音節(jié)不同聲調(diào)嵌合音測聽統(tǒng)計結(jié)果；
[0035] 圖4嵌合音的調(diào)型識別統(tǒng)計結(jié)果。
【具體實施方式】
[0036] 1.語音信號產(chǎn)生模型與聽覺感知機(jī)理分析
[0037] 根據(jù)語音信號產(chǎn)生的數(shù)學(xué)模型可知，任何言語信號都是由一個聲口激勵源信號作用于聲道系統(tǒng)、通過口鼻福射產(chǎn)生出來的，聲道和口鼻福射系統(tǒng)相當(dāng)于一個時變的調(diào)諧器。聲口激勵源中最重要的參數(shù)就是基音周期，它控制著聲口（或聲帶）振動的快慢，漢語中發(fā) 音比較響亮的元音音段都包含該參數(shù)。基音周期的倒數(shù)，簡稱基頻，聲調(diào)調(diào)型就是基頻參數(shù) 的變化模式。對于漢語單音節(jié)來說，每個音節(jié)都有聲調(diào)，分別為"一、二、=、四"聲，或"陰平、陽平、上聲、去聲"。根據(jù)語音的"聲源+濾波"的產(chǎn)生模型，聲源部分的信號與含有聲道傳遞特征的傳輸函數(shù)相卷積，便形成傳入聽者耳內(nèi)的聲信號。該信號隨時間推移在時域和頻域上，均可按短時段分解為不同的頻率、幅度及相位=個參量互相關(guān)聯(lián)的線性疊加。鑒于人耳內(nèi)部的生理結(jié)構(gòu)，耳蝸相當(dāng)于一個精密的頻譜感應(yīng)器，在耳蝸基底膜上按位置依次分布著大量的能感知不同頻率成份的聽細(xì)胞及相連接的聽神經(jīng)組織。當(dāng)該些聽細(xì)胞或聽神經(jīng) 組織都正常工作時，將負(fù)責(zé)接收和傳導(dǎo)聲音陣列信號的刺激，其中包括各時間點上有效的頻率位置、其上的幅度特征W及各頻率和幅度特征在各時間關(guān)系上原有的時序（即相位特征）。該些特征與原聲信號應(yīng)直接對應(yīng)，聯(lián)合在一起構(gòu)成信號陣列，分時、準(zhǔn)確、有序地作用于感知神經(jīng)，是腦干感知各種清晰的聲音效果的基礎(chǔ)。而目前的語音編碼策略在頻率位置和幅度特征上傳遞較為準(zhǔn)確，而對陣列信號各路工作的時間順序上基本未作相應(yīng)處理，該問題主要設(shè)及信號的相位特征。
[003引為研究聲調(diào)感知是否與信號相位特征有關(guān)，我們W正常聽力者完好的聽神經(jīng)傳導(dǎo) 系統(tǒng)為測聽對象，對聲音信號采用短時傅立葉變換分解方法，得到音段相應(yīng)的幅度、頻率和相位=組特征參數(shù)，然后在相同實驗材料和實驗條件下，保持信號的頻率和幅度特征兩者同時不變，通過一定方式僅改變相位特征，再重構(gòu)信號，W測聽方式進(jìn)行聲調(diào)識別，統(tǒng)計評估重構(gòu)信號的聲調(diào)感知結(jié)果。
[0039] 2語音測聽實驗方法
[0040] 測聽的語音材料采用兩種重構(gòu)語音方法，一種是去掉所給信號的原相位特征，保持原信號頻率和幅度特征不變，重構(gòu)新信號；另一種方法是利用短時傅里葉變換嵌合法重構(gòu)語音，即將兩種不同聲調(diào)的音節(jié)的幅度譜和相位譜交叉嵌合再重構(gòu)新信號。通過測聽兩種不同條件下重構(gòu)音的聲調(diào)感知識別結(jié)果，得出聲調(diào)與相位之間的影響關(guān)系。
[0041] 為科學(xué)有效地研究相位信息對漢語聲調(diào)的影響，除了分析觀察重構(gòu)信號和原信號時域波形外，考慮到聲音感知的主觀評估重要性，還需要選取合適的人群，W大量的測聽實驗獲取主觀評估數(shù)據(jù)。測聽實驗中，測試者由6位正常聽力者組成，其中3名男性和3名女性，其母語均為漢語普通話，對普通話四聲調(diào)型有良好的識別能力。測試中，聽者要求佩戴封閉式耳機(jī)，W確保良好的聲音頻響特性和隔離外界噪音干擾。要求聽者主要關(guān)注兩個方面的問題，一

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2