語音混合方法、多點會議服務(wù)器和利用該方法的程序的制作方法

文檔序號：2830535閱讀：328來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音混合方法、多點會議服務(wù)器和利用該方法的程序的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音混合方法、多點會議服務(wù)器和利用該方法的程序。更具體而言，本發(fā)明涉及對全部參與者的語音進行混合、從混合語音中減去一個參與者的語音、隨后將減后的語音發(fā)送到同一個參與者的方法，以及多點會議服務(wù)器和利用該方法的程序。
背景技術(shù)：
在多點會議服務(wù)中，經(jīng)語音編碼器編碼的每個參與者的語音被發(fā)送到多點會議服務(wù)器。多點會議服務(wù)器向每個參與者發(fā)送混合了除該參與者之外的其他參與者的語音的語音數(shù)據(jù)。
在混合語音時，首先，通過將對每個參與者的語音數(shù)據(jù)進行解碼而獲得的全部解碼語音信號相加來計算出全部參與者的語音信號。接下來，通過從全部參與者的語音信號中減去自己的語音從而獲得語音信號，這些語音信號被解碼，所生成的語音數(shù)據(jù)被發(fā)送到相應(yīng)的參與者。
作為多點會議服務(wù)中的終端和和服務(wù)器之間的通信協(xié)議的示例，在電
路交換網(wǎng)絡(luò)中使用了 ITU-T H.323和H.324,在移動網(wǎng)絡(luò)中使用了 3G-324M，在基于IP (因特網(wǎng)協(xié)議)的分組網(wǎng)絡(luò)中使用了 IETF RFC 3550 RTP
(實時傳輸協(xié)議)。
作為語音編碼器，可使用作為ITU-T標準的由G.7U、 G.729和3GPP TS26.090定義的AMR (自適應(yīng)多速率)方法、由TS26.190定義的AMR-WB (寬帶)方法和由3GPP2定義的EVRC (增強可變速率編解碼器)方法。
G.711方法通過利用對數(shù)變換來將8kHz采樣的語音信號中的每個16 比特的樣本壓縮成8個比特，并且在該方法中，計算量較小但是可壓縮性比率較低。另一方面，G.729方法(AMR方法)和EVRC方法是基于根據(jù)CELP (碼激勵線性預(yù)測)原理的差分編碼(differential coding)方法的，并且它們可以更有效地對語音信號進行編碼。
在CELP中，編碼器通過利用線性預(yù)測分析(LPC:線性預(yù)測編碼) 從每個幀(例如，20ms)的語音信號中提取出示出了該語音信號的頻譜特性的頻譜參數(shù)。
此外，經(jīng)幀劃分的語音信號還被進一步劃分成子幀(例如，5ms)，基于每個子幀的過去聲源信號而提取出自適應(yīng)碼本中的參數(shù)(與基音周期相對應(yīng)的延遲參數(shù)和增益參數(shù))，并且根據(jù)自適應(yīng)碼本預(yù)測相應(yīng)子幀的語音信號的基音。從包括預(yù)定類型的噪聲信號的聲源碼本(向量量化碼本) 中選出最合適的聲源碼向量，并且針對通過基音預(yù)測獲得的殘留信號計算出最合適的增益，從而對聲源信號進行量化。
選擇聲源碼向量以使得上述殘留信號和由所選噪聲信號合成的信號之間的電功率誤差最小化。指示所選碼向量的類型的自適應(yīng)碼本中的參數(shù)、索引、增益和頻譜參數(shù)的組合作為語音數(shù)據(jù)被發(fā)送。
解碼器根據(jù)從語音數(shù)據(jù)獲得的參數(shù)來計算聲源信號和線性預(yù)測分析中的合成濾波器系數(shù)，并且通過合成濾波器驅(qū)動聲源信號，從而獲得復(fù)語音信號。
專利文獻1公開了一種語音混合方法，在該方法中不對每個樣本執(zhí)行比較/選擇處理，而是基于對樣本大小的比較/選擇處理的結(jié)果選擇跟隨所選語音數(shù)據(jù)的樣本后的多個樣本。
此外，專利文獻2公開了一種語音混合方法，在該方法中，一旦在混合單元中生成了加和信號，其自身的語音信息(由一個用戶發(fā)送的語音信息)就被從加和信號中減去，并且該用戶之外的其他用戶的語音信息被返回給自身。
專利文獻3公開了一種通信單元，在該通信單元中語音合成單元將由每個異類(heterogeneous)編碼/解碼單元轉(zhuǎn)換成線性數(shù)據(jù)的每個語音數(shù)據(jù) 相加，此后，通過從相加得到的語音數(shù)據(jù)中減去自己的語音數(shù)據(jù)而生成語音數(shù)據(jù)，并且其被發(fā)送到相應(yīng)的異類編碼/解碼單元。專利文獻l:日本專利公布早期公開No. 2005-151044 (第0014、 0016 和0045段)
專利文獻2:日本專利公布早期公開No. 2005-229259 (第0003段和圖1)
專利文獻3:日本專利公布早期公開No. 6-350724 (第0020段和圖
2)
在現(xiàn)有技術(shù)的多點會議系統(tǒng)中，混合有除自身參與者之外的其他所有參與者的語音的語音被編碼并且被發(fā)送給每個參與者。此刻，由于語音編碼的計算量隨參與者數(shù)目增加而增大，所以系統(tǒng)使用一種方法，來檢測正在發(fā)音的每個揚聲器并且限制要被混合的語音的數(shù)目，從而減少要操作的語音編碼器的數(shù)目。
在利用執(zhí)行諸如CELP方法之類的差分編碼的語音編碼器的情形中，由于根據(jù)揚聲器的改變而切換編碼器時示出該編碼器的狀況的存儲器中存在不一致性，所以存在在經(jīng)解碼語音中出現(xiàn)異常聲音的問題。
在上述專利文獻1至3中未公開用于解決該問題的手段。

發(fā)明內(nèi)容
本發(fā)明的一個示例目標是提供一種可以防止在根據(jù)揚聲器的改變而切換編碼器時發(fā)生異常聲音的語音混合方法、多點會議服務(wù)器和利用該方法的程序。
根據(jù)本發(fā)明的第一示例性方面，一種用于混合多個語音信息的語音混合方法包括第一步驟，用于從多個語音信息中選擇語音信息；第二步驟，用于對全部所選語音信息進行相加；第三步驟，用于通過對所選語音信息中除一個語音信息之外的語音信息進行相加來獲得一語音信息；第四步驟，用于對在第二步驟中獲得的語音信息進行編碼；第五步驟，用于對在第三步驟中獲得的語音信息進行編碼；以及第六步驟，用于將在第四步驟中獲得的經(jīng)編碼信息拷貝到第五步驟中的經(jīng)編碼信息中。
根據(jù)本發(fā)明的第二示例性方面，一種對多個語音信息進行混合的多點會議服務(wù)器包括從多個語音信息中選擇語音信息的選擇器；對由選擇器選擇的全部語音信息進行相加的全部信號加法器；通過對所選語音信息中除一個語音信息之外的語音信息進行相加來獲得一語音信息的加法器；對由全部信號加法器相加的語音信息進行編碼的第一編碼器；對由加法器相加的語音信息進行編碼的第二編碼器；以及將由第一編碼器獲得的經(jīng)編碼信息拷貝到第二編碼器中的開關(guān)。
根據(jù)本發(fā)明的第三示例性方面，一種用于執(zhí)行語音混合多個語音信息的程序使計算機執(zhí)行以下步驟第一步驟，用于從多個語音信息中選擇語音信息；第二步驟，用于對全部所選語音信息進行相加；第三步驟，用于從逐個相加的語音信息中減去所選語音信息；第四步驟，用于對在第二步驟中獲得的語音信息進行編碼；第五步驟，用于對在第三步驟中獲得的語音信息進行編碼；以及第六步驟，用于將在第四步驟中獲得的經(jīng)編碼信息拷貝到第五步驟中的經(jīng)編碼信息中。
本發(fā)明的其他目的、特征和優(yōu)點將在下面給出的詳細描述中變清楚。

在附圖中-
圖1是根據(jù)本發(fā)明第一示例性實施例的多點會議服務(wù)器的結(jié)構(gòu)圖；圖2是示出了根據(jù)本發(fā)明第一示例性實施例的多點會議服務(wù)器的操作過程的流程圖；以及
圖3是根據(jù)本發(fā)明第二示例性實施例的多點會議服務(wù)器的結(jié)構(gòu)圖。
具體實施例方式
下面將參考附圖描述本發(fā)明的示例性實施例。 (第一示例性實施例)
圖1是根據(jù)本發(fā)明第一示例性實施例的多點會議服務(wù)器的結(jié)構(gòu)圖。根據(jù)本發(fā)明第一示例性實施例的多點會議服務(wù)器包括語音輸入端子(或者輸入語音信號)100、 110、…和190，功率計算器101、 111、…禾卩191，揚聲器選擇器200，語音信號輸入開關(guān)102、 112、…和192，全部信號加法器300，加法器103、 113、…和193，語音編碼器104、 114、…和194，存儲器開關(guān)105、 115、…和195，公共語音編碼器400，語音數(shù)據(jù)開關(guān)106、 116、…禾卩196，以及接揚聲器語音輸出端子(或者接揚聲器語音輸出)107、 117、…和197。
語音輸入端子100、 110、…和190對應(yīng)于揚聲器1、揚聲器2、…、揚聲器M。功率計算器101、 111、…和191，語音信號輸入開關(guān)102、 112、…和192，加法器103、 113、…和193， i吾音編碼器104、 114、... 和194，存儲器開關(guān)105、 115、…和195，語音數(shù)據(jù)開關(guān)106、 116、…和 196，以及接揚聲器語音輸出端子107、 117、…和197類似地對應(yīng)于各個揚聲器。
接下來，將參考圖l和圖2來描述第一示例性實施例的操作。圖2是示出了根據(jù)本發(fā)明第一示例性實施例的多點會議服務(wù)器的操作過程的流程圖。在下文中，盡管僅描述了與揚聲器l、揚聲器2和揚聲器M相對應(yīng)的處理塊，但是對未示出的揚聲器執(zhí)行相同的處理。
功率計算器101、功率計算器111和功率計算器191分別計算與揚聲器1、揚聲器2和揚聲器M的輸入語音信號100、輸入語音信號110和輸入語音信號190相對應(yīng)的各個功率，并且輸出上述功率(圖2的步驟 Sl)。
揚聲器選擇器200利用計算出的各個揚聲器的功率來選擇正發(fā)音的揚聲器，并且輸出所選結(jié)果(圖2的步驟S2)。
語音信號輸入開關(guān)102、語音信號輸入開關(guān)112和語音信號輸入開關(guān) 192基于揚聲器200的選擇結(jié)果來切換是否輸出相應(yīng)揚聲器的輸入語音信號(圖2的步驟S3)。
全部信號加法器300提供通過對與揚聲器選擇器200中選擇的揚聲器相對應(yīng)的全部語音加和而獲得的語音信號(圖2的步驟S4)。
加法器103、加法器113和加法器193提供從自全部信號加法器300 提供來的語音信號中減去所選揚聲器的語音信號而獲得的語音信號(圖2 的步驟S5)。
艮P，它們提供通過從自全部信號加法器300提供來的語音信號中減去分別與所選揚聲器的語音編碼器104、 114和194相對應(yīng)的揚聲器的語音信息而獲得的語音信息。
公共語音編碼器400對從全部信號加法器300提供來的語音信號進行編碼(圖2的步驟S6)。
語音編碼器104、語音編碼器114和語音編碼器194對從加法器 103、加法器113和加法器193提供來的語音信號進行編碼(圖2的步驟 S7)。
存儲器開關(guān)105、存儲器開關(guān)115和存儲器開關(guān)195基于揚聲器選擇器200的選擇結(jié)果，將在公共語音編碼器400的差分編碼中存儲器的內(nèi)容分別拷貝到語音編碼器104、語音編碼器114和語音編碼器194 (圖2的步驟S8)。
具體而言，存儲器開關(guān)將公共語音編碼器400的存儲器中存儲的作為差分編碼的結(jié)果的編碼信息拷貝到語音編碼器104、語音編碼器114和語音編碼器194的存儲器中。因此，語音編碼器104、語音編碼器114和語音編碼器194的存儲器變?yōu)榕c公共語音編碼器400的存儲器相同狀況。
基于揚聲器選擇器200的選擇結(jié)果，語音數(shù)據(jù)開關(guān)106、語音數(shù)據(jù)開關(guān)116和語音數(shù)據(jù)開關(guān)196切換輸出語音數(shù)據(jù)(圖2的步驟S9)。
具體而言，作為一個示例，當(dāng)選擇了揚聲器1而未選擇揚聲器2和揚聲器M時，揚聲器1的語音輸入信號開關(guān)102導(dǎo)通，揚聲器2的語音輸入信號開關(guān)112和揚聲器M的語音輸入信號開關(guān)192斷開，揚聲器1的存儲器開關(guān)105導(dǎo)通，揚聲器2的存儲器開關(guān)115和揚聲器M的存儲器開關(guān) 195斷開，揚聲器1的語音數(shù)據(jù)開關(guān)106被連接到揚聲器1 一側(cè)，而揚聲器2的語音數(shù)據(jù)開關(guān)116和揚聲器M的語音數(shù)據(jù)開關(guān)196被連接到公共語音編碼器400—側(cè)。
全部信號加法器300對通過語音信號輸入開關(guān)102的揚聲器1的語音信號加和，并且將加和信號提供給公共語音編碼器400。
加法器103從由全部信號加法器300加和的揚聲器1的語音信號中減去揚聲器1的語音信號，并且結(jié)果信號被提供給語音編碼器104。語音編碼器104的輸出信號通過語音數(shù)據(jù)開關(guān)106被發(fā)送給揚聲器1。
提供到公共語音編碼器400的語音信號通過語音數(shù)據(jù)開關(guān)116和196被發(fā)送給未選擇的揚聲器2和揚聲器M。
本發(fā)明的第一示例性實施例特征在于在揚聲器1從未選擇狀態(tài)轉(zhuǎn)變
到被選擇狀態(tài)時公共語音編碼器400中存儲的信息通過存儲器開關(guān)105被拷貝到語音編碼器104中，或者在揚聲器2改變到被選擇狀態(tài)時公共語音編碼器400中存儲的信息通過存儲器開關(guān)115被拷貝到語音編碼器114。
據(jù)此，當(dāng)在揚聲器改變時切換語音編碼器時，可以防止由于示出語音編碼器的狀態(tài)的存儲器中的不一致而導(dǎo)致在經(jīng)解碼語音中發(fā)生異常聲音。
在第一示例性實施例中，盡管加法器103、加法器113和加法器193 中的每個都被設(shè)計來提供通過從自全部信號加法器300提供來的語音信號中減去所選揚聲器的語音信號而獲得的語音信號，但是在相加和輸出所選語音信號中的除所選的一個揚聲器的語音信號之外的語音信號的結(jié)構(gòu)中可以獲得相同的結(jié)果。 (操作示例)
在下文中，將參考圖1描述示例性實施例的一個具體示例。首先，功率計算器101、功率計算器111和功率計算器191分別計算輸入語音信號 100、輸入語音信號110和輸入語音信號190的功率，并且將計算出的功率提供并輸出到揚聲器選擇器200。
例如，8kHz采樣的輸入語音信號s(n)的功率P是在每20毫秒(160個樣本)中利用下式(1)計算出的。
尸式(1)
在這里，作為示例，L=160。
揚聲器選擇器200利用揚聲器的輸入功率來選擇正在發(fā)音的揚聲器，并且將它是否被選擇提供給語音信號輸入開關(guān)102、語音信號輸入開關(guān) 112和語音信號輸入開關(guān)192，存儲器開關(guān)105、存儲器開關(guān)115和存儲器開關(guān)195，語音數(shù)據(jù)開關(guān)106、語音數(shù)據(jù)開關(guān)116和語音數(shù)據(jù)開關(guān)196。
作為用于選擇正發(fā)音的揚聲器的方法，存在按照功率降低的順序選擇預(yù)定排名第N (N<M，并且N和M為正整數(shù))的揚聲器的方法和選擇功率超過預(yù)定閾值的揚聲器的方法。此外，還可以考慮利用通過泄漏積分而平滑的值而不是直接利用輸入功率。當(dāng)輸入被定義為x(n)并且輸出被定義為y(n)時，泄漏積分被表示為 y(n)=kXy(n-l)+x(n)。在這里，0<k<l，并且k是常數(shù)。
語音信號輸入開關(guān)102、語音信號輸入開關(guān)112和語音信號輸入開關(guān) 192將與揚聲器選擇器200所選的揚聲器相對應(yīng)的輸入語音信號100、輸入語音信號110、輸入語音信號190分別提供給相應(yīng)的加法器103、加法器113和加法器193以及全部信號加法器300。
全部信號加法器300將通過對全部輸入語音信號加和而獲得的語音信號提供給加法器103、加法器113、加法器193以及公共語音編碼器400。
對于揚聲器選擇器200所選的揚聲器，加法器103、加法器113和加法器193將從自全部信號加法器300提供來的語音信號中減去自語音信號輸入開關(guān)102、語音信號輸入開關(guān)112和語音信號輸入開關(guān)192提供來的相應(yīng)語音信號而獲得的語音信號分別提供給語音編碼器104、語音編碼器 114和語音編碼器194。
在混合后的語音中，可以將每個揚聲器i的輸入語音信號乘以下式
(2) 示出的可調(diào)節(jié)增益Gi來降低揚聲器之間的音量差異。
<formula>formula see original document page 13</formula> 式(2)
標號Pi是利用式(1)計算出的朝向揚聲器i的功率，并且N是混合信號的數(shù)目。Gi被與揚聲器的功率成反比地計算出來，并且當(dāng)其在作為功率Pi的計算周期的每20毫秒中被更新時，它改變太大，因此可以如下式
(3) 所示對其進行平滑。
<formula>formula see original document page 13</formula> 式(3)
在這里，G'i示出先前計算出的可調(diào)節(jié)增益。例如0.9被用作a的值。為了避免過度調(diào)節(jié)音量，例如，可以將Gi的可能范圍限定為0.5到2。
為了調(diào)節(jié)混合語音信號的音量，可以將混合語音信號乘以下式(4) 示出的可調(diào)節(jié)增益Ga。
《=尸。 ,化式(4)
在這里，Pa是利用式(1)計算出的混合語音信號的功率，并且P。ut是
在調(diào)節(jié)時的目標值的功率。可以使用揚聲器的混合語音信號中揚聲器的最大值和預(yù)定水平的預(yù)定值。可以執(zhí)行平滑，并且可以與上述Gi類似地限制可能的范圍。
公共語音編碼器400對從全部信號加法器300提供來的語音信號進行編碼，并且將經(jīng)編碼語音數(shù)據(jù)提供給語音數(shù)據(jù)開關(guān)106、語音數(shù)據(jù)開關(guān) 116和語音數(shù)據(jù)開關(guān)196。
當(dāng)語音信號被從加法器103、加法器113和加法器193提供來時，語音編碼器104、語音編碼器114和語音編碼器194對語音信號進行編碼，并且將經(jīng)編碼語音數(shù)據(jù)提供給語音數(shù)據(jù)開關(guān)106、語音數(shù)據(jù)開關(guān)116和語音數(shù)據(jù)開關(guān)196。
當(dāng)揚聲器選擇器200從未選擇狀態(tài)轉(zhuǎn)變到揚聲器選擇狀態(tài)時，存儲器開關(guān)105、存儲器開關(guān)115和存儲器開關(guān)195將在公共語音編碼器400的差分編碼中存儲器的內(nèi)容分別提供給語音編碼器104、語音編碼器114和語音編碼器194。
由于存儲器開關(guān)的處理，例如，對于揚聲器1，在切換從公共語音編碼器400到語音編碼器104的輸出語音數(shù)據(jù)的輸出時，在差分編碼過程中的存儲器中不會發(fā)生不一致。
另一方面，在切換從語音編碼器104到公共語音編碼器400的輸出語音數(shù)據(jù)的輸出時，由于不能覆寫公共語音編碼器400的存儲器，所以在存儲器中發(fā)生了不一致。
但是，由于這是在揚聲器1的音量變得較小并且語音編碼器104的輸入語音變得與到公共語音編碼器400的輸入語音基本相等的時刻，所以由于二者存儲器中的不一致而導(dǎo)致的聲音質(zhì)量惡化較小。在該情形中，為了使存儲器中的不一致較小，在與輸入到公共語音編碼器400的語音信號相同的語音信號被提供給語音編碼器104并且其被操作了一段時間后，語音數(shù)據(jù)開關(guān)106可以被切換到從公共語音編碼器400提供來的語音數(shù)據(jù)。語音編碼器104操作相同輸入語音信號的時間越長，存儲器中的不一致相應(yīng) 地變得越小，但是，這種情況下發(fā)生了切換所必需的延遲。
語音數(shù)據(jù)開關(guān)106、語音數(shù)據(jù)開關(guān)116和語音數(shù)據(jù)開關(guān)196在其在揚聲器選擇器200中被選為正在發(fā)音的揚聲器時提供來自語音編碼器104、語音編碼器114和語音編碼器194的語音數(shù)據(jù)，并且它們在其在揚聲器選
擇器200中未被選為正在發(fā)音的揚聲器時提供從公共語音編碼器400提供來的語音數(shù)據(jù)。
在該示例性實施例中，盡管假設(shè)所有語音編碼器都相同，但是也可以使用各種類型的語音編碼器，或者可以混合各種類型的比特率。在該情形中，對于各種類型的編碼器或比特率的數(shù)目需要相應(yīng)的公共編碼器。對存儲器的切換必須對同一類型的編碼器或者比特率執(zhí)行。
如上所述，根據(jù)本發(fā)明的操作示例，存在這樣的優(yōu)點在例如對于揚
聲器1、切換從公共語音編碼器400到語音編碼器104的輸出語音數(shù)據(jù)的輸出時，在差分編碼過程中的存儲器中不會發(fā)生不一致。 (第二示例性實施例)
接下來，將參考圖3描述本發(fā)明的第二示例性實施例。圖3是根據(jù)本發(fā)明第二示例性實施例的多點會議服務(wù)器的結(jié)構(gòu)圖。相同的標號被指派給圖l中的相同的組件，并且省略了對它們的描述。
語音解碼器501、語音解碼器511和語音解碼器591分別對已編碼的輸入語音數(shù)據(jù)500、輸入語音數(shù)據(jù)510和輸入語音數(shù)據(jù)590進行解碼，并且將經(jīng)解碼語音提供給功率計算器101、功率計算器111和功率計算器
191，以及語音信號輸入開關(guān)102、語音信號輸入開關(guān)112和語音信號輸入開關(guān)192。
語音數(shù)據(jù)分析器502、語音數(shù)據(jù)分析器512和語音數(shù)據(jù)分析器592提供關(guān)于分析輸入語音數(shù)據(jù)500、輸入語音數(shù)據(jù)510和輸入語音數(shù)據(jù)590分別是有聲音還是靜默的結(jié)果。
AMR語音編碼方法的一個示例被描述來作為分析方法。在AMR語音編碼方法中，對輸入語音執(zhí)行VAD (語音活動性檢測)來判斷它有聲音還是靜默，并且在判斷出靜默時，可以發(fā)送幀類型為NO—DATA的信息，或者可以發(fā)送關(guān)于背景噪聲的信息作為SID (靜默指示)。
當(dāng)在語音數(shù)據(jù)的頭部中的幀類型為NO—DATA或SID時，可以判斷為靜默。當(dāng)未執(zhí)行VAD但是每一語音數(shù)據(jù)被編碼為有聲音時，存在一種將基于語音數(shù)據(jù)中包括的增益參數(shù)和頻譜參數(shù)而呈現(xiàn)的音量提供給揚聲器選擇器201的方法。
功率計算器101、功率計算器111和功率計算器191計算從語音解碼器501、語音解碼器511和語音解碼器591提供來的經(jīng)解碼信號的功率，并且將它們的值提供給揚聲器選擇器201 。
揚聲器選擇器210基于語音數(shù)據(jù)分析器502、語音數(shù)據(jù)分析器512和語音數(shù)據(jù)分析器592的分析的結(jié)果并且還基于從功率計算器101、功率計算器111和功率計算器191提供來的功率來選擇正發(fā)音的揚聲器，并且提供該選擇的結(jié)果。
具體而言，存在以下兩種方法一種方法按照從功率計算器101、功率計算器111和功率計算器191提供來的功率降低的順序選擇預(yù)定排名第 N (N<M)的揚聲器；另一種方法在從語音數(shù)據(jù)分析器502、語音數(shù)據(jù)分析器512和語音數(shù)據(jù)分析器592提供來的分析結(jié)果表明聲音或者呈現(xiàn)的音量超過了某一閾值時選擇功率超過預(yù)定閾值的揚聲器。
如上所述，根據(jù)本發(fā)明的第二示例性實施例，向選擇揚聲器的標準添加了對有聲音還是靜默的判斷，從而獲得了比在第一示例性實施例中更好的選擇結(jié)果。 (第三示例性實施例)
第三示例性實施例涉及用于使計算機執(zhí)行語音混合方法的程序。參見圖1，未示出的控制器控制多點會議服務(wù)器中包括的功率計算器101、 111、…和191，揚聲器選擇器200，語音信號輸入開關(guān)102、 112、…和 192，全部信號加法器300，加法器103、 113、…和193，語音編碼器 104、 114、…和194，存儲器開關(guān)105、 115、…和195，公共語音編碼器 400，以及語音數(shù)據(jù)開關(guān)106、 116、…和196。
此外，該多點會議服務(wù)器還包括未示出的存儲單元，該存儲單元存儲圖2的流程圖中示出的語音混合方法的處理過程的程序。
控制器(或計算機)從存儲單元讀取上述程序，并且根據(jù)該程序控制上述組件。由于已描述了控制內(nèi)容，所以省略了對它們的描述。
如上所述，根據(jù)本發(fā)明第三實施例，可以獲得一種程序，該程序用于例如對于揚聲器1、防止在切換從公共語音編碼器400到語音編碼器104的輸出語音數(shù)據(jù)的輸出時、在差分編碼過程中的存儲器中發(fā)生不一致。下面將描述其他示例性實施例。
由于蜂窩電話中帶寬很窄，所以必須利用差分編碼技術(shù)來高效地壓縮語音。在蜂窩電話被用來組成多點會議系統(tǒng)時，由于每個蜂窩電話的處理器的能力有限，所以利用蜂窩電話進行混合不現(xiàn)實，因此除了蜂窩電話之外多點會議服務(wù)器是必需的。本發(fā)明的示例性實施例在該情形中是有用的。
考慮下面的模式作為多點會議系統(tǒng)。第一模式是在每個會議室內(nèi)有一個人。第二模式是在多個會議室內(nèi)有多個人(此外，在每個會議室中有多
對麥克風(fēng)和揚聲器以及在每個會議室中有一對麥克風(fēng)和揚聲器的情形)。本發(fā)明的第二示例性實施例在該情形中是有用的。
根據(jù)本發(fā)明的示例性實施例，由于在編碼過程中的存儲器內(nèi)容中不會發(fā)生不一致，所以可以防止在根據(jù)揚聲器的改變切換編碼器時在經(jīng)解碼語音中發(fā)生異常聲音。
盡管已結(jié)合本發(fā)明的優(yōu)選實施例具體示出并描述了本發(fā)明，但是本發(fā) 明不限于這些實施例。本領(lǐng)域技術(shù)人員將理解，在不脫離由權(quán)利要求書所限定的本發(fā)明的精神和范圍的情況下，可以在形式和細節(jié)上作出改變。
本申請基于2006年8月30日提交的日本專利申請No. 2006-232919并且要求該申請的優(yōu)先權(quán)，該申請的公開通過引用整體結(jié)合于此。
權(quán)利要求
1. 一種用于混合多個語音信息的語音混合方法，包括第一步驟，用于從多個語音信息中選擇語音信息；第二步驟，用于對全部所選語音信息進行相加；第三步驟，用于通過對所述所選語音信息中除一個語音信息之外的語音信息進行相加來獲得一語音信息；第四步驟，用于對在所述第二步驟中獲得的語音信息進行編碼；第五步驟，用于對在所述第三步驟中獲得的語音信息進行編碼；以及第六步驟，用于將在所述第四步驟中獲得的經(jīng)編碼信息拷貝到所述第五步驟中的經(jīng)編碼信息中。
2. 如權(quán)利要求1所述的語音混合方法，其中在所述第六步驟中，存儲在執(zhí)行所述第四步驟中的編碼的編碼器的存儲器中的經(jīng)編碼信息被拷貝到執(zhí)行所述第五步驟的編碼的編碼器中。
3. 如權(quán)利要求1或2所述的語音混合方法，還包括第七步驟，根據(jù)在所述第一步驟中的選擇結(jié)果來切換并提供在所述第四步驟中獲得的經(jīng)編碼信息或在所述第五步驟中獲得的經(jīng)編碼信息。
4. 如權(quán)利要求1至3中任一個所述的語音混合方法，其中輸入的經(jīng)編碼信息被解碼，并且經(jīng)解碼語音信息被用作所述第一步驟中的語音信息。
5. 如權(quán)利要求1至4中任一個所述的語音混合方法，其中在所述第一步驟中，根據(jù)所述語音信息的語音信號的功率選擇語音信息。
6. 如權(quán)利要求1至5中任一個所述的語音混合方法，其中在所述第一步驟中，根據(jù)所述語音信息的語音數(shù)據(jù)是有聲還是靜默來選擇語音信息。
7. 如權(quán)利要求1至6中任一個所述的語音混合方法，其中在所述第三步驟中，通過對所述所選語音信息中除一個語音信息之外的語音信息進行相加來獲得的語音信息是通過從逐個相加的語音信息中減去所述所選語音信息而獲得的。
8. 如權(quán)利要求1至7中任一個所述的語音混合方法，其中所述語音信息是語音信號的經(jīng)編碼數(shù)據(jù)，在所述第一步驟中，分析多個所述經(jīng)編碼數(shù)據(jù)，選擇用于混合的經(jīng)編碼數(shù)據(jù)，并且對所選經(jīng)編碼數(shù)據(jù)解碼并生成經(jīng)解碼語音信號。
9. 如權(quán)利要求1至7中任一個所述的語音混合方法，其中所述語音信息是語音信號的經(jīng)編碼數(shù)據(jù)，在所述第一步驟中，分析所述經(jīng)編碼數(shù)據(jù)和通過對所述經(jīng)編碼數(shù)據(jù)進行解碼獲得的經(jīng)解碼語音信號，并且選擇用于混合的經(jīng)解碼語音信號。
10. 如權(quán)利要求8或9所述的語音混合方法，其中在所述第二步驟中，生成對全部所述經(jīng)解碼語音信號加和的語音信號，在所述第三步驟中，生成對所述所選經(jīng)解碼語音信號中除一個經(jīng)解碼語音信號之外的經(jīng)解碼語音信號加和的語音信號，在所述第四步驟中，在第一編碼器中對所述第二步驟生成的所述語音信號進行差分編碼，在所述第五步驟中，在第二編碼器中對所述第三步驟生成的所述語音信號進行差分編碼，在所述第六步驟中，在對用于混合的經(jīng)解碼語音信號的選擇結(jié)果被改變時，使指示所述第五步驟中第二編碼器的狀態(tài)的存儲器內(nèi)容與指示所述第四步驟中第一編碼器的狀態(tài)的存儲器內(nèi)容相同。
11. 如權(quán)利要求1至10中任一個所述的語音混合方法，包括用于將用于混合的語音信號之間的音量差調(diào)節(jié)變小的步驟。
12. 如權(quán)利要求1至10中任一個所述的語音混合方法，包括用于將經(jīng)混合語音的音量調(diào)節(jié)到與用于混合的語音信號中的最大音量相等或者調(diào)節(jié)到預(yù)定水平的步驟。
13. —種對多個語音信息進行混合的多點會議服務(wù)器，包括選擇裝置，用于從所述多個語音信息中選擇語音信息；全部信號相加裝置，用于對由所述選擇裝置選擇的全部語音信息進行相加；加法裝置，用于通過對所述所選語音信息中除一個語音信息之外的語音信息進行相加來獲得語音信息；第一編碼裝置，用于對由所述全部信號相加裝置相加的語音信息進行編碼；第二編碼裝置，用于對由所述加法裝置相加的語音信息進行編碼；以及開關(guān)裝置，用于將由所述第一編碼裝置獲得的經(jīng)編碼信息拷貝到所述第二編碼裝置中。
14. 如權(quán)利要求13所述的多點會議服務(wù)器，其中所述開關(guān)裝置根據(jù)所述選擇裝置的選擇結(jié)果，將存儲在所述第一編碼裝置的存儲器中的經(jīng)編碼信息拷貝到所述第二編碼裝置中。
15. 如權(quán)利要求13或14所述的多點會議服務(wù)器，還包括輸出開關(guān)裝置，用于根據(jù)所述選擇裝置的選擇結(jié)果，切換并提供由所述第一編碼裝置獲得的經(jīng)編碼信息或由所述第二編碼裝置獲得的經(jīng)編碼信息。
16. 如權(quán)利要求13至15中任一個所述的多點會議服務(wù)器，包括解碼裝置，用于對多個輸入的經(jīng)編碼語音信息進行解碼，其中所述選擇裝置從由所述解碼裝置解碼的多個語音信息中選擇語音信息。
17. 如權(quán)利要求13至16中任一個所述的多點會議服務(wù)器，其中所述選擇裝置根據(jù)所述語音信息的語音信號的功率來選擇語音信息。
18. 如權(quán)利要求13至17中任一個所述的多點會議服務(wù)器，其中所述選擇裝置根據(jù)所述語音信息的語音數(shù)據(jù)是有聲音還是靜默來選擇語音f曰息o
19. 如權(quán)利要求13至18中任一個所述的多點會議服務(wù)器，其中所述加法裝置通過從由所述全部信號相加裝置逐個相加的語音信息中減去所選語音信息，來獲得對所述所選語音信息中除一個語音信息之外的語音信息加和的語音信息。
20. —種用于執(zhí)行語音混合多個語音信息的程序，包括以下功能第一功能，用于從多個語音信息中選擇語音信息；第二功能，用于對全部所選語音信息進行相加；第三功能，用于從逐個相加的語音信息中減去所選語音信息；第四功能，用于對在所述第二功能中獲得的語音信息進行編碼；第五功能，用于對在所述第三功能中獲得的語音信息進行編碼；以及第六功能，用于將在所述第四功能中獲得的經(jīng)編碼信息拷貝到所述第五功能中獲得的經(jīng)編碼信息中。
全文摘要
提供了一種語音混合方法，該方法能防止當(dāng)在揚聲器被切換而切換編碼器時在解碼語音中生成噪聲。該語音混合方法包括第一步驟，用于從多個語音信息中選擇語音信息；第二步驟，用于對全部所選語音信息進行相加；第三步驟，用于通過對所選語音信息中除一個語音信息之外的語音信號進行相加來獲得一語音信號；第四步驟，用于對在第二步驟中獲得的語音信息進行編碼；第五步驟，用于對在第三步驟中獲得的語音信息進行編碼；以及第六步驟，用于將在第四步驟中獲得的經(jīng)編碼信息拷貝到第五步驟中的經(jīng)編碼信息中。
文檔編號G10L19/00GK101513030SQ20078003255
公開日2009年8月19日申請日期2007年8月28日優(yōu)先權(quán)日2006年8月30日
發(fā)明者伊藤博紀, 小澤一范申請人:日本電氣株式會社

完整全部詳細技術(shù)資料下載