日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種提供音庫混合訓(xùn)練模型的方法和系統(tǒng)的制作方法

文檔序號:7854736閱讀:216來源:國知局
專利名稱:一種提供音庫混合訓(xùn)練模型的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及技術(shù)領(lǐng)域,具體地說,涉及一種提供音庫混合訓(xùn)練模型的方法和系統(tǒng)。
背景技術(shù)
語音合成是實(shí)現(xiàn)自然高效的人機(jī)交互的一項(xiàng)重要技術(shù)。語音合成技術(shù)即TTS,簡單說,就是讓計(jì)算機(jī)“開口講話”,是利用計(jì)算機(jī)將任意組合的文本文件轉(zhuǎn)化為聲音文件,并通過多媒體設(shè)備將聲音輸出,即將任意的文本自動轉(zhuǎn)換成為語音信息播放給用戶?,F(xiàn)今最為常見的語音合成方法有兩種,一種是基于單元挑選與波形拼接的合成方法,另外一種是基于聲學(xué)統(tǒng)計(jì)模型的參數(shù)合成方法。在傳統(tǒng)的單元挑選算法中,目標(biāo)代價與連接代價往往是通過計(jì)算單元間的上下文屬性的差異或者備選單元聲學(xué)參數(shù)與預(yù)測目標(biāo)之間的距離來實(shí)現(xiàn)的。這樣造成的結(jié)果是,代價函數(shù)的設(shè)計(jì)往往需要語種相關(guān)的語音學(xué)專家的參與,進(jìn)行大量的手工調(diào)試,使得系統(tǒng) 構(gòu)建的自動化程度收到限制;并且設(shè)計(jì)的代價函數(shù)難以保證普適性,往往會產(chǎn)生合成效果不穩(wěn)定的問題。近十年來,一種基于統(tǒng)計(jì)聲學(xué)模型(主要是隱馬爾柯夫模型HMM,Hidden MarkovModel)的參數(shù)語音合成方法,得到了迅速的發(fā)展。這種方法分為訓(xùn)練和合成兩個階段。在模型訓(xùn)練階段,得到各音素在不同上下文環(huán)境下所對應(yīng)的頻譜和基頻參數(shù)的聲學(xué)統(tǒng)計(jì)模型;在合成階段,通過基于最大似然準(zhǔn)則的參數(shù)生成方法,來預(yù)測合成語音所需的頻譜和韻律參數(shù),最終經(jīng)過參數(shù)合成器生成語音。整個系統(tǒng)可以實(shí)現(xiàn)訓(xùn)練的自動化和語種的無關(guān)性,并且合成語音的連續(xù)性、穩(wěn)定性和韻律的自然度都相當(dāng)高。但是由于參數(shù)合成器的限制,使得這種合成方法最終恢復(fù)語音的音質(zhì)往往不很理想。在傳統(tǒng)的語音合成的模型訓(xùn)練中,對發(fā)音人錄音的水平要求比較高,需要選擇水平較高的播音員進(jìn)行錄音。在語音合成中,一般的做法是選擇一發(fā)音人錄制音庫、根據(jù)音庫訓(xùn)練模型,最終根據(jù)訓(xùn)練好的模型來合成聲音。由于對發(fā)音人錄音的水品要求比較高,因此需要水平較高的播音員,且代價成本較高。

發(fā)明內(nèi)容
本發(fā)明提供一種提供音庫混合訓(xùn)練模型的方法和系統(tǒng),可提供一個較穩(wěn)定的模型。同時,可以更加容易完成訓(xùn)練模型過程,使得合成的語音更加自然,效果更佳。本發(fā)明提供的一種提供音庫混合訓(xùn)練模型的方法,包括根據(jù)選擇用作樣本的錄音語料,采集至少兩位發(fā)音人的聲音信號,得到至少兩組錄音數(shù)據(jù);從所述各組錄音數(shù)據(jù)中提取出聲音的參數(shù)信息,包括音高、譜、時長中至少之一;對所提取的語音參數(shù)進(jìn)行統(tǒng)計(jì)分析,得到參數(shù)模型。優(yōu)選地,通過混合訓(xùn)練,將每個發(fā)音人不同的優(yōu)勢特征參數(shù)進(jìn)行組合,得到優(yōu)選的
參數(shù)模型。
本發(fā)明提供的一種提供音庫混合訓(xùn)練模型的系統(tǒng),包括錄音模塊,用于根據(jù)選擇用作樣本的錄音語料,采集至少兩位發(fā)音人的聲音信號,得到至少兩組錄音數(shù)據(jù);參數(shù)提取模塊,用于從所述各組錄音數(shù)據(jù)中提取出聲音的參數(shù)信息,包括基頻(SP音高)、譜、時長中至少 之一;統(tǒng)計(jì)訓(xùn)練模塊,對所提取的語音參數(shù)進(jìn)行統(tǒng)計(jì)分析,得到參數(shù)模型。跟適宜地,該系統(tǒng)還包括錄音語料設(shè)計(jì)模塊,用于選擇用作樣本的錄音語料;所述錄音語料覆蓋預(yù)定的音節(jié)、調(diào)聯(lián)和/或每個音節(jié)的各種發(fā)音信息。優(yōu)選地,該系統(tǒng)還包括參數(shù)調(diào)整模塊,根據(jù)應(yīng)用需要,在模型訓(xùn)練階段對提取出的參數(shù)中至少之一進(jìn)行調(diào)整;本發(fā)明還提供一種語音合成方法,包括采用前述所提供的音庫混合訓(xùn)練模型;基于所述音庫混合訓(xùn)練模型來合成聲音。本發(fā)明在現(xiàn)有語音合成技術(shù)的基礎(chǔ)上,在訓(xùn)練模型時,將多個音庫混合訓(xùn)練模型,即將幾個發(fā)音人的音庫數(shù)據(jù)放在一起訓(xùn)練,將單個發(fā)音人的缺點(diǎn)模糊掉,最終訓(xùn)練出的模型趨向于一種多發(fā)音人平均或者單個發(fā)音人最優(yōu)的參數(shù),從而得到一個較穩(wěn)定的模型。因此,與現(xiàn)有技術(shù)相比,本發(fā)明采用的音庫混合訓(xùn)練模型的方法,降低了對錄音人的要求,也減少了錄音的成本,同時,可以更加容易的完成訓(xùn)練模型過程,使得合成的語音更加自然。


圖I為本發(fā)明提供的一種提供音庫混合訓(xùn)練模型的方法流程圖;圖2為本發(fā)明的具體實(shí)施方案中提供的得到音庫混合訓(xùn)練模型示意圖;圖3為本發(fā)明實(shí)施例中整個模型訓(xùn)練的流程圖;圖4為本發(fā)明提供的一種提供音庫混合訓(xùn)練模型的系統(tǒng)架構(gòu)圖。
具體實(shí)施例方式鑒于現(xiàn)有技術(shù)中存在的不足,本發(fā)明提出一種音庫混合訓(xùn)練模型的方法,可以解決前述部分或全部的問題,并可以建立較為穩(wěn)定的模型。本發(fā)明提供的一種混合訓(xùn)練模型的方法先選擇幾個發(fā)音人錄制音庫,在訓(xùn)練模型時,將多個音庫混合訓(xùn)練模型,即將幾個發(fā)音人的音庫數(shù)據(jù)放在一起訓(xùn)練。其優(yōu)點(diǎn)在于采用多個發(fā)音人訓(xùn)練,會將單個發(fā)音人的缺點(diǎn)模糊掉,最終訓(xùn)練出的模型趨向于一種多發(fā)音人平均的方向,從而得到一個較穩(wěn)定的模型。其次,每個發(fā)音人都有其各自的特點(diǎn),通過混合訓(xùn)練,可將不同的優(yōu)勢特征組合。第三,真實(shí)發(fā)音人在參數(shù)特征達(dá)不到最優(yōu),采用多個發(fā)音人訓(xùn)練可使語音合成效果得到明顯優(yōu)化。按照語音理論,對所有合成單元的語音進(jìn)行分析,提取有關(guān)語音參數(shù),這些參數(shù)經(jīng)統(tǒng)計(jì)訓(xùn)練后組成一個合成語音參數(shù)庫;合成時,根據(jù)待合成的文本信息和參數(shù)庫,規(guī)劃出相應(yīng)的合成參數(shù),然后送入語音合成器合成,最終將語音波形生成出來。參照圖1,本發(fā)明提供的一種提供音庫混合訓(xùn)練模型的方法,包括如下步驟
S01,根據(jù)選擇用作樣本的錄音語料,采集至少兩位發(fā)音人的聲音信號,得到至少兩組錄音數(shù)據(jù);基于錄音語料進(jìn)行錄音,得到錄音數(shù)據(jù),其中包括有多位發(fā)音人錄制的語音數(shù)據(jù)。S02,從所述各組錄音數(shù)據(jù)中提取出聲音的參數(shù)信息,包括基頻(即音高)、譜、時長中至少之一;S03,對所提取的語音參數(shù)進(jìn)行統(tǒng)計(jì)分析,得到參數(shù)模型。在采集發(fā)音人的聲音信號之前,需要預(yù)先選擇錄音語料用作樣本;該錄音語料要盡可能地覆蓋所有音節(jié)、調(diào)聯(lián)和/或每個音節(jié)的各種發(fā)音信息。所述發(fā)首彳目息,如在句首、句中、句末、韻首、韻中、韻末、詞首、詞中、詞末等等。下面對本發(fā)明進(jìn)行詳細(xì)描述,如圖2所示,本發(fā)明的具體實(shí)施方案中得到音庫混 合訓(xùn)練模型步驟如下I)錄音語料設(shè)計(jì);選擇用作樣本的錄音語料,錄音語料要盡可能的覆蓋所有音節(jié)、調(diào)聯(lián)等情況,以及每個音節(jié)的各種發(fā)音情況,如在句首、句中、句末、韻首、韻中、韻末、詞首、詞中、詞末等等情況。2)錄音;根據(jù)所選擇作為樣本的錄音語料,請多位發(fā)音人進(jìn)行錄音,得到多組錄音數(shù)據(jù)。3)參數(shù)提??;從多組錄音數(shù)據(jù)中提取出聲音的參數(shù)信息,如基頻(即音高)、譜、時長等參數(shù)。這些參數(shù)信息的提取通常是分幀處理,常見的是Ims或者5ms —幀。具體的,可采用本領(lǐng)域技術(shù)人員熟知的參數(shù)提取方法進(jìn)行提取,在此不再詳述。4)模型訓(xùn)練在隱馬爾柯夫模型HMM訓(xùn)練前,首先要對一些建模參數(shù)配置,包括建模單元的尺度、模型拓?fù)浣Y(jié)構(gòu)、狀態(tài)數(shù)目等。在配置好建模參數(shù)后,還需要進(jìn)行數(shù)據(jù)準(zhǔn)備,一般訓(xùn)練數(shù)據(jù)包括兩部分聲學(xué)數(shù)據(jù)以及標(biāo)注數(shù)據(jù),其中聲學(xué)數(shù)據(jù)包括譜和基頻,這都可以從wav數(shù)據(jù)中通過STRAIGHT分析得到;標(biāo)注數(shù)據(jù)主要包括音段切分和韻律標(biāo)注,現(xiàn)在采用的都是人工標(biāo)注的,。模型訓(xùn)練前還需對上下文屬性集和用于決策樹聚類的問題集進(jìn)行設(shè)計(jì),即根據(jù)先驗(yàn)知識來選擇一些對聲學(xué)參數(shù)(譜、基頻和時長)有一定影響的上下文屬性并設(shè)計(jì)相應(yīng)的問題集,比如前后調(diào)、前后聲韻母等。整個模型訓(xùn)練的流程如圖3所示,下面分別對流程中的每一個步驟的功能實(shí)現(xiàn)作簡單介紹I)方差下限估計(jì)在后面的上下文相關(guān)模型訓(xùn)練中,由于上下文屬性可能的組合數(shù)遠(yuǎn)遠(yuǎn)大于訓(xùn)練數(shù)據(jù)的數(shù)目,每個上下文相關(guān)模型對應(yīng)的訓(xùn)練數(shù)據(jù)只有一到兩個,使得模型方差接近于零。為了避免方差過于接近于0,需要預(yù)先設(shè)定一個方差下限。由于我們采用譜參數(shù)和基頻參數(shù)以及相應(yīng)的差分系數(shù)來進(jìn)行MSD-HMM建模,對不同的參數(shù)需要設(shè)定不同的方差下限。對此,我們根據(jù)所有數(shù)據(jù)的統(tǒng)計(jì)屬性來自動計(jì)算各階參數(shù)對應(yīng)的方差下限。2)單音素模型訓(xùn)練在進(jìn)行方差下限估計(jì)后,首先對單音素HMM進(jìn)行初始化和訓(xùn)練,得到的模型用于進(jìn)行上下文相關(guān)模型的擴(kuò)展和初始化;一般先進(jìn)行Viterbi訓(xùn)練,然后再進(jìn)行Embedded訓(xùn)練。3)上下文相關(guān)模型訓(xùn)練在得到訓(xùn)練好的單音素模型后,首先根據(jù)上下文屬性集合進(jìn)行模型擴(kuò)展,然后對擴(kuò)展后的模型進(jìn)行Embdedde訓(xùn)練。正如上面提到的,由于我們采用的上下文屬性的組合數(shù)遠(yuǎn)遠(yuǎn)大于訓(xùn)練數(shù)據(jù)的數(shù)目,對于每一個上下文相關(guān)模型,其對應(yīng)的訓(xùn)練數(shù)據(jù)非常有限(一到兩個)。4)基于決策樹的模型聚類由于對于每一個上下文相關(guān)模型,其對應(yīng)的訓(xùn)練數(shù)據(jù)可能只有一到兩個,導(dǎo)致模型的參數(shù)在訓(xùn)練后基本上都“過擬和”到那一兩個數(shù)據(jù)上。對此,我們采用基于決策樹的聚類方法對上下文相關(guān)模型進(jìn)行聚類,以提高模型的魯棒性以及模型復(fù)雜度和訓(xùn)練數(shù)據(jù)量之間的均衡性。5)聚類后模型訓(xùn)練在進(jìn)行模型聚類后,需要對聚類后的模型進(jìn)行進(jìn)一步的訓(xùn)練,以優(yōu)化其模型參數(shù),其訓(xùn)練算法與上下文相關(guān)模型訓(xùn)練相同;同時輸出各個狀態(tài)模型的狀態(tài)停留時間的統(tǒng)計(jì)數(shù)據(jù)。
6)時長建模首先根據(jù)各個狀態(tài)模型的停留時間統(tǒng)計(jì)信息來對上下文相關(guān)時長模型進(jìn)行初始化,然后同樣采用決策樹的方法對模型進(jìn)行聚類。通過上面的訓(xùn)練流程,最后訓(xùn)練得到的模型包括譜、基頻和時長參數(shù)的聚類HMM以及各自的決策樹。具體實(shí)施例中,對所提取的語音參數(shù)進(jìn)行統(tǒng)計(jì)分析,得到參數(shù)模型。假定,錄音數(shù)據(jù)中有100個音節(jié)“de”,則統(tǒng)計(jì)出這100個“de”的譜參數(shù)的均值、方差等。例如,兩個或多個人的參數(shù)進(jìn)行訓(xùn)練,發(fā)音人A有100個“de”,發(fā)音人B有100個“de”,然后用這200個訓(xùn)練“de”模型。此外,在實(shí)際的模型訓(xùn)練中,決策樹可能會根據(jù)音節(jié)位置將這100個“de”分為“句首”、“句末”兩類,等等處理。在另一具體實(shí)施例中,對于“de”,有的發(fā)音人會讀的特別短而且發(fā)音不完全,若只用該發(fā)音人的音庫來訓(xùn)練模型,則最終的合成聲音中,“de”會讀的不好。而多個音庫混合訓(xùn)練時,若其他發(fā)音人的“de”讀的較好,由于最終的模型是由多個發(fā)音人“平均”得到的,訓(xùn)練時會將一些不好的數(shù)據(jù)進(jìn)行“平均”,從而會改善最終的合成效果。第二種,在訓(xùn)練中可以通過一種評價(或者聽音)方法,來確定特定人(比如說A)的特定音節(jié)(比如說“de”),發(fā)音好,或者發(fā)音差,基于此種判斷,可以決定混合訓(xùn)練是使用A的數(shù)據(jù),還是不是用A的數(shù)據(jù)。經(jīng)過上述處理,就得到了用于語音合成的參數(shù)模型,而且該參數(shù)模型是經(jīng)過多個音庫混合訓(xùn)練后統(tǒng)計(jì)分析得到的模型。本發(fā)明還提供一種提供音庫混合訓(xùn)練模型的系統(tǒng)100,參照圖4,該系統(tǒng)包括錄音模塊10,用于根據(jù)選擇用作樣本的錄音語料,采集至少兩位發(fā)音人的聲音信號,得到至少兩組錄音數(shù)據(jù);參數(shù)提取模塊20,用于從所述各組錄音數(shù)據(jù)中提取出聲音的參數(shù)信息,包括基頻(即音高)、譜、時長中至少之一;參數(shù)調(diào)整模塊(可選)30,根據(jù)應(yīng)用需要,在模型訓(xùn)練階段對提取出的參數(shù)中至少之一進(jìn)行調(diào)整;統(tǒng)計(jì)訓(xùn)練模塊40,對所提取的語音參數(shù)(若采用參數(shù)調(diào)整模塊,則對調(diào)整后的語音參數(shù))進(jìn)行統(tǒng)計(jì)分析,得到參數(shù)模型。
該系統(tǒng)100還包括錄音語料設(shè)計(jì)模塊00,用于選擇用作樣本的錄音語料;所述錄音語料覆蓋所有音節(jié)、調(diào)聯(lián)和/或每個音節(jié)的各種發(fā)音信息。本系統(tǒng)中,主要對影響語音合成效 果較大的譜參數(shù)進(jìn)行了調(diào)整,即將譜參數(shù)的變化調(diào)的更大一些。經(jīng)過試驗(yàn)證明,譜增強(qiáng)后再進(jìn)行參數(shù)的統(tǒng)計(jì),得到的譜參數(shù)反而比較接近真實(shí)的聲音譜參數(shù)。而現(xiàn)有技術(shù)統(tǒng)計(jì)得到的譜參數(shù)比較平均,得到的譜線與真實(shí)的聲音譜線偏差較大。例如,錄音數(shù)據(jù)中有100個音節(jié)“de”,則統(tǒng)計(jì)出這100個“de”的譜參數(shù)的均值、
方差等。此外,在實(shí)際的模型訓(xùn)練中,還需考慮是否根據(jù)音節(jié)位置將這100個“de”分為“句首”、“句末”兩類,等等處理。經(jīng)過上述處理,就得到了用于語音合成的參數(shù)模型。本發(fā)明提供的技術(shù)方案中,同時由多位發(fā)音人錄制音頻數(shù)據(jù);多個語音音庫數(shù)據(jù)混合訓(xùn)練模型;最終訓(xùn)練出的模型趨向于一種多發(fā)音人平均的方向,從而得到一個較穩(wěn)定的模型。最終訓(xùn)練出的模型,在某個具體參數(shù)特征上(比如說基頻,時長,譜等)也可以是從單一最優(yōu)發(fā)音人上訓(xùn)練而成的。因此,選擇發(fā)音人的標(biāo)準(zhǔn)降低,發(fā)音人的選擇范圍廣和錄音成本降低;多位發(fā)音人錄制音頻數(shù)據(jù)可以混合訓(xùn)練模型;訓(xùn)練出的模型趨向于一種多發(fā)音人平均或者單個最優(yōu)發(fā)音人的方向;訓(xùn)練出的模型是一個較穩(wěn)定的模型。同時,可以更加容易的完成訓(xùn)練模型過程,使得合成的語音更加自然,效果更佳。本發(fā)明雖然以較佳實(shí)施例公開如上,但其并不是用來限定本發(fā)明,任何本領(lǐng)域技術(shù)人員在不脫離本發(fā)明的精神和范圍內(nèi),都可以做出可能的變動和修改,因此本發(fā)明的保護(hù)范圍應(yīng)當(dāng)以本發(fā)明權(quán)利要求所界定的范圍為準(zhǔn)。
權(quán)利要求
1.一種提供音庫混合訓(xùn)練模型的方法,其特征在于,包括 根據(jù)選擇用作樣本的錄音語料,采集至少兩位發(fā)音人的聲音信號,得到至少兩組錄音數(shù)據(jù); 從所述各組錄音數(shù)據(jù)中提取出聲音的參數(shù)信息,包括音高、譜、時長中至少之一; 對所提取的語音參數(shù)進(jìn)行統(tǒng)計(jì)分析,得到參數(shù)模型。
2.如權(quán)利要求I所述的方法,其特征在于,在采集發(fā)音人的聲音信號之前,還包括 預(yù)先選擇文本作為錄音語料; 所述錄音語料覆蓋預(yù)定的音節(jié)、調(diào)聯(lián)和/或每個音節(jié)的各種發(fā)音信息。
3.如權(quán)利要求I所述的方法,其特征在于,所述提取出聲音的參數(shù)信息采用分幀處理方式。
4.如權(quán)利要求I至3中任一項(xiàng)所述的方法,其特征在于, 通過混合訓(xùn)練,將每個發(fā)音人不同的優(yōu)勢特征參數(shù)進(jìn)行組合,得到優(yōu)選的參數(shù)模型。
5.一種提供音庫混合訓(xùn)練模型的系統(tǒng),其特征在于,包括 錄音模塊,用于根據(jù)選擇用作樣本的錄音語料,采集至少兩位發(fā)音人的聲音信號,得到至少兩組錄音數(shù)據(jù); 參數(shù)提取模塊,用于從所述各組錄音數(shù)據(jù)中提取出聲音的參數(shù)信息,包括音高、譜、時長中至少之一; 統(tǒng)計(jì)訓(xùn)練模塊,對所提取的語音參數(shù)進(jìn)行統(tǒng)計(jì)分析,得到參數(shù)模型。
6.如權(quán)利要求5所述的系統(tǒng),其特征在于,還包括 錄音語料設(shè)計(jì)模塊,用于選擇用作樣本的錄音語料; 所述錄音語料覆蓋預(yù)定的音節(jié)、調(diào)聯(lián)和/或每個音節(jié)的各種發(fā)音信息。
7.如權(quán)利要求5所述的系統(tǒng),其特征在于,還包括 參數(shù)調(diào)整模塊,根據(jù)應(yīng)用需要,在模型訓(xùn)練階段對提取出的參數(shù)中至少之一進(jìn)行調(diào)整。
8.一種語音合成方法,其特征在于,包括 采用如權(quán)利要求I至3中任一項(xiàng)所提供的音庫混合訓(xùn)練模型;基于所述音庫混合訓(xùn)練模型來合成聲音。
全文摘要
本發(fā)明公開了一種提供音庫混合訓(xùn)練模型的方法,包括根據(jù)選擇用作樣本的錄音語料,采集至少兩位發(fā)音人的聲音信號,得到至少兩組錄音數(shù)據(jù);從所述各組錄音數(shù)據(jù)中提取出聲音的參數(shù)信息,包括音高、譜、時長中至少之一;對語音參數(shù)進(jìn)行統(tǒng)計(jì)分析,得到參數(shù)模型。本發(fā)明還公開相應(yīng)的提供音庫混合訓(xùn)練模型的系統(tǒng)。根據(jù)本發(fā)明,在現(xiàn)有語音合成技術(shù)的基礎(chǔ)上,在訓(xùn)練模型時,將多個音庫混合訓(xùn)練模型,即將幾個發(fā)音人的音庫數(shù)據(jù)放在一起訓(xùn)練,最終訓(xùn)練出的模型趨向于一種多發(fā)音人平均或者單個發(fā)音人最優(yōu)的參數(shù),從而得到一個較穩(wěn)定的模型??山档蛯︿浺羧说囊?,減少錄音的成本,同時,可以更加容易的完成訓(xùn)練模型過程,使得合成的語音更加自然。
文檔編號H04L15/06GK102752239SQ201210220059
公開日2012年10月24日 申請日期2012年6月28日 優(yōu)先權(quán)日2012年6月28日
發(fā)明者張連毅, 李健, 武衛(wèi)東, 鄭曉明 申請人:北京捷通華聲語音技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1