日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

視頻語(yǔ)音轉(zhuǎn)換方法、裝置和服務(wù)器的制造方法

文檔序號(hào):6626644閱讀:215來(lái)源:國(guó)知局
視頻語(yǔ)音轉(zhuǎn)換方法、裝置和服務(wù)器的制造方法
【專(zhuān)利摘要】本發(fā)明實(shí)施例公開(kāi)了一種視頻語(yǔ)音轉(zhuǎn)換方法、裝置和服務(wù)器,涉及多媒體處理【技術(shù)領(lǐng)域】,用于降低視頻中語(yǔ)音的翻譯成本,提高翻譯效率及其準(zhǔn)確性。該方法中,提取視頻中的源語(yǔ)言的語(yǔ)音信號(hào),將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段,得到至少一段源語(yǔ)言的子語(yǔ)音信號(hào);對(duì)于每段源語(yǔ)言的子語(yǔ)音信號(hào),根據(jù)預(yù)先建立的語(yǔ)音模型將該源語(yǔ)言的子語(yǔ)音信號(hào)轉(zhuǎn)換為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào);將得到的各段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)與所述視頻進(jìn)行合并,得到包含目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的視頻。采用本發(fā)明可以降低視頻中語(yǔ)音的翻譯成本,提高翻譯效率及其準(zhǔn)確性。
【專(zhuān)利說(shuō)明】視頻語(yǔ)音轉(zhuǎn)換方法、裝置和服務(wù)器

【技術(shù)領(lǐng)域】
[0001]本發(fā)明實(shí)施例涉及多媒體處理【技術(shù)領(lǐng)域】,尤其涉及一種視頻語(yǔ)音轉(zhuǎn)換方法、裝置和服務(wù)器。

【背景技術(shù)】
[0002]在生活中很多時(shí)候會(huì)接觸到外語(yǔ)類(lèi)視頻,比如好萊塢電影、外語(yǔ)的學(xué)習(xí)教程視頻等,對(duì)于外語(yǔ)不好的人來(lái)說(shuō)看這些視頻時(shí)是需要一些輔助的翻譯字幕的,但是很多時(shí)候外語(yǔ)類(lèi)視頻是沒(méi)有字幕的,若觀看者聽(tīng)不懂外語(yǔ),這時(shí)的外語(yǔ)類(lèi)視頻對(duì)于觀看者來(lái)講是沒(méi)有任何意義的。
[0003]現(xiàn)有技術(shù)中為了使人們能夠看懂外語(yǔ)類(lèi)視頻,主要采用以下三種方式:一種是預(yù)先在外語(yǔ)類(lèi)視頻中添加人工翻譯得到的字幕;另外一種是將外語(yǔ)類(lèi)視頻制作為譯制片,譯制片中的語(yǔ)音為人工國(guó)語(yǔ)配音;第三種是在視頻播放現(xiàn)場(chǎng),由同聲傳譯的專(zhuān)家使用速記等方式實(shí)時(shí)對(duì)視頻中的語(yǔ)音進(jìn)行人工翻譯并傳達(dá)翻譯結(jié)果。
[0004]現(xiàn)有技術(shù)存在的缺陷在于:上述三種方式均由人工實(shí)現(xiàn)語(yǔ)音的翻譯轉(zhuǎn)換,成本較高、效率低下,并且準(zhǔn)確性也難以得到保證。


【發(fā)明內(nèi)容】

[0005]本發(fā)明提供一種視頻語(yǔ)音轉(zhuǎn)換方法、裝置和服務(wù)器,以降低視頻中語(yǔ)音的翻譯成本,提高翻譯效率及其準(zhǔn)確性。
[0006]第一方面,本發(fā)明實(shí)施例提供了一種視頻語(yǔ)音轉(zhuǎn)換方法,包括:
[0007]提取視頻中的源語(yǔ)言的語(yǔ)音信號(hào),將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段,得到至少一段源語(yǔ)言的子語(yǔ)音信號(hào);
[0008]對(duì)于每段源語(yǔ)言的子語(yǔ)音信號(hào),根據(jù)預(yù)先建立的語(yǔ)音模型將該源語(yǔ)言的子語(yǔ)音信號(hào)轉(zhuǎn)換為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào);
[0009]將得到的各段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)與所述視頻進(jìn)行合并,得到包含目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的視頻。
[0010]第二方面,本發(fā)明實(shí)施例還提供了一種視頻語(yǔ)音轉(zhuǎn)換裝置,包括:
[0011]源語(yǔ)音提取單元,用于提取視頻中的源語(yǔ)言的語(yǔ)音信號(hào)
[0012]源語(yǔ)音處理單元,用于將所述源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段,得到至少一段源語(yǔ)言的子語(yǔ)音信號(hào);
[0013]目標(biāo)語(yǔ)音轉(zhuǎn)換單元,用于對(duì)于每段源語(yǔ)言的子語(yǔ)音信號(hào),根據(jù)預(yù)先建立的語(yǔ)音模型將該源語(yǔ)言的子語(yǔ)音信號(hào)轉(zhuǎn)換為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào);
[0014]語(yǔ)音視頻合并單元,用于將得到的各段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)與所述視頻進(jìn)行合并,得到包含目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的視頻。
[0015]第三方面,本發(fā)明實(shí)施例還提供了一種服務(wù)器,包括所述視頻語(yǔ)音轉(zhuǎn)換裝置。
[0016]本發(fā)明實(shí)施例中,提取視頻中的源語(yǔ)言的語(yǔ)音信號(hào),將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段,得到至少一段源語(yǔ)言的子語(yǔ)音信號(hào),對(duì)于每段源語(yǔ)言的子語(yǔ)音信號(hào),根據(jù)預(yù)先建立的語(yǔ)音模型將該源語(yǔ)言的子語(yǔ)音信號(hào)轉(zhuǎn)換為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào),然后將得到的各段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)與該視頻進(jìn)行合并,得到包含目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的視頻,可見(jiàn),本方案通過(guò)語(yǔ)音模型實(shí)現(xiàn)了自動(dòng)翻譯轉(zhuǎn)換視頻中的語(yǔ)音信號(hào)的目的,無(wú)需人工參與,降低了成本并提高了翻譯轉(zhuǎn)換效率,同時(shí)可以避免人工翻譯轉(zhuǎn)換所帶來(lái)的準(zhǔn)確性較低的問(wèn)題,通過(guò)自動(dòng)翻譯轉(zhuǎn)換使得其結(jié)果準(zhǔn)確性可以得到較好保證。

【專(zhuān)利附圖】

【附圖說(shuō)明】
[0017]圖1A為本發(fā)明實(shí)施例一提供的視頻語(yǔ)音轉(zhuǎn)換方法的流程示意圖;
[0018]圖1B為本發(fā)明實(shí)施例一提供的源語(yǔ)言的語(yǔ)音信號(hào)分段方法示意圖;
[0019]圖2A是本發(fā)明實(shí)施例二提供的視頻語(yǔ)音轉(zhuǎn)換方法的流程示意圖;
[0020]圖2B是本發(fā)明實(shí)施例二提供的用戶(hù)選擇目標(biāo)語(yǔ)言類(lèi)型的界面示意圖;
[0021]圖3是本發(fā)明實(shí)施例三提供的視頻語(yǔ)音轉(zhuǎn)換方法的流程示意圖;
[0022]圖4是本發(fā)明實(shí)施例四提供的視頻語(yǔ)音轉(zhuǎn)換裝置的結(jié)構(gòu)示意圖。

【具體實(shí)施方式】
[0023]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
[0024]實(shí)施例一:
[0025]圖1A為本發(fā)明實(shí)施例一提供的視頻語(yǔ)音轉(zhuǎn)換方法的流程圖,圖1B為本發(fā)明實(shí)施例一提供的源語(yǔ)言的語(yǔ)音信號(hào)的分段示意圖。本實(shí)施例可適用于需要將視頻中的源語(yǔ)言的語(yǔ)音信號(hào)轉(zhuǎn)化為目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的情況,該方法可以由視頻語(yǔ)音轉(zhuǎn)換裝置來(lái)執(zhí)行,該裝置可以設(shè)置在服務(wù)器中。該方法具體包括如下操作:
[0026]101:提取視頻中的源語(yǔ)言的語(yǔ)音信號(hào),將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段,得到至少一段源語(yǔ)言的子語(yǔ)音信號(hào);
[0027]這里,在視頻中的源語(yǔ)言的語(yǔ)音信號(hào)較長(zhǎng)時(shí),按照一定方法將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段可能得到多段源語(yǔ)言的子語(yǔ)音信號(hào),在視頻中的源語(yǔ)言的語(yǔ)音信號(hào)較短時(shí),按照一定方法將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段可能僅得到一段源語(yǔ)言的子語(yǔ)音信號(hào)。
[0028]102:對(duì)于每段源語(yǔ)言的子語(yǔ)音信號(hào),根據(jù)預(yù)先建立的語(yǔ)音模型將該源語(yǔ)言的子語(yǔ)音信號(hào)轉(zhuǎn)換為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào);
[0029]103:將得到的各段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)與所述視頻進(jìn)行合并,得到包含目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的視頻。
[0030]具體的,操作101中提取視頻中的源語(yǔ)言的語(yǔ)音信號(hào),具體實(shí)現(xiàn)可以如下:
[0031]提取視頻中的音頻信號(hào),根據(jù)語(yǔ)音信號(hào)的頻率特征從該音頻信號(hào)中提取出源語(yǔ)言的語(yǔ)音信號(hào)。例如,首先獲得提取得到的音頻信號(hào)的頻率信息,然后提取頻率在300?3400HZ范圍內(nèi)的音頻信號(hào)作為語(yǔ)音信號(hào)。
[0032]具體的,操作101中將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段,具體實(shí)現(xiàn)可以如下:根據(jù)該源語(yǔ)言的語(yǔ)音信號(hào)的振幅進(jìn)行分段。例如,可以將每?jī)纱握穹鶠?的時(shí)間點(diǎn)之間的信號(hào)劃分為一段子語(yǔ)音信號(hào),如圖1B所示,將時(shí)間點(diǎn)00:01與時(shí)間點(diǎn)00:03:73之間的信號(hào)劃分為一段子語(yǔ)音信號(hào);具體實(shí)現(xiàn)流程可以如下:
[0033]A、查找源語(yǔ)言的語(yǔ)音信號(hào)中第一次出現(xiàn)的振幅為0的信號(hào)的時(shí)間點(diǎn),將第一次出現(xiàn)的振幅為0的信號(hào)的時(shí)間點(diǎn)作為開(kāi)始時(shí)間點(diǎn)to ;
[0034]B、查找源語(yǔ)言的語(yǔ)音信號(hào)中當(dāng)前的開(kāi)始時(shí)間點(diǎn)t0后的第一次出現(xiàn)的振幅為0的信號(hào)的時(shí)間點(diǎn),將當(dāng)前的開(kāi)始時(shí)間點(diǎn)to后的第一次出現(xiàn)的振幅為0的信號(hào)的時(shí)間點(diǎn)作為結(jié)束時(shí)間點(diǎn)tl ;
[0035]C、將當(dāng)前的開(kāi)始時(shí)間點(diǎn)t0和結(jié)束時(shí)間點(diǎn)tl之間的語(yǔ)音信號(hào)劃分為一段子語(yǔ)音信號(hào);
[0036]D、判斷是否還有剩余的語(yǔ)音信號(hào),若是則繼續(xù)查找源語(yǔ)言的語(yǔ)音信號(hào)中當(dāng)前的結(jié)束時(shí)間點(diǎn)tl后的第一次出現(xiàn)的振幅為0的信號(hào)的時(shí)間點(diǎn),將當(dāng)前的結(jié)束時(shí)間點(diǎn)tl后的第一次出現(xiàn)的振幅為ο的信號(hào)的時(shí)間點(diǎn)作為開(kāi)始時(shí)間點(diǎn)to,并返回步驟B,否則本流程結(jié)束。
[0037]較佳的,為了從帶有噪聲的語(yǔ)音信號(hào)中提取盡可能純凈的語(yǔ)音信號(hào),進(jìn)而提高語(yǔ)言翻譯轉(zhuǎn)換的精確度,在操作101中提取視頻中的源語(yǔ)言的語(yǔ)音信號(hào)之后、將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段之前,進(jìn)一步包括:將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行去噪處理。具體的,去噪處理可以通過(guò)語(yǔ)音增強(qiáng)算法實(shí)現(xiàn),語(yǔ)音增強(qiáng)算法包括但不限于:基于譜相減的語(yǔ)音增強(qiáng)算法、基于小波分析的語(yǔ)音增強(qiáng)算法、基于獨(dú)立分量分析的語(yǔ)音增強(qiáng)方法、基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法等。
[0038]具體的,操作102中對(duì)于每段源語(yǔ)言的子語(yǔ)音信號(hào),根據(jù)預(yù)先建立的語(yǔ)音模型將該源語(yǔ)言的子語(yǔ)音信號(hào)轉(zhuǎn)換為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào),具體實(shí)現(xiàn)可以如下:
[0039]對(duì)于每段源語(yǔ)言的子語(yǔ)音信號(hào),將該段源語(yǔ)言的子語(yǔ)音信號(hào)輸入預(yù)先建立的語(yǔ)音模型,得到該語(yǔ)音模型輸出的該段源語(yǔ)言的子語(yǔ)音信號(hào)對(duì)應(yīng)的源語(yǔ)言的子文本數(shù)據(jù),將該段源語(yǔ)言的子語(yǔ)音信號(hào)對(duì)應(yīng)的源語(yǔ)言的子文本數(shù)據(jù)翻譯為目標(biāo)語(yǔ)言的子文本數(shù)據(jù),采用語(yǔ)音合成技術(shù)將該目標(biāo)語(yǔ)言的子文本數(shù)據(jù)合成為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)。例如,在源語(yǔ)言為英文,目標(biāo)語(yǔ)言為中文時(shí),對(duì)于每段英文的子語(yǔ)音信號(hào),將該段英文的子語(yǔ)音信號(hào)輸入預(yù)先建立的語(yǔ)音模型,得到該語(yǔ)音模型輸出的該段英文的子語(yǔ)音信號(hào)對(duì)應(yīng)的英文的子文本數(shù)據(jù)(英文字符),將該段英文的子語(yǔ)音信號(hào)對(duì)應(yīng)的英文的子文本數(shù)據(jù)翻譯為中文的子文本數(shù)據(jù)(中文字符),采用語(yǔ)音合成技術(shù)將該中文的子文本數(shù)據(jù)合成為中文的子語(yǔ)音信號(hào)。
[0040]上述語(yǔ)音模型是通過(guò)預(yù)先的數(shù)據(jù)訓(xùn)練得到的、用于實(shí)現(xiàn)根據(jù)輸入的語(yǔ)音信號(hào)得到該語(yǔ)音信號(hào)對(duì)應(yīng)的文本數(shù)據(jù)的數(shù)據(jù)模型。較佳的,可以預(yù)先針對(duì)不同的領(lǐng)域分別生成語(yǔ)音模型,例如分別針對(duì)軍事領(lǐng)域、科技領(lǐng)域、文藝領(lǐng)域等分別生成語(yǔ)音模型;相應(yīng)的,在操作102中使用的語(yǔ)音模型可以是當(dāng)前視頻所屬的領(lǐng)域?qū)?yīng)的語(yǔ)音模型,從而提高所得到的文本數(shù)據(jù)的精確度。比如,若當(dāng)前視頻屬于軍事領(lǐng)域,則使用軍事領(lǐng)域?qū)?yīng)的語(yǔ)音模型,若當(dāng)前視頻屬于【技術(shù)領(lǐng)域】,則使用【技術(shù)領(lǐng)域】對(duì)應(yīng)的語(yǔ)音模型,等等。
[0041]具體的,上述采用語(yǔ)音合成技術(shù)將該目標(biāo)語(yǔ)言的子文本數(shù)據(jù)合成為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào),具體實(shí)現(xiàn)可以如下:
[0042]采用自然語(yǔ)言處理技術(shù)將該目標(biāo)語(yǔ)言的子文本數(shù)據(jù)處理為計(jì)算機(jī)能夠理解的文本數(shù)據(jù),該處理過(guò)程中可以包括文本規(guī)整、詞的切分、語(yǔ)法分析和語(yǔ)義分析等自然語(yǔ)言處理過(guò)程;然后,對(duì)該文本數(shù)據(jù)進(jìn)行韻律處理,得到合成后的子語(yǔ)音信號(hào)的音段特征,該音頻特征包括音高、音長(zhǎng)、音強(qiáng)中的至少一個(gè),使合成后的子語(yǔ)音信號(hào)能正確表達(dá)語(yǔ)意;最后,采用聲學(xué)處理技術(shù),根據(jù)計(jì)算機(jī)能夠理解的文本數(shù)據(jù)得到具有該音段特征的目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)。舉例說(shuō)明,聲學(xué)處理技術(shù)可以是LPC(線(xiàn)性預(yù)測(cè)編碼)技術(shù),PSOLA(基音同步疊加)合成技術(shù)、基于LMA聲道模型的語(yǔ)音合成技術(shù)等。
[0043]進(jìn)一步的,在操作101中對(duì)源語(yǔ)言的語(yǔ)音信號(hào)分段時(shí)保留每段源語(yǔ)言的子語(yǔ)音信號(hào)的時(shí)間戳(包括開(kāi)始時(shí)間和結(jié)束時(shí)間),使得操作102中轉(zhuǎn)換得到的每段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)中也包含對(duì)應(yīng)的源語(yǔ)言的子語(yǔ)音信號(hào)的時(shí)間戳;相應(yīng)的,在操作103中將得到的各段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)與視頻進(jìn)行合并,具體實(shí)現(xiàn)可以如下:對(duì)于每段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào),將該段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)合并到視頻中該段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)的時(shí)間戳所對(duì)應(yīng)的播放位置。例如,假設(shè)共有三段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào),第一段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)對(duì)應(yīng)的時(shí)間戳為00:10:00-00:20:00,第二段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)對(duì)應(yīng)的時(shí)間戳為00:30:00-00:40:00,第三段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)對(duì)應(yīng)的時(shí)間戳為00:50:00-00:60:00,那么,將第一段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)合并到視頻中的播放位置00:10:00-00:20:00處,將第二段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)合并到視頻中的播放位置00:30:00-00:40:00處,將第三段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)合并到視頻中的播放位置00:50:00-00:60:00處。
[0044]本實(shí)施例的技術(shù)方案中,提取視頻中的源語(yǔ)言的語(yǔ)音信號(hào),將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段,得到至少一段源語(yǔ)言的子語(yǔ)音信號(hào),對(duì)于每段源語(yǔ)言的子語(yǔ)音信號(hào),根據(jù)預(yù)先建立的語(yǔ)音模型將該源語(yǔ)言的子語(yǔ)音信號(hào)轉(zhuǎn)換為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào),然后將得到的各段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)與該視頻進(jìn)行合并,得到包含目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的視頻,可見(jiàn),本方案通過(guò)語(yǔ)音模型實(shí)現(xiàn)了自動(dòng)翻譯轉(zhuǎn)換視頻中的語(yǔ)音信號(hào)的目的,無(wú)需人工參與,降低了成本并提高了翻譯轉(zhuǎn)換效率,同時(shí)可以避免人工翻譯轉(zhuǎn)換所帶來(lái)的準(zhǔn)確性較低的問(wèn)題,通過(guò)自動(dòng)翻譯轉(zhuǎn)換使得其結(jié)果準(zhǔn)確性可以得到較好保證。
[0045]實(shí)施例二:
[0046]圖2A為本發(fā)明實(shí)施例二提供的視頻語(yǔ)音轉(zhuǎn)換方法,圖2B為本發(fā)明實(shí)施例二中的用戶(hù)選擇目標(biāo)語(yǔ)言類(lèi)型的界面示意圖。本實(shí)施例可適用于在播放視頻前將視頻中的源語(yǔ)言的語(yǔ)音信號(hào)轉(zhuǎn)化為目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的情況,該方法可以由視頻語(yǔ)音轉(zhuǎn)換裝置和視頻播放裝置來(lái)執(zhí)行,視頻語(yǔ)音轉(zhuǎn)換裝置和視頻播放裝置可以設(shè)置在同一服務(wù)器中也可以設(shè)置在不同服務(wù)器中。該方法具體包括如下操作:
[0047]201:視頻語(yǔ)音轉(zhuǎn)換裝置根據(jù)設(shè)置信息確定需要轉(zhuǎn)換的至少一種目標(biāo)語(yǔ)言;
[0048]202:視頻語(yǔ)音轉(zhuǎn)換裝置對(duì)于每種需要轉(zhuǎn)換的目標(biāo)語(yǔ)言,分別執(zhí)行如下操作:提取視頻中的源語(yǔ)言的語(yǔ)音信號(hào),將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段,得到至少一段源語(yǔ)言的子語(yǔ)音信號(hào);對(duì)于每段源語(yǔ)言的子語(yǔ)音信號(hào),根據(jù)預(yù)先建立的語(yǔ)音模型將該源語(yǔ)言的子語(yǔ)音信號(hào)轉(zhuǎn)換為當(dāng)前目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào);將得到的各段當(dāng)前目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)與該視頻進(jìn)行合并,得到包含當(dāng)前目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的視頻,并存儲(chǔ)該視頻;
[0049]本操作可以參見(jiàn)實(shí)施例一的具體描述,這里不再贅述。
[0050]203:視頻語(yǔ)音播放裝置接收到視頻播放請(qǐng)求,該播放請(qǐng)求中包含用戶(hù)選擇或自動(dòng)選定的目標(biāo)語(yǔ)言類(lèi)型;
[0051]其中,用戶(hù)選擇目標(biāo)語(yǔ)言類(lèi)型的示例可以參見(jiàn)圖2B,用戶(hù)可以在“同聲傳譯”的菜單中選擇普通話(huà)或四川話(huà)作為目標(biāo)語(yǔ)言類(lèi)型;
[0052]204:視頻語(yǔ)音播放裝置從視頻語(yǔ)音轉(zhuǎn)換裝置獲取包含播放請(qǐng)求中的目標(biāo)語(yǔ)言類(lèi)型對(duì)應(yīng)的目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的視頻,并將獲取到的視頻發(fā)送給終端設(shè)備進(jìn)行播放。
[0053]本實(shí)施例的技術(shù)方案中,在播放視頻前,對(duì)于預(yù)先設(shè)置的每種目標(biāo)語(yǔ)言,按照實(shí)施例一的方法將視頻中的源語(yǔ)言的語(yǔ)音信號(hào)轉(zhuǎn)化為目標(biāo)語(yǔ)言的語(yǔ)音信號(hào),得到包含目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的視頻;在接收到包含用戶(hù)選擇或自動(dòng)選定的目標(biāo)語(yǔ)言類(lèi)型的播放請(qǐng)求時(shí),獲取包含播放請(qǐng)求中的目標(biāo)語(yǔ)言類(lèi)型對(duì)應(yīng)的目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的視頻并播放該視頻??梢?jiàn),采用本方案可以滿(mǎn)足對(duì)同一視頻采用不同語(yǔ)言進(jìn)行播放的需求,并且由于對(duì)視頻中語(yǔ)音信號(hào)的翻譯轉(zhuǎn)換在播放之前完成,用戶(hù)在提交播放請(qǐng)求后無(wú)需等待翻譯轉(zhuǎn)換的時(shí)間,使得系統(tǒng)響應(yīng)視頻播放請(qǐng)求的速度較快,用戶(hù)體驗(yàn)較好。
[0054]實(shí)施例三:
[0055]圖3為本發(fā)明實(shí)施例三提供的視頻語(yǔ)音轉(zhuǎn)換方法。本實(shí)施例可適用于接收到播放請(qǐng)求后實(shí)時(shí)將視頻中的源語(yǔ)言的語(yǔ)音信號(hào)轉(zhuǎn)化為目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的情況,該方法可以由視頻語(yǔ)音轉(zhuǎn)換裝置和視頻播放裝置來(lái)執(zhí)行,視頻語(yǔ)音轉(zhuǎn)換裝置和視頻播放裝置可以設(shè)置在同一服務(wù)器或不同服務(wù)器中。該方法具體包括如下操作:
[0056]301:視頻語(yǔ)音播放裝置接收到視頻播放請(qǐng)求,該播放請(qǐng)求中包含用戶(hù)選擇或自動(dòng)選定的目標(biāo)語(yǔ)言類(lèi)型;
[0057]其中,用戶(hù)選擇目標(biāo)語(yǔ)言類(lèi)型的示例可以參見(jiàn)圖2B,用戶(hù)可以在“同聲傳譯”的菜單中選擇普通話(huà)或四川話(huà)作為目標(biāo)語(yǔ)言類(lèi)型;
[0058]302:視頻語(yǔ)音轉(zhuǎn)換裝置執(zhí)行如下操作:提取視頻中的源語(yǔ)言的語(yǔ)音信號(hào),將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段,得到至少一段源語(yǔ)言的子語(yǔ)音信號(hào);對(duì)于每段源語(yǔ)言的子語(yǔ)音信號(hào),根據(jù)預(yù)先建立的語(yǔ)音模型將該源語(yǔ)言的子語(yǔ)音信號(hào)轉(zhuǎn)換為視頻播放請(qǐng)求中的目標(biāo)語(yǔ)言類(lèi)型對(duì)應(yīng)的目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào);將得到的各段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)與該視頻進(jìn)行合并,得到包含該目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的視頻;
[0059]本操作可以參見(jiàn)實(shí)施例一的具體描述,這里不再贅述。
[0060]303:視頻語(yǔ)音播放裝置將視頻語(yǔ)音轉(zhuǎn)換裝置得到的包含目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的視頻,發(fā)送給終端設(shè)備進(jìn)行播放。
[0061]本實(shí)施例的技術(shù)方案中,在接收到視頻播放請(qǐng)求后,按照實(shí)施例一的方法將視頻中的源語(yǔ)言的語(yǔ)音信號(hào)轉(zhuǎn)化為視頻播放請(qǐng)求所指示的目標(biāo)語(yǔ)言的語(yǔ)音信號(hào),得到包含目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的視頻,并播放該視頻??梢?jiàn),采用本方案可以滿(mǎn)足對(duì)同一視頻采用不同語(yǔ)言進(jìn)行播放的需求,并且由于對(duì)視頻中語(yǔ)音信號(hào)的翻譯轉(zhuǎn)換在接收到播放請(qǐng)求執(zhí)行,無(wú)需預(yù)先進(jìn)行針對(duì)不同目標(biāo)語(yǔ)言的翻譯轉(zhuǎn)換以及視頻存儲(chǔ),從而可以節(jié)省系統(tǒng)資源。
[0062]實(shí)施例四:
[0063]圖4為本發(fā)明實(shí)施例四提供的視頻語(yǔ)音轉(zhuǎn)換裝置的結(jié)構(gòu)示意圖。具體的,該裝置包括:
[0064]源語(yǔ)音提取單元401,用于提取視頻中的源語(yǔ)言的語(yǔ)音信號(hào)
[0065]源語(yǔ)音處理單元402,用于將所述源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段,得到至少一段源語(yǔ)言的子語(yǔ)音信號(hào);
[0066]目標(biāo)語(yǔ)音轉(zhuǎn)換單元403,用于對(duì)于每段源語(yǔ)言的子語(yǔ)音信號(hào),根據(jù)預(yù)先建立的語(yǔ)音模型將該源語(yǔ)言的子語(yǔ)音信號(hào)轉(zhuǎn)換為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào);
[0067]語(yǔ)音視頻合并單元404,用于將得到的各段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)與所述視頻進(jìn)行合并,得到包含目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的視頻。
[0068]進(jìn)一步的,所述源語(yǔ)音提取單元401,具體用于:
[0069]提取視頻中的音頻信號(hào),根據(jù)語(yǔ)音信號(hào)的頻率特征從所述音頻信號(hào)中提取出源語(yǔ)Η的語(yǔ)首?目號(hào)。
[0070]進(jìn)一步的,所述源語(yǔ)音處理單元402具體用于:
[0071]根據(jù)該源語(yǔ)言的語(yǔ)音信號(hào)的振幅進(jìn)行分段。
[0072]進(jìn)一步的,所述源語(yǔ)音處理單元402還用于:
[0073]在將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段之前,將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行去噪處理。
[0074]進(jìn)一步的,所述目標(biāo)語(yǔ)音轉(zhuǎn)換單元403具體用于:
[0075]對(duì)于每段源語(yǔ)言的子語(yǔ)音信號(hào),將該段源語(yǔ)言的子語(yǔ)音信號(hào)輸入預(yù)先建立的語(yǔ)音模型,得到該語(yǔ)音模型輸出的該段源語(yǔ)言的子語(yǔ)音信號(hào)對(duì)應(yīng)的源語(yǔ)言的子文本數(shù)據(jù),將該段源語(yǔ)言的子語(yǔ)音信號(hào)對(duì)應(yīng)的源語(yǔ)言的子文本數(shù)據(jù)翻譯為目標(biāo)語(yǔ)言的子文本數(shù)據(jù),采用語(yǔ)音合成技術(shù)將該目標(biāo)語(yǔ)言的子文本數(shù)據(jù)合成為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)。
[0076]進(jìn)一步的,所述目標(biāo)語(yǔ)音轉(zhuǎn)換單元403具體用于:按照如下方式采用語(yǔ)音合成技術(shù)將該目標(biāo)語(yǔ)言的子文本數(shù)據(jù)合成為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào):
[0077]采用自然語(yǔ)言處理技術(shù)將該目標(biāo)語(yǔ)言的子文本數(shù)據(jù)處理為計(jì)算機(jī)能夠理解的文本數(shù)據(jù);對(duì)該文本數(shù)據(jù)進(jìn)行韻律處理,得到合成后的子語(yǔ)音信號(hào)的音段特征;采用聲學(xué)處理技術(shù),根據(jù)所述計(jì)算機(jī)能夠理解的文本數(shù)據(jù)得到具有所述音段特征的目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)。
[0078]進(jìn)一步的,所述源語(yǔ)音處理單元402在對(duì)源語(yǔ)言的語(yǔ)音信號(hào)分段時(shí)保留每段源語(yǔ)言的子語(yǔ)音信號(hào)的時(shí)間戳;
[0079]所述語(yǔ)音視頻合并單元404具體用于:對(duì)于每段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào),將該段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)合并到視頻中該段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)的時(shí)間戳所對(duì)應(yīng)的播放位置。
[0080]上述軟件升級(jí)裝置可執(zhí)行本發(fā)明實(shí)施例所提供的軟件升級(jí)方法,具備執(zhí)行方法相應(yīng)的功能模塊和有益效果。
[0081]本發(fā)明實(shí)施例還提供一種服務(wù)器,該服務(wù)器包括上述視頻語(yǔ)音轉(zhuǎn)換裝置。該服務(wù)器具體可以是PC (Personal Computer,個(gè)人計(jì)算機(jī))、筆記本電腦等設(shè)備。
[0082]注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會(huì)理解,本發(fā)明不限于這里所述的特定實(shí)施例,對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會(huì)脫離本發(fā)明的保護(hù)范圍。因此,雖然通過(guò)以上實(shí)施例對(duì)本發(fā)明進(jìn)行了較為詳細(xì)的說(shuō)明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。
【權(quán)利要求】
1.一種視頻語(yǔ)音轉(zhuǎn)換方法,其特征在于,包括: 提取視頻中的源語(yǔ)言的語(yǔ)音信號(hào),將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段,得到至少一段源語(yǔ)言的子語(yǔ)音信號(hào); 對(duì)于每段源語(yǔ)言的子語(yǔ)音信號(hào),根據(jù)預(yù)先建立的語(yǔ)音模型將該源語(yǔ)言的子語(yǔ)音信號(hào)轉(zhuǎn)換為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào); 將得到的各段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)與所述視頻進(jìn)行合并,得到包含目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的視頻。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述提取視頻中的源語(yǔ)言的語(yǔ)音信號(hào),具體包括: 提取視頻中的音頻信號(hào),根據(jù)語(yǔ)音信號(hào)的頻率特征從所述音頻信號(hào)中提取出源語(yǔ)言的語(yǔ)音信號(hào)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段,具體包括:根據(jù)該源語(yǔ)言的語(yǔ)音信號(hào)的振幅進(jìn)行分段。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在提取視頻中的源語(yǔ)言的語(yǔ)音信號(hào)之后、將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段之前,進(jìn)一步包括:將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行去噪處理。
5.根據(jù)權(quán)利要求1-4中任一所述的方法,其特征在于,所述對(duì)于每段源語(yǔ)言的子語(yǔ)音信號(hào),根據(jù)預(yù)先建立的語(yǔ)音模型將該源語(yǔ)言的子語(yǔ)音信號(hào)轉(zhuǎn)換為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào),具體包括: 對(duì)于每段源語(yǔ)言的子語(yǔ)音信號(hào),將該段源語(yǔ)言的子語(yǔ)音信號(hào)輸入預(yù)先建立的語(yǔ)音模型,得到該語(yǔ)音模型輸出的該段源語(yǔ)言的子語(yǔ)音信號(hào)對(duì)應(yīng)的源語(yǔ)言的子文本數(shù)據(jù),將該段源語(yǔ)言的子語(yǔ)音信號(hào)對(duì)應(yīng)的源語(yǔ)言的子文本數(shù)據(jù)翻譯為目標(biāo)語(yǔ)言的子文本數(shù)據(jù),采用語(yǔ)音合成技術(shù)將該目標(biāo)語(yǔ)言的子文本數(shù)據(jù)合成為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述采用語(yǔ)音合成技術(shù)將該目標(biāo)語(yǔ)言的子文本數(shù)據(jù)合成為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào),具體包括: 采用自然語(yǔ)言處理技術(shù)將該目標(biāo)語(yǔ)言的子文本數(shù)據(jù)處理為計(jì)算機(jī)能夠理解的文本數(shù)據(jù);對(duì)該文本數(shù)據(jù)進(jìn)行韻律處理,得到合成后的子語(yǔ)音信號(hào)的音段特征;采用聲學(xué)處理技術(shù),根據(jù)所述計(jì)算機(jī)能夠理解的文本數(shù)據(jù)得到具有所述音段特征的目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)。
7.根據(jù)權(quán)利要求1-4中任一所述的方法,其特征在于,進(jìn)一步包括:在對(duì)源語(yǔ)言的語(yǔ)音信號(hào)分段時(shí)保留每段源語(yǔ)言的子語(yǔ)音信號(hào)的時(shí)間戳;在將每段源語(yǔ)言的子語(yǔ)音信號(hào)轉(zhuǎn)換為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)時(shí)將當(dāng)前段源語(yǔ)言的子語(yǔ)音信號(hào)的時(shí)間戳添加到轉(zhuǎn)換后的對(duì)應(yīng)的目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)中; 所述將得到的各段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)與所述視頻進(jìn)行合并,具體包括: 對(duì)于每段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào),將該段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)合并到視頻中該段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)的時(shí)間戳所對(duì)應(yīng)的播放位置。
8.一種視頻語(yǔ)音轉(zhuǎn)換裝置,其特征在于,包括: 源語(yǔ)音提取單元,用于提取視頻中的源語(yǔ)言的語(yǔ)音信號(hào) 源語(yǔ)音處理單元,用于將所述源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段,得到至少一段源語(yǔ)言的子語(yǔ)音信號(hào); 目標(biāo)語(yǔ)音轉(zhuǎn)換單元,用于對(duì)于每段源語(yǔ)言的子語(yǔ)音信號(hào),根據(jù)預(yù)先建立的語(yǔ)音模型將該源語(yǔ)言的子語(yǔ)音信號(hào)轉(zhuǎn)換為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào); 語(yǔ)音視頻合并單元,用于將得到的各段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)與所述視頻進(jìn)行合并,得到包含目標(biāo)語(yǔ)言的語(yǔ)音信號(hào)的視頻。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述源語(yǔ)音提取單元,具體用于: 提取視頻中的音頻信號(hào),根據(jù)語(yǔ)音信號(hào)的頻率特征從所述音頻信號(hào)中提取出源語(yǔ)言的語(yǔ)音信號(hào)。
10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述源語(yǔ)音處理單元具體用于: 根據(jù)該源語(yǔ)言的語(yǔ)音信號(hào)的振幅進(jìn)行分段。
11.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述源語(yǔ)音處理單元還用于: 在將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行分段之前,將該源語(yǔ)言的語(yǔ)音信號(hào)進(jìn)行去噪處理。
12.根據(jù)權(quán)利要求8-11中任一所述的裝置,其特征在于,所述目標(biāo)語(yǔ)音轉(zhuǎn)換單元具體用于: 對(duì)于每段源語(yǔ)言的子語(yǔ)音信號(hào),將該段源語(yǔ)言的子語(yǔ)音信號(hào)輸入預(yù)先建立的語(yǔ)音模型,得到該語(yǔ)音模型輸出的該段源語(yǔ)言的子語(yǔ)音信號(hào)對(duì)應(yīng)的源語(yǔ)言的子文本數(shù)據(jù),將該段源語(yǔ)言的子語(yǔ)音信號(hào)對(duì)應(yīng)的源語(yǔ)言的子文本數(shù)據(jù)翻譯為目標(biāo)語(yǔ)言的子文本數(shù)據(jù),采用語(yǔ)音合成技術(shù)將該目標(biāo)語(yǔ)言的子文本數(shù)據(jù)合成為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述目標(biāo)語(yǔ)音轉(zhuǎn)換單元具體用于:按照如下方式采用語(yǔ)音合成技術(shù)將該目標(biāo)語(yǔ)言的子文本數(shù)據(jù)合成為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào): 采用自然語(yǔ)言處理技術(shù)將該目標(biāo)語(yǔ)言的子文本數(shù)據(jù)處理為計(jì)算機(jī)能夠理解的文本數(shù)據(jù);對(duì)該文本數(shù)據(jù)進(jìn)行韻律處理,得到合成后的子語(yǔ)音信號(hào)的音段特征;采用聲學(xué)處理技術(shù),根據(jù)所述計(jì)算機(jī)能夠理解的文本數(shù)據(jù)得到具有所述音段特征的目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)。
14.根據(jù)權(quán)利要求8-11中任一所述的裝置,其特征在于,所述源語(yǔ)音處理單元在對(duì)源語(yǔ)言的語(yǔ)音信號(hào)分段時(shí)保留每段源語(yǔ)言的子語(yǔ)音信號(hào)的時(shí)間戳;所述目標(biāo)語(yǔ)音轉(zhuǎn)換單元在將每段源語(yǔ)言的子語(yǔ)音信號(hào)轉(zhuǎn)換為目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)時(shí)將當(dāng)前段源語(yǔ)言的子語(yǔ)音信號(hào)的時(shí)間戳添加到轉(zhuǎn)換后的對(duì)應(yīng)的目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)中; 所述語(yǔ)音視頻合并單元具體用于:對(duì)于每段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào),將該段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)合并到視頻中該段目標(biāo)語(yǔ)言的子語(yǔ)音信號(hào)的時(shí)間戳所對(duì)應(yīng)的播放位置。
15.一種服務(wù)器,其特征在于,包括如權(quán)利要求8-14中任一所述的視頻語(yǔ)音轉(zhuǎn)換裝置。
【文檔編號(hào)】G06F17/28GK104252861SQ201410461061
【公開(kāi)日】2014年12月31日 申請(qǐng)日期:2014年9月11日 優(yōu)先權(quán)日:2014年9月11日
【發(fā)明者】秦鐸浩, 沈國(guó)龍 申請(qǐng)人:百度在線(xiàn)網(wǎng)絡(luò)技術(shù)(北京)有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1