基于人工智能的字母音素轉(zhuǎn)換模型生成方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種基于人工智能的字母音素轉(zhuǎn)換模型 生成方法及裝置。
【背景技術(shù)】
[0002] 人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、 延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算 機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式 做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語音識(shí)別、圖像識(shí)別、自然語言處理和專 家系統(tǒng)等。其中,人工智能最重要的方面就是語音識(shí)別技術(shù)。
[0003 ]字母到音素的轉(zhuǎn)換模型(grapheme-to-phoneme,g2p)是英文語音合成中十分重要 的處理模塊,用于對(duì)接收到的單詞中的字母轉(zhuǎn)換成對(duì)應(yīng)音素?,F(xiàn)有技術(shù)中,通過深度神經(jīng)網(wǎng) 絡(luò)技術(shù)來訓(xùn)練g2p模型,能夠得到比基于統(tǒng)計(jì)語言模型更好的應(yīng)用效果。
[0004] 由于g2p模型的目標(biāo)是將單詞轉(zhuǎn)換成對(duì)應(yīng)的音素序列,而實(shí)際存在的單詞數(shù)量也 是相對(duì)固定的,也就是10萬個(gè)單詞左右。但是,g2p訓(xùn)練模型所需的數(shù)據(jù)量是相對(duì)固定的。通 過深度神經(jīng)網(wǎng)絡(luò)來訓(xùn)練g2p模型的過程完全不同于聲學(xué)模型的訓(xùn)練,具體如下:
[0005] 通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練聲學(xué)模型時(shí),由于可以不斷地增加訓(xùn)練數(shù)據(jù),因此神經(jīng)網(wǎng)絡(luò)的 層數(shù)以及每一層的單元數(shù)可以不斷增大,以此帶來更好的性能。但對(duì)于g2p模型的訓(xùn)練來 講,如果增大網(wǎng)絡(luò)層數(shù)以及每一層的單元數(shù),但訓(xùn)練數(shù)據(jù)量還是相對(duì)不變的話,很容易造成 過擬合現(xiàn)象的發(fā)生。所謂過擬合現(xiàn)象就是指,訓(xùn)練出來的g2p模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)很好, 但在測(cè)試數(shù)據(jù)上卻表現(xiàn)得不如訓(xùn)練數(shù)據(jù)那樣好。
[0006] 然而,如果選擇一個(gè)較小的網(wǎng)絡(luò)來訓(xùn)練g2p模型,可以得到一個(gè)性能相對(duì)可以接受 的g2p模型,但這樣的網(wǎng)絡(luò)的層數(shù)以及每一層的單元數(shù)都會(huì)相對(duì)較小,不如深層神經(jīng)網(wǎng)絡(luò)那 樣擁有更強(qiáng)的學(xué)習(xí)能力和泛化能力。
【發(fā)明內(nèi)容】
[0007] 本申請(qǐng)旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0008] 為此,本申請(qǐng)的第一個(gè)目的在于提出一種基于人工智能的字母音素轉(zhuǎn)換模型生成 方法,該方法應(yīng)用節(jié)點(diǎn)動(dòng)態(tài)隱藏的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù),生成字母音素轉(zhuǎn)換模型,提高了 字母音素轉(zhuǎn)換模型的學(xué)習(xí)能力和泛化能力,避免了過擬合現(xiàn)象。
[0009] 本申請(qǐng)的第二個(gè)目的在于提出一種基于人工智能的字母音素轉(zhuǎn)換模型生成裝置。
[0010] 為達(dá)上述目的,本申請(qǐng)第一方面實(shí)施例提出了一種基于人工智能的字母音素轉(zhuǎn)換 模型生成方法,包括:在應(yīng)用神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的每個(gè)單詞進(jìn)行字母音素轉(zhuǎn)換訓(xùn)練的 過程中,按照預(yù)設(shè)的節(jié)點(diǎn)比例對(duì)所述神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)進(jìn)行隨機(jī)篩選,獲取用于訓(xùn)練每 個(gè)單詞的保留節(jié)點(diǎn);應(yīng)用與所述保留節(jié)點(diǎn)對(duì)應(yīng)的子神經(jīng)網(wǎng)絡(luò)訓(xùn)練對(duì)應(yīng)的單詞,更新所述子 神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重;對(duì)所有子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重進(jìn)行均值處 理,生成字母音素轉(zhuǎn)換模型。
[0011] 本申請(qǐng)實(shí)施例的基于人工智能的字母音素轉(zhuǎn)換模型生成方法,通過在應(yīng)用神經(jīng)網(wǎng) 絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的每個(gè)單詞進(jìn)行字母音素轉(zhuǎn)換訓(xùn)練的過程中,按照預(yù)設(shè)的節(jié)點(diǎn)比例對(duì)所述 神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)進(jìn)行隨機(jī)篩選,獲取用于訓(xùn)練每個(gè)單詞的保留節(jié)點(diǎn);應(yīng)用與所述保留 節(jié)點(diǎn)對(duì)應(yīng)的子神經(jīng)網(wǎng)絡(luò)訓(xùn)練對(duì)應(yīng)的單詞,更新所述子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重;對(duì) 所有子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重進(jìn)行均值處理,生成字母音素轉(zhuǎn)換模型。由此,實(shí)現(xiàn) 了應(yīng)用節(jié)點(diǎn)動(dòng)態(tài)隱藏的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù),生成字母音素轉(zhuǎn)換模型,提高了字母音素 轉(zhuǎn)換模型的學(xué)習(xí)能力和泛化能力,并且避免了過擬合現(xiàn)象。
[0012] 為達(dá)上述目的,本申請(qǐng)第二方面實(shí)施例提出了一種基于人工智能的字母音素轉(zhuǎn)換 模型生成裝置,包括:處理模塊,用于在應(yīng)用神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的每個(gè)單詞進(jìn)行字母音 素轉(zhuǎn)換訓(xùn)練的過程中,按照預(yù)設(shè)的節(jié)點(diǎn)比例對(duì)所述神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)進(jìn)行隨機(jī)篩選,獲 取用于訓(xùn)練每個(gè)單詞的保留節(jié)點(diǎn);訓(xùn)練模塊,用于應(yīng)用與所述保留節(jié)點(diǎn)對(duì)應(yīng)的子神經(jīng)網(wǎng)絡(luò) 訓(xùn)練對(duì)應(yīng)的單詞,更新所述子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重;生成模塊,用于對(duì)所有子神 經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重進(jìn)行均值處理,生成字母音素轉(zhuǎn)換模型。
[0013] 本申請(qǐng)實(shí)施例的基于人工智能的字母音素轉(zhuǎn)換模型生成裝置,通過在應(yīng)用神經(jīng)網(wǎng) 絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的每個(gè)單詞進(jìn)行字母音素轉(zhuǎn)換訓(xùn)練的過程中,按照預(yù)設(shè)的節(jié)點(diǎn)比例對(duì)所述 神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)進(jìn)行隨機(jī)篩選,獲取用于訓(xùn)練每個(gè)單詞的保留節(jié)點(diǎn);應(yīng)用與所述保留 節(jié)點(diǎn)對(duì)應(yīng)的子神經(jīng)網(wǎng)絡(luò)訓(xùn)練對(duì)應(yīng)的單詞,更新所述子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重;對(duì) 所有子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重進(jìn)行均值處理,生成字母音素轉(zhuǎn)換模型。由此,實(shí)現(xiàn) 了應(yīng)用節(jié)點(diǎn)動(dòng)態(tài)隱藏的深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù),生成字母音素轉(zhuǎn)換模型,提高了字母音素 轉(zhuǎn)換模型的學(xué)習(xí)能力和泛化能力,并且避免了過擬合現(xiàn)象。
【附圖說明】
[0014] 本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得 明顯和容易理解,其中:
[0015] 圖1是本申請(qǐng)一個(gè)實(shí)施例的基于人工智能的字母音素轉(zhuǎn)換模型生成方法的流程 圖;
[0016]圖2是二層神經(jīng)網(wǎng)絡(luò)不意圖;
[0017] 圖3是加入防止過擬合技術(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)示意圖;
[0018] 圖4是本申請(qǐng)一個(gè)實(shí)施例的基于人工智能的字母音素轉(zhuǎn)換模型生成裝置的結(jié)構(gòu)示 意圖。
【具體實(shí)施方式】
[0019] 下面詳細(xì)描述本申請(qǐng)的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終 相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附 圖描述的實(shí)施例是示例性的,旨在用于解釋本申請(qǐng),而不能理解為對(duì)本申請(qǐng)的限制。
[0020] 下面參考附圖描述本申請(qǐng)實(shí)施例的基于人工智能的字母音素轉(zhuǎn)換模型生成方法 及裝置。
[0021] 圖1是本申請(qǐng)一個(gè)實(shí)施例的基于人工智能的字母音素轉(zhuǎn)換模型生成方法的流程 圖。
[0022] 如圖1所示,該基于人工智能的字母音素轉(zhuǎn)換模型生成方法包括:
[0023] 步驟101,在應(yīng)用神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的每個(gè)單詞進(jìn)行字母音素轉(zhuǎn)換訓(xùn)練的過 程中,按照預(yù)設(shè)的節(jié)點(diǎn)比例對(duì)所述神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)進(jìn)行隨機(jī)篩選,獲取用于訓(xùn)練每個(gè) 單詞的保留節(jié)點(diǎn)。
[0024] 步驟102,應(yīng)用與所述保留節(jié)點(diǎn)對(duì)應(yīng)的子神經(jīng)網(wǎng)絡(luò)訓(xùn)練對(duì)應(yīng)的單詞,更新所述子神 經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重。
[0025]步驟103,對(duì)所有子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重進(jìn)行均值處理,生成字母音素 轉(zhuǎn)換模型。
[0026] 具體地,為了使得訓(xùn)練出的g2p模型能夠擁有更強(qiáng)的泛化能力,本發(fā)明采用了深度 神經(jīng)網(wǎng)絡(luò)來訓(xùn)練得到g2p模型。并且在應(yīng)用神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的每個(gè)單詞進(jìn)行字母音 素轉(zhuǎn)換訓(xùn)練的過程中,通過對(duì)網(wǎng)絡(luò)中部分節(jié)點(diǎn)的隱藏來防止模型過擬合。
[0027] 需要解釋的是,應(yīng)用節(jié)點(diǎn)動(dòng)態(tài)隱藏的神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù),生成字母音素轉(zhuǎn)換模型, 并且防止生成的字母音素轉(zhuǎn)換模型出現(xiàn)過擬合現(xiàn)象。其中,用于訓(xùn)練的神經(jīng)網(wǎng)絡(luò)為深度神 經(jīng)網(wǎng)絡(luò),在不同的訓(xùn)練場(chǎng)景中可以采用不同的模型,本實(shí)施例對(duì)此不作限制。例如:可以采 用時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)等。
[0028] 深度神經(jīng)網(wǎng)絡(luò)包括三層:第一層為輸入層、最后一層為輸出層、中間的為隱層,有 的神經(jīng)網(wǎng)絡(luò)具有一個(gè)隱層,有的神經(jīng)網(wǎng)絡(luò)具有多個(gè)隱層,每層都有節(jié)點(diǎn)。針對(duì)訓(xùn)練數(shù)據(jù)中單 詞量的大小,可以適應(yīng)調(diào)整用于訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)大小,具體包括調(diào)整深度神經(jīng) 網(wǎng)絡(luò)結(jié)構(gòu)的層數(shù),以及每層的節(jié)點(diǎn)數(shù)量。
[0029] 為了防止模型過擬合,本發(fā)明在每一次對(duì)輸入單詞的訓(xùn)練過程中,按照預(yù)設(shè)的節(jié) 點(diǎn)比例對(duì)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)進(jìn)行隨機(jī)篩選,獲取用于訓(xùn)練每個(gè)單詞的保留節(jié)點(diǎn)。
[0030] 需要強(qiáng)調(diào)的是,節(jié)點(diǎn)比例反映出訓(xùn)練過程中對(duì)深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的簡化程度,在 訓(xùn)練之前,可以根據(jù)訓(xùn)練數(shù)據(jù)中的單詞數(shù)量調(diào)整神經(jīng)網(wǎng)絡(luò)的層數(shù)、每層節(jié)點(diǎn)數(shù)、以及預(yù)設(shè)的 節(jié)點(diǎn)比例。
[0031] 需要注意的是,在不同的應(yīng)用場(chǎng)景中可以采用不同的節(jié)點(diǎn)比例設(shè)置方式隨機(jī)的對(duì) 訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)進(jìn)行篩選,獲取用于訓(xùn)練每個(gè)單詞的保留節(jié)點(diǎn),舉例說明如下: [0032]第一種示例:節(jié)點(diǎn)隱藏比例
[0033]具體地,根據(jù)預(yù)設(shè)的節(jié)點(diǎn)隱藏比例,隨機(jī)將神經(jīng)網(wǎng)絡(luò)中每層隱層節(jié)點(diǎn)中與節(jié)點(diǎn)隱 藏比例對(duì)應(yīng)數(shù)量的部分節(jié)點(diǎn)進(jìn)行隱藏處理。進(jìn)而,將每層隱層節(jié)點(diǎn)中沒有隱藏的部分節(jié)點(diǎn) 作為用于訓(xùn)練每個(gè)單詞的保留節(jié)點(diǎn)。
[0034]第二種示例:節(jié)點(diǎn)保留比例
[0035] 根據(jù)預(yù)設(shè)的節(jié)點(diǎn)保留比例,隨機(jī)將神經(jīng)網(wǎng)絡(luò)中每層隱層節(jié)點(diǎn)中與節(jié)點(diǎn)保留比例對(duì) 應(yīng)數(shù)量的部分節(jié)點(diǎn)進(jìn)行保留處理,作為用于訓(xùn)練每個(gè)單詞的保留節(jié)點(diǎn)。
[0036] 進(jìn)而,應(yīng)用與保留節(jié)點(diǎn)對(duì)應(yīng)的子神經(jīng)網(wǎng)絡(luò)訓(xùn)練對(duì)應(yīng)的單詞,更新子神經(jīng)網(wǎng)絡(luò)各保 留節(jié)點(diǎn)的相關(guān)權(quán)重。
[0037] 也就是說,在模型訓(xùn)練中,不使用隱藏的節(jié)點(diǎn)(非保留節(jié)點(diǎn)),但是會(huì)保留它們所對(duì) 應(yīng)的權(quán)重,只是在這次訓(xùn)練中不再更新這些權(quán)重。當(dāng)下次訓(xùn)練時(shí),又重新隨機(jī)地按照一定比 例隱藏隱層的一些節(jié)點(diǎn)。如此周而復(fù)始。這種策略之所以能夠達(dá)到抗過擬合的原因,就是因 為,每次訓(xùn)練的時(shí)候,在隱藏一些節(jié)點(diǎn)后,實(shí)際上剩下的網(wǎng)絡(luò)是一個(gè)相對(duì)原網(wǎng)絡(luò)較小的網(wǎng) 絡(luò),這樣的網(wǎng)絡(luò)基本不會(huì)過擬合。
[0038] 最后,對(duì)所有子神經(jīng)網(wǎng)絡(luò)各保留節(jié)點(diǎn)的相關(guān)權(quán)重進(jìn)行均值處理,生成字母音素轉(zhuǎn) 換模型。
[0039] 可以理解的是,而每次訓(xùn)練時(shí)都隨機(jī)地隱藏不同的節(jié)點(diǎn)實(shí)際上就是得到了很多小 的網(wǎng)絡(luò),最后的結(jié)果可以認(rèn)為是對(duì)這些小網(wǎng)絡(luò)取平均的方式,而這是一種很有效的抗過擬 合的方式。需要注意的是:上面所述的隱藏節(jié)點(diǎn),不是真的刪除,只是在當(dāng)前訓(xùn)練時(shí)不使用 這些節(jié)點(diǎn),而在下次訓(xùn)練時(shí),還會(huì)使用。
[0040] 為了更加清楚的說明上述過程,通過圖2和圖3為例說明如下:
[0041] 圖2是三層神經(jīng)網(wǎng)絡(luò)示意圖,如圖2所示,輸入層為3個(gè)節(jié)點(diǎn),隱層為6個(gè)節(jié)點(diǎn),輸出 層為2個(gè)節(jié)點(diǎn)。
[0042] 圖3