生成文檔的矢量表示的制作方法
【專利摘要】包括在計(jì)算機(jī)存儲(chǔ)介質(zhì)上編碼的計(jì)算機(jī)程序的方法、系統(tǒng)以及裝置,用于生成文檔矢量表示。所述方法中的一個(gè)包括:獲得新文檔;以及使用經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來確定所述新文檔的矢量表示,其中,所述經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)已被訓(xùn)練成接收輸入文檔以及來自所述輸入文檔的單詞序列并且生成單詞集中的每個(gè)單詞的相應(yīng)單詞分?jǐn)?shù),其中,所述相應(yīng)單詞分?jǐn)?shù)中的每一個(gè)都表示對(duì)應(yīng)單詞跟隨所述輸入文檔中的所述序列中的最后一個(gè)單詞的預(yù)測(cè)似然率,并且其中,使用經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來確定所述新文檔的矢量表示包括迭代地將所述多個(gè)單詞序列中的每一個(gè)提供給所述經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)以使用梯度下降來確定所述新文檔的所述矢量表示。
【專利說明】
生成文檔的矢量表示
【背景技術(shù)】
[0001]本說明書涉及使用數(shù)據(jù)處理系統(tǒng)的文本分類。
[0002]文本分類系統(tǒng)能夠?qū)﹄娮游谋径芜M(jìn)行分類,例如電子文檔。例如,文本分類系統(tǒng)能夠?qū)⑽谋径畏诸悶榕c預(yù)定的主題集中的一個(gè)或多個(gè)相關(guān)。一些文本分類系統(tǒng)接收文本段的特征作為輸入并且使用所述特征來生成所述文本段的分類。
[0003]神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)模型,其采用模型的一個(gè)或多個(gè)層來生成針對(duì)所接收的輸入的輸出,例如分類。一些神經(jīng)網(wǎng)絡(luò)除輸出層之外還包括一個(gè)或多個(gè)隱藏層。每個(gè)隱藏層的輸出被用作到網(wǎng)絡(luò)中的下一層的輸入,即,網(wǎng)絡(luò)的下一個(gè)隱藏層或者輸出層。網(wǎng)絡(luò)的每個(gè)層都根據(jù)相應(yīng)的參數(shù)集的當(dāng)前值而從所接收的輸入中生成輸出。
【發(fā)明內(nèi)容】
[0004]—般而言,在本說明書中所述主題的一個(gè)創(chuàng)新方面能夠被體現(xiàn)在包括以下動(dòng)作的方法中:獲得新文檔,其中,所述新文檔包括多個(gè)單詞序列,并且針對(duì)每個(gè)單詞序列包括跟隨所述新文檔中的所述單詞序列中的最后一個(gè)單詞的單詞;以及使用經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來確定所述新文檔的矢量表示,其中,所述經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)已被訓(xùn)練成接收輸入文檔以及來自所述輸入文檔的單詞序列并且生成預(yù)定單詞集中的每個(gè)單詞的相應(yīng)單詞分?jǐn)?shù),其中,所述相應(yīng)單詞分?jǐn)?shù)中的每一個(gè)都表示對(duì)應(yīng)單詞跟隨所述輸入文檔中的所述序列中的最后一個(gè)單詞的預(yù)測(cè)似然率,并且其中,使用經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來確定所述新文檔的矢量表示包括迭代地將所述多個(gè)單詞序列中的每一個(gè)提供給所述經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)以使用梯度下降來確定所述新文檔的所述矢量表示。
[0005]該方面的其他實(shí)施例包括對(duì)應(yīng)的計(jì)算機(jī)系統(tǒng)、裝置以及被記錄在一個(gè)或多個(gè)計(jì)算機(jī)存儲(chǔ)設(shè)備上的計(jì)算機(jī)程序,每個(gè)計(jì)算機(jī)存儲(chǔ)設(shè)備都被配置成執(zhí)行所述方法的所述動(dòng)作。
[0006]一個(gè)或多個(gè)計(jì)算機(jī)的系統(tǒng)能夠被配置成借助具有軟件、固件、硬件或其組合而執(zhí)行特定的操作或動(dòng)作,這些被安裝于所述系統(tǒng)上,所述系統(tǒng)在操作中致使所述系統(tǒng)執(zhí)行所述動(dòng)作。一個(gè)或多個(gè)計(jì)算機(jī)程序能夠被配置成借助包括當(dāng)由數(shù)據(jù)處理裝置執(zhí)行時(shí)使得所述裝置執(zhí)行所述動(dòng)作的指令而執(zhí)行特定的操作或動(dòng)作。
[0007]這些及其他方面能夠可選擇地包括以下特征中的一個(gè)或多個(gè)。所述經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)能夠包括被配置成將所述輸入文檔以及來自所述輸入文檔的單詞序列中的每個(gè)單詞映射到相應(yīng)的矢量表示的嵌入層、被配置成將所述矢量表示組合到組合表示內(nèi)的組合層以及被配置成使用所述組合表示生成所述單詞分?jǐn)?shù)的分類器層。所述嵌入層能夠根據(jù)第一參數(shù)集而將所述單詞序列中的單詞映射到矢量表示,并且所述分類器層能夠根據(jù)第二參數(shù)集而從所述組合表示中生成所述單詞分?jǐn)?shù)。所述第一參數(shù)集的值以及上述第二參數(shù)集的值可以從訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)系統(tǒng)以生成所述單詞分?jǐn)?shù)開始被固定。
[0008]使用經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來確定所述新文檔的矢量表示能夠包括對(duì)于所述多個(gè)單詞序列中的每一個(gè)執(zhí)行梯度下降的相應(yīng)迭代,以調(diào)節(jié)來自梯度下降的先前迭代的所述新文檔的所述矢量表示。對(duì)于所述多個(gè)序列中的每一個(gè)執(zhí)行梯度下降的相應(yīng)迭代能夠包括:使用所述嵌入層將所述序列中的單詞中的每一個(gè)映射到矢量表示;將所述序列中的單詞的矢量表示與來自先前迭代的所述新文檔的矢量表示進(jìn)行組合以生成組合表示;從所述組合表示中生成單詞分?jǐn)?shù);使用所述單詞分?jǐn)?shù)以及跟隨所述新文檔中的所述序列的單詞來計(jì)算梯度;以及使用所述梯度來調(diào)節(jié)來自先前迭代的所述新文檔的所述矢量表示。所述組合層能夠被配置成將所述序列中的單詞的矢量表示與所述輸入文檔的矢量表示相連結(jié)。所述組合層能夠被配置成對(duì)所述序列中的單詞的矢量表示與所述輸入文檔的矢量表示取平均值。所述多個(gè)單詞序列中的每一個(gè)都能夠包含固定數(shù)目的單詞。
[0009]—般而言,在本說明書中所述主題的另一個(gè)創(chuàng)新方面能夠被體現(xiàn)在包括以下動(dòng)作的方法中:獲得多個(gè)訓(xùn)練文檔,其中,所述多個(gè)訓(xùn)練文檔中的每個(gè)文檔包括多個(gè)訓(xùn)練單詞序列,并且針對(duì)每個(gè)單詞序列包括跟隨所述訓(xùn)練文檔中的所述訓(xùn)練單詞序列中的最后一個(gè)單詞的單詞;以及使用梯度下降以及反向傳播來依靠所述訓(xùn)練文檔中的每一個(gè)訓(xùn)練神經(jīng)網(wǎng)絡(luò)系統(tǒng),其中,所述神經(jīng)網(wǎng)絡(luò)系統(tǒng)被配置成接收識(shí)別輸入文檔以及來自所述輸入文檔的輸入單詞序列的數(shù)據(jù)并且生成預(yù)定單詞集中的每個(gè)單詞的相應(yīng)單詞分?jǐn)?shù),其中,所述相應(yīng)單詞分?jǐn)?shù)中的每一個(gè)都表示對(duì)應(yīng)單詞跟隨所述輸入文檔中的所述序列中的最后一個(gè)單詞的預(yù)測(cè)似然率,并且其中,依靠所述訓(xùn)練文檔中的每一個(gè)訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)系統(tǒng)包括針對(duì)每個(gè)訓(xùn)練文檔,對(duì)于所述訓(xùn)練文檔中的每個(gè)單詞序列執(zhí)行梯度下降的相應(yīng)迭代。
[0010]該方面的其他實(shí)施例包括對(duì)應(yīng)的計(jì)算機(jī)系統(tǒng)、裝置以及記錄在一個(gè)或多個(gè)計(jì)算機(jī)存儲(chǔ)設(shè)備上的計(jì)算機(jī)程序,每個(gè)計(jì)算機(jī)存儲(chǔ)設(shè)備都被配置成執(zhí)行所述方法的所述動(dòng)作。
[0011]這些及其他方面能夠可選擇地包括以下特征中的一個(gè)或多個(gè)。所述神經(jīng)網(wǎng)絡(luò)系統(tǒng)能夠包括被配置成將所述輸入文檔以及來自所述輸入文檔的單詞序列中的每個(gè)單詞映射到相應(yīng)的矢量表示的嵌入層、被配置成將所述矢量表示組合到組合表示內(nèi)的組合層以及被配置成使用所述組合表示生成所述單詞分?jǐn)?shù)的分類器層。所述嵌入層能夠根據(jù)第一參數(shù)集而將所述單詞序列中的單詞映射到矢量表示,并且所述分類器層能夠根據(jù)第二參數(shù)集而從所述組合表示中生成所述單詞分?jǐn)?shù)。對(duì)于所述訓(xùn)練文檔中的所述多個(gè)單詞序列中的每一個(gè)執(zhí)行梯度下降的相應(yīng)迭代能夠包括:使用所述嵌入層將所述序列中的單詞中的每一個(gè)映射到矢量表示;使用所述嵌入層將指示所述訓(xùn)練文檔的所述數(shù)據(jù)映射到矢量表示;將所述序列中的單詞的矢量表示與來自先前迭代的所述新文檔的矢量表示進(jìn)行組合以生成組合表示;從所述組合表示中生成單詞分?jǐn)?shù);使用所述單詞分?jǐn)?shù)以及跟隨所述訓(xùn)練文檔中的所述序列的單詞來計(jì)算梯度;以及使用所述梯度來調(diào)節(jié)所述第二參數(shù)集的值。執(zhí)行梯度下降的相應(yīng)迭代能夠進(jìn)一步包括使用反向傳播來調(diào)節(jié)所述第一參數(shù)集的值。所述組合層能夠被配置成將所述序列中的單詞的矢量表示與所述輸入文檔的矢量表示相連結(jié)。所述組合層能夠被配置成對(duì)所述序列中的單詞的矢量表示與所述輸入文檔的矢量表示取平均值。所述多個(gè)單詞序列中的每一個(gè)都能夠包含固定數(shù)目的單詞。
[0012]本說明書中所述的主題的特定實(shí)施例能夠被實(shí)施以便實(shí)現(xiàn)以下優(yōu)點(diǎn)中的一個(gè)或多個(gè)。能夠例如由文本分類系統(tǒng)將用作文檔的特征的所述文檔的矢量表示有效地生成。神經(jīng)網(wǎng)絡(luò)系統(tǒng)能夠被訓(xùn)練以僅使用未經(jīng)標(biāo)記的訓(xùn)練文檔來生成所述文檔表示。由所述經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)生成的所述矢量表示能夠具有多個(gè)期望的屬性。例如,與不包括在語義上類似的內(nèi)容的兩個(gè)文檔的文檔矢量表示相比,在語義上類似的文檔能夠具有更接近的文檔矢量表示。
[0013]在附圖以及下面的描述中闡明了本說明書的主題的一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)。通過說明書、附圖和權(quán)利要求,所述主題的其他特征、方面和優(yōu)勢(shì)將變得顯而易見。
【附圖說明】
[0014I圖1示出了示例矢量表示系統(tǒng)。
[0015]圖2是用于確定新文檔的文檔矢量表示的示例過程的流程圖。
[0016]圖3是用于依靠來自訓(xùn)練文檔的單詞序列來訓(xùn)練神經(jīng)網(wǎng)絡(luò)系統(tǒng)的示例過程的流程圖。
[0017]圖4是用于調(diào)節(jié)新文檔的文檔矢量表示的示例過程的流程圖。
[0018]在各圖中相同的附圖標(biāo)號(hào)和標(biāo)記指示相同的元素。
【具體實(shí)施方式】
[0019]圖1示出了示例矢量表示系統(tǒng)100。矢量表示系統(tǒng)100是作為一個(gè)或多個(gè)位置中的一個(gè)或多個(gè)計(jì)算機(jī)上的計(jì)算機(jī)程序所實(shí)現(xiàn)的系統(tǒng)的示例,能夠在其中實(shí)現(xiàn)下述的系統(tǒng)、組件以及技術(shù)。
[0020]矢量表示系統(tǒng)100生成來自輸入文檔的單詞序列的單詞分?jǐn)?shù),例如,來自輸入文檔102的單詞序列106的單詞分?jǐn)?shù)126。單詞序列106的單詞分?jǐn)?shù)126包括預(yù)定單詞集中的每個(gè)詞的相應(yīng)分?jǐn)?shù),給定單詞的單詞分?jǐn)?shù)表示該單詞跟隨輸入文檔中的單詞序列106中的最后一個(gè)單詞的預(yù)測(cè)似然率。
[0021]作為生成給定輸入文檔中的單詞序列的單詞分?jǐn)?shù)的一部分,矢量表示系統(tǒng)100生成輸入文檔的文檔矢量表示,例如,輸入文檔102的文檔矢量表示120。由矢量表示系統(tǒng)100所生成的文檔矢量表示是文檔的矢量表示。例如,文檔矢量表示可以是浮點(diǎn)值的矢量或者量化浮點(diǎn)值的矢量。
[0022]特別地,矢量表示系統(tǒng)100包括神經(jīng)網(wǎng)絡(luò)系統(tǒng)110,針對(duì)給定輸入文檔中的給定單詞序列,該神經(jīng)網(wǎng)絡(luò)系統(tǒng)110接收識(shí)別輸入文檔以及單詞序列的數(shù)據(jù)并且處理所述識(shí)別輸入文檔以及單詞序列的數(shù)據(jù)以生成單詞序列的單詞分?jǐn)?shù)。例如,矢量表示系統(tǒng)100能夠從輸入文檔102接收輸入文檔102以及單詞序列106的文檔標(biāo)識(shí)符104并且生成單詞序列106的單詞分?jǐn)?shù)126。例如,文檔標(biāo)識(shí)符可以被預(yù)先分配給輸入文檔102或者由矢量表示系統(tǒng)100生成,以便標(biāo)識(shí)符唯一識(shí)別輸入文檔102。
[0023]神經(jīng)網(wǎng)絡(luò)系統(tǒng)110包括嵌入層112、組合層114以及分類器層116。嵌入層112根據(jù)文檔參數(shù)集的當(dāng)前值而將識(shí)別文檔的數(shù)據(jù)映射到文檔矢量表示,例如,輸入文檔102的文檔矢量表示120。嵌入層112還根據(jù)單詞參數(shù)集的當(dāng)前值而將單詞序列中的每一個(gè)單詞都映射到相應(yīng)的文檔矢量表示,例如,單詞序列106中的單詞的單詞矢量表示122。每個(gè)單詞矢量是對(duì)應(yīng)單詞的矢量表示,例如,浮點(diǎn)的矢量或者量化的浮點(diǎn)值。
[0024]組合層114接收文檔矢量表示以及單詞矢量表示并且從文檔矢量表示以及單詞矢量表示中生成組合表示,例如,從單詞矢量表示122以及文檔矢量表示120中生成組合表示124。下面參照?qǐng)D3和圖4來更詳細(xì)地對(duì)生成組合表示進(jìn)行描述。
[0025]分類器層116根據(jù)分類器參數(shù)集的當(dāng)前值而接收組合表示并且處理該組合表示以從輸入文檔中生成單詞序列的單詞分?jǐn)?shù)。例如,分類器層116可以處理組合表示124以生成單詞序列106的單詞分?jǐn)?shù)126。
[0026]矢量表示系統(tǒng)100依靠來自訓(xùn)練文檔的多個(gè)單詞序列來訓(xùn)練神經(jīng)網(wǎng)絡(luò)系統(tǒng)110,以便確定單詞參數(shù)以及分類器參數(shù)的訓(xùn)練值。下面參照?qǐng)D2和圖3來更詳細(xì)地對(duì)訓(xùn)練神經(jīng)網(wǎng)絡(luò)系統(tǒng)進(jìn)行描述。一旦單詞參數(shù)以及分類器參數(shù)的訓(xùn)練值已被確定,矢量表示系統(tǒng)100便能夠接收新輸入文檔并且使用神經(jīng)網(wǎng)絡(luò)系統(tǒng)110來處理來自新輸入文檔的單詞序列,以確定新文檔的文檔矢量表示。下面參照?qǐng)D2和圖4來更詳細(xì)地描述生成新文檔的文檔矢量表示。
[0027]一旦給定文檔的文檔矢量表示已被生成,矢量表示系統(tǒng)100便能夠?qū)⑽臋n矢量表示與存儲(chǔ)庫中的文檔相關(guān)聯(lián)或者將文檔表示提供給單獨(dú)的系統(tǒng),以便出于一些即時(shí)目的而使用。例如,文檔表示能夠被用作輸入文檔的特征并且能夠作為輸入而被提供給已被配置成將輸入文檔進(jìn)行分類(例如,分類為與特定主題有關(guān))的常規(guī)的機(jī)器學(xué)習(xí)系統(tǒng),例如,邏輯回歸系統(tǒng)、支持矢量機(jī)(SVM)系統(tǒng)或者k-means系統(tǒng)。例如,常規(guī)的機(jī)器學(xué)習(xí)系統(tǒng)可以被配置成接收輸入文檔的文檔表示以及選擇性地接收輸入文檔的其他特征并且生成主題集中的每一個(gè)主題的相應(yīng)分?jǐn)?shù),每個(gè)分?jǐn)?shù)表示文檔有關(guān)或關(guān)于對(duì)應(yīng)主題的估計(jì)似然率。
[0028]圖2是用于確定新文檔的文檔矢量表示的示例過程200的流程圖。方便起見,過程200將被描述為由位于一個(gè)或多個(gè)地點(diǎn)的一個(gè)或多個(gè)計(jì)算機(jī)的系統(tǒng)來執(zhí)行。例如,適當(dāng)編程的矢量表示系統(tǒng)(例如圖1的矢量表示系統(tǒng)100)能夠執(zhí)行過程200。
[0029]系統(tǒng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)系統(tǒng)(例如,圖1的神經(jīng)網(wǎng)絡(luò)系統(tǒng)110)以生成單詞分?jǐn)?shù)(步驟202)。神經(jīng)網(wǎng)絡(luò)系統(tǒng)是包括嵌入層、組合層以及分類器層的系統(tǒng)。嵌入層被配置成接收識(shí)別文檔以及來自文檔的單詞序列的數(shù)據(jù),根據(jù)文檔參數(shù)集的當(dāng)前值而將識(shí)別文檔的數(shù)據(jù)映射到文檔矢量表示,并且根據(jù)單詞參數(shù)集的當(dāng)前值而將單詞序列中的每個(gè)單詞都映射到相應(yīng)的單詞矢量表示。組合層被配置成將單詞矢量表示與文檔矢量表示相組合,以生成組合表示。分類器層被配置成根據(jù)分類器參數(shù)集的當(dāng)前值而處理組合表示,以生成單詞序列的單詞分?jǐn)?shù)集。
[0030]在訓(xùn)練期間,系統(tǒng)調(diào)節(jié)單詞參數(shù)以及分類器參數(shù)的值,以確定單詞參數(shù)以及分類器參數(shù)的訓(xùn)練值。特別地,系統(tǒng)依靠來自訓(xùn)練文檔集的單詞序列集來訓(xùn)練神經(jīng)網(wǎng)絡(luò)系統(tǒng)。例如,訓(xùn)練文檔可以包括以下中的一個(gè)或多個(gè):語句、語段、多個(gè)語段的集合、搜索查詢或者其他多個(gè)自然語言單詞的集合。
[0031]為了調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)系統(tǒng)的參數(shù)值,系統(tǒng)針對(duì)訓(xùn)練序列中的每一個(gè)執(zhí)行梯度下降訓(xùn)練規(guī)程的一個(gè)實(shí)例。特別地,系統(tǒng)使用神經(jīng)網(wǎng)絡(luò)系統(tǒng)來處理單詞序列以生成序列的單詞分?jǐn)?shù),并且再使用單詞分?jǐn)?shù)以及跟隨訓(xùn)練文檔中的序列中的最后一個(gè)單詞的單詞來調(diào)節(jié)參數(shù)的值,即,使用梯度下降以及反向傳播。下面參照?qǐng)D3來更詳細(xì)地描述使用來自訓(xùn)練文檔的單詞序列來調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)系統(tǒng)的參數(shù)。
[0032]因?yàn)樗鱿到y(tǒng)僅使用單詞序列的單詞分?jǐn)?shù)以及跟隨訓(xùn)練文檔中的單詞序列中的最后一個(gè)單詞的單詞以便調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)系統(tǒng)的參數(shù)的值,所以訓(xùn)練文檔無需被標(biāo)記成在訓(xùn)練神經(jīng)系統(tǒng)網(wǎng)絡(luò)時(shí)將被使用。也就是說,所述系統(tǒng)可以僅使用來自未經(jīng)標(biāo)記的訓(xùn)練文檔的單詞序列來訓(xùn)練神經(jīng)網(wǎng)絡(luò)系統(tǒng)以生成單詞分?jǐn)?shù),所述未經(jīng)標(biāo)記的訓(xùn)練文檔即尚未被分類為與任何特定主題有關(guān)或以其他方式被文本分類系統(tǒng)處理的文檔。
[0033]所述系統(tǒng)接收新文檔(步驟204)。例如,新文檔可以是語句、語段、多個(gè)語段的集合、搜索查詢或者其他多個(gè)自然語言單詞的集合。
[0034]所述系統(tǒng)使用經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來確定新文檔的文檔矢量表示(步驟206)。一般而言,所述系統(tǒng)使用經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來處理來自新文檔的多個(gè)單詞序列,以確定新文檔的文檔矢量表示。特別地,所述系統(tǒng)識(shí)別來自新文檔的多個(gè)單詞序列。在一些實(shí)施方式中,序列中的每一個(gè)都是固定的長(zhǎng)度,即,包括相同固定數(shù)目的單詞。例如,所述系統(tǒng)能夠?qū)⒒瑒?dòng)窗口應(yīng)用于新文檔以從新文檔中提取預(yù)定的固定長(zhǎng)度的每個(gè)可能序列。
[0035]所述系統(tǒng)能夠接著使用經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來處理所提取的序列中的每一個(gè),以便迭代地確定新文檔的文檔矢量表示。也就是說,在來自新文檔的每個(gè)序列都通過經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)序列而被處理以生成序列的單詞分?jǐn)?shù)之后,所述系統(tǒng)調(diào)節(jié)新文檔的當(dāng)前表示。下面參照?qǐng)D4來更詳細(xì)地描述使用來自新文檔的序列來調(diào)節(jié)新文檔的文檔矢量表示。
[0036]圖3是用于依靠來自訓(xùn)練文檔的單詞序列來訓(xùn)練神經(jīng)網(wǎng)絡(luò)系統(tǒng)的示例過程300的流程圖。方便起見,過程300將被描述為由位于一個(gè)或多個(gè)地點(diǎn)的一個(gè)或多個(gè)計(jì)算機(jī)的系統(tǒng)來執(zhí)行。例如,適當(dāng)編程的矢量表示系統(tǒng)(例如圖1的矢量表示系統(tǒng)100)能夠執(zhí)行過程300。
[0037]所述系統(tǒng)使用嵌入層將序列中的單詞中的每一個(gè)都映射到相應(yīng)的單詞矢量表示(步驟302)。特別地,所述系統(tǒng)根據(jù)單詞參數(shù)的當(dāng)前值而處理序列中的每個(gè)單詞,以確定序列中的單詞中的每一個(gè)的相應(yīng)單詞矢量表示。
[0038]所述系統(tǒng)使用嵌入層將訓(xùn)練文檔映射到文檔矢量表示(步驟304)。特別地,所述系統(tǒng)根據(jù)文檔參數(shù)的當(dāng)前值而處理識(shí)別訓(xùn)練文檔的數(shù)據(jù),以確定訓(xùn)練文檔的文檔矢量表示。
[0039]所述系統(tǒng)使用組合層從單詞矢量表示以及文檔矢量表示中生成組合表示(步驟306)。特別地,所述系統(tǒng)使用組合層處理單詞矢量表示以及當(dāng)前的文檔矢量表示,以生成組合表示。例如,組合層可以將單詞矢量表示與當(dāng)前的文檔矢量表示表示連結(jié),以生成組合表示。作為另一示例,組合層可以計(jì)算單詞矢量表示與當(dāng)前的文檔矢量表示的集中趨勢(shì)的度量,即均值、中值或其他平均值,以生成組合表示。
[0040]所述系統(tǒng)使用分類器層從組合表示中生成單詞分?jǐn)?shù)(步驟308)。特別地,所述系統(tǒng)使用分類器層并且根據(jù)分類器層的參數(shù)的當(dāng)前值來處理組合表示,以生成預(yù)定的單詞集中的每個(gè)單詞的相應(yīng)單詞分?jǐn)?shù)。
[0041]所述系統(tǒng)使用單詞分?jǐn)?shù)計(jì)算梯度(步驟310)。也就是說,所述系統(tǒng)計(jì)算單詞分?jǐn)?shù)與單詞序列的期望輸出之間的誤差,所述期望輸出即指示實(shí)際上跟隨新文檔中的序列中的最后一個(gè)單詞的單詞是序列中的下一個(gè)單詞的單詞分?jǐn)?shù)集,并且接著計(jì)算誤差的梯度。
[0042]所述系統(tǒng)使用梯度調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)系統(tǒng)的參數(shù)的當(dāng)前值(步驟312)。特別地,所述系統(tǒng)使用誤差的梯度來調(diào)節(jié)分類器層的參數(shù)的當(dāng)前值并且接著使用反向傳播來調(diào)節(jié)嵌入層的參數(shù)的當(dāng)前值,即文檔參數(shù)以及單詞參數(shù)的當(dāng)前值。
[0043]所述系統(tǒng)能夠?qū)τ趤碜远鄠€(gè)訓(xùn)練文檔的多個(gè)訓(xùn)練序列中的每一個(gè)執(zhí)行過程300,以便迭代地確定文檔的參數(shù)的訓(xùn)練值。例如,針對(duì)過程300的每一次迭代,所述系統(tǒng)都能夠隨機(jī)地選擇訓(xùn)練文檔以及來自訓(xùn)練文檔的固定長(zhǎng)度的單詞序列。所述系統(tǒng)能夠接著對(duì)來自訓(xùn)練文檔的序列執(zhí)行過程300的迭代,直至每一個(gè)可能的序列均已被處理或者直至訓(xùn)練的其他終止準(zhǔn)則已被滿足。
[0044]圖4是用于調(diào)節(jié)新文檔的文檔矢量表示的示例過程400的流程圖。方便起見,過程400將被描述為由位于一個(gè)或多個(gè)地點(diǎn)的一個(gè)或多個(gè)計(jì)算機(jī)的系統(tǒng)來執(zhí)行。例如,適當(dāng)編程的矢量表示系統(tǒng)(例如圖1的矢量表示系統(tǒng)100)能夠執(zhí)行過程400。
[0045]所述系統(tǒng)接收來自新文檔的單詞序列(步驟402)。例如,單詞序列可以是已從新文檔中提取的固定長(zhǎng)度的單詞序列。
[0046]所述系統(tǒng)將序列中的單詞中的每一個(gè)都映射到相應(yīng)的矢量表示(步驟404)。也就是說,所述系統(tǒng)使用嵌入層來處理序列中的單詞中的每一個(gè),以根據(jù)單詞參數(shù)的訓(xùn)練值而將每個(gè)單詞映射到單詞矢量表示。
[0047]所述系統(tǒng)將新文檔映射到文檔矢量表示(步驟406)。也就是說,所述系統(tǒng)使用嵌入層來處理識(shí)別新文檔的數(shù)據(jù),以根據(jù)文檔參數(shù)的當(dāng)前值而將新文檔到文檔矢量表示。
[0048]所述系統(tǒng)使用組合層來生成組合表示(步驟406)。特別地,所述系統(tǒng)使用組合層來處理單詞矢量表示以及文檔矢量表示,以生成組合表示。例如,組合層可以將單詞矢量表示與當(dāng)前的文檔矢量表示表示相連結(jié),以生成組合表示。作為另一示例,組合層可以計(jì)算單詞矢量表示與當(dāng)前的文檔矢量表示的集中趨勢(shì)的度量,即均值、中值或其他平均值,以生成組合表不。
[0049]所述系統(tǒng)使用分類器層從組合表示中生成單詞分?jǐn)?shù)(步驟408)。特別地,所述系統(tǒng)使用分類器層并且根據(jù)分類器層的參數(shù)的訓(xùn)練值來處理組合表示,以生成預(yù)定的單詞集中的每個(gè)單詞的相應(yīng)單詞分?jǐn)?shù)。
[0050]所述系統(tǒng)使用單詞分?jǐn)?shù)計(jì)算梯度(步驟410)。也就是說,所述系統(tǒng)計(jì)算單詞分?jǐn)?shù)與單詞序列的期望輸出之間的誤差,所述期望輸出即指示實(shí)際上跟隨新文檔中的序列中的最后一個(gè)單詞的單詞是序列中的下一個(gè)單詞的單詞分?jǐn)?shù)集,并且接著計(jì)算誤差的梯度。
[0051]所述系統(tǒng)使用梯度來調(diào)節(jié)新文檔的矢量表示(步驟412)。也就是說,所述系統(tǒng)保留分類器層的參數(shù)的訓(xùn)練值以及固定的單詞參數(shù)并且使用反向傳播更新文檔參數(shù)的當(dāng)前值。
[0052]所述系統(tǒng)接著在計(jì)算來自新文檔的下一個(gè)單詞序列的文檔矢量表示時(shí)使用文檔參數(shù)的更新值。替選地,如果當(dāng)前的單詞序列是來自新文檔的待處理的最后一個(gè)序列,則所述系統(tǒng)使用文檔參數(shù)的更新值計(jì)算新文檔的經(jīng)調(diào)節(jié)的文檔矢量表示并且使用經(jīng)調(diào)節(jié)的文檔矢量表示作為新文檔的文檔表示。
[0053]本說明書中所述的主題的實(shí)施例以及功能性操作能夠在數(shù)字電子電路中、有形體現(xiàn)的計(jì)算機(jī)軟件或固件中、包括本說明書中所公開的結(jié)構(gòu)和它們的結(jié)構(gòu)等價(jià)物在內(nèi)的計(jì)算機(jī)硬件中、或者其中一個(gè)或多個(gè)的組合中來實(shí)現(xiàn)。本說明書中所述的主題的實(shí)施例能夠被實(shí)現(xiàn)為一個(gè)或多個(gè)計(jì)算機(jī)程序,即,在有形的非暫時(shí)性程序載體上編碼的計(jì)算機(jī)程序指令的一個(gè)或多個(gè)模塊,用于由數(shù)據(jù)處理裝置來執(zhí)行或者控制所述數(shù)據(jù)處理裝置的操作。替選地或附加地,程序指令能夠被編碼于人工生成的傳播信號(hào)上,例如機(jī)器生成的電子、光學(xué)或者電磁信號(hào),該信號(hào)被生成以編碼用于傳輸至適當(dāng)?shù)慕邮掌餮b置的信息,以便由數(shù)據(jù)處理設(shè)備來執(zhí)行。計(jì)算機(jī)存儲(chǔ)介質(zhì)能夠是機(jī)器可讀的存儲(chǔ)設(shè)備、機(jī)器可讀的存儲(chǔ)基底、隨機(jī)或串行存取存儲(chǔ)器設(shè)備或者其中一個(gè)或多個(gè)的組合。
[0054]術(shù)語“數(shù)據(jù)處理裝置”包含用于處理數(shù)據(jù)的所有種類的裝置、設(shè)備以及機(jī)器,例如,包括可編程處理器、計(jì)算機(jī)或者多個(gè)處理器或計(jì)算機(jī)。所述裝置能夠包括專用邏輯電路,例如FPGA(現(xiàn)場(chǎng)可編程門陣列)或者ASICX專用集成電路)。所述裝置除硬件之外還能夠包括為討論中的計(jì)算機(jī)程序創(chuàng)建執(zhí)行環(huán)境的代碼,例如,構(gòu)成處理器固件、協(xié)議棧、數(shù)據(jù)庫管理系統(tǒng)、操作系統(tǒng)或者其中一個(gè)或多個(gè)的組合的代碼。
[0055]計(jì)算機(jī)程序(其也可以被稱為或者被描述為程序、軟件、軟件應(yīng)用、模塊、軟件模塊、腳本或者代碼)能夠以任何形式的編程語言來編寫,包括編譯或解釋型語言,或者聲明性或過程式語言,并且其能夠以任何形式來部署,包括部署為獨(dú)立程序或者模塊、組件、子例程或者適于在計(jì)算環(huán)境中使用的其他單元。計(jì)算機(jī)程序可以但不必與文件系統(tǒng)中的文件相對(duì)應(yīng)。程序能夠被存儲(chǔ)于保持例如存儲(chǔ)成標(biāo)記語言文檔的一個(gè)或多個(gè)腳本的其他程序或者數(shù)據(jù)的文件的一部分中、專用于討論中的程序的單個(gè)文件中、或者多個(gè)協(xié)作文件中,例如存儲(chǔ)一個(gè)或多個(gè)模塊、子程序或者代碼的多個(gè)部分的文件。計(jì)算機(jī)程序能夠被部署成在一個(gè)計(jì)算機(jī)上或者在位于一個(gè)地點(diǎn)或者分布于多個(gè)地點(diǎn)并且通過通信網(wǎng)絡(luò)而互聯(lián)的多個(gè)計(jì)算機(jī)上來執(zhí)行。
[0056]本說明書中所述的過程以及邏輯流程能夠由執(zhí)行一個(gè)或多個(gè)計(jì)算機(jī)程序以通過對(duì)輸入數(shù)據(jù)進(jìn)行操作并且生成數(shù)據(jù)來執(zhí)行功能的一個(gè)或多個(gè)可編程計(jì)算機(jī)來執(zhí)行。所述的過程以及邏輯流程也能夠由專用邏輯電路來執(zhí)行,并且裝置也能夠被實(shí)現(xiàn)為專用邏輯電路,例如,F(xiàn)PGA(現(xiàn)場(chǎng)可編程門陣列)或者ASICX專用集成電路)。
[0057]例如,適于執(zhí)行計(jì)算機(jī)程序的計(jì)算機(jī)包括能夠基于通用或?qū)S玫奈⑻幚砥骰蛘叨?,或者任何其他種類的中央處理單元。通常,中央處理單元會(huì)從只讀存儲(chǔ)器或隨機(jī)存取存儲(chǔ)器或者二者接收指令和數(shù)據(jù)。計(jì)算機(jī)的基本元素是用于實(shí)踐或執(zhí)行指令的中央處理單元以及用于存儲(chǔ)指令和數(shù)據(jù)的一個(gè)或多個(gè)存儲(chǔ)器設(shè)備。通常,計(jì)算機(jī)還會(huì)包括或者可操作地被耦合至用于存儲(chǔ)數(shù)據(jù)的一個(gè)或多個(gè)大容量存儲(chǔ)設(shè)備以自其接收數(shù)據(jù)或向其傳送數(shù)據(jù)或者兼顧,例如磁性的磁光盤或者光盤。然而,計(jì)算機(jī)不必具有這樣的設(shè)備。此外,計(jì)算機(jī)能夠被嵌入在其他設(shè)備中,例如,移動(dòng)電話、個(gè)人數(shù)字助理(PDA)、移動(dòng)音頻或視頻播放器、游戲機(jī)、全球定位系統(tǒng)(GPS)接收器、或者便攜式存儲(chǔ)設(shè)備,例如通用串行總線(USB)閃存驅(qū)動(dòng)器,僅此舉出幾例。
[0058]適于存儲(chǔ)計(jì)算機(jī)程序指令和數(shù)據(jù)的計(jì)算機(jī)可讀介質(zhì)包括所有形式的非易失存儲(chǔ)器、介質(zhì)和存儲(chǔ)器設(shè)備,例如包括例如EPROM、EEPROM和閃存設(shè)備的半導(dǎo)體存儲(chǔ)器設(shè)備、例如內(nèi)置硬盤或可移動(dòng)磁盤的磁盤、磁光盤以及⑶ROM和DVD-ROM磁盤。處理器和存儲(chǔ)器能夠由專用邏輯電路加以補(bǔ)充或被結(jié)合在專用邏輯電路中。
[0059]為提供與用戶的交互,本說明書中所述的主題的實(shí)施例能夠在計(jì)算機(jī)上來實(shí)現(xiàn),該計(jì)算機(jī)具有用于將信息顯示給用戶的顯示設(shè)備,例如CRT(陰極射線管)或者LCD(液晶顯示器)監(jiān)視器,以及用戶能夠借以向計(jì)算機(jī)提供輸入的鍵盤和指針設(shè)備,例如鼠標(biāo)或跟蹤球。其他種類的設(shè)備也能夠被使用于提供與用戶的交互;例如,提供給用戶的反饋能夠是任何類型的感覺反饋,例如,視覺反饋、聽覺反饋或者觸覺反饋;并且來自用戶的輸入能夠以任何形式被接收,包括聲音、語音或者觸覺輸入。此外,計(jì)算機(jī)能夠通過將文檔發(fā)送至由用戶所使用的設(shè)備并且從由用戶所使用的設(shè)備接收文檔,例如通過響應(yīng)于從web瀏覽器所接收的請(qǐng)求而將網(wǎng)頁發(fā)送至用戶的客戶端設(shè)備上的web瀏覽器,來與用戶交互。
[0060]本說明書中所述主題的實(shí)施例能夠在計(jì)算系統(tǒng)中被實(shí)現(xiàn),所述計(jì)算系統(tǒng)包括例如作為數(shù)據(jù)服務(wù)器的后端組件、包括例如應(yīng)用服務(wù)器的中間件組件、包括例如具有用戶能夠借以與本說明書中所述主題的實(shí)施方式交互的圖形用戶界面或者web瀏覽器的客戶端計(jì)算機(jī)的前端組件、或者一個(gè)或多個(gè)這樣的后端、中間件或前端組件的任意組合。系統(tǒng)的組件能夠通過數(shù)字?jǐn)?shù)據(jù)通信的任何形式或者介質(zhì)來互聯(lián),例如,通信網(wǎng)絡(luò)。通信網(wǎng)絡(luò)的示例包括局域網(wǎng)(“LAN” )以及廣域網(wǎng)(“WAN” ),例如,互聯(lián)網(wǎng)。
[0061]計(jì)算系統(tǒng)能夠包括客戶端以及服務(wù)器。客戶端與服務(wù)器一般彼此遠(yuǎn)離,并且通常通過通信網(wǎng)絡(luò)來進(jìn)行交互。客戶端與服務(wù)器的關(guān)系借助在相應(yīng)計(jì)算機(jī)上運(yùn)行并且彼此具有客戶端-服務(wù)器關(guān)系的計(jì)算機(jī)程序來實(shí)現(xiàn)。
[0062]雖然本說明書包含許多特定的實(shí)施方式細(xì)節(jié),但這些不應(yīng)當(dāng)被解釋為對(duì)任何發(fā)明或者可能要求保護(hù)的內(nèi)容的范圍的限制,而應(yīng)被理解為對(duì)可能對(duì)于特定發(fā)明的特定實(shí)施例是特定的特征的描述。本說明書中在單獨(dú)實(shí)施例的場(chǎng)境中描述的某些特征也能夠在單個(gè)實(shí)施例中組合來實(shí)施。反之,在單個(gè)實(shí)施例的場(chǎng)境中描述的各種特征也能夠單獨(dú)地在多個(gè)實(shí)施例中或者以任何適當(dāng)?shù)淖咏M合來實(shí)施。此外,盡管在上文可以將特征描述為以某些組合進(jìn)行動(dòng)作乃至最初如此要求保護(hù)特征,但來自要求保護(hù)的組合的一個(gè)或多個(gè)特征在一些情況下能夠從所述組合中被排除,并且所要求保護(hù)的組合可以涉及子組合或者子組合的變型。
[0063]類似地,雖然在圖中以特定次序來描繪操作,但這不應(yīng)被理解為要求以所示的特定次序或者以順序來執(zhí)行這樣的操作,或者執(zhí)行所有圖示的操作,以獲得期望的結(jié)果。在某些情況下,多任務(wù)以及并行處理可能是有利的。此外,上述實(shí)施例中的各種系統(tǒng)模塊和組件的分離不應(yīng)被理解為在所有實(shí)施例中要求這樣的分離,而應(yīng)理解的是,所述的程序組件和系統(tǒng)一般能夠一起被集成于單個(gè)軟件產(chǎn)品中或者被封裝到多個(gè)軟件產(chǎn)品中。
[0064]已對(duì)所述主題的特定實(shí)施例進(jìn)行了描述。其他實(shí)施例在所附權(quán)利要求的范圍內(nèi)。例如,能夠以不同的次序來執(zhí)行權(quán)利要求中所述的動(dòng)作并且仍然獲得期望的結(jié)果。作為一個(gè)示例,在附圖中所描繪的過程不一定要求所示的特定次序或者順序來獲得期望的結(jié)果。在某些實(shí)施方式中,多任務(wù)以及并行處理可能是有利的。
【主權(quán)項(xiàng)】
1.一種方法,包括: 獲得新文檔,其中,所述新文檔包括多個(gè)單詞序列,并且針對(duì)每個(gè)單詞序列,包括跟隨所述新文檔中的所述單詞序列中的最后一個(gè)單詞的單詞;以及 使用經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來確定所述新文檔的矢量表示, 其中,所述經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)已被訓(xùn)練用于接收輸入文檔以及來自所述輸入文檔的單詞序列,并且用于生成預(yù)定單詞集中的每個(gè)單詞的相應(yīng)單詞分?jǐn)?shù),其中,所述相應(yīng)單詞分?jǐn)?shù)中的每一個(gè)表示對(duì)應(yīng)單詞跟隨所述輸入文檔中的所述序列中的最后一個(gè)單詞的預(yù)測(cè)似然率,并且 其中,使用所述經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來確定所述新文檔的所述矢量表示包括:迭代地將所述多個(gè)單詞序列中的每一個(gè)提供給所述經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng),以使用梯度下降來確定所述新文檔的所述矢量表示。2.如權(quán)利要求1所述的方法,其中,所述經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)包括:嵌入層,所述嵌入層被配置成將所述輸入文檔以及來自所述輸入文檔的所述單詞序列中的每個(gè)單詞映射到相應(yīng)的矢量表示;組合層,所述組合層被配置成將所述矢量表示組合成組合表示;以及,分類器層,所述分類器層被配置成使用所述組合表示來生成所述單詞分?jǐn)?shù)。3.如權(quán)利要求2所述的方法,其中,根據(jù)第一參數(shù)集,所述嵌入層將所述單詞序列中的所述單詞映射到矢量表示,并且其中,根據(jù)第二參數(shù)集,所述分類器層從所述組合表示中生成所述單詞分?jǐn)?shù)。4.如權(quán)利要求3所述的方法,其中,自從訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)系統(tǒng)以生成所述單詞分?jǐn)?shù),所述第一參數(shù)集的值以及所述第二參數(shù)集的值是固定的。5.如權(quán)利要求2所述的方法,其中,使用所述經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來確定所述新文檔的所述矢量表示包括:對(duì)于所述多個(gè)單詞序列中的每一個(gè)執(zhí)行梯度下降的相應(yīng)迭代,以調(diào)節(jié)來自梯度下降的先前迭代的所述新文檔的所述矢量表示。6.如權(quán)利要求5所述的方法,其中,對(duì)于所述多個(gè)序列中的每一個(gè)執(zhí)行梯度下降的相應(yīng)迭代包括: 使用所述嵌入層,將所述序列中的所述單詞中的每一個(gè)映射到矢量表示; 將所述序列中的所述單詞的所述矢量表示與來自所述先前迭代的所述新文檔的所述矢量表示進(jìn)行組合,以生成組合表示; 從所述組合表示中生成單詞分?jǐn)?shù); 使用所述單詞分?jǐn)?shù)以及跟隨所述新文檔中的所述序列的所述單詞來計(jì)算梯度;以及 使用所述梯度來調(diào)節(jié)來自所述先前迭代的所述新文檔的所述矢量表示。7.如權(quán)利要求2所述的方法,其中,所述組合層被配置成將所述序列中的所述單詞的所述矢量表示與所述輸入文檔的所述矢量表示相連結(jié)。8.如權(quán)利要求2所述的方法,其中,所述組合層被配置成對(duì)所述序列中的所述單詞的所述矢量表示與所述輸入文檔的所述矢量表示取平均值。9.如權(quán)利要求1所述的方法,其中,所述多個(gè)單詞序列中的每一個(gè)包含固定數(shù)目的單Τ.κ| ο10.一種方法,包括: 獲得多個(gè)訓(xùn)練文檔,其中,所述多個(gè)訓(xùn)練文檔中的每個(gè)文檔包括多個(gè)訓(xùn)練單詞序列,并且針對(duì)每個(gè)單詞序列,包括跟隨所述訓(xùn)練文檔中的所述訓(xùn)練單詞序列中的最后一個(gè)單詞的單詞;以及 使用梯度下降以及反向傳播,來依靠所述訓(xùn)練文檔中的每一個(gè)訓(xùn)練神經(jīng)網(wǎng)絡(luò)系統(tǒng), 其中,所述神經(jīng)網(wǎng)絡(luò)系統(tǒng)被配置成接收識(shí)別輸入文檔以及來自所述輸入文檔的輸入單詞序列的數(shù)據(jù),并且生成預(yù)定單詞集中的每個(gè)單詞的相應(yīng)單詞分?jǐn)?shù), 其中,所述相應(yīng)單詞分?jǐn)?shù)中的每一個(gè)表示對(duì)應(yīng)單詞跟隨所述輸入文檔中的所述序列中的最后一個(gè)單詞的預(yù)測(cè)似然率,并且 其中,依靠所述訓(xùn)練文檔中的每一個(gè)訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)系統(tǒng)包括:針對(duì)每個(gè)訓(xùn)練文檔,對(duì)于所述訓(xùn)練文檔中的每個(gè)單詞序列執(zhí)行梯度下降的相應(yīng)迭代。11.如權(quán)利要求10所述的方法,其中,所述神經(jīng)網(wǎng)絡(luò)系統(tǒng)包括:嵌入層,所述嵌入層被配置成將所述輸入文檔以及來自所述輸入文檔的所述單詞序列中的每個(gè)單詞映射到相應(yīng)的矢量表示;組合層,所述組合層被配置成將所述矢量表示組合成組合表示;以及,分類器層,所述分類器層被配置成使用所述組合表示來生成所述單詞分?jǐn)?shù)。12.如權(quán)利要求11所述的方法,其中,根據(jù)第一參數(shù)集,所述嵌入層將所述單詞序列中的所述單詞映射到矢量表示,并且其中,根據(jù)第二參數(shù)集,所述分類器層從所述組合表示中生成所述單詞分?jǐn)?shù)。13.如權(quán)利要求12所述的方法,其中,對(duì)于所述訓(xùn)練文檔中的所述多個(gè)單詞序列中的每一個(gè)執(zhí)行梯度下降的相應(yīng)迭代包括: 使用所述嵌入層,將所述序列中的所述單詞中的每一個(gè)映射到矢量表示; 使用所述嵌入層,將識(shí)別所述訓(xùn)練文檔的所述數(shù)據(jù)映射到矢量表示; 將所述序列中的所述單詞的所述矢量表示與來自所述先前迭代的所述訓(xùn)練文檔的所述矢量表示進(jìn)行組合,以生成組合表示; 從所述組合表示中生成單詞分?jǐn)?shù); 使用所述單詞分?jǐn)?shù)以及跟隨所述新文檔中的所述序列的所述單詞來計(jì)算梯度;以及 使用所述梯度來調(diào)節(jié)所述第二參數(shù)集的值。14.如權(quán)利要求13所述的方法,其中,執(zhí)行所述梯度下降的相應(yīng)迭代進(jìn)一步包括:使用反向傳播來調(diào)節(jié)所述第一參數(shù)集的值。15.如權(quán)利要求10所述的方法,其中,所述組合層被配置成將所述序列中的所述單詞的所述矢量表示與所述輸入文檔的所述矢量表示相連結(jié)。16.如權(quán)利要求10所述的方法,其中,所述組合層被配置成對(duì)所述序列中的所述單詞的所述矢量表示與所述輸入文檔的所述矢量表示取平均值。17.如權(quán)利要求10所述的方法,其中,所述多個(gè)單詞序列中的每一個(gè)包含固定數(shù)目的單Τ.κ| ο18.—種包括一個(gè)或多個(gè)計(jì)算機(jī)以及存儲(chǔ)指令的一個(gè)或多個(gè)存儲(chǔ)設(shè)備的系統(tǒng),所述指令當(dāng)由所述一個(gè)或多個(gè)計(jì)算機(jī)來執(zhí)行時(shí)致使所述一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行操作,所述操作包括: 獲得新文檔,其中,所述新文檔包括多個(gè)單詞序列,并且針對(duì)每個(gè)單詞序列,包括跟隨所述新文檔中的所述單詞序列中的最后一個(gè)單詞的單詞;以及使用經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來確定所述新文檔的矢量表示, 其中,所述經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)已被訓(xùn)練用于接收輸入文檔以及來自所述輸入文檔的單詞序列,并且用于生成預(yù)定單詞集中的每個(gè)單詞的相應(yīng)單詞分?jǐn)?shù),其中,所述相應(yīng)單詞分?jǐn)?shù)中的每一個(gè)表示對(duì)應(yīng)單詞跟隨所述輸入文檔中的所述序列中的最后一個(gè)單詞的預(yù)測(cè)似然率,并且 其中,使用所述經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來確定所述新文檔的所述矢量表示包括:迭代地將所述多個(gè)單詞序列中的每一個(gè)提供給所述經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng),以使用梯度下降來確定所述新文檔的所述矢量表示。19.如權(quán)利要求18所述的系統(tǒng),其中,所述經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)包括:嵌入層,所述嵌入層被配置成將所述輸入文檔以及來自所述輸入文檔的所述單詞序列中的每個(gè)單詞映射到相應(yīng)的矢量表示;組合層,所述組合層被配置成將所述矢量表示組合成組合表示;以及,分類器層,所述分類器層被配置成使用所述組合表示來生成所述單詞分?jǐn)?shù)。20.如權(quán)利要求19所述的系統(tǒng),其中,使用所述經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)來確定所述新文檔的所述矢量表示包括:對(duì)于所述多個(gè)單詞序列中的每一個(gè)執(zhí)行梯度下降的相應(yīng)迭代,以調(diào)節(jié)來自梯度下降的先前迭代的所述新文檔的所述矢量表示。
【文檔編號(hào)】G06N3/08GK105940395SQ201580006653
【公開日】2016年9月14日
【申請(qǐng)日】2015年1月30日
【發(fā)明人】國(guó)·V·勒
【申請(qǐng)人】谷歌公司