日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

基于人工智能的信息生成方法和裝置與流程

文檔序號(hào):11250870閱讀:1329來(lái)源:國(guó)知局
基于人工智能的信息生成方法和裝置與流程

本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及基于人工智能的信息生成方法和裝置。



背景技術(shù):

人工智能(artificialintelligence,ai)是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門(mén)新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語(yǔ)言識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專家系統(tǒng)等。人工智能領(lǐng)域中的自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。通常,自然語(yǔ)言處理需要利用向量對(duì)語(yǔ)料中的每個(gè)詞進(jìn)行表示,這種向量被稱為詞向量。

然而,現(xiàn)有的方法通常是通過(guò)查詢預(yù)置的詞向量矩陣(例如embedding矩陣)的方式獲得詞向量,進(jìn)而得到文本的處理結(jié)果。由于中文詞匯的數(shù)量龐大,因而詞向量矩陣的參數(shù)量非常大,導(dǎo)致對(duì)運(yùn)算設(shè)備的物理存儲(chǔ)、網(wǎng)絡(luò)傳輸、內(nèi)存等性能的要求較高,因而適應(yīng)性較差。



技術(shù)實(shí)現(xiàn)要素:

本申請(qǐng)實(shí)施例的目的在于提出一種改進(jìn)的基于人工智能的信息生成方法和裝置,來(lái)解決以上背景技術(shù)部分提到的技術(shù)問(wèn)題。

第一方面,本申請(qǐng)實(shí)施例提供了一種基于人工智能的信息生成方法,該方法包括:對(duì)待處理文本進(jìn)行逐字分割以得到字序列;確定字序列中的各個(gè)字的字向量,以生成字向量序列;基于預(yù)設(shè)詞表分割字向量序列,以生成多個(gè)字向量子序列;對(duì)于所生成的每一個(gè)字向量子序列,將組成該字向量子序列的各個(gè)字向量的和確定為目標(biāo)向量,將目標(biāo)向量輸入至預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò),得到與該字向量子序列相對(duì)應(yīng)的詞向量,其中第一神經(jīng)網(wǎng)絡(luò)用于表征目標(biāo)向量與詞向量的對(duì)應(yīng)關(guān)系;基于所得到的詞向量,對(duì)待處理文本進(jìn)行解析,生成解析結(jié)果。

在一些實(shí)施例中,在基于所得到的詞向量,對(duì)待處理文本進(jìn)行解析,生成解析結(jié)果之前,該方法還包括:對(duì)于每一個(gè)字向量子序列,將所得到的、與該字向量子序列相對(duì)應(yīng)的詞向量輸入至預(yù)先訓(xùn)練的第二神經(jīng)網(wǎng)絡(luò),將第二神經(jīng)網(wǎng)絡(luò)輸出的向量確定為與該字向量子序列相對(duì)應(yīng)的特征向量,其中,第二神經(jīng)網(wǎng)絡(luò)用于提取文本特征;將與每一個(gè)字向量子序列相對(duì)應(yīng)的詞向量替換為與該字向量子序列相對(duì)應(yīng)的特征向量。

在一些實(shí)施例中,基于所得到詞向量,對(duì)待處理文本進(jìn)行解析,生成解析結(jié)果,包括:將所得到的詞向量輸入至預(yù)先訓(xùn)練的文本情感分析模型,得到與待處理文本相對(duì)應(yīng)的文本情感分析結(jié)果,其中,情感分析模型用于表征詞向量與文本情感分析結(jié)果的對(duì)應(yīng)關(guān)系。

在一些實(shí)施例中,基于所得到詞向量,對(duì)待處理文本進(jìn)行解析,生成解析結(jié)果,包括:按照字向量子序列在字向量中的先后順序,依次提取與各個(gè)字向量子序列相對(duì)應(yīng)的詞向量,以生成詞向量序列;將詞向量序列與預(yù)先生成的、與預(yù)設(shè)文本相對(duì)應(yīng)的詞向量序列分別輸入至預(yù)先訓(xùn)練的相似度計(jì)算模型,得到待處理文本與預(yù)設(shè)文本的相似度計(jì)算結(jié)果,其中,相似度計(jì)算模型用于表征與多個(gè)文本相對(duì)應(yīng)的詞向量序列與多個(gè)文本的相似度計(jì)算結(jié)果的對(duì)應(yīng)關(guān)系。

在一些實(shí)施例中,該方法還包括訓(xùn)練第一神經(jīng)網(wǎng)絡(luò)的步驟,包括:提取預(yù)設(shè)的第一訓(xùn)練樣本,其中,第一訓(xùn)練樣本包括多個(gè)第一預(yù)設(shè)詞和多個(gè)第一預(yù)設(shè)詞中的各個(gè)第一預(yù)設(shè)詞的詞向量;對(duì)于第一訓(xùn)練樣本中的每一個(gè)第一預(yù)設(shè)詞,確定組成該第一預(yù)設(shè)詞的各個(gè)字的字向量,以生成與該第一預(yù)設(shè)詞相對(duì)應(yīng)的字向量序列;利用機(jī)器學(xué)習(xí)方法,將與第一預(yù)設(shè)詞相對(duì)應(yīng)的字向量序列作為輸入,將第一訓(xùn)練樣本中的、第一預(yù)設(shè)詞的詞向量作為輸出,訓(xùn)練得到第一神經(jīng)網(wǎng)絡(luò)。

在一些實(shí)施例中,該方法還包括訓(xùn)練第二神經(jīng)網(wǎng)絡(luò)的步驟,包括:提取預(yù)設(shè)的第二訓(xùn)練樣本,其中,第二訓(xùn)練樣本包括多個(gè)第二預(yù)設(shè)詞和多個(gè)第二預(yù)設(shè)詞中的各個(gè)第二預(yù)設(shè)詞的詞向量;對(duì)于第二訓(xùn)練樣本中的每一個(gè)第二預(yù)設(shè)詞,確定組成該第二預(yù)設(shè)詞的各個(gè)字的字向量,以生成與該第二預(yù)設(shè)詞相對(duì)應(yīng)的字向量序列;將與第二訓(xùn)練樣本中的每一個(gè)第二預(yù)設(shè)詞相對(duì)應(yīng)的字向量序列輸入至第一神經(jīng)網(wǎng)絡(luò),將第一神經(jīng)網(wǎng)絡(luò)輸出的向量確定為與該第二預(yù)設(shè)詞相對(duì)應(yīng)的中間向量;利用機(jī)器學(xué)習(xí)方法,將與第二預(yù)設(shè)詞相對(duì)應(yīng)的中間向量序列作為輸入,將第二訓(xùn)練樣、第二預(yù)設(shè)詞的詞向量作為輸出,訓(xùn)練得到第二神經(jīng)網(wǎng)絡(luò)。

第二方面,本申請(qǐng)實(shí)施例提供了一種基于人工智能的信息生成裝置,該裝置包括:分割單元,配置用于對(duì)待處理文本進(jìn)行逐字分割以得到字序列;第一確定單元,配置用于確定字序列中的各個(gè)字的字向量,以生成字向量序列;生成單元,配置用于基于預(yù)設(shè)詞表分割字向量序列,以生成多個(gè)字向量子序列;第一輸入單元,配置用于對(duì)于所生成的每一個(gè)字向量子序列,將組成該字向量子序列的各個(gè)字向量的和確定為目標(biāo)向量,將目標(biāo)向量輸入至預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò),得到與該字向量子序列相對(duì)應(yīng)的詞向量,其中第一神經(jīng)網(wǎng)絡(luò)用于表征目標(biāo)向量與詞向量的對(duì)應(yīng)關(guān)系;解析單元,配置用于基于所得到的詞向量,對(duì)待處理文本進(jìn)行解析,生成解析結(jié)果。

在一些實(shí)施例中,該裝置還包括:第二輸入單元,配置用于對(duì)于每一個(gè)字向量子序列,將所得到的、與該字向量子序列相對(duì)應(yīng)的詞向量輸入至預(yù)先訓(xùn)練的第二神經(jīng)網(wǎng)絡(luò),將第二神經(jīng)網(wǎng)絡(luò)輸出的向量確定為與該字向量子序列相對(duì)應(yīng)的特征向量,其中,第二神經(jīng)網(wǎng)絡(luò)用于提取文本特征;替換單元,配置用于將與每一個(gè)字向量子序列相對(duì)應(yīng)的詞向量替換為與該字向量子序列相對(duì)應(yīng)的特征向量。

在一些實(shí)施例中,解析單元進(jìn)一步配置用于:將所得到的詞向量輸入至預(yù)先訓(xùn)練的文本情感分析模型,得到與待處理文本相對(duì)應(yīng)的文本情感分析結(jié)果,其中,情感分析模型用于表征詞向量與文本情感分析結(jié)果的對(duì)應(yīng)關(guān)系。

在一些實(shí)施例中,解析單元進(jìn)一步配置用于:按照字向量子序列在字向量中的先后順序,依次提取與各個(gè)字向量子序列相對(duì)應(yīng)的詞向量,以生成詞向量序列;將詞向量序列與預(yù)先生成的、與預(yù)設(shè)文本相對(duì)應(yīng)的詞向量序列分別輸入至預(yù)先訓(xùn)練的相似度計(jì)算模型,得到待處理文本與預(yù)設(shè)文本的相似度計(jì)算結(jié)果,其中,相似度計(jì)算模型用于表征與多個(gè)文本相對(duì)應(yīng)的詞向量序列與多個(gè)文本的相似度計(jì)算結(jié)果的對(duì)應(yīng)關(guān)系。

在一些實(shí)施例中,該裝置還包括:第一提取單元,配置用于提取預(yù)設(shè)的第一訓(xùn)練樣本,其中,第一訓(xùn)練樣本包括多個(gè)第一預(yù)設(shè)詞和多個(gè)第一預(yù)設(shè)詞中的各個(gè)第一預(yù)設(shè)詞的詞向量;第二確定單元,配置用于對(duì)于第一訓(xùn)練樣本中的每一個(gè)第一預(yù)設(shè)詞,確定組成該第一預(yù)設(shè)詞的各個(gè)字的字向量,以生成與該第一預(yù)設(shè)詞相對(duì)應(yīng)的字向量序列;第一訓(xùn)練單元,配置用于利用機(jī)器學(xué)習(xí)方法,將與第一預(yù)設(shè)詞相對(duì)應(yīng)的字向量序列作為輸入,將第一訓(xùn)練樣本中的、第一預(yù)設(shè)詞的詞向量作為輸出,訓(xùn)練得到第一神經(jīng)網(wǎng)絡(luò)。

在一些實(shí)施例中,該裝置還包括:第二提取單元,配置用于提取預(yù)設(shè)的第二訓(xùn)練樣本,其中,第二訓(xùn)練樣本包括多個(gè)第二預(yù)設(shè)詞和多個(gè)第二預(yù)設(shè)詞中的各個(gè)第二預(yù)設(shè)詞的詞向量;第三確定單元,配置用于對(duì)于第二訓(xùn)練樣本中的每一個(gè)第二預(yù)設(shè)詞,確定組成該第二預(yù)設(shè)詞的各個(gè)字的字向量,以生成與該第二預(yù)設(shè)詞相對(duì)應(yīng)的字向量序列;第三輸入單元,配置用于將與第二訓(xùn)練樣本中的每一個(gè)第二預(yù)設(shè)詞相對(duì)應(yīng)的字向量序列輸入至第一神經(jīng)網(wǎng)絡(luò),將第一神經(jīng)網(wǎng)絡(luò)輸出的向量確定為與該第二預(yù)設(shè)詞相對(duì)應(yīng)的中間向量;第二訓(xùn)練單元,配置用于利用機(jī)器學(xué)習(xí)方法,將與第二預(yù)設(shè)詞相對(duì)應(yīng)的中間向量序列作為輸入,將第二訓(xùn)練樣、第二預(yù)設(shè)詞的詞向量作為輸出,訓(xùn)練得到第二神經(jīng)網(wǎng)絡(luò)。

第三方面,本申請(qǐng)實(shí)施例提供了一種服務(wù)器,包括:一個(gè)或多個(gè)處理器;存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器執(zhí)行,使得一個(gè)或多個(gè)處理器實(shí)現(xiàn)如基于人工智能的信息生成方法中任一實(shí)施例的方法。

本申請(qǐng)實(shí)施例提供的基于人工智能的信息生成方法和裝置,通過(guò)對(duì)待處理文本進(jìn)行逐字分割以得到字序列,以便確定所述字序列中的各個(gè)字的字向量,以生成字向量序列,而后基于預(yù)設(shè)詞表分割所述字向量序列,以生成多個(gè)字向量子序列,之后基于預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)得到與各字向量子序列相對(duì)應(yīng)的詞向量,最后基于所得到的詞向量,對(duì)所述待處理文本進(jìn)行解析,生成解析結(jié)果,從而可以實(shí)現(xiàn)基于字向量生成詞向量,由于中文單個(gè)漢字的數(shù)量遠(yuǎn)小于詞匯的數(shù)量,且詞向量可以通過(guò)預(yù)先訓(xùn)練的神經(jīng)網(wǎng)絡(luò)自動(dòng)生成,不需要占據(jù)靜態(tài)存儲(chǔ)空間,因而可以降低對(duì)運(yùn)算設(shè)備的物理存儲(chǔ)、網(wǎng)絡(luò)傳輸、內(nèi)存等性能的要求,提高了文本處理的適應(yīng)性。

附圖說(shuō)明

通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本申請(qǐng)的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:

圖1是本申請(qǐng)可以應(yīng)用于其中的示例性系統(tǒng)架構(gòu)圖;

圖2是根據(jù)本申請(qǐng)的信息生成方法的一個(gè)實(shí)施例的流程圖;

圖3是根據(jù)本申請(qǐng)的信息生成方法的一個(gè)應(yīng)用場(chǎng)景的示意圖;

圖4是根據(jù)本申請(qǐng)的信息生成方法的又一個(gè)實(shí)施例的流程圖;

圖5是根據(jù)本申請(qǐng)的信息生成裝置的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;

圖6是適于用來(lái)實(shí)現(xiàn)本申請(qǐng)實(shí)施例的服務(wù)器的計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例對(duì)本申請(qǐng)作進(jìn)一步的詳細(xì)說(shuō)明??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅僅用于解釋相關(guān)發(fā)明,而非對(duì)該發(fā)明的限定。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。

需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本申請(qǐng)。

圖1示出了可以應(yīng)用本申請(qǐng)的信息生成方法或信息生成裝置的示例性系統(tǒng)架構(gòu)100。

如圖1所示,系統(tǒng)架構(gòu)100可以包括終端設(shè)備101、102、103,網(wǎng)絡(luò)104和服務(wù)器105。網(wǎng)絡(luò)104用以在終端設(shè)備101、102、103和服務(wù)器105之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)104可以包括各種連接類型,例如有線、無(wú)線通信鏈路或者光纖電纜等等。

終端設(shè)備101、102、103通過(guò)網(wǎng)絡(luò)104與服務(wù)器105交互,以接收或發(fā)送消息等。終端設(shè)備101、102、103上可以安裝有各種通訊客戶端應(yīng)用,例如文本編輯類應(yīng)用、瀏覽器類應(yīng)用、閱讀類應(yīng)用等。

終端設(shè)備101、102、103可以是具有顯示屏并且支持瀏覽文本的各種電子設(shè)備,包括但不限于智能手機(jī)、平板電腦、電子書(shū)閱讀器、膝上型便攜計(jì)算機(jī)和臺(tái)式計(jì)算機(jī)等等。

服務(wù)器105可以是提供各種服務(wù)的服務(wù)器,例如為終端設(shè)備101、102、103上所存儲(chǔ)的待處理文本提供各種文本處理服務(wù)的處理服務(wù)器。處理服務(wù)器可以對(duì)待處理文本進(jìn)行分割、解析等處理,并生成處理結(jié)果。

需要說(shuō)明的是,上述待處理文本也可以直接存儲(chǔ)在服務(wù)器105的本地,服務(wù)器105可以直接提取本地所存儲(chǔ)的待校驗(yàn)的文本并進(jìn)行處理,此時(shí),可以不存在終端設(shè)備101、102、103和網(wǎng)絡(luò)104。

需要說(shuō)明的是,本申請(qǐng)實(shí)施例所提供的信息生成方法一般由服務(wù)器105執(zhí)行,相應(yīng)地,信息生成裝置一般設(shè)置于服務(wù)器105中。

應(yīng)該理解,圖1中的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器的數(shù)目?jī)H僅是示意性的。根據(jù)實(shí)現(xiàn)需要,可以具有任意數(shù)目的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器。

繼續(xù)參考圖2,示出了根據(jù)本申請(qǐng)的信息生成方法的一個(gè)實(shí)施例的流程200。所述的信息生成方法,包括以下步驟:

步驟201,對(duì)待處理文本進(jìn)行逐字分割以得到字序列。

在本實(shí)施例中,信息生成方法運(yùn)行于其上的電子設(shè)備(例如圖1所示的服務(wù)器105)可以首先提取待處理文本。其中,上述待處理文本可以是預(yù)先存儲(chǔ)在上述電子設(shè)備中的、技術(shù)人員所預(yù)先指定的文本,上述電子設(shè)備可以直接提取本地所預(yù)先存儲(chǔ)的上述文本。另外,上述待處理文本也可以是上述電子設(shè)備通過(guò)有線連接方式或者無(wú)線連接方式從客戶端(例如圖1所示的終端設(shè)備101、102、103)所接收的文本。實(shí)踐中,上述客戶端可以向上述電子設(shè)備發(fā)送包含上述待處理文本的解析請(qǐng)求,上述電子設(shè)備接收到該解析請(qǐng)求后,可以提取該解析請(qǐng)求中所包含的待處理文本。需要說(shuō)明的是,上述待處理文本可以是各種文字信息,例如句子、段落或者篇章等。需要指出的是,上述無(wú)線連接方式可以包括但不限于3g/4g連接、wifi連接、藍(lán)牙連接、wimax連接、zigbee連接、uwb(ultrawideband)連接、以及其他現(xiàn)在已知或?qū)?lái)開(kāi)發(fā)的無(wú)線連接方式。

在本實(shí)施例中,上述電子設(shè)備可以對(duì)上述待處理文本進(jìn)行逐字分割以得到字序列。作為示例,上述待處理文本的內(nèi)容為“香格里拉最好的小吃是什么?”。上述電子設(shè)備可以對(duì)該待處理文本逐字分割,依次得到由以下各個(gè)字:“香”、“格”、“里”、“拉”、“最”、“好”、“的”、“小”、“吃”、“是”、“什”、“么”、“?”所構(gòu)成的字序列。

步驟202,確定字序列中的各個(gè)字的字向量,以生成字向量序列。

在本實(shí)施例中,上述電子設(shè)備可以利用各種字向量生成方法確定上述字序列中的各個(gè)字的字向量,以生成字向量序列。其中,每一個(gè)字向量在上述字向量序列中的次序和與該字向量相對(duì)應(yīng)的字在上述字序列中的順序一致。需要說(shuō)明的是,字向量可以是用于表示字的特征的向量,字向量的每一維的值可以代表一個(gè)具有一定的語(yǔ)義和語(yǔ)法上解釋的特征。其中,特征可以是用于對(duì)字的基本要素(例如偏旁、部首、筆畫(huà)、含義等)進(jìn)行表征的各種信息。作為示例,上述電子設(shè)備中可以預(yù)先存儲(chǔ)漢字內(nèi)碼擴(kuò)展規(guī)范(chineseinternalcodespecification,gbk)中所包含的21886個(gè)漢字和圖形符號(hào)與字向量的對(duì)應(yīng)關(guān)系表,各個(gè)字向量可以具有相同的維數(shù)。對(duì)于上述字序列中的每一個(gè)字,上述電子設(shè)備可以從上述對(duì)應(yīng)關(guān)系表中查找到該字所對(duì)應(yīng)的字向量。此處,每一個(gè)字和圖形符號(hào)的字向量可以是利用機(jī)器學(xué)習(xí)方法進(jìn)行對(duì)神經(jīng)網(wǎng)絡(luò)的有監(jiān)督的訓(xùn)練而預(yù)先訓(xùn)練得到的,或者是技術(shù)人員基于大量數(shù)據(jù)統(tǒng)計(jì)而預(yù)先設(shè)置的。需要說(shuō)明的是,上述字向量生成方法是目前廣泛研究和應(yīng)用的公知技術(shù),在此不再贅述。

步驟203,基于預(yù)設(shè)詞表分割字向量序列,以生成多個(gè)字向量子序列。

在本實(shí)施例中,上述電子設(shè)備中可以預(yù)先存儲(chǔ)有預(yù)設(shè)詞表,上述預(yù)設(shè)詞表可以是預(yù)先基于對(duì)大量的語(yǔ)料進(jìn)行統(tǒng)計(jì)、分詞后得到的詞表。上述預(yù)設(shè)詞表中可以包含大量的以詞語(yǔ)為鍵(key)、以組成詞語(yǔ)的字的字序列為值(value)的鍵值對(duì)形式的記錄。作為示例,某條記錄的鍵為“北京”,值為“北”、“京”。

在本實(shí)施例中,上述電子設(shè)備可以基于上述預(yù)設(shè)詞表對(duì)上述字向量序列進(jìn)行分割,以生成多個(gè)字向量子序列。具體的,上述電子設(shè)備可以首先將上述預(yù)設(shè)詞表中構(gòu)成每條記錄的詞語(yǔ)與上述待處理文本進(jìn)行匹配,繼而基于匹配到的詞對(duì)上述待處理文本進(jìn)行分詞。之后,上述電子設(shè)備可以從上述預(yù)設(shè)詞表中查詢與所分割后的各個(gè)詞相對(duì)應(yīng)的字序列。然后,對(duì)于所分割后的每一個(gè)詞所對(duì)應(yīng)的字序列,上述電子設(shè)備可以確定上述字向量序列中相應(yīng)的字向量,從而將上述字向量序列分割為多個(gè)字向量子序列。作為示例,上述待處理文本為“北京是中國(guó)的首都”,分詞后得到以下各個(gè)詞:“北京”、“是”、“中國(guó)”、“的”、“首都”。與詞“北京”相對(duì)應(yīng)的字序列為“北”、“京”,上述電子可以將上述字向量序列中“北”、“京”所對(duì)應(yīng)的字向量劃分為一個(gè)字向量子序列;與“是”相對(duì)應(yīng)的字序列也為“是”,上述電子可以將上述字向量序列中“是”所對(duì)應(yīng)的字向量作為一個(gè)字向量子序列。以此類推,得到多個(gè)字向量子序列。

步驟204,對(duì)于所生成的每一個(gè)字向量子序列,將組成該字向量子序列的各個(gè)字向量的和確定為目標(biāo)向量,將目標(biāo)向量輸入至預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò),得到與該字向量子序列相對(duì)應(yīng)的詞向量。

在本實(shí)施例中,對(duì)于所生成的每一個(gè)字向量子序列,上述電子設(shè)備可以將組成該字向量子序列的各個(gè)字向量的和確定為目標(biāo)向量,將上述目標(biāo)向量輸入至預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò),得到與該字向量子序列相對(duì)應(yīng)的詞向量,其中,上述第一神經(jīng)網(wǎng)絡(luò)可以用于表征目標(biāo)向量與詞向量的對(duì)應(yīng)關(guān)系。實(shí)踐中,神經(jīng)網(wǎng)絡(luò)(neuralnetworks,nns)也可以稱為連接模型(connectionmodel)。神經(jīng)網(wǎng)絡(luò)是一種運(yùn)算模型,由大量的節(jié)點(diǎn)(也稱為神經(jīng)元)之間相互聯(lián)接構(gòu)成。每個(gè)節(jié)點(diǎn)代表一種特定的輸出函數(shù),稱為激勵(lì)函數(shù)(activationfunction),也可稱為激活函數(shù)。此處,上述預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)的神經(jīng)元可以使用任意的非線性激活函數(shù)(例如,sigmoid函數(shù)、softplus函數(shù)、雙極性sigmoid函數(shù)等)對(duì)所輸入的目標(biāo)向量進(jìn)行計(jì)算,所輸出的向量即為與該字向量子序列相對(duì)應(yīng)的詞向量。上述電子設(shè)備可以預(yù)先對(duì)上述非線性激活函數(shù)進(jìn)行有監(jiān)督的訓(xùn)練得到上述第一神經(jīng)網(wǎng)絡(luò)。

在本實(shí)施例的一些可選的實(shí)現(xiàn)方式中,上述第一神經(jīng)網(wǎng)絡(luò)可以通過(guò)以下步驟訓(xùn)練得到:首先,可以提取預(yù)設(shè)的第一訓(xùn)練樣本,其中,上述第一訓(xùn)練樣本包括多個(gè)第一預(yù)設(shè)詞和上述多個(gè)第一預(yù)設(shè)詞中的各個(gè)第一預(yù)設(shè)詞的詞向量。之后,對(duì)于上述第一訓(xùn)練樣本中的每一個(gè)第一預(yù)設(shè)詞,確定組成該第一預(yù)設(shè)詞的各個(gè)字的字向量,以生成與該第一預(yù)設(shè)詞相對(duì)應(yīng)的字向量序列。之后,可以利用機(jī)器學(xué)習(xí)方法,將與第一預(yù)設(shè)詞相對(duì)應(yīng)的字向量序列作為輸入,將上述第一訓(xùn)練樣本中的、第一預(yù)設(shè)詞的詞向量作為輸出,訓(xùn)練非線性激活函數(shù)(例如tanh函數(shù))得到第一神經(jīng)網(wǎng)絡(luò)。

步驟205,基于所得到的詞向量,對(duì)待處理文本進(jìn)行解析,生成解析結(jié)果。

在本實(shí)施例中,上述電子設(shè)備可以基于所得到的詞向量,利用各種解析方法對(duì)上述待處理文本進(jìn)行解析,生成解析結(jié)果。需要說(shuō)明的是,上述電子設(shè)備可以執(zhí)行各種需要利用詞向量的自然語(yǔ)言處理,可以包括但不限于對(duì)文本進(jìn)行情感分詞、相似性分析、垃圾郵件識(shí)別、機(jī)器翻譯、自動(dòng)問(wèn)答等。作為示例,上述電子設(shè)備可以確定所得到的詞向量中是否包含與預(yù)設(shè)詞向量(例如用于表征“開(kāi)心”或“傷心”等情感類詞語(yǔ)的詞向量)相同或相似度大于預(yù)設(shè)的相似度閾值(可以是任意數(shù)值,例如0.5、0.8等)的詞向量,并基于與該預(yù)設(shè)詞向量的匹配情況,確定上述待處理文本的情感類型。其中,上述電子設(shè)備可以利用各種相似度計(jì)算方法(例如余弦相似度算法、歐式距離算法、杰卡德相似性度量方法等)計(jì)算所得到的各個(gè)詞向量與該預(yù)設(shè)詞向量的相似度。

在本實(shí)施例的一些可選的實(shí)現(xiàn)方式中,上述電子設(shè)備可以將所得到的各個(gè)詞向量輸入至預(yù)先訓(xùn)練的文本情感分析模型,得到與上述待處理文本相對(duì)應(yīng)的文本情感分析結(jié)果,其中,上述情感分析模型可以用于表征詞向量與文本情感分析結(jié)果的對(duì)應(yīng)關(guān)系。作為示例,情感分析模型可以是基于大量的訓(xùn)練樣本對(duì)支持向量機(jī)(supportvectormachine,svm)、詞袋模型(bagofwords)等現(xiàn)有的用于對(duì)文本情感分類的模型進(jìn)行有監(jiān)督訓(xùn)練后得到的,其中,訓(xùn)練樣本可以包含組成用于訓(xùn)練的文本的各個(gè)詞的詞向量和用于指示該文本的情感類型的情感類型標(biāo)識(shí)。

在本實(shí)施例的一些可選的實(shí)現(xiàn)方式中,上述電子設(shè)備可以按照字向量子序列在字向量中的先后順序,依次提取與各個(gè)字向量子序列相對(duì)應(yīng)的詞向量,以生成詞向量序列;而后,可以將上述詞向量序列與預(yù)先生成的、與預(yù)設(shè)文本相對(duì)應(yīng)的詞向量序列分別輸入至預(yù)先訓(xùn)練的相似度計(jì)算模型,得到上述待處理文本與上述預(yù)設(shè)文本的相似度計(jì)算結(jié)果,其中,上述相似度計(jì)算模型可以用于表征與多個(gè)文本相對(duì)應(yīng)的詞向量序列與上述多個(gè)文本的相似度計(jì)算結(jié)果的對(duì)應(yīng)關(guān)系。作為示例,上述相似度計(jì)算模型可以是基于訓(xùn)練樣本對(duì)詞袋模型(bagofwords)、卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,cnn)等現(xiàn)有的用于對(duì)文本進(jìn)行相似度計(jì)算的模型進(jìn)行有監(jiān)督訓(xùn)練后得到的,其中,訓(xùn)練樣本可以包含組成用于訓(xùn)練的兩文本的各個(gè)詞的詞向量和用于指示上述兩文本是否相似的標(biāo)識(shí)。

繼續(xù)參見(jiàn)圖3,圖3是根據(jù)本實(shí)施例的信息生成方法的應(yīng)用場(chǎng)景的一個(gè)示意圖。在圖3的應(yīng)用場(chǎng)景中,待處理文本302為“我很開(kāi)心”。服務(wù)器301首先對(duì)待處理文本302進(jìn)行逐字分割以得到由“我”、“很”、“開(kāi)”、“心”構(gòu)成的字序列303。之后,服務(wù)器301確定字序列303中的各個(gè)字的字向量以生成字向量序列304。之后,服務(wù)器301基于預(yù)設(shè)詞表分割字向量序列304,生成多個(gè)字向量子序列305,即,“我”對(duì)應(yīng)一個(gè)字向量子序列,“很”對(duì)應(yīng)一個(gè)字向量子序列,“開(kāi)”、“心”對(duì)應(yīng)一個(gè)字向量子序列。然后,服務(wù)器301基于預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)得到與字向量子序列305相對(duì)應(yīng)的詞向量306。最后,服務(wù)器301基于詞向量306對(duì)待處理文本302進(jìn)行情感分析,得到指示待處理文本302的情感類型為開(kāi)心情感的解析結(jié)果307。

本申請(qǐng)的上述實(shí)施例提供的方法通過(guò)對(duì)待處理文本進(jìn)行逐字分割以得到字序列,以便確定上述字序列中的各個(gè)字的字向量,以生成字向量序列,而后基于預(yù)設(shè)詞表分割上述字向量序列,以生成多個(gè)字向量子序列,之后基于預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)得到與各字向量子序列相對(duì)應(yīng)的詞向量,最后基于所得到的詞向量,對(duì)上述待處理文本進(jìn)行解析,生成解析結(jié)果,從而可以實(shí)現(xiàn)基于字向量生成詞向量,由于中文單個(gè)漢字的數(shù)量遠(yuǎn)小于詞匯的數(shù)量,且詞向量可以通過(guò)預(yù)先訓(xùn)練的神經(jīng)網(wǎng)絡(luò)自動(dòng)生成,不需要占據(jù)靜態(tài)存儲(chǔ)空間,因而可以降低對(duì)運(yùn)算設(shè)備的物理存儲(chǔ)、網(wǎng)絡(luò)傳輸、內(nèi)存等性能的要求,提高了文本處理的適應(yīng)性。

進(jìn)一步參考圖4,其示出了信息生成方法的又一個(gè)實(shí)施例的流程400。該信息生成方法的流程400,包括以下步驟:

步驟401,對(duì)待處理文本進(jìn)行逐字分割以得到字序列。

在本實(shí)施例中,信息生成方法運(yùn)行于其上的電子設(shè)備(例如圖1所示的服務(wù)器105)可以首先提取待處理文本,而后,可以對(duì)上述待處理文本進(jìn)行逐字分割以得到字序列。

步驟402,確定字序列中的各個(gè)字的字向量,以生成字向量序列。

在本實(shí)施例中,上述電子設(shè)備中可以預(yù)先存儲(chǔ)漢字內(nèi)碼擴(kuò)展規(guī)范中所包含的各個(gè)漢字和圖形符號(hào)與相應(yīng)的字向量的對(duì)應(yīng)關(guān)系表,各個(gè)字向量可以具有相同的維數(shù)。對(duì)于上述字序列中的每一個(gè)字,上述電子設(shè)備可以從上述對(duì)應(yīng)關(guān)系表中查找到該字所對(duì)應(yīng)的字向量,以生成字向量序列。其中,每一個(gè)字向量在上述字向量序列中的次序和與該字向量相對(duì)應(yīng)的字在上述字序列中的順序一致。

步驟403,基于預(yù)設(shè)詞表分割字向量序列,以生成多個(gè)字向量子序列。

在本實(shí)施例中,上述電子設(shè)備中可以預(yù)先存儲(chǔ)有預(yù)設(shè)詞表,上述預(yù)設(shè)詞表可以是預(yù)先基于對(duì)大量的語(yǔ)料進(jìn)行統(tǒng)計(jì)、分詞后得到的詞表。上述預(yù)設(shè)詞表中可以包含以詞語(yǔ)為鍵、以組成詞語(yǔ)的字的字序列為值的大量的鍵值對(duì)形式的記錄。上述電子設(shè)備可以基于上述預(yù)設(shè)詞表對(duì)上述字向量序列進(jìn)行分割,以生成多個(gè)字向量子序列。具體的,上述電子設(shè)備可以首先將上述預(yù)設(shè)詞表中構(gòu)成每條記錄的詞語(yǔ)與上述待處理文本進(jìn)行匹配,繼而基于匹配到的詞對(duì)上述待處理文本進(jìn)行分詞。之后,上述電子設(shè)備可以從上述預(yù)設(shè)詞表中查詢與所分割后的各個(gè)詞相對(duì)應(yīng)的字序列。然后,對(duì)于所分割后的每一個(gè)詞所對(duì)應(yīng)的字序列,上述電子設(shè)備可以確定上述字向量序列中相應(yīng)的字向量,從而將上述字向量序列分割為多個(gè)字向量子序列。

步驟404,對(duì)于所生成的每一個(gè)字向量子序列,將組成該字向量子序列的各個(gè)字向量的和確定為目標(biāo)向量,將目標(biāo)向量輸入至預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò),得到與該字向量子序列相對(duì)應(yīng)的詞向量。

在本實(shí)施例中,對(duì)于所生成的每一個(gè)字向量子序列,上述電子設(shè)備可以將組成該字向量子序列的各個(gè)字向量的和確定為目標(biāo)向量,將上述目標(biāo)向量輸入至預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò),得到與該字向量子序列相對(duì)應(yīng)的詞向量,其中,上述第一神經(jīng)網(wǎng)絡(luò)可以用于表征目標(biāo)向量與詞向量的對(duì)應(yīng)關(guān)系。

需要說(shuō)明的是,上述步驟401-404的操作與上述步驟201-204的操作基本相同,在此不再贅述。

步驟405,對(duì)于每一個(gè)字向量子序列,上述電子設(shè)備可以將所得到的、與該字向量子序列相對(duì)應(yīng)的詞向量輸入至預(yù)先訓(xùn)練的第二神經(jīng)網(wǎng)絡(luò),將第二神經(jīng)網(wǎng)絡(luò)輸出的向量確定為與該字向量子序列相對(duì)應(yīng)的特征向量。

在本實(shí)施例中,對(duì)于每一個(gè)字向量子序列,將所得到的、與該字向量子序列相對(duì)應(yīng)的詞向量輸入至預(yù)先訓(xùn)練的第二神經(jīng)網(wǎng)絡(luò),將上述第二神經(jīng)網(wǎng)絡(luò)輸出的向量確定為與該字向量子序列相對(duì)應(yīng)的特征向量,其中,上述第二神經(jīng)網(wǎng)絡(luò)用于提取文本特征。此處,上述預(yù)先訓(xùn)練的第二神經(jīng)網(wǎng)絡(luò)可以是多層神經(jīng)網(wǎng)絡(luò),每一層的神經(jīng)元可以使用任意的非線性激活函數(shù)(例如,tanh函數(shù)、sigmoid函數(shù)等)對(duì)所輸入的向量進(jìn)行計(jì)算,輸出另一向量至下一層神經(jīng)元。此處,上述預(yù)先訓(xùn)練的第二神經(jīng)網(wǎng)絡(luò)可以使用現(xiàn)有的殘差網(wǎng)絡(luò)(residualnetwork,resnet)、全連接網(wǎng)絡(luò)(fullconnectednetwork,fcn)、多層感知器(multi-layerperceptrons,mlp)等結(jié)構(gòu)進(jìn)行有監(jiān)督的訓(xùn)練得到。

在本實(shí)施例的一些可選的實(shí)現(xiàn)方式中,上述第二神經(jīng)網(wǎng)絡(luò)可以通過(guò)以下步驟訓(xùn)練得到:首先,可以提取預(yù)設(shè)的第二訓(xùn)練樣本,其中,上述第二訓(xùn)練樣本可以包括多個(gè)第二預(yù)設(shè)詞和上述多個(gè)第二預(yù)設(shè)詞中的各個(gè)第二預(yù)設(shè)詞的詞向量。而后,對(duì)于上述第二訓(xùn)練樣本中的每一個(gè)第二預(yù)設(shè)詞,可以確定組成該第二預(yù)設(shè)詞的各個(gè)字的字向量,以生成與該第二預(yù)設(shè)詞相對(duì)應(yīng)的字向量序列;之后,將與上述第二訓(xùn)練樣本中的每一個(gè)第二預(yù)設(shè)詞相對(duì)應(yīng)的字向量序列輸入至上述第一神經(jīng)網(wǎng)絡(luò),將上述第一神經(jīng)網(wǎng)絡(luò)輸出的向量確定為與該第二預(yù)設(shè)詞相對(duì)應(yīng)的中間向量;最后,可以利用機(jī)器學(xué)習(xí)方法,將與第二預(yù)設(shè)詞相對(duì)應(yīng)的中間向量序列作為輸入,將上述第二訓(xùn)練樣、第二預(yù)設(shè)詞的詞向量作為輸出,使用現(xiàn)有的深度殘差網(wǎng)絡(luò)(deepresidualnetwork,deepresnet)進(jìn)行訓(xùn)練得到第二神經(jīng)網(wǎng)絡(luò)。實(shí)踐中,可以利用反向傳播算法確定第二神經(jīng)網(wǎng)絡(luò)中各個(gè)參數(shù)。

步驟406,將與每一個(gè)字向量子序列相對(duì)應(yīng)的詞向量替換為與該字向量子序列相對(duì)應(yīng)的特征向量。

在本實(shí)施例中,上述電子設(shè)備可以將與每一個(gè)字向量子序列相對(duì)應(yīng)的詞向量替換為與該字向量子序列相對(duì)應(yīng)的特征向量。

步驟407,基于所得到的詞向量,對(duì)待處理文本進(jìn)行解析,生成解析結(jié)果。

在本實(shí)施例中,上述電子設(shè)備可以基于所得到的詞向量,利用各種解析方法對(duì)上述待處理文本進(jìn)行解析,生成解析結(jié)果。需要說(shuō)明的是,上述電子設(shè)備可以執(zhí)行各種需要利用詞向量的自然語(yǔ)言處理,可以包括但不限于對(duì)文本進(jìn)行情感分詞、相似性分析、垃圾郵件識(shí)別、機(jī)器翻譯、自動(dòng)問(wèn)答等。

需要說(shuō)明的是,上述步驟407的操作與上述步驟205的操作基本相同,在此不再贅述。

從圖4中可以看出,與圖2對(duì)應(yīng)的實(shí)施例相比,本實(shí)施例中的信息生成方法的流程400突出了將得到的詞向量輸入至第二神經(jīng)網(wǎng)絡(luò),并進(jìn)行替換的步驟。由此,本實(shí)施例描述的方案可以進(jìn)一步對(duì)從第一神經(jīng)網(wǎng)絡(luò)輸出的詞向量進(jìn)行分析以優(yōu)化詞向量,提高了文本處理的準(zhǔn)確性。

進(jìn)一步參考圖5,作為對(duì)上述各圖所示方法的實(shí)現(xiàn),本申請(qǐng)?zhí)峁┝艘环N文本處理裝置的一個(gè)實(shí)施例,該裝置實(shí)施例與圖2所示的方法實(shí)施例相對(duì)應(yīng),該裝置具體可以應(yīng)用于各種電子設(shè)備中。

如圖5所示,本實(shí)施例上述的文本處理裝置500包括:分割單元501,配置用于對(duì)待處理文本進(jìn)行逐字分割以得到字序列;第一確定單元502,配置用于確定上述字序列中的各個(gè)字的字向量,以生成字向量序列;生成單元503,配置用于基于預(yù)設(shè)詞表分割上述字向量序列,以生成多個(gè)字向量子序列;第一輸入單元504,配置用于對(duì)于所生成的每一個(gè)字向量子序列,將組成該字向量子序列的各個(gè)字向量的和確定為目標(biāo)向量,將上述目標(biāo)向量輸入至預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò),得到與該字向量子序列相對(duì)應(yīng)的詞向量,其中上述第一神經(jīng)網(wǎng)絡(luò)用于表征目標(biāo)向量與詞向量的對(duì)應(yīng)關(guān)系;解析單元505,配置用于基于所得到的詞向量,對(duì)上述待處理文本進(jìn)行解析,生成解析結(jié)果。

在本實(shí)施例中,上述分割單元501可以首先提取待處理文本,而后,可以對(duì)上述待處理文本進(jìn)行逐字分割以得到字序列。

在本實(shí)施例中,上述文本處理裝置500中可以預(yù)先存儲(chǔ)漢字內(nèi)碼擴(kuò)展規(guī)范中所包含的各個(gè)漢字和圖形符號(hào)與相應(yīng)的字向量的對(duì)應(yīng)關(guān)系表,各個(gè)字向量可以具有相同的維數(shù)。對(duì)于上述字序列中的每一個(gè)字,上述第一確定單元502可以從上述對(duì)應(yīng)關(guān)系表中查找到該字所對(duì)應(yīng)的字向量,以生成字向量序列。其中,每一個(gè)字向量在上述字向量序列中的次序和與該字向量相對(duì)應(yīng)的字在上述字序列中的順序一致。

在本實(shí)施例中,上述文本處理裝置500中可以預(yù)先存儲(chǔ)有預(yù)設(shè)詞表,上述預(yù)設(shè)詞表可以是預(yù)先基于對(duì)大量的語(yǔ)料進(jìn)行統(tǒng)計(jì)、分詞后得到的詞表。上述預(yù)設(shè)詞表中可以包含以詞語(yǔ)為鍵、以組成詞語(yǔ)的字的字序列為值的大量的鍵值對(duì)形式的記錄。上述生成單元503可以基于上述預(yù)設(shè)詞表對(duì)上述字向量序列進(jìn)行分割,以生成多個(gè)字向量子序列。具體的,可以首先將上述預(yù)設(shè)詞表中構(gòu)成每條記錄的詞語(yǔ)與上述待處理文本進(jìn)行匹配,繼而基于匹配到的詞對(duì)上述待處理文本進(jìn)行分詞。之后,可以從上述預(yù)設(shè)詞表中查詢與所分割后的各個(gè)詞相對(duì)應(yīng)的字序列。然后,對(duì)于所分割后的每一個(gè)詞所對(duì)應(yīng)的字序列,可以確定上述字向量序列中相應(yīng)的字向量,從而將上述字向量序列分割為多個(gè)字向量子序列。

在本實(shí)施例中,對(duì)于所生成的每一個(gè)字向量子序列,上述第一輸入單元504可以將組成該字向量子序列的各個(gè)字向量的和確定為目標(biāo)向量,將上述目標(biāo)向量輸入至預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò),得到與該字向量子序列相對(duì)應(yīng)的詞向量,其中,上述第一神經(jīng)網(wǎng)絡(luò)可以用于表征目標(biāo)向量與詞向量的對(duì)應(yīng)關(guān)系。

在本實(shí)施例的一些可選的實(shí)現(xiàn)方式中,上述文本處理裝置500還可以包括第二輸入單元和替換單元(圖中未示出)。其中,上述第二輸入單元,配置用于對(duì)于每一個(gè)字向量子序列,將所得到的、與該字向量子序列相對(duì)應(yīng)的詞向量輸入至預(yù)先訓(xùn)練的第二神經(jīng)網(wǎng)絡(luò),將上述第二神經(jīng)網(wǎng)絡(luò)輸出的向量確定為與該字向量子序列相對(duì)應(yīng)的特征向量,其中,上述第二神經(jīng)網(wǎng)絡(luò)用于提取文本特征。上述替換單元可以配置用于將與每一個(gè)字向量子序列相對(duì)應(yīng)的詞向量替換為與該字向量子序列相對(duì)應(yīng)的特征向量。

在本實(shí)施例的一些可選的實(shí)現(xiàn)方式中,上述解析單元可以進(jìn)一步配置用于將所得到的詞向量輸入至預(yù)先訓(xùn)練的文本情感分析模型,得到與上述待處理文本相對(duì)應(yīng)的文本情感分析結(jié)果,其中,上述情感分析模型用于表征詞向量與文本情感分析結(jié)果的對(duì)應(yīng)關(guān)系。

在本實(shí)施例的一些可選的實(shí)現(xiàn)方式中,上述解析單元可以進(jìn)一步配置用于按照字向量子序列在字向量中的先后順序,依次提取與各個(gè)字向量子序列相對(duì)應(yīng)的詞向量,以生成詞向量序列;將上述詞向量序列與預(yù)先生成的、與預(yù)設(shè)文本相對(duì)應(yīng)的詞向量序列分別輸入至預(yù)先訓(xùn)練的相似度計(jì)算模型,得到上述待處理文本與上述預(yù)設(shè)文本的相似度計(jì)算結(jié)果,其中,上述相似度計(jì)算模型用于表征與多個(gè)文本相對(duì)應(yīng)的詞向量序列與上述多個(gè)文本的相似度計(jì)算結(jié)果的對(duì)應(yīng)關(guān)系。

在本實(shí)施例的一些可選的實(shí)現(xiàn)方式中,上述文本處理裝置500還可以包括第一提取單元、第二確定單元和第一訓(xùn)練單元(圖中未示出)。其中,上述第一提取單元可以配置用于提取預(yù)設(shè)的第一訓(xùn)練樣本,其中,上述第一訓(xùn)練樣本包括多個(gè)第一預(yù)設(shè)詞和上述多個(gè)第一預(yù)設(shè)詞中的各個(gè)第一預(yù)設(shè)詞的詞向量。上述第二確定單元可以配置用于對(duì)于上述第一訓(xùn)練樣本中的每一個(gè)第一預(yù)設(shè)詞,確定組成該第一預(yù)設(shè)詞的各個(gè)字的字向量,以生成與該第一預(yù)設(shè)詞相對(duì)應(yīng)的字向量序列。上述第一訓(xùn)練單元可以配置用于利用機(jī)器學(xué)習(xí)方法,將與第一預(yù)設(shè)詞相對(duì)應(yīng)的字向量序列作為輸入,將上述第一訓(xùn)練樣本中的、第一預(yù)設(shè)詞的詞向量作為輸出,訓(xùn)練得到第一神經(jīng)網(wǎng)絡(luò)。

在本實(shí)施例的一些可選的實(shí)現(xiàn)方式中,上述文本處理裝置500還可以包括第二提取單元、第三確定單元、第三輸入單元和第二訓(xùn)練單元(圖中未示出)。其中,上述第二提取單元可以配置用于提取預(yù)設(shè)的第二訓(xùn)練樣本,其中,上述第二訓(xùn)練樣本包括多個(gè)第二預(yù)設(shè)詞和上述多個(gè)第二預(yù)設(shè)詞中的各個(gè)第二預(yù)設(shè)詞的詞向量。上述第三確定單元可以配置用于對(duì)于上述第二訓(xùn)練樣本中的每一個(gè)第二預(yù)設(shè)詞,確定組成該第二預(yù)設(shè)詞的各個(gè)字的字向量,以生成與該第二預(yù)設(shè)詞相對(duì)應(yīng)的字向量序列。上述第三輸入單元可以配置用于將與上述第二訓(xùn)練樣本中的每一個(gè)第二預(yù)設(shè)詞相對(duì)應(yīng)的字向量序列輸入至上述第一神經(jīng)網(wǎng)絡(luò),將上述第一神經(jīng)網(wǎng)絡(luò)輸出的向量確定為與該第二預(yù)設(shè)詞相對(duì)應(yīng)的中間向量。上述第二訓(xùn)練單元可以配置用于利用機(jī)器學(xué)習(xí)方法,將與第二預(yù)設(shè)詞相對(duì)應(yīng)的中間向量序列作為輸入,將上述第二訓(xùn)練樣、第二預(yù)設(shè)詞的詞向量作為輸出,訓(xùn)練得到第二神經(jīng)網(wǎng)絡(luò)。

本申請(qǐng)的上述實(shí)施例提供的裝置,通過(guò)分割單元501對(duì)待處理文本進(jìn)行逐字分割以得到字序列,以便第一確定單元502確定上述字序列中的各個(gè)字的字向量,以生成字向量序列,而后生成單元503基于預(yù)設(shè)詞表分割上述字向量序列,以生成多個(gè)字向量子序列,之后第一輸入單元504基于預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò)得到與各字向量子序列相對(duì)應(yīng)的詞向量,最后解析單元505基于所得到的詞向量,對(duì)上述待處理文本進(jìn)行解析,生成解析結(jié)果,從而可以實(shí)現(xiàn)基于字向量生成詞向量,由于中文單個(gè)漢字的數(shù)量遠(yuǎn)小于詞匯的數(shù)量,且詞向量可以通過(guò)預(yù)先訓(xùn)練的神經(jīng)網(wǎng)絡(luò)自動(dòng)生成,不需要占據(jù)靜態(tài)存儲(chǔ)空間,因而可以降低對(duì)運(yùn)算設(shè)備的物理存儲(chǔ)、網(wǎng)絡(luò)傳輸、內(nèi)存等性能的要求,提高了文本處理的適應(yīng)性。

下面參考圖6,其示出了適于用來(lái)實(shí)現(xiàn)本申請(qǐng)實(shí)施例的服務(wù)器的計(jì)算機(jī)系統(tǒng)600的結(jié)構(gòu)示意圖。圖6示出的服務(wù)器僅僅是一個(gè)示例,不應(yīng)對(duì)本申請(qǐng)實(shí)施例的功能和使用范圍帶來(lái)任何限制。

如圖6所示,計(jì)算機(jī)系統(tǒng)600包括中央處理單元(cpu)601,其可以根據(jù)存儲(chǔ)在只讀存儲(chǔ)器(rom)602中的程序或者從存儲(chǔ)部分608加載到隨機(jī)訪問(wèn)存儲(chǔ)器(ram)603中的程序而執(zhí)行各種適當(dāng)?shù)膭?dòng)作和處理。在ram603中,還存儲(chǔ)有系統(tǒng)600操作所需的各種程序和數(shù)據(jù)。cpu601、rom602以及ram603通過(guò)總線604彼此相連。輸入/輸出(i/o)接口605也連接至總線604。

以下部件連接至i/o接口605:包括鍵盤(pán)、鼠標(biāo)等的輸入部分606;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚(yáng)聲器等的輸出部分607;包括硬盤(pán)等的存儲(chǔ)部分608;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分609。通信部分609經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動(dòng)器610也根據(jù)需要連接至i/o接口605??刹鹦督橘|(zhì)611,諸如磁盤(pán)、光盤(pán)、磁光盤(pán)、半導(dǎo)體存儲(chǔ)器等等,根據(jù)需要安裝在驅(qū)動(dòng)器610上,以便于從其上讀出的計(jì)算機(jī)程序根據(jù)需要被安裝入存儲(chǔ)部分608。

特別地,根據(jù)本公開(kāi)的實(shí)施例,上文參考流程圖描述的過(guò)程可以被實(shí)現(xiàn)為計(jì)算機(jī)軟件程序。例如,本公開(kāi)的實(shí)施例包括一種計(jì)算機(jī)程序產(chǎn)品,其包括承載在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序,該計(jì)算機(jī)程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實(shí)施例中,該計(jì)算機(jī)程序可以通過(guò)通信部分609從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)611被安裝。在該計(jì)算機(jī)程序被中央處理單元(cpu)601執(zhí)行時(shí),執(zhí)行本申請(qǐng)的方法中限定的上述功能。需要說(shuō)明的是,本申請(qǐng)所述的計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)或者是上述兩者的任意組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子可以包括但不限于:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤(pán)、硬盤(pán)、隨機(jī)訪問(wèn)存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊磁盤(pán)只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本申請(qǐng)中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本申請(qǐng)中,計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括但不限于電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于:無(wú)線、電線、光纜、rf等等,或者上述的任意合適的組合。

附圖中的流程圖和框圖,圖示了按照本申請(qǐng)各種實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段、或代碼的一部分,該模塊、程序段、或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來(lái)實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來(lái)實(shí)現(xiàn)。

描述于本申請(qǐng)實(shí)施例中所涉及到的單元可以通過(guò)軟件的方式實(shí)現(xiàn),也可以通過(guò)硬件的方式來(lái)實(shí)現(xiàn)。所描述的單元也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括分割單元、第一確定單元、第一輸入單元和解析單元。其中,這些單元的名稱在某種情況下并不構(gòu)成對(duì)該單元本身的限定,例如,分割單元還可以被描述為“對(duì)待處理文本進(jìn)行逐字分割的單元”。

作為另一方面,本申請(qǐng)還提供了一種計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以是上述實(shí)施例中描述的裝置中所包含的;也可以是單獨(dú)存在,而未裝配入該裝置中。上述計(jì)算機(jī)可讀介質(zhì)承載有一個(gè)或者多個(gè)程序,當(dāng)上述一個(gè)或者多個(gè)程序被該裝置執(zhí)行時(shí),使得該裝置:對(duì)待處理文本進(jìn)行逐字分割以得到字序列;確定該字序列中的各個(gè)字的字向量,以生成字向量序列;基于預(yù)設(shè)詞表分割該字向量序列,以生成多個(gè)字向量子序列;對(duì)于所生成的每一個(gè)字向量子序列,將組成該字向量子序列的各個(gè)字向量的和確定為目標(biāo)向量,將該目標(biāo)向量輸入至預(yù)先訓(xùn)練的第一神經(jīng)網(wǎng)絡(luò),得到與該字向量子序列相對(duì)應(yīng)的詞向量,其中該第一神經(jīng)網(wǎng)絡(luò)用于表征目標(biāo)向量與詞向量的對(duì)應(yīng)關(guān)系;基于所得到的詞向量,對(duì)該待處理文本進(jìn)行解析,生成解析結(jié)果。

以上描述僅為本申請(qǐng)的較佳實(shí)施例以及對(duì)所運(yùn)用技術(shù)原理的說(shuō)明。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本申請(qǐng)中所涉及的發(fā)明范圍,并不限于上述技術(shù)特征的特定組合而成的技術(shù)方案,同時(shí)也應(yīng)涵蓋在不脫離上述發(fā)明構(gòu)思的情況下,由上述技術(shù)特征或其等同特征進(jìn)行任意組合而形成的其它技術(shù)方案。例如上述特征與本申請(qǐng)中公開(kāi)的(但不限于)具有類似功能的技術(shù)特征進(jìn)行互相替換而形成的技術(shù)方案。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1