命名實(shí)體識(shí)別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,尤其涉及一種命名實(shí)體識(shí)別方法和裝置。
【背景技術(shù)】
[0002]命名實(shí)體識(shí)別的主要任務(wù)是識(shí)別出文本中的人名、地名等專有名稱。傳統(tǒng)的命名實(shí)體識(shí)別方法主要分為基于規(guī)則詞典的方法和基于統(tǒng)計(jì)模型的方法?;谝?guī)則詞典的方法主要通過(guò)構(gòu)建線下大規(guī)模的實(shí)體詞典以字符串匹配的方式來(lái)進(jìn)行識(shí)別?;诮y(tǒng)計(jì)模型的方法主要是通過(guò)構(gòu)建統(tǒng)計(jì)模型,利用人工標(biāo)注的訓(xùn)練語(yǔ)料來(lái)訓(xùn)練模型從而進(jìn)行識(shí)別。但是,基于規(guī)則詞典的方式不能識(shí)別詞典之外的命名實(shí)體,并且即使在詞典內(nèi),基于規(guī)則詞典的方法無(wú)法解決命名實(shí)體歧義問(wèn)題?;诮y(tǒng)計(jì)模型的方法對(duì)沒(méi)有明顯特征的命名實(shí)體,如歌曲名、影視名等識(shí)別效果較差。
【發(fā)明內(nèi)容】
[0003]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。
[0004]為此,本發(fā)明的一個(gè)目的在于提出一種命名實(shí)體識(shí)別方法,該方法對(duì)存在歧義的命名實(shí)體以及特征不明顯的命名實(shí)體,也具有較好的識(shí)別效果。
[0005]本發(fā)明的另一個(gè)目的在于提出一種命名實(shí)體識(shí)別裝置。
[0006]為達(dá)到上述目的,本發(fā)明第一方面實(shí)施例提出的命名實(shí)體識(shí)別方法,包括:根據(jù)預(yù)設(shè)規(guī)則對(duì)待識(shí)別的文本進(jìn)行預(yù)識(shí)別,得到識(shí)別出的初始命名實(shí)體,所述預(yù)設(shè)規(guī)則包括:基于規(guī)則詞典和基于統(tǒng)計(jì)模型;確定所述待識(shí)別的文本所屬的類別;根據(jù)所述類別和所述初始命名實(shí)體,得到組合文本,并根據(jù)所述組合文本確定最終的命名實(shí)體。
[0007]本發(fā)明第一方面實(shí)施例提出的命名實(shí)體識(shí)別方法,通過(guò)預(yù)識(shí)別時(shí)采用基于規(guī)則詞典和基于統(tǒng)計(jì)模型的方式,可以擴(kuò)大初始命名實(shí)體的范圍,解決單純采用基于統(tǒng)計(jì)模型的方式不能識(shí)別特征不明顯的命名實(shí)體的問(wèn)題;通過(guò)對(duì)待識(shí)別的文本進(jìn)行分類,可以解決單純基于規(guī)則詞典的方式造成的命名實(shí)體歧義問(wèn)題,從而對(duì)存在歧義的命名實(shí)體以及特征不明顯的命名實(shí)體,也具有較好的識(shí)別效果。
[0008]為達(dá)到上述目的,本發(fā)明第二方面實(shí)施例提出的命名實(shí)體識(shí)別裝置,包括:預(yù)處理模塊,用于根據(jù)預(yù)設(shè)規(guī)則對(duì)待識(shí)別的文本進(jìn)行預(yù)識(shí)別,得到識(shí)別出的初始命名實(shí)體,所述預(yù)設(shè)規(guī)則包括:基于規(guī)則詞典和基于統(tǒng)計(jì)模型;分類模塊,用于確定所述待識(shí)別的文本所屬的類別;后處理模塊,用于根據(jù)所述類別和所述初始命名實(shí)體,得到組合文本,并根據(jù)所述組合文本確定最終的命名實(shí)體。
[0009]本發(fā)明第二方面實(shí)施例提出的命名實(shí)體識(shí)別裝置,通過(guò)預(yù)識(shí)別時(shí)采用基于規(guī)則詞典和基于統(tǒng)計(jì)模型的方式,可以擴(kuò)大初始命名實(shí)體的范圍,解決單純采用基于統(tǒng)計(jì)模型的方式不能識(shí)別特征不明顯的命名實(shí)體的問(wèn)題;通過(guò)對(duì)待識(shí)別的文本進(jìn)行分類,可以解決單純基于規(guī)則詞典的方式造成的命名實(shí)體歧義問(wèn)題,從而對(duì)存在歧義的命名實(shí)體以及特征不明顯的命名實(shí)體,也具有較好的識(shí)別效果。
[0010]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0011]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0012]圖1是本發(fā)明一實(shí)施例提出的命名實(shí)體識(shí)別方法的流程示意圖;
[0013]圖2是本發(fā)明另一實(shí)施例提出的命名實(shí)體識(shí)別方法的流程示意圖;
[0014]圖3是本發(fā)明另一實(shí)施例提出的命名實(shí)體識(shí)別裝置的結(jié)構(gòu)示意圖;
[0015]圖4是本發(fā)明另一實(shí)施例提出的命名實(shí)體識(shí)別裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0016]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。相反,本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書(shū)的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0017]圖1是本發(fā)明一實(shí)施例提出的命名實(shí)體識(shí)別方法的流程示意圖,該方法包括:
[0018]Sll:根據(jù)預(yù)設(shè)規(guī)則對(duì)待識(shí)別的文本進(jìn)行預(yù)識(shí)別,得到識(shí)別出的初始命名實(shí)體,所述預(yù)設(shè)規(guī)則包括:基于規(guī)則詞典和基于統(tǒng)計(jì)模型。
[0019]本實(shí)施例中的命名實(shí)體識(shí)別可以應(yīng)用在多種需要的場(chǎng)景,例如應(yīng)用在語(yǔ)音合成中。在語(yǔ)音合成時(shí)需要先對(duì)輸入文本進(jìn)行文本處理,之后對(duì)處理后的文本進(jìn)行韻律預(yù)測(cè)、聲學(xué)參數(shù)生成等,得到合成的語(yǔ)音。其中,命名實(shí)體識(shí)別可以作為是文本處理的一個(gè)基本步驟。
[0020]本實(shí)施例中,通過(guò)采用基于規(guī)則詞典和基于統(tǒng)計(jì)模型的方式,相對(duì)于僅采用其中之一的方式,可以盡可能多的獲取命名實(shí)體。
[0021]例如,基于規(guī)則詞典的方式中,是基于字符串匹配的方式,可以識(shí)別出歌曲名、影視名等特征不明顯的實(shí)體,從而解決基于統(tǒng)計(jì)模型不能獲取歌曲名、影視名等不明顯特征的命名實(shí)體的問(wèn)題。
[0022]基于統(tǒng)計(jì)模型的方式中,可以采用條件隨機(jī)場(chǎng)(Condit1nal Random Field, CRF)模型?;诮y(tǒng)計(jì)模型的方式中,可以識(shí)別出一些人名、地名等特征明顯的實(shí)體。
[0023]例如,待識(shí)別的文本是:“好想聽(tīng)劉德華的忘情水”,根據(jù)基于規(guī)則詞典的方式,可以識(shí)別出的命名實(shí)體包括:“好想(歌曲名)”、“劉德華(歌手名)”、“忘情水(歌曲名)”,根據(jù)基于統(tǒng)計(jì)模型的方式,可以識(shí)別出的命名實(shí)體包括:“劉德華(人名)”。
[0024]因此,預(yù)識(shí)別后得到的初始命名實(shí)體包括:“好想(歌曲名)”、“劉德華(歌手名)”、“忘情水(歌曲名)”、“劉德華(人名)”。
[0025]S12:確定所述待識(shí)別的文本所屬的類別。
[0026]文本類別是預(yù)先定義的類別,例如:音樂(lè)類、影視類、游戲類等。
[0027]可以根據(jù)識(shí)別出的命名實(shí)體以及待識(shí)別的文本中的文本信息,確定相應(yīng)的文本類另IJ。具體的,可以從識(shí)別出的命名實(shí)體以及文本信息中提取出特征信息,根據(jù)特征信息采用最大熵的文本分類算法,確定文本所屬的類別。
[0028]本實(shí)施例中,特征信息包括:待識(shí)別的文本中的詞,初始命名實(shí)體類別與其前一個(gè)詞的組合,初始命名實(shí)體類別與其后一個(gè)詞的組合。
[0029]本實(shí)施例中,通過(guò)選擇命名實(shí)體與其前后的一個(gè)詞作為特征信息,可以使用命名實(shí)體的上下文信息對(duì)命名實(shí)體進(jìn)行消岐,解決單獨(dú)的命名實(shí)體本身可能帶有歧義性的問(wèn)題。
[0030]例如,在上述的待識(shí)別的文本的基礎(chǔ)上,選擇的特征信息包括:好想、聽(tīng)、劉德華、的、忘情水、song_ 聽(tīng)、s_song、聽(tīng) _singer、singer_ 的、的 _song、song_e、聽(tīng) _per、per_ 的。其中,song表示歌曲名,singer表示歌手名,per表示人名,s表示句首前面的一個(gè)詞,e表示句尾后面的一個(gè)詞。
[0031]在獲取特征信息后,可以根據(jù)特征信息以及預(yù)設(shè)文本分類算法,確定待識(shí)別的文本屬于的文本類別。假設(shè)預(yù)設(shè)文本分類算法是最大熵文本分類算法,則根據(jù)上述特征信息,以及最大熵文本分類算法,可以確定待識(shí)別的文本屬于的文本類別,例如,上述的待識(shí)別的文本屬于音樂(lè)類。
[0032]S13:根據(jù)所述類別和所述初始命名實(shí)體,得到組合文本,并根據(jù)所述組合文本確定最終的命名實(shí)體。
[0033]在組合時(shí),可以具體包括:獲取屬于所述類別的初始命名實(shí)體,根據(jù)屬于所述類別的初始命名實(shí)體和待識(shí)別的文本中的其余詞進(jìn)行組合,得到組合文本。
[0034]例如,在確定類別是音樂(lè)類時(shí),可以獲取屬于音樂(lè)類的初始命名實(shí)體,如包括:好想(歌曲名)、劉德華(歌手名)、忘情水(歌曲名)。之后,可以將這些初始命名實(shí)體與待識(shí)別的文本中的其余詞進(jìn)行組合,其余詞包括聽(tīng)”、“的”,則經(jīng)過(guò)組合后,得到的組合文本包括:^song聽(tīng)singer的忘情水”、“好想聽(tīng)singer的song”、“song聽(tīng)劉德華的song”等。
[0035]在獲取如上所示的多個(gè)組合文本后,可以對(duì)每個(gè)組合文本進(jìn)行分析,以確定出最終的命名實(shí)體,例如,采用語(yǔ)言模型的方式,分析哪個(gè)組合文本更像一句話,之后將更像一句話的組合文本中的初始命名實(shí)體確定為最終的命名實(shí)體。具體的,可以通過(guò)線下挖掘音樂(lè)類的訓(xùn)練語(yǔ)料,假設(shè)訓(xùn)練語(yǔ)料表明“好想聽(tīng)singer的song”的出現(xiàn)概率最大,則可以確定出最終的命名實(shí)體包括:劉德華(歌手名),忘情水(歌曲名)。
[0036]本實(shí)施例中,通過(guò)預(yù)識(shí)別時(shí)采用基于規(guī)則詞典和基于統(tǒng)計(jì)模型的方式,可以擴(kuò)大初始命名實(shí)體的范圍,解決單純采用基于統(tǒng)計(jì)模型的方式不能識(shí)別特征不明顯的命名實(shí)體的問(wèn)題;通過(guò)對(duì)待識(shí)別的文本進(jìn)行分類,可以解決單純基于規(guī)則詞典的方式造成的命名實(shí)體歧義問(wèn)題,從而對(duì)存在歧義的命名實(shí)體以及特征不明顯的命名實(shí)體,也具有較好的識(shí)別效果。
[0037]圖2是本發(fā)明另一實(shí)施例提出的命名實(shí)體識(shí)別方法的流程示意圖,該方法包括:
[0038]S21:根據(jù)預(yù)設(shè)規(guī)則對(duì)待識(shí)別的文本進(jìn)行預(yù)識(shí)別,得到識(shí)別出的初始命名實(shí)體,所述預(yù)設(shè)規(guī)則包括:基于規(guī)則詞典和基于統(tǒng)計(jì)模型。