專利名稱::基于條件隨機場的旅游領域命名實體識別方法
技術領域:
:本發(fā)明涉及一種基于條件隨機場的旅游領域命名實體識別方法,屬人工智能領域。
背景技術:
:目前在命名實體識別領域,主要使用一些規(guī)則方法和統(tǒng)計方法。基于規(guī)則的方法由于規(guī)則種類繁多,要總結出統(tǒng)一的能夠對所有種類進行識別的規(guī)則,代價太高,而且規(guī)則無法覆蓋所有領域,因而基本上是不可行的。中科院計算所提出了一種基于隱馬爾可夫模型的角色標注識別實體的統(tǒng)計方法。但由于隱馬爾可夫模型是一種產(chǎn)生式模型,它存在一些固有缺陷與不足:首先、為保證推導的正確性,需要作出嚴格的獨立性假設。事實上,大多數(shù)序列數(shù)據(jù)都不能被表示成一系列獨立的元素,而且部分序列存在長距離依賴。其次、隱馬爾可夫模型完全依靠詞性作為觀察值,不能借助任何語義或是標志詞信息,大大制約了系統(tǒng)識別的性能。最大熵模型也是一種廣泛應用于自然語言處理中的概率統(tǒng)計方法,它可以綜合地利用各種相關或不相關的概率知識,肯有較強的知識表達能力,并在命名實體識別領域取得了較好的結果,但最大熵模型存在"標注偏見"問題。例如,在詞性標記任務中,有一個位置的詞總^t應于某^H寺定的詞性標記。當某個句子中該詞的詞性是其很少使用的一種詞性時,由于標記偏見問題,該詞將被標注為更為常用的那個標記,而關不考慮余下句子中的上下文信息。標注偏見問題會對自然語言處理的結果產(chǎn)生不良影響。針對這個問題,我們提出并實現(xiàn)了一種新的基于條件隨機場(CRFs)的概率圖模型,它具有表達元素長距離依賴性和交疊性特征的能力,育^方便地在模型中包含多種特征,而且能夠避免最大熵模型的標注偏置問題等優(yōu)點。該方法將識別過程分為兩層,低層模型采用字一級進行建模,識別地點及簡單景點、特產(chǎn)小吃,然后將4識別結果傳遞到高層模型,在高層采用詞一級進行建模,識別嵌套的景點、f寺產(chǎn)小吃。并在云南旅游領域進行了實驗驗證,結果表明,該方法取得了良好的效果。
發(fā)明內(nèi)容本發(fā)明的目的在于發(fā)明一種基于條件隨機場的旅游領域命名實體識別方法。該方法將識別過程分為兩層,低層模型釆用字一級進行建模,識別地點及簡單景點、特產(chǎn)小吃,然后將識別結果傳遞到高層模型,在高層采用詞一級進行建模,識別嵌套的景點、特產(chǎn)小吃。本發(fā)明一基于條件隨機場的旅游領域命名實體識別方纟去包括-(1)人工收集旅游領域文本作為訓練語料和測試語料;(2)通過網(wǎng)絡下載及人工收集景點常用后綴、組織機構常用后綴、地名常用后綴、風味小吃常用后綴并編撰其詞典;(3)文本的一次處理包括使用步驟(2)收集的詞典,將語料以字為單位,進行標注;(4)制定符合簡單命名實體識另啲特征模板,并將經(jīng)過步驟(3)處理后的文本進行訓練,得到低層條件隨機場識別模型,用來識別簡單景點、組織機構、地名及風味小吃的識別;(5)將原始語料進行分詞,并將在第一層條件隨機場識別出的實體標注為相對應的類型;(6)利用簡單特征模板與復合特征模板,采用迭代梯度算法,即根據(jù)一定的規(guī)則迭代地更新模型參數(shù),逐步精化f^或條件模型分布的方法。訓練高層條件隨機場模型,并在云南旅游領域進行命名實體識別實驗驗證。步驟(1)中收集整理了訓練和測試需用領域文本。步驟(2)中收集整理的常用景點后綴、常用組織機構后綴、地名常用后綴、風味小吃常用后綴編撰為詞典。'5步驟(3)中的語料標注轉換方法。步驟(4)中的簡單實體識別特征模板的選取。提到的特征模板選取方法,其特征在于提出了符合簡單旅游領域命名實體識別的特征模板,并經(jīng)過驗證實驗;提出了符合復合旅游領域命名實體識別的特征模板,并經(jīng)過驗證實驗。本發(fā)明具體過程為(1)實驗語料收集實驗采用從網(wǎng)絡隨機搜索的云南旅游領域文檔2000篇作為訓練文本,其中包含各種命名實體共10087個。(2)文本預處理將文本以字為單位,依次對字進行特征標注,特征為5維,當前字為第一維。標注的方法是,如果當前字是景點常用字,那么將當前字的第二維為標為Y,不是則標為N,如果當前字是組織機構常用后綴,則當前字的第三維標為Y,不是則標為N。其它類推。(3)簡單命名實體的識別應用^f牛隨機場工具包CRF++,對經(jīng)過步驟b處理過的語料進行訓練,作為低層模型。對輸入的未知標注語句進行模型測試,識別出其中簡單的景點、地名、機構等命名實體。在識別簡單旅游命名實體模型中,經(jīng)過反復實驗^i正,采用了如表l所示的特征模板。(4)文本的二次處理將原始文本進行分詞,對其中的經(jīng)過步驟(3)識別出的命名實體進行標注轉6表l景點識別原鄰征模板1Cur—Char當前字2Cur一Char一State當前字的狀態(tài)標注3Cur一Char—FirstLeft—State當前字的前面第一個字的狀態(tài)標注4Cur—Char—SecondLeft—State當前字的前面第二個字的狀態(tài)標注5Cur—Char—FirstRight一State當前字的后面第一個字的狀態(tài)標注6Cur—Char—SecondRight一State當前字的后面第二個字的狀態(tài)標注7Cur—Char—Attractions—table當前字是否出現(xiàn)在旅游景點常用字表中8Cur—Char一AfterTwo—SuffixTable當前字及下2個窗口中是否為存在景點常用后綴9Cur一Char—S"Lmple一Att"ractions當前字及上下2個窗口中是否為存在簡單景點10Cur—Char—Left—Two—Boundary當前字及上2個窗口中是否為存在景點左指界詞11Cur一Char—Right—Two—Boundary當前字及下2個窗口中是否為存在景點右指界詞12Cur—Char_Punctuation當前字是否為標點(5)復合命名實體識別應用^(牛隨機場工具包0^++,對經(jīng)過步驟(4)處理過的語料進行訓練,作為低層模型。對輸入的未知標注語句進行模型測試,識別出其中復雜的景點、機構等命名實體?;谧值脑犹卣髂0逡策m合于復合命名實體模型,但由于本模型的切分料度是詞,所以要將上述特征模板的字改為詞。同時因為:^莫型中加入了詞性特征,而且識另啲是嵌套的實體,所以還要制定一些復^tt征模板。下面列出需增加的原子模板及復合特征模板。原子特征模板如表2所示,復合特征如表3所示。這些特征模板也需要進行一2、一1、1、2等四個位置的偏移。經(jīng)過反復實驗驗證,最終選取了如表2、表3所示的特征模板。7表2新增原鄰征微13Cur—word—Pos當前詞的詞性14Cur—word一FirstLeft—Pos當前詞的前面第一個詞15Cur—word—SecondLeft—Pos當前詞的前面第一個詞的詞性16Cur一wrod一FirstRight_Pos當前詞的后面第一個詞17Cur一word一SecondRight—Pos當前詞的后面第一個詞的詞性表3復辦征模板1Cur—Char—Pos&Cur—Char_State&Cur—Char—FirstLeft—Pos2Cur—Char—Pos&Cur—Char—FirstLeft—Pos&Cur—Char—FirstLeft_State3Cur一Char一Pos&Cur—Char_FirstRight_Pos&Cur—Char—FirstRight一State4Cur—word_Pos&Cur_Char—Left—Two—Boundary5Cur—word—Pos&Cur—Char—AfterTwo_SuffixTable6Cur—Char&Cur—Char—Right_Two_Boundary本發(fā)明的方法采用人工標注的2000篇旅游文檔作為模型構建資源,Sii文本預處理模塊形成了模型訓練文件,結合制定的簡單特征模板及復合特征模板,并使用0^++工具包,構建了基于條件隨機場的旅游領域命名實體識別模型。本發(fā)明方法在開放測試中,層疊割牛隨機場模型相比于單層模型,F(xiàn)值提高了8個百分點。相比于HMM模型,正確率提高了8個百分點,召回率提高了22個百分點,F(xiàn)值提高了15個百分點。圖1是本發(fā)明提出的基于割牛隨機場的旅游領域命名實體識別方法的流程圖。8具體實ltt"式本實施例以云南旅游訓練和測試領域為文本,收集整理。針對提出的以上方法在云南旅游領i或進行了實驗驗證,具體步驟如圖1所示。步驟al、人工收集了云南旅游文檔語料2000篇。其中800篇為訓練語料,1200篇為開放測試語料。從800篇訓練文檔中隨機抽取600篇作為封閉測試語料。所謂訓練語料,就是指提供給CRF^0.49工具包,以便從中提取上下文特征的文本。訓練模型是指從訓練語料中提取的上下文特征的集合。測試語料就是指用于驗證訓練模型性能的語料。也就是指未標注的文本。開放測試指的是訓練語料和測試語料不重復。封閉測試是指測試語料是訓練語料的一部分。步驟a2、人工收集了景點常用后綴,風味小吃常用后綴,地名常用后綴等特征詞典。如景點常用后綴詞公園、塔、谷、湖、風景區(qū)、洞等。地名后綴特征詞廣場、縣、州、市、小區(qū)、研究所等。風味小吃后綴特征詞茶、酒、粥、魚、烤等。步驟a3、利用步驟a2的詞典,以字為單位,構造CRFw工具包需要的訓練數(shù)據(jù)格式。并進行訓練。得至lj低層條件隨機場訓練模型。如對句子"距離蒙自縣城約16公里。",應該標注為距NNNNNO離NNNNNO蒙YNYNNSB白匪YYNSM縣NNYYNSM城NNY麗SE約NNNNNO16NNNNNO公NNNNNO9里NNNNNO。NNNNYO假設通過語料轉換后的文件名為tmin.txt,特征模板文件為tempkte.txt,則具體的訓練過程為A:切換到Dos狀態(tài)下,使用01++0.49工具包下的01>3111.&1行訓練。B:訓練命令為erf—leam.txttemplate.txttrain.txtmodel.txt,其中train.txt為訓練文件,template加為模板文件,model.txt為模型特征文件。C:模型特征文件其實就是一些特征函數(shù)的集合,在條件隨機場模型中,特征函數(shù)的形式定義為//^,乂,W),它是狀態(tài)特征函數(shù)和轉移特征函數(shù)的統(tǒng)一形式表示。特征函數(shù)都是二值函數(shù),取值要么為i要么為o。在定義特征函數(shù)的時候,我們首先構建觀察值上的真實特征6(x,f)的集合,這個集合既體現(xiàn)了訓練數(shù)據(jù)的經(jīng)驗分布,同時也反映了模型分布。特征函數(shù)可以表示成觀察值上的真實特征HW),在當前狀態(tài)(對應于狀態(tài)函數(shù)瞎況)或是前一狀態(tài)與當前狀態(tài)(對應于轉移函數(shù)情況)有特定取值時,每^#征函數(shù)取值為一個觀察特征^,0。例如.-f、—^0m')(/x—t=幼x=SA/表示如果當前字的前一字的狀態(tài)為sb,當前字狀態(tài)為sm,則特征為l其中6(X,!')表示真實觀察值,當某種情況出現(xiàn)時值為i,否則為o。,,.、flz/i位置的觀察值為"北"只要我們能夠獲得所有i時刻的觀察值的真實特征6(x力,結合其對應的標注結果,就可以獲得模型的特征函數(shù)集。D:測試時同樣是先切換到Dos狀態(tài)下,使用crf—test.exe命令進行測試。具體命令格式為crfjestext,mmodel.txttesttxt。其中mo4el.txt文件為步^B形成的模型文件,test.txt與訓練文件格式相同,僅僅因為是觀賦文件,所以測試文件的最后一列狀態(tài)都標為O。10步驟a4、將原始語料進行分詞,將分詞后的語句中相應的在歩驟a3中實別出來的實體進行標注。如對句子"距離蒙自縣城約16公里。"分詞后的語句為"距離/n蒙/v自/p縣城/n約/d16/m公里/q。/w",因為在歩驟a3中已經(jīng)識別出蒙自為一個地名,所以在此需要修改上述分詞結果,將"蒙/v自/p"改為"蒙自/ns",其它不變。步驟a5、利用步驟a4中的語料,構造CRF++0.49工具包需要的訓練數(shù)據(jù)格式,并進行訓練,得到高層條件隨機場訓練模型。具體構造過程同步驟a3。實驗結果如表4、表5所示。表4層疊條件隨機場與單層模型的實驗結果比較<table>tableseeoriginaldocumentpage11</column></row><table>表5層疊條件隨機場與HMM模型的景點識別實驗結果比較<table>tableseeoriginaldocumentpage11</column></row><table>從實驗結果可以看出,層疊條件隨機場模型的識別效果相對于單層模型,正確率、召回率、F值都有所提高。其中在封閉測試中,F(xiàn)值提高了將近6個百分點,在開放測試中,F(xiàn)值提高了8個百分點。這說明層疊條件隨機場模型的識別效果相對于單層模型有較大的改進,改進的效果主要體現(xiàn)在以嵌套地名和景點開頭的景點識別和嵌套其它詞的特產(chǎn)風味小吃識別中。如景點名"帽天山中國國家地質公園"、"仙人洞彝族文化生態(tài)村"、"思茅茶馬古道遺址"、"苗族小黑藥燉雞"、"德宏小豬耳朵"等。在單層模型中就無法識別出來。在旅游景點識別實驗中,層疊條件隨機場模型也顯然高于HMM模型。其中開放測試中,正確率提高了8個百分點,召回率提高了22個百分點,F(xiàn)值提高了15個百分點。原因是在HMM模型屮,由于訓練時只考慮了詞性序列,這就使得訓練得到的參數(shù)更利于使某個出現(xiàn)的詞性標注為它的常見狀態(tài)。例如,3輸入語句包含"麗江/ns古城/n"時,因為訓練語料中詞性/ns被標為獨立地名/SB的概率更大,所以經(jīng)HMM識別后的結果"麗江/ns/SB古城/n/0",這就產(chǎn)生的錯誤。而且,HMM僅用詞性作為觀察值也使模型無法利用豐富的詞匯信息,比如,景點后綴特征詞"洞"、"公園"、"湖"等,特產(chǎn)風味后綴特征詞"酒"、"面"、"茶"等。這些因素使得HMM不能很好的描述實體的內(nèi)部結構,導致復雜實體的召回率較低。而層疊斜牛隨機場CRF模型不僅克服了這些問題。而且又弓l入了許多外部特征。4吏得識別效果明顯高于HMM模型。1權利要求1.一種基于條件隨機場的旅游領域命名實體識別方法,其特征在于該方法包括下列步驟(1)人工收集旅游領域文本作為訓練語料和測試語料;(2)通過網(wǎng)絡下載及人工收集景點常用后綴、組織機構常用后綴、地名常用后綴、風味小吃常用后綴并編撰其詞典;(3)文本的一次處理包括使用步驟(2)收集的詞典,將語料以字為單位,進行標注;(4)制定符合簡單命名實體識別的特征模板,并將經(jīng)過步驟(3)處理后的文本進行訓練,得到低層條件隨機場識別模型,用來識別簡單景點、組織機構、地名及風味小吃的識別;(5)將原始語料進行分詞,并將在第一層條件隨機場識別出的實體標注為相對應的類型;(6)利用簡單特征模板與復合特征模板,采用迭代梯度算法,即根據(jù)一定的規(guī)則迭代地更新模型參數(shù),逐步精化聯(lián)合或條件模型分布的方法。訓練高層條件隨機場模型,并在云南旅游領域進行命名實體識別實驗驗證。2.根據(jù)權利要求1所述的基于割牛隨機場的旅游領域命名實體識別方法,其特征在于,步驟(1)中收集整理了訓練和測試需用領域文本。3.根據(jù)權利要求1或2所述的基于條件隨機場的旅游領域命名實體識別方法,其特征在于,步驟(2)中收集整理的常用景點后綴、常用組織機構后綴、地名常用后綴、風味小吃常用后綴編撰為詞典。4.根據(jù)權利要求1或2所述的基于條件隨機場的旅游領域命名實體識別方法,其特征在于,步驟(3)中的語料標注轉換方法。5.根據(jù)權利要求1或2所述的基于條件隨機場的旅游領域命名實體識別方法,其特征在于,步驟(4)中的簡單實體識別特征模板的選取。6.根據(jù)要求5所述的基于剝牛隨機場的旅游領域命名實體識別方法,其特征是提到的特征模板選取,提出了符合簡單旅游領域命名實體識別的特征模板,并經(jīng)過驗證實驗。7.根據(jù)權利要求1或2所述的基于條件隨機場的旅游領域命名實體識別方法,其特征是提出符合復合旅游領域命名實體識別的特征模板,并經(jīng)過驗證實驗。全文摘要本發(fā)明涉及一種旅游領域命名實體識別方法,屬人工智能領域。公開了人工進行了語料的收集、標注及文本預處理。在此基礎上,提出了一種基于層疊條件隨機場模型的旅游領域命名實體識別方法,該方法包含兩層,在低層條件隨機場中以字為切分粒度,結合旅游景點常用字表、景點常用后綴表、地名常用字表等特征詞典,并通過制定有效的特征模板,實現(xiàn)簡單旅游命名實體的識別;其識別結果傳遞到高層模型,在高層以詞為切分粒度,結合復雜特征模板,實現(xiàn)嵌套景點、特產(chǎn)風味、地點的識別。在開放測試中,層疊條件隨機場模型相比于單層模型,F(xiàn)值提高了8個百分點。相比于HMM模型,正確率提高了8個百分點,召回率提高了22個百分點,F(xiàn)值提高了15個百分點。文檔編號G06F17/27GK101477518SQ200910094029公開日2009年7月8日申請日期2009年1月9日優(yōu)先權日2009年1月9日發(fā)明者舟萬,余正濤,張志坤,毛存禮,薛征山,郭劍毅申請人:昆明理工大學