日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于狀態(tài)轉(zhuǎn)移與神經(jīng)網(wǎng)絡(luò)的漢語組塊分析方法

文檔序號:10655077閱讀:500來源:國知局
一種基于狀態(tài)轉(zhuǎn)移與神經(jīng)網(wǎng)絡(luò)的漢語組塊分析方法
【專利摘要】本發(fā)明提出了一種基于狀態(tài)轉(zhuǎn)移與神經(jīng)網(wǎng)絡(luò)的漢語組塊分析方法,包括:將組塊分析任務(wù)轉(zhuǎn)換成序列化標(biāo)注任務(wù),使用基于狀態(tài)轉(zhuǎn)移的框架對句子進(jìn)行標(biāo)注,在標(biāo)注的過程中使用前向神經(jīng)網(wǎng)絡(luò)來對每個狀態(tài)將要進(jìn)行的轉(zhuǎn)移操作進(jìn)行打分,并將利用雙向長短記憶神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)到的詞以及詞性標(biāo)注的分布式表示特征作為標(biāo)注模型的附加信息特征,從而提高組塊分析的精確度。對比其它漢語組塊分析技術(shù),該漢語組塊分析方法使用的基于狀態(tài)轉(zhuǎn)移的框架可以更靈活地添加組塊級別的特征,同時神經(jīng)網(wǎng)絡(luò)的使用可以自動學(xué)到特征之間的組合方式,雙向長短記憶神經(jīng)網(wǎng)絡(luò)模型的利用引入了有用的附加信息特征,三者的結(jié)合有效提高了組塊分析的準(zhǔn)確度。
【專利說明】
-種基于狀態(tài)轉(zhuǎn)移與神經(jīng)網(wǎng)絡(luò)的漢語組塊分析方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及一種利用計算機(jī)進(jìn)行漢語淺層句法分析的方法,特別是一種利用基于 狀態(tài)轉(zhuǎn)移與神經(jīng)網(wǎng)絡(luò)相結(jié)合的方式進(jìn)行自動漢語組塊分析的方法。
【背景技術(shù)】
[0002] 漢語句法分析是漢語信息處理中的一項(xiàng)基本任務(wù),其廣泛的應(yīng)用需求吸引了大量 相關(guān)研究從而促進(jìn)了其相關(guān)技術(shù)的快速發(fā)展。完整的句法分析因其問題自身復(fù)雜性較高等 因素 W致分析正確率較低、速度較慢,從而實(shí)用性受限。組塊分析,又叫淺層句法分析,與W 獲得一個句子的完整句法樹為目的的完整句法分析不同,其分析目標(biāo)是識別句子中某些結(jié) 構(gòu)相對簡單、非嵌套的句子成分,例如非嵌套的名詞短語、動詞短語等。由于其識別目標(biāo)是 句子中非嵌套、不重疊的符合一定語法規(guī)定的短語成分,所W相對于完整句法分析而言組 塊分析任務(wù)的復(fù)雜度較小,處理速度也更快,同時由于它可W作為機(jī)器翻譯、完整句法分 析、信息抽取等諸多任務(wù)的前處理階段,所W-直受到研究人員的關(guān)注。針對漢語的組塊分 析,隨著漢語樹庫的出現(xiàn)W及有研究人員從中抽取了針對組塊分析任務(wù)的數(shù)據(jù)集W來,相 關(guān)研究持續(xù)不斷。
[0003] 在建模組塊分析任務(wù)的方式中,將其看成序列化標(biāo)注任務(wù)是一種常見手段。其工 作過程是:針對待分析的句子,W詞為單位,從左至右對每個詞進(jìn)行標(biāo)注(即打標(biāo)簽),其中 一種標(biāo)注方式是將詞標(biāo)注成帶類型(名詞短語、動詞短語、形容詞短語等)的組塊開始詞、單 獨(dú)成塊詞,W及不帶類型的組塊結(jié)束詞、組塊內(nèi)屬詞、組塊外屬詞五種。當(dāng)整個句子按運(yùn)種 方式標(biāo)注完W后,再從中抽取完整的組塊信息。本發(fā)明在建模漢語組塊分析任務(wù)時也將其 看成序列化標(biāo)注任務(wù)并采用前述的五類標(biāo)注方式。
[0004] 基于統(tǒng)計的方法被廣泛應(yīng)用在組塊分析任務(wù)中,常見做法是使用結(jié)構(gòu)化學(xué)習(xí)中的 經(jīng)典模型來對其進(jìn)行處理,如隱馬爾可夫模型、條件隨機(jī)場模型、基于動態(tài)規(guī)劃的支持向量 機(jī)模型等,現(xiàn)有的發(fā)明技術(shù)中,如微軟在2007年申請的專利《中文組塊分析的方法及系統(tǒng)》 中,就使用了條件隨機(jī)場模型來對其進(jìn)行處理。但是運(yùn)類方法因?yàn)槠淠P妥陨淼脑驅(qū)е?其對組塊級別的特征使用受限,對于W整個句子為處理對象、需要更多考慮全局信息的組 塊分析任務(wù)來說會有不小影響。為了緩解運(yùn)類模型帶來的影響,基于狀態(tài)轉(zhuǎn)移的方法是一 個選擇,該方法在完整句法分析中使用較多,它具有高效、準(zhǔn)確的特點(diǎn)。其工作過程為:針對 待分析的句子,W詞為單位,從左至右順序讀入詞,對讀入的每一個詞進(jìn)行標(biāo)注操作,標(biāo)注 類型參考前述標(biāo)注方式,每次標(biāo)注操作的進(jìn)行對應(yīng)了一個定義在整個句子上的狀態(tài)(句子 的一個狀態(tài)記錄了當(dāng)前句子哪些詞已被標(biāo)注、每個已標(biāo)注詞對應(yīng)的標(biāo)注類型W及哪些詞還 未標(biāo)注)轉(zhuǎn)移,而具體的標(biāo)注類型的選擇則由訓(xùn)練好的打分模型完成。由于在對某個詞進(jìn)行 標(biāo)注時,句子中該詞左邊所有詞的標(biāo)注類型已經(jīng)確定,所W可W充分利用運(yùn)部分已標(biāo)注詞 的信息來對當(dāng)前詞的標(biāo)注進(jìn)行指導(dǎo),特別是利用該詞左邊已識別為組塊的組塊相關(guān)信息來 進(jìn)行指導(dǎo)。為了更多地利用組塊級別的信息特征,本發(fā)明采用基于狀態(tài)轉(zhuǎn)移的方式來進(jìn)行 漢語組塊分析。
[0005] 神經(jīng)網(wǎng)絡(luò)是一種常用的機(jī)器學(xué)習(xí)方法,它具有從一些基本原子特征自動學(xué)習(xí)特征 組合方式的能力,運(yùn)區(qū)別于需要使用者根據(jù)語言學(xué)相關(guān)等先驗(yàn)知識來設(shè)計大量任務(wù)相關(guān)的 模板的傳統(tǒng)方法。神經(jīng)網(wǎng)絡(luò)在中文信息處理中被大量嘗試,但目前為止在漢語組塊分析中 還未見有被使用。神經(jīng)網(wǎng)絡(luò)的使用,可W省去人工定制大量組合特征模板的工作,同時可W 借助神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表達(dá)能力來自動地學(xué)習(xí)特征之間的組合。另一方面,在傳統(tǒng)的組塊分 析技術(shù)中,對每個詞進(jìn)行標(biāo)注時所用的信息特征都是W當(dāng)前詞為基準(zhǔn)的某個固定大小窗口 內(nèi)的詞或者詞性信息,但在分析樹庫中的漢語句子后可W發(fā)現(xiàn),許多對組塊分析有用的信 息特征常常會在窗口 W外,例如"r,"r等標(biāo)點(diǎn)符號信息、"詞、詞、詞、詞…"等W頓號為間 隔的文本模式信息,運(yùn)類信息常常所跨范圍較廣,不容易納入傳統(tǒng)的組塊分析技術(shù)中。為了 充分利用運(yùn)種信息,本發(fā)明使用了雙向長短記憶神經(jīng)網(wǎng)絡(luò)來對句子的詞和詞性序列進(jìn)行計 算,從而更多地捕獲遠(yuǎn)距離的詞和詞性特征。

【發(fā)明內(nèi)容】

[0006] 發(fā)明目的:本發(fā)明針對目前漢語組塊分析技術(shù)中所用模型不能充分利用組塊級別 和遠(yuǎn)距離信息特征、且需要手動定制復(fù)雜的組合特征模板的缺點(diǎn),提出一種基于狀態(tài)轉(zhuǎn)移 與神經(jīng)網(wǎng)絡(luò)的方法來緩解運(yùn)方面的限制,提升漢語組塊分析的準(zhǔn)確度。
[0007] 為了解決上述技術(shù)問題,本發(fā)明公開了一種基于狀態(tài)轉(zhuǎn)移與神經(jīng)網(wǎng)絡(luò)的漢語組塊 分析方法W及關(guān)于分析過程中所使用模型參數(shù)訓(xùn)練方法的附加說明。
[0008] 本發(fā)明所述的基于狀態(tài)轉(zhuǎn)移與神經(jīng)網(wǎng)絡(luò)的漢語組塊分析方法包括W下步驟:
[0009] 步驟1,計算機(jī)讀取一個包含待分析句子的漢語文本文件,定義漢語組塊的類型, 對待分析句子進(jìn)行分詞并對每個詞進(jìn)行詞性標(biāo)注,進(jìn)行詞性標(biāo)注時,根據(jù)當(dāng)前句子狀態(tài)確 定所能選擇的詞性標(biāo)注類型;
[0010] 步驟2,利用基于狀態(tài)轉(zhuǎn)移和神經(jīng)網(wǎng)絡(luò)的方法對待分析句子進(jìn)行漢語組塊分析。 [OOW 其中,步驟1包括如下步驟:
[0012] 步驟1-1,采用在賓州樹庫中文版圳8(化6化inese Penn TreebankM.0(該樹庫 是賓夕法尼亞大學(xué)對于中文語料的一個帶標(biāo)注樹庫)的基礎(chǔ)上定義的12種短語類型定義漢 語組塊類型;組塊類型由使用者根據(jù)其具體目標(biāo)自行選擇,傳統(tǒng)的漢語組塊分析任務(wù)一般 有兩種具體的短語識別任務(wù):一是只針對名詞短語進(jìn)行識別,二是針對在賓州樹庫中文版 CTB4.0的基礎(chǔ)上定義的12種類型的組塊進(jìn)行識別。在實(shí)施例1中,選取了第二種方式,對運(yùn) 12種短語類型的具體含義說明如表1所示:
[0013] 表1漢語組塊類型說明
[0014]

[001引其中,"國家/NN"中的"NN"是該詞對應(yīng)的詞性,"NN"表示名詞、"VV"表示動詞等。
[0016] 步驟1-2,采用BIOES標(biāo)注體系與步驟1-1中定義的漢語組塊類型相結(jié)合的方式確 定標(biāo)注過程中對每個待標(biāo)注詞進(jìn)行詞性標(biāo)注時所能選擇的標(biāo)注類型。將組塊分析任務(wù)建模 成序列化標(biāo)注任務(wù)W后,需要確定采用何種標(biāo)注體系。在英文組塊分析任務(wù)中,所采用的標(biāo) 注體系一般有BIO和BIOES兩類,即將句子中的每個詞標(biāo)注W組塊類型和BIO或BIOES的組 合。其中,在BIO標(biāo)注方式中,B表示一個組塊的開始,I表示一個組塊的內(nèi)部,0表示組塊W外 的其它位置;在BIOES標(biāo)注方式中,B表示一個組塊的開始,I表示一個組塊的內(nèi)部,E表示一 個組塊的末尾,0表示組塊W外的其它位置,S表示一個詞單獨(dú)成組塊。下面用一個已標(biāo)注的 句子為例來幫助說明BIOES標(biāo)注體系的含義。首先,給出一個已按組塊進(jìn)行分塊的句子:
[0017] [NP上海浦東][NP開發(fā)與法制建設(shè)][VP同步][。]
[0018] NP表示該組塊是名詞短語,VP表示該組塊是動詞短語,"。"表示該詞不屬于任何一 個組塊。該句子在用BIOES標(biāo)注體系進(jìn)行標(biāo)注后的形式如下:
[0019] 上海_B-NP浦東_E-NP開發(fā)_8-肥與_1-肥法制_I-NP建設(shè)_E-NP同步_S-VPe_0需要 說明的是,本發(fā)明中的標(biāo)注將按照BIOES的體系進(jìn)行。此外,組塊類型和BIOES的組合并不是 兩者之間的完全組合,只有B和S與組塊類型進(jìn)行完全組合,即假設(shè)組塊類型共有typei, types,…,typek共k種,則它們與B和S組合后,就有B-typei,B-type2,…,B-typek,S-typei, S-type2,…,S-typek共化種,再加上I、0、S =種類型,所W -共有化+3中標(biāo)注類型,本發(fā)明中 k=12,所W共有27種。上面的例句按運(yùn)種方式標(biāo)注后即為:
[0020] 上海_B-NP浦東_E開發(fā)_8-郵與_1法制_1建設(shè)_E同步_S-VPd_0
[0021] 此外,在標(biāo)注過程中,對于某個詞的候選標(biāo)注類型生成還受一定規(guī)則制約,本發(fā)明 中的制約如下:
[0022] 1.句子第一個詞不能是I、E;
[0023] 2.類型為B-typex的詞的后一個詞不能為B-typey、0、S-typey;
[0024] 3.類型為I的詞后一個詞不能為B-typey、0、S-typey;
[00巧]4.類型為0的詞后一個詞不能為I、E;
[0026] 5.類型為E的詞后不能為I、E;
[0027] 6.類型為S-typex的詞后一個詞不能為I、E。
[0028] 步驟1中計算機(jī)讀取一個包含待分析句子的自然語言文本文件,在進(jìn)行漢語組塊 分析時,要求的輸入除了對句子本身已經(jīng)分好詞之外,還要完成對每個詞進(jìn)行詞性標(biāo)注。例 如一個完整的句子輸入如表2所示:
[0029] 表2-個完整的待分析句子輸入 「00301

[0031] 步驟2,對讀取的每個句子利用基于狀態(tài)轉(zhuǎn)移和神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行組塊分析。運(yùn) 部分操作在基于狀態(tài)轉(zhuǎn)移的大框架下進(jìn)行,在基于狀態(tài)轉(zhuǎn)移的序列化標(biāo)注方法中,針對每 一個句子,W詞為單位,從左至右順序讀入詞,每個詞的讀入都會引起當(dāng)前句子狀態(tài)的一次 轉(zhuǎn)移,句子的一個狀態(tài)記錄了當(dāng)前句子哪些詞已被標(biāo)注、每個已標(biāo)注詞對應(yīng)的標(biāo)注類型W 及哪些詞還未標(biāo)注。如果針對每個詞的標(biāo)注是唯一的,那么在對句子中的每個詞進(jìn)行標(biāo)注 后就得到了針對該句子的完整標(biāo)注序列,其過程可W簡單描述為:假設(shè)句子長度為n、初始 狀態(tài)為S1、對第t個詞進(jìn)行的標(biāo)注為markt、對第t個詞進(jìn)行標(biāo)注后的狀態(tài)為st+i,則整個過程 可簡單簡略描述3
整個句子對應(yīng)的標(biāo)注序列即為marki, marks,…,markn,本發(fā)明中將這種標(biāo)注方式叫做貪屯、捜索。但運(yùn)種標(biāo)注方式得到的針對整個 句子的標(biāo)注準(zhǔn)確度較低,所W本發(fā)明采用了柱捜索的方法來完成對整個句子的標(biāo)注。
[0032] 在詳細(xì)說明柱捜索的方法之前,需要簡單介紹一下完全捜索:完全捜索區(qū)別于貪 屯、捜索的是,在捜索的過程中針對每個詞進(jìn)行標(biāo)注時,不再只得到一個標(biāo)注結(jié)果,而是得到 一個標(biāo)注結(jié)果集合(即狀態(tài)集合),假設(shè)將在對第i個詞進(jìn)行標(biāo)注之前句子處于的狀態(tài)集合 表示為Si,故在對句子的第一個詞進(jìn)行標(biāo)注之前句子的狀態(tài)集合為Si,其中只有一個狀態(tài), 表示為Sii;在對第一個詞進(jìn)行標(biāo)注時其候選標(biāo)注類型由步驟1-2定義,假設(shè)針對狀態(tài)集合Si 中的每個狀態(tài)在對當(dāng)前詞進(jìn)行標(biāo)注時所能選的標(biāo)注方式均為k個,則對狀態(tài)巧進(jìn)行完全的k 種標(biāo)注和擴(kuò)展后得到的狀態(tài)集合S2中有k個狀態(tài),表示為辭、巧、…、遠(yuǎn)(順序按得分高低 進(jìn)行排序);同理,在對第二個詞進(jìn)行標(biāo)注時,將對狀態(tài)集合S2中的每個狀態(tài)進(jìn)行k種擴(kuò)展, 得到的新的狀態(tài)集合將有k2個狀態(tài),表示天
W此類推,在 對第t個詞進(jìn)行擴(kuò)展后就得到了對整個句子的完全標(biāo)注狀態(tài)集合
,如果每次擴(kuò)展操作(即針對此進(jìn)行了何種標(biāo)注) 都能保留在擴(kuò)展后的新狀態(tài)中,就可W從狀態(tài)集合Sn+1中的每個狀態(tài)出發(fā)回溯,還原一個針 對該句子的完整標(biāo)注序列,其中由Sn+1中得分最高的那個狀態(tài)還原的序列就是該方法對該 句子的標(biāo)注結(jié)果。使用運(yùn)種捜索方法,將使?fàn)顟B(tài)集合大小快速增長,運(yùn)在現(xiàn)實(shí)操作中是不可 行的,所W本發(fā)明中采用了柱捜索的方式來減小每次擴(kuò)展后的狀態(tài)集合。柱捜索與完全捜 索不同的地方在于:在對前一個狀態(tài)集合中的所有狀態(tài)進(jìn)行擴(kuò)展時,不管得到的新狀態(tài) 集合的狀態(tài)數(shù)有多少個,都只保留得分最高的m(m的選取由使用者視具體任務(wù)而選擇,一般 m越大,得到的標(biāo)注精度越高,但開銷也越大,如在實(shí)施例1中選取的m為4)個,運(yùn)樣可W保證 針對每個詞的狀態(tài)擴(kuò)展操作完成后得到的新的狀態(tài)集合的大小不超過m。同完全捜索一樣, 從狀態(tài)集合Sn+i中得分最高的那個狀態(tài)出發(fā)往前回溯,還原得到的對該句子的標(biāo)注序列即 為該方法對該句子的標(biāo)注結(jié)果。本發(fā)明中就采用了運(yùn)種柱捜索方式。
[0033] 在整個步驟2中用n表示待分析句子的長度,步驟2包括如下步驟:
[0034] 步驟2-1,給定狀態(tài)下(一個狀態(tài)記錄了當(dāng)前句子中哪些詞已完成標(biāo)注及其已標(biāo)注 類型,同時記錄了哪些詞為為未標(biāo)注詞),在處理第t個詞時對所有標(biāo)注類型進(jìn)行打分;此時 給定的狀態(tài)即為待分析句子前t-1個詞已完成標(biāo)注且已知其對應(yīng)的標(biāo)注類型,第t到第n個 詞為未標(biāo)注詞W及第t個詞為下一個待處理詞;
[0035] 步驟2-2,給定狀態(tài)集合SS在處理第t個詞時對該狀態(tài)集合中的每個狀態(tài)巧按步驟 2-1中的方式對所有標(biāo)注類型進(jìn)行打分,該打分通過計算完成,將賦予每個標(biāo)注類型一個實(shí) 數(shù)值,此實(shí)數(shù)值稱為該類型對應(yīng)的得分,再按步驟1-2所述方式生成候選標(biāo)注類型,按每個 候選標(biāo)注類型對詞進(jìn)行標(biāo)注從而對該狀態(tài)進(jìn)行擴(kuò)展,并按柱捜索的方式挑選得分最高的m 個新狀態(tài),得到新的狀態(tài)集合;
[0036] 步驟2-3,對t = 1,2,…,n,執(zhí)行步驟2-1和2-2,得到最終的目標(biāo)狀態(tài)集合Sn+i,并取 出其中得分最高的狀態(tài).巧4,從該狀態(tài)出發(fā)回溯得到得分最高的標(biāo)注序列,此時所有詞的 類型標(biāo)注都已完成,將該得分最高的標(biāo)注序列還原為對應(yīng)的組塊分析結(jié)果,該結(jié)果即為當(dāng) 前句子的分析結(jié)果。
[0037] 本發(fā)明中所述的針對每個詞的狀態(tài)轉(zhuǎn)移操作即為在某個當(dāng)前句子狀態(tài)下,對讀入 的詞進(jìn)行的類別標(biāo)注操作。在對第t個詞進(jìn)行標(biāo)注時,給定前一個狀態(tài)集合St中的某一個狀 態(tài),所能進(jìn)行標(biāo)注的標(biāo)注類型集合由步驟1-2定義,對候標(biāo)注集合中每個標(biāo)注進(jìn)行打分的操 作由一個前向神經(jīng)網(wǎng)絡(luò)來完成,使用神經(jīng)網(wǎng)絡(luò)對當(dāng)前詞在給定狀態(tài)下所能進(jìn)行標(biāo)注的標(biāo)注 類型進(jìn)行打分的過程包括兩個步驟:一是特征信息的生成,即神經(jīng)網(wǎng)絡(luò)輸入的生成;二是利 用神經(jīng)網(wǎng)絡(luò)對所有候選類別進(jìn)行打分。步驟2-1具體包括如下步驟:
[0038] 步驟2-1-1,生成特征向量,特征向量包括基本信息特征向量和附加信息特征向 量;
[0039] 步驟2-1-2,利用前向神經(jīng)網(wǎng)絡(luò)對步驟2-1-1中生成的特征向量輸入進(jìn)行計算得到 所有候選標(biāo)注類型的得分。
[0040] 首先要指出的是,在信息處理中,針對每一個特征的表示主要有兩種方式,一種是 one-hot表示,另一種是分布式表示。one-hot表示用一個很長的向量來表示一個特征,向量 的長度為所有特征組成的特征詞典的大小,向量的分量中只有該特征在特征詞典中對應(yīng)的 位置為1,其他全為0;而分布式表示則是為每個特征賦予一個表示它的實(shí)值向量,向量的維 度依任務(wù)需要自行設(shè)定。需要指出的是,運(yùn)兩種表示方式在本領(lǐng)域內(nèi)被廣泛使用,應(yīng)為本領(lǐng) 域技術(shù)人員所熟知,此處不展開說明。本發(fā)明采用的表示方式為分布式表示,即對每個特征 賦予一個一定維度的實(shí)值向量,在實(shí)施例1中設(shè)定的特征維度大小為50。本發(fā)明中運(yùn)部分輸 入的生成包括兩個步驟,一是基本信息特征生成,二是附加信息特征的生成。在整個步驟2- 1-1中待分析句子中的所有詞從左到右依次表示為Wl ,Wn,Wn表示待分析句子中第n個 詞,n取值為自然數(shù);待分析句子中所有詞對應(yīng)的詞性從左到右依次表示為P1,P2,…,Pn,Pn 表示待分析句子中第n個詞對應(yīng)的詞性;一個特征*對應(yīng)的特征向量表示為e (*),步驟2-1-1 包括如下步驟:
[0041] 步驟2-1-1-1,生成基本信息特征向量?;拘畔⑻卣飨蛄堪╓當(dāng)前待標(biāo)注詞所 在位置為基準(zhǔn)的一定窗口內(nèi)的詞和詞性特征對應(yīng)的特征向量,W及W當(dāng)前待標(biāo)注詞所在位 置為基準(zhǔn)的一定窗口內(nèi)的已標(biāo)注詞所屬類別特征對應(yīng)的特征向量,具體過程如下:基本信 息特征中詞特征向量包括:W當(dāng)前待處理詞為中屯、向左數(shù)第二個詞對應(yīng)的特征向量e (W-2)、 W當(dāng)前待處理詞為中屯、向左數(shù)第一個詞對應(yīng)的特征向量e (W-I )、當(dāng)前待處理詞對應(yīng)的特征 向量e(WO)、W當(dāng)前待處理詞為中屯、向右數(shù)第一個詞對應(yīng)的特征向量e(Wi),W及W當(dāng)前待處 理詞為中屯、向右數(shù)第二個詞對應(yīng)的特征向量e (W2);
[0042] 詞性特征向量包括:W當(dāng)前待處理詞為中屯、向左數(shù)第二個詞的詞性對應(yīng)的特征向 量e(P-2)、W當(dāng)前待處理詞為中屯、向左數(shù)第一個詞的詞性對應(yīng)的特征向量e(P-1)、當(dāng)前待處 理詞的詞性對應(yīng)的特征向量e(p〇)、W當(dāng)前待處理詞為中屯、向右數(shù)第一個詞的詞性對應(yīng)的 特征向量e (Pi )、W當(dāng)前待處理詞為中屯、向右數(shù)第二個詞的詞性對應(yīng)的特征向量e (P2 )、W當(dāng) 前待處理詞為中屯、向左數(shù)第二個詞和第一個詞的詞性組合對應(yīng)的特征向量e(p-2p-i)、W當(dāng) 前待處理詞為中屯、向左數(shù)第一個詞和當(dāng)前待處理詞的詞性組合對應(yīng)的特征向量e(p-ipo)、 W當(dāng)前待處理詞為中屯、向右數(shù)第一個詞和當(dāng)前待處理詞的詞性組合對應(yīng)的特征向量e (POPi)、W當(dāng)前待處理詞為中屯、向右數(shù)第二個詞和第一個詞的詞性組合對應(yīng)的特征向量e (P1P2);
[0043] 在組塊分析任務(wù)中,在每一步中對每個標(biāo)注類型進(jìn)行打分所用的基本特征一般包 括W當(dāng)前待標(biāo)注詞所在位置為基準(zhǔn)的一定窗口內(nèi)的詞和詞性特征、W當(dāng)前待標(biāo)注詞所在位 置為基準(zhǔn)的一定窗口內(nèi)的已標(biāo)注詞所屬類別特征。通常,當(dāng)前的詞被記作W0,左邊第i個詞 被記作w-i,右邊第i個詞被記作Wi;當(dāng)前詞的詞性被記作PO,左邊第i個詞的詞性被記作p-i, 右邊第i個詞的詞性被記作Pi;已標(biāo)注詞所屬類別特征與前面兩種有一定差異,因?yàn)閷τ谡?個句子的所有詞和詞性信息是分析開始就知道的,所W窗口一般是W當(dāng)前詞為基準(zhǔn)向兩邊 同時擴(kuò)展,而由于標(biāo)注過程是從左向右的,在標(biāo)注一個待標(biāo)注詞時,只有當(dāng)前詞左邊的詞的 標(biāo)注類型是已知的,所W只能W當(dāng)前詞為基準(zhǔn)向左擴(kuò)展,記當(dāng)前詞左邊第i個詞已標(biāo)注類型 為t-i"i的選取根據(jù)所選擇的窗口大小的不同而不同,如實(shí)施例1中選定的i的值為2(即窗口 大小為5),其所對應(yīng)的基本特征如表3、表4和表5所示:
[0044] 表3基本詞特征
[0045]
[0046]
[0047]
[004引親5詞所屬類別據(jù)佈
[0049]
[0050] 需要說明的是,上述基于詞和詞性的特征為本領(lǐng)域技術(shù)人員所熟知,且被廣泛使 用,所W此處不再做更進(jìn)一步的說明,具體可W參考下述參考文獻(xiàn):加 en W,Zhang Y, Isahara H.An empirical study of Chinese chunking[C]//Proceedings of the COLING/ACLon Main conference poster sessions.Association for Computational Linguistics,2006:97-104.
[0051] 上述已標(biāo)注詞的類別特征與傳統(tǒng)的如隱馬爾科夫、條件隨機(jī)場等模型中的意義相 同,但使用方式有差異:本發(fā)明中將其作為與前述詞和詞性特征同等的特征來處理,而傳統(tǒng) 模型中利用動態(tài)規(guī)劃的方式來處理,對比傳統(tǒng)模型中i的增加將帶來時間開銷的快速增長, 本發(fā)明中的基于狀態(tài)轉(zhuǎn)移的方式在i增加時時間開銷增長甚微,運(yùn)也是基于狀態(tài)轉(zhuǎn)移的方 式在融入運(yùn)類特征時速度上的一個優(yōu)勢;
[0052] 步驟2-1-1-2,生成附加信息特征向量:附加信息特征向量包括W當(dāng)前待標(biāo)注詞所 在位置為基準(zhǔn)的一定窗口內(nèi)已標(biāo)注組塊相關(guān)的詞特征向量和詞性特征向量、使用雙向長短 記憶神經(jīng)網(wǎng)絡(luò)模型計算的當(dāng)前待標(biāo)注位置的詞特征向量和詞性特征向量。
[0化3] 步驟2-1-1-2包含如下步驟:
[0054] 步驟2-1-1-2-1,W當(dāng)前待處理詞為中屯、向左數(shù)第二個組塊、第一個組塊分別表示 為c-2、c-i,組塊Ci的第一個詞表示為sta;rt_word(Ci),最后一個詞表示為end_word(Ci),i =-2 ,-I,語法中屯、詞表示為head_word(Ci),組塊Ci的第一個詞的詞性表示為sta;rt_P0S (Ci)、最后一個詞的詞性表示為end_P0S( Ci),語法中屯、詞的詞性表示為head_P0S( Ci),生成 W當(dāng)前待標(biāo)注詞所在位置為基準(zhǔn)的一定窗口內(nèi)已標(biāo)注組塊相關(guān)的詞特征向量和詞性特征 向量:組塊級別的詞特征向量包括:W當(dāng)前待處理詞為中屯、向左數(shù)第二個組塊的第一個詞 的特征向量e(start_word(c-2))、W當(dāng)前待處理詞為中屯、向左數(shù)第二個組塊的最后一個詞 的特征向量e (end_word(C-2))、W當(dāng)前待處理詞為中屯、向左數(shù)第二個組塊的語法中屯、詞的 特征向量e化ead_word(c-2))、W當(dāng)前待處理詞為中屯、向左數(shù)第一個組塊的第一個詞的特征 向量e(start_word(c-i))、W當(dāng)前待處理詞為中屯、向左數(shù)第一個組塊的最后一個詞的特征 向量e(end_word(c-i))、W當(dāng)前待處理詞為中屯、向左數(shù)第一個組塊的語法中屯、詞的特征向 Me(head_word(c-i));
[0055] 組塊級別的詞性特征向量包括:W當(dāng)前待處理詞為中屯、向左數(shù)第二個組塊的第一 個詞的詞性的特征向量e(start_P0Sk-2))、W當(dāng)前待處理詞為中屯、向左數(shù)第二個組塊的最 后一個詞的詞性的特征向量(end_P0S(c-2))、W當(dāng)前待處理詞為中屯、向左數(shù)第二個組塊的 語法中屯、詞的詞性的特征向量e化ead_P0S(c-2))、W當(dāng)前待處理詞為中屯、向左數(shù)第一個組 塊的第一個詞的詞性的特征向量e(start_P0S(c-i)、W當(dāng)前待處理詞為中屯、向左數(shù)第一個 組塊的最后一個詞的詞性的特征向量e(end_P0S(c-i))、W當(dāng)前待處理詞為中屯、向左數(shù)第一 個組塊的語法中屯、詞的詞性的特征向量e化ead_P0S(c-i));i的選取根據(jù)所選擇的窗口大小 的不同而不同,如實(shí)施例1中選定的i的值為2,其對應(yīng)的組塊級別的特征如表6所示:
[0056] 表6組塊級別詞與詞性特征
[0化7]
[0058] 需要說明的是,上述組塊級別的特征在傳統(tǒng)的條件隨機(jī)場等模型下由于受馬爾科 夫假設(shè)的限制,所W沒法像在本發(fā)明中運(yùn)樣被使用,但是在通過一種復(fù)雜且進(jìn)行剪枝后的 動態(tài)規(guī)劃算法中有被使用,具體可W參考W下文獻(xiàn):Zhou J,Qu W,Zhang F.Exploiting chunk-level fe曰tures to improve phr曰se chunking[C]//Proceedings of the 2012Joint Conference on Empiric曰I Methods in Natural Langimge Processing and Computational Natural Language Learning.Association for Computational Linguistics,2012:557-567.
[0059] 步驟2-1-1-2-2,使用雙向長短記憶神經(jīng)網(wǎng)絡(luò)模型計算生成當(dāng)前待標(biāo)注位置的詞 和詞性信息特征向量:雙向長短記憶神經(jīng)網(wǎng)絡(luò)模型的輸入為待分析句子中的所有詞W及待 分析句子中所有詞對應(yīng)的詞性,輸出為前向詞特征向量、前向詞性特征向量、后向詞特征向 量和后向詞性特征向量。首先需要說明的是下面公式中所用的tanh是雙曲函數(shù),為一個實(shí) 值函數(shù),其作用在一個向量上表示對向量中的每個元素都做此操作,得到一個與輸入向量 維度相同的目標(biāo)向量;0是31旨1110(1函數(shù),為一個實(shí)值函數(shù),其作用在一個向量上表示對向量 中的每個元素都做此操作,得到一個與輸入向量維度相同的目標(biāo)向量;O是點(diǎn)乘運(yùn)算,即將 兩個維度相同的向量按位做乘法得到一個相同維度的結(jié)果向量。運(yùn)四種特征向量的計算過 程如下:
[0060] 前向詞特征向量依次表示為hf (Wi) ,hf(W2),…,hf(Wn),hf (WtKt= 1,…,n)表示第t 個前向詞特征向量,其計算方式按如下公式進(jìn)行:
占、W。*?、贈'、是已經(jīng)訓(xùn)練(訓(xùn)練過程采用說明書中模型參數(shù)訓(xùn)練方法的 附加說明中的方式完成)好的模型參數(shù)矩陣,矩陣中每個元素的值均為實(shí)數(shù)值,運(yùn)組參數(shù)與 t無關(guān),即一個計算序列中的所有計算單元共享同一組參數(shù);
[0067] iff、i^f、〇r墻第t個計算單元中的中間計算結(jié)果,均為實(shí)值向量;
[006引 G(Wt) V(Wt-I)、c熱是第t個計算單元的輸入,均為實(shí)值向量,其中的e(w0即為詞 Wt對應(yīng)的特征向量;hf(w0、cff為第t個計算單元的輸出,皆哨長短記憶神經(jīng)網(wǎng)絡(luò)模型的輔 助計算結(jié)果,最終作為前向詞特征向量的只有hf(wt-i),由于運(yùn)是一個序列化的計算模型, 第t-1個計算單元的輸出hf(wt-i)、雌fi即為第t個計算單元的輸入;
[0069] W/fh'f(wt_,.),e〇t)等均為矩陣乘法操作。
[0070] 前向詞性特征向量依次表示為hf(p2),???,hf(Pn),hf(pt)(t = :[,???,n)表示第t個前 向詞性特征向量,其計算方式按如下公式進(jìn)行:
[0071]
[0072]
[0073]
[0074]
[0075]
[0076] , %夢,W//、是已經(jīng)訓(xùn)練(訓(xùn)練過程采用說明書中模型參數(shù)訓(xùn)練方法的附加說 明中的方式完成)好的模型參數(shù)矩陣,矩陣中每個元素的值均為實(shí)數(shù)值,運(yùn)組參數(shù)與t無關(guān), 即一個計算序列中的所有計算單元共享同一組參數(shù);
[0077] ffs if、of是第t個計算單元中的中間計算結(jié)果,均為實(shí)值向量;
[0078] 6(9〇山1(9*-1)、〇[>_!1是第*個計算單元的輸入,均為實(shí)值向量,其中的6(90即為詞 性Pt對應(yīng)的特征向量;hf(pt)、詩f為第t個計算單元的輸出,諱f為長短記憶神經(jīng)網(wǎng)絡(luò)模型的 輔助計算結(jié)果,最終作為前向詞特征向量的只有hf (Pt-I),由于運(yùn)是一個序列化的計算模 型,第t-1個計算單元的輸出即為第t個計算單元的輸入;
[0079]
等均為矩陣乘法操作。
[0080] 后向詞特征向量依次表示為hb(Wl),hb(W2),…,hb(Wn),hb(Wt)(t=l,…,n)表示第t 個后向詞特征向量,其計算方式按如下公式進(jìn)行:
[0081]
[0082]
[0083]
[0084]
[0085]
[0086] 皆WeT、、踢6是已經(jīng)訓(xùn)練(訓(xùn)練過程采用說明書中模型參數(shù)訓(xùn)練方法的 附加說明中的方式完成)好的模型參數(shù)矩陣,矩陣中每個元素的值均為實(shí)數(shù)值,運(yùn)組參數(shù)與 t無關(guān),即一個計算序列中的所有計算單元共享同一組參數(shù);
[0087] 於6,貨6、OfWA是第t個計算單元中的中間計算結(jié)果,均為實(shí)值向量.
[008引e(wt)、hb(wt+i)、c銷是第t個計算單元的輸入,均為實(shí)值向量,其中的e(wt)即為詞 Wt對應(yīng)的特征向量;hb(Wt)、發(fā)6為第t個計算單元的輸出,皆6為長短記憶神經(jīng)網(wǎng)絡(luò)模型的輔 助計算結(jié)果,最終作為前向詞特征向量的只有hb(wt-i),由于運(yùn)是一個序列化的計算模型, 第t+1個計算單元的輸出hb(Wt-l)、啤;即為第t個計算單元的輸入;
[0089]
等均為矩陣乘法操作。
[0090] 后向詞性特征向量依次表示為hb(pi) ,hb(p2),…,hb(Pn),hb(pt)(t = l,???,n)表示 第t個后向詞性特征向量,,其計算方式按如下公式進(jìn)行:
[0091]
[0092]
[0093]
[0094]
[0095]
[0096] 、錯氣喊氣蠟6是已經(jīng)訓(xùn)練(訓(xùn)練過程采用說明書中模型參數(shù)訓(xùn)練方法的 附加說明中的方式完成)好的模型參數(shù)矩陣,矩陣中每個元素的值均為實(shí)數(shù)值,運(yùn)組參數(shù)與 t無關(guān),即一個計算序列中的所有計算單元共享同一組參數(shù);
[0097] /fj、/f、是第t個計算單元中的中間計算結(jié)果,均為實(shí)值向量;
[0098] 6(9〇山6(9^)、(:|^1是第*個計算單元的輸入,均為實(shí)值向量,其中的6(9〇即為詞 性Pt對應(yīng)的特征向量;hb(p〇、cf為第t個計算單元的輸出,cf為長短記憶神經(jīng)網(wǎng)絡(luò)模型的 輔助計算結(jié)果,最終作為前向詞特征向量的只有hb(pw),由于運(yùn)是一個序列化的計算模 型,第t+1個計算單元的輸出hb(pw)、c|;i即為第t個計算單元的輸入
[0099] M紫的化+1)、W若e如)等均為矩陣乘法操作。
[0100] 為了充分利用句子中離當(dāng)前待標(biāo)注詞更遠(yuǎn)距離的詞串和詞性串的模式信息,本發(fā) 明采用雙向長短記憶神經(jīng)網(wǎng)絡(luò)模型來計算當(dāng)前待標(biāo)注詞所在位置的詞和詞性信息特征。具 體計算過程分前向和后向兩步,前向從左向右,后向從右向左,計算方式一致,故此處僅詳 細(xì)說明前向計算過程:首先,假設(shè)句子長度為n,句子中的詞從左到右依次表示為W1,W2,…, Wn,其對應(yīng)的特征向量依次為e(wi),e(W2),…e(Wn);句子中的詞性從左到右依次表示為Pi, P2,…,Pn,其對應(yīng)的特征向量依次為e (Pl ),e (P2 ),…e (Pn);另外將計算所得的前向詞特征向 量依次表示為hf(wi),hf(W2),…,hf(Wn),將計算所得的前向詞性特征向量依次表示為hf (Pl),hf(P2),…,hf(Pn);需要說明的是,運(yùn)些向量均為已經(jīng)訓(xùn)練好的實(shí)值向量,它們的維度 由使用者設(shè)定,如實(shí)施例1中Wt和Pt的維度設(shè)定為50,hf(wt)和hf(pt)的維度設(shè)定為25。
[0101] 步驟2-1-2中使用了前向神經(jīng)網(wǎng)絡(luò)來計算得到所有標(biāo)注類型的得分,步驟2-1-1結(jié) 束后,便得到了一個由步驟2-1-1中所述的所有特征對應(yīng)的向量拼接而成的實(shí)值向量,其維 度大小為前述所有特征向量的維度之和,運(yùn)個向量作為前向神經(jīng)網(wǎng)絡(luò)的輸入,整個前向神 經(jīng)網(wǎng)絡(luò)的計算過程按如下公式進(jìn)行:
[0102] h = 〇(Wix+bi),
[0103] 〇=W2h,
[0104] 其中,Wi、bi、W2是已訓(xùn)練好的模型參數(shù)矩陣,矩陣中每個元素的值均為實(shí)數(shù)值;X是 輸入向量,它由步驟2-1-1中所得的所有特征向量拼接而成,其維度為步驟-1-1中生成的所 有特性向量的維度之和,其每個元素的值均為實(shí)數(shù)值;h是神經(jīng)網(wǎng)絡(luò)的隱層向量,是中間計 算結(jié)果單元,它是一個向量,其維度由事先定義好,如在實(shí)施例1中其維度大小為300;〇是計 算輸出,是一個實(shí)值向量,其維度大小對應(yīng)于步驟1-2中定義的標(biāo)注過程中對每個詞進(jìn)行標(biāo) 注時所能選擇的標(biāo)注類型數(shù),其中第g個值表示將當(dāng)前步驟標(biāo)為類型g的得分;Wix、W油均為 矩陣乘法操作。
[01化]步驟2-2包括如下步驟:
[0106] 步驟2-2-1,給定前一個狀態(tài)集合中的每個狀態(tài),按步驟2-1中的方式對所有標(biāo)注 類型進(jìn)行打分。假設(shè)狀態(tài)Sx的得分為score(Sx),標(biāo)注類型typek的得分為score(typek),假設(shè)對 所有標(biāo)注類型都進(jìn)行擴(kuò)展,則擴(kuò)展后將得到K個新的目標(biāo)狀態(tài),表示為巧 1+1,《1+1,...,S'記i,K 為所有標(biāo)注類型總數(shù),按如下公式計算第k個狀態(tài)的對應(yīng)得分score(巧戶)::
[0107]
[0108] 其中,k取值為1~K,運(yùn)些得分均為實(shí)數(shù)值。按步驟1-2中的方式確定候選標(biāo)注類 型,按候選標(biāo)注類型將狀態(tài)辭進(jìn)行擴(kuò)展,假設(shè)狀態(tài)集合St中的狀態(tài)按步驟1-2中的方式確定的 候選標(biāo)注類型有C (i)個,則對狀態(tài)擴(kuò)展后將得到C (i)個新狀態(tài),表示為.?" 1,種2^,... ,.?;?;
[0109] 步驟2-2-2,假設(shè)狀態(tài)集合St有Z個狀態(tài),Z取值為自然數(shù),將狀態(tài)集合St中所有狀態(tài)按 步驟2-2-1中的方式進(jìn)行擴(kuò)展,所有擴(kuò)展后的狀態(tài)為S打1,巧2",...,.皆品,巧1胃1,,…,巧品;
[0110] 步驟2-2-3,按柱捜索的方式從步驟2-2-2中得到的所有擴(kuò)展后的狀態(tài)中取出得分 最高的m個狀態(tài),組成新的狀態(tài)集合,
。
[0111] 有益效果:本發(fā)明中的漢語組塊分析方法使用的基于狀態(tài)轉(zhuǎn)移的方法相比于被廣 泛使用的基于馬爾科夫假設(shè)的方法可W更靈活地添加組塊級別的特征,同時在對每個狀態(tài) 的候選轉(zhuǎn)移類型進(jìn)行打分時采用的神經(jīng)網(wǎng)絡(luò)模型可W自動學(xué)到特征之間的組合方式,此外 雙向長短記憶神經(jīng)網(wǎng)絡(luò)模型的利用引入了有用的附加信息特征,立者結(jié)合起來提高了漢語 組塊分析的精確度。
【附圖說明】
[0112] 下面結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明做更進(jìn)一步的具體說明,本發(fā)明的上述 和/或其他方面的優(yōu)點(diǎn)將會變得更加清楚。
[0113] 圖1是長短記憶神經(jīng)網(wǎng)絡(luò)計算單元示意圖。
[0114] 圖2是前向長短記憶神經(jīng)網(wǎng)絡(luò)計算序列網(wǎng)絡(luò)結(jié)構(gòu)示意圖。
[0115] 圖3是前向神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖。
[0116] 圖4是本發(fā)明的流程圖。
【具體實(shí)施方式】
[0117] 本發(fā)明提出了一種基于狀態(tài)轉(zhuǎn)移與神經(jīng)網(wǎng)絡(luò)的漢語組塊分析方法。它在對句子中 的每個詞進(jìn)行組塊類型標(biāo)注時,先根據(jù)已有信息構(gòu)建相關(guān)信息特征,然后利用神經(jīng)網(wǎng)絡(luò)對 所有候選類別進(jìn)行打分,然后執(zhí)行狀態(tài)轉(zhuǎn)移操作。在現(xiàn)有漢語組塊分析技術(shù)中,由于模型自 身假設(shè)的原因?qū)е聦h(yuǎn)距離特征的使用不夠充分,并且要求手動設(shè)計復(fù)雜的特征模板,本 發(fā)明提出的方法有效緩解了運(yùn)兩個缺點(diǎn)。
[0118] 如圖4所示,本發(fā)明公開了一種基于狀態(tài)轉(zhuǎn)移與神經(jīng)網(wǎng)絡(luò)的漢語組塊分析方法,它 既可W靈活地添加組塊級別的特征,又可W使用神經(jīng)網(wǎng)絡(luò)模型自動學(xué)到特征之間的組合方 式,還通過雙向長短記憶神經(jīng)網(wǎng)絡(luò)模型使用引入了有用的附加信息特征,進(jìn)而提高了漢語 組塊分析的精確度。
[0119] 本發(fā)明所述的完整基于狀態(tài)轉(zhuǎn)移與神經(jīng)網(wǎng)絡(luò)的漢語組塊分析過程包括如下步驟:
[0120] 步驟1,計算機(jī)讀取一個包含待分析句子的漢語文本文件,定義漢語組塊的類型, 對待分析句子進(jìn)行分詞并對每個詞進(jìn)行詞性標(biāo)注,進(jìn)行詞性標(biāo)注時,根據(jù)當(dāng)前句子狀態(tài)確 定所能選擇的詞性標(biāo)注類型;
[0121] 步驟2,對讀取的每個句子利用基于狀態(tài)轉(zhuǎn)移和神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行組塊分析。
[0122] 本發(fā)明所述的定義漢語組塊類型和標(biāo)注類型時包括如下步驟:
[0123] 步驟1-1,定義好要分析的組塊類型。組塊類型由使用者根據(jù)其具體目標(biāo)自行選 擇,傳統(tǒng)的漢語組塊分析任務(wù)一般有兩種具體的短語識別任務(wù):一是只針對名詞短語進(jìn)行 識別,二是針對在賓州樹庫中文版CTB4.0的基礎(chǔ)上定義的12種類型的組塊進(jìn)行識別;
[0124] 步驟1-2,確定標(biāo)注過程中對每個詞進(jìn)行標(biāo)注時所能選擇的標(biāo)注類型。將句子中的 每個詞標(biāo)注W組塊類型和BIO或BIOES的組合。
[0125] 首先假設(shè)所要處理的句子長度為n,定義句子的一個狀態(tài)記錄了當(dāng)前句子哪些詞 已被標(biāo)注、每個已標(biāo)注詞對應(yīng)的標(biāo)注類型W及哪些詞還未標(biāo)注,將在對第i個詞進(jìn)行標(biāo)注之 前句子處于的狀態(tài)集合表示為SS其中的狀態(tài)表示為4,所采用的柱捜索方法中柱的大小設(shè) 為m,其中的本發(fā)明所述的針對該句子的分析過程包括如下步驟:
[01 %]步驟3-1,給定狀態(tài)下,在處理第t個詞時對所有標(biāo)注類型進(jìn)行打分;
[0127]步驟3-2,給定狀態(tài)集合St,在處理第t個詞時,針對該狀態(tài)集合中的每個狀態(tài)《按 每個候選標(biāo)注類型進(jìn)行標(biāo)注,對狀態(tài)進(jìn)行擴(kuò)展,并按柱捜索的方式挑選得分最高的m個新狀 態(tài),得到新的狀態(tài)集合S^;
[01巧]步驟3-3,對t = l,2,…,n,迭代執(zhí)行步驟3-1和3-2,得到最終的目標(biāo)狀態(tài)集合Sn+i, 并取出其中得分最高的狀態(tài)回溯得到該句子的整個標(biāo)注序列。
[0129] 其中本發(fā)明所述的在對第t個詞進(jìn)行處理時,給定前一個狀態(tài)集合St中的某一個 狀態(tài),所能進(jìn)行標(biāo)注的標(biāo)注類型集合由步驟1-2定義,對標(biāo)注集合中每個標(biāo)注進(jìn)行打分的操 作由一個前向神經(jīng)網(wǎng)絡(luò)來完成,使用神經(jīng)網(wǎng)絡(luò)對當(dāng)前詞在給定狀態(tài)下所能進(jìn)行標(biāo)注的標(biāo)注 類型進(jìn)行打分的過程包括兩個步驟:一是特征信息的生成,即神經(jīng)網(wǎng)絡(luò)輸入的生成;二是利 用神經(jīng)網(wǎng)絡(luò)對所有候選類別進(jìn)行打分,步驟3-1具體包括如下步驟:
[0130] 步驟3-1-1,前向神經(jīng)網(wǎng)絡(luò)輸入的生成;
[0131] 步驟3-1-2,如圖3所示,利用前向神經(jīng)網(wǎng)絡(luò)對步驟3-1-1中生成的特征向量輸入進(jìn) 行計算得到所有候選標(biāo)注類型的得分。
[0132] 本發(fā)明所述的前向神經(jīng)網(wǎng)絡(luò)輸入的生成包括兩個步驟,一是基本信息特征生成, 二是附加信息特征的生成。步驟3-1-1包括如下步驟:
[0133] 步驟3-1-1-1,生成基本信息特征。包括W當(dāng)前待標(biāo)注詞所在位置為基準(zhǔn)的一定窗 口內(nèi)的詞和詞性特征、W當(dāng)前待標(biāo)注詞所在位置的一定窗口內(nèi)的已標(biāo)注詞所屬類別特征, 詞特征有e(w-2),e(w-i),e(wo),e(wi),e(W2),它們分別表示W(wǎng)當(dāng)前待處理詞為中屯、向左數(shù) 第二、第一個詞、當(dāng)前詞、W當(dāng)前詞為中屯、向右數(shù)第一、第二個詞對應(yīng)的特征向量;詞性特征 有e(p-2),e(p-〇,e(p〇),e(p〇,e(p2),e(p-2p-〇,e(p-ip〇),e(p〇p〇,e(pip2),e(p-2p-ip〇),e (p-ip〇pi),e(p〇pip2),它們分別表示W(wǎng)當(dāng)前待處理詞為中屯、向左數(shù)第二、第一個詞的詞性、 當(dāng)前詞的詞性、W當(dāng)前詞為中屯、向右數(shù)第一、第二個詞的詞性、向左數(shù)第二和第一個詞的詞 性組合、向左數(shù)第一和當(dāng)前詞的詞性組合等對應(yīng)的特征向量。運(yùn)些特征向量均為已訓(xùn)練好 的實(shí)值向量。
[0134] 步驟3-1-1-2,生成附加信息特征,包括W下兩個步驟:
[0135] 步驟3-1-1-2-1,生成W當(dāng)前待標(biāo)注詞所在位置為基準(zhǔn)的一定窗口內(nèi)已標(biāo)注組塊 相關(guān)的詞和詞性特征。組塊級別的詞特征有6(31曰1'1:_\¥0'(1((3-2)),6(6]1(1_\¥0'(1((3-2)),6 (head_word(c-2)),e(s1:a;rt_word(c-i),e(end_word(c-i)) ,e化ead_word(c-i)),分別表示W(wǎng) 當(dāng)前待處理詞為中屯、向左數(shù)第二個組塊的第一個詞、最后一個詞、語法中屯、詞、W當(dāng)前詞為 中屯、向左數(shù)第一個組塊的第一個詞、最后一個詞、語法中屯、詞;組塊級別的詞性特征有e (sta;rt_P0S(c-2)), (end_P0S(c-2)),e化ead_P0S(c-2)),e(sta;rt_P0S(c-i),e(end_P0S (c-i)),e化eacLPOS(c-i)),分別表示W(wǎng)當(dāng)前待處理詞為中屯、向左數(shù)第二個組塊的第一個詞 的詞性、最后一個詞的詞性、語法中屯、詞的詞性、W當(dāng)前詞為中屯、向左數(shù)第一個組塊的第一 個詞的詞性、最后一個詞的詞性、語法中屯、詞的詞性。運(yùn)些特征向量均為已訓(xùn)練好的實(shí)值向 量;
[0136] 步驟3-1-1-2-2,生成使用雙向長短記憶神經(jīng)網(wǎng)絡(luò)模型計算的當(dāng)前待標(biāo)注位置的 詞和詞性信息特征。運(yùn)一步的輸入為句子中的所有詞,從左到右依次表示為W1,W2,…,Wn; W 及句子中所有詞對應(yīng)的詞性,從左到右依次表示為P1,P2,…,Pn。輸出為前向詞特征向量,依 次表示為hf(wi),hf(W2),…,hf(Wn);前向詞性特征向量,依次表示為為hf(pi),hf(p2),???,hf (Pn);后向詞特征向量,依次表示為hb(Wl),hb(W2),…,hb(Wn);后向詞性特征向量,依次表示 為hb(pi),hb(p2),…,hb(Pn)。由于后向和前向相比只是計算方向上的差異,計算方式一樣, 所W此處只詳細(xì)說明前向計算過程,針對每個hf(x)(x可W為Wt或Pt(t=l,2,'''n),只是輸 入和計算參數(shù)不同,計算方式完全一致,簡寫為ho,按如下公式進(jìn)行計算:
[0137] ft = 〇(Wftht-i+WfxXt+WfcCt-i+bf),
[013引 it = 0(Wihht-i+WixXt+WicCt-i+bi),
[0139] ct = ft 曰 ct-1+it 曰 tanh(Wchht-i+Wc巧t+bc),
[0140] 〇t = o(W〇化t-1+WoxXt+WocCt+bo),
[0141] ht = 〇t O 1:anh(;ct),
[0142] 其中,胖化、胖打、胖相心、胖化、胖心胖1。心、胖。4、胖"^心、胖。4、胖。義、胖。。、6。是已經(jīng)訓(xùn)練(訓(xùn)練過 程采用本發(fā)明中的分析方法結(jié)合極大似然訓(xùn)練數(shù)據(jù)集中的正確標(biāo)注序列的方式實(shí)現(xiàn))好的 模型參數(shù)矩陣,矩陣中每個元素的值均為實(shí)數(shù)值,需要指出的是,運(yùn)組參數(shù)與t無關(guān),也就是 說,一個計算序列中的所有計算單元共享同一組參數(shù),因?yàn)楸景l(fā)明中設(shè)及詞和詞性各自的 正向、逆向計算序列,所W共有4組參數(shù);是第t個計算單元中的中間計算結(jié)果,均為 實(shí)值向量;ht-i、Ct-I、xt是第t個計算單元的輸入,均為實(shí)值向量,其中的Xt即為e(Wt)或e (Pt) ;Ct、ht為第t個計算單元的輸出,但Ct為長短記憶神經(jīng)網(wǎng)絡(luò)模型的輔助計算結(jié)果,最終 作為詞或詞性特征向量的只有ht,ht即為目標(biāo)特征向量hf(wt)或hf(pt),需要指出的是,由于 運(yùn)是一個序列化的計算模型,第t-1個計算單元的輸出即為第t個計算單元的輸入; tanh是雙曲函數(shù),為一個實(shí)值函數(shù),其作用在一個向量上表示對向量中的每個元素都做此 操作,得到一個與輸入向量維度相同的目標(biāo)向量;O是Sigmod函數(shù),為一個實(shí)值函數(shù),其作用 在一個向量上表示對向量中的每個元素都做此操作,得到一個與輸入向量維度相同的目標(biāo) 向量;0是點(diǎn)乘運(yùn)算,即將兩個維度相同的向量按位做乘法得到一個相同維度的結(jié)果向量; Wftht-I、WfxXt等均為矩陣乘法操作。
[0143] 步驟3-1-2,利用前向神經(jīng)網(wǎng)絡(luò)對步驟3-1-1中生成的特征向量輸入進(jìn)行計算得到 所有標(biāo)注類型的得分。步驟3-1結(jié)束后,便得到了一個由步驟3-1中所述的所有特征對應(yīng)的 向量拼接而成的實(shí)值向量,其維度大小為前述所有特征向量的維度之和,運(yùn)個向量作為前 向神經(jīng)網(wǎng)絡(luò)的輸入,整個前向神經(jīng)網(wǎng)絡(luò)的計算過程按如下公式進(jìn)行:
[0144] h = 〇(Wix+b)
[0145] 〇=W2h
[0146] 其中,Wi、b、化是已訓(xùn)練好的模型參數(shù)矩陣,矩陣中每個元素的值均為實(shí)數(shù)值;X是 輸入向量,其每個元素的值均為實(shí)數(shù)值;O是計算輸出,是一個實(shí)值向量,其維度大小對應(yīng)于 步驟1-2中定義的標(biāo)注過程中對每個詞進(jìn)行標(biāo)注時所能選擇的標(biāo)注類型數(shù),其中第i個值表 示將當(dāng)前步驟標(biāo)為類別i的得分;Wix、W油均為矩陣乘法操作。
[0147] 步驟3-2,給定狀態(tài)集合SS在處理第t個詞時,針對該狀態(tài)集合中的每個狀態(tài)巧按 每個候選標(biāo)注類型進(jìn)行標(biāo)注,對狀態(tài)進(jìn)行擴(kuò)展,并按柱捜索的方式挑選得分最高的m個新狀 態(tài),得到新的狀態(tài)集合St+i。包括W下步驟:
[0148] 步驟3-2-1,給定前一個狀態(tài)集合中的每個狀態(tài)辭,按步驟3-1中的方式對所有標(biāo) 注類型進(jìn)行打分,假設(shè)狀態(tài)Sx的得分為score(Sx),標(biāo)注類型typek的得分為score(typek), 假設(shè)對所有類型都進(jìn)行擴(kuò)展的話,則擴(kuò)展后將得到K化為所有標(biāo)注類型總數(shù))個新的目標(biāo)狀 態(tài),表示為巧1,瑞+1,…,萌-1,其對應(yīng)得分按如下公式進(jìn)行計算:
[0149]
[0150] 其中,運(yùn)些得分均為實(shí)數(shù)值。然后按步驟1-2中的約束規(guī)則確定候選標(biāo)注類型,按運(yùn)些 標(biāo)注類型將狀態(tài)巧進(jìn)行擴(kuò)展,假設(shè)狀態(tài)集合St中的某個狀態(tài)巧按步驟1-2中的約束規(guī)則確定的候 選標(biāo)注類型有c(i)個,則對狀態(tài)巧擴(kuò)展后將得到c(i)個新狀態(tài)康示為敬1,敬1,…瑞a;
[0151] 步驟3-2-2,將狀態(tài)集合St(假設(shè)有m個狀態(tài))中所有狀態(tài)按步驟3-2-1中的方式進(jìn) 行擴(kuò)展,所有擴(kuò)展后的狀態(tài)為巧1+-I,適+-I,…,饋苗,巧瑞
[0152] 步驟3-2-3,從步驟3-2-2中得到的所有狀態(tài)中取出得分最高的m個狀態(tài),組成新的 狀態(tài)集省
[0153] 步驟3-3,對t = l,2,…,n,執(zhí)行步驟3-1和3-2,得到最終的目標(biāo)狀態(tài)集合Sn+i,并取 出其中得分最高的狀態(tài)巧^+1,回溯得到該句子的整個標(biāo)注序列,進(jìn)而得到句子對應(yīng)的組塊 分析結(jié)果。
[0154] 本發(fā)明所述的分析過程中所使用的模型參數(shù)訓(xùn)練方法的附加說明如下:
[0155] 從分析過程中的步驟2可W知道,本發(fā)明所述的分析過程中所用的的參數(shù)包括如 下幾個部分(后面叫運(yùn)些參數(shù)為模型參數(shù)組):
[0156] 1、各個特征對應(yīng)的特征向量,此處用e(*)表示,其中的*表示步驟2-1-1-1中的基 本詞特征和基本詞性特征W及步驟2-1-1-2-1中的組塊級別的詞特征和詞性特征,即訓(xùn)練 預(yù)料中出現(xiàn)的所有詞和詞性W及相鄰兩個詞的組合和相鄰兩個詞性的組合都對應(yīng)一組特 征向量;
[0157] 2、步驟2-1-1-2-2中的計算前向詞序列所用的神經(jīng)網(wǎng)絡(luò)參數(shù)、Wff、W/:/、 與、W/f、 昭6、
[0161] 6、步驟2-1 -2中所用的前向神經(jīng)網(wǎng)絡(luò)參數(shù)Wi、胖2。
[0162] 訓(xùn)練過程采用極大似然訓(xùn)練數(shù)據(jù)集中的正確標(biāo)注序列的、使用迭代方式實(shí)現(xiàn)。在 訓(xùn)練開始之前,隨機(jī)對模型參數(shù)組中的參數(shù)進(jìn)行取值,例如實(shí)施例1和實(shí)施例2都按-0.1到 0.1之間的均勻分布隨機(jī)采樣取值。然后使用已標(biāo)注數(shù)據(jù)集(假設(shè)數(shù)據(jù)集大小為D)dataest ={senti,sent2,? ? ?,sentn}對參數(shù)進(jìn)行訓(xùn)練:首先定義一個訓(xùn)練目標(biāo),該目標(biāo)定義在整個數(shù) 據(jù)集上,又稱為損失函數(shù),它是整個模型參數(shù)組中所有參數(shù)的函數(shù),假設(shè)為L(dataset),針 對每一個句子sentr的損失函數(shù)表示為loss (sentr)兩者的定義與計算過程按下述方式進(jìn) 行:
[0163] 在按分析過程中的步驟2中的方式處理句子的第t個詞時,針對前一個狀態(tài)集合中 的每一個狀態(tài),按步驟2-2中的表示方法,假設(shè)表示為《,則由步驟2-1的過程可W知道在當(dāng) 前該狀態(tài)下對第k個標(biāo)注類型進(jìn)行打分所得到的分?jǐn)?shù)score(typek)實(shí)際上是模型參數(shù)組第 2~5組中所有參數(shù)(假設(shè)表示為0)、W及模型參數(shù)組第1組參數(shù)中當(dāng)前該狀態(tài)下按步驟2- 1-1-1和步驟2-1-1-2-1中取出的那些特征向量的一個復(fù)合函數(shù)。假設(shè)在在給定狀態(tài)巧、處 理第t個時取出的所有特征向量整體表示為£(種,0,因?yàn)榇颂幰獙φ麄€句子的得分進(jìn)行表 示,為了方便我們將在給定狀態(tài)巧、處理第t個時對第k標(biāo)注類型進(jìn)行打分所得到的分?jǐn)?shù)表 示為score (.S'f, M>'pek),則有:
[0164]
[0165] 其中的F為按步驟2-1的過程描述,由四個長短記憶神經(jīng)網(wǎng)絡(luò)和強(qiáng)項(xiàng)神經(jīng)網(wǎng)絡(luò)復(fù)合 而成的復(fù)合函數(shù),0為模型參數(shù)組第2~5組中所有參數(shù)。
[0166] 從整個步驟2可W知道,在按步驟2-3處理完一個句子之后,狀態(tài)集合= {巧+1,巧",..…瑞+1}中每一個狀態(tài)邱+1的得分均為模型參數(shù)組第2~5組中所有參數(shù) (假設(shè)表示為0 )、W及第1組參數(shù)中在從一開始的狀態(tài)巧擴(kuò)展到狀態(tài)邱+1的整個路徑中處理 每個詞時按步驟2-1-1-1和步驟2-1-1-2-1中取出的所有特征向量的一個復(fù)合函數(shù)。假設(shè)對于 狀態(tài)集合Sn+i中的每一個狀態(tài)巧^+1,其從狀態(tài)辭擴(kuò)展到狀態(tài)Sf+i的過程中所選的標(biāo)注類型序 列為巧P%、巧P%、...、巧:的n,過程中所經(jīng)歷的狀態(tài)序列為殘、巧、…、巧W、貨"( 巧即為詩,瑞+1即為呼+1),則狀態(tài)巧+1的得分為:
[0167] ,
、' J L J '
[0168] 因?yàn)橛?xùn)練句子都是已標(biāo)注數(shù)據(jù),即知道其正確的標(biāo)注序列,假設(shè)狀態(tài)集合sn+i中的 狀態(tài)巧??輰?yīng)正確的標(biāo)注序列。定義針對該句子的損失函數(shù):
[0169]
[0170] 其中的eX表示指數(shù)函數(shù),e表示自然對數(shù)的常量。
[0171] 定父針對蔣個訓(xùn)練數(shù)據(jù)集的損失巧數(shù)為:
[0172]
[0173] 其中的0,E表示該損失函數(shù)為模型參數(shù)組中參數(shù)的函數(shù)。
[0174] 整個訓(xùn)練過程的目標(biāo)就是最小化W上損失函數(shù),最小化W上損失函數(shù)并求得參數(shù) 的方法有多種且為業(yè)界從業(yè)人員熟知,如實(shí)施例其中采用了隨機(jī)梯度下降法來對其進(jìn)行求 解。
[0175] 實(shí)施例1
[0176] 首先,本實(shí)施例中的模型參數(shù)先按照說明書中模型參數(shù)訓(xùn)練方法的附加說明中的 方式在賓州樹庫中文版CTB(化e化inese Penn TreebankM.0中的728個文件中(文件編號 從Ch憂_001. f id到油憂_899. P憂,需要注意的是該編號并不是連續(xù)都有,所W只有110個文 件)的9978個句子上進(jìn)行訓(xùn)練所得。
[0177] 本實(shí)施例利用本發(fā)明中的基于狀態(tài)轉(zhuǎn)移與神經(jīng)網(wǎng)絡(luò)的漢語組塊分析方法對一個 句子進(jìn)行漢語組塊分析的完整過程如下:
[0178] 步驟1-1,定義漢語組塊類型,在賓州樹庫中文版CTB4.0的基礎(chǔ)上定義了 12種類 型:40肝,40¥口,化口,0肥,0口,0¥口,1〔口,1^51',肥,口口,9口,¥口,其具體含義見說明書中的步驟1- 1;
[0179] 步驟1-2,確定標(biāo)注過程中對每個詞進(jìn)行標(biāo)注時所能選擇的標(biāo)注類型,采用BIOES 體系。最終確定的標(biāo)注類型共有 B-AD 肝,B-ADVP,B-化P,B-DNP,B-DP,B-DVP,B-LCP,B-LST, B-NP,B-PP,B-QP,B-VP,ADW,I,0,E,S-ADVP,S-CLP,S-DNP,S-DP,S-DVP,S-LCP,S-LST,S- NP,S-PP,S-QP,S-VP 27種;
[0180] 步驟2-1,計算機(jī)讀取一個包含待分析句子的自然語言文本文件。為了方便說明, 此處只讀入一個句子"上海/NR浦東/NR開發(fā)/順與/CC法制/NN建設(shè)/順同步/VV";
[0181] 步驟3,最開始,初始狀態(tài)集合為Si,其中有一個狀態(tài),為巧,該狀態(tài)即為初始句子, 然后執(zhí)行W下步驟;
[0182] 步驟3-1,處理第1個詞"上海",執(zhí)行如下步驟:
[0183] 步驟3-1-1,生成前向網(wǎng)絡(luò)的輸入,執(zhí)行如下步驟:
[0184] 步驟3-1-1-1,生成基本信息特征。因?yàn)槭堑谝粋€詞,向左數(shù)無單詞,按一般做法, 在其左邊添加補(bǔ)充單詞,假設(shè)為"worcLstart",和補(bǔ)充詞性,假設(shè)為"P0S_start",所W此處 對應(yīng)的詞特征為W-2= 'VorcLstart"、w-i= 'VorcLstart"、wo=。上海"、Wi=。浦東"、W2=。開 發(fā)",詞性特征為P-2= "P0S_sta;rt"、p-i= "P0S_sta;rt"、p〇= "NR"、pi= "NR"、p2= "NN"、p-2p-i = "POS_s1:a;rtPOS_sta;rt"、p-ip〇="POS_s1:a;rt NR"、p〇pi="NR NR"、pip2="NR NN",然后取 出運(yùn)些特征對應(yīng)的向量表示,在該實(shí)施例中,運(yùn)些特征向量的維度全設(shè)為50,它們均為實(shí)值 向量,例如 e(w〇)的前 5 項(xiàng)元素值為-0.0999、0.0599、0.0669、-0.0786、0.0527;
[0185] 步驟3-1-1-2,生成附加信息特征。執(zhí)行如下步驟:
[0186] 步驟3-1-1-2-1,生成組塊相關(guān)詞和詞性特征向量。因?yàn)檫\(yùn)個詞前面還沒有已分析 組塊,也由補(bǔ)充詞表不,分別為sta;rt_word(c-2) = "sta;rt_chunk_word_NULL"、end_word (c-2) = "end_chunk_word_NULL''、head_word(c-2) = ''head_chunk_word_NULL''、start_word (C-I) = ('start-Chunk-Word-NULL''、end_word(c_i) = ('end_chunk_word_NULL''、head_word (C-I) = "head_chunk_word_NULL"、sta;rt_P0S(c-2) = "sta;rt_chunk_POS_NULL"、end_P0S (c-2) = "end_chunk_POS_NULL''、head_P0S(c-2) = "head_chunk_POS_NULL'' 'Start-POS(C-I) ="sta;rt_chunk_POS_NULL"、end_P0S(c-i)= "end_chunk_POS_NULL"、head_P0S(c-i) = "head_chunk_POS_NULL",然后取出運(yùn)些特征對應(yīng)的向量表示,在該實(shí)施例中,運(yùn)些特征向 量的維度全設(shè)為50,它們均為實(shí)值向量;
[0187] 步驟3-1-1-2-2,如圖1和圖2所示,生成使用雙向長短記憶神經(jīng)網(wǎng)絡(luò)模型計算的當(dāng) 前待標(biāo)注位置的詞和詞性信息特征的特征向量。對于詞特征向量,輸入為句子中每個詞對 應(yīng)的向量表示,對于詞性特征向量,輸入為句子中每個詞性對應(yīng)的向量表示,運(yùn)些向量表示 與步驟3-1-1-1中對應(yīng)的相同詞或詞性的向量表示一致,例如e(wo)(wo="上海")的前5項(xiàng)元 素值仍為-0.0999、0.0599、0.0669、-0.0786、0.0527;對于長短記憶模型中的參數(shù),其取值 均為實(shí)數(shù)值,例如用于計算前向詞向量的矩陣W化中第一行中的前5個參數(shù)值為0.13637、 0.11527、-0.06217、-0.19870、0.03157;然后計算得到各個詞和詞性對應(yīng)的特征向量111和 hb,它們均為實(shí)值向量,本實(shí)施例中所設(shè)置的hf和hb的維度均為25。
[0188] 步驟3-1-2,拼接步驟3-1-1中得到的所有向量,得到一個實(shí)值向量,本實(shí)施例中共 為14X50+12X50+4X25 = 1400維,然后得到所有27種標(biāo)注類型各自的得分,本實(shí)施例中各 個標(biāo)注類型各自的得分分別為0.7898(B-AD肝),0.4961 (ADVP),-0.1281 (B-化P),-0.0817 (B-DNP),0.5265(B-DP),-0.0789(B-DVP),0.4362(B-LCP),-0.2250(B-LST),2.9887(B- NP),-0.0726(B-PP),0.1320(B-QP),0.4636(B-VP),1.6294(E),1.8871(I),-0.3904(0), 0.6985(S-ADJP),-0.1703(S-ADVP),-0.3287(S-CLP),0.17:M(S-DNP),0.5694(S-DP), 0.0990(S-DVP),0.0902(S-LCP),-1.0364(S-LST),2.0767(S-NP),-0.0179(S-PP),-0.0606 (S-QP),0.0941(S-VP);
[0189] 步驟3-2-1,當(dāng)前給定的狀態(tài)集合為Si,其中僅有一個狀態(tài),為巧,且有 Score(Sf)二0。按說明書中步驟1-2中的約束規(guī)則1去掉步驟3-1-2中得到的標(biāo)注類型I和E (Score(I) = I.8871,score似= 1.6294),將厭態(tài)巧按剩下的每個標(biāo)注類型進(jìn)行擴(kuò)展并計算其對應(yīng) 的目標(biāo)狀態(tài)的得分score(辭type),因關(guān)
例如韋
[0190] 步驟3-2-2,
將狀態(tài)Si中每個狀態(tài)都按步驟3-2-1中的方式進(jìn)行擴(kuò)展。因?yàn)槠渲兄?有巧,所W就得到27_2 = 25個新狀態(tài);
[0191] 步驟3-2-3,從運(yùn)25個新狀態(tài)中挑選4個得分最高的狀態(tài)組成新的狀態(tài)集合。運(yùn)4個 得分最高的新狀態(tài)依次天 、W…,
、..
由它們組成新的狀態(tài)集合S2,它包 含四個新狀態(tài),分別為:
[0192] 1 .S:i康示"上海/NR_B-NP浦東/NR開發(fā)/順與/CC法審Ij/順建設(shè)/順同步/Vr,得分 2.9887;
[019:3] 2.S!康示"上海/NR_S-NP浦東/NR開發(fā)/順與/CC法審Ij/順建設(shè)/順同步/Vr,得分 2.0767;
[0194] 3.皆表示"上海/NR_S-ADJP浦東/NR開發(fā)/順與/CC法審Ij/順建設(shè)/順同步/Vr,得 分0.7898;
[01巧]4. Si,表示"上海/NR_B-QP浦東/NR開發(fā)/順與/CC法制/順建設(shè)/順同步/Vr,得分 0.6985〇
[0196] 步驟3-3,按步驟3-1和3-2中的方式處理剩下的詞語,得到最終的目標(biāo)狀態(tài)集合 S8,它包含四個狀態(tài),分別為:
[0197] 1.瓊,表示。上海/NR_B-NP 浦東/NR_E 開發(fā)/NN_B-NP 與/CC_I法制/NN_I 建設(shè)/NN_E 同步/VV_S-VP",得分24.6169;
[0198] 2.強(qiáng),表示。上海/NR_B-NP 浦東/NR_E 開發(fā)/NN_B-NP 與/CC_I法制/NN_E 建設(shè)/NN_S- VP同步/VV_S-VP",得分20.2407;
[0199] 3. Sf,表示"上海/NR_B-NP 浦東/NR_E 開發(fā)/NN_B-NP 與/CC_I法制/NN_I 建設(shè)/NN_E 同步/VV_B-VP",得分19.7653;
[0200] 4.S!,表示"上海/NR_B-NP 浦東/NR_E 開發(fā)/NN_B-NP 與/CC_I法制/NN_I 建設(shè)/NN_E 同步/VVJf,得分 19.6299。
[0201] 取出其中得分最高的狀態(tài)禪,回溯得到整個句子的標(biāo)注序列為:
[0202]
[0203] 其對應(yīng)組塊分析結(jié)果即為[NP上海浦東][NP開發(fā)與法制建設(shè)][VP同步]。
[0204] 實(shí)施例2
[0205] 本發(fā)明所用的算法全部使用C++語言編寫實(shí)現(xiàn)。該實(shí)施例實(shí)驗(yàn)所采用的機(jī)型為: Intel (R)Core(TM) i7-5930K處理器,主頻為3.50細(xì)Z,內(nèi)存為64G。首先,本實(shí)施例中的模型 參數(shù)先按照說明書中模型參數(shù)訓(xùn)練方法的附加說明中的方式在賓州樹庫中文版CTB(化e Chinese Penn Treebank)4.0中的728個文件中(文件編號從chtb_001.fid到chtb_ 899.ptb,需要注意的是該編號并不是連續(xù)都有,所W只有110個文件)的9978個句子上進(jìn)行 訓(xùn)練所得。實(shí)驗(yàn)測試所用數(shù)據(jù)采用了 110個文件中(文件編號從chtb_900.fid到chtb_ 1078.ptb,需要注意的是該編號并不是連續(xù)都有,所W只有110個文件)的5290個句子進(jìn)行 組塊分析,實(shí)驗(yàn)結(jié)果如表7所示:
[0206] 表7實(shí)驗(yàn)結(jié)果說明
[0207]
[0208] 其中的MBL(Memory-based learning)為基于記憶的學(xué)習(xí)方法、TBL (Transformation-based learning)為基于轉(zhuǎn)換的學(xué)習(xí)方法、CRF(Conditional Random Field)為條件隨機(jī)場學(xué)習(xí)方法、SVM(Suppo;rt Vector Machin)為支持向量機(jī)學(xué)習(xí)方法,運(yùn) 四種為傳統(tǒng)的處理該任務(wù)的常用機(jī)器學(xué)習(xí)算法。需要說明的是,在該數(shù)據(jù)集上進(jìn)行評測是 評價中文組塊分析方法的一個常用方式??蒞看出,本發(fā)明中的方法在該數(shù)據(jù)集上取得了 較高的Fl-score值,說明了該方法的有效性。
[0209] 此處對Fl-score的計算方式進(jìn)行說明:因?yàn)樵摐y試集是已標(biāo)注數(shù)據(jù)集,所W是知 道正確標(biāo)注結(jié)果的,假設(shè)對整個數(shù)據(jù)集而言,所有組塊組成的集合S(gold),其大小為count (gold);在對數(shù)據(jù)集中的每個句子按實(shí)施例1中的方式進(jìn)行組塊分析W后,取出所有分析結(jié) 果中的組塊組成預(yù)測結(jié)果集合5(9'6(1;[(31:),假設(shè)其大小為(3011]11:(9'6(1;[(31:);5(旨01(1)和8 (predict)中相同的組塊組成的集合為S(Correct),其大小為count (correct);假設(shè)預(yù)測準(zhǔn) 確度表示為precis ion,預(yù)測召回率表示為recall,則各個值的計算按如下公式進(jìn)行:
[0210]
[0211]
[0212]
【主權(quán)項(xiàng)】
1. 一種基于狀態(tài)轉(zhuǎn)移與神經(jīng)網(wǎng)絡(luò)的漢語組塊分析方法,其特征在于,包括如下步驟: 步驟1,計算機(jī)讀取一個包含待分析句子的漢語文本文件,定義漢語組塊的類型,對待 分析句子進(jìn)行分詞并對每個詞進(jìn)行詞性標(biāo)注,進(jìn)行詞性標(biāo)注時,根據(jù)當(dāng)前句子狀態(tài)確定所 能選擇的詞性標(biāo)注類型; 步驟2,利用基于狀態(tài)轉(zhuǎn)移和神經(jīng)網(wǎng)絡(luò)的方法對待分析句子進(jìn)行漢語組塊分析。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟1包括如下步驟: 步驟1-1,根據(jù)表1定義的12種短語類型定義漢語組塊類型; 棄1步驟1-2,采用BIOES標(biāo)注體系與步驟1-1中定義的漢語組塊類型相結(jié)合的方式確定標(biāo) 注過程中對每個待標(biāo)注詞進(jìn)行詞性標(biāo)注時所能選擇的標(biāo)注類型。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,步驟2中,將漢語組塊分析過程當(dāng)成一個序 列化標(biāo)注任務(wù),標(biāo)注的類型由步驟1-1中定義的漢語組塊類型和步驟1-2中采用的BIOES標(biāo) 注體系相結(jié)合的方式生成。4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,在整個步驟2中用η表示待分析句子的長 度,步驟2包括如下步驟: 步驟2-1,給定狀態(tài)下,在處理第t個詞時對所有標(biāo)注類型進(jìn)行打分,此時給定的狀態(tài)即 為待分析句子前t-Ι個詞已完成標(biāo)注且已知其對應(yīng)的標(biāo)注類型,第t到第η個詞為未標(biāo)注詞 以及第t個詞為下一個待處理詞; 步驟2-2,給定狀態(tài)集合St,在處理第t個詞時對該狀態(tài)集合中的每個狀態(tài)按步驟2-1中 的方式對所有標(biāo)注類型進(jìn)行打分,該打分通過計算完成,將賦予每個標(biāo)注類型一個實(shí)數(shù)值, 此實(shí)數(shù)值稱為該類型對應(yīng)的得分,再按步驟1-2所述方式生成候選標(biāo)注類型,按每個候選標(biāo) 注類型對詞進(jìn)行標(biāo)注從而對該狀態(tài)進(jìn)行擴(kuò)展,并按柱搜索的方式挑選得分最高的m個新狀 態(tài),得到新的狀態(tài)集合S t+1; 步驟2-3,對t = 1,2,…,η,迭代執(zhí)行步驟2-1和2-2,得到最終的目標(biāo)狀態(tài)集合Sn+1,并取 出其中得分最高的狀態(tài)邛從該狀態(tài)出發(fā)回溯得到得分最高的標(biāo)注序列,此時所有詞的 類型標(biāo)注都已完成,將該得分最高的標(biāo)注序列還原為對應(yīng)的組塊分析結(jié)果,該結(jié)果即為當(dāng) 前句子的分析結(jié)果。5. 根據(jù)權(quán)利要求4中所述的方法,其特征在于,步驟2-1包括如下步驟: 步驟2-1-1,生成特征向量,特征向量包括基本信息特征向量和附加信息特征向量; 步驟2-1-2,利用前向神經(jīng)網(wǎng)絡(luò)對步驟2-1-1中生成的特征向量進(jìn)行計算得到所有候選 標(biāo)注類型的得分。6. 根據(jù)權(quán)利要求5中所述的方法,特征在于,在整個步驟2-1-1中待分析句子中的所有 詞從左到右依次表示為Wl,W2,…,Wn,Wn表示待分析句子中第η個詞,η取值為自然數(shù);待分析 句子中所有詞對應(yīng)的詞性從左到右依次表示為 Pl,p2,…,ρη,ρη表示待分析句子中第η個詞 對應(yīng)的詞性;一個特征*對應(yīng)的特征向量表示為e (* ),步驟2-1 -1包括如下步驟: 步驟2-1-1-1,生成基本信息特征向量,基本信息特征向量包括以當(dāng)前待標(biāo)注詞所在位 置為基準(zhǔn)的一定窗口內(nèi)的詞和詞性特征對應(yīng)的特征向量,以及以當(dāng)前待標(biāo)注詞所在位置為 基準(zhǔn)的一定窗口內(nèi)的已標(biāo)注詞所屬類別特征對應(yīng)的特征向量;具體過程如下:基本信息特 征中詞特征向量包括:以當(dāng)前待處理詞為中心向左數(shù)第二個詞對應(yīng)的特征向量e(w-2)、以當(dāng) 前待處理詞為中心向左數(shù)第一個詞對應(yīng)的特征向量e (w-i )、當(dāng)前待處理詞對應(yīng)的特征向量e (wo)、以當(dāng)前待處理詞為中心向右數(shù)第一個詞對應(yīng)的特征向量e(wi),以及以當(dāng)前待處理詞 為中心向右數(shù)第二個詞對應(yīng)的特征向量e(W2); 詞性特征向量包括:以當(dāng)前待處理詞為中心向左數(shù)第二個詞的詞性對應(yīng)的特征向量e (P-2)、以當(dāng)前待處理詞為中心向左數(shù)第一個詞的詞性對應(yīng)的特征向量e (p-ι)、當(dāng)前待處理 詞的詞性對應(yīng)的特征向量e(pQ)、以當(dāng)前待處理詞為中心向右數(shù)第一個詞的詞性對應(yīng)的特 征向量e (pi )、以當(dāng)前待處理詞為中心向右數(shù)第二個詞的詞性對應(yīng)的特征向量e (P2 )、以當(dāng)前 待處理詞為中心向左數(shù)第二個詞和第一個詞的詞性組合對應(yīng)的特征向量Μρ-Φ-Ο、以當(dāng)前 待處理詞為中心向左數(shù)第一個詞和當(dāng)前待處理詞的詞性組合對應(yīng)的特征向量Μρ-Φο)、以 當(dāng)前待處理詞為中心向右數(shù)第一個詞和當(dāng)前待處理詞的詞性組合對應(yīng)的特征向量dpopO、 以當(dāng)前待處理詞為中心向右數(shù)第二個詞和第一個詞的詞性組合對應(yīng)的特征向量e(p iP2); 步驟2-1-1-2,生成附加信息特征向量:附加信息特征向量包括以當(dāng)前待標(biāo)注詞所在位 置為基準(zhǔn)的一定窗口內(nèi)已標(biāo)注組塊相關(guān)的詞特征向量和詞性特征向量、使用雙向長短記憶 神經(jīng)網(wǎng)絡(luò)模型計算的當(dāng)前待標(biāo)注位置的詞特征向量和詞性特征向量。7. 根據(jù)權(quán)利要求6中所述的方法,其特征在于,步驟2-1-1-2包括如下步驟: 步驟2-1-1-2-1,以當(dāng)前待處理詞為中心向左數(shù)第二個組塊、第一個組塊分別表示為 c-2、c-1,組塊Ci的第一個詞表示為start_word(Ci),最后一個詞表示為end_word(Ci),i =-2,_1,語法中心詞表示為head_word(Ci),組塊Ci的第一個詞的詞性表示為start_POS(Ci)、 最后一個詞的詞性表示為end_P0S( Ci),語法中心詞的詞性表示為head_P0S(Ci),生成以當(dāng) 前待標(biāo)注詞所在位置為基準(zhǔn)的一定窗口內(nèi)已標(biāo)注組塊相關(guān)的詞特征向量和詞性特征向量: 組塊級別的詞特征向量包括:以當(dāng)前待處理詞為中心向左數(shù)第二個組塊的第一個詞的 特征向量e(start_word(c-2))、以當(dāng)前待處理詞為中心向左數(shù)第二個組塊的最后一個詞的 特征向量e(end_word(c-2))、以當(dāng)前待處理詞為中心向左數(shù)第二個組塊的語法中心詞的特 征向量e(head_word(c-2))、以當(dāng)前待處理詞為中心向左數(shù)第一個組塊的第一個詞的特征向 量e(start_word(c-i))、以當(dāng)前待處理詞為中心向左數(shù)第一個組塊的最后一個詞的特征向 量e (end_word(c-i))、以當(dāng)前待處理詞為中心向左數(shù)第一個組塊的語法中心詞的特征向量e (head_word (c-i)); 組塊級別的詞性特征向量包括:以當(dāng)前待處理詞為中心向左數(shù)第二個組塊的第一個詞 的詞性的特征向量e(start_POS(c-2))、以當(dāng)前待處理詞為中心向左數(shù)第二個組塊的最后一 個詞的詞性的特征向量e( end_POS(c-2))、以當(dāng)前待處理詞為中心向左數(shù)第二個組塊的語法 中心詞的詞性的特征向量e (head_POS(c-2))、以當(dāng)前待處理詞為中心向左數(shù)第一個組塊的 第一個詞的詞性的特征向量e(start_POS(c-i)、以當(dāng)前待處理詞為中心向左數(shù)第一個組塊 的最后一個詞的詞性的特征向量ekncLPOSk-d)、以當(dāng)前待處理詞為中心向左數(shù)第一個組 塊的語法中心詞的詞性的特征向量e (head_P0S (c-i)); 步驟2-1-1-2-2,使用雙向長短記憶神經(jīng)網(wǎng)絡(luò)模型計算生成當(dāng)前待標(biāo)注位置的詞和詞 性信息特征向量:雙向長短記憶神經(jīng)網(wǎng)絡(luò)模型的輸入為待分析句子中的所有詞以及待分析 句子中所有詞對應(yīng)的詞性,輸出為前向詞特征向量、前向詞性特征向量、后向詞特征向量和 后向詞性特征向量,下面公式中所用的tanh是雙曲函數(shù),為一個實(shí)值函數(shù),其作用在一個向 量上表示對向量中的每個元素都做此操作,得到一個與輸入向量維度相同的目標(biāo)向量;σ是 sigmod函數(shù),為一個實(shí)值函數(shù),其作用在一個向量上表示對向量中的每個元素都做此操作, 得到一個與輸入向量維度相同的目標(biāo)向量;θ是點(diǎn)乘運(yùn)算,即將兩個維度相同的向量按位 做乘法得到一個相同維度的結(jié)果向量,這四種特征向量的計算過程如下: 前向詞特征向量依次表示為hf(wi),hf(W2),…,hf(w n),hf(wt)表示第t個前向詞特征向 量,其計算方式按如下公式進(jìn)行:M/Jf、Wjf、M^、是已經(jīng)訓(xùn)練好的模型參數(shù)矩陣,矩陣中每個元素的值均為 實(shí)數(shù)值,這組參數(shù)與t無關(guān),即一個計算序列中的所有計算單元共享同一組參數(shù); ftwf i產(chǎn)、of是第t個計算單元中的中間計算結(jié)果,均為實(shí)值向量; e(wt)、hf(wt-i)、〇選是第t個計算單元的輸入,均為實(shí)值向量,其中的e(w t)即為詞Wt對 應(yīng)的特征向量;hf(Wt)、cf為第t個計算單元的輸出,c twf為長短記憶神經(jīng)網(wǎng)絡(luò)模型的輔助計 算結(jié)果,最終作為前向詞特征向量的只有由于這是一個序列化的計算模型,第t-1 個計算單元的輸出h f (wt-i) 即為第t個計算單元的輸入; 前向詞性特征向量依次表示Shf(p2),···,hf(pn),h f(pt)表示第t個前向詞性特征向量, 其計算方式按如下公式進(jìn)行:是已經(jīng)訓(xùn)練好的模型參數(shù)矩陣,矩陣中每個元素的值均為實(shí)數(shù)值, 這組參數(shù)與t無關(guān),即一個計算序列中的所有計算單元共享同一組參數(shù);I第t個計算單元中的中間計算結(jié)果,均為實(shí)值向量; e(pt)、hf(pt-i)、cf i是第t個計算單元的輸入,均為實(shí)值向量,其中的e(pt)即為詞性Pt 對應(yīng)的特征向量;hf(pt)、cf為第t個計算單元的輸出,Cf為長短記憶神經(jīng)網(wǎng)絡(luò)模型的輔助 計算結(jié)果,最終作為前向詞特征向量的只有Μ(ρη),由于這是一個序列化的計算模型,第 t-Ι個計算單元的輸出hf (pt-i) Af1即為第t個計算單元的輸入; 后向詞特征向量依次表示為P(W1),hb(w2),…,hb(w n),hb(wt)表示第t個后向詞特征向 量,其計算方式按如下公式進(jìn)行:州(#、14/β,、是已經(jīng)訓(xùn)練好的模型參數(shù)矩陣,矩陣中每個元素的值均為實(shí)數(shù) 值,這組參數(shù)與t無關(guān),即一個計算序列中的所有計算單元共享同一組參數(shù);是第t個計算單元中的中間計算結(jié)果,均為實(shí)值向量;e(wt)、h b(t+1)、 是第t個計算單元的輸入,均為實(shí)值向量,其中的e (wt) 即為詞wt對應(yīng)的特征向量;hb (wt)為第t個計算單元的輸出,Ef7為長短記憶神經(jīng)網(wǎng)絡(luò)模型的輔助計算結(jié)果,最終作 為前向詞特征向量的只有hhwt-i),由于這是一個序列化的計算模型,第t+Ι個計算單元的 輸出!Au)即為第t個計算單元的輸入; 后向詞性特征向量依次表示Shb(P1),hb(p2),…,h b(pn),hb(pt)表示第t個后向詞性特 征向量,其計算方式按如下公式進(jìn)行:I已經(jīng)訓(xùn)練好的模型參數(shù)矩陣,矩陣中每個元素的值均為 實(shí)數(shù)值,這組參數(shù)與t無關(guān),即一個計算序列中的所有計算單元共享同一組參數(shù);I第t個計算單元中的中間計算結(jié)果,均為實(shí)值向量; e(pt)、hb(pt+i)、Cff1是第t個計算單元的輸入,均為實(shí)值向量,其中的e(pt)即為詞性Pt 對應(yīng)的特征向量;hb(pt)、cf&為第t個計算單元的輸出, cf為長短記憶神經(jīng)網(wǎng)絡(luò)模型的輔助 計算結(jié)果,最終作為前向詞特征向量的只有hb(pt+1),由于這是一個序列化的計算模型,第t +1個計算單元的輸出hb(Pt+1)、Gff1即為第t個計算單元的輸入。8. 根據(jù)權(quán)利要求7中所述的方法,其特征在于,步驟2-1-2中使用了前向神經(jīng)網(wǎng)絡(luò)來計 算得到所有標(biāo)注類型的得分,整個前向神經(jīng)網(wǎng)絡(luò)的計算過程按如下公式進(jìn)行: h = 〇(ffix+bi), 0=ff2h, 其中,W1 是已訓(xùn)練好的模型參數(shù)矩陣,矩陣中每個元素的值均為實(shí)數(shù)值;x是輸入 向量,它由步驟2-1-1中所得的所有特征向量拼接而成,其維度為步驟-1-1中生成的所有特 性向量的維度之和,其每個元素的值均為實(shí)數(shù)值;h是神經(jīng)網(wǎng)絡(luò)的隱層向量,是中間計算結(jié) 果單元;〇是計算輸出,是一個實(shí)值向量,其維度大小對應(yīng)于步驟1-2中定義的標(biāo)注過程中對 每個詞進(jìn)行標(biāo)注時所能選擇的標(biāo)注類型數(shù),其中第g個值表示將當(dāng)前步驟標(biāo)為類型g的得 分,該得分是一個實(shí)數(shù)值;Wix、W 2h均為矩陣乘法操作。9. 根據(jù)權(quán)利要求8中所述的方法,其特征在于,步驟2-2包括如下步驟: 步驟2-2-1,給定前一個狀態(tài)集合中的每個狀態(tài),按步驟2-1中的方式對所有標(biāo)注類型 進(jìn)行打分,假設(shè)狀態(tài)Sx的得分為score(Sx),標(biāo)注類型typek的得分為score(type k),假設(shè)對 所有標(biāo)注類型都進(jìn)行擴(kuò)展,則擴(kuò)展后將得到K個新的狀態(tài),表示Sg1,為 所有標(biāo)注類型總數(shù),按如下公式計算第k個狀態(tài)的對應(yīng)得分其中,k取值為1~K,得分均為實(shí)數(shù)值,按步驟1-2中的方式確定候選標(biāo)注類型,按候選 標(biāo)注類型將狀態(tài)進(jìn)行擴(kuò)展,假設(shè)狀態(tài)集合St中的狀態(tài)按步驟1-2中的方式確定的候選標(biāo)注 類型有c(i)個,則對狀態(tài)擴(kuò)展后將得到 c(i)個新狀態(tài),表示為Sf1 Jg1,...,5??; 步驟2-2-2,假設(shè)狀態(tài)集合51有2個狀態(tài),z取值為自然數(shù),將狀態(tài)集合St中所有狀態(tài)按步 驟2-2-1中的方式進(jìn)行擴(kuò)展,所有擴(kuò)展后的狀態(tài)為對1+1,對2 +1,~,#(11),5|1+1,,...久% ); 步驟2-2-3,按柱搜索的方式從步驟2-2-2中得到的所有擴(kuò)展后的狀態(tài)中取出得分最高 的m個狀態(tài),組成新的狀態(tài)集名
【文檔編號】G06F17/27GK106021227SQ201610324281
【公開日】2016年10月12日
【申請日】2016年5月16日
【發(fā)明人】戴新宇, 程川, 陳家駿, 黃書劍, 張建兵
【申請人】南京大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1