本發(fā)明涉及信息抽取技術(shù)領(lǐng)域,特別涉及一種醫(yī)療文本數(shù)據(jù)的命名實體識別方法。
背景技術(shù):
在目前大力發(fā)展信息化的時代背景下,許多醫(yī)療機構(gòu)正在建設(shè)或已完成醫(yī)療信息系統(tǒng)。伴隨著醫(yī)療信息系統(tǒng)的發(fā)展與完善,其不斷積累下的醫(yī)療數(shù)據(jù)將會為醫(yī)學及信息科學未來的研究發(fā)展提供可靠的數(shù)據(jù)支撐。近年來,對統(tǒng)計數(shù)據(jù)的數(shù)學研究已經(jīng)相對成熟,針對海量醫(yī)療統(tǒng)計數(shù)據(jù)的大數(shù)據(jù)研究也已開展地如火如荼,對預測及防控都起到了良好的作用。
大量文本數(shù)據(jù)例如文本病歷、醫(yī)學文獻、衛(wèi)生信息標準等,盡管也蘊含著許多有研究價值的信息,但卻因為具有非結(jié)構(gòu)化、專業(yè)化等特點,難以對其進行數(shù)據(jù)深度利用。若要對上述文本數(shù)據(jù)進行深度利用,首先需要克服的就是針對醫(yī)學特有命名實體進行識別。然而,中文自然語言處理的復雜性和上述提到的醫(yī)療文本數(shù)據(jù)的獨特性導致了進行醫(yī)學命名實體識別是一個難點問題。因此,進行縱向的病種命名實體識別研究,歸納總結(jié)出能夠快速并且在人工干預較少的情況下提取出準確信息的方法具有重要意義。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是提供一種醫(yī)療文本數(shù)據(jù)的命名實體識別方法,能夠快速且在人工干預較少的情況下提取出準確信息。
一種醫(yī)療文本數(shù)據(jù)的命名實體識別方法:
i)通過隱馬爾可夫模型對原始醫(yī)學文本進行序列標注,得到預測分詞結(jié)果;
ii)對預測分詞結(jié)果進行過濾與校準。
優(yōu)選的,所述步驟ii)通過半監(jiān)督學習過程進行迭代自學習,對預測分詞結(jié)果進行過濾與校準。
優(yōu)選的,所述半監(jiān)督學習過程包括以下步驟:
1)去除預測分詞結(jié)果中與停用詞集中重合的部分;
2)將去除停用詞后的分詞結(jié)果做預處理,統(tǒng)計所有分詞結(jié)果的頻次,并以降序方式排列;
3)將頻次高的詞加入種子詞集;
4)再次對原始醫(yī)學文本進行分詞處理,種子詞集中出現(xiàn)的種子詞優(yōu)先成詞;
5)重復上述步驟1)至4),直至種子詞集不再有增量;
6)人工對種子詞集進行審查,若種子詞集中有干擾分詞正確的詞,進行人工修正。
優(yōu)選的,所述步驟3)中,所述頻次高的詞是頻次最高的前10個詞。
優(yōu)選的,所述步驟5)對步驟1)至4)的迭代次數(shù)為2至3次。
本發(fā)明提供了一種基于隱馬爾可夫模型分詞與半監(jiān)督學習方法結(jié)合對原始醫(yī)學文本進行分詞處理和識別的方法,不僅提高了信息提取和識別的效率,而且降低了人工干預程度。
附圖說明
圖1是具體實施方式中的半監(jiān)督學習流程圖。
圖2是具體實施方式中的半監(jiān)督學習改進效果對比圖。
圖3是具體實施方式中的半監(jiān)督學習改進效果。
具體實施方式
下面通過具體實施例對本發(fā)明進行說明,但本發(fā)明并不局限于此。
實施例
本實施例采用隱馬爾可夫模型(hiddenmarkovmodel,hmm),對原始醫(yī)學文本進行序列標注,得到預測分詞結(jié)果。在預測分詞處理結(jié)束后,利用半監(jiān)督學習方法對分詞結(jié)果進行迭代自學習,以得到準確的分詞及命名實體識別結(jié)果。本實施例通過比對各類監(jiān)督學習方法的優(yōu)缺點及結(jié)合半監(jiān)督學習方法糾錯,對縱向的病種命名實體識別研究。旨在總結(jié)出能夠快速且在人工干預較少的情況下提取出準確信息的方法。
利用hmm解決命名實體識別標注,即給定一個觀察值的序列(1):
p(y|x)=p(x1,n),x={x1,x2,...xn}(1)
要尋找一個最優(yōu)的標記序列(2),使得條件概率p(y|x)最大:
y={y1,y2,...yn}(2);
根據(jù)貝葉斯公式可得(3):
在ne識別問題中,x是給定的句子,觀察值為詞性或詞,則上式中p(x)對所有的類別都是一樣的,因此可以忽略不考慮。則上面的公式可以轉(zhuǎn)化為下面的形式(4),即實質(zhì)是求解一個聯(lián)合概率:
p(y|x)=p(y)p(x|y)=p(x,y)(4)
觀察到的事件是狀態(tài)的隨機函數(shù),該模型是含有隱藏序列和可觀察序列的隨機過程,其中模型的狀態(tài)轉(zhuǎn)換過程是不可觀察的。可觀察的事件的隨機過程是隱藏的狀態(tài)轉(zhuǎn)換過程的隨機函數(shù)。形式化的描述為一個五元組:
∑iπi=1,hmm=<s,o,a,b,π>(5)
s表示模型中的狀態(tài),n是模型的狀態(tài)數(shù)。
所有獨立的狀態(tài)定義為(6):
s={s1,s2,...sn}(6)
用qt來表示t時刻的狀態(tài)。o表示每個狀態(tài)的觀察值,m表示每個狀態(tài)上對應的可能的觀察值的數(shù)目。觀察值對應于模型系統(tǒng)的實際輸出,觀察值記為(7):
w={w1,w2,...wn}(7)
狀態(tài)轉(zhuǎn)移概率矩陣(8):
a={aij}(8)
其中aij=p(qt+1=sj|qt=st),1≤i,j≤n,aij表示從狀態(tài)i轉(zhuǎn)移到狀態(tài)j的概率,aij滿足:
輸出觀察值概率分布矩陣(9):
b={bj(k)}(9)
其中bj(k)表示在sj狀態(tài)下,t時刻出現(xiàn)wk的概率,即
bj(k)=p(在t時刻出現(xiàn)wk|qt=sj),1≤j≤n,1≤k≤m(10)
bj(k)滿足:
初始狀態(tài)分布向量:
∏={πi},其中πi=p(qi=si),1≤i≤n(12);
即在t=1時刻處于狀態(tài)si的概率,πi滿足:
∑iπi=1(13)。
本實施例先以人民日報標注語料作為模型訓練數(shù)據(jù)。由于通用語料訓練出的模型,無論是crf模型還是hmm,都無法對醫(yī)學文本數(shù)據(jù)的命名實體識別任務(wù)得出高準確率的結(jié)果,故本實施例采用訓練過程更加簡單、復雜度較低的hmm。在本實施例的實踐中,采用了基于漢字組詞能力的hmm,使用維特比算法對序列解碼,將原始臨床病歷語料進行預測分詞處理。基于前述原因,該預測分詞處理的準確率不高,需加入半監(jiān)督學習方法對分詞結(jié)果進行再處理。通過此方法,實驗結(jié)果表明能夠快速有效的在無有效標注醫(yī)學語料的前提下,借助少量人工修正得到較為準確的分詞及命名實體識別結(jié)果。
由于其訓練數(shù)據(jù)來自于人民日報標注語料,故直接對醫(yī)學文本數(shù)據(jù)應用此模型得到的分詞效果并不會太理想,所以在hmm預測分詞后,需要對預測分詞結(jié)果進行過濾與校準。本實施例采用了半監(jiān)督學習的方法。
在半監(jiān)督學習過程中,需要在迭代自學習時設(shè)置評價標準,進而將符合標準的分詞結(jié)果作為種子詞。在通過觀察所使用的臨床病歷數(shù)據(jù)特點后,發(fā)現(xiàn)這些臨床病歷數(shù)據(jù)在病種描述中,往往采用重復率相當高的句子,體現(xiàn)在預測分詞結(jié)果中的,將是高頻次的相同詞語。故在自學習過程中,本實施例著重于詞語頻次這個特點。詳細半監(jiān)督學習過程如下:
1)去除預測分詞結(jié)果中與停用詞表中重合的部分。
2)將去除停用詞后的分詞結(jié)果做預處理,統(tǒng)計所有分詞結(jié)果的頻次,并以降序方式排列。
3)將頻次最高的前10個詞加入種子詞集。
4)再次對原始臨床病歷數(shù)據(jù)進行分詞處理,種子詞集中出現(xiàn)的種子詞優(yōu)先成詞。
5)重復上述1至4步,直至種子詞集不會有增量。
如圖1所示,半監(jiān)督學習過程旨在通過詞頻找出種子詞,而種子詞會作為分詞識別標準,對下一次的分詞過程進行修正。此外,當該半監(jiān)督學習過程結(jié)束后,會人工對種子詞表進行審查,若種子詞表中有嚴重干擾分詞正確的詞,將會人工進行修正。
種子詞對分詞過程修正的算法,采用了修改統(tǒng)計模型發(fā)射矩陣值的方式??紤]到統(tǒng)計模型解碼的過程實際是對最大概率路徑查找的過程,根據(jù)路徑概率的定義可知:
在hmm模型解碼過程中,采用的維特比算法將會逐步迭代搜索,避免了窮舉對資源帶來的巨大消耗,其計算過程中以(15)記錄當前最優(yōu)狀態(tài):
基于此,本文將得到的種子詞與hmm的發(fā)射矩陣進行交叉對比,修改發(fā)射矩陣的概率值,確保種子詞在標注后序列中成詞。
在實驗中,本實施例將單純依靠hmm預測分詞的結(jié)果與加入半監(jiān)督學習過程后的分詞結(jié)果進行了對比。在通過對近3000例臨床肺病文本病歷進行實驗后,本實施例挑選出重復率最高的幾例進行對比。如下圖2所示,左側(cè)為加入半監(jiān)督學習后的分詞結(jié)果,右側(cè)為單純使用hmm預測分詞的結(jié)果。
僅僅依靠由人民日報語料訓練的hmm,在進行預測分詞時,對病歷中許多醫(yī)學術(shù)語的分詞效果并不理想。如圖2所示“iii期壓瘡”切分成“iii期壓瘡”、“竇性心動過緩”切分成“竇性心動過緩”、“極高危組”切分成“極高危組”、“頻發(fā)性室性期前收縮”切分成“頻發(fā)性室性期前收縮”、“左肺上葉炎性病變”切分成“左肺上葉炎性病變”。其中“期壓”、“動過”、“危組”、“性室”、“性期”、“葉炎”等均不是期待的分詞結(jié)果,但再經(jīng)過半監(jiān)督學習過程的校準處理后,上述例子中的分詞結(jié)果都更加準確了,效果如圖3所示。
圖3通過對分詞結(jié)果進行統(tǒng)計對比得出,單hmm將原始病歷文本切分成81386個詞,有1435種詞。加入半監(jiān)督學習后,切分詞語個數(shù)減少為80997,有1402種詞。在hmm切分結(jié)果中,但不在加入半監(jiān)督學習切分結(jié)果中的詞有42個。這42個詞中,除去單字成詞未能確定是否標準的,其余37個雙字或多字成詞都為錯誤結(jié)果,并在加入半監(jiān)督學習后進行了自動修正,修正正確率達88.1%。而在加入半監(jiān)督學習后的切分結(jié)果中,出現(xiàn)的7個詞,都均為學習時總結(jié)的種子詞。表明種子詞的出現(xiàn),對切分結(jié)果的提升效果明顯。
在半監(jiān)督學習過程中,種子詞集在迭代過程中發(fā)生變化,實驗對比了初始有無種子詞在半監(jiān)督學習過程中的表現(xiàn)。在實驗中,發(fā)現(xiàn)迭代過程基本都在2~3次后結(jié)束,說明該方法能夠快速收斂。由于分詞結(jié)果中,會出現(xiàn)頻次較高的各種英文縮寫,這些英文縮寫作為種子詞不會對分詞結(jié)果帶來幫助。所以,若每次迭代增加種子詞過少,會導致英文縮寫的引入使得迭代立刻終止。若每次迭代增加種子詞過多,又會在迭代后幾步引入詞頻較低的詞語,使得破壞正確的分詞結(jié)果?;谏鲜鲈?,選擇每次迭代最多增加10個詞,既可以保證很高的分詞正確率,又能避免提早終止半監(jiān)督自學習過程。
可以理解的是,以上是為了闡述本發(fā)明的原理和可實施性的示例,本發(fā)明并不局限于此。對于本領(lǐng)域內(nèi)的普通技術(shù)人員而言,在不脫離本發(fā)明的精神和實質(zhì)的情況下,可以做出各種變型和改進,這些變型和改進也視為本發(fā)明的保護范圍。