用于提及檢測中的消歧的方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明的實(shí)施例總體上涉及信息處理領(lǐng)域,并且特別涉及用于提及檢測中消歧的方法和系統(tǒng)。
【背景技術(shù)】
[0002]提及檢測(ment1n detect1n)是一類用于處理文本信息的方法。提及檢測被用于自動(dòng)地檢測文本中對(duì)人名、地名、組織等各種實(shí)體的提及(ment1n),并且將這些提及映射到與實(shí)體相關(guān)聯(lián)的資源。作為示例,提及檢測工具如果檢測到文本中存在了對(duì)“MichaelJordan”這一人名的提及,可以將該提及映射到例如網(wǎng)絡(luò)詞典中關(guān)于“MichaeI Jordan”的web頁面。在使用中,例如當(dāng)用戶將光標(biāo)置于這些提及之上或者附近時(shí),可以以浮動(dòng)提示的方式向用戶呈現(xiàn)相應(yīng)資源的統(tǒng)一資源標(biāo)識(shí)符(URI)。
[0003]提及檢測中的一個(gè)重要步驟是消歧(disambiguat1n)。對(duì)相同實(shí)體的提及可能具有不同的詞形(surface form)。例如,對(duì)“Michael Jordan”這一實(shí)體的提及可能是“Jordan”、“Michael”、“Air Jordan”、“MJ”,等等。而且,針對(duì)不同實(shí)體的提及可能具有相同的詞形。例如,對(duì)“Michael Jackson”的提及的詞形同樣可以是“MJ”。消歧操作的目的是確定文本的給定提及究竟應(yīng)當(dāng)被映射到哪個(gè)實(shí)體所對(duì)應(yīng)的資源,例如,詞形“MJ”應(yīng)當(dāng)被鏈接到 “Michael Jordan” 還是 “Michael Jackson” 的資源。
[0004]在傳統(tǒng)的消歧算法中,通常只考慮詞形屬于候選概率的先驗(yàn)概率和上下文得分。上下文得分是通過計(jì)算詞形周圍出現(xiàn)的詞與候選資源的提及周圍出現(xiàn)的詞之間的相似度得分。然而,在這種傳統(tǒng)方法中,文本中的大量有用信息并未被充分地加以利用。由此,消歧的準(zhǔn)確性和效果有待提高。
【發(fā)明內(nèi)容】
[0005]總體上,本發(fā)明的實(shí)施例提出一種用于在程序調(diào)試的變量跟蹤的技術(shù)方案。
[0006]在本發(fā)明的一個(gè)方面,提供一種用于提及檢測中的消歧的方法。所述方法包括:確定文本中的目標(biāo)詞形在所述文本中出現(xiàn)的至少一個(gè)位置;基于所述目標(biāo)詞形在每個(gè)所述位置處的詞袋上下文,獲取所述目標(biāo)詞形在所述文本中的總體詞袋上下文,每個(gè)所述位置處的所述詞袋上下文包含所述位置的預(yù)定鄰域內(nèi)的詞;基于所述目標(biāo)詞形在每個(gè)所述位置處的資源上下文,獲取所述目標(biāo)詞形在所述文本中的總體資源上下文,每個(gè)所述位置處的所述資源上下文包含所述位置的預(yù)定鄰域內(nèi)的其他詞形所對(duì)應(yīng)的資源;以及基于所述總體詞袋上下文和所述總體資源上下文來確定所述目標(biāo)詞形與用于所述目標(biāo)詞形的候選資源之間的相似度。
[0007]在另一方面,提供一種用于提及檢測中的消歧的系統(tǒng)。所述系統(tǒng)包括:詞形位置確定單元,被配置為確定文本中的目標(biāo)詞形在所述文本中出現(xiàn)的至少一個(gè)位置;詞袋上下文獲取單元,被配置為基于所述目標(biāo)詞形在每個(gè)所述位置處的詞袋上下文,獲取所述目標(biāo)詞形在所述文本中的總體詞袋上下文,每個(gè)所述位置處的所述詞袋上下文包含所述位置的預(yù)定鄰域內(nèi)的詞;資源上下文獲取單元,被配置為基于所述目標(biāo)詞形在每個(gè)所述位置處的資源上下文,獲取所述目標(biāo)詞形在所述文本中的總體資源上下文,每個(gè)所述位置處的所述資源上下文包含所述位置的預(yù)定鄰域內(nèi)的其他詞形所對(duì)應(yīng)的資源;以及消歧單元,被配置為基于所述總體詞袋上下文和所述總體資源上下文來確定所述目標(biāo)詞形與用于所述目標(biāo)詞形的候選資源之間的相似度。
[0008]根據(jù)本發(fā)明的實(shí)施例,在消歧過程中不僅可以利用詞語所提供的上下文信息,還可以將所處理詞形周圍所提及的資源納入考慮。另外,消歧可以基于一個(gè)詞形在文本中的跨段落上下文而實(shí)現(xiàn)。這樣,上下文信息將更加全面、準(zhǔn)確。另外,在一個(gè)實(shí)施例中,通過合理確定消歧順序,能夠進(jìn)一步提高消歧的準(zhǔn)確性。本發(fā)明的其他特征和優(yōu)點(diǎn)將通過下文描述而變得容易理解。
【附圖說明】
[0009]通過結(jié)合附圖對(duì)本發(fā)明示例性實(shí)施方式進(jìn)行更詳細(xì)的描述,本發(fā)明的上述以及其它目的、特征和優(yōu)勢(shì)將變得更加明顯其中:
[0010]圖1示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施例的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器的示意性框圖;
[0011]圖2示出了根據(jù)本發(fā)明實(shí)施例的用于提及檢測中的消歧的方法的示意性流程圖;
[0012]圖3示出了根據(jù)本發(fā)明實(shí)施例的文本和待消歧詞形的示意圖;
[0013]圖4示出了根據(jù)本發(fā)明實(shí)施例的詞形的索引的示意圖;以及
[0014]圖5示出了根據(jù)本發(fā)明實(shí)施例的用于提及檢測中的消歧的系統(tǒng)的示意性框圖。
[0015]在附圖中,相同或相似的標(biāo)號(hào)被用來表示相同或相似的元素。
【具體實(shí)施方式】
[0016]下面將參照附圖更詳細(xì)地描述本公開的優(yōu)選實(shí)施方式。雖然附圖中顯示了本公開的優(yōu)選實(shí)施方式,然而應(yīng)該理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施方式所限制。相反,提供這些實(shí)施方式是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0017]圖1示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器12的方框圖。圖1顯示的計(jì)算機(jī)系統(tǒng)/服務(wù)器12僅僅是一個(gè)示例,不應(yīng)對(duì)本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。
[0018]如圖1所示,計(jì)算機(jī)系統(tǒng)/服務(wù)器12以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)系統(tǒng)/服務(wù)器12的組件可以包括但不限于:一個(gè)或者多個(gè)處理器或者處理單元16,系統(tǒng)存儲(chǔ)器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲(chǔ)器28和處理單元16)的總線18。
[0019]總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲(chǔ)器總線或者存儲(chǔ)器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線,微通道體系結(jié)構(gòu)(MAC)總線,增強(qiáng)型ISA總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VESA)局域總線以及外圍組件互連(PCI)總線。
[0020]計(jì)算機(jī)系統(tǒng)/服務(wù)器12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)系統(tǒng)/服務(wù)器12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動(dòng)的和不可移動(dòng)的介質(zhì)。
[0021]系統(tǒng)存儲(chǔ)器28可以包括易失性存儲(chǔ)器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲(chǔ)器(RAM) 30和/或高速緩存存儲(chǔ)器32。計(jì)算機(jī)系統(tǒng)/服務(wù)器12可以進(jìn)一步包括其它可移動(dòng)/不可移動(dòng)的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲(chǔ)介質(zhì)。僅作為舉例,存儲(chǔ)系統(tǒng)34可以用于讀寫不可移動(dòng)的、非易失性磁介質(zhì)(圖1未顯示,通常稱為“硬盤驅(qū)動(dòng)器”)。盡管圖1中未示出,可以提供用于對(duì)可移動(dòng)非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動(dòng)器,以及對(duì)可移動(dòng)非易失性光盤(例如CD-ROM,DVD-ROM或者其它光介質(zhì))讀寫的光盤驅(qū)動(dòng)器。在這些情況下,每個(gè)驅(qū)動(dòng)器可以通過一個(gè)或者多個(gè)數(shù)據(jù)介質(zhì)接口與總線18相連。存儲(chǔ)器28可以包括至少一個(gè)程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個(gè))程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。
[0022]具有一組(至少一個(gè))程序模塊42的程序/實(shí)用工具40,可以存儲(chǔ)在例如存儲(chǔ)器28中,這樣的程序模塊42包括一但不限于一操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。
[0023]計(jì)算機(jī)系統(tǒng)/服務(wù)器12也可以與一個(gè)或多個(gè)外部設(shè)備14(例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個(gè)或者多個(gè)使得用戶能與該計(jì)算機(jī)系統(tǒng)/服務(wù)器12交互的設(shè)備通信,和/或與使得該計(jì)算機(jī)系統(tǒng)/服務(wù)器12能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(I/O)接口 22進(jìn)行。并且,計(jì)算機(jī)系統(tǒng)/服務(wù)器12還可以通過網(wǎng)絡(luò)適配器20與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(LAN),廣域網(wǎng)(WAN)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線18與計(jì)算機(jī)系統(tǒng)/服務(wù)器12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計(jì)算機(jī)系統(tǒng)/服務(wù)器12使用其它硬件和/或軟件模塊,包括但不限于:微