用于識別候選答案之間的關(guān)系的方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本申請一般地涉及一種改進(jìn)的數(shù)據(jù)處理設(shè)備和方法,更具體地講,涉及用于識別 和顯示由問答(QA)系統(tǒng)產(chǎn)生的候選答案之間的關(guān)系的機(jī)構(gòu)。
【背景技術(shù)】
[0002] 隨著增加的計算網(wǎng)絡(luò)(諸如,互聯(lián)網(wǎng))的使用,人類當(dāng)前淹沒于他們可從各種結(jié)構(gòu) 化和非結(jié)構(gòu)化源獲得的大量信息。然而,當(dāng)用戶試圖拼湊用戶在搜索關(guān)于各種主題的信息 期間認(rèn)為相關(guān)的他們能夠發(fā)現(xiàn)的信息時,存在大量信息空隙。為了輔助這種搜索,近來的研 究已涉及產(chǎn)生問答(QA)系統(tǒng),QA系統(tǒng)可接收輸入問題,分析輸入問題,并且返回指示輸入 問題的最可能的答案的結(jié)果。QA系統(tǒng)提供用于搜索內(nèi)容(例如,電子文檔)的源的大的集 合的自動化機(jī)構(gòu),并且針對輸入問題分析它們以確定問題的答案和答案對于回答輸入問題 的準(zhǔn)確性的置信量度。
[0003] -個這種QA系統(tǒng)是可從New York, Armonk的國際商用機(jī)器(IBM)公司購得的 Watson?系統(tǒng)。Watson?系統(tǒng)將高級自然語言處理、信息檢索、知識表示和推理以及機(jī)器學(xué) 習(xí)技術(shù)應(yīng)用于開域問題回答的領(lǐng)域。Watson?系統(tǒng)建立在用于假設(shè)產(chǎn)生、大量證據(jù)搜集、分 析和評分的IBM的De印QA tm技術(shù)上。De印QAtm接收輸入問題,分析輸入問題,將問題分解為 組成部分,基于分解的問題和答案源的初步搜索的結(jié)果產(chǎn)生一個或多個假設(shè),基于從證據(jù) 源進(jìn)行的證據(jù)的檢索執(zhí)行假設(shè)和證據(jù)評分,執(zhí)行所述一個或多個假設(shè)的合成,并且基于訓(xùn) 練的模型,執(zhí)行最后的合并和評級以輸出輸入問題的答案以及置信量度。
[0004] 各種美國專利申請公開描述了各種類型的問答系統(tǒng)。第2011/0125734號美國專 利申請公開公開了一種用于基于數(shù)據(jù)的資料庫(corpus)產(chǎn)生問答對的機(jī)構(gòu)。該系統(tǒng)開始 于一組問題,然后分析這組內(nèi)容以提取這些問題的答案。第2011/0066587號美國專利申請 公開公開了一種用于將分析的信息的報告轉(zhuǎn)換為一批問題并且從信息集確定這批問題的 答案是被回答還是被反駁的機(jī)構(gòu)。結(jié)果數(shù)據(jù)被包括在更新的信息模型中。
【發(fā)明內(nèi)容】
[0005] 在一個說明性實施例中,提供一種在數(shù)據(jù)處理系統(tǒng)中用于識別由問答(QA)系統(tǒng) 響應(yīng)于輸入問題而產(chǎn)生的或者由用戶直接輸入以由問答(QA)系統(tǒng)考慮的候選答案之間的 共性的方法。該方法包括:由數(shù)據(jù)處理系統(tǒng)或用戶輸入從QA系統(tǒng)接收輸入問題的多個候選 答案,并且由數(shù)據(jù)處理系統(tǒng)識別存在于這些候選答案中的項。該方法還包括:由數(shù)據(jù)處理系 統(tǒng)確定每個候選答案中的項之間的關(guān)系。此外,該方法包括:由數(shù)據(jù)處理系統(tǒng)基于確定的每 個候選答案中的項之間的關(guān)系確定第一項和第二項之間的共同關(guān)系,共同關(guān)系至少在所述 多個候選答案的一個子集之中是共同的。另外,該方法包括:由數(shù)據(jù)處理系統(tǒng)提供所述多個 候選答案和共同關(guān)系。
[0006] 在其它說明性實施例中,提供一種包括具有計算機(jī)可讀程序的計算機(jī)可用或可讀 介質(zhì)的計算機(jī)程序產(chǎn)品。當(dāng)在計算裝置上執(zhí)行所述計算機(jī)可讀程序時,所述計算機(jī)可讀程 序使計算裝置執(zhí)行以上參照方法說明性實施例概述的操作中的各種操作及其組合。
[0007] 在另一說明性實施例中,提供一種系統(tǒng)/設(shè)備。該系統(tǒng)/設(shè)備可包括:一個或多個 處理器;和存儲器,耦合到所述一個或多個處理器。該存儲器可包括指令,當(dāng)由所述一個或 多個處理器執(zhí)行所述指令時,所述指令使所述一個或多個處理器執(zhí)行以上參照方法說明性 實施例概述的操作中的各種操作及其組合。
[0008] 考慮到下面對本發(fā)明的示例性實施例的詳細(xì)描述,將會描述本發(fā)明的這些和其它 特征和優(yōu)點,或者本發(fā)明的這些和其它特征和優(yōu)點將會對于本領(lǐng)域普通技術(shù)人員而言變得 清楚。
【附圖說明】
[0009] 當(dāng)結(jié)合附圖閱讀時,通過參照下面對說明性實施例的詳細(xì)描述,將會最好地理解 本發(fā)明以及使用的優(yōu)選模式及其另外的目的和優(yōu)點,其中:
[0010] 圖1描述計算機(jī)網(wǎng)絡(luò)中的問/答創(chuàng)建(QA)系統(tǒng)的一個說明性實施例的示意圖;
[0011] 圖2是可實現(xiàn)說明性實施例的各方面的示例性數(shù)據(jù)處理系統(tǒng)的方框圖;
[0012] 圖3表示根據(jù)一個說明性實施例的用于處理輸入問題的QA系統(tǒng)流水線;
[0013] 圖4是根據(jù)一個說明性實施例的候選答案關(guān)系識別引擎的主要操作元件的示例 性方框圖;
[0014] 圖5是概述根據(jù)一個說明性實施例的用于執(zhí)行用于產(chǎn)生用于識別候選答案中的 關(guān)系的實體/項關(guān)系資源的預(yù)處理操作的示例性操作的流程圖;
[0015] 圖6是概述根據(jù)一個說明性實施例的用于使用實體/項關(guān)系資源確定候選答案之 間的關(guān)系的示例性操作的流程圖;以及
[0016] 圖7是根據(jù)一個說明性實施例的候選答案用戶界面的示例性示圖。
【具體實施方式】
[0017] 說明性實施例提供用于識別由問答(QA)系統(tǒng)產(chǎn)生的候選答案之間的關(guān)系的機(jī) 構(gòu)。也就是說,說明性實施例提供用于回答"給定由QA系統(tǒng)針對一問題計算的一組候選答 案,候選答案彼此具有什么共同點? "這一問題的機(jī)構(gòu)。通過評估和表示對于一組候選答案 中的元素而言共同的項,通過評估和表示候選答案之間共同的、候選答案內(nèi)的實體和項之 間的關(guān)系,以及通過參照共同項以及實體和項及其關(guān)系,檢索和顯示顯示候選答案之間的 關(guān)聯(lián)的資料庫中的段落,說明性實施例回答這種問題。
[0018] 應(yīng)該理解,這里所使用的術(shù)語"機(jī)構(gòu)"可以是具有設(shè)備、過程或計算機(jī)程序產(chǎn)品的 形式的說明性實施例的各功能或方面的任何實現(xiàn)方式。這里描述的機(jī)構(gòu)可被實現(xiàn)為專用硬 件、在通用硬件上執(zhí)行的軟件、存儲在介質(zhì)上從而可容易地由專用或通用硬件執(zhí)行的軟件 指令、用于執(zhí)行功能的過程或方法或者以上各項的組合。
[0019] 說明性實施例的機(jī)構(gòu)在一個或多個數(shù)據(jù)倉庫(例如,數(shù)據(jù)庫等)中創(chuàng)建一個或多 個數(shù)據(jù)結(jié)構(gòu),所述一個或多個數(shù)據(jù)結(jié)構(gòu)識別在文檔中的句子的文本中識別的實體之間的關(guān) 系。說明性實施例的機(jī)構(gòu)還使實體與它們在搜索索引中的共同引用(co-reference)相關(guān) 聯(lián)。結(jié)果,這些機(jī)構(gòu)可顯示對于問題的一組候選答案而言共同的項,按照項的實體類型(例 如,人、組織或其它項"類型")過濾共同的項,識別項和實體之間的關(guān)系,并且顯示支持候選 答案和共同項相關(guān)的斷言的段落。
[0020] 說明性實施例的機(jī)構(gòu)可使用實體識別和跟蹤引擎,諸如可從New York,Armonk的 國際商用機(jī)器公司購得的統(tǒng)計信息和關(guān)系提?。⊿IRE)引擎。SIRE提供:用于使用最大熵 模型的項或?qū)嶓w檢測的部件,能夠從注釋數(shù)據(jù)訓(xùn)練最大熵模型;可訓(xùn)練的共同引用部件,用 于對在文檔中檢測到的對應(yīng)于相同實體的項進(jìn)行分組;和可訓(xùn)練的關(guān)系提取系統(tǒng)。當(dāng)然, 可在不脫離說明性實施例的精神和范圍的情況下使用其它實體識別和跟蹤引擎,并且SIRE 在這里僅用作例子以幫助理解由說明性實施例做出的改進(jìn)。
[0021] 實體識別和跟蹤(EIT)引擎提供文檔中的文本的語法分解、在文本中檢測到的實 體的識別、共同引用解析(參考相同實體的兩個或更多項的解析)和實體之間的關(guān)系檢測。 另外,提供用于產(chǎn)生利用由EIT引擎發(fā)現(xiàn)的共同引用的項增強(qiáng)的搜索索引以及用于產(chǎn)生關(guān) 系數(shù)據(jù)庫的邏輯,所述關(guān)系數(shù)據(jù)庫存儲由EIT引擎發(fā)現(xiàn)的實體、實體類型、與實體相關(guān)的 項、資料庫內(nèi)或跨資料庫的特定關(guān)系的頻率、作為關(guān)系的源的文檔的公布時間、資料庫標(biāo)識 符和作為關(guān)系的源的文檔的文檔標(biāo)識符。
[0022] 這些資源被用于識別由QA系統(tǒng)產(chǎn)生的候選答案中的實體、項和關(guān)系以識別除了 候選答案是共同輸入問題的答案的明顯關(guān)系之外的候選答案之間的關(guān)系。也就是說,給定 由QA系統(tǒng)返回或由用戶明確地輸入以由QA系統(tǒng)考慮的針對輸入問題的一組候選答案,說 明性實施例的邏輯顯示返回的聯(lián)系起候選答案的實體、項和它們的關(guān)系(例如,候選答案 之間的共同項),并且顯示支持答案/實體/項關(guān)系的資料庫中的段落。實體、項和關(guān)系的 這種識別考慮了在資源的產(chǎn)生期間識別的項的共同引用。
[0023] 因此,由說明性實施例的機(jī)構(gòu)產(chǎn)生的結(jié)果可被輸出到用戶,以使得用戶能夠更深 入地了解候選答案之間的共性和候選答案之間的關(guān)系,從而用戶更深入地了解他們的原始 輸入問題的答案。例如,可諸如通過用戶界面給予用戶選項以詢問針對候選答案的共性的 問題??稍儐柕倪@種問題的例子例如可以是"所有的答案具有什么共同項? "(以及顯示項 和答案相關(guān)的資料庫的文檔中的段落是什么)、"答案的子集具有什么共同項?(以及顯示 項和答案相關(guān)的段落是什么)"等。在一些情況下,問題可針對實體類型以確定什么實體類 型在候選答案之間是共同的,例如,"所有的答案具有什么共同的人? "(其中"人"是實體類 型)、"所有的答案具有什么共同的組織? "、"所有的答案具有什么共同的國家? "等。
[0024] 由說明性實施例的機(jī)構(gòu)執(zhí)行的分析的結(jié)果可被用于基于確定的項的特性、項之間 的關(guān)系和用戶詢問的關(guān)于候選答案的特定問題,改變候選答案的顯示。例如,如果用戶要 求候選答案之間共同的項的指示,則可在候選答案以及支持項和特定候選答案之間的關(guān)系 的段落中突出顯示共同項。此外,資料庫內(nèi)和/或跨資料庫的項和實體之間的關(guān)系的頻率 可被用作該關(guān)系的強(qiáng)度的量度,并且可被用于修改候選答案的顯示以代表候選答案中的關(guān) 系的相對強(qiáng)度,例如以顏色、字體、尺寸或任何其它文本或圖形特性的不同強(qiáng)調(diào)顯示不同強(qiáng) 度。此外,關(guān)系的獨(dú)特性的量度也可被用于修改候選答案的顯示。不管單獨(dú)地或組合地實 現(xiàn)以上特征中的哪些特征,說明性實施例針對使用的項和在候選答案中提及的項/實體之 間的關(guān)系,提供對在候選答案之間什么是共同的以及在候選答案為什么被選擇為輸入問題 的候選答案后面的推理的更深入的了解。
[0025] 將在以下參照附圖更詳細(xì)地描述本發(fā)明的說明性實施例的以上方面和優(yōu)點。應(yīng)該 理解,附圖僅用于說明本發(fā)明的示例性實施例。本發(fā)明可包括未在附圖中明確地示出但考 慮到說明性實施例的當(dāng)前描述將會對于本領(lǐng)域普通技術(shù)人員而言容易想到的各方面、實施 例和描述的示例性實施例的變型。
[0026] 所屬技術(shù)領(lǐng)域的技術(shù)人員知道,本發(fā)明的各個方面可以實現(xiàn)為系統(tǒng)、方法或計算 機(jī)程序產(chǎn)品。因此,本發(fā)明的各個方面可以具體實現(xiàn)為以下形式,即:完全的硬件實施方式、 完全的軟件實施方式(包括固件、駐留軟件、微代碼等),或硬件和軟件方面結(jié)合的實施方 式,這里可以統(tǒng)稱為"電路"、"模塊"或"系統(tǒng)"。此外,在一些實施例中,本發(fā)明的各個方面 還可以實現(xiàn)為在一個或多個計算機(jī)可讀介質(zhì)中的計算機(jī)程序產(chǎn)品的形式,該計算機(jī)可讀介 質(zhì)中包含計算機(jī)可讀的程序代碼。
[0027] 可使用一個或多個計算機(jī)可讀介質(zhì)的任何組合。計算機(jī)可讀介質(zhì)可以是計算機(jī)可 讀信號介質(zhì)或計算機(jī)可讀存儲介質(zhì)。計算機(jī)可讀存儲介質(zhì)可以是電子、磁、光學(xué)、電磁或半 導(dǎo)體性質(zhì)的系統(tǒng)、設(shè)備或裝置、前述各項的任何合適的組合或者其等同物。計算機(jī)可讀存 儲介質(zhì)的更具體的例子(非窮舉列表)將會包括下述各項:具有存儲能力的電氣裝置、便 攜式計算機(jī)盤、硬盤、隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、可擦除可編程只讀存儲器 (EPROM或閃存)、基于光纖的裝置、便攜式壓縮盤只讀存儲器(CDROM)、光學(xué)存儲裝置、磁存 儲裝置或前述各項的任何合適的組合。在這個文檔的上下文中,計算機(jī)可讀存儲介質(zhì)可以 是能夠包含或存儲由指令執(zhí)行系統(tǒng)、設(shè)備或裝置使用或結(jié)合指令執(zhí)行系統(tǒng)、設(shè)備或裝置使 用的程序的任何有形介質(zhì)。
[0028] 在一些說明性實施例中,計算機(jī)可讀介質(zhì)是非暫態(tài)計算機(jī)可讀介質(zhì)。非暫態(tài)計算 機(jī)可讀介質(zhì)是