日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

摘要評估裝置和方法及含摘要評估程序的可機(jī)讀記錄媒體的制作方法

文檔序號:6599347閱讀:341來源:國知局
專利名稱:摘要評估裝置和方法及含摘要評估程序的可機(jī)讀記錄媒體的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及利用計(jì)算機(jī)評估文章段的摘要的技術(shù)。更具體來說,本發(fā)明涉及利用有監(jiān)督的機(jī)器學(xué)習(xí)方法自動(dòng)地進(jìn)行文章段的摘要的評估處理的技術(shù)。
摘要處理主要可化分為兩種類型通過從目標(biāo)文章段抽取重要句子進(jìn)行概括;和通過以目標(biāo)文章段的內(nèi)容為根據(jù)自由地生成句子進(jìn)行概括。在通過抽取重要句子進(jìn)行概括的處理中,按照規(guī)定的概括比率(rate)抽取目標(biāo)文章段中出現(xiàn)的句子,以構(gòu)成摘要。在通過自由地生成句子進(jìn)行概括的處理中,人根據(jù)目標(biāo)文章段的內(nèi)容自由地生成句子。
作為評估通過抽取重要句子進(jìn)行概括的一種方法,有可能通過利用應(yīng)當(dāng)從文章某段中抽取哪些句子的信息的自動(dòng)處理進(jìn)行評估。例如,將一個(gè)表示當(dāng)?shù)竭_(dá)某個(gè)程度時(shí)該句子就應(yīng)當(dāng)被抽取作為摘要的重要度預(yù)先分配給文章段中的每個(gè)句子,然后通過把每個(gè)被抽取句子的重要度相加來評估該摘要。
另一方面,自動(dòng)評估自由構(gòu)成的摘要是困難的。這是因?yàn)?,可能?yīng)當(dāng)獲得一個(gè)文章段的多個(gè)合適的摘要,因此為所有合適的摘要準(zhǔn)備正確信息是非常困難的。
于是,在有關(guān)技術(shù)中,就根據(jù)個(gè)人的知識和經(jīng)驗(yàn)手工地進(jìn)行對自由構(gòu)成的摘要的評估。在下面引用的文獻(xiàn)1中所示的方法,就是在相關(guān)技術(shù)中存在的一種自動(dòng)評估摘要的方法。在引用文獻(xiàn)1的處理方法中,利用再調(diào)用比(recall ratio)、相關(guān)比(relevance ratio)、基于計(jì)算機(jī)處理所抽取的句子與人事先選擇的重要句子之間的一致性的F值,進(jìn)行摘要評估。
也可以通過利用字的頻率向量(frequency vector of words)確定自由生成的(freely made)摘要與人事先準(zhǔn)備好的正確摘要之間的相似度(degree of similarity)而認(rèn)識自由生成的摘要的評估?!耙梦墨I(xiàn)1Shu Nobata等,集成多個(gè)評估標(biāo)準(zhǔn)的重要句子抽取系統(tǒng),第七屆語言處理學(xué)會(huì)年會(huì)論文集,pp301-304,2001。
在引用文獻(xiàn)1中所示的評估自由制作的摘要的處理中,利用字頻率向量確定目標(biāo)摘要與準(zhǔn)備好的正確摘要之間的相似度。因此有這樣的趨勢,即如果表示摘要的內(nèi)容的關(guān)鍵字的分布類似于被認(rèn)為是正確的摘要的關(guān)鍵字的分布,則摘要的評估值變高。就是說,如果某摘要包括某些在正確摘要中存在的字,該摘要將獲得一個(gè)確定的好評估,即使該摘要的形式作為一段文章來說是極其難讀的。因此,這種摘要獲得好摘要的評估是有問題的。
在相關(guān)技術(shù)中,專家評估手工構(gòu)成的摘要。然而毫無疑問,專家的評估取決于評估者的經(jīng)驗(yàn)和技巧。因此,有的時(shí)候,對同一個(gè)摘要的評估可能因評估者的不同而不同,有的時(shí)候,即使在評估者相同時(shí)也因評估的時(shí)間不同而有不同的評估。因此,如果像相關(guān)技術(shù)中那樣,根據(jù)專家的經(jīng)驗(yàn)和技巧來評估手工構(gòu)成的摘要,則不但沒有摘要的評估的可重復(fù)性,而且要做到公平地評估摘要也很困難。
需要不受評估者的主觀影響并且可重復(fù)的客觀評估的、對包括自由構(gòu)造的摘要在內(nèi)的摘要的自動(dòng)評估處理。
現(xiàn)在考察對由計(jì)算機(jī)自動(dòng)生成的摘要的評估與由專家自由構(gòu)成的摘要的評估的比較。計(jì)算機(jī)生成的摘要在概括內(nèi)容和句子流暢的適當(dāng)性方面的概括精確度一般比由人制作的摘要低。因此許多情況下,由計(jì)算機(jī)生成的摘要,其逼真度達(dá)不到與人工摘要相同的程度。
假設(shè)“好摘要”具有這樣的逼真度,該逼真度達(dá)到使得難以區(qū)分該摘要與手工摘要的程度,這個(gè)“好摘要”使得由計(jì)算機(jī)生成的該摘要的句子結(jié)構(gòu)和摘要內(nèi)容達(dá)到與由人工生成的摘要相似的程度。因此應(yīng)當(dāng)明白,按“計(jì)算機(jī)摘要”和“手工摘要”劃分類別可用作為摘要的評估。
因此本發(fā)明的目的是提供一種自動(dòng)執(zhí)行不僅評估通過抽取重要句子作出的摘要而且也評估利用計(jì)算機(jī)自由地生成的摘要的處理的方法。
本發(fā)明的另一個(gè)目的是提供一種實(shí)現(xiàn)這個(gè)處理方法的裝置。
本發(fā)明的另一個(gè)目的是提供一種其中記錄有用于在計(jì)算機(jī)上執(zhí)行這個(gè)自動(dòng)摘要評估處理的程序的計(jì)算機(jī)可讀的記錄媒體。
本發(fā)明的另一個(gè)目的是提供一種把各種用于獲得摘要的處理裝置分成類別(classification)并執(zhí)行自動(dòng)評估利用這些類別的裝置獲得的摘要的處理方法,提供一種用于實(shí)現(xiàn)這個(gè)處理的裝置和在計(jì)算機(jī)上執(zhí)行這個(gè)處理的程序。
因此,本發(fā)明提供的摘要評估方法包含下述步驟訪問用于存儲(chǔ)解決方案(solution)數(shù)據(jù)的解決方案數(shù)據(jù)存儲(chǔ)裝置,其中解決方案數(shù)據(jù)由一個(gè)組構(gòu)成,該組包括由文章段及其摘要構(gòu)成的一個(gè)問題、以及由該摘要的評估構(gòu)成的解決方案;從解決方案數(shù)據(jù)存儲(chǔ)裝置中獲取解決方案數(shù)據(jù);從解決方案數(shù)據(jù)的問題中抽取特征并建立解決方案和特征的集合的組;用有監(jiān)督的機(jī)器學(xué)習(xí)方法,從解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最容易的,并存儲(chǔ)該學(xué)習(xí)的結(jié)果;從輸入的文本抽取特征的集合;和根據(jù)學(xué)習(xí)的結(jié)果,推斷在從特征抽取步驟中獲得的特征而抽取了集合的情況下,哪種解決方案是最容易得到成功的。
因此,本發(fā)明提供的摘要評估裝置包含用于存儲(chǔ)解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲(chǔ)裝置,其中解決方案數(shù)據(jù)由一個(gè)組構(gòu)成,該組包括由文章段及其摘要構(gòu)成的一個(gè)問題、以及由該摘要的評估構(gòu)成的解決方案;解決方案/特征對抽取裝置,用于獲得解決方案數(shù)據(jù)、從解決方案數(shù)據(jù)的問題中抽取特征并建立解決方案和特征的集合的組;機(jī)器學(xué)習(xí)裝置,用于用有監(jiān)督的機(jī)器學(xué)習(xí)方法,從解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最容易的,并存儲(chǔ)該學(xué)習(xí)的結(jié)果;特征抽取裝置,用于從輸入的文本抽取特征的集合;和評估推斷裝置,用于根據(jù)學(xué)習(xí)的結(jié)果,推斷在從特征抽取裝置獲得的特征而抽取了的集合的情況下,哪種解決方案是最容易得到成功的。
本發(fā)明提供一種其中記錄有使計(jì)算機(jī)執(zhí)行這個(gè)摘要評估方法的各步驟的摘要評估程序的計(jì)算機(jī)可讀的記錄媒體。
本發(fā)明中,事先準(zhǔn)備大量的由例子構(gòu)成的解決方案數(shù)據(jù),各個(gè)例子被分配由對每個(gè)由機(jī)器生成的摘要和每個(gè)由人建立的摘要的摘要評估構(gòu)成的解決方案。對于每個(gè)例子,抽取解決方案和特征的集合的組,并用機(jī)器學(xué)習(xí)技術(shù)從所抽取的解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案(摘要評估)是最容易獲得成功的。之后,當(dāng)構(gòu)成某主題的摘要被輸入時(shí),從所輸入的摘要中抽取特征的集合,然后通過參考機(jī)器學(xué)習(xí)的結(jié)果,通過推斷就哪種特征的集合而言哪種解決方案是容易得到成功的。
這樣就有可能提供一種可重復(fù)的、無偏見的評估,而不受評估者的經(jīng)驗(yàn)和技巧的影響。
例如,表示摘要是用計(jì)算機(jī)生成的“機(jī)器摘要”和表示摘要是由人制作的的“手工摘要”這兩種類別可用作分配給解決方案數(shù)據(jù)的解決方案。在這種情況下,在本發(fā)明中,要對輸入的摘要是“機(jī)器摘要”還是“手工摘要”作出判定。這兩種類別可以利用處理計(jì)算機(jī)由機(jī)器處理來作分配,以便從作為解決方案數(shù)據(jù)準(zhǔn)備的摘要本身中自動(dòng)地獲得。在通過機(jī)器處理分配類別時(shí),在分配解決方案中所涉及的處理負(fù)荷能得到減輕。在考慮解決方案數(shù)據(jù)的精確性時(shí),用方案是由專家分配的解決方案數(shù)據(jù)也是可能的。在這種情況下,也可能按照評估分配三個(gè)或五個(gè)類別,以便執(zhí)行多階段評估,諸如三個(gè)階段、五個(gè)階段的評估,等等。
在計(jì)算機(jī)上實(shí)現(xiàn)本發(fā)明的裝置、功能或元件的程序,可以存儲(chǔ)在適當(dāng)?shù)挠?jì)算機(jī)可讀的記錄媒體上,諸如便攜式存儲(chǔ)媒體、半導(dǎo)體存儲(chǔ)器或硬盤等中,可以通過在這種記錄媒體上的記錄而提供,或者通過利用通過通信接口的通信網(wǎng)絡(luò)的交換而提供。
解決方案數(shù)據(jù)存儲(chǔ)單元11是用于存儲(chǔ)構(gòu)成用于機(jī)器學(xué)習(xí)過程中的有監(jiān)督的數(shù)據(jù)的數(shù)據(jù)(解決方案數(shù)據(jù))的裝置。由問題和解決方案的集構(gòu)成的例子作為解決方案數(shù)據(jù)被存儲(chǔ)在解決方案數(shù)據(jù)存儲(chǔ)單元11中。問題包括概括之前的一個(gè)文章段和一個(gè)摘要本身。摘要既可以由計(jì)算機(jī)制作,也可以由人制作。解決方案是對摘要的評估,有兩個(gè)類別“由計(jì)算機(jī)產(chǎn)生的摘要(計(jì)算機(jī)摘要)”和“由人產(chǎn)生的摘要(手工摘要)”。這兩個(gè)類別可以根據(jù)一種用于生成摘要的處理技術(shù)自動(dòng)地分配,或者可以由人分配。使用“計(jì)算機(jī)摘要”和“手工摘要”這兩種類別作為解決方案的理由是,為了能根據(jù)生成摘要的處理裝置機(jī)械地分配類別。就是說,“計(jì)算機(jī)摘要”的解決方案(類別)被自動(dòng)地分配給計(jì)算機(jī)自動(dòng)地生成的摘要。被分配以解決方案“手工摘要”的解決方案數(shù)據(jù),被用于由人制作的摘要。這就減輕了在分配解決方案中所牽涉到的處理負(fù)荷。此外,在解決方案的準(zhǔn)確性重要時(shí),可以由專家把解決方案分配給每個(gè)例子。
解決方案/特征對抽取單元12,是用于從存儲(chǔ)在解決方案數(shù)據(jù)存儲(chǔ)單元11中的每個(gè)例子中抽取解決方案和特征的集的組的裝置??梢猿槿∫粋€(gè)特征,作為(1)指示句子是否流暢的信息,(2)指示內(nèi)容是否被適當(dāng)表達(dá)的信息,(3)用于自動(dòng)概括的特征信息,等等。
(1)作為指示句子流暢性的信息,可以抽取k語法形態(tài)序列(k-gram morph sequence)的出現(xiàn)的百分率或者以主體(corpus)的形式實(shí)現(xiàn)的解決方案數(shù)據(jù)存儲(chǔ)單元11中的修飾從句之間的語義一致的程度。
(2)作為指示該文章段的內(nèi)容是否被適當(dāng)表達(dá)的信息,在作概括之前該文章段中存在的關(guān)鍵短語(key-phrases)的包含率被抽取。
此外,(3)抽取句子的位置、關(guān)于句子是否是起始句子的信息、TF/IDF(Term Frequency/Inversed Document Frequency-術(shù)語頻率/逆文件頻率)、句子長度、或者諸如特征表達(dá)/連接詞/功能字之類的關(guān)鍵表達(dá)的存在,作為用于自動(dòng)概括的特征信息。
機(jī)器學(xué)習(xí)單元13是用于用有監(jiān)督的機(jī)器學(xué)習(xí)方法從由解決方案/特征對抽取單元12抽取的解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最直截了當(dāng)?shù)难b置。這個(gè)學(xué)習(xí)的結(jié)果然后被存儲(chǔ)在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲(chǔ)單元14中。如果機(jī)器學(xué)習(xí)單元13用有監(jiān)督的機(jī)器學(xué)習(xí)方法學(xué)習(xí),則可以用這種方法執(zhí)行處理。這種技術(shù)例如可以是判定樹技術(shù)、支持向量技術(shù)、參數(shù)調(diào)整技術(shù)、簡單貝葉斯(Baysian)技術(shù)、最大熵(entropy)技術(shù)或判定表技術(shù)。
特征抽取單元15是用于從評估目標(biāo)的摘要2中抽取一組特征并把所抽取的該組特征傳送給評估推斷單元16的裝置。
評估推斷單元16是用于參考學(xué)習(xí)結(jié)果數(shù)據(jù)存儲(chǔ)單元14的學(xué)習(xí)結(jié)果數(shù)據(jù)并在特征集合被從特征抽取單元15傳送過來時(shí)推斷對其來說某解決方案(評估)是最直截了當(dāng)?shù)慕Y(jié)果、然后輸出一個(gè)由該推斷結(jié)果構(gòu)成的評估3的裝置。
圖2表示本發(fā)明的一個(gè)處理流程圖。在自動(dòng)摘要評估處理裝置1的解決方案數(shù)據(jù)存儲(chǔ)單元11中存儲(chǔ)著大量的例子作為解決方案數(shù)據(jù),其中將解決方案信息分配給多種語言的數(shù)據(jù)。例如,在下面的示例1中表示了取作為輸入的文本的一個(gè)例子。
示例1
首先,在解決方案/特征對抽取單元12,從解決方案數(shù)據(jù)存儲(chǔ)單元11為每個(gè)例子抽取一解決方案和特征的集的一組(步驟S1)。例如,抽取以下作為特征特征e1主體中k語法形態(tài)序列的出現(xiàn);特征e2修飾從句之間的語義一致的程度;特征e3在概括之后具有大的TF/IDF值的“自然語言用詞”的包含率;特征e4對輸入文章段的第一個(gè)句子是否在被使用的確定;特征e5輸出摘要的長度;和特征e6確定在摘要被抽取的位置之前是否有連接詞“tsumari(換言之)”。
解決方案/特征對抽取單元12檢查對于每個(gè)例子來說,是否在主體中出現(xiàn)一個(gè)k語法形態(tài)序列,作為特征e1,如果存在,就抽取之。k語法形態(tài)序列例如是一個(gè)三語法詞素的“動(dòng)詞を(doushi-wo)<|>する(suru)(其中<|>表示一個(gè)分割)”,這是從“動(dòng)詞を(doushi-wo)<|>省略(syouryaku)<|>する(suru)”中省略“省略(syouryaku)”得出的。如果形態(tài)序列“動(dòng)詞を(doushi-wo)<|>する(suru)”不在主體中出現(xiàn),就推斷是因?yàn)樵摫磉_(dá)作為句子看起來不流暢。k語法形態(tài)序列在主體中的出現(xiàn),可以被用作特征e1,以便確定摘要的流暢性。
解決方案/特征對抽取單元12通過檢查例如是否在從“動(dòng)詞を(doushi-wo)<|>省略(syouryaku)<|>すゐ(suru)”中省略“省略(syouryaku)”得出的“動(dòng)詞を(doushi-wo)<|>する(suru)”的主體中存在修飾“する(suru)”從句的從句“動(dòng)詞を(doushi-wo)”,抽取修飾從句之間的一致程度作為特征e2。如果在“動(dòng)詞を(doushi-wo)”和“する(suru)”之間沒有修飾(modification),則可以推斷該表達(dá)不是一個(gè)流暢的句子。
解決方案/特征對抽取單元12抽取例如一個(gè)關(guān)于是否在概括之前的文章段中出現(xiàn)的關(guān)鍵短語(自然語言的短語的字)被包含在摘要中的關(guān)鍵短語包含率,作為特征e3。如果這些短語被盡可能多地包含在摘要中,則可以確定該摘要是個(gè)準(zhǔn)確表達(dá)這個(gè)文章段(文本)的內(nèi)容的好摘要。
TF/IDF技術(shù)主要可以用于關(guān)鍵短語自動(dòng)抽取處理。TF是一個(gè)表示某字在某文章段中的出現(xiàn)次數(shù)或頻率的值。IDF是已經(jīng)具有的某字在其中出現(xiàn)的一組大量的文件(documents)的文件數(shù)的倒數(shù)。通常,其TF與IDF之和的值大的字適合作為關(guān)鍵短語。假設(shè)“自然言語(shizengengo)(自然語言)”、“動(dòng)詞(doushi)(動(dòng)詞)”、“省略(syouyaku)(omission)”、“復(fù)元(fukugen)(恢復(fù))”、“表層の表現(xiàn)(hyousou-no-hyougen)(表面情況表示)(surface caserepresentation)”和“用例(yourei)(例子)”對應(yīng)于圖3中所示的文章段中的短語。這些字在表達(dá)這個(gè)文本的內(nèi)容時(shí)是重要字,因此希望在摘要中出現(xiàn)這些字。
解決方案/特征對抽取單元12利用例如TF/IDF技術(shù)來抽取構(gòu)成前面所述的那種關(guān)鍵短語的字。它然后檢查TF或IDF的值是否高,以及這些字是否被包含在摘要中,然后抽取這些字的包含率,作為特征e3。
解決方案/特征對抽取單元12然后抽取對輸入文本中的第一個(gè)句子是否被使用的確定,作為特征e4。重要句子出現(xiàn)在一個(gè)文章段的開頭一般是非常普遍的。因此可以確定,如果采用靠近文件的開頭的句子作為摘要?jiǎng)t能得到好的摘要。
解決方案/特征對抽取單元12也檢查摘要的長度并抽取這個(gè)長度,作為特征e5。摘要的目標(biāo)一般是要短句子。因此可以確定,短摘要是好摘要。
解決方案/特征對抽取單元12也抽取對是否在被作為摘要抽取的位置之前有“つまり(tsumari)(換言之)”之類的連接詞的確定,作為特征e6。還存在著一些關(guān)鍵的表達(dá),例如連接詞、功能字,它們指示希望作為摘要來抽取的句子和位置。例如,當(dāng)存在“tsumari”之類的連接詞時(shí),在這個(gè)連接詞“tsumari”的后面就存在概括這個(gè)文本的內(nèi)容的表達(dá)。這意味著,如果這部分被抽取,則可以確定是好摘要。
機(jī)器學(xué)習(xí)單元13然后用機(jī)器學(xué)習(xí)方法從由解決方案/特征對抽取單元12抽取解決方案和特征的集的組學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最容易的(例如“機(jī)器摘要”、或“手工摘要”)(步驟S2)。機(jī)器學(xué)習(xí)單元13例如采用簡單貝葉斯方法、判定表技術(shù)、最大熵方法或支持向量機(jī)器方法等等作為有監(jiān)督的機(jī)器學(xué)習(xí)方法。
簡單貝葉斯方法是根據(jù)貝葉斯定理推斷每個(gè)類別的概率的方法,該方法將概率值最高的類別作為要采用的類別。
判定表技術(shù)定義由特征和類別組成的各組,用于在一個(gè)有預(yù)定優(yōu)先級的表中存儲(chǔ)。當(dāng)要被提交作檢查的輸入然后被提供時(shí),用該表從最高優(yōu)先級開始按順序比較該輸入數(shù)據(jù)和所定義的特征。如果特征匹配,則所定義的類別被作為輸入類別。
在最大熵方法中,當(dāng)采用預(yù)定集合的特征fj(1≤j≤k)作為F集合時(shí),獲得在滿足規(guī)定約束條件的同時(shí)某個(gè)表達(dá)何時(shí)意味著熵最大的概率分布,然后按照這個(gè)概率分布獲得的每個(gè)類別的概率,獲得概率值較大的類別。
支持向量機(jī)器方法是一種將空間劃分成超平面對兩個(gè)類別中的數(shù)據(jù)分類的方法。
判定表技術(shù)和最大熵方法在下文引用的參考文獻(xiàn)2中有說明,支持向量機(jī)器方法在下文引用的參考文獻(xiàn)3和4中有說明。
“引用參考文獻(xiàn)2Society for language analysis in electronicinformation communication studies and communications(電子信息通信研究和通信中的語言分析學(xué)會(huì)),NCL2001-2,(2001),Ambiguityresolution trials employing various machine learningtechniques(采用各種機(jī)器學(xué)習(xí)方法的歧義解析試驗(yàn))(村田真樹、內(nèi)山將夫、內(nèi)元清貴、馬青、井佐原均、種々の機(jī)械學(xué)習(xí)法を用いた多羲解消実験、電子情報(bào)通信學(xué)會(huì)言語理解とコミユニケ一ション研究會(huì))?!薄耙脜⒖嘉墨I(xiàn)3Nello Cristianini和John Shawe-TaylorAn Introduction to Support Vector Machines and otherkernel-based learning methods(Cambridge University Press,2000)(支持向量機(jī)和其它基于內(nèi)核的學(xué)習(xí)方法的介紹,劍橋大學(xué)出版社,2000年)”“引用參考文獻(xiàn)4Taku Kudoh,TinysvmSupport VectorMachines(支持向量機(jī))(http//cl.aist-nara.ac.jp/taku-ku//software/TinySVM/index.html,2000)”。
之后,將希望評估的摘要2輸入到特征抽取單元15(步驟S3)。
特征抽取單元15采用與解決方案/特征對抽取單元12的基本相同的處理從輸入的摘要2中抽取一組特征,并把這些特征傳送給評估推斷單元16(步驟S4)。
評估推斷單元16根據(jù)在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲(chǔ)單元14中的學(xué)習(xí)結(jié)果收集在到傳送過來的特征時(shí)推斷哪種解決方案是最直截了當(dāng)?shù)?,然后輸出該推斷解即評估3(步驟S5)。例如,評估推斷單元16如果推斷,作為根據(jù)從摘要2中抽取的特征集用機(jī)器學(xué)習(xí)技術(shù)執(zhí)行處理的結(jié)果,摘要2的解決方案是“手工摘要”,則可以輸出一個(gè)“手工摘要”或“好摘要”的評估3。評估推斷單元16在推斷出摘要2的解決方案是“機(jī)器摘要”時(shí),也可以輸出一個(gè)“機(jī)器摘要”或“壞摘要”的評估3。
以上給出了本發(fā)明的實(shí)際實(shí)現(xiàn)的說明,但是在本發(fā)明的范圍內(nèi)可以有各種修改。例如,在舉例說明的本發(fā)明的一個(gè)實(shí)施例中,將“機(jī)器摘要”和“手工摘要”這兩個(gè)類別作為存儲(chǔ)在解決方案數(shù)據(jù)存儲(chǔ)單元11中的解決方案數(shù)據(jù),但是也可以采用三種或更多的類別作為解決方案。
按照本發(fā)明,將原始文本和摘要作為問題,為摘要生成裝置準(zhǔn)備大量的解決方案數(shù)據(jù),作為“人工的”或“機(jī)器的”解決方案。然后根據(jù)利用這個(gè)解決方案數(shù)據(jù)的機(jī)器學(xué)習(xí)得出的結(jié)果,對作為處理對象的摘要推斷出是“機(jī)器摘要”還是“手工摘要”的評估。因此,即使處理的對象是自由建立的摘要,也有可能對這個(gè)評估進(jìn)行自動(dòng)處理。因此即使對自由制作的摘要也能進(jìn)行可重復(fù)的、無偏見的評估。
按照本發(fā)明,對于同一個(gè)摘要總是輸出等同的評估。因此可以對相同的摘要多次重復(fù)進(jìn)行相同的評估處理,當(dāng)把執(zhí)行本發(fā)明的處理系統(tǒng)調(diào)整得性能優(yōu)異時(shí),則能直截了當(dāng)?shù)孬@得關(guān)于這個(gè)處理系統(tǒng)的評估。
按照本發(fā)明,有可能對相同的摘要重復(fù)相同的評估,能共享摘要處理方法的評估。
權(quán)利要求
1.一種采用計(jì)算機(jī)的摘要評估方法,包含以下步驟訪問用于存儲(chǔ)解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲(chǔ)裝置,其中解決方案數(shù)據(jù)由一個(gè)組構(gòu)成,該組包括由文章段及其摘要構(gòu)成的一個(gè)問題、以及由來自解決方案數(shù)據(jù)存儲(chǔ)器的摘要的評估構(gòu)成的一個(gè)解決方案;從解決方案數(shù)據(jù)存儲(chǔ)裝置獲得解決方案數(shù)據(jù);從解決方案數(shù)據(jù)的問題中抽取特征并建立解決方案和特征的集合的組;用有監(jiān)督的機(jī)器學(xué)習(xí)方法,從解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最容易的,并存儲(chǔ)該學(xué)習(xí)的結(jié)果;從輸入的文本抽取特征的集合;和根據(jù)學(xué)習(xí)的結(jié)果,推斷在從特征抽取步驟中獲得的特征而抽取了的集合的情況下,哪種解決方案是最容易得到成功的。
2.按照權(quán)利要求1的摘要評估方法,其中,解決方案由兩個(gè)類別組成機(jī)器處理的摘要、及人制作的摘要。
3.一種摘要評估裝置,包含用于存儲(chǔ)解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲(chǔ)裝置,其中解決方案數(shù)據(jù)由一個(gè)組構(gòu)成,該組包括由文章段及其摘要構(gòu)成的一個(gè)問題、以及由該摘要的評估構(gòu)成的一個(gè)解決方案;解決方案/特征對抽取裝置,用于從解數(shù)據(jù)存儲(chǔ)裝置獲得解決方案數(shù)據(jù)、從該解決方案數(shù)據(jù)的問題中抽取特征并建立解決方案和特征的集合的組;機(jī)器學(xué)習(xí)裝置,用于用有監(jiān)督的機(jī)器學(xué)習(xí)方法,從解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最容易的,并存儲(chǔ)該學(xué)習(xí)的結(jié)果;特征抽取裝置,用于從輸入的文本抽取特征的集;和評估推斷裝置,用于根據(jù)學(xué)習(xí)的結(jié)果,推斷在從特征抽取裝置獲得的特征而抽取了的集合的情況下,哪種解決方案是最容易得到成功的。
4.按照權(quán)利要求3的摘要評估裝置,其中,解決方案由兩個(gè)類別組成機(jī)器處理的摘要、及人制作的摘要。
5.一種記錄有摘要評估程序的計(jì)算機(jī)可讀的記錄媒體,該程序使計(jì)算機(jī)執(zhí)行以下處理訪問用于存儲(chǔ)解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲(chǔ)裝置,其中解決方案數(shù)據(jù)由一個(gè)組構(gòu)成,該組包括由文章段及其摘要構(gòu)成的一個(gè)問題、以及由來自解決方案存儲(chǔ)器的摘要的評估構(gòu)成的一個(gè)解決方案;從解決方案數(shù)據(jù)存儲(chǔ)裝置獲得解決方案數(shù)據(jù);存儲(chǔ)解決方案數(shù)據(jù),該解決方案數(shù)據(jù)由一個(gè)組構(gòu)成,該組包括由文章段及其摘要構(gòu)成的一個(gè)問題、以及由摘要的評估構(gòu)成的一個(gè)解決方案。從解決方案數(shù)據(jù)的問題中抽取特征并建立解決方案和特征的集合的組;用有監(jiān)督的機(jī)器學(xué)習(xí)方法,從解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最容易的,并存儲(chǔ)該學(xué)習(xí)的結(jié)果;從輸入的文本抽取特征的集合;和根據(jù)學(xué)習(xí)的結(jié)果,推斷在從特征抽取處理中獲得的特征而抽取了的集合的情況下,哪種解決方案是最容易得到成功的。
6.按照權(quán)利要求5的計(jì)算機(jī)可讀的記錄媒體,其中,解決方案由兩個(gè)類別組成機(jī)器處理的摘要、及人制作的摘要。
全文摘要
按照本發(fā)明的裝置在解決方案數(shù)據(jù)存儲(chǔ)單元中存儲(chǔ)由文章段、文章段的摘要和對摘要的評估構(gòu)成的例子。從所存儲(chǔ)的例子中抽取解決方案和特征的集合的組,并用機(jī)器學(xué)習(xí)技術(shù)學(xué)習(xí)在哪種情況下哪種解決方案是最直截了當(dāng)?shù)模瑢W(xué)習(xí)的結(jié)果被存儲(chǔ)在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲(chǔ)單元中。然后,從輸入的摘要中抽取特征的集,推斷就所抽取的特征集合而言哪種解決方案是容易得到成功的,并將其作為評估輸出。
文檔編號G06F17/30GK1435774SQ0310217
公開日2003年8月13日 申請日期2003年1月30日 優(yōu)先權(quán)日2002年1月31日
發(fā)明者村田真樹 申請人:獨(dú)立行政法人通訊綜合研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1