本發(fā)明涉及數(shù)據(jù)處理技術(shù),尤其涉及一種基于大數(shù)據(jù)的法律文書要素智能識(shí)別方法。
背景技術(shù):
1、要素式裁判文書作為一種簡(jiǎn)明扼要、結(jié)構(gòu)清晰的文書形式,通過標(biāo)準(zhǔn)化和要素化的內(nèi)容呈現(xiàn),旨在提高司法效率和透明度。該文書形式包含案件基本信息、爭(zhēng)議焦點(diǎn)、事實(shí)認(rèn)定、法律依據(jù)、判決結(jié)果及理由等關(guān)鍵要素,減少了冗長(zhǎng)的描述,便于各方理解。
2、現(xiàn)有技術(shù)中,要素式裁判文書的生成大多依賴于人工操作,司法人員需要手動(dòng)從各種法律文書中提取重要要素并填入標(biāo)準(zhǔn)格式中。這種方法費(fèi)時(shí)費(fèi)力且容易出錯(cuò),無法滿足高效處理大量法律文書的需求。同時(shí),由于法律文書的類型和內(nèi)容復(fù)雜多樣,現(xiàn)有技術(shù)無法靈活應(yīng)對(duì)不同種類文書的自動(dòng)化處理,這進(jìn)一步限制了要素式裁判文書的自動(dòng)生成。
3、因此,如何自動(dòng)化地從法律文書中提取和填充重要要素內(nèi)容,協(xié)助用戶提高要素式裁判文書的生成效率和準(zhǔn)確性,成為了急需解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例提供一種基于大數(shù)據(jù)的法律文書要素智能識(shí)別方法,可以自動(dòng)化地從法律文書中提取和填充重要要素內(nèi)容,協(xié)助用戶提高要素式裁判文書的生成效率和準(zhǔn)確性。
2、本發(fā)明實(shí)施例的第一方面,提供一種基于大數(shù)據(jù)的法律文書要素智能識(shí)別方法,包括:
3、對(duì)服務(wù)器對(duì)所接收的第一法律文書的屬性確定得到第一屬性,挑選數(shù)據(jù)庫中與所述第一屬性所對(duì)應(yīng)的第一文書要素集合;
4、確定第一文書要素集合內(nèi)所對(duì)應(yīng)的第一識(shí)別特征,基于所述第一識(shí)別特征對(duì)所述第一法律文書識(shí)別,得到與所述第一識(shí)別特征所對(duì)應(yīng)的第一要素內(nèi)容;
5、調(diào)取與所述第一屬性所對(duì)應(yīng)的標(biāo)準(zhǔn)要素表,將所述第一要素內(nèi)容填充至標(biāo)準(zhǔn)要素表內(nèi),確定未得到第一要素內(nèi)容的第一識(shí)別特征作為第二識(shí)別特征,確定未滿足要求的第一要素內(nèi)容的第一識(shí)別特征作為第三識(shí)別特征;
6、基于所述第二識(shí)別特征、第三識(shí)別特征對(duì)所述標(biāo)準(zhǔn)要素表處理得到反饋要素表反饋至目標(biāo)端,基于所述反饋要素表接收目標(biāo)端的反饋信息并填充至標(biāo)準(zhǔn)要素表內(nèi),得到總標(biāo)準(zhǔn)要素表發(fā)送至管理端。
7、可選地,在第一方面的一種可能實(shí)現(xiàn)方式中,所述對(duì)服務(wù)器對(duì)所接收的第一法律文書的屬性確定得到第一屬性,挑選數(shù)據(jù)庫中與所述第一屬性所對(duì)應(yīng)的第一文書要素集合,包括:
8、服務(wù)器對(duì)所接收的第一法律文書的屬性關(guān)鍵詞識(shí)別,所述屬性關(guān)鍵包括案由,對(duì)所述第一法律文書所對(duì)應(yīng)的行進(jìn)行定位得到第一行定位;
9、剔除所述第一行定位中與所述屬性關(guān)鍵詞所對(duì)應(yīng)的文本和標(biāo)點(diǎn)符號(hào)文本,對(duì)第一行定位中剩余的文本識(shí)別得到第一識(shí)別文本;
10、若所述第一行定位中剩余的文本為空,則基于所述第一行定位確定相應(yīng)的第二行定位,對(duì)第二行定位中剩余的文本識(shí)別得到第一識(shí)別文本;
11、對(duì)所述第一識(shí)別文本分詞處理確定所對(duì)應(yīng)預(yù)設(shè)標(biāo)準(zhǔn)文本,以及預(yù)設(shè)標(biāo)準(zhǔn)文本所對(duì)應(yīng)的屬性得到第一屬性,挑選數(shù)據(jù)庫中與所述第一屬性所對(duì)應(yīng)的第一文書要素集合,每個(gè)第一屬性具有預(yù)設(shè)的第一文書要素集合。
12、可選地,在第一方面的一種可能實(shí)現(xiàn)方式中,所述對(duì)所述第一識(shí)別文本分詞處理確定所對(duì)應(yīng)預(yù)設(shè)標(biāo)準(zhǔn)文本,以及預(yù)設(shè)標(biāo)準(zhǔn)文本所對(duì)應(yīng)的屬性得到第一屬性,挑選數(shù)據(jù)庫中與所述第一屬性所對(duì)應(yīng)的第一文書要素集合,每個(gè)第一屬性具有預(yù)設(shè)的第一文書要素集合,包括:
13、對(duì)第一識(shí)別文本內(nèi)的預(yù)設(shè)剔除詞識(shí)別后剔除處理,對(duì)剩余的第一識(shí)別文本分詞處理得到多個(gè)第一識(shí)別分詞;
14、將所述第一識(shí)別分詞與每個(gè)預(yù)設(shè)標(biāo)準(zhǔn)文本的預(yù)設(shè)標(biāo)準(zhǔn)分詞比對(duì),若存在預(yù)設(shè)標(biāo)準(zhǔn)文本的預(yù)設(shè)標(biāo)準(zhǔn)分詞與所述第一識(shí)別分詞完全相同,則將相應(yīng)的預(yù)設(shè)標(biāo)準(zhǔn)文本作為所確定的預(yù)設(shè)標(biāo)準(zhǔn)文本;
15、若判斷不存在預(yù)設(shè)標(biāo)準(zhǔn)文本的預(yù)設(shè)標(biāo)準(zhǔn)分詞與所述第一識(shí)別分詞完全相同的情況,則計(jì)算預(yù)設(shè)標(biāo)準(zhǔn)文本和第一識(shí)別文本的識(shí)別相似度得到所確定的預(yù)設(shè)標(biāo)準(zhǔn)文本。
16、可選地,在第一方面的一種可能實(shí)現(xiàn)方式中,所述若判斷不存在預(yù)設(shè)標(biāo)準(zhǔn)文本的預(yù)設(shè)標(biāo)準(zhǔn)分詞與所述第一識(shí)別分詞完全相同的情況,則計(jì)算預(yù)設(shè)標(biāo)準(zhǔn)文本和第一識(shí)別文本的識(shí)別相似度得到所確定的預(yù)設(shè)標(biāo)準(zhǔn)文本,包括:
17、計(jì)算預(yù)設(shè)標(biāo)準(zhǔn)文本的預(yù)設(shè)標(biāo)準(zhǔn)分詞與第一識(shí)別分詞中相同的分詞數(shù)量,以及確定每個(gè)相同的第一識(shí)別分詞所對(duì)應(yīng)的第一相同系數(shù),每個(gè)第一識(shí)別分詞具有預(yù)設(shè)的第一相同系數(shù);
18、基于預(yù)設(shè)標(biāo)準(zhǔn)分詞與第一識(shí)別分詞的相同數(shù)量、差異數(shù)量、第一相同系數(shù)綜合計(jì)算,得到預(yù)設(shè)標(biāo)準(zhǔn)文本與相應(yīng)第一識(shí)別文本的識(shí)別相似度,通過以下公式計(jì)算識(shí)別相似度,
19、
20、其中,為識(shí)別相似度,為預(yù)設(shè)標(biāo)準(zhǔn)分詞與第一識(shí)別分詞的相同數(shù)量,為預(yù)設(shè)標(biāo)準(zhǔn)分詞與第一識(shí)別分詞的差異數(shù)量,為數(shù)量權(quán)重,為第個(gè)第一識(shí)別分詞的第一相同系數(shù),為預(yù)設(shè)標(biāo)準(zhǔn)分詞與第一識(shí)別分詞的相同數(shù)量的上限值,為系數(shù)常數(shù)值,為系數(shù)權(quán)重值;
21、基于所述識(shí)別相似度以及與管理端交互得到所確定的預(yù)設(shè)標(biāo)準(zhǔn)文本,并基于所述第一識(shí)別分詞對(duì)預(yù)設(shè)標(biāo)準(zhǔn)文本內(nèi)的預(yù)設(shè)標(biāo)準(zhǔn)分詞更新處理,并基于所述識(shí)別相似度得到預(yù)設(shè)標(biāo)準(zhǔn)分詞的第一相同系數(shù)。
22、可選地,在第一方面的一種可能實(shí)現(xiàn)方式中,所述基于所述識(shí)別相似度以及與管理端交互得到所確定的預(yù)設(shè)標(biāo)準(zhǔn)文本,并基于所述第一識(shí)別分詞對(duì)預(yù)設(shè)標(biāo)準(zhǔn)文本內(nèi)的預(yù)設(shè)標(biāo)準(zhǔn)分詞更新處理,并基于所述識(shí)別相似度得到預(yù)設(shè)標(biāo)準(zhǔn)分詞的第一相同系數(shù),包括:
23、挑選識(shí)別相似度大于最低相似度的預(yù)設(shè)標(biāo)準(zhǔn)文本并降序排序,生成待挑選的預(yù)設(shè)標(biāo)準(zhǔn)文本序列;
24、與管理端交互確定在預(yù)設(shè)標(biāo)準(zhǔn)文本序列內(nèi)所選擇的預(yù)設(shè)標(biāo)準(zhǔn)文本作為所確定的預(yù)設(shè)標(biāo)準(zhǔn)文本,獲取與所確定的預(yù)設(shè)標(biāo)準(zhǔn)文本的預(yù)設(shè)標(biāo)準(zhǔn)分詞不同的第一識(shí)別分詞作為訓(xùn)練識(shí)別分詞;
25、將所述訓(xùn)練識(shí)別分詞作為所確定的預(yù)設(shè)標(biāo)準(zhǔn)文本內(nèi)新的預(yù)設(shè)標(biāo)準(zhǔn)分詞,并基于識(shí)別相似度計(jì)算得到預(yù)設(shè)標(biāo)準(zhǔn)分詞的第一相同系數(shù)。
26、可選地,在第一方面的一種可能實(shí)現(xiàn)方式中,所述將所述訓(xùn)練識(shí)別分詞作為所確定的預(yù)設(shè)標(biāo)準(zhǔn)文本內(nèi)新的預(yù)設(shè)標(biāo)準(zhǔn)分詞,并基于識(shí)別相似度計(jì)算得到預(yù)設(shè)標(biāo)準(zhǔn)分詞的第一相同系數(shù),包括:
27、獲取訓(xùn)練識(shí)別分詞的訓(xùn)練數(shù)量,基于所述訓(xùn)練數(shù)量計(jì)算得到每個(gè)訓(xùn)練識(shí)別分詞的數(shù)量系數(shù);
28、計(jì)算識(shí)別相似度與最大相似度的差值得到差異相似度,基于所述差異相似度加權(quán)計(jì)算得到相似系數(shù);
29、對(duì)每個(gè)訓(xùn)練識(shí)別分詞的數(shù)量系數(shù)、相似系數(shù)綜合計(jì)算,得到相應(yīng)預(yù)設(shè)標(biāo)準(zhǔn)分詞的第一相同系數(shù),通過以下公式計(jì)算第一相同系數(shù),
30、
31、其中,為第個(gè)訓(xùn)練識(shí)別分詞的第一相同系數(shù),為最低相同系數(shù),為第個(gè)訓(xùn)練識(shí)別分詞的訓(xùn)練數(shù)量,為數(shù)量歸一化值,為最大相似度,為包括第個(gè)訓(xùn)練識(shí)別分詞的第一識(shí)別文本的識(shí)別相似度,為相似度歸一化值,為相同權(quán)重值。
32、可選地,在第一方面的一種可能實(shí)現(xiàn)方式中,所述確定第一文書要素集合內(nèi)所對(duì)應(yīng)的第一識(shí)別特征,基于所述第一識(shí)別特征對(duì)所述第一法律文書識(shí)別,得到與所述第一識(shí)別特征所對(duì)應(yīng)的第一要素內(nèi)容,包括:
33、確定第一文書要素集合內(nèi)所對(duì)應(yīng)的第一識(shí)別特征,每個(gè)第一文書要素集合具有預(yù)設(shè)的第一識(shí)別特征;
34、基于所述第一識(shí)別特征對(duì)所述第一法律文書內(nèi)的文本進(jìn)行定位,得到與每個(gè)第一識(shí)別特征所對(duì)應(yīng)的第一文本詞,確定所述第一文本詞所對(duì)應(yīng)的連貫文本;
35、提取所述連貫文本直至出現(xiàn)截止字符,將所提取的連貫文本作為與所述第一識(shí)別特征所對(duì)應(yīng)的第一要素內(nèi)容。
36、可選地,在第一方面的一種可能實(shí)現(xiàn)方式中,所述調(diào)取與所述第一屬性所對(duì)應(yīng)的標(biāo)準(zhǔn)要素表,將所述第一要素內(nèi)容填充至標(biāo)準(zhǔn)要素表內(nèi),確定未得到第一要素內(nèi)容的第一識(shí)別特征作為第二識(shí)別特征,確定未滿足要求的第一要素內(nèi)容的第一識(shí)別特征作為第三識(shí)別特征,包括:
37、調(diào)取與所述第一屬性所對(duì)應(yīng)的標(biāo)準(zhǔn)要素表,每個(gè)第一屬性具有預(yù)設(shè)的標(biāo)準(zhǔn)要素表,將所述第一要素內(nèi)容填充至標(biāo)準(zhǔn)要素表內(nèi)相對(duì)應(yīng)的槽位內(nèi);
38、依次遍歷標(biāo)準(zhǔn)要素表內(nèi)所有的槽位,將沒有填充第一要素內(nèi)容的槽位對(duì)應(yīng)的第一識(shí)別特征作為第二識(shí)別特征;
39、依次遍歷標(biāo)準(zhǔn)要素表內(nèi)所有的槽位確定每個(gè)槽位所對(duì)應(yīng)的文本數(shù)量,若判斷所述文本數(shù)量小于相應(yīng)槽位的最低數(shù)量,則將未滿足要求的第一要素內(nèi)容的第一識(shí)別特征作為第三識(shí)別特征,每個(gè)識(shí)別特征所對(duì)應(yīng)的槽位具有最低數(shù)量。
40、可選地,在第一方面的一種可能實(shí)現(xiàn)方式中,所述基于所述第二識(shí)別特征、第三識(shí)別特征對(duì)所述標(biāo)準(zhǔn)要素表處理得到反饋要素表反饋至目標(biāo)端,基于所述反饋要素表接收目標(biāo)端的反饋信息并填充至標(biāo)準(zhǔn)要素表內(nèi),得到總標(biāo)準(zhǔn)要素表發(fā)送至管理端,包括:
41、刪除標(biāo)準(zhǔn)要素表內(nèi)第一識(shí)別特征所對(duì)應(yīng)的槽位,對(duì)剩余的第二識(shí)別特征、第三識(shí)別特征按照標(biāo)準(zhǔn)要素表內(nèi)的順序排序得到反饋要素表;
42、在反饋要素表內(nèi)第二識(shí)別特征所對(duì)應(yīng)的槽位添加信息缺失標(biāo)簽,在反饋要素表內(nèi)第三識(shí)別特征所對(duì)應(yīng)的槽位添加信息缺少標(biāo)簽;
43、要素缺失模型基于所述信息缺失標(biāo)簽、信息缺少標(biāo)簽所對(duì)應(yīng)的槽位進(jìn)行綜合計(jì)算,得到要素信息缺失系數(shù),將所述要素信息缺失系數(shù)添加至反饋要素表的預(yù)設(shè)槽位內(nèi)后反饋至目標(biāo)端,若要素信息缺失系數(shù)大于閾值缺失系數(shù)則同步反饋至管理端;
44、在判斷目標(biāo)端對(duì)反饋要素表填充后提取槽位內(nèi)的反饋信息,并填充至標(biāo)準(zhǔn)要素表內(nèi)得到總標(biāo)準(zhǔn)要素表,基于要素缺失模型對(duì)總標(biāo)準(zhǔn)要素表內(nèi)要素信息缺失系數(shù)更新并將發(fā)送至管理端。
45、可選地,在第一方面的一種可能實(shí)現(xiàn)方式中,要素缺失模型基于所述信息缺失標(biāo)簽、信息缺少標(biāo)簽所對(duì)應(yīng)的槽位進(jìn)行綜合計(jì)算,得到要素信息缺失系數(shù),將所述要素信息缺失系數(shù)添加至反饋要素表的預(yù)設(shè)槽位內(nèi)后反饋至目標(biāo)端,包括:
46、計(jì)算信息缺少標(biāo)簽所對(duì)應(yīng)槽位內(nèi)文本數(shù)量與最低數(shù)量的差值得到差值文本數(shù)量;
47、基于所述差值文本數(shù)量、信息缺失標(biāo)簽的第一標(biāo)簽數(shù)量、信息缺少標(biāo)簽的第二標(biāo)簽數(shù)量綜合計(jì)算得到要素信息缺失系數(shù),通過以下公式計(jì)算要素信息缺失系數(shù),
48、
49、其中,為要素信息缺失系數(shù),為第一標(biāo)簽數(shù)量,為第一標(biāo)簽權(quán)重,為第二標(biāo)簽數(shù)量,為第二標(biāo)簽權(quán)重,為第個(gè)信息缺少標(biāo)簽所對(duì)應(yīng)槽位的差值文本數(shù)量,為信息缺少標(biāo)簽所對(duì)應(yīng)槽位的數(shù)量上限值,為差值文本的歸一化值。
50、技術(shù)效果一:高效準(zhǔn)確的屬性識(shí)別與要素挑選
51、本發(fā)明通過服務(wù)器接收并識(shí)別第一法律文書的屬性關(guān)鍵詞,確定案件類型并挑選數(shù)據(jù)庫中對(duì)應(yīng)的文書要素集合。在實(shí)施例中,首先通過識(shí)別案由等屬性關(guān)鍵詞進(jìn)行行定位,并剔除與關(guān)鍵詞相關(guān)的文本和標(biāo)點(diǎn)符號(hào),保留剩余的文本。通過分詞處理和與預(yù)設(shè)標(biāo)準(zhǔn)文本的相似度計(jì)算,準(zhǔn)確確定文書屬性。該過程大幅提高了文書屬性識(shí)別的準(zhǔn)確性和效率。
52、技術(shù)效果二:全面且詳盡的要素內(nèi)容提取
53、本發(fā)明在提取要素內(nèi)容時(shí),通過對(duì)識(shí)別特征文本的連貫提取,確保了要素內(nèi)容的完整性。在實(shí)施例中,基于第一識(shí)別特征對(duì)法律文書文本進(jìn)行定位,提取連貫文本直至遇到截止字符,將提取的內(nèi)容填充至標(biāo)準(zhǔn)要素表內(nèi)。對(duì)于未能識(shí)別或未滿足要求的要素,系統(tǒng)通過第二識(shí)別特征和第三識(shí)別特征進(jìn)行再次處理,確保要素內(nèi)容的完整性和準(zhǔn)確性。該技術(shù)不僅減少了人為疏漏,還使得要素內(nèi)容更加全面。
54、技術(shù)效果三:動(dòng)態(tài)更新與自我優(yōu)化能力
55、本發(fā)明通過反饋機(jī)制和要素缺失模型,實(shí)現(xiàn)了標(biāo)準(zhǔn)要素表的動(dòng)態(tài)更新和自我優(yōu)化。在實(shí)施例中,通過生成反饋要素表并與目標(biāo)端和管理端交互,系統(tǒng)根據(jù)反饋信息對(duì)要素內(nèi)容和相似度系數(shù)進(jìn)行更新。要素缺失模型通過信息缺失標(biāo)簽和信息缺少標(biāo)簽計(jì)算要素信息缺失系數(shù),確保了要素內(nèi)容的準(zhǔn)確性。通過這種自我優(yōu)化的能力,系統(tǒng)能夠逐步提高法律文書的處理準(zhǔn)確性和效率,滿足司法實(shí)踐中的動(dòng)態(tài)需求。