本發(fā)明屬于人工智能和計算機(jī)科學(xué),涉及大模型知識增強(qiáng)與表格數(shù)據(jù)識別技術(shù),具體涉及一種用于大模型知識增強(qiáng)的工業(yè)復(fù)雜表格的數(shù)據(jù)識別方法及程序產(chǎn)品。
背景技術(shù):
1、目前,大模型(large?language?models,llms)技術(shù)在處理純文本信息方面已經(jīng)較為成熟,借助自然語言處理技術(shù),llms可以直接利用文本數(shù)據(jù)進(jìn)行訓(xùn)練和推理。然而,在工業(yè)領(lǐng)域,知識文件中不僅包含文本信息,還包括大量的表格等復(fù)雜數(shù)據(jù)形式,現(xiàn)有的大模型領(lǐng)域知識增強(qiáng)技術(shù)在處理工業(yè)復(fù)雜表格方面仍存在諸多挑戰(zhàn)和不足。
2、不同于文本類信息可以直接被大模型所利用,表格類信息不僅包含數(shù)據(jù)內(nèi)容,還包含復(fù)雜的表格結(jié)構(gòu),所以如何在大模型領(lǐng)域知識增強(qiáng)中實現(xiàn)對表格類信息的檢索是當(dāng)前行業(yè)的一大難點。工業(yè)復(fù)雜表格通常具有多層次結(jié)構(gòu)的表頭和大量合并的單元格,單元格之間具有復(fù)雜的關(guān)聯(lián),在表格內(nèi)容查詢時通常需要多次查詢不同層級的表頭才能夠定位到需要查詢的表格值,不利于對表格信息的提取和利用。
3、為了使大模型能夠?qū)W習(xí)領(lǐng)域知識文檔中的表格信息,行業(yè)內(nèi)一般采用將特定的表格內(nèi)容按照模板提取,將其轉(zhuǎn)化為文本問答對并參與大模型訓(xùn)練,但是該類方法不具有泛化性,需要在處理不同格式的表格時重新更換模板,導(dǎo)致操作繁瑣且效率低下。同時,大模型表格問答類任務(wù)的大多數(shù)數(shù)據(jù)集均為區(qū)分出表頭和表格內(nèi)容的數(shù)據(jù)集,大模型可以依據(jù)更多的表格信息進(jìn)行回答。但是在表格信息提取的過程中,并不存在可以區(qū)別單元格類別的流程。并且這些數(shù)據(jù)集中的文本表格通常也都保留了表格的結(jié)構(gòu)內(nèi)容,也就意味著大模型在依據(jù)表格內(nèi)容進(jìn)行回答前仍然需要實現(xiàn)對表格結(jié)構(gòu)的理解。
4、綜上所述,現(xiàn)有的大模型知識增強(qiáng)技術(shù)在處理工業(yè)復(fù)雜表格時面臨諸多挑戰(zhàn),包括表格結(jié)構(gòu)的復(fù)雜性、表格內(nèi)容的多樣性以及現(xiàn)有方法的泛化性不足等問題。如何在大模型領(lǐng)域知識增強(qiáng)中實現(xiàn)對表格類信息的高效檢索和利用,是亟待解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、(一)發(fā)明目的
2、針對現(xiàn)有技術(shù)在處理工業(yè)復(fù)雜表格時存在的上述缺陷和不足,本發(fā)明提出了一種用于大模型知識增強(qiáng)的工業(yè)表格的數(shù)據(jù)識別方法及程序產(chǎn)品。通過自然語言處理技術(shù)將領(lǐng)域文件中的復(fù)雜表格數(shù)據(jù)轉(zhuǎn)換為大模型容易理解的文本格式數(shù)據(jù),使大模型可以利用這些文本數(shù)據(jù)對領(lǐng)域相關(guān)的問題進(jìn)行更好的回答,并通過采用表格框線優(yōu)化延長等技術(shù)手段提高表格結(jié)構(gòu)識別的準(zhǔn)確性,通過應(yīng)用細(xì)粒度的表格內(nèi)容表示方法,在保留表格結(jié)構(gòu)信息的同時提高大模型對表格內(nèi)容的理解能力,從而實現(xiàn)對工業(yè)復(fù)雜表格的高效處理和利用,顯著提升大模型在領(lǐng)域知識增強(qiáng)中的表現(xiàn)。
3、(二)技術(shù)方案
4、為實現(xiàn)該發(fā)明目的,解決其技術(shù)問題,本發(fā)明采用如下技術(shù)方案:
5、本發(fā)明的第1個目的在于提供一種用于大模型知識增強(qiáng)的工業(yè)表格的數(shù)據(jù)識別方法,用于從包含表格的工業(yè)文件中提取和表示表格內(nèi)容數(shù)據(jù),以提高大模型對這些數(shù)據(jù)的理解和利用,所述方法包括如下步驟:
6、ss1.工業(yè)表格數(shù)據(jù)獲?。豪梦募馕龉ぞ邚妮斎氲墓I(yè)文件中識別和定位表格區(qū)域,從文件頁面中提取出僅包含表格內(nèi)容的數(shù)據(jù)塊;
7、ss2.工業(yè)表格結(jié)構(gòu)獲取:利用線條檢測算法提取表格邊框的所有橫向和豎向框線,利用表格邊框的橫豎框線交點推理出所有單元格的坐標(biāo),確認(rèn)每一個單元格的位置和邊界,恢復(fù)表格的結(jié)構(gòu);
8、ss3.工業(yè)表格內(nèi)容獲?。焊鶕?jù)步驟ss2中獲得的單元格坐標(biāo),并通過識別表格數(shù)據(jù)塊中的表格內(nèi)容,按照單元格坐標(biāo)對識別出的表格內(nèi)容進(jìn)行匹配并存儲,形成“單元格內(nèi)容+坐標(biāo)”格式的組合數(shù)據(jù);
9、ss4.工業(yè)表格數(shù)據(jù)文本化:通過延長表格中的橫豎框線至表格邊界,將原始復(fù)雜表格中的合并單元格進(jìn)行拆分,使其拆分成表格中的最小單元格,以最小單元格的形式對表格數(shù)據(jù)進(jìn)行文本化表示;
10、ss5.工業(yè)表格數(shù)據(jù)細(xì)粒度表示:利用大模型對文本化表格中的每一個單元格內(nèi)容進(jìn)行內(nèi)容分類以區(qū)分單元格內(nèi)容屬于鍵類型或值類型,通過細(xì)粒度鍵值對的形式表示表格數(shù)據(jù),并將其存儲進(jìn)向量數(shù)據(jù)庫中;
11、ss6.工業(yè)表格問答檢索增強(qiáng):當(dāng)用戶提出針對表格內(nèi)容的提問時,將提問內(nèi)容轉(zhuǎn)換為向量格式,通過向量相似度匹配并結(jié)合rag檢索增強(qiáng)生成技術(shù),實現(xiàn)與向量數(shù)據(jù)庫中細(xì)粒度的表格數(shù)據(jù)內(nèi)容進(jìn)行問答。
12、本發(fā)明的第2個目的在于提供一種計算機(jī)程序產(chǎn)品,包括計算機(jī)指令,所述計算機(jī)指令指示計算設(shè)備用于執(zhí)行上述用于大模型知識增強(qiáng)的工業(yè)表格的數(shù)據(jù)識別方法。
13、(三)技術(shù)效果
14、同現(xiàn)有技術(shù)相比,本發(fā)明的用于大模型知識增強(qiáng)的工業(yè)表格的數(shù)據(jù)識別方法及程序產(chǎn)品,具有以下有益且顯著的技術(shù)效果:
15、(1)本發(fā)明通過將復(fù)雜的表格數(shù)據(jù)進(jìn)行文本化表示,并采用細(xì)粒度的鍵值對形式表示表格數(shù)據(jù),使大模型能夠更準(zhǔn)確地理解和處理表格內(nèi)容,提升知識問答的準(zhǔn)確性。此外,本發(fā)明通過將表格內(nèi)容進(jìn)行向量化存儲,并結(jié)合rag檢索增強(qiáng)生成技術(shù),實現(xiàn)高效的向量相似度匹配,能夠快速準(zhǔn)確地從向量數(shù)據(jù)庫中檢索出相關(guān)內(nèi)容,提高用戶問答的效率和準(zhǔn)確性。
16、(2)本發(fā)明通過利用線條檢測算法和表格邊框的橫豎框線交點推理出所有單元格的坐標(biāo),顯著提高了表格結(jié)構(gòu)的恢復(fù)準(zhǔn)確性,確保每個單元格的位置和邊界得到正確識別。同時,本發(fā)明將分類后的細(xì)粒度表格內(nèi)容存儲進(jìn)向量數(shù)據(jù)庫中,為后續(xù)的數(shù)據(jù)檢索和知識問答提供了堅實的基礎(chǔ),提升了數(shù)據(jù)的利用率和價值。此外,本發(fā)明不依賴特定表格格式,具有較強(qiáng)的泛化能力,能夠處理各種格式的工業(yè)復(fù)雜表格數(shù)據(jù),提升了方法的適用范圍和實用性。
17、(3)本發(fā)明提出并應(yīng)用了細(xì)粒度的表格內(nèi)容表示方法,與常規(guī)序列化表格相比,不具有表格結(jié)構(gòu)信息,更有利于大模型對表格內(nèi)容的理解;同時,在檢索增強(qiáng)生成步驟中,如果表格數(shù)據(jù)過多,細(xì)粒度的表格內(nèi)容可以按照文本塊分割的最大限度進(jìn)行分割,并且不會損失表格的內(nèi)容數(shù)據(jù)。如果是序列化的表格內(nèi)容,則會因為文本塊分割導(dǎo)致表格結(jié)構(gòu)被破壞從而損失表格信息。
1.一種用于大模型知識增強(qiáng)的工業(yè)表格的數(shù)據(jù)識別方法,其特征在于,所述數(shù)據(jù)識別方法在實施時至少包括以下步驟:
2.根據(jù)權(quán)利要求1所述的用于大模型知識增強(qiáng)的工業(yè)表格的數(shù)據(jù)識別方法,其特征在于,上述步驟ss1中,工業(yè)表格數(shù)據(jù)獲取包括:
3.根據(jù)權(quán)利要求1所述的用于大模型知識增強(qiáng)的工業(yè)表格的數(shù)據(jù)識別方法,其特征在于,上述步驟ss2中,工業(yè)表格結(jié)構(gòu)獲取包括:
4.根據(jù)權(quán)利要求3所述的用于大模型知識增強(qiáng)的工業(yè)表格的數(shù)據(jù)識別方法,其特征在于,子步驟ss24中采用交點取值算法將橫縱坐標(biāo)位置相近的交點歸一化合并為同一交點;子步驟ss25對表格結(jié)構(gòu)進(jìn)行恢復(fù)時,根據(jù)啟發(fā)式規(guī)則,按照順序遍歷所有的交點,判定可以組成一個長方形四點是否為一個單元格,如果可以組成,則將該四個交點所包含的坐標(biāo)信息進(jìn)行存儲,判定完畢后,則繼續(xù)從下一組相鄰交點按照順時針判定;當(dāng)一行坐標(biāo)全部判定完畢后,則進(jìn)入下一行的判定流程,直至全部交點被遍歷,所獲得的所有單元格坐標(biāo)信息即為表格結(jié)構(gòu)。
5.根據(jù)權(quán)利要求1所述的用于大模型知識增強(qiáng)的工業(yè)表格的數(shù)據(jù)識別方法,其特征在于,上述步驟ss3中,工業(yè)表格內(nèi)容獲取包括:
6.根據(jù)權(quán)利要求5所述的用于大模型知識增強(qiáng)的工業(yè)表格的數(shù)據(jù)識別方法,其特征在于,上述步驟ss4中,工業(yè)表格數(shù)據(jù)文本化包括:
7.根據(jù)權(quán)利要求1所述的用于大模型知識增強(qiáng)的工業(yè)表格的數(shù)據(jù)識別方法,其特征在于,上述步驟ss5中,工業(yè)表格數(shù)據(jù)細(xì)粒度表示包括:
8.根據(jù)權(quán)利要求1所述的用于大模型知識增強(qiáng)的工業(yè)表格的數(shù)據(jù)識別方法,其特征在于,上述步驟ss6中,表格問答檢索增強(qiáng)包括:
9.一種計算機(jī)程序產(chǎn)品,其特征在于,包括計算機(jī)指令,所述計算機(jī)指令指示計算設(shè)備用于執(zhí)行如權(quán)利要求1至8任一項所述的用于大模型知識增強(qiáng)的工業(yè)表格的數(shù)據(jù)識別方法。