本發(fā)明涉及一種人工智能領(lǐng)域,尤其涉及一種文獻目錄自動識別方法及裝置。
背景技術(shù):
1、文獻目錄結(jié)構(gòu)自動識別技術(shù)是計算機視覺和模式識別領(lǐng)域的一個重要分支,它涉及從掃描或拍攝的文檔圖像中自動檢測和識別文本行、段落、標題、列表、表格、圖像和其他版面元素。這項技術(shù)對于文檔的自動化處理、信息檢索、數(shù)字圖書館建設(shè)、古籍修復(fù)等領(lǐng)域至關(guān)重要。
2、目前,基于機器學(xué)習(xí)的方法,尤其是深度學(xué)習(xí)技術(shù),如卷積神經(jīng)網(wǎng)絡(luò)(cnns)、循環(huán)神經(jīng)網(wǎng)絡(luò)(rnns)和transformer模型,已經(jīng)被廣泛應(yīng)用于版面分析中,顯著提高了分析的準確性和魯棒性,并能夠處理復(fù)雜的文檔結(jié)構(gòu)和多語言環(huán)境,包括非文本圖像的優(yōu)先分析,適應(yīng)不同的排版和印刷風(fēng)格。將該技術(shù)與多模態(tài)大語言模型結(jié)合,使ai能夠“閱讀”和分類文檔,提高信息處理的效率。
3、該領(lǐng)域目前仍面臨以下問題:
4、一、復(fù)雜版面結(jié)構(gòu)
5、多列布局、不規(guī)則的文本塊、嵌套的列表和表格等復(fù)雜版面結(jié)構(gòu)仍然是挑戰(zhàn),特別是在手寫或藝術(shù)性排版的文檔中。
6、二、多樣性和噪聲
7、不同類型的文檔(如學(xué)術(shù)論文、法律文件、新聞報道等)可能有獨特的布局特征,而掃描質(zhì)量、陰影、污漬或折疊痕跡等物理損傷也會干擾分析。
8、三、跨語言和跨文化的差異
9、文檔可能包含多種語言或使用不同的書寫系統(tǒng),這要求算法具有高度的靈活性和適應(yīng)性。
10、四、實時性能和資源消耗:
11、高精度的分析往往需要大量的計算資源,對于大規(guī)模文檔集或?qū)崟r處理場景,如何平衡準確性和效率是一個難題。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于針對現(xiàn)有技術(shù)中由文獻版面結(jié)構(gòu)復(fù)雜帶來的目錄結(jié)構(gòu)識別結(jié)果準確率低的問題,提供一種文獻目錄自動識別方法及裝置。
2、本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的:一種文獻目錄自動識別方法,包括:
3、獲取待處理文獻;
4、將所述待處理文獻轉(zhuǎn)換為若干張圖像;
5、基于版面分析模型對所述圖像進行版面分析,得到圖像中各文字區(qū)域的類別和包圍框坐標;所述類別至少包括章節(jié)標題和普通文本;
6、將所述圖像及圖像中各文字區(qū)域的包圍框坐標輸入文字識別模型,得到包圍框內(nèi)的文字;僅保留類別為章節(jié)標題和普通文本的內(nèi)容;
7、基于大語言模型對保留的章節(jié)標題及章節(jié)標題對應(yīng)的普通文本進行置信度分析,篩選出置信度大于預(yù)設(shè)閾值的章節(jié)標題,生成目錄。
8、進一步地,所述基于大語言模型對保留的章節(jié)標題及章節(jié)標題對應(yīng)的普通文本進行置信度分析,第一次篩選出置信度大于預(yù)設(shè)閾值的章節(jié)標題及章節(jié)標題對應(yīng)的普通文本;
9、基于多模態(tài)大語言模型輸出所述待處理文獻的章節(jié)標題及章節(jié)標題對應(yīng)的普通文本;基于大語言模型對該章節(jié)標題及章節(jié)標題對應(yīng)的普通文本進行置信度分析,第二次篩選出置信度大于預(yù)設(shè)閾值的章節(jié)標題及章節(jié)標題對應(yīng)的文本內(nèi)容;
10、基于大語言模型對第一次篩選出的章節(jié)標題及章節(jié)標題對應(yīng)的普通文本和第二次篩選出的章節(jié)標題及章節(jié)標題對應(yīng)的普通文本進行融合,生成文獻目錄。
11、進一步地,所述多模態(tài)大語言模型包括gemini、llama-2、claude?3、grok和flamingo。
12、進一步地,所述大語言模型為專用于文獻結(jié)構(gòu)理解的大語言模型,包括llama3.1、claude3、qwen2和mistral。
13、進一步地,所述版面分析模型包括layoutlm、docformer、?donut和publaynet。
14、進一步地,所述類別包括章節(jié)標題、表格、表格標題、圖像、圖像標題、普通文本、頁眉、頁腳、公式和腳注。
15、本發(fā)明還提供了一種文獻目錄自動識別裝置,包括:
16、文獻獲取模塊,用于獲取待處理文獻;
17、文獻轉(zhuǎn)換模塊,用于將所述待處理文獻轉(zhuǎn)換為若干張圖像;
18、版面分析模塊,用于基于版面分析模型對所述圖像進行版面分析得到圖像中各文字區(qū)域的類別和包圍框坐標;所述類別至少包括章節(jié)標題和普通文本;
19、文字識別模塊,用于將所述圖像及圖像中各文字區(qū)域的包圍框坐標輸入文字識別模型,得到包圍框內(nèi)的文字;僅保留類別為章節(jié)標題和普通文本的內(nèi)容;
20、目錄生成模塊,用于基于大語言模型對保留的章節(jié)標題及章節(jié)標題對應(yīng)的普通文本進行置信度分析,篩選出置信度大于預(yù)設(shè)閾值的章節(jié)標題,生成文獻目錄。
21、本發(fā)明還提供了一種文獻目錄自動識別裝置,包括:
22、多模態(tài)大語言模型處理鏈路模塊,用于基于多模態(tài)大語言模型輸出待處理文獻的章節(jié)標題及章節(jié)標題對應(yīng)的文本內(nèi)容;對該章節(jié)標題及章節(jié)標題對應(yīng)的文本內(nèi)容進行置信度分析,第一次篩選出置信度大于預(yù)設(shè)閾值的章節(jié)標題及章節(jié)標題對應(yīng)的文本內(nèi)容;
23、計算機視覺處理鏈路模塊,用于將所述待處理文獻轉(zhuǎn)換為若干張圖像;使用版面分析模型對所述圖像進行版面分析得到圖像中各文字區(qū)域的類別和包圍框坐標;所述類別至少包括章節(jié)標題和普通文本;將所述圖像及圖像中各文字區(qū)域的包圍框坐標輸入文字識別模型,得到包圍框內(nèi)的文字;僅保留類別為“章節(jié)標題”和“普通文本”的內(nèi)容;對保留的“章節(jié)標題”和“普通文本”的內(nèi)容進行置信度分析,第二次篩選出置信度大于預(yù)設(shè)閾值的章節(jié)標題及章節(jié)標題對應(yīng)的文本內(nèi)容;
24、融合模塊,用于基于大語言模型對第一次篩選出的章節(jié)標題及章節(jié)標題對應(yīng)的文本內(nèi)容和第二次篩選出的章節(jié)標題及章節(jié)標題對應(yīng)的文本內(nèi)容進行融合,生成文獻目錄。
25、本發(fā)明還提供了一種電子設(shè)備,包括存儲器和處理器,所述存儲器與所述處理器耦接;其中,所述存儲器用于存儲程序數(shù)據(jù),所述處理器用于執(zhí)行所述程序數(shù)據(jù)以實現(xiàn)上述的一種文獻目錄自動識別方法。
26、本發(fā)明還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述程序被處理器執(zhí)行時實現(xiàn)上述的一種文獻目錄自動識別方法。
27、與現(xiàn)有技術(shù)相比,本發(fā)明實施例的有益效果是:
28、1、本發(fā)明實施例將版面分析和置信度分析結(jié)合,提高了文獻目錄識別的準確率;
29、2、本發(fā)明另一實施例通過計算機視覺與大語言模型技術(shù)的優(yōu)勢互補,極大降低了文獻版面識別中漏檢、誤檢的比例,進一步提高了文獻目錄識別的準確率,為文檔自動化處理提供了有力支撐。
1.一種文獻目錄自動識別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種文獻目錄自動識別方法,其特征在于,所述基于大語言模型對保留的章節(jié)標題及章節(jié)標題對應(yīng)的普通文本進行置信度分析,第一次篩選出置信度大于預(yù)設(shè)閾值的章節(jié)標題及章節(jié)標題對應(yīng)的普通文本;
3.根據(jù)權(quán)利要求2所述的一種文獻目錄自動識別方法,其特征在于,所述多模態(tài)大語言模型包括gemini、llama-2、claude?3、grok和flamingo。
4.根據(jù)權(quán)利要求1或2所述的一種文獻目錄自動識別方法,其特征在于,所述大語言模型為專用于文獻結(jié)構(gòu)理解的大語言模型,包括llama3.1、claude3、qwen2和mistral。
5.根據(jù)權(quán)利要求1所述的一種文獻目錄自動識別方法,其特征在于,所述版面分析模型包括layoutlm、docformer、?donut和publaynet。
6.根據(jù)權(quán)利要求1所述的一種文獻目錄自動識別方法,其特征在于,所述類別包括章節(jié)標題、表格、表格標題、圖像、圖像標題、普通文本、頁眉、頁腳、公式和腳注。
7.一種文獻目錄自動識別裝置,其特征在于,包括:
8.一種文獻目錄自動識別裝置,其特征在于,包括:
9.一種電子設(shè)備,包括存儲器和處理器,其特征在于,所述存儲器與所述處理器耦接;其中,所述存儲器用于存儲程序數(shù)據(jù),所述處理器用于執(zhí)行所述程序數(shù)據(jù)以實現(xiàn)如權(quán)利要求1-6任一項所述的一種文獻目錄自動識別方法。
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-6中任一所述的一種文獻目錄自動識別方法。