文本糾錯方法、裝置、電子設備、存儲介質(zhì)與程序產(chǎn)品與流程

文檔序號：39724389發(fā)布日期：2024-10-22 13:21閱讀：1來源：國知局

本公開涉及文本糾錯，尤其涉及一種文本糾錯方法、裝置、電子設備、存儲介質(zhì)與程序產(chǎn)品。

背景技術：

1、由于用戶輸入隨意、手寫輸入法易出錯、不清楚產(chǎn)品名稱等原因，錯誤字符串在輸入文本中占比高達10％-15％，這也使得中文文本糾錯成為必要選擇。一旦語言使用者對語言掌握不夠或粗心大意，從而造成用詞不當、張冠李戴等錯誤時，很容易引起“差之毫厘，謬以千里”的“蝴蝶效應”。因此，文本糾錯技術至關重要。

2、現(xiàn)有技術中往往只針對單一類型的文本錯誤進行糾錯。例如，通過字符串之間的最小編輯距離來進行文本糾錯，這種方式僅針對“錯字”這種情況實現(xiàn)糾錯，并未考慮到詞語錯誤、多字、少字、標點錯誤等情況?？傊F(xiàn)有的文本糾錯方案僅針對單一類型錯誤，實際場景中的適用性較弱，糾錯準確率較差。

技術實現(xiàn)思路

1、本公開提供了一種文本糾錯方法、裝置、電子設備、存儲介質(zhì)與程序產(chǎn)品，用以在一定程度上豐富糾錯類型，提升糾錯準確率與場景適應性。

2、第一方面，本公開提供了一種文本糾錯方法，包括：對待處理的第一語句進行字級別糾錯處理，得到第二語句，對第二語句進行詞語糾錯處理，得到第三語句，對第三語句進行標點糾錯處理，得到第四語句。

3、在第一方面的一個實施例中，對待處理的第一語句進行字級別糾錯處理，得到第二語句，包括：利用預訓練的第一預測模型對第一語句中各字符位置進行字符預測，得到各字符位置對應的候選字集合，從字形和/或字音維度，對各字符位置的候選字集合進行字符分析，得到各字符位置對應的目標字符，利用目標字符替換第一語句中相應字符位置的字符，得到第二語句。

4、在第一方面的另一個實施例中，方法還包括：獲取種子語句，對種子語句進行數(shù)據(jù)增強處理，得到種子語句對應的語句集合；其中，數(shù)據(jù)增強處理包括：正反翻譯處理，將種子語句與語句集合作為訓練樣本，對第一預測模型進行訓練。

5、在第一方面的另一個實施例中，方法還包括：獲取訓練語句集合；對訓練語句集合中的部分語句進行掩碼處理，得到訓練樣本；利用訓練樣本，對第一預測模型進行訓練。

6、在第一方面的另一個實施例中，從字形和/或字音維度，對各字符位置的候選字集合進行字符分析，得到各字符位置對應的目標字符，包括：針對任意一個字符位置，獲取候選字集合中各候選字的字形相似度和/或字音相似度；基于第一預測模型的輸出的各候選字的置信度，以及，字形相似度和/或字音相似度，確定字符位置對應的目標字符。

7、在第一方面的另一個實施例中，對第二語句進行詞語糾錯處理，得到第三語句，包括：對第二語句進行分詞處理，得到待處理詞語；基于第二語句，獲取各待處理詞語的互信息值和/或單側(cè)熵；其中，單側(cè)熵包括：左熵和/或右熵；基于互信息值和/或單側(cè)熵，驗證各待處理詞語的正確性；當任意一個待處理詞語驗證不通過時，獲取待處理詞語的目標詞語，并將第二語句中的待處理詞語替換為目標詞語。

8、在第一方面的另一個實施例中，基于互信息值和/或單側(cè)熵，驗證各待處理詞語的正確性，包括：針對任意一個待處理詞語，將互信息值與預設的第一閾值進行比對；和/或，將單側(cè)熵與預設的第二閾值進行比對；當互信息值小于第一閾值，或，單側(cè)熵小于第二閾值時，確定待處理詞語驗證不通過。

9、在第一方面的另一個實施例中，對第三語句進行標點糾錯處理，得到第四語句，包括：利用預訓練的第二預測模型對第三語句進行標點預測，得到第三語句的標點預測結(jié)果；標點預測結(jié)果包括：標點位置、候選標點及其準確率；基于標點預測結(jié)果對第三語句進行標點校正處理，得到第四語句。

10、在第一方面的另一個實施例中，利用預訓練的第二預測模型對第三語句進行標點預測，得到第三語句的標點預測結(jié)果之前，方法還包括：檢測第三語句中的重復標點，并對重復標點進行更正處理。

11、在第一方面的另一個實施例中，方法還包括：獲取任務隊列中的糾錯任務；對糾錯任務進行語句拆分。

12、第二方面，本公開提供了一種文本糾錯裝置，包括：字級別糾錯模塊，用于對待處理的第一語句進行字級別糾錯處理，得到第二語句；詞語糾錯模塊，用于對第二語句進行詞語糾錯處理，得到第三語句；標點糾錯模塊，用于對第三語句進行標點糾錯處理，得到第四語句。

13、第三方面，本公開提供了一種電子設備，包括：存儲器，用于存儲計算機可讀指令；以及處理器，用于運行計算機可讀指令，使得電子設備執(zhí)行如第一方面任一實施例所述的方法。

14、第四方面，本公開提供了一種非瞬時性計算機可讀存儲介質(zhì)，用于存儲計算機可讀指令，當所述計算機可讀指令由處理器執(zhí)行時，使得處理器執(zhí)行如第一方面任一實施例所述的方法。

15、第五方面，本公開提供了一種計算機程序產(chǎn)品，包括計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)如第一方面任一實施例所述的方法。

16、本公開提供了一種文本糾錯方法、裝置、電子設備、存儲介質(zhì)與程序產(chǎn)品。本公開中，是以語句(即sentence)為最小單元進行糾錯處理，并在具體糾錯過程中，分別針對語句中的字級別錯誤、詞語級別錯誤、標點錯誤依次進行糾錯處理。如此，首先進行字級別的糾錯，可以有效減少詞糾錯和標點糾錯的誤判率；之后，進行詞語糾錯后，也可以減少標點糾錯的誤判率，提高了整體糾錯效果。并且，這種糾錯方案能夠?qū)崿F(xiàn)對多種糾錯類型的準確糾錯，例如，能夠基于字級別錯誤實現(xiàn)對錯字的糾錯，能夠通過次界別糾錯準確糾錯其中的多字錯誤、少字錯誤，此外還涉及標點錯誤的糾錯，如此，能夠?qū)崿F(xiàn)對多種錯誤類型的準確糾錯。綜上，本公開所提供的技術方案能夠在一定程度上豐富糾錯類型，提升糾錯準確率與場景適應性。

17、要理解的是，前面的一般描述和下面的詳細描述兩者都是示例性的，并且意圖在于提供要求保護的技術的進一步說明。

技術特征：

1.一種文本糾錯方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對待處理的第一語句進行字級別糾錯處理，得到第二語句，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述方法還包括：

4.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述方法還包括：

5.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述從字形和/或字音維度，對各字符位置的所述候選字集合進行字符分析，得到各字符位置對應的目標字符，包括：

6.根據(jù)權(quán)利要求1-5任一項所述的方法，其特征在于，所述對所述第二語句進行詞語糾錯處理，得到第三語句，包括：

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，基于所述互信息值和/或所述單側(cè)熵，驗證各待處理詞語的正確性，包括：

8.根據(jù)權(quán)利要求1-7任一項所述的方法，其特征在于，所述對所述第三語句進行標點糾錯處理，得到第四語句，包括：

9.根據(jù)權(quán)利要求8所述的方法，其特征在于，所述利用預訓練的第二預測模型對所述第三語句進行標點預測，得到所述第三語句的標點預測結(jié)果之前，所述方法還包括：

10.根據(jù)權(quán)利要求1-9任一項所述的方法，其特征在于，所述方法還包括：

11.一種文本糾錯裝置，其特征在于，所述裝置包括：

12.一種電子設備，其特征在于，包括：

13.一種非瞬時性計算機可讀存儲介質(zhì)，用于存儲計算機可讀指令，其特征在于，當所述計算機可讀指令由處理器執(zhí)行時，使得所述處理器執(zhí)行如權(quán)利要求1-10任一項所述的方法。

14.一種計算機程序產(chǎn)品，其特征在于，包括計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-10任一項所述的方法。

技術總結(jié)
本公開提供了一種文本糾錯方法、裝置、電子設備、存儲介質(zhì)與程序產(chǎn)品。本公開中，通過對待處理的第一語句進行字級別糾錯處理，得到第二語句，對第二語句進行詞語糾錯處理，得到第三語句，對第三語句進行標點糾錯處理，得到第四語句。本公開中，首先進行字級別的糾錯，可以有效減少詞糾錯和標點糾錯的誤判率；之后，進行詞語糾錯后，也可以減少標點糾錯的誤判率，提高了整體糾錯效果。并且，這種糾錯方案能夠?qū)崿F(xiàn)對多種糾錯類型的準確糾錯，此外還涉及標點錯誤的糾錯，如此，能夠?qū)崿F(xiàn)對多種錯誤類型的準確糾錯。綜上，本公開所提供的技術方案能夠在一定程度上豐富糾錯類型，提升糾錯準確率與場景適應性。

技術研發(fā)人員：侯文杰,李宏博,代國軍,程磊,宋偉,艾華,馬騰遠
受保護的技術使用者：中移物聯(lián)網(wǎng)有限公司
技術研發(fā)日：
技術公布日：2024/10/21

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：侯文杰,李宏博,代國軍,程磊,宋偉,艾華,馬騰遠
技術所有人：中移物聯(lián)網(wǎng)有限公司
我是此專利的發(fā)明人

上一篇：應用程序運行環(huán)境的切換方法及裝置與流程
上一篇：一種基于大數(shù)據(jù)的整車熱管理優(yōu)化方法與流程

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

文本糾錯方法、裝置、電子設備、存儲介質(zhì)與程序產(chǎn)品與流程

文本糾錯方法、裝置、電子設備、存儲介質(zhì)與程序產(chǎn)品與流程