本公開涉及文本糾錯,尤其涉及一種文本糾錯方法、裝置、電子設備、存儲介質(zhì)與程序產(chǎn)品。
背景技術:
1、由于用戶輸入隨意、手寫輸入法易出錯、不清楚產(chǎn)品名稱等原因,錯誤字符串在輸入文本中占比高達10%-15%,這也使得中文文本糾錯成為必要選擇。一旦語言使用者對語言掌握不夠或粗心大意,從而造成用詞不當、張冠李戴等錯誤時,很容易引起“差之毫厘,謬以千里”的“蝴蝶效應”。因此,文本糾錯技術至關重要。
2、現(xiàn)有技術中往往只針對單一類型的文本錯誤進行糾錯。例如,通過字符串之間的最小編輯距離來進行文本糾錯,這種方式僅針對“錯字”這種情況實現(xiàn)糾錯,并未考慮到詞語錯誤、多字、少字、標點錯誤等情況??傊F(xiàn)有的文本糾錯方案僅針對單一類型錯誤,實際場景中的適用性較弱,糾錯準確率較差。
技術實現(xiàn)思路
1、本公開提供了一種文本糾錯方法、裝置、電子設備、存儲介質(zhì)與程序產(chǎn)品,用以在一定程度上豐富糾錯類型,提升糾錯準確率與場景適應性。
2、第一方面,本公開提供了一種文本糾錯方法,包括:對待處理的第一語句進行字級別糾錯處理,得到第二語句,對第二語句進行詞語糾錯處理,得到第三語句,對第三語句進行標點糾錯處理,得到第四語句。
3、在第一方面的一個實施例中,對待處理的第一語句進行字級別糾錯處理,得到第二語句,包括:利用預訓練的第一預測模型對第一語句中各字符位置進行字符預測,得到各字符位置對應的候選字集合,從字形和/或字音維度,對各字符位置的候選字集合進行字符分析,得到各字符位置對應的目標字符,利用目標字符替換第一語句中相應字符位置的字符,得到第二語句。
4、在第一方面的另一個實施例中,方法還包括:獲取種子語句,對種子語句進行數(shù)據(jù)增強處理,得到種子語句對應的語句集合;其中,數(shù)據(jù)增強處理包括:正反翻譯處理,將種子語句與語句集合作為訓練樣本,對第一預測模型進行訓練。
5、在第一方面的另一個實施例中,方法還包括:獲取訓練語句集合;對訓練語句集合中的部分語句進行掩碼處理,得到訓練樣本;利用訓練樣本,對第一預測模型進行訓練。
6、在第一方面的另一個實施例中,從字形和/或字音維度,對各字符位置的候選字集合進行字符分析,得到各字符位置對應的目標字符,包括:針對任意一個字符位置,獲取候選字集合中各候選字的字形相似度和/或字音相似度;基于第一預測模型的輸出的各候選字的置信度,以及,字形相似度和/或字音相似度,確定字符位置對應的目標字符。
7、在第一方面的另一個實施例中,對第二語句進行詞語糾錯處理,得到第三語句,包括:對第二語句進行分詞處理,得到待處理詞語;基于第二語句,獲取各待處理詞語的互信息值和/或單側(cè)熵;其中,單側(cè)熵包括:左熵和/或右熵;基于互信息值和/或單側(cè)熵,驗證各待處理詞語的正確性;當任意一個待處理詞語驗證不通過時,獲取待處理詞語的目標詞語,并將第二語句中的待處理詞語替換為目標詞語。
8、在第一方面的另一個實施例中,基于互信息值和/或單側(cè)熵,驗證各待處理詞語的正確性,包括:針對任意一個待處理詞語,將互信息值與預設的第一閾值進行比對;和/或,將單側(cè)熵與預設的第二閾值進行比對;當互信息值小于第一閾值,或,單側(cè)熵小于第二閾值時,確定待處理詞語驗證不通過。
9、在第一方面的另一個實施例中,對第三語句進行標點糾錯處理,得到第四語句,包括:利用預訓練的第二預測模型對第三語句進行標點預測,得到第三語句的標點預測結(jié)果;標點預測結(jié)果包括:標點位置、候選標點及其準確率;基于標點預測結(jié)果對第三語句進行標點校正處理,得到第四語句。
10、在第一方面的另一個實施例中,利用預訓練的第二預測模型對第三語句進行標點預測,得到第三語句的標點預測結(jié)果之前,方法還包括:檢測第三語句中的重復標點,并對重復標點進行更正處理。
11、在第一方面的另一個實施例中,方法還包括:獲取任務隊列中的糾錯任務;對糾錯任務進行語句拆分。
12、第二方面,本公開提供了一種文本糾錯裝置,包括:字級別糾錯模塊,用于對待處理的第一語句進行字級別糾錯處理,得到第二語句;詞語糾錯模塊,用于對第二語句進行詞語糾錯處理,得到第三語句;標點糾錯模塊,用于對第三語句進行標點糾錯處理,得到第四語句。
13、第三方面,本公開提供了一種電子設備,包括:存儲器,用于存儲計算機可讀指令;以及處理器,用于運行計算機可讀指令,使得電子設備執(zhí)行如第一方面任一實施例所述的方法。
14、第四方面,本公開提供了一種非瞬時性計算機可讀存儲介質(zhì),用于存儲計算機可讀指令,當所述計算機可讀指令由處理器執(zhí)行時,使得處理器執(zhí)行如第一方面任一實施例所述的方法。
15、第五方面,本公開提供了一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如第一方面任一實施例所述的方法。
16、本公開提供了一種文本糾錯方法、裝置、電子設備、存儲介質(zhì)與程序產(chǎn)品。本公開中,是以語句(即sentence)為最小單元進行糾錯處理,并在具體糾錯過程中,分別針對語句中的字級別錯誤、詞語級別錯誤、標點錯誤依次進行糾錯處理。如此,首先進行字級別的糾錯,可以有效減少詞糾錯和標點糾錯的誤判率;之后,進行詞語糾錯后,也可以減少標點糾錯的誤判率,提高了整體糾錯效果。并且,這種糾錯方案能夠?qū)崿F(xiàn)對多種糾錯類型的準確糾錯,例如,能夠基于字級別錯誤實現(xiàn)對錯字的糾錯,能夠通過次界別糾錯準確糾錯其中的多字錯誤、少字錯誤,此外還涉及標點錯誤的糾錯,如此,能夠?qū)崿F(xiàn)對多種錯誤類型的準確糾錯。綜上,本公開所提供的技術方案能夠在一定程度上豐富糾錯類型,提升糾錯準確率與場景適應性。
17、要理解的是,前面的一般描述和下面的詳細描述兩者都是示例性的,并且意圖在于提供要求保護的技術的進一步說明。
1.一種文本糾錯方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對待處理的第一語句進行字級別糾錯處理,得到第二語句,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述從字形和/或字音維度,對各字符位置的所述候選字集合進行字符分析,得到各字符位置對應的目標字符,包括:
6.根據(jù)權(quán)利要求1-5任一項所述的方法,其特征在于,所述對所述第二語句進行詞語糾錯處理,得到第三語句,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,基于所述互信息值和/或所述單側(cè)熵,驗證各待處理詞語的正確性,包括:
8.根據(jù)權(quán)利要求1-7任一項所述的方法,其特征在于,所述對所述第三語句進行標點糾錯處理,得到第四語句,包括:
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述利用預訓練的第二預測模型對所述第三語句進行標點預測,得到所述第三語句的標點預測結(jié)果之前,所述方法還包括:
10.根據(jù)權(quán)利要求1-9任一項所述的方法,其特征在于,所述方法還包括:
11.一種文本糾錯裝置,其特征在于,所述裝置包括:
12.一種電子設備,其特征在于,包括:
13.一種非瞬時性計算機可讀存儲介質(zhì),用于存儲計算機可讀指令,其特征在于,當所述計算機可讀指令由處理器執(zhí)行時,使得所述處理器執(zhí)行如權(quán)利要求1-10任一項所述的方法。
14.一種計算機程序產(chǎn)品,其特征在于,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-10任一項所述的方法。