本公開涉及機器學(xué)習(xí),尤其涉及基于圖像顯著性保持的選擇性cut數(shù)據(jù)增強方法和裝置。
背景技術(shù):
1、隨著人工智能技術(shù)的不斷發(fā)展,基于深度學(xué)習(xí)的圖像處理技術(shù)愈發(fā)成熟,應(yīng)用也越來越廣泛。由數(shù)據(jù)集驅(qū)動的人工智能技術(shù)訓(xùn)練的模型往往需要巨大規(guī)模的數(shù)據(jù)集,但由于時間成本和金錢成本的限制,可能常會遇到圖像數(shù)量少、圖像質(zhì)量差和類別不均衡的情形,這給圖像任務(wù)帶來種種困難,數(shù)據(jù)集中圖像的質(zhì)量和數(shù)量極大的影響了深度學(xué)習(xí)模型的泛化能力。由于深度學(xué)習(xí)網(wǎng)絡(luò)模型有著極強的學(xué)習(xí)能力,模型可能經(jīng)常會將圖像數(shù)據(jù)集上數(shù)據(jù)的一般特征提取出來作為預(yù)測某一類結(jié)果的特性,這往往會導(dǎo)致模型在訓(xùn)練集上會預(yù)測出很好的結(jié)果,而在測試集以及驗證集上的有較高的錯誤率,模型的泛化能力低?;跀?shù)據(jù)驅(qū)動的人工智能時代已出現(xiàn)一個明顯趨勢——那些具有豐富、廉價數(shù)據(jù)的領(lǐng)域更容易孕育出ai技術(shù)。但目前眾多領(lǐng)域現(xiàn)有數(shù)據(jù)集大都存在規(guī)模較小、分布不均衡且采集、標(biāo)注困難等突出問題,可以說數(shù)據(jù)的匱乏或昂貴往往是阻礙人工智能發(fā)展的直接原因。
2、為解決數(shù)據(jù)的匱乏這一問題,數(shù)據(jù)增強技術(shù)應(yīng)運而生?;趫D像的數(shù)據(jù)增強能夠增加訓(xùn)練樣本的多樣性,如通過翻轉(zhuǎn)、添加噪聲等基礎(chǔ)圖像處理操作或根據(jù)現(xiàn)有數(shù)據(jù)生成新的樣本進(jìn)行數(shù)據(jù)集擴充、數(shù)據(jù)質(zhì)量的增強。使用數(shù)據(jù)增強方法后的數(shù)據(jù)集訓(xùn)練模型,以達(dá)到提升模型的穩(wěn)健性、泛化能力的效果。數(shù)據(jù)增強方法的本質(zhì)實際上是在現(xiàn)有的有限數(shù)據(jù)的基礎(chǔ)上,在不實際收集更多數(shù)據(jù)的前提下,而讓數(shù)據(jù)產(chǎn)生等價于更大數(shù)據(jù)量的價值,即根據(jù)現(xiàn)有數(shù)據(jù)樣本按照規(guī)則生成增量數(shù)據(jù)的過程。數(shù)據(jù)增強方法不僅是數(shù)據(jù)樣本量的增多,更多的是數(shù)據(jù)本身特征的“增強”。樣本數(shù)據(jù)是整體數(shù)據(jù)的抽樣,當(dāng)樣本數(shù)據(jù)量足夠大時,樣本的分布情況和總體的分布情況應(yīng)相似。但由于客觀原因收集的樣本數(shù)據(jù)不夠完整,這時則可通過數(shù)據(jù)增強方法生成與真實數(shù)據(jù)分布更加相似的新樣本的數(shù)據(jù);深度學(xué)習(xí)網(wǎng)絡(luò)模型擁有極強的學(xué)習(xí)能力,因此學(xué)習(xí)到的一些無用的信息特征對最終的結(jié)果會產(chǎn)生負(fù)面影響,而數(shù)據(jù)增強技術(shù)可實現(xiàn)按照需求針對數(shù)據(jù)施加約束來增加先驗知識的前置過程,如將一些信息刪除或補全,來減少負(fù)面影響對處理圖像任務(wù)的模型性能的影響。
3、數(shù)據(jù)增強增加了有效的數(shù)據(jù)大小并在訓(xùn)練示例中促進(jìn)了多樣性,但它不可避免地將噪聲和歧義引入訓(xùn)練過程中。因此,如果未正確調(diào)整增強過程,則整體性能會惡化。故而亟需一種可以降低數(shù)據(jù)噪聲的方法。
技術(shù)實現(xiàn)思路
1、本公開提供了一種基于圖像顯著性保持的選擇性cut數(shù)據(jù)增強方法和裝置。
2、根據(jù)本公開的第一方面,提供了一種基于圖像顯著性保持的選擇性cut數(shù)據(jù)增強方法。該方法包括:
3、獲取原始圖像;
4、將所述原始圖像輸入預(yù)先訓(xùn)練的顯著性目標(biāo)檢測模型,輸出顯著性預(yù)測圖;
5、以以所述顯著性預(yù)測圖上的像素點作為中心的預(yù)設(shè)尺寸的裁剪框,對所述顯著性預(yù)測圖進(jìn)行區(qū)域劃分,得到多個待裁剪區(qū)域;
6、分別計算所述待裁剪區(qū)域的顯著性分?jǐn)?shù),并將所述顯著性分?jǐn)?shù)小于預(yù)設(shè)閾值的待裁剪區(qū)域確定為目標(biāo)裁剪區(qū)域;
7、根據(jù)所述目標(biāo)裁剪區(qū)域?qū)λ鲈紙D像進(jìn)行裁剪,將裁剪后的圖像作為增強數(shù)據(jù)。
8、如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述顯著性目標(biāo)檢測模型是通過以下步驟訓(xùn)練得到的:
9、獲取用于訓(xùn)練的樣本圖像集;所述樣本圖像集包括樣本圖像及所述樣本圖像中目標(biāo)對象的標(biāo)注信息;
10、根據(jù)所述樣本圖像及所述標(biāo)注信息訓(xùn)練顯著性目標(biāo)檢測模型,得到使所述顯著性目標(biāo)檢測模型的目標(biāo)損失函數(shù)滿足收斂條件的模型參數(shù);
11、其中,所述顯著性目標(biāo)檢測模型包括特征提取網(wǎng)絡(luò)、第一顯著性提取網(wǎng)絡(luò)、第二顯著性提取網(wǎng)絡(luò)和檢測網(wǎng)絡(luò)。
12、如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述顯著性預(yù)測圖中每個像素的值在0到1之間;
13、所述計算所述待裁剪區(qū)域的顯著性分?jǐn)?shù),包括:
14、計算所述待裁剪區(qū)域的平均顯著性;
15、對所述平均顯著性進(jìn)行歸一化處理,得到所述待裁剪區(qū)域的顯著性分?jǐn)?shù)。
16、如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述平均顯著性的計算,通過以下公式進(jìn)行:
17、
18、式中,sodi代表區(qū)域i內(nèi)像素點顯著性值的和;numi代表區(qū)域i內(nèi)像素點的數(shù)量;avg_sodi代表區(qū)域i內(nèi)的平均顯著性;其中,區(qū)域i為待裁剪區(qū)域。
19、如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述顯著性分?jǐn)?shù)的計算,通過以下公式進(jìn)行:
20、
21、式中,avg_sodi代表區(qū)域i的平均顯著性;avg_sodmin代表顯著性預(yù)測圖所有區(qū)域中最小的平均顯著性;avg_sodmax代表顯著性預(yù)測圖區(qū)域中最大的平均顯著性;score(i)代表區(qū)域i的顯著性分?jǐn)?shù)。
22、如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,根據(jù)所述目標(biāo)裁剪區(qū)域?qū)λ鲈紙D像進(jìn)行裁剪,將裁剪后的圖像作為增強數(shù)據(jù)的具體操作公式如下:
23、
24、式中,m(s)代表區(qū)域s的二值掩碼圖,區(qū)域s位置為1,其余位置為0;x代表輸入圖像;代表裁剪后的圖像;⊙代表點乘;其中,區(qū)域s為目標(biāo)裁剪區(qū)域。
25、如上所述的方面和任一可能的實現(xiàn)方式,進(jìn)一步提供一種實現(xiàn)方式,所述原始圖像可以是至少兩張圖像進(jìn)行融合后的圖像。
26、根據(jù)本公開的第二方面,提供了一種基于圖像顯著性保持的選擇性cut數(shù)據(jù)增強裝置。該裝置包括:
27、圖像獲取模塊,用于獲取原始圖像;
28、顯著性預(yù)測模塊,用于將所述原始圖像輸入預(yù)先訓(xùn)練的顯著性目標(biāo)檢測模型,輸出顯著性預(yù)測圖;
29、裁剪區(qū)域確定模塊,用于以以所述顯著性預(yù)測圖上的像素點作為中心的預(yù)設(shè)尺寸的裁剪框,對所述顯著性預(yù)測圖進(jìn)行區(qū)域劃分,得到多個待裁剪區(qū)域;
30、所述裁剪區(qū)域確定模塊,還用于分別計算所述待裁剪區(qū)域的顯著性分?jǐn)?shù),并將所述顯著性分?jǐn)?shù)小于預(yù)設(shè)閾值的待裁剪區(qū)域確定為目標(biāo)裁剪區(qū)域;
31、數(shù)據(jù)增強模塊,用于根據(jù)所述目標(biāo)裁剪區(qū)域?qū)λ鲈紙D像進(jìn)行裁剪,將裁剪后的圖像作為增強數(shù)據(jù)。
32、根據(jù)本公開的第三方面,提供了一種電子設(shè)備。該電子設(shè)備包括:存儲器和處理器,所述存儲器上存儲有計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如以上所述的方法。
33、根據(jù)本公開的第四方面,提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述程序被處理器執(zhí)行時實現(xiàn)如根據(jù)本公開的第一方面所述的方法。
34、本公開的實施例提供的基于圖像顯著性保持的選擇性cut數(shù)據(jù)增強方法和裝置,通過對原始圖像進(jìn)行顯著性目標(biāo)檢測處理之后,分別計算其中一塊或多塊區(qū)域的顯著性分?jǐn)?shù),并將與顯著性分?jǐn)?shù)低于預(yù)設(shè)閾值的位置相同的區(qū)域從原始圖像中刪除,以此,將圖像的顯著性信息作為先驗信息來指導(dǎo)cut操作,降低機器學(xué)習(xí)樣本的噪聲,提升機器學(xué)習(xí)的效率。
35、應(yīng)當(dāng)理解,
技術(shù)實現(xiàn)要素:
部分中所描述的內(nèi)容并非旨在限定本公開的實施例的關(guān)鍵或重要特征,亦非用于限制本公開的范圍。本公開的其它特征將通過以下的描述變得容易理解。