本領域涉及人工智能領域,尤其涉及一種圖像處理的方法、裝置、設備、計算機存儲介質及計算機程序產(chǎn)品。
背景技術:
1、隨著科技的發(fā)展,人們逐漸將人工智能算法應用到多個領域中。例如,使用目標檢測算法對視頻中的人物、動物或者交通工具進行跟蹤識別,滿足用戶的需求。
2、但是,相關技術中通過檢測器得到目標框對視頻中的目標進行跟蹤,在目標被遮擋后或者和同類目標重疊后,通過目標框對原來的目標進行跟蹤的準確性不高。
技術實現(xiàn)思路
1、本公開實施例提供一種圖像處理的方法、裝置、設備、計算機存儲介質及計算機程序產(chǎn)品,能夠提高對圖像目標跟蹤的準確性。
2、第一方面,本公開實施例提供一種圖像處理的方法,方法包括:
3、獲取待跟蹤圖像幀和指令文本;
4、將待跟蹤圖像幀和指令文本輸入第一模型,利用第一模型對待跟蹤圖像幀中的目標對象進行特征提取,得到目標對象的目標信息,目標信息包括第一目標框,第一目標框內包括目標對象;
5、將待跟蹤圖像幀和目標信息輸入第二模型,利用第二模型對目標信息中的第一目標框中的目標對象進行標注,得到目標掩碼向量,目標掩碼向量用于標注目標對象;
6、將第一目標框和目標掩碼向量疊加到待跟蹤圖像幀上,得到目標跟蹤圖像。
7、在一個可以實現(xiàn)的實施方式中,將待跟蹤圖像幀和指令文本輸入第一模型,利用第一模型對待跟蹤圖像幀中的目標對象進行特征提取,得到目標對象的目標信息,包括:
8、基于指令文本,確定待跟蹤圖像幀中的目標對象;
9、利用第一模型中的第一推理模型對待跟蹤圖像幀中的目標對象進行圖像特征提取,得到第一目標信息;
10、利用第一模型中的第二推理模型對第一目標信息中的類別信息進行目標類別判斷,得到目標對象的目標信息。
11、在一個可以實現(xiàn)的實施方式中,將待跟蹤圖像幀和目標信息輸入第二模型,利用第二模型對目標信息中的第一目標框中的目標對象進行標注,得到目標掩碼向量,包括:
12、基于目標信息和待跟蹤圖像幀,利用第二模型中的分割模型對目標信息中的第一目標框進行圖像分割,確定與目標信息對應的目標框;
13、根據(jù)目標框的坐標信息得到第一掩碼向量;
14、將第一掩碼向量和待跟蹤圖像幀輸入第二模型中的目標跟蹤模型,利用目標跟蹤模型生成與第一掩碼向量對應的掩碼向量集合;
15、將掩碼向量集合和目標信息輸入第二模型中的強化模型,利用強化模型對掩碼向量集合中的掩碼向量進行自注意力編碼處理,得到處理數(shù)據(jù);
16、利用強化模型對處理數(shù)據(jù)和目標信息中的坐標信息進行匹配處理,得到目標掩碼向量信息。
17、在一個可以實現(xiàn)的實施方式中,在將待跟蹤圖像幀和指令文本輸入第一模型,利用第一模型對待跟蹤圖像幀中的目標對象進行特征提取,得到目標對象的目標信息之前,方法還包括:
18、對第一視頻抽幀,得到第一訓練圖像幀;
19、將第一訓練圖像幀和第一指令文本輸入第一推理模型,利用第一推理模型對第一訓練圖像幀中的目標對象進行圖像特征提取,得到第二目標信息;
20、將第二目標信息和第一訓練圖像幀輸入第二推理模型,利用第二推理模型對第二目標信息中的類別信息進行目標類別判斷,得到第三目標信息;
21、基于第三目標信息獲取第一數(shù)量的數(shù)據(jù);
22、利用預設修正指令信息和第一數(shù)量的數(shù)據(jù)對第二推理模型進行訓練,得到訓練后的第二推理模型;
23、將第一推理模型和訓練后的第二推理模型組合,得到第一模型。
24、在一個可以實現(xiàn)的實施方式中,利用預設修正指令信息和第一數(shù)量的數(shù)據(jù)對第二推理模型進行訓練,得到訓練后的第二推理模型,包括:
25、基于修正指令信息,利用第二推理模型調整第一數(shù)量的數(shù)據(jù)中目標對象對應的類別信息;
26、在第一數(shù)量的數(shù)據(jù)中目標對象對應的類別信息的準確率大于第一閾值時,得到訓練后的第二推理模型。
27、在一個可以實現(xiàn)的實施方式中,在將待跟蹤圖像幀和目標信息輸入第二模型,利用第二模型對目標信息中的第一目標框中的目標對象進行標注,得到目標掩碼向量之前,方法還包括:
28、對第二視頻抽幀,得到第二訓練圖像幀;
29、將第二訓練圖像幀和第二指令文本輸入第一模型,利用第一模型對第二訓練圖像幀的目標對象進行特征提取,得到第四目標信息;
30、將第四目標信息輸入分割模型,利用分割模型確定與第四目標信息對應的第二目標框;
31、根據(jù)第二目標框的坐標信息確定第二掩碼向量;
32、將第二掩碼向量和第二訓練圖像幀輸入目標跟蹤模型,利用目標跟蹤模型生成與第二掩碼向量對應的第一掩碼向量集合;
33、利用第一掩碼向量集合和第四目標信息訓練強化模型,得到訓練后的強化模型;
34、將訓練后的強化模型、分割模型和目標跟蹤模型組合,得到第二模型。
35、在一個可以實現(xiàn)的實施方式中,利用第一掩碼向量集合和第四目標信息訓練強化模型,得到訓練后的強化模型,包括:
36、將第一掩碼向量集合和第四目標信息輸入強化模型,利用強化模型對第一掩碼向量集合中的掩碼向量進行自注意力編碼處理,得到第一處理數(shù)據(jù);
37、利用強化模型對第一處理數(shù)據(jù)和目標信息中的坐標信息進行匹配處理,得到第一數(shù)據(jù);
38、在第一數(shù)據(jù)大于第二閾值的情況下,得到訓練后的強化模型。
39、在一個可以實現(xiàn)的實施方式中,在將第一目標框和目標掩碼向量疊加到待跟蹤圖像幀上,得到目標跟蹤圖像之后,方法還包括:
40、基于待跟蹤圖像幀、目標信息和目標掩碼向量,生成包括目標類別跟蹤結果的結果文件。
41、第二方面,本公開實施例提供了一種圖像處理的裝置,裝置包括:
42、獲取模塊,用于獲取待跟蹤圖像幀和指令文本;
43、輸入模塊,用于將待跟蹤圖像幀和指令文本輸入第一模型,利用第一模型對待跟蹤圖像幀中的目標對象進行特征提取,得到目標對象的目標信息,目標信息包括第一目標框,第一目標框內包括目標對象;
44、輸入模塊,還用于將待跟蹤圖像幀和目標信息輸入第二模型,利用第二模型對目標信息中的第一目標框中的目標對象進行標注,得到目標掩碼向量,目標掩碼向量用于標注目標對象;
45、疊加模塊,用于將第一目標框和目標掩碼向量疊加到待跟蹤圖像幀上,得到目標跟蹤圖像。
46、第三方面,本公開實施例提供了一種圖像處理的設備,設備包括處理器,以及存儲有計算機程序指令的存儲器;處理器讀取并執(zhí)行計算機程序指令,以實現(xiàn)如第一方面的任意一項的圖像處理的方法。
47、第四方面,本公開實施例提供了一種計算機可讀存儲介質,計算機可讀存儲介質存儲有計算機程序指令,計算機程序指令被處理器執(zhí)行時實現(xiàn)如第一方面的任意一項的圖像處理的方法。
48、第五方面,本公開實施例提供了一種計算機程序產(chǎn)品,包括計算機程序,計算機程序被處理器執(zhí)行時實現(xiàn)如第一方面的任意一項的圖像處理的方法。
49、本公開實施例提供一種圖像處理的方法、裝置、設備、計算機存儲介質及計算機程序產(chǎn)品,獲取待跟蹤圖像幀和指令文本,將待跟蹤圖像幀和指令文本輸入第一模型,利用第一模型對待跟蹤圖像幀中的目標對象進行特征提取,得到目標對象的目標信息。將待跟蹤圖像幀和目標信息輸入第二模型,利用第二模型對目標信息中的第一目標框中的目標對象進行標注,得到目標掩碼向量。將第一目標框和目標掩碼向量疊加到待跟蹤圖像幀上,得到目標跟蹤圖像。本公開實施例通過獲取跟蹤圖像幀的目標對象對應的目標信息,再根據(jù)目標信息獲取目標掩碼向量。通過第一目標框對目標掩碼向量標注的目標對象進行跟蹤,使目標對象與第一目標框對應,提高對目標進行跟蹤的準確性。