背景技術(shù):
1、以下內(nèi)容總體上涉及機(jī)器學(xué)習(xí),并且更具體地涉及用于文檔處理的機(jī)器學(xué)習(xí)。
2、數(shù)字文檔編輯(或文檔處理)是指使用計(jì)算機(jī)或其他電子設(shè)備對(duì)數(shù)字文檔進(jìn)行更改的過(guò)程。這可能包括添加、刪除、或修改文檔中的文本、圖像、和其他內(nèi)容。各種應(yīng)用或工具可以支持用于創(chuàng)建和編輯文檔的不同功能,并且這些工具可以用于創(chuàng)建和編輯各種各樣的文檔。此外,數(shù)字文檔可以用于各式各樣的通信任務(wù),包括正式文檔的復(fù)制、通過(guò)在線(xiàn)廣告、社交媒體帖子、傳單、海報(bào)、廣告牌、web和移動(dòng)應(yīng)用原型等進(jìn)行通信。
技術(shù)實(shí)現(xiàn)思路
1、本公開(kāi)描述了用于文檔處理的系統(tǒng)和方法。本公開(kāi)的實(shí)施例包括被配置為基于來(lái)自用戶(hù)的提示,生成結(jié)構(gòu)化文檔(例如,photoshop文檔(psd)、可移植文檔格式(pdf)文檔等)的文檔處理裝置。文檔處理裝置可以基于提示來(lái)生成文本嵌入、基于文本嵌入來(lái)生成潛在向量、并且對(duì)潛在向量進(jìn)行解碼以獲得用于結(jié)構(gòu)化文檔的多個(gè)文檔資源(asset)(例如,圖像資源)。文檔處理裝置然后可以通過(guò)組合文檔資源(例如,組合成不同的層,諸如背景層和前景層)來(lái)創(chuàng)建結(jié)構(gòu)化文檔。因此,文檔處理裝置可以用于創(chuàng)建連貫的結(jié)構(gòu)化文檔(例如,而不是簡(jiǎn)單的圖像)。
2、描述了用于文檔處理的機(jī)器學(xué)習(xí)的方法、裝置、非暫態(tài)計(jì)算機(jī)可讀介質(zhì)、和系統(tǒng)。該方法、裝置、非暫態(tài)計(jì)算機(jī)可讀介質(zhì)、和系統(tǒng)的一個(gè)或多個(gè)方面包括:獲得包括描述多個(gè)元素的文檔描述的提示;使用生成神經(jīng)網(wǎng)絡(luò),基于提示來(lái)生成多個(gè)圖像資源,其中多個(gè)圖像資源與文檔描述的多個(gè)元素相對(duì)應(yīng);以及生成匹配文檔描述的結(jié)構(gòu)化文檔,其中結(jié)構(gòu)化文檔包括多個(gè)圖像資源和描述多個(gè)圖像資源之間的關(guān)系的元數(shù)據(jù)。
3、描述了用于文檔處理的機(jī)器學(xué)習(xí)的方法、裝置、非暫態(tài)計(jì)算機(jī)可讀介質(zhì)、和系統(tǒng)。該方法、裝置、非暫態(tài)計(jì)算機(jī)可讀介質(zhì)、和系統(tǒng)的一個(gè)或多個(gè)方面包括:獲得包括結(jié)構(gòu)化文檔和結(jié)構(gòu)化文檔的文檔描述的訓(xùn)練數(shù)據(jù),其中結(jié)構(gòu)化文檔包括多個(gè)圖像資源和描述多個(gè)圖像資源之間的關(guān)系的元數(shù)據(jù);以及使用訓(xùn)練數(shù)據(jù),訓(xùn)練生成神經(jīng)網(wǎng)絡(luò),其中生成神經(jīng)網(wǎng)絡(luò)被訓(xùn)練以基于文檔描述來(lái)生成多個(gè)圖像資源。
4、描述了用于文檔處理的機(jī)器學(xué)習(xí)的裝置、系統(tǒng)、和方法。該裝置、系統(tǒng)、和方法的一個(gè)或多個(gè)方面包括:至少一個(gè)存儲(chǔ)器組件;至少一個(gè)處理設(shè)備,耦合到至少一個(gè)存儲(chǔ)器組件,其中處理設(shè)備被配置為執(zhí)行存儲(chǔ)在至少一個(gè)存儲(chǔ)器組件中的指令;生成神經(jīng)網(wǎng)絡(luò),包括存儲(chǔ)在至少一個(gè)存儲(chǔ)器組件中的參數(shù),其中生成神經(jīng)網(wǎng)絡(luò)被配置為基于提示來(lái)生成多個(gè)圖像資源;以及文檔生成器,被配置為生成包括多個(gè)圖像資源和描述多個(gè)圖像資源之間的關(guān)系的元數(shù)據(jù)的結(jié)構(gòu)化文檔。
1.一種方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,還包括:
3.根據(jù)權(quán)利要求1所述的方法,還包括:
4.根據(jù)權(quán)利要求3所述的方法,還包括:
5.根據(jù)權(quán)利要求3所述的方法,其中:
6.根據(jù)權(quán)利要求1所述的方法,還包括:
7.根據(jù)權(quán)利要求6所述的方法,還包括:
8.根據(jù)權(quán)利要求1所述的方法,其中:
9.一種方法,包括:
10.根據(jù)權(quán)利要求9所述的方法,還包括:
11.根據(jù)權(quán)利要求9所述的方法,還包括:
12.根據(jù)權(quán)利要求11所述的方法,還包括:
13.根據(jù)權(quán)利要求9所述的方法,其中:
14.根據(jù)權(quán)利要求9所述的方法,其中:
15.一種系統(tǒng),包括:
16.根據(jù)權(quán)利要求15所述的系統(tǒng),還包括:
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其中所述解碼器包括變分自編碼器vae模型的解碼器。
18.根據(jù)權(quán)利要求15所述的系統(tǒng),還包括:
19.根據(jù)權(quán)利要求18所述的系統(tǒng),其中所述文本編碼器包括多模態(tài)文本編碼器,所述多模態(tài)文本編碼器被配置為在聯(lián)合嵌入空間中對(duì)文本和圖像進(jìn)行編碼。
20.根據(jù)權(quán)利要求18所述的系統(tǒng),其中所述生成神經(jīng)網(wǎng)絡(luò)包括基于unet架構(gòu)的擴(kuò)散模型。