日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

基于文本信息借助三維渲染生成視頻的方法及系統(tǒng)與流程

文檔序號(hào):39729604發(fā)布日期:2024-10-22 13:34閱讀:9來源:國(guó)知局
基于文本信息借助三維渲染生成視頻的方法及系統(tǒng)與流程

本技術(shù)涉及圖像處理,具體涉及基于文本信息借助三維渲染生成視頻的方法及系統(tǒng)。


背景技術(shù):

1、隨著人工智能技術(shù)的快速發(fā)展,文本到視頻生成已經(jīng)成為一個(gè)熱門研究領(lǐng)域。通過利用ai大模型,可以實(shí)現(xiàn)從自然語言文本自動(dòng)生成與之對(duì)應(yīng)的視頻內(nèi)容。傳統(tǒng)文生視頻技術(shù)原理,即大規(guī)模深度神經(jīng)網(wǎng)絡(luò)組成的大模型來實(shí)現(xiàn)自然語言文本向目標(biāo)結(jié)果的轉(zhuǎn)換,期間采取噪音數(shù)據(jù)擴(kuò)散出模仿訓(xùn)練樣本體系文與視頻關(guān)聯(lián)關(guān)系的成果。

2、現(xiàn)有技術(shù)中,基于transformer架構(gòu)的擴(kuò)散模型所合成畫面幀視頻會(huì)存在生成內(nèi)容分辨率低、一致性差,生成內(nèi)容不可控等缺陷問題,例如,基于transformer架構(gòu)的擴(kuò)散模型所合成畫面幀視頻可能存在異形缺陷,畫面幀視頻會(huì)呈現(xiàn)反人類常識(shí)的行為或動(dòng)作。采用大模型生成自然語言格式劇本文本,再通過三維引擎解析格式劇本渲染獲得文生視頻,能夠有效降低大模型合成視頻的不可控性,避免文生視頻中出現(xiàn)一致性錯(cuò)誤。

3、在模型生成格式文本再到三維渲染生成視頻的過程中,現(xiàn)有技術(shù)需要耗費(fèi)大量的時(shí)間對(duì)劇本場(chǎng)景中的三維模型進(jìn)行渲染,提高圖像視頻的真實(shí)感,存在輸出內(nèi)容隨機(jī)性,不可控,視頻分辨率低等問題,同時(shí),現(xiàn)有技術(shù)渲染會(huì)花費(fèi)大量時(shí)間對(duì)不必要的模型細(xì)節(jié)進(jìn)行深度渲染,導(dǎo)致視頻渲染時(shí)間過長(zhǎng),大幅影響視頻生產(chǎn)速度。


技術(shù)實(shí)現(xiàn)思路

1、為了解決上述技術(shù)問題,提供基于文本信息借助三維渲染生成視頻的方法及系統(tǒng),以解決現(xiàn)有的問題。

2、本技術(shù)解決技術(shù)問題的方案是提供基于文本信息借助三維渲染生成視頻的方法及系統(tǒng),包括以下步驟:

3、第一方面,本技術(shù)實(shí)施例提供了基于文本信息借助三維渲染生成視頻的方法,該方法包括以下步驟:

4、獲取用戶文本,并采用大語言模型劇本生成器,獲得格式劇本,基于格式劇本描述的3d場(chǎng)景中各3d模型和攝像機(jī)視角數(shù)據(jù),獲得未渲染視頻;基于格式劇本和未渲染視頻中所有圖像的各3d模型,獲取各3d模型對(duì)應(yīng)的格式劇本中的名詞;

5、根據(jù)各3d模型對(duì)應(yīng)的格式劇本中的名詞與用戶文本的名詞的匹配情況,確定各3d模型對(duì)應(yīng)的名詞;根據(jù)各3d模型內(nèi)像素點(diǎn)的數(shù)量,各3d模型與攝像機(jī)視角數(shù)據(jù)的距離,及其對(duì)應(yīng)的每個(gè)名詞與每幀圖像的映射關(guān)系,確定每幀圖像中各3d模型的所有映射數(shù)據(jù)對(duì);

6、基于所述映射數(shù)據(jù)對(duì),分析每幀圖像中各3d模型對(duì)應(yīng)的每個(gè)名詞在用戶文本中的位置分布情況,確定每幀圖像中各3d模型的渲染權(quán)重;

7、基于所述渲染權(quán)重,確定每幀圖像中各3d模型的最短邊長(zhǎng),對(duì)所有3d模型進(jìn)行重構(gòu),通過渲染引擎的方式對(duì)未渲染視頻進(jìn)行渲染,最終獲得文生視頻。

8、優(yōu)選的,所述未渲染視頻的獲取方法為:

9、將各3d模型和攝像機(jī)焦點(diǎn)位置輸入到三維模型圖像軟件,獲得未渲染視頻,并對(duì)未渲染視頻中每幀圖像的各像素點(diǎn)所屬的3d模型進(jìn)行標(biāo)記。

10、優(yōu)選的,所述獲取各3d模型在格式劇本中對(duì)應(yīng)的名詞,包括:

11、對(duì)格式劇本采用名詞提取算法,獲得格式劇本中所有名詞;

12、將每個(gè)名詞與未渲染視頻中所有圖像中對(duì)應(yīng)的3d模型進(jìn)行標(biāo)注,獲得各3d模型在格式劇本中對(duì)應(yīng)的名詞。

13、優(yōu)選的,所述確定各3d模型對(duì)應(yīng)的名詞,包括:

14、采用名詞提取算法,獲得用戶文本中所有名詞;采用字符串模糊匹配算法,對(duì)各3d模型在格式文本中對(duì)應(yīng)的名詞與用戶文本中的名詞進(jìn)行匹配,將格式文本與用戶文本中匹配的名詞所對(duì)應(yīng)的3d模型,作為各3d模型對(duì)應(yīng)的名詞。

15、優(yōu)選的,所述確定每幀圖像中各3d模型的所有映射數(shù)據(jù)對(duì),包括:

16、計(jì)算每幀圖像中各3d模型的幾何中心與攝像機(jī)視角數(shù)據(jù)中焦點(diǎn)位置之間的距離,記為位置權(quán)重;

17、計(jì)算每幀圖像中各3d模型對(duì)應(yīng)標(biāo)記的像素點(diǎn)的數(shù)量與所述位置權(quán)重的乘積,作為每幀圖像中各3d模型的呈現(xiàn)權(quán)重;

18、將各3d模型在所有圖像的所述呈現(xiàn)權(quán)重按照?qǐng)D像幀序號(hào)順序排列,組成呈現(xiàn)權(quán)重序列,獲取各3d模型的呈現(xiàn)權(quán)重序列中的所有極大值點(diǎn);

19、分析各3d模型對(duì)應(yīng)的每個(gè)名詞在用戶文本中的位置關(guān)系,確定各3d模型對(duì)應(yīng)的每個(gè)名詞的相對(duì)文本位置;

20、分析每個(gè)名詞的相對(duì)文本位置與所述極大值點(diǎn)所對(duì)應(yīng)的圖像幀序號(hào)之間的差異情況,結(jié)合極大值點(diǎn)對(duì)應(yīng)的所述呈現(xiàn)權(quán)重,確定各3d模型對(duì)應(yīng)的每個(gè)名詞與各極大值點(diǎn)的映射判別值;

21、針對(duì)每個(gè)名詞與所有極大值點(diǎn)的所述映射判別值,選取每個(gè)名詞的映射判別值的最大值對(duì)應(yīng)的極大值點(diǎn)及圖像幀序號(hào),將每個(gè)名詞與對(duì)應(yīng)圖像幀序號(hào)組成一個(gè)二維數(shù)組,獲得每幀圖像中各3d模型的所有映射數(shù)據(jù)對(duì)。

22、優(yōu)選的,所述確定各3d模型對(duì)應(yīng)的每個(gè)名詞的相對(duì)文本位置,包括:

23、針對(duì)各3d模型對(duì)應(yīng)的每個(gè)名詞,確定每個(gè)名詞中第一個(gè)字符在用戶文本中的字符位置;

24、將每個(gè)名詞的所述字符位置與用戶文本的所有字符數(shù)量之間的比值,作為各3d模型對(duì)應(yīng)的每個(gè)名詞的相對(duì)文本位置。

25、優(yōu)選的,所述確定各3d模型對(duì)應(yīng)的每個(gè)名詞與各極大值點(diǎn)的映射判別值,包括:,其中,為第m個(gè)3d模型對(duì)應(yīng)的第r個(gè)名詞與第k個(gè)極大值點(diǎn)的映射判別值,為第m個(gè)3d模型對(duì)應(yīng)的第r個(gè)名詞的相對(duì)文本位置,為未渲染視頻的所有圖像的數(shù)量,為第m個(gè)3d模型的呈現(xiàn)權(quán)重序列中第k個(gè)極大值點(diǎn)所對(duì)應(yīng)的圖像幀序號(hào),為第m個(gè)3d模型的呈現(xiàn)權(quán)重序列中第k個(gè)極大值點(diǎn)所對(duì)應(yīng)的呈現(xiàn)權(quán)重,為向上取整函數(shù),為預(yù)設(shè)大于零的數(shù)值。

26、優(yōu)選的,所述確定每幀圖像中各3d模型的渲染權(quán)重,包括:

27、計(jì)算每幀圖像所有3d模型的所有所述映射數(shù)據(jù)對(duì)對(duì)應(yīng)的名詞的所述相對(duì)文本位置的均值,作為每幀圖像的視頻文本位置;

28、將每幀圖像中各3d模型對(duì)應(yīng)的每個(gè)名詞的所述相對(duì)文本位置與所述視頻文本位置之間的差異,記為第一差異;

29、將每幀圖像中各3d模型對(duì)應(yīng)的所有名詞的所述第一差異的和,作為每幀圖像中各3d模型的渲染權(quán)重。

30、優(yōu)選的,所述確定每幀圖像中各3d模型的最短邊長(zhǎng),對(duì)所有3d模型進(jìn)行重構(gòu),包括:

31、獲取每幀圖像中所有3d模型的渲染權(quán)重的最大值;

32、將每幀圖像中各3d模型的所述渲染權(quán)重與所述最大值的比值,記為第一比值;

33、將所述第一比值與預(yù)設(shè)邊長(zhǎng)閾值的和,作為每幀圖像中各3d模型的最短邊長(zhǎng);

34、對(duì)各3d模型和對(duì)應(yīng)的最短邊長(zhǎng)輸入到三角剖分算法中,獲得表面重構(gòu)的3d模型;采用渲染引擎的方式對(duì)重構(gòu)后3d模型進(jìn)行渲染。

35、第二方面,本技術(shù)實(shí)施例還提供了基于文本信息借助三維渲染生成視頻的系統(tǒng),包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任意一項(xiàng)所述基于文本信息借助三維渲染生成視頻的方法的步驟。

36、本技術(shù)至少具有如下有益效果:

37、本技術(shù)通過大語言模型將用戶文本轉(zhuǎn)換為格式劇本,并基于格式劇本與3d數(shù)據(jù)庫(kù),獲得未渲染視頻,其有益效果在于通過大語言模型能夠得到規(guī)定格式的劇本,降低視頻幀出現(xiàn)缺陷的可能性,減少不可控因素的發(fā)生;本技術(shù)通過每幀圖像中各3d模型的呈現(xiàn)權(quán)重以及映射數(shù)據(jù)對(duì),分析了各3d模型在圖像中的所占權(quán)重,以反映各3d模型呈現(xiàn)在對(duì)應(yīng)圖像的重要性,考慮文本的出現(xiàn)與對(duì)應(yīng)圖像之間的映射關(guān)系,以反映文本的位置與圖像呈現(xiàn)時(shí)刻的對(duì)應(yīng)情況;進(jìn)一步通過每幀圖像中各3d模型的渲染權(quán)重,分析各3d模型與對(duì)應(yīng)圖像之間的關(guān)聯(lián)強(qiáng)度,從而對(duì)圖像中不同關(guān)聯(lián)強(qiáng)度的3d模型進(jìn)行不同程度的渲染;基于所述渲染權(quán)重,確定每幀圖像中各3d模型的最短邊長(zhǎng),對(duì)所有3d模型進(jìn)行重構(gòu),完成對(duì)不同3d模型的差別化渲染,加快視頻渲染速度,解決渲染時(shí)間過長(zhǎng)的問題;相比于傳統(tǒng)transformer架構(gòu)的擴(kuò)散模型,本技術(shù)通過將用戶文本轉(zhuǎn)化為格式劇本,并結(jié)合3d模型,以渲染引擎的方式進(jìn)行渲染,獲得文生視頻,使得生成的視頻內(nèi)容具有高度確定性和唯一性,減少了視頻生成過程中的不確定性,確保最終文生視頻的質(zhì)量和預(yù)期效果,提高渲染視頻質(zhì)量,降低渲染功耗,同時(shí)可以根據(jù)需求調(diào)整渲染精度,隨時(shí)調(diào)整視頻分辨率。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1