基于深度強(qiáng)化學(xué)習(xí)的自適應(yīng)多智能體股票交易方法

文檔序號(hào)：39707769發(fā)布日期：2024-10-22 12:52閱讀：3來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于量化交易領(lǐng)域，涉及基于深度強(qiáng)化學(xué)習(xí)的自適應(yīng)多智能體股票交易方法，是使用深度學(xué)習(xí)技術(shù)與dueling深度q網(wǎng)絡(luò)構(gòu)建多智能體股票交易框架，來(lái)實(shí)現(xiàn)在股票市場(chǎng)震蕩的場(chǎng)景下實(shí)現(xiàn)最大化收益和風(fēng)險(xiǎn)控制。

背景技術(shù)：

1、股票市場(chǎng)是高度復(fù)雜且動(dòng)態(tài)變化的領(lǐng)域，一直是投資者和研究者的關(guān)注焦點(diǎn)。隨著市場(chǎng)環(huán)境的日益復(fù)雜和數(shù)據(jù)量的爆炸性增長(zhǎng)，傳統(tǒng)的投資策略和技術(shù)分析工具逐漸顯現(xiàn)出局限性。為了應(yīng)對(duì)這一挑戰(zhàn)，研究者們開(kāi)始借助機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等先進(jìn)技術(shù)，以從海量數(shù)據(jù)中提取有價(jià)值的信息，優(yōu)化投資決策。

2、(leippold,m.,wang,q.,zhou,w.,2022.machine?learning?in?the?chinesestock?market.)在中國(guó)股票市場(chǎng)，各種機(jī)器學(xué)習(xí)技術(shù)已經(jīng)得到廣泛應(yīng)用，并取得了顯著成果。(sahu,s.k.,mokhade,a.,bokde,n.d.,2023.an?overview?of?machine?learning,deeplearning,and?reinforcement?learning-based?techniques?in?quantitative?finance:recent?progress?and?challenges.)指出了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在數(shù)據(jù)獲取、模型解釋性、計(jì)算復(fù)雜度和金融市場(chǎng)不確定性方面的挑戰(zhàn)。(addy,w.a.,ajayi-nifise,a.o.,bello,b.g.,tula,s.t.,odeyemi,o.,falaiye,t.,et?al.,2024.machine?learningin?financial?markets:a?critical?review?of?algorithmic?trading?and?riskmanagement.)分析了機(jī)器學(xué)習(xí)技術(shù)在高頻交易和自動(dòng)化交易系統(tǒng)中風(fēng)險(xiǎn)管理的重要性。(goutte,s.,le,h.v.,liu,f.,von?mettenheim,h.j.,2023.deep?learning?andtechnical?analysis?in?cryptocurrency?market.)證明了深度學(xué)習(xí)模型和技術(shù)分析指標(biāo)的結(jié)合在加密貨幣市場(chǎng)預(yù)測(cè)中的有效性，展示了在不同市場(chǎng)條件下的表現(xiàn)。為了實(shí)現(xiàn)更高效的交易策略，(deng,y.,bao,f.,kong,y.,ren,z.,dai,q.,2016.deep?directreinforcement?learning?for?financial?signal?representation?and?trading.)提出了用于金融信號(hào)的表示和交易的直接深度強(qiáng)化學(xué)習(xí)框架。(yang,b.,liang,t.,xiong,j.,zhong,c.,2023.deep?reinforcement?learning?based?on?transformer?and?u-netframework?for?stock?trading.)構(gòu)建了用于股票交易深度強(qiáng)化學(xué)習(xí)框架。

3、然而，在震蕩的股票市場(chǎng)中，市場(chǎng)劇烈波動(dòng)導(dǎo)致數(shù)據(jù)中包含大量噪聲，這顯著影響了模型的信號(hào)提取能力。在這樣的頻繁波動(dòng)環(huán)境中，現(xiàn)有研究對(duì)市場(chǎng)波動(dòng)的適應(yīng)性不足，模型難以有效應(yīng)對(duì)不同的市場(chǎng)情境。此外，交易反饋不及時(shí)的問(wèn)題也很突出，實(shí)時(shí)處理和響應(yīng)最新市場(chǎng)狀態(tài)的能力有限，可能導(dǎo)致交易決策的滯后。與此同時(shí)，現(xiàn)有方法在交易過(guò)程中的風(fēng)險(xiǎn)管理措施也不足，缺乏有效的風(fēng)險(xiǎn)評(píng)估和管理策略，無(wú)法充分保護(hù)資金安全。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明主要解決了在震蕩的股票市場(chǎng)中數(shù)據(jù)噪聲對(duì)交易決策帶來(lái)的影響，對(duì)劇烈波動(dòng)的市場(chǎng)環(huán)境反饋不及時(shí)以及單一智能體存在的決策失誤的問(wèn)題。通過(guò)構(gòu)建多維度特征提取器對(duì)股票交易信息進(jìn)行深層次挖掘，分析其中的關(guān)聯(lián)性。并重新設(shè)計(jì)實(shí)時(shí)獎(jiǎng)勵(lì)反饋機(jī)制和動(dòng)態(tài)止損機(jī)制，根據(jù)實(shí)時(shí)反饋的交易信息在市場(chǎng)劇烈波動(dòng)時(shí)動(dòng)態(tài)調(diào)整策略。此外，構(gòu)建多個(gè)智能體協(xié)同作用于股票交易市場(chǎng)。為了實(shí)現(xiàn)這一方法。首先，爬取股票歷史交易信息，獲取初始數(shù)據(jù)，構(gòu)建適用于該交易框架的特征標(biāo)簽，進(jìn)而對(duì)數(shù)據(jù)進(jìn)行歸一化和窗口化處理，得到統(tǒng)一且規(guī)范的股票數(shù)據(jù)。然后，使用卷積神經(jīng)網(wǎng)絡(luò)(cnn)、門控循環(huán)控制單元(gru)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bilstm)、注意力機(jī)制構(gòu)建多維度特征提取器，用于深入挖掘和分析金融時(shí)間序列，并構(gòu)建用于多智能體交易的狀態(tài)空間。接下來(lái)，構(gòu)建多個(gè)智能體，協(xié)同作用于股票交易市場(chǎng)，可以通過(guò)評(píng)估交易所帶來(lái)的累計(jì)收益率，年化收益率，最大回撤，夏普比率等指標(biāo)對(duì)交易結(jié)果進(jìn)行評(píng)估，衡量框架執(zhí)行交易的魯棒性和高適應(yīng)性。

2、本發(fā)明的技術(shù)方案：

3、基于深度強(qiáng)化學(xué)習(xí)的自適應(yīng)多智能體股票交易方法，步驟如下：

4、步驟100，數(shù)據(jù)爬取及預(yù)處理；

5、步驟101，確定數(shù)據(jù)源和股票交易的領(lǐng)域和主題；

6、其中，數(shù)據(jù)源確定，針對(duì)要獲取的指數(shù)、期貨、個(gè)股數(shù)據(jù)集，選擇yahoo資源，其為一個(gè)專注于股票市場(chǎng)信息的網(wǎng)站；

7、步驟102，使用爬蟲技術(shù)從數(shù)據(jù)源中獲取股票交易數(shù)據(jù)；

8、網(wǎng)絡(luò)爬蟲，通過(guò)解析函數(shù)sd＝parse(html)，提取函數(shù)ed＝extract(sd)來(lái)實(shí)現(xiàn)爬蟲；其中，html是原始網(wǎng)頁(yè)，sd表示解析函數(shù)parse(·)后得到的解析數(shù)據(jù)，ed表示解析函數(shù)extract(·)后得到的解析數(shù)據(jù)。

9、步驟103，過(guò)濾和清洗股票交易數(shù)據(jù)，去除無(wú)關(guān)信息，使數(shù)據(jù)更加干凈和規(guī)范；

10、使用文本處理技術(shù)進(jìn)行數(shù)據(jù)清洗和規(guī)范化，設(shè)ed為原始數(shù)據(jù)集，通過(guò)數(shù)據(jù)過(guò)濾操作filter(ed)，應(yīng)用一系列的過(guò)濾規(guī)則或條件，從原始數(shù)據(jù)中篩選出符合要求或標(biāo)準(zhǔn)的數(shù)據(jù)，生成中間數(shù)據(jù)集fd；接著，對(duì)中間數(shù)據(jù)集fd進(jìn)行數(shù)據(jù)清洗操作clean(fd)，清除存在缺失值或錯(cuò)誤的數(shù)據(jù)，以確保數(shù)據(jù)的一致性和準(zhǔn)確性，最后生成清洗后的數(shù)據(jù)集cd；公式表示為：cd＝clean(filter(ed))；其中，filter(·)代表數(shù)據(jù)過(guò)濾的操作，通過(guò)應(yīng)用一系列的過(guò)濾規(guī)則或條件，從數(shù)據(jù)中篩選出符合要求或標(biāo)準(zhǔn)的數(shù)據(jù)，clean(·)代表數(shù)據(jù)清洗的操作，對(duì)經(jīng)過(guò)篩選的數(shù)據(jù)進(jìn)行處理，對(duì)存在缺失值的數(shù)據(jù)進(jìn)行清除，以確保數(shù)據(jù)的一致性和準(zhǔn)確性；

11、步驟104，利用獲取到的股票數(shù)據(jù)構(gòu)建特征標(biāo)簽；

12、基于股票數(shù)據(jù)的開(kāi)盤價(jià)、最高價(jià)、收盤價(jià)、收盤價(jià)、交易量等信息，使用移動(dòng)平均線和指數(shù)移動(dòng)平均線構(gòu)建用于訓(xùn)練框架的特征標(biāo)簽s＝{o，h，l，c，m30，m60，e90}，其中o是開(kāi)盤價(jià)，h是最高價(jià)，l是最低價(jià)，c是收盤價(jià)，m30是30天簡(jiǎn)單移動(dòng)平均線，m60是60天簡(jiǎn)單移動(dòng)平均線，e90是90天指數(shù)移動(dòng)平均線；

13、用mt表示在時(shí)間t的簡(jiǎn)單移動(dòng)平均值；n表示移動(dòng)平均的時(shí)間周期，表示取多少個(gè)時(shí)間單位的價(jià)格數(shù)據(jù)來(lái)計(jì)算平均值，ci-1表示第i-1個(gè)時(shí)間單位的收盤價(jià)；et表示在時(shí)間t的指數(shù)移動(dòng)平均值；α表示平滑因子，代表對(duì)當(dāng)前價(jià)格和前一時(shí)間單位的指數(shù)移動(dòng)平均值的權(quán)重；ct表示第t個(gè)時(shí)間單位的收盤價(jià)，et-1表示前一時(shí)間單位的指數(shù)移動(dòng)平均值；公式表示為：

14、步驟105，數(shù)據(jù)歸一化及窗口化處理；

15、對(duì)特征標(biāo)簽使用minmaxscaler歸一化方式對(duì)數(shù)據(jù)進(jìn)行歸一化，其中x表示股票特征數(shù)據(jù)，xmin表示股票特征數(shù)據(jù)中的最小值，xmax表示股票特征數(shù)據(jù)中的最大值，xnorm表示歸一化后的股票特征數(shù)據(jù)；將特征標(biāo)簽歸一化到(0～1)之間，以消除不同特征維度之間的量綱差異，提高數(shù)據(jù)的穩(wěn)定性。同時(shí)為了便于發(fā)現(xiàn)股票歷史數(shù)據(jù)之間的關(guān)聯(lián)性，對(duì)數(shù)據(jù)進(jìn)行窗口化處理，每個(gè)窗口包含當(dāng)天及前60天的數(shù)據(jù)st＝{st-1，st-2，…，st-60}。其中st表示第t天的窗口數(shù)據(jù)，st-1、st-2、st-60表示第t-1，t-2，t-60天的股票特征數(shù)據(jù)；

16、步驟200，構(gòu)建多維度特征提取器；

17、使用卷積神經(jīng)網(wǎng)絡(luò)(cnn)、門控循環(huán)控制單元(gru)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bilstm)、注意力機(jī)制構(gòu)建多維度特征提取器，用于深入挖掘和分析金融時(shí)間序列。

18、步驟201，使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)特征數(shù)據(jù)進(jìn)行提取；

19、利用卷積神經(jīng)網(wǎng)絡(luò)(cnn)的卷積操作，可以聚焦于金融時(shí)間序列中的局部區(qū)域，從而捕捉到短期依賴關(guān)系。此外，通過(guò)堆疊多個(gè)卷積層，能夠?qū)崿F(xiàn)從低級(jí)特征到高級(jí)特征的多層次特征表示其中，i表示第i個(gè)時(shí)間步，j是卷積核在時(shí)間步維度上的索引，范圍是1～k，k是卷積核在時(shí)間步維度上的大小，即卷積核的高度。l是卷積核在特征維度上的索引，范圍是1～m，m是卷積核在特征維度上的大小，即卷積核的寬度。wjl是卷積核的權(quán)重，表示卷積核在位置(j，l)處的權(quán)重。x(i+j-1)(l)表示輸入數(shù)據(jù)在位置(i+1-1，l)處的值，其中i是當(dāng)前卷積操作的時(shí)間步索引。b是偏置向量，添加到每個(gè)卷積輸出中。yi是卷積操作在時(shí)間步i的輸出，zi是激活函數(shù)的輸出，應(yīng)用在relu激活函數(shù)后的結(jié)果。p是池化窗口的大小，pi是池化后在時(shí)間步i的池化結(jié)果的輸出，wfc是全連接層的權(quán)重矩陣，bfc是全連接層的偏置向量，使用展開(kāi)函數(shù)flatten(·)將pi展開(kāi)為一維向量，是最終的輸出，cnnbranch是卷積后的輸出特征圖。其次，卷積神經(jīng)網(wǎng)絡(luò)(cnn)的卷積和池化操作能夠高效處理大規(guī)模金融時(shí)間序列數(shù)據(jù)，具有較低的計(jì)算復(fù)雜度和較快的訓(xùn)練速度。

20、步驟202，使用門控循環(huán)單元對(duì)特征數(shù)據(jù)進(jìn)行提取；

21、門控循環(huán)控制單元(gru)能夠捕捉金融時(shí)間序列中的長(zhǎng)期依賴關(guān)系，其中xt表示在時(shí)間步t的輸入數(shù)據(jù)向量，ht-1表示前一個(gè)時(shí)間步的隱藏狀態(tài)向量，σ表示sigmoid激活函數(shù)，zt表示在時(shí)間步t的更新門向量，rt表示在時(shí)間步t重置門向量，表示在時(shí)間步t的候選隱藏狀態(tài)向量，ht表示在時(shí)間步t的隱藏狀態(tài)向量。wz表示計(jì)算更新門的輸入數(shù)據(jù)權(quán)重矩陣，uz表示計(jì)算更新門的隱藏狀態(tài)權(quán)重矩陣，bz表示計(jì)算更新門的偏置向量。wr表示重置門的輸入數(shù)據(jù)權(quán)重矩陣，ur表示計(jì)算重置門的隱藏狀態(tài)權(quán)重矩陣，br表示計(jì)算重置門的偏置向量。wh表示計(jì)算候選隱藏狀態(tài)的輸入數(shù)據(jù)權(quán)重矩陣，uh表示計(jì)算候選隱藏狀態(tài)的隱藏狀態(tài)權(quán)重矩陣，bh表示計(jì)算候選隱藏狀態(tài)的偏置向量，tanh(·)表示tanh激活函數(shù)。grubranch表示使用門控循環(huán)控制單元對(duì)數(shù)據(jù)處理后的輸出結(jié)果。并且各個(gè)權(quán)重矩陣并根據(jù)當(dāng)前輸入迅速調(diào)整記憶狀態(tài)，確保在市場(chǎng)劇烈波動(dòng)時(shí)及時(shí)做出調(diào)整。

22、步驟203，使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)特征數(shù)據(jù)進(jìn)行提??；

23、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bilstm)在處理當(dāng)前時(shí)間步的輸入時(shí)，能夠綜合考慮到其之前和之后的信息。

24、前向長(zhǎng)短期記憶網(wǎng)絡(luò)(lstm)從時(shí)間步t＝1到t＝n處理數(shù)據(jù)：

25、

26、后向長(zhǎng)短期記憶網(wǎng)絡(luò)(lstm)從時(shí)間步t＝n到t＝1處理數(shù)據(jù)：

27、

28、其中，xt表示第t個(gè)時(shí)間步的輸入數(shù)據(jù)，和表示前一個(gè)時(shí)間步的隱藏狀態(tài)向量，和表示前一個(gè)時(shí)間步的細(xì)胞狀態(tài)向量，和表示在時(shí)間步t的遺忘門向量，和表示在時(shí)間步t的輸入門向量，和表示在時(shí)間步t的細(xì)胞狀態(tài)向量，和表示在時(shí)間步t的輸出門向量，和表示在時(shí)間步t的隱藏狀態(tài)向量，wf表示計(jì)算遺忘門的輸入數(shù)據(jù)權(quán)重矩陣，uf表示計(jì)算遺忘門的隱藏狀態(tài)權(quán)重矩陣，bf表示計(jì)算遺忘門的偏置向量，wi表示計(jì)算輸入門的輸入數(shù)據(jù)權(quán)重矩陣，ui表示計(jì)算輸入門的隱藏狀態(tài)權(quán)重矩陣，bi表示計(jì)算輸入門的偏置向量，wc表示計(jì)算候選細(xì)胞狀態(tài)的輸入數(shù)據(jù)權(quán)重矩陣，uc表示計(jì)算候選細(xì)胞狀態(tài)的隱藏狀態(tài)權(quán)重矩陣，bc表示計(jì)算候選細(xì)胞狀態(tài)的偏置向量，wo表示計(jì)算輸出門的輸入數(shù)據(jù)權(quán)重矩陣，uo表示計(jì)算輸出門的隱藏狀態(tài)權(quán)重矩陣，bo表示計(jì)算輸出門的偏置向量，σ表示sigmoid激活函數(shù)，tanh(·)表示tanh激活函數(shù)。通過(guò)biltmbranch表示使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)數(shù)據(jù)處理后的輸出結(jié)果，這種全面性的信息獲取方式，bilstm能夠更好地理解金融時(shí)間序列的動(dòng)態(tài)特性，從而提高了模型的泛化能力和預(yù)測(cè)準(zhǔn)確度。

29、步驟204，使用注意力機(jī)制對(duì)數(shù)據(jù)做進(jìn)一步提?。?/p>

30、將注意力機(jī)制作用于門控循環(huán)單元gru和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)bilstm處理后的數(shù)據(jù)，使用attentionbranch表示注意力機(jī)制的輸出結(jié)果，attentionbranch＝[grubranch，biltmbranch]，可以幫助模型自動(dòng)識(shí)別和突出這些關(guān)鍵時(shí)間點(diǎn)的信息，提供更精準(zhǔn)和解釋性更強(qiáng)的特征信息。

31、步驟205，特征數(shù)據(jù)融合；

32、對(duì)卷積神經(jīng)網(wǎng)絡(luò)(cnn)、門控循環(huán)控制單元(gru)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bilstm)、注意力機(jī)制處理后的數(shù)據(jù)進(jìn)行融合，使用merge表示，merge＝{cnnbranch|grubranch|biltmbranch|attentionbranch}，使用融合后的數(shù)據(jù)構(gòu)建環(huán)境狀態(tài)state＝{merge1，merge2，…merget}，其中merget表示融合后第t個(gè)時(shí)間步的狀態(tài)數(shù)據(jù)。

33、步驟300，智能體執(zhí)行交易；

34、步驟301，構(gòu)建交易環(huán)境；

35、根據(jù)真實(shí)的交易場(chǎng)景，定義手續(xù)費(fèi)考量機(jī)制，ftee＝closet×dimension×0.1/100。其中free表示交易手續(xù)費(fèi)，closet是t時(shí)刻的收盤價(jià)，dimension是交易尺寸。并對(duì)交易做持倉(cāng)限制和空倉(cāng)限制。持倉(cāng)限制：若代理人當(dāng)前持有某股票的數(shù)量已經(jīng)達(dá)到預(yù)設(shè)的最大持倉(cāng)限額，則禁止其繼續(xù)買入該股票。這一限制旨在避免過(guò)度投資和重復(fù)交易，從而降低交易成本?？諅}(cāng)限制：若代理人當(dāng)前未持有某股票，則禁止其執(zhí)行賣出操作。這一限制確保了交易的合理性，防止了無(wú)貨沽空的情況。

36、步驟302，設(shè)計(jì)動(dòng)態(tài)止損機(jī)制；

37、為了確保智能體在追求最大化收益的同時(shí)能夠有效控制潛在損失，使用自適應(yīng)風(fēng)險(xiǎn)調(diào)整因子將動(dòng)態(tài)止損機(jī)制與獎(jiǎng)勵(lì)函數(shù)相結(jié)合，以增強(qiáng)智能體的風(fēng)險(xiǎn)意識(shí)和資金保護(hù)能力。stopprice＝basestop_price×(1+δ·atr)，其中stopprice表示當(dāng)前狀態(tài)下動(dòng)態(tài)止損的收盤價(jià)，basestop_price為設(shè)置的股票基本止損價(jià)格，δ為自適應(yīng)風(fēng)險(xiǎn)調(diào)整因子，atr表示最近的平均波動(dòng)范圍。通過(guò)這種方法，智能體不僅能夠優(yōu)化收益，還能更有效地管理風(fēng)險(xiǎn)，保護(hù)其資本免受大幅波動(dòng)的影響。

38、步驟303，設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)；

39、獎(jiǎng)勵(lì)函數(shù)由兩部分組成：交易利潤(rùn)和動(dòng)態(tài)止損獎(jiǎng)勵(lì)。交易利潤(rùn)部分反映了代理在每筆交易中的實(shí)際收益，鼓勵(lì)其在市場(chǎng)中尋找和利用盈利機(jī)會(huì)。而動(dòng)態(tài)止損獎(jiǎng)勵(lì)則根據(jù)市場(chǎng)波動(dòng)和風(fēng)險(xiǎn)水平進(jìn)行調(diào)整，旨在促使代理在控制潛在損失方面做出更明智的決策。這種雙重獎(jiǎng)勵(lì)機(jī)制不僅能激勵(lì)代理追求更高的利潤(rùn)，還能確保其在追求收益的過(guò)程中始終重視風(fēng)險(xiǎn)管理。從而確保在劇烈波動(dòng)的股票市場(chǎng)中實(shí)現(xiàn)穩(wěn)健、可持續(xù)的投資回報(bào)。獎(jiǎng)勵(lì)函數(shù)表示為r＝p-c+b。其中，r是最終獲得的回報(bào)，代表本次交易的綜合表現(xiàn)；p是交易利潤(rùn)；c是交易成本，涵蓋了一次交易所有的交易費(fèi)用；b是基于代理風(fēng)險(xiǎn)管理表現(xiàn)的獎(jiǎng)勵(lì)項(xiàng)。

40、步驟304，構(gòu)建多智能體交易模式；

41、基于dueling?dqn的智能體利用其對(duì)偶網(wǎng)絡(luò)結(jié)構(gòu)中的價(jià)值流和優(yōu)勢(shì)流對(duì)股票市場(chǎng)動(dòng)態(tài)進(jìn)行雙重分析。價(jià)值流專注于評(píng)估當(dāng)前狀態(tài)的整體價(jià)值，而優(yōu)勢(shì)流則衡量特定動(dòng)作相對(duì)于其他可能選擇的優(yōu)勢(shì)q(s，a)＝v(s)+a(s，a)，其中，s表示當(dāng)前的狀態(tài)，a表示當(dāng)前狀態(tài)s下的動(dòng)作，v(s)為狀態(tài)值函數(shù)，表示在狀態(tài)s下的預(yù)期回報(bào)不考慮具體動(dòng)作。a(s，a)為優(yōu)勢(shì)函數(shù)，表示在狀態(tài)s下選擇動(dòng)作a相對(duì)于狀態(tài)s下采取的平均動(dòng)作的優(yōu)勢(shì)，q(s，a)為狀態(tài)-動(dòng)作值函數(shù)，表示在狀態(tài)s選擇動(dòng)作a后的預(yù)期回報(bào)。這種雙重分析方法使智能體能夠更精準(zhǔn)地評(píng)估市場(chǎng)狀況和交易機(jī)會(huì)，從而為其決策提供堅(jiān)實(shí)的基礎(chǔ)。

42、基于dueling深度q網(wǎng)絡(luò)構(gòu)建多個(gè)用于股票交易的智能體，首先根據(jù)多維度特征提取器提供的訓(xùn)練集部分環(huán)境狀態(tài)信息對(duì)每個(gè)智能體進(jìn)行單獨(dú)的訓(xùn)練，以保證每個(gè)智能體的獨(dú)立性，進(jìn)而每個(gè)智能體在多維度特征提取器提供的驗(yàn)證集部分的狀態(tài)環(huán)境狀態(tài)信息對(duì)每個(gè)智能體訓(xùn)練效果進(jìn)行驗(yàn)證，選取每個(gè)智能體最好效果的模型參數(shù)作為該智能體的模型參數(shù)，其次將所有訓(xùn)練并驗(yàn)證好的智能體作用于已經(jīng)構(gòu)建好的交易環(huán)境中，在每個(gè)時(shí)間步t，每個(gè)智能體都根據(jù)當(dāng)前狀態(tài)做出決策，采用投票機(jī)制選出當(dāng)前最有利的決策。投票選取最優(yōu)決策的公式為：bestaction＝argmax{a1，a2，…，an}，其中bestaction表示選取出的最有利的決策，a1～an分別表示每個(gè)智能體在當(dāng)前狀態(tài)s下做出的決策。通過(guò)該多智能體交易方式，可以有效的降低單點(diǎn)失誤的風(fēng)險(xiǎn)，并且在市場(chǎng)劇烈波動(dòng)時(shí)，能夠靈活的應(yīng)對(duì)市場(chǎng)的快速變化并做出更加全面的決策，實(shí)現(xiàn)更為穩(wěn)健和可持續(xù)的投資回報(bào)。

43、與現(xiàn)有方法相比，本發(fā)明的有益效果為：

44、本發(fā)明通過(guò)深度強(qiáng)化學(xué)習(xí)構(gòu)建多智能體交易框架，以實(shí)現(xiàn)可持續(xù)的投資收益。第一部分是基于股票市場(chǎng)技術(shù)分析對(duì)爬取后的股票交易數(shù)據(jù)進(jìn)行預(yù)處理，并構(gòu)建適用于該交易框架的特征標(biāo)簽。第二部分使用卷積神經(jīng)網(wǎng)絡(luò)(cnn)、門控循環(huán)控制單元(gru)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bilstm)、注意力機(jī)制構(gòu)建多維度特征提取器，用于深入挖掘和分析金融時(shí)間序列，并構(gòu)建適用于該交易框架的狀態(tài)空間。第三部分通過(guò)設(shè)計(jì)逼近與真實(shí)交易環(huán)境，并重新設(shè)計(jì)獎(jiǎng)勵(lì)反饋機(jī)制和動(dòng)態(tài)止損機(jī)制以實(shí)現(xiàn)對(duì)交易信息的及時(shí)反饋和有效的風(fēng)險(xiǎn)管理，從而使該框架能夠高度適應(yīng)于劇烈震蕩的股票市場(chǎng)。此外，構(gòu)建多個(gè)智能體協(xié)同作用于股票交易市場(chǎng)，通過(guò)對(duì)所有智能體的決策進(jìn)行分析，形成當(dāng)前形勢(shì)下最有利的決策?？梢杂行У慕档蛦吸c(diǎn)失誤的風(fēng)險(xiǎn)，并且在市場(chǎng)劇烈波動(dòng)時(shí)，能夠靈活的應(yīng)對(duì)市場(chǎng)的快速變化并做出更加全面的決策，實(shí)現(xiàn)更為穩(wěn)健和可持續(xù)的投資回報(bào)。

45、本發(fā)明通過(guò)多維度特征提取器對(duì)股票交易信息進(jìn)行深層次挖掘，分析其中的關(guān)聯(lián)性，有效的解決市場(chǎng)劇烈波動(dòng)帶來(lái)的噪聲影響。同時(shí)通過(guò)設(shè)計(jì)實(shí)時(shí)獎(jiǎng)勵(lì)反饋機(jī)制和動(dòng)態(tài)止損機(jī)制，能夠根據(jù)實(shí)時(shí)反饋的交易信息在市場(chǎng)劇烈波動(dòng)時(shí)動(dòng)態(tài)調(diào)整策略，實(shí)現(xiàn)對(duì)劇烈震蕩的市場(chǎng)高度的適應(yīng)性，同時(shí)也能夠有效的控制交易風(fēng)險(xiǎn)。利用多智能體交易機(jī)制能夠顯著降低了單一智能體決策失誤的風(fēng)險(xiǎn)，并極大地提升了交易框架的整體效率和風(fēng)險(xiǎn)管理能力。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：原旭,王嘉強(qiáng),谷少奎,郭軼
技術(shù)所有人：大連理工大學(xué)
我是此專利的發(fā)明人

上一篇：一種刮痧板消毒裝置
上一篇：一種導(dǎo)光板用半自動(dòng)組裝機(jī)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

基于深度強(qiáng)化學(xué)習(xí)的自適應(yīng)多智能體股票交易方法