本發(fā)明屬于量化交易領(lǐng)域,涉及基于深度強(qiáng)化學(xué)習(xí)的自適應(yīng)多智能體股票交易方法,是使用深度學(xué)習(xí)技術(shù)與dueling深度q網(wǎng)絡(luò)構(gòu)建多智能體股票交易框架,來(lái)實(shí)現(xiàn)在股票市場(chǎng)震蕩的場(chǎng)景下實(shí)現(xiàn)最大化收益和風(fēng)險(xiǎn)控制。
背景技術(shù):
1、股票市場(chǎng)是高度復(fù)雜且動(dòng)態(tài)變化的領(lǐng)域,一直是投資者和研究者的關(guān)注焦點(diǎn)。隨著市場(chǎng)環(huán)境的日益復(fù)雜和數(shù)據(jù)量的爆炸性增長(zhǎng),傳統(tǒng)的投資策略和技術(shù)分析工具逐漸顯現(xiàn)出局限性。為了應(yīng)對(duì)這一挑戰(zhàn),研究者們開(kāi)始借助機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等先進(jìn)技術(shù),以從海量數(shù)據(jù)中提取有價(jià)值的信息,優(yōu)化投資決策。
2、(leippold,m.,wang,q.,zhou,w.,2022.machine?learning?in?the?chinesestock?market.)在中國(guó)股票市場(chǎng),各種機(jī)器學(xué)習(xí)技術(shù)已經(jīng)得到廣泛應(yīng)用,并取得了顯著成果。(sahu,s.k.,mokhade,a.,bokde,n.d.,2023.an?overview?of?machine?learning,deeplearning,and?reinforcement?learning-based?techniques?in?quantitative?finance:recent?progress?and?challenges.)指出了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在數(shù)據(jù)獲取、模型解釋性、計(jì)算復(fù)雜度和金融市場(chǎng)不確定性方面的挑戰(zhàn)。(addy,w.a.,ajayi-nifise,a.o.,bello,b.g.,tula,s.t.,odeyemi,o.,falaiye,t.,et?al.,2024.machine?learningin?financial?markets:a?critical?review?of?algorithmic?trading?and?riskmanagement.)分析了機(jī)器學(xué)習(xí)技術(shù)在高頻交易和自動(dòng)化交易系統(tǒng)中風(fēng)險(xiǎn)管理的重要性。(goutte,s.,le,h.v.,liu,f.,von?mettenheim,h.j.,2023.deep?learning?andtechnical?analysis?in?cryptocurrency?market.)證明了深度學(xué)習(xí)模型和技術(shù)分析指標(biāo)的結(jié)合在加密貨幣市場(chǎng)預(yù)測(cè)中的有效性,展示了在不同市場(chǎng)條件下的表現(xiàn)。為了實(shí)現(xiàn)更高效的交易策略,(deng,y.,bao,f.,kong,y.,ren,z.,dai,q.,2016.deep?directreinforcement?learning?for?financial?signal?representation?and?trading.)提出了用于金融信號(hào)的表示和交易的直接深度強(qiáng)化學(xué)習(xí)框架。(yang,b.,liang,t.,xiong,j.,zhong,c.,2023.deep?reinforcement?learning?based?on?transformer?and?u-netframework?for?stock?trading.)構(gòu)建了用于股票交易深度強(qiáng)化學(xué)習(xí)框架。
3、然而,在震蕩的股票市場(chǎng)中,市場(chǎng)劇烈波動(dòng)導(dǎo)致數(shù)據(jù)中包含大量噪聲,這顯著影響了模型的信號(hào)提取能力。在這樣的頻繁波動(dòng)環(huán)境中,現(xiàn)有研究對(duì)市場(chǎng)波動(dòng)的適應(yīng)性不足,模型難以有效應(yīng)對(duì)不同的市場(chǎng)情境。此外,交易反饋不及時(shí)的問(wèn)題也很突出,實(shí)時(shí)處理和響應(yīng)最新市場(chǎng)狀態(tài)的能力有限,可能導(dǎo)致交易決策的滯后。與此同時(shí),現(xiàn)有方法在交易過(guò)程中的風(fēng)險(xiǎn)管理措施也不足,缺乏有效的風(fēng)險(xiǎn)評(píng)估和管理策略,無(wú)法充分保護(hù)資金安全。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明主要解決了在震蕩的股票市場(chǎng)中數(shù)據(jù)噪聲對(duì)交易決策帶來(lái)的影響,對(duì)劇烈波動(dòng)的市場(chǎng)環(huán)境反饋不及時(shí)以及單一智能體存在的決策失誤的問(wèn)題。通過(guò)構(gòu)建多維度特征提取器對(duì)股票交易信息進(jìn)行深層次挖掘,分析其中的關(guān)聯(lián)性。并重新設(shè)計(jì)實(shí)時(shí)獎(jiǎng)勵(lì)反饋機(jī)制和動(dòng)態(tài)止損機(jī)制,根據(jù)實(shí)時(shí)反饋的交易信息在市場(chǎng)劇烈波動(dòng)時(shí)動(dòng)態(tài)調(diào)整策略。此外,構(gòu)建多個(gè)智能體協(xié)同作用于股票交易市場(chǎng)。為了實(shí)現(xiàn)這一方法。首先,爬取股票歷史交易信息,獲取初始數(shù)據(jù),構(gòu)建適用于該交易框架的特征標(biāo)簽,進(jìn)而對(duì)數(shù)據(jù)進(jìn)行歸一化和窗口化處理,得到統(tǒng)一且規(guī)范的股票數(shù)據(jù)。然后,使用卷積神經(jīng)網(wǎng)絡(luò)(cnn)、門控循環(huán)控制單元(gru)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bilstm)、注意力機(jī)制構(gòu)建多維度特征提取器,用于深入挖掘和分析金融時(shí)間序列,并構(gòu)建用于多智能體交易的狀態(tài)空間。接下來(lái),構(gòu)建多個(gè)智能體,協(xié)同作用于股票交易市場(chǎng),可以通過(guò)評(píng)估交易所帶來(lái)的累計(jì)收益率,年化收益率,最大回撤,夏普比率等指標(biāo)對(duì)交易結(jié)果進(jìn)行評(píng)估,衡量框架執(zhí)行交易的魯棒性和高適應(yīng)性。
2、本發(fā)明的技術(shù)方案:
3、基于深度強(qiáng)化學(xué)習(xí)的自適應(yīng)多智能體股票交易方法,步驟如下:
4、步驟100,數(shù)據(jù)爬取及預(yù)處理;
5、步驟101,確定數(shù)據(jù)源和股票交易的領(lǐng)域和主題;
6、其中,數(shù)據(jù)源確定,針對(duì)要獲取的指數(shù)、期貨、個(gè)股數(shù)據(jù)集,選擇yahoo資源,其為一個(gè)專注于股票市場(chǎng)信息的網(wǎng)站;
7、步驟102,使用爬蟲技術(shù)從數(shù)據(jù)源中獲取股票交易數(shù)據(jù);
8、網(wǎng)絡(luò)爬蟲,通過(guò)解析函數(shù)sd=parse(html),提取函數(shù)ed=extract(sd)來(lái)實(shí)現(xiàn)爬蟲;其中,html是原始網(wǎng)頁(yè),sd表示解析函數(shù)parse(·)后得到的解析數(shù)據(jù),ed表示解析函數(shù)extract(·)后得到的解析數(shù)據(jù)。
9、步驟103,過(guò)濾和清洗股票交易數(shù)據(jù),去除無(wú)關(guān)信息,使數(shù)據(jù)更加干凈和規(guī)范;
10、使用文本處理技術(shù)進(jìn)行數(shù)據(jù)清洗和規(guī)范化,設(shè)ed為原始數(shù)據(jù)集,通過(guò)數(shù)據(jù)過(guò)濾操作filter(ed),應(yīng)用一系列的過(guò)濾規(guī)則或條件,從原始數(shù)據(jù)中篩選出符合要求或標(biāo)準(zhǔn)的數(shù)據(jù),生成中間數(shù)據(jù)集fd;接著,對(duì)中間數(shù)據(jù)集fd進(jìn)行數(shù)據(jù)清洗操作clean(fd),清除存在缺失值或錯(cuò)誤的數(shù)據(jù),以確保數(shù)據(jù)的一致性和準(zhǔn)確性,最后生成清洗后的數(shù)據(jù)集cd;公式表示為:cd=clean(filter(ed));其中,filter(·)代表數(shù)據(jù)過(guò)濾的操作,通過(guò)應(yīng)用一系列的過(guò)濾規(guī)則或條件,從數(shù)據(jù)中篩選出符合要求或標(biāo)準(zhǔn)的數(shù)據(jù),clean(·)代表數(shù)據(jù)清洗的操作,對(duì)經(jīng)過(guò)篩選的數(shù)據(jù)進(jìn)行處理,對(duì)存在缺失值的數(shù)據(jù)進(jìn)行清除,以確保數(shù)據(jù)的一致性和準(zhǔn)確性;
11、步驟104,利用獲取到的股票數(shù)據(jù)構(gòu)建特征標(biāo)簽;
12、基于股票數(shù)據(jù)的開(kāi)盤價(jià)、最高價(jià)、收盤價(jià)、收盤價(jià)、交易量等信息,使用移動(dòng)平均線和指數(shù)移動(dòng)平均線構(gòu)建用于訓(xùn)練框架的特征標(biāo)簽s={o,h,l,c,m30,m60,e90},其中o是開(kāi)盤價(jià),h是最高價(jià),l是最低價(jià),c是收盤價(jià),m30是30天簡(jiǎn)單移動(dòng)平均線,m60是60天簡(jiǎn)單移動(dòng)平均線,e90是90天指數(shù)移動(dòng)平均線;
13、用mt表示在時(shí)間t的簡(jiǎn)單移動(dòng)平均值;n表示移動(dòng)平均的時(shí)間周期,表示取多少個(gè)時(shí)間單位的價(jià)格數(shù)據(jù)來(lái)計(jì)算平均值,ci-1表示第i-1個(gè)時(shí)間單位的收盤價(jià);et表示在時(shí)間t的指數(shù)移動(dòng)平均值;α表示平滑因子,代表對(duì)當(dāng)前價(jià)格和前一時(shí)間單位的指數(shù)移動(dòng)平均值的權(quán)重;ct表示第t個(gè)時(shí)間單位的收盤價(jià),et-1表示前一時(shí)間單位的指數(shù)移動(dòng)平均值;公式表示為:
14、步驟105,數(shù)據(jù)歸一化及窗口化處理;
15、對(duì)特征標(biāo)簽使用minmaxscaler歸一化方式對(duì)數(shù)據(jù)進(jìn)行歸一化,其中x表示股票特征數(shù)據(jù),xmin表示股票特征數(shù)據(jù)中的最小值,xmax表示股票特征數(shù)據(jù)中的最大值,xnorm表示歸一化后的股票特征數(shù)據(jù);將特征標(biāo)簽歸一化到(0~1)之間,以消除不同特征維度之間的量綱差異,提高數(shù)據(jù)的穩(wěn)定性。同時(shí)為了便于發(fā)現(xiàn)股票歷史數(shù)據(jù)之間的關(guān)聯(lián)性,對(duì)數(shù)據(jù)進(jìn)行窗口化處理,每個(gè)窗口包含當(dāng)天及前60天的數(shù)據(jù)st={st-1,st-2,…,st-60}。其中st表示第t天的窗口數(shù)據(jù),st-1、st-2、st-60表示第t-1,t-2,t-60天的股票特征數(shù)據(jù);
16、步驟200,構(gòu)建多維度特征提取器;
17、使用卷積神經(jīng)網(wǎng)絡(luò)(cnn)、門控循環(huán)控制單元(gru)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bilstm)、注意力機(jī)制構(gòu)建多維度特征提取器,用于深入挖掘和分析金融時(shí)間序列。
18、步驟201,使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)特征數(shù)據(jù)進(jìn)行提取;
19、利用卷積神經(jīng)網(wǎng)絡(luò)(cnn)的卷積操作,可以聚焦于金融時(shí)間序列中的局部區(qū)域,從而捕捉到短期依賴關(guān)系。此外,通過(guò)堆疊多個(gè)卷積層,能夠?qū)崿F(xiàn)從低級(jí)特征到高級(jí)特征的多層次特征表示其中,i表示第i個(gè)時(shí)間步,j是卷積核在時(shí)間步維度上的索引,范圍是1~k,k是卷積核在時(shí)間步維度上的大小,即卷積核的高度。l是卷積核在特征維度上的索引,范圍是1~m,m是卷積核在特征維度上的大小,即卷積核的寬度。wjl是卷積核的權(quán)重,表示卷積核在位置(j,l)處的權(quán)重。x(i+j-1)(l)表示輸入數(shù)據(jù)在位置(i+1-1,l)處的值,其中i是當(dāng)前卷積操作的時(shí)間步索引。b是偏置向量,添加到每個(gè)卷積輸出中。yi是卷積操作在時(shí)間步i的輸出,zi是激活函數(shù)的輸出,應(yīng)用在relu激活函數(shù)后的結(jié)果。p是池化窗口的大小,pi是池化后在時(shí)間步i的池化結(jié)果的輸出,wfc是全連接層的權(quán)重矩陣,bfc是全連接層的偏置向量,使用展開(kāi)函數(shù)flatten(·)將pi展開(kāi)為一維向量,是最終的輸出,cnnbranch是卷積后的輸出特征圖。其次,卷積神經(jīng)網(wǎng)絡(luò)(cnn)的卷積和池化操作能夠高效處理大規(guī)模金融時(shí)間序列數(shù)據(jù),具有較低的計(jì)算復(fù)雜度和較快的訓(xùn)練速度。
20、步驟202,使用門控循環(huán)單元對(duì)特征數(shù)據(jù)進(jìn)行提取;
21、門控循環(huán)控制單元(gru)能夠捕捉金融時(shí)間序列中的長(zhǎng)期依賴關(guān)系,其中xt表示在時(shí)間步t的輸入數(shù)據(jù)向量,ht-1表示前一個(gè)時(shí)間步的隱藏狀態(tài)向量,σ表示sigmoid激活函數(shù),zt表示在時(shí)間步t的更新門向量,rt表示在時(shí)間步t重置門向量,表示在時(shí)間步t的候選隱藏狀態(tài)向量,ht表示在時(shí)間步t的隱藏狀態(tài)向量。wz表示計(jì)算更新門的輸入數(shù)據(jù)權(quán)重矩陣,uz表示計(jì)算更新門的隱藏狀態(tài)權(quán)重矩陣,bz表示計(jì)算更新門的偏置向量。wr表示重置門的輸入數(shù)據(jù)權(quán)重矩陣,ur表示計(jì)算重置門的隱藏狀態(tài)權(quán)重矩陣,br表示計(jì)算重置門的偏置向量。wh表示計(jì)算候選隱藏狀態(tài)的輸入數(shù)據(jù)權(quán)重矩陣,uh表示計(jì)算候選隱藏狀態(tài)的隱藏狀態(tài)權(quán)重矩陣,bh表示計(jì)算候選隱藏狀態(tài)的偏置向量,tanh(·)表示tanh激活函數(shù)。grubranch表示使用門控循環(huán)控制單元對(duì)數(shù)據(jù)處理后的輸出結(jié)果。并且各個(gè)權(quán)重矩陣并根據(jù)當(dāng)前輸入迅速調(diào)整記憶狀態(tài),確保在市場(chǎng)劇烈波動(dòng)時(shí)及時(shí)做出調(diào)整。
22、步驟203,使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)特征數(shù)據(jù)進(jìn)行提??;
23、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bilstm)在處理當(dāng)前時(shí)間步的輸入時(shí),能夠綜合考慮到其之前和之后的信息。
24、前向長(zhǎng)短期記憶網(wǎng)絡(luò)(lstm)從時(shí)間步t=1到t=n處理數(shù)據(jù):
25、
26、后向長(zhǎng)短期記憶網(wǎng)絡(luò)(lstm)從時(shí)間步t=n到t=1處理數(shù)據(jù):
27、
28、其中,xt表示第t個(gè)時(shí)間步的輸入數(shù)據(jù),和表示前一個(gè)時(shí)間步的隱藏狀態(tài)向量,和表示前一個(gè)時(shí)間步的細(xì)胞狀態(tài)向量,和表示在時(shí)間步t的遺忘門向量,和表示在時(shí)間步t的輸入門向量,和表示在時(shí)間步t的細(xì)胞狀態(tài)向量,和表示在時(shí)間步t的輸出門向量,和表示在時(shí)間步t的隱藏狀態(tài)向量,wf表示計(jì)算遺忘門的輸入數(shù)據(jù)權(quán)重矩陣,uf表示計(jì)算遺忘門的隱藏狀態(tài)權(quán)重矩陣,bf表示計(jì)算遺忘門的偏置向量,wi表示計(jì)算輸入門的輸入數(shù)據(jù)權(quán)重矩陣,ui表示計(jì)算輸入門的隱藏狀態(tài)權(quán)重矩陣,bi表示計(jì)算輸入門的偏置向量,wc表示計(jì)算候選細(xì)胞狀態(tài)的輸入數(shù)據(jù)權(quán)重矩陣,uc表示計(jì)算候選細(xì)胞狀態(tài)的隱藏狀態(tài)權(quán)重矩陣,bc表示計(jì)算候選細(xì)胞狀態(tài)的偏置向量,wo表示計(jì)算輸出門的輸入數(shù)據(jù)權(quán)重矩陣,uo表示計(jì)算輸出門的隱藏狀態(tài)權(quán)重矩陣,bo表示計(jì)算輸出門的偏置向量,σ表示sigmoid激活函數(shù),tanh(·)表示tanh激活函數(shù)。通過(guò)biltmbranch表示使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)數(shù)據(jù)處理后的輸出結(jié)果,這種全面性的信息獲取方式,bilstm能夠更好地理解金融時(shí)間序列的動(dòng)態(tài)特性,從而提高了模型的泛化能力和預(yù)測(cè)準(zhǔn)確度。
29、步驟204,使用注意力機(jī)制對(duì)數(shù)據(jù)做進(jìn)一步提?。?/p>
30、將注意力機(jī)制作用于門控循環(huán)單元gru和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)bilstm處理后的數(shù)據(jù),使用attentionbranch表示注意力機(jī)制的輸出結(jié)果,attentionbranch=[grubranch,biltmbranch],可以幫助模型自動(dòng)識(shí)別和突出這些關(guān)鍵時(shí)間點(diǎn)的信息,提供更精準(zhǔn)和解釋性更強(qiáng)的特征信息。
31、步驟205,特征數(shù)據(jù)融合;
32、對(duì)卷積神經(jīng)網(wǎng)絡(luò)(cnn)、門控循環(huán)控制單元(gru)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bilstm)、注意力機(jī)制處理后的數(shù)據(jù)進(jìn)行融合,使用merge表示,merge={cnnbranch|grubranch|biltmbranch|attentionbranch},使用融合后的數(shù)據(jù)構(gòu)建環(huán)境狀態(tài)state={merge1,merge2,…merget},其中merget表示融合后第t個(gè)時(shí)間步的狀態(tài)數(shù)據(jù)。
33、步驟300,智能體執(zhí)行交易;
34、步驟301,構(gòu)建交易環(huán)境;
35、根據(jù)真實(shí)的交易場(chǎng)景,定義手續(xù)費(fèi)考量機(jī)制,ftee=closet×dimension×0.1/100。其中free表示交易手續(xù)費(fèi),closet是t時(shí)刻的收盤價(jià),dimension是交易尺寸。并對(duì)交易做持倉(cāng)限制和空倉(cāng)限制。持倉(cāng)限制:若代理人當(dāng)前持有某股票的數(shù)量已經(jīng)達(dá)到預(yù)設(shè)的最大持倉(cāng)限額,則禁止其繼續(xù)買入該股票。這一限制旨在避免過(guò)度投資和重復(fù)交易,從而降低交易成本??諅}(cāng)限制:若代理人當(dāng)前未持有某股票,則禁止其執(zhí)行賣出操作。這一限制確保了交易的合理性,防止了無(wú)貨沽空的情況。
36、步驟302,設(shè)計(jì)動(dòng)態(tài)止損機(jī)制;
37、為了確保智能體在追求最大化收益的同時(shí)能夠有效控制潛在損失,使用自適應(yīng)風(fēng)險(xiǎn)調(diào)整因子將動(dòng)態(tài)止損機(jī)制與獎(jiǎng)勵(lì)函數(shù)相結(jié)合,以增強(qiáng)智能體的風(fēng)險(xiǎn)意識(shí)和資金保護(hù)能力。stopprice=basestop_price×(1+δ·atr),其中stopprice表示當(dāng)前狀態(tài)下動(dòng)態(tài)止損的收盤價(jià),basestop_price為設(shè)置的股票基本止損價(jià)格,δ為自適應(yīng)風(fēng)險(xiǎn)調(diào)整因子,atr表示最近的平均波動(dòng)范圍。通過(guò)這種方法,智能體不僅能夠優(yōu)化收益,還能更有效地管理風(fēng)險(xiǎn),保護(hù)其資本免受大幅波動(dòng)的影響。
38、步驟303,設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù);
39、獎(jiǎng)勵(lì)函數(shù)由兩部分組成:交易利潤(rùn)和動(dòng)態(tài)止損獎(jiǎng)勵(lì)。交易利潤(rùn)部分反映了代理在每筆交易中的實(shí)際收益,鼓勵(lì)其在市場(chǎng)中尋找和利用盈利機(jī)會(huì)。而動(dòng)態(tài)止損獎(jiǎng)勵(lì)則根據(jù)市場(chǎng)波動(dòng)和風(fēng)險(xiǎn)水平進(jìn)行調(diào)整,旨在促使代理在控制潛在損失方面做出更明智的決策。這種雙重獎(jiǎng)勵(lì)機(jī)制不僅能激勵(lì)代理追求更高的利潤(rùn),還能確保其在追求收益的過(guò)程中始終重視風(fēng)險(xiǎn)管理。從而確保在劇烈波動(dòng)的股票市場(chǎng)中實(shí)現(xiàn)穩(wěn)健、可持續(xù)的投資回報(bào)。獎(jiǎng)勵(lì)函數(shù)表示為r=p-c+b。其中,r是最終獲得的回報(bào),代表本次交易的綜合表現(xiàn);p是交易利潤(rùn);c是交易成本,涵蓋了一次交易所有的交易費(fèi)用;b是基于代理風(fēng)險(xiǎn)管理表現(xiàn)的獎(jiǎng)勵(lì)項(xiàng)。
40、步驟304,構(gòu)建多智能體交易模式;
41、基于dueling?dqn的智能體利用其對(duì)偶網(wǎng)絡(luò)結(jié)構(gòu)中的價(jià)值流和優(yōu)勢(shì)流對(duì)股票市場(chǎng)動(dòng)態(tài)進(jìn)行雙重分析。價(jià)值流專注于評(píng)估當(dāng)前狀態(tài)的整體價(jià)值,而優(yōu)勢(shì)流則衡量特定動(dòng)作相對(duì)于其他可能選擇的優(yōu)勢(shì)q(s,a)=v(s)+a(s,a),其中,s表示當(dāng)前的狀態(tài),a表示當(dāng)前狀態(tài)s下的動(dòng)作,v(s)為狀態(tài)值函數(shù),表示在狀態(tài)s下的預(yù)期回報(bào)不考慮具體動(dòng)作。a(s,a)為優(yōu)勢(shì)函數(shù),表示在狀態(tài)s下選擇動(dòng)作a相對(duì)于狀態(tài)s下采取的平均動(dòng)作的優(yōu)勢(shì),q(s,a)為狀態(tài)-動(dòng)作值函數(shù),表示在狀態(tài)s選擇動(dòng)作a后的預(yù)期回報(bào)。這種雙重分析方法使智能體能夠更精準(zhǔn)地評(píng)估市場(chǎng)狀況和交易機(jī)會(huì),從而為其決策提供堅(jiān)實(shí)的基礎(chǔ)。
42、基于dueling深度q網(wǎng)絡(luò)構(gòu)建多個(gè)用于股票交易的智能體,首先根據(jù)多維度特征提取器提供的訓(xùn)練集部分環(huán)境狀態(tài)信息對(duì)每個(gè)智能體進(jìn)行單獨(dú)的訓(xùn)練,以保證每個(gè)智能體的獨(dú)立性,進(jìn)而每個(gè)智能體在多維度特征提取器提供的驗(yàn)證集部分的狀態(tài)環(huán)境狀態(tài)信息對(duì)每個(gè)智能體訓(xùn)練效果進(jìn)行驗(yàn)證,選取每個(gè)智能體最好效果的模型參數(shù)作為該智能體的模型參數(shù),其次將所有訓(xùn)練并驗(yàn)證好的智能體作用于已經(jīng)構(gòu)建好的交易環(huán)境中,在每個(gè)時(shí)間步t,每個(gè)智能體都根據(jù)當(dāng)前狀態(tài)做出決策,采用投票機(jī)制選出當(dāng)前最有利的決策。投票選取最優(yōu)決策的公式為:bestaction=argmax{a1,a2,…,an},其中bestaction表示選取出的最有利的決策,a1~an分別表示每個(gè)智能體在當(dāng)前狀態(tài)s下做出的決策。通過(guò)該多智能體交易方式,可以有效的降低單點(diǎn)失誤的風(fēng)險(xiǎn),并且在市場(chǎng)劇烈波動(dòng)時(shí),能夠靈活的應(yīng)對(duì)市場(chǎng)的快速變化并做出更加全面的決策,實(shí)現(xiàn)更為穩(wěn)健和可持續(xù)的投資回報(bào)。
43、與現(xiàn)有方法相比,本發(fā)明的有益效果為:
44、本發(fā)明通過(guò)深度強(qiáng)化學(xué)習(xí)構(gòu)建多智能體交易框架,以實(shí)現(xiàn)可持續(xù)的投資收益。第一部分是基于股票市場(chǎng)技術(shù)分析對(duì)爬取后的股票交易數(shù)據(jù)進(jìn)行預(yù)處理,并構(gòu)建適用于該交易框架的特征標(biāo)簽。第二部分使用卷積神經(jīng)網(wǎng)絡(luò)(cnn)、門控循環(huán)控制單元(gru)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bilstm)、注意力機(jī)制構(gòu)建多維度特征提取器,用于深入挖掘和分析金融時(shí)間序列,并構(gòu)建適用于該交易框架的狀態(tài)空間。第三部分通過(guò)設(shè)計(jì)逼近與真實(shí)交易環(huán)境,并重新設(shè)計(jì)獎(jiǎng)勵(lì)反饋機(jī)制和動(dòng)態(tài)止損機(jī)制以實(shí)現(xiàn)對(duì)交易信息的及時(shí)反饋和有效的風(fēng)險(xiǎn)管理,從而使該框架能夠高度適應(yīng)于劇烈震蕩的股票市場(chǎng)。此外,構(gòu)建多個(gè)智能體協(xié)同作用于股票交易市場(chǎng),通過(guò)對(duì)所有智能體的決策進(jìn)行分析,形成當(dāng)前形勢(shì)下最有利的決策??梢杂行У慕档蛦吸c(diǎn)失誤的風(fēng)險(xiǎn),并且在市場(chǎng)劇烈波動(dòng)時(shí),能夠靈活的應(yīng)對(duì)市場(chǎng)的快速變化并做出更加全面的決策,實(shí)現(xiàn)更為穩(wěn)健和可持續(xù)的投資回報(bào)。
45、本發(fā)明通過(guò)多維度特征提取器對(duì)股票交易信息進(jìn)行深層次挖掘,分析其中的關(guān)聯(lián)性,有效的解決市場(chǎng)劇烈波動(dòng)帶來(lái)的噪聲影響。同時(shí)通過(guò)設(shè)計(jì)實(shí)時(shí)獎(jiǎng)勵(lì)反饋機(jī)制和動(dòng)態(tài)止損機(jī)制,能夠根據(jù)實(shí)時(shí)反饋的交易信息在市場(chǎng)劇烈波動(dòng)時(shí)動(dòng)態(tài)調(diào)整策略,實(shí)現(xiàn)對(duì)劇烈震蕩的市場(chǎng)高度的適應(yīng)性,同時(shí)也能夠有效的控制交易風(fēng)險(xiǎn)。利用多智能體交易機(jī)制能夠顯著降低了單一智能體決策失誤的風(fēng)險(xiǎn),并極大地提升了交易框架的整體效率和風(fēng)險(xiǎn)管理能力。