日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

帶有引流機(jī)制的電動汽車充電站MARL動態(tài)定價方法

文檔序號:39724550發(fā)布日期:2024-10-22 13:21閱讀:2來源:國知局
帶有引流機(jī)制的電動汽車充電站MARL動態(tài)定價方法

本發(fā)明涉及一種多智能體強(qiáng)化學(xué)習(xí)方法,屬于電動汽車充電站動態(tài)定價,具體涉及一種帶有引流機(jī)制的電動汽車充電站marl動態(tài)定價方法。


背景技術(shù):

1、當(dāng)今社會對能源和環(huán)境問題的重視程度不斷提升。傳統(tǒng)汽車通常使用內(nèi)燃機(jī)驅(qū)動,主要依賴燃油作為能源,會產(chǎn)生大量的二氧化碳加速溫室效應(yīng)并最終導(dǎo)致能源資源的枯竭。因此,電動汽車作為現(xiàn)有主要的清潔能源解決方案備受矚目。其清潔環(huán)保、高效節(jié)能以及低噪聲高舒適度等優(yōu)勢受到各國政府的支持和推廣。然而,電動汽車充電方式對電網(wǎng)負(fù)荷、變壓器壽命以及網(wǎng)損等方面帶來的影響也不容忽視。有序充電能夠使電動汽車參與電網(wǎng)輔助服務(wù),優(yōu)化電網(wǎng)運(yùn)行,但無序充電可能增大負(fù)荷峰谷差,影響電網(wǎng)穩(wěn)定性。因此,制定合理有效的充電定價策略對引導(dǎo)電動汽車用戶改變充電習(xí)慣、減小對電網(wǎng)負(fù)面影響具有重要的理論意義和實踐價值。當(dāng)探討電動汽車充電策略時,必須認(rèn)識到動態(tài)定價的重要性。動態(tài)定價策略旨在根據(jù)電力市場需求、供應(yīng)情況以及其他因素,允許電動汽車根據(jù)可變價格進(jìn)行充電,并通過提供能源回饋獎勵、智能充電調(diào)度和需求響應(yīng)定價等方式,鼓勵用戶在合適時段充電,參與電力資源管理,促進(jìn)電力資源的有效利用,并有助于平衡電網(wǎng)負(fù)荷,減少能源浪費(fèi)。

2、針對充電網(wǎng)絡(luò)的動態(tài)定價策略的制定目前面臨以下三個挑戰(zhàn)。

3、(1)市場和用戶行為的不確定性。市場的在電力需求和能源供給方面的不確定性導(dǎo)致了充電站經(jīng)營方難以準(zhǔn)確地估計合理的電力價格。此外,用戶充電行為的不確定性也會增加充電站經(jīng)營方對電力價格制定的難度。當(dāng)定價過高時,用戶會偏向于去往其他定價更低的充電站,而定價過低時,過量的用戶會導(dǎo)致充電資源的不足。解決這個問題的一種方法是采用動態(tài)定價和靈活的資源分配策略,以適應(yīng)實時需求的變化。然而,傳統(tǒng)靜態(tài)的模型難以捕捉用戶的隨機(jī)加入和離開的行為模式。強(qiáng)化學(xué)習(xí)可以通過不斷的學(xué)習(xí)用戶的行為模式改進(jìn)動態(tài)定價和靈活的資源分配策略。

4、(2)用戶偏好。假設(shè)用戶只是價格的被動接受者是不現(xiàn)實的,用戶受到其偏好的影響,對于不同定價方案的反饋和行為是不同的。因此需要考慮用戶對價格變化的反應(yīng),靈活調(diào)整定價策略,以更好地匹配市場需求,并在用戶偏好和充電站的收益之間尋找平衡點。

5、(3)充電站之間的非平穩(wěn)性和協(xié)調(diào)問題。充電網(wǎng)絡(luò)中通常包含多個充電站,由于各個站點的定價策略相互影響,整個系統(tǒng)可能表現(xiàn)出非平穩(wěn)性,這使得協(xié)調(diào)聯(lián)合策略變得困難。因此,應(yīng)考慮通過協(xié)調(diào)決策制定整個充電網(wǎng)絡(luò)的定價策略,使充電站通過合作實現(xiàn)團(tuán)隊收益最大化。


技術(shù)實現(xiàn)思路

1、技術(shù)問題:

2、為解決上述問題,本發(fā)明公開了一種帶有引流機(jī)制的電動汽車充電站marl動態(tài)定價方法,針對充電網(wǎng)絡(luò)中基于電動汽車的動態(tài)定價問題(csdp),本發(fā)明采用集中式訓(xùn)練框架來實現(xiàn)多智能體之間的協(xié)同決策。具體的,將每個充電站設(shè)置為充電環(huán)境中的一個智能體,通過協(xié)同訓(xùn)練,智能體學(xué)習(xí)如何在合作的情況下取得最優(yōu)的共同策略,最大化團(tuán)隊收入。此外,該模型還考慮了用戶偏好對價格制定的影響,用戶會根據(jù)自己的偏好做出充電決策。對于沒有得到服務(wù)的用戶,本發(fā)明設(shè)計了基于lstm車流量預(yù)測的引流機(jī)制,將他們引流至擁堵程度較低的充電站。

3、技術(shù)方案:

4、一種帶有引流機(jī)制的電動汽車充電站marl動態(tài)定價方法,包括以下步驟:

5、s1:建模電動汽車智能充電網(wǎng)絡(luò)系統(tǒng)模型。它通常由電力公司、網(wǎng)絡(luò)控制中心、充電站和電動汽車用戶組成。電力公司作為整個充電網(wǎng)絡(luò)的供電方,負(fù)責(zé)提供電力。網(wǎng)絡(luò)控制中心是負(fù)責(zé)協(xié)調(diào)和管理整個充電網(wǎng)絡(luò)的中心樞紐,負(fù)責(zé)監(jiān)控電力需求和資源分配。通過安裝雙向通信設(shè)備,與充電站進(jìn)行實時通信,了解充電需求,實現(xiàn)對全網(wǎng)的全面觀察。此外,它還為電動汽車用戶提供實時信息和指導(dǎo)。網(wǎng)絡(luò)控制中心不僅監(jiān)控各個充電站的狀態(tài),還可以從各個站點獲取實時信息,為系統(tǒng)決策提供大量數(shù)據(jù)支持。這種集中式管理和監(jiān)控有助于優(yōu)化充電網(wǎng)絡(luò)的整體效率和性能。充電站在制定價格時能夠考慮到全局信息和系統(tǒng)整體需求,從而更好地適應(yīng)市場變化和用戶行為。充電站作為電動汽車充電的場所,負(fù)責(zé)提供充電服務(wù)和實施動態(tài)定價。它們與網(wǎng)絡(luò)控制中心協(xié)調(diào),接收電力分配計劃。它們還與電動汽車用戶進(jìn)行通信,接收充電請求并提供充電服務(wù)。電動汽車用戶作為充電網(wǎng)絡(luò)的終端用戶,使用充電服務(wù)。本發(fā)明基于現(xiàn)實場景對三種類型的電動汽車用戶進(jìn)行了建模:緊急用戶、普通用戶和住宅用戶。他們有不同的能源需求和用戶偏好。

6、s2:建立電動汽車用戶模型。本發(fā)明根據(jù)現(xiàn)實世界的電動汽車類型建模了三種用戶類型,包括應(yīng)急型、普通型和住宅型。他們具有不同的初始能量狀態(tài)電池容量ei、充電時長ri以及充電功率pi,這些構(gòu)成了用戶的私人信息。用戶i的能量狀態(tài)是電池容量ei與充電狀態(tài)soci的乘積,soei=ei·soci。在開始充電之前,用戶i有一個最小能量需求通過取所有用戶行動集的笛卡爾積y=(y1,y2,…,ym)得到了整個系統(tǒng)可能的行動組合,其中m代表一組電動汽車用戶,ym表示整個系統(tǒng)中第m個用戶可能采取的行動。

7、為實現(xiàn)系統(tǒng)優(yōu)化和用戶滿意度,在電動汽車充電站的動態(tài)定價過程中考慮了電動汽車用戶方的偏好。在本發(fā)明中,用戶偏好由用戶能量需求、充電成本和充電站的擁堵程度組成。用戶i對需求的估值用函數(shù)vi(d,θ)表示:其中d表示需求,θ表示用戶類型。在充電網(wǎng)絡(luò)中,估值函數(shù)意味著當(dāng)電池電量較低時,用戶更愿意支付更多的費(fèi)用。在現(xiàn)實世界中,用戶的估值函數(shù)很難準(zhǔn)確建模,在本發(fā)明中,基于實際問題的實際可行性,采用了一個遵循對數(shù)函數(shù)的能量需求估值函數(shù):

8、

9、其中,θi,t表示用戶i的類型,ei表示用戶i的電動汽車電車容量,αi表示隨機(jī)因子,soci,t表示用戶i的充電狀態(tài);

10、為了模擬用戶需求配置的多樣性,在估值函數(shù)中引入隨機(jī)因子αi。通過從連續(xù)均勻分布中隨機(jī)抽取αi,使得用戶之間的需求配置呈現(xiàn)差異性,使模型更符合現(xiàn)實世界中用戶的多樣性。它是隨機(jī)抽取的從連續(xù)均勻分布[0,0.2]中得到,該分布是參考現(xiàn)實世界0.13美元/千瓦時的商業(yè)充電價格設(shè)置的。用戶的充電成本包括電費(fèi)和停車費(fèi),可以表示為

11、

12、其中,表示t時刻充電站n的電價,表示停車費(fèi)。

13、在現(xiàn)實世界中,大多數(shù)用戶通常更喜歡在不那么擁擠的充電站給電動汽車充電。因此,將充電站的擁堵狀態(tài)納入到用戶偏好的計算中。綜上所述,用戶i的偏好可定義為

14、

15、其中,α是用于調(diào)整用戶對充電站擁堵接受程度的超參數(shù),表示充電站n在時刻t的預(yù)測擁堵等級。

16、電動汽車用戶的最佳響應(yīng)是指在考慮用戶類型、充電站價格和擁堵程度等因素的情況下,調(diào)整充電需求以最大化用戶偏好的行為。將用戶偏好最大化的最優(yōu)用戶需求定義為,當(dāng)前充電需求所獲得的效用應(yīng)大于或等于其他潛在充電需求所能達(dá)到的最大效用用公式可以表示為:

17、

18、s3:建立電動汽車充電站模型。在智能充電網(wǎng)絡(luò)中,從任何一個充電站的角度來看,環(huán)境都呈現(xiàn)為非平穩(wěn)狀態(tài),充電站需要通過靈活的價格探索用戶的偏好信息,并適應(yīng)其他充電站的行為,以最大化集體收入,建立一個長期穩(wěn)健的充電網(wǎng)絡(luò)。

19、充電站首先設(shè)定單位功率的能源價格表示充電站n在當(dāng)前時刻t提供充電服務(wù)的成本,其中和分別表示高峰時段和非高峰時段的電價。隨后,充電站將此價格公布給電動汽車用戶,讓用戶了解當(dāng)前時間段內(nèi)的充電成本。

20、隨后,電動汽車用戶i根據(jù)設(shè)定的能源價格進(jìn)行響應(yīng),決定是否充電,充電站根據(jù)用戶的響應(yīng),啟動電動汽車的充電過程,并根據(jù)用戶類型提供相應(yīng)的充電功率,最后觀察其在t結(jié)束時的收益。因此,充電站n的每小時獲得的收益可用以下公式計算:

21、

22、其中,表示充電站n在時刻t的總電力需求,表示在時刻t到達(dá)充電站n的一組用戶。表示電力能源產(chǎn)生的收益,表示用戶停車產(chǎn)生的收益,表示停車費(fèi)。另外考慮了電網(wǎng)中的過載成本,具體來說,當(dāng)某一時刻的總需求超過電網(wǎng)的供電能力gt,充電網(wǎng)絡(luò)必須支付單價為τe的過載成本,設(shè)定充電網(wǎng)絡(luò)中的各個充電站平均承擔(dān)該成本。

23、這些步驟構(gòu)成了充電站每小時的運(yùn)行過程,其中定價、用戶響應(yīng)、充電運(yùn)行和結(jié)果觀察是相互關(guān)聯(lián)的環(huán)節(jié),而計算收益則是對整個過程的總結(jié)。這一過程的有效執(zhí)行有助于充電站收益最大化,并提供高效的電動汽車充電服務(wù)。

24、s4:電動汽車用戶與充電站之間的交互。在充電站與用戶的交互中,用戶通過智能手機(jī)等智能設(shè)備與充電站進(jìn)行實時通信,實現(xiàn)雙向信息交換。利用將充電站和用戶的充電需求、偏好等各種特征映射到充電價格和需求之間的關(guān)系,其中,θi表示用戶i的類型,表示用戶i的需求,以確保定價策略在吸引用戶的同時保證充電站的收益,從而使整體社會福利最大化。隨后,充電站根據(jù)用戶需求提供能量,并在當(dāng)前時刻結(jié)束時觀察相應(yīng)的收益。最后,充電站將其當(dāng)前狀態(tài)傳輸給網(wǎng)絡(luò)控制器,以規(guī)劃下一個時刻的新的充電價格。整個過程依次進(jìn)行,充電站首先確定充電價格,用戶隨后根據(jù)這些價格做出充電決策。

25、s5:充電站與充電站之間的合作。充電站之間進(jìn)行協(xié)作學(xué)習(xí),致力于制定聯(lián)合定價策略,使團(tuán)隊整體收益最大化。在充電網(wǎng)絡(luò)中,這些站點之間的協(xié)作被視為部分可觀察的馬爾可夫決策過程,它由一組元素組成,其中代表智能體,代表狀態(tài)空間,代表觀測空間,代表動作空間,代表狀態(tài)轉(zhuǎn)移概率,代表獎勵,γ代表折扣因子。

26、s6:建立基于lstm充電站擁堵等級預(yù)測的用戶引流機(jī)制。每個充電站的lstm模型利用過去時刻服務(wù)的用戶數(shù)量作為輸入來預(yù)測當(dāng)前時刻對應(yīng)充電站的服務(wù)用戶數(shù)量,作為充電站的擁堵等級。引入擁堵系數(shù)來調(diào)整用戶偏好函數(shù)中的用戶對充電站擁堵情況的接受程度。用戶在充電決策的過程中,會考慮充電站的擁堵程度,當(dāng)預(yù)測的當(dāng)前充電站的擁堵程度過高時,用戶通常會選擇離開車站。然后,本發(fā)明提出的用戶引流機(jī)制將t時刻未服務(wù)的用戶引流至t+1時刻預(yù)測的擁堵等級最低的充電站。本質(zhì)上,在t+1時刻,每個充電站的到達(dá)用戶數(shù)量由兩部分組成:(1)從真實的電動汽車充電市場數(shù)據(jù)中采樣的到達(dá)用戶數(shù)量;(2)t時刻從其他充電站分流的用戶數(shù)量。

27、s7:策略學(xué)習(xí)。本發(fā)明研究的充電網(wǎng)絡(luò)包含多個充電站,其目標(biāo)是通過協(xié)調(diào)每個充電站的定價策略來實現(xiàn)整體收益最大化。因此,在充電網(wǎng)絡(luò)環(huán)境下,所有的智能體都表現(xiàn)出合作關(guān)系。為了協(xié)調(diào)智能體之間最優(yōu)行動策略的學(xué)習(xí),采用了分散執(zhí)行和集中訓(xùn)練的框架,該框架由四個網(wǎng)絡(luò)組成:負(fù)責(zé)生成智能體行動策略的行動者網(wǎng)絡(luò),評估策略有效性的批評網(wǎng)絡(luò),以及用于穩(wěn)定學(xué)習(xí)過程的目標(biāo)行動者和目標(biāo)批評網(wǎng)絡(luò)。在訓(xùn)練階段,集中收集所有智能體的經(jīng)驗數(shù)據(jù),并利用這些數(shù)據(jù)來訓(xùn)練一個共享的全局策略網(wǎng)絡(luò)。然而,在執(zhí)行階段,每個智能體根據(jù)自己的觀察和環(huán)境信息獨(dú)立執(zhí)行自己的策略,而不需要知道其他智能體的具體動作策略。行動者網(wǎng)絡(luò)的更新方式為:

28、

29、其中,為策略梯度,μn為智能體n的策略,ot表示聯(lián)合觀察,智能體n在動作an下更新其策略μn以最大化評論家qn(o,a),由函數(shù)參數(shù)化;

30、批評網(wǎng)絡(luò)的更新目標(biāo)是使時序差分(td)目標(biāo)與評論網(wǎng)絡(luò)預(yù)測之間的均方誤差最小,該均方誤差可以表示為:

31、

32、其中,表示智能體n的目標(biāo)值,通常由bellman方程計算:

33、

34、其中,為智能體i在時刻t+1獲得的獎勵,γ為折扣系數(shù),q′n(ot+1,μθ(ot+1))表示用參數(shù)化的智能體n的目標(biāo)批評網(wǎng)絡(luò)的輸出,μθ(ot+1)是用參數(shù)化的智能體n的目標(biāo)行動者網(wǎng)絡(luò)的輸出。

35、為了充分探索環(huán)境,在agent的動作中加入了衰減的高斯噪聲,均值為零,方差從1到0衰減:

36、an,t=μn(on,t-1)+∈n,t

37、其中,是衰減的噪聲。

38、有益效果:

39、本發(fā)明對站與站的交互過程和用戶與站的交互過程進(jìn)行了全面的建模。利用用戶偏好函數(shù),確保在用戶的充電決策過程中考慮多個重要的用戶偏好因素。此外,本方案還設(shè)計了用戶引流機(jī)制,保證了充電站之間的資源利用。最后,利用多智能體強(qiáng)化學(xué)習(xí)框架對各充電站的定價策略進(jìn)行了優(yōu)化?;谡鎸嵉碾妱悠嚦潆娛袌鰯?shù)據(jù),進(jìn)行了仿真實驗,驗證了所提方案的有效性。實驗結(jié)果表明,與分時電價方案和無引流機(jī)制的動態(tài)定價方案相比,團(tuán)隊日均收益分別提高了23.56%和8.78%。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1