本發(fā)明提供的基于雙層強化學習的多能園區(qū)調(diào)度方法及系統(tǒng),包括獲取綜合能源系統(tǒng)中的調(diào)度可控對象,即源側(cè)單元、負荷側(cè)單元、能量轉(zhuǎn)化單元與存儲單元;構建雙層優(yōu)化決策模型,包括上層強化學習子模型和下層混合整數(shù)線性規(guī)劃子模型;上層強化學習子模型獲取存儲單元在當前時刻的狀態(tài)變量信息下的動作變量信息,并傳輸至下層混合整數(shù)線性規(guī)劃子模型;下層混合整數(shù)線性規(guī)劃子模型獲取對應的獎勵變量和存儲單元在下一時刻的狀態(tài)變量信息,并反饋至上層強化學習子模型;迭代執(zhí)行上述步驟直至調(diào)度結束。本發(fā)明實施例通過數(shù)據(jù)驅(qū)動的強化學習方法,僅需根據(jù)當前狀態(tài)進行決策,而無需對未來信息的預測,決策時效性高、決策效果優(yōu),能實現(xiàn)實時趨優(yōu)決策。
聲明:
“基于雙層強化學習的多能園區(qū)調(diào)度方法及系統(tǒng)” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)