一種基于強化學習的多時間尺度系統(tǒng)最優(yōu)跟蹤控制方法,涉及一種工業(yè)過程設計控制方法,本發(fā)明應用奇異攝動理論和強化學習技術(shù)在有限時域內(nèi)解決具有耦合子系統(tǒng)的多時間尺度大系統(tǒng)的最優(yōu)跟蹤控制問題;本發(fā)明一個突出貢獻是開發(fā)一種基于數(shù)據(jù)驅(qū)動的強化學習方法,用于多時間尺度未知大系統(tǒng)最優(yōu)跟蹤控制;為此,首先利用奇異攝動理論將多時間尺度跟蹤問題分解為慢子系統(tǒng)的線性二次型跟蹤問題和快子系統(tǒng)的動態(tài)博弈問題;然后,在此基礎上,提出了一種僅利用系統(tǒng)實時測量數(shù)據(jù)分布式非策略積分強化學習算法來尋找分布式復合反饋控制器;因此,運行指標可通過一種近似最優(yōu)的方法來跟蹤其規(guī)定的目標值,實現(xiàn)多時間尺度系統(tǒng)以最優(yōu)的方式達到跟蹤控制效果。
聲明:
“基于強化學習的多時間尺度系統(tǒng)最優(yōu)跟蹤控制方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)