按照各種實(shí)施方式,描述了一種用于訓(xùn)練受控系統(tǒng)的控制裝置的方法,其中該控制裝置具有調(diào)節(jié)裝置和按照控制策略來(lái)工作的執(zhí)行器。該方法具有:通過(guò)該調(diào)節(jié)裝置來(lái)產(chǎn)生控制行動(dòng),其中每個(gè)控制行動(dòng)都通過(guò)如下方式來(lái)被產(chǎn)生:檢測(cè)說(shuō)明受控系統(tǒng)的狀態(tài)的測(cè)量參量,按照該控制策略來(lái)確定執(zhí)行器的針對(duì)所檢測(cè)到的測(cè)量參量的修正項(xiàng),使用針對(duì)所檢測(cè)到的測(cè)量參量的修正項(xiàng)來(lái)使所檢測(cè)到的測(cè)量參量適配,并且通過(guò)將經(jīng)適配的測(cè)量參量作為實(shí)際值輸送給該調(diào)節(jié)裝置來(lái)產(chǎn)生該控制行動(dòng)。該方法還具有:通過(guò)強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練該控制策略,以使通過(guò)所產(chǎn)生的控制行動(dòng)來(lái)實(shí)現(xiàn)的收益最大化。
聲明:
“用于訓(xùn)練受控系統(tǒng)的控制裝置的方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)