本發(fā)明屬于工程機械及車輛工程領(lǐng)域,具體涉及一種基于深度強化學習的換擋策略動態(tài)優(yōu)化方法。包括如下步驟:(1):確定換擋策略狀態(tài)輸入變量和動作輸出變量;(2):根據(jù)狀態(tài)輸入變量和動作輸出變量,確定換擋策略馬爾科夫決策過程;(3):根據(jù)換擋策略目標建立強化學習換擋策略獎勵函數(shù);(4):根據(jù)馬爾科夫決策過程和獎勵函數(shù),求解深度強化學習換擋策略;(5):將步驟(4)計算出的預測Q網(wǎng)絡放入換擋策略控制器,工程機械及車輛在行駛過程中,工程機械及車輛根據(jù)換擋策略控制器選擇擋位;(6):在行駛過程中定期更新預測Q網(wǎng)絡。本發(fā)明通過深度強化學習方法對換擋策略進行更新,實現(xiàn)換擋策略的動態(tài)優(yōu)化。
聲明:
“基于深度強化學習的換擋策略動態(tài)優(yōu)化方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)