提供了采用基于空間和時(shí)間注意力的分層車(chē)道變換策略的深度強(qiáng)化學(xué)習(xí)來(lái)控制自主車(chē)輛的系統(tǒng)和方法。執(zhí)行器?評(píng)價(jià)網(wǎng)絡(luò)架構(gòu)包括:執(zhí)行器網(wǎng)絡(luò),其處理從環(huán)境接收的圖像數(shù)據(jù)以將車(chē)道變換策略作為分層動(dòng)作的集合來(lái)學(xué)習(xí);以及評(píng)價(jià)網(wǎng)絡(luò),其評(píng)估車(chē)道變換策略以計(jì)算損失和梯度來(lái)預(yù)測(cè)動(dòng)作值函數(shù)(Q),其用于驅(qū)動(dòng)學(xué)習(xí)車(chē)道變換策略以及更新其參數(shù)。執(zhí)行器?評(píng)價(jià)網(wǎng)絡(luò)架構(gòu)實(shí)施空間注意力模塊以選擇圖像數(shù)據(jù)中重要的相關(guān)區(qū)域,以及時(shí)間注意力模塊以學(xué)習(xí)要應(yīng)用于過(guò)去的圖像數(shù)據(jù)幀的時(shí)間注意力權(quán)重,從而指示在決定選擇哪個(gè)車(chē)道變換策略時(shí)的相對(duì)重要性。
聲明:
“用于控制自主車(chē)輛的分層車(chē)道變換策略的基于空間和時(shí)間注意力的深度強(qiáng)化學(xué)習(xí)” 該技術(shù)專(zhuān)利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專(zhuān)利(論文)的發(fā)明人(作者)