本發(fā)明公開了一種多代理強(qiáng)化學(xué)習(xí)合作任務(wù)場(chǎng)景下的代理間交換知識(shí)的方法,包括:每個(gè)代理獨(dú)立觀測(cè)環(huán)境,使用神經(jīng)網(wǎng)絡(luò)將環(huán)境進(jìn)行編碼,提取相關(guān)的特征向量;所述代理將各自的特征向量交由中心站(使用循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn))進(jìn)行整合,所述中心站為各代理生成新的知識(shí)編碼并進(jìn)行分發(fā);所述代理接收到新的知識(shí),整合舊有的環(huán)境特征向量,然后輸入神經(jīng)網(wǎng)絡(luò)策略進(jìn)行決策;上述所有神經(jīng)網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)是端到端進(jìn)行的。該方法能夠?qū)Χ鄠€(gè)代理所觀測(cè)的知識(shí)進(jìn)行整合,幫助多代理系統(tǒng)在合作任務(wù)上學(xué)習(xí)到更好的策略。其中,代理的數(shù)目不受限制。
聲明:
“多代理強(qiáng)化學(xué)習(xí)合作任務(wù)場(chǎng)景下的代理間交換知識(shí)的方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)