本發(fā)明公開了一種基于圖像域的機(jī)械臂高效操控歸置學(xué)習(xí)獎(jiǎng)勵(lì)訓(xùn)練方法,實(shí)現(xiàn)雜亂場(chǎng)景中機(jī)械臂自主歸置物體任務(wù)。該任務(wù)中,由于空間受限、復(fù)雜碰撞等約束的存在,導(dǎo)致終止?fàn)顟B(tài)是不可預(yù)測(cè)的,從而對(duì)獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)帶來了困難。本專利對(duì)強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)是“步驟獎(jiǎng)勵(lì)”和“完成獎(jiǎng)勵(lì)”的組合,通過在圖像域中合并來量化終端狀態(tài)的性能,這將引導(dǎo)終端狀態(tài)收斂到一個(gè)更好的域,而不是特定的值。以鼓勵(lì)快速排列盒子中分散的對(duì)象,同時(shí)最小化對(duì)象之間的間隙,對(duì)不同數(shù)量、不規(guī)則形狀的物體以及間斷情況具有更好的適應(yīng)性。
聲明:
“基于圖像域的機(jī)械臂高效操控歸置學(xué)習(xí)獎(jiǎng)勵(lì)訓(xùn)練方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)