本申請實(shí)施例適用于人工智能技術(shù)領(lǐng)域,提供了一種決策模型訓(xùn)練方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì),該方法包括:獲取仿真系統(tǒng)處于任一故障下的第一狀態(tài)信息;仿真系統(tǒng)為基于真實(shí)系統(tǒng)的運(yùn)行產(chǎn)線環(huán)境預(yù)先搭建的虛擬系統(tǒng);將第一狀態(tài)信息輸入至初始決策模型中,得到初始決策模型預(yù)測的目標(biāo)恢復(fù)動(dòng)作;獲取仿真系統(tǒng)執(zhí)行目標(biāo)恢復(fù)動(dòng)作后的第二狀態(tài)信息,以及仿真系統(tǒng)的系統(tǒng)健康度;將第一狀態(tài)信息、目標(biāo)恢復(fù)動(dòng)作、第二狀態(tài)信息以及系統(tǒng)健康度作為一組仿真經(jīng)驗(yàn)數(shù)據(jù);根據(jù)仿真經(jīng)驗(yàn)數(shù)據(jù),對初始決策模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,得到目標(biāo)決策模型。采用上述方法訓(xùn)練決策模型可以提高模型的訓(xùn)練效率。
聲明:
“決策模型訓(xùn)練方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)