本發(fā)明涉及一種基于條件生成對(duì)抗網(wǎng)絡(luò)的模型化策略搜索學(xué)習(xí)方法,其技術(shù)特點(diǎn)是包括以下步驟:收集環(huán)境的真實(shí)狀態(tài)轉(zhuǎn)移樣本;構(gòu)造條件生成對(duì)抗網(wǎng)絡(luò)模型,該條件生成對(duì)抗網(wǎng)絡(luò)模型包括生成器與判別器;利用真實(shí)狀態(tài)轉(zhuǎn)移樣本訓(xùn)練條件生成對(duì)抗網(wǎng)絡(luò)直至收斂,最終訓(xùn)練得到的生成器為環(huán)境狀態(tài)轉(zhuǎn)移預(yù)測(cè)模型;生成數(shù)量足夠多的路徑樣本;利用路徑樣本更新策略搜索強(qiáng)化學(xué)習(xí)算法中策略模型的參數(shù),直到策略模型的參數(shù)更新收斂為止。本發(fā)明設(shè)計(jì)合理,當(dāng)?shù)玫搅谁h(huán)境模型的生成器后,在學(xué)習(xí)策略時(shí)不再需要額外的花費(fèi)進(jìn)行樣本的采樣,能夠系統(tǒng)有效地解決大規(guī)模環(huán)境中復(fù)雜決策問(wèn)題。
聲明:
“基于條件生成對(duì)抗網(wǎng)絡(luò)的模型化策略搜索學(xué)習(xí)方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)