找考题网-背景图
单项选择题

A.减少学习过程中的方差B.加速模型的收敛速度C.优化策略的稳定性D.提高策略的探索能力强化学习中近端策略优化……

强化学习中近端策略优化(ProximalPolicyOptimization-PPO)的目的是:()。

A.减少学习过程中的方差
B.加速模型的收敛速度
C.优化策略的稳定性
D.提高策略的探索能力