找考题网-背景图
判断题

强化学习中的策略梯度方法是一种直接优化策略参数的算法,不需要估计价值函数。

【参考答案】

正确
热门试题