找考题网-背景图
判断题

强化学习中的策略梯度方法直接对策略进行参数化,并通过梯度上升来优化期望回报。

【参考答案】

正确
热门试题