以下关于强化学习四个基本要素的描述中,错误的是( ) 选项: A:策略是从状态到行为的一种映射,它定义了智能体的行为 B:智能体总是朝着最大化奖励的方向去学习,因此奖励的设计会影响学习效果 C:价值函数是对智能体的序列决策收益的衡量,即环境在智能体每采取一个动作后给予的即时反馈 D:环境模型定义了不同状态之间的转移概率以及智能体在当前状态下采取某个动作所能获得的奖励 智能 最大化 学习效果 发布时间:2024-05-12 17:02:34