强化学习核心概念中,描述错误得是( ) 选项: A:状态是对环境的描述 B:动作对智能体行为的描述,必须是连续得 C:即时奖励是一个标量函数,即智能体根据当前状态 ????做出动作之后,环境会反馈给智能体一个奖励 D:策略是智能体根据环境状态????来决定下一步动作????的函数 学习 智能 下一步 发布时间:2024-05-06 10:41:02