请在 下方输入 要搜索的题目:

强化学习核心概念中,描述错误得是( )
选项:

A:状态是对环境的描述
B:动作对智能体行为的描述,必须是连续得
C:即时奖励是一个标量函数,即智能体根据当前状态 ????做出动作之后,环境会反馈给智能体一个奖励
D:策略是智能体根据环境状态????来决定下一步动作????的函数

发布时间:2024-05-06 10:41:02
推荐参考答案 ( 由 搜题小帮手 官方老师解答 )
联系客服
答案:

以下文字与答案无关

提示:有些试题内容 显示不完整,文字错误 或者 答案显示错误等问题,这是由于我们在扫描录入过程中 机器识别错误导致,人工逐条矫正总有遗漏,所以恳请 广大网友理解。

相关试题
登录 - 搜题小帮手
点我刷新
立即注册
注册 - 搜题小帮手
点我刷新
立即登录