给定输入交互环境
和初始状态
,一个“交互世界模拟”是一个“模拟分布函数”
。给定观测值之间的距离度量
,一个“策略”,即给定过去动作和观测的代理动作分布
,初始状态分布
和回合长度分布
,交互世界模拟的目标是最小化
,其中
,
,以及
是在执行代理策略
时从环境和模拟中抽取的观测值。重要的是,这些样本的条件动作总是通过代理与环境 Failed to parse (SVG with PNG fallback (MathML can be enabled via browser plugin): Invalid response ("Math extension cannot connect to Restbase.") from server "https://wikimedia.org/api/rest_v1/":): {\displaystyle \mathcal{E}}
交互获得,而条件观测既可以从
获得(“教师强迫目标”),也可以从模拟中获得(“自回归目标”)。