这种算法被被称为单次模仿学习算法(one-shot imitation learning)。 它的特点在于,人可以通过VR向机器人传达指令。只要先由人在VR中演示一遍 ...
其中S1是一个80M参数的交叉注意力(cross-attention)编码器-解码器Transformer,负责低层控制。它依赖于一个全卷积的多尺度视觉主干网络进行视觉处理,该网络完全在模拟环境中预训练初始化。