DeepMind 近期探索了自我提升的乒乓球智能体,试图让智能体通过与自己比赛来学习。

研究人员尝试让两个机械臂互相打乒乓球,当一个机器人发现更好的策略时,它的对手就会被迫适应并改进,从而形成一个技能水平不断提升的循环。
研究者认为,乒乓球囊括了机器人技术在受限却高度动态的环境中面临的诸多最艰巨的挑战。
乒乓球要求机器人掌握一系列高难度技能:除了感知能力之外,它还需要极其精准的控制能力,以正确的角度和速度拦截球,并需要战略性决策来战胜对手。
这些要素使其成为开发和评估稳健学习算法的理想领域,这些算法能够处理实时交互、复杂物理、高级推理以及自适应策略的需求——这些能力可以直接迁移到制造业等应用领域,甚至可能应用于非结构化的家庭环境。