自从人工智能诞生以来,研究人员一直试图通过让机器与人类玩游戏来测试机器系统的智能。人们通常认为,人类智慧的标志之一是能够创造性地思考,考虑各种可能性并在制定短期决策时牢记长期目标。如果计算机可以像人类一样玩困难的游戏,那么它们肯定可以处理更复杂的任务。从1950年代开发的具有早期跳棋功能的机器人到如今具有深层学习能力的机器人,在象棋,围棋和DOTA等游戏中甚至可以击败世界上最好的玩家,可以找到谜题解决方案的机器的想法早已古老。 AI本身,如果还不算老的话。
因此,组织开发的AI的核心模式之一就是目标驱动的系统模式,这是有道理的。像其他AI模式一样,我们看到这种形式的人工智能用于解决一系列常见问题,这些问题原本需要人类的认知能力。在这种特定模式下,机器要解决的挑战是找到问题的最佳解决方案的需求。问题可能是找到穿过迷宫的路径,优化供应链或优化驾驶路线和空闲时间。无论有什么特殊需求,我们在这里寻找的力量都是通过反复试验来学习,并确定解决问题的最佳方法的想法,即使这不是最显而易见的。
通过反复试验加强学习
增强学习是最有趣但使用最少的机器学习形式之一。 与监督学习的方法(其中机器通过人为训练,具有良好标签的数据进行培训来学习)或无监督的学习方法(其中机器尝试通过发现信息集群和其他分组来学习)不同,强化学习尝试通过尝试性学习来学习。错误,使用环境反馈和总体目标来迭代成功。