11.
AlphaGo 是一个基于深度神经网络的围棋AI,其秘密在于通过深度学习和强化学习来“自学”。 深度强化学习可以概括为构建一种算法(或AI智能体),直接从与环境的交互中学习。 这其中,就有马尔可夫奖励过程,也就是:含有奖励的马尔可夫链, Artem Oppermann如此介绍: 环境可以是真实世界,电脑游戏,模拟,甚至棋盘游戏,比如围棋或象棋。就像人类一样,人工智能代理人从其行为的结果中学习,而不是从明确的教导中学习。 在深度强化学习中,智能体是由神经网络表示的。神经网络直接与环境相互作用。它观察环境的当前状态,并根据当前状态和过去的经验决定采取何种行动(例如向左、向右移动等)。根据采取的行动,AI智能体收到一个奖励(Reward)。奖励的数量决定了在解决给定问题时采取的行动的质量(例如学习如何走路)。智能体的目标是学习在任何特定的情况下采取行动,使累积的奖励随时间最大化。
如下图: 让我们跳出这些我也不太懂的地方,回到现实中,看看人类可以从阿尔法狗那里学到什么决策方法。 我总结如下: 阿尔法狗每下的一盘棋,都是一次自我进化的学习过程,工作即学习,学习即工作; 阿尔法狗的唯一目标是终局胜负,因此而有强烈的使命感,钢铁般的意志,和石佛般的平常心(尽管它不需要这些形容词); 把每一手棋,都当作一个独立决策点,将当前的整个局面视为一个初始状态,根据当前局面,发现(模仿人的直觉)获胜概率较高的几手棋,并估算每一手棋的终局胜率; 从中选择最优决策; 等对方落子后,再次进入“初始状态”,根据更新的信息,重复以上动作,直至终局。
|