《野猪乐园》显示文章详细内容: [展开] [回复] [网址] [举报] [屏蔽]
渔子酱
渔子酱目前处于离线状态
等    级:资深长老
经 验 值:22550
魅 力 值:0
龙    币:7782
积    分:11354.6
注册日期:2019-06-26
 
  查看渔子酱个人资料   给渔子酱发悄悄话   将渔子酱加入好友   搜索渔子酱所有发表过的文章   给渔子酱发送电子邮件      

11.

AlphaGo 是一个基于深度神经网络的围棋AI,其秘密在于通过深度学习和强化学习来“自学”。

深度强化学习可以概括为构建一种算法(或AI智能体),直接从与环境的交互中学习。

这其中,就有马尔可夫奖励过程,也就是:含有奖励的马尔可夫链,

Artem Oppermann如此介绍:

环境可以是真实世界,电脑游戏,模拟,甚至棋盘游戏,比如围棋或象棋。就像人类一样,人工智能代理人从其行为的结果中学习,而不是从明确的教导中学习。

在深度强化学习中,智能体是由神经网络表示的。神经网络直接与环境相互作用。它观察环境的当前状态,并根据当前状态和过去的经验决定采取何种行动(例如向左、向右移动等)。根据采取的行动,AI智能体收到一个奖励(Reward)。奖励的数量决定了在解决给定问题时采取的行动的质量(例如学习如何走路)。智能体的目标是学习在任何特定的情况下采取行动,使累积的奖励随时间最大化。

如下图:

图片

让我们跳出这些我也不太懂的地方,回到现实中,看看人类可以从阿尔法狗那里学到什么决策方法。

我总结如下:

  • 阿尔法狗每下的一盘棋,都是一次自我进化的学习过程,工作即学习,学习即工作;

  • 阿尔法狗的唯一目标是终局胜负,因此而有强烈的使命感,钢铁般的意志,和石佛般的平常心(尽管它不需要这些形容词);

  • 把每一手棋,都当作一个独立决策点,将当前的整个局面视为一个初始状态,根据当前局面,发现(模仿人的直觉)获胜概率较高的几手棋,并估算每一手棋的终局胜率;

  • 从中选择最优决策;

  • 等对方落子后,再次进入“初始状态”,根据更新的信息,重复以上动作,直至终局。



2021-01-05 09:56:22   此文章已经被查看38次   
 相关文章: [回复]  [顶端] 



  您必须登录论坛才可以发表文章:
 
用户名:   密码:   记住密码:    (忘记密码 注册




版权所有 回龙观社区网 经营许可证编号:京B2-20201639 昌公网安备1101140035号

举报电话:010-86468600-5 举报邮箱: