11._回龙观社区网

《野猪乐园》显示文章详细内容：

渔子酱

渔子酱目前处于离线状态

等级：资深长老

经验值：22550

魅力值：0

龙币：7782

积分：11354.6

注册日期：2019-06-26

给渔子酱发悄悄话

将渔子酱加入好友

搜索渔子酱所有发表过的文章

给渔子酱发送电子邮件

11.

AlphaGo 是一个基于深度神经网络的围棋AI，其秘密在于通过深度学习和强化学习来“自学”。

深度强化学习可以概括为构建一种算法(或AI智能体)，直接从与环境的交互中学习。

这其中，就有马尔可夫奖励过程，也就是：含有奖励的马尔可夫链，

Artem Oppermann如此介绍：

环境可以是真实世界，电脑游戏，模拟，甚至棋盘游戏，比如围棋或象棋。就像人类一样，人工智能代理人从其行为的结果中学习，而不是从明确的教导中学习。
在深度强化学习中，智能体是由神经网络表示的。神经网络直接与环境相互作用。它观察环境的当前状态，并根据当前状态和过去的经验决定采取何种行动（例如向左、向右移动等）。根据采取的行动，AI智能体收到一个奖励（Reward）。奖励的数量决定了在解决给定问题时采取的行动的质量(例如学习如何走路)。智能体的目标是学习在任何特定的情况下采取行动，使累积的奖励随时间最大化。

如下图：

让我们跳出这些我也不太懂的地方，回到现实中，看看人类可以从阿尔法狗那里学到什么决策方法。

我总结如下：

阿尔法狗每下的一盘棋，都是一次自我进化的学习过程，工作即学习，学习即工作；
阿尔法狗的唯一目标是终局胜负，因此而有强烈的使命感，钢铁般的意志，和石佛般的平常心（尽管它不需要这些形容词）；
把每一手棋，都当作一个独立决策点，将当前的整个局面视为一个初始状态，根据当前局面，发现（模仿人的直觉）获胜概率较高的几手棋，并估算每一手棋的终局胜率；
从中选择最优决策；
等对方落子后，再次进入“初始状态”，根据更新的信息，重复以上动作，直至终局。

2021-01-05 09:56:22

此文章已经被查看40次

相关文章：

[回复] [顶端]

转帖连载：《原因的原因不是原因，结果的结果不是结果》--（预警：死长，还不容易懂。我就没看懂）(空)-渔子酱 (阅读:132次跟贴:35 2021/01/05 09:44)[跳过]

1.-渔子酱 (21485字节阅读:112次 2021/01/05 09:47)
2.-渔子酱 (47829字节阅读:92次 2021/01/05 09:48)
3.-渔子酱 (29034字节阅读:75次 2021/01/05 09:49)
4.-渔子酱 (35629字节阅读:181次 2021/01/05 09:50)
5.-渔子酱 (17462字节阅读:73次 2021/01/05 09:51)

补图：-渔子酱 (137字节阅读:134次 2021/01/05 10:03)

你这字写的真好，请问是用左手写的么(空)-薄雾 (阅读:62次 2021/01/05 10:47)

我哪有那水平呀(空)-渔子酱 (阅读:36次 2021/01/05 11:14)

6.-渔子酱 (31001字节阅读:161次 2021/01/05 09:51)
7.-渔子酱 (20833字节阅读:73次 2021/01/05 09:53)
8.-渔子酱 (48085字节阅读:52次 2021/01/05 09:54)
9.-渔子酱 (31760字节阅读:49次 2021/01/05 09:54)
10.-渔子酱 (25539字节阅读:61次 2021/01/05 09:55)
11.-渔子酱 (13237字节阅读:40次 2021/01/05 09:56)

补图：-渔子酱 (138字节阅读:42次 2021/01/05 10:00)

12.-渔子酱 (20560字节阅读:80次 2021/01/05 09:56)
最后，-渔子酱 (18148字节阅读:72次 2021/01/05 09:57)
不学好啊这是。(空)-C939 (阅读:44次 2021/01/05 09:57)

哈哈(空)-渔子酱 (阅读:40次 2021/01/05 10:09)

学好不容易，学坏一出溜。(空)-C939 (阅读:37次 2021/01/05 10:36)

现在世界上的变量太多，影响的因素太多，即便算来算去，也算不明白，就造成结果很难按照当事人预想的方向前进，这就是所谓的人算不如天算。-独钓寒江雪 (636字节阅读:59次 2021/01/05 10:38)

谋事在人成事在天(空)-独钓寒江雪 (阅读:38次 2021/01/05 10:41)

不努力永远不成，努力了也不一定成，好在现代社会，就算达不成心中的目标，混个温饱还是很容易的，大概就是这么个意思吧(空)-独钓寒江雪 (阅读:36次 2021/01/05 10:42)

想太多没啥卵用。(空)-鱼得水 (阅读:42次 2021/01/05 11:38)
简单的事情可能比较容易做判断，复杂的事情可能就不太容易做判断(空)-feihu (阅读:42次 2021/01/05 11:58)

可以把简单的事情复杂化啊。(空)-C939 (阅读:50次 2021/01/05 11:59)

简化的角度就决定了判断的性质或者结果(空)-feihu (阅读:41次 2021/01/05 12:02)

针对同一个问题，甲可能倾向于把A因素去掉、乙可能倾向于把B因素去掉、丙可能倾向于把C因素去掉......(空)-feihu (阅读:46次 2021/01/05 12:07)

那么针对这同一个问题，甲、乙、丙就可能得出不同的结论(空)-feihu (阅读:45次 2021/01/05 12:08)

变量（因素）的个数超过大脑思维能力的时候，可能就很难做出正确判断(空)-feihu (阅读:36次 2021/01/05 12:01)

就是俗话说的“被绕晕了”(空)-feihu (阅读:48次 2021/01/05 12:02)

社科的研究对象其实是人或者人脑，而人脑思维的变量远超物理世界，所以理工科可能更容易产生同一性(空)-feihu (阅读:45次 2021/01/05 12:12)

每个人的成长过程没准可以被视为一个“缺省值集合”的形成过程(空)-feihu (阅读:41次 2021/01/05 12:23)

这个“缺省值集合”大约类似于“以己之心度人之腹”里面的“己之心”(空)-feihu (阅读:38次 2021/01/05 12:27)

每个人在观察思考的时候，都会下意识地应用这个“缺省值集合”，也就是“以己之心度现实世界”(空)-feihu (阅读:46次 2021/01/05 12:27)

您必须登录论坛才可以发表文章：

用户名：

密码：

记住密码：

（忘记密码注册）

版权所有回龙观社区网经营许可证编号：京B2-20201639 昌公网安备1101140035号

举报电话：010-86468600-5 举报邮箱：