《野猪乐园》显示文章详细内容: [展开] [回复] [网址] [举报] [屏蔽]
渔子酱
渔子酱目前处于离线状态
等    级:资深长老
经 验 值:22550
魅 力 值:0
龙    币:7782
积    分:11354.6
注册日期:2019-06-26
 
  查看渔子酱个人资料   给渔子酱发悄悄话   将渔子酱加入好友   搜索渔子酱所有发表过的文章   给渔子酱发送电子邮件      

10.

围棋有一点特别奇怪的地方。

围棋是与顺序有关的游戏。

  • 围棋棋子除了颜色以外,完全一样,不像象棋那样分帅车兵马。

  • 另外,围棋的棋子,落下之后就不能移动。

  • 围棋棋子的效率和价值,是由棋子之间的空间关系而决定的。

  • 就像搭宜家家具或者乐高玩具,即使空间位置对了,但如果顺序错了,也不行。

可是,对于一局棋的过去而言,“顺序”并不重要。这就是“奇怪”的地方。

让我略去围棋关于时空的思考过程,来概述一下:

当我们站在围棋对局中的某个决策点上,当下的局面,是所有“已知”构建的一个静态空间结构图,单个棋子当初的使命、顺序,并不能作为决策的依据。

相反,你要像一个刚刚空降到棋盘边的外星人,压根儿不在乎当前局面的发生过程,包括顺序,而是从头开始思考。

看起来,这似乎是一个“马尔可夫决策过程”。

马尔可夫性是一种假设:“未来的一切仅与现在有关,独立于过去的状态”。

马尔可夫模型,这一概念来自对“大数定律”的探讨。

大数定律里的抛硬币游戏,需要每一次抛硬币都是完全独立的。

而数学家帕维尔·涅克拉索夫则认为:现实世界中的事物是相互依存的(比如人的行为),所以现实中的事物并不恰好符合数学模式或分布。

马尔可夫不这么认为。他建立了一个模型,在这个模型中,结果的概率取决于以前发生的事件,但长期来看仍然遵循大数定律。

《天才与算法》里写道:

抛硬币的结果并不取决于以前抛硬币的结果,所以这不是马尔可夫理想的模型。

但是,如果增加一点依赖关系,使下一个事件取决于刚刚发生了什么,而不是整个系统如何影响了当前事件,又会怎么样呢?

每个事件的概率仅取决于先前事件的一系列事件被称为马尔可夫链。

预测天气就是一个例子:明天的天气肯定取决于今天的天气,但并不特别依赖于上周的天气。

马尔可夫链,状态空间中经过从一个状态到另一个状态的转换的随机过程

该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。

马尔可夫模型构建的意义,是为了探寻未来的最优策略,以及马尔可夫性与历史总是不相关的,仅与当前状态有关。所以一切模型构建均是围绕未来进行展开的。

(本段来自网络)

围棋的对弈,可以视为马尔可夫决策过程:

起始状态是一个空的棋盘,棋手根据棋面(状态)选择落子点(动作)后,转换到下一个状态(转换概率为:其中一个状态的概率为 1,其他状态的概率为 0),局势的优劣是每个状态的回报。棋手需要根据棋面选择合适落子点,建立优势并最终赢下游戏。

(本段来自刘思乡)


2021-01-05 09:55:53   此文章已经被查看56次   
 相关文章: [回复]  [顶端] 



  您必须登录论坛才可以发表文章:
 
用户名:   密码:   记住密码:    (忘记密码 注册




版权所有 回龙观社区网 经营许可证编号:京B2-20201639 昌公网安备1101140035号

举报电话:010-86468600-5 举报邮箱: