10.
七 围棋有一点特别奇怪的地方。 围棋是与顺序有关的游戏。 围棋棋子除了颜色以外,完全一样,不像象棋那样分帅车兵马。 另外,围棋的棋子,落下之后就不能移动。 围棋棋子的效率和价值,是由棋子之间的空间关系而决定的。 就像搭宜家家具或者乐高玩具,即使空间位置对了,但如果顺序错了,也不行。
可是,对于一局棋的过去而言,“顺序”并不重要。这就是“奇怪”的地方。 让我略去围棋关于时空的思考过程,来概述一下: 当我们站在围棋对局中的某个决策点上,当下的局面,是所有“已知”构建的一个静态空间结构图,单个棋子当初的使命、顺序,并不能作为决策的依据。 相反,你要像一个刚刚空降到棋盘边的外星人,压根儿不在乎当前局面的发生过程,包括顺序,而是从头开始思考。 看起来,这似乎是一个“马尔可夫决策过程”。 马尔可夫性是一种假设:“未来的一切仅与现在有关,独立于过去的状态”。 马尔可夫模型,这一概念来自对“大数定律”的探讨。 大数定律里的抛硬币游戏,需要每一次抛硬币都是完全独立的。 而数学家帕维尔·涅克拉索夫则认为:现实世界中的事物是相互依存的(比如人的行为),所以现实中的事物并不恰好符合数学模式或分布。 马尔可夫不这么认为。他建立了一个模型,在这个模型中,结果的概率取决于以前发生的事件,但长期来看仍然遵循大数定律。 《天才与算法》里写道: 抛硬币的结果并不取决于以前抛硬币的结果,所以这不是马尔可夫理想的模型。 但是,如果增加一点依赖关系,使下一个事件取决于刚刚发生了什么,而不是整个系统如何影响了当前事件,又会怎么样呢? 每个事件的概率仅取决于先前事件的一系列事件被称为马尔可夫链。 预测天气就是一个例子:明天的天气肯定取决于今天的天气,但并不特别依赖于上周的天气。
马尔可夫链,为状态空间中经过从一个状态到另一个状态的转换的随机过程。 该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。 马尔可夫模型构建的意义,是为了探寻未来的最优策略,以及马尔可夫性与历史总是不相关的,仅与当前状态有关。所以一切模型构建均是围绕未来进行展开的。
(本段来自网络)
围棋的对弈,可以视为马尔可夫决策过程: 起始状态是一个空的棋盘,棋手根据棋面(状态)选择落子点(动作)后,转换到下一个状态(转换概率为:其中一个状态的概率为 1,其他状态的概率为 0),局势的优劣是每个状态的回报。棋手需要根据棋面选择合适落子点,建立优势并最终赢下游戏。
(本段来自刘思乡)
|