现在有哪些理论?

在第6章我们探讨了人工神经网络(ANN)。ANN可以用计算机编程实现,并表现出惊人的学习能力。ANN受神经生物学启发,研究过大脑的人都会同意大脑功能是基于神经元组成的网络。ANN的学习是通过调整权重,权重决定了输入对节点的相对影响力(见图6.1)。在大脑中,权重由突触的强度和性质决定。在计算机模型中有许多方法可用于权重的调整,这些方法都需要训练。其中一个方法是对权重进行细微的随机变化,如果变化能改善性能,就保留作为下一轮调整和选择的基础。采用这种策略时,学习(能改进性能的权重调整)是源自累积的选择——进化过程。训练样本越大,结果越好。另一个方法是反向传播,是确定性的。这个方法需要有期望的ANN输出,并且每个节点的输出能表示成数值形式。如果满足条件,就有可能写出方程计算各权重值的变化,使得对于特定的数据集,给出的输出与期望输出之间的差别最小化。训练是针对不同的数据集反复应用反向传播。得到的权重是各训练集的优化值的折中,代表了对训练的数据集的归纳。两种方法学习的权重集通常都能很好地处理ANN之前从未遇到过的输入。

一些学者分析了大脑采用反向传播产生正确的连接模式的可能性。所有研究都表明可能性极低。神经元的确有可调的阈值和可调的突触强度,突触强度的增加和削弱很有可能是学习的重要方面。但很难想象神经回路的输出能表示成数值形式;同样也很难想象怎样的生理结构能执行所需的数值计算并调整数百万突触的强度以实现结果。可能还需要另一个脑来专门负责调整参数。大脑中并没有这样的并行结构。

近年来一个名为“贝叶斯脑”的新理论越来越受关注贝叶斯大脑的思想综合了20年来的几条思路。近年来贡献最多的是伦敦大学学院的Karl Friston。我不知道有没有好的大众读物,如果想进一步了解的话可以参考3篇综述文章:“The Bayesian Brain:The Role of Uncertainty in Neural Coding and Computation.”David C.Knill&Alexandre Pouget, TRENDS in Neuroscience 27:712—719(2004);“The Free Energy Principle.”Karl Friston, Nature Reviews Neuroscience 2:127—138(2010);以及“Hierarchical Bayesian Inference in the Visual Cortex.”Tai Sing Lee&David Mumford.J.Opt.Soc.Am A.,20:1434—1448(2003)。。在这个理论中,大脑也被视为神经元网络,但网络编码的是概率分布。概率分布给出所有可能结果的可能性。在这个大脑概念中,感知不是所看见的。当我们“看见”一棵树时,我们不是在从眼睛直接提取感官输入,而是在感受我们的内部世界模型。眼睛输入的数据不是被有意识感受,而是被大脑用来调整我们的内部世界模型,因此我们的思维之眼所“看见”的密切反映了在那里被风吹动的实际事物。我们所看见的与实际在那里的事物之间的匹配并不完美,但大脑在不断调整其内部状态,将内部产生的数据(思维之眼)与感官产生的感知数据之间的不匹配程度最小化。统计学家称之为最小化不确定性。这种理论源自对人类视觉的研究,视觉信息的处理目前仍是实验主导的领域。

这个理论有几个部分。首先,更高级别的大脑核心发展和维护关于我们所处世界的不同方面的思维模型,并用这些模型不断评估和预测。第二,预测和感知数据都编码为概率分布。这意味着数据和预测都包含对其不确定度的估计。第三,感知数据处理的主要任务是最小化不确定度,让输入的感知数据与预测相匹配。模型预测与输入感知数据之间的不匹配(不确定度)可以从两个方面减小,要么是改变感知数据(例如移动),要么是修正内部模型。修正内部模型是学习的一种形式。

这个理论之所以最近很受关注有两个原因。首先,在用实验测试人们对心理测试作出的反应时,他们的反应接近“贝叶斯最优”。这意味着我们是基于一种统计推断进行决策,这种统计推断是托马斯·贝叶斯在1761年提出的,后来逐渐发展成统计学的一大领域。其次,当贝叶斯统计应用于连接编码了统计分布数据的网络时,不确定度的数学形式与物理中的自由能相同。这意味着大脑模式的变化可以用物理学家分析物理系统的相同数学方法进行分析。自由能是物理系统在改变时最小化的热力学参数。类似的,贝叶斯大脑理论预测大脑的变化受不确定度的最小化驱使。卡尔·弗里斯通称之为将“意外”最小化Karl Friston,“A Theory of Cortical Responses,”Philosophical Transactions of the Royal Society 360:815—836(2005)以及注释10提到的“The Free Energy Principle”(2010)。

在神经网络中,如果节点有关于其权重的不确定度的信息,最小化不确定度将最大化输出的精度。如果输出是预测,不确定度反映的是预测和感知输入的不匹配,则通过调整网络权重减少不确定度就可以改进模型。因此通过将“意外”最小化,大脑就能自动调整其内部模型,使得内部预测与感知数据匹配得更紧密。

这个理论很引人注目,因为它似乎解决了大脑优化编码世界模型的网络权重(突触强度)的问题。它也有让人疑惑的确定性问题!在其最简形式中,贝叶斯脑的概念似乎意味着编码世界模型的网络“自动”调整以优化与感知数据的匹配。贝叶斯脑是一个数学模型,必须用某种物理设备实现。目前的尝试包括某种形式的层次性大脑组织,高层大脑将内部模型的预测向下投射,低层大脑则计算预测与输入感知数据的不匹配(不确定度)并向上投射。根据对不确定度的评估对连接强度进行修正,使得改善后的模型产生出的预测能与输入的感知数据匹配得更好。这是一个迭代过程,反复循环打磨内部模型,以产生出与数据能充分匹配的预测。计算机模拟实验取得了较好的结果,但是当模型与感知数据不能紧密匹配时会很困难。至少会出现两个问题。首先,自由能原理并没有说明该如何设计一个能建立全新的内部模型的系统;其次,复杂网络几乎总是会陷入复杂性科学所谓的“局部最小”。局部最小在大脑中就是对当前最优值的任何改变都会导致不确定度的增加(数据不匹配度的增加),然而在参数空间的更远处却存在表现更好的配置。贝叶斯大脑是数学模型而不是物理模型,虽然从理论上大脑有可能是这样运作的,但还需要有具体的方法来实现理论,并与所知的大脑知识相容。目前计算机模型已得到了一些进展,但最后的结果还是未知数。

还有一个似乎很不相同的策略也很适合解决开放式问题,并且能避免局部最小问题。这就是复杂引擎。它也是需要物理证明的抽象思想。复杂引擎在大脑中的实现需要有多个假说(模型)以及随机混合其他模型要素的机制,这些模型与当前的问题并不一定很相关,可能还需要有添加或删除“随机”网络特性的机制。大部分备选假说的预测都很糟糕,但有一些可能有希望,进一步提炼有可能最终得到比目前最好的模型更好的结果。这样的策略需要在解决问题的过程中,大脑同时进行多个并行尝试。我们在第5章对复杂引擎的分析中看到,要高效地实现这个策略,每一轮都需要产生多个改进的方案,而且随机或半随机的改变的尺度要适中。研究大脑的人都知道大脑皮质的大规模并行性。这种结构似乎很适合执行复杂引擎的计算所需的并行处理。

复杂引擎在大脑中可能起作用,有两个原因使得这个想法很具有吸引力:(1)以往的经验表明,只要应用得当,复杂引擎型的计算很擅长为困难的问题找到很聪明的以前从未想到过的答案;(2)这种方法与贝叶斯脑的原理相容。一旦复杂引擎的思想与贝叶斯脑相结合,有一种可能很快浮现出来。最小化意外能为备选假说的选择提供标准。还有一条不那么明显的思路是,如果模型预测与输入数据之间的不匹配(意外)很小,只需利用大脑自由能原理就能简单实现参数的快速调整(通过反馈改变突触强度)。而如果这个快速过程不顺利,输入与模型预测之间的不一致程度一直很高,可能就会触发复杂引擎策略进行范围更广的尝试。后面这个过程很有可能就是当人们在“思考”某件事的时候发生的事情。

这是大脑研究让人兴奋的时刻。贝叶斯脑与自由能原理为大脑运作原理的研究建立了一致的框架,并不断带来让人兴奋的新发现。