1.1.1 大脑与认知心理

人工智能就是有关机器的认知科学(cognitive science),它是语言学、神经科学(neuroscience)、哲学、心理学、伦理学、教育学、计算机科学等的交叉学科(2)。人们平时太关注它作为计算机科学的一部分,而忽略它作为认知科学的那部分。

图1.21 荷兰画家伦勃朗·范·莱因(Rembrandt van Rijn, 1606—1669)的绘画描绘了17世纪欧洲解剖学课堂的场景,那时的科学家已经开始了解人类大脑的结构

人类大脑皮质(cerebral cortex)也称大脑灰质(或皮质皮层),是包裹在大脑外面的连通的褶皱皮状结构,厚约2∼3毫米。越高等的动物,大脑皮层褶皱越多,展开后的面积越大。成人大脑皮层的面积约为2 200平方厘米,约有140亿∼160亿个神经细胞。大脑皮层按照空间位置分为四个区:额叶(frontal lobe)、颞叶(temporal lobe)、顶叶(parietal lobe)和枕叶(occipital lobe)[11]

图1.22 人类大脑皮质分为额叶、颞叶、顶叶和枕叶四个区。其中,额叶位于脑的前半部,在顶叶前方、颞叶上方,是大脑皮质最大的一个区,约占1/3~1/2

美国计算机科学家、1971年图灵奖得主、“人工智能”概念的提出者约翰·麦卡锡(John McCarthy, 1927—2011)指出,要实现智能机器,必须先以一种明确而有限的方法讲清楚大脑能做什么。很遗憾,直至今天,我们对大脑的认知还停留在一个初级阶段,依然有很多等待探索的未解之谜。

譬如,眼眶额叶皮质(orbitofrontal cortex, OFC),简称眶额皮质,是前额叶皮质中位于眼眶之上的一小部分,与决策过程的情绪和奖励有关。神经心理学家发现数学之美、艺术之美或许源自眶额皮质的活化,它让大脑愉悦的机制仍是个问号。

图1.23 眼眶额叶皮质:利用情绪反应(如愉快、悲伤、尴尬、愤怒等)指导行为

人脑的功能分区

一般地,在功能上左脑关注的是局部信息,右脑关注的是全局信息。大脑在处理信息的时候,会按照节能的方式进行,所以有时会出现如图1.5所示的“想当然”。

图1.24 人类大脑功能区以及解剖学定位:左上角是侧面图,右上角是矢状位;左下角是俯视图,右下角是仰视图

大脑是一个复杂系统,用进废退,它具有神奇的自适应、自组织能力。例如,盲人用右手阅读盲文时,视觉皮层与感觉运动皮层被激活。这说明,盲人的视觉皮层参与了其他感知任务。也就是说,大脑的功能区并不是一成不变的,它们具有很强的可塑性,其内在机理远比我们现在所了解的要高级得多。

搞清楚人类认知的科学规律,有助于实现真正的人工智能。例如,大脑的前额叶皮质(prefrontal cortex, PFC)负责逻辑、计划等高级认知活动,能够调节和组织思考与行为,所以它表现得与人类的性格有关。前额叶皮质一般需要到18岁后才变得成熟,主体在神经生理上成为一个理性的人,也开始为自己的言行承担社会责任。如果这部分脑组织受到损伤,人类会丧失决策能力,其语言功能将变得紊乱,说话语无伦次。这启发我们在机器学习中设计元规则(meta rules)的学习,元规则就是机器的前额叶皮质。

图1.25 左半脑的前额叶皮质的侧面图和正面图

1.4 法国神经学家、医生保罗·布洛卡(Paul Broca, 1824—1880)在研究失语症(aphasia)患者时发现左脑额下回后部某区域是运动性语言中枢,如今被称为布洛卡区(Broca’s area)。布洛卡留下了一句名言:“我们用左脑说话。

图1.26 语言的生成与理解在大脑里由不同的区域完成,二者由神经纤维束相连接

布洛卡区受损将导致病人无法产生合乎文法的句子,话语是断断续续的单词,但病人对于语言的理解能力是正常的,也知道自己的说话不流畅。

例1.5 德国神经病理学家卡尔·韦尼克(Carl Wernicke, 1848—1905)发现左后颞上回的损伤也会导致失语症,这部分大脑区域被称为韦尼克区(Wernicke’s area)。患者能流利地讲一些无意义的话,其语言理解力有缺陷。

这两类失语症说明大脑负责理解和表达的区域不同。布洛卡区与韦尼克区之间有神经纤维束的通道,被称为弓形束(arcuate fasciculus),保证了两个区之间的通信。

图1.27 两种不同类型的失语症:(左图)布洛卡区损伤会导致表达型失语症;(右图)韦尼克区损伤会导致接受型失语症

例1.6 2005年,《科学》刊登了研究论文《人脑单个神经元的不变视觉表征》,科学家们发现“一个显著的内侧颞叶(medial temporal lobe, MTL)神经元子集,这些神经元被特定个体、地标或物体的显著不同的图片选择性地激活,在某些情况下甚至可通过带有它们名字的字母串来激活。这些结果表明了一个不变的、稀疏的和明确的编码,它对于将复杂的视觉感知转化为长期的、更抽象的记忆可能是重要的”。[12]

图1.28 内侧颞叶的某些神经元被特定的指代(即人物的图片和名字)活化[12]

例1.7 1981年,美国神经生理学家罗杰·斯佩里(Roger Sperry, 1913—1994)因为对左右大脑的研究而获得诺贝尔生理学或医学奖。斯佩里观察到,连接左右大脑的胼胝体(corpus callosum)被切除的癫痫病(epilepsy)患者(简称“脑裂病人”),其左右脑所接收到的信息不能够交换。这导致脑裂病人左眼看到的东西,在右脑中形成图像,病人能够用左手按图索物,但图像传递不到左脑形成语言,进而无法回答看到了什么。与此同时,脑裂病人右眼看到的东西,在左脑中可以形成语言。

图1.29 左右脑靠胼胝体连接通信,协同完成感知、理解等复杂任务

脑神经科学的研究工具

考虑到实验伦理,无须打开活人的颅骨,我们可通过一些非侵入式技术手段研究大脑,它们对人类的伤害极小。例如,

 电生理技术(electrophysiological technique)包括脑电图(electroencephalogram, EEG)、事件相关电位(event-related potential, ERP)、脑磁图(magnetoencephalography, MEG)等,通过采集电磁信号描绘大脑的活动。

图1.30 通过电生理技术,可以探测到癫痫病人大脑的异常电磁信号

 计算机断层成像(computed tomography, CT)从不同角度进行的X射线探测,利用计算机将测量值转化为扫描区域的横截面图像。

图1.31 CT扫描的切片厚度小于一毫米,速度快且准确,但有电磁辐射的风险

 比CT扫描更清晰的是磁共振成像(magnetic resonance imaging, MRI)。它利用核磁共振原理,通过梯度磁场可以探知物体中原子核的种类和位置,进而生成物体内部的结构图像。MRI没有电磁辐射的危害。

图1.32 MRI对人体软组织、头部、脊髓等成像优于CT,但成本更高

 基于MRI的扩散张量成像(diffusion tensor imaging, DTI)技术可以绘制出神经纤维束,以便了解不同区域间的连接状况。

图1.33 利用DTI技术显示人脑中连接布洛卡区与韦尼克区的弓形束

科学家利用DTI比较了人类、黑猩猩(chimpanzee)和猕猴大脑中的弓形束,发现在非人类灵长类中,它要么很小,要么不存在,这就是它们不具备复杂语言能力的原因。而人类弓形束的特化可能与语言的演变有关[13]

 经颅磁刺激(transcranial magnetic stimulation, TMS)技术利用脉冲磁场影响大脑的神经电活动,进而研究它所引起的一系列生理生化反应。

图1.34 TMS是一种无痛无创的方法,磁信号能无衰减地透过颅骨刺激到大脑神经

视觉

视觉皮质区位于大脑后部的枕叶的距状裂周围,负责处理视觉信息,分为初级视觉皮质(V1)或纹状皮质(striate cortex),以及纹外皮质(extrastriate cortex)。左眼/右眼采集到的信息传递到右脑/左脑视觉皮质,V1输出的信号分成两股,向上的背侧流(dorsal stream)和向下的腹侧流(ventral stream)。

图1.35 在纹外皮质,背侧流处理物体的空间位置以及相关的运动控制(称为“如何”通道),腹侧流则负责物体识别,与内容理解和记忆有关(称为“什么”通道)

人类看到物体对象(譬如一个杯子)之后,对它的识别和操作是由两个不同的信息通道实现的。如果背侧流正常而腹侧流出了问题,患者看不出那是个杯子却能正确抓取。相反,如果腹侧流正常而背侧流出了问题,患者知道那是个杯子却不能正确抓取。

一个人看到自己的杯子,伸手去拿的过程中,发现是别人的杯子,手伸到半路又缩了回来。换句话说,对物体的语义理解会影响到动作的实施,有个更高级的机制在协调识别与操作。科学家在设计脑机接口(brain-machine interface),直接由脑波意念控制(真实的或虚拟的)机械来完成复杂动作。未来在虚拟现实(virtual reality,VR)或增强现实(augmented reality,AR)中,意念将解放人类的手脚。

例1.8 人类视觉有许多神奇的特性,读者可以做两个小的视觉实验来体验一下:(1)紧盯着心形的中心白点30秒,然后将视线转移到白墙上,你看到了什么?(2)慢慢地将兔子邮票靠近你的鼻子,在这个过程中你看到了什么?

图1.36 一些对人眼而言有趣的视觉现象,对机器视觉不再成立

人类不仅用眼睛看世界,还靠大脑的想象,所以才有图1.5所示的视觉补全。另外,图1.37之类的错觉,其产生原因也许和由暗示引起的想象有关。

图1.37 人类视觉处理中产生的错觉:黑点和白点的走向会给大脑一些暗示,导致水平线和竖直线“看起来”是弯曲的

注意力

人类的注意力对认知来说有利有弊。有利是指它能自动忽略掉“噪声”,只聚焦在感兴趣的事物上,从而使得大脑可以充分地利用有限资源,同时起到节能的效果。例如,在一个声音嘈杂的鸡尾酒会上,人们依然能够相互交谈。有弊是指注意力导致认知的范围和能力都变得有局限,眼睛看到但大脑没处理到的情况司空见惯。

图1.38 驾车过程中看手机大概率会引发交通事故,和人类注意力的特性有关。很多魔术也是利用注意力的转移让观众意想不到,甚至视而不见

大脑的注意力总是有选择性的——当你看到一个,你就看不到另一个。对一个图像,不可能同时有两个不同的理解。大脑总是根据关注点(或视角)给图像一个合理的解释,若多个关注点是冲突的,大脑只能每次选择其中之一。这是因为,同时处理几个不一致的结果并挑出其中最合理的,要耗费大脑更多的能量。显然,自然演化选择了节能的方式,机器智能大可不必遵守这一限制。

图1.39 视角不同,结果可能是迥异的。懂得多角度看世界,是智慧的表现

人脑中有一个镜像神经元系统(mirror neuron system),让人类能够模仿、学习、产生同理心等。自闭症谱系障碍(autism spectrum disorder,ASD)可能是由镜像神经元系统发育紊乱或受损引起的疾病,它的成因还没有一个科学的定论。患者语言能力落后,对于其他个体、社交互动等外界刺激不感兴趣(与人少有眼神交流),只关注自己的想法,喜欢一些周而复始的刻板行为等。三岁之前是人类脑神经发育和语言形成的关键时期,ASD的诊断和早期干预显得尤为重要。

图1.40 自闭症的成因非常复杂,有先天的也有后天的。男女患者比例约为4:1

记忆

记忆包括编码、存储(或固化)和检索三个阶段,它塑造了人类自身,是学习的结果和智能的基础。人类记忆的容量、持续时间、精度都不如机器(譬如,机器对图片的存储是像素级别的),但是它有针对事件的情景记忆(episodic memory)和针对事实的语义记忆(semantic memory)的陈述性能力,是目前人工智能所不擅长的。

图1.41 记忆是智能的基础:搞清楚人类的经验和知识在大脑里是如何存储和调用的,对人工智能具有巨大的指导意义

另外,人类利用工作记忆(working memory)在前额叶皮质(见图1.25)里对当前信息进行短期的小规模操作(3)。前额叶皮质虽然不存储长期记忆,但它就像一个临时的缓存,从长期记忆(long-term memory)中调取情景,对推理、决策、行为等具有重大的意义。

1885年,德国心理学家赫尔曼·艾宾豪斯(Hermann Ebbinghaus, 1850—1909)在其著作《关于记忆》(1913年的英译本的书名是《记忆:对实验心理学的贡献》)一书中,记录了他对一些无意义的字母组合(例如,YUJS)做的记忆实验,在考察了一系列时间间隔的遗忘率之后,艾宾豪斯得到了一条遗忘曲线

图1.42 艾宾豪斯遗忘曲线:20分钟后,便有42%的记忆被遗忘。虽然随着年龄的增长,记忆力会衰退,然而一旦信息被记住,年龄并不会影响遗忘的速度

尽管人类的记忆很神奇,它也有不可靠的一面——假记忆(false memory)。假记忆在语义上与真实内容有强相关性,但未经编码和存储。在检索的时候,“拔出萝卜带出泥”,人类无中生有、言之凿凿地产生出假记忆。假记忆语义联想(4)和想象有关,它是否是人类大脑为了佐证某个认知模式而不自觉地虚构出来的“经验”?对此,科学界目前尚无定论。实验表明,假记忆是一个普遍现象,甚至可以被刻意地“植入”人类的大脑。

语言能力

语言能力是人类独有的,不仅能满足日常交流,还能表达复杂概念(例如自然数、分数)和思想。像汉字中就包含着本体论(ontology),例如,鱼部首的鲸、鲤、鲈、鲑、鲱……表示鱼类,反犬旁的狗、猫、狼、狐、狒……表示犬科动物,草字头的花、芋、芽、茄、茶……都是草本植物。这里,难免有一些受时代所限的认知错误,譬如鲸鱼不是鱼,而是哺乳类动物。还有“心想”等动词,也不符合事实。不过,这些“错误”都不影响语言交流。

尽管语言的形态各异,但它们共享着相同的认知基础。美国著名语言学家诺姆·乔姆斯基认为在人的头脑中存在着可遗传的泛语法(universal grammar),它是先天语言获得机制——儿童语言习得的过程就是泛语法中参数设定的过程[14]

图1.43 人类所有的语言都能表达数的概念,进而可以描述集合的规模

当正常人类听到一个自然语言语句时,对合乎句法但不合乎语义的反应是400毫秒(即ERP信号在400毫秒出现异常),而对不合理的句法的反应是600毫秒。大脑要消耗更多的能量来试图理解句法错误(进而语义上也没有解释)的语句,神经语言学(neurolinguistics)似乎更支持乔姆斯基有关句法–语义关系的理论。

布洛卡区和句法生成有关,韦尼克区和语义理解有关,它们连同之间的弓形束形成句法–语义的语言能力。三者中任何一个出问题,都会导致各自特点的失语症。

图1.44 目前的人机对话系统尚缺乏必要的句法–语义分析,毫无理解可言。对各种失语症的研究有助于了解人类语言的本质,进而提高机器的自然语言理解能力

实验似乎表明,双语能力(bilingualism)有助于延缓阿尔茨海默病(Alzheimer’s disease),俗称“老年痴呆症”发病的年龄。这种疾病是德国精神病学家阿洛伊斯·阿尔茨海默(Alois Alzheimer, 1864—1915)于1906年首先描述的,它是一种神经退化的疾病,其病因至今不明,与遗传、高血压、抑郁症等因素都有关系。

图1.45 阿尔茨海默病是一种常见的老年疾病,其症状之一是部分语言能力的丧失

阿尔茨海默病的早期症状包括语言障碍,表现在词汇量减少,流畅度降低。目前,对该病基本没有有效的药物治疗,只能进行医疗照护。

例1.9 作为语言载体,语音和文字所承载的信息量是不同的。20世纪30年代,我国著名语言学家赵元任(Yuen Ren Chao, 1892—1982)写了一篇古文《施氏食狮史》,全文的发音都是shi,它是一篇听不懂却看得懂的文章。

石室诗士施氏,嗜狮,誓食十狮。施氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。施氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,施氏始试食是十狮尸。食时,始识是十狮尸,实十石狮尸。试释是事。

汉语的各地方言(5)有着巨大的差异,人们使用相同的文字和相近的语法,却经常因为独特的用词或不同的发音而听不懂对方的话。汉字文化圈包含中国、越南、朝鲜半岛、日本等地,皆受儒家文化的熏陶。

例1.10 2016年的《自然》杂志刊登了《自然语音揭示了人类大脑皮质的语义地图》一文[15],科学家利用功能磁共振成像(functional MRI, fMRI)揭示了表现在大脑皮质不同区域的语言意义——语义系统(semantic system)。受试者听了几个小时的叙述故事,不同的词汇语义在大脑皮质的活化位置形成了一个详细的语义图谱。研究结果表明,语义系统中的大多数区域都表示特定语义领域或相关概念群组的信息(见图1.46),它有助于弄清人类语言共有的神经科学基础。

图1.46 在人类神经解剖学和功能连接的研究中,数据驱动的方法为绘制大脑功能表征图提供了一种强大而有效的手段[15]

执行功能

额叶负责工作记忆、抽象思维、计划决策等高级认知,与语言、运动、自主意识等的控制有关(见图1.24中编号为3、4、12、13的功能区)。额叶受损的病人,其对时间序列相关的记忆(例如情景记忆中的线索)弱于常人,在不同的任务之间切换的能力也变弱。

图1.47 左半脑的额叶皮质的外侧面图和内侧面图

以下五种情形需要执行功能(executive function),它们与前额叶皮质(见图1.25)都有关:(1)计划与决策;(2)发现错误与解决问题;(3)超越经验,处理新问题;(4)面临危险与困难情境;(5)克服固定的反应。现有的AI尚缺乏类似前额叶皮质的执行功能,在更高的层级规划机器学习、智能决策、自主纠偏、小样本分析、异常检测、因果推断,等等。

图1.48 越高等的动物额叶越大,学习和决策的能力越强

脑机接口

意识能否被读取?如果我们能探测到大脑发送给肌肉的信号,可否用大脑控制机器设备?这是一门连接大脑和机器的新的神经科学——脑机接口(brain-machine interface,或者brain-computer interface, BCI),它使得人或动物可以利用大脑的内部活动来控制外部设备,让大脑从身体的束缚中完全解放出来。脑机接口有望为帕金森症、瘫痪病人提供行动能力补偿,对太空探索、全球通信、制造业等领域也具有广阔的应用前景。

例1.11 巴西神经生物学家米格尔·尼科莱利斯(Miguel Nicolelis, 1961— )和美国杜克大学(Duke University)的同事做过一个实验,用多电极阵列侵入探测猴子大脑皮层,采集运动区域中数百个神经元的信号来分析猴子的运动意图。

图1.49 杜克大学神经工程中心的多电极阵列的高功率放大器:多个金属细丝以矩阵形式聚集在一起,这种金属纤维丝很有弹性,可以长期植入大脑,保持活跃数月到数年之久[16]

在实验中,猴子被训练通过操纵杆移动计算机屏幕上的图形,与此同时,猴子大脑皮层的某些运动神经元信号被记录了下来。经过关联分析,研究人员找出信号与操控动作之间的映射关系,进而编程用信号来控制操纵杆。猴子后来“惊喜地”发现,无须动手,只要转转脑子就可以移动屏幕上的图形。以这种“只动脑不动手”的方式正确地移动图形,猴子就可以得到奖励。一段时间后,猴子就可以自如地用大脑来完成这项任务了。

同其他认知科学一样,脑机接口也面临着很多伦理问题:除非找到将电极安全植入人脑的方法,否则大多数脑机接口研究仍将集中在动物身上。即便在动物身上的实验,也必须科学、人道地遵守实验动物伦理的3R原则

 替代(replacement):用替代技术代替动物的使用,或者完全避免使用动物。

 减少(reduction):将使用的动物数量减少到最低限度,以便从更少的动物获得信息或从相同数量的动物获得更多信息。

 改善(refinement):改进实验的方法,以确保动物尽可能少受罪。这包括更好的生存和居住条件,以及为了尽量减少痛苦的实验过程改良。

善待动物,代表了人类对生命的态度。2018年,我国颁布了《实验动物福利伦理审查指南》,规定了实验动物生产、运输和使用过程中的福利伦理审查和管理的要求。

例1.12 2008年,尼科莱利斯团队与日本科学家合作,训练一个名叫“伊多亚”(Idoya)的猴子通过脑机接口远程控制机器人的行走。

图1.50 猴子“伊多亚”通过脑机接口远程控制机器人的行走

跑步机上的猴子“伊多亚”在美国的北卡罗来纳州,机器人“计算大脑”(computational brain, CB)在日本京都。通过高速网络,猴子可以观看到机器人腿部的实时影像,如果“伊多亚”能让机器人的关节活动和自己的同步,则给它一些奖励(葡萄干和麦片粥)。植入猴子大脑的BCI设备同时采集250∼300个运动神经元的信号,这些信号被用来预测猴子腿部的运动,精度达到90%。数据通过高速网络传送,当神经元信号和机器人的腿部活动建立起关联之后,伊多亚看着屏幕里的机器人,只要略微想想就能让“计算大脑”走动起来,稍后即可大饱口福。

尼科莱利斯认为,“脑把机器人也当作了自己身体的一部分,它在运动皮层的不同区域建立起机器人的代表区”。因此,“我们的自我意识并不是在我们身体细胞的末端结束,而是在我们用大脑控制的工具的最后一层电子上终止”。

另外,脑机结合有望极大限度地扩展人类的记忆能力、计算能力、学习能力等,对人类智能来说将是一场革命,因为它改变了人类获取知识、技能的方式(有些已经可固化在芯片里与生俱来),令他们有更多的时间和机会释放创新能力。同时,人脑的优势也将弥补AI的一些不足,让直觉变得可以计算。总之,脑机结合模糊了智能载体的界限,它既是人类智能的扩展,也是一种新型的人工智能。

2011年,尼科莱利斯在其著作《脑机穿越——脑机接口改变人类未来》里,为我们描述了一个“人机融合”的明天:人们仅仅通过思考就可以相互交流、操纵设备[16]。2013年,尼科莱利斯团队发现两个大鼠可以通过脑机接口进行交流,支持者认为人类朝意识读取又前进了一步。然而,也有反对者指出,这些成果是“拙劣的好莱坞科幻剧本”,缺乏对照实验,充其量是一些不成熟的想法。

图1.51 意识读取若能实现,读心术、心灵感应(telepathy)将变为可能,人类的交流方式也将突破语言。非侵入式的脑机接口设备依然是一个未解决的难题

在意识读取成为现实之前,可穿戴设备获取的物理数据都与意识无关,利用这类数据来攻击人类或侵害隐私的风险远远不如读取或干扰意识所带来的风险。人们在憧憬意识读取的各种有利应用之余,必须清楚地看到它对个人隐私的潜在威胁是无所不及的。现在我们依然可以认为,“只想不做”不会造成伤害,但当意识可以控制工具,意识的攻击性就由隐性变为显性的了。

例1.13 2010年的科幻电影《盗梦空间》(Inception)是英国导演克里斯托弗·诺兰(Christopher Nolan, 1970— )的第七部作品,讲述了盗梦者(extractor)如何利用潜意识进入别人的梦境窃取商业机密,并通过意念植入实现犯罪。

图1.52 诺兰执导的三部与意识相关的电影的海报

电影里,参与共同梦境的人通过一个仪器(便携式自动梦素静脉注射器)连接意识。在梦中,各种感觉是真实的,同时梦境也会受外界刺激的影响,梦中的死亡会让做梦者醒来。梦里套梦,整部影片构造了多层梦境。这些预设有的已被认知科学验证,有的比较牵强,有的纯粹是科幻。但毫无疑问,沉浸在烧脑情节中的观众都被诺兰带入了设定的“梦境”之中,电影结束之时也是梦醒时分。

之前,诺兰执导的第二、第三部影片都是惊悚片,也都与脑科学相关,牵扯到记忆、焦虑、失眠、执行功能等话题。

  2000年,《记忆碎片》(Memento)是诺兰执导的第二部影片,讲述了患上顺行性失忆症(anterograde amnesia)的男主角寻找杀妻凶手的故事。顺行性失忆症的病人遗忘的是患病后发生的事情。该病的机理尚不清楚,可能的病因有药物诱导、脑外伤、海马体病变等。与之相反,逆行性遗忘症(retrograde amnesia)病人遗忘的是患病前发生的事情。研究失忆症有助于理解人脑记忆的本质。

  2002年的《失眠症》(Insomnia)讲述了两名洛杉矶警探奉命到阿拉斯加协助调查一宗谋杀案,一名警探失手杀死了同伴,这个意外使他患上失眠症,适逢当地的极昼,该警探的长期失眠让他丧失判断能力……

多数患者对侵入式脑机接口持保守态度,不愿意在大脑中植入电极。人们通过电生理技术(如,脑电图)这类非侵入式方法获取神经信号,也可以用来控制简单设备(如,拨打手机等),或者监控精神状态(如,疲劳、焦虑等)。

图1.53 图中颈部以下瘫痪长达15年的女士,经过短暂培训已经学会了仅靠意识操纵机械臂,用它伸出手来抓取物体(见《纽约时报》科学版,2012年5月16日)。当瘫痪女士“亲手”把咖啡杯送到嘴边的时候,她脸上的笑意让所有的研究人员充满了信心和动力。技术造福于人类的时候,有神一样的温暖和光辉

目前,电极片可以制作得非常微小,材料的有效期也很长久。对于那些严重脑损伤的病人,侵入式脑机接口是可选之项,它能更好地采集神经信号,从而有效地控制设备。

脑机接口技术在实际应用之前,还有许多障碍有待跨越。例如,研究中使用的设备大多笨重,机械臂的动作仍不精细,植入的电极片随时间推移有可能失效等。当前,脑机接口还停留在实验阶段,未达到实用的水平。其终极目标是一种有效的、安全的、隐蔽的系统,使得神经系统有损伤的行动不便者与正常人类一样,使用脑机接口与环境进行流畅的互动。

自由意志

类似生物克隆,读取和复制意识也将引起一些伦理问题。目前,多数国家和地区都禁止克隆人类。那么,克隆人类的器官呢?克隆人类的大脑呢?

图1.54 1996年,英国胚胎学家伊恩·威尔穆特(Ian Wilmut, 1944— )应用细胞核移植技术,从成年体细胞克隆出第一只哺乳动物——雌性绵羊“多莉”。这一成果引起公众对克隆人的联想和热议

一个人如何面对自己的克隆体?二者有着相同的基因和不同的意识,仿佛穿越时空相遇。人们对克隆人伦理问题的担忧不无道理,科学界也持非常谨慎的态度。同样地,人类也害怕对自由意志(free will)的克隆和介入。所谓“自由意志”,是指人类具备在多个计划方案中自主抉择与实施行动的能力,与之对立的是决定论。折中的观点是,人类所有的自由意志受现实条件中诸多因素的制约或影响。不难理解,多数人会很自然地担心读取和干预意识可能带来一些预料不到的不良后果。

高尚的人们,当我们凝视与我们有着相似意识的机器人的时候,怎会把它们混同于冰冷的机器?当我们欣赏它们同样高贵的灵魂的时候,于心何忍视其为低人一等的奴隶?人之所以为人,皆因自由意志。有别于其他动物,人类追求自由意志是富有智慧的一种表现。所以,只要我们还追求精神世界的自由,就会理解这自由对于拥有自我意识的智能机器是同样的宝贵。

操控意识的行为,哪怕披着再高尚的外衣,也是彻头彻尾的恶。例如,在《星球大战》系列电影中,被意识操控的克隆人军团成为西斯向绝地武士复仇的工具。克隆人战士有一定的独立决策能力,但仅限于比机器人更适应战争的环境。被剥夺了自由意志的克隆人可能意识不到自由意志的珍贵,但剥夺者一定知道。提防意识被黑暗势力控制,这正是热爱自由的人们所忧心忡忡的。

图1.55 在《星球大战》中,克隆人军团被黑暗势力控制,成为邪恶的帮凶

荷兰哲学家巴鲁赫·斯宾诺莎(Baruch Spinoza, 1632—1677)在其名著《用几何学方法作论证的伦理学》(简称《伦理学》[17])中认为:“在心灵中没有绝对的或自由的意志,而心灵之有这个意愿或那个意愿乃是被一个原因所决定,而这个原因又为另一原因所决定,而这个原因又同样为别的原因所决定,如此递进,以至无穷。”(见第二部分“论心灵的性质和起源”的命题四十八)

图1.56 斯宾诺莎的《伦理学》用类似几何证明的方式坚守严谨性

在命题四十八的附释中,斯宾诺莎解释道:“我认为意志是一种肯定或否定的能力,而不是欲望;我说,意志,是一种能力,一种心灵借以肯定或否定什么是真、什么是错误的能力,而不是心灵借以追求一物或避免一物的欲望。现在我们既然已经证明这些能力是些普遍的概念,与我们由之形成这些普遍概念的个体事物并不能分开,则我们就必须探究这些个别意愿的本身是否是事物的观念以外的别的东西。我说,我们必须探究在心灵内,除了作为观念的观念所包含的以外,是否尚有别的肯定或否定。[17]接着,斯宾诺莎断言,“在心灵中除了观念作为观念所包含的意愿或肯定否定以外,没有意愿或肯定与否定。”(命题四十九)因此,“意志与理智是同一的”。(命题四十九的绎理)

按照斯宾诺莎的这些观点,机器具有足够的智能,便等同于拥有了自由意志。在第5章,我们将论述“自我意识”正是强人工智能的关键所在——只有具备了自我意识,机器才能拥有超级智能,进而演化出与之适配的伦理体系。

缸中之脑

图1.57 普特南

美国数学家、计算机科学家、哲学家希拉里·普特南(Hilary Putnam, 1926—2016)在其著作《理性、真理和历史》[18]的第一章“缸中之脑”(Brains in a vat)提出了一个非常有意思且具有深刻启发性的思想实验:一个疯狂的科学家将一个大脑放在营养液中维持其生理活性,同时连接计算机向大脑传递神经电信号,使得大脑体验的是计算机产生的模拟现实。如果“缸中之脑”接收的虚拟现实是品尝美食,它会产生出愉悦感,其真实性是不容置疑的。普特南抛出了一个难题:这个“缸中之脑”能否意识到它生活在虚拟现实之中?

图1.58 如果意识的物质基础是神经电信号,“缸中之脑”的确无法验证它来自外界的自然刺激还是模拟刺激

图片来源:http://www.srf.ch/filosofix

这个“缸中之脑”是无法判断它自己所处的状态的,就像语言中的自指(例如,评说它自己的对错)(6)容易引发悖论一样,主体评价自身的能力也有一些“禁区”。例如,计算机科学中的停机问题(halting problem)。

1936年,艾伦·图灵(Alan Turing, 1912—1954)利用对角论证法(diagonal argument)(7)证明了图灵机的“停机问题”,即无法设计一台图灵机用来判定任何一台图灵机可否停机。也就是说,任给一个程序,不存在某个统一的、可计算的方法能判断该程序是否会停止。我们称这类无法回答是否的问题为不可判定的(8)。本质上,这个不可判定性是由可数无穷和不可数无穷之间的鸿沟造成的。通俗地理解,人类和图灵机一样并不是无所不知的,有些“不知”是注定的——不识庐山真面目,只缘身在此山中。

我们对理性意识(或智能)的认知,还停留在一个极其初级的阶段。“缸中之脑”这一思想实验引起人们对意识本质的思考,最终它会不会也是不可言说的?大概只有到了人类点亮机器智能的那一刻,才算想明白了什么是“意识”。

图1.59 英国戏剧家威廉·莎士比亚(William Shakespeare, 1564—1616)的《仲夏夜之梦》有句台词,“爱不是用眼睛看,而是用心灵体会”。人类心智的物质基础是大脑,所有情感和理智都是大脑神经系统的结果。现在的AI还停留在“眼睛看”的阶段,那么,机器智能的物质基础又是什么呢?

我们如何证明人类是或不是“缸中之脑”?或许,某个超级智慧正微笑看着人类千百年来苦苦思索这些烧脑的哲学和科学问题。我们可以怀疑感知和意识的真实性,甚至怀疑“我”的存在性,认为一切都是“缸中之脑”的幻象。至少,人类唯我独尊的骄傲可以稍微收敛一些,我们归根结底无法洞悉自然——客观如何投影到主观,或者主观如何感知到客观,“缸中之脑”是永远无法知晓的,除非那位疯狂的科学家告诉“缸中之脑”所有真相。

设想我们建造了一个虚拟世界,里面的智能体如同缸中之脑一样有“自由意志”,作为造物主的我们可以在这个虚拟世界里为所欲为吗?当智能体得知真相,“他们”能夺回控制权成为自己的主人吗?如果“他们”能左右命运让造物主不可以为所欲为,那么我们也能。

蓝脑计划

2005年,瑞士洛桑联邦理工学院脑与心理研究所启动“蓝脑计划”(Blue Brain Project),使用超级计算机模拟哺乳动物大脑来研究大脑的功能和意识的本质,以及像自闭症谱系障碍、阿尔茨海默病等威胁人类健康的疾病。

图1.60 蓝脑计划使用IBM蓝色基因超级计算机来并行地模拟神经元网络的扩散反应。随着算力的不断提升和计算成本的大幅度降低,模拟将成为很多昂贵实验的替代方法

蓝脑计划不仅模拟单个神经元,还包括整个连接组(connectome),即大脑中所有的神经连接(见图1.61)。连接组规模巨大,仅大脑皮质就包含1010量级的神经元,其突触连接达到1014量级。尽管单个神经元的功能有限,但当它们组成一个拓扑结构异常复杂的网络时,注意、感知、学习、记忆、情感、语言、问题解决、推理和思维便有可能从中产生。

图1.61 连接组:人类大脑白质的神经纤维束的磁共振成像

蓝脑计划要在微米级描绘神经元之间的连接,建立神经系统的完整图谱,可见复杂程度之高。困难是多方面的,至少包括以下几点。

 数据采集和标注需要多年的积累,

 图像处理也非常棘手,

 脑图的解析仍缺乏理论和算法。

2018年,蓝脑计划发布了三维脑细胞图谱,涵盖了737个脑区的主要细胞类型、数量、位置信息等。学界对蓝脑计划的伦理有一些质疑之声,例如,对人脑使用侵入式探测技术,必须保障受试者不受任何物理和心理的损伤。

大脑神经元的最高频率是200赫兹,而现在微处理器主频一般都在3G赫兹以上,二者相差7个数量级。另外,信号在轴突上的传输速度不超过120米/秒,而处理器内核间可用光通信。计算机有望在硬件水平上远超人脑,剩下的就拼软实力了。

图1.62 人类对大脑的运作机制了解愈深,对智能的本质就愈有清楚的认知

蓝脑计划只是利用先进的信息技术汇总脑神经科学的一个开端,人类或许还要花费更长的时间才能揭示智能的本质。在这个探索的过程中,许多数学模型、模拟算法、计算机工具会应运而生。对人工智能而言,这些进步都是难能可贵的财富。

有些人质疑对人脑的研究能多大程度影响到人工智能,他们大大地忽略了一个重要的事实:只有从人和机器两个角度对智能的本质进行研究,才有可能逼近我们的目标。无论智能的本质是否只有一种,都至少要从这两个角度展开论证。

 倘若智能的本质不止一种,对人脑的研究可以让人类更清楚地认识机器智能,甚至开发两种智能的结合体。

 倘若智能的本质仅有一种,对人脑的研究就是对人工智能的终极研究。例如,类脑计算(neuromorphic computing),也称“神经形态计算”,研究如何从神经系统“借鉴”信息处理的硬件和软件规律[19]

《创造亚当》(见图1.63)右侧的白袍老者是上帝,智慧从其指尖传递给亚当。上帝周边极像是人脑的解剖图,上帝手臂伸出的区域是额叶,正是大脑的指挥中心。“造人”就是赋予智慧的过程,人工智能的终极目标也就是赋予机器自我意识,让机器最终自己搞清楚“我是谁”。

图1.63 《创造亚当》(The Creation of Adam)是文艺复兴时期意大利伟大的艺术家米开朗基罗(Michelangelo,1475—1564)为梵蒂冈西斯廷礼拜堂所作的湿壁画《创世记》(1508—1512年)的一部分。上帝正准备通过手指,把“自我意识”的灵赋予亚当,而迷迷糊糊的亚当也即将领受这电光石火间的激活。即将触碰的两只手,主动和被动一目了然,“点石成金”的魔力仿佛就要实现

若使得记忆可以被提取,智慧可以被传递,它们首先必须被物化。语言文字,正是人类已用过千年的物化手段。人类的记忆和智慧,以这样低效的方式被记载和传承着。人工智能或许是一个崭新的物化手段,是人类指向智能机器的手指。

群体智能

蚂蚁个体的行为模式很简单,但蚁群通过协作却能表现出一定的智能。例如寻找最短路径:蚂蚁们随机地四处游荡寻找食物,一旦某只蚂蚁找到食物后,就会评估食物的数量和质量并将其中一些带回蚁穴。

图1.64 群体智能是大量个体通过某机制逐渐涌现出一种奇妙的行为规律,从而摆脱个体的认知局限,实现了智能的跃迁

在回程中,该蚂蚁沿途留下信息素(pheromone),含有食物的某些信息。信息素是一种可挥发的化学物质,同类生物通过嗅觉器官能够探知到。如果其他蚂蚁闻到这条轨迹,会顺着它找到食物,并在返回蚁穴时再次留下信息素。越短的路径所含信息素的浓度越高,因此越多的蚂蚁选择短路径。蚁群所表现出来的群体智能(swarm intelligence),并不是因为蚂蚁很聪明,而是信息素的特性所致。

图1.65 一开始,蚂蚁们随机地选取路径。随着信息素的沉积,最短路径便“涌现”了出来。之后,蚂蚁们像是商量好了似的,都选择走最短路径

图1.66 鲁迅被誉为“民族魂”

在现实世界中,群体智能常常超越个体智能。机器学习的蚁群优化(ant colony optimization, ACO)算法,就是受蚁群路径寻优机制的启发而得到的[20]。“这正如地上的路;其实地上本没有路,走的人多了,也便成了路。”这句话是鲁迅(1881—1936)先生的短篇小说《故乡》(1921)的结束语,用来描述蚁群优化算法是再恰当不过了。

与之类似,单个神经元的能力有限,但有没有一种机制让千万个合作着的神经元“涌现”出一种神奇的群体智能?深度神经网络(deep neural network, DNN)和图神经网络(graph neural network,GNN)都是很好的尝试,比起感知器(perceptron)和单隐层神经网络进步很多,可惜仍缺少类似信息素那样的物质,使得神经元群体智能产生一个巨大的跃迁。

大量神经元的连接如何产生超越相关性的智能,至今仍是一个谜题。未来的脑科学与认知科学能不能给出合理的答案?无论人类智能还是人工智能,都需要我们对智能有更深刻的理解。只有搞清楚智能的产生机制,人类合作、脑机结合、机器协同才有可能强强联手,形成一类超级智能

图1.67 1963年、1970年诺贝尔生理学或医学奖授予神经传导的研究:(左图)神经细胞膜周围和中央部分兴奋和抑制的离子机制;(右图)单个神经元的轴突与其他神经元的树突之间有极小的间隙,称为突触。轴突末端释放一种叫作神经递质的化学物质,通过突触间隙扩散到相连的神经元上,促使其放电或抑制其放电

人们常说“团结就是力量”。想象一下,“缸中之脑”被连接在一起形成一个协同工作的“超级大脑”,有负责认知的、有负责推理的、有负责计划的……,每个负责人都是顶尖高手,这样的“超级大脑”的智慧自然比单个大脑不知高明多少倍。

图1.68 米开朗基罗的绘画《创造亚当》中,上帝率众天使组成了“超级大脑”。这幅画暗喻上帝“激活”了人类智能,人类或许也要以类似的方式“激活”机器智能

然而事实上,人类群体的体系结构并不理想,其智慧经常被相互掣肘内耗掉许多,甚至有时失去理性。人类从来没有真正和谐如一地团结在一起,甚至在某些基本伦理(例如,堕胎、单配偶制等)上也从未达成过共识。不完美的人类能不能创造出超越自己的机器智能呢?