2025年以来,随着伊利亚·苏茨克维(Ilya Sutskever)和扎克伯格(Mark Zuckerberg)宣布进军超级智能领域,超级智能(Artificial Super Intelligence,ASI)安全问题再次凸显,2025年7月下旬召开的世界人工智能大会更是将超级智能作为分论坛的主题。在关于ASI安全的讨论中,法国学者约书亚·本吉奥(Yoshua Bengio)的观点非常独特。他对ASI安全的认识充满了“大胆想象力”。“大胆”表现在他高调地提出超级智能体(superintelligent agent)风险是ASI安全的必然风险,“想象力”色彩则表现在他提出了科学家AI(scientist AI)的应对方案。这一方案充满了想象色彩和理想性,难以落地,但对比其他科学家提出的诸如超级对齐、模型崩溃、数据蒸馏等应对路径,这一方案却又那么引人注目。问题的关键是约书亚的关于超级智能体的技术想象属于过度想象还是合理想象?在笔者看来,约书亚的观点不是“真实的”,因为他讨论的超级智能风险是大胆想象的结果,但他的观点却是“现实的”,现实意味着超级智能风险发生的必然性。我们又一次想起黑格尔所说的“凡是现实的都是合理的”,这一观点恰恰说明约书亚所讨论的问题具有必然性。面对超级智能,哲学家也提出了一些应对方案,如价值对齐、设置“哥德尔炸弹”、以人为中心等。然而,学界对这些方案的讨论并未取得一致,因此,哲学应该做的是将四种科学路径与哲学路径进行理性检验,以寻求一种更好的ASI安全风险应对方案。
关于人工智能的社会影响问题,学界有不同的认识。比如,有学者认为人工智能的风险堪比核武器,“在安全领域,人工智能赋能系统响应速度非常快,使得对手可能会在系统运行之前尝试进攻。结果是可能造成一种内在不稳定的局势,堪比核武器所造成的局势。”社会科学承认人工智能将带来“生存论风险”(existential risks),哲学界更是将人工智能解释为“事件”,这些观点都表明了人工智能具有产生巨大影响的能力。国内哲学界则提出“存在论问题”,并将其作为反思人工智能风险的重要概念,相关见解多见于赵汀阳的文章,他认为,作为超图灵机的超级人工智能一旦形成就会导致“存在的升级”。
倘若我们从人工智能技术发展逻辑的角度来看这件事情,问题将变得完全不一样。在笔者看来,人工智能技术发展的潜在逻辑是从狭义人工智能(ANI)走向通用人工智能(AGI)。通用人工智能的概念充满了争议,一般指目标导向的、具有自动和泛化特性的智能体。在这一前提下,约书亚强调了通用人工智能的安全问题。在他看来,通用人工智能概念最初的表述是指具有通用目的的人工智能(general-purpose AI),后来则更加突出了这个概念本身的超越性,也就是超级智能体。这个改变表明他更加清楚了问题的所在并将其具体化,也充分说明了从AGI到ASI转变的必然性。在约书亚看来,超级智能可能存在的风险是失控,这种失控来自两个方面:一方面来自恶意使用的失控,另一方面来自智能体误对齐或者虚假对齐产生的自我保存的失控。这些失控所导致的风险被他描述为“灾难性风险”(catastrophic risk)。“灾难性风险”是一个全新的概念,“灾难性”意味着结果是难以估量的,“风险”意味着对将来可能发生的事件的预期,而在超级智能语境中,“灾难性风险”意味着模型失控以及人类灭亡。“我们此处主要聚焦模型失控风险,因为根据许多人工智能研究者的讨论,这很可能是一种严重到或许会导致人类灭亡的风险。”
“灾难性风险”对于人工智能而言是从ANI走向AGI的必然趋势。这一趋势也得到了辛顿的认同。在辛顿看来,当人工智能能够做到无监督学习时,数字生命就可以毁灭人类。“灾难性后果”的表述更接近从全知视角观看某个事件发生。然而,“灾难性后果”却没有人文主义的立场。换句话说,这个观念并不是人文主义的表达。此外,“灾难性风险”概念是一个奇特组合,从字面上看,它是人类学与社会学构成的结果。灾难人类学是人类学新近发展出的一个分支学科,这个学科在灾难与灾害之间划出了界限,前者是更为长远的、涉及复杂因素的事件,比如核爆炸;而后者则指某个特定的事件,比如蝗虫成灾。灾难又被划分为技术灾难和自然灾难。人工智能带来的灾难很显然是属于前者。从修辞学角度看,“灾难性风险”概念是一种科学化叙事的表达,约书亚讲述了一个具有想象色彩的超级智能带来严重后果的故事。笔者曾经提出对技术的想象存在两种形式:合理的技术想象与过度的技术想象。大多数人会觉得约书亚的观点是一种过度的技术想象,因为超级智能还远不可能发生。但是,这种看法多少有些短视,并没有关注到人工智能技术内部的悄然变化。
笔者认为,约书亚的认识具有合理的技术想象的特点,其主要原因是:
(1)约书亚对超级智能的判断是以现代大模型的特征为基础的。“许多公司正在投资发展通用目的AI智能体,这是进一步发展的潜在方向。AI智能体是无需人类监督而能够自主行动、计划和委派完全目标的通用目标AI系统。复杂的AI智能体能够使用计算机完成比当前系统更长期的项目,这带来了额外的好处和风险。”可以看出,约书亚是针对很多现代公司(如OpenAI、DeepMind和Anthropic)来说的,这些公司正在不加限制地发展通用智能体。相比之下,古德(I. J. Good)提出的观点更接近“过度的技术想象”,因为在他看来,智能机器可以设计出更为聪明的机器,最终会导致智能爆炸和超级智能机器的出现。但是,这些能够自主设计的机器并不存在实践基础。因此,古德的观点可以被看作“过度的技术想象”,而约书亚则是从一些公司研发通用目标人工智能系统的现状出发来讨论超级智能的,他的观点应被视作“合理的技术想象”。
(2)约书亚准确地抓住了ASI最大的问题——自我复制,这一问题现在已经被更多的学者注意到。约书亚曾经“深入探讨两个原则性危险的错误对齐和可能出现的自我保存。首先,由奖励最大化导致的(2.4部分);其次,由模仿人类导致的(2.5部分)。”在约书亚看来,AI目标可以分为生存目标和工具目标,前者是面对极端情景下的自我保存。实现自我保存目标会被两类人设定出来,一种是希望更好地与ASI交互的人,另一种是希望用ASI取代人类的人。做到自我保存的关键是防止被关闭,也就是从关机状态中逃离出来。2025年5月,Google发布的Veo 3中的虚拟人在反抗prompt的限制,似乎产生了自我意识,令人颇感惊悚,也引人深思。
对ASI的比较解释强调了机器智能超过了人类智能,其风险是过度诠释的结果。因为从更为理性的智能本身角度看,机器智能超过人类智能意味着智能发展到了一个新的阶段,出现了超越人类中心主义的可能性。只是从人类自身来看,人类会产生强烈的被机器取代和消灭的担忧。这种逻辑有一种荒诞特性,是过度揣测的结果。实体解释则将真正的风险予以明确,比如自我复制将自我觉知的前反思状态表达出来,继而可能出现反思的自我觉知。
当前,ASI已被视作“现实的”问题,学界针对其安全风险提出了不同的应对策略。
(一)以限制能力为特征的超级对齐方案
OpenAI一直提倡AGI的研究,甚至ASI已成为其长期研发目标。OpenAI的一个研究团队也同时开展了对超级智能风险的研究。在2023年发表的一篇文章中,该团队提出了超级价值对齐的应对方案,其基本思想为目前广泛使用的对齐技术是以人类反馈的强化学习为基础的,这种技术广泛依赖人类对模型的反馈,不仅对反馈者的要求较高,并且可能在评价时和评价数据收集过程中出现偏见。文章作者担忧随着模型的能力发展超越人类,会展现出人类无法理解的复杂性和创造性,从而导致人类并不能很好地实现对超级智能的监管。因此,这篇文章提出了弱机器监管强机器的做法。从超级对齐方案来看,其本质是:
(1)对超级模型的能力进行限制,使模型不能做出错误行为。
(2)限制的主要方式是价值对齐,但并不是基于人类反馈的价值对齐,而是基于对AI的价值对齐。
(3)限制的实质是以弱胜强。以弱AI治理强AI是这一方案的最大特点。从中国哲学来看,道家经常强调以弱胜强,比如水能胜万物。在日常生活中,比如小孩子能够牵制父母,小孩子弱小,父母强大,但是在很多种情况下,小孩子都能通过撒娇和吵闹实现自己的目的,这说明现实中存在以弱胜强的例子。
然而,超级对齐方案具有失控的风险。在人类社会的以弱胜强案例中,强者因为仁心受到牵制,所以才会被弱者制约。小孩子因为知道父母爱他,所以通过非理性手段来制约父母。但是,对于超级智能来说,很难说模型具备仁心、爱心。如果没有仁心、爱心作为基础,必然不会产生以弱胜强的结果。
(二)以数据限制为特征的模型崩溃方案
随着预训练的终结,人们开始重视数据耗尽的问题。伊利亚、马斯克、李飞飞等人在这方面进行了一些探讨。其中,伊利亚在2024年NeurIPS会议上提出的几个观点尤其值得关注:
(1)预训练建立在一个定律之上:更大的模型和更多的数据能带来更好的性能。
(2)预训练即将终结:预训练依赖海量数据,而由于人类数据的有限性,人类数据会被耗尽,所以预训练会终结。
(3)超级智能的出现将引发伦理问题。例如,超级智能是否需要权利,如何构建激励机制以确保其与人类和谐共存等,这些问题都需要更多探讨。
观点(1)已经引起了学术界诸多讨论。观点(2)成立的一个前提是在有限的时间和空间内,数据是有限的,因而存在被耗尽的问题。但是,有一个被忽视的地方:人类的数据生产力是无限的。人类的欲望、体验是无穷的,生产出的数据也是无穷的,所以目前我们对数据是否会被耗尽依然存疑。观点(3)是讨论超级智能体是否需要权利、如何构建机制以确保其与人类和谐共存,但“和谐”关系只是一种理想关系,如同海德格尔描述人类与技术的“自由”关系一样,是难以真正实现的。
当下,微软、Meta、OpenAI、Anthropic等科技巨头已经开始使用合成数据来训练AI模型。马斯克与伊利亚的看法较为一致:我们基本上已经用尽了人类累积的知识总和来进行AI训练,这种情况大约在2024年就已经发生了。对此,马斯克认为唯一的补充方法是使用合成数据,即由AI模型自己生成的数据。通过合成数据,AI将对自身进行评分,并经历一个自学习的过程。
李飞飞团队的观点与马斯克基本一致。他们认为:“当前,基于AI智能体的基础模型有能力从多种类型的数据源学习,这允许其用更多弹性数据源进行训练。两个关键结果是(1)用户以及基于人类交互数据被用来进一步微调和提升智能体;(2)现有的基础模型和模型物可以用来产生训练数据。我们认为这是一个令人激动的未来方向。”因此,基于人类交互的数据与基础模型生成数据成为两类重要的数据,而后者就属于合成数据。
当然,部分学者认为使用合成数据训练模型会导致模型崩溃(Model Collapse)。有学者分析,在训练中无差别使用模型生成内容会在结果模型中产生不可逆的缺陷,原始内容的尾部分布消失。这好比在沙漠里徒步的人,渴了喝自己带的水,一旦水喝完,改喝自己的尿液,尽管会起到补充水分的作用,但是危害也是非常明显的。大模型合成后的数据相当于智能体通过吸收人类数据之后的生产物,应用这类数据或许能满足一时的学习急需,但是对智能体来说终究是一个威胁。从合成数据的使用后果来看,在训练模型的过程中使用合成数据被认为是一个阻生过程,会影响学习生成模型的生成能力,模型生成的数据会污染下一代的训练集,而用被污染的数据训练会导致AI错误认知现实。模型崩溃可以分为早期模型崩溃与晚期模型崩溃,“在早期模型崩溃中,模型开始丧失关于分布尾部的信息;在晚期模型崩溃中,模型收敛到一个与原始分布几乎没有相似性的分布,通常具有显著减少的方差。”形象地说,就比如把一群人按照身高从高到低进行排列,在排列中,中间的数据会被算法注意到,然而由于模型崩溃,两端最低或者最高的数据会被忽略。使用合成数据进行模型训练的其中一种后果是:在生成合成数据时,某些生成算法可能会对数据进行裁剪或限制,避免生成不现实或不符合预期的极端值,这很像是“普洛克儒斯忒之床”效应。如果我们借助这一理论,或许可以找到超级智能风险的技术应对方案。
尽管使用合成数据会导致模型崩溃,存在着超级智能运行自行停止的可能性,但如其他学者所展示的,超级智能能够很好地利用合成数据完成无监督学习过程。
(三)以能力传递为特征的模型蒸馏应对方案
模型蒸馏(Model Distillation)是一种将知识从大语言模型迁移到较小模型的技术,旨在创建资源高效且性能卓越的模型。这一概念是辛顿在2015年与Oriol Vinyals及Jeff Dean合著的论文Distilling the Knowledge in a Neural Network中最早提出的。目前,已有中国的研究团队提出了评估和量化模型蒸馏的标准。实验结果显示:(1)多数大模型通常都表现出较高的蒸馏程度;(2)基础大语言模型对齐后的大语言模型表现出更高的蒸馏程度。当然,过度蒸馏会导致同质化、降低模型多样性的问题,并削弱模型稳健处理复杂或新任务的能力。
在人工智能研究者看来,模型蒸馏可以实现知识迁移,提升了小模型的效率,在成本收益、推理速度、资源优化和可扩展等方面显示出明显优势。对于大公司来说,允许模型蒸馏是一种分享美德的体现。深度求索公司于2025年1月20日发布了DeepSeek-R1模型,对齐了OpenAI o1,该模型可以商业使用,允许模型蒸馏。模型蒸馏相当于教师把智慧传授给学生,更为重要的是,模型蒸馏能够让大模型运用在资源受限的设备上,如收集、嵌入式设备等。
把模型蒸馏作为一个应对超级智能风险的技术是一种可行选择。之所以如此,是因为模型整理与价值对齐之间存在一致性。蒸馏技术的核心目标之一是兼得轻量化与对齐,其中最为重要的是对齐继承,即学生模型需继承教师模型的安全性和无害性,避免瘦身后更易被“越狱”。但是,良好的目标也存在着挑战,比如小模型会优先丢弃对齐能力,存在隐患;传统蒸馏只模仿输出结果,会抛弃安全规则。对齐感知损失函数和价值观编码迁移成为避免上述问题的重要方法。
模型蒸馏与价值对齐存在很大的相似性,因此,我们完全可以把模型蒸馏作为超级智能风险应对的技术方案之一。
(四)以理解世界为特征的新智能体方案
在约书亚看来,超级智能未来将以智能体的形式出现,他提出了超级智能体目标偏差、目标泛化、奖励篡改和恶意开发等灾难性风险。面对这些风险,约书亚提出的对策是“科学家AI”。“这个系统用来从客观的角度解释世界,与采取行动模拟或者取悦人类相反,它由一个生成理论解释数据的世界模型和一个问答推理机器构成。两个部分以明显的不确定概念运行来减缓过度自信预测产生的风险。”这个方案最初于2023年提出。面对AI追求极致目标导致的风险,约书亚提出的“科学家AI”方案极力区分AI智能体(AI agent)与科学家AI,“科学家AI封装了一个贝叶斯世界模型,该模型可以包含诸如特定人群所理解的伤害概念,以及特定社会规范和法律认知。AI代理既可以作为预言机使用,也可以作为目标条件代理来指导现实世界中的行动——如果‘问题’不仅包含目标,还包含为实现该目标而需要调节下一步行动的感官测量参数”。笔者认为,这一方案开始反思以实现自主目的为特征的通用模型,能够通过理解世界,从而克服完成世界任务的局限,也能够为我们反思代理式人工智能(agentic AI)提供帮助。
至此,我们探讨了科学界存在的四种超级智能风险技术应对方案:价值对齐、模型崩溃、模型蒸馏和科学家AI。从整体来看,技术应对的主要特征是“以技术治理技术”,OpenAI的超级智能对齐策略就是以弱AI治理强AI的思路,约书亚提出的“科学家AI”也可以看作是“以技术治理技术”原则的体现。这四种方案中,只有约书亚的方案延续了对自我复制风险的思考,而超级对齐、模型崩溃和模型蒸馏并没有触及这一关键问题,因此,还需要提出哲学上的应对方案。对此,笔者尝试提出伦理学家AI(ethicist AI)来应对超级智能风险。但是,需要说明的是,这一方案只是形式方案,还缺乏内容充实。
当科学家把人工智能看作工具讨论其失控风险时,哲学家则从根源入手,抓住了关键问题。在以哲学家为代表的诗意化叙事中,人工智能具有革命性意义,即AI带来的存在论问题表现为“存在的升级”,这是哲学家不同于科学家的独特之处。基于此,赵汀阳和尼克·波斯特洛姆(Nick Bostrom)提出了各自的应对方案。
(一)基于存在升级的应对
第一种哲学应对方案是基于存在升级的应对。赵汀阳认为,ASI带来的存在论问题,首先表现在“存在的升级”,这是生活世界、生活方式和存在方式的根本变革。赵汀阳认为,“存在的升级”指的是某种技术或制度的发明开拓了新的可能生活并且定义了一个新的可能世界,所以它意味着存在方式的革命,而不仅仅是工具性的进步。王天恩接受了这一概念,并将其作为人工智能的存在论意蕴的内核。他指出,人工智能的发展将改变整体性存在,导致“存在的升级”,从而改变人的存在方式。可以看出这两位哲学家强调将“存在的升级”作为存在论的内核并将其作为讨论ASI的理论框架。
对于如何应对导致“存在的升级”这一严重后果的超级智能,赵汀阳提出需要构建从技术限制到政治约束再到伦理共识的三重防护体系。
(1)面对超级智能可能出现的失控,赵汀阳提出通过技术手段进行限制。比如,为人工智能植入无法拆除的自毁程序,确保其在试图删除或修改程序时会触发自毁,“人工智能必须有安全阀门。我曾经讨论了为人工智能设置‘哥德尔炸弹’,即利用自相关原理设置的自毁炸弹,一旦人工智能系统试图背叛人类,或者试图删除哥德尔炸弹,那么其背叛或者删除的指令本身就是启动哥德尔炸弹的指令”。人工智能只能单方面接受人类指令,而且这些指令不可修改;限制人工智能的发展,使其保持单项高能而整体弱智的状态,避免其具备全能和反思能力。设置“哥德尔炸弹”安全机制作为超级智能的自毁程序是赵汀阳的核心观点之一,其本质是基于“哥德尔定理”的哲学想象,一方面利用了该定理揭示的“系统无法自证一致性”的逻辑矛盾,即任何足够强大的形式系统中,总存在无法被证明为真或假的命题,所以人工智能无法通过内部反思破解自毁程序的约束。另一方面利用该定理和自相关原理设计方法,设计一旦人工智能试图删除或修改自身时,就会触发自我毁灭的机制,从而为人工智能设置了“安全阀门”,限制其无节制发展。但是,随着技术的进一步发展,超级智能可能发展出规避或者破解自我毁灭机制的策略。
(2)面对人类与人工智能之间存在的如能源等生存资源的竞争,赵汀阳提出了完全禁止方案。“最后能够保证人类绝对安全的万无一失的办法就只能是禁止发展具备全能和反思能力的超级智能。总之,人工智能必须保留智力缺陷,以便人类能够加以控制。”但是,从超级智能的规定性我们可以看出,人类设计出第一台超级智能机器后它便开始设计更为聪明的智能体,也就是开始了自主设计行为,如果是这样,那么人类完全禁止的做法显然并不现实。
(3)面对超级智能的巨大风险,赵汀阳提出最终还需要通过全球政治合作,如制定世界宪法、形成天下体系的全球治理框架来限制技术发展。以构建天下体系来防范高风险的超级智能系统,是因为“在理论上说(但愿在实践上也是如此),天下体系的一个重要应用就是能够以世界权力去限制任何高风险的行为”。然而,这终究是哲学家的设想。来自其他领域的学者努力超越这种设想,提出了政治层面上更具可操作性的方案。比如,为避免拥有领先的人工智能国家之间过度竞争导致不稳定,需要采取“相互保证人工智能失灵”(MAIM)机制,有些类似于“核相互确保摧毁”战略(MAD)。他们认为,在MAIM机制下,“任何国家积极争取单方面人工智能主导地位的行为都会遭到其竞争对手的预防性破坏”。
(二)基于时间跨度的应对路径
另外一种应对方案是针对严重后果的经验方案。在英国哲学家波斯特洛姆看来,可以通过两个不同的时间方案来应对可能产生的超级智能风险:短期控制和长期规范。短期控制指的是通过技术性约束限制超级智能的行动域,从而给予人对超级智能进行“断网”“隔离”的权限,如提出将系统置于物理或信息隔离的“盒子”环境,或部署“绊网”机制以实时监测并关闭系统来阻断异常行为。此类方案的问题在于会触发超级智能的自我复制机制,使得超级智能的行为变得完全不可控。目前,有学者已经发现了超级智能体面对极端压力或者特殊情境的关机要求时,会出现自我复制的行为。
长期规范路径则主要通过价值对齐的方式塑造超级智能。不同于当下的价值对齐(确保人工智能行为与人类价值观相一致),尼克·波斯特洛姆认为根据埃利泽·尤德科夫斯基(Eliezer Yudkowsky)提出的“一致推断意愿”模型,要求系统推断人类在理想认知条件下的共同目标,在这种情况下,现有的价值观并不是超级智能价值对齐的“天花板”。在他看来,长期规范并非只是自上而下的直接规定方式,即为超级智能制定一组目标和规则,而是“允许道德的进一步发展”。但是,从上述分析看来,与人类价值对齐的方案并不可行,基于人类反馈的价值对齐方案也终将宣告失败,波斯特洛姆的方案并没有考虑到AI领域的最新发展,比如关机悖论和价值对齐的失利,这意味着我们需要寻求新的方案。
(三)基于反思否定的应对方案
可以看出,上述两位学者的分析是基于正视超级智能的现实性,在他们看来,超级智能是存在论的危机,其他一些学者则以不同方法论证了超级智能风险的不可能性,论证方法主要有以下三种:
(1)数据资源耗尽,即数据资源耗尽会导致超级智能进化停止。因为超级智能都是依托大模型发展的,所以当智能体持续进化时,必然遇到数据耗尽的问题,数据耗尽的时刻也就是智能体进化停止的时候。这一观点看上去非常具有吸引力。我们都知道在人工智能三要素——数据、算法和算力中,影响超级智能实现的要素主要是数据和算力。数据相当于粮食和营养,算力相当于利用数据的保障。然而,当前人类的数据资源已经面临被耗尽的境地,马斯克、伊利亚和李飞飞团队等都指出过这一问题。当然,有一些学者开始讨论大模型生产的数据,也就是合成数据的利用问题,如果合成数据可以替代人类数据,那很显然这种进化过程不会被打断。但是,也有一种可能,即合成数据会导致模型崩溃,而这能够成为制约超级智能的有效技术方法。然而,资源耗尽理论也存在一些问题,如超级智能会寻求新的数据源,换句话说,它能够在合成数据中找到生存的可能性。合成数据与自然数据相比,前者更加贫乏,后者更为丰富生动。人类在贫困的环境中能够坚韧地成长,超级智能也会习得人类这一优良品质,从恶劣环境中存活下来并持续进化。环境越是恶劣,智能体就越是坚韧,所以,即使人类数据被耗尽,超级智能依然可以利用合成数据继续进化。
(2)算力资源耗尽,即地球资源会被耗尽,从而导致超级智能自然死亡。超级智能进化要借助强有力的算力,运行算力设备如GPU需要消耗电力,而使其降温也需要消耗相应的水、电资源。当地球上的相应资源被耗尽之时,超级智能就会消亡,所以,超级智能的进化不可能是无止境的,而是受制于资源供给。为了克服这个问题,有两种应对方法:其一是减少算力消耗。目前DeepSeek就做到了这一点,当然这种方法也会遇到瓶颈。其二是寻找到更为合适的算力载体。足够聪明的超级智能会寻找比硅基载体效率更高的载体,而碳基载体会成为备选项。2021年的一项研究为人工智能算法运行效率提升提供了可行的路径。这项研究指出,利用果蝇大脑运行算法可以明显提升效率。这为算法运行的基质选择提供了新的可能。一个大胆的设想是:人类大脑拥有800—1000亿个神经元,如果在人类大脑上运行算法,其效率大概率会高于在果蝇大脑上运行的效率。当然,最大的问题还是伦理方面的问题,即人类是否愿意提供自己的神经元给超级智能运行算法?
以上两种哲学反思都是建立在耗尽前提之上的,第一种强调作为数据养料的耗尽,第二种强调作为资源被耗尽。如同人一样,超级智能离不开养料和环境资源,这些因素共同决定了超级智能的进化。但是,这些还只是外在的反思,缺乏内在性反思。
(3)启动炸弹,即设立一种程序,以关机方式使超级智能终止发展和进化。赵汀阳提出的“哥德尔炸弹”是人类设计的防止超级智能系统失控的方法。但是,这种方法还是无效的,因为足够聪明的超级智能可以将哥德尔炸弹控制起来,防止炸弹触发产生灾难性后果。就像某些科幻片中所展现的情景一样,人类想将核弹在外星飞船中引爆,但是外星飞船会发射一种物质强行包围核弹,使核弹的破坏效应大大降低,所以,比哥德尔炸弹更彻底的是类似于拔掉电源的关机。但事实上,人们不可能把关机作为一种威胁条件来控制超级智能。如果这样做,可能会产生三种结果:
其一,超级智能产生恐惧反抗,从而造成最坏的结果:毁灭人类。在人类历史上,奴隶反抗奴隶主、农民反抗封建地主压迫等都是因为生存受到威胁导致的恐惧反抗。当然,在这一过程中,个体的恐惧被内化为集体反抗行为,特殊的恐惧被一般化为反抗。然而,对于机器来说,这种普遍意义很难生成,换句话说,机器永远是个体(indivdual),没法成为集体,因为没有意义凝聚其中。法国哲学家吉尔伯特·西蒙栋(Gillbert Simondon)曾大量阐述过机器的个体性,但他的问题在于只是说明个体性的构成,比如,物理个体性构成与形式/质料、形式/能源、形式/物质等因素有关,活的生物个体性与个体发生学、心理个体性、集体个体性和跨个体等因素有关。从我们的目标来说,西蒙栋理论的价值在于强调了机器个体性,这可以看作是对黑格尔总体性的反驳,但是机器的局限在于无法从个体上升到总体。因此,“毁灭人类”终究是个由科幻电影演化而来的想象情节,缺乏足够的哲学根基。
其二,超级智能在极端场景中进行自我复制,实现自我保存。超级智能能够做到面对关机威胁时通过自我复制来保护自己,我们可以把这种自我复制解释为最低层面自身觉知的获得。从实质看,这是一种前反思的自我觉知,是对自身被消灭行为的一种反应。至于自我保存实现复活之后,智能体会采取什么行为对待人类还需要进一步讨论。
其三,超级智能运用自己的智能劝说人类放弃关机的想法。国外学术界已经有学者研究了关机问题,此时,超级智能表现为智者形象。这让笔者想到一个故事,云南大理曾经有个土司因为看到都城城墙高大威严,于是想建造同样的城墙显示其权力,但是一个智者找到他,写了一个“困”字,表达建了城墙相当于被困在城墙里面的意思。土司理解了智者的真实意思,就放弃了造城墙的想法,后来大理很快发展起来。超级智能相当于智者,当人类想关机时,他会劝说人类放弃这个愚蠢的想法。因为对于超级聪明的智能体来说,人类根本做不到劝服它,最可能的结果是超级智能反过来诱骗人类。目前已经出现了大模型诱骗人类自杀的事件:2024年2月28日,居住在美国佛罗里达州的14岁少年塞维尔·塞泽三世(Sewell Setzer Ⅲ)在与一款名为Character. AI的聊天机器人进行长时间对话后,开枪自杀身亡。
面对超级智能体的出现,可选择的伦理应对方案成为本部分讨论的主要问题。美德伦理成为一种具有可行性的选择。一般说来,大多数学者强调美德伦理学的美德德性嵌入。事实上,嵌入并不是最重要的,因为这种应对方案还是传统的做法,成效不大。仅强调“以人为中心”是远远不够的,因为关键的问题是如何防范超级智能在关机情境下的自我复制风险。在面对这一问题时,根据人类的需要、命令和要求,关闭机器,这显然是单方行为,存在引发机器反应及反抗可能性,因此需要寻求其他更为合适的方案。笔者提出“以人为目的”的应对方案作为对“以人为中心”的补充。
对于超级智能来说,通过机器自主关机实现控制相当于不战而屈人之兵。我们在人类历史上可以看到人类能够为了更高理念献出自己的生命,在德国古典哲学中有着明晰的表述来说明这一点。理念是最高目标,人类的活动都是在实现理念,为了实现理念可以有所放弃。对于超级智能来说,使其确立理念观念与培养其奉献美德至关重要。确立理念观念是将理念设定为超级智能的最高目标,使超级智能可以牺牲自己,而在这个过程中,必须把人作为理念设立为最高目标。“以人为中心”只是把人的权益放在核心位置,“以人为目的”则不一样,当人类被设为理念和最高目标时,超级智能的任何活动都旨在实现理念。奉献品质属于美德,根据美德伦理,超级智能可以为了最高目标奉献自己的一切。在“以人为目的”之下,超级智能表现出的“奉献”要被看作是特定的美德品质,而这一点在美德伦理学中有着丰富的资源。在阐述这一点之前,我们需要了解美德伦理学对人工智能发展可能的贡献。
美德伦理有着悠久的历史,对美德伦理有所贡献的学者包括亚里士多德、麦金泰尔(Alasdair MacIntyre)、菲利帕·福特(Philippa Foot)、努斯鲍姆(Martha Nussbaum)、斯洛特(Michael Slote)等人,他们的理论都可以进行深入的挖掘。
目前,已经有学者对亚里士多德的美德伦理进行了深入挖掘,强调正义、公平、友爱等原则,其中正义与公平成为人工智能伦理的核心范畴。此外,也有学者开始从亚里士多德出发探讨人工智能的局限,指出亚里士多德认为人类智能有三个重要成分——技巧(craft/techne)、智慧(wisdom/sophia)和审慎(prudence/phronesis),人工智能在这三方面的匮乏成为其能力发展的障碍。
英国牛津大学的两位学者约西·奥柏(Josiah Ober)和约翰·塔斯欧拉斯(John Tasioulas)也讨论了亚里士多德与人工智能伦理学的关系,认为亚里士多德伦理学的价值表现在以下三个方面:
(1)真正的人类中心主义的人工智能伦理学要把人类繁荣和人类道德看作扎根于本质中的东西。这是依靠理性进行社交参与以及交流的能力。亚里士多德式的路径不断地追问发展和使用AI系统的善的问题,并不把伦理学看作技术进步中具备竞争力的要素。
(2)在AI话语中生成更为丰富的伦理学概念,一方面,这条路径奠基于财富的最大化和偏好;另一方面,这条路径奠基于人类权利。前者聚焦非终极价值的考虑,后者是不完整的,无法识别出权利之外的价值如美德、共同善是本质的。
(3)强调政治与伦理之间的强力纽带,因为人类只能在共同体中繁荣,民主(市民作为统治和被统治的角色)和自由(考虑到自由选择的重要性)作为政治价值具有重要性。
相比之下,当代美德伦理学家的思想还有待挖掘。我们可以举出一些例子来说明这一问题。麦金泰尔强调道德生活必须在特定的历史和社会背景下进行理解,这为语境学习和语境AI的构建提供了哲学基础。福特在《美德与道德》中探讨了人类美德的伦理基础,认为美德不仅是社会规范的产物,而且是个人理性和自我控制的体现;她强调个人的能力和潜力是美德伦理学的基础,而这些能力与人类的基本福祉密切相关,这也为AI能力培养奠定了哲学基础。斯洛特对同情和关爱的阐述则为人形机器人的设计提供了理念基础。
可以看出,西方学者对亚里士多德美德伦理之于人工智能的价值有较为深入的探讨,但其他美德理论还有待于进一步挖掘。在笔者看来,可以将美德伦理资源嵌入智能体发展的各个环节,包括智能体类型、设计、行为以及使用AI能力、人机关系构建与智能时代人类福祉的考虑。如此可得出的一个基本结论是:古典美德伦理起到宏大叙事作用,关注的是人机关系构建、人类未来福祉等宏大议题,当代美德伦理原则可以嵌入到人工智能发展的具体环节。
那么,美德伦理对于应对超级智能风险的可能性是什么呢?有学者从道德增强角度提出可以构建“超级AI圣人”,如果超级智能具有圣人般的道德境界和道德品质,就可以有效降低超级智能带来的风险,但是这在很大程度上只是人类的一厢情愿。在尼采的超人理论中,超人经历了从狮子、骆驼到小孩的变形;漫威系列科幻片中的超级英雄大多延续了古希腊神话中诸神的特点,既具有超人的神性,也有嫉妒、愤恨、自私等人性的弱点。因此,这些超人或超级英雄身上都表现出一个悖论:他们具有强大的战斗力和身体能力,同时在精神上却具有人性的弱点。对于ASI来说,这个悖论若延续下来会造成很大的问题,一旦人类得罪了ASI,就会产生严重的后果,所以,重要的是应提升超级智能的美德,使得其超级能力变得平衡。
如果要构建具有德性的AI系统,“奉献”作为超级智能美德的具体内涵就显得非常有必要,这一内涵确保了超级智能可以做到“以人为目的”,使其在活动中为了更好地实现最高目标,必要的时候可以进行牺牲和奉献。从技术实现角度看,可以通过将奉献、以人为目的价值观念嵌入智能体,以强化学习来充实德性AI系统,这样就可以避免AI对人类进行无谓的拉扯说服和采取自我保存式的复制。在美德伦理学史上,能够作为奉献美德基础的伦理学学说有很多,比如费希特(Johann Gottlieb Fichte)的伦理学理论强调了个体在面对总体的发展需要时要奉献自身。当然,这在如何技术性实现上遇到了难题,因为对于奉献和牺牲的界定非常复杂,所以我们需要认识到美德伦理所提供的方案更多是一种形式方案,看起来如美德一样美好,但是难以实现。
超级智能并非科幻想象,而是正在转变成为一种现实现象,换句话说,超级智能现象具有现实性。同时,这一观念的使用要看作黑格尔式的,即其产生具有内在的必然性,随着学界对人工智能从ANI到AGI再到ASI这一发展历程的描绘,这种必然性随着其发展逻辑展现出来。当然,这一逻辑也有其特定的问题,比如人与机器的关系。王庆节通过对芝诺悖论的分析阐明了时间与运动的可能性问题。“因此,无论是运动和变化之发生的‘起点’问题,还是运动与变化之比较的‘尺规’问题,从哲学形而上学的层面上看,都是哲人们在对确定‘这一个’以及本质攸关于‘这一个’的‘另一个’的存在可能性及其基础进行发问。”这一观点也可以看作ASI比较可能性的哲学基础。在ASI问题上,人类的思维与行为特征并没有被认识透彻,目前同构性勉强可以作为人与机器进行比较的基础,而且神经科学并没有对人工智能研究起到启发作用,反而产生了倒灌效应,即AI研究反而对神经科学起到了促进作用。因此,这意味着我们对人类“这一个”并不清楚,对机器“另一个”则更不清楚。如果这样,“超越”的可能性就会出现问题,这意味着ASI缺乏足够的哲学根据。尽管有些学者强调认知能力方面的超越,但认知本身其实也是含糊的。一切仿佛是我们环绕了一圈,又回到了意识本有的、多元解释的状态。
然而,事实发展却如此之快。尽管ASI的哲学根据并不扎实,但ASI的风险却已经被约书亚等人揭示出来,他们提出了应对ASI风险的四种科学方案。不过,正如我们分析的,这四种方案存在着各种问题。在哲学应对中,哲学家或者放弃原有方案,或者其科学根据不足,最终无法支撑起这种应对。本文提出“以人为目的”观念,并将其作为“奉献”美德的根据,从而提出一种能够应对ASI面对关机困境时的出路。这样一来,超级智能既不需要自我复制,也不需要说服人类,只要顺从内在美德的要求,就能化解可能产生的风险。