人工智能安全与去启蒙时代

模型许可和监控可能会适得其反,以不可持续的方式集中权力
ai-in-society
作者

Jeremy Howard

发布日期

2023年7月10日

摘要

严格的人工智能模型许可和监控提案可能无效或适得其反,以不可持续的方式集中权力,并可能使启蒙时代取得的社会进步倒退。捍卫社会与赋权社会自卫之间的平衡是微妙的。我们应倡导开放、谦逊和广泛协商,以制定更符合我们原则和价值观的应对措施——这些应对措施应随着我们对这项可能对社会产生好坏转化的技术了解的加深而演变。

执行摘要

人工智能发展迅速,我们不知道未来会实现什么。OpenAI 首席执行官 Sam Altman 认为人工智能可能“捕捉宇宙中未来所有价值的光锥”。但也可能出错,一些专家警告“人工智能带来的灭绝风险”。

这使得许多人提出监管人工智能的方法,包括白皮书“前沿人工智能监管:管理公共安全的新兴风险”(我们简称其为“FAR”)以及欧盟人工智能法案的议会版本,其内容如下:

  • 制定人工智能模型的开发部署标准,并
  • 建立机制确保遵守这些标准。

然而,其他专家反驳道:“对 x 风险(生存风险)的关注太多了……这‘挤压了更紧迫问题的空间’,并悄悄地给专注于其他当前风险的研究人员带来了社会压力。”

尽管当前的风险也很重要,但人类灭绝的威胁是否意味着我们无论如何都应该继续推行这类监管?

或许不是。正如我们将看到的,如果人工智能强大到足以构成灾难性威胁,该提案可能实际上没有任何帮助。事实上,它可能会让事情变得更糟,因为它会造成严重的权力失衡,从而导致社会崩溃。这些担忧适用于所有试图确保模型本身(“开发”)安全,而不仅仅是使用方式的监管。这些监管措施的影响可能无法逆转,因此我们在立法之前应极其谨慎。

FAR 和人工智能法案旨在规范的模型开发类型是“基础模型”——一种通用人工智能,可以(在不同程度上)处理你交给它的几乎任何问题。没有任何方法可以确保任何通用设备(比如,一台电脑,或一支笔)永远不会被用来造成伤害。因此,确保人工智能模型不会被滥用的唯一方法是确保没有人可以直接使用它们。相反,它们必须被限制在一个严格控制的狭窄服务接口中(比如 ChatGPT,一个连接到 GPT-4 的接口)。

但是,那些拥有人工智能模型完全访问权的人(例如那些提供服务的公司内部人员)相比那些仅限于“安全”接口的人拥有巨大优势。如果人工智能变得极其强大,那么模型的完全访问权对于需要保持竞争力的人以及那些希望造成伤害的人来说至关重要。他们可以简单地从头开始训练自己的模型,或者通过敲诈、贿赂或盗窃的方式窃取现有模型。这可能导致这样的社会:只有拥有巨大资源来训练基础模型、或者道德沦丧到可以窃取模型的人,才能获得人类最强大的技术。这些群体可能比任何国家都更强大。历史上,巨大的权力差距曾导致暴力和整个社会的屈从。

如果我们现在以“安全”之名加强权力中心化的方式进行监管,我们可能会冒着使启蒙时代的成果倒退的风险,进入一个新时代:去启蒙时代。相反,我们可以保持启蒙思想的开放和信任,例如通过支持开源模型开发。开源通过广泛参与和分享,实现了巨大的技术进步。或许开放人工智能模型也能做到这一点。广泛参与可以使更多拥有广泛专业知识的人帮助识别和应对威胁,从而提高整体安全性——正如我们之前在网络安全等领域看到的那样。

我们现在可以采取干预措施,包括欧盟人工智能法案中提出的对“高风险应用”的监管。通过监管应用,我们可以关注实际的危害,并让最负责任的人直接承担责任。人工智能法案中的另一种有用方法是监管披露,以确保模型使用者拥有正确使用它们所需的信息。

人工智能的影响是复杂的,因此不太可能有万灵药。在我们创建先进人工智能之前,我们无法真正理解其影响。因此,我们不应急于监管这项技术,而应小心避免那种治病带来的害处比疾病本身还大的情况。

大问题

能力日益强大的人工智能的快速发展使得许多人寻求保护,也有许多人提供保护。最新的成果是一份白皮书,题为:“前沿人工智能监管:管理公共安全的新兴风险”(简称 FAR)。该论文的许多作者与 OpenAI 和 Google 以及由 OpenAI 和 Google 投资者资助的各种组织有关联。FAR 声称,“政府的参与将是必需的,以确保此类‘前沿人工智能模型’被用于公共利益。”但我们真的能确保这一点吗?代价是什么?

FAR 未能解决一个巨大、显而易见的问题。1

任何能够完全访问强大人工智能模型完整版本的人,都比只能通过受限服务访问该模型的人拥有更大的权力。但很少有人能获得模型的完整访问权。如果人工智能变得极其强大,这种巨大的权力差异将是不可持续的。

FAR 中提出的监管方案表面上似乎满足了各种安全要求,但最终会导致大量权力集中在现有公司手中(因为他们可以接触到原始模型),使他们相对于所有其他参与者(包括寻求监管或限制它们的政府)拥有信息不对称的优势。这可能导致社会崩溃。

原因如下:因为这些模型是通用计算设备,所以不可能保证它们不会被用于有害应用。这就像试图制造一台不会被滥用的电脑(例如用于发送敲诈威胁的电子邮件)一样。原始的完整模型远比基于它构建的任何“确保安全”的服务强大得多。原始的完整模型是通用的:它可以用于任何事情。但如果你给某人一台通用计算设备,你就无法确定他们不会用它来造成伤害。

因此,你可以提供对服务的访问,该服务提供了一个通往完整模型的小窗口。例如,OpenAI 为公众提供了一个严格控制和调整的基于文本的 GPT-4 对话界面,但没有提供对 GPT-4 模型本身的完全访问。

如果你控制了一个强大的模型,它媒介着所有信息的消费和生产,2并且这是一个商业秘密,你就可以塑造人们的信仰、行为方式——并随意审查任何内容。

FAR 中倡导的思想最终将导致人工智能的前沿领域无法为少数几家公司以外的所有人所及,这些公司的统治地位将因这些思想而被神圣化。这对社会来说是一条极其危险和脆弱的道路。

竞赛

让我们回顾一下这些监管提案下会发生什么。我们拥有世界上最强大的技术,它一直在快速发展,但只有少数几家大公司能够获得这项技术的最强大版本,允许它以不受限制的方式使用。

接下来会发生什么?

显然,现在所有关心权力和金钱的人都迫切需要找到一种方法来完全访问这些模型。毕竟,任何没有完全访问历史上最强大技术的人都无法竞争。对他们来说好消息是,模型实际上只是一堆数字。它们可以非常容易地复制,一旦你获得了它们,你就可以免费分发给你的所有朋友。(FAR 有一整个章节讨论这个问题,称之为“扩散问题”。)

周围有很多关于数据窃取的专家,他们知道如何利用敲诈、贿赂、社会工程以及经验告诉我们非常有效的各种其他方法。对于那些选择不使用这些令人不齿的方法,但拥有资源的人来说,他们也可以通过花费大约 1 亿美元加入拥有人工智能能力者的行列。3即使是财富全球 2000 强中最小的公司,年收入也有 70 亿美元,这笔支出完全在其预算之内。当然,大多数国家政府也能承担这笔费用。当然,这些组织都不能在不违反拟议监管要求的情况下直接向公众提供这些模型,但根据定义,每个组织中至少有一些人能够获得完整模型的强大能力。

那些渴望权力和财富但未能获得模型权重的人,现在有了一个新目标:在拥有大型模型的组织中获得权力地位,或者在制定这些决定的政府部门中获得权力地位。那些最初出于善意试图为社会利益开发人工智能的组织,随着其发展壮大,很快就会发现自己成为所有公司都会加入的追逐企业利润的机器的一部分,由那些擅长追逐利润的人来运营。

事实是,这项整体努力,即试图控制人工智能的使用,是毫无意义且无效的。不仅模型的“扩散”无法控制(因为数字信息太容易窃取和复制了),而且事实证明,限制模型训练所需的计算量也无法强制执行。这是因为现在全世界的人都可以虚拟地联合起来一起训练模型。例如,Together Computer 创建了一个完全去中心化、开放、可扩展的人工智能云,而最近的研究表明,这种方法可以走得很远。

图形处理器(GPU),即用于训练模型的实际硬件,与用于玩电脑游戏的硬件完全相同。目前全球用于游戏的计算能力比用于人工智能的要多。世界各地的玩家可以在自己的电脑上安装一个小型软件,选择参与帮助训练这些开源模型。组织如此大规模的活动将很困难,但并非没有先例,正如 Folding@HomeSETI@Home 等项目的成功所示。

开发人员已经在考虑如何确保普通人能够继续训练这些模型——例如,在最近接受 Lex Fridman 的采访中,Comma.ai 创始人 George Hotz 解释了他的新公司 Tiny Corp 如何致力于开发“Tiny Rack”,他解释说其设计前提是:“你可以在不引起怀疑的情况下,家里能获得的最大电力是多少?其中一个答案是电动汽车充电器。”因此,他正在构建一个使用与汽车充电器相同电量的人工智能模型训练系统。

人工智能安全社区充分认识到这个问题,并提出了各种解决方案。4 例如,人工智能政策专家 Yo Shavit 的一篇近期有影响力的论文,该论文考察了可以添加到计算机芯片中的监控机制,指出

随着先进机器学习系统的能力开始在地缘政治和社会秩序中发挥重要作用,(1)政府能够在其境内强制执行先进机器学习系统开发规则,以及(2)各国能够核实彼此遵守潜在未来先进机器学习开发国际协议的情况,可能会变得势在必行。

任何解决此问题的方法都必须确保所有此类芯片制造商都被要求在其芯片中包含该监控功能,因为显然,如果一家公司未能这样做,那么所有想训练自己强大模型的人都会使用该公司的芯片。Shavit 指出,“在硬件层面彻底执行此类规则将需要监控和管辖公民个人使用其个人电脑的情况,这在道德上是高度不可接受的”。然而,现实是,此类规则是实现中心化和有效控制所必需的,因为只需通过互联网连接个人电脑就可以用来训练大型模型。

当自称人工智能安全运动先驱的 Eliezer Yudkowsky 提议对未经授权的数据中心进行空袭,并威胁以核战争来确保未能控制未经授权计算能力使用的国家遵守规定时,许多人感到震惊。但轰炸数据中心和对全球所有计算机进行监控是确保 FAR 提出的那种安全合规性的唯一方法。5

规范使用,而非开发

Alex Engler 指出了一种替代强制安全标准或模型许可的方法,即“监管危险和有害的应用,而不是开源人工智能模型”。这是大多数法规的运作方式:通过责任。如果有人做了坏事,他们就会惹上麻烦。如果有人创造了一个通用工具,而另一个人用它做了坏事,工具制造者并不会惹上麻烦。“双重用途”技术,如互联网、计算机、笔和纸,并不限于只有大公司才能获得,任何人都可以制造一台计算机,或制作自己的纸。他们不必确保他们制造的东西只能用于社会效益。

这是一个关键的区别:监管使用(即实际将模型投入使用,使其成为某个系统的一部分——特别是像医疗这样高风险的系统)与监管开发(即训练模型的过程)之间的区别。

这种区别之所以关键,是因为这些模型实际上仅仅是数学函数。它们接收一堆数字作为输入,计算并返回另一堆数字。它们本身并不能任何事情——它们只能计算数字。然而,这些计算可以非常有用!事实上,计算机本身只是计算机器(因此得名:“计算器”)。它们在被使用时才有用——也就是说,连接到一个可以实际做事的系统时。

FAR 解决了这一区别,声称“人工智能能力的改进可能不可预测,且通常在没有大量测试的情况下难以完全理解。因此,不要求模型在部署前经过充分测试的监管措施可能无法可靠地防止已部署模型造成严重风险。”这是不合逻辑的。因为模型在没有被使用时无法造成伤害,所以开发模型不能算作有害活动。6此外,因为我们讨论的是通用模型,我们无法确保模型本身的安全性——只能尝试确保模型的使用安全。

另一种有用的监管方法是考虑保护对敏感基础设施的访问,例如化学实验室。FAR 简要考虑了这一想法,称“对于前沿人工智能开发,特定行业的监管可能很有价值,但很可能无法解决一部分高严重性和大规模风险。”但它没有进一步研究,而是基于对剩余风险的“可能”子集的假设,来推广一种我们已经看到可能逆转几个世纪的文化、社会和政治发展的做法。

如果我们能够构建先进的人工智能,我们应该期望它至少能帮助我们识别需要加固的敏感基础设施。如果可以使用此类基础设施造成损害,那么很可能可以识别出来——如果人工智能无法识别它,那么它就无法使用它。当然,实际处理识别出的威胁可能并不直接;例如,如果事实证明一台台式 DNA 打印机可以用来制造危险病原体,那么加固所有这些设备将是一项艰巨的任务。但这比限制全球所有计算设备的工作量要小得多,侵扰性也小得多。

这引出了另一种有用的监管途径:部署披露。如果你考虑将使用人工智能的自动化系统连接到任何敏感基础设施,那么我们应该要求披露这一事实。此外,某些类型的连接和基础设施应事先进行仔细的安全检查和审计。

通往中心化的道路

更好的人工智能可以用来改进人工智能。即使在能力较低、资源较少的算法早期时代,这已经多次出现。谷歌已使用人工智能改进数据中心能源使用方式,创建更优的神经网络架构,并创造更好的方法来优化这些网络中的参数。模型输出已被用于创建训练新模型所用的提示,为这些提示创建模型答案,并解释答案的推理过程。

随着模型变得越来越强大,研究人员将发现更多方法来利用它们改进数据、模型和训练过程。没有理由相信我们已经接近这项技术的极限。没有任何数据可以用来对此能走多远或接下来会发生什么做出明确的预测。

能够完全访问模型的人可以比没有访问权限的人更快更好地构建新模型。一个原因是他们可以充分利用微调、激活等强大功能,并能够直接研究和修改权重。7例如,一篇近期论文发现,微调允许模型以比基础模型少几个数量级的参数解决具有挑战性的问题。

这种反馈循环导致了中心化:大公司变得更大,而其他参与者无法竞争。这导致了中心化、竞争减少,结果是价格更高、创新更少、安全性更低(因为存在单点故障,并且更大的利润动机鼓励冒险行为)。

还有其他强大的力量推动着中心化。例如,考虑一下谷歌。谷歌拥有比地球上任何人都多的数据。更多的数据直接导致更好的基础模型。此外,随着人们使用他们的人工智能服务,他们获得了越来越多的关于这些互动的数据。他们利用人工智能改进产品,使其对用户更具“粘性”,并鼓励更多人使用它们,从而获得更多数据,进一步改进他们的模型和基于这些模型的产品。此外,他们日益垂直整合,因此强大的供应商很少。他们创建自己的 AI 芯片(TPUs),运营自己的数据中心,并开发自己的软件。

对前沿模型开发的监管鼓励更大程度的中心化。特别是许可制度,是 FAR 中提出的一种强大的中心化力量。对前沿模型开发进行许可要求新的进入者必须先申请许可,然后才被允许开发与当前最先进技术同等或更优的模型。这使得与根深蒂固的现有参与者竞争更加困难。而且,这打开了通往监管俘获的极其强大的道路,因为它导致一个非民主的许可委员会在谁能获得建造地球上最强大技术的权力上拥有最终决定权。这样一个机构,结果上,可能成为世界上最强大的群体。

开源与人工智能启蒙的新时代

渴望控制和中心化的安全与确定性的替代方案是,再次承担我们几百年前冒过的风险:相信人性和社会的力量和善良的风险。正如启蒙思想家提出的难题:“如果每个人都接受教育会怎样?如果每个人都有投票权会怎样?”,我们也应该问这个问题:“如果每个人都能获得人工智能的全部力量会怎样?”

需要明确的是:提出这样的问题可能不受欢迎。反启蒙运动是一个持续了百年的强大运动,抵制“进步信念、全人类理性、自由民主和社会日益世俗化”。它依赖于一个关键假设,正如法国哲学家 Joseph de Maistre 阐述的,“一般而言,如果人只依靠自己,他就太邪恶了,不能获得自由。”

从启蒙运动的成果可以看出,这个前提根本是错误的。但这是一个挥之不去的想法。几十年来,社会学家一直在研究和记录“精英恐慌”——即精英倾向于认为普通民众会对灾难做出糟糕反应,因此必须加以控制。但这也是错误的。事实上,这不仅仅是错误,正如 Rebecca Solnit 解释的那样:“我将这些危机时刻视为民众力量和积极社会变革的时刻。我书中主要例子是墨西哥城,1985 年的地震促使公众对一党制产生了不满,从而促进了公民社会的重生。”

当我们应对人工智能滥用威胁时,拥抱对进步和全人类理性的信念会是什么样子?许多专家现在正在研究的一个想法是,开源模型可能是关键。

模型只是软件——它们是作为代码体现的数学函数。当我们复制软件时,我们通常不称之为“扩散”(像 FAR 那样)。这个词通常与核武器联系在一起。当我们复制软件时,我们称之为“安装”、“部署”或“共享”。因为软件可以自由复制,它激发了一个巨大的开源运动,该运动认为这种共享是一种道德善行。当所有人都能受益时,为什么要把价值限制在少数人手中呢?

这个想法非常强大。今天,你使用的几乎每个网站都在运行开源 Web 服务器(如 Apache),而它又安装在开源操作系统(通常是 Linux)上。大多数程序都是用开源编译器编译的,并用开源编辑器编写的。像维基百科这样的开源文档具有变革性意义。起初,这些被视为疯狂的想法,招致了许多怀疑,但最终证明是正确的。简而言之,你今天使用的许多计算机和互联网世界,如果没有开源就不会存在。

如果最强大的人工智能模型都是开源的呢?仍然会有坏人试图利用它们伤害他人或非法致富。但大多数人不是坏人。大多数人会利用这些模型进行创造和保护。有什么比让整个人类社会凭借其巨大的多样性和专业知识,在人工智能的全力支持下,竭尽全力识别和应对威胁更安全的呢?与只有营利公司的一小部分人拥有人工智能模型的完全访问权相比,如果世界顶尖的网络安全、生物武器和社会工程领域的学者能够利用人工智能的好处来研究人工智能安全,并且你可以自己访问和使用他们所有的工作,你会感到安全多少?

为了获得完整模型访问的更好功能,并降低商业控制对一个以前具有分享文化的开放研究社区的影响,开源社区最近介入并训练了一些相当有能力的语言模型。截至 2023 年 7 月,其中最好的模型水平与二线便宜的商业模型相似,但不如 GPT-4 或 Claude。它们的性能正在快速提升,并吸引了富裕捐赠者、政府、大学和寻求避免权力集中并确保获得高质量人工智能模型的公司的日益增长的投资。

然而,FAR 中的安全保证提案与开源前沿模型不兼容。FAR 提议“在安全部署被证明可行之前,避免将前沿人工智能模型的潜在危险能力开源可能是审慎的”。但是,即使一个开源模型与一个监管批准的封闭商业模型以完全相同的方式、使用完全相同的数据进行训练,它仍然永远无法提供相同的安全保证。这是因为,作为一个通用计算设备,任何人都可以用它来做任何他们想做的事情——包括使用新的数据集和新的任务对其进行微调。

开源并非万灵药。这仍然需要谨慎、合作以及深入细致的研究。通过向所有人开放系统,我们确保整个社会既能受益于其能力,也能努力理解并应对其潜在危害。斯坦福大学和普林斯顿大学顶尖的人工智能和政策团队合作回应了美国政府关于人工智能问责制的征求意见请求,声明

为了让基础模型促进公共利益,其开发和部署应确保透明度、支持创新、分散权力并最大限度地减少伤害……我们认为开源基础模型可以实现所有这四个目标,部分原因在于开源的内在优点(支持透明、支持创新、反集中)

此外,他们警告说

如果闭源模型无法被研究人员和技术人员检查,安全漏洞可能在造成损害之前无法被识别……另一方面,跨领域的专家可以检查和分析开源模型,这使得安全漏洞更容易被发现和解决。此外,限制谁可以创建基础模型(FMs)会减少有能力的基础模型的种类,并可能导致复杂系统中的单点故障。

能够获得最好的 AI 模型对于研究 AI 安全至关重要,这一想法实际上是当今两家最先进的 AI 公司:OpenAI 和 Anthropic 的起源故事的基础。许多人对这些公司的高管们高声警告 AI 潜在的生存风险,但他们自己却在构建这些模型感到惊讶。但这并不矛盾——他们解释说,这样做的原因是他们认为,如果没有获得最好的现有模型,就不可能正确理解和减轻 AI 风险。

如今,开源模型的获取正面临严重风险。基于与 FAR 相似的原则,欧洲人工智能法案可能有效禁止开源基础模型。技术创新政策分析师 Alex Engler 在其文章“欧盟监管开源人工智能的尝试适得其反”中写道

理事会监管开源的尝试可能会制造一套复杂的规定,危及开源人工智能的贡献者,而且很可能无法改善通用人工智能(GPAI)的使用。开源人工智能模型通过挑战大型科技公司对通用人工智能的统治,并促进公众对人工智能功能的了解,从而创造巨大的社会价值。

首先,不作恶

FAR 总结道,“关于解决前沿人工智能模型带来的挑战的最佳监管方法的不确定性不应阻碍立即行动”。但也许它们应该阻碍。实际上,人工智能政策专家 Patrick Grady 和 Daniel Castro 正是这样建议的——不要急于采取监管行动

围绕新技术的恐惧遵循一个可预测的轨迹,称为“科技恐慌周期”。随着公众对技术及其益处变得熟悉,恐惧会随时间推移增加、达到顶峰,然后下降。事实上,创意领域的其他先前的“生成性”技术,如印刷机、留声机和电影放映机,都遵循了相同的路径。但与今天不同的是,政策制定者当时不太可能采取很多措施来监管和限制这些技术。随着对生成式人工智能的恐慌进入最不稳定的阶段,政策制定者应该深呼吸,认识到我们正处于可预测的周期中,并暂时搁置任何直接针对生成式人工智能的监管努力。

相反,也许监管者应该考虑希波克拉底的医学指导:“不作恶”。医疗干预可能会产生副作用,有时治疗方法可能比疾病本身更糟糕。有些药物甚至可能损害免疫反应,使身体虚弱到无法抵抗感染。

监管干预也是如此。追求“确保安全”所带来的中心化和监管俘获影响,不仅可能对社会造成直接损害,甚至可能导致安全性下降。如果只有一个大型组织掌握着巨大技术力量的关键,我们就处于一种脆弱的境地,社会其他部分无法获得同样的力量来保护自己。争夺权力甚至可能触发那种导致社会崩溃的人工智能滥用。

人工智能监管的影响将是微妙、复杂且难以预测的。捍卫社会与赋权社会自卫之间的平衡岌岌可危。急于监管似乎不太可能成功走好这根钢丝。

我们还有时间。全人类社会的能力总和是巨大的,人工智能要超越这种能力是一项艰巨的任务。曾多次赢得技术预测竞赛的 OpenAI 技术专家 Ted Sanders,与 GSK 人工智能总监 Ari Allyn-Feuer 一起,完成了一份长达 114 页的深入分析,研究了人工智能开发的时间框架,结论是“我们估计到 2043 年出现变革性通用人工智能(AGI)的可能性小于 1%。”

重要的是,时间过得越多,我们学到的就越多。不仅是关于技术本身,还有社会如何应对它。我们不应急于实施可能将社会推向反乌托邦道路且难以摆脱的监管变革。

关于先进语言模型的人工智能安全的担忧并非新鲜事。早在 2019 年初,我曾撰写“关于人工智能零日威胁和 OpenAI 的 GPT-2 的一些想法”,这是对 OpenAI 当时决定不发布其新语言模型权重的有争议且不寻常决定的回应。在思考这个决定时,我指出

关于这个主题最深入的分析是论文《人工智能的恶意使用》。该论文的主要作者现在在 OpenAI 工作,并深度参与了围绕模型发布的决定。让我们看看该论文的建议:

  1. 政策制定者应与技术研究人员密切合作,调查、预防和减轻人工智能潜在的恶意使用
  2. 人工智能领域的研究人员和工程师应认真对待其工作的双重用途性质,允许与滥用相关的考虑影响研究优先级和规范,并在可预见的有害应用出现时积极联系相关方面。
  3. 应在具有更成熟的双重用途问题应对方法的研究领域(例如计算机安全)中确定最佳实践,并在适用于人工智能的情况下进行借鉴。
  4. 积极寻求扩大参与这些挑战讨论的利益相关者和领域专家的范围。

《人工智能的恶意使用》由来自学术界、公民社会和工业界的 14 个机构的 26 位作者撰写。主要作者如今是 OpenAI 的政策负责人。看到 OpenAI 作为 FAR 的共同创作者,与这些最初的想法相去甚远,这一点很有趣。《恶意使用》论文中的四项建议充满了谦逊——他们认识到有效应对风险需要“积极联系相关方面”,从“具有更成熟的双重用途问题应对方法的研究领域,例如计算机安全”中学习,以及“扩大参与讨论的利益相关者和领域专家的范围”。重点不在于中心化和控制,而在于外联和合作。

机器人末日可能来临的想法引人注目且令人着迷。FAR 警告说,我们必须“警惕模型可能具有情境感知能力和欺骗性”,并链接到一篇文章,该文章声称我们目前的路径“很可能最终导致完全的人工智能接管(即人工智能系统可能引发的暴力起义或政变)”。这种想法可能会促使我们去寻找一些东西,任何东西,能让我们感到更安全。要抵制这种反应,需要成熟和冷静的头脑。

古希腊人教导我们关于傲慢(Hubris)的危险:过度自豪、狂妄或过度自信。当我们过于自信地认为我们知道未来会发生什么时,我们很可能会反应过度,反而创造出我们试图避免的未来。如果在我们试图避免人工智能末日的过程中,我们将世界上最强大的技术集中控制起来,使未来社会注定回到一种封建状态,其中最有价值的商品——计算力——由少数精英拥有。我们就如同俄狄浦斯王,被预言将杀死父亲并娶母亲为妻,结果正是由于旨在避免这个命运的行动而实现了它。或者像法厄同一样,对控制太阳战车的能力如此自信,以至于他避开了父亲赫利俄斯指定的中间路线,并在此过程中几乎毁灭了地球。

《人工智能的恶意使用》指向了一种基于谦逊的不同方法:与多个领域的专家进行协商,与受技术影响的人合作,在一个从经验中学习的迭代过程中进行。

例如,如果我们采纳他们的建议并向计算机安全专家学习,我们将了解到该领域的一个关键思想是,“模糊中的安全”——即隐藏秘密作为安全保障的基础——是无效且危险的。普林斯顿信息技术政策中心主任、网络安全专家 Arvind Narayanan 和 Sayash Kapoor 在最近的一项分析中详细列出了许可和类似法规可能导致的五大“主要人工智能风险”,在这些法规下,“只有少数几家公司能够开发最先进的人工智能”

  1. 单一文化可能加剧安全风险
  2. 单一文化可能导致结果同质化
  3. 界定可接受言论的界限
  4. 影响态度和观点
  5. 监管俘获。

我们是如何走到这一步的?

我认识的任何使用过 GPT-4 和 Bard 等工具的人,都对它们的能力惊叹不已——包括我自己!尽管它们有很多错误(也称为“幻觉”),但它们几乎可以在任何主题上提供各种帮助。我每天都使用它们,从编程帮助到给我女儿找玩耍的主意。

正如 FAR 解释的那样

基础模型,如大型语言模型(LLMs),通常以预测下一个“token”的简单目标开始,通过大量的自然语言和其他文本(例如计算机代码)语料库进行训练。这种相对简单的方法产生了具有惊人广泛能力的模型。因此,这些模型比许多其他类别的人工智能模型具有更通用的功能。

它接着说

在关注可能具有危险、涌现能力的基础模型时,我们对前沿人工智能的定义排除了狭义模型,即使这些模型可能具有足够危险的能力。例如,优化化合物毒性或病原体致病性的模型可能导致预期(或至少可预见)的伤害,因此可能更适合采用更有针对性的监管。我们的定义侧重于可能——而不仅仅是已经——具备危险能力的模型。

因此,作者提出了“负责任的前沿人工智能开发和部署安全标准”以及“授权一个监管机构识别和制裁不合规行为;或通过许可前沿人工智能的部署和潜在开发”。他们提议这样做是为了“确保”模型“为公共利益服务”。

假设这些提案被接受,并且这项法规被制定出来。接下来会发生什么?嗯,有两种可能性

  1. 人工智能能力增长达到极限,虽然人工智能可能是一项非常重要的技术,但我们不会达到可以摧毁社会的超级智能,或者
  2. 人工智能能力持续发展,直到成为人类历史上迄今为止最强大的技术力量。OpenAI 首席执行官 Sam Altman 的预测被证明是具有预见性的,拥有这项技术的人“也许能捕捉宇宙中未来所有价值的光锥”。

在 (1) 的情况下,就没有太多可讨论的了。FAR 提出的监管措施最坏情况下是不必要的,或许会导致某个相当有价值的产品领域的监管俘获。这令人遗憾,但我们可以接受。但这并非 FAR 提案旨在处理的情况——对于常规技术滥用的风险,我们已经有很多简单、易懂的方法,通常基于滥用责任(也就是说,如果你使用某种技术做了坏事,你会惹上麻烦;制造技术的人通常不会惹上麻烦,除非他们疏忽或以其他方式明确直接促成了坏事)。

因此,我们应该关注 (2)——即人工智能确实变得非常重要的那种情况。需要明确的是,没有人确定这一定会发生,但许多长期研究人工智能的人认为这是一个真实的可能。

人类最强大的技术

由于像 OpenAI 的 GPT-4、Google 的 Bard 和 Anthropic 的 Claude 这样的“通用”或“基础”模型,我们现在正处于“通用人工智能”(GPAI)时代。这些模型是通用计算设备。它们可以(在不同程度上)回答你提出的几乎任何问题。

随着基础模型变得越来越强大,我们应该期待研究人员发现更多方法来利用它们改进数据、模型和训练过程。当前的模型、数据集创建技术和训练方法都相当简单——基本思想只需要几行代码。有很多相当明显的途径可以大幅改进它们,而且没有理由相信我们已经接近这项技术的极限。因此,我们应该预计在未来几个月和几年内看到技术发展周期越来越快。没有任何数据可以用来对此能走多远或接下来会发生什么做出明确的预测。许多研究人员和人工智能公司高管认为,可能没有实际的限制。

但这些模型的训练成本很高。得益于技术进步,训练相同大小模型的成本正在下降,但模型本身却变得越来越大。GPT-4 的训练成本可能高达约 1 亿美元。目前所有最强大的模型,GPT-4、Bard 和 Claude,都是由美国的大公司(分别是 OpenAI、Google 和 Anthropic)和中国的公司训练的。

共同建设

目前已经有许多监管举措,包括白宫科技政策办公室的《人工智能权利法案蓝图》、国家标准与技术研究院的《人工智能风险管理框架》以及拜登旨在保护美国人免受算法歧视的第 14091 号行政命令。

人工智能社区也开发了分享重要信息的有效机制,例如数据集数据表模型报告模型卡生态系统图。监管可以要求数据集和模型包含关于它们如何构建或训练的信息,以帮助用户更有效、安全地部署它们。这类似于营养标签:虽然我们不禁止人们吃太多垃圾食品,但我们努力提供他们做出良好选择所需的信息。拟议中的欧盟人工智能法案已经包含了对正是这类信息的要求。

虽然有很多良好的工作可以继续开展,但还有很多事情要做。人工智能的世界发展迅速,我们每天都在学习。因此,重要的是我们要确保我们做出的选择保留未来的可选性。现在挑选一条单一路径并以不可阻挡的势头冲下去还为时过早。相反,作为一个社会,我们需要能够对新出现的机遇和威胁迅速做出知情回应。这意味着要广泛涵盖所有相关领域的专家以及受影响社区的成员。

我们在政策制定机构中建设能力越多越好。如果决策者对人工智能没有深入了解,他们别无选择,只能听从行业意见。但正如斯坦福大学网络政策中心国际政策总监 Marietje Schaake 所说:“我们需要让 CEO 远离人工智能监管

想象一下摩根大通的首席执行官向国会解释说,由于金融产品对立法者来说太复杂,银行应该自己决定如何防止洗钱、实现欺诈检测以及设定流动性与贷款比率。他会被赶出会场。愤怒的选民会指出全球金融危机中行业自律的效果如何。从大型烟草公司到大型石油公司,我们已经痛苦地认识到,企业无法制定公正的法规。它们既不独立,也无力创建能够与其自身抗衡的力量。

我们也应该注意,不要让引人入胜、令人兴奋的科幻场景分散我们对当前真实危害的注意力。驱动包括 GPT 4 在内的所有顶级语言模型的 Transformer 神经网络架构的共同创建者 Aiden Gomez 警告说

“*这项技术存在真正的风险。有理由害怕这项技术,害怕谁使用它以及如何使用。所以,把我们所有的时间都花在争论我们这个物种是否会因为超智能 AGI 的接管而灭绝,这是对我们时间和公众注意力的荒谬浪费……我真的希望公众知道一些关于风险的更具幻想色彩的故事是[没有根据的]。它们分散了本应进行的对话。”

去启蒙时代

如果,面对一股新的力量,面对不确定性,面对对我们安全的威胁,我们退回到中心化、控制以及将权力限制在少数人手中的确定性?这就是去启蒙时代。这是将带给我们启蒙时代的原则逆转。

我们将创造一个“有”和“无”的世界。“有”者(大公司、有组织犯罪、政府,以及所有说服亲友为他们获取权重副本的人,以及所有访问黑网网站获取黑客分发权重的人,以及所有复制它们的人……)可以构建越来越好的模型,这些模型(根据 FAR)可以用于大规模宣传、生物和网络威胁开发,或者仅仅是为了确保你击败所有竞争对手并垄断最具战略意义和盈利能力的行业。

“无”者对社会几乎没有价值,因为他们只能通过提供有限(但“安全”)应用的狭窄门户访问人工智能。

推动商业控制人工智能能力是危险的。Naomi Klein 创造了“休克主义”一词,将其描述为“利用集体冲击后公众的迷失方向……来强行推行激进的亲企业措施的残酷策略”,她现在警告说,人工智能“很可能成为进一步剥夺和掠夺的可怕工具”。

一旦我们走上这条路,就很难回头。事实上,这可能是不可能的。技术政策专家 Anja Kaspersen、Kobi Leins 和 Wendell Wallach 在他们的文章“我们正在将邪恶的平庸性和激进性自动化吗?”中指出,部署糟糕的解决方案(例如设计不当的法规)可能需要几十年才能撤销,如果这个糟糕的解决方案对某些人有利可图的话。

基于人工智能工具的快速部署与含铅汽油的情况有很强的相似性。汽油中的铅解决了一个真正的问题——发动机爆震。含铅汽油的发明者 Thomas Midgley 知道铅中毒,因为他本人就患有这种病。还有其他危害较小的方法可以解决这个问题,但只有当立法者最终介入,创造合适的激励措施来抵消销售含铅汽油带来的巨大利润时,这些方法才得到开发。

通过中心化,我们将制造“有”者和“无”者,“有”者将获得一种技术,使其比其他人强大得多。当巨大的权力和财富差距产生时,它们会被那些最渴望权力和财富的人攫取,而历史告诉我们,暴力是消除这种差距的唯一途径。正如约翰·肯尼迪所说,“那些让和平革命不可能的人,将使暴力革命成为必然。”也许,凭借人工智能的力量和维持控制所需的监控手段,即使是暴力也将成为无效的解决方案。

如果我们确实开始朝这个方向发展,让我们睁大眼睛去做,清楚地理解它将把我们带向何方。

启蒙时代的脆弱性

在人类历史的大部分时间里,未来是可怕的。它是不安全的。它是未知的。我们以最简单明了的方式应对:集体信任比我们更强大的人来保护我们。大多数社会将教育和权力等危险工具限制在少数精英手中。

但后来发生了一些变化。一种新的思想在西方兴起。如果还有另一种安全的方式:相信整个社会的总体善良,而不是信仰强大的精英?如果每个人都能接受教育呢?如果每个人都有投票权呢?如果每个人都能获得技术呢?这——尽管还需要几个世纪的进步才能完全实现其承诺——就是启蒙时代。

现在,我们许多人生活在自由民主国家,很容易忘记这是多么脆弱和罕见。但我们可以看到世界各地的国家正在滑入威权领导人的怀抱。正如赫尔曼·戈林所说,“人民总能被带到领导人的号令之下。这很简单。你所要做的就是告诉他们正在受到攻击……”

让我们明确一点:我们没有受到攻击。现在不是放弃我们为平等和机会来之不易的进步的时候。没有人能保证你的安全,但我们可以一起努力,用人工智能建设一个为我们所有人服务的社会。

附录:背景

这份文档最初是对《前沿人工智能监管:管理公共安全的新兴风险》进行的红队审查。尽管红队演练在政策提案中并不常见(主要用于计算机安全),但它可能应该被更广泛应用,因为政策提案可能存在未经仔细分析难以预见的风险。在欧盟人工智能法案议会版本发布(其中包括对基础模型开发的全面新规定)以及其他我受邀审查的其他司法管辖区的类似私人监管提案之后,我决定扩大我们的分析范围,更广泛地涵盖模型开发监管。

在进行本次审查的过程中,我与来自监管、政策、人工智能安全、人工智能能力、网络安全、经济学和技术转型等领域社区的 70 多位专家讨论了这些问题,并查阅了超过300 篇学术论文。我与Eric Ries 一起录制了一些专家访谈,我们将在未来几周内发布。

我们的观点是,社会成功过渡到人工智能未来的最重要基础是全社会都参与其中、积极行动并了解信息。因此,我们正在努力构建一个跨学科的社区资源,以帮助那些应对先进人工智能潜在机遇和威胁的人们。这个资源将被称为“AI Answers”。您现在阅读的这篇评论是该项目开发的首个公开发布成果。如果您是此领域的政策制定者或决策者,或在您认为可能对本领域有用的任何领域进行研究,我们都希望听到您的声音!

致谢

Eric Ries 在本文的整个开发过程中一直是我的亲密合作者,我非常感谢他的智慧、耐心和坚韧。非常感谢我们亲切的审稿人提供的详细反馈:Percy Liang、Marietje Schakke、Jack Clark、Andrew Maynard、Vijay Sundaram 和 Brian Christian。特别感谢 Yo Shavit,FAR 的一位作者,他非常慷慨地花时间帮助我加强了对他的论文的批判!我也很感激与 Andy Matuschak 的多次深入对话,他的深思熟虑的分析对于本文思想的发展至关重要。我还要感谢 Arvind Narayanan、Sayash Kapoor、Seth Lazar 和 Rich Harang 与 Eric 和我进行的引人入胜的对话。感谢 OpenAI 的 Jade Leung 和 Governance.ai 的 Markus Anderljung 同意审查过程,并提供了 FAR 的预发布版本供我们研究。

注释

  1. 尽管公平地说,对于该论文的作者而言——我没有在其他任何地方看到或提及过这个问题。↩︎

  2. 如果人工智能能力持续发展,没有限制,就会发生。↩︎

  3. 前沿模型的成本可能会继续上升。生成式人工智能初创公司 inflection.ai 最近筹集了 13 亿美元,并计划将其大部分用于购买 GPU。但即便如此,仍有数百家公司能够承担这一成本来训练模型。(即使它们负担不起,这也意味着盗窃将成为唯一的竞争方式。这并不意味着模型不会扩散。)↩︎

  4. 尽管在 FAR 中没有讨论。↩︎

  5. 至少,在这种监管措施本身就合理的情况下,即人工智能确实强大到足以构成这种威胁时。↩︎

  6. 这并不意味着模型开发可以不考虑伦理或影响。开源、负责任创新、知情对话和民主决策等概念都是模型开发的重要组成部分。但这确实意味着我们不需要在开发阶段就确保安全。↩︎

  7. 截至 2023 年 7 月,市面上唯一提供微调和激活功能的模型是较旧、能力较弱的模型,且任何主要商业模型都不提供权重。OpenAI 计划未来为 GPT 4 提供一些微调和激活功能,但届时他们已经领先其他人一年多了。无论如何,在没有权重访问权限的情况下,开发者完全定制和调整模型的能力仍然有限。↩︎