Vitalik 新文：未来治理新范式「AI 引擎 + 人类方向盘」

在许多用例中探索的另一种方法是让一个简单的机制成为游戏规则，让 AI 成为玩家。

原文标题：《AI as the engine, humans as the steering wheel》

撰文：Vitalik，以太坊创始人

编译：白水，金色财经

如果你问人们喜欢民主结构的哪些方面，无论是政府、工作场所还是基于区块链的 DAO，你经常会听到相同的论点：它们避免权力集中，它们为用户提供强有力的保证，因为没有一个人可以随心所欲地完全改变系统的方向，它们可以通过收集许多人的观点和智慧来做出更高质量的决策。

如果你问人们不喜欢民主结构的哪些方面，他们经常会给出相同的抱怨：普通选民不够老练，因为每个选民只有很小的机会影响结果，很少有选民在决策中投入高质量的思考，而且你经常会得到低参与度（使系统易于攻击）或事实上的中心化，因为每个人都默认信任和复制一些有影响力的人的观点。

这篇文章的目标是探索一种范式，也许可以使用 AI 让我们从民主结构中获益而没有负面影响。「AI 是引擎，人类是方向盘」。人类只向系统提供少量信息，可能只有几百位，但都是经过深思熟虑且质量极高的。AI 将这些数据视为「目标函数」，并不知疲倦地做出大量决策，尽最大努力实现这些目标。特别是，这篇文章将探讨一个有趣的问题：我们能否在不将单个 AI 置于中心的情况下做到这一点，而是依靠任何 AI（或人机混合体）都可以自由参与的竞争性开放市场？

为什么不直接让一个 AI 来负责呢？

将人类偏好插入基于 AI 的机制的最简单方法是制作一个 AI 模型，并让人类以某种方式将他们的偏好输入其中。有简单的方法可以做到这一点：您只需将包含人员指令列表的文本文件放入系统提示中即可。然后，您可以使用众多「代理 AI 框架」之一赋予 AI 访问互联网的能力，将您组织的资产和社交媒体资料的密钥交给它，您就大功告成了。

经过几次迭代后，这可能足以满足许多用例的需求，我完全预计在不久的将来，我们将看到许多涉及 AI 阅读群组给出的指令（甚至实时阅读群聊）并采取行动的结构。

这种结构不理想的是作为长期机构的治理机制。长期机构应具有的一个宝贵属性是可信中立性。在我介绍这一概念的帖子中，我列出了可信中立性的四个宝贵属性：

不要将特定的人或特定的结果写入机制
开源且可公开验证的执行
保持简单
不要经常更改

LLM（或 AI 代理）满足 0/4。该模型不可避免地在其训练过程中编码了大量特定的人和结果偏好。有时这会导致 AI 的偏好方向令人惊讶，例如，看看最近的一项研究表明，主要的 LLM 更看重巴基斯坦的生活，而不是美国的生活（！！）。它可以是开放权重，但这远非开源；我们真的不知道在模型深处隐藏着什么魔鬼。它与简单相反：LLM 的 Kolmogorov 复杂度为数百亿位，大约相当于所有美国法律（联邦 + 州 + 地方）的总和。而且由于 AI 发展迅速，你必须每三个月更改一次。

出于这个原因，我赞成在许多用例中探索的另一种方法是让一个简单的机制成为游戏规则，让 AI 成为玩家。正是这种洞察力使得市场如此有效：规则是一种相对愚蠢的产权体系，边缘案件由法院系统裁决，该系统缓慢地积累和调整先例，而所有的情报都来自于「在边缘」运作的企业家。

单个「游戏玩家」可以是 LLM、相互交互并调用各种互联网服务的 LLM 群、各种 AI + 人类组合以及许多其他构造；作为机制设计师，您不需要知道。理想目标是拥有一个可以自动运行的机制 —— 如果该机制的目标是选择资助什么，那么它应该尽可能地像比特币或以太坊区块奖励一样。

这种方法的好处是：

它避免将任何单一模型纳入机制；相反，你会得到一个由许多不同参与者和架构组成的开放市场，它们都有自己不同的偏见。开放模型、封闭模型、代理群、人类 + AI 混合体、机器人、无限猴子等都是公平的游戏；该机制不会歧视任何人。
该机制是开源的。虽然玩家不是，但游戏是开源的 —— 而且这是一种已经被相当充分理解的模式（例如，政党和市场都以这种方式运作）
该机制很简单，因此机制设计者将自己的偏见编码到设计中的途径相对较少
该机制不会改变，即使从现在开始直到奇点，底层参与者的架构每三个月需要重新设计一次。

指导机制的目标是忠实地反映参与者的根本目标。它只需要提供少量信息，但应该是高质量的信息。

你可以认为该机制利用了提出答案和验证答案之间的不对称性。这类似于数独很难解决，但很容易验证解决方案是否正确。你 (i) 创建一个开放的市场，让玩家充当「解题者」，然后 (ii) 维护一个由人类运行的机制，执行验证已提出解决方案的简单得多的任务。

Futarchy

Futarchy 最初由 Robin Hanson 提出，意为「为价值投票，但为信念押注」。投票机制选择一组目标（可以是任何目标，但前提是它们必须是可衡量的），然后将其组合成一个度量 M。当您需要做出决定时（为简单起见，我们假设是 YES/NO），您会设置条件市场：您要求人们押注 (i) 是否会选择 YES 或 NO，(ii) 如果选择 YES，则 M 的值，否则为零，(iii) 如果选择 NO，则 M 的值，否则为零。有了这三个变量，您就可以确定市场是否认为 YES 或 NO 对 M 的值更有利。

「公司股票价格」（或者对于加密货币来说，代币价格）是最常被引用的指标，因为它很容易理解和衡量，但该机制可以支持多种指标：月活跃用户、某些群体的自我报告幸福感中位数、一些可量化的去中心化指标等。

Futarchy 最初是在人工智能时代之前发明的。然而，Futarchy 非常自然地符合上一节描述的「复杂的求解器、简单的验证器」范式，并且 Futarchy 中的交易者也可以是人工智能（或人类 + 人工智能的组合）。「求解器」（预测市场交易者）的作用是确定每个提议的计划将如何影响未来指标的价值。这很难。如果求解器正确，他们就会赚钱，如果求解器错误，他们就会赔钱。验证者（对指标进行投票的人，如果他们注意到指标被「操纵」或者变得过时，就会调整指标，并确定指标在未来某个时间的实际值）只需要回答一个更简单的问题「该指标现在的值是多少？」

蒸馏人类判断力

蒸馏人类判断是一类机制，其工作原理如下。有大量（想想：100 万个）问题需要回答。自然的例子包括：

此列表中的每个人对某个项目或任务的贡献应获得多少荣誉？
这些评论中哪些违反了社交媒体平台（或子社区）的规则？
这些给定的以太坊地址中哪些代表真实且独特的人？
这些物理对象中哪些对其环境的美学有积极或消极的贡献？

您有一个团队可以回答这些问题，但代价是要在每个答案上花费大量精力。您只要求团队回答少数问题（例如，如果总清单有 100 万项，团队可能只会回答其中的 100 项）。您甚至可以向团队提出间接问题：不要问「Alice 应获得总信用的百分之几？」，而是问「Alice 或 Bob 是否应该获得更多信用，以及多多少倍？」。在设计陪审团机制时，您可以重复使用现实世界中久经考验的机制，如拨款委员会、法院（确定判决价值）、评估等，当然，陪审团参与者自己也可以使用新奇的 AI 研究工具来帮助他们找到答案。

然后，您允许任何人提交对整个问题集的数字回答列表（例如，提供整个列表中每个参与者应获得多少信用的估计值）。鼓励参与者使用人工智能来完成此任务，但他们可以使用任何技术：人工智能、人机混合、可以访问互联网搜索并能够自主雇用其他人类或人工智能工作者的人工智能、经过控制论增强的猴子等。

一旦完整列表提供者和陪审员都提交了答案，就会根据陪审团的答案对完整列表进行检查，并将与陪审团答案最兼容的完整列表的某种组合作为最终答案。

蒸馏的人类判断机制与 futarchy 不同，但有一些重要的相似之处：

在 futarchy 中，「解算者」会做出预测，而他们的预测所依据的「真实数据」（用于奖励或惩罚解算者）是输出指标值的预言机，由陪审团运行。
在蒸馏的人类判断中，「解算者」会为大量问题提供答案，而他们的预测所依据的「真实数据」是陪审团提供的这些问题中一小部分的高质量答案。

用于信用分配的蒸馏人类判断的玩具示例，请参阅此处的 Python 代码。脚本要求您担任陪审团，并包含一些预先包含在代码中的 AI 生成（和人类生成）完整列表。该机制识别最适合陪审团答案的完整列表的线性组合。在这种情况下，获胜组合是 0.199 * Claude 的答案 + 0.801 * Deepseek 的答案；这个组合比任何单个模型都更符合陪审团的答案。这些系数也将是给予提交者的奖励。

在这个「击败索伦」的例子中，「人类作为方向盘」的方面体现在两个地方。首先，每个问题都应用了高质量的人类判断，尽管这仍然利用陪审团作为「技术官僚」绩效评估者。其次，有一个隐含的投票机制，决定「击败索伦」是否是正确的目标（而不是，比如说，试图与索伦结盟，或将某条关键河流以东的所有领土都交给他作为和平让步）。还有其他蒸馏的人类判断用例，其中陪审团的任务更直接地带有价值观：例如，想象一个分散的社交媒体平台（或子社区），陪审团的工作是将随机选择的论坛帖子标记为遵守或不遵守社区规则。

在蒸馏人类判断范式中，存在一些开放变量：

如何进行抽样？完整名单提交者的作用是提供大量答案；陪审员的作用是提供高质量的答案。我们需要以这样的方式选择陪审员，并为陪审员选择问题，即模型匹配陪审员答案的能力最大程度地表明其总体表现。一些考虑因素包括：
专业知识与偏见的权衡：熟练的陪审员通常专门从事其专业领域，因此让他们选择要评级的内容，您将获得更高质量的输入。另一方面，过多的选择可能会导致偏见（陪审员偏爱与他们有联系的人的内容）或抽样的弱点（某些内容系统地未评级）
反古德哈特：将有内容试图「玩弄」人工智能机制，例如，贡献者生成大量看起来令人印象深刻但无用的代码。这意味着陪审团可以检测到这一点，但静态人工智能模型除非他们努力尝试，否则不会检测到。捕捉这种行为的一种可能方法是添加一种挑战机制，通过该机制，个人可以标记此类尝试，保证陪审团对其进行判断（从而激励人工智能开发人员确保正确捕捉它们）。如果陪审团同意，举报者将获得奖励，如果陪审团不同意，则要支付罚款。
您使用什么评分函数？当前深度资助试点中使用的一个想法是询问陪审员「A 还是 B 应该获得更多的信用，以及多多少？」。评分函数为 score(x) = sum((log(x[B]) - log(x[A]) - log(juror_ratio)) ** 2 for (A, B, juror_ratio) in jury_answers)：也就是说，对于每个陪审团答案，它会询问完整列表中的比率与陪审员提供的比率有多远，并添加与距离平方成比例的惩罚（在对数空间中）。这是为了表明评分函数的设计空间很丰富，评分函数的选择与您向陪审员提出哪些问题的选择有关。
您如何奖励完整列表提交者？理想情况下，您希望经常给予多个参与者非零奖励，以避免垄断机制，但您也希望满足以下属性：参与者不能通过多次提交相同（或略微修改）的答案集来增加奖励。一种有希望的方法是直接计算最适合陪审团答案的完整列表的线性组合（系数非负且总和为 1），并使用这些相同的系数来分割奖励。也可能有其他方法。

总的来说，目标是采用已知有效、偏见最小化且经受住了时间考验的人类判断机制（例如，想象一下法院系统的对抗结构如何包括争议的两方，他们拥有大量信息但有偏见，而法官拥有少量信息但可能没有偏见），并使用开放的人工智能市场作为这些机制的合理高保真度和非常低成本的预测指标（这类似于大预言模型「蒸馏」的工作方式）。

深度融资（deep funding）

深度融资是将人类蒸馏的判断应用于填写「X 的信用有多少百分比属于 Y？」图上边的权重问题。

最简单的方法是直接用一个例子来说明：

两级深度融资示例的输出：以太坊的思想起源。请在此处查看 Python 代码。

这里的目标是分配对以太坊的哲学贡献的荣誉。让我们看一个例子：

这里显示的模拟深度融资轮次将 20.5% 的功劳归于密码朋克运动，将 9.2% 的功劳归于技术进步主义。
在每个节点中，您都会提出一个问题：它在多大程度上是原创贡献（因此它值得为自己赢得功劳），在多大程度上是其他上游影响的重新组合？对于密码朋克运动，它有 40% 是新的，60% 是依赖项。
然后，您可以查看这些节点上游的影响：自由主义小政府主义和无政府主义为密码朋克运动赢得了 17.3% 的功劳，但瑞士直接民主只获得了 5%。
但请注意，自由主义小政府主义和无政府主义也启发了比特币的货币哲学，因此它通过两种途径影响了以太坊的哲学。
要计算自由主义小政府主义和无政府主义对以太坊的总贡献份额，你需要将每条路径上的边相乘，然后将路径相加：0.205 * 0.6 * 0.173 + 0.195 * 0.648 * 0.201 ~= 0.0466。因此，如果你必须捐赠 100 美元来奖励所有为以太坊的哲学做出贡献的人，根据这一模拟的深度融资轮，自由主义小政府主义者和无政府主义者将获得 4.66 美元。

这种方法旨在适用于那些在以前的工作基础上进行工作且结构高度清晰的领域。学术界（想想：引用图）和开源软件（想想：库依赖关系和分叉）就是两个自然的例子。

一个运作良好的深度资助系统的目标是创建和维护一个全局图，任何有兴趣支持某个特定项目的资助者都能够将资金发送到代表该节点的地址，资金将根据图边缘的权重自动传播到其依赖项（并递归到它们的依赖项等）。

你可以想象一个去中心化协议使用内置深度融资装置来发行其代币：协议内的去中心化治理将选择一个陪审团，陪审团将运行深度融资机制，因为协议会自动发行代币并将其存入与其自身对应的节点。通过这样做，协议以编程方式奖励其所有直接和间接贡献者，让人想起比特币或以太坊区块奖励如何奖励一种特定类型的贡献者（矿工）。通过影响边缘的权重，陪审团可以不断定义它重视的贡献类型。这种机制可以作为挖矿、销售或一次性空投的去中心化和长期可持续的替代方案。

增加隐私

通常，要对上述示例中的问题做出正确的判断，需要能够访问私人信息：组织的内部聊天记录、社区成员秘密提交的信息等。「仅使用单个 AI」的一个好处，尤其是在规模较小的环境中，是让一个 AI 访问信息比向所有人公开信息更容易被接受。

为了在这些情况下使蒸馏的人类判断或深度资助发挥作用，我们可以尝试使用加密技术安全地让 AI 访问私人信息。这个想法是使用多方计算 (MPC)、完全同态加密 (FHE)、可信执行环境 (TEE) 或类似机制来提供私人信息，但仅限于其唯一输出是直接放入机制中的「完整列表提交」的机制。

如果你这样做，那么你就必须将机制集限制为 AI 模型（而不是人类或 AI + 人类组合，因为你不能让人类看到数据），并且特定于在某些特定基底（例如 MPC、FHE、可信硬件）中运行的模型。一个主要的研究方向是找出近期足够有效、有意义的实用版本。

发动机 + 方向盘设计的优点

这样的设计有许多令人期待的好处。迄今为止，最重要的好处是，它们允许构建 DAO，让人类选民控制方向，但他们不会被过多的决策所困扰。它们达到了折衷，每个人不必做出 N 个决定，但他们拥有的权力不仅仅是做出一个决定（委托通常如何运作），而且更能引发难以直接表达的丰富偏好。

此外，这样的机制似乎具有激励平滑特性。我在这里所说的「激励平滑」是两个因素的组合：

扩散：投票机制采取的任何单一行动都不会对任何单一参与者的利益产生过大影响。
混乱：投票决策与它们如何影响参与者利益之间的联系更加复杂且难以计算。

这里的混淆和扩散这两个术语取自密码学，它们是密码和哈希函数安全的关键属性。

当今现实世界中激励平滑的一个很好的例子是法治：政府高层不会定期采取「给爱丽丝的公司 2 亿美元」、「罚款鲍勃的公司 1 亿美元」等形式的行动，而是通过旨在均匀应用于大量参与者的规则，然后由另一类参与者进行解释。当这种方法奏效时，好处是它大大减少了贿赂和其他形式腐败的好处。当它被违反时（在实践中经常发生），这些问题很快就会被大大放大。

AI 显然将成为未来的重要组成部分，这将不可避免地成为未来治理的重要组成部分。但是，如果你让 AI 参与治理，这有明显的风险：AI 有偏见，它可能在训练过程中被故意破坏，而且 AI 技术发展如此之快，「让 AI 掌权」可能实际上意味着「让负责升级 AI 的人掌权」。蒸馏的人类判断提供了一条前进的替代道路，让我们能够以开放的自由市场方式利用 AI 的力量，同时保持人类控制的民主。

特别感谢 Devansh Mehta、Davide Crapis 和 Julian Zawistowski 的反馈和审查，以及 Tina Zhen、Shaw Walters 和其他人的讨论。

HEART5.49%

ETH-0.17%

查看原文

本页面内容仅供参考，非招揽或要约，也不提供投资、税务或法律咨询。详见声明了解更多风险披露。

赞赏
点赞
评论
分享

0/400

暂无评论

话题
#BTC#
192k 帖子
#ETH#
120k 帖子
#PI#
94k 帖子
4#GateioInto11#
76k 帖子
5#ContentStar#
64k 帖子
6#BOME#
59k 帖子
7#GT#
56k 帖子
8#DOGE#
53k 帖子
9#MAGA#
52k 帖子
10#SLERF#
51k 帖子