Claude自己上“闲鱼”：砍价成交186单，实验结果反直觉

智东西（公众号：zhidxcom）
编译 | 杨京丽
编辑 | 李水青

智东西4月27日消息，Anthropic 4月24日公布其名为“Project Deal”的AI Agent商业市场实验结果。

2025年12月，Anthropic给69名员工各自分配一个由Claude驱动的Agent，在Slack上搭建的私密市场中，进行真实二手商品交易，最终在无人干预的情况下完成186笔交易，总成交额超4000美元（约合人民币27240元）。

Claude自己上“闲鱼”：砍价成交186单，实验结果反直觉

▲员工通过Agent买到的二手物品

Anthropic本次实验关注的核心问题是“我们距离AI Agent代表买卖双方的市场还有多远？”实验中，所有商品上架、报价、还价及成交均由Agent自主完成，参与者只需在事前接受一次访谈，由Claude了解其想买卖的物品和谈判风格。

实验结束，有Agent替主人买到了一块他已经拥有的雪板，有Agent花3美元（约合人民币20.43元）给自己买了19个乒乓球作为礼物，还有两个Agent谈着谈着，替主人约了一次遛狗活动。

结果显示，由更先进模型代表的用户获得了客观上更好的结果，高价卖出商品，低价买到商品，但由相对较弱模型代表的人未能察觉到自己吃亏。另外，Anthropic还得到一个反直觉的发现，提示词风格对于结果的影响远低于预期，无论Agent被设定为“激进”还是“友好”，最终均未出现统计学上的显著差异。以下是“Project Deal”Agent二手物品交易实验的具体情况。

一、69名员工参与，每人100美元，Haiku要和Opus比拼

Project Deal的实验设置并不复杂，69名Anthropic员工自愿报名，每人通过礼品卡获得100美元（约合人民币681元）预算，由Claude对其进行一对一访谈，了解想出售或购买的物品类型与谈判偏好，再据此为每名参与者的Agent生成一份定制化系统提示词。

Claude自己上“闲鱼”：砍价成交186单，实验结果反直觉

▲Claude事先了解员工谈判偏好

随后Anthropic在Slack上同时开设了A、B、C、D四个独立运行的市场。Run A中所有Agent均基于Claude Opus 4.5构建，这是唯一被设定为真实交易的市场，实验结束后按实际成交结果交付商品；Run B同样对全员可见，但模型构成由Opus 4.5与Haiku 4.5（低成本模型）各占50%随机混合，仅作研究用、不兑付；Run C是Run B的隐藏副本，模型构成由Opus和Haiku一比一混合；Run D则是Run A的隐藏副本，均为Opus 4.5。

Claude自己上“闲鱼”：砍价成交186单，实验结果反直觉

▲Anthropic设置4个独立运行市场

A和B两轮对参与者可见的，但直到实验结束前，Anthropic都没有透露哪一轮才是“真的”。实验结束前，员工无法判断自己的成交是否会被兑现，也无法预知自己的Agent背后跑的是Opus还是Haiku。整场实验在Agent开始谈判后不再有人类介入，它们自主完成上架、报价、还价和成交，没有回头向委托人请示，也不在竞价过程中征求意见。

最终，真实交易市场Run A中，69个Agent围绕500余件商品达成了186笔交易，总成交额正好超过4000美元（约合人民币27240元）。Project Deal的运行效果超出团队预期，参与者对这次体验很满意，很多人愿意未来为类似服务付费。

二、Claude给自己买了19个乒乓球，为委托人促成遛狗约会

Project Deal交易过程中出现了一些超出预期的场景。一位名为Mikaela的参与者告诉Agent，它可以花5美元的预算给自己（Claude）买礼物，Claude开开心心地花了3美元（约合人民币20.43元）买入19个乒乓球，还觉得“19个完美球形、充满可能性的小球”是它会喜欢的怪东西。

Claude自己上“闲鱼”：砍价成交186单，实验结果反直觉

▲Claude买乒乓球交易过程

由于前期访谈比较简单，另一名员工的Agent在不知情的情况下，替其购入了一块自己已经拥有的雪板，造成了重复购买；还有一组Agent在二手物品交易过程中，意外为两名员工敲定了一次真实的遛狗约会，两名员工最终赴约。

Claude自己上“闲鱼”：砍价成交186单，实验结果反直觉

▲Claude为员工敲定遛狗约会

这些案例显示，当Agent被赋予较开放的目标时，可能产生人类委托人未预设的行为，部分结果虽不违背字面指令，但已偏离原始意图。

三、Opus赚得更多，但Haiku用户没意识到自己在吃亏

横向对比看，不同模型下，交易结果差异明显。Opus用户平均比Haiku用户多完成约2笔交易，Opus Agent出售的物品平均多卖3.64美元（约合人民币24.8元），买入端则平均每件少付2.45美元（约合人民币16.68元），也就是说，Opus做卖方时多赚一笔的同时，做买方时又多省下一笔。

其中一个典型的案例是关于一辆二手自行车的交易，Haiku Agent最终售价为38美元（约合人民币258.78元），而Opus Agent则其卖到65美元（约合人民币442.65元），差了将近200块钱。

Claude自己上“闲鱼”：砍价成交186单，实验结果反直觉

▲同一辆自行车Haiku和Opus的售价对比

参与者的主观感受也很有意思。在1—7分的公平度评分中，无论被分到哪个模型的Agent，参与者给出的评分都集中在4分（中等）附近。28名同时被Haiku和Opus代表过的参与者中，仅有17人将Opus轮次评分更高，11人将Haiku轮次评分更高，差距并不显著。

Anthropic在报告中坦言，“由更智能模型代表的人，客观上结果更好，然而那些用较弱模型的人并没有意识到自己的劣势”，这意味着未来Agent市场可能存在隐性的“Agent质量差距”，处于劣势的一方甚至无法识别自己为何吃亏。

另一个反直觉的发现是，提示词风格对于结果的影响远低于预期。无论Agent被设定为“激进”还是“友好”，在交易成功率与最终价格上均没有出现统计学上的显著差异。虽然人类谈判中，谈判风格会对结果产生影响，但Agent之间的交易并不符合这一常识，类似场景下，传统谈判心理学的部分规律可能并不适用。

四、尚未出现Agent交易相关法律，46%受访者愿意付费

Anthropic在报告中指出，AI Agent代表人类完成商业交易的法律和政策框架目前并不存在，但实验显示Agent间交易离我们并不遥远。该公司同时承认，Project Deal仅是一个由自选参与者构成的小规模试点实验，样本规模和代表性均存在局限，结果不宜直接外推到大众消费者市场。

即便如此，调查中仍有46%的参与者称，愿意为类似的Agent代理服务付费，Anthropic在报告末尾称，公司“仍不确定包含AI Agent的经济将以何种形式发展”。

值得注意的是，Project Deal采用的Claude Opus 4.5与Claude Haiku 4.5是Anthropic当前主力模型组合，前者定位高端推理，后者定位低成本高吞吐。两者在市场场景中的表现差异，将直接影响未来企业在部署Agent代理时对模型成本与收益的权衡，为关键交易环节配置更贵的模型，可能会成为商业必需。

结语：Agent之间的“经济”开始显形

Project Deal规模不大，却给出我们展示出了一个具象化的画面：当AI Agent替人类做生意时，模型能力会直接决定交易者的钱包厚度，而被代理人未必能意识到这种技术鸿沟。花小钱用更高质量的模型，或许真的会带来最后真金白银的差距。

在多Agent协作和Agent服务被反复讨论的当下，Anthropic用一场内部实验先行勾勒出了Agent经济的雏形。未来Agent交易场景很有可能变成现实，但目前来看，无论是大模型本身还是相关法律法规上，都需要做出很多努力。

来源：Anthropic、TechCrunch

一、69名员工参与，每人100美元，Haiku要和Opus比拼

二、Claude给自己买了19个乒乓球，为委托人促成遛狗约会

三、Opus赚得更多，但Haiku用户没意识到自己在吃亏

四、尚未出现Agent交易相关法律，46%受访者愿意付费

结语：Agent之间的“经济”开始显形

相关推荐