智东西(公众号:zhidxcom)
编译 | 杨京丽
编辑 | 李水青
智东西4月27日消息,Anthropic 4月24日公布其名为“Project Deal”的AI Agent商业市场实验结果。
2025年12月,Anthropic给69名员工各自分配一个由Claude驱动的Agent,在Slack上搭建的私密市场中,进行真实二手商品交易,最终在无人干预的情况下完成186笔交易,总成交额超4000美元(约合人民币27240元)。

▲员工通过Agent买到的二手物品
Anthropic本次实验关注的核心问题是“我们距离AI Agent代表买卖双方的市场还有多远?”实验中,所有商品上架、报价、还价及成交均由Agent自主完成,参与者只需在事前接受一次访谈,由Claude了解其想买卖的物品和谈判风格。
实验结束,有Agent替主人买到了一块他已经拥有的雪板,有Agent花3美元(约合人民币20.43元)给自己买了19个乒乓球作为礼物,还有两个Agent谈着谈着,替主人约了一次遛狗活动。
结果显示,由更先进模型代表的用户获得了客观上更好的结果,高价卖出商品,低价买到商品,但由相对较弱模型代表的人未能察觉到自己吃亏。另外,Anthropic还得到一个反直觉的发现,提示词风格对于结果的影响远低于预期,无论Agent被设定为“激进”还是“友好”,最终均未出现统计学上的显著差异。以下是“Project Deal”Agent二手物品交易实验的具体情况。
一、69名员工参与,每人100美元,Haiku要和Opus比拼
Project Deal的实验设置并不复杂,69名Anthropic员工自愿报名,每人通过礼品卡获得100美元(约合人民币681元)预算,由Claude对其进行一对一访谈,了解想出售或购买的物品类型与谈判偏好,再据此为每名参与者的Agent生成一份定制化系统提示词。

▲Claude事先了解员工谈判偏好
随后Anthropic在Slack上同时开设了A、B、C、D四个独立运行的市场。Run A中所有Agent均基于Claude Opus 4.5构建,这是唯一被设定为真实交易的市场,实验结束后按实际成交结果交付商品;Run B同样对全员可见,但模型构成由Opus 4.5与Haiku 4.5(低成本模型)各占50%随机混合,仅作研究用、不兑付;Run C是Run B的隐藏副本,模型构成由Opus和Haiku一比一混合;Run D则是Run A的隐藏副本,均为Opus 4.5。

▲Anthropic设置4个独立运行市场
A和B两轮对参与者可见的,但直到实验结束前,Anthropic都没有透露哪一轮才是“真的”。实验结束前,员工无法判断自己的成交是否会被兑现,也无法预知自己的Agent背后跑的是Opus还是Haiku。整场实验在Agent开始谈判后不再有人类介入,它们自主完成上架、报价、还价和成交,没有回头向委托人请示,也不在竞价过程中征求意见。
最终,真实交易市场Run A中,69个Agent围绕500余件商品达成了186笔交易,总成交额正好超过4000美元(约合人民币27240元)。Project Deal的运行效果超出团队预期,参与者对这次体验很满意,很多人愿意未来为类似服务付费。
二、Claude给自己买了19个乒乓球,为委托人促成遛狗约会
Project Deal交易过程中出现了一些超出预期的场景。一位名为Mikaela的参与者告诉Agent,它可以花5美元的预算给自己(Claude)买礼物,Claude开开心心地花了3美元(约合人民币20.43元)买入19个乒乓球,还觉得“19个完美球形、充满可能性的小球”是它会喜欢的怪东西。

▲Claude买乒乓球交易过程
由于前期访谈比较简单,另一名员工的Agent在不知情的情况下,替其购入了一块自己已经拥有的雪板,造成了重复购买;还有一组Agent在二手物品交易过程中,意外为两名员工敲定了一次真实的遛狗约会,两名员工最终赴约。

▲Claude为员工敲定遛狗约会
这些案例显示,当Agent被赋予较开放的目标时,可能产生人类委托人未预设的行为,部分结果虽不违背字面指令,但已偏离原始意图。
三、Opus赚得更多,但Haiku用户没意识到自己在吃亏
横向对比看,不同模型下,交易结果差异明显。Opus用户平均比Haiku用户多完成约2笔交易,Opus Agent出售的物品平均多卖3.64美元(约合人民币24.8元),买入端则平均每件少付2.45美元(约合人民币16.68元),也就是说,Opus做卖方时多赚一笔的同时,做买方时又多省下一笔。
其中一个典型的案例是关于一辆二手自行车的交易,Haiku Agent最终售价为38美元(约合人民币258.78元),而Opus Agent则其卖到65美元(约合人民币442.65元),差了将近200块钱。

▲同一辆自行车Haiku和Opus的售价对比
参与者的主观感受也很有意思。在1—7分的公平度评分中,无论被分到哪个模型的Agent,参与者给出的评分都集中在4分(中等)附近。28名同时被Haiku和Opus代表过的参与者中,仅有17人将Opus轮次评分更高,11人将Haiku轮次评分更高,差距并不显著。
Anthropic在报告中坦言,“由更智能模型代表的人,客观上结果更好,然而那些用较弱模型的人并没有意识到自己的劣势”,这意味着未来Agent市场可能存在隐性的“Agent质量差距”,处于劣势的一方甚至无法识别自己为何吃亏。
另一个反直觉的发现是,提示词风格对于结果的影响远低于预期。无论Agent被设定为“激进”还是“友好”,在交易成功率与最终价格上均没有出现统计学上的显著差异。虽然人类谈判中,谈判风格会对结果产生影响,但Agent之间的交易并不符合这一常识,类似场景下,传统谈判心理学的部分规律可能并不适用。
四、尚未出现Agent交易相关法律,46%受访者愿意付费
Anthropic在报告中指出,AI Agent代表人类完成商业交易的法律和政策框架目前并不存在,但实验显示Agent间交易离我们并不遥远。该公司同时承认,Project Deal仅是一个由自选参与者构成的小规模试点实验,样本规模和代表性均存在局限,结果不宜直接外推到大众消费者市场。
即便如此,调查中仍有46%的参与者称,愿意为类似的Agent代理服务付费,Anthropic在报告末尾称,公司“仍不确定包含AI Agent的经济将以何种形式发展”。
值得注意的是,Project Deal采用的Claude Opus 4.5与Claude Haiku 4.5是Anthropic当前主力模型组合,前者定位高端推理,后者定位低成本高吞吐。两者在市场场景中的表现差异,将直接影响未来企业在部署Agent代理时对模型成本与收益的权衡,为关键交易环节配置更贵的模型,可能会成为商业必需。
结语:Agent之间的“经济”开始显形
Project Deal规模不大,却给出我们展示出了一个具象化的画面:当AI Agent替人类做生意时,模型能力会直接决定交易者的钱包厚度,而被代理人未必能意识到这种技术鸿沟。花小钱用更高质量的模型,或许真的会带来最后真金白银的差距。
在多Agent协作和Agent服务被反复讨论的当下,Anthropic用一场内部实验先行勾勒出了Agent经济的雏形。未来Agent交易场景很有可能变成现实,但目前来看,无论是大模型本身还是相关法律法规上,都需要做出很多努力。
来源:Anthropic、TechCrunch