智东西(公众号:zhidxcom)
编译 | 汪越
编辑 | Panken
智东西11月29日报道,据The Information报道,据知情人士透露,亚马逊正在开发一款新的多模态AI模型,代号为Olympus。Olympus不仅能够理解文字,还具备强大的图像和视频分析能力,特别在视频场景理解和精确的运动分析方面表现突出。
据知情人士透露,Olympus在生成文本和解决复杂问题的能力上可能不如OpenAI和美国AI大模型独角兽Anthropic的最新语言模型,但亚马逊看中了它在视频处理方面的潜力,计划以更具竞争力的价格提供这一服务,并希望减少对Anthropic技术的依赖。
Anthropic的Claude聊天机器人是亚马逊云科技(AWS)上的热门产品,亚马逊最近向Anthropic注资40亿美元,使其总投资额达到80亿美元。
▲亚马逊首席执行官Adam Selipsky(左)与Anthropic首席执行官Dario Amodei(右)(图源:Getty Images)
据知情人士透露,Olympus的视频理解能力非常强大,能够精准判断篮球何时离开球员的手并预测其运动轨迹,这些是传统视频识别技术难以实现的。对于拥有大量视频数据的AWS客户(如体育分析、媒体和娱乐公司),Olympus将是一个重要的工具,帮助他们更高效地分析和处理视频内容。
虽然目前亚马逊、OpenAI和Anthropic等公司已经推出了支持图像和文本分析的语言模型,但视频分析技术还处于起步阶段。Olympus的推出标志着亚马逊进军视频AI市场的战略布局,目前这个市场主要由谷歌的Gemini模型和专注于视频理解技术的AI公司Twelve Labs主导。
据The Information报道,亚马逊有可能在即将召开的AWS re:Invent大会上公布Olympus的更多细节。亚马逊目前尚未对此作出回应。
2023年4月,亚马逊发布了一款仅支持文本的Titan系列语言模型,但该模型未能在市场上引起太大的反响。面对自研大语言模型(LLM)的困境,亚马逊转而依赖Anthropic等初创公司为其云服务提供技术支持,尤其是在数字助手和AI编程产品方面。
去年,负责Olympus项目的亚马逊高级副总裁Rohit Prasad制定了一项计划,期望赶超竞争对手的大语言模型。据知情人士透露,这项计划包括训练四个大型模型,其中一个为4000亿参数的文本模型,另一个为2万亿参数的文本模型。
这些模型的参数规模将与Meta的开源Llama模型(4050亿参数)和OpenAI的GPT-4(超过1.5万亿参数)相当。未来,亚马逊还计划将这些大型文本模型与视觉模型结合,以赋予它们更多的多模态能力。
▲亚马逊高级副总裁Rohit Prasad(图源:Getty Images)
结语:AI视频分析能力强化亚马逊竞争力
随着Olympus在参数规模和多模态能力上的不断提升,亚马逊将在运动分析和视频场景理解领域吸引更多需要高精度视频分析的云服务客户。
与此同时,视频AI市场的竞争将愈发激烈,谷歌的Gemini、Twelve Labs等视频理解领域的领先者将面临亚马逊的强力竞争。通过Olympus,亚马逊不仅将减少对Anthropic的依赖,还将在大模型领域进一步增强自主技术能力。
来源:The Information