1、马斯克:特斯拉一年前就可生成真实世界视频

2、马斯克连续发文施压OpenAI

3、杨立昆开喷Sora:不理解物理世界

4、谢赛宁否认系Sora发明者

5、李志飞称Sora是世界模拟器 归功于三大要素

6、AI配音版Sora视频上线

7、英伟达高级研究科学家回应Sora视频“有声”

8、传月之暗面融资10亿美元,美团、阿里参投

9、266家企业通过网信办第四批深度合成算法备案

10、信通院可信AI汽车大模型启动首批验证

11、虹软大模型引擎上线视频生成功能

12、傅盛称AGI和Sora没有大关联

13、UC伯克利大世界模型登GitHub热榜第一

14、硅谷芯片大神怼阿尔特曼7万亿美元AI芯片计划

1、马斯克:特斯拉一年前就可生成真实世界视频

今天,马斯克在社交平台X上回复网友称,一年以前,特斯拉就已经能以精确的物理生成真实世界的视频,但由于训练数据来自汽车,所以生成的视频并不有趣,因此即便具有动态生成的内容也看起来像来自特斯拉的视频。他称特斯拉缺乏FSD的训练算力,因此没有用其他视频进行训练,今年晚些时候,当特斯拉有闲置算力时,他们会进行训练。马斯克转发了2023年特斯拉自动驾驶总监Ashok Elluswamy介绍特斯拉如何用AI模拟真实世界驾驶的相关视频,其中AI生成了7个不同角度视频以实现演示。

2、马斯克连续发文施压OpenAI

今天,马斯克在社交平台X上连发多条推文施压OpenAI,他转发了2016年8月,OpenAI第一次收到英伟达捐赠DGX-1 AI超级计算机的推文,并说“现在看看发生了什么:(”。同时他还转发了同天发布的OpenAI公司入口处照片,并@OpenAI称,这是OpenAI“最初创建的原因”。马斯克炮轰OpenAI背离初心,言外之意是对AI技术过快的发展表示担忧。

3、杨立昆开喷Sora:不理解物理世界

今天,Meta首席AI科学家杨立昆在社交平台X上发文评价Sora,一个“创造东西”的工具作为创造性的辅助工具是非常棒的。“但作为帮助人们采取行动的心理模型,它完全很糟糕。”并且针对OpenAI Sora生成的“蚂蚁穿梭蚁巢特写”视频中,蚂蚁只有4条腿,杨立昆发文喊话Sora团队负责人Aditya Ramesh:“蚂蚁有六条腿,不是吗?”杨立昆称,Aditya在纽约大学读本科时就在他的实验室工作过,之后在OpenAI实习并留下任职。2月17日,杨立昆曾发文称:“根据提示生成看起来最真实的视频并不表明系统能理解物理世界,生成与世界模型的因果预测有很大不同。”

4、谢赛宁否认系Sora发明者

今天,据新浪科技报道,纽约大学助理教授谢赛宁发朋友圈辟谣自媒体称其是Sora发明者之一。谢赛宁称,Sora跟他的关系“只能说是一点关系都没有”。对于Sora这样的复杂系统,人才第一,数据第二,算力第三,其他都没有什么是不可替代的。他还谈道:“在问Sora为什么没出现在中国的同时,可能也得问问假设真的出现了(可能很快),我们有没有准备好?”

5、李志飞称Sora是世界模拟器 归功于三大要素

今天,AI科技公司出门问问CEO李志飞在公众号“飞哥说AI”发文,分析了“为什么说Sora是世界的模拟器?”他提到,ChatGPT通过“语言”这一思维的载体,其可以多方面模拟虚拟世界中的各种场景和角色(合理丝滑的故事线),成为虚拟世界的“模拟器”。而作为“物理世界的模拟器”,需要能够在虚拟环境中重现物理现实,为用户提供一个逼真且不违反「物理规律」的数字世界。他们认为,Sora之所以有潜力成为下一代物理世界模拟器的翘楚,主要归功于其基于多模态大模型的设计理念及其实现中巨大算力和工程能力。不过,他也提到,Sora并不是成为世界模拟器的唯一解法,另外一种可能是ChatGPT+物理渲染引擎UE。

6、AI配音版Sora视频上线

昨天,AI音频生成创企ElevenLabs在社交平台X上,发布了为Sora生成的视频添加音效后的视频,如汽车行驶的引擎声、公共交通行驶声音、走路声、海浪声等。并且该公司还预告AI音效生成的相关功能即将上线。

传月之暗面融资10亿美元;马斯克称已掌握Sora类似技术;杨立昆开喷Sora丨AIGC大事日报

7、英伟达高级研究科学家回应Sora视频“有声”

今天,英伟达高级研究科学家范麟熙(Jim Fan)发文回应AI音频生成创企ElevenLabs为OpenAI Sora生成的视频添加了音频。范麟熙认为,目前这一音频是由文本提示的,但正确的调节应该针对文本和视频像素,既要学习准确的视频,音频映射还需要对潜在空间中的一些“隐式”物理进行建模。

想要正确模拟视频的声音需要做到:

(1)识别每个对象的类别、材料和空间位置;

(2)识别物体之间的高阶相互作用,棍子是否击中木质、金属或鼓表面?以什么速度;

(3)识别环境:餐馆、空间站等;

(4)从模型的内存中检索物体和周围环境的典型声音模式;

(5)“软”运行,学习物理规则来拼凑和调整声音模式的参数,甚至即时合成全新的声音模式,有点像游戏引擎中的“程序音频”;

(6)如果场景繁忙,模型需要根据空间位置叠加多个音轨。

以上这些都将通过大量视频、音频组合的梯度下降来学习,这些组合在大多数互联网视频中自然是时间对齐的。注意力层将在其权重中实现这些算法以满足扩散目标。不过,目前还没有如此高质量的AI音频引擎,他分享了一篇5年前名为“像素之声”的论文。

论文地址:http: //sound-of-pixels.csail.mit.edu

8、传月之暗面融资10亿美元,美团、阿里参投

据36氪报道,国内大模型独角兽月之暗面近期已完成新一轮超10亿美元融资,投资方包括红杉中国、小红书、美团、阿里,老股东跟投。本轮融资后,月之暗面估值已达约25亿美元。据了解,月之暗面当前也已经在秘密研发通用多模态模型,预计今年内将推出。目前,月之暗面已经完成千亿参数规模的自研通用大模型,面向消费者的“kimi智能助手”。

9、266家企业通过网信办第四批深度合成算法备案

2月18日,根据《互联网信息服务深度合成管理规定》,国家互联网信息办公室公开发布第四批境内深度合成服务算法备案信息,包括猎户星空大模型算法、爱诗科技视频生成算法、TCL智能问答内容生成算法 、vivo蓝心大模型算法、智谱多模态通用文生图算法、聆心CharacterChat生成算法等266家企业。

详细备案清单地址:http://www.cac.gov.cn/2024-02/18/c_1709925427424332.htm

10、信通院可信AI汽车大模型启动首批验证

今天,依托于中国信息通信研究院开展的第三方评估测试平台“可信AI评测”宣布,中国信通院可信AI汽车大模型首批标准符合性验证正式启动。此前,中国信息通信研究院联合业内30余家单位共同编制了《面向行业的大规模预训练模型技术和应用评估方法 第4部分:汽车大模型》标准,此次验证工作主要面向汽车大模型相关解决方案的应用单位和技术提供单位。应用方可评估汽车大模型的应用效能,对已应用或拟采用的汽车大模型产品进行评估。同时,技术方可对产品能力进行摸底。

11、虹软大模型引擎上线视频生成功能

今天,虹软核心大模型技术引擎虹软ArcMuse升级,将支持面向商拍的商业视频自动生成。虹软ArcMuse大模型视频生成基于diffusion-transformer技术架构,通过图像,ArcMuse大模型能够捕捉到商品的细节特征、质感、色彩等方面的精确信息,生成更能展示商品真实面貌的动态商拍视频。在产品功能落地上,虹软的ArcMuse引擎实现了两大核心功能:一是商品展示视频的自动生成,二是服装模特视频的自动生成。未来,PhotoStudio AI将成为能够助力商家依靠产品图片生成展示视频的AIGC视频创作工具。

体验地址:https://photostudio.arcsoft.com.cn/

12、傅盛称AGI和Sora没有大关联

今天,在央视财经前沿科技访谈节目《光华录》中,猎豹移动董事长兼CEO、猎户星空董事长傅盛表示,OpenAI正式推出Sora是一个里程碑级别的事件;Sora的出现是更好的工程化、更大的算力的结果。他谈道,Sora相当于打开了一扇门,很快很多人都会涌入这个领域。OpenAI把Transformer引进到了视频的时间轴里面,真正地实现了对更多数据量的理解。傅盛还提到,通用人工智能的出现和Sora并无很大的关联。

13、UC伯克利大世界模型登GitHub热榜第一

今天,UC伯克利大学研究人员提出的大世界模型(Large World Model,LWM)登上GitHub榜首,目前已经揽获3.2K星标。为了应对内存限制、计算复杂性和数据集有限等挑战,研究人员从数百万个视频和语言序列的标记中学习,整理了一个包含各种视频和书籍的大型数据集,利用RingAttention技术对长序列进行可扩展训练,并逐渐将上下文大小从4000 tokens增加到100万tokens,并完全开源一系列7B参数模型。论文中提到,LWM可以回答超过1小时的YouTube视频中的相关问题,还能在100万tokens的上下文窗口内实现高精度检索,并且性能优于GPT-4V和Gemini Pro。

论文地址:https://largeworldmodel.github.io/

项目地址:https://github.com/LargeWorldModel/LWM?tab=readme-ov-file

14、硅谷芯片大神怼阿尔特曼7万亿美元AI芯片计划

今天,硅谷芯片大神吉姆・凯勒(Jim Keller)在社交平台X上回复OpenAI CEO萨姆·阿尔特曼(Sam Altman)筹集5-7万亿美元制造AI芯片的计划,吉姆・凯勒称,他可以用不到1万亿美元做到这一点。