阿里甩出视频生成新王炸;苹果造车团队转岗做AI;Pika推出唇形同步功能丨AIGC大事日报

1、阿里发布肖像视频生成框架EMO

2、Pika推出“对口型”功能

3、传苹果放弃电动汽车制造转向生成式AI

4、特斯拉APP推出AI聊天助手测试版

5、Gemini 1.5通过视频成功修复Bug

6、谷歌将进行结构性调整以解决Gemini偏见问题

7、研究显示Gemini等在选举上存在偏见

8、传谷歌向媒体付费测试AI写作工具

9、扎克伯格拜访日韩讨论AI、XR合作

10、OpenAI称《纽约时报》侵权指控存在欺骗行为

11、欧盟监管机构拟审查微软对Mistral的投资

12、GitHub推出企业版Copilot

13、微软正测试Copilot GPT

14、百度2023年净利润涨39%

15、百度Comate启动众测活动

16、蚂蚁集团推出多模态遥感模型SkySense

17、魅族Aicy语音助手接入AI大模型

18、OPPO Reno11系列将引入生成式AI功能

19、南京大学开设AI通识核心课程体系

20、传Tumblr等计划将数据出售给AI公司

21、Prophesee与高通合作进入可量产阶段

22、芯片大神Jim Keller创企与日企合作设计AI芯片

23、法AI图像创企获4300万美元融资

24、字节推出MegaScale 将LLM训练扩展到1万个GPU

1、阿里发布肖像视频生成框架EMO

今日,来自阿里巴巴的团队发布了音频驱动的肖像视频生成框架EMO(Emote Portrait Alive),相关论文同步发表于arXiv。输入一张参考图像和声音音频,该框架能够生成具有丰富面部表情和头部姿势的声音肖像视频。

论文地址:

arxiv.org/pdf/2402.17485.pdf

项目主页:

humanaigc.github.io/emote-portrait-alive/

2、Pika推出“对口型”功能

昨晚,AI视频生成平台Pika宣布推出为生成视频中的人物配音,并同时“对口型”的唇形同步功能LipSync,目前仅支持Pro用户体验。其中,音频生成部分由AI语音克隆创企ElevenLabs提供技术支持。

3、传苹果放弃电动汽车制造转向生成式AI

据彭博社援引知情人士消息报道,苹果在当地时间周二于公司内部宣布取消长达十年的电动汽车项目,从事该项目的近2000名员工中的许多人将被转到由约翰·詹南德雷亚(John Giannandrea)领导的AI部门,专注于生成式人工智能项目。

4、特斯拉APP推出AI聊天助手测试版

据electrek报道,特斯拉今日更新了移动端应用程序,推出测试版聊天助手,可以回答有关特斯拉或其他产品的问题。

5、Gemini 1.5通过视频成功修复Bug

昨日,社交平台X博主Mckay Wrigley称Gemini Pro 1.5通过视频和文本成功修复了问题代码。他将整个代码库以文本形式发送给Gemini Pro 1.5,并同时上传了摄像头拍摄的三个出错的程序界面,输入“请帮我修复代码中的所有Bug”等提示词,Gemini直接给出了问题代码位置和解决方案。

6、谷歌将进行结构性调整以解决Gemini偏见问题

据Semafor今日报道,谷歌CEO桑达尔·皮查伊(Sundar Pichai)在当地时间周二晚间回应了Gemini的种族偏见争议,称该问题“不可接受”,并发誓要进行结构性调整来解决问题。他在内部信中说,公司在修复Gemini护栏方面已经取得了进展,“我们的团队一直在夜以继日地工作来解决这些问题。我们已经看到各种提示都得到了显着的改进。”

7、研究显示Gemini等在选举上存在偏见

据非盈利新闻工作室Proof今日发布的报告,GPT-4、Llama 2、Gemini、Mixtral和Claude等领先的五个AI文本模型在26个选举相关问题上准确性表现不佳,超过一半的相应被AI专家评委不准确,40%的回答被评为有害。其中,Gemini、Llama2和Mixtral的不准确答案率最高,均超过60%。

8、传谷歌向媒体付费测试AI写作工具

据ADWEEK昨日报道,谷歌上个月为少数独立出版商推出一项计划,为后者提供未发布的生成式AI平台测试版访问权限,来换取分析和反馈。作为协议的一部分,出版商将使用该工具套件在12个月内每天发布3篇内容,每月可以获得五位数的津贴。

9、扎克伯格拜访日韩讨论AI、XR合作

据路透社报道,Meta CEO扎克伯格周二拜访了东京,与日本首相岸田文雄讨论了AI问题。周二晚间,他抵达韩国,并于今日会见了LG电子CEO、LG母公司COO,讨论下一代XR设备开发相关业务,以及在AI领域的潜在合作。

10、OpenAI称《纽约时报》侵权指控存在欺骗行为

据The Verge报道,OpenAI在当地时间周一提交的一份动议中称,《纽约时报》使用“欺骗性提示”让ChatGPT重复其内容,并请求纽约南部的美国地方法院驳回《纽约时报》版权侵权诉讼中的几项索赔。

11、欧盟监管机构拟审查微软对Mistral的投资

据The Information报道,欧洲最高反垄断监管机构欧盟委员会当地时间周二称,计划审查微软对法国生成式AI初创公司Mistral的投资。微软于周一宣布与Mistral建立合作伙伴关系,向Mistral投资1630万美元,并在云平台Azure中提供Mistral的模型。

12、GitHub推出企业版Copilot

微软旗下的GitHub今日推出Copilot Enterprise,可根据企业内部的代码和知识库定制,每人每月39美元。

13、微软正测试Copilot GPT

昨日,微软副总裁兼Copilot和必应工程与产品负责人约尔迪·里巴斯(Jordi Ribas)透露,微软正在测试Copilot GPT,当用户打开Microsoft Copilot时会出现一个新的Copilot GPT列表,可为用户提供健身训练计划、计划假期和帮助烹饪等功能。

14、百度2023年净利润涨39%

据百度微信公众号今日发文,其2023年营收为1345.98亿元,净利润287亿元,同比增长39%;其第四季度营收349.51亿元,净利润77.55亿元,同比增长44%。其中,AI成为增长新动力,百度智能云、PP飞桨等AI平台高速增长,千帆大模型平台累计精调模型1万个,AI出行平台萝卜快跑第四季度提供乘车服务83.9万次。

15、百度Comate启动众测活动

据百度安全应急响应中心微信公众号今日发文,百度智能编程工具Comate及千帆大模型平台开启专项加码众测活动,活动时间为2月29日-3月12日,单个漏洞奖励最高可达3万元。

16、蚂蚁集团推出多模态遥感模型SkySense

蚂蚁集团今日宣布推出20亿参数多模态遥感基础模型SkySense,这是蚂蚁百灵大模型在多模态领域最新的研发成果,其论文已被世界计算机视觉顶会CVPR 2024接收。数据显示,SkySense在17项测试场景中指标均超过国际同类产品,可用于地貌、农作物观测和解译等,有效辅助农业生产和经营。

17、魅族Aicy语音助手接入AI大模型

据IT之家报道,魅族21系列手机今日获推Flyme 10.5.0.1A稳定版系统,语音助手小溪(Aicy)接入大模型,支持自然语言对话、文档总结、知识问答、出行规划、运动健康建议、文案生成等AI功能。

18、OPPO Reno11系列将引入生成式AI功能

昨日,OPPO在2024年世界移动通信大会(MWC 2024)宣布将全面发力AI领域。OPPO还宣布,今年第二季度,全球OPPO Reno11系列及OPPO Find N3也将引入包括AI消除功能在内的一系列生成式AI功能。

19、南京大学开设AI通识核心课程体系

昨日,南京大学宣布将面向全体本科新生开设“人工智能通识核心课程体系”。南京大学将建设“1+X+Y”三层次“人工智能通识核心课程体系”,以1门必修的AI通识核心课+X门AI素养课+Y门个学科与AI深度融合的前沿拓展课为基础,从知识、能力、价值观与伦理三个维度开展教育教学。

20、传Tumblr等计划将数据出售给AI公司

据404 Media今日援引内部文件报道,社交平台Tumblr和博客网站WordPress.com的所有者正在与AI公司Midjourney和OpenAI进行谈判,以提供从用户帖子中抓取的训练数据。

21、Prophesee与高通合作进入可量产阶段

神经拟态视觉传感公司Prophesee 2月27日宣布与高通的合作进入可量产阶段。在巴塞罗那世界移动通信大会MWC 2024期间,Prophesee展示了其解决方案与骁龙旗舰移动平台的原生兼容性,以及神经拟态视觉技术为智能手机摄像头带来的速度、能效和成像质量方面的提升。Prophesee Metavision事件视觉传感器和AI算法针对骁龙平台进行了优化,使运动模糊消除的效果和整体图像的质量都得到前所未有的提升,尤其是在快速移动和低光等传统基于帧的RGB传感器难以应对的场景中。

22、芯片大神Jim Keller创企与日企合作设计AI芯片

根据彭博社昨日报道,日本政府投资的半导体研发集团Rapidus将与加拿大芯片创企Tenstorrent合作设计其首款AI芯片。Tenstorrent将授权其设计日本AI加速器的一部分,并与Rapidus共同设计整个芯片。Tenstorrent成立于2016年,首席执行官为芯片界大神吉姆·凯勒(Jim Keller)。Rapidus成立于2022年,计划在2027年开始芯片生产,与台积电和三星电子等公司竞争。

23、法AI图像创企获4300万美元融资

据TechCrunch昨日报道,法国AI图像编辑器创企Photoroom近期以5亿美元估值完成了4300万美元融资,Balderton Capital领投此轮融资,新投资者Aglaé和之前的投资者Y Combinator参投。Photoroom目前拥有约50名员工,计划利用这笔融资雇用更多员工,并投资于研发和基础设施。

24、字节推出MegaScale 将LLM训练扩展到1万个GPU

2月24日,来自字节和北大的团队在arXiv上发表论文,提出大模型生产系统MegaScale。MegaScale将大型语言模型训练扩展到超过10000个GPU,在12288个GPU上训练175B LLM模型时,MegaScale实现了55.2%的模型FLOP利用率(MFU),与层内模型并行技术Megatron-LM相比,MFU提高了1.34倍。

论文地址:

https://arxiv.org/abs/2402.15627