IBM美国研究院首席研究员淦创：多模态视频理解的研究与应用

「CV前沿讲座」，是智东西公开课针对计算机视觉推出的一档讲座，聚焦于计算机视觉前沿领域研究成果与进展。我们将持续邀请研究者、专家与资深开发者，为大家带来直播讲解。

视频理解是目前计算机领域中非常热门、且极具挑战力的一个方向。视频通常有多种形式的数据，如音频、视频、文本（字幕）。理解与建模不同模态之间的交互式视频分析任务的关键，如分类、目标检测、活动识别等。

目前关于视频理解的研究主要集中在视频的视觉模态上，而视频数据本身是多模态的，包括视频，声音，文本等。我们人类本身也是通过多模态融合来感知周围的环境。心理学家也在多项实验中发现，婴儿其实可以通过图像，声音和语言的多模式来认识，互动和理解物理世界。因此，了解模态何时相关并使用它来引导一种模态对另一种模态的影响是至关重要的。

10月30日上午10点，智东西公开课邀请到了IBM美国研究院首席研究员淦创参与到由英伟达&惠普特约的「CV前沿讲座」第20讲，带来主题为《多模态视频理解的研究与应用》的直播讲解。在本次讲解中，淦创博士将从多模态视频理解的研究进展出发，向大家介绍结合视觉和音频信号在视频分析上的应用，包括声音分离，声源定位和音乐生成的应用，最后将展示语言如何帮助机器学习模型推理视觉场景和物理世界的因果关系。敬请期待！

淦创博士是IBM 美国研究院的首席研究员(Principal Research Staff Member and Manager)，主要从事多模态视频分析相关的研究及产品落地。他在计算机视觉及人工智能国际顶级期刊和会议（如TPMAI, IJCV, CVPR, ICCV, ECCV, NeuIPS, ICLR）上发表论文60多篇，并有多项研究成果也得到了国际主流媒体 (CNN, BBC, WIRED, MIT Tech Review, Forbes, ZDNet )的关注与报道。他还在ICLR, IJCAI. AAAI ACM Multmiedia,BMVC 等多个计算机视觉和人工智能国际顶级会议担任领域主席. 并多次在计算机视觉顶级会议CVPR 和ECCV 的研讨会上做主题报告。在清华读博期间，他是清华大学研究生特等奖学金，微软学者奖学金，百度学者奖学金的获得者。更多详情请参考个人主页http://people.csail.mit.edu/ganchuang/

课程内容

课程主题

《多模态视频理解的研究与应用》

课程提纲

1、多模态视频理解的研究进展
2、结合视觉与音频信号的视频分析及应用
3、基于语言的视觉场景和物理世界的因果关系推理

讲师介绍

淦创,IBM 美国研究院的首席研究员(Principal Research Staff Member and Manager)，主要从事多模态视频分析相关的研究及产品落地；在计算机视觉及人工智能国际顶级期刊和会议（如TPMAI、 IJCV、 CVPR、ICCV、ECCV、NeuIPS、ICLR）上发表论文60多篇，并有多项研究成果也得到了国际主流媒体 (CNN、BBC、WIRED、 MIT Tech Review、Forbes、ZDNet )的关注与报道；在ICLR、IJCAI、AAAI、ACM Multmiedia、BMVC等多个计算机视觉和人工智能国际顶级会议担任领域主席. 并多次在计算机视觉顶级会议CVPR和ECCV的研讨会上做主题报告。在清华读博期间，他是清华大学研究生特等奖学金，微软学者奖学金，百度学者奖学金的获得者。更多详情请参考个人主页http://people.csail.mit.edu/ganchuang/

直播信息

直播时间：10月30日上午10:00
直播地点：智东西公开课小程序
答疑地址：智东西公开课主讲群

惠普Z系列数据科学工作站

惠普Z系列工作站是专为人工智能和大数据分析打造的数据科学工作站。
惠普Z系列数据科学工作站包含了HP Z1 G6入门级和Z2 TWR G5台式工作站、Z2 G5纤小型桌面工作站、Z2 MINI G5桌面工作站、Z4 G4塔式工作站、Z8 G4旗舰级工作站、以及ZCentral 4R机架式工作站7种型号，借助NVIDIA® Quadro RTX™系列多种专业显卡和高性能处理器，可满足边缘计算、算法训练以及模型推理等场景计算需求。

加入主讲群

本次课程的讲解分为主讲和答疑两部分，主讲以视频直播形式，答疑将在「智东西公开课主讲群」进行。
加入主讲群，除了可以免费收看直播之外，还能认识讲师，与更多同行和同学一起学习，并进行深度讨论。
添加小助手小开（ID：hikai19）即可申请，备注“姓名-公司/学校/单位-职位/专业”的朋友将会优先审核通过哦~

相关推荐