“两校名师讲堂”系列报告之第330期-视觉-语言相互生成技术-烟台大学|YanTai University

学术预告首页 > 学术科研 > 学术预告 > 正文

“两校名师讲堂”系列报告之第330期-视觉-语言相互生成技术

作者：供图：供图：日期：2021-10-19 来源：

讲座主题：视觉-语言相互生成技术

专家姓名：彭宇新

工作单位：北京大学

讲座时间：2021年10月20日 14:30-15:30

讲座地点：腾讯会议，会议ID：407 121 192

主办单位：烟台大学数学与信息科学学院

内容摘要：

随着深度学习等技术的发展，计算机在图像分类、对象识别等任务中取得了接近甚至超越人类的成绩，但如何赋予人工智能具有突破固定规则的“创意”，使人工智能从“感知智能”迈向“认知智能”是计算机视觉领域的重要任务。视觉-语言相互生成技术旨在使计算机能够根据用户给定的输入进行“联想”与“创造”，能够根据图像、视频等视觉内容自动生成一段自然语言描述，实现视觉到语言生成；或者根据一段自然语言描述从无到有地自动生成语义一致、内容真实、符合逻辑的图像、视频、3D图形，实现语言到视觉生成。这是人工智能实现 “认知智能”的一项重要任务，在教育、设计、影视、创作等领域具有重要的应用价值。本报告将介绍我们在视觉-语言相互生成技术上的研究工作：在视觉到语言生成上，提出对象感知双向图和层次化视觉-语言对齐等方法，通过视频时空信息建模和语义一致性建模，实现准确的视频描述生成。在文本到视觉生成上，提出对称蒸馏网络等方法，将相关视觉任务中的语义知识迁移至生成任务中，提高图像与视频生成的质量。最后展示相关的演示系统。

主讲人介绍：

北京大学二级教授、博雅特聘教授、博士生导师、国家杰出青年科学基金获得者、国家级高层次人才、科技部中青年科技创新领军人才、863项目首席专家、中国人工智能产业创新联盟专家委员会主任、中国工程院“人工智能2.0”规划专家委员会专家、北京图象图形学学会副理事长、中国图象图形学学会副秘书长。主要研究方向为跨媒体分析与推理、图像视频识别与理解、计算机视觉、人工智能。以第一完成人获2016年北京市技术发明一等奖和2020年中国电子学会科技进步一等奖，2008年获北京大学宝钢奖教金优秀奖，2017年获北京大学教学优秀奖。主持了863、国家自然科学基金等20多个项目，发表论文160多篇，包括ACM/IEEE Trans和CCF A类论文70多篇。多次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频样例搜索比赛，均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任IEEE TCSVT等期刊编委。

上一条：“两校名师讲堂”系列报告之第331期-国家社科基金选题申报的体会与建议
下一条：学术讲座-浮游植物光合色素在我国近岸典型海域环境变化中的指示意义

学术预告 首页 > 学术科研 > 学术预告 > 正文

学术预告首页 > 学术科研 > 学术预告 > 正文