Tags大学中国计算机视觉人工智能发布时间Jun 11, 2025摘要36氪获悉2025国际计算机视觉与模式识别会议在美召开值得买科技与中国人民大学高瓴人工智能学院在多模态领域的最新联合研究成果图像转有声视频Animate and Sound an Image成功入选据介绍该成果首次提出了一种从静态图像直接生成同步音视频内容的生成框架 JointDiTJoint Diffusion Transformer实现了从图像到动态视频声音的高质量联合生成来源36氪