复旦等机构提出VerseCrafter以显式4D几何控制提升视频生成运镜与多物体协同能力

在数字内容创作领域,如何让计算机生成既符合物理规律又具备艺术表现力的动态视频,一直是困扰科研人员的技术难题。

传统视频生成模型往往受限于二维平面处理能力,难以真实还原三维空间中的物体运动与相机运动关系,导致生成的视频缺乏物理真实感。

究其原因,现有技术主要存在三大瓶颈:一是多数模型仅能处理2D图像序列,缺乏对3D空间结构的理解;二是难以在统一框架下实现相机运动与物体运动的协同控制;三是依赖刚性边界框等简化表示方法,无法适应复杂多变的真实场景。

这些问题严重制约了视频生成技术在影视特效、虚拟现实等高端场景的应用。

针对这一技术困局,复旦大学与腾讯PCG ARC Lab等机构组成联合攻关团队,历时两年研发出VerseCrafter视频世界模型。

该技术的核心创新在于构建了4D几何世界状态表示体系:采用静态背景点云描述环境几何特征,通过每物体3D高斯轨迹编码运动信息,实现了对时空维度的完整建模。

技术实现上,研究团队创造性地采用了"冻结主干+适配器"的轻量化架构。

在保留开源模型Wan2.1强大生成能力的同时,通过自主研发的GeoAdapter模块将4D几何控制信息转化为适配信号,既确保了视频质量,又实现了精准控制。

实验数据显示,新模型在运动控制精度、场景真实度等关键指标上较现有技术提升显著。

业内专家指出,这一突破具有多重应用价值:在影视工业领域,可大幅降低特效制作成本;在虚拟现实方向,能提升场景交互的真实感;在自动驾驶仿真测试中,可生成更逼真的训练场景。

据研发团队透露,该技术已申请多项发明专利,相关代码已在开源平台发布。

VerseCrafter技术的推出,不仅为视频世界模型发展注入了新的活力,更为人工智能技术在创意产业的深度应用开辟了新路径。

随着相关技术的不断完善和产业化推进,我们有理由相信,人工智能将在视觉内容创作领域发挥更加重要的作用,推动数字创意产业迈向新的发展阶段。