复旦等机构提出VerseCrafter以显式4D几何控制提升视频生成运镜与多物体协同能力

在数字内容创作领域，如何让计算机生成既符合物理规律又具备艺术表现力的动态视频，一直是困扰科研人员的技术难题。

传统视频生成模型往往受限于二维平面处理能力，难以真实还原三维空间中的物体运动与相机运动关系，导致生成的视频缺乏物理真实感。

究其原因，现有技术主要存在三大瓶颈：一是多数模型仅能处理2D图像序列，缺乏对3D空间结构的理解；二是难以在统一框架下实现相机运动与物体运动的协同控制；三是依赖刚性边界框等简化表示方法，无法适应复杂多变的真实场景。

这些问题严重制约了视频生成技术在影视特效、虚拟现实等高端场景的应用。

针对这一技术困局，复旦大学与腾讯PCG ARC Lab等机构组成联合攻关团队，历时两年研发出VerseCrafter视频世界模型。

该技术的核心创新在于构建了4D几何世界状态表示体系：采用静态背景点云描述环境几何特征，通过每物体3D高斯轨迹编码运动信息，实现了对时空维度的完整建模。

技术实现上，研究团队创造性地采用了"冻结主干+适配器"的轻量化架构。

在保留开源模型Wan2.1强大生成能力的同时，通过自主研发的GeoAdapter模块将4D几何控制信息转化为适配信号，既确保了视频质量，又实现了精准控制。

实验数据显示，新模型在运动控制精度、场景真实度等关键指标上较现有技术提升显著。

业内专家指出，这一突破具有多重应用价值：在影视工业领域，可大幅降低特效制作成本；在虚拟现实方向，能提升场景交互的真实感；在自动驾驶仿真测试中，可生成更逼真的训练场景。

据研发团队透露，该技术已申请多项发明专利，相关代码已在开源平台发布。

VerseCrafter技术的推出，不仅为视频世界模型发展注入了新的活力，更为人工智能技术在创意产业的深度应用开辟了新路径。

随着相关技术的不断完善和产业化推进，我们有理由相信，人工智能将在视觉内容创作领域发挥更加重要的作用，推动数字创意产业迈向新的发展阶段。