大家听说没,CineTrans 真的给视频生成界带来了一场革命!这是我头一次听说这么厉害的多镜头视频生成模型。现在的视频生成技术越来越快,好多模型都出来了,可大家都在说那个 CineTrans 有多牛。CineTrans 这个家伙,不仅仅是个普通的视频生成工具,它还是第一个能实现多镜头可控生成的模型呢。上海人工智能实验室那帮人在这个领域下了不少功夫呢。 本来大家以为这类技术很难突破,因为很多闭源模型都做得很不错了,比如 Sora 和 Veo。但你猜怎么着,CineTrans 居然把这些壁垒给打破了。它有一个特别酷的功能,就是能给你非常自然的转场效果。这可不容易啊!在视频里转场得自然,那得多费劲儿。 那么它到底是怎么做到的呢?你知道吗?它用了一种叫做块对角掩码机制的东西。说白了,就是通过对注意力特性的研究设计出来的。这个机制把注意力控制得非常好,给相邻镜头之间搭起了一个桥梁,转场就变得流畅多了。CineTrans 能把第一帧当作一个锚点,控制其他帧的互动。这个过程中它保留了模型原有的结构和先验知识。 还不止这些呢,他们还给这个模型准备了一个强大的数据集 Cine250K,里面有25万个高质量多镜头视频-文本对。这个数据集可是经过精细设计和筛选出来的呢。这样就能给模型提供非常多的训练素材。 说到实验结果了吧?我觉得真的挺惊艳的。CineTrans 和其他几个多镜头生成方法对比的时候,在转场控制得分上完全碾压了它们。而且它在 Unet 和 DiT 架构上表现也很棒。大家还弄了个新指标叫 JS 散度,用来衡量生成视频和真实剪辑数据之间的差距。CineTrans 生成的视频分布跟人类剪辑的最接近了。 所以说啊,CineTrans 这个东西真是个里程碑般的存在。它把时间级转场控制做得这么好,镜头间一致性也非常强。而且它还在 GitHub 上开源了代码和数据集呢!这么棒的工具可不能浪费啊,希望更多的开发者都能利用它来探索更多可能性吧!