soul x-flashhead:1.3b能在一张消费级rtx 4090 显卡上运行,还能达到96 fps的高速

Soul App AI实验室最近发布了一个厉害的工具,叫做SoulX-FlashHead。这个模型的参数只有1.3B,却能够在一张消费级的RTX 4090显卡上运行,还能达到96 FPS的高速率。这个突破真是让人眼前一亮!以前大家想要高品质的数字人生成,必须用昂贵的H800集群才行。但是这次的SoulX-FlashHead打破了这个魔咒。用户们不需要再为了追求画质而花大钱了。它不仅能在消费级显卡上运行得飞快,还能提供高质量的画面表现。这让我们相信,在数字人领域,“算力自由”的时代即将来临。 这个模型有两种版本:Lite和Pro。Lite版本速度快,单张4090显卡就可以跑出96 FPS的速度,并且只需6.4G显存就能支持3路并发。Pro版本画质更高,单张5090显卡可以达到16.8 FPS的速度,双卡结合起来还能实时生成25fps以上的画面。FID和Lip-sync指标在Benchmark上表现也非常出色。 那是怎么做到这么小参数却有这么好表现的呢?其实SoulX-FlashHead用了一些创新技术来帮助它成功“以小博大”。其中一个是双向蒸馏机制(Oracle-Guided Distillation),就是利用Ground Truth作为先知锚点进行约束。这样一来,不管视频有多长,人物特征都能保持稳定。 另外一个重要技术就是时序音频上下文缓存(TACC)。这个技术可以让模型缓存8秒历史音频特征来补偿上下文缺失问题。以前流式生成时,因为音频切片太短导致口型抖动很常见,但有了这个技术就能解决“嘴瓢”和“对不上号”的尴尬了。 数据方面也是个重头戏。Soul AI Lab为了给模型提供最好的数据养料,自己研发了VividHead数据集。这个数据集从10,000小时素材中精选出了782小时高质量音画数据,经过DWpose关键点、唇形一致分数过滤等多个步骤处理后形成。 实测结果证明这个模型非常厉害!在HDTF和VFHQ两大权威数据集上表现都非常出色。Pro版本刷新了记录:在高清视频评测中以8.31(FID)和103.14(FVD)的成绩领先同侪;在面对野外复杂场景时更是凭借独创策略把Sync-C得分提高到5.60! 这么小体量就能跑出这么高的速度确实让人惊讶!Lite版本在单张RTX 4090上跑出了96 FPS的吞吐量!这不仅是实时基准(25 FPS)的近4倍效率更高到业界同类主流模型的100倍以上! 去年1月Soul AI Lab就已经开源过实时数字人生成模型SoulX-FlashTalk了。这次SoulX-FlashHead的发布给行业带来更多可能性。以前只能在机房里跑的高保真技术现在完全可以在个人工作站上实现!无论是7x24h矩阵直播、游戏NPC引擎还是AI一对一外教都能轻松实现了!