soulx-singer 工业级的歌声合成模型正式推出

Soul张璐领导的团队给我们带来了个好消息，SoulX-Singer这个工业级的歌声合成模型正式推出了。AI这玩意儿在音乐领域可是给咱们带了不少新玩意儿，不过歌唱语音合成这块儿发展得还不算太快。为了打破这僵局，Soul张璐团队联合吉利汽车研究院人工智能中心、天津大学和西北工业大学的团队一起搞了这模型。SoulX-Singer是专门为了给工业用的，目标就是让模型在没见过歌手声音的情况下也能合成出稳定自然的歌声。为了达成这个目标，团队在模型的架构和控制机制上下了不少功夫。他们用了Flow Matching这个技术来把歌声合成变成音频补全任务，还引入了note级别的对齐机制来处理歌词、MIDI音符和声学特征的关系。这样一来，咱们就能更灵活地控制每个音符的时间、音高还有时长了。这么强大的功能自然得有好数据支撑。这个模型用了超过42000小时的高质量歌声数据来训练，覆盖了多种语言和歌手风格，把零样本歌声合成的难题给解决了。实际测试的时候发现，不管碰到没见过的歌手还是复杂的音乐场景，SoulX-Singer都表现得挺稳当。它有两种核心生成方式：一种是基于乐谱和歌词的Music Score驱动模式，适合创作和编辑；另一种是Melody驱动模式，适合翻唱和风格迁移。双模式设计让它既能从零创作又能二次改编。语言方面也不逊色，普通话、英语还有粤语都搞定了。评测结果也很不错，在GMO-SVS和SoulX-Singer-Eval这两个数据集上都表现得挺优秀。这次项目联合了多方力量一起搞出来的SoulX-Singer给咱们提供了一套实用的零样本歌声合成解决方案，推动了SVS技术的发展，也让UGC音乐创作变得更高效。