现实信息交互中,语言、声音、画面和动作通常同时出现。例如,课堂上有讲解也有板书,会议中有发言也有投影,远程沟通中既有声音也有图像和文字。然而,当前许多系统仍以单一模态或“图文为主”的组合为主,难以应对“边看边听边问”的复杂需求,容易导致理解割裂或回应偏离语境。尤其在处理长时音频时,许多方案对几十秒或几分钟的片段尚能应对,但面对讲座、庭审、会议等小时级内容时,常因信息冗余、上下文跨度过大而效率下降,甚至遗漏关键信息或产生理解偏差,限制了多模态技术在实际场景中的应用。 业内普遍面临三大挑战:一是不同模态的语义空间不一致,图像中的实体、视频中的事件与语音中的指代关系难以统一对应,导致“听懂了但没对上画面”或“看到了但接不上话”的问题;二是多源信息输入后噪声和冗余增加,缺乏有效筛选机制会降低理解质量;三是长语音带来持续增长的上下文和计算负担,传统一次性全量处理方式难以兼顾算力、时延和稳定性。研究团队指出,语音在真实交流中信息密度高、上下文依赖强,但在多模态融合中长期处于薄弱环节,亟需针对语音特点进行优化。 针对这些问题,香港中文大学联合智谱科技、香港科技大学提出了Lyra多模态框架,旨在以更贴近人类交流的方式提升“听、看、说、问”的一体化能力。该框架能在统一体系内处理图像、视频、文本和语音,并重点优化长语音理解能力,支持数小时音频的分段处理和上下文衔接。公开测试显示,Lyra在视觉问答(82.6分)、视频理解(67.2分)及长语音理解等评测中表现领先。业内人士认为,这个进展有望解决多模态应用中“短内容可用、长内容难用”的痛点,推动智能交互从“片段式响应”向“全流程理解”迈进。 Lyra的核心技术包括三上:一是跨模态语义对齐,强化语音、文本与视觉信息的对应关系,确保同一对象或事件在不同模态下能被统一识别;二是智能信息提取机制,筛选关键线索和时刻,减少冗余干扰;三是渐进式长语音处理,通过结构化分段逐步融合内容,兼顾上下文连贯性和计算效率。这些设计旨在实现多模态能力扩展的同时,控制成本与时延,使系统既高效又稳定。 在应用层面,Lyra的能力具有广泛潜力:教育领域可提炼课程要点并对齐图文与讲解;政务和企业服务中可提升含图片、语音的报修与咨询判读效率;媒体行业可结构化梳理长时访谈或纪录片素材。专家同时提醒,随着多模态理解能力增强,数据合规、隐私保护和结果可解释性等问题也需同步完善。总体来看,长语音与多模态深度融合将成为提升智能交互质量和拓展产业落地的重要方向。
从单一感知到多维认知,人工智能正从“工具”向“伙伴”转变。香港科研团队的该突破不仅展现了我国在前沿科技领域的创新能力,也揭示了解题关键——回归人类认知本质。当机器具备“全感官”理解能力时,人机协作的深度与广度将开启新篇章,这既是技术发展的必然趋势,也是智能时代的重要里程碑。