高分辨率视频生成: Hallo2成功实现了4K分辨率的视频生成,这意味着生成的虚拟人视频更加清晰和细腻。

长时间视频支持: 该技术现在能够支持长达一小时的视频内容生成,仅通过音频驱动,这在以往的虚拟人技术中是难以实现的。

视觉一致性和连贯性增强: 通过研究条件运动帧图像空间内的增强策略,Hallo2引入了高斯噪声增强的补丁删除技术,有效提升了长时间视频中角色的视觉一致性和时间连贯性。

高质量解码器集成: 为了实现4K分辨率的肖像视频生成,Hallo2集成了高质量的解码器,确保了视频生成的细节丰富和高质量输出。

语义文本标签控制: 超越了传统的仅音频提示,Hallo2允许使用可调整的语义文本标签来控制肖像的表情,这提高了视频内容的可控性,并增加了生成内容的多样性。

详情入口:https://fudan-generative-vision.github.io/hallo2/#/