LatentSync 部署测试

Lambda 上进行的 LatentSync 测试中,我租用了 A6000A100 GPU。测试结果表明:

  • A6000 上,生成 20秒音频 的视频时长超过了 100秒

  • A100 上,生成时间与 A6000 类似。

生成素材:

这里上传了一段视频,与 MuseTalk 相同,音频与这段视频结合并循环播放。

生成效果:

除了牙齿细节不够清晰外,嘴部的其他细节保留得非常好。

实时性:

结论

通过对 LatentSync 在不同硬件环境下的测试,可以得出以下结论:

  • 性能差异:尽管 A6000A100 都属于高性能 GPU,但生成视频的速度仍未能达到实时或近实时的标准,生成 20 秒音频所需时间均超过 100 秒。

  • 不适合实时应用:基于当前的硬件测试,LatentSync 更适合在离线或批量渲染场景中使用,而不适合需要快速或实时生成视频的应用。

  • 硬件要求:对于需要较高生成质量或更高分辨率的视频,需要更强的 GPU 和更多的显存来缩短生成时间。

IMTalker 部署测试

目前,IMTalker 已在远程进行测试,但存在一些 BUG。点击 "Generate" 后,需要手动刷新页面才能触发后台处理。该问题仍在修复中,但目前已经能够查看部分结果。

生成素材:

这里只需要上传一张图片。


生成效果:

可以看到视频被裁剪为 512x512 的区域,能够自动眨眼,且具备非常快速的实时性。

实时性:

结论

通过对 IMTalker 的测试,我们可以得出以下结论:

  • 图片裁剪:输入图片会被裁剪为 512x512 的区域。

  • 实时性:实时性表现满足预期,能够在较短时间内生成视频并同步嘴部动作。