在数字媒体日益发达的今天,视频内容的创作与编辑已成为许多人日常生活和工作中不可或缺的一部分,制作高质量的视频内容往往需要耗费大量的时间和精力,尤其是在需要实现人物口型与音频完美同步的场景中。幸运的是,随着人工智能技术的飞速发展,一款名为Easy-Wav2Lip的创新工具应运而生,它正逐步改变着视频制作的格局。
Easy-Wav2Lip是基于Wav2Lip技术的深度优化和扩展版本。Wav2Lip本身便是一项令人瞩目的成就,它利用深度学习算法,能够自动生成与输入音频相匹配的唇形动作,从而实现视频中人物口型与语音的精准同步。而Easy-Wav2Lip则在此基础上进行了多项改进,不仅提升了处理速度,还进一步优化了视觉效果,让生成的视频更加自然、逼真。
技术特点和优势
- 高效处理:Easy-Wav2Lip显著缩短了视频处理的时间。在强大的GPU支持下,即使是高分辨率、高帧率的视频也能在短时间内完成口型同步处理,大大提高了工作效率。
- 多品质选项:为了满足不同用户的需求,Easy-Wav2Lip提供了多种品质选项。从基础的Wav2Lip效果到增强的面部提升效果,用户可以根据实际情况选择最适合自己的方案。
- 极致易用性:为了降低使用门槛,Easy-Wav2Lip提供了详细的文档和教程,帮助用户快速上手。同时,它还支持一键安装和启动,无需复杂的配置过程,即可开始享受AI带来的便利。
- 深度个性化调节:Easy-Wav2Lip允许用户进行深度个性化调节,包括唇形同步的精准度、平滑效果、填充程度以及面部遮罩等参数。这些功能使得用户能够根据自己的需求和喜定制出独一无二的视频效果。
使用教程
此项目在原有的Wav2Lip基础上进行优化,针对部署过程中出现的多种问题,例如缓存、界面、执行效率等,都进行了优化。
温馨提示:
需要有独立显卡,N卡才能用,CPU和A卡就别下了。
不解答任何软件使用问题,请确认会用再下载!
报错问题请在此跟帖,贴出报错内容,看到后会回复。
如报错未找到文件,请参考此贴设置 点击进入
- 如果遇到生成后出现其他的人脸的现象,删除目录下 last_detected_face.pkl 这个文件,重新生成即可!
- 如果遇到提示找不到指定文件错误,请手动设置ffmpeg环境变量,具体站内搜索,有相关教程。
- 如果使用自己录制的视频做素材,建议不要张嘴说话,只做一些简单的点头表情等,不需要张嘴说话。素材帧率选择25帧为最佳效果,视频分辨率不要超过1080P.
准备材料:
视频文件:
选择的视频帧中必须都有一张脸,否则将报错。(比如你视频总时长10秒,中间有2秒没有人脸的画面,就会报错),推荐H264编码的mp4视频格式。
音频文件:
建议音频长度与视频的长度相同(比如你是10秒钟的视频,那么你的音频长度建议是10秒。如果音频长度比视频长度长,视频会自动向后循环延长),音频文件格式为wav 和mp3。
提示:该版本支持批量。批量支持多段视频多段音频、多段视频单段音频。
举个例子:
- 你有3个视频,3段音频,那么会按照你选择的顺序视频1对应音频1、视频2对应音频2进行处理。
- 你有3个视频,1段音频,那么会按照你上传的所有视频都对应这个音频进行处理。视频1对应音频1、视频2对应音频1、视频3对应音频3。
开始运行
打开整个exe文件,将符合要求的音频和视频文件上传到对应的文件框中,点击开始生成,等待一段时间。
设置参数
视频质量:
Fast快速:Wav2Lip音频转口型模式。
Improved改进:Wav2Lip音频转口型模式 +唇部周围带有遮罩羽化,去除唇部周围边框。
Enhanced增强:Wav2Lip音频转口型模式 + 遮罩羽化 + GFPGAN高清脸部增强
Experimental实验性:在增强的模式上优化执行效率。
如果不是机器配置太差默认推荐选 Enhanced 和 Experimental
分辨率选项
full resolution全分辨率
half resolution半分辨率
注意:测试下来半分辨率会在某些情况下存在不兼容问题,建议这个选项选全分辨率
Wav2Lip版本选项
Wav2Lip
优点:更准确的口型同步、在没有声音时会保持嘴巴闭合。
缺点:有时会产生牙齿缺失(部分情况下)。
Wav2Lip_GAN
优点:效果看起来更保留说话者原有表情。
缺点:不太擅长遮盖原始的嘴唇动作,尤其是在没有声音的情况下。
建议:先尝试 Wav2Lip,如果遇到口齿上有很大缝隙的效果,再切换到Wav2Lip_GAN版本。
启用脸部平滑
启用后,wav2lip 将独立裁剪每个帧上的脸部。
适用于视频中的快速移动或剪辑。
如果脸部角度奇怪,可能会导致抽搐。
禁用后,wav2lip 会在 5 帧之间混合检测到的人脸位置。
适合缓慢移动,尤其是对于不常用角度的脸部。
当脸部在画面中快速移动时,嘴巴可能会偏移,在切割之间看起来很可怕。
Padding (填充):此选项控制在每个方向上从面部裁剪中添加或删除的像素数。
此选项可以帮助去除下巴或脸部其他边缘的硬线条,但填充过多或过少都会改变嘴巴的大小或位置。通常的做法是在底部添加 10 个像素,建议尝试不同的值,找到最佳效果。
Mask遮罩部分
Mask尺寸
将增加蒙版覆盖的区域的大小。(脸部周围有边框可以减少此数值,例如:1.5)
Mask羽化
决定了蒙版中心和边缘之间的混合量。(脸部周围有边框也可以增加此数值 )
启用Mask嘴部跟踪
会将遮罩的位置更新到嘴巴在每一帧上的位置(速度较慢)
注意:由于帧被裁剪到脸上,嘴巴位置已经很近似了,只有当发现视频的遮罩似乎没有跟随嘴巴时,才启用此功能。
启用Mask调试
开启后将使背景灰度和蒙版变彩色,可以看到蒙版在框架中的位置。(此参数改成True后,可以更直观的看到参数效果)
推荐一个默认效果比较好的参数,大家也可以根据自己的素材自行调节:
视频质量选项:Enhanced
分辨率选项:full resolution
Wav2Lip版本选项:Wav2Lip
启动追踪旧数据:True
启用脸部平滑:True
嘴部上边缘:0
嘴部下边缘:10
嘴部左边缘:0
嘴部右边缘:0
Mask尺寸:1
Mask羽化:1
启用嘴部追踪:True
启用调试:False
下载链接:https://pan.baidu.com/s/13mEbnHu0apza9HaTeC-d1Q?pwd=hspi
解压密码:Easy-Wav2Lip@deepface.cc