VideoLingo 是一站式视频翻译本地化配音工具,能够一键生成 Netflix 级别的高质量字幕,告别生硬机翻,告别多行字幕,还能加上高质量的配音,让全世界的知识能够跨越语言的障碍共享。
主要特点和功能:
-
🎥 使用 yt-dlp 从 Youtube 链接下载视频
-
🎙️ 使用 WhisperX 进行单词级时间轴字幕识别
-
📝 使用 NLP 和 GPT 根据句意进行字幕分割
-
📚 GPT 总结提取术语知识库,上下文连贯翻译
-
🔄 三步直译、反思、意译,媲美字幕组精翻效果
-
✅ 按照 Netflix 标准检查单行长度,绝无双行字幕
-
🗣️ 使用 GPT-SoVITS 等方法对齐配音
-
🚀 整合包一键启动,在 streamlit 中一键出片
-
📝 详细记录每步操作日志,支持随时中断和恢复进度
-
🌐 全面的多语言支持,轻松实现跨语言视频本地化
与同类项目的主要区别:绝无多行字幕,最佳的翻译质量
ru_demo.mp4 |
sovits.mp4 |
OAITTS.mp4 |
当前输入语言支持和示例:
输入语言 | 支持程度 | 翻译demo |
---|---|---|
英语 | 🤩 | 英转中 |
俄语 | 😊 | 俄转中 |
法语 | 🤩 | 法转日 |
德语 | 🤩 | 德转中 |
意大利语 | 🤩 | 意转中 |
西班牙语 | 🤩 | 西转中 |
日语 | 😐 | 日转中 |
中文* | 🤩 | 中转英 |
*中文需单独配置whisperX模型,仅适用于本地源码安装,配置过程见安装文档,并注意在网页侧边栏指定转录语言为zh
翻译语言支持大模型会的所有语言,配音语言取决于选取的TTS方法。
商业版提供免费的 20min 额度,请访问 videolingo.io
只需 5 分钟即可在 Colab 中快速体验 VideoLingo:
VideoLingo 支持所有硬件平台和操作系统,但在 GPU 加速下性能最佳。详细安装说明请参考文档:English | 简体中文
目前VideoLingo 提供了Dockerfile,可自行使用Dockerfile打包目前VideoLingo,要求CUDA版本为12.4,NVIDIA Driver版本大于550,打包和运行方法为:
docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo
详见:Docker
-
不同设备运行 whisperX 效果不同,v1.7 会先进行 demucs 人声分离,但可能会导致分离后转录效果不如分离前,原因是 whisper 本身是在带 bgm 的环境下训练的,分离前不会转录bgm的歌词,但是分离后可能会转录歌词。
-
配音功能的质量可能不完美,仍处于测试开发阶段,正在尝试接入 MascGCT。目前为获得最佳效果,建议根据原视频的语速和内容特点,选择相近语速的 TTS,效果见 demo。
-
多语言视频转录识别仅仅只会保留主要语言,这是由于 whisperX 在强制对齐单词级字幕时使用的是针对单个语言的特化模型,会因为不认识另一种语言而删去。
-
多角色分别配音正在开发,whisperX 具有 VAD 的潜力,但是具体需要一些施工,暂时没有支持此功能。
- SaaS 版本 at videolingo.io
- VAD 区分说话人,多角色配音
- 用户术语表
- 配音视频唇形同步
本项目采用 Apache 2.0 许可证,我们衷心感谢以下开源项目的贡献:
whisperX | yt-dlp | json_repair | GPT-SoVITS | BELLE
- 加入我们的 QQ 群:875297969
- 在 GitHub 上提交 Issues 或 Pull Requests
- 关注我的 Twitter:@Huanshere
- 联系邮箱:[email protected]
如果觉得 VideoLingo 有帮助,请给我们一个 ⭐️!