0%

利用本地化模型部署的AI软件进行英文视频转中文字幕

利用本地化模型部署的AI软件进行英文视频转中文字幕

1 需求

需求很简单:即B站的某个英文视频非常有学习价值,希望能够下载下来便于离线反复观看,最核心需求是下载后的视频必须和中文字幕配合使用

B站的某视频文件截屏如下

image-20231217170449878

2 思路

2.1 思路1 工具直接下载

直接使用B站提供的字幕下载,部分B站视频在利用诸如Downie下载时候可以同步下载已经翻译过的字幕文件

B站虽然贴心地提供了在线自动翻译功能,但是问题是必须在线使用无法离线。并且大多情况下英文原版视频,B站并没有提供对应的单独中文字幕文件

这种直接下载方式的解决思路受制于B站,不具备通用性

2.2 思路2 转写翻译软件

使用诸如科大讯飞的智能硬件设备,诸如科大讯飞SR201支持中英文实时互转,这一功能在跨国会议、英语学习等场景下非常实用

但是得到是一个中英文的文稿,最大的痛点是缺乏时间序列属性,无法转化为可使用的字幕文件

其它的转写翻译软件还有一个最大的痛点就是需要回看几个小时长的音视频进行实时转写翻译,这个显然是不现实的

在观看学习英文版视频文件中可能需要来回切换,或者提前学习翻译后的文稿,学习效率不高

2.3 思路3 本地化部署AI模型进行转写

既然我们最终目标是希望能够在观看视频的同时,能够实时的看到中文字幕,最好的结果是中英字幕双字幕叠加

需要解决的痛点就是翻译准确,特别是对专业术语要确保准确性,同时不需要去回看音视频去实时转写,而是通过读取音视频文件直接进行转写翻译功能

同时输出能够带有时间序列的字幕文件,这样后续利用播放软件直接加载字幕使用

3 实施

3.1 下载

第一步:直接利用成熟的Downie软件将B站视频下载到本地

image-20231217180232481

3.2 转写

利用Whisper Transcription直接进行转写翻译

Whisper 是 OpenAI(就是chatGPT背后的公司)在2022年9月开源的音频转文本的模型,它的转写精确度非常高

关键可以对多种语言进行转写【后续我们】

免费版的Whisper Transcription提供了本地化模型部署方式

免费版可以选择质量和性能相对平衡的小模型版本进行本地化部署

image-20231217181901298

直接打开本地音视频文件,支持MP3WAVMP4MOV等多种格式

image-20231217182338238

软件开始进行transcribing转写

实际测试下来速度还是蛮快的,得益于Whisper Transcription在Mac平台上的优化,GPU利用率基本都在95%左右

1小时17分的视频文件,3分8秒时间内容完成了转写,25.67倍加速

image-20231217184722452

完成后可以对转写后的结果进行总体预览

image-20231217164409922

选择Export导出带时间序列的SRT格式的字幕文件

image-20231217164448810

3.3 在线翻译

直接将前序导出的srt文件,先复制粘贴至word中再导出为.docx,然后后上传至有道翻译的文档翻译

image-20231217180843329

此时可以直接得到带时间序列的中文结果

image-20231217162515994

选择导出文档,输出最终的

因为有道翻译非VIP版本直接导出PDF,因此后续还要通过PDF阅读软件导出word,然后再导出为word文件,然后复制粘贴至记事本,导出为srt文件

注意srt文件的文件名称要和视频文件一致

4 结果

利用播放软件的字幕加载功能(一般软件都会自动加载文件名相同的字幕文件)

image-20231217190945105

后续如果特定需求,可以利用视频编码软件将字幕合并内嵌到视频内