语音识别与翻译

2024-08-13 09:23:40 浏览数 (1)

N46Whisper

N46Whisper 是基于 Google Colab 的应用。开发初衷旨在提高乃木坂46(以及坂道系)字幕组日语视频的制作效率,但亦适于所有外语视频的字幕制作。本应用的目标并非生产完美的字幕文件, 而旨在于搭建并提供一个简单且自动化的使用平台以节省生产成品字幕的时间和精力。翻译结果还是需要人工润色一下,且由于Whisper的问题,有的地方会重复翻译,需要注意一下。

从视频或音频提取字幕文件

本站上使用的是whisper模型,你也可以去用whisper-desktop可视化软件。用google-colab还是为了白嫖算力。

就不详细说对应在ipynb文件上的操作了,里面已经写的很详细了。下面的例子是保存为srt格式的字幕文件的翻译示例。

翻译字幕文件

这部分内容实质上是调用chatgpt或者google gemini进行翻译。我偏向于使用google gemini翻译。因为chatgpt免费账号翻译速度慢,额度少(主要是没钱),导致运行中很大概率出现下面的问题:

google gemini就能顺利的翻译出来:

注:

本例是基于N46Whisper项目中的google colab进行,所以需要代理。对于google colab中的代码如何运行及原理,请自行百度。

关于翻译结果中的重复问题,也有可能是因为请求过于频繁,google gemini断开,而程序又再次发出请求所导致的。后续可以考虑下加个去重的功能。

0 人点赞