目前的机器翻译而言,把握句子结构是没问题的,也就是说译文能做到通顺,但是专有名词把握不准。虽然这样的机器翻译能够大大缩短译者的校对时间,但仍然做不到一天翻译一本书的程度。对于 996 的打工人来说,非常耗费精力。
虽然大语言模型的去中心化开展的如火如荼,一些模型已经可以在本地 CPU 上流利运行。我就想着把我们的翻译流程改一改。以往的机翻校对(MTPE)的最大痛点是译者没能力或者没办法定制/微调模型,导致模型会将相同错误重复无数次。每次都需要译者纠正,译者的经验没办法自动化执行。
但现在不一样了,大模型完全可以在本地通过GPU来微调。按照这个逻辑,我重新设计了我们的翻译流程:
代码语言:javascript复制原文 HTML
⬇
原文 Markdown
⬇
待翻译 YAML
⬇
双语 YAML ➡ 平行语料库
⬇
译文 Markdown
与之前的流程相比,有以下几点显著优势:
- 以 Markdown 格式为主,便于在开源社区传播推广
- 使用本地大模型作为翻译引擎,无需网络连接
- 翻译后的文件自动形成平行语料库,可以用于模型训练
- YAML 格式的平行语料库更容易由人类阅读,可以给其他译者学习
- 待翻译 YAML 以句子为单位,强制语言模型不得跳过任何句子。
如果是别人翻译的译文,没有平行语料库,我们还支持自动对齐。
代码语言:javascript复制原文 译文 HTML
⬇
原文 译文 Markdown
⬇
双语 YAML
⬇
改良版模型
具体工作可能还需要好几个月。等到我们重新发布翻译作品,就是整个流程跑通的时候。