我们最近革新了整个翻译流程

2023-10-13 09:21:09 浏览数 (2)

目前的机器翻译而言,把握句子结构是没问题的,也就是说译文能做到通顺,但是专有名词把握不准。虽然这样的机器翻译能够大大缩短译者的校对时间,但仍然做不到一天翻译一本书的程度。对于 996 的打工人来说,非常耗费精力。

虽然大语言模型的去中心化开展的如火如荼,一些模型已经可以在本地 CPU 上流利运行。我就想着把我们的翻译流程改一改。以往的机翻校对(MTPE)的最大痛点是译者没能力或者没办法定制/微调模型,导致模型会将相同错误重复无数次。每次都需要译者纠正,译者的经验没办法自动化执行。

但现在不一样了,大模型完全可以在本地通过GPU来微调。按照这个逻辑,我重新设计了我们的翻译流程:

代码语言:javascript复制
原文 HTML
    ⬇ 
原文 Markdown
    ⬇ 
待翻译 YAML
    ⬇ 
双语 YAML  ➡ 平行语料库
    ⬇ 
译文 Markdown

与之前的流程相比,有以下几点显著优势:

  1. 以 Markdown 格式为主,便于在开源社区传播推广
  2. 使用本地大模型作为翻译引擎,无需网络连接
  3. 翻译后的文件自动形成平行语料库,可以用于模型训练
  4. YAML 格式的平行语料库更容易由人类阅读,可以给其他译者学习
  5. 待翻译 YAML 以句子为单位,强制语言模型不得跳过任何句子。

如果是别人翻译的译文,没有平行语料库,我们还支持自动对齐。

代码语言:javascript复制
原文 译文 HTML
    ⬇ 
原文 译文 Markdown
    ⬇ 
双语 YAML
    ⬇ 
改良版模型

具体工作可能还需要好几个月。等到我们重新发布翻译作品,就是整个流程跑通的时候。

0 人点赞