谷歌翻译(NMT)如果被称为第三代,那么以大型语言模型(LLM)为基础的AI翻译可以被称为第四代。
第 4 代的特点是,相比第 3 代,可以更容易地学习“术语”和“短语”的翻译规则。
在这一点上,第四代机器翻译与第一代(基于规则)非常相似。
第3代也,有词汇表功能,Google Translate也有AutoML等迁移学习方法,可以调整为自己喜欢的方式,但是副作用太强,经常导致翻译质量下降。词汇表功能只能用于名词,迁移学习(AutoML)方法也太复杂。而且,很难说效果好。
第4代中,只需将术语和短语翻译规则注册到系统中,因为它是基于大型语言模型,所以可以以与人类发出指令时相同的形式来规定规则。
例如,假设我们想要将“製品”翻译为“product”。我们需要将其添加到词典中,但是在第三代中,“product”作为一个字符串被固定下来,无法进行复数形式的活用,也不会在标题中被大写。而在第四代中,可以自动处理所需的活用形式。
第 4 代已经可以在个人翻译者的水平上培养 AI 翻译。在第 1 代基于规则的机器翻译中,个人翻译者购买机器翻译软件,然后辛苦地注册词典,培养机器翻译的结果(虽然这是一项劳累而收获少的徒劳努力)。在第 4 代也可以做同样的事情。
第4代中,可以注册术语表,也可以注册过去的翻译资产,即翻译记忆(TM)。还可以注册短语级别的翻译方式。此外,基础翻译质量本身也相当不错。可以无副作用地促进机器翻译的发展。
机器翻译·AI翻译的世代交替大约每10年发生一次。10年后将会出现第5代,但是完全无法想象它会是什么样子。
但是,未来的十年无疑将以第四代AI翻译为中心。