Google Translate(NMT)를 3세대로 본다면, 대규모 언어 모델(LLM)을 기반으로 하는 AI 번역은 4세대라고 할 수 있다.
4세대의 특징은 3세대와 비교했을 때, '용어'나 '구문'의 번역 방식에 관한 (일종의) 규칙을 쉽게 학습시킬 수 있다는 점이라고 할 수 있다.
그 점에서 4세대는 1세대(규칙 기반) 기계번역과 매우 유사하다.
3세대 역시 용어집 기능이 있었고, Google Translate의 경우 AutoML과 같은 전이 학습 기법을 통해 자사에 맞게 튜닝할 수 있었지만, 부작용이 너무 커서 번역 품질이 저하되는 경우도 자주 있었다. 용어집 기능은 명사에만 사용할 수 있었고, 전이 학습(AutoML) 방법도 너무 복잡했다. 그리고 효과가 있다고 말하기도 어려웠다.
4세대에서는 용어나 구문의 번역 방식에 대한 규칙을 시스템에 등록하면 되는데, 대규모 언어 모델을 기반으로 하고 있기 때문에 사람에게 지시를 내릴 때와 같은 방식으로 규칙을 지정할 수 있다.
예를 들어, "製品"을 "product"로 번역하고 싶다고 가정해 보자. 이를 사전에 등록한다고 해도, 3세대에서는 번역어인 "product"가 문자열로 고정되어 복수형으로 활용되지도 않고, 제목일 때 "Product"로 대문자 처리되는 일도 없다. 4세대에서는 필요한 활용형 처리를 자동으로 해준다.
4세대에서는 번역자 개인의 수준에서 AI 번역을 발전시킬 수 있게 되었다. 1세대의 규칙 기반 기계번역에서는 개인 번역자가 기계번역 소프트웨어를 구매하고, 직접 사전을 하나하나 등록하면서 기계번역 결과를 개선해 나갔다(그것은 많은 노력이 들었지만 성과는 적은 헛된 노력이었다). 4세대에서도 같은 일을 할 수 있다.
4세대에서는 용어집도 등록할 수 있고, 과거의 번역 자산인 번역 메모리(TM)도 등록할 수 있다. 문구 수준의 번역 방법도 등록할 수 있다. 그리고 기본 번역 품질 자체가 상당히 우수하다. 부작용 없이 기계번역을 성장시킬 수 있다.
기계번역과 AI 번역의 세대 교체는 대략 10년마다 일어난다. 10년 후에는 5세대가 등장할 것이고, 그것이 어떤 모습일지는 전혀 상상할 수 없다.
하지만 앞으로의 10년은 분명히 4세대 AI 번역이 중심이 될 것이다.