원문 링크) 2024.05.20.
Abstract
- 최근 기계번역(machine translation)의 성능 향상은 여러 분야에 걸쳐 번역의 품질을 크게 향상시킴
- 하지만 문학 작품(literary texts) 번역은 여전히 매우 어려운 분야다.
- 언어 자체의 복잡성, 묘사적 표현, 문화적인 뉘앙스
- 이 논문에서는 대규모 언어모델(LLM)에 기반한 새로운 멀티 에이전트 프레임워크를 도입한다.
- 그리고 이를 이용하여 전통적인 출판 과정(publication process)을 모사한 가상의 회사 TransAgents를 실행한다.
- 문학 작품 번역에 요구되는 복잡한 문제들을 해결하기 위하여, 다수의 에이전트로부터 결합된 능력을 활용한다.
- 또, 제안된 TransAgents 시스템을 평가하기 위하여, 두 가지 평가 전략을 제안한다.
- MHP(Monolingual Human Preference) : 번역되는 결과(=타겟) 언어를 단일 언어로 사용하는 독자 관점에서 평가
- BLP(Bilingual LLM Preference) : LLM을 사용하여 번역 결과를 원본 텍스트와 비교
- 실험 결과, TransAgents의 번역은 비록 d-BLEU 점수는 낮았지만, 사람이 한 번역과 비교할 때, LLM과 사람들이 더 선호하는 결과가 나왔다.
- 특히, 해당 분야에 관한 지식(domain-specific)이 요구되는 장르에서 더욱 선호되었다.
- 참고) BLEU(Bilingual Evaluation Understudy) score : 기계번역된 텍스트의 성능 측정을 위한 알고리즘
1. Introduction
- 기계 번역(Machine translation)은 딥러닝과 신경망의 발전에 힘입어 최근 놀랍게 발전하였다.
- 그러나 여전히 문학 번역은 가장 어려운 영역으로 남아 있어서 종종 기계번역의 마지막 경계(the last frontier of machine translation)라고 불리운다.
- 이에 최근 LLM을 활용한 멀티-에이전트(multi-agent) 시스템 연구가 의미있는 가능성을 보이고 있다.
- 개별 모델과 비교할 때, 여러 에이전트의 집합적인 지능을 활용함으로써 뛰어난 문제 해결 능력을 보인다.
- 이 논문에서는 멀티 에이전트 시스템을 이용해서 문학 번역을 위한 멀티 에이전트 번역 회사(multi-agent translation company)인 TRANSAGENTS를 설정한다.
- 전체 번역 과정은 크게 두 개의 주요 스테이지로 구성되고, 각 스테이지는 여러 하위 스테이지로 구성된다.
- 번역 과정의 시작은 각 클라이언트의 특정 요구사항에 기반하여 미리 지정된 CEO 에이전트가 선임 편집자(Senior Editor)를 선택하는 과정으로 시작된다.
- 선정된 선임 편집자는 가능한 근무자 명단에서 팀을 모은다. 이 팀에는 주니어 편집자(junior editor), 번역가(translator), 현지화 전문가(localization specialist), 교정자(proofreader) 역할이 포함된다.
- 각 팀 구성원들은 여러 하위 스테이지에서 협력하여 전략을 선택함으로써, 번역 결과를 향상시킨다.
- 문학 번역의 정확성과 품질을 평가하는 것 또한 문학의 주관적인 성질이나 참조할 번역결과가 가질 수 있는 오류 때문에 특히 어려운 일이다.
- 이를 해결하기 위하여, MHP(Monolingual Human Preference)와 BLP(Bilingual LLM Preference)라는 두 가지 평가 전략을 제안한다.
- 두 전략 모두 서로 다른 두 번역 시스템에서 나온 번역 결과 중에 어떤 것이 더 나은지를 비교한다.
- MHP는 번역된 작품을 읽는 사실적인 시나리오를 시뮬레이션한다.
- 원본 텍스트의 영향 없이 번역 결과를 번역할 수 있는 타켓 언어 사용자 중에서 인간 평가자
- 실제 문학 작품이 소비되는 방식을 반영하여, 유창성(fluidity), 가독성(readability), 문화 적합성(cultural appropriateness) 관점에서 얼마나 잘 독자의 공감을 받는지에 중점을 둔다.
- BLP는 LLM( 이 논문에서는 GPT-4-0125-preview 사용)의 능력을 활용한다.
- LLM은 직접 비교를 쉽게 하기 위해 원문 텍스트를 함께 입력받는다.
- 이 방식은 LLM의 뛰어난 번역능력을 활용하는 것을 목적으로 하며, 참고할 번역(reference translation)이 불완전하게 번역된 경우의 문제점을 완화할 수 있다.
- 실험결과에서 TRANSAGENTS는 d-BLEU scores에서는 일관되게 가장 나쁜 성능을 보였다.
- 그렇지만 사람이 한 번역(human-written reference translation)과 GPT-4 번역과 비교할 때,
- 인간 평가자와 LLM 평가 모두 TRANSAGENTS의 번역 결과를 선호하였다.
- 구체적으로 역사적인 문맥이나 문화적인 뉘앙스와 같은 도메인 지식이 요구되는 장르에서는 사람의 번역보다 뛰어났다. 그러나 현시대의 상황이 반영된 장르(contemporary genre)에서는 성능이 떨어졌다.
- 비용 측면에서, 문학 번역에 소요되는 TRANSAGNETS 비용은 전문 번역가를 고용하는 것보다 80배 저렴하였다.
- 그럼에도 불구하고, LLM 기반의 번역방식인 GPT-4 번역이나 TRANSAGENTS 둘 다, 상당한 내용 생략과 같은 이슈처럼 분명한 문제점 또한 찾아낼 수 있었다.
2. Related Work
- Large Language Models
- Multi-Agent Systems
- Machine Translation
3. TRANSAGENTS: A Multi-Agent Virtual Company For Literary Translation
- 가상의 멀티 에이전트 번역 회사 TRANSAGENTS에는 다양한 역할이 있다.
- CEO, 선임 편집자(senior editor), 주니어 편집자(junior editor), 번역가(translator), 현지화 전문가(localization specialists), 교정자(proofreader)
- 클라이언트가 한 권의 책에 대한 번역 작업을 할당했을 때, 선택된 에이전트로 구성된 팀은 번역을 위해 협력한다.
- 이 과정은 실제 이뤄지는 책 번역과정을 따라하는데, 서로 다른 역할의 사람들이 함께 일할 때 번역의 품질과 일관성이 유지될 수 있다.
3.1. Company Overview
- 선임 편집자(senior editors)
- 콘텐츠 생성 과정을 감독하는 책임이 있다.
- 이들의 주된 의무는 편집 기준의 설정, 주니어 편집자를 안내, 회사의 목표와 컨텐츠가 일치(align)되도록 하는 것이다.
- 주니어 편집자(Junior editors)
- 선임 편집자의 지도 아래 매일매일의 편집 작업 흐름(workflow) 관리, 콘텐츠 편집, 편집 계획 보조 등의 역할을 책임진다.
- 또한 조직 내의 다양한 다른 역할과 의사소통을 처리한다.
- 번역가(Translators)
- 원래 텍스트의 톤, 스타일, 문맥을 유지하면서 다른 언어로 내용을 변환한다.
- 번역가는 두 언어에 대한 깊은 이해 뿐만 아니라 번역되는 내용의 주제에 익숙함이 있어야만 한다.
- 현지화 전문가(Localization Specialists)
- 현지화 전문가의 역할은 단순한 번역 이상으로서, 내용을 특정 지역과 시장에 맞게 조정한다.
- 번역된 글을 읽는 독자가 공감할 수 있도록 문화적 배경, 관용구, 이미지 등을 조정한다.
- 교정가(Proofreaders)
- 문법, 철자법, 구두점, 형식 오류에 대한 최종 검사를 수행한다.
- 출판 전에 높은 품질 기준을 충실히 지키면서 콘텐츠가 다듬어지도록 하는데 핵심적인 역할이다.
- 번역 과정에 대한 이러한 시뮬레이션의 사실성을 높이면서 효과적으로 진행하기 위하여, GPT-4-Turbo 모델을 사용해 개별 역할들에 대한 가상의 에이전트 프로필(virtual agent profiles)을 30개 생성한다.
- 프로필들은 단순한 언어적인 능력 이상의 다양한 속성을 포함하도록 포괄적으로 설계된다.
- 성별, 국적, 단어당 비용(rate per word), 학력 사항, 경력 기간, 전공 영역 등이 깊이 있게 포함된다.
- 상세하고 개인화된 접근을 통해 번역 과정 시뮬레이션의 확실함을 강화하고, 실세계 번역 과정에서 찾을 수 있는 설정의 복잡함과 다양성을 따라할 수 있다.
- 프로필들은 단순한 언어적인 능력 이상의 다양한 속성을 포함하도록 포괄적으로 설계된다.
3.2. Agent Collaboration Strategies
논문에서 활용된 두 가지 협업 전략을 소개한다.
전략1 ) Addition-by-Subtraction Collaboration
- 기존 논쟁 방식 전략(debate-style)은 여러 명의 에이전트가 각자마다의 답변을 제안하고, 제 3자인 에이전트가 토론의 결론을 내리는 방식이었다면, Addition-by-Subtraction Collaboration 전략은 오직 두 명의 에이전트만을 포함한다.
- Addition 에이전트는 가능한 많은 관련 정보를 추출하는 것이 목적이라면
- Subtraction 에이전트는 추출된 정보를 검토하고, 중복된 세부 내용을 제거하며 Addition 에이전트에게 피드백을 제공한다.
- Addition 에이전트인 A는 가능한 유용한 내용이 많이 포함되도록 최초 응답을 생성한다.
- 뒤이어 Subtraction 에이전트인 S는 응답 내용을 검초하고 중복 정보를 제거한다.
- 대화 과정은 더이상 응답의 수정(revision)이 필요하지 않을 때까지 반복된다.
전략2 ) Trilateral Collaboration
- 협력 과정을 3가지 부류(branch)로 크게 분류하기 때문에 3자간 협력(trilateral collaboration)으로 명명한다.
- Action : 지시를 따르고, 이에 따라 요구되는 활동을 하는 권한(power)
- Critique : 생성된 응답을 검토하고, Action 브랜치에 건설적인 피드백을 제공하는 권한
- Judgement : 응답이 만족스러운지 또는 추가 수정이 필요한지에 관한 최종 결정을 하는 권한
- 각 브랜치마다 한 에이전트를 할당한다.
- Action 에이전트 P가 응답 R을 생성할 때는 문맥 C와 지시 I를 참고한다.
- Critique 에이전트 Q는 응답 R에 대한 비평 F를 쓴다.
- Action 에이전트 P는 비평을 수용하고 응답을 수정하거나, 원래 응답을 유지할지를 선택할 수 있다.
- 각 반복의 끝에서 Judgement 에이전트 J는 응답 R을 평가하여 토의를 종료할지 아니면 추가적인 심의(deliberation)가 필요한지를 결정한다.
3.3. Translation Workflow
이제 두 가지 주요 단계인 준비(preparation) 단계와 실행(execution) 단계를 포함하여 TRANSAGENTS의 한 권의 책에 대한 작업 흐름을 소개한다.
3.3.1 Preparation
Project Members Selection
- 이런 역할이 부여된(role-playing) 과정에서 개별 에이전트에게 역할을 부여하기 위해서 시스템 프롬프트를 사용한다.
- TRANSAGENTS 회사 설정 상에서는 30개의 에이전트 프로필을 생성한다.
- 각 프로필은 유일한 역할 할당 프롬프트와 연결된다.
- 대화가 시작되기 전에 에이전트들에게 특수한 역할을 부여하기 위해서는 이러한 프롬프트들이 필수적이다.
- 각 프로필은 유일한 역할 할당 프롬프트와 연결된다.
- 최초 단계는 CEO 에이전트가 책 번역 프로젝트를 위한 선임 편집자(Senior Editor)를 선택하는 과정이 포함된다.
- 이 때, 고객의 요구사항과 이를 해결할 선임 편집자의 자격이 고려되어야 한다.
- 선임 편집자가 선택되면, CEO와 밀접하게 협력하며 나머지 프로젝트 팀을 구성한다. 이 때, 후보 구성원들의 기술과 배경이 신중하게 고려된다.
- 나아가 자기 반영(self-reflection) 전략을 도입한다.
- 이는 CEO가 스스로의 결정을 다시 생각하도록 하는 고스트 에이전트(ghost agent)를 포함하는 것인데,
- 이를 통하여 프로젝트에 바람직한 언어 기술을 갖춘 선임 편집자를 CEO 에이전트가 선택하도록 노력하는 과정이 관찰되었다.
Translation Guideline Documentation
- 전체 번역 작업흐름 속에서 일관성을 유지하기 위해서는 번역 지침(guideline)이 필요하다.
- 용어 사전(Glossary)
- 책 번역 과정에서 용어 사전의 주된 목적은 원래 언어의 필수 용어를 하나로 모으고(compile), 이에 상응하는 번역을 제공하는 것이다.
- 몇몇 용어는 여러 가지 번역이 가능할 수 있기 때문에, 용어사전을 통하여 번역의 정확성과 일관성을 보장한다.
- TransAgents에서는 Addition-by-Subtraction Collaboration 전략을 사용하여 핵심 용어를 수집한다.
- 각 챕터마다 Addition 에이전트 A인 주니어 편집자가 모든 가능한 핵심 용어를 철저히 찾아내기 위하여 최초에 시도한다.
- 뒤이어 선임 편집자가 Subtraction 에이전트 S 역할로서 모든 파악된 핵심 용어를 검토하고, 일반적인(generic) 용어라면 제거한다.
- 이런 대화과정은 수집된 용어 리스트에서 포괄적인 용어가 제거될 때까지 반복된다.
- 이제, 수집된 핵심 용어는 각각의 문맥(context)를 고려하여 선임 편집자에 의해서 번역된다.
- 책 내용 요약(Book Summary)
- 책에 대한 요약을 생성하는 과정은 이야기의 종합적인 개요를 번역과정에 제공하기 위해서 중요하다.
- 이 작업도 Addition-by-Subtraction Collaboration 전략을 채택하여, Addition 에이전트로서의 주니어 편집자와 Subtraction 에이전트로서의 선임 편집자 간의 협력에 의해 더 잘 실행된다.
- 주니어 편집자는 챕터 요약에 가능한 많은 세부 내용이 포함되는 것을 목표로 한다.
- 반면, 선임 편집자는 요약에 불필요한(superfluous) 정보를 제거하는데 집중한다.
- 챕터 마다의 요약을 하나로 모아서 선임 편집자는 용어사전을 만드는 과정과 유사하게 전체 책에 대한 요약을 생성한다.
- 번역의 어조, 스타일, 예상 독자에 대한 고려(Tone, Style and Target Audience)
- 번역은 단순한 단어와 단어 사이의 변환 이상이다.
- 어조, 스타일, 예상 독자를 고려하여 조정면서도 원본 텍스트의 핵심은 담겨 있어야하는 섬세한 과정이다.
- TransAgents에서는 선임 편집자가 무작위로 선택한 챕터를 바탕으로 어조, 스타일, 번역된 책의 예상 독자를 정의한다.
- 이런 지침은 책 번역 과정을 함께 하는 모든 역할에 대한 프롬프트의 핵심적인 부분을 제공하며, 전체 작업 과정 안에서 일관성(consistency와 coherence)을 보장한다.
3.3.2. Execution
- 실행 단계는 네 가지 하위 단계로 구분된다 : 번역(translation), 문화적 측면 조정(cultural adaptation), 교정(proofread), 최종 검토(final review)
- (번역 / 문화적 조정 / 교정)의 세 단계에서는 3자간 협력(trilateral collaboration) 전략을 사용한다.
- Action 에이전트 P의 역할을 번역가(translator), 현지화 전문가(localization specialist), 교정가(proofreader)에 부여한다.
- 동시에 Critique 에이전트 Q의 역할이 주니어 편집자에게 주어지고, Judgement 에이전트J의 책임이 선임 편집자에 의해 채워진다.
- 마지막으로 출판 전 최종 검토를 선임 편집자가 수행한다.
Translation, Localization, and Proofreading
- 번역 단계는 번역가, 주니어 편집자, 선임 편집자라는 세 가지 핵심 역할이 필요하다.
- 세 역할은 각 챕터마다(chapter-by-chapter basis) 책을 번역하기 위해 협력한다.
- Action 에이전트인 번역가가 원래 언어로 쓰여진 챕터의 콘텐츠를 목표한 언어로 번역하는 최초 과정에서 번역이 시작된다.
- 이어서 Critique 에이전트 역할의 주니어 편집자가 수행된 번역에 대하여 철저한 검토를 수행하여, 번역 지침을 지켰는지와 오류가 있을 수 있는 부분 및 더 나은 번역이 가능한 부분을 파악한다.
- 마지막으로 Judgement 에이전트 역할의 선임 편집자가 번역을 평가하고 추가 수정이 필요한지 여부를 결정한다.
- 번역 단계 다음에 문화적 측면의 조정 단계가 이어진다.
- 현지화 전문가는 번역된 글을 읽을 독자의 문화적 맥락에 맞도록 번역된 내용을 조정한다. 글 속의 원래 의미가 유지되면서도 독자들에게 더 잘 공감되도록 한다.
- 교정 단계는 언어 상의 오류에 대한 검토를 수행한다.
- 문화적 조정 단계와 교정 단계를 거치는 동안 주니어 편집자와 선임 편집자는 비평(critique)과 평가(evaluation)을 계속 수행하여 콘텐츠를 계속 가다듬는다.
Final Review
- 최종 검토는 편집 과정의 최종 단계(concluding step)다.
- 이 단계에서 선임 편집자는 각 챕터마다 번역의 품질을 평가하고, 인접한 챕터의 내용이 서로 잘 이어지는 지 확인한다.
- 즉, 각 챕터 안에서의 내용이 일관성 있고, 품질 기준을 만족하는지 뿐만 아니라
- 챕터 간의 전환이 부드럽고 이로부터 이야기의 일관성이 유지되는 지를 확인한다.
On the Importance of the Judgement Agent
- 3자간 협력 전략의 Judgement 에이전트는 응답의 품질을 평가하고, 그동안 대화 이력을 요청하지 않고도 추가 수정이 필요한지 여부를 결정할 수 있다.
- LLM의 최근 발전에 힘입어, LLM이 수백만 토큰에 이르는 매우 긴 시퀀스를 처리할 수 있다고 하지만, 여전히 대화가 길어지면 에이전트들은 문맥 상 정보를 효과적으로 활용할 수 없었다.
- 또한 수정 단계가 여러번 반복되면 번역된 의미가 원문에서 벗어나는 경향을 관찰할 수 있었다.
- 따라서 전체적인 번역 품질을 보장하기 위해서는 3자간 협력 전략의 Judgement 에이전트를 두는 것이 핵심이었다.
4. Experimental Setup
'A.I. > 이론' 카테고리의 다른 글
논문 번역 및 요약) Depth Pro : Sharp Monocular Metric Depth in Less Than a Second (0) | 2024.10.18 |
---|---|
LLM)논문꼼꼼히읽기 - A Survey of Large Language Models (1) | 2024.07.05 |
논문리뷰) 어두운 영상의 밝기 조정 : Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement (1) | 2022.11.03 |
논문 리뷰)시선 예측 연구의 고전 - Eye Tracking for Everyone (1) | 2022.08.20 |
시선 예측을 위하여 딥러닝 기술은 어떻게 활용 되는가? (0) | 2022.04.24 |
댓글