트라도스의 아버지 요헨 후멜이 말하는 번역과 AI의 미래

Author
임윤
Date
2023-06-29 19:24
Views
3909

요헨 후멜(Jochen Hummel)

“번역업계” 약력만 요약할래도 너무 길어서 포기함. ㅋㅋㅋㅋㅋ
다행히 저에게 “나 번역가 하고 싶은데 AI 때문에 번역가 곧 날백수 되는거 아닌가요 ㅠ” 같은 질문을 하는 사람이 더는 없습니다. “맞아요 적어도 너는 날백수 됨”하고 평소에 친절하게 답변한 덕이 아닐까 싶습니다. 안타깝게도 다른 번역가 친구들에게는 아직 저런 질문이 들어오나 봅니다. 사실적시를 딱 해주든지 돈 받고 답변하지 않으면 여름밤 모기처럼 너를 괴롭힐 거라고 해줌.
그런데 고작 동네 자영업자에 불과한 내가 말해봤자 안 믿을 것 아닙니까. 하지만 업계 개척자의 말씀, 그중 아직까지 현업으로 일하시는 트라도스의 아버님께서 AI와 번역의 미래에 대해 좋은 말씀 나누어 주신다면 어떨까요?

마크 로여(트라도스 총괄매니저)와 요헨 후멜(트라도스의 아버지)
트라도스 ELEVATE 2023에서 캡처

1980년대, 본디 번역가이자 IBM 개발자셨던 요헨께서 가라사대, 어느 날 업무에 임하시던 도중 같은 문장을 두 번 번역하기 싫다는 생각이 드셨더라. 이에 번역 메모리를 창안하시었으나, 불신자들이 자신들은 같은 문장을 두 번 번역할 일이 없다 고개를 가로저었느니라. 요헨께서 가라사대, 이에 내가 분석 도구를 만들어 같은 문장이 헤아릴 수도 없이 나오는 것을 눈으로 보게 하자, 그제야 불신자들이 믿음을 가지더라. 요헨 거듭 가라사대, 본인 혼자만이 아닌 여러 IBM 직원이 함께 번역 메모리를 발명했다고 하기보다는 정립하였다 칭하는 것이 마땅하겠다 하시더라.

..........겸손 압색합니다.

이후 요헨은 1984년 트라도스, 1992년 멀티텀을 개발하고, 2005년 SDL에 트라도스와 멀티텀을 매각했습니다. 멀티텀 역시 최초의 “개념” 중심 용어집 관리 애플리케이션이라는 점이 혁신적이었는데, 이는 트라도스의 아버지가 진행중인 여러 프로젝트와 연관이 크고 미래 번역가의 역할과 큰 관련이 있는만큼 후술합니다.
SDL은 본래 SDLX를 팔고 있었는데, 경쟁사인 트라도스를 구입한 셈입니다. 웹에서 고대유물의 흔적을 찾을 수 있었습니다.

SDLX로 HTML 파일 번역(2003년 추정)
http://www.softreviews.org/SDL/TRADOS7_SDLX2005_4.html

2005 가격 정보까지 발굴했는데요...
트라도스 7(개인용) 895달러, SDLX 스탠다드 695달러
20년의 물가상승률을 고려하면 지금 상당히 저렴한 가격에 팔고 있습니다. 2023년 현재 트라도스 내부 버전은 16이니 대략 2년에 한 번씩 부지런히 판갈이를 한 셈입니다.
이후 트라도스 8이 2007년 출시되었고, SDL은 자사 제품 SDLX의 이름을 4분의 1쯤 내다버리고 SDL 트라도스 스튜디오 2009(내부 버전 트라도스 9)로 재출시하였습니다. 이 시점부터는 저도 사용해본 기억이 있는데, 당시 제가 사용하던 컴퓨터 사양과 작업물 분량을 고려하면 인간 메모리의 입출력 속도와 크게 다르지 않았습니다(.......)
제가 SDL 트라도스 스튜디오의 시장점유율이 올라갔다고 느낀 시점은 SDL 트라도스 2014 출시 후입니다. 전에는 번역회사가 CAT툴 작업을 의뢰하는 일 자체가 많지 않았고 트라도스로 작업해달라는 번역회사는 더더욱 없었습니다. 2014 버전이 출시된 이후부터 트라도스 없으면 안 끼워준다는 번역회사가 급격히 늘어났습니다. 한국어로 트라도스를 검색하면 ‘번역회사가 무슨 비싼 걸 사라는데 이거 사기 아닌가요’ ‘비싼 트라도스 말고 플루언시를 써라(절대 따라하지 마세요)’ 따위밖에 나오지 않았던 시절입니다....

다시 트라도스를 막 매각한 2005년의 요헨의 시간으로 돌아올까요. 저같은 소인배에게 그만한 돈이 생기면 방바닥과 혼연일체가 되어 제일 먼저 전화기부터 없애버리고 말 겁니다만.... 세상은 요헨같은 능력자를 그냥 두지 않았던 것입니다. 2006년에는 현실을 본딴 채팅 메타버스 트위니티를 만들었고, 2010년 매각했습니다. 제 추측인데 게임 개발 자체가 목적이 아니라 다양한 언어를 실시간으로 번역하는 방법에 대한 영감을 얻으려던 게 진짜 목적이 아닐까 싶습니다.

현재 트라도스의 아버님께서 하시는 일은...... 번역 기술 개발입니다.
트라도스의 아버지 가라사대, 기술 갖춘 번역가는 번역 메모리와 용어집을 최종 검수하고 기계 번역 결과물을 평가하게 될 것이라고 합니다. 용어집 생성에서 언어와 지식 전문가의 역할은 절대 빼놓을 수 없다고 합니다.
혹시 구글 인공신경망 번역과 챗지피티가 어느날 뿅 하고 나온 것이라 믿으며, 번역가는 앞으로 굶어죽을 것이라 믿고 계신가요? 그러하시다면 Ctrl+W를 누르시어 진정 도움되는 말씀 얻어 가시길 바랍니다.

앞서 멀티텀이 최초의 “개념” 중심 용어집 관리 소프트웨어라는 말씀을 드렸습니다. 이게 뭔 소린가? 과거 원시적인 용어집은 동음이의어를 한 항목에 넣었습니다. 이중 언어일 때는 문제가 되지 않지만 3개국어부터 데이터도 꼬이고 번역가의 삶도 꼬이기 시작합니다.
마침 study라는 좋은 단어가 있으니 예시를 들어 보겠습니다.
영어 study에는 공부, 학문, 서재 등의 뜻이 있습니다. 이중 언어만 번역한다면 이렇게 정리할 수 있지요.
English Korean
study 공부|학문|서재
그러나 일본어를 끼얹는다면 어떨까.
공부는 勉強(べんきょう), 学習(がくしゅう)
학문은 学問(がくもん)
서재는 書斎(しょさい)에 대응합니다.

이 시점에서 저같이 부족한 실력으로 열심히 일하려는 자들은 외워서 해결하려는 뻘짓을 할 것입니다. 그러나 용어가 1개가 아니라 3만개고, 언어가 3개가 아니라 30개라면 어떨까요? 인간의 기억력을 아득히 뛰어넘습니다.
요헨께서는 이 상황을 개념 중심 용어집을 고안하여 해결하십니다. 공부, 학문, 서재를 개념 중심으로 각각 다른 항목으로 만들자는 겁니다.


Korean,공부
English,study
Japanese,勉強|学習


Korean,학문
English,study
Japanese,学問


Korean,서재
English,study
Japanese,書斎

개념 기준으로 정립한 용어는 비슷한 것끼리 분류하고 계층을 나눌 수도 있습니다. 그러면 어떤 장점이 있느냐?
1. 서재라는 점이 명백하면 공부 따위가 아닌 서재만 제안
2. 학문인 경우 유의어나 하위 용어(경제학, 법학, 수학 등)을 제안
이로써 기계번역의 품질을 높이고 번역가의 일을 줄일 수 있습니다.

그러면 번역가가 사라지는 거 아닌가요?ㅠ 어휴 지겨워 넌 사라지니까 오지 말아줘....

https://www.coreon.com/product/multilingual_taxonomy
이 페이지 아래의 Eurovoc을 클릭하고 GATS를 검색하면 요런 화면이 나옵니다.





GATS와 같이 묶인 GATT 등은 각각 상품, 서비스, 지재권협정, 무역투자조치를 뜻합니다. 모두 세계무역기구협정의 하위 협정입니다.
상위 개념으로 trade relations, trade agreement가 있고, 최상위 개념은 law입니다.
관련 개념으로는 trade policy, most favoured nation, developing countries, protective clause 등이 있습니다. most favoured nation은 특정 국가만 가장 좋은 대우를 해주는 것, 즉 최혜국대우입니다. protective clause는 예외조항으로 회원국이 자국 산업 보호를 위해 발동 가능한 조치를 뜻합니다.

이 분류작업을 전부 기계가 한 것일까요?

요헨 가라사대, 분류작업은 인간의 가치판단이 많이 들어가는 영역입니다. ‘최혜국대우’를 ‘불공정’에 넣을 수도, ‘권리’에 넣을 수도 있습니다. 멀리 갈 것도 없어요. 강화도조약의 후속조약인 1883년 조일통상장정에 최혜국대우 조항이 있습니다. 일본 정부에는 권리고 조선 정부에는 불공정인 겁니다.
이런 시나리오도 생각해 볼 수 있습니다. 한국정부 주도로 법률용어집을 제작하는데, 기계만을 써서 분류작업을 합니다. 그런데 기계가 조일통상장정 42관(일본국 최혜국대우)을 권리에 집어넣었다?(....) 실제 웹상에 일영대역이 훨씬 더 많고 일본어 사용자가 1억 2천만, 한국어 사용자 7천만(그중 2천만은 인터넷 접속 불가)이라 충분히 일어날 수 있는 일입니다. 게다가 공공누리집의 영한대역은 .hwp(.....)로 제공되는 것이 많아 크롤링이 어려울 수도 있습니다.
기계가 이래저래서 결과가 이랬다고 변명하면 먹힐까요? 나라 녹 그만 축내라며 욕을 뒤지게 얻어먹고 법무부장관 사퇴 엔딩만이 있을 것입니다.

그래서 요헨은 기계는 도울 뿐, 다 사람이 한땀한땀 손으로 확인해야 한다고 주장하며 앞으로 언어 전문가 및 지식 전문가의 역할이 더욱 기대된다고 합니다. 번밀레 같은 저질스런 단어밖에 생각 안 나니 저는 망했습니다.

트라도스의 아버지가 정리한 랭옵스(LangOps) 15원칙 중 일부를 인용하며 마칩니다.
인공지능 먼저 써라(Try AI first)
인간이 직접 눈으로 확인해라(Respect the human-in-the-loop)
있는 데이터랑 기술 써라(Leverage available data and tech*)

* 트라도스 총괄매니저와 트라도스의 아버지가 ELEVATE 세션에서 which our industry continuously fails to do라고 부연하는 부분이 인상깊어 집구석에서 박수를 치고 말았습니다.
내 번역: 있는 트라도스 안 쓰고 말이야 어차피 우리 못 이길 텐데 자꾸 저질스러운 거 개발해갖고 자원을 낭비하고 앉았어(제 개인적 해석이며 실제 발화자의 의도와 다를 수 있습니다).

출처
Trados ELEVATE 2023
https://twitter.com/JochenHummel
https://www.linkedin.com/in/ceojochenhummel
https://www.semiox.com/
https://blog.coreon.com/
https://www.crunchbase.com/person/jochen-hummel
http://www.softreviews.org/Localize2/sdlx/sdlx.html
http://www.softreviews.org/SDL/TRADOS7_SDLX2005_4.html
https://langops.org/
초록문어초록문어chatte(람주)chatte(람주)minibearminibear민트색민트색곤HailieHailie히수히수oioihooioihokamuuui03kamuuui03뚜뚜뚜뚜다정한별다정한별YeonYeon양파타르트양파타르트ITSITSDeleted User #2638Deleted User #2638적일많많벌적일많많벌랭랭랭랭jj샐리샐리PIKANCHIPIKANCHI윤진윤진구스 집사구스 집사옥자옥자Deleted User #1029Deleted User #1029forestjuneforestjuneTomTomeoeoeoeoRioRio유리양파유리양파레베레베엘라엘라후눈후눈호미호미탈출희망탈출희망레귤러레귤러
Total Reply 3

  • 2023-06-30 19:04

    임윤 대장님은 진짜 갓이다.... (어휘력 부족해서 죄송합니다) 검색능력 갖고 싶어요


  • 2023-06-30 23:21

    여러모로 와


  • 2023-10-26 16:05

    "어휴 지겨워 넌 사라지니까 오지 말아줘"에서 빵 터졌습니다!!! 거시적인 안목으로 업계 동향을 좇을 여력이 없는데 이렇게 무료강의로 풀어 주시니 감사할 따름입니다..ㅜㅜ


교재 안내 산업번역 가이드 2019(PDF) 산업번역 가이드 2019 예제파일 트라도스 가이드 2024 yes24 aladin kyobobook 트라도스 가이드 2024 예제파일 유료회원 전용 팁 https://rebtion.net/premium/ 이용법 일단 직장에 붙어 계세요 산업번역 가이드 1~5장을 읽고 프로즈/링크드인 프로필 작성(190쪽) 프로즈 프로필용 번역 5개 작성 영어 이력서 작성(237쪽) 리뷰게시판에 올려주시면 미래의 제가 확인해 드림 번역회사에 제출(243쪽) 1~6 과정에서 질문이 있으시면 기술 질문 게시판 이용(미래의 제가 확인해 드림) 중요한 공지는 다 끝났고, 아래는 그냥 읽어보세요 -- 저는 운전면허증, 혼인신고서 같은 것부터 번역하던 시절을 거쳐 2014년, 아예 번역을 전업으로 삼기로 결정합니다 출처: https://translationtherapy.com/sdl-studio-2014-first-impression-and-new-features-overview/ 당시 이 친구를 살 돈이 없어 체험판을 깔고, translation memory가 뭔지도 몰라 한줄한줄 기억에 의존해 복사해서 붙여넣던 삽질을 하였습니다 다행히 체험판 기간 동안 번 돈으로 이 친구를 구입할 수 있었습니다 다만, 시기는 험난한 2014년, 아직 취직이라는 고용 형태가 어렵지 않던 시절입니다 지금은 트라도스의 필요에 이의를 제기하는 사람이 거의 없으나 그 당시 한국어로 트라도스라고 검색하면 '번역회사가 몇십만원짜리 프로그램을 사라는데 사기 아니냐'거나 '크랙 없냐'는 소리나 검색되곤 하였습니다 저는 백수도 아닌 비경제활동인구였던 저를 구원해준 트라도스에 감사한 마음을 늘 지니고 있었고 그런 사람들이 있거나 말거나, 이 친구가 저를 구원했다는 사실을 동네방네 떠들었습니다 기억하시는 분이 있을지 모르겠지만, 2017 버전 트라도스 가이드도 있었습니다 (한국어 한정 독점시장) 이후 2019년 초, 트라도스 자격증(초급)을 취득하였고 직접 이력서에 넣어보고 주변 사람들에게 추천해 보니 효력(?)이...
임윤 2024.10.19 Votes 69 Views 7684
올타임 레전드 AI 대체 1위 직업을 위한 RWS 번역 기술 인사이트 2025가 나왔습니다. 다운로드: https://www.rws.com/about/translation-technology-insights/ 2023년 버전 요약은 여기에 있으니 https://rebtion.net/learnfree/?mod=document&pageid=1&uid=10827 지난번과 어떤 항목이 달라졌나 비교하며 보시는 것도 의미가 있을 것입니다. 2023년 이후 기술적으로는 생성형 AI와 LLM이 비약적인 발전을 이루었고, 경제적으로는 유동성 파티가 종료되었고, 정치적으로는 보호무역주의가 득세하게 되었습니다. 이 상황에서 반가운 보고서가 나왔는데요. 항상 강조하는 것이지만, “작성자”가 누구인지, “왜” 작성했는지 고려하며 읽으시면 좋겠습니다. 저와 RWS는 이해관계가 같지 않으므로 같은 사실을 놓고도 의견이 다를 수밖에 없습니다. 배경 지식 NMT: 인공신경망(Neural Network)을 이용해 문장을 통째로 이해하는 번역에 특화된 AI 기술(기존의 문법을 하나하나 입력하는 규칙 기반 RMT, 의미 단위를 기반으로 연결하는 통계 기반 SMT에서 발전한 것), Google Translate가 여기 속함 LLM: 범용 언어 이해/생성 모델 생성형 AI: 콘텐츠를 생성하는 AI 전체 개념(LLM 포함), ChatGPT, Claude, Gemini, Llama 등 기존 조사 대상인 번역가, 번역회사, 기업(고객사)에 더해, 새로 정부 부문이 추가되었습니다. 원래 기술 발전과 대규모 실직은 역사적으로 세트였고(산업혁명, 이앙법, 우리 세대에서는 닷컴 버블 기억하시면 됨), 정부들이 손가락 빨고 있어봤더니 하등 좋을 것이 없었더라 하는 것도 학습됐기 때문에 기본소득 같은 것이 논의될 것입니다. 일의 본질을 고려하면, 의뢰하는 기업 입장에서는 불황에 매출을 유지하기 위해 번역이 계속 필요합니다. 대부분 자국 내에서 수요는 이미 소진되었고 비교적 저렴한 값으로 시장을 확장할 수 있는 수단이거든요. 신제품을 개발하는 것보다는 번역이 싸게 먹힌다는...
임윤 2026.02.17 Votes 18 Views 434
CAT툴 임윤 2026.02.08 Votes 3 Views 134
최대한 본업은 물론이고, 클릭수를 비롯해 잡일에 드는 시간을 줄이는 것이 핵심 세상에서 제일 아까운 시간이 파일 찾는 시간임 바탕화면 전부 바탕화면에서 작업하고 치워버립니다 매우 혼란스러워 보이지만 나름대로 규칙이 있습니다 왼쪽 - 당장 해야될 일 *오늘은 다 해서 일이 없음 나중에 파일 찾을 일 대비해서 이번달 2026년 01월 작업이 끝나면 통째로 업무 완료 폴더로 따로 옮김 중간 - 당장은 아니고 적어도 한 달 안에 해야 할 것이거나, 한 달 안에 해야 된다고 생각해서 냅뒀는데 몇 달이 걸리고 있는 것 ERP 입력, 정부 지원 사업 같은 것 중간 아래 - 연 단위 오른쪽 위 - 각종 매크로 복붙용, 원드라이브, 출판사 주문용 프로그램 오른쪽 아래 - 디지털 노가다 유지보수용 주기적으로 안 쓴다 싶으면 잡파일을 모아두는 폴더로 옮김 주기적으로 파일 전체 정리 이름 지을 때, 무조건 파일명으로 내용 알 수 있게 정리 안 그런 파일(다운로드해서 설치하고 나중에 새 버전 받아야 되는 프로그램 등)은 그냥 쓰고 지움 업무용 앱 실제 클릭해 쓸 일 있는 애들만 주기적으로 정리 스팀이 노는 용도가 아님, 밥줄임 ㅇㅅㅠ 파일 탐색기 프로젝트 목록, 번역 메모리, 텀베이스 관공서용 각종 서류(등기부등본, 자격증, 사업자등록증, 통장 앞면 사본, 여권 사본 등등) 접근하기 쉽게 모아둠 마우스 우클릭 -> '즐겨찾기에 고정' 하면 됨 트라도스 프로젝트 관리 자주 업데이트되는 개별 일 -> 게임별/회사별로 프로젝트 생성 한 회사에서 주는...
임윤 2026.01.20 Votes 20 Views 479
상황: 요새 대부분은 딸깍만 하면 알아서 보내주지만, 이메일로 프로젝트명/단어수 적어서 의뢰하는 곳이 있음 G메일 사용하고, 완료하였는데 인보이스 작성하지 않은 경우 별 찍어서 표시해 둔 상태 내 경우에는, project name: 뒤에 프로젝트명이 나오고, word count: 뒤에 워드수가 나오는 형태였으며 항상 그러하듯 예외가 존재함 프롬프트 1: gmail에서 "is:starred 회사명"이라고 검색 시 추출되는 이메일 본문 대상 Project name: 뒤의 영숫자와 언더바로 구성된 문자열, Word count: 뒤의 숫자가 필요함 csv로 1번 열에는 Project name만, 2번 열에는 Word count만 추출 * 팁: project name 뒤에 '영숫자와 언더바로 구성된 문자열' '숫자'처럼 컴퓨터의 언어로 정확하게 묘사할 필요가 있음 문자열 string은 컴퓨터한테 구분되는 다른 의미가 있음 아무리 인간 언어 흉내를 내고 있다지만 근본은 컴퓨터임 답변 1: Google Apps Script (GAS) 자동 추출을 써봅시다! 결과물 1: 당연히 뭔가 맘에 안드는 오류가 날 것임 내 경우에는 누락된 이메일이 있었음 프롬프트 2: 누락된 이메일 존재함. "is:starred 회사명" 검색 시 결과 78개인데, 결과물은 47개임. 누락된 이메일 별도 csv로 작성 원인 분석 결과물 2: 내 경우, 1) project code: 아니고 project:, Word count: 아니고 Word:라고 하거나, 본문에 the word count is @@하는 식으로 exception이 있었음 2) 의뢰 본문이 따로 있는데 이후 번역회사가 모종의 이유로 단어수나 요청사항을 수정하거나, 인보이스에는 들어가야 하는데 단어수가 아닌 경우 (QA) 정확히 내용을 파악하지 못했음 프롬프트 3: 1) 1번에 해당할...
임윤 2026.01.10 Votes 8 Views 455
CAT툴 임윤 2025.11.30 Votes 3 Views 391
제가 초능력자가 아니기 때문에, 정보가 있어야 문제를 해결할 수 있음 문제해결은, 가설 -> 검증의 연속임 이쪽 용어로는 삽질이라고도 함 문제가 있는 분이 있었고, https://rebtion.net/qna/?uid=12581&mod=document&pageid=1 1) 전체 화면 스크린샷, 2) 영상 캡처를 요청하였으나 거부 당함... (이유는 모름) "짐작 가는 바"가 있으니 다시 달라고 함, 전체 화면 내지는 영상이 필요하다고 말한 이유는 다음과 같음 .txlf, .sdlxliff, .mqxliff, 좌우간 .xliff 붙은 것들은 사실 텍스트 파일로, 메모장으로 열어 편집할 수 있음. exe같은 실행 파일이 아님 열어보면 그 안은 이렇게 생김 복잡해 보이지만, 별 것은 아니고, 안에 세그먼트 정보가 담겨 있음 트라도스로 이전하면서 특정 세그먼트 정보가 사라지는 듯했음 이 경우, .txlf 파일을 받아 세그먼트 정보와 화면상의 세그먼트 상태를 대조해 보면서 달라지는 정보를 파악하려 생각했음. 비슷한 작업을 예전에도 한 적이 있음. https://rebtion.net/qna/?mod=document&pageid=1&uid=11894 전혀 달라 보이지만, .txlf를 뜯어봤다는 점에서 비슷한 일임. *참고로 이 문제를 해결하려고 이메일이 16번 오갔으며 질문하신 분은 중간에 내 실수로 오류가 발생했음에도 불구하고 아주 협조적이셨음 이 경우에는, 문제가 있는 특정 세그먼트 정보를 파악하고, 그 정보만 "올바른" 상태로 변경하면 될 것 같았음. 이 과정에서 일일히 이 화면을 달라, 저 화면을 달라 하느니 영상을 제공해 달라고 하는 편이 나을 것 같았음. 그러나 '감정 소모'가 크다며 영상 제공을 거절당하였으며, '짐작 가는 바'를 알려달라는 요청만 받음. 이에 대한 전문은 다음과 같음 소통이 안 돼서 안 된다고 한 것인데,...
임윤 2025.11.12 Votes 21 Views 645