LG AI연구원, '엑사원 4.5' 공개…시각 이해·추론 강점

비전 인코더·거대언어모델 통합 구조
글로벌 테크 시장서 기술 경쟁력 입증

LG AI연구원이 텍스트와 이미지를 동시에 이해하고 추론하는 신규 멀티모달 AI 모델 '엑사원 4.5'를 공개했다. /더팩트 DB

[더팩트｜우지수 기자] LG AI연구원이 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 AI 모델 '엑사원 4.5'를 공개했다.

9일 LG AI연구원에 따르면 신규 모델 '엑사원 4.5'는 LG AI연구원이 축적한 기술력을 바탕으로 자체 개발한 비전-언어 모델(VLM)이다. 비전 인코더와 거대언어모델(LLM)을 하나로 통합한 것이 핵심이다.

'엑사원 4.5'는 과학기술정보통신부의 '독자 AI 파운데이션 모델' 프로젝트에서 개발하고 있는 'K-엑사원' 확장을 위한 준비 단계다. LG AI연구원은 올해 8월 프로젝트 2차수 종료 후 3차수 진출이 확정되면 본격적으로 모달리티 확장에 나설 계획이며, 궁극적으로 엑사원을 물리적 세계를 이해하고 판단하는 '피지컬 인텔리전스'로 발전시키는 것을 목표로 하고 있다.

신규 모델은 계약서, 기술 도면, 재무제표, 스캔 문서 등 산업 현장에서 실제로 다루는 복합 문서를 정확하게 읽고 추론하는 능력이 강점이다. 시각 처리와 추론 성능을 평가하는 벤치마크 점수 결과를 보면, STEM(과학·기술·공학·수학) 성능을 측정하는 5개 지표에서 평균 77.3점을 기록했다. 이는 미국 오픈AI 지피티5-mini(73.5점), 앤트로픽 클로드 소넷 4.5(74.6점), 중국 알리바바 큐웬3 235B(77.0점)를 모두 앞선 수치다.

일반 시각 이해 측정 지표와 인포그래픽 및 전문 문헌 속 복합 정보를 읽어내는 문서 이해·추론 성능 평가 등 13개 지표 평균 점수에서도 경쟁 모델들을 상회했다. 특히 코딩 성능 대표 지표인 '라이브코드벤치 v6'에서는 81.4점을 기록해 구글의 최신 모델 '젬마 4(80.0점)'를 뛰어넘었다.

LG AI연구원 관계자는 "시각 능력 평가 지표에서 높은 평균 점수를 기록했다는 것은 AI가 문서 속 글자나 비정형 데이터를 인식하는 것에 더해, 맥락을 파악하고 질문에 답할 수 있는 이해력을 갖췄다는 의미"라고 설명했다.

효율성 측면의 성과도 두드러진다. '엑사원 4.5'는 330억 개의 파라미터 규모로 지난해 말 선보인 'K-엑사원'의 약 7분의 1 크기에 불과하지만, 텍스트 이해 및 추론 영역에서 동등한 수준의 성능을 달성했다. 자체 개발한 '하이브리드 어텐션' 구조와 '멀티 토큰 예측' 기반 고속 추론 기술을 적용한 결과다. 공식 지원 언어는 한국어와 영어 외에 스페인어, 독일어, 일본어, 베트남어까지 확대됐다.

LG AI연구원은 '엑사원 4.5'를 글로벌 오픈소스 플랫폼 '허깅페이스'에 연구·학술·교육 목적으로 공개했다. 이달 초에는 엑사원 경량화 모델 개발을 주제로 청년 AI 전문가 육성 프로그램인 'LG 에이머스' 해커톤을 진행하며 교육 자원으로도 활용했다.

이진식 LG AI연구원 엑사원랩장은 "엑사원 4.5는 LG AI가 텍스트와 함께 시각 정보까지 이해하는 멀티모달 시대로 진입했음을 보여주는 모델"이라며 "이번 모델을 시작으로 음성과 영상, 물리 환경까지 AI의 이해 범위를 넓혀 산업 현장에서 실질적으로 판단하고 행동하는 AI를 만들어가겠다"고 말했다.

index@tf.co.kr

발로 뛰는 <더팩트>는 24시간 여러분의 제보를 기다립니다.: · 카카오톡: '더팩트제보' 검색; · 이메일: jebo@tf.co.kr; · 뉴스 홈페이지: https://talk.tf.co.kr/bbs/report/write; · 네이버 메인 더팩트 구독하고 [특종보자→]; · 그곳이 알고싶냐? [영상보기→]