LG그룹, 인간처럼 이미지 설명하는 '캡셔닝 AI' 첫 공개

컴퓨터 비전 학회 CVPR서 '캡셔닝 AI' 공개
이미지 특징 인식해 글·키워드로 설명

LG AI연구원이 캐나다 밴쿠버에서 열리는 세계 최대 컴퓨터 비전 학회 CVPR 2023에서 이미지를 설명하는 캡셔닝 인공지능(AI)을 공개했다. /LG

[더팩트ㅣ이성락 기자] LG그룹이 이미지를 자연어로 설명할 수 있는 인공지능(AI)을 공개했다.

LG AI연구원은 캐나다 밴쿠버에서 열리는 세계 최대 컴퓨터 비전 학회 'CVPR(컴퓨터 비전·패턴 인식) 2023'에서 '캡셔닝 AI'를 공개했다고 19일 밝혔다.

LG AI연구원이 처음으로 외부에 공개한 생성형 AI 상용화 서비스인 '캡셔닝 AI'는 처음 보는 이미지까지 자연어로 설명할 수 있는 AI다. 이미지 검색에 활용할 수 있는 정보인 문장이나 키워드 등 메타 데이터를 생성한다.

연구원은 AI가 인간처럼 처음 보는 물체나 장면에 대해서도 이전의 경험과 지식을 활용해 이해하고 설명할 수 있도록 '제로샷 이미지 캡셔닝' 기술을 적용했다.

이 기술은 AI가 기존에 학습한 대량의 이미지와 텍스트 데이터를 기반으로 배경, 인물, 행동 등 이미지상의 다양한 요소와 특징을 인식하고, 그 관계를 이해하고 설명할 수 있게 한다.

워크숍에 참석한 이홍락 LG AI연구원 CSAI가 제로샷 이미지 캡셔닝 기술에 관해 설명하고 있다. /LG

'캡셔닝 AI'는 평균적으로 5개 문장과 10개의 키워드를 10초 안에 생성한다. 이미지 범위를 1만 장으로 확장하면 2일 이내에 작업을 끝낼 수 있다.

LG AI연구원은 "'캡셔닝 AI'는 빠른 시간 내 맞춤형 이미지 검색·관리 시스템 구축이 가능하다"며 "대량의 이미지를 관리해야 하는 기업들의 업무 효율성과 생산성을 높일 수 있다"고 강조했다.

LG AI연구원은 '캡셔닝 AI' 개발을 위해 콘텐츠 플랫폼 기업 셔터스톡과 긴밀하게 협력했다. 이미지 캡셔닝에 관한 방대한 노하우를 가지고 있는 셔터스톡과 데이터 학습부터 서비스 개발까지 함께해 완성도를 높였다.

세잘 아민 셔터스톡 CTO는 "'캡셔닝 AI'는 고객들이 반복적인 작업보다 좀 더 본질적이고 창의적인 일에 집중할 수 있도록 돕는 AI가 될 것"이라고 말했다.

LG AI연구원은 '캡셔닝 AI'의 기반 기술인 '제로샷 이미지 캡셔닝'을 주제로 서울대 AI대학원, 셔터스톡과 함께 워크숍도 열었다.

김승환 LG AI연구원 비전랩장은 "이미지 캡셔닝 분야의 글로벌 연구 리더십을 확보하기 위해 다양한 파트너들과 유기적인 협력 체계를 구축해 새로운 평가 지표 개발과 신기술 연구를 계속 추진할 계획"이라고 밝혔다.

rocky@tf.co.kr