업스테이지, 대한민국 LLM '독립선언'…&quot1T 클럽으로 한글 데이터 확보&quot

1조 토큰 모으는 '1T 클럽' 발족
거대언어모델 구축능력 기반 데이터 제공자에게 모델·수익 공유

업스테이지는 성능 LLM 개발을 통한 대한민국 LLM의 독립을 위해 '1T 클럽'을 발족한다고 14일 밝혔다. /업스테이지

[더팩트｜최문정 기자] 국내 인공지능(AI) 스타트업 업스테이지가 '대한민국 거대언어모델(LLM) 독립'을 선언했다.

업스테이지는 14일 한국어 데이터 부족 문제를 해결하고, 고성능 LLM 개발을 통한 대한민국 LLM의 독립을 위해 '1T 클럽'을 발족한다고 밝혔다. 1T 클럽은 '1조(Trillion) 토큰 클럽'을 줄인 것으로텍스트, 책, 기사, 보고서, 논문 등 다양한 형태의 1억 단어 이상의 한국어 데이터 형성에 기여하는 파트너사로 구상된다.

업스테이지는 "1T 클럽은 한국어 데이터 부족 문제 해결은 물론, 데이터 제공자와 모델 제작기업이 상생하는 생태계 확립을 통한 국내 LLM의 독립을 위해 고심한 업스테이지의 새로운 도전"이라며 "업스테이지는 1T클럽을 통해 한국어 데이터를 확보하고 공유함으로써, 한국문화 정서를 담아낼 수 있는 고품질의 LLM을 개발하고 이를 통해 국내 생성AI 다양한 분야의 애플리케이션에 활용, AI의 발전에 기여할 수 있을 것으로 기대한다"고 밝혔다.

한국어 기반 데이터는 대한민국 LLM 발전에 필수적인 자원이지만, 현재 상당히 부족하고 저작권 문제에도 직면해 있다. 외국어 중심으로 학습한 빅테크 기업들의 LLM은 한국어 실력이나 한국어 사용자의 정서, 지역적 정보에 취약해 국내 기업들이 활용할 프라이빗 LLM 발전에 걸림돌이 되고 있다.

가령, 최근 오픈 LLM 시장의 최고 모델로 꼽히는 메타(페이스북 모기업)의 '라마2'는 2조 개, 구글의 '람다'는 2조8100억 개 분량의 토큰 데이터를 학습에 사용했다. 그러나 한국어 데이터 학습량은 GPT-3를 기준으로 약 1억 개에 불과하다. 전체 비중으로 따지면 0.01697%로 전체 언어 중 28위다. 반면 영어는 45조 개의 토큰으로 학습했다.

업스테이지는 1T 클럽에 참여하는 파트너사에게 데이터 제공량에 비례해 애플리케이션 프로그래밍 인터페이스(API) 사용료를 할인해주고, LLM의 API 사업으로 창출될 수익을 공유하는 등 두 가지 방식으로 혜택을 제공할 계획이다.

API 사용료 할인의 경우, 파트너사는 기여 토큰수에 비례해 업스테이지가 자체 제작하는 LLM의 API를 할인된 가격에 사용해 다양한 애플리케이션에 활용할 수 있다. 예를 들어, 1억 단어 분량의 토큰을 제공한 파트너사는 1억 토큰만큼의 API를 무상으로 사용할 수 있다.

수익을 공유하는 방식은 업스테이지가 LLM의 API 사업으로 수익을 창출할 경우, 그중 일부를 파트너사들과 공유하는 방안으로 운영된다. 업스테이지는 이를 위해 LLM API 사업 수익의 일부를 재원으로 활용해 1T 클럽 수익 공유에 할당할 예정이며 각 파트너사들은 자신이 기여한 데이터 양에 비례해 수익을 받을 수 있다.

업스테이지는 제공된 데이터의 보안과 개인정보보호에도 만전을 기할 방침이다. 업스테이지는 파트너사들이 제공하는 데이터를 모델의 한글 사전 훈련 학습 용도로만 사용할 예정이다. 즉, 일반적인 지식과 글 요약, 정리 등의 능력을 위한 학습만을 수행하고, 원문 추출은 불가능하도록 운용할 계획이다. 또한 기타 용도로 사용하거나 외부로 유출하지 않는 것은 물론 자체적인 탈옥방지 기술을 통해 원문 유출을 원천적으로 차단할 계획이다.

김성훈 업스테이지 대표는 "LLM은 오늘날 생성형 AI의 핵심 기술로, 국내 다양한 업계의 기업들도 고성능의 프라이빗 LLM을 자유롭게 활용할 수 있도록 생태계를 만드는 것이 중요하다"며 "우리는 1T 클럽을 통해 데이터 제공자들의 권익을 지키고 이를 바탕으로 한국문화 정서를 담아낼 수 있는 LLM을 개발, 국내 모든 기업이 AI발전의 수혜를 볼 수 있도록 최선을 다할 것"이라고 말했다.

한편, 업스테이지는 이달 초 세계 최대 머신러닝 플랫폼 허깅페이스에서 운영하는 '오픈 LLM 리더보드' 평가 점수에서 자체 개발한 모델이 72.3점을 획득해 챗GPT의 기반인 GPT-3.5 성능을 뛰어넘고 1위를 차지했다. 허깅페이스 오픈 LLM 리더보드는 오픈소스 생성 인공지능(AI) 모델의 바로미터로 전 세계 500여개의 오픈 모델들이 추론과 상식 능력, 언어 이해 종합능력과 환각현상(할루시네이션) 방지 등 4가지 지표의 평균 점수로 경쟁, 공신력 있는 순위를 책정한다.

munn09@tf.co.kr

발로 뛰는 <더팩트>는 24시간 여러분의 제보를 기다립니다.: · 카카오톡: '더팩트제보' 검색; · 이메일: jebo@tf.co.kr; · 뉴스 홈페이지: https://talk.tf.co.kr/bbs/report/write; · 네이버 메인 더팩트 구독하고 [특종보자→]; · 그곳이 알고싶냐? [영상보기→]