제 6차 디지코 스터디 열어…"2023년 순수 국산 기술로 AI 풀 스택 확대"
[더팩트|한예주 기자] KT가 인공지능(AI) 개발에 필요한 그래픽처리장치(GPU)를 대규모로 확장할 수 있는 클라우드 서비스를 제공한다. 2022년에는 초대규모 GPU 팜, 2023년 전용 AI 칩까지 제작해 GPU 기술력 국산화에 앞장서겠다는 포부도 밝혔다.
KT는 27일 제 6회 디지코 스터디를 열고 KT 클라우드 사업과 '하이퍼스케일 AI 컴퓨팅'을 소개했다.
'하이퍼스케일 AI 컴퓨팅(이하 HAC)'은 고비용 GPU 인프라를 동적할당 방식으로 제공하는 실사용량 기반 종량제 서비스다. AI 서비스 전문 기업이나 AI 개발자들은 GPU 자원을 필요할 때 원하는 용량만큼만 할당받아 사용한 뒤, 이후엔 반납하면 된다. 이는 AI 인프라 솔루션 전문기업 '모레'에 투자하면서 공동 협력, 개발을 지속해 온 성과다.
이날 발표자로 나선 김주성 KT Cloud·IDC사업추진실 상무 HAC는 "HAC를 통해 특정 글로벌 벤더의 GPU 독과점 이슈, AI 서비스 개발(모델 학습 등)의 어려움을 효과적으로 개선할 수 있을 것으로 기대된다"고 설명했다.
KT HAC의 차별화 포인트는 네 가지로 정리할 수 있다. 첫째 HAC는 저렴하다. 클라우드의 본질인 '사용한 만큼 지불한다'는 개념을 GPU에 적용해 저비용 고효율의 서비스를 제공할 수 있도록 했다.
김 상무는 "AI 응용 서비스 개발을 위한 데이터 분석 및 AI 모델 개발에는 고성능의 컴퓨터 자원이 대규모로 필요하며, 특히 높은 연산능력을 가진 GPU 인프라는 필수적"이라면서 "AI 서비스 개발과 운용이 필요한 기업들은 자체적으로 전산실에 'GPU 팜'을 구축하거나 CSP(클라우드 서비스 공급자)로부터 '고정할당' 방식의 인프라 서비스를 이용해야 한다"고 설명했다.
그는 "하지만 현재 GPU 시장은 특정 벤더의 독과점 이슈 등으로 비용이 높게 형성돼, 인프라를 활용하려는 기업에 부담이 되고 있다"며 "또 실제 개발과정에서 GPU는 개발기간 전체에 필요하지 않고 데이터 분석, 모델학습 등에만 활용되지만 고정할당 방식의 서비스를 이용하면 GPU를 사용하지 않는 기간에도 할당받은 GPU 자원에 대한 이용료를 계속 지불해야 하므로 비용이 많이 들었다"고 부연했다.
이에 따라 HAC는 AI 서비스를 개발하려는 전문기업이나 개발자들이 AI 서비스 GPU 자원을 원하는 시점에 원하는 만큼 할당받아 사용하고 이후에 자동 반납하는 식으로 클라우드 기반의 대규모 AI 컴퓨팅(연산)이 가능하도록 구현한 것이 특징이다.
둘째 HAC는 확장성이 크다. AI 모델의 규모가 커져 대규모 GPU 자원이 필요해질 때에도 원활하게 확장할 수 있다. 지금까지는 클라우드로 가상화(VM)된 AI 모델 개발환경에서 할당받을 수 있는 GPU 자원이 물리 서버(노드, Node)에 실제 장착된 GPU의 개수로 한정될 수밖에 없었다. 예를 들어 하나의 물리 서버에 10개의 GPU가 장착되어 있으면 고객의 AI 모델 개발환경에서 할당받는 GPU도 최대 10개가 된다.
김 상무는 "HAC는 이를 극복하기 위해 물리 서버에서 구동할 수 있는 최대 수량 한계를 넘어서는 GPU를 연산에 활용할 수 있게 했다"며 "수백~수천 개의 대규모 GPU 클러스터링을 할당해 사용할 수 있어 AI 모델이 대형화되더라도 별도 수정 없이 대응할 수 있고, 특정 시점에 준비된 전체 GPU가 모두 활용돼 일시적으로 자원이 부족할 때도 요청들을 자동 대기시키고 순차 처리해 서비스 안정성 역시 뛰어나다"고 말했다.
셋째 HAC는 호환성이 높아 기존 AI 개발환경의 변경 없이도 적용이 가능하다. 김 상무는 "1개 GPU를 사용하는 개발환경을 2개 이상의 '멀티 GPU' 환경에서 구동하려면 개발환경을 재설계해야 한다. 실제로 AI 개발자들 사이에서는 이처럼 1개 GPU를 사용하는 소스코드를 멀티 GPU로 변환해 프로그래밍하는 것이 큰 고민거리"라며 "KT HAC는 모델 프로그래밍 호환성을 갖춰 기존 소스코드를 별도로 수정할 필요 없이 멀티 GPU 개발환경을 이용하도록 보장한다"고 강조했다.
넷째 HAC는 연속 서비스가 가능하다. 개발 단계마다 필요한 자원을 연속적으로 확대하거나 축소할 수 있어 AI 개발 과정에서 할당된 자원을 변경할 때 발생하는 서비스 중단을 최소화하고 계속 개발과 서비스를 이어갈 수 있는 것이다.
김 상무는 "기존 서비스는 할당된 리소스를 변경하려면 자원을 회수한 후 재생성 과정을 반드시 거쳐야만 하기에 환경을 다시 마련하는데 1개월 이상의 시간이 소요되기도 한다. 이 시기 동안엔 서비스 중단도 불가피해진다"며 "KT HAC 고객은 AI 모델을 개발하는 가상화 개발환경을 중단하거나 재생성할 필요 없이 개발 단계마다 원하는 만큼 사양을 확대·축소함으로써 최적의 개발환경을 항상 유지하고 서비스 연속성도 유지할 수 있다"고 언급했다.
이 같은 네 가지 장점을 앞세워 KT는 2022년 HAC 서비스 고도화에 박차를 가한다는 계획이다. KT HAC는 앞서 '커먼컴퓨터'와 협력해 '모두의 연구소'의 학습용 플랫폼에 HAC를 도입하기 위한 환경을 구축하고, 테스트를 함께 진행해 왔다. 내년 초에는 '모두의 연구소'에서 실제 운영하는 AI개발 교육 클래스에 적용할 계획이다. 또 AI 전문 기업 '딥핑소스'에서도 시범 도입을 통해 효율적인 GPU 자원 활용 효율성을 직접 검증하기도 했다.
김 상무는 "KT와 모레는 이번 HAC 출시를 기반으로 2022년에는 초대규모 GPU 팜을 구축할 예정이다. 나아가 2023년에는 전용 AI 반도체 칩을 제작해 GPU 기술 국산화를 추진함으로써 AI 클라우드 인프라를 위한 종합 '풀 스택' 제품 공급자로 자리잡을 것"이라며 "순수 국내 기술력을 바탕으로 AI 서비스 생태계 활성화를 이끌고, 이를 기반으로 해외 클라우드 시장 공략도 본격화할 것"이라고 말했다.
hyj@tf.co.kr