자세히 보기

Matt Asay
Contributing Writer

칼럼 | LLM의 가장 큰 걸림돌 ‘호출 제한’을 해결하는 방법

오픈AI의 GPT-4, 앤트로픽의 클로드 2(Claude 2) 등 LLM은 인간과 유사한 텍스트를 생성하는 기능으로 전 세계 사용자의 관심을 사로잡았다. 기업도 마찬가지로 열광하고 있으며, 많은 기업이 제품 및 서비스를 개선하기 위해 LLM 활용법을 모색 중이다. 하지만 프로덕션 환경에서 최신 LLM을 도입하는 데 있어 큰 걸림돌이 있다. 바로 '호출 제한(rate limit)'이다. 극복할 방법이 있긴 하지만, 컴퓨팅 리소스의 개선 없이는 실질적인 진전이 이뤄지지 않을 수 있다.

오픈AI나 앤트로픽의 모델에 액세스할 수 있는 공개 LLM API는 분당 처리할 수 있는 토큰(텍스트 단위) 수, 분당 요청 수, 하루 요청 수에 제한을 둔다. 예를 들면, 이 문장은 9개의 토큰을 소비한다. 오픈AI GPT-4의 API 호출은 현재 분당 3건의 요청(RPM), 하루 200건의 요청, 분당 최대 1만 개의 토큰(TPM)으로 제한돼 있다. 가장 높은 요금제에서는 1만 RPM과 30만 TPM으로 제한된다.  

분당 수백만 개의 토큰을 처리해야 하는 대규모 프로덕션 애플리케이션이라면, 이런 제한으로 최신 LLM을 사용하는 것이 사실상 불가능하다. 요청이 쌓여 몇 분 또는 몇 시간이 걸리면 실시간 처리를 할 수 없기 때문이다. 

대부분 기업이 안전하고 효과적이면서도 대규모로 LLM을 도입하는 데 어려움을 겪고 있다. 하지만 데이터 민감성 및 내부 프로세스 관련 문제를 해결하더라도 병목 현상은 걸림돌로 작용한다. LLM 기반 제품을 구축하는 스타트업은 제품 사용량과 데이터가 축적되면 빠르게 한계에 도달하게 되는데, 이런 제품을 사용하는 대규모 사용자 기반을 가진 대기업은 많은 제약을 받기 마련이다. 특별한 액세스 권한이 없으면 애플리케이션이 전혀 작동하지 않는다.  

어떻게 해야 할까?  


호출 제한을 우회하는 라우팅 

한 가지 방법은 호출 제한 기술을 완전히 건너뛰는 것이다. 예를 들면, LLM 병목 현상이 없는 용도별 생성형 AI 모델이 있다. 영국 옥스퍼드에 본사를 둔 스타트업 디프블루(Diffblue)는 호출 제한을 두지 않는 강화 학습 기술을 사용한다. 이 기술은 한 가지 작업을 매우 효율적으로 수행하며, 수백만 줄의 코드를 처리할 수 있다. 디프블루에 따르면 개발자보다 250배 더 빠른 속도로, 컴파일은 10배 더 빠른 속도로 자바 단위 테스트를 자동 생성한다.  

디프블루 커버(Diffblue Cover)가 작성한 단위 테스트는 복잡한 애플리케이션을 빠르게 이해하도록 지원한다. 이를테면 레거시 애플리케이션을 클라우드로 이전하는 데 이상적이다. 또 새로운 코드를 자동으로 작성하고, 기존 코드를 개선하며, CI/CD 파이프라인을 가속하고, 수동 검토 없이 변경 관련 위험에 관한 심층적인 인사이트를 제공할 수 있다. 나쁘지 않다.  

물론 여전히 LLM을 사용해야 하는 기업도 있다. 이때는 어떤 옵션이 있을까?  


더 많은 컴퓨팅 리소스

한 가지 옵션은 단순하게 호출 제한을 늘려달라고 요청하는 것이다. 하지만 근본적인 문제가 있다. 많은 LLM 업체가 실제로 제공할 수 있는 추가 용량이 없다는 점이다. 이것이 문제의 핵심이다. GPU 가용성은 TSMC 같은 파운드리에서 시작되는 총 실리콘 웨이퍼에 의해 결정된다. 지배적인 GPU 제조업체 엔비디아조차 대규모 추론을 위해 수천 개의 GPU가 함께 클러스터링돼야 하는 AI 워크로드의 폭발적인 수요를 충족할 칩을 충분하게 조달할 수 없다.  

GPU 공급을 늘리는 가장 직접적인 방법은 팹(Fab)이라고 알려진 새로운 반도체 제조 공장 건설이다. 하지만 새로운 팹은 약 200억 달러에 달하는 비용이 들고, 건설하는 데도 수년이 걸린다. 인텔, 삼성 파운드리, TSMC, 텍사스 인스트루먼트 등 주요 칩 제조업체가 미국에 새로운 반도체 생산 시설을 건설 중이다. 지금은 모두가 기다려야 한다는 이야기다.  

그 결과, GPT-4를 활용한 실제 프로덕션 배포는 거의 존재하지 않는다. 그나마 있는 곳도 규모가 크지 않아서 핵심 제품 구성 요소가 아닌, 보조 기능에 LLM을 사용하고 있다. 대부분 기업은 여전히 파일럿과 개념 증명을 평가하고 있다. 호출 제한을 고려하기 전에, 기업 워크플로우에 LLM을 통합하는 데 필요한 리소스도 그 자체로 상당하다.  


다른 해법 찾기

GPT-4의 처리량을 제한하는 GPU 제약으로 많은 기업이 다른 생성형 AI 모델을 사용하고 있다. 예를 들어 AWS는 학습 및 추론(학습된 모델 실행)을 위한 자체 칩을 개발해 고객에게 더 큰 유연성을 제공한다. 중요한 사실은 모든 문제에 강력하고 값비싼 컴퓨팅 리소스가 필요하지 않다는 점이다. AWS는 타이탄 라이트(Titan Light) 같은 더 저렴하고 미세 조정이 쉬운 다양한 모델을 지원한다. 몇몇 기업에서는 메타의 라마 2(Llama 2) 같은 오픈소스 모델을 미세 조정하는 등의 대안을 모색 중이다. 프롬프트에 컨텍스트를 추가하고 응답을 생성해야 하는 RAG(Retrieval-Augmented Generation)과 관련한 간단한 사용례라면 덜 강력한 모델로도 충분하다.  

더 높은 한도를 가진 여러 오래된 LLM에서 요청을 병렬 처리하고, 데이터를 청킹(chunking, 문장을 유의미한 구로 분할)하며, 모델을 증류하는 등의 기법도 도움이 될 수 있다. 더 저렴하고 빠르게 추론하는 데 사용되는 기술도 몇 가지 있다. 정량화는 모델의 가중치(일반적으로 32비트 부동 소수점 숫자)의 정밀도를 낮추는 것으로, 새로운 접근 방식은 아니다. 예를 들어 구글의 추론 하드웨어 TPUs(Tensor Processing Units)는 가중치가 8비트 정수로 정량화된 모델에서만 작동한다. 이 모델은 정확도는 다소 떨어지지만, 훨씬 더 작고 빠르게 실행할 수 있다.  

아울러 ‘희소 모델(sparse models)’이라고 불리는 최근 인기 있는 기술을 사용하면 학습 및 추론 비용을 절감할 수 있고 증류보다 노동 집약적이지도 않다. LLM은 여러 개의 작은 언어 모델이 모인 집합체다. 가령 GPT-4에 프랑스어로 질문할 때는 해당 모델의 프랑스어 처리 부분만 사용하면 된다. 이것이 바로 희소 모델이 활용하는 방식이다. 프랑스어로 모델의 하위 집합만 학습시키면 되는 희소 학습(sparse training)과 모델의 프랑스어 처리 부분만 실행하는 희소 추론(sparse inference)을 수행할 수 있다. 양자화와 함께 사용하면 정확도가 약간 떨어지지만 GPU가 아닌 CPU에서 실행할 수 있는 더 작은 특수 목적 모델을 LLM에서 추출하는 방법이다. 여기서 문제는 GPT-4가 더 작고 구체적인 모델이 아닌, 범용 텍스트 생성기라는 점이다.  

현재 하드웨어 측면에서는 AI 워크로드에 특화된 새로운 프로세서 아키텍처가 효율성 향상을 약속하고 있다. AI 전용 칩 개발 업체 셀레브라스(Cerebras)는 ML에 최적화된 거대한 웨이퍼 스케일 엔진을 구축했으며, 맨티코어(Manticore)는 제조업체가 폐기한 GPU 실리콘을 용도를 변경해 사용 가능한 칩을 제공하고 있다.  

궁극적으로 가장 큰 이득을 낼 곳은 컴퓨팅을 덜 필요로 하는 차세대 LLM이다. 최적화된 하드웨어와 결합된 미래의 LLM은 오늘날의 호출 제한 장벽을 돌파할 수 있다. 현재로서는 LLM을 활용하려는 열성적인 기업으로 생태계가 과부하 상태다. AI로 새로운 길을 개척하고자 하는 기업은 GPU 공급이 더 확대될 때까지 기다려야 할지도 모른다.  

아니러니하게도 이런 제약은 생성형 AI 과대광고를 누그러뜨리는 데 도움이 될 수 있으며, 생산적이고 비용 효율적으로 AI를 사용하는 긍정적인 패턴이 정착하는 기회가 될 수 있다. 
editor@itworld.co.kr

Matt Asay

Matt Asay runs developer marketing at Oracle. Previously Asay ran developer relations at MongoDB, and before that he was a Principal at Amazon Web Services and Head of Developer Ecosystem for Adobe. Prior to Adobe, Asay held a range of roles at open source companies: VP of business development, marketing, and community at MongoDB; VP of business development at real-time analytics company Nodeable (acquired by Appcelerator); VP of business development and interim CEO at mobile HTML5 start-up Strobe (acquired by Facebook); COO at Canonical, the Ubuntu Linux company; and head of the Americas at Alfresco, a content management startup. Asay is an emeritus board member of the Open Source Initiative (OSI) and holds a JD from Stanford, where he focused on open source and other IP licensing issues. The views expressed in Matt’s posts are Matt’s, and don’t represent the views of his employer.

이 저자의 추가 콘텐츠