SGLang의 상업적 진화: RadixArk와 LLM 추론 최적화 시장의 격변

최근 오픈소스 AI 생태계에서 가장 주목받는 도구 중 하나인 SGLang이 상업화를 위해 RadixArk라는 스타트업으로 스핀아웃하며 4억 달러(약 5,500억 원)의 기업 가치를 인정받았습니다. xAI와 Cursor 같은 선도적인 AI 기업들이 이미 SGLang을 사용하여 추론 및 학습 프로세스를 가속화하고 있는 가운데, 이번 움직임은 인프라 효율성 전쟁이 본격화되었음을 시사합니다.

SGLang은 UC 버클리(UC Berkeley)의 Ion Stoica 교수 연구실에서 탄생했습니다. Stoica 교수는 데이터브릭스(Databricks)의 공동 창업자로도 잘 알려져 있으며, vLLM과 SGLang이라는 두 개의 거대한 추론 엔진 프로젝트를 모두 배출하며 AI 인프라의 대부임을 다시 한번 증명했습니다.

추론(Inference) 시장이 폭발하는 이유

AI 모델의 크기가 커짐에 따라 서버 비용의 상당 부분이 모델 학습(Training)이 아닌 실제 서비스 단계인 추론(Inference)에서 발생하고 있습니다. RadixArk와 SGLang의 핵심 가치는 동일한 하드웨어에서 모델을 더 빠르고 효율적으로 실행할 수 있게 하여 기업의 인프라 비용을 즉각적으로 절감하는 데 있습니다.

SGLang의 강점: 유연한 스케줄링과 메모리 최적화를 통해 복잡한 LLM 워크플로우를 가속화합니다.
RadixArk의 비전: 오픈소스 엔진인 SGLang을 지속 개발하는 동시에, 강화 학습(Reinforcement Learning)을 위한 전문 프레임워크인 'Miles'를 구축하여 기업들이 더 스마트한 모델을 훈련할 수 있도록 지원합니다.

시장의 경쟁 구도

현재 시장은 vLLM을 기반으로 하는 신규 스타트업과 RadixArk, 그리고 Baseten이나 Fireworks AI 같은 추론 인프라 제공업체들 간의 치열한 경쟁이 벌어지고 있습니다. vLLM 역시 최근 10억 달러 가치로 투자 유치를 논의 중인 것으로 알려지며, '추론 효율화'가 AI 골드러시의 핵심 수익 모델로 자리 잡았음을 보여줍니다.

아키텍트의 분석: LLM 인프라의 패러다임 변화

시니어 아키텍트 관점에서 볼 때, RadixArk의 등장은 단순한 스타트업의 탄생 그 이상입니다. 이는 '모델의 성능'만큼 '서빙 아키텍처의 최적화'가 비즈니스의 생존을 결정짓는 단계에 진입했음을 의미합니다.

1. KV 캐시 및 메모리 관리의 정교화: SGLang과 vLLM의 핵심은 GPU 메모리의 효율적 관리(PagedAttention 등)에 있습니다. RadixArk는 이를 더 고도화하여 대규모 트래픽 환경에서의 지연 시간(Latency)을 획기적으로 줄이는 데 집중할 것입니다.
2. 추론에서 학습으로의 피드백 루프: Miles 프레임워크를 통한 강화 학습 지원은 추론 엔진이 단순히 '실행'에 머물지 않고, 실시간 데이터를 통해 모델을 개선하는 'Closed-loop' 시스템으로 진화하고 있음을 보여줍니다.
3. 클라우드 비용의 최적화: 엔터프라이즈 아키텍처 설계 시, 이제 자체 추론 스택을 구축하는 것보다 이러한 최적화 엔진을 활용한 Managed 서비스를 선택하는 것이 TCO(총 소유 비용) 측면에서 훨씬 유리해지고 있습니다.

원문 출처: Sources: Project SGLang spins out as RadixArk with $400M valuation as inference market explodes

IT 기사 수집

이 블로그 검색