Together AI, LLM KV 캐시 양자화 시스템 'OSCAR' 오픈소스 공개

Together AI가 LLM의 KV 캐시를 2비트로 양자화하는 'OSCAR'를 오픈소스로 공개했다. 이는 메모리 사용량을 8배 줄이고 BF16에 근접하는 정확도를 제공한다.

Mon May 25 2026

OSCAR 시스템 오픈소스 공개

Together AI가 대규모 언어 모델(LLM)의 핵심 구성 요소인 KV(Key-Value) 캐시를 양자화하는 시스템 OSCAR를 오픈소스로 공개했다. OSCAR는 KV 캐시를 2비트 정밀도로 양자화하여 메모리 사용량을 8배까지 절감할 수 있는 것이 특징이다. 이러한 기술은 특히 긴 컨텍스트를 처리하는 LLM 서비스 환경에서 효율성을 크게 향상시킬 것으로 기대된다.

메모리 효율성 및 정확도 향상

OSCAR는 메모리 사용량을 크게 줄이면서도 기존 BF16(Brain Floating Point 16) 정밀도에 근접하는 높은 정확도를 유지한다. 이는 LLM의 성능 저하 없이 운영 비용을 절감하고, 더 많은 사용자가 LLM 서비스를 이용할 수 있도록 하는 데 기여할 수 있다. 이번 오픈소스 공개는 LLM 기술의 접근성을 높이고, 관련 연구 및 개발을 촉진하는 중요한 발걸음으로 평가된다.

*출처: MarkTechPost (2026-05-25)*

Tags: #AI #LLM #TogetherAI #오픈소스 #기술