칭화대 'CausalMix', 인과추론으로 LLM 데이터 혼합 최적화 한계 극복

칭화대 연구팀이 개발한 CausalMix가 인과추론을 활용해 훈련 데이터 풀 변화에도 LLM 혼합 비율을 안정적으로 최적화, 기존 RegMix를 능가하는 성능을 입증했다.

Thu Jul 02 2026

대규모 언어모델(LLM) 개발에서 학습 데이터 구성 최적화가 핵심 과제로 부상한 가운데, 중국 칭화대학교 연구팀이 인과추론 기반의 새 방법론 'CausalMix'를 발표해 주목받고 있다.

기존 방식의 한계

LLM 훈련에서 데이터 혼합 비율 최적화는 통상 프록시 실험을 반복해 결정한다. 그러나 훈련 데이터 풀이 바뀌면 이전 실험 결과 전체가 무효화된다는 근본적인 문제가 있었다. 새 데이터 소스가 추가될 때마다 처음부터 실험을 반복해야 하는 것이다.

CausalMix의 접근법

CausalMix는 인과추론(causal inference)을 도입해 도메인별 혼합 비율이 모델 성능에 미치는 처리 효과(treatment effect)를 추정한다. 512회의 프록시 실험 데이터를 기반으로 학습하며, 기존에 보지 못한 데이터 풀 구성에서도 일반화가 가능하다. 검증 실험에서 기존 방법론인 RegMix를 성능에서 앞선다는 결과가 확인됐다.

한국 AI 연구계에 주는 시사점

네이버, 카카오, 삼성, SK텔레콤 등 국내 주요 기업들이 자체 LLM 개발에 속도를 올리는 상황에서, 데이터 혼합 효율화 기술은 훈련 비용 절감과 직결된다. 데이터 풀이 확장될 때마다 실험을 재수행하는 비용을 줄일 수 있는 이번 연구는 국내 AI 개발 현장에서도 관심을 가질 만한 방법론으로 평가된다.

*출처: Tech Times (2026-07-02)*

Tags: #AI #기술 #LLM #머신러닝 #칭화대