AutoScale-Automatic Prediction of Compute-optimal Data Composition for Training LLMs

May 1, 2025·

Feiyang Kang

Yifan Sun

Bingbing Wen

Si Chen

Dawn Song

Rafid Mahmood

Ruoxi Jia

· 1 min read

PDF

Abstract

We present AutoScale, a method for automatically predicting compute-optimal data composition for training large language models, improving training efficiency and model performance.

Type

Publication

COLM 2025

We present AutoScale, a method for automatically predicting compute-optimal data composition for training large language models. Our approach improves training efficiency and model performance by optimizing the data mixing strategy during pretraining.

Last updated on May 1, 2025

Large Language Models Data Composition Training Efficiency Compute Optimization

Authors

Bingbing Wen

PhD Student

← MMMG: A Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation May 20, 2025

Do Language Models Mirror Human Confidence? Exploring Psychological Insights to Address Overconfidence in LLMs May 1, 2025 →