Desenvolvedores criam leis de escalabilidade de IA para otimizar treinamento de LLMs

Pesquisadores do MIT e do MIT-IBM Watson AI Lab publicaram um estudo sobre modelos de linguagem de grande escala (LLMs).
O estudo reúne dados de 485 modelos pré-treinados de 40 famílias diferentes e analisa mais de 1,9 milhão de métricas de desempenho.
Os pesquisadores desenvolveram diretrizes para otimizar a previsão de desempenho, ajudando desenvolvedores a maximizar resultados dentro de orçamentos limitados.
A pesquisa destaca a importância de incluir checkpoints de treinamento intermediários e sugere que modelos menores podem ser preditivos.
As leis de escalonamento podem ser usadas para prever o desempenho de modelos menores a partir de modelos maiores, facilitando o acesso a técnicas avançadas de modelagem.

Pesquisadores do MIT e do MIT-IBM Watson AI Lab publicaram um novo estudo que reúne dados de centenas de modelos de linguagem e métricas de desempenho, visando otimizar a previsão de resultados em modelos de linguagem de grande escala (LLMs). O trabalho foi apresentado na International Conference on Machine Learning e propõe diretrizes para ajudar desenvolvedores a maximizar o desempenho dentro de orçamentos computacionais e financeiros limitados.

O treinamento de LLMs pode custar milhões de dólares, o que torna essencial que os desenvolvedores façam escolhas informadas sobre arquitetura, otimizadores e conjuntos de dados. Para prever a qualidade das previsões de um modelo grande, muitos recorrem a leis de escalonamento, que utilizam modelos menores para estimar o desempenho de modelos maiores. No entanto, a criação de leis de escalonamento é complexa, com milhares de abordagens possíveis.

Os pesquisadores coletaram dados de 485 modelos pré-treinados de 40 famílias diferentes, como Pythia, OPT e GPT, e analisaram mais de 1,9 milhão de métricas de desempenho. A equipe desenvolveu uma meta-análise que permite a comparação de mais de mil leis de escalonamento, oferecendo recomendações práticas para a seleção de modelos menores e a estimativa de desempenho.

Diretrizes para Previsão de Desempenho

Entre as descobertas, os pesquisadores identificaram que incluir checkpoints de treinamento intermediários melhora a precisão das previsões. Além disso, modelos menores, mesmo que parcialmente treinados, podem ser preditivos. A pesquisa sugere que, ao priorizar a formação de modelos de diferentes tamanhos, os desenvolvedores podem aumentar a robustez das estimativas de desempenho.

Os pesquisadores também notaram que as leis de escalonamento podem ser aplicadas de forma eficaz para prever o desempenho de modelos menores a partir de modelos maiores. Essa abordagem pode democratizar o acesso a técnicas avançadas de modelagem, permitindo que pesquisadores com menos recursos compreendam e construam leis de escalonamento eficazes.

O estudo destaca a importância de desenvolver modelos preditivos não apenas para o treinamento, mas também para a inferência, sugerindo que a análise de como os modelos se comportam durante o tempo de execução pode se tornar cada vez mais relevante.

Converse com o Telinha

Desenvolvedores criam leis de escalabilidade de IA para otimizar treinamento de LLMs

Diretrizes para Previsão de Desempenho

Relacionados:

Comentários 0

Veja Mais